CN111507157A

CN111507157A - 基于强化学习而在自动驾驶时优化资源分配的方法及装置

Info

Publication number: CN111507157A
Application number: CN202010059382.0A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-19
Publication date: 2020-08-07
Anticipated expiration: 2040-01-19
Also published as: JP6982897B2; KR20200096096A; US10503174B1; JP2020125102A; EP3690708A1; KR102277531B1; CN111507157B

Abstract

本发明是基于强化学习而在自动驾驶时优化资源分配的方法及装置。本发明涉及用于自动驾驶车辆的优化资源分配所需的方法及装置。更详细而言，其特征在于，包括：(a)步骤，计算装置获得至少一个注意力传感器数据后，使注意力网络计算一个以上的注意力分值；(b)步骤，所述计算装置使探测网络至少一个视频数据，并参照所述视频数据，生成至少一个自动驾驶用判断数据；(c)步骤，所述计算装置使驱动网络获得表示行驶中的所述自动驾驶车辆周边情况变化的至少一个情况数据，并参照所述情况数据，生成至少一个奖励；(d)步骤，所述计算装置使所述注意力网络，以所述奖励为参照，调整所述神经网络运算中使用的一个以上参数的至少一部分。

Description

基于强化学习而在自动驾驶时优化资源分配的方法及装置

技术领域

本发明涉及用于自动驾驶车辆的方法及装置。更详细而言，涉及一种在基于强化学习的、自动驾驶时执行高效资源分配的方法。

背景技术

自动驾驶系统由于耗电大，因而节省电力是重要的。作为构成自动驾驶系统的构成要素之一的照相机，其电力消耗大，在特定情况下，即，在冷清的高速公路上行驶，周边不存在障碍物时，或在特定方向上不存在障碍物时，可以只需要较少数量的照相机。在这种情况下，如果使所有照相机运转，则存在浪费大量电力的大问题。

因此，需要一种能够减小这种电力浪费、高效分配诸如电力的资源的技术，如要以CNN(Convolutional Neural Network，卷积神经网络)来体现这种技术，则由于无法轻松定义这种情况的GT(Grand Truth，地面真值)，因而难以明确地定义损失，因而造成学习困难。因此，可以利用不需要GT的作为深度学习方法之一的强化学习。但是，如要通过强化学习来学习这种功能，则需在模块的实际运转中进行学习。例如，在自动驾驶的情况下，为了执行强化学习，车辆需要实际行驶。但是，在车辆实际行驶并学习的情况下，发生车辆事故的可能性高。

发明内容

本发明的目的在于解决上述问题。

本发明目的在于，在基于强化学习的自动驾驶时，执行高效资源分配，减小自动驾驶车辆的电力消耗。

本发明目的在于，提供自动驾驶车辆借助于强化学习而优化资源分配的虚拟空间，从而减小学习过程中的潜在的危险要素。

本发明的目的是通过以下技术方案实现的：

根据本发明的一个方面，提供一种借助于强化学习而在自动驾驶时执行高效资源分配的方法，其特征在于，包括：(a)步骤，计算装置获得至少一个注意力传感器数据后，使注意力网络参照所述注意力传感器数据，执行至少一个神经网络运算，从而计算一个以上的注意力分值；(b)步骤，所述计算装置使探测网络参照所述注意力分值，借助于自动驾驶车辆上安装的一个以上照相机中至少一部分而获得至少一个视频数据，并参照所述视频数据，生成至少一个自动驾驶用判断数据；(c)步骤，所述计算装置使驱动网络参照所述判断数据，使所述自动驾驶车辆行驶，获得表不行驶中的所述自动驾驶车辆周边情况变化的至少一个情况数据，并参照所述情况数据，生成至少一个奖励；(d)步骤，所述计算装置使所述注意力网络参照所述奖励，调整所述神经网络运算中使用的一个以上参数的至少一部分。

一个实施例，提供一种方法，其特征在于，在所述(a)步骤中，所述神经网络运算包括供所述注意力传感器数据输入的至少一个卷积层、至少一个池化层、至少一个全连接FC层及输出所述注意力分值的至少一个柔性最大值传输函数SoftMax层的运算，对于所述自动驾驶车辆附近空间包括的各角度范围，均决定至少一个行驶危险等级。

一个实施例，提供一种方法，其特征在于，在所述(b)步骤中，

所述计算装置使所述探测网络获得与具有第一临界值以上的所述注意力分值的特定角度范围对应的、所述自动驾驶车辆上安装的特定照相机的特定视频数据。

一个实施例，提供一种方法，其特征在于，在所述(b)步骤中，所述计算装置使所述探测网络使用至少一个区域被设置为至少一个关注区域ROI的所述视频数据，生成所述判断数据，且所述区域是与具有第一临界值以上的注意力分值的特定角度范围对应的区域。

一个实施例，提供一种方法，其特征在于，在所述(c)步骤中，所述情况数据包括(i)关于距所述自动驾驶车辆既定距离内至少一个相邻的周边车辆的至少一个车辆喇叭是否为使用中的信息、(ii)所述至少一个相邻的周边车辆的速度变化信息、(iii)所述自动驾驶车辆与所述相邻的周边车辆的至少一个事故信息中至少一部分。

一个实施例，提供一种方法，其特征在于，在所述(a)步骤中，所述注意力传感器数据使用雷达获得，或使用激光雷达获得，或使用两者获得，在使用所述激光雷达或使用所述雷达及所述激光雷达两者而获得所述注意力传感器数据的情况下，所述计算装置使所述注意力网络参照所述注意力传感器数据所包含的三维坐标，生成至少一个稀疏深度图像，对所述稀疏深度图像应用至少一个平滑运算，生成至少一个高密度深度图像，并参照所述高密度深度图像，执行所述神经网络运算，从而计算所述注意力分值。

一个实施例，提供一种方法，其特征在于，所述自动驾驶车辆在虚拟空间中体现，通过所述自动驾驶车辆在所述虚拟空间行驶的过程，调整所述参数的至少一部分。

一个实施例，提供一种方法，其特征在于，参照在所述虚拟空间中位于距所述自动驾驶车辆既定距离以内的一个以上虚拟客体间关系的相关信息，对所述注意力传感器数据、所述视频数据、所述情况数据的变形进行编程，从而获得所述注意力传感器数据、所述视频数据、所述情况数据。

一个实施例，提供一种方法，其特征在于，对所述虚拟空间进行编程，使得(i)使得如果检测到存在距所述自动驾驶车辆既定距离以内的周边车辆在第一临界时间内与所述自动驾驶车辆碰撞的可能性，则使所述虚拟空间中的至少一个所述周边车辆鸣响喇叭，(ii)如果检测到存在所述周边车辆在第二临界时间内与所述自动驾驶车辆碰撞的可能性，则减小所述周边车辆的速度；所述第一临界时间大于或等于所述第二临界时间。

根据本发明的另一个方面，提供一种借助于强化学习而在自动驾驶时执行高效资源分配的计算装置，其特征在于，包括：存储指令的至少一个存储器；及至少一个处理器，所述至少一个处理器构成为运行用于执行如下流程的所述指令：(I)使注意力网络参照至少一个注意力传感器数据，执行至少一个神经网络运算，从而计算一个以上的注意力分值；(II)使探测网络参照所述注意力分值，借助于自动驾驶车辆上安装的一个以上照相机中至少一部分而获得至少一个视频数据，并参照所述视频数据，生成至少一个自动驾驶用判断数据；(III)使驱动网络参照所述判断数据，使所述自动驾驶车辆行驶，获得表示行驶中的所述自动驾驶车辆周边情况变化的至少一个情况数据，并参照所述情况数据，生成至少一个奖励；(IV)使所述注意力网络参照所述奖励，调整所述神经网络运算所使用的一个以上的参数的至少一部分。

一个实施例，提供一种计算装置，其特征在于，在所述(I)流程中，所述神经网络运算包括供所述注意力传感器数据输入的至少一个卷积层、至少一个池化层、至少一个FC层及输出所述注意力分值的至少一个SoftMax层的运算，对于所述自动驾驶车辆附近空间包括的各角度范围，均决定至少一个行驶危险等级。

一个实施例，提供一种计算装置，其特征在于，在所述(II)流程中，所述处理器使所述探测网络获得与具有第一临界值以上的所述注意力分值的特定角度范围对应的、所述自动驾驶车辆上安装的特定照相机的特定视频数据。

一个实施例，提供一种计算装置，其特征在于，在所述(II)流程中，

所述处理器使所述探测网络使用至少一个区域被设置为至少一个ROI的所述视频数据，生成所述判断数据，且所述区域是与具有第一临界值以上的注意力分值的特定角度范围对应的区域。

一个实施例，提供一种计算装置，其特征在于，在所述(III)流程中，所述情况数据包括(i)关于距所述自动驾驶车辆既定距离内至少一个相邻的周边车辆的至少一个车辆喇叭是否为使用中的信息、(ii)所述至少一个相邻的周边车辆的速度变化信息、(iii)所述自动驾驶车辆与所述相邻的周边车辆的至少一个事故信息中至少一部分。

一个实施例，提供一种计算装置，其特征在于，在所述(I)流程中，所述注意力传感器数据使用雷达获得，或使用激光雷达获得，或使用两者获得，在使用所述激光雷达或使用所述雷达及所述激光雷达两者而获得所述注意力传感器数据的情况下，所述处理器使所述注意力网络参照所述注意力传感器数据所包含的三维坐标，生成至少一个稀疏深度图像，对所述稀疏深度图像应用至少一个平滑运算，生成至少一个高密度深度图像，并参照所述高密度深度图像，执行所述神经网络运算，从而计算所述注意力分值。

一个实施例，提供一种计算装置，其特征在于，所述自动驾驶车辆在虚拟空间中体现，通过所述自动驾驶车辆在所述虚拟空间行驶的过程，调整所述参数的至少一部分。

一个实施例，提供一种计算装置，其特征在于，参照在所述虚拟空间中位于距所述自动驾驶车辆既定距离以内的一个以上的虚拟客体间关系的相关信息，对所述注意力传感器数据、所述视频数据、所述情况数据的变形进行编程，从而获得所述注意力传感器数据、所述视频数据、所述情况数据。

一个实施例，提供一种计算装置，其特征在于，对所述虚拟空间进行编程，使得(i)如果检测到存在距所述自动驾驶车辆既定距离以内的周边车辆在第一临界时间内与所述自动驾驶车辆碰撞的可能性，则使所述虚拟空间中的至少一个所述周边车辆鸣响喇叭，(ii)如果检测到存在所述周边车辆在第二临界时间内与所述自动驾驶车辆碰撞的可能性，则减小所述周边车辆的速度；所述第一临界时间大于或等于所述第二临界时间。

与现有技术相比，本发明的优点在于：

本发明提供借助于强化学习而在自动驾驶时执行高效资源分配的方法，从而具有可以减小自动驾驶车辆的电力消耗的效果。

本发明提供自动驾驶车辆借助于强化学习而优化资源分配的虚拟空间，从而具有可以减小学习过程中的潜在危险要素的效果。

附图说明

为了用于说明本发明实施例而附带的下面的图，只是本发明实施例中的一部分，本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业，基于这些图获得其他图。

图1是根据本发明一个实施例概略地示出执行基于强化学习的自动驾驶时高效资源分配的计算装置的构成的图。

图2是根据本发明一个实施例概略地示出执行基于强化学习的自动驾驶时高效资源分配的过程的图。

图3是出示本发明一个实施例的为了高效资源分配而执行的神经网络运算的一个示例的图。

图4是示出本发明一个实施例的为了高效资源分配而计算的注意力分值(Score)的一个示例的图。

具体实施方式

后述有关本发明的详细说明，参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明，以便从业人员足以实施本发明。本发明的多样实施例虽然互不相同，但应理解为不需要相互排他。例如，在此记载的特定形状、结构及特性，可以与一个实施例相关联，在不超出本发明的精神及范围的前提下体现为其他实施例。另外，各个公开的实施例内的个别构成要素的位置及配置，应理解为在不超出本发明的精神及范围的前提下可以进行变更。因此，后述的详细说明并非出于限定之意，本发明的范围，如能适当说明，则仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中，类似的附图标记指称在多个方面相同或类似的功能。

另外，在本发明的详细说明及权利要求中，“包括”字样的术语及其变形，并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言，本发明的其他目的、优点及特性，一部分从本说明书，而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的，并非意图限定本发明。

本发明中提及的各种图像可以包括铺装或非铺装道路相关图像，是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像，但并非必须限定于此，本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像)，是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像，但并非必须限定于此。

下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明，参照附图，就本发明优选实施例进行详细说明。

图1是根据本发明一个实施例概略地示出执行基于强化学习的、自动驾驶时高效资源分配的计算装置的构成的图。

参照图1，计算装置100包括注意力网络130、探测网络140及驱动网络150。注意力网络130、探测网络140及驱动网络150的输入输出及运算过程可以分别借助于通信部110及处理器120而实现。不过，在图1中，省略了通信部110及处理器120的具体连接关系。此时，存储器115可以为存储了后述指令的状态，处理器120设置成执行存储器115中存储的指令，且处理器120执行稍后说明的流程，从而执行本发明。如上所述描述了学习装置100，学习装置100并非排除包括为了实施本发明所需的处理器、存储器、介质(medium)或任意其他计算组件的任意组合的统合装置。

计算装置100的构成如上所述，下面以图2为参照，概括地考查以下各个构成是如何联动、运转的。

图2是概略地示出根据本发明一个实施例执行基于强化学习的、自动驾驶时高效资源分配的过程的图。

参照图2，注意力网络130获得或支持其他装置获得稍后将详细说明的至少一个注意力传感器数据。注意力网络130利用注意力传感器数据计算或支持其他装置计算一个以上的注意力分值，探测网络140执行或支持其他装置执行如下流程：参照注意力分值，借助于自动驾驶车辆上安装的一个以上照相机中的至少一部分获得至少一个视频数据；参照获得的视频数据，生成至少一个自动驾驶用判断数据。然后，驱动网络150执行或支持其他装置执行如下流程：参照自动驾驶用判断数据，使自动驾驶车辆行驶；获得表示行驶中的自动驾驶车辆的周边情况变化的至少一个情况数据。而且，驱动网络150参照情况数据，生成或支持其他装置生成强化学习所使用的至少一个奖励。而且，注意力网络130参照奖励，调整或支持其他装置调整神经网络运算中一个以上参数的至少一部分。

以上通过图2，考查了本发明概括性的流程，下面更详细地考查本发明的具体执行方式。

首先，获得注意力传感器数据后，计算装置100可以使注意力网络130，参照注意力传感器数据，执行神经网络运算。

其中，所谓注意力传感器数据，是从自动驾驶车辆上安装的传感器获得的数据，其可以使用雷达获得，或使用激光雷达(Lidar)获得，或使用雷达及激光雷达两者而获得。在不使用激光雷达而只使用雷达来获得注意力传感器数据的情况下，注意力网络130可以直接以此为参照，执行神经网络运算。但是，在使用激光雷达的情况下，即，在使用激光雷达和雷达两者来而获得注意力传感器数据的情况下，或不使用雷达而使用激光雷达而获得注意力传感器数据的情况下，由于数据不是面向执行神经网络运算而优化的状态，因而需要对此进行预处理的过程，下面对预处理过程进行考查。

借助于激光雷达而获得的注意力传感器数据，是沿着激光扫描线测量至激光反射地点的距离而获得的，包括以自动驾驶车辆为中心排列成同心圆形态的三维坐标。预处理包括利用这种三维坐标而进行三维坐标的投影(projection)及平滑(smoothing)的过程。具体而言，如果将三维坐标投影于虚拟的平面上，则生成包含关于各像素的各个距离的信息的稀疏深度图像。然后，为了填充稀疏深度图像中间各处空白的部分，对稀疏深度图像应用至少一个平滑运算，从而可以生成高密度深度图像。注意力网络130可以参照这种高密度深度图像而执行神经网络运算。

可以通过图3确认借助于注意力网络130而实现的神经网络运算。

图3是示出本发明一个实施例的为了高效资源分配而执行的神经网络运算的一个示例的图。

参照图3，神经网络运算包括：一个以上的卷积层，输入注意力传感器数据或对其进行了预处理的高密度深度图像；对卷积层的结果应用至少一个池化运算的至少一个池化层；对池化层的结果应用一个以上FC(Fully Connected，全连接)运算的一个以上FC层；及输出所述注意力分值的至少一个柔性最大值传输函数(SoftMax)层。当然，图3所示的构成是一个示例，各个层也可以用一个以上其他层替代，或在本构成中追加至少一个其他层，或删除特定层。

这种神经网络运算针对以自动驾驶车辆为中心的既定空间，按各个角度范围将行驶时的危险度转换成点数并进行判断，是用于输出注意力分值的运算。参照图4对危险度进行具体说明。

图4是示出本发明一个实施例的为了高效资源分配而计算的注意力分值的一个示例的图。

参照图4可知，在显示出自动驾驶车辆200的周边的全景图像220上，与客体较多的一部分特定方向对应的注意力分值210中的一部分测量值较高。全景图像220是为了帮助理解而配置的，实际上不是利用这种全景图像220，而是利用从高密度深度图像或从雷达获得的注意力传感器数据，生成注意力分值。图4的示例性注意力分值210，与作为一部分特定方向的222方向和223方向对应的注意力分值中的一部分图示得较高。即，当在特定方向检测到大量客体时，一个以上的客体朝向自动驾驶车辆200移动，或存在由此导致的潜在性危险升高的可能性，因此，相应方向的行驶危险等级决定为较高，与该方向对应的相应角度范围的注意力分值计算得较高。这种注意力分值210由探测网络140计算后是否发生某种效果，稍后将重新参照图4再次说明。

如此计算注意力分值后，计算装置100可以使探测网络140参照注意力分值，借助于自动驾驶车辆200上安装的一个以上照相机中的至少一部分而获得至少一个视频数据，参照视频数据，生成至少一个自动驾驶用判断数据。

即，选择自动驾驶车辆上安装的照相机中的至少一部分，利用由相应照相机的至少一部分所拍摄的视频来执行计算，从而与使用所有照相机相比，可以使照相机使用的电力消耗实现最小化。此时，利用与因存在潜在危险性而需对此进行应对的一部分方向对应的照相机的至少一部分的视频，这对提高安全性有帮助，而为此使用了注意力分值。

即，再次参照图4，222及223方向的注意力分值高，因而获得拍摄自动驾驶车辆200的222及223方向的照相机的视频数据。作为选择照相机的基准的注意力分值可以根据其值是否大于第一临界值而决定。即，探测网络140可以获得与注意力分值为第一临界值以上的特定角度范围对应的自动驾驶车辆200上安装的特定照相机所生成的特定视频数据。

或者，注意力分值可以用于决定至少一个ROI，即，关注区域(Region-of-Interest)。再次以图4为例，视频数据本身通过全部照相机获得，而决定实际应用运算的ROI时，如ROI全景图像230所示，判断为行驶危险等级高的方向的图像可以决定为用于一个以上ROI所需的基础(Source)。即，探测网络140可以在将与注意力分值为第一临界值以上的特定角度范围对应的一个以上区域设置为ROI的状态下，执行之后的流程。

本发明如上所述选择照相机的至少一部分的视频数据或设置图像的ROI，从而具有可以减小探测网络140及驱动网络150的运算量的效果。如上所述经过用于减少运算量的流程后，探测网络140可以参照借助于照相机中至少一部分而获得的视频数据，生成自动驾驶用判断数据，或参照视频数据中至少一部分中设置的ROI，生成自动驾驶用判断数据。

探测网络140可以探测视频数据包含的图像上的客体，计算发挥自动驾驶用判断数据功能的所述客体的距离及/或位置后，以此为基础，决定自动驾驶车辆200将行进的至少一个路径。探测网络140可以生成这种自动驾驶用判断数据，本发明以用于高效资源分配所需的强化学习方法为其着眼点，因而省略对自动驾驶用判断数据具体生成方法的说明。

生成了自动驾驶用判断数据后，计算装置100可以使驱动网络150，参照自动驾驶用判断数据，使自动驾驶车辆200行驶，获得表示行驶中自动驾驶车辆200周边情况变化的至少一个情况数据，并参照情况数据，生成作为强化学习的结果的至少一个奖励。

驱动网络150可以根据自动驾驶用判断数据包括的、自动驾驶车辆200将行进的至少一个路径，使自动驾驶车辆200行驶。驱动网络150操纵自动驾驶车辆200的部分也一样，由于是不同于本发明着眼点的部分，因而省略对其具体说明。

自动驾驶车辆200可以在行驶的同时，获得表示其周边情况变化的情况数据。情况数据可以包括(i)关于距所述自动驾驶车辆既定距离内至少一个相邻的周边车辆的至少一个车辆的喇叭是否为使用中的信息、(ii)所述至少一个相邻的周边车辆的速度变化信息、(iii)所述自动驾驶车辆与所述相邻的周边车辆的至少一个事故信息中至少一部分。驱动网络150可以参照情况数据来生成奖励，奖励涉及到调整神经网络运算所使用的参数，因而意味着参照如上所述的信息来调整参数。

喇叭使用与否信息、速度变化信息及事故信息可以成为判断自动驾驶车辆200是否正在安全行驶的基准。这是因为，如果自动驾驶车辆200正在安全地行驶，则周边车辆不会操纵喇叭，不会降低速度，不会与自动驾驶车辆200碰撞。如果喇叭被操纵、速度降低、发生碰撞等事故，则驱动网络150降低奖励，从而使得自动驾驶车辆200更安全地行驶。下面将对此更具体说明。

计算装置100可以使注意力网络130，参照奖励来调整神经网络运算所使用的参数。注意力网络130根据奖励来决定参数的变化方向，作为一个示例，如果奖励低，则注意力网络130可以使用更多照相机的视频数据，将ROI设置得更宽，从而探测网络140针对更广阔范围的区域进行检查，可以更安全地行驶。作为又一示例，可以调整参数而使得注意力分值整体导出得较高。通过这种强化学习的算法执行方式，能够在高效使用照相机的同时安全地实现自动驾驶。

如上所述的本发明具有几个优点，但这种方式的学习过程需在实际道路行驶中实现，需与单纯输入准备好的训练图像的CNN普通学习过程相反地执行。即，在本发明的所述示例的情况下，如果未充分执行学习过程，则在实际道路行驶过程中，事故几率会非常高。因此，作为用于解决该问题的方案，本发明提出在虚拟空间(Virtual Space)中的学习。具体事项如下。

自动驾驶车辆200及距自动驾驶车辆200既定距离以内的至少一个周边车辆，可以编程使得存在于虚拟空间。此时，自动驾驶车辆200可以获得的注意力传感器数据、视频数据及情况数据，可以编程使得利用在虚拟空间中位于自动驾驶车辆200周边的虚拟客体间关系的相关信息而获得。就注意力传感器数据而言，由于可以容易地计算虚拟空间上的自动驾驶车辆200与其周边虚拟客体间的距离，因而可以与借助于雷达或激光雷达而生成的数据格式类似地生成注意力传感器数据，视频数据也一样，根据虚拟空间内部的视点而生成图像，从而可以使其与实际数据类似。情况数据也可以类似地生成，但为此需要对虚拟周边车辆追加逻辑，因而下面对此进行考查。

为了获得情况数据，虚拟周边车辆鸣响喇叭、减小速度的逻辑需已事先编程。具体而言，虚拟空间可以编程使得(i)如果检测到存在距所述自动驾驶车辆200既定距离以内的周边车辆在第一临界时间内与所述自动驾驶车辆碰撞的可能性，则所述虚拟空间中的至少一个所述周边车辆鸣响喇叭，(ii)如果检测到存在所述周边车辆在第二临界时间内与所述自动驾驶车辆200碰撞的可能性，则减小所述周边车辆的速度。其中，所述第一临界时间可以大于或等于所述第二临界时间，这是因为，鸣响喇叭往往是驾驶员讨厌减小自身速度才鸣响的。当然，这只是一个实施例，第一临界时间与第二临界时间的大小关系可以任意设置。

在如上所述体现了虚拟周边车辆的逻辑的情况下，也可以获得与真实世界(real-world)类似的情况数据。自动驾驶车辆200可以如上所述在虚拟空间体现，可以在其中行驶的过程中，调整神经网络运算所使用的参数，从而进行学习。如此体现学习过程，可以通过虚拟空间，体现与实际类似的空间，因而具有的优点是可以在虚拟空间上，针对各种情况，即，针对车辆多的拥堵情况、在拐弯多的路上行驶的情况、在丘陵曲折路上行驶的情况等，无事故地安全地进行学习。

以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态，记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的，或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中，包括诸如硬盘、软盘及磁带的磁介质，诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质，诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media)，及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中，不仅有借助于编译程序而制成的机器语言代码，还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理，可以构成为一个以上的软件模块而运转，反之亦然。

以上根据诸如具体构成要素等的特定事项和限定的实施例及附图，对本发明进行了说明，但这只是为了帮助更全面理解本发明而提供的，并非本发明限定于所述实施例，只要是本发明所属技术领域的技术人员，便可以从这种记载导出多样的修订及变形。

因此，本发明的思想不局限于所述说明的实施例而确定，后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

Claims

1.一种借助于强化学习而在自动驾驶时执行高效资源分配的方法，其特征在于，包括：

(a)步骤，计算装置获得至少一个注意力传感器数据后，使注意力网络参照所述注意力传感器数据，执行至少一个神经网络运算，从而计算一个以上的注意力分值；

(b)步骤，所述计算装置使探测网络参照所述注意力分值，借助于自动驾驶车辆上安装的一个以上照相机中至少一部分而获得至少一个视频数据，并参照所述视频数据，生成至少一个自动驾驶用判断数据；

(c)步骤，所述计算装置使驱动网络参照所述判断数据，使所述自动驾驶车辆行驶，获得表不行驶中的所述自动驾驶车辆周边情况变化的至少一个情况数据，并参照所述情况数据，生成至少一个奖励；

(d)步骤，所述计算装置使所述注意力网络参照所述奖励，调整所述神经网络运算中使用的一个以上参数的至少一部分。

2.根据权利要求1所述的方法，其特征在于，

在所述(a)步骤中，

所述神经网络运算包括供所述注意力传感器数据输入的至少一个卷积层、至少一个池化层、至少一个全连接FC层及输出所述注意力分值的至少一个柔性最大值传输函数SoftMax层的运算，对于所述自动驾驶车辆附近空间包括的各角度范围，均决定至少一个行驶危险等级。

3.根据权利要求1所述的方法，其特征在于，

在所述(b)步骤中，

4.根据权利要求1所述的方法，其特征在于，

在所述(b)步骤中，

所述计算装置使所述探测网络使用至少一个区域被设置为至少一个关注区域ROI的所述视频数据，生成所述判断数据，且所述区域是与具有第一临界值以上的注意力分值的特定角度范围对应的区域。

5.根据权利要求1所述的方法，其特征在于，

在所述(c)步骤中，

所述情况数据包括(i)关于距所述自动驾驶车辆既定距离内至少一个相邻的周边车辆的至少一个车辆喇叭是否为使用中的信息、(ii)所述至少一个相邻的周边车辆的速度变化信息、(iii)所述自动驾驶车辆与所述相邻的周边车辆的至少一个事故信息中至少一部分。

6.根据权利要求1所述的方法，其特征在于，

在所述(a)步骤中，

所述注意力传感器数据使用雷达获得，或使用激光雷达获得，或使用两者获得，

在使用所述激光雷达或使用所述雷达及所述激光雷达两者而获得所述注意力传感器数据的情况下，所述计算装置使所述注意力网络参照所述注意力传感器数据所包含的三维坐标，生成至少一个稀疏深度图像，对所述稀疏深度图像应用至少一个平滑运算，生成至少一个高密度深度图像，并参照所述高密度深度图像，执行所述神经网络运算，从而计算所述注意力分值。

7.根据权利要求1所述的方法，其特征在于，

所述自动驾驶车辆在虚拟空间中体现，通过所述自动驾驶车辆在所述虚拟空间行驶的过程，调整所述参数的至少一部分。

8.根据权利要求7所述的方法，其特征在于，

参照在所述虚拟空间中位于距所述自动驾驶车辆既定距离以内的一个以上虚拟客体间关系的相关信息，对所述注意力传感器数据、所述视频数据、所述情况数据的变形进行编程，从而获得所述注意力传感器数据、所述视频数据、所述情况数据。

9.根据权利要求7所述的方法，其特征在于，

对所述虚拟空间进行编程，使得(i)使得如果检测到存在距所述自动驾驶车辆既定距离以内的周边车辆在第一临界时间内与所述自动驾驶车辆碰撞的可能性，则使所述虚拟空间中的至少一个所述周边车辆鸣响喇叭，(ii)如果检测到存在所述周边车辆在第二临界时间内与所述自动驾驶车辆碰撞的可能性，则减小所述周边车辆的速度；所述第一临界时间大于或等于所述第二临界时间。

10.一种借助于强化学习而在自动驾驶时执行高效资源分配的计算装置，其特征在于，包括：

存储指令的至少一个存储器；及

至少一个处理器，所述至少一个处理器构成为运行用于执行如下流程的所述指令：(I)使注意力网络参照至少一个注意力传感器数据，执行至少一个神经网络运算，从而计算一个以上的注意力分值；(II)使探测网络参照所述注意力分值，借助于自动驾驶车辆上安装的一个以上照相机中至少一部分而获得至少一个视频数据，并参照所述视频数据，生成至少一个自动驾驶用判断数据；(III)使驱动网络参照所述判断数据，使所述自动驾驶车辆行驶，获得表示行驶中的所述自动驾驶车辆周边情况变化的至少一个情况数据，并参照所述情况数据，生成至少一个奖励；(IV)使所述注意力网络参照所述奖励，调整所述神经网络运算所使用的一个以上的参数的至少一部分。

11.根据权利要求10所述的计算装置，其特征在于，

在所述(I)流程中，

所述神经网络运算包括供所述注意力传感器数据输入的至少一个卷积层、至少一个池化层、至少一个FC层及输出所述注意力分值的至少一个SoftMax层的运算，对于所述自动驾驶车辆附近空间包括的各角度范围，均决定至少一个行驶危险等级。

12.根据权利要求10所述的计算装置，其特征在于，

在所述(II)流程中，

所述处理器使所述探测网络获得与具有第一临界值以上的所述注意力分值的特定角度范围对应的、所述自动驾驶车辆上安装的特定照相机的特定视频数据。

13.根据权利要求10所述的计算装置，其特征在于，

在所述(II)流程中，

14.根据权利要求10所述的计算装置，其特征在于，

在所述(III)流程中，

15.根据权利要求10所述的计算装置，其特征在于，

在所述(I)流程中，

在使用所述激光雷达或使用所述雷达及所述激光雷达两者而获得所述注意力传感器数据的情况下，所述处理器使所述注意力网络参照所述注意力传感器数据所包含的三维坐标，生成至少一个稀疏深度图像，对所述稀疏深度图像应用至少一个平滑运算，生成至少一个高密度深度图像，并参照所述高密度深度图像，执行所述神经网络运算，从而计算所述注意力分值。

16.根据权利要求10所述的计算装置，其特征在于，

17.根据权利要求16所述的计算装置，其特征在于，

参照在所述虚拟空间中位于距所述自动驾驶车辆既定距离以内的一个以上的虚拟客体间关系的相关信息，对所述注意力传感器数据、所述视频数据、所述情况数据的变形进行编程，从而获得所述注意力传感器数据、所述视频数据、所述情况数据。

18.根据权利要求16所述的计算装置，其特征在于，

对所述虚拟空间进行编程，使得(i)如果检测到存在距所述自动驾驶车辆既定距离以内的周边车辆在第一临界时间内与所述自动驾驶车辆碰撞的可能性，则使所述虚拟空间中的至少一个所述周边车辆鸣响喇叭，(ii)如果检测到存在所述周边车辆在第二临界时间内与所述自动驾驶车辆碰撞的可能性，则减小所述周边车辆的速度；所述第一临界时间大于或等于所述第二临界时间。