CN110341700A

CN110341700A - 使用深度强化学习的自动导航

Info

Publication number: CN110341700A
Application number: CN201910262817.9A
Authority: CN
Inventors: 考希克·巴拉科瑞斯南; 普拉韦恩·纳拉亚南; 莫森·莱克哈尔-阿亚特
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-04-03
Filing date: 2019-04-02
Publication date: 2019-10-18
Also published as: US20190299978A1; US11613249B2; DE102019108477A1

Abstract

本公开提供了“使用深度强化学习的自动导航”。公开了一种用于训练自主车辆到达目标位置的方法。所述方法包括检测模拟环境中的自主车辆的状态，以及使用神经网络将所述车辆从初始位置导航到目标目的地。在所述训练阶段期间，对于所述自主车辆采取的期望动作，第二神经网络可以对第一神经网络进行奖励，并且对于所述自主车辆采取的不期望的动作，可以对所述第一神经网络进行惩罚。本文还公开并要求保护对应的系统和计算机程序产品。

Description

使用深度强化学习的自动导航

技术领域

本发明涉及车辆导航。

背景技术

停放车辆，尤其是平行停车，是一项需要大量练习和试错经验的技能。即使是经验丰富的驾驶员也倾向于避免这项任务，因为正确的操纵不仅取决于驾驶员的技能，而且还取决于很大程度上不可预测的环境因素，诸如可用停车位的坡度和面积以及相邻车辆的方位和运动。另外，与即使小错误相关联的高成本往往阻止除了最有信心的驾驶员之外的所有人。

已经开发了自动停车技术以从初始起动位置(诸如行车道)自主地将车辆移动到期望的停车位。为此，现代自动停车系统参与逐步过程，其中转向角、制动器和加速器值由车载车辆网络原地计算。考虑到车辆的当前状态和周围环境，转向角和速度的协调控制实际上确保了车辆在可用停车空间中的无碰撞方位。

尽管仍处于开发阶段，但是自动停车功能也是自主车辆的一个组成部分。这种车辆可能需要在与人类驾驶员相同的宽范围的初始条件和/或操作参数下执行平行停车操纵。另外，可能需要在特殊情况(诸如事故区域或建筑区域，其不被包括为预先确定的地图的一部分)下驾驶自主车辆。成功的导航在任何情况下都是至关重要的，因为小错误可能导致高成本。

鉴于前述内容，需要的是训练自主车辆自动到达期望目标位置的系统和方法。理想地，这种系统和方法将训练自主车辆有效且准确地响应车辆相对于最终目标目的地位置的宽范围的初始位置、方位和操作参数。此类系统和方法也是可扩展的、稳健的，并且利用试错训练来使网络能够从其错误中学习。

发明内容

本公开提供了用于训练自主车辆到达目标位置的系统和方法。在一个实施例中，根据本公开的方法可以涉及检测模拟环境中的自主车辆的状态，以及使用神经网络将所述车辆从初始位置导航到目标目的地。在所述训练阶段期间，对于所述自主车辆采取的期望动作，第二神经网络可以对第一神经网络进行奖励，并且对于所述自主车辆采取的不期望的动作，可以对所述第一神经网络进行惩罚。在一些实施例中，对应于所述期望或不期望的动作的时间差分误差信号可以用于对所述第一神经网络进行奖励或惩罚。

附图说明

为了易于理解本发明的优点，将通过参考附图中所示出的特定实施例来呈现上面简要描述的本发明的更具体的描述。应当理解，这些附图仅描绘本发明的典型实施例，并且因此不应被视为限制本发明的范围，将通过使用附图更具体和详细地描述和解释本发明，在附图中：

图1是示出计算系统的一个示例的高级框图，其中可以实现根据本发明的系统和方法；

图2是示出根据本发明的某些实施例的用于训练自主车辆到达目标目的地的系统的部件的高级框图；

图3是示出根据本发明的实施例的自动操纵过程的流程图；

图4是示出根据本发明的某些实施例的训练自主车辆执行垂直停车的高级示意图；

图5是示出根据本发明的某些实施例的训练自主车辆执行成角度的停车的高级示意图；

图6是示出根据本发明某些实施例的提供平行停车空间和事故区域的模拟环境的高级示意图；以及

图7是示出根据本发明某些实施例的使用深度强化学习的自动车辆导航过程的流程图。

具体实施方式

参考图1，示出了计算系统100的一个示例。呈现计算系统100以示出可以实现根据本发明的系统和方法的环境的一个示例。计算系统100可以体现为移动装置100，诸如智能电话或平板计算机、台式计算机、工作站、服务器等。计算系统100是通过示例的方式呈现的，而非旨在进行限制。实际上，除了所示的计算系统100之外，本文公开的系统和方法可以适用于各种不同的计算系统。本文公开的系统和方法还可以潜在地跨多个计算系统100分布。

如图所示，计算系统100包括至少一个处理器102，并且可以包括一个以上的处理器102。处理器102可以可操作地连接到存储器104。存储器104可以包括一个或多个非易失性存储装置，诸如硬盘驱动器104a、固态驱动器104a、CD-ROM驱动器104a、DVD-ROM驱动器104a、磁带驱动器104a等。存储器104还可以包括非易失性存储器，诸如只读存储器104b(例如，ROM、EPROM、EEPROM和/或闪速ROM)；或易失性存储器，诸如随机存取存储器104c(RAM或操作存储器)。总线106或多个总线106可以互连处理器102、存储器装置104和其他装置，以使数据和/或指令能够在它们之间传递。

为了实现与外部系统或装置进行通信，计算系统100可以包括一个或多个端口108。此类端口108可以体现为有线端口108(例如，USB端口、串行端口、火线端口、SCSI端口、并行端口等)或无线端口108(例如，蓝牙、IrDA等)。端口108可以实现与一个或多个输入装置110(例如，键盘、鼠标、触摸屏、相机、传声器、扫描仪、存储装置等)和输出装置112(例如，显示器、监视器、扬声器、打印机、存储装置等)进行通信。端口108还可以实现与其他计算系统100进行通信。

在某些实施例中，计算系统100包括有线或无线网络适配器114，以将计算系统100连接到网络116，诸如LAN、WAN或因特网。此类网络116可以使计算系统100能够连接到一个或多个服务器118、工作站120、个人计算机120、移动计算装置或其他装置。网络116还可以使计算系统100能够通过路由器122或其他装置122连接到另一个网络。此类路由器122可以允许计算系统100与位于不同网络上的服务器、工作站、个人计算机或其他装置进行通信。

如前面所提及，目前正在开发自主车辆技术，其目的是提供能够执行与人类操作员相同的功能和操纵的具有甚至更高的精度和效率的全自主车辆。在各种情况下的自动停车和导航对于自主车辆功能是至关重要的。本发明的实施例通过训练模拟环境中的自主车辆以有效且准确地响应相对于最终目标目的地位置的车辆的一系列初始位置、方位和操作参数来解决该问题。

如下面详细讨论的，根据本发明的用于使用深度强化学习的自动导航自主车辆的系统可以在逐步过程中将自主车辆从初始位置引导到期望目标位置。在某些实施例中，转向角、制动器值和加速器值可以由车载神经网络原地计算。该网络可以接收车辆的当前位置和方位作为来自传感器阵列的输入。可以实现两个独特的深度强化学习框架-深度Q网络和异步优势(“A3N”)执行器-评价器网络-来训练车载网络。来自这些框架的输出可以实时地馈送到自主车辆的控制系统中以执行操纵。

现在参考图2，根据本发明的用于使用深度强化学习的自动导航的系统200可以包括具有传感器208阵列和自动操纵系统206的自主车辆。这些子系统可以与自主车辆上的神经网络交互，以训练神经网络准确且有效地到达目标目的地。

传感器208可以包括例如相机传感器、激光雷达传感器、雷达传感器、位置或GPS传感器、超声传感器等。从各种传感器208收集的信息可以由车载神经网络处理并由自动操纵系统206接收。以这种方式，传感器208可以基本上连续地通知和更新自动操纵系统206关于自主车辆的当前状态，包括其位置、方位和状态。

另外，传感器208可以向显示编译器210提供关于自主车辆的当前状态的信息。可以经由车载网络周期性地或基本上连续地将此类信息传送到显示编译器210。显示编译器210可以结合来自周围区域的预先确定的地图212(诸如由GPS数据提供的那些)的信息来使用该信息，以进行实时计算并产生与自主车辆的导航相关的图形表示。该编译数据可以被传送到仪表板214以显示给用户，如下面更详细地讨论的。

在某些实施例中，仪表板214或其他用户界面可以对用户可见，以实现对系统200的激活和控制。在一些实施例中，仪表板214可以显示在远程计算机、移动电话、智能装置等上，并且可以通过适当的无线通信技术(诸如Wi-Fi连接、蜂窝数据连接、因特网、或本领域技术人员已知的其他通信技术)与神经网络保持连接。

仪表板214可以使用户能够经由激活机构202来激活系统。仪表板214还可以包括监视器204或其他显示装置，以使用户能够监视自主车辆的状态和/或其周围环境。在某些实施例中，激活机构202可以包括物理按钮、屏幕上的虚拟按钮、语音命令、鼠标点击、手指触摸等。在一些实施例中，监视器204可以提供自主车辆的实时初始位置，并且激活机构202可以与监视器204结合操作以使用户能够通过选择监视器204上的最终目的地来激活自动操纵系统206。

现在参考图3，本发明的实施例可以结合自动操纵系统206，所述自动操纵系统206是可扩展的、有效的、稳健的，并且可以考虑自主车辆相对于其最终或目标目的地的宽范围的初始位置和/或方位。自动操纵系统206可以包括深度强化学习框架，并且可以在模拟环境中实现，其中可以使用大量试错来训练车载神经网络。在某些实施例中，自动操纵系统206可以训练车载神经网络以使用探索-利用权衡来从错误中学习。

为此，根据本发明的自动操纵系统206的实施例可以执行某些方法300步骤。例如，自动操纵系统206可以由用户经由激活机构202(诸如物理按钮、屏幕上的虚拟按钮、语音命令、鼠标点击、屏幕上的手指触摸等)来激活302。在一些实施例中，激活机构202可以是可见的并且可由用户经由远程装置的物理或虚拟仪表板214访问。在其他实施例中，激活机构202可以位于自主车辆上。在某些实施例中，激活机构202可以允许用户选择自主车辆的目标目的地，或者用户可以经由监视器204或本领域技术人员已知的其他机制或装置来选择目标目的地。

自动操纵系统206可以通过确定对应于所选目的地的位置和/或方向坐标来确认304所选目的地作为自主车辆的最终目的地。可以通过参考由车载传感器208(包括GPS传感器)收集的数据和/或预先确定的地图212来确定位置坐标。方向坐标可以包括例如自主车辆的最终航向角或转向角。在一个实施例中，最终目的地或目标位置可以表示为(x，y，h)_F，其中x和y是垂直横轴上的位置，h是最终的航向角。

在一些实施例中，自动操纵系统206可以确定306在周围区域内的驾驶边界，以便于将自主车辆从初始位置导航到最终目标目的地，而不受来自附近的物体或障碍物的干扰。驾驶边界可以包括例如静止物体或障碍物，诸如道路标志、树木、建筑物、水体等。可以通过参考传感器208数据和/或预先确定的地图212来确定驾驶边界。

在基于驾驶边界确定安全驾驶区域后，可以使用传感器208数据和预先确定的地图212来对自主车辆进行定位308。定位308自主车辆可以包括确定车辆的方位、车辆的位置、控制状态、转向角等。除了最终目的地坐标和驾驶边界之外，该信息可以由车载神经网络经由车载传感器208接收310。

在某些实施例中，强化学习控制框架可以包括深度Q网络，其使用探索-利用权衡来从错误中学习。如下面更详细地讨论的，深度Q网络可以利用大量试错，其中对良好动作进行奖励并且对不良动作进行惩罚。在一个实施例中，ε-贪婪策略可以用于在神经网络的训练期间的探索与利用决策。

可以处理并利用由车载神经网络接收的310信息来将车辆从其初始位置导航312到其最终位置。在一些实施例中，基于该信息，神经网络可以确定对车辆转向角、加速度和/或制动的适当增量调整，以使自主车辆能够到达最终目标目的地。

例如，在一个实施例中，系统可以最初在时间t_t处被激活302。车载神经网络可以接收310对应于t_t的自主车辆的传感器信息，并且可以利用强化学习控制框架来处理此类信息。基于该信息，适当的车辆控制或设置在时间t_t+1处可以确定并用于将自主车辆导航312到新位置。

可以将对应于新位置的位置和方向坐标与最终目的地进行比较314。如果新位置坐标与最终目的地坐标匹配，则方法300可以结束。如果不是，则方法300可以返回以对车辆进行定位308并且重复过程300直到自主车辆到达最终目的地。

现在参考图4，本发明的某些实施例可以提供具有垂直停车空间404的模拟环境400。如上面所讨论，在一些实施例中，深度Q网络可以用于训练自主车辆402以自动占据可用的垂直停车空间404。

自主车辆402可以包括车载传感器阵列以从外部环境收集数据。传感器阵列可以包括例如图像相机传感器、深度相机传感器、红外相机传感器、激光雷达传感器、雷达传感器、超声传感器等。该数据可以输入到自动操纵系统206中并与预先确定的地图数据结合使用，以训练自主车辆402正确且有效地操纵到垂直停车空间404中。

在一些实施例中，用户可以激活系统并选择垂直停车空间404作为目标目的地。使用来自车载传感器阵列的数据以及预先确定的地图信息，自动操纵系统206可以确定对应于垂直停车空间404的位置和/或方向坐标。自动操纵系统206可以通过识别和定位周围区域中的驾驶边界来确定安全驾驶区域。如图所示，例如，驾驶边界可以包括路沿406和停放在相邻停车空间中的其他车辆408。

车载传感器可以进一步收集关于自主车辆402的当前状态的信息，包括其位置和方位。自动操纵系统206可以将该信息输入到车载神经网络的强化学习框架中以进行处理。基于该信息，强化学习框架可以向自主车辆402输出适当的车辆控制指示或设置，诸如转向角、加速度和制动。

在一个实施例中，例如，强化学习框架可以确定自主车辆402应该将其转向角调整15度并且在一秒的时间段内减速2mph。这些指示可以输入到车辆控制系统中，从而产生车辆动作。在一秒时间过后，可以确定自主车辆402的新位置。可以重复该过程，直到自主车辆402的新位置与垂直停车空间404的坐标匹配，使得自主车辆402正确地定位在垂直停车空间404内。

在训练阶段期间利用深度Q网络的实施例中，强化学习框架可以包括执行器网络和评价器网络。第一神经网络或执行器网络可以确定适当的车辆控制指示或设置以由车辆控制系统实现，而第二神经网络或评价器网络可以根据那些指示监视自主车辆402采取的动作。

第二神经网络或评价器网络可以分析自主车辆402所采取的每个动作，以确定准确且有效地将自主车辆402操纵到垂直停车空间404或其他最终目标目的地是有益的还是有害的。如果所采取的动作是期望的或有益的，则第二神经网络可以通过生成特定信号来奖励第一神经网络。如果所采取的动作对于有效地将自主车辆402导航到目标目的地是不期望或有害的，则第二神经网络经由时间差分误差信号对第一神经网络进行惩罚。以这种方式，评价器网络训练执行器网络以在训练阶段期间执行有益的动作并且从其错误中“学习”。

在某些实施例中，重放缓冲区可以存储过去的车辆状态、在每个状态下采取的动作，以及应用的对应奖励和惩罚。对于训练，可以从重放缓冲区中采样一小批数据并用于训练每个神经网络。当重放缓冲区已满时，旧数据可以被丢弃并被从最近的性能集中获得的新数据替换。

现在参考图5，本发明的另一个实施例可以提供具有成角度的停车空间504的模拟环境500。在该实施例中，可以使用诸如A3C的执行器-评价器公式。具体地，多个自主车辆502、506可以基本上同时导航到对应的成角度的停车空间504、508。它们所产生的性能可以由中央主执行器累积并用于训练它们各自的神经网络。

如图所示，例如，第一自主车辆502可以相对于第一成角度的停车空间504定位并取向在特定位置。第二自主车辆506可以相对于第二成角度的停车空间508定位并取向在相同位置。在每种情况下，第一自主车辆502和第二自主车辆504中的每一个的最终目标目的地可以分别是第一成角度停车空间504和第二成角度停车空间508。

每个自主车辆502、506的自动操纵系统206可以由用户激活，以将自主车辆502、506中的每一个从它们的初始位置自动地操纵到它们各自的成角度的停车空间504、508。每个自动操纵系统206可以独立操作以探索状态-动作空间，从而确定用于导航的良好策略。如上所述，与每个车辆502、506相关联的车载传感器阵列可以基本上连续地收集关于其对应自主车辆502、506的当前状态的信息。该信息可以被传送到与每个自主车辆502、506相关联的车载神经网络以进行处理。

对应于例如自主车辆502中的一个或中央主执行器的指定网络可以在探索相同环境500时基于从每个自主车辆502、506接收的信息更新两个自主车辆502、506的神经网络。在每个神经网络应用奖励和惩罚之后产生的权重或分数可以跨不同的自主车辆502、506网络共享。以这种方式训练多个自主车辆502、506可以导致更快的学习，因为多个自主车辆502、506跨网络的多个线程并行地执行相同的任务。

现在参考图6，某些实施例可以结合双框架系统，其中深度Q网络和A3C执行器-评价器公式可以用于训练自主车辆610到达根据本发明的目标目的地。

本发明的一个实施例可以利用深度Q网络框架和A3C框架两者训练自主车辆610以执行各种任务(即，停车、对事故或建筑区域进行导航等)。然后可以分析每个框架的性能以确定哪个框架在相空间的哪个区域中更好地执行。

例如，在一个实施例中，深度Q网络框架可以在自主车辆的初始位置处展示更好的性能，而A3C框架可以在其最终目的地处或附近展示更好的性能。该信息可以存储在查询表中，该查询表识别框架中的每一个框架在性能上优于另一个框架的各种位置或区域。查询表可以本地存储在自主车辆610上。可替代地，查询表可以远程存储在服务器或数据库上，并且经由V2V通信、WiFi、因特网或本领域技术人员已知的其他通信方法传送到自主车辆610。在任何情况下，根据本发明的实施例的自动导航系统的激活还可以触发更好性能框架的激活，这取决于车辆610的状态和要执行的任务。

如图所示，根据本发明的模拟环境600的一个实施例可以包括自主车辆610，其将可用的平行停车空间614作为其目标目的地。本发明的实施例可以访问查询表以确定深度Q网络在初始车辆610位置处优于A3C框架，而A3C框架直到自主车辆610接近平行停车空间614时才优于深度Q网络。因此，响应于指示自主车辆610位于其初始位置的传感器数据，可以自动触发深度Q网络，而响应于指示自主车辆610已移动到更靠近平行停车空间614的位置的改变的传感器数据，可以自动触发A3C框架。

在另一个实施例中，自主车辆610可以具有目标目的地612，其要求自主车辆610进行左转弯606通过十字路口。然而，由于试图进行相同左转弯的在前车辆602和在相反方向行驶的公共汽车604之间的碰撞616，从自主车辆610的初始位置到目标目的地612的直接路径可能受到阻碍。

根据本发明的实施例，训练自主车辆610以避免到其目标目的地612的途中的碰撞616还可以利用双框架来确定每个相空间的哪些区域中更好地执行。在一些实施例中，可以针对相空间的每个区域计算分数，并且可以与对应框架相关联。如上所讨论，可以根据针对对应动作收到的奖励和惩罚来计算分数。对于相空间的特定区域具有最高分数的框架可以被识别为该区域的更好的执行器。如上所讨论，该信息然后可以记录在查询表中，并且可以基于自主车辆610所在的区域来触发适当的框架。

现在参考图7，根据本发明的实施例的用于使用深度强化学习的自动车辆导航的过程700可以包括检测702车辆状态。车辆状态可以包括例如其位置、方位、转向角、控制状态等。可以通过参考传感器数据以及参考来自外部源(诸如周围区域的预先确定的地图)的数据来确定车辆状态。

然后，车辆可以开始导航704到目标目的地。目标目的地可以由用户选择，并且可以将对应于目标目的地的位置坐标输入到自动操纵系统中。自动操纵系统可以处理该信息以使车辆能够采取连续动作以到达目标目的地。对于所采取的每个动作，过程700可以询问706动作是否是期望的。如果是，则系统可以生成信号以针对该动作对网络进行奖励708。如果不是，则系统可以生成信号以针对该动作对网络进行惩罚710。

在任一种情况下，所接收的奖励或惩罚可以与在重放缓冲区中采取并存储12的动作相关联。可以对来自重放缓冲区的数据进行采样并用于训练网络。在某些实施例中，还可以将数据传送714到中央主执行器，诸如与指定的自主车辆相关联的网络或处理器。中央主执行器可以处理信息并利用从与在相同情况下执行相同任务的其他自主车辆相关联的网络获得的信息来累积该信息。然后，可以将累积的信息传播716回与那些自主车辆相关联的网络，以促进更快的学习。

在以上公开内容中，参考附图，该附图形成本公开的一部分，并且其中通过说明方式示出可以实践本公开的具体实现方式。应当理解，在不脱离本公开的范围的情况下，可以利用其他实现方式并且可以做出结构改变。本说明书中对于“一个实施例”、“实施例”、“示例性实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每一个实施例都可能不一定包括所述特定特征、结构或特性。此外，此类短语不一定是指同一个实施例。此外，当结合实施例描述特定特征、结构或特性时，无论是否明确描述，结合其他实施例实现此类特征、结构或特性都在本领域技术人员的知识范围内。

本文公开的系统、装置和方法的实现方式可以包括或利用专用或通用计算机，其包括计算机硬件，诸如本文所讨论的一个或多个处理器和系统存储器。本公开的范围内的实现方式还可以包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这种计算机可读介质可以为可以由通用或专用计算机存取的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。携带计算机可执行指令的计算机可读介质是传输介质。因此，通过示例而非限制的方式，本公开的实现方式可以包括至少两个截然不同类别的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如，基于RAM)、闪速存储器、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁性存储装置或可用于存储期望的程序代码手段的任何其他介质，所述程序代码手段呈计算机可执行指令或数据结构的形式并且可以由通用或专用计算机访问。

本文所公开的装置、系统和方法的实现方式可以通过计算机网络进行通信。“网络”被定义为能够在计算机系统和/或模块和/或其他电子装置之间传输电子数据的一个或多个数据链路。当通过网络或另一种通信连接(硬接线、无线或硬接线或无线的组合)向计算机传递或提供信息时，计算机正确地将连接视为传输介质。传输介质可以包括网络和/或数据链路，其可以用于以计算机可执行指令或数据结构的形式携带期望的程序代码单元并且可以由通用或专用计算机访问。以上的组合也应该包括在计算机可读介质的范围内。

计算机可执行指令包括例如指令和数据，所述指令和数据当在处理器处执行时使通用计算机、专用计算机或专用处理装置执行特定功能或功能组。计算机可执行指令可以是例如二进制代码、中间格式指令(诸如汇编语言)或甚至源代码。尽管已经用特定于结构特征和/或方法动作的语言描述了本主题，但是应当理解，在所附权利要求中定义的主题不必限于上面已描述的所述特征或动作。相反，所述特征和动作被公开作为实现权利要求的示例性形式。

本领域技术人员将了解，本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些计算机系统配置包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持装置、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机、各种存储装置等。本公开还可以在分布式系统环境中实践，其中通过网络链接(通过硬接线数据链路、无线数据链路或通过硬接线与无线数据链路的组合)的本地和远程计算机系统都执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器存储装置两者中。

此外，在适当的情况下，本文描述的功能可以在以下一个或多个中执行：硬件、软件、固件、数字部件或模拟部件。例如，可以编程一个或多个专用集成电路(ASIC)以执行本文描述的系统和过程中的一个或多个。贯穿描述和权利要求使用某些术语以指代特定的系统部件。如本领域技术人员将了解，部件可以用不同的名称来表示。本文并不旨在区分名称不同但功能相同的部件。

应当注意，上面讨论的传感器实施例可以包括计算机硬件、软件、固件或它们的任何组合以执行其功能的至少一部分。例如，传感器可以包括被配置成在一个或多个处理器中执行的计算机代码，并且可以包括由计算机代码控制的硬件逻辑/电路。本文出于示出目的提供这些示例性装置，而并不旨在进行限制。本公开的实施例可以在如一种或多种相关领域技术人员所已知的其他类型的装置中实现。

本公开的至少一些实施例涉及计算机程序产品，其包括(例如，以软件形式)存储在任何计算机可用介质上的此类逻辑。当此类软件在一种或多种数据处理装置中执行时使装置如本文所描述进行操作。

虽然上文已描述本公开的各种实施例，但是应当理解，仅通过示例而非限制的方式呈现了本公开的各种实施例。相关领域技术人员将明白，可以在不脱离本公开的精神和范围的情况下做出形式和细节方面的各种改变。因此，本公开的广度和范围不应受任何上述示例性实施例的限制，而是应仅根据以下权利要求和其等效物定义。出于示出及描述目的已呈现了以上描述。不旨在穷举或将本公开限制为所公开的精确形式。鉴于上述教导，许多修改和变化是可能的。此外，应当注意，任何或所有上述替代实现方式可以以期望的任何组合使用以形成本公开的附加混合实现方式。

根据本发明，一种方法，包括：通过至少一个传感器检测模拟环境中的自主车辆的状态；通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；对于在训练阶段期间由所述自主车辆采取的有益动作，通过第二神经网络对所述第一神经网络进行奖励；以及对于采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。

根据一个实施例，所述第一神经网络和所述第二神经网络中的每一个在所述训练阶段期间在所述自主车辆上。

根据一个实施例，所述至少一个传感器选自由相机传感器、激光雷达传感器、雷达传感器、GPS传感器和超声传感器组成的组。

根据一个实施例，所述状态包括所述自主车辆的位置和方位中的至少一个。

根据一个实施例，对所述第一神经网络进行奖励包括向所述第一神经网络提供对应于所述有益动作的第一时间差分误差信号。

根据一个实施例，对所述第一神经网络进行惩罚包括向所述第一神经网络提供对应于所述有害动作的第二时间差分误差信号。

根据一个实施例，上述发明的特征还在于在重放缓冲区中存储以下至少一者：所述自主车辆的状态、在所述对应状态下采取的动作，以及对应于所述动作的奖励和惩罚中的至少一个。

根据一个实施例，上述发明的特征还在于对所述重放缓冲区进行采样以训练所述第一神经网络。

根据一个实施例，上述发明的特征还在于根据所述训练，将所述自主车辆从所述初始位置反复地导航到所述目标目的地。

根据一个实施例，导航包括将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。

根据本发明，提供了一种系统，其用于训练自主车辆到达目标位置，所述系统具有：自主车辆，其包括至少一个传感器；至少一个处理器；和至少一个存储器装置，其可操作地联接到所述至少一个处理器并存储用于在所述至少一个处理器上执行的指令，所述指令使所述至少一个处理器：利用所述至少一个传感器检测模拟环境中的所述自主车辆的状态；通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；对于在训练阶段期间由所述自主车辆采取的有益动作，经由第二神经网络对所述第一神经网络进行奖励；以及对于在所述训练阶段期间由所述自主车辆采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。

根据一个实施例，所述指令还使所述处理器在重放缓冲区中存储以下至少一者：所述自主车辆的状态、在所述对应状态下采取的动作，以及对应于所述动作的奖励和惩罚中的一个。

根据一个实施例，所述指令还使处理器将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。

根据本发明，提供了一种计算机程序产品，其具有计算机可读存储介质，所述计算机可读存储介质具有包含在其中的计算机可用程序代码，所述计算机可用程序代码被配置成当由至少一个处理器执行时执行以下操作：利用至少一个传感器检测模拟环境中的自主车辆的状态；通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；对于在训练阶段期间由所述自主车辆采取的有益动作，经由第二神经网络对所述第一神经网络进行奖励；以及对于在所述训练阶段期间由所述自主车辆采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。

根据一个实施例，所述计算机可用程序代码还被配置成将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。

Claims

1.一种方法，其包括：

通过至少一个传感器检测模拟环境中的自主车辆的状态；

通过第一神经网络将所述自主车辆从初始位置导航到目标目的地；

对于在训练阶段期间由所述自主车辆采取的有益动作，通过第二神经网络对所述第一神经网络进行奖励；以及

对于采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。

2.如权利要求1所述的方法，其中所述第一神经网络和所述第二神经网络中的每一个在所述训练阶段期间在所述自主车辆上。

3.如权利要求1所述的方法，其中所述至少一个传感器选自由相机传感器、激光雷达传感器、雷达传感器、GPS传感器和超声传感器组成的组。

4.如权利要求1所述的方法，其中所述状态包括所述自主车辆的位置和方位中的至少一个。

5.如权利要求1所述的方法，其还包括：在重放缓冲区中存储以下至少一者：所述自主车辆的状态、在所述对应状态下采取的动作，以及对应于所述动作的奖励和惩罚中的至少一个。

6.如权利要求5所述的方法，其还包括对所述重放缓冲区进行采样以训练所述第一神经网络。

7.如权利要求1所述的方法，其中导航包括：将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。

8.一种用于训练自主车辆到达目标位置的系统，其包括：

自主车辆，所述自主车辆包括至少一个传感器；

至少一个处理器；和

至少一个存储器装置，所述至少一个存储器装置可操作地联接到所述至少一个处理器并存储用于在所述至少一个处理器上执行的指令，所述指令使所述至少一个处理器：

利用所述至少一个传感器检测模拟环境中的所述自主车辆的状态；

对于在训练阶段期间由所述自主车辆采取的有益动作，经由第二神经网络对所述第一神经网络进行奖励；以及

对于在所述训练阶段期间由所述自主车辆采取的有害动作，通过所述第二神经网络对所述第一神经网络进行惩罚。

9.如权利要求8所述的系统，其中所述第一神经网络和所述第二神经网络中的每一个在所述训练阶段期间在所述自主车辆上。

10.如权利要求8所述的系统，其中所述至少一个传感器选自由相机传感器、激光雷达传感器、雷达传感器、GPS传感器和超声传感器组成的组。

11.如权利要求8所述的系统，其中所述状态包括所述自主车辆的位置和方位中的至少一个。

12.如权利要求8所述的系统，其中所述指令还使所述处理器在重放缓冲区中存储以下至少一者：所述自主车辆的状态、在所述对应状态下采取的动作，以及对应于所述动作的奖励和惩罚中的一个。

13.如权利要求8所述的系统，其中所述指令还使所述处理器将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。

14.一种计算机程序产品，其包括计算机可读存储介质，所述计算机可读存储介质具有包含在其中的计算机可用程序代码，所述计算机可用程序代码被配置成当由至少一个处理器执行时执行以下操作：

利用至少一个传感器检测模拟环境中的自主车辆的状态；

15.如权利要求14所述的计算机程序产品，其中所述计算机可用程序代码还被配置成将多个自主车辆从所述初始位置导航到所述目标位置，以及将信息从对应于所述自主车辆中的每一个的神经网络传送到中央主执行器。