CN111566583A

CN111566583A - 自适应路径规划的系统和方法

Info

Publication number: CN111566583A
Application number: CN201980002217.7A
Authority: CN
Inventors: 王彬宇; 时浩邦; 方来发
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2019-10-04
Filing date: 2019-10-21
Publication date: 2020-08-21

Abstract

描述了使用局部学习和全局规划来提供自适应路径规划技术的系统和方法。实施例的自适应路径规划提供全局指引并且基于局部学习来执行局部规划，其中全局指引提供从起始位置到所选目的地的、穿过动态环境的规划的路径，而局部规划在到达目的地过程中提供了环境中的动态交互，例如对进入规划的路径的障碍物作出响应。全局指引可以结合初始全局路径与历史信息，以提供避免经常发生交通冲突的地点的全局路径。局部规划使用局部深度强化学习来指导自动车辆在动态环境中穿过全局路径的交互，例如响应于进入全局路径的障碍物。可以生成顺序局部地图，用于局部学习技术所使用的深度学习模型。

Description

自适应路径规划的系统和方法

【技术领域】

本发明涉及自适应路径规划，特别涉及利用局部学习和全局规划的自适应路径规划技术。

【背景技术】

在当今世界，各种形式的自动汽车(AV)越来越流行。例如，在工业化国家中，在仓库和工厂中使用的自动导航汽车、自动送货车和自动导引车(AGV)形式的AV即使没有广泛使用，也并不罕见。

路径规划算法，也称为路径查找算法，通常用于AV进行导航到所需目的地。流行的路径规划方法通常实施静态搜索算法，例如Dijkstra(请参见“Anote on two problems inconnexion with graphs与图有关的两个问题的注释”，Numerische Mathematik.1：269-271，Dijkstra，E.，其公开内容通过引用并入本文)和A*(参见“A Formal Basis for theHeuristic Determination of Minimum Cost Paths启发式确定最小成本路径的正式基础”，IEEE Transactions on Systems Science and Cybemetics SSC4.4(2)：100-107.Hart，P.E.；Nilsson，N.J.；Raphael，B.，其公开内容通过引用并入本文)。这种静态搜索算法在静态环境中获得最佳路径是非常有用的。

但是，AV可能会在多车和动态环境中运行(例如，仓库、工厂或城市街道网格中，有其他AV、非自动化车辆正在运行，人和其他自主生物正在交互等)。这些动态环境特征会导致AV在沿着计划路径运行时受到未知障碍物的阻碍。这种延迟会导致任何预先计划变得过时，因为AV的交互可能会导致死锁，对时间要求严格的任务就会有完不成风险。

现有的实施静态搜索算法的路径规划方法需要在动态环境中进行重复的重新规划，以处理与障碍物(例如其路径中的其他AV)的冲突。但是，这种重复的重新计划再规划有着高昂的计算成本，并且可能需要可观大量的计算时间，从而导致执行任务的延迟。对于多个目标节点(例如在环境中运行的多个其他AV)，A*路径规划方法不起作用，并且需要良好的启发式功能来进行有效的路径规划。与A*方法相比，Dijkstra方法进行路径规划的计算成本要高得多。

协同方法已被用于约束机器人来确定路线图，从而为路径规划提供了一个完整且相对快速的解决方案，可以避免作为协同对象的AV之间发生冲突。例如，用于非完整车辆的近似最优的多车辆方法可以专注于避免移动障碍物的曲线路径。但是，这种协同方法中的问题考虑范围不够广，无法直接在复杂的动态环境(例如上述仓库、工厂或城市街道网格)中使用。

基于学习的算法，例如基于深度和强化学习的实时在线路径规划方法(参见中国专利公开号CN106970615A，其公开内容通过引用并入本文)和强化学习A*和深度启发式方法(参见“Reinforcement Learning with A*and a Deep Heuristic”arXiv，2018年11月19日，https：//arxiv.org/abs/1811.07745，Kesleman，A.；Ten，S.；Ghazali，A；Jubeh，M，其公开内容通过引用并入本文)已经提出了用于路径规划。但是，这些基于学习的算法尚未针对复杂、动态环境的路径规划提供适当的解决方案。例如，基于深度和强化学习的实时在线路径规划方法不能很好地推广到非常大的环境，并且在复杂环境中的性能很差。强化学习的A*和深度启发式方法在复杂环境中的表现也很差。

【发明内容】

本发明涉及利用局部学习和全局规划来提供自适应路径规划的系统和方法。根据本发明实施例的局部学习和全局规划的自适应路径规划以相对较低的计算成本动态地提供了有效的路径，避免了频繁的交通冲突点。根据本发明的自适应路径规划方法，其中使用了局部学习和全局规划，动态地确定可以有效率地(如关于行驶距离和计算成本)到达所选目的地的路径，同时避免频繁的交通冲突。这样的自适应路径规划方法非常适合复杂、多车辆、动态环境(如仓库、工厂或城市街道网格，其中运行大量其他AV和其他障碍物，包括移动的和静态的)。

根据本发明实施例，利用局部学习和全局规划的自适应路径规划用于提供全局指引并基于局部学习来执行局部规划。根据实施例，全局指引提供了穿过动态环境的、从起始位置到所选目的地的一条规划的路径，而局部规划是在到达目的地过程中，提供动态环境内的动态交互，例如对障碍物进入规划的路径作出响应。

根据实施例提供的全局指引实施预规划，以提供一条初始全局路径，并将该预规划与历史信息相结合以提供一条全局路径，避免频繁交通冲突点。例如，在全局指引实施的预规划可以利用一个或多个静态搜索算法来生成初始全局路径，用于动态环境中运行的AV。关于环境中的交通冲突的历史信息可以被用来修改初始全局路径，从而避免频繁的交通冲突点。因此，实施例组合初始全局路径和历史信息以提供全局指引，为动态环境中运行的AV提供主要指引。

根据实施例提供的局部规划实施局部训练，以提供环境内的动态交互。例如，局部规划中实施的局部训练可以使用局部深度强化学习(DRL)来指导动态环境中穿过全局路径的AV的交互，例如响应于进入全局路径的障碍物。根据实施例，可以生成顺序局部地图，用于局部学习技术所使用的深度学习模型。

根据本发明实施例，使用局部学习和全局规划的自适应路径规划技术提供了适应性和通用性，从而促进了该技术对于各种动态环境的应用。例如，实施例的自适应路径规划技术适合于大的动态环境中的路径规划，同时付出合理的计算成本。

前面已经相当广泛地概述了本发明的特征和技术优点，以便可以更好地理解随后的本发明的详细描述。在下文中将描述本发明的其他特征和优点，其形成本发明权利要求的主题。本领域技术人员应该理解，所公开的概念和具体实施例可以容易地用作修改或设计其他结构的基础而实现本发明相同目的。本领域技术人员还应该认识到，这种等同结构不脱离所附权利要求中阐述的本发明的精神和范围。当结合附图考虑时，从以下描述将更好地理解被认为是本发明的特征的新颖特征，有关其组织和操作方法，以及其他目的和优点。然而，应该清楚地理解，提供的每个附图仅仅是为了说明和描述的目的，而不是作为对本发明限制的定义。

【附图说明】

为了更完整地理解本公开，现在结合附图参考以下描述，其中：

图1显示本发明实施例的使用局部学习和全局规划的自适应路径规划方法流程图；

图2显示本发明实施例的基于处理器的系统，该系统被配置为使用局部学习和全局规划来实施自适应路径规划方法；

图3显示动态环境的一个示例，根据本发明实施例可以对该动态环境实施使用局部学习和全局规划的自适应路径规划方法；

图4显示本发明实施例的动态环境内的初始全局路径的确定；

图5显示本发明实施例的使用关于初始全局路径的历史信息以提供全局路径；

图6显示本发明实施例的生成顺序局部地图用于局部规划逻辑实施的深度学习模型；

图7显示本发明实施例的局部路径规划器的深度强化学习(DRL)智能体的双深度Q学习(DDQN)功能运行；

图8显示本发明实施例的局部规划运行。

【具体实施方式】

图1显示本发明的使用局部学习和全局规划的自适应路径规划方法流程图。特别地，如将在下面进一步详细描述的，图1的流程100提供了一个示例性实施例的使用局部学习和全局规划来提供全局指引并基于局部学习来执行局部规划的自适应路径规划。根据流程100，为自动车辆(AV)，例如在动态环境中运行的自导航车、自动送货车、自动导引车(AGV)、无人机、无人驾驶航空器(UAV)等，提供了从起始位置到选定目的地的通过动态环境的计划路径。通过本发明的自适应路径规划技术为其提供路径规划和/或引导的AV在本文中可以被称为智能体AV，而在动态环境内运行的其他AV可以被称为移动障碍物。根据流程100实施的局部规划，控制环境中的智能体AV的动态交互，以便于其到达全局路径目的地。

图2显示本发明的基于处理器的系统200，其被配置使用局部学习和全局规划来实施自适应路径规划方法。基于处理器的系统200可以包括自适应路径规划系统，例如可以包括控制器平台的一部分，用于可在动态环境中运行的一个或多个智能体AV。例如，基于处理器的系统200可以包括一个在智能体AV内部实施的控制系统(例如车辆控制单元(VCU)、电子控制单元(ECU)、车载计算机(OBC)等)，以控制AV。根据一些实施例，基于处理器的系统200可以包括一个在智能体AV外部实施的控制系统(例如服务器系统、个人计算机系统、笔记本计算机系统、平板电脑系统、智能手机系统等)，例如可以提供对一个或多个AV的控制。在AV内部或外部实施的控制系统，在本文中被统称为AV控制器，其中自适应路径规划系统可以与这种AV控制器集成。但是应当理解，本发明的自适应路径规划系统可以独立于AV控制系统来实施。

在所示实施例的基于处理器的系统200中，中央处理单元(CPU)201连接到系统总线202。CPU 201可以包括通用CPU，例如来自英特尔公司的CORE系列处理器的处理器、来自Advanced Micro Devices公司的ATHLON系列处理器的处理器、来自AIM Alliance的POWERPC系列处理器的处理器等。然而，本发明并不受CPU 201的体系结构的限制，只要CPU201支持本文所述发明的运行。例如，实施例的CPU 201可以包括一个或多个专用处理器，例如专用集成电路(ASIC)、图形处理单元(GPU)、现场可编程门阵列(FPGA)等。总线202将CPU201连接到随机存取存储器(RAM)203(例如SRAM、DRAM、SDRAM等)和ROM 204(例如PROM、EPROM、EEPROM等)。RAM 203和ROM 204保存用户和系统数据和程序，例如可以包括使用局部学习和全局规划及其相关数据来执行自适应路径规划功能的一些或全部上述程序代码。

所示实施例的基于处理器的系统200的总线202还连接到输入/输出(I/O)适配器205、通信适配器211、用户接口适配器208和显示适配器209。I/O适配器205连接到存储设备206(例如一个或多个硬盘驱动器、光盘驱动器、固态驱动器等)，连接到CPU 201和RAM 203，以便交换用于执行使用局部学习和全局规划的自适应路径规划功能的程序代码和/或相关数据。存储设备206可以存储自适应路径规划系统的程序代码(例如程序逻辑)、由自适应路径规划系统使用的数据，例如历史信息、动态环境的属性等。所示实施例的I/O适配器205还将传感器214(例如照相机、接近检测器、加速计、麦克风、测距仪等)连接至CPU 201和RAM203，例如用于系统检测和以其他方式确定是否存在障碍物和其他物品。I/O适配器205还可以附加地或替代地提供各种其他设备的连接，诸如打印机(例如点矩阵打印机、激光打印机、喷墨打印机、热敏打印机等)，以方便期望的功能(例如允许系统打印纸质副本，如规划的路径、学习操作的结果和/或其他信息文档)。通信适配器211被配置以将基于处理器的系统200连接到网络212(例如蜂窝通信网络、LAN、WAN、因特网等)。实施例的通信适配器211可以包括WiFi网络适配器、蓝牙接口、蜂窝通信接口、网状网络接口(如ZigBee，Z-Wave等)、网络接口卡(NIC)等。所示实施例的用户接口适配器208和显示适配器209可以便于用户与基于处理器的系统200的交互。例如，用户接口适配器208可以将一个或多个用户输入设备(例如键盘、指点设备、触摸屏、麦克风等)连接到基于处理器的系统200，以便在需要时方便用户输入。显示适配器209可以将一个或多个用户输出设备(例如平板显示器、触摸屏、平视显示器、全息投影仪等)连接到基于处理器的系统200，以在需要时方便用户输出。应当理解，可以根据期望或确定为适当的，包含或省略基于处理器的系统200的前述功能的各个方面，这取决于基于处理器的系统特定例子的具体实施(例如提供智能体AV内部实施的AV控制器，提供智能体AV外部实施的控制系统等)。

再次参考图1，利用局部学习和全局规划的自适应路径规划方法有助于动态确定动态环境中的路径，智能体AV可以有效地到达选定目的地(例如相对于行驶距离和计算成本)，避免环境中经常发生的交通冲突。动态环境可以包括任何一种环境，例如可以包括仓库区、工厂园区、城市街道网，其他AV、非自动车辆、人和其他自主生物等(例如移动障碍物)可能正在其中运行或以其他方式交互。根据本发明的一些实施例，动态环境包括其中存在大量其他AV和其他障碍物(移动的和静态的)的环境。不管智能体AV运行其中的特定动态环境如何，示例性流程100的步骤101提供该环境的初始化。实现流程100的自适应路径规划系统的环境初始化逻辑可以建立动态环境的属性，例如通过使用各种环境参数(如环境参数151)：大小、形状、边缘位置、固定障碍物位置、障碍物体积信息(如宽度、长度和/或高度)、关注点、通道、通道尺寸(如宽度和/或长度)、智能体任务信息(如动态环境中运行的一个或多个智能体的任务数量)、地形、形态等。例如，本发明实施例的环境参数可以以具有边缘和节点的图的形式提供，其中边缘可以确定通道，以权重表示长度或移动成本，其中节点可以确定边缘之间的交互(例如智能体可以改变其方向的位置)。本发明实施例的环境初始化描绘了动态环境的各个方面，以便提供一个基础框架(如包括动态环境的地图或地图集)，在该基础框架上路径规划可以覆盖动态环境中运行的AV的一个或多个路径。

图3显示动态环境的一个示例，以图形方式示为动态环境300。环境参数151可以包括提供动态环境300图形表示的数据(如地图)和/或定义动态环境300的数据(如各种环境参数)。所示示例的动态环境300由包围动态环境区域的边缘301-304确定。在图3的动态环境300内示出了各种特征。例如，动态环境300包括多个固定障碍物(例如包括仓库的棚架和墙壁、机器、设备、以及工厂的墙壁、建筑物、路缘石、人行道中线、和城市街道网格中的公用事业基础设施等)，其中一些在图中被标为障碍物311。动态环境300还包括多个通道(例如仓库或工厂中的过道、大厅和通道、城市街道网格中的道路、桥梁、高架桥、小路和车道等)，其中一些在图中被标为通道321。

所示示例的动态环境300显示了一个简化版本的相对规则和有规律的环境配置，例如可以表示一个仓库环境。应当理解，实施例可以容纳其他环境配置，例如不规则或随机的配置(例如固定障碍物没有规则地间隔或摆放的配置)。此外，图3所示示例尽管高度简化了动态环境以帮助理解本发明概念，但是可以理解，这种动态环境的配置，包括非常复杂的动态环境，可以使用参数(例如上面关于自适应路径规划的环境初始化所描述的那些环境参数151)来定义。

应当理解，尽管动态环境300表示AV、非自动车辆、人和其他自主生物等正在其中运行或以其他方式交互的动态环境，但是并不需要提供关于这些移动障碍物的信息作为环境初始化的一部分。例如，移动障碍物信息可能很快就变得过时，因此在路径规划中几乎没有价值，因此可以在自适应路径规划方法考虑此类数据时或接近考虑时才收集和/或提供以用于自适应路径规划。因此，环境参数151可以不包括关于移动障碍物的信息。

关于在动态环境中运行的智能体AV的路径规划，为智能体AV提供了穿过至少某些部分动态环境以到达所选目的地。例如，图1的流程100使用局部学习和全局规划来提供自适应路径规划，以动态确定一条路径以便智能体AV有效率地到达所选目的地，同时避免频繁的交通冲突。为了便于路径规划，在流程100的步骤102，选择智能体AV的路径起始和/或结束位置。例如，可以通过自适应路径规划系统的位置选择逻辑来选择路径规划的起始位置，起始位置可以是：要为其执行路径规划的智能体AV的当前位置，在智能体AV要开始路径导航时的智能体AV的预期位置，智能体AV要开始路径导航时最终要到达的位置等等。可以通过自适应路径规划系统的位置选择逻辑来选择结束位置，结束位置可以是智能体AV期望的位置，例如智能体AV执行或完成任务(如取回货物、交付货物、办理事项、与一个生物和/或其他系统进行交互等)的位置，以执行或完成智能体AV的任务(例如，智能体AV的存储或维护，智能体AV的一个或多个系统测试等)，以使另一个AV能够执行或完成任务(例如，从另一个AV的区域移动一个智能体AV，或将智能体AV放在一个位置以免与其他AV发生交通冲突等)。

图1所示流程100的自适应路径规划用于提供全局指引并基于局部学习来执行局部规划。在图1所示流程100的步骤103，实施全局规划以确定一条初始全局路径，用于动态环境中运行的智能体AV。例如，自适应规划系统的全局规划逻辑可以使用一个预规划方法，其中采用一种或多种静态搜索算法来为动态环境300中运行的智能体AV生成一个初始全局路径。本发明实施例的全局规划可以使用一种或多种静态搜索算法，例如Dijkstra、A*、D*、快速探索随机树(RRT)、粒子群优化(PSO)、蚁群和/或类似方法来确定一个初始全局路径。

图4显示本发明实施例的动态环境300内的初始全局路径400的确定。例如，关于动态环境300(如以环境参数151提供)使用一种静态搜索算法(如A*)来确定起点401和终点402(如在步骤102处选择)之间的初始全局路径。基于一个或多个静态搜索算法(如静态环境中的一条最佳路径，但是不是为动态环境配置的)，初始全局路径400提供动态环境300中的一条从起始位置到选定目的地的初始计划路径。因此，在本发明实施例的步骤103的全局规划期间，不考虑动态环境内的移动障碍物(如图4中一些被标为移动障碍物411)。

根据本发明实施例，初始全局路径的使用有利于提供及时的反馈，用于训练(例如，奖励塑形(reward shaping))利用局部学习和全局规划的自适应路径规划方法的DRL智能体。此外，本发明实施例使用的初始全局路径作为一种显式的注意力机制，加速了模型收敛，并且提高了存储池(memory pool)的质量(例如，当智能体AV偏离指引过多时停止训练)。

在自适应路径规划流程100的步骤104，提供历史信息(例如，可以存储在自适应路径规划系统的数据库中)以用于对智能体AV的全局指引。例如，可以在步骤104处识别或选择关于动态环境300内的移动障碍物的历史信息。根据一些实施例，当从起始位置导航到结束位置时，可能会遍历动态环境300的一部分历史信息(例如，从起始位置到结束位置之间的路径或其一部分的动态环境区域的历史信息)，这部分历史信息可以通过自适应路径规划系统的历史信息逻辑来识别或选择，并提供用于智能体AV的全局指引。例如，关于环境中的先前交通冲突、环境中的AV在过去使用的过去路径等的历史信息，可以被用来修正在步骤103提供的初始全局路径，以避免频繁的交通冲突。

根据本发明实施例使用的历史信息可以包括一个或多个部分。例如，历史信息的第一部分可以包括关于动态环境内的移动障碍物的路径覆盖信息。历史信息的第二部分可以包括信息素(pheromone)信息，例如可以对应于某些或全部路径覆盖信息。根据本发明实施例，历史信息的这些部分可以被单独使用或组合使用。包括这样的多个部分的历史信息提供了动态表示的动态环境中变化状态，因此促进了本发明的自适应路径规划。这种历史信息可以提供整个环境的自适应描绘，用于全局指引。

历史信息的路径覆盖信息可以包括，关于动态环境内的路线的各种形式的信息。根据实施例，路径覆盖信息可以包括可能影响DRL智能体移动的任何现有知识。例如，路径覆盖信息可以包括关于移动障碍物的路线的信息、障碍物体积信息、关于移动的时间信息、关于移动速度的信息、关于移动障碍物移动的优先级信息等。实施例的路径覆盖信息可以包括所有已知的AV路线网格(如历史AV路线、共同或可能的AV路线、历史或共同的起始位置与终点位置之间的AV路线、满足某些条件的AV路线，例如小于最大阈值距离，方向上的最大阈值变化，最大的通过时间等)。在自适应路径规划的初始运行中，有关移动障碍物的路线的历史信息是未知的或不足的，可以使用关于可能的AV路线的信息、历史或共同起位置与终点位置之间的AV路线的信息、和/或其他预期或非历史信息作为历史信息的一部分。

从前述内容可以理解，路径覆盖信息可以包括关于动态环境的已知的先验知识，诸如以先前信息的概要的形式。因此，这样的路径覆盖信息可能无法准确或充分地描述动态环境的动态情况，但仍然提供了有助于评估动态环境内行驶成本的信息(例如，路径覆盖信息可用于静态搜索算法的启发式功能，例如A*，来修改成本估算)。因此，信息素信息还被考虑基于来自智能体或外部监控器的观察来描述环境动态信息。根据本发明实施例，信息素信息是在智能体开始在动态环境中移动之后记录的信息，并因此利用智能体的现实移动信息进行计算。

历史信息的信息素信息可以包括关于智能体AV的行为和/或相对于动态环境的移动障碍物的各种形式的信息。例如，信息素信息可以包括关于观察到的最近障碍物移动信息的信息(例如，关于一个移动障碍物过去已经走过一条特定路线的信息素信息可能会衰减，以至于随着该信息变得陈旧而变得不适用或权重减轻)。例如，信息素信息可以对应于各种路径覆盖信息，可以关于动态环境中每个移动障碍物独立地累积。信息素信息的衰减率可以基于动态环境中活动或移动的级别来确定。例如，在动态环境中移动的障碍物越多和/或在动态环境中障碍物的移动越快，信息素信息的衰减时间就越小(衰减率越大)。相应地，在动态环境中移动的障碍物越少和/或在动态环境中移动的障碍物越不迅速，信息素信息的衰减时间就越大(衰减率越低)。在自适应路径规划的初始运行时，其中关于移动障碍的信息素信息是未知的或不足的，关于路径覆盖的信息可以用作初始信息素值。

本发明实施例的信息素信息可用于促进全局指引中相关信息的使用。例如，对应于特定路径覆盖信息的信息素信息可以指示该路径覆盖信息在全局指引中的适用性。作为一个示例，对于全局指引规划，可以忽略具有衰减信息素信息(例如，已经达到特定的衰减阈值，如特定数量的秒、分、小时、天等)的路径覆盖信息，并且可以从历史记录信息中删除。相应地，具有未衰减信息素信息(例如，尚未达到上述特定衰减阈值)的路径覆盖信息可以用于全局指引规划。另外或替代地，信息素信息可以用于提供变化的适用性的历史信息，例如关于全局指引规划将权重赋予与信息素信息衰减量成比例的相应路径覆盖信息。

在自适应路径规划流程100的步骤105，自适应路径规划系统的全局指引逻辑使用一条确定智能体AV在动态环境中运行的初始全局路径(如在步骤103确定的初始全局路径400)和动态环境的历史信息(如在步骤104确定或选择的历史信息)，以提供一条全局路径用于全局指引智能体AV。例如，在实施例的步骤105，历史信息用于调整初始全局路径，以避免动态环境内的频繁交通拥堵区域和死锁。由全局指引逻辑提供的全局路径可以用于为智能体AV提供主要指导，从起点到终点穿过动态环境。

图5显示本发明实施例的使用关于初始全局路径的历史信息以提供一条全局路径。例如，如图5所示，全局指引逻辑可以根据历史信息(如历史信息501，例如可以包括各部分，如路径覆盖信息和信息素信息)对初始全局路径(如初始全局路径400)进行分析，以提供一条全局路径(如全局路径500)，诸如可包括修改的初始全局路径以便避免如历史信息所指示的频繁交通冲突的一个或多个点(如频繁交通冲突区域502)。因此，在图示实施例中，组合初始全局路径和历史信息，以提供一条全局路径，用于主要指导动态环境中运行的智能体AV。根据实施例，全局路径提供从起始位置到选定目的地(如从起始点401到终点402)的穿过动态环境的一条规划的路径。

本发明实施例的自适应路径规划流程100实施局部规划，以提供环境内的动态交互，促进智能体AV到达目的地。例如，根据实施例提供的局部规划可以对进入全局路径的障碍物进行响应来确定和控制智能体AV的动态交互。图1所示流程100的步骤106-109提供了本发明实施例的局部规划。

在所示实施例流程100的步骤106，局部地图由自适应路径规划系统的局部规划逻辑的局部地图生成逻辑生成，用于智能体AV的局部规划。在本发明的实施例中，生成了多个顺序的局部地图，其中全局指引可以绘制在顺序的局部地图上。根据本发明实施例，顺序的局部地图的数量是可选择的。作为一个示例，顺序的局部地图的数量可以基于任务的难度而定，例如针对困难任务提供更多的局部地图以提供更多的时间信息，针对难度较小的任务提供更少的局部地图。例如，任务的难度可以是环境拥挤、附近障碍物的数量、到任务终点的距离等的一个函数。

根据实施例，可以在动态环境上绘制为智能体AV确定的全局路径，如图6的全局路径600所示(全局路径600是上面讨论步骤105的由全局指引确定的全局路径的另一示例)，其中动态环境包括移动障碍物信息。例如，移动障碍物参数(如移动障碍物位置、移动方向、移动速度、移动轨迹等)可以由智能体AV和/或在动态环境中运行的一个或多个其他AV来检测，可以由在AV上的传感器监视和/或以其他方式存在动态环境等中，作为移动障碍物参数152(如可以存储在自适应路径规划系统的数据库中)提供给局部地图生成逻辑。对于提供了全局指引的智能体AV，当该智能体AV在动态环境中移动时(如穿过全局路径600或其一部分)，局部地图生成逻辑可以对该智能体AV的各种位置生成局部地图(如以该智能体AV为中心的局部地图)。这样的局部地图提供了智能体AV位置周围的动态环境的相对较小部分，适合用于深度学习模型，有效率地使用计算资源，即使在复杂的环境中，也可以提供可接受的性能。例如，取决于动态环境的大小、可用于局部规划的计算资源、动态环境中智能体AV和/或其他移动障碍物的数量、以及期望的局部规划性能水平，局部地图的大小可能约为动态环境面积的10％-30％。作为一个示例，如果动态环境(如动态环境300)由离散的栅格单元表示并且包括100x 100～300x 300栅格单元范围的区域，那么每个局部地图可以包括15x15栅格单元(例如，以智能体AV为中心的动态环境的15x 15部分)。根据实施例，局部规划逻辑使用的局部地图的大小是可选择的(如基于各种标准，例如动态环境的大小、可用于局部规划的计算资源、动态环境中智能体AV和/或其他移动障碍物的数量、期望的局部规划性能水平等)。

图6显示本发明实施例的局部规划逻辑实施的用于深度学习模型的顺序局部地图。特别地，局部地图601_T-n、601_T-n+1、601_T-n+2、…、601_T-1包括动态环境300内智能体AV先前位置(如当智能体AV穿过全局路径600时的一序列位置，或在与动态环境交互时偏离全局路径时的一序列位置)的局部地图，局部地图601_T包括动态环境300内智能体AV当前位置(如智能体AV在全局路径600上的当前位置，或由于与动态环境交互而引起偏离的在动态环境内的当前位置)的局部地图。根据实施例，当智能体AV穿过动态环境时，通过插入新的局部地图并删除最旧的局部地图来更新局部地图序列。例如，可以基于时间和/或距离来生成局部地图序列的局部地图。举一个基于时间的局部地图生成例子，可以以每个地图1秒的间隔收集10个连续地图。举一个基于距离的局部地图生成例子，可以在一步之后(例如，每步一个网格单元)生成新的局部地图。

根据本发明实施例提供的局部规划，实施局部训练以促进环境内的动态交互。例如，局部训练可以从由智能体AV观察到的或在动态环境中监视的移动障碍物的行为中学习，并因此使用此信息来提供关于智能体AV的全局指引的自适应路径规划，以在环境中进行动态交互(例如，对进入规划的路径的障碍物的响应)。这样的自适应路径规划提供的指导因此可以是基于学习的指导，该指导是预测的或以其他方式确定的，以避免智能体AV碰到移动障碍物，并促进智能体AV到达目的地。

根据所示实施例流程100实施的局部训练，使用智能体AV的局部地图，用于确定要在动态环境内执行的动态交互。例如，自适应路径规划系统的局部训练逻辑的局部深度强化学习逻辑可以在确定动态环境中智能体AV的动作时使用关于动态环境建模表示的局部深度强化学习(DRL)。因此，在图1所示自适应路径规划流程100的步骤107，将在步骤106处生成的局部地图(可能与更新的移动障碍物参数152一起，如果有的话)提供给局部训练逻辑的局部深度强化学习逻辑。例如，局部深度强化学习逻辑包括可以直接作用于原始输入的卷积神经网络(CNN)深度模型(如三维CNN(3D CNN))和递归神经网络(RNN)模型(如长短期记忆(LSTM))，以提供稳健性对抗长期依赖问题。局部深度强化学习逻辑因此可以使用CNN和RNN来对环境建模，用于局部深度强化学习逻辑的DRL智能体。

DRL智能体提供了局部规划器，用于指导穿过动态环境中全局路径的AV的交互。由局部深度强化学习逻辑来实施的DRL智能体可以包括用于实施各种DRL方法的逻辑，诸如基于值的DRL方法、基于策略的DRL方法、行动者批评(actor-critic method)方法等。根据实施例，DRL智能体可以实施深度双Q学习(DDQN)，其中Q学习以近似最优行动价值函数Q(s，a)，有∈-greedy。特别地，原始Q学习可以表示为：

Q(s，a)＝r(s，a)+γmax_aQ(s’，a) (1)

其中Q(s，a)表示Q目标，r(s，a)表示在该状态下采取该行动的奖励，γmax_aQ(s′，a)表示该状态下所有可能行动中的折扣的最大q值。使用神经网络代替传统的Q表，在深度Q学习(DQN)中提高了复杂任务Q学习的普遍性。在DDQN中，目标是由另一个神经网络固定的。因此，双Q学习可以表示为：

Q(s，a)＝r(s，a)+γQ(s’，argmax_aQ(s’，a)) (2)

其中Q(s，a)是TD(时间差异)目标，r(s，a)表示在该状态下采取该行动的奖励，argmax_aQ(s′，a)是DQN网络为下一状态选择的动作，而γQ(s′，argmax_aQ(s′，a))是目标网络在该状态下采取该行动的Q值。根据本发明实施例，基于从局部地图导出的动态环境模型，DRL智能体的DDQN功能充当局部路径规划器，以实现自适应规划。图7以图形方式显示了用作局部路径规划器的DRL智能体的DDQN功能运行。

本发明实施例可以使用一种或多种方法来最小化或减少各种计算资源的利用。例如，可以实施优先级经验回放(PER)，以便根据TD误差使用自适应路径规划系统的存储器(例如，对于我们的训练，某些体验可能比其他体验更重要，而优先级可能是基于计算出的TD误差)。

如上所述，本发明实施例的局部学习逻辑的深度强化学习不限于DRL智能体实施DDQN。关于提供局部路径规划的DRL智能体，本发明实施例还可以附加地或替代地使用Rainbow、近端策略优化(PPO)、异步优势行动者批评(A3C)和/或类似技术。根据本发明实施例，DRL智能体关于智能体AV使用的深度强化学习技术是可以选择的(例如，基于训练时间、计算资源、预期的训练性能、地图的大小等)。

从前述内容应当理解，实施例的局部深度强化学习逻辑可以接受顺序的局部地图作为输入，并输出智能体AV的下一动作。因此，实施例的局部深度强化学习逻辑可以提供信息以控制下一动作(例如在全局路径上继续行进，采取动作偏离全局路径以响应进入规划的路径的障碍，在检测到与移动障碍物有冲突时暂停移动，避免了与移动障碍物的冲突后返回全局路径，当避免了与移动障碍物的冲突时重新开始移动等)以控制智能体AV(如VCU、ECU、OBC等的子过程，控制智能体AV在动态环境中的交互)，作为响应，智能体AV可以在动态环境中实施下一个动作。

根据实施例，动态环境接收智能体AV的动作，产生下一状态。因此，在图1所示流程100的步骤108，确定智能体AV采取的动作是否导致智能体AV已经到达目的地(如智能体AV已经成功地从起点401导航到终点402)。

如以上所讨论的关于提供局部规划器的DRL智能体，基于智能体AV与动态环境的交互的反馈，奖励功能可以用来评估智能体AV的动作。因此，如果在步骤108处确定智能体AV尚未到达目的地(如正在进行关于特定AV任务的全局指引)，则行进到步骤109，其中自适应路径规划系统的环境交互逻辑可以监视智能体AV与动态环境的交互。例如，环境交互逻辑可以分析智能体AV与环境的交互，以确定是否经历或避免了与障碍物的冲突，偏离规划的全局路径以避免冲突等，以及根据此分析向局部训练逻辑的本地深度强化学习逻辑提供反馈。附加地或替代地，环境交互逻辑可以分析智能体AV与环境的交互以确定智能体AV动作之后智能体AV和/或动态环境的状态，并基于该分析提供状态信息给局部规划逻辑的局部地图生成逻辑。

如果在步骤108处确定智能体AV已经到达目的地(例如，关于特定智能体AV任务的全局指引已经完成)，则在步骤110更新历史信息。例如，历史信息的路径覆盖信息可以被更新为包括为智能体AV规划的全局路径、由智能体AV采取的实际路径(如包括与规划的全局路径的偏离)、智能体AV检测到的或在专用环境中以其他方式监视的移动障碍物的路径(或其部分)等信息。另外地或可替代地，历史信息的信息素信息可以被更新，以设置或重置衰减信息(如为智能体AV规划的全局路径、智能体AV采取的实际路径、智能体AV检测到的或在专用环境中以其他方式监视的移动障碍物的路径等信息素信息)。因此，在完成关于动态环境的第一次全局指引任务之后，可以用信息素更新历史信息以用于动态环境中的后续任务。

在步骤108确定智能体AV已经到达目的地之后，图1所示流程100的处理进行到步骤111，其中提供关于智能体AV的下一任务的全局指引。例如，步骤111的运行可以使处理返回到步骤102，以针对下一个任务选择智能体AV的路径的开始和/或结束位置。

图8以图形方式显示流程100的步骤106-109的局部规划运作，与以上给出的示例一致。从图8的示意图中可以看出，所示示例的局部规划确定并控制了智能体AV在动态环境中的动态交互。

从前述内容可以理解，本发明实施例在动态环境(如多车辆环境，诸如仓库、工厂、城市街道网格或存在多个移动障碍物的其他环境)中提供自适应路径规划。根据实施例，自适应路径规划可以通过确定起点和目的地、通过静态搜索算法规划连接起点和目的地的路径、以及通过结合历史信息来调整和生成全局指引路径，来实施全局指引。此后，自适应路径规划可以通过生成局部地图序列(例如，T，T_-1…T_n，根据智能体车辆的位置，例如使用一个或多个传感器)、将局部地图序列输入到深度强化学习智能体(其提供车辆的下一个移动的方向)、使用评价函数评估该移动并将反馈信号发送到深度强化学习智能体、执行车辆移动并生成新的局部地图，来实施局部规划，以提供在动态环境中的动态交互。可以将车辆的新位置与所选择的目的地进行比较，如果匹配，则可以结束路径引导，更新历史信息。但是，如果车辆的位置与所选目的地不匹配，则可以用新的局部地图来更新局部地图序列，并重复自适应路径规划的功能。这种利用局部学习和全局规划的自适应路径规划提供了适应性和通用性，从而有助于将技术应用于各种动态环境。

尽管已经详细描述了本发明及其优点，但是应该理解，在不脱离由所附权利要求限定的本发明的精神和范围的情况下，可以进行各种改变、替换和变更。此外，本申请范围不限于说明书中描述的过程、机器、制造、物质组成、装置、方法和步骤的特定实施例。本领域普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用目前存在或稍后开发的执行基本相同功能、达到基本相同的结果的方法、机器、制造、物质组合物、装置、方法或步骤。因此，所附权利要求旨在在其范围内包括这样的过程、机器、制造、物质组成、装置、方法或步骤。

此外，本申请范围不限于说明书中描述的过程、机器、制造，物质组成、装置、方法和步骤的特定实施例。

Claims

1.一种关于动态环境的自适应路径规划方法，所述方法包括：

通过自适应路径规划系统的全局指引逻辑，为智能体自动汽车(AV)确定穿过动态环境的、从起始位置到选定目的地的规划的路径；

当所述智能体AV穿过至少一部分所述规划的路径时，通过所述自适应路径规划系统的局部规划逻辑，至少部分地基于所述局部规划逻辑的深度强化学习智能体，利用局部地图序列信息，来控制所述动态环境中的动态交互。

2.根据权利要求1所述的方法，其中，确定规划的路径包括：

使用静态搜索算法来确定连接起始位置和选定目的地的初始全局路径。

3.根据权利要求2所述的方法，其中，所述静态搜索算法选自：Dijkstra、A*、D*、快速探索随机树(RRT)、粒子群优化(PSO)和蚁群。

4.根据权利要求2所述的方法，其中，确定规划的路径还包括：

使用历史信息来修改所述初始全局路径并提供规划的全局路径，所述规划的全局路径提供了所述智能体AV穿过的所述规划的路径。

5.根据权利要求4所述的方法，其中，所述历史消息包括路径覆盖信息和信息素信息。

6.根据权利要求5所述的方法，其中，所述路径覆盖信息包括关于移动障碍物的路线的信息、关于移动的时间信息、关于移动速度的信息、关于移动障碍物移动的优先级信息、障碍物体积、路径宽度或其组合。

7.根据权利要求5所述的方法，其中，所述信息素信息包括关于观察到的最近障碍物移动信息的信息。

8.根据权利要求5所述的方法，其中，所述信息素信息对应于各个所述路径覆盖信息。

9.根据权利要求8所述的方法，其中，所述信息素信息提供了随时间衰减的相关路径覆盖信息。

10.根据权利要求9所述的方法，还包括：

产生包括多个局部地图的局部地图序列，所述多个局部地图对应于穿过所述规划的路径的所述智能体AV的位置，其中所述局部地图序列的每个局部地图包括以所述智能体AV的各个位置为中心的所述动态环境的一个子部分。

11.根据权利要求10所述的方法，其中，所述控制动态环境内的动态交互包括：

使用关于所述局部地图序列的局部地图的局部深度强化学习(DRL)来确定所述动态环境中所述智能体AV的动作。

12.根据权利要求11所述的方法，其中，所述局部DRL包括卷积神经网络(CNN)和递归神经网络(RNN)，经配置以从所述局部地图序列提供所述动态环境的建模表示。

13.根据权利要求11所述的方法，其中，所述局部DRL包括DRL智能体，其被配置为局部规划器，用于指导所述AV在所述动态环境中的交互。

14.根据权利要求13所述的方法，其中，所述DRL智能体包括双深度Q学习(DDQN)、Rainbow、近端策略优化(PPO)、异步优势行动者批评(A3C)或其组合。

15.根据权利要求14所述的方法，其中，所述动态环境包括多车辆环境，有多个移动障碍物在其中运行。

16.根据权利要求15所述的方法，其中，所述多车辆环境选自：仓库、工厂和城市街道网格。

17.一种自适应路径规划系统，被配置用于提供关于动态环境的自适应路径规划，所述自适应路径规划系统包括：

全局指引逻辑，其被配置为智能体自动汽车AV确定穿过动态环境的、从起始位置到选定目的地的规划的路径；

局部规划逻辑，其与所述全局指引逻辑通信连接，配置为当所述智能体AV穿过至少一部分所述规划的路径时，所述局部规划逻辑至少部分地基于所述局部规划逻辑的深度强化学习智能体，利用局部地图序列信息，来控制所述动态环境中的动态交互。

18.根据权利要求17所述的自适应路径规划系统，其中，所述全局指引逻辑和所述局部规划逻辑由在所述智能体AV内部实施的控制系统执行。

19.根据权利要求18所述的自适应路径规划系统，其中，所述控制系统选自：车辆控制单元(VCU)、电子控制单元(ECU)和车载计算机(OBC)。

20.根据权利要求19所述的自适应路径规划系统，其中，所述全局指引逻辑包括静态搜索算法，用于确定连接起始位置和选定目的地的初始全局路径。

21.根据权利要求20所述的自适应路径规划系统，还包括：

数据库，其存储历史信息以修改所述初始全局路径并提供一规划的全局路径，所述规划的全局路径提供所述智能体AV穿过的所述规划的路径。

22.根据权利要求21所述的自适应路径规划系统，其中，所述历史信息包括路径覆盖信息和信息素信息。

23.根据权利要求22所述的自适应路径规划系统，其中，所述路径覆盖信息包括关于移动障碍物的路线的信息、关于移动的时间信息、关于移动的速度的信息、关于移动障碍物的移动的优先级信息、障碍物的体积、路径的宽度或其组合。

24.根据权利要求22所述的自适应路径规划系统，其中，所述信息素信息对应于各个所述路径覆盖信息，其中所述信息素信息提供了随时间衰减的相关路径覆盖信息。

25.根据权利要求24所述的自适应路径规划系统，还包括：

局部地图生成逻辑，其被配置为产生包括多个局部地图的局部地图序列，所述多个局部地图对应于穿过所述规划的路径的所述智能体AV的位置，其中所述局部地图序列的每个局部地图包括以所述智能体AV的各个位置为中心的所述动态环境的一个子部分。

26.根据权利要求25所述的自适应路径规划系统，其中，所述局部规划逻辑被配置利用关于所述局部地图序列的局部地图的局部深度强化学习DRL来确定所述动态环境中所述智能体AV的动作。

27.根据权利要求26所述的自适应路径规划系统，其中，所述局部DRL被配置使用卷积神经网络(CNN)和递归神经网络(RNN)，从所述局部地图序列提供所述动态环境的建模表示。

28.根据权利要求26所述的自适应路径规划系统，其中，所述局部DRL包括DRL智能体，其被配置为局部规划器，用于指导所述AV在所述动态环境中的交互。

29.根据权利要求28所述的自适应路径规划系统，其中，所述DRL智能体包括双深度Q学习(DDQN)、Rainbow、近端策略优化(PPO)、异步优势行动者批评(A3C)或其组合。

30.一种针对多车辆环境的自适应路径规划的方法，所述方法包括：

定义智能体车辆穿过所述多车辆环境的路径的起点和终点；

使用静态搜索算法，规划在所述多车辆环境中连接所述起点和所述终点的初始路径；

使用历史信息来修改所述初始路径，从所述初始路径生成规划的全局指引路径；

产生包括多个局部地图的局部地图序列，所述多个局部地图对应于穿过至少一部分所述规划的全局指引路径的所述智能体车辆的位置；

通过深度强化学习智能体，使用所述局部地图序列的一个或多个局部地图，提供所述智能体车辆的下一个移动方向；

分析所述智能体车辆的移动并提供反馈给所述深度强化学习智能体。

31.根据权利要求30所述的方法，还包括：

根据所述深度强化学习智能体提供的所述方向，在所述智能体车辆移动后，为所述智能体车辆的位置生成所述局部地图序列的新的局部地图。

32.根据权利要求31所述的方法，还包括：

通过插入所述新的局部地图并删除所述局部地图序列中旧的局部地图，在所述智能体车辆移动后更新所述局部地图序列。

33.根据权利要求31所述的方法，还包括：

确定所述智能体车辆是否已经到达目的地，其中，如果确定智能体车辆尚未到达目的地，则用所述新的局部地图更新所述局部地图序列，重复提供所述智能体车辆的下一移动方向并分析所述智能体车辆的移动。

34.根据权利要求33所述的方法，其中，所述历史信息包括路径覆盖信息和信息素信息。