CN113552867B

CN113552867B - 一种运动轨迹的规划方法及轮式移动设备

Info

Publication number: CN113552867B
Application number: CN202010311126.6A
Authority: CN
Inventors: 王志涛; 庄雨铮; 古强; 刘武龙
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-07-18
Anticipated expiration: 2040-04-20
Also published as: CN113552867A

Abstract

本申请实施例公开了一种运动轨迹的规划方法及轮式移动设备，轮式移动设备(如，自动驾驶车辆)基于示教数据建立驾驶行为指标与运动轨迹的映射关系。建立好映射关系后，当轮式移动设备在真实场景的道路上行驶时，通过传感器接收到当前周围环境的信息后，就可根据预设方法(如，强化学习)确定一个最为合适的目标驾驶行为指标，由于目标驾驶行为指标是根据周围环境信息确定出来的，能够做到针对周围环境选择合适的驾驶行为，再结合上述映射关系，就可规划出与目标驾驶行为指标对应的实时运动轨迹，由于映射关系的建立是基于示教数据得到的，因此该生成的实时运动轨迹是具备类人行为的驾驶轨迹，从而可以处理复杂的交互场景。

Description

一种运动轨迹的规划方法及轮式移动设备

技术领域

本申请涉及智能设备领域，尤其涉及一种运动轨迹的规划方法及轮式移动设备。

背景技术

随着目前全球交通事故多发率以及汽车保有量的不断增加，交通安全以及拥堵问题日益严峻，使得构架智能交通系统的任务更加紧迫，而智能车辆作为组建智能交通系统最为关键的环节之一，近年来更是成为各方关注的焦点，智能车辆可称为自动驾驶车辆或机器人车辆，属于室外移动机器人(也可称为轮式移动设备)的一种，它是一个集环境感知、行为决策、运动规划、自主控制等多项功能于一体的综合智能系统，其中运动规划通过将上层决策模块产生的指令生成具体的运动轨迹(即运动规划)交由下层控制模块执行，是智能驾驶(包括辅助驾驶和自动驾驶)的关键环节。

运动规划是目前智能车辆领域的研究热点和难点，在综合道路环境中，由于真实驾驶场景的复杂多变、交通参与者混杂、交通参与者行为的难以预测以及人们对于行车安全性、高效性等要求的提高，自动驾驶车辆在与人类驾驶车辆等交通参与者交互过程中，需要生成类人行为的驾驶轨迹(也可称为运动轨迹)，以便于人类驾驶车辆对自动驾驶车辆的行为进行更好的理解和预测，从而做出合适的反应，也就是说，自动驾驶车辆需要针对周围行驶车辆的行为选择合适的驾驶行为，并输出与所选择的驾驶行为相对应的驾驶轨迹，从而使得人类驾驶车辆与自动驾驶车辆交互的混杂交通环境更加安全、高效。

运动规划目前主要实现方式有基于搜索(如，A*类算法)、采样(如，快速遍历随机树(Rapidly-exploring Random Tree，RRT)类的算法)及优化等的解决方案，也就是说，传统的运动规划的上述相关算法多为基于规则或优化的方式实现，驾驶行为难以通过规则或优化函数表示，自动驾驶车辆难以做到针对周围环境选择合适的驾驶行为，导致自动驾驶车辆难以处理复杂的交互场景。

发明内容

本申请实施例提供了一种运动轨迹的规划方法及轮式移动设备，用于建立驾驶行为指标与运动轨迹的映射关系，并且在实际驾驶场景中，结合该映射关系，通过预设方式(如，强化学习)根据获取到的感知信息确定合适的驾驶行为指标，从而规划出与该驾驶行为指标对应的运动轨迹。

基于此，本申请实施例提供以下技术方案：

第一方面，本申请首先提供一种运动轨迹的规划方法，该方法应用于轮式移动设备，为便于理解，以下以轮式移动设备为自动驾驶车辆为例进行说明，该方法包括：首先，自动驾驶车辆会基于预先获取到的示教数据建立第一驾驶行为指标与第一运动轨迹之间的映射关系，该示教数据为符合交通规则的任意车辆的行驶数据集，例如，该示教数据可以是用于教导学员学习驾驶技能的示教视频(需符合交通规则)，也可以是录入的各个驾驶车辆技术高超的驾驶人员在实际驾驶过程中车辆的行驶过程(需符合交通规则)，具体此处对示教数据的类型不做限定，只要该示教数据符合交通规则且由人类驾驶车辆得到的车辆的行驶数据即可。此外，第一驾驶行为指标是指对该示教数据中的相应的驾驶行为量化后的表征，例如，可以将可采用社会价值导向(Social Value Orientation，SVO)作为驾驶行为指标，SVO是一种通过用角度形式表征车辆对于自身和他车利益权重(即该车辆是利己还是利他)的分配进而描述车辆行驶的驾驶行为指标，可基于最大熵模型利用直方图滤波，根据对当前时刻车辆的驾驶行为指标进行估计。第一运动轨迹则为与驾驶行为对应的可行驶轨迹序列(即驾驶轨迹)，自动驾驶车辆会根据获取到的驾驶行为的相关指令控制该自动驾驶车辆的驾驶轨迹。自动驾驶车辆基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系之后，该映射关系就存储在该自动驾驶车辆中，当该自动驾驶车辆在实际行驶时，通过传感器就可实时获取该自动驾驶车辆当前的周围环境的信息(即目标感知信息)，并根据该目标感知信息确定目标驾驶行为指标，学习到了如何根据感知信息产生合适的驾驶行为指标之后，则当自动驾驶车辆在根据实时获取到的目标感知信息产生了对应的目标驾驶行为指标后，就可根据上述得到的映射关系规划出与该目标驾驶行为指标对应的第二运动轨迹(即实际驾驶中产生的类人驾驶行为的运动轨迹)。

在本申请上述实施方式中，首先，该轮式移动设备(如，自动驾驶车辆)会基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系，该示教数据是指符合交通规则的任意车辆的行驶数据的集合(如，具体可以是用于教导如何学习驾驶车辆的驾驶教学视频)，第一驾驶行为指标是指对示教数据中的驾驶行为量化后的表征(如，可采用SVO作为驾驶行为指标)，第一运动轨迹则是指与该驾驶行为对应的可行驶轨迹序列。建立好该映射关系后，当轮式移动设备在真实道路场景上行驶时，通过传感器接收到该轮式移动设备当前的周围环境的信息(可称为目标感知信息)后，就可根据预设方法(如，通过强化学习的方式)确定一个最为合适的驾驶行为指标(可称为目标驾驶行为指标)，由于该目标驾驶行为指标是根据目标感知信息确定出来的，即能够做到针对周围环境选择合适的驾驶行为，再结合上述已经确定的映射关系，就可规划出与该目标驾驶行为指标对应的运动轨迹(可称为第二运动轨迹)，由于映射关系的建立是基于示教数据得到的，因此该生成的第二运动轨迹是具备类人行为的驾驶轨迹，从而可以处理复杂的交互场景。

在第一方面的一种可能实现方式中，自动驾驶车辆基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系具体实现方式可以是：首先，自动驾驶车辆从示教数据中获取第一感知信息及与该第一感知信息对应的第一驾驶行为指标，该第一感知信息为从示教数据中选定的目标车辆的周围环境的信息(如，周围环境的信息至少包括如下信息中的一种：定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息或交通状况信息)，之后，根据该第一感知信息及该第一驾驶行为指标确定运动规划器的超参数的取值，该运动规划器为自动驾驶车辆中用于基于该超参数生成运动轨迹的模块，当基于该超参数的取值得到的模拟运动轨迹与第一运动轨迹的拟合度在预设范围内，则自动驾驶车辆可确定该第一驾驶行为指标与该超参数的取值的对应关系为上述所述的映射关系。

在本申请上述实施方式中，具体阐述了如何建立映射关系，具备灵活性。

在第一方面的一种可能实现方式中，自动驾驶车辆会先生成强化学习模块，该强化学习模块就用于根据感知信息生成与该感知信息对应的驾驶行为指标，也就是说，通过强化学习的方式，自动驾驶车辆通过生成的强化学习模块能够根据接收到的感知信息产生合适的驾驶行为指标。生成了该强化学习模块后，当自动驾驶车辆在实际行驶过程中，通过传感器接收到当前周围环境的目标感知信息后，生成的强化学习模块就可以根据该目标感知信息，产生合适的目标驾驶行为指标。

在本申请上述实施方式中，阐述了自动驾驶车辆在接收到目标感知信息之后，如何根据目标感知信息确定目标驾驶行为指标。

在第一方面的一种可能实现方式中，自动驾驶车辆具体如何生成强化学习模块可以通过但不限于如下方式：首先，获取第二感知信息，该第二感知信息可以是已知的任意车辆的周围环境的信息，该第二感知信息可以包括该选定的任意车辆的定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息等中的一种或多种。也就是说，该第二感知信息是作为强化学习的训练数据集的，之后，通过强化学习的方式从该第二感知信息中学习第二驾驶行为指标，直到从第二感知信息中学习到的第二驾驶行为指标从环境中累积获得的环境奖励值最大，则确定该强化学习模块生成了。

在本申请上述实施方式中，阐述了自动驾驶车辆具体如何生成强化学习模块，该强化学习模块可以根据第二感知信息产生最优的驾驶行为指标，使得得到的运动轨迹具备类人行为的驾驶轨迹。

在第一方面的一种可能实现方式中，强化学习的状态由第二感知信息及该自动驾驶车辆的自身状态确定，强化学习的代价函数则基于行车安全性、行车效率、道路通行效率中的至少一个设定，强化学习的动作为上述所述第二驾驶行为指标。

在本申请上述实施方式中，具体阐述了应用在本申请实施例中的强化学习所需的数据是哪些，具备适应性。

在第一方面的一种可能实现方式中，该强化学习的评估网络具体可以是深度神经网络，如，卷积神经网络(Convolutional Neural Networks,CNN)，也可以是其他类型的神经网络，此处不做限定。

在本申请上述实施方式中，说明了强化学习的评估网络的类型，具备可实现性。

在第一方面的一种可能实现方式中，上述各个感知信息(如，第一感知信息、第二感知信息以及目标感知信息等)至少包括如下信息中的一种：定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息。

在本申请上述实施例中，具体阐述了各个感知信息(即周围环境信息)都可以包括哪些内容，具备实用性。

本申请实施例第二方面提供一种轮式移动设备，该轮式移动设备具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在第二方面的一种可能实现方式中，该轮式移动设备可以是自动驾驶车辆。

本申请实施例第三方面提供一种轮式移动设备，可以包括存储器、处理器以及总线系统，其中，存储器用于存储程序，处理器用于调用该存储器中存储的程序以执行本申请实施例第一方面或第一方面任意一种可能实现方式的方法。

在第三方面的一种可能实现方式中，该轮式移动设备可以是自动驾驶车辆。

本申请第四方面提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法。

本申请实施例第五方面提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任意一种可能实现方式的方法。

本申请实施例第六方面提供了一种电路系统，该电路系统包括处理电路，该处理电路配置为执行上述第一方面或第一方面任意一种可能实现方式的方法。

附图说明

图1为目前常用的运动规划的实现方式的一种示意图；

图2为目前常用的运动规划的实现方式的另一示意图；

图3为本申请实施例提供的自动驾驶车辆的一种结构示意图；

图4为本申请实施例运动轨迹的规划方法的一种示意图；

图5为本申请实施例运动轨迹的规划方法的另一示意图；

图6为本申请实施例中强化学习模块的一种示意图；

图7为本申请实施例通过示教数据确定“驾驶行为-运动规划”对应关系的一个示意图；

图8为本申请实施例生成强化学习模块的一个技术框架图；

图9为本申请实施例根据目标感知信息确定第二运动轨迹的一个示意图；

图10为本申请实施例轮式移动设备的一个示意图；

图11为本申请实施例自动驾驶车辆的一个结构示意图；

图12为本申请实施例提供的芯片的一种结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

首先，本申请对运动规划目前最常用的几种实现方式进行简单介绍，请参阅图1，图1所呈现的是一种经典的采用采样择优的方式进行运动规划的方案(详细步骤请参阅图1的步骤101-109)。该方案的整体思路是：首先，根据全局路径，生成初始轨迹，进而根据初始轨迹获取障碍物信息，调用时空描述模型，根据障碍信息和自动驾驶车辆状态模式生成并行备选路径，并对备选路径进行评价，根据评价结果对状态模式进行选择，之后对障碍物的运动行为和轨迹进行预测，得到障碍物的预测运行轨迹，根据障碍物的运动行为和轨迹进行预测，得到障碍物的预测运行轨迹，根据障碍物的预测运行轨迹和选择的状态模式并行生成预设数量的可行轨迹，对预设数量的可行轨迹进行评价，最终根据评价结果选择最终的车辆行驶轨迹。然而，生成预设数量的可行轨迹，进而对可行轨迹进行评价是图1的关键步骤，评价通过设定的评价函数进行，评价函数需要人工设计，常考虑安全性、高效性、动力学约束等因素，然而将驾驶行为表征到评价函数的设计中是十分困难的，这就导致传统运动规划方法缺少驾驶行为的表征和调整的能力，无法做到与人类驾驶车辆交互过程中的驾驶行为理解与反应，难以处理复杂的交互场景。

另外一种常用的运动规划的实现方式则如图2所示，提出了一种基于深度学习的端到端自动驾驶运动规划方案，该方案的整体思路是：直接根据车辆状态和摄像头得到的图像信息作为输入，通过深度神经网络构建的驾驶模型直接映射到方向盘转角信息。即该方案将驾驶模型设计为图2中的特征提取子网络和转向预测子网络，其中特征提取子网络为一循环神经网络，用于对驾驶场景的时空信息进行处理，在驾驶模型的训练过程中，通过人类驾驶数据作为真值(即图2中的真实数据)，利用反向传播对驾驶模型网络进行更新，最终获得通过人类驾驶数据得到的基于深度神经网络的驾驶模型。这种端到端的运动规划方案由于直接通过传感器输入映射到驾驶控制量，将整个感知决策规划都交由深度神经网络处理，其决策推理过程是一个黑箱(如图2中的黑方块所示)，可解释性较差，安全性难以保证。同时由于其不可解释性，无法对驾驶行为进行明确表征，也无法做到针对特定的驾驶风格进行规划。

基于此，为解决上述问题，本申请提出了一种新的运动轨迹的规划方法，该方法用于建立驾驶行为指标与运动轨迹的映射关系，并且在实际驾驶场景中，结合该映射关系，通过预设方式(如，强化学习)根据获取到的感知信息确定合适的驾驶行为指标，从而规划出与该驾驶行为指标对应的运动轨迹。

需要说明的是，本申请所述的运动轨迹的规划方法可应用于轮式移动设备，例如，轮式机器人、轮式施工设备、自动驾驶车辆等，只要是具备轮式可移动的设备，本申请所述的运动轨迹的规划方法都可适用，为便于理解，在本申请接下来的实施例中，均以轮式移动设备为自动驾驶车辆为例进行说明。

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

为了便于理解本方案，在本申请实施例中首先结合图3对自动驾驶车辆的结构进行介绍，请先参阅图3，图3为本申请实施例提供的自动驾驶车辆的一种结构示意图，自动驾驶车辆100配置为完全或部分地自动驾驶模式，例如，自动驾驶车辆100可以在处于自动驾驶模式中的同时控制自身，并且可通过人为操作来确定车辆及其周边环境的当前状态，确定周边环境中的至少一个其他车辆的可能行为，并确定其他车辆执行可能行为的可能性相对应的置信水平，基于所确定的信息来控制自动驾驶车辆100。在自动驾驶车辆100处于自动驾驶模式中时，也可以将自动驾驶车辆100置为在没有和人交互的情况下操作。

自动驾驶车辆100可包括各种子系统，例如行进系统102、传感器系统104、控制系统106、一个或多个外围设备108以及电源110、计算机系统112和用户接口116。可选地，自动驾驶车辆100可包括更多或更少的子系统，并且每个子系统可包括多个部件。另外，自动驾驶车辆100的每个子系统和部件可以通过有线或者无线互连。

行进系统102可包括为自动驾驶车辆100提供动力运动的组件。在一个实施例中，行进系统102可包括引擎118、能量源119、传动装置120和车轮/轮胎121。

其中，引擎118可以是内燃引擎、电动机、空气压缩引擎或其他类型的引擎组合，例如，汽油发动机和电动机组成的混动引擎，内燃引擎和空气压缩引擎组成的混动引擎。引擎118将能量源119转换成机械能量。能量源119的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源119也可以为自动驾驶车辆100的其他系统提供能量。传动装置120可以将来自引擎118的机械动力传送到车轮121。传动装置120可包括变速箱、差速器和驱动轴。在一个实施例中，传动装置120还可以包括其他器件，比如离合器。其中，驱动轴可包括可耦合到一个或多个车轮121的一个或多个轴。

传感器系统104可包括感测关于自动驾驶车辆100周边的环境的信息的若干个传感器。例如，传感器系统104可包括定位系统122(定位系统可以是全球定位GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)124、雷达126、激光测距仪128以及相机130。传感器系统104还可包括被监视自动驾驶车辆100的内部系统的传感器(例如，车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是自主自动驾驶车辆100的安全操作的关键功能。

其中，定位系统122可用于估计自动驾驶车辆100的地理位置。IMU 124用于基于惯性加速度来感知自动驾驶车辆100的位置和朝向变化。在一个实施例中，IMU 124可以是加速度计和陀螺仪的组合。雷达126可利用无线电信号来感知自动驾驶车辆100的周边环境内的物体，具体可以表现为毫米波雷达或激光雷达。在一些实施例中，除了感知物体以外，雷达126还可用于感知物体的速度和/或前进方向。激光测距仪128可利用激光来感知自动驾驶车辆100所位于的环境中的物体。在一些实施例中，激光测距仪128可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。相机130可用于捕捉自动驾驶车辆100的周边环境的多个图像。相机130可以是静态相机或视频相机。

控制系统106为控制自动驾驶车辆100及其组件的操作。控制系统106可包括各种部件，其中包括转向系统132、油门134、制动单元136、计算机视觉系统140、线路控制系统142以及障碍避免系统144。

其中，转向系统132可操作来调整自动驾驶车辆100的前进方向。例如在一个实施例中可以为方向盘系统。油门134用于控制引擎118的操作速度并进而控制自动驾驶车辆100的速度。制动单元136用于控制自动驾驶车辆100减速。制动单元136可使用摩擦力来减慢车轮121。在其他实施例中，制动单元136可将车轮121的动能转换为电流。制动单元136也可采取其他形式来减慢车轮121转速从而控制自动驾驶车辆100的速度。计算机视觉系统140可以操作来处理和分析由相机130捕捉的图像以便识别自动驾驶车辆100周边环境中的物体和/或特征。所述物体和/或特征可包括交通信号、道路边界和障碍体。计算机视觉系统140可使用物体识别算法、运动中恢复结构(Structure from Motion，SFM)算法、视频跟踪和其他计算机视觉技术。在一些实施例中，计算机视觉系统140可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。线路控制系统142用于确定自动驾驶车辆100的行驶路线以及行驶速度。在一些实施例中，线路控制系统142可以包括横向规划模块1421和纵向规划模块1422，横向规划模块1421和纵向规划模块1422分别用于结合来自障碍避免系统144、GPS 122和一个或多个预定地图的数据为自动驾驶车辆100确定行驶路线和行驶速度。障碍避免系统144用于识别、评估和避免或者以其他方式越过自动驾驶车辆100的环境中的障碍体，前述障碍体具体可以表现为实际障碍体和可能与自动驾驶车辆100发生碰撞的虚拟移动体。在一个实例中，控制系统106可以增加或替换地包括除了所示出和描述的那些以外的组件。或者也可以减少一部分上述示出的组件。

自动驾驶车辆100通过外围设备108与外部传感器、其他车辆、其他计算机系统或用户之间进行交互。外围设备108可包括无线通信系统146、车载电脑148、麦克风150和/或扬声器152。在一些实施例中，外围设备108为自动驾驶车辆100的用户提供与用户接口116交互的手段。例如，车载电脑148可向自动驾驶车辆100的用户提供信息。用户接口116还可操作车载电脑148来接收用户的输入。车载电脑148可以通过触摸屏进行操作。在其他情况中，外围设备108可提供用于自动驾驶车辆100与位于车内的其它设备通信的手段。例如，麦克风150可从自动驾驶车辆100的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器152可向自动驾驶车辆100的用户输出音频。无线通信系统146可以直接地或者经由通信网络来与一个或多个设备无线通信。例如，无线通信系统146可使用3G蜂窝通信，例如CDMA、EVD0、GSM/GPRS，或者4G蜂窝通信，例如LTE。或者5G蜂窝通信。无线通信系统146可利用无线局域网(wireless local area network，WLAN)通信。在一些实施例中，无线通信系统146可利用红外链路、蓝牙或ZigBee与设备直接通信。其他无线协议，例如各种车辆通信系统，例如，无线通信系统146可包括一个或多个专用短程通信(dedicated short rangecommunications，DSRC)设备，这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。

电源110可向自动驾驶车辆100的各种组件提供电力。在一个实施例中，电源110可以为可再充电锂离子或铅酸电池。这种电池的一个或多个电池组可被配置为电源为自动驾驶车辆100的各种组件提供电力。在一些实施例中，电源110和能量源119可一起实现，例如一些全电动车中那样。

自动驾驶车辆100的部分或所有功能受计算机系统112控制。计算机系统112可包括至少一个处理器113，处理器113执行存储在例如存储器114这样的非暂态计算机可读介质中的指令115。计算机系统112还可以是采用分布式方式控制自动驾驶车辆100的个体组件或子系统的多个计算设备。处理器113可以是任何常规的处理器，诸如商业可获得的中央处理器(central processing unit，CPU)。可选地，处理器113可以是诸如专用集成电路(application specific integrated circuit，ASIC)或其它基于硬件的处理器的专用设备。尽管图3功能性地图示了处理器、存储器、和在相同块中的计算机系统112的其它部件，但是本领域的普通技术人员应该理解该处理器、或存储器实际上可以包括不存储在相同的物理外壳内的多个处理器、或存储器。例如，存储器114可以是硬盘驱动器或位于不同于计算机系统112的外壳内的其它存储介质。因此，对处理器113或存储器114的引用将被理解为包括可以并行操作或者可以不并行操作的处理器或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤，诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器，所述处理器只执行与特定于组件的功能相关的计算。

在此处所描述的各个方面中，处理器113可以位于远离自动驾驶车辆100并且与自动驾驶车辆100进行无线通信。在其它方面中，此处所描述的过程中的一些在布置于自动驾驶车辆100内的处理器113上执行而其它则由远程处理器113执行，包括采取执行单一操纵的必要步骤。

在一些实施例中，存储器114可包含指令115(例如，程序逻辑)，指令115可被处理器113执行来执行自动驾驶车辆100的各种功能，包括以上描述的那些功能。存储器114也可包含额外的指令，包括向行进系统102、传感器系统104、控制系统106和外围设备108中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。除了指令115以外，存储器114还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在自动驾驶车辆100在自主、半自主和/或手动模式中操作期间被自动驾驶车辆100和计算机系统112使用。用户接口116，用于向自动驾驶车辆100的用户提供信息或从其接收信息。可选地，用户接口116可包括在外围设备108的集合内的一个或多个输入/输出设备，例如无线通信系统146、车载电脑148、麦克风150和扬声器152。

计算机系统112可基于从各种子系统(例如，行进系统102、传感器系统104和控制系统106)以及从用户接口116接收的输入来控制自动驾驶车辆100的功能。例如，计算机系统112可利用来自控制系统106的输入以便控制转向系统132来避免由传感器系统104和障碍避免系统144检测到的障碍体。在一些实施例中，计算机系统112可操作来对自动驾驶车辆100及其子系统的许多方面提供控制。

可选地，上述这些组件中的一个或多个可与自动驾驶车辆100分开安装或关联。例如，存储器114可以部分或完全地与自动驾驶车辆100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图3不应理解为对本申请实施例的限制。在道路行进的自动驾驶车辆，如上面的自动驾驶车辆100，可以识别其周围环境内的物体以确定对当前速度的调整。所述物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中，可以独立地考虑每个识别的物体，并且基于物体的各自的特性，诸如它的当前速度、加速度、与车辆的间距等，可以用来确定自动驾驶车辆所要调整的速度。

可选地，自动驾驶车辆100或者与自动驾驶车辆100相关联的计算设备如图3的计算机系统112、计算机视觉系统140、存储器114可以基于所识别的物体的特性和周围环境的状态(例如，交通、雨、道路上的冰、等等)来预测所识别的物体的行为。可选地，每一个所识别的物体都依赖于彼此的行为，因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。自动驾驶车辆100能够基于预测的所识别的物体的行为来调整它的速度。换句话说，自动驾驶车辆100能够基于所预测的物体的行为来确定车辆将需要调整到(例如，加速、减速、或者停止)什么稳定状态。在这个过程中，也可以考虑其它因素来确定自动驾驶车辆100的速度，诸如，自动驾驶车辆100在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。除了提供调整自动驾驶车辆的速度的指令之外，计算设备还可以提供修改自动驾驶车辆100的转向角的指令，以使得自动驾驶车辆100遵循给定的轨迹和/或维持与自动驾驶车辆100附近的物体(例如，道路上的相邻车道中的轿车)的安全横向和纵向距离。

上述自动驾驶车辆100可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本申请实施例不做特别的限定。

结合上述描述，本申请实施例提供了一种运动轨迹的规划方法，可应用于图3中示出的自动驾驶车辆100中，请参阅图4，图4为本申请实施例提供的运动轨迹的规划方法的一种流程示意图，具体可以包括：

401、基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系。

首先，自动驾驶车辆会基于预先获取到的示教数据建立第一驾驶行为指标与第一运动轨迹之间的映射关系，该示教数据为符合交通规则的任意车辆的行驶数据集，例如，该示教数据可以是用于教导学员学习驾驶技能的示教视频(需符合交通规则)，也可以是录入的各个驾驶车辆技术高超的驾驶人员在实际驾驶过程中车辆的行驶过程(需符合交通规则)，具体此处对示教数据的类型不做限定，只要该示教数据符合交通规则且由人类驾驶车辆得到的车辆的行驶数据即可。

此外，第一驾驶行为指标是指对该示教数据中的相应的驾驶行为量化后的表征，例如，可以将SVO作为驾驶行为指标，SVO是一种通过用角度形式表征车辆对于自身和他车利益权重(即该车辆是利己还是利他)的分配进而描述车辆行驶的驾驶行为指标，可基于最大熵模型利用直方图滤波，根据对当前时刻车辆的驾驶行为指标进行估计。第一运动轨迹则为与驾驶行为对应的可行驶轨迹序列(即驾驶轨迹)，自动驾驶车辆会根据获取到的驾驶行为的相关指令控制该自动驾驶车辆的驾驶轨迹。

需要说明的是，在本申请的一些实施方式中，自动驾驶车辆基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系具体实现方式可以是：首先，自动驾驶车辆从示教数据中获取第一感知信息及与该第一感知信息对应的第一驾驶行为指标，该第一感知信息为从示教数据中选定的目标车辆的周围环境的信息(如，周围环境的信息至少包括如下信息中的一种：定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息或交通状况信息)，之后，根据该第一感知信息及该第一驾驶行为指标确定运动规划器的超参数的取值，该运动规划器为自动驾驶车辆中用于基于该超参数生成运动轨迹的模块，当基于该超参数的取值得到的模拟运动轨迹与第一运动轨迹的拟合度在预设范围内，则自动驾驶车辆可确定该第一驾驶行为指标与该超参数的取值的对应关系为上述所述的映射关系。

为便于理解，下面以图5为例，对自动驾驶车辆具体如何建立第一驾驶行为指标与该超参数的取值的对应关系以及最终如何建立第一驾驶行为指标与第一运动轨迹之间的映射关系进行说明，请参阅图5中的步骤S1-S3，对步骤S1-S3的描述具体如下：

S1.获取示教数据，并从示教数据中提取驾驶行为指标。具体为：在示教数据中选取关注的主车(即目标车辆)，计算每一时间点下主车视角下的驾驶场景s(也可称为第一感知信息s，该驾驶场景s包括该目标车辆的定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息等中的一种或多种)以及未来预设时间长度内的对应轨迹T(示驾数据中选取的主车的实际驾驶轨迹，即上述所述的第一运动轨迹)，基于驾驶场景s与轨迹T计算当前时间点的车辆驾驶行为指标(也可称为第一驾驶行为指标/>)。

S2.建立“(驾驶场景s+驾驶行为指标)-规划器超参数-模拟运动轨迹”的学习框架映射结构，以达到最终实现“驾驶行为-运动规划”对应关系(即上述所述的第一驾驶行为指标与第一运动轨迹之间的映射关系)的匹配，具体为：通过将驾驶场景s与驾驶行为指标作为上述学习框架的输入，之后输出运动规划器所需的超参数组合/>(即多个超参数)，基于该超参数组合/>输出模拟运动轨迹/>(也可称为规划轨迹/>)。在实际的应用场景中，运动规划器就是基于超参数组合/>的取值来规划自动驾驶车辆的运动轨迹。

S3.利用步骤S1中提取到的作为训练集，以/>为输入值，模拟运动轨迹为标签对“驾驶行为-运动规划”对应关系进行学习(即让轨迹T与模拟运动轨迹/>尽量拟合)，当基于超参数组合/>的取值得到的模拟运动轨迹/>与轨迹T的拟合度在预设范围内，则确定此时得到的超参数组合/>的取值为最终取值，并基于该超参数组合/>的最终取值更新“驾驶行为-运动规划”对应关系，即得到了第一驾驶行为指标与第一运动轨迹之间的映射关系。

402、接收目标感知信息，并根据目标感知信息确定目标驾驶行为指标。

自动驾驶车辆基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系之后，该映射关系就存储在该自动驾驶车辆中，当该自动驾驶车辆在实际行驶时，通过传感器就可实时获取该自动驾驶车辆当前的周围环境的信息(即目标感知信息)，并根据该目标感知信息确定目标驾驶行为指标，该目标感知信息可以包括该目标车辆的定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息等中的一种或多种。

需要说明的是，在本申请的一些实施方式中，还需要阐述自动驾驶车辆在接收到目标感知信息之后，如何根据目标感知信息确定目标驾驶行为指标。在一种可实现的方式中，自动驾驶车辆会先生成强化学习模块，该强化学习模块就用于根据感知信息生成与该感知信息对应的驾驶行为指标，也就是说，通过强化学习的方式，自动驾驶车辆通过生成的强化学习模块能够根据接收到的感知信息产生合适的驾驶行为指标。生成了该强化学习模块后，当自动驾驶车辆在实际行驶过程中，通过传感器接收到当前周围环境的目标感知信息后，生成的强化学习模块就可以根据该目标感知信息，产生合适的目标驾驶行为指标。

需要说明的是，在本申请的一些实施方式中，自动驾驶车辆具体如何生成强化学习模块可以通过但不限于如下方式：首先，获取第二感知信息，该第二感知信息可以是已知的任意车辆的周围环境的信息，该第二感知信息可以包括该选定的任意车辆的定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息等中的一种或多种。也就是说，该第二感知信息是作为强化学习的训练数据集的，之后，通过强化学习的方式从该第二感知信息中学习第二驾驶行为指标，直到从第二感知信息中学习到的第二驾驶行为指标从环境中累积获得的环境奖励值最大，则确定该强化学习模块生成了。

为便于理解，这里首先对强化学习的方式进行介绍，请参阅图6，图6为强化学习模块(也可称为强化学习系统(reinforcement learning system，RLS))的一种示意图，强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉RLS如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。也就是说，强化学习的基本原理是：如果智能体的某个行为策略导致环境正的奖赏(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的环境奖赏值之和最大。强化学习把学习看作试探评价过程，智能体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给智能体，智能体再根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。强化学习的三个重要元素分别是如图6所示的状态s、奖赏r(也可称为代价函数r)、动作a，在本申请实施例中，强化学习的状态s就由第二感知信息及该自动驾驶车辆的自身状态确定，强化学习的代价函数r则基于行车安全性、行车效率、道路通行效率中的至少一个设定，强化学习的动作a即为上述所述第二驾驶行为指标。

具体地，为便于理解，请继续参阅图5，图5中的步骤S4-S5说明了如何生成强化学习模块以及自动驾驶车辆最终如何根据目标感知信息确定目标驾驶行为指标，对步骤S4-S5的描述具体如下：

S4.设计生成强化学习模块，用于根据第二感知信息产生合适的第二驾驶行为指标，该模块需要通过学习得到，具体学习过程如步骤S4.1-4.6下：

S4.1、设计代价函数r(也可称为损失函数或奖赏)，该代价函数r的设计需要考虑安全性、行车效率中的至少一个，同时也需兼顾其他交通参与者的通行效率。

S4.2、获取第二感知信息(该第二感知信息为事先通过传感器获取到的，作为强化学习的训练数据集)，结合该第二感知信息和自车状态信息，计算强化学习所用的状态表征s(即上述所述的状态s)。

S4.3、将状态表征s输入强化学习的评估网络，输出动作a，该动作a就为第二驾驶行为指标

S4.4、将第二驾驶行为指标对应到步骤S3获得的映射关系中(即将第二驾驶行为指标/>作为驾驶行为指标/>对应到上述映射关系中)，获得相应的运动规划器的超参数组合/>的最终取值，基于该超参数组合/>的最终取值，基于现有的运动规划算法进行规划。

S4.5、执行步骤S4.4中运动轨迹规划的前几步，对下一步状态表征s′和代价函数r进行观测，获得数组并对其进行存储。

S4.6、通过存储的上述数组更新强化学习的评估网络，若该网络收敛则确定得到强化学习模块，否则回到步骤S4.2继续循环执行，直至该网络收敛。需要说明的是，该强化学习的评估网络具体可以是深度神经网络，如，卷积神经网络(Convolutional NeuralNetworks,CNN)。

403、根据映射关系规划与目标驾驶行为指标对应的第二运动轨迹。

通过强化学习模块学习到了如何根据感知信息产生合适的驾驶行为指标之后，则当自动驾驶车辆在根据实时获取到的目标感知信息产生了对应的目标驾驶行为指标后，就可根据上述得到的映射关系规划出与该目标驾驶行为指标对应的第二运动轨迹(即实际驾驶中产生的类人驾驶行为的运动轨迹)。

同样的，为便于理解，具体请参阅图5所示的步骤S5，步骤S5说明了自动驾驶车辆最终如何根据目标感知信息确定目标驾驶行为指标，对步骤S5的描述具体如下：

S5.接收目标感知信息，通过强化学习模块产生目标驾驶行为指标，将目标驾驶行为指标输入到步骤S3建立的“驾驶行为-运动规划”对应关系，进行运动规划，也就是说，在运动规划过程中，通过传感器获取到的目标感知信息s0,输入给步骤S4学到的强化学习模块，输出对应的目标驾驶行为指标通过步骤S3获得的映射关系，从而获得相应的运动规划器的超参数组合/>的最终取值，并基于超参数组合/>的最终取值，通过运动规划算法进行规划，得到类人驾驶行为的运动轨迹(即第二运动轨迹)。

为便于更好的理解本申请实施例的方案，下面结合图7至图9，以一个详细的实施方式为例进行阐述。

请参阅图7，图7为通过示教数据确定“驾驶行为-运动规划”对应关系的一个示意图，首先，自动驾驶车辆通过示教数据，选择特定编号车辆(即目标车辆)，在不同时刻，以该车辆及该车辆周围的其他车辆的相对位置、各车辆的速度等作为第一感知信息s(即驾驶场景s)，采用未来一定步长内该车辆的行驶轨迹作为第一运动轨迹T，之后，引入SVO作为驾驶行为指标可基于最大熵模型及利用直方图滤波，对各个时刻该车辆的进行驾驶行为指标估计；之后，利用神经网络/>建立“(驾驶场景s+驾驶行为指标/>)-规划器超参数-模拟运动轨迹”的学习框架映射结构，以达到最终实现“驾驶行为-运动规划”对应关系(即上述所述的第一驾驶行为指标与第一运动轨迹之间的映射关系)的匹配，神经网络/>以第一感知信息s及根据SVO估算的驾驶行为指标/>作为输入，输出多项式规划算法所需的超参数组合/>该超参数组合/>可以包括但不限于：采样密度、规划时长、代价权重等中的一个或多个。通过神经网络/>拟合的超参数组合/>再进一步通过多项式规划算法就可以生成最优的模拟运动轨迹/>(也可称为规划轨迹/>)的映射关系，该映射关系就可作为该自动驾驶车辆的运动规划映射模块，此外，在利用上述提取的/>作为训练集，以/>为输入值，模拟运动轨迹/>为标签，以模拟运动轨迹/>与第一运动轨迹T之间的均方误差作为代价函数，通过粒子群算法(其他算法也可以，此处不做限定)对以上代价函数进行优化，优化参数为神经网络/>的相关参数，最终习得可以实现与示教数据接近的“驾驶行为-运动规划”的对应关系。

请继续参阅图8，图8为生成强化学习模块的技术框架图，首先，需要设计强化学习的代价函数r，之后，车辆(可以是与该自动驾驶车辆车型相同的任意车辆)通过激光雷达(其他雷达也可以)获取二维可行驶与不可行驶的区域信息，再将该信息表征为投影矩阵，将历史投影矩阵中间隔为m(如，m为5)的最近n帧(如，n为4)的投影矩阵按照当前车辆坐标系进行坐标变换，将得到的投影矩阵序列作为模型输入。之后，以神经网络(如，循环神经网络，其他网络也可以)作为训练模型中处理投影矩阵序列的网络结构，之后对接全连接网络输出根据SVO估算的第二驾驶行为指标需要说明的是，在一些实施方式中，不要这层全连接网络也行，则此时由神经网络直接输出第二驾驶行为指标/>得到第二驾驶行为指标之后，将第二驾驶行为指标/>输入到获得的“驾驶行为-运动规划”的对应关系的网络中，获得多项式运动规划的超参数组合/>基于此超参数组合/>以多项式运动规划算法进行规划，多项式算法是一种基于采样的规划算法，该算法在结构化道路的Frenet坐标系(即车道坐标系)下进行规划，首先对偏离车道中心线的横向距离以及纵向期望速度进行采样，之后通过p次(如，p为5)多项式拟合，生成备选运动轨迹集合，最后根据运动规划器的代价函数对各个备选运动轨迹进行优选，输出最优的运动轨迹，完成运动规划。最后，再将得到的最优的运动轨迹交给下层控制器进行跟踪，通过与环境交互，得到环境奖励r(即代价函数r)，以及下一步的矩阵序列s’，将获得的数组/>进行保存。当数组积累到一定量的数据时，利用SAC强化学习算法对驾驶行为生成模型进行学习，直到模型收敛，当模型收敛，则意味着强化学习模块已生成。

自动驾驶车辆通过图7对应的实施方式确定了示教数据中驾驶行为与运动规划(即第一驾驶行为指标与第一运动轨迹)之间的对应关系的匹配，通过图8对应的实施方式生成了可根据感知信息(即第二感知信息)产生合适的驾驶行为指标(即第二驾驶行为指标)的强化学习模块，接下来在来详细说明如何基于图7的映射关系以及图8的强化学习模块来在实际驾驶场景中进行运动规划，请参阅图9，自动驾驶车辆在实际驾驶场景中，通过传感器获取到周围的环境信息(即目标感知信息s0)，该目标感知信息输入到强化学习的评估网络以及“驾驶行为-运动规划”的对应关系的网络，强化学习的评估网络输出当前最佳的SVO值(即目标驾驶行为指标)，输入到“驾驶行为-运动规划”的对应关系的网络，进一步输出当前对应该目标驾驶行为指标/>的运动规划的超参数组合/>的配置。之后将超参数组合/>的配置传给运动规划器，进行运动规划，输出实时的类人行为的规划轨迹(即第二运动轨迹)。

在图4至图9所对应的实施例的基础上，为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的轮式移动设备。具体参阅图10，图10为本申请实施例提供的轮式移动备的一种结构示意图，轮式移动设备1000包括：映射模块1001、接收模块1002以及规划模块1003，其中，映射模块1001，用于基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系，该示教数据为符合交通规则的任意车辆的行驶数据集，该第一驾驶行为指标为对该示教数据中的驾驶行为量化后的表征，该第一运动轨迹为与该驾驶行为对应的可行驶轨迹序列；接收模块1002，用于接收目标感知信息，并根据该目标感知信息确定目标驾驶行为指标，该目标感知信息为通过传感器获取到的该轮式移动设备当前的周围环境的信息；规划模块1003，用于根据该映射关系规划与该目标驾驶行为指标对应的第二运动轨迹。

在一种可能的设计中，该映射模块1001具体用于：从该示教数据中获取第一感知信息及与该第一感知信息对应的第一驾驶行为指标，该第一感知信息为从该示教数据中选定的目标车辆的周围环境的信息，之后，根据该第一感知信息及该第一驾驶行为指标确定运动规划器的超参数的取值，该运动规划器为该轮式移动设备中用于基于该超参数生成运动轨迹的模块；当基于该超参数的取值得到的模拟运动轨迹与该第一运动轨迹的拟合度在预设范围内，确定该第一驾驶行为指标与该超参数的取值的对应关系为该映射关系。

在一种可能的设计中，该接收模块1002具体用于：生成强化学习模块1004，该强化学习模块1004用于根据感知信息生成与该感知信息对应的驾驶行为指标；接收该目标感知信息；通过该强化学习模块1004确定与该目标感知信息对应的该目标驾驶行为指标。

在一种可能的设计中，该接收模块1002具体还用于：获取第二感知信息，该第二感知信息为已知的任意车辆的周围环境的信息；当通过强化学习的方式从该第二感知信息中学习到的第二驾驶行为指标使该第二驾驶行为指标从环境中累积获得的环境奖励值最大，则确定生成该强化学习模块1004。

在一种可能的设计中，该强化学习的状态由该第二感知信息及该轮式移动设备的自身状态确定；该强化学习的代价函数基于行车安全性、行车效率、道路通行效率中的至少一个设定；该强化学习的动作为该第二驾驶行为指标。

在一种可能的设计中，该强化学习模块的评估网络包括深度神经网络。

在一种可能的设计中，该周围环境的信息至少包括如下信息中的一种：定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息。

在一种可能的设计中，该轮式移动设备包括：自动驾驶车辆。该自动驾驶车辆可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本申请实施例不做特别的限定。

需要说明的是，轮式移动设备1000中各模块/单元之间的信息交互、执行过程等内容，与本申请中图4至图9对应的方法实施例基于同一构思，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供了一种自动驾驶车辆，结合上述对图3的描述，请参阅图11，图11为本申请实施例提供的自动驾驶车辆的一种结构示意图，其中，自动驾驶车辆1100上可以部署有图10对应实施例中轮式移动设备1000对应的模块，用于实现图4至图9对应实施例中自动驾驶车辆的功能。由于在部分实施例中，自动驾驶车辆1100还可以包括通信功能，则自动驾驶车辆1100除了包括图3中所示的组件，还可以包括：接收器1101和发射器1102，其中，处理器113可以包括应用处理器1131和通信处理器1132。在本申请的一些实施例中，接收器1101、发射器1102、处理器113和存储器114可通过总线或其它方式连接。

处理器113控制自动驾驶车辆1100的操作。具体的应用中，自动驾驶车辆1100的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

接收器1101可用于接收输入的数字或字符信息，以及产生与自动驾驶车辆1100的相关设置以及功能控制有关的信号输入。发射器1102可用于通过第一接口输出数字或字符信息；发射器1102还可用于通过第一接口向磁盘组发送指令，以修改磁盘组中的数据；发射器1102还可以包括显示屏等显示设备。

本申请实施例中，应用处理器1131，用于执行图4至图9对应实施例中的自动驾驶车辆执行运动轨迹的规划方法。例如，应用处理器1131用于执行如下步骤：基于示教数据建立第一驾驶行为指标与第一运动轨迹的映射关系，该示教数据为符合交通规则的任意车辆的行驶数据集，该第一驾驶行为指标为对该示教数据中的驾驶行为量化后的表征，该第一运动轨迹为与该驾驶行为对应的可行驶轨迹序列；接收目标感知信息，并根据该目标感知信息确定目标驾驶行为指标，该目标感知信息为通过传感器获取到的该轮式移动设备当前的周围环境的信息；根据该映射关系规划与该目标驾驶行为指标对应的第二运动轨迹。

需要说明的是，对于应用处理器1131执行运动轨迹的规划方法的具体实现方式以及带来的有益效果，均可以参考图4至图9对应的各个方法实施例中的叙述，此处不再一一赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成运动轨迹的程序，当其在计算机上运行时，使得计算机执行如前述图4至图9所示实施例描述的方法中自动驾驶车辆所执行的步骤。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图4至图9所示实施例描述的方法中自动驾驶车辆所执行的步骤。

本申请实施例中还提供一种电路系统，该电路系统包括处理电路，该处理电路配置为执行如前述图4至图9所示实施例描述的方法中自动驾驶车辆所执行的步骤。

本申请实施例提供的自动驾驶车辆中用于执行运动轨迹的规划方法具体可以为芯片，芯片包括：处理单元和通信单元，该处理单元例如可以是处理器，该通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使服务器内的芯片执行上述图4至图9所示实施例描述的运动轨迹的规划方法。可选地，该存储单元为该芯片内的存储单元，如寄存器、缓存等，该存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图12，图12为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 120，NPU 120作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路120，通过控制器1204控制运算电路1203提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1203内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路1203是二维脉动阵列。运算电路1203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1201中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1208中。

统一存储器1206用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller，DMAC)1205，DMAC被搬运到权重存储器1202中。输入数据也通过DMAC被搬运到统一存储器1206中。

BIU为Bus Interface Unit，即总线接口单元1210，用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer，IFB)1209的交互。

总线接口单元1210(Bus Interface Unit，简称BIU)，用于取指存储器1209从外部存储器获取指令，还用于存储单元访问控制器1205从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1206或将权重数据搬运到权重存储器1202中或将输入数据数据搬运到输入存储器1201中。

向量计算单元1207包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如Batch Normalization(批归一化)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元1207能将经处理的输出的向量存储到统一存储器1206。例如，向量计算单元1207可以将线性函数和/或非线性函数应用到运算电路1203的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1207生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1203的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1204连接的取指存储器(instruction fetch buffer)1209，用于存储控制器1204使用的指令；统一存储器1206，输入存储器1201，权重存储器1202以及取指存储器1209均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，循环神经网络中各层的运算可以由运算电路1203或向量计算单元1207执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CLU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种运动轨迹的规划方法，应用于轮式移动设备，其特征在于，包括：

从示教数据中获取第一感知信息及与所述第一感知信息对应的第一驾驶行为指标，所述第一感知信息为从所述示教数据中选定的目标车辆的周围环境的信息，所述示教数据为符合交通规则的任意车辆的行驶数据集，所述第一驾驶行为指标为对所述示教数据中的驾驶行为量化后的表征；

根据所述第一感知信息及所述第一驾驶行为指标确定运动规划器的超参数的取值，所述运动规划器为所述轮式移动设备中用于基于所述超参数生成运动轨迹的模块；

当基于所述超参数的取值得到的模拟运动轨迹与第一运动轨迹的拟合度在预设范围内，确定所述第一驾驶行为指标与所述超参数的取值的对应关系为所述第一驾驶行为指标与所述第一运动轨迹的映射关系，所述第一运动轨迹为与所述驾驶行为对应的可行驶轨迹序列；

接收目标感知信息，并根据所述目标感知信息确定目标驾驶行为指标，所述目标感知信息为通过传感器获取到的所述轮式移动设备当前的周围环境的信息；

根据所述映射关系规划与所述目标驾驶行为指标对应的第二运动轨迹。

2.根据权利要求1所述的方法，其特征在于，所述接收目标感知信息，并根据所述目标感知信息确定目标驾驶行为指标包括：

生成强化学习模块，所述强化学习模块用于根据感知信息生成与所述感知信息对应的驾驶行为指标；

接收所述目标感知信息；

通过所述强化学习模块确定与所述目标感知信息对应的所述目标驾驶行为指标。

3.根据权利要求2所述的方法，其特征在于，所述生成强化学习模块包括：

获取第二感知信息，所述第二感知信息为已知的任意车辆的周围环境的信息；

当通过强化学习的方式从所述第二感知信息中学习到的第二驾驶行为指标使所述第二驾驶行为指标从环境中累积获得的环境奖励值最大，则确定生成所述强化学习模块。

4.根据权利要求3所述的方法，其特征在于，

所述强化学习的状态由所述第二感知信息及所述轮式移动设备的自身状态确定；

所述强化学习的代价函数基于行车安全性、行车效率、道路通行效率中的至少一个设定；

所述强化学习的动作为所述第二驾驶行为指标。

5.根据权利要求3-4中任一项所述的方法，其特征在于，所述强化学习模块的评估网络包括深度神经网络。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述周围环境的信息至少包括如下信息中的一种：定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息。

7.一种轮式移动设备，其特征在于，包括：

映射模块，用于从示教数据中获取第一感知信息及与所述第一感知信息对应的第一驾驶行为指标，所述第一感知信息为从所述示教数据中选定的目标车辆的周围环境的信息，所述示教数据为符合交通规则的任意车辆的行驶数据集，所述第一驾驶行为指标为对所述示教数据中的驾驶行为量化后的表征；

所述映射模块，还用于根据所述第一感知信息及所述第一驾驶行为指标确定运动规划器的超参数的取值，所述运动规划器为所述轮式移动设备中用于基于所述超参数生成运动轨迹的模块；

所述映射模块，还用于当基于所述超参数的取值得到的模拟运动轨迹与第一运动轨迹的拟合度在预设范围内，确定所述第一驾驶行为指标与所述超参数的取值的对应关系为所述第一驾驶行为指标与所述第一运动轨迹的映射关系，所述第一运动轨迹为与所述驾驶行为对应的可行驶轨迹序列；

接收模块，用于接收目标感知信息，并根据所述目标感知信息确定目标驾驶行为指标，所述目标感知信息为通过传感器获取到的所述轮式移动设备当前的周围环境的信息；

规划模块，用于根据所述映射关系规划与所述目标驾驶行为指标对应的第二运动轨迹。

8.根据权利要求7所述的设备，其特征在于，所述接收模块具体用于：

接收所述目标感知信息；

9.根据权利要求8所述的设备，其特征在于，所述接收模块具体还用于：

10.根据权利要求9所述的设备，其特征在于，

所述强化学习的动作为所述第二驾驶行为指标。

11.根据权利要求9-10中任一项所述的设备，其特征在于，所述强化学习模块的评估网络包括深度神经网络。

12.根据权利要求7-10中任一项所述的设备，其特征在于，所述周围环境的信息至少包括如下信息中的一种：定位信息、道路结构信息、障碍物位置信息、车道线信息、交通信号信息、交通状况信息。

13.根据权利要求7-10中任一项所述的设备，其特征在于，所述轮式移动设备包括：

自动驾驶车辆。

14.一种轮式移动设备，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至6中任一项所述的方法。

15.根据权利要求14所述的设备，其特征在于，所述轮式移动设备包括：

自动驾驶车辆。

16.一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法。

17.一种电路系统，其特征在于，所述电路系统包括处理电路，所述处理电路配置为执行如权利要求1至6中任一项所述的方法。