CN113296500A

CN113296500A - 一种局部路径规划方法及系统

Info

Publication number: CN113296500A
Application number: CN202110480951.3A
Authority: CN
Inventors: 张子期
Original assignee: Zhejiang Geely Holding Group Co Ltd; Geely Automobile Research Institute Ningbo Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Geely Automobile Research Institute Ningbo Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-24
Anticipated expiration: 2041-04-30
Also published as: CN113296500B

Abstract

本发明提供一种局部路径规划方法及系统，所述局部路径规划方法包括：获取环境信息和自车状态信息，通过所述环境信息和所述自车状态信息获取第一特征信息，通过所述自车状态信息获取第二特征信息；将所述第一特征信息和所述第二特征信息输入到决策网络中，进行训练，获取决策模型；通过所述决策模型对实时的环境信息和自车状态信息进行处理，获取决策路径信息。通过决策模型处理实时的第一特征信息和第二特征信息，能够从第一特征信息和第二特征信息组成的高维特征信息中识别特征，完成局部路径规划，避免低维特征信息只能表达自车状态或者环境状态，能够较好地处理驾驶行为中多模态的问题。

Description

一种局部路径规划方法及系统

技术领域

本发明涉及自动驾驶领域，特别是涉及一种局部路径规划方法及系统。

背景技术

随着科技水平的发展和进步，人工智能技术在自动驾驶领域得到了结合和应用，目前，通过机器学习训练，能够达到模仿驾驶员规划局部行驶路径的目的，但不能较好地处理驾驶行为中多模态的问题，例如，不能较好地在直行道上进行决策选择跟车或超车。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种局部路径规划方法及系统，用于解决现有技术中驾驶行为中多模态的问题。

为实现上述目的及其他相关目的，本发明提供一种局部路径规划方法，所述局部路径规划方法包括：

获取环境信息和自车状态信息，通过所述环境信息和所述自车状态信息获取第一特征信息，通过所述自车状态信息获取第二特征信息；

将所述第一特征信息和所述第二特征信息输入到决策网络中，进行训练，获取决策模型；

通过所述决策模型对实时的环境信息和自车状态信息进行处理，获取决策路径信息。

可选的，所述环境信息至少包括以下之一：地图信息、障碍物位置、可行驶区域；所述自车状态信息至少包括以下之一：自车位置、自车速度、自车加速度。

可选的，通过所述自车状态信息获取第二特征信息的步骤包括：

将自车位置、自车速度、自车加速度进行向量化，获取第二特征信息。

可选的，通过所述环境信息和所述自车状态信息获取第一特征信息的步骤包括：

提供第一栅格图，并将所述第一栅格图中的各个栅格填充为p；

分别确定可行驶区域和障碍物位置在所述第一栅格图中的对应栅格，并分别将所述可行驶区域的对应栅格以及所述障碍物位置的对应栅格进行填充；

提供第二栅格图，并将所述第二栅格图中的各个栅格填充为p；

确定所述自车位置在所述第二栅格图中的对应栅格，并将所述自车位置的对应栅格进行填充；

将填充后的所述第一栅格图和填充后的所述第二栅格图沿着通道方向进行拼接，获取所述第一特征信息。

可选的，分别将所述可行驶区域的对应栅格以及所述障碍物位置的对应栅格进行填充的步骤包括：

将所述可行驶区域的对应栅格填充为q；

将所述障碍物位置的对应栅格填充为v，其中，v为障碍物位置与所述自车速度的相对速度。

可选的，将所述自车位置的对应栅格进行填充的步骤包括：

将所述自车位置的对应栅格填充为q。

可选的，

根据路径的参考线建立坐标系，当存在弯道时，将所述弯道转化为直线道路；

所述坐标系分别与所述第一栅格图和所述第二栅格图相匹配，坐标系中的点对应的第一栅格图或者第二栅格图中的坐标的数学表达为：

i＝[d/w],0≤d≤d_max

j＝[s/l]，0≤s≤s_max

d_max＝columns·w

s_max＝rows·l

其中，i为坐标系中的点对应的第一栅格图或者第二栅格图中的横坐标，j为坐标系中的点对应的第一栅格图或者第二栅格图中的纵坐标，d为坐标系中的点在坐标系中的横坐标，s为坐标系中的点在坐标系中的纵坐标，l为栅格的长度，w为栅格的宽度，rows为第一栅格图或者第二栅格图中行的数量，columns为第一栅格图或者第二栅格图中列的数量，d_max为横坐标的最大值，s_max为纵坐标的最大值。

可选的，所述决策网络包括：第一决策子网络、第二决策子网络和第三决策子网络；

所述第一决策子网络包括至少一层卷积层，对所述第一特征信息进行卷积处理获取第一特征向量；

所述第二决策子网络包括至少一层全连接层，所述第二特征信息输入所述第二决策子网络获取第二特征向量；

所述第三决策子网络包括至少一层全连接层，所述第三决策子网络用于处理完成拼接后的第一特征向量和第二特征向量。

一种局部路径规划方法，包括所述的局部路径规划方法，还包括：

将第一时刻的第一特征信息和第二特征信息输入到所述决策网络中，获取决策路径；

通过评价指标评价所述决策路径，获取所述决策路径的价值；

获取第二时刻的第一特征信息和第二特征信息；

将第一时刻的第一特征信息和第二特征信息、决策路径、决策路径的价值、第二时刻的第一特征信息和第二特征信息作为训练样本；

令第一时刻的第一特征信息与第二时刻的第一特征信息、第一时刻的第二特征信息与第二时刻的第二特征信息一致，通过所述训练样本训练所述决策网络，获取所述决策模型。

可选的，所述评价指标包括以下至少之一：行驶效率、是否偏离参考线、是否与障碍物发生碰撞、是否会驶离可行驶区域。

可选的，通过自车的行驶效率评价所述决策路径，所述行驶效率的数学表达为：

R_v＝K_v(s_T-s₀)/T

其中，R_v为行驶效率，K_v为第二归一化系数，S_T为当前时刻自车在坐标系中的纵坐标，S₀为上一时刻自车在坐标系中的纵坐标，T为当前时刻与上一时刻的时间差。

可选的，通过自车偏离参考线的偏移量来判断是否偏离参考线，自车偏离参考线的偏移量的数学表达为：

C_ref＝K_ref|d_T-d^ref|

其中，C_ref为自车偏离参考线的偏移量，K_ref为第三归一化系数，d_T为当前时刻自车在坐标系中的横坐标，d^ref为参考线在坐标系中的横坐标。

可选的，通过自车与障碍物发生碰撞的惩罚量来判断是否与障碍物发生碰撞，自车与障碍物发生碰撞的惩罚量的数学表达为：

其中，C_collide为自车与障碍物发生碰撞的惩罚量，K_collied为第四归一化系数，T_collide为碰撞时长。

可选的，通过自车驶离可行驶区域的惩罚量来判断是否会驶离可行驶区域，自车驶离可行驶区域的惩罚量的数学表达为：

其中，C_offroad为自车驶离可行驶区域的惩罚量，K_offroad为第五归一化系数，T_offroad为驶离可行驶区域的时长。

可选的，通过评价指标评价所述决策路径，所述评价指标的数学表达为：

R＝θ_vR_v-θ_refC_ref-θ_collideC_collide-θ_offroadC_offroad

其中，R为评价指标，R_v为行驶效率，C_ref为自车偏离参考线的偏移量，C_collide为自车与障碍物发生碰撞的惩罚量，C_offroad为自车驶离可行驶区域的惩罚量，θ_v为第六归一化系数，θ_ref为第七归一化系数，θ_collide为第八归一化系数，θ_offroad为第九归一化系数。

一种局部路径规划方法，所述的局部路径规划方法之后，还包括：

将所述第一特征信息、所述第二特征信息以及所述决策路径信息输入到规划网络中，进行训练，获取规划模型；

通过所述规划模型对实时的环境信息、自车状态信息、决策路径信息进行处理，获取规划路径信息。

可选的，所述规划网络包括：

第一规划子网络、第二规划子网络、第三规划子网络和第四规划子网络；

所述第一规划子网络包括至少一层卷积层，对所述第一特征信息进行卷积处理，获取第一特征向量；

所述第二规划子网络包括至少一层全连接层，所述第二特征信息输入所述第二规划子网络，获取第二特征向量；

所述第三规划子网络包括至少一层全连接层，所述决策路径信息输入到所述第三规划子网络，获取第三特征向量；

所述第四规划子网络包括至少一层全连接层，所述第四规划子网络用于处理完成拼接后的第一特征向量、第二特征向量、第三特征向量。

可选的，获取所述规划模型的步骤包括：

采集实车数据，所述实车数据包括专家路径信息、相对应的环境信息以及相对应的自车状态信息；

将所述专家路径信息作为所述实车数据的标签对所述规划网络进行训练，获取所述规划模型。

一种局部路径规划系统，所述局部路径规划系统包括：

采集模块，用于获取环境信息和自车状态信息，通过所述环境信息和所述自车状态信息获取第一特征信息，通过所述自车状态信息获取第二特征信息；

决策模块，用于将所述第一特征信息和所述第二特征信息输入到决策网络中，进行训练，获取决策模型，通过所述决策模型对实时的环境信息和自车状态信息进行处理，获取决策路径信息；

所述采集模块与所述决策模块信号连接。

一种局部路径规划系统，所述局部路径规划系统包括：

规划模块，用于将所述第一特征信息、所述第二特征信息以及所述决策路径信息输入到规划网络中，进行训练，获取规划模型，通过所述规划模型对实时的环境信息、自车状态信息、决策路径信息进行处理，获取规划路径信息；

所述采集模块与所述决策模块信号连接。

一种电子设备，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现任一项所述的方法。

一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行任一项所述的方法。

如上所述，本发明局部路径规划方法及系统，通过采集自车状态信息以及自车相对应的环境信息，来获取与自车以及环境具有特征关联关系的第一特征信息，以及获取与自车状态具有特征关联关系的第二特征信息，并将第一特征信息与第二特征信息输入决策网络中，经过迭代训练和结果量的拟合，训练出优选的训练模型并获取为决策模型，通过决策模型处理实时的第一特征信息和第二特征信息，能够从第一特征信息和第二特征信息组成的高维特征信息中识别：更深的语义、更多的特征、更多的环境与自车的交互信息，并完成局部路径规划，避免低维特征信息只能表达自车状态或者环境状态，能够较好地处理驾驶行为中多模态的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图

图1为本发明实施例一中的局部路径规划方法的流程示意图；

图2为弯道示意图；

图3为直线道路示意图；

图4为本发明实施例一中的根据路径的参考线建立坐标系的示意图；

图5为本发明实施例一中坐标系下自车和障碍物的关系示意图；

图6为本发明实施例一中第一栅格图的示意图；

图7为本发明实施例一中第二栅格图的示意图；

图8为本发明实施例一中决策网络的示意图；

图9为本发明实施例一中自车状态的示意图；

图10为本发明实施例二中的局部路径规划方法的流程示意图；

图11为本发明实施例三中的局部路径规划方法的流程示意图；

图12为本发明实施例三中规划网络的示意图；

图13为本发明实施例四中局部路径规划系统的示意图；

图14为本发明实施例五中局部路径规划系统的示意图；

元件标号说明

1、车道线；2、参考线；3、栅格；4、自车；5、障碍物；6、栅格参考点、7、自车中心点；10、第一决策子网络；20、第二决策子网络；30、第三决策子网络；11、第一规划子网络；21、第二规划子网络；31、第三规划子网络；41、第四规划子网络。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明在实施例一中提供一种局部路径规划方法，所述局部路径规划方法包括：

S1：获取环境信息和自车状态信息，通过所述环境信息和所述自车状态信息获取第一特征信息，通过所述自车状态信息获取第二特征信息；

S2：将所述第一特征信息和所述第二特征信息输入到决策网络中，进行训练，获取决策模型；

S3：通过所述决策模型对实时的环境信息和自车状态信息进行处理，获取决策路径信息。通过采集自车状态信息以及自车相对应的环境信息，来获取与自车以及环境具有特征关联关系的第一特征信息，以及获取与自车状态具有特征关联关系的第二特征信息，并将第一特征信息与第二特征信息输入决策网络中，经过迭代训练和结果量的拟合，训练出优选的训练模型并获取为决策模型，通过决策模型处理实时的第一特征信息和第二特征信息，能够从第一特征信息和第二特征信息组成的高维特征信息中识别：更深的语义、更多的特征、更多的环境与自车的交互信息，并完成局部路径规划，避免低维特征信息只能表达自车状态或者环境状态，能够较好地处理驾驶行为中多模态的问题。

为了更加精确地获取深层次的语义、更为丰富的特征、更多环境与自车的交互信息，在一些实施过程中，获取的所述环境信息至少包括以下之一：地图信息、障碍物位置、可行驶区域；获取的所述自车状态信息至少包括以下之一：自车位置、自车速度、自车加速度。例如，可以通过自车设置的激光雷达/摄像头获取的障碍物的位置，并通过高精地图获取的可行驶区域，该可行驶区域中还可以包括车道线或者参考线，还可以通过自车设置的定位模块获取的自车状态信息，例如，获取自车的当前位移坐标向量，并通过与位移坐标向量的时间微分关系获取自车的速度向量以及加速度向量。发明人发现在实际的路径规划中需要处理弯道情况，因此，发明人利用高精地图提供的可行驶区域以及道路信息，在弯道情况下，建立笛卡尔坐标系，将弯道进行解析表达，为了便于数据处理，还可以进行坐标系转化，将基于笛卡尔坐标系的弯道转化为基于Frenet坐标系的直线道路，可以将笛卡尔坐标系下的车道线1、参考线2转化为Frenet坐标系下的车道线1、参考线2，请参阅图2和图3。

可将环境信息和自车状态信息中深层次的语义信息承载于语义图中，在一些实施例中，通过建立多维度、多通道的栅格图来表达语义图，请参阅图5、6、7，通过所述环境信息和所述自车状态信息获取第一特征信息的步骤包括：

提供第一栅格图，并将所述第一栅格图中的各个栅格填充为p，为了便于对语义信息进行处理，降低运算量，提升处理速度，可将p设置为0；

分别确定可行驶区域和障碍物5位置在所述第一栅格图中的对应栅格，并分别将所述可行驶区域的对应栅格以及所述障碍物位置的对应栅格进行填充；

确定所述自车4位置在所述第二栅格图中的对应栅格，并将所述自车4位置的对应栅格进行填充；

进一步的，分别将所述可行驶区域的对应栅格以及所述障碍物位置的对应栅格进行填充的步骤包括：

将所述可行驶区域的对应栅格填充为q，其中，p≠q，为了便于区分可行驶区域的语义信息，降低运算量，提升处理速度，可将q设置为1，同时便于对障碍物位置的速度进行归一化处理，例如，将所述障碍物位置的对应栅格填充为v，请参考图6，v的数学表达为：

v＝K·v_ori

其中，K为第一归一化系数，v_ori为障碍物位置与所述自车速度的相对速度，障碍物可包括其他车辆以及静止路障，其他车辆存在垂直于自车速度行驶方向的相对速度，因此，在其他车辆中，p＜v＜q，将p设置为0，将q设置为1，所以0＜v＜1，由于静止路障不存在垂直于自车速度行驶方向的相对速度，因此，在静止路障中，v＝0，请参考图5、图6。

请参阅图7，将所述自车位置的对应栅格进行填充的步骤包括：

将所述自车位置的对应栅格填充为q。将完成填充后的第一栅格图和第二栅格图沿着通道方向进行拼接。

请参阅图4，根据路径的参考线2建立坐标系，当存在弯道时，将所述弯道转化为直线道路；

所述坐标系分别与所述第一栅格图和所述第二栅格图相匹配，坐标系中的点(i，j)对应的第一栅格图或者第二栅格图中的坐标的数学表达为：

i＝[d/w],0≤d≤d_max

j＝[s/l],0≤s≤s_max

d_max＝columns·w

s_max＝rows·l

其中，i为坐标系中的点对应的第一栅格图或者第二栅格图中的横坐标，j为坐标系中的点对应的第一栅格图或者第二栅格图中的纵坐标，d为坐标系中的点在坐标系中的横坐标，s为坐标系中的点在坐标系中的纵坐标，例如自车4的坐标(d，s)，l为栅格3的长度，w为栅格3的宽度，rows为第一栅格图或者第二栅格图中行的数量，columns为第一栅格图或者第二栅格图中列的数量，d_max为横坐标的最大值，s_max为纵坐标的最大值。

为了获取决策路径，通过决策网络处理第一特征信息和第二特征信息，所述决策网络包括：第一决策子网络10、第二决策子网络20和第三决策子网络30；

所述第一决策子网络10包括至少一层卷积层，可根据环境信息的复杂程度、需要提取特征的数量和/或精确度选择卷积层的数量，例如，可以包括三层卷积层，通过卷积运算获取，对所述第一特征信息进行卷积处理获取第一特征向量，能够较好的提取出环境信息以及自车状态信息中的特征，又例如，第一特征向量可以是64维的特征向量；

所述第二决策子网络20包括至少一层全连接层，所述第二特征信息输入所述第二决策子网络获取第二特征向量，又例如，第二特征向量也为64维的特征向量；

经过第一决策子网络10处理获取的第一特征向量和经过第二决策子网络20处理获取的第二特征向量进行拼接得到128维的特征向量，所述第三决策子网络包括至少一层全连接层，所述第三决策子网络30用于处理完成拼接后的第一特征向量和第二特征向量，请参阅图8。

进一步的，通过所述自车状态信息获取第二特征信息的步骤包括：

将自车位置、自车速度、自车加速度进行向量化，获取第二特征信息，第二特征信息的数学表达为：

S＝(x_sub,y_sub,v_lon,v_lat,a_lon,a_lat)

其中，S为第二特征信息，x_sub为自车中心点7与栅格参考点6相对位置的归一化横坐标，y_sub为自车中心点7与栅格参考点6相对位置的归一化纵坐标，v_lon为自车中心点7与栅格参考点6在横坐标方向上的归一化相对速度，v_lat为自车中心点7与栅格参考点6在纵坐标方向上的归一化相对速度，a_lon为自车中心点7与栅格参考点6在横坐标方向上的归一化相对加速度，a_lat为自车中心点7与栅格参考点6在纵坐标方向上的归一化相对加速度，请参考图9。

请参阅图10，本发明在实施例二中提供了一种局部路径规划方法，包括所述的局部路径规划方法，还包括：

S10：将第一时刻的第一特征信息和第二特征信息输入到所述决策网络中，获取决策路径；

S20：通过评价指标评价所述决策路径，获取所述决策路径的价值；

S30：获取第二时刻的第一特征信息和第二特征信息；

S40：将第一时刻的第一特征信息和第二特征信息、决策路径、决策路径的价值、第二时刻的第一特征信息和第二特征信息作为训练样本；

S50：令第一时刻的第一特征信息与第二时刻的第一特征信息、第一时刻的第二特征信息与第二时刻的第二特征信息一致，通过所述训练样本训练所述决策网络，获取所述决策模型。可将多个训练样本设置为缓存队列，设置最大训练次数，使用人工智能算法进行训练，例如，使用DDPG算法对决策网络进行强化学习和多次迭代训练，获取优化后的决策网络中各个神经元的理想权值数据，进而得到优化的决策模型。在训练过程中，训练样本的决策路径的获取过程中，可以使用人工智能算法，例如，使用贪婪算法获取决策路径。通过上述强化学习的方式获取决策模型，再通过所述决策模型处理第一特征信息和第二特征信息，得到实时决策路径，解决了局部路径规划中的多模态的问题。

在一些实施过程中，基于一些判定指标设置奖励函数，根据决策路径的价值来进行优化训练，所述评价指标包括以下至少之一：行驶效率、是否偏离参考线、是否与障碍物发生碰撞、是否会驶离可行驶区域。

例如，通过自车的行驶效率评价所述决策路径，所述行驶效率的数学表达为：

R_v＝K_v(s_T-s₀)/T

其中，R_v为行驶效率，K_v为第二归一化系数，S_T为当前时刻自车在坐标系中的纵坐标，S₀为上一时刻自车在坐标系中的纵坐标，T为当前时刻与上一时刻的时间差。避免决策路径降低行驶效率。

例如，通过自车偏离参考线的偏移量来判断是否偏离参考线，自车偏离参考线的偏移量的数学表达为：

C_ref＝K_ref|d_T-d^ref|

其中，C_ref为自车偏离参考线的偏移量，K_ref为第三归一化系数，d_T为当前时刻自车在坐标系中的横坐标，d^ref为参考线在坐标系中的横坐标，提高行驶过程中的规范性。

例如，通过自车与障碍物发生碰撞的惩罚量来判断是否与障碍物发生碰撞，如果自车的规划路径会与障碍物(包括其他车辆)预测的轨迹会发生碰撞，则根据碰撞时长来增加惩罚量，自车与障碍物发生碰撞的惩罚量的数学表达为：

其中，C_collide为自车与障碍物发生碰撞的惩罚量，K_collied为第四归一化系数，T_collide为碰撞时长，如果不发生碰撞，T_collide为正无穷大。

例如，通过自车驶离可行驶区域的惩罚量来判断是否会驶离可行驶区域，如果自车的规划路径会驶离可行驶区域，根据驶离可行驶区域的时长来增加惩罚量，自车驶离可行驶区域的惩罚量的数学表达为：

其中，C_offroad为自车驶离可行驶区域的惩罚量，K_offroad为第五归一化系数，T_offroad为驶离可行驶区域的时长，如果自车不会驶离可行驶区域，T_offroad记为正无穷大。

又例如，可以通过上述评价指标进行综合评价，所述评价指标的数学表达为：

R＝θ_vR_v-θ_refC_ref-θ_collideC_collide-θ_offroadC_offroad

发明人发现，完全强化学习的端到端的路径规划生成的路径由奖励函数决定，由于专家驾驶员的驾驶路径无法定量的用奖励函数描述，导致该方法生成的轨迹总是会和专家轨迹有区别。因此，请参阅图11，发明人在本发明实施三中提供一种局部路径规划方法，所述的局部路径规划方法之后，还包括：

S4：将所述第一特征信息、所述第二特征信息以及所述决策路径信息输入到规划网络中，进行训练，获取规划模型；

S5：通过所述规划模型对实时的环境信息、自车状态信息、决策路径信息进行处理，获取规划路径信息。通过所述规划网络再次分析第一特征信息、第二特征信息以及所述决策路径信息得到规划路径信息，进一步拟合专家驾驶员规划的专家路径的近似程度，提高了自车按照规划路径信息进行驾驶时的舒适度。

请参考图12，所述规划网络包括：

第一规划子网络11、第二规划子网络21、第三规划子网络31和第四规划子网络41；

所述第一规划子网络11包括至少一层卷积层，例如，可以包括三层卷积层，通过卷积运算获取，对所述第一特征信息进行卷积处理获取第一特征向量，能够较好的提取出环境信息以及自车状态信息中的特征，又例如，第一特征向量可以是64维的特征向量；

所述第二规划子网络21包括至少一层全连接层，所述第二特征信息输入所述第二决策子网络获取第二特征向量，又例如，第二特征向量也为64维的特征向量；

所述第三规划子网络31包括至少一层全连接层，所述决策路径信息输入到所述第三规划子网络，获取第三特征向量，又例如，第三特征向量同样为64维的特征向量；

经过第一规划子网络11处理获取第一特征向量、经过第二规划子网络21处理获取第二特征向量以及第三规划子网络31处理获取第三特征向量，将第一特征向量、第二特征向量和第三特征向量进行拼接得到192维的特征向量，所述第四规划子网络41包括至少一层全连接层，所述第四规划子网络41用于处理完成拼接后的第一特征向量、第二特征向量、第三特征向量，最终得到规划路径，最终的规划路径信息可由多维向量表达，自车通过该多维向量进行控制和驾驶，该多维向量的具体数学表达如下：

其中，s’为Frenet坐标系下自车沿着参考线方向上的距离，

为Frenet坐标系下自车沿着参考线方向上的速度，

为Frenet坐标系下自车沿着参考线方向上的加速度，d’为Frenet坐标系下自车垂直于参考线方向上的距离，

为Frenet坐标系下自车垂直于参考线方向上的速度，

为Frenet坐标系下自车垂直于参考线方向上的加速度，自车可按照所述规划路径信息进行驾驶，调整位移、速度以及加速度，能够取得较为舒适的乘坐体验。

为了提高规划路径舒适性，可将决策网络获取的决策路径模仿专家路径，将规划网络进行模仿学习训练，得到规划路径，获取所述规划模型的步骤包括：

将所述专家路径信息作为所述实车数据的标签对所述规划网络进行训练，通过不断的迭代训练，增加训练过程中规划路径信息与专家路径信息的近似程度，最终得到优化后的规划网络中的各个神经元的理想权值，获取规划模型，并通过规划模型处理实施的第一特征信息、第二特征信息以及决策路径，最终得到能够良好解决多模态问题且能够有优良乘坐体验的规划路径。

可以通过强化学习训练的决策模型输出较为优选的决策路径，解决驾驶行为多模态的问题；再通过模仿学习训练的规划模型输出和专家轨迹类似的规划模型，解决驾驶舒适性的问题，和传统的基于规则的分阶段的轨迹规划方法相比，所述局部路径规划方法由数据驱动，无需再通过人工进行场景建模和规则制定，即可自动处理新场景，展现合理的局部路径规划表现。

为了解决驾驶行为中多模态的问题，在本发明实施例四中提供一种局部路径规划系统，请参阅图13，所述局部路径规划系统包括：

所述采集模块与所述决策模块信号连接。

将所述可行驶区域的对应栅格填充为q；

可选的，将所述自车位置的对应栅格进行填充的步骤包括：

将所述自车位置的对应栅格填充为q。

可选的，

i＝[d/w]，0≤d≤d_max

j＝[s/l],0≤s≤s_max

d_max＝columns·w

s_max＝rows·l

获取第二时刻的第一特征信息和第二特征信息；

R_v＝K_v(s_T-s₀)/T

C_ref＝K_ref|d_T-d^ref|

R＝θ_vR_v-θ_refC_ref-θ_collideC_collide-θ_offroadC_offroad

再利用所述的局部路径规划方法之后，还包括：

可选的，所述规划网络包括：

可选的，获取所述规划模型的步骤包括：

为了提高乘坐驾驶体验，在本发明实施例五中提供一种局部路径规划系统，该系统依赖上述局部路径规划方法进行实施，请参阅图14，所述局部路径规划系统包括：

所述采集模块与所述决策模块信号连接。

在一些实施例中提供一种电子设备，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现任一项所述的方法。本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

在一些实施例中提供一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行任一项所述的方法。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

综上所述，本发明提供的局部路径规划方法及系统，通过采集自车状态信息以及自车相对应的环境信息，来获取与自车以及环境具有特征关联关系的第一特征信息，以及获取与自车状态具有特征关联关系的第二特征信息，并将第一特征信息与第二特征信息输入决策网络中，经过迭代训练和结果量的拟合，训练出优选的训练模型并获取为决策模型，通过决策模型处理实时的第一特征信息和第二特征信息，能够从第一特征信息和第二特征信息组成的高维特征信息中识别：更深的语义、更多的特征、更多的环境与自车的交互信息，并从高维特征信息中完成局部路径规划，避免低维特征信息只能表达自车状态或者环境状态，能够较好地处理驾驶行为中多模态的问题。为了使得局部规划路径贴合实际驾驶中的专家轨迹，还可以将获取的决策路径再次处理，并通过模仿学习的方式提高规划路径与专家路径的相似度。因此，还可以通过强化学习训练的决策模型输出较为优选的决策路径，解决驾驶行为多模态的问题；再通过模仿学习训练的规划模型输出和专家轨迹类似的规划模型，解决驾驶舒适性的问题，和传统的基于规则的分阶段的轨迹规划方法相比，所述局部路径规划方法由数据驱动，无需再通过人工进行场景建模和规则制定，即可自动处理新场景，展现合理的局部路径规划表现。相对于传统算法，避免迭代次数越高、采样点越密、计算量增大的问题，所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种局部路径规划方法，其特征在于，所述局部路径规划方法包括：

2.根据权利要求1所述的局部路径规划方法，其特征在于，所述环境信息至少包括以下之一：地图信息、障碍物位置、可行驶区域；所述自车状态信息至少包括以下之一：自车位置、自车速度、自车加速度。

3.根据权利要求2所述的局部路径规划方法，其特征在于，通过所述自车状态信息获取第二特征信息的步骤包括：

4.根据权利要求1所述的局部路径规划方法，其特征在于，通过所述环境信息和所述自车状态信息获取第一特征信息的步骤包括：

确定自车位置在所述第二栅格图中的对应栅格，并将所述自车位置的对应栅格进行填充；

5.根据权利要求4所述的局部路径规划方法，其特征在于，分别将所述可行驶区域的对应栅格以及所述障碍物位置的对应栅格进行填充的步骤包括：

将所述可行驶区域的对应栅格填充为q；

将所述障碍物位置的对应栅格填充为v，其中，v为障碍物位置与自车速度的相对速度。

6.根据权利要求4或者5所述的局部路径规划方法，其特征在于，将所述自车位置的对应栅格进行填充的步骤包括：

将所述自车位置的对应栅格填充为q。

7.根据权利要求4所述的局部路径规划方法，其特征在于，

i＝[d/w]，0≤d≤d_max

j＝[s/l],0≤s≤s_max

d_max＝columns·w

s_max＝rows·l

8.根据权利要求1所述的局部路径规划方法，其特征在于，所述决策网络包括：第一决策子网络、第二决策子网络和第三决策子网络；

9.一种局部路径规划方法，包括如权利要求1至8任一项所述的局部路径规划方法，其特征在于，还包括：

获取第二时刻的第一特征信息和第二特征信息；

10.根据权利要求9所述的局部路径规划方法，其特征在于，所述评价指标包括以下至少之一：行驶效率、是否偏离参考线、是否与障碍物发生碰撞、是否会驶离可行驶区域。

11.根据权利要求10所述的局部路径规划方法，其特征在于，通过自车的行驶效率评价所述决策路径，所述行驶效率的数学表达为：

R_v＝K_v(s_T-s₀)/T

12.根据权利要求10所述的局部路径规划方法，其特征在于，通过自车偏离参考线的偏移量来判断是否偏离参考线，自车偏离参考线的偏移量的数学表达为：

C_ref＝K_ref|d_T-d^ref|

13.根据权利要求10所述的局部路径规划方法，其特征在于，通过自车与障碍物发生碰撞的惩罚量来判断是否与障碍物发生碰撞，自车与障碍物发生碰撞的惩罚量的数学表达为：

14.根据权利要求10所述的局部路径规划方法，其特征在于，通过自车驶离可行驶区域的惩罚量来判断是否会驶离可行驶区域，自车驶离可行驶区域的惩罚量的数学表达为：

15.根据权利要求10至14任一项所述的局部路径规划方法，其特征在于，通过评价指标评价所述决策路径，所述评价指标的数学表达为：

R＝θ_vR_v-θ_refC_ref-θ_collideC_collide-θ_offroadC_offroad

16.一种局部路径规划方法，其特征在于，在权利要求1至8任一项所述的局部路径规划方法之后，还包括：

17.根据权利要求16所述的局部路径规划方法，其特征在于，所述规划网络包括：

18.根据权利要求16所述的局部路径规划方法，其特征在于，获取所述规划模型的步骤包括：

19.一种局部路径规划系统，其特征在于，所述局部路径规划系统包括：

所述采集模块与所述决策模块信号连接。

20.一种局部路径规划系统，其特征在于，所述局部路径规划系统包括：

所述采集模块与所述决策模块信号连接。

21.一种电子设备，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至18中任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1至18中任一项所述的方法。