CN112612267A

CN112612267A - 自动驾驶的路径规划方法和装置

Info

Publication number: CN112612267A
Application number: CN202011461426.9A
Authority: CN
Inventors: 张艺浩; 钱少华; 徐修信; 韩志华; 张旭
Original assignee: Suzhou Zhitu Technology Co Ltd
Current assignee: Suzhou Zhitu Technology Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-04-06
Anticipated expiration: 2040-12-08
Also published as: CN112612267B

Abstract

本发明提供了自动驾驶的路径规划方法和装置，包括：获取网格空间图像；将网格空间图像通过深度强化学习算法，得到当前环境下的状态值；将网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；根据当前环境下的状态值和起点到终点的距离，得到每个网格节点对应的启发式函数值；根据每个网格节点对应的启发式函数值，得到行驶运动路径；对行驶运动路径进行优化处理，得到光滑轨迹；其中，当前环境下的状态值为无碰撞的情况下，任意两点之间的最短距离，通过深度强化学习算法得到启发式函数值，避免冗余的探索过程，加快搜索效率，达到实时规划路径的要求。

Description

自动驾驶的路径规划方法和装置

技术领域

本发明涉及自动驾驶技术领域，尤其是涉及自动驾驶的路径规划方法和装置。

背景技术

自动驾驶任务的执行流程可分为三个阶段：感知层、决策规划层和控制层。其中，决策规划层的作用是将感知层所融合的自车及周边环境作为输入信息，制定出当前状态下合理的决策(保持跟车和变道等)，并规划出一条安全的行驶路线传输到控制层，最后由控制层精确的控制车辆沿特定轨迹运动。

Hybrid A*(混合A星算法)作为一种路径规划算法，目前被普遍应用于自动驾驶领域，并取得了显著的成果。Hybrid A*输入是原网格图像，输出得到扩张探索区域；根据扩张探索区域得到最短路径。Hybrid A*需要进行扩张式探索，无法根据路况的实时变化快速更新所规划的行驶路线，效率低，从而在复杂多变的环境应用中受到制约。

发明内容

有鉴于此，本发明的目的在于提供自动驾驶的路径规划方法和装置，通过深度强化学习算法得到启发式函数值，避免冗余的探索过程，加快搜索效率，达到实时规划路径的要求。

第一方面，本发明实施例提供了自动驾驶的路径规划方法，所述方法包括：

获取网格空间图像；

将所述网格空间图像通过深度强化学习算法，得到当前环境下的状态值；

将所述网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；

根据所述当前环境下的状态值和所述起点到所述终点的距离，得到每个网格节点对应的启发式函数值；

根据所述每个网格节点对应的启发式函数值，得到行驶运动路径；

对所述行驶运动路径进行优化处理，得到光滑轨迹；

其中，所述当前环境下的状态值为无碰撞的情况下，任意两点之间的最短距离。

进一步的，所述将所述网格空间图像通过深度强化学习算法，得到当前环境下的状态值，包括：

将所述网格空间图像通过自监督卷积神经网络算法进行编码，得到特征向量；

将所述特征向量通过全连接神经网络算法，得到所述当前环境下的状态值。

进一步的，所述根据所述当前环境下的状态值和所述起点到所述终点的距离，得到每个网格节点对应的启发式函数值，包括：

获取方向盘转角和运动方向，所述方向盘转角包括方向盘最大转角和方向盘最小转角；

在所述方向盘最小转角和所述方向盘最大转角范围内，按照预设转角和所述运动方向进行采样，得到包括多个网格节点的搜索树；

从所述当前环境下的状态值和所述起点到所述终点的距离中选取最大值，将所述最大值作为所述每个网格节点的启发式函数值。

进一步的，所述根据所述每个网格节点对应的启发式函数值，得到行驶运动路径，包括：

从所述每个网格节点对应的启发式函数值中选取最小值；

将所述最小值对应的网格节点作为扩张起点；

根据所述扩张起点和所述终点，得到所述扩展路径；

判断所述扩展路径是否与障碍物发生碰撞；

如果没有，则将所述扩展路径作为所述行驶运动路径；

如果有，则所述扩展路径不作为所述行驶运动路径。

进一步的，所述对所述行驶运动路径进行优化处理，得到光滑轨迹，包括：

对所述行驶运动路径的轨迹长度和平滑性进行非线性优化和非参数化插值，得到所述光滑轨迹。

进一步的，所述获取网格空间图像，包括：

采集当前环境图像；

将所述当前环境图像进行网格化处理，得到所述网格空间图像，所述网格空间图像包括行驶区域、障碍物、所述起点和所述终点。

第二方面，本发明实施例提供了自动驾驶的路径规划装置，所述装置包括：

网格空间图像获取单元，用于获取网格空间图像；

状态值获取单元，用于将所述网格空间图像通过深度强化学习算法，得到当前环境下的状态值；

距离获取单元，用于将所述网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；

启发式函数值获取单元，用于根据所述当前环境下的状态值和所述起点到所述终点的距离，得到每个网格节点对应的启发式函数值；

行驶运动路径获取单元，用于根据所述每个网格节点对应的启发式函数值，得到行驶运动路径；

优化单元，用于对所述行驶运动路径进行优化处理，得到光滑轨迹；

进一步的，所述状态值获取单元具体用于：

第三方面，本发明实施例提供了电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

第四方面，本发明实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行如上所述的方法。

本发明实施例提供了自动驾驶的路径规划方法和装置，包括：获取网格空间图像；将网格空间图像通过深度强化学习算法，得到当前环境下的状态值；将网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；根据当前环境下的状态值和起点到终点的距离，得到每个网格节点对应的启发式函数值；根据每个网格节点对应的启发式函数值，得到行驶运动路径；对行驶运动路径进行优化处理，得到光滑轨迹；其中，当前环境下的状态值为无碰撞的情况下，任意两点之间的最短距离，通过深度强化学习算法得到启发式函数值，避免冗余的探索过程，加快搜索效率，达到实时规划路径的要求。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的自动驾驶的路径规划方法流程图；

图2为本发明实施例一提供的网格空间图像转化示意图；

图3为本发明实施例一提供的自监督卷积神经网络结构示意图；

图4为本发明实施例一提供的混合A星算法扩张式探索区域示意图；

图5为本发明实施例一提供的深度强化学习算法的基本要素示意图；

图6为本发明实施例一提供的搜索树示意图；

图7为本发明实施例二提供的深度强化学习算法结合混合A星算法的框架示意图；

图8为本发明实施例二提供的停车场倒车入库路径规划示意图；

图9为本发明实施例三提供的自动驾驶的路径规划装置示意图。

图标：

1-网格空间图像获取单元；2-状态值获取单元；3-距离获取单元；4-启发式函数值获取单元；5-行驶运动路径获取单元；6-优化单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，下面对本发明实施例进行详细介绍。

实施例一：

图1为本发明实施例一提供的自动驾驶的路径规划方法流程图。

参照图1，该方法包括以下步骤：

步骤S101，获取网格空间图像；

步骤S102，将网格空间图像通过深度强化学习算法，得到当前环境下的状态值；

步骤S103，将网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；

步骤S104，根据当前环境下的状态值和起点到终点的距离，得到每个网格节点对应的启发式函数值；

步骤S105，根据每个网格节点对应的启发式函数值，得到行驶运动路径；

步骤S106，对行驶运动路径进行优化处理，得到光滑轨迹；

其中，当前环境下的状态值为无碰撞的情况下，任意两点之间的最短距离。

进一步的，步骤S102包括以下步骤：

步骤S201，将网格空间图像通过自监督卷积神经网络算法进行编码，得到特征向量；

步骤S202，将特征向量通过全连接神经网络算法，得到当前环境下的状态值。

本实施例中，采用自监督卷积神经网络算法，可以快速提取网格空间的特征向量，提高预测速度和减少搜索时间。在得到特征向量后，通过全连接神经网络算法，得到当前环境下的状态值，不需要进行冗余的扩展探索，可以直接计算得到最短路径长度，进而提高行驶路径规划的速度。

具体地，为了降低网格化环境的空间复杂度，提高运算效率，采用自监督卷积神经网络算法对网格空间图像进行编码，得到特征向量，参照图3，采用自监督卷积神经网络算法和最大池化网络算法对初始的150*150*1的网格空间图像进行特征提取和降维处理，输出大小为1024(2*2*256)的特征向量。

对特征向量进行解码来增加网格空间的尺寸，最终输出的与原网格空间大小一致。自监督卷积神经网络的大小参照表1，全连接神经网络的大小参照表2：

表1

表2

输出大小	隐藏层尺寸
		1024	(1024，512)
512	(512，256)
		256	(256，1)
1

自监督卷积神经网络的训练是以编码前的网格空间图像和解码后的网格空间图像作为训练样本，根据编码前的网格空间图像和解码后的网格空间图像计算均方误差L，将均方误差L作为损失函数，通过梯度下降算法使均方误差L达到最小值。参照公式(1)：

L＝∑_N∑_{i，j∈[0，150)}[G(i，j)-G′(i，j)]²/(N*150*150)

其中，L为均方误差，N为训练样本空间的大小，G(i，j)为编码前的网格空间图像，G′(i，j)为解码后的网格空间图像，i为宽度，j为高度。

采用梯度下降算法对均方误差L进行优化，使均方误差L达到最小值，训练参数w的更新满足公式(2)：

其中，w为表1中的训练参数，α为学习率，

为梯度，L为均方误差。在公式(2)中，对w进行优化，使优化后的w达到稳定，从而使均方误差L达到最小值。

参照图4，从左下角的起点开始，选取最短路径到达右上方的终点，即从左下角的起点到右上方的终点为最短路径。白色区域为行驶区域，黑色区域为障碍物，其余区域为通过混合A星算法找到的最短路径所需的扩张探索区域。而本申请通过深度强化学习算法建立一种映射关系，在网格空间图像中，估算出当前环境下的状态值。

参照图5，当前的网格空间图像为150*150，该网格空间图像包括行驶区域、障碍物、起点和终点。任意选取网格节点作为当前网格节点，以当前网格节点为中心，从邻域方向获取相邻的网格节点，其中，邻域方向为上、下、左、右、左上、右上、左下和右下，每一步所经过的路径的长度为负值。

深度强化学习算法的训练过程是通过预处理式的探索学习过程，得到不同网格状态下两点间的最短距离，并用近似函数来代替，即当前环境下的状态值V(S)。当前环境下的状态值V(S)的更新满足Bellman最优方程，参照公式(3)：

V(S)＝max(p(S，r，S′)(r+γ*V(S′)))

其中，V(S)为当前环境下的状态值，r为回报，γ为折损因子，S为当前环境的状态，S′为下一时刻的状态。

在网格空间图像中，起点和终点的位置是固定的，每个动作对应的下一时刻的状态也是已知的，因此，通过动态规划的方式迭代求解Bellman最优方程。

在网格空间图像中，不同位置距离终点的最短距离V_opt(S)可通过公式(3)求得，全连接神经网络算法的参数通过最小化损失函数∑_N(V_opt(S)-V(S))²/N来更新。

进一步的，步骤S104包括以下步骤：

步骤S301，获取方向盘转角和运动方向，方向盘转角包括方向盘最大转角和方向盘最小转角；

步骤S302，在方向盘最小转角和方向盘最大转角范围内，按照预设转角和运动方向进行采样，得到包括多个网格节点的搜索树；

步骤S303，从当前环境下的状态值和起点到终点的距离中选取最大值，将最大值作为每个网格节点的启发式函数值。

具体地，车辆的运动方向包括向前运动和向后运动。参照图6，在方向盘最小转角和方向盘最大转角范围内，按照预设转角和运动方向进行采样，生成增量扩展的搜索树。其中，预设转角可以为5度，但不限于5度，还可以为其他值。

在生成搜索树的过程中，对采样扩展的轨迹进行碰撞检测，并排除不满足碰撞检测的扩展轨迹。碰撞检测的过程需要考虑障碍物与自动驾驶车辆的位置和形状。同时，通过轨迹设置扩展长度，扩展长度为网格对角线长度，来最大程度的保证采样扩展的起点和终点不在同一个网格中。

搜索树包括多个网格节点，从当前环境下的状态值和起点到终点的距离中选取最大值，将最大值作为每个网格节点的启发式函数值。

进一步的，步骤S105包括以下步骤：

步骤S401，从每个网格节点对应的启发式函数值中选取最小值；

步骤S402，将最小值对应的网格节点作为扩张起点；

步骤S403，根据扩张起点和终点，得到扩展路径；

步骤S404，判断扩展路径是否与障碍物发生碰撞；如果没有，则执行步骤S405；如果有，则执行步骤S406；

步骤S405，将扩展路径作为行驶运动路径；

步骤S406，扩展路径不作为行驶运动路径。

具体地，为了加快搜索效率，在网格节点扩张的时候，需要从每个网格节点对应的启发式函数值中选取最小值，将最小值对应的网格节点作为扩张起点，根据扩张起点和终点，得到扩展路径；如果该路径在已知的环境中不与任何障碍物发生碰撞，则将其作为行驶运动路径。若发生碰撞，则不考虑此路径。

进一步的，步骤S106包括：

对行驶运动路径的轨迹长度和平滑性进行非线性优化和非参数化插值，得到光滑轨迹。

进一步的，步骤S101包括以下步骤：

步骤S501，采集当前环境图像；

步骤S502，将当前环境图像进行网格化处理，得到网格空间图像，网格空间图像包括行驶区域、障碍物、起点和终点。

具体地，在采集当前环境图像后，需要将当前环境图像进行网格化处理，得到网格空间图像。参照图2，此处以150*150均匀分布的网格为例，每个正方形格子的边长为0.5m，其中，白色网格代表行驶区域，还包括障碍物、起点和终点，起点为自动驾驶车辆的位置，终点为自动驾驶车辆要到达的目的地。

将当前环境图像转化为网格空间图像，是为了准确表示周边物体和自动驾驶车辆的空间分布，确保较低的空间运算复杂度。

本发明实施例提供了自动驾驶的路径规划方法，包括：获取网格空间图像；将网格空间图像通过深度强化学习算法，得到当前环境下的状态值；将网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；根据当前环境下的状态值和起点到终点的距离，得到每个网格节点对应的启发式函数值；根据每个网格节点对应的启发式函数值，得到行驶运动路径；对行驶运动路径进行优化处理，得到光滑轨迹；其中，当前环境下的状态值为无碰撞的情况下，任意两点之间的最短距离，通过深度强化学习算法得到启发式函数值，避免冗余的探索过程，加快搜索效率，达到实时规划路径的要求。

实施例二：

图7为本发明实施例二提供的深度强化学习算法结合混合A星算法的框架示意图。

参照图7，采集当前环境图像，将当前环境图像进行网格化处理，得到网格空间图像，网格空间图像包括行驶区域、障碍物、起点和终点。将网格空间图像通过深度强化学习算法，得到当前环境下的状态值V(S)；由于网格空间图像中包括起点和终点，在不考虑障碍物的情况下，通过Reed Shepp曲线得到起点和终点之间的距离；

根据当前环境下的状态值V(S)和起点到终点的距离，得到每个网格节点对应的启发式函数值；根据每个网格节点对应的启发式函数值进行扩展搜索，得到扩展路径，判断扩展路径是否与障碍物发生碰撞，如果没有，则将扩展路径作为行驶运动路径，如果有，则继续进行扩展搜索；对行驶运动路径进行优化处理，即进行轨迹平滑优化处理，得到光滑轨迹。

基于开源自动驾驶模拟仿真环境CARLA，该环境提供了测试实验所必须的基本要素，例如障碍物探测、车辆的动力学模型及控制等。针对一种停车场环境，采用本申请得到的行车路线与采用传统的Hybrid A*得到的行车路线一致，参照图8。

实验结果表明，车辆沿规划出的路径行驶，可以避免与障碍物发生碰撞，并顺利完成倒车入库。然而，在该环境下，通过本申请采用的方法得到路径规划时间大大高于传统的Hybrid A*的路径规划时间。具体参照表3：

表3

	本申请	Hybrid A*
			路径规划时间	632ms	894ms

由表3可知，采用本申请的方法，得到的路径规划时间为632ms，采用传统的HybridA*，得到的路径规划时间为894ms。

实施例三：

图9为本发明实施例提供的自动驾驶的路径规划装置示意图。

参照图9，该装置包括：

网格空间图像获取单元1，用于获取网格空间图像；

状态值获取单元2，用于将网格空间图像通过深度强化学习算法，得到当前环境下的状态值；

距离获取单元3，用于将网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；

启发式函数值获取单元4，用于根据当前环境下的状态值和起点到终点的距离，得到每个网格节点对应的启发式函数值；

行驶运动路径获取单元5，用于根据每个网格节点对应的启发式函数值，得到行驶运动路径；

优化单元6，用于对行驶运动路径进行优化处理，得到光滑轨迹；

进一步的，状态值获取单元2具体用于：

将网格空间图像通过自监督卷积神经网络算法进行编码，得到特征向量；

将特征向量通过全连接神经网络算法，得到当前环境下的状态值。

本发明实施例提供了自动驾驶的路径规划装置，包括：获取网格空间图像；将网格空间图像通过深度强化学习算法，得到当前环境下的状态值；将网格空间图像通过自动驾驶运动规划曲线，得到起点到终点的距离；根据当前环境下的状态值和起点到终点的距离，得到每个网格节点对应的启发式函数值；根据每个网格节点对应的启发式函数值，得到行驶运动路径；对行驶运动路径进行优化处理，得到光滑轨迹；其中，当前环境下的状态值为无碰撞的情况下，任意两点之间的最短距离，通过深度强化学习算法得到启发式函数值，避免冗余的探索过程，加快搜索效率，达到实时规划路径的要求。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的自动驾驶的路径规划方法的步骤。

本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，计算机可读介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的自动驾驶的路径规划方法的步骤。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种自动驾驶的路径规划方法，其特征在于，所述方法包括：

获取网格空间图像；

对所述行驶运动路径进行优化处理，得到光滑轨迹；

2.根据权利要求1所述的自动驾驶的路径规划方法，其特征在于，所述将所述网格空间图像通过深度强化学习算法，得到当前环境下的状态值，包括：

3.根据权利要求1所述的自动驾驶的路径规划方法，其特征在于，所述根据所述当前环境下的状态值和所述起点到所述终点的距离，得到每个网格节点对应的启发式函数值，包括：

4.根据权利要求1所述的自动驾驶的路径规划方法，其特征在于，所述根据所述每个网格节点对应的启发式函数值，得到行驶运动路径，包括：

从所述每个网格节点对应的启发式函数值中选取最小值；

将所述最小值对应的网格节点作为扩张起点；

根据所述扩张起点和所述终点，得到扩展路径；

判断所述扩展路径是否与障碍物发生碰撞；

如果没有，则将所述扩展路径作为所述行驶运动路径；

如果有，则所述扩展路径不作为所述行驶运动路径。

5.根据权利要求1所述的自动驾驶的路径规划方法，其特征在于，所述对所述行驶运动路径进行优化处理，得到光滑轨迹，包括：

6.根据权利要求1所述的自动驾驶的路径规划方法，其特征在于，所述获取网格空间图像，包括：

采集当前环境图像；

7.一种自动驾驶的路径规划装置，其特征在于，所述装置包括：

网格空间图像获取单元，用于获取网格空间图像；

8.根据权利要求7所述的自动驾驶的路径规划装置，其特征在于，所述状态值获取单元具体用于：

9.一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至6任一项所述的方法。