CN114460936B

CN114460936B - 基于离线增量学习的自动驾驶汽车路径规划方法及系统

Info

Publication number: CN114460936B
Application number: CN202210037463.XA
Authority: CN
Inventors: 周漫; 韩福济; 付才; 张云鹤; 袁斌; 慕冬亮; 韩兰胜
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2024-04-02
Anticipated expiration: 2042-01-13
Also published as: CN114460936A

Abstract

本发明提供一种基于离线增量学习的自动驾驶汽车路径规划方法及系统，包括：确定汽车的当前状态变量和目标信息；利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量，以规划汽车的短期路径；基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数；通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测；基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径；本发明高效准确地实现车辆轨迹预测。

Description

基于离线增量学习的自动驾驶汽车路径规划方法及系统

技术领域

本发明属于自动驾驶汽车路径规划领域，更具体地，涉及一种基于离线增量学习的自动驾驶汽车路径规划方法及系统。

背景技术

尽管交通系统已经发展了几十年，但交通事故仍然是全世界的首要死因。自动驾驶技术有望减少事故，自动驾驶系统可以代替人类驾驶员，根据路况和车辆状态自主控制运动。自动驾驶的一项基本任务是在存在众多静态和移动障碍物的情况下规划无碰撞运动。避障的主要技术包括路径规划、决策和路径跟踪。路径规划模型旨在生成参考路径，避开障碍物，满足道路安全规则和车辆运动学约束的要求。

车辆行驶路径规划旨在设计一种轨迹规划算法，它基于车辆动力学并受车辆运动学极限的约束，同时可以避免行驶环境中的障碍物。在此基础上，通过某个优化准则(如规划路径最短、所需的时间最短、耗能最少等)，为车辆选择一条最优的行驶路径。基于节点采样的快速扩展随机树(Rapidly-Exploring Random Tree，RRT)的路径规划框架结合了采样效率、转向功能和路径平滑度，能够找到满足运动动力学约束的平滑且无碰撞的路径，适合解决复杂约束下的路径规划问题。其主要思想是使用控制理论以增量的方式搜索生成类似于树状的轨迹曲线，使得车辆能够顺利到达目标点。但是，RRT算法只关注于快速的轨迹规划，无法根据指定的标准有效且快速的获得最佳的轨迹规划方案。因此需要研究高效的车辆避障行驶轨迹规划方法。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于离线增量学习的自动驾驶汽车路径规划方法及系统，旨在解决现有技术无法根据指定的标准有效且快速的获得最佳的汽车轨迹规划方案的问题。

为实现上述目的，本发明提供了一种基于离线增量学习的自动驾驶汽车路径规划方法，包括如下步骤：

确定汽车的当前状态变量和目标信息；所述当前状态变量包括：汽车的位置、速度、加速度以及偏航速度；所述目标信息为汽车行驶目的地的区域范围信息；

利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量，以规划汽车的短期路径；

基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数，使得障碍物周围与道路边缘形成排斥势场，中间目标处周围形成引力势场；所述中间目标指的是汽车行驶路径中的位置点；

通过线性二次调节(Linear Quadratic Regulation,LQR)策略获取汽车行驶路径的离线数据，并利用径向基函数(Radial Basis Function,RBF)神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测；

基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径；其中，将所述汽车短期路径作为长期路径规划的采样指导，将所述人工势场作为长期路径规划的方向约束。

在一个可选的实施例中，所述利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量具体为：

x(k+1)＝Ax(k)+Bu(k)+q(k)

y(k)＝Cx(k)+r(k)

其中k∈[k_I,k_F]，k表示采样时刻，k_I表示开始采样时刻，k_F表示结束采样时刻；是车辆当前状态变量，其包含n个状态向量，/>是下个采样时刻的车辆的状态变量，/>表示车辆的控制输入变量，/>是p个车辆传感器的测量输出，/>是高斯噪声，/>是观测噪声，A,B,C分别表示状态转移矩阵、输入矩阵和测量矩阵；

x(k+Δk)＝Δρ(k)+x(k)

其中，x(k)＝(x_v,y_v,θ,ω,v,a)，x_v与y_v表示车辆的横向位置与纵向位置，v与a表示车辆的速度与加速度，θ表示转向角，ω表示角速度，Δk表示采样时间间隔，Δρ(k)表示车辆的状态转移矩阵；x(k+Δk)是预测的车辆下一个采样间隔的状态变量。

在一个可选的实施例中，所述基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数，具体为：

障碍物的斥力势场P_ov(x_v,y_v)为：

其中，P_o是障碍物产生的势场的最大振幅，δ₁与δ₂的取值范围为(0,1)，共同决定势场电位上升与下降的速率，(x_v,y_v)与(x_o,y_o)分别表示车辆与障碍物的坐标；

车辆行驶路径势场P_lane(x_v,y_v)为：

其中，A_lane是道路中心线的最大振幅，D_safe是确保安全的最短制动距离，L_w是道路总宽度，A_X和A_Y表示中间变量；

道路势场P_road(x_v,y_v)为：P_road(x_v,y_v)＝ln(1-|sin((x_vπ)/L_w-π/2|)；

总势场力为：

其中，P_U(x_v,y_v)表示总的势函数，所述总势场力用于引导车辆到朝向目的地的最陡下降方向行径。

在一个可选的实施例中，所述通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测，具体为：

建立基于二次调节策略的二次代价函数度量距离，通过最小化车辆的状态误差来计算采样点之间的距离；

其中，J表示二次代价函数，x_init与x_f是初始地的汽车状态变量与目标地的汽车状态变量，Q与Q_f是半正定权重矩阵，R是正定权重矩阵，x_i,u_i(i∈{0,…,f-1})分别表示采样点的汽车状态变量与控制输入变量，f表示采样点总个数；

构建标准的线性优化控制模型，从而计算代价函数Cost；在基于线性二次调节策略的最优距离计算过程中，需要改变权重矩阵Q、Q_f与R，并进行多次迭代，生成合适的距离度量：

方程系数和权值的更新如下：

式中，以及/>均为中间变量；

通过线性二次调节策略得到代价函数Cost(x_init,x_f)和增益矩阵K的局部最优解：

其中S＝Cost(x_init,x_f)；

设计径向基函数神经网络来提高计算效率，利用线性二次调节策略获得的离线训练数据学习成本函数的最优估计；

y_k＝Cost(x_nI,x_nF)

其中Dis_E(x_kI,x_kF)是样本点x_kI到样本点x_kF的欧几里得距离；y_k表示估计的样本点x_kI到样本点x_kF的行驶距离；

由于车辆运动轨迹的非完整性约束，采用Dubins距离Dis_D来衡量状态点的相似度；Dubins距离度量受最大曲率曲线的约束，以曲线路径的形式测量指定初始位置到目标位置的距离；此时，径向基函数神经网络的期望输出表示为：

φ_jk＝exp(-Dis_D(x_k,x_cj)/(2η²))1≤k≤N

其中M是隐藏节点的数目，φ_jk是第j个隐藏神经元的基函数，x_cj是中心向量，Dis_D(x_k,x_cj)表示样本节点和中心节点之间的Dubins距离，η决定隐藏神经元的宽度，是径向基函数神经网络的实际输出，e_k是建模误差，ω_j是隐藏层和输出层之间的权重；

由此，径向基函数神经网络的输出表示为：

y＝ΦW+e

其中y＝[y₁,…,y_N]^T是期望输出向量，Φ＝[φ₁,…,φ_M]^T是回归矩阵，φ_i＝[φ_i1,…,φ_iN]^T，W＝[ω₁,…,ω_M]^T是权重向量，e＝[e₁,…,e_M]^T是误差矩阵。

在一个可选的实施例中，所述并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测，具体包括如下步骤：

(1)网络参数的初始化：隐藏节点的数目M，迭代终止阈值ε，距离度量阈值G_j(j∈{1,2,…,M})；

(2)中心向量x_c＝[x_c1,…,x_cM]^T，x_cji＝minx_i+(maxx_i-minx_i)/(2M)+(j-1)(maxx_i-minx_i)/M；其中i∈{1,2}，j∈{1,2,…,M},x_cj1,x_cj2是中心x_cj的特征，min x_i，max x_i分别是输入向量的第i个特征的最小值和最大值；

(3)从隐藏层到输出层的权重向量W_j＝[ω_j1,…,ω_jM]^T(j∈{1,2,…,M})，其中ω_jk＝exp(-0.5(x_k-x_cj)^TG_j(x_k-x_cj))；

(4)令若RMS≤0，则训练结束，得到了行驶距离否则跳转步骤(5)；

(5)执行基于正则化正交最小二乘法的中心向量选择方法，逐个选择M个中心x_c的子集，选择一个满足终止准则的候选中心：[err]_j(j∈{1,2,…,M})为迭代误差减小率；

(6)用梯度下降法逼近权矩阵W＝[ω_jk]_MN的最优值，然后转到步骤(4)。

在一个可选的实施例中，所述基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，具体包括如下步骤：

1)对随机树T进行扩展，随机树T将作为起始点，将X_goal作为目标点；并将/>作为本次扩展的父节点；

2)依据采样约束函数Sample_APF生成随机状态点然后利用函数Nearest找到与/>最近的节点/>作为父节点/>

3)以为中心r_n为半径，在树T上搜索满足APF约束的节点作为子节点的潜在父亲节点/>比较/>作为父亲节点的轨迹P₁的成本Cost₁与/>作为父亲节点的轨迹P₂的成本Cost₂，当P₂无碰撞(满足ObstacleFree函数)并且Cost₂<Cost₁时，将/>的父亲节点改为/>添加新的边，然后删掉树T上之前的父亲节点/>与子节点之间的边；

4)遍历所有潜在的父节点，得到更新后的树T。

第二方面，本发明提供了一种基于离线增量学习的自动驾驶汽车路径规划系统，包括：

汽车信息获取单元，用于确定汽车的当前状态变量和目标信息；所述当前状态变量包括：汽车的位置、速度、加速度以及偏航速度；所述目标信息为汽车行驶目的地的区域范围信息；

短期路径规划单元，用于利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量，以规划汽车的短期路径；

人工势场构建单元，用于基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数，使得障碍物周围与道路边缘形成排斥势场，中间目标处周围形成引力势场；所述中间目标指的是汽车行驶路径中的位置点；

行驶距离预测单元，用于通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测；

长期路径规划单元，用于基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径；其中，将所述汽车短期路径作为长期路径规划的采样指导，将所述人工势场作为长期路径规划的方向约束。

在一个可选的实施例中，所述短期路径规划单元利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量具体为：

x(k+1)＝Ax(k)+Bu(k)+q(k)

y(k)＝Cx(k)+r(k)

x(k+Δk)＝Δρ(k)+x(k)

在一个可选的实施例中，所述人工势场构建单元构建的势场具体包括：

障碍物的斥力势场P_ov(x_v,y_v)为：

车辆行驶路径势场P_lane(x_v,y_v)为：

总势场力为：

在一个可选的实施例中，所述行驶距离预测单元通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测，具体为：

方程系数和权值的更新如下：

式中，以及/>均为中间变量；

其中S＝Cost(x_init,x_f)；

y_k＝Cost(x_nI,x_nF)

φ_jk＝exp(-Dis_D(x_k,x_cj)/(2η²))1≤k≤N

由此，径向基函数神经网络的输出表示为：

y＝ΦW+e

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明结合基于车辆运动学的短期规划方法和基于行为认知的长期路径规划方法，能够在交通规则、道路边界和车辆运动学的约束下高效准确地实现车辆轨迹预测。

本发明利用短期轨迹预测和人工势场策略限制采样过程，加快了路径生成速率。

为了克服车辆运动学系统的复杂性和非线性约束问题，本发明使用LQR策略度量车辆距离，使得运用于智能车辆路径规划的RRT算法距离度量更加合理。同时，本发明利用深度学习技术对使用LQR策略得到的距离度量数据进行线下训练，然后将其运用于距离预测，规避了精确求解带来的计算开销。

附图说明

图1是本发明实施例提供的基于离线增量学习的自动驾驶汽车路径规划方法流程图；

图2是本发明实施例提供的自动驾驶汽车路径规划方法的工作流程框图；

图3是本发明实施例提供的基于离线增量学习的快速扩展随机树轨迹规划流程框图；

图4是本发明实施例提供的基于离线增量学习的自动驾驶汽车路径规划系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

针对车辆初始状态、传感器测量、定位和机动性等方面的不确定性，提出了基于安全的短期规划和基于效率的长期规划相结合的轨迹预测方法。短期规划主要考虑了初始状态引起的轨迹预测的不确定性，如定位的感知误差，以及运动学的不确定性，使轨迹规划方法在短期内避免了极端情况。以有效性为导向的长期预测考虑了长期的行驶目标，避免了过于保守的计划。鉴于此，本发明的目的是建立一种结合基于车辆运动学的短期规划和基于行为认知的长期路径规划的综合方法，能够在交通规则、道路边界和车辆运动学的约束下高效准确地实现车辆轨迹预测。基于车辆运动学的轨迹预测方法在考虑车辆运行动态参数的同时，能够保证短期精度，而基于行为认知的轨迹预测方法对未来的行为轨迹具有长期的洞察力。本发明利用基于车辆运动学的运动模型来预测车辆短期内的理想路径，并指导长期路径规划的采样过程。在长期路径规划中，本发明采用基于离线增量学习的快速扩展随机树方法生成渐进最优路径。

本发明要解决的技术问题就在于：针对现有基于快速扩展随机树的路径规划技术存在的技术问题，本发明提供一种具有较高效率和准确度的自动驾驶汽车路径预测方法来避免碰撞。

为达到上述目的，本发明的技术方案如下：基于离线增量学习的自动驾驶汽车路径规划方法，该方法包括如下步骤：

步骤一：短期路径预测，利用基于车辆运动学的概率路径预测模型，实时预测车辆的状态变量，如位置、速度、加速度、偏航速度等。

步骤二：构建人工势场，为不同类型的障碍物和道路结构分配不同的势函数，并为障碍物生成排斥势场，为目标生成引力势场。

步骤三：利用径向基函数神经网络方法线下训练通过线性二次调节策略获得的离线数据，然后应用于智能车辆路径规划算法的距离预测。

步骤四：依据基于离线增量学习的快速扩展随机树轨迹规划算法，得到渐进最优的避障路径。

所述的自动驾驶汽车路径规划方法综合基于车辆运动学的短期规划和基于行为认知的长期路径规划，利用短期轨迹预测模型和人工势场技术来指导长期路径规划的采样过程。

所述步骤一中基于车辆运动学的轨迹预测主要包括两个阶段：车辆运动模型评估阶段和车辆行驶轨迹预测阶段。

所述步骤一中车辆动力学控制模型如下：

Σ:x(k+1)＝Ax(k)+Bu(k)+q(k)

y(k)＝Cx(k)+r(k)

其中k∈[k_I,k_F]，是车辆当前状态包含n个状态向量，/>是下个采样时刻的系统状态，/>表示控制输入，/>是p个传感器的测量输出，/>是高斯噪声，/>是观测噪声，A,B,C分别表示状态转移矩阵、输入矩阵和测量矩阵。

所述步骤一中基于车辆运动学轨迹预测的车辆运动模型如下：x(k+Δk)＝Δρ(k)+x(k)

其中x(k)＝(x_v,y_v,θ,ω,v,a)是车辆的状态，x_v与y_v表示横向位置与纵向位置，v与a表示速度与加速度，Δk表示采样时间间隔，Δρ(k)表示状态转移矩阵。

所述步骤一中的短期路径规划采用无迹卡尔曼滤波器来处理车辆运动模型中的不确定性，从而进行短期轨迹预测，具体过程如下：

1)无迹变换，先生成2n+1个Sigma点来表示当前的分布(n表示状态数)，并通过非线性转化将这些点转化为新的点函数。

2)使用新的Sigma点计算高斯分布，依据每个Sigma点的权重，得到预测的新分布的均值和协方差。

3)利用非线性函数h(·)将预测状态转换为测量状态，并利用预测状态与测量状态来获得卡尔曼增益K_k+1|k和状态空间与测量空间的互相关函数T_k+1|k，最终预测状态x_k+1|k+1和协方差P_k+1|k+1计算如下：

x_k+1|k+1＝x_k+1|k+K_k+1|k(z_k+1-z_k+1|k)

所述步骤二中势场构建的过程为：

1)障碍物的斥力势场P_ov(x_v,y_v)

障碍物势场旨在通过建立一个靠近车辆的排斥力为无限的势场，使车辆与每个障碍物保持安全距离。

其中P_o是障碍物产生的势场的最大振幅，δ₁与δ₂决定电位上升与下降的速率。

2)车道势场P_lane(x_v,y_v)

车道势场引导车辆进入中心车道，同时车道势场很小，使得在换道避撞场景下可以轻易克服。

P_lane(x_v,y_v)＝A_XA_Y

A_X＝A_lanecos(x_v/L_w)

其中A_lane是道路中心线的最大振幅，D_safe是确保安全的最短制动距离，L_w是道路总宽度。

3)道路势场P_road(x_v,y_v)

道路势场通过在道路边缘变得无限大来阻止车辆离开高速公路。

P_road(x_v,y_v)＝ln(1-|sin((x_vπ)/L_w-π/2|)

4)总势场力

总势函数的负梯度称为势感力，是引导车辆到达目的地的最陡下降方向，总势场力定义为：

基于人工势场约束的搜索策略有助于加快路径生成算法收敛至一阶解和渐进最优解的速度。

所述步骤三中距离的最优估计，步骤如下：

1)建立基于LQR的二次代价函数度量距离，通过最小化车辆的状态误差来计算采样点之间的距离。作为“距离”的度量，代价函数对采样点搜索的性能起着至关重要的作用，即高代价的采样点与低代价的采样点离目标的距离更远。

其中x_init与x_f是初始系统状态与目标系统状态，Q与Q_f是半正定权重矩阵，R是正定权重矩阵，x_i(i∈{0,…,f-1})是采样点的状态。

2)构建标准的线性优化控制模型，从而计算代价函数Cost。在基于LQR的最优距离计算过程中，需要改变权值矩阵Q、Q_f与R，并进行多次迭代，生成合适的距离度量。

方程系数和权值的更新如下：

最终，通过LQR策略得到代价函数Cost(x_init,x_f)和增益矩阵K的局部最优解。

其中S＝Cost(x_init,x_f)，LQR函数的计算结果由Matlab提供。

3)设计径向基神经网络算法来提高计算效率，利用LQR策略获得的离线训练数据学习成本函数的最优估计。

y_k＝Cost(x_nI,x_nF)

其中Dis_E(x_kI,x_kF)是样本点x_kI到样本点x_kF的欧几里得距离。

神经网络的输出表示为：

y＝ΦW+e

基于径向基神经网络的成本计算方法的详细步骤为：

所述步骤四中基于离线增量学习的快速扩展随机树轨迹规划算法，步骤如下：

3)以为中心r_n为半径，在树T上搜索满足APF约束的节点作为子节点的潜在父亲节点/>比较/>作为父亲节点的轨迹(P₁)成本Cost₁与/>作为父亲节点的轨迹(P₂)成本Cost₂，当P₂无碰撞(满足ObstacleFree函数)并且Cost₂<Cost₁时，将/>的父亲节点改为/>添加新的边，然后删掉树T上之前的父亲节点/>与子节点/>之间的边；

4)遍历所有潜在的父节点，得到更新后的树T。

本发明提出了一种基于离线增量学学习的自动驾驶汽车路径规划方法，在RRT算法的基础上规划出更优的避障路径。采用的技术方案为：在RRT算法的基础上加入短期轨迹预测技术与人工势场策略限制采样过程，达到提高算法收敛至一阶解和渐进最优解的速度的目的；再利用LQR策略度量车辆距离，使得运用于智能车辆路径规划的RRT算法的距离度量更加合理；接着，使用径向基函数神经网络方法线下训练通过LQR策略获得的离线数据，然后应用于智能车辆路径规划算法的距离预测，规避了精确求解带来的计算开销。

图1是本发明实施例提供的基于离线增量学习的自动驾驶汽车路径规划方法流程图；如图1所示，包括如下步骤：

S101，确定汽车的当前状态变量和目标信息；所述当前状态变量包括：汽车的位置、速度、加速度以及偏航速度；所述目标信息为汽车行驶目的地的区域范围信息；

S102，利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量，以规划汽车的短期路径；

S103，基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数，使得障碍物周围与道路边缘形成排斥势场，中间目标处周围形成引力势场；所述中间目标指的是汽车行驶路径中的位置点；

S104，通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测；

S105，基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径；其中，将所述汽车短期路径作为长期路径规划的采样指导，将所述人工势场作为长期路径规划的方向约束。

在一个更具体的实施例中：利用CarSim-Matlab/Simulink联合仿真分析，验证提出的无碰撞轨迹规划算法的性能。仿真中，Carsim提供车辆运动学，Matlab/Simulink实现渐近最优轨迹规划、轨迹跟踪控制器等算法。

接下来结合附图对本发明的具体实施步骤进行详细的阐述：

如图2所示，一种基于离线增量学习的自动驾驶汽车路径规划方法，主要采用基于车辆运动学的短期规划方法和基于行为认知的长期路径规划方法，步骤如下：

需要说明的是，图2中无迹卡尔曼滤波评估是卡尔曼滤波评估的变体，是从系统已知的控制输入和状态测量值中估计系统的状态值。

如图3所示，步骤四所述的基于离线增量学习的快速扩展随机树轨迹规划算法的实施步骤如下：

4)遍历所有潜在的父节点，得到更新后的树T。

图4是本发明实施例提供的基于离线增量学习的自动驾驶汽车路径规划系统架构图；如图4所示，包括：

需要说明的是，图4中各个单元的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

本发明公开了一种基于离线增量学习的自动驾驶汽车路径规划方法，属于路径规划领域。为了提高快速扩展随机树算法的收敛速度，本发明利用车辆运动学模型预测短期最优路径，指导长期路径规划的采样过程。对于长期路径规划，本发明首先利用人工势场技术来约束搜索方向，加快路径搜索速度。其次，为了克服车辆运动学系统的复杂性和非线性约束问题，本发明采用将线性二次调节算法与径向基函数神经网络相结合的距离度量方法，先通过线性二次调节算法获得训练数据，然后使用径向基函数神经网络算法进行线下训练，在合理近似最短路径距离度量的同时规避了精确求解带来的计算开销。基于车辆运动学的路径预测方法可以在兼顾车辆运行动态参数的同时保证短期精度。此外，基于离线增量学习的快速扩展随机树预测方法提供了对未来轨迹的长期洞察。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于离线增量学习的自动驾驶汽车路径规划方法，其特征在于，包括如下步骤：

利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量，以规划汽车的短期路径；具体为：

x(k+1)＝Ax(k)+Bu(k)+q(k)

y(k)＝Cx(k)+r(k)

其中k∈[k_I，k_F]，k表示采样时刻，k_I表示开始采样时刻，k_F表示结束采样时刻；是车辆当前状态变量，其包含n个状态向量，/>是下个采样时刻的车辆的状态变量，/>表示车辆的控制输入变量，/>是p个车辆传感器的测量输出，/>是高斯噪声，/>是观测噪声，A，B，C分别表示状态转移矩阵、输入矩阵和测量矩阵；

x(k+Δk)＝Δρ(k)+x(k)

其中，x(k)＝(x_v，y_v，θ，ω，v，a)，x_v与y_v表示车辆的横向位置与纵向位置，v与a表示车辆的速度与加速度，θ表示转向角，ω表示角速度，Δk表示采样时间间隔，Δρ(k)表示车辆的状态转移矩阵；x(k+Δk)是预测的车辆下一个采样间隔的状态变量；

基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数，使得障碍物周围与道路边缘形成排斥势场，中间目标处周围形成引力势场；所述中间目标指的是汽车行驶路径中的位置点；所构建的人工势场中：障碍物的斥力势场P_ov(x_v，y_v)为：

其中，P_o是障碍物产生的势场的最大振幅，δ₁与δ₂的取值范围为(0，1)，共同决定势场电位上升与下降的速率，(x_v，y_v)与(x_o，y_o)分别表示车辆与障碍物的坐标；

车辆行驶路径势场P_lane(x_v，y_v)为：

道路势场P_road(x_v，y_v)为：P_road(x_v，y_v)＝ln(1-|sin((x_vπ)/L_w-π/2|)；

总势场力为：

其中，P_U(x_v，y_v)表示总的势函数，所述总势场力用于引导车辆到朝向目的地的最陡下降方向行径；

通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测；包括：(1)网络参数的初始化：隐藏节点的数目M，迭代终止阈值ε，距离度量阈值G_j(j∈{1，2，…，M})；(2)中心向量x_c＝[x_c1，…，x_cM]^T，x_cji＝minx_i+(maxx_i-minx_i)/(2M)+(j-1)(maxx_i-minx_i)/M；其中i∈{1，2}，j∈{1，2，…，M}，x_cj1，x_cj2是中心x_cj的特征，min x_i，max x_i分别是输入向量的第i个特征的最小值和最大值；(3)从隐藏层到输出层的权重向量W_j＝[ω_j1，…，ω_jM]^T(j∈{1，2，…，M})，其中ω_jk＝exp(-0.5(x_k-x_cj)^TG_j(x_k-x_cj))；(4)令若RMS≤0，则训练结束，得到了行驶距离否则跳转步骤(5)；(5)执行基于正则化正交最小二乘法的中心向量选择方法，逐个选择M个中心x_c的子集，选择一个满足终止准则的候选中心：[err]_j(j∈{1，2，…，M})为迭代误差减小率；(6)用梯度下降法逼近权矩阵W＝[ω_jk]_MN的最优值，然后转到步骤(4)；

基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径；其中，将所述汽车短期路径作为长期路径规划的采样指导，将所述人工势场作为长期路径规划的方向约束；所述长期路径进行规划包括：1)对随机树T进行扩展，随机树T将作为起始点，将X_goal作为目标点；并将/>作为本次扩展的父节点；2)依据采样约束函数Sample_APF生成随机状态点然后利用函数Nearest找到与/>最近的节点/>作为父节点/>3)以为中心r_n为半径，在树T上搜索满足APF约束的节点作为子节点/>的潜在父亲节点/>比较/>作为父亲节点的轨迹P₁的成本Cost₁与/>作为父亲节点的轨迹P₂的成本Cost₂，当P₂无碰撞(满足ObstacleFree函数)并且Cost₂<Cost₁时，将/>的父亲节点改为/>添加新的边，然后删掉树T上之前的父亲节点/>与子节点/>之间的边；4)遍历/>所有潜在的父节点，得到更新后的树T。

2.根据权利要求1所述的自动驾驶汽车路径规划方法，其特征在于，所述通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测，具体为：

其中，J表示二次代价函数，x_init与x_f是初始地的汽车状态变量与目标地的汽车状态变量，Q与Q_f是半正定权重矩阵，R是正定权重矩阵，x_i，u_i(i∈{0，…，f-1})分别表示采样点的汽车状态变量与控制输入变量，f表示采样点总个数；

方程系数和权值的更新如下：

式中，以及/>均为中间变量；

通过线性二次调节策略得到代价函数Cost(x_init，x_f)和增益矩阵K的局部最优解：

其中S＝Cost(x_init，x_f)；

y_k＝Cost(x_nI，x_nF)

其中Dis_E(x_kI，x_kF)是样本点x_kI到样本点x_kF的欧几里得距离；y_k表示估计的样本点x_kI到样本点x_kF的行驶距离；

φ_jk＝exp(-Dis_D(x_k，x_cj)/(2η²))1≤k≤N

其中M是隐藏节点的数目，φ_jk是第j个隐藏神经元的基函数，x_cj是中心向量，Dis_D(x_k，x_cj)表示样本节点和中心节点之间的Dubins距离，η决定隐藏神经元的宽度，是径向基函数神经网络的实际输出，e_k是建模误差，ω_j是隐藏层和输出层之间的权重；

由此，径向基函数神经网络的输出表示为：

y＝ΦW+e

其中y＝[y₁，…，y_N]^T是期望输出向量，Φ＝[φ₁，…，φ_M]^T是回归矩阵，φ_i＝[φ_i1，…，φ_iN]^T，W＝[ω₁，…，ω_M]^T是权重向量，e＝[e₁，…，e_M]^T是误差矩阵。

3.一种基于离线增量学习的自动驾驶汽车路径规划系统，其特征在于，包括：

短期路径规划单元，用于利用基于车辆运动学的概率路径预测模型实时预测汽车下一时刻的状态变量，以规划汽车的短期路径；具体为：

x(k+1)＝Ax(k)+Bu(k)+q(k)

y(k)＝Cx(k)+r(k)

x(k+Δk)＝Δρ(k)+x(k)

其中，x(k)＝(x_v，y_v，θ，ω，v，a)，x_v与y_v表示车辆的横向位置与纵向位置，v与a表示车辆的速度与加速度，θ表示转向角，ω表示角速度，Δk表示采样时间间隔，Δρ(k)表示车辆的状态转移矩阵；x(k+Δk)是预测的车辆下一个采样间隔的状态变量；人工势场构建单元，用于基于二维地图信息构建人工势场，以为二维地图上不同类型的障碍物和道路结构分配不同的势函数，使得障碍物周围与道路边缘形成排斥势场，中间目标处周围形成引力势场；所述中间目标指的是汽车行驶路径中的位置点；所构建的人工势场中：障碍物的斥力势场P_ov(x_v，y_v)为：

车辆行驶路径势场P_lane(x_v，y_v)为：

道路势场P_road(x_v，y_v)为：P_road(x_v，y_v)＝1n(1-|sin((x_vπ)/L_w-π/2|)；

总势场力为：

行驶距离预测单元，用于通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测；包括：(1)网络参数的初始化：隐藏节点的数目M，迭代终止阈值ε，距离度量阈值G_j(j∈{1，2，…，M})；(2)中心向量x_c＝[x_c1，…，x_cM]^T，x_cji＝minx_i+(maxx_i-minx_i)/(2M)+(j-1)(maxx_i-minx_i)/M；其中i∈{1，2}，j∈{1，2，…，M}，x_cj1，x_cj2是中心x_cj的特征，min x_i，max x_i分别是输入向量的第i个特征的最小值和最大值；(3)从隐藏层到输出层的权重向量W_j＝[ω_j1，…，ω_jM]^T(j∈{1，2，…，M})，其中ω_jk＝exp(-0.5(x_k-x_cj)^TG_j(x_k-x_cj))；(4)令若RMS≤0，则训练结束，得到了行驶距离否则跳转步骤(5)；(5)执行基于正则化正交最小二乘法的中心向量选择方法，逐个选择M个中心x_c的子集，选择一个满足终止准则的候选中心：/>[err]_j(j∈{1，2，…，M})为迭代误差减小率；(6)用梯度下降法逼近权矩阵W＝[ω_jk]_MN的最优值，然后转到步骤(4)；

长期路径规划单元，用于基于离线学习的快速扩展随机路径规划算法对汽车行驶的长期路径进行规划，并结合所述行驶距离的预测结果确定汽车自动驾驶的最优避障路径；其中，将所述汽车短期路径作为长期路径规划的采样指导，将所述人工势场作为长期路径规划的方向约束；所述长期路径进行规划包括：1)对随机树T进行扩展，随机树T将作为起始点，将X_goal作为目标点；并将/>作为本次扩展的父节点；2)依据采样约束函数Sample_APF生成随机状态点/>然后利用函数Nearest找到与/>最近的节点/>作为父节点/>3)以/>为中心r_n为半径，在树T上搜索满足APF约束的节点作为子节点的潜在父亲节点/>比较/>作为父亲节点的轨迹P₁的成本Cost₁与/>作为父亲节点的轨迹P₂的成本Cost₂，当P₂无碰撞(满足ObstacleFree函数)并且Cost₂<Cost₁时，将/>的父亲节点改为/>添加新的边，然后删掉树T上之前的父亲节点/>与子节点之间的边；4)遍历/>所有潜在的父节点，得到更新后的树T。

4.根据权利要求3所述的自动驾驶汽车路径规划系统，其特征在于，所述行驶距离预测单元通过线性二次调节策略获取汽车行驶路径的离线数据，并利用径向基函数神经网络对所述离线数据进行训练，以对汽车行驶路径的行驶距离进行预测，具体为：

方程系数和权值的更新如下：

式中，以及/>均为中间变量；

其中S＝Cost(x_init，x_f)；

y_k＝Cost(x_nI，x_nF)

φ_jk＝exp(-Dis_D(x_k，x_cj)/(2η²))1≤k≤N

由此，径向基函数神经网络的输出表示为：

y＝ΦW+e