CN114771563A

CN114771563A - 一种自动驾驶车辆轨迹规划控制实现方法

Info

Publication number: CN114771563A
Application number: CN202210354466.6A
Authority: CN
Inventors: 唐晓峰
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-22

Abstract

本发明公开了一种自动驾驶车辆轨迹规划控制实现方法，针对复杂道路场景的可解释性程度，提出了确定性道路框架、不确定性道路框架和混合性道路框架下自动驾驶车辆的路径规划方法，通过首先预设虚拟轨迹，确定各种框架模式下的各种约束条件，采用强化学习轨迹规划算法，在可信安全区域内进行轨迹规划，并进行实际规划的轨迹与虚拟安全轨迹的误差性优化，实现动态轨迹区间的设计，以确保可达轨迹的安全区间实现动态移动性；最终采用融合强化学习和预测控制算法实现路径规划的跟踪控制。本发明有助于自动驾驶车辆在沿海城市等复杂道路和天气环境下的路径规划控制实现，更好地降低道路环境带给路径规划的风险。

Description

一种自动驾驶车辆轨迹规划控制实现方法

技术领域

本发明属于智能车辆领域，具体涉及一种自动驾驶车辆轨迹规划控制实现方法。

背景技术

当前自动驾驶车辆技术有了很大提升，尤其在港区跨海大桥路况或者封闭园区的结构化道路场景的低速应用已经实现小规模产业化趋势，其采用的普遍技术是环境感知、导航定位、高精地图、决策、路径规划、控制环节，通过综合技术间的数据传输实现车辆的智能化行驶，然而依靠多个环节实现车辆智能化的方法，存在各个环节之间数据量缺失、计算时间延迟、对硬件设备要求较高等多个难点，尤其针对路径规划环节，要求准确的数据量、计算时间少等才能规划出较好的路径，尽管有学者将规划和控制作为一体进行融合研究，但对于大量数据的传输问题依然没有解决，同时针对高精度地图需要大量的数据、计算时间以及实时性更新较差等缺点，尤其针对沿海城市道路环境容易受到雾气、雨雪等天气影响，导致道路环境非常复杂，道路环境时常处于确定性道路环境和不确定性道路环境之间的复杂切换，对于自动驾驶车辆而言，要想规划出一条安全舒适的路径，是很难实现的一件事情，因此传统的路径规划方法不具有通用性，无法确保规划的路径是处于实时性的，针对沿海城市道路环境而言，其道路环境较为复杂多变，无法把控道路环境的确定性，而且道路环境通常符合交通法规、人员流动性较多、车辆行驶目的地具有一定规律性等特点，自动驾驶车辆通常实现某种行驶功能，便可以实现其应用价值。因此基于沿海城市道路复杂多变的道路环境，为规划更好地的路径，一种自动驾驶车辆轨迹规划控制实现方法，不仅有助于实现车辆在沿海城市的道路环境实现，而且可以有助于实现自动驾驶车辆的规模产业化发展。

发明内容

发明目的：本发明提供一种自动驾驶车辆轨迹规划控制实现方法，有助于自动驾驶车辆在沿海城市等复杂道路和天气环境下的路径规划控制实现，更好地降低道路环境带给路径规划的风险。

技术方案：本发明提供一种自动驾驶车辆轨迹规划控制实现方法，具体包括以下步骤：

(1)获取自身车辆、周围车辆的行驶状态和周围道路环境状态；

(2)根据自身车辆行驶状态解释可行驶确定性道路框架、不确定性道路框架和混合式道路框架；在可行驶确定性道路框架设定不同候选轨迹的最优速度，可以根据确定性道路环境生成制动和加速过程的相应动作轨迹；对于不确定性道路框架构建可解释性的估计概率约束函数区间，并根据车速设定可生成制动和加速相应的动作轨迹；

(3)对于确定性道路框架，首先进行道路起始点的全局路径规划，通过预设的可编程动态轨迹屏障函数，设定周围道路区域环境约束条件，进行多条道路的概率规划；

(4)对于不确定性道路框架，首先进行道路起始点的全局路径规划，通过设定的可行驶路径区域函数，进行周围道路区域环境的约束设置，并预设一条虚拟的具有平滑、安全和稳定的轨迹，以匹配可达轨迹的安全区间；

(5)对于混合式道路框架，包含了确定性道路框架和不确定性道路框架的混合模式；进行道路起始点的全局路径规划，设定周围道路区域环境的约束条件以及周围车辆的约束条件，通过判断约束条件的阈限标注确定性道路框架和不确定性道路框架的范围；将确定性道路框架和不确定性道路框架在混合式道路框架的概率进行分布，设定确定性道路框架的置信区间，并采用快速搜索方法实现全局路径规划；

(6)对于确定性道路框架、不确定性道路框架和混合式道路框架，在可信安全轨迹区间内，基于系统动力学和输入状态约束，将系统稳定到安全轨迹区间中，在区间内构造融合强化学习和预测控制算法为主的控制系统架构，实现对动态障碍物的避障控制。

进一步地，所述步骤(3)实现过程如下：

(31)在确定性道路框架的全局路径规划后，获取周围车辆的速度状态和轨迹状态，构建可信的安全轨迹区间，在区间内考虑车辆自身以及周围车辆的动力学特性以及包括车辆侧倾、侧滑、横摆的极限约束条件，执行具有最小二乘迭代的强化学习功能的轨迹区间设计；

(32)在可信的安全轨迹区间内，考虑可变道路曲率以及振动道路特性因素，采用多参数优化函数进行三维轨迹的可选择性优化，并基于车辆动力学特性进行可选择性预设轨迹，选择出一条合适的轨迹，并预设第二条备选的可用轨迹；在可信的安全轨迹区间内，增加空气动力学特性等外界干扰因素进行轨迹稳定性震荡特性设计，并构建多参数梯度函数，优化轨迹实现局部最优；

(33)在可选择性的两条轨迹内进行误差匹配分析，并采用最小二乘算法进行两条轨迹的误差最小化分解，确定两条轨迹的误差率保持在5％范围内；具体实现过程如下：

假如两条轨迹线的数据点分别用：(x_aiy_ai)、(x_bjy_bj)(i,j＝1,…,n)其中,a表示第一条轨迹线的数据集，b表示第二条轨迹线的数据集，选取其中任何一组数据作为观测值，第二组为理论值，则获得的样本多项式拟合为：

y_w(x)＝w₀+w₁·x+w₂·x²+…+w_n·xⁿ

式中，w(w₀,w₁,w₂,…,w_n)为参数，y_w(x)是拟合的多项式函数；最小二乘法目的是寻找一组w(w₀,w₁,w₂,…,w_n)，使得残差平方和最小，表示式如下：

进一步地，所述步骤(4)实现过程如下：

(41)在可达轨迹的安全区间内，获取自身车辆的动力学特性状态，包括车速状态、侧倾、侧滑和横摆的极限约束状态条件，采用推理性贝叶斯强化学习实现动态轨迹的规划，并将动态轨迹与虚拟轨迹的精度误差进行不断优化，以减少匹配误差数据，构建可达动态轨迹的稳定性区间；

(42)考虑到道路周围环境变化，道路振动和迭代曲率特性影响，车辆自身产生振动，影响车辆的稳定性，所以需要获取车辆侧倾角度、侧滑角度和横摆角度数据，以及获取车辆的纵横向、垂向加速度实时信息；并且重新规划车速路径，并进行基于车速路径规划的车辆动力学特性分析，生成候选速度路径，以确定车辆安全约束条件，将优化准则限制在安全成本约束区域内，以重新预设虚拟轨迹；

(43)基于动态轨迹路径，考虑到车辆行驶安全性约束，车辆自身所规划的轨迹与预设的虚拟轨迹误差不断进行优化，以确保误差率保持在1％范围内；当周围车辆处于静止状态时，在可达轨迹的安全区间内，自动驾驶车辆可以根据预设的虚拟轨迹行驶；当周围车辆处于动态行驶时，可达轨迹的安全区间呈现动态不确定性，采用线性函数实现对动态轨迹区间设计，确保可达轨迹的安全区间能实现动态线性移动；

(44)考虑到车辆本身与周围车辆的安全性约束条件，添加所规划轨迹的安全距离，构建最佳逼近线性函数，消除无限不确定性轨迹的重叠和碰撞问题，以解决不确定性道路框架下的轨迹规划。

进一步地，所述步骤(5)实现过程如下：

(51)在确定全局路径规划后，获取所述车辆和周围车辆的速度、轨迹等历史状态，增加可变道路曲率以及振动道路特性参数，将车速、轨迹等历史数据等状态信息输入到强化学习模型作为推理路径轨迹的参考依据；

(52)获取所述车辆和周围车辆的速度、轨迹等当前状态，考虑到外界动力学特性等干扰因素，构建车辆侧倾、侧滑和横摆模型，计算出车辆横向和纵向载荷转移变化率，设计出风险边界最优范围，以实时调整车速的规划曲线并保证车速的碰撞操作风险低于设定的阈值；

(53)进行历史数据的轨迹规划编码，基于所述车辆状态的实时信息和周围车辆的位置信息、动态运动轨迹，通过设定的动态预测函数，进行所述车辆的轨迹规划；

(54)在混合式道路框架内，预设一条安全、平滑、可靠的虚拟轨迹，使用优化函数进行预设的虚拟轨迹与动态轨迹安全区域的误差优化，以此选择一条实际的动态轨迹与虚拟轨迹误差率保持在1％范围内；

(55)由于为防止安全区域减少，无法寻找到最优的路径轨迹，使用在线风险边界运动规划方法进行迭代碰撞检查，生成最优的运动规划，扩大搜索空间和降低规划失败率；

(56)考虑到车辆周围环境的不确定性影响，导致风险边界只能在短期内规划的轨迹有效，为实现长期轨迹的有效性，采用高斯模型制定分布的均值和协方差的确定性约束范围，并获得横向目标点位置、最大速度、最大曲率等，以减少候选轨迹的数量；

(57)在轨迹安全区域内，基于车辆动力学特性和轨迹误差率，进行可选择性轨迹，以选择出一条合适的轨迹，并预设第二条备选的可用轨迹。

进一步地，步骤(3)所述的可编程动态轨迹屏障函数表述如下：

当前所述车辆的位置为(x_p,y_p)，与周围道路区域环境的位置(x_ri,y_ri)(i＝ 1,…,N)的约束半径为r_i(i＝1,…,N)，以动态轨迹屏障函数fx来约束安全距离，设定所述车辆的安全半径r_s，得出动态轨迹屏障函数f(x)如下：

x_p-x_ri≥2

y_p-y_ri≥0

r_i≥r_s

通过设定的动态轨迹屏障函数，确保全局路径在设定的动态范围内。

进一步地，步骤(31)所述的最小二乘迭代的强化学习功能的轨迹区间设计实现过程如下：

定义马尔可夫决策模型，其元组集为(S,A,P,R)，S是下一时刻状态，A 是连续动作集，P是状态转移函数，R是从s执行a到s'的转移瞬时奖赏；考虑采用DQN算法实现路径规划，定义车辆动作集：A＝{x，y}，其中，x表述车辆的纵向轨迹点，y表述车辆的横向轨迹点；定义状态集：

其中，

分别是静态障碍物的位置，包括道路边界线，

是动态障碍物位置，

是动态障碍物的速度；设置的奖励函数R(t)如下：

当车辆与静态障碍物碰撞时，得到一个负奖励时，r₁<0；当车辆与动态障碍物发生碰撞时，得到一个负奖励r₂<0；当车辆完整达到目的地时，得到一个大的正奖励n·r₁+n·r₂>0；

设计的网络模型是由三层CNN、LSTM和FC层组成，卷积核大小1×3×3，LSTM提取时间信息，激活函数采用RELU函数，学习率为1×10^-6；求得DQN 算法损失函数目标值与预测值的最小误差表述如下：

式中，_D是经验缓存器，Q_θ(s,a)是预测网络，Q_θ(s',a')是目标网络；r(s,a)是奖励函数；采用最小二乘框架来学习网络参数θ，以实现模型学习动作的概率性动作，使用模型θ^T·ξ(s,a)拟合期望的瞬时奖赏r(s,a)，表达式如下：

进一步更新θ，使用如下公式：

θ←θ-λ(ξ^T·ξ·θ-ξ^T·r)

式中，λ是求解的模型参数；ξ是用来拟合的函数；T是状态时刻；N是数值常数。

进一步地，步骤(4)所述的可行驶路径区域函数为：

f(x)＝±(k₁·(η·x+b₁)+k₂·(ρ·x³+μ·x²+ε·x+b₂))

式中，k₁是综合公式的影响因子；k₂是三维路径的影响因子、η是线性公式的影响因子、b₁是线性函数的常数、ρ是三次多项式的函数常数、μ是二次多项式函数的常数、ε是单项式函数的常数、b₂是常数；当可行使道路是直线时候， k₂＝0；当可行道路区域是弯道时候，k₁＝0。

进一步地，步骤(41)所述的采用推理性贝叶斯强化学习实现过程如下：

将贝叶斯强化学习定义为部分可观测马尔可夫决策模型，其元组集为 (S_p,A,P,P₀,R)，其中，S_p是状态S与未知参数θ的乘积，A是动作空间， P(s,θ,a,s',θ')＝P(s',θ'/s,a,θ)是当前状态s执行动作a，从而到达下一个状态的概率密度，P₀是初始状态的概率密度，R是从s执行a到s'的转移瞬时奖赏；采用贝叶斯演员-评论家网络方法实现路径规划，定义车辆动作集：A＝{x，y}，其中，x表述车辆的纵向轨迹点，y表述车辆的横向轨迹点；定义状态集：

其中，

分别是静态障碍物的位置，包括道路边界线，

是动态障碍物位置，

是动态障碍物的速度；设置的奖励函数R(t)如下：

当车辆与静态障碍物碰撞时，得到一个负奖励时，r₁<0，当车辆与动态障碍物发生碰撞时，得到一个负奖励r₂<0，当车辆完整达到目的地时，得到一个大的正奖励n·r₁+n·r₂>0；对于概率密度函数P(s,θ,a,s',θ')可以继续进行如下推导：

P(s,θ,a,s',θ')＝P(s',θ'/s,a,θ)＝P(s'/s,a,θ)·P(θ'/s,a,s',θ)

计算出贝叶斯马尔可夫模型用贝尔曼方程表述动作值函数V^*(s,θ)：

所述贝叶斯演员-评论家算法，使用线性函数近似表述动作值函数：

式中，

是策略参数；为使策略采用正态分布选择动作，以提高策略的探索性，表达式如下：

式中，σ是高斯核的方差参数；π是常数；

采用高斯核提取特征方法，其形式如下公式所示：

其中，

为基函数的一个中心点，

是位置维度的宽度，ζ^a _xyc＝0.5是动态障碍物位置维度的宽度，ζ^a _vc＝0.01是车速位置维度的宽度。

有益效果：与现有技术相比，本发明的有益效果：

1、在复杂的道路环境下，将路径规划分为确定性道路框架、不确定性道路框架和混合式道路框架，在确定性道路框架内，构建可信安全轨迹区间，用多参数优化函数进行三维轨迹的可选择性优化，选择出两条备选的可用路径轨迹，并进行误差匹配分析；在不确定性道路框架内，预设一条安全、平滑的虚拟轨迹，并采用推理性强化学习算法实现动态轨迹的规划，并且将动态轨迹与虚拟轨迹的精度误差进行优化，以减少匹配误差数据；在混合式道路框架内，采用概率密度函数进行道路性质的概率分布，并结合推理性网络模型进行历史数据的轨迹规划编码，采用动态预测网络函数模型进行轨迹的实时规划，并与预设的虚拟轨迹误差率保持在设定范围内，采用在线风险边界运动规划方法进行迭代碰撞检查，以优化最优轨迹；这种路径规划的方法，在受到外界干扰因素下的不确定性道路环境下至关重要；

2、在三种道路框架内，采用融合强化学习和预测控制算法为主的控制系统架构实现对动态障碍物的避障控制，强化学习用来实现障碍物的动态控制，预测控制用来补偿车辆受到外界干扰引起的车辆模型变化时，赋予的车辆控制输入；对于预设的虚拟轨迹，采用鲁棒控制屏障函数实现对虚拟轨迹的跟踪控制。

附图说明

图1是本发明的流程图；

图2是在确定性道路框架下局部路径轨迹生成流程图；

图3是在不确定性道路框架下局部路径轨迹生成流程图；

图4是在混合式道路框架下轨迹生成方法的流程图；

图5是不确定性道路框架实现轨迹规划的示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明提出一种自动驾驶车辆轨迹规划控制实现方法，具体包括以下步骤：

步骤1：获取自身车辆、周围车辆的行驶状态和周围道路环境状态。

自身车辆和周围车辆的行驶状态通常是指车辆的纵横向速度、加速度以及纵横向轨迹。例如，车辆可以在不同道路场景以不同的速度行驶，当遇到恶劣天气、路面积水积雪时，车辆需要减速行驶，当前方没有障碍物时，需要加速行驶，当道路结构变化时，车辆需要重新路径规划并且调整行驶速度。本实施方式中，车辆的行驶状态主要是车辆的纵横向速度、加速度以及纵横向轨迹。

步骤2：根据自身车辆行驶状态解释可行驶确定性道路框架、不确定性道路框架和混合式道路框架；在可行驶确定性道路框架设定不同候选轨迹的最优速度，可以根据确定性道路环境生成制动和加速过程的相应动作轨迹；对于不确定性道路框架构建可解释性的估计概率约束函数区间，并根据车速设定可生成制动和加速相应的动作轨迹。

可行驶确定性道路框架中检测到的任何障碍物的位置和速度信息，对于自身车辆来说都是可控的，在不确定性道路框架中，检测到的任何障碍物位置和速度信息，都是不可控的，因此在实际操作中，可以在确定性道路框架中设定候选轨迹的最优速度，从而生成特定的制动和加速过程的轨迹实现车辆的智能化行驶，对于不确定性道路框架，因为可行使道路区域是不确定性的，当检测到任何障碍物位置和速度信息后，可以构建可解释性的概率约束函数区间，来减少障碍物的碰撞区域，再根据车速设定可生成制动和加速的动作轨迹。全局起始点路径规划，指的是要规划的路径是在较短的路线，范围在[02]km,而不是较长的路径，下面所述的全局路径长度都是基于此距离范围。

步骤3：对于确定性道路框架，进行道路起始点的全局路径规划，通过预设的可编程动态轨迹屏障函数，设定周围道路区域环境约束条件，进行多条道路的概率规划。

在框架里面，自动驾驶车辆检测到前方障碍物的位置和速度信息后，便可以根据周围道路环境信息，进行道路起始点的全局路径规划，通过设定多道路环境约束条件，采用预设的可编程动态轨迹屏障函数进行道路区域的动态区域设计，设计多条全局规划的路径，以更好地进行下一步路径的规划。

假定当前所述车辆的位置为(x_p,y_p)，与周围道路区域环境的位置 (x_ri,y_ri)(i＝1,…,N)的约束半径为r_i(i＝1,…,N)，以此来定义动态轨迹屏障函数 f(x)来约束安全距离，首先设定所述车辆的安全半径r_s，然后得出动态轨迹屏障函数f(x)如下：

x_p-x_ri≥2

y_p-y_ri≥0

r_i≥r_s

通过设定的上述动态轨迹屏障函数，确保全局路径在设定的动态范围内。

(31)在确定性道路框架的全局路径规划后，获取周围车辆的速度状态和轨迹状态，构建可信的安全轨迹区间，在区间内考虑车辆自身以及周围车辆的动力学特性以及包括车辆侧倾、侧滑、横摆的极限约束条件，执行具有最小二乘迭代的强化学习功能的轨迹区间设计。

首先定义马尔可夫决策模型，其元组集为(S,A,P,R)，S是下一时刻状态， A是连续动作集，P是状态转移函数，R是从s执行a到s'的转移瞬时奖赏；其次考虑到车辆状态和动作的离散化特点，采用DQN算法实现路径规划，定义车辆动作集：A＝{x，y}，其中，x表述车辆的纵向轨迹点，y表述车辆的横向轨迹点；定义状态集：

其中，

分别是静态障碍物的位置，包括道路边界线，

是动态障碍物位置，

是动态障碍物的速度；设置的奖励函数R(t)如下：

当车辆与静态障碍物碰撞时，得到一个负奖励时，r₁<0，当车辆与动态障碍物发生碰撞时，得到一个负奖励r₂<0，当车辆完整达到目的地时，得到一个大的正奖励n·r₁+n·r₂>0。

设计的网络模型是由三层CNN、LSTM和FC层组成，卷积核大小1×3×3， LSTM作用是提取时间信息，激活函数采用RELU函数，学习率为1×10^-6；求得 DQN算法损失函数目标值与预测值的最小误差表述如下：

式中，D是经验缓存器，Q_θ(s,a)是预测网络，Q_θ(s',a')是目标网络；r(s,a) 是奖励函数。

考虑到车辆在确定性道路框架内，会产生瞬时侧倾、侧滑以及横摆等极限约束条件，因此采用最小二乘框架来学习网络参数θ，以实现模型学习动作的概率性动作，因此使用模型θ^T·ξ(s,a)来拟合期望的瞬时奖赏r(s,a)，表达式如下：

简化公式：

进一步更新θ，使用如下公式：

θ←θ-λ(ξ^T·ξ·θ-ξ^T·r)。

(3.2)在可信的安全轨迹区间内，考虑可变道路曲率以及振动道路特性因素，采用多参数优化函数进行三维轨迹的可选择性优化，并基于车辆动力学特性进行可选择性预设轨迹，选择出一条合适的轨迹，并预设第二条备选的可用轨迹；在可信的安全轨迹区间内，增加空气动力学特性等外界干扰因素进行轨迹稳定性震荡特性设计，并构建多参数梯度函数，优化轨迹实现局部最优。

(3.3)在可选择性的两条轨迹内进行误差匹配分析，并采用最小二乘算法进行两条轨迹的误差最小化分解，确定两条轨迹的误差率保持在5％范围内；具体实现过程如下：

假如两条轨迹线的数据点分别用：(x_aiy_ai)、(x_bjy_bj)(i,j＝1,…,n)其中,a表示第一条轨迹线的数据集，b表示第二条轨迹线的数据集，由于所获取的轨迹数据集是在确定性道路框架内，所以，所获得的数据集都理应是可用的点，不考虑容错率，选取其中任何一组数据作为观测值，第二组为理论值，则获得的样本多项式拟合为：

y_w(x)＝w₀+w₁·x+w₂·x²+…+w_n·xⁿ

满足上式的表述，那么久可以确定可选择性的两条轨迹的误差匹配率在5％范围之内，确保所规划轨迹的准确率范围。

图2为确定性道路框架局部路径轨迹生成示意图，需要说明的是，在构建具有推理功能的可信安全轨迹区间时，需要充分考虑周围车辆的行驶状态、自身车辆的侧倾、侧滑和横摆等动力学约束条件，考虑到可变道路曲率以及振动道路特性因素；具有推理功能的轨迹区间的本质是在局部路径规划时，将每一时刻的车辆状态和周围车辆状态信息记录在内，下一时刻的状态依据前一时刻的状态信息进行推理并且逐渐设计出更为合适的轨迹区间；考虑到路面的湿滑现象和路面坑洼现象，所以考虑了三维轨迹的规划；在一些复杂的道路场景，例如车道设计不规则的情况下，若直接生成一条轨迹，生成结果往往并非是最优轨迹，因为此时车道环境无法实现最值，为避免车辆与车道发生碰撞、与周围车辆发生碰撞，提出了优化第二条备选轨迹线，并且使用高斯模型将两条轨迹的误差最小化分解，以确保车辆在两条轨迹的范围内安全行驶。

假设道路前方的障碍物为海港码头，例如进入码头的车道、码头路上的运输车以及道路周围的安全栅栏等，由于海港码头周围车辆、行人、静态障碍物等穿梭行驶，道路往往呈现非结构化。在这种情况下，首先规划确定性道路框架，在框架内构建可信安全轨迹区间，并且充分考虑到各种行驶状态及其约束条件下，设计具有推理功能的轨迹区间，并优化出两条轨迹线路径，此时车辆经过海港码头，在两条轨迹路线的误差范围内进行行驶，可以保证车辆的行驶安全。

本场景就描述的是在雨雪天气下的城市附带交通道路环境，由于传感器设备受到天气影响灵敏度不高，所以输出的数据存在偏差，同时由于雨雪天气的影响，使得道路环境附着系数发生变化，车辆产生侧倾、侧滑和横摆等动力学特性，基于此影响，首先在道路环境设置确定性道路框架，并在框架里面构建可信安全轨迹区间，充分考虑到各种约束条件后，进行车辆的推理轨迹区间设计，并优化出两条轨迹线，在误差允许的范围内，可以保证车辆的安全行驶。

步骤4：对于不确定性道路框架，首先进行道路起始点的全局路径规划，通过设定的可行驶路径区域函数，进行周围道路区域环境的约束设置，并预设一条虚拟的具有平滑、安全和稳定的轨迹，以匹配可达轨迹的安全区间，如图5所示；

设定的可行使路径区域函数旨在为了更好地设定周围道路区域环境的约束设置，其表述公式如下：

f(x)＝±(k₁·(η·x+b₁)+k₂·(ρ·x³+μ·x²+ε·x+b₂))

式中，b₁是线性函数的常数、ρ是三次多项式的函数常数、μ是二次多项式函数的常数、ε是单项式函数的常数、b₂是常数；它们的数据根据可行驶路径区域的范围和轨迹规划的区域范围确定，通常情况下是一个定值；当可行使道路是直线时候，k₂＝0；当可行道路区域是弯道时候，k₁＝0。

(4.1)在可达轨迹的安全区间内，获取自身车辆的动力学特性状态，包括车速状态、侧倾、侧滑和横摆的极限约束状态条件，采用推理性贝叶斯强化学习实现动态轨迹的规划，并将动态轨迹与虚拟轨迹的精度误差进行不断优化，以减少匹配误差数据，构建可达动态轨迹的稳定性区间。

将贝叶斯强化学习定义为部分可观测马尔可夫决策模型，其元组集为 (S_p,A,P,P₀,R)，其中，S_p是状态S与未知参数θ的乘积，A是动作空间， P(s,θ,a,s',θ')＝P(s',θ'/s,a,θ)是当前状态s执行动作a，从而到达下一个状态的概率密度，P₀是初始状态的概率密度，R是从s执行a到s'的转移瞬时奖赏。考虑到车辆状态和动作的离散化特点，采用贝叶斯演员-评论家网络方法实现路径规划，定义车辆动作集：A＝{x，y}，其中，x表述车辆的纵向轨迹点，y表述车辆的横向轨迹点；定义状态集：

其中，

分别是静态障碍物的位置，包括道路边界线，

是动态障碍物位置，

是动态障碍物的速度；设置的奖励函数R(t)如下：

对于概率密度函数P(s,θ,a,s',θ')可以继续进行如下推导：

P(s,θ,a,s',θ')＝P(s',θ'/s,a,θ)＝P(s'/s,a,θ)·P(θ'/s,a,s',θ)

进一步计算出贝叶斯马尔可夫模型用贝尔曼方程表述动作值函数V^*(s,θ)：

构建基于贝叶斯演员-评论家算法，使用线性函数f(a/s)近似表述动作值函数：

式中，

是策略参数。为使策略采用正态分布选择动作，以提高策略的探索性，策略函数π(a/s,u)表达式如下：

式中，σ是高斯核的方差参数；π是常数。

采用高斯核提取特征方法，其形式如下公式所示：

其中，

为基函数的一个中心点，

(4.2)考虑到道路周围环境变化，道路振动和迭代曲率特性影响，车辆自身产生振动，影响车辆的稳定性，所以需要获取车辆侧倾角度、侧滑角度和横摆角度数据，以及获取车辆的纵横向、垂向加速度实时信息；并且重新规划车速路径，并进行基于车速路径规划的车辆动力学特性分析，生成候选速度路径，以确定车辆安全约束条件，将优化准则限制在安全成本约束区域内，以重新预设虚拟轨迹。

(4.3)基于动态轨迹路径，考虑到车辆行驶安全性约束，车辆自身所规划的轨迹与预设的虚拟轨迹误差不断进行优化，以确保误差率保持在1％范围内；当周围车辆处于静止状态时，在可达轨迹的安全区间内，自动驾驶车辆可以根据预设的虚拟轨迹行驶；当周围车辆处于动态行驶时，可达轨迹的安全区间呈现动态不确定性，采用线性函数实现对动态轨迹区间设计，确保可达轨迹的安全区间能实现动态线性移动。

(4.4)考虑到车辆本身与周围车辆的安全性约束条件，添加所规划轨迹的安全距离，构建最佳逼近线性函数，消除无限不确定性轨迹的重叠和碰撞问题，以解决不确定性道路框架下的轨迹规划。

图3为不确定性道路框架局部路径轨迹生成示意图，需要说明的是，在不确定性道路框架下，为构建可达动态轨迹的稳定性区间，采用推理性强化学习进行轨迹规划时，同样需要考虑车辆行驶状态、侧倾、侧滑和横摆等极限约束条件，考虑到道路周围环境变化，道路振动和迭代曲率特性影响等因素，获取车辆实时路径轨迹；考虑到不确定性道路框架下，自动驾驶车辆很难找到一条安全、平滑和舒适的轨迹路径，因此提出了预设一条安全、平滑和舒适的虚拟轨迹，并将推理性强化学习候选的轨迹与虚拟轨迹进行精度误差优化，以减少匹配误差数据；可以理解的是，当周围车辆处于静止状态，只有道路环境呈现变化状态时，在可达轨迹的安全区间内，自动驾驶车辆可以根据预设的虚拟轨迹行驶，即实际规划的轨迹与虚拟的轨迹完全重合；当周围车辆呈现动态行驶时，可达轨迹安全的区间呈现动态不确定性，此时为更好地减少实际规划的轨迹与预设的虚拟轨迹的误差率，采用变线性函数实现对动态轨迹区间的设计，确保可达轨迹的安全区间，能在动态的线性移动内实现，确保车辆的轨迹规划的正确性；

假设道路应用场景是在雾天、雨雪天气等沿海城市道路及跨海大桥等道路环境下，道路环境遭受天气因素变化较大，尤其能见度较低的道路场景下，传感器很难探测到可行使的道路框架，道路框架呈现不确定性，此时进行车辆路径规划时，可以预设一条虚拟的安全、平滑和舒适性的路径轨迹，并基于复杂道路环境带给车辆的动力学特性影响，充分考虑了车辆状态约束条件后，使用具有推理性强化学习进行车辆的轨迹规划，受道路环境的影响，规划的轨迹实时性较差，所以此时设定规划的轨迹与预设的虚拟轨迹的误差率范围，并设计可变线性函数实现对动态轨迹区间的设计，以确保车辆在动态轨迹区间范围的实时行驶，并且确保的车辆安全行驶；可以理解的是可变线性函数的参数设计，随着自身车辆与周围车辆的距离、速度关系等计算所得。

步骤5：对于混合式道路框架，包含了确定性道路框架和不确定性道路框架的混合模式；进行道路起始点的全局路径规划，设定周围道路区域环境的约束条件以及周围车辆的约束条件，通过判断约束条件的阈限标注确定性道路框架和不确定性道路框架的范围；将确定性道路框架和不确定性道路框架在混合式道路框架的概率进行分布，设定确定性道路框架的置信区间，并采用快速搜索方法实现全局路径规划。

如图4所示，通常在一些道路场景下，可行使区域和不可行驶区域具有交叉现象，因此，混合式道路框架包含了确定性道路框架和不确定性道路框架的两种模式，因此进行道路全局路径规划时，首先需要根据周围道路区域环境的约束条件，分解确定性道路框架和不确定性道路框架，然后进行全局路径规划任务。

(5.1)在确定全局路径规划后，获取所述车辆和周围车辆的速度、轨迹等历史状态，增加可变道路曲率以及振动道路特性参数，将车速、轨迹等历史数据等状态信息输入到强化学习模型作为推理路径轨迹的参考依据。

(5.2)获取所述车辆和周围车辆的速度、轨迹等当前状态，考虑到外界动力学特性等干扰因素，构建车辆侧倾、侧滑和横摆模型，计算出车辆横向和纵向载荷转移变化率，设计出风险边界最优范围，以实时调整车速的规划曲线并保证车速的碰撞操作风险低于设定的阈值。

(5.3)进行历史数据的轨迹规划编码，基于所述车辆状态的实时信息和周围车辆的位置信息、动态运动轨迹，通过设定的动态预测函数，进行所述车辆的轨迹规划。

(5.4)在混合式道路框架内，预设一条安全、平滑、可靠的虚拟轨迹，使用优化函数进行预设的虚拟轨迹与动态轨迹安全区域的误差优化，以此选择一条实际的动态轨迹与虚拟轨迹误差率保持在1％范围内。

(5.5)由于为防止安全区域减少，无法寻找到最优的路径轨迹，使用在线风险边界运动规划方法进行迭代碰撞检查，生成最优的运动规划，扩大搜索空间和降低规划失败率。

(5.6)考虑到车辆周围环境的不确定性影响，导致风险边界只能在短期内规划的轨迹有效，为实现长期轨迹的有效性，采用高斯模型制定分布的均值和协方差的确定性约束范围，并获得横向目标点位置、最大速度、最大曲率等，以减少候选轨迹的数量。

(5.7)在轨迹安全区域内，基于车辆动力学特性和轨迹误差率，进行可选择性轨迹，以选择出一条合适的轨迹，并预设第二条备选的可用轨迹。

对于混合式道路框架，主要用来生成最优的轨迹规划，在所规划的轨迹中，使用在线风险边界轨迹规划方法进行迭代碰撞检查，以扩大搜索空间，降低规划的失败率，在线风险边界轨迹规划方法主要是不断迭代轨迹与周围静态和动态障碍物的安全区域，以更好地生成轨迹规划；同时考虑到混合式道路框架周围环境的不确定性影响，导致风险边界在短期内规划的轨迹有效，为实现能在混合式道路框架内长期有效行驶，使用在线风险边界规划方法规划的搜索空间内，采用高斯模型确定的约束范围，进行确定性约束范围的概率分布，以减少候选轨迹的数量，进一步选取出更适合的轨迹和备选轨迹；

假设道路场景是在城市交通路口等复杂环境下，道路行驶环境随着交通流的变化而呈现确定性和不确定性等混合式道路框架，进行车辆路径规划时，难以进行实时规划出一条安全平滑的路径，因此首先采用概率密度函数进行混合式道路框架的分解，以确保全局优化路径的方向准确性；同时采用可记忆网络模型进行历史数据新型的路径轨迹编码，并考虑到了车辆状态和道路环境等状态约束条件，同时获取当前车辆的状态等信息，采用推理性网络模型进行数据的轨迹规划，然后在道路环境内预设一条可行驶的虚拟轨迹，并以此优化预设的虚拟轨迹与动态轨迹的安全区域误差；可以理解的是，为防止轨迹的安全区域降低，难以寻找到最优的路径轨迹，使用在线风险边界轨迹方法进行迭代碰撞检查，首先生成最佳的安全区域，扩大搜索空间，并且为了确保在搜索空间内长期实行轨迹的有效性，采用高斯模型实现确定性约束范围，获得横向目标点位置和速度等，以减少候选轨迹的数量，确保路径轨迹的实时性；可以理解的是，当复杂交通路口随着交通流实时变化时，作为混合式道路框架内，其确定性和不确定性因素也因此而呈现变化，其二者的交叉并没有明显的界限分解，因此采用历史车辆状态数据和当前车辆状态数据进行轨迹规划，并且设定在线风险边界轨迹方法，有助于实现路径规划的最优值，确保车辆经过复杂道路环境时，可以自由调整轨迹规划；

对于所述任何一种道路框架，汽车系统存在的时间尺度和复杂结构随着行驶状态而呈现不同动力学特性，甚至呈现极限行驶状态，其迭代道路曲率变化明显，因此在可信安全轨迹区间内，基于系统动力学和输入状态约束，将系统稳定到安全轨迹区间中，在区间内构造控制系统架构，以融合强化学习和预测控制算法为主的控制系统架构，实现对动态障碍物的避障控制。

控制系统架构结合了强化学习和预测控制算法共同实现对障碍物的避障控制，其中强化学习用来实现确定性道路框架下的障碍物动态控制，而预测控制算法用来补偿所述车辆受到外界干扰因素时引起车辆模型变化时，赋予车辆的干扰因素用来补偿车辆控制输入，以更好地实现车辆的轨迹跟踪控制。

对于不确定性道路环境，强化学习算法很难实现确定的控制效果，为更好地干预车辆行驶安全性，需要使用模型预测控制算法实现在不确定性道路环境下的轨迹跟踪控制，以此优化车辆控制输入，以更好地实现轨迹跟踪控制，

对于所述任何一种道路框架，提前预设的虚拟轨迹用来衡量安全轨迹的区间，因此，使用鲁棒控制屏障函数实现对虚拟轨迹的跟踪控制。

基于强化学习和预测控制算法两种控制架构，构建基于可信安全轨迹区间的统一自动驾驶车辆控制安全域，并将融合的强化学习和预测控制算法的轨迹跟踪结果与鲁棒控制屏障函数的虚拟轨迹跟踪控制结果进行准确性分析，最终输出可信轨迹跟踪结果。预设的虚拟轨迹，采用鲁棒控制屏障函数实现其良好的效果作为安全控制的准则，并以此进行微小误差性调整，最初输出可信轨迹跟踪控制效果。

对于三种道路框架，在可信安全轨迹区间内，都预设了第二条备选的可用轨迹，当所述车辆因恶劣天气和道路环境时，车辆动力学特性容易产生极端行驶情况，提前预设的第一条最优轨迹会受到稳定性影响而失去最优性，此时，采用融合迁移学习的元学习-双延迟深度确定性策略梯度方法实现对所预设的第二条备选可用轨迹的跟踪控制，以提高学习效率。

预设的第二条轨迹跟踪控制结果与第一条轨迹跟踪控制结果不断匹配对比，以降低跟踪误差率，当两条轨迹跟踪的误差率较大时，选择第二条轨迹跟踪的结果，以实现车辆的冗余控制。

第二条预设轨迹跟踪控制结果与虚拟轨迹的跟踪控制结果进行实时匹配对比，当两条轨迹跟踪的误差率较大时，通过增加补偿控制实现车辆控制结果的实时调整。

将获取的最优跟踪控制结果作为参考信息，作为先验历史数据信息，当车辆重新经过相似的道路场景，可以在所述的不同道路框架内，选择合适的历史数据信息作为推理依据，并且重复上述步骤，实现车辆的实时控制。

Claims

1.一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，所述步骤(3)实现过程如下：

假如两条轨迹线的数据点分别用：(x_ai y_ai)、(x_bj y_bj)(i，j＝1，…，n)其中，a表示第一条轨迹线的数据集，b表示第二条轨迹线的数据集，选取其中任何一组数据作为观测值，第二组为理论值，则获得的样本多项式拟合为：

y_w(x)＝w₀+w₁·x+w₂·x²+…+w_n·xⁿ

式中，w(w₀，w₁，w₂，…，w_n)为参数，y_w(x)是拟合的多项式函数；最小二乘法目的是寻找一组w(w₀，w₁，w₂，…，w_n)，使得残差平方和最小，表示式如下：

3.根据权利要求1所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，所述步骤(4)实现过程如下：

4.根据权利要求1所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，所述步骤(5)实现过程如下：

5.根据权利要求1所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，步骤(3)所述的可编程动态轨迹屏障函数表述如下：

当前所述车辆的位置为(x_p,y_p)，与周围道路区域环境的位置(x_ri,y_ri)(i＝1,…,N)的约束半径为r_i(i＝1,…,N)，以动态轨迹屏障函数f(x)来约束安全距离，设定所述车辆的安全半径r_s，得出动态轨迹屏障函数f(x)如下：

x_p-x_ri≥2

y_p-y_ri≥0

r_i≥rs

6.根据权利要求2所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，步骤(31)所述的最小二乘迭代的强化学习功能的轨迹区间设计实现过程如下：

定义马尔可夫决策模型，其元组集为(S,A,P,R)，S是下一时刻状态，A是连续动作集，P是状态转移函数，R是从s执行a到s'的转移瞬时奖赏；考虑采用DQN算法实现路径规划，定义车辆动作集：A＝{x，y}，其中，x表述车辆的纵向轨迹点，y表述车辆的横向轨迹点；定义状态集：

其中，

分别是静态障碍物的位置，包括道路边界线，

是动态障碍物位置，

是动态障碍物的速度；设置的奖励函数R(t)如下：

设计的网络模型是由三层CNN、LSTM和FC层组成，卷积核大小1×3×3，LSTM提取时间信息，激活函数采用RELU函数，学习率为1×10^-6；求得DQN算法损失函数目标值与预测值的最小误差表述如下：

式中，D是经验缓存器，Q_θ(s,a)是预测网络，Q_θ(s',a')是目标网络；r(s,a)是奖励函数；采用最小二乘框架来学习网络参数θ，以实现模型学习动作的概率性动作，使用模型θ^T·ξ(s,a)拟合期望的瞬时奖赏r(s,a)，表达式如下：

进一步更新θ，使用如下公式：

θ←θ-λ(ξ^T·ξ·θ-ξ^T·r)

7.根据权利要求1所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，步骤(4)所述的可行驶路径区域函数为：

f(x)＝±(k₁·(η·x+b₁)+k₂·(ρ·x³+μ·x²+ε·x+b₂))

式中，k₁是综合公式的影响因子；k₂是三维路径的影响因子、η是线性公式的影响因子、b₁是线性函数的常数、ρ是三次多项式的函数常数、μ是二次多项式函数的常数、ε是单项式函数的常数、b₂是常数；当可行使道路是直线时候，k₂＝0；当可行道路区域是弯道时候，k₁＝0。

8.根据权利要求3所述一种自动驾驶车辆轨迹规划控制实现方法，其特征在于，步骤(41)所述的采用推理性贝叶斯强化学习实现过程如下：

将贝叶斯强化学习定义为部分可观测马尔可夫决策模型，其元组集为(S_p,A,P,P₀,R)，其中，S_p是状态S与未知参数θ的乘积，A是动作空间，P(s,θ,a,s',θ')＝P(s',θ'/s,a,θ)是当前状态s执行动作a，从而到达下一个状态的概率密度，P₀是初始状态的概率密度，R是从s执行a到s'的转移瞬时奖赏；采用贝叶斯演员-评论家网络方法实现路径规划，定义车辆动作集：A＝{x，y}，其中，x表述车辆的纵向轨迹点，y表述车辆的横向轨迹点；定义状态集：