CN114919578A

CN114919578A - 智能车行为决策方法、规划方法、系统及存储介质

Info

Publication number: CN114919578A
Application number: CN202210854754.8A
Authority: CN
Inventors: 陈雪梅; 韩欣彤; 孔令兴; 杨宏伟; 姚诚达
Original assignee: Shandong Huichuang Information Technology Co ltd; Advanced Technology Research Institute of Beijing Institute of Technology
Current assignee: Shandong Huichuang Information Technology Co ltd; Advanced Technology Research Institute of Beijing Institute of Technology
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-08-19
Anticipated expiration: 2042-07-20
Also published as: CN114919578B

Abstract

本申请涉及自动驾驶的技术领域，尤其涉及一种智能车行为决策方法、规划方法、系统及存储介质，决策方法包括：在自车进入交叉口准备左转且存在对向车的情况下，判断所述对向车是否处于预设的风险区域；如果是，则将所述对向车作为自车的博弈对象；利用博弈模型构建所述自车与博弈对象的收益函数；基于元模型的优化算法对所述收益函数进行求解，得到决策结果。为实现智能驾驶车辆与有人驾驶车辆间的交互决策，选取自车和对向直行车作为博弈双方，并构建博弈双方的收益函数，然后将博弈模型转化为双层优化问题进行求解。通过在交互过程中获取对向车的意图，有助于提高智能车辆决策结果的合理性与准确性。

Description

智能车行为决策方法、规划方法、系统及存储介质

技术领域

本申请涉及自动驾驶的技术领域，尤其是涉及一种智能车行为决策方法、规划方法、系统及存储介质。

背景技术

随着智能驾驶技术的不断发展，城市场景成为关注的重心，而城市交叉口的通行问题成为制约技术发展的关键因素之一。区别于园区，港口等交通参与者少，路线固定的场景，城市交叉口因其动态与不确定性而难以处理。因此，在园区等环境中有效运行的算法不再适用于城市交叉口，行为决策模块需要更加灵活。

现有主流的行为决策方法主要有简单易操作的规则模型，针对不确定性的统计模型，以及考虑环境和交互的学习模型，以下将对一些主要模型进行说明：

（1）基于规则的行为决策模型，即根据交通规则，驾驶经验，专家知识等构建决策规则库，同时根据不同的交通环境划分不同的行驶状态，车辆按照决策规则进行状态转移和动作选择。此类方法既可用于不同场景间的转移，也可用于某一场景中智能车辆采取不同动作之间的转移，具有简易，逻辑清晰的优点。但该方法的场景构建过于简单，细节表达不清晰；且场景构建有限，难以增量式更新规则。

（2）基于知识和学习的行为决策模型，该模型均需要依靠人类驾驶经验，并将其整理为离散的驾驶属性，模型简单，易于编程。可是，一旦场景复杂，属性增多，状态机和决策树都会变得十分庞大，容易出错，且对环境建模不完善。

（3）基于统计的行为决策模型，该模型能够有效地考虑到实际交通中的不确定性问题，也能够实现与交通环境（包括其它的交通参与者）的交互，场景遍历更深。但是也存在模型复杂，计算求解难度大，“维度灾难”带来的实用性等问题。

由于现有的行为决策模型大都忽略车辆间交互这一关键特征，导致智能车辆无法做出合理有效的决策。

发明内容

为了在交叉口无保护左转的场景下，提高智能车辆决策结果的合理性，本申请提供一种智能车行为决策方法、规划方法、系统及存储介质。

第一方面，本申请提供的一种智能车行为决策方法，采用如下的技术方案：

一种智能车行为决策方法，包括：

在自车进入交叉口准备左转且存在对向车的情况下，判断所述对向车是否处于预设的风险区域；如果是，则将所述对向车作为自车的博弈对象；

利用博弈模型构建所述自车与博弈对象的收益函数；

基于元模型的优化算法对所述收益函数进行求解，得到决策结果。

通过采用上述技术方案，为实现智能驾驶车辆与有人驾驶车辆间的交互决策，选取自车和对向直行车作为博弈双方，并构建博弈双方的收益函数，然后将博弈模型转化为双层优化问题进行求解。通过在交互过程中获取对向车的意图，有助于提高智能车辆决策结果的合理性与准确性。

可选的，所述构建所述自车与博弈对象的收益函数步骤之前，还包括：

根据上游感知和预测信息，获取所述博弈对象的状态变量；其中，所述状态变量包括位置、速度和加速度；

基于所述状态变量，得到博弈对象的驾驶风格。

可选的，所述基于所述状态变量，得到博弈对象的驾驶风格步骤，包括：

利用模糊逻辑系统对所述状态变量进行模糊化处理，并根据预设的决策规则，得到初始驾驶风格；

基于所述初始驾驶风格，采用自适应神经模糊推理系统对构建的驾驶行为数据集进行训练，得到二次驾驶风格；

基于所述二次驾驶风格，利用长短期记忆神经网络对时序性数据进行训练，得到驾驶风格。

可选的，所述利用博弈模型构建所述自车与博弈对象的收益函数步骤，具体包括：

利用博弈模型从安全、效率和舒适三个部分构建收益函数，并将所述博弈对象的驾驶风格转化为权重反映在收益函数中。

第二方面，本申请提供的一种智能车行为规划方法，采用如下的技术方案：

一种智能车行为规划方法，包括：

根据所述决策结果得到纵向规划轨迹。

可选的，所述根据决策结果得到纵向规划轨迹步骤，具体包括：

根据自车的纵向位移与速度构建坐标系，并将博弈对象占据的区间反映在坐标系上；

对构建的坐标系进行动态规划，得到纵向折线；

对所述纵向折线进行平滑处理，得到纵向规划轨迹。

可选的，所述博弈对象占据的区间为自车与博弈对象存在的冲突区域；其中，所述冲突区域为博弈对象预测轨迹点和自车路径的采样点重叠的区域。

可选的，所述对构建的坐标系进行动态规划，得到纵向折线步骤，包括：

在规划时间范围内每隔预设时间间隔将纵向位移离散化为不均匀的采样点；

计算所述采样点的代价值，并选择一条代价值最低的纵向折线。

第三方面，本申请提出的一种智能车行为决策规划系统，采用如下的技术方案：

一种智能车行为决策规划系统，包括：

博弈对象判断模块，被配置为在自车进入交叉口准备左转且存在对向车的情况下，判断所述对向车是否处于预设的风险区域；如果是，则将所述对向车作为自车的博弈对象；

收益函数构建模块，被配置为构建所述自车与博弈对象的收益函数；

模型求解模块，被配置为基于元模型的优化算法对所述收益函数进行求解，得到决策结果；

速度规划模块，被配置为根据所述决策结果得到纵向规划轨迹。

第四方面，本申请提供的一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面所述的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

1.首先利用简单的模糊逻辑系统通过对速度和加速度模糊化来判定驾驶风格；其次对驾驶行为数据集使用自适应神经模糊推理系统进行训练以提高判定准确率；最后利用长短期记忆人工神经网络学习时序性数据，以充分考虑驾驶风格的时变特性，有助于提高驾驶风格判断的准确性；

2.在考虑对向车驾驶风格的基础上构建博弈模型来推理两车行为间相互影响的过程。首先分析无保护左转场景的特点，筛选博弈对象，并据此构建模型；其次，综合考虑了驾驶安全性，舒适性和和效率三个部分建立模型中各参与者的收益函数，并将预判得到的对向车驾驶风格转化为权重反映在其收益函数中；最后，将此博弈模型转化为双层优化问题进行求解，得到本车的驾驶策略，指导其纵向速度规划得到最终的纵向规划轨迹；本申请从车辆间实际交互过程出发，兼顾安全性和高效性，从而提高了决策结果的合理性。

附图说明

图1是本申请示出的自动驾驶系统的框图。

图2是本申请示出的车辆行驶路径将城市交叉口场景图。

图3是本申请示出的智能车行为决策方法与规划方法的整体流程图。

图4是本申请其中一实施例示出的智能车行为决策方法的风险区域的结构图。

图5是本申请其中一实施例示出的智能车行为决策方法中自适应神经模糊推理系统的结构图。

图6是本申请其中一实施例示出的智能车行为决策方法中轨迹拟合结构图。

图7是本申请其中一实施例示出的智能车行为决策方法中显示车辆与目标位置距离的结构图。

图8是本申请其中一实施例示出的智能车行为规划方法中坐标转换的结构图。

图9是本申请其中一实施例示出的智能车行为规划方法中S-L图。

图10是本申请其中一实施例示出的智能车行为规划方法中T-L图。

图11是本申请其中一实施例示出的智能车行为规划方法中速度规划结构图。

具体实施方式

以下结合图1-图11对本申请作进一步详细说明。

如图1所示，一个完整的自动驾驶系统主要由感知模块、决策规划模块和控制模块组成，首先，感知模块通过摄像头、激光雷达等传感器感知自动驾驶车辆周围环境和交通参与者的当前状态，为后续的决策控制提供数据支持，并预判其它交通参与者未来一段时间的行为；决策规划模块作为智能车辆的“大脑”，基于对环境的感知和预测，自车做出合理的决策和轨迹规划；最后控制模块接收来自决策系统的指令，在线控底盘中进行加速，制动及转向的控制，完成车辆的驾驶动作。

另外，城市交叉口由于其特殊的物理结构及交通属性，常常是交通事故的多发地，根据车辆行驶路径将城市交叉口场景分为了如图2所示的五种：（1）左转车-对向车（LTAP/OD）；（2）左转车-横向对向车（LTAP/LD）；（3）左转车-横向同向车（LTIP）；（4）右转车-横向同向车（RTIP）；（5）直行-横向直行车（SCP）。其中，左转车-对向车（LTAP/OD）和直行-横向直行车（SCP）是交叉口场景中事故发生率最高的情况，而在自动驾驶实车测试中同样发现左转车-对向车（LTAP/OD）场景难以处理。因此结合实际测试中遇到的问题，本申请选择左转车-对向车（LTAP/OD）场景进行建模处理。

其中车辆的左转过程分为以下三阶段：

第一阶段，车辆进入交叉口，缓慢接近和对向直行车的潜在冲突区域，此阶段内，车辆可能会减速观察对向来车的情况；

第二阶段，车辆和对向车的交互阶段，此阶段内，车辆会综合判断和对向车的距离及对向车的速度，选择让行或者穿越；

第三阶段，车辆通过潜在冲突区域，将和行人或自行车等进行交互，在实际情况中，通常是减速或停车避让行人。

本申请主要考虑第二阶段智能车的行为决策。传统方法主要通过划定冲突区域利用TTC（Time To Collision）来规则调整左转车的决策，或是基于对向来车之间的可接受间隙来判断自车能否通过。此类算法虽然可以覆盖一些基础场景，但是在处理如城市交叉口左转场景或是拥挤交通下的汇入场景时仍然存在风险。

为解决现有算法处理无保护左转场景的不可靠问题，本申请实施例公开一种智能车行为决策方法。

作为行为决策方法的一种实施方式，如图3所示，包括以下步骤：

100，在自车进入交叉口准备左转且存在对向车的情况下，判断对向车是否处于预设的风险区域；如果是，则将所述对向车作为自车的博弈对象。

需要说明的是，首先通过自动驾驶系统中的感知模块得到周围环境和交通参与者的当前状态，从而获取周围车辆的位置，进而判断是否存在对向车。然后进行风险区域内对向车的选择，如图4所示的s-t图，由最大加速度计算出来的能力边界和最大减速度计算出来的能力边界之间的区域为风险区域，其中风险区域为自车根据最大加速度以及最大减速度，并由当前速度计算出能到达的位置范围；当对向车在风险区域内时，选择其作为自车的博弈对象。

200，根据上游感知和预测信息，获得博弈对象的状态变量；其中，状态变量包括位置、速度以及加速度。

具体的，通过感知模块得到周围环境和交通参与者的当前状态；然后，通过预测模块预判其它交通参与者未来一段时间的行为，从而根据上游感知和预测信息获得自车和博弈对象的当前状态量。

300，基于状态变量，得到博弈对象的驾驶风格。

需要说明的是，驾驶风格反映了驾驶员对于安全和效率的偏好，与驾驶动作有直接关系。在博弈模型中利用驾驶员的驾驶风格来动态调整收益函数，可以帮助自车得到更加可靠的决策结果。

其中，步骤300包括：

301，利用模糊逻辑系统对所述状态变量进行模糊化处理，并根据预设的决策规则，得到初始驾驶风格；

302，基于所述初始驾驶风格，采用自适应神经模糊推理系统对构建的驾驶行为数据集进行训练，得到二次驾驶风格；

303，基于所述二次驾驶风格，利用长短期记忆神经网络对时序性数据进行训练，得到驾驶风格。

具体的，首先利用简单的模糊逻辑系统通过对速度和加速度模糊化来判定驾驶风格；其次对驾驶行为数据集使用自适应神经模糊推理系统进行训练以提高判定准确率；最后利用长短期记忆人工神经网络学习时序性数据，以充分考虑驾驶风格的时变特性。

其中，速度作为车辆状态的主要变量，可以反映驾驶员的行为；其次，加速度对应油门踏板，也可以反映驾驶员的动作特点。因此，本实施例选择车辆速度和加速度作为模糊逻辑系统的输入量。输出量则是期望求得的驾驶风格。其中涉及到的模糊集划分及决策表中的规则皆是根据广泛适用的驾驶员经验。

对于输入量加速度，这里将加速度范围0-5

划分为3个模糊集，分别为“加速度小”，“加速度适中”，“加速度大”，然后通过梯形和三角形隶属度函数模糊化。

对于输入量速度，这里将速度范围0-30m/s划分为5个模糊集，分别为“速度很低”，“速度低”，“速度适中”，“速度快”，“速度很快”，然后通过三角形式和梯形形式的隶属度函数模糊化。

对于输出量驾驶风格，将其划分为3个模糊集，分别为“保守型”，“正常型”，“激进型”，然后通过隶属度函数进行模糊化。

通过对加速度和速度的范围组合，可以得到如表1.1所示的决策规则表；当变量越多，分类越多时决策规则表会变得十分复杂。

表1.1 决策规则表

模糊逻辑系统通过简单易懂的方式对车辆状态量进行模糊化处理，并根据驾驶经验构建决策规则，可快速便捷得到粗略的驾驶员风格。但是该方法对于想要加入更多输入量来扩充状态有所限制，一旦增加输入量个数，决策规则表则变得非常庞大，增加了手工制表的难度，在实际工程中也会造成代码量的冗余和不好维护。因此在此基础上，考虑加入真实的数据集，通过自适应神经模糊推理系统来提高判定模型的准确度。具体方法如下：

选择UAH-DriverSet开源数据集，即通过手机驾驶监控应用程序在两种不同的环境下采集不同驾驶员的行驶数据。该数据集分为了三部分，第一部分是根据GPS和加速度计获取到的原始数据，包括了时间戳，经纬度，速度以及x，y，z方向上的加速度，俯仰角度，侧倾角度，翻滚角度等；第二部分是处理过的连续数据，包括车道信息及自车相对前车的位置信息等；第三部分是地图数据接口，包括了最大限速，道路类型，车道数，当前车道id等数据。

此外，为提高数据的有效性，本实施例还选择三位安全员分别以三种不同的驾驶风格驾驶实车在无信号灯T型路口直行，采集驾驶数据，并统计车辆速度以及部分速度变化。

由于自采数据数量限制，本实施例从数据集中和自采数据中各取一部分数据构成后续两种模型训练和测试所用的数据集。

其中，自适应神经模糊推理系统（ANFIS）为结合前馈式神经网络的监督式学习方法，它的模型结构由自适应网络和模糊推理系统合并而成。其将模糊控制的模糊化、模糊推理和反模糊化3个基本过程全部用神经网络来实现，利用神经网络的学习机制自动地从输入输出样本数据中抽取规则，构成自适应神经模糊控制器。该系统在功能上继承了模糊推理系统的可解释性特点以及自适应网络的学习能力，能够根据先验知识改变系统参数，使系统的输出更贴近真实的输出。

具体的，在初始驾驶风格的基础上，以上述数据集和自采数据作为训练数据集，利用自适应神经模糊推理系统对训练数据集进行训练，其中输入特征仍为速度和加速度两个变量，输出特征为二次驾驶风格。

需要说明的是，自适应神经模糊推理系统主要有Tsukamoto类型、Mamdani类型和Sugeno类型三种，主要的区别在于if-then规则的形式，T型是建立规则权重与规则本身之间的非线性关系得到单值输出，M型是据不等式关系得到区域输出，S型则是将规则建立为输入的线性关系式得到单值输出。

本实施例以最常用的S型模型为例，如图5所示，具有5层结构：

第一层是输入层，为每一个输入变量选择多个隶属度函数，将其映射到模糊集中，通常利用钟形隶属度函数，即钟形函数参数为向前参数，该层每个节点的函数表达式如下：

其中，

和

均表示第一层第i个节点的函数，可调整参数即为钟形函数的参数

，

，

，i表示某一个节点（即某一个隶属度函数），

表示输入变量。

第二层为规则层，即将各输入变量的模糊集排列组合，以进行模糊运算得到每条规则的值，这里通常使用代数积：

其中，

和

均表示第二层第i个节点的规则值，N表示输入量的个数。

第三层为正则化层，即将第二层所得的规则值归一化0-1之间：

其中，

和

均表示第三层第i个节点的规则值，K表示节点总个数。

第四层为结论推论层，将上层正则化结果与S型模糊模式系数相乘：

其中，

表示第四层第i个节点的规则值，

表示S型模糊模式系数；

代表每个节点与输入变量

的相关系数。

第五层为输出层，综合上层各节点的输出结果得到唯一的输出结果（可理解为计算期望值）：

其中，

表示第五层第i个节点的规则值。

从上述五层可以看出，该系统中可调整的参数位于输入层和结论推论层中，分别为隶属度函数的形式参数和S型模糊模式的相关系数，即为非线性参数部分（NL）和线性参数部分（L）。

由该系统的结构可看出，利用真实数据进行训练，通过最小化误差可以对上述的参数进行调整，以提高模型的准确度。

由于单纯使用梯度下降法来更新参数效率低且容易陷入局部最优，所以常用的参数调整算法为梯度下降法和最小二乘法混合算法（LSE-GD算法）。为说明该算法，这里假设仅有一个输出。output代表输出变量，代表输入变量，S代表参数集合。

如果存在函数H使得复合函数H(F)在部分参数处是线性的，则这些参数可以通过最小二乘法来调整，将此部分参数集合成为

，是S的子集，剩余部分的参数为

。由此可以得到下式：

当给定

后，应用n组数据后可以得到以下的矩阵等式：

其中，X代表

中需要求解的参数，A代表训练数据，B代表真实结果；通常训练数据的个数大于参数

的个数，上述的等式为超定问题，没有唯一解。

在训练过程中，每一代都有前向传播和后向传播两个过程，在前向传播过程中，固定前向参数，在输入传递到第四层时，通过最小二乘法更新后向参数，在这种前向参数固定的前提下，得到的后向参数估计是最优的；在反向传播过程中，固定后向参数，根据误差平方，利用梯度下降法更新前向参数。通过这样的方式，混合学习算法的效率相较于仅使用梯度下降方法提高很多。

在后向传播过程中，定义测量误差为均方误差的和：

其中，

代表第P组数据的测量误差，

代表第P组数据的第m个目标值，

代表第P组输入的第L层的第m个结点的真实输出。误差率的计算公式如下，即误差对结点输出的偏导数：

其中，

代表第P组数据的第

个目标值，

代表第P组输入的第L层的第

个结点的真实输出。

根据链式法则，可以得到误差相对于每个参数的偏导值：

考虑总的误差和，即为所有输入的误差和：

由于上述两种方法均使用某一时刻下的数据来判断驾驶风格，并未考虑到驾驶行为的时序特性，因此考虑长短期记忆神经网络，对时序性数据进行训练，以期进一步提高驾驶风格判定的准确度。具体方法如下：

采用长短期记忆神经网络方法，对时序性数据进行训练，以期进一步提高驾驶风格判定的准确度。

使用Matlab深度学习工具箱对由UAH-DriverSet开源数据集和自采数据处理后的时序数据进行训练和测试，其中，训练数据包括多组，每一组内包含9个特征，分别是x，y及z方向上的加速度值，俯仰角度，横摆角度及侧倾角度，距离当前车道内前车的距离，当前范围内检测到的车辆数以及自身车速。

在二次驾驶风格的基础上，利用长短期记忆神经网络对训练和测试后的时序数据进行训练，并输出驾驶风格。

400，构建所述自车与博弈对象的收益函数。

其中，步骤400包括：

利用博弈模型从安全、效率和舒适三个部分构建收益函数，并将博弈对象的驾驶风格转化为权重反映在收益函数中。

需要说明的是，收益函数由安全、效率及舒适三部分构成。其中，安全性考虑frenet坐标系下两车的欧氏距离，效率考虑两车当前位置到离开交叉口位置的距离，舒适性考虑加速度。其中，本申请选择运动学模型为frenet坐标系下的匀加速运动学模型，公式为：

。

（1）安全性

安全性通常使用当前时刻TTC或者车辆之间的距离来体现，本申请选择Frenet坐标系下两车间的欧氏距离来判断二者的碰撞风险，如图6所示。

需要说明的是，由于算法中博弈对象（对向车）的轨迹点以及自车的路径点都是离散点，需要转化为连续的曲线，因此通过最小二乘法将这些离散点拟合成三次曲线，得到与s的函数关系式如下：

对于自车，其下一时刻的纵向位置根据运动学公式计算可得：

其中，

代表自车下一时刻的纵向位置，

代表自车的初始位置，

代表自车的速度，

代表自车的初始时间与下一时刻之间的时间间隔，

代表自车的加速度。

对于障碍物（博弈对象），其下一时刻的纵向位置根据运动学公式计算可得：

其中，

代表障碍物下一时刻的纵向位置，

代表障碍物下一时刻的初始位置，

代表障碍物的初始时间与下一时刻之间的时间间隔，

代表障碍物的加速度。

碰撞风险的公式为欧式距离的倒数，距离越小，碰撞风险越大，并利用指数函数将其归一化0-1范围内：

其中，

为自车与障碍物之间的碰撞风险，

代表自车的坐标点（

）与障碍物的坐标点（

）之间的欧氏距离，

代表利用指数函数将碰撞风险归一化后的碰撞参数。

（2）舒适性

舒适性体现在加速度的约束上，纵向加速度变化可由冲击度来反映，利用指数函数归一化0-1范围内后得到如下公式：

其中，

为加速度，

代表初始加速度，

代表时间间隔，

代表加速度的时间变化率，

代表舒适参数。

（3）高效性

如图7所示，高效性由车辆到目标位置的距离来表示，距离目标位置（即希望尽快通过交叉口）越近，效率越高，即距离差越小，效率越高；同样用指数函数归一化处理：

其中，

代表车辆到目标位置的距离，

代表目标位置，

代表车辆当前位置，

代表高效参数。

利用Stackelberg博弈模型（又称领导者-跟随者模型），综合上述安全性、舒适性和高效性的函数表达式，和固定误差项加权组合在一起构成两车各自的收益函数，如下：

其中，

代表收益函数，

、

和

分别代表安全性、舒适性和高效性各项的权重，

为表征对向车驾驶风格的参数，对于自车，

=1；

代表固定误差项加权。

另外，考虑未来n步的收益总和，用累积收益函数是为了更长远的考虑，以碰撞风险为例，选择的加速度是为了让接下来的碰撞风险都能够保持比较小的值，而不止是当前的碰撞风险最小：

其中，P代表累积收益函数，

代表未来第

步的收益函数，

代表预设的调整参数。

500，基于元模型的优化算法对收益函数进行求解，得到决策结果。

需要说明的是，上述构建的博弈模型可视作双层优化问题，即一个包含两层优化任务的嵌套优化问题。双层优化问题的结构要求下层优化问题的最优解只能作为上层优化问题的可行候选，上下层优化参数相互影响。其基本定义如下：

其中，F，f分别代表上层和下层优化函数，

分别代表上层和下层优化变量，G代表约束条件。

考虑到收益函数的非凸性质，使用基于元模型的优化算法进行求解。该优化算法的核心在于近似上下层优化变量之间的映射关系，将解析解的方式扩展到数值解上。其中，解析解的方式是通过求解下层优化问题得到优化变量之间的解析关系式，然后回代到上层优化问题以求得最终结果。

其中，问题可转化为如下形式：

(

)

其中，

为下层优化变量关于上层优化变量的函数。

利用基于二次近似的双层优化进化算法来解决一般双层优化问题，且当局部反映集（即上下层优化变量之间的映射函数）的近似结果良好时，有助于减少对下层优化问题的求解次数。具体步骤如下：

（1）初始化：首先生成大小为N的种群，即该种群内包含N个上层优化变量的值

，然后分别将这N个

代入下层优化问题求解得到对应的下层优化变量的值

，通过已经求得的上层优化变量的值

以及下层优化变量的值

可以计算种群中每个成员的适应度；

（2）标记：将种群中已经求解了下层优化问题的成员标记为1，其余的默认为0；

（3）选择：从种群中选择

个成员，然后根据基于上层函数值的联赛算法得到

个父代；其中，

为预先设定的值；

（4）上层进化：根据适应度在种群中选择最好的一个成员，再结合第3步中的

个父代成员，最终构成

个父代，接着通过交叉和变异得到

个子代；其中

。

（5）二次近似：如果种群中标记1的成员数大于

，则选择所有标记1的成员来拟合二次近似函数，反之，未达到拟合函数的要求；

（6）下层优化：如果上一步骤中拟合了二次函数，那么可通过该拟合函数对子代成员进行处理，找到它们对应的最优下层变量，而无需再进行下层优化问题的求解。当均方误差小于1e-3时，则认为近似函数效果良好，可将子代标记为1，否则为0；如果第5步中未能拟合出二次函数，则对子代成员进行下层优化问题的求解，即确定最近的标记为1的父代成员，复制其对应的下层最优变量作为初始值，使用SQP进行子代下层成员的优化，若SQP方法不成功则使用进化算法进行求解。当子代成员的下层优化问题求解成功，标记为1；

（7）种群更新：当求解完子代成员对应的下层最优结果后，从父代中选择r（r

）个成员，与子代一起形成一个池。然后从池中选择最好的r个成员来代替原来从父代中选择的r个成员，然后进行算法终止检查，当检查到算法未达到结束条件时，跳转到第三步。

具体的，该算法首先初始化一个上层优化变量的种群，对于种群中每一个成员，代入下层问题中求解单层优化问题，求得其对应的下层最优成员，然后据此在上层成员和其对应的下层最优成员之间建立二次映射关系。如果此映射关系拟合良好（误差小），则可用其来预测任意上层优化变量所对应的下层最优变量，因此就可以减少对下层问题的求解次数。

基于上述智能车行为决策方法，本申请实施例还公开一种基于无保护左转场景的智能车行为规划方法。

作为智能车行为规划方法的一种实施方式，包括以下步骤：

600，根据所述决策结果得到纵向规划轨迹。

其中，步骤600包括：

601，根据自车的纵向位移与速度构建坐标系，并将博弈对象占据的区间反映在坐标系上；

602，对构建的坐标系进行动态规划，得到纵向折线；

603，对所述纵向折线进行平滑处理，得到纵向规划轨迹。

具体的，决策结果传输给速度规划模块以求得最终的纵向规划轨迹，本申请采用EM Planner中的S-T图进行速度规划。

其中，EM planner是百度阿波罗面向自动驾驶L4级别的开源实时运动规划算法，该算法主要模块有感知，定位，高精地图，预测，路线，运动规划和车辆控制。该算法最核心的部分之一在于运动规划模块，该模块收集上游模块传递的障碍物信息，位置信息和导航信息，综合处理后以备实时局部路径规划时取用，最后输出结果给控制模块以实现自动驾驶，即利用上游信息在有效时间内规划初一条安全舒适的轨迹供车辆行驶。

决策规划模块首先会根据全局路径规划结果生成参考线，然后处理如信号灯等交通规则信息，再正式进入局部规划的部分，该部分从城市场景入手（将城市场景分成了车道保持，换道，停止标志，有保护和无保护的交叉口等几类情况），场景中又分为一个或多个阶段，每个阶段中将根据任务列表依次执行多个任务，这些任务从功能上可分为路径(path)和速度(speed)两种，从方法上可以分为决策器和优化器两种。这些任务即是EM planner方法的核心体现。

该模块使用最大期望算法（Expectation Maximum），即在概率模型中寻找最大似然估计或者最大后验估计的算法。路径部分的E-step和M-step分别是建立S-L图，对静态障碍物进行横向决策和曲线优化得到一条光滑的S-L曲线。速度部分的E-step和M-step分别是建立T-L图，对动态障碍物做纵向决策和曲线优化得到一条光滑的T-L曲线。

由于上述算法以以frenet坐标系为参考，因此接下来简要说明Cartisian坐标系到Frenet坐标系的转换，如图8所示。Cartisian坐标系是世界坐标系，表征了车辆的绝对位置，但是由于实际道路并非与Cartisian坐标轴保持平行，因此用绝对坐标系来表示道路与车辆的关系会非常复杂，而Frenet坐标系使用道路的中心线作为参考线，利用参考线的切向量和法向量建立一个坐标系，车辆在道路上的运动问题得到简化。

已知车辆当前在Cartisian坐标系下的

和它在参考线上对应的参考点

，其中，

代表绝对坐标下车辆的坐标值，

代表参考线上匹配点的坐标值，

，

分别代表绝对坐标点下车辆的航向角和参考线上匹配点的航向角，

，

分别代表绝对坐标系下车辆位置的曲率和匹配点的曲率，且

。需求得

六个变量。

s为参考点

的s坐标，根据速度投影三角形可得：

其中，R为绝对坐标下车辆的位置和参考线之间的距离，

为车辆在参考线上对应的速度。

横向距离l：

求解如下：

求解如下：

其中，

其中，

同理

求解如下：

在frenet坐标系的基础上分别建立S-L图和T-L图，S-L图能够反映低速，静态障碍物和自车的相对位置，T-L图能够反映动态障碍物在纵向上和自车的潜在碰撞区域和其在S方向上的速度。

（1）S-L图

S-L图将博弈对象（对向车）box向参考线上进行投影，获得其在S-L图上的位置，构建过程如图9所示。

（2）T-L图

T-L图通过比较博弈对象预测轨迹点和自车路径的采样点之间是否会重叠来判断二者可能的冲突区域，并将其反映在如图10所示的T-L图上，该图反映的是沿自车车道纵向的位移与时间的变化关系，可能的冲突区域即为图上的四边形，其斜率反映了博弈对象在自车参考线纵向上的速度，但不一定是其真实速度。

其中，如图11所示，速度规划主要由三个部分组成：S-T图构建，对S-T图进行动态规划以及S-T轨迹优化。S-T图反映的是frenet坐标系下自车纵向位移与速度的关系，同时将博弈对象占据的S-T区间范围绘制在S-T图上。在S-T图上进行动态规划的过程则是将构建好的S-T图在规划时间范围内每隔1s将纵向位移s离散化为不均匀的采样点，在行为决策结果的指导下计算各采样点的代价值，最终选择一条代价值最低的S-T折线。轨迹优化即为对上一步得到的纵向折线进行平滑处理，得到最终的纵向轨迹结果。

另外，为验证本申请中所提出的基于Stackelberg博弈的决策规划模型在城市交叉口无保护左转过程中的的安全性和时效性，在仿真环境中对模型在不同场景下的表现进行了测试，并相对于原始模型进行了对比分析。

通过分别改变车辆位置以及速度进行了仿真案例的泛化。测试结果如表1.2所示。

表1.2 批量测试对比结果

原始算法在实际测试中只有当对向没有来车时能够顺利通过，而在有对向来车（此交叉口直行车辆速度很快）时，自车无法降速以保持安全距离，都是被接管的状态。

实车测试共进行了22次测试，其中接管次数3次，第一次是上游未能感知到对向来车，导致左转过程未减速，有碰撞风险；第二次是停车等待过程中工控机异常导致程序中断；第三次接管是自车在超越对向车过程中安全员认为对向来车速度过快（实际上对向车已经在减速）。

本申请提出的基于Stackelberg博弈的决策规划模型能够引导智能驾驶车辆顺利完成驾驶任务，能够在一定程度上提高驾驶安全性和通行效率。

基于上述智能车行为决策方法以及智能车行为规划方法，本申请实施例还公开一种基于无保护左转场景的智能车行为决策规划系统。

作为智能车行为决策规划系统的一种实施方式，包括：

本申请实施例还公开了一种计算机可读存储介质，存储有能够被处理器加载并执行如上述中央摆渡车运行控制方法的计算机程序，该计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种智能车行为决策方法，其特征在于，包括：

利用博弈模型构建所述自车与博弈对象的收益函数；

2.根据权利要求1所述的一种智能车行为决策方法，其特征在于，所述构建所述自车与博弈对象的收益函数步骤之前，还包括：

基于所述状态变量，得到博弈对象的驾驶风格。

3.根据权利要求2所述的一种智能车行为决策方法，其特征在于，所述基于所述状态变量，得到博弈对象的驾驶风格步骤，包括：

4.根据权利要求2或3所述的一种智能车行为决策方法，其特征在于，所述利用博弈模型构建所述自车与博弈对象的收益函数步骤，具体包括：

5.一种智能车行为规划方法，其特征在于，所述方法基于权利要求1-4任一所述的智能车行为决策方法，包括：

根据所述决策结果得到纵向规划轨迹。

6.根据权利要求5所述的一种智能车行为规划方法，其特征在于，所述根据决策结果得到纵向规划轨迹步骤，具体包括：

对构建的坐标系进行动态规划，得到纵向折线；

对所述纵向折线进行平滑处理，得到纵向规划轨迹。

7.根据权利要求6所述的一种智能车行为规划方法，其特征在于，所述博弈对象占据的区间为自车与博弈对象存在的冲突区域；其中，所述冲突区域为博弈对象预测轨迹点和自车路径的采样点重叠的区域。

8.根据权利要求6所述的一种智能车行为规划方法，其特征在于，所述对构建的坐标系进行动态规划，得到纵向折线步骤，包括：

9.一种智能车行为决策规划系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1-8中任一种方法中的计算机程序。