CN116495014B

CN116495014B - 一种自进化非博弈自动驾驶车辆人机共驾方法及系统

Info

Publication number: CN116495014B
Application number: CN202310768987.0A
Authority: CN
Inventors: 刘辉; 张发旺; 陈宏宽; 段京良; 郭丛帅; 聂士达; 韩立金; 谢雨佳
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-01
Anticipated expiration: 2043-06-28
Also published as: CN116495014A

Abstract

本发明公开一种自进化非博弈自动驾驶车辆人机共驾方法及系统，属于车辆的智能控制技术领域。所述方法采用基于类风格学习函数进行迭代求解的方式实现对驾驶员风格的学习，并进一步的基于最优控制目标函数进行自动驾驶控制量的输出，并基于类驾驶数学模型进行人机控制量的融合，减小了驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异，克服了人机共驾技术在车辆行驶过程中存在驾驶博弈的问题，本发明还将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹，对最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵进行再次迭代求解，实现最优控制目标函数和类驾驶数学模型的自动化更新。

Description

一种自进化非博弈自动驾驶车辆人机共驾方法及系统

技术领域

本发明涉及车辆的智能控制技术领域，特别是涉及一种自进化非博弈自动驾驶车辆人机共驾方法及系统。

背景技术

车辆的智能控制技术是智能化汽车的核心体现，人机共驾是非常实用的L2级自动驾驶功能，通过人机共驾，将部分驾驶任务交给自动驾驶系统，可以减轻驾驶员疲劳和提升驾驶舒适性。然而，目前许多人机共驾系统存在的问题为：驾驶员（人）的驾驶风格和自动驾驶系统（机）输出的控制量的驾驶风格存在太大的差异，导致在车辆行驶过程中存在驾驶博弈的问题。

发明内容

本发明的目的是提供一种自进化非博弈自动驾驶车辆人机共驾方法及系统，以减小驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异，克服人机共驾技术在车辆行驶过程中存在驾驶博弈的问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种自进化非博弈自动驾驶车辆人机共驾方法，所述方法包括如下步骤：

获取车辆行驶状态；

根据所述车辆行驶状态，采用求解最优控制目标函数的方式，确定自动驾驶控制量；所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数；

将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型，确定自动驾驶控制量的品质和驾驶员给出的控制量的品质；所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得，所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数；

基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值；

根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值，对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和，获得融合控制量；

基于所述融合控制量对车辆进行控制，并将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹，对所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵通过对类风格学习函数进行再次迭代求解。

可选的，所述最优控制目标函数为：

；

其中，为最优控制目标函数，/>为当前时刻t之后的第i个虚拟时间步的目标状态，/>为当前时刻t之后的第i个虚拟时间步的车辆行驶状态，/>根据当前时刻t之后的第i-1个虚拟时间步的车辆行驶状态和自动驾驶控制量采用三自由度单轨模型计算获得，/>，/>为车辆上设置的传感器系统采集的当前时刻t的车辆行驶状态，/>为当前时刻t之后的第i个虚拟时间步的自动驾驶控制量，/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵，/>表示相邻两个时刻之间虚拟时间步的数量，上标T表示转置。

可选的，对类风格学习函数进行迭代求解，具体包括：

对最优控制目标函数、类风格学习函数及公式进行迭代求解，直到/>的值收敛，获得状态惩罚矩阵和控制量惩罚矩阵；

其中，和/>分别为第k+1次迭代和第k次迭代获得的惩罚矩阵，/>为惩罚矩阵参数变量，所述惩罚矩阵包括状态惩罚矩阵和控制量惩罚矩阵，/>为更新步长，/>为类风格学习函数，/>为车辆在自动驾驶控制量控制下的轨迹，/>为车辆在驾驶员给出的控制量控制下的轨迹；在迭代求解的过程中，根据采用求解最优控制目标函数的方式确定的自动驾驶控制量对/>进行更新，根据驾驶员给出的控制量对/>进行更新。

可选的，所述类驾驶数学模型为：

；

其中，表示控制量的品质，/>表示车辆行驶状态，/>表示控制量，/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵，上标T表示转置。

可选的，所述基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值，具体包括：

基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值为：；

基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算驾驶员给出的控制量的权值为：；

其中，和/>分别表示自动驾驶控制量的权值和驾驶员给出的控制量的权值，和/>分别表示自动驾驶控制量的品质和驾驶员给出的控制量的品质。

一种自进化非博弈自动驾驶车辆人机共驾系统，所述系统应用于上述的方法，所述系统包括：

行驶状态获取模块，用于获取车辆行驶状态；

自动驾驶控制量确定模块，用于根据所述车辆行驶状态，采用求解最优控制目标函数的方式，确定自动驾驶控制量；所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数；

控制量品质计算模块，用于将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型，确定自动驾驶控制量的品质和驾驶员给出的控制量的品质；所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得，所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数；

权值计算模块，用于基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值；

控制量加权模块，用于根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值，对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和，获得融合控制量；

控制模块，用于基于所述融合控制量对车辆进行控制。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现上述的方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明实施例提供一种自进化非博弈自动驾驶车辆人机共驾方法及系统，所述方法包括如下步骤：获取车辆行驶状态；根据所述车辆行驶状态，采用求解最优控制目标函数的方式，确定自动驾驶控制量；将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型，确定自动驾驶控制量的品质和驾驶员给出的控制量的品质；所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得，所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数；基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值；根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值，对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和，获得融合控制量；基于所述融合控制量对车辆进行控制。本发明采用基于类风格学习函数进行迭代求解的方式确定最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵，以实现对驾驶员风格的学习，并进一步的基于最优控制目标函数进行自动驾驶控制量的输出，并基于类驾驶数学模型进行人机控制量的融合，减小了驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异，克服了人机共驾技术在车辆行驶过程中存在驾驶博弈的问题，本发明还将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹，对最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵进行再次迭代求解，实现最优控制目标函数和类驾驶数学模型的自动化更新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自进化非博弈自动驾驶车辆人机共驾方法的流程图；

图2为本发明实施例提供的一种自进化非博弈自动驾驶车辆人机共驾方法的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本发明实施例1提供一种自进化非博弈自动驾驶车辆人机共驾方法，如图1和图2所示，所述方法包括如下步骤：

步骤101，获取车辆行驶状态。

步骤102，根据所述车辆行驶状态，采用求解最优控制目标函数的方式，确定自动驾驶控制量；所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数。

最优控制目标函数为：

；

举例来说，以具备和驾驶员协同驾驶功能的车辆为控制对象，驾驶任务为轨迹跟踪，轮胎力的三自由度单轨模型，其中，为车辆行驶状态，/>为/>的导数，/>为车辆的控制量，/>为三自由度单轨模型的函数形式，具体参数如表1所示：

表1 三自由度单轨模型参数表

步骤103，将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型，确定自动驾驶控制量的品质和驾驶员给出的控制量的品质；所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得，所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数。

本发明实施例中从驾驶数据中学习类驾驶风格，得到最优控制目标函数及类驾驶数学模型，具体为：

S11、类风格驾驶模型学习，包括类驾驶数学模型和类风格学习函数/>，及上述的最优控制目标函数。其中，/>为车辆行驶状态，包括但不限于速度、加速度、横向位置、航向角、横摆角速度、相对速度、相对距离、相对航向角等；/>为车辆的控制量，如纵向加速度、前轮转角等；/>和/>为状态惩罚矩阵和控制量惩罚矩阵，/>和/>均为稠密矩阵，矩阵维数分别为状态维数/>状态维数和控制量维数/>控制量维数，每一维元素的初始值都不为0，通过自动学习来更新矩阵中每一个元素，其意义为通过从驾驶数据学习自动判断哪些状态量和动作量是应该核心关注的变量；为车辆在驾驶员给出的控制量控制下的轨迹；/>为车辆在自动驾驶控制量控制下的轨迹；/>为惩罚矩阵参数变量，即类驾驶数学模型中的待学习变量，即/>和/>。/>基于驾驶数据库中驾驶员驾驶数据获得，/>基于自动驾驶系统输出的状态（控制量）和控制轨迹获得。

和/>的具体形式为：

其中，、/>、/>、/>、/>分别为对状态/>、/>、/>、/>、/>的惩罚系数，/>、、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数，/>、/>、/>、分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数，/>、/>、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数，/>、/>、/>、/>分别为对/>与/>、/>、/>、的交叉项的惩罚系数，/>、/>、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数。

和/>分别为对控制量/>和/>的惩罚系数，/>为对/>与/>的交叉项的惩罚系数，/>为对/>与/>的交叉项的惩罚系数。

S12、类风格学习函数用于表示的是类驾驶模型和驾驶员的轨迹吻合程度，可以但不限于用最小二乘距离表示；学习得到的类驾驶数学模型，可以用其作为最优控制问题的效用函数，通过求解最优控制问题得到自动驾驶系统的控制量。类驾驶数学模型的/>和/>通过交替迭代类风格学习函数和求解最优控制问题进行更新，/>，实现/>和/>的更新，直到收敛。/>的求解可以为数值解也可以为解析解，参数含义如表2所示。

表2 类风格学习函数参数表

步骤104，基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值。

驾驶员通过感官感知环境信息后，做出相应的驾驶行为；同时自动驾驶系统通过传感器感知环境信息做出决策与控制，将二者进行加权，得到控制量。其初始权值的计算方式为：设驾驶员的权值为，自动驾驶系统的权值为/>，/>，，/>，其中，/>和/>通过将自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型/>计算得到，表征了自动驾驶控制量的品质和驾驶员给出的控制量的品质。一般情况下，初始权值/>，随着自动驾驶系统不断地自进化，/>。

步骤105，根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值，对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和，获得融合控制量。

步骤106，基于所述融合控制量对车辆进行控制。

本发明实施例的技术方案中，记录下车辆在人机共驾状态下的行驶状态和控制指令（自动驾驶控制量和驾驶员给出的控制量），该行驶状态和控制指令形成的控制轨迹为考虑了驾驶员的驾驶行为，具备完成驾驶任务的特征，将该行驶状态和控制轨迹回传至驾驶数据库，供自动驾驶系统学习类驾驶模型，实现自进化。

实施例2

本发明实施例2提供一种自进化非博弈自动驾驶车辆人机共驾系统，所述系统应用于上述的方法，所述系统包括：

行驶状态获取模块，用于获取车辆行驶状态。

自动驾驶控制量确定模块，用于根据所述车辆行驶状态，采用求解最优控制目标函数的方式，确定自动驾驶控制量；所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数。

控制量品质计算模块，用于将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型，确定自动驾驶控制量的品质和驾驶员给出的控制量的品质；所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得，所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数。

权值计算模块，用于基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值。

控制量加权模块，用于根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值，对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和，获得融合控制量。

控制模块，用于基于所述融合控制量对车辆进行控制。

实施例3

本发明实施例3提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

实施例4

本发明实施例4提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现上述的方法。该存储介质为包括指令的存储器，上述指令可由终端中的处理器执行以完成上述方法。例如，该存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明实施例提供的技术方案带来的有益效果至少包括：

能够解决在驾驶员和自动驾驶系统同时控制自动驾驶车辆时，避免出现驾驶博弈，实现良好的控制性能，且该方法能够实现自动驾驶系统控制策略（最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵）的自进化更新，达到越开越好的效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自进化非博弈自动驾驶车辆人机共驾方法，其特征在于，所述方法包括如下步骤：

获取车辆行驶状态；

基于所述融合控制量对车辆进行控制，并将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹，对所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵通过对类风格学习函数进行再次迭代求解；

所述最优控制目标函数为：

；

其中，为最优控制目标函数，/>为当前时刻t之后的第i个虚拟时间步的目标状态，为当前时刻t之后的第i个虚拟时间步的车辆行驶状态，/>根据当前时刻t之后的第i-1个虚拟时间步的车辆行驶状态和自动驾驶控制量采用三自由度单轨模型计算获得，/>为当前时刻t之后的第i个虚拟时间步的自动驾驶控制量，/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵，/>表示相邻两个时刻之间虚拟时间步的数量，上标T表示转置；

类风格学习函数为：；

其中，为类风格学习函数，/>为车辆在自动驾驶控制量控制下的轨迹，/>为车辆在驾驶员给出的控制量控制下的轨迹，/>为惩罚矩阵参数变量；

所述类驾驶数学模型为：

；

2.根据权利要求1所述的自进化非博弈自动驾驶车辆人机共驾方法，其特征在于，对类风格学习函数进行迭代求解，具体包括：

其中，和/>分别为第k+1次迭代和第k次迭代获得的惩罚矩阵，所述惩罚矩阵包括状态惩罚矩阵和控制量惩罚矩阵，/>为更新步长；在迭代求解的过程中，根据采用求解最优控制目标函数的方式确定的自动驾驶控制量对/>进行更新，根据驾驶员给出的控制量对/>进行更新。

3.根据权利要求1所述的自进化非博弈自动驾驶车辆人机共驾方法，其特征在于，所述基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质，计算自动驾驶控制量的权值和驾驶员给出的控制量的权值，具体包括：

其中，和/>分别表示自动驾驶控制量的权值和驾驶员给出的控制量的权值，/>和/>分别表示自动驾驶控制量的品质和驾驶员给出的控制量的品质。

4.一种自进化非博弈自动驾驶车辆人机共驾系统，其特征在于，所述系统应用于权利要求1-3任一项所述的方法，所述系统包括：

行驶状态获取模块，用于获取车辆行驶状态；

控制模块，用于基于所述融合控制量对车辆进行控制，并将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹，对所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵通过对类风格学习函数进行再次迭代求解。

5.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现如权利要求1至3中任一项所述的方法。