CN116495014B - 一种自进化非博弈自动驾驶车辆人机共驾方法及系统 - Google Patents

一种自进化非博弈自动驾驶车辆人机共驾方法及系统 Download PDF

Info

Publication number
CN116495014B
CN116495014B CN202310768987.0A CN202310768987A CN116495014B CN 116495014 B CN116495014 B CN 116495014B CN 202310768987 A CN202310768987 A CN 202310768987A CN 116495014 B CN116495014 B CN 116495014B
Authority
CN
China
Prior art keywords
control
control quantity
automatic driving
driver
driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310768987.0A
Other languages
English (en)
Other versions
CN116495014A (zh
Inventor
刘辉
张发旺
陈宏宽
段京良
郭丛帅
聂士达
韩立金
谢雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310768987.0A priority Critical patent/CN116495014B/zh
Publication of CN116495014A publication Critical patent/CN116495014A/zh
Application granted granted Critical
Publication of CN116495014B publication Critical patent/CN116495014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种自进化非博弈自动驾驶车辆人机共驾方法及系统,属于车辆的智能控制技术领域。所述方法采用基于类风格学习函数进行迭代求解的方式实现对驾驶员风格的学习,并进一步的基于最优控制目标函数进行自动驾驶控制量的输出,并基于类驾驶数学模型进行人机控制量的融合,减小了驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异,克服了人机共驾技术在车辆行驶过程中存在驾驶博弈的问题,本发明还将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹,对最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵进行再次迭代求解,实现最优控制目标函数和类驾驶数学模型的自动化更新。

Description

一种自进化非博弈自动驾驶车辆人机共驾方法及系统
技术领域
本发明涉及车辆的智能控制技术领域,特别是涉及一种自进化非博弈自动驾驶车辆人机共驾方法及系统。
背景技术
车辆的智能控制技术是智能化汽车的核心体现,人机共驾是非常实用的L2级自动驾驶功能,通过人机共驾,将部分驾驶任务交给自动驾驶系统,可以减轻驾驶员疲劳和提升驾驶舒适性。然而,目前许多人机共驾系统存在的问题为:驾驶员(人)的驾驶风格和自动驾驶系统(机)输出的控制量的驾驶风格存在太大的差异,导致在车辆行驶过程中存在驾驶博弈的问题。
发明内容
本发明的目的是提供一种自进化非博弈自动驾驶车辆人机共驾方法及系统,以减小驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异,克服人机共驾技术在车辆行驶过程中存在驾驶博弈的问题。
为实现上述目的,本发明提供了如下方案:
本发明提供一种自进化非博弈自动驾驶车辆人机共驾方法,所述方法包括如下步骤:
获取车辆行驶状态;
根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数;
将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数;
基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值;
根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量;
基于所述融合控制量对车辆进行控制,并将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹,对所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵通过对类风格学习函数进行再次迭代求解。
可选的,所述最优控制目标函数为:
其中,为最优控制目标函数,/>为当前时刻t之后的第i个虚拟时间步的目标状态,/>为当前时刻t之后的第i个虚拟时间步的车辆行驶状态,/>根据当前时刻t之后的第i-1个虚拟时间步的车辆行驶状态和自动驾驶控制量采用三自由度单轨模型计算获得,/>,/>为车辆上设置的传感器系统采集的当前时刻t的车辆行驶状态,/>为当前时刻t之后的第i个虚拟时间步的自动驾驶控制量,/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵,/>表示相邻两个时刻之间虚拟时间步的数量,上标T表示转置。
可选的,对类风格学习函数进行迭代求解,具体包括:
对最优控制目标函数、类风格学习函数及公式进行迭代求解,直到/>的值收敛,获得状态惩罚矩阵和控制量惩罚矩阵;
其中,和/>分别为第k+1次迭代和第k次迭代获得的惩罚矩阵,/>为惩罚矩阵参数变量,所述惩罚矩阵包括状态惩罚矩阵和控制量惩罚矩阵,/>为更新步长,/>为类风格学习函数,/>为车辆在自动驾驶控制量控制下的轨迹,/>为车辆在驾驶员给出的控制量控制下的轨迹;在迭代求解的过程中,根据采用求解最优控制目标函数的方式确定的自动驾驶控制量对/>进行更新,根据驾驶员给出的控制量对/>进行更新。
可选的,所述类驾驶数学模型为:
其中,表示控制量的品质,/>表示车辆行驶状态,/>表示控制量,/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵,上标T表示转置。
可选的,所述基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值,具体包括:
基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值为:
基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算驾驶员给出的控制量的权值为:
其中,和/>分别表示自动驾驶控制量的权值和驾驶员给出的控制量的权值,和/>分别表示自动驾驶控制量的品质和驾驶员给出的控制量的品质。
一种自进化非博弈自动驾驶车辆人机共驾系统,所述系统应用于上述的方法,所述系统包括:
行驶状态获取模块,用于获取车辆行驶状态;
自动驾驶控制量确定模块,用于根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数;
控制量品质计算模块,用于将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数;
权值计算模块,用于基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值;
控制量加权模块,用于根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量;
控制模块,用于基于所述融合控制量对车辆进行控制。
一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被执行时实现上述的方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例提供一种自进化非博弈自动驾驶车辆人机共驾方法及系统,所述方法包括如下步骤:获取车辆行驶状态;根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数;基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值;根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量;基于所述融合控制量对车辆进行控制。本发明采用基于类风格学习函数进行迭代求解的方式确定最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵,以实现对驾驶员风格的学习,并进一步的基于最优控制目标函数进行自动驾驶控制量的输出,并基于类驾驶数学模型进行人机控制量的融合,减小了驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异,克服了人机共驾技术在车辆行驶过程中存在驾驶博弈的问题,本发明还将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹,对最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵进行再次迭代求解,实现最优控制目标函数和类驾驶数学模型的自动化更新。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自进化非博弈自动驾驶车辆人机共驾方法的流程图;
图2为本发明实施例提供的一种自进化非博弈自动驾驶车辆人机共驾方法的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种自进化非博弈自动驾驶车辆人机共驾方法及系统,以减小驾驶员的驾驶风格和自动驾驶系统输出的控制量的驾驶风格的差异,克服人机共驾技术在车辆行驶过程中存在驾驶博弈的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
本发明实施例1提供一种自进化非博弈自动驾驶车辆人机共驾方法,如图1和图2所示,所述方法包括如下步骤:
步骤101,获取车辆行驶状态。
步骤102,根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数。
最优控制目标函数为:
其中,为最优控制目标函数,/>为当前时刻t之后的第i个虚拟时间步的目标状态,/>为当前时刻t之后的第i个虚拟时间步的车辆行驶状态,/>根据当前时刻t之后的第i-1个虚拟时间步的车辆行驶状态和自动驾驶控制量采用三自由度单轨模型计算获得,/>,/>为车辆上设置的传感器系统采集的当前时刻t的车辆行驶状态,/>为当前时刻t之后的第i个虚拟时间步的自动驾驶控制量,/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵,/>表示相邻两个时刻之间虚拟时间步的数量,上标T表示转置。
举例来说,以具备和驾驶员协同驾驶功能的车辆为控制对象,驾驶任务为轨迹跟踪,轮胎力的三自由度单轨模型,其中,为车辆行驶状态,/>为/>的导数,/>为车辆的控制量,/>为三自由度单轨模型的函数形式,具体参数如表1所示:
表1 三自由度单轨模型参数表
步骤103,将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数。
本发明实施例中从驾驶数据中学习类驾驶风格,得到最优控制目标函数及类驾驶数学模型,具体为:
S11、类风格驾驶模型学习,包括类驾驶数学模型和类风格学习函数/>,及上述的最优控制目标函数。其中,/>为车辆行驶状态,包括但不限于速度、加速度、横向位置、航向角、横摆角速度、相对速度、相对距离、相对航向角等;/>为车辆的控制量,如纵向加速度、前轮转角等;/>和/>为状态惩罚矩阵和控制量惩罚矩阵,/>和/>均为稠密矩阵,矩阵维数分别为状态维数/>状态维数和控制量维数/>控制量维数,每一维元素的初始值都不为0,通过自动学习来更新矩阵中每一个元素,其意义为通过从驾驶数据学习自动判断哪些状态量和动作量是应该核心关注的变量;为车辆在驾驶员给出的控制量控制下的轨迹;/>为车辆在自动驾驶控制量控制下的轨迹;/>为惩罚矩阵参数变量,即类驾驶数学模型中的待学习变量,即/>和/>。/>基于驾驶数据库中驾驶员驾驶数据获得,/>基于自动驾驶系统输出的状态(控制量)和控制轨迹获得。
和/>的具体形式为:
其中,、/>、/>、/>、/>分别为对状态/>、/>、/>、/>、/>的惩罚系数,/>、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数,/>、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数,/>、/>、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数,/>、/>、/>、/>分别为对/>与/>、/>、/>的交叉项的惩罚系数,/>、/>、/>、/>分别为对/>与/>、/>、/>、/>的交叉项的惩罚系数。
和/>分别为对控制量/>和/>的惩罚系数,/>为对/>与/>的交叉项的惩罚系数,/>为对/>与/>的交叉项的惩罚系数。
S12、类风格学习函数用于表示的是类驾驶模型和驾驶员的轨迹吻合程度,可以但不限于用最小二乘距离表示;学习得到的类驾驶数学模型,可以用其作为最优控制问题的效用函数,通过求解最优控制问题得到自动驾驶系统的控制量。类驾驶数学模型的/>和/>通过交替迭代类风格学习函数和求解最优控制问题进行更新,/>,实现/>和/>的更新,直到收敛。/>的求解可以为数值解也可以为解析解,参数含义如表2所示。
表2 类风格学习函数参数表
步骤104,基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值。
驾驶员通过感官感知环境信息后,做出相应的驾驶行为;同时自动驾驶系统通过传感器感知环境信息做出决策与控制,将二者进行加权,得到控制量。其初始权值的计算方式为:设驾驶员的权值为,自动驾驶系统的权值为/>,/>,/>,其中,/>和/>通过将自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型/>计算得到,表征了自动驾驶控制量的品质和驾驶员给出的控制量的品质。一般情况下,初始权值/>,随着自动驾驶系统不断地自进化,/>
步骤105,根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量。
步骤106,基于所述融合控制量对车辆进行控制。
本发明实施例的技术方案中,记录下车辆在人机共驾状态下的行驶状态和控制指令(自动驾驶控制量和驾驶员给出的控制量),该行驶状态和控制指令形成的控制轨迹为考虑了驾驶员的驾驶行为,具备完成驾驶任务的特征,将该行驶状态和控制轨迹回传至驾驶数据库,供自动驾驶系统学习类驾驶模型,实现自进化。
实施例2
本发明实施例2提供一种自进化非博弈自动驾驶车辆人机共驾系统,所述系统应用于上述的方法,所述系统包括:
行驶状态获取模块,用于获取车辆行驶状态。
自动驾驶控制量确定模块,用于根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数。
控制量品质计算模块,用于将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数。
权值计算模块,用于基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值。
控制量加权模块,用于根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量。
控制模块,用于基于所述融合控制量对车辆进行控制。
实施例3
本发明实施例3提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
实施例4
本发明实施例4提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被执行时实现上述的方法。该存储介质为包括指令的存储器,上述指令可由终端中的处理器执行以完成上述方法。例如,该存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明实施例提供的技术方案带来的有益效果至少包括:
能够解决在驾驶员和自动驾驶系统同时控制自动驾驶车辆时,避免出现驾驶博弈,实现良好的控制性能,且该方法能够实现自动驾驶系统控制策略(最优控制目标函数和类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵)的自进化更新,达到越开越好的效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种自进化非博弈自动驾驶车辆人机共驾方法,其特征在于,所述方法包括如下步骤:
获取车辆行驶状态;
根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数;
将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数;
基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值;
根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量;
基于所述融合控制量对车辆进行控制,并将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹,对所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵通过对类风格学习函数进行再次迭代求解;
所述最优控制目标函数为:
其中,为最优控制目标函数,/>为当前时刻t之后的第i个虚拟时间步的目标状态,为当前时刻t之后的第i个虚拟时间步的车辆行驶状态,/>根据当前时刻t之后的第i-1个虚拟时间步的车辆行驶状态和自动驾驶控制量采用三自由度单轨模型计算获得,/>为当前时刻t之后的第i个虚拟时间步的自动驾驶控制量,/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵,/>表示相邻两个时刻之间虚拟时间步的数量,上标T表示转置;
类风格学习函数为:
其中,为类风格学习函数,/>为车辆在自动驾驶控制量控制下的轨迹,/>为车辆在驾驶员给出的控制量控制下的轨迹,/>为惩罚矩阵参数变量;
所述类驾驶数学模型为:
其中,表示控制量的品质,/>表示车辆行驶状态,/>表示控制量,/>和/>分别为状态惩罚矩阵和控制量惩罚矩阵,上标T表示转置。
2.根据权利要求1所述的自进化非博弈自动驾驶车辆人机共驾方法,其特征在于,对类风格学习函数进行迭代求解,具体包括:
对最优控制目标函数、类风格学习函数及公式进行迭代求解,直到/>的值收敛,获得状态惩罚矩阵和控制量惩罚矩阵;
其中,和/>分别为第k+1次迭代和第k次迭代获得的惩罚矩阵,所述惩罚矩阵包括状态惩罚矩阵和控制量惩罚矩阵,/>为更新步长;在迭代求解的过程中,根据采用求解最优控制目标函数的方式确定的自动驾驶控制量对/>进行更新,根据驾驶员给出的控制量对/>进行更新。
3.根据权利要求1所述的自进化非博弈自动驾驶车辆人机共驾方法,其特征在于,所述基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值,具体包括:
基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值为:
基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算驾驶员给出的控制量的权值为:
其中,和/>分别表示自动驾驶控制量的权值和驾驶员给出的控制量的权值,/>和/>分别表示自动驾驶控制量的品质和驾驶员给出的控制量的品质。
4.一种自进化非博弈自动驾驶车辆人机共驾系统,其特征在于,所述系统应用于权利要求1-3任一项所述的方法,所述系统包括:
行驶状态获取模块,用于获取车辆行驶状态;
自动驾驶控制量确定模块,用于根据所述车辆行驶状态,采用求解最优控制目标函数的方式,确定自动驾驶控制量;所述最优控制目标函数为使车辆行驶状态与目标状态的差值最小化的目标函数;
控制量品质计算模块,用于将所述自动驾驶控制量和驾驶员给出的控制量分别输入类驾驶数学模型,确定自动驾驶控制量的品质和驾驶员给出的控制量的品质;所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵均通过对类风格学习函数进行迭代求解获得,所述类风格学习函数为表征车辆在自动驾驶控制量控制下的轨迹与在驾驶员给出的控制量控制下的轨迹的偏差的函数;
权值计算模块,用于基于自动驾驶控制量的品质和所述驾驶员给出的控制量的品质,计算自动驾驶控制量的权值和驾驶员给出的控制量的权值;
控制量加权模块,用于根据所述自动驾驶控制量的权值和所述驾驶员给出的控制量的权值,对所述自动驾驶控制量和所述驾驶员给出的控制量进行加权求和,获得融合控制量;
控制模块,用于基于所述融合控制量对车辆进行控制,并将车辆行驶状态形成的轨迹作为车辆在驾驶员给出的控制量控制下的轨迹,对所述最优控制目标函数和所述类驾驶数学模型中的状态惩罚矩阵和控制量惩罚矩阵通过对类风格学习函数进行再次迭代求解。
5.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被执行时实现如权利要求1至3中任一项所述的方法。
CN202310768987.0A 2023-06-28 2023-06-28 一种自进化非博弈自动驾驶车辆人机共驾方法及系统 Active CN116495014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310768987.0A CN116495014B (zh) 2023-06-28 2023-06-28 一种自进化非博弈自动驾驶车辆人机共驾方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310768987.0A CN116495014B (zh) 2023-06-28 2023-06-28 一种自进化非博弈自动驾驶车辆人机共驾方法及系统

Publications (2)

Publication Number Publication Date
CN116495014A CN116495014A (zh) 2023-07-28
CN116495014B true CN116495014B (zh) 2023-09-01

Family

ID=87330538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310768987.0A Active CN116495014B (zh) 2023-06-28 2023-06-28 一种自进化非博弈自动驾驶车辆人机共驾方法及系统

Country Status (1)

Country Link
CN (1) CN116495014B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116923458B (zh) * 2023-09-18 2023-12-01 宁波均联智行科技股份有限公司 一种车辆驾驶控制方法、装置及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107804315A (zh) * 2017-11-07 2018-03-16 吉林大学 一种考虑驾驶权实时分配的人车协同转向控制方法
CN108454628A (zh) * 2018-04-17 2018-08-28 吉林大学 一种驾驶员在环的人车协同转向滚动优化控制方法
CN109866772A (zh) * 2019-01-28 2019-06-11 重庆邮电大学 一种智能车辆人-机协同驾驶的变结构控制方法
CN110949407A (zh) * 2019-12-25 2020-04-03 清华大学 基于驾驶员实时风险响应的动态人机共驾驾驶权分配方法
CN114291109A (zh) * 2021-12-17 2022-04-08 广东机电职业技术学院 一种共享驾驶冲突解决方法、系统和计算机设备
CN115923845A (zh) * 2023-01-09 2023-04-07 北京科技大学 自动驾驶车辆前向避撞场景下干预型共享控制方法及装置
CN115993826A (zh) * 2023-01-09 2023-04-21 大连理工大学 一种针对智能体的自适应最优合作博弈控制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11643010B2 (en) * 2019-07-25 2023-05-09 International Business Machines Corporation Vehicle driver and autonomous system collaboration
CN113076641B (zh) * 2021-03-31 2022-09-20 同济大学 基于风险评估的智能车人机协同转向控制并行计算方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107804315A (zh) * 2017-11-07 2018-03-16 吉林大学 一种考虑驾驶权实时分配的人车协同转向控制方法
CN108454628A (zh) * 2018-04-17 2018-08-28 吉林大学 一种驾驶员在环的人车协同转向滚动优化控制方法
CN109866772A (zh) * 2019-01-28 2019-06-11 重庆邮电大学 一种智能车辆人-机协同驾驶的变结构控制方法
CN110949407A (zh) * 2019-12-25 2020-04-03 清华大学 基于驾驶员实时风险响应的动态人机共驾驾驶权分配方法
CN114291109A (zh) * 2021-12-17 2022-04-08 广东机电职业技术学院 一种共享驾驶冲突解决方法、系统和计算机设备
CN115923845A (zh) * 2023-01-09 2023-04-07 北京科技大学 自动驾驶车辆前向避撞场景下干预型共享控制方法及装置
CN115993826A (zh) * 2023-01-09 2023-04-21 大连理工大学 一种针对智能体的自适应最优合作博弈控制方法

Also Published As

Publication number Publication date
CN116495014A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN111483468B (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN105741637B (zh) 四轮轮毂电机电动汽车智能转向控制方法
CN111332362B (zh) 一种融合驾驶员个性的智能线控转向控制方法
CN116495014B (zh) 一种自进化非博弈自动驾驶车辆人机共驾方法及系统
Wu et al. Deep reinforcement learning on autonomous driving policy with auxiliary critic network
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
CN107132840B (zh) 一种越野电驱动无人车辆纵/横/垂拟人化协同控制方法
CN112677982B (zh) 基于驾驶员特性的车辆纵向速度规划方法
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN113126623A (zh) 一种考虑输入饱和的自适应动态滑模自动驾驶车辆路径跟踪控制方法
CN114859905A (zh) 一种基于人工势场法和强化学习的局部路径规划方法
CN114852105A (zh) 一种自动驾驶车辆换道轨迹规划方法及系统
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Villagrá et al. Model-free control techniques for Stop & Go systems
CN117227834B (zh) 一种特种车辆人机协同转向控制方法
CN113033902B (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN114839992A (zh) 一种基于多智能体强化学习的自动驾驶协同决策方法
CN111857112B (zh) 一种汽车局部路径规划方法及电子设备
Liu et al. Personalized Automatic Driving System Based on Reinforcement Learning Technology
CN112904864B (zh) 基于深度强化学习的自动驾驶方法和系统
CN115384615B (zh) 一种考虑驾驶风格的线控转向系统路感控制方法
CN114815811B (zh) 无人车轨迹规划方法
CN117455004A (zh) 一种车辆自动驾驶模型的智能学习方法及装置
Wang et al. Fast Solution of Adaptive Dynamic Programming for Intelligent Vehicle Predictive Controller

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant