CN116300850A - 基于数据机理融合的自动驾驶类人安全自进化方法和系统 - Google Patents

基于数据机理融合的自动驾驶类人安全自进化方法和系统 Download PDF

Info

Publication number
CN116300850A
CN116300850A CN202211100337.0A CN202211100337A CN116300850A CN 116300850 A CN116300850 A CN 116300850A CN 202211100337 A CN202211100337 A CN 202211100337A CN 116300850 A CN116300850 A CN 116300850A
Authority
CN
China
Prior art keywords
vehicle
value
constraint
personification
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211100337.0A
Other languages
English (en)
Inventor
陈虹
赵治玮
黄岩军
袁康
杨硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202211100337.0A priority Critical patent/CN116300850A/zh
Publication of CN116300850A publication Critical patent/CN116300850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于数据机理融合的自动驾驶类人安全自进化方法和系统,方法包括:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从经验回访池抽取数据,对Q价值神经网络进行迭代更新,获取拟人化约束;建立车辆模型,并代入当前时刻的环境信息,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。与现有技术相比,本发明使得自动驾驶汽车具有自学习性和适应性,能实现安全、高效、舒适地驾驶。

Description

基于数据机理融合的自动驾驶类人安全自进化方法和系统
技术领域
本发明涉及自动驾驶汽车技术领域,尤其是涉及基于数据机理融合的自动驾驶类人安全自进化方法和系统。
背景技术
自动驾驶汽车技术发展日新月异,感知、决策、规划、控制的分层式结构成为当前商业化自动驾驶汽车的主流。然而,由于层与层之间的信息传递存在不充分性、高时延性,分层式的架构往往会出现功能衔接的制约,例如车辆执行器能力限制导致的不完全规划轨迹跟随问题,以及高时变环境下决策延迟导致的规划失效问题。因此,设计决策规划控制一体化框架逐渐成为本领域的研究热点。除此之外,人类司机和自动驾驶司机的混合交通环境对自动驾驶提出了更高的要求:自动驾驶功能需要符合人类司机的驾驶习惯,风格需要与人类司机保持一致,这对混合车流下人类司机/自动驾驶司机在高交互性环境中对周围车辆的行为判断是至关重要的。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于数据机理融合的自动驾驶类人安全自进化方法和系统,使得自动驾驶汽车具有自学习性和适应性。
本发明的目的可以通过以下技术方案来实现:
一种基于数据机理融合的自动驾驶类人安全自进化方法,包括以下步骤:
拟人化目标函数学习步骤:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;迭代过程中,通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数;
拟人化约束学习步骤:实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从所述经验回访池抽取数据,对Q价值神经网络进行迭代更新,采用更新好的Q价值神经网络获取拟人化约束;
连续决策规划控制步骤:建立车辆模型,并代入当前时刻的环境信息,通过所述拟人化目标函数学习步骤得到拟人化目标函数,通过所述拟人化约束学习步骤得到拟人化约束,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。
进一步地,所述拟人化目标函数学习步骤具体为:
假设一个离散的时间系统具有有限的时间长度L,通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ:
ζ=[s1,a1,s2,a2…sL,aL]
所述历史经验数据为包含N条轨迹的人类驾驶数据集:
D={ζ12,…,ζN}
进行轨迹评估时选择线性结构的奖励函数,这种奖励函数是选择的轨迹特征的加权和:
r(st)=θTf(st)
式中,r(st)为t时刻的奖励,θ为奖励权重,f(st)为t时刻的轨迹特征;
将轨迹ζ的奖励R(ζ)表示为:
Figure BDA0003838492800000021
根据最大熵逆强化学习,每条轨迹的概率表示为:
Figure BDA0003838492800000022
式中,P(ζ|θ)为对于轨迹ζ在奖励权重θ时的概率,Z(θ)为奖励权重θ时的配分函数;
所述最大熵逆强化学习算法通过调整奖励权重θ来最大化轨迹分布中专家演示的可能性;从而迭代提取出与该驾驶员决策习惯和规划习惯的目标函数。
进一步地,将驾驶员的换道过程离散化,在轨迹生成的过程中生成了有限数量的换道策略轨迹来近似配分函数,所述配分函数的表达式为:
Figure BDA0003838492800000031
式中,
Figure BDA0003838492800000032
为第i个换道策略轨迹,M为换道策略轨迹的总数;
所述最大熵逆强化学习的目标函数为
Figure BDA0003838492800000033
式中,j(θ)为奖励权重θ时的最大熵逆强化学习的目标函数。
进一步地,所述轨迹特征包括效率特征、舒适特征、风险特征、交互特征和决策特征,所述效率特征的表达式为:
fefficient(st)=v(t)
所述舒适特征的表达式为:
fcomfort,ax(st)=|ax(t)|
fcomfort,ay(st)=|ay(t)|
Figure BDA0003838492800000034
Figure BDA0003838492800000035
所述风险特征的表达式为:
Figure BDA0003838492800000036
Figure BDA0003838492800000037
Figure BDA0003838492800000038
所述交互特征的表达式为:
Figure BDA0003838492800000039
当ai(t)<0
所述决策特征的表达式为:
ffollow,x(st)=|s(t)-sref(t)|
ffollow,y(st)=|l(t)-lref(t)|
式中,v(t)、ax(t)、ay(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度,xfront(t)为距本车最近前车的纵向位置,xrear(t)为距本车最近后车的纵向位置,ai(t)为被自车行动影响的第i辆环境车辆的减速度,sref(t)和lref(t)为参考轨迹。
进一步地,所述Q价值神经网络的迭代更新过程具体为:
选取状态s和动作a,通过Q价值神经网络计算Q(s,a),选取位置、速度和转角约束输出给MPC进行求解,并获取下一时刻系统状态s’和奖励R,从而对Q价值神经网络的权重进行梯度更新。
进一步地,所述Q价值神经网络包括值函数网络和目标值函数网络,对对Q价值神经网络的权重进行梯度更新过程包括:从经验回放池中随机抽取N个数据(s,a,R,s’),判断是否达到终点,若已到达,则目标值函数网络的估计价值targetQ=R,否则targetQ=R+γmaxa′Q,其中,γ为折扣因子,随着轨迹延长逐步衰减。maxa′Q为当前值函数网络中最大的Q值,其值在动作为a′时取得;
计算均方误差损失Loss(θ)=E[(targetQ-Q)2],初始化值函数网络Q和目标值函数网络targetQ,根据均方误差损失从而更新值函数网络Q的参数,而targetQ则固定不变,在经过多次迭代之后,将值函数网络的参数全部复制给目标值函数网络,并一直如此循环迭代,实现算法更新。
进一步地,所述状态s的选择范围为:
s=[s l vx vy Δsfront Δsrear Δlright Δlleft Δvx,front Δvx,rear]
式中,s,l为车辆在Frenet坐标系下的纵向位移和横向位移,vx,vy为自车速度,Δsfront,Δsrear,Δlright,Δlleft为自车与最近的前后左右周车的相对距离,Δvx,frontΔvx,rear为自车与最近前后周车的相对速度;
所述动作a的选择范围为:
a=[Δsmax Δsmin Δvmax Δvminmin δmax]
式中,其中Δsmax Δsmin为输入给MPC的位置约束,其值代表了下一时刻相比当前时刻的最大/最小自车位置差,Δvmax Δvmin为车辆速度约束,代表下一时刻速度增量的限值,δmin δmax代表了下一时刻车辆执行器转角的限值。
进一步地,所述车辆模型的纵向运动学模型为:
Figure BDA0003838492800000041
Figure BDA0003838492800000042
其中,s(t)为车辆在Frenet坐标系下的纵向位移,l(s)为s处横向位移,κ(s)为道路在s点处的曲率;
Figure BDA0003838492800000043
为车辆在Frenet坐标系下的纵向速度;vx(t)、ax(t)分别为自车坐标系下的纵向速度、加速度,/>
Figure BDA0003838492800000044
为自车相对于道路的横摆角,/>
Figure BDA0003838492800000045
为自车坐标系下的加速度;
所述车辆模型的横向动力学模型为:
Figure BDA0003838492800000051
Figure BDA0003838492800000052
Figure BDA0003838492800000053
Figure BDA0003838492800000054
式中,
Figure BDA0003838492800000055
为自车相对于道路的横摆角,r表示自车在重心处的横摆角速度,lf和lr表示重心到前轴和后轴的距离,Cf和Cr表示前、后轮轮胎侧偏刚度,m代表整车质量,Izz为车辆绕z轴的转动惯量;
所述连续决策规划控制步骤中,选取状态变量和动作变量,根据拟人化目标函数和拟人化约束构建纵向目标函数和横向目标函数,所述纵向目标函数的表达式为:
Figure BDA0003838492800000056
所述纵向目标函数对应的约束为:
Figure BDA0003838492800000057
Figure BDA0003838492800000058
Figure BDA0003838492800000059
Figure BDA00038384928000000510
式中,sx,min和sx,max,vx,min和vx,max的值通过拟人化约束学习步骤获得,其值为当前时刻值加上拟人化约束学习步骤得到的位置差和速度差约束,ax,min,ax,max是由车辆执行器能力决定的常数值;
所述横向目标函数的表达式为:
Figure BDA00038384928000000511
所述横向目标函数对应的约束为:
Figure BDA0003838492800000061
Figure BDA0003838492800000062
Figure BDA0003838492800000063
式中,
Figure BDA0003838492800000064
和/>
Figure BDA0003838492800000065
值通过拟人化约束学习步骤获得,
Figure BDA0003838492800000066
是由车辆执行器能力决定的常数值。
进一步地,所述连续决策规划控制步骤中,加入决策指令参考曲线系数作为连续决策参考,所述连续决策参考对纵向目标函数的输入值sref(t)的表达式为:
sref(t)=a0+a1t+a2t2+a3t3+a4t4+a5t5
式中,t为时间值,a0、a1、a2、a3、a4和a5均为多项式系数;
所述连续决策参考对横向目标函数的输入值lref(t)的表达式为:
lref(t)=b0+b1t+b2t2+b3t3+b4t4+b5t5
式中,b0、b1、b2、b3、b4和b5均为多项式系数。
本发明还提供一种基于上所述的一种基于数据机理融合的自动驾驶类人安全自进化方法的系统,包括:
拟人化目标函数学习模块,用于执行所述拟人化目标函数学习步骤;
拟人化约束学习模块,用于执行所述拟人化约束学习步骤;
连续决策规划控制模块,用于执行所述连续决策规划控制步骤。
与现有技术相比,本发明具有以下优点:
本发明提出一种基于数据机理融合的自动驾驶类人安全自进化框架,采用决策规划控制一体化的结构,在机理模型满足安全的前提下,尽可能从经验数据中模拟人类的驾驶策略,并实现在数据流输入过程中自动更新对驾驶习惯的调整。该发明使用了带约束的模型预测控制机理(MPC)框架,确保复杂场景下驾驶的安全性;同时结合逆强化学习算法、强化学习算法不断模拟调整驾驶员潜在的奖励函数和约束,使得自动驾驶汽车具有自学习性和适应性。
本发明采用数据机理融合的方式,使自动驾驶车辆能从真实驾驶经验提取拟人化的驾驶策略,使汽车在复杂多变的交通环境中模仿个性化的驾驶行为,实现安全、高效、舒适地驾驶。
附图说明
图1为本发明实施例中提供的一种基于数据机理融合的自动驾驶类人安全自进化系统的处理流程示意图;
图2为本发明实施例中提供的一种基于IRL-MPC的拟人化目标函数学习流程图;
图3为本发明实施例中提供的一种基于DQN-MPC的拟人化约束学习流程图;
图4为本发明实施例中提供的一种基于MPC的连续决策规划控制一体化流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例1
本实施例提供一种基于数据机理融合的自动驾驶类人安全自进化方法,包括以下步骤:
拟人化目标函数学习步骤:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;迭代过程中,通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数;
拟人化约束学习步骤:实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从所述经验回访池抽取数据,对Q价值神经网络进行迭代更新,采用更新好的Q价值神经网络获取拟人化约束;
连续决策规划控制步骤:建立车辆模型,并代入当前时刻的环境信息,通过所述拟人化目标函数学习步骤得到拟人化目标函数,通过所述拟人化约束学习步骤得到拟人化约束,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。
具体地,本方案以模型预测控制思想为基础,整体描述为由模型、约束和目标函数三个部分组成的综合优化问题。该框架的输入为当前时刻的环境信息,输出为被控自动驾驶车辆的方向盘转角以及纵向加速度。方法流程分为三个步骤:
步骤1,构建基于逆强化学习和模型预测控制(IRL-MPC)的自学习目标函数算法。通过使用最大熵逆强化学习算法,从真实数据中提取出代表该驾驶员决策习惯和规划习惯的目标函数。在对目标函数迭代的过程中,MPC通过改变控制时域内动作的取值生成大量曲线簇,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实驾驶轨迹特征分布最为相似的轨迹以及其对应的目标函数。
步骤2,构建基于强化学习的自学习约束算法。通过建立DQN网络和经验回访池,并采用ε-greedy原则选择Q值最大的动作输出给MPC,作为位置、速度和执行器约束。
步骤3,建立基于模型预测控制的连续决策、规划、控制一体化模型框架。为了将决策部分引入整体框架中,本发明在模型构建的动作空间和状态空间中引入车辆行驶曲线多项式系数代表决策变量,从而进行连续决策。同时,结合步骤1中目标函数以及步骤2中的约束,进而实现从真实驾驶数据中同时模仿该驾驶员决策逻辑和规划线路的目的。
其中,步骤1提及的IRL-MPC的自学习拟人化目标函数算法的整体逻辑如下。
首先随机初始化奖励参数即奖励函数权重,计算真实数据集中人类司机驾驶轨迹的特征期望。对于演示数据提供的每个驾驶场景,使用MPC算法生成一组候选轨迹,在环境模型中进行仿真,得到每条候选轨迹的特征向量。对于一个确定的驾驶场景,所生成的候选轨迹空间的大小由动作空间和控制时域的大小决定。当完成候选轨迹生成后,开始计算梯度,并使用梯度上升法迭代更新奖励参数,使生成的候选轨迹的特征期望与人的轨迹相匹配。
假设一个离散的时间系统具有有限的时间长度L,通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ:
ζ=[s1,a1,s2,a2…sL,aL]
给定一个包含N条轨迹的人类驾驶数据集:
D={ζ12,…,ζN}
进行轨迹评估时选择线性结构的奖励函数,这种奖励函数是选择的轨迹特征的加权和:
r(st)=θTf(st)
其中轨迹特征f9st)主要按照效率、舒适、风险、交互和决策五个方面进行分类选择,从而反映人类驾驶员在驾驶时的主要考量因素。
效率
fefficient(st)=v(t)
舒适性
fcomfort,ax(st)=|ax(t)|
fcomfort,ay(st)=|ay(t)|
Figure BDA0003838492800000091
Figure BDA0003838492800000092
风险
Figure BDA0003838492800000093
Figure BDA0003838492800000094
Figure BDA0003838492800000095
交互
Figure BDA0003838492800000096
决策性
ffollow,x(st)=|s(t)-sref(t)|
ffollow,y(st)=|l(t)-lref(t)|
其中,v(t)、ax(t)、ay(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度,风险考量因素中xfront(t)为距本车最近前车的纵向位置,xrear(t)为距本车最近后车的纵向位置。由于学习迭代初始策略和真实驾驶策略不同,在自学习初期自车行驶轨迹和真实轨迹存在较大不同,为了保证周车环境的真实性,将车辆与环境车辆的交互因素纳入建模。当自车与环境车辆的距离接近危险边界时,环境车辆会做出交互行动以避免碰撞。这里使用IDM驱动模型预测环境车辆因为自车而导致的动作,ai(t)为被自车行动影响的第i辆环境车辆的减速度。sy,ref
Figure BDA0003838492800000101
为由连续决策给定的参考轨迹,其值由有关换道决策以及道路情况给定,用五次多项式表示。
轨迹ζ的奖励R(ζ)是:
Figure BDA0003838492800000102
根据最大熵逆强化学习,每条轨迹的概率可以表示为:
Figure BDA0003838492800000103
配分函数Z(θ)对于连续的高维空间难以处理,因为它需要对所有可能的轨迹进行积分。本专利将驾驶员的换道过程离散化,在轨迹生成的过程中生成了有限数量的换道策略轨迹
Figure BDA0003838492800000104
来近似配分函数:
Figure BDA0003838492800000105
最大熵逆强化学习的目的是调整奖励权重θ来最大化轨迹分布中专家演示的可能性,则其目标函数为:
Figure BDA0003838492800000106
使用Adam优化算法进行梯度上升法更新迭代求出奖励函数权重θ。
步骤2中基于强化学习的自学习约束算法逻辑如下。
采用DQN强化学习算法用于生成拟人化约束。首先,构建DQN算法模型,其主要由Q价值神经网络和经验回放池构成。其中前者分为值函数网络和目标值函数网络,其网络权重θ在初始化时随机选取,在后续使用梯度下降法更新,另外,还需要设计奖励函数R,值得注意的是奖励函数的设置不能与逆强化学习中的奖励函数相违背,本实施例选取为速度奖励,安全奖励和舒适奖励。
其次,构建由状态s,动作a,奖励R和下一时刻状态s’组成的经验回访池。选取状态s如下,其中s,l为车辆在Frenet坐标系下的纵向位移和横向位移,vx,vy为自车速度,Δsfront,Δsrear,Δlright,Δlleft为自车与最近的前后左右周车的相对距离,Δvx,front Δvx,rear为自车与最近前后周车的相对速度。
s=[s l vx vy Δsfront Δsrear Δlright Δlleft Δvx,front Δvx,rear]
选取动作如下,其中Δsmax Δsmin为输入给MPC的位置约束,其值代表了下一时刻相比当前时刻的最大/最小自车位置差,Δvmax Δvmin为车辆速度约束,代表下一时刻速度增量的限值,δmin δmax代表了下一时刻车辆执行器转角的限值。
a=[Δsmax Δsmin Δvmax Δvminmin δmax]
利用神经网络计算Q(s,a),根据ε-greedy算法选取合适的位置、速度和转角约束输出给MPC,并获取下一时刻系统状态s’和奖励R。
最后,对网络的权重θ进行梯度更新。从经验回放池中随机抽取N个数据(s,a,R,s’),判断是否达到终点,若已到达,则估计价值targetQ=R,否则targetQ=R+γmaxa′Q。为了使得Q(s,a)尽可能接近于targetQ,计算均方误差损失Loss(θ)=E[(targetQ-Q)2]。初始化值函数网络Q和目标值函数网络targetQ,根据损失函数从而更新值函数网络Q的参数,而targetQ则固定不变,在经过多次迭代之后,将Q的参数全部复制给targetQ网络,并一直如此循环迭代。这样一段时间内的targetQ是固定不变的,从而使得算法更新更加稳定。
步骤3中基于模型预测控制的连续决策、规划、控制一体化模型框架建立逻辑如下。
首先为保证曲线道路行驶,在Frenet坐标系下建立横纵向解耦的车辆模型。
纵向运动学模型为:
Figure BDA0003838492800000111
Figure BDA0003838492800000112
其中,s(t)为车辆在Frenet坐标系下的纵向位移,l(s)为s处横向位移,κ(s)为道路在s点处的曲率。
Figure BDA0003838492800000113
为车辆在Frenet坐标系下的纵向速度;vx(t)、ax(t)分别为自车坐标系下的纵向速度、加速度,/>
Figure BDA0003838492800000114
为自车相对于道路的横摆角。
为了将规划和决策一体化,在动作空间中加入决策指令参考曲线系数作为连续决策参考。将决策过程连续化表示为五次多项式,作为规划的参考输入。每个点的坐标为:
sref(t)=a0+a1t+a2t2+a3t3+a4t4+a5t5
选取状态变量xlon=[svx],动作变量为ulon=[axai=0~5],结合步骤1IRL自学习算法得到的拟人化权重系数定义成本函数。其中纵向目标函数选取考虑效率、舒适、风险、交互和决策的纵向相关特征。
Figure BDA0003838492800000121
约束设置为:
Figure BDA0003838492800000122
Figure BDA0003838492800000123
Figure BDA0003838492800000124
Figure BDA0003838492800000125
其中sx,min和sx,max,vx,min和vx,max的值通过步骤2强化学习拟人化约束算法获得,其值为当前时刻值加上DQN算法得到的位置差和速度差约束,ax,min,ax,max是由车辆执行器能力决定的常数值。
横向动力学模型为:
Figure BDA0003838492800000126
Figure BDA0003838492800000127
Figure BDA0003838492800000128
Figure BDA0003838492800000129
其中,
Figure BDA00038384928000001210
为自车相对于道路的横摆角。r表示自车在重心处的横摆角速度,lf和lr表示重心到前轴和后轴的距离,Cf和Cr表示前、后轮轮胎侧偏刚度。m代表整车质量,Izz为车辆绕z轴的转动惯量。
与横向一致,为了将规划和决策一体化,在动作空间中加入参考曲线系数作为连续决策参考。将决策过程连续化表示为五次多项式,作为规划的参考输入。每个点的坐标为:
lref(t)=b0+b1t+b2t2+b3t3+b4t4+b5t5
选取状态变量为
Figure BDA00038384928000001211
动作变量为ulat=[δfbi=0~5]。横向目标函数选取如下。
Figure BDA0003838492800000131
/>
约束设置为:
Figure BDA0003838492800000132
Figure BDA0003838492800000133
Figure BDA0003838492800000134
其中
Figure BDA0003838492800000135
和/>
Figure BDA0003838492800000136
值通过步骤2强化学习拟人化约束算法获得,
Figure BDA0003838492800000137
是由车辆执行器能力决定的常数值。
本实施例还提供一种基于数据机理融合的自动驾驶类人安全自进化系统。该发明使自动驾驶车辆能从真实驾驶经验提取拟人化的驾驶策略,使汽车在复杂多变的交通环境中模仿个性化的驾驶行为,实现安全、高效、舒适地驾驶。其算法框架流程如图1所示,该系统包括了IRL-MPC拟人化目标函数学习模块、DQN-MPC的拟人化约束学习模块,并结合两个模块构建了决策规划控制一体化自进化算法。其中,模块一(IRL-MPC算法)为模块三(决策规划控制一体化自进化算法)提供了拟人化目标函数的部分权重,模块二(DQN-MPC算法)为模块三提供了约束参数。
IRL-MPC拟人化目标函数学习模块如图2所示,该模块由候选轨迹采样评估和梯度迭代两个部分构成。第一步,提取真实人类驾驶数据中特征;第二步,使用MPC方法在环境模型中进行仿真,生成候选轨迹集,并提取候选每一条轨迹的特征向量。特征整体分为两类,描述了规划特征和连续决策特征。第三步,利用梯度下降法并结合候选轨迹特征期望和真实驾驶轨迹特征期望对奖励函数各特征的权重系数进行更新。将最终的奖励函数传递给决策规划一体化MPC框架。其中,ζ为人类驾驶员演示轨迹,f(ζi)代表从第i条轨迹中提取的轨迹特征。MPC轨迹生成器生成的每条候选轨迹
Figure BDA0003838492800000138
与人类驾驶员演示轨迹ζi具有相同的初始状态。
DQN-MPC拟人化约束学习模块如图3所示,该模块由经验池、目标函数网络构成。第一步,从交通环境中进行采样,构建由状态s,动作a,奖励R和下一时刻状态s’组成的经验回访池。第二步,利用神经网络计算Q(s,a),根据ε-greedy算法选取合适的位置、速度和转角约束输出给MPC,并获取下一时刻系统状态s’和奖励R。第三步,对网络的权重θ进行梯度更新。
MPC连续决策规划控制一体化模块如图4所示,该模块由车辆模型、目标函数和约束三部分组成。第一步,建立在Frenet坐标系下建立横纵向解耦的车辆模型。第二步,利用逆强化学习算法得到拟人化权重,构建结合规划和决策一体化目标函数。第三步,利用强化学习算法得到的拟人化约束,构建车辆执行器约束。第四步进行搜索求解。
各模块可以包括存储器和处理器,所述存储器存储有计算机程序,处理器调用所述计算机程序执行各模块对应的方法的步骤。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,包括以下步骤:
拟人化目标函数学习步骤:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;迭代过程中,通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数;
拟人化约束学习步骤:实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从所述经验回访池抽取数据,对Q价值神经网络进行迭代更新,采用更新好的Q价值神经网络获取拟人化约束;
连续决策规划控制步骤:建立车辆模型,并代入当前时刻的环境信息,通过所述拟人化目标函数学习步骤得到拟人化目标函数,通过所述拟人化约束学习步骤得到拟人化约束,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。
2.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述拟人化目标函数学习步骤具体为:
假设一个离散的时间系统具有有限的时间长度L,通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ:
ζ=[s1,a1,s2,a2…sL,aL]
所述历史经验数据为包含N条轨迹的人类驾驶数据集:
D={ζ1,ζ2,...,ζN}
进行轨迹评估时选择线性结构的奖励函数,这种奖励函数是选择的轨迹特征的加权和:
r(st)=θTf(st)
式中,r(st)为t时刻的奖励,θ为奖励权重,f(st)为t时刻的轨迹特征;
将轨迹ζ的奖励R(ζ)表示为:
Figure FDA0003838492790000021
根据最大熵逆强化学习,每条轨迹的概率表示为:
Figure FDA0003838492790000022
式中,P(ζ|θ)为对于轨迹ζ在奖励权重θ时的概率,Z(θ)为奖励权重θ时的配分函数;
所述最大熵逆强化学习算法通过调整奖励权重θ来最大化轨迹分布中专家演示的可能性;从而迭代提取出与该驾驶员决策习惯和规划习惯的目标函数。
3.根据权利要求2所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,将驾驶员的换道过程离散化,在轨迹生成的过程中生成了有限数量的换道策略轨迹来近似配分函数,所述配分函数的表达式为:
Figure FDA0003838492790000023
式中,
Figure FDA0003838492790000024
为第i个换道策略轨迹,M为换道策略轨迹的总数;
所述最大熵逆强化学习的目标函数为
Figure FDA0003838492790000025
式中,j(θ)为奖励权重θ时的最大熵逆强化学习的目标函数。
4.根据权利要求2所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述轨迹特征包括效率特征、舒适特征、风险特征、交互特征和决策特征,所述效率特征的表达式为:
fefficient(si)=v(t)
所述舒适特征的表达式为:
fcomfort,ax(st)=|ax(t)|
fcomfort,ay(st)=|ay(t)|
Figure FDA0003838492790000026
Figure FDA0003838492790000027
所述风险特征的表达式为:
Figure FDA0003838492790000028
Figure FDA0003838492790000029
Figure FDA0003838492790000031
所述交互特征的表达式为:
Figure FDA0003838492790000032
当ai(t)<0
所述决策特征的表达式为:
ffollow,x(st)=|s(t)-sref(t)|
ffollow,y(si)=|l(t)-lref(t)|
式中,v(t)、ax(t)、ay(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度,xfront(t)为距本车最近前车的纵向位置,xrear(t)为距本车最近后车的纵向位置,ai(t)为被自车行动影响的第i辆环境车辆的减速度,sref(t)和lref(t)为参考轨迹。
5.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述Q价值神经网络的迭代更新过程具体为:
选取状态s和动作a,通过Q价值神经网络计算Q(s,a),选取位置、速度和转角约束输出给MPC进行求解,并获取下一时刻系统状态s’和奖励R,从而对Q价值神经网络的权重进行梯度更新。
6.根据权利要求5所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述Q价值神经网络包括值函数网络和目标值函数网络,对对Q价值神经网络的权重进行梯度更新过程包括:从经验回放池中随机抽取N个数据(s,a,R,s’),判断是否达到终点,若已到达,则目标值函数网络的估计价值targetQ=R,否则targetQ=R+γmaxa′Q,其中,γ为折扣因子,随着轨迹延长逐步衰减。maxa′Q为当前值函数网络中最大的Q值,其值在动作为a′时取得;
计算均方误差损失Loss(θ)=E[(targetQ-Q)2],初始化值函数网络Q和目标值函数网络targetQ,根据均方误差损失从而更新值函数网络Q的参数,而targetQ则固定不变,在经过多次迭代之后,将值函数网络的参数全部复制给目标值函数网络,并一直如此循环迭代,实现算法更新。
7.根据权利要求5所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述状态s的选择范围为:
s=[s l vx vy Δsfront Δsrear Δlright Δlleft Δvx,front Δvx,rear]
式中,s,l为车辆在Frenet坐标系下的纵向位移和横向位移,vx,vy为自车速度,Δsfront,Δsrear,Δlright,Δlleft为自车与最近的前后左右周车的相对距离,Δvx,frontΔvx,rear为自车与最近前后周车的相对速度;
所述动作a的选择范围为:
a=[Δsmax Δsmin Δvmax Δvmin,δmin δmax]
式中,其中Δsmax Δsmin为输入给MPC的位置约束,其值代表了下一时刻相比当前时刻的最大/最小自车位置差,Δvmax Δvmin为车辆速度约束,代表下一时刻速度增量的限值,δmin δmax代表了下一时刻车辆执行器转角的限值。
8.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述车辆模型的纵向运动学模型为:
Figure FDA0003838492790000041
Figure FDA0003838492790000042
其中,s(t)为车辆在Frenet坐标系下的纵向位移,l(s)为s处横向位移,κ(s)为道路在s点处的曲率;
Figure FDA0003838492790000043
为车辆在Frenet坐标系下的纵向速度;vx(t)、ax(t)分别为自车坐标系下的纵向速度、加速度,/>
Figure FDA0003838492790000044
为自车相对于道路的横摆角,/>
Figure FDA0003838492790000045
为自车坐标系下的加速度;
所述车辆模型的横向动力学模型为:
Figure FDA0003838492790000046
Figure FDA0003838492790000047
Figure FDA0003838492790000048
Figure FDA0003838492790000049
式中,
Figure FDA00038384927900000410
为自车相对于道路的横摆角,r表示自车在重心处的横摆角速度,lf和lr表示重心到前轴和后轴的距离,Cf和Cr表示前、后轮轮胎侧偏刚度,m代表整车质量,Izz为车辆绕z轴的转动惯量;
所述连续决策规划控制步骤中,选取状态变量和动作变量,根据拟人化目标函数和拟人化约束构建纵向目标函数和横向目标函数,所述纵向目标函数的表达式为:
Figure FDA0003838492790000051
所述纵向目标函数对应的约束为:
Figure FDA0003838492790000052
Figure FDA0003838492790000053
Figure FDA0003838492790000054
Figure FDA0003838492790000055
式中,sx,min和sx,max,vx,min和vx,max的值通过拟人化约束学习步骤获得,其值为当前时刻值加上拟人化约束学习步骤得到的位置差和速度差约束,ax,min,ax,max是由车辆执行器能力决定的常数值;
所述横向目标函数的表达式为:
Figure FDA0003838492790000056
所述横向目标函数对应的约束为:
Figure FDA0003838492790000057
Figure FDA0003838492790000058
Figure FDA0003838492790000059
式中,
Figure FDA00038384927900000510
和/>
Figure FDA00038384927900000511
值通过拟人化约束学习步骤获得,
Figure FDA00038384927900000512
是由车辆执行器能力决定的常数值。
9.根据权利要求4所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述连续决策规划控制步骤中,加入决策指令参考曲线系数作为连续决策参考,所述连续决策参考对纵向目标函数的输入值sref(t)的表达式为:
sref(t)=a0+a1t+a2t2+a3t3+a4t4+a5t5
式中,t为时间值,a0、a1、a2、a3、a4和a5均为多项式系数;
所述连续决策参考对横向目标函数的输入值lref(t)的表达式为:
lref(t)=b0+b1t+b2t2+b3t3+b4t4+b5t5
式中,b0、b1、b2、b3、b4和b5均为多项式系数。
10.一种基于数据机理融合的自动驾驶类人安全自进化系统,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,处理器调用所述计算机程序执行如权利要求1至9任一所述的方法的步骤。
CN202211100337.0A 2022-09-08 2022-09-08 基于数据机理融合的自动驾驶类人安全自进化方法和系统 Pending CN116300850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211100337.0A CN116300850A (zh) 2022-09-08 2022-09-08 基于数据机理融合的自动驾驶类人安全自进化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211100337.0A CN116300850A (zh) 2022-09-08 2022-09-08 基于数据机理融合的自动驾驶类人安全自进化方法和系统

Publications (1)

Publication Number Publication Date
CN116300850A true CN116300850A (zh) 2023-06-23

Family

ID=86836404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211100337.0A Pending CN116300850A (zh) 2022-09-08 2022-09-08 基于数据机理融合的自动驾驶类人安全自进化方法和系统

Country Status (1)

Country Link
CN (1) CN116300850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116519005A (zh) * 2023-07-04 2023-08-01 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116519005A (zh) * 2023-07-04 2023-08-01 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置
CN116519005B (zh) * 2023-07-04 2023-10-03 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置

Similar Documents

Publication Publication Date Title
Betz et al. Autonomous vehicles on the edge: A survey on autonomous vehicle racing
Huang et al. Driving behavior modeling using naturalistic human driving data with inverse reinforcement learning
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN112888612A (zh) 自动驾驶车辆规划
Lu et al. Learning driver-specific behavior for overtaking: A combined learning framework
Morales et al. A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning
Li et al. An improved DQN path planning algorithm
CN112805198A (zh) 用于自主驾驶的个人驾驶风格学习
Wu et al. Deep reinforcement learning on autonomous driving policy with auxiliary critic network
CN114846425A (zh) 移动机器人的预测和规划
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Jiang et al. Implementation of human-like driver model based on recurrent neural networks
Hart et al. Formulation and validation of a car-following model based on deep reinforcement learning
CN116300850A (zh) 基于数据机理融合的自动驾驶类人安全自进化方法和系统
Rokonuzzaman et al. Human-tailored data-driven control system of autonomous vehicles
Alighanbari et al. Deep reinforcement learning with nmpc assistance nash switching for urban autonomous driving
Li et al. Simulation of vehicle interaction behavior in merging scenarios: A deep maximum entropy-inverse reinforcement learning method combined with game theory
Yuan et al. Evolutionary decision-making and planning for autonomous driving based on safe and rational exploration and exploitation
Lodh et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
Paparusso et al. Real-time forecasting of driver-vehicle dynamics on 3D roads: A deep-learning framework leveraging Bayesian optimisation
Huang Safe intention-aware maneuvering of autonomous vehicles
Arenas Muñiz et al. TOPSIS Method for Multiple-Criteria Decision-Making Applied to Trajectory Selection for Autonomous Driving
Wang et al. An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle
Imam et al. Autonomous driving system using proximal policy optimization in deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination