CN116300850A - 基于数据机理融合的自动驾驶类人安全自进化方法和系统 - Google Patents
基于数据机理融合的自动驾驶类人安全自进化方法和系统 Download PDFInfo
- Publication number
- CN116300850A CN116300850A CN202211100337.0A CN202211100337A CN116300850A CN 116300850 A CN116300850 A CN 116300850A CN 202211100337 A CN202211100337 A CN 202211100337A CN 116300850 A CN116300850 A CN 116300850A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- value
- constraint
- personification
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000007246 mechanism Effects 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 109
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 230000002787 reinforcement Effects 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 20
- 230000001133 acceleration Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 238000006073 displacement reaction Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 3
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于数据机理融合的自动驾驶类人安全自进化方法和系统,方法包括:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从经验回访池抽取数据,对Q价值神经网络进行迭代更新,获取拟人化约束;建立车辆模型,并代入当前时刻的环境信息,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。与现有技术相比,本发明使得自动驾驶汽车具有自学习性和适应性,能实现安全、高效、舒适地驾驶。
Description
技术领域
本发明涉及自动驾驶汽车技术领域,尤其是涉及基于数据机理融合的自动驾驶类人安全自进化方法和系统。
背景技术
自动驾驶汽车技术发展日新月异,感知、决策、规划、控制的分层式结构成为当前商业化自动驾驶汽车的主流。然而,由于层与层之间的信息传递存在不充分性、高时延性,分层式的架构往往会出现功能衔接的制约,例如车辆执行器能力限制导致的不完全规划轨迹跟随问题,以及高时变环境下决策延迟导致的规划失效问题。因此,设计决策规划控制一体化框架逐渐成为本领域的研究热点。除此之外,人类司机和自动驾驶司机的混合交通环境对自动驾驶提出了更高的要求:自动驾驶功能需要符合人类司机的驾驶习惯,风格需要与人类司机保持一致,这对混合车流下人类司机/自动驾驶司机在高交互性环境中对周围车辆的行为判断是至关重要的。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于数据机理融合的自动驾驶类人安全自进化方法和系统,使得自动驾驶汽车具有自学习性和适应性。
本发明的目的可以通过以下技术方案来实现:
一种基于数据机理融合的自动驾驶类人安全自进化方法,包括以下步骤:
拟人化目标函数学习步骤:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;迭代过程中,通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数;
拟人化约束学习步骤:实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从所述经验回访池抽取数据,对Q价值神经网络进行迭代更新,采用更新好的Q价值神经网络获取拟人化约束;
连续决策规划控制步骤:建立车辆模型,并代入当前时刻的环境信息,通过所述拟人化目标函数学习步骤得到拟人化目标函数,通过所述拟人化约束学习步骤得到拟人化约束,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。
进一步地,所述拟人化目标函数学习步骤具体为:
假设一个离散的时间系统具有有限的时间长度L,通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ:
ζ=[s1,a1,s2,a2…sL,aL]
所述历史经验数据为包含N条轨迹的人类驾驶数据集:
D={ζ1,ζ2,…,ζN}
进行轨迹评估时选择线性结构的奖励函数,这种奖励函数是选择的轨迹特征的加权和:
r(st)=θTf(st)
式中,r(st)为t时刻的奖励,θ为奖励权重,f(st)为t时刻的轨迹特征;
将轨迹ζ的奖励R(ζ)表示为:
根据最大熵逆强化学习,每条轨迹的概率表示为:
式中,P(ζ|θ)为对于轨迹ζ在奖励权重θ时的概率,Z(θ)为奖励权重θ时的配分函数;
所述最大熵逆强化学习算法通过调整奖励权重θ来最大化轨迹分布中专家演示的可能性;从而迭代提取出与该驾驶员决策习惯和规划习惯的目标函数。
进一步地,将驾驶员的换道过程离散化,在轨迹生成的过程中生成了有限数量的换道策略轨迹来近似配分函数,所述配分函数的表达式为:
所述最大熵逆强化学习的目标函数为
式中,j(θ)为奖励权重θ时的最大熵逆强化学习的目标函数。
进一步地,所述轨迹特征包括效率特征、舒适特征、风险特征、交互特征和决策特征,所述效率特征的表达式为:
fefficient(st)=v(t)
所述舒适特征的表达式为:
fcomfort,ax(st)=|ax(t)|
fcomfort,ay(st)=|ay(t)|
所述风险特征的表达式为:
所述交互特征的表达式为:
所述决策特征的表达式为:
ffollow,x(st)=|s(t)-sref(t)|
ffollow,y(st)=|l(t)-lref(t)|
式中,v(t)、ax(t)、ay(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度,xfront(t)为距本车最近前车的纵向位置,xrear(t)为距本车最近后车的纵向位置,ai(t)为被自车行动影响的第i辆环境车辆的减速度,sref(t)和lref(t)为参考轨迹。
进一步地,所述Q价值神经网络的迭代更新过程具体为:
选取状态s和动作a,通过Q价值神经网络计算Q(s,a),选取位置、速度和转角约束输出给MPC进行求解,并获取下一时刻系统状态s’和奖励R,从而对Q价值神经网络的权重进行梯度更新。
进一步地,所述Q价值神经网络包括值函数网络和目标值函数网络,对对Q价值神经网络的权重进行梯度更新过程包括:从经验回放池中随机抽取N个数据(s,a,R,s’),判断是否达到终点,若已到达,则目标值函数网络的估计价值targetQ=R,否则targetQ=R+γmaxa′Q,其中,γ为折扣因子,随着轨迹延长逐步衰减。maxa′Q为当前值函数网络中最大的Q值,其值在动作为a′时取得;
计算均方误差损失Loss(θ)=E[(targetQ-Q)2],初始化值函数网络Q和目标值函数网络targetQ,根据均方误差损失从而更新值函数网络Q的参数,而targetQ则固定不变,在经过多次迭代之后,将值函数网络的参数全部复制给目标值函数网络,并一直如此循环迭代,实现算法更新。
进一步地,所述状态s的选择范围为:
s=[s l vx vy Δsfront Δsrear Δlright Δlleft Δvx,front Δvx,rear]
式中,s,l为车辆在Frenet坐标系下的纵向位移和横向位移,vx,vy为自车速度,Δsfront,Δsrear,Δlright,Δlleft为自车与最近的前后左右周车的相对距离,Δvx,frontΔvx,rear为自车与最近前后周车的相对速度;
所述动作a的选择范围为:
a=[Δsmax Δsmin Δvmax Δvmin,δmin δmax]
式中,其中Δsmax Δsmin为输入给MPC的位置约束,其值代表了下一时刻相比当前时刻的最大/最小自车位置差,Δvmax Δvmin为车辆速度约束,代表下一时刻速度增量的限值,δmin δmax代表了下一时刻车辆执行器转角的限值。
进一步地,所述车辆模型的纵向运动学模型为:
其中,s(t)为车辆在Frenet坐标系下的纵向位移,l(s)为s处横向位移,κ(s)为道路在s点处的曲率;为车辆在Frenet坐标系下的纵向速度;vx(t)、ax(t)分别为自车坐标系下的纵向速度、加速度,/>为自车相对于道路的横摆角,/>为自车坐标系下的加速度;
所述车辆模型的横向动力学模型为:
所述连续决策规划控制步骤中,选取状态变量和动作变量,根据拟人化目标函数和拟人化约束构建纵向目标函数和横向目标函数,所述纵向目标函数的表达式为:
所述纵向目标函数对应的约束为:
式中,sx,min和sx,max,vx,min和vx,max的值通过拟人化约束学习步骤获得,其值为当前时刻值加上拟人化约束学习步骤得到的位置差和速度差约束,ax,min,ax,max是由车辆执行器能力决定的常数值;
所述横向目标函数的表达式为:
所述横向目标函数对应的约束为:
进一步地,所述连续决策规划控制步骤中,加入决策指令参考曲线系数作为连续决策参考,所述连续决策参考对纵向目标函数的输入值sref(t)的表达式为:
sref(t)=a0+a1t+a2t2+a3t3+a4t4+a5t5
式中,t为时间值,a0、a1、a2、a3、a4和a5均为多项式系数;
所述连续决策参考对横向目标函数的输入值lref(t)的表达式为:
lref(t)=b0+b1t+b2t2+b3t3+b4t4+b5t5
式中,b0、b1、b2、b3、b4和b5均为多项式系数。
本发明还提供一种基于上所述的一种基于数据机理融合的自动驾驶类人安全自进化方法的系统,包括:
拟人化目标函数学习模块,用于执行所述拟人化目标函数学习步骤;
拟人化约束学习模块,用于执行所述拟人化约束学习步骤;
连续决策规划控制模块,用于执行所述连续决策规划控制步骤。
与现有技术相比,本发明具有以下优点:
本发明提出一种基于数据机理融合的自动驾驶类人安全自进化框架,采用决策规划控制一体化的结构,在机理模型满足安全的前提下,尽可能从经验数据中模拟人类的驾驶策略,并实现在数据流输入过程中自动更新对驾驶习惯的调整。该发明使用了带约束的模型预测控制机理(MPC)框架,确保复杂场景下驾驶的安全性;同时结合逆强化学习算法、强化学习算法不断模拟调整驾驶员潜在的奖励函数和约束,使得自动驾驶汽车具有自学习性和适应性。
本发明采用数据机理融合的方式,使自动驾驶车辆能从真实驾驶经验提取拟人化的驾驶策略,使汽车在复杂多变的交通环境中模仿个性化的驾驶行为,实现安全、高效、舒适地驾驶。
附图说明
图1为本发明实施例中提供的一种基于数据机理融合的自动驾驶类人安全自进化系统的处理流程示意图;
图2为本发明实施例中提供的一种基于IRL-MPC的拟人化目标函数学习流程图;
图3为本发明实施例中提供的一种基于DQN-MPC的拟人化约束学习流程图;
图4为本发明实施例中提供的一种基于MPC的连续决策规划控制一体化流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例1
本实施例提供一种基于数据机理融合的自动驾驶类人安全自进化方法,包括以下步骤:
拟人化目标函数学习步骤:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;迭代过程中,通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数;
拟人化约束学习步骤:实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从所述经验回访池抽取数据,对Q价值神经网络进行迭代更新,采用更新好的Q价值神经网络获取拟人化约束;
连续决策规划控制步骤:建立车辆模型,并代入当前时刻的环境信息,通过所述拟人化目标函数学习步骤得到拟人化目标函数,通过所述拟人化约束学习步骤得到拟人化约束,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。
具体地,本方案以模型预测控制思想为基础,整体描述为由模型、约束和目标函数三个部分组成的综合优化问题。该框架的输入为当前时刻的环境信息,输出为被控自动驾驶车辆的方向盘转角以及纵向加速度。方法流程分为三个步骤:
步骤1,构建基于逆强化学习和模型预测控制(IRL-MPC)的自学习目标函数算法。通过使用最大熵逆强化学习算法,从真实数据中提取出代表该驾驶员决策习惯和规划习惯的目标函数。在对目标函数迭代的过程中,MPC通过改变控制时域内动作的取值生成大量曲线簇,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实驾驶轨迹特征分布最为相似的轨迹以及其对应的目标函数。
步骤2,构建基于强化学习的自学习约束算法。通过建立DQN网络和经验回访池,并采用ε-greedy原则选择Q值最大的动作输出给MPC,作为位置、速度和执行器约束。
步骤3,建立基于模型预测控制的连续决策、规划、控制一体化模型框架。为了将决策部分引入整体框架中,本发明在模型构建的动作空间和状态空间中引入车辆行驶曲线多项式系数代表决策变量,从而进行连续决策。同时,结合步骤1中目标函数以及步骤2中的约束,进而实现从真实驾驶数据中同时模仿该驾驶员决策逻辑和规划线路的目的。
其中,步骤1提及的IRL-MPC的自学习拟人化目标函数算法的整体逻辑如下。
首先随机初始化奖励参数即奖励函数权重,计算真实数据集中人类司机驾驶轨迹的特征期望。对于演示数据提供的每个驾驶场景,使用MPC算法生成一组候选轨迹,在环境模型中进行仿真,得到每条候选轨迹的特征向量。对于一个确定的驾驶场景,所生成的候选轨迹空间的大小由动作空间和控制时域的大小决定。当完成候选轨迹生成后,开始计算梯度,并使用梯度上升法迭代更新奖励参数,使生成的候选轨迹的特征期望与人的轨迹相匹配。
假设一个离散的时间系统具有有限的时间长度L,通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ:
ζ=[s1,a1,s2,a2…sL,aL]
给定一个包含N条轨迹的人类驾驶数据集:
D={ζ1,ζ2,…,ζN}
进行轨迹评估时选择线性结构的奖励函数,这种奖励函数是选择的轨迹特征的加权和:
r(st)=θTf(st)
其中轨迹特征f9st)主要按照效率、舒适、风险、交互和决策五个方面进行分类选择,从而反映人类驾驶员在驾驶时的主要考量因素。
效率
fefficient(st)=v(t)
舒适性
fcomfort,ax(st)=|ax(t)|
fcomfort,ay(st)=|ay(t)|
风险
交互
决策性
ffollow,x(st)=|s(t)-sref(t)|
ffollow,y(st)=|l(t)-lref(t)|
其中,v(t)、ax(t)、ay(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度,风险考量因素中xfront(t)为距本车最近前车的纵向位置,xrear(t)为距本车最近后车的纵向位置。由于学习迭代初始策略和真实驾驶策略不同,在自学习初期自车行驶轨迹和真实轨迹存在较大不同,为了保证周车环境的真实性,将车辆与环境车辆的交互因素纳入建模。当自车与环境车辆的距离接近危险边界时,环境车辆会做出交互行动以避免碰撞。这里使用IDM驱动模型预测环境车辆因为自车而导致的动作,ai(t)为被自车行动影响的第i辆环境车辆的减速度。sy,ref和为由连续决策给定的参考轨迹,其值由有关换道决策以及道路情况给定,用五次多项式表示。
轨迹ζ的奖励R(ζ)是:
根据最大熵逆强化学习,每条轨迹的概率可以表示为:
最大熵逆强化学习的目的是调整奖励权重θ来最大化轨迹分布中专家演示的可能性,则其目标函数为:
使用Adam优化算法进行梯度上升法更新迭代求出奖励函数权重θ。
步骤2中基于强化学习的自学习约束算法逻辑如下。
采用DQN强化学习算法用于生成拟人化约束。首先,构建DQN算法模型,其主要由Q价值神经网络和经验回放池构成。其中前者分为值函数网络和目标值函数网络,其网络权重θ在初始化时随机选取,在后续使用梯度下降法更新,另外,还需要设计奖励函数R,值得注意的是奖励函数的设置不能与逆强化学习中的奖励函数相违背,本实施例选取为速度奖励,安全奖励和舒适奖励。
其次,构建由状态s,动作a,奖励R和下一时刻状态s’组成的经验回访池。选取状态s如下,其中s,l为车辆在Frenet坐标系下的纵向位移和横向位移,vx,vy为自车速度,Δsfront,Δsrear,Δlright,Δlleft为自车与最近的前后左右周车的相对距离,Δvx,front Δvx,rear为自车与最近前后周车的相对速度。
s=[s l vx vy Δsfront Δsrear Δlright Δlleft Δvx,front Δvx,rear]
选取动作如下,其中Δsmax Δsmin为输入给MPC的位置约束,其值代表了下一时刻相比当前时刻的最大/最小自车位置差,Δvmax Δvmin为车辆速度约束,代表下一时刻速度增量的限值,δmin δmax代表了下一时刻车辆执行器转角的限值。
a=[Δsmax Δsmin Δvmax Δvmin,δmin δmax]
利用神经网络计算Q(s,a),根据ε-greedy算法选取合适的位置、速度和转角约束输出给MPC,并获取下一时刻系统状态s’和奖励R。
最后,对网络的权重θ进行梯度更新。从经验回放池中随机抽取N个数据(s,a,R,s’),判断是否达到终点,若已到达,则估计价值targetQ=R,否则targetQ=R+γmaxa′Q。为了使得Q(s,a)尽可能接近于targetQ,计算均方误差损失Loss(θ)=E[(targetQ-Q)2]。初始化值函数网络Q和目标值函数网络targetQ,根据损失函数从而更新值函数网络Q的参数,而targetQ则固定不变,在经过多次迭代之后,将Q的参数全部复制给targetQ网络,并一直如此循环迭代。这样一段时间内的targetQ是固定不变的,从而使得算法更新更加稳定。
步骤3中基于模型预测控制的连续决策、规划、控制一体化模型框架建立逻辑如下。
首先为保证曲线道路行驶,在Frenet坐标系下建立横纵向解耦的车辆模型。
纵向运动学模型为:
其中,s(t)为车辆在Frenet坐标系下的纵向位移,l(s)为s处横向位移,κ(s)为道路在s点处的曲率。为车辆在Frenet坐标系下的纵向速度;vx(t)、ax(t)分别为自车坐标系下的纵向速度、加速度,/>为自车相对于道路的横摆角。
为了将规划和决策一体化,在动作空间中加入决策指令参考曲线系数作为连续决策参考。将决策过程连续化表示为五次多项式,作为规划的参考输入。每个点的坐标为:
sref(t)=a0+a1t+a2t2+a3t3+a4t4+a5t5
选取状态变量xlon=[svx],动作变量为ulon=[axai=0~5],结合步骤1IRL自学习算法得到的拟人化权重系数定义成本函数。其中纵向目标函数选取考虑效率、舒适、风险、交互和决策的纵向相关特征。
约束设置为:
其中sx,min和sx,max,vx,min和vx,max的值通过步骤2强化学习拟人化约束算法获得,其值为当前时刻值加上DQN算法得到的位置差和速度差约束,ax,min,ax,max是由车辆执行器能力决定的常数值。
横向动力学模型为:
与横向一致,为了将规划和决策一体化,在动作空间中加入参考曲线系数作为连续决策参考。将决策过程连续化表示为五次多项式,作为规划的参考输入。每个点的坐标为:
lref(t)=b0+b1t+b2t2+b3t3+b4t4+b5t5
约束设置为:
本实施例还提供一种基于数据机理融合的自动驾驶类人安全自进化系统。该发明使自动驾驶车辆能从真实驾驶经验提取拟人化的驾驶策略,使汽车在复杂多变的交通环境中模仿个性化的驾驶行为,实现安全、高效、舒适地驾驶。其算法框架流程如图1所示,该系统包括了IRL-MPC拟人化目标函数学习模块、DQN-MPC的拟人化约束学习模块,并结合两个模块构建了决策规划控制一体化自进化算法。其中,模块一(IRL-MPC算法)为模块三(决策规划控制一体化自进化算法)提供了拟人化目标函数的部分权重,模块二(DQN-MPC算法)为模块三提供了约束参数。
IRL-MPC拟人化目标函数学习模块如图2所示,该模块由候选轨迹采样评估和梯度迭代两个部分构成。第一步,提取真实人类驾驶数据中特征;第二步,使用MPC方法在环境模型中进行仿真,生成候选轨迹集,并提取候选每一条轨迹的特征向量。特征整体分为两类,描述了规划特征和连续决策特征。第三步,利用梯度下降法并结合候选轨迹特征期望和真实驾驶轨迹特征期望对奖励函数各特征的权重系数进行更新。将最终的奖励函数传递给决策规划一体化MPC框架。其中,ζ为人类驾驶员演示轨迹,f(ζi)代表从第i条轨迹中提取的轨迹特征。MPC轨迹生成器生成的每条候选轨迹与人类驾驶员演示轨迹ζi具有相同的初始状态。
DQN-MPC拟人化约束学习模块如图3所示,该模块由经验池、目标函数网络构成。第一步,从交通环境中进行采样,构建由状态s,动作a,奖励R和下一时刻状态s’组成的经验回访池。第二步,利用神经网络计算Q(s,a),根据ε-greedy算法选取合适的位置、速度和转角约束输出给MPC,并获取下一时刻系统状态s’和奖励R。第三步,对网络的权重θ进行梯度更新。
MPC连续决策规划控制一体化模块如图4所示,该模块由车辆模型、目标函数和约束三部分组成。第一步,建立在Frenet坐标系下建立横纵向解耦的车辆模型。第二步,利用逆强化学习算法得到拟人化权重,构建结合规划和决策一体化目标函数。第三步,利用强化学习算法得到的拟人化约束,构建车辆执行器约束。第四步进行搜索求解。
各模块可以包括存储器和处理器,所述存储器存储有计算机程序,处理器调用所述计算机程序执行各模块对应的方法的步骤。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,包括以下步骤:
拟人化目标函数学习步骤:从历史经验数据中,提取真实人类驾驶数据特征,通过最大熵逆强化学习算法,迭代提取出与该驾驶员决策习惯和规划习惯的目标函数;迭代过程中,通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹,逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数;
拟人化约束学习步骤:实时从交通环境中采样,获取环境信息,构建包括当前状态、动作、奖励和下一时刻状态的经验回访池,构建Q价值神经网络,从所述经验回访池抽取数据,对Q价值神经网络进行迭代更新,采用更新好的Q价值神经网络获取拟人化约束;
连续决策规划控制步骤:建立车辆模型,并代入当前时刻的环境信息,通过所述拟人化目标函数学习步骤得到拟人化目标函数,通过所述拟人化约束学习步骤得到拟人化约束,构建车辆执行器约束,结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解,获取车辆控制信息。
2.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述拟人化目标函数学习步骤具体为:
假设一个离散的时间系统具有有限的时间长度L,通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ:
ζ=[s1,a1,s2,a2…sL,aL]
所述历史经验数据为包含N条轨迹的人类驾驶数据集:
D={ζ1,ζ2,...,ζN}
进行轨迹评估时选择线性结构的奖励函数,这种奖励函数是选择的轨迹特征的加权和:
r(st)=θTf(st)
式中,r(st)为t时刻的奖励,θ为奖励权重,f(st)为t时刻的轨迹特征;
将轨迹ζ的奖励R(ζ)表示为:
根据最大熵逆强化学习,每条轨迹的概率表示为:
式中,P(ζ|θ)为对于轨迹ζ在奖励权重θ时的概率,Z(θ)为奖励权重θ时的配分函数;
所述最大熵逆强化学习算法通过调整奖励权重θ来最大化轨迹分布中专家演示的可能性;从而迭代提取出与该驾驶员决策习惯和规划习惯的目标函数。
4.根据权利要求2所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述轨迹特征包括效率特征、舒适特征、风险特征、交互特征和决策特征,所述效率特征的表达式为:
fefficient(si)=v(t)
所述舒适特征的表达式为:
fcomfort,ax(st)=|ax(t)|
fcomfort,ay(st)=|ay(t)|
所述风险特征的表达式为:
所述交互特征的表达式为:
所述决策特征的表达式为:
ffollow,x(st)=|s(t)-sref(t)|
ffollow,y(si)=|l(t)-lref(t)|
式中,v(t)、ax(t)、ay(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度,xfront(t)为距本车最近前车的纵向位置,xrear(t)为距本车最近后车的纵向位置,ai(t)为被自车行动影响的第i辆环境车辆的减速度,sref(t)和lref(t)为参考轨迹。
5.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述Q价值神经网络的迭代更新过程具体为:
选取状态s和动作a,通过Q价值神经网络计算Q(s,a),选取位置、速度和转角约束输出给MPC进行求解,并获取下一时刻系统状态s’和奖励R,从而对Q价值神经网络的权重进行梯度更新。
6.根据权利要求5所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述Q价值神经网络包括值函数网络和目标值函数网络,对对Q价值神经网络的权重进行梯度更新过程包括:从经验回放池中随机抽取N个数据(s,a,R,s’),判断是否达到终点,若已到达,则目标值函数网络的估计价值targetQ=R,否则targetQ=R+γmaxa′Q,其中,γ为折扣因子,随着轨迹延长逐步衰减。maxa′Q为当前值函数网络中最大的Q值,其值在动作为a′时取得;
计算均方误差损失Loss(θ)=E[(targetQ-Q)2],初始化值函数网络Q和目标值函数网络targetQ,根据均方误差损失从而更新值函数网络Q的参数,而targetQ则固定不变,在经过多次迭代之后,将值函数网络的参数全部复制给目标值函数网络,并一直如此循环迭代,实现算法更新。
7.根据权利要求5所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述状态s的选择范围为:
s=[s l vx vy Δsfront Δsrear Δlright Δlleft Δvx,front Δvx,rear]
式中,s,l为车辆在Frenet坐标系下的纵向位移和横向位移,vx,vy为自车速度,Δsfront,Δsrear,Δlright,Δlleft为自车与最近的前后左右周车的相对距离,Δvx,frontΔvx,rear为自车与最近前后周车的相对速度;
所述动作a的选择范围为:
a=[Δsmax Δsmin Δvmax Δvmin,δmin δmax]
式中,其中Δsmax Δsmin为输入给MPC的位置约束,其值代表了下一时刻相比当前时刻的最大/最小自车位置差,Δvmax Δvmin为车辆速度约束,代表下一时刻速度增量的限值,δmin δmax代表了下一时刻车辆执行器转角的限值。
8.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述车辆模型的纵向运动学模型为:
其中,s(t)为车辆在Frenet坐标系下的纵向位移,l(s)为s处横向位移,κ(s)为道路在s点处的曲率;为车辆在Frenet坐标系下的纵向速度;vx(t)、ax(t)分别为自车坐标系下的纵向速度、加速度,/>为自车相对于道路的横摆角,/>为自车坐标系下的加速度;
所述车辆模型的横向动力学模型为:
所述连续决策规划控制步骤中,选取状态变量和动作变量,根据拟人化目标函数和拟人化约束构建纵向目标函数和横向目标函数,所述纵向目标函数的表达式为:
所述纵向目标函数对应的约束为:
式中,sx,min和sx,max,vx,min和vx,max的值通过拟人化约束学习步骤获得,其值为当前时刻值加上拟人化约束学习步骤得到的位置差和速度差约束,ax,min,ax,max是由车辆执行器能力决定的常数值;
所述横向目标函数的表达式为:
所述横向目标函数对应的约束为:
9.根据权利要求4所述的一种基于数据机理融合的自动驾驶类人安全自进化方法,其特征在于,所述连续决策规划控制步骤中,加入决策指令参考曲线系数作为连续决策参考,所述连续决策参考对纵向目标函数的输入值sref(t)的表达式为:
sref(t)=a0+a1t+a2t2+a3t3+a4t4+a5t5
式中,t为时间值,a0、a1、a2、a3、a4和a5均为多项式系数;
所述连续决策参考对横向目标函数的输入值lref(t)的表达式为:
lref(t)=b0+b1t+b2t2+b3t3+b4t4+b5t5
式中,b0、b1、b2、b3、b4和b5均为多项式系数。
10.一种基于数据机理融合的自动驾驶类人安全自进化系统,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,处理器调用所述计算机程序执行如权利要求1至9任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211100337.0A CN116300850A (zh) | 2022-09-08 | 2022-09-08 | 基于数据机理融合的自动驾驶类人安全自进化方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211100337.0A CN116300850A (zh) | 2022-09-08 | 2022-09-08 | 基于数据机理融合的自动驾驶类人安全自进化方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116300850A true CN116300850A (zh) | 2023-06-23 |
Family
ID=86836404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211100337.0A Pending CN116300850A (zh) | 2022-09-08 | 2022-09-08 | 基于数据机理融合的自动驾驶类人安全自进化方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116300850A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116519005A (zh) * | 2023-07-04 | 2023-08-01 | 上海云骥跃动智能科技发展有限公司 | 一种路径规划方法及装置 |
-
2022
- 2022-09-08 CN CN202211100337.0A patent/CN116300850A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116519005A (zh) * | 2023-07-04 | 2023-08-01 | 上海云骥跃动智能科技发展有限公司 | 一种路径规划方法及装置 |
CN116519005B (zh) * | 2023-07-04 | 2023-10-03 | 上海云骥跃动智能科技发展有限公司 | 一种路径规划方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Betz et al. | Autonomous vehicles on the edge: A survey on autonomous vehicle racing | |
Huang et al. | Driving behavior modeling using naturalistic human driving data with inverse reinforcement learning | |
CN112356830B (zh) | 一种基于模型强化学习的智能泊车方法 | |
CN112888612A (zh) | 自动驾驶车辆规划 | |
Lu et al. | Learning driver-specific behavior for overtaking: A combined learning framework | |
Morales et al. | A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning | |
Li et al. | An improved DQN path planning algorithm | |
CN112805198A (zh) | 用于自主驾驶的个人驾驶风格学习 | |
Wu et al. | Deep reinforcement learning on autonomous driving policy with auxiliary critic network | |
CN114846425A (zh) | 移动机器人的预测和规划 | |
CN114312830A (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN116134292A (zh) | 用于性能测试和/或训练自动驾驶车辆规划器的工具 | |
Jiang et al. | Implementation of human-like driver model based on recurrent neural networks | |
Hart et al. | Formulation and validation of a car-following model based on deep reinforcement learning | |
CN116300850A (zh) | 基于数据机理融合的自动驾驶类人安全自进化方法和系统 | |
Rokonuzzaman et al. | Human-tailored data-driven control system of autonomous vehicles | |
Alighanbari et al. | Deep reinforcement learning with nmpc assistance nash switching for urban autonomous driving | |
Li et al. | Simulation of vehicle interaction behavior in merging scenarios: A deep maximum entropy-inverse reinforcement learning method combined with game theory | |
Yuan et al. | Evolutionary decision-making and planning for autonomous driving based on safe and rational exploration and exploitation | |
Lodh et al. | Autonomous vehicular overtaking maneuver: A survey and taxonomy | |
Paparusso et al. | Real-time forecasting of driver-vehicle dynamics on 3D roads: A deep-learning framework leveraging Bayesian optimisation | |
Huang | Safe intention-aware maneuvering of autonomous vehicles | |
Arenas Muñiz et al. | TOPSIS Method for Multiple-Criteria Decision-Making Applied to Trajectory Selection for Autonomous Driving | |
Wang et al. | An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle | |
Imam et al. | Autonomous driving system using proximal policy optimization in deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |