CN113341960B - 基于监督式dqn算法的自动驾驶汽车转向控制方法 - Google Patents

基于监督式dqn算法的自动驾驶汽车转向控制方法 Download PDF

Info

Publication number
CN113341960B
CN113341960B CN202110577276.6A CN202110577276A CN113341960B CN 113341960 B CN113341960 B CN 113341960B CN 202110577276 A CN202110577276 A CN 202110577276A CN 113341960 B CN113341960 B CN 113341960B
Authority
CN
China
Prior art keywords
vehicle
lane
network
steering angle
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110577276.6A
Other languages
English (en)
Other versions
CN113341960A (zh
Inventor
汪锋
金书峰
唐小林
张志强
彭颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110577276.6A priority Critical patent/CN113341960B/zh
Publication of CN113341960A publication Critical patent/CN113341960A/zh
Application granted granted Critical
Publication of CN113341960B publication Critical patent/CN113341960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Steering Control In Accordance With Driving Conditions (AREA)

Abstract

本发明涉及一种基于监督式DQN算法的自动驾驶汽车转向控制方法,属于自动驾驶汽车领域。该方法包括:S1:获取周边车辆状态信息;S2:建立汽车运动学模型;S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化。本发明提升了DQN算法的训练效率。

Description

基于监督式DQN算法的自动驾驶汽车转向控制方法
技术领域
本发明属于自动驾驶汽车领域,涉及一种基于监督式DQN算法的自动驾驶汽车转向控制方法。
背景技术
在汽车驾驶过程中,存在驾驶员疲劳、情绪波动、操作不当等人为因素的影响,交通事故的预测和预防存在较大困难,而汽车自动驾驶技术的出现和发展为这一问题提供了新的解决思路。
传统自动驾驶技术采用分层结构,各层职能清晰,算法可解释性强,但分层结构需要对多种传统算法进行大量手动调参,且应对复杂交通环境自适应能力弱,鲁棒性欠佳。AI技术与硬件性能的发展为自动驾驶提供了全新的思路,其中深度强化学习的出现催生出端到端的自动驾驶结构。深度强化学习将深度学习的表征能力和强化学习的试错机制完美结合,通过对智能体策略不断训练优化来获得更优的期望奖励,基于深度强化学习的端到端结构可以利用感知输入直接获得油门、刹车、车轮转角等控制动作,大大减少了各层算法构建的工作量和调参成本,同时提升了自动驾驶的泛化能力。
但由于深度强化学习的神经网络在未得到充分训练时将会产生大量无意义甚至危险的动作,训练效率较低,而传统算法可以为深度强化学习算法提供一定程度的引导,提升其训练速度。因此,亟需一种能够综合考虑环境自适应能力和训练时间成本的自动驾驶汽车控制方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于监督式DQN算法的自动驾驶汽车转向控制方法,利用深度强化学习算法-DQN对自动驾驶汽车实现转向控制,并对Q网络的损失函数进行了优化,同时采用传统算法MOBIL提供转向角监督信号进行引导,提升DQN算法的训练效率。
为达到上述目的,本发明提供如下技术方案:
一种基于监督式DQN算法的自动驾驶汽车转向控制方法,具体包括以下步骤:
S1:获取周边车辆状态信息;
S2:搭建汽车运动学模型;
S3:利用DQN(Deep Q Network)算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL(Minimize Overall Braking Inducedby Lane changes)算法构建转向角监督信号,对DQN算法的训练进行引导和优化。
进一步,步骤S1中,获取的周边车辆状态信息,包括:周边车辆与本车的横纵向相对车速,以及周边车辆与本车的横纵向距离。
进一步,步骤S2中,搭建的汽车运动学模型为:
Figure BDA0003084867560000021
Figure BDA0003084867560000022
Figure BDA0003084867560000023
Figure BDA0003084867560000024
Figure BDA0003084867560000025
其中,x,y分别为全局坐标系下车辆质心横坐标和纵坐标,
Figure BDA0003084867560000026
分别为全局坐标系下车辆质心横向速度和纵向速度,v为车辆速度,θ为车辆航向角,
Figure BDA0003084867560000027
为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。
进一步,步骤S3中,利用DQN算法构建自动驾驶汽车转向控制模型,具体包括以下步骤:
S301:构建车辆状态空间;
所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n
Figure BDA0003084867560000028
其中,Di为车辆i的状态集合,n为所观测车辆的总数,Δvx,Δvy分别为周边车辆与本车的横向相对速度和纵向相对速度,Δx,Δy分别为周边车辆与本车的横向距离和纵向距离;
S302:设置n个离散转向角值,构建由多层深度神经网络组成的在线Q网络、目标Q网络,将当前状态S作为在线Q网络的输入,并输出每个离散转向角值所对应的Q值,选择其中Q值最大的转向角作为所要执行的动作A:
Figure BDA0003084867560000029
其中,ai为离散的转向角值,Q(S,ai)为输入状态S,选择动作ai时的Q值。
进一步,步骤S3中,利用MOBIL算法构建转向角监督信号,具体包括:基于MOBIL算法,选择满足以下条件的车道作为目标车道:
Figure BDA0003084867560000031
Figure BDA0003084867560000032
其中,
Figure BDA0003084867560000033
为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,
Figure BDA0003084867560000034
为本车变道后的加速度,
Figure BDA0003084867560000035
为本车变道前的加速度,p为礼貌系数,
Figure BDA0003084867560000036
为本车变道前新车道上相邻后车的加速度,
Figure BDA0003084867560000037
为本车变道后原车道上相邻后车的加速度,
Figure BDA0003084867560000038
为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
Figure BDA0003084867560000039
Figure BDA00030848675600000310
Figure BDA00030848675600000311
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,
Figure BDA00030848675600000314
为本车横摆角速度,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As
Figure BDA00030848675600000312
进一步,步骤S3中,设计奖励函数R,表达式为:
Figure BDA00030848675600000313
其中,k1,k2,k3,k4为各项奖励的权重系数;第一项为碰撞奖励,collision代表碰撞事件,碰撞发生时为1,未发生时为0;第二项为右侧车道奖励,lane为本车当前所在车道的序号,lane_num为车道总数;第三项为舒适性奖励,鼓励本车尽量采取较小的转向角,δmin为奖励范围内的最小转向角,δmax为奖励范围内的最大转向角;第四项为车道中心保持奖励,Δx为车辆与车道中心线的横向距离。
进一步,步骤S3中,对DQN算法进行训练,具体包括以下步骤:
S311:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动模型得到本车的下一状态S′;
S312:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换;其中,S为当前状态,A为执行的动作,As为当前状态下的转向角监督信号;
S313:从经验池中随机抽取N个样本进行在线Q网络更新;
S314:每隔M步对目标Q网络进行更新:
θQ′=θQ
其中,θQ为在线Q网络参数,θQ′为目标Q网络参数。
进一步,步骤S313中,对在线Q网络的更新方式进行优化,具体包括两个更新目标:
1)使在线Q网络输出的Q值逼近目标Q值;
2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中,k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
Figure BDA0003084867560000041
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
Figure BDA0003084867560000042
其中,lr为Q网络的学习率;
JS为监督部分的损失函数:
Figure BDA0003084867560000043
其中,
Figure BDA0003084867560000044
为所抽取的第j个经验样本的当前时刻监督信号;
采用梯度上升法计算监督部分的更新公式:
Figure BDA0003084867560000051
故监督式DQN算法的在线Q网络更新公式为:
Figure BDA0003084867560000052
本发明的有益效果在于:本发明对Q网络的损失函数进行了优化并采用了传统算法MOBIL提供转向角监督信号,提升DQN算法的训练效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于监督式DQN算法的自动驾驶汽车转向控制方法的流程图;
图2为汽车运动学示意图;
图3为DQN算法框架图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明设计了一种基于监督式DQN算法的自动驾驶汽车转向控制方法,利用深度强化学习算法-DQN对自动驾驶汽车实现转向控制,并对Q网络的损失函数进行了优化,同时采用传统算法MOBIL提供转向角监督信号进行引导,提升DQN算法的训练效率。如图1所示,该控制方法具体包括以下步骤:
S1:获取周边车辆状态信息;
其中,周边车辆状态信息包括:周边车辆与本车的横纵向相对车速,周边车辆与本车的横纵向距离。
S2:如图2所示,搭建汽车运动学模型,表达式为:
Figure BDA0003084867560000061
Figure BDA0003084867560000062
Figure BDA0003084867560000063
Figure BDA0003084867560000064
Figure BDA0003084867560000065
其中,x,y为全局坐标系下车辆质心横纵坐标,
Figure BDA0003084867560000066
为全局坐标系下车辆质心横纵向速度,v为车辆速度,θ为车辆航向角,
Figure BDA0003084867560000067
为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。
S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,同时利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化;
如图3所示,利用DQN算法实现对自动驾驶汽车转向角的控制,并对Q网络的损失函数进行了优化,同时采用MOBIL算法为DQN算法的网络训练更新提供转向角监督信号,引导Q网络向正确的方向进行更新,提升Q算法的训练速度。步骤S3具体包括以下步骤:
S31:状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n
Figure BDA0003084867560000068
其中,Di为单一车辆的状态集合,n为所观测车辆的总数,Δvx,Δvy为周边车辆与本车的横纵向相对速度,Δx,Δy为周边车辆与本车的横纵向距离。
S32:设置n个离散转向角值,构建由多层深度神经网络组成的在线Q网络、目标Q网络,将当前状态S作为在线Q网络的输入,并输出每个离散转向角值所对应的Q值,选择其中Q值最大的转向角作为所要执行的动作A:
Figure BDA0003084867560000069
其中,ai为离散的转向角值,Q(S,ai)为输入状态S,选择动作ai时的Q值。
S33:同时,基于MOBIL算法,选择满足以下条件的车道作为目标车道:
Figure BDA00030848675600000610
Figure BDA0003084867560000071
其中,
Figure BDA0003084867560000072
为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,
Figure BDA0003084867560000073
为本车变道后的加速度,
Figure BDA0003084867560000074
为本车变道前的加速度,p为礼貌系数,
Figure BDA0003084867560000075
为本车变道前新车道上相邻后车的加速度,
Figure BDA0003084867560000076
为本车变道后原车道上相邻后车的加速度,
Figure BDA0003084867560000077
为本车变道前原车道上相邻后车的加速度,ath为加速度阈值。
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
Figure BDA0003084867560000078
Figure BDA0003084867560000079
Figure BDA00030848675600000710
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As
Figure BDA00030848675600000711
S34:设计奖励函数R:
Figure BDA00030848675600000712
其中,k1,k2,k3,k4为各项奖励的权重系数;第一项为碰撞奖励,collision代表碰撞事件,碰撞发生时为1,未发生时为0;第二项为右侧车道奖励,lane为本车当前所在车道的序号,lane_num为车道总数;第三项为舒适性奖励,鼓励本车尽量采取较小的转向角,δmin为奖励范围内的最小转向角,δmax为奖励范围内的最大转向角;第四项为车道中心保持奖励,Δx为车辆与车道中心线的横向距离;
本车执行动作后,根据奖励函数计算当前状态下执行该动作的奖励值;
S35:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动学模型得到本车的下一状态S′。
S36:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换。
S37:从经验池中随机抽取N个样本进行在线Q网络更新。监督式DQN算法的在线Q网络有两个更新目标:1)使在线Q网络输出的Q值逼近目标Q值;2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
Figure BDA0003084867560000081
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
Figure BDA0003084867560000082
其中,lr为Q网络的学习率。
JS为监督部分的损失函数:
Figure BDA0003084867560000083
其中,
Figure BDA0003084867560000084
为所抽取的第j个经验样本的当前时刻监督信号;
采用梯度上升法计算监督部分的更新公式:
Figure BDA0003084867560000085
故监督式DQN算法的在线Q网络更新公式为:
Figure BDA0003084867560000086
S38:每隔M步对目标Q网络进行更新。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于监督式DQN算法的自动驾驶汽车转向控制方法,其特征在于,该方法具体包括以下步骤:
S1:获取周边车辆状态信息;
S2:搭建汽车运动学模型;
S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化;
步骤S3中,利用MOBIL算法构建转向角监督信号,具体包括:基于MOBIL算法,选择满足以下条件的车道作为目标车道:
Figure FDA0003612312960000011
Figure FDA0003612312960000012
其中,
Figure FDA0003612312960000013
为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,
Figure FDA0003612312960000014
为本车变道后的加速度,
Figure FDA0003612312960000015
为本车变道前的加速度,p为礼貌系数,
Figure FDA0003612312960000016
为本车变道前新车道上相邻后车的加速度,
Figure FDA0003612312960000017
为本车变道后原车道上相邻后车的加速度,
Figure FDA0003612312960000018
为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
Figure FDA0003612312960000019
Figure FDA00036123129600000110
Figure FDA00036123129600000111
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,
Figure FDA00036123129600000112
为本车横摆角速度,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As
Figure FDA00036123129600000113
对DQN算法进行训练,具体包括以下步骤:
S311:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动模型得到本车的下一状态S′;
S312:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换;其中,S为当前状态,A为执行的动作,As为当前状态下的转向角监督信号;
S313:从经验池中随机抽取N个样本进行在线Q网络更新;
S314:每隔M步对目标Q网络进行更新:
θQ′=θQ
其中,θQ为在线Q网络参数,θQ′为目标Q网络参数;
步骤S313中,对在线Q网络的更新方式进行优化,具体包括两个更新目标:
1)使在线Q网络输出的Q值逼近目标Q值;
2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中,k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
Figure FDA0003612312960000021
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
Figure FDA0003612312960000022
其中,lr为Q网络的学习率;
JS为监督部分的损失函数:
Figure FDA0003612312960000023
其中,
Figure FDA0003612312960000024
为所抽取的第j个经验样本的当前时刻监督信号;
采用梯度上升法计算监督部分的更新公式:
Figure FDA0003612312960000025
故监督式DQN算法的在线Q网络更新公式为:
Figure FDA0003612312960000031
2.根据权利要求1所述的自动驾驶汽车转向控制方法,其特征在于,步骤S1中,获取的周边车辆状态信息,包括:周边车辆与本车的横纵向相对车速,以及周边车辆与本车的横纵向距离。
3.根据权利要求1所述的自动驾驶汽车转向控制方法,其特征在于,步骤S2中,搭建的汽车运动学模型为:
Figure FDA0003612312960000032
Figure FDA0003612312960000033
Figure FDA0003612312960000034
Figure FDA0003612312960000035
Figure FDA0003612312960000036
其中,x,y分别为全局坐标系下车辆质心横坐标和纵坐标,
Figure FDA0003612312960000037
分别为全局坐标系下车辆质心横向速度和纵向速度,v为车辆速度,θ为车辆航向角,
Figure FDA0003612312960000039
为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。
4.根据权利要求1所述的自动驾驶汽车转向控制方法,其特征在于,步骤S3中,利用DQN算法构建自动驾驶汽车转向控制模型,具体包括以下步骤:
S301:构建车辆状态空间;
所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n
Figure FDA0003612312960000038
其中,Di为车辆i的状态集合,n为所观测车辆的总数,Δvx,Δvy分别为周边车辆与本车的横向相对速度和纵向相对速度,Δx,Δy分别为周边车辆与本车的横向距离和纵向距离;
S302:设置n个离散转向角值,构建由多层深度神经网络组成的在线Q网络、目标Q网络,将当前状态S作为在线Q网络的输入,并输出每个离散转向角值所对应的Q值,选择其中Q值最大的转向角作为所要执行的动作A:
Figure FDA0003612312960000041
其中,ai为离散的转向角值,Q(S,ai)为输入状态S,选择动作ai时的Q值。
5.根据权利要求1所述的自动驾驶汽车转向控制方法,其特征在于,步骤S3中,设计奖励函数R,表达式为:
Figure FDA0003612312960000042
其中,k1,k2,k3,k4为各项奖励的权重系数;第一项为碰撞奖励,collision代表碰撞事件;第二项为右侧车道奖励,lane为本车当前所在车道的序号,lane_num为车道总数;第三项为舒适性奖励,鼓励本车尽量采取较小的转向角,δmin为奖励范围内的最小转向角,δmax为奖励范围内的最大转向角;第四项为车道中心保持奖励,Δx为车辆与车道中心线的横向距离。
CN202110577276.6A 2021-05-26 2021-05-26 基于监督式dqn算法的自动驾驶汽车转向控制方法 Active CN113341960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110577276.6A CN113341960B (zh) 2021-05-26 2021-05-26 基于监督式dqn算法的自动驾驶汽车转向控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110577276.6A CN113341960B (zh) 2021-05-26 2021-05-26 基于监督式dqn算法的自动驾驶汽车转向控制方法

Publications (2)

Publication Number Publication Date
CN113341960A CN113341960A (zh) 2021-09-03
CN113341960B true CN113341960B (zh) 2022-06-03

Family

ID=77471548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110577276.6A Active CN113341960B (zh) 2021-05-26 2021-05-26 基于监督式dqn算法的自动驾驶汽车转向控制方法

Country Status (1)

Country Link
CN (1) CN113341960B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107804315A (zh) * 2017-11-07 2018-03-16 吉林大学 一种考虑驾驶权实时分配的人车协同转向控制方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108098770A (zh) * 2017-12-14 2018-06-01 张辉 一种移动机器人的轨迹跟踪控制方法
JP6797254B2 (ja) * 2018-08-14 2020-12-09 本田技研工業株式会社 相互作用認識意思決定
CN110562258B (zh) * 2019-09-30 2022-04-29 驭势科技(北京)有限公司 一种车辆自动换道决策的方法、车载设备和存储介质
US20210148727A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Simulating diverse long-term future trajectories in road scenes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107804315A (zh) * 2017-11-07 2018-03-16 吉林大学 一种考虑驾驶权实时分配的人车协同转向控制方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep Reinforcement Learning;Jiangdong Liao等;《IEEEACCESS》;20201008;177804-177814 *
高速公路车辆自主性换道行为建模研究;聂建强;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;20190115(第01期);第13、31、51-52页 *

Also Published As

Publication number Publication date
CN113341960A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113156963B (zh) 基于监督信号引导的深度强化学习自动驾驶汽车控制方法
CN111890951B (zh) 智能电动汽车轨迹跟踪与运动控制方法
CN110103956A (zh) 一种无人车自动超车轨迹规划方法
CN106740846B (zh) 一种双模式切换的电动汽车自适应巡航控制方法
CN109969180B (zh) 一种车道偏离辅助系统的人机协调控制系统
CN105741637B (zh) 四轮轮毂电机电动汽车智能转向控制方法
CN108773376B (zh) 一种融合驾驶意图的汽车多目标分层协同控制与优化方法
CN111332362B (zh) 一种融合驾驶员个性的智能线控转向控制方法
CN109606368B (zh) 一种智能汽车可拓车速自适应变化轨迹跟踪控制方法
CN110262514A (zh) 远程遥控与自动驾驶相结合的无人车系统及人机共驾方法
Lopez et al. Game-theoretic lane-changing decision making and payoff learning for autonomous vehicles
CN108791491A (zh) 一种基于自评价学习的车辆侧向跟踪控制方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
JP2009051430A (ja) 走行支援システム
CN110091868A (zh) 一种人机协同控制的纵向避撞方法及其系统、智能汽车
CN110162046A (zh) 基于事件触发型模型预测控制的无人车路径跟随方法
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN112092805B (zh) 一种智能车辆避撞与降低碰撞伤害的集成控制方法和系统
CN114761895A (zh) 混合自动车队的直接和间接控制
CN114987537A (zh) 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制系统与方法
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN113341960B (zh) 基于监督式dqn算法的自动驾驶汽车转向控制方法
US20220274603A1 (en) Method of Modeling Human Driving Behavior to Train Neural Network Based Motion Controllers
CN110103968A (zh) 一种基于三维激光雷达的无人车自主超车轨迹规划系统
CN114407880A (zh) 一种无人驾驶紧急避障路径跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant