CN113341960B - 基于监督式dqn算法的自动驾驶汽车转向控制方法 - Google Patents
基于监督式dqn算法的自动驾驶汽车转向控制方法 Download PDFInfo
- Publication number
- CN113341960B CN113341960B CN202110577276.6A CN202110577276A CN113341960B CN 113341960 B CN113341960 B CN 113341960B CN 202110577276 A CN202110577276 A CN 202110577276A CN 113341960 B CN113341960 B CN 113341960B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- lane
- network
- steering angle
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000001133 acceleration Effects 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 10
- 230000002093 peripheral effect Effects 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 241001122315 Polites Species 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 18
- 230000002787 reinforcement Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Steering Control In Accordance With Driving Conditions (AREA)
Abstract
本发明涉及一种基于监督式DQN算法的自动驾驶汽车转向控制方法,属于自动驾驶汽车领域。该方法包括:S1:获取周边车辆状态信息;S2:建立汽车运动学模型;S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化。本发明提升了DQN算法的训练效率。
Description
技术领域
本发明属于自动驾驶汽车领域,涉及一种基于监督式DQN算法的自动驾驶汽车转向控制方法。
背景技术
在汽车驾驶过程中,存在驾驶员疲劳、情绪波动、操作不当等人为因素的影响,交通事故的预测和预防存在较大困难,而汽车自动驾驶技术的出现和发展为这一问题提供了新的解决思路。
传统自动驾驶技术采用分层结构,各层职能清晰,算法可解释性强,但分层结构需要对多种传统算法进行大量手动调参,且应对复杂交通环境自适应能力弱,鲁棒性欠佳。AI技术与硬件性能的发展为自动驾驶提供了全新的思路,其中深度强化学习的出现催生出端到端的自动驾驶结构。深度强化学习将深度学习的表征能力和强化学习的试错机制完美结合,通过对智能体策略不断训练优化来获得更优的期望奖励,基于深度强化学习的端到端结构可以利用感知输入直接获得油门、刹车、车轮转角等控制动作,大大减少了各层算法构建的工作量和调参成本,同时提升了自动驾驶的泛化能力。
但由于深度强化学习的神经网络在未得到充分训练时将会产生大量无意义甚至危险的动作,训练效率较低,而传统算法可以为深度强化学习算法提供一定程度的引导,提升其训练速度。因此,亟需一种能够综合考虑环境自适应能力和训练时间成本的自动驾驶汽车控制方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于监督式DQN算法的自动驾驶汽车转向控制方法,利用深度强化学习算法-DQN对自动驾驶汽车实现转向控制,并对Q网络的损失函数进行了优化,同时采用传统算法MOBIL提供转向角监督信号进行引导,提升DQN算法的训练效率。
为达到上述目的,本发明提供如下技术方案:
一种基于监督式DQN算法的自动驾驶汽车转向控制方法,具体包括以下步骤:
S1:获取周边车辆状态信息;
S2:搭建汽车运动学模型;
S3:利用DQN(Deep Q Network)算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL(Minimize Overall Braking Inducedby Lane changes)算法构建转向角监督信号,对DQN算法的训练进行引导和优化。
进一步,步骤S1中,获取的周边车辆状态信息,包括:周边车辆与本车的横纵向相对车速,以及周边车辆与本车的横纵向距离。
进一步,步骤S2中,搭建的汽车运动学模型为:
其中,x,y分别为全局坐标系下车辆质心横坐标和纵坐标,分别为全局坐标系下车辆质心横向速度和纵向速度,v为车辆速度,θ为车辆航向角,为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。
进一步,步骤S3中,利用DQN算法构建自动驾驶汽车转向控制模型,具体包括以下步骤:
S301:构建车辆状态空间;
所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n
其中,Di为车辆i的状态集合,n为所观测车辆的总数,Δvx,Δvy分别为周边车辆与本车的横向相对速度和纵向相对速度,Δx,Δy分别为周边车辆与本车的横向距离和纵向距离;
S302:设置n个离散转向角值,构建由多层深度神经网络组成的在线Q网络、目标Q网络,将当前状态S作为在线Q网络的输入,并输出每个离散转向角值所对应的Q值,选择其中Q值最大的转向角作为所要执行的动作A:
其中,ai为离散的转向角值,Q(S,ai)为输入状态S,选择动作ai时的Q值。
进一步,步骤S3中,利用MOBIL算法构建转向角监督信号,具体包括:基于MOBIL算法,选择满足以下条件的车道作为目标车道:
其中,为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,为本车变道后的加速度,为本车变道前的加速度,p为礼貌系数,为本车变道前新车道上相邻后车的加速度,为本车变道后原车道上相邻后车的加速度,为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,为本车横摆角速度,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As:
进一步,步骤S3中,设计奖励函数R,表达式为:
其中,k1,k2,k3,k4为各项奖励的权重系数;第一项为碰撞奖励,collision代表碰撞事件,碰撞发生时为1,未发生时为0;第二项为右侧车道奖励,lane为本车当前所在车道的序号,lane_num为车道总数;第三项为舒适性奖励,鼓励本车尽量采取较小的转向角,δmin为奖励范围内的最小转向角,δmax为奖励范围内的最大转向角;第四项为车道中心保持奖励,Δx为车辆与车道中心线的横向距离。
进一步,步骤S3中,对DQN算法进行训练,具体包括以下步骤:
S311:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动模型得到本车的下一状态S′;
S312:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换;其中,S为当前状态,A为执行的动作,As为当前状态下的转向角监督信号;
S313:从经验池中随机抽取N个样本进行在线Q网络更新;
S314:每隔M步对目标Q网络进行更新:
θQ′=θQ
其中,θQ为在线Q网络参数,θQ′为目标Q网络参数。
进一步,步骤S313中,对在线Q网络的更新方式进行优化,具体包括两个更新目标:
1)使在线Q网络输出的Q值逼近目标Q值;
2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中,k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
其中,lr为Q网络的学习率;
JS为监督部分的损失函数:
采用梯度上升法计算监督部分的更新公式:
故监督式DQN算法的在线Q网络更新公式为:
本发明的有益效果在于:本发明对Q网络的损失函数进行了优化并采用了传统算法MOBIL提供转向角监督信号,提升DQN算法的训练效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于监督式DQN算法的自动驾驶汽车转向控制方法的流程图;
图2为汽车运动学示意图;
图3为DQN算法框架图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明设计了一种基于监督式DQN算法的自动驾驶汽车转向控制方法,利用深度强化学习算法-DQN对自动驾驶汽车实现转向控制,并对Q网络的损失函数进行了优化,同时采用传统算法MOBIL提供转向角监督信号进行引导,提升DQN算法的训练效率。如图1所示,该控制方法具体包括以下步骤:
S1:获取周边车辆状态信息;
其中,周边车辆状态信息包括:周边车辆与本车的横纵向相对车速,周边车辆与本车的横纵向距离。
S2:如图2所示,搭建汽车运动学模型,表达式为:
其中,x,y为全局坐标系下车辆质心横纵坐标,为全局坐标系下车辆质心横纵向速度,v为车辆速度,θ为车辆航向角,为车辆横摆角速度,β为车辆侧偏角,a为车辆加速度,lf为车辆前轴到质心的距离,lr为车辆后轴到质心的距离,δ为车辆前轮转向角。
S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,同时利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化;
如图3所示,利用DQN算法实现对自动驾驶汽车转向角的控制,并对Q网络的损失函数进行了优化,同时采用MOBIL算法为DQN算法的网络训练更新提供转向角监督信号,引导Q网络向正确的方向进行更新,提升Q算法的训练速度。步骤S3具体包括以下步骤:
S31:状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n
其中,Di为单一车辆的状态集合,n为所观测车辆的总数,Δvx,Δvy为周边车辆与本车的横纵向相对速度,Δx,Δy为周边车辆与本车的横纵向距离。
S32:设置n个离散转向角值,构建由多层深度神经网络组成的在线Q网络、目标Q网络,将当前状态S作为在线Q网络的输入,并输出每个离散转向角值所对应的Q值,选择其中Q值最大的转向角作为所要执行的动作A:
其中,ai为离散的转向角值,Q(S,ai)为输入状态S,选择动作ai时的Q值。
S33:同时,基于MOBIL算法,选择满足以下条件的车道作为目标车道:
其中,为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,为本车变道后的加速度,为本车变道前的加速度,p为礼貌系数,为本车变道前新车道上相邻后车的加速度,为本车变道后原车道上相邻后车的加速度,为本车变道前原车道上相邻后车的加速度,ath为加速度阈值。
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As:
S34:设计奖励函数R:
其中,k1,k2,k3,k4为各项奖励的权重系数;第一项为碰撞奖励,collision代表碰撞事件,碰撞发生时为1,未发生时为0;第二项为右侧车道奖励,lane为本车当前所在车道的序号,lane_num为车道总数;第三项为舒适性奖励,鼓励本车尽量采取较小的转向角,δmin为奖励范围内的最小转向角,δmax为奖励范围内的最大转向角;第四项为车道中心保持奖励,Δx为车辆与车道中心线的横向距离;
本车执行动作后,根据奖励函数计算当前状态下执行该动作的奖励值;
S35:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动学模型得到本车的下一状态S′。
S36:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换。
S37:从经验池中随机抽取N个样本进行在线Q网络更新。监督式DQN算法的在线Q网络有两个更新目标:1)使在线Q网络输出的Q值逼近目标Q值;2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
其中,lr为Q网络的学习率。
JS为监督部分的损失函数:
采用梯度上升法计算监督部分的更新公式:
故监督式DQN算法的在线Q网络更新公式为:
S38:每隔M步对目标Q网络进行更新。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于监督式DQN算法的自动驾驶汽车转向控制方法,其特征在于,该方法具体包括以下步骤:
S1:获取周边车辆状态信息;
S2:搭建汽车运动学模型;
S3:利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制,并优化Q网络的损失函数,利用MOBIL算法构建转向角监督信号,对DQN算法的训练进行引导和优化;
步骤S3中,利用MOBIL算法构建转向角监督信号,具体包括:基于MOBIL算法,选择满足以下条件的车道作为目标车道:
其中,为本车变道后新车道上相邻后车的加速度,bsafe为最大减速度,为本车变道后的加速度,为本车变道前的加速度,p为礼貌系数,为本车变道前新车道上相邻后车的加速度,为本车变道后原车道上相邻后车的加速度,为本车变道前原车道上相邻后车的加速度,ath为加速度阈值;
选择目标车道后,根据比例微分控制器计算出当前状态下的转向角δs为:
vex,lat=-Kpdlat
其中,vex,lat为横向期望速度,Kp为横向增益系数,dlat为当前车道与目标车道的横向偏移量,θex为期望航向角,θL为目标车道方向角,θ为本车航向角,为本车横摆角速度,Kp,θ为航向角增益系数;
选择与转向角δs之差绝对值最小的离散转向角值ai作为当前状态下的转向角监督信号As:
对DQN算法进行训练,具体包括以下步骤:
S311:本车执行动作后,根据奖励函数计算当前状态S下执行该动作的奖励值R,并根据汽车运动模型得到本车的下一状态S′;
S312:设置经验池用于存放本步的经验样本{S,A,R,S′,As},当经验池样本数超过经验池容量后,最早的经验样本将被新的经验样本替换;其中,S为当前状态,A为执行的动作,As为当前状态下的转向角监督信号;
S313:从经验池中随机抽取N个样本进行在线Q网络更新;
S314:每隔M步对目标Q网络进行更新:
θQ′=θQ
其中,θQ为在线Q网络参数,θQ′为目标Q网络参数;
步骤S313中,对在线Q网络的更新方式进行优化,具体包括两个更新目标:
1)使在线Q网络输出的Q值逼近目标Q值;
2)使监督信号所对应的Q值尽量大,故监督式DQN算法的在线Q网络的损失函数JQ为:
JQ=kJq+(1-k)JS
其中,k为平衡系数,Jq为传统DQN算法在线Q网络的损失函数:
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj为目标Q值,sj、aj、rj、sj+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态,Q(sj,aj;θQ)为在线Q网络输出的Q值,γ为衰减系数,Q′(sj+1;θQ′)为目标Q网络输出的Q值;
采用梯度下降法计算传统DQN算法在线Q网络的更新公式:
其中,lr为Q网络的学习率;
JS为监督部分的损失函数:
采用梯度上升法计算监督部分的更新公式:
故监督式DQN算法的在线Q网络更新公式为:
2.根据权利要求1所述的自动驾驶汽车转向控制方法,其特征在于,步骤S1中,获取的周边车辆状态信息,包括:周边车辆与本车的横纵向相对车速,以及周边车辆与本车的横纵向距离。
4.根据权利要求1所述的自动驾驶汽车转向控制方法,其特征在于,步骤S3中,利用DQN算法构建自动驾驶汽车转向控制模型,具体包括以下步骤:
S301:构建车辆状态空间;
所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S,表示为:
Di={Δvx,Δvy,Δx,Δy},i=1,2,……,n
其中,Di为车辆i的状态集合,n为所观测车辆的总数,Δvx,Δvy分别为周边车辆与本车的横向相对速度和纵向相对速度,Δx,Δy分别为周边车辆与本车的横向距离和纵向距离;
S302:设置n个离散转向角值,构建由多层深度神经网络组成的在线Q网络、目标Q网络,将当前状态S作为在线Q网络的输入,并输出每个离散转向角值所对应的Q值,选择其中Q值最大的转向角作为所要执行的动作A:
其中,ai为离散的转向角值,Q(S,ai)为输入状态S,选择动作ai时的Q值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577276.6A CN113341960B (zh) | 2021-05-26 | 2021-05-26 | 基于监督式dqn算法的自动驾驶汽车转向控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110577276.6A CN113341960B (zh) | 2021-05-26 | 2021-05-26 | 基于监督式dqn算法的自动驾驶汽车转向控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113341960A CN113341960A (zh) | 2021-09-03 |
CN113341960B true CN113341960B (zh) | 2022-06-03 |
Family
ID=77471548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110577276.6A Active CN113341960B (zh) | 2021-05-26 | 2021-05-26 | 基于监督式dqn算法的自动驾驶汽车转向控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113341960B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107804315A (zh) * | 2017-11-07 | 2018-03-16 | 吉林大学 | 一种考虑驾驶权实时分配的人车协同转向控制方法 |
CN112201069A (zh) * | 2020-09-25 | 2021-01-08 | 厦门大学 | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108098770A (zh) * | 2017-12-14 | 2018-06-01 | 张辉 | 一种移动机器人的轨迹跟踪控制方法 |
JP6797254B2 (ja) * | 2018-08-14 | 2020-12-09 | 本田技研工業株式会社 | 相互作用認識意思決定 |
CN110562258B (zh) * | 2019-09-30 | 2022-04-29 | 驭势科技(北京)有限公司 | 一种车辆自动换道决策的方法、车载设备和存储介质 |
US20210148727A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Simulating diverse long-term future trajectories in road scenes |
-
2021
- 2021-05-26 CN CN202110577276.6A patent/CN113341960B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107804315A (zh) * | 2017-11-07 | 2018-03-16 | 吉林大学 | 一种考虑驾驶权实时分配的人车协同转向控制方法 |
CN112201069A (zh) * | 2020-09-25 | 2021-01-08 | 厦门大学 | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 |
Non-Patent Citations (2)
Title |
---|
Decision-Making Strategy on Highway for Autonomous Vehicles Using Deep Reinforcement Learning;Jiangdong Liao等;《IEEEACCESS》;20201008;177804-177814 * |
高速公路车辆自主性换道行为建模研究;聂建强;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;20190115(第01期);第13、31、51-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113341960A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113156963B (zh) | 基于监督信号引导的深度强化学习自动驾驶汽车控制方法 | |
CN111890951B (zh) | 智能电动汽车轨迹跟踪与运动控制方法 | |
CN110103956A (zh) | 一种无人车自动超车轨迹规划方法 | |
CN106740846B (zh) | 一种双模式切换的电动汽车自适应巡航控制方法 | |
CN109969180B (zh) | 一种车道偏离辅助系统的人机协调控制系统 | |
CN105741637B (zh) | 四轮轮毂电机电动汽车智能转向控制方法 | |
CN108773376B (zh) | 一种融合驾驶意图的汽车多目标分层协同控制与优化方法 | |
CN111332362B (zh) | 一种融合驾驶员个性的智能线控转向控制方法 | |
CN109606368B (zh) | 一种智能汽车可拓车速自适应变化轨迹跟踪控制方法 | |
CN110262514A (zh) | 远程遥控与自动驾驶相结合的无人车系统及人机共驾方法 | |
Lopez et al. | Game-theoretic lane-changing decision making and payoff learning for autonomous vehicles | |
CN108791491A (zh) | 一种基于自评价学习的车辆侧向跟踪控制方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
JP2009051430A (ja) | 走行支援システム | |
CN110091868A (zh) | 一种人机协同控制的纵向避撞方法及其系统、智能汽车 | |
CN110162046A (zh) | 基于事件触发型模型预测控制的无人车路径跟随方法 | |
CN111824182B (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN112092805B (zh) | 一种智能车辆避撞与降低碰撞伤害的集成控制方法和系统 | |
CN114761895A (zh) | 混合自动车队的直接和间接控制 | |
CN114987537A (zh) | 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制系统与方法 | |
CN114253274A (zh) | 基于数据驱动的网联混合车辆编队滚动优化控制方法 | |
CN113341960B (zh) | 基于监督式dqn算法的自动驾驶汽车转向控制方法 | |
US20220274603A1 (en) | Method of Modeling Human Driving Behavior to Train Neural Network Based Motion Controllers | |
CN110103968A (zh) | 一种基于三维激光雷达的无人车自主超车轨迹规划系统 | |
CN114407880A (zh) | 一种无人驾驶紧急避障路径跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |