CN111625989B - 一种基于a3c-sru的智能车汇入车流方法及系统 - Google Patents
一种基于a3c-sru的智能车汇入车流方法及系统 Download PDFInfo
- Publication number
- CN111625989B CN111625989B CN202010193244.1A CN202010193244A CN111625989B CN 111625989 B CN111625989 B CN 111625989B CN 202010193244 A CN202010193244 A CN 202010193244A CN 111625989 B CN111625989 B CN 111625989B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- environment
- sru
- parameters
- main road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002787 reinforcement Effects 0.000 claims abstract description 47
- 238000004088 simulation Methods 0.000 claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 30
- 230000008676 import Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003834 intracellular effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于A3C‑SRU的智能车汇入车流方法及系统,实施方法包括下述步骤:步骤一:由数码摄像头、多线激光雷达、毫米波雷达、gps定位系统等装置采取环境参数和车辆参数。步骤二:根据步骤一中提取的环境参数和车辆参数利用仿真软件搭建仿真环境平台。步骤三:根据步骤二中的仿真环境设置强化学习算法的参数以及约束条件。步骤四:根据步骤二搭建的仿真环境利用A3C‑SRU算法训练,以获得汇入车流场景的决策。步骤五:根据步骤四中的模型获得步骤二中的获得步骤二中的最优动作序列,保存训练后的模型,并将模型输入到智能车,实现汇入车流任务。本发明基于A3C‑SRU的智能车汇入车流算法根据步骤一到步骤五的设置,能够有效的实现实时地汇入车流任务。
Description
技术领域
本发明公开了一种基于A3C-SRU的智能车汇入车流算法及系统,属于自动驾驶领域。
技术背景
在无人驾驶车的整个决策系统中,汇入车流问题一直是一个难点问题,同时也是一个不得不解决的关键问题,对于人类驾驶员而言,大约20%的交通事故都发生在匝道口,汇入车流主要需要考虑在复杂的交通汇流场景中,主路车流量的情况,以及在交叉路口周围环境发生的变化,通常情况下,一个汇入行为涉及到一系列复杂的决策行为,在汇入过程中的决策行为往往会对交通流量效率和汇入的安全性产生极大的影响。但如今面对汇入车流场景时,无人车决策系统并不能智能地汇入到主路车流中,无人驾驶系统面对复杂的环境场景时还不能给出一个完善的汇入车流策略解决办法,目前智能车对复杂环境场景的处理情况研究还处于起步阶段,如何让智能车的行为决策像机动车驾驶员的决策行为一样,学习周围复杂环境、采取适当决策并及时做出控制一直是研究的重点问题。
目前现有技术包括公开的专利主要采用的汇入车流方法有车辆协同控制方法、车辆汇入引导方法、基于碰撞时间(Time-to-Collision)模型的汇入方法和基于机器学习的汇入车流方法等方法。然而采用车辆协同控制方法和车辆汇入引导方法汇入车流虽然能达到高效的汇入效果,但很明显需要消耗大量的外界力量与资源,不能自主学习适应外界多变的环境。而传统的汇入车流方法和基于机器学习的汇入车流方法通常来说采用保守的汇入策略,且不能有效地预测将来即将发生的变化,同时,不能很好地与代理环境进行交互。目前无人驾驶汽车的决策水平总体来说还不能完全达到人类驾驶员的决策水平,人类驾驶员的决策能力通过长时间不断的学习从而达到趋于成熟的决策,而强化学习是目前最接近人类学习方式的算法,将强化学习与汇入车流场景相结合将有效增加无人驾驶技术水平。
目前提出的强化学习的汇入车流方法主要基于简单环境场景下的汇入车流任务,当前强化学习汇入车流算法应用于复杂场景下收敛速度和训练时间会大量增加,且根据当前的强化学习算法设计,应用在复杂场景下汇入效果并不理想,综合考虑以上因素,迫切需要提出一种在复杂环境下的新的强化学习算法,改进现有方案的不足。因此研究基于A3C-SRU的智能车汇入车流算法具有重要的理论和现实意义。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于A3C-SRU的智能车汇入车流算法及系统,目的在于解决智能车在多复杂环境中的汇入车流问题,同时,在现有算法的基础上实现更好的汇入性能,并有效缩短训练时间。
为实现上述目的,本发明提供如下技术方案:一种基于A3C-SRU智能车汇入车流算法,包括如下步骤:
步骤一,由数码摄像头、多线激光雷达、毫米波雷达、gps定位系统等装置采取环境参数和车辆参数。
步骤二,根据步骤一中提取的环境参数和车辆参数利用仿真软件搭建仿真环境平台。
步骤三,根据步骤二中的仿真环境设置汇入车流的约束条件及强化学习算法的参数。
步骤四,根据步骤二搭建的仿真环境利用深度强化学习A3C-SRU算法进行多回合训练,以获得汇入车辆的决策过程。
步骤五,根据步骤四中训练后的决策过程获得步骤二中的最优动作序列,保存训练后的模型,并将模型输入到智能车,实现汇入车流任务。
进一步地,所述步骤一中采集的环境参数、车辆参数:环境中的车道的宽度d;环境中主路车道数n;环境中主路的长度L1以及汇入匝道的长度L2;环境中主路车辆的限速v主以及环境中匝道车辆限速v匝;主路的车流量N、加速度ac、速度vc、初速度vinit;车辆的长度lc和宽度wc。
进一步地,所述步骤二中具体的环境汇入场景构建如下:
步骤二一,利用仿真软件根据实际场景的车道的宽度d、环境中主路车道数n、环境中主路的长度L1以及汇入匝道的长度L2、环境中主路车辆的限速v主以及环境中匝道车辆限速v匝搭建实际场景的汇入车流环境。
步骤二二,输入所采集实际场景的主路的车辆量N、车辆加速度ac、车辆速度vc、初速度vinit、车辆长度lc和宽度数据wc。
步骤二三,根据步骤二一、步骤二二代建实际场景仿真平台,根据实际汇入车辆的设置汇入车辆信息。
进一步地,所述的汇入车流的约束条件及强化学习算法的参数具体包括四元组空间(st,at,rt,st+1)。其中st为当前状态,at为当前状态所执行的动作值,rt为当前状态获得的奖惩函数值,st+1为下一个状态值。
其中,st为当前状态,at为当前状态所执行的动作值,rt为当前状态获得的奖惩函数值,st+1为下一个状态值。
进一步地,所述的st为强化学习的状态空间,状态空间由5元组表示为:
st=(d1,d2,vh,vt1,vt2);
式中,d1为与汇入车辆相邻车道相邻最近的主路的后车距离,d2为与汇入车辆相邻车道相邻最近的主路的前车距离,vh为汇入车辆的车速,vt1为与汇入车辆相邻车道相邻最近的主路的前车速度,vt2为与汇入车辆相邻车道相邻最近的主路的前车速度。
进一步地,所述的at为强化学习的动作空间,动作空间由两元组表示为:
at=(av,wv)
式中,av表示汇入车辆的加速度变化(变化范围由无人驾驶车的自身特性所决定),wv为汇入车辆方向盘转角(变化范围由无人驾驶车的自身特性所决定)。
进一步地,所述的rt为强化学习中的奖惩函数,其具体描述如下:
(1)当车辆在单回合发生碰撞时,给予惩罚r1,其中,r1<0。
当汇入车辆成功汇入车流时,给于奖励r1,其中,r1>0。
(2)当车辆与汇入车辆相邻车道相邻最近的主路的前车距离d1和与汇入车辆相邻车道相邻最近的主路的前车距离d2同时达到一定距离L时,在单回合每步中,给予奖励r2,其中,r2>0。
当不符合(2)的条件时,在单回合每步中,给予惩罚r2,其中,r2<0。
(3)设置单回合每步的惩罚函数,给予每步的惩罚函数r3,其中,r3<0,当汇入时间步数越久,r3越大。
进一步地,所述的强化学习中总奖励函数表示为:
R=r1+r2+r3
进一步地,所述的所有仿真数据由仿真中搭建的传感器装置获得,实际场景数据由车身安装的传感器装置获得。
进一步地,所述的所述步骤四中A3C-SRU算法的结构,在强化学习异步优势动作评判算法(A3C)的评判网络(critic)结合简单循环单元(SRU)神经网络,根据SRU神经网络的记忆性,预测状态-动作值,使actor网络中的动作值朝着最大奖励值函数的方向提升。
进一步地,所述步骤四中,强化学习决策模块训练过程如下:
步骤四一,初始化A3C-SRU总网络策略π(at|st;θ)参数θ、值函数V(st;θv)参数θv以及每个局部网络策略π(at|st;θ')参数θ'和值函数V(st;θv')的参数θv'。
步骤四二,每个局部网络对各自所搭建的仿真环境进行训练,评判网络(critic)通过更新V(st;θv')的参数θv',使动作网络(actor)朝获得单步最大奖励函数的方向提高π(at|st;θ')中的参数θ',动作网络通过π(at|st;θ')选择at,得到奖励rt和下一个状态st+1,评判网络中SRU神经网络通过记忆长时间的状态s对动作a进行提升。
步骤四三,局部网络达到一定设定步数或完成一个回合,局部网路推送各自的参数θ'和θv'发送至总网络,总网络更新接受到的所有参数,并发送提升后的参数θ、θv推送至各个局部网络,每个局部网络继续进行训练。
步骤四四,发送更新后的整体网络参数到各局部网络,直到训练回合结束。
本发明还发明了一种系统,包括:
1.环境参数采集模块,采集实际场景的环境数据以及车辆参数数据应用于仿真场景搭建模块的输入。
2.仿真场景搭建模块,环境参数采集模块的参数输入到仿真场景代建模块,为强化学习决策模块做准备。
3.强化学习决策模块,强化学习决策模块应用于仿真场景搭建模块。
4.模型输出控制模块,模型输出控制模块接收强化学习决策模块的模型,应用于无人驾驶汽车。
本发明的优势在于
1.本发明针对强化学习解决多复杂情况下的汇入车流任务提供了一种新的解决方案。
2.本发明使用A3C-SRU算法改善了之前强化学习汇入车流算法的性能,同时,解决强化学习算法基于杂场景训练时间过长的问题,有效的缩短训练时间。
3.本发明针对强化学习汇入车流任务发明了一个完善的系统,并针对场景具有泛化能力。
附图说明
图1为系统的工作流程图。
图2为仿真道路场景示意图。
图3为算法的执行示意图图。
具体实施方式
结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
结合图1至3所示,本实例基于A3C-SRU智能车汇入车流算法,其具体实施步骤包括如下步骤:
步骤1,使用数码摄像头、多线激光雷达、毫米波雷达、gps定位系统等装置获取汇入车辆所需汇入场景的环境数据、车辆参数数据,其中包括:环境中的车道的宽度d;环境中主路车道数n;环境中主路的长度L1以及汇入匝道的长度L2;环境中主路车辆的限速v主以及环境中匝道车辆限速v匝;主路的车流量N、加速度ac、速度vc、初速度vinit;车辆的长度cv和宽度wc。采集频率默认为10HZ,通过视频提取软件获取所需要的数据,采集的时间可根据强化学习算法单回合的训练时间自行设定。
步骤2,利用上述所得到的环境参数及车辆参数输入到Simulation of UrbanMobility(SUMO)仿真软件中,通过软件中路网文件和交通流描述模拟搭建真实的仿真环境(见图1),其中车辆的坐标系以前保险杠的中点位置为车辆的坐标原点,软件中设置采样频率与采集数据的采样频率相同,频率为10HZ。
步骤3,根据上述仿真环境设置汇入车流的约束条件及强化学习算法的参数,强化学习中速度条件如下,定义四元组状态空间(st,at,rt,st+1)。
st为当前状态,状态空间中包含5元组状态,st=(d1,d2,vh,vt1,vt2),式中,d1为与汇入车辆相邻车道相邻最近的主路的后车距离,d2为与汇入车辆相邻车道相邻最近的主路的前车距离,vh为汇入车辆的车速,vt1为与汇入车辆相邻车道相邻最近的主路的前车速度,vt2为与汇入车辆相邻车道相邻最近的主路的前车速度。当强化学习算法应用在搭建的仿真场景,状态空间从仿真场景获得,当强化学习算法应用在实际汇入车流场景,状态空间从实际场景获得。
at为当前时刻动作值,动作空间由二元组组成,at=(av,wv),av表示汇入车辆的加速度变化(变化范围由无人驾驶车的自身特性所决定),wv为汇入车辆方向盘转角(变化范围由无人驾驶车的自身特性所决定),考虑到保持汇入车辆的舒适性和安全性,加速度av每个采样周期变化范围建议为[-3.4m/s2,3.4m/s2],方向盘转角wv每个采样周期变化范围建议为[-90°,90°]。
rt为执行当前动作at后的奖惩函数,具体为:当车辆在单回合发生碰撞时,给予惩罚r1,其中,r1<0,当汇入车辆当前步数Sc超过最大汇入步数Smax时,当作碰撞处理。当汇入车辆成功汇入车流时,给于奖励r1,其中,r1>0。发生碰撞时,建议r1取值为-25,成功汇入时,建议r1取值为20。(2)当车辆与汇入车辆相邻车道相邻最近的主路的前车距离d1和与汇入车辆相邻车道相邻最近的主路的前车距离d2同时达到一定距离L时,在单回合每步中,给予奖励r2,其中,r2>0。当不符合(2)的条件时,在单回合每步中,给予惩罚r2,其中,r2<0。建议符合条件(2)时,给予每步奖励r2=0.5,不符合条件(2)时,给予每步惩罚r2=-1。(3)设置单回合每步的惩罚函数,给予每步的惩罚函数r3,其中,r3<0,当汇入时间步数越久,r3越大。
r3定义如下:
r3=|Smax-Sc|*ω
式中,Smax为设定的最大汇入步数,Sc为当前时刻的步数,ω为权重,建议权重取0.2。
执行完一个回合时总奖励函数定义为:R=r1+r2+r3。
设置强化学习算法的参数见表1所示
表1
建议参数参考值:动作网络学习率为1e-4,评判网络学习率为2e-4,折扣因子为0.9,全局更新率视最大汇入步数而定,熵为0.01,SRU细胞单元个数、训练最大回合数、单回合最大汇入步数视具体汇入场景而定。
步骤4,利用深度强化学习算法A3C-SRU对仿真汇入场景进行多回合训练,构成强化学习决策模块,从而进行训练,网络分为总体网络和局部网络,过程具体如下:
根据训练强化学习A3C-SRU算法的PC机核数分为不同线程的汇入车流环境进行训练,其中,每一个线程执行一个单独的汇入车流环境。A3C-SRU将相同的汇入车流任务分发给不同的线程执行,每一个执行的线程中包含一个局部的A3C-SRU网络。
步骤四一,初始化A3C-SRU总网络策略π(at|st;θ)参数θ、值函数V(st;θv)参数θv以及每个局部网络策略π(at|st;θ')参数θ'和值函数V(st;θv')的参数θv'和每个代理环境初始化状态st。
步骤四二,每个局部网络对各自所搭建的仿真环境进行训练,评判网络(critic)通过更新V(st;θv')的参数θv',使动作网络(actor)朝获得单步最大奖励函数的方向提高π(at|st;θ')中的参数θ',动作网络通过π(at|st;θ')选择at,得到奖励rt和下一个状态st+1,评判网络中SRU神经网络通过记忆长时间的状态s对动作a进行提升,具体更新操作如下:
局部网络中的动作网络通过最小化损失函数损失(a_loss)的方式更新动作网络。
式中,A(st,at;θ',θV')被称作优势函数,用于计算总汇报R与期望回报R’的差值:
式中,γ是汇报衰减因子,γ∈(0,1],k的最大上限是Smax(最大汇入步数),其中为最大总回报R,当一个回合结束后,最后一个动作的预期回报R’为0,或者当网络达到全局更新率时,最后一个状态动作的预期回报为R’=V(st;θv'),。
在算法网络中,为了使网络提高搜索范围,搜索最优的动作值,在网络中加入了策略π(at|st;θ')的熵:
其中,c是熵系数,H是策略π的熵。
在局部网络中的评判网络结合SRU神经网络通过TD-error的方式更新评判网络。
式中,V(st;θ')为t时刻的动作-状态值。
V(si;θ')通过SRU神经网络进行更新,具体更新过程如下:
1.将强化学习初始状态s作为SRU中的输入x,设置SRU细胞单元数量cell_size,初始化细胞内部状态cinit。
2.整个SRU神经网络通过遗忘门门与重置门控制之前状态和当前状态的遗忘程度,对网络进行更新。
式中,W为神经网络权重,xt为t时刻的输入。
ft=σ(Wfxt+bf)
式中,f表示遗忘门(forget gate),σ为激活函数,Wf为遗忘门权重,bf为遗忘门偏置。
rt=σ(Wrxt+br)
式中,r表示重置门(reset gate),σ为激活函数,Wr为重置门权重,br为权重门偏置。
式中,ct表示t时刻的细胞内部状态。
ht=rt⊙g(ct)+(1-rt)⊙xt
式中,ht表示t时刻的输出,g为神经网络激活函数,默认为tanh。
3.将当前时刻SRU神经网络网络输出状态应用于评判神经网络用来预测V(si;θ')。
在局部网络提升网络参数,网络采用RMSProp方法对局部网络梯度进行提升,具体如下:
步骤四三,局部网络达到全局更新率或完成一个回合,局部网路推送各自的参数θ'和θv'发送至总网络,总网络更新接受到的所有参数,具体如下:
θ=θ-αdθ
dθv=θv-βdθv
式中,α,β为网络步长。
步骤四四,发送更新后的整体网络参数到各局部网络,直到训练回合结束。
步骤五,利用深度强化学习A3C-SRU算法训练完成后可得最优汇入策略,将训练后的模型保存后输入到实际汇入车辆中,实际汇入车辆根据实际环境变化由车身所安装传感器数据获得外部环境信息,从而利用深度强化学习算法A3C-SRU根据实际环境和强化学习决策模块输入到车辆中的模型获得最优的汇入车流决策,最终实现汇入车流任务。
上述实施例为本发明较佳的实施方式,并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于A3C-SRU的智能车汇入车流方法,其特征在于:该方法包括如下步骤,
步骤一:由数码摄像头、多线激光雷达、毫米波雷达、gps定位系统装置提取环境参数和车辆参数;
步骤二:根据步骤一中提取的环境参数和车辆参数利用仿真软件搭建仿真环境平台;
步骤三:在步骤二中的仿真环境平台中设置汇入车流的约束条件及强化学习方法的参数;
步骤四:根据步骤二搭建的仿真环境利用深度强化学习A3C-SRU算法进行多回合训练,以获得汇入车辆的决策过程;
步骤五:根据步骤四中训练后的决策过程获得步骤二中的最优动作序列,保存训练后的模型,并将训练后的模型输入到智能车,实现汇入车流任务;
所述步骤一中的环境参数和车辆参数包括:环境中的车道的宽度d;环境中主路车道数n;环境中主路的长度L1以及汇入匝道的长度L2;环境中主路车辆的限速v主以及环境中匝道车辆限速v匝;主路的车流量N、加速度ac、速度vc、初速度vinit;车辆的长度cv和宽度wc;
所述步骤二中具体的环境汇入场景构建如下:
步骤21,利用仿真软件根据实际场景的车道的宽度d、环境中主路车道数n、环境中主路的长度L1以及汇入匝道的长度L2、环境中主路车辆的限速v主以及环境中匝道车辆限速v匝搭建实际场景的汇入车流环境;
步骤22,输入所采集实际场景的主路的车辆量、车辆加速度、车辆速度、初速度、车辆长度和宽度数据;
步骤23,根据步骤21、步骤22代建实际场景仿真平台,根据实际汇入车辆的设置汇入车辆信息;
汇入车流的约束条件及强化学习算法的参数具体包括四元组空间(st,at,rt,st+1),其中st为当前状态,at为当前状态所执行的动作值,rt为当前状态获得的奖惩函数值,st+1为下一个状态值;
st为强化学习的状态空间,状态空间由5元组表示为:
st=(d1,d2,vh,vt1,vt2);
式中,d1为与汇入车辆相邻车道相邻最近的主路的后车距离,d2为与汇入车辆相邻车道相邻最近的主路的前车距离,vh为汇入车辆的车速,vt1为与汇入车辆相邻车道相邻最近的主路的前车速度,vt2为与汇入车辆相邻车道相邻最近的主路的前车速度;
at为强化学习的动作空间,动作空间由两元组表示为:
at=(av,wv)
式中,av表示汇入车辆的加速度变化,wv为汇入车辆方向盘转角;
rt为强化学习中的奖惩函数,具体描述如下:
(1)当车辆在单回合发生碰撞时,给予惩罚r1,其中,r1<0;当汇入车辆成功汇入车流时,给于奖励r1,其中,r1>0;
(2)当车辆与汇入车辆相邻车道相邻最近的主路的前车距离d1和与汇入车辆相邻车道相邻最近的主路的前车距离d2同时达到一定距离L时,在单回合每步中,给予奖励r2,其中,r2>0;当不符合(2)的条件时,在单回合每步中,给予惩罚r2,其中,r2<0;
(3)设置单回合每步的惩罚函数,给予每步的惩罚函数r3,其中,r3<0,当汇入时间步数越久,r3越大。
2.根据权利要求1所述的一种基于A3C-SRU的智能车汇入车流方法,其特征在于,强化学习中总奖励函数表示为:
R=r1+r2+r3。
3.根据权利要求1所述的一种基于A3C-SRU的智能车汇入车流方法,其特征在于,所有仿真数据由仿真中搭建的传感器装置获得,实际场景数据由车身安装的传感器装置获得。
4.根据权利要求1所述的一种基于A3C-SRU的智能车汇入车流方法,其特征在于,步骤四中A3C-SRU算法的结构,在强化学习异步优势动作评判算法的评判网络结合简单循环单元神经网络;
强化学习决策模块训练过程如下:
步骤41,初始化A3C-SRU总网络策略π(at|st;θ)参数θ、值函数V(st;θv)参数θv以及每个局部网络策略π(at|st;θ')参数θ'和值函数V(st;θv')的参数θv';
步骤42,每个局部网络对各自所搭建的仿真环境进行训练,评判网络通过更新V(st;θv')的参数θv',使动作网络朝获得单步最大奖励函数的方向提高π(at|st;θ')中的参数θ',动作网络通过π(at|st;θ')选择at,得到奖励rt和下一个状态st+1,评判网络中SRU神经网络通过记忆长时间的状态s对动作a进行提升;
步骤43,局部网络达到全局更新率或完成一个回合,局部网路推送各自的参数θ'和θv'发送至总网络,总网络更新接受到的所有参数;
步骤44,发送更新后的整体网络参数到各局部网络,直到训练回合结束。
5.利用权利要求1所述一种基于A3C-SRU的智能车汇入车流方法的系统,其特征在于,该系统包括:环境参数采集模块,采集实际场景的环境数据以及车辆参数数据应用于仿真场景搭建模块的输入;仿真场景搭建模块,环境参数采集模块的参数输入到仿真场景代建模块,为强化学习决策模块做准备;强化学习决策模块,强化学习决策模块应用于仿真场景搭建模块;模型输出控制模块,模型输出控制模块接收强化学习决策模块的模型,应用于无人驾驶汽车。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010193244.1A CN111625989B (zh) | 2020-03-18 | 2020-03-18 | 一种基于a3c-sru的智能车汇入车流方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010193244.1A CN111625989B (zh) | 2020-03-18 | 2020-03-18 | 一种基于a3c-sru的智能车汇入车流方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625989A CN111625989A (zh) | 2020-09-04 |
CN111625989B true CN111625989B (zh) | 2024-02-13 |
Family
ID=72270893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010193244.1A Active CN111625989B (zh) | 2020-03-18 | 2020-03-18 | 一种基于a3c-sru的智能车汇入车流方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625989B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201070B (zh) * | 2020-09-29 | 2022-03-01 | 上海交通大学 | 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法 |
CN112590792B (zh) * | 2020-12-18 | 2024-05-10 | 的卢技术有限公司 | 一种基于深度强化学习算法的车辆汇合控制方法 |
CN112991544A (zh) * | 2021-04-20 | 2021-06-18 | 山东新一代信息产业技术研究院有限公司 | 一种基于全景影像建模的群体疏散行为仿真方法 |
CN113324556B (zh) * | 2021-06-04 | 2024-03-26 | 苏州智加科技有限公司 | 基于车路协同强化学习的路径规划方法及装置、应用系统 |
CN115457782B (zh) * | 2022-09-19 | 2023-11-03 | 吉林大学 | 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109143852A (zh) * | 2018-07-17 | 2019-01-04 | 北京理工大学 | 城市环境下智能驾驶车辆环境自适应汇入方法 |
CN110654384A (zh) * | 2019-11-04 | 2020-01-07 | 湖南大学 | 一种基于深度强化学习的车道保持控制算法及系统 |
CN110716562A (zh) * | 2019-09-25 | 2020-01-21 | 南京航空航天大学 | 基于强化学习的无人驾驶汽车多车道行驶的决策方法 |
CN110749455A (zh) * | 2019-10-29 | 2020-02-04 | 长安大学 | 一种无人车汇入车流通行能力测试系统及测试方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606270B2 (en) * | 2017-10-18 | 2020-03-31 | Luminar Technologies, Inc. | Controlling an autonomous vehicle using cost maps |
-
2020
- 2020-03-18 CN CN202010193244.1A patent/CN111625989B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109143852A (zh) * | 2018-07-17 | 2019-01-04 | 北京理工大学 | 城市环境下智能驾驶车辆环境自适应汇入方法 |
CN110716562A (zh) * | 2019-09-25 | 2020-01-21 | 南京航空航天大学 | 基于强化学习的无人驾驶汽车多车道行驶的决策方法 |
CN110749455A (zh) * | 2019-10-29 | 2020-02-04 | 长安大学 | 一种无人车汇入车流通行能力测试系统及测试方法 |
CN110654384A (zh) * | 2019-11-04 | 2020-01-07 | 湖南大学 | 一种基于深度强化学习的车道保持控制算法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111625989A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN113805572B (zh) | 运动规划的方法与装置 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN110297494B (zh) | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 | |
CN111931905B (zh) | 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN109910909B (zh) | 一种多车运动状态的汽车轨迹网联交互式预测方法 | |
CN112201069B (zh) | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN109213148A (zh) | 一种基于深度强化学习的车辆低速跟驰决策方法 | |
CN114973650B (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN113255998B (zh) | 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 | |
CN110956851A (zh) | 一种智能网联汽车协同调度换道方法 | |
CN114580302A (zh) | 基于最大熵强化学习的自动驾驶汽车决策规划方法 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
CN116432454A (zh) | 基于性格选择的自动驾驶汽车决策规划方法 | |
CN117227755A (zh) | 基于强化学习的复杂交通场景下自动驾驶决策方法及系统 | |
CN115257789A (zh) | 城市低速环境下的营运车辆侧向防撞驾驶决策方法 | |
CN117709602B (zh) | 一种基于社会价值取向的城市智能车辆拟人化决策方法 | |
CN114267191B (zh) | 缓解交通拥堵驾驶员控制系统、方法、介质、设备及应用 | |
CN117872800A (zh) | 一种基于离散状态空间下强化学习的决策规划方法 | |
CN117227761A (zh) | 一种基于强化学习的自动驾驶车辆高速匝道智能汇入方法 | |
CN116639124A (zh) | 一种基于双层深度强化学习的自动驾驶车辆换道方法 | |
CN114707359A (zh) | 基于值分布强化学习的自动驾驶汽车决策规划方法 | |
CN114789729A (zh) | 一种基于驾驶风格的匝道协同控制系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |