CN108932840A - 基于强化学习的无人驾驶车辆城市交叉口通行方法 - Google Patents

基于强化学习的无人驾驶车辆城市交叉口通行方法 Download PDF

Info

Publication number
CN108932840A
CN108932840A CN201810780418.7A CN201810780418A CN108932840A CN 108932840 A CN108932840 A CN 108932840A CN 201810780418 A CN201810780418 A CN 201810780418A CN 108932840 A CN108932840 A CN 108932840A
Authority
CN
China
Prior art keywords
vehicle
algorithm
matrix
value
acceleration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810780418.7A
Other languages
English (en)
Other versions
CN108932840B (zh
Inventor
陈雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810780418.7A priority Critical patent/CN108932840B/zh
Publication of CN108932840A publication Critical patent/CN108932840A/zh
Application granted granted Critical
Publication of CN108932840B publication Critical patent/CN108932840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/052Detecting movement of traffic to be counted or controlled with provision for determining speed or overspeed
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明公开了一种基于强化学习的无人驾驶车辆城市交叉口通行方法,步骤1、通过摄像法采集车辆连续运行状态信息和位置信息,包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力;步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量;步骤3、通过指数加权移动平均的方法来处理原始数据;步骤4、利用NQL算法实现交叉口通行方法。本发明NQL算法在处理复杂的交叉路口场景时学习能力明显优于Q学习算法,以更少的训练数据在更短的训练时间内达到更好的训练效果。

Description

基于强化学习的无人驾驶车辆城市交叉口通行方法
技术领域
本发明属于无人驾驶领域,更具体的涉及一种基于强化学习的无人驾驶车辆城市交叉口通行方法。
背景技术
作为未来提高城市道路通行效率和减少道路安全事故的利器,无人驾驶车辆近年来得到了极大地发展,并且国内外许多科研机构和高校仍在加大研发力度。但要使无人驾驶车辆在混杂的实际道路环境中实现完全的自主驾驶,就必须让无人驾驶车辆的“控制脑”像人类驾驶员一样具有学习和随机应变的能力。而基于传统规则的车辆智能行驶系统仅仅只适用于特定的驾驶场景,无法实现自动驾驶决策系统的环境自适应性和鲁棒性;特别是像城市交叉路口这种由于大量车辆穿行而产生冲突的热点区域,其对无人驾驶车辆做出实时正确的决策有着极高的要求。
国内外许多学者对城市不同交通环境下的车辆通行状况进行了大量、系统的研究,从不同的研究角度提出了许多车辆通行模型。
HoriuchiM等,通过GM(GeneralMotor)微观模型描述速度与流量之间的宏观关系,模型形式简单、物理意义明确,但其通用性能不高,其不能随着交通环境和运行状态的改变而做出相应的改变,只能描述具体某段时间内的交通流行为,泛化能力太低;EvansD等提出的线性模型,尽管考虑了通行过程中,头车制动对跟随车辆的影响,但与GM模型一样,对复杂多变的城市交叉口交通环境不能起很好的作用,只适用于单一、简单的环境。LiangJ,MengD等提出了在车辆通行过程中保持前车和跟随车间的安全距离的防撞模型,基于CA模型又演变出了SISTM、INTRAS和CARSIM等模型,CA模型会严格遵守“最小安全距离”的准则,但其在处理人-车-路(环境)多源融合信息时,反应的精准性和实时性远远不够。
Joachim等,曲大义等,Rauskolb等分别采用基于行为网络、基于分层Logit模型、基于混合规则与行为模型的方法建立智能车辆行为决策模型,对不同交通场景下的跟车、换道等行为提出了相应的解决办法。Wei等提出了一种基于预测和成本函数的方法,该方法通过人类能够理解的成本函数库评估预测的交通情况,并且基于最低成本选择最佳控制策略。陈佳佳等为解决复杂城市环境中智能车辆的行为决策问题,使用了层次分析法以及理想决策相似度判别技术。孙振平等研究了高速公路环境下基于安全、效率与交通规则的行为决策问题,给出相应的决策结果。北京理工大学龚建伟等提出了一种基于直觉的决策方法,即在离线学习过程中,将经验驾驶员的驾驶经验转化为知识,并将提取出来的规则应用于车辆行为决策中。Song等为了能在每个预测时间步更新意图,构建类人策略机制生成候选决策,并建立一个部分可观察的马尔可夫决策过程(POMDP)来建模一般决策框架,实现驾驶状态转换。王畅等提出了基于预瞄—跟随理论的智能车行为决策方法,提出了自动换道跟随算法,该算法体现了真实的驾驶行为,提高了智能车辆的行驶稳定性。
上述提出的研究方法大部分都是针对特定的较为简单的交通场景,高密度的城市环境少有涉及。而实际的交通场景是一个高度动态的复杂环境,许多因素往往不能提前精确建模,在传统的行为决策体系当中,没有很好的考虑人-车-路(环境)的交互,因此给出的决策往往不具备良好的环境适应性。因此,许多学者将强化学习(机器学习分支之一)应用到无人驾驶车辆的行为决策算法开发,为实现无人驾驶车辆的在线学习提供了有效手段。
Q-Learning算法是一种异策略的离线强化学习方法,它的原理与前面提到的Sarsa算法基本一致,其算法的最大特点是只考虑当前的即时回报和趋向于采取最优动作带来的收益。从前面的强化学习介绍知,Agent在某种策略下与环境进行交互时,在每一个状态下都会以某个概率去选择一系列的动作,每当确定一个动作并执行后,状态发生改变的同时环境会给出一个奖惩值,而Q值就是这个奖惩值,即某个Q值是在某个策略下采取某对“状态—动作”所得到的收益。在与环境交互学习的过程中,每次得到Q值会被储存在一个以状态空间为行和动作空间为列的表格(Q值表或Q矩阵)中,故Q-Learning也称为“表格型值函数”。
Neural Q-Learning(NQL)算法,误差逆传播(BP)神经网络,NQL中实现最优动作值函数迭代的关键就是利用误差信号的反向传播进行残差计算分析,这就必须要用到BP神经网络。神经网络中的信息传递和处理流程如下:外界信号由输入层输入、经过隐层(可能有多层结构)和输出层的激活函数计算,将得到的输出值与样本值进行差值比较,将该误差值再反过来从输出层传递,在反向传递时,利用梯度下降算法修正各个节点间的连接权重ω和偏置量b,这样才完成一个更新迭代过程,重复循环直至训练完所有样本数据为止。
本发明研究就针对城市交叉路口无人驾驶车辆穿越通行问题,综合考虑穿越过程的安全性和效率等因素,提出了基于强化学习算法寻找最优穿越通行策略的方法。
发明内容
1、发明目的。
本发明提出了一种基于强化学习的无人驾驶车辆城市交叉口通行方法,解决现有无人驾驶技术中未考虑安全性和效率的因素,带来的不舒适的驾驶体验。
2、本发明所采用的技术方案。
本发明提出了一种基于强化学习的无人驾驶车辆城市交叉口通行方法,包括如下步骤:
步骤1、通过摄像法采集车辆连续运行状态信息和位置信息,包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力;
步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量;
步骤3、通过指数加权移动平均的方法来处理原始数据;
步骤4、利用NQL算法实现交叉口通行方法。
更进一步,所述的步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行
步骤4.1如图4.5状态量Sk设定:包括与交叉路口的车辆相对速度ΔVi和相对距离DLi(位置坐标y的差值)为一个交叉单元穿越行为系统;
步骤4.2动作量Ak设定:横向和纵向两个方向上的运动决策,空间设置包括车辆的纵向加速度al和横向加速度ah,即决策动作集A={al,ah};
步骤4.3奖励函数的设定,将从安全性、通行效率和驾驶舒适性三个方面来考虑
决策更新迭代过程中设定的奖励函数Rr由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成,具体公式如下:
Rr=ksRs+keRe+kcRc+C (4.35)
其中ks、ke、kc分别表示安全性、通行效率和驾驶舒适性对应的奖励函数的权重值,C为常数;
步骤4.4利用步骤4.1状态量Sk,步骤4.2动作量Ak和动作值函数Q(Sk,Ak)进行当前的决策动作的计算:
Sk+1=DSk+FAk
其中,矩阵D和矩阵F为算法决策系统的相关系数矩阵;矩阵B为状态量对奖励函数的权重,矩阵C为动作量对奖励函数的权重;矩阵Hxx,Hux,Hxu,Huu 为NQL算法决策系统的参数矩阵;A′k为此刻的最优动作量,Rk为神经网络损失函数,为系数矩阵;
其中
将BP神经网络中各层的权重组成一个参数向量ω=[ω1,ω2,ω3,ω4,ω5,ω6,ω7,ω8]T,再把环境状态量的二次型表示作为神经网络的输入向量Xk,最后通过动作值函数Q(xk)=Xk·ωT对输入量求偏导数来计算和迭代权重值ω。
更进一步,所述的步骤4.3奖励函数的设定具体按照如下进行:
步骤4.31安全性奖励函数,
考虑穿越过程中的安全性奖励函数Rs时,要从车辆横向运动和纵向运动两个方面设定;车辆的纵向运动和纵向运动,交叉路口两个方向上防止碰撞;选择碰撞时间TTC及其倒数来衡量通过安全性,保证在TTC内避免与车辆碰撞,而在其他安全行驶区域没有碰撞发生时,设定的奖励值为零,具体函数设定为:
其中碰撞时间TTC是由前后车距与前后相对车速决定;TTCth表示碰撞时间的阈值,选取车辆的质心位置来计算相对车距,故要车身大小对碰撞的影响,同时结合原始数据的分析而选取阈值为2s;
另外考虑车辆在穿越过程中横向的速度控制,对于实验车辆而言,其车辆质心位置从相邻车道穿越目标直行车道,可认为安全穿行。本次设定车道宽度为3.5m,横向穿越距离为8.75m,要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道,函数设定为(车辆横向速度为Vh):
综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为:
Rs=k1R1+k2R2
其中k1,k2分别为纵向和横向的安全系数。
步骤4.32通行效率奖励函数
从穿越通行效率上进行奖励函数的设定,穿越行为要在一定时间和空间范围内高效地完成;其表征效率的奖励函数Re的表达式为:
步骤4.33驾驶员的舒适性。驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化,没有出现急加速或急减速的情况来评价纵向控制方法的优劣;而横向上控制瞬时加速度的大小来控制横向上的舒适性,其评价指标为瞬时变化率,表征舒适性的奖惩函数Rc表达式为:
其中Δa表示相邻时刻的加速度变化值,amax表示此过程中的最大加速度,amin表示此过程的最小加速度,T表示相邻两个仿真步长的时间(即采样时间),μ1、μ2分别表示加速度平均变化率和加速度瞬时变化率的参数。
更进一步,所述的神经网络的建立:
步骤4.41神经网络的层数采用以下公式确定:
其中p为输入层节点数,取p=6;u为输出层节点数,u=2;b是取值为[1,10]的调整参数,b=2。
步骤4.42Q(Xk)可以由以下推导得到:
其中f(2)为输出层的线型隐藏函数,则有f(2)(x)=x;且其输出层偏置矩阵b(2)为0。表示输出层与隐层间所有权重组成的矩阵,f(1)为隐层的激活函数,ω(1)为输入层与隐层间的权重矩阵,隐层的偏置矩阵b(1)
其中求得权重值是隐层权重与输出层权重的乘积,这一部分为线性部分;而非线性部分里面含有激活函数,激活函数为tanh函数,即有f(2)(x)=tanh(x)。当其中的权重和偏置很小时,其值可以忽略不计。计算出来的权重值就可以得到各个权重矩阵Hxx、Hux、Hxu、Huu,从而得到动作量计算公式中的系数矩阵,最后计算得到动作值。
更进一步,还包括步骤5.利用误差逆传播算法的残差分析计算权重矩阵和偏置向量偏导数:
还包括步骤6.每次计算完权重值和偏置,就进行一次更新。
3、本发明所产生的技术效果。
(1)本发明针对高车流密度且无车道线引导的城市交叉口穿越行为决策,基于传统知识处理方法只能在给定的匹配模式下工作,不能解耦人-车-路(环境)多因素对行车决策安全、效率的影响规律。本研究通过采集分析人类驾驶员历史行车轨迹,获取实时行为决策兴趣点,降低行为决策状态空间维度,在线训练指导行为决策算法,提高穿越行为决策算法的实时性。
(2)本发明针对穿越行为决策是一种连续状态空间、连续动作空间的决策问题,本研究综合考虑交叉口穿越行为的安全性、效率性和舒适性等影响因素,基于Neural QLearning(NQL)算法建立无人驾驶车辆城市交叉口穿越通行决策模型。将连续状态量作为矩阵输入,同时通过更新逆误差传播神经网络中的权重参数矩阵,直接计算出连续变化的动作决策量,通过反馈传播计算将动作决策量的残差率控制在收敛范围内;并且采用在线批量更新动作策略,突破了传统强化学习只能离线对离散化状态空间作决策的限制,进一步提高其算法的环境自适应性。
(3)本发明采用的NQL算法在处理复杂的交叉路口场景时学习能力明显优于Q学习算法,以更少的训练数据在更短的训练时间内达到更好的训练效果。同时在实验验证环节中,NQL算法决策出的横纵向速度和加速度更加贴合经验驾驶员的行驶规律,说明了该算法的准确性和有效性。
附图说明
图1为本发明的流程图。
图2为交叉口穿行场景示意图。
图3为Q学习算法穿越成功率和NQL算法残差率分析。
图4BP神经网络权重w1及w2收敛情况。
图5实验车辆加速度仿真结果分析。
图6实验车辆速度仿真结果分析。
具体实施方式
实施例1
一、1、场景搭建Prescan仿真场景搭建
虚拟场景的搭建是在GUI模块中完成的,该模块中包含了道路和基础设施部分、交通参与者部分、传感器模块、天气设置以及光源设置。道路数据库中能设定直线道路、圆弧(或多次弯曲)道路、十字路口、Y型(或T型)道路和环岛道路等,同时还能设定各种标志标线,如斑马线、直行和左转标线、限速和限高标志,道路标志等;基础设施数据库能设定仿真需要的周边环境,包括不同类型的树木、植被,路边建筑物和红绿信号灯;交通参与者数据库可以设定不同类型的车辆,例如卡车、小轿车、e-bike等车辆模型,还可以设定不同类型的行人,包括成年人、老人和孩童等;传感器模块包括超声波、雷达、GPS、红外线以及车与其他设备(V2X)通信系统,因此可以非常轻松地实现不同车载传感器的更换;在天气设置和光源设置模块中,可以设定包括雨天、雾天、雪天天以及光线昏暗等不同的仿真环境。
为了更好地模拟实际道路结构,同时也是为了准确地利用通过视频标定软件George 2.1提取的车辆轨迹数据,本次实验通过PreScanImport中的OpenStreetMap导入开源地图。
2仿真车辆及车载传感器搭建
在PreScanGUI与Matlab/Simulink的联合仿真平台中,设定车辆动力学模型,也可以外接CarSim、Labview等车辆模型,其中车辆的动力学参数均可自行设置,例如根据实际情况设定不同的车辆的尺寸、仿真运行的路径和速度文件,另外仿真车辆的速度和加速度变化也可由算法函数控制。分别在主车和周围车辆设置接收天线和发射天线,相同频道的spare数据就可以传输了,这些传感器的数据存储和通信均在Simulink中实现,最终实现无人驾驶任务。
(3)添加车辆控制系统
在GUI用户界面搭建好虚拟仿真场景后,通过菜单栏中的Parse和Build按钮在Matlab/Simulink平台下创建控制系统CS文件,这样所有虚拟仿真环境中的车辆均可在Simulink中产生编辑和通信的接口。Simulink中只有车辆动力学模型和车载传感器模型,需要添加可编译决策算法的文件;本次研究就基于Matlab/Simulink搭建了无人驾驶车辆交叉口穿越行为决策的学习训练系统。
(4)运行仿真实验
上述步骤完成之后,就可以通过GUI界面或者Simulink开始仿真实验。仿真过程可以通过设定的不同的视角来观察,包括系统自带视角和自定义的驾驶员视角。同时,还可以对需要的场景和仿真实验视频进行捕捉,便于后期做实验分析和解决问题,省去了现实实验中的人力和物力。最后在仿真实验中,还可以对Simulink中Workspace存储的仿真实验数据进行分析处理。
本次实验中我们需要设定虚拟的GPS全球定位系统来获取自身车辆姿态数据;设置激光雷达、毫米波雷达和车车通信(V2V)等传感器来采集周围车辆的运动数据,注意每种传感器所能覆盖的范围阈值。通过设定实验车辆与周围环境车辆的通信频道一致,保证周围环境车辆的实时坐标位置和速度信息能通过space传输到实验车辆,那么就可以用这些位置、速度信息来计算两车之间的相对距离、相对速度和TTC。
实验主车的车辆模型采用基于六自由度动力学公式改进的“Dynamics_SimpleModel”,包含发动机模型、手动变速器模型、换挡模型和车辆悬架模型,能保证较为简单场景下车辆行驶时的动力学要求。
二、环境感知系统
本次实验中我们需要设定虚拟的GPS全球定位系统来获取自身车辆姿态数据;设置激光雷达、毫米波雷达和车车通信(V2V)等传感器来采集周围车辆的运动数据,注意每种传感器所能覆盖的范围阈值。通过设定实验车辆与周围环境车辆的通信频道一致,保证周围环境车辆的实时坐标位置和速度信息能通过space传输到实验车辆,那么就可以用这些位置、速度信息来计算两车之间的相对距离、相对速度和TTC,
毫米波雷达的测距原理基本与激光雷达相似,由于其质量轻、体积小、研发成本低和技术相对成熟而被广泛使用,具有穿透灰尘和烟雾的能力;相比于激光雷达其测量范围更广,每次接受的信号量相对较少故对数据处理器性能要求较低,适用于较为单一的测试环境。
在仿真场景中设定“Antenna_Tx”发射本车运动信号和“Antenna_Rx”信号接收周围车辆的运动位置、速度信号来实现V2V技术。V2V通信技术除了可以实现障碍物扫描等功能,还能探测到本车周围300至500米范围内的障碍物、车辆、行人、建筑物等,能实现每个车辆之间端对端的通信,极大地开阔了驾驶视野;其次道路上的障碍物有些情况下不能检测到,但是V2V能实时发送视野范围内不可见的物体状态的信号,降低了出现盲区的概率。最后该通信技术使用特定频道进行通信,其对车辆数据的保密性和安全性也提升了一个很大的档次。
三、车辆动力学模型
实验主车的车辆模型采用基于六自由度动力学公式改进的“Dynamics_SimpleModel”,其动力学模型包含发动机模型、手动变速器模型、换挡模型和车辆悬架模型,能保证较为简单场景下车辆行驶时的动力学要求。
该动力学模型存在于Experiemnt的Simulink模块中,完全对开发人员开放,任意调整自己需要的参数。其留在外面的信号输入接口包括“Steer”、“Throttle”、“Brake”、“AutoGearshift”以及“Velocity”等,那么在车辆感知系统和车辆动力学底层控制系统之间就是实验者开发的决策算法系统,该决策系统包括驾驶数据处理模块,状态量变换模块、策略迭代模块等组成.
本次仿真场景为无信号灯和行人的简单交叉路口,研究的对象只考虑交叉路口由北向东行驶的左转车辆和对向直行车辆。研究状态空间集、动作空间集、奖惩函数和决策算法的迭代机理[65],利用NQL算法或Q-Learning算法解决交叉路口安全、高效地穿越通行的问题。
四、基于NQL的交叉路口穿越行为分析
1、行为决策算法的参数设定
本次仿真场景为无信号灯和行人的简单交叉路口,研究的对象只考虑交叉路口由北向东行驶的左转车辆和对向直行车辆。研究状态空间集、动作空间集、奖惩函数和决策算法的迭代机理[65],利用NQL算法或Q-Learning算法解决交叉路口安全、高效地穿越通行的问题。
2、状态量的设定
在穿行决策过程中,算法在每一时刻都要根据当前环境状态实现决策任务。在设定状态变量之前,本次研究需要对实验对象进行横向控制和纵向控制的解耦,其设定的环境状态量S,主要是考虑对实验车辆整个穿越行为有影响的因素,其中包括:实验车辆与仿真车辆Car1间的相对速度ΔV1和相对距离DL1,实验车辆与仿真车辆Car2间的相对速度ΔV2和相对距离DL2,实验车辆与仿真车辆Car3间的相对速度ΔV3和相对距离DL3。相对速度ΔV1、ΔV2和ΔV3分别为实验车辆的纵向速度Vl与仿真车辆Car1、Car2、Car3速度间的差值,相对距离DL1、DL2和DL3分别为实验车辆位置坐标y与仿真车辆Car1、Car2、Car3位置坐标y的差值。
其中S={ΔV1,ΔDL1,ΔV2,ΔDL2,ΔV1,ΔDL1}可以表征一个交叉口单元穿越行为系统,这样不仅可以描述一般的穿越行为,更能减少状态量的维度,确保决策算法有效和收敛。在策略迭代过程中,通过NQL算法实现马尔科夫决策建模并且训练样本数据,从而实现以最优策略进行穿行。环境状态量的设定、实验车辆本身的速度量及加速度量和简单的穿越过程如图2所示。
(2)动作量的设定
由于无人驾驶车辆在交叉口穿越过程中有横向和纵向两个方向上的运动决策,需将横向和纵向运动解耦,同时决策动作的选取也根据学习目的和具体解决的问题而定。考虑到整个穿越过程要在较短时间内和较为安全的前提下完成,本次算法决策的动作空间设置包括车辆的纵向加速度al和横向加速度ah,即NQL算法决策动作集A={al,ah}。其中纵向加速度al受到实验车辆和仿真车辆之间的相对速度和相对距离的影响,对保持前后车距、控制本车纵向速度vl至关重要;横向加速度ah控制车辆的横向速度vh,能更好地完成穿越行为。故决策出良好的al和ah值便能既安全又高效地实现穿越策略。
(3)奖励函数的设定
本次设置决策的奖励函数(Reward Function)将从安全性、通行效率和驾驶舒适性三个方面来考虑。考虑穿越过程中的安全性奖励函数Rs时,要从车辆横向运动和纵向运动两个方面设定。首先,在考虑车辆的纵向运动上,既要避免实验车辆的车头与仿真车辆Car1的车头相撞,也要避免与仿真车辆Car2的车尾相撞;本次研究选择碰撞时间TTC及其倒数来衡量通过安全性,保证在TTC内避免与车辆碰撞。而在其他安全行驶区域没有碰撞发生时,设定的奖励值为零。具体函数设定为:
其中碰撞时间TTC是由前后车距与前后相对车速决定;TTCth表示碰撞时间的阈值,考虑到本次研究选取车辆的质心位置来计算相对车距,故要车身大小对碰撞的影响,同时结合原始数据的分析而选取阈值为2s。
另外考虑车辆在穿越过程中横向的速度控制,对于实验车辆而言,其车辆质心位置从相邻车道穿越目标直行车道,可认为安全穿行。本次设定车道宽度为3.5m,横向穿越距离为8.75m,要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道,函数设定为(车辆横向速度为Vh):
综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为:
Rs=k1R1+k2R2
其中k1,k2分别为纵向和横向的安全系数。其次再从穿越通行效率上进行奖励函数的设定,穿越行为要在一定时间和空间范围内高效地完成;其表征效率的奖励函数Re的表达式为:
其中,通过对原始标定数据分析和考虑高密度城市交通环境,设计的直行车辆间距要小于高速或快速道路,本次研究设定实行穿越行为的实验车辆与直行车道的前后通行车辆的相对距离的安全阈值为6m;当穿越条件不能同时满足上述三个条件,则认为穿越失败,给出奖惩值-1,其中包括在规定的仿真时间内不能正常地完成仿真实验的情况。
最后还要考虑车辆在交叉口穿越过程中的驾驶员的舒适性。驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化,没有出现急加速或急减速的情况来评价纵向控制方法的优劣;而横向上控制瞬时加速度的大小来控制横向上的舒适性,其评价指标为瞬时变化率。表征舒适性的奖惩函数Rc表达式为:
其中Δa表示相邻时刻的加速度变化值,amax表示此过程中的最大加速度,amin表示此过程的最小加速度,T表示相邻两个仿真步长的时间(即采样时间),μ1、μ2分别表示加速度平均变化率和加速度瞬时变化率的参数。
综上所述,决策更新迭代过程中设定的奖励函数Rr由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成,具体公式如下:
Rr=ksRs+keRe+kcRc+C (5)
其中ks、ke、kc分别表示各自对应的奖励函数的权重值,C为常数。
(4)穿越通行决策的NQL分析
根据具体研究场景给出的状态空间量S={ΔV1,ΔDL1,ΔV2,ΔDL2,ΔV1,ΔDL1}和动作决策量为A={al,ah},且将传统Q学习算法中的Q矩阵用合适的BP神经网络来代替。
Q-learning算法给出的决策动作是基于当前状态下,依照更新迭代好的Q矩阵选取相应的动作;而NQL利用当前状态量Sk,动作量Ak和动作值函数Q(Sk,Ak)进行当前的决策动作的计算,具体推导如下:
Sk+1=DSk+FAk
其中,矩阵D和矩阵F为算法决策系统的相关系数矩阵;矩阵B为状态量对奖励函数的权重,矩阵C为动作量对奖励函数的权重;矩阵Hxx,Hux,Hxu,Huu为NQL算法决策系统的参数矩阵;A′k为此刻的最优动作量,Rk为神经网络损失函数。
NQL算法决策系统系数矩阵为Hxx、Hux、Hxu、Huu,分别表示为:
将BP神经网络中各层的权重组成一个参数向量ω=[ω1,ω2,ω3,ω4,ω5,ω6,ω7,ω8]T,再把环境状态量的二次型表示作为神经网络的输入向量Xk,最后通过动作值函数Q(Xk)=Xk·ωT对输入量求偏导数来计算和迭代权重值ω。本次神经网络的层数采用以下公式确定:
其中p为输入层节点数,取p=6;u为输出层节点数,u=2;b是取值为[1,10]的调整参数,本次研究取b=2。故通过经验公式计算得到的隐藏层节点数为6。此次研究确定的神经网络的输出量Q(Xk)可以有以下推导得到:
其中f(2)为输出层的线型隐藏函数,则有f(2)(x)=x;且其输出层偏置矩阵b(2)为0。表示输出层与隐层间所有权重组成的矩阵,f(1)为隐层的激活函数,ω(1)为输入层与隐层间的权重矩阵,隐层的偏置矩阵b(1)。本次选取的激活函数为tanh(双曲正切)函数,即有f(2)(x)=tanh(x)。对上式中的输出量对权重求偏导有:
其中求得权重值是隐层权重与输出层权重的乘积,这一部分为线性部分;而非线性部分里面含有激活函数,当其中的权重和偏置很小时,其值可以忽略不计。这种设计可以简化结构和便于迭代计算。
这样通过式(10)计算出来的权重值就可以得到各个权重矩阵Hxx、Hux、Hxu、Huu,从而得到动作量计算公式中的系数矩阵最后再根据式(6)计算得到动作值。可以发现,求得系数矩阵和动作量的关键就是更新权重值,具体实现过程为:将通过数据预处理之后的样本数据去训练BP神经网络并使其收敛,再用收敛的神经网络中的权重参数去计算动作值函数和最大动作量。本次使用的NQL算法的具体流程如下:
1、初始化:零置神经网络参数(权重矩阵和偏置向量);
Q(Xk)=0且令神经网络初始输入为零矩阵;
2、在训练样本未完成前,循环以下步骤:
(1)根据当前时刻状态Sk和动作Ak,得到下一时刻的状态量Sk+1
(2)根据公式(6)计算出下一时刻动作量A′k
(3)利用误差逆传播算法的残差分析计算权重矩阵和偏置向量偏导数:
(4)每次计算完权重值和偏置,就进行一次更新:
其中为梯度下降步长
综上所述,整个NQL算法由初始化参数矩阵、正向计算和误差分析计算以及参数更新迭代三大部分组成。从代码中可以看出,整个过可以进行样本数据批量计算,在满足决策计算要求的时间范围内进行参数的更新,这样能达到车辆决策实时性的要求,且能一定程度上减少决策系统的突变性。
五、验设置及结果分析
通过对原始实验数据的标定和处理,得到在一定区域内的交叉路口一系列左转车辆的行驶轨迹,而这些存在误差且较为杂乱的车辆轨迹无法直接进行强化学习训练。为了使该决策算法顺利进行且在一定范围内约束无人驾驶车辆的运动,必须要尽可能多地减少强化学习算法决策的状态空间维度以及找到较为优秀的轨迹来更好地指导无人驾驶车辆的仿真策略,需要找到具有优秀驾驶员经验的左转车辆特征轨迹。因此要对这些轨迹进行聚类分析。
本发明提出了“虚拟车道线”的概念,达到引导无人驾驶车辆在“虚拟车道线”内行驶的目的。“虚拟车道线”是由标定所有选择时间段内的左转车辆的轨迹组成的,其中所有轨迹中的最内侧的一条曲线和最外侧的一条曲线为该虚拟车道的边界线,边界线上的轨迹会相互交缠,因此需要进行一定的优化处理,同时标定车道边界线的过程中需要剔除偏差明显的且不具备参考意义的车辆轨迹,要充分保证其有效性。
基于“虚拟车道线”进行在线强化学习计算指导,是为了尽量保证无人驾驶车辆交叉口穿越通行决策算法的准确性和有效性,同时让算法尽可能快地收敛。因此本文离线使用轨迹聚类方法获得“虚拟车道线”区域内的优秀左转车辆轨迹,再利用这类优秀轨迹来指导在线强化学习算法进行动作决策;当无人驾驶车辆的行为决策在设定的范围内,系统将会得到较大的动作函数值,反之则会给出负反馈。这样当神经网络收敛之后给出的决策动作会在很大程度上符合优秀的车辆行驶轨迹,从而验证了该算法的可行性。
虚拟车道线的区域范围、经验左转驾驶轨迹和原始车辆轨迹曲线,且选择标定的所有车辆原始轨迹都位于内侧、外侧两条边界线之间,同时经验左转车辆轨迹是通过使用轨迹聚类方法得到的。
车辆轨迹聚类采用基于整条原始车辆轨迹或者提取上面相关片段,再对这些特征片段进行轨迹聚类,从而得到聚类曲线。首先将所有待聚类的子轨迹在车辆位置坐标(x-y)图中标出,其中每一条曲线就代表一辆左转车辆在标记时间内的轨迹;然后将这些轨迹进行一次线性拟合得到初聚类曲线,最后再进行优化处理得到最后的特征车辆轨迹聚类曲线。
1、Q-Learning算法和NQL算法结果分析
设计Q-Learning算法和NQL算法的对比实验,简单地对比说明两种算法在原理上的根本差别,从最后的结果分析并验证后者在城市交叉口无人驾驶车辆穿越通行问题上的决策优越性。
NQL算法则用一个神经网络去逼近Q-Learning算法中的Q函数,利用训练样本来更新迭代神经网络参数再利用公式(6)直接计算出最优动作量,减去了离散化和动作量存储的过程,可以直接处理连续状态空间的决策问题。
为了使两种强化学习算法的收敛时间更短,本发明对算法的参数作了如下的设定。同时对比两种算法的训练结果发现,NQL算法比Q-Learning算法在收敛时所需要的训练样本数和训练时间都较为优秀。具体参数和训练结果如表1所示:
表1两种强化学习算法分析对比
在判定两种算法收敛的规则时有,NQL算法在连续的两个迭代周期(每1s进行一次迭代)内神经网络的所有残差率的平方和小于0.05;而Q学习算法在相邻的更新周期内计算Q值的差值平均率小于0.1,即[(Qk+1-Qk)/Qk]<0.1。从表1中可以看出,Q-Learning算法的平均训练样本明显多于前者,同时收敛速度也较慢,甚至有时会出现不收敛的情况。这样可以反映出在解决离散化的高维度状态空间问题时,Q学习算法不具备环境的泛化能力;一旦更加细致地划分状态空间,Q学习算法的计算量将几何倍数增加且会有部分丢失的状态量,这些都会大大增加训练样本数据和收敛的难度。
为了更加直观地对比了解两种算法的功效,本次研究对基于Q-learning算法的无人驾驶实验车辆穿越成功率和对NQL算法中的神经网络残差率进行了统计分析,图3(a)和(b)分别表示了Q学习算法穿越成功率和NQL算法的残差率随仿真步长变化的关系。
当无人驾驶实验车辆在Prescan与Matlab/Simulink联合仿真平台中进行最优穿行策略训练时,Agent通过算法不断地与周围车辆及环境进行交互并得到相应的反馈,不停地尝试穿越对象直行车辆并更新自身通行策略,直至成功穿越为止。图4(a)记录了有多少次穿越成功(但此刻并不代表算法收敛)从而得到穿越成功率;本次分析选取了其中较为优秀的三组穿越行为实验,每次试验均进行了8000次仿真迭代,从结果图可以看出随着仿真时间的增加其穿越成功率也随之增加,但并不呈现线性变化。可以发现在1500次实验之前,穿越成功率高低起伏变化,说明此时Agent并没有学到前面成功穿越的经验,还是随机任意学习过程;当进行3000次实验以后,可以发现成功率逐渐上升,说明前半段的通行策略已经符合实际车辆通行策略了;当6000次实验以后,可以发现穿越成功率在0.6上下浮动,说明此时算法基本收敛。
与图4(a)统计的不同,图4(b)只能统计相邻两次神经网络迭代计算的动作值的残差率。因为NQL算法自身只能利用样本数据去更新神经网络参数,通过公式(6)直接计算出此刻的动作值,并无法知道采取这个动作能否成功穿越,故无法通过穿越成功率来判定算法是否收敛,只能通过残差率分析。
图4(b)中的红色曲线为前5000次仿真的残差率的平均值曲线,黄色曲线为5000次仿真以后的残差率的平均值曲线。可以发现红色曲线的曲率变化大且形状波动很大,说明残差率变化大,其达不到收敛的条件;而黄色曲线的波动很小,其相邻两次的残差率均值小于0.02,说明神经网络计算的最优动作在某个值附近小范围变化,此时NQL算法已经收敛,Agent通过学习优秀的样本数据已经找到良好的通行策略。其中NQL强化学习算法中迭代权重收敛情况如图4所示,可以看出在经过500s的更新迭代后,神经网络中输入层到隐层的权重和隐层到输出层的权重均波动很小,说明此时神经网络已经收敛。
通过用得到的样本数据来Q学习算法和训练神经网络,让Q矩阵成功迭代并使其收敛以及NQL算法中的神经网络每层的权重和q值的残差波动变化很小。那么下面需要通过标定的实际交叉路口的车辆轨迹数据来验证Q学习算法和NQL算法有效性;同时分析研究实验车辆在横向和纵向两个方向上的动作决策结果,说明Q学习算法和NQL算法在处理连续状态动作空间问题上的差异,从而证明基于Q-Learning算法改进后的NQL算法的成功性。
(2)实验车辆加速度变化规律
在仿真时间内,本次实验统计分析了实验车辆纵向加速度al和横向加速度ah的变化;本次仿真时间从实验车辆进入交叉口开始,到成功穿越对向直行车辆为止。其中车辆的横纵向加速度ah和al的变化规律分别如图5(a)和(b)所示。
图5中分别显示了验证算法的原始实验数据、Q学习算法迭代结果和NQL算法迭代结果,其中图中标示的原始数据是指经过EWMA方法平滑处理之后的数据。从图5(a)可以发现采集的具有优秀经验的车辆的纵向加速度在-0.4m/s2-0.2m/s2之间变化,横向加速度在0m/s2-0.5m/s2之间变化。
其中仿真时间在150s之前,纵向加速度变化明显且幅度很大,说明此时左转车辆受到对向车辆和本车道前车的干扰;而在之后时间内纵向加速度变化变缓,说明此时车辆在稳定穿行直到最后完全穿过。对比Q-Learning和NQL强化学习方法的结果,可以发现从开始仿真到150s之间,前者纵向加速度在±0.8m/s2之间变化,波动非常明显;而后者的值在-0.5m/s2-0.2m/s2之间变化,幅度相对较小。同时,前者的横向加速度在-0.5m/s2-1.0m/s2之间变化;而后者的波动较小,在-0.25m/s2-0.6m/s2之间变化。但是两者相对于验证的原始数据样本都有一定的误差,说明两种算法在这段时间内的决策不算优秀,受其他车辆的影响较大。而在之后的决策变化过程中,NQL算法控制的车辆横向加速度在-0.25m/s2-0.2m/s2之间变化、纵向加速度在-0.16m/s2--0.4m/s2之间变化,横纵加速度的变化幅度明显减小,相比之前150s的决策过程表现的更加稳定且更加贴合实际变化规律,说明此时做出了较为优秀的通行策略;而Q学习算法控制的车辆横向加速度在-0.6m/s2-0.4m/s2之间变化、纵向加速度在±0.4m/s2之间变化,虽然相对前150s的结果有所优化,但依旧存在一定的波动并且与实际情况也有所差距。
从上面的结果曲线对比分析得知,NQL算法在处理连续状态空间的问题上,其决策性能明显优于Q-Learning算法,将决策的误差量控制在更小的范围内,不仅体现出了自身算法的稳定性,同时动作决策量的变化趋势更加符合经验驾驶员的行驶规律。反观Q-Learning算法,整个过程中的决策动作量变化幅度很大,动作决策量的波动明显,这可能跟算法离散化状态空间的程度有关系;并且不符合经验驾驶员的行驶规律,并不是最优的通行策略。
(3)实验车辆速度变化规律
车辆的速度也是从横纵两个方向上进行考量,在验证NQL算法和Q学习算法的稳定性和有效性的同时,也要考虑两种算法的优越性,要更加符合经验驾驶员的驾驶规律。本次研究的算法决策系统直接得到的是车辆横纵两个方向上的速度量,实验车辆的加速度是通过车辆底层控制得到的,并且横纵向的速度之间的变化关系能够反映出车辆左转过程中的航向角的变化。图6(a)和(b)分别表示车辆的横纵向速度vh和vl的变化规律。
图6中可知,实验车辆在仿真时间150s之前,其纵向上的速度变化波动比较明显,这可能是处于穿越交叉口的前半段,此时还没与直行车辆发生交互,车辆给的指令是快速通过。在0到150s之间的时间,Q学习算法与验证数据的变化规律类似,均在0m/s到-1.5m/s(其中图中的负号与大地坐标系的方向有关)且幅度大小也相近;而NQL算法与前面两者不一样,其值在0m/s到-1m/s之间变化且变化的幅度相对较小。
仿真时间在150s之后,三者的曲线规律都发生了变化,Q学习算法的动作量位于0m/s到-1m/s之间而NQL算法的动作量则在-0.3m/s到-0.75m/s,此时发现实验车辆的速度量都很小,说明此时左转车辆已经与对向直行车辆发生了交互且让行于直行车辆,决策出较为合适的间隙进行穿越行为。对比发现,此刻NQL算法决策的纵向速度更加符合经验驾驶员的行车规律,决策更加贴合实际情况;而Q学习算法的动作量已经波动明显,存在速度的快速变化,这在实际穿行过程中是很危险的,所以Q学习算法表现的没有NQL算法稳定有效。同样分析横向速度的控制问题,横向速度的规划是为了更快的穿过间隙,从NQL算法最后横向速度在-1m/s到-1.5m/s之间变化,比Q学习算法的横向速度更大、更加稳定,同时也更加符合经验驾驶员的行车规律,使得车辆在良好的穿行间隙下更快速地通过,保证了通行的效率;而Q学习算法速度最后趋向于零,可能会导致实验车辆错过最佳的穿行时机去选择从下一个间隙,从而影响了通行效率。
综上所述,NQL算法无论从速度控制和加速度控制上整体都优于Q学习算法,并且通过学习经验驾驶员的数据而更加贴合其驾驶习惯,说明在此次设定的场景中具有一定的自我决策能力。
本发明引入了“虚拟车道线”的概念,目的是减少算法决策空间状态量的维度,同时也将车辆轨迹进行聚类分析得到特征车辆轨迹曲线,用于更好的指导在线强化学习。然后对比分析了Q-Learning算法和NQL算法的迭代结果,分别从Q-Learning算法的穿越成功率和NQL算法的权重及残差率的收敛结果进行说明。最后对两种算法进行验证分析,说明NQL算法在处理连续状态和连续动作空间问题上的优越性,所得出的决策动作更加有效准确。

Claims (6)

1.基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于:
步骤1、通过摄像法采集车辆连续运行状态信息和位置信息,包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力;
步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量;
步骤3、通过指数加权移动平均的方法来处理原始数据;
步骤4、利用NQL算法实现交叉口通行方法。
2.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行
步骤4.1如图4.5状态量Sk设定:包括与交叉路口的车辆相对速度ΔVi和相对距离DLi(位置坐标y的差值)为一个交叉单元穿越行为系统;
步骤4.2动作量Ak设定:横向和纵向两个方向上的运动决策,空间设置包括车辆的纵向加速度al和横向加速度ah,即决策动作集A={al,ah};
步骤4.3奖励函数的设定,将从安全性、通行效率和驾驶舒适性三个方面来考虑
决策更新迭代过程中设定的奖励函数Rr由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成,具体公式如下:
Rr=ksRs+keRe+kcRc+C (4.35)
其中ks、ke、kc分别表示安全性、通行效率和驾驶舒适性对应的奖励函数的权重值,C为常数;
步骤4.4利用步骤4.1状态量Sk,步骤4.2动作量Ak和动作值函数Q(Sk,Ak)进行当前的决策动作的计算:
Sk+1=DSk+FAk
其中,矩阵D和矩阵F为算法决策系统的相关系数矩阵;矩阵B为状态量对奖励函数的权重,矩阵C为动作量对奖励函数的权重;矩阵Hxx,Hux,Hxu,Huu为NQL算法决策系统的参数矩阵;A′k为此刻的最优动作量,Rk为神经网络损失函数,为系数矩阵;
其中
将BP神经网络中各层的权重组成一个参数向量ω=[ω1,ω2,ω3,ω4,ω5,ω6,ω7,ω8]T,再把环境状态量的二次型表示作为神经网络的输入向量Xk,最后通过动作值函数Q(Xk)=Xk·ωT对输入量求偏导数来计算和迭代权重值ω。
3.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于步骤4.3奖励函数的设定具体按照如下进行:
步骤4.31安全性奖励函数,
考虑穿越过程中的安全性奖励函数Rs时,要从车辆横向运动和纵向运动两个方面设定;车辆的纵向运动和纵向运动,交叉路口两个方向上防止碰撞;选择碰撞时间TTC及其倒数来衡量通过安全性,保证在TTC内避免与车辆碰撞,而在其他安全行驶区域没有碰撞发生时,设定的奖励值为零,具体函数设定为:
其中碰撞时间TTC是由前后车距与前后相对车速决定;TTCth表示碰撞时间的阈值,选取车辆的质心位置来计算相对车距,故要车身大小对碰撞的影响,同时结合原始数据的分析而选取阈值为2s;
另外考虑车辆在穿越过程中横向的速度控制,对于实验车辆而言,其车辆质心位置从相邻车道穿越目标直行车道,可认为安全穿行;本次设定车道宽度为3.5m,横向穿越距离为8.75m,要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道,函数设定为(车辆横向速度为Vh):
综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为:
Rs=k1R1+k2R2
其中k1,k2分别为纵向和横向的安全系数;
步骤4.32通行效率奖励函数
从穿越通行效率上进行奖励函数的设定,穿越行为要在一定时间和空间范围内高效地完成;其表征效率的奖励函数Re的表达式为:
步骤4.33驾驶员的舒适性,驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化,没有出现急加速或急减速的情况来评价纵向控制方法的优劣;而横向上控制瞬时加速度的大小来控制横向上的舒适性,其评价指标为瞬时变化率,表征舒适性的奖惩函数Rc表达式为:
其中Δa表示相邻时刻的加速度变化值,amax表示此过程中的最大加速度,amin表示此过程的最小加速度,T表示相邻两个仿真步长的时间(即采样时间),μ1、μ2分别表示加速度平均变化率和加速度瞬时变化率的参数。
4.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于神经网络的建立:
步骤4.41神经网络的层数采用以下公式确定:
其中p为输入层节点数,取p=6;u为输出层节点数,u=2;b是取值为[1,10]的调整参数,b=2;
步骤4.42 Q(Xk)可以由以下推导得到:
其中f(2)为输出层的线型隐藏函数,则有f(2)(x)=x;且其输出层偏置矩阵b(2)为0;表示输出层与隐层间所有权重组成的矩阵,f(1)为隐层的激活函数,ω(1)为输入层与隐层间的权重矩阵,隐层的偏置矩阵b(1)
其中求得权重值是隐层权重与输出层权重的乘积,这一部分为线性部分;而非线性部分里面含有激活函数,激活函数为tanh函数,即有f(2)(X)=tanh(x);当其中的权重和偏置很小时,其值可以忽略不计;计算出来的权重值就可以得到各个权重矩阵Hxx、Hux、Hxu、Huu,从而得到动作量计算公式中的系数矩阵最后计算得到动作值。
5.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于:还包括步骤5.利用误差逆传播算法的残差分析计算权重矩阵和偏置向量偏导数。
6.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于:还包括步骤6.每次计算完权重值和偏置,就进行一次更新。
CN201810780418.7A 2018-07-17 2018-07-17 基于强化学习的无人驾驶车辆城市交叉口通行方法 Active CN108932840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810780418.7A CN108932840B (zh) 2018-07-17 2018-07-17 基于强化学习的无人驾驶车辆城市交叉口通行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810780418.7A CN108932840B (zh) 2018-07-17 2018-07-17 基于强化学习的无人驾驶车辆城市交叉口通行方法

Publications (2)

Publication Number Publication Date
CN108932840A true CN108932840A (zh) 2018-12-04
CN108932840B CN108932840B (zh) 2021-09-07

Family

ID=64448181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810780418.7A Active CN108932840B (zh) 2018-07-17 2018-07-17 基于强化学习的无人驾驶车辆城市交叉口通行方法

Country Status (1)

Country Link
CN (1) CN108932840B (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109507911A (zh) * 2018-12-12 2019-03-22 大连海事大学 一种无人集卡自主驾驶技术测试仿真平台及工作方法
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109814575A (zh) * 2019-02-22 2019-05-28 百度在线网络技术(北京)有限公司 车辆变道路线规划方法、装置以及终端
CN109871599A (zh) * 2019-01-30 2019-06-11 西安理工大学 一种无人驾驶车辆运行安全指数评价方法
CN110213827A (zh) * 2019-05-24 2019-09-06 南京理工大学 基于深度强化学习的车辆数据采集频率动态调节方法
CN110211156A (zh) * 2019-06-04 2019-09-06 中国矿业大学 一种时-空信息联合的在线学习方法
CN110347155A (zh) * 2019-06-26 2019-10-18 北京理工大学 一种智能车辆自动驾驶控制方法及系统
CN110427536A (zh) * 2019-08-12 2019-11-08 深圳忆海原识科技有限公司 一种类脑决策与运动控制系统
CN110473404A (zh) * 2019-09-19 2019-11-19 西南交通大学 一种城市十字交叉口混合交通流协同优化底层控制方法
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN110989568A (zh) * 2019-11-15 2020-04-10 吉林大学 一种基于模糊控制器的自动驾驶车辆安全通行方法及系统
CN111383469A (zh) * 2018-12-27 2020-07-07 上海宝康电子控制工程有限公司 基于大数据线性回归预测算法实现实时信号计算功能的方法
CN111507501A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
CN111526499A (zh) * 2020-04-17 2020-08-11 中南大学 基于在线学习和毫米波束选择的车载终端通信方法
CN111626640A (zh) * 2020-06-08 2020-09-04 中煤科工集团重庆研究院有限公司 基于中性参照对象的煤矿安全综合风险评价方法和系统
CN111681452A (zh) * 2020-01-19 2020-09-18 重庆大学 一种基于Frenet坐标系下的无人驾驶汽车动态换道轨迹规划方法
CN111768637A (zh) * 2020-05-14 2020-10-13 同济大学 一种信号交叉口交通信号灯和车辆轨迹控制方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112034834A (zh) * 2019-05-15 2020-12-04 百度(美国)有限责任公司 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
CN112052776A (zh) * 2020-09-01 2020-12-08 中国人民解放军国防科技大学 无人车自主驾驶行为优化方法、装置和计算机设备
CN112051848A (zh) * 2020-08-31 2020-12-08 安徽江淮汽车集团股份有限公司 车辆解耦控制方法、仿真平台、电子设备及存储介质
CN112100787A (zh) * 2019-05-28 2020-12-18 顺丰科技有限公司 车辆动作预测方法、装置、电子设备及存储介质
CN112113566A (zh) * 2020-09-24 2020-12-22 电子科技大学 一种基于神经网络的惯性导航数据修正方法
CN112435464A (zh) * 2020-10-23 2021-03-02 江苏大学 一种基于q强化学习的高速路主线行驶车辆的接管时间预测系统及预测方法
CN112477878A (zh) * 2019-09-11 2021-03-12 北京百度网讯科技有限公司 自动驾驶车辆的驾驶决策共享方法、装置、设备和介质
CN112650237A (zh) * 2020-12-21 2021-04-13 武汉理工大学 基于聚类处理和人工势场的船舶路径规划方法和装置
CN112750298A (zh) * 2020-12-17 2021-05-04 梁宏斌 一种基于smdp和drl的货车编队动态资源分配方法
CN112758109A (zh) * 2021-04-09 2021-05-07 北京主线科技有限公司 横向跟踪稳态偏差补偿方法及装置
GB202105672D0 (en) 2021-04-21 2021-06-02 Zeta Specialist Lighting Ltd Traffic control at an intersection
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113110392A (zh) * 2021-04-28 2021-07-13 吉林大学 一种基于地图导入的自动驾驶汽车相机硬件在环测试方法
CN113168762A (zh) * 2018-12-06 2021-07-23 日立安斯泰莫株式会社 车辆的行驶辅助方法、车辆行驶辅助装置以及自动驾驶系统
CN113436522A (zh) * 2021-06-18 2021-09-24 合肥磐石自动化科技有限公司 一种基于交叉道路的无人驾驶演示装置及其控制方法
CN113468698A (zh) * 2021-06-30 2021-10-01 上海理工大学 一种面向交叉口通行轨迹离散性的交通流模型参数标定方法
CN113844441A (zh) * 2021-10-14 2021-12-28 安徽江淮汽车集团股份有限公司 前碰预警制动系统的机器学习方法
CN114333419A (zh) * 2021-12-28 2022-04-12 杭州海康威视系统技术有限公司 交通冲突确定方法、装置、设备及可读存储介质
CN114360266A (zh) * 2021-12-20 2022-04-15 东南大学 一种网联车探测状态感知的交叉口强化学习信号控制方法
CN114460843A (zh) * 2022-01-10 2022-05-10 西南交通大学 基于条件与性能匹配的车内压力波动迭代学习控制方法
CN114648877A (zh) * 2022-05-13 2022-06-21 北京理工大学前沿技术研究院 一种无信号交叉口车辆通行方法、系统、设备和存储介质
RU2775817C2 (ru) * 2020-04-10 2022-07-11 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способ и система для обучения алгоритма машинного обучения с целью обнаружения объектов на расстоянии
KR20220102694A (ko) * 2021-01-13 2022-07-21 부경대학교 산학협력단 비신호 교차로에서 자율주행차량의 개선된 통행을 위한 장치 및 방법
US11407424B2 (en) 2020-01-22 2022-08-09 Chang'an University System and method for testing an ability of an automated vehicle to pass a traffic circle without traffic lights
CN115082900A (zh) * 2022-07-19 2022-09-20 湖南大学无锡智能控制研究院 一种停车场场景下智能车辆行驶决策系统及方法
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
US11676393B2 (en) 2018-12-26 2023-06-13 Yandex Self Driving Group Llc Method and system for training machine learning algorithm to detect objects at distance

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5000279A (en) * 1986-11-19 1991-03-19 Nec Corporation Unmanned vehicle guide system
US20090174540A1 (en) * 2008-01-04 2009-07-09 Smith Alexander E Method and apparatus to determine vehicle intent
CN106407563A (zh) * 2016-09-20 2017-02-15 北京工业大学 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法
CN107169567A (zh) * 2017-03-30 2017-09-15 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN107944624A (zh) * 2017-11-17 2018-04-20 南京大学 一种基于隐马尔科夫模型的无人车路口驾驶决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5000279A (en) * 1986-11-19 1991-03-19 Nec Corporation Unmanned vehicle guide system
US20090174540A1 (en) * 2008-01-04 2009-07-09 Smith Alexander E Method and apparatus to determine vehicle intent
CN106407563A (zh) * 2016-09-20 2017-02-15 北京工业大学 一种基于驾驶类型和前车加速度信息的跟驰模型生成方法
CN107169567A (zh) * 2017-03-30 2017-09-15 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN107944624A (zh) * 2017-11-17 2018-04-20 南京大学 一种基于隐马尔科夫模型的无人车路口驾驶决策方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
宋威龙: "城区动态环境下智能车辆行为决策研究", 《中国博士学位论文全文数据库工程科技Ⅱ辑》 *
田赓: "复杂动态城市环境下无人驾驶车辆仿生换道决策模型研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
苗一松: "城市环境下智能驾驶车辆汇入行为决策模型研究", 《中国知网博硕士论文数据库》 *
陈昕: "基于连续空间强化学习的类人纵向速度规划控制研究", 《中国知网博硕士论文数据库》 *

Cited By (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168762A (zh) * 2018-12-06 2021-07-23 日立安斯泰莫株式会社 车辆的行驶辅助方法、车辆行驶辅助装置以及自动驾驶系统
CN109507911B (zh) * 2018-12-12 2021-10-15 大连海事大学 一种无人集卡自主驾驶技术测试仿真平台及工作方法
CN109507911A (zh) * 2018-12-12 2019-03-22 大连海事大学 一种无人集卡自主驾驶技术测试仿真平台及工作方法
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109709956B (zh) * 2018-12-26 2021-06-08 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
US11676393B2 (en) 2018-12-26 2023-06-13 Yandex Self Driving Group Llc Method and system for training machine learning algorithm to detect objects at distance
CN111383469A (zh) * 2018-12-27 2020-07-07 上海宝康电子控制工程有限公司 基于大数据线性回归预测算法实现实时信号计算功能的方法
CN109871599B (zh) * 2019-01-30 2023-05-23 湖南湘江智车出行科技有限公司 一种无人驾驶车辆运行安全指数评价方法
CN109871599A (zh) * 2019-01-30 2019-06-11 西安理工大学 一种无人驾驶车辆运行安全指数评价方法
CN111507501B (zh) * 2019-01-31 2024-02-09 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
CN111507501A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
CN109814575B (zh) * 2019-02-22 2022-04-08 百度在线网络技术(北京)有限公司 自动驾驶车辆变道路线规划方法、装置以及终端
CN109814575A (zh) * 2019-02-22 2019-05-28 百度在线网络技术(北京)有限公司 车辆变道路线规划方法、装置以及终端
CN112034834A (zh) * 2019-05-15 2020-12-04 百度(美国)有限责任公司 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
CN110213827A (zh) * 2019-05-24 2019-09-06 南京理工大学 基于深度强化学习的车辆数据采集频率动态调节方法
CN112100787A (zh) * 2019-05-28 2020-12-18 顺丰科技有限公司 车辆动作预测方法、装置、电子设备及存储介质
CN112100787B (zh) * 2019-05-28 2023-12-08 深圳市丰驰顺行信息技术有限公司 车辆动作预测方法、装置、电子设备及存储介质
CN110211156B (zh) * 2019-06-04 2021-02-12 中国矿业大学 一种时-空信息联合的在线学习方法
CN110211156A (zh) * 2019-06-04 2019-09-06 中国矿业大学 一种时-空信息联合的在线学习方法
CN110347155B (zh) * 2019-06-26 2020-11-06 北京理工大学 一种智能车辆自动驾驶控制方法及系统
CN110347155A (zh) * 2019-06-26 2019-10-18 北京理工大学 一种智能车辆自动驾驶控制方法及系统
CN110427536A (zh) * 2019-08-12 2019-11-08 深圳忆海原识科技有限公司 一种类脑决策与运动控制系统
CN110427536B (zh) * 2019-08-12 2022-03-04 深圳忆海原识科技有限公司 一种类脑决策与运动控制系统
CN112477878A (zh) * 2019-09-11 2021-03-12 北京百度网讯科技有限公司 自动驾驶车辆的驾驶决策共享方法、装置、设备和介质
CN110473404A (zh) * 2019-09-19 2019-11-19 西南交通大学 一种城市十字交叉口混合交通流协同优化底层控制方法
CN110473404B (zh) * 2019-09-19 2020-08-25 西南交通大学 一种城市十字交叉口混合交通流协同优化底层控制方法
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110989568A (zh) * 2019-11-15 2020-04-10 吉林大学 一种基于模糊控制器的自动驾驶车辆安全通行方法及系统
CN110989568B (zh) * 2019-11-15 2021-03-30 吉林大学 一种基于模糊控制器的自动驾驶车辆安全通行方法及系统
CN110941268A (zh) * 2019-11-20 2020-03-31 苏州大学 一种基于Sarsa安全模型的无人自动小车的控制方法
CN111681452A (zh) * 2020-01-19 2020-09-18 重庆大学 一种基于Frenet坐标系下的无人驾驶汽车动态换道轨迹规划方法
US11407424B2 (en) 2020-01-22 2022-08-09 Chang'an University System and method for testing an ability of an automated vehicle to pass a traffic circle without traffic lights
RU2775817C2 (ru) * 2020-04-10 2022-07-11 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способ и система для обучения алгоритма машинного обучения с целью обнаружения объектов на расстоянии
CN111526499B (zh) * 2020-04-17 2022-05-17 中南大学 基于在线学习和毫米波束选择的车载终端通信方法
CN111526499A (zh) * 2020-04-17 2020-08-11 中南大学 基于在线学习和毫米波束选择的车载终端通信方法
CN111768637A (zh) * 2020-05-14 2020-10-13 同济大学 一种信号交叉口交通信号灯和车辆轨迹控制方法
CN111626640A (zh) * 2020-06-08 2020-09-04 中煤科工集团重庆研究院有限公司 基于中性参照对象的煤矿安全综合风险评价方法和系统
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111898211B (zh) * 2020-08-07 2022-11-01 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112051848A (zh) * 2020-08-31 2020-12-08 安徽江淮汽车集团股份有限公司 车辆解耦控制方法、仿真平台、电子设备及存储介质
CN112052776A (zh) * 2020-09-01 2020-12-08 中国人民解放军国防科技大学 无人车自主驾驶行为优化方法、装置和计算机设备
CN112113566A (zh) * 2020-09-24 2020-12-22 电子科技大学 一种基于神经网络的惯性导航数据修正方法
CN112435464A (zh) * 2020-10-23 2021-03-02 江苏大学 一种基于q强化学习的高速路主线行驶车辆的接管时间预测系统及预测方法
CN112750298B (zh) * 2020-12-17 2022-10-28 华路易云科技有限公司 一种基于smdp和drl的货车编队动态资源分配方法
CN112750298A (zh) * 2020-12-17 2021-05-04 梁宏斌 一种基于smdp和drl的货车编队动态资源分配方法
CN112650237A (zh) * 2020-12-21 2021-04-13 武汉理工大学 基于聚类处理和人工势场的船舶路径规划方法和装置
KR20220102694A (ko) * 2021-01-13 2022-07-21 부경대학교 산학협력단 비신호 교차로에서 자율주행차량의 개선된 통행을 위한 장치 및 방법
KR102479484B1 (ko) 2021-01-13 2022-12-22 부경대학교 산학협력단 비신호 교차로에서 자율주행차량의 개선된 통행을 위한 장치 및 방법
CN113044064B (zh) * 2021-04-01 2022-07-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN112758109B (zh) * 2021-04-09 2021-07-27 北京主线科技有限公司 横向跟踪稳态偏差补偿方法及装置
CN112758109A (zh) * 2021-04-09 2021-05-07 北京主线科技有限公司 横向跟踪稳态偏差补偿方法及装置
GB2605991A (en) 2021-04-21 2022-10-26 Zeta Specialist Lighting Ltd Traffic control at an intersection
WO2022223952A1 (en) 2021-04-21 2022-10-27 Zeta Specialist Lighting Limited Traffic control at an intersection
GB202105672D0 (en) 2021-04-21 2021-06-02 Zeta Specialist Lighting Ltd Traffic control at an intersection
CN113110392A (zh) * 2021-04-28 2021-07-13 吉林大学 一种基于地图导入的自动驾驶汽车相机硬件在环测试方法
CN113436522A (zh) * 2021-06-18 2021-09-24 合肥磐石自动化科技有限公司 一种基于交叉道路的无人驾驶演示装置及其控制方法
CN113468698B (zh) * 2021-06-30 2022-10-11 上海理工大学 一种面向交叉口通行轨迹离散性的交通流模型参数标定方法
CN113468698A (zh) * 2021-06-30 2021-10-01 上海理工大学 一种面向交叉口通行轨迹离散性的交通流模型参数标定方法
CN113844441A (zh) * 2021-10-14 2021-12-28 安徽江淮汽车集团股份有限公司 前碰预警制动系统的机器学习方法
CN114360266B (zh) * 2021-12-20 2022-12-13 东南大学 一种网联车探测状态感知的交叉口强化学习信号控制方法
CN114360266A (zh) * 2021-12-20 2022-04-15 东南大学 一种网联车探测状态感知的交叉口强化学习信号控制方法
CN114333419A (zh) * 2021-12-28 2022-04-12 杭州海康威视系统技术有限公司 交通冲突确定方法、装置、设备及可读存储介质
CN114460843A (zh) * 2022-01-10 2022-05-10 西南交通大学 基于条件与性能匹配的车内压力波动迭代学习控制方法
CN114460843B (zh) * 2022-01-10 2023-09-01 西南交通大学 基于条件与性能匹配的车内压力波动迭代学习控制方法
CN114648877A (zh) * 2022-05-13 2022-06-21 北京理工大学前沿技术研究院 一种无信号交叉口车辆通行方法、系统、设备和存储介质
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN115082900B (zh) * 2022-07-19 2023-06-16 湖南大学无锡智能控制研究院 一种停车场场景下智能车辆行驶决策系统及方法
CN115082900A (zh) * 2022-07-19 2022-09-20 湖南大学无锡智能控制研究院 一种停车场场景下智能车辆行驶决策系统及方法

Also Published As

Publication number Publication date
CN108932840B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN108932840A (zh) 基于强化学习的无人驾驶车辆城市交叉口通行方法
Aradi Survey of deep reinforcement learning for motion planning of autonomous vehicles
Elallid et al. A comprehensive survey on the application of deep and reinforcement learning approaches in autonomous driving
Best et al. Autonovi-sim: Autonomous vehicle simulation platform with weather, sensing, and traffic control
Li et al. Combined trajectory planning and tracking for autonomous vehicle considering driving styles
Fehér et al. Hierarchical evasive path planning using reinforcement learning and model predictive control
Cai et al. DQ-GAT: Towards safe and efficient autonomous driving with deep Q-learning and graph attention networks
Yang et al. A hybrid motion planning framework for autonomous driving in mixed traffic flow
Makantasis et al. A deep reinforcement learning driving policy for autonomous road vehicles
Li et al. A learning-based model predictive trajectory planning controller for automated driving in unstructured dynamic environments
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
Xia et al. Interactive planning for autonomous driving in intersection scenarios without traffic signs
Cai et al. Carl-lead: Lidar-based end-to-end autonomous driving with contrastive deep reinforcement learning
Zhang et al. Structured road-oriented motion planning and tracking framework for active collision avoidance of autonomous vehicles
Guan et al. Learn collision-free self-driving skills at urban intersections with model-based reinforcement learning
Ren et al. Self-learned intelligence for integrated decision and control of automated vehicles at signalized intersections
Gu et al. Safe-state enhancement method for autonomous driving via direct hierarchical reinforcement learning
Lodh et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
Wang et al. An intelligent self-driving truck system for highway transportation
Cai et al. Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection
Huang et al. General Optimal Trajectory Planning: Enabling Autonomous Vehicles with the Principle of Least Action
Sheng et al. A cooperation-aware lane change method for automated vehicles
Yoon et al. Social force aggregation control for autonomous driving with connected preview
Naumann Probabilistic motion planning for automated vehicles
Guo et al. Research on integrated decision control algorithm for autonomous vehicles under multi-task hybrid constraints in intelligent transportation scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Xuemei

Inventor after: Du Mingming

Inventor after: Liu Gemeng

Inventor before: Chen Xuemei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant