CN116540602A - 一种基于路段安全级别dqn的车辆无人驾驶方法 - Google Patents
一种基于路段安全级别dqn的车辆无人驾驶方法 Download PDFInfo
- Publication number
- CN116540602A CN116540602A CN202310477768.7A CN202310477768A CN116540602A CN 116540602 A CN116540602 A CN 116540602A CN 202310477768 A CN202310477768 A CN 202310477768A CN 116540602 A CN116540602 A CN 116540602A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- neural network
- state
- action
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 89
- 230000009471 action Effects 0.000 claims abstract description 66
- 238000012546 transfer Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000003542 behavioural effect Effects 0.000 claims abstract description 20
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 230000009191 jumping Effects 0.000 claims abstract description 7
- 230000007704 transition Effects 0.000 claims description 23
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 34
- 230000006399 behavior Effects 0.000 description 26
- 206010039203 Road traffic accident Diseases 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 208000032170 Congenital Abnormalities Diseases 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
- G05B19/0423—Input/output
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/25—Pc structure of the system
- G05B2219/25257—Microcontroller
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于路段安全级别DQN的车辆无人驾驶方法,包括:1、建立基于DQN的车辆控制行为神经网络和目标神经网络;2、初始化各参数;3、将状态st输入行为神经网络得到Q最大时的动作;采用贪婪算法确定动作at;4、执行at并计算奖励、下一步状态、回放优先级,构建转移样本存储于经验回放池;5、定时计算归一化回放优先级;6、对经验回放池进行非均匀采样,通过最小化损失函数训练行为神经网络;7、定时更新目标神经网络参数;更新st,跳转至步骤3继续训练,直至行为神经网络收敛;8、构建车辆实时状态,利用目标神经网络获取驾驶动作并执行,直至到达目的地。该方法能够在不同安全级别的路段上完成高难度安全驾驶动作,安全到达终点。
Description
技术领域
本发明属于车辆无人驾驶技术领域,具体涉及一种基于路段安全级别DQN的车辆无人驾驶方法。
背景技术
随着自动驾驶技术的发展,自动驾驶车辆已经能在某些特定路段上达到试商业运行的水平,但是要达到安全驾驶L4和L5的级别,能够适应多样的驾驶环境,在全程驾驶过程中不需要辅助驾驶人员,对车速不加以限制等要求,在驾驶安全方面还需要大力增强。特别是对于交通情况复杂,容易造成交通事故安全的路段,比如十字路口和岔路口,以及行人和电动车较多的路段,以及遇到大拐弯,以及需要超车等需要复杂决策的场景,还需要训练出具有更高驾驶策略的无人驾驶智能体。同时在交通事故频发地段,可能先天的交通设计缺陷,无人驾驶智能体需要尝试和探索更多样的驾驶场景,以便尽早发现存在的问题,以便在后期训练阶段可以学习到如何避免触发相关的危险驾驶场景。
专利文献1:CN 110646009 A中提出了公开了一种基于DQN的车辆自动驾驶路径规划的方法,该发明设计奖励函数,使得自动行驶车辆沿着预设轨迹方向行驶的速度越大,或者与预设轨迹之间的距离越小时,所述车辆的即时奖励越高,通过强化学习训练,可以使得无人驾驶车辆沿着预设轨迹告诉行驶。该发明提出的方法较合适在特定路段行驶,无法适应不同路段,不同交通场景的通用驾驶的要求。专利文献2:CN 110969848 A公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法,该发明设计奖励函数,包括四个相关项,分别是目标相关项,安全相关项,速度相关项和碰撞相关项,通过对四个项加权求和来计算最终奖励函数值。其中,目标相关项在超车成功时给予较大的奖励;安全相关项在车辆处于对向车道时会给予负的奖励,从而避免出现车辆长时间占据对向车道的情况;速度相关项用于实现更快的超车;碰撞相关项是基于碰撞时间余量(TTC)的分段函数,TTC越小奖励越小。主要用于双车道超车的驾驶场景,对于其他驾驶场景需要单独设计另外的奖励函数。限制了本方法的应用范围。专利文献3:US10282662B2提出了使用基于优先级的经验回放方法来对与环境交互的智能体进行训练,该优先级基于时间差分误差来确定优先级别,该优先级别选择具有较高预期学习进展度的样本进行训练,与基于随机均匀采样的经验回放方法相比,可以缩短训练时间,提高训练的效率。在无人驾驶中使用此方法训练过程中,对于简单交通路段的场景能够很快掌握驾驶策略,但是对于复杂交通路段的场景训练时,由于采集的相关路况训练样本不足、训练的强度也没有提到足够的优先级,采用该方法训练的智能体往往无法掌握复杂交通路段上的驾驶决策策略。对于复杂交通路段的强化学习训练,需要采集更多数量和种类的路况样本,同时需要提高这些样本的训练优先级别,以便能够分配足够的资源用于复杂交通路段的驾驶模型训练,掌握复杂交通路段上的驾驶策略。
虽然自动驾驶的传感器硬件有了高速的发展,但是传感器硬件比如相机和激光雷达等硬件设备在特定条件下还是有可能发生测量错误,底层硬件检测的问题会影响驾驶决策软件做出正确的决策。为了弥补底层硬件检测可能的问题,或者交通道路设计方面的先天缺陷,也需要加强在交通事故频发路段和复杂交通路段上更广泛地探索各种驾驶场景的训练样本,以便尽早发现存在的问题。为了弥补底层硬件的缺陷,以及交通道路设计方面的先天缺陷,需要对交通事故频发路段和复杂交通路段上采集的样本有针对性地加强训练,使得训练出来的智能体能够适应更加复杂多变的路况,弥补底层硬件检测能力的不足和道路设计等方面的先天缺陷,从而避免潜在的交通安全隐患,提高无人驾驶的安全性能。
在使用深度强化学习的无人驾驶训练过程中,目前的训练方式主要根据时间差分误差来确定优先级,来选择训练的交通数据样本。由于公路交通中各个路段的情况千差万别,采用通用奖励函数训练出来的智能体可能在普通常见路段上能安全和高速的行驶,但是在复杂交通路段上,如果套用简单交通路段的驾驶策略,会无法完成复杂场景下驾驶任务。如果训练的样本和训练的频次不足,训练的驾驶策略或者非常保守,无法高速行驶,或者无法在不常见的交通场景中安全行驶,甚至造成交通安全事故。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于路段安全级别DQN的车辆无人驾驶方法,该方法能够在不同安全级别的路段上完成难度较高的安全驾驶动作,安全到达预设的终点目标,并达到较高的行驶速度。
技术方案:本发明采用如下技术方案:
一种基于路段安全级别DQN的车辆无人驾驶方法,包括:
S1、建立基于DQN算法的车辆控制行为神经网络和目标神经网络;所述车辆控制行为神经网络和目标神经网络的结构相同,输入为状态值,输出为在输入状态值下执行各种动作的Q值;
所述行为神经网络和目标神经网络的状态空间为车辆自身状态和车辆周边路况信息构成的向量;所述车辆自身状态包括车辆自身的位置、速度、行驶方向;所述车辆周边路况信息包括车辆周边运动物体的状态和车辆周边静止物体的状态;所述车辆周边运动物体的状态包括车辆周边运动物体的位置、速度、运动方向;所述车辆周边静止物体的状态包括车辆周边静止物体的位置;
所述行为神经网络和目标神经网络的动作空间为车辆转向角度、加速度、刹车强度组成的向量;
S2、对行为神经网络的参数w进行随机初始化,将目标神经网络的参数θ初始化为w;初始化时间步t=0,采集车辆自身状态和车辆周边路况信息,建立初始状态值st;初始化经验回放池为空;
S3、将st输入行为神经网络中,选择使Q(st,a;w)取最大值的动作amax作为当前时间的最优动作,即:amax=argmaxaQ(st,a;w),其中Q(st,a;w)表示行为神经网络在参数w下根据状态st动作a输出的Q值;
采用贪婪算法确定当前车辆的驾驶动作at:以预设概率ε选择动作amax作为所述车辆的驾驶动作at,以1-ε作为概率在预设动作集中随机选取一个动作作为所述车辆的驾驶动作at;
S4、执行动作at并计算奖励rt和状态st+1;
将Et=(st,at,rt,st+1,λt)作为当前转移样本存储于经验回放池中;λt为车辆当前位置的路段安全级别;根据λt计算所述转移样本Et的回放优先级qt;
如果mod(t,K)为0,执行步骤S5-S7;否则,令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3;K为预设的回放训练周期;
S5、计算当前经验回放池中每个转移样本的归一化回放优先级:
α为非均匀采样强度,α≥0;N为经验回放池中当前转移样本的总数;qτ为经验回放池中第τ个样本的回放优先级;
S6、对经验回放池中的转移样本进行非均匀采样,每个转移样本被选中的概率为该转移样本的归一化回放优先级;根据选中的转移样本计算损失函数,并通过最小化损失函数训练行为神经网络的参数w;
S7、如果mod(t,C)为0,使用行为神经网络的参数w更新目标神经网络的参数θ;mod为取余运算,C为预设的参数更新周期;令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3继续下一时间步的训练,直至行为神经网络收敛;
所述行为神经网络收敛是指,从经验回放池中随机采集[N/R]个转移样本计算的损失函数值收敛于预设的误差阈值;R≥1,[]为取整函数;
S8、车辆采用无人驾驶模式行驶时,根据车辆自身状态和车辆周边路况信息构建车辆的实时状态值,将所述实时状态值输入训练好的目标神经网络中,选择使目标神经网络输出Q值取最大值的动作,作为车辆的驾驶动作,执行该驾驶动作;重复本步骤,直至车辆到达目的地。
进一步地,所述车辆自身状态和车辆周边路况信息采用车用无线通信技术V2X来获取。
进一步地,所述车辆自身状态和车辆周边路况信息采用计算机视觉技术来获取。
进一步地,所述奖励rt的计算为:
判断车辆执行at过程中的行驶状态,根据所述行驶状态确定奖励rt的值:
如果车辆执行at发生碰撞或者驶出道路,rt=r1,r1<0;
如果车辆执行at安全顺利到达目的地,rt=r2,r2>0;
如果车辆执行at后与前面车辆或者后面车辆的剩余碰撞时间处于警戒范围之内,rt=r3,r3<0;
如果车辆执行at闯红灯或者违反交通规则,rt=r4,r4<0;
其他行驶状态,rt=(|vtcos(ψt)|-|vtsin(ψt)|)Sgn(dth-dt);其中vt为当前时间步车辆自身的速度,ψt为当前时间步车辆行驶方向与车道中轴线的夹角;dt为车辆与最近邻路点之间的距离,所述最近邻路点为与车辆当前位置最近的路点,所述路点设置于规划路径的车道中线上;dth为预设的车辆偏移路点距离阈值。
进一步地,所述转移样本Et的回放优先级的计算步骤为:
S4.1、计算所述转移样本Et的时间差分误差:
TdErrt=|rt+γQ(st+1,a*;θ)-Q(st,at;w)|
其中γ为折扣因子,Q(st,at;w)为行为神经网络根据状态st动作at输出的Q值,a*为行为神经网络在状态st+1下Q值最大时的动作,a*=argmaxaQ(st+1,a;w);Q(st+1,a*;θ)为目标神经网络在状态st+1下执行动作a*输出的Q值;
S4.2、计算转移样本Et的回放优先级:
其中λt为车辆当前位置所处路段的安全级别,λt≥1;k为转移样本回放优先级修正参数,k>0。
进一步地,转移样本回放优先级修正参数k按如下方式取值:
方式一:k为大于0的常数;
方式二:k随时间步t线性调整:
其中μ为转移样本回放优先级修正速率,μ>0;Tth为转移样本回放优先级修正时间步阈值。
进一步地,所述损失函数为:
其中表示行为神经网络在状态/>下Q值最大时的动作;γ为折扣因子;pc为选中的转移样本的归一化回放优先级;N为经验回放池中当前转移样本的总数。
进一步地,所述损失函数为:
其中β为损失函数权重调整强度,0≤β≤1。
进一步地,损失函数权重调整强度β按如下方式取值:
方式A:β为[0,1]范围内的常数;
方式B:β随时间步t线性调整:
T′th为损失函数权重调整强度修正时间步阈值。
进一步地,所述步骤S4中,采用sumtree树结构来保存转移样本Et的回放优先级qt;所述sumtree树结构的每个叶子节点与经验回放池中的转移样本对应,建立叶子节点与转移样本的索引;叶子节点的取值为对应转移样本的回放优先级。
有益效果:本发明公开的基于路段安全级别DQN的车辆无人驾驶方法,根据历史交通路段安全驾驶统计数据,事先对不同的路段设置不同的安全级别,容易引发交通事故的路段设置较高的安全级别,而很少发生交通事故的路段设置较低的安全级别。在采用基于经验回放池的深度强化学习算法来训练智能体时:
1)在行为神经网络和环境交互阶段,让行为模型神经网络和环境交互来生成该路段的训练样本数据,根据样本数据的路段位置,得到该样本所属路段的安全等级。并根据安全等级和时间差分误差(TD error)计算该转移样本的回放优先级,并把回放优先级保存在数据结构sumtree中。
2)在经验回放阶段,根据回放优先级别来对经验回放池中的转移样本进行非均匀采样,使得安全级别高的路段的交通数据样本能够以更高概率被用来训练行为模型神经网络,安全级别低的路段的交通数据样本以较低的概率来被用来训练。为了防止训练模型过拟合于安全级别高的路段的交通数据样本,根据行驶的路段的安全级别来对基于时间转移误差的损失函数进行修正,使用了调整权重后的损失函数,使得训练出的模型能够兼顾在普通安全级别低的路段上的安全和高速的行驶要求基础上,同时能适应复杂多变的事故频发路段的驾驶要求,提高无人驾驶的安全性。
附图说明
图1为训练阶段的道路示意图;
图2为本发明公开的车辆无人驾驶方法的流程图;
图3为路点设置示意图;
图4为本发明采样和训练架构示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于路段安全级别DQN的车辆无人驾驶方法。本实施例以图1所示的双向道路来说明本发明的技术方案。图1中,整个道路分为4个不同交通安全级别的路段,从左至右分别为:直行路段1、圆形转盘路段2、十字路口路段3和转向路段4。其中十字路口路段3的交通状况最为复杂,最易发生交通事故;其次为圆形转盘路段2,左侧直行路段的交通状态最为简单。根据各路段安全要求,设置安全级别,安全要求越高的路段,其安全级别的数值越大。本实施例中,路段1-4的安全级别分别为1、3、4、2。车辆从左侧的起点Start点沿右车道行驶至右侧的目的点Goal完成训练,过程如图2所示,包括:
S1、建立基于DQN算法的车辆控制行为神经网络和目标神经网络;所述车辆控制行为神经网络和目标神经网络的结构相同,输入为状态值,输出为在输入状态值下执行各种动作的Q值;
所述行为神经网络和目标神经网络的状态空间为车辆自身状态和车辆周边路况信息构成的向量;所述车辆自身状态包括车辆自身的位置、速度、行驶方向;所述车辆周边路况信息包括车辆周边运动物体的状态和车辆周边静止物体的状态;所述车辆周边运动物体的状态包括车辆周边运动物体的位置、速度、运动方向;所述车辆周边静止物体的状态包括车辆周边静止物体的位置;
所述行为神经网络和目标神经网络的动作空间为车辆转向角度、加速度、刹车强度组成的向量;本实施例中,转向角度、加速度、刹车强度均采用离散变量表示。
车辆自身状态和车辆周边路况信息可以采用车用无线通信技术V2X(Vehicle toEverything)来获取,也可以采用计算机视觉技术来获取。利用计算机视觉技术进行图像或视频中物体的识别、分割、跟踪、运动参数预测均是比较成熟的技术。
S2、对行为神经网络的参数w进行随机初始化,将目标神经网络的参数θ初始化为w;初始化时间步t=0,采集车辆自身状态和车辆周边路况信息,建立初始状态值st;初始化经验回放池为空;
S3、将st输入行为神经网络中,选择使Q(st,a;w)取最大值的动作amax作为当前时间的最优动作,即:amax=argmaxa Q(st,a;w),其中Q(st,a;w)表示行为神经网络在参数w下根据状态st动作a输出的Q值;
采用贪婪算法确定当前车辆的驾驶动作at:以预设概率ε选择动作amax作为所述车辆的驾驶动作at,以1-ε作为概率在预设动作集中随机选取一个动作作为所述车辆的驾驶动作at;本实施例中,预设概率ε的值为0.95;
S4、执行动作at并计算奖励rt和状态st+1;
本发明根据车辆执行动作at的行驶状态来计算奖励rt的值,具体为:
(1)如果车辆执行at发生碰撞或者驶出道路,rt=r1,r1<0;本实施例中r1为-200;
(2)如果车辆执行at安全顺利到达目的地,rt=r2,r2>0;本实施例中r2为500;
(3)如果车辆执行at后与前面车辆或者后面车辆的剩余碰撞时间(Time tocollision,TTC)处于警戒范围之内,rt=r3,r3<0;
通过与前面车辆的相对距离除以相对速度,得到与前面车辆的剩余碰撞时间,通过与后面车辆的相对距离和相对速度,得到与后面车辆的剩余碰撞时间,只要其中有一个剩余碰撞时间处于警戒范围之内,则适用于此处的负奖励值。此处可以通过车用无线通信技术V2X(Vehicle to Everything)来获取前后车辆的相对距离和相对速度,也可以借助于计算机视觉技术通过图像检测和识别技术来计算相对距离和相对速度。本实施例中r3为-40。
(4)如果车辆执行at闯红灯或者违反交通规则,rt=r4,r4<0;本实施例中r4为-30;
此处可以通过车用无线通信技术V2X(Vehicle to Everything)来从基站广播信号中获取红绿灯信号和获取该地点的交通规则,也可以借助于计算机视觉技术通过图像识别来获取。
(5)除上述情况之外的其他行驶状态,奖励rt的计算式为:
rt=(|vtcos(ψt)|-|vtsin(ψt)|)Sgn(dth-dt) (1)
其中vt为当前时间步车辆自身的速度,ψt为当前时间步车辆行驶方向与车道中轴线的夹角;dt为车辆与最近邻路点之间的距离,所述最近邻路点为与车辆当前位置最近的路点,所述路点设置于从起点Start点行驶至目的点Goal的规划路径的车道中线上;dth为预设的车辆偏移路点距离阈值。如图3所示,图中虚线为车道中线,虚线上的椭圆圈为路点。如果车辆在车道内行驶,且没有超过车道的最大限速,则沿着车道方向的行驶速度越快,奖励值越大;如果垂直于车道行驶速度分量越大,则可能有越出车道的风险,则减去垂直方向的值;Sgn(dth-dt)表示车辆偏离最近邻路点的距离小于dth才有奖励,否则没有奖励或奖励为负,鼓励车辆沿着规划路径的路点行驶,即车辆尽量沿车道中线在允许距离范围内行驶。
将Et=(st,at,rt,st+1,λt)作为当前转移样本存储于经验回放池中;λt为车辆当前位置的路段安全级别,λt≥1,根据车辆当前位置所处的路段,即可获取到λt的取值;根据λt计算所述转移样本Et的回放优先级qt;
转移样本Et的回放优先级的计算步骤为:
S4.1、计算所述转移样本Et的时间差分误差:
TdErrt=|rt+γQ(st+1,a*;θ)-Q(st,at;w)| (2)
其中γ为折扣因子,Q(st,at;w)为行为神经网络根据状态st动作at输出的Q值,a*为行为神经网络在状态st+1下Q值最大时的动作,a*=argmaxaQ(st+1,a;w);Q(st+1,a*;θ)为目标神经网络在状态st+1下执行动作a*输出的Q值;
S4.2、计算转移样本Et的回放优先级:
其中k为转移样本回放优先级修正参数,k>0;即转移样本的回放优先级与生成该转移样本时车辆所处路段的安全级别有关,安全级别越大,则回放优先级越大。
转移样本回放优先级修正参数k的可以按如下方式取值:
方式一:k为大于0的常数;
如果k取值为0,则回放优先级的值与时间差分误差(TD error)的值相等,即不使用路段的安全级别来对时间差分误差进行修正。如果k取值大于0,则转移样本的回放优先级与路段安全级别相关。假设不同路段,即使两条转移样本的时间差分误差值相同,但由于所处的路段安全级别不同,计算得到的回放优先级的值也不同,路段安全级别越高,对应的回放优先级越大,后期被非均匀采样的概率也越高;通过提高安全级别高的路段的回放优先级的值,可以对安全级别高的路段的样本进行重点训练。本实施例中,k取值为0.5.
方式二:k随时间步t线性调整:
其中μ为转移样本回放优先级修正速率,μ>0;通过设置μ的取值,使得计算的k值在指定的范围内;Tth为转移样本回放优先级修正时间步阈值。上述计算式将k的取值逐渐调整到0。在训练初期针对安全级别高的路段的转移样本进行重点训练,而在训练后期,k的取值逐渐减小直至为0,即逐渐降低路段安全级别对训练的影响,可以保证最后训练出的模型能够兼顾安全级别高的路段安全行驶要求和安全级别低的路段上的高效行驶要求。
S4.3、采用sumtree树结构来保存各转移样本的回放优先级。sumtree树结构的每个叶子节点与经验回放池中的转移样本对应,即建立叶子节点与转移样本的索引;叶子节点的取值为对应转移样本的回放优先级。经验回放池中的转移样本有变化时,如修改、删除或增加,则需要修改、删除或增加相应的叶子节点。
如果mod(t,K)为0,执行步骤S5-S7;否则,令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3;K为预设的回放训练周期,本实施例中K的值为4;
S5、计算当前经验回放池中每个转移样本的归一化回放优先级:
α为非均匀采样强度,α≥0;N为经验回放池中当前转移样本的总数;qτ为经验回放池中第τ个样本的回放优先级;
非均匀采样强度α取值为0时,每个转移样本的归一化回放优先级相等,则为均匀随机采样;α大于0,则采用非均匀采样。
迭代过程中需要计算转移样本的归一化回放优先级时,通过读取树结构中叶子节点的取值可以快速获取各转移样本的回放优先级。
S6、对经验回放池中的转移样本进行非均匀采样,每个转移样本被选中的概率为该转移样本的归一化回放优先级;根据选中的转移样本计算损失函数,并通过最小化损失函数训练行为神经网络的参数w,上标c表示选中的转移样本;
为了防止行为神经网络过拟合于路段安全级别高的样本,比如在容易驾驶的路段也只能低速行驶,或者驾驶行为过于保守,导致经常刹车和过度减速慢行。对于选中的转移样本Ec,使用调整权重后的损失函数,如下:
其中表示行为神经网络在状态/>下Q值最大时的动作;γ为折扣因子;pc为选中的转移样本的归一化回放优先级;N为经验回放池中当前转移样本的总数。
对于在安全级别低的路段上生成的转移样本,由于该类样本的归一化回放优先级pτ较低,对应的值较高,使用式(5)中的调整权重损失函数更新参数时,对行为神经网络参数w的影响较大。而对于在安全级别高的路段上生成的转移样本,由于该类样本的回放优先级pτ较高,对应的/>值较低,使用调整权重损失函数更新参数时,对行为神经网络参数w的影响会较小。
使用了调整权重后的损失函数,使得训练出的模型在普通安全级别低的路段上能保证安全和高速的行驶的基础上,同时能适应复杂多变的事故频发路段的驾驶要求,提高无人驾驶的安全性。
此外,也可以采用如下损失函数:
其中β为损失函数权重调整强度,0≤β≤1。
如果β=0,则完全使用时间差分误差(TD error)来计算损失函数;如果β=1,则完全使用调整权重来计算损失函数;β的取值可以修改安全级别对损失函数值的影响,进而影响到行为神经网络参数w。
β还可以随时间步t线性调整,本实施例中,β采用从0增大到1的方式,如下:
其中T′th为损失函数权重调整强度修正时间步阈值。
在训练初期针对优先级高的样本以更高的频次采样参与训练,而在训练后期,当β接近或者等于1时,可以保证最后训练出的网络是一个无偏的模型,此处的无偏模型是指训练得到的行为神经网络不会过拟合于安全级别高的路段的转移样本,能够兼顾安全级别低的路段和安全级别高的路段的安全驾驶的要求。
根据式(5)或者(6)计算损失函数的值,采用批量梯度下降的方法对行为神经网络进行训练,更新行为神经网络的参数w。如图4所示,为本发明的采样和训练架构示意图。
S7、如果mod(t,C)为0,使用行为神经网络的参数w更新目标神经网络的参数θ;mod为取余运算,C为预设的参数更新周期;令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3继续下一时间步的训练,直至行为神经网络收敛;
所述行为神经网络收敛是指,从经验回放池中随机采集[N/R]个转移样本计算的损失函数值收敛于预设的误差阈值;R≥1,[]为取整函数;
如果R的值为1,则对于经验回访池中的所有转移样本计算的损失函数值收敛于预设的误差阈值时认为行为神经网络收敛。在本实施例中,为了提高判断行为神经网络是否收敛的计算效率,令R的值为10,即采样N/10个转移样本,用来计算损失函数的值,用于判新行为神经网络是否收敛。
S8、车辆采用无人驾驶模式行驶时,根据车辆自身状态和车辆周边路况信息构建车辆的实时状态值,将所述实时状态值输入训练好的目标神经网络中,选择使目标神经网络输出Q值取最大值的动作,作为车辆的驾驶动作,执行该驾驶动作;重复本步骤,直至车辆到达目的地。
步骤S1-S7训练得到的目标神经网络可以在不同安全级别的路段上完成难度较高的安全驾驶动作,使用该网络,使无人驾驶的车辆能够安全到达预设的终点目标,并达到较高的行驶速度。
如图1所示,本实施例中路段的安全级别采用4级,交通安全优先级别越高表示该路段越容易发生交通事故。实际路段上的安全交通级别可以通过统计历史交通大数据来进行分级。根据实际安全级别的需要,可以定义更多的交通安全级别,比如10种安全级别,[1,2,3,4,5,6,7,8,9,10],以满足实际路段上安全驾驶的级别要求。如果在模拟器上进行训练,根据在模拟器上统计出的碰撞频次或者在模拟器上的违反交通规则频次等手段得到安全级别。每个路段在训练前就根据历史数据赋给了交通安全优先级别。
Claims (10)
1.一种基于路段安全级别DQN的车辆无人驾驶方法,其特征在于,包括:
S1、建立基于DQN算法的车辆控制行为神经网络和目标神经网络;所述车辆控制行为神经网络和目标神经网络的结构相同,输入为状态值,输出为在输入状态值下执行各种动作的Q值;
所述行为神经网络和目标神经网络的状态空间为车辆自身状态和车辆周边路况信息构成的向量;所述车辆自身状态包括车辆自身的位置、速度、行驶方向;所述车辆周边路况信息包括车辆周边运动物体的状态和车辆周边静止物体的状态;所述车辆周边运动物体的状态包括车辆周边运动物体的位置、速度、运动方向;所述车辆周边静止物体的状态包括车辆周边静止物体的位置;
所述行为神经网络和目标神经网络的动作空间为车辆转向角度、加速度、刹车强度组成的向量;
S2、对行为神经网络的参数w进行随机初始化,将目标神经网络的参数θ初始化为w;初始化时间步t=0,采集车辆自身状态和车辆周边路况信息,建立初始状态值st;初始化经验回放池为空;
S3、将st输入行为神经网络中,选择使Q(st,a;w)取最大值的动作amax作为当前时间的最优动作,即:amax=argmaxaQ(st,a;w),其中Q(st,a;w)表示行为神经网络在参数w下根据状态st动作a输出的Q值;
采用贪婪算法确定当前车辆的驾驶动作at:以预设概率ε选择动作amax作为所述车辆的驾驶动作at,以1-ε作为概率在预设动作集中随机选取一个动作作为所述车辆的驾驶动作at;
S4、执行动作at并计算奖励rt和状态st+1;
将Et=(st,at,rt,st+1,λt)作为当前转移样本存储于经验回放池中;λt为车辆当前位置的路段安全级别;根据λt计算所述转移样本Et的回放优先级qt;
如果mod(t,K)为0,执行步骤S5-S7;否则,令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3;K为预设的回放训练周期;
S5、计算当前经验回放池中每个转移样本的归一化回放优先级:
α为非均匀采样强度,α≥0;N为经验回放池中当前转移样本的总数;qτ为经验回放池中第τ个样本的回放优先级;
S6、对经验回放池中的转移样本进行非均匀采样,每个转移样本被选中的概率为该转移样本的归一化回放优先级;根据选中的转移样本计算损失函数,并通过最小化损失函数训练行为神经网络的参数w;
S7、如果mod(t,C)为0,使用行为神经网络的参数w更新目标神经网络的参数θ;mod为取余运算,C为预设的参数更新周期;令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3继续下一时间步的训练,直至行为神经网络收敛;
所述行为神经网络收敛是指,从经验回放池中随机采集[N/R]个转移样本计算的损失函数值收敛于预设的误差阈值;R≥1,[]为取整函数;
S8、车辆采用无人驾驶模式行驶时,根据车辆自身状态和车辆周边路况信息构建车辆的实时状态值,将所述实时状态值输入训练好的目标神经网络中,选择使目标神经网络输出Q值取最大值的动作,作为车辆的驾驶动作,执行该驾驶动作;重复本步骤,直至车辆到达目的地。
2.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述车辆自身状态和车辆周边路况信息采用车用无线通信技术V2X来获取。
3.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述车辆自身状态和车辆周边路况信息采用计算机视觉技术来获取。
4.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述奖励rt的计算为:
判断车辆执行at过程中的行驶状态,根据所述行驶状态确定奖励rt的值:
如果车辆执行at发生碰撞或者驶出道路,rt=r1,r1<0;
如果车辆执行at安全顺利到达目的地,rt=r2,r2>0;
如果车辆执行at后与前面车辆或者后面车辆的剩余碰撞时间处于警戒范围之内,rt=r3,r3<0;
如果车辆执行at闯红灯或者违反交通规则,rt=r4,r4<0;
其他行驶状态,rt=(|vtcos(ψt)|-|vtsin(ψt)|)Sgn(dth-dt);其中vt为当前时间步车辆自身的速度,ψt为当前时间步车辆行驶方向与车道中轴线的夹角;dt为车辆与最近邻路点之间的距离,所述最近邻路点为与车辆当前位置最近的路点,所述路点设置于规划路径的车道中线上;dth为预设的车辆偏移路点距离阈值。
5.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述转移样本Et的回放优先级的计算步骤为:
S4.1、计算所述转移样本Et的时间差分误差:
TdErrt=|rt+γQ(st+1,a*;θ)-Q(st,at;w)|
其中γ为折扣因子,Q(st,at;w)为行为神经网络根据状态st动作at输出的Q值,a*为行为神经网络在状态st+1下Q值最大时的动作,a*=arg maxaQ(st+1,a;w);Q(st+1,a*;θ)为目标神经网络在状态st+1下执行动作a*输出的Q值;
S4.2、计算转移样本Et的回放优先级:qt=λt k·TdErrt;
其中λt为车辆当前位置所处路段的安全级别,λt≥1;k为转移样本回放优先级修正参数,k>0。
6.根据权利要求5所述的车辆无人驾驶方法,其特征在于,转移样本回放优先级修正参数k按如下方式取值:
方式一:k为大于0的常数;
方式二:k随时间步t线性调整:
其中μ为转移样本回放优先级修正速率,μ>0;Tth为转移样本回放优先级修正时间步阈值。
7.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述损失函数为:
其中表示行为神经网络在状态/>下Q值最大时的动作;γ为折扣因子;pc为选中的转移样本的归一化回放优先级;N为经验回放池中当前转移样本的总数。
8.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述损失函数为:
其中β为损失函数权重调整强度,0≤β≤1。
9.根据权利要求8所述的车辆无人驾驶方法,其特征在于,损失函数权重调整强度β按如下方式取值:
方式A:β为[0,1]范围内的常数;
方式B:β随时间步t线性调整:
T′th为损失函数权重调整强度修正时间步阈值。
10.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述步骤S4中,采用sumtree树结构来保存转移样本Et的回放优先级qt;所述sumtree树结构的每个叶子节点与经验回放池中的转移样本对应,建立叶子节点与转移样本的索引;叶子节点的取值为对应转移样本的回放优先级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477768.7A CN116540602B (zh) | 2023-04-28 | 2023-04-28 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477768.7A CN116540602B (zh) | 2023-04-28 | 2023-04-28 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116540602A true CN116540602A (zh) | 2023-08-04 |
CN116540602B CN116540602B (zh) | 2024-02-23 |
Family
ID=87457072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310477768.7A Active CN116540602B (zh) | 2023-04-28 | 2023-04-28 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116540602B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111275249A (zh) * | 2020-01-15 | 2020-06-12 | 吉利汽车研究院(宁波)有限公司 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
US20200319609A1 (en) * | 2017-12-22 | 2020-10-08 | Huawei Technologies Co., Ltd. | Action Control Method and Apparatus |
CN113011588A (zh) * | 2021-04-21 | 2021-06-22 | 华侨大学 | 一种卷积神经网络的剪枝方法、装置、设备和介质 |
CN113635909A (zh) * | 2021-08-19 | 2021-11-12 | 崔建勋 | 一种基于对抗生成模仿学习的自动驾驶控制方法 |
CN115358415A (zh) * | 2022-07-29 | 2022-11-18 | 深圳元戎启行科技有限公司 | 自动驾驶学习模型的分布式训练方法及自动驾驶方法 |
CN115469663A (zh) * | 2022-09-15 | 2022-12-13 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
CN115782880A (zh) * | 2022-11-29 | 2023-03-14 | 清华大学 | 智能汽车换道决策方法、装置、电子设备和存储介质 |
US20230136303A1 (en) * | 2022-03-11 | 2023-05-04 | Apollo Intelligent Driving Technology (Beijing) Co., Ltd. | Method of training model, method of predicting trajectory, and electronic device |
-
2023
- 2023-04-28 CN CN202310477768.7A patent/CN116540602B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200319609A1 (en) * | 2017-12-22 | 2020-10-08 | Huawei Technologies Co., Ltd. | Action Control Method and Apparatus |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111275249A (zh) * | 2020-01-15 | 2020-06-12 | 吉利汽车研究院(宁波)有限公司 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
CN113011588A (zh) * | 2021-04-21 | 2021-06-22 | 华侨大学 | 一种卷积神经网络的剪枝方法、装置、设备和介质 |
CN113635909A (zh) * | 2021-08-19 | 2021-11-12 | 崔建勋 | 一种基于对抗生成模仿学习的自动驾驶控制方法 |
US20230136303A1 (en) * | 2022-03-11 | 2023-05-04 | Apollo Intelligent Driving Technology (Beijing) Co., Ltd. | Method of training model, method of predicting trajectory, and electronic device |
CN115358415A (zh) * | 2022-07-29 | 2022-11-18 | 深圳元戎启行科技有限公司 | 自动驾驶学习模型的分布式训练方法及自动驾驶方法 |
CN115469663A (zh) * | 2022-09-15 | 2022-12-13 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
CN115782880A (zh) * | 2022-11-29 | 2023-03-14 | 清华大学 | 智能汽车换道决策方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
王强: "基于深度强化学习的自动驾驶控制决策研究" * |
胡学敏;成煜;陈国文;张若晗;童秀迟;: "基于深度时空Q网络的定向导航自动驾驶运动规划", 计算机应用, no. 07 * |
黄志清;曲志伟;张吉;张严心;田锐;: "基于深度强化学习的端到端无人驾驶决策", 电子学报, no. 09 * |
Also Published As
Publication number | Publication date |
---|---|
CN116540602B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898211B (zh) | 基于深度强化学习的智能车速度决策方法及其仿真方法 | |
Zhang et al. | Query-efficient imitation learning for end-to-end autonomous driving | |
CN112099496B (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110969848A (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN110750877A (zh) | 一种Apollo平台下的车辆跟驰行为预测方法 | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
Aradi et al. | Policy gradient based reinforcement learning approach for autonomous highway driving | |
CN112418237A (zh) | 车辆驾驶决策方法、装置及电子设备 | |
US20230001953A1 (en) | Planning-aware prediction for control-aware autonomous driving modules | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
Li et al. | Enhancing cooperation of vehicle merging control in heavy traffic using communication-based soft actor-critic algorithm | |
CN113120003B (zh) | 无人驾驶车辆运动行为决策方法 | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
CN110390398B (zh) | 在线学习方法 | |
CN112835362B (zh) | 一种自动变道规划方法及装置、电子设备和存储介质 | |
Shi et al. | Efficient Lane-changing Behavior Planning via Reinforcement Learning with Imitation Learning Initialization | |
CN116540602B (zh) | 一种基于路段安全级别dqn的车辆无人驾驶方法 | |
CN116872971A (zh) | 一种基于人机协同增强的自动驾驶控制决策方法及系统 | |
CN115092181A (zh) | 车辆的控制方法、装置、存储介质和处理器 | |
Li et al. | Interaction-Aware Decision-Making for Autonomous Vehicles in Forced Merging Scenario Leveraging Social Psychology Factors | |
CN110378460B (zh) | 决策方法 | |
Yang et al. | Decision-making in autonomous driving by reinforcement learning combined with planning & control | |
Gu et al. | Mandatory Lane-Changing Decision-Making in Dense Traffic for Autonomous Vehicles based on Deep Reinforcement Learning | |
Bethge et al. | Model Predictive Control with Gaussian-Process-Supported Dynamical Constraints for Autonomous Vehicles | |
Yang et al. | Deep Reinforcement Learning Lane-Changing Decision Algorithm for Intelligent Vehicles Combining LSTM Trajectory Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |