CN110027553A - 一种基于深度强化学习的防碰撞控制方法 - Google Patents
一种基于深度强化学习的防碰撞控制方法 Download PDFInfo
- Publication number
- CN110027553A CN110027553A CN201910283506.0A CN201910283506A CN110027553A CN 110027553 A CN110027553 A CN 110027553A CN 201910283506 A CN201910283506 A CN 201910283506A CN 110027553 A CN110027553 A CN 110027553A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- network
- moment
- parameter
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 210000003813 thumb Anatomy 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的防碰撞控制方法,采用深度确定性策略梯度方法(DDPG算法)进行深度强化学习,该方法包括:步骤1,提取本车参数和环境车辆参数;步骤2,利用本车参数和环境车辆参数,构建虚拟环境模型;步骤3,根据本车参数和环境车辆参数和虚拟环境模型,定义所述深度确定性策略梯度方法的基础参数;步骤4,根据步骤3定义好的基础参数,采用深度强化学习中的神经网络构建防碰撞控制决策系统,所述防碰撞控制决策系统包括策略网络和评价网络;步骤5,训练所述策略网络和评价网络,得到所述防碰撞控制决策系统。本发明通过构建基于深度神经网络的防碰撞控制决策系统,基于时间差分强化学习方法不断优化网络控制结果的防碰撞控制决策系统,有效提高了防碰撞控制决策系统的控制性能。
Description
技术领域
本发明涉及辅助驾驶以及自动驾驶技术领域,尤其涉及一种基于深度强化学习的防碰撞控制方法。
背景技术
在车辆行驶时,与前方车辆保持稳定的安全距离,能够有效地防止碰撞事故的发生。随着汽车数量的增加,道路上汽车的密度越来越大,因此车辆前向碰撞预警显得尤为重要。防碰撞控制系统可以判断本车1与前车2以及旁车道前方车辆之间的纵横向距离、纵横向相对速度以及方位,当存在潜在碰撞危险时对车辆进行一定的控制,能够有效降低车辆与前车以及旁车道前方车辆的碰撞事故,提高交通安全、降低交通事故的发生率。目前,提高防碰撞控制系统判断能力和系统的自适应能力是防碰撞技术的重点和难点。
申请公开号为CN107886043A,申请公布日为2018年4月6号的专利文献中提供了一种前撞预警系统,具体是一种视觉感知的汽车前视车辆和行人防碰撞预警系统及方法,对汽车前视摄像头获取的视频进行逐帧读取,并运用训练级联分类器,实现对视频中的车辆、行人进行识别,并同时结合直线检测,来对识别结果进行过滤,利用深度DBN网络完成对本车前方车辆、行人信息的判定。然后计算本车1与前车2、本车与前面行人的相对距离及相对角度,计算出安全时距,则发出警报。此发明虽然可以实现较为准确的识别,但是计算量大时效性差,只能通过学习识别感知外界环境,不能逐渐优化动作策略,也无法针对旁车道车辆状态进行有效预警。
申请公开号为CN105946766A,申请公布日为2016年9月21号的专利中提供了一种前撞预警系统,此系统涉及一种基于激光雷达与视觉的车辆碰撞预警系统及其控制方法,包括处理模块和人机交互模块,处理模块包括决策控制单元、图像采集单元以及雷达采集单元,其分别可采集视频图像信息、雷达信息并进行相应的处理。人机交互模块与处理模块通讯连接,用于接收决策控制单元输出的信息并进行相应人机交互。此专利虽然可以准确实现碰撞预警但是成本过于高,不利于普遍推广使用。
综上所述,车辆防碰撞控制系统中,一般是通过摄像头获取前方状况图像,提取特征值识别车辆、行人等,获取其距离和速度信息,然后进行危险性判定,这个系统不仅需要设计复杂的防碰撞控制决策系统模型,而且自适应能力弱,不具有自学习能力,无法适应不同环境下的预警需求;同时,目前前撞预警系统没有考虑车辆旁边两车道车辆的影响而进行前撞预警决策。
发明内容
本发明的目的在于提供一种基于深度强化学习的防碰撞控制方法来克服或至少减轻现有技术的上述缺陷中的至少一个。
为实现上述目的,本发明提供一种基于深度强化学习的防碰撞控制方法,采用深度确定性策略梯度方法进行深度强化学习,该方法包括如下步骤:
步骤1,提取本车参数和环境车辆参数;
步骤2,利用步骤1提取得到的本车参数和环境车辆参数,构建虚拟环境模型;
步骤3,根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型,定义所述深度确定性策略梯度方法的基础参数,所述基础参数包括:虚拟环境模型在当前时刻t的状态st、虚拟环境模型在下一时刻t+1 的状态st+1、所述本车基于st能够进行防碰撞控制的动作at、动作at对应的回报值rt;
步骤4,根据步骤3定义好的基础参数,采用深度强化学习中的神经网络构建防碰撞控制决策系统,所述防碰撞控制决策系统包括策略网络和评价网络,所述策略网络的输入是状态s,输出是动作a;所述评价网络的输入是状态s和动作a,输出是Q值:Q(s,a);
步骤5,训练所述策略网络和评价网络,得到所述防碰撞控制决策系统:首先,设置所述虚拟环境模型的当前状态表示为st,作为所述策略网络的输入,并在所述策略网络上加高斯扰动,所述策略网络输出一个动作at;在本车接收到所述动作at后,所述评价网络生成对所述动作at评价的回报值rt,同时检测获得下一时刻状态st+1;然后,根据所述回报值rt更新所述评价网络的参数,并沿所述评价网络建议的方向更新所述策略网络的参数。
进一步地,所述步骤2中,所述虚拟环境模型是一个三车道模型,包括本车,与所述本车行驶在同一车道上、且在纵向位于所述本车前方的前车,行驶在所述本车所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车,以及行驶在所述本车所在车道的相邻右侧车道上、且在纵向位于所述本车前方的右车;
若动作at之后能够使得所述本车的状态更加安全,则回报值rt是奖赏;否则,回报值rt是惩罚,使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断,rt具体定义为所述前车的回报值rF,t、左车的回报值rL,t、右车的回报值rR,t之和,并且,当所述本车位于左侧车道时不考虑rL,t,当所述本车位于右侧车道时不考虑rR,t。
进一步地,对于所述前车,同车道虚拟环境模型具体定义为下式(2):
式(2)中:dF,y,t为t时刻所述本车与所述前车之间的纵向距离;dF,y,t+1为t+1时刻所述本车与所述前车之间的纵向距离;DF为t+1时刻所述本车与所述前车之间的纵向最佳车距;ΔdF是所述本车1在动作at前后与所述前车之间的纵向距离的变化量,ΔdF=dF,y,t+1-dF,y,t;ΔvF是所述本车在动作at前后与所述前车之间的纵向相对速度的变化量,ΔvF=(vF,y,t+1-vy,t+1) (vF,y,t-vy,t);vF,y,t为t时刻所述前车的纵向速度;vF,y,t+1为t+1时刻所述前车的纵向速度;vy,t为t时刻所述本车的纵向速度;vy,t+1为t+1时刻所述本车的纵向速度;μF,1和μF,2是在(-100,100)范围之内的经验因子;εd为t+1时刻所述本车与所述前车实际间距在最佳间距DF附近的邻域。
进一步地,对于所述左车,左侧车道虚拟环境模型具体定义为下式(3):
式(3)中:θL,t+1为t+1时刻所述本车向左的横摆角;Δv是所述本车在时刻t和时刻t+1的速度变化量;dL,t+1是时刻t+1所述本车与左车之间的直线距离;μL是在(-100,100)范围之内的经验因子;εθ为θL,t+1附近的邻域。
进一步地,对于所述右车,右侧车道虚拟环境模型具体定义为下式(4):
式(4)中:θR,t+1为t+1时刻所述本车向右的横摆角;Δv是所述本车在时刻t和时刻t+1的速度变化量;dR,t+1是时刻t+1所述本车与右车之间的直线距离;μR是在(-100,100)范围之内的经验因子;εθ为θR,t+1附近的邻域。
本发明通过构建基于深度确定性策略梯度方法的防碰撞控制决策系统,基于时间差分强化学习方法不断优化网络控制结果的防碰撞控制决策系统,有效提高了防碰撞控制决策系统的控制性能。本发明提供的防碰撞控制决策系统无需人为设计复杂的前撞预警控制模型,自适应性强,并考虑了旁车道车辆状态信息进行碰撞预计。
附图说明
图1是本发明实施例提供的虚拟环境模型的示意图;
图2是本发明实施例提供的同车道虚拟环境模型的示意图;
图3是本发明实施例提供的左侧车道虚拟环境模型的示意图;
图4是本发明实施例提供的右侧车道虚拟环境模型的示意图;
图5是本发明实施例提供的防碰撞控制决策系统的原理框图。
具体实施方式
在附图中,使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。
本实施例提供的基于深度强化学习的防碰撞控制方法采用深度确定性策略梯度方法进行深度强化学习,该方法包括如下步骤:
步骤1,提取本车参数和环境车辆参数。其中:
本车参数包括本车1行驶的速度v。
以三车道情况为例,环境车辆包括与本车1行驶在同一车道上、且在纵向位于本车1前方的车辆(下文均简称为“前车2”)、行驶在本车1所在车道的相邻左侧车道上、且在纵向位于本车1前方的车辆(下文均简称为“左车3”) 和行驶在本车1所在车道的相邻右侧车道上、且在纵向位于本车1前方的车辆 (下文均简称为“右车4”)。
环境车辆参数主要由摄像头和毫米波雷达采集得到,包括环境车辆行驶的速度(该速度包括前车2行驶的速度vF、左车3行驶的速度vL和右车4行驶的速度vR)、本车1与前车2的纵向距离(下文均简称为“距离”)dF、以及本车1的横摆角,本车1的横摆角包括本车1向左的横摆角θL和向右的横摆角θR。
步骤2,利用步骤1提取得到的本车参数和环境车辆参数,构建如图1 示出的虚拟环境模型。在行驶过程中,本车1会受到前车2、左车3和右车4 行驶状态的影响,因此本实施例希望可以对前车2、左车3和右车4进行防碰撞控制。本实施例所构建的虚拟环境模型是一个三车道模型,不失一般性,假设本车1在中间车道,以本车1的车体坐标系为虚拟环境模型的空间坐标系。其中,“车体坐标系”采用右手定则确定坐标系,本车1的质心为原点,x轴是本车1的长度方向,即本实施例中提及的纵向;y轴是本车1的宽度方向,即本实施例中提及的横向。
步骤3,根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型,定义所述深度确定性策略梯度方法的基础参数,该基础参数包括:虚拟环境模型在当前时刻t的状态st、虚拟环境模型在下一时刻t+1的状态st+1、动作at、动作at对应的回报值rt。下面对各深度强化学习基础参数具体说明,下标为t的参数均为当前时刻t的状态,下标为t+1的参数均为下一时刻t+1的状态:
st包括本车1的纵向速度vy,t,本车1的横向速度vx,t,前车2的纵向速度vF,y,t,前车2的横向速度vF,x,t,左车3的纵向速度vL,y,t,左车3的横向速度 vL,x,t,右车4的纵向速度vR,y,t,右车4的横向速度vR,x,t,本车1与前车2之间的纵向距离dF,y,t,本车1与前车2之间的横向距离dF,x,t,本车1与左车3的纵向距离dL,y,t,本车1与左车3的横向距离dL,x,t,本车1与右车4的纵向距离dR,y,t,本车1与右车4的横向距离dR,x,t,以及本车1的横摆角,本车1的横摆角包括本车1向左的横摆角θL,t和向右的横摆角θR,t。
at具体包括本车1的节气门开度控制量δt和制动压力大小控制量pt,在虚拟环境模型中不考虑采取改变本车1的行驶方向的方法进行防碰撞控制,各种车祸现场表明变道避让可能带来危害更大的连锁碰撞。at的选择基于当前状态 st,与动作相应决策概率表示为P=p(at|st)。
rt为动作at对应的回报值,具体包括:若动作at之后能够使得本车1的状态更加安全,则回报值rt是奖赏;否则,回报值rt是惩罚,使得防碰撞控制决策系统对上一次执行的动作有一定的判断。作为实现回报值rt的一种实现方式, rt具体定义为前车2的回报值rF,t、左车3的回报值rL,t、右车4的回报值rR,t之和,其表示为下式(1):
rt=rF,t+rL,t+rR,t (1)
需要说明的是:当本车1位于左侧车道时不考虑rL,t,即本车1位于左侧车道时,rt=rF,t+rR,t;当本车1位于右侧车道时不考虑rR,t,即本车1位于左侧车道时,rt=rF,t+rL,t。
对于前车2,最好的状态是:本车1与前车2在下一时刻t+1之间的纵向距离dF,y,t+1保持在一个合适的距离DF附近,即:|dF,y,t+1-DF|<εd,此时的回报值rF,t最大。若本车1与前车2在下一时刻t+1之间的距离太近,超出此范围,即dF,y,t+1<DF-εd时,则应该使距离拉大的动作at获得高的回报值 rF,t。若本车1与前车2在下一时刻t+1之间的距离太远,即dF,y,t+1>DF+εd时,则应该使距离减小的动作at获得高的回报值rF,t。若本车1与前车2在下一时刻t+1发生碰撞,即dF,t+1=0时,则动作at回报值rF,t最小。因此,如图2所示,同车道虚拟环境模型具体定义为下式(2):
式(2)中:dF,y,t为t时刻所述本车1与所述前车2之间的纵向距离;dF,y,t+1为 t+1时刻所述本车1与所述前车2之间的纵向距离;DF为t+1时刻所述本车1 与所述前车2之间的纵向最佳车距;ΔdF是所述本车(1)在动作at前后与所述前车2之间的纵向距离的变化量,ΔdF=dF,y,t+1-dF,y,t;ΔvF是所述本车1 在动作at前后与所述前车2之间的纵向相对速度的变化量,ΔvF=(vF,y,t+1- vy,t+1)-(vF,y,t-vy,t);VF,y,t为t时刻所述前车2的纵向速度;vF,y,t+1为t+1时刻所述前车2的纵向速度;vy,t为t时刻所述本车1的纵向速度;vy,t+1为t+1时刻所述本车1的纵向速度;μF,1和μF,2是在(-100,100)范围之内的经验因子;εd为t+1时刻所述本车1与所述前车2之间的实际纵向距离与纵向最佳车距之间差值的阈值。μF,1、μF,2根据调研本车1的一般状态和之后的实验结果不断优化经验因子,直至确定一个合适的具体值。εd为t+1时刻本车1与前车2 实际间距在最佳间距DF附近的邻域,在这个领域内两侧间距是正常的。DF和εd根据经验取值,在训练以及使用中观察并修正,DF的初始值取5m,εd的初始值取0.5m。
对于旁车道侧前方的车辆,其最好的状态是:旁车道侧前方车辆在其车道内稳定地行驶,横摆角保持在可接受的小幅度εθ内,当超出可接受的范围时,本车1必须采取措施,并得到相应的回报值。当旁车道侧前方的车辆横摆角较大,两车距离较近时,本车控制速度减慢的动作应该获得较大回报值,而且速度减慢的越快回报值应该越大。因对于左右旁车道情况略不相同,下面分开详细分析。
对于左车3,向右横摆过可接受角度εθ之后,才对本车1的行驶有影响,向左横摆或者向右横摆且未超出可接受范围时,对本车1的行驶不生成影响。也就是说,本车1不必对其生成动作。规定左车3向右横摆时横摆角θL为正,向左横摆时横摆角θL为负。如图3所示,左侧车道虚拟环境模型具体定义为下式(3):
式(3)中:
Δv是本车1在时刻t和时刻t+1的速度变化量,具体表示为:Δv=vt+1-vt。
dL,t+1是时刻t+1本车1与左车3之间的直线距离,其表示为:
μL是控制表达式的值在(-100,100)范围之内的经验因子,εθ为t+1时刻本车1向左的安全横摆角阈值,μL可根据调研本车1的一般状态和之后的实验结果不断优化经验因子,直至确定一个合适的具体值。
εθ为θL,t+1附近的邻域,在这个邻域中是正常安全的情况,εθ根据经验取值,在训练以及使用中观察并修正,初始值取5度。
对于右车4,向左横摆过可接受角度εθ之后,才对本车1的行驶有影响,向右横摆或者向左横摆但是没有超出可接受范围时,对本车1行驶不生成影响. 也就是说,本车1不必对其生成动作。规定右车4向左横摆时横摆角θR为正,向右横摆时横摆角θR为负。如图4所示,右侧车道虚拟环境模型具体定义为下式(4):
式(4)中:
Δv是本车1在时刻t和时刻t+1的速度变化量,具体表示为:Δv=vt+1-vt。 dR,t+1是时刻t+1本车1与右车4之间的直线距离,其表示为:
μR是控制表达式的值在(-100,100)范围之内的经验因子,εθ为t+1时刻本车1向左的安全横摆角阈值,μR可根据调研本车1的一般状态和之后的实验结果不断优化经验因子,直至确定一个合适的具体值。
εθ为θL,t+1附近的邻域,在这个邻域中是正常安全的情况,εθ根据经验取值,在训练以及使用中观察并修正,初始值取5度。
st+1为本车动作at之后的下一个时刻,即t+1时刻的状态,具体表示为:本车1的纵向速度vy,t+1,本车1的横向速度vx,t+1,前车2的纵向速度vF,y,t+1,前车2的横向速度vF,x,t+1,左车3的纵向速度vL,y,t+1,左车3的横向速度vL,x,t+1,左车3的纵向速度vR,y,t+1,左车3的横向速度VR,x,t+1,本车1与前车2之间的纵向距离dF,y,t+1,本车1与前车2之间的横向距离dF,x,t+1,本车1与左车3的纵向距离dL,y,t+1,本车1与左车3的横向距离dL,x,t+1,本车1与右车4的纵向距离dR,y,t+1,本车1与右车4的横向距离dR,x,t+1,本车1与左车3之间的横摆角θL,t+1,本车1与右车4之间的横摆角θR,t+1。
步骤4,采用深度强化学习中的神经网络构建防碰撞控制决策系统,如图 5所示,防碰撞控制决策系统包括策略网络5和评价网络6。其中:策略网络 5的输入是状态s,输出是动作a。评价网络6的输入是状态s和动作a,输出是Q函数值(下文简称为“Q值”):Q(s,a)。
步骤5,训练策略网络5和评价网络6,得到防碰撞控制决策系统:首先,设置虚拟环境模型的当前状态表示为st,作为策略网络5的输入,并在策略网络5上加高斯扰动,策略网络5输出一个动作at。在本车1接收到所述动作at后,评价网络6生成对所述动作at评价的回报值rt,同时检测获得下一时刻状态st+1;然后,根据所述回报值rt更新评价网络6的参数,并沿评价网络6建议的方向更新所述策略网络5的参数。
需要说明的是,策略网络5具体包括当前策略子网络51和目标策略子网络52,评价网络6包括当前评价子网络61和目标评价子网络62。更新策略网络5时,只需要更新当前策略子网络51的参数(下文均成为“当前策略子网络参数”),目标策略子网络52则可由当前策略子网络51复制得到。当前策略子网络参数表示为θμ,目标策略子网络参数表示为θμ′。更新评价网络6时,只需要更新当前评价子网络61的参数(下文均成为“当前评价子网络参数”),目标评价子网络62的参数(下文均成为“目标评价子网络参数”)则可由当前评价子网络61复制得到。当前评价子网络参数表示为θQ,目标评价子网络参数表示为θQ′。这种方式能够保证网络参数的收敛性。如图5所示,具体训练更新步骤包括如下步骤5.1至步骤5.3:
步骤5.1:随机初始化当前评价子网络参数θQ和当前策略子网络参数θμ。
步骤5.2:通过当前评价子网络参数θQ初始化所要求解的目标评价子网络参数θQ′,通过当前策略子网络参数θμ初始化所要求解的目标策略子网络参数θμ′,同时开辟一个空间R作为经验回放存储空间;
步骤5.3:初始化时刻1的状态S1之后,准备进行迭代求解,在每一个迭代具体包括如下步骤5.31至步骤5.37:
5.31,通过当前策略子网络51加上一个高斯扰动Nt,当前策略子网络51 输出一个动作at表示为at=μ(s|θμ)+Nt,并输出。
5.32,虚拟环境模型接收步骤5.31输出的动作at,生成对动作at评价的回报值rt和下一时刻状态st+1,并形成元组(st,at,rt,st+1),存储到经验回放存储空间R。
5.33,根据5.32获得的回报值rt,更新当前评价子网络参数θQ。
步骤5.33具体包括步骤5.331和步骤5.333:
步骤5.331,当前评价子网络61通过Q函数计算得到Q值:Q(st,at|θQ)。
步骤5.332,在步骤5.32得到的经验回放存储空间R中随机选择N个元组数据(si,ai,ri,si+1),i=0......N,通过贝尔曼方程估计Q值,该Q值采用如下式(5)所示的第i个元组的Q值yi表示:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′) (5)
式(5)中,ri是第i个元组的回报值;γ是折扣因子;si+1是第i+1个状态;θQ′是目标评价子网络参数;θμ′是目标策略子网络参数;μ′(si+1|θμ′)是目标策略子网络52根据输入的状态si+1得到的动作;Q′(si+1,μ′(si+1|θμ′)|θQ′)是目标评价子网络62根据输入的si+1和动作μ′(si+1|θμ′)而计算得到的Q值。
步骤5.333,根据步骤5.331和步骤5.332分别计算得到的Q值之间的差值L,利用下式(6)更新当前评价子网络参数θQ:
步骤5.334,根据步骤5.333更新好的当前评价子网络参数θQ,利用式 (7)对目标评价子网络参数θQ′进行更新:
θQ′←τθQ+(1-τ)θQ′ (7)
式(7)中,τ为权重,取0.9~0.99,并且根据实际收敛效果调整。
步骤5.34,根据步骤5.333更新得到的当前评价子网络参数θQ,更新当前策略子网络参数θμ,其具体如下:
采用如式(8)所示的梯度上升方式,获得最大化期望回报值,以选出最大期望回报值对应的当前评价子网络参数θQ:
式(8)中,N为元组个数,a为动作,s为状态,θQ为当前评价子网络参数,θμ为当前策略子网络参数,μ()为策略,在此指动作。
步骤5.35,根据步骤5.34更新好的当前策略子网络参数θμ,利用式(9) 更新目标策略子网络参数θμ′:
θμ′←τθμ+(1-τ)θμ′ (9)
式(9)中,τ为权重,取0.9~0.99,并且根据实际收敛效果调整。
防碰撞控制决策系统包括动作策略网络5和评价网络6,两部分网络都存在自己的网络参数,在训练迭代的时候对两部分的网络进行更新,使得网络收敛以得到更佳的结果。
步骤5.4,按照步骤5.3提供的方法对当前策略子网络参数θμ、目标策略子网络参数θμ′、当前评价子网络参数θQ和目标评价子网络参数θQ′进行迭代更新,使策略网络5和评价网络6逐步收敛,当达到能够稳定准确地进行防碰撞控制时,即视为达到了迭代步数,从而能够实现较为准确的防碰撞控制。需要说明的是:在系统运行的同时,网络继续不断地优化,提高了系统自适应性能。因此,在一般正常的交通环境中,可以进行稳定准确的防碰撞控制。
利用摄像头和毫米波雷达采集外界环境状态,抽象到所建立的虚拟环境模型中,应用深度强化学习训练后的防碰撞控制决策系统,获得虚拟环境模型下的最优控制动作序列,最终实现防碰撞控制。
进一步地,动作的策略网络5和评价网络6通过对大量数据的深度强化学习,具有良好的容错能力、并行能力和自学习能力。基于此,提出一种无需设计复杂的前撞预警系统模型,自适应性强,可以不断优化结果的基于深度强化学习的防碰撞控制系统,具体为通过构建前撞预警系统的深度神经网络,设计前撞预警控制网络价值函数,基于时间差分强化学习方法不断优化网络控制结果的一种防碰撞控制系统。
最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。本领域的普通技术人员应当理解:可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于深度强化学习的防碰撞控制方法,其特征在于,采用深度确定性策略梯度方法进行深度强化学习,该方法包括如下步骤:
步骤1,提取本车参数和环境车辆参数;
步骤2,利用步骤1提取得到的本车参数和环境车辆参数,构建虚拟环境模型;
步骤3,根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型,定义所述深度确定性策略梯度方法的基础参数,所述基础参数包括:虚拟环境模型在当前时刻t的状态st、虚拟环境模型在下一时刻t+1的状态st+1、所述本车(1)基于st能够进行防碰撞控制的动作at、动作at对应的回报值rt;
步骤4,根据步骤3定义好的基础参数,采用深度强化学习中的神经网络构建防碰撞控制决策系统,所述防碰撞控制决策系统包括策略网络(5)和评价网络(6),所述策略网络(5)的输入是状态s,输出是动作a;所述评价网络(6)的输入是状态s和动作a,输出是Q值:Q(s,a);
步骤5,训练所述策略网络(5)和评价网络(6),得到所述防碰撞控制决策系统:首先,设置所述虚拟环境模型的当前状态表示为st,作为所述策略网络(5)的输入,并在所述策略网络(5)上加高斯扰动,所述策略网络(5)输出一个动作at;在本车(1)接收到所述动作at后,所述评价网络(6)生成对所述动作at评价的回报值rt,同时检测获得下一时刻状态st+1;然后,根据所述回报值rt更新所述评价网络(6)的参数,并沿所述评价网络(6)建议的方向更新所述策略网络(5)的参数。
2.如权利要求1所述的基于深度强化学习的防碰撞控制方法,其特征在于,所述步骤2中,所述虚拟环境模型是一个三车道模型,包括本车(1),与所述本车(1)行驶在同一车道上、且在纵向位于所述本车(1)前方的前车(2),行驶在所述本车(1)所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车(3),以及行驶在所述本车(1)所在车道的相邻右侧车道上、且在纵向位于所述本车(1)前方的右车(4);
若动作at之后能够使得所述本车(1)的状态更加安全,则回报值rt是奖赏;否则,回报值rt是惩罚,使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断,rt具体定义为所述前车(2)的回报值rF,t、左车(3)的回报值rL,t、和右车(4)的回报值rR,t之和,并且,当所述本车(1)位于左侧车道时不考虑rL,t,当所述本车(1)位于右侧车道时不考虑rR,t。
3.如权利要求2所述的基于深度强化学习的防碰撞控制方法,其特征在于,对于所述前车(2),同车道虚拟环境模型具体定义为下式(2):
式(2)中:dF,y,t为t时刻所述本车(1)与所述前车(2)之间的纵向距离;dF,y,t+1为t+1时刻所述本车(1)与所述前车(2)之间的纵向距离;DF为t+1时刻所述本车(1)与所述前车(2)之间的纵向最佳车距;ΔdF是所述本车(1)在动作at前后与所述前车(2)之间的纵向距离的变化量,ΔdF=dF,y,t+1-dF,y,t;ΔvF是所述本车(1)在动作at前后与所述前车(2)之间的纵向相对速度的变化量,ΔvF=(vF,y,t+1-vy,t+1)-(vF,y,t-vy,t);vF,y,t为t时刻所述前车(2)的纵向速度;vF,y,t+1为t+1时刻所述前车(2)的纵向速度;vy,t为t时刻所述本车(1)的纵向速度;vy,t+1为t+1时刻所述本车(1)的纵向速度;μF,1和μF,2是在(-100,100)范围之内的经验因子;εd为t+1时刻所述本车(1)与所述前车(2)实际间距在最佳间距DF附近的邻域。
4.如权利要求2所述的基于深度强化学习的防碰撞控制方法,其特征在于,对于所述左车(3),左侧车道虚拟环境模型具体定义为下式(3):
式(3)中:θL,t+1为t+1时刻所述本车(1)向左的横摆角;Δv是所述本车(1)在时刻t和时刻t+1的速度变化量;dL,t+1是时刻t+1所述本车(1)与左车(3)之间的直线距离;μL是在(-100,100)范围之内的经验因子;εθ为θL,t+1附近的邻域。
5.如权利要求2所述的基于深度强化学习的防碰撞控制方法,其特征在于,对于所述右车(4),右侧车道虚拟环境模型具体定义为下式(4):
式(4)中:θR,t+1为t+1时刻所述本车(1)向右的横摆角;Δv是所述本车(1)在时刻t和时刻t+1的速度变化量;dR,t+1是时刻t+1所述本车(1)与右车(4)之间的直线距离;μR是在(-100,100)范围之内的经验因子;εθ为θR,t+1附近的邻域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910283506.0A CN110027553B (zh) | 2019-04-10 | 2019-04-10 | 一种基于深度强化学习的防碰撞控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910283506.0A CN110027553B (zh) | 2019-04-10 | 2019-04-10 | 一种基于深度强化学习的防碰撞控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110027553A true CN110027553A (zh) | 2019-07-19 |
CN110027553B CN110027553B (zh) | 2020-10-23 |
Family
ID=67237853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910283506.0A Active CN110027553B (zh) | 2019-04-10 | 2019-04-10 | 一种基于深度强化学习的防碰撞控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110027553B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647839A (zh) * | 2019-09-18 | 2020-01-03 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
CN110654384A (zh) * | 2019-11-04 | 2020-01-07 | 湖南大学 | 一种基于深度强化学习的车道保持控制算法及系统 |
CN111026127A (zh) * | 2019-12-27 | 2020-04-17 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
CN111076734A (zh) * | 2019-12-12 | 2020-04-28 | 湖南大学 | 一种封闭区域非结构化道路高精地图构建方法 |
CN111310384A (zh) * | 2020-01-16 | 2020-06-19 | 香港中文大学(深圳) | 一种风场协同控制方法、终端及计算机可读存储介质 |
CN111301404A (zh) * | 2020-02-06 | 2020-06-19 | 北京小马慧行科技有限公司 | 车辆的控制方法及装置、存储介质及处理器 |
CN111785027A (zh) * | 2019-09-17 | 2020-10-16 | 上海森首科技股份有限公司 | 一种自动驾驶闭环信息系统 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112115554A (zh) * | 2020-09-23 | 2020-12-22 | 北京理工大学 | 一种降低智能车辆碰撞伤害的控制方法和系统 |
CN112580148A (zh) * | 2020-12-20 | 2021-03-30 | 东南大学 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
WO2022042359A1 (zh) * | 2020-08-26 | 2022-03-03 | 深圳市杉川机器人有限公司 | 一种建立工作区域地图的方法及自移动设备 |
WO2022126940A1 (zh) * | 2020-12-20 | 2022-06-23 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN114954840A (zh) * | 2022-05-30 | 2022-08-30 | 武汉理工大学 | 一种变稳船变稳控制方法、系统、装置及存储介质 |
CN115123159A (zh) * | 2022-06-27 | 2022-09-30 | 重庆邮电大学 | 一种基于ddpg深度强化学习的aeb控制方法及系统 |
CN116811915A (zh) * | 2023-06-30 | 2023-09-29 | 清华大学 | 基于乘员脑电信号的车辆决策方法、装置和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145936A (zh) * | 2017-04-22 | 2017-09-08 | 大连理工大学 | 一种基于强化学习的车辆跟驰模型建立方法 |
CN107672587A (zh) * | 2017-08-22 | 2018-02-09 | 吉利汽车研究院(宁波)有限公司 | 一种紧急避撞系统及方法 |
WO2018139993A1 (en) * | 2017-01-24 | 2018-08-02 | Ford Global Technologies, Llc | Feedback for an autonomous vehicle |
CN108657163A (zh) * | 2017-03-27 | 2018-10-16 | 现代自动车株式会社 | 基于深度学习的自主车辆控制设备及其系统和方法 |
-
2019
- 2019-04-10 CN CN201910283506.0A patent/CN110027553B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018139993A1 (en) * | 2017-01-24 | 2018-08-02 | Ford Global Technologies, Llc | Feedback for an autonomous vehicle |
CN108657163A (zh) * | 2017-03-27 | 2018-10-16 | 现代自动车株式会社 | 基于深度学习的自主车辆控制设备及其系统和方法 |
CN107145936A (zh) * | 2017-04-22 | 2017-09-08 | 大连理工大学 | 一种基于强化学习的车辆跟驰模型建立方法 |
CN107672587A (zh) * | 2017-08-22 | 2018-02-09 | 吉利汽车研究院(宁波)有限公司 | 一种紧急避撞系统及方法 |
Non-Patent Citations (1)
Title |
---|
李文娜: "汽车主动防撞预警系统的安全策略研究", 《中国优秀硕士学位论文全文库工程科技II辑》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785027A (zh) * | 2019-09-17 | 2020-10-16 | 上海森首科技股份有限公司 | 一种自动驾驶闭环信息系统 |
CN110647839B (zh) * | 2019-09-18 | 2022-08-12 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
CN110647839A (zh) * | 2019-09-18 | 2020-01-03 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
CN110654384A (zh) * | 2019-11-04 | 2020-01-07 | 湖南大学 | 一种基于深度强化学习的车道保持控制算法及系统 |
CN111076734A (zh) * | 2019-12-12 | 2020-04-28 | 湖南大学 | 一种封闭区域非结构化道路高精地图构建方法 |
CN111076734B (zh) * | 2019-12-12 | 2021-07-23 | 湖南大学 | 一种封闭区域非结构化道路高精地图构建方法 |
CN111026127B (zh) * | 2019-12-27 | 2021-09-28 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
CN111026127A (zh) * | 2019-12-27 | 2020-04-17 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
CN111310384A (zh) * | 2020-01-16 | 2020-06-19 | 香港中文大学(深圳) | 一种风场协同控制方法、终端及计算机可读存储介质 |
CN111310384B (zh) * | 2020-01-16 | 2024-05-21 | 香港中文大学(深圳) | 一种风场协同控制方法、终端及计算机可读存储介质 |
CN111301404B (zh) * | 2020-02-06 | 2022-02-18 | 北京小马慧行科技有限公司 | 车辆的控制方法及装置、存储介质及处理器 |
CN111301404A (zh) * | 2020-02-06 | 2020-06-19 | 北京小马慧行科技有限公司 | 车辆的控制方法及装置、存储介质及处理器 |
WO2022042359A1 (zh) * | 2020-08-26 | 2022-03-03 | 深圳市杉川机器人有限公司 | 一种建立工作区域地图的方法及自移动设备 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112115554B (zh) * | 2020-09-23 | 2022-10-11 | 北京理工大学 | 一种降低智能车辆碰撞伤害的控制方法和系统 |
CN112115554A (zh) * | 2020-09-23 | 2020-12-22 | 北京理工大学 | 一种降低智能车辆碰撞伤害的控制方法和系统 |
CN112622886B (zh) * | 2020-12-20 | 2022-02-15 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
WO2022126940A1 (zh) * | 2020-12-20 | 2022-06-23 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN112580148A (zh) * | 2020-12-20 | 2021-03-30 | 东南大学 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
US11964655B2 (en) | 2020-12-20 | 2024-04-23 | Southeast University | Backward anti-collision driving decision-making method for heavy commercial vehicle |
CN114954840A (zh) * | 2022-05-30 | 2022-08-30 | 武汉理工大学 | 一种变稳船变稳控制方法、系统、装置及存储介质 |
CN114954840B (zh) * | 2022-05-30 | 2023-09-05 | 武汉理工大学 | 一种变稳船变稳控制方法、系统、装置及存储介质 |
CN115123159A (zh) * | 2022-06-27 | 2022-09-30 | 重庆邮电大学 | 一种基于ddpg深度强化学习的aeb控制方法及系统 |
CN116811915A (zh) * | 2023-06-30 | 2023-09-29 | 清华大学 | 基于乘员脑电信号的车辆决策方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110027553B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110027553A (zh) | 一种基于深度强化学习的防碰撞控制方法 | |
CN110297494B (zh) | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 | |
Zhang et al. | Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning | |
CN108313054B (zh) | 自动驾驶自主换道决策方法和装置及自动驾驶车辆 | |
CN113291308B (zh) | 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法 | |
Min et al. | Deep Q learning based high level driving policy determination | |
Tang et al. | Driver lane change intention recognition of intelligent vehicle based on long short-term memory network | |
CN110203202B (zh) | 一种基于驾驶员意图识别的换道辅助预警方法及装置 | |
CN105620480B (zh) | 智能车辆自主性换道时机决策方法 | |
CN114312830B (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN105922990A (zh) | 一种基于云端机器学习的车辆环境感知和控制方法 | |
CN110843789A (zh) | 一种基于时序卷积网络的车辆换道意图预测方法 | |
CN114973650B (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN110077398A (zh) | 一种用于智能驾驶的危险处理方法 | |
CN106569214A (zh) | 结合导航信息的自适应巡航车载雷达数据处理方法及系统 | |
CN116341288B (zh) | 一种异质交通流行车安全场建模方法 | |
CN110320916A (zh) | 考虑乘员感受的自动驾驶汽车轨迹规划方法及系统 | |
CN115257819A (zh) | 城市低速环境下的大型营运车辆安全驾驶决策方法 | |
CN118238847B (zh) | 一种自适应不同驾驶风格和路面环境的自主换道决策规划方法和系统 | |
CN113306558A (zh) | 一种基于换道交互意图的换道决策方法及系统 | |
EP4160478A1 (en) | Driving decision-making method, device, and chip | |
JP2020061156A (ja) | 自動運転「機械意識」モデルの構成方法、その装置、又はプログラム | |
CN114043984A (zh) | 一种基于车联网环境下的智能汽车换道控制系统和方法 | |
Liu et al. | A deep learning-based approach to line crossing prediction for lane change maneuver of adjacent target vehicles | |
CN109760681A (zh) | 一种换道控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |