CN111605565A - 基于深度强化学习的自动驾驶行为决策方法 - Google Patents

基于深度强化学习的自动驾驶行为决策方法 Download PDF

Info

Publication number
CN111605565A
CN111605565A CN202010381846.XA CN202010381846A CN111605565A CN 111605565 A CN111605565 A CN 111605565A CN 202010381846 A CN202010381846 A CN 202010381846A CN 111605565 A CN111605565 A CN 111605565A
Authority
CN
China
Prior art keywords
state
automatic driving
action
behavior
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010381846.XA
Other languages
English (en)
Inventor
杨明珠
刘相伟
李卓荦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunshan Xiaoyan Exploration Information Technology Co ltd
Original Assignee
Kunshan Xiaoyan Exploration Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunshan Xiaoyan Exploration Information Technology Co ltd filed Critical Kunshan Xiaoyan Exploration Information Technology Co ltd
Priority to CN202010381846.XA priority Critical patent/CN111605565A/zh
Publication of CN111605565A publication Critical patent/CN111605565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/408Radar; Laser, e.g. lidar
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/06Direction of travel
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/50Barriers

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了基于深度强化学习的自动驾驶行为决策方法,包括:获取自动驾驶车辆周围的当前环境状态;根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。本发明的获取当前环境状态采用RGB摄像头、红外摄像头和固态激光雷达,减少了传感器的使用。通过模仿学习人类驾驶员的驾驶经验形成经验池,使得自动驾驶车辆更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。

Description

基于深度强化学习的自动驾驶行为决策方法
技术领域
本发明涉及自动驾驶技术领域,特别涉及基于深度强化学习的自动驾驶行为决策方法。
背景技术
随着汽车行业的发展,目前无人驾驶的汽车逐渐登上了历史的舞台。顾名思义,无人驾驶汽车就是无需人为操控,汽车具有自主行为能力。无人驾驶汽车的背后,是自动驾驶技术的研究和开发。自动驾驶技术是一项集环境感知、行为决策与动作执行三大功能于一体的智能系统。而行为决策作为连接环境感知与动作执行的中枢位置,成为自动驾驶技术的重中之重,也是无人驾驶技术研发的重点和难点。行为决策直接决定汽车的行驶速度、加速度和行驶方向,稍有差池,将可能产生严重的后果,可能危害到乘车人员的人身安全。
现有的基于机器人技术的自动驾驶行为决策方法,如中国专利申请公开号为CN109213148A,发明名称为″一种基于深度强化学习的车辆低速跟驰决策方法″,公开了低速跟驰的决策方法。主要通过环境感知、构建基于Actor-Critic框架的深度强化学习结构、对深度强化学习结构中的参数进行训练和更新直到损失值最小。这种方式代码量大,并且只能使用在设定好的或者是环境变量与训练环境相似的情况下才。这种建模的方式对于计算的要求非常大,需要自动驾驶车辆背上沉重的计算机。
发明内容
为了解决现有技术问题,本发明的目的是公开一种基于深度强化学习的自动驾驶行为决策方法,可以减少行为决策中的计算量,并且使用较少的传感器就能实现环境感知。
本发明的目的是通过以下技术方案实现的:
基于深度强化学习的自动驾驶行为决策方法,包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态;
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。
进一步地,所述的步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息,通过红外摄像头接收前方道路中被遮挡物体信息,通过固态激光雷达接受车身两侧的环境信息;
步骤S102、对环境信息数据进行环境感知检测;
步骤S103、对环境信息数据进行融合处理,得到当前环境状态。
进一步地,所述的融合处理的公式为
Figure BDA0002482279480000021
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数;μ表示均值;σ表示方差;b表示再平移参数。
进一步地,在经验池中选择并输出自动驾驶车辆的动作行为具体包括:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合;
步骤S202、将状态行为集合放入经验池中进行存储,在遇到相同环境状态时,直接从经验池中选取相应的动作行为输出。
进一步地,所述的步骤S201具体包括:
步骤S2011、采集和学习人类驾驶员在不同时间和不同环境状态下的动作行为决策序列
Figure BDA0002482279480000022
其中i表示第i个序列,n表示该序列中的状态-动作个数,
Figure BDA0002482279480000031
表示第i个序列中第1个环境状态,
Figure BDA0002482279480000032
表示第i个序列中第1个动作行为;
步骤S2012、抽取动作行为对,并构建状态行为集合D={(s1,a1),(s2,a2),(s3,a3)......}。
进一步地,所述的步骤S202具体包括:
步骤S2021、构建经验池,将状态行为集合放入经验池中保存;
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
进一步地,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括:
步骤S211、构建基于PPO算法框架的深度强化学习结构;
步骤S212、对深度强化学习结构进行训练;
步骤S213、由训练完成的深度强化学习结构根据当前环境状态和自动驾驶车辆的当前行为状态计算并输出动作行为。
进一步地,所述的深度强化学习结构是Actor-Critic网络结构,所述的Actor-Critic网络结构包括n层深度卷积神经网络,所述深度卷积神经网络网络由一维卷积层、Relu层和输出层组成。
进一步地,所述的步骤S212具体包括:
步骤S2121、Actor卷积网络根据当前环境状态选择合适的动作行为,并且不断迭代,得到每个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值;
步骤S2122、做策略函数的近似函数;
步骤S2123、做状态价值函数的近似函数;
步骤S2124、做动作价值函数的近似函数;
步骤S2125、计算Actor的损失函数;
步骤S2126、计算Critic的损失函数;
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值;
步骤S2128、加入正则化函数,减小计算的误差。
本发明的基于深度强化学习的自动驾驶行为决策方法,采用RGB摄像头和红外摄像头采集前方道路信息,不受时间和地点的限制,可以在夜间、光线条件不好或有遮挡的情况下实现环境感知。只需在车身两侧安装固态激光雷达感知车身两侧的环境信息,减少了传感器的使用。使得行为决策不受环境因素的限制,可以在任意环境的道路上行驶,不需要预先设定和建模,因此,本发明的方法具有非常强的通用和灵活性。
通过模仿学习人类驾驶员的驾驶经验并形成经验池,行为决策时优先获取与经验池中环境相似的动作输出,不仅解决了计算量大、代码冗长且繁琐的问题,并且通过模仿学习使得自动驾驶车辆更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。
附图说明
图1为本发明的基于深度强化学习的自动驾驶行为决策方法的框图;
图2为本发明中的环境感知所使用的传感器的摆放位置示意图;
图3为本发明实施例中基于PPO算法框架的深度强化学习结构的示意图;
图4为本发明中PPO算法框架中的Actor-Critic网络结构示意图;
图5为本发明中模仿学习人类驾驶经验的算法结构;
图6为正则化方法的工作原理图。
具体实施例
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
基于深度强化学习的自动驾驶行为决策方法,如图1所示。自动驾驶车辆的动作行为通过两种方式获得,第一种方式是:由深度强化学习结构根据输入的当前环境状态数据和自动驾驶车辆的当前行为状态数据计算得出。第二种方式是:根据输入的当前环境状态数据和自动驾驶车辆的当前行为状态数据,在构建好的经验池中选择动作行为。经验池是自动驾驶车辆通过模仿学习人类驾驶经验获得的。当前环境状态数据包括自动驾驶车辆前方障碍物、车道线等道路信息,以及前方障碍物、车道线等距离车头的空间距离,车身两侧的障碍物和车道线距离车身侧面的空间距离等。自动驾驶车辆的当前行为状态数据包括车辆的行驶速度、加速度、转向等信息。
本发明的基于深度强化学习的自动驾驶行为决策方法具体包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态数据。
进一步地,在本发明公开的一种实施例中,获取自动驾驶车辆周围的当前环境状态数据,包括:通过车辆前方的RGB摄像头和红外摄像头采集前方道路的信息,通过车辆左右两侧的固态激光雷达测量左右两侧车辆或障碍物的距离信息,这两组信息作为输入,对自动驾驶车辆当前所处的环境状态进行表述。自动驾驶车辆当前所处的环境状态包括自动驾驶车辆前方是否有行人、是否有车辆、是否有如车道线之类的道路信息、是否有其他障碍物,以及它们距离车头的空间距离。
步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息。环境信息包括但不限于:车道线相对于车头的空间位置、交通标识相对于车头的空间位置、行人相对于车头的空间位置、车辆相对于车头的空间位置等。
通过红外摄像头接收前方道路中被遮挡物体信息,以及在夜间或视线效果极差的情况下接收前方道路的环境信息。包括但不限于:行人、车辆、道路周边障碍物等。
通过固态激光雷达接受车身两侧的环境信息。包括但不限于:当前车身周围的车辆、障碍物、障碍物与车身的距离、周围的车辆与车身的距离。
现有的自动驾驶技术中的环境感知部分,一般情况下需要较多的传感器去感应周围环境信息,如在车身周围安装激光雷达、固态激光雷达、多路摄像头及其他传感器,导致自动驾驶车辆成本增加。本发明只需在车头安装一个RGB摄像头和一个红外摄像头,在车身两侧各安装一个固态激光雷达。降低了自动驾驶车辆的成本。
步骤S102、对环境信息数据进行环境感知检测。
包括通过MobileNet+VGG算法的方式对道路中的障碍物进行检测和识别。通过Fully Convolutional Networks图像分割技术对道路信息进行分割处理。
步骤S103、对环境信息数据进行融合处理。
进一步地,对环境信息数据进行融合的具体过程为:根据数据归一化(Normalization)公式,对环境信息数据做融合处理,得到当前的环境状态s。数据归一化公式为:
Figure BDA0002482279480000071
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数,包括自动驾驶车辆前方障碍物和车道线等距离车头的空间距离,车身两侧的障碍物和车道线距离车身侧面的空间距离等;μ表示均值;σ表示方差;b表示再平移参数。
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,由深度强化学习结构计算并输出自动驾驶车辆的动作行为,或者在构建好的经验池中选择并输出自动驾驶车辆的动作行为。
优先在构建好的经验池中选择并输出自动驾驶车辆的动作行为,如果在经验池匹配不到,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。在经验池中选择动作行为可以减少自动驾驶车辆的计算量,解决了计算量大、代码冗长且繁琐的问题。经验池是根据人类驾驶习惯形成的,经验池中的动作行为更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。
进一步地,在本发明公开的一种实施例中,在构建好的经验池中选择并输出自动驾驶车辆的动作行为具体包括以下步骤:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合。
具体包括:
步骤S2011、采集和学习人类驾驶员在不同时间和不同环境状态下的动作行为决策序列
Figure BDA0002482279480000081
其中i表示第i个序列,n表示该序列中的状态-动作个数,
Figure BDA0002482279480000082
表示第i个序列中第1个环境状态,
Figure BDA0002482279480000083
表示第i个序列中第1个动作行为。
步骤S2012、抽取动作行为对,并构建状态行为集合D={(s1,a1),(s2,a2),(s3,a3)......}。
状态行为集合中(s1,a1)表示一个状态行为对,一种环境状态对应一个动作行为。输入状态为汽车摄像头所观测到的画面ot。动作即为转向角度,根据人类驾驶员提供的环境状态对应的动作行为对来学习得到驾驶中的转向行为策略。
步骤S202、将状态行为集合放入建立的经验池中进行存储,在遇到相同环境状态时,可以直接从经验池中选取相应的动作行为输出。
步骤S2021、构建经验池,将状态行为集合放入经验池中保存。
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
进一步地,在本发明公开的一种实施例中,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括以下步骤:
步骤S211、构建基于PPO算法框架的深度强化学习结构。
深度强化学习结构的目的是以当前的环境状态s、及自动驾驶车辆的当前行为状态w作为输入,自动驾驶车辆的动作行为a作为输出。动作行为a包括转向角、加速度和刹车。
具体地,通过PPO算法框架,构建Actor-Critic网络结构。Actor-Critic网络结构包括n层的深度卷积神经网络,深度卷积神经网络网络由一维卷积层、Relu层(RectifiedLinear Unit,线性整流层)和输出层组成。
当前环境状态s和自动驾驶汽车的当前行为状态首先通过一维卷积层和Relu层获得一个中间特征向量,然后再通过若干次的学习和迭代,最后通过输出层输出自动驾驶汽车的动作行为。
一维卷积层用于采集视觉传感器(RGB摄像头和红外摄像头)获取的图片,提取图片中的环境状态特征和行为状态特征。Relu层用于将环境状态特征和行为状态特征对应到具体的动作行为,输出层用于输出动作行为。
步骤S212、对深度强化学习结构进行训练。
利用PPO算法框架中的Actor-Critic网络结构进行动作选择训练,通过训练得到策略函数πθ(s,a)、状态价值函数
Figure BDA0002482279480000101
和动作价值函数
Figure BDA0002482279480000102
并对策略参数进行更新。经过长时间的训练,自动驾驶汽车可以凭借视觉传感器和固态激光雷达的信息作为输入,在任何时间,任何环境中都做出最优的动作决策。
具体地,对深度强化学习结构进行训练包括以下步骤:
步骤S2121、Actor卷积网络根据当前环境状态s选择合适的动作行为a,并且不断迭代,得到每一个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值。
步骤S2122、做策略函数的近似函数。
πθ(s,a)=P(a|s,θ)≈π(a|s) 公式(2)
其中s表示当前环境状态;a表示动作行为;θ表示策略参数。
步骤S2123、做状态价值函数的近似函数。
Figure BDA0002482279480000103
s表示当前环境状态,w表示当前行为状态,π表示策略,
Figure BDA0002482279480000104
表示在环境状态s和行为状态w条件下的状态值,vπ(s)表示在环境状态s和策略π条件下的状态值。
步骤S2124、做动作价值函数的近似函数。
Figure BDA0002482279480000105
s表示当前环境状态,w表示当前行为状态,a表示动作行为,
Figure BDA0002482279480000111
表示在环境状态s、行为状态w和动作行为a条件下的动作值,qπ(s,a)表示在环境状态s和动作行为a条件下的动作值。
步骤S2125、计算Actor的损失函数。
Figure BDA0002482279480000112
CLIP表示PPO-Clip算法的简称,依靠对目标函数的专门裁剪来减小新老策略的差异的PPO算法版本,S表示计算熵值,Lt CLIP+S表示value(值)函数的损失函数,θ表示策略参数,Lt CLIP(θ)表示在策略参数θ条件下第t个动作损失函数,c2表示系数2(可根据需要设定),S[πθ](st)表示在第t个环境状态下,其参数为θ的策略π的熵的值。
步骤S2126、计算Critic的损失函数。
Figure BDA0002482279480000113
td表示TD(Tempore Difference,时序差分)误差(TD-error)的缩写,losstd表示时序差分误差的损失函数,T表示总目标的个数,c1表示系数1(可自己定义),∑表示函数求和符号,Vθ(st)表示第t个的状态下策略参数θ的值函数,
Figure BDA0002482279480000114
表示第t个目标的值函数,S表示环境状态。
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值。
步骤S2128、加入正则化层dropout,以减小计算的误差。
正则化的本质就是给模型加一些规则限制,约束要优化参数,其常用方式为在目标函数后面添加一个系数的″惩罚项″,目的为了防止系数过大从而让模型变得复杂,防止过拟合。dropout是一种计算方便但功能强大的正则化方法,适用于神经网络。他的基本步骤是在每一次的迭代中,随机删除一部分节点,只训练剩下的节点。每次迭代都会随机删除,每次迭代删除的节点也都不一样,相当于每次迭代训练的都是不一样的网络,通过这样的方式降低节点之间的关联性以及模型的复杂度,从而达到正则化的效果。
Dropout工作原理图如图6所示。
步骤S213、由训练完成的深度强化学习结构根据当前环境状态计算并输出动作行为。
经过上述长期的训练、模拟和测试,自动驾驶汽车可以根据较少的传感器信息,完成全天候、全环境的自动驾驶行为决策。
以上仅为说明本发明的实施方式,并不用于限制本发明,对于本领域的技术人员来说,凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于深度强化学习的自动驾驶行为决策方法,其特征在于,包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态;
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。
2.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息,通过红外摄像头接收前方道路中被遮挡物体信息,通过固态激光雷达接受车身两侧的环境信息;
步骤S102、对环境信息数据进行环境感知检测;
步骤S103、对环境信息数据进行融合处理,得到当前环境状态。
3.根据权利要求2所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的融合处理的公式为
Figure FDA0002482279470000011
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数;μ表示均值;σ表示方差;b表示再平移参数。
4.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,在经验池中选择并输出自动驾驶车辆的动作行为具体包括:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合;
步骤S202、将状态行为集合放入经验池中进行存储,在遇到相同环境状态时,直接从经验池中选取相应的动作行为输出。
5.根据权利要求4所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S201具体包括:
步骤S2011、采集和学习人类驾驶员在不同时间和不同环境状态下的动作行为决策序列
Figure FDA0002482279470000021
其中i表示第i个序列,n表示该序列中的状态-动作个数,
Figure FDA0002482279470000022
表示第i个序列中第1个环境状态,
Figure FDA0002482279470000023
表示第i个序列中第1个动作行为;
步骤S2012、抽取动作行为对,并构建状态行为集合D={(s1,a1),(s2,a2),(s3,a3)......}。
6.根据权利要求4所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S202具体包括:
步骤S2021、构建经验池,将状态行为集合放入经验池中保存;
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
7.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括:
步骤S211、构建基于PPO算法框架的深度强化学习结构;
步骤S212、对深度强化学习结构进行训练;
步骤S213、由训练完成的深度强化学习结构根据当前环境状态和自动驾驶车辆的当前行为状态计算并输出动作行为。
8.根据权利要求7所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的深度强化学习结构是Actor-Critic网络结构,所述的Actor-Critic网络结构包括n层深度卷积神经网络,所述深度卷积神经网络网络由一维卷积层、Relu层和输出层组成。
9.根据权利要求7所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S212具体包括:
步骤S2121、Actor卷积网络根据当前环境状态选择合适的动作行为,并且不断迭代,得到每个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值;
步骤S2122、做策略函数的近似函数;
步骤S2123、做状态价值函数的近似函数;
步骤S2124、做动作价值函数的近似函数;
步骤S2125、计算Actor的损失函数;
步骤S2126、计算Critic的损失函数;
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值;
步骤S2128、加入正则化函数,减小计算的误差。
CN202010381846.XA 2020-05-08 2020-05-08 基于深度强化学习的自动驾驶行为决策方法 Pending CN111605565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010381846.XA CN111605565A (zh) 2020-05-08 2020-05-08 基于深度强化学习的自动驾驶行为决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010381846.XA CN111605565A (zh) 2020-05-08 2020-05-08 基于深度强化学习的自动驾驶行为决策方法

Publications (1)

Publication Number Publication Date
CN111605565A true CN111605565A (zh) 2020-09-01

Family

ID=72194646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010381846.XA Pending CN111605565A (zh) 2020-05-08 2020-05-08 基于深度强化学习的自动驾驶行为决策方法

Country Status (1)

Country Link
CN (1) CN111605565A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112455465A (zh) * 2020-12-08 2021-03-09 广州小鹏自动驾驶科技有限公司 一种行驶环境感知方法、装置、电子设备和存储介质
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113104050A (zh) * 2021-04-07 2021-07-13 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113219968A (zh) * 2021-04-21 2021-08-06 深圳大学 自动驾驶控制方法及装置
CN113359771A (zh) * 2021-07-06 2021-09-07 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113353102A (zh) * 2021-07-08 2021-09-07 重庆大学 一种基于深度强化学习的无保护左转弯驾驶控制方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113553934A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车智能决策方法及系统
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114261400A (zh) * 2022-01-07 2022-04-01 京东鲲鹏(江苏)科技有限公司 一种自动驾驶决策方法、装置、设备和存储介质
WO2022083029A1 (zh) * 2020-10-19 2022-04-28 深圳大学 一种基于深度强化学习的决策方法
CN114722998A (zh) * 2022-03-09 2022-07-08 三峡大学 一种基于cnn-ppo的兵棋推演智能体构建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548512A (en) * 1994-10-04 1996-08-20 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Autonomous navigation apparatus with neural network for a mobile vehicle
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109598934A (zh) * 2018-12-13 2019-04-09 清华大学 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
CN109703568A (zh) * 2019-02-19 2019-05-03 百度在线网络技术(北京)有限公司 自动驾驶车辆行驶策略实时学习的方法、装置和服务器
CN110466495A (zh) * 2019-09-02 2019-11-19 浙江鸿吉智能控制有限公司 一种智能自动矢量驾驶执行系统及控制方法
CN110525428A (zh) * 2019-08-29 2019-12-03 合肥工业大学 一种基于模糊深度强化学习的自动泊车方法
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
US20200039520A1 (en) * 2018-08-06 2020-02-06 Honda Motor Co., Ltd. System and method for learning naturalistic driving behavior based on vehicle dynamic data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548512A (en) * 1994-10-04 1996-08-20 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Autonomous navigation apparatus with neural network for a mobile vehicle
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
US20200039520A1 (en) * 2018-08-06 2020-02-06 Honda Motor Co., Ltd. System and method for learning naturalistic driving behavior based on vehicle dynamic data
CN109598934A (zh) * 2018-12-13 2019-04-09 清华大学 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
CN109703568A (zh) * 2019-02-19 2019-05-03 百度在线网络技术(北京)有限公司 自动驾驶车辆行驶策略实时学习的方法、装置和服务器
CN110525428A (zh) * 2019-08-29 2019-12-03 合肥工业大学 一种基于模糊深度强化学习的自动泊车方法
CN110466495A (zh) * 2019-09-02 2019-11-19 浙江鸿吉智能控制有限公司 一种智能自动矢量驾驶执行系统及控制方法
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
北冥有鱼兮: "Batch Normalization:批量归一化", 《阿里云开发者社区》 *
小草CYS: "在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架", 《CNDS》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022083029A1 (zh) * 2020-10-19 2022-04-28 深圳大学 一种基于深度强化学习的决策方法
CN112455465A (zh) * 2020-12-08 2021-03-09 广州小鹏自动驾驶科技有限公司 一种行驶环境感知方法、装置、电子设备和存储介质
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113104050B (zh) * 2021-04-07 2022-04-12 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113104050A (zh) * 2021-04-07 2021-07-13 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113219968A (zh) * 2021-04-21 2021-08-06 深圳大学 自动驾驶控制方法及装置
CN113219968B (zh) * 2021-04-21 2024-04-16 深圳大学 自动驾驶控制方法及装置
CN113359771A (zh) * 2021-07-06 2021-09-07 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113353102A (zh) * 2021-07-08 2021-09-07 重庆大学 一种基于深度强化学习的无保护左转弯驾驶控制方法
CN113353102B (zh) * 2021-07-08 2022-11-25 重庆大学 一种基于深度强化学习的无保护左转弯驾驶控制方法
CN113553934A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车智能决策方法及系统
CN113553934B (zh) * 2021-07-19 2024-02-20 吉林大学 基于深度强化学习的地面无人车智能决策方法及系统
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN114261400A (zh) * 2022-01-07 2022-04-01 京东鲲鹏(江苏)科技有限公司 一种自动驾驶决策方法、装置、设备和存储介质
CN114104005B (zh) * 2022-01-26 2022-04-19 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114722998A (zh) * 2022-03-09 2022-07-08 三峡大学 一种基于cnn-ppo的兵棋推演智能体构建方法
CN114722998B (zh) * 2022-03-09 2024-02-02 三峡大学 一种基于cnn-ppo的兵棋推演智能体构建方法

Similar Documents

Publication Publication Date Title
CN111605565A (zh) 基于深度强化学习的自动驾驶行为决策方法
CN112965499B (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN110647839B (zh) 自动驾驶策略的生成方法、装置及计算机可读存储介质
Mirchevska et al. High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning
CN112215337B (zh) 一种基于环境注意力神经网络模型的车辆轨迹预测方法
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
CN111923928A (zh) 用于自动车辆的决策制定方法和系统
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
CN116348938A (zh) 用于预测动态对象行为的方法和系统
CN115179959A (zh) 基于行驶道路自适应更新阈值的智能驾驶车辆行为预测方法
CN114399743A (zh) 一种障碍物未来轨迹的生成方法
JP2009096365A (ja) リスク認識システム
Wang et al. Imitation learning based decision-making for autonomous vehicle control at traffic roundabouts
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
Kachhoria et al. Lane detection and path prediction in autonomous vehicle using deep learning
CN113435356B (zh) 一种克服观察噪声与感知不确定性的轨迹预测方法
US20240017746A1 (en) Assessing present intentions of an actor perceived by an autonomous vehicle
WO2022044210A1 (ja) 運転支援装置、学習装置、運転支援方法、運転支援プログラム、学習済モデルの生成方法、学習済モデル生成プログラム
Mardiati et al. Motorcycle movement model based on markov chain process in mixed traffic
Zhang et al. A general framework of learning multi-vehicle interaction patterns from video
Reddy et al. Autonomous vehicle based on deep q-learning and yolov3 with data augmentation
US20230177405A1 (en) Ensemble of narrow ai agents
Merola et al. Reinforced Damage Minimization in Critical Events for Self-driving Vehicles.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200901