CN111605565A - 基于深度强化学习的自动驾驶行为决策方法 - Google Patents
基于深度强化学习的自动驾驶行为决策方法 Download PDFInfo
- Publication number
- CN111605565A CN111605565A CN202010381846.XA CN202010381846A CN111605565A CN 111605565 A CN111605565 A CN 111605565A CN 202010381846 A CN202010381846 A CN 202010381846A CN 111605565 A CN111605565 A CN 111605565A
- Authority
- CN
- China
- Prior art keywords
- state
- automatic driving
- action
- behavior
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 113
- 230000002787 reinforcement Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 66
- 230000007613 environmental effect Effects 0.000 claims abstract description 32
- 241000282414 Homo sapiens Species 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 239000007787 solid Substances 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/10—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/408—Radar; Laser, e.g. lidar
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/06—Direction of travel
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
- B60W2520/105—Longitudinal acceleration
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/50—Barriers
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了基于深度强化学习的自动驾驶行为决策方法,包括:获取自动驾驶车辆周围的当前环境状态;根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。本发明的获取当前环境状态采用RGB摄像头、红外摄像头和固态激光雷达,减少了传感器的使用。通过模仿学习人类驾驶员的驾驶经验形成经验池,使得自动驾驶车辆更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。
Description
技术领域
本发明涉及自动驾驶技术领域,特别涉及基于深度强化学习的自动驾驶行为决策方法。
背景技术
随着汽车行业的发展,目前无人驾驶的汽车逐渐登上了历史的舞台。顾名思义,无人驾驶汽车就是无需人为操控,汽车具有自主行为能力。无人驾驶汽车的背后,是自动驾驶技术的研究和开发。自动驾驶技术是一项集环境感知、行为决策与动作执行三大功能于一体的智能系统。而行为决策作为连接环境感知与动作执行的中枢位置,成为自动驾驶技术的重中之重,也是无人驾驶技术研发的重点和难点。行为决策直接决定汽车的行驶速度、加速度和行驶方向,稍有差池,将可能产生严重的后果,可能危害到乘车人员的人身安全。
现有的基于机器人技术的自动驾驶行为决策方法,如中国专利申请公开号为CN109213148A,发明名称为″一种基于深度强化学习的车辆低速跟驰决策方法″,公开了低速跟驰的决策方法。主要通过环境感知、构建基于Actor-Critic框架的深度强化学习结构、对深度强化学习结构中的参数进行训练和更新直到损失值最小。这种方式代码量大,并且只能使用在设定好的或者是环境变量与训练环境相似的情况下才。这种建模的方式对于计算的要求非常大,需要自动驾驶车辆背上沉重的计算机。
发明内容
为了解决现有技术问题,本发明的目的是公开一种基于深度强化学习的自动驾驶行为决策方法,可以减少行为决策中的计算量,并且使用较少的传感器就能实现环境感知。
本发明的目的是通过以下技术方案实现的:
基于深度强化学习的自动驾驶行为决策方法,包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态;
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。
进一步地,所述的步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息,通过红外摄像头接收前方道路中被遮挡物体信息,通过固态激光雷达接受车身两侧的环境信息;
步骤S102、对环境信息数据进行环境感知检测;
步骤S103、对环境信息数据进行融合处理,得到当前环境状态。
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数;μ表示均值;σ表示方差;b表示再平移参数。
进一步地,在经验池中选择并输出自动驾驶车辆的动作行为具体包括:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合;
步骤S202、将状态行为集合放入经验池中进行存储,在遇到相同环境状态时,直接从经验池中选取相应的动作行为输出。
进一步地,所述的步骤S201具体包括:
步骤S2012、抽取动作行为对,并构建状态行为集合D={(s1,a1),(s2,a2),(s3,a3)......}。
进一步地,所述的步骤S202具体包括:
步骤S2021、构建经验池,将状态行为集合放入经验池中保存;
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
进一步地,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括:
步骤S211、构建基于PPO算法框架的深度强化学习结构;
步骤S212、对深度强化学习结构进行训练;
步骤S213、由训练完成的深度强化学习结构根据当前环境状态和自动驾驶车辆的当前行为状态计算并输出动作行为。
进一步地,所述的深度强化学习结构是Actor-Critic网络结构,所述的Actor-Critic网络结构包括n层深度卷积神经网络,所述深度卷积神经网络网络由一维卷积层、Relu层和输出层组成。
进一步地,所述的步骤S212具体包括:
步骤S2121、Actor卷积网络根据当前环境状态选择合适的动作行为,并且不断迭代,得到每个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值;
步骤S2122、做策略函数的近似函数;
步骤S2123、做状态价值函数的近似函数;
步骤S2124、做动作价值函数的近似函数;
步骤S2125、计算Actor的损失函数;
步骤S2126、计算Critic的损失函数;
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值;
步骤S2128、加入正则化函数,减小计算的误差。
本发明的基于深度强化学习的自动驾驶行为决策方法,采用RGB摄像头和红外摄像头采集前方道路信息,不受时间和地点的限制,可以在夜间、光线条件不好或有遮挡的情况下实现环境感知。只需在车身两侧安装固态激光雷达感知车身两侧的环境信息,减少了传感器的使用。使得行为决策不受环境因素的限制,可以在任意环境的道路上行驶,不需要预先设定和建模,因此,本发明的方法具有非常强的通用和灵活性。
通过模仿学习人类驾驶员的驾驶经验并形成经验池,行为决策时优先获取与经验池中环境相似的动作输出,不仅解决了计算量大、代码冗长且繁琐的问题,并且通过模仿学习使得自动驾驶车辆更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。
附图说明
图1为本发明的基于深度强化学习的自动驾驶行为决策方法的框图;
图2为本发明中的环境感知所使用的传感器的摆放位置示意图;
图3为本发明实施例中基于PPO算法框架的深度强化学习结构的示意图;
图4为本发明中PPO算法框架中的Actor-Critic网络结构示意图;
图5为本发明中模仿学习人类驾驶经验的算法结构;
图6为正则化方法的工作原理图。
具体实施例
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
基于深度强化学习的自动驾驶行为决策方法,如图1所示。自动驾驶车辆的动作行为通过两种方式获得,第一种方式是:由深度强化学习结构根据输入的当前环境状态数据和自动驾驶车辆的当前行为状态数据计算得出。第二种方式是:根据输入的当前环境状态数据和自动驾驶车辆的当前行为状态数据,在构建好的经验池中选择动作行为。经验池是自动驾驶车辆通过模仿学习人类驾驶经验获得的。当前环境状态数据包括自动驾驶车辆前方障碍物、车道线等道路信息,以及前方障碍物、车道线等距离车头的空间距离,车身两侧的障碍物和车道线距离车身侧面的空间距离等。自动驾驶车辆的当前行为状态数据包括车辆的行驶速度、加速度、转向等信息。
本发明的基于深度强化学习的自动驾驶行为决策方法具体包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态数据。
进一步地,在本发明公开的一种实施例中,获取自动驾驶车辆周围的当前环境状态数据,包括:通过车辆前方的RGB摄像头和红外摄像头采集前方道路的信息,通过车辆左右两侧的固态激光雷达测量左右两侧车辆或障碍物的距离信息,这两组信息作为输入,对自动驾驶车辆当前所处的环境状态进行表述。自动驾驶车辆当前所处的环境状态包括自动驾驶车辆前方是否有行人、是否有车辆、是否有如车道线之类的道路信息、是否有其他障碍物,以及它们距离车头的空间距离。
步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息。环境信息包括但不限于:车道线相对于车头的空间位置、交通标识相对于车头的空间位置、行人相对于车头的空间位置、车辆相对于车头的空间位置等。
通过红外摄像头接收前方道路中被遮挡物体信息,以及在夜间或视线效果极差的情况下接收前方道路的环境信息。包括但不限于:行人、车辆、道路周边障碍物等。
通过固态激光雷达接受车身两侧的环境信息。包括但不限于:当前车身周围的车辆、障碍物、障碍物与车身的距离、周围的车辆与车身的距离。
现有的自动驾驶技术中的环境感知部分,一般情况下需要较多的传感器去感应周围环境信息,如在车身周围安装激光雷达、固态激光雷达、多路摄像头及其他传感器,导致自动驾驶车辆成本增加。本发明只需在车头安装一个RGB摄像头和一个红外摄像头,在车身两侧各安装一个固态激光雷达。降低了自动驾驶车辆的成本。
步骤S102、对环境信息数据进行环境感知检测。
包括通过MobileNet+VGG算法的方式对道路中的障碍物进行检测和识别。通过Fully Convolutional Networks图像分割技术对道路信息进行分割处理。
步骤S103、对环境信息数据进行融合处理。
进一步地,对环境信息数据进行融合的具体过程为:根据数据归一化(Normalization)公式,对环境信息数据做融合处理,得到当前的环境状态s。数据归一化公式为:
其中:h表示归一化值;g表示再缩放参数;x表示当前环境状态下的参数,包括自动驾驶车辆前方障碍物和车道线等距离车头的空间距离,车身两侧的障碍物和车道线距离车身侧面的空间距离等;μ表示均值;σ表示方差;b表示再平移参数。
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,由深度强化学习结构计算并输出自动驾驶车辆的动作行为,或者在构建好的经验池中选择并输出自动驾驶车辆的动作行为。
优先在构建好的经验池中选择并输出自动驾驶车辆的动作行为,如果在经验池匹配不到,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。在经验池中选择动作行为可以减少自动驾驶车辆的计算量,解决了计算量大、代码冗长且繁琐的问题。经验池是根据人类驾驶习惯形成的,经验池中的动作行为更接近人类的驾驶习惯,有利于解决有人车和无人车在路上并存的问题,更重要的是提升了安全性。
进一步地,在本发明公开的一种实施例中,在构建好的经验池中选择并输出自动驾驶车辆的动作行为具体包括以下步骤:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合。
具体包括:
步骤S2012、抽取动作行为对,并构建状态行为集合D={(s1,a1),(s2,a2),(s3,a3)......}。
状态行为集合中(s1,a1)表示一个状态行为对,一种环境状态对应一个动作行为。输入状态为汽车摄像头所观测到的画面ot。动作即为转向角度,根据人类驾驶员提供的环境状态对应的动作行为对来学习得到驾驶中的转向行为策略。
步骤S202、将状态行为集合放入建立的经验池中进行存储,在遇到相同环境状态时,可以直接从经验池中选取相应的动作行为输出。
步骤S2021、构建经验池,将状态行为集合放入经验池中保存。
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
进一步地,在本发明公开的一种实施例中,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括以下步骤:
步骤S211、构建基于PPO算法框架的深度强化学习结构。
深度强化学习结构的目的是以当前的环境状态s、及自动驾驶车辆的当前行为状态w作为输入,自动驾驶车辆的动作行为a作为输出。动作行为a包括转向角、加速度和刹车。
具体地,通过PPO算法框架,构建Actor-Critic网络结构。Actor-Critic网络结构包括n层的深度卷积神经网络,深度卷积神经网络网络由一维卷积层、Relu层(RectifiedLinear Unit,线性整流层)和输出层组成。
当前环境状态s和自动驾驶汽车的当前行为状态首先通过一维卷积层和Relu层获得一个中间特征向量,然后再通过若干次的学习和迭代,最后通过输出层输出自动驾驶汽车的动作行为。
一维卷积层用于采集视觉传感器(RGB摄像头和红外摄像头)获取的图片,提取图片中的环境状态特征和行为状态特征。Relu层用于将环境状态特征和行为状态特征对应到具体的动作行为,输出层用于输出动作行为。
步骤S212、对深度强化学习结构进行训练。
利用PPO算法框架中的Actor-Critic网络结构进行动作选择训练,通过训练得到策略函数πθ(s,a)、状态价值函数和动作价值函数并对策略参数进行更新。经过长时间的训练,自动驾驶汽车可以凭借视觉传感器和固态激光雷达的信息作为输入,在任何时间,任何环境中都做出最优的动作决策。
具体地,对深度强化学习结构进行训练包括以下步骤:
步骤S2121、Actor卷积网络根据当前环境状态s选择合适的动作行为a,并且不断迭代,得到每一个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值。
步骤S2122、做策略函数的近似函数。
πθ(s,a)=P(a|s,θ)≈π(a|s) 公式(2)
其中s表示当前环境状态;a表示动作行为;θ表示策略参数。
步骤S2123、做状态价值函数的近似函数。
步骤S2124、做动作价值函数的近似函数。
步骤S2125、计算Actor的损失函数。
CLIP表示PPO-Clip算法的简称,依靠对目标函数的专门裁剪来减小新老策略的差异的PPO算法版本,S表示计算熵值,Lt CLIP+S表示value(值)函数的损失函数,θ表示策略参数,Lt CLIP(θ)表示在策略参数θ条件下第t个动作损失函数,c2表示系数2(可根据需要设定),S[πθ](st)表示在第t个环境状态下,其参数为θ的策略π的熵的值。
步骤S2126、计算Critic的损失函数。
td表示TD(Tempore Difference,时序差分)误差(TD-error)的缩写,losstd表示时序差分误差的损失函数,T表示总目标的个数,c1表示系数1(可自己定义),∑表示函数求和符号,Vθ(st)表示第t个的状态下策略参数θ的值函数,表示第t个目标的值函数,S表示环境状态。
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值。
步骤S2128、加入正则化层dropout,以减小计算的误差。
正则化的本质就是给模型加一些规则限制,约束要优化参数,其常用方式为在目标函数后面添加一个系数的″惩罚项″,目的为了防止系数过大从而让模型变得复杂,防止过拟合。dropout是一种计算方便但功能强大的正则化方法,适用于神经网络。他的基本步骤是在每一次的迭代中,随机删除一部分节点,只训练剩下的节点。每次迭代都会随机删除,每次迭代删除的节点也都不一样,相当于每次迭代训练的都是不一样的网络,通过这样的方式降低节点之间的关联性以及模型的复杂度,从而达到正则化的效果。
Dropout工作原理图如图6所示。
步骤S213、由训练完成的深度强化学习结构根据当前环境状态计算并输出动作行为。
经过上述长期的训练、模拟和测试,自动驾驶汽车可以根据较少的传感器信息,完成全天候、全环境的自动驾驶行为决策。
以上仅为说明本发明的实施方式,并不用于限制本发明,对于本领域的技术人员来说,凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于深度强化学习的自动驾驶行为决策方法,其特征在于,包括以下步骤:
步骤S1、获取自动驾驶车辆周围的当前环境状态;
步骤S2、根据输入的当前环境状态和自动驾驶车辆的当前行为状态,在经验池中选择并输出自动驾驶车辆的动作行为,如果经验池中没有与当前环境状态对应的动作行为,则由深度强化学习结构计算并输出自动驾驶车辆的动作行为。
2.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S1具体包括:
步骤S101、通过RGB摄像头接收前方道路的环境信息,通过红外摄像头接收前方道路中被遮挡物体信息,通过固态激光雷达接受车身两侧的环境信息;
步骤S102、对环境信息数据进行环境感知检测;
步骤S103、对环境信息数据进行融合处理,得到当前环境状态。
4.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,在经验池中选择并输出自动驾驶车辆的动作行为具体包括:
步骤S201、采集和学习人类驾驶员的驾驶经验,形成状态行为集合;
步骤S202、将状态行为集合放入经验池中进行存储,在遇到相同环境状态时,直接从经验池中选取相应的动作行为输出。
6.根据权利要求4所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S202具体包括:
步骤S2021、构建经验池,将状态行为集合放入经验池中保存;
步骤S2022、将当前环境状态与状态行为集合中的环境状态做对比,若匹配成功,则直接输出该环境状态对应的动作行为;若匹配不成功,则由深度强化学习结构计算并输出动作行为。
7.根据权利要求1所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,由深度强化学习结构计算并输出自动驾驶车辆的动作行为具体包括:
步骤S211、构建基于PPO算法框架的深度强化学习结构;
步骤S212、对深度强化学习结构进行训练;
步骤S213、由训练完成的深度强化学习结构根据当前环境状态和自动驾驶车辆的当前行为状态计算并输出动作行为。
8.根据权利要求7所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的深度强化学习结构是Actor-Critic网络结构,所述的Actor-Critic网络结构包括n层深度卷积神经网络,所述深度卷积神经网络网络由一维卷积层、Relu层和输出层组成。
9.根据权利要求7所述的基于深度强化学习的自动驾驶行为决策方法,其特征在于,所述的步骤S212具体包括:
步骤S2121、Actor卷积网络根据当前环境状态选择合适的动作行为,并且不断迭代,得到每个环境状态下选择每个动作行为的合理概率,Critic卷积网络也不断迭代,不断完善每个环境状态下选择的每一个动作行为的奖惩值;
步骤S2122、做策略函数的近似函数;
步骤S2123、做状态价值函数的近似函数;
步骤S2124、做动作价值函数的近似函数;
步骤S2125、计算Actor的损失函数;
步骤S2126、计算Critic的损失函数;
步骤S2127、重复步骤S2121至步骤S2124,直到迭代达到最大步数或步骤S2125和步骤S2126的损失值小于给定阈值;
步骤S2128、加入正则化函数,减小计算的误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010381846.XA CN111605565A (zh) | 2020-05-08 | 2020-05-08 | 基于深度强化学习的自动驾驶行为决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010381846.XA CN111605565A (zh) | 2020-05-08 | 2020-05-08 | 基于深度强化学习的自动驾驶行为决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111605565A true CN111605565A (zh) | 2020-09-01 |
Family
ID=72194646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010381846.XA Pending CN111605565A (zh) | 2020-05-08 | 2020-05-08 | 基于深度强化学习的自动驾驶行为决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111605565A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112455465A (zh) * | 2020-12-08 | 2021-03-09 | 广州小鹏自动驾驶科技有限公司 | 一种行驶环境感知方法、装置、电子设备和存储介质 |
CN112861269A (zh) * | 2021-03-11 | 2021-05-28 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN113104050A (zh) * | 2021-04-07 | 2021-07-13 | 天津理工大学 | 一种基于深度强化学习的无人驾驶端到端决策方法 |
CN113219968A (zh) * | 2021-04-21 | 2021-08-06 | 深圳大学 | 自动驾驶控制方法及装置 |
CN113359771A (zh) * | 2021-07-06 | 2021-09-07 | 贵州大学 | 一种基于强化学习的智能自动驾驶控制方法 |
CN113353102A (zh) * | 2021-07-08 | 2021-09-07 | 重庆大学 | 一种基于深度强化学习的无保护左转弯驾驶控制方法 |
CN113501008A (zh) * | 2021-08-12 | 2021-10-15 | 东风悦享科技有限公司 | 一种基于强化学习算法的自动驾驶行为决策方法 |
CN113553934A (zh) * | 2021-07-19 | 2021-10-26 | 吉林大学 | 基于深度强化学习的地面无人车智能决策方法及系统 |
CN114104005A (zh) * | 2022-01-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114261400A (zh) * | 2022-01-07 | 2022-04-01 | 京东鲲鹏(江苏)科技有限公司 | 一种自动驾驶决策方法、装置、设备和存储介质 |
WO2022083029A1 (zh) * | 2020-10-19 | 2022-04-28 | 深圳大学 | 一种基于深度强化学习的决策方法 |
CN114722998A (zh) * | 2022-03-09 | 2022-07-08 | 三峡大学 | 一种基于cnn-ppo的兵棋推演智能体构建方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548512A (en) * | 1994-10-04 | 1996-08-20 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Autonomous navigation apparatus with neural network for a mobile vehicle |
CN109213148A (zh) * | 2018-08-03 | 2019-01-15 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
CN109598934A (zh) * | 2018-12-13 | 2019-04-09 | 清华大学 | 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 |
CN109703568A (zh) * | 2019-02-19 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 自动驾驶车辆行驶策略实时学习的方法、装置和服务器 |
CN110466495A (zh) * | 2019-09-02 | 2019-11-19 | 浙江鸿吉智能控制有限公司 | 一种智能自动矢量驾驶执行系统及控制方法 |
CN110525428A (zh) * | 2019-08-29 | 2019-12-03 | 合肥工业大学 | 一种基于模糊深度强化学习的自动泊车方法 |
CN110647839A (zh) * | 2019-09-18 | 2020-01-03 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
US20200039520A1 (en) * | 2018-08-06 | 2020-02-06 | Honda Motor Co., Ltd. | System and method for learning naturalistic driving behavior based on vehicle dynamic data |
-
2020
- 2020-05-08 CN CN202010381846.XA patent/CN111605565A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548512A (en) * | 1994-10-04 | 1996-08-20 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Autonomous navigation apparatus with neural network for a mobile vehicle |
CN109213148A (zh) * | 2018-08-03 | 2019-01-15 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
US20200039520A1 (en) * | 2018-08-06 | 2020-02-06 | Honda Motor Co., Ltd. | System and method for learning naturalistic driving behavior based on vehicle dynamic data |
CN109598934A (zh) * | 2018-12-13 | 2019-04-09 | 清华大学 | 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 |
CN109703568A (zh) * | 2019-02-19 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 自动驾驶车辆行驶策略实时学习的方法、装置和服务器 |
CN110525428A (zh) * | 2019-08-29 | 2019-12-03 | 合肥工业大学 | 一种基于模糊深度强化学习的自动泊车方法 |
CN110466495A (zh) * | 2019-09-02 | 2019-11-19 | 浙江鸿吉智能控制有限公司 | 一种智能自动矢量驾驶执行系统及控制方法 |
CN110647839A (zh) * | 2019-09-18 | 2020-01-03 | 深圳信息职业技术学院 | 自动驾驶策略的生成方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
北冥有鱼兮: "Batch Normalization:批量归一化", 《阿里云开发者社区》 * |
小草CYS: "在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架", 《CNDS》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022083029A1 (zh) * | 2020-10-19 | 2022-04-28 | 深圳大学 | 一种基于深度强化学习的决策方法 |
CN112455465A (zh) * | 2020-12-08 | 2021-03-09 | 广州小鹏自动驾驶科技有限公司 | 一种行驶环境感知方法、装置、电子设备和存储介质 |
CN112861269A (zh) * | 2021-03-11 | 2021-05-28 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN112861269B (zh) * | 2021-03-11 | 2022-08-30 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN113104050B (zh) * | 2021-04-07 | 2022-04-12 | 天津理工大学 | 一种基于深度强化学习的无人驾驶端到端决策方法 |
CN113104050A (zh) * | 2021-04-07 | 2021-07-13 | 天津理工大学 | 一种基于深度强化学习的无人驾驶端到端决策方法 |
CN113219968A (zh) * | 2021-04-21 | 2021-08-06 | 深圳大学 | 自动驾驶控制方法及装置 |
CN113219968B (zh) * | 2021-04-21 | 2024-04-16 | 深圳大学 | 自动驾驶控制方法及装置 |
CN113359771A (zh) * | 2021-07-06 | 2021-09-07 | 贵州大学 | 一种基于强化学习的智能自动驾驶控制方法 |
CN113353102A (zh) * | 2021-07-08 | 2021-09-07 | 重庆大学 | 一种基于深度强化学习的无保护左转弯驾驶控制方法 |
CN113353102B (zh) * | 2021-07-08 | 2022-11-25 | 重庆大学 | 一种基于深度强化学习的无保护左转弯驾驶控制方法 |
CN113553934A (zh) * | 2021-07-19 | 2021-10-26 | 吉林大学 | 基于深度强化学习的地面无人车智能决策方法及系统 |
CN113553934B (zh) * | 2021-07-19 | 2024-02-20 | 吉林大学 | 基于深度强化学习的地面无人车智能决策方法及系统 |
CN113501008B (zh) * | 2021-08-12 | 2023-05-19 | 东风悦享科技有限公司 | 一种基于强化学习算法的自动驾驶行为决策方法 |
CN113501008A (zh) * | 2021-08-12 | 2021-10-15 | 东风悦享科技有限公司 | 一种基于强化学习算法的自动驾驶行为决策方法 |
CN114261400A (zh) * | 2022-01-07 | 2022-04-01 | 京东鲲鹏(江苏)科技有限公司 | 一种自动驾驶决策方法、装置、设备和存储介质 |
CN114104005B (zh) * | 2022-01-26 | 2022-04-19 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114104005A (zh) * | 2022-01-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114722998A (zh) * | 2022-03-09 | 2022-07-08 | 三峡大学 | 一种基于cnn-ppo的兵棋推演智能体构建方法 |
CN114722998B (zh) * | 2022-03-09 | 2024-02-02 | 三峡大学 | 一种基于cnn-ppo的兵棋推演智能体构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111605565A (zh) | 基于深度强化学习的自动驾驶行为决策方法 | |
CN112965499B (zh) | 基于注意力模型和深度强化学习的无人车行驶决策方法 | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110647839B (zh) | 自动驾驶策略的生成方法、装置及计算机可读存储介质 | |
Mirchevska et al. | High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning | |
CN112215337B (zh) | 一种基于环境注意力神经网络模型的车辆轨迹预测方法 | |
CN110007675B (zh) | 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法 | |
CN112347567A (zh) | 一种车辆意图和轨迹预测的方法 | |
CN111923928A (zh) | 用于自动车辆的决策制定方法和系统 | |
CN115303297B (zh) | 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 | |
CN116348938A (zh) | 用于预测动态对象行为的方法和系统 | |
CN115179959A (zh) | 基于行驶道路自适应更新阈值的智能驾驶车辆行为预测方法 | |
CN114399743A (zh) | 一种障碍物未来轨迹的生成方法 | |
JP2009096365A (ja) | リスク認識システム | |
Wang et al. | Imitation learning based decision-making for autonomous vehicle control at traffic roundabouts | |
Sun et al. | Human-like highway trajectory modeling based on inverse reinforcement learning | |
Kachhoria et al. | Lane detection and path prediction in autonomous vehicle using deep learning | |
CN113435356B (zh) | 一种克服观察噪声与感知不确定性的轨迹预测方法 | |
US20240017746A1 (en) | Assessing present intentions of an actor perceived by an autonomous vehicle | |
WO2022044210A1 (ja) | 運転支援装置、学習装置、運転支援方法、運転支援プログラム、学習済モデルの生成方法、学習済モデル生成プログラム | |
Mardiati et al. | Motorcycle movement model based on markov chain process in mixed traffic | |
Zhang et al. | A general framework of learning multi-vehicle interaction patterns from video | |
Reddy et al. | Autonomous vehicle based on deep q-learning and yolov3 with data augmentation | |
US20230177405A1 (en) | Ensemble of narrow ai agents | |
Merola et al. | Reinforced Damage Minimization in Critical Events for Self-driving Vehicles. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200901 |