CN113635909B - 一种基于对抗生成模仿学习的自动驾驶控制方法 - Google Patents
一种基于对抗生成模仿学习的自动驾驶控制方法 Download PDFInfo
- Publication number
- CN113635909B CN113635909B CN202110954992.1A CN202110954992A CN113635909B CN 113635909 B CN113635909 B CN 113635909B CN 202110954992 A CN202110954992 A CN 202110954992A CN 113635909 B CN113635909 B CN 113635909B
- Authority
- CN
- China
- Prior art keywords
- decision
- automatic driving
- speed
- target
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004088 simulation Methods 0.000 title claims description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 238000005070 sampling Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000006399 behavior Effects 0.000 claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 19
- 230000001133 acceleration Effects 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 4
- 238000006073 displacement reaction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 7
- 230000002093 peripheral effect Effects 0.000 claims description 7
- 230000003068 static effect Effects 0.000 claims description 7
- 230000003278 mimic effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000011022 operating instruction Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
- B60W30/143—Speed control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/10—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/10—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
- B60W40/105—Speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0027—Planning or execution of driving tasks using trajectory prediction for other traffic participants
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
- B60W2050/0008—Feedback, closed loop systems or details of feedback error signal
- B60W2050/0011—Proportional Integral Differential [PID] controller
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0043—Signal treatments, identification of variables or parameters, parameter estimation or state estimation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/06—Direction of travel
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/20—Static objects
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4041—Position
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4044—Direction of movement, e.g. backwards
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于对抗生成模仿学习的自动驾驶控制方法,属于自动驾驶策略生成技术领域。解决了现有基于学习的自动驾驶决策存在安全性和平稳性差的问题。本发明利用状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;再采用Bezier曲线作驾驶路径规划,获得规划路径;在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。本发明适用于自动驾驶控制。
Description
技术领域
本发明属于自动驾驶策略生成技术领域。
背景技术
决策是自动驾驶整体技术谱系中的关键一环。一般情况下,自动驾驶的技术模块组成按照顺序包括:感知→全局路径规划→决策→局部运动规划→车辆控制5个环节,其中决策直接决定了后续运动规划和车辆控制的安全性和效率,是自动驾驶承上启下的关键技术环节。
当前自动驾驶决策模块多是采用基于规则的方法来构建,也就是尽可能枚举每一种自动车辆可能遇到的驾驶情景,然后,预先设置好每一种驾驶情境下自动车辆需要执行的决策行为。这种做法存在诸多的弊端:(1)自动驾驶,尤其是开放道路下的自动驾驶,常常面对的交通场景具有高度的动态性、复杂性和不确定性,这使得定义一个相对“完备”的“状态-决策”规则集十分困难,甚至是不可能的;(2)基于规则的决策方法过于“僵硬”,遇到事先没有定义好的情况,自动驾驶车将不知道如何做出决策,有可能造成安全事故或者“停机”状态。
因此,为了克服基于规则的自动驾驶决策带来的问题,另外一种常见的做法是基于学习的方式来构建决策模块,例如较为前沿、常用的是强化学习(尤其是深度强化学习)。基于学习的自动驾驶决策,通过自动驾驶车辆与环境的大量互动,不断的收集“驾驶经验”,从而提高自身的决策制定水平,无需人为事先制定规则集,此外,基于学习的方法,对于训练过程中没有碰到的驾驶情景,天然的具有很好的泛化能力。因此,基于强化学习的自动驾驶决策被认为是一种极具潜力的研究方法。但同时,其也存在一个极其严重的潜在问题,那就是基于学习的自动驾驶决策,无法整合考虑自动驾驶情况下的安全性和平稳性。
发明内容
本发明目的是为了解决现有基于学习的自动驾驶决策存在安全性和平稳性差的问题,提出了一种基于对抗生成模仿学习的自动驾驶控制方法。
本发明所述一种基于对抗生成模仿学习的自动驾驶控制方法,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
进一步地,本发明中,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
进一步地,本发明中,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
进一步地,本发明中,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号的方法为:
经对抗生成的训练方式训练的深度神经网络分为深度卷积神经网络和深度全连接神经网络;
将状态地图输入至深度卷积神经网络,输出状态地图的高阶表征向量;
将目标自动驾驶车辆的周边车辆实时状态输入至深度全连接神经网络,输出自动驾驶车辆自身及周边车辆实时状态的高阶表征向量;
将对所述状态地图的高阶表征向量与自动驾驶车辆自身及周边车辆实时状态的高阶表征向量进行拼接,获得目标自动驾驶车辆的决策行为信号。
进一步地,本发明中,步骤S3中,决策行为信号包括:横向决策信号、纵向决策信号和速度决策信号。
进一步地,本发明中,横向决策信号包括:向左变道、保持当前车道和向右变道信号;
纵向决策信号为固定时间段内自动驾驶车辆沿路径行进的距离;
速度决策信号包括:最低速度、最高速度和最低速度与最高速度之间等间隔抽取的四个速度值,其中,最低速度为0,最高速度根据当前道路环境下道路等级的限速确定。
进一步地,本发明中,步骤S4中,采用Bezier曲线做驾驶路径规划的方法为:
利用公式一计算获得:
B(t)=(1-t)3Ps+3(1-t)2tP1+3(1-t)2t2P2+t3Pg,t∈[0,ΔT] 公式一
其中,B(t)是规划的路径,Ps,Pg分别表示起始和目标点;P1,P2为中间控制点,ΔT为规划时间。
进一步地,本发明中,步骤S5中,获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
以加速度和颠簸程度最小,且保持车道曲线的连续性为目标,对速度进行规划,具体为:
其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;为表示r时刻,第i采样点处位移的一阶导数;为表示r时刻,第i个采样点处位移的二阶导数,为表示t时刻,第i个采样点处位移的三阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;表示第k个样条曲线的末端时刻的一阶导数,表示第k+1个样条曲线的初始时刻的一阶导数,表示第k个样条曲线的末端时刻的二阶导数,表示第k+1个样条曲线的初始时刻的二阶导数。
进一步地,本发明中,步骤S6中,获得目标自动驾驶车辆的动作控制信号的方法为:
通过公式四计算获得:
其中,u(t)表示目标自动驾驶车辆的动作控制信号,Kp,Ki,Kd分别表示比例、积分和导数项的系数;e(t)是误差函数,ti为自动驾驶车辆行驶至采样点i处对应的时刻,ti-1为自动驾驶车辆行驶至采样点i-1处对应的时刻,Δt表示第自动驾驶车辆行驶在两个采样点之间的时间。
进一步地,本发明中,步骤S3中,对抗生成的训练方式的训练函数为:
其中,π为决策器神经网络,πθ(a|s)表示在特定环境特征s下,决策器采取策略a的概率,θ表示决策器神经网络的待学习参数的集合,ψ表示判别器神经网络的待学习参数集合;s表示目标自动驾驶车辆面对的环境特征,a表示目标自动驾驶车辆的决策动作;sE,aE分别代表驾驶专家对应的特定环境特征和决策动作;E表示求取数学期望;DE表示驾驶专家操作指令的示范数据集合,Dψ是判别器的判决函数。
本发明通过人类驾驶专家的演示数据,利用深度神经网络自动学习人类驾驶专家的决策行为,并且能够很好的泛化到不同的交通情景下自动驾驶任务;保留了基于学习方法的良好泛化特性,同时由于整合了局部轨迹规划和车辆控制传统模块,又能够保证自动驾驶的安全性和平稳性。同时采用对抗生成模仿学习方式,显著优于行为克隆、监督学习等学习方式,无需标注难以界定的驾驶员决策行为,而是直接从客观可观测的车辆控制行为数据中自动学习到决策行为。
附图说明
图1是本发明所述方法流程示意图;
图2是采用本发明所述方法进行路径规划示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
具体实施方式一:下面结合图1和图2说明本实施方式,本实施方式所述一种基于对抗生成模仿学习的自动驾驶控制方法,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
本发明提出了一种基于模仿学习的自动驾驶决策模块构建方法,其核心是:通过人类专家的驾驶示范收集各种驾驶场景下的车辆控制动作行为,包括油门、制动和方向盘的控制;在此基础上,基于模仿学习的理论,建立一种从底层车辆控制数据中学习人类专家决策逻辑的智能模块,并最终将该智能模块泛化到各种复杂的交通情景中,从而实现安全、高效的自动驾驶决策。该方法即无需事先制定“情景-决策”规则集,同时又能够最大限度的保证自动驾驶的安全性和平稳性,克服了单纯基于规则和基于强化学习两种方式的缺点,具备容易泛化、更安全、更平稳的特点。
进一步地,本实施方式中,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
进一步地,本实施方式中,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
本实施方式中采用状态感知模块获取自动驾驶车辆决策所需要的一切必要信息,包括预置的高精度地图、路径导航、车道线、交通标志标线、自动驾驶车辆周边动态及静态目标的位置、速度以及自动驾驶车辆自身的位置、航向角、速度等信息。这一模块可以通过视觉传感器、LIDAR、毫米波雷达、GPS、IMU等多源传感器融合的方式来实现。感知模块输出的状态地图如图2所示。这里以超车的情况为例,黑色车辆为自动驾驶车辆,其余颜色车辆为周边社会车辆。该感知地图同时整合了自动驾驶车辆和周边相关车辆的位置、速度等信息,它们将被一起输出到决策器深度神经网络中,用于自动驾驶的决策制定。
进一步地,本实施方式中,步骤S3中,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号的方法为:
经对抗生成的训练方式训练的深度神经网络分为深度卷积神经网络和深度全连接神经网络;
将状态地图输入至深度卷积神经网络,输出状态地图的高阶表征向量;
将目标自动驾驶车辆的周边车辆实时状态输入至深度全连接神经网络,输出自动驾驶车辆自身及周边车辆实时状态的高阶表征向量;
将对所述状态地图的高阶表征向量与自动驾驶车辆自身及周边车辆实时状态的高阶表征向量进行拼接,获得目标自动驾驶车辆的决策行为信号。
本实施方式中,采用决策器获取决策行为信号,决策器的架构采用了3部分组成,一部分为以状态地图为输入的深度卷积神经网络,另一部分为以目标自动驾驶车辆和周边车辆实时状态为输入的深度全连接神经网络,将这2部分的输出拼接起来,共同输入到另外一个小型的全连接神经网络,最终输出自动驾驶的决策行为。
进一步地,本实施方式中,步骤S3中,决策行为信号包括:横向决策信号、纵向决策信号和速度决策信号。
进一步地,本实施方式中,横向决策信号包括:向左变道、保持当前车道和向右变道信号;
纵向决策信号为固定时间段内自动驾驶车辆沿路径行进的距离;
速度决策信号包括:最低速度、最高速度和最低速度与最高速度之间等间隔抽取的四个速度值,其中,最低速度为0,最高速度根据当前道路环境下道路等级的限速确定。
本实施方式中,自动驾驶的决策分为3个部分,分别是:(1)横向决策,包括向左变道、保持当前车道和向右变道;(2)纵向决策,包括4个不同的类别,每个类别描述了一定时间内自动驾驶车辆沿着路径行进的距离;(3)速度决策,最低速度和最高速度被均匀划分为4个连续段,每个段对应一个速度决策备选值。
进一步地,本实施方式中,步骤S4中,采用Bezier曲线做驾驶路径规划的方法为:
利用公式一计算获得:
B(t)=(1-t)3Ps+3(1-t)2tP1+3(1-t)2t2P2+t3Pg,t∈[0,ΔT] 公式一
其中,Ps,Pg分别表示起始和目标点;P1,P2为中间控制点,ΔT为规划时间。
进一步地,本实施方式中,步骤S5中,获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
以加速度和颠簸程度最小为目标,且保持车道曲线的连续性的前提下,对速度进行规划,具体为:
通过公式三获得样条曲线段内及断点和初始时刻的速度和加速度信号,其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;为表示t时刻,第i采样点处位移的一阶导数;为表示t时刻,第i个采样点处位移的二阶导数,为表示t时刻,第i个采样点处位移的三阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;表示第k个样条曲线的末端时刻的一阶导数,表示第k+1个样条曲线的初始时刻的一阶导数,表示第k个样条曲线的末端时刻的二阶导数,表示第k+1个样条曲线的初始时刻的二阶导数。
进一步地,本实施方式中,获得目标自动驾驶车辆的动作控制信号的方法为:
通过公式四计算获得:
其中,u(t)表示目标自动驾驶车辆的动作控制信号,Kp,Ki,Kd分别表示比例、积分和导数项的系数;e(t)是误差函数,ti为自动驾驶车辆行驶至采样点i处对应的时刻,ti-1为自动驾驶车辆行驶至采样点i-1处对应的时刻,Δt表示第自动驾驶车辆行驶在两个采样点之间的时间。
进一步地,本实施方式中,步骤S3中,对抗生成的训练方式的训练函数为:
其中,π为决策器神经网络,πθ(a|s)表示在特定环境特征s下,决策器采取策略a的概率,θ表示决策器神经网络的待学习参数的集合,ψ表示判别器神经网络的待学习参数集合;s表示目标自动驾驶车辆面对的环境特征,a表示目标自动驾驶车辆的决策动作;sE,aE分别代表驾驶专家对应的特定环境特征和决策动作;E表示求取数学期望;DE表示驾驶专家操作指令的示范数据集合,Dψ是判别器的判决函数;
其中,奖励函数用于决策器的反馈调整信号(即决策器依据判别器给出的判别评分,改进自身的策略),特定状态和行为对s,a下,决策器所获得的奖励与判别器的评分输出的对数成正比(评分越高,奖励越大,评分越低,奖励越小)
依据奖励函数,决策器神经网络采用策略梯度下降的方式最小化下面的目标函数,从而调整自身的参数集合θ,达到训练的目的,目标函数公式如下:
其中,E表示求取数学期望;τ为任意决策轨迹(也就是自动驾驶车辆与环境互动的状态动作对序列),τT为第τ个决策序列轨迹的决策阶段数;st,at为第t(t∈[0,τT])个决策阶段所处的状态和所采取的策略,为奖励函数。
该方法的整体工作流程如图1所示。自动驾驶车辆搭载各种类型的传感器,行驶于各种类型的交通情境中,通过预置的状态感知模块,能够获得自动驾驶车辆决策制定所需要的状态地图。基于深度神经网络的决策器以状态地图为输入,以相应的决策制定为输出,进一步该输出又传递给下游的局部规划模块和车辆控制模块,最终转换为控制车辆的动作。本发明的核心是构建决策器的深度神经网络模型。决策器的训练采用了对抗生成的方式。决策器负责生成控制车辆的决策,连带下游的局部规划和控制模块,最终产生车辆控制动作,另外人类驾驶专家根据决策器同样的输入情景,生成人类专家的“标准动作”,二者共同作为判别器的输入,最终通过这种对抗生成的方式,使得决策器不断的模仿人类专家的决策行为,最为实现可泛化、平稳、安全的决策器。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。
Claims (9)
1.一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
以加速度和颠簸程度最小,且保持车道曲线的连续性为目标,对速度进行规划,具体为:
其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;为表示t时刻,第i采样点处位移的一阶导数;为表示t时刻,第i个采样点处位移的二阶导数,为表示t时刻,第i个采样点处位移的三阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;表示第k个样条曲线的末端时刻的一阶导数,表示第k+1个样条曲线的初始时刻的一阶导数,表示第k个样条曲线的末端时刻的二阶导数,表示第k+1个样条曲线的初始时刻的二阶导数;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
2.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
3.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
4.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号的方法为:
经对抗生成的训练方式训练的深度神经网络分为深度卷积神经网络和深度全连接神经网络;
将状态地图输入至深度卷积神经网络,输出状态地图的高阶表征向量;
将目标自动驾驶车辆的周边车辆实时状态输入至深度全连接神经网络,输出自动驾驶车辆自身及周边车辆实时状态的高阶表征向量;
将对所述状态地图的高阶表征向量与自动驾驶车辆自身及周边车辆实时状态的高阶表征向量进行拼接,获得目标自动驾驶车辆的决策行为信号。
5.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策行为信号包括:横向决策信号、纵向决策信号和速度决策信号。
6.根据权利要求5所述一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,横向决策信号包括:向左变道、保持当前车道和向右变道信号;
纵向决策信号为固定时间段内自动驾驶车辆沿路径行进的距离;
速度决策信号包括:最低速度、最高速度和最低速度与最高速度之间等间隔抽取的四个速度值,其中,最低速度为0,最高速度根据当前道路环境下道路等级的限速确定。
7.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S4中,采用Bezier曲线做驾驶路径规划的方法为:
利用公式一计算获得:
B(t)=(1-t)3Ps+(1-t)2tP1+3(1-t)2t2P2+t3Pg,t∈[0,ΔT] 公式一
其中,B(t)是规划的路径,Ps,Pg分别表示起始和目标点;P1,P2为中间控制点,ΔT为规划时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110954992.1A CN113635909B (zh) | 2021-08-19 | 2021-08-19 | 一种基于对抗生成模仿学习的自动驾驶控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110954992.1A CN113635909B (zh) | 2021-08-19 | 2021-08-19 | 一种基于对抗生成模仿学习的自动驾驶控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113635909A CN113635909A (zh) | 2021-11-12 |
CN113635909B true CN113635909B (zh) | 2022-07-12 |
Family
ID=78422883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110954992.1A Active CN113635909B (zh) | 2021-08-19 | 2021-08-19 | 一种基于对抗生成模仿学习的自动驾驶控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113635909B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114179835B (zh) * | 2021-12-30 | 2024-01-05 | 清华大学苏州汽车研究院(吴江) | 基于真实场景下强化学习的自动驾驶车辆决策训练方法 |
CN114724083B (zh) * | 2022-04-07 | 2023-01-10 | 清华大学 | 轨迹预测系统训练、轨迹预测方法、装置、系统 |
CN114802307B (zh) * | 2022-05-23 | 2023-05-05 | 哈尔滨工业大学 | 自动与人工混合驾驶场景下的智能车辆横向控制方法 |
CN115743178A (zh) * | 2022-11-25 | 2023-03-07 | 中国科学院深圳先进技术研究院 | 一种基于场景自适应识别的自动驾驶方法及系统 |
CN116540602B (zh) * | 2023-04-28 | 2024-02-23 | 金陵科技学院 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110989577A (zh) * | 2019-11-15 | 2020-04-10 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN111483468A (zh) * | 2020-04-24 | 2020-08-04 | 广州大学 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 |
CN111507501A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 通过强化学习来执行个性化路径规划的方法及装置 |
WO2020177876A1 (en) * | 2019-03-07 | 2020-09-10 | Toyota Motor Europe | System and method for training a model performing human-like driving |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11656620B2 (en) * | 2018-12-31 | 2023-05-23 | Luminar, Llc | Generating environmental parameters based on sensor data using machine learning |
-
2021
- 2021-08-19 CN CN202110954992.1A patent/CN113635909B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507501A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 通过强化学习来执行个性化路径规划的方法及装置 |
WO2020177876A1 (en) * | 2019-03-07 | 2020-09-10 | Toyota Motor Europe | System and method for training a model performing human-like driving |
CN110989577A (zh) * | 2019-11-15 | 2020-04-10 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN111483468A (zh) * | 2020-04-24 | 2020-08-04 | 广州大学 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113635909A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113635909B (zh) | 一种基于对抗生成模仿学习的自动驾驶控制方法 | |
Chen et al. | Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Li et al. | Real-time trajectory planning for autonomous urban driving: Framework, algorithms, and verifications | |
EP3588226B1 (en) | Method and arrangement for generating control commands for an autonomous road vehicle | |
US11755014B2 (en) | Jointly learnable behavior and trajectory planning for autonomous vehicles | |
Sukthankar | Situation awareness for tactical driving | |
Yu et al. | A path planning and navigation control system design for driverless electric bus | |
Wang et al. | Autonomous ramp merge maneuver based on reinforcement learning with continuous action space | |
Emuna et al. | Deep reinforcement learning for human-like driving policies in collision avoidance tasks of self-driving cars | |
Fehér et al. | Hierarchical evasive path planning using reinforcement learning and model predictive control | |
CN116134292A (zh) | 用于性能测试和/或训练自动驾驶车辆规划器的工具 | |
Huang et al. | Ontology-based driving scene modeling, situation assessment and decision making for autonomous vehicles | |
Wang et al. | Haptic assistive control with learning-based driver intent recognition for semi-autonomous vehicles | |
Zhang et al. | An autonomous overtaking maneuver based on relative position information | |
CN112835362B (zh) | 一种自动变道规划方法及装置、电子设备和存储介质 | |
Lodhi et al. | Autonomous vehicular overtaking maneuver: A survey and taxonomy | |
Chen et al. | Vadv2: End-to-end vectorized autonomous driving via probabilistic planning | |
Cai et al. | Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection | |
Oudainia et al. | Personalized decision making and lateral path planning for intelligent vehicles in lane change scenarios | |
Milanés et al. | An approach to driverless vehicles in highways | |
Yuan et al. | From Naturalistic Traffic Data to Learning-Based Driving Policy: A Sim-to-Real Study | |
Rudigier et al. | Development, verification and KPI analysis of infrastructure-assisted trajectory planners | |
Madhavan et al. | Intelligent vehicle systems: a 4D/RCS Approach | |
Gutiérrez-Moreno et al. | Hybrid decision making for autonomous driving in complex urban scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |