CN113635909B - 一种基于对抗生成模仿学习的自动驾驶控制方法 - Google Patents

一种基于对抗生成模仿学习的自动驾驶控制方法 Download PDF

Info

Publication number
CN113635909B
CN113635909B CN202110954992.1A CN202110954992A CN113635909B CN 113635909 B CN113635909 B CN 113635909B CN 202110954992 A CN202110954992 A CN 202110954992A CN 113635909 B CN113635909 B CN 113635909B
Authority
CN
China
Prior art keywords
decision
automatic driving
speed
target
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110954992.1A
Other languages
English (en)
Other versions
CN113635909A (zh
Inventor
崔建勋
曲明成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110954992.1A priority Critical patent/CN113635909B/zh
Publication of CN113635909A publication Critical patent/CN113635909A/zh
Application granted granted Critical
Publication of CN113635909B publication Critical patent/CN113635909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • B60W30/12Lane keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/143Speed control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • B60W40/105Speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0008Feedback, closed loop systems or details of feedback error signal
    • B60W2050/0011Proportional Integral Differential [PID] controller
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/06Direction of travel
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/20Static objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4041Position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4044Direction of movement, e.g. backwards

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于对抗生成模仿学习的自动驾驶控制方法,属于自动驾驶策略生成技术领域。解决了现有基于学习的自动驾驶决策存在安全性和平稳性差的问题。本发明利用状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;再采用Bezier曲线作驾驶路径规划,获得规划路径;在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。本发明适用于自动驾驶控制。

Description

一种基于对抗生成模仿学习的自动驾驶控制方法
技术领域
本发明属于自动驾驶策略生成技术领域。
背景技术
决策是自动驾驶整体技术谱系中的关键一环。一般情况下,自动驾驶的技术模块组成按照顺序包括:感知→全局路径规划→决策→局部运动规划→车辆控制5个环节,其中决策直接决定了后续运动规划和车辆控制的安全性和效率,是自动驾驶承上启下的关键技术环节。
当前自动驾驶决策模块多是采用基于规则的方法来构建,也就是尽可能枚举每一种自动车辆可能遇到的驾驶情景,然后,预先设置好每一种驾驶情境下自动车辆需要执行的决策行为。这种做法存在诸多的弊端:(1)自动驾驶,尤其是开放道路下的自动驾驶,常常面对的交通场景具有高度的动态性、复杂性和不确定性,这使得定义一个相对“完备”的“状态-决策”规则集十分困难,甚至是不可能的;(2)基于规则的决策方法过于“僵硬”,遇到事先没有定义好的情况,自动驾驶车将不知道如何做出决策,有可能造成安全事故或者“停机”状态。
因此,为了克服基于规则的自动驾驶决策带来的问题,另外一种常见的做法是基于学习的方式来构建决策模块,例如较为前沿、常用的是强化学习(尤其是深度强化学习)。基于学习的自动驾驶决策,通过自动驾驶车辆与环境的大量互动,不断的收集“驾驶经验”,从而提高自身的决策制定水平,无需人为事先制定规则集,此外,基于学习的方法,对于训练过程中没有碰到的驾驶情景,天然的具有很好的泛化能力。因此,基于强化学习的自动驾驶决策被认为是一种极具潜力的研究方法。但同时,其也存在一个极其严重的潜在问题,那就是基于学习的自动驾驶决策,无法整合考虑自动驾驶情况下的安全性和平稳性。
发明内容
本发明目的是为了解决现有基于学习的自动驾驶决策存在安全性和平稳性差的问题,提出了一种基于对抗生成模仿学习的自动驾驶控制方法。
本发明所述一种基于对抗生成模仿学习的自动驾驶控制方法,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
进一步地,本发明中,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
进一步地,本发明中,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
进一步地,本发明中,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号的方法为:
经对抗生成的训练方式训练的深度神经网络分为深度卷积神经网络和深度全连接神经网络;
将状态地图输入至深度卷积神经网络,输出状态地图的高阶表征向量;
将目标自动驾驶车辆的周边车辆实时状态输入至深度全连接神经网络,输出自动驾驶车辆自身及周边车辆实时状态的高阶表征向量;
将对所述状态地图的高阶表征向量与自动驾驶车辆自身及周边车辆实时状态的高阶表征向量进行拼接,获得目标自动驾驶车辆的决策行为信号。
进一步地,本发明中,步骤S3中,决策行为信号包括:横向决策信号、纵向决策信号和速度决策信号。
进一步地,本发明中,横向决策信号包括:向左变道、保持当前车道和向右变道信号;
纵向决策信号为固定时间段内自动驾驶车辆沿路径行进的距离;
速度决策信号包括:最低速度、最高速度和最低速度与最高速度之间等间隔抽取的四个速度值,其中,最低速度为0,最高速度根据当前道路环境下道路等级的限速确定。
进一步地,本发明中,步骤S4中,采用Bezier曲线做驾驶路径规划的方法为:
利用公式一计算获得:
B(t)=(1-t)3Ps+3(1-t)2tP1+3(1-t)2t2P2+t3Pg,t∈[0,ΔT] 公式一
其中,B(t)是规划的路径,Ps,Pg分别表示起始和目标点;P1,P2为中间控制点,ΔT为规划时间。
进一步地,本发明中,步骤S5中,获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
其中,sk为第k个样条曲线位移;所述第k个样条曲线为第i-1个采样点和第i个采样点间路径曲线,
Figure BDA0003219886200000034
ak、bk、ck、dk、ek分别表示第k个样条曲线的多项式系数;
以加速度和颠簸程度最小,且保持车道曲线的连续性为目标,对速度进行规划,具体为:
Figure BDA0003219886200000031
其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;
Figure BDA0003219886200000032
为表示r时刻,第i采样点处位移的一阶导数;
Figure BDA0003219886200000033
为表示r时刻,第i个采样点处位移的二阶导数,
Figure BDA0003219886200000041
为表示t时刻,第i个采样点处位移的三阶导数,
Figure BDA0003219886200000042
为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,
Figure BDA0003219886200000043
为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,
Figure BDA0003219886200000044
为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;
Figure BDA0003219886200000045
表示第k个样条曲线的末端时刻的一阶导数,
Figure BDA0003219886200000046
表示第k+1个样条曲线的初始时刻的一阶导数,
Figure BDA0003219886200000047
表示第k个样条曲线的末端时刻的二阶导数,
Figure BDA0003219886200000048
表示第k+1个样条曲线的初始时刻的二阶导数。
进一步地,本发明中,步骤S6中,获得目标自动驾驶车辆的动作控制信号的方法为:
通过公式四计算获得:
Figure BDA0003219886200000049
其中,u(t)表示目标自动驾驶车辆的动作控制信号,Kp,Ki,Kd分别表示比例、积分和导数项的系数;e(t)是误差函数,ti为自动驾驶车辆行驶至采样点i处对应的时刻,ti-1为自动驾驶车辆行驶至采样点i-1处对应的时刻,Δt表示第自动驾驶车辆行驶在两个采样点之间的时间。
进一步地,本发明中,步骤S3中,对抗生成的训练方式的训练函数为:
Figure BDA00032198862000000410
其中,π为决策器神经网络,πθ(a|s)表示在特定环境特征s下,决策器采取策略a的概率,θ表示决策器神经网络的待学习参数的集合,ψ表示判别器神经网络的待学习参数集合;s表示目标自动驾驶车辆面对的环境特征,a表示目标自动驾驶车辆的决策动作;sE,aE分别代表驾驶专家对应的特定环境特征和决策动作;E表示求取数学期望;DE表示驾驶专家操作指令的示范数据集合,Dψ是判别器的判决函数。
本发明通过人类驾驶专家的演示数据,利用深度神经网络自动学习人类驾驶专家的决策行为,并且能够很好的泛化到不同的交通情景下自动驾驶任务;保留了基于学习方法的良好泛化特性,同时由于整合了局部轨迹规划和车辆控制传统模块,又能够保证自动驾驶的安全性和平稳性。同时采用对抗生成模仿学习方式,显著优于行为克隆、监督学习等学习方式,无需标注难以界定的驾驶员决策行为,而是直接从客观可观测的车辆控制行为数据中自动学习到决策行为。
附图说明
图1是本发明所述方法流程示意图;
图2是采用本发明所述方法进行路径规划示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
具体实施方式一:下面结合图1和图2说明本实施方式,本实施方式所述一种基于对抗生成模仿学习的自动驾驶控制方法,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
本发明提出了一种基于模仿学习的自动驾驶决策模块构建方法,其核心是:通过人类专家的驾驶示范收集各种驾驶场景下的车辆控制动作行为,包括油门、制动和方向盘的控制;在此基础上,基于模仿学习的理论,建立一种从底层车辆控制数据中学习人类专家决策逻辑的智能模块,并最终将该智能模块泛化到各种复杂的交通情景中,从而实现安全、高效的自动驾驶决策。该方法即无需事先制定“情景-决策”规则集,同时又能够最大限度的保证自动驾驶的安全性和平稳性,克服了单纯基于规则和基于强化学习两种方式的缺点,具备容易泛化、更安全、更平稳的特点。
进一步地,本实施方式中,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
进一步地,本实施方式中,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
本实施方式中采用状态感知模块获取自动驾驶车辆决策所需要的一切必要信息,包括预置的高精度地图、路径导航、车道线、交通标志标线、自动驾驶车辆周边动态及静态目标的位置、速度以及自动驾驶车辆自身的位置、航向角、速度等信息。这一模块可以通过视觉传感器、LIDAR、毫米波雷达、GPS、IMU等多源传感器融合的方式来实现。感知模块输出的状态地图如图2所示。这里以超车的情况为例,黑色车辆为自动驾驶车辆,其余颜色车辆为周边社会车辆。该感知地图同时整合了自动驾驶车辆和周边相关车辆的位置、速度等信息,它们将被一起输出到决策器深度神经网络中,用于自动驾驶的决策制定。
进一步地,本实施方式中,步骤S3中,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号的方法为:
经对抗生成的训练方式训练的深度神经网络分为深度卷积神经网络和深度全连接神经网络;
将状态地图输入至深度卷积神经网络,输出状态地图的高阶表征向量;
将目标自动驾驶车辆的周边车辆实时状态输入至深度全连接神经网络,输出自动驾驶车辆自身及周边车辆实时状态的高阶表征向量;
将对所述状态地图的高阶表征向量与自动驾驶车辆自身及周边车辆实时状态的高阶表征向量进行拼接,获得目标自动驾驶车辆的决策行为信号。
本实施方式中,采用决策器获取决策行为信号,决策器的架构采用了3部分组成,一部分为以状态地图为输入的深度卷积神经网络,另一部分为以目标自动驾驶车辆和周边车辆实时状态为输入的深度全连接神经网络,将这2部分的输出拼接起来,共同输入到另外一个小型的全连接神经网络,最终输出自动驾驶的决策行为。
进一步地,本实施方式中,步骤S3中,决策行为信号包括:横向决策信号、纵向决策信号和速度决策信号。
进一步地,本实施方式中,横向决策信号包括:向左变道、保持当前车道和向右变道信号;
纵向决策信号为固定时间段内自动驾驶车辆沿路径行进的距离;
速度决策信号包括:最低速度、最高速度和最低速度与最高速度之间等间隔抽取的四个速度值,其中,最低速度为0,最高速度根据当前道路环境下道路等级的限速确定。
本实施方式中,自动驾驶的决策分为3个部分,分别是:(1)横向决策,包括向左变道、保持当前车道和向右变道;(2)纵向决策,包括4个不同的类别,每个类别描述了一定时间内自动驾驶车辆沿着路径行进的距离;(3)速度决策,最低速度和最高速度被均匀划分为4个连续段,每个段对应一个速度决策备选值。
进一步地,本实施方式中,步骤S4中,采用Bezier曲线做驾驶路径规划的方法为:
利用公式一计算获得:
B(t)=(1-t)3Ps+3(1-t)2tP1+3(1-t)2t2P2+t3Pg,t∈[0,ΔT] 公式一
其中,Ps,Pg分别表示起始和目标点;P1,P2为中间控制点,ΔT为规划时间。
进一步地,本实施方式中,步骤S5中,获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
其中,sk为第k个样条曲线位移;所述第k个样条曲线为第i-1个采样点和第i个采样点间路径曲线,
Figure BDA0003219886200000071
ak、bk、ck、dk、ek均表示第k个样条曲线的多项式系数;
以加速度和颠簸程度最小为目标,且保持车道曲线的连续性的前提下,对速度进行规划,具体为:
Figure BDA0003219886200000081
通过公式三获得样条曲线段内及断点和初始时刻的速度和加速度信号,其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;
Figure BDA0003219886200000082
为表示t时刻,第i采样点处位移的一阶导数;
Figure BDA0003219886200000083
为表示t时刻,第i个采样点处位移的二阶导数,
Figure BDA0003219886200000084
为表示t时刻,第i个采样点处位移的三阶导数,
Figure BDA0003219886200000085
为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,
Figure BDA0003219886200000086
为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,
Figure BDA0003219886200000087
为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;
Figure BDA0003219886200000088
表示第k个样条曲线的末端时刻的一阶导数,
Figure BDA0003219886200000089
表示第k+1个样条曲线的初始时刻的一阶导数,
Figure BDA00032198862000000810
表示第k个样条曲线的末端时刻的二阶导数,
Figure BDA00032198862000000811
表示第k+1个样条曲线的初始时刻的二阶导数。
进一步地,本实施方式中,获得目标自动驾驶车辆的动作控制信号的方法为:
通过公式四计算获得:
Figure BDA00032198862000000812
其中,u(t)表示目标自动驾驶车辆的动作控制信号,Kp,Ki,Kd分别表示比例、积分和导数项的系数;e(t)是误差函数,ti为自动驾驶车辆行驶至采样点i处对应的时刻,ti-1为自动驾驶车辆行驶至采样点i-1处对应的时刻,Δt表示第自动驾驶车辆行驶在两个采样点之间的时间。
进一步地,本实施方式中,步骤S3中,对抗生成的训练方式的训练函数为:
Figure BDA00032198862000000813
其中,π为决策器神经网络,πθ(a|s)表示在特定环境特征s下,决策器采取策略a的概率,θ表示决策器神经网络的待学习参数的集合,ψ表示判别器神经网络的待学习参数集合;s表示目标自动驾驶车辆面对的环境特征,a表示目标自动驾驶车辆的决策动作;sE,aE分别代表驾驶专家对应的特定环境特征和决策动作;E表示求取数学期望;DE表示驾驶专家操作指令的示范数据集合,Dψ是判别器的判决函数;
Figure BDA0003219886200000091
Figure BDA0003219886200000092
分别表示当前目标自动驾驶车辆的面对环境特征的集合和目标自动驾驶车辆的决策动作的集合。
其中,奖励函数用于决策器的反馈调整信号(即决策器依据判别器给出的判别评分,改进自身的策略),特定状态和行为对s,a下,决策器所获得的奖励与判别器的评分输出的对数成正比(评分越高,奖励越大,评分越低,奖励越小)
Figure BDA0003219886200000093
依据奖励函数,决策器神经网络采用策略梯度下降的方式最小化下面的目标函数,从而调整自身的参数集合θ,达到训练的目的,目标函数公式如下:
Figure BDA0003219886200000094
其中,E表示求取数学期望;τ为任意决策轨迹(也就是自动驾驶车辆与环境互动的状态动作对序列),τT为第τ个决策序列轨迹的决策阶段数;st,at为第t(t∈[0,τT])个决策阶段所处的状态和所采取的策略,
Figure BDA0003219886200000095
为奖励函数。
该方法的整体工作流程如图1所示。自动驾驶车辆搭载各种类型的传感器,行驶于各种类型的交通情境中,通过预置的状态感知模块,能够获得自动驾驶车辆决策制定所需要的状态地图。基于深度神经网络的决策器以状态地图为输入,以相应的决策制定为输出,进一步该输出又传递给下游的局部规划模块和车辆控制模块,最终转换为控制车辆的动作。本发明的核心是构建决策器的深度神经网络模型。决策器的训练采用了对抗生成的方式。决策器负责生成控制车辆的决策,连带下游的局部规划和控制模块,最终产生车辆控制动作,另外人类驾驶专家根据决策器同样的输入情景,生成人类专家的“标准动作”,二者共同作为判别器的输入,最终通过这种对抗生成的方式,使得决策器不断的模仿人类专家的决策行为,最为实现可泛化、平稳、安全的决策器。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (9)

1.一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,该方法包括:
步骤S1、采集目标自动驾驶车辆同向所有车道内的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息;
步骤S2、利用地图、车道线、交通标志标线和步骤S1获取的信息,获取目标自动驾驶车辆所在环境的状态地图;
步骤S3、将步骤S2所述状态地图、目标自动驾驶车辆及周边车辆实时状态输入至决策器,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号;
步骤S4、利用步骤S2所述状态地图和目标自动驾驶车辆的决策行为信号,采用Bezier曲线作驾驶路径规划,获得规划路径;
步骤S5、在规划路径上进行等时间间隔抽样,获取采样点,并采用曲线拟合算法,获取每两个采样点间路径的速度和加速度;
获取路径每段的速度和加速度的方法为:
采用两个采样点间路径依次拟合每个样本点的速度,所述两个采样点间路径表示:
sk=ak+bkt+ckt2+dkt3+ekt4,t∈[0,(ΔT)] 公式二
其中,sk为第k个样条曲线位移;所述第k个样条曲线为第i-1个采样点和第i个采样点间路径曲线,
Figure FDA0003640493620000011
ak、bk、ck、dk、ek分别表示第k个样条曲线的多项式系数;
以加速度和颠簸程度最小,且保持车道曲线的连续性为目标,对速度进行规划,具体为:
Figure FDA0003640493620000012
其中,i为第i个采样点,n表示采样点总个数,vnow表示自动驾驶车辆初始时刻的速度;vgoal表示自动驾驶车辆处初始时刻的目标期望速度;anow表示自动驾驶车辆初始时刻的加速度;
Figure FDA0003640493620000021
为表示t时刻,第i采样点处位移的一阶导数;
Figure FDA0003640493620000022
为表示t时刻,第i个采样点处位移的二阶导数,
Figure FDA0003640493620000023
为表示t时刻,第i个采样点处位移的三阶导数,
Figure FDA0003640493620000024
为目标自动驾驶车辆该次控制初始位置时的位移的一阶导数,
Figure FDA0003640493620000025
为目标自动驾驶车辆该次控制初始位置时的位移的二阶导数,
Figure FDA0003640493620000026
为目标自动驾驶车辆到达第n个采样点处位移的一阶导数;
Figure FDA0003640493620000027
表示第k个样条曲线的末端时刻的一阶导数,
Figure FDA0003640493620000028
表示第k+1个样条曲线的初始时刻的一阶导数,
Figure FDA0003640493620000029
表示第k个样条曲线的末端时刻的二阶导数,
Figure FDA00036404936200000210
表示第k+1个样条曲线的初始时刻的二阶导数;
步骤S6、利用每两个采样点间路径的速度和加速度,采用PID控制方法,获得目标自动驾驶车辆的动作控制信号。
2.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策器还包括判别器,所述判别器用于在决策器的深度神经网络进行训练;
所述训练的步骤为:将不同环境的状态地图下决策器生成的操作指令与相应环境下驾驶专家的实际操作控制信号共同输入至判别器,判别器将判别结果发送至决策器,决策器利用所述判别结果,采用对抗生成的训练方式对所述深度神经网络进行训练,直至决策器生成的策略与驾驶专家的实际操作控制信号相同,或相同概率达到99%,停止对决策器进行训练。
3.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S1中,采用视觉传感器、激光雷达、毫米波雷达、GPS和惯性观测单元多源传感器融合获取目标自动驾驶车辆周边的动态、静态目标的位置、速度以及自身的位置、航向角和速度信息。
4.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策器采用经对抗生成的训练方式训练的深度神经网络,获取目标自动驾驶车辆的决策行为信号的方法为:
经对抗生成的训练方式训练的深度神经网络分为深度卷积神经网络和深度全连接神经网络;
将状态地图输入至深度卷积神经网络,输出状态地图的高阶表征向量;
将目标自动驾驶车辆的周边车辆实时状态输入至深度全连接神经网络,输出自动驾驶车辆自身及周边车辆实时状态的高阶表征向量;
将对所述状态地图的高阶表征向量与自动驾驶车辆自身及周边车辆实时状态的高阶表征向量进行拼接,获得目标自动驾驶车辆的决策行为信号。
5.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,决策行为信号包括:横向决策信号、纵向决策信号和速度决策信号。
6.根据权利要求5所述一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,横向决策信号包括:向左变道、保持当前车道和向右变道信号;
纵向决策信号为固定时间段内自动驾驶车辆沿路径行进的距离;
速度决策信号包括:最低速度、最高速度和最低速度与最高速度之间等间隔抽取的四个速度值,其中,最低速度为0,最高速度根据当前道路环境下道路等级的限速确定。
7.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S4中,采用Bezier曲线做驾驶路径规划的方法为:
利用公式一计算获得:
B(t)=(1-t)3Ps+(1-t)2tP1+3(1-t)2t2P2+t3Pg,t∈[0,ΔT] 公式一
其中,B(t)是规划的路径,Ps,Pg分别表示起始和目标点;P1,P2为中间控制点,ΔT为规划时间。
8.根据权利要求1所述的一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S6中,获得目标自动驾驶车辆的动作控制信号的方法为:
通过公式四计算获得:
Figure FDA0003640493620000031
其中,u(t)表示目标自动驾驶车辆的动作控制信号,Kp,Ki,Kd分别表示比例、积分和导数项的系数;e(t)是误差函数,ti为自动驾驶车辆行驶至采样点i处对应的时刻,ti-1为自动驾驶车辆行驶至采样点i-1处对应的时刻,Δt表示为自动驾驶车辆行驶在两个采样点之间的时间。
9.根据权利要求2所述一种基于对抗生成模仿学习的自动驾驶控制方法,其特征在于,步骤S3中,对抗生成的训练方式的训练函数为:
Figure FDA0003640493620000032
其中,π为决策器神经网络,πθ(a|s)表示在特定环境特征s下,决策器采取策略a的概率,θ表示决策器神经网络的待学习参数的集合,ψ表示判别器神经网络的待学习参数集合;s表示目标自动驾驶车辆面对的环境特征,a表示目标自动驾驶车辆的决策动作;sE,aE分别代表驾驶专家对应的特定环境特征和决策动作;E表示求取数学期望;DE表示驾驶专家操作指令的示范数据集合,Dψ是判别器的判决函数。
CN202110954992.1A 2021-08-19 2021-08-19 一种基于对抗生成模仿学习的自动驾驶控制方法 Active CN113635909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954992.1A CN113635909B (zh) 2021-08-19 2021-08-19 一种基于对抗生成模仿学习的自动驾驶控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954992.1A CN113635909B (zh) 2021-08-19 2021-08-19 一种基于对抗生成模仿学习的自动驾驶控制方法

Publications (2)

Publication Number Publication Date
CN113635909A CN113635909A (zh) 2021-11-12
CN113635909B true CN113635909B (zh) 2022-07-12

Family

ID=78422883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954992.1A Active CN113635909B (zh) 2021-08-19 2021-08-19 一种基于对抗生成模仿学习的自动驾驶控制方法

Country Status (1)

Country Link
CN (1) CN113635909B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114179835B (zh) * 2021-12-30 2024-01-05 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114724083B (zh) * 2022-04-07 2023-01-10 清华大学 轨迹预测系统训练、轨迹预测方法、装置、系统
CN114802307B (zh) * 2022-05-23 2023-05-05 哈尔滨工业大学 自动与人工混合驾驶场景下的智能车辆横向控制方法
CN115743178A (zh) * 2022-11-25 2023-03-07 中国科学院深圳先进技术研究院 一种基于场景自适应识别的自动驾驶方法及系统
CN116540602B (zh) * 2023-04-28 2024-02-23 金陵科技学院 一种基于路段安全级别dqn的车辆无人驾驶方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110989577A (zh) * 2019-11-15 2020-04-10 深圳先进技术研究院 自动驾驶决策方法及车辆的自动驾驶装置
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN111507501A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
WO2020177876A1 (en) * 2019-03-07 2020-09-10 Toyota Motor Europe System and method for training a model performing human-like driving

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11656620B2 (en) * 2018-12-31 2023-05-23 Luminar, Llc Generating environmental parameters based on sensor data using machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507501A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
WO2020177876A1 (en) * 2019-03-07 2020-09-10 Toyota Motor Europe System and method for training a model performing human-like driving
CN110989577A (zh) * 2019-11-15 2020-04-10 深圳先进技术研究院 自动驾驶决策方法及车辆的自动驾驶装置
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Also Published As

Publication number Publication date
CN113635909A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113635909B (zh) 一种基于对抗生成模仿学习的自动驾驶控制方法
Chen et al. Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
Li et al. Real-time trajectory planning for autonomous urban driving: Framework, algorithms, and verifications
EP3588226B1 (en) Method and arrangement for generating control commands for an autonomous road vehicle
US11755014B2 (en) Jointly learnable behavior and trajectory planning for autonomous vehicles
Sukthankar Situation awareness for tactical driving
Yu et al. A path planning and navigation control system design for driverless electric bus
Wang et al. Autonomous ramp merge maneuver based on reinforcement learning with continuous action space
Emuna et al. Deep reinforcement learning for human-like driving policies in collision avoidance tasks of self-driving cars
Fehér et al. Hierarchical evasive path planning using reinforcement learning and model predictive control
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Huang et al. Ontology-based driving scene modeling, situation assessment and decision making for autonomous vehicles
Wang et al. Haptic assistive control with learning-based driver intent recognition for semi-autonomous vehicles
Zhang et al. An autonomous overtaking maneuver based on relative position information
CN112835362B (zh) 一种自动变道规划方法及装置、电子设备和存储介质
Lodhi et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
Chen et al. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning
Cai et al. Rule‐constrained reinforcement learning control for autonomous vehicle left turn at unsignalized intersection
Oudainia et al. Personalized decision making and lateral path planning for intelligent vehicles in lane change scenarios
Milanés et al. An approach to driverless vehicles in highways
Yuan et al. From Naturalistic Traffic Data to Learning-Based Driving Policy: A Sim-to-Real Study
Rudigier et al. Development, verification and KPI analysis of infrastructure-assisted trajectory planners
Madhavan et al. Intelligent vehicle systems: a 4D/RCS Approach
Gutiérrez-Moreno et al. Hybrid decision making for autonomous driving in complex urban scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant