CN109318897A - 基于自动推理机制的接管巡航方法及系统 - Google Patents
基于自动推理机制的接管巡航方法及系统 Download PDFInfo
- Publication number
- CN109318897A CN109318897A CN201811168888.4A CN201811168888A CN109318897A CN 109318897 A CN109318897 A CN 109318897A CN 201811168888 A CN201811168888 A CN 201811168888A CN 109318897 A CN109318897 A CN 109318897A
- Authority
- CN
- China
- Prior art keywords
- driving
- arbiter
- expert
- strategy
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims description 52
- 230000013016 learning Effects 0.000 claims description 21
- 230000004069 differentiation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000008571 general function Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/182—Selecting between different operative modes, e.g. comfort and performance modes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于自动推理机制的接管巡航系统,该系统主要用于自动驾驶中,能够根据给定离线样本生成基于隐变量的多模态的驾驶策略网络,以实现通用自动驾驶功能。同时,该系统还可以在用户采用手动驾驶时根据手动驾驶的风格来自动生成与之相匹配的自动驾驶策略,以实现在公路上从手动驾驶模式到自动驾驶模式之间的平滑转换,使得自动驾驶能够完美的模拟手动驾驶的驾驶风格。本发明包括:判别器模块,驾驶策略生成模块,驾驶风格自动推理模块。该模型是在给定的真实专家示范上进行训练的,具有可靠性。同时,在用户手动驾驶的过程中,模型会根据手动驾驶轨迹进行实时的调整,以增强其灵活性。
Description
技术领域
本发明涉及自动驾驶技术领域,特别是涉及基于自动推理机制的接管巡航方法及系统。
背景技术
目前来说,自动驾驶包含有三个问题:第一个是我在哪里?第二个是我要去哪里?第三个是怎么去?真正的自动驾驶需要完美的解决这三个问题。第一个与第二个问题指的是定位以及路径规划问题,在现实中,驾驶的路况通常会非常的复杂,所以我们需要厘米级的定位以及合理的路线选择。第三个问题指的是车辆在面对当前环境时所执行的行为策略,即为自动驾驶策略问题,主要执行的操作包括线控制动、转向以及油门,即根据自动驾驶策略来操控车辆。本发明专利所要解决的即为第三个问题。
在目前的无人驾驶领域中,常用的决策模型为POMDP(Partially ObservableMarkov Decision Process,部分可观察马尔可夫决策过程)。POMDP将驾驶过程看作是一个决策过程,将驾驶过程中可能出现的情况视为一个状态,即驾驶环境状态。在驾驶过程中,我们假设驾驶环境状态是无法完全获取的,即状态是部分可观察的。在每个状态下,我们需要对其后可能出现的状态进行奖赏设定,并通过特定的动作选择策略来选择一个动作,再使用值更新或策略更新等强化学习方法来寻找一个能够获取最大累积奖赏的驾驶策略。然而在实际情况中,针对复杂的驾驶环境设计一个具体的奖赏函数是非常困难的,这就导致我们很难使用强化学习方法来学习自动驾驶策略。
模仿学习方法是一种不需要奖赏函数的学习方法,并且相对于奖赏函数来说,模仿学习所需要的专家示范更加容易获得,于是就有人提出了使用模仿学习方法从专家的示范中去学习自动驾驶策略,而生成对抗模仿学习就是其中一种最具代表性的方法。生成对抗模仿学习描述的是一个判别器与一个生成器之间互相博弈改进的过程,生成器的目的是尽可能地生成与给定专家样本相似的生成样本,使得判别器无法正确的区分生成样本与专家样本,而判别器则是想要尽可能地区分生成样本与专家样本,并且根据判别结果,生成器与判别器会采取不同的方法进行参数更新。经过不断地博弈改进,二者最终达到纳什均衡,此时生成器所产生的样本能够以假乱真,判别器无法对样本进行正确的区分。二者博弈过程如下:
其中D为判别器,πE为用于生成专家样本的专家策略,πθ为生成器即目标策略。本发明专利适用于部分可观察的自动驾驶环境,而在部分可观察的环境中,驾驶环境状态s无法完全获取的。
发明内容
基于此,有必要针对上述技术问题,提供一种基于自动推理机制的接管巡航方法及系统,解决了驾驶风格单一,手动驾驶模式到自动驾驶模式的切换比较生硬的问题,提升了用户体验。该方法具有驾驶风格丰富,可靠性高,驾驶模式切换流畅等优点,在自动驾驶领域具有广泛的应用场景。
一种基于自动推理机制的接管巡航方法,包括:
输入专家驾驶示范轨迹{τi}i,然后从中随机抽取轨迹τj,使用编码器对其进行编码,得到该轨迹对应的隐变量其中,编码器使用了一个双向LSTM;
将隐变量zj输入到解码器即自动驾驶策略πθ(·|zj)中,输出轨迹即策略生成驾驶轨迹;
将专家驾驶示范轨迹与策略生成驾驶轨迹输入到判别器D中,判别器为一个二分类的神经网络,由1个输入层,2个隐藏层,1个输出层构成,其中输入为来自专家或生成策略的轨迹,即观察动作对(oj,aj);自动驾驶策略πθ将判别器D的输出作为近似奖赏,即并使用ACKTR方法更新策略网络参数,其中为轨迹τj中的一个观察动作对;
根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
重复上述步骤直至判别器无法区分专家驾驶轨迹与策略生成轨迹,此时驾驶策略生成器能够成功的模仿专家驾驶策略;
当用户开始使用本自动接管巡航系统时,如果一开始就选用自动驾驶模式,那么驾驶策略生成模型会使用默认的隐变量作为输入,生成一个默认风格的自动驾驶策略;
如果用户选择手动驾驶一段,然后在切换到自动驾驶模式,那么系统会从用户的手动驾驶轨迹中推断其驾驶风格,即并将其作为隐变量输入到策略生成模型πθ中,从而得到一个具有用户驾驶风格的自动驾驶策略;
从手动驾驶模式切换到自动驾驶模式时,其初始动作为a~πθ(·|o,z′),其中,z′为自动推理模型推理得到的驾驶风格;o为处于手动驾驶模式时最后采取的驾驶行为所导致的观察。
在另外的一个实施例中,所述双向LSTM有1个输入层,2个隐藏层和1个输出层;输出的隐变量即为第二个隐藏层的所有输出值的平均值。
在另外的一个实施例中,“将隐变量zj输入到解码器即自动驾驶策略πθ(·|zj)中,输出轨迹即策略生成驾驶轨迹;”中,解码器为一个多层感知器(MLP),它由1个输入层,2个隐藏层,1个输出层构成;输出的轨迹由观察动作对(oj,aj)构成。
在另外的一个实施例中,“将专家驾驶示范轨迹与策略生成驾驶轨迹输入到判别器D中,判别器为一个二分类的神经网络,由1个输入层,2个隐藏层,1个输出层构成,其中输入为来自专家或生成策略的轨迹,即观察动作对(oj,aj);自动驾驶策略πθ将判别器D的输出作为近似奖赏,即并使用ACKTR方法更新策略网络参数,其中为轨迹τj中的一个观察动作对;”中,更新目标为最大化策略的累积奖赏,即最大化判别器将策略生成轨迹判别为专家驾驶示范轨迹的概率使之尽可能的产生与专家示范轨迹相似的驾驶轨迹。
在另外的一个实施例中,“根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
中,其中,使用Wasserstein距离作为衡量专家驾驶轨迹与策略生成轨迹之间差异的标准,并将Dψ定义为一个1-Lipschitz函数,更新方式为ψ=ψ+α·RMSProp(ψ,gψ),其中,α为学习率,在本模型中,所有网络的学习率均设置为4×10-3。
在另外的一个实施例中,“根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
中,当梯度超出一个阈值时,需要对其进行梯度裁剪,将过大的梯度投影到一个较小的尺度上,使其不会超过阈值,即θ即为阈值。
一种基于自动推理机制的接管巡航系统,包括:
驾驶环境观察模块,用于接收车辆感知模块所获取的实时驾驶环境,并由感知模块进行过滤以及预处理,输出变分自动编码器模块与判别器模块所需要的环境观察;
离线专家驾驶轨迹数据模块,用于多模态的自动驾驶策略的训练,包含有来自于多个不同专家的驾驶轨迹数据;
判别器模块,用于变分自动编码器的训练;判别器的目的是尽可能区分生成器所产生的生成样本与专家策略所产生的专家样本;对于输入的每一个样本,判别器都会返回一个将其判别为真的概率,将这种反馈信息近似为给予样本的奖赏,所以判别器需要尽可能的给予专家样本较大的奖赏,并反馈给生成样本一个较小的奖赏;而生成器的目的是尽可能的产生能够以假乱真地生成样本,使得判别器无法将其与专家样本区分开来,即尽可能的最大化判别器给予生成样本的奖赏,并根据该奖赏使用强化学习方法(ACKTR)更新其网络参数;在经过不断地迭代博弈之后,判别器与生成器最终会达到纳什均衡,表现为判别器将每一个生成样本或是专家样本判别为真的概率都为1/2,即无法再区分生成样本与专家样本;所述生成器为变分自动编码器;
变分自动编码器模块,用于驾驶风格自动推理与驾驶策略生成,由一个编码器与一个解码器组成;编码器的作用是对驾驶轨迹进行编码,从而得到一个关于驾驶风格的隐变量;解码器的作用是根据输入的隐变量生成相应的驾驶策略,解码器可以进一步的细分为观察解码器与动作解码器,其输入均为隐变量z以及前一时刻的观察o;
其中,所述判别器模块的输入是生成驾驶轨迹的一个观察动作对(o,a)和专家驾驶轨迹的一个观察动作对(oE,aE)以及隐变量z,然后一起输入到判别器中对其进行判别;所述判别器会使用Wasserstein距离作为衡量二者差异性的标准,并给予每个样本一个反馈信息作为其奖赏;
所述变分自动编码器模块的输入是专家驾驶轨迹τE或者用户自身手动驾驶轨迹τ;编码器首先将输入的轨迹进行编码输出得到代表该轨迹风格的隐变量z,并将该隐变量作为解码器即策略生成网络πθ的输入,最终输出一个具有特定驾驶风格的自动驾驶策略πθ(·|z);
专家驾驶轨迹τE是从离线专家驾驶轨迹集中随机抽样得到的,用户自身手动驾驶轨迹τ为切换到自动驾驶模式前的用户手动驾驶轨迹,该自动巡航接管系统能够从中提取出用户的手动驾驶风格,并将其应用到自动驾驶模式中。
上述基于自动推理机制的接管巡航方法及系统,能够根据给定的离线专家样本进行模仿学习,从中学习到专家的驾驶策略,而不需要根据大量的环境交互进行训练,去除了对于试错学习的依赖,大大降低了学习成本;能够从具有多样性的专家驾驶轨迹中进行模仿学习,并进而获得一个具有多模态的驾驶策略生成器,能够根据不同的隐变量输入产生具有不同风格的驾驶策略,极具多样性;能够实现从手动驾驶模式到自动驾驶模式的平滑切换,使得自动驾驶模式具有与手动驾驶模式相同的驾驶风格,包括但不限于激进的,消极的,快速的,节能的等;不仅仅能够从给定专家示范轨迹中模仿学习,还能够从用户个人驾驶轨迹中进行学习,从而能够不断的调整改进驾驶策略,增强了系统的灵活性与可靠性;对于判别器参数、策略网即解码器参数、自动推理模型即编码器参数分别采用了不同的梯度更新方法,具有极高的计算效率与样本效率。综上所述,此发明具有非常大的使用价值和实际意义。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
图1为本发明基于自动推理机制的接管巡航系统的实施例框架图。
图2为本发明基于自动推理机制的接管巡航系统的驾驶模式切换流程图。
图3为本发明基于自动推理机制的接管巡航系统模型训练结构图。
图4为本发明基于自动推理机制的接管巡航系统自动推理模块即编码器结构图。
图5为本发明基于自动推理机制的接管巡航系统策略生成模块即解码器结构图。
图6为本发明基于自动推理机制的接管巡航系统判别器模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
S1、输入专家驾驶示范轨迹{τi}i,然后从中随机抽取轨迹τj,使用编码器对其进行编码,得到该轨迹对应的隐变量其中,编码器使用了一个双向LSTM(LongShort-Term Memory,长短时记忆),它有1个输入层,2个隐藏层和1个输出层,其网络结构如图4所示。输出的隐变量即为第二个隐藏层的所有输出值的平均值。
S2、将隐变量zj输入到解码器即自动驾驶策略πθ(·|zj)中,输出轨迹即策略生成驾驶轨迹。其中,解码器为一个多层感知器(MLP),它由1个输入层,2个隐藏层,1个输出层构成,其网络结构如图5所示,输出的轨迹由观察动作对(oj,aj)构成。
S3、将专家驾驶示范轨迹与策略生成驾驶轨迹输入到判别器D中,判别器为一个二分类的神经网络,由1个输入层,2个隐藏层,1个输出层构成,如图6所示,其中输入为来自专家或生成策略的轨迹,即观察动作对(oj,aj)。自动驾驶策略πθ将判别器D的输出作为近似奖赏,即并使用ACKTR方法更新策略网络参数,其中为轨迹τj中的一个观察动作对。更新目标为最大化策略的累积奖赏,即最大化判别器将策略生成轨迹判别为专家驾驶示范轨迹的概率使之尽可能的产生与专家示范轨迹相似的驾驶轨迹。
S4、根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
其中,我们使用Wasserstein距离作为衡量专家驾驶轨迹与策略生成轨迹之间差异的标准,并将Dψ定义为一个1-Lipschitz函数,更新方式为ψ=ψ+α·RMSProp(ψ,gψ),其中,α为学习率,在本模型中,所有网络的学习率均设置为4×10-3。同时,为了防止梯度爆炸,当梯度超出一个阈值时,我们需要对其进行梯度裁剪,将过大的梯度投影到一个较小的尺度上,使其不会超过阈值,即θ即为阈值。
S5、重复上述步骤直至判别器无法区分专家驾驶轨迹与策略生成轨迹,此时驾驶策略生成器能够成功的模仿专家驾驶策略。
S6、当用户开始使用本自动接管巡航系统时,如果一开始就选用自动驾驶模式,那么驾驶策略生成模型会使用默认的隐变量作为输入,生成一个默认风格的自动驾驶策略。
S7、如果用户选择手动驾驶一段,然后在切换到自动驾驶模式,那么系统会从用户的手动驾驶轨迹中推断其驾驶风格,即并将其作为隐变量输入到策略生成模型πθ中,从而得到一个具有用户驾驶风格的自动驾驶策略,实现从自动驾驶模式到手动驾驶模式的平缓转换。
S8、从手动驾驶模式切换到自动驾驶模式时,其初始动作为a~πθ(·|o,z′),其中,z′为自动推理模型推理得到的驾驶风格。o为处于手动驾驶模式时最后采取的驾驶行为所导致的观察。
下面是本实施例的具体结构,包括:驾驶环境观察、离线专家驾驶轨迹数据、判别器模块、变分自动编码器模块。
驾驶环境观察,用于接收车辆感知模块所获取的实时驾驶环境,并由感知模块进行过滤以及预处理,输出变分自动编码器模块与判别器模块所需要的环境观察。
离线专家驾驶轨迹数据,用于多模态的自动驾驶策略的训练,包含有来自于多个不同专家的驾驶轨迹数据,由于各个专家的个人习惯与其主观意识的不同,使得离线专家驾驶轨迹数据具有着多样性,而本发明专利能够从这些具有多样性的驾驶数据中学习到多模态的驾驶策略,即学习到的驾驶策略能够具有多种不同的风格。
判别器模块,主要用于变分自动编码器的训练。在生成对抗模仿学习中,判别器与生成器之间是一种零和博弈关系。判别器的目的是尽可能区分生成器所产生的生成样本与专家策略所产生的专家样本。对于输入的每一个样本,判别器都会返回一个将其判别为真的概率,我们将这种反馈信息近似为给予样本的奖赏,所以判别器需要尽可能的给予专家样本较大的奖赏,并反馈给生成样本一个较小的奖赏。而生成器的目的是尽可能的产生能够以假乱真地生成样本,使得判别器无法将其与专家样本区分开来,即尽可能的最大化判别器给予生成样本的奖赏,并根据该奖赏使用强化学习方法(ACKTR)更新其网络参数。在经过不断地迭代博弈之后,判别器与生成器最终会达到纳什均衡,表现为判别器将每一个生成样本或是专家样本判别为真的概率都为1/2,即无法再区分生成样本与专家样本。在本发明专利中,生成器为变分自动编码器。
变分自动编码器模块,主要用于驾驶风格自动推理与驾驶策略生成,由一个编码器与一个解码器组成。编码器的主要作用是对驾驶轨迹进行编码,从而得到一个关于驾驶风格的隐变量。解码器的主要作用是根据输入的隐变量生成相应的驾驶策略,解码器可以进一步的细分为观察解码器与动作解码器,其输入均为隐变量z以及前一时刻的观察o。
所述判别器模块的输入是生成驾驶轨迹的一个观察动作对(o,a)和专家驾驶轨迹的一个观察动作对(oE,aE)以及隐变量z,然后一起输入到判别器中对其进行判别。所述判别器会使用Wasserstein距离作为衡量二者差异性的标准,并给予每个样本一个反馈信息作为其奖赏。
所述变分自动编码器模块的输入是专家驾驶轨迹τE或者用户自身手动驾驶轨迹τ。编码器首先将输入的轨迹进行编码输出得到代表该轨迹风格的隐变量z,并将该隐变量作为解码器即策略生成网络πθ的输入,最终输出一个具有特定驾驶风格的自动驾驶策略πθ(·|z)。
其中,专家驾驶轨迹τE是从离线专家驾驶轨迹集中随机抽样得到的,用户自身手动驾驶轨迹τ为切换到自动驾驶模式前的用户手动驾驶轨迹,该自动巡航接管系统能够从中提取出用户的手动驾驶风格,并将其应用到自动驾驶模式中。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于自动推理机制的接管巡航方法,其特征在于,包括:
输入专家驾驶示范轨迹{τi}i,然后从中随机抽取轨迹τj,使用编码器对其进行编码,得到该轨迹对应的隐变量其中,编码器使用了一个双向LSTM;
将隐变量zj输入到解码器即自动驾驶策略πθ(·|zj)中,输出轨迹即策略生成驾驶轨迹;
将专家驾驶示范轨迹与策略生成驾驶轨迹输入到判别器D中,判别器为一个二分类的神经网络,由1个输入层,2个隐藏层,1个输出层构成,其中输入为来自专家或生成策略的轨迹,即观察动作对(oj,aj);自动驾驶策略πθ将判别器D的输出作为近似奖赏,即并使用ACKTR方法更新策略网络参数,其中为轨迹τj中的一个观察动作对;
根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
重复上述步骤直至判别器无法区分专家驾驶轨迹与策略生成轨迹,此时驾驶策略生成器能够成功的模仿专家驾驶策略;
当用户开始使用本自动接管巡航系统时,如果一开始就选用自动驾驶模式,那么驾驶策略生成模型会使用默认的隐变量作为输入,生成一个默认风格的自动驾驶策略;
如果用户选择手动驾驶一段,然后在切换到自动驾驶模式,那么系统会从用户的手动驾驶轨迹中推断其驾驶风格,即并将其作为隐变量输入到策略生成模型πθ中,从而得到一个具有用户驾驶风格的自动驾驶策略;
从手动驾驶模式切换到自动驾驶模式时,其初始动作为a~πθ(·|o,z′),其中,z′为自动推理模型推理得到的驾驶风格;o为处于手动驾驶模式时最后采取的驾驶行为所导致的观察。
2.根据权利要求1所述的基于自动推理机制的接管巡航方法,其特征在于,所述双向LSTM有1个输入层,2个隐藏层和1个输出层;输出的隐变量即为第二个隐藏层的所有输出值的平均值。
3.根据权利要求1所述的基于自动推理机制的接管巡航方法,其特征在于,“将隐变量zj输入到解码器即自动驾驶策略πθ(·|zj)中,输出轨迹即策略生成驾驶轨迹;”中,解码器为一个多层感知器(MLP),它由1个输入层,2个隐藏层,1个输出层构成;输出的轨迹由观察动作对(oj,aj)构成。
4.根据权利要求1所述的基于自动推理机制的接管巡航方法,其特征在于,“将专家驾驶示范轨迹与策略生成驾驶轨迹输入到判别器D中,判别器为一个二分类的神经网络,由1个输入层,2个隐藏层,1个输出层构成,其中输入为来自专家或生成策略的轨迹,即观察动作对(oj,aj);自动驾驶策略πθ将判别器D的输出作为近似奖赏,即并使用ACKTR方法更新策略网络参数,其中为轨迹τj中的一个观察动作对;”中,更新目标为最大化策略的累积奖赏,即最大化判别器将策略生成轨迹判别为专家驾驶示范轨迹的概率使之尽可能的产生与专家示范轨迹相似的驾驶轨迹。
5.根据权利要求1所述的基于自动推理机制的接管巡航方法,其特征在于,“根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
中,其中,使用Wasserstein距离作为衡量专家驾驶轨迹与策略生成轨迹之间差异的标准,并将Dψ定义为一个1-Lipschitz函数,更新方式为ψ=ψ+α·RMSProp(ψ,gψ),其中,α为学习率,在本模型中,所有网络的学习率均设置为4×10-3。
6.根据权利要求1所述的基于自动推理机制的接管巡航方法,其特征在于,“根据判别结果使用策略梯度方法更新判别器参数ψi,梯度为:
中,当梯度超出一个阈值时,需要对其进行梯度裁剪,将过大的梯度投影到一个较小的尺度上,使其不会超过阈值,即θ即为阈值。
7.一种基于自动推理机制的接管巡航方法,其特征在于,包括:
驾驶环境观察模块,用于接收车辆感知模块所获取的实时驾驶环境,并由感知模块进行过滤以及预处理,输出变分自动编码器模块与判别器模块所需要的环境观察;
离线专家驾驶轨迹数据模块,用于多模态的自动驾驶策略的训练,包含有来自于多个不同专家的驾驶轨迹数据;
判别器模块,用于变分自动编码器的训练;判别器的目的是尽可能区分生成器所产生的生成样本与专家策略所产生的专家样本;对于输入的每一个样本,判别器都会返回一个将其判别为真的概率,将这种反馈信息近似为给予样本的奖赏,所以判别器需要尽可能的给予专家样本较大的奖赏,并反馈给生成样本一个较小的奖赏;而生成器的目的是尽可能的产生能够以假乱真地生成样本,使得判别器无法将其与专家样本区分开来,即尽可能的最大化判别器给予生成样本的奖赏,并根据该奖赏使用强化学习方法(ACKTR)更新其网络参数;在经过不断地迭代博弈之后,判别器与生成器最终会达到纳什均衡,表现为判别器将每一个生成样本或是专家样本判别为真的概率都为1/2,即无法再区分生成样本与专家样本;所述生成器为变分自动编码器;
变分自动编码器模块,用于驾驶风格自动推理与驾驶策略生成,由一个编码器与一个解码器组成;编码器的作用是对驾驶轨迹进行编码,从而得到一个关于驾驶风格的隐变量;解码器的作用是根据输入的隐变量生成相应的驾驶策略,解码器可以进一步的细分为观察解码器与动作解码器,其输入均为隐变量z以及前一时刻的观察o;
其中,所述判别器模块的输入是生成驾驶轨迹的一个观察动作对(o,a)和专家驾驶轨迹的一个观察动作对(oE,aE)以及隐变量z,然后一起输入到判别器中对其进行判别;所述判别器会使用Wasserstein距离作为衡量二者差异性的标准,并给予每个样本一个反馈信息作为其奖赏;
所述变分自动编码器模块的输入是专家驾驶轨迹τE或者用户自身手动驾驶轨迹τ;编码器首先将输入的轨迹进行编码输出得到代表该轨迹风格的隐变量z,并将该隐变量作为解码器即策略生成网络πθ的输入,最终输出一个具有特定驾驶风格的自动驾驶策略πθ(·|z);
专家驾驶轨迹τE是从离线专家驾驶轨迹集中随机抽样得到的,用户自身手动驾驶轨迹τ为切换到自动驾驶模式前的用户手动驾驶轨迹,该自动巡航接管系统能够从中提取出用户的手动驾驶风格,并将其应用到自动驾驶模式中。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811168888.4A CN109318897B (zh) | 2018-10-08 | 2018-10-08 | 基于自动推理机制的接管巡航方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811168888.4A CN109318897B (zh) | 2018-10-08 | 2018-10-08 | 基于自动推理机制的接管巡航方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109318897A true CN109318897A (zh) | 2019-02-12 |
CN109318897B CN109318897B (zh) | 2020-12-01 |
Family
ID=65261661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811168888.4A Active CN109318897B (zh) | 2018-10-08 | 2018-10-08 | 基于自动推理机制的接管巡航方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109318897B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837258A (zh) * | 2019-11-29 | 2020-02-25 | 商汤集团有限公司 | 自动驾驶控制方法及装置、系统、电子设备和存储介质 |
CN111016893A (zh) * | 2019-12-13 | 2020-04-17 | 江苏大学 | 一种拥堵环境下智能车辆可拓博弈车道保持自适应巡航控制系统与控制方法 |
CN111310915A (zh) * | 2020-01-21 | 2020-06-19 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
EP3705367A1 (en) * | 2019-03-05 | 2020-09-09 | Bayerische Motoren Werke Aktiengesellschaft | Training a generator unit and a discriminator unit for collision-aware trajectory prediction |
CN118560530A (zh) * | 2024-08-02 | 2024-08-30 | 杭州电子科技大学 | 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107380160A (zh) * | 2017-08-30 | 2017-11-24 | 重庆凯泽科技股份有限公司 | 一种汽车自动控制系统及控制方法 |
CN107415704A (zh) * | 2017-07-31 | 2017-12-01 | 北京新能源汽车股份有限公司 | 复合制动方法、装置和自适应巡航控制器 |
CN107862864A (zh) * | 2017-10-18 | 2018-03-30 | 南京航空航天大学 | 基于驾驶习惯和交通路况的行驶工况智能预测估计方法 |
US20180134296A1 (en) * | 2016-11-16 | 2018-05-17 | Hyundai Motor Company | Auto cruise control method for hybrid electric vehicles |
-
2018
- 2018-10-08 CN CN201811168888.4A patent/CN109318897B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180134296A1 (en) * | 2016-11-16 | 2018-05-17 | Hyundai Motor Company | Auto cruise control method for hybrid electric vehicles |
CN107415704A (zh) * | 2017-07-31 | 2017-12-01 | 北京新能源汽车股份有限公司 | 复合制动方法、装置和自适应巡航控制器 |
CN107380160A (zh) * | 2017-08-30 | 2017-11-24 | 重庆凯泽科技股份有限公司 | 一种汽车自动控制系统及控制方法 |
CN107862864A (zh) * | 2017-10-18 | 2018-03-30 | 南京航空航天大学 | 基于驾驶习惯和交通路况的行驶工况智能预测估计方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3705367A1 (en) * | 2019-03-05 | 2020-09-09 | Bayerische Motoren Werke Aktiengesellschaft | Training a generator unit and a discriminator unit for collision-aware trajectory prediction |
CN111661045A (zh) * | 2019-03-05 | 2020-09-15 | 宝马股份公司 | 训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元 |
US11364934B2 (en) | 2019-03-05 | 2022-06-21 | Bayerische Motoren Werke Aktiengesellschaft | Training a generator unit and a discriminator unit for collision-aware trajectory prediction |
CN111661045B (zh) * | 2019-03-05 | 2024-06-07 | 宝马股份公司 | 训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元 |
CN110837258A (zh) * | 2019-11-29 | 2020-02-25 | 商汤集团有限公司 | 自动驾驶控制方法及装置、系统、电子设备和存储介质 |
CN110837258B (zh) * | 2019-11-29 | 2024-03-08 | 商汤集团有限公司 | 自动驾驶控制方法及装置、系统、电子设备和存储介质 |
CN111016893A (zh) * | 2019-12-13 | 2020-04-17 | 江苏大学 | 一种拥堵环境下智能车辆可拓博弈车道保持自适应巡航控制系统与控制方法 |
CN111016893B (zh) * | 2019-12-13 | 2021-08-03 | 江苏大学 | 一种拥堵环境下智能车辆可拓博弈车道保持自适应巡航控制系统与控制方法 |
CN111310915A (zh) * | 2020-01-21 | 2020-06-19 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
CN111310915B (zh) * | 2020-01-21 | 2023-09-01 | 浙江工业大学 | 一种面向强化学习的数据异常检测防御方法 |
CN118560530A (zh) * | 2024-08-02 | 2024-08-30 | 杭州电子科技大学 | 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法 |
CN118560530B (zh) * | 2024-08-02 | 2024-10-01 | 杭州电子科技大学 | 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109318897B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109318897A (zh) | 基于自动推理机制的接管巡航方法及系统 | |
Wang et al. | Parallel driving in CPSS: A unified approach for transport automation and vehicle intelligence | |
CN109733415A (zh) | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 | |
Cardamone et al. | Learning drivers for TORCS through imitation using supervised methods | |
US8694449B2 (en) | Neuromorphic spatiotemporal where-what machines | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
Dollé et al. | Path planning versus cue responding: a bio-inspired model of switching between navigation strategies | |
CN110745136A (zh) | 一种驾驶自适应控制方法 | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
Rombouts et al. | Neurally plausible reinforcement learning of working memory tasks | |
CN109726804A (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
Kuefler et al. | Burn-in demonstrations for multi-modal imitation learning | |
CN113901718A (zh) | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 | |
Cichosz et al. | Imitation learning of car driving skills with decision trees and random forests | |
CN113200086A (zh) | 一种智能车转向控制系统及其控制方法 | |
Baffa et al. | Dealing with the emotions of non player characters | |
CN114355897B (zh) | 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 | |
CN113743603A (zh) | 控制方法、装置、存储介质及电子设备 | |
CN114954498A (zh) | 基于模仿学习初始化的强化学习换道行为规划方法及系统 | |
Peng et al. | GCMA: An Adaptive Multi-Agent Reinforcement Learning Framework With Group Communication for Complex and Similar Tasks Coordination | |
Burch | A survey of machine learning | |
Youssef et al. | Optimal Combination of Imitation and Reinforcement Learning for Self-driving Cars. | |
Zhang et al. | Stm-gail: Spatial-Temporal meta-gail for learning diverse human driving strategies | |
CN118560530B (zh) | 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法 | |
De Penning et al. | Applying neural-symbolic cognitive agents in intelligent transport systems to reduce CO 2 emissions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210108 Address after: 210034 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province Patentee after: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd. Address before: 215000 8 Ji Xue Road, Xiangcheng District, Suzhou, Jiangsu. Patentee before: Suzhou University |
|
TR01 | Transfer of patent right |