CN111483468B - 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 - Google Patents

基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 Download PDF

Info

Publication number
CN111483468B
CN111483468B CN202010331216.1A CN202010331216A CN111483468B CN 111483468 B CN111483468 B CN 111483468B CN 202010331216 A CN202010331216 A CN 202010331216A CN 111483468 B CN111483468 B CN 111483468B
Authority
CN
China
Prior art keywords
vehicle
lane
unmanned vehicle
lane change
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010331216.1A
Other languages
English (en)
Other versions
CN111483468A (zh
Inventor
綦科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010331216.1A priority Critical patent/CN111483468B/zh
Publication of CN111483468A publication Critical patent/CN111483468A/zh
Priority to JP2021541153A priority patent/JP7287707B2/ja
Priority to PCT/CN2020/115750 priority patent/WO2021212728A1/zh
Application granted granted Critical
Publication of CN111483468B publication Critical patent/CN111483468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • B60W30/12Lane keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了基于对抗模仿学习的无人驾驶车辆换道决策方法和系统,首先基于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;然后将采用采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。本发明通过对抗模仿学习从专业驾驶示教提供的范例中学习换道策略,无需人为设计任务奖励函数,可以直接建立从车辆状态到车辆换道决策的直接映射,有效提高了无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。

Description

基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
技术领域
本发明属于无人自主驾驶车辆技术领域,特别涉及一种基于对抗模仿学习的无人驾驶车辆换道决策方法和系统。
背景技术
无人驾驶的发展有助于提升道路交通智能化水平、推动交通运输行业的转型升级。无人驾驶车辆是硬件和软件的结合体,硬件包括各种类型的传感器、控制器,软件则是集环境感知、行为决策、运动规划与自主控制模块于一体的综合系统。
换道决策是无人驾驶车辆决策技术的重要组成模块,是后续动作规划模块执行的依据。目前,现有技术包括公开的专利,主要采用的无人驾驶车辆换道决策方法包括:基于规则的决策、基于动态规划的决策、基于模糊控制的决策等传统方法。然而车辆行驶环境是一种复杂多变的高动态交通环境,很难建立精确的数学模型进行决策方法的设计,传统换道决策方法的鲁棒性和自适应性已无法完全满足无人驾驶换道决策的要求。
近年来,人工智能在无人驾驶领域的应用得到飞速发展,采用人工智能的手段来解决无人驾驶车辆换道决策问题成为一种可行方案。端到端的有监督学习和深度强化学习是两种较为普遍的方法。端到端的有监督学习和深度强化学习都可以训练一个神经网络模型直接映射感知数据到换道决策输出,然而,端到端的有监督学习通常需要大量的训练数据且模型泛化能力较弱,深度强化学习需要人为设计满足任务需求的奖励函数。
综合考虑当前无人驾驶技术的瓶颈以及换道决策技术的不足,需要设计一种新的无人驾驶车辆换道决策方法。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于对抗模仿学习的无人驾驶车辆换道决策方法,该方法能够从专业驾驶示教提供的范例中学习,无需人为设计任务奖励函数,可以直接建立从车辆状态到车辆换道决策的直接映射,能够有效提高无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。
本发明的第二目的在于提供一种无人驾驶车辆换道决策系统。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于对抗模仿学习的无人驾驶车辆换道决策方法,包括:
步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
步骤S3、车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。
优选的,步骤S1中,将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程,具体如下:
步骤S11、确定状态Ot空间:包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb];
其中:
l为车辆自车所在车道,v0为车辆自车行驶速度;
sf、vf分别对应为自车行车道前方最近车辆到自车的距离和到自车的相对速度;
sb、vb分别对应为自车车道后方最近车辆到自车的距离和到自车的相对速度;
slf、vlf分别对应为自车的左车道前方最近车辆到自车的距离和到自车的相对速度;
slb、vlb分别对应为自车的左车道后方最近车辆到自车的距离和到自车的相对速度;
srf、vrf分别对应为自车的右车道前方最近车辆到自车的距离和到自车的相对速度;
srb、vrb分别对应为自车的右车道后方最近车辆到自车的距离和到自车的相对速度;
步骤S12、确定动作At空间:包括车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速以及车辆车道保持且减速。
更进一步的,针对于车辆自车:
当检测不到其行车道前方的车辆时,将sf、vf分别对应置为固定值;
当检测不到其行车道后方的车辆时,将sb、vb分别对应置为固定值;
当检测不到其左车道前方的车辆时,将slf、vlf分别对应置为固定值;
当检测不到其左车道后方的车辆时,将slb、vlb分别对应置为固定值;
当检测不到其右车道前方的车辆时,将srf、vrf分别对应置为固定值;
当检测不到其右车道后方的车辆时,将srb、vrb分别对应置为固定值。
更进一步的,步骤S2中,采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练的具体过程如下:
步骤S21、对专业驾驶员的车辆驾驶行为进行数据采集,包括采集专业驾驶员驾驶的状态数据和动作数据;
步骤S22、将采集的车辆状态数据和动作数据对抽取出来,构成数据集合τ={τ123,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)},定义τ为对抗模仿学习的专家轨迹,τ1至τN分别表示第1至N个数据对,O1至ON分别表示采集的第1至N个状态数据,A1至AN分别表示采集的第1至N个动作数据;
其中N为训练数据集合中数据对的总数,对应为采样次数;
步骤S23、以数据集合τ为输入,采用对抗模仿学习方法训练,模仿专业驾驶员的驾驶行为,获得无人驾驶车辆换道决策模型。
更进一步的,步骤S23中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现,具体过程如下:
步骤S231、初始化:
设置最大训练轮次T、训练步长α和采样次数N;
对无人驾驶车辆代理策略πθ进行初始化,将无人驾驶车辆代理策略πθ的权重参数初始化为θ0
初始化对抗网络判别器Dφ的权重参数,其中,φ0为对抗网络判别器Dφ的初始化权重参数;
获取无人驾驶车辆当前状态向量O和当前动作向量A;
步骤S232、对每一训练轮次t,0≤t≤T,执行步骤S233至步骤S239;
步骤S233、随机采样,生成N个均值为0且方差为ν的高斯向量δt={δ12,...,δN},其中δ1至δN为第1至N个高斯向量,δt为N个高斯向量组合后的向量;
步骤S234、计算当前训练轮次t时,无人驾驶车辆代理策略πθ的权重参数θt的均方差
Figure BDA00024650181800000411
步骤S235、计算无人驾驶车辆当前状态向量O的均值μ;
步骤S236、针对于每个k,k∈{1,2,...,N},采用方差缩减方法计算随机代理策略πt,(k)
Figure BDA00024650181800000412
δk为步骤S233中得到的第k个高斯向量;
步骤S237、以无人驾驶车辆当前状态向量O为输入,应用随机代理策略πt,(k),k=1,2,...,N,生成样本轨迹
Figure BDA0002465018180000041
其中,
Figure BDA0002465018180000042
Figure BDA0002465018180000043
分别是以O为输入,k取1到N值,通过随机代理策略πt,(k)生成的第1至N个样本轨迹,
Figure BDA0002465018180000044
Figure BDA0002465018180000045
分别对应表示第1至N个样本轨迹中的动作数据;
步骤S238、更新对抗网络判别器Dφ的权重参数φt:采用最小二乘损失函数训练更新对抗网络判别器Dφ的权重参数φt,即采用最小二乘损失函数对决策边界两侧远离专家轨迹的样本轨迹进行惩罚,损失函数为:
Figure BDA0002465018180000046
式中:πE、πθ分别对应为专家策略和无人驾驶车辆代理策略,
Figure BDA0002465018180000047
为专家策略的熵正则化,
Figure BDA0002465018180000048
为无人驾驶车辆代理策略的熵正则化;
步骤S239、更新无人驾驶车辆代理策略πθ的权重承参数θt:采用基于方差缩减策略梯度方法更新代理策略πθ的权重参数θt,得到更新后的权重参数θt+1,直到当前训练轮次t到达最大训练轮次T。
更进一步的,步骤S239中,采用基于方差缩减策略梯度方法更新代理策略πθ的参数θt的具体过程包括:
步骤S2391、对每一随机代理策略πt,(k)(k∈{1,2,...,N}),计算奖励函数:
Figure BDA0002465018180000049
式中,
Figure BDA00024650181800000410
为熵正则化;
步骤S2392、更新无人驾驶车辆代理策略πθ的参数θt
Figure BDA0002465018180000051
更进一步的,步骤S3中,通过无人驾驶车辆换道决策模型获取到无人驾驶车辆换道决策结果的具体过程为:
步骤S31、获取无人驾驶车辆当前的环境车辆信息,包括无人驾驶车辆状态数据;
步骤S32、根据无人驾驶车辆的状态数据,对无人驾驶车辆换道决策模型的输入状态赋值;
步骤S33、通过无人驾驶车辆换道决策模型获取到换道决策结果;
步骤S34、判断是否连续出现n次的决策结果均是换道,且换道方向相同,n为常量;
若否,则进入步骤S35;
若是,则进入步骤S36;
步骤S35、判断当前决策结果是否为换道;
若否,则根据当前决策结果控制无人驾驶车辆当前驾驶动作,即控制无人驾驶车辆保持当前车道行驶,并执行加速、减速或车速保持的动作;返回步骤S31;
若是,无人驾驶车辆保持当前决策结果之前的驾驶状态;返回步骤S31;
步骤S36、根据决策结果进行换道;同时在无人驾驶车辆换道过程中检测是否有紧急情况,若有,则脱离无人驾驶状态,进行人工干预;若无,则根据换道决策结果完成换道,返回步骤S31。
本发明的第二目的通过以下技术方案实现:一种无人驾驶车辆换道决策系统,包括:
任务描述模块,用于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
换道决策模型构建模块,用于采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
环境车辆信息获取模块,用于车辆在无人进行驾驶行驶过程中,获取当前的环境车辆信息;
换道决策模块,用于以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。
本发明的第三目的通过以下技术方案实现:一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。
本发明的第四目的通过以下技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明无人驾驶车辆换道决策方法,首先基于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;然后将采用采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。本发明通过对抗模仿学习从专业驾驶示教提供的范例中学习换道策略,无需人为设计任务奖励函数,可以直接建立从车辆状态到车辆换道决策的直接映射,有效提高了无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。
(2)本发明无人驾驶车辆换道决策方法中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现,能够进一步提高换道决策的正确性。另外,无人驾驶车辆换道决策模型在对无人驾驶车辆换道决策过程中,只有在连续多次获取到决策结果是换道时,才根据决策结果进行换道,因此上述操作也是更进一步保证了决策结果的正确性,保证了换道的安全性。
(3)本发明无人驾驶车辆换道决策方法中,在无人驾驶车辆根据决策结果进行换道过程中,实时检测是否有紧急情况,在有紧急情况下,脱离无人驾驶状态,进行人工干预,以保证车辆驾驶的安全性,保障车上人员的生命安全,最大程度的避免交通事故的发生。
附图说明
图1是本发明方法基于对抗模仿学习的离线训练流程图。
图2是本发明方法无人驾驶车辆换道决策流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种基于对抗模仿学习的无人驾驶车辆换道决策方法,通过方法可以使得无人驾驶车辆进行正确、安全的切换车道,该方法包括如下步骤:
步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程。
在本实施例中,将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程,具体如下:
步骤S11、确定状态Ot空间:包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb];
其中:
l为车辆自车所在车道,v0为车辆自车行驶速度;在本实施例中,车辆自车行驶速度v0可以通过车辆自车的车速传感器。
sf、vf分别对应为自车行车道前方最近车辆到自车的距离和到自车的相对速度;
sb、vb分别对应为自车车道后方最近车辆到自车的距离和到自车的相对速度;
slf、vlf分别对应为自车的左车道前方最近车辆到自车的距离和到自车的相对速度;
slb、vlb分别对应为自车的左车道后方最近车辆到自车的距离和到自车的相对速度;
srf、vrf分别对应为自车的右车道前方最近车辆到自车的距离和到自车的相对速度;
srb、vrb分别为右车道后方最近车辆到自车的距离和到自车的相对速度。
在本实施例中,其他车辆到自车的距离sf、sb、slf、slb、srf、srb,可以通过自车的图像传感器或雷达传感器采集检测到,其他车辆到自车相对速度vf、vb、vlf、vlb、vrf、vrb可以通过自车雷达传感器采集检测到。
其中,针对于车辆自车:
当检测不到其行车道前方的车辆时,将sf、vf分别对应置为固定值;
当检测不到其行车道后方的车辆时,将sb、vb分别对应置为固定值;
当检测不到其左车道前方的车辆时,将slf、vlf分别对应置为固定值;
当检测不到其左车道后方的车辆时,将slb、vlb分别对应置为固定值;
当检测不到其右车道前方的车辆时,将srf、vrf分别对应置为固定值;
当检测不到其右车道后方的车辆时,将srb、vrb分别对应置为固定值。
其中上述设置的sf、sb、slf、slb、srf、srb的固定值可以是取雷达最大感知距离,例如是300米,上述设置的vf、vb、vlf、vlb、vrf、vrb的固定值可以取智能车的期望行驶速度,例如100km/h。
上述车辆自车即指的是无人驾驶车辆自车。
步骤S12、确定动作空间At:包括第一种,车辆左转换道;第二种,车辆右转换道;第三种,车辆车道保持且车速保持;第四种,车辆车道保持且加速;第五种,车辆车道保持且减速。
步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行离线训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;如图1所示,具体过程如下:
步骤S21、对专业驾驶员的车辆驾驶行为进行数据采集,包括采集专业驾驶员驾驶的状态数据和动作数据;其中每个状态数据中包括状态空间Ot中的数据[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb],即包括专业驾驶员驾驶车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态。动作数据即对应为动作空间At中的数据,每次采集到的动作数据可以为车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速或者车辆车道保持且减速。
步骤S22、将采集的车辆状态数据和动作数据对抽取出来,构成数据集合τ={τ123,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)},定义τ为对抗模仿学习的专家轨迹,τ1至τN分别表示第1至N个数据对,O1至ON分别表示采集的第1至N个状态数据,A1至AN分别表示采集的第1至N个动作数据;其中N为训练数据集合中数据对的总数,对应为采样次数。本实施例中,采样次数N可以设置为N=105
步骤S23、以数据集合τ为输入,采用对抗模仿学习方法训练,模仿专业驾驶员的驾驶行为,获得无人驾驶车辆换道决策模型。具体过程如下:
步骤S231、初始化,包括:
1)设置最大训练轮次T、训练步长α和采样次数N;
在本实施例中,最大训练轮次T可以设置为T=2000,训练步长α可以设置为α=0.3,如步骤S22所示,采样次数N可以设置为N=105
2)采用行为克隆方法对无人驾驶车辆代理策略πθ进行初始化,其中将无人驾驶车辆代理策略πθ的权重参数初始化为θ0
3)采用Xavier方式初始化对抗网络判别器Dφ的权重参数,其中,φ0为对抗网络判别器Dφ的初始化权重参数;
3)在无人驾驶车辆行驶过程中,获取车辆环境信息,包括无人驾驶车辆当前状态向量O和当前动作向量A;
其中,无人驾驶车辆当前状态向量O中包括状态空间Ot中的数据[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb],即包括无人驾驶车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态。无人驾驶车辆当前动作向量A即对应为动作空间At中的数据,当前获取到的动作数据可以为无人驾驶车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速或者车辆车道保持且减速。
该无人驾驶车辆即对应为步骤S3中要进行换道决策的无人驾驶车辆。
步骤S232、对每一训练轮次t,0≤t≤T,执行步骤S233至步骤S239;
步骤S233、随机采样,生成N个均值为0且方差为ν的高斯向量δt={δ12,...,δN},其中δ1至δN为第1至N个高斯向量,δt为N个高斯向量组合后的向量;本实施例中,ν为常量,ν可以取0.3~0。
步骤S234、计算当前训练轮次t时,无人驾驶车辆代理策略πθ的权重参数θt的均方差
Figure BDA0002465018180000091
步骤S235、计算无人驾驶车辆当前状态向量O的均值μ;
步骤S236、针对于每个k,k∈{1,2,...,N},采用方差缩减方法计算随机代理策略πt,(k)
Figure BDA0002465018180000092
δk为步骤S233中得到的第k个高斯向量。
本步骤中,基于δk=δ12,...,δN,可以得到N个随机代理策略,即πt,(1)t,(2)t,(3),...,πt,(N)
步骤S237、以无人驾驶车辆当前状态向量O为输入,应用随机代理策略πt,(k),k=1,2,...,N,生成样本轨迹
Figure BDA0002465018180000101
本步骤中,将无人驾驶车辆当前状态向量O作为输入,分别应用N个随机代理策略πt,(1)t,(2)t,(3),...,πt,(N),对应生成样本轨迹
Figure BDA0002465018180000102
其中,
Figure BDA0002465018180000103
Figure BDA0002465018180000104
分别是以O为输入,k取1到N值,通过随机代理策略πt,(k)生成的第1至N个样本轨迹,
Figure BDA0002465018180000105
Figure BDA0002465018180000106
分别对应表示第1至N个样本轨迹中的动作数据;
步骤S238、更新对抗网络判别器Dφ的权重参数φt:采用最小二乘损失函数训练更新对抗网络判别器Dφ的权重参数φt,即采用最小二乘损失函数对决策边界两侧远离专家轨迹的样本轨迹进行惩罚,损失函数为:
Figure BDA0002465018180000107
式中:πE、πθ分别对应为专家策略和无人驾驶车辆代理策略,
Figure BDA0002465018180000108
为专家策略的熵正则化,
Figure BDA0002465018180000109
为无人驾驶车辆代理策略的熵正则化;
Figure BDA00024650181800001010
表示以
Figure BDA00024650181800001011
为输入,按照权重参数φt进行计算的结果。
步骤S239、更新无人驾驶车辆代理策略πθ的权重承参数θt:采用基于方差缩减策略梯度方法更新代理策略πθ的权重参数θt,得到更新后的权重参数θt+1,直到当前训练轮次t到达最大训练轮次T;
步骤S239中,采用基于方差缩减策略梯度方法更新代理策略πθ的参数θt的具体过程包括:
步骤S2391、对每一随机代理策略πt,(k),(k∈{1,2,...,N}),计算奖励函数:
Figure BDA00024650181800001012
式中,
Figure BDA00024650181800001013
为熵正则化;
Figure BDA00024650181800001014
表示判别器以(O,A),进行判别计算的结果。
步骤S2392、更新无人驾驶车辆代理策略πθ的权重参数θt
Figure BDA00024650181800001015
本步骤中通过对抗网络判别器Dφ的权重参数和无人驾驶车辆代理策略πθ的权重参数相应训练次数的更新实现对抗模仿学习方法的训练,获得无人驾驶车辆换道决策模型。
步骤S3、车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。具体如图2中所示:
步骤S31、获取无人驾驶车辆当前的环境车辆信息,包括无人驾驶车辆状态数据,包括状态空间Ot中的数据[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb],即包括无人驾驶车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态。
步骤S32、根据无人驾驶车辆的状态数据,对无人驾驶车辆换道决策模型的输入状态赋值;即将步骤S31中获取到的无人驾驶车辆的状态数据[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]输入到无人驾驶车辆换道决策模型。
步骤S33、通过无人驾驶车辆换道决策模型获取到换道决策结果;本实施例中,无人驾驶车辆换道决策模型获取到换道决策结果对应为动作空间At中的内容:包括第一种,车辆左转换道;第二种,车辆右转换道;第三种,车辆车道保持且车速保持;第四种,车辆车道保持且加速;第五种,车辆车道保持且减速。
步骤S34、判断是否连续出现n次的决策结果均是换道,且换道方向相同,即是否连续n次均为向左换道或者向右换道,n为常量,可以设置为3~5;
若否,则进入步骤S35;
若是,则进入步骤S36;
步骤S35、判断当前决策结果是否为换道;
若否,则根据当前决策结果控制无人驾驶车辆当前驾驶动作,即控制无人驾驶车辆保持当前车道行驶,并执行加速、减速或车速保持的动作;返回步骤S31;例如若当前决策结果为车辆车道保持且加速,则控制无人驾驶车辆保持当前行驶车道且执行加速的动作。
若是,无人驾驶车辆保持当前决策结果之前的驾驶状态;该情况下,虽然决策结果是换道,但是由于没有出现连续n次的决策结果是换道,所以此时不换道,保持当前决策结果之前的驾驶状态,包括保持决策结果之前的驾驶车道和驾驶速度。
步骤S36、根据决策结果进行换道;同时在无人驾驶车辆换道过程中检测是否有紧急情况,若有,则脱离无人驾驶状态,进行人工干预;若无,则根据换道决策结果完成换道,返回步骤S31。
实施例2
本实施例公开一种用于实现实施例1基于对抗模仿学习的无人驾驶车辆换道决策方法的无人驾驶车辆换道决策系统,包括:
任务描述模块,用于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
换道决策模型构建模块,用于采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
环境车辆信息获取模块,用于车辆在无人进行驾驶行驶过程中,获取当前的环境车辆信息;
换道决策模块,用于以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。
进一步的,本实施例中,任务描述模块包括
状态空间确定模块,用于确定状态Ot空间:包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]。
动作空间确定模块,用于确定动作空间At:包括第一种,车辆左转换道;第二种,车辆右转换道;第三种,车辆车道保持且车速保持;第四种,车辆车道保持且加速;第五中,车辆车道保持且减速。
进一步的,本实施例中,换道决策模型构建模块包括第一数据采集模块、专家轨迹生成模块和训练模块;
第一数据采集模块,用于对专业驾驶员的车辆驾驶行为进行数据采集,包括采集专业驾驶员驾驶的状态数据和动作数据;
专家轨迹生成模块,用于将采集的车辆状态数据和动作数据对抽取出来,构成数据集合τ={τ123,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)},定义τ为对抗模仿学习的专家轨迹,τ1至τN分别表示第1至N个数据对,O1至ON分别表示采集的第1至N个状态数据,A1至AN分别表示采集的第1至N个动作数据;
所述训练模块,用于以数据集合τ为输入,采用对抗模仿学习方法训练,模仿专业驾驶员的驾驶行为,获得无人驾驶车辆换道决策模型。具体训练过程如实施例1中步骤S231至步骤S239中所示。
本实施例无人驾驶车辆换道决策系统与实施例1的无人驾驶车辆换道决策方法相对应,因此各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例3
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,如下:
将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。
本实施例中存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例中公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,如下:
将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。
本实施例中计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,包括:
步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
步骤S3、车辆在无人进行驾驶行驶过程中,以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果;
步骤S1中,将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程,具体如下:
步骤S11、确定状态Ot空间:包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb];
其中:
l为车辆自车所在车道,v0为车辆自车行驶速度;
sf、vf分别对应为自车行车道前方最近车辆到自车的距离和到自车的相对速度;
sb、vb分别对应为自车车道后方最近车辆到自车的距离和到自车的相对速度;
slf、vlf分别对应为自车的左车道前方最近车辆到自车的距离和到自车的相对速度;
slb、vlb分别对应为自车的左车道后方最近车辆到自车的距离和到自车的相对速度;
srf、vrf分别对应为自车的右车道前方最近车辆到自车的距离和到自车的相对速度;
srb、vrb分别对应为自车的右车道后方最近车辆到自车的距离和到自车的相对速度;
步骤S12、确定动作At空间:包括车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速以及车辆车道保持且减速。
2.根据权利要求1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,针对于车辆自车:
当检测不到其行车道前方的车辆时,将sf、vf分别对应置为固定值;
当检测不到其行车道后方的车辆时,将sb、vb分别对应置为固定值;
当检测不到其左车道前方的车辆时,将slf、vlf分别对应置为固定值;
当检测不到其左车道后方的车辆时,将slb、vlb分别对应置为固定值;
当检测不到其右车道前方的车辆时,将srf、vrf分别对应置为固定值;
当检测不到其右车道后方的车辆时,将srb、vrb分别对应置为固定值。
3.根据权利要求1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S2中,采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练的具体过程如下:
步骤S21、对专业驾驶员的车辆驾驶行为进行数据采集,包括采集专业驾驶员驾驶的状态数据和动作数据;
步骤S22、将采集的车辆状态数据和动作数据对抽取出来,构成数据集合τ={τ123,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)},定义τ为对抗模仿学习的专家轨迹,τ1至τN分别表示第1至N个数据对,O1至ON分别表示采集的第1至N个状态数据,A1至AN分别表示采集的第1至N个动作数据;
其中N为训练数据集合中数据对的总数,对应为采样次数;
步骤S23、以数据集合τ为输入,采用对抗模仿学习方法训练,模仿专业驾驶员的驾驶行为,获得无人驾驶车辆换道决策模型。
4.根据权利要求3所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S23中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现,具体过程如下:
步骤S231、初始化:
设置最大训练轮次T、训练步长α和采样次数N;
对无人驾驶车辆代理策略πθ进行初始化,将无人驾驶车辆代理策略πθ的权重参数初始化为θ0
初始化对抗网络判别器Dφ的权重参数,其中,φ0为对抗网络判别器Dφ的初始化权重参数;
获取无人驾驶车辆当前状态向量O和当前动作向量A;
步骤S232、对每一训练轮次t,0≤t≤T,执行步骤S233至步骤S239;
步骤S233、随机采样,生成N个均值为0且方差为ν的高斯向量δt={δ12,...,δN},其中δ1至δN为第1至N个高斯向量,δt为N个高斯向量组合后的向量;
步骤S234、计算当前训练轮次t时,无人驾驶车辆代理策略πθ的权重参数θt的均方差
Figure FDA0003076344960000031
步骤S235、计算无人驾驶车辆当前状态向量O的均值μ;
步骤S236、针对于每个k,k∈{1,2,...,N},采用方差缩减方法计算随机代理策略πt,(k)
Figure FDA0003076344960000032
δk为步骤S233中得到的第k个高斯向量;
步骤S237、以无人驾驶车辆当前状态向量O为输入,应用随机代理策略πt(k),k=1,2,...,N,生成样本轨迹
Figure FDA0003076344960000033
其中,
Figure FDA0003076344960000034
Figure FDA0003076344960000035
分别是以O为输入,k取1到N值,通过随机代理策略πt,(k)生成的第1至N个样本轨迹,
Figure FDA0003076344960000036
Figure FDA0003076344960000037
分别对应表示第1至N个样本轨迹中的动作数据;
步骤S238、更新对抗网络判别器Dφ的权重参数φt:采用最小二乘损失函数训练更新对抗网络判别器Dφ的权重参数φt,即采用最小二乘损失函数对决策边界两侧远离专家轨迹的样本轨迹进行惩罚,损失函数为:
Figure FDA0003076344960000038
式中:πE、πθ分别对应为专家策略和无人驾驶车辆代理策略,
Figure FDA0003076344960000039
为专家策略的熵正则化,
Figure FDA00030763449600000310
为无人驾驶车辆代理策略的熵正则化;
步骤S239、更新无人驾驶车辆代理策略πθ的权重承参数θt:采用基于方差缩减策略梯度方法更新代理策略πθ的权重参数θt,得到更新后的权重参数θt+1,直到当前训练轮次t到达最大训练轮次T。
5.根据权利要求4所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S239中,采用基于方差缩减策略梯度方法更新代理策略πθ的参数θt的具体过程包括:
步骤S2391、对每一随机代理策略πt,(k)(k∈{1,2,...,N}),计算奖励函数:
Figure FDA00030763449600000311
式中,
Figure FDA00030763449600000312
为熵正则化;
步骤S2392、更新无人驾驶车辆代理策略πθ的参数θt
Figure FDA0003076344960000041
6.根据权利要求4所述的基于对抗模仿学习的无人驾驶车辆换道决策方法,其特征在于,步骤S3中,通过无人驾驶车辆换道决策模型获取到无人驾驶车辆换道决策结果的具体过程为:
步骤S31、获取无人驾驶车辆当前的环境车辆信息,包括无人驾驶车辆状态数据;
步骤S32、根据无人驾驶车辆的状态数据,对无人驾驶车辆换道决策模型的输入状态赋值;
步骤S33、通过无人驾驶车辆换道决策模型获取到换道决策结果;
步骤S34、判断是否连续出现n次的决策结果均是换道,且换道方向相同,n为常量;
若否,则进入步骤S35;
若是,则进入步骤S36;
步骤S35、判断当前决策结果是否为换道;
若否,则根据当前决策结果控制无人驾驶车辆当前驾驶动作,即控制无人驾驶车辆保持当前车道行驶,并执行加速、减速或车速保持的动作;返回步骤S31;
若是,无人驾驶车辆保持当前决策结果之前的驾驶状态;返回步骤S31;
步骤S36、根据决策结果进行换道;同时在无人驾驶车辆换道过程中检测是否有紧急情况,若有,则脱离无人驾驶状态,进行人工干预;若无,则根据换道决策结果完成换道,返回步骤S31。
7.一种用于实现权利要求1~6中任一项基于对抗模仿学习的无人驾驶车辆换道决策方法的无人驾驶车辆换道决策系统,其特征在于,包括:
任务描述模块,用于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程;
换道决策模型构建模块,用于采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练,获得无人驾驶车辆换道决策模型;其中,在训练过程中,对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现;
环境车辆信息获取模块,用于车辆在无人进行驾驶行驶过程中,获取当前的环境车辆信息;
换道决策模块,用于以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数,通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。
8.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1~6中任一项所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。
9.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1~6中任一项所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。
CN202010331216.1A 2020-04-24 2020-04-24 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 Active CN111483468B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010331216.1A CN111483468B (zh) 2020-04-24 2020-04-24 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
JP2021541153A JP7287707B2 (ja) 2020-04-24 2020-09-17 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
PCT/CN2020/115750 WO2021212728A1 (zh) 2020-04-24 2020-09-17 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331216.1A CN111483468B (zh) 2020-04-24 2020-04-24 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Publications (2)

Publication Number Publication Date
CN111483468A CN111483468A (zh) 2020-08-04
CN111483468B true CN111483468B (zh) 2021-09-07

Family

ID=71800232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331216.1A Active CN111483468B (zh) 2020-04-24 2020-04-24 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Country Status (3)

Country Link
JP (1) JP7287707B2 (zh)
CN (1) CN111483468B (zh)
WO (1) WO2021212728A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111483468B (zh) * 2020-04-24 2021-09-07 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN114074680B (zh) * 2020-08-11 2023-08-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN112418237A (zh) * 2020-12-07 2021-02-26 苏州挚途科技有限公司 车辆驾驶决策方法、装置及电子设备
CN112498354B (zh) * 2020-12-25 2021-11-12 郑州轻工业大学 考虑个性化驾驶体验的多时间尺度自学习变道方法
CN112766310B (zh) * 2020-12-30 2022-09-23 嬴彻星创智能科技(上海)有限公司 一种节油换道决策方法和系统
CN113276883B (zh) * 2021-04-28 2023-04-21 南京大学 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN113635909B (zh) * 2021-08-19 2022-07-12 崔建勋 一种基于对抗生成模仿学习的自动驾驶控制方法
CN114023108B (zh) * 2021-11-02 2023-06-09 河北工业大学 一种混合交通流变道模型及变道仿真方法
CN113771884B (zh) * 2021-11-09 2022-02-08 清华大学 基于侧向量化平衡指标的智能汽车拟人化轨迹规划方法
CN114328448A (zh) * 2021-12-01 2022-04-12 中交第二公路勘察设计研究院有限公司 基于模仿学习算法的高速公路车辆跟驰行为重构方法
CN114148349B (zh) * 2021-12-21 2023-10-03 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN114179835B (zh) * 2021-12-30 2024-01-05 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114407931B (zh) * 2022-02-21 2024-05-03 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN114506342B (zh) * 2022-03-03 2023-12-05 东风悦享科技有限公司 一种自动驾驶变道决策的方法、系统及车辆
CN115626184B (zh) * 2022-12-19 2023-07-21 北京科技大学 自动驾驶车辆的权重系数和控制策略自学习方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5610815A (en) * 1989-12-11 1997-03-11 Caterpillar Inc. Integrated vehicle positioning and navigation system, apparatus and method
CN110402371B (zh) 2017-03-01 2023-12-01 御眼视觉技术有限公司 用于利用感测不确定性导航的系统和方法
US11180154B2 (en) 2017-10-17 2021-11-23 The Regents Of The University Of Michigan Fingerprinting drivers based on vehicle turns
CN108919795B (zh) * 2018-06-01 2023-07-25 中国北方车辆研究所 一种自动驾驶汽车换道决策方法及装置
CN110619340B (zh) * 2018-06-19 2022-09-16 广州汽车集团股份有限公司 一种自动驾驶汽车换道规则的生成方法
US10890911B2 (en) * 2018-07-20 2021-01-12 Autox, Inc. System and method for autonomously delivering commodity to the recipient's preferred environment
JP7172287B2 (ja) * 2018-08-28 2022-11-16 トヨタ自動車株式会社 自動運転システム
DE102018215055A1 (de) * 2018-09-05 2020-03-05 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen einer Spurwechselangabe eines Fahrzeugs, ein computerlesbares Speichermedium und ein Fahrzeug
CN109460023A (zh) * 2018-11-09 2019-03-12 上海理工大学 基于隐马尔科夫模型的驾驶人换道意图识别方法
CN109598934B (zh) * 2018-12-13 2020-11-06 北京超星未来科技有限公司 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
JP7003953B2 (ja) 2019-03-14 2022-01-21 オムロン株式会社 学習装置、推定装置、データ生成装置、学習方法、及び学習プログラム
CN110297494B (zh) * 2019-07-15 2020-07-10 吉林大学 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
KR20190103093A (ko) * 2019-08-16 2019-09-04 엘지전자 주식회사 자율주행 차량의 차선 변경 장치 및 방법
CN110569792A (zh) * 2019-09-09 2019-12-13 吉林大学 一种基于卷积神经网络的自动驾驶汽车前方物体检测方法
CN110568760B (zh) * 2019-10-08 2021-07-02 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN111483468B (zh) * 2020-04-24 2021-09-07 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Also Published As

Publication number Publication date
WO2021212728A1 (zh) 2021-10-28
JP2022532972A (ja) 2022-07-21
JP7287707B2 (ja) 2023-06-06
CN111483468A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111483468B (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
Williams et al. Information theoretic mpc for model-based reinforcement learning
Liu et al. Parking like a human: A direct trajectory planning solution
Choudhury et al. On the utility of model learning in hri
Oyler et al. A game theoretical model of traffic with multiple interacting drivers for use in autonomous vehicle development
CN113010967B (zh) 一种基于混合交通流模型的智能汽车在环仿真测试方法
Li et al. Combined trajectory planning and tracking for autonomous vehicle considering driving styles
Scheel et al. Situation assessment for planning lane changes: Combining recurrent models and prediction
CN107132840B (zh) 一种越野电驱动无人车辆纵/横/垂拟人化协同控制方法
Okamoto et al. Data-driven human driver lateral control models for developing haptic-shared control advanced driver assist systems
US20210263526A1 (en) Method and device for supporting maneuver planning for an automated driving vehicle or a robot
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Zou et al. Inverse reinforcement learning via neural network in driver behavior modeling
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN112508164A (zh) 一种基于异步监督学习的端到端自动驾驶模型预训练方法
Arefnezhad et al. Modeling of double lane change maneuver of vehicles
Löckel et al. A probabilistic framework for imitating human race driver behavior
CN111830962A (zh) 强化学习代理控制器的解释数据
Zhao et al. Indirect shared control strategy for human-machine cooperative driving on hazardous curvy roads
Arbabi et al. Learning an interpretable model for driver behavior prediction with inductive biases
Xu et al. Modeling Lateral Control Behaviors of Distracted Drivers for Haptic-Shared Steering System
Akca et al. eTS fuzzy driver model for simultaneous longitudinal and lateral vehicle control
CN115107948B (zh) 一种高效强化学习自主船舶避碰方法
CN116225055A (zh) 一种复杂环境下基于状态分解的无人机自主航迹规划算法
Merrill et al. End-to-end multi-task machine learning of vehicle dynamics for steering angle prediction for autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant