CN114407931B - 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 - Google Patents

一种高度类人的自动驾驶营运车辆安全驾驶决策方法 Download PDF

Info

Publication number
CN114407931B
CN114407931B CN202210158758.2A CN202210158758A CN114407931B CN 114407931 B CN114407931 B CN 114407931B CN 202210158758 A CN202210158758 A CN 202210158758A CN 114407931 B CN114407931 B CN 114407931B
Authority
CN
China
Prior art keywords
driving
vehicle
strategy
function
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210158758.2A
Other languages
English (en)
Other versions
CN114407931A (zh
Inventor
李旭
胡玮明
胡锦超
韦坤
徐启敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210158758.2A priority Critical patent/CN114407931B/zh
Priority to PCT/CN2022/077923 priority patent/WO2023155231A1/zh
Publication of CN114407931A publication Critical patent/CN114407931A/zh
Application granted granted Critical
Publication of CN114407931B publication Critical patent/CN114407931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种高度类人的自动驾驶营运车辆安全驾驶决策方法。首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型。最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略。本发明能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。

Description

一种高度类人的自动驾驶营运车辆安全驾驶决策方法
技术领域
本发明涉及一种营运车辆驾驶决策方法,尤其是涉及一种高度类人的自动驾驶营运车辆安全驾驶决策方法,属于汽车安全技术领域。
背景技术
营运车辆是我国道路运输的主要承担者,同时也是群死群伤事故的肇事主体。为了显著提升交通安全性及运输效率,高级驾驶辅助甚至完全实现无人驾驶的营运车辆自动驾驶技术近年来受到了高度关注和发展。
人机共驾是智能车发展的必经之路,作为实现高品质自动驾驶的关键一环,驾驶决策决定了人机共驾过程中营运车辆自动驾驶的安全性与合理性。在实际交通环境下,理想的自动驾驶决策除了具备保障规避行车危险的能力外,还需具有一定的“社会智能”属性,即理解周围人类驾驶员在不同情况下的反应并做出相应的“最优”决策。然而,现有的营运车辆自动驾驶策略忽视了驾驶逻辑中的“社会智能”,决策能力难以与人类驾驶员相媲美,导致自动驾驶汽车与人类驾驶员的不匹配,甚至可能会引发自动驾驶车辆与人类驾驶车辆之间的冲突,输出的非类人化的危险驾驶策略将造成灾难性的后果。因此,在人机共驾环境下,如何学习优秀驾驶员的驾驶行为,构建具有高度类人水平的安全驾驶决策策略,保障自动驾驶营运车辆的行车安全是当前需要解决的关键问题。
已有专利、文献对“类人”驾驶决策方法进行了研究,主要包括基于规则和基于学习的决策方法。其中,基于规则的决策方法是根据行驶规则、驾驶经验等信息建立驾驶策略规则库,根据车辆的行驶状态和规则库的策略进行驾驶决策。这类方法拥有清晰的决策意图,且具备较强的可解释性,但其难以遍历所有的交通场景和行驶工况,无法保证边缘交通场景下驾驶决策的鲁棒性和有效性。
基于学习的决策方法,是通过模拟优秀驾驶员的驾驶行为来获取某一交通场景下的最优策略,是目前应用较多的一类方法。然而,以上两类方法虽然取得了一定的进展,但其研究对象主要面向小型乘用车辆,未涉及大型营运车辆的“类人”驾驶决策研究。
不同于小型乘用车辆,大型营运车辆具有质心位置高、整车质量大、轮距窄等特点,导致其侧倾稳定性较差,若进行紧急制动、紧急变道、急转向等操作,极易失稳而发生侧翻。因此,人类驾驶员在驾驶大型营运车辆和小型乘用车辆时的驾驶行为和操作特性具有较大差异,且相比于小型乘用车辆仅关注防碰撞问题,大型营运车辆需同时兼顾碰撞防控、侧翻防控等多个方面。
总体而言,现有的针对小型乘用车辆的“类人”驾驶决策方法无法直接应用于营运车辆。针对自动驾驶营运车辆的安全驾驶决策研究相对匮乏,特别是在具有高度类人水平的车辆安全驾驶决策研究方面,目前仍处于空白状态。
发明内容
发明目的:为了实现具有高度类人水平的自动驾驶营运车辆安全驾驶决策,保障车辆行车安全,本发明针对重型货车、重型卡车等自动驾驶营运车辆,提出了一种高度类人的自动驾驶营运车辆安全驾驶决策方法。该方法能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。同时,该方法无需考虑复杂的车辆动力学方程和车身参数,计算方法简单清晰,可以实时输出自动驾驶营运车辆的安全驾驶策略,且使用的传感器成本较低,便于大规模推广。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种高度类人的自动驾驶营运车辆安全驾驶决策方法。首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型。最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出。具体包括以下步骤:
步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集
为了构建具有高度类人水平的营运车辆安全驾驶决策策略,应学习不同行驶工况下优秀驾驶员的驾驶行为。首先,在时空全局统一坐标系下,采集典型交通场景下的异源异质多传感器信息。其次,利用以上数据,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。
具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统(Global Positioning System,GPS)和毫米波雷达。
针对中国的道路行驶环境,在安全驾驶阶段,对优秀驾驶员的车道变换、车道保持、车辆跟驰、超车、加速、减速等各种典型驾驶行为进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:营运车辆(自车)的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度。
步骤二:建立高度类人的自动驾驶营运车辆安全决策模型
随着车载计算单元计算能力的增强,基于学习的决策方法得到广泛的关注。其中的模仿学习是以仿效专家行为方式为特征的一种学习方法,该方法目前在自动驾驶、机器人、自然语言处理等场景中均有应用。因此,本发明利用模仿学习方法学习专家轨迹数据集,即模拟优秀驾驶员的驾驶行为。
生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)将强化学习和生成对抗网络的思想进行结合,通过直接从专家经验中学习策略的方式,避免了需要人为定义一个完备的奖励函数的困难,在提高驾驶决策的有效性和可靠性方面具有一定的优势。因此,本发明利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:
子步骤1:建立生成器网络
为了学习不同行驶工况下的优秀驾驶行为,生成尽可能接近优秀驾驶员决策的驾驶策略,本发明利用近端策略优化算法构建生成器。
子步骤1.1:定义生成器网络的基本参数
(1)状态空间
状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:
St=[px,py,vx,vy,ax,ays,drel_j,vrel_j,arel_j] (1)
式中,St表示t时刻的状态空间,px,py分别表示自车的横向位置和纵向位置;vx,vy分别表示自车的横向速度和纵向速度,单位均为米每秒;ax,ay分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ωs表示自车的横摆角速度,单位为弧度每秒; drel_j,vrel_j,arel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆。
(2)动作空间
为了输出具有明确决策意图的驾驶策略,本发明将涵盖横向和纵向驾驶策略的动作空间定义为:
At=[a1,a2,a3,a4,a5,a6] (2)
式中,At表示t时刻的动作空间,a1,a2,a3分别表示左转、直行和右转,a4,a5,a6分别表示加速、速度保持不变和减速。
(3)奖励函数
为了评价每一时刻驾驶策略的优劣,引导生成器输出更为合理、安全的驾驶策略,应构建合理、全面的奖励函数。考虑到安全驾驶决策的本质是涉及防碰撞、防侧翻、驾驶平顺性等因素的多目标优化问题,本发明将奖励函数设计为:
Rt=r1+r2+r3+r4+r5+r6 (3)
式中,Rt表示t时刻的总奖励函数,r1,r2,r3,r4,r5,r6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数。
首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距。为此,将前向防撞奖励函数定义为:
式中,Df表示最小前向安全间距,单位为米,α1表示前向防撞奖励函数的权重系数。
考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,本发明利用车头时距设计了动态的最小前向安全间距,即:
Df=vy·βTH+|vy-vrel_1|·T+Lmin (5)
式中,βTH为车头时距,单位为s,T为数据采样频率,单位为秒,Lmin为临界距离,单位为米。
类似地,为了避免发生后向碰撞,自车应与同车道的后方车辆保持合理的安全间距。为此,将后向防撞奖励函数定义为:
式中,Db表示最小后向安全间距,单位为米,α2表示后向防撞奖励函数的权重系数,xrel_4表示自车与当前车道的后方车辆的相对间距,单位为米。
为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距。为此,将侧向防撞奖励函数定义为:
式中,Ds表示最小侧向安全间距,单位为米,且α3表示侧向防撞奖励函数的权重系数。
其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故。为此,将防侧翻奖励函数定义为:
式中,athr表示自车的侧向加速度阈值,单位为米每二次方秒,α4表示防侧翻奖励函数的权重系数。
再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数定义为:
式中,分别表示自车的横向急动度和纵向急动度,单位为米每三次方秒,α56表示驾驶平顺性奖励函数的权重系数。
最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数定义为:
子步骤1.2:搭建基于“演员-评论家”的生成器网络
利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分。其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略。评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值。具体地:
(1)设计生成器中的策略网络部分
利用多个全连接层结构的神经网络建立策略网络,首先,将归一化后的状态量St依次输入到输入层F1、全连接层F2和全连接层F3,得到输出O1,即动作空间At
考虑到状态空间的维度为25,设置状态输入层的神经元数量为25。设置全连接层F1和全连接层F2层的神经元数量分别为128和64。全连接层F1和全连接层F2的激活函数均为S型函数,其表达式为
(2)设计生成器中的评价网络部分
利用多个全连接层结构的神经网络建立评价网络,将归一化后的状态量St和动作空间At依次输入到全连接层F4和全连接层F5后得到输出O2,即Q函数值Q(St,At)。
设置全连接层F4和全连接层F5的神经元数量分别为128和64,各层的激活函数均为S型函数。
子步骤2:建立判别器网络
判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分Pt(τ),从而实现对生成器的优化。考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,本发明利用深度神经网络构建判别器。
具体而言,利用多个全连接层结构的神经网络建立判别器。判别器包含F6、F7和 F8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为 f(x)=max(0,x)。
步骤三:训练自动驾驶营运车辆的安全驾驶决策模型
为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新。策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段。
在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化。在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化。具体的参数更新方法如下:
子步骤1:初始化τE~πE,初始化策略参数θ0、值函数参数φ0和判别器参数ω0
其中,τE表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集,且τE={(S1,A1,R1),(S2,A2,R2),...,(Sn,An,Rn)};πE表示专家轨迹τE对应的驾驶策略分布。
子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:
子步骤2.1:利用策略网络生成驾驶轨迹τ′E,形成的轨迹集合可表示为Pt={τ′E};
子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”可表示为
子步骤2.3:利用梯度▽cri更新判别器的网络参数;
式中,Pt(St,At)表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,表示生成驾驶轨迹的平均奖励,▽t表示t时刻的梯度,/>表示专家轨迹获得的平均奖励;
子步骤2.4:更新策略网络参数;
子步骤2.5:利用式(12)更新值函数参数;
式中,φt+1表示t+1时刻的值函数参数,Vφ(St)表示状态空间为St时的值函数,表示t时刻待执行的奖励函数。
子步骤3:当训练迭代次数达到2万次时,结束循环。
子步骤4:利用安全驾驶决策模型输出决策策略
当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息输入到安全驾驶决策模型中,可以合理、安全地输出转向、加速、减速等高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,可以有效保障自动驾驶营运车辆的行车安全。
有益效果:相比于一般的驾驶决策方法,本发明提出的方法具有更为有效、可靠的特点,具体体现在:
(1)本发明提出的方法能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,实现了具有高度类人水平的自动驾驶营运车辆安全驾驶决策,可以有效保障车辆的行车安全。
(2)本发明提出的方法综合考虑了前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,且安全距离门限在线可调,实现了不同驾驶工况下的安全驾驶决策,进一步提高了决策的有效性和可靠性。
(3)本发明提出的方法无需考虑复杂的车辆动力学方程和车身参数,计算方法简单清晰,可以实时输出自动驾驶营运车辆的安全驾驶策略,且使用的传感器成本较低,便于大规模推广。
附图说明
图1是本发明的技术路线图;
图2是本发明设计的策略网络示意图;
图3是本发明设计的评论网络示意图;
图4是本发明设计的判别器网络示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
营运车辆是我国道路运输的主要承担者,同时也是群死群伤事故的肇事主体。为了显著提升交通安全性及运输效率,高级驾驶辅助甚至完全实现无人驾驶的营运车辆自动驾驶技术近年来受到了高度关注和发展。
人机共驾是智能车发展的必经之路,作为实现高品质自动驾驶的关键一环,驾驶决策决定了人机共驾过程中营运车辆自动驾驶的安全性与合理性。在实际交通环境下,理想的自动驾驶决策除了具备保障规避行车危险的能力外,还需具有一定的“社会智能”属性,即理解周围人类驾驶员在不同情况下的反应并做出相应的“最优”决策。然而,现有的营运车辆自动驾驶策略忽视了驾驶逻辑中的“社会智能”,决策能力难以与人类驾驶员相媲美,导致自动驾驶汽车与人类驾驶员的不匹配,甚至可能会引发自动驾驶车辆与人类驾驶车辆之间的冲突,输出的非类人化的危险驾驶策略将造成灾难性的后果。因此,在人机共驾环境下,如何学习优秀驾驶员的驾驶行为,构建具有高度类人水平的安全驾驶决策策略,保障自动驾驶营运车辆的行车安全是当前需要解决的关键问题。
已有专利、文献对“类人”驾驶决策方法进行了研究,主要包括基于规则和基于学习的决策方法。其中,基于规则的决策方法是根据行驶规则、驾驶经验等信息建立驾驶策略规则库,根据车辆的行驶状态和规则库的策略进行驾驶决策。这类方法拥有清晰的决策意图,且具备较强的可解释性,但其难以遍历所有的交通场景和行驶工况,无法保证边缘交通场景下驾驶决策的鲁棒性和有效性。
基于学习的决策方法,是通过模拟优秀驾驶员的驾驶行为来获取某一交通场景下的最优策略,是目前应用较多的一类方法。然而,以上两类方法虽然取得了一定的进展,但其研究对象主要面向小型乘用车辆,未涉及大型营运车辆的“类人”驾驶决策研究。
不同于小型乘用车辆,大型营运车辆具有质心位置高、整车质量大、轮距窄等特点,导致其侧倾稳定性较差,若进行紧急制动、紧急变道、急转向等操作,极易失稳而发生侧翻。因此,人类驾驶员在驾驶大型营运车辆和小型乘用车辆时的驾驶行为和操作特性具有较大差异,且相比于小型乘用车辆仅关注防碰撞问题,大型营运车辆需同时兼顾碰撞防控、侧翻防控等多个方面。
总体而言,现有的针对小型乘用车辆的“类人”驾驶决策方法无法直接应用于营运车辆。针对自动驾驶营运车辆的安全驾驶决策研究相对匮乏,特别是在具有高度类人水平的车辆安全驾驶决策研究方面,目前仍处于空白状态。
为了解决以上问题,本发明针对重型货车、重型卡车等自动驾驶营运车辆,提出了一种具有高度类人水平的安全驾驶决策方法。首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法(Generative Adversarial Imitation Learning,GAIL)模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型。最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出。本发明提出的方法,能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。本发明的技术路线如图1所示,具体步骤如下:
步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集
为了构建具有高度类人水平的营运车辆安全驾驶决策策略,应学习不同行驶工况下优秀驾驶员的驾驶行为。首先,在时空全局统一坐标系下,采集典型交通场景下的异源异质多传感器信息。其次,利用以上数据,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。
具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统(Global Positioning System,GPS)和毫米波雷达。
针对中国的道路行驶环境,在安全驾驶阶段,对优秀驾驶员的车道变换、车道保持、车辆跟驰、超车、加速、减速等各种典型驾驶行为进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:营运车辆(自车)的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度。
步骤二:建立高度类人的自动驾驶营运车辆安全决策模型
随着车载计算单元计算能力的增强,基于学习的决策方法得到广泛的关注。其中的模仿学习是以仿效专家行为方式为特征的一种学习方法,该方法目前在自动驾驶、机器人、自然语言处理等场景中均有应用。因此,本发明利用模仿学习方法学习专家轨迹数据集,即模拟优秀驾驶员的驾驶行为。
模仿学习主要包括行为克隆、逆向强化学习和生成对抗模仿学习三类方法。其中,行为克隆是通过监督学习的方式,从大量样本数据中学习状态到动作的映射。这类方法较为简单并且在有些场景下很有效,但是始终受到状态漂移的影响,一旦遇到没有在专家轨迹中出现的状态将会产生很大的误差。逆向强化学习是通过从专家轨迹中学习回报函数,并利用该回报函数进行策略估计的一种方法。这类方法避免了行为克隆方法中单步决策误差累计的问题,但存在着计算成本过高、易造成过拟合等不足。
生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)将强化学习和生成对抗网络的思想进行结合,通过直接从专家经验中学习策略的方式,避免了需要人为定义一个完备的奖励函数的困难,在提高驾驶决策的有效性和可靠性方面具有一定的优势。因此,本发明利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:
子步骤1:建立生成器网络
为了学习不同行驶工况下的优秀驾驶行为,生成尽可能接近优秀驾驶员决策的驾驶策略,本发明采用深度强化学习算法构建生成器。考虑到其中的近端策略优化算法(Proximal Policy Optimization,PPO)结合了优势动作评论算法(Advantage ActorCritic,A2C)和信赖域策略优化算法(Trust Region Policy Optimization,TRPO)的优势,并通过剪辑的方法避免过大的更新,能够有效提高生成器网络的收敛速度和稳定性。因此,本发明利用PPO算法构建生成器。
子步骤1.1:定义生成器网络的基本参数
(1)状态空间
状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:
St=[px,py,vx,vy,ax,ays,drel_j,vrel_j,arel_j] (1)
式中,St表示t时刻的状态空间,px,py分别表示自车的横向位置和纵向位置;vx,vy分别表示自车的横向速度和纵向速度,单位均为米每秒;ax,ay分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ωs表示自车的横摆角速度,单位为弧度每秒; drel_j,vrel_j,arel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆。
(2)动作空间
为了输出具有明确决策意图的驾驶策略,本发明将涵盖横向和纵向驾驶策略的动作空间定义为:
At=[a1,a2,a3,a4,a5,a6] (2)
式中,At表示t时刻的动作空间,a1,a2,a3分别表示左转、直行和右转,a4,a5,a6分别表示加速、速度保持不变和减速。
(3)奖励函数
为了评价每一时刻驾驶策略的优劣,引导生成器输出更为合理、安全的驾驶策略,应构建合理、全面的奖励函数。考虑到安全驾驶决策的本质是涉及防碰撞、防侧翻、驾驶平顺性等因素的多目标优化问题,本发明将奖励函数设计为:
Rt=r1+r2+r3+r4+r5+r6 (3)
式中,Rt表示t时刻的总奖励函数,r1,r2,r3,r4,r5,r6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数。
首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距。为此,将前向防撞奖励函数定义为:
式中,Df表示最小前向安全间距,单位为米,α1表示前向防撞奖励函数的权重系数。
考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,本发明利用车头时距设计了动态的最小前向安全间距,即:
Df=vy·βTH+|vy-vrel_1|·T+Lmin (5)
式中,βTH为车头时距,单位为s,T为数据采样频率,单位为秒,Lmin为临界距离,单位为米。
类似地,为了避免发生后向碰撞,自车应与同车道的后方车辆保持合理的安全间距。为此,将后向防撞奖励函数定义为:
式中,Db表示最小后向安全间距,单位为米,α2表示后向防撞奖励函数的权重系数,xrel_4表示自车与当前车道的后方车辆的相对间距,单位为米。
为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距。为此,将侧向防撞奖励函数定义为:
式中,Ds表示最小侧向安全间距,单位为米,且α3表示侧向防撞奖励函数的权重系数。
其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故。为此,将防侧翻奖励函数定义为:
式中,athr表示自车的侧向加速度阈值,单位为米每二次方秒,α4表示防侧翻奖励函数的权重系数。
再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数定义为:
式中,分别表示自车的横向急动度和纵向急动度,单位为米每三次方秒,α56表示驾驶平顺性奖励函数的权重系数。
最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数定义为:
子步骤1.2:搭建基于“演员-评论家”的生成器网络
利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分。其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略。评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值。具体地:
(1)设计生成器中的策略网络部分
利用多个全连接层结构的神经网络建立策略网络,具体的网络架构如图2所示。首先,将归一化后的状态量St依次输入到输入层F1、全连接层F2和全连接层F3,得到输出O1,即动作空间At
考虑到状态空间的维度为25,设置状态输入层的神经元数量为25。设置全连接层F1和全连接层F2层的神经元数量分别为128和64。全连接层F1和全连接层F2的激活函数均为S型函数,其表达式为
(2)设计生成器中的评价网络部分
利用多个全连接层结构的神经网络建立评价网络,具体的网络架构如图3所示。将归一化后的状态量St和动作空间At依次输入到全连接层F4和全连接层F5后得到输出 O2,即Q函数值Q(St,At)。
设置全连接层F4和全连接层F5的神经元数量分别为128和64,各层的激活函数均为S型函数。
子步骤2:建立判别器网络
判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分Pt(τ),从而实现对生成器的优化。考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,本发明利用深度神经网络构建判别器。
具体而言,利用多个全连接层结构的神经网络建立判别器。如图4所示,判别器包含F6、F7和F8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为f(x)=max(0,x)。
步骤三:训练自动驾驶营运车辆的安全驾驶决策模型
为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新。策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段。
在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化。在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化。具体的参数更新方法如下:
子步骤1:初始化τE~πE,初始化策略参数θ0、值函数参数φ0和判别器参数ω0
其中,τE表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集,且τE={(S1,A1,R1),(S2,A2,R2),...,(Sn,An,Rn)};πE表示专家轨迹τE对应的驾驶策略分布。
子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:
子步骤2.1:利用策略网络生成驾驶轨迹τ′E,形成的轨迹集合可表示为Pt={τ′E};
子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”可表示为
子步骤2.3:利用梯度▽cri更新判别器的网络参数;
式中,Pt(St,At)表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,表示生成驾驶轨迹的平均奖励,▽t表示t时刻的梯度,/>表示专家轨迹获得的平均奖励;
子步骤2.4:更新策略网络参数;
子步骤2.5:利用式(12)更新值函数参数;
式中,φt+1表示t+1时刻的值函数参数,Vφ(St)表示状态空间为St时的值函数,表示t时刻待执行的奖励函数。
子步骤3:当训练迭代次数达到2万次时,结束循环。
子步骤4:利用安全驾驶决策模型输出决策策略
当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息输入到安全驾驶决策模型中,可以合理、安全地输出转向、加速、减速等高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,可以有效保障自动驾驶营运车辆的行车安全。

Claims (1)

1.一种高度类人的自动驾驶营运车辆安全驾驶决策方法,首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型;最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出;其特征在于:该方法具体包括如下步骤:
步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集
首先,在时空全局统一坐标系下,采集典型交通场景下的异源异质多传感器信息;其次,利用采集到的多传感器信息,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;
具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统和毫米波雷达;
在安全驾驶阶段,对优秀驾驶员的各种典型驾驶行为包括车道变换、车道保持、车辆跟驰、超车、加速、减速进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:自车车辆的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度;
步骤二:建立高度类人的自动驾驶营运车辆安全决策模型
利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:
子步骤1:建立生成器网络
采用近端策略优化算法构建生成器;
子步骤1.1:定义生成器网络的基本参数
(1)状态空间
状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:
St=[px,py,vx,vy,ax,ays,drel_j,vrel_j,arel_j] (1)
式中,St表示t时刻的状态空间,px,py分别表示自车的横向位置和纵向位置;vx,vy分别表示自车的横向速度和纵向速度,单位均为米每秒;ax,ay分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ωs表示自车的横摆角速度,单位为弧度每秒;drel_j,vrel_j,arel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆;
(2)动作空间
将涵盖横向和纵向驾驶策略的动作空间定义为:
At=[a1,a2,a3,a4,a5,a6] (2)
式中,At表示t时刻的动作空间,a1,a2,a3分别表示左转、直行和右转,a4,a5,a6分别表示加速、速度保持不变和减速;
(3)奖励函数
将奖励函数设计为:
Rt=r1+r2+r3+r4+r5+r6 (3)
式中,Rt表示t时刻的总奖励函数,r1,r2,r3,r4,r5,r6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数;
首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距;为此,将前向防撞奖励函数r1定义为:
式中,Df表示最小前向安全间距,单位为米,α1表示前向防撞奖励函数的权重系数,xrel_1表示自车与当前车道前方车辆的相对间距,单位为米;
考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,利用车头时距设计了动态的最小前向安全间距,即:
Df=vy·βTH+|vy-vrel_1|·T+Lmin (5)
式中,βTH为车头时距,单位为s,T为数据采样频率,单位为秒,Lmin为临界距离,单位为米;
为了避免发生后向碰撞,自车应与同车道的后方车辆保持合理的安全间距;为此,将后向防撞奖励函数r2定义为:
式中,Db表示最小后向安全间距,单位为米,α2表示后向防撞奖励函数的权重系数,xrel_2表示自车与当前车道的后方车辆的相对间距,单位为米;
为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距;为此,将侧向防撞奖励函数r3定义为:
式中,Ds表示最小侧向安全间距,单位为米,且α3表示侧向防撞奖励函数的权重系数;
其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故;为此,将防侧翻奖励函数r4定义为:
式中,athr表示自车的侧向加速度阈值,单位为米每二次方秒,α4表示防侧翻奖励函数的权重系数;
再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数r5定义为:
式中,分别表示自车的横向急动度和纵向急动度,单位为米每三次方秒,α56表示驾驶平顺性奖励函数的权重系数;
最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数r6定义为:
子步骤1.2:搭建基于“演员-评论家”的生成器网络
利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分;其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略;评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值;具体地:
(1)设计生成器中的策略网络部分
利用多个全连接层结构的神经网络建立策略网络,首先,将归一化后的状态量St依次输入到全连接层F1、全连接层F2和全连接层F3,得到输出O1,即动作空间At
考虑到状态空间的维度为25,设置状态输入层的神经元数量为25;设置全连接层F1和全连接层F2的神经元数量分别为128和64;全连接层F1和全连接层F2的激活函数均为S型函数,其表达式为
(2)设计生成器中的评价网络部分
利用多个全连接层结构的神经网络建立评价网络,将归一化后的状态量St和动作空间At依次输入到全连接层F4和全连接层F5后得到输出O2,即Q函数值Q(St,At);
设置全连接层F4和全连接层F5的神经元数量分别为128和64,各层的激活函数均为S型函数;
子步骤2:建立判别器网络
判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分Pt(τ),从而实现对生成器的优化;考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,利用深度神经网络构建判别器;
具体而言,利用多个全连接层结构的神经网络建立判别器;判别器包含F6、F7和F8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为f(x)=max(0,x);
步骤三:训练自动驾驶营运车辆的安全驾驶决策模型
为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新;策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段;
在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化;在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化;具体的参数更新方法如下:
子步骤1:初始化τEE,初始化策略参数θ0、值函数参数φ0和判别器参数ω0
其中,τE表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集,且τE={(S1,A1,R1),(S2,A2,R2),...,(Sn,An,Rn)},n表示专家轨迹的数量;πE表示专家轨迹τE对应的驾驶策略分布;
子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:
子步骤2.1:利用策略网络生成驾驶轨迹τ′E,形成的轨迹集合Pt表示为Pt={τ′E};
子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”表示为τi:其中,τi表示i时刻采样的专家轨迹,/>表示i时刻采样的专家轨迹对应的策略;
子步骤2.3:利用梯度更新判别器的网络参数;
式中,Pt(St,At)表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,表示生成驾驶轨迹的平均奖励,/>表示t时刻的梯度,/>表示专家轨迹获得的平均奖励;
子步骤2.4:更新策略网络参数;
子步骤2.5:利用式(12)更新值函数参数;
式中,φt+1表示t+1时刻的值函数参数,Vφ(St)表示状态空间为St时的值函数,表示t时刻待执行的奖励函数;
子步骤3:当训练迭代次数达到2万次时,结束循环;
子步骤4:利用安全驾驶决策模型输出决策策略
当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息输入到安全驾驶决策模型中,合理、安全地输出包括转向、加速、减速的高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,保障自动驾驶营运车辆的行车安全。
CN202210158758.2A 2022-02-21 2022-02-21 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 Active CN114407931B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210158758.2A CN114407931B (zh) 2022-02-21 2022-02-21 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
PCT/CN2022/077923 WO2023155231A1 (zh) 2022-02-21 2022-02-25 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210158758.2A CN114407931B (zh) 2022-02-21 2022-02-21 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

Publications (2)

Publication Number Publication Date
CN114407931A CN114407931A (zh) 2022-04-29
CN114407931B true CN114407931B (zh) 2024-05-03

Family

ID=81260816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210158758.2A Active CN114407931B (zh) 2022-02-21 2022-02-21 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

Country Status (2)

Country Link
CN (1) CN114407931B (zh)
WO (1) WO2023155231A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN114863708B (zh) * 2022-05-09 2023-04-18 东南大学 一种面向营运车辆的道路合流区路侧实时精准诱导方法
AT526259A1 (de) * 2022-06-23 2024-01-15 Avl List Gmbh Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells
CN115440041B (zh) * 2022-09-02 2023-05-30 东南大学 一种路侧视角下的重点车辆驾驶行为预测方法
CN115830862B (zh) * 2022-11-18 2024-09-13 吉林大学 一种基于扩散模型的智能汽车类人换道轨迹生成方法
CN117077753B (zh) * 2023-07-17 2024-03-19 华中科技大学 类脑智能驾驶控制模型升级方法及类脑智能驾驶方法
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN117273225B (zh) * 2023-09-26 2024-05-03 西安理工大学 一种基于时空特征的行人路径预测方法
CN117371299B (zh) * 2023-12-08 2024-02-27 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117636270B (zh) * 2024-01-23 2024-04-09 南京理工大学 基于单目摄像头的车辆抢道事件识别方法及设备
CN117922576B (zh) * 2024-03-22 2024-05-17 山东科技大学 一种基于数据和知识双驱动的自动驾驶车辆换道决策方法
CN118013234B (zh) * 2024-04-08 2024-06-14 浙江吴霞科技有限公司 基于多源异构大数据的重点车辆驾驶员画像智能生成系统
CN118372851A (zh) * 2024-04-15 2024-07-23 海南大学 一种基于深度强化学习的车辆最优控制方法
CN118134209B (zh) * 2024-05-06 2024-07-05 江苏大块头智驾科技有限公司 一种智慧港矿一体化管控与调度系统及方法
CN118567372A (zh) * 2024-05-08 2024-08-30 中船智海创新研究院有限公司 一种基于多专家模仿学习的无人机控制方法及系统
CN118567225A (zh) * 2024-05-08 2024-08-30 中船智海创新研究院有限公司 一种用于单腿机器人的跳跃控制模型构建方法
CN118343164B (zh) * 2024-06-17 2024-10-01 北京理工大学前沿技术研究院 一种自动驾驶车辆行为决策方法、系统、设备及存储介质
CN118560530B (zh) * 2024-08-02 2024-10-01 杭州电子科技大学 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
US10803324B1 (en) * 2017-01-03 2020-10-13 Waylens, Inc. Adaptive, self-evolving learning and testing platform for self-driving and real-time map construction
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN113835421A (zh) * 2020-06-06 2021-12-24 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN113954837A (zh) * 2021-11-06 2022-01-21 交通运输部公路科学研究所 一种基于深度学习的大型营运车辆车道变换决策方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN112193280B (zh) * 2020-12-04 2021-03-16 华东交通大学 一种重载列车强化学习控制方法及系统
CN113753026B (zh) * 2021-10-21 2022-08-02 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法
CN113753034B (zh) * 2021-10-21 2022-08-02 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803324B1 (en) * 2017-01-03 2020-10-13 Waylens, Inc. Adaptive, self-evolving learning and testing platform for self-driving and real-time map construction
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN113835421A (zh) * 2020-06-06 2021-12-24 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN113954837A (zh) * 2021-11-06 2022-01-21 交通运输部公路科学研究所 一种基于深度学习的大型营运车辆车道变换决策方法

Also Published As

Publication number Publication date
WO2023155231A1 (zh) 2023-08-24
CN114407931A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114407931B (zh) 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
Huang et al. Path planning and cooperative control for automated vehicle platoon using hybrid automata
CN113291308B (zh) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法
Huang et al. Toward safe and personalized autonomous driving: Decision-making and motion control with DPF and CDT techniques
CN112622886B (zh) 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
Zhang et al. Adaptive decision-making for automated vehicles under roundabout scenarios using optimization embedded reinforcement learning
CN111273668B (zh) 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
Hang et al. Driving conflict resolution of autonomous vehicles at unsignalized intersections: A differential game approach
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN113264059B (zh) 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN112233413B (zh) 一种面向智能网联车辆的多车道时空轨迹优化方法
CN112389436A (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN113255998A (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN111899509B (zh) 一种基于车路信息耦合的智能网联汽车状态向量计算方法
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
Yu et al. Modeling overtaking behavior in virtual reality traffic simulation system
Guo et al. Self-defensive coordinated maneuvering of an intelligent vehicle platoon in mixed traffic
Li et al. Autonomous Driving Decision Algorithm for Complex Multi-Vehicle Interactions: An Efficient Approach Based on Global Sorting and Local Gaming
Yuan et al. Evolutionary Decision-Making and Planning for Autonomous Driving: A Hybrid Augmented Intelligence Framework
CN115257820A (zh) 一种面向开放干扰场景的营运车辆前向防撞驾驶决策方法
Chen et al. Decision making for overtaking of unmanned vehicle based on deep Q-learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant