CN113741464B - 一种基于时空数据强化学习的自动驾驶速度控制框架 - Google Patents

一种基于时空数据强化学习的自动驾驶速度控制框架 Download PDF

Info

Publication number
CN113741464B
CN113741464B CN202111043124.4A CN202111043124A CN113741464B CN 113741464 B CN113741464 B CN 113741464B CN 202111043124 A CN202111043124 A CN 202111043124A CN 113741464 B CN113741464 B CN 113741464B
Authority
CN
China
Prior art keywords
network
vehicle
current
speed
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111043124.4A
Other languages
English (en)
Other versions
CN113741464A (zh
Inventor
许志
刘顺程
夏宇阳
陈旭
刁宇鹏
苏涵
郑凯
曾凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111043124.4A priority Critical patent/CN113741464B/zh
Publication of CN113741464A publication Critical patent/CN113741464A/zh
Application granted granted Critical
Publication of CN113741464B publication Critical patent/CN113741464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于时空数据强化学习的自动驾驶速度控制框架,主要解决自动驾驶汽车难以及时对较远车辆的急剧变速行为做出反应的延时性问题。该控制框架包括离线训练:利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习;在线模拟:使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现。采用本发明的速度控制框架的自动驾驶车辆能够在复杂的交通环境中有良好的表现,本发明综合考虑了交通安全性,驾驶员舒适度和交通效率,使用了长短期记忆神经网络(LSTM),能够让自动驾驶汽车在进行速度决策时不只是考虑当前时刻的环境数据,可以同时考虑多个历史时刻的环境数据,让自动驾驶车辆能够在遇到突然的变速行为有更好的表现。

Description

一种基于时空数据强化学习的自动驾驶速度控制框架
技术领域
本发明属于自动驾驶技术领域,具体地说,是涉及一种基于时空数据强化学习的自动驾驶速度控制框架。
背景技术
随着城市化的快速发展,许多城市都在遭受不同程度的交通拥堵。经过调查发现,大部分的交通拥堵属于“幽灵”式堵车,导致人们出行时间严重延长、燃料浪费以及空气污染等。而这种“幽灵”式堵车经常发生高密度交通中,没有任何交通事故或者道路施工等明显迹象,其根本原因是驾驶员恶劣的驾驶行为(如急刹车、急加速)所产生的连锁效应在车流中传递,导致交通严重的延误甚至堵车。
对于自动驾驶车辆的单车道速度控制,可以分为基于模仿的控制框架与基于跟车行驶的控制框架。其中,基于模仿的控制框架主要使用机器学习的方法进行轨迹预测,搭建一个机器学习的框架对人类的驾驶行为进行学习,通过学习周围环境特征与周围车辆的行为对每一时刻的变速行为进行控制。这一类方法主要使用循环神经网络(RNN)来学习车辆运动行为,通过学习前一段时间内当前车辆与周围车辆的交互特征来决定下一时刻的变速行为。其改进方法可以使用长短期记忆神经网络(LSTM)来提升车辆在复杂情况下的表现,更好地预测自动驾驶车辆的未来轨迹。但是循环神经网络(RNN)与长短期记忆神经网络(LSTM)对于不同时刻的车辆轨迹数据都是共享权重的,然而,不同时刻或者不同周围车辆对当前车辆行为的影响是不同的。例如,当前车辆可能更关注周围车辆前一时刻的状态,或者在一些突发情况下,当前车辆应该更关注某一车辆突然的速度变化,从而更好的对当前时刻的变速行为进行控制。所以,对于不同时刻不同周围车辆的状态应该分配不同权重,于是带有注意力机制 (Attention)的长短期记忆神经网络模型出现。但是基于模仿的速度控制模型存在着一个重要的限制,因为人类不可避免的会产生一些不合理的驾驶行为,一份比较差的学习数据将会严重影响自动驾驶车辆的稳定性与安全性。对于基于跟车行驶的速度框架,传统方法是使用基于模型预测控制的自适应巡航控制框架(MPC-ACC)来决定车辆的速度,利用周围环境的特征计算出最合理的跟车距离与跟车速度,这种方法在比较简单的环境中能够有较好的表现,但是对于现实生活中的复杂场景来说,该模型存在明显的局限性,该模型难以考虑到所有的环境特征,通过数学公式来计算车辆某一时刻的行为难以适用于复杂的交通环境。于是,有人提出使用深度强化学习的方法来控制车辆某一时刻的行为,最具有代表性的有深度确定性策略梯度算法(DDPG),设计一个综合考虑交通效率,交通安全与驾驶员舒适性的奖励机制,将现实数据输入模型,由强化学习智能体(RL agent)来对车辆速度行为进行探索,通过模型的反馈结果来对智能体的行为进行指导与改进,输出奖励值最高的变速决策。
发明内容
本发明的目的在于提供一种基于时空数据强化学习的自动驾驶速度控制框架,主要解决自动驾驶汽车难以及时对较远车辆的急剧变速行为做出反应的延时性问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于时空数据强化学习的自动驾驶速度控制框架,包括:
离线训练:利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习;
在线模拟:使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现;
所述离线训练包括:
演员网络:由两个网络组成,当前演员网络和目标演员网络,采用长短期记忆神经网络和注意力机制网络结构,计算相邻两辆车之间的相对速度与相对距离的权重;
评委网络:由两个网络组成,当前评委网络和目标评委网络,两个网络均包括一个输入层、一个隐藏层和一个输出层,输入层输入当前环境状态和演员网络输出的加速度,经隐藏层计算后,输出层输出当前速度控制模型的好坏程度评价函数Q值;
交互环境:根据车辆当前状态计算得出车辆的下一时刻状态并计算奖励值。
进一步地,在本发明中,所述演员网络的输入部分为一个存储车辆历史时空数据的矩阵:
Figure RE-GDA0003327776700000031
矩阵中的每一个元素由两个部分组成,分别为相对速度和相对距离:
Figure RE-GDA0003327776700000032
其中,λ为选取的时间步数,m为选取的前车数量,t为当前时刻。
进一步地,在本发明中,所述相对速度与相对距离的权重计算公式如下:
Figure RE-GDA0003327776700000033
Figure RE-GDA0003327776700000034
Figure RE-GDA0003327776700000035
其中,Wi为神经网络中的参数,tanh和softmax为神经网络层的激活函数, A为自动驾驶车辆,C为普通车辆,m指车辆总数,r指速度,V是相对速度, T表示时间,该公式展示的是对于相对速度的注意力权重计算,相对距离的计算公式相同;然后将得到的t-2时刻到t时刻的注意力权重矩阵weight矩阵输入到LSTM网络中,得到当前车辆的加速度at
进一步地,在本发明中,所述隐藏层的激活函数为relu函数,Q值的计算公式如下:
Q=tanh(W0,relu(W1,St,at))
其中,W为神经网络参数、st指在该时间步下车辆的状态;
根据得到的Q值,对网络的训练公式如下:
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)
Figure RE-GDA0003327776700000041
其中yi表示离线训练的当前网络的Q值,ri表示在当前状态下采取某个动作的奖励值,L表示更新演员网络的损失函数;N表示样本数,
Figure RE-GDA0003327776700000044
表示当前环境状态下的策略函数,θ表示网络参数,
Figure RE-GDA0003327776700000045
表示根据当前环境状态和演员网络输出的动作值计算出来的Q值,使用贝尔曼方程来更新,γ为贝尔曼方程中的折扣因子;
Figure RE-GDA0003327776700000046
Figure RE-GDA0003327776700000047
表示离线训练的目标网络中的策略函数和Q函数,主要为了避免损失函数的发散。
进一步地,在本发明中,所述车辆的下一时刻状态的计算公式如下:
Figure RE-GDA0003327776700000042
Figure RE-GDA0003327776700000043
两个公式分别计算下一状态当前车辆的速度和纬度坐标;Δt表示两个时间步之间的时间间隔。
进一步地,在本发明中,所述奖励值的的计算公式如下:
rt=W1*F(xt)+W2*G(yt)+W3*H(zt)
其中xt,yt,zt分别表示交通安全性、驾驶员舒适度以及交通效率,W1, W2,W3表示权重。
与现有技术相比,本发明具有以下有益效果:
(1)采用本发明的速度控制框架的自动驾驶车辆能够在复杂的交通环境中有良好的表现,本发明综合考虑了交通安全性,驾驶员舒适度和交通效率,使用了长短期记忆神经网络(LSTM),能够让自动驾驶汽车在进行速度决策时不只是考虑前一时刻的环境数据,可以同时考虑多个历史时刻的环境数据,让自动驾驶车辆能够在遇到突然的变速行为有更好的表现。对于输入的环境数据,本发明使用(Attention)机制对不同的车辆数据分配不同的权重,作用是能区分前方不同车辆对当前车辆的影响,因为真实场景中,离当前车辆越近影响越大,所以对前方不同车辆提取出来的特征赋予不同的权重。
(2)本发明中整个网络模型采用了深度确定性策略梯度算法(DDPG)的架构,通过智能体(agent)的不断探索,以及环境的奖励值反馈来学习最好的速度决策行为,让自动驾驶汽车能够拥有比人类决策数据更合理地决策行为,能够有效地缓解由驾驶员恶劣的驾驶行为所导致的“幽灵”式堵车。
(3)本发明在保持让自动驾驶车辆本身安全、舒适、有效率地行驶的同时,能有效地缓解或阻断由前方车辆恶劣驾驶所导致的连锁效应,从而在根本上解决了幽灵堵车。
附图说明
图1为本发明的基于强化学习的速度决策网络框架。
图2为本发明的强化学习中的策略网络的详细结构。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
实施例
如图1、2所示,本发明公开的一种基于时空数据强化学习的自动驾驶速度控制框架,方案整体基于长短期记忆神经网络(LSTM)和注意力机制(Attention) 的深度确定性策略梯度算法(DDPG)框架,用于对自动驾驶车辆的速度控制。该框架主要包括一个离线训练部分与在线模拟部分,离线训练部分主要通过现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习,在线模拟部分则使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现。
对于离线训练部分,与深度确定性策略梯度算法(DDPG)结构相同,由演员网络(actor)、评委网络(critic)和环境(environment)三部分组成。
演员网络的输入是一个存储车辆历史时空数据的矩阵:
Figure RE-GDA0003327776700000061
矩阵中的每一个元素由两个部分组成,分别为相对速度和相对距离。
Figure RE-GDA0003327776700000062
时空数据矩阵的行数为选取的时间步数λ,矩阵的列数为选取的前车数量 m。本发明选取的λ和m的值都为3,当前时刻为t,输入数据包含了从t-2时刻到t时刻的信息,每一时刻包含相邻两辆车之间的相对速度与相对距离。
在演员网络(actor)中,我们采用了长短期记忆神经网络(LSTM)和注意力机制(Attention)作为演员网络(actor)的网络结构,因为我们需要考虑到不同时刻不同车辆对当前车辆变速决策的影响,我们采用了注意力机制(Attention) 来处理输入的时空数据,对相对速度与相对距离分别计算权重,计算公式如下:
Figure RE-GDA0003327776700000063
Figure RE-GDA0003327776700000064
Figure RE-GDA0003327776700000065
其中,Wi为神经网络中的参数,tanh和softmax为神经网络层的激活函数,该公式展示的是对于相对速度的注意力权重计算,相对距离的计算公式相同。然后将得到的t-2时刻到t时刻的weight矩阵输入到LSTM网络中,得到当前车辆的加速度at
评委网络(critic)总共分为三层,输入层、一个隐藏层和一个输出层,输入数据为当前环境状态和演员网络(actor)输出的加速度at,输出数据为网络的 Q值,其中隐藏层的激活函数为relu函数,即线性修正单元。计算公式如下:
Q=tanh(W0,relu(W1,st,at))
对于神经网络的训练部分,一个强化学习网络的核心部分在于为智能体找到一个离线的策略,在某个特定的环境状态下该策略输出的动作能够最大化奖励值。训练的计算公式如下:
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)
Figure RE-GDA0003327776700000071
Figure RE-GDA0003327776700000074
表示当前环境状态下的策略函数,θ表示网络参数,
Figure RE-GDA0003327776700000075
表示根据当前环境状态和演员网络(actor)输出的动作值计算出来的Q值,使用贝尔曼方程(Bellman)来更新,γ为贝尔曼方程(Bellman)中的折扣因子。
Figure RE-GDA0003327776700000076
Figure RE-GDA0003327776700000077
表示目标网络中的策略函数和Q函数,主要为了避免损失函数的发散。
在环境部分,本方案提供当前状态st和选取的动作值at输入到环境中,由环境来计算得出下一时刻的状态。计算公式如下:
Figure RE-GDA0003327776700000072
Figure RE-GDA0003327776700000073
这两个公式分别计算下一状态当前车辆的速度和纬度坐标Δt表示两个时间步之间的时间间隔,在本发明中为0.1s,其他车辆下一时刻的状态由环境直接提供,不需要计算。除了更新当前车辆的状态,环境还需要计算奖励值(reward)。本发明中奖励值综合考虑了交通安全性、驾驶员舒适度以及交通效率,让当前车辆能够在前车突然的变速行为后有良好的应对。奖励值(reward)的计算公式如下:
rt=W1*F(xt)+W2*G(yt)+W3*H(zt)
其中xt,yt,zt分别表示交通安全性、驾驶员舒适度以及交通效率,W1, W2,W3表示权重。
将本发明的速度决策输入到道路模拟环境中,采用四个指标来比较本发明与其他框架的表现,分别是受影响道路长度,道路回复时间,平均延迟指数,速度波动指数。每个指标的值越小,表示这个方法在面对幽灵堵车问题时能够有更好的表现。下面的表格给出本发明与其他框架的模拟结果。
Figure RE-GDA0003327776700000081
由表格可以看出,本发明每个指标都做到了比其他框架更好的效果,所以本发明能够更好地减轻车辆急剧变速行为的影响。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。

Claims (3)

1.一种基于时空数据强化学习的自动驾驶速度控制框架,其特征在于,包括:
离线训练:利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习;
在线模拟:使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现;
所述离线训练包括:
演员网络:由两个网络组成,当前演员网络和目标演员网络,采用长短期记忆神经网络和注意力机制网络结构,计算相邻两辆车之间的相对速度与相对距离的权重;
其中,所述演员网络的输入部分为一个存储车辆历史时空数据的矩阵:
Figure FDA0003817989430000011
矩阵中的每一个元素由两个部分组成,分别为相对速度和相对距离:
Figure FDA0003817989430000012
其中,λ为选取的时间步数,m为选取的前车数量,t为当前时刻;
所述相对速度与相对距离的权重计算公式如下:
Figure FDA0003817989430000013
Figure FDA0003817989430000014
Figure FDA0003817989430000015
其中,Wi为神经网络中的参数,tanh和softmax为神经网络层的激活函数,A为自动驾驶车辆,C为普通车辆,m指选取的前车数量,r指速度,V是相对速度,τ表示时间,该公式展示的是对于相对速度的注意力权重计算,相对距离的计算公式相同;然后将得到的t-2时刻到t时刻的注意力权重矩阵weight矩阵输入到LSTM网络中,得到当前车辆的加速度at
评委网络:由两个网络组成,当前评委网络和目标评委网络,两个网络均包括一个输入层、一个隐藏层和一个输出层,输入层输入当前环境状态和演员网络输出的加速度,经隐藏层计算后,输出层输出当前速度控制模型的好坏程度评价函数Q值;
所述隐藏层的激活函数为relu函数,Q值的计算公式如下:
Q=tanh(W0,relu(W1,st,at))
其中,W为神经网络参数、st指在该时间步下车辆的状态;
根据得到的Q值,对网络的训练公式如下:
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)
Figure FDA0003817989430000021
其中yi表示离线训练的当前网络的Q值,ri表示在当前状态下采取某个动作的奖励值,L表示更新演员网络的损失函数;N表示样本数,μ(s|θu)表示当前环境状态下的策略函数,θ表示网络参数,Q(s,a|θQ)表示根据当前环境状态和演员网络输出的动作值计算出来的Q值,使用贝尔曼方程来更新,γ为贝尔曼方程中的折扣因子;μ’(s|θu′)和Q′(s,a|θQ′)表示离线训练的目标网络中的策略函数和Q函数,主要为了避免损失函数的发散;
交互环境:根据车辆当前状态计算得出车辆的下一时刻状态并计算奖励值。
2.根据权利要求1所述的一种基于时空数据强化学习的自动驾驶速度控制框架,其特征在于,所述车辆的下一时刻状态的计算公式如下:
Figure FDA0003817989430000022
Figure FDA0003817989430000023
两个公式分别计算下一状态当前车辆的速度和纬度坐标;Δt表示两个时间步之间的时间间隔。
3.根据权利要求2所述的一种基于时空数据强化学习的自动驾驶速度控制框架,其特征在于,所述奖励值的的计算公式如下:
rt=W1*F(xt)+W2*G(yt)+W3*H(zt)
其中xt,yt,zt分别表示交通安全性、驾驶员舒适度以及交通效率,W1,W2,W3表示权重。
CN202111043124.4A 2021-09-07 2021-09-07 一种基于时空数据强化学习的自动驾驶速度控制框架 Active CN113741464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043124.4A CN113741464B (zh) 2021-09-07 2021-09-07 一种基于时空数据强化学习的自动驾驶速度控制框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043124.4A CN113741464B (zh) 2021-09-07 2021-09-07 一种基于时空数据强化学习的自动驾驶速度控制框架

Publications (2)

Publication Number Publication Date
CN113741464A CN113741464A (zh) 2021-12-03
CN113741464B true CN113741464B (zh) 2022-10-21

Family

ID=78736417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043124.4A Active CN113741464B (zh) 2021-09-07 2021-09-07 一种基于时空数据强化学习的自动驾驶速度控制框架

Country Status (1)

Country Link
CN (1) CN113741464B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114355793B (zh) * 2021-12-24 2023-12-29 阿波罗智能技术(北京)有限公司 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置
CN116653962A (zh) * 2023-07-12 2023-08-29 南京项尚车联网技术有限公司 一种智能驾驶车辆高效节能系统及节能方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201803599D0 (en) * 2018-03-06 2018-04-18 Morpheus Labs Ltd Behaviour models for autonomous vehicle simulators
CN109733415B (zh) * 2019-01-08 2020-08-14 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
WO2020256177A1 (ko) * 2019-06-18 2020-12-24 엘지전자 주식회사 차량 제어 방법
CN110262511B (zh) * 2019-07-12 2022-08-09 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN111222630B (zh) * 2020-01-17 2023-07-25 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN111311945B (zh) * 2020-02-20 2021-07-09 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN112965499B (zh) * 2021-03-08 2022-11-01 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法

Also Published As

Publication number Publication date
CN113741464A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN110750877B (zh) 一种Apollo平台下的车辆跟驰行为预测方法
Li et al. A reinforcement learning-based vehicle platoon control strategy for reducing energy consumption in traffic oscillations
CN113741464B (zh) 一种基于时空数据强化学习的自动驾驶速度控制框架
CN111222630B (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN107203134A (zh) 一种基于深度卷积神经网络的前车跟随方法
CN109726804B (zh) 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
Zheng et al. Behavioral decision‐making model of the intelligent vehicle based on driving risk assessment
CN114170789B (zh) 基于时空图神经网络的智能网联车换道决策建模方法
CN102109821A (zh) 车辆自适应巡航控制系统及方法
CN103324085A (zh) 基于监督式强化学习的最优控制方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
Qiao et al. Behavior planning at urban intersections through hierarchical reinforcement learning
Liu et al. Impact of sharing driving attitude information: A quantitative study on lane changing
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
CN111824182A (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN110390398B (zh) 在线学习方法
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN115871742A (zh) 一种多场景下人机混驾智能列车的控制方法
CN114779764A (zh) 基于行车风险分析的车辆强化学习运动规划方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
Kong et al. Decision-making under on-ramp merge scenarios by distributional soft actor-critic algorithm
CN113140104A (zh) 一种车辆列队跟踪控制方法、装置及计算机可读存储介质
CN113552883B (zh) 基于深度强化学习的地面无人车自主驾驶方法及系统
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
CN117709602B (zh) 一种基于社会价值取向的城市智能车辆拟人化决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant