CN113741464A - 一种基于时空数据强化学习的自动驾驶速度控制框架 - Google Patents
一种基于时空数据强化学习的自动驾驶速度控制框架 Download PDFInfo
- Publication number
- CN113741464A CN113741464A CN202111043124.4A CN202111043124A CN113741464A CN 113741464 A CN113741464 A CN 113741464A CN 202111043124 A CN202111043124 A CN 202111043124A CN 113741464 A CN113741464 A CN 113741464A
- Authority
- CN
- China
- Prior art keywords
- network
- vehicle
- current
- time
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000004088 simulation Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 22
- 230000008859 change Effects 0.000 abstract description 11
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于时空数据强化学习的自动驾驶速度控制框架,主要解决自动驾驶汽车难以及时对较远车辆的急剧变速行为做出反应的延时性问题。该控制框架包括离线训练:利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习;在线模拟:使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现。采用本发明的速度控制框架的自动驾驶车辆能够在复杂的交通环境中有良好的表现,本发明综合考虑了交通安全性,驾驶员舒适度和交通效率,使用了长短期记忆神经网络(LSTM),能够让自动驾驶汽车在进行速度决策时不只是考虑当前时刻的环境数据,可以同时考虑多个历史时刻的环境数据,让自动驾驶车辆能够在遇到突然的变速行为有更好的表现。
Description
技术领域
本发明属于自动驾驶技术领域,具体地说,是涉及一种基于时空数据强化学习的自动驾驶速度控制框架。
背景技术
随着城市化的快速发展,许多城市都在遭受不同程度的交通拥堵。经过调查发现,大部分的交通拥堵属于“幽灵”式堵车,导致人们出行时间严重延长、燃料浪费以及空气污染等。而这种“幽灵”式堵车经常发生高密度交通中,没有任何交通事故或者道路施工等明显迹象,其根本原因是驾驶员恶劣的驾驶行为(如急刹车、急加速)所产生的连锁效应在车流中传递,导致交通严重的延误甚至堵车。
对于自动驾驶车辆的单车道速度控制,可以分为基于模仿的控制框架与基于跟车行驶的控制框架。其中,基于模仿的控制框架主要使用机器学习的方法进行轨迹预测,搭建一个机器学习的框架对人类的驾驶行为进行学习,通过学习周围环境特征与周围车辆的行为对每一时刻的变速行为进行控制。这一类方法主要使用循环神经网络(RNN)来学习车辆运动行为,通过学习前一段时间内当前车辆与周围车辆的交互特征来决定下一时刻的变速行为。其改进方法可以使用长短期记忆神经网络(LSTM)来提升车辆在复杂情况下的表现,更好地预测自动驾驶车辆的未来轨迹。但是循环神经网络(RNN)与长短期记忆神经网络(LSTM)对于不同时刻的车辆轨迹数据都是共享权重的,然而,不同时刻或者不同周围车辆对当前车辆行为的影响是不同的。例如,当前车辆可能更关注周围车辆前一时刻的状态,或者在一些突发情况下,当前车辆应该更关注某一车辆突然的速度变化,从而更好的对当前时刻的变速行为进行控制。所以,对于不同时刻不同周围车辆的状态应该分配不同权重,于是带有注意力机制 (Attention)的长短期记忆神经网络模型出现。但是基于模仿的速度控制模型存在着一个重要的限制,因为人类不可避免的会产生一些不合理的驾驶行为,一份比较差的学习数据将会严重影响自动驾驶车辆的稳定性与安全性。对于基于跟车行驶的速度框架,传统方法是使用基于模型预测控制的自适应巡航控制框架(MPC-ACC)来决定车辆的速度,利用周围环境的特征计算出最合理的跟车距离与跟车速度,这种方法在比较简单的环境中能够有较好的表现,但是对于现实生活中的复杂场景来说,该模型存在明显的局限性,该模型难以考虑到所有的环境特征,通过数学公式来计算车辆某一时刻的行为难以适用于复杂的交通环境。于是,有人提出使用深度强化学习的方法来控制车辆某一时刻的行为,最具有代表性的有深度确定性策略梯度算法(DDPG),设计一个综合考虑交通效率,交通安全与驾驶员舒适性的奖励机制,将现实数据输入模型,由强化学习智能体(RL agent)来对车辆速度行为进行探索,通过模型的反馈结果来对智能体的行为进行指导与改进,输出奖励值最高的变速决策。
发明内容
本发明的目的在于提供一种基于时空数据强化学习的自动驾驶速度控制框架,主要解决自动驾驶汽车难以及时对较远车辆的急剧变速行为做出反应的延时性问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于时空数据强化学习的自动驾驶速度控制框架,包括:
离线训练:利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习;
在线模拟:使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现;
所述离线训练包括:
演员网络:由两个网络组成,当前演员网络和目标演员网络,采用长短期记忆神经网络和注意力机制网络结构,计算相邻两辆车之间的相对速度与相对距离的权重;
评委网络:由两个网络组成,当前评委网络和目标评委网络,两个网络均包括一个输入层、一个隐藏层和一个输出层,输入层输入当前环境状态和演员网络输出的加速度,经隐藏层计算后,输出层输出当前速度控制模型的好坏程度评价函数Q值;
交互环境:根据车辆当前状态计算得出车辆的下一时刻状态并计算奖励值。
进一步地,在本发明中,所述演员网络的输入部分为一个存储车辆历史时空数据的矩阵:
矩阵中的每一个元素由两个部分组成,分别为相对速度和相对距离:
其中,λ为选取的时间步数,m为选取的前车数量,t为当前时刻。
进一步地,在本发明中,所述相对速度与相对距离的权重计算公式如下:
其中,Wi为神经网络中的参数,tanh和softmax为神经网络层的激活函数, A为自动驾驶车辆,C为普通车辆,m指车辆总数,r指速度,V是相对速度, T表示时间,该公式展示的是对于相对速度的注意力权重计算,相对距离的计算公式相同;然后将得到的t-2时刻到t时刻的注意力权重矩阵weight矩阵输入到LSTM网络中,得到当前车辆的加速度at。
进一步地,在本发明中,所述隐藏层的激活函数为relu函数,Q值的计算公式如下:
Q=tanh(W0,relu(W1,St,at))
其中,W为神经网络参数、st指在该时间步下车辆的状态;
根据得到的Q值,对网络的训练公式如下:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中yi表示离线训练的当前网络的Q值,ri表示在当前状态下采取某个动作的奖励值,L表示更新演员网络的损失函数;N表示样本数,表示当前环境状态下的策略函数,θ表示网络参数,表示根据当前环境状态和演员网络输出的动作值计算出来的Q值,使用贝尔曼方程来更新,γ为贝尔曼方程中的折扣因子;和表示离线训练的目标网络中的策略函数和Q函数,主要为了避免损失函数的发散。
进一步地,在本发明中,所述车辆的下一时刻状态的计算公式如下:
两个公式分别计算下一状态当前车辆的速度和纬度坐标;Δt表示两个时间步之间的时间间隔。
进一步地,在本发明中,所述奖励值的的计算公式如下:
rt=W1*F(xt)+W2*G(yt)+W3*H(zt)
其中xt,yt,zt分别表示交通安全性、驾驶员舒适度以及交通效率,W1, W2,W3表示权重。
与现有技术相比,本发明具有以下有益效果:
(1)采用本发明的速度控制框架的自动驾驶车辆能够在复杂的交通环境中有良好的表现,本发明综合考虑了交通安全性,驾驶员舒适度和交通效率,使用了长短期记忆神经网络(LSTM),能够让自动驾驶汽车在进行速度决策时不只是考虑前一时刻的环境数据,可以同时考虑多个历史时刻的环境数据,让自动驾驶车辆能够在遇到突然的变速行为有更好的表现。对于输入的环境数据,本发明使用(Attention)机制对不同的车辆数据分配不同的权重,作用是能区分前方不同车辆对当前车辆的影响,因为真实场景中,离当前车辆越近影响越大,所以对前方不同车辆提取出来的特征赋予不同的权重。
(2)本发明中整个网络模型采用了深度确定性策略梯度算法(DDPG)的架构,通过智能体(agent)的不断探索,以及环境的奖励值反馈来学习最好的速度决策行为,让自动驾驶汽车能够拥有比人类决策数据更合理地决策行为,能够有效地缓解由驾驶员恶劣的驾驶行为所导致的“幽灵”式堵车。
(3)本发明在保持让自动驾驶车辆本身安全、舒适、有效率地行驶的同时,能有效地缓解或阻断由前方车辆恶劣驾驶所导致的连锁效应,从而在根本上解决了幽灵堵车。
附图说明
图1为本发明的基于强化学习的速度决策网络框架。
图2为本发明的强化学习中的策略网络的详细结构。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
实施例
如图1、2所示,本发明公开的一种基于时空数据强化学习的自动驾驶速度控制框架,方案整体基于长短期记忆神经网络(LSTM)和注意力机制(Attention) 的深度确定性策略梯度算法(DDPG)框架,用于对自动驾驶车辆的速度控制。该框架主要包括一个离线训练部分与在线模拟部分,离线训练部分主要通过现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习,在线模拟部分则使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现。
对于离线训练部分,与深度确定性策略梯度算法(DDPG)结构相同,由演员网络(actor)、评委网络(critic)和环境(environment)三部分组成。
演员网络的输入是一个存储车辆历史时空数据的矩阵:
矩阵中的每一个元素由两个部分组成,分别为相对速度和相对距离。
时空数据矩阵的行数为选取的时间步数λ,矩阵的列数为选取的前车数量 m。本发明选取的λ和m的值都为3,当前时刻为t,输入数据包含了从t-2时刻到t时刻的信息,每一时刻包含相邻两辆车之间的相对速度与相对距离。
在演员网络(actor)中,我们采用了长短期记忆神经网络(LSTM)和注意力机制(Attention)作为演员网络(actor)的网络结构,因为我们需要考虑到不同时刻不同车辆对当前车辆变速决策的影响,我们采用了注意力机制(Attention) 来处理输入的时空数据,对相对速度与相对距离分别计算权重,计算公式如下:
其中,Wi为神经网络中的参数,tanh和softmax为神经网络层的激活函数,该公式展示的是对于相对速度的注意力权重计算,相对距离的计算公式相同。然后将得到的t-2时刻到t时刻的weight矩阵输入到LSTM网络中,得到当前车辆的加速度at。
评委网络(critic)总共分为三层,输入层、一个隐藏层和一个输出层,输入数据为当前环境状态和演员网络(actor)输出的加速度at,输出数据为网络的 Q值,其中隐藏层的激活函数为relu函数,即线性修正单元。计算公式如下:
Q=tanh(W0,relu(W1,st,at))
对于神经网络的训练部分,一个强化学习网络的核心部分在于为智能体找到一个离线的策略,在某个特定的环境状态下该策略输出的动作能够最大化奖励值。训练的计算公式如下:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
表示当前环境状态下的策略函数,θ表示网络参数,表示根据当前环境状态和演员网络(actor)输出的动作值计算出来的Q值,使用贝尔曼方程(Bellman)来更新,γ为贝尔曼方程(Bellman)中的折扣因子。和表示目标网络中的策略函数和Q函数,主要为了避免损失函数的发散。
在环境部分,本方案提供当前状态st和选取的动作值at输入到环境中,由环境来计算得出下一时刻的状态。计算公式如下:
这两个公式分别计算下一状态当前车辆的速度和纬度坐标Δt表示两个时间步之间的时间间隔,在本发明中为0.1s,其他车辆下一时刻的状态由环境直接提供,不需要计算。除了更新当前车辆的状态,环境还需要计算奖励值(reward)。本发明中奖励值综合考虑了交通安全性、驾驶员舒适度以及交通效率,让当前车辆能够在前车突然的变速行为后有良好的应对。奖励值(reward)的计算公式如下:
rt=W1*F(xt)+W2*G(yt)+W3*H(zt)
其中xt,yt,zt分别表示交通安全性、驾驶员舒适度以及交通效率,W1, W2,W3表示权重。
将本发明的速度决策输入到道路模拟环境中,采用四个指标来比较本发明与其他框架的表现,分别是受影响道路长度,道路回复时间,平均延迟指数,速度波动指数。每个指标的值越小,表示这个方法在面对幽灵堵车问题时能够有更好的表现。下面的表格给出本发明与其他框架的模拟结果。
由表格可以看出,本发明每个指标都做到了比其他框架更好的效果,所以本发明能够更好地减轻车辆急剧变速行为的影响。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。
Claims (6)
1.一种基于时空数据强化学习的自动驾驶速度控制框架,其特征在于,包括:
离线训练:利用现实生活中的车辆驾驶数据对自动驾驶车辆的速度决策进行学习;
在线模拟:使用已经训练好的网络来检测自动驾驶车辆在特定场景下的表现;
所述离线训练包括:
演员网络:由两个网络组成,当前演员网络和目标演员网络,采用长短期记忆神经网络和注意力机制网络结构,计算相邻两辆车之间的相对速度与相对距离的权重;
评委网络:由两个网络组成,当前评委网络和目标评委网络,两个网络均包括一个输入层、一个隐藏层和一个输出层,输入层输入当前环境状态和演员网络输出的加速度,经隐藏层计算后,输出层输出当前速度控制模型的好坏程度评价函数Q值;
交互环境:根据车辆当前状态计算得出车辆的下一时刻状态并计算奖励值。
4.根据权利要求3所述的一种基于时空数据强化学习的自动驾驶速度控制框架,其特征在于,所述隐藏层的激活函数为relu函数,Q值的计算公式如下:
Q=tanh(W0,relu(W1,st,at))
其中,W为神经网络参数、st指在该时间步下车辆的状态;
根据得到的Q值,对网络的训练公式如下:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
6.根据权利要求5所述的一种基于时空数据强化学习的自动驾驶速度控制框架,其特征在于,所述奖励值的的计算公式如下:
rt=W1*F(xt)+W2*G(yt)+W3*H(zt)
其中xt,yt,zt分别表示交通安全性、驾驶员舒适度以及交通效率,W1,W2,W3表示权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043124.4A CN113741464B (zh) | 2021-09-07 | 2021-09-07 | 一种基于时空数据强化学习的自动驾驶速度控制框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043124.4A CN113741464B (zh) | 2021-09-07 | 2021-09-07 | 一种基于时空数据强化学习的自动驾驶速度控制框架 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113741464A true CN113741464A (zh) | 2021-12-03 |
CN113741464B CN113741464B (zh) | 2022-10-21 |
Family
ID=78736417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111043124.4A Active CN113741464B (zh) | 2021-09-07 | 2021-09-07 | 一种基于时空数据强化学习的自动驾驶速度控制框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113741464B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114355793A (zh) * | 2021-12-24 | 2022-04-15 | 阿波罗智能技术(北京)有限公司 | 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置 |
CN114859921A (zh) * | 2022-05-12 | 2022-08-05 | 鹏城实验室 | 一种基于强化学习的自动驾驶优化方法及相关设备 |
CN116653962A (zh) * | 2023-07-12 | 2023-08-29 | 南京项尚车联网技术有限公司 | 一种智能驾驶车辆高效节能系统及节能方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN110262511A (zh) * | 2019-07-12 | 2019-09-20 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN111311945A (zh) * | 2020-02-20 | 2020-06-19 | 南京航空航天大学 | 一种融合视觉和传感器信息的驾驶决策系统及方法 |
US20210049415A1 (en) * | 2018-03-06 | 2021-02-18 | Waymo UK Ltd. | Behaviour Models for Autonomous Vehicle Simulators |
CN112965499A (zh) * | 2021-03-08 | 2021-06-15 | 哈尔滨工业大学(深圳) | 基于注意力模型和深度强化学习的无人车行驶决策方法 |
US20210403019A1 (en) * | 2019-06-18 | 2021-12-30 | Lg Electronics Inc. | Vehicle control method |
-
2021
- 2021-09-07 CN CN202111043124.4A patent/CN113741464B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210049415A1 (en) * | 2018-03-06 | 2021-02-18 | Waymo UK Ltd. | Behaviour Models for Autonomous Vehicle Simulators |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
US20210403019A1 (en) * | 2019-06-18 | 2021-12-30 | Lg Electronics Inc. | Vehicle control method |
CN110262511A (zh) * | 2019-07-12 | 2019-09-20 | 同济人工智能研究院(苏州)有限公司 | 基于深度强化学习的双足机器人自适应性行走控制方法 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN111311945A (zh) * | 2020-02-20 | 2020-06-19 | 南京航空航天大学 | 一种融合视觉和传感器信息的驾驶决策系统及方法 |
CN112965499A (zh) * | 2021-03-08 | 2021-06-15 | 哈尔滨工业大学(深圳) | 基于注意力模型和深度强化学习的无人车行驶决策方法 |
Non-Patent Citations (5)
Title |
---|
TAKAFUMI OKUYAMA.ETC: "Autonomous Driving System based on Deep Q Learnig", 《2018 INTERNATIONAL CONFERENCE ON INTELLIGENT AUTONOMOUS SYSTEMS》 * |
吕维: "基于深度增强学习的智能车安全并道决策研究", 《中国优秀硕士学位论文全文数据库》 * |
梁黄黄: "融合时空特征的端到端驾驶决策算法及仿真实现", 《中国优秀硕士学位论文全文数据库》 * |
王丙琛: "基于深度强化学习的自动驾驶决策控制研究", 《中国优秀硕士学位论文全文数据库》 * |
王丙琛等: "基于深度强化学习的自动驾驶车控制算法研究", 《郑州大学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114355793A (zh) * | 2021-12-24 | 2022-04-15 | 阿波罗智能技术(北京)有限公司 | 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置 |
CN114355793B (zh) * | 2021-12-24 | 2023-12-29 | 阿波罗智能技术(北京)有限公司 | 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置 |
CN114859921A (zh) * | 2022-05-12 | 2022-08-05 | 鹏城实验室 | 一种基于强化学习的自动驾驶优化方法及相关设备 |
CN116653962A (zh) * | 2023-07-12 | 2023-08-29 | 南京项尚车联网技术有限公司 | 一种智能驾驶车辆高效节能系统及节能方法 |
CN116653962B (zh) * | 2023-07-12 | 2024-06-07 | 南京项尚车联网技术有限公司 | 一种智能驾驶车辆高效节能系统及节能方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113741464B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A reinforcement learning-based vehicle platoon control strategy for reducing energy consumption in traffic oscillations | |
CN110750877B (zh) | 一种Apollo平台下的车辆跟驰行为预测方法 | |
Wang et al. | Continuous control for automated lane change behavior based on deep deterministic policy gradient algorithm | |
CN113741464B (zh) | 一种基于时空数据强化学习的自动驾驶速度控制框架 | |
CN111780777A (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN110745136A (zh) | 一种驾驶自适应控制方法 | |
CN107203134A (zh) | 一种基于深度卷积神经网络的前车跟随方法 | |
CN109726804B (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
CN112365724A (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
CN114170789B (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
CN114379583B (zh) | 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法 | |
CN114312830A (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN115257745A (zh) | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
Liu et al. | Impact of sharing driving attitude information: A quantitative study on lane changing | |
CN115952736A (zh) | 一种多智能体目标协同搜索方法及系统 | |
CN111824182A (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN114802306A (zh) | 一种基于人机共驾理念的智能车辆集成式决策系统 | |
CN107450311A (zh) | 逆模型建模方法及装置、以及自适应逆控制方法及装置 | |
Xiaoqiang et al. | Graph convolution reinforcement learning for decision-making in highway overtaking scenario | |
CN114253274A (zh) | 基于数据驱动的网联混合车辆编队滚动优化控制方法 | |
Islam et al. | Enhancing Longitudinal Velocity Control With Attention Mechanism-Based Deep Deterministic Policy Gradient (DDPG) for Safety and Comfort | |
CN116258242A (zh) | 一种自动驾驶车辆反应式轨迹预测方法及系统 | |
Yuan et al. | From Naturalistic Traffic Data to Learning-Based Driving Policy: A Sim-to-Real Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |