CN109733415A - 一种基于深度强化学习的拟人化自动驾驶跟驰模型 - Google Patents

一种基于深度强化学习的拟人化自动驾驶跟驰模型 Download PDF

Info

Publication number
CN109733415A
CN109733415A CN201910014636.4A CN201910014636A CN109733415A CN 109733415 A CN109733415 A CN 109733415A CN 201910014636 A CN201910014636 A CN 201910014636A CN 109733415 A CN109733415 A CN 109733415A
Authority
CN
China
Prior art keywords
model
data
speed
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910014636.4A
Other languages
English (en)
Other versions
CN109733415B (zh
Inventor
王雪松
朱美新
孙平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910014636.4A priority Critical patent/CN109733415B/zh
Publication of CN109733415A publication Critical patent/CN109733415A/zh
Application granted granted Critical
Publication of CN109733415B publication Critical patent/CN109733415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Feedback Control In General (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度强化学习的拟人化自动驾驶跟驰模型,应用于自动驾驶跟驰控制领域。基于上海自然驾驶实验数据,将选取的快速路跟驰数据集分为训练数据和验证数据。使用深度确定性策略梯度(DDPG)深度强化学习方法,通过构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互,选取评价指标,设置奖励函数,选择神经网络结构,设置神经网络更新策略及超参数,设置探索策略,构建深度强化学习的拟人化跟驰模型。通过训练并测试模型,进一步优化模型。本发明模型在轨迹复现和泛化能力方面超越了传统跟驰模型和近期数据驱动跟驰模型,在模仿人类跟驰行为方面具有更高的优越性。

Description

一种基于深度强化学习的拟人化自动驾驶跟驰模型
技术领域
本发明涉及自动驾驶领域,特别涉及一种基于深度强化学习的拟人化自动驾驶跟驰模型。
背景技术
跟驰模型是后车根据前车运动状态调整自身运动状态的数学描述,其是通行能力估算、车辆前向避撞和自适应巡航系统的理论基础,亦是微观交通仿真软件的核心模型。跟驰模型以分析各车辆间跟驰的方式来理解单车道交通流特性,起到联系微观驾驶行为与宏观交通流的作用。
在自动驾驶与人类驾驶共存的情况下,自动驾驶车辆作出类似于人类驾驶员 (简称拟人化)的跟驰控制决策既提高乘客的舒适度与信任度,也方便其他交通参与者更好地理解和预测自动驾驶车辆的行为,以实现自动驾驶与人类驾驶之间的安全交互。然而传统跟驰模型在应用于自动跟驰控制时存在诸多局限性,如精度有限,泛化能力差及缺乏自适应更新能力。
深度强化学习(Deep Reinforcement Learning,DRL)以被广泛应用于工业制造、仿真模拟、机器人控制、优化与调度和游戏博弈等领域,其基本思想是通过最大化智能体从环境中获得的累计奖赏值,以学习到完成目标的最优策略。DRL 方法更加侧重于学习解决问题的策略,因此其泛化能力更强,可解决传统跟驰模型在应用于自动驾驶跟驰控制时的缺陷。基于海量实际驾驶行为数据,训练深度强化学习跟驰模型,将为自动驾驶车辆跟驰控制提供参考。
发明内容
本发明的目的在于克服技术不足,公开一种基于DRL的拟人化跟驰模型。基于上海自然驾驶实验数据,将选取的快速路跟驰数据集分为训练数据和验证数据。通过构建仿真环境以使RL智能体通过一系列状态、行动和奖励值与环境交互,选取评价指标,设置奖励函数,选择神经网络结构,设置神经网络跟新策略、超参数及探索策略,构建DRL的拟人化跟驰模型。通过训练并测试模型,进一步优化模型。从而适应自动驾驶场景,更好的模仿人类跟驰行为。
本发明的模型在轨迹复现和泛化能力方面超越了传统跟驰模型和近期数据驱动跟驰模型,在模仿人类跟驰行为方面具有更高的优越性。
本发明所采用的技术方案是:
一种基于深度强化学习的拟人化自动驾驶跟驰模型,步骤如下:
步骤1:采集手动驾驶阶段的数据,作为历史驾驶数据存储在数据库中。在上海自然驾驶实验数据中随机选择多名驾驶员的若干个快速路跟驰片段,从中随机选择一部分作为为训练数据,剩余部分作为验证数据。
步骤2:使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)深度强化学习方法,构建拟人化跟驰模型。
步骤2.1:构建仿真环境以使强化学习(Reinforcement Learning,RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入,后车速度、相对距离和相对速度用经验数据初始化,由RL智能体计算加速度,根据强化学习定义的状态更新规则迭代生成后车的未来状态,将仿真环境中的车间距、速度与SH-NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数,计算奖励值和模拟误差,当仿真车辆跟随事件在其最大时间步骤终止时,状态用经验数据集重新初始化。
步骤2.2:选取评价指标,设置奖励函数。采用间距和速度的均方根百分比误差(RMSPE,Root Mean Square Percentage Error)作为评估指标,采用间距和速度差异作为奖励函数的DDPG模型。Sn-1(t)和Vn(t)表示时间步t时的仿真环境中的模拟间距和速度,表示时间步t时的实际数据集中观察到的间距和速度。公式如下:
步骤2.3:选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络),演员和评论家网络有三层:输入层,输出层和包含30个神经元的隐层。在时间步长t内,演员网络将一个状态 st=(vn(t),△vn-1,n(t),△Sn-1,n(t))作为输入,并输出一个连续动作:后车加速度an(t)。评论家网络采用状态st和动作at作为输入,并输出状态动作价值Q(st,at)。其中, Sn-1,n(t)和vn(t)是时间步长t时的仿真环境中的模拟间距和速度。
步骤2.4:设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数,并采用自适应学习算法Adams。演员网络参数更新如下:演员输出的加速度被传递给评论网络,计算梯度传递给演员网络,并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1 所示。
步骤2.5:设置探索策略。采用Omstein-Uhlenbeck过程(产生以零为中心的时间相关值,从而在物理环境中进行良好探索)在原来的演员政策中增加一个噪音过程,形成探索策略。Omstein-Uhlenbeck过程产生以零为中心的时间相关值,从而在物理环境中进行良好的探索。
步骤3:训练模型。基于一个驾驶员的训练数据集对模型进行训练,保存或输出模型参数。将训练数据集中的若干跟驰时间顺序模拟,事件间切换时根据经验数据对状态进行初始化,一次训练结束后分别计算模型在训练和测试数据集上的误差。重复多次训练,并且选择产生最小训练和测试误差综合的模型作为最终模型。
步骤4:测试模型。基于上一步骤选定驾驶员的验证数据对训练后的模型进行验证,其误差用于评价模型的轨迹再现准确性。基于其余驾驶员的驾驶数据集,对模型重复验证,驾驶员间验证误差用来评价模型的泛化能力。
本发明的优点是:
1.采用大样本中国驾驶员实际跟驰数据,相较于采用国外数据或小规模试验道路数据,更加符合中国驾驶员跟驰行为的描述。
2.利用深度强化学习构建模型,合理改善了传统跟驰模型应用于自动跟驰控制时的局限性,更加适应自动驾驶场景,更好的模仿人类跟驰行为。
附图说明
图1为动作及评判网络结构图
图2为本发明的流程图
图3车辆跟随期间最小TTC的累积分布
图4(a)NGSIM经验数据和(b)DDPG模型跟车头时距分布
图5(a)NGSIM经验数据和(b)DDPG模型跟驰Jerk分布
具体实施方式
基于上海自然驾驶实验数据,选取快速路跟驰数据集分为训练数据和验证数据。通过构建仿真环境以使RL智能体通过一系列状态、行动和奖励值与环境交互,选取评价指标,设置奖励函数,选择神经网络结构,设置神经网络跟新策略、超参数及探索策略,构建DRL的拟人化跟驰模型。通过训练并测试模型,进一步优化模型。所发明的模型在模仿人类跟驰行为方面具有更高优越性。
下面结合附图和具体实施例对本发明进行详细说明,步骤如下:
步骤1:采集手动驾驶阶段的数据,作为历史驾驶数据存储在数据库中。在上海自然驾驶实验数据中随机选择多名驾驶员的若干个快速路跟驰片段,从中随机选择一部分作为为训练数据,剩余部分作为验证数据。
步骤2:使用深度确定性策略梯度(DDPG)深度强化学习方法,构建拟人化跟驰模型。
步骤2.1:构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入,后车速度、相对距离和相对速度用经验数据初始化,由RL智能体计算加速度,根据强化学习定义的状态更新规则迭代生成后车的未来状态,将仿真环境中的车间距、速度与SH-NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数,计算奖励值和模拟误差,当仿真车辆跟随事件在其最大时间步骤终止时,状态用经验数据集重新初始化。
步骤2.2:选取评价指标,设置奖励函数。采用间距和速度的均方根百分比误差(RMSPE,Root Mean Square Percentage Error)作为评估指标,采用间距和速度差异作为奖励函数的DDPG模型。Sn-1(t)和Vn(t)表示时间步t时的仿真环境中的模拟间距和速度,表示时间步t时的实际数据集中观察到的间距和速度。公式如下:
步骤2.3:选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络),演员和评论家网络有三层:输入层,输出层和包含30个神经元的隐层。在时间步长t内,演员网络将一个状态 st=(vn(t),△vn-1,n(t),△Sn-1,n(t))作为输入,并输出一个连续动作:后车加速度an(t)。评论家网络采用状态st和动作at作为输入,并输出状态动作价值Q(st,at)。其中, Sn-1,n(t)和vn(t)是时间步长t时的仿真环境中的模拟间距和速度。
步骤2.4:设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数,并采用自适应学习算法Adams。演员网络参数更新如下:演员输出的加速度被传递给评论网络,计算梯度传递给演员网络,并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1 所示。
步骤2.5:设置探索策略。采用Omstein-Uhlenbeck过程(产生以零为中心的时间相关值,从而在物理环境中进行良好探索)在原来的演员政策中增加一个噪音过程,形成探索策略。Omstein-Uhlenbeck过程产生以零为中心的时间相关值,从而在物理环境中进行良好的探索。
步骤3:训练模型。基于一个驾驶员的训练数据集对模型进行训练,保存或输出模型参数。将训练数据集中的若干跟驰时间顺序模拟,事件间切换时根据经验数据对状态进行初始化,一次训练结束后分别计算模型在训练和测试数据集上的误差。重复多次训练,并且选择产生最小训练和测试误差综合的模型作为最终模型。
步骤4:测试模型。基于上一步骤选定驾驶员的验证数据对训练后的模型进行验证,其误差用于评价模型的轨迹再现准确性。基于其余驾驶员的驾驶数据集,对模型重复验证,驾驶员间验证误差用来评价模型的泛化能力。
实施例
通过比较经验NGSIM数据和DDPG模型模拟得到的跟驰行为,测试该模型能够安全、高效、舒适的跟随前车。
所用数据是从美国加利福尼亚州洛杉矶美国高速公路101(好莱坞高速公路) 的南行方向获取。依据上述步骤1至步骤4。
驾驶安全性方面,NGSIM经验数据和DDPG模型模拟得到最小碰撞时间的累积分布,由DDPG模型产生的跟驰行为比在NGSIM数据中观察到的驾驶员行为更安全。如图3所示。
驾驶效率方面,DDPG模型有能力保持高效且安全的跟驰车头时距。如图4所示。
驾驶舒适性方面,图5表明DDPG模型产生的加速度波动更低,DDPG模型可以比NGSIM数据中的人类驾驶员以更舒适的方式控制车辆速度。图5如下。
基于以上,DDPG模型证明了其安全、高效和舒适驾驶的能力。

Claims (1)

1.一种基于深度强化学习的拟人化自动驾驶跟驰模型,其特征在于,步骤如下:
步骤1:采集手动驾驶阶段的数据,作为历史驾驶数据存储在数据库中。在上海自然驾驶实验数据中随机选择多名驾驶员的若干个快速路跟驰片段,从中随机选择一部分作为为训练数据,剩余部分作为验证数据。
步骤2:使用深度确定性策略梯度(DDPG)深度强化学习方法,构建拟人化跟驰模型。
步骤2.1:构建仿真环境以使强化学习(RL)智能体通过一系列状态、行动和奖励值与环境交互。将前车数据作为外部输入,后车速度、相对距离和相对速度用经验数据初始化,由RL智能体计算加速度,根据强化学习定义的状态更新规则迭代生成后车的未来状态,将仿真环境中的车间距、速度与SH-NDS数据的经验车间隔、速度通过设置评价指标设置奖励函数,计算奖励值和模拟误差,当仿真车辆跟随事件在其最大时间步骤终止时,状态用经验数据集重新初始化。
步骤2.2:选取评价指标,设置奖励函数。采用间距和速度的均方根百分比误差(RMSPE,Root Mean Square Percentage Error)作为评估指标,采用间距和速度差异作为奖励函数的DDPG模型。Sn-1(t)和Vn(t)表示时间步t时的仿真环境中的模拟间距和速度,表示时间步t时的实际数据集中观察到的间距和速度。公式如下:
步骤2.3:选择神经网络结构。选择演员和评论家分别代表两个独立的神经网络(演员网络、评论者网络),演员和评论家网络有三层:输入层,输出层和包含30个神经元的隐层。在时间步长t内,演员网络将一个状态st=(vn(t),△vn-1,n(t),△Sn-1,n(t))作为输入,并输出一个连续动作:后车加速度an(t)。评论家网络采用状态st和动作at作为输入,并输出状态动作价值Q(st,at)。其中,Sn-1,n(t)和vn(t)是时间步长t时的仿真环境中的模拟间距和速度。
步骤2.4:设置神经网络更新策略及超参数。评论者网络的权重系数使用随机梯度下降算法进行更新以最小化损失函数,并采用自适应学习算法Adams。演员网络参数更新如下:演员输出的加速度被传递给评论网络,计算梯度传递给演员网络,并根据更新演员网络的参数。根据前人研究及通过测试随机采样的训练数据集确定超参数的值。动作及评判网络结构如图1所示。
步骤2.5:设置探索策略。采用Omstein-Uhlenbeck过程(产生以零为中心的时间相关值,从而在物理环境中进行良好探索)在原来的演员政策中增加一个噪音过程,形成探索策略。Omstein-Uhlenbeck过程产生以零为中心的时间相关值,从而在物理环境中进行良好的探索。
步骤3:训练模型。基于一个驾驶员的训练数据集对模型进行训练,保存或输出模型参数。将训练数据集中的若干跟驰时间顺序模拟,事件间切换时根据经验数据对状态进行初始化,一次训练结束后分别计算模型在训练和测试数据集上的误差。重复多次训练,并且选择产生最小训练和测试误差综合的模型作为最终模型。
步骤4:测试模型。基于上一步骤选定驾驶员的验证数据对训练后的模型进行验证,其误差用于评价模型的轨迹再现准确性。基于其余驾驶员的驾驶数据集,对模型重复验证,驾驶员间验证误差用来评价模型的泛化能力。
CN201910014636.4A 2019-01-08 2019-01-08 一种基于深度强化学习的拟人化自动驾驶跟驰模型 Active CN109733415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910014636.4A CN109733415B (zh) 2019-01-08 2019-01-08 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910014636.4A CN109733415B (zh) 2019-01-08 2019-01-08 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Publications (2)

Publication Number Publication Date
CN109733415A true CN109733415A (zh) 2019-05-10
CN109733415B CN109733415B (zh) 2020-08-14

Family

ID=66363898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910014636.4A Active CN109733415B (zh) 2019-01-08 2019-01-08 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Country Status (1)

Country Link
CN (1) CN109733415B (zh)

Cited By (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222824A (zh) * 2019-06-05 2019-09-10 中国科学院自动化研究所 智能算法模型自主生成及进化方法、系统、装置
CN110299008A (zh) * 2019-07-19 2019-10-01 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110374804A (zh) * 2019-07-03 2019-10-25 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法
CN110414669A (zh) * 2019-07-02 2019-11-05 四川大学 一种加速神经网络结构选择的方法
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110688729A (zh) * 2019-08-26 2020-01-14 南京航空航天大学 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
CN110843746A (zh) * 2019-11-28 2020-02-28 的卢技术有限公司 一种基于强化学习的防抱死刹车控制方法及系统
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111026272A (zh) * 2019-12-09 2020-04-17 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111340234A (zh) * 2020-02-27 2020-06-26 南京星火技术有限公司 视频数据处理方法、装置、电子设备和计算机可读介质
CN111353644A (zh) * 2020-02-27 2020-06-30 成都美云智享智能科技有限公司 基于强化学习的智能网联云平台的预测模型生成方法
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111679660A (zh) * 2020-06-16 2020-09-18 中国科学院深圳先进技术研究院 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN111845701A (zh) * 2020-08-05 2020-10-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法
CN111950735A (zh) * 2020-06-30 2020-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN111967087A (zh) * 2020-07-16 2020-11-20 山东派蒙机电技术有限公司 基于神经网络的网联车辆决策控制模型建立及评估方法
CN112034834A (zh) * 2019-05-15 2020-12-04 百度(美国)有限责任公司 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
CN112052947A (zh) * 2020-08-17 2020-12-08 清华大学 基于策略选项的分层强化学习方法和装置
CN112172813A (zh) * 2020-10-14 2021-01-05 长安大学 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN112201070A (zh) * 2020-09-29 2021-01-08 上海交通大学 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112292699A (zh) * 2019-05-15 2021-01-29 创新先进技术有限公司 确定执行设备的动作选择方针
WO2021057059A1 (zh) * 2019-09-29 2021-04-01 华为技术有限公司 一种神经网络的获取方法以及相关设备
CN112614344A (zh) * 2020-12-14 2021-04-06 中汽研汽车试验场股份有限公司 一种自动驾驶汽车参与的混合交通系统效能评估方法
CN112682184A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆控制方法
CN112801149A (zh) * 2021-01-15 2021-05-14 江苏大学 一种基于深度强化学习的多车队列控制方法
CN113010967A (zh) * 2021-04-22 2021-06-22 吉林大学 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113095500A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于多智能体强化学习的机器人追捕方法
CN113176739A (zh) * 2020-01-09 2021-07-27 丰田自动车株式会社 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质
CN113255893A (zh) * 2021-06-01 2021-08-13 北京理工大学 一种多智能体行动策略自演进生成方法
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113359771A (zh) * 2021-07-06 2021-09-07 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113386790A (zh) * 2021-06-09 2021-09-14 扬州大学 一种面向跨海大桥路况的自动驾驶决策方法
CN113401132A (zh) * 2021-07-29 2021-09-17 国汽智控(北京)科技有限公司 一种驾驶模型更新方法、装置及电子设备
CN113569477A (zh) * 2021-07-26 2021-10-29 北京航空航天大学 一种基于深度强化学习和迁移学习的增升装置优化方法
CN113741464A (zh) * 2021-09-07 2021-12-03 电子科技大学 一种基于时空数据强化学习的自动驾驶速度控制框架
CN113821057A (zh) * 2021-10-14 2021-12-21 哈尔滨工业大学 一种基于强化学习的行星软着陆控制方法及系统和存储介质
CN113901718A (zh) * 2021-10-11 2022-01-07 长安大学 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
CN113968242A (zh) * 2020-07-22 2022-01-25 华为技术有限公司 自动驾驶场景生成方法、装置及系统
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114148349A (zh) * 2021-12-21 2022-03-08 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
WO2022120970A1 (zh) * 2020-12-10 2022-06-16 中国科学院深圳先进技术研究院 一种基于交互式强化学习的订单分派方法及系统
CN114677837A (zh) * 2022-03-16 2022-06-28 杭州海康威视数字技术股份有限公司 一种基于雷视数据的交通仿真方法、装置及电子设备
CN114770497A (zh) * 2022-03-31 2022-07-22 中国人民解放军陆军工程大学 一种搜救机器人的搜救方法、装置及存储介质
US11465650B2 (en) * 2019-09-20 2022-10-11 Honda Motor Co., Ltd. Model-free reinforcement learning
CN116489683A (zh) * 2023-06-21 2023-07-25 北京邮电大学 空天地网络中的计算任务卸载方法、装置和电子设备
CN116822618A (zh) * 2023-08-30 2023-09-29 北京汉勃科技有限公司 基于动态噪声网络的深度强化学习探索方法及组件
CN117227763A (zh) * 2023-11-10 2023-12-15 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117474295A (zh) * 2023-12-26 2024-01-30 长春工业大学 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KYUSHIK MIN ET AL.: "Deep Q Learning Based High Level Driving Policy Determination", 《 2018 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV)》 *
YI ZHANG ET AL.: "Human-like Autonomous Vehicle Speed Control by Deep Reinforcement Learning with Double Q-Learning", 《2018 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV)》 *
陈银银: "面向无人驾驶的增强学习算法研究", 《 CNKI优秀硕士学位论文全文库》 *

Cited By (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112292699A (zh) * 2019-05-15 2021-01-29 创新先进技术有限公司 确定执行设备的动作选择方针
CN112034834B (zh) * 2019-05-15 2024-06-18 百度(美国)有限责任公司 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
CN112034834A (zh) * 2019-05-15 2020-12-04 百度(美国)有限责任公司 使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
CN110222824A (zh) * 2019-06-05 2019-09-10 中国科学院自动化研究所 智能算法模型自主生成及进化方法、系统、装置
CN110414669A (zh) * 2019-07-02 2019-11-05 四川大学 一种加速神经网络结构选择的方法
CN110374804A (zh) * 2019-07-03 2019-10-25 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法
CN110374804B (zh) * 2019-07-03 2020-06-19 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法
CN110299008B (zh) * 2019-07-19 2020-11-13 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110299008A (zh) * 2019-07-19 2019-10-01 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110688729A (zh) * 2019-08-26 2020-01-14 南京航空航天大学 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
CN110688729B (zh) * 2019-08-26 2023-07-14 南京航空航天大学 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110647839B (zh) * 2019-09-18 2022-08-12 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
US11465650B2 (en) * 2019-09-20 2022-10-11 Honda Motor Co., Ltd. Model-free reinforcement learning
CN110745136B (zh) * 2019-09-20 2021-05-07 中国科学技术大学 一种驾驶自适应控制方法
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
WO2021057059A1 (zh) * 2019-09-29 2021-04-01 华为技术有限公司 一种神经网络的获取方法以及相关设备
CN112682184A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆控制方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110989576B (zh) * 2019-11-14 2022-07-12 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN110843746A (zh) * 2019-11-28 2020-02-28 的卢技术有限公司 一种基于强化学习的防抱死刹车控制方法及系统
CN111010294B (zh) * 2019-11-28 2022-07-12 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111026272A (zh) * 2019-12-09 2020-04-17 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111026272B (zh) * 2019-12-09 2023-10-31 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN113176739A (zh) * 2020-01-09 2021-07-27 丰田自动车株式会社 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质
CN113176739B (zh) * 2020-01-09 2024-04-30 丰田自动车株式会社 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质
CN111126605B (zh) * 2020-02-13 2023-06-20 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111340234B (zh) * 2020-02-27 2024-01-30 南京星火技术有限公司 视频数据处理方法、装置、电子设备和计算机可读介质
CN111353644B (zh) * 2020-02-27 2023-04-07 成都美云智享智能科技有限公司 基于强化学习的智能网联云平台的预测模型生成方法
CN111353644A (zh) * 2020-02-27 2020-06-30 成都美云智享智能科技有限公司 基于强化学习的智能网联云平台的预测模型生成方法
CN111340234A (zh) * 2020-02-27 2020-06-26 南京星火技术有限公司 视频数据处理方法、装置、电子设备和计算机可读介质
CN111562740B (zh) * 2020-05-06 2021-04-23 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111679660A (zh) * 2020-06-16 2020-09-18 中国科学院深圳先进技术研究院 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN111679660B (zh) * 2020-06-16 2022-08-05 中国科学院深圳先进技术研究院 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN111950735B (zh) * 2020-06-30 2023-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN111950735A (zh) * 2020-06-30 2020-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN111967087A (zh) * 2020-07-16 2020-11-20 山东派蒙机电技术有限公司 基于神经网络的网联车辆决策控制模型建立及评估方法
CN113968242B (zh) * 2020-07-22 2023-10-20 华为技术有限公司 自动驾驶场景生成方法、装置及系统
CN113968242A (zh) * 2020-07-22 2022-01-25 华为技术有限公司 自动驾驶场景生成方法、装置及系统
WO2022017307A1 (zh) * 2020-07-22 2022-01-27 华为技术有限公司 自动驾驶场景生成方法、装置及系统
CN111845701A (zh) * 2020-08-05 2020-10-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法
CN111845701B (zh) * 2020-08-05 2021-03-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法
CN112052947A (zh) * 2020-08-17 2020-12-08 清华大学 基于策略选项的分层强化学习方法和装置
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112201069B (zh) * 2020-09-25 2021-10-29 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112201070A (zh) * 2020-09-29 2021-01-08 上海交通大学 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN112201070B (zh) * 2020-09-29 2022-03-01 上海交通大学 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN112172813A (zh) * 2020-10-14 2021-01-05 长安大学 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
WO2022120970A1 (zh) * 2020-12-10 2022-06-16 中国科学院深圳先进技术研究院 一种基于交互式强化学习的订单分派方法及系统
CN112614344B (zh) * 2020-12-14 2022-03-29 中汽研汽车试验场股份有限公司 一种自动驾驶汽车参与的混合交通系统效能评估方法
CN112614344A (zh) * 2020-12-14 2021-04-06 中汽研汽车试验场股份有限公司 一种自动驾驶汽车参与的混合交通系统效能评估方法
CN112801149B (zh) * 2021-01-15 2024-06-11 江苏大学 一种基于深度强化学习的多车队列控制方法
CN112801149A (zh) * 2021-01-15 2021-05-14 江苏大学 一种基于深度强化学习的多车队列控制方法
CN113033119B (zh) * 2021-03-11 2022-03-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113095500A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于多智能体强化学习的机器人追捕方法
CN113095500B (zh) * 2021-03-31 2023-04-07 南开大学 一种基于多智能体强化学习的机器人追捕方法
CN113010967A (zh) * 2021-04-22 2021-06-22 吉林大学 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113255893A (zh) * 2021-06-01 2021-08-13 北京理工大学 一种多智能体行动策略自演进生成方法
CN113255893B (zh) * 2021-06-01 2022-07-05 北京理工大学 一种多智能体行动策略自演进生成方法
CN113386790B (zh) * 2021-06-09 2022-07-12 扬州大学 一种面向跨海大桥路况的自动驾驶决策方法
CN113386790A (zh) * 2021-06-09 2021-09-14 扬州大学 一种面向跨海大桥路况的自动驾驶决策方法
CN113359771A (zh) * 2021-07-06 2021-09-07 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113359771B (zh) * 2021-07-06 2022-09-30 贵州大学 一种基于强化学习的智能自动驾驶控制方法
CN113569477A (zh) * 2021-07-26 2021-10-29 北京航空航天大学 一种基于深度强化学习和迁移学习的增升装置优化方法
CN113569477B (zh) * 2021-07-26 2023-06-20 北京航空航天大学 一种基于深度强化学习和迁移学习的增升装置优化方法
CN113401132A (zh) * 2021-07-29 2021-09-17 国汽智控(北京)科技有限公司 一种驾驶模型更新方法、装置及电子设备
CN113741464A (zh) * 2021-09-07 2021-12-03 电子科技大学 一种基于时空数据强化学习的自动驾驶速度控制框架
CN113901718A (zh) * 2021-10-11 2022-01-07 长安大学 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
CN113821057A (zh) * 2021-10-14 2021-12-21 哈尔滨工业大学 一种基于强化学习的行星软着陆控制方法及系统和存储介质
CN114148349A (zh) * 2021-12-21 2022-03-08 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN114148349B (zh) * 2021-12-21 2023-10-03 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114104005B (zh) * 2022-01-26 2022-04-19 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114677837A (zh) * 2022-03-16 2022-06-28 杭州海康威视数字技术股份有限公司 一种基于雷视数据的交通仿真方法、装置及电子设备
CN114677837B (zh) * 2022-03-16 2023-08-25 杭州海康威视数字技术股份有限公司 一种基于雷视数据的交通仿真方法、装置及电子设备
CN114770497A (zh) * 2022-03-31 2022-07-22 中国人民解放军陆军工程大学 一种搜救机器人的搜救方法、装置及存储介质
CN114770497B (zh) * 2022-03-31 2024-02-02 中国人民解放军陆军工程大学 一种搜救机器人的搜救方法、装置及存储介质
CN116489683B (zh) * 2023-06-21 2023-08-18 北京邮电大学 空天地网络中的计算任务卸载方法、装置和电子设备
CN116489683A (zh) * 2023-06-21 2023-07-25 北京邮电大学 空天地网络中的计算任务卸载方法、装置和电子设备
CN116822618A (zh) * 2023-08-30 2023-09-29 北京汉勃科技有限公司 基于动态噪声网络的深度强化学习探索方法及组件
CN117227763B (zh) * 2023-11-10 2024-02-20 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117227763A (zh) * 2023-11-10 2023-12-15 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117474295B (zh) * 2023-12-26 2024-04-26 长春工业大学 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
CN117474295A (zh) * 2023-12-26 2024-01-30 长春工业大学 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

Also Published As

Publication number Publication date
CN109733415B (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN109733415A (zh) 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN109709956A (zh) 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109726804B (zh) 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
US7487074B2 (en) Road traffic simulation apparatus
Cardamone et al. Learning drivers for TORCS through imitation using supervised methods
CN108227710A (zh) 自动驾驶控制方法和装置、电子设备、程序和介质
CN107813820A (zh) 一种仿优秀驾驶员的无人车换道路径规划方法
Li et al. Combined trajectory planning and tracking for autonomous vehicle considering driving styles
CN105426638A (zh) 一种驾驶员行为特性辨识装置
CN109492763A (zh) 一种基于强化学习网络训练的自动泊车方法
CN102109821A (zh) 车辆自适应巡航控制系统及方法
CN111931902A (zh) 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法
CN110956851B (zh) 一种智能网联汽车协同调度换道方法
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
CN106529064A (zh) 一种基于多智能体的车联网环境下路径选择仿真系统
CN113657433B (zh) 一种车辆轨迹多模态预测方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN109740741A (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN109318897A (zh) 基于自动推理机制的接管巡航方法及系统
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
Wei et al. A learning-based autonomous driver: emulate human driver's intelligence in low-speed car following
CN116620327A (zh) 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法
CN116894395A (zh) 一种自动驾驶测试场景的生成方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant