CN112201069A - 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 - Google Patents

基于深度强化学习的驾驶员纵向跟车行为模型构建方法 Download PDF

Info

Publication number
CN112201069A
CN112201069A CN202011026453.3A CN202011026453A CN112201069A CN 112201069 A CN112201069 A CN 112201069A CN 202011026453 A CN202011026453 A CN 202011026453A CN 112201069 A CN112201069 A CN 112201069A
Authority
CN
China
Prior art keywords
driver
vehicle
following behavior
training
designing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011026453.3A
Other languages
English (en)
Other versions
CN112201069B (zh
Inventor
郭景华
李文昌
王靖瑶
王班
肖宝平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202011026453.3A priority Critical patent/CN112201069B/zh
Publication of CN112201069A publication Critical patent/CN112201069A/zh
Application granted granted Critical
Publication of CN112201069B publication Critical patent/CN112201069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

基于深度强化学习的驾驶员纵向跟车行为模型构建方法,属于汽车智能安全与自动驾驶领域。基于中国实际道路工况,采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的车辆状态信息和周围环境信息,统计分析采集的数据,给出驾驶员跟车行驶过程的行为特性及其影响因素。确定表征驾驶员在某个时刻所采取动作的基准信息,建立描述驾驶员跟车行为状态迭代关系的数学模型。设计基于竞争Q网络构架的驾驶员纵向跟车行为模型的神经网络结构。设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程。设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法。可准确地描述不同工况下驾驶员的跟车行为特性,实现对驾驶员跟车行为的复现能力。

Description

基于深度强化学习的驾驶员纵向跟车行为模型构建方法
技术领域
本发明属于汽车智能安全与自动驾驶领域,特别是涉及一种基于深度强化学习的驾驶员纵向跟车行为模型构建方法。
背景技术
在未来的一段时间内,驾驶员将在智能汽车的驾驶任务中担任重要的角色。为降低驾驶员的驾驶负担,提高驾驶员的驾驶能力以及对智能驾驶系统的接受程度,需要对驾驶员的驾驶习性进行深入研究。建立准确反映驾驶员跟车行为的驾驶员模型对于智能驾驶系统控制策略的开发具有重要的意义。
近年来,从不同角度出发,如交通工程角度、人因工程角度等,或基于不同的理论、采用不同的研究方法对驾驶员跟车行为模型进行了研究。文献1(C.Lu,J.W.Gong,C.Lv, etal.A Personalized Behavior Learning System for Human-Like Longitudinal SpeedControl of Autonomous Vehicles,Sensors,19(2019)3672.)通过驾驶模拟器采集驾驶员跟车行驶数据,并使用人工神经网络学习驾驶员的速度规划行为,但是驾驶员模拟器采集的数据和实际道路的数据之间的误差较大,难以准确描述驾驶员的驾驶行为。文献2(Y.Q.Sun, H.Ge,R.H.Cheng.An extended car-following model under V2Vcommunication environment and its delayed-feedback control[J].Physica A:Statistical Mechanics and its Applications,508(2018)349-358)提出了最优速度模型,并引入一个反映驾驶员特性的参数以体现不同驾驶员的期望跟车距离。然而,该模型利用跟车行驶状态信息进行线性或非线性拟合而成,这种形式较难真实反应驾驶员跟车行为的随机性、复杂性。
深度强化学习是一种更接近人类思维方式的智能方法,其优势在于同时具有深度学习的感知能力以及强化学习的决策能力。因此,为更好的描述符合中国道路特征的驾驶员跟车行为特性,本发明从中国实际道路采集的自然驾驶数据中学习驾驶员的跟车行为,利用数据驱动对驾驶员行为进行学习,采用深度强化学习理论模拟并构建驾驶员跟车行为模型,通过模型实现对驾驶员跟车行为的复现能力。
发明内容
本发明的目的针对现有技术中存在的上述难点问题,提供可有效解决驾驶员跟车行为过程中连续动作空间上的决策问题,实现驾驶员纵向跟车行为模型的验证与评估的一种基于深度强化学习的驾驶员纵向跟车行为模型构建方法。
本发明包括以下步骤:
步骤1:基于中国实际道路工况,采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的车辆状态信息和周围环境信息,统计分析采集的自然驾驶数据,给出驾驶员跟车行驶过程的行为特性及其影响因素。
步骤2:确定表征驾驶员在某个时刻t所采取动作的基准信息,建立描述驾驶员跟车行为状态迭代关系的数学模型。
步骤3,设计基于竞争Q网络构架的驾驶员纵向跟车行为模型的神经网络结构。
步骤4:设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程,实现对驾驶员纵向跟车行为的模拟。
步骤5:设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法,实现驾驶员纵向跟车行为模型的验证与评估。
在步骤1中,所述采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的车辆状态信息和周围环境信息,可采用激光雷达、CCD摄像机和采集驾驶员驾驶车辆行驶过程中的括速度、加速度、加速踏板开度信号等车辆状态信息以及天气、道路类型、信号灯、标志牌等环境信息;
所述统计分析采集的自然驾驶数据,给出驾驶员跟车行驶过程的行为特性及其影响因素的具体步骤可为:
(1)基于加权递推平均滤波法对采集的自然驾驶数据进行平滑处理,消除采集原始数据的噪声;
(2)通过频率分布和累积频率分布特征对不同工况下驾驶员跟车行为规律进行了分析和统计;
(3)通过相关系数分析了车间距离、相对速度、时距等因素的对不同工况下驾驶员跟车行为的影响,为建立驾驶员跟车行为模型提供基础。
在步骤2中,所述确定表征驾驶员在某个时刻t所采取动作的基准信息,建立描述驾驶员跟车行为状态迭代关系的数学模型的具体步骤可为:
(1)通过聚类统计分析,给出表征驾驶员基准信息的3个关键参数,分别为驾驶员跟车行为过程中自车的速度、加速度以及自车与前车之间的间距;
(2)基于建立描述驾驶员跟车行为过程中各状态变量迭代关系的数学表达式,采用速度作为性能指标,以最小化速度误差为目标,建立奖励函数。
在步骤3中,所述设计基于竞争Q网络构架的驾驶员纵向跟车行为模型的神经网络结构的具体方法可为:
(1)设计驾驶员纵向跟车行为模型竞争Q网络构架输入变量和输出变量,分别为自车速度信息、自车与前车的相对速度以及自车与前车的车间距离,输出变量为Q值函数;
(2)设计包括输入层、两个隐层以及输出层的竞争Q网络结构,其中隐层分别包含100 个和50个神经元;
(3)采用整流线性单元激活函数拟合隐层中的输入输出信号转换关系,构建激活函数表达式;
(4)设计从经验回放池取得经验样本后更新策略网络参数的损失函数,梯度下降完成神经网络参数的更新;
(5)每次训练完后,先使用梯度更新在线网络的参数,然后更新两个目标网络的参数。
在步骤4中,所述设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程的具体步骤可为:
(1)对竞争Q网络的结构参数以及经验回放池进行初始化,基于行为策略选择随机化的加速度动作;
(2)在确定性策略中引入随机噪声,从而使动作的决策从确定性的过程变为随机过程然后再从随机过程中采样得到动作下达给环境执行;
(3)环境执行加速度动作后会获得相应的奖励,并进入下一个跟车状态,进一步将状态转换过程信息存入经验回放池中;
(4)循环训练时,从经验回放池中采样最小批量数据,进一步通过损失函数更新策略网络参数,通过策略梯度函数更新策略,最后更新目标网络参数,如此循环直至达到收敛条件。
在步骤5中,所述设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法的具体步骤可为:
(1)从总自然驾驶数据集中随机挑选并分成用于训练的训练数据集和用于验证的测试数据集;
(2)利用训练数据对跟车模型参数进行标定,训练开始时使用经验数据对状态进行初始化,并给出训练时的总训练步数;
(3)训练完成后,根据性能参数指标,如总奖励值或平均奖励值,输出模型训练效果较好时对应步数的模型参数;
(4)使用训练数据对输出的模型参数进行验证以评估所建立的驾驶员对新数据的泛化能力和适应能力。
本发明利用数据驱动对驾驶员行为进行学习,提出一种基于深度强化学习的驾驶员纵向跟车行为模型构建方法,首先通过对自然驾驶数据统计分析,给出表征驾驶员跟车行为动作基准信息的关键参数。其次,采用深度强化学习理论,构建基于竞争Q网络构架的驾驶员纵向跟车行为模型,有效解决驾驶员跟车行为过程中连续动作空间上的决策问题。然后,设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法,实现驾驶员纵向跟车行为模型的验证与评估。本发明利用数据驱动对驾驶员行为进行学习,可以准确地描述不同工况下驾驶员的跟车行为特性,实现对驾驶员跟车行为的复现能力。
附图说明
图1为本发明的驾驶员纵向跟车行为模型流程示意图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明的驾驶员纵向跟车行为模型流程示意图如图1所示。首先采集符合中国道路特征的驾驶员跟车行为的数据,给出表征驾驶员行为动作的基准信息的关键参数,其次,构建驾驶员纵向跟车行为模型深度神经网络结构,有效解决驾驶员跟车行为过程中连续动作空间上的决策问题,然后,设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法,实现驾驶员纵向跟车行为模型的验证与评估。具体步骤如下所示:
步骤1:采集符合中国道路特征的驾驶员跟车行驶过程中的车辆状态信息和周围环境信息,统计分析采集的自然驾驶数据,给出驾驶员跟车行驶过程的行为特性及其影响因素。其过程包括如下子步骤:
步骤1.1,采用激光雷达、CCD摄像机和采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的括速度、加速度、加速踏板开度信号等车辆状态信息以及天气、道路类型、信号灯、标志牌等环境信息。
步骤1.2,基于加权递推平均滤波法对采集的自然驾驶数据进行平滑处理,消除采集原始数据的噪声。
步骤1.3,通过频率分布和累积频率分布特征对不同工况下驾驶员跟车行为规律进行了分析和统计。
步骤1.4,并通过相关系数分析了车间距离、相对速度、时距等因素的对驾驶员跟车行为的影响,为建立驾驶员跟车行为模型提供基础。
步骤2:采用关键参数来表征驾驶员在某个时刻t所采取动作的基准信息,建立描述驾驶员跟车行为过程中各状态迭代关系的数学模型:
步骤2.1,确定表征驾驶员基准信息的3个关键参数,分别为第n辆车(假设为受控车辆)的速度vn(t)、车辆n与前方目标车辆n-1的相对速度Δv(t),即车辆n-1的速度vn-1(t)与车辆n速度vn(t)的差,以及两车之间的间距s(t),而驾驶员模型的输出为车辆n的纵向加速度an(t)。
步骤2.2,建立描述驾驶员跟车过程中各状态变量之间迭代关系的数学模型,如式(1)所示。
Figure RE-GDA0002759898610000051
其中,Ts为采样时间间隔。
步骤2.3,采用速度作为性能指标,以最小化速度误差为目标训练跟车模型,定义奖励函数形式如下
r=(vobs-vsim)2 (2)
其中,vobs和vsim分别为驾驶员驾驶经验样本数据和模拟数据。
步骤3:设计驾驶员纵向跟车行为模型的深度神经网络结构。
步骤3.1,确定跟车行为模型深度神经网络结构为竞争网络结构,输入为跟车状态信息,包括主车速度、相对速度以及车间距离,输出为Q值函数。
步骤3.2,将跟车行为模型竞争网络结构设计为4层结构,依次包括输入层、两个隐藏层以及输出层,其中隐藏层分别包含100个和50个神经元。
步骤3.3,将跟车行为模型竞争网络结构的输出层设计为价格函数网络V(St;θ)的输出和优势函数网络A(St,at;θ)的输出线性组合,如下式所示。
Figure RE-GDA0002759898610000061
其中,St表示t时刻的跟车状态信息,包括主车速度、相对速度以及车间距离,at表示t时刻的加速度动作,a′表示下一个加速度动作,θ表示网络参数向量。
步骤3.4,采用整流线性单元(Rectified Linear Unit,ReLU)激活函数拟合隐层中的输入输出信号转换关系。
步骤3.5,为限制隐层的输出范围,在隐层中采用tanh激活函数,使隐层输动作保持在 [-1,1]范围内。
步骤3.6,从经验回放池取得经验样本后,通过最小化损失函数更新策略网络参数,设计损失函数为:
Figure RE-GDA0002759898610000062
其中,
Figure RE-GDA0002759898610000063
α表示学习率,rt+1表示执行完具体动作at的奖赏值,N表示为小批量训练的样本数。
步骤3.7,使用N个样本目标值与预计值的均方差来计算损失函数,通过梯度下降完成神经网络参数的更新。
步骤4:设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程,实现对驾驶员纵向跟车行为的准确模拟:
步骤4.1,对竞争Q网络的结构参数以及经验回放池进行初始化,基于行为策略选择随机化的加速度动作。
步骤4.2,在确定性策略中引入Uhlenbeck-Ornstein随机噪声,从而使动作的决策从确定性的过程变为随机过程然后再从随机过程中采样得到动作下达给环境执行,其表达式为:
at=μ(St|θ)+Nt (5)
式中,Nt为噪声干扰模型。
步骤4.3,环境执行加速度动作后会获得相应的奖励,并进入下一个跟车状态,再进一步将状态转换过程信息(st,at,rt,st+1)存入经验回放池中。
步骤4.4,循环训练时,从经验回放池中采样最小批量数据,进一步通过损失函数更新策略网络参数,通过策略梯度函数更新策略;最后更新目标网络参数,如此循环直至达到收敛条件。
步骤5:设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法,实现驾驶员纵向跟车行为模型的验证与评估:
步骤5.1,模型训练训练时,从总数据集中随机挑选并分成用于训练的训练数据集和用于验证的测试数据集两部分,其中训练数据集占比70%,测试数据集占比30%。
步骤5.2,步骤利用训练数据对跟车模型参数进行标定,训练开始时使用经验数据对状态进行初始化,训练时的总训练步数设置为1200。
步骤5.3,训练完成后,根据性能参数指标,如总奖励值或平均奖励值,输出模型训练效果较好时对应步数的模型参数。
步骤5.4,使用训练数据对输出的模型参数进行验证以评估所建立的驾驶员对新数据的泛化能力和适应能力。
以上内容是结合优选技术方案对本发明所做的进一步详细说明,不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出简单的推演及替换,都应当视为本发明的保护范围。

Claims (7)

1.基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于包括以下步骤:
步骤1:基于中国实际道路工况,采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的车辆状态信息和周围环境信息,统计分析采集的自然驾驶数据,给出驾驶员跟车行驶过程的行为特性及其影响因素;
步骤2:确定表征驾驶员在某个时刻t所采取动作的基准信息,建立描述驾驶员跟车行为状态迭代关系的数学模型;
步骤3,设计基于竞争Q网络构架的驾驶员纵向跟车行为模型的神经网络结构;
步骤4:设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程,实现对驾驶员纵向跟车行为的模拟;
步骤5:设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法,实现驾驶员纵向跟车行为模型的验证与评估。
2.如权利要求1所述基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于在步骤1中,所述采集符合中国道路特征的驾驶员驾驶车辆行驶过程中的车辆状态信息和周围环境信息,可采用激光雷达、CCD摄像机和采集驾驶员驾驶车辆行驶过程中的括速度、加速度、加速踏板开度信号等车辆状态信息以及天气、道路类型、信号灯、标志牌等环境信息。
3.如权利要求1所述基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于在步骤1中,所述统计分析采集的自然驾驶数据,给出驾驶员跟车行驶过程的行为特性及其影响因素的具体步骤为:
(1)基于加权递推平均滤波法对采集的自然驾驶数据进行平滑处理,消除采集原始数据的噪声;
(2)通过频率分布和累积频率分布特征对不同工况下驾驶员跟车行为规律进行了分析和统计;
(3)通过相关系数分析了车间距离、相对速度、时距等因素的对不同工况下驾驶员跟车行为的影响,为建立驾驶员跟车行为模型提供基础。
4.如权利要求1所述基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于在步骤2中,所述确定表征驾驶员在某个时刻t所采取动作的基准信息,建立描述驾驶员跟车行为状态迭代关系的数学模型的具体方法为:
(1)通过聚类统计分析,给出表征驾驶员基准信息的3个关键参数,分别为驾驶员跟车行为过程中自车的速度、加速度以及自车与前车之间的间距;
(2)基于建立描述驾驶员跟车行为过程中各状态变量迭代关系的数学表达式,采用速度作为性能指标,以最小化速度误差为目标,建立奖励函数。
5.如权利要求1所述基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于在步骤3中,所述设计基于竞争Q网络构架的驾驶员纵向跟车行为模型的神经网络结构的具体方法为:
(1)设计驾驶员纵向跟车行为模型竞争Q网络构架输入变量和输出变量,分别为自车速度信息、自车与前车的相对速度以及自车与前车的车间距离,输出变量为Q值函数;
(2)设计包括输入层、两个隐层以及输出层的竞争Q网络结构,其中隐层分别包含100个和50个神经元;
(3)采用整流线性单元激活函数拟合隐层中的输入输出信号转换关系,构建激活函数表达式;
(4)设计从经验回放池取得经验样本后更新策略网络参数的损失函数,梯度下降完成神经网络参数的更新;
(5)每次训练完后,先使用梯度更新在线网络的参数,然后更新两个目标网络的参数。
6.如权利要求1所述基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于在步骤4中,所述设计基于竞争Q网络构架的神经网络的驾驶员纵向跟车行为学习流程的具体步骤为:
(1)对竞争Q网络的结构参数以及经验回放池进行初始化,基于行为策略选择随机化的加速度动作;
(2)在确定性策略中引入随机噪声,从而使动作的决策从确定性的过程变为随机过程然后再从随机过程中采样得到动作下达给环境执行;
(3)环境执行加速度动作后会获得相应的奖励,并进入下一个跟车状态,进一步将状态转换过程信息存入经验回放池中;
(4)循环训练时,从经验回放池中采样最小批量数据,进一步通过损失函数更新策略网络参数,通过策略梯度函数更新策略,最后更新目标网络参数,如此循环直至达到收敛条件。
7.如权利要求1所述基于深度强化学习的驾驶员纵向跟车行为模型构建方法,其特征在于在步骤5中,所述设计基于深度强化学习的驾驶员纵向跟车行为模型的训练方法的具体步骤为:
(1)从总自然驾驶数据集中随机挑选并分成用于训练的训练数据集和用于验证的测试数据集;
(2)利用训练数据对跟车模型参数进行标定,训练开始时使用经验数据对状态进行初始化,并给出训练时的总训练步数;
(3)训练完成后,根据性能参数指标,如总奖励值或平均奖励值,输出模型训练效果较好时对应步数的模型参数;
(4)使用训练数据对输出的模型参数进行验证以评估所建立的驾驶员对新数据的泛化能力和适应能力。
CN202011026453.3A 2020-09-25 2020-09-25 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 Active CN112201069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011026453.3A CN112201069B (zh) 2020-09-25 2020-09-25 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011026453.3A CN112201069B (zh) 2020-09-25 2020-09-25 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Publications (2)

Publication Number Publication Date
CN112201069A true CN112201069A (zh) 2021-01-08
CN112201069B CN112201069B (zh) 2021-10-29

Family

ID=74006896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011026453.3A Active CN112201069B (zh) 2020-09-25 2020-09-25 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Country Status (1)

Country Link
CN (1) CN112201069B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113160562A (zh) * 2021-03-30 2021-07-23 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN113341960A (zh) * 2021-05-26 2021-09-03 重庆大学 基于监督式dqn算法的自动驾驶汽车转向控制方法
CN113380048A (zh) * 2021-06-25 2021-09-10 中科路恒工程设计有限公司 基于神经网络的高危路段车辆驾驶行为识别方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113609777A (zh) * 2021-08-11 2021-11-05 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113885497A (zh) * 2021-09-30 2022-01-04 湘潭大学 一种基于竞争深度q网络的车辆纵向动力学标定方法
CN114148349A (zh) * 2021-12-21 2022-03-08 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN115195757A (zh) * 2022-09-07 2022-10-18 郑州轻工业大学 电动公交起步驾驶行为建模及识别训练方法
CN116151359A (zh) * 2022-11-29 2023-05-23 哈尔滨理工大学 一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN108944930A (zh) * 2018-07-05 2018-12-07 合肥工业大学 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
WO2020000191A1 (en) * 2018-06-26 2020-01-02 Psa Automobiles Sa Method for driver identification based on car following modeling
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
WO2020000191A1 (en) * 2018-06-26 2020-01-02 Psa Automobiles Sa Method for driver identification based on car following modeling
CN108944930A (zh) * 2018-07-05 2018-12-07 合肥工业大学 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAOWEIYU ET AL.: "Full velocity difference and acceleration model for a car-following theory", 《COMMUN NONLINEAR SCI NUMER SIMULAT》 *
XIAO WANG ET AL.: "Capturing Car-Following Behaviors by Deep Learning", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
王雪松等: "基于自然驾驶数据的中国驾驶人城市快速路跟驰模型标定与验证", 《中国公路学报》 *
郭景华等: "基于危险场景聚类分析的前车随机运动状态预测研究", 《汽车工程》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112965499B (zh) * 2021-03-08 2022-11-01 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113160562B (zh) * 2021-03-30 2022-04-22 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113160562A (zh) * 2021-03-30 2021-07-23 南京大学 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法
CN113341960A (zh) * 2021-05-26 2021-09-03 重庆大学 基于监督式dqn算法的自动驾驶汽车转向控制方法
CN113341960B (zh) * 2021-05-26 2022-06-03 重庆大学 基于监督式dqn算法的自动驾驶汽车转向控制方法
CN113380048A (zh) * 2021-06-25 2021-09-10 中科路恒工程设计有限公司 基于神经网络的高危路段车辆驾驶行为识别方法
CN113380048B (zh) * 2021-06-25 2022-09-02 中科路恒工程设计有限公司 基于神经网络的高危路段车辆驾驶行为识别方法
CN113609777A (zh) * 2021-08-11 2021-11-05 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113609777B (zh) * 2021-08-11 2023-05-26 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113885497A (zh) * 2021-09-30 2022-01-04 湘潭大学 一种基于竞争深度q网络的车辆纵向动力学标定方法
CN114148349A (zh) * 2021-12-21 2022-03-08 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN114148349B (zh) * 2021-12-21 2023-10-03 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN115195757A (zh) * 2022-09-07 2022-10-18 郑州轻工业大学 电动公交起步驾驶行为建模及识别训练方法
CN115195757B (zh) * 2022-09-07 2023-08-04 郑州轻工业大学 电动公交起步驾驶行为建模及识别训练方法
CN116151359A (zh) * 2022-11-29 2023-05-23 哈尔滨理工大学 一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法
CN116151359B (zh) * 2022-11-29 2023-09-29 哈尔滨理工大学 一种基于深度神经网络的六足机器人驾驶员决策模型分层训练方法

Also Published As

Publication number Publication date
CN112201069B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN112201069B (zh) 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN109733415B (zh) 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN112265546B (zh) 基于时空序列信息的网联汽车车速预测方法
CN113010967B (zh) 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN114358128B (zh) 一种训练端到端的自动驾驶策略的方法
CN112965499A (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112172813B (zh) 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN111267830A (zh) 一种混合动力公交车能量管理方法、设备和存储介质
CN111114556A (zh) 基于多源指数加权损失下lstm的换道意图识别方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN111967308A (zh) 一种在线路面不平度辨识方法及系统
CN112907970B (zh) 一种基于车辆排队长度变化率的可变车道转向控制方法
CN114881339A (zh) 车辆轨迹预测方法、系统、计算机设备及存储介质
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN117709602B (zh) 一种基于社会价值取向的城市智能车辆拟人化决策方法
CN118193978A (zh) 一种基于dqn深度强化学习算法的汽车路障规避方法
CN111724597B (zh) 基于驾驶行为评估驾驶员认知表现的研究方法
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
CN116946183A (zh) 一种考虑驾驶能力的商用车驾驶行为预测方法及车用设备
CN114613144B (zh) 一种基于Embedding-CNN的混合车群运动演化规律的刻画方法
Yan et al. LSTM‐based deep learning framework for adaptive identifying eco‐driving on intelligent vehicle multivariate time‐series data
CN114049764B (zh) 一种基于卷积长短时记忆神经网络的交通仿真方法及系统
CN115204489A (zh) 基于图注意力网络和天气权重的城市车速预测方法及系统
CN113609777A (zh) 一种基于车载感知设备的车辆行为分析方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant