CN113885497A - 一种基于竞争深度q网络的车辆纵向动力学标定方法 - Google Patents

一种基于竞争深度q网络的车辆纵向动力学标定方法 Download PDF

Info

Publication number
CN113885497A
CN113885497A CN202111163046.1A CN202111163046A CN113885497A CN 113885497 A CN113885497 A CN 113885497A CN 202111163046 A CN202111163046 A CN 202111163046A CN 113885497 A CN113885497 A CN 113885497A
Authority
CN
China
Prior art keywords
vehicle
speed
state
network
competition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111163046.1A
Other languages
English (en)
Inventor
何吕
罗彪
孟步敏
张东波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202111163046.1A priority Critical patent/CN113885497A/zh
Publication of CN113885497A publication Critical patent/CN113885497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种基于竞争深度Q网络的车辆纵向动力学标定方法,包括如下步骤:获取车辆载重状态、速度、前后车距离信息以及前后车速度,建立车辆纵向行驶坐标系;建立竞争深度Q网络模型并训练;实时采集车辆纵向行驶坐标系中的参数,放入车辆纵向行驶坐标系中,并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比,以此保持和前车的最小安全距离;根据预测结果对车辆进行控制使车辆处于安全行驶状态。本发明通过使用竞争深度Q网络使车辆在高速公路中控制车辆加速或减速反应更快,保持控制过程更加平稳,平均速度更快,能够有效提高自动驾驶车辆的舒适性,并有效降低发生交通事故的风险。

Description

一种基于竞争深度Q网络的车辆纵向动力学标定方法
技术领域
本发明涉及一种基于竞争深度Q网络的车辆纵向动力学标定方法。
背景技术
人工智能技术在不断地发展,特别是深度强化学习的发展与应用,人工智能技术在自动驾驶领域应用非常广泛。自动驾驶系统中,车载毫米波雷达获取同车道车辆的距离和通过车载摄像头预测前车速度,控制模块通过对车辆的位置误差、速度误差进行计算和校正,使车辆始终处于安全行驶速度状态。现在的高速公路上有很多快递大货车,每到一个地区就会卸载或者装货,使车辆载重发生变化,不同的车辆载重进行车辆加速或者减速导致的油门的开合度是不一样的,车辆载重和油门的开合度对应一定的关系。不同的车辆对应自身载重又是不一样的。现有的控制方法难以实现不同车辆在不同载重情况下快速控制车辆加速或减速保持安全速度和安全距离。
发明内容
为了解决上述技术问题,本发明提供一种算法简单、安全可靠的基于竞争深度Q网络的车辆纵向动力学标定方法。
本发明解决上述技术问题的技术方案是:一种基于竞争深度Q网络的车辆纵向动力学标定方法,使用竞争深度Q网络模型在车辆载重发生变化时,预测车辆安全行驶时的速度,并控制油门和刹车始终在纵向行驶时保持安全状态,具体包括如下步骤:
S1:获取车辆载重状态、速度、前后车距离信息以及前后车速度,建立车辆纵向行驶坐标系;
S2:根据获取的信息建立竞争深度Q网络模型,模型的输入为车辆载重状态、速度、前后车距离信息;
S3:预采集竞争深度Q网络模型的参数,对竞争深度Q网络模型进行训练,得到训练好的竞争深度Q网络模型;
S4:实时采集车辆纵向行驶坐标系中的参数,放入车辆纵向行驶坐标系中,并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比,以此保持和前车的最小安全距离;
S5:根据步骤S4中的预测结果对车辆进行控制使车辆处于安全行驶状态。
上述基于竞争深度Q网络的车辆纵向动力学标定方法,所述步骤S2中,首先构建自动驾驶车辆纵向标定算法模型,确定模型网络结构,将车辆纵向驾驶行为优化策略模型转化为马尔可夫决策过程模型:
其中,所述马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型,包括状态空间S={s1,s2,...,st}、动作空间A={a1,a2,...,at}、状态转移概率矩阵P、奖励函数R、折扣因子γ,st表示时间t时刻的状态,at表示t时刻状态下选择的动作;竞争深度Q网络模型DuelingDQN把Q值函数拆分为状态值函数V(s)和优势函数A(s,a;θ,α),所以有:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中V(s;θ,β)是状态值函数,输出一个标量,A(s,a;θ,α)是优势函数,输出一个矢量,矢量长度等于动作空间大小;s表示状态,θ指网络卷积层的参数;α和β别是2个分支的全连接层的参数;
竞争深度Q网络模型Dueling DQN中包括两个结构相同但是参数不同的神经网络,即目标神经网络和当前神经网络,当前神经网络用于计算当前状态,即当前状态st下每一个动作a的Q值Q(st,at),a表示当前车辆加速或者减速的动作,目标神经网络计算用于下一个状态st+1下每一个动作a的Q值Q(st+1,at)。
上述基于竞争深度Q网络的车辆纵向动力学标定方法,所述步骤S2中,竞争深度Q网络的输入层为车辆位置信息Lt=(Xt,Yt,Vt)、前方车辆信息Cf=(Xf,Yf,Df,Vf)、后方车辆信息Cb=(Xb,Yb,Db,Vb),Xt、Yt是当前车辆纵向标定坐标系中的x、y坐标,Vt是当前车辆的速度;Xf、Yf为前方位置在纵向标定坐标系里的x、y坐标,Df是前车与主车的距离,Vf是前车的速度,Xb、Yb为后方车辆位置在纵向标定坐标系里的x、y坐标,Db是后方车辆与主车的距离,Vb是后车的速度,竞争深度Q网络输出为当前状态st下每一个动作a的Q值Q(st,at);车辆制动踏板加速或者减速。
上述基于竞争深度Q网络的车辆纵向动力学标定方法,所述步骤S3中,用深度强化学习网络模型Dueling DQN进行训练时,将当前车辆位置信息Lt=(Xt,Yt,Vt)、自身载重信息Wt,前方车辆信息Cf=(Xf,Yf,Df,Vf),后方车辆信息Cb=(Xb,Yb,Db,Vb)输入到训练好的竞争深度Q网络模型中,St是车辆t时刻的速度状态,At是踩油门和踩刹车动作的集合,Q(St,At)是t时刻的动作值函数,St+1是车辆t时刻的状态,At+1是t+1时刻的动作,Q(St+1,At+1)是t+1时刻的动作值函数,a是选择执行的动作,α是学习率,λ是参数,Rt+1是t+1时刻的奖励,maxQ(St+1,a)是选择动作a时t+1时刻的St+1状态下的最大的动作值函数;
Q(St+1,At+1)←Q(St,At)+α(Rt+1+λmaxQ(St+1,a)-Q(St,At))
通过竞争深度Q网络模型计算,状态值函数V(s)输出车辆期望的车速值和优势函数A控制车辆油门和刹车的动作保持车辆纵向行驶安全。
上述基于竞争深度Q网络的车辆纵向动力学标定方法,所述步骤S4中,在高速公路路况中,主车辆与前方车辆速度都为m,当前方车辆突然减速速度从m下降到n时,将前方车辆速度变化信息和自身载重输入竞争深度Q网络模型通过其状态值函数V(s)评估现在所处速度状态是否依然处于安全行驶状态以及是否和前车保持安全距离,若处于与前车保持距离小于安全距离50米,表示有碰撞危险,则将速度下降到与前车一样的速度n,此刻车辆在此载重和速度状态s下通过刹车和油门将速度降为n,优势函数A评估车辆在状态s下采取的各动作是否达到预期目标速度。
上述基于竞争深度Q网络的车辆纵向动力学标定方法,所述步骤S4中,通过车载毫米波雷达反馈的数据判断是否与前车保持安全距离50米,若小于50米,则继续降低速度,控制车辆刹车和油门使车辆减速,使车辆与前方车辆继续保持最小安全距离。
本发明的有益效果在于:本发明采用竞争深度Q网络模型,竞争深度Q网络能够使自动驾驶车辆在高速路上根据自身载重的变化迅速做出最合理的加速或减速决策,使车辆保持在当前车道上行驶平均速度更加快,提高自动驾驶的舒适性,降低交通事故的风险。提升在纵向行驶中标定的效率,减少车祸事故发生的概率。
附图说明
图1为本发明的流程图。
图2为主车辆行驶过程中与前后车关系示意图。
图3为竞争深度Q网络结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-图3所示,一种基于竞争深度Q网络的车辆纵向动力学标定方法,包括如下步骤:
S1:获取车辆载重状态、速度、前后车距离信息以及前后车速度,建立车辆纵向行驶坐标系.
S2:根据获取的信息建立竞争深度Q网络模型,模型的输入为车辆载重状态、速度、前后车距离信息。
首先构建自动驾驶车辆纵向标定算法模型,确定模型网络结构,将车辆纵向驾驶行为优化策略模型转化为马尔可夫决策过程模型:
其中,所述马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型,包括状态空间S={s1,s2,...,st}、动作空间A={a1,a2,...,at}、状态转移概率矩阵P、奖励函数R、折扣因子γ,st表示时间t时刻的状态,at表示t时刻状态下选择的动作;确定竞争深度Q网络模型Dueling DQN把Q值函数拆分为状态值函数V(s)和优势函数A,所以有:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中V(s;θ,β)是状态值函数,计算预测出与前车保持安全距离的速度,A(s,a;θ,α)是优势函数,控制车辆的油门和刹车达到预期的速度,s表示状态,θ指网络卷积层的参数;α和β别是2个分支的全连接层的参数;
竞争深度Q网络模型Dueling DQN中包括两个结构相同但是参数不同的神经网络,即目标神经网络和当前神经网络,当前神经网络用于计算当前状态,即当前状态st下每一个动作a的Q值Q(st,at),a表示当前车辆加速或者减速的动作,目标神经网络计算用于下一个状态st+1下每一个动作a的Q值Q(st+1,at);
神经网络的输入层为车辆位置信息Lt=(Xt,Yt,Vt)、前方车辆信息为Cf=(Xf,Yf,Df,Vf),后方车辆信息为Cb=(Xb,Yb,Db,Vb),Xt、Yt是当前车辆纵向标定坐标系中的x、y坐标,在图2中,Vt是当前车辆的速度;Xf、Yf为前方位置在纵向标定坐标系里的x、y坐标,Df是前车与主车的距离,Vf是前车的速度,Xb、Yb为后方车辆位置在纵向标定坐标系里的x、y坐标,Db是后方车辆与主车的距离,Vb是后车的速度,神经网络输出为当前状态st下每一个动作a的Q值Q(st,at),车辆制动踏板加速或者减速。
S3:预采集竞争深度Q网络模型的参数,对竞争深度Q网络模型进行训练,得到训练好的竞争深度Q网络模型。
在图3中,用竞争深度Q网络模型Dueling DQN进行训练,将当前车辆位置信息Lt=(Xt,Yt,Vt)、前方车辆信息Cf=(Xf,Yf,Df,Vf)、后方车辆信息Cb=(Xb,Yb,Db,Vb)、自身载重信息输入到竞争深度Q网络模型中,得到车辆期望的车速值。
用深度强化学习网络模型Dueling DQN进行训练时,将当前车辆位置信息Lt=(Xt,Yt,Vt)、自身载重信息Wt,前方车辆信息Cf=(Xf,Yf,Df,Vf),后方车辆信息Cb=(Xb,Yb,Db,Vb)输入到训练好的竞争深度Q网络模型中,St是车辆t时刻的速度状态,At是踩油门和踩刹车动作的集合,Q(St,At)是t时刻的动作值函数,St+1是车辆t时刻的状态,At+1是t+1时刻的动作,Q(St+1,At+1)是t+1时刻的动作值函数,a是选择执行的动作,α是学习率,λ是参数,Rt+1是t+1时刻的奖励,maxQ(St+1,a)是选择动作a时t+1时刻的St+1状态下的最大的动作值函数;
Q(St+1,At+1)←Q(St,At)+α(Rt+1+λmaxQ(St+1,a)-Q(St,At))
通过竞争深度Q网络模型计算,状态值函数V(s)输出车辆期望的车速值和优势函数A控制车辆油门和刹车的动作保持车辆纵向行驶安全。
S4:实时采集车辆纵向行驶坐标系中的参数,放入车辆纵向行驶坐标系中,并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比,以此保持和前车的最小安全距离。
在高速公路路况中,主车辆与前方车辆速度都为m,当前方车辆突然减速速度从m下降到n时,将前方车辆速度变化信息和自身载重输入竞争深度Q网络模型通过其状态值函数V(s)评估现在所处速度状态是否依然处于安全行驶状态以及是否和前车保持安全距离,若处于与前车保持距离小于安全距离50米,表示有碰撞危险,则将速度下降到与前车一样的速度n,此刻车辆在此载重和速度状态s下通过刹车和油门将速度降为n,优势函数A评估车辆在状态s下采取的各动作是否达到预期目标速度。
S5:根据步骤S4中的预测结果对车辆进行控制使车辆处于安全行驶状态。
与深度Q网络(DQN)相比,包含值函数逼近器的竞争深度Q网络(Dueling DQN)这一特性特别适用于车辆纵向标定问题。
竞争深度Q网络从Q函数中分离出状态值函数V(s)和优势函数A,状态值函数V(s)用于评估预测车辆的速度,而优势函数A用于执行预期速度的动作,使得车辆在高速公路行驶过程中平均速度更快,预测速度和控制车辆加速或减速更快速,并有效降低发生交通事故的风险。

Claims (6)

1.一种基于竞争深度Q网络的车辆纵向动力学标定方法,其特征在于,使用竞争深度Q网络模型在车辆载重发生变化时,预测车辆安全行驶时的速度,并控制油门和刹车始终在纵向行驶时保持安全状态,具体包括如下步骤:
S1:获取车辆载重状态、速度、前后车距离信息以及前后车速度,建立车辆纵向行驶坐标系;
S2:根据获取的信息建立竞争深度Q网络模型,模型的输入为车辆载重状态、速度、前后车距离信息;
S3:预采集竞争深度Q网络模型的参数,对竞争深度Q网络模型进行训练,得到训练好的竞争深度Q网络模型;
S4:实时采集车辆纵向行驶坐标系中的参数,放入车辆纵向行驶坐标系中,并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比,以此保持和前车的最小安全距离;
S5:根据步骤S4中的预测结果对车辆进行控制使车辆处于安全行驶状态。
2.根据权利要求1所述的基于竞争深度Q网络的车辆纵向动力学标定方法,其特征在于,所述步骤S2中,首先构建自动驾驶车辆纵向标定算法模型,确定模型网络结构,将车辆纵向驾驶行为优化策略模型转化为马尔可夫决策过程模型:
其中,所述马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型,包括状态空间S={s1,s2,...,st}、动作空间A={a1,a2,...,at}、状态转移概率矩阵P、奖励函数R、折扣因子γ,st表示时间t时刻的状态,at表示t时刻状态下选择的动作;竞争深度Q网络模型Dueling DQN把Q值函数拆分为状态值函数V(s)和优势函数A(s,a;θ,α),所以有:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中V(s;θ,β)是状态值函数,输出一个标量,A(s,a;θ,α)是优势函数,输出一个矢量,矢量长度等于动作空间大小;s表示状态,θ指网络卷积层的参数;α和β别是2个分支的全连接层的参数;
竞争深度Q网络模型Dueling DQN中包括两个结构相同但是参数不同的神经网络,即目标神经网络和当前神经网络,当前神经网络用于计算当前状态,即当前状态st下每一个动作a的Q值Q(st,at),a表示当前车辆加速或者减速的动作,目标神经网络计算用于下一个状态st+1下每一个动作a的Q值Q(st+1,at)。
3.根据权利要求2所述的基于竞争深度Q网络的车辆纵向动力学标定方法,其特征在于,所述步骤S2中,竞争深度Q网络的输入层为车辆位置信息Lt=(Xt,Yt,Vt)、前方车辆信息Cf=(Xf,Yf,Df,Vf)、后方车辆信息Cb=(Xb,Yb,Db,Vb),Xt、Yt是当前车辆纵向标定坐标系中的x、y坐标,Vt是当前车辆的速度;Xf、Yf为前方位置在纵向标定坐标系里的x、y坐标,Df是前车与主车的距离,Vf是前车的速度,Xb、Yb为后方车辆位置在纵向标定坐标系里的x、y坐标,Db是后方车辆与主车的距离,Vb是后车的速度,竞争深度Q网络输出为当前状态st下每一个动作a的Q值Q(st,at);车辆制动踏板加速或者减速。
4.根据权利要求3所述的基于竞争深度Q网络的车辆纵向动力学标定方法,其特征在于,所述步骤S3中,用深度强化学习网络模型Dueling DQN进行训练时,将当前车辆位置信息Lt=(Xt,Yt,Vt)、自身载重信息Wt,前方车辆信息Cf=(Xf,Yf,Df,Vf),后方车辆信息Cb=(Xb,Yb,Db,Vb)输入到训练好的竞争深度Q网络模型中,St是车辆t时刻的速度状态,At是踩油门和踩刹车动作的集合,Q(St,At)是t时刻的动作值函数,St+1是车辆t+1时刻的状态,At+1是t+1时刻的动作,Q(St+1,At+1)是t+1时刻的动作值函数,a是选择执行的动作,α是学习率,λ是参数,Rt+1是t+1时刻的奖励,max Q(St+1,a)是选择动作a时t+1时刻的St+1状态下的最大的动作值函数;
Q(St+1,At+1)←Q(St,At)+α(Rt+1+λmax Q(St+1,a)-Q(St,At))
通过竞争深度Q网络模型计算,状态值函数V(s)输出车辆期望的车速值和优势函数A控制车辆油门和刹车的动作保持车辆纵向行驶安全。
5.根据权利要求4所述的基于竞争深度Q网络的车辆纵向动力学标定方法,其特征在于,所述步骤S4中,在高速公路路况中,主车辆与前方车辆速度都为m,当前方车辆突然减速速度从m下降到n时,将前方车辆速度信息和自身载重输入竞争深度Q网络模型通过其状态值函数V(s)评估现在所处速度状态是否依然处于安全行驶状态以及是否和前车保持安全距离,若处于与前车保持距离小于安全距离50米,表示有碰撞危险,则将速度下降到与前车一样的速度n,此刻车辆在此载重和速度状态s下通过刹车和油门将速度降为n,优势函数A评估车辆在状态s下采取的各动作是否达到预期目标速度。
6.根据权利要求5所述的基于竞争深度Q网络的车辆纵向动力学标定方法,其特征在于,所述步骤S4中,通过车载毫米波雷达反馈的数据判断是否与前车保持安全距离50米,若小于50米,则继续降低速度,控制车辆刹车和油门使车辆减速,使车辆与前方车辆继续保持最小安全距离。
CN202111163046.1A 2021-09-30 2021-09-30 一种基于竞争深度q网络的车辆纵向动力学标定方法 Pending CN113885497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111163046.1A CN113885497A (zh) 2021-09-30 2021-09-30 一种基于竞争深度q网络的车辆纵向动力学标定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111163046.1A CN113885497A (zh) 2021-09-30 2021-09-30 一种基于竞争深度q网络的车辆纵向动力学标定方法

Publications (1)

Publication Number Publication Date
CN113885497A true CN113885497A (zh) 2022-01-04

Family

ID=79005123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111163046.1A Pending CN113885497A (zh) 2021-09-30 2021-09-30 一种基于竞争深度q网络的车辆纵向动力学标定方法

Country Status (1)

Country Link
CN (1) CN113885497A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108693883A (zh) * 2018-06-06 2018-10-23 西安智加科技有限公司 一种车辆自动驾驶的高精度停车方法和系统
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108693883A (zh) * 2018-06-06 2018-10-23 西安智加科技有限公司 一种车辆自动驾驶的高精度停车方法和系统
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张泽功等: "基于深度强化学习算法的智能驾驶决策技术研究", 《中国优秀硕士学位论文全文库工程科技Ⅱ辑 信息科技》, no. 4, pages 2 *

Similar Documents

Publication Publication Date Title
CN103324085B (zh) 基于监督式强化学习的最优控制方法
EP2794379B1 (en) Method and module for controlling a vehicle&#39;s speed based on rules and/or costs
CN113788021B (zh) 一种结合前车速度预测的自适应跟车巡航控制方法
EP3725627B1 (en) Method for generating vehicle control command, and vehicle controller and storage medium
CN111332283B (zh) 用于控制机动车的方法和系统
CN111439264B (zh) 一种基于人机混驾的换道控制模型的实现方法
SE536271C2 (sv) Metod och modul för att styra ett fordons hastighet genom simulering
CN103496368A (zh) 具有学习能力的汽车协同式自适应巡航控制系统及方法
CN111994088A (zh) 基于混合策略博弈的驾驶人换道意图识别方法及系统
CN110194156B (zh) 智能网联混合动力汽车主动避撞增强学习控制系统和方法
CN111830962A (zh) 强化学习代理控制器的解释数据
CN114954454A (zh) 一种自动驾驶低速跟车巡航控制方法及装置
CN113602266B (zh) 一种紧急转向辅助控制方法及系统
JP2012030659A (ja) 状況適合型運転支援装置
CN113885497A (zh) 一种基于竞争深度q网络的车辆纵向动力学标定方法
CN115352443B (zh) 一种基于旁车切入识别的自适应巡航控制方法及设备
CN113635900B (zh) 一种预测巡航过程中基于能量管理的换道决策控制方法
CN113353087B (zh) 一种驾驶辅助方法、装置及系统
CN112977477B (zh) 一种基于神经网络的混合车车协同汇流系统和方法
Hoel et al. An evolutionary approach to general-purpose automated speed and lane change behavior
CN115107767A (zh) 基于人工智能的自动驾驶刹车与防碰撞的控制方法
CN115107759A (zh) 车辆的辅助驾驶方法、装置、车辆及存储介质
US11834042B2 (en) Methods, systems, and apparatuses for behavioral based adaptive cruise control (ACC) to driver&#39;s vehicle operation style
CN115416655A (zh) 车辆跟车距离的规划方法、装置、车辆及存储介质
CN114475607A (zh) 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination