CN112162555B - 混合车队中基于强化学习控制策略的车辆控制方法 - Google Patents

混合车队中基于强化学习控制策略的车辆控制方法 Download PDF

Info

Publication number
CN112162555B
CN112162555B CN202011012147.4A CN202011012147A CN112162555B CN 112162555 B CN112162555 B CN 112162555B CN 202011012147 A CN202011012147 A CN 202011012147A CN 112162555 B CN112162555 B CN 112162555B
Authority
CN
China
Prior art keywords
vehicle
following
network
function
hybrid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011012147.4A
Other languages
English (en)
Other versions
CN112162555A (zh
Inventor
罗小元
刘劭玲
李孟杰
郑心泉
刘乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202011012147.4A priority Critical patent/CN112162555B/zh
Publication of CN112162555A publication Critical patent/CN112162555A/zh
Application granted granted Critical
Publication of CN112162555B publication Critical patent/CN112162555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • G05D1/0295Fleet control by at least one leading vehicle of the fleet

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Feedback Control In General (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种混合车队中基于强化学习控制策略的车辆控制方法,其包括:初始化混合车队,建立固定参考系和惯性参考系;建立惯性参考系中混合车辆纵向队列的模型;构造拉格朗日二次型队列跟驰代价函数,并得到Q值函数的表达式;对于由周围车辆对自身车辆影响所获得的信息,首先运用深度Q学习网络进行训练;然后运用DDPG算法进行参数的训练,若Q值函数和控制输入两个过程同时实现收敛,就完成对当下最优控制策略的求解;将最优控制策略输入混合车辆纵向队列的模型中,混合车队更新自身状态;循环往复,最终完成混合车队中车辆的控制任务。本发明系统解决了混合车队自主训练的问题。

Description

混合车队中基于强化学习控制策略的车辆控制方法
技术领域
本发明属于智能交通控制技术领域,具体涉及一种混合车队中基于强化学习控制策略的车辆控制方法。
背景技术
随着人工智能技术的快速发展,无人驾驶技术变得较为成熟,有人驾驶车辆与无人驾驶车辆组成的混合纵向跟驰队列成为智能交通领域研究的热门方向。其中,纵向队列跟驰问题是结合传统的动力学和运动学的方法,研究队列中前方车辆的行驶状态对跟驰车辆的影响。然而,由于在实际混合纵向队列中有人驾驶车辆与无人驾驶车辆位置的随机性,以及驾驶员的行为需要预先被识别为编队系统的一部分,驱动程序之间会产生持续行为,在这种情况下大多数基于模型的控制器设计方法可能会失败。因此,混合纵向队列中的跟驰优化问题亟待解决。
经对现有文献的检索发现,公开号为CN108537764A,名称为:一种人机混合智能驾驶系统。该系统兼具有人驾驶系统和无人驾驶系统的优势,运用图像采集、融合、提取对信息进行识别,再发送到控制子系统,这一技术方案虽然考虑了人为因素在混合车队中的影响,但对于驾驶技术不熟练的人员来说,没有足够的经验参与到控制决策中去,且在进行图像处理时可能会因外界条件出现偏差,得到的信息不准确,使危险系数大大提高。
另外,公开号为CN109131356A,名称为:人机混合增强智能驾驶系统及电动汽车。该系统包括状态监控模块、模拟驾驶模块、分析模块、对比模块等,通过分析驾驶操作缺陷,指出驾驶员的操作失误,这一技术方案虽然增强了无人驾驶时驾驶员的参与感,但是对人为因素依赖性过强,结果容易出现偏差。因此,混合车队如何实现自主训练显得尤为重要。
发明内容
本发明旨在克服上述不足,提出了一种混合车队中基于强化学习控制策略的车辆控制方法,此方法充分考虑到有人驾驶车辆与无人驾驶车辆的相互影响,对整个混合车队的跟随运动和队形维持进行了明显优化。
为实现上述目的,采用了如下技术方案:
一种混合车队中基于强化学习控制策略的车辆控制方法,其包括如下步骤:
步骤1,对于道路上的有人驾驶车辆与无人驾驶车辆混合编队,建立基于车辆自身期望轨迹位置的固定参考系,以及建立基于道路上不确定因素的惯性参考系;
步骤2,分别将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合,并根据任意车辆序列,得到惯性参考系中混合车辆纵向队列的模型;
步骤3,根据线性系统的二次性能指标,构造拉格朗日二次型队列跟驰代价函数,并由此得到Q值函数的表达式;
步骤4,对于由周围车辆对自身车辆影响所获得的信息,首先运用深度Q学习网络进行训练,在数据集中进行采样,探索得到某个状态信息xt,接收新状态的奖励函数,并把当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1存储到驱动数据库,当所用时间满足价值网络更新周期时,运用深度确定性策略梯度法进行参数的训练;
步骤5,在DDPG算法中,为了获得跟驰评价指标下的代价函数V*(x(t))和跟驰控制u*(x),用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络,采用策略梯度更新target网络的权重参数;
步骤6,使用深度神经网络去近似Q值函数和策略梯度网络,若Q值函数和控制输入两个过程同时实现收敛,就完成了对当下最优控制策略的求解,继续执行步骤7,否则返回到步骤4;
步骤7,将步骤6获得的最优控制策略输入到步骤2的惯性参考系中混合车辆纵向队列的模型中,混合车队更新自身状态,然后再执行步骤4-7,循环往复,最终完成混合车队中车辆的控制任务。
优选的,所述步骤2中惯性参考系中混合车辆纵向队列的模型为:
Figure BDA0002697400460000021
其中,A、B、W为与有人和无人驾驶车辆相关的系数矩阵,A∈R2n×2n是有关车辆跟驰动态的系统矩阵,B∈R2n×p是关于无人驾驶车辆跟驰控制的输入矩阵,W∈R2nx1,x为各个车辆的状态信息,u∈Rp×1为混合车队的控制输入,Δv为队列中某辆车速与前后面各个车速的差值,p为纵向队列中无人驾驶车辆的数量,n为编队中的车辆数;
对公式(7)中变量进行展开,具体可写为:
Figure BDA0002697400460000031
Figure BDA0002697400460000032
Figure BDA0002697400460000033
Figure BDA0002697400460000034
式中,HDVs代表有人驾驶车辆,CAVs代表无人驾驶车辆,αj为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益,βj为第j辆车中驾驶员根据当前的车速引起的速度反应增益,
Figure BDA0002697400460000035
为跟驰距离速度优化函数f(h)的导数,
Figure BDA0002697400460000036
为每辆车的期望跟驰距离;xj是第j辆车的状态信息,车辆的状态信息是由跟驰距离误差和速度误差确定的,因此xj=[Δhj Δvj]T,j=2,3,…,n,Δhj、Δvj为第j辆车在纵向队列中的跟驰距离误差和速度误差;ECC为除去矩阵中所有元素为0的列,ECR为除去矩阵中所有元素为0的行,τj为第j辆车的跟驰距离参数并只针对无人驾驶车辆;Ij为相应j阶的单位矩阵。
优选的,所述步骤3中拉格朗日二次型队列跟驰代价函数和Q值函数的表达式分别具体为:
拉格朗日二次型队列跟驰代价函数V(x(t))
Figure BDA0002697400460000037
式中,M∈R2n×2n为与纵向编队里前方车辆跟驰距离和行驶速度有关的2n*2n的正定矩阵,N∈Rp×1是关于无人驾驶车辆信息控制的p*1的正定矩阵,x(t)为混合车队在t时刻的状态信息,u(i)为混合车队在t时刻的控制输入,xT(t)、uT(t)分别是对x(t)、u(t)求转置得出的;
Q值函数的表达式为:
Figure BDA0002697400460000041
式中,xt、ut分别为在时间步长t内车辆的状态信息和控制输入;r(x(τ),u(τ))为τ时瞬时奖励函数。
优选的,所述步骤5具体为:
用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,表达式为:
Figure BDA0002697400460000042
Figure BDA0002697400460000043
式中,
Figure BDA0002697400460000044
分别为Actor神经网络和Critic神经网络的激励函数,
Figure BDA0002697400460000045
Figure BDA0002697400460000046
分别为
Figure BDA0002697400460000047
的转置,θu、θv分别为估计的Actor神经网络权值和Critic神经网络权值,V(x)为代价函数,u(x)为跟驰控制;
随机初始化Actor网络
Figure BDA0002697400460000048
Critic网络Q(xt,utv),然后运用这两个网络初始化对应的target网络和相应动作的探索度Nt,根据策略网络
Figure BDA0002697400460000049
的输出以及探索度Nt选择动作ut,并执行动作ut,得到瞬时奖励rt+1和新的状态信息xt+1,并将当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1作为数字序列进行存储,再随机批量读取序列进行学习,计算采样过程中的贝尔曼绝对误差,基于此选择使误差取得最大值时的时间值:
Figure BDA00026974004600000410
其中,m为总的训练次数,即有m个critic网络,记为
Figure BDA0002697400460000051
在上述结果中选取当Bi取得最大值时的i值,记为b,在计算价值网络时把此项舍去,采用确定性的策略梯度来更新权重,将最终学习的策略作为所有参与者的平均值,计算价值网络:
Figure BDA0002697400460000052
式中,γ∈(0,1]为折扣因子,m为总的训练次数,rt+1为t+1时瞬时奖励函数;
根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络;损失函数的表达式为:
Figure BDA0002697400460000053
Actor的梯度表达式采用现有公式,为:
Figure BDA0002697400460000054
式中,
Figure BDA0002697400460000055
表示梯度;
然后采用确定性的策略梯度来更新target网络的权重参数:
θv′←τθv+(1-τ)θv′ (19)
θu′←τθu+(1-τ)θu′ (20)
式中,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值,τ为常数。
优选的,所述步骤6具体为:
使用深度神经网络去近似Q值函数和策略梯度网络,当Q值函数模型和控制输入两个过程同时实现收敛,即当||θv′-θv||<ε,||θu′-θu||<ε,其中ε为一个阈值常数,此时获得最优评价指标下的跟驰代价函数:
Figure BDA0002697400460000061
获得最优跟驰代价函数下的跟驰控制输入:
Figure BDA0002697400460000062
其中,
Figure BDA0002697400460000063
Figure BDA0002697400460000064
分别为
Figure BDA0002697400460000065
的转置,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值。
与现有技术相比,本发明具有如下优点:
1、本发明建立混合车辆的跟随模型,同时针对有人车和无人车,运用强化学习的方法进行优化,可以得出精确的输出统计量,进而降低了计算成本。
2、本发明运用强化学习的方法对混合车队进行控制,综合了深度Q学习和策略梯度两种方法,利用不断训练求解最优反馈策略,利用周围环境信息,通过多次策略迭代使车辆能够通过自身的学习,找到最优的控制策略。
3、本发明采用强化学习的方法,改善了因瞬时通信异常引起的编队队形偏离现象,保证了跟随者运动的可靠性,极大地提高了编队的稳定性。
附图说明
图1为基于强化学习的无模型示意图;
图2为Critic和Actor网络体系结构图;
图3为混合车队中基于强化学习控制策略的车辆控制示意图;
图4为混合车队中基于强化学习控制策略的车辆控制方法流程图;以及
图5(a)-(d)为本发明的混合车队实验位置示意图。
具体实施方式
如图1所示,一般来说,将知晓状态转移概率的问题称为“基于模型”的问题,将不知晓的称为“无模型”问题。现有技术中的马尔可夫决策过程就是针对“无模型”问题提出的建模方法。本发明所提出的混合交通的强化学习算法是一种无模型的自由控制策略,此方法将混合车队中车辆的行驶数据如速度、加速度、行驶距离等组成数据库,把此数据库和道路上的交通情况作为环境,把编队中的各个车辆视为智能体,环境可以实现向智能体反馈状态和奖励。输入是定义的环境状态、车辆状态以及最优控制动作,输出是由该状态下动作引起的奖励价值。只要定义的输入和输出相同,就可以将其应用于具有不同类型和不同动力系统结构的混合车队。
如图2所示,在DDPG算法中,用两个独立的神经网络表示Critic和Actor两部分,Actor采取一个状态xt(Vn(t),ΔVn-1,n(t),xn-1,n(t))作为输入,估计得出驾驶车辆的跟驰控制输入;Critic将(xt,ut)作为输入,输出Q(xt,ut)。其中,t为时间步长,n为编队中的车辆数,xt、ut为时间步长t内车辆的状态信息和控制输入,Vn(t)为后面跟随车辆的速度,ΔVn-1,n(t)为前面车辆与跟随车辆之间的相对速度,xn-1,n(t)为前面车辆与跟随车辆之间的距离间隔。Actor和Critic各有三层网络:输入层、隐藏层、输出层,在隐藏层中每个神经元具有完整流的激活函数,将输入变换为其输出信号。由actor所输出的ut传到critic网络中,梯度
Figure BDA0002697400460000071
表明更新动作所增加的Q值,利用策略梯度更新actor的参数,进而更新Actor网络,最终形成一个完整的回路。
如图3所示,为一个混合车队中基于强化学习控制策略的车辆控制示意图。本申请将混合车队中的车辆控制问题建模为一个马尔科夫决策过程,首先将混合车队的相关数据作为历史驱动数据收集并存储在驱动数据库中,然后输入到一个模拟环境,车辆即智能体自动调节从环境的尝试和交互中进行学习,实现其自动调节。Q值网络是一种打乱相关性的机制,使用此网络会出现两个结构完全相同但是参数却不同的网络:当前值网络和目标值网络。Q(x,u,θ)表示当前值网络的输出,用来评估当前状态动作对的值函数,也称为当前Q值;Q(x,u,θ′)表示目标值网络的输出,可得出新的Q值,也称为目标Q值。其中,x表示此系统的状态信息,u表示此系统的控制输入,θ为神经网络的权重,θ′为θ更新后的参数值。计算出损失函数,利用损失函数梯度更新当前值网络的参数。每经过一定次数的迭代,将当前值网络的参数传递给目标值网络。引入目标值网络后,在一段时间里使目标Q值保持不变,一定程度降低了当前Q值和目标Q值的相关性,提高了算法稳定性。
在智能体学习即混合车队中车辆根据周围交通情况行驶的过程中会得出奖励函数,该奖励函数显示智能体在多大程度上偏离经验数据。智能体运用深度Q学习网络(DQN)进行训练,某段时间内,在驱动数据库中进行采样,探索得到某个状态信息xt,在这些可能性的数据中选择出:
ut=argmaxQ*(xt,ut;θ)
式中,xt、ut分别为时间步长t内车辆的状态信息和控制输入,θ为神经网络的权重,Q*表示取得的Q的最优值,对于第j-1辆车的状态信息包括后面跟随车辆的速度Vj(t),前面车辆(即第j-1辆车)与跟随车辆(即第j辆车)之间的相对速度ΔVj-1,j(t),两辆车之间的间隔Sj-1,j(t)。把Sj-1,j(t),ΔVj-1,j(t),Vj(t)作为输入,输出连续动作。Critic将(xt,ut)作为输入,输出Q(xt,ut)。其中,t为时间步长,n为编队中的车辆数,j=2,3,…,n,xt、ut分别为时间步长t内车辆的状态信息和控制输入。通过这些相互作用,得出了最佳策略车辆跟随模型,从速度、引导跟随车辆之间的相对速度以及车辆间距等方面,该模型对追随车辆产生影响。当输入更多数据时,可以不断更新模型或策略,得到的最优策略将作为自主驾驶阶段的执行策略。
根据上述理论基础,如图4所示,本发明公开了一种混合驾驶的策略控制方法,其方法包括以下步骤:
步骤1,对于道路上的有人驾驶车辆与无人驾驶车辆混合编队,混合车辆编队简称为混合车队,建立基于车辆自身期望轨迹位置的固定参考系,以及建立基于道路上不确定因素的惯性参考系;
步骤2,分别将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合,并根据任意车辆序列,得到惯性参考系中混合车辆纵向队列的模型;
步骤2.1首先列出有人驾驶车辆和无人驾驶车辆的跟驰动态模型,跟驰动态模型也被称为运动学方程。
有人驾驶车辆跟驰动态模型为:
Figure BDA0002697400460000081
f(h)为跟驰距离速度优化函数,表示为:
Figure BDA0002697400460000082
因此可知,
Figure BDA0002697400460000091
本申请中在变量上加点表示对该变量求导;变量前有“Δ”表示该变量的变化量。第j辆车为当前车辆,因此hj为第j辆车的跟驰距离,vj为第j辆车跟驰速度,vj-1为第j-1辆车跟驰速度,vm为驾驶员可操作车辆行驶的最大速度,hs为纵向队列中最小跟驰距离,hg为纵向车辆队列中最大跟驰距离。αj为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益,βj为第j辆车中驾驶员根据当前的车速引起的速度反应增益。
根据有人驾驶车辆跟驰动态模型在平衡点处进行泰勒展开,并省去泰勒展开式中的高阶无穷小项,可得出有人驾驶车辆的跟驰误差状态空间模型为:
Figure BDA0002697400460000092
Figure BDA0002697400460000093
Figure BDA0002697400460000094
其中,hj-1为第j-1辆车的跟驰距离,vj-1为第j-1辆车跟驰速度,Δhj、Δvj分别为第j辆车在纵向队列中的跟驰距离误差和速度误差,
Figure BDA0002697400460000095
为将
Figure BDA0002697400460000096
代入跟驰距离速度优化函数f(h)的导数,
Figure BDA0002697400460000097
为每辆车的期望跟驰距离,Hj、Lj为计算过程中使用的变量。
无人驾驶车辆的跟驰动态模型为:
Figure BDA0002697400460000098
式中,uj表示第j辆车自动驾驶的加速度。
根据无人驾驶车辆的跟驰动态模型在平衡点处线性化,可得无人驾驶车辆的跟驰误差状态空间模型为:
Figure BDA0002697400460000101
Figure BDA0002697400460000102
其中Pj、Tj、Bj都是系数矩阵,τj为第j辆车的跟驰距离参数并只针对无人驾驶车辆,实际中,τj取值通常为固定车头时距。
步骤2.2本发明将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合,根据混合车队中的任意车辆序列(任意车辆序列是指对一个混合车队中有人驾驶车辆和无人驾驶车辆的顺序没有限制要求,也就是第几辆是有人驾驶车辆,第几辆是无人驾驶车辆没有限制),得到惯性参考系中混合车辆纵向队列的模型:
Figure BDA0002697400460000103
其中,A、B、W为与有人和无人驾驶车辆相关的系数矩阵,A∈R2n×2n是有关车辆跟驰动态的系统矩阵,B∈R2n×p是关于无人驾驶车辆跟驰控制的输入矩阵,W∈R2n×1,x为各个车辆的状态信息,u∈Rp×1为混合车队的控制输入,Δv为队列中某辆车速与前后面各个车速的差值,p为纵向队列中无人驾驶车辆的数量,n为编队中的车辆数;
在本实施例中,对公式(7)中变量进行展开,具体可写为:
Figure BDA0002697400460000104
Figure BDA0002697400460000105
Figure BDA0002697400460000106
Figure BDA0002697400460000107
式中,HDVs代表有人驾驶车辆,CAVs代表无人驾驶车辆,αj为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益,βj为第j辆车中驾驶员根据当前的车速引起的速度反应增益,
Figure BDA0002697400460000111
为跟驰距离速度优化函数f(h)的导数,
Figure BDA0002697400460000112
为每辆车的期望跟驰距离;xj是第j辆车的状态信息,车辆的状态信息是由跟驰距离误差和速度误差确定的,因此xj=[Δhj Δvj]T,j=2,3,…,n,Δhj、Δvj为第j辆车在纵向队列中的跟驰距离误差和速度误差;ECC为除去矩阵中所有元素为0的列,ECR为除去矩阵中所有元素为0的行,τj为第j辆车的跟驰距离参数并只针对无人驾驶车辆。Ij为相应j阶的单位矩阵。
步骤3,根据混合车辆纵向队列的模型和线性系统的二次性能指标,构造拉格朗日二次型队列跟驰代价函数,并由此得到Q值函数的表达式。
把城市道路上的混合车队看作学习的主体,将编队控制问题建模为一个马尔科夫决策过程。马尔科夫决策过程(MDP)基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。在本申请中定义状态为混合编队的状态信息,定义动作为车辆的控制输入,控制输入为车辆的加速度,定义状态-动作对为状态信息和控制输入组成的数据向量,定义回报为一个与混合车队状态有关的变量,定义每个状态-动作对的Q值函数表示处于相应时间状态下执行控制输入后获得的期望累计函数,定义每个状态-动作对的π为控制过程中的相应策略;
根据混合车辆纵向队列的模型和线性系统的二次性能指标,构造拉格朗日二次型队列跟驰代价函数V(x(t))
Figure BDA0002697400460000113
式中,M∈R2n×2n为与纵向编队里前方车辆跟驰距离和行驶速度有关的2n*2n的正定矩阵,N∈Rp×1是关于无人驾驶车辆信息控制的p*1的正定矩阵,M、N矩阵的构建为现有技术,x(t)为混合车队在t时刻的状态信息,u(t)为混合车队在t时刻的控制输入,xT(t)、uT(t)分别是对x(t)、u(t)求转置得出的;
瞬时奖励函数为r(x(t),u(t)),根据混合车队位置移动产生的代价函数V(x(t))对车辆进行训练,在某个时间阶段[t,t+Δt]时间获得Q值函数为
Figure BDA0002697400460000121
式中,xt、ut分别为在时间步长t内车辆的状态信息和控制输入;r(x(τ),u(τ))为τ时瞬时奖励函数。当Q值函数取得最优值同时代价函数也将取得最优值。
将Q值函数写成递归的贝尔曼方程形式,表明了当前状态的值函数与下个状态值函数的关系:
Figure BDA0002697400460000122
式中,γ∈(0,1]为折扣因子,E[]表示[]内的期望,rt+Δt为t+Δt时瞬时奖励函数,xt+Δt为在时间步长t+Δt内车辆的状态信息,ut+Δt为在时间步长t+Δt内车辆的控制输入,π为控制策略,由此获得最优价值函数和控制策略;贝尔曼方程的形式是已经存在的一种方程,下标就表示前提条件。
贝尔曼最优性方程为:
Figure BDA0002697400460000123
当Q值函数在控制策略π下取得最大值时为取得最优值Q*(xt,ut),同时代价函数也取得最优值V*(xt,ut);
步骤4,对于由周围车辆对自身车辆影响所获得的信息,首先运用深度Q学习网络(DQN)进行训练,某段时间内,在数据集中进行采样,探索得到某个状态信息xt,当所用时间满足价值网络更新周期时,运用深度确定性策略梯度法(DDPG)进行参数的训练;
没有中央控制单元的限制,对于由周围车辆对自身车辆影响所获得的信息,信息包括跟驰速度、间隔、加速度以及位置等信息,首先运用深度Q学习网络(DQN)进行训练,某段时间内,在数据集中进行采样,本实施例中数据集即图3中的驱动数据库,输入当前车辆的状态,用贪心策略选取一个控制输入:以一个很小的正数ω的概率随机选择未知的一个动作,剩下1-ω的概率选取具有最高Q值的一个控制输入:
ut=argmaxQ(xt,ut;θ) (12)
式中,xt、ut为时间步长t内车辆的状态信息和控制输入,θ为神经网络的权重。
选择了控制输入ut后,车辆在上述状态中执行所选的控制输入,并进行到新状态,接收奖励函数,然后把当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1作为一个数据序列存储在驱动数据库中。
当所用时间满足价值网络更新周期时,运用深度确定性策略梯度法(DDPG)进行参数的训练,很大程度上提高了学习效率;
步骤5,在DDPG算法中,为了更加精确地获得跟驰评价指标下的代价函数V*(x(t))和跟驰控制u*(x),用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络,采用策略梯度来更新target网络的权重参数;
用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,表达式为:
Figure BDA0002697400460000131
Figure BDA0002697400460000132
式中,
Figure BDA0002697400460000133
分别为Actor神经网络和Critic神经网络的激励函数,其内部的神经元之间线性无关,
Figure BDA0002697400460000134
Figure BDA0002697400460000135
分别为
Figure BDA0002697400460000136
的转置,θu、θv分别为估计的Actor神经网络权值和Critic神经网络权值,因此代价函数V(x)和跟驰控制u(x)也为估计值;
具体过程如下:
随机初始化Actor网络
Figure BDA0002697400460000137
Critic网络Q(xt,utv),然后运用前面的两个网络初始化对应的target网络和相应动作的探索度Nt,根据策略网络
Figure BDA0002697400460000138
的输出以及探索度Nt(噪音)选择动作ut,并执行动作ut,得到瞬时奖励rt+1和新状态xt+1,将序列即车辆利用交互得到的数据进行存储,再随机批量读取序列进行学习,计算采样过程中的贝尔曼绝对误差,基于此选择使误差取得最大值时的时间值:
Figure BDA0002697400460000141
其中,m为总的训练次数,即有m个critic网络,记为
Figure BDA0002697400460000142
在上述结果中选取当Bi取得最大值时的i值,记为b,在计算价值网络时把此项舍去,采用确定性的策略梯度来更新权重,将最终学习的策略作为所有参与者的平均值,避免了极值的影响,计算价值网络:
Figure BDA0002697400460000143
式中,γ∈(0,1]为折扣因子,m为总的训练次数,rt+1为t+1时瞬时奖励函数。
这种方式将最终学习的策略作为所有参与者的平均值,避免了极值的影响。
根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络。损失函数的表达式为:
Figure BDA0002697400460000144
Actor的梯度表达式采用现有公式,为:
Figure BDA0002697400460000145
式中,
Figure BDA0002697400460000146
表示梯度,
Figure BDA0002697400460000147
表示在权重θu下Actor的梯度,
Figure BDA0002697400460000148
表示在控制输入ut条件下
Figure BDA0002697400460000149
的梯度。
然后采用确定性的策略梯度来更新target网络的权重参数:
θv′←τθv+(1-τ)θv′ (19)
θu′←τθu+(1-τ)θu′ (20)
式中,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值,τ一般设置为非常接近1的数;
步骤6,使用深度神经网络去近似Q值函数和策略梯度网络,若Q值函数模型和控制输入两个过程同时实现收敛,完成对当下最优控制策略的求解;否则返回到步骤4。
使用深度神经网络去近似Q值函数和策略梯度网络,当Q值函数模型和控制输入两个过程同时实现收敛,即当||θv′-θv||<ε,||θu′-θu||<ε,其中ε为一个阈值常数,本实施例中设置ε=10-7。此时获得最优评价指标下的跟驰代价函数V*(x):
Figure BDA0002697400460000151
获得最优跟驰代价函数下的跟驰控制输入u*(x):
Figure BDA0002697400460000152
其中,
Figure BDA0002697400460000153
Figure BDA0002697400460000154
分别为
Figure BDA0002697400460000155
的转置,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值。
最优评价指标下的跟驰代价函数和跟驰控制输入构成了混合车队的最优控制策略,此时的最优控制策略是对下一步动作的最优控制策略。跟驰代价函数V(x(t))表达式中包含状态信息x(t)即步骤2中(7)式中的x,跟驰控制输入为u(t),即步骤2中(7)的u。
步骤7,将步骤6获得的最优控制策略输入到步骤2的惯性参考系中混合车辆纵向队列的模型中,混合车队更新自身状态,然后再执行步骤4-7,循环往复,最终完成混合车队中车辆的控制任务。
类似的,混合车队中每一辆车都采用上述过程得到自己的最优控制策略,此时整个混合车队达到最优。
下述给出一个具体事例予以说明:
实验包括通信系统、视觉定位系统和智能小机器人车辆编队。小车编队由一辆领头车辆和四辆追随车辆组成,其中第1、2、4辆小车是有人车,第3、5辆小车是无人车,小车最初的位置是任意的。实验平台为290cm×370cm,上位机的摄像头安装在距离地面上方300cm,根据所设定的期望距离和跟驰速度,队列中无人驾驶车辆在策略迭代跟驰优化控制算法下进行队列跟驰。
初始化车辆编队数据,跟随车辆获取领头车和前车的状态信息,代入到Q值函数的公式中,获得训练数据。设置学习率为0.005,折扣因子γ=0.9,每经过200步替换一次目标网络,数据库的记忆上限为3000,每迭代一步所取数据量的大小为32,用强化学习中的DQN、DDPG算法进行训练,以ε=0.9的概率随机选取一个行动u或根据模型选择当前最优的行动,执行,得到新一轮的状态和回报,按照探索次数依次存入到数据库中,重复学习,计算输出的Q值,将损失函数用梯度下降法进行求解,完成参数更新。
通过循环迭代价值函数更新和策略改进的过程,当每次迭代价值更新和策略改进过程得到的损失函数小于阈值0.0001时,视作收敛,完成对当前状态下最优策略的求解。
将最优控制策略作为输出输入到模型中,循环以上步骤,即可实现混合车队的巡航控制。
所标出的跟驰距离为像素距离,转换关系为1pixel=0.8cm。由于全局摄像头角度和标定范围的误差,允许运动误差在15像素范围内。如图5(a)(d)所示,图5(a)和5(b)分别表示5辆小车的初始位置及其间距,图5(c)和5(d)分别表示5辆小车形成稳定编队的最终位置及其间距。实验分为三个阶段:一是各车在队列初始位置,二是从初始队列形成目标队列,三是保持目标队列行驶至期望点。在队列初始位置和保持队列行驶至目标点的过程中,实时记录队列中各车辆的跟驰距离,形成队列的时间,以及观察队列稳定行驶的情况。
对于此实验中的5辆小车,初始速度设为v(0)=[15,27,34.5,37,43]T,初始距离d(0)=[150,145,148,110]T。并且在图5中,显示出了混合车队的冲突避免,实现了目标形成,稳定性得到保证。最终,跟驰列队达到期望的速度15cm/s,相邻两辆车期望间距为75cm。
以上所述的实施仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (1)

1.一种混合车队中基于强化学习控制策略的车辆控制方法,其特征在于:其包括以下步骤:
步骤1,对于道路上的有人驾驶车辆与无人驾驶车辆混合编队,建立基于车辆自身期望轨迹位置的固定参考系,以及建立基于道路上不确定因素的惯性参考系;
步骤2,分别将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合,并根据任意车辆序列,得到惯性参考系中混合车辆纵向队列的模型;
步骤3,根据线性系统的二次性能指标,构造拉格朗日二次型队列跟驰代价函数,并由此得到Q值函数的表达式;
步骤4,对于由周围车辆对自身车辆影响所获得的信息,首先运用深度Q学习网络进行训练,在数据集中进行采样,探索得到某个状态信息xt,接收新状态的奖励函数,并把当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1存储到驱动数据库,当所用时间满足价值网络更新周期时,就执行步骤5,否则继续进行训练;
步骤5,运用DDPG算法进行参数的训练,为了获得跟驰评价指标下的代价函数V*(x(t))和跟驰控制u*(x),用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络,采用策略梯度更新target网络的权重参数;
步骤6,使用深度神经网络去近似Q值函数和策略梯度网络,若Q值函数和控制输入两个过程同时实现收敛,就完成了对当下最优控制策略的求解,继续执行步骤7,否则返回到步骤4;
步骤7,将步骤6获得的最优控制策略输入到步骤2的惯性参考系中混合车辆纵向队列的模型中,混合车队更新自身状态,然后再执行步骤4-7,循环往复,最终完成混合车队中车辆的控制任务;
所述步骤2中惯性参考系中混合车辆纵向队列的模型为:
Figure FDA0003076259810000011
其中,A、B、W为与有人和无人驾驶车辆相关的系数矩阵,A∈R2n×2n是有关车辆跟驰动态的系统矩阵,B∈R2n×p是关于无人驾驶车辆跟驰控制的输入矩阵,W∈R2n×1,x为各个车辆的状态信息,u∈Rp×1为混合车队的控制输入,Δv为队列中某辆车速与前后面各个车速的差值,p为纵向队列中无人驾驶车辆的数量,n为编队中的车辆数;
对公式(7)中变量进行展开,具体写为:
Figure FDA0003076259810000021
Figure FDA0003076259810000022
Figure FDA0003076259810000023
Figure FDA0003076259810000024
式中,HDVs代表有人驾驶车辆,CAVs代表无人驾驶车辆,αj为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益,βj为第j辆车中驾驶员根据当前的车速引起的速度反应增益,
Figure FDA0003076259810000025
为跟驰距离速度优化函数f(h)的导数,
Figure FDA0003076259810000026
为每辆车的期望跟驰距离;xj是第j辆车的状态信息,车辆的状态信息是由跟驰距离误差和速度误差确定的,因此xj=[ΔhjΔvj]T,j=2,3,…,n+1,Δhj、Δvj为第j辆车在纵向队列中的跟驰距离误差和速度误差;ECC为除去矩阵中所有元素为0的列,ECR为除去矩阵中所有元素为0的行,τj为第j辆车的跟驰距离参数并只针对无人驾驶车辆;Ij为相应j阶的单位矩阵,uj表示第j辆车自动驾驶的加速度;
所述步骤3中拉格朗日二次型队列跟驰代价函数和Q值函数的表达式分别具体为:
拉格朗日二次型队列跟驰代价函数V(x(t))
Figure FDA0003076259810000027
式中,M∈R2n×2n为与纵向编队里前方车辆跟驰距离和行驶速度有关的2n*2n的正定矩阵,N∈Rp×1是关于无人驾驶车辆信息控制的p*1的正定矩阵,x(t)为混合车队在t时刻的状态信息,u(t)为混合车队在t时刻的控制输入,xT(t)、uT(t)分别是对x(t)、u(t)求转置得出的;
Q值函数的表达式为:
Figure FDA0003076259810000031
式中,xt、ut分别为在时间步长t内车辆的状态信息和控制输入;r(x(τ),u(τ))为τ时瞬时奖励函数;
所述步骤5具体为:
用Actor神经网络来估计无人驾驶车辆的跟驰控制输入,用Critic神经网络估计跟驰代价函数,表达式为:
Figure FDA0003076259810000032
Figure FDA0003076259810000033
式中,
Figure FDA0003076259810000034
分别为Actor神经网络和Critic神经网络的激励函数,
Figure FDA0003076259810000035
Figure FDA0003076259810000036
分别为
Figure FDA0003076259810000037
的转置,θu、θv分别为估计的Actor神经网络权值和Critic神经网络权值,V(x)为代价函数,u(x)为跟驰控制;
随机初始化Actor网络
Figure FDA0003076259810000038
Critic网络Q(xt,utv),然后运用这两个网络初始化对应的target网络和相应动作的探索度Nt,根据策略网络
Figure FDA0003076259810000039
的输出以及探索度Nt选择动作ut,并执行动作ut,得到瞬时奖励rt+1和新的状态信息xt+1,并将当前状态信息xt、当前控制输入ut、奖励函数rt、新的状态信息xt+1作为数字序列进行存储,再随机批量读取序列进行学习,计算采样过程中的贝尔曼绝对误差,基于此选择使误差取得最大值时的时间值:
Figure FDA00030762598100000310
其中,m为总的训练次数,即有m个critic网络,记为
Figure FDA00030762598100000311
在结果中选取当Bi取得最大值时的i值,记为b,在计算价值网络时把此项舍去,采用确定性的策略梯度来更新权重,将最终学习的策略作为所有参与者的平均值,计算价值网络:
Figure FDA00030762598100000312
式中,γ∈(0,1]为折扣因子,m为总的训练次数,rt+1为t+1时瞬时奖励函数;
根据损失函数更新Critic网络,根据Actor的梯度反向更新Actor网络;损失函数的表达式为:
Figure FDA0003076259810000041
Actor的梯度表达式采用现有公式,为:
Figure FDA0003076259810000042
式中,
Figure FDA0003076259810000043
表示梯度;
Figure FDA0003076259810000044
表示在权重θu下Actor的梯度,
Figure FDA0003076259810000045
表示在控制输入ut条件下
Figure FDA0003076259810000046
的梯度;
然后采用确定性的策略梯度来更新target网络的权重参数:
θv′←τθv+(1-τ)θv′ (19)
θu′←τθu+(1-τ)θu′ (20)
式中,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值,τ为常数;
所述步骤6具体为:
使用深度神经网络去近似Q值函数和策略梯度网络,当Q值函数模型和控制输入两个过程同时实现收敛,即当||θ′vv||<ε,||θ′uu||<ε,其中ε为一个阈值常数,此时获得最优评价指标下的跟驰代价函数:
Figure FDA0003076259810000047
获得最优跟驰代价函数下的跟驰控制输入:
Figure FDA0003076259810000048
其中,
Figure FDA0003076259810000049
Figure FDA00030762598100000410
分别为
Figure FDA00030762598100000411
的转置,θu′、θv′分别为更新后的Actor神经网络权值和Critic神经网络权值。
CN202011012147.4A 2020-09-23 2020-09-23 混合车队中基于强化学习控制策略的车辆控制方法 Active CN112162555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011012147.4A CN112162555B (zh) 2020-09-23 2020-09-23 混合车队中基于强化学习控制策略的车辆控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011012147.4A CN112162555B (zh) 2020-09-23 2020-09-23 混合车队中基于强化学习控制策略的车辆控制方法

Publications (2)

Publication Number Publication Date
CN112162555A CN112162555A (zh) 2021-01-01
CN112162555B true CN112162555B (zh) 2021-07-16

Family

ID=73863530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011012147.4A Active CN112162555B (zh) 2020-09-23 2020-09-23 混合车队中基于强化学习控制策略的车辆控制方法

Country Status (1)

Country Link
CN (1) CN112162555B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801149B (zh) * 2021-01-15 2024-06-11 江苏大学 一种基于深度强化学习的多车队列控制方法
CN112907937B (zh) * 2021-02-03 2022-10-14 湖南大学 一种考虑后车信息的混合车辆队列控制方法及系统
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113079167B (zh) * 2021-04-12 2022-02-22 西北工业大学 一种基于深度强化学习的车联网入侵检测方法及系统
CN113096402B (zh) * 2021-04-12 2022-03-29 中南大学 一种基于智能网联车辆的动态限速控制方法、系统、终端及可读存储介质
CN113140104B (zh) * 2021-04-14 2022-06-21 武汉理工大学 一种车辆列队跟踪控制方法、装置及计算机可读存储介质
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113255998B (zh) * 2021-05-25 2022-06-03 北京理工大学 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN113340324B (zh) * 2021-05-27 2022-04-29 东南大学 一种基于深度确定性策略梯度的视觉惯性自校准方法
CN113671962B (zh) * 2021-08-20 2023-11-21 湘潭大学 一种无人驾驶铰接式清扫车的横向控制方法
CN113791615A (zh) * 2021-08-20 2021-12-14 北京工业大学 一种混合车辆队列分布式模型预测控制方法
CN113935463A (zh) * 2021-09-30 2022-01-14 南方电网数字电网研究院有限公司 一种基于人工智能控制方法的微电网控制器
CN115077549B (zh) * 2022-06-16 2024-04-26 南昌智能新能源汽车研究院 车辆状态跟踪方法、系统、计算机及可读存储介质
CN115097827B (zh) * 2022-06-21 2023-02-10 智能网联汽车(山东)协同创新研究院有限公司 一种无人驾驶汽车的道路学习方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137970A (zh) * 2015-07-31 2015-12-09 奇瑞汽车股份有限公司 车辆避障方法及装置
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
JP2018198031A (ja) * 2017-05-25 2018-12-13 日本電信電話株式会社 移動体制御方法、移動体制御装置、及びプログラム
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
CN110347155A (zh) * 2019-06-26 2019-10-18 北京理工大学 一种智能车辆自动驾驶控制方法及系统
CN110901656A (zh) * 2018-09-17 2020-03-24 长城汽车股份有限公司 用于自动驾驶车辆控制的实验设计方法和系统
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579065B2 (en) * 2016-11-23 2020-03-03 Baidu Usa Llc Algorithm and infrastructure for robust and efficient vehicle localization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137970A (zh) * 2015-07-31 2015-12-09 奇瑞汽车股份有限公司 车辆避障方法及装置
JP2018198031A (ja) * 2017-05-25 2018-12-13 日本電信電話株式会社 移動体制御方法、移動体制御装置、及びプログラム
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110901656A (zh) * 2018-09-17 2020-03-24 长城汽车股份有限公司 用于自动驾驶车辆控制的实验设计方法和系统
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
CN110347155A (zh) * 2019-06-26 2019-10-18 北京理工大学 一种智能车辆自动驾驶控制方法及系统
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Learn to Navigate: Cooperative Path Planning for Unmanned Surface Vehicles Using Deep Reinforcement Learning;Xinyuan Zhou;《IEEE Access》;20191113;Pages:165262-165278 *

Also Published As

Publication number Publication date
CN112162555A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112162555B (zh) 混合车队中基于强化学习控制策略的车辆控制方法
Zhang et al. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN111222630A (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN114399743A (zh) 一种障碍物未来轨迹的生成方法
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN114253274B (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN114368387B (zh) 一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法
Liu et al. Cooperation-aware decision making for autonomous vehicles in merge scenarios
CN113391553B (zh) 具有执行器饱和的异构cacc系统的自适应最优控制方法
US20230162539A1 (en) Driving decision-making method and apparatus and chip
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control
CN116300850A (zh) 基于数据机理融合的自动驾驶类人安全自进化方法和系统
Goel et al. Adaptive look-ahead distance for pure pursuit controller with deep reinforcement learning techniques
Hjaltason Predicting vehicle trajectories with inverse reinforcement learning
Cai et al. Implementation of the Human‐Like Lane Changing Driver Model Based on Bi‐LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant