CN115963840A - 通信拓扑切换下基于深度强化学习的智能车编队控制方法 - Google Patents

通信拓扑切换下基于深度强化学习的智能车编队控制方法 Download PDF

Info

Publication number
CN115963840A
CN115963840A CN202310056808.0A CN202310056808A CN115963840A CN 115963840 A CN115963840 A CN 115963840A CN 202310056808 A CN202310056808 A CN 202310056808A CN 115963840 A CN115963840 A CN 115963840A
Authority
CN
China
Prior art keywords
vehicle
formation
communication
control
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310056808.0A
Other languages
English (en)
Inventor
王靖瑶
李迅锐
郭景华
邓醒明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310056808.0A priority Critical patent/CN115963840A/zh
Publication of CN115963840A publication Critical patent/CN115963840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Traffic Control Systems (AREA)

Abstract

通信拓扑切换下基于深度强化学习的智能车编队控制方法,涉及汽车智能安全与自动驾驶。1)实时采集自车以及其他跟随车辆和领航车辆的行驶运动状态信息;2)分析车辆控制所需的算法类型,算法优化,基于图论描述智能电动车之间的信息交互形式,建立智能电动车实现编队控制的目标函数;3)考虑系统在通信故障的场景,建立数据融合机制,在通信完全故障的情况下,采用AKF减少感知误差,实现多车系统的通信拓扑切换;4)针对传统编队系统控制下的诸多弊端,设计一个深度强化学习过程来进行编队控制策略的迭代,得到最优控制策略。实现编队系统的数据驱动和通信拓扑切换,提高控制器的适用性和车辆的行驶综合性能,改善交通拥堵、安全隐患。

Description

通信拓扑切换下基于深度强化学习的智能车编队控制方法
技术领域
本发明属于汽车智能安全与自动驾驶领域,特别是涉及一种通信拓扑切换下基于深度强化学习的智能车编队控制方法。
背景技术
随着科技的快速发展,智能车也在高速发展着,随着车辆保有量的持续增长,交通拥堵现象日益严重,伴随而来的还有严峻的能源消耗问题。同时,车辆数量的增多也提高发生交通事故的风险,对人生命财产造成重大威胁。智能车纵向编队控制可以在保证车辆安全行驶的前提下减小车辆间的距离,提高道路车辆的通行效率,并降低车辆的能源消耗,有效缓解上述难题。
智能车纵向编队控制是指汽车编队中的车辆根据其他车辆行驶信息自动调整纵向运动状态,进而确保编队具有期望的车队队形和一致的行驶速度。文献1(Li M,Cao Z,LiZ.Areinforcement learning-based vehicle platoon control strategy for reducingenergy consumption in traffic oscillations[J].IEEE Transactions on NeuralNetworks and Learning Systems,2021,32(12):5309-5322.)提出一种基于强化学习模型的数据驱动形式实现车辆编队控制。文献2(Li K,Bian Y,Li S E,et al.Distributedmodel predictive control of multi-vehicle systems with switchingcommunication topologies[J].Transportation Research Part C:EmergingTechnologies,2020,118:102717.)提出一种基于分布式模型预测控制方法解决多车系统的通信拓扑切换。
随着深度强化学习(Deep reinforcement learning,DRL)高速且明显的发展,其作为数据驱动的控制形式被应用于车辆编队系统中,取得不错的控制性能。相比于传统控制方法,数据驱动应对多交通场景、无需建立复杂动力学模型、实时性强。数据驱动在复杂实际交通环境和实时性要求高的场景中起到不错的控制效果。车辆对车辆(vehicle-to-vehiucle,V2V)通信可提高车辆编队的安全性和效率,然而编队中车辆会出现通信故障现象,如丢包、信号阻塞和车辆通信模块硬件损坏等,这将导致车辆之间通信拓扑的切换,从而影响车辆编队系统的性能,将会导致控制器的鲁棒性和适用性变差。
发明内容
本发明的目的针对现有技术存在的传统车辆编队控制器的诸多弊端和通信拓扑切换等问题,提供一种通信拓扑切换下基于深度强化学习的智能车编队控制方法,在考虑车辆的安全性、舒适性和节能性的情况下,保证编队系统中所有车辆维持期望的间距和速度,实现跟随车辆对领航车辆的跟踪控制。本发明基于数据融合策略,针对车辆纵向编队系统设计出一种通信拓扑切换下基于深度强化学习的控制模型,以此训练得到高效的车辆控制器,很好地解决了传统编队控制下存在的控制器适用性差和实时性差的诸多弊端,并在车辆通信故障的场景下实现编队系统的通信拓扑切换,增强控制器的适用场景,实现编队控制的控制性能指标。
本发明通过车载传感器和V2X无线通信系统分别采集自身及其他车辆的行驶状态信息,在通信故障的情形下,设计车辆间影响系数,利用加权数据融合技术压缩处理原始数据,降低并统一神经网络的输入层维度,同时采用自适应卡尔曼滤波(adaptive Kalmanfilter,AKF)减少车载传感器的感知误差,在切换拓扑过程中建立切换通信拓扑机制;利用改进的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法解决编队纵向控制问题,在原始DDPG算法基础上引入双网络结构解决模型训练中神经网络存在的Q值过高估计的问题,对经验池的抽取采用优先经验回放机制,解决训练初期奖励稀疏的情况;考虑车辆行驶过程中的安全、舒适和跟车性能,设计强化学习模型及其多目标的奖励函数,训练得到一种通信拓扑切换下基于深度强化学习的完全分布式控制器,实现车辆编队的安全、舒适、节能行驶。
本发明包括以下步骤:
步骤1车辆编队由N+1辆车组成,编号为0,…,N,其中0号车为领航车辆,1,…,N号车为跟随车辆。通过车载传感器以及V2X无线通信网络分别实时采集自车以及其他跟随车辆和领航车辆的行驶运动状态信息。
第一步,通过车载传感器和GPS周期性地感知自车的状态信息,主要包括距离信息、速度信息和加速度信息。
第二步,自车通过V2X无线通信网络与编队中的其他车辆进行信息交互,实时接收相应的行驶运动状态信息,主要包括跟随车辆和领航车辆的行驶距离、行驶速度,同时接收领航车辆的加速度信息。
步骤2分析车辆控制所需的算法类型,并对算法存在的弊端进行优化,基于图论描述智能电动车之间的信息交互形式,建立智能电动车实现编队控制的目标函数。
第一步,针对在复杂的实际交通场景中难以建模等特点,建立基于数据驱动的控制策略,考虑车辆的油门和刹车的控制量类型,选择深度确定性策略梯度算法。
第二步,在原算法的基础上,加入双网络结构解决估值网络Q值过高估计的问题,考虑到奖励稀疏,采用优先经验回放机制。
第三步,基于图论定义车辆编队的通信拓扑,并给出相对应的邻接矩阵和牵引矩阵的定义;建立车辆编队控制的目标函数,使编队保持恒定的期望队形。
步骤3考虑系统在通信故障的场景,建立数据融合机制,在通信完全故障的情况下,采用AKF减少感知误差,实现多车系统的通信拓扑切换。
第一步,给出影响系数,基于图论所描述的通信托扑结构,设定自车与通信车辆的速度差和距离差为状态变量,运用加权平均建立融合机制。
第二步,给出系统的动态通信拓扑模型,考虑传感器感知误差的影响,采用AKF方法减少感知误差,以此提高车辆控制模型的精度。
第三步,为了防止切换通信拓扑过程中存在的控制不平滑和加速度骤变,建立一个平滑切换拓扑的策略,实现车辆编队的平稳行驶。
步骤4针对传统编队系统控制下的诸多弊端,设计一个深度强化学习过程进行编队控制策略的迭代,最终得到最优控制策略。
第一步,设计强化学习模型,应用运动学点-质量模型更新车辆状态。
第二步,考虑安全性、舒适性等系统性能目标,设计一个多目标的奖励函数,实现车辆编队的安全、舒适和节能行驶,提高多车系统的综合性能。
第三步,建立分布式的编队控制模型,对算法内的神经网络进行调参,训练出效果好的控制器,实时求出车辆的期望输出。
本发明的效果和益处是:设计一种通信拓扑切换下基于深度强化学习的车辆编队控制方法,通过采用数据融合压缩数据维度,并利用深度强化学习算法设计数据驱动模型,在模型中采用AKF减少车辆感知误差和引入平滑切换拓扑的方法,实现了编队系统的数据驱动和通信拓扑切换,很好地提高了控制器的适用性和车辆的行驶综合性能,从而明显改善了交通拥堵、安全隐患等问题。
附图说明
图1为本发明的智能车的编队控制框架示意图。
图2为通信拓扑切换下基于改进DDPG的智能车编队控制系统示意图。
图3为本发明对改进的DDPG算法的网络参数进行训练的流程图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
如图1所示,本发明的编队控制系统采用深度强化学习模型,设计出基于数据驱动的车辆控制器,有效解决传统方法的弊端;基于通信拓扑结构,通过车载传感器和V2X无线通信网络获得编队中其他车辆的行驶信息,利用加权数据融合压缩车辆状态空间的维度,使控制器模型同时适用于不同的拓扑结构,实现编队控制的通信拓扑切换,同时降低神经网络输入层的维度,提升算法训练的收敛速度。依靠上述的控制方式,实现一种通信拓扑切换下基于深度强化学习的车辆编队控制方法。具体步骤包括:
步骤1:车辆编队由1辆领航车和N辆跟随车组成,分别将其编号0以及1,…,N。编队中每一辆跟随车都通过车载传感器以及V2X无线通信网络,依据其通信拓扑结构分别实时采集自车及相应的通信车辆的行驶运动状态信息。
步骤1.1每辆跟随的网络电动车通过车载传感器和GPS不断地获取自车的行驶信息,主要包括位置信息、速度信息和加速度信息。
步骤1.2依据不同通信拓扑结构,自车通过V2X无线通信网络技术与编队中其他车辆通信,实时采集相应的车辆行驶状态信息,包括跟随车辆或领航车辆的行驶位置、速度信息。
步骤2:采用改进的DDPG算法作为编队纵向协同控制的控制算法,基于图论描述智能电动车之间的信息交互形式,给出智能电动车编队控制的目标函数。
步骤2.1考虑到车辆的油门和制动都要连续值作为控制输入,采用基于策略的强化学习算法。利用改进的DDPG算法解决编队纵向控制问题,可有效地解决编队控制问题。
DRL可以建模为马尔可夫决策过程,由两个交互对象组成:DRL智能体(控制模型)和环境,DRL框架有四个基本元素:状态s、动作a、策略π*和奖励r,具体如下面步骤。
步骤2.2如图2所示,在原始DDPG算法的基础上,引入两个critic网络来更新参数,选择最小的目标Q'值作为critic目标网络的更新值,由两个critic网络生成的目标值公式如下:
Figure BDA0004060658610000041
其中,rt+1是奖励,γ是折扣系数,
Figure BDA0004060658610000043
Figure BDA0004060658610000044
是探索噪声,Q'1和Q'2是两个目标Q值。
在该算法中,强化学习中的TD-error值和critic网络更新值如下所示:
Figure BDA0004060658610000042
y=mini=1,2yi
式中,Q1和Q2是critic网络生成的当前Q值。
为了提升前期奖励稀疏下的学习效率,引入优先经验回放(prioritizedexperience replay,PER)机制,依靠TD-error和实时奖励来定义样本的抽样概率,如下:
Figure BDA0004060658610000051
其中,
Figure BDA0004060658610000052
是优先级评估指标,α表示优先级程度,ε为常数。
步骤2.3基于图论,将车辆通信拓扑建模为一个对应于时间t的有向时变图
Figure BDA00040606586100000517
节点的集合
Figure BDA00040606586100000518
由N辆跟随车辆组成,边的集合
Figure BDA00040606586100000515
描述车辆间的连通关系,
Figure BDA0004060658610000053
为时变邻接矩阵,当车辆i可以接收到车辆j的信息时,cij(t)=1,i≠j;否则cij=0。
假设
Figure BDA00040606586100000519
其中
Figure BDA00040606586100000516
是通信拓扑候选的数量。定义
Figure BDA0004060658610000054
表示与其他跟随车辆通信,包含着跟随车辆的标号,即
Figure BDA0004060658610000055
定义牵引集合
Figure BDA0004060658610000056
若车辆i可以接收到领航车信息,即qi(t)=1;定义一个通信车辆集合
Figure BDA0004060658610000057
给定车辆编队的控制目标,如下:
Figure BDA0004060658610000058
其中,di,i-1为期望的恒定时距,pi为第i辆车的位置。
步骤3:运用先验规则,将平衡概念加入到跟车模型,考虑系统在不可靠通信场景,设计影响系数,并建立数据融合机制,实现多车系统的通信拓扑切换,设计拓扑切换机制。
步骤3.1给出车辆编队达到一致性时的平衡概念,将跟车策略集成到DRL算法框架中,定义如下:
Figure BDA0004060658610000059
其中,
Figure BDA00040606586100000510
是车辆i在时间t的目标平衡间距,
Figure BDA00040606586100000511
是车辆速度,
Figure BDA00040606586100000512
是恒定时距,li是静止间距,
Figure BDA00040606586100000513
通过式(5)可知自车的实际车辆间距和目标平衡间距的偏差
Figure BDA00040606586100000520
和相对速度为如下:
Figure BDA00040606586100000514
步骤3.2在考虑避碰的基础上,依据车辆间距离设计影响系数,前车对自车安全的影响是最大的,用指数函数设计影响系数,编队其他车辆与自车越远,其影响就越小,如下所示:
Figure BDA0004060658610000061
其中,i是车辆的编号。
根据影响系数和集合
Figure BDA0004060658610000068
建立一个加权数据融合机制:
Figure BDA0004060658610000062
其中,
Figure BDA0004060658610000063
分别表示车辆i的加权位置偏差和加权速度偏差,得到强化学习模型的状态空间
Figure BDA0004060658610000064
步骤3.3在不可靠的无线通信信道场景下,存在切换拓扑的可能,建立系统的动态通信拓扑模型,分别为前车跟随式(predecessor following,PF)、领航者-前车跟随式(leader-predecessor following,LPF)、双前车跟随式(two-predecessor following,TPF)、双前车-领航者跟随式(twopredecessor-leader following,TPLF)以及通信故障下五种通信拓扑,即
Figure BDA0004060658610000069
各自经过数据处理后都压缩成两个数据的状态空间,分别为间距和速度的加权偏差,进而统一不同拓扑下的神经网络的输入层,加快算法收敛和更好地实现多车系统的控制目标。
对于自车i,依据动态通信拓扑模型,可以通过车载传感器和V2X无线通信技术获得前车i-1的行驶信息、车辆i-2和领航车辆的状态信息,控制模型的状态信息如下:
Figure BDA0004060658610000065
Figure BDA0004060658610000066
然而,当编队中有车辆失去通信能力时,即车辆间无法通过V2X无线通信技术进行通信,该车辆可以通过传感器感知前车的行驶状态,相应地会有感知误差,为了提高传感器信息的准确性,采用AKF减少误差,定义一个状态向量
Figure BDA0004060658610000067
其包含两个感知状态参数,给出状态方程和测量方程如下:
Xt=AXt-1+qt-1,qt-1~N(0,Qt-1) (11)
Zt=HXt+rt,rt~N(0,Rt) (12)
其中,Pt和Vt是车辆的位置和速度,
Figure BDA0004060658610000071
是状态转移矩阵,,
Figure BDA0004060658610000072
表示测量值和真实值之间的映射关系,qt-1和rt分别表示随机过程噪声和测量噪声,假设它们为具有协方差矩阵Qt和Rt的独立的高斯噪声分量,而且
Figure BDA0004060658610000073
卡尔曼滤波由两个步骤组成,第一步是先验估计,由于车辆尽可能地尝试连续执行与前车相同的驾驶动作,因此其先验估计为
Figure BDA0004060658610000074
且其先验协方差矩阵为
Figure BDA0004060658610000075
式中Pt-1是后验协方差矩阵,
第二步是后验估计,将实际测量值和基于先验估计的预测测量值比较,通过修正后得到后验状态估计值,具体如下:
Figure BDA0004060658610000076
其中,Kt是卡尔曼增益,Pt是后验协方差更新方程,Xt表示如何根据测量状态对估计状态进行修正,以获得更精确的状态。
为保证准确的估计,需要对Qt和Rt进行合理的设置,Rt是车辆的固有属性,其是一个常数值,而固定的Qt会造成滤波偏差,因为对其自动更新,如下:
Figure BDA0004060658610000077
式中,εt是HXt和测量值之间的误差,α是遗忘因子,设置α=0.3。
由式(12)、(13)和(14)可以推导出基于卡尔曼滤波的预测器的公式,如下所示:
Xt=AXt-1+(APt-1AT+Qt-1)HT[H(APt-1AT+Qt-1)HT+Rt]-1(Zt-HAXt-1) (15)
步骤3.4为了降低拓扑切换过程中车辆颠簸,在切换过程中加入平滑过渡方法,由式(7)可知每个通信拓扑都有对应的默认影响系数,假设切换过程的缓冲时间为T,在这过程中影响系数的线性变化如下:
Figure BDA0004060658610000078
式中,ts是切换的开始时间,
Figure BDA0004060658610000079
是切换完成后的默认参数,若车辆间失去通信,那么该值为0,
Figure BDA00040606586100000710
是切换开始时的默认参数,其中
Figure BDA00040606586100000711
设T=0.4。
当车辆i与车辆j失去通信时,因为时间T很小,故可以使用两车在前T时间的行驶信息作为切换过程中的缓冲信息
Figure BDA0004060658610000081
而当车辆间恢复通信时,可以获得车辆j的行驶状态。在失去通信时,计算移动估计窗口大小为T的缓冲信息,如下:
Figure BDA0004060658610000082
式中,
Figure BDA0004060658610000083
Figure BDA0004060658610000084
分别为拓扑切换中作为(9)和(10)内的
Figure BDA0004060658610000085
步骤4:设计一个深度强化学习过程进行编队控制策略的迭代,考虑车辆安全性、舒适性和节能性,设计一个多目标的奖励函数。
步骤4.1在强化学习模型中,需要不断更新系统环境,在车辆得到控制指令后,应用运动学点-质量模型更新车辆状态,如下所示:
Figure BDA0004060658610000086
Figure BDA0004060658610000087
Figure BDA0004060658610000088
其中,
Figure BDA0004060658610000089
是车辆的加速度,由强化学习模型的动作空间给出,设u=[amin,amax]。
步骤4.2首先需要保证多车系统按照编队的性质行驶,给出协同控制效率成本和跟车奖励为如下:
Figure BDA00040606586100000810
Figure BDA00040606586100000811
其中,
Figure BDA00040606586100000812
时控制成本,更小的控制效率成本就表示着更高的跟车效率和局部稳定性,
Figure BDA00040606586100000813
α1,i2,i>0是正定对角系数矩阵,
Figure BDA00040606586100000814
是跟车奖励函数。
乘客舒适度是车辆行驶性能中的重要指标,定义jerk为加速度变化率,给出如下的奖励函数:
Figure BDA00040606586100000815
安全性是车辆驾驶性能的又一重要指标,利用碰撞时间积分(time integratedtime-to-collision,TIT)评估碰撞风险,TIT值越大,碰撞风险越高,如下所示:
Figure BDA0004060658610000091
Figure BDA0004060658610000092
式中,
Figure BDA0004060658610000093
表示碰撞时间,TTC*表示TTC的阈值,T'是计算周期,i是车辆编号,N是全部车辆。给出如下奖励函数:
Figure BDA0004060658610000094
式中,τ是车辆的当前时距,
Figure BDA0004060658610000095
是给定值,设
Figure BDA0004060658610000096
节能性可以减少车辆行驶的燃油消耗,给出VT-Micro模型及其在模型中的奖励函数,如下:
Figure BDA0004060658610000097
式中,
Figure BDA0004060658610000098
是瞬时燃油消耗率(ml/s);Kij多项式系数。
由式(20)、(21)、(23)和(24)可知总奖励函数为:
Figure BDA0004060658610000099
式中,ξ1、ξ2、ξ3和ξ4都是固定常数,设置ξ1=ξ2=ξ3=ξ4=1。
结合,可知ri t为所求多目标的奖励函数,用DRL策略π*制定一个无限期最优控制问题,以最大化折扣累积奖励,如下:
Figure BDA00040606586100000910
其中,
Figure BDA00040606586100000911
表示奖励函数,k是迭代次数,γ是折扣因子。
步骤4.4避免由于复杂交通场景下出现维度爆炸,构建分布式的编队控制模型,调节强化学习模型中的神经网络节点数、权值和超参数,训练得出满足要求的DRL控制器,实时求出期望输出。
图3给出本发明对改进的DDPG算法的网络参数进行训练的流程示意。
以上内容是结合优选技术方案对本发明所做的进一步详细说明,不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出简单的推演及替换,都应当视为本发明的保护范围。

Claims (5)

1.通信拓扑切换下基于深度强化学习的智能车编队控制方法,其特征在于包括以下步骤:
1)车辆编队由N+1辆车组成,编号为0,…,N,其中0号车为领航车辆,1,…,N号车为跟随车辆;通过车载传感器以及V2X无线通信网络分别实时采集自车以及其他跟随车辆和领航车辆的行驶运动状态信息;
2)分析车辆控制所需的算法类型,并对算法存在的弊端进行优化,基于图论描述智能电动车之间的信息交互形式,建立智能电动车实现编队控制的目标函数;
3)考虑系统在通信故障的场景,建立数据融合机制,在通信完全故障的情况下,采用AKF减少感知误差,实现多车系统的通信拓扑切换;
4)针对传统编队系统控制下的诸多弊端,设计一个深度强化学习过程进行编队控制策略的迭代,最终得到最优控制策略。
2.如权利要求1所述通信拓扑切换下基于深度强化学习的智能车编队控制方法,其特征在于在步骤1)中,所述实时采集自车以及其他跟随车辆和领航车辆的行驶运动状态信息包括:
(1)通过车载传感器和GPS周期性地感知自车的状态信息,包括距离信息、速度信息和加速度信息;
(2)自车通过V2X无线通信网络与编队中的其他车辆进行信息交互,实时接收相应的行驶运动状态信息,包括跟随车辆和领航车辆的行驶距离、行驶速度,同时接收领航车辆的加速度信息。
3.如权利要求1所述通信拓扑切换下基于深度强化学习的智能车编队控制方法,其特征在于在步骤2)中,所述分析车辆控制所需的算法类型,并对算法存在的弊端进行优化,基于图论描述智能电动车之间的信息交互形式,建立智能电动车实现编队控制的目标函数的具体步骤包括:
(1)针对在复杂的实际交通场景中难以建模等特点,建立基于数据驱动的控制策略,考虑车辆的油门和刹车的控制量类型,选择深度确定性策略梯度算法;
(2)在原算法的基础上,加入双网络结构解决估值网络Q值过高估计的问题,考虑到奖励稀疏,采用优先经验回放机制;
(3)基于图论定义车辆编队的通信拓扑,并给出相对应的邻接矩阵和牵引矩阵的定义;建立车辆编队控制的目标函数,使编队保持恒定的期望队形。
4.如权利要求1所述通信拓扑切换下基于深度强化学习的智能车编队控制方法,其特征在于步骤3)中,所述考虑系统在通信故障的场景,建立数据融合机制,在通信完全故障的情况下,采用AKF减少感知误差,实现多车系统的通信拓扑切换的具体步骤包括:
(1)给出影响系数,基于图论所描述的通信托扑结构,设定自车与通信车辆的速度差和距离差为状态变量,运用加权平均建立融合机制;
(2)给出系统的动态通信拓扑模型,考虑传感器感知误差的影响,采用AKF方法减少感知误差,以此提高车辆控制模型的精度;
(3)为了防止切换通信拓扑过程中存在的控制不平滑和加速度骤变,建立一个平滑切换拓扑的策略,实现车辆编队的平稳行驶。
5.如权利要求1所述通信拓扑切换下基于深度强化学习的智能车编队控制方法,其特征在于步骤4)中,所述设计一个深度强化学习过程进行编队控制策略的迭代,最终得到最优控制策略的具体步骤包括:
(1)设计强化学习模型,应用运动学点-质量模型更新车辆状态;
(2)考虑安全性、舒适性等系统性能目标,设计一个多目标的奖励函数,实现车辆编队的安全、舒适和节能行驶,提高多车系统的综合性能;
(3)建立分布式的编队控制模型,对算法内的神经网络进行调参,训练控制器,实时求出车辆的期望输出。
CN202310056808.0A 2023-01-17 2023-01-17 通信拓扑切换下基于深度强化学习的智能车编队控制方法 Pending CN115963840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310056808.0A CN115963840A (zh) 2023-01-17 2023-01-17 通信拓扑切换下基于深度强化学习的智能车编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310056808.0A CN115963840A (zh) 2023-01-17 2023-01-17 通信拓扑切换下基于深度强化学习的智能车编队控制方法

Publications (1)

Publication Number Publication Date
CN115963840A true CN115963840A (zh) 2023-04-14

Family

ID=87363415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310056808.0A Pending CN115963840A (zh) 2023-01-17 2023-01-17 通信拓扑切换下基于深度强化学习的智能车编队控制方法

Country Status (1)

Country Link
CN (1) CN115963840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820138A (zh) * 2023-08-28 2023-09-29 中国人民解放军军事科学院系统工程研究院 一种基于编队行驶的控制器智能决策方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820138A (zh) * 2023-08-28 2023-09-29 中国人民解放军军事科学院系统工程研究院 一种基于编队行驶的控制器智能决策方法及系统
CN116820138B (zh) * 2023-08-28 2024-04-12 中国人民解放军军事科学院系统工程研究院 一种基于编队行驶的控制器智能决策方法及系统

Similar Documents

Publication Publication Date Title
CN111931905B (zh) 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法
CN111081065B (zh) 路段混行条件下的智能车辆协同换道决策模型
CN109572694B (zh) 一种考虑不确定性的自动驾驶风险评估方法
Wang et al. Developing a Distributed Consensus‐Based Cooperative Adaptive Cruise Control System for Heterogeneous Vehicles with Predecessor Following Topology
CN110244715B (zh) 一种基于超宽带技术的多移动机器人高精度协同跟踪方法
CN109871599B (zh) 一种无人驾驶车辆运行安全指数评价方法
CN107958269A (zh) 一种基于隐马尔可夫模型的行车危险度预测方法
CN113552883B (zh) 基于深度强化学习的地面无人车自主驾驶方法及系统
CN115963840A (zh) 通信拓扑切换下基于深度强化学习的智能车编队控制方法
CN114199248B (zh) 一种基于混合元启发算法优化anfis的auv协同定位方法
CN112530177B (zh) 车联网环境下基于卡尔曼滤波的车辆排队长度估计方法
CN115675098B (zh) 基于用户特征差异的智能网联汽车动能回收系统、方法、设备及存储介质
CN115662131B (zh) 网联环境下道路事故路段的多车道协同换道方法
CN113947928A (zh) 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN114639267A (zh) 一种车路协同环境中车辆避撞预警方法
CN110825112A (zh) 基于多无人机的油田动态侵入目标追踪系统与方法
CN113327457B (zh) 一种基于车路协同技术的车辆避碰系统及方法
Saleem et al. Cooperative cruise controller for homogeneous and heterogeneous vehicle platoon system
CN114475607A (zh) 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质
CN114879665A (zh) 用于车辆远程召唤系统的安全节能运动规划方法及系统
CN112637805A (zh) 一种高速列车行驶状态即插即用分布式估计方法
CN114091567A (zh) 一种驾驶决策方法及装置
CN111240365A (zh) 带有指定性能的无人机编队自适应执行器故障补偿方法
CN117932234B (zh) 一种用于制作刹车标定表的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination