CN114973650B - 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 - Google Patents

车辆匝道入口合流控制方法、车辆、电子设备及存储介质 Download PDF

Info

Publication number
CN114973650B
CN114973650B CN202210386804.4A CN202210386804A CN114973650B CN 114973650 B CN114973650 B CN 114973650B CN 202210386804 A CN202210386804 A CN 202210386804A CN 114973650 B CN114973650 B CN 114973650B
Authority
CN
China
Prior art keywords
vehicle
representing
network
confluence
ramp entrance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210386804.4A
Other languages
English (en)
Other versions
CN114973650A (zh
Inventor
殷国栋
周闪星
庄伟超
李兵兵
刘昊吉
刘帅鹏
丁昊楠
李志翰
邱春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210386804.4A priority Critical patent/CN114973650B/zh
Publication of CN114973650A publication Critical patent/CN114973650A/zh
Application granted granted Critical
Publication of CN114973650B publication Critical patent/CN114973650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/052Detecting movement of traffic to be counted or controlled with provision for determining speed or overspeed
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/123Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/167Driving aids for lane monitoring, lane changing, e.g. blind spot detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/80Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
    • Y02T10/84Data processing systems or methods, management, administration

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种车辆匝道入口合流控制方法、车辆、电子设备及存储介质,其中车辆匝道入口合流控制方法,包括以下步骤:获取环境车辆的状态信息:包括位置、速度及加速度;搭建高速匝道入口合流场景的多智能体马尔科夫决策模型;利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略,以求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题,从而得到最优合流轨迹。本发明将多智能体深度强化学习算法应用于匝道入口协同合流控制中,使得面向高动态高随机的匝道入口合流场景时达到协同合流的能耗最低,通行时间最短。

Description

车辆匝道入口合流控制方法、车辆、电子设备及存储介质
技术领域
本发明涉及智能交通车辆运动控制技术领域,尤其涉及一种匝道入口合流的控制方法。
背景技术
随着我国汽车工业的迅速发展,与发展缓慢的交通设施之间产生了不匹配的矛盾,由此造成了环境污染及交通事故现象日益严重。随着科学技术的进步,发展智能网联车为此提供了一个有效的解决途径,我国智能汽车创新发展战略等文指出:智能化网联化亦是国家的战略发展方向。
匝道合流区是城市典型复杂的交通场景之一,由于匝道车辆的突然汇入而导致主道车辆紧急停车甚至发生碰撞,使得匝道合流区的事故发生率日益提高,如何有效解决匝道合流区车辆的协同合流控制已成为解决此区域交通事故的有效手段。而现有的技术中多采用最优控制的方法来解决合流问题,但是基于最优控制的方法计算量大且针对单一特定场景,无法实时适应动态变化的交通环境。
多智能体深度确定性策略梯度算法(multi-agent deep deterministic policygradient,简称MADDPG),是一种多智能体强化学习算法。无需环境模型,将智能体放入环境中,通过最大化智能体与环境交互后得到的奖励值,使其能够自主探索最优合流策略,大大提高了对动态交通环境的适应性,但如何将这一之智能强化学习算法应用到车辆控制尤其是匝道入口合流上,还处于概念上,还没有人提出过可实现的方案。
发明内容
本发明提供了一种基于多智能体深度确定性策略梯度的车辆匝道入口合流控制方法、车辆、电子设备及存储介质,其技术目的是在考虑使得车辆适应动态交通环境的前提下,提高匝道入口合流的效率和安全性能,并降低能耗。
本发明上述技术目的是通过以下技术方案得以实现的:
本发明首先提供一种车辆匝道入口合流控制方法,包括:
步骤S1:搭建车辆运动学模型并获取自车及周围环境车辆的状态信息;
步骤S2:基于所获取车辆状态信息,构建高速匝道入口合流场景的多智能体马尔可夫决策模型;构建的多智能体马尔可夫决策模型为:
Figure BDA0003594020410000011
其中,
Figure BDA0003594020410000012
代表匝道合流区内网联车的数量;S代表所有网联车的状态集合,S={si},si=[xi,xr,xe]T,xi=[pi,vi],其中xi代表自车的状态,由位置pi和速度vi组成;xr代表位于异车道前车的状态信息;xe代表位于异车道后车的状态信息;U代表所有网联车的动作集合,U={ui},ui=ai,ai表示车辆i的加速度;/>
Figure BDA0003594020410000021
代表所有网联车的奖励函数集合,/>
Figure BDA0003594020410000022
ri为每个智能网联车的奖励函数;
步骤S3:基于所述多智能体马尔可夫决策模型,利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略,求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题,从而得到车辆最优合流轨迹。
本发明还提供一种车辆,其特征在于,包括:
信息采集单元,用于获取自车及周围环境车辆的状态信息;
信息处理单元,基于所述匝道入口合流控制方法,得到自车的最优合流轨迹;
控制器,根据所述信息处理单元得到的最优合流轨迹控制车辆进行匝道入口合流。
本发明还提供一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如所述的匝道入口合流控制方法。
最后,本发明还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述的匝道入口合流控制方法。
本发明的有益效果在于:
构建了高速匝道合流场景的多智能体马尔可夫决策模型,创新性利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略,求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题,实现能耗最优,安全最优以及通行效率最优。
附图说明
图1为本发明所述方法的流程图。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。
本实施例提供一种基于多智能体深度确定性策略梯度的匝道入口合流控制方法,包括:
步骤S1:搭建车辆运动学模型并获取自车及周围环境车辆的状态信息;
具体地,车辆运动学模型如下:
Figure BDA0003594020410000023
Figure BDA0003594020410000024
其中,i代表车辆编号,即进入高速匝道入口场景的先后顺序,pi表示车辆i的位置,vi表示车辆i的速度,ai表示车辆i的加速度;vmin,vmax分别表示道路允许的车辆的最小速度、最大速度,amin,amax分别表示道路允许的车辆的最小加速度、最大加速度;
相邻车辆间的状态信息通过无线短波通讯进行信息交换,以获得周围环境车辆的速度及位置信息。
步骤S2:基于所获取车辆状态信息,构建高速匝道入口合流场景的多智能体马尔可夫决策模型(RM-MMDP);
具体地,RM-MMDP模型构建如下:
Figure BDA0003594020410000031
其中,
Figure BDA0003594020410000032
代表匝道合流区内车辆的数量,即智能网联车(CAV)的数量;S代表所有CAV的状态集合,S={si},si=[xi,xr,xe]T,xi=[pi,vi],其中xi代表自车的状态,由位置和速度信息组成;xr代表位于异车道前车的状态信息;xe代表位于异车道后车的状态信息;每个车辆的状态空间都由自车及周围两个车辆的信息构成,所有车辆的状态空间构成了整个状态空间集合S;U代表所有CAV的动作集合,U={ui},ui=ai;/>
Figure BDA0003594020410000033
为每个智能网联车的奖励函数。
具体地,RM-MMDP模型中每个CAV的奖励函数组成如下:
Figure BDA0003594020410000034
其中,
Figure BDA0003594020410000035
表示各项组成的权重因子。
Figure BDA0003594020410000036
Figure BDA0003594020410000037
代表能耗项,保证车辆在合流过程中达到能耗较小的目标;
Figure BDA0003594020410000038
Figure BDA0003594020410000039
代表行驶效率速度项,为了保证较高的合流效率,尽可能让车辆的速度达到道路限制的最高时速行驶;
Figure BDA00035940204100000310
Figure BDA00035940204100000311
代表异车道车辆横向碰撞安全项,de表示异车道后车距离合流终点的距离,di表示车距离合流终点的距离;
Figure BDA00035940204100000312
Figure BDA00035940204100000313
代表同车道车辆纵向碰撞安全项,dr表示同车道前车距离合流终点的距离;
Figure BDA00035940204100000314
Figure BDA00035940204100000315
代表安全行驶距离效率项,dsafe为行车安全行驶距离,pr为同车道前车的位置,尽可能保证前后两车的间距始终维持在安全行驶距离范围内,以保证较高的车流密度;
步骤S3:基于RM-MMDP模型,利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略,以求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题,从而得到车辆最优合流轨迹。
具体地,多智能体深度确定性策略梯度算法中Actor网络与Critic网络更新规则如下:
Actor网络更新规则为:
Figure BDA00035940204100000316
Critic网络更新规则为:
Figure BDA0003594020410000041
Figure BDA0003594020410000042
Figure BDA0003594020410000043
其中,k代表离散时间步,
Figure BDA0003594020410000044
分别代表车辆i采取动作从时间步k到下一状态k+1时的网络更新策略,/>
Figure BDA0003594020410000045
表示在在线网络参数为/>
Figure BDA0003594020410000046
时对其求梯度,/>
Figure BDA0003594020410000047
是车辆i在时间步k时的延迟软更新参数的目标策略,/>
Figure BDA0003594020410000048
表示车辆i在时间步k时的状态,/>
Figure BDA0003594020410000049
表示对其求期望,/>
Figure BDA00035940204100000410
表示在延迟软更新参数的目标策略/>
Figure BDA00035940204100000411
下对其求梯度,/>
Figure BDA00035940204100000412
表示异车道前车r在时间步k时的状态,/>
Figure BDA00035940204100000413
表示车辆i在状态/>
Figure BDA00035940204100000414
时的延迟软更新参数的目标策略,/>
Figure BDA00035940204100000415
表示车辆i在时间步k时价值目标网络计算的行为-动作函数值,/>
Figure BDA00035940204100000416
代表车辆i在时间步k+1时价值目标网络计算的行为-动作函数值,其值大小仅与当前车辆i与其异车道前车有关;/>
Figure BDA00035940204100000417
中间参数,/>
Figure BDA00035940204100000418
为车辆i在时间步k时获得的奖励函数值,γ为折扣因子,
Figure BDA00035940204100000419
表示车辆r在时间步k+1时的位置,/>
Figure BDA00035940204100000420
表示车辆r在时间步k+1时的位置。
具体的,作为具体实施例之一地,多智能体深度确定性策略梯度算法流程包括如下步骤:
步骤一:随机初始化每个车辆的在线策略网络参数
Figure BDA00035940204100000421
和在线评价网络参数/>
Figure BDA00035940204100000422
其中μ代表策略网络,Q代表评价网络,θ为在线网络参数;
步骤二:初始化每个车辆的目标策略网络参数
Figure BDA00035940204100000423
初始化目标评价网络参数
Figure BDA00035940204100000424
其中/>
Figure BDA00035940204100000425
为初始化的目标策略网络参数,/>
Figure BDA00035940204100000426
为目标评价网络参数;
步骤三:初始化每个车辆的经验回放缓存池Hi,用于存储合流车辆经验数据;
步骤四:离散动作序列,即加速度序列,以[amin,amax]为基础,每隔0.1大小进行离散,得到备选动作序列;
步骤五:进行训练,设置M个训练回合,每个训练回合包含k步,其中对于每步:
1)每个车辆随机从动作序列中选取一个值进行动作的执行,到达下一个状态,计算并返回即时奖励
Figure BDA00035940204100000427
以及下一时刻车辆状态/>
Figure BDA00035940204100000428
2)将每个车辆状态转移过程
Figure BDA00035940204100000429
作为经验数据存入经验回放区Hi
3)从经验回放区域Hi中小批量随机取样,抽出当前车辆与其前一车辆的样本数据
Figure BDA00035940204100000430
更新每辆车的Actor网络与Critic网络。
4)完成k步训练之后,即可开始下一回合训练,完成M个训练回合后,观察每辆车的奖励函数是否已经收敛,若收敛则训练结束,保存训练好的匝道入口协同合流策略,用于匝道合流场景的运用;若不收敛则在M个训练回合的基础上增加M/2个训练回合并重复步骤一到四。
本实施例提供一种智能车辆,包括:
信息采集单元,用于获取自车及周围环境车辆的状态信息;
信息处理单元,基于实施例的匝道入口合流控制方法,得到自车的最优合流轨迹;
控制器,根据信息处理单元得到的最优合流轨迹控制车辆进行匝道入口合流。
本实施例提供一种电子设备或终端,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例的匝道入口合流控制方法。
通过该电子设备或终端将得到的处理结果即最优合流轨迹发送给智能车辆,使智能车辆按照接收的控制信号进行车辆的行车速度及轨迹行驶。
本实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例的匝道入口合流控制方法。

Claims (4)

1.一种车辆匝道入口合流控制方法,其特征在于,包括:
步骤S1:搭建车辆运动学模型并获取自车及周围环境车辆的状态信息;
步骤S2:基于所获取车辆状态信息,构建高速匝道入口合流场景的多智能体马尔可夫决策模型;构建的多智能体马尔可夫决策模型为:
Figure FDA0004187591760000011
其中,
Figure FDA0004187591760000012
代表匝道合流区内网联车的数量;S代表所有网联车的状态集合,S={si},si=[xi,xr,xe]T,xi=[pi,vi],其中xi代表自车的状态,由位置pi和速度vi组成;xr代表位于异车道前车的状态信息;xe代表位于异车道后车的状态信息;U代表所有网联车的动作集合,U={ui},ui=ai,ai表示车辆i的加速度;/>
Figure FDA0004187591760000013
代表所有网联车的奖励函数集合,
Figure FDA0004187591760000014
ri为每个智能网联车的奖励函数;
步骤S3:基于所述多智能体马尔可夫决策模型,利用多智能体深度确定性策略梯度算法构建匝道入口协同合流策略,求解包含横向碰撞安全、纵向碰撞安全、整车能耗最小及通行时间最短的多目标优化问题,从而得到车辆最优合流轨迹;
所述奖励函数ri为:
Figure FDA0004187591760000015
其中,
Figure FDA0004187591760000016
表示各项组成的权重因子;
Figure FDA0004187591760000017
代表能耗项;
Figure FDA0004187591760000018
代表行驶效率速度项;vmax表示道路允许的车辆的最大速度
Figure FDA0004187591760000019
代表异车道车辆横向碰撞安全项,de表示异车道后车距离合流终点的距离,di表示车距离合流终点的距离;
Figure FDA00041875917600000110
代表同车道车辆纵向碰撞安全项,dr表示同车道前车距离合流终点的距离;
Figure FDA00041875917600000111
代表安全行驶距离效率项,dsafe为行车安全行驶距离,pr为同车道前车的位置;
所述步骤S3中,所述多智能体深度确定性策略梯度算法流程为:
步骤一:随机初始化每个车辆的在线策略网络参数
Figure FDA00041875917600000112
和在线评价网络参数/>
Figure FDA00041875917600000113
其中μ代表策略网络,Q代表评价网络,θ为在线网络参数;
步骤二:初始化每个车辆的目标策略网络参数
Figure FDA00041875917600000114
初始化目标评价网络参数/>
Figure FDA00041875917600000115
其中
Figure FDA00041875917600000116
为初始化的目标策略网络参数,/>
Figure FDA00041875917600000117
为目标评价网络参数;
步骤三:初始化每个车辆的经验回放缓存池Di,用于存储合流车辆经验数据;
步骤四:离散加速度序列,以[amin,amax]为基础,每隔0.1大小进行离散,得到备选动作序列;
步骤五:进行训练,设置M个训练回合,每个训练回合包含m步,其中对于每步:
1)获取自车及周围车辆的状态信息的观测值;
2)每个车辆随机从动作序列中选取一个值进行动作的执行,到达下一个状态,计算并返回即时奖励
Figure FDA0004187591760000021
以及下一时刻车辆状态/>
Figure FDA0004187591760000022
其中k表示离散的时间步;
3)将每个车辆状态转移过程
Figure FDA0004187591760000023
作为经验数据存入经验回放区Di
4)从经验回放区域Di中小批量随机取样,抽出当前车辆与其前一车辆的样本数据
Figure FDA0004187591760000024
更新每辆车的Actor网络与Critic网络;
5)完成m步训练之后,开始下一回合训练,完成M个训练回合后,观察每辆车的奖励函数是否已经收敛,若收敛则训练结束,保存训练好的匝道入口协同合流策略,用于匝道合流场景的运用;若不收敛则在M个训练回合的基础上增加M/2个训练回合并重复步骤一到四;
所述步骤S3中,所述多智能体深度确定性策略梯度算法中Actor网络与Critic网络更新规则如下:
Actor网络更新规则为:
Figure FDA0004187591760000025
Critic网络更新规则为:
Figure FDA0004187591760000026
Figure FDA0004187591760000027
Figure FDA0004187591760000028
其中,k代表离散时间步,
Figure FDA0004187591760000029
分别代表车辆i采取动作从时间步k到下一状态k+1时的网络更新策略,/>
Figure FDA00041875917600000210
表示在线网络参数为/>
Figure FDA00041875917600000211
时对其求梯度,/>
Figure FDA00041875917600000212
是车辆i在时间步k时的延迟软更新参数的目标策略,/>
Figure FDA00041875917600000213
表示车辆i在时间步k时的状态,/>
Figure FDA00041875917600000214
表示对其求期望,
Figure FDA00041875917600000215
表示在延迟软更新参数的目标策略/>
Figure FDA00041875917600000216
下对其求梯度,/>
Figure FDA00041875917600000217
表示异车道前车r在时间步k时的状态,/>
Figure FDA00041875917600000218
表示车辆i在状态/>
Figure FDA00041875917600000219
时的延迟软更新参数的目标策略,/>
Figure FDA00041875917600000220
表示车辆i在时间步k时价值目标网络计算的行为-动作函数值,/>
Figure FDA00041875917600000221
代表车辆i在时间步k+1时价值目标网络计算的行为-动作函数值,其值大小仅与当前车辆i与其异车道前车有关;/>
Figure FDA00041875917600000222
中间参数,/>
Figure FDA00041875917600000223
为车辆i在时间步k时获得的奖励函数值,γ为折扣因子,/>
Figure FDA00041875917600000224
表示车辆r在时间步k+1时的位置,/>
Figure FDA00041875917600000225
表示车辆r在时间步k+1时的位置;
所述步骤S1中,所述车辆运动学模型如下:
Figure FDA0004187591760000031
vmin≤vi≤vmax
Figure FDA0004187591760000032
amin≤ai≤amax
其中,i代表车辆编号,即进入高速匝道入口场景的先后顺序,pi表示车辆i的位置,vi表示车辆i的速度,ai表示车辆i的加速度;vmin,vmax分别表示道路允许的车辆的最小速度、最大速度,amin,amax分别表示道路允许的车辆的最小加速度、最大加速度。
2.一种车辆,其特征在于,包括:
信息采集单元,用于获取自车及周围环境车辆的状态信息;
信息处理单元,基于权利要求1所述的车辆匝道入口合流控制方法,得到自车的最优合流轨迹;
控制器,根据所述信息处理单元得到的最优合流轨迹控制车辆进行匝道入口合流。
3.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1所述的车辆匝道入口合流控制方法。
4.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1所述的车辆匝道入口合流控制方法。
CN202210386804.4A 2022-04-13 2022-04-13 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 Active CN114973650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210386804.4A CN114973650B (zh) 2022-04-13 2022-04-13 车辆匝道入口合流控制方法、车辆、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210386804.4A CN114973650B (zh) 2022-04-13 2022-04-13 车辆匝道入口合流控制方法、车辆、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114973650A CN114973650A (zh) 2022-08-30
CN114973650B true CN114973650B (zh) 2023-05-23

Family

ID=82978100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210386804.4A Active CN114973650B (zh) 2022-04-13 2022-04-13 车辆匝道入口合流控制方法、车辆、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114973650B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830885B (zh) * 2022-11-29 2024-05-07 南京理工大学 一种考虑多车型能量消耗的车辆匝道合流协同控制方法
CN116961139B (zh) * 2023-09-19 2024-03-19 南方电网数字电网研究院有限公司 一种电力系统的调度方法、调度装置和电子装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369813A (zh) * 2020-03-23 2020-07-03 江苏大学 一种智能网联汽车的匝道分合流协同控制方法及系统
CN113223324A (zh) * 2021-03-25 2021-08-06 东南大学 高速匝道入口合流的控制方法
CN113269963A (zh) * 2021-05-20 2021-08-17 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113362619A (zh) * 2021-06-04 2021-09-07 东南大学 混合交通环境下智能网联车辆匝道协同合流控制方法及装置
CN113744527A (zh) * 2021-08-31 2021-12-03 北京航空航天大学 一种面向高速公路合流区的智能靶向疏堵方法
CN114090642A (zh) * 2021-11-22 2022-02-25 北京百度网讯科技有限公司 地图路网匹配方法、装置、设备和介质
CN114241778A (zh) * 2022-02-23 2022-03-25 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369813A (zh) * 2020-03-23 2020-07-03 江苏大学 一种智能网联汽车的匝道分合流协同控制方法及系统
CN113223324A (zh) * 2021-03-25 2021-08-06 东南大学 高速匝道入口合流的控制方法
CN113269963A (zh) * 2021-05-20 2021-08-17 东南大学 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN113362619A (zh) * 2021-06-04 2021-09-07 东南大学 混合交通环境下智能网联车辆匝道协同合流控制方法及装置
CN113744527A (zh) * 2021-08-31 2021-12-03 北京航空航天大学 一种面向高速公路合流区的智能靶向疏堵方法
CN114090642A (zh) * 2021-11-22 2022-02-25 北京百度网讯科技有限公司 地图路网匹配方法、装置、设备和介质
CN114241778A (zh) * 2022-02-23 2022-03-25 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于v/C比和载重汽车混入率的高速公路基本路段车辆平均行程时间预测模型;景立竹;李群善;许金良;贾兴利;刘江;韩跃杰;;长安大学学报(自然科学版)(05);全文 *

Also Published As

Publication number Publication date
CN114973650A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114973650B (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN113805572B (zh) 运动规划的方法与装置
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN113010967B (zh) 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN110027553A (zh) 一种基于深度强化学习的防碰撞控制方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN110956851B (zh) 一种智能网联汽车协同调度换道方法
Zong et al. Obstacle avoidance for self-driving vehicle with reinforcement learning
CN113253739B (zh) 一种用于高速公路的驾驶行为决策方法
CN110196587A (zh) 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN110525428A (zh) 一种基于模糊深度强化学习的自动泊车方法
CN113386790B (zh) 一种面向跨海大桥路况的自动驾驶决策方法
CN115601954B (zh) 一种智能网联车队的换道判断方法、装置、设备及介质
CN114852105A (zh) 一种自动驾驶车辆换道轨迹规划方法及系统
Yuan et al. Prioritized experience replay-based deep q learning: Multiple-reward architecture for highway driving decision making
CN116127853A (zh) 融合时序信息的基于ddpg的无人驾驶超车决策方法
CN115973169A (zh) 基于风险场模型的驾驶行为决策方法、电子设备及介质
Wu et al. Autonomous On-ramp Merge Strategy Using Deep Reinforcement Learning in Uncertain Highway Environment
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
Zhang et al. Decision-making for Overtaking in Specific Unmanned Driving Scenarios based on Deep Reinforcement Learning
Tang et al. Research on decision-making of lane-changing of automated vehicles in highway confluence area based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant