CN112289044B - 基于深度强化学习的高速公路道路协同控制系统及方法 - Google Patents

基于深度强化学习的高速公路道路协同控制系统及方法 Download PDF

Info

Publication number
CN112289044B
CN112289044B CN202011202148.5A CN202011202148A CN112289044B CN 112289044 B CN112289044 B CN 112289044B CN 202011202148 A CN202011202148 A CN 202011202148A CN 112289044 B CN112289044 B CN 112289044B
Authority
CN
China
Prior art keywords
traffic
control
module
road
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011202148.5A
Other languages
English (en)
Other versions
CN112289044A (zh
Inventor
王翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202011202148.5A priority Critical patent/CN112289044B/zh
Publication of CN112289044A publication Critical patent/CN112289044A/zh
Application granted granted Critical
Publication of CN112289044B publication Critical patent/CN112289044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • G08G1/0116Measuring and analyzing of parameters relative to traffic conditions based on the source of data from roadside infrastructure, e.g. beacons
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的高速公路道路协同控制系统及方法,系统包括交通信息交互模块、交通控制模块、深度学习网络训练模块以及若干可变限速和匝道控制单元,通过信息交互模块获取道路的交通状态,再传递给交通控制模块。后者通过训练模块不断优化控制策略,并采用具有actor‑critic架构的深度强化学习算法保证训练过程的稳定性。本发明能同时控制系统中的所有交通控制单元,且不会造成交通状态空间爆炸等问题,能保障车辆以较高速度通过瓶颈路段,且不会因为排队等问题影响周边道路车辆的通行。

Description

基于深度强化学习的高速公路道路协同控制系统及方法
技术领域
本发明涉及交通控制与智能交通技术领域,特别是涉及一种基于深度强化学习的高速公路主线道路和入口匝道协同控制系统及方法。
背景技术
高速公路在高峰时段呈现出常发性、周期性、长距离的交通拥堵,其中,高速公路入口匝道及相邻主线道路已成为典型的高速公路瓶颈区域。由于早期的路网规划可能存在不合理之处,且道路改建的困难较大,所以对高速公路匝道和相邻主线道路进行协同管控,是改善道路通行效率,提升行车安全的重要方式。
现有的协同控制方法主要以模型预测控制或反馈式控制方法为主。模型预测控制方法一般要先从实际交通数据中提取特征变量,再建立交通流模型。由于实际交通状况具有高度的非线性和随机性,难以建立精确的交通预测模型,因此较难在复杂场景中取得良好的建模效果。此外,对于交通状态的细节也难以取得较好的刻画效果;另一方面,反馈式控制方法具有安装灵活,不依赖模型等特点,但是其控制效果有滞后性,可能造成交通流的二次扰动。
因此,提出一种合理、精细的匝道和主线交通协同控制系统,不仅有助于拓展现有的交通控制理论水平,并且对提升高速公路的通行效率和安全有重要意义。深度强化学习作为机器学习的一个重要分支,不需对交通环境进行精确的建模,而是通过智能体和环境的不断交互来获得对控制策略的反馈,并可基于长期的反馈结果学习不同的随机交通环境,最终获得各种动态交通环境下的最优控制策略。但是,深度强化学习在处理协同控制时存在以下问题:(1)多智能体协同时的同步控制问题。例如,匝道信号灯的周期和可变限速控制的周期不一致,两者如何统一;(2)现有的奖励函数容易受到交通环境中随机扰动的影响;(3)现有技术较少考虑车辆在入口匝道的排队问题,会导致周边道路的拥堵。(4)传统的深度强化学习技术存在固有缺陷,处理多智能体协同控制时容易造成行为空间状态爆炸等问题。
发明内容
发明目的:针对现有技术中的不足,本发明的目的是提供一种基于深度强化学习的高速公路道路协同控制系统及方法,该系统是一种基于深度强化学习的高速公路主线和匝道协同控制系统和方法,综合考虑了车辆在高速公路上的旅行时间,进入高速公路前的等待时间,以及车辆的排队长度等因素,可以让车辆以较高速度通过瓶颈路段的同时,不会因为排队等问题影响周边道路上车辆的通行;可以解决现有强化学习技术的状态空间爆炸的问题,以及容易陷入局部最优控制的问题。
技术方案:本发明的一种基于深度强化学习的高速公路主线和匝道协同控制系统,包括交通信息交互模块,交通控制模块,深度学习神经网络训练模块,以及若干交通控制单元;
所述交通信息交互模块,用于采集道路的观测信息ot,并转化为可用于深度强化学习的交通状态信息st发送给交通控制模块,以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆。其中,交通信息交互模块包括若干路侧单元(Road-sideUnit,RSU),高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元,采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。
所述交通控制模块,用于根据接收到的交通状态信息st选取最优行为策略at,并将at发送给交通控制单元,将st和at发送给训练模块,其中,at包括系统中所有交通控制单元的动作集合。其中,交通控制模块包括决策控制网络和随机噪声生成模块,并设有执行模式和训练模式;执行模式下,交通控制模块根据当前交通状态信息st直接选择最优的控制策略at;训练模式下,对at加上随机噪声
Figure BDA0002755675700000021
由随机噪声生成模块提供;交通控制模块计算出at后,根据受控路段的编号将对应的控制指令at,i发给该路段的交通控制单元,同时将st和at发送给深度学习训练模块,评估at的控制效果。
所述深度学习神经网络训练模块,简称训练模块,用于将来自交通控制模块的交通状态信息st和行为策略at存入回放记忆库中,根据奖励函数对神经网络进行训练,使奖励函数的长期累积和最大化,以此优化决策控制网络;
所述交通控制单元包括布设于高速公路主线的可变限速控制单元以及布设于入口匝道处的匝道信号控制单元,各控制单元从来自交通控制模块的最优行为策略at中提取相应的动作指令,并将指令通过交通信息交互模块传递给受控路段的车辆;其中,匝道信号控制单元用于将入口匝道的放行流量指令转换成红绿信号周期,可变限速控制单元用于将限速指令转换成具体的可变限速值。
其中,获取交通状态信息包括如下步骤:
(1)当一辆网联汽车驶入某一子路段i时,相应的路侧单元RSU与该车辆建立一个车辆会话VS(Vehicular Session),并将该会话加入当前路段的车辆会话队列VSQ(Vehicular Session Queue)中,VSQ中的车辆可与RSU实时信息交互;当车辆驶离该路段时,VS从VSQ中自动删除;
(2)每个控制时段,RSU从VSQ中获取最新的车辆状态,并据此生成路段的实时交通状态信息,并将交通状态信息发送给交通控制模块;
其中,获取算法为:
Figure BDA0002755675700000031
qt,i=Nstop
式中,N是路段中的车辆数,vi是每个车辆的速度,L是路段长度,vt,i表示路段i的平均速度,dt,i表示路段i的车辆密度,qt,i表示路段i的排队长度qt,i,Nstop是路段中停止等待的车辆,当车速小于5km/h时,车辆视为停止;
(3)交通控制模块计算出控制指令并回传RSU,RSU通过VSQ通知所辖范围内的车辆最新指令。
其中,深度学习神经网络训练模块的训练过程包括如下步骤:
(1)在t+1训练时刻,从交通信息交互模块获取前一时刻的交通状态信息st,从控制模块获取协同策略at,从奖励函数模块获取即时奖励rt,连同当前时刻的交通状态信息st+1,组成交通状态数据元组(st,at,rt,st+1),存入回放记忆库中;
(2)深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(st,at,rt,st+1);
(3)对于每条数据元组,深度学习训练网络根据Bellman方程对其长期收益进行评分,取两个评分网络的较小分值,公式为:
Figure BDA0002755675700000032
式中,yi是第i条数据的得分,ri是即时奖励,st+1是历史交通状态信息,
Figure BDA0002755675700000033
是控制模块在st+1下的策略结果,θμ′
Figure BDA0002755675700000034
分别是长期决策网络和长期评分网络的权重向量;
(4)基于损失函数对评分网络的权重进行更新,使用Adam优化器对更新过程进行优化;
其中,损失函数的计算方法为:
Figure BDA0002755675700000041
上式中,N为训练数据的条数,yi是第i条数据的得分,Q(st,at|θQ)为评分网络基于最新的数据(st,at)的评分,θQ为评分网络的权重。
(5)每隔K个时间步长更新长期评分网络的权重,再根据评分网络的权重,调整决策控制网络的权重,改善控制策略。
其中,匝道信号控制单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期,转换方法包括如下步骤:
(1)从交通控制模块获取当前时刻的入口匝道放行流量指令;
(2)判断当前时刻是否是一个新的控制周期开始时刻。如果是,执行以下步骤重新分配红绿信号灯周期;如果不是,执行步骤(3):
(2.1)将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(VN/min)
(2.2)计算信号周期的时长,计算公式为:放行(绿灯)时长=每辆车放行时长×(VN/min);红灯时长=信号周期-绿灯时长;
(3)更新完成后,直到下一控制周期开始前,匝道信号单元根据红绿信号灯的状态,决定车辆是否放行。
在整个控制过程中,重复步骤(1)~步骤(3)。
本发明还提供了一种基于深度强化学习的高速公路主线和匝道协同控制方法,包括如下步骤:
(1)采集控制范围内高速公路主线和匝道的道路交通状态信息st
(2)获取道路交通状态信息st,根据执行模式或训练模式计算当前的控制策略;
(3)对任意交通状态st,通过深度学习训练模块改进其控制行为,最终使系统的长期累计奖励值最大;
(4)计算出最优行为策略at后,根据该控制策略指导控制范围内高速公路主线和匝道的交通流优化。
进一步地,步骤(2)包括:
(2.1)执行模式下,协同控制方法基于st直接选择最优控制策略at
(2.2)训练模式下,协同控制方法在at的基础上加入随机噪声
Figure BDA0002755675700000051
的计算公式为:
Figure BDA0002755675700000052
式中,
Figure BDA0002755675700000053
是基础探索噪声,Rmax和Rmin分别是历史数据的最大和最小奖励值,rlast是前一个训练周期的平均奖励值,ξ为基于历史奖励值的影响因子。
进一步地,步骤(3)中,对任意交通状态st的控制策略为:
Figure BDA0002755675700000054
式中,π(at|st)指对任意交通状态st的控制策略,γ是随时间递减折扣系数,Rt(st)是控制系统在st状态下获得的即时奖励。
Figure BDA0002755675700000055
是控制系统的长期期望奖励,控制策略的最终目的是使长期期望奖励最大化。
其中,步骤(3)还包括:
(3.1)计算车辆旅行时间的奖励:
Figure BDA0002755675700000056
式中,Tmax是驾驶员可容忍的最长旅行时间,其取值根据高速公路的实际情况确定。
Figure BDA0002755675700000057
是车辆的实际旅行时间,Ttr表示当前车辆旅行时间对应的奖励值,j是敏感度系数;
(3.2)计算任意时刻t等待进入高速公路的车辆数的奖励:
Figure BDA0002755675700000058
式中,wmax是可被容忍的最大等待进入高速公路的车辆数,wt是车辆实际等待车辆数,Wveh表示当前时刻t等待进入高速公路的车辆数对应的奖励值;k是敏感度系数;
(3.3)计算入口匝道的车辆排队长度的奖励:
Figure BDA0002755675700000059
式中,qmax是期望的排队长度,q是实际排队长度,ki、kj分别表示奖励函数的系数。其中,ki表示控制决策对排队长度q变化的敏感程度,kj表示控制决策是否要求排队长度稳定在qmax附近,Qrm表示匝道排队长度对应的奖励值。
(3.4)计算奖励函数r:
r=Ttr+αWveh+βQrm
式中,r是上述三项奖励的加权平均值,α和β分别是等待时间和排队长度相较于旅行时间的比例系数。
本发明提出了一种基于深度强化学习的高速公路道路交通控制系统,并实现了主线和入口匝道的协同控制方法。该系统和方法充分利用了车路协同技术的信息优势,通过车辆发送位置和速度数据给路段层RSU,由RSU根据车辆信息生成精确的交通状态,再发送给交通控制模块指导车辆行驶。交通控制模块通过训练模块不断优化,最终生成适应随机交通环境的控制策略。
系统通过信息交互模块获取道路的交通状态,再传递给交通控制模块;后者通过训练模块不断优化控制策略,并采用具有actor-critic架构的深度强化学习算法保证训练过程的稳定性。为降低系统复杂度,本发明提出了一种具有中央控制结构的可变限速和匝道协同控制方法,该方法能同时控制系统中的所有交通控制单元,且不会造成交通状态空间爆炸等问题。此外,本发明提出了新的探索方法,能够更有效地避免陷入局部最优控制。控制系统综合考虑了车辆在高速公路上的旅行时间,进入高速公路前的等待时间,以及匝道排队长度等因素,能保障车辆以较高速度通过瓶颈路段,且不会因为排队等问题影响周边道路车辆的通行。
系统还融合了车路协同技术以提升道路交通信息的采集效率和控制指令的执行效率、融合了匝道控制技术和可变限速控制技术优化瓶颈路段的交通流,以提升高速公路的通行效率和行车安全性。
相比较非强化学习控制技术,本发明的优势在于不需要进行人为调参,并且能够做到预先控制,防止拥堵发生。
与现有技术相比,本发明具有如下有益效果:
(1)本发明所述系统和方法,是对出入口匝道以及邻接道路的整体控制,不再局限于出入口匝道位置的点控,通过车路协同技术和深度强化学习对匝道和主线交通流的控制进行整合,可以有效提升瓶颈路段的通行效率。
(2)现有的主线和匝道协同控制技术复杂,主要原因在于描述高速公路交通流的模型复杂,且多个控制单元之间需要进行同步、协同等操作;而本发明提出的具有中央控制结构的系统,不再需要进行额外的通信和同步操作,提升了效率。此外,由于深度强化学习是通过挖掘历史数据的特征改进控制行为,省去了构建复杂的交通模型,简化了控制方法。
(3)现有的深度强化学习方法在处理多单元协同控制时,容易陷入状态空间爆炸的困境;本发明中采用actor-critic架构的深度强化学习方法,能够有效的解决该问题。
(4)为解决可变限速控制单元和匝道信号控制单元的同步问题,本发明提出了一种具有双层结构的匝道流量控制策略,上层通过交通控制模块按分钟分配入口匝道的放行流量,便于和可变限速控制单元进行同步,下层将匝道的放行流量转换成信号灯的周期,解决了以往技术中由于直接采用信号周期作为控制策略导致的难以同步的问题。
(5)本发明不仅有助于提升我国高速公路的智慧管控水平,也利于提高高速公路的通行效率,减少延误和排队,具有良好的应用前景。
附图说明
图1为本发明的可变限速和匝道协同控制系统的整体结构示意图。
图2为本发明的交通信息交互模块与联网车辆的交互流程图。
图3本发明的交通控制模块中的决策控制网络和训练模块中的评分网络的结构图。其中,图3(a)为决策控制网络示意图,图3(b)为评分网络示意图。
图4为本发明的控制系统内部各模块的关系及工作流程图。
图5为本发明实施实例的主线和匝道协同控制方法的流程图。
图6为本发明实施实例的匝道流量-信号周期转换方法的流程图。
具体实施方式
下面结合实施例对本发明进一步地详细描述。
本实施例的基于车路协同技术的高速公路可变限速和入口匝道协同控制系统,包括交通信息交互模块,交通控制模块,深度学习神经网络训练模块,以及若干交通控制单元。
其中:交通信息交互模块基于车路协同技术采集道路的观测信息ot,并将ot转化为深度强化学习可用的交通状态信息st,发送给交通控制模块;同时将来自交通控制模块的指令传递给管辖范围内的车辆。
基于深度强化学习的交通控制模块,根据交通状态信息st选取最优行为策略at。其中,at应包括系统中所有交通控制单元的动作集合,将at传递给各控制单元,各控制单元从at中提取相应的动作,同时将st和at传递给训练模块,用于训练神经网络。
深度强化学习神经网络训练模块将来自交通控制模块的交通状态信息st和行为策略at存入回放记忆库中,根据奖励函数对神经网络进行训练,使奖励函数的长期累积和最大化,以此优化决策控制网络。
交通控制单元包括布设在高速公路主线的可变限速控制单元,以及布设在入口匝道处的匝道信号控制单元。其中,针对匝道信号控制单元提出了一种流量-信号周期转换方法,可将入口匝道的放行流量指令转换成红绿信号周期,再通过信息交互模块传递给入口匝道的等待车辆,引导其放行。所述可变限速控制单元,将限速指令转换成具体的可变限速值,同样通过信息交互模块传递给受控路段的车辆。
交通信息交互模块将入口匝道及附近高速公路主线分成N条等距离子路段,为每条子路段配置一个采集该路段交通状态信息的路侧单元RSU。其中,路段i的交通状态信息st,i包括路段的车辆密度dt,i,路段平均速度vt,i和排队长度qt,i。将采集好的N条路段的交通信息组成向量st=(st,1,…,st,n),作为交通信息交互模块的输出结果。此外,该模块还将获取来自控制模块的指令,主要步骤是:
步骤1:当一辆网联汽车(connected vehicles,CV)驶入某一控制路段时,RSU自动和该车辆建立一个车辆会话VS,并将该会话加入当前路段的车辆会话队列VSQ中,VSQ中的车辆能和RSU实时交互,便于RSU获取车辆的位置,实时速度等数据。当车辆驶离该路段时,该VS从VSQ中自动删除。
步骤2:每个控制时段,RSU从VSQ中获取最新的车辆状态,并据此生成路段的实时交通状态信息,算法如下:
Figure BDA0002755675700000081
qt,i=Nstop;(vi≤5km/h)
其中,N是路段中的车辆数,Nstop是路段内停止等待的车辆数,vi是每个车辆的速度,L是路段长度。每个控制时段,交通状态信息被发送给交通控制模块。
步骤3:交通控制模块计算出控制指令并回传RSU。RSU通过VSQ通知所辖范围内的车辆最新指令,车辆根据指令调整驾驶行为。
交通控制模块包括决策控制网络和随机噪声生成模块,其核心是决策控制网络。决策控制网络由一个长期决策网络和一个即时决策网络构成。长期决策网络每隔K个步长更新一次网络权重,而即时决策网络每步训练都会更新网络权重。长期决策网络能够影响交通控制模块的长期决策方式。交通控制模块的实时协同策略at由即时决策网络提供。at中包含系统内所有可变限速和匝道控制单元的指令,定义为at=(VSL1,…,VSLN,FRM1,…,FRMN)。其中,VSLi是第i个可变限速单元的速度值,FRMj是第j个匝道的放行流量。
交通控制模块有两种模式:执行模式和训练模式。执行模式下,交通控制模块根据当前交通状态信息st直接选择最优的控制策略at。训练模式下,还需对at加上随机噪声
Figure BDA0002755675700000091
以平衡探索和利用。
Figure BDA0002755675700000092
由随机噪声生成模块提供,
Figure BDA0002755675700000093
的取值和交通控制模块的表现有关,如果相比较历史数据表现越好,
Figure BDA0002755675700000094
的取值越小,at将趋于收敛。反之,将增大
Figure BDA0002755675700000095
以增加探索幅度,便于探寻更好的控制指令。交通控制模块计算出at后,根据受控路段的编号将对应的控制指令at,i发给该路段的交通控制单元,同时将st和at发送给深度学习训练模块,以评估at的控制效果。
深度学习训练模块包含有两个互相独立的评分网络和一个回放记忆库。类似决策控制网络,每个评分网络包括一个长期评分网络和一个即时评分网络。回放记忆库存储了大量的历史交通数据(包括策略at在内),用于训练神经网络。每次训练时,回放记忆库随机抽取一批历史交通数据,通过评分网络进行打分,最终选取两个评分网络的较低得分作为结果,以避免“Q值过估计”。训练的主要步骤如下:
步骤1:在t+1训练时刻,从信息交互模块获取前一时刻的交通状态信息st,从控制模块获取协同策略at,从奖励函数模块获取即时奖励rt,连同当前时刻的交通状态信息st+1,组成交通状态数据元组(st,at,rt,st+1),存入回放记忆库中;
步骤2:深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(st,at,rt,st+1);
步骤3:对于每条数据元组,深度学习训练网络根据Bellman方程对其长期收益进行评分,取两个评分网络的较小分值,公式如下:
Figure BDA0002755675700000096
式中,yi是第i条数据的得分,ri是即时奖励,st+1是历史交通状态信息,
Figure BDA0002755675700000097
是控制模块在st+1下的策略结果,θμ′
Figure BDA0002755675700000098
分别是长期决策网络和长期评分网络的权重向量;
步骤4:基于损失函数对评分网络的权重进行更新,使用Adam优化器对更新过程进行优化;
其中,损失函数的计算方法为:
Figure BDA0002755675700000101
上式中,N为训练数据的条数,yi是第i条数据的得分,Q(st,atQ)为评分网络基于最新的数据(st,at)的评分,θQ为评分网络的权重。
步骤5:每隔K个时间步长更新长期评分网络的权重,再根据评分网络的权重,调整决策控制网络的权重,改善控制策略。
深度强化学习协同控制方法以actor-critic架构为基础,提出了新的探索策略、奖励函数和协同策略。该方法是交通控制模块和训练模块的具体执行策略。方法的主要步骤和特征如下:
步骤1:获取当前交通状态信息st,根据执行模式或训练模式计算当前的控制策略。具体为:
步骤1.1:执行模式下:协同控制方法基于st直接选择最优控制策略at
步骤1.2:训练模式下:协同控制方法在at的基础上加入随机噪声
Figure BDA0002755675700000102
的计算公式为:
Figure BDA0002755675700000103
式中,
Figure BDA0002755675700000104
是基础探索噪声,Rmax和Rmin分别是历史数据的最大和最小奖励值,rlast是前一个训练周期的平均奖励值。该公式通过比较最新奖励值和历史奖励值之间的差距,调整随机探索的幅度。最新奖励值相比历史最大奖励值越差,探索幅度越大,从而避免在探索中陷入局部最优区域。
步骤2:对任意交通状态st,通过深度学习训练模块改进其控制行为,最终使系统的长期累计奖励值最大,公式为:
Figure BDA0002755675700000105
式中,π(at|st)指对任意交通状态st的控制策略,γ是随时间递减折扣系数,一般取0.8,Rt(st)是控制系统在st状态下获得的即时奖励。其中,Rt(st)是奖励函数,或方法的控制目标,具体包括:减少车辆在高速公路上的旅行时间,减少车辆进入高速公路前的等待时间,以及维持入口匝道的排队长度在一定范围内,防止排队车辆蔓延到相邻道路上,影响周边车辆的通行。具体为:
(1)减少车辆的旅行时间,奖励函数的计算方法为:
Figure BDA0002755675700000111
式中,Tmax是驾驶员可容忍的最长旅行时间,其取值根据高速公路的实际情况确定。
Figure BDA0002755675700000112
是车辆的实际旅行时间,旅行时间越少,奖励值Ttr的分值越高。j是敏感度系数,j值越小表示驾驶员降低旅行时间的需求越高,此处取j=0.4。
(2)减少车辆驶入高速公路的等待时间,可等价为减少任意时刻t等待进入高速公路的车辆数。奖励函数的计算方法为:
Figure BDA0002755675700000113
式中,wmax是可被容忍的最大等待进入高速公路的车辆数,wt是车辆实际等待车辆数,等待时间越长,Wveh的分值越低。k是敏感度系数,k值越大表明车辆等待的意愿越低,此处取k=2。
(3)将入口匝道的车辆排队维持在一定长度以内,奖励函数的计算方法为:
Figure BDA0002755675700000114
式中,qmax是期望的排队长度,q是实际排队长度,当实际排队长度越接近期望排队长度时Qrm得分越高,当q值超过qmax时,得分迅速降低。因此可以保证车辆的排队长度稳定在期望长度附近。其中,ki表示控制决策对排队长度q变化的敏感程度,kj表示控制决策是否要求排队长度稳定在qmax附近。在本实例中,ki取值为0.05,kj取值为0.5。
(4)最终的奖励函数综合考虑了车辆的旅行时间、进入高速公路的等待时间和排队长度之间的关系,计算方法为:
r=Ttr+αWveh+βQrm
式中,α和β分别是等待时间和排队长度相较于旅行时间的比例系数,一般情况下取1。
步骤3:协同控制方法计算出最优行为at后,发送给交通控制模块,指导其对高速公路交通流进行优化。
其中,匝道信号单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期,从而实现匝道信号控制单元和可变限速控制单元的同步。转换方法的执行步骤如下:
步骤1:从交通控制模块获取当前时刻的入口匝道放行流量指令;
步骤2:判断当前时刻是否是一个新的控制周期开始时刻。如果是,执行以下步骤重新分配红绿信号灯周期;如果不是,执行步骤3:
步骤2.1:将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(VN/min)
步骤2.2:计算信号周期的时长,计算公式为:
(1)放行(绿灯)时长=每辆车放行时长×(VN/min);
(2)红灯时长=信号周期-绿灯时长;
步骤3:更新完成后,直到下一控制周期开始前,匝道信号单元根据红绿信号灯的状态,决定车辆是否放行。
在整个控制过程中,重复步骤1~步骤3。
本实施例提供了一种基于车路协同技术和深度强化学习的高速公路可变限速和入口匝道协同控制系统,如图1所示是一个建在典型的高速公路入口匝道区域内的协同控制系统。系统的控制范围包括相邻高速公路主线的可变限速路段和车辆加速路段,以及入口匝道路段。其中,可变限速路段长约600米,分成三个限速子路段(每个子路段200米,下同);加速区长约400米,分成两个子路段;瓶颈路段长约400米,分成两个子路段。入口匝道长约200米,为一个子路段。控制系统的整体目标包括减少高速公路车辆的旅行时间,减少车辆进入瓶颈路段的等待时间,同时保证车辆在匝道的排队长度小于15辆。
控制系统包括交通信息交互模块,交通控制模块,深度学习训练模块,匝道信号控制单元以及可变限速控制单元。交通信息交互模块的结构如图2所示,用于获取控制范围内各子路段的道路交通状态信息st,并将st作归一化处理后发送给交通控制模块。此外,交通信息交互模块将获取来自交通控制单元的指令,并把指令传递给道路上的车辆。交通状态信息st需采集各路段的平均车速vt,路段车辆密度dt,道路上的车辆排队长度qt。控制指令包括来自可变限速控制单元的限速值VSLt,取值范围为[30km/h,100km/h],以及入口匝道的放行流量,取值范围为[4veh/min,30veh/min]。
交通控制模块的核心是决策控制网络,结构如图3(a)所示。整体控制流程如图4所示。交通控制模块根据交通状态信息st生成最优策略at。at包括系统内所有可变限速控制单元的限速值和匝道信号状态。同时,将st和at发送给深度学习训练模块,让训练模块对决策控制网络进行优化。交通控制模块生成at后,将at的分量at,i发送给相应的交通控制单元i,指导路段内的车辆行驶。在训练模式下,交通控制模块会对at加入随机噪声
Figure BDA0002755675700000131
以平衡探索和利用,
Figure BDA0002755675700000132
包括基础噪声分量
Figure BDA0002755675700000133
以及基于历史奖励值的影响因子ξ。ξ越大,控制模块的探索幅度和历史奖励值得关联性越大。本例中,
Figure BDA0002755675700000134
采用均值为0,方差为0.1的高斯白噪声,历史影响因子ξ=0.2。每隔一段时间t,训练模块将集中训练(优化)评分网络,再基于评分网络更新决策控制网络的权重。在本发明实例中t取2分钟(2个控制周期)。
深度学习训练模块的评分网络结构如图3(b)所示,其输入为历史交通状态st和策略at,输出为at的得分。同时,训练模块基于历史数据对自身的评分网络进行优化,再更新交通控制模块中决策控制网络的权重,最终得到能优化交通状态st的策略at。训练流程如图5中所示。主要步骤为:
步骤1:从交通控制模块获取当前交通状态信息st和相应的控制策略at
步骤2:从回放记忆池中提取N条记忆数据,分别发送给两个评分网络进行评分,此处N取128条数据。对每条记忆数据按照以下公式计算评分的Qt值:
Figure BDA0002755675700000135
式中,Rt是即时奖励,γ是折扣系数,Q′1,2分别是两个长期评分网络的Q值,
Figure BDA0002755675700000136
分别是两个长期评分网络的权重,min指取两者的较小值,Qt为最终评分值。
步骤3:计算出Qt值以后,再通过误差公式计算损失函数,并使用Adam优化器根据损失函数批量更新评分网络中的权重。
步骤4:基于评分网络的权重,每隔K步更新一次交通控制模块中的决策控制网络的权重和训练模块中的长期评分网络的权重,从而逐步优化控制策略。
所述交通控制单元,包括布设于主线的可变限速控制单元,以及入口匝道附近的匝道信号控制单元。交通控制单元接受来自交通控制模块的控制指令,并通过信息交互模块发送给所在路段的车辆。特别的,对于匝道信号控制单元,其获得的指令为当前控制周期内的放行流量,需转换成红绿灯的信号周期,其流程如图6所示。主要步骤为:
步骤1:获取当前时刻的入口匝道放行流量指令;
步骤2:将当前时刻分配的匝道交通流转为放行车辆数/分钟(VN/min);
步骤3:计算信号灯时长,计算公式为:
(1)放行(绿灯)时长=每辆车放行时长×(VN/min)
(2)红灯时长=信号周期时长(1分钟)—绿灯时长
如果红灯时长小于零,令红灯时长等于零(即当前信号周期内均可放行),每辆车放行时长设为2秒。
步骤4:根据当前红绿信号灯的状态,决定车辆是否放行。
重复步骤1~4,直到控制结束。

Claims (9)

1.一种基于深度强化学习的高速公路道路协同控制系统,其特征在于:包括交通信息交互模块、交通控制模块、深度学习神经网络训练模块以及交通控制单元;
所述交通信息交互模块,用于采集道路的观测信息ot,并转化为可用于深度强化学习的交通状态信息st发送给交通控制模块,以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆;
所述交通控制模块,用于根据接收到的交通状态信息st选取最优行为策略at,并将at发送给交通控制单元,将st和at发送给训练模块,其中,at包括系统中所有交通控制单元的动作集合;
所述深度学习神经网络训练模块,用于将来自交通控制模块的交通状态信息st和行为策略at存入回放记忆库中,根据奖励函数对神经网络进行训练,使奖励函数的长期累积和最大化,以此优化决策控制网络;
所述交通控制单元包括布设于高速公路主线的可变限速控制单元以及布设于入口匝道处的匝道信号控制单元,各控制单元从来自交通控制模块的最优行为策略at中提取相应的动作指令,并将指令通过交通信息交互模块传递给受控路段的车辆;其中,匝道信号控制单元用于将入口匝道的放行流量指令转换成红绿信号周期,可变限速控制单元用于将限速指令转换成具体的可变限速值;
深度学习神经网络训练模块的训练过程包括如下步骤:
(1)在t+1训练时刻,从交通信息交互模块获取前一时刻的交通状态信息st,从控制模块获取协同策略at,从奖励函数模块获取即时奖励rt,连同当前时刻的交通状态信息st+1,组成交通状态数据元组(st,at,rt,st+1),存入回放记忆库中;
(2)深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(st,at,rt,st+1);
(3)对于每条数据元组,深度学习训练网络根据Bellman方程对其长期收益进行评分,取两个评分网络的较小分值,公式为:
Figure FDA0003179582900000011
式中,yi是第i条数据的得分,ri是第i条数据的奖励,st+1是历史交通状态信息,
Figure FDA0003179582900000012
是控制模块在st+1下的策略结果,θμ′
Figure FDA0003179582900000013
分别是长期决策网络和长期评分网络的权重向量;
(4)基于损失函数对评分网络的权重进行更新,使用Adam优化器对更新过程进行优化;其中,损失函数的计算方法为:
Figure FDA0003179582900000021
上式中,N为训练数据的条数,yi是第i条数据的得分,Q(st,atQ)为评分网络基于最新的数据(st,at)的评分,θQ为评分网络的权重;
(5)每隔K个时间步长更新长期评分网络的权重,再根据评分网络的权重,调整决策控制网络的权重,改善控制策略。
2.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:交通信息交互模块包括若干路侧单元,高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元,采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。
3.根据权利要求2所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:获取交通状态信息包括如下步骤:
(1)当一辆网联汽车驶入某一子路段i时,相应的路侧单元RSU与该车辆建立一个车辆会话VS,并将该会话加入当前路段的车辆会话队列VSQ中,VSQ中的车辆可与RSU实时信息交互;当车辆驶离该路段时,VS从VSQ中自动删除;
(2)每个控制时段,RSU从VSQ中获取最新的车辆状态,并据此生成路段的实时交通状态信息,并将交通状态信息发送给交通控制模块;
其中,获取算法为:
Figure FDA0003179582900000022
qt,i=Nstop
式中,N是路段中的车辆数,vi是每个车辆的速度,L是路段长度,vt,i表示路段i的平均速度,dt,i表示路段i的车辆密度,qt,i表示路段i的排队长度,Nstop是路段中停止等待的车辆;
(3)交通控制模块计算出控制指令并回传RSU,RSU通过VSQ通知所辖范围内的车辆最新指令。
4.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:交通控制模块包括决策控制网络和随机噪声生成模块,并设有执行模式和训练模式;执行模式下,交通控制模块根据当前交通状态信息st直接选择最优的控制策略at;训练模式下,对at加上随机噪声
Figure FDA0003179582900000023
由随机噪声生成模块提供;交通控制模块计算出at后,根据受控路段的编号将对应的控制指令at,i发给该路段的交通控制单元,同时将st和at发送给深度学习训练模块,评估at的控制效果。
5.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:匝道信号控制单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期,转换方法包括如下步骤:
(1)从交通控制模块获取当前时刻的入口匝道放行流量指令;
(2)判断当前时刻是否是一个新的控制周期开始时刻,如果是,执行以下步骤重新分配红绿信号灯周期;如果不是,执行步骤(3):
(2.1)将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(VN/min);
(2.2)计算信号周期的时长,计算公式为:
绿灯时长=每辆车放行时长×(VN/min);
红灯时长=信号周期-绿灯时长;
(3)更新完成后,直到下一控制周期开始前,匝道信号单元根据红绿信号灯的状态,决定车辆是否放行;
在整个控制过程中,重复步骤(1)~步骤(3)。
6.一种根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统的控制方法,其特征在于包括:
(1)采集控制范围内高速公路主线和匝道的道路交通状态信息st
(2)获取道路交通状态信息st,根据执行模式或训练模式计算当前的控制策略;
(3)对任意交通状态st,通过深度学习训练模块改进其控制行为,最终使系统的长期累计奖励值最大;
(4)计算出最优行为策略at后,根据该控制策略指导控制范围内高速公路主线和匝道的交通流优化。
7.根据权利要求6所述的基于深度强化学习的高速公路道路协同控制方法,其特征在于步骤(2)包括:
(2.1)执行模式下,协同控制方法基于st直接选择最优控制策略at
(2.2)训练模式下,协同控制方法在at的基础上加入随机噪声
Figure FDA0003179582900000031
的计算公式为:
Figure FDA0003179582900000041
式中,
Figure FDA0003179582900000042
是基础探索噪声,Rmax和Rmin分别是历史数据的最大和最小奖励值,rlast是前一个训练周期的平均奖励值,ξ为基于历史奖励值的影响因子。
8.根据权利要求6所述的基于深度强化学习的高速公路道路协同控制方法,其特征在于步骤(3)中,对任意交通状态st的控制策略为:
Figure FDA0003179582900000043
式中,π(at|st)指对任意交通状态st的控制策略,γ是随时间递减折扣系数,Rt(st)是控制系统在st状态下获得的即时奖励;
Figure FDA0003179582900000044
指控制系统的长期期望奖励。
9.根据权利要求8所述的基于深度强化学习的高速公路道路协同控制方法,其特征在于步骤(3)还包括:
(3.1)计算车辆旅行时间的奖励:
Figure FDA0003179582900000045
式中,Tmax是驾驶员可容忍的最长旅行时间,其取值根据高速公路的实际情况确定;
Figure FDA0003179582900000046
是车辆的实际旅行时间,Ttr表示当前车辆旅行时间对应的奖励值,j是敏感度系数;
(3.2)计算任意时刻t等待进入高速公路的车辆数的奖励:
Figure FDA0003179582900000047
式中,wmax是可被容忍的最大等待进入高速公路的车辆数,wt是车辆实际等待车辆数,Wve表示当前时刻t等待进入高速公路的车辆数对应的奖励值;k是敏感度系数;
(3.3)计算入口匝道的车辆排队长度的奖励:
Figure FDA0003179582900000048
式中,qmax是期望的排队长度,q是实际排队长度,ki、kj表示奖励函数的系数;其中,ki表示控制决策对排队长度q变化的敏感程度,kj表示控制决策是否要求排队长度稳定在qmax附近,Qrm表示匝道排队长度对应的奖励值;
(3.4)计算奖励函数r:
r=Ttr+αWveh+βQrm
式中,r是上述三项奖励的加权平均值;α和β分别是等待时间和排队长度相较于旅行时间的比例系数。
CN202011202148.5A 2020-11-02 2020-11-02 基于深度强化学习的高速公路道路协同控制系统及方法 Active CN112289044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011202148.5A CN112289044B (zh) 2020-11-02 2020-11-02 基于深度强化学习的高速公路道路协同控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011202148.5A CN112289044B (zh) 2020-11-02 2020-11-02 基于深度强化学习的高速公路道路协同控制系统及方法

Publications (2)

Publication Number Publication Date
CN112289044A CN112289044A (zh) 2021-01-29
CN112289044B true CN112289044B (zh) 2021-09-07

Family

ID=74353429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011202148.5A Active CN112289044B (zh) 2020-11-02 2020-11-02 基于深度强化学习的高速公路道路协同控制系统及方法

Country Status (1)

Country Link
CN (1) CN112289044B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554875B (zh) * 2021-03-12 2023-01-13 北京航空航天大学 一种基于边缘计算的高速公路异质交通流可变限速控制方法
CN113053141B (zh) * 2021-03-23 2021-12-17 长安大学 一种基于联网车辆数据的自适应交通信号控制方法及装置
CN113299078B (zh) * 2021-03-29 2022-04-08 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113126500B (zh) * 2021-04-20 2022-06-07 河北工业大学 一种交通系统的非脆弱同步控制方法及装置
CN113324556B (zh) * 2021-06-04 2024-03-26 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113867332B (zh) * 2021-08-18 2024-05-14 中国科学院自动化研究所 一种无人车自学习控制方法、装置、设备及可读存储介质
CN113450583B (zh) * 2021-09-01 2021-11-19 长沙理工大学 一种车路协同下高速公路可变限速和变道协同控制方法
CN113643543B (zh) * 2021-10-13 2022-01-11 北京大学深圳研究生院 一种具有隐私保护的交通流控制方法、交通信号控制系统
CN114299714B (zh) * 2021-12-07 2022-12-27 东南大学 一种基于异策略强化学习的多匝道协调控制方法
CN114241778B (zh) * 2022-02-23 2022-05-17 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN114783178B (zh) * 2022-03-30 2023-08-08 同济大学 一种自适应停车场出口道闸控制方法、装置和存储介质
CN114694382B (zh) * 2022-04-01 2023-01-17 桂林电子科技大学 一种基于车联网环境的动态单向交通控制系统
CN115100850A (zh) * 2022-04-21 2022-09-23 浙江省交通投资集团有限公司智慧交通研究分公司 基于深度强化学习的混合交通流控制方法、介质及设备
CN114973704A (zh) * 2022-05-19 2022-08-30 浙江商汤科技开发有限公司 信号控制策略的生成方法及装置、设备、存储介质
CN116150639B (zh) * 2023-02-17 2023-12-19 东南大学 基于行为趋向聚类和特征映射的多智能体可变限速控制方法
CN116189464B (zh) * 2023-02-17 2023-09-12 东南大学 基于精细化回报机制的交叉熵强化学习可变限速控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111160170A (zh) * 2019-12-19 2020-05-15 青岛联合创智科技有限公司 一种自学习的人体行为识别与异常检测方法
CN111737826A (zh) * 2020-07-17 2020-10-02 北京全路通信信号研究设计院集团有限公司 一种基于增强学习的轨道交通自动仿真建模方法及装置
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN111833590A (zh) * 2019-04-15 2020-10-27 北京京东尚科信息技术有限公司 交通信号灯的控制方法、装置及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10065654B2 (en) * 2016-07-08 2018-09-04 Toyota Motor Engineering & Manufacturing North America, Inc. Online learning and vehicle control method based on reinforcement learning without active exploration
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
CN111833590A (zh) * 2019-04-15 2020-10-27 北京京东尚科信息技术有限公司 交通信号灯的控制方法、装置及计算机可读存储介质
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111160170A (zh) * 2019-12-19 2020-05-15 青岛联合创智科技有限公司 一种自学习的人体行为识别与异常检测方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN111737826A (zh) * 2020-07-17 2020-10-02 北京全路通信信号研究设计院集团有限公司 一种基于增强学习的轨道交通自动仿真建模方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A New Solution for Freeway Congestion: Cooperative Speed Limit Control Using Distributed Reinforcement Learning;Wang Chong 等;《IEEE Access》;20190412;41947-41957 *
Cooperative merging control strategy of connected and automated vehicles on highways;Xu Linghui 等;《Journal of Southeast University ( English Edition)》;20190630;220-227 *
城市快速路入口匝道放行策略研究;岳雷 等;《交通信息与安全》;20101231;第28卷(第1期);59-66 *
基于值函数和策略梯度的深度强化学习综述;刘建伟 等;《计算机学报》;20190630;1406-1438 *
车路协同环境下的高速公路匝道区域控制关键技术研究;王翀;《中国博士学位论文全文数据库工程科技Ⅱ辑》;20200515;C034-18 *

Also Published As

Publication number Publication date
CN112289044A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112289044B (zh) 基于深度强化学习的高速公路道路协同控制系统及方法
CN109859459B (zh) 一种自动驾驶公交调度优化方法
CN114241778B (zh) 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN111619624B (zh) 一种基于深度强化学习的有轨电车运行控制方法和系统
CN113763723B (zh) 基于强化学习与动态配时的交通信号灯控制系统及方法
CN111951549B (zh) 在网联车辆环境下的自适应交通信号灯控制方法及系统
CN112339756B (zh) 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
CN112201033B (zh) 一种道路交通运行主动管控策略选择方法
CN112233418B (zh) 智能网联混合交通流环境下二次交通事故预防控制方法
CN113299107A (zh) 一种多目标融合的交叉口动态车辆网联速度引导控制方法
CN113506438B (zh) 网联自动驾驶混行车流动态控制方法、系统、装置及介质
CN114995119A (zh) 基于多智能体深度强化学习的城市交通信号协同控制方法
CN112542049A (zh) 智慧交通综合管控平台
CN110194156A (zh) 智能网联混合动力汽车主动避撞增强学习控制系统和方法
CN114488799B (zh) 汽车自适应巡航系统控制器参数优化方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN115512537A (zh) 一种基于深度强化学习算法的高速公路监控方法及系统
CN115083149B (zh) 一种实时监测的强化学习可变时长信号灯控制方法
CN114913684A (zh) 一种融合多模型与数据驱动的瓶颈路段交通流控制方法
CN115185183A (zh) 一种基于安全评论家的绿波车速跟踪控制方法及系统
CN114707891A (zh) 一种公交车辆在线调度方法
CN114758499A (zh) 一种基于多源数据的城市高架快速路匝道智能自动控制的方法、设备及存储介质
CN115331435B (zh) 一种基于局部时空交通状态的智能网联车辆速度控制方法
CN114999158B (zh) 一种抑制快速路瓶颈负效应的混合交通众从节流控制方法
CN116150639B (zh) 基于行为趋向聚类和特征映射的多智能体可变限速控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant