CN112289044A

CN112289044A - 基于深度强化学习的高速公路道路协同控制系统及方法

Info

Publication number: CN112289044A
Application number: CN202011202148.5A
Authority: CN
Inventors: 王翀
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-29
Anticipated expiration: 2040-11-02
Also published as: CN112289044B

Abstract

本发明公开了一种基于深度强化学习的高速公路道路协同控制系统及方法，系统包括交通信息交互模块、交通控制模块、深度学习网络训练模块以及若干可变限速和匝道控制单元，通过信息交互模块获取道路的交通状态，再传递给交通控制模块。后者通过训练模块不断优化控制策略，并采用具有actor‑critic架构的深度强化学习算法保证训练过程的稳定性。本发明能同时控制系统中的所有交通控制单元，且不会造成交通状态空间爆炸等问题，能保障车辆以较高速度通过瓶颈路段，且不会因为排队等问题影响周边道路车辆的通行。

Description

基于深度强化学习的高速公路道路协同控制系统及方法

技术领域

本发明涉及交通控制与智能交通技术领域，特别是涉及一种基于深度强化学习的高速公路主线道路和入口匝道协同控制系统及方法。

背景技术

高速公路在高峰时段呈现出常发性、周期性、长距离的交通拥堵，其中，高速公路入口匝道及相邻主线道路已成为典型的高速公路瓶颈区域。由于早期的路网规划可能存在不合理之处，且道路改建的困难较大，所以对高速公路匝道和相邻主线道路进行协同管控，是改善道路通行效率，提升行车安全的重要方式。

现有的协同控制方法主要以模型预测控制或反馈式控制方法为主。模型预测控制方法一般要先从实际交通数据中提取特征变量，再建立交通流模型。由于实际交通状况具有高度的非线性和随机性，难以建立精确的交通预测模型，因此较难在复杂场景中取得良好的建模效果。此外，对于交通状态的细节也难以取得较好的刻画效果；另一方面，反馈式控制方法具有安装灵活，不依赖模型等特点，但是其控制效果有滞后性，可能造成交通流的二次扰动。

因此，提出一种合理、精细的匝道和主线交通协同控制系统，不仅有助于拓展现有的交通控制理论水平，并且对提升高速公路的通行效率和安全有重要意义。深度强化学习作为机器学习的一个重要分支，不需对交通环境进行精确的建模，而是通过智能体和环境的不断交互来获得对控制策略的反馈，并可基于长期的反馈结果学习不同的随机交通环境，最终获得各种动态交通环境下的最优控制策略。但是，深度强化学习在处理协同控制时存在以下问题：(1)多智能体协同时的同步控制问题。例如，匝道信号灯的周期和可变限速控制的周期不一致，两者如何统一；(2)现有的奖励函数容易受到交通环境中随机扰动的影响；(3)现有技术较少考虑车辆在入口匝道的排队问题，会导致周边道路的拥堵。(4)传统的深度强化学习技术存在固有缺陷，处理多智能体协同控制时容易造成行为空间状态爆炸等问题。

发明内容

发明目的：针对现有技术中的不足，本发明的目的是提供一种基于深度强化学习的高速公路道路协同控制系统及方法，该系统是一种基于深度强化学习的高速公路主线和匝道协同控制系统和方法，综合考虑了车辆在高速公路上的旅行时间，进入高速公路前的等待时间，以及车辆的排队长度等因素，可以让车辆以较高速度通过瓶颈路段的同时，不会因为排队等问题影响周边道路上车辆的通行；可以解决现有强化学习技术的状态空间爆炸的问题，以及容易陷入局部最优控制的问题。

技术方案：本发明的一种基于深度强化学习的高速公路主线和匝道协同控制系统，包括交通信息交互模块，交通控制模块，深度学习神经网络训练模块，以及若干交通控制单元；

所述交通信息交互模块，用于采集道路的观测信息o_t，并转化为可用于深度强化学习的交通状态信息s_t发送给交通控制模块，以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆。其中，交通信息交互模块包括若干路侧单元(Road-sideUnit，RSU)，高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元，采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。

所述交通控制模块，用于根据接收到的交通状态信息s_t选取最优行为策略a_t，并将a_t发送给交通控制单元，将s_t和a_t发送给训练模块，其中，a_t包括系统中所有交通控制单元的动作集合。其中，交通控制模块包括决策控制网络和随机噪声生成模块，并设有执行模式和训练模式；执行模式下，交通控制模块根据当前交通状态信息s_t直接选择最优的控制策略a_t；训练模式下，对a_t加上随机噪声

由随机噪声生成模块提供；交通控制模块计算出a_t后，根据受控路段的编号将对应的控制指令a_t,i发给该路段的交通控制单元，同时将s_t和a_t发送给深度学习训练模块，评估a_t的控制效果。

所述深度学习神经网络训练模块，简称训练模块，用于将来自交通控制模块的交通状态信息s_t和行为策略a_t存入回放记忆库中，根据奖励函数对神经网络进行训练，使奖励函数的长期累积和最大化，以此优化决策控制网络；

所述交通控制单元包括布设于高速公路主线的可变限速控制单元以及布设于入口匝道处的匝道信号控制单元，各控制单元从来自交通控制模块的最优行为策略a_t中提取相应的动作指令，并将指令通过交通信息交互模块传递给受控路段的车辆；其中，匝道信号控制单元用于将入口匝道的放行流量指令转换成红绿信号周期，可变限速控制单元用于将限速指令转换成具体的可变限速值。

其中，获取交通状态信息包括如下步骤：

(1)当一辆网联汽车驶入某一子路段i时，相应的路侧单元RSU与该车辆建立一个车辆会话VS(Vehicular Session)，并将该会话加入当前路段的车辆会话队列VSQ(Vehicular Session Queue)中，VSQ中的车辆可与RSU实时信息交互；当车辆驶离该路段时，VS从VSQ中自动删除；

(2)每个控制时段，RSU从VSQ中获取最新的车辆状态，并据此生成路段的实时交通状态信息，并将交通状态信息发送给交通控制模块；

其中，获取算法为：

q_t,i＝N_stop

式中，N是路段中的车辆数，v_i是每个车辆的速度，L是路段长度，v_t,i表示路段i的平均速度，d_t,i表示路段i的车辆密度，q_t,i表示路段i的排队长度q_t,i，N_stop是路段中停止等待的车辆，当车速小于5km/h时，车辆视为停止；

(3)交通控制模块计算出控制指令并回传RSU，RSU通过VSQ通知所辖范围内的车辆最新指令。

其中，深度学习神经网络训练模块的训练过程包括如下步骤：

(1)在t+1训练时刻，从交通信息交互模块获取前一时刻的交通状态信息s_t，从控制模块获取协同策略a_t，从奖励函数模块获取即时奖励r_t，连同当前时刻的交通状态信息s_t+1，组成交通状态数据元组(s_t,a_t,r_t,s_t+1)，存入回放记忆库中；

(2)深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(s_t,a_t,r_t,s_t+1)；

(3)对于每条数据元组，深度学习训练网络根据Bellman方程对其长期收益进行评分，取两个评分网络的较小分值，公式为：

式中，y_i是第i条数据的得分，r_i是即时奖励，s_t+1是历史交通状态信息，

是控制模块在s_t+1下的策略结果，θ^μ′和

分别是长期决策网络和长期评分网络的权重向量；

(4)基于损失函数对评分网络的权重进行更新，使用Adam优化器对更新过程进行优化；

其中，损失函数的计算方法为：

上式中，N为训练数据的条数，y_i是第i条数据的得分，Q(s_t,a_t|θQ)为评分网络基于最新的数据(s_t,a_t)的评分，θ^Q为评分网络的权重。

(5)每隔K个时间步长更新长期评分网络的权重，再根据评分网络的权重，调整决策控制网络的权重，改善控制策略。

其中，匝道信号控制单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期，转换方法包括如下步骤：

(1)从交通控制模块获取当前时刻的入口匝道放行流量指令；

(2)判断当前时刻是否是一个新的控制周期开始时刻。如果是，执行以下步骤重新分配红绿信号灯周期；如果不是，执行步骤(3)：

(2.1)将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(VN/min)

(2.2)计算信号周期的时长，计算公式为：放行(绿灯)时长＝每辆车放行时长×(VN/min)；红灯时长＝信号周期-绿灯时长；

(3)更新完成后，直到下一控制周期开始前，匝道信号单元根据红绿信号灯的状态，决定车辆是否放行。

在整个控制过程中，重复步骤(1)～步骤(3)。

本发明还提供了一种基于深度强化学习的高速公路主线和匝道协同控制方法，包括如下步骤：

(1)采集控制范围内高速公路主线和匝道的道路交通状态信息s_t；

(2)获取道路交通状态信息s_t，根据执行模式或训练模式计算当前的控制策略；

(3)对任意交通状态s_t，通过深度学习训练模块改进其控制行为，最终使系统的长期累计奖励值最大；

(4)计算出最优行为策略a_t后，根据该控制策略指导控制范围内高速公路主线和匝道的交通流优化。

进一步地，步骤(2)包括：

(2.1)执行模式下，协同控制方法基于s_t直接选择最优控制策略a_t；

(2.2)训练模式下，协同控制方法在a_t的基础上加入随机噪声

的计算公式为：

式中，

是基础探索噪声，R_max和R_min分别是历史数据的最大和最小奖励值，r_last是前一个训练周期的平均奖励值，ξ为基于历史奖励值的影响因子。

进一步地，步骤(3)中，对任意交通状态s_t的控制策略为：

式中，π(a_t|s_t)指对任意交通状态s_t的控制策略，γ是随时间递减折扣系数，R_t(s_t)是控制系统在s_t状态下获得的即时奖励。

是控制系统的长期期望奖励，控制策略的最终目的是使长期期望奖励最大化。

其中，步骤(3)还包括：

(3.1)计算车辆旅行时间的奖励：

式中，T_max是驾驶员可容忍的最长旅行时间，其取值根据高速公路的实际情况确定。

是车辆的实际旅行时间，T_tr表示当前车辆旅行时间对应的奖励值，j是敏感度系数；

(3.2)计算任意时刻t等待进入高速公路的车辆数的奖励：

式中，w_max是可被容忍的最大等待进入高速公路的车辆数，w_t是车辆实际等待车辆数，W_veh表示当前时刻t等待进入高速公路的车辆数对应的奖励值；k是敏感度系数；

(3.3)计算入口匝道的车辆排队长度的奖励：

式中，q_max是期望的排队长度，q是实际排队长度，k_i、k_j分别表示奖励函数的系数。其中，k_i表示控制决策对排队长度q变化的敏感程度，k_j表示控制决策是否要求排队长度稳定在q_max附近，Q_rm表示匝道排队长度对应的奖励值。

(3.4)计算奖励函数r：

r＝T_tr+αW_veh+βQ_rm

式中，r是上述三项奖励的加权平均值，α和β分别是等待时间和排队长度相较于旅行时间的比例系数。

本发明提出了一种基于深度强化学习的高速公路道路交通控制系统，并实现了主线和入口匝道的协同控制方法。该系统和方法充分利用了车路协同技术的信息优势，通过车辆发送位置和速度数据给路段层RSU，由RSU根据车辆信息生成精确的交通状态，再发送给交通控制模块指导车辆行驶。交通控制模块通过训练模块不断优化，最终生成适应随机交通环境的控制策略。

系统通过信息交互模块获取道路的交通状态，再传递给交通控制模块；后者通过训练模块不断优化控制策略，并采用具有actor-critic架构的深度强化学习算法保证训练过程的稳定性。为降低系统复杂度，本发明提出了一种具有中央控制结构的可变限速和匝道协同控制方法，该方法能同时控制系统中的所有交通控制单元，且不会造成交通状态空间爆炸等问题。此外，本发明提出了新的探索方法，能够更有效地避免陷入局部最优控制。控制系统综合考虑了车辆在高速公路上的旅行时间，进入高速公路前的等待时间，以及匝道排队长度等因素，能保障车辆以较高速度通过瓶颈路段，且不会因为排队等问题影响周边道路车辆的通行。

系统还融合了车路协同技术以提升道路交通信息的采集效率和控制指令的执行效率、融合了匝道控制技术和可变限速控制技术优化瓶颈路段的交通流，以提升高速公路的通行效率和行车安全性。

相比较非强化学习控制技术，本发明的优势在于不需要进行人为调参，并且能够做到预先控制，防止拥堵发生。

与现有技术相比，本发明具有如下有益效果：

(1)本发明所述系统和方法，是对出入口匝道以及邻接道路的整体控制，不再局限于出入口匝道位置的点控，通过车路协同技术和深度强化学习对匝道和主线交通流的控制进行整合，可以有效提升瓶颈路段的通行效率。

(2)现有的主线和匝道协同控制技术复杂，主要原因在于描述高速公路交通流的模型复杂，且多个控制单元之间需要进行同步、协同等操作；而本发明提出的具有中央控制结构的系统，不再需要进行额外的通信和同步操作，提升了效率。此外，由于深度强化学习是通过挖掘历史数据的特征改进控制行为，省去了构建复杂的交通模型，简化了控制方法。

(3)现有的深度强化学习方法在处理多单元协同控制时，容易陷入状态空间爆炸的困境；本发明中采用actor-critic架构的深度强化学习方法，能够有效的解决该问题。

(4)为解决可变限速控制单元和匝道信号控制单元的同步问题，本发明提出了一种具有双层结构的匝道流量控制策略，上层通过交通控制模块按分钟分配入口匝道的放行流量，便于和可变限速控制单元进行同步，下层将匝道的放行流量转换成信号灯的周期，解决了以往技术中由于直接采用信号周期作为控制策略导致的难以同步的问题。

(5)本发明不仅有助于提升我国高速公路的智慧管控水平，也利于提高高速公路的通行效率，减少延误和排队，具有良好的应用前景。

附图说明

图1为本发明的可变限速和匝道协同控制系统的整体结构示意图。

图2为本发明的交通信息交互模块与联网车辆的交互流程图。

图3本发明的交通控制模块中的决策控制网络和训练模块中的评分网络的结构图。其中，图3(a)为决策控制网络示意图，图3(b)为评分网络示意图。

图4为本发明的控制系统内部各模块的关系及工作流程图。

图5为本发明实施实例的主线和匝道协同控制方法的流程图。

图6为本发明实施实例的匝道流量-信号周期转换方法的流程图。

具体实施方式

下面结合实施例对本发明进一步地详细描述。

本实施例的基于车路协同技术的高速公路可变限速和入口匝道协同控制系统，包括交通信息交互模块，交通控制模块，深度学习神经网络训练模块，以及若干交通控制单元。

其中：交通信息交互模块基于车路协同技术采集道路的观测信息o_t，并将o_t转化为深度强化学习可用的交通状态信息s_t，发送给交通控制模块；同时将来自交通控制模块的指令传递给管辖范围内的车辆。

基于深度强化学习的交通控制模块，根据交通状态信息s_t选取最优行为策略a_t。其中，a_t应包括系统中所有交通控制单元的动作集合，将a_t传递给各控制单元，各控制单元从a_t中提取相应的动作，同时将s_t和a_t传递给训练模块，用于训练神经网络。

深度强化学习神经网络训练模块将来自交通控制模块的交通状态信息s_t和行为策略a_t存入回放记忆库中，根据奖励函数对神经网络进行训练，使奖励函数的长期累积和最大化，以此优化决策控制网络。

交通控制单元包括布设在高速公路主线的可变限速控制单元，以及布设在入口匝道处的匝道信号控制单元。其中，针对匝道信号控制单元提出了一种流量-信号周期转换方法，可将入口匝道的放行流量指令转换成红绿信号周期，再通过信息交互模块传递给入口匝道的等待车辆，引导其放行。所述可变限速控制单元，将限速指令转换成具体的可变限速值，同样通过信息交互模块传递给受控路段的车辆。

交通信息交互模块将入口匝道及附近高速公路主线分成N条等距离子路段，为每条子路段配置一个采集该路段交通状态信息的路侧单元RSU。其中，路段i的交通状态信息s_t,i包括路段的车辆密度d_t,i，路段平均速度v_t,i和排队长度q_t,i。将采集好的N条路段的交通信息组成向量s_t＝(s_t,1,…,s_t,n)，作为交通信息交互模块的输出结果。此外，该模块还将获取来自控制模块的指令，主要步骤是：

步骤1：当一辆网联汽车(connected vehicles，CV)驶入某一控制路段时，RSU自动和该车辆建立一个车辆会话VS，并将该会话加入当前路段的车辆会话队列VSQ中，VSQ中的车辆能和RSU实时交互，便于RSU获取车辆的位置，实时速度等数据。当车辆驶离该路段时，该VS从VSQ中自动删除。

步骤2：每个控制时段，RSU从VSQ中获取最新的车辆状态，并据此生成路段的实时交通状态信息，算法如下：

q_t,i＝N_stop；(v_i≤5km/h)

其中，N是路段中的车辆数，N_stop是路段内停止等待的车辆数，v_i是每个车辆的速度，L是路段长度。每个控制时段，交通状态信息被发送给交通控制模块。

步骤3：交通控制模块计算出控制指令并回传RSU。RSU通过VSQ通知所辖范围内的车辆最新指令，车辆根据指令调整驾驶行为。

交通控制模块包括决策控制网络和随机噪声生成模块，其核心是决策控制网络。决策控制网络由一个长期决策网络和一个即时决策网络构成。长期决策网络每隔K个步长更新一次网络权重，而即时决策网络每步训练都会更新网络权重。长期决策网络能够影响交通控制模块的长期决策方式。交通控制模块的实时协同策略a_t由即时决策网络提供。a_t中包含系统内所有可变限速和匝道控制单元的指令，定义为a_t＝(VSL₁,…,VSL_N,F_RM1,…,F_RMN)。其中，VSL_i是第i个可变限速单元的速度值，F_RMj是第j个匝道的放行流量。

交通控制模块有两种模式：执行模式和训练模式。执行模式下，交通控制模块根据当前交通状态信息s_t直接选择最优的控制策略a_t。训练模式下，还需对a_t加上随机噪声

以平衡探索和利用。

由随机噪声生成模块提供，

的取值和交通控制模块的表现有关，如果相比较历史数据表现越好，

的取值越小，a_t将趋于收敛。反之，将增大

以增加探索幅度，便于探寻更好的控制指令。交通控制模块计算出a_t后，根据受控路段的编号将对应的控制指令a_t,i发给该路段的交通控制单元，同时将s_t和a_t发送给深度学习训练模块，以评估a_t的控制效果。

深度学习训练模块包含有两个互相独立的评分网络和一个回放记忆库。类似决策控制网络，每个评分网络包括一个长期评分网络和一个即时评分网络。回放记忆库存储了大量的历史交通数据(包括策略a_t在内)，用于训练神经网络。每次训练时，回放记忆库随机抽取一批历史交通数据，通过评分网络进行打分，最终选取两个评分网络的较低得分作为结果，以避免“Q值过估计”。训练的主要步骤如下：

步骤1：在t+1训练时刻，从信息交互模块获取前一时刻的交通状态信息s_t，从控制模块获取协同策略a_t，从奖励函数模块获取即时奖励r_t，连同当前时刻的交通状态信息s_t+1，组成交通状态数据元组(s_t,a_t,r_t,s_t+1)，存入回放记忆库中；

步骤2：深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(s_t,a_t,r_t,s_t+1)；

步骤3：对于每条数据元组，深度学习训练网络根据Bellman方程对其长期收益进行评分，取两个评分网络的较小分值，公式如下：

是控制模块在s_t+1下的策略结果，θ^μ′和

分别是长期决策网络和长期评分网络的权重向量；

步骤4：基于损失函数对评分网络的权重进行更新，使用Adam优化器对更新过程进行优化；

其中，损失函数的计算方法为：

上式中，N为训练数据的条数，y_i是第i条数据的得分，Q(s_t,a_t|θ^Q)为评分网络基于最新的数据(s_t,a_t)的评分，θ^Q为评分网络的权重。

步骤5：每隔K个时间步长更新长期评分网络的权重，再根据评分网络的权重，调整决策控制网络的权重，改善控制策略。

深度强化学习协同控制方法以actor-critic架构为基础，提出了新的探索策略、奖励函数和协同策略。该方法是交通控制模块和训练模块的具体执行策略。方法的主要步骤和特征如下：

步骤1：获取当前交通状态信息s_t，根据执行模式或训练模式计算当前的控制策略。具体为：

步骤1.1：执行模式下：协同控制方法基于s_t直接选择最优控制策略a_t；

步骤1.2：训练模式下：协同控制方法在a_t的基础上加入随机噪声

的计算公式为：

式中，

是基础探索噪声，R_max和R_min分别是历史数据的最大和最小奖励值，r_last是前一个训练周期的平均奖励值。该公式通过比较最新奖励值和历史奖励值之间的差距，调整随机探索的幅度。最新奖励值相比历史最大奖励值越差，探索幅度越大，从而避免在探索中陷入局部最优区域。

步骤2：对任意交通状态s_t，通过深度学习训练模块改进其控制行为，最终使系统的长期累计奖励值最大，公式为：

式中，π(a_t|s_t)指对任意交通状态s_t的控制策略，γ是随时间递减折扣系数，一般取0.8，R_t(s_t)是控制系统在s_t状态下获得的即时奖励。其中，R_t(s_t)是奖励函数，或方法的控制目标，具体包括：减少车辆在高速公路上的旅行时间，减少车辆进入高速公路前的等待时间，以及维持入口匝道的排队长度在一定范围内，防止排队车辆蔓延到相邻道路上，影响周边车辆的通行。具体为：

(1)减少车辆的旅行时间，奖励函数的计算方法为：

是车辆的实际旅行时间，旅行时间越少，奖励值T_tr的分值越高。j是敏感度系数，j值越小表示驾驶员降低旅行时间的需求越高，此处取j＝0.4。

(2)减少车辆驶入高速公路的等待时间，可等价为减少任意时刻t等待进入高速公路的车辆数。奖励函数的计算方法为：

式中，w_max是可被容忍的最大等待进入高速公路的车辆数，w_t是车辆实际等待车辆数，等待时间越长，W_veh的分值越低。k是敏感度系数，k值越大表明车辆等待的意愿越低，此处取k＝2。

(3)将入口匝道的车辆排队维持在一定长度以内，奖励函数的计算方法为：

式中，q_max是期望的排队长度，q是实际排队长度，当实际排队长度越接近期望排队长度时Q_rm得分越高，当q值超过q_max时，得分迅速降低。因此可以保证车辆的排队长度稳定在期望长度附近。其中，k_i表示控制决策对排队长度q变化的敏感程度，k_j表示控制决策是否要求排队长度稳定在q_max附近。在本实例中，k_i取值为0.05，k_j取值为0.5。

(4)最终的奖励函数综合考虑了车辆的旅行时间、进入高速公路的等待时间和排队长度之间的关系，计算方法为：

r＝T_tr+αW_veh+βQ_rm

式中，α和β分别是等待时间和排队长度相较于旅行时间的比例系数，一般情况下取1。

步骤3：协同控制方法计算出最优行为a_t后，发送给交通控制模块，指导其对高速公路交通流进行优化。

其中，匝道信号单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期，从而实现匝道信号控制单元和可变限速控制单元的同步。转换方法的执行步骤如下：

步骤1：从交通控制模块获取当前时刻的入口匝道放行流量指令；

步骤2：判断当前时刻是否是一个新的控制周期开始时刻。如果是，执行以下步骤重新分配红绿信号灯周期；如果不是，执行步骤3：

步骤2.1：将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(VN/min)

步骤2.2：计算信号周期的时长，计算公式为：

(1)放行(绿灯)时长＝每辆车放行时长×(VN/min)；

(2)红灯时长＝信号周期-绿灯时长；

步骤3：更新完成后，直到下一控制周期开始前，匝道信号单元根据红绿信号灯的状态，决定车辆是否放行。

在整个控制过程中，重复步骤1～步骤3。

本实施例提供了一种基于车路协同技术和深度强化学习的高速公路可变限速和入口匝道协同控制系统，如图1所示是一个建在典型的高速公路入口匝道区域内的协同控制系统。系统的控制范围包括相邻高速公路主线的可变限速路段和车辆加速路段，以及入口匝道路段。其中，可变限速路段长约600米，分成三个限速子路段(每个子路段200米，下同)；加速区长约400米，分成两个子路段；瓶颈路段长约400米，分成两个子路段。入口匝道长约200米，为一个子路段。控制系统的整体目标包括减少高速公路车辆的旅行时间，减少车辆进入瓶颈路段的等待时间，同时保证车辆在匝道的排队长度小于15辆。

控制系统包括交通信息交互模块，交通控制模块，深度学习训练模块，匝道信号控制单元以及可变限速控制单元。交通信息交互模块的结构如图2所示，用于获取控制范围内各子路段的道路交通状态信息s_t，并将s_t作归一化处理后发送给交通控制模块。此外，交通信息交互模块将获取来自交通控制单元的指令，并把指令传递给道路上的车辆。交通状态信息s_t需采集各路段的平均车速v_t，路段车辆密度d_t，道路上的车辆排队长度q_t。控制指令包括来自可变限速控制单元的限速值VSL_t，取值范围为[30km/h,100km/h]，以及入口匝道的放行流量，取值范围为[4veh/min,30veh/min]。

交通控制模块的核心是决策控制网络，结构如图3(a)所示。整体控制流程如图4所示。交通控制模块根据交通状态信息s_t生成最优策略a_t。a_t包括系统内所有可变限速控制单元的限速值和匝道信号状态。同时，将s_t和a_t发送给深度学习训练模块，让训练模块对决策控制网络进行优化。交通控制模块生成a_t后，将a_t的分量a_t,i发送给相应的交通控制单元i，指导路段内的车辆行驶。在训练模式下，交通控制模块会对a_t加入随机噪声

以平衡探索和利用，

包括基础噪声分量

以及基于历史奖励值的影响因子ξ。ξ越大，控制模块的探索幅度和历史奖励值得关联性越大。本例中，

采用均值为0，方差为0.1的高斯白噪声，历史影响因子ξ＝0.2。每隔一段时间t，训练模块将集中训练(优化)评分网络，再基于评分网络更新决策控制网络的权重。在本发明实例中t取2分钟(2个控制周期)。

深度学习训练模块的评分网络结构如图3(b)所示，其输入为历史交通状态s_t和策略a_t，输出为a_t的得分。同时，训练模块基于历史数据对自身的评分网络进行优化，再更新交通控制模块中决策控制网络的权重，最终得到能优化交通状态s_t的策略a_t。训练流程如图5中所示。主要步骤为：

步骤1：从交通控制模块获取当前交通状态信息s_t和相应的控制策略a_t。

步骤2：从回放记忆池中提取N条记忆数据，分别发送给两个评分网络进行评分，此处N取128条数据。对每条记忆数据按照以下公式计算评分的Q_t值：

式中，R_t是即时奖励，γ是折扣系数，Q′_1,2分别是两个长期评分网络的Q值，

分别是两个长期评分网络的权重，min指取两者的较小值，Q_t为最终评分值。

步骤3：计算出Q_t值以后，再通过误差公式计算损失函数，并使用Adam优化器根据损失函数批量更新评分网络中的权重。

步骤4：基于评分网络的权重，每隔K步更新一次交通控制模块中的决策控制网络的权重和训练模块中的长期评分网络的权重，从而逐步优化控制策略。

所述交通控制单元，包括布设于主线的可变限速控制单元，以及入口匝道附近的匝道信号控制单元。交通控制单元接受来自交通控制模块的控制指令，并通过信息交互模块发送给所在路段的车辆。特别的，对于匝道信号控制单元，其获得的指令为当前控制周期内的放行流量，需转换成红绿灯的信号周期，其流程如图6所示。主要步骤为：

步骤1：获取当前时刻的入口匝道放行流量指令；

步骤2：将当前时刻分配的匝道交通流转为放行车辆数/分钟(VN/min)；

步骤3：计算信号灯时长，计算公式为：

(1)放行(绿灯)时长＝每辆车放行时长×(VN/min)

(2)红灯时长＝信号周期时长(1分钟)—绿灯时长

如果红灯时长小于零，令红灯时长等于零(即当前信号周期内均可放行)，每辆车放行时长设为2秒。

步骤4：根据当前红绿信号灯的状态，决定车辆是否放行。

重复步骤1～4，直到控制结束。

Claims

1.一种基于深度强化学习的高速公路道路协同控制系统，其特征在于：包括交通信息交互模块、交通控制模块、深度学习神经网络训练模块以及交通控制单元；

所述交通信息交互模块，用于采集道路的观测信息o_t，并转化为可用于深度强化学习的交通状态信息s_t发送给交通控制模块，以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆；

所述交通控制模块，用于根据接收到的交通状态信息s_t选取最优行为策略a_t，并将a_t发送给交通控制单元，将s_t和a_t发送给训练模块，其中，a_t包括系统中所有交通控制单元的动作集合；

所述深度学习神经网络训练模块，用于将来自交通控制模块的交通状态信息s_t和行为策略a_t存入回放记忆库中，根据奖励函数对神经网络进行训练，使奖励函数的长期累积和最大化，以此优化决策控制网络；

2.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：交通信息交互模块包括若干路侧单元，高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元，采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。

3.根据权利要求2所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：获取交通状态信息包括如下步骤：

(1)当一辆网联汽车驶入某一子路段i时，相应的路侧单元RSU与该车辆建立一个车辆会话VS，并将该会话加入当前路段的车辆会话队列VSQ中，VSQ中的车辆可与RSU实时信息交互；当车辆驶离该路段时，VS从VSQ中自动删除；

其中，获取算法为：

q_t，i＝N_stop

式中，N是路段中的车辆数，v_i是每个车辆的速度，L是路段长度，v_t，i表示路段i的平均速度，d_t，i表示路段i的车辆密度，q_t，i表示路段i的排队长度，N_stop是路段中停止等待的车辆；

4.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：交通控制模块包括决策控制网络和随机噪声生成模块，并设有执行模式和训练模式；执行模式下，交通控制模块根据当前交通状态信息s_t直接选择最优的控制策略a_t；训练模式下，对a_t加上随机噪声

由随机噪声生成模块提供；交通控制模块计算出a_t后，根据受控路段的编号将对应的控制指令a_t，i发给该路段的交通控制单元，同时将s_t和a_t发送给深度学习训练模块，评估a_t的控制效果。

5.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：深度学习神经网络训练模块的训练过程包括如下步骤：

(1)在t+1训练时刻，从交通信息交互模块获取前一时刻的交通状态信息s_t，从控制模块获取协同策略a_t，从奖励函数模块获取即时奖励r_t，连同当前时刻的交通状态信息s_t+1，组成交通状态数据元组(s_t，a_t，r_t，s_t+1)，存入回放记忆库中；

(2)深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(s_t，a_t，r_t，s_t+1)；

式中，y_i是第i条数据的得分，r_i是第i条数据的奖励，s_t+1是历史交通状态信息，

是控制模块在s_t+1下的策略结果，θ^μ′和

分别是长期决策网络和长期评分网络的权重向量；

(4)基于损失函数对评分网络的权重进行更新，使用Adam优化器对更新过程进行优化；其中，损失函数的计算方法为：

上式中，N为训练数据的条数，y_i是第i条数据的得分，Q(s_t，a_t|θ^Q)为评分网络基于最新的数据(s_t，a_t)的评分，θ^Q为评分网络的权重；

6.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：匝道信号控制单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期，转换方法包括如下步骤：

(1)从交通控制模块获取当前时刻的入口匝道放行流量指令；

(2.2)计算信号周期的时长，计算公式为：

放行(绿灯)时长＝每辆车放行时长×(VN/min)；

红灯时长＝信号周期-绿灯时长；

在整个控制过程中，重复步骤(1)～步骤(3)。

7.一种基于深度强化学习的高速公路道路协同控制方法，其特征在于包括：

8.根据权利要求7所示的基于深度强化学习的高速公路道路协同控制方法，其特征在于步骤(2)包括：

(2.2)训练模式下，协同控制方法在a_t的基础上加入随机噪声

的计算公式为：

式中，

9.根据权利要求7所示的基于深度强化学习的高速公路道路协同控制方法，其特征在于步骤(3)中，对任意交通状态s_t的控制策略为：

式中，π(a_t|s_t)指对任意交通状态s_t的控制策略，γ是随时间递减折扣系数，R_t(s_t)是控制系统在s_t状态下获得的即时奖励；

指控制系统的长期期望奖励。

10.根据权利要求9所示的基于深度强化学习的高速公路道路协同控制方法，其特征在于步骤(3)还包括：

(3.1)计算车辆旅行时间的奖励：

(3.2)计算任意时刻t等待进入高速公路的车辆数的奖励：

(3.3)计算入口匝道的车辆排队长度的奖励：

式中，q_max是期望的排队长度，q是实际排队长度，k_i、k_j表示奖励函数的系数；其中，k_i表示控制决策对排队长度q变化的敏感程度，k_j表示控制决策是否要求排队长度稳定在q_max附近，Q_rm表示匝道排队长度对应的奖励值；

(3.4)计算奖励函数r：

r＝T_tr+αW_veh+βQ_rm

式中，r是上述三项奖励的加权平均值；α和β分别是等待时间和排队长度相较于旅行时间的比例系数。