CN110428615B

CN110428615B - 基于深度强化学习单路口交通信号控制方法、系统、装置

Info

Publication number: CN110428615B
Application number: CN201910629489.1A
Authority: CN
Inventors: 吕宜生; 柴嘉骏; 于铭瑞; 陈圆圆; 熊刚; 朱凤华; 王飞跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-06-22
Anticipated expiration: 2039-07-12
Also published as: CN110428615A

Abstract

本发明属于城市交通控制领域，具体涉及了一种基于深度强化学习单路口交通信号控制方法、系统、装置，旨在解决复杂交通状况的交通信号控制效果不好的问题。本发明方法包括：建立微观交通仿真环境并定义参数，设定评判网络、交通信号生成网络；基于当前阶段以及前一阶段数据计算评判网络的训练误差并更新网络参数；基于更新后的评判网络、当前阶段以及前一阶段数据，计算更新后的评判网络训练误差，并更新评判网络、交通信号生成网络参数；采用训练好的交通信号生成网络获取交叉口信号灯下一相位时长。本发明减少了事先了解路口车流量信息的调研工作，并能够随路口车流量需求改变而及时做出调整，大大提高了复杂交通状况的交通信号控制的效果。

Description

基于深度强化学习单路口交通信号控制方法、系统、装置

技术领域

本发明属于城市交通控制领域，具体涉及了一种基于深度强化学习单路口交通信号控制方法、系统、装置。

背景技术

交通信号控制是当前城市交通管理与控制的重要手段。合理的交通信号控制策略不仅可以提高交通系统运行效率，还可有效减少交通事故的发生。道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征，很难建立起精确的数学模型，简单的定时控制、感应控制方法难以适应交通流量的动态、复杂、快速变化，控制效果不好。

深度强化学习方法将深度学习和强化学习技术融合在一起，结合了深度学习的特征表示、预测和强化学习的决策能力，在棋类、机器人控制等领域取得了广泛的应用。如果将深度强化学习应用到路口交通信号控制，使得深度强化学习可以通过与环境自主交互、学习得到最优或次优的交通信号控制策略，适应不同的交通需求，那么将会提高交通信号控制效果，有效应对复杂交通状况所带来的交通信号控制挑战。

总的来说，现有技术难以适应交通流量的动态、复杂、快速变化，控制效果不好，无法有效提高交通系统运行效率。

发明内容

为了解决现有技术中的上述问题，即复杂交通状况的交通信号控制效果不好的问题，本发明提供了一种基于深度强化学习单路口交通信号控制方法，该控制方法包括：

步骤S10，获取当前交叉口交通状态信息；

步骤S20，基于所述当前时刻交叉口交通状态信息，采用交通信号生成网络计算交叉口信号灯下一相位时长；

其中，所述交通信号生成网络基于深度强化学习方法训练，包括：

步骤B10，根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境；针对每个交通相位，定义深度强化学习模型的奖励、动作以及状态，设定评判网络和交通信号生成网络；

步骤B20，将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口，采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长，并获取第一预设数量的交叉口交通状态信息元组作为训练数据；

步骤B30，获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据，采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长，并计算所述评判网络的训练误差值；

步骤B40，更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数，获得第一评判网络；

步骤B50，获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据，采用所述交通信号生成网络获得交叉口信号灯下一相位时长，并计算所述第一评判网络的训练误差值；

步骤B60，更新所述第一评判网络以及交通信号生成网络的参数并重复执行步骤B50直至达到第二预设训练次数，获得训练好的交通信号生成网络。

在一些优选的实施例中，所述交叉口微观交通仿真环境包括：

交叉口车道数、进口道长度、渠化、相位组成、交叉口车流量、车流组成、车流转向。

在一些优选的实施例中，步骤B10中“定义深度强化学习模型的奖励、动作以及状态”，其方法为：

其中，reward为深度强化学习模型的奖励，N_t为在时刻t各进口车道等待车辆的数目；

action为动作连续控制量，取值范围为[-1,1]；

其中，state为深度强化学习模型的状态，N_max,i为第i条进口道所能容纳的最大车辆数，

分别为对第i条车道的等待车辆数和即将到达的车辆数归一化后得到的状态信息，n为进口车道数目。

在一些优选的实施例中，所述评判网络的训练误差为：

其中，Loss代表训练误差；s_i代表i时刻状态，a_i代表此状态下所采取的动作，r_i为此动作对应的奖励，s_i+1代表下一状态；a＝μ(s|θ)为以θ为网络参数、在状态s下使用策略μ计算得到的动作；Q(s,a|θ^Q)代表评判网络，θ^Q代表评判网络的参数；N为交叉口交通状态信息元组(s_i,a_i,r_i,s_i+1)的总数；

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

其中，μ′(s_i+1|θ^μ′)代表根据交通信号生成网络的目标子网络计算得到的动作，θ^μ'代表其网络参数；Q'(s,a|θ^Q')为评判网络的目标子网络，θ^Q'代表其网络参数。

在一些优选的实施例中，所述交通信号生成网络参数的更新方向为策略梯度方向；所述策略梯度为：

其中，

为策略梯度，s_i代表i时刻状态，a_i代表此状态下所采取的动作，r_i为此动作对应的奖励，s_i+1代表下一状态；a＝μ(s_i)代表在状态s_i下使用策略μ计算得到的动作；Q(s,a|θ^Q)代表评判网络，μ(s|θ^μ)代表交通信号生成网络，θ^Q、θ^μ分别代表评判网络和交通信号生成网络的参数；N为交叉口交通状态信息元组(s_i,a_i,r_i,s_i+1)的总数。

在一些优选的实施例中，步骤S20中“采用交通信号生成网络计算交叉口信号灯下一相位时长”，其方法为：

将所述交通信号生成网络在当前相位数据下的输出动作action通过线性映射转换为交叉口信号灯下一相位的持续时长：

其中，ΔT为交叉口信号灯下一相位持续时长，T_max,T_min分别为事先设定的相位时长的上限与下限。

在一些优选的实施例中，可以使用Episode-break技术提高所述交通信号生成网络的训练效果：

判断所述交通信号生成网络的奖励是否低于设定阈值，是则放弃该周期的训练数据。

本发明的另一方面，提出了一种基于深度强化学习单路口交通信号控制系统，包括交通状态信息获取模块、交通信号生成模块、输出模块；

所述交通状态信息获取模块，配置为获取当前交叉口交通状态信息并输入交通信号生成模块；

所述交通信号生成模块，配置为基于所述交通状态信息获取模块输入的当前时刻交叉口交通状态信息，采用交通信号生成网络计算交叉口信号灯下一相位时长；

所述输出模块，配置为输出所述交通信号生成模块计算的交叉口信号灯下一相位时长。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。

本发明的有益效果：

本发明基于深度强化学习单路口交通信号控制方法，利用深度强化学习方法实时计算单路口的交通信号控制，在实际应用中减少了为事先了解路口车流量信息而进行的调研工作，并能够随该路口宏观车流量需求改变而及时做出调整，例如道路整修、交通规则改变和整个城市车辆总数目改变等；可以根据需要方便地调整深度强化学习模型的奖励函数，使路口交通信号控制策略收敛到期望策略，大大提高了复杂交通状况的交通信号控制的效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于深度强化学习单路口交通信号控制方法流程示意图；

图2是本发明基于深度强化学习单路口交通信号控制方法一种实施例的数据获取阶段训练数据、评判网络训练阶段训练数据、评判网络及交通信号生成网络训练阶段训练数据示意图；

图3是本发明基于深度强化学习单路口交通信号控制方法一种实施例的交叉口仿真部分情况示意图；

图4是本发明基于深度强化学习单路口交通信号控制方法一种实施例的仿真环境中网络训练过程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于深度强化学习单路口交通信号控制方法，该信号控制方法包括：

步骤S10，获取当前交叉口交通状态信息；

为了更清晰地对本发明基于深度强化学习单路口交通信号控制方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于深度强化学习单路口交通信号控制方法，包括步骤S10-步骤S20，各步骤详细描述如下：

步骤S10，获取当前相位交叉口信号灯时长信息。

步骤S20，基于所述当前时刻交叉口交通状态信息，采用交通信号生成网络计算交叉口信号灯下一相位时长。

“采用交通信号生成网络计算交叉口信号灯下一相位时长”，其方法为：

将所述交通信号生成网络在当前相位数据下的输出动作action通过线性映射转换为交叉口信号灯下一相位的持续时长，如式(1)所示：

其中，所述交通信号生成网络基于深度强化学习网络构建，其训练方法为：

步骤B10，根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境；针对每个交通相位，定义深度强化学习模型的奖励、动作以及状态，设定评判网络和交通信号生成网络。

交叉口微观交通仿真环境包括：

本发明一个实施例中，如图2所示，为本发明基于深度强化学习单路口交通信号控制方法一种实施例的交叉口仿真部分情况示意图，构建的交叉口微观交通仿真环境为：交叉口为十字形交叉口，有东西南北四条岔路，每条岔路均为三车道；该交叉口交通信号共有四个相位，每个相位之间由时长为三秒的警示信号相连；交叉口各方向车流流量随时间随机变化；对于每一条岔路中的三条车道，其车辆左转、右转、直行的概率分别为0.1、0.1、0.8；共仿真了三种类型的车辆，其车长、最高车速、加速度各不相同。

在仿真平台中出于简化的目的，直接应用平台提供的方法获取该交叉口各车道的实时车流信息，该信息包括四条岔路上各车道上50m内即将到达的车辆数目N_approach与等待车辆数目N_wait，此实施例仿真中时间步长设置为1s，则所述实时车流信息是指以1s为周期对上述的车辆数目N_approach与等待车辆数目N_wait进行采样得到的结果。

“定义深度强化学习模型的奖励、动作以及状态”，深度强化学习模型的奖励如式(2)所示：

其中，reward为深度强化学习模型的奖励，N_t为在时刻t各进口车道等待车辆的数目。

action为动作连续控制量，取值范围为[-1,1]。

深度强化学习模型的状态如式(3)所示：

其中，state为深度强化学习模型的的状态，N_max,i为第i条进口道所能容纳的最大车辆数，

Critic网络作为交通信号生成网络深度强化学习中的Q(s,a)函数，用于评判Actor网络所执行动作的正确性；Actor网络作为交通信号生成网络深度强化学习中的策略函数π(s)，用于根据输入的状态信息state输出动作action反馈并作用于环境以获得下一时刻的状态及其对应的奖励reward。

步骤B20，将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口，采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长，并获取第一预设数量的交叉口交通状态信息元组作为训练数据。

交通状态信息元组表示为(s_i,a_i,r_i,s_i+1)；

其中，s_i代表i时刻状态，a_i代表此状态下所采取的动作，r_i为此动作对应的奖励，s_i+1代表下一状态。

步骤B30，获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据，采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长，并计算所述评判网络的训练误差值。

评判网络的训练误差如式(4)所示：

其中，Loss代表训练误差；s_i代表i时刻状态，a_i代表此状态下所采取的动作，r_i为此动作对应的奖励，s_i+1代表下一状态；a＝μ(s|θ)为以θ为网络参数、在状态s下使用策略μ计算得到的动作；Q(s,a|θ^Q)代表评判网络，θ^Q代表评判网络的参数；N为交叉口交通状态信息元组(s_i,a_i,r_i,s_i+1)的总数；y_i的定义如式(5)所示

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

式(5)

步骤B40，更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数，获得第一评判网络。

步骤B50，获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据，采用所述交通信号生成网络获得交叉口信号灯下一相位时长，并计算所述第一评判网络的训练误差值。

交通信号生成网络参数的更新方向为策略梯度方向；策略梯度值如式(6)所示：

其中，

如图2所示，为本发明基于深度强化学习单路口交通信号控制方法一种实施例的数据获取阶段训练数据、评判网络训练阶段训练数据、评判网络及交通信号生成网络训练阶段训练数据示意图，数据存储区的数据为数据获取阶段获取的训练数据；评判网络更新阶段，获取当前阶段的数据结合数据获取阶段的训练数据作为当前训练数据；评判网络及交通信号生成网络更新阶段，获取当前阶段的数据结合评判网络更新阶段的训练数据作为当前训练数据。

由于交通信号生成网络深度强化学习具有如式(7)所表示的特点，在使用的深度确定性策略梯度方法中选择了较小的折扣因子γ，推荐取值范围为[0.2,0.3]：

交通信号生成网络深度强化学习输出的动作值为取值范围在[-1,1]连续区间上的值，由此对应的相位持续时长也为范围在[T_min,T_max]连续空间上的值。通过实现使用强化学习方法输出连续动作可以完成交叉口交通信号倒计时显示的目的，相较于离散决策，强化学习方法可以减少交通事故发生的可能性。

本发明一个实施例中，如图3所示，其对应的奖励、动作和状态分别为：

奖励：93.43；

动作：-0.46；

状态：

[0.125,0.150,0.150,0.050,0,0.025,0.400,0.075,0.475,0.100,

0.875,0.000,0.025,0.150,0.025,0.225,0.000,0.025,0.300,0.050,

0.325,0.075,0.175,0.000]

由上述描述可见，采用深度强化学习方法训练交通信号生成网络的训练过程分为三个阶段：

第一，数据获取阶段。

在此训练阶段内，Agent在规定动作取值范围内输出动作action，此时Critic和Actor网络不进行学习，直至获取足够多的交叉口交通状态信息元组数据将其记忆区填满为止。

第二，评判(Critic)网络学习阶段。

此阶段在数据获取阶段之后，获取当前阶段设定数量的交叉口交通状态信息元组，结合数据获取阶段获取的数据，在规定动作取值范围内输出动作action，此时Critic网络以减小其训练误差Loss为目标进行学习，而Actor网络不进行学习。

第三，动作(Actor)网络学习阶段。

此阶段在评判网络学习阶段之后，此时Actor网络以策略梯度

为更新方向进行学习，Critic网络以减少其训练目标Loss为目标进行学习，且Agent的动作由Actor网络的输出决定。

可以使用Episode-break技术提高所述交通信号生成网络的训练效果：

由于本发明应用episode学习方法，每一个episode中包含若干时间步并在每个episode中使用收集到的数据训练模型，但该方法面对交通崩溃时的学习数据时将会使模型效率降低，为此应用Episode-break技术提高模型效率。

Episode-break技术包括：首先，将交通崩溃条件定义为强化学习的奖励reward在某一时刻低于设定值；其次，在上述的三个训练阶段内进行训练；若达成交通崩溃条件，则放弃该周期的训练数据。

仿真得到的数据应用先前所述的三段式训练中，如图4所示，为本发明基于深度强化学习单路口交通信号控制方法一种实施例的仿真环境中网络训练过程示意图，图中横坐标表示训练的episode数亦即训练时长，纵坐标表示当前episode内各岔路的平均等待车辆数。

本发明一个实施例中，其中T_max,T_min分别为20s与120s，将动作值-0.46代入式(1)，计算得到输出的交叉口下一相位最佳持续时长为47s。

本发明第二实施例的基于深度强化学习单路口交通信号控制系统，包括交通状态信息获取模块、交通信号生成模块、输出模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于深度强化学习单路口交通信号控制系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。