CN111091710A

CN111091710A - 交通信号控制方法、系统及介质

Info

Publication number: CN111091710A
Application number: CN201911311519.0A
Authority: CN
Inventors: 薛贵荣; 徐凯
Original assignee: Shanghai Tianran Intelligent Technology Co ltd
Current assignee: Shanghai Tianran Intelligent Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-01

Abstract

本发明提供了一种交通信号控制方法，包括：数据生成步骤：生成专家数据；网络结构搭建步骤：构建行为策略评价网络结构；评价方法构造步骤：构造行为策略评价方法；网络损失函数构造步骤：构造行为策略损失函数；获取步骤：获取到行为策略信息；评价网络损失函数构造步骤：构造评价网络损失函数；时序差分值获取步骤：根据评价网络损失函数，计算得到时序差分值；行为更新步骤：根据时序差分值，对行为策略进行更新；预测结果计算步骤：得到预测结果并运用到交通中。本发明有效降低系统在状态/行为空间中的探索成本；提高了收敛速度和预测控制表现。

Description

交通信号控制方法、系统及介质

技术领域

本发明涉及计算机软件和交通领域，具体地，涉及一种交通信号控制方法、系统及介质。尤其地，涉及一种基于专家数据和行为策略评价框架的交通信号控制方法。

背景技术

交通阻塞通行拥挤问题已经成为日常影响每个人生活的主要问题之一，人们往往因此要花费大量的通行时间在道路上。缓解这一问题的有效方法是开发一种高效的交通信号灯控制系统。

随着计算资源和机器学习算法的发展，越来越多的研究者们开始用强化学习(Reinforcement Learning,RL)的算法来研究交通信号的控制方法。在交通信号控制中，强化学习是通过智能体与环境的交互来学习一种优化的行为策略，并使此策略能够符合现实交通信号控制的需求。目前，关于这方面的强化学习算法已经有很多被提出来了。Van和HuaWei用Deep Q Network来搜索最优策略，2019年Tianshu Chu用行为策略评价框架(Actor-Critic)和LSTM网络结构提高并稳定了预测效果。虽然这些方法都在交通信号控制方面取得了一定成果，但是他们也面临着强化学习中的一个重大挑战，即在大探索空间中的收敛慢表现差的问题。实际上，为了减少在大空间中不必要的探索，可以从人本身的学习过程中获得借鉴。当人们试图掌握一项技能时，他们往往会从专家那获取知识，从而加速学习过程。类比到交通信号控制的方法模型中，我们也同样可以通过传入优质的从专家处得来的训练样本来促使方法可以更好的学习如何实现交通信号的控制。但是这样会面临两个难点：(1)在交通信号控制方面所谓的专家知识是什么？(2)这样的专家知识如何优化强化学习算法的探索过程？

对于第一个问题，我们通过交通控制中的经典方法来获取。在现有的交通专家们提出的方法中，有一个自组织交通信号灯控制方法(Self-Organizing Traffic Lightcontrol,SOTL)，SOTL是一个可以实现根据实时交通的动态变化自动调节的交通信号控制方法。这种交通控制方法往往建立在交通模型假设的基础上的，能够应用的交通场景较少。但是他们能够作为一个基准，作为一种专家知识用来优化深度学习的方法。

对于第二个问题，为了利用这种专家知识，我们将其处理为专家(Demonstrations)数据，类似于在决策任务中的专家策略。近期，已经有很多基于专家数据的强化学习算法被提出，结果表明这种方式可以有效处理强化学习的探索成本问题。ToddHester等人用基于专家数据的深度Q-learning算法，通过修改损失函数，从而在较小专家数据集下加速了算法对Atari游戏的学习过程，扩大了机器人控制的应用范围。所以对于本文中的问题，由传统经典方法产生的交通状态和对应的信号策略可以作为专家数据，并将其整合到我们的方法中提高预测表现。

综上所述，虽然众多研究人员将强化学习和专家数据方法在多个领域进行了研究性探索，并取得了一定的成绩。但在交通信号控制方面，目前还没有将专家数据和行为策略评价框架结合在一起来解决交通信号控制这一具有挑战且对人们日常生活具有重要影响的问题。

专利文献CN106128122B(申请号：201610522193.6)公开了一种智能交通信号灯，包括交通信号灯和与交通信号灯相连的预测装置，所述预测装置包括依次连接的采集模块、数据预处理模块、数据分类模块、平稳性检验模块、相关系数计算模块、阈值设定模块、时空相关系数矩阵生成模块、历史相关系数矩阵生成模块、预测因子选取模块和预测模型构造模块。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种交通信号控制方法、系统及介质。

根据本发明提供的交通信号控制方法，包括：

数据生成步骤：生成专家数据；

网络结构搭建步骤：构建行为策略评价网络结构；

评价方法构造步骤：构造行为策略评价方法；

网络损失函数构造步骤：构造行为策略损失函数；

获取步骤：获取到行为策略信息；

评价网络损失函数构造步骤：构造评价网络损失函数；

时序差分值获取步骤：根据评价网络损失函数，计算得到时序差分值；

行为更新步骤：根据时序差分值，对行为策略进行更新；

预测结果计算步骤：得到预测结果并运用到交通中。

优选地，所述数据生成步骤包括：

根据自组织交通信号灯控制方法生成专家数据；

所述网络结构搭建步骤包括：

搭建行为策略神经网络结构，定义行为策略神经网络结构中的网络层类别及层的参数；

搭建评价神经网络结构，定义评价神经网络结构中的网络层类别及层的参数；

行为策略评价网络结构包括行为策略神经网络结构和评价神经网络结构；

行为策略神经网络结构和评价神经网络结构均有双层全连接网络结构，隐层神经单元数为20。

优选地，所述评价方法构造步骤包括：

构造一个新的值函数，对值函数进行优化；得到一个新的优势函数；

公式依次如下：

其中，Q^π和π分别由θ_Q和θ_π决定，θ_π为行为策略网络参数，θ_Q为评价网络参数；

s表示：状态集合

a表示：动作决策集合；

st表示：t时刻的状态集合。

优选地，所述网络损失函数构造步骤包括：

在离散的行为空间中，根据Gumbel-Softmax构建行为策略网络损失函数；

公式如下：

a_soft＝softmax((gi+π)/τ))

l_actor(θ_π)＝Cross-Entropy(a_soft,a_D)

其中，g＝-log(-log(u)),u～Uniform(0,1),a_D是demos的行为；

asoft表示：经过softmax函数处理的动作决策概率；

gi表示：i时刻的g函数；

Cross-Entropy表示交叉商函数。

优选地，所述获取步骤包括：

根据行为策略神经网络结构中的网络层类别及层的参数，计算得到softmax值；

所述评价网络损失函数构造步骤包括：

评价网络使用行为克隆损失函数包括：1-step时序差分损失、n步时序差分损失、大余量分类损失和L2损失。

优选地，所述评价网络损失函数中的1-step时序差分损失如下：

y＝R(s,a)+γQ(s',a')

其中，s'为下一个状态，由环境采取行动a和下一个行动a'决定，关系为a'～π(a|s')；

梯度为：

y表示：算法模型计算出的此时刻的动作决策的奖励值；

γ表示：奖励的折算系数；

R(s，a)表示：奖励函数。

优选地，所述评价网络损失函数中的大余量分类损失如下：

L_margin(θ_Q)＝max_a[(θ_Q(s,a)+l(a_D,a)]-Q(s,a_D)

其中，l(a_D,a)是余量函数，当a≠a_D时为0.8，否则为0。

优选地，所述行为更新步骤包括：

根据时序差分值，对行为策略网络进行单步训练，得到训练结果，实现参数更新；

所述预测结果计算步骤包括：

根据训练结果，计算预测结果，获取交通信号的预测值，并得到通行时间，运用到交通中。

根据本发明提供的交通信号控制系统，包括：

数据生成模块：生成专家数据；

网络结构搭建模块：构建行为策略评价网络结构；

评价方法构造模块：构造行为策略评价方法；

网络损失函数构造模块：构造行为策略损失函数；

获取模块：获取到行为策略信息；

评价网络损失函数构造模块：构造评价网络损失函数；

时序差分值获取模块：根据评价网络损失函数，计算得到时序差分值；

行为更新模块：根据时序差分值，对行为策略进行更新；

预测结果计算模块：得到预测结果并运用到交通中。

与现有技术相比，本发明具有如下的有益效果：

1、本发明可以适用于大规模复杂的交通道路情况；

2、本发明有效降低系统在状态/行为空间中的探索成本；

3、本发明提高了收敛速度和预测控制表现。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法和装置的示例电子设备的示意性框图；

图2为根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法的示意性流程图；

图3为根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制装置的示意性结构框图。

图4为根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制系统的示意性结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

参照图1来描述用于实现根据本发明实施例的基于专家数据和行为策略评价的交通信号控制方法和装置的示例电子设备100。如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入、输出装置106、通信接口108以及一个或多个图像传感器110，这些组件通过总线系统112和、或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构，也可以不包括前述的部分组件。

所述处理器102一般表示任何类型或形式的能够处理数据或解释和执行指令的处理单元。一般而言，处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制所述电子设备100中的其他组件以执行期望的功能。在特定实施例中，处理器102可以接收来自软件应用或模块的指令。这些指令可以导致处理器102完成本文描述和/或示出的一个或多个示例实施例的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入/输出装置106可以是用户用来输入指令和向外部输出各种信息的装置，例如输入装置可以包括键盘、鼠标、麦克风和触目屏中的一个或多个。输出装置可以包括显示器、扬声器等中的一个或多个。

通信接口108广泛地表示任何类型或形式的能够促进示例电子设备100和一个或多个附加设备之间的通信的适配器或通信设备。例如，通信结构108可以促进电子设备100和前端或附件电子设备以及后端服务器或云端的通信。通信接口108的示例包括但不限于有限网络接口(诸如网络接口卡)、无线网络接口(诸如无线网络接口卡)、调制解调器和任何其他适合的接口。在一实施例中，通信接口108通过与诸如因特网的网络的直连提供到远程服务器/远程前端设备的直连。在特定实施例中，通信接口108通过与专用网络，例如视频监控网络、天网系统网络等网络的直连提供到远程服务器/远程前端设备的直连。通信接口108还可以间接提供这种通过任何其它合适连接的连接。

下面参考图2描述根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法。

本发明实施例公开的基于专家数据和行为策略评价框架的交通信号控制方法，用于交通信号控制，如图2所示该方法包括：

步骤S201，对专家数据进行生成：应用自组织交通信号灯控制方法(self-organizing traffic light control)生成专家(Demonstration)数据。

步骤S202，行为策略评价网络结构搭建步骤：搭建行为策略(Actor)的神经网络结构，定义其中网络层类别及层的参数；搭建评价(Critic)的神经网络结构，定义其中网络层类别及层的参数；行为策略评价网络由行为策略网络和评价网络这两个部分组成，各自具有双层全连接网络结构，隐层神经单元数为20。

步骤S203，行为策略评价方法构造步骤：构造一个新的值函数(Value function)，优化行动-值函数(Action-Value function)的初始化；构造一个新的优势函数(Advantagefunction)。

步骤S204，行为策略网络损失函数l_actor构造步骤：在离散的行为空间中，基于Gumbel-Softmax构建行为策略网络损失函数；

步骤S205，行为策略获取步骤：根据行为策略网络的结构信息，计算得到与输入对应的softmax值，来选择动作；

步骤S206，评价网络损失函数l_critic构造步骤：评价网络使用行为克隆损失函数(Behavior cloning losses)，由1-step时序差分损失(Temporal-Difference loss，TD)、n步时序差分损失、大余量分类损失(large margin classification)和L2损失组成，其中L2是用来防止过拟合的参数；

步骤S207，时序差分值获取步骤：根据评价网络的结构信息，得到计算输出的时序差分值；

步骤S208，行为更新步骤：有了评价网络的输出后，行为策略网络就可以进行单步训练并实现参数更新；

步骤S209，预测结果计算步骤：根据上述训练好的f_θ，计算预测结果，获取交通信号的预测值，并得到通行时间。

示例性地，根据本实施例的基于专家数据和行为策略评价框架的交通信号控制方法可以在具有存储器和处理器的设备、装置或者系统中实现。

图3为根据本发明实施例的一种基于专家数据和行为策略评价框架的交通信号控制装置的示意性结构框图，下面结合图3进行说明。

如图3所示，一种基于专家数据和行为策略评价框架的交通信号控制装置300，包括专家数据生成模块310、行为策略评价网络结构搭建模块320、行为策略评价方法构造模块330、行为策略网络损失函数l_actor构造模块340、行为策略获取模块350、评价网络损失函数l_critic构造模块360、时序差分值获取模块370、行为更新模块380，预测结果计算模块390。

专家数据生成模块310：应用自组织交通信号灯控制方法(self-organizingtraffic light control)生成专家(Demonstration)数据，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S201。

行为策略评价网络结构搭建模块320：搭建行为策略(Actor)的神经网络结构，定义其中网络层类别及层的参数；搭建评价(Critic)的神经网络结构，定义其中网络层类别及层的参数；行为策略评价网络由行为策略网络和评价网络这两个部分组成，各自具有双层全连接网络结构，隐层神经单元数为20，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S202。

行为策略评价方法构造模块330：构造一个新的值函数(Value function)，优化行动-值函数(Action-Value function)的初始化；构造一个新的优势函数(Advantagefunction)，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S203。

行为策略网络损失函数l_actor构造模块340：在离散的行为空间中，基于Gumbel-Softmax构建行为策略网络损失函数，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S204。

行为策略获取模块350：根据行为策略网络的结构信息，计算得到与输入对应的softmax值，来选择动作，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S205。

评价网络损失函数l_critic构造模块360：评价网络使用行为克隆损失函数(Behavior cloning losses)，由1-step时序差分损失(Temporal-Difference loss，TD)、n步时序差分损失、大余量分类损失(large margin classification)和L2损失组成，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S206。

时序差分值获取模块370：根据评价网络的结构信息，得到计算输出的时序差分值，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S207。

行为更新模块380：有了评价网络的输出后，行为策略网络就可以进行单步训练并实现参数更新，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S208。

预测结果计算模块390：根据上述训练好的f_θ，计算预测结果，获取交通信号的预测值，并得到通行时间，可以执行基于专家数据和行为策略评价框架的交通信号控制方法中的步骤S209。

图4为根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制系统的示意性结构框图。下面结合图4进行描述，如图所示，根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制系统400包括交通状态获取单元410、存储器420和处理器430。

交通状态获取单元410，可以为各种摄像装置。

所述存储器420存储用于实现根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法中的相应步骤的程序代码。

所述处理器430用于运行所述存储器420中存储的程序代码，以执行根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法的相应步骤，并且用于实现根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制装置中的专家数据生成模块310、行为策略评价网络结构搭建模块320、行为策略评价方法构造模块330、行为策略网络损失函数l_actor构造模块340、行为策略获取模块350、评价网络损失函数l_critic构造模块360、时序差分值获取模块370、行为更新模块380，预测结果计算模块390。

在一个实施例中，在所述程序代码被所述处理器430运行时执行以下步骤：

专家数据生成步骤；行为策略评价网络结构搭建步骤；行为策略评价方法构造步骤；行为策略网络损失函数l_actor构造步骤；行为策略获取步骤；评价网络损失函数l_critic构造步骤；时序差分值获取步骤；行为更新步骤；预测结果计算步骤。

示例性地，根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制系统可以实现为具有交通状态获取单元、存储器、通信接口/单元和处理器的设备、装置或者系统。

此外，根据本发明实施例，还提供了基于专家数据和行为策略评价框架的交通信号控制设备，其包括：一个或多个存储器，用于存储一个或多个计算机程序；一个或多个处理器，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据本发明实施例所述的基于专家数据和行为策略评价框架的交通信号控制指令来实现，并且可以执行根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于专家数据和行为策略评价框架的交通信号控制方法的相应步骤，并且用于实现根据本发明实施例的基于专家数据和行为策略评价框架的交通信号控制装置中的相应模块。所述存储介质例如可以包括硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、USB存储器或者上述存储介质的任意组合。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种交通信号控制方法，其特征在于，包括：