CN110136456A

CN110136456A - 基于深度强化学习的交通信号灯防堵塞控制方法和系统

Info

Publication number: CN110136456A
Application number: CN201910391317.5A
Authority: CN
Inventors: 黄泽天; 傅启明; 陈建平; 高振; 陆悠
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2019-05-12
Filing date: 2019-05-12
Publication date: 2019-08-16

Abstract

本发明涉及一种基于深度强化学习的交通信号灯防堵塞控制方法和系统。每个路口的数据由该路口的路口决策控制器处理，路口决策控制器将处理完的结果传输给终端决策器，终端决策器再对得到的数据进一步处理，只有当出现路口的拥堵值或预测拥堵值大于阈值时，终端决策器才接管决策权，对一个区域的信号灯统一控制管理。当拥堵值或预测拥堵值都小于等于阈值时，则各个路口的信号灯还是由该路口的路口决策控制器进行决策并控制。上述方法可大大缩短数据处理时间，同时避免只关注于单个路口的最大通行量而造成相邻路口拥堵的情况。有利于解决交通拥堵问题。

Description

基于深度强化学习的交通信号灯防堵塞控制方法和系统

技术领域

本发明涉及交通信息号灯控制领域，特别是涉及基于深度强化学习的交通信号灯防堵塞控制方法和系统。

背景技术

城市中，机动车、非机动车保有量大，路口和路段情况纷繁复杂，要处理这样一个规模庞大、动态、具有高度不确定性的分布式系统，进行有效的控制，是一件十分复杂的工作。在不新增交通道路的情况下，通过合理的交通控制，提高道路的利用效率，进而提高交通通行效率是快速解决城市交通问题的一种有效途径。

目前我国城市采用的交通信号灯控制模式,随着城市的不断发展，车流量的不断扩大，传统的交通信号灯在调度上出现了问题。一是车辆放行时，十字路口经常出现不同车流量干道放行时间相同，易造成某路段车辆堆积，造成交通堵塞；二是当某十字路口其中一路口车流量很大另一个路口车流相对较少时，不能够改变红绿灯的时间来延长这一路口的通过时间，造成该路口的车辆不能通过由此引发车辆堆积。

目前已有的交通信号灯控制系统，大多只关注于单个路口的最大通行量，容易出现由于只考虑该路口通行量最大化，有时不但不会缓解交通，甚至会导致相邻路口出现拥堵的情况。

发明内容

基于此，有必要针对传统的信号灯控制方法缓解交通拥堵能力仍然不够理想的问题，提供一种基于深度强化学习的交通信号灯防堵塞控制方法。

一种基于深度强化学习的智能交通信号灯防堵塞控制方法，包括：

实时获取当前路口路况信息；

通过CNN算法处理所述路况信息，获得当前路口的各车道等待车流长度和通过当前路口的车辆数目；

建立路口决策模型，所述路口决策模型根据各车道等待车流长度计算获取各车道的拥堵值，并且，所述路口决策模型根据所述拥堵值以及所述通过当前路口的车辆数目，结合DQN算法获得当前路口的路口最优信号灯控制策略，通过当前路口最优信号灯控制策略控制当前路口的信号灯；

当某一路口的拥堵值大于阈值，将该路口以及与该路口相连的各个路口组成一个区域，获得该区域所有路口的数据信息，建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，然后暂停使用该区域的各个路口自身的路口最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

上述方法中，不光考虑单个路口的信号灯控制，当单个路口的拥堵值超过阈值后，可通过终端决策模型获取区域最优信号灯控制策略，通过区域最优信号灯控制策略控制该区域各个路口的信号灯，避免只关注于单个路口的最大通行量而造成相邻路口拥堵的情况。有利于解决交通拥堵问题。

在其中一个实施例中，获取相邻路口的数据信息，所述相邻路口的数据信息包括相邻路口的各个车道等待车流长度，拥堵值和所采取的信号灯控制策略，

构建预测网络，所述预测网络根据当前路口的数据信息以及相邻路口的数据信息预测出t秒后当前路口的各车道车流长度，并根据预测的各个车道车流长度计算获得预测拥堵值；

当某一路口的预测拥堵值或拥堵值大于阈值，将该路口以及与该路口相连的各个路口组成一个区域，获得该区域所有路口的数据信息，建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，然后暂停使用该区域的各个路口自身的路口最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

在其中一个实施例中，当所述区域各路口的预测拥堵值以及拥堵值都小于阈值，停止使用所述区域最优信号灯控制策略，各个路口采用自身的路口最优信号灯控制策略控制交通信号灯。

在其中一个实施例中，所述拥堵值的计算方法为：

其中，L11表示路口东侧直行和右转道车流长度，L21表示路口西侧直行和右转道车流长度，L12表示路口东侧左转道车辆长度，L22表示路口西侧左转道车辆长度，L31表示路口南侧直行和右转道车辆长度，L41表示路口北侧直行和右转道车辆长度，L32表示路口南侧左转道车辆长度，L42表示路口北侧左转道车辆长度，L1表示路口东侧单条道路加上西侧单条道路的总长，L2表示路口南侧单条道路加上北侧单条道路的总长，α₁₁和α₁₂表示路口东西方向对应车道的拥堵值，α₂₁和α₂₂表示路口南北方向对应车道的拥堵值。

一种基于深度强化学习的智能交通信号灯防堵塞控制系统，所述系统包括：

路况信息获取装置，所述路况信息获取装置用于实时获取当前路口路况信息；

路口决策控制器，所述路口决策控制器与所述路况信息获取装置相连，所述路口决策控制器通过CNN算法处理所述路况信息，获得当前路口的各车道等待车流长度和通过当前路口的车辆数目，并建立路口决策模型，所述路口决策模型根据各车道等待车流长度计算获取各车道的拥堵值，并且，所述路口决策模型根据所述拥堵值以及所述通过当前路口的车辆数目，结合DQN算法获得当前路口的路口最优信号灯控制策略，通过当前路口最优信号灯控制策略控制当前路口的信号灯；

终端决策器，所述终端决策器与所述路口决策控制器相连，用于获取路口决策控制器的数据信息，所述终端决策器实时判断各个路口的拥堵值是否大于阈值，当某一路口的拥堵值大于阈值，终端决策器将该路口以及与该路口连接的各个路口组成一个区域，并接管所述区域的各个路口的决策权，所述终端决策器建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

在其中一个实施例中，

所述路口决策控制器还用于获取相邻路口的数据信息，所述相邻路口的数据信息包括相邻路口的各个车道等待车流长度，拥堵值和所采取的信号灯控制策略，

所述路口决策控制器还用于构建预测网络，所述预测网络根据当前路口的数据信息以及相邻路口的数据信息预测出t秒后当前路口的各车道车流长度，并根据预测的各个车道车流长度计算获得预测拥堵值，

所述终端决策器实时判断各个路口的预测拥堵值以及拥堵值是否大于阈值，当某一路口的预测拥堵值或拥堵值大于阈值，终端决策器将该路口以及与该路口连接的各个路口组成一个区域，并接管所述区域的各个路口的决策权，所述终端决策器建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

在其中一个实施例中，当所述区域各路口的预测拥堵值以及拥堵值都小于阈值，停止使用所述区域最优信号灯控制策略，所述终端决策处理器将决策权交还给路口决策控制器，各个路口采用自身的路口决策控制器内路口最优信号灯控制策略控制交通信号灯。

在其中一个实施例中，所述拥堵值的计算方法为：

一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述方法对应的操作。

一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述方法对应的操作。

附图说明

图1为本发明的交通信号灯防堵塞控制方法的第一种实施方式的流程图。

图2为本发明的交通信号灯防堵塞控制方法的第二种实施方式的流程图。

图3为本发明的交通信号灯防堵塞控制方法的第三种实施方式的流程图。

图4为本发明的实施例的交通信号灯防堵塞控制系统的路口决策控制器与路况信息获取装置的连接关系示意图。

图5为本发明的实施例的交通信号灯防堵塞控制系统的路口决策控制器与终端决策器的连接关系示意图。

图6为DQN深度强化学习算法的训练过程示意图。

图7为本发明的实施例所采用的路口的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本发明的实施例提供了一种基于深度强化学习的智能交通信号灯防堵塞控制方法，该方法包括：

实时获取当前路口路况信息；

通过CNN(卷积神经网络)算法处理所述路况信息，获得当前路口的各车道等待车流长度和通过当前路口的车辆数目；

建立路口决策模型，所述路口决策模型根据各车道等待车流长度计算获取各车道的拥堵值，并且，所述路口决策模型根据所述拥堵值以及所述通过当前路口的车辆数目，结合DQN(深度强化学习)算法获得当前路口的路口最优信号灯控制策略，通过当前路口最优信号灯控制策略控制当前路口的信号灯；

当某一路口的拥堵值大于阈值，将该路口以及与该路口相连的各个路口组成一个区域，获得该区域所有路口的数据信息，例如包括：区域内各个路口的各个车道等待车流长度，以及区域内各个路口的信号灯的动作，建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，然后暂停使用该区域的各个路口自身的路口最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

上述方法中，不光考虑单个路口的信号灯控制，当单个路口的拥堵值超过阈值后，可通过终端决策模型获取区域最优信号灯控制策略，通过区域最优信号灯控制策略控制该区域各个路口的信号灯，也就是协同控制各个路口的信号灯，这样可避免只关注于单个路口的最大通行量而造成相邻路口拥堵的情况。有利于解决交通拥堵问题。

需要说明的是，上述区域内的路口的数量可根据实际情况进行设定。上述与拥堵值大于阈值的路口相连的各个路口可以是与该路口直接相连或间接相连的路口。例如，拥堵值大于阈值的路口为A路口，则与A路口直接相连的路口可以包括B路口、C路口、D路口和E路口。与A路口间接相连的路口可以是与B路口直接相连的F路口，与C路口直接相连的G路口。以此类推。

进一步的是，在上述基础上，还可获取相邻路口的数据信息，所述相邻路口的数据信息包括相邻路口的各个车道等待车流长度，拥堵值和所采取的信号灯控制策略，构建预测网络，所述预测网络根据当前路口的数据信息以及相邻路口的数据信息预测出t秒后当前路口的各车道车流长度，并根据预测的各个车道车流长度计算获得预测拥堵值；当某一路口的预测拥堵值或拥堵值大于阈值，将该路口以及与该路口相连的各个路口组成一个区域，获得该区域所有路口的数据信息，建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，然后暂停使用该区域的各个路口自身的路口最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

需要说明的是，上述t秒可根据实际情况进行设定。例如可设定为10秒或12秒等。

本实施例中，当所述区域各路口的预测拥堵值以及拥堵值都小于阈值，停止使用所述区域最优信号灯控制策略，各个路口采用自身的路口最优信号灯控制策略控制交通信号灯。例如，当规划区域内各路口拥堵值小于2/3的阈值时，可将控制权交还给各个路口，各个路口采用自身的路口最优信号灯控制策略控制交通信号灯。不用再根据区域最优信号灯控制策略控制各个路口的信号灯。

本实施例中，所述拥堵值的计算方法为：

具体的，上述方法中，所述路口决策模型根据所述拥堵值以及所述通过当前路口的车辆数目，结合DQN(深度强化学习)算法获得当前路口的路口最优信号灯控制策略可包括以下步骤：

步骤一：将信号灯系统控制问题建模为一个MDP模型，并定义其中的状态，动作以及立即奖赏函数：

a、状态，用S表示。路口每侧为2通道，即2条车道，路口每侧的对应车道的车流长度L表示为：

L＝{L₁₁,L₁₂,L₂₁,L₂₂,L₃₁,L₃₂,L₄₁,L₄₂}，

拥堵参数取值公式为：

其中，L11表示路口东侧直行和右转道车流长度，L21表示路口西侧直行和右转道车流长度，L12表示路口东侧左转道车辆长度，L22表示路口西侧左转道车辆长度，L31表示路口南侧直行和右转道车辆长度，L41表示路口北侧直行和右转道车辆长度，L32表示路口南侧左转道车辆长度，L42表示路口北侧左转道车辆长度，L1表示东西向道路总长，也就是路口东侧单条道路加上西侧对应的单条道路的总长，例如，路口东侧左转道与路口西侧左转车道的长度相加就是L1，L2表示南北向道路总长，也就是路口南侧单条道路加上北侧对应的单条道路的总长，例如，路口南侧左转车道与路口北侧左转车道的长度相加就是L2，α₁₁和α₁₂表示路口东西方向对应车道的拥堵值，α₂₁和α₂₂表示路口南北方向对应车道的拥堵值。

则状态表示为：

S＝{α₁₁,α₁₂,α₂₁,α₂₂},

b、动作，用a表示，设绿色信号灯打开为G，红色灯信号灯打开为R，分别对东西向和南北向的直行和左转信号灯进行定义，t时刻的动作a用[东西向直行，东西向左转，南北向直行，南北向左转]表示，则t时刻可采取的动作集合为：

a＝{[G,R,R,R],[R,G,R,R],[R,R,G,R],[R,R,R,G]}；

c、立即奖赏函数，用r_s表示，n为通过路口的车量数目，如图7所示，可通过检测通过路口中间正方形区域的车辆数，则：r_s＝n；

步骤二：建立值函数回报模型。设R(s,a)表示在状态s下采用动作a的回报值，值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]。

步骤三：利用DQN深度强化学习算法求解最佳策略：

1)初始化记忆回放单元，容量是N，用于储存训练的样本；

2)初始化当前值网络，随机初始化权重参数ω；

初始化目标值网络，结构以及初始化权重与当前值网络相同；

3)将显示路况的照片通过当前值网络，得到任意状态s下的Q(s,a)通过当前值网络计算出值函数后，使用∈-greedy策略来选择动作a，每一次状态转移即做出动作记为一个时间步t，将每个时间步得到的数据(s,a,r,s’)存入回放记忆单元。

4)定义一个loss function：

L(ω)＝E[(r+γmaxa′Q(s′,a′；ω^-)-Q(s,a；ω))²]，

5)从回放记忆单元中随机抽取一个(s,a,r,s’)，将(s,a)，s’,r分别传给当前值网络，目标值网络和L(ω)，对L(ω)关于ω使用梯度下降法进行更新，求解出最优策略，DQN算法更新值函数的方式如下：

Q(s,a)←Q(s,a)+α[r+γmax_a’Q(s’,a’；ω^-)-Q(s,a)]，

s←s′，

a←a′，

其中γ为折扣因子，根据实际收敛情况而定。

6)每N次迭代后更新目标值网络的参数为当前值网络的参数。

进一步的是，如果要预测t秒后的拥堵值，则还包括：

步骤四：利用神经网络预测t秒后的拥堵值，上述神经网络可为短时记忆网络(LSTN)，具体包括：

1)获得输入端的数据，当前路口各车道车流长度、通过路口的车辆数目以及采取的动作，相邻路口各车道车流长度、通过路口的车辆数目以及采取的动作。

2)将所获得值输入神经网络，输出预测t秒后当前路口各车道车流长度，计算出拥堵值。

3)根据t秒后当前路口实际各车道车流长度和通过路口的车辆数目，通过反馈调节各层神经网络权值。

具体的，上述方法中，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，具体包括：

步骤一：当某一拥堵值或预测拥堵值大于预定阈值，根据该路口及相邻路口的拥堵参数，规划控制区域，向该规划区域中的路口传输控制要求，接管该区域所有的路口控制权。

步骤二：将区域信号灯系统控制问题建模为一个MDP模型，并定义其中的状态，动作以及立即奖赏函数；

a、状态，用S表示。将规划区域内的路口的拥堵值记为α_i，

α_i＝{α₁₁,α₁₂,α₂₁,α₂₂}，则状态表示为：

S＝{α₁,α₂,...α_i},i为规划区域内的路口的个数，

b、动作，用a表示，设绿色信号灯打开为G，红色灯信号灯打开为R，分别对东西向和南北向的直行和左转信号灯进行定义，t时刻的动作a用[东西向直行，东西向左转，南北向直行，南北向左转]表示，则t时刻系统可采取的动作集合为：

a＝{[G,R,R,R],[R,G,R,R],[R,R,G,R],[R,R,R,G]}，

c、立即奖赏函数，用r_s表示。在该系统中表示为各路口拥堵值的倒数的平均值：

i为规划区域内路口个数，

步骤四：建立值函数回报模型。设R(s,a)表示在状态s下采用动作a的回报值，值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]。

步骤五：利用DQN深度强化学习算法求解最佳策略：

1)初始化记忆回放单元，容量是N，用于储存训练的样本；

2)初始化当前值网络，随机初始化权重参数ω；

4)定义一个loss function：

L(ω)＝E[(r+γmaxa′Q(s′,a′；ω^-)-Q(s,a；ω))²]，

Q(s,a)←Q(s,a)+α[r+γmax_a’Q(s’,a’；ω^-)-Q(s,a)]，

s←s′，

a←a′，

其中γ为折扣因子，根据实际收敛情况而定。

本发明的实施例还提供了一种基于深度强化学习的智能交通信号灯防堵塞控制系统，所述系统包括：

路况信息获取装置，所述路况信息获取装置用于实时获取当前路口路况信息，该路况信息获取装置可以为摄像头等；

在其中一个实施例中，所述路口决策控制器还用于获取相邻路口的数据信息，所述相邻路口的数据信息包括相邻路口的各个车道等待车流长度，拥堵值和所采取的信号灯控制策略，所述路口决策控制器还用于构建预测网络，所述预测网络根据当前路口的数据信息以及相邻路口的数据信息预测出t秒后当前路口的各车道车流长度，并根据预测的各个车道车流长度计算获得预测拥堵值，所述终端决策器实时判断各个路口的预测拥堵值以及拥堵值是否大于阈值，当某一路口的预测拥堵值或拥堵值大于阈值，终端决策器将该路口以及与该路口连接的各个路口组成一个区域，并接管所述区域的各个路口的决策权，所述终端决策器建立终端决策模型，所述终端决策模型依据该区域所有路口的数据信息，通过DQN算法得到该区域的区域最优信号灯控制策略，采用所述区域最优信号灯控制策略控制该区域各个路口的信号灯。

需要说明的是，此时策略由路口决策控制器决定，相当于回归初始状态。一方面路口决策控制器可以采用之前已经通过训练获得并保存的路口最优信号灯控制策略。并可以在不断训练过程中对该策略进行修正。也可以重新进行训练学习获得路口最优信号灯控制策略。同时，还可以在终端决策器中加一个经验池，将多次规划的区域信号灯控制策略存入经验池，保存n个使用最多的区域信号灯控制策略供终端决策器使用。n的具体数值根据实际情况确定。

具体应用时，本发明可将每个单一十字路口的路况每4帧图像作为一组信息通过深度神经网络识别处理，得到每个路口的各个车道的车流长度以及相关信息，将这些信息传输至该路口的路口决策控制器，路口决策控制器通过深度强化学习的方法构建马尔可夫决策过程并求解最优策略，即决定当前信号灯控制系统作出最适合的动作。该路口的路口决策控制器还可预测采取该动作后的t秒后的拥堵状况，并将相关数据同步传送给终端决策器。终端决策器对接收到的所有路口信息进行评估预测，对评估中可能会出现堵塞的路口进行提前干预，接管对应路口相关区域及其相关路口交通信号灯控制，直至堵塞预警取消，交还路口决策权。该系统中每个十字路口可以设置四个路况信息获取装置，两个控制器模块，以及一个路口决策控制器。上述两个控制器模块分别为东西控制器模块和南北控制器模块，两个控制器模块用于具体控制信号灯，路口决策控制将获得的策略转换成控制信号发送给控制器模块，控制器模块根据控制信号控制对应的信号灯。同时，路况信息获取装置获取的路况信息通过控制器模块发送给路口决策控制器。

具体设置时，各个路口可设置一个路口决策控制器，在一定区域内可设置一个终端决策器，每个路况信息获取装置与路口决策控制器通过有线或无线连接，路口决策控制器和终端决策器也通过有线或无线连接。

本系统的具体工作流程可包括以下步骤：

S1：所述路况信息获取装置实时采集路口路况信息；

S2：所述路况信息获取装置和所述路口决策控制器通过有线连接，将图像信息传输至路口决策控制器；

S3:所述路口决策控制器，对所接收的信息通过CNN算法处理，得到每个路口的各车道等待车流长度及通过路口车辆数，并据此计算拥堵值。

S4:所述路口决策控制器,建立路口决策模型，根据所得到的上述信息，通过DQN算法获得当前路口最优信号灯控制策略，根据当前路口最优信号灯控制策略控制当前路口信号灯运转。

S5:所述路口决策控制器将每个车道等待车流长度，相应的拥堵值和所采取的信号灯控制动作通过有线传输给终端决策器和相邻路口决策控制器。

S6:所述路口决策控制器将所获得上述信息构建神经网络，通过短时记忆网络(LSTN)估计出t秒后当前路口的各车道车流长度和预测拥堵值，将预测的拥堵值通过有线传递给终端决策器。

S7:所述终端决策器，分析所接收到的信息，当某一个路口的拥堵值或预测拥堵值大于阈值，将相应路口和对应连接路口组成一个区域，向该区域内的各个路口发出信息请求，获得该区域所有路口的全部信息，并接管相应区域的路口决策权，终端决策器通过DQN算法得到该区域的最优信号灯策略。并通过该区域最优信号灯策略控制该区域各个路口信号灯运转。

S8:当该区域各路口拥堵值以及预测拥堵值都小于阈值，所述终端决策器将决策权交还给路口决策控制器。

进一步的，所述步骤S4中建立路口决策模型具体包括以下步骤：

S41：根据每个路口的实时数据信息建立路口拥堵畅通状态模型；

S42：将交通信号灯控制问题建模为一个马尔科夫决策过程模型，对其中的状态，动作及立即奖赏函数进行建模；

S43：建立回报值函数模型。

进一步的，所述步骤S6中路口决策控制器构建神经网络具体包括以下步骤：

S61:获得输入端的数据，当前路口各车道车流长度、通过路口的车辆数目以及采取的动作，相邻路口各车道车流长度、通过路口的车辆数目以及采取的动作。

S62：将所获得值输入神经网络，输出预测t秒后当前路口各车道车流长度，计算出拥堵值。

S63:根据t秒后当前路口实际各车道车流长度和通过路口的车辆数目，通过反馈调节各层神经网络权值。

由于在城市中道路路口众多，统一进行处理，数据量大，处理时间长，故本发明采用分总形式，每个路口的数据由该路口的路口决策控制器处理，路口决策控制器将处理完的结果传输给终端决策器，终端决策器再对得到的数据进一步处理，从而大大缩短了数据处理时间。只有当出现路口的拥堵值或预测拥堵值大于阈值时，终端决策器才接管决策权。当拥堵值或预测拥堵值都小于等于阈值时，则各个路口还是由该路口的路口决策控制器进行决策。本发明通过单一路口最优和区域协调相结合的方式，来解决城市道路拥堵的现象。本发明通过区域数据联通的方式，预测未来的路面状况，从而可以做到提前干预，进一步避免道路拥堵的出现。本发明与现有的固定的交通信号灯控制系统相比，其显著优点是：1)可以针对随机复杂的路况动态修正最优策略。2)随着训练的不断进行直至训练过程的结束，系统所得到的策略其缓解十字路口拥堵的效果会越来越好。

本发明的实施例还提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述方法对应的操作。

本发明的实施例还提供了一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述方法对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的智能交通信号灯防堵塞控制方法，其特征在于，包括：

实时获取当前路口路况信息；

2.根据权利要求1所述的基于深度强化学习的智能交通信号灯防堵塞控制方法,其特征在于，

获取相邻路口的数据信息，所述相邻路口的数据信息包括相邻路口的各个车道等待车流长度，拥堵值和所采取的信号灯控制策略，

3.根据权利要求2所述的基于深度强化学习的智能交通信号灯防堵塞控制方法，其特征在于，当所述区域各路口的预测拥堵值以及拥堵值都小于阈值，停止使用所述区域最优信号灯控制策略，各个路口采用自身的路口最优信号灯控制策略控制交通信号灯。

4.根据权利要求1所述的基于深度强化学习的智能交通信号灯防堵塞控制方法,其特征在于，所述拥堵值的计算方法为：

5.一种基于深度强化学习的智能交通信号灯防堵塞控制系统，其特征在于，所述系统包括：

6.根据权利要求5所述的基于深度强化学习的智能交通信号灯防堵塞控制系统，其特征在于，

7.根据权利要求6所述的基于深度强化学习的智能交通信号灯防堵塞控制系统，其特征在于，当所述区域各路口的预测拥堵值以及拥堵值都小于阈值，停止使用所述区域最优信号灯控制策略，所述终端决策处理器将决策权交还给路口决策控制器，各个路口采用自身的路口决策控制器内路口最优信号灯控制策略控制交通信号灯。

8.根据权利要求5所述的基于深度强化学习的智能交通信号灯防堵塞控制系统，其特征在于，所述拥堵值的计算方法为：

9.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1至4中任意一项所述方法对应的操作。

10.一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至4中任意一项所述方法对应的操作。