CN113870588B

CN113870588B - 一种基于深度q网络的交通灯控制方法、终端及存储介质

Info

Publication number: CN113870588B
Application number: CN202110965916.0A
Authority: CN
Inventors: 刘博�
Original assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Current assignee: Shenzhen Institute of Artificial Intelligence and Robotics
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-12-30
Anticipated expiration: 2041-08-20
Also published as: CN113870588A

Abstract

本发明公开了一种基于深度Q网络的交通灯控制方法、终端及存储介质，其中，方法包括：获取预设区域内各路口的交通灯信息，并根据交通灯信息得到预设区域内的通信拓扑网络；获取交通灯状态信息和交通灯四周的车流状态信息；根据通信拓扑网络、交通灯状态信息以及交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型；根据深度Q网络交通灯控制模型和一致性算法对预设区域内的交通灯进行控制。本发明基于通信拓扑网络构建去中心化的深度Q网络交通灯控制模型，通过去中心化的训练方式，使得各交通灯之间不需要分享本地的经验样本数据，就能学习到其他交通灯的经验，在优化控制模型的情况下，提高路网的通行效率。

Description

一种基于深度Q网络的交通灯控制方法、终端及存储介质

技术领域

本发明涉及终端应用领域，尤其涉及的是一种基于深度Q网络的交通灯控制方法、终端及存储介质。

背景技术

交通灯在现代交通系统中发挥着不可替代的重要作用，交通系统的效率在很大程度上取决于交通灯的控制策略。低效率的交通灯控制策略会导致交通拥堵，从而造成车辆和行人长时间的等待，极大地增加了能源和时间的消耗；因此，如何优化交通灯控制策略，以提高交通效率并缩短车辆的等待时间，一直是交通和运输领域的热门课题。

不同于传统的固定时间和基于模型的自适应交通控制策略，强化学习模型提供了一个更加有前景的解决方法。通过最大化的奖励，强化学习算法可以不断地优化自身模型的参数，自适应地调节交通灯控制策略。

现有的技术和方法仍然存在以下问题：

(1)基于单个交通灯路口的强化学习模型，需要收集大量的经验样本，以用于构建算法模型，这种强化学习模型费时费力，而且，单个路口的交通规律单一，不能提供多样性的经验样本，得到的模型泛化能力较差。

(2)基于多交通灯的强化学习模型(例如，联邦强化学习模型)，需要一个中央服务器协调整个训练过程，这就增加了系统对单一节点的依赖性，对中央节点产生很大的通信负担，特别是对于高延时和低带宽的通信系统，且不具有单点故障的鲁棒性。

因此，现有技术还有待改进。

发明内容

本发明要解决的技术问题在于，针对现有技术缺陷，本发明提供一种基于深度Q网络的交通灯控制方法、终端及存储介质，以解决因现有的交通灯控制策略优化性差而导致交通效率低的技术问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种基于深度Q网络的交通灯控制方法，基于深度Q网络的交通灯控制方法包括以下步骤：

获取预设区域内各路口的交通灯信息，并根据所述交通灯信息得到所述预设区域内的通信拓扑网络；

获取交通灯状态信息和交通灯四周的车流状态信息；

根据所述通信拓扑网络、所述交通灯状态信息以及所述交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型；

根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制。

在一种实现方式中，所述获取预设区域内各路口的交通灯信息，并根据所述交通灯信息得到所述预设区域内的通信拓扑网络，包括：

获取城市交通路网信息，并根据所述城市交通路网信息确定所述预设区域；

获取所述预设区域内各路口的交通灯信息，并根据所述交通灯信息得到所述预设区域内的通信拓扑网络；

其中，所述通信拓扑网络为包含所述预设区域内所有交通灯的去中心化的通信拓扑网络。

在一种实现方式中，所述获取交通灯状态信息和交通灯四周的车流状态信息，包括：

根据所述通信拓扑网络确定所述交通灯对应的摄像头、雷达以及地感线圈；

获取所述交通灯状态信息，并通过所述摄像头、所述雷达以及所述地感线圈获取所述交通灯四周的车流状态信息；

对所述交通灯状态信息和所述交通灯四周的车流状态信息进行数字化处理；

其中，所述车流状态信息包括：车辆位置信息和车辆速度信息。

在一种实现方式中，所述根据所述通信拓扑网络、所述交通灯状态信息以及所述交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型，包括：

将所述交通灯状态信息与所述交通灯四周的车流状态信息进行融合，得到融合信息；

结合交通灯动作，将所述融合信息代入卷积神经网络和多层神经网络中，计算得到所述交通灯动作在当前车流状态下和交通灯状态下的价值Q(s，α；θ)；

根据所述价值Q(s，α；θ)得到当前交通状态下交通灯的最佳交通灯动作

其中，θ为深度Q网络模型参数，s和α分别为当前车流状态和交通灯动作。

在一种实现方式中，所述根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制，包括：

初始化所述交通灯的深度Q网络参数和模型训练参数；

根据贪心策略选择交通灯动作；

根据所述交通灯动作对应的前后车辆等待序列长度设置奖励

得到经验样本d＝(s，α，r，s')，并将所述经验样本保存在本地数据集D＝{d₁，d₂，...，d_n}中；

根据所述经验样本，从所述本地数据集中选择随机样本，并利用梯度下降算法优化所述深度Q网络参数；

根据所述通信拓扑网络将所述交通灯与相邻交通灯进行通信，并向所述相邻交通灯分享优化后的深度Q网络参数，并通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数；

其中，I为所述交通灯对应路口的所有车道数量；

l_i和l_i'分别为第i个车道上在所述交通灯动作前后车辆的等待序列长度；

s'为执行交通灯动作α后的路口的交通状态；

n为样本总数量。

在一种实现方式中，所述根据贪心策略选择交通灯动作，包括：

根据所述贪心策略获取随机数rand；

判断所述随机数rand<ε是否成立；

若成立，则在所有交通灯动作中随机选择任一交通灯动作；

若不成立，则选择交通灯动作

在一种实现方式中，所述根据所述经验样本，从所述本地数据集中选择随机样本，并利用梯度下降算法优化所述深度Q网络参数，包括：

根据所述经验样本，从所述本地数据集中选择所述随机样本；

利用所述梯度下降算法优化所述深度Q网络参数θ∈R^m×s；

确定最小化损失函数

和模型参数更新规则

其中，

q为目标值；

θ^-为目标网络参数；

α'为在下一个状态s'下选择的交通灯动作；

θ_k和θ'_k分别为第k个交通灯本地数据集更新后的模型参数；

为θ_k对应的梯度。

在一种实现方式中，所述通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数，包括：

通过所述一致性算法更新所述预设区域内所有交通灯的深度Q网络参数θ′＝[θ'₁，θ'₂，...，θ'_N]∈R^m×s；

其中，N为所述通信拓扑网络中交通灯的总数量；

所述一致性算法为：

θ′＝[θ'₁，θ'₂，...，θ'_N]和θ″＝[θ″₁，θ″₂，...，θ″_N]分别为所有交通灯的Q网络参数矩阵；

W＝[w_ij]∈R^N×N为权重连接矩阵；

为克罗内克积；

I_m∈R^m×m为单位矩阵。

第二方面，本发明提供一种终端，包括：处理器以及存储器，所述存储器存储有基于深度Q网络的交通灯控制程序，所述基于深度Q网络的交通灯控制程序被所述处理器执行时用于实现如第一方面所述的基于深度Q网络的交通灯控制方法。

第三方面，本发明提供一种存储介质，所述存储介质存储有基于深度Q网络的交通灯控制程序，所述基于深度Q网络的交通灯控制程序被处理器执行时用于实现如第一方面所述的基于深度Q网络的交通灯控制方法。

本发明采用上述技术方案具有以下效果：

本发明基于交通路网信息获取一定区域内的交通灯的通信拓扑网络，并建立每个交通灯的强化学习环境，通过收集的经验样本数据，优化本地的强化学习模型；以及利用每个交通灯与其相邻的交通灯进行通讯，分享网络模型参数，结合一致性算法，更新一定区域内的所有交通灯的模型参数；通过去中心化的训练方式，使得各交通灯之间不需要分享本地的经验样本数据，就能学习到其他交通灯的经验，从而优化了各交通灯自身的模型，提高了路网的通行效率，降低了交通路网的通信成本；同时，各交通灯之间基于去中心化的通信拓扑网络，降低了单一节点的通信负担，避免了单点故障问题，提高了控制系统的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明的一种实现方式中基于深度Q网络的交通灯控制方法的流程图。

图2是本发明的一种实现方式中通信拓扑网络的结构示意图。

图3是本发明的一种实现方式中车流状态示意图。

图4是本发明的一种实现方式中交通灯状态示意图。

图5是本发明的一种实现方式中终端的功能原理图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

示例性方法

如图1所示，本发明实施例提供一种基于深度Q网络的交通灯控制方法，基于深度Q网络的交通灯控制方法包括以下步骤：

步骤S100，获取预设区域内各路口的交通灯信息，并根据所述交通灯信息得到所述预设区域内的通信拓扑网络。

在本实施例中，所述基于深度Q网络的交通灯控制方法应用于终端中，所述终端包括但不限于：计算机以及移动终端等设备；具体地，所述终端为用于控制交通路网中各交通灯动作(即交通灯信号)的终端设备。

在本实施例中，所述基于深度Q网络的交通灯控制方法为一种去中心化的深度Q网络的交通灯控制方法，其中，所述去中心化是指交通路网中任一节点(即交通灯)均可以自由选择中心节点和自由决定中心，简而言之，在所述交通路网中，任何一个交通灯可以是所述交通路网的节点，也可以是所述交通路网的中心；本实施例的特点在于，不依赖中央服务器协调所述交通路网中的各交通灯，所述交通路网中的各交通灯只需要与相邻交通灯进行通信，在不分享各交通灯的本地经验样本数据的情况下，共同训练一个联合的交通灯控制模型，从而利用联合的交通灯控制模型对所述交通路网中的各交通灯进行控制。

在实施所述基于深度Q网络的交通灯控制方法时，需要获取城市交通路网信息，所述城市交通路网信息可以是由某些主干道及与其连接的其他道路构成的路网信息，也可以是城市行政区域中的某个部分的路网信息；基于所述城市交通路网信息，可以获得所述城市交通路网信息中的交通灯信息；其中，所获得的交通灯信息为预设区域内的交通灯信息，所述预设区域可以是某一交通灯相邻的多个交通灯的管辖区域，也可以是以某一个交通灯为中心的指定范围区域。

进一步地，在确定所述预设区域后，根据获得的交通灯信息组建包含所有交通灯的通信拓扑网络，所述通信拓扑网络用于表示各交通灯之间的连接关系的网络；可以理解的是，所述通信拓扑网络为包含所述预设区域内所有交通灯的去中心化的通信拓扑网络。由于，所述通信拓扑网络为去中心化的拓扑网络，因此，在所述通信拓扑网络中不需要一个中央服务器协调控制各交通灯，这也就说明，所述通信拓扑网络具有很强的可拓展性和鲁棒性；同时，所述通信拓扑网络中每一个交通灯只需要与其相邻的交通灯进行通信；如图2所示，图2为所述通信拓扑网络的示意图，图中带箭头的虚线表示各交通灯之间的连接关系。

即在本实施例的一种实现方式中，步骤S100具体包括以下步骤：

步骤S110，获取城市交通路网信息，并根据所述城市交通路网信息确定所述预设区域；

步骤S120，获取所述预设区域内各路口的交通灯信息，并根据所述交通灯信息得到所述预设区域内的通信拓扑网络。

本实施例通过设置通信拓扑网络，使得通信拓扑网络中的每个交通灯可以学习到其他交通灯路口的经验，增加了样本数据的多样性，提高了训练效率。

如图1所示，在本发明实施例的一种实现方式中，基于深度Q网络的交通灯控制方法还包括以下步骤：

步骤S200，获取交通灯状态信息和交通灯四周的车流状态信息。

在本实施例中，对于所述通信拓扑网络中的每一个交通灯，均可以确定该交通灯对应的摄像头、雷达以及地感线圈，基于所述摄像头、所述雷达以及所述地感线圈获取该交通灯管辖区域的交通状态；其中，所述交通状态包括：交通灯状态信息(例如，红灯状态、绿灯状态以及黄灯状态等)和交通灯四面的车流状态信息；进而，所述车流状态信息包括：车辆位置信息和车辆速度信息；在得到所述交通状态后，对所述交通灯状态信息和交通灯四面的车流状态信息进行数字化处理。

具体地，在获取所述交通状态以及进行数字化处理时，对于所述通信拓扑网络中的任一交通灯，将该交通灯四面划分为若干个网格；如图3(a)中所示，在划分所述网格时，可以将该交通灯四面的距离停车线l距离的每个车道进行划分，而每个车道则以c距离为间隔进行划分，得到l/c个网格；而所述车流状态信息包括：位置矩阵和速度矩阵；如图3(b)中所示，在所述位置矩阵中，可以采用布尔变量1和0代表划分的网格中是否有车辆；相应地，如图3(c)中所示，在所述速度矩阵中，每个网格中的数字代表对应车辆的速度；若网格中没有车辆，则默认值为0。

如图4中所示，交通灯信号信息采用4位2进制数表示4种标准的红绿灯信号组合，具体如下：

(1)1000代表南北直行和右转(参见图4中①所示)；

(2)0100代表南北左转和掉头(参见图4中②所示)；

(3)0010代表东西直行和右转(参见图4中③所示)；

(4)0001代表东西左转和掉头(参见图4中④所示)。

值得一提的是，在每两个红绿相位之间，有一个红黄相位来确保交通安全，即当上一个相位的所有绿灯变为黄灯时，红灯不变。图4中所示的带实心箭头的实线，表示各交通灯状态下允许通行的方向，即绿灯相位。

即在本实施例的一种实现方式中，步骤S200具体包括以下步骤：

步骤S210，根据所述通信拓扑网络确定所述交通灯对应的摄像头、雷达以及地感线圈；

步骤S220，获取所述交通灯状态信息，并通过所述摄像头、所述雷达以及所述地感线圈获取所述交通灯四周的车流状态信息；

步骤S230，对所述交通灯状态信息和所述交通灯四周的车流状态信息进行数字化处理。

本实施例通过获取交通灯状态信息和交通灯四面的车流状态信息，可基于通信拓扑网络构建去中心化的深度Q网络交通灯控制模型，从而优化各交通灯的控制模型。

步骤S300，根据所述通信拓扑网络、所述交通灯状态信息以及所述交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型。

在本实施例中，对于所述通信拓扑网络中的每一个交通灯，可以将所述交通灯状态信息与所述交通灯四周的车流状态信息进行融合，得到融合信息；进而，结合交通灯动作，经过卷积神经网络和多层神经网络，得到交通灯动作在当前车流状态下和交通灯状态下的价值；其中，所述交通灯动作代表该交通灯的状态变化动作，例如，保持当前交通灯状态或转移到下一交通灯状态。

具体地，在计算所述价值时，可将所述融合信息代入卷积神经网络和多层神经网络中，计算得到所述交通灯动作在当前车流状态下和交通灯状态下的价值Q(s，α；θ)；其中，θ为深度Q网络模型参数，s和α分别为当前车流状态和交通灯动作。

进一步地，在得到所述价值后，根据所述价值Q(s，α；θ)得到当前交通状态下交通灯的最佳交通灯动作

其中，argmax函数为一种对函数求参数的函数，是使得价值Q(s，α；θ)取得最大值所对应的变量点。

通过计算价值Q(s，α；θ)和最佳交通灯动作

得到去中心化的深度Q网络交通灯控制模型所需要的参数，进而，根据计算得到的参数构建去中心化的深度Q网络交通灯控制模型。

即在本实施例的一种实现方式中，步骤S300具体包括以下步骤：

步骤S310，将所述交通灯状态信息与所述交通灯四周的车流状态信息进行融合，得到融合信息；

步骤S320，结合交通灯动作，将所述融合信息代入卷积神经网络和多层神经网络中，计算得到所述交通灯动作在当前车流状态下和交通灯状态下的价值Q(s，α；θ)；

步骤S330，根据所述价值Q(s，α；θ)得到当前交通状态下交通灯的最佳交通灯动作

本实施例通过去中心化的控制模型，让每一个交通灯可以同时学习到其他交通灯路口的经验，从而增加了样本的多样性，提高了训练效率；而且，在去中心化的训练过程中，每个交通灯只需要与其相邻的交通灯分享其模型参数，极大地减少了通信负担。

步骤S400，根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制。

在本实施例中，在对各交通灯进行控制时，需要初始化每个交通灯的深度Q网络参数和模型训练参数；其中，所述模型训练参数包括：学习率η、折扣因子γ、贪心策略中的ε、迭代总次数T以及当前迭代次数t。所述模型训练参数为训练所述深度Q网络交通灯控制模型时需要用到的参数，通过所述模型训练参数，可得到去中心化训练后的交通灯控制模型，以及得到对应的经验数据。

进一步地，在初始化参数后，根据贪心策略选择交通灯动作；之后，根据所述交通灯动作对应的前后车辆等待序列长度设置奖励

其中，l_i和l_i'分别为第i个车道上在所述交通灯动作前后车辆的等待序列长度，I为所述交通灯对应路口的所有车道数量，例如，在图2和图4所示中，每个交通灯有4个方向，每个方向上有三个车道，因此，I＝12；接着，根据奖励数据可得到经验样本d＝(s，α，r，s')，并将所述经验样本保存在本地数据集D＝{d₁，d₂，...，d_n}中，其中，s'为执行交通灯动作α后的路口的交通状态，n为样本总数量。

进一步地，根据所述经验样本，从所述本地数据集中选择随机样本，并利用梯度下降算法优化所述深度Q网络参数；之后，根据所述通信拓扑网络将所述交通灯与相邻交通灯进行通信，并向所述相邻交通灯分享优化后的深度Q网络参数，并通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数，使得其他交通灯都可以学习到该交通灯路口的经验，从而增加了样本的多样性，提高了训练效率。

即在本实施例的一种实现方式中，步骤S400具体包括以下步骤：

步骤S410，初始化所述交通灯的深度Q网络参数和模型训练参数；

步骤S420，根据贪心策略选择交通灯动作；

步骤S430，根据所述交通灯动作对应的前后车辆等待序列长度设置奖励

步骤S440，根据所述经验样本，从所述本地数据集中选择随机样本，并利用梯度下降算法优化所述深度Q网络参数；

步骤S450，根据所述通信拓扑网络将所述交通灯与相邻交通灯进行通信，并向所述相邻交通灯分享优化后的深度Q网络参数，并通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数。

在本实施例中，根据贪心策略选择交通灯动作时，具体为：

先根据所述贪心策略获取随机数rand，进而，判断所述随机数rand<ε是否成立；若成立(即rand<ε)，则在所有交通灯动作中随机选择任一交通灯动作；若不成立，则选择交通灯动作

在本实施例中，设置的可选择的交通灯动作有2个，即保持当前交通灯状态和转移到下一交通灯状态。

值得一提的是，考虑到交通灯动作的安全性，红黄相位的持续时间为4秒；同时，为了保证交通灯动作的灵活性和自适应性，红绿相位的计量单位为6秒，最短持续时间为6秒，最长持续时间为60秒。对于任一交通灯的状态，可先执行一个6秒的时长，若所选择的交通灯动作为保持不变(即保持当前交通灯状态)，则再执行一个6秒的时长；若所选择的交通灯动作为转移到下一交通灯状态，则经过一个4秒的红黄相位后，转移到下一交通灯状态。

需说明的是，上述持续时间可以根据实际应用场景进行自适应调整。

即在本实施例的一种实现方式中，步骤S420具体包括以下步骤：

步骤S421，根据所述贪心策略获取随机数rand；

步骤S422，判断所述随机数rand<ε是否成立；

步骤S423，若成立，则在所有交通灯动作中随机选择任一交通灯动作；

步骤S424，若不成立，则选择交通灯动作

在本实施例中，在优化深度Q网络参数时，具体为：

基于得到的经验样本，从本地数据集D中随机选择一些样本，利用所述梯度下降算法优化所述深度Q网络参数θ∈R^m×s；其中，所述梯度下降算法为迭代算法，在求解损失函数的最小值时，可以通过梯度下降算法进行一步步迭代求解。

进一步地，经过所述梯度下降算法的计算后，可得到最小化损失函数

其中，

q为目标值；θ^-为目标网络参数，α'为在下一个状态s'下选择的交通灯动作；以及得到模型参数更新规则

其中，θ_k和θ'_k分别为第k个交通灯本地数据集更新后的模型参数；

为θ_k对应的梯度。

即在本实施例的一种实现方式中，步骤S440具体包括以下步骤：

步骤S441，根据所述经验样本，从所述本地数据集中选择所述随机样本；

步骤S442，利用所述梯度下降算法优化所述深度Q网络参数θ∈R^m×s；

步骤S443，确定最小化损失函数

和模型参数更新规则

在本实施例中，在更新其他交通灯的深度Q网络参数时，具体为：

基于所述通信拓扑网络，将每一个交通灯与其相邻的交通灯进行深度Q网络参数共享，并通过所述一致性算法更新所述预设区域内所有交通灯的深度Q网络参数θ′＝[θ'₁，θ'₂，...，θ'_N]∈R^m×s；其中，N为所述通信拓扑网络中交通灯的总数量。

进一步地，所述一致性算法为：

θ′＝[θ'₁，θ'₂，...，θ'_N]和θ″＝[θ″₁，θ″₂，...，θ″_N]分别为一致性算法过程前后的所有交通灯的Q网络参数矩阵；W＝[w_ij]∈R^N×N为权重连接矩阵；

为克罗内克积；I_m∈R^m×m为单位矩阵。

进一步地，权重连接矩阵可以通过所述通信拓扑网络得到：

其中，

为i与j相连的情况，

为i等于j的情况，0为其他情况；d_i为第i个交通灯的度，表示与第i个交通灯相连的交通灯的个数；d_max为所述通信拓扑网络中d_i的最大值。

值得一提的是，上述权重连接矩阵W＝[w_ij]∈R^N×N满足：

w_ij＝w_ji，和

因此，可以得到

相应地，得到max||θ”_k||≤max||θ'_k||。

综上，一致性算法总是能降低所有模型参数的上界，并提高所有参数模型的下界，从而使得所有交通灯的深度Q网络模型在本地优化后彼此相互靠近。

基于一致性算法，每一个交通灯能在学习自身经验的同时，通过与相邻交通灯分享模型参数，从而学习到其他交通灯的经验信息，建立一个泛化能力和鲁棒性更强的模型。

即在本实施例的一种实现方式中，步骤S450具体包括以下步骤：

步骤S451，通过所述一致性算法更新所述预设区域内所有交通灯的深度Q网络参数θ′＝[θ'₁，θ'₂，...，θ'_N]∈R^m×s。

在本实施例中，在优化深度Q网络参数的过程中，还需要一个判断终止条件，即判断当前迭代次数t是否大于总迭代次数T，若当前迭代次数t大于总迭代次数T，则停止优化过程；否则，继续根据贪心策略选择交通灯动作；待更新完所有交通灯的深度Q网络参数后，即可根据对应的交通灯动作控制对应的交通灯。

本实施例基于交通路网信息获取一定区域内的交通灯的通信拓扑网络，并建立每个交通灯的强化学习环境，通过收集的经验样本数据，优化本地的强化学习模型；以及利用每个交通灯与其相邻的交通灯进行通讯，分享网络模型参数，结合一致性算法，更新一定区域内的所有交通灯的模型参数；通过去中心化的训练方式，使得各交通灯之间不需要分享本地的经验样本数据，就能学习到其他交通灯的经验，从而优化了各交通灯自身的模型，提高了路网的通行效率，降低了交通路网的通信成本；同时，各交通灯之间基于去中心化的通信拓扑网络，降低了单一节点的通信负担，避免了单点故障问题，提高了控制系统的鲁棒性。

示例性设备

基于上述实施例，本发明还提供一种终端，其原理框图可以如图5所示。

该终端包括：通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块；其中，该终端的处理器用于提供计算和控制能力；该终端的存储器包括存储介质以及内存储器；该存储介质存储有操作系统和计算机程序；该内存储器为存储介质中的操作系统和计算机程序的运行提供环境；该接口用于连接外部终端设备，例如，移动终端以及计算机等设备；该显示屏用于显示相应的基于深度Q网络的交通灯控制信息；该通讯模块用于与云端服务器或移动终端进行通讯。

该计算机程序被处理器执行时用以实现一种基于深度Q网络的交通灯控制方法。

本领域技术人员可以理解的是，图5中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端，其中，包括：处理器和存储器，存储器存储有基于深度Q网络的交通灯控制程序，基于深度Q网络的交通灯控制程序被处理器执行时用于实现如上的基于深度Q网络的交通灯控制方法。

在一个实施例中，提供了一种存储介质，其中，存储介质存储有基于深度Q网络的交通灯控制程序，基于深度Q网络的交通灯控制程序被处理器执行时用于实现如上的基于深度Q网络的交通灯控制方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

综上，本发明提供了一种基于深度Q网络的交通灯控制方法、终端及存储介质，其中，方法包括：获取预设区域内各路口的交通灯信息，并根据交通灯信息得到预设区域内的通信拓扑网络；获取交通灯状态信息和交通灯四周的车流状态信息；根据通信拓扑网络、交通灯状态信息以及交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型；根据深度Q网络交通灯控制模型和一致性算法对预设区域内的交通灯进行控制。本发明基于通信拓扑网络构建去中心化的深度Q网络交通灯控制模型，通过去中心化的训练方式，使得各交通灯之间不需要分享本地的经验样本数据，就能学习到其他交通灯的经验，在优化控制模型的情况下，提高路网的通行效率。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于深度Q网络的交通灯控制方法，其特征在于，所述基于深度Q网络的交通灯控制方法包括以下步骤：

获取交通灯状态信息和交通灯四周的车流状态信息；其中，所述车流状态信息包括：车辆位置信息和车辆速度信息；

根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制；

所述根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制，包括：

在对各交通灯进行控制时，初始化每个交通灯的深度Q网络参数和模型训练参数；其中，所述模型训练参数包括：学习率η、折扣因子γ、贪心策略中的ε、迭代总次数T以及当前迭代次数t；

所述通过一致性算法更新所述预设区域内所有交通灯的深度Q网络参数，包括：

其中，N为所述通信拓扑网络中交通灯的总数量；

所述一致性算法为：

θ′＝[θ'₁，θ'₂，...，θ'_N]和θ″＝[θ″₁，θ″₂，...，θ″_N]分别为所述一致性算法过程前后的所有交通灯的Q网络参数矩阵；

W＝[w_ij]∈R^N×N为权重连接矩阵；

为克罗内克积；

I_m∈R^m×m为单位矩阵。

2.根据权利要求1所述的基于深度Q网络的交通灯控制方法，其特征在于，所述获取预设区域内各路口的交通灯信息，并根据所述交通灯信息得到所述预设区域内的通信拓扑网络，包括：

3.根据权利要求1所述的基于深度Q网络的交通灯控制方法，其特征在于，所述获取交通灯状态信息和交通灯四周的车流状态信息，包括：

对所述交通灯状态信息和所述交通灯四周的车流状态信息进行数字化处理。

4.根据权利要求1所述的基于深度Q网络的交通灯控制方法，其特征在于，所述根据所述通信拓扑网络、所述交通灯状态信息以及所述交通灯四周的车流状态信息构建去中心化的深度Q网络交通灯控制模型，包括：

5.根据权利要求1所述的基于深度Q网络的交通灯控制方法，其特征在于，所述根据所述深度Q网络交通灯控制模型和一致性算法对所述预设区域内的交通灯进行控制，还包括：