CN115457781A

CN115457781A - 一种基于多代理深度强化学习的智能交通信号灯控制方法

Info

Publication number: CN115457781A
Application number: CN202211107942.0A
Authority: CN
Inventors: 刘东江
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-09
Anticipated expiration: 2042-09-13
Also published as: CN115457781B

Abstract

本发明提出了一种基于多代理深度强化学习的智能交通信号灯控制方法，该方法为：路网中具有多个红绿灯代理，每个红绿灯代理运行一个深度强化学习算法，每个红绿灯代理会根据十字路口的具体情况对红绿灯的时长进行调节，通过对红绿灯时长的调节可以完成车流调节。本发明考虑了当前十字路口的交通状况，根据当前十字路口的交通状况输入深度强化学习算法中获得评分值最高的针对红绿灯时长进行调节的行动，并且将确定采取的行动传给相邻红绿灯代理，使相邻红绿灯代理根据该信息对其即将采取的行动进行调整，则达到路网中红绿灯代理之间协同调控交通信号灯的目的，从而使得路网中的车流得到最优的调节，保证道路的通行效率最优。

Description

一种基于多代理深度强化学习的智能交通信号灯控制方法

技术领域

本发明属于信号灯控制技术领域，具体涉及一种基于多代理深度强化学习的智能交通信号灯控制方法。

背景技术

目前的智能交通信号灯的控制方法仅考虑当前十字路口各个方向的车流大小，从而控制当前十字路口的车流信息来控制交通信号灯的时长，但是当前时刻的十字路口的控制交通信号灯的时长会对相邻的十字路口的信息产生影响，如何将多个十字路口车流信息充分考虑来调节交通信号灯是当前的难题，急需解决。

发明内容

本发明所要解决的技术问题在于针对上述现有技术的不足，提供了一种一种基于多代理深度强化学习的智能交通信号灯控制方法，该控制方法能顾充分考虑到相邻十字路口的机动车信息之间的互相影响，通过对红绿灯时长的调节完成车流调节，以使得路况车流得到最佳控制，对于十字路口拥堵能够起到有效缓解的作用。

为解决上述技术问题，本发明采用的技术方案是：一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，路网中具有多个红绿灯代理，每个红绿灯代理运行一个深度强化学习算法，每个红绿灯代理会根据十字路口的具体情况对红绿灯的时长进行调节，通过对红绿灯时长的调节可以完成车流调节；具体控制交通信号灯的方法包括：

S1、通过随机的方式初始化每个红绿灯代理的对应深度强化学习算法中的深度Q网络的参数；

S2、每个红绿灯代理在特定时刻采集与其对应的十字路口的交通状态，所述十字路口的交通状态指在特定时刻经过该十字路口的所有机动车的速度信息和位置信息；

S3、将每个红绿灯代理采集的十字路口的交通状态输入到与之对应的深度Q网络中，所述深度Q网络输出多个评分值，每个评分值对应一个所述红绿灯代理对红绿灯的时长进行调节的行动；选择评分值最高的行动作为红绿灯代理即将采取的行动，则每个红绿灯代理都获得即将采取的针对十字路口车流进行调度的行动；

S4、每个红绿灯代理确定采取的行动时将自己将要采取的行动的消息发送给邻接的红绿灯代理；

S5、邻接的红绿灯代理检查是否有其他红绿灯代理发送来的消息，根据接收消息的情况，以及通过与该邻接的红绿灯代理对应的深度Q网络选择的即将采取的行动，调整自身即将采取的针对十字路口车流进行调度的行动，从而输出最终所要采取的对红绿灯的时长进行调节的行动；

S6、每个红绿灯代理执行完各自选择采取的行动后，根据红绿灯代理采取行动前后十字路口所有机动车等待时间长度的变化量计算奖赏值，根据所述奖赏值更新每个红绿灯代理对应的深度强化学习算法中的网络参数，然后重复执行步骤S2-S6，完成路网中智能交通信号灯的控制。

优选的，十字路口的红绿灯的状态通过四元组<t₁,t₂,t₃,t₄>描述，其中t₁表示南北向绿灯的时长，t₂表示由北向东及由南向西绿灯的时长，t₃表示东西向绿灯的时长，t₄表示由东向南及由西向北绿灯的时长；

S3中所述针对红绿灯代理对红绿灯的时长进行调节的行动包括：将十字路口南北向绿灯的时长t₁增加5秒、南北向绿灯的时长减少5秒、由北向东及由南向西绿灯的时长t₂增加5秒、由北向东及由南向西绿灯的时长t₂减少5秒、东西向绿灯的时长t₃增加5秒、东西向绿灯的时长t₃减少5秒、由东向南及由西向北绿灯的时长t₄增加5秒、由东向南及由西向北绿灯的时长t₄减少5秒和不做任何绿灯时长的变化；

采取以上九种行动之后，十字路口对应的九个红绿灯状态分别表示为<t₁+5,t₂,t₃,t₄>、<t₁-5,t₂,t₃,t₄>、<t₁,t₂+5,t₃,t₄>、<t₁,t₂-5,t₃,t₄>、<t₁,t₂,t₃+5,t₄>、<t₁,t₂,t₃-5,t₄>、<t₁,t₂,t₃,t₄+5>、<t₁,t₂,t₃,t₄-5>和<t₁,t₂,t₃,t₄>。

优选的，所述奖赏值通过以下方法获得：

假设i_t表示第i辆机动车，该机动车从到达十字路口一直等到十字路口的第t轮循环开始，N_t表示在第t轮循环中十字路口出现的汽车数量；所述循环指：红绿灯代理执行完针对十字路口车流进行调度的行动后，十字路口的红绿灯状态中的各个方向的所有红绿灯转换被认为是一个完整的循环，所以红绿灯代理的工作过程是由多个循环组成的；

表示第i_t辆机动车的等待时长，该等待时长的起始时间点为机动车的到达时间，终止时间为十字路口第t轮循环的起始时间点；如果在采取十字路口车流调度行动之前红绿灯代理进入第t轮循环，而采取该行动之后进入第t+1轮循环，那么红绿灯代理采取所述行动所获得的奖赏r_t通过以下的方式来计算：

r_t＝W_t-W_t+1

其中，W_t表示直到第t轮循环开始前十字路口所有机动车的等待时间总和，W_t+1表示直到第t+1轮循环开始前十字路口所有机动车的等待时间总和，那么该值的计算方法如下所示：

红绿灯代理采取该行动所获得的奖赏r_t表示采取该行动前后十字路口机动车等待时间长度的变化量。

优选的，S2中所述十字路口的交通状态指在特定时刻经过该十字路口的所有机动车的速度信息和位置信息，具体包括：

在特定的时刻，所述红绿灯代理会采集当前十字路口的快照，该快照包含了十字路口所有机动车的速度和位置信息，在快照中整个十字路口会被划分为大小相同的多个方格，每个方格只能够容纳一辆机动车，单个方格所包含的值为一个二元组<position,speed>，其中position表示方格中所包含机动车所处的位置，speed为方格中机动车的行驶速度；十字路口所有机动车的位置信息可以构成位置矩阵，speed值为一个二元值，用来表示该方格中是否包含机动车，十字路口所有机动车的速度信息可以构成速度矩阵。

优选的，所述深度Q网络的输入包含两个矩阵分别是位置矩阵以及速度矩阵，这两个矩阵都是红绿灯代理在十字路口采集获得的交通状态信息，所述深度Q网络中包含三个卷积层，第一个卷积层包含32个过滤器，每个过滤器的结构均为4*4，且在卷积的过程中每个过滤器会移动2*2步；第二个卷积层包含64个过滤器，经过第二个卷积层之后会输出64*15*15的张量；第三个卷积层包含128个过滤器，每个过滤器的尺寸2*2，且每次移动1*1步，第三个卷积层会输出15*15*128的张量；第三个卷积层输出的结果被输入到一个全连接层，该全连接层为一个128维的向量，该全连接层会将数据划分为两个部分，其中每个部分都是一个64维的向量，其中第一个64维向量被用来计算一个V值，而第二个64维向量被用来计算一个优势向量advantage，利用V值和advantage向量就可以计算所有针对十字路口车流进行调度的行动对应的Q值，该Q值即为行动对应的评分值，基于Q值的大小就可以进行行动的选择。

优选的，所述消息的格式为(行动方式，方向)，其中，若“行动方式”为1，表示特定方向绿灯被延长5秒，若“行动方式”为0，表示特定方向绿灯被缩短5秒，“方向”表示接收消息的红绿灯代理与发送消息的红绿灯代理的位置关系，“NS”表示两个红绿灯代理是南北向关系，“EW”表示两个红绿灯代理是东西向关系。

优选的，S5中邻接的红绿灯代理检查是否有其他红绿灯代理发送来的消息，所述消息的格式为(行动方式，方向)，根据接收消息的情况，调整自身即将采取的针对十字路口车流进行最佳调度的行动，从而输出最终所要采取的对红绿灯的时长进行调节的行动，具体包括：

假设第一轮某个红绿灯代理所采取的行动是<t₁,t₂,t₃,t₄>，那么在执行完该行动之后，需要确定下一轮采取的行动，行动确定的过程如下所述：

首先通过深度Q网络确定的下一轮行动对应的十字路口红绿灯的交通状态为<t'₁,t'₂,t'₃,t'₄>；然后检查<t'₁,t'₂,t'₃,t'₄>中t'₁、t'₂、t'₃和t'₄是否有值大于120秒或小于30秒，若有则继续采用交通状态为<t₁,t₂,t₃,t₄>对应的行动作为新的行动，若没有则执行以下任务A；

所述任务A为：检查是否收到邻接红绿灯代理的消息，如果没有收到，那么就将交通状态为<t'₁,t'₂,t'₃,t'₄>的行动作为新的行动，如果收到消息就执行以下的任务B；

所述任务B为：对收到的所有消息进行遍历，并针对收到的每个消息执行以下过程：

检查收到消息的方向信息，如果消息中的方向信息为“NS”，“NS”表示某个红绿灯代理与邻接红绿灯代理是南北向关系，并且收到的消息中行动方式为1，就需要进一步增加t'₁和t'₂的时长，即t'₁＝t'₁+3，t'₂＝t'₂+3；相反收到消息中的行动方式为0，就需要减少t'₁和t'₂的时长，即t'₁＝t'₁-3，t'₂＝t'₂-3；然后删除消息缓存中所有包含“NS”的消息；

检查收到消息的方向信息，如果消息中的方向信息为“EW”，“EW”表示某个红绿灯代理与邻接红绿灯代理是东西向关系，并且收到的消息中行动方式为1，那么需要进一步增加t'₃和t'₄的时长，即t'₃＝t'₃+3，t'₄＝t'₄+3；相反收到消息中的行动方式为0，就需要减少t'₃和t'₄的时长，即t'₃＝t'₁-3，t'₄＝t'₂-3；然后删除消息缓存中所有包含“EW”的消息。

优选的，S6中每个红绿灯代理执行完各自选择采取的行动后，根据红绿灯代理采取行动前后十字路口所有机动车等待时间长度的变化量计算奖赏值，根据所述奖赏值更新每个红绿灯代理对应的深度强化学习算法中的网络参数，具体包括：

所述深度强化学习算法的框架中包括原始CNN网络和目标CNN网络，原始CNN网络即为深度Q网络，所述目标CNN网络是用来协助完成原始CNN网络更新的，目标CNN网络与原始CNN网络结构相同，起始时原始CNN网络与目标CNN网络的参数也相同，原始CNN网络以及目标CNN网络的参数更新过程如下所述：

S601、在更新CNN网络参数时需要从红绿灯的状态的四元组缓存中选择多个红绿灯的状态的四元组，这些四元组将构成一个四元组集合；

S602、对四元组集合中进行遍历并针对每个四元组执行以下过程；

S602-1、将第i个四元组中的状态s输入到原始CNN网络，原始CNN网络基于状态s发现Q值最大的行动a并输出行动a对应的Q值，即Q(s,a；θ)；其中θ表示原始CNN网络参数；

S602-2、将s’输入到起始CNN网络中，基于原始CNN网络可以获得Q值最大的行动a’；

S602-3、状态s’和行动a’被输入到目标CNN网络，目标CNN网络将输出对应的Q值，Q(s’,a’；θ^-)；其中θ^-表示目标CNN网络参数；

S602-3、基于步骤S602-2获得的Q(s,a；θ)值和步骤S602-3获得的Q(s’,a’；θ^-)的值计算目标Q值，目标Q值的计算方法如下所示：

S603、如果没有完成四元组遍历跳转到步骤S602；

S604、基于获得的所有四元组对应的Q(s,a；θ)值和Q_target(s,a)值可以构造损失函数，损失函数的形式如下所示：

其中，P(s)表示状态s在所选择的四元组集合中出现的概率，基于原始网络获得的Q值应当尽量接近目标Q值，因此损失函数应当被最小化；

S605、利用反向传播算法来对原始CNN网络参数θ进行更新；

S606、对目标CNN网络的网络参数θ^-进行更新，更新方式如下所示：

θ^-＝αθ^-+(1-α)θ

每当θ被更新后θ^-也会被更新。

本发明与现有技术相比具有以下优点：

1、本发明的控制方法，考虑了当前十字路口的交通状况，根据当前十字路口的交通状况输入深度强化学习算法中获得评分值最高的针对红绿灯时长进行调节的行动，并且将确定采取的行动传给相邻红绿灯代理，使相邻红绿灯代理根据该信息对其即将采取的行动进行调整，则达到路网中红绿灯代理之间协同调控交通信号灯的目的，从而使得路网中的车流得到最优的调节，保证道路的通行效率最优。

2、本发明的协同工作机制，针对智能化的交通疏导问题，发明采用多个十字路口的代理协同工作的方式来减轻交通拥堵，不仅对当前各个十字路口的交通拥堵可以起到疏导作用，还可以根据未来十字路口的交通状况采取一定的措施对可能发生的拥堵问题进行预防。整个城市路网中所有十字路口的代理被组织称为一个巨大的网络，作为一个整体来完成交通疏导任务。

3、本发明的信息交换机制，为了使得多个十字路口的代理能够进行协同工作，每个十字路口的代理都需要向它的邻接代理发送一个消息，邻接代理可以通过该消息了解两个代理之间的方向关系以及发送消息代理在下一阶段将要采取的行动方式，虽然该消息当中包含的信息非常丰富，但是该消息格式非常简单，为一个二元组。此外，各个代理可以根据收到的消息确定未来不同方向的交通流状况。

下面通过附图和实施例对本发明的技术方案作进一步的详细说明。

附图说明

图1为本发明实施例1公开的十字路口对应位置矩阵。

图2为本发明实施例1公开的十字路口对应速度矩阵。

图3为本发明实施例1公开的红绿灯代理针对十字路口车流进行调度的行动。

图4为本发明实施例1公开的深度强化学习算法的框架。

图5为本发明实施例1公开的原始CNN网络和目标CNN网络对应的体系结构。

图6为本发明实施例1公开的十字路口对应代理关系描述。

具体实施方式

实施例1

如图1所示，本发明实施例的一种基于视觉记忆机器学习的影像监控管理方法，该方法包括：

路网中具有多个红绿灯代理，每个红绿灯代理运行一个深度强化学习算法，每个红绿灯代理会根据十字路口的具体情况对红绿灯的时长进行调节，通过对红绿灯时长的调节可以完成车流调节；具体控制交通信号灯的方法包括：

本实施例中，S2中所述十字路口的交通状态具体为：在某一时刻经过十字路口的所有机动车的速度和位置信息将会被对应的红绿灯代理所采集，所述速度和位置信息将被作为十字路口状态输入到深度强化学习算法中；在某个特定的时刻，所述红绿灯代理会采集当前十字路口的快照，该快照包含了十字路口向东、向西、向南、向北各150米内所有机动车的速度和位置信息，在快照中该区域会被划分为大小相同的多个方格，每个方格只能够容纳一辆机动车，单个方格所包含的值为一个二元组<position,speed>，其中，speed为方格中机动车的行驶速度，如果方格中无机动车或机动车静止，那么方格对应speed值为0；position值为一个二元值，用来表示该方格中是否包含机动车，如果该值为1表示方格中包含机动车，如果该值为0，表示方格中不包含机动车。某个十字路口所有方格对应的position值组合在一起可以构成位置矩阵，图1为位置矩阵的形式；同样，某个十字路口的所有speed值组合在一起可以构成速度矩阵，图2为速度矩阵的形式，其中每个方格中的speed值表示该方格中所包含机动车的速度信息。

深度强化学习需要通过一系列的行动来对红绿灯的时长进行调节，通过调节红绿灯的时长来对车流进行调度。因此，通过一个四元组来描述一个十字路口红绿灯的状态，即<t₁,t₂,t₃,t₄>，其中t₁表示南北向绿灯的时长，t₂表示由北向东及由南向西绿灯的时长，t₃表示东西向绿灯的时长，t₄表示由东向南及由西向北绿灯的时长。由于在某个方向是绿灯的时候其他的方向应当是红灯，因此红灯的时长不需要添加在十字路口的状态之中。

在采取行动前，十字路口的初始红绿灯状态为<t₁,t₂,t₃,t₄>，该十字路口对应的红绿灯代理可以采取针对十字路口车流进行调度的行动包括：将十字路口南北向绿灯的时长t₁增加5秒、南北向绿灯的时长减少5秒、由北向东及由南向西绿灯的时长t₂增加5秒、由北向东及由南向西绿灯的时长t₂减少5秒、东西向绿灯的时长t₃增加5秒、东西向绿灯的时长t₃减少5秒、由东向南及由西向北绿灯的时长t₄增加5秒、由东向南及由西向北绿灯的时长t₄减少5秒和不做任何绿灯时长的变化，之后十字路口的红绿灯状态进入到一个新的红绿灯状态，那么在下次采取行动时该红绿灯状态就是十字路口新的初始红绿灯状态。由于进入到新的红绿灯状态后，某个方向的绿灯时长有了变化，因此该方向的拥堵状况会发生相应的变化。该十字路口的代理可以选择采取九种行动中的一种，选择九种行动后分别十字路口可以进入如图3中所示的九个红绿灯状态，九个红绿灯状态分别表示为<t₁+5,t₂,t₃,t₄>、<t₁-5,t₂,t₃,t₄>、<t₁,t₂+5,t₃,t₄>、<t₁,t₂-5,t₃,t₄>、<t₁,t₂,t₃+5,t₄>、<t₁,t₂,t₃-5,t₄>、<t₁,t₂,t₃,t₄+5>、<t₁,t₂,t₃,t₄-5>和<t₁,t₂,t₃,t₄>。

如果十字路口的红绿灯代理在采取九种行动中的一种行动之后，就进入到图3所示的九种红绿灯状态中的一个红绿灯状态，那么红绿灯代理执行完该行动后，十字路口的红绿灯状态中的各个通行方向的所有红绿灯转换完全被认为是一个完整的循环，所以红绿灯代理的工作过程是由多个循环组成的。

假设i_t表示第i辆机动车，该机动车从到达一直等到十字路口的第t轮循环开始，N_t表示在第t轮循环中十字路口出现的汽车数量。

表示第i_t辆机动车的等待时长，该时长的起始时间点为机动车的到达时间，终止时间为十字路口第t轮循环的起始时间点。如果采取某个行动前红绿灯代理执行的是第t轮循环，而采取该行动之后执行的是第t+1轮循环，那么红绿灯代理采取该行动所获得的奖赏可以通过以下的方式来计算：

r_t＝W_t-W_t+1

W_t表示直到第t轮循环开始前十字路口所有机动车的等待时间总和，W_t+1表示直到第t+1轮循环开始前十字路口所有机动车的等待时间总和，那么该值的计算方法如下所示：

很明显，红绿灯代理采取该行动所获得的奖赏r_t表示采取行动前后十字路口机动车等待时间长度的变化量，在十字路口会不断的有新的机动车进入，同时也会有很多等待了很久的机动车离开，若红绿灯时长设置合理，会在第t轮循环与第t+1轮循环之间大大减少十字路口处等待时间非常久的机动车数量，这样就会使得W_t+1的值小于W_t的值，因此r_t的值越大说明红绿灯的时长设置越合理。

奖赏是红绿灯代理采取某项行动之后获得的反馈，获得的奖赏越多说明该项行动获得的效果越好，该深度Q网络所用的强化学习算法的目的是通过调节红绿灯的绿灯长度来提高十字路口的效率，因此在计算某个行动的奖赏时需要对红绿灯的运行效率进行充分的考虑，针对十字路口运行效率的一种度量方法是所有汽车在十字路口的等待时长，那么就可以利用该时长的累加和作为奖赏值。

所述深度强化学习算法会根据接收到的十字路口的交通状态，以及该十字路口对应的红绿灯代理可采取的九个行动，决定红绿灯代理将会采取什么行动，同时也会对深度强化学习算法中的网络参数进行调整；具体包括：

首先，将采集到的当前十字路口的交通状态以及代理可以采取的行动输入到红绿灯代理对应的深度强化学习算法的原始CNN网络中；

然后，原始CNN网络会根据输入十字路口的交通状态为九个可以采取的行动中的每个行动计算一个Q值，并执行Q值最大对应的行动；

最后，Q值最大对应的行动执行完成后，观察所获得的十字路口红绿灯状态s’以及获得的奖励r，并将四元组<s,a,s’,r>存储在四元组缓存中，其中s为上一个状态，即为采集到的当前十字路口的交通状态；a为在状态s下选择采取的行动，即为当前十字路口的交通状态下红绿灯的时长。

如图4所示，所述深度强化学习算法的框架中包括原始CNN网络(原始CNN网络即为深度Q网络)和目标CNN网络，目标CNN网络是用来协助完成原始CNN网络更新的，目标CNN网络与原始CNN网络结构相同，起始时原始CNN网络与目标CNN网络的参数也相同，原始CNN网络以及目标CNN网络的参数更新过程如下所述：

S603、如果没有完成四元组遍历跳转到步骤S602；

S605、利用反向传播算法来对原始CNN网络参数θ进行更新；

θ^-＝αθ^-+(1-α)θ

每当θ被更新后θ^-也会被更新。

本实施例中，所述深度Q网络结构为：

每个红绿灯代理对应的深度强化学习算法中包含了两个CNN网络，分别是原始CNN网络以及目标CNN网络，这两个网络的网络结构是相同的，并且起始时这两个网络的参数值也是完全相同的，只不过在后来执行深度强化学习算法的过程中，这两个网络的参数发生了偏差。这两个网络的体系结构如图5中所示，该网络的输入包含两个矩阵分别是位置矩阵以及速度矩阵，这两个矩阵都是代理在十字路口采集获得的交通状态信息，在该网络中包含三个卷积层，第一个卷积层包含32个过滤器，每个过滤器的结构均为4*4，且在卷积的过程中每个过滤器会移动2*2步；第二个卷积层包含64个过滤器，经过第二个卷积层之后会输出64*15*15的张量；第三个卷积层包含128个过滤器，每个过滤器的尺寸2*2，且每次移动1*1步，第三个卷积层会输出15*15*128的张量。第三个卷积层输出的结果被输入到一个全连接层，该全连接层为一个128维的向量，该全连接层会将数据划分为两个部分，其中每个部分都是一个64维的向量，其中第一个64维向量被用来计算一个V值，而第二个64维向量被用来计算一个优势向量advantage，利用V值和advantage向量就可以计算获得所有行动对应的Q值，基于该Q值就可以进行行动的选择，Q值的计算方法如下所示：

其中，行动a对应的A(s,a；θ)值表示行动a相对于其他行动的重要性，每个行动对应的A值都是优势向量中的一个元素。

本实施例中，路网中所有红绿灯代理交互过程可以进行如下描述：

已知t₁代表“南北方向”绿灯时长、t₂代表“由北向东&由南向西”方向的绿灯时长、t₃代表“东西方向”的绿灯时长、t₄代表“由东向南&由西向北”方向的绿灯时长，并且从图6中可以发现红绿灯代理1、2、3、4对应的十字路口与红绿灯代理0对应的十字路口是邻接关系，并且代理2和代理3与代理0是南北向的关系，代理1和代理4与代理0是东西向的关系。所以为了完成红绿灯代理间的信息的交互，每个红绿灯代理需要存储所有邻接十字路口对应的红绿灯代理的信息。例如，图6中的红绿灯代理0需要存储以下信息，这些信息包括{t₁:((agent2,agent3),“NS”),t₂:((agent1,agent4),“EW”),t₃:((agent1,agent4),“EW”),t₄:((agent2,agent3),“NS”)}。

每个红绿灯代理利用深度Q网络决定要采取的行动之后均需要向邻接红绿灯代理发送消息，接收消息的对象以及消息内容由红绿灯代理所采取的行动以及与邻接红绿灯代理的位置关系所决定。消息的格式为(行动方式，方向)，其中，若“行动方式”为1，表示特定方向绿灯被延长5秒，若“行动方式”为0，表示特定方向绿灯被缩短5秒，“方向”表示接收消息的红绿灯代理与发送消息的红绿灯代理的位置关系，“NS”表示两个红绿灯代理是南北向关系，“EW”表示两个红绿灯代理是东西向关系。

在图6中红绿灯代理0发送消息的过程为：

红绿灯代理0通过深度强化学习算法决定所要采取的行动；

如果所采取的行动是t₁或t₄时长加5秒，那么向代理2和代理3发送(1,“NS”)；

如果所采取的行动是t₁或t₄时长减5秒，那么向代理2和代理3发送(0,“NS”)；

如果所采取的行动是t₂或t₃时长加5秒，那么向代理1和代理4发送(1,“EW”)；

如果所采取的行动是t₂或t₃时长减5秒，那么向代理1和代理4发送(0,“EW”)。

另外，路网中所有十字路口对应的红绿灯代理都需要执行以下的任务：红绿灯代理的监听端口看邻接红绿灯代理代理是否向自己发送消息；如果收到了某个邻接红绿灯代理的消息，对缓存的消息进行检查；如果存在相同的消息，那么就将该消息删除；如果不存在，那么就存储该消息。

在多个红绿灯代理相互协作的场景下，每个红绿灯代理在采取一定的行动之后都会向特定的邻接十字路口对应红绿灯代理发送消息，每个红绿灯代理在收到具体的消息之后需要在已经确定要采取的行动之上进行进一步的调整。

进一步调整的行动的方法为：

首先通过深度Q网络确定的下一轮行动对应的十字路口红绿灯的状态为<t'₁,t'₂,t'₃,t'₄>(需要说明的的是红绿灯的状态为<t'₁,t'₂,t'₃,t'₄>可以是九个红绿灯状态为<t₁+5,t₂,t₃,t₄>、<t₁-5,t₂,t₃,t₄>、<t₁,t₂+5,t₃,t₄>、<t₁,t₂-5,t₃,t₄>、<t₁,t₂,t₃+5,t₄>、<t₁,t₂,t₃-5,t₄>、<t₁,t₂,t₃,t₄+5>、<t₁,t₂,t₃,t₄-5>和<t₁,t₂,t₃,t₄>中的任一一种)；然后检查<t'₁,t'₂,t'₃,t'₄>中t'₁、t'₂、t'₃和t'₄是否有值大于120秒或小于30秒，若有则继续采用交通状态为<t₁,t₂,t₃,t₄>对应的行动作为新的行动，若没有则执行任务A；

所述任务A为：某个红绿灯代理检查是否收到邻接的红绿灯代理的消息，如果没有收到，那么就将红绿灯状态为<t'₁,t'₂,t'₃,t'₄>的行动作为新的行动，如果收到消息就执行任务B；

任务B为：对收到的所有消息进行遍历，并针对收到的每个消息执行以下过程：

某个红绿灯代理检查收到消息的方向信息，如果消息中的方向信息为“NS”，并且收到的消息中行动方式为1，就需要进一步增加t'₁和t'₂的时长，即t'₁＝t'₁+3，t'₂＝t'₂+3；相反收到消息中的行动方式为0，就需要减少t'₁和t'₂的时长，即t'₁＝t'₁-3，t'₂＝t'₂-3；然后删除消息缓存中所有包含“NS”的消息；

某个红绿灯代理检查收到消息的方向信息，如果消息中的方向信息为“EW”，并且收到的消息中行动方式为1，那么需要进一步增加t'₃和t'₄的时长，即t'₃＝t'₃+3，t'₄＝t'₄+3；相反收到消息中的行动方式为0，就需要减少t'₃和t'₄的时长，即t'₃＝t'₁-3，t'₄＝t'₂-3；然后删除消息缓存中所有包含“EW”的消息。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制。凡是根据发明技术实质对以上实施例所作的任何简单修改、变更以及等效变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，路网中具有多个红绿灯代理，每个红绿灯代理运行一个深度强化学习算法，每个红绿灯代理会根据十字路口的具体情况对红绿灯的时长进行调节，通过对红绿灯时长的调节可以完成车流调节；具体控制交通信号灯的方法包括：

2.根据权利要求1所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，十字路口的红绿灯的状态通过四元组<t₁,t₂,t₃,t₄>描述，其中t₁表示南北向绿灯的时长，t₂表示由北向东及由南向西绿灯的时长，t₃表示东西向绿灯的时长，t₄表示由东向南及由西向北绿灯的时长；

3.根据权利要求2所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，所述奖赏值通过以下方法获得：

假设i_t表示第i辆机动车，该机动车从到达十字路口一直等到十字路口的第t轮循环开始，N_t表示在第t轮循环中十字路口出现的汽车数量；所述循环指：红绿灯代理执行完针对十字路口车流进行调度的行动后，十字路口的红绿灯状态中的各个通行方向的所有红绿灯转换被认为是一个完整的循环，所以红绿灯代理的工作过程是由多个循环组成的；

1≤i_t≤N_t表示第i_t辆机动车的等待时长，该等待时长的起始时间点为机动车的到达时间，终止时间为十字路口第t轮循环的起始时间点；如果在采取十字路口车流调度行动之前红绿灯代理进入第t轮循环，而采取该行动之后进入第t+1轮循环，那么红绿灯代理采取所述行动所获得的奖赏r_t通过以下的方式来计算：

r_t＝W_t-W_t+1

红绿灯代理采取该行动所获得的奖赏r_t表示采取行动前后十字路口机动车等待时间长度的变化量。

4.根据权利要求2所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，S2中所述十字路口的交通状态指在特定时刻经过该十字路口的所有机动车的速度信息和位置信息，具体包括：

在特定的时刻，所述红绿灯代理会采集当前十字路口的快照，该快照包含了十字路口所有机动车的速度和位置信息，在快照中整个十字路口会被划分为大小相同的多个方格，每个方格只能够容纳一辆机动车，单个方格所包含的值为一个二元组<position,speed>，其中position表示方格中所包含机动车所处的位置，speed为方格中机动车的行驶速度；position值为一个二元值，用来表示该方格中是否包含机动车，如果该值为1表示方格中包含机动车，如果该值为0，表示方格中不包含机动车，则十字路口所有机动车的位置信息可以构成位置矩阵；如果方格中无机动车或机动车静止，那么方格对应speed值为0，十字路口所有机动车的速度信息可以构成速度矩阵。

5.根据权利要求4所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，所述深度Q网络的输入包含两个矩阵分别是位置矩阵以及速度矩阵，这两个矩阵都是红绿灯代理在十字路口采集获得的交通状态信息，所述深度Q网络中包含三个卷积层，第一个卷积层包含32个过滤器，每个过滤器的结构均为4*4，且在卷积的过程中每个过滤器会移动2*2步；第二个卷积层包含64个过滤器，经过第二个卷积层之后会输出64*15*15的张量；第三个卷积层包含128个过滤器，每个过滤器的尺寸2*2，且每次移动1*1步，第三个卷积层会输出15*15*128的张量；第三个卷积层输出的结果被输入到一个全连接层，该全连接层为一个128维的向量，该全连接层会将数据划分为两个部分，其中每个部分都是一个64维的向量，其中第一个64维向量被用来计算一个V值，而第二个64维向量被用来计算一个优势向量advantage，利用V值和advantage向量就可以计算所有针对十字路口车流进行调度的行动对应的Q值，该Q值即为行动对应的评分值，基于Q值的大小就可以进行行动的选择。

6.根据权利要求2所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，所述消息的格式为(行动方式，方向)，其中，若“行动方式”为1，表示特定方向绿灯被延长5秒，若“行动方式”为0，表示特定方向绿灯被缩短5秒，“方向”表示接收消息的红绿灯代理与发送消息的红绿灯代理的位置关系，“NS”表示两个红绿灯代理是南北向关系，“EW”表示两个红绿灯代理是东西向关系。

7.根据权利要求2所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，S5中邻接的红绿灯代理检查是否有其他红绿灯代理发送来的消息，所述消息的格式为(行动方式，方向)，根据接收消息的情况，调整自身即将采取的针对十字路口车流进行最佳调度的行动，从而输出最终所要采取的对红绿灯的时长进行调节的行动，具体包括：

8.根据权利要求2所述的一种基于多代理深度强化学习的智能交通信号灯控制方法，其特征在于，S6中每个红绿灯代理执行完各自选择采取的行动后，根据红绿灯代理采取行动前后十字路口所有机动车等待时间长度的变化量计算奖赏值，根据所述奖赏值更新每个红绿灯代理对应的深度强化学习算法中的网络参数，具体包括：

S603、如果没有完成四元组遍历跳转到步骤S602；

S605、利用反向传播算法来对原始CNN网络参数θ进行更新；

θ^-＝αθ^-+(1-α)θ

每当θ被更新后θ^-也会被更新。