CN116071939B

CN116071939B - 一种交通信号控制模型的建立方法及控制方法

Info

Publication number: CN116071939B
Application number: CN202310294888.3A
Authority: CN
Inventors: 严丽平; 王静; 朱炉龙; 宋凯; 蔡彧; 张文剥
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-16
Anticipated expiration: 2043-03-24
Also published as: CN116071939A

Abstract

本发明公开了一种交通信号控制模型的建立方法及控制方法，该建立方法包括步骤S101~S102；S101，设计交通信号控制器网络结构；S102，训练交通信号控制器；其中，步骤S101包括：S1011，对交通状态进行编码；S1012，将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征；S1013，生成交通信号控制器领域的整体环境特征；S1014，交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响，从而得到交通信号控制器网络结构。本发明能够解决现有技术不能有效实现邻居Agent交互协作的问题。

Description

一种交通信号控制模型的建立方法及控制方法

技术领域

本发明涉及交通数据处理技术领域，特别是涉及一种交通信号控制模型的建立方法及控制方法。

背景技术

近年来，交通拥堵浪费通行时间，加剧尾气排放，造成严重的经济损失。对交通信号进行控制能一定程度上缓解交通拥堵。目前，随着强化学习的快速发展，研究人员发现强化学习是解决交通信号控制问题最合适的框架，开始研究强化学习技术实现交通信号的协作。特别的，在大规模的道路网络中，交叉口之间的合作对于缓解交通拥堵至关重要。但大多数现存的多智能体强化学习（MARL）的交通信号控制方法不能有效实现邻居交通信号控制器（Agent）交互协作。

当前交通信号控制方法主要包括传统的预定时、自适应交通信号控制方法、基于强化学习的单智能体强化学习、多智能体强化学习的交通信号控制方法。预定时的交通信号控制方法主要是通过合理规划道路网络的交通流量来减少排队车辆长度，缓解交通拥堵。自适应交通信号控制（Adaptive Traffic Signal Control，ATSC）致力于让交通信号配时方案适应于实时、动态多变、复杂不确定的道路状况，以在饱和道路上减少潜在的拥堵来缓解交通压力。基于强化学习的交通信号控制方法不依赖于任何不切实际的模型假设，通过与周围复杂交通环境直接交互获得经验，根据经验调整动作策略，从而进行学习。

然而，现有技术中，预定时、自适应交通信号控制等传统信号控制方法无法实时解决交通环境的动态性问题。单智能体强化学习的交通信号控制方法不适合部署在大型城市交通路网中；多智能体强化学习的交通信号控制方法中，每个控制信号灯的Agent感知该交叉口交通状态信息时会受到领域Agent决策的影响，造成非平稳问题。大多数现存的多智能体强化学习的交通信号控制方法不能有效实现邻居Agent交互协作。Agent之间的全交互会使得用于协作的信息价值密度降低，而仅与邻居Agent交互通信会限制协作范围。

发明内容

为此，本发明的实施例提出一种交通信号控制模型的建立方法及控制方法，以解决现有技术不能有效实现邻居Agent交互协作的问题。

根据本发明一实施例的交通信号控制模型的建立方法，包括步骤S101~S102：

S101，设计交通信号控制器网络结构；

其中，步骤S101包括步骤S1011~S1014：

S1011，对交通状态进行编码；

S1012，将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征；

S1013，生成交通信号控制器领域的整体环境特征；

S1014，交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响，从而得到交通信号控制器网络结构；

S102，训练交通信号控制器；

其中，步骤S102包括步骤S1021~S1023：

S1021，在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵；

S1022，交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作，交付给每个交叉口的信号灯去实施，并返回相应的奖励值给交通信号控制器；

S1023，交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性，完成交通信号控制器的训练，以得到交通信号控制模型。

上述建立方法，其中，步骤S1011具体包括：

S1011a，将原始的本地观测向量

嵌入多层感知机得到中间值/>

；

S1011b，将

和/>

时刻采取的动作/>

共同作为门循环单元的输入，得到隐含特征向量/>

；

其中，中间值

的表达式为：/>

，/>

表示第i个交通信号控制器在/>

时刻的本地观测向量，/>

表示权重矩阵，/>

表示偏置向量，/>

函数表示具有Relu非线性激活函数的单层感知机；

隐含特征向量

的表达式为：/>

，/>

表示第i个交通信号控制器在t-1时刻采取的动作，GRU表示门循环单元。

上述建立方法，其中，步骤S1012具体包括：

S10121a，将每个交通信号控制器输入的交通环境特征投影为每个独立的注意力头；

S10121b，在每一个注意力头m中，将所有输入特征的值表示都关系加权后相加；

S10121c，将第i个交通信号控制器的M个注意力头的输出进行串联，再输入函数

，产生卷积层的输出/>

；

其中，

的表达式为：/>

，其中，

表示权重矩阵，/>

表示交叉口i的所有邻居交叉口，/>

表示/>

和i的集合，/>

表示对于任一注意力头m，交叉口j对交叉口i的重要性程度，/>

表示注意力头m的值V的权重矩阵，/>

表示第j个交通信号控制器在t时刻的隐含特征向量，/>

表示sigmoid的参数；

的表达式为：/>

，/>

表示缩放系数，/>

表示注意力头m的查询Q的权重矩阵，/>

表示注意力头m的键K的权重矩阵，T表示转置符号，k表示普通参数，/>

表示第k个交通信号控制器在t时刻的隐含特征向量。

上述建立方法，其中，步骤S1012还包括：

S10122a，第二层卷积层提取合并交叉口i附近区域的交通环境特征，生成隐含的特征向量

，交叉口i附近区域包括交叉口i的所有邻居交叉口/>

；

S10122b，堆叠多个卷积层的交通环境特征，生成隐含的特征向量。

上述建立方法，其中，步骤S1013具体包括：

S1013a，构建交叉口i的邻居协作矩阵

；

S1013b，将所有交通信号控制器的隐含特征向量

拼接成一个大小为/>

的特征矩阵/>

；

S1013c，得到交叉口i的邻居协作区域的特征矩阵

。

上述建立方法，其中，步骤S1022具体包括：

S1022a，将每个交通信号控制器的价值函数Q联合起来，统一输入到混合网络中，获得联合价值函数

；

S1022b，每个交通信号控制器隐性地获得自己的价值函数

，根据价值函数/>

进行动作选择；

其中，联合价值函数

的表达式为：/>

，其中，/>

表示第i个交通信号控制器的价值函数。

上述建立方法，其中，步骤S1023具体包括：

S1023a，在训练阶段的每一时间戳

内，将训练数据的元组/>

存储在经验回放池D中；

S1023b，从经验回放池D中随机抽取大小为B的批次数据，通过图卷积网络进行端对端的训练以最小化损失函数L；

所述训练数据的元组

，其中，/>

表示所有交通信号控制器的本地观测集，/>

表示所有交通信号控制器的动作集，/>

表示下一时刻/>

所有交通信号控制器的本地观测集，/>

表示所有交通信号控制器的奖励集；

所述损失函数L的表达式为：

，/>

；

其中，B表示抽取的批次数据的大小，

表示第/>

个交通信号控制器的感知域组成的观测集合，/>

表示第/>

个交通信号控制器的动作，/>

表示评估网络的参数，/>

表示联合报酬，/>

表示折扣因子，/>

表示联合价值函数/>

最大时交通信号控制器的动作集合，/>

表示/>

时刻第/>

个交通信号控制器的感知域组成的观测集合，/>

表示/>

时刻第/>

个交通信号控制器的动作，/>

表示目标网络的参数。

本发明的实施例还提供了交通信号控制模型的控制方法，所述交通信号控制模型由上的建立方法建立得到，所述控制方法包括步骤S201~S202：

S201，第

个交通信号控制器更新自己的Q网络；

S202，第

个交通信号控制器在t时刻采取的动作/>

。

上述控制方法，其中，步骤S201具体包括：

S2011，第

个交通信号控制器采用固定Q网络方式，同时训练评估网络和目标网络，评估网络与交通路网环境进行交互，并把交互所得的经验数据/>

放入经验回放池中；

S2012，评估网络从经验回放池中取出数据训练自身网络，并采用软更新的方式定期把网络参数更新给目标网络；

S2013，目标网络计算作为评估网络的真实标签的target值，通过梯度下降算法更新所述评估网络的参数；

其中，所述经验数据

中，/>

表示交通信号控制器的状态，/>

表示交通信号控制器的动作，/>

表示奖励，/>

表示下一个状态，/>

表示回合结束标志。

在上述控制方法中，交通环境状态的构造形式、动作集合的设定以及奖励值的设置如下：

交叉口观测

：对任意特定的交叉路口第/>

个交通信号控制器，其测得的交通环境变量组成该交通信号控制器的本地部分可观测状态向量/>

，包含所有交通信号控制器的观测状态空间；

向量

描述交叉路口特定时刻/>

的环境状态，包含如下成分：/>

, />

,

, />

, />

和/>

。其中，/>

表示第/>

个交通信号控制器，/>

表示该交叉路口所有入口车道等待车辆的队列长度，是一个/>

维的向量；/>

也是一个/>

维的实数集向量，每个元素是该交叉路口入口车道的车辆数据，是等待车辆和驶入车辆之和；/>

表示入口车道所有车辆的平均等待时间，即上一次车速大于/>

开始，速度小于/>

的时间；/>

表示入口车道所有车辆的平均延时，车道延时的数值等于/>

减去（平均车辆速度/车道最大允许速度），单位为/>

；/>

是交通灯的当前相位；/>

是当前相位的持续时间，/>

表示维度。

动作

：交通信号控制器的所有交通信号的综合相位构成一个有限的相位集，可以由十字路口的交通信号控制器选择；第/>

个交通信号控制器的动作被定义为某一特定路口/>

的可选有限相位集合。在行动完成之前，第/>

个交通信号控制器将计算出动作价值函数

并选择一个具有最大行动值的行动作为在时间戳/>

的下一个行动。相应的信号序列将被分配到交叉路口，其中，/>

表示第/>

个交通信号控制器在/>

时刻的观测，

表示第/>

个交通信号控制器在/>

时刻采取的动作。

奖励R：

时刻第/>

个交通信号控制器获得由环境反馈的立即奖励值/>

；

利用不同的奖励定义可以达到相应的不同的控制或优化目的；本发明的目标是降低整个路网车辆的行驶时间和总延误的同时，减少整体车辆的尾气排放。所以，为了评估对能源和环境的影响，所述算法采用综合模态排放模型CMEM估计燃料消耗和空气污染物

和/>

的排放。

根据柴油汽车模态排放模型，燃油消耗计算如下：

；

；

；

其中，

为燃料使用率，单位为/>

；/>

为发动机输出功率，单位为/>

；/>

为发动机摩擦系数；/>

为发动机转速，单位为转/>

；/>

为发动机排量，单位为升；/>

为柴油机指示效率的衡量标准；/>

和/>

为系数，/>

为基值；初步分析表明，燃料的使用和发动机的排放之间有很强的相关性。

因此，一氧化碳和氮氧化物的排放率估计为：

其中，

、/>

和/>

、/>

是通过回归和校准程序确定的发动机排放系数。

综上所述，奖励函数的定义为：

；

其中，

、/>

是权重系数，/>

是交叉口/>

的进口车道数目，/>

是/>

时刻沿各进口车道测量的队列长度，/>

是/>

时刻各进口车道的车辆等待时间之和；值得注意的是，奖励是滞后的，所以，/>

和/>

都是在时间/>

时测量的。

根据本发明实施例的交通信号控制模型的建立方法及控制方法，通过交通信号控制器网络结构的设计，使建立的交通信号控制模型能够提取交通路网实时的时空状态数据，解决了领域交叉口同等对待的弊端，同时，多层堆叠的图卷积核使目标交叉口的交通信号控制器在扩大感知领域的同时不增加通信负荷；基于交通信号控制模型提出的控制方法从全局优化的角度评估交通信号控制器执行的动作，并不断更新以获得最优执行策略。本发明所提出的交通信号控制模型具有很好的鲁棒性、最优性和可扩展性，能准确捕获交通信号相互作用的方式，汇总从协作交通信号控制器处获得的信息并做出网络级的信号优化决策，性能优于传统交通信号控制方法和当前最先进的MARL控制方法。

此外，本发明融入生态交通理念，将尾气排放纳入多智能体强化学习信号控制系统中，大大降低了汽车尾气排放，提升了城市的生态环境。本发明所提出的交通信号控制模型优化了能源消耗，降低了尾气排放。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一实施例的交通信号控制模型的建立方法的流程示意图；

图2是图1中步骤S101的流程示意图；

图3是图1中步骤S102的流程示意图；

图4是合成交通路网实验设置的示意图，其中，（a）为16个交叉口组成的交通路网，（b）为该路网生成的车流量；

图5是合成路网中交叉口的信号灯的4相位的示意图；

图6是四种基于RL的交通信号控制模型的训练曲线图；

图7是五种基于RL的交通信号控制模型在合成路网中交叉口的平均队列长度的曲线图；

图8是五种交通信号控制模型中车辆的平均队列长度随着仿真时间变化的曲线图；

图9是不同模型在合成路网上的隐藏状态定义方面的表现的柱状图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，本发明提出一种交通信号控制模型（以下简称GCQN-TSC模型）的建立方法，GCQN-TSC模型的核心部分是交通信号控制器（以下简称Agent）网络结构设计和Agent学习过程，Agent网络结构类似于GCQN-TSC模型的“大脑”，Agent学习过程则是使模型展现出“智能”的过程，两者共同形成对交通环境做出实时响应的“智能”体，其中模型的建立方法包括如下步骤S101~S102：

S101、设计Agent网络结构。

Agent网络结构设计包括交通状态编码网络设计和图卷积层设计，具体的，请参阅图2，步骤S101包括步骤S1011~S1014：

S1011、对交通状态进行编码。

其中，具体的编码过程包括：

S1011a、将原始的本地观测向量

嵌入多层感知机（MLP）得到中间值/>

；

S1011b、将

和/>

时刻采取的动作/>

共同作为门循环单元（GRU）的输入，得到隐含特征向量/>

；

其中，中间值

的表达式为：/>

，/>

表示第i个交通信号控制器在/>

时刻的本地观测向量，/>

表示权重矩阵，/>

表示偏置向量，/>

函数表示具有Relu非线性激活函数的单层感知机；

隐含特征向量

的表达式为：/>

，/>

表示第i个交通信号控制器（以下简称Agent />

）在t-1时刻采取的动作。

S1012、将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征；

需要说明的是，现存的MARL通信方法在交通信号控制中，来自不同邻居的交叉口的信息组合在一起以同等的重要性对待，这导致交叉口上游的车流的影响被削弱而下游交叉口车流的影响被加强，这存在明显的缺陷。卷积核可以集成感知域环境特征并提取出更高层次的隐含特征，所以卷积核应该学习如何抽取出两个Agent间的重要性程度，并将其集成以供卷积核计算。

其中，图协作内核中的扩展多头注意力可以联合关注来自不同位置的不同表示子空间的领域。由于领域对目标交叉口的重要性在空间和时间上有所不同，所述模型的注意机制可以通过考虑任何源-目标交叉口对的交通状况来帮助目标Agent区分复杂的情况。

为了学习交叉口

对于交叉口/>

就Agent学习动作策略影响的重要性程度，所述的图卷积层，采用多头点积注意力作为卷积核计算Agent之间的交互过程，包括如下步骤：

S10121a、将每个Agent输入的交通环境特征投影为每个独立的注意力头；

S10121b、在所述的每一个注意力头

中，将所有输入特征的值表示都关系加权后相加；

S10121c、将Agent

的/>

个注意力头的输出进行串联，再输入函数/>

，产生卷积层的输出/>

；

其中，

的表达式为：/>

，其中，

表示权重矩阵，/>

表示交叉口i的所有邻居交叉口，/>

表示/>

和i的集合，/>

表示注意力头m的值V的权重矩阵，/>

表示第j个交通信号控制器在t时刻的隐含特征向量，/>

表示sigmoid的参数；

的表达式为：/>

，/>

表示缩放系数，/>

表示注意力头m的查询Q的权重矩阵，/>

表示第k个交通信号控制器在t时刻的隐含特征向量。

越多注意力头能够给出越多的关系表征，使得训练在经验上更加稳定，而且多头点积注意力不仅允许GCN网络共同注意来自不同位置交叉口的不同表征子空间的信息，而且通过多卷积层，可以提取出高阶关系表征，有效地捕捉到Agent之间的交互过程，对各个交叉口协作学习全局最优策略有很大帮助。

所述的图卷积网络中提取隐含特征，还包括以下步骤：

S10122a、第二层卷积层提取合并交叉口i附近区域的交通环境特征，生成隐含的特征向量

，交叉口i附近区域包括交叉口i的所有邻居交叉口/>

；

S10122b、堆叠多个卷积层的交通环境特征，即第三层卷积层像第二层卷积层那样提取合并交叉口

附近区域（包括交叉口/>

的所有邻居交叉口/>

）的交通环境特征，生成隐含的特征向量/>

；

其中，通过堆叠多个卷积层，隐含特征向量的感知域越来越大，所提取的区域交通环境特征所蕴涵的交通信息越来越集中，因而交叉口Agent 间协作范围越大。具体的，通过叠加一个卷积层，Agent

可以直接获取邻居Agent，即/>

的编码器的特征向量，称为“一跳”。通过堆叠两层卷积层，Agent />

可以得到“一跳”中Agent的第一个卷积层的输出，其中包含“二跳”中交叉口的状态信息。不过，无论叠加多少层卷积层，Agent />

只与邻居Agent通信，这一特性使得GCQN-TSC模型更好地适应交通信号控制问题，因为每一个交叉口Agent仅限于有限的协作区域，而非整个城市交通路网。

S1013、生成Agent领域的整体环境特征。

所述生成Agent领域的整体环境特征，包括如下步骤：

S1013a、构建交叉口i的邻居协作矩阵

；

S1013b、将所有交通信号控制器的隐含特征向量

拼接成一个大小为/>

的特征矩阵/>

；

S1013c、得到交叉口i的邻居协作区域的特征矩阵

。

需要说明的是，交叉口Agent的邻居协作矩阵

可以克服真实的非十字形、不规则交通路网特征导致的Agent之间协作复杂度问题。所述的交叉口Agent />

的邻居协作矩阵/>

，大小为/>

，/>

表示Agent的数量，/>

的第一行表示Agent />

索引的“独热”编码，第/>

行是Agent />

第/>

个邻居Agent的“独热”编码，L表示隐含特征向量

的长度，/>

表示所有Agent的隐含特征向量/>

拼接成的一个大小为/>

的特征矩阵。

S1014、交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响，从而得到交通信号控制器网络结构。

S102、训练Agent。

所述训练Agent，也就是Agent的学习过程，采用集中式训练分布式执行的学习框架，请参阅图3，步骤S102包括步骤S1021~S1023：

S1021、在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵；

S1022、交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作，交付给每个交叉口的信号灯去实施，并返回相应的奖励值给交通信号控制器；

需要说明的是，当路网扩展为多个交叉口后，将单Agent RL方法运用到多交叉口信号控制中，直接训练一个集中式Agent来决定所有路口的动作（即下一时刻的相位），但由于联合动作空间的维度诅咒，它不能很好地学习。因此，集中式学习方法在部署过程中面临可扩展性问题，很难在大规模的路网上应用。将MARL算法应用到TSC问题中，为每一个路口分别训练一个Agent，在集中式训练分布式执行的范式下，针对全局奖励的合作性多Agent问题，提出的深度MARL算法克服了在大规模交通路网中的扩展性问题。

但是，由于交通流量连续性，Agent在学习过程中的动态更新价值网络会造成非平稳性问题。为了克服Agent非平稳性问题带来的影响，提出了Agent之间的通信，以便利用相邻信息实现协调。但，过于充分的沟通方式成本高、效率低，而受限制的沟通方式可能会限制合作的范围。所以，Agent之间应该合理通信。

所述模型的通信和信息传播是用GNN建模的，使用的决策处理器是DGQ算法。需要注意的是，Agent之间的通信始终存在于所有阶段。在训练阶段，他们与邻居分享观测结构和奖励，来协调他们的目标网更新。在执行过程中，他们需要与邻居分享他们的观察结构，以选择一个行动。

Agent的学习过程的集中式训练分布式执行的学习框架不仅可以解决奖励分配问题，还可以解决MARL交通信号控制中的扩展性问题和Agent间学习的非平稳问题。

其中，集中训练与分散执行是多Agent规划的标准范式。在这种设置中，每个Agent在每个时间戳都做出决定，目标是为所有Agent实现相同的给定目标。

所述每个交叉口选择一个最优的信号相位动作，包括以下步骤：

S1022a、将每个交通信号控制器的价值函数

联合起来，统一输入到混合网络中，获得联合价值函数/>

；

S1022b、每个交通信号控制器隐性地获得自己的价值函数

，根据价值函数/>

进行动作选择。

所述混合网络是非常简单的求和函数；

联合价值函数

的表达式为：/>

，其中，/>

表示第i个交通信号控制器的价值函数。

所述以一定的概率为每个交叉口选择信号相位动作，包括：

在

的概率下，每个交叉口的Agent选择动作的准则是最大化自己局部的Q函数，最大化局部Q函数的公式：

；

；

S1023、交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性，完成交通信号控制器的训练，以得到交通信号控制模型。

所述在与环境的交互中进行学习，包括以下步骤：

S1023a、在训练阶段的每一时间戳

内，将训练数据的元组/>

存储在经验回放池D中；

S1023b、从经验回放池D中随机抽取大小为B的批次数据，通过图卷积网络进行端对端的训练以最小化损失函数L；

所述训练数据的元组

，其中，/>

表示所有交通信号控制器的本地观测集，/>

表示所有交通信号控制器的动作集，/>

表示下一时刻/>

所有交通信号控制器的本地观测集，/>

表示所有交通信号控制器的奖励集；

所述损失函数L的表达式为：

，/>

；

其中，B表示抽取的批次数据的大小，

表示第/>

个交通信号控制器的感知域组成的观测集合，/>

表示第/>

个交通信号控制器的动作，/>

表示评估网络的参数，/>

表示联合报酬，/>

表示折扣因子，/>

表示联合价值函数/>

最大时交通信号控制器的动作集合，/>

表示/>

时刻第/>

个交通信号控制器的感知域组成的观测集合，/>

表示/>

时刻第/>

个交通信号控制器的动作，/>

表示目标网络的参数。

实施例二：

本发明第二实施例提出一种交通信号控制模型的控制方法，其中，所述交通信号控制模型由实施例1所述的建立方法建立得到，所述控制方法包括步骤S201~S202：

S201，第

个交通信号控制器更新自己的Q网络；

S202，第

个交通信号控制器在t时刻采取的动作/>

。

其中，所述更新自己Q网络的方式，采用固定Q网络方式，同时训练评估网络和目标网络，所述评估网络和所述目标网络由值函数近似网络给出，所述更新自己Q网络的方式包括如下步骤：

S2011，第

放入经验回放池中；

其中，所述经验数据

中，/>

表示交通信号控制器的状态，/>

表示交通信号控制器的动作，/>

表示奖励，/>

表示下一个状态，/>

表示回合结束标志。

需要说明的是，本发明将多交叉口交通信号控制问题定义为完全合作的多智能体强化学习任务，将整个过程建模为分布式部分可观测马尔可夫决策过程。在任意时刻

，Agent />

获得本地观测/>

，采取动作/>

，并获得立即的奖励值/>

，环境转移到下一时刻的状态/>

，目标是最大化所有Agent的奖励值的期望。

交叉口观测

：对任意特定的交叉路口第/>

，包含所有交通信号控制器的观测状态空间；

向量

描述交叉路口特定时刻/>

的环境状态，包含如下成分：/>

, />

,

, />

, />

和/>

。其中，/>

表示第/>

个交通信号控制器，/>

维的向量；/>

也是一个/>

开始，速度小于/>

的时间；/>

表示入口车道所有车辆的平均延时，车道延时的数值等于/>

减去（平均车辆速度/车道最大允许速度），单位为/>

；/>

是交通灯的当前相位；/>

是当前相位的持续时间，/>

表示维度。

动作

个交通信号控制器的动作被定义为某一特定路口/>

的可选有限相位集合。在行动完成之前，第/>

个交通信号控制器将计算出动作价值函数

并选择一个具有最大行动值的行动作为在时间戳/>

表示第/>

个交通信号控制器在/>

时刻的观测，

表示第/>

个交通信号控制器在/>

时刻采取的动作。

奖励R：

时刻第/>

个交通信号控制器获得由环境反馈的立即奖励值/>

；

和/>

的排放。

根据柴油汽车模态排放模型，燃油消耗计算如下：

；

；

；

其中，

为燃料使用率，单位为/>

；/>

为发动机输出功率，单位为/>

；/>

为发动机摩擦系数；/>

为发动机转速，单位为转/>

；/>

为发动机排量，单位为升；/>

为柴油机指示效率的衡量标准；/>

和/>

为系数，/>

因此，一氧化碳和氮氧化物的排放率估计为：

/>

其中，

、/>

和/>

、/>

是通过回归和校准程序确定的发动机排放系数。

综上所述，奖励函数的定义为：

；

其中，

、/>

是权重系数，/>

是交叉口/>

的进口车道数目，/>

是/>

时刻沿各进口车道测量的队列长度，/>

是/>

和/>

都是在时间/>

时测量的。

实施例三：

本发明第三实施例以

的合成交通路网的实验场景为例来具体阐述本发明的模型，模型的建立包括步骤S301至步骤S302。

请参阅图4所示，

的合成交通路网实验场景。/>

的合成交通路网实验场景由16个受控的交叉口组成，每个交叉口有6条进口道，其中，东西向为双车道的主干道，限速70

，南北向为单车道的单行道，限速40/>

。为了模拟路网的真实车辆输入，在仿真开始时刻，四条主要车流x1-x9、x2-x10、x3-x11、x4-x12以出发地-目的地的形式形成了Router1（路由 1），另外四条车流x5-x13、x6-x14、x7-x15、x8-x16形成Router2（路由 2）。在仿真开始15分钟后，Router1（路由 1）和Router2（路由 2）的车流量开始减少，其对流Router3（路由 3）和Router4（路由 4）开始产生。

假设合成路网中的所有交叉口都是正常的“十字形”交叉口，都有左转车道，每个交叉口的可选相位设置分为红绿信号组合的四个阶段（如图5所示）。E-W直行和右转阶段（第三相位），E-W左转（第四相位），S-N直行和右转阶段（第一相位），以及S-N左转阶段（第二相位）。在一个四阶段的合成道路网络中，每个Agent都有相同的行动集，

。表1说明了行动、阶段、行动编码器和交通信号序列之间的对应关系。例如，在时间戳t，行动a1，代表图6中的相位I，被Agent编码为“0”，而对应于每个车道的交通信号灯序列可以给定为“rrrGGGrrrGGGr”，在交叉路口i，有14个进口车道。这里，“r”代表红色信号，“G”代表绿色信号。“rrrGGGrrrGGGr”的序列可以被分割成3,4,3,4个字符的子序列。前三个字符，“rrr”代表从北方进入交叉口的三条车道。接下来的四个字符，“GGGr”代表从东面进入十字路口的四条车道，代表“G”的右转和两条直行车道信号状态，以及“r”的左转车道信号状态。接下来的三个和四个字符与前面的相似，分别代表从南边和从西边进入交叉口的方向。

表1 行动、阶段、行动编码器和交通信号序列之间的对应关系

S301、设计Agent网络结构。

Agent网络结构设计包括交通状态编码网络设计和图卷积层设计，具体的设计方法包括：

S3011、对交通状态进行编码；

S3012、编码后的交通状态根据交叉口邻接矩阵，被传入图卷积网络中提取隐含特征；

S3013、生成Agent领域的整体环境特征；

S3014、Agent在所述Agent领域的整体环境特征上模拟领域的影响。

S302、训练Agent。

训练Agent，也就是Agent的学习过程，采用集中式训练分布式执行的学习框架，所述学习过程包括如下步骤：

S3021、在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵；

S3022、所述交通信号控制器根据所述交通状态数据以一定概率为每个交叉口选择一个最优的信号相位动作，交付给每个交叉口的信号灯去实施该动作，并返回某个特定的奖励值给交通信号控制器；

S3023、所述交通信号控制器就步骤S3021和步骤S3022所述的与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性。

需要说明的是，为了充分验证所述模型的有效性，本实施例将所述GCQN-TSC模型与传统的交通信号控制模型，如Max-Pressure、RL交通信号控制模型，如Independent Q-Learning Deep Neural Network（IOL-DNN）、Independent Advantage Actor Critic（IA2C）、Multi-Agent Advantage Actor Critic（MA2C）进行对比。其中，IA2C 采用基于策略的 Advantage Actor-Critic 学习算法。MA2C 信号控制方法采用基于 RL 的Advantage-Actor-Critic 方法控制交通信号，并引入空间折扣因子减小邻居交叉口的状态信息和奖励信号的维度，以便各本地 Agent 更专注于改善包含邻居交叉口在内的交通状况。

请参阅图6所示，为

的合成交通路网中IOL-DNN、IA2C、MA2C和GCQN-TSC四种基于RL的交通信号控制模型的训练曲线图。在训练过程中，由于Max-Pressure这类传统的信号控制方法没有训练的过程，所以图中只显示了四种基于RL控制方法的训练曲线，每种RL方法分别训练了一百万次。其中，图中的实线是每次训练过程的平均奖励值。一般来说，随着训练次数的增加，Agent会从累积的经验中学习，达到最优值，平均奖励值的曲线总体呈上升趋势。图6中，IQL-DNN在整个训练过程中没有收敛，没有将该曲线完全展示出来，这可能是由于IQL-DNN中的神经网络在估计Q值是发生了过拟合。所述GCQN-TSC模型在训练初期就出现陡峰增加，取得了较优的训练效果，并展示了最强和最稳定的学习能力，是因为所述GCQN-TSC模型不仅能感知到多种不同类型的车流并加以区分，还能感知更大范围领域的交通状况。

请参阅图7所示，为合成路网中交叉口的平均队列长度随仿真时间变化的曲线图。需要说明的是，在评估实验中，平均队列长度是交通路网中所有交叉口的队列长度之和除以交叉数目所得。由于平均队列长度能反映交通路网中整体拥堵情况，因此采用平均队列长度作为评价模型的准则。总体上，IQL-DNN、Max-Pressure、MA2C和IA2C四种模型的平均队列长度呈逐步增加的趋势，这是由于在15分钟以后Router 3和Router 4生成车流量明显增加，越来越多的车流量输入到路网中导致的。所述GCQN-TSC模型的平均队列长度明显小于其他四种方法，并且在2000秒以后能维持一个平衡的排队长度。

表2总结了各种基于车辆测量的比较方法在合成交通路网中的等待时间、车辆平均速度、平均停车次数、燃料消耗和一氧化碳和氮氧化合物排放方面的性能。

表2 合成路网中基于车辆的测量结果

可以看到，由于采用IQL-DNN方法的车辆在交叉口走和停的频率很高，导致采用IQL-DNN方法的车辆一氧化碳和氮氧化合物排放最高，这是因为IQL-DNN独立地学习交通状况，和受到高方差的影响。在合成路网的GCQN-TSC模型控制的交通场景中，车辆的等待时间、停车时间、油耗最低，车辆平均速度仅次于MA2C方法。所以，与其他方法相比，GCQN-TSC模型在车辆能源消耗方面总体优于其他方法，能有效减少交叉口车辆的平均等待时间，减少停车次数，降低尾气排放，提高通行效率。这是由于所述GCQN-TSC模型的图协作注意力机制，学习领域的注意力不但不会减慢模型的收敛速度，而且使得交叉口Agent从全局角度来优化城市路网中的交叉口信号控制。

实施例四：

本发明第四实施例以中国浙江省杭州市下沙区某真实路段的48个交叉口的实验场景为例来具体阐述本发明的模型，该模型的建立包括步骤S401至步骤S402。

在本实施例的真实交通路网中，有多种道路和交叉口类型，共有48个控制路口，其中41个是两相交叉口，6个是三相交叉口，1个是五相交叉口。此外，每个交叉口的进口出口车道数量都是不一样的。实验中的车流量取自杭州市交通管理局数据库中2020年9月17日下午5:00至6:00时段的交通流量。该车流量是由安装在道路交叉口的摄像机收集的真实交通流量。其中，该时段正值下班高峰期，车流量很大。现实复杂路网中，不同路口的信号相位数量和相位顺序由实际情况决定。

S401、设计Agent网络结构。

S4011、对交通状态进行编码；

S4012、编码后的交通状态根据交叉口邻接矩阵，被传入图卷积网络中提取隐含特征；

S4013、生成Agent领域的整体环境特征；

S4014、Agent在所述Agent领域的整体环境特征上模拟领域的影响。

S402、训练Agent。

S4021、在每个时间步长内受控交通路网中所有交通信号控制器（Agent）采集各个交叉口的交通状态数据和对应的邻接矩阵；

S4022、所述交通信号控制器根据所述交通状态数据以一定概率为每个交叉口选择一个最优的信号相位动作，交付给每个交叉口的信号灯去实施该动作，并返回某个特定的奖励值给交通信号控制器；

S4023、所述交通信号控制器就步骤S4021和步骤S4023所述的与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性。

请参阅图8所示，为Max-Pressure、IOL-DNN、IA2C、MA2C和GCQN-TSC五种交通信号控制模型中车辆的平均队列长度随着仿真时间变化的曲线图。其中，除了IQL-DNN，两种基于RL的TSC方法都比传统的Max-Pressure方法表现更好，IA2C和MA2C都能在2800秒左右的时间内减少队列长度的峰值。而GCQN-TSC模型不仅平均队列长度的峰值远低于其他方法，而且能在更早的2300秒左右达到拐点并逐渐减少平均排队长度，这说明了GCQN-TSC模型能充分利用路网中的时空特征，有效遏制拥堵的形成和持续，更早地疏散拥堵，从而降低整个路网的拥堵。

表3是Max-Pressure、IOL-DNN、IA2C、MA2C和GCQN-TSC五种模型在真实路网上的结果表。IA2C和MA2C的燃料消耗相比于Max-Pressure模型分别下降了15.7%和23.0%，尾气排放减少了9.7%和24.8%，但GCQN-TSC模型在两者的基础上进一步减少，燃料消耗和尾气排放分别减少了43.7%和35.5%，是所有模型中减少幅度最大的。

表3 杭州市实际路网中基于车辆的测量结果

可以看到，GCQN-TSC模型超过了所有其他模型，实现了全时段最低的平均队列长度，以及较低的燃料消耗和较少的CO和NOx气体排放。这都归功于对车辆排放的精确感知和其他交叉口信号的更好协作。

相比于以往的方法，本发明创造性地把

时刻采取的动作/>

纳入/>

时刻输入，使所产生的隐藏状态/>

蕴含着的交叉口/>

的局部交通环境信息更加丰富。请参阅图9所示，为隐藏状态定义的影响的结果图，给出了所有基于RL的模型在隐藏状态表示中，有无将/>

集成到/>

中的性能比较。从图中可以看出，所有基于RL的模型，在隐藏状态下集成/>

的模型总是比没有集成的模型好。可以得出，整合Agent之间在时间t上的行动的关系确实有助于学习合作。这要归功于图卷积，它可以有效感知相邻Agent在上一时刻采取了什么行动，以及该行动如何导致目前的交通状态，作为一个潜在的特征。随着接受领域的逐渐扩大，潜在特征变得更加可学。

综上，本发明实施例的交通信号控制模型的建立方法及控制方法，通过交通信号控制器网络结构的设计，使建立的交通信号控制模型能够提取交通路网实时的时空状态数据，解决了领域交叉口同等对待的弊端，同时，多层堆叠的图卷积核使目标交叉口的交通信号控制器在扩大感知领域的同时不增加通信负荷；基于交通信号控制模型提出的控制方法从全局优化的角度评估交通信号控制器执行的动作，并不断更新以获得最优执行策略。本发明所提出的交通信号控制模型具有很好的鲁棒性、最优性和可扩展性，能准确捕获交通信号交通信号控制器相互作用的方式，汇总从协作交通信号控制器处获得的信息并做出网络级的信号优化决策，性能优于传统交通信号控制方法和当前最先进的MARL控制方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种交通信号控制模型的建立方法，其特征在于，包括步骤S101~S102：

S101，设计交通信号控制器网络结构；

其中，步骤S101包括步骤S1011~S1014：

S1011，对交通状态进行编码；

S1013，生成交通信号控制器领域的整体环境特征；

S102，训练交通信号控制器；

其中，步骤S102包括步骤S1021~S1023：

S1023，交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性，完成交通信号控制器的训练，以得到交通信号控制模型；

步骤S1011具体包括：

S1011a，将原始的本地观测向量

嵌入多层感知机得到中间值/>

；

S1011b，将

和/>

时刻采取的动作/>

共同作为门循环单元的输入，得到隐含特征向量/>

；

其中，中间值

的表达式为：/>

，/>

表示第/>

个交通信号控制器在/>

时刻的本地观测向量，/>

表示权重矩阵，/>

表示偏置向量，/>

函数表示具有Relu非线性激活函数的单层感知机；

隐含特征向量

的表达式为：/>

，/>

表示第/>

个交通信号控制器在/>

时刻采取的动作，GRU表示门循环单元；

步骤S1012具体包括：

S10121b，在每一个注意力头

中，将所有输入特征的值表示都关系加权后相加；

S10121c，将第

个交通信号控制器的/>

个注意力头的输出进行串联，再输入函数/>

，产生卷积层的输出/>

；

其中，

的表达式为：/>

，其中，

表示权重矩阵，/>

表示交叉口/>

的所有邻居交叉口，/>

表示/>

和/>

的集合，/>

表示对于任一注意力头/>

，交叉口/>

对交叉口/>

的重要性程度，/>

表示注意力头/>

的值/>

的权重矩阵，/>

表示第/>

个交通信号控制器在/>

时刻的隐含特征向量，/>

表示sigmoid的参数；

的表达式为：/>

，/>

表示缩放系数，/>

表示注意力头/>

的查询/>

的权重矩阵，/>

表示注意力头/>

的键/>

的权重矩阵，/>

表示转置符号，/>

表示普通参数，/>

表示第/>

个交通信号控制器在/>

时刻的隐含特征向量；

步骤S1012还包括：

S10122a，第二层卷积层提取合并交叉口

附近区域的交通环境特征，生成隐含的特征向量/>

，交叉口/>

附近区域包括交叉口/>

的所有邻居交叉口/>

；

S10122b，堆叠多个卷积层的交通环境特征，生成隐含的特征向量；

步骤S1013具体包括：

S1013a，构建交叉口

的邻居协作矩阵/>

；

S1013b，将所有交通信号控制器的隐含特征向量

拼接成一个大小为/>

的特征矩阵/>

；

S1013c，得到交叉口

的邻居协作区域的特征矩阵/>

。

2.根据权利要求1所述的一种交通信号控制模型的建立方法，其特征在于，步骤S1022具体包括：

S1022a，将每个交通信号控制器的价值函数

联合起来，统一输入到混合网络中，获得联合价值函数/>

；

S1022b，每个交通信号控制器隐性地获得自己的价值函数

，根据价值函数/>

进行动作选择；

其中，联合价值函数

的表达式为：/>

，其中，/>

表示第/>

个交通信号控制器的价值函数。

3.根据权利要求2所述的一种交通信号控制模型的建立方法，其特征在于，步骤S1023具体包括：

S1023a，在训练阶段的每一时间戳

内，将训练数据的元组/>

存储在经验回放池/>

中；

S1023b，从经验回放池

中随机抽取大小为/>

的批次数据，通过图卷积网络进行端对端的训练以最小化损失函数/>

；

所述训练数据的元组

，其中，/>

表示所有交通信号控制器的本地观测集，

表示所有交通信号控制器的动作集，/>

表示下一时刻/>

所有交通信号控制器的本地观测集，/>

表示所有交通信号控制器的奖励集；

所述损失函数

的表达式为：

，/>

；

其中，

表示抽取的批次数据的大小，/>

表示第/>

个交通信号控制器的感知域组成的观测集合，/>

表示第/>

个交通信号控制器的动作，/>

表示评估网络的参数，/>

表示联合报酬，

表示折扣因子，/>

表示联合价值函数/>

最大时交通信号控制器的动作集合，/>

表示

时刻第/>

个交通信号控制器的感知域组成的观测集合，/>

表示/>

时刻第/>

个交通信号控制器的动作，/>

表示目标网络的参数。

4.一种交通信号控制模型的控制方法，其特征在于，所述交通信号控制模型由权利要求1-3任一项所述的建立方法建立得到，所述控制方法包括步骤S201~S202：

S201，第

个交通信号控制器更新自己的/>

网络；

S202，第

个交通信号控制器在/>

时刻采取的动作/>

。

5.根据权利要求4所述的交通信号控制模型的控制方法，其特征在于，步骤S201具体包括：

S2011，第

个交通信号控制器采用固定/>

网络方式，同时训练评估网络和目标网络，评估网络与交通路网环境进行交互，并把交互所得的经验数据/>

放入经验回放池中；

其中，所述经验数据

中，/>

表示交通信号控制器的状态，/>

表示交通信号控制器的动作，/>

表示奖励，/>

表示下一个状态，/>

表示回合结束标志。