CN116597672A

CN116597672A - 基于多智能体近端策略优化算法的区域信号灯控制方法

Info

Publication number: CN116597672A
Application number: CN202310714706.3A
Authority: CN
Inventors: 刘鹏; 张真; 郑圣杰; 张堃; 曹旭东; 时晨皓
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-08-15
Anticipated expiration: 2043-06-14
Also published as: CN116597672B

Abstract

本发明公开了基于多智能体近端策略优化算法的区域信号灯控制方法，该方法包括以下步骤：将交通流量信息分别输入各自交叉口的策略网络；将区域中的多个交叉口配时方案进行数组合并；获取全局的交通流量状态和配时方案集合进行数组合并；将新的全局状态集合输入到价值网络；将局部交通流量信息输入到更新后的策略网络中；利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数；优化策略网络和价值网络参数；通过不断的迭代，价值函数鼓励策略函数学习到最好的配时方案；输出不同时刻中配时方案秒数。本发明通过增加其他交叉口的配时方案有效的提高每个交叉口相互之前的协作。

Description

基于多智能体近端策略优化算法的区域信号灯控制方法

技术领域

本发明涉及信号灯控制领域，具体来说，涉及基于多智能体近端策略优化算法的区域信号灯控制方法。

背景技术

信号灯，也称交通信号灯，是一种交通管理设施，用于指示行人和车辆何时可以通行或停止。它通常由红、黄、绿三个颜色的信号灯构成，在道路交通中广泛应用。红灯表示停止，黄灯表示警告，绿灯表示行驶。

随着社会经济的持续发展和城市化进程加速，机动车保有量不断增加。而与此同时，城市交通道路的建设却没能跟上机动车保有量的快速增长，城市路径网络瓶颈限制了城市内部出行效率的提高，这是城市交通拥堵问题的主要根源之一。

对于城市交通拥堵日益显著的情况下，主要是三点问题：

1、道路宽度过窄，不能满足车辆通行需求，容易堵塞交通；道路布局不合理，如拥堵区域道路设计繁琐、走廊式交通流未得到合理的引导等，使车辆交错穿插，浪费了很多时间；路面的坡度、高低之间的起伏变化不尽人意，直接影响行车稳定性和效率。

2、占用非机动车道、行人道等造成通行障碍；违反停车规定将车辆随便停在道路边缘或者商店门前，尤其是一些交叉口人流量大的地处更是会对路面交通秩序有巨大影响；逆向行驶、压线超车、超速行驶等恶劣行为，严重影响交通流畅程度，也极易导致交通事故的发生。

3、红绿灯时长设置不合理。当某个方向交通流量大或者某个十字路口易于产生冲突，则需要调整红绿灯时长；无信号灯或信号灯损坏。一些道路交通量较小的交叉口缺乏信号灯，导致交通通畅度降低；如果遇到灯损坏且及时未予修复，则易发生交通事故。

当前信号灯控制不合理中，对于某个交叉口的设计，有较好的传统方法进行合理化，但对于区域中不同交叉口如何配合最大化疏通车流量，目前算法比较匮乏或者优化效果较差。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于多智能体近端策略优化算法的区域信号灯控制方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

基于多智能体近端策略优化算法的区域信号灯控制方法，该区域信号灯控制方法包括以下步骤：

S1、获取每个交叉口的交通流量信息；

S2、将交通流量信息分别输入各自交叉口的策略网络，得到多个交叉口的配时方案；

S3、将区域中的多个交叉口配时方案进行数组合并，得到配时方案集合；

S4、获取全局的交通流量状态和配时方案集合进行数组合并，得到新的全局状态集合；

S5、将新的全局状态集合输入到价值网络，并通过价值网络的计算，得到对整体交通路网和每个交叉口配合的配时方案评价；

S6、将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络，分别得到两个配时方案的概率分布，将其做比值，通过不断的采样，更新前的策略概率分布会越来越接近更新后的策略概率分布，从而得到配时方案的重要性采样；

S7、将局部交通流量信息输入到更新后的策略网络中，得到配时方案概率分布，并计算配时方案概率分布的熵值；

S8、利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数，并将这两个损失函数进行相加；

S9、利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ)，由于价值网络损失函数和策略网络损失函数共同目标是最小化，所以可以进行相加，使用adam进行优化，优化策略网络和价值网络参数；

S10、通过不断的迭代，损失函数逐渐收敛，价值函数鼓励策略函数学习到最好的配时方案；

S11、将每个交通流量信息交通流量信息分别输入到优化后的策略网络中，并输出不同时刻中最佳的配时方案秒数。

进一步的，所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。

进一步的，所述将交通流量信息分别输入各自交叉口的策略网络，得到多个交叉口的配时方案包括以下步骤：

S21、将当前交叉口局部状态输入全连接层中，并提取状态信息；

S22、将状态信息输入到循环神经网络中，并再次经过全连接层，计算状态信息的均值和方差；

S23、通过均值和方差得到配时方案中具体的秒数。

进一步的，所述通过均值和方差得到配时方案中具体的秒数包括以下步骤：

S231、通过均值和方差模拟出信号控制配时秒数的正态分布；

S232、通过采样的方式，得到每个相位具体秒数；

S233、根据每个相位具体秒数得到交叉口的配时方案。

进一步的，所述将新的配时方案集合输入到价值网络，并通过价值网络的计算，得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤：

S51、将全局路网状态和路网中所有交叉口的信号控制配时方案集合输入价值网络中，并通过全连接层进行提取状态信息；

S52、通过循环神经网络，获取历史信息，并决策当前时刻信号配时方案；

S53、通过全连接层，把状态信息压缩成配时方案集合，得到当前时刻路网状态和路网中所有交叉口信号控制配时方案搭配中速度指标的期望奖励。

进一步的，所述将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络，分别得到两个配时方案的概率分布，将其做比值，得到配时方案的重要性采样包括以下步骤：

S61、将局部交叉口的流量信息与相连的交叉口流量信息输入到策略网络中，得到配时方案的均值和方差；

S62、通过均值和方差得到，当前网络输出的配时方案正态分布，通过正态分布采样的方式，得到当前的配时方案；

S63、在对当前的配时方案进行计算在正态分布中的概率，计算公式如下：

其中a是配时方案，μ是策略网络输出的均值，σ是策略网络输出的方差，f(a)是正态分布概率密度函数，log(f(a))是f(a)的对数；

S64、获取更新前策略网络输出的配时方案正态分布概率；

S65、将更新前配时方案概率与更新后的配时方案概率做比值，作为策略网络更新的一个系数；

S66、通过不断的更新与采样，更新前的策略网络与更新后的策略网络输出的配时方案概率逐渐接近，则该过程为重要性采样。

进一步的，所述策略网络的损失函数的计算公式如下：

Loss(θ)＝E[min(r(θ)A,cilp(r(θ),1-ε,1+ε)A)]-σO[π_θ(a|σ)]

式中，E为期望值，min为最小值，θ为策略网络的参数，r(θ)为采样值，π_θ网络参数更新之后的策略网络，a策略网络输出的动作，S为当前的状态，S[π_θ(a|σ)]为当前配时方案下的路网状态策略路网输出配时方案的熵值，cilp为截取，A为价值网络输出的期望奖励，ε为超参数，σ为控制熵系数的一个超参数。

进一步的，所述价值网络的损失函数的计算公式如下：

Loss(ω)＝MSE(Q_ω(s,a),r+γQ_ω(s′,a′))

式中，MSE为方差，Q为价值网络，ω为价值网络参数，s为当前全局状态，s′为下一步全局状态，a为交叉口的配时方案，a′为下一时刻交叉口配时方案组合，r为状态下获取的奖励值，γ为超参数。

进一步的，所述利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ)，由于价值网络损失函数和策略网络损失函数共同目标是最小化，所以可以进行相加，使用adam进行优化，优化策略网络和价值网络参数包括以下步骤：

S91、利用adam优化器训练损失函数中价值网络输出的期望奖励；

S92、当期望奖励增大，策略网络对该配时方案给予的概率增加；

S93、当期望奖励达到稳定状态，输出配时方案的全局最优解。

本发明的有益效果为：本发明通过对每个交叉口相邻的交通流信息输入策略网络中，使得当前交叉口能够感受到周围交通流的压力，并对每个交叉口配置单独的策略网络，加速每个交叉口计算配时方案的速度，且单独的策略网络对当前交叉口的不同状态处理更有针对性，对于价值网络中，本发明通过输入全局交通流状态和配时方案集合对整体交叉口之间的协作进行评估，通过不断的迭代，不断提高速度指标的期望值，从而有效的提高不同交叉口之间的协作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法的流程图；

图2是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中车道设计图；

图3是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中四个交叉口展示图；

图4是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中策略网络图；

图5是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中价值网络图；

图6是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中整体网络图；

图7是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中平台下发配时方案过程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了基于多智能体近端策略优化算法的区域信号灯控制方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法，该区域信号灯控制方法包括以下步骤：

S1、获取每个交叉口的交通流量信息；

在一个实施例中，所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。

在一个实施例中，所述将交通流量信息分别输入各自交叉口的策略网络，得到多个交叉口的配时方案包括以下步骤：

S23、通过均值和方差得到配时方案中具体的秒数。

在一个实施例中，所述通过均值和方差得到配时方案中具体的秒数包括以下步骤：

S231、通过均值和方差模拟出信号控制配时秒数的正态分布；

S232、通过采样的方式，得到每个相位具体秒数；

S233、根据每个相位具体秒数得到交叉口的配时方案。

具体的，如图4所示，策略网络中得到两个四维向量(相位的长度)：mu(均值)与sigma(方差)，mu为预测每个相位信号灯秒数的均值，均值由tanh函数进行激活，激活后再对值进行处理，得到规定时间内的均值mu＝35*mu+50，我们规定每个相位时间范围在15～85。sigma为预测每个相位信号灯秒数的方差，方差由softplus函数进行激活。通过均值和方差模拟出信号控制配时秒数的正态分布，然后再通过采样的方式，得到每个相位具体秒数，从而得到交叉口的配时方案。

S5、将新的配时方案集合输入到价值网络，并通过价值网络的计算，得到对整体交通路网和每个交叉口配合的配时方案评价；

在一个实施例中，所述将新的配时方案集合输入到价值网络，并通过价值网络的计算，得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤：

S51、将全局路网状态和路网中所有交叉口的信号控制配时方案的动作集合输入价值网络中，并通过全连接层进行提取状态信息；

S52、通过循环神经网络，用于记忆历史信息，并决策当前时刻信号配时方案；

具体的，如图5所示，价值网络主要有两层全连接层与一层循环神经网络组成，将全局路网状态以及路网中所有交叉口的信号控制配时方案输入到价值网络中，得到整体的路网的评估。

S6、将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络，分别得到两个配时方案的概率分布，将其做比值，得到配时方案的重要性采样；

在一个实施例中，所述将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络，分别得到两个配时方案的概率分布，将其做比值，得到配时方案的重要性采样包括以下步骤：

S64、获取更新前策略网络输出的配时方案正态分布概率；

在一个实施例中，所述策略网络的损失函数的计算公式如下：

Loss(θ)＝E[min(r(θ)A,cilp(r(θ),1-ε,1+ε)A)]-σS[π_θ(a|o)]

式中，E为期望值，min为最小值，θ为策略网络的参数，r(θ)为采样值，π_θ网络参数更新之后的策略网络，a策略网络输出的动作，S为当前的状态，S[π_θ(a|o)]为当前配时方案下的路网状态策略路网输出配时方案的熵值，cilp为截取，A为价值网络输出的期望奖励，ε为超参数，σ为控制熵系数的一个超参数。其中熵值计算公式为：S[π_θ(a|σ)]＝Σ_a|oπ(a|σ)log(π(a|σ))。

具体的，如图6所示，r(θ)为采样值，其π_θold为网络参数更新之前的策略网络，

在一个实施例中，所述价值网络的损失函数的计算公式如下：

Loss(ω)＝MSE(Q_ω(s,a),r+γQ_ω(s′,a′))

S9、利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ)，由于价值网络损失函数和策略网络损失函数共同目标是最小化，所以可以进行相加，使用adam进行优化，优化策略网络和价值网络参数。

在一个实施例中，所述利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ)，由于价值网络损失函数和策略网络损失函数共同目标是最小化，所以可以进行相加，使用adam进行优化，优化策略网络和价值网络参数包括以下步骤：

具体的，随着训练次数的增加，价值网络的预测期望奖励值越来越来准确，更加准确的判断当前的路网流量信息与当前的配时方案搭配是否较优，如果较优，价值网络输出较高的期望奖励，而策略网络的损失函数也受期望奖励的影响，因为策略网络的损失函数中有一个正系数为A，即价值网络输出的期望奖励，当期望奖励越大，策略网络对该配时方案给予的概率越大。随着不断训练，近端策略网络的参数会达到稳定状态，输出的配时方案也是局部最优解或者是全局最优解。

具体的，本发明中环境如图2-图3所示：

每个交叉口基本情况：

(1)、车道：

每个交叉口车道设计如下：

东进口道：每个方向车道为3车道，一个左转，一个直行，一个直右；

东出口道：每个方向出口道为3车道，在进口道100m，有扩展车道，左转为扩展车道；

西进口道：每个方向车道为4车道，一个左转，两个直行，一个右转；

西出口道：每个方向出口道为2车道，在进口道100m，有扩展车道，左转为扩展车道；

南进口道：每个方向车道为3车道，一个左转，一个直行，一个直右；

南出口道：每个方向出口道为2车道，在进口道100m，有扩展车道，左转为扩展车道；

北进口道：每个方向车道为3车道，一个左转，一个直行，一个直右；

北出口道：每个方向出口道为2车道，在进口道100m，有扩展车道，扩展车道为左转车道。

(2)、相位：每个交叉口均为四相位，相位1：南北直右，相位2：南北左转，相位3：东西直右，相位4：东西左转。

(3)、在某市选取了四个相邻交叉口统计流量，用OD模型的方法将流量模拟某市真实流量情况。

状态用于输入近端策略网络中，用于训练，从路网信息中提取有用的数据，用于得到每个相位具体的秒数。

状态格式：

(1)流量：当前交叉口的每个进口道的小时流量信息以及相连交叉口每个进口道的小时流量信息作为当前交叉口的状态信息；

(2)距离：当前交叉口与其他相邻交叉口距离；

(3)相位：当前交叉口距离及其他相邻交叉口的相位设计；

(4)周期：当前交叉口周期及其他相邻交叉口的周期秒数；

首先对上述数据进行归一化，然后对数据进行压平，组成一维数组作为输入状态。

动作是近端策略网络输出的结果，得到每个相位的具体秒数，从而确定每个交叉口的信号控制配时方案。

动作：每个相位具体秒秒数。在此之前，我们已经通过对交叉口调研规划，设计并确定该交叉口的相位。每个交叉口都为四相位，相位1：南北直右，相位2：南北左转，相位3：东西直右，相位4：东西左转。后面实验我们默认相位为四相位。对于这种四相位的动作，如配时为[30，17，25，16]，分别代表南北直右30秒，南北左转17秒，东西直右25秒，东西左转16秒。

近端策略网络可以从路网状态中提取的有效的信息，输出每个交叉口的配时方案，再通过奖励反馈，判断当前路网整体的配时方案搭配是否较优。

奖励：

正向奖励：

(1)每个车辆时刻平均速度(m/s)。

负面奖励：

(1)左转时间大于40s，惩罚值：-|cycle-120|/5。

(2)总周期大于180或小于60，惩罚值：-10。

其中，Cycle是周期的意思，一个红绿灯的周期

此外，如图7所示，在平台下发过程中，首先接收到平台发出的区域优化请求，然后算法对请求进行确认，算法开始接收平台区域交叉口的布局以及交通流量和车辆速度的状态信息，区域优化算法再对这些信息进行处理，然后通过网络计算，最终得到最佳的每个交叉口配时方案，然后主动发送给平台，平台接收到配时方案后，下发给信号机，修改信号机上的周期、方案等信息，最终展现在红绿灯上。

实验的数据如表1所示：

表1为原始方案为该交叉口的实际信号控制配时方案

综上所述，借助于本发明的上述技术方案，本发明通过对每个交叉口相邻的交通流信息输入策略网络中，使得当前交叉口能够感受到周围交通流的压力，并对每个交叉口配置单独的策略网络，加速每个交叉口计算配时方案的速度，且单独的策略网络对当前交叉口的不同状态处理更有针对性，对于价值网络中，本发明通过输入全局交通流状态和配时方案集合对整体交叉口之间的协作进行评估，通过不断的迭代，不断提高速度指标的期望值，从而有效的提高不同交叉口之间的协作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，该区域信号灯控制方法包括以下步骤：

S1、获取每个交叉口的交通流量信息；

2.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。

3.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述将交通流量信息分别输入各自交叉口的策略网络，得到多个交叉口的配时方案包括以下步骤：

S22、将状态信息输入到循环神经网络中，获取历史信息，并再次经过全连接层，计算状态信息的均值和方差；

S23、通过均值和方差得到配时方案中具体的秒数。

4.根据权利要求3所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述通过均值和方差得到配时方案中具体的秒数包括以下步骤：

S231、通过均值和方差模拟出信号控制配时秒数的正态分布；

S232、通过采样的方式，得到每个相位具体秒数；

S233、根据每个相位具体秒数得到交叉口的配时方案。

5.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述将新的全局状态集合输入到价值网络，并通过价值网络的计算，得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤：

6.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络，分别得到两个配时方案的概率分布，将其做比值，得到配时方案的重要性采样包括以下步骤：

S64、获取更新前策略网络输出的配时方案正态分布概率；

7.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述策略网络的损失函数的计算公式如下：

Loss(θ)＝E[min(r(θ)A,cilp(r(θ),1-ε,1+ε)A)]-σO[π_θ(a|σ)]

式中，E为期望值，min为最小值，θ为策略网络的参数，r(θ)为重要性采样值，a策略网络输出的动作，O为当前的交叉口局部状态，cilp为截取，A为价值网络输出的期望奖励，ε为超参数，S[π_θ(a|σ)]为当前配时方案下的路网状态策略路网输出配时方案的熵值，π_θ网络参数更新之后的策略网络，σ为控制熵系数的一个超参数。

8.根据权利要求7所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述价值网络的损失函数的计算公式如下：

Loss(ω)＝MSE(Q_ω(s,a),r+γQ_ω(s′,a′))

9.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法，其特征在于，所述利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ)，由于价值网络损失函数和策略网络损失函数共同目标是最小化，所以可以进行相加，使用adam进行优化，优化策略网络和价值网络参数包括以下步骤：