CN116994444B

CN116994444B - 一种交通灯控制方法、系统及存储介质

Info

Publication number: CN116994444B
Application number: CN202311243923.5A
Authority: CN
Inventors: 徐小龙; 张骁
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-12
Anticipated expiration: 2043-09-26
Also published as: CN116994444A

Abstract

本发明公开了一种交通灯控制方法、系统及存储介质，本发明采用的控制模型中，将上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值降维后进行全局传递，不仅解决了局部可见性问题，而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题，根据全局信息和当前时刻各交叉口的交通信息实现交通灯相位控制，可投入实际应用环境。

Description

一种交通灯控制方法、系统及存储介质

技术领域

本发明涉及一种交通灯控制方法、系统及存储介质，属于多智能体强化学习、深度学习和交通仿真技术领域。

背景技术

目前很多学者将多智能体深度强化学习方法运用到交通灯控制中，具体是将每个交叉口视作一个独立的智能体，将交叉口的交通信息（如车流信息、拥堵情况等）视作状态，交通信号灯的相位视作动作。但是对于单个智能体而言，可观察到的环境不是全局环境，而是每个交叉口附近的局部环境，这种局部可见性直接导致了环境变得不平稳，间接使得智能体策略难以收敛以及强化学习的经验回放方法不再适用，并且目前的大多数研究，建立在智能体能够实时全局通信的假设前提下，但是在真实环境中，由于通信之间的延时问题，智能体难以实时的获取较远处其他交叉口信息，这导致多智能体深度强化学习方法难以投入实际应用环境。

发明内容

本发明提供了一种交通灯控制方法、系统及存储介质，解决了背景技术中披露的问题。

为了解决上述技术问题，本发明所采用的技术方案是：

一种交通灯控制方法，包括：

获取当前时刻各交叉口的交通信息；

将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型，获得当前时刻各交叉口交通灯的相位；

其中，在控制模型中，将交叉口视为智能体，将交叉口的交通信息视为智能体的状态，将交叉口交通信号灯的相位视为智能体的动作；

控制模型对上一时刻各智能体的高维信息进行降维处理，获得上一时刻各智能体的低维信息，将各智能体的低维信息进行交互，获得上一时刻各智能体的全局信息，根据上一时刻各智能体的全局信息和当前时刻各智能体的状态，获得当前时刻各智能体的动作以及动作对应的价值；上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值。

控制模型采用全连接层对上一时刻各智能体的高维信息进行降维处理，公式为：

；

式中，为t-1时刻第k个智能体的低维信息，w ^k为第k个智能体的ReLU函数中的权重，b ^k为第k个智能体的ReLU函数中的偏置量，/>为t-1时刻第k个智能体状态和t-1时刻控制模型输出的第k个智能体动作价值的组合。

将各智能体的低维信息进行交互，获得上一时刻各智能体的全局信息，包括：

采用空间折扣策略，将各智能体的低维信息进行交互，获得上一时刻各智能体的全局信息；其中，空间折扣策略：第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息。

基于空间距离折扣计算低维信息的公式为：

；

式中，为第k个智能体接收到的第j个智能体t-1时刻的低维信息，f ^k为第k个智能体的协调器，d(k,j)为第k个智能体和第j个智能体的空间距离，α ^d为与空间距离d适配的折扣因子，/>为t-1时刻第j个智能体的低维信息，/>为协调器参数，D _k表示其他智能体与第k个智能体的最远空间距离，v表示第k个智能体的所有可通信智能体集合。

根据上一时刻各智能体的全局信息和当前时刻各智能体的状态，获得当前时刻各智能体的动作以及动作对应的价值，包括：

将上一时刻各智能体的全局信息和当前时刻各智能体的状态输入深度循环Q网络，获得当前时刻各智能体的动作集合以及动作集合对应的价值集合；其中，价值集合中的价值和动作集合中的动作一一对应；

采用贪心策略，从每个价值集合中选择一价值，将价值对应的动作作为相应智能体的当前动作。

贪心策略中，ϵ设置为随着时间改变动态递减的值。

控制模型的智能体奖励值为以下因素的加权和；

其中，因素包括：

智能体所有临近道路的队列长度；

智能体所有临近道路的延迟总和；

智能体所有临近道路车辆更新后的等待时间总和；

在智能体与环境交互的周期内，智能体执行完最后一次相位改变后，周期内通过智能体的车辆总数。

控制模型输出的动作价值公式为：

；

式中，为未来折扣因子，用来表示未来奖励的影响程度，当/>接近1时，表示控制模型越关心未来的奖励，如果/>，则表示未来奖励和当前奖励一样，当/>接近0时，表示控制模型越关心现在的奖励，如果/>，则表示不考虑未来奖励因素，s _t为t时刻的状态，s _t+1为t+1时刻的状态，a _t为t时刻的动作，a _t+1为t+1时刻的动作，为在s _t+1下最大的动作价值，Q(s _t,a _t)为智能体在s _t下采用a _t后控制模型输出的动作价值，r(s _t,a _t)为智能体在s _t下采用a _t后控制模型输出的奖励；

控制模型训练采用的损失函数为：

；

式中，L为损失函数值，分别代表目标网络和评估网络的参数，B代表每次进行控制模型更新时从经验池中采样的数量，r _t为t时刻的奖励，Q(s _t,a _t;θ)为智能体在s _t下采用a _t后经参数为θ的目标网络输出的动作价值，/>为智能体在s _t+1下采用a _t+1后经参数为/>的评估网络输出的动作价值。

一种交通灯控制系统，包括：

交通信息获取模块，获取当前时刻各交叉口的交通信息；

相位控制模块，将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型，获得当前时刻各交叉口交通灯的相位；

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行交通灯控制方法。

本发明所达到的有益效果：本发明采用的控制模型中，将上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值降维后进行全局传递，不仅解决了局部可见性问题，而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题，根据全局信息和当前时刻各交叉口的交通信息实现交通灯相位控制，可投入实际应用环境。

附图说明

图1为交通灯控制方法的流程图；

图2为交叉口交通信号灯相位的示意图；

图3为降维处理的原理图；

图4为信息交互的原理图；

图5为深度循环Q网络的结构示意图；

图6为控制模型的原理图；

图7为交通环境中交通流的示意图；

实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种交通灯控制方法，包括以下步骤：

步骤1，获取当前时刻各交叉口的交通信息。

步骤2，将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入控制模型，获得当前时刻各交叉口交通灯的相位；

上述方法采用的控制模型中，将上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值降维后进行全局传递，不仅解决了局部可见性问题，而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题，根据全局信息和当前时刻各交叉口的交通信息实现交通灯相位控制，可投入实际应用环境。

上述控制模型在实施之前需要先进行训练，可采用仿真方式获取训练所需样本，具体可采用仿真平台SUMO（Simulation of Urban Mobility）为实验环境，在该平台上实现现实道路的仿真；以一个含有二十五个交叉口的交通路网为例，在仿真平台上进行交通环境的设计，每个交叉口与四个200米长的路段相连，每条道路有两条引入车道和两条引出车道，交叉口的交通灯包括四个相位（见图2），图中NSG（南北方向绿灯）、NSLG（南北方向左转绿灯）、WEG（东西方向绿灯）、WELG（东西方向左转绿灯），当一个方向上有绿灯时，另一个方向上有红灯，此外，绿灯后接3秒黄灯，然后变为红灯。

在仿真平台上设计实现时变交通流，交通流由四种合成交通流共同组成，分别为交通流F ₁、f ₁、F ₂、f ₂、F ₁，交通流从0时刻开始运行，由三对源-目标(O-D)组成，分别为F _1.1、F _1.2、F _1.3；见图7，其中，O表示一股交通流的其实位置，D表示一股交通流的终点位置，交叉口之间的距离为200米，一对源-目标意味着有一股交通流将从原位置出发，最终到达目标位置，f ₁交通流则由f _1.1、f _1.2、f _1.3三对O-D组成，在15分钟之后，F ₁和f ₁的车辆开始衰减，F ₂和f ₂开始生成，F ₂、f ₂交通流是翻转F ₁、f ₁的三对O-D而来，X代表着交通环境中的单个交叉口，在图7中演示了一个含有25个交叉口的交通路网。

基于背景技术中的问题，在考虑到真实交通环境的通信情况后，针对需要进行全局传递的信息，本发明的控制模型采用非即时通信取代即时通信，即传递上一时刻的信息，具体是通过仿真平台获取的上一时刻各交叉口的交通信息以及上一时刻控制模型输出的各交叉口相位的价值。

假设△t作为智能体与交通环境交互的时间步，每次在环境模拟了△t时长后，智能体将改变当前策略。为了保证现实交通状况中的安全状况，每次改变策略后，智能体将先执行ty时间，之后执行的△t-ty时间则作为执行策略的真正时间，仿真平台也将收集该时间段的交通信息，并将交通信息记为提供给模型，其中，因此需要保证ty<△t。

由于交通信息和相位的价值均具备高维的特性，难以直接应用，因此本发明的控制模型中，在进行全局传递之前，需要先进行降维处理，见图3高维信息经过全连接层（FC）的处理，实现降维。以第k个智能体为例，将t-1时刻第k个智能体状态和t-1时刻控制模型输出的第k个智能体动作价值/>的组合记为/>，用全连接层对上一时刻/>进行降维处理，降维后的低维信息可表示为：

；

式中，为t-1时刻第k个智能体的低维信息，w ^k为第k个智能体的ReLU函数中的权重，b ^k为第k个智能体的ReLU函数中的偏置量。

传统的信息传递，每个智能体都需要在某一时刻收集其它智能体的信息，这意味着一个智能体的信息需要被所有智能体都进行一次收集。本发明将各智能体的低维信息加入到集中协调模块，后续其他智能体可直接通过集中协调模块获取任一智能体的信息，通过这种方式可以避免重复的计算。

对于某个智能体而言，其状态和策略的改变都会对距离最近的交叉口产生较大的影响，这种影响程度会随着距离的增加逐渐降低，在某些情况下，对于最远处的智能体而言，所造成的影响几乎小到忽略不计。因此本发明采用空间折扣策略，将各智能体的低维信息进行交互，获得上一时刻各智能体的全局信息；其中，空间折扣策略：第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息。

见图4（图4中的FC为全连接层），在多智能体网络中，如果第k个智能体和第k1个智能体之间存在边，则它们可被看作是是邻居，第k个智能体的邻居被表示为N _k，则本地区域表示第k个智能体的所有可通信智能体集合，包括自己。任意两个智能体的空间距离代表着连接他们的最小边的数量，D _k表示其他智能体与第k个智能体的最远空间距离，α作为空间折扣因子，按照空间顺序衡量信息的价值。相比于在智能体之间等价的传递信息，这种能够从0到1灵活改变的折扣因子更能反映真实交通环境中不同路网之间带来影响的重要程度。

因此基于空间距离折扣计算低维信息的公式可表示为：

；

式中，为第k个智能体接收到的第j个智能体t-1时刻的低维信息，f ^k为第k个智能体的协调器，d(k,j)为第k个智能体和第j个智能体的空间距离，α ^d为与空间距离d适配的折扣因子，/>为t-1时刻第j个智能体的低维信息，/>为协调器参数。

将上一时刻各智能体的全局信息和当前时刻各智能体的状态输入深度循环Q网络，获得当前时刻各智能体的动作集合以及动作集合对应的价值集合；其中，价值集合中的价值和动作集合中的动作一一对应。采用贪心策略，从每个价值集合中选择一价值，将价值对应的动作作为相应智能体的当前动作。

考虑到交通路口状况的时间连续性，深度循环Q网络如图5所示，本地状态作为输入首先经过LSTM模块，其输出结合全局信息共同作为输入通过全连接层，最终输出Q值，通过这种做法，使模型具备记忆本地交叉口上下文信息的功能。根据当前时刻各智能体的状态以及上一时刻各智能体的全局信息预测出t1秒后当前智能体（智能体）的拥堵情况，拥堵情况是由当前车辆队列等待长度，已通过车辆数和更新后的车辆等待时间共同决定。并根据预测的各个车道拥堵情况，以ϵ概率随机选取随机动作，以1-ϵ的概率选取可使当前拥堵情况得到最大缓解的动作。

基于当前的一些学术研究，为了确保模型在前期能充分探索位置环境，后期充分利用以存储的信息进行学习，本发明对ϵ值进行动态的设置，参考其他研究，为ϵ设置初始值为0.8，随着时间改变动态递减的值，当到达最后时刻时，缩减至0.01。

综上，见图6，控制模型的工作过程为：对上一时刻各智能体的高维信息进行降维处理，获得上一时刻各智能体的低维信息，将各智能体的低维信息进行交互，获得上一时刻各智能体的全局信息，根据上一时刻各智能体的全局信息和当前时刻各智能体的状态，获得当前时刻各智能体的动作以及动作对应的价值。

仿真平台执行智能体提供的动作，使交通状态进入下一阶段，并返回即时奖励值；其中，控制模型的智能体奖励值为以下因素的加权和；因素包括：智能体所有临近道路的队列长度；智能体所有临近道路的延迟总和；智能体所有临近道路车辆更新后的等待时间总和；在智能体与环境交互的周期内，智能体执行完最后一次相位改变后，周期内通过智能体的车辆总数。

生成经验元组(D _j-1,O _j,A _j,Q _j,O _j+1)，其中D _j-1表示j-1时刻的全局信息，O _j表示j时刻所有智能体的本地状态组合，A _j表示j时刻所有智能体的动作组合，Q _j表示j时刻模型的输出，O _j+1则表示在O _j时刻采取A _j后得到的j+1时刻状态组合。将该经验元组存入经验池中，每隔一段时间，利用经验回放机制从经验池中选取若干条经验元组，基于已选择的经验元组，利用平滑化绝对值损失函数和经验元组的TD-error值加权和作为损失函数，使用最先进的正交初始化器和RMSprop作为梯度优化器对模型进行训练。

控制模型输出的动作价值公式为：

；

在控制模型的更新过程中，采用了梯度下降的均方误差损失函数来更新参数，控制模型训练采用的损失函数为：

；

式中，L为损失函数值，分别代表目标控制模型和评估控制模型的参数，B代表每次进行控制模型更新时从经验池中采样的数量，r _t为t时刻的奖励，Q(s _t,a _t;θ)为智能体在s _t下采用a _t后经参数为θ的目标网络输出的动作价值，/>为智能体在s _t+1下采用a _t+1后经参数为/>的评估网络输出的动作价值。

将当前时刻各交叉口的交通信息和上一时刻各交叉口的高维信息输入训练完成的控制模型，即可获得当前时刻各交叉口交通灯的相位。在模型第一次使用时，上一时刻各交叉口的高维信息为0，即表示在初始时刻模型根据本地交叉口收集到的当前数据进行学习。

本发明从时间和空间两个角度出发，提出一种新型控制模型，该控制模型从上至下可分为三层，第一层中每个智能体从上一轮的本地信息（即交通信息）和策略中独立地提取有效信息，第二层中智能体之间利用上层的信息进行集中的交互，由于本地交通的状况与邻接交通存在较强的关联性，使用空间折扣策略，确保智能体在信息交互过程中重视局部信息的状态，第三层中每个智能体基于当前时刻的本地信息和上层中收集到的交互信息进行策略的学习。

本发明的控制模型不仅解决了局部可见性问题，而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题，可投入实际应用环境。

基于相同的技术方案，本发明还公开了上述方法的软件系统，一种交通灯控制系统，包括：

交通信息获取模块，获取当前时刻各交叉口的交通信息；

上述系统各模块的数据处理流程与方法的一致，这里不重复描述了。

上述系统的控制模型不仅解决了局部可见性问题，而且解决了因通信延时智能体难以实时获取较远处其他交叉口信息的问题，可投入实际应用环境。

基于相同的技术方案，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行交通灯控制方法。

基于相同的技术方案，本发明还公开了一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行交通灯控制方法的指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种交通灯控制方法，其特征在于，包括：

获取当前时刻各交叉口的交通信息；

控制模型对上一时刻各智能体的高维信息进行降维处理，获得上一时刻各智能体的低维信息，采用空间折扣策略，将各智能体的低维信息进行交互，获得上一时刻各智能体的全局信息，根据上一时刻各智能体的全局信息和当前时刻各智能体的状态，获得当前时刻各智能体的动作以及动作对应的价值；上一时刻各智能体的高维信息包括上一时刻各智能体的状态以及上一时刻控制模型输出的各智能体动作的价值；

空间折扣策略：第k个智能体接收到的其他智能体的低维信息为基于空间距离折扣计算后的低维信息；

基于空间距离折扣计算低维信息的公式为：

；

式中，为第k个智能体接收到的第j个智能体t-1时刻的低维信息，f ^k为第k个智能体的协调器， d(k,j)为第k个智能体和第j个智能体的空间距离，α ^d为与空间距离d适配的折扣因子，/>为t-1时刻第j个智能体的低维信息，/>为协调器参数，D _k表示其他智能体与第k个智能体的最远空间距离，v表示第k个智能体的所有可通信智能体集合。

2.根据权利要求1所述的交通灯控制方法，其特征在于，控制模型采用全连接层对上一时刻各智能体的高维信息进行降维处理，公式为：

；

式中，为t-1时刻第k个智能体的低维信息， w ^k为第k个智能体的ReLU函数中的权重，b ^k为第k个智能体的ReLU函数中的偏置量，/>为t-1时刻第k个智能体状态和t-1时刻控制模型输出的第k个智能体动作价值的组合。

3.根据权利要求1所述的交通灯控制方法，其特征在于，根据上一时刻各智能体的全局信息和当前时刻各智能体的状态，获得当前时刻各智能体的动作以及动作对应的价值，包括：

4.根据权利要求3所述的交通灯控制方法，其特征在于，贪心策略中，ϵ设置为随着时间改变动态递减的值。

5.根据权利要求1所述的交通灯控制方法，其特征在于，控制模型的智能体奖励值为以下因素的加权和；

其中，因素包括：

智能体所有临近道路的队列长度；

智能体所有临近道路的延迟总和；

智能体所有临近道路车辆更新后的等待时间总和；

6.根据权利要求1所述的交通灯控制方法，其特征在于，控制模型输出的动作价值公式为：

；

式中，为未来折扣因子，用来表示未来奖励的影响程度，当/>接近1时，表示控制模型越关心未来的奖励，如果/>，则表示未来奖励和当前奖励一样，当/>接近0时，表示控制模型越关心现在的奖励，如果/>，则表示不考虑未来奖励因素，s _t为t时刻的状态，s _t+1为t+1时刻的状态，a _t为t时刻的动作，a _t+1为t+1时刻的动作，为在s _t+1下最大的动作价值，Q(s _t, a _t)为智能体在s _t下采用a _t后控制模型输出的动作价值，r(s _t, a _t)为智能体在s _t下采用a _t后控制模型输出的奖励；

控制模型训练采用的损失函数为：

；

式中，L为损失函数值，分别代表目标网络和评估网络的参数，B代表每次进行控制模型更新时从经验池中采样的数量，r _t为t时刻的奖励，Q(s _t,a _t; θ)为智能体在s _t下采用a _t后经参数为θ的目标网络输出的动作价值，/>为智能体在s _t+1下采用a _t+1后经参数为/>的评估网络输出的动作价值。

7.一种交通灯控制系统，其特征在于，包括：

交通信息获取模块，获取当前时刻各交叉口的交通信息；

基于空间距离折扣计算低维信息的公式为：

；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1~6任一所述的方法。