CN112863206B

CN112863206B - 一种基于强化学习的交通信号灯控制方法与系统

Info

Publication number: CN112863206B
Application number: CN202110020458.3A
Authority: CN
Inventors: 卢宗青; 姜杰川; 王兆植; 徐冰妤
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2022-08-09
Anticipated expiration: 2041-01-07
Also published as: CN112863206A

Abstract

本申请公开了一种基于强化学习的交通信号灯控制方法与系统，包括：S1，控制器根据局部观测信息和上层策略，从多个子策略中选择一个；S2，子策略根据局部观测信息，从多个相位中选择一个执行一个时间步；S3，控制器根据获取到的奖励和当前时间观测信息，更新子策略的参数；S4，更新后的子策略选择保持或更换相位，执行一个时间步；S5，控制器根据执行的时间步和周期的数量以及邻域观测信息，更新权重参数和上层策略，执行S1，或执行S3，或得到训练好的智能体；S6，使用训练好的智能体控制一个路口中的所有交通信号灯。能够在控制其自身对应的路口交通信号灯的同时，兼顾配合与其相邻的路口，进行协同合作，从而缩短全局车辆在路口的平均行驶时间。

Description

一种基于强化学习的交通信号灯控制方法与系统

技术领域

本申涉及人工智能领域，尤其涉及一种基于强化学习的交通信号灯控制方法与系统。

背景技术

交通信号灯对于交通动作情景的协调是决定运输效率的关键因素。然而现有的大部分传统交通灯控制算法很大程度上依赖于预先定义好的规则和假设，这显然不够智能化。

强化学习(Reinforcement Learning)是机器学习里面的一个分支，主要包含四个元素：智能体(Agent)、环境状态(State)、行动(Action)和奖励(Reward)。奖励是环境提供给智能体的一个可量化的标量反馈信号，用于评价智能体在某一个时间步(Time Step)所做行动的好坏。强化学习的目标是获得最多的累计奖励。强化学习是控制一个能够在某个环境下自主行动的智能体，通过和环境之间的互动，不断改进它的行为。强化学习问题包括学习如何做、如何将环境映射为行动，从而获得最大的奖励。在强化学习中，学习器是一个制定决策的智能体，它不会被告知该执行什么动作，而是经过反复尝试运行，来发现能获得最大奖励的行为。一般情况下，行动不仅会影响当前的奖励，而且会影响下个时间点的环境，因此也会影响后续所有的奖励。一个完整的强化学习过程是让智能体实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，在不断的尝试中更新自己的行为，从而一步步学习如何操自己的行为得到高分，最后找到规律，学会了达到目的的方法。

近年来，研究者们将深度强化学习应用到了交通灯控制任务中，并且取得了相比传统控制方法更好的效果。但是目前很多的基于强化学习的控制算法的优化目标和交通灯控制任务与的最终目标并不相符。交通灯控制的最终目标为全局的在时间维度上的统计量，然而很多基于强化学习的控制算法都单独地控制各个交通信号灯。

综上所述，需要提供一种能够进行协同合作，控制交通信号灯，从而缩短全局车辆在路口的平均行驶时间的基于强化学习的交通信号灯控制方法与系统。

发明内容

为解决以上问题，本申请提出了一种基于强化学习的交通信号灯控制方法与系统。

一方面，本申请提出一种基于强化学习的交通信号灯控制方法，其应用于环境中的每个智能体，智能体包括控制器和多个子策略，包括：

S1，控制器根据局部观测信息和上层策略，从多个子策略中选择一个；

S2，所述子策略根据所述局部观测信息，从多个相位中选择一个执行一个时间步；

S3，所述控制器根据获取到的奖励和当前时间观测信息，更新所述子策略的参数；

S4，更新后的所述子策略选择保持或更换所述相位，执行一个时间步；

S5，所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息，更新权重参数和所述上层策略，执行S1；或执行S3；或得到训练好的所述智能体；

S6，使用训练好的所述智能体控制一个路口中的所有交通信号灯。

优选地，所述控制器根据局部观测信息和上层策略，从多个子策略中选择一个，包括：

控制器获取与其对应的局部观测信息；

所述控制器根据上层策略和所述局部观测信息，从三个子策略中选择一个，其中，三个子策略包括：队列优化子策略、等待优化子策略和延迟优化子策略。

优选地，所述子策略根据所述局部观测信息，从多个相位中选择一个执行一个时间步，包括：

所述子策略根据所述控制器获取的所述局部观测信息，从五个相位中选择一个相位，执行一个时间步。

优选地，所述控制器根据获取到的奖励和当前时间观测信息，更新所述子策略的参数，包括：

控制器根据执行的所述子策略，获得与子策略对应的一种奖励，所述奖励包括：队列奖励、等待奖励和延迟奖励；

控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息；

使用强化学习算法更新与执行的所述子策略对应的子策略参数，所述子策略参数包括：队列参数、等待参数和延迟参数。

优选地，所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息，更新权重参数和所述上层策略，执行S1；或执行S3；或得到训练好的所述智能体，包括：

若已执行的所述时间步的数量等于步阈值，且执行的周期的数量小于周期阈值，则所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数，执行S1；

若已执行的所述时间步的数量小于步阈值，则执行S3；

若所述时间步的数量等于步阈值，且执行的周期的数量等于周期阈值，则得到训练好的智能体。

优选地，所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数，包括：

所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励，更新局部值函数模型和邻域值函数模型；

所述控制器根据更新后的所述局部值函数模型和邻域值函数模型，使用策略梯度方法更新上层策略模型参数；

根据所述上层策略模型参数，更新权重参数；

根据更新后的所述局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数，更新所述上层策略。

优选地，所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励，更新局部值函数模型和邻域值函数模型，包括：

所述控制器获取当前时间步的局部观测信息；

所述控制器将此周期获取到的所有奖励作为局部奖励；

所述控制器根据所述局部观测信息和局部奖励，更新局部值函数模型；

所述控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息；

所述控制器将所述局部观测信息与邻近观测信息拼合，得到邻域观测信息；

所述控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励；

所述控制器根据所述邻域观测信息和邻近奖励，更新邻域值函数模型。

优选地，在S1之前，还包括：

初始化环境中的智能体，上层策略和权重参数。

优选地，所述五个相位包括：相位零、相位一、相位二、相位三和相位四；

其中相位一、相位二、相位三和相位四构成相位循环；

更换所述相位时，按照固定方向更换所述相位；

每次确定更换相位后，将下一个相位作为目标相位；

在更换到所述目标相位之前，先选择相位零，执行多个时间步；

更换相位至所述目标相位。

第二方面，本申请提出一种基于强化学习的交通信号灯控制系统，智能体包括：

控制器，用于获取环境的局部观测信息和邻域观测信息，根据上层策略周期选择子策略，直至该周期的执行数量达到周期阈值，结束；根据执行的所述时间步的数量和周期的数量以及邻域观测信息，更新权重参数和所述上层策略，得到训练好的所述智能体；

多个子策略，用于根据环境的观察信息选择相位，执行动作，得到动作奖励；根据获取到的奖励和当前时间观测信息，更新所述子策略的参数。

本申请的优点在于：通过获取局部观测信息在每个时间步均更新子策略参数，每个周期根据邻域观测信息更新权重参数和所述上层策略，能够得到与其相邻的多个路口的观测信息，通过更新权重参数，调整局部和邻近的权重，从而在控制其自身对应的路口交通信号灯的同时，兼顾配合与其相邻的路口，进行协同合作，从而缩短全局车辆在路口的平均行驶时间。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种基于强化学习的交通信号灯控制方法的步骤示意图；

图2是本申请提供的一种基于强化学习的交通信号灯控制方法的相邻路口的示意图；

图3是本申请提供的一种基于强化学习的交通信号灯控制方法的路口车辆动作的示意图；

图4是本申请提供的一种基于强化学习的交通信号灯控制方法的相位的示意图；

图5是本申请提供的一种基于强化学习的交通信号灯控制方法的示意图；

图6是本申请提供的一种基于强化学习的交通信号灯控制系统的智能体结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种方法，如图1所示，包括：

S5，所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息，更新权重参数和上层策略，执行S1；或执行S3；或得到训练好的所述智能体；

邻的路口的观测信息和奖励进行对应的更新，但是所有的策略以及其参数对于环境中的所有智能体都是共享的。智能体能够获取与其相邻的路口的观测信息、与其相邻的路口对应的智能体所执行的子策略和相位以及获得的奖励。如图2所示，路口B、路口C、路口D和路口E均为路口A的相邻路口，所以路口A对应的智能体能够获取路口B、路口C、路口D和路口E的观测信息作为邻近观测信息，还可以获取与路口B、路口C、路口D和路口E所对应的每个智能体所执行的子策略和相位以及获得的奖励，这些奖励作为邻近奖励。

控制器根据观测信息和上层策略，从多个子策略中选择一个，包括：控制器获取与其对应的局部观测信息；控制器根据上层策略和局部观测信息，从三个子策略中选择一个，其中，三个子策略包括：队列优化子策略、等待优化子策略和延迟优化子策略。

子策略根据局部观测信息，从多个相位中选择一个执行一个时间步，包括：子策略根据控制器获取的局部观测信息，从五个相位中选择一个相位，执行一个时间步。

控制器根据获取到的奖励和当前时间观测信息，更新子策略的参数，包括：控制器根据执行的子策略，获得与子策略对应的一种奖励，奖励包括：队列奖励、等待奖励和延迟奖励；控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息；使用强化学习算法，如深度Q网络(Deep Q-Learning Network，DQN)，更新与执行的子策略对应的子策略参数，子策略参数包括：队列参数、等待参数和延迟参数。

控制器根据执行的时间步的数量、周期的数量和邻域观测信息，更新权重参数和上层策略，执行S1，或执行S3；或得到训练好的智能体，包括：若已执行的时间步的数量等于步阈值，且执行的周期的数量小于周期阈值，则控制器根据局部观测信息、邻域观测信息和得到的奖励更新权重参数和上层策略的参数，执行S1；若已执行的时间步的数量小于步阈值，则执行S3；若时间步的数量等于步阈值，且执行的周期的数量等于周期阈值，则得到训练好的智能体。

控制器根据局部观测信息、邻域观测信息和得到的奖励更新权重参数和上层策略的参数，包括：控制器根据局部观测信息、邻域观测信息和此周期获取到的所有奖励，更新局部值函数模型和邻域值函数模型；控制器根据更新后的局部值函数模型和邻域值函数模型，使用策略梯度方法更新上层策略模型参数；根据上层策略模型参数，更新权重参数；根据更新后的局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数，更新上层策略。

控制器根据局部观测信息、邻域观测信息和此周期获取到的所有奖励，更新局部值函数模型和邻域值函数模型，包括：控制器获取当前时间步的局部观测信息；控制器将此周期获取到的所有奖励作为局部奖励；控制器根据局部奖励和局部观测信息，更新局部值函数模型；控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息；控制器将所述局部观测信息与邻近观测信息拼合，得到邻域观测信息；控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励；控制器根据邻域观测信息和邻近奖励，更新邻域值函数模型。拼合包括：合并或拼接等。

在S1之前，还包括：初始化环境中的智能体，上层策略和权重参数。

五个相位包括：相位零、相位一、相位二、相位三和相位四；其中相位一、相位二、相位三和相位四构成相位循环；更换相位时，按照固定方向更换相位；每次确定更换相位后，将下一个相位作为目标相位；在更换到目标相位之前，先选择相位零，执行多个时间步；更换相位至目标相位。其中，在更换到目标相位之前，优选地，先选择相位零，执行3个时间步。

局部值函数模型和邻域值函数模型均在训练时使用，最终得到的训练好的智能体不包括局部值函数模型和邻域值函数模型。最终得到的训练好的智能体包括训练好的上层策略和权重参数，能够根据局部观测信息和邻域观测信息对子策略和相位进行调整。

强化学习算法包括：近端策略优化(Proximal Policy Optimization，PPO)算法、Q-learning、策略梯度(Policy Gradient)算法和信任区域策略化(Trust Region PolicyOptimization，TRPO)算法等。

每个周期包括T个时间步。步阈值等于T的数量。步阈值和周期阈值可以根据需要进行设定。

环境中各智能体的步阈值和周期阈值都是相同的。

同一环境中的所有智能体的初始化、执行动作获取奖励、更新等动作，都可以是同时进行的。

每次交互，环境中的每个智能体的控制器都会在自己(控制器所对应的智能体)所拥有的多个子策略中，选择一个子策略。

环境中智能体中的控制器和各子策略的初始化，只在第一次进行，即，只在智能体在环境中第一次运行之前，进行智能体中的控制器和各子策略的初始化，还初始化智能体奖励等，之后不再初始化智能体的控制器和各子策略。

如3所示，路口包含四个进入方向和四个离开方向，每个进入方向包含三个车道，从内到外分别表示左转、直行、右转车道。

本申请实施方式定义了路口车辆的十二种动作，从m₀到m₁₁，如图3所示。由于部分车辆动作是冲突的，例如m₁和m₃，所以在同一个相位中只能存在互不冲突的车辆动作。对于一个四方向的路口，如图4所示，定义了五种相位phase，其中，不同路口的相位设定可能不同。相位零(phase₀)包括m₂、m₅、m₈、m₁₁；相位一(phase₁)包括m₁、m₂、m₅、m₇、m₈、m₁₁；相位二(phase₂)包括m₀、m₂、m₅、m₆、m₈、m₁₁；相位三(phase₃)包括m₂、m₄、m₅、m₈、m₁₀、m₁₁；相位四(phase₄)包括m₂、m₃、m₅、m₈、m₉、m₁₁。相位循环如图4所示，其中整个循环过程包含phase₁到phase₄，在相位改变时加入phase₀，用黄色信号灯指示。

车辆的行驶时间定义为车辆从进入到离开特定路网所消耗的时间，路网全局的车辆平均行驶时间通常用来作为交通信号灯控制算法表现的评价指标。本申请的实施方式用于在一个交通路网中，存在多个路口，在每个时间步，交通信号灯根据控制算法作出决策，引导路网中的车辆行驶。控制算法的目标是最小化全局车辆平均行驶时间。

下面，对本申请实施例进行进一步说明，如图5所示。

本申请的实施方式训练了一个分层结构的交通信号灯协作控制器，用于对每个路口的信号灯进行控制。在上层结构中，将每个路口视作一个智能体，采用actor-critic强化学习方法，并且引入多重评价器，去联合优化每个路口局部的平均等待时间和邻近路口的平均等待时间。控制器用两个值网络：局部值网络V^l(o；φ^l)和邻近值网络

分别去近似在上层策略π(a^c|o；φ^π)下的路口局部平均行驶时间和相邻路口平均行驶时间值函数。其中a^c为控制器的行动，即在接下来的T个时间步内下层选用哪种特定的子策略与环境交互，o为智能体对于路口局部的观测(局部观测信息)，为当前相位、下一相位和进车道中车辆数量向量的拼合；其中，下一相位由相位循环所决定。

为邻域观测信息，即为智能体对于路口局部观测(局部观测信息)和邻近路口观测(邻近观测信息)的拼合，如图2所示，路口A的

为路口A、B、C、D和E的观测拼合。两个值网络以及上层策略分别以局部值函数模型φ^l、邻域值函数模型φⁿ和上层策略模型参数φ^π作为参数。由于邻近值网络Vⁿ需要学习相邻路口平均行驶时间值函数，用

代替o作为输入可以使得邻近值网络Vⁿ的近似更为精确。进而上层策略π(a^c|o；φ^π)的策略梯度为：

其中δ^l＝r^l+V^l(o′；^l)-V^l(o；φ^l)，

其中，o′、

分别表示下一次的观测o、

w为权重参数。δ^l和δⁿ分别为V^l和Vⁿ的优势函数，γ为折现率。

分别最小化以下两个损失函数

和

来更新φ^l和φⁿ：

控制器将此周期在与其对应的路口中获取到的所有奖励作为局部奖励r^l，与局部观测信息o一起，更新局部值函数模型φ^l。控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励rⁿ，与局部观测信息和邻近观测信息的拼合

(邻域观测信息)一起，更新邻域值函数模型φⁿ。

本申请的实施方式根据上层策略去选择下层使用哪种子策略去直接优化特定的目标，整体结构如图5所示。

在下层，本申请实施方式提出了三种子策略，分别为用于直接优化队伍长度的队列优化子策略、优化等待时间的等待优化子策略和优化延迟的延迟优化子策略。假设路网中有

个路口，在每个时间步，每个智能体的子策略得到的观测为o，根据子策略采取的行动为a^s，表用于示在下一个时间步继续停留在当前相位或者改变到下一相位。三种子策略的奖励分别为队伍长度、等待时间和延迟求和的相反数，分别标记为队列奖励r^q、等待奖励r^w和延迟奖励r^d。队伍长度为进车道上等待车辆的总数，等待时间为车辆在等待位置消耗的总时间，延迟为车辆经过路口消耗的时间减去假定以最快速度通过路口的时间。这三种子策略分别以队列参数θ^q、等待参数θ^w、延迟参数θ^d作为参数。为了分别学习三种子策略的参数，本申请的实施方式通过DQN的方法来最小化如下的损失函数：

其中，

表示期望，o′表示下一次的观测o，a′表示下一次采取的行动a，由于在此用于子策略的参数更新，因此此公式中的a代入a^s，a′代入a^s′。子策略也可以通过其他强化学习的算法或方法进行学习。使用上述公式

更新与执行的所述子策略对应的子策略参数，具体地，若为对队列参数θ^q进行优化，则θ^q均代入队列参数θ^q，r均代入队列奖励r^q。对于上述公式

下一次采取的行动a其实是一个用于最小化

的预期，而不是一定会用于下一次执行的行动。

上层策略的学习过程中的权重参数w用来协调两个优化目标的平衡，人工地调节w会引发诸多问题。首先，在不同交通情景模式下对于相邻路口平均行驶时间的优化可能重要性不同，因此用固定值作为权重参数w可能会限制控制算法的表现。另外如果试图将w固定，那么需要通过超参数优化进行学习，然而这种学习过程如果想要到达近似收敛的结果，需要增加很大的计算量。为了解决这些问题，本申请的实施方式提出采用一种自适应调整权重参数w的方法，使得控制器在学习过程中可以动态地平衡两个优化目标的关系，通过根据更新后的局部值函数模型φ^l和邻域值函数模型φⁿ，使用策略梯度方法更新上层策略模型参数φ^π。根据上层策略模型参数φ^π，更新权重参数w。本申请的实施方式定义

其中

为上层策略在训练迭代次数i时的上层策略模型参数，

表示更新上层策略模型参数的优化目标，需要更新上层策略模型参数使其尽可能大。

表示优化目标中间的局部项，

表示优化目标中间的近邻项。在策略梯度上升时，有

其中α为φ^π的学习率。目标为找到权重参数w使得

下降最快。因此，定义s_i(w)为

在迭代次数i时的下降速度，则有：

其中，

表示在训练迭代第i次时

对于上层策略模型参数

的梯度，与

等价。

表示X对于上层策略模型参数

的梯度，

本身是一个运算。其中第三行由一阶泰勒近似得到，之后可以计算w的梯度为：

因此，w可以直接用

和

梯度的点积进行梯度下降。本申请的实施方式可以在学习过程中自适应地动态调整权重参数w。

根据更新后的局部值函数模型φ^l、邻域值函数模型φⁿ、上层策略模型参数φ^π和权重参数φ^π，更新上层策略π(a^c|o；φ^π)。最后，若时间步的数量等于步阈值，且执行的周期的数量等于周期阈值，则得到训练好的智能体。训练好的智能体能够用于交通信号灯的控制。

在训练过程中，虽然每个智能体邻近路口的平均行驶时间的评价器需要邻近路口的观测，但是这样的信息可以很简单的获取，因此本申请的实施方式可以很简单的通过去中心化训练的方式进行学习。

本申请的实施方式适用的情景是一个交通路网中，若干路口的交通灯需要协作控制去引导车辆行动。本申请的实施方式能够使得全局路网中的车辆平均行驶时间最小化。每个路口的智能体在每一个时间步获得路口局部和相邻路口的观测，依次作出相应的决策。

根据本申请的实施方式，还提出一种基于强化学习的交通信号灯控制系统，如图6所示，智能体包括：

控制器110，用于获取环境的局部观测信息和邻域观测信息，根据上层策略周期选择子策略，直至该周期的执行数量达到周期阈值，结束；根据执行的时间步的数量和周期的数量以及邻域观测信息，更新权重参数和上层策略，得到训练好的智能体；

多个子策略120，用于根据环境的观察信息选择相位，执行动作，得到动作奖励；根据获取到的奖励和当前时间观测信息，更新子策略的参数。

下面，对本申请实施方式进行进一步说明。

首先，初始化环境中的智能体，上层策略和权重。对于智能体，在其执行子策略和动作之前，首先需要通过控制器获取与其对应的局部观测信息。根据局部观测信息和上层策略，从队列优化子策略、等待优化子策略和延迟优化子策略这三个子策略中选择一个。子策略根据控制器获取的局部观测信息，从五个相位中选择一个相位，执行一个时间步。

控制器根据执行的子策略，获得与子策略对应的一种奖励。若执行的子策略为队列优化子策略，则得到的奖励为队列奖励。由于已经经过了一个时间步，因此当前环境已经发生了变化。控制器从当前环境中获取与其对应的当前局部观测信息。使用如深度Q网络等强化学习算法，对与执行的子策略对应的子策略参数进行更新。若执行的子策略为队列优化子策略，则更新的子策略参数为队列参数。

更新后的子策略选择保持或更换所述相位，执行一个时间步。若选择更换相位，则假设当前为相位三，则目标相位为相位四，但是需要先更换为相位零并执行多个时间步，之后再更换到目标相位，即相位四，执行一个时间步，再根据获取到的奖励和当前时间观测信息，更新子策略的参数。若保持当前相位，则保持当前相位，执行一个时间步，再根据获取到的奖励和当前时间观测信息，更新子策略的参数。

在每次执行下一个时间步之前，需要判断已执行的时间步的数量以及已执行的周期的数量。若已执行的时间步的数量等于步阈值T，且执行的周期的数量小于周期阈值，则控制器根据局部观测信息、邻域观测信息和得到的奖励更新权重参数和上层策略的参数，之后从S1步骤开始执行，即再次根据局部观测信息和上层策略，从多个子策略中选择一个，继续后续的子策略更新；若已执行的时间步的数量小于步阈值，则从S3步骤开始执行，即控制器根据获取到的奖励和当前时间观测信息，继续后续的子策略更新；若所述时间步的数量等于步阈值，且执行的周期的数量等于周期阈值，则得到训练好的智能体。

本申请实施例的方法中，通过获取局部观测信息在每个时间步均更新子策略参数，每个周期根据邻域观测信息更新权重参数和所述上层策略，能够得到与其相邻的多个路口的观测信息，通过更新权重参数，调整局部和邻近的权重，从而在控制其自身对应的路口交通信号灯的同时，兼顾配合与其相邻的路口，进行协同合作，从而缩短全局车辆在路口的平均行驶时间。本申请的实施方式将每个路口视作一个智能体，通过分层的结构来对交通灯进行控制，结构中包括一个控制器和多个子策略，每次所选择的子策略直接与环境交互。在分层结构中，本申请的实施方式包括三种分别用于直接对排队长度、等待时间、延迟目标进行优化的特定子策略。由于针对每个路口单独优化路口局部的车辆行驶时间可能会引发不同路口间策略冲突，进而产生负效果，因此本申请的实施方式提出了一种多重评价控制器来联合优化路口局部车辆行驶时间和相邻路口车辆行驶时间，即控制器用两个值网络：局部值网络V^l(；φ^l)和邻近值网络

分别去近似在上层策略π(a^c|o；φ^π)下的路口局部平均行驶时间和相邻路口平均行驶时间值函数。本申请的实施方式还提出了能够自适应调整两个优化目标的权重参数，使得控制器在学习过程中可以自适应的平衡局部与邻近的权重关系。本申请的实施方式提出了通过去中心化训练的方式来实现整体交通灯控制器的学习过程。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于强化学习的交通信号灯控制方法，其特征在于，其应用于环境中的每个智能体，智能体包括控制器和多个子策略，包括：

S6，使用训练好的所述智能体控制一个路口中的所有交通信号灯；

所述控制器根据局部观测信息和上层策略，从多个子策略中选择一个，包括：

控制器获取与其对应的局部观测信息；

所述控制器根据上层策略和所述局部观测信息，从三个子策略中选择一个，其中，三个子策略包括：队列优化子策略、等待优化子策略和延迟优化子策略；

所述子策略根据所述局部观测信息，从多个相位中选择一个执行一个时间步，包括：

所述子策略根据所述控制器获取的所述局部观测信息，从五个相位中选择一个相位，执行一个时间步；

所述控制器根据获取到的奖励和当前时间观测信息，更新所述子策略的参数，包括：

使用强化学习算法更新与执行的所述子策略对应的子策略参数，所述子策略参数包括：队列参数、等待参数和延迟参数；

所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息，更新权重参数和所述上层策略，执行S1；或执行S3；或得到训练好的所述智能体，包括：

若已执行的所述时间步的数量小于步阈值，则执行S3；

若所述时间步的数量等于步阈值，且执行的周期的数量等于周期阈值，则得到训练好的智能体；

所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数，包括：

根据所述上层策略模型参数，更新权重参数；

根据更新后的所述局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数，更新所述上层策略；

所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励，更新局部值函数模型和邻域值函数模型，包括：

所述控制器获取当前时间步的局部观测信息；

所述控制器将此周期获取到的所有奖励作为局部奖励；

所述控制器根据所述邻域观测信息和邻近奖励，更新邻域值函数模型；

所述五个相位包括：相位零、相位一、相位二、相位三和相位四；

其中相位一、相位二、相位三和相位四构成相位循环；

更换所述相位时，按照固定方向更换所述相位；

每次确定更换相位后，将下一个相位作为目标相位；

更换相位至所述目标相位。

2.如权利要求1所述的基于强化学习的交通信号灯控制方法，其特征在于，在S1之前，还包括：

初始化环境中的智能体，上层策略和权重参数。

3.一种基于强化学习的交通信号灯控制系统，其特征在于，智能体包括：

控制器，用于获取环境的局部观测信息和邻域观测信息，根据上层策略周期选择子策略，直至该周期的执行数量达到周期阈值，结束；根据执行的时间步的数量和周期的数量以及邻域观测信息，更新权重参数和所述上层策略，得到训练好的所述智能体；

控制器获取与其对应的局部观测信息；所述控制器根据上层策略和所述局部观测信息，从三个子策略中选择一个，其中，三个子策略包括：队列优化子策略、等待优化子策略和延迟优化子策略；

所述控制器根据获取到的奖励和当前时间观测信息，更新所述子策略的参数，包括：控制器根据执行的所述子策略，获得与子策略对应的一种奖励，所述奖励包括：队列奖励、等待奖励和延迟奖励；控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息；使用强化学习算法更新与执行的所述子策略对应的子策略参数，所述子策略参数包括：队列参数、等待参数和延迟参数；

所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息，更新权重参数和所述上层策略，执行：控制器根据局部观测信息和上层策略，从三个子策略中选择一个；或执行所述控制器根据获取到的奖励和当前时间观测信息，更新所述子策略的参数；或得到训练好的所述智能体，包括：若已执行的所述时间步的数量等于步阈值，且执行的周期的数量小于周期阈值，则所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数，执行：根据局部观测信息和上层策略，从三个子策略中选择一个，继续后续的子策略更新；若已执行的所述时间步的数量小于步阈值，则执行：控制器根据获取到的奖励和当前时间观测信息，继续后续的子策略更新；若所述时间步的数量等于步阈值，且执行的周期的数量等于周期阈值，则得到训练好的智能体；

所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数，包括：所述控制器获取当前时间步的局部观测信息；所述控制器将此周期获取到的所有奖励作为局部奖励；所述控制器根据所述局部观测信息和局部奖励，更新局部值函数模型；所述控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息；所述控制器将所述局部观测信息与邻近观测信息拼合，得到邻域观测信息；所述控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励；所述控制器根据所述邻域观测信息和邻近奖励，更新邻域值函数模型；所述控制器根据更新后的所述局部值函数模型和邻域值函数模型，使用策略梯度方法更新上层策略模型参数；根据所述上层策略模型参数，更新权重参数；根据更新后的所述局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数，更新所述上层策略；

多个子策略，用于根据环境的观察信息选择相位，执行动作，得到动作奖励；根据获取到的奖励和当前时间观测信息，更新所述子策略的参数；

所述子策略根据所述局部观测信息，从多个相位中选择一个执行一个时间步，包括：所述子策略根据所述控制器获取的所述局部观测信息，从五个相位中选择一个相位，执行一个时间步；

其中相位一、相位二、相位三和相位四构成相位循环；

更换所述相位时，按照固定方向更换所述相位；

每次确定更换相位后，将下一个相位作为目标相位；

更换相位至所述目标相位。