CN110060475B

CN110060475B - 一种基于深度强化学习的多交叉口信号灯协同控制方法

Info

Publication number: CN110060475B
Application number: CN201910307621.7A
Authority: CN
Inventors: 胡坚明; 霍雨森; 裴欣; 张佐; 姚丹亚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2021-01-05
Anticipated expiration: 2039-04-17
Also published as: CN110060475A

Abstract

本发明涉及一种基于深度强化学习的多交叉口信号灯协同控制方法，其包括以下步骤：1)根据多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量；2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型；3)采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到训练好的多交叉口协同控制神经网络模型；4)将当前多交叉口的相位信息输入训练好的多交叉口协同控制神经网络模型，得到当前多交叉口信号灯的协同控制输出结果。本发明可以广泛应用于多交叉口信号灯协同控制领域。

Description

一种基于深度强化学习的多交叉口信号灯协同控制方法

技术领域

本发明涉及交通路网中多交叉口信号灯协同控制技术领域，特别是关于一种基于深度强化学习的多交叉口信号灯协同控制方法，采用模仿学习与深度强化学习对交通路网中多交叉口场景进行建模，形成新的多交叉口信号灯协同控制方案。

背景技术

交叉口作为城市交通网络的枢纽和关键结点，对交通网络的运行效率有着举足轻重的影响。所以对交叉口信号灯的相位时长进行优化可以在很大程度上提高现有城市交通网络的运行效率。而随着云计算以及5G等智能交通相关技术的不断发展，通过中央控制系统对交通网络进行实时控制已经变得越来越可行了。车辆对车辆(V2V)和车辆对基础设施(V2I)通信为十字路口的交通信号控制提供了新的机会。通过V2I和V2V通信，交通信号控制器可以实时获取接近车辆的更精确的位置和运动信息，为更有效的交通信号控制提供基础。深度强化学习是近年来兴起的一种人工智能算法，这种方法的特点是可以通过实时和所在环境交互，通过摸索与试错的方法找到一种合理的策略，在特定情况下可以达到甚至超越人类的水平。

基于此，利用深度强化学习对多交叉口组成的交通网络进行建模并优化分析是一件很有经济价值和理论价值的事情。相关的研究成果主要分为以下几类：

1、基于DQN(深度Q网络)的方法。这种结构会将输入状态转化为不同动作的价值，每一次决策都只使用价值最大的动作。但是这种输出方式导致基于DQN的模型只能处理单交叉口问题，无法拓展到多交叉口问题中。一些研究者们提出将每一个DQN模型看做一个智能体，然后利用多个智能体来同时控制多个交叉口，与此同时通过智能体间共享奖励函数的方式来实现协同。但是此类方法会增加模型的整体复杂度和训练难度，而且由于需要在局部与整体之间平衡，这类模型也容易陷入局部最优。

2、基于Actor-Critic(执行器-判别器)的方法。这种方法的特点是将交叉口周围的交通状态转化为图像或者元胞，然后利用深度神经网络来自动进行特征提取，网络的输出为执行其中每一个相位的价值或者概率，通过选取价值最大的相位或者按照概率来选择相位的方式来进行信号灯控制，并通过策略梯度方法进行模型优化。这种方法的特点是信息完备，不会造成信息的丢失，但是由于强化学习的训练效率较低，深度神经网络本身也会会消耗更大的计算资源，所以效率低下。

发明内容

针对上述问题，本发明的目的是提供一种基于深度强化学习的多交叉口信号灯协同控制方法，通过对多交叉口信号灯进行协同控制，有效提高交通网络的运行效率。

为实现上述目的，本发明采取以下技术方案：一种基于深度强化学习的多交叉口信号灯协同控制方法，其包括以下步骤：

1)根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量；

2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型，该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入，以一组多维动作作为输出；

3)采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型；

4)将当前多交叉口的相位信息输入最优多交叉口协同控制神经网络模型，得到当前多交叉口信号灯的协同控制输出结果。

进一步的，所述步骤1)中，根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量的方法，包括以下步骤：

1.1)按照预设规则将与多交叉口交通网络内其中一个交叉口相连的各个方向的车道进行拼接，得到该交叉口的车道图像信息；

1.2)对得到的交叉口的车道图像信息进行处理，得到能够反映该交叉口原始交通状态的车道矩阵信息；

1.3)重复步骤1.1)～1.2)，获得多交叉口交通网络各个交叉口的车道矩阵信息；

1.4)将得到的各个交叉口的车道矩阵信息进行叠加，得到多交叉口交通网络的多通道张量。

进一步的，所述步骤2)中，建立的多交叉口协同控制神经网络模型包括第一、第二两个卷积层、第一、第二两个池化层、合并层以及一个全连接层；

所述第一卷积层用于对输入的多交叉口交通网络进行局部特征提取，得到的结果发送到所述第一池化层；

所述第一池化层用于对输入的数据进行降维和去噪处理后，得到的结果发送到所述第二卷积层；

所述第二卷积层用于对输入的数据进行全局信息提取，得到的结果发送到所述第二池化层；

所述第二池化层用于对输入的数据进行降维和去噪处理并发送到合并层；

所述合并层将得到的数据以及多交叉口交通网络中各个交叉口的相位信息进行合并后，发送到所述全连接层；

所述全连接层根据输入的数据得到用于控制各个交叉口的交通信号灯的一组多维动作以及用于表示当前时刻多交叉口交通状态的价值。

进一步的，所述步骤3)中，采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型的方法，包括以下步骤：

3.1)采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练，得到初步优化后的多交叉口协同控制神经网络；

3.2)采用强化学习方法对步骤3.1)得到的模型继续训练，直到模型精度达到预设阈值，得到最优多交叉口协同控制神经网络模型。

进一步的，所述步骤3.1)中，采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练，得到初步优化后的多交叉口协同控制神经网络模型的方法，包括以下步骤：

3.1.1)初始化交通状态、轨迹池以及模仿学习的仿真次数，其中，轨迹池用于存储模型的决策轨迹数据；

3.1.2)每隔预设时间在轨迹池中随机采集若干个样本作为训练样本；

3.1.3)利用基于规则的模型对训练样本进行标注，得到的标注数据作为训练标签数据；

3.1.4)将能够反映该多交叉口交通网络原始交通状态的多通道张量输入神经网络模型得到其输出值，根据输出值与训练标签数据，计算得到损失函数，并通过最小化损失函数来对模型进行训练。

进一步的，所述步骤3.1.3)中，对训练样本进行标注的公式为：

其中，y_i表示第i个维度的数据标签，

表示第i个交叉口当前绿灯相位所对应车道内的低速车辆的数量，

表示其余三个红灯相位所对应车道的低速车辆的数量，β取0.13。

进一步的，所述步骤3.1.4)中，损失函数的计算公式为：

e_i＝y_iln(p_i)+(1-y_i)ln(1-p_i)，

式中，y_i表示第i个维度的标签，p_i表示模型在第i个维度的输出，e_i表示第i个维度的模型与标签之间的交叉熵，c表示引入的L2正规化惩罚项系数，且c＝10^-4，θ表示神经网络的参数。

进一步的，所述步骤3.2)中，采用强化学习方法对步骤3.1)得到的模型继续训练，直到模型精度达到预设阈值，得到最优多交叉口协同控制神经网络模型的方法，包括以下步骤：

3.2.1)以步骤3.1)得到的模型为基础，建立一个基于随机参数θ的结构完全相同的新策略网络π′和旧策略网络π，参数θ代表神经网络模型中的所有参数；

3.2.2)初始化强化学习的仿真次数N_rl；

3.2.3)以旧策略网络π为控制策略对任一交叉口选取一个随机动作

执行该随机动作

并观测环境反馈的状态，即下一时刻的交通状态s_t+1以及其奖励值R_t；

3.2.4)根据得到的旧策略网络π的下一时刻的交通状态s_t+1以及其奖励值R_t，采用PPO算法构建目标函数，并通过调整新策略网络π′来最大化目标函数，得到最优多交叉口协同控制神经网络模型。

进一步的，所述步骤3.2.3)中，奖励函数的计算公式为：

其中，

表示t时刻和t+1时刻车道i的低速车辆数量。

进一步的，所述步骤3.2.4)中，目标函数的计算公式为：

L_π(π′)＝E_τ～π[min(r_t ^π(π′)A_n(s_t,a_t),clip(r_t ^π(π′)，1-ε，1+ε)A_n(s_t,a_t))]，

其中，ε表示阈值，r_t ^π(π′)表示新策略π′与老策略π的比值，其计算公式为：

式中，s_t，a_t分别表示当前时刻的状态和动作，A_n(s_t,a_t)表示优势函数。

本发明由于采取以上技术方案，其具有以下优点：1、本发明采用多交叉口协同控制神经网络模型模型控制整个交通网络，将多交叉口信号控制问题转换为一个多维动作控制问题，避免了DQN模型难以协同的内在缺陷。2、本发明采用模仿学习和强化学习相结合的方法对建立的多交叉口协同控制神经网络模型进行训练优化，提高了模型精度和收敛速度。3、本发明建立的多交叉口协同控制神经网络模型，由于网络中交叉口的数量对神经网络的结构并没有很大的影响，所以这种结构易于扩展到大规模交通网络中，相比于其他模型，具有结构简单，扩展性好的优点。4、本发明对多交叉口进行重新建模和信号控制，通过计算机仿真发现，可以很大程度上减小多交叉口的排队长度、平均等待时间、平均速度、平均能耗，提高交通网络的运行效率。因此，本发明可以广泛应用于多交叉口信号灯协同控制领域。

附图说明

图1(a)～图1(c)是单交叉口状态转换示意图；

图2(a)～图2(b)是多交叉口状态转换示意图；

图3是模型整体结构示例；

图4是模仿学习示意图；

图5是基于PPO算法的控制模型；

图6(a)～图6(d)是模仿学习在不同流量等级和不同交叉口作用下误差和精度随着训练次数增加的变化，其中，图6(a)是不同流量模仿误差变化，图6(b)是精度变化，图6(c)是多交叉口误差变化，图6(d)是多交叉口精度变化；

图7(a)～图7(c)是基于强化学习的模型(RL based model)和基于模仿学习和强化学习的混合模型(Mixed model)两种模型的收敛曲线，其中，图7(a)是熵变化，图7(b)是价值误差变化，图7(c)是排队长度变化；

图8(a)～8(b)分别为不同流量条件下混合模型的收敛曲线和混合模型在不同交叉口数量的情况下的收敛曲线；

图9(a)～图9(d)是不同的模型在不同流量条件下的排队长度、平均等待时间、平均速度以及平均能耗的对比，其中，图9(a)是排队长度(Queue length)对比，图9(b)是平均等待时间(Average waiting time)对比，图9(c)是平均速度(mean speed)对比，图9(d)是平均能耗(Fuel Consumption)对比；四种不同模型分别为：基于模仿学习的模型(IL basedmodel)、基于规则的模型(Expert model)、基于强化学习的模型(RL based model)和基于模仿学习和强化学习的混合模型(Mixed model)。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明提出的一种基于深度强化学习的多交叉口信号灯协同控制方法，包括以下步骤：

1)根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该多交叉口交通网络原始交通状态的多通道张量。

具体的，包括以下步骤：

1.1)按照预设规则将与多交叉口交通网络内其中一个交叉口相连的各个方向的车道进行拼接，得到该交叉口的车道图像信息。

如图1(a)～图1(b)所示，对于图1(a)所示的一个特定的交叉口，首先将与之相连的各个方向的车道都拼接起来，得到图1(b)所示的图像。图1(b)中，从上到下分别表示与交叉口西、东、北、南四个侧面连接的车道，且对于每一个车道，车道右侧都是靠近交叉口的方向，所以图中车头朝右的车道都是进车道，而车头朝左的车道都是出车道。图1(a)展示的是一个双向两车道的交叉口，可以看到图1(b)从上到下一共二十四条车道。

1.2)对得到的交叉口的车道图像信息进行处理，得到能够反映该交叉口原始交通状态的车道矩阵信息。

在此基础上，还需要对得到的图像进行处理，也就是通过将原始的交通状态转换为元胞的方法来构建输入状态。因为如果直接将图像作为模型的输入，那么会对计算资源有很大的消耗。具体转换方法为：首先以预设间隔将图1(b)中的每个车道进行划分，得到一系列小块。本发明中以5米为间隔为例将每一个车道切成小块，但不限于此；然后根据每一小块内车辆的有无为每一个小块赋值，得到该交叉口对应的车道矩阵信息。即，如果小块内部有车，就显示1，如果没有就显示0。如图1(c)所示，通过这种方式就可以把原来的一个图像变成一个矩阵。图1(c)展示的就是将图1(b)所示的交通状态转换成矩阵所得到的结果。可以看出里边每一个数字1的坐标都基本反映了实际中相对应车辆的位置。

1.3)重复步骤1.1)～1.2)，获得多交叉口交通网络中各个交叉口的车道矩阵信息。

如图2(a)和图2(b)所示，对于多交叉口，需要将不同的交叉口的元胞图作为不同的通道叠加起来，组成一个多通道张量输入模型。比如对于图2(a)中所示的四交叉口，每一个交叉口可以分别转换为一个矩阵，将这4个矩阵合并，形成一个三通道张量。

2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型，该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入，以一组多维动作作为输出。

得到多交叉口交通网络的多通道张量后，还需要将每一时刻每个交叉口信号灯的相位信息输入模型中，这样模型获取到的交通信息才是完整的。本发明所描述的交叉口均为典型的四相位交叉口，其相位集由四个相位组成，分别包括南北直行绿色、南北左转绿色、东西直行绿色、东西左转绿色。为此，本发明设置任一交叉口的相位特征为一个长度为4的向量，向量的四个值分别代表其中一个相位，也就是当前相位所对应的特征值为1，其他值为0。

为了防止交叉口出现混乱现象的同时尽可能保持相位的灵活性，本发明的多交叉口交通网络数学模型以一组多维动作作为输出，每一个维度的动作分别表示相对应的交叉口切换相位的概率，而每一个交叉口相位的变换顺序均按照南北直行绿色、南北左转绿色、东西直行绿色、东西左转绿色、南北直行绿色.......依次循环往复进行。另外，为了保证交通安全，在两个不同相位之间，插入时间长度为一个时间步的黄灯相位来保证模型与真实世界的相似性。模型每一个时间步进行一次决策。一般而言，时间步越短，模型越灵活。所以在本发明所涉及的实验中，本发明定义一个时间步持续的时长为4秒。

如图3所示，为本发明建立的神经网络模型结构。为了能够从多交叉口交通网络的三维张量中提取交通状态的有效特征信息，本发明在神经网络模型中设置了第一、第二两个卷积层、第一、第二两个池化层、合并层以及一个全连接层。其中，第一卷积层用于对输入的多交叉口交通网络进行局部特征的提取，得到的结果发送到第一池化层；第一池化层用于对输入的数据进行降维和去噪，得到的结果发送到第二卷积层；第二卷积层用于对输入的数据进行全局信息提取，提取结果发送到第二池化层，第二池化层用于对输入的全局信息数据进行降维和去噪处理并发送到合并层；合并层将得到的数据以及多交叉口交通网络中各个交叉口的相位信息进行合并后，发送到全连接层；全连接层根据输入的数据得到用于控制各个交叉口的交通信号灯的一组多维动作以及用于表示当前时刻多交叉口交通状态的价值。

其中，神经网络模型的具体参数细节如下表1所示。另外需要强调的是，本发明中每一个卷积核扫过元胞的步幅都被设定为1，而所有卷积层的激活函数均为relu。

表1神经网络结构超参数设置

层	尺寸	神经元数量	激活函数
				卷积层1	5×5	32	Relu
最大池化层1	1×2		Linear
				卷积层2	3×3	64	Relu
最大池化层2	2×2		Linear
				全连接层		500	Relu
输出层		Num+1	Sigmoid/Linear

对于一个由Num个交叉口组成的网络，输出层的神经元的个数为Num+1。其中一个神经元的输出值表示当前时刻交通状态的价值，由于价值的值域为整个实数范围，因此这个神经元只使用线性激活函数。其余的每一个神经元分别控制一个交叉口的交通信号灯，本发明利用sigmoid激活函数将各神经元的输出值映射到[0,1]区间，从而转化为概率，然后根据不同的概率对动作进行采样。这里需要强调的一点是，常见的多分类模型由于属于单一维度输出，所以经常使用softmax作为激活函数，以此来关联输出层的所有神经网络。相比之下，本发明采用sigmoid作为激活函数，可以保证每一个神经元的输出都是独立的。

3)采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型。

由于有监督模仿学习容易收敛，可以迅速模仿已有策略，但是却无法超越已有策略，而强化学习可以超越已有策略，但却难以收敛，而且容易陷入局部最优。所以本发明采取了模仿学习和强化学习两种方法来训练模型。

具体的，包括以下步骤：

3.1)如图4所示，采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练，得到初步优化后的多交叉口协同控制神经网络。

具体的，包括以下步骤：

3.1.1)初始化交通状态、轨迹池以及模仿学习的仿真次数，其中，轨迹池用于存储多交叉口协同控制神经网络模型的决策轨迹数据。

3.1.2)每隔一段时间在轨迹池中随机采集若干个样本作为训练样本。

3.1.3)利用基于规则的模型对训练样本进行标注，得到标注过的数据作为模仿学习的训练标签。

本发明采取了一个相对简单的公式来对数据进行标注：

其中，y_i表示第i个维度的数据标签，也表示第i个交叉口当前数据样本所对应的基于规则的策略，而

表示其余三个红灯相位所对应车道的低速车辆的数量。当车辆所处的道路环境很拥挤时，车辆的速度会降到很小，本发明利用低速车辆的数量来粗略反映车道的交通流量和拥挤程度。公式(1)的核心思想是，如果当前绿灯相位所对应的方向交通状态相比于其他方向非常拥挤，那么保留现有的相位，否则切换到下一个相位。这样设置的好处时策略模型简单，便于计算，而且可以达到一定的自适应调节交通的功能。另外在本发明中本发明定义速度低于30km/h地车辆为低速车辆，β表示不同流量方向的重要度，取0.13。

3.1.4)将能够反映该多交叉口交通网络原始交通状态的多通道张量输入神经网络模型得到其输出值，计算输出值与训练标签数据之间的损失，当损失值小于预设阈值时，停止训练，否则返回步骤3.1.2)继续训练。

损失函数E的计算公式为：

e_i＝y_iln(p_i)+(1-y_i)ln(1-p_i) (3)

式中，y_i表示第i个维度的数据标签，p_i表示模型在第i个维度的输出，也就是这个交叉口切换到下一个相位的概率，e_i表示第i个维度的模型与标签之间的交叉熵，可以衡量模型输出与样本标签之间的相似程度。另外，我们在损失函数中还加入了L2正规化惩罚项来避免过拟合，系数c＝10^-4，θ表示神经网络的参数。

3.2)如图5所示，采用强化学习方法对步骤3.1)得到的模型继续训练，得到最优多交叉口协同控制神经网络模型。

虽然有监督学习方法可以很好地收敛，但是这种方法只能用来模仿已有的专家模型，但却无法超越专家模型。而强化学习方法则可以通过探索和反馈来不断提高，往往可以达到更好的效果。所以本发明在模仿学习的基础上引入了强化学习，通过强化学习来进一步提升模型的效果。具体的，包括以下步骤：

3.2.1)以步骤3.1)得到的模型为基础，建立一个基于随机参数θ的结构完全相同的新策略网络π′和旧策略网络π，其中，参数θ代表神经网络模型中的所有参数。

3.2.2)初始化强化学习的仿真次数N_rl。

执行该随机动作

并观测环境反馈的状态，即下一时刻的交通状态s_t+1以及其奖励值R_t。

在强化学习中，需要定义合理的奖励函数。在一个交通网络中，相邻的交叉口之间会相互影响。分别优化不同的交叉口会导致每个交叉口只考虑自己的效率最大，而不考虑自己对相邻交叉口的影响，造成囚徒困境。而由于交通状态以及交叉口之间的影响过于复杂，构建基于规则的多交叉口协同控制策略是一件很困难的事情。为了模型能够以优化整体交通网络为目标，本发明设定的奖励函数为整个交通网络所有车道内低速车辆的数量的变化：

其中，

表示t时刻车道i的低速车辆数量。也就是说，利用低速车辆的变化来反映协同控制的效果。当交通状况改善时，低速车辆的数量会减少，模型会获得正奖励。相反，当交通状况不断恶化时，低速车辆的数量会增多，模型会获得负奖励。

3.2.4)根据得到的旧策略网络π的下一时刻的交通状态s_t+1以及其奖励值R_t，采用PPO算法构建目标函数，并通过调整新策略网络π′来最大化目标函数，以此来对策略网络模型进行训练，得到最优多交叉口协同控制神经网络模型。

由于本发明将多交叉口信号灯协同控制问题转化成了一个高维连续动作控制问题，所以使用了近端策略优化(PPO)算法来进行强化学习。之所以使用这种方法，是因为利用强化学习来学习高维连续动作的时候，经常会出现策略坍塌现象，这种现象不仅导致了训练的过程极其不稳定，最终的训练效果也会受到很大的影响。而PPO算法就很好地解决了这个问题。公式(5)所示的就是PPO算法的目标函数。

L_π(π′)＝E_τ～π[min(r_t ^π(π′)A_n(s_t,a_t),clip(r_t ^π(π′)，1-ε，1+ε)A_n(s_t,a_t))] (5)

其中，ε表示阈值，A_n(s_t,a_t)表示优势函数，clip表示修剪掉，也即将超过阈值的数据全部用阈值代替。

优势函数A_n(s_t,a_t)的计算公式为：

式中，s_t，a_t分别表示当前时刻的状态和动作。

r_t ^π(π′)表示新策略π′与老策略π的比值，其计算公式为：

公式(3)表达的意思是，当r_t ^π(π′)未超过ε时，能够让目标函数L_π(π′)增大的方向就是策略梯度的方向，而当r_t ^π(π′)超过ε后，再增大策略π的变化幅度不但不会让L_π(π′)持续增大，反而有可能导致L_π(π′)减小。所以最大化L_π(π′)就可以达到限制策略提升幅度的效果。在本发明中ε取0.2。

为了能够同时输出老策略和新策略，本发明需要准备两个结构完全相同的神经网络。每次迭代只对新策略网络进行参数更新，更新完成后再将新策略网络的参数复制到老策略网络中。图5展示了完整的参数更新流程。策略会通过这样反复迭代来不断提升。

4)将当前多交叉口交通网络的相位信息输入最优多交叉口协同控制神经网络模型，得到当前多交叉口交通网络信号灯的协同控制输出结果。

实施例一

本发明的模型融合了两种训练方法，具体的细节如算法1所示。需要强调的时，本发明强化学习中的新策略网络与模仿学习中的策略网络是同一网络。在训练中首先利用模仿学习进行若干次模仿，直到精度Acc达到一个阈值ξ，然后利用强化学习来进一步训练。在本发明的单交叉口实验环境所对应的模型中，取ξ＝0.9。而在多交叉口环境中，由于本发明中所采用的专家策略并未考虑多交叉口的协同，本发明设定ξ＝0.7以鼓励探索。

算法1融合模仿学习与强化学习的信号灯控制模型

初始化一个基于随机参数θ的新策略网络π′和旧策略网络π；

初始化交通状态s₁、轨迹池D、模仿学习的仿真次数N_il以及强化学习的仿真次数N_rl，；

While Acc<ξ:

For t＝1→T:

以π为控制策略对任一交叉口i选取一个随机动作

执行动作

并观测到环境反馈的下一个状态s_t+1；

储存s_t+1到经验池D中；

从经验池中随机选取一小组轨迹数据s_r1,s_r1,…,s_r100，利用规则模型计算出样本标签y_r1,y_r1,…,y_r100，并利用随机梯度下降法训练新策略网络若干次；

结束For循环

For n＝1→N_rl:

For t＝1→T:

以π为控制策略对任一交叉口i选取一个随机动作

执行动作

并观测到环境反馈的下一个状态s_t+1以及奖励r_t；

将(s_t,a_t,r_t,s_t+1)存入缓存数组中

每隔K步：

将参数θ从新策略网络复制到老策略网络中；

估算优势函数A₁(s_t,a_t),A₂(s_t,a_t),…A_N(s_t,a_t)；

计算总目标L₀，并通过梯度上升法训练若干次；

通过最大化目标函数更新新策略网络参数θ：

结束For循环；

结束For循环。

如图6(a)～6(d)所示，描述了模仿学习在不同流量等级和不同交叉口作用下误差和精度随着训练次数增加的变化。其中，图6(a)和图6(b)描述了单交叉口模型在不同流量情形下的变化，而图6(c)和图6(d)描述了不同的交叉口数量在同一流量等级下的变化。从图中可以看到，损失函数随着训练次数的不断增多变得越来越小，而精度则越来越高。也就是说，模型对基于规则的策略的模仿越来越像。与此同时，随着交叉口数量的增多，交通流量的逐渐增大，收敛速度会逐步降低，但是最终模仿精度都是可以保证的。所以本发明所采用的模仿学习方法可以很好地适用于多交叉口以及不同流量的情形。

如图7(a)～7(c)所示，由于控制策略是由概率来体现的，所以强化学习模型收敛的过程会伴随着策略熵的减小。其中，图7(a)表达了纯粹的强化学习模型(即图中RL basedmodel)和混合模型(即图中的Mixed model，强化学习和模仿学习相结合的模型)在单交叉口环境中熵的收敛曲线，可以看出混合模型的熵更小，这说明模仿学习本身是可以促成模型收敛的。图7(b)展示了经过预训练后价值函数的误差变化。从中可以看出，尽管模仿学习并没有考虑过价值误差，但训练的过程仍可以促使误差减小，进一步提升网络的效果。图7(c)展示了在两种方法作用下排队长度的变化趋势。其中竖直虚线表示混合模型模仿学习与强化学习的分割线，虚线右边表示强化学习过程。从中可以看出，混合模型的收敛速度明显好于单纯的强化学习模型。

如图8(a)所示，展示了在不同流量条件下混合模型的收敛曲线。可以看出，流量越大，模型的收敛速度越慢，而在总流量一定的情形下，可变流量与非对称流量并不会显著增加训练时长，所以本发明模型对于实践中常见的交通流量变化也有很好的适应性。另外，本发明还将模型在更大规模的交叉口中收敛性进行了对比。图8(b)展示了混合模型在不同交叉口数量的情况下的收敛曲线。可以看出，随着训练次数的增加，每一种情况均可以收敛。但交叉口数量越多，收敛速度越慢，而且在收敛的过程中波动越大。这是由于随着交叉口数量的增多，动作空间会逐渐增大，这导致模型需要更多的时间进行探索。而交叉口数量变多后，相互之间影响也会更加复杂，所以会导致波动增大的情形。

如图9(a)～9(d)所示，展示了不同的模型在不同流量条件下的排队长度、平均等待时间、平均速度以及平均能耗的对比。从中可以看出，相比于模仿学习模型、已有专家模型以及纯粹的强化学习模型，本发明提出的混合模型在各项指标中均表现更为出色，在大部分情况下下优于单纯的模仿学习模型或者强化学习模型。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于包括以下步骤：

2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型，该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入，以一组多维动作作为输出，其中，每一个维度的动作分别表示相对应的交叉口切换相位的概率；

2.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤1)中，根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量的方法，包括以下步骤：

3.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤2)中，建立的多交叉口协同控制神经网络模型包括第一、第二两个卷积层、第一、第二两个池化层、合并层以及一个全连接层；

4.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3)中，采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型的方法，包括以下步骤：

3.1)采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练，得到初步优化后的多交叉口协同控制神经网络模型；

5.如权利要求4所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3.1)中，采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练，得到初步优化后的多交叉口协同控制神经网络模型的方法，包括以下步骤：

其中，对训练样本进行标注的公式为：

其中，y_i表示第i个维度的数据标签，也表示第i个交叉口当前数据样本所对应的基于规则的策略；

表示其余三个红灯相位所对应车道的低速车辆的数量，β取0.13；

3.1.4)将能够反映该多交叉口交通网络原始交通状态的多通道张量输入多交叉口协同控制神经网络模型得到其输出值，根据输出值与训练标签数据，计算得到损失函数，并通过最小化损失函数来对多交叉口协同控制神经网络模型进行训练。

6.如权利要求5所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3.1.4)中，损失函数的计算公式为：

e_i＝y_iln(p_i)+(1-y_i)ln(1-p_i)，

式中，y_i表示第i个维度的标签，p_i表示多交叉口协同控制神经网络模型在第i个维度的输出，e_i表示第i个维度的多交叉口协同控制神经网络模型与标签之间的交叉熵，c表示引入的L2正规化惩罚项系数，且c＝10^-4，θ表示神经网络的参数。

7.如权利要求4所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3.2)中，采用强化学习方法对步骤3.1)得到的模型继续训练，直到模型精度达到预设阈值，得到最优多交叉口协同控制神经网络模型的方法，包括以下步骤：

3.2.2)初始化强化学习的仿真次数N_rl；

执行该随机动作

8.如权利要求7所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3.2.3)中，奖励函数的计算公式为：

其中，

表示t时刻和t+1时刻车道i的低速车辆数量。

9.如权利要求7所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3.2.4)中，目标函数的计算公式为：

其中，ε表示阈值，

表示新策略π′与老策略π的比值，其计算公式为：