CN111915894A

CN111915894A - 基于深度强化学习的可变车道及交通信号协同控制方法

Info

Publication number: CN111915894A
Application number: CN202010784747.6A
Authority: CN
Inventors: 丁川; 聂午阳; 鹿应荣; 鲁光泉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-10
Anticipated expiration: 2040-08-06
Also published as: CN111915894B

Abstract

本发明公开了一种基于深度强化学习的可变车道及交通信号协同控制方法，包括采集交叉口状态观测值，包含车辆数据、信号灯数据、可变车道数据，并进行预处理后输入至神经网络；神经网络基于强化学习不断训练更新，直至模型收敛；基于训练好的神经网络进行最优控制，输出最优控制策略。本发明实现了可变车道和交通信号的耦合控制，并且可以根据交叉口区域的实时状态，进行实时的最优控制，不需要人工作业，可变车道的切换和交通信号的控制完全根据车流数据进行自适应调节，并且没有造成车辆二次停车，优化了信号控制交叉口的时空间资源利用效率。

Description

基于深度强化学习的可变车道及交通信号协同控制方法

技术领域

本发明涉及道路交通控制技术领域，更具体的说是涉及车路协同环境下一种信号控制交叉口可变车道和交通信号的协同自适应最优控制方法。

背景技术

信号控制交叉口往往是城市道路交通拥堵发生的地段，对城市交通整体运行效果有巨大影响。交通信号灯可以从时间层面保证车辆有序通过交叉口，可变车道可以从空间层面保证不同通行方向的车辆高效地利用道路空间资源。

虽然交通信号灯和可变车道的设置都可以在一定程度上确保交通良好有序运行，但是它们二者之间往往缺少紧密的协调。由于交叉口是一个车辆连续通行的动态场景，所以交通信号灯的控制和可变车道的设置互相之间也会产生很大的影响。在当今的城市中，交通信号灯往往是依据人工经验预先设置好，而可变车道的设置往往是依据历史车辆通行数据。二者并没有很好地耦合优化。另外，交通信号和可变车道其中一者的优化必将会对另一者产生影响，若另一者不相应进行改变，可能甚至会降低交叉口的通行效益。

因此，如何提供一种基于深度强化学习的可变车道及交通信号协同控制方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于深度强化学习的可变车道及交通信号协同控制方法，实现了可变车道和交通信号的耦合控制，优化了信号控制交叉口的时空间资源利用效率。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度强化学习的可变车道及交通信号协同控制方法，包括：

步骤1：采集交叉口状态观测值，包含车辆数据、信号灯数据和可变车道数据，并进行预处理后输入至神经网络；

步骤2：所述神经网络基于强化学习不断更新，直至模型收敛，其中，目标Q值的更新公式为：

Q(s_t,a_t)←Q(s_t,a_t)+α(r_t+γ·maxQ(s',a')-Q(s_t,a_t)) (1)

式中，s_t为t时刻的交叉口状态观测值，a_t为t时刻采取的控制动作，Q(s_t,a_t)为在状态s_t下采取动作a_t得到的期望未来奖励总和，简称为Q值，maxQ(s',a')为t+1时刻，所能取得的最大Q值，r_t为t时刻的奖励函数，γ为折扣因子，α为学习率；

步骤3：基于训练好的所述神经网络进行最优控制：

式中，π^*表示最优策略，s表示某一时刻交叉口状态观测值，a表示s时刻采取的控制动作，A表示所有控制动作，S表示所有交叉口状态观测值。

进一步，步骤1具体包括以下步骤：

步骤11：所述车辆数据包括检测区域内车辆的速度、距离交叉口的位置和通行方向，预处理过程为：

将每个进口道长度L的检测区域划分为m个长度为p的小方格，每个小方格内按照车辆的通行方向分别计算小方格内车辆的车辆数量和平均速度；

基于以上数据构建大小为b×m×d的矩阵，其中，第1个维度b＝t×n代表n个进口道上t个通行方向的车辆数据，例如某交叉口有4个进口道，同时要分别采集直行和左转2种通行方向车辆的数据则n取值4，t取值2，b经计算为8；第2个维度代表m个小方格；第3个维度d代表小方格采集几种信息，例如当采集车辆距离交叉口的位置和平均速度信息这两种信息时，d取值为2。举例来说，t取值为2，d取值为2时计算公式如下，其他情况类似：

其中，i代表第i个小方格；P代表位置信息；V代表速度信息；S代表直行车辆；L代表左转车辆；n_S为全部直行车辆；V_S为直行车辆的速度；n_L为全部左转车辆；V_L为左转车辆的速度；

所述信号灯数据包括信号灯程序和信号灯相位，所述信号灯程序包括可变车道通行方向为直行的程序和可变车道通行方向为左转的程序，预处理过程为：

在每一时刻t，用0和1变量表示两种信号灯程序，并编码为2×1的向量矩阵；

信号灯相位编码为一个p×1的向量矩阵，其中p代表相位的个数。例如当相位分别为南北直行、南北左转、东西直行、东西左转及相应的黄灯相位共8个相位时，编码为8×1的向量矩阵，其他情况类似；

所述可变车道数据包括可变车道通行方向以及可变车道通行方向和信号灯程序是否一致两部分。可变车道通行方向用0和1变量表示，表示在直行和左转中切换，编码为2×1的向量矩阵；变车道通行方向与信号灯程序是否一致也用0和1变量表示，编码为2×1的向量矩阵。

进一步，步骤2具体包括以下步骤：

步骤21：将经过预处理后的所述车辆数据依次经过两个卷积层和ReLU激活函数后，与经过预处理后的所述信号灯程序、所述信号灯相位、所述可变车道通行方向和所述辅助信息数据编码后进行拼接，得到长度为110的向量，再通过一个全连接层和ReLU激活函数后得到长度为16的向量，最后通过一个全连接层和softmax激活函数输出长度为3的向量，长度3代表所述神经网络输出的3个动作分别对应的Q值，也就是期望未来奖励总和；

步骤22：根据概率ε执行Q值最大的动作，根据概率1-ε执行随机动作，3个动作分别为：动作1保持当前相位不变，动作2信号灯切换到下一个相位，动作3切换可变车道通行方向；

步骤23：将t时刻所选择动作作用于交叉口后，将交叉口产生的下一时刻t+1的状态观测值和t时刻采取最大动作后获得的奖励函数更新Q值，重复步骤22和步骤23直至Q值稳定，得到训练好的所述神经网络。

进一步，切换可变车道通行方向具体过程为：

步骤221、判断可变车道通行方向与信号灯程序是否一致，若一致则执行步骤222，否则执行步骤223；

步骤222、切换可变车道通行方向；

步骤223、对可变车道进行清空检测，如果当前可变车道通行方向为直行，判断是否有左转车辆在该车道上，有的话则清空检测结果为false，没有的话清空检测结果为true；类似地，如果当前可变车道通行方向为左转，判断是否有直行车辆在该车道上，有的话则清空检测结果为false，没有的话清空检测结果为true。若清空检测结果为true，则执行步骤224，清空检测结果为false，则不执行任何动作；

步骤224、切换信号灯程序，如果当前信号灯程序为直行，则将信号灯程序切换为左转；如果当前信号灯程序为左转，则将信号灯程序切换为直行。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于深度强化学习的可变车道及交通信号协同控制方法，实现了可变车道和交通信号的耦合控制，并且可以根据交叉口区域的实时状态，进行实时的最优控制，不需要人工作业，可变车道的切换和交通信号的控制完全根据车辆流数据进行自适应调节，并且没有造成车辆二次停车，优化了信号控制交叉口的时空间资源利用效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为常规信号控制交叉口示意图；

图2为常规信号控制交叉口进口道可变车道设置和检测区域示意图；

图3为常规信号控制交叉口所采用的的信号灯程序及相位示意图；

图4为可变车道切换逻辑示意图；

图5为神经网络内部计算过程示意图；

图6为神经网络训练过程示意图；

图7为神经网络进行最优控制示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，以一个常规信号控制交叉口为例。假定南北方向进口道的第2条单车道设置为可变车道，并且在每个进口道距离交叉口一定距离设置为检测区域，如图2所示。在图2中仅给出了南北方向进口道检测区的示意图，其他三个方向进口道也存在同样的检测区域。另外在可变车道单车道的入口处设置有信号指示板，信号指示板指示出了直行车辆或左转车辆可以进入该可变车道。

待车辆进入了检测区域后，车辆便将自己的速度、位置、通行方向等数据传输给交叉口区域控制器，交叉口区域控制器根据检测区域范围内车辆的数据生成交叉口区域车辆状态描述矩阵，以进一步根据计算输出控制动作。

该常规信号控制交叉口的信号灯程序如图3所示。两套信号灯程序分别对应可变车道的通行方向为直行和左转，分别是直行四相位程序和左转四相位程序。四个相位依次为：1南北直行、2南北左转、3东西直行、4东西左转。每一个相位都由17个字母表示，其中G表示绿灯，R表示红灯。从北边进口道最左侧单车道开始，按照顺时针方向，17个字母分别对应每个单车道上每个通行方向的信号灯信息。由于可变车道存在两个通行方向，所以可变车道单车道的信号灯信息由两个字母表示。图3给出了直行程序四相位南北直行的示意图。

举一个例子来说明基于深度强化学习的可变车道设计及车路协同控制方法。假定常规信号交叉口场景如图1所示，为一个双向8车道交叉路口。包括以下步骤：

步骤1：控制器获取时刻t交通状态观测数据，具体来说，交叉口交通状态数据包括：车辆数据、信号灯数据、可变车道数据。作为神经网络的输入。由于交叉口的数据为非结构化的数据，所以需要进行预处理获得结构化的数据。数据采集与预处理的具体过程如下：

(1)车辆数据。在每一时刻t，采集检测区域内车辆的速度、距离交叉口的位置、通行方向等数据。具体采集方法为：将每个进口道长度为L的检测区域划分为m个长度为p的小方格，每个小方格内按照车辆的通行方向分别计算小方格内车辆的数量和平均速度。基于以上数据构建大小为8×m×2的矩阵，其中第1个维度分别代表车辆通行方向为直行的四个进口道的车辆数据和车辆通行方向为左转的四个进口道的车辆数据；第2个维度代表m个小方格；第3个维度代表小方格采集的位置和平均速度信息。最终，车辆数据被处理为结构化的大小为8×m×2的位移、速度矩阵。计算公式如下：

(2)信号灯数据。对于带有可变车道的信号控制交叉口，信号灯数据包括信号灯程序和信号灯相位两方面。信号灯程序包括可变车道通行方向为直行的程序和可变车道通行方向为左转的程序，在每一时刻t，用0和1变量表示两种信号灯程序，并编码为一个2×1的向量矩阵。信号灯相位为常规的信号控制交叉口四相位，分别是南北直行、南北左转、东西直行、东西左转及相应的黄灯相位，在每一时刻t，将其编码为8×1的向量矩阵。

(3)可变车道数据。包括可变车道的通行方向和可变车道通行方向与信号灯程序是否一致。可变车道的通行方向会随着控制器的指令在直行和左转中切换。在每一时刻t，用0和1变量表示可变车道的通行方向，将其编码为一个2×1的向量矩阵。在每一时刻t，可变车道通行方向与信号灯程序是否一致同样地用一个0和1变量来表示，将其编码为一个2×1的向量矩阵。

步骤2：控制器的控制策略π由深度神经网络构成，具体来说，使用一个深度神经网络来表征Q函数，神经网络的参数θ即是控制策略π，获得最优控制策略也就是获得最优参数。Q函数的定义为控制器在状态s下采取动作a所能获得的最大未来期望奖励总和。该深度神经网络的输入为控制器从交叉口获得的交通状态观测值，输出是控制器所采取的所有动作分别对应的Q值的大小。在选择最优动作时，选择神经网络输出值最大值所对应的动作。

神经网络结构如图5所示。神经网络的输入为交通状态观测值，结构化处理后的车辆数据经过两个卷积层和ReLU激活函数的计算后展开，并与信号灯相位、信号灯程序、可变车道通行方向、以及表征信号灯程序与可变车道通行方向是否一致的变量编码后进行拼接得到长度为110的向量，接着经过一个全连接层和ReLU激活函数的计算后得到长度为16的向量，最后经过一个全连接层和softmax激活函数输出长度为3的向量，长度3代表控制所能采取的3个动作分别对应的Q值。

神经网络的参数θ的具体训练过程为：

步骤21：将时刻t采集到的交通数据输入到神经网络中，神经网络输出三个值，分别对应3个动作的Q值。3个动作分别为：动作1保持当前相位不变，即不采取任何动作；动作2信号灯切换到下一个相位；动作3切换可变车道通行方向。

步骤22：根据概率ε执行Q值最大的动作，根据概率1-ε执行随机动作，需要说明的是，当控制器采取动作3切换可变车道通行方向时，不能直接切换可变车道的通行方向，因为此时可能存在上一可变车道通行方向的车辆残留。需要进行可变车道清空检测以及使信号灯程序的切换延迟于可变车道通行方向的切换，其流程图如图4所示。

步骤222、切换可变车道通行方向；

步骤224、切换信号灯程序，如果当前信号灯程序为直行，就将信号灯程序切换为左转；如果当前信号灯程序为左转，就将信号灯程序切换为直行。

上述可变车道切换逻辑为周期的形式，在每个周期内，当第一次接收到切换可变车道通行方向的动作时，直接切换可变车道通行方向并进入清空检测阶段，此时信号灯程序尚不进行切换。在清空检测阶段内，再次接收到切换可变车道通行方向的动作时，不直接进行可变车道通行方向切换，而是首先检测可变车道内是否有上一通行方向车辆的残留，若有则不执行任何动作，保持当前信号灯程序不变；若上一通行方向车辆已清空，则切换信号灯程序，使得信号灯程序和可变车道通行方向一致。至此，完成了一次可变车道切换周期。该可变车道切换逻辑只适用于基于强化学习类的控制算法。

步骤23：将t时刻所选择的动作作用于交叉口后，将交叉口产生的下一时刻t+1的状态观测值和t时刻采取最大动作后获得的奖励函数更新Q值，公式为：

Q(s_t,a_t)←Q(s_t,a_t)+α(r_t+γ·maxQ(s',a')-Q(s_t,a_t))

其中，s_t为t时刻的交叉口状态观测值，a_t为t时刻采取的控制动作，Q(s_t,a_t)为在状态s_t下采取动作a_t所获得的期望未来奖励总和，maxQ(s',a')为t+1时刻所能取得的最大Q值，r_t为t时刻的奖励函数，即时刻t通过交叉口的总车辆数，γ为折扣因子，通常取值为0.95，α为学习率一般设为0.00025。

每次更新了Q值后，神经网络都对新得到的Q值进行拟合，即更新神经网络的参数θ。

训练过程就是不断重复步骤2的过程，如图6所示。交叉口不断传递交通状态观测值s_t给控制器，控制器根据控制策略和输入的状态描述s_t，输出动作a_t。输出的动作a_t作用于交叉口，交叉口将产生的下一时刻t+1的状态描述s_t+1和控制器采取动作a_t后获得的奖励r_t发送回控制器，接着更新Q值和参数θ。一直到Q值收敛，即Q值基本稳定时，认为训练完毕，此时可以停止训练，得到训练好的神经网络。

步骤24：基于训练完成的神经网络进行最优控制：

经过训练后，神经网络的参数θ已经优化到了最优值θ^*。最优控制策略可以表示为：

在每一个状态s采取动作a使得Q值最大的那个策略π即是最优策略π^*。在任意时刻，将交叉口状态观测值输入至神经网络中，根据最优控制策略π^*输出最优动作，也就是在每一个时刻t都执行Q值最大的动作，实现可变车道及交通信号的协同控制，如图7所示。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，包括：

Q(s_t,a_t)←Q(s_t,a_t)+α(r_t+γ·maxQ(s',a')-Q(s_t,a_t)) (1)

步骤3：基于训练好的所述神经网络进行最优控制：

式中，π^*表示最优策略，s表示某一时刻交叉口状态观测值，a表示在状态s下采取的控制动作，A表示所有控制动作，S表示所有状态。

2.根据权利要求1所述的一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，步骤1具体包括以下步骤：

步骤11：所述车辆数据包含检测区域内车辆的速度、距离交叉口的位置和通行方向，预处理过程为：

将每个进口道长度L的检测区域划分为m个长度为p的小方格，每个小方格内按照车辆的通行方向分别计算小方格内车辆的数量和平均速度；

基于以上数据构建大小为b×m×2的矩阵，其中，第1个维度b＝t×n代表n个进口道上t个通行方向的车辆数据；第2个维度代表m个小方格；第3个维度2代表小方格内采集的车辆的数量和平均速度信息，计算公式为：

所述信号灯数据包含信号灯程序和信号灯相位，所述信号灯程序包括可变车道通行方向为直行的程序和可变车道通行方向为左转的程序，预处理过程为：

信号灯相位编码为一个p×1的向量矩阵，其中p代表相位的个数；

所述可变车道数据包括可变车道通行方向以及可变车道通行方向和信号灯程序是否一致；可变车道通行方向用0和1变量表示，表示在直行和左转中切换，编码为2×1的向量矩阵；变车道通行方向与信号灯程序是否一致用0和1变量表示，编码为2×1的向量矩阵。

3.根据权利要求2所述的一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，步骤2具体包括以下步骤：

步骤21：将经过预处理后的所述车辆数据依次经过两个卷积层和ReLU激活函数后，与经过预处理后的所述信号灯程序、所述信号灯相位和所述可变车道通行方向数据编码后进行拼接，得到长度为110的向量，再通过一个全连接层和ReLU激活函数后得到长度为16的向量，最后通过一个全连接层和softmax激活函数输出长度为3的向量，长度3代表所述神经网络输出的3个动作分别对应的Q值；

步骤22：根据概率ε执行Q值最大的动作，根据概率1-ε执行随机动作，3个动作分别为：动作1保持当前相位不变，动作2信号灯切换到下一个相位，动作3切换可变车道通行方向；概率ε在训练开始时设置为0.5，随训练进行不断增大，到训练结束时概率ε增大到0.9；

步骤23：将t时刻所选择动作作用于交叉口后，将交叉口产生的下一时刻t+1的状态观测值和t时刻采取动作后获得的奖励函数更新Q值，重复步骤22和步骤23直至Q值稳定，得到训练好的所述神经网络。

4.根据权利要求3所述的一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，切换可变车道通行方向具体过程为：

步骤222、切换可变车道通行方向；

步骤223、对可变车道进行清空检测，如果当前可变车道通行方向为直行，判断是否有左转车辆在该车道上，如果有则清空检测结果为false，否则清空检测结果为true；如果当前可变车道通行方向为左转，判断是否有直行车辆在该车道上，如果有则清空检测结果为false，否则清空检测结果为true；当清空检测结果为true时，执行步骤224，清空检测结果为false，则不执行任何动作；