CN113487860A

CN113487860A - 一种智能交通信号控制方法

Info

Publication number: CN113487860A
Application number: CN202110717477.1A
Authority: CN
Inventors: 刘鹏; 张真; 曹旭东; 曹骝; 时晨皓
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-08

Abstract

本发明公开了一种智能交通信号控制方法，包括获取路网车流运行数据并评价当前交通拥堵值；构建并训练交通信号控制模型；利用训练好的交通信号控制模型判断路网状态并获得能减少路网交通拥堵的最佳交通信号控制策略。本发明通过卷积神经网络对交通路网状态数据进行处理，有效提取交通流的时空依赖特征，同时采用Actor‑Critic的强化学习方法以价值函数迭代逼近的方式解决信号相位组合空间巨大的问题，从而建立智能交通信号控制模型。模型的移植性强，能够适用于各种形式的道路交通状况。

Description

一种智能交通信号控制方法

技术领域

本发明属于交通信号控制技术领域，具体涉及一种智能交通信号控制方法。

背景技术

20世纪60年代，众多学者提出了不同的方法控制交通信号相位。应用历史数据来确定最佳交通信号周期和相位的固定配时控制(fixed-time control)方式是最早的交通信号控制方法之一。1958年Webster提出，通过比较交叉口各车道流率，确定关键车流方向，以此寻找最佳信号周期、绿信比的方法。但是，固定配时方法是基于历史交通流数据给出的相位控制方案，因此不具有预测交通需求的功能，所以很难适应实时交通状态的变化。但是，因其计算简单、操作方便，至今仍被许多地区广泛应用。

随着数据监测技术的发展以及硬件水平的提升，针对固定配时方案的进一步改进方法是以实时交通流数据监测为依据的感应式信号控制(actuated traffic signalcontrol)。20世纪70年代，在预先指定信号相位的基础上，利用电磁感应探测器测量车辆之间的间隙，判断连续行驶车流中的最后一辆车是否已经通过停止线，以确定是否延长或终止绿灯时间。MOVA、LHVORA和SOS系统均采用了感应式信号控制系统。但是，感应式信号控制方式同样存在一些弊端。该方法虽然能够根据流量变化而改变相位配时，但是很大程度上依赖于预设的信号相位控制策略，仅能通过延长和缩短原有相位时间适应交通流量变化，控制的灵活性降低。而且电感检测器的位置设置较大的影响数据的采集与分析，并且随着使用年限的增加，设备损坏率不断升高，但是设备维修往往带来已有道路的破坏和交通流的影响，使得维修成本进一步提高，因此感应式信号控制方式的使用受到了较大程度的限制。

为了更有效地预测绿色时间，考虑时间、天气、季节等多种因素的交通自适应控制系统被逐步的建立和完善。自适应交通控制系统，依靠不断采集控制过程信息，连续感知和监测交通状况，根据系统使用者的交通运行效率目标，产生自适应控制规律，从而实时地调整非线性结构参数和控制逻辑，使交通流始终保持良好的运行状态。SCATS、SCOOT和SMOOTH都是著名的自适应系统，可以实时收集每个十字路口的交通流数据，以控制交通灯的时间。但是自适应控制系统的建立需要众多的环境参数标定，且系统的地区针对性较强，很难进行系统的迁移。因此，开发具有环境适应性强，能够自我学习升级，根据交通状态变化不断调整信号策略的新一代信号控制系统仍然是一个亟待解决的问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种智能交通信号控制方法。

为实现上述技术目的，本发明采取的技术方案为：

一种智能交通信号控制方法，包括：

步骤1、获取路网车流运行数据并评价当前交通拥堵值；

步骤2、构建并训练交通信号控制模型；

步骤3、利用训练好的交通信号控制模型判断路网状态并获得能减少路网交通拥堵的最佳交通信号控制策略。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1所述路网车流运行数据包括路网车流运行状态数据S和信号灯工作状态数据；

所述路网车流运行状态数据S包括路网整体交通运行状态数据、目标路口周边区域交通运行状态数据和目标路口各进口道交通运行状态数据。

上述的步骤2所述交通信号控制模型包括actor动作神经网络和critic评估神经网络；

所述actor动作神经网络用于在与真实路网环境进行路网车流运行数据交互的基础上产生信号控制动作，其输入为车流运行状态数据S，输出为各种信号控制相位选择的概率，actor动作网络具体为：

f_π(θ)(s)＝P(a|s,θ)

其中，f_π(θ)表示actor动作神经网络，θ表示actor动作神经网络参数，P(a|s,θ)表示在车流运行状态S条件下actor动作神经网络输出信号控制动作a的概率，所述信号控制动作即为路网车流运行数据；

所述critic评估神经网络用于评估actor动作神经网络的输出表现，判断当前状态下采取actor动作神经网络输出的信号控制动作未来可能取得的收益，并指导actor动作神经网络下一时刻的信号控制动作，critic评估神经网络具体为：

v_π(w)(s)＝v(s,w)

其中，v_π(w)表示critic评估神经网络，w表示critic评估神经网络参数，v(s,w)表示在actor动作神经网络输出的信号控制动作下从车流运行状态未来可能达到的期望价值，即预测拥堵值。

使用均方差损失函数作为所述critic评估神经网络参数w的梯度更新方向，所述均方差损失函数为：

c_loss＝∑(td_ε(t)²)

其中，c_loss表示critic评估神经网络的损失函数，即为时序差分误差的平方和；

更新评估actor动作神经网络参数θ的损失函数公式如下：

其中，α表示学习率，即梯度更新的幅度，N表示batch size，即一批训练样本的数量，θ表示actor动作神经网络参数，P(a|s,θ)表示在车流运行状态S条件下actor动作神经网络输出信号控制动作a的概率。

上述的步骤3所述利用训练好的信号控制模型判断路网状态并获得能减少路网交通拥堵的最佳交通信号控制策略具体为：

通过循环的使用actor动作神经网络挑选信号相位，记录路网环境变化以及拥堵值，获得训练样本集合，再不断的训练critic评估神经网络和actor动作神经网络，使得critic评估神经网络能准确的判断路网状态并指导actor动作神经网络选择能减少路网交通拥堵的最佳交通信号控制策略。

利用actor网络不断的与路网交通环境进行交互，获得不同的状态-动作对(s,a)即交通运行状态与对应的交通信号相位，并计算得到路网交通环境状态的拥堵值r，然后开始计算时序差分误差值，公式如下：

td_ε(t)＝r_t+γv(s_t+1)-v(s_t)

其中，td_ε(t)表示t时刻的时序差分误差，即TD_error，交通运行状态由s_t经过交通信号控制相位，r_t表示t时刻的交通状态拥堵值，γ表示未来奖励折减系数，v(s_t+1)表示t+1时刻交通状态输入下critic评估神经网络的预测值，v(s_t)表示t时刻交通状态输入下critic评估神经网络的预测值；

随后，使用上述的均方差损失函数和动作损失函数作为critic评估神经网络和actor动作神经网络参数的梯度更新方向，训练两个神经网络。最后，将参数更新后的两个神经网络用于路网交通环境的交互，实现模型的循环训练。

最终，将满足通行效率要求的已训练的交通信号控制模型用于交叉口信号相位的实时控制，从而获得减少路网交通拥堵的最佳交通信号控制策略。

上述的交通状态拥堵值根据国标《GB/T 33171-2016城市交通运行状况评价规范》进行评价。

本发明具有以下有益效果：

本发明通过卷积神经网络对交通路网状态数据进行处理，有效提取交通流的时空依赖特征，同时采用Actor-Critic的强化学习方法以价值函数迭代逼近的方式解决信号相位组合空间巨大的问题，从而建立智能交通信号控制模型。

首先，该模型能够根据实时的交通流数据反馈在实现交通拥堵降低的目标下及时的调整信号相位，具有很强的动态性。

其次，模型的训练学习过程不需要人工参与，是一种智能的自学习自组织的信号控制方式。同时，模型建立和训练的过程中减少了许多环境参数的标定，自适应能力强。

最后，虽然每个地区的交通设施和路网物理结构各有不同，但是交通流的特性却具有相似性。而本发明正是基于交通流特性开发的，因此模型的移植性强，能够适用于各种形式的道路交通状况。

附图说明

图1是本发明的流程示意图；

图2是最佳交通信号控制策略生成示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

参见图1，本发明的一种智能交通信号控制方法,包括：

步骤1、获取路网车流运行数据并评价当前交通拥堵值；

步骤2、构建并训练交通信号控制模型；

实施例中，步骤1所述路网车流运行数据包括路网车流运行状态数据S和信号灯工作状态数据；

实施例中，步骤2所述交通信号控制模型包括actor动作神经网络和critic评估神经网络；

f_π(θ)(s)＝P(a|s,θ)

v_π(w)(s)＝v(s,w)

实施例中，使用均方差损失函数作为所述critic评估神经网络参数w的梯度更新方向，所述均方差损失函数为：

c_loss＝∑(td_ε(t)²)

更新评估actor动作神经网络参数θ的损失函数公式如下：

实施例中，步骤3所述利用训练好的信号控制模型判断路网状态并获得能减少路网交通拥堵的最佳交通信号控制策略具体为：

参见图2，智能交通信号控制方法计算流程如下：

输入：交通量、车辆平均速度、平均排队长度、平均停车等待时间等指标构成的交通状态矩阵作为模型的输入s

输出：获得基于CNN-LSTM(Convolution Neural Network-Long Short TermMemory)的策略网络Actor和价值网络Critic的最优参数

步骤1：将交通环境状态s输入到actor的CNN-LSTM网络，得到信号相位(actions)的选择概率分布，然后通过这个分布采样选择一个信号相位(Action)，再输入到交通环境中得到信号相位控制下的下一步交通状态矩阵s_和当前路网拥堵值作为奖励R，然后存储获得的数据(s,a,R,s_)；

步骤2：将当前交通状态s和下一步的交通状态s_分别输入到Critic估值网络中，得到当前状态和下一步状态下的拥堵估计值，即v和v_值；

步骤3：将两种交通状态下的拥堵估计值结合步骤1中交通环境给出的奖励R，计算时间差分误差TD_error(Temporal Difference Error)；

步骤4：Critic网络的损失函数c_loss即为TD_error的均方根误差MSE，利用误差反向传播(Back Propagation，BP)更新Critic网络参数；

步骤5：将TD_error乘以信号相位选择概率的对数(log)取值计算得到Actor网络的损失a_loss，并用于反向传播更新Actor网络参数；

步骤6：循环执行步骤1-5。

td_ε(t)＝r_t+γv(s_t+1)-v(s_t)

实施例中，所述交通状态拥堵值根据国标《GB/T 33171-2016城市交通运行状况评价规范》进行评价。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种智能交通信号控制方法，其特征在于，包括：

步骤1、获取路网车流运行数据并评价当前交通拥堵值；

步骤2、构建并训练交通信号控制模型；

2.根据权利要求1所述的一种智能交通信号控制方法，其特征在于，步骤1所述路网车流运行数据包括路网车流运行状态数据S和信号灯工作状态数据；

3.根据权利要求1所述的一种智能交通信号控制方法，其特征在于，步骤2包括以下步骤：

步骤(a)利用卷积神经网络搭建actor动作神经网络，用于输出信号相位a，并搭建critic评估神经网络，用于预测未来交通拥堵评估值v，actor动作神经网络和critic评估神经网络共同组成交通信号控制模型；

步骤(b)将获取到的路网车流运行数据s输入actor动作神经网络，输出信号相位a，基于信号相位a，得到新的交通路网车流运行数据s’，和对应的路网交通r拥堵值；

步骤(c)在critic评估神经网络中分别输入路网车流运行数据s和s’得到路网交通评估值v(s)和v(s’)；

步骤(d)计算时序差分误差TD_error：td_ε(t)＝r_t+γv(s_t+1)-v(s_t)；

步骤(e)使用均方差损失函数c_loss＝∑(td_ε(t)²)作为critic评估神经网络参数的梯度更新方向；

步骤(f)采用动作损失函数

作为actor动作神经网络参数更新的方向；

步骤(h)将参数更新后的critic评估神经网络、actor动作神经网络再次用于新一轮的信号相位输出和交通状态评估，即循环步骤(b)～(f)实现模型的迭代训练，最终得到一个训练完成的交通信号控制模型。

4.根据权利要求2所述的一种智能交通信号控制方法，其特征在于，步骤2所述交通信号控制模型包括actor动作神经网络和critic评估神经网络；

f_π(θ)(s)＝P(a|s,θ)

v_π(w)(s)＝v(s,w)

5.根据权利要求3所述的一种智能交通信号控制方法，其特征在于，使用均方差损失函数作为所述critic评估神经网络参数w的梯度更新方向，所述均方差损失函数为：

c_loss＝∑(td_ε(t)²)

更新actor动作神经网络参数θ，其动作损失函数公式如下：

6.根据权利要求5所述的一种智能交通信号控制方法，其特征在于，步骤3所述利用训练好的信号控制模型判断路网状态并获得能减少路网交通拥堵的最佳交通信号控制策略具体为：

7.根据权利要求6所述的一种智能交通信号控制方法，其特征在于，步骤3所述利用训练好的信号控制模型判断路网状态并获得能减少路网交通拥堵的最佳交通信号控制策略具体为：

td_ε(t)＝r_t+γv(s_t+1)-v(s_t)

随后，使用均方差损失函数和动作损失函数作为critic评估神经网络和actor动作神经网络参数的梯度更新方向，训练两个神经网络；

最后，将参数更新后的两个神经网络用于路网交通环境的交互，实现模型的循环训练；

将满足通行效率要求的已训练的交通信号控制模型用于交叉口信号相位的实时控制，从而获得减少路网交通拥堵的最佳交通信号控制策略。

8.根据权利要求1-7任一所述的一种智能交通信号控制方法，其特征在于，所述交通状态拥堵值根据国标《GB/T 33171-2016城市交通运行状况评价规范》进行评价。