CN116824848A

CN116824848A - 基于贝叶斯深度q网络的交通信号优化控制方法

Info

Publication number: CN116824848A
Application number: CN202310676295.3A
Authority: CN
Inventors: 李龙; 陶玉飞; 王志文; 田胜利; 王�锋; 于宇凌; 钱蕊
Original assignee: Gs Unis Intelligent Transportation System & Control Technology Co ltd
Current assignee: Gs Unis Intelligent Transportation System & Control Technology Co ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-09-29

Abstract

基于贝叶斯深度Q网络的交通信号优化控制方法，涉及智慧交通技术领域，包括如下步骤：(1)建立基于深度强化学习的交通信号控制模型，具体包括：s11定义模型的状态；s12定义模型的动作；s13定义模型的奖励函数；s14设计优先贝叶斯深度Q网络；(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型；(3)生成交通信号配时优化控制策略和持续更新模型。该方法利用贝叶斯深度Q网络的强化学习能力，针对交通信号控制问题进行优化，以提高交通流效率和减少交通拥堵。

Description

基于贝叶斯深度Q网络的交通信号优化控制方法

技术领域

本发明涉及智慧交通技术领域，具体涉及基于贝叶斯深度Q网络的交通信号优化控制方法。

背景技术

交通信号配时优化控制是引导车辆通过交叉口的主要方法，通过改进交通信号灯的配时方式，可以使交叉口获得更高的车流吞吐量，并有效的减少拥堵、降低汽车尾气排放、优化出行。

传统的交通信号控制大多是通过收集当前交叉口历史车流量设定的定时控制方法，或基于当前车流密度，调整交通信号绿灯时长的感应控制技术。然而，这些传统的信号配时方式仅适用于交通流量相对恒定的情形，难以处理时变的、复杂的、大规模的交通场景，导致交通拥堵、行程时间延长和能源浪费等问题。随着人工智能技术的发展，应用人工智能技术设计自适应交通信号控制系统变得越来越广泛，深度强化学习(DeepReinforcement learning，DRL)是人工智能技术的一个分支，其具有优秀的自学习能力。基于深度强化学习的交通信号优化控制方法可以通过对交通数据的学习和分析来实现更加智能化和个性化的交通信号控制。已有越来越多的学者将深度Q网络及其改进方法应用在交通信号优化控制中，但是它们通常采用贪心搜索策略，导致智能体最终在动作选择上无法很好地平衡探索与利用之间的关系。

发明内容

基于以上不足，本发明涉及一种基于贝叶斯深度Q网络的交通信号优化控制方法，该方法利用贝叶斯深度Q网络的强化学习能力，针对交通信号控制问题进行优化，以提高交通流效率和减少交通拥堵。

本发明提供如下技术方案：包括如下步骤：

(1)建立基于深度强化学习的交通信号控制模型，具体包括：

s11定义模型的状态；

s12定义模型的动作；

s13定义模型的奖励函数；

s14设计优先贝叶斯深度Q网络：在网络结构上PBDQN将当前仿真步获取的交通环境状态s作为神经网络的输入，在神经网络的末层使用BLR拟合神经网络特征q_θ(s)∈R^d的输出，根据BLR原理，价值函数被近似为神经网络特征输出的线性变换，即对于已知的状态动作对(s，a)，价值函数Q_θ(s，a)可表示为：

Q_θ(s，a)＝q_θ(s)^Tw_a

其中，w_a∈R^d是动作的后验分布；d是特征参数的输出维度；a代表智能体的动作；

在价值函数的后验分布中部署汤普森采样方法选择最优动作，当给定1组经验数据样本(s，a，r，s′)，由价值函数关系，目标网络的价值函数可表示为：

其中，为目标网络的特征表示；/> 为时序不相关的的高斯噪声；

后验更新时，从经验回放池中获取批量的数据M＝{s_j，a_j，y_j}^B，记M_a是当a_j＝a时的历史数据，求解w_a和相应的Q_θ(s，a)即获取分布P(w_a|M_a)和集合p(Q_θ(s，a)|M_a)，对于动作a及相应的M_a构造其特征表示q_θ(s)的列矩阵和目标网络价值函数集合，由贝叶斯共轭性质，w_a服从如下分布：

根据特征表示和上式给出的动作后验分布关系，相应的价值函数后验表示如下：

那么，所有的动作的后验分布服从输出端部署TS方法获取最优价值函数对应的动作a_TS：

a_TS＝argmax_aW^Tq_θ(s)

神经网络特征参数更新方式遵循梯度下降法：

(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型；

(3)生成交通信号配时优化控制策略和持续更新模型。

优选地，步骤(1)中，s11定义模型的状态：采用离散交通编码方式，将四向交叉口的进入车道根据车辆长度和车辆间距设定为离散网格的编码形式，在检测区域范围内的每个离散网格中置入检测器，通过检测器可以检测到每个离散网格中的车辆位置及速度，此外，构造了当前绿色信号相位特征向量L作为状态输入的一部分，因此构造交通环境状态S如下：

其中，P＝[P_nP_sP_wP_e]^T为四向交叉口的车辆位置特征矩阵，V＝[V_nV_sV_wV_e]^T为四向交叉口的车辆速度特征矩阵，位置特征矩阵中，0表示此离散网格没有车辆占用，1表示此位置被占用，速度特征矩阵中各离散网格的值则根据当前获取的实际车速确定，L为当前绿色信号相位特征，绿色信号相位以独热编码的方式设定，1表示该相位为激活状态，0表示其为非激活状态，m为交叉口离散网格的数量代表信号相位的数量；代表信号相位的数量；1代表过渡信号相位。

优选地，步骤(1)中，s12定义模型的动作：将智能体的动作设定为不等固定时间的相位，动作相位表示为南北向直行绿灯，南北向左转绿灯，东西向直行绿灯，东西向左转绿灯：

A_i＝{NSG,NSLG，WEG,WELG}

为满足交叉口环境中，左转和直行车辆到达流量不同的需求，设定每1个绿色信号相位有3种不同的相位时长10，15，20s可供选择。

优选地，步骤(1)中，s13定义模型的奖励函数：在仿真时间步t，当车辆的i的速度v_i(t)小于1.38m/s时，认为车辆处于等待状态并会引起交通拥堵，记w_i(t)为该车的等待时间：

其中，w_i(t-1)表示其在仿真步t-1的等待时间，1表示仿真时间1s。

当前仿真步所有车辆的累计等待时间总和为W(t)：

其中N是总的车辆数量；

相应的，仿真步t-1的车辆累计等待时间为w(t-1)：

模型的奖励函数R(t)定义为相邻仿真步所有等待车辆的等待时间差值，具体如下：

R(t)＝W(t-1)-W(t)。

优选地，步骤(2)具体实施步骤包括：

s21构建交通仿真环境：根据交叉口的交通环境和车辆流量数据配置交通防真软件，建立与交叉口相似的交通仿真环境，使用SUMO提供的Traci接口来获取交叉口的车辆信息，并通过发送相关信号变化指令来更改交通信号配时，以此来模拟交通环境的运行，生成各个信号周期的交通状态信息；

s22初始化在线网络和目标网络超参数θ,θ^-,M,B,γ,N,T，初始化动作的高斯分布参数W,W^-,Cov,σ²,将仿真步计数器初值置0；

s23观测并获取当前仿真步交叉口的交通环境状态s，判断是否满足汤普森采样周期，若是，则执行汤普森采样选择最优动作，否则通过前向网络计算奖励r_t并获得下一状态s′；

s24判断经验池数据长度是否小于最大数据容量，若是，将步骤(1)中的经验数据直接存入经验数据池，否则将最旧的数据删除后再进行存入操作；

s25以优先经验回放的方式在样本池中进行采样并使用梯度下降法更新网络参数；

s26检测训练回合数，若回合数epsilon小于最大回合数，则当前回合数+1，执行步骤s23，开始下一回合训练，否则，终止仿真并保存模型参数。

优选地，步骤(3)中利用步骤(2)所运行的深度强化学习交通信号配时优化控制模型在实际的路网中持续进行训练和优化，经过重复循环，使该模型可以更好的适应于实际的交通路网当中，实现对多交叉口交通信号的协调控制

与现有技术相比，本发明的有益效果是：

本方法通过分析交通流数据和实时交通状态，学习交通信号控制策略，并根据实时环境和交通需求进行动态调整，与传统的固定时间间隔信号控制方法相比，本方法能够根据实际交通情况实现灵活的信号调整，以最大程度地减少交通延误和能耗，并提升道路通行能力。具体地：

(1)本发明引入贝叶斯深度Q网络，可以准确建模不确定性和环境动态变化，提高交通信号优化控制的鲁棒性和适应性；

(2)本发明基于强化学习的方法，能够通过与环境的交互学习最优的控制策略，逐步优化交通流动效果；

(3)本发明结合历史数据和交通仿真模型的训练，能够提高模型的准确性和预测能力，从而更好地指导实际交通信号控制；

(4)本发明通过实时监测和反馈机制，根据不同路段、不同时间段的交通情况，能够及时调整信号控制策略，适应交通流的变化，提高交通流动的效率和安全性。

附图说明

图1为本发明提供交通信号优化控制方法流程图。

具体实施方式

下面对发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：基于贝叶斯深度Q网络的交通信号优化控制方法，如图1所示，包括如下步骤：

(1)建立基于深度强化学习的交通信号控制模型，具体包括：

s11定义模型的状态：采用离散交通编码方式，将四向交叉口的进入车道根据车辆长度和车辆间距设定为离散网格的编码形式，在检测区域范围内的每个离散网格中置入检测器，通过检测器可以检测到每个离散网格中的车辆位置及速度，此外，构造了当前绿色信号相位特征向量L作为状态输入的一部分，因此构造交通环境状态S如下：

其中，P＝[P_nP_sP_wP_e]T为四向交叉口的车辆位置特征矩阵，V＝[V_nV_sV_wV_e]为四向交叉口的车辆速度特征矩阵，位置特征矩阵中，0表示此离散网格没有车辆占用，1表示此位置被占用，速度特征矩阵中各离散网格的值则根据当前获取的实际车速确定，L为当前绿色信号相位特征，绿色信号相位以独热编码的方式设定，1表示该相位为激活状态，0表示其为非激活状态，m为交叉口离散网格的数量代表信号相位的数量；代表信号相位的数量；1代表过渡信号相位

s12定义模型的动作：将智能体的动作设定为不等固定时间的相位，动作相位表示为南北向直行绿灯，南北向左转绿灯，东西向直行绿灯，东西向左转绿灯：

A_i＝{NSG,NSLG,WEG,WELG}

s13定义模型的奖励函数：在仿真时间步t，当车辆的i的速度v_i(t)小于1.38m/s时，认为车辆处于等待状态并会引起交通拥堵，记w_i(t)为该车的等待时间：

当前仿真步所有车辆的累计等待时间总和为W(t)：

其中N是总的车辆数量；

相应的，仿真步t-1的车辆累计等待时间为w(t-1)：

R(t)＝W(t-1)-W(t)。

s14设计优先贝叶斯深度Q网络：在网络结构上PBDQN将当前仿真步获取的交通环境状态s作为神经网络的输入，在神经网络的末层使用BLR拟合神经网络特征q_θ(s)∈R^d的输出，根据BLR原理，价值函数被近似为神经网络特征输出的线性变换，即对于已知的状态动作对(s,a)，价值函数Q_θ(s,a)可表示为：

Q_θ(s,a)＝q_θ(s)^Tw_a

在价值函数的后验分布中部署汤普森采样方法选择最优动作，当给定1组经验数据样本(s,a,r,s′)，由价值函数关系，目标网络的价值函数可表示为：

后验更新时，从经验回放池中获取批量的数据M＝{s_j,a_j,y_j}^B，记M_a是当a_j＝a时的历史数据，求解w_a和相应的Q_θ(s,a)即获取分布P(w_a|M_a)和集合p(Q_θ(s,a)|M_a)，对于动作a及相应的M_a构造其特征表示q_θ(s)的列矩阵和目标网络价值函数集合，由贝叶斯共轭性质，w_a服从如下分布：

a_TS＝argmax_aW^Tq_θ(s)

神经网络特征参数更新方式遵循梯度下降法：

(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型，具体实施步骤包括：

(3)生成交通信号配时优化控制策略和持续更新模型：利用步骤(2)所运行的深度强化学习交通信号配时优化控制模型在实际的路网中持续进行训练和优化，经过重复循环，使该模型可以更好的适应于实际的交通路网当中，实现对多交叉口交通信号的协调控制。

本发明通过在网络结构的末端加入贝叶斯线性回归层，通过贝叶斯线性回归更新动作参数的后验分布进而更新价值函数的后验分布。在价值函数的分布上执行汤普森采样选择最优输出动作，加大了智能体对输出动作选择的不确定性探索。同时，经验样本采用Sumtree数据结构模式，在参数更新时利用优先经验回放技术可以提高数据采样效率。

本发明采用贝叶斯深度Q网络作为核心模型，结合强化学习算法，实现交通信号控制的智能优化；通过交通传感器和监控系统获取实时的交通流数据和交通状态信息，进行实时监测和分析；利用贝叶斯深度Q网络对历史交通数据进行训练，学习交通信号控制策略，包括信号相位、时长等参数；结合传感器和通信技术，实时感知交通环境和交通需求的变化，包括车流量、交通状况等；根据实时环境和交通需求的变化，通过贝叶斯深度Q网络进行动态信号调整，以优化交通流效率。通过交通数据分析和模拟仿真，评估优化后的交通信号控制方法的性能，并提供反馈用于改进算法和参数调整。

综上所述，本发明通过引入深度学习和强化学习的技术，能够实现更准确、适应性更强的交通信号控制，从而优化交通流动，减少拥堵，节约能源，提高交通效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围。

Claims

1.基于贝叶斯深度Q网络的交通信号优化控制方法，其特征在于，包括如下步骤：

(1)建立基于深度强化学习的交通信号控制模型，具体包括：

s11定义模型的状态；

s12定义模型的动作；

s13定义模型的奖励函数；

神经网络特征参数更新方式遵循梯度下降法：

(3)生成交通信号配时优化控制策略和持续更新模型。

2.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法，其特征在于，步骤(1)中，s11定义模型的状态：采用离散交通编码方式，将四向交叉口的进入车道根据车辆长度和车辆间距设定为离散网格的编码形式，在检测区域范围内的每个离散网格中置入检测器，通过检测器可以检测到每个离散网格中的车辆位置及速度，此外，构造了当前绿色信号相位特征向量L作为状态输入的一部分，因此构造交通环境状态S如下：

其中，为四向交叉口的车辆位置特征矩阵，/>为四向交叉口的车辆速度特征矩阵，位置特征矩阵中，0表示此离散网格没有车辆占用，1表示此位置被占用，速度特征矩阵中各离散网格的值则根据当前获取的实际车速确定，L为当前绿色信号相位特征，绿色信号相位以独热编码的方式设定，1表示该相位为激活状态，0表示其为非激活状态，m为交叉口离散网格的数量代表信号相位的数量；/>代表信号相位的数量；1代表过渡信号相位。

3.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法，其特征在于，步骤(1)中，s12定义模型的动作：将智能体的动作设定为不等固定时间的相位，动作相位表示为南北向直行绿灯，南北向左转绿灯，东西向直行绿灯，东西向左转绿灯：

A_i＝{NSG,NSLG,WEG,WELG}

4.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法，其特征在于，步骤(1)中，s13定义模型的奖励函数：在仿真时间步t，当车辆的i的速度v_i(t)小于1.38m/s时，认为车辆处于等待状态并会引起交通拥堵，记w_i(t)为该车的等待时间：

当前仿真步所有车辆的累计等待时间总和为W(t)：

其中N是总的车辆数量；

相应的，仿真步t-1的车辆累计等待时间为w(t-1)：

R(t)＝W(t-1)-W(t)。

5.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法，其特征在于，步骤(2)具体实施步骤包括：

6.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法，其特征在于，步骤(3)中利用步骤(2)所运行的深度强化学习交通信号配时优化控制模型在实际的路网中持续进行训练和优化，经过重复循环，使该模型可以更好的适应于实际的交通路网当中，实现对多交叉口交通信号的协调控制。