CN115019506A

CN115019506A - 一种基于多进程强化学习的可变车道控制方法

Info

Publication number: CN115019506A
Application number: CN202210618862.5A
Authority: CN
Inventors: 孙彤; 姜蔚; 文强
Original assignee: Shandong Henghao Information Technology Co ltd
Current assignee: Beijing Baichebao Technology Co ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-09-06
Anticipated expiration: 2042-06-01
Also published as: CN115019506B

Abstract

本发明提供了一种基于多进程强化学习的可变车道控制方法，构建转向趋势预测神经网络，将串行运行的神经网络群组基于各个子集分解为独立并行的模块，进行多进程计算，预测不同周期不同路段的转向比例，得到转向趋势预测值；根据上游路段的车流量结合转向趋势预测值，预估监测路段的车流量，得到预测监测路段的车辆转向趋势；根据监测路段的转向趋势预测值和预测监测路段的车辆转向趋势，设立阈值控制可变车道信号灯。本发明解决了现有技术由于无法根据路口的交通需求变化灵活的调整控制策略，灵活度低，适应性差，导致部分可变车道华而不实，无法有效解决因车道属性与出行需求所产生的矛盾的问题。

Description

一种基于多进程强化学习的可变车道控制方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于多进程强化学习的可变车道控制方法。

背景技术

随着我国城市化的进程加快，城市机动车保有量日益增加造成车辆出行需求与现有的道路资源不匹配而产生的矛盾日益增加，主要体现在早晚通勤高峰时车道属性无法满足车辆出行需求。

为了解决通勤高峰车辆出行需求，拥堵路口增设了可变车道和可变车道指示牌，现有的可变车道控制方法大多是通过人工经验在固定时间进行车道属性调整，系统无法根据路口的交通需求变化灵活的调整控制策略，灵活度低，适应性差，导致部分可变车道华而不实，无法有效解决因车道属性与出行需求所产生的矛盾，从而无法缓解交通拥堵问题。

鉴于此，需要提供一种基于多进程强化学习的可变车道控制方法，能够解决上述问题。

发明内容

本发明为了解决现有技术由于无法根据路口的交通需求变化灵活的调整控制策略，灵活度低，适应性差，导致部分可变车道华而不实，无法有效解决因车道属性与出行需求所产生的矛盾的问题，提供一种基于多进程强化学习的可变车道控制方法。

本发明所述一种基于多进程强化学习的可变车道控制方法包括：

S1.构建转向趋势预测神经网络，将串行运行的神经网络群组基于各个子集分解为独立并行的模块，进行多进程计算，预测不同周期不同路段的转向比例，得到转向趋势预测值；

S2.根据上游路段的车流量结合转向趋势预测值，预估监测路段的车流量，得到预测监测路段的车辆转向趋势；

S3.根据监测路段的转向趋势预测值和预测监测路段的车辆转向趋势，设立阈值控制可变车道信号灯。

进一步，所述步骤S1包括：

S11.路段固有属性特征分为道路固有特征和历史特征，所述道路固有特征包括路段入口邻接路段数量、路段出口车道数量、红绿灯数量、车道转向设定、最大通行量和最大放行流量6维特征；所述历史特征由道路全天、上个周同一周期、上个月同一周期以及去年同一周期的车流量转向分布序列组成，该特征是一个24+3维特征，前24个维度描述了监测路段在一天内以每个小时为单位的车流量转向比例，第25个维度描述了监测路段在上个周该周期的车流量转向比例，第26个维度描述了监测路段在上个月该周期的车流量转向比例，第27个维度描述了监测路段在去年该周期的车流量转向比例；这些特征隐含着路段所在区域的相关环境因素；

将上述路段固有属性特征输入到转向趋势预测神经网络中，通过群组子集划分，将转向趋势预测问题化解为多个简单问题，当选取的特征组a由33个枚举特征组成，即a＝{a₁，a₂，...，a₃₃}，其中任意特征a_j可以有q_j个不同取值，则a的可枚举类别数为

因此可将样本在属性特征空间中精确划分为K个数据子集，每个样本根据自己的枚举取值进入不同的数据子集，再统一进行训练；

S12.设立数据总体特征中特征组a＝{a₁，a₂，...，a₃₃}被选为第二特征，路段类别d作为第一特征；则D^d+a是在第一特征组d与第二特征组a所组成的全局特征空间R_n中的样本集，将全局特征空间划分为K个相互独立的子空间，即K个子进程；则转向趋势预测网络的子进程R_i隐含层激活函数为：

其中，α为用于控制均衡的超参数，

表示子空间R_i的样本集；子进程R_i输出层的输出为：Y_i＝ω_iF_i+b_i，ω_i和b_i分别为子进程R_i隐含层到输出层的连接权值和偏差；

样本集D^d+a在全局空间中的正确分类概率为：

其中，R_n为全局特征空间，R_i∈R_n，为任意子空间，取值0-1，

为样本被划分到子空间R_i的概率，K表示K个路段，即划分为K个子空间，Y_i ^a表示第i个子进程的输出；

并行预测神经网络模型的准确率在于权值调整，在每个迭代周期内，计算各独立子进程在测试数据上的均方误差

为所有子进程隐含层输出的平均值；某一个模型的均方误差小于所有模型均方误差的均值，则将此子空间的权值增大；若均方误差大于所有模型均方误差的均值，则将权值减小，增大与减小的程度根据实际需求设定；迭代N次后，得到收敛的自适应权重组合。

进一步，所述步骤S2包括：

S21.根据上游路段的车流量预估监测路段的车流量，设立监测路段上的可变车道为车道2，其邻接车道分别为车道1、车道3、车道4，车道1-4共同拥有一个车道入口；进入该车道入口的车辆来自上游路段，所述上游路段包括路段1、路段2、路段3和对向路段4，每个上游路段包括4条车道，分别为左转和调头合用车道、左转车道、直行车道和右转车道，设定路口停车线左侧为虚线，调头车辆可随时进行调头，车辆调头和右转均不受信号灯限制；

所述车道入口的车辆包括来自路段1的右转车道车辆、路段2的直行车道车辆、路段3的左转车道车辆以及对向路段的调头车辆；统计历史数据计算得到转向比例，所述转向比例通过所述转向趋势预测神经网络实时更新，将该路段的历史数据输入所述转向趋势预测神经网络，得到当前周期该路段的转向比例；

S22.路段1中右转车道车辆在该路段所有车辆中的占比为

右转车辆进入监测路段的概率为1；路段2直行车道车辆在该路段所有车道车辆中占比为

直行车辆进入监测路段的概率为1；路段3左转和调头合用车道的车辆在该路段所有车道车辆中占比为

左转和调头合用车道中的左转车辆占比为

左转车道车辆在该路段所有车道车辆中占比为

对向路段4中左转和调头合用车道的车辆在该路段所有车道车辆中的占比为

左转和调头合用车道中的调头车辆占比为

所有路段的其他车道车辆进入监测路段的概率为0，则路段1车辆进入监测路段的概率为

路段2车辆进入监测路段的概率为

路段3车辆进入监测路段的概率为

对向路段4车辆进入监测路段的概率为

从而得到进入监测路段的车流量，主要分为路段2和路段3，则预估车流量为：

其中，C¹是路段2路口直行绿灯时进入监测路段的预估车流量，包括当前绿灯时段路段1右转车流量、路段2直行车流量和路段4调头车流量；C²是路段3路口左转绿灯时进入监测路段的预估车流量，包括当前绿灯时段路段1右转车流量、路段3左转车流量和路段4调头车流量；μ₁和μ₂分别为路段1右转车流量不同时段的占比因子；θ₁和θ₂分别为路段4调头车流量不同时段的占比因子；C₁、C₂、C₃、C₄分别表示路段1、2、3、4当前周期的车流量，由道路监控设备采集得到。

进一步，所述步骤S3包括：

S31.车辆进入监测路段后有4个可能的行驶方向：调头、左转、直行、右转，转向比例为p_k，p_k由历史数据进行计算获得，k表示任一行驶方向，

设立每个周期监测路段中各个车道的通行能力值为G_s；

设定时间阈值ε，若在该时间范围内，预估车流量未达到最大通行能力，则无需对可变车道信号灯进行调整；若在时间范围ε/3内，预估车流量已达到最大通行能力，则需立即启动可变车道信号灯控制系统；所述最大通行能力设为达到80％通行能力值；对于监测路段每一条入口道路，在信号灯控制下的通行能力值计算模型为：

其中，T为信号灯周期时间，t_g为每个周期内该通行方向的绿灯时间，t_o为绿灯亮起第一辆车通过停止线的时间，t_e为车辆通过停止线的平均时间，

为折减系数；

S32.基于监测路段可变车道入口的各个转向预计流量，计算监测路段可变车道是否需要切换的预判结果；当预估车流量达到最大通行能力，需立即启动可变车道信号灯控制系统时，设定转向判断阈值σ，根据步骤S1的转向趋势预测神经网络计算直行与左转的车流量差值H，若在时间范围ε/2内，H＞σ，则控制可变车道信号灯切换为车流量较大的方向亮灯，从而完成基于多进程强化学习的可变车道信号灯控制。

本发明的有益效果是：

1、通过分析历史数据推算交通规律以及短时间内的交通变化，预估车流量，进行可变车道控制，从而实现可变车道的智能切换，有效提高车道的使用率，缓解交通压力。

2、本发明依据不同时段车辆流量流向的特点，对流量进行灵活调控，变换车道的行驶方向，缓解交通压力。

3、参数简单，易于实现，训练速度较快，将数据维度降低，减少问题规模，简化学习模型。将串行运行的神经网络群组算法流程基于各个子集分解为独立并行的模块，实现多进程计算样本子集生成、根据子集数据组成训练网络的隐含层输出矩阵以及输出层输出计算的并行加速任务。

4、通过对监测路段车流量的预估和转向趋势的预测提前获取准确的预判数据，在路口失衡之前就进行可变车道切换，极大的降低了路口发生交通失衡问题的可能性，有效的提升路口的总体通行效率。

附图说明

图1本发明所述的一种基于多进程强化学习的可变车道控制方法流程图；

图2本发明所述的转向趋势预测神经网络结构图；

图3本发明所述的路口划分模型图。

具体实施方式

以下将结合本实施例中的附图来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

参照图1，本发明所述一种基于多进程强化学习的可变车道控制方法包括：

S1.构建转向趋势预测神经网络，将串行运行的神经网络群组基于各个子集分解为独立并行的模块，进行多进程计算，预测不同周期不同路段的转向比例。

构建基于并行计算的转向趋势预测神经网络，如图2所示，用于预测不同周期不同路段的转向比例，从而得到监测路段不同方向的车流量。所述转向趋势预测神经网络将串行运行的神经网络群组算法流程基于各个子集分解为独立并行的模块，实现多进程计算样本子集生成、根据子集数据组成训练网络的隐含层输出矩阵以及输出层输出计算的并行加速任务。

S11.路段固有属性特征分为道路固有特征和历史特征，所述道路固有特征包括路段入口邻接路段数量、路段出口车道数量、红绿灯数量、车道转向设定、最大通行量和最大放行流量等6维特征，这些特征相对固定，主要反映的是道路本身的因素；所述历史特征由道路全天、上个周同一周期、上个月同一周期以及去年同一周期的车流量转向分布序列组成，该特征是一个24+3维特征，前24个维度描述了监测路段在一天内以每个小时为单位的车流量转向比例，第25个维度描述了监测路段在上个周该周期的车流量转向比例，第26个维度描述了监测路段在上个月该周期的车流量转向比例，第27个维度描述了监测路段在去年该周期的车流量转向比例。这些特征隐含着路段所在区域的相关环境因素：路段所在城市区域、平时车流量大小、车流量转向比例、道路拥挤度等。

将上述路段固有属性特征输入到转向趋势预测神经网络中，通过群组子集划分，将转向趋势预测问题化解为多个简单问题，当选取的特征组a由33个枚举特征组成，即a＝{a₁，a₂，...，a₃₃}，其中任意特征q_j可以有q_j个不同取值，则a的可枚举类别数为

因此可将样本在属性特征空间中精确划分为K个数据子集，每个样本根据自己的枚举取值进入不同的数据子集，再统一进行训练。

S12.设立数据总体特征中特征组a＝{a₁，a₂，...，a₃₃}被选为第二特征，路段类别d作为第一特征。则D^d+a是在第一特征组d与第二特征组a所组成的全局特征空间R_n中的样本集，将全局特征空间划分为K个相互独立的子空间，即K个子进程。则转向趋势预测网络的子进程R_i隐含层激活函数为：

其中，α为用于控制均衡的超参数，

表示子空间R_i的样本集。子进程R_i输出层的输出为：Y_i＝ω_iF_i+b_i，ω_i和b_i分别为子进程R_i隐含层到输出层的连接权值和偏差。

样本集D^d+a在全局空间中的正确分类概率为：

为样本被划分到子空间R_i的概率，K表示K个路段，即划分为K个子空间，

表示第i个子进程的输出。

为所有子进程隐含层输出的平均值。某一个模型的均方误差小于所有模型均方误差的均值，则将此子空间的权值增大；若均方误差大于所有模型均方误差的均值，则将权值减小，增大与减小的程度根据实际需求设定。迭代N次后，得到收敛的自适应权重组合。

所述转向趋势预测神经网络的有益效果为：参数简单，易于实现，训练速度较快，将数据维度降低，减少问题规模，简化学习模型。将本质特性的差异融入到多个子空间模型的差异之中，效果更为精确而实现更为简单。

S2.根据上游路段的车流量结合步骤S1得到的转向趋势预测值，预估监测路段的车流量。

S21.根据上游路段的车流量预估监测路段的车流量，如图3所示，本实施例中设立监测路段上的可变车道为车道2，其邻接车道分别为车道1、车道3、车道4，车道1-4共同拥有一个车道入口。进入该车道入口的车辆来自上游路段，所述上游路段包括路段1、路段2、路段3和对向路段4，本实施例中每个上游路段包括4条车道，分别为左转和调头合用车道、左转车道、直行车道和右转车道，设定路口停车线左侧为虚线，调头车辆可随时进行调头，车辆调头和右转均不受信号灯限制。

所述车道入口的车辆包括来自路段1的右转车道车辆、路段2的直行车道车辆、路段3的左转车道车辆以及对向路段的调头车辆。统计历史数据计算得到转向比例，所述转向比例通过所述转向趋势预测神经网络实时更新，将该路段的历史数据输入所述转向趋势预测神经网络，得到当前周期该路段的转向比例。

S22.路段1中右转车道车辆在该路段所有车辆中的占比为

左转和调头合用车道中的左转车辆占比为

左转车道车辆在该路段所有车道车辆中占比为

左转和调头合用车道中的调头车辆占比为

路段2车辆进入监测路段的概率为

路段3车辆进入监测路段的概率为

对向路段4车辆进入监测路段的概率为

所述步骤S2的有益效果是：通过转向趋势预测神经网络预测上游路段的转向比例，提前计算监测路段的车流量，为可变车道信号灯的切换提供较多的预留时间。

S3.根据步骤S1得到监测路段的转向趋势预测值和步骤S2得到的预估车流量预测监测路段的车辆转向趋势，设立阈值控制可变车道信号灯。

本实施例中，右转和调头的车辆因为可以一直运行，所以正常状态下不会发生滞留问题，因此，只针对直行、左转。设立每个周期监测路段中各个车道的通行能力值为G_s。

设定时间阈值ε，若在该时间范围内，预估车流量未达到最大通行能力，则无需对可变车道信号灯进行调整；若在时间范围ε/3内，预估车流量已达到最大通行能力，则需立即启动可变车道信号灯控制系统。所述最大通行能力设为达到80％通行能力值。对于监测路段每一条入口道路，在信号灯控制下的通行能力值计算模型为：

为折减系数。

S32.基于监测路段可变车道入口的各个转向预计流量，计算监测路段可变车道是否需要切换的预判结果。当预估车流量达到最大通行能力，需立即启动可变车道信号灯控制系统时，设定转向判断阈值σ，根据步骤S1的转向趋势预测神经网络计算直行与左转的车流量差值H，若在时间范围ε/2内，H＞σ，则控制可变车道信号灯切换为车流量较大的方向亮灯，从而完成基于多进程强化学习的可变车道信号灯控制。

所述监测路段可变车道切换预判方法的有益效果是：通过对监测路段车流量的预估和转向趋势的预测提前获取准确的预判数据，在路口失衡之前就进行可变车道切换，极大的降低了路口发生交通失衡问题的可能性，有效的提升路口的总体通行效率。

综上所述，便完成了本发明所述的一种基于多进程强化学习的可变车道控制方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。