CN116543574A

CN116543574A - 一种面向车道容量差异的多信号灯控制方法及系统

Info

Publication number: CN116543574A
Application number: CN202310646292.5A
Authority: CN
Inventors: 闫茂德; 颜天文; 张瑾琪; 左磊
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-08-04

Abstract

本发明公开了一种面向车道容量差异的多信号灯控制方法及系统，基于改进的最大压力法对交叉口关键信息进行建模，定义交叉口环境及全新的车道容量、平均车速双重感知的压力；根据所建模的信息设计相邻交叉口作用和相位持续时间；在此基础上，设计强化学习三要素：状态、动作和奖励；对每个交叉口的智能体使用双Q网络结构的Nature Deep Q Network强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。基于异构交叉口关键信息的精确建模和强化学习元素的简洁设置，本发明能够较好的实现控制策略，从而最大限度地减少异构路网内车辆的平均通行时间。

Description

一种面向车道容量差异的多信号灯控制方法及系统

技术领域

本发明属于交通信号控制技术领域，具体涉及一种面向车道容量差异的多信号灯控制方法及系统。

背景技术

近年来，随着全球经济的持续发展和城市化进程的高速推进，人们出行的需求日益增加，而持续增长的机动车保有量致使各地交通拥堵日益严重，进而引发交通事故和环境恶化等相关问题。因此，缓解交通拥堵、提高交通运输效率成为当务之急。而交叉口作为城市路网中的关键节点，在交通流诱导、路权分配等方面扮演着极其重要的角色。在交叉口中使用智能的信号控制技术提高城市路网的通行能力，则是缓解交通拥堵的重要手段。在智慧交通建设的关键时期，如何充分利用先进物联网设备采集的实时数据，设计优异的信号控制方法，是实现智慧出行的重要前提。

传统的交通信号控制方法主要有两种，即定时控制和感应控制。前者无法响应交通的动态变化，而后者只能考虑瞬时的交通状态。近年来，随着人工智能在交通领域的发展，基于深度强化学习(Deep Reinforcement Learning，DRL)的信号控制已成为缓解交通拥堵的最有前景的方法。该方法能够根据动态多变的交通状况，实时学习信号灯的控制策略，从而缓解交通拥堵，提高出行效率。

然而目前大多基于深度强化学习的信号灯控制方法要么建模过于简化，不考虑相邻交叉口之间的交互，难以从复杂的路网信息中提取到关键内容；要么建模过于复杂，或是单纯的移植最新的强化学习算法，导致策略学习效率低下。其次，为了减少动作空间的维度，许多基于强化学习的控制方法假设相位持续时间固定不变，很大程度上限制了智能体搜索更优控制策略的能力。甚至许多研究为了方便测试其学习算法的优越性，假设路网完全同构，降低了路网的真实特性，致使研究内容偏离实际。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种面向车道容量差异的多信号灯控制方法及系统，用于解决异构交叉口因道路容量不同而产生的堵塞的技术问题，显著减少了异构交叉口中车辆的平均通行时间，提高了路网的通行效率。

本发明采用以下技术方案：

一种面向车道容量差异的多信号灯控制方法，包括以下步骤：

S1、基于改进的最大压力法对交叉口关键信息进行建模得到交叉口模型，定义车道、车流、相位和交叉口的压力模型；

S2、根据步骤S1得到的交叉口模型设计相邻交叉口压力作用和相位持续时间；

S3、基于步骤S1定义的压力模型和交叉口环境模型，以及步骤S2中的相邻交叉口作用，设计智能体状态、智能体动作、智能体奖励；

S4、基于步骤S3定义的智能体状态、智能体动作、智能体奖励构建强化学习框架，对每个交叉口的智能体使用双Q网络结构的Nature Deep Q Network强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。

具体的，步骤S1中，交叉口模型为双向三车道模型，三条车道分别能够左转、直行、右转，且右转车辆不受交通信号控制；每个交叉口由一组进车道lane_in和一组出车道lane_out组成，共有12条进车道lane₁，lane₂，…，lane₁₂和12条出车道，四个相位分别为南北直行，东西直行，南北左转和东西左转。

具体的，步骤S1中，压力模型具体包括：

车道i的压力

其中，x_i为车道i上的车辆数，c_i为车道i的最大容量，c_∞和m为调整压力函数形状的参数，是当前车道平均车速，v_max是车道最大允许速度，δ为用于调整速度对压力影响的权重因子；

运动车流压力P_flow和静止车流压力P_stop为：

其中，和/>分别为车流运动方向的进车道总数和出车道总数，/>和分别为车流停止时所在的进车道总数和出车道总数；

相位压力P_phase为：

其中，λ₁、λ₂分别为运动车流压力和静止车流压力的权重系数；

交叉口压力P_I为：

具体的，步骤S2中，相邻交叉口压力作用为：

其中，ω为限制压力值的收缩系数；C_max为车道最大容量；C_I,I′为交叉口I和I′之间车道的容量；alane_in′为I′进车道，该车道上的车辆在当前相位控制下可以穿过交叉口I′并向I驶入；n′为每条车道单位时间内可通过I′的车辆数；t′为交叉口I′当前相位绿灯的剩余时间；N_i′为alane_in′第i条进车道上的车辆数；alane_in、n、t、N_i为当前交叉口I的相关信息。

具体的，步骤S2中，相位持续时间T_duration具体为：

根据给定的t_max和t_min求出一组M个可选的相位持续时间，t_min和t_max分别表示保证车辆稳定通行的路口最小相位持续时间和最大相位持续时间；

当M＝1时，相位持续时间固定为t_max；

当M>1时，构造相位持续时间集合D；

选定信号灯相位后，通过进车道lane_i上的车辆数N_i以及该车道单位时间可通过交叉口的车辆数n，得到进车道lane_i上所有车辆通过交叉口的时间t_i；确定相位持续时间T_duration。

进一步的，持续时间T_duration为：

其中，t_m作为进车道lane_in内所有车道lane_i上的车辆通行所需时间t_i的最大值。

具体的，步骤S3中，选用基于数值的表征设计智能体状态，智能体状态由交叉口及其周围近邻的环境信息组成，包括相位的压力、近邻的压力影响、当前相位；当前交叉口I四个相邻交叉口为I₁′、I₂′、I₃′、I₄′，状态向量编码为

选择交叉口的最佳控制相位作为智能体动作，每个智能体具有四个不同的预定义允许动作，动作集为{SNS,EWS,SNL,EWL}；

考虑车道的容量和平均车速，奖励函数r为：

r＝-P_I

其中，P_I为交叉口I的压力。

具体的，步骤S4中，Nature Deep Q Network强化学习算法具体为：

S401、设置参数，包括训练次数R、模拟步长S、折扣因子γ、学习率α、探索率ε、采样批量(Batch Size)；

S402、初始化主网络参数θ和目标网络参数θ^-，初始化经验回放池M；

S403、交通模拟开始，获得交叉口环境s_t；

S404、以概率ε随机选择动作a_t，否则根据当前状态s_t选择动作a_t，

S405、执行动作a_t后，根据当前交叉口信息计算持续时间T_duration；

S406、得到新一轮交叉口环境s_t+1和奖励r_t+1，在经验回放池M中存储经验样本{s_t,a_t,r_t+1,s_t+1}，若经验池满溢，则用新样本替换最早的样本记录；

S407、从经验回放池M中随机抽取批大小为E的小批量样本来更新主网络Q和目标网络Q′；若训练次数未达到设定值，则转至步骤S404，否则转至步骤S408；

S408、结束。

进一步的，步骤S404中，动作a_t具体为：

第二方面，本发明实施例提供了一种面向车道容量差异的多信号灯控制系统，包括：

构建模块，基于改进的最大压力法对交叉口关键信息进行建模得到交叉口模型，定义车道、车流、相位和交叉口的压力模型；

设计模块，根据构建模块得到的交叉口模型设计相邻交叉口压力作用和相位持续时间；

要素模块，基于构建模块定义的压力模型和交叉口环境模型，以及设计模块中的相邻交叉口作用，设计智能体状态、智能体动作、智能体奖励；

控制模块，基于要素模块定义的智能体状态、智能体动作、智能体奖励构建强化学习框架，对每个交叉口的智能体使用双Q网络结构的Nature Deep QNetwork强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。

与现有技术相比，本发明至少具有以下有益效果：

一种面向车道容量差异的多信号灯控制方法，通过构建交叉口压力模型、设计相邻压力作用和相位持续时间、定义强化学习三要素、使用深度强化学习算法，所设计的四大模块，由微观单交叉口压力构建到宏观路网控制，形成完整、高效的信号灯控制系统，同时各模块具有较低的耦合性，增强系统的易维护性。

进一步的，构建交叉口模型为双向三车道模型，三条车道分别能够左转、直行、右转，基于车道级别的高精度交叉口模型，增强所提控制方法的现实意义和应用价值；四个相位分别为南北直行，东西直行，南北左转和东西左转，设计经典的无冲突四相位，减少信号切换频率，提高交通效率。

进一步的，所构建的压力模型融合容量和车速双重感知策略，通过定义全新的“压力”实现对交叉口关键信息更精细化的感知，从而能够有效抑制因道路容量不同而产生的交叉口堵塞问题。

进一步的，本方法考虑相邻交叉口之间的协调，通过引入相邻交叉口间压力的相互作用，使当前交叉口更精准的感知相邻交叉口的流量动态，同时针对车道容量的差异，赋予较短车道容量的临近交叉口更大的压力，有效缓解异构交叉口堵塞车流向相邻交叉口蔓延的问题。

进一步的，本方法根据实时的交通信息设计了动态可调整的相位持续时间选择策略，在动态集合D中选择最佳的相位持续时间，实现对信号相位时间的动态优化。

进一步的，确定让当前相位下所有车辆通过的相位时间，即确保释放当前相位下的所有压力，从而进一步优化平均通行时间。

进一步的，在本方法所设计的强化学习三要素中，状态采用基于数值的表征形式，相比于现有的基于结构的表征形式，具有较强的泛化能力，可以处理不同的异构交叉口；动作设计为从预定义相位集合中选择一个相位，将相位选择的权力交给智能体，增强了学习的动态性。奖励结合交通工程相关理论，设计了基于路口压力的奖励函数，相比于传统的基于等待时间、队列长度或是多种指标带权累加和的奖励设置而言，有着更扎实的理论基础。

进一步的，在具有双网络网络结构的Nature Deep Q Network强化学习子算法中，智能体通过与交通环境之间的频繁交互，获得信号控制的最佳解决方案；值得注意的是，由于简洁的状态设置，本方法可以使用简单的神经网络结构来实现较好的学习效果。

进一步的，为防止智能体动作探索陷入局部最优解，以概率ε随机选择动作a_t，否则选择当前状态下对应的智能体最优输出动作。

可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

综上所述，本方法公布的一种面向车道容量差异的多信号灯控制系统，在深度强化学习的框架下，提出了一种基于车道容量和平均车速双重感知最大压力法的信控方法，对交叉口关键信息感知更精细，泛化能力强，有效提高异构交叉口内车辆的平均通行时间，缓解交通拥堵。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为交叉口模型示意图；

图2为不同车道容量下，车道压力和车道上实时车辆数的关系示意图；

图3为神经网络结构示意图；

图4为相邻交叉口间的压力作用示意图；

图5为本方法的流程图；

图6为大规模路网仿真环境示意图；

图7为两种信号控制算法下，路网内车辆数和平均通行时间随时间的演化过程；其中，(a)为路网内车辆数随时间的演化过程图，(b)为路网内车辆的平均通行时间随时间的演化过程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种面向车道容量差异的多信号灯控制方法，基于改进的最大压力法对交叉口关键信息进行建模，定义交叉口环境及全新的容量、车速双重感知的压力；其次，根据交叉口建模的信息设计相邻交叉口作用和相位持续时间；接着，基于定义的压力和建模的交叉口环境，以及设计的相邻交叉口作用，设计强化学习方法中的三要素：状态、动作、奖励；最后，对每个交叉口的智能体使用双Q网络结构的Nature Deep Q Network强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。

请参阅图5，本发明一种面向车道容量差异的多信号灯控制方法，包括以下步骤：

S1、基于改进的最大压力法对交叉口关键信息进行建模，定义交叉口环境及全新的车道容量、平均车速双重感知的压力；

(1)交叉口建模

本方法建立的交叉口模型为双向三车道模型，三条车道分别可以左转、直行、右转，其中右转车辆不受交通信号控制。每个交叉口由一组进车道lane_in和一组出车道lane_out组成。如图1所示，该交叉口有12条进车道(lane₁，lane₂，…，lane₁₂)和12条出车道，四个相位，分别为：南北直行(SNS)，东西直行(EWS)，南北左转(SNL)，东西左转(EWL)。

(2)压力建模

在最大压力理论中，压力的定义仅与车道上的车辆数相关，而本方法同时考虑了车辆动力学特性和车道容量的差异，从而实现对交叉口更精细化的建模。

定义车道压力为：

其中，为车道i的压力，x_i为车道i上的车辆数，c_i为车道i的最大容量，c_∞和m为调整压力函数形状的参数，/>是当前车道平均车速，v_max是车道最大允许速度，δ是可用于调整速度对压力影响的权重因子。本方法使用车道的压力来表示该车道的拥堵程度。

本发明定义的车道压力由容量感知项和速度感知项的乘积构成。容量感知的目的在于：

一是使车道上的压力和车辆数呈现出凸函数的关系；二是将压力归一化，从而以相同的尺度评价不同容量道路的压力。

请参阅图2，给出了车道容量c分别为10、40、80时，其强度和车道上实时车辆数的关系；当某条车道上车辆数增长时，车道压力呈非线性趋势增长；而当三条车道上实时车辆数都相同时，容量感知项可以确保最小容量的车道具有最大的压力。在速度感知项中，压力随着平均车速的增加而减少，即车速越快，车道越通畅。

定义车流压力为：

其中，P_flow为运动车流压力，和/>分别为车流运动方向的进车道总数和出车道总数；P_stop为静止车流压力，/>和/>分别为车流停止时所在的进车道总数和出车道总数。

定义相位压力为：

相位压力P_phase是指该相位下所有运动车流压力以及所有静止车流压力之和。λ₁、λ₂分别为运动车流压力和静止车流压力的权重系数。

在每一个交叉口中，本发明使用相位强度来表征不同相位下车流的拥堵程度；当某一相位压力较大时，说明此相位下车流通行需求较高，那么控制策略应优先放行该相位。本方法设定右转车流不受信号控制，因此计算相位压力时不考虑右转车流压力。

定义交叉口压力为：

交叉口压力P_I即交叉口I所有进车道和出车道压力之差。交叉口压力可以准确的反映该交叉口的拥塞程度，压力越大，即该交叉口越拥堵。

S2、根据步骤S1建模的信息设计相邻交叉口作用和相位持续时间；

(1)相邻交叉口压力作用

当前交叉口为I，其邻居交叉口为I′，则I′对I的影响为：

其中，ω为限制压力值的收缩系数；C_max为车道最大容量；C_I,I′为交叉口I和I′之间车道的容量；alane_in′为I′进车道，该车道上的车辆在当前相位控制下可以穿过交叉口I′并向I驶入；n′为每条车道单位时间内可通过I′的车辆数；t′为交叉口I′当前相位绿灯的剩余时间；N_i′为alane_in′第i条进车道上的车辆数；同理，alane_in、n、t、N_i为当前交叉口I的相关信息。

邻居交叉口I′不仅仅作为压力输入方，还起到接纳交叉口I压力的作用。以图4为例，假设此刻交叉口I′和I的相位均为东西直行，则此时交叉口I′有两条进车道上的压力，其随着当前相位绿灯剩余时间和交叉口通行能力按比例作用于交叉口I；同时，交叉口I′还作为压力的接纳方，承受着交叉口I转移过来的压力；另外，本方法在考虑相邻交叉口压力时，针对车道容量的差异，赋予较短车道容量的临近交叉口更大的压力。

(2)相位持续时间设计

与传统交通信号控制方法的固定相位配时不同，本方法设计的相位持续时间可以根据交通路口的实时交通状况而变化，能够更大程度地节约绿灯时间。

为了设计更合理的相位持续时间分配策略，首先根据给定的t_max和t_min求出一组M个可选的相位持续时间。

其中，t_min和t_max分别表示保证车辆稳定通行的路口最小相位持续时间和最大相位持续时间。

当M＝1时，相位持续时间固定为t_max；

当M>1时，相位持续时间集合D构造如下：

在选定信号灯相位后，通过进车道lane_i上的车辆数N_i以及该车道单位时间可通过交叉口的车辆数n，得到进车道lane_i上所有车辆通过交叉口的时间为：

其中，t_m作为进车道lane_in内所有车道lane_i上的车辆通行所需时间t_i的最大值，记为t_m＝max{t_i}，从集合D中选择最接近t_m的数作为相位持续时间，即确保释放当前相位下的所有压力。

设置持续时间为：

其中，t∈D,且

S3、基于步骤S1定义的压力和建模的交叉口环境，以及步骤S2中的相邻交叉口作用，设计强化学习方法中的三要素：状态、动作、奖励；

本发明的最终目标表述为考虑相邻交叉口影响的交叉口压力最小化问题。

(1)状态

目前表征交叉口状态一般有两种方式：基于结构的形式和基于数值的形式。基于结构的形式通常将交叉口的车辆、信号灯的相关信息离散化并建模成矩阵的形式。基于结构的形式虽然能较好的减少了输入信息量、凸显交叉口结构特性，但随着状态量的增多，如车道容量较大时，该方法将面临维度爆炸的问题；另外，基于结构的形式也不善于处理复杂的异构交叉口，如何将异构交叉口建模成矩阵的表征形式是一个极其重要的问题。而基于数值的形式直接提取交叉口特征信息并组合成向量，用该向量来表达交叉口状态，具有较强的泛化能力，可以处理不同的异构交叉口。

因此本方法选用基于数值的表征来设计智能体状态。该状态由交叉口及其周围近邻的环境信息组成，包括相位的压力、近邻的压力影响、当前相位。以图1为例，假设当前交叉口I四个相邻交叉口(如某一方向没有邻路则记为0)为I₁′、I₂′、I₃′、I₄′，则状态向量编码为

(2)动作

信号控制中智能体动作的设计通常有两种，一种是固定相序，选择是否延长当前相位或切换下一相位；另一种未固定切换顺序，智能体从预定义相位集合中选择一个相位。前者动作空间较小，复杂度较低，但使交叉口缺少灵活度，且相序设计的好坏对学习结果影响较大。而后者将相位选择的权力交给智能体，增强了学习的动态性。

因此，本方法将动作定义为选择交叉口的最佳控制相位。每个智能体具有四个不同的预定义允许动作，动作集为{SNS,EWS,SNL,EWL},对应于图1中所示的四个阶段。

(3)奖励

奖励机制在学习过程中起着重要作用，更高的奖励意味着更好的行动选择。结合交通工程相关理论设计了基于路口压力的奖励函数，相比于传统的基于等待时间、队列长度或是多种指标带权累加和的奖励设置而言，有着更扎实的理论基础。而本方法对于交叉口压力进行了全新的定义，考虑了车道的容量和平均车速，可以更准确地反映交叉口的拥塞情况。本方法定义的奖励函数为：

r＝-P_I

其中，P_I即为本方法定义的交叉口I的压力。

S4、对每个交叉口的智能体使用双Q网络结构的Nature Deep Q Network强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。

在完成信号控制模型及强化学习要素的建立后，本方法采用具有两个神经网络结构的Nature Deep Q Network进行Q函数的拟合，其网络结构及相关参数如图3所示。本方法为每个交叉口配置一个强化学习智能体，网络模型的输入由交叉口数量和状态维度组成，图中num为交叉口数，9为状态维度：分别为4个相位压力、4个相邻交叉口压力和当前相位。随后经过三层神经元个数分别为128、64和16的隐藏层，因本方法有4个可选相位，故输出动作维度为4。值得注意的是，由于简洁的状态设置，本方法可以使用简单的神经网络结构来实现较好的学习效果。

与传统的非基于强化学习的信号控制方法不同，本方法的学习过程涉及智能体与交通环境之间的频繁交互。本方法将一个回合定义为特定时间段(例如一小时)的交通模拟，为了获得信号控制的最佳解决方案，学习过程通常由数百个回合组成。在每一回合中，智能体不断与环境交互，交互过程可分为五个部分：

(i)从环境中提取状态信息；

(ii)选择最优相位动作；

(iii)基于当前状态算出所选动作的持续时间；

(iv)进行交通模拟；

(v)更新网络。

算法具体如下：

S403、交通模拟开始，获得交叉口环境s_t；

S407、从经验回放池M中随机抽取批大小为E的小批量样本来更新主网络Q和目标网络Q′。若训练次数未达到设定值，则转至步骤S404，否则转至步骤S408；

S408、结束。

本发明再一个实施例中，提供一种面向车道容量差异的多信号灯控制系统，该系统能够用于实现上述面向车道容量差异的多信号灯控制方法，具体的，该面向车道容量差异的多信号灯控制系统包括构建模块、设计模块、要素模块以及控制模块。

其中，构建模块，基于改进的最大压力法对交叉口关键信息进行建模得到交叉口模型，定义车道、车流、相位和交叉口的压力模型；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于面向车道容量差异的多信号灯控制方法的操作，包括：

基于改进的最大压力法对交叉口关键信息进行建模得到交叉口模型，定义车道、车流、相位和交叉口的压力模型；根据交叉口模型设计相邻交叉口压力作用和相位持续时间；基于压力模型和交叉口环境模型，以及相邻交叉口作用，设计智能体状态、智能体动作、智能体奖励；基于步骤S3定义的智能体状态、智能体动作、智能体奖励构建强化学习框架，对每个交叉口的智能体使用双Q网络结构的Nature Deep Q Network强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关面向车道容量差异的多信号灯控制方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图6，为了验证相邻交叉口算法效果，凸显本发明在道路占用率高时能及时感知并优化的特性，在交通仿真平台Cityflow上搭建如图6所示的多信号灯路网仿真环境。设定路网东边为住宅区，西边为工业区，仿真模拟早高峰两小时的通勤情况。设置东边边界处进车道到达率为每条车道每小时700辆车，设置10％的转弯比例，其他边界处进车道到达率为每条车道每小时300辆车。

请参阅图7，图7(a)展示了两种信号控制算法下路网内车辆数随时间的演化的过程。在本方法的控制下，路网内的车辆数平稳增加。而其他的基于深度强化学习的信控算法因无法感知高占用率车道的压力，致使部分异构交叉口处出现“死锁”现象；在约5000秒时，由于局部交叉口的“死锁”逐渐向整个路网蔓延，路网内的车辆数激增，导致整个路网瘫痪，此时路网内的车辆几乎只进不出。图7(b)展示的路网内车辆平均通行时间进一步佐证了本方法的优越性。在本方法的驱动下，车辆最终平均通行时间约为350秒，而其他算法约为612秒。

因此，本发明的信号灯控制方法可以有效地优化大规模异构交叉口内车辆的通行效率。

综上所述，本发明一种面向车道容量差异的多信号灯控制方法及系统，首先针对异构交叉口道路容量的差异性，提供一种基于车道容量和平均车速双重感知的最大压力控制方法，实现对交叉口关键信息更精细化的感知。其次考虑相邻交叉口之间的协调，通过引入相邻交叉口间压力的相互作用，有效缓解异构交叉口堵塞车流向相邻交叉口蔓延的问题。为了进一步优化平均通行时间，本文根据实时的交通信息设计了动态可调整的相位持续时间选择策略。进而设计强化学习方法中的三要素：状态、动作、奖励。最后，对每个交叉口设立的智能体使用双网络结构的Nature Deep Q Network强化学习算法，根据交叉口实时的环境信息动态控制信号相位及相位持续时间。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等，需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向车道容量差异的多信号灯控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S1中，交叉口模型为双向三车道模型，三条车道分别能够左转、直行、右转，且右转车辆不受交通信号控制；每个交叉口由一组进车道lane_in和一组出车道lane_out组成，共有12条进车道lane₁，lane₂，…，lane₁₂和12条出车道，四个相位分别为南北直行，东西直行，南北左转和东西左转。

3.根据权利要求1所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S1中，压力模型具体包括：

车道i的压力

运动车流压力P_flow和静止车流压力P_stop为：

其中，和/>分别为车流运动方向的进车道总数和出车道总数，/>和/>分别为车流停止时所在的进车道总数和出车道总数；

相位压力P_phase为：

交叉口压力P_I为：

4.根据权利要求1所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S2中，相邻交叉口压力作用为：

5.根据权利要求1所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S2中，相位持续时间T_duration具体为：

当M＝1时，相位持续时间固定为t_max；

当M>1时，构造相位持续时间集合D；

6.根据权利要求5所述的面向车道容量差异的多信号灯控制方法，其特征在于，持续时间T_duration为：

7.根据权利要求1所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S3中，选用基于数值的表征设计智能体状态，智能体状态由交叉口及其周围近邻的环境信息组成，包括相位的压力、近邻的压力影响、当前相位；当前交叉口I四个相邻交叉口为I₁′、I₂′、I₃′、I₄′，状态向量编码为

考虑车道的容量和平均车速，奖励函数r为：

r＝-P_I

其中，P_I为交叉口I的压力。

8.根据权利要求1所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S4中，Nature Deep Q Network强化学习算法具体为：

S403、交通模拟开始，获得交叉口环境s_t；

S408、结束。

9.根据权利要求8所述的面向车道容量差异的多信号灯控制方法，其特征在于，步骤S404中，动作a_t具体为：

10.一种面向车道容量差异的多信号灯控制系统，其特征在于，包括：

控制模块，基于要素模块定义的智能体状态、智能体动作、智能体奖励构建强化学习框架，对每个交叉口的智能体使用双Q网络结构的Nature Deep Q Network强化学习算法，根据交叉口的实时环境，动态控制信号相位及相位持续时间。