CN114613170B

CN114613170B - 一种基于强化学习的交通信号灯路口协调控制方法

Info

Publication number: CN114613170B
Application number: CN202210237646.6A
Authority: CN
Inventors: 罗娟; 蔡乾娅; 郑燕柳
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2023-02-17
Anticipated expiration: 2042-03-10
Also published as: CN114613170A

Abstract

本发明公开了一种基于强化学习的交通信号灯路口协调控制方法，首先，建立路口多模态通行相位控制模型，并对交通灯路口建模；其次，基于V2X技术，在绿灯相位的等待车辆流通时间末，路口通行车流的可持续时间，与非通行车流的等待流通时间竞争，决定路口自适应或请求邻居协调的情况；然后，获取路口区域新状态，在强化学习算法的基础上，基于关注车道信息约束的Q学习协调策略选择动作，根据环境奖励更新学习效果，并执行新的动作相位；最后部署在路口对交通信号灯相位进行控制。通过路口自适应和邻居协调控制车流通行，保障车流共享通行权的公平性，增大路口对多态车流通行需求的适应能力，有效降低车流通行延误，提升路口通行效率。

Description

一种基于强化学习的交通信号灯路口协调控制方法

技术领域

本发明涉及智能交通控制技术领域，尤其涉及一种基于强化学习的交通信号灯路口协调控制方法。

背景技术

随着人工智能技术和V2X(车辆到一切)技术的发展，为智能交通控制提供技术支撑和信息保障，可将人工智能技术与控制方案相结合应用于智慧交通控制，基于V2X技术，路边基础设施、车载单元与交通控制系统之间的联系更加紧密、灵活，提升了控制信息共享与交通数据采集的便利性。

随着交通规模的发展，越来越复杂的车流通行需求对交通系统的调控能力发起挑战，路口对复杂车流的感知力和通行需求适应力低，容易出现不友好流通状态，比如车辆持续等待红灯、绿灯期没有车或少车通行、可持续车流到达路口时被红灯阻止，造成通行延误和通行时间浪费；如何满足复杂状态车流在路口的通行需求，以及如何增强路口协调能力，更好的调节车流快速通行，是实现交通路网智能控制的重点工作。

发明内容

本发明的目的在于提供了一种基于强化学习的交通信号灯路口协调控制方法，基于V2X技术实现车流信息采集和协调信息通信，，通过对复杂环境状态学习，不断强化路口对车流通行需求的适应能力，邻居路口协调增强相邻路口之间、车道与路口之间的车流传输状态联系，通过路口内部自适应和邻居路口协调，提升车流通行效率。

为了实现上述目的，本发明采用如下技术方案。

一种基于强化学习的交通信号灯路口协调控制方法，包括离线阶段和在线阶段；

离线阶段包括：

步骤1：根据交通灯路口环境信息，建立路口多模态通行相位控制模型；

多模态通行相位控制模型包括：相对模态相位、邻居模态相位、汇聚模态相位，共有12种绿灯相位形式，其中，相对模态相位控制相对车道上的直行或者左转车辆通行，邻居模态相位控制相邻车道上的直行和左转车辆流出，汇聚模态相位控制直行和左转车辆通往相邻车道，相位控制的对象是直行道和左转道车流，右行道控制信号默认一直都是绿灯状态；

步骤2：对交通灯路口区域建模，分别定义强化学习的三要素State，Action，Reward；

将路口的信号灯控制系统及其控制区域内所有车道建模为智能体Agent，基于Q学习模型，建立Agent对状态State执行动作A的期望收益Q(State，A)值存储表，简称Q表；

State要素表示路口车辆停车等待绿灯的情况，采用估计停车等待时间最长的车流f、以及可与车流f组合同时通行的候选车流中与车流f停车等待时间差最小的车流f^*进行组合来表示，具体表示为M＝(f，f^*)；

Action要素表示交通灯控制车流通行的绿灯相位，动作空间包括所有可组合通行的绿灯相位模态，包括相对模态相位、邻居模态相位、汇聚模态相位；动作空间Action＝{Action1，Action2，Action3}包括12种模态，对应步骤1中提及的多模态通行相位，相对模态相位Action1＝{N₁S₁，N₂S₂，W₁E₁，W₂E₂}，邻居模态相位Action2＝{N₁N₂，E₁E₂，S₁S₂，W₁W₂}，汇聚模态相位Action3＝{N₁E₂，E₁S₂，S₁W₂，W₁N₂}，其中S₁W₂代表控制路口南向直行车流和西向左转车流通行的相位；N，E，S，W表示车辆流出的上游路口相对于当前路口的方向，上游路口指的是车辆从该路口流出后经过车道直接通往下一个路口，下标1表示车流直行，下标2表示车流左转；

Reward要素定义Agent从环境中获得的奖励，Reward＝H_a×(1-g)，H_a是执行绿灯相位对路口拥堵状态变化的影响程度，g是路口整体车流状态不均衡系数，g取路口直行和左转车道上行驶车辆状态不均衡系数G的平均值，右转车道一直是绿灯，车辆自由行驶；Reward值越大，表示Agent获得奖励越大；

步骤3：对车流通行的调节阶段分为：停车等待车辆的流通时间t₁、行驶车辆的可持续通行时间t₂，进入绿灯通行相位后，允许两条车道上的车流通行，基于V2X技术获取车流信息，观测车流状态，自适应车流在路口的流通时间t₁，流通时间t₁是两条车流中停车等待车辆全部通行路口的时间；

步骤4：在当前绿灯相位的等待车辆流通时间t₁末，评估两条通行车流需要的可持续通行时间t₂、路口非通行车流需要的最大等待流通时间t₃，t₃是路口非通行车流的等待车辆全部通行路口的时间的最大值；此时，路口通行车流的可持续时间t₂，与非通行车流的等待流通时间t₃竞争，决定路口自适应或请求邻居协调的情况；

步骤5：在黄灯通行期末，获取路口区域新状态，基于关注车道信息约束的Q学习协调策略选择动作，根据环境奖励更新Agent的学习效果，并执行新的动作相位；

步骤6：根据训练数据，重复执行步骤3到步骤5，训练基于Q学习的路口自适应和邻居协调控制策略，并保存训练结果；

步骤7：定义评价指标，在测试数据集上，对路口协调控制策略的效果进行测试和评价，得到最终的交通信号灯路口协调控制决策模型；

在线阶段：

步骤8：基于交通信号灯路口协调控制决策模型及V2X技术对路口的交通信号灯相位进行控制。

进一步地，所述步骤2中，车流f表示为f＝(NJ，lane)，NJ表示车流来向的邻居路口方位，lane表示车流所在直行或左转车道。

进一步地，估计停车等待时间T_w＝halts×t_w，其中，halts＝h₁+h₂×G，halts是车道上估计停车数，t_w是车道上单位车辆等待时间，h₁是车道上当前停车数，h₂是车道上正在行驶的车辆数，G是车道上车辆行驶状态不均衡系数。

进一步地，车道上车辆行驶状态不均衡系数G＝A/(A+B)，0≤G≤1，G越小则行驶状态越好；统计该车道上车速升序累计百分比对应车辆数累计百分比的分布，A是车流理想行驶与实际行驶状态下该统计分布面积之差，B是车流实际状态下该统计分布面积。车流内部以可协调的最大速度同速行驶，视为理想行驶状态，此时G为0。

进一步地，执行绿灯相位对路口拥堵状态变化的影响程度H_a计算公式为：H_a＝H_s/H_n，H_s是路口当前停车数，H_n是开始执行绿灯相位后路口预估停车数，H_n＝H_s+D×g，D是路口正在行驶的车辆总数，g取路口直行和左转车道上车流行驶状态不均衡系数G的平均值。

进一步地，停车等待车辆的流通时间t₁＝d/v，d是最大等待车队末端车辆到路口停车线的距离，v是等待车队可通行状态下的速度估计，车速小于0.1m/s视为车辆处于等待状态；基于V2X技术采集车流速度和位置，从路口方向往车流来向统计车流的最大等待车队，若车道上没有车，则需要的流通时间t₁＝0，若车道上有车但是没有处于停车等待状态，则预估该流通时间t₁＝T/3，T是预设绿灯时间。

进一步地，两条允许通行车道上车辆需要的可持续通行时间t₂＝d_s/v_s，若此时车道上没有车辆需要通行，则t₂＝0，v_s是需要继续通行车辆的平均行驶速度，d_s是两条车道上可连续通行末端车辆位置到路口停车线的最远距离。

路口非通行车流需要的最大等待流通时间t₃与流通时间t₁的求解过程原理相同。

进一步地，为确定两条车道上可连续通行末端车辆位置到路口停车线的最远距离d_s，需先确定可连续通行末端车辆位置，其确定方法如下：

设置车辆在黄灯期内可以安全通过路口的最大车间距为黄灯时长可行驶距离d_y，d_y＝t_y×v_s，t_y是黄灯时间；

在当前绿灯相位的等待车辆流通时间t₁末，基于V2X技术获取车流信息，从路口方向往车流来向检测车流内的前后车间距d_p，若满足d_p-1<d_y且d_p≥d_y，则此处车间距大于最大车间距约束d_y，此时d_p-1所属前车位置作为可连续通行末端车辆位置。

进一步地，步骤4中，路口通行车流的可持续时间t₂，与非通行车流的等待流通时间t₃竞争，决定路口自适应或请求邻居协调的情况，具体包括：

步骤4.1：判断路口的竞争状态；

若非通行车道上没有车辆等待通行，此时路口处于弱竞争状态，自适应正在通行车道上绿灯的剩余时间为t₂，让车辆继续通行；

若非通行车道上有车辆等待通行，则路口处于强竞争状态，此时路口自适应或请求邻居协调的情况如步骤4.2和步骤4.3所述；需要注意的是，频繁切换红绿灯很可能增加车辆连续减速停车或提速准备通行路口的时间开销，为了尽量减少此开销，将保证正在通行车道上绿灯的剩余时间为t₂；

步骤4.2：强竞争状态下请求邻居路口协调；

当t₃≤t₂时，则认为路口为正在通行的车道持续分配通行时间，将会增加其他车道上车辆继续停车等待的时间，车道需要的可持续通行时间长，很可能导致下一次绿灯让正在通行的车道继续通行，为避免这种过于照顾某一车道而忽视其他车道通行的情况，对于需要的可持续通行时间长的车道，路口将保证车道上绿灯的剩余时间为t₂，同时请求该车道连接的上游邻居路口协调，对该车道间断一次车流传输；若两条通行车道需要的可持续通行时间均大于非通行车道上需要的最大等待流通时间t₃，则路口向这两条车道连接的上游邻居路口均发出请求，否则只向需要的可持续通行时间长的车道连接的上游邻居路口发出请求；

步骤4.3：强竞争状态下路口自适应；

当t₃>t₂时，则认为通行车道上需要的持续通行时间小于非通行车道上需要的最大等待流通时间，此时通行车道花费时间少，路口优先让通行车道上车辆继续通行，再去通行其他车道，路口在该状态下不需要邻居路口协调，自适应正在通行车道上绿灯的剩余时间为t₂；

步骤4.4：邻居路口协调状态更新；

基于V2X实现协调信息通信，可协调邻居路口根据收到的请求协调信息，在其关联协调信息表中，确定发出协调请求的路口信息以及待协调车道的信息，并更新此车道协调状态为待协调。

进一步地，步骤5中，对于获取状态、选择动作、更新学习效果，具体包括：

步骤5.1：获取路口区域新状态；

Agent对新环境状态学习，在路口可通行车流的多种选择下，关注具有最长停车等待时间的车流并准备让其通行，同时通行的另一条车流与该车流具有通行不冲突约束下最小等待时间差，保障了车流共享通行权的公平性，此时学习到的两条车流信息用于表示路口新状态S_new；

步骤5.2：基于路口协调的动作选择策略；

首先，对动作选择进行路口等待通行时间最长的关注车道约束，对包含该约束车道上车流信息的状态S_new，动作A即为让状态S_new中两条车流通行的动作；基于动作选择策略为状态S_new选择动作的目的是获取长期收益最大化，此约束可帮助降低路口的停车数和车辆等待时间，有效解决Q学习短期收益过低的情况，保障长期收益可趋于最大化；

若状态S_new不满足关注车道约束，则优先搜索多模态相位中适应两条车流通行的模态相位区间，然后，根据贪婪策略从Q表中选择最大Q值动作A，减小低效搜索范围；

最后，确认邻居请求协调情况，若无请求则路口选择动作A，若有请求，则判断待协调的间断流传输车道与动作A将要通行的车道是否冲突，不冲突则选择动作A，若冲突则为状态S_new选择仅次于最大Q值的动作A1后再次判断，不冲突则选择动作A1，仍旧冲突则选择动作A；最终选择的动作表示为A_new，路口信号灯状态切换为A_new对应的绿灯相位；

步骤5.3：更新学习效果；

基于Q函数更新Agent对状态S₀执行动作A₀的学习效果，更新过程如下：Q(S₀ ^*，A₀ ^*)＝(1-α)×Q(S₀，A₀)+α×(γ×Q(S_new，A_new)+Reward)，Q(S₀ ^*，A₀ ^*)是对经验收益值Q(S₀，A₀)的更新，S_new是执行动作A₀后的新状态，在基于路口协调的动作选择策略下选择动作A_new，Q(S_new，A_new)是Q表中状态S_new选择动作A_new的经验收益，Reward是Agent执行A₀获得的环境奖励，γ是对动作A_new适应新状态可获得未来收益的重视程度，γ∈(0，1)，α是学习率，α∈(0，1)。

本发明提出了一种基于强化学习的交通信号灯路口协调控制方法与现有技术相比，具有如下优点和有益效果：

1、本发明提供邻居路口协调策略，以缓解流量高峰期时，路口在密集车流可持续通行需求与非通行车流等待流通需求强竞争状态下的通行权弱势分配状态，相对于独立路口控制策略，本策略通过邻居协调控制车流传输频率，并通过路口自适应，调节各方向车流通行竞争状态和车流可持续通行时间，提升路口调节车流通行的能力；

2、本发明针对Q学习的State要素定义，以车道上车辆行驶状态不均衡系数下的估计停车等待时间表征车流通行状态，以估计停车等待时间长的车流信息来反应路口通行状态，相对于采用路口当前车流等待状态这一类以局部静态信息反应路口通行状态的表示，本发明考虑了路口车流的行驶状态是非稳态，对路口通行需求是可变的，对停车等待时间进行了当前等待状态和不均衡行驶状态信息的综合估计；此外，在V2X技术支持下，本发明描述的车道上车辆行驶状态不均衡系数，可通过车间协调以及路口分配通行权调节，为实现共建理想车速流可持续通行路口，提供新思路和方案基础；

3、本发明采用多模态相位通行方案，应对路口可能出现的复杂车流通行状态，在动作选择策略中，在关注车道约束下选择的动作可适应极端流通状况，增强路口调节车流通行需求的方案选择，以及对非稳态通行环境的适应能力；路口及时为等待时间更长、具有最小等待时间差的车流分配通行权，降低路口车辆等待时间和等待车辆数，保障车流共享通行权的公平性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的交通信号灯路口协调控制方法流程图；

图2是本发明实施例提供的多模态通行相位示意图(仅示意部分相位)；

图3是本发明实施例提供的路口协调控制模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

如图1、图3所示，本发明实施例提供了一种基于强化学习的交通信号灯路口协调控制方法，以下以十字路口为例对本发明的技术方案进行说明，该方法包括离线阶段和在线阶段；

离线阶段包括：

S1：根据交通灯路口环境信息，建立路口多模态通行相位控制模型；

多模态通行相位控制模型包括：相对模态相位、邻居模态相位、汇聚模态相位，共有12种绿灯相位形式，其中，相对模态相位控制相对车道上的直行或者左转车辆通行，邻居模态相位控制相邻车道上的直行和左转车辆流出，汇聚模态相位控制直行和左转车辆通往相邻车道。

在交通仿真软件SUMO中对交通路口环境信息和信号灯相位控制方案建模，并对车流信息加载处理，采用的车流数据源于济南市两个十字交通灯路口的摄像头记录的现实数据，多模态通行相位的部分示意参见图2，其中最左侧的上下两幅图均为相对模态相位，中间的上下两幅图均为邻居模态相位，最右侧的上下两幅图均为汇聚模态相位，对于十字路口，共有12种，此处仅示意了其中6种；从仿真环境中，采集并处理每个交通灯路口控制区域内道路连接和位置信息，车流f表示为f＝(NJ，lane)，车流来向的邻居路口方位NJ的候选集为{N，S，W，E}对应表示北向、南向、西向、东向，车流所在车道lane为1表示直行，lane为2表示左转，一个完整的车流通行期包括绿灯和黄灯时间，相位调控的对象是路口直行道和左转道的车流，路口的右行道控制信号默认一直都是绿灯状态。

S2：对交通灯路口区域建模，分别定义强化学习的三要素State，Action，Reward；

将路口的信号灯控制系统及其控制区域内所有车道建模为智能体Agent，基于Q学习模型，建立大小为12×12的Agent期望收益Q(State，A)值存储表，简称Q表，存储Agent对状态State执行动作A的期望收益。

State要素表示路口车辆停车等待绿灯的情况，采用估计停车等待时间最长的车流f、以及可与车流f组合同时通行的候选车流中与车流f停车等待时间差最小的车流f^*进行组合来表示，具体表示为M＝(f，f^*)；估计停车等待时间T_w＝halts×t_w，其中，halts＝h₁+h₂×G，halts是车道上估计停车数，t_w是车道上单位车辆等待时间，h₁是车道上当前停车数，h₂是车道上正在行驶的车辆数，G是车道上车辆行驶状态不均衡系数。车道上车辆行驶状态不均衡系数G＝A/(A+B)，0≤G≤1，G越小则行驶状态越好；统计该车道上车速升序累计百分比对应车辆数累计百分比的分布，A是车流理想行驶与实际行驶状态下该统计分布面积之差，B是车流实际状态下该统计分布面积。车流内部以可协调的最大速度同速行驶，视为理想行驶状态，此时G为0。

Action要素表示交通灯控制车流通行的绿灯相位，动作空间包括所有可组合通行的绿灯相位模态，包括相对模态相位、邻居模态相位、汇聚模态相位；动作空间Action＝{Action1，Action2，Action3}包括12种模态，对应步骤1中提及的多模态通行相位，相对模态相位Action1＝{N₁S₁，N₂S₂，W₁E₁，W₂E₂}，邻居模态相位Action2＝{N₁N₂，E₁E₂，S₁S₂，W₁W₂}，汇聚模态相位Action3＝{N₁E₂，E₁S₂，S₁W₂，W₁N₂}，其中，N，E，S，W表示车辆流出的上游路口相对于当前路口的方向，上游路口指的是车辆从该路口流出后经过车道直接通往下一个路口，下标1表示车流直行，下标2表示车流左转；如S₁W₂代表控制路口南向直行车流和西向左转车流通行的相位。

Reward要素定义Agent从环境中获得的奖励，Reward＝H_a×(1-g)，H_a是执行绿灯相位对路口拥堵状态变化的影响程度，g是路口整体车流状态不均衡系数，g取路口直行和左转车道上行驶车辆状态不均衡系数G的平均值，右转车道一直是绿灯，车辆自由行驶；Reward值越大，表示Agent获得奖励越大。执行绿灯相位对路口拥堵状态变化的影响程度H_a计算公式为：H_a＝H_s/H_n，H_s是路口当前停车数，H_n是开始执行绿灯相位后路口预估停车数，H_n＝H_s+D×g，D是路口正在行驶的车辆总数。

S3：对车流通行的调节阶段分为：等待车辆的流通时间t₁、行驶车辆的可持续通行时间t₂；进入绿灯通行相位后，允许两条车道上的车流通行，基于V2X技术获取车流信息，观测车流状态，自适应车流在路口的流通时间t₁，流通时间t₁是两条车流中停车等待车辆全部通行路口的时间。

停车等待车辆的流通时间t₁＝d/v，d是最大等待车队末端车辆到路口停车线的距离，v是等待车队可通行状态下的速度估计，车速小于0.1m/s视为车辆处于等待状态；基于V2X技术采集车流速度和位置，从路口方向往车流来向统计车流的最大等待车队，若车道上没有车，则需要的流通时间t₁＝0，若车道上有车但是没有处于停车等待状态，则预估该流通时间t₁＝T/3，T是预设绿灯时间。

S4：在当前绿灯相位的等待车辆流通时间t₁末，评估两条通行车流需要的可持续通行时间t₂、路口非通行车流需要的最大等待流通时间t₃；此时，路口通行车流的可持续时间t₂，与非通行车流的等待流通时间t₃竞争，决定路口自适应或请求邻居协调的情况。

两条允许通行车道上车辆需要的可持续通行时间t₂＝d_s/v_s，若此时车道上没有车辆需要通行，则t₂＝0，v_s是需要继续通行车辆的平均行驶速度，d_s是两条车道上可连续通行末端车辆位置到路口停车线的最远距离。

为确定d_s，需先确定可连续通行末端车辆位置，其确定方法如下：

在当前绿灯相位的等待车辆流通阶段t₁末，基于V2X技术获取车流信息，从路口方向往车流来向检测车流内的前后车间距d_p，若满足d_p-1<d_y且d_p≥d_y，则此处车间距大于最大车间距约束d_y，此时d_p-1所属前车位置作为可连续通行末端车辆位置。

路口非通行车流需要的最大等待流通时间t₃与前述步骤S3中流通时间t₁的求解过程原理相同，在此不再赘述。

路口通行车流的可持续时间t₂，与非通行车流的等待流通时间t₃竞争，决定路口自适应或请求邻居协调的情况，具体包括：

步骤4.1：判断路口的竞争状态；

首先，判断路口非通行车道的状态，若非通行车道上没有车辆等待通行，此时路口处于弱竞争状态，自适应正在通行车道上绿灯的剩余时间为t₂，让车辆继续通行；

若非通行车道上有车辆等待通行，则路口处于强竞争状态，此时路口自适应或请求邻居协调的情况如步骤4.2和步骤4.3所述；需要注意的是，频繁切换红绿灯很可能增加车辆连续减速停车或提速准备通行路口的时间开销，为了尽量减少此开销，将保证正在通行车道上绿灯剩余时间为t₂；

步骤4.2：强竞争状态下请求邻居路口协调；

步骤4.3：强竞争状态下路口自适应；

当t₃>t₂时，则认为通行车道上需要的持续通行时间小于其他非通行车道上需要的最大等待流通时间，此时通行车道花费时间少，路口优先让通行车道上车辆继续通行，再去通行其他车道，路口在该状态下不需要邻居路口协调，自适应正在通行车道上绿灯的剩余时间为t₂；

步骤4.4：邻居路口协调状态更新；

S5：在黄灯通行期末，获取路口区域新状态，基于关注车道信息约束的Q学习协调策略选择动作，根据环境奖励更新Agent的学习效果，并执行新的动作相位。具体包括：

步骤5.1：获取路口区域新状态；

需说明的是，考虑到此时两条车流在通行不冲突约束下的最小等待时间差不一定是路口所有可选择通行车流之间的最小等待时间差，因此，在其他实施例中可选择Agent同时学习路口中具有最大停车等待时间的两条车流、次级停车等待时间的两条车流，以具有更大Q值的两条车流信息表示路口新状态S_new，最终通行车流不一定是具有最长等待时间的车流；

步骤5.2：基于路口协调的动作选择策略；

若状态S_new不满足关注车道约束，则动作选择将优先搜索适应两条车流通行的模态相位区间，即多模态相位方案中相对模态、邻居模态、汇聚模态三者之一的相位区间，然后，根据贪婪策略从Q表中选择最大Q值动作A，减小低效搜索范围；

步骤5.3：更新学习效果；

S6：根据步骤S1中建立的路口仿真控制信息，从中获取训练数据和测试数据，根据训练数据，重复执行步骤S3到步骤S5，仿真训练基于Q学习的路口自适应和邻居协调控制策略，并保存训练结果。具体过程如下：

步骤6.1：初始化各统计参数包括：动作执行次数N_a、路口停车数、车道最大等待队列长度、车辆平均等待时间、黄灯期末阻停车流次数，设置Q学习模型参数值α为0.1，γ为0.9，贪婪搜索率ε为0.1，初始化Q表的值为0，设置最大训练次数为100次；

步骤6.2：设置一次训练的最大仿真步长为7200秒，路口信号灯初始状态设置为控制南北方向直行车流通行，开始训练；

步骤6.3：在一个动作相位仿真期内，依次执行步骤S3到步骤S5，进行路口自适应与邻居协调的学习过程，在通行黄灯期末，更新各统计参数值；

步骤6.4：重复执行步骤6.3，直到训练时间达到最大仿真步长或者路网内车辆已经全部通行，视为一次训练结束，此时回到步骤6.2开始新的训练；

步骤6.5：当训练次数达到最大，表示训练结束，保存路口协调控制策略。

S7：定义评价指标，在测试数据集上，对路口协调控制策略的效果进行测试和评价，得到最终的交通信号灯路口协调控制决策模型。评价指标包括：路口平均停车数、车辆平均等待时间、路口最大等待车队长度、平均阻停车流次数，路口平均停车数

N_a是动作执行次数，x_i是第i次动作执行期末路口停车数，车辆平均等待时间

t_i是第i次动作执行期末路口的车辆平均等待时间，路口最大等待车队长度Q_w＝max(Q_s)，Q_s是N_a次对动作执行期末的车道最大等待队列长度的统计序列，平均阻停车流次数

c_i是第i次执行动作黄灯期末，因信号灯将从黄灯变为红灯，两条通行车道上车流被迫停止通行的次数。

在线阶段：

S8：基于交通信号灯路口协调控制决策模型及V2X技术对路口的交通信号灯相位进行控制。

本发明旨在强化路口对各方向动态车流通行需求的适应能力，并采用邻居路口协调策略促进此能力提升，通过对交通信号灯的相位切换顺序和持续时长进行自适应控制，为路口各方向车流提供合理的通行时间，减少车辆在路口的等待，提升车流在路口间的流通效率。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于强化学习的交通信号灯路口协调控制方法，其特征在于，包括离线阶段和在线阶段；

离线阶段包括：

多模态通行相位控制模型包括：相对模态相位、邻居模态相位、汇聚模态相位；其中，相对模态相位控制相对车道上的直行或者左转车辆通行，邻居模态相位控制相邻车道上的直行和左转车辆流出，汇聚模态相位控制直行和左转车辆通往相邻车道；

State要素表示路口车辆停车等待绿灯的情况，采用估计停车等待时间最长的车流f、以及可与车流f组合同时通行的候选车流中与车流f停车等待时间差最小的车流f^*组合来表示；

Action要素表示交通灯控制车流通行的绿灯相位，动作空间包括所有可组合通行的绿灯相位模态，包括相对模态相位、邻居模态相位、汇聚模态相位；

Reward要素定义Agent从环境中获得的奖励，Reward＝H_a×(1-g)，H_a是执行绿灯相位对路口拥堵状态变化的影响程度，g是路口整体车流状态不均衡系数；

步骤3：对车流通行的调节阶段分为：等待车辆的流通时间t₁、行驶车辆的可持续通行时间t₂，进入绿灯通行相位后，允许两条车道上的车流通行，基于V2X技术获取车流信息，观测车流状态，自适应车流在路口的流通时间t₁，流通时间t₁是两条车流中停车等待车辆全部通行路口的时间；

步骤4：在当前绿灯相位的等待车辆流通时间t₁末，评估两条通行车流需要的可持续通行时间t₂、路口非通行车流需要的最大等待流通时间t₃；此时，路口通行车流的可持续时间t₂，与非通行车流的等待流通时间t₃竞争，决定路口自适应或请求邻居协调的情况；

在线阶段：

2.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，所述步骤2中，车流f表示为f＝(NJ，lane)，NJ表示车流来向的邻居路口方位，lane表示车流所在直行或左转车道。

3.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，步骤2中，估计停车等待时间T_w＝halts×t_w，其中，halts＝h₁+h₂×G，halts是车道上估计停车数，t_w是车道上单位车辆等待时间，h₁是车道上当前停车数，h₂是车道上正在行驶的车辆数，G是车道上车辆行驶状态不均衡系数。

4.根据权利要求3所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，车道上车辆行驶状态不均衡系数G＝A/(A+B)，0≤G≤1；统计该车道上车速升序累计百分比对应车辆数累计百分比的分布，A是车流理想行驶与实际行驶状态下该统计分布面积之差，B是车流实际状态下该统计分布面积。

5.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，执行绿灯相位对路口拥堵状态变化的影响程度H_a计算公式为：H_a＝H_s/H_n，H_s是路口当前停车数，H_n是开始执行绿灯相位后路口预估停车数，H_n＝H_s+D×g，D是路口正在行驶的车辆总数，g是路口整体车流状态不均衡系数，g取路口直行和左转车道上车流行驶状态不均衡系数G的平均值。

6.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，停车等待车辆的通行期t₁＝d/v，d是最大等待车队末端车辆到路口停车线的距离，v是等待车队可通行状态下的速度估计；基于V2X技术采集车流速度和位置，从路口方向往车流来向统计车流的最大等待车队，若车道上没有车，则需要的流通时间t₁＝0，若车道上有车但是没有处于停车等待状态，则预估该流通时间t₁＝T/3，T是预设绿灯时间。

7.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，步骤4中，两条通行车流需要的可持续通行时间t₂＝d_s/v_s，若此时通行车道上没有车辆需要通行路口，则t₂＝0，v_s是需要继续通行车辆的平均行驶速度，d_s是两条车道上可连续通行末端车辆位置到路口停车线的最远距离。

8.根据权利要求7所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，为确定两条车道上可连续通行末端车辆位置到路口停车线的最远距离d_s，需先确定可连续通行末端车辆位置，其确定方法如下：

9.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，步骤4中，路口通行车流的可持续时间t₂，与非通行车流的等待流通时间t₃竞争，决定路口自适应或请求邻居协调的情况，具体包括：

步骤4.1：判断路口的竞争状态；

若非通行车道上有车辆等待通行，则路口处于强竞争状态，此时路口自适应或请求邻居协调的情况如步骤4.2和步骤4.3所述；

步骤4.2：强竞争状态下请求邻居路口协调；

当t₃≤t₂时，对于需要的可持续通行时间长的车道，路口将保证车道上绿灯的剩余时间为t₂，同时请求该车道连接的上游邻居路口协调，对该车道间断一次车流传输；

步骤4.3：强竞争状态下路口自适应；

当t₃>t₂时，则路口在该状态下不需要邻居路口协调，自适应正在通行车道上绿灯的剩余时间为t₂，再去通行其他车道；

步骤4.4：邻居路口协调状态更新；

基于V2X技术实现协调信息通信，可协调邻居路口根据收到的请求协调信息，在其关联协调信息表中，确定发出协调请求的路口信息以及待协调车道的信息，并更新此车道协调状态为待协调。

10.根据权利要求1所述的基于强化学习的交通信号灯路口协调控制方法，其特征在于，步骤5中，对于获取状态、选择动作、更新学习效果，具体包括：

步骤5.1：获取路口区域新状态；

Agent对新环境状态学习，关注具有最长停车等待时间的车流并准备让其通行，同时通行的另一条车流与该车流具有通行不冲突约束下最小等待时间差，保障了车流共享通行权的公平性，此时学习到的两条车流信息用于表示路口新状态S_new；

步骤5.2：基于路口协调的动作选择策略；

首先，对动作选择进行路口等待通行时间最长的关注车道约束，对包含约束车道上车流信息的状态S_new，动作A即为让状态S_new中两条车流通行的动作；若状态S_new不满足关注车道约束，则优先搜索多模态相位中适应两条车流通行的模态相位区间，然后，根据贪婪策略从Q表中选择最大Q值动作A，减小低效搜索范围；

步骤5.3：更新学习效果；