CN108510764B

CN108510764B - 一种基于q学习的多路口自适应相位差协调控制系统及方法

Info

Publication number: CN108510764B
Application number: CN201810377318.XA
Authority: CN
Inventors: 罗杰; 刘成健
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2023-11-10
Anticipated expiration: 2038-04-24
Also published as: CN108510764A

Abstract

本发明揭示了一种基于Q学习的多路口自适应相位差协调控制系统及方法，该系统包括路口控制模块、协调控制模块、Q学习控制模块、调控模块以及输出执行模块。路口控制模块用于针对本地路口交通状态，对当前相位提供合理的单路口交通配时方案；协调控制模块，用于通过分析本地路口及相邻路口的交通状态，判断当前相位是否需要进行相位差协调。该多路口自适应控制方法能有效减少交通拥堵的响应时间，快速协调各个路口之间的信号控制，提高路口的通行效率，在交通信号自适应控制的应用中具有很强的通用性，该系统能够通过相位协调给出准确，合理的绿灯配时方案，相比于无精确时间的协调控制，更加适用于规模及车流量较大的路口。

Description

一种基于Q学习的多路口自适应相位差协调控制系统及方法

技术领域

本发明涉及一种基于Q学习的多路口自适应相位差协调控制系统及方法，属于智能交通技术领域。

背景技术

区域交通控制相对于单路口独立控制来说，能够获得整体优化的控制效果，因此越来越受到人们的重视。城市交通系统是一个典型的非线性、动态时变的、不确定性的复杂系统，建立其精确的数学模型是非常困难的。基于Q学习的交通信号协调控制方法无需模型且能实现在环境中学习，是解决上述问题的有效技术手段。现有的Q学习区域交通控制方法存在学习速度慢、在学习过程中无法及时响应不断变化的交通流状况等问题。目前Q学习多路口交通协调控制系统多采用“切换/保持”的信号灯控制手段，难以应用于规模较大的路网控制。针对动态时变的交通流，本发明通过Q学习对路口间相位差进行优化；并在协调过程中加入决策机制保证协调控制的有效性，给出合理的相位绿灯时间。本发明能克服现有方法不足，降低多路口协调控制的复杂度，提高多路口协调控制的实时性，从而有效提高整个区域路网的交通效率。

发明内容

本发明针对现有区域自适应交通控制存在的问题，提出了一种基于Q学习的多路口自适应相位差协调控制系统及方法。针对交通路网的庞大规模及复杂性，难以以整个路网为单位进行协调控制等问题，在已有的路口控制系统上，构建了基于相位差的多路口协调控制模型，通过Q学习对相邻路口之间的相位差进行优化；在协调控制过程中增加决策机制确保协调控制的有效性。使用优化后的相位差配时方案进行调控，实现多路口交通流协调优化控制。

本发明的目的将通过以下技术方案得以实现：一种基于Q学习的多路口自适应相位差协调控制系统，包括路口控制模块、协调控制模块、Q学习控制模块、调控模块以及输出执行模块，

所述路口控制模块用于针对本地路口交通状态，对当前相位提供合理的单路口交通配时方案；

所述协调控制模块，用于通过分析本地路口及相邻路口的交通状态，判断当前相位是否需要进行相位差协调；

所述Q学习控制模块，用于根据获得的多路口交通数据进行融合得到融合后的交通参数，将参数划分到相应的状态段集合S，用来作为查询Q表中相应配时策略的依据和为Q学习更新状态空间Q(S，a)提供参数；

所述调控模块，用于根据调控规则从单路口配时和协调配时中选择出最适合当前相位的绿灯配时方案；

所述输出执行模块，用于将由所述调控模块传递过来最终的配时方案进行输出。

优选地，所述Q学习控制模块包括状态融合及划分模块、模糊评价器、Q学习模块以及Q表，所述状态融合及划分模块用于进行相位差协调配，令高维离散的交通状态能够在Q表中得以连续化表示，降低Q表的复杂度，所述模糊评价器用于根据交通数据对相位差协调控制效果进行评价，从而为Q学习模块提供奖惩值数据；所述Q学习模块用于接收到状态融合模块和模糊评价器两个模块的数据后根据Q学习公式对Q表中的相位差方案进行更新；所述Q表用于将符合条件的相位差协调配时方案输出。

优选地，所述Q表的学习公式为：

Q(S，a)←Q(S，a)+α[r+γmax_a′Q(S′，a′)-Q(S，a)]

其中，S为交通状态s的状态段集合，a为相位差策略，Q(S，a)表示当前状态集S下的选择依据，α为学习效率，α越高则代表Q(S，a)受下一个状态影响越大，r为执行配时方案a之后的反馈，即奖惩值，S′表示下一个状态集，Q(S′，a′)表示下一个状态集下的选择策略，max_a′Q(S′，a′)则表示下一个状态集所估计的最佳的选择策略，γ表示衰减度，γ越低，则系统学习效率受奖惩值r的影响越大。

优选地，所述模糊评价器选取主干道的平均车辆延误变化率D′以及车辆平均速度V′作为模糊评价器的输入，输入输出变量采用五级模糊划分方式，即{“负大”，“负小”，“中”，“正小”，“正大”}表示五种不同的平均延误以及车辆平均速度变化程度，记为{NB,NS,ZO,PS,PB}，使用三角隶属度函数表示，模糊评价器采用重心法对模糊输出进行解模糊，最终输出的奖惩信号值范围是(-1，1)，模糊评价器输出奖惩值r，r的范围为(-1，1)，用于Q学习更新。

优选地，如相邻路口的放行相位与协调路口当前相位无关联，那么在配时方案执行时间内，相邻路口不会有车辆到达关键路口，则配时方案中不加入相位差的调整；其次，如果协调方向的车流量小于关键路口其他相位车流量总和的均值，则应优先考虑放行其他相位，此时也不加入相位差的调整；

调控策略遵循如下规则：当本地放行时间小于相位差调控时间时，本相位绿灯时间为相位差；而当本地放行时间大于相位差，此时放行相位交通状态十分接近拥堵，为保证放行相位车辆的最大通行度以及其他各个相位的车辆通行，取本路口最大绿灯通行时间，即当执行调控策略时，路口的最终绿灯时间G_last如下：

其中，G_p为相位差调控时间，G_max为本路口绿灯相位最大通行时间。G_L本地路口绿灯相位配时方案。

本发明还揭示了一种基于Q学习的多路口自适应相位差协调控制方法，包括如下步骤：

S1、首先，交通状态感应模块采集当前时刻本地交通路口的交通流状态信息，传输至本地控制模块；

S2、本地控制模块根据当前路口交通状态给出相应的本地相位绿灯配时策略，并将本地配时策略传输至协调控制模块；

S3、协调控制模块根据当前放行相位接收来自相应相邻路口的交通状态信息，判断路口是否满足协调控制条件；若不满足，则将本地控制模块传递过来的配时策略直接传输至输出执行模块完成配时，否则将交通数据传输至Q学习控制模块用于进行协调控制；

S4、Q学习控制模块根据协调控制模块传递过来的信息，对上一次协调控制效果进行评价，更新协调控制策略，并给出基于相位差的协调控制配时方案，连同本地配时方案传递给调控模块；

S5、调控模块根据调控规则从本地配时和协调配时策略中选择出最适合当前相位的绿灯配时方案，传递给输出执行模块；

S6、输出执行模块将由调控模块传递过来最终的相位绿灯配时方案进行输出；

S7、当前绿灯相位结束后，切换至下一个相位，重复S1至步骤S6。

优选地，所述交通流状态信息包括交通流量和上个周期车辆排队长度。

本发明技术方案的优点主要体现在：

本发明的多路口自适应控制方法能有效减少交通拥堵的响应时间，快速协调各个路口之间的信号控制，提高路口的通行效率。

2、本发明的路口交通自适应控制方法，由于其无模型的特点，对外部自适应能力强，在交通信号自适应控制的应用中具有很强的通用性。

3、本发明的路口交通控制系统能够通过相位协调给出准确，合理的绿灯配时方案，相比于无精确时间的协调控制，更加适用于规模及车流量较大的路口。

附图说明

图1为本发明的一种基于Q学习的多路口自适应相位差协调控制系统的结构示意图。

图2为本发明的一种基于Q学习的多路口自适应相位差协调控制系统的结构示意图。

图3为本发明的一种基于Q学习的多路口自适应相位差协调控制方法的流程示意图

图4为本发明的四相位路口示意图。

图5为本发明的收敛Q值矩阵图。

图6为本发明的协调路段车均延误情况图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明针对交通路网的庞大规模及复杂性，难以以整个路网为单位进行协调控制等问题，在已有的路口控制系统上，构建了基于相位差的多路口协调控制模型，通过Q学习对相邻路口之间的相位差进行优化；在协调控制过程中增加决策机制确保协调控制的有效性。使用优化后的相位差配时方案进行调控，实现多路口交通流协调优化控制。

本发明揭示了一种基于Q学习的多路口自适应相位差协调控制系统，如图1所示，包括路口控制模块、协调控制模块、Q学习控制模块、调控模块以及输出执行模块。其中，所述路口控制模块用于针对本地路口交通状态，对当前相位提供合理的单路口交通配时方案；所述协调控制模块，用于通过分析本地路口及相邻路口的交通状态，判断当前相位是否需要进行相位差协调；如果相邻路口的放行相位与协调路口当前相位无关联，那么在配时方案执行时间内，相邻路口不会有车辆到达关键路口，则配时方案中不加入相位差的调整；其次，如果协调方向的车流量小于关键路口其他相位车流量总和的均值，则应优先考虑放行其他相位，此时也不加入相位差的调整。

所述Q学习控制模块，用于根据获得的多路口交通数据进行融合得到融合后的交通参数，将参数划分到相应的状态段集合S，用来作为查询Q表中相应配时策略的依据和为Q学习更新状态空间Q(S，a)提供参数；所述调控模块，用于根据调控规则从单路口配时和协调配时中选择出最适合当前相位的绿灯配时方案；所述输出执行模块，用于将由所述调控模块传递过来最终的配时方案进行输出。

如图2所示，所述Q学习控制模块包括状态融合及划分模块、模糊评价器、Q学习模块以及Q表。所述Q学习控制模块首先根据获得的多路口交通数据通过其内部的状态融合及划分模块进行融合并得到一个融合后的交通参数s，将参数s划分到相应的状态段集合S，用来作为查询Q表中相应配时策略的依据和为Q学习更新状态空间Q(S，a)提供参数，多路口交通数据包括交通流量、车辆排队长度等。所述状态融合及划分模块令高维离散的交通状态能够在Q表中得以连续化表示(状态s，S是s的集合)，降低Q表的复杂度。

Q学习控制模块首先根据获得的多路口交通数据(交通流量，车辆排队长度等)通过其内部的状态融合及划分模块进行融合并得到一个融合后的交通参数s，将参数s划分到相应的状态段集合S，用来作为查询Q表中相应配时策略的依据和为Q学习更新状态空间Q(S，a)提供参数，各参数间采用融合函数进行融合。

所述模糊评价器用于根据交通数据对相位差协调控制效果进行评价，从而为Q学习模块提供奖惩值数据；所述Q学习模块用于接收到上述模块的数据后根据Q学习公式对Q表中的相位差方案进行更新，即用于接收到状态融合模块和模糊评价器两个模块的数据后根据Q学习公式对Q表中的相位差方案进行更新，所述Q表用于将符合条件的相位差协调配时方案输出。

本发明还揭示了一种基于Q学习的多路口自适应相位差协调控制方法，如图3所示，包括如下步骤：

S1、首先，交通状态感应模块采集当前时刻本地交通路口的交通流状态信息，传输至本地控制模块；所述交通流状态信息包括交通流量和上个周期车辆排队长度。

本发明将本相位及相邻路口放行相位的绿灯通行繁忙度、绿灯相位车辆排队长度，红灯相位车辆排队长度作为参考要素。为了提高Q学习对于道路状态变化的学习效率与控制效果。本发明使用融合函数对上述参考因素进行融合更新。通过函数的反馈值s大小反应出当前相位的交通状态。定义函数的返回值越高，当前相位的交通状态越好。融合函数如下式所示：

当s越大，表示当前相位的交通状况越良好，当s趋向于0时，表示交通状况越差。融合函数公式的物理意义为：当红灯相位车辆排队长度越长而绿灯相位车辆排队长度越短且绿灯相位交通繁忙度较低的情况下，系统倾向于给当前相位一个较短的绿灯时间。当红灯相位车辆排队长度越短，绿灯相位车辆排队长度越长且绿灯相位交通繁忙度较高的情况下，系统则更倾向于为当前相位选择更长的绿灯配时。

本发明技术方案以两个连续的十字交叉路口为研究对象，以VISSIM作为仿真平台进行仿真实验。其中，每个交叉口均采用基于Q学习的交通自适应系统实现交通控制。而路口之间的配时方案调控，则采用本发明的基于相位差的优化模型进行优化。交叉口之间的间距为300米，交叉口为4相位控制。两个交叉口的各个进口道均为3车道。车道的饱和流量为1500veh/h，各个车道的交通流量按照表1进行设置。各相位设定最小绿灯时间为25秒，最大绿灯时间为75秒，启动损失时间为3秒、黄灯时间为3秒，即总绿灯损失时间为10秒。

表1路口交通流量

路口间协调实质上是相邻交叉口的信号协调，通过对相位差的协调控制，实现多路口交通信号的联动控制，最大限度地保证协调方向的车辆在第一个交叉口绿灯驶过后，一路绿灯或跟随前方排队队尾不停车通过后续多个路口，形成连续的交通流，获得更大的绿波通过带和更少的车辆延误。

现有相位差配时调控大多是基于固定相位周期，本发明技术方案通过在不定周期单路口配时方案的基础上实现对相位差进行调控，故而考虑以相邻路口传递过来的交通状态信息(当前放行相位，车流量)作为决策依据，对协调路口的每个绿灯相位进行调控决策。具体的调控过程包括如下步骤：

Step1：通过计算获取路口间的基本相位差数据。

Step2：根据基本相位差数据初始化Q表。

Step3：通过采集获取当前路口以及相邻路口的交通状态数据(放行相位，车流量，排队长度，车辆繁忙度等)。

Step4：根据本地路口的交通状况，单路口控制系统给出当前相位下合适的交通配时方案。

Step5：分析相邻路口交通状态(包括当前放行相位，车流量等)，经由系统决策后从Q表中选择基于相位差的配时方案对原有单路口方案进行调控。

Step6：执行调控方案，交通流产生变化后，继续采集当前及相邻路口交通数据(车辆延迟，车速)，通过比较协调方案执行前后交通状态变化判断调控方案控制效果，并通过Q学习对Q表中的相位差配时方案进行更新。

Step7：当前绿灯相位结束后，切换至下一个相位，重复步骤3至步骤7。

本发明上述步骤包括：

(1)路口间相位差的获取

交叉口的基本相位分为单口放行和对向放行两种。这两种基本相位避免左转车辆和直行车辆的冲突，提高行车安全。当路口设置了左转待行区，宜采用先直行后左转的对向放行；存在直左车道的交叉口宜采用单口放行；左转车道为拓展车道且长度较短时，不应采用先左转后直行的对向放行。

实际道路上单向绿波协调控制较为常见，只需计算出相位差即可，而双向绿波较为复杂，目前研究并不成熟。单向绿波只调控一个方向，可根据实际的交叉口距离，结合检测器数据，计算各交叉口相位差。计算得到各交叉口的相位差，就是每个路口协调方向直行相位的放行时间。

(2)Q学习对相位差策略的优化

为了能够在不同交通状态下给出最优的相位差调控策略，提高Q学习算法的求解效率。求得基本相位差后，以这个相位差为中心取一定数值(如10秒)作为半径，划定最优相位差的所在范围，然后利用Q学习算法在该范围内求取最优值。

调控模型的相位差优化算法如下：

步骤1：初始化Q值；

步骤2：检测相邻路口的交通状态与放行相位，其中，交通状态作为初始状态s；

步骤3：利用Q值经验，在状态s对应的可行相位差集合中，依据策略π选择一个相位差a；

步骤4：在所控制的交通环境中，执行相位差调控策略a，并观测某项交通指标值表示的奖励r和新的交通状态s′；

步骤5：通过公式1更新Q值；

步骤6：将新的交通状态s′，赋予状态s；

步骤7：重复步骤3至步骤6，直到学习更新完成。

其中：s——交通状态；

s′——新的交通状态；

a——相位差构成的行为；

a′——可能出现的新行为；

r——交通指标构成的奖励；

α——学习率；

y——折扣因子；

Q(S，a)——状态s行为a下的Q值函数；

学习更新的公式为：

Q(s，a)←Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)]

其中s为交通状态s的状态段集合，a为相位差策略。Q(S，a)表示当前状态集S下的选择依据。α为学习效率，α越高则代表Q(S，a)受下一个状态影响越大。r为执行配时方案a之后的反馈，即奖惩值。S′表示下一个状态集，Q(S′，a′)表示下一个状态集下的选择策略。max_a′Q(S′，a′)则表示下一个状态集所估计的最佳的选择策略。γ表示衰减度，γ越低，则系统学习效率受奖惩值r的影响越大。

用于Q学习的反馈机制采用模糊技术进行实现。本文以主干道的平均车辆延误和平均速度作为反馈指标对相位差的执行策略进行优化。其中，平均车辆延误与平均速度的定义如下：

①平均延误(Average Delay Time)定义：当一辆车从进入交叉口区域一直到离开，由于交叉口不畅通导致的额外行驶时间^[44-45]。延误时间通常由停车时间和缓慢行驶所浪费的时间组成。平均延误计算公式如下：

其中，D表示平均延误，n表示车辆总数，d_i表示每辆车的延误时间。

②平均速度(Average Speed)定义:车辆在经过该路口区域时的平均速度。平均速度的计算公式如下：

其中，V表示平均速度，n表示车辆总数，v_i表示每辆车的速度。

构建模糊评价器，选取上述平均延误变化率D′以及车辆平均速度V′作为模糊评价器的输入，输入输出变量采用五级级模糊划分方式，即{“负大”，“负小”，“中”，“正小”，“正大”}表示五种不同的平均延误以及车辆平均速度变化程度，记为{NB,NS,ZO,PS,PB},使用三角隶属度函数表示。模糊评价器采用重心法对模糊输出进行解模糊，最终输出的奖惩信号值范围是(-1，1)。

Q学习模型的核心要素主要有状态、行为和奖赏。在本发明中，状态是交通流量，行为是各个相位差。奖赏和目标是紧密相关的，在这里针对延误最小的目标进行研究，可以直接通过VISSIM仿真软件获取需要的数据。

(3)多路口协调策略

相位差优化问题与路口信号配时优化问题相似，如果采用在线学习模式，学习算法会对所有可能的相位差进行探索，可能会选择到性能较差的相位差，那么将会导致更多的停车，产生较大的延误。因此，将在线学习算法用于相位差优化问题并不理想。离线学习模式更加适用于相位差的优化，实际问题中，先建立相位差优化模型，再利用离线学习算法对各种交通流量状态及相位差进行学习，从而得到不同交通状态下的最优相位差，最后将最优相位应用到实际交叉口的交通信号协调控制中。为加快离线学习模式的学习速度，在每个时间步随机等概率选择状态和行为。

该技术方案在单路口控制方面采用基于单个相位的配时方案，故而在进行多路口协作的过程中，除了需要判断相邻路口对应相位的交通状态之外，还需要获取相邻路口当前的放行相位及交通流量。首先，如果相邻路口的放行相位与关键路口不符，那么在配时方案执行时间内，相邻路口不会有车辆到达关键路口，则配时方案中不加入相位差的调整；其次，如果协调方向的车流量小于关键路口其他相位车流量总和的均值，则应优先考虑放行其他相位，此时也不加入相位差的调整。

调控策略遵循如下规则：当本地放行时间小于相位差调控时间时，本相位绿灯时间为相位差；而当本地放行时间大于相位差(此时放行相位交通状态十分接近拥堵)，为保证放行相位车辆的最大通行度以及其他各个相位的车辆通行，取本路口最大绿灯通行时间，即当执行调控策略时，路口的最终绿灯时间G_last如下：

图4给出了相邻路口模型，其中每一个路口交通模型由四个相位构成：东西方向上的直行，东西方向上的左转，南北方向上的直行，南北方向上的左转，车辆右转被归并到了直行里，可以很好的简化路口控制模型。本发明中所涉及的所有研究与仿真，都是用此路口模型。为路口优化就是根据各相位车流量，排队长度等交通状态，分配相应的绿灯时间，使得路口资源得到合理分配。

不同路段的优化并不相同，假设路口无排队或排队不长，且车辆运行速度能够达到设计速度v0。在图4中，设路口A与路口B距离lAB，则路口A与路口B行程时间差T1可由下式得到。

T₁＝l_AB/v₀

通过计算可以获得行程的时间差，干线协调控制的目的是为了让车辆从上一个路口到下一个路口遇到绿灯。按A到B方向上，以路口A的直行相位为坐标零点，则路口B直行相位首发车辆出发时间应为T₁。

但是，上游的首车加速到设计速度V₁需要一定的时间，所以相位差不仅包含车辆运行时间，还需要增加首车的加速时间t_x。为了提高车辆通过率，需用一部分绿灯时间给车辆加速，设自绿灯亮起排队首车加速到设计速度所需时间为t_x,t_x的大小可由下式得到。

式中，V₁为干线绿波协调路段设计速度，a为上游交叉口首车加速度。最终，相邻路口的相位差T如下式所示。

T＝T₁+t_x

当处于其他时段时，车流量较多，则要考虑排队消散时间t₀。道路车流量较多时，车辆会在交叉口积压形成排队。为了保证车辆能够通过，可以让有滞留车辆的交叉口提前放行。此时，相邻路口的相位差T₀：

T₀＝T₁+t_x-t₀

双向绿波是在单向绿波的基础上进行的，设置好单向绿波之后，反向绿波的调试需要针对每个交叉口进行绿波计算、相位相序调整。单向绿波相当于固定了一个方向上的直行放行时间，而反向绿波在此基础上一般需要进行反向直行、左转相位调整。通过绿波工具计算出反向绿波的宽度，若反向绿波不能实现，一般先调整左转和直行放行顺序。其次，可以通过调整交叉口放行规则或者进行相位搭接实现反向绿波。若这些方法都不能实现反向绿波，可以考虑更换信号方案。

为了解决Q学习中维数灾难的问题，这里采用参数融合函数把交通状态向量转化为交通状态值，对交通状态值进行划分，划分后的交通状态分有11个区间。

行为是两个交叉口的相位差。为了提高优化算法的学习效率，采用实施例一所描述的方法确定基准相位差为30秒，以10秒为半径，则相应的相位差的区间为[20，40]；步幅为2秒，同样对相位差区间进行离散化之后，共有11个相位差标准。奖励采用模糊技术建立反馈机制，评价标准为平均延误的变化率以及平均速度的变化率。每个时间步通过VISSIM实时获取。

对基于相位差的Q学习配时调控模型进行研究，研究目标是使路口间的车辆平均延误最小。取路口间距为200米的相邻交叉路口，其交通状态以及行为通过离散划分为11个。Q表可以通过一个11×11的矩阵来表示。实施配时调控的目标是在单路口自适应配时优化的基础上，通过考虑相邻路口的交通流量以及配时方案，使得协调方向上的延误最小。

通过Q学习配时调控模型的不断学习更新，最终会得到一个收敛的Q值矩阵。该矩阵包含了不同状态下的最优配时调控方案。如图5所示，其中每个图的横坐标表示每种行为的编号，纵坐标表示Q值大小。每个格子代表一个状态-行为下Q值的收敛程度。每个状态对应11个Q值，每张图中Q值最大的行为即为该状态下的最优行为。

如图3所示，通过VISSIM仿真平台实时获取搭建路网模型中的交通状态及评价指标验证基于相位差的Q学习配时调控模型的优化效果。对于不同的交通状态的路口，其配时方案使用基于Q学习的单路口自适应交通控制系统进行控制，而路口间的相位差调控，则采用本发明的基于相位差的Q学习配时调控模型进行调整。首先，系统获取当前路口及相邻路口的交通状态参数，根据参数对当前路口进行本地配时方案决策。接着根据所接收到的相邻路口的各项交通参数(交通流量，放行相位等)判断是否需要进行协调。如果需要，则根据当前路口以及相邻路口交通状态进行多路口协调控制，在对配时方案进行调控选择后，由当前路口输出最终执行的配时方案。

作为对比，这里采用未优化之前的相位差与经过Q学习相位差优化调控模型优化之后的相位差作为交叉口的协调控制，并获取实时的交通延误指标。协调路段的车均延误情况如图6所示。分析图6的车均延误曲线可知，Q学习相位差优化调控模型优化后的调控方案明显优于未优化之前的相位差优化方案。

分别对两种方法进行在线仿真后，得到调控路段的车辆总数为5423veh。其中，未优化之前的车辆总延误为103047.9s，平均延误为19.5s/veh；而基于相位差的Q学习调控优化方法的车辆总延误为92269.8s，平均延误为17.1s/veh。两种方法进行比较可以发现，基于相位差的Q学习调控优化方法在车均延误上比另一种方案减少了2.4s/veh，总延误减少了10778.1s，从延误指标上看，前者比后者降低了12.3％。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于Q学习的多路口自适应相位差协调控制系统，其特征在于：

包括路口控制模块、协调控制模块、Q学习控制模块、调控模块以及输出执行模块，

所述路口控制模块用于针对本地路口交通状态，对当前相位提供合理的单路口交通配时方案；所述协调控制模块，用于通过分析本地路口及相邻路口的交通状态，判断当前相位是否需要进行相位差协调；如相邻路口的放行相位与协调路口当前相位无关联，那么在配时方案执行时间内，相邻路口不会有车辆到达关键路口，则配时方案中不加入相位差的调整；其次，如果协调方向的车流量小于关键路口其他相位车流量总和的均值，则应优先考虑放行其他相位，此时也不加入相位差的调整；

其中，G_p为相位差调控时间，G_max为本路口绿灯相位最大通行时间，G_L本地路口绿灯相位配时方案；

所述Q学习控制模块，用于根据获得的多路口交通数据进行融合得到融合后的交通参数，将参数划分到相应的状态段集合S，用来作为查询Q表中相应配时策略的依据和为Q学习更新状态空间Q(S，a)提供参数，其中S为交通状态s的状态段集合，a为相位差策略；Q学习控制模块包括状态融合及划分模块、模糊评价器、Q学习模块以及Q表，所述状态融合及划分模块用于进行相位差协调，令高维离散的交通状态能够在Q表中得以连续化表示，降低Q表的复杂度，所述模糊评价器用于根据交通数据对相位差协调控制效果进行评价，从而为Q学习模块提供奖惩值数据；所述Q学习模块用于接收到状态融合模块和模糊评价器两个模块的数据后根据Q学习公式对Q表中的相位差方案进行更新；所述Q表用于将符合条件的相位差协调配时方案输出；所述模糊评价器选取主干道的平均车辆延误变化率D′以及车辆平均速度V′作为模糊评价器的输入，输入输出变量采用五级级模糊划分方式，即{“负大”，“负小”，“中”，“正小”，“正大”}表示五种不同的平均延误以及车辆平均速度变化程度，记为{NB，NS，ZO，PS，PB}，使用三角隶属度函数表示，模糊评价器采用重心法对模糊输出进行解模糊，最终输出的奖惩信号值范围是(-1，1)，模糊评价器输出奖惩值r，r的范围为(-1，1)，用于Q学习更新；

2.根据权利要求1所述的一种基于Q学习的多路口自适应相位差协调控制系统，其特征在于：所述Q表的学习公式为：

Q(S，a)←Q(S，a)+α[r+γmax_a′Q(S′，a′)-Q(S，a)]

其中，Q(S，a)表示当前状态集S下的选择依据，α为学习效率，α越高则代表Q(S，a)受下一个状态影响越大，r为执行配时方案a之后的反馈，即奖惩值，S′表示下一个状态集，Q(S′，a′)表示下一个状态集下的选择策略，max_a′Q(S′，a′)则表示下一个状态集所估计的最佳的选择策略，γ表示衰减度，γ越低，则系统学习效率受奖惩值r的影响越大。

3.根据权利要求1所述的一种基于Q学习的多路口自适应相位差协调控制系统，其特征在于：如相邻路口的放行相位与协调路口当前相位无关联，那么在配时方案执行时间内，相邻路口不会有车辆到达关键路口，则配时方案中不加入相位差的调整；其次，如果协调方向的车流量小于关键路口其他相位车流量总和的均值，则应优先考虑放行其他相位，此时也不加入相位差的调整；

调控策略遵循如下规则：当本地放行时间小于相位差调控时间时，本相位绿灯时间为相位差；而当本地放行时间大于相位差，此时放行相位交通状态十分接近拥堵，为保证放行相位车辆的最大通行度以及其他各个相位的车辆通行，取本路口最大绿灯通行时间，即当执行调控策略时，路口的最终绿灯时间G^last如下：

其中，G_p为相位差调控时间，G_max为本路口绿灯相位最大通行时间，G_L本地路口绿灯相位配时方案。

4.一种如权利要求1所述的基于Q学习的多路口自适应相位差协调控制系统的控制方法，其特征在于：包括如下步骤：

S2、本地控制模块根据当前路口交j通状态给出相应的本地相位绿灯配时策略，并将本地配时策略传输至协调控制模块；

S4、Q学习控制模块根据协调控制模块传递过来的信息，对上一次协调控制效果进行评价，更新协调控制策略，并给出基于相位差的协调控制配时方案，连同本地配时方案传递给调控模块；随后给出基于相位差的协调控制配时方案，连同本地配时方案传递给调控模块；

5.根据权利要求4所述的一种基于Q学习的多路口自适应相位差协调控制系统的控制方法，其特征在于：所述交通流状态信息包括交通流量和上个周期车辆排队长度。