CN114743388B

CN114743388B - 一种基于强化学习的多交叉口信号自适应控制方法

Info

Publication number: CN114743388B
Application number: CN202210281779.3A
Authority: CN
Inventors: 黄玮; 胡芙瑜; 何国君
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2023-06-20
Anticipated expiration: 2042-03-22
Also published as: CN114743388A

Abstract

本发明公开了一种基于强化学习的多交叉口信号自适应控制方法，方法包括：根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立随机交通模型；定义强化学习的状态、动作、报酬和值函数，根据随机交通模型建立多交叉口控制模型；配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络；将实时交通信息按照交叉口的位置分别传入与交叉口对应的智能体网络中，得到智能体网络输出的交叉口的相位，并按照交叉口的相位执行交叉口的交通信号控制。本发明提高了模型的精度和交叉口信号的控制效率，有助于缓解交通拥堵，可广泛应用于交通信号控制技术领域。

Description

一种基于强化学习的多交叉口信号自适应控制方法

技术领域

本发明涉及交通信号控制技术领域，尤其是一种基于强化学习的多交叉口信号自适应控制方法。

背景技术

城市交通对一个城市的经济、文化和环境发展具有先导性和全局性的影响。随着经济繁荣和城市化进程的推进，汽车数量和交通需求不断激增，城市基础设施的建设难以跟上车辆发展和交通需求的增长步伐。再加上城市规划和土地利用不合理、公共交通运力不足或线路布局不合理等问题导致交通拥堵现象频繁发生。提高路网通行能力、缓解交通拥堵、保障城市交通有序发展是城市交通控制面临的迫切问题。城市交通控制包含交通信号控制、交通流诱导和可变信息板等方式。其中，交通信号控制通过优化交叉口的信号配时方案，降低路口通行等待时长，提高道路通行效率，是有效的交通控制方法。其大致可分为定时控制、感应式控制和自适应控制。定时控制和感应式控制仅考虑当前交通状况，而自适应控制融入了对未来交通状况的短期预测，可以响应实时交通流调整状态参数，得到了广泛关注。

交通信号控制问题可以描述为顺序决策问题，即首先采取行动改变信号配时，然后从结果中进行学习，这种试错学习的方法恰是强化学习的核心，所以强化学习是适合解决交通信号控制问题的方法。强化学习将交通信号灯看作一个具有决策能力的智能体，通过与外部环境交互不断优化决策，一般包含环境、状态、动作和报酬四个元素。在每一个步长，对环境的描述等被视作状态。智能体预测最大化预期报酬的下一个动作并执行该动作，然后环境反馈给智能体评价动作性能的报酬。智能体不断基于当前环境执行不同的策略，然后根据环境的反馈调整策略。

现有基于强化学习的自适应控制方法通常为无模型的方法，直接利用与环境交互获得的数据改善自身的行为，没有底层模型支持决策。这些方法大多假设交通条件已知，因此忽略了交通系统的随机性。而且基于值函数的强化学习算法在应用于多交叉口信号灯控制时，随着状态空间和动作空间的增大其复杂性呈指数增长，面临维数灾难。

发明内容

有鉴于此，本发明实施例提供一种精度高且效率高的基于强化学习的多交叉口信号自适应控制方法，有助于缓解交通拥堵。

本发明的一方面提供了一种基于强化学习的多交叉口信号自适应控制方法，包括：

根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立随机交通模型；

定义强化学习的状态、动作、报酬和值函数，根据所述随机交通模型建立多交叉口控制模型；其中，所述多交叉口控制模型以多交叉口网络中每个交叉口进出口道的排队长度作为输入，以一组动作作为输出；

配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络；其中，所述交通模拟器仿真下一个信号周期，对所述多交叉口控制模型进行训练，得到最优多交叉口控制模型；

将所述实时交通信息按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的配时方案，并按照所述交叉口的配时方案执行交叉口的交通信号控制。

可选地，所述根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立随机交通模型，包括：

选择需要进行控制的多交叉口区域；其中，所述多交叉口区域中包含多个交叉口；

计算前一时刻路段上车辆的流入量和流出量，结合流量守恒关系和状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数；

根据得到的路段车辆数，计算路段密度和路段的延误；

对一个交叉口各条路段的延误进行求和，从而得到各个交叉口当前时刻下的延误；

将当前时刻各个交叉口的延误输入强化学习算法支持决策。

可选地，所述计算前一时刻路段上车辆的流入量和流出量，结合流量守恒关系和状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数，包括：

根据流量守恒关系，计算当前时刻的车辆数；

根据每个时刻内进入路段的车辆数是一个具有时变到达率的非齐次泊松过程，确定在预设时间间隔内车辆的到达率，进而确定流入量；

根据在未饱和状态和过饱和状态下车辆离开一个路段到另一个路段的数量，计算路段上车辆的流出量；

根据所述流入量和所述流出量，计算状态转移概率，建立状态转移矩阵；

根据所述状态转移矩阵建立路段的车辆数演化模型，得到当前时刻路段上的车辆数。

可选地，所述根据得到的路段车辆数，计算路段密度和路段的延误，包括：

根据得到的车辆数，计算路段的密度；

所述路段的密度的计算公式为：

其中，ρ_l(t+1)代表t+1时刻下的路段l的密度；k_l(t+1)代表t+1时刻下的车辆数；Δt表示时间间隔的时长；Δx表示单位时间间隔车辆驶过的距离；

根据所述路段的密度，计算路段上的延误；

其中，所述路段上的延误的计算公式为：

d_l(t+1)＝ρ_l(t+1)ΔxΔt

其中，d_l(t+1)代表t+1时刻下的路段l的延误。

可选地，所述定义强化学习的状态、动作、报酬和值函数，根据所述随机交通模型建立多交叉口控制模型，包括：

将每一时刻的排队长度和信号灯状态作为强化学习中描述交通环境的状态；

在每个时刻，输入交叉口各条路段上的排队长度，多交叉口控制模型根据随机交通模型和函数逼近估计各个状态-动作对对应的值函数，依据贪心策略，选择最小的值函数对应的动作；

利用最小绿灯时间和最大绿灯时间对动作的频繁转换进行限制，规定最小绿灯时间为3个时间间隔，最大绿灯时间为15个时间间隔；

智能体执行选择的动作，更新相关参数，交叉口根据交通模拟器的仿真结果进入下一个状态。

可选地，所述智能体执行选择的动作，更新相关参数，交叉口根据交通模拟器的仿真结果进入下一个状态，包括：

更新交叉口信号灯状态；

计算单步TD偏差；

计算整个预测时域内累积的TD偏差；

根据所述TD偏差，通过多步时间差分对近似参数进行更新；

根据到达率更新状态转移概率；

将智能体选择的动作输入到交通模拟器中，交通模拟器根据当前时刻的状态和动作输出新的状态作为下一时刻的状态。

可选地，所述交通模拟器仿真下一个信号周期，对所述多交叉口控制模型进行训练，得到最优多交叉口控制模型，包括：

配置仿真的道路文件和车辆文件用于描述行车道路和车辆行为；

根据多交叉口控制模型，编制主控制文件实现控制车道上每辆车的效果；

根据预先得到的历史数据对多交叉口控制模型进行训练，得到训练好的逼近函数；

根据训练好的逼近函数训练得到最优多交叉口控制模型。

本发明实施例的另一方面还提供了一种基于强化学习的多交叉口信号自适应控制装置，包括：

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立随机交通模型；定义强化学习的状态、动作、报酬和值函数，根据所述随机交通模型建立多交叉口控制模型；其中，所述多交叉口控制模型以多交叉口网络中每个交叉口进出口道的排队长度作为输入，以一组动作作为输出；配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络；其中，所述交通模拟器仿真下一个信号周期，对所述多交叉口控制模型进行训练，得到最优多交叉口控制模型；将所述实时交通信息按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的配时方案，并按照所述交叉口的配时方案执行交叉口的交通信号控制。本发明提高了模型的精度和交叉口信号的控制效率，有助于缓解交通拥堵。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种多交叉口控制模型的训练流程图；

图2为本发明实施例公开的一种基于强化学习的多交叉口信号自适应控制方法的流程图；

图3为本发明实施例公开的一种强化学习模型结构示意图；

图4为本发明实施例的多交叉口示意图；

图5为本发明实施例的单交叉口及其相位的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例提供了一种基于强化学习的多交叉口信号自适应控制方法，其包括以下步骤：

1)根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立能够支持决策的随机交通模型；

2)定义强化学习的状态、动作、报酬和值函数，根据得到的随机交通模型建立多交叉口控制模型，该模型以多交叉口网络中每个交叉口进出口道的排队长度作为输入，以一组动作作为输出；

3)配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络。交通模拟器仿真下一个信号周期，对建立的多交叉口控制模型进行训练，得到最优多交叉口控制模型；

4)将所述实时交通信息按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的配时方案，并按照所述交叉口的配时方案执行交叉口的交通信号控制。

可选地，所述步骤1)中，根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立能够支持决策的随机交通模型，包括以下步骤：

1.1)选择需要进行控制的多交叉口区域J，J为区域内交叉口的集合，J＝[j₁,j₂,…,j_n]，其中n为控制区域内交叉口的数量；控制区域内的路段由l表示。

1.2)计算上一时刻路段上车辆的流入量

和流出量/>

根据流量守恒关系和状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数。

1.3)根据得到的路段车辆数，计算路段密度ρ_l，并进一步计算得到路段的延误d_l。

1.4)对一个交叉口各条路段的延误进行求和，从而得到各个交叉口当前时刻下的延误

将当前时刻各个交叉口的延误输入强化学习算法支持决策。

可选地，所述步骤1.2)中，计算上一时刻路段上车辆的流入量

和流出量/>

根据流量守恒关系和状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数，包括以下步骤：

1.2.1)根据流量守恒关系，当前时刻的车辆数

其中，k_l(t)表示路段l在t时刻的车辆数。

1.2.2)设置每个时刻内进入路段l的车辆数k_l(t)是一个具有时变到达率q_l(t)的非齐次泊松过程，则在[t,t+1]时间间隔内N辆车进入路段l的概率为：

1.2.3)计算路段上车辆的流出量为：

式中第一项和第三项分别表示在未饱和状态、过饱和状态下离开路段l进入路段m的车辆数，第二项表示最大可通过车辆数。其中，β_l,m为从路段l离开进入下游路段m的比例(转弯率)，

为连接路段l到m的车道数，g_l,m(t)为在[t,t+1]时间间隔内由路段l到m的交通流的可通行时间(绿灯时长)，H为平均车头时距，σ_l,m(t)为路段l进入路段m的转弯率与从路段m的上游路段进入路段m的转弯率之和的比值，Q为路段最多容纳车辆数。

1.2.4)根据得到的流入量和流出量，计算状态转移概率，建立状态转移矩阵。其中，状态转移概率的计算公式为：

其中，

表示路段l的排队长度由k_l转变为/>

的概率。

1.2.5)根据得到的状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数。当前时刻车辆数的计算公式为：

可选地，所述步骤1.3)中，根据得到的路段车辆数，计算路段密度ρ_l，并进一步计算得到路段的延误d_l，包括以下步骤：

1.3.1)根据得到的车辆数，计算路段的密度

其中Δt表示时间间隔的时长，Δx表示单位时间间隔车辆驶过的距离。

1.3.2)根据得到的路段密度，计算路段上的延误d_l(t+1)＝ρ_l(t+1)ΔxΔt。

可选地，所述步骤1.4)中，对一个交叉口各条路段的延误进行求和，从而得到各个交叉口当前时刻下的延误

对延误进行求和的公式为：

可选地，所述步骤2)中，定义强化学习的状态、动作、报酬和值函数，根据得到的随机交通模型建立多交叉口控制模型，该模型以多交叉口网络中每个交叉口进出口道的排队长度作为输入，以一组动作作为输出，包括以下步骤：

2.1)将每一时刻的排队长度k_l(t)和信号灯状态x_l(t)作为强化学习中描述交通环境的状态z_l(t)，其中，x_l(t)是一个二进制变量，其取值为：

将动作a_l(t)定义为相位选择，其取值为：

将随机交通模型输出的路段延误d_l(t)定义为报酬值，记为：

将交叉口j₀在t₀时刻的值函数

定义为：

式中，

其中，w_l(t₀)为近似参数，为了捕捉红绿灯的不同影响，其由两部分组成，有：

初始值为/>

上述值函数

由三部分组成：第一部分/>

是采用随机交通模型对该交叉口未来T个时间间隔状态的预测，其中T表示模型预测时域的长度，γ∈(0,1)为折扣因子决定了未来报酬的现值，/>

是模型预测的该交叉口延误；第二部分

是对独立于决策/>

的其他交叉口状态的预测，前两部分都是基于随机交通模型的预测；第三部分/>

是基于估计的状态/>

对网络中所有交叉口从t₀到t₀+T时刻值函数的近似，以保证在求解局部决策/>

时考虑网络的全局延误。

2.2)在每个时刻t，输入交叉口j_i(i＝1,…,n)各条路段上的排队长度，多交叉口控制模型根据随机交通模型和函数逼近估计各个状态-动作对对应的值函数，依据贪心策略，选择最小的值函数对应的动作，即

式中，A表示所有可选动作的集合。

2.3)利用最小绿灯时间和最大绿灯时间对动作的频繁转换进行限制，规定最小绿灯时间为3个时间间隔，最大绿灯时间为15个时间间隔。

2.4)智能体执行选择的动作，更新相关参数，交叉口根据交通模拟器的仿真结果进入下一个状态。

可选地，所述步骤2.1)中，信号灯状态x_l(t)的更新规则为：

x_l(t)＝[x_l(t-1)+a_l(t-1)]mod 2。

可选地，所述步骤2.3)中，利用最小绿灯时间和最大绿灯时间对动作的频繁转换进行限制，规定最小绿灯时间为3个时间间隔，最大绿灯时间为15个时间间隔，包括以下步骤：

2.3.1)若x_l(t)＝1且

计算x_l(t-2)+x_l(t-1)+x_l(t)，且有：

2.3.2)若x_l(t)＝1且

计算x_l(t-14)+x_l(t-13)+…+x_l(t)，且有：

可选地，所述步骤2.4)中，智能体执行选择的动作，更新相关参数，交叉口根据交通模拟器的仿真结果进入下一个状态，包括以下步骤：

2.4.1)更新交叉口信号灯状态x_l(t)＝[x_l(t-1)+a_l(t-1)]mod 2。

2.4.2)根据时间差分更新近似参数w_l(t₀)：

首先计算单步TD偏差

其中t∈[t₀,t₀+T-1]；

然后计算整个预测时域内累积的TD偏差

根据计算得到的δ_T(t₀)，w_l(t₀)依据多步时间差分更新为w_l(t₀+1)，其更新公式为：

式中，α_l(t₀)为学习率。

2.4.3)根据到达率更新状态转移概率。

2.4.4)将智能体选择的动作输入到交通模拟器中，交通模拟器根据当前时刻的状态和动作输出新的状态作为下一时刻的状态。

可选地，所述步骤3)中，配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络。交通模拟器仿真下一个信号周期，对建立的多交叉口控制模型进行训练，得到最优多交叉口控制模型，包括以下步骤：

3.1)配置仿真的道路文件和车辆文件用于描述行车道路和车辆行为。

3.2)根据多交叉口控制模型，编制主控制文件实现控制车道上每辆车的效果。

3.3)根据预先得到的历史数据对多交叉口控制模型进行训练，得到训练好的逼近函数。

本发明由于采取以上技术方案，其具有以下优点：1、本发明采用随机交通模型与强化学习相结合的方法对多交叉口信号配时问题进行建模与求解，运用底层模型支持决策提高了模型的精度。2、本发明采用函数逼近拟合状态-动作值函数，简化了计算的复杂性，提高了收敛速度。3、本发明对多交叉口进行协同控制，在进行局部决策时考虑全局网络的影响，提供不同局部控制器进行交流的途径，从而可以提高交通网络的运行效率，缓解交通拥堵。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

图1为本发明的预训练过程，包括以下步骤：

1)选择需要进行协调控制的多交叉口配置仿真路口环境和人造车流到交通模拟器，搭建智能体网络。交叉口交通仿真环境包括：交叉口车道数、进口道长度、渠化、相位组成、交叉口车流量、车流转向。将每个交叉口视为一个独立的智能体，一方面对路口有绝对的控制权，另一方面和其他路口实施协调。

2)定义多交叉口控制模型，包括强化学习的状态、动作、报酬、值函数以及随机交通模型。

具体地，如图2所示，上述步骤2)具体包括以下步骤：

2.1)定义上一时刻路段上车辆的流入量

和流出量/>

根据流量守恒关系和状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数。计算路段密度ρ_l并进一步计算得到路段的延误d_l。

具体地，上述步骤2.1)包括以下步骤：

2.1.1)设置每个时刻内进入路段l的车辆数k_l(t)是一个具有时变到达率q_l(t)的非齐次泊松过程，则在[t,t+1]时间间隔内N辆车进入路段l的概率为：

2.1.2)路段上车辆流出量的定义为：

2.1.3)根据得到的流入量和流出量，计算状态转移概率，建立状态转移矩阵。其中，状态转移概率的计算公式为：

2.1.4)根据得到的状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数。当前时刻车辆数的计算公式为：

2.1.5)根据得到的车辆数，计算路段的密度

2.1.6)根据得到的路段密度，计算路段上的延误d_l(t+1)＝ρ_l(t+1)ΔxΔt。

2.2)定义每一时刻的排队长度k_l(t)和信号灯状态x_l(t)为强化学习中描述交通环境的状态z_l(t)，将动作a_l(t)定义为相位选择，将随机交通模型输出的路段延误d_l(t)定义为报酬值，信号灯状态、动作、报酬的计算公式分别为：

2.3)将交叉口j₀在t₀时刻的值函数

定义为：

其中，

表示函数逼近估计的从t₀到t₀+T时刻的全局值函数。w_l(t₀)为近似参数，其定义为：

初始值为/>

2.4)在每个时刻t，根据贪心策略，定义最小的值函数对应的动作为最优动作，判断最优动作是否满足最小和最大绿灯时间，若满足则将最优动作输入到交通模拟器，如不满足则选取次优动作。最小和最大绿灯时间的标准分别为：

若x_l(t)＝1且

计算x_l(t-2)+x_l(t-1)+x_l(t)，且有：

若x_l(t)＝1且

计算x_l(t-14)+x_l(t-13)+…+x_l(t)，且有：

2.5)更新信号灯状态、近似参数和状态转移概率。

具体的，更新方式为：

2.5.1)交叉口信号灯状态的更新公式为x_l(t)＝[x_l(t-1)+a_l(t-1)]mod 2。

2.5.2)根据时间差分更新近似参数w_l(t₀)。首先计算单步TD偏差

其中t∈[t₀,t₀+T-1]。然后计算整个预测时域内累积的TD偏差/>

最后依据多步时间差分计算/>

式中，α_l(t₀)为学习率。

2.5.3)根据时变到达率更新状态转移概率。

3)采集模拟器中交叉口交通状态信息，基于多交叉口控制模型生成下一时刻的信号配时方案输入到交通模拟器。

4)交通模拟器根据配时方案仿真得到新的状态，多交叉口控制模型更新控制参数。

5)判断是否达到预设的训练次数。若达到，则获得训练好的多交叉口控制模型，若未达到，则重复步骤3)到步骤5)。

由上述描述可见，本发明实施例中的一种基于强化学习的多交叉口信号自适应控制方法可分为如图3所示的两大部分：交通模拟器构成的仿真环境和多交叉口控制模型。其中，多交叉口控制模型利用值迭代的方法动态寻找最优解，局部报酬值为根据随机交通模型预测得到的延误，同时利用函数近似简化计算过程。在每个时刻t，采集交通模拟器输出的交通状态至多交叉口控制模型，多交叉口控制模型计算得到该状态下所有可选动作对应的值函数，并根据贪婪策略选择最小的值函数对应的动作为最优动作输入至模拟器。新的时刻随机交通模型根据时变到达率更新状态转移概率，近似参数根据时间差分进行更新，模拟器将新的状态输入至多交叉口控制模型。

图4为多交叉口的示意图。本发明的应用为十字形交叉口，不限制交叉口的数量。

图5为单点交叉口的结构。交叉口有东西南北四条岔路，每个交叉口都有一个信号灯控制车辆的通行。根据路口的结构，左侧车道允许车辆直行或左转，右侧车道允许车辆直行或右转。交叉口交通信号共有两个相位，相位之间由两秒的全红时刻相连接。交叉口各方向车流量随时间随机变化。

综上所述，本发明具有以下优点：1、本发明采用随机交通模型与强化学习相结合的方法对多交叉口信号配时问题进行建模与求解，运用底层模型支持决策提高了模型的精度。2、本发明采用函数逼近拟合状态-动作值函数，简化了计算的复杂性，提高了收敛速度。3、本发明对多交叉口进行协同控制，在进行局部决策时考虑全局网络的影响，提供不同局部控制器进行交流的途径，从而可以提高交通网络的运行效率，缓解交通拥堵。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于强化学习的多交叉口信号自适应控制方法，其特征在于，包括：

将实时交通信息按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的配时方案，并按照所述交叉口的配时方案执行交叉口的交通信号控制；

所述根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立随机交通模型，包括：

根据得到的路段车辆数，计算路段密度和路段的延误；

将当前时刻各个交叉口的延误输入强化学习算法支持决策；

所述定义强化学习的状态、动作、报酬和值函数，根据所述随机交通模型建立多交叉口控制模型，包括：

2.根据权利要求1所述的一种基于强化学习的多交叉口信号自适应控制方法，其特征在于，所述计算前一时刻路段上车辆的流入量和流出量，结合流量守恒关系和状态转移矩阵，建立路段的车辆数演化模型，得到当前时刻路段上的车辆数，包括：

根据流量守恒关系，计算当前时刻的车辆数；

3.根据权利要求1所述的一种基于强化学习的多交叉口信号自适应控制方法，其特征在于，所述根据得到的路段车辆数，计算路段密度和路段的延误，包括：

根据得到的车辆数，计算路段的密度；

所述路段的密度的计算公式为：

根据所述路段的密度，计算路段上的延误；

其中，所述路段上的延误的计算公式为：

d_l(t+1)＝ρ_l(t+1)ΔxΔt

其中，d_l(t+1)代表t+1时刻下的路段l的延误。

4.根据权利要求1所述的一种基于强化学习的多交叉口信号自适应控制方法，其特征在于，所述智能体执行选择的动作，更新相关参数，交叉口根据交通模拟器的仿真结果进入下一个状态，包括：

更新交叉口信号灯状态；

计算单步TD偏差；

计算整个预测时域内累积的TD偏差；

根据整个预测时域内累积的TD偏差，通过多步时间差分对近似参数进行更新；

根据到达率更新状态转移概率；

5.根据权利要求1所述的一种基于强化学习的多交叉口信号自适应控制方法，其特征在于，所述交通模拟器仿真下一个信号周期，对所述多交叉口控制模型进行训练，得到最优多交叉口控制模型，包括：

根据多交叉口控制模型，编制主控制文件实现控制车道上每辆车的效果；根据预先得到的历史数据对多交叉口控制模型进行训练，得到训练好的逼近函数；

根据训练好的逼近函数训练得到最优多交叉口控制模型。

6.一种应用如权利要求1所述的基于强化学习的多交叉口信号自适应控制方法的装置，其特征在于，包括：

第一模块，用于根据待控制的多交叉口的实际情况，将连续时间划分为离散的时间间隔，结合状态转移模型和交通机理模型，建立随机交通模型；

第二模块，用于定义强化学习的状态、动作、报酬和值函数，根据所述随机交通模型建立多交叉口控制模型；其中，所述多交叉口控制模型以多交叉口网络中每个交叉口进出口道的排队长度作为输入，以一组动作作为输出；

第三模块，用于配置仿真路口环境以及车流数据到交通模拟器，搭建基于强化学习框架的智能体网络；其中，所述交通模拟器仿真下一个信号周期，对所述多交叉口控制模型进行训练，得到最优多交叉口控制模型；

第四模块，用于将实时交通信息按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的配时方案，并按照所述交叉口的配时方案执行交叉口的交通信号控制。

7.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至5中任一项所述的方法。