CN113284354A

CN113284354A - 一种基于强化学习的交通弹性调控方法及系统

Info

Publication number: CN113284354A
Application number: CN202110679324.2A
Authority: CN
Inventors: 李大庆; 曾冠文; 郑之帼
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-20
Anticipated expiration: 2041-06-18
Also published as: CN113284354B

Abstract

本发明涉及一种基于强化学习的交通弹性调控方法及系统。该方法包括：将交通网络划分为若干区域，并采集每个区域的车流信息；根据车流信息确定每个区域的宏观基本图；基于宏观基本图，确定各个区域供需平衡时的流量水平；根据流量水平确定交通网络的失衡率；根据失衡率，通过渗流分析确定交通网络的临界失衡阈值；建立多智能体强化学习模型，并根据车流信息、流量水平以及临界失衡阈值对多智能体强化学习模型进行学习训练，生成训练后的多智能体强化学习模型；利用训练后的多智能体强化学习模型调控实际交通网络，使得实际交通网络的当前失衡率小于所述临界失衡阈值。本发明能够在最短调控周期下达到最佳调控效果。

Description

一种基于强化学习的交通弹性调控方法及系统

技术领域

本发明涉及交通弹性、交通调控和网络科学的交叉学科领域，特别是涉及一种基于强化学习的交通弹性调控方法及系统。

背景技术

近年来，灾害性突发事件仍时有发生，这些事件往往会造成巨大的社会和经济损失。例如，2021年3月发生的苏伊士运河堵船事件，其原因是某艘货船在通过苏伊士运河时遭遇横风而船体打横，直接堵塞了运河航道。据有关方面估计，由于该事件的影响，苏伊士运河每堵塞1天就可能损失约4亿美元。鉴于突发事件可能带来的灾害性后果，如何提高对城市系统的应急处置能力，是城市管理者的痛点问题。在这样的背景下，Holling在1973年提出了系统弹性的概念(也称为系统“韧性”，resilience)，其具体含义：系统能够承受外界扰动事件的冲击，并快速恢复至正常运行的功能状态的能力。之后，系统弹性的概念不断延伸到各个领域。对于城市管理者而言，提高城市系统应对突发性事件的弹性，从而减少其带来的严重后果，是提升城市应急管理的有效手段。

交通系统是城市的生命线。交通弹性是韧性城市的重要内容之一。为了有效进行城市交通弹性管理，首先需要确定合适的交通弹性测度。现有的交通系统弹性度量指标主要可以分成确定型指标和概率型指标两大类。其中，确定型指标主要通过分析性能曲线的积分面积来计算得到，“弹性三角形”是最经典的确定型弹性指标；概率型指标主要通过分析系统的恢复程度和恢复概率的期望值来计算得到。然而，这些指标的局限性在于难以挖掘出系统弹性的本质，从而不能有效的对系统的弹性模式进行分析。另一方面，已有研究提出可以基于交通渗流的分析方法来确定交通网络的弹性临界点(tippingpoint)，为城市交通管理者规避可能发生的重大交通拥堵提供早期预警作用。渗流理论可以很好的分析交通网络在不同拥堵率(拥堵道路占交通路网中所有道路的比例)下的功能连通性水平。基于对交通网络的渗流分析，可以确定系统功能连通性随拥堵率的变化趋势。对不同时期的这些变化趋势进行曲线拟合，可以得到系统的弹性函数(resilience function)，并进而挖掘系统的弹性模式。进一步分析交通弹性函数的性质，发现在拥堵率变化的某一个区间内，交通网络可能存在多个稳定状态；而在交通网络单一稳定状态与多稳定状态的交界点对应的拥堵率，即为交通网络的弹性临界点。基于渗流分析的交通弹性临界点确定方法仅需要道路网络拓扑信息和短时期的交通数据即可计算得到准确结果，因此可以将其作为交通弹性的调控目标。

城市交通调控是一个复杂的系统工程。现有的交通调控方法仍然较多集中在有限的路口和路段这一层面，在多个路口的自主协同调控方面也有成功的试点验证，但是对于整个城市规模的交通调控，目前更多的是依赖管理者的决策经验作为指导。考虑到交通网络具有的非线性、不确定性、自组织性、涌现性等复杂性特征，如果简单将不同路口的调控策略进行组合，可能带来事倍功半的效果；另一方面，考虑到城市交通网络的路口、路段众多，在构造集中协同调控的组合策略时也将面临“维数灾难”的问题。

经典的系统弹性临界点确定方法主要基于时间序列分析方法，需要依赖于高质量、长时期的时间序列数据才可以得到较为准确的结果，也难以揭示系统空间结构因素对系统弹性的作用，调控周期长且调控效果差。

发明内容

本发明的目的是提供一种基于强化学习的交通弹性调控方法及系统，以解决调控周期长且调控效果差的问题。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的交通弹性调控方法，包括：

将交通网络划分为若干区域，并采集每个所述区域的车流信息；所述车流信息包括车流流量以及车流密度；

根据所述车流信息确定每个所述区域的宏观基本图；

基于所述宏观基本图，确定各个所述区域供需平衡时的流量水平；所述流量水平包括交通供需平衡状态以及交通供需失衡状态；

根据所述流量水平确定所述交通网络的失衡率；所述失衡率为处于交通供需失衡状态的区域的数量占所有区域的总数量的比例；

根据所述失衡率，通过渗流分析确定交通网络的临界失衡阈值；

建立多智能体强化学习模型，并根据所述车流信息、所述流量水平以及所述临界失衡阈值对所述多智能体强化学习模型进行学习训练，生成训练后的多智能体强化学习模型；

利用所述训练后的多智能体强化学习模型调控实际交通网络，使得所述实际交通网络的当前失衡率小于所述临界失衡阈值。

可选的，所述将交通网络划分为若干区域，并采集每个所述区域的车流信息，具体包括：

将所述交通网络等划分为尺寸相同的若干区域；

采集任一时间段内每个所述区域中各个路段的车流信息。

可选的，所述根据所述车流信息确定每个所述区域的宏观基本图，具体包括：

计算任一取样时刻的所述区域中各个路段的车流信息的平均值；所述车流信息的平均值包括平均车流流量以及平均车流密度；

根据所述车流信息的平均值确定任一所述取样时刻对应的车流信息散点；

根据所有所述取样时刻对应的车流信息散点构建每个所述区域的宏观基本图；所述宏观基本图包括平均车流流量-平均车流密度曲线图、平均车流流量-平均车流速度曲线图以及平均车流速度-平均车流密度曲线图。

可选的，所述基于所述宏观基本图，确定各个所述区域供需平衡时的流量水平，具体包括：

基于所述宏观基本图，选定车流流量阈值；

获取任一所述区域内的当前车流流量；

判断所述当前车流流量是否大于或者等于所述车流流量阈值，得到第一判断结果；

若所述第一判断结果表示为所述当前车流流量大于或者等于所述车流流量阈值，确定所述流量水平为交通供需平衡状态；

若所述第一判断结果表示为所述当前车流流量小于所述车流流量阈值，确定所述流量水平为交通供需失衡状态。

可选的，所述根据所述失衡率，通过渗流分析确定交通网络的临界失衡阈值，具体包括：

基于所述失衡率，每次随机移除多个所述区域，确定移除比例；

分析在所述移除比例下所述交通网络的连通性，确定最大连通子团的尺寸；所述最大连通子团的尺寸为连通最多区域的区域数量；

根据所述最大连通子团的尺寸以及所述失衡率，通过渗流分析，确定最大连通子团的尺寸-失衡率曲线；

判断所述最大连通子团的尺寸-失衡率曲线是否存在多态现象，得到第二判断结果；所述多态现象为在最大连通子团的尺寸-失衡率曲线中存在某一失衡率使得最大连通子团尺寸的值存在多种取值情况；

若所述第二判断结果表示为所述最大连通子团的尺寸-失衡率曲线判断所述交通网络存在多态现象，选取所述最大连通子团的尺寸-失衡率曲线中单态现象与多态现象交界的分支位置对应的失衡率为弹性临界点；所述单态现象为在最大连通子团的尺寸-失衡率曲线中对于任一给定的失衡率，最大连通子团尺寸的值只取一个值；所述弹性临界点为所述交通网络的临界失衡阈值。

一种基于强化学习的交通弹性调控系统，包括：

车流信息采集模块，用于将交通网络划分为若干区域，并采集每个所述区域的车流信息；所述车流信息包括车流流量以及车流密度；

宏观基本图构建模块，用于根据所述车流信息确定每个所述区域的宏观基本图；

流量水平确定模块，用于基于所述宏观基本图，确定各个所述区域供需平衡时的流量水平；所述流量水平包括交通供需平衡状态以及交通供需失衡状态；

失衡率确定模块，用于根据所述流量水平确定所述交通网络的失衡率；所述失衡率为处于交通供需失衡状态的区域的数量占所有区域的总数量的比例；

临界失衡阈值确定模块，用于根据所述失衡率，通过渗流分析确定交通网络的临界失衡阈值；

训练模块，用于建立多智能体强化学习模型，并根据所述车流信息、所述流量水平以及所述临界失衡阈值对所述多智能体强化学习模型进行学习训练，生成训练后的多智能体强化学习模型；

调控模块，用于利用所述训练后的多智能体强化学习模型调控实际交通网络，使得所述实际交通网络的当前失衡率小于所述临界失衡阈值。

可选的，所述车流信息采集模块，具体包括：

划分单元，用于将所述交通网络等划分为尺寸相同的若干区域；

车流信息采集单元，用于采集任一时间段内每个所述区域中各个路段的车流信息。

可选的，所述宏观基本图确定模块，具体包括：

平均值计算单元，用于计算任一取样时刻的所述区域中各个路段的车流信息的平均值；所述车流信息的平均值包括平均车流流量以及平均车流密度；

车流信息散点确定单元，用于根据所述车流信息的平均值确定任一所述取样时刻对应的车流信息散点；

宏观基本图确定单元，用于根据所有所述取样时刻对应的车流信息散点构建每个所述区域的宏观基本图；所述宏观基本图包括平均车流流量-平均车流密度曲线图、平均车流流量-平均车流速度曲线图以及平均车流速度-平均车流密度曲线图。

可选的，所述流量水平确定模块，具体包括：

车流流量阈值选定单元，用于基于所述宏观基本图，选定车流流量阈值；

当前车流流量获取单元，用于获取任一所述区域内的当前车流流量；

第一判断单元，用于判断所述当前车流流量是否大于或者等于所述车流流量阈值，得到第一判断结果；

交通供需平衡状态确定单元，用于若所述第一判断结果表示为所述当前车流流量大于或者等于所述车流流量阈值，确定所述流量水平为交通供需平衡状态；

交通供需失衡状态确定单元，用于若所述第一判断结果表示为所述当前车流流量小于所述车流流量阈值，确定所述流量水平为交通供需失衡状态。

可选的，所述临界失衡阈值确定模块，具体包括：

移除比例确定单元，用于基于所述失衡率，每次随机移除多个所述区域，确定移除比例；

最大连通子团的尺寸确定单元，用于分析在所述移除比例下所述交通网络的连通性，确定最大连通子团的尺寸；所述最大连通子团的尺寸为连通最多区域的区域数量；

最大连通子团的尺寸-失衡率曲线确定单元，用于根据所述最大连通子团的尺寸以及所述失衡率，通过渗流分析，确定最大连通子团的尺寸-失衡率曲线；

第二判断单元，用于判断所述最大连通子团的尺寸-失衡率曲线是否存在多态现象，得到第二判断结果；所述多态现象为在最大连通子团的尺寸-失衡率曲线中存在某一失衡率使得最大连通子团尺寸的值存在多种取值情况；

临界失衡阈值确定单元，用于若所述第二判断结果表示为所述最大连通子团的尺寸-失衡率曲线判断所述交通网络存在多态现象，选取所述最大连通子团的尺寸-失衡率曲线中单态现象与多态现象交界的分支位置对应的失衡率为弹性临界点；所述单态现象为在最大连通子团的尺寸-失衡率曲线中对于任一给定的失衡率，最大连通子团尺寸的值只取一个值；所述弹性临界点为所述交通网络的临界失衡阈值。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种基于强化学习的交通弹性调控方法及系统，仅需要交通网络的拓扑信息以及短时期内的车流信息，通过渗流分析得到交通网络的临界失衡阈值，从而训练多智能体强化学习模型，以训练后的多智能体强化学习模型调控实际交通网络。整个调控过程调控周期短，不依赖于高质量、长时期的时间序列数据，在最短调控周期下达到最佳调控效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于强化学习的交通弹性调控方法流程图；

图2为多态系统的弹性临界点标定示意图；

图3为单态系统的弹性临界点标定示意图；

图4为本发明所提供的基于强化学习的交通弹性调控系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于强化学习的交通弹性调控方法及系统，能够在最短调控周期下达到最佳调控效果。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

对于城市级别的交通调控，分布式调控方法或将成为可行解；对于分布式调控而言，如何将大而复杂的系统建设成小的、彼此互相协调的子系统或子单元，是对系统实现有效管理的关键。多智能体技术是分布式人工智能的一个重要分支；采用多智能体技术搭建的系统具有自主性和自组织性强、学习能力和推理能力突出等显著优点。尤其是，应用多智能体强化学习，可以适应复杂的、动态的外界环境，从而提升学习效果。

结合渗流分析与多智能体强化学习技术，本发明旨在为城市交通的弹性管理与调控提供理论和技术指导，从而为城市交通拥堵治理、智慧交通建设等内容提供支持。

图1为本发明所提供的基于强化学习的交通弹性调控方法流程图，如图1所示，一种基于强化学习的交通弹性调控方法，包括：

步骤101：将交通网络划分为若干区域，并采集每个所述区域的车流信息；所述车流信息包括车流流量以及车流密度。

所述步骤101具体包括：将所述交通网络等划分为尺寸相同的若干区域；采集任一时间段内每个所述区域中各个路段的车流信息。

在实际应用中，(1)将交通网络等划分成大小相同的L×L个区域：对于研究的交通网络，统计其中其经纬度跨度范围。将经纬度跨度范围所围成的大矩形区域的长和宽各自等划分成L段，最终将整个大矩形范围分成L×L个小矩形的区域；该区域为方格区域。这一步实际上是对交通网络进行某种程度上的粗粒化处理。

(2)采集并处理一定时期内的车流流量、车流密度等数据信息：对于(1)中的每个区域，采集一定时间内该区域各个路段的车流流量、车流密度等数据信息。对于有缺失的数据，进行数据补偿。

步骤102：根据所述车流信息确定每个所述区域的宏观基本图。

所述步骤102具体包括：计算任一取样时刻的所述区域中各个路段的车流信息的平均值；所述车流信息的平均值包括平均车流流量以及平均车流密度；根据所述车流信息的平均值确定任一所述取样时刻对应的车流信息散点；根据所有所述取样时刻对应的车流信息散点构建每个所述区域的宏观基本图；所述宏观基本图包括平均车流流量-平均车流密度曲线图、平均车流流量-平均车流速度曲线图以及平均车流速度-平均车流密度曲线图。

在实际应用中，(1)确定每个区域的宏观基本图的函数形式：宏观基本图(Macroscopic Fundamental Diagram，MFD)是描述某个交通区域的平均车流流量、平均车流密度和平均车流速度三者之间关系的函数，其具体形式可以表述为：q＝kv，其中q表示平均车流流量，k表示平均车流密度，v表示平均车流速度。从宏观基本图的函数关系可知，只要知道三个参量其中两个的值，就可以直接推出第三个参量的值，因此可以通过绘制q-k曲线、q-v曲线、v-k曲线等来表示宏观基本图的形式。车流流量、车流密度、车流速度的计算方式，在交通领域中已有公知技术和文献支持，此处不再赘述。以q-k曲线的MFD形式为例，对于某一个区域，在基于步骤1所采集并处理的数据来绘制宏观基本图时，首先对每个取样时刻区域内的各个路段的车流流量、车流密度取平均，则每一个取样时刻可以得到一个q-k坐标系中的一个散点。然后将各个时刻的q-k散点绘制成散点图，并通过多项式拟合等方法进行曲线拟合，可以得到该区域的MFD函数形式。

步骤103：基于所述宏观基本图，确定各个所述区域供需平衡时的流量水平；所述流量水平包括交通供需平衡状态以及交通供需失衡状态。

所述步骤103具体包括：基于所述宏观基本图，选定车流流量阈值；获取任一所述区域内的当前车流流量；判断所述当前车流流量是否大于或者等于所述车流流量阈值，若是，确定所述流量水平为交通供需平衡状态；若否，确定所述流量水平为交通供需失衡状态。

在实际应用中，确定各个区域供需平衡时的流量水平为针对划分的每一个区域，对于步骤102的(1)中获得的该区域的MFD函数形式，结合实际交通运行情况设置合理的流量阈值q_c作为该区域内车流流量供需平衡的判定标准。当区域内某一时刻的车流流量q≥q_c时，则认为该区域当前时刻处于交通供需平衡的状态；否则，则认为该区域内交通供需失衡(包括供过于求和供不应求两种情况)，需要通过一定的方式实施交通调控。

步骤104：根据所述流量水平确定所述交通网络的失衡率；所述失衡率为处于交通供需失衡状态的区域的数量占所有区域的总数量的比例。

步骤105：根据所述失衡率，通过渗流分析确定交通网络的临界失衡阈值。

所述步骤105具体包括：基于所述失衡率，每次随机移除多个所述区域，确定移除比例；分析在所述移除比例下所述交通网络的连通性，确定最大连通子团的尺寸；所述最大连通子团的尺寸为连通最多区域的区域数量；根据所述最大连通子团的尺寸以及所述失衡率，通过渗流分析，确定最大连通子团的尺寸-失衡率曲线；判断所述最大连通子团的尺寸-失衡率曲线是否存在多态现象，得到第二判断结果；所述多态现象为在最大连通子团的尺寸-失衡率曲线中存在某一失衡率使得最大连通子团尺寸的值存在多种取值情况；若所述第二判断结果表示为所述最大连通子团的尺寸-失衡率曲线判断所述交通网络存在多态现象，选取所述最大连通子团的尺寸-失衡率曲线中单态现象与多态现象交界的分支位置对应的失衡率为弹性临界点；所述单态现象为在最大连通子团的尺寸-失衡率曲线中对于任一给定的失衡率，最大连通子团尺寸的值只取一个值；所述弹性临界点为所述交通网络的临界失衡阈值。

在实际应用中，(1)渗流分析：对于已经划分成若干区域的交通网络，设置失衡率f从0到1按照一定的精度变化(例如0.01)，每次随机移除设定失衡率的区域(即随机移除L×L×f个方格区域)，然后分析在该移除比例下整个大矩形区域的连通性，可以用最大连通子团尺寸G来表征。考虑到这一过程中存在的随机性因素，渗流分析通常需要进行多次，最终得到多条G-f曲线。

其中，这里的“移除”某一方格区域指的是将该区域设置为不可连通的状态；这里的“连通”指的是当任意两个相邻的方格区域均没有被移除时，则这两个相邻的区域处于连通状态；这里的“相邻”指的是紧靠某一个方格区域的正上方、正下方、正左面、正右面四个位置的方格区域；这里的“连通子团”指的是由连通的方格区域构成的集合，集合中的每个方格区域都和集合中的另一个任意方格区域直接连通或者通过传递性的连通关系间接连通，并且集合中的任意一个方格区域与集合外的方格区域不存在任何直接或间接连通的关系。例如，如果方格A与位于其正上方的方格B相连通，方格B与位于其正右面的方格C相连通，则方格A与方格C间接连通；如果方格A、B、C不再和其他方格区域有直接或间接的连通关系，则这三个方格组成一个连通子团；这里的“连通子团尺寸”指的是连通子团包含的方格区域的数量，而最大连通子团是指所有连通子团中包含方格区域数量最多的那一个。

(2)确定交通网络的临界失衡阈值：针对(1)得到的若干条G-f曲线，首先判断是否存在多态现象。当存在多态现象时，则选取曲线单态与多态交界的分支位置对应的失衡率作为弹性临界点f_c；否则，则结合实际情况设置某一给定连通性水平所对应失衡率作为弹性临界点f_c。单态系统与多态系统的弹性临界点标定如图2-图3所示。

步骤106：建立多智能体强化学习模型，并根据所述车流信息、所述流量水平以及所述临界失衡阈值对所述多智能体强化学习模型进行学习训练，生成训练后的多智能体强化学习模型。

在实际应用中，建立多智能体强化学习模型并进行学习训练：首先，将划分的每个区域设置为一个智能体(agent)，每一个智能体可以感知到自身和环境的信息。同时，智能体可以实施调控动作，具体表现为控制自身车流流量的进出，从而可建立交通网络中不同区域之间的流量转移关系。其中，一个智能体为强化学习的基本单元，在此处具体代表一个可进行车流流量调控的划分区域。

其次，配置所研究交通网络的强化学习模型。强化学习需要包括三个要素：状态、动作和收益。对于给定的交通网络而言，上述“状态”具体指每一个智能体中的车流流量q、车流密度k以及是否失衡这些信息。对于一个给定的智能体而言，q和k之间的函数关系是不会变化的，变化的只是q和k的具体值，而智能体是否失衡则通过该智能体当前车流流量q与其平衡流量q_c之间的差值(q-q_c)是否为正值来判断，如果为负则失衡；上述“动作”具体指各个智能体向其邻居智能体导出或引入的车流流量Δq或车流密度Δk的大小；上述“收益”具体指实施调控动作后，交通网络的当前失衡率f与弹性临界点f_c的差值的相反数(f_c-f)。

最后，依据上述模型配置，生成若干初始学习样本(可随机设置各个智能体的初始状态信息)，并进行多轮强化学习训练，最终得到学习好的多智能体模型。

步骤107：利用所述训练后的多智能体强化学习模型调控实际交通网络，使得所述实际交通网络的当前失衡率小于所述临界失衡阈值。

图4为本发明所提供的基于强化学习的交通弹性调控系统结构图，如图4所示，一种基于强化学习的交通弹性调控系统，包括：

车流信息采集模块401，用于将交通网络划分为若干区域，并采集每个所述区域的车流信息；所述车流信息包括车流流量以及车流密度。

所述车流信息采集模块401，具体包括：划分单元，用于将所述交通网络等划分为尺寸相同的若干区域；车流信息采集单元，用于采集任一时间段内每个所述区域中各个路段的车流信息。

宏观基本图构建模块402，用于根据所述车流信息确定每个所述区域的宏观基本图。

所述宏观基本图确定模块402，具体包括：平均值计算单元，用于计算任一取样时刻的所述区域中各个路段的车流信息的平均值；所述车流信息的平均值包括平均车流流量以及平均车流密度；车流信息散点确定单元，用于根据所述车流信息的平均值确定任一所述取样时刻对应的车流信息散点；宏观基本图确定单元，用于根据所有所述取样时刻对应的车流信息散点构建每个所述区域的宏观基本图；所述宏观基本图包括平均车流流量-平均车流密度曲线图、平均车流流量-平均车流速度曲线图以及平均车流速度-平均车流密度曲线图。

流量水平确定模块403，用于基于所述宏观基本图，确定各个所述区域供需平衡时的流量水平；所述流量水平包括交通供需平衡状态以及交通供需失衡状态。

所述流量水平确定模块403，具体包括：车流流量阈值选定单元，用于基于所述宏观基本图，选定车流流量阈值；当前车流流量获取单元，用于获取任一所述区域内的当前车流流量；第一判断单元，用于判断所述当前车流流量是否大于或者等于所述车流流量阈值，得到第一判断结果；交通供需平衡状态确定单元，用于若所述第一判断结果表示为所述当前车流流量大于或者等于所述车流流量阈值，确定所述流量水平为交通供需平衡状态；交通供需失衡状态确定单元，用于若所述第一判断结果表示为所述当前车流流量小于所述车流流量阈值，确定所述流量水平为交通供需失衡状态。

失衡率确定模块404，用于根据所述流量水平确定所述交通网络的失衡率；所述失衡率为处于交通供需失衡状态的区域的数量占所有区域的总数量的比例。

临界失衡阈值确定模块405，用于根据所述失衡率，通过渗流分析确定交通网络的临界失衡阈值。

所述临界失衡阈值确定模块405，具体包括：移除比例确定单元，用于基于所述失衡率，每次随机移除多个所述区域，确定移除比例；最大连通子团的尺寸确定单元，用于分析在所述移除比例下所述交通网络的连通性，确定最大连通子团的尺寸；所述最大连通子团的尺寸为连通最多区域的区域数量；最大连通子团的尺寸-失衡率曲线确定单元，用于根据所述最大连通子团的尺寸以及所述失衡率，通过渗流分析，确定最大连通子团的尺寸-失衡率曲线；第二判断单元，用于判断所述最大连通子团的尺寸-失衡率曲线是否存在多态现象，得到第二判断结果；所述多态现象为在最大连通子团的尺寸-失衡率曲线中存在某一失衡率使得最大连通子团尺寸的值存在多种取值情况；临界失衡阈值确定单元，用于若所述第二判断结果表示为所述最大连通子团的尺寸-失衡率曲线判断所述交通网络存在多态现象，选取所述最大连通子团的尺寸-失衡率曲线中单态现象与多态现象交界的分支位置对应的失衡率为弹性临界点；所述单态现象为在最大连通子团的尺寸-失衡率曲线中对于任一给定的失衡率，最大连通子团尺寸的值只取一个值；所述弹性临界点为所述交通网络的临界失衡阈值。

训练模块406，用于建立多智能体强化学习模型，并根据所述车流信息、所述流量水平以及所述临界失衡阈值对所述多智能体强化学习模型进行学习训练，生成训练后的多智能体强化学习模型。

调控模块407，用于利用所述训练后的多智能体强化学习模型调控实际交通网络，使得所述实际交通网络的当前失衡率小于所述临界失衡阈值。

本发明以渗流理论与强化学习方法为基础，旨在通过交通渗流分析建立交通弹性临界点这一新的弹性调控目标，同时运用多智能体强化学习技术搭建交通网络的协同调控方法，从而解决城市级别交通网络的弹性调控的痛点问题。

首先，仅需要道路网络拓扑信息和短时期的交通数据即可计算得到准确结果，不需要依赖于高质量、长时期的时间序列数据。

其次，采用了多智能体强化学习技术来解决交通网络的分布式调控问题。多智能体技术是分布式人工智能的一个重要分支，采用多智能体技术搭建的系统具有自主性和自组织性强、学习能力和推理能力突出等显著优点；尤其是，应用多智能体强化学习，可以适应复杂的、动态的外界环境，从而提升学习效果。基于多智能体强化学习技术来实施交通弹性调控，可以有效解决在构造集中协同调控的组合策略时将面临“维数灾难”的问题，使得对于城市级别的交通调控成为可能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的交通弹性调控方法，其特征在于，包括：

根据所述车流信息确定每个所述区域的宏观基本图；

2.根据权利要求1所述的基于强化学习的交通弹性调控方法，其特征在于，所述将交通网络划分为若干区域，并采集每个所述区域的车流信息，具体包括：

将所述交通网络等划分为尺寸相同的若干区域；

采集任一时间段内每个所述区域中各个路段的车流信息。

3.根据权利要求1所述的基于强化学习的交通弹性调控方法，其特征在于，所述根据所述车流信息确定每个所述区域的宏观基本图，具体包括：

4.根据权利要求1所述的基于强化学习的交通弹性调控方法，其特征在于，所述基于所述宏观基本图，确定各个所述区域供需平衡时的流量水平，具体包括：

基于所述宏观基本图，选定车流流量阈值；

获取任一所述区域内的当前车流流量；

5.根据权利要求1所述的基于强化学习的交通弹性调控方法，其特征在于，所述根据所述失衡率，通过渗流分析确定交通网络的临界失衡阈值，具体包括：

6.一种基于强化学习的交通弹性调控系统，其特征在于，包括：

7.根据权利要求6所述的基于强化学习的交通弹性调控系统，其特征在于，所述车流信息采集模块，具体包括：

8.根据权利要求6所述的基于强化学习的交通弹性调控系统，其特征在于，所述宏观基本图确定模块，具体包括：

9.根据权利要求6所述的基于强化学习的交通弹性调控系统，其特征在于，所述流量水平确定模块，具体包括：

10.根据权利要求6所述的基于强化学习的交通弹性调控系统，其特征在于，所述临界失衡阈值确定模块，具体包括：