CN110032782B

CN110032782B - 一种城市级智能交通信号控制系统及方法

Info

Publication number: CN110032782B
Application number: CN201910246239.XA
Authority: CN
Inventors: 金峻臣; 王辉; 李瑶; 郭海锋
Original assignee: Yinjiang Technology Co ltd
Current assignee: Yinjiang Technology Co ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-03-07
Anticipated expiration: 2039-03-29
Also published as: CN110032782A

Abstract

本发明涉及一种城市级智能交通信号控制系统及方法，本发明基于分层强化学习方法对区域实现实时分层控制，基于深度强化学习的方法实现路口的自适应流量控制，反馈数据，实现异常流量监测，大大提高了计算效率，实现了区域内路口的智能控制，自适应流量与突发状况；并且依靠数据生成可靠方案，形成交通信号控制关键三要素数据、方案和信号设备的闭环，满足了出行者对于交通控制可实现实时响应交通流量变化、减少红灯等待的需求。

Description

一种城市级智能交通信号控制系统及方法

技术领域

本发明涉及智能交通领域，尤其涉及一种城市级智能交通信号控制系统及方法。

背景技术

在汽车保有量、交通流量急剧增长，城市地面交通路网基础设施规模又几乎不变的情况下，传统交通控制系统受到了极大的挑战。如何在不增加建设资本的前提下，合理使用现有交通设施，充分发挥其能力是现阶段交通治理的关键所在。建立完善的智能交通系统是解决交通基础设施建设增长缓慢与机动车数量迅速增长之间矛盾最为有效的途径。

智能城市交通控制是城市管控的关键要素，无论是对城市级信号路口分层分级区域性的联合控制还是单个路口的信号控制，拥堵的传播、规律性拥堵的涌现、出行者连续等待的焦虑等，使得城市交通控制问题仍有很大的优化空间；相邻交叉口之间的交通流互相影响、动态波动和交通波的非规律性传导等，使问题变得更加复杂和具有挑战性。尤其我国城市交通网络环境具有典型的动态性和随机性、机动车辆非线性到达、非机动车数量大种类多且城市建设造成的路网不稳定等因素，使得目前普遍使用的集成信号控制系统已经不能满足越来越复杂的交通环境。未来信号控制系统的发展应可以实时响应交通流的随机变化，实现自适应智能控制。

发明内容

本发明为克服上述的不足之处，目的在于提供一种城市级智能交通信号控制系统及方法，本发明主要基于智慧城市智能交通信号控制关于数据驱动的信号系统概念和新的方法技术深度强化学习理论，设计了数据驱动的城市级智能交通控制系统整体框架；本发明主要基于仿真数据，运用多智能体深度强化学习的方法，实现智能信号控制方案的生成与下发。本发明实现了传统交通信号控制未实现的区域型信号控制；实现了区域内路口的智能控制，自适应流量与突发状况；并且依靠数据生成可靠方案，形成交通信号控制关键三要素数据、方案和信号设备的闭环，满足了出行者对于交通控制可实现实时响应交通流量变化、减少红灯等待的需求。

本发明是通过以下技术方案达到上述目的：一种城市级智能交通信号控制系统，包括仿真平台搭建模块、仿真环境、信号智能控制模块和信号控制设备；所述的仿真平台搭建模块用于建立与实际路网一致的仿真模型；所述的仿真环境用于搭建完成可执行交通仿真的区域、路口环境；所述的信号智能控制模块包括离线训练部分和在线应用部分，所述离线训练部分选择深度强化学习算法进行最优控制方案生成训练，在线部分使用所述离线训练部分生成的模型和实时数据计算最优控制方案；所述的信号控制设备用于执行控制方案。

作为优选，所述的仿真平台搭建模块包括历史数据单元和静态路网信息单元，用于校验仿真系统模型参数和路网路口仿真模型搭建；其中，历史数据单元中的数据包括信号设备运行数据和交通检测器数据，历史数据单元包括数据采集单元、数据存储单元和数据预处理单元；路网静态信息单元中的信息包括路网信息，信号设备方案配置信息，速度数据及道路限速数据；

所述的数据采集单元用于交通状态数据和运行控制方案数据的采集，采集时预设相隔固定时间进行一次数据采集；所述的数据存储单元将数据采集单元传回的数据全部存储至历史数据库，保存有信号设备的所有运行记录，所有的数据按照固定格式建立完备；所述的数据预处理单元将存储的历史数据做一定的预处理，使得数据的可用性指标和可用率指标高于90％，以保证仿真系统真实性；所述的数据预处理单元的处理方法包括：

(i)针对数据异常问题进行清洗与修正，先利用统计学中的t检验法判断数据是否为异常值，再针对异常值采用样条函数进行插值；

(ii)针对数据缺失问题，利用多元线性回归模型进行修复；将已有的数据作出散点图，并作多元回归，求出多元线性回归多项式，以及置信区间；作出残差分析图验证拟合效果，残差较小，说明回归多项式与源数据吻合得较好，即可补充出缺失的数据；

所述的路网信息为路网静态数据，包括渠化信息、路口形状、路段信息、相邻路口信息，其中渠化信息包括进出口道方向，进出口车道数量和各自车道的功能，检测器编号及检测器所处位置；所述的信号设备方案配置信息为路口的信号设备系统编号，配置的静态相位信息包括名称和具体指示的流向，相序信息，是否存在子灯及子灯配置相位信息，是否与相邻路口存在协调及协调相位差及其他备注信息；所述的速度数据及道路限速数据来源于地图开放数据，以请求开放的实时接口的形式获得。

作为优选，所述信号智能控制模块包括1个高层级环境、1个低层级环境、1个高层级智能体、M个低层级智能体和深度强化学习算法；

所述高层级智能体从所述高层级环境和所述低层级智能体中获取观察值I和奖励值I，基于深度强化学习算法I，搜索高层级智能体可执行动作，产生高层级动作，将高层级动作传输给所述低层级智能体；所述低层级智能体从所述低层级环境中获取观察值II和奖励值II，基于深度强化学习算法II，搜索低层级智能体可执行动作，产生低层级动作，形成控制方案，将控制方案传输给所述信号控制设备。

作为优选，所述离线训练部分：通过仿真过程完成所述高层级智能体和低层级智能体以及相应的深度强化学习算法的训练，所述仿真过程如下：所述信号智能控制模块从仿真环境获取高层级环境和低层级环境，输出控制方案；所述信号控制设备获取所述控制方案执行所述控制方案；所述仿真平台搭建模块获取信号控制设备的执行数据，运行产生所述仿真环境。

作为优选，所述高层级智能体和所述高层级智能体可执行动作是1对M的关系，所述高层级智能体可执行动作和低层级智能体是1对1的关系，所述低层级智能体和低层级智能体可执行动作是1对K的关系。

作为优选，所述的深度强化学习算法包括但不限于：Q-learning算法、DQN算法、A2C算法、TRPO算法、PPO算法的一种或多种组合；高层级智能体和低层级智能体可以采用相同或不同的深度强化学习算法。

作为优选，所述低层级环境为交通运行环境，所述高层级环境和低层级环境存在映射关系，所述映射关系包括但不限于：时间维度、空间维度、逻辑维度、标量维度的对应关系；所述高层级动作为相位方案和/或渠化方案；所述低层级动作包括但不限于：各相位的绿信比、周期时长、各相位绿灯时间。

作为优选，所述观察值II：区域或路口各车道绿灯结束至绿灯开启时刻排队车辆的最大值V_imax，绿灯开始至绿灯结束时刻排队车辆的最小值V_imin，i指车道编号，i＝(1，2，…，n)，路口车道数量为n；

所述奖励值II：

所述观察值I：T个周期的观察值II，奖励值II，其中T个周期为高层级环境和低层级环境的映射关系；

所述奖励值I：T个周期内M个所述低层级智能体的奖励值II的均值；高层级智能体可执行动作：可选相位的排列组合；

高层级动作：最佳可选相位的排列组合，即最佳相位方案，满足长期奖励值I最大的相位方案；

低层级智能体可执行动作：在最佳相位方案下可选各相位的绿信比的变化量；

低层级智能体动作：在最佳相位方案下最佳各相位的绿信比的变化量，满足长期奖励值II最大的各相位绿信比的变化量。

作为优选，离线训练部分如下：智能体的随机单元将从各自的动作空间中选择动作并将该动作作用给各自的环境，环境输出观察值和奖励值作为下一次选择智能体选择动作的准则，动作选择的目的是使长期奖励值最大；训练的初始值来自仿真系统配置的基础方案，训练时需要确认时段的划分，平峰和早晚高峰；设置k次训练，一次训练包括j次的集，每集即训练一个时段方案，每集包括h步，每步指一个相位周期，循环每步即可；根据高低智能体关系知：高层智能体运行一步，时间间隔是T个相位周期；离线训练的结果是存储智能体模型，调用训练的智能体模型和动作选择过程即训练观察值函数，即可输出动作，该动作即训练的最优结果，将该结果与实际运行的基础方案做和运算，即该时段的相位运行方案。

一种城市级智能交通信号控制方法，应用于城市级智能交通信号控制系统，所述控制系统包括1个已训练的高层级智能体和M个已训练低层级智能体，所述控制方法包括：

已训练的高层级智能体从当前的交通运行环境获取高层级环境，产生高层级动作，触发和高层级动作相对应的已训练的低层级智能体工作；

相对应的已训练的低层级智能体从当前的交通运行环境获取低层级环境，产生低层级动作，形成控制方案输出。

作为优选，所述已训练的高层级智能体和已训练低层级智能体由模型训练系统训练产生，所述模型训练系统包括仿真系统、1个高层级环境、1个低层级环境、1个高层级智能体、M个低层级智能体和深度强化学习算法，仿真系统分别与高层级环境和低层级环境相连，高层级环境与高层级智能体相连，低层级环境与低层级智能体相连，高层级智能体和低层级智能体分别与深度学习算法相连，高层级智能体和低层级智能体分别与仿真系统相连；

所述训练过程包括：

仿真系统接收智能体输出的控制方案，模拟现实的交通运行环境；所述高层级智能体从所述高层级环境和所述低层级智能体中获取观察值I和奖励值I，基于深度强化学习算法I，搜索高层级智能体可执行动作，产生高层级动作，将高层级动作传输给所述低层级智能体；所述低层级智能体从所述低层级环境中获取观察值II和奖励值II，基于深度强化学习算法II，搜索低层级智能体可执行动作，产生低层级动作，形成控制方案，将控制方案传输给所述仿真系统；

重复上述过程，智能体通过从环境获得观察值、奖励值，产生动作，反馈给环境，以此不断搜索，直至智能体输出的动作为最佳动作，可以使智能体获得最大的长期奖励值。

本发明的有益效果在于：本发明基于分层强化学习方法对区域实现实时分层控制，基于深度强化学习的方法实现路口的自适应流量控制，反馈数据，实现异常流量监测，大大提高了计算效率，实现了区域内路口的智能控制，自适应流量与突发状况；并且依靠数据生成可靠方案，形成交通信号控制关键三要素数据、方案和信号设备的闭环，满足了出行者对于交通控制可实现实时响应交通流量变化、减少红灯等待的需求。

附图说明

图1是本发明的系统框架示意图；

图2是本发明实施例的强化学习过程示意图；

图3是本发明实施例的路口智能体与环境交互过程示意图；

图4是本发明实施例的DQN更新过程示意图；

图5是本发明实施例的DQN算法示意图；

图6是本发明实施例的示例路口渠化示意图；

图7是本发明实施例的路口仿真模型示意图；

图8是本发明实施例的示例实际路口相位示意图；

图9是本发明实施例的仿真系统相位示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1：如图1所示，一种城市级智能交通信号控制系统由仿真平台搭建模块，仿真环境及评价指标模块、信号智能控制模块和信号控制设备四个模块组成，具体如下：

仿真平台搭建模块的主要功能是建立与实际路网一致的仿真模型。仿真系统地图与真实道路地图，在道路渠化，信号灯策略及布局，传感器类型及分布位置均保持一致。需要注意的是，仿真系统地图除了覆盖所研究的信号控制区域，还应有一定的冗余，如覆盖未受控路口并包含路口信号灯，以保证仿真环境尽可能与真实环境一致。其中仿真平台搭建模块包括历史数据单元和静态路网信息单元两部分，主要功能是校验仿真系统模型参数和路网路口仿真模型搭建。历史数据单元中数据指信号设备运行数据和交通检测器数据(简称检测器数据)。信号设备运行数据包括周期时长、周期开始时间、相位及相位绿信比、相位是否开启信息、等其他信息。检测器数据在周期运行结束后返回，包括周期开始时间，路口系统编号、检测器编号、通道编号信息，相位组合、相位组合时长和周期时长数据，检测器所在车道的实际流量数据、预测流量数据、实际饱和度数据及预测饱和度数据。实际和预测数据均是上个周期的数据。历史数据单元主要包括数据采集、数据存储和数据预处理。路网静态信息包括路网信息，信号设备方案配置信息，速度数据及道路限速数据等。

数据采集单元主要指交通状态数据和运行控制方案数据的采集，由于本发明选择的信号控制设备基于现有的自适应信号控制系统，自适应类型信号控制系统本身拥有控制方案战略运行记录接口和交通状态检测器数据接口，数据采集功能主要设计为每一段时间(如每分钟)请求一次数据接口，获得历史数据。

数据存储单元主要将数据采集单元传回的数据全部存储至数据库，该数据库称为历史数据库，保存了信号设备的所有运行记录，以下称为战略运行记录和检测器的所有数据。当然，每个数据表都事先按照一定的格式建立完备的。如下表1是战略运行记录数据表格式及样例数据，表2是检测器数据表格式及样例数据：其中周期时间单位是s，相位指的是绿信比，百分值。实际流量、预测流量单位是：辆，实际、预测饱和度是一个标量。

路口编号	接收日期	接收时间	周期时间	A	B	C	D	E	F	G
											1	2018-8-1	07:00:00	180	25	30	15	15	15	/	0

表1

表2

数据预处理单元主要将存储的历史数据做一定的预处理；仿真参数的校验和路网仿真模型的搭建是基于检测器数据完成的，为获得和实际路网系完全一致的仿真路网模型，数据质量必须是完整的、准确的。本发明设计两个评价数据质量的指标：可用性和可用率。可用性指城市全网信号灯路口的检测器数据整体完整性，通过路口可用检测器个数与全部检测器个数比值求得，公式如下：可用性＝(可用检测器个数/全部检测器个数)。可用率指标定义指路口检测器数据的质量，通过4个等级表示A:数据完整，权重为1；B:数据缺失，可以补全，权重为0.5；C：数据完全缺失，权重为0。计算公式：可用率＝sum(各检测器权重/路口检测器数量)。

数据处理目标是数据可用性指标和可用率指标必须高于90％，以保证仿真系统真实性。其中预处理内容及方法包括其一：针对数据异常问题进行清洗与修正，先利用统计学中的t检验法判断数据是否为异常值，再针对异常值采用样条函数进行插值。其二：针对数据缺失问题，利用多元线性回归模型进行修复。首先将已有的数据作出散点图，之后作多元回归，求出多元线性回归多项式，以及置信区间。作出残差分析图验证拟合效果，残差较小，说明回归多项式与源数据吻合得较好，即可补充出缺失的数据。

路网信息，路网静态数据包括渠化信息、路口形状、路段信息、相邻路口信息等，其中渠化信息包括进出口道方向，进出口车道数量和各自车道的功能，检测器编号及检测器所处位置等。

信号设备方案配置信息主要是路口的信号设备系统编号，配置的静态相位信息包括名称和具体指示的流向，相序信息，是否存在子灯及子灯配置相位信息，是否与相邻路口存在协调及协调相位差及其他备注信息等。

速度数据及道路限速数据，数据来源于地图开放数据，以请求开放的实时接口的形式获得。通过校验仿真路网的平均速度与实际路网的平均速度是否一致，来联合判断仿真系统的真实性，保证平均速度的差值不超过5％。如附图所示，路口X的实际渠化图和相位方案信息与校验成功的X路口仿真系统渠化图和相位方案。路口X的流量、饱和度和速度数据依据系统采集数据按周期长度c的时间频率匹配成功。此时路口X与实际路口一致，可基于仿真系统进行最优控制方案生成的深度强化学习训练。

仿真环境及评价指标模块，仿真环境指搭建完成的可执行交通仿真的区域、路口。即可控的区域、路口。信号智能控制算法模块使用的训练数据来自于区域、路口运行仿真过程中产生的流量、排队车辆等其他表征交通状态的数据。评价指标的设计主要基于SUMO开源交通仿真软件可输出数据的基础上，依据交通工程的基本概念设计和计算的。评价指标包括表征区域、路口交通状态的效率、延误、均衡三个指标和表征能耗的燃油和排放指标。

智能信号控制模块包括离线训练和在线应用两个部分，其中，离线训练部分选择深度强化学习算法进行路口最优控制方案生成训练，在线部分使用模型和实时数据计算控制方案并选择最优方案的过程；城市级交通智能控制框架包括区域智能控制和路口智能控制两部分，其中路口智能信号控制模块智能体与环境交互过程，即强化学习过程如附图2所示。智能信号控制过程及算法框架设计包括智能体设计、环境设计和深度神经网络选择三部分。

强化学习算法设计把学习看作试探性评价过程，智能体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(或者奖励或者惩戒)反馈给智能体，智能体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使反馈到的正强化的概率增大。强化学习没有明确的输入数据，奖赏/动作策略函数无法描述，即梯度信息取法得到。因此，强化学习算法框架需要某种随机单元和确定动作空间，使智能体在确定的动作空间中进行搜索并可与快速定位正确动作。而且定位的动作不仅影响立即强化信号，而且影响环境下一时刻的状态及最终的强化值。

环境指的是智能体执行动作时所处的场景，该场景可以接受动作并反馈状态或者观察值，即输入智能体的动作，输出观察值及依据奖励值计算的奖励值。

智能体机制：智能体可理解为强化学习系统的“黑盒”，即所谓的算法，输出算法模型即智能体的训练模型。强化学习的智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖励指导行为，目标是使智能体获得最大的奖励。强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉智能体如何去产生正确的动作。由于外部环境提供的信息很少，强化学习系统必须靠自身的经验进行学习。通过这种方式，在动作、评价的环境中获得知识，改进动作以适应环境。

智能体优势：智能体的随机单元即时智能体可训练的最大优势。智能体随机单元的数据可自行构建，称其为动作空间。动作空间的构建适应连续型数据和离散型数据。可继承深度学习的多种神经网络结构，即适用于多种神经网路的智能体模型。

高层智能体决定特定一个低层智能体的开启。当低层智能体开启时，低层智能体将环境观测值和奖励值传递给高层智能体。

其中，路口信号智能控制强化学习过程如附图3所示：

本发明设计分层的环境旨在依据层级环境建模多智能体模式。分层环境可依据一般依据多个维度信息决定分层及各层级的观察值，如时间维度信息、空间维度信息、标量信息及业务逻辑等。意思是环境的各层级共同决定一件事即同一时间智能接受一个动作，为使随事件完成的更快更合理，事件进行一定的分派即高低层环境各司其职，各自学习和训练，且高低层级时刻通信，传递协作等信息。本发明设计分层环境与智能体一一对应，高层级环境与高层智能体交互，低层环境与低层智能体交互。环境之间部分信息共享，并且智能体之间存在数据传输，实现多智能体最优控制。

分层环境根据不同的交通环境，动态调整高层智能体被触发的频率。比如交通状态短期变化较大的情况下，高层智能体被触发频率较高，进而控制宏观策略。设计高层级环境决定智能体选择路口运行相位，高层级时间频率选择T个周期时长即每T个信号周期确定一次观察值的输出，低层级决定以确定相位的具体时长，低层级时间频率选择实时观察环境的输出。

本发明的环境场景设定为基于仿真软件SUMO的交通信号时间内交通流量的获取，即环境的观察值最小排队车辆和最大排队车辆。过程如下：依据现有的交通信号控制系统的路口方案配置信息获取路口X的相位方案为A-B-C-D的标准四相位顺序。仿真系统的相位的配置与车道相密切关联，即每个车道位置分别用G、y、r表示，G表示绿灯，y表示黄灯，r表示红灯。举例说明：A相位指向东方向的直行和右转时，仿真系统的第一个相位中东西直行车道和东西右转车道用G表示，其他车道表示为r，依次类推，至相位配置完毕。黄灯主要指绿灯之后的黄闪时间，预先根据路口地理属性给定黄灯时间，黄灯顺序在对应的绿灯之后，相位表示为绿灯相位的G转换为y。本发明设计车道相位表示法，即将相位时间转换指车道级别，使用车道相位代替传统交通的流向相位。每个车道相位的绿灯时间是不同的特别相位转换时，依据交通逻辑，不存在绿灯-黄灯-绿灯的相位顺序，所以车道相位时间指车道连续G的和值。路口X相位配置完毕。

定义：车道排队车辆的的最大值绿灯结束时刻至绿灯开始时刻车道聚集车辆的数量。车道排队车辆的的最小值：绿灯开始时刻至绿灯结束时刻，车道剩余车辆的数量，最理想绿灯结束时刻，最小值为0。

设计环境输出的奖励值：路口所有车道排队车辆最大值与最小值差值的和。

本发明设计的智能体动作空间与层级的目标指向有关，高层级决定路口的控制方案：高层级动作空间包括所有的相位方案的组合，为保持动作的维度一致，那么动作空间选择全部的相位个数组成的n中可能性，添加有效动作空间机制：如一套相位方案不可能为全部的相位顺序，相位顺序即相位个数应该借用历史的运行方案信息做参考，相位组合只能从历史数据筛选所有可能的组合等。低层级决定路口的相位方案各相位的时长，即在高层级确定路口运行的相位方案后，将该信息告知给低层级智能体，本发明将高层确定的任意的相位建模为智能体，即每个不同的相位方案即是一个智能体，低层建模为多智能体的模式，但实际训练过程中，每个路口的相位方案必须时确定的即低层智能体与高层智能体是一一对应的，低层智能体运行模式是单智能体模式。

智能体的输入为环境返回的观察值，低层环境与智能体交互过程环境观察值是车道排队车辆数的最大值、最小值和车道的绿信比，输出数据：高层确定控制方案的各相位绿信比。高层环境的观察值低层环境T个周期的观察值和绿信比方案。输出下个T周期的相位方案。

本发明的环境观察值包括但不限于可表征交通状态特征数据的线圈检测器、地磁检测器、微波、卡口、视频检测器和互联网浮动车等多源异构数据和历史交通控制参数数据，数据采集的时间频率的最小值是信号运行周期，可在此基础上做符合交通业务逻辑的时间长度聚合。

低层环境观察值：环境的输出是表征交通状态的车道级最大、最小排队车辆和车道相位方案，采集车道绿灯结束至绿灯开启时刻排队车辆的最大值V_imax，采集绿灯开始至绿灯结束时刻排队车辆的最小值V_imin，i指路口车道编号，i＝(1，2…)，路口车道数量为n。观察值的维度：1*n*m。n指车道的数量，m表示期望观察值的数量。高层环境的观察值：T个低层环境输出的均方差，均值，和值。维度：1*n*m，n：指车道的数量，m表示期望观察值的数量。

低层奖励：强化学习奖励值由环境输出，环境设计为车道最大和最小排队车辆的差值。奖励值定义为标量。

高层奖励定义为：低层奖励的均值。

高层动作：智能体的输出，即路口相位方案。

智能体动作空间：本发明基于的信号系统定义路口最多A～G7个相位，而且控制方案表示为相位绿信比而相位时长表示。基于交通业务逻辑，路口最少两相位且不会出现所有相位都运行的。

高层智能体动作空间：依据路口配置相位，如路口一相位：A-B-C-D-E-F，排列组合相位形成路口相位方案。路口有效的相位方案action_possible_plan需排除顺序没有按照A-B-C-D-E-F的情况，排除单个相位的情况，排除相位个数为7的情况(如果路口数为7)等其他限制条件，具体路口的特殊限制条件需具体对待。

action_space_high＝Discrete(len(action_possible_plan))

低层智能体动作空间：设置绿信比的变化量p＝[-a,0,+a]，每个相位绿信比可能性乘积形成相位绿信比方案，路口有效的action_opssibl_split需排除相位绿信比之和不为0的情况。

action_space_low＝Discrete(len(action_possible_split))

智能体的训练过程：智能体的随机单元将从各自的动作空间中选择动作并将该动作作用给各自的环境，环境输出观察值和奖励值，最为下一次选择智能体选择动作的准则，动作选择的目的是使奖励值即排队车辆减小的方向。训练的初始值来自仿真系统配置的基础方案，训练时需要确认时段的划分，平峰和早晚高峰。本发明设置k次训练，一次训包括j次的集，每集即训练一个时段方案，每集包括h步，每步指一个相位周期，循环每步即可。根据高低智能体关系知：高层智能体运行一步，时间间隔是T个相位周期。

方案生成过程：强化学习训练的结果是存储智能体模型，调用训练的智能体模型和动作选择过程即训练观察值函数，即可输出动作，该动作即训练的最优结果，将该结果与实际运行的基础方案做和运算，即该时段的相位运行方案。

神经网络组：本发明训练模型参数选择成熟的深度神经网络作路口训练。以DQN为例，简述神经网络的原理和结构。

DQN：基于近似值函数寻找策略，DQN使用神经网络来近似值函数，即神经网络的输入是环境观察值(s),输出是(Q(s,a),{A})。通过神经网络计算出值函数后，DQN使用(epsilon-greedy)策略来输出动作。值函数网络与(epsilon-greedy)策略之间的联系是这样的：首先环境会给出一个obs，智能体根据值函数网络得到关于这个obs的所有Q(s,a)，然后利用(epsilon-greedy)选择动作并做出决策，环境接收到此动作(action)后会给出一个奖励Rew及下一个obs。这是一个step，此时我们根据Rew去更新值函数网络的参数。接着进入下一个step。如此循环下去，直到我们训练出了一个好的值函数网络。其中，DQN的更新过程如附图4所示，DQN强学习算法如附图5所示。

还可以采用如A2C算法、TRPO算法、PPO算法，这些算法对策略网络进行优化。

在线部署主要指是实际的工程应用部署的算法模型和模型迭代，算法模型来自于离线训练的结果。部署应用后，直接输出控制方案下发至信号设备。

信号控制设备单元为控制方案下发对象，即信号灯的硬件控制设备，如单点型信号控制设备、感应式信号控制设备和自适应信号控制设备等。现有的信号控制系统包括信号控制设备和检测器设备。检测器主要采集表征交通状态的特征数据，主要包括线圈、地磁微波、雷达、卡口和视频检测器等。检测器反馈的数据可用于校验路网的准确性和计算评价指标。

下面以路口A为例，一种城市级智能交通信号控制方法，包括如下步骤：

(1)构建路口仿真模型，依据如图6、图7、图8、图9所示。实验选择静态信息包括互联网地图网络爬虫爬取的路网整体结构和地理位置，来自框架部署应用单位的信号系统路口的渠化和信号控制信息，搭建及校验仿真路网，目的是仿真路网与实际路网情况一致，如检测器布局，车道数量及车道转向信息等。仿真路网的车流数据通过信号系统检测器采集流量、饱和度信息及速度限速信息依据动态数据校验。静态路网每月重新校验一次，动态数据每周校验一次，动态数据选择使用历史同周天数据。

(2)设计表征路口智能控制性能的评价指标，效率和路口延误，燃油和排放等。指标数据可来自SUMO开源数据接口，误差极小。

(3)训练区域及路口模型。在仿真系统搭建完成后可进行智能控制单元，进行离线训练阶段。确立路口控制神经网络：DQN强化学习算法；

(4)构建强化学习环境和动作。强化学习过程不需要大量训练数据，依据环境与智能体的不断的交互，训练智能体的模型。即观察函数(obs function),函数的返回值包括观察值和奖励值，路口观察值：{[车道1：最大排队长度，…，车道n：最大排队长度][车道1：最小排队长度，…，车道n：最小排队长度][车道1：绿信比，…，车道n：绿信比]}，路口奖励值：{路口所有车道最大排队车辆与最小排队的差的和}。动作，路口控制方案，控制方案{路口1：相位A绿信比，相位B绿信比，相位C绿信比，相位D绿信比}。根据设置的观察值和奖励值确定解空间，即动作空间。设置动作变化量[-5,0,5]，则解空间A＝len(动作变化量)^{len(控制方案)}。对路口进行M次训练，保存一个模型。

(5)部署并应用模型。通过历史数据选择一个合理的控制方案作为模型的初始解，设置方案输出集，智能体模型将不断的输出动作至一个集结束，判断输出次数最多的动作，作为最优解。

(6)通过最优解求和运算，构建信号方案。

(7)下发方案至信号设备。方案构建成功后，默认实时直接下发方案。且构建方案在前端页面展示，供一线交通信号控制工程师查看，存在不合理时，一线交通信号控制工程师可拒绝下发该方案。

(8)通过仿真系统反馈计算评价指标，评价智能方案效果。

(9)反馈数据，迭代模型参数，优化模型。

实施例2：一种城市级智能交通信号控制系统，包括仿真平台搭建模块、仿真环境、信号智能控制模块和信号控制设备。

仿真平台搭建模块用于建立与实际路网一致的仿真模型。

仿真环境用于搭建完成可执行交通仿真的区域、路口环境，可以根据路口的特点进行区域划分，将区域内的路口构建为一个整体，如3个路口形成的一个区域，3个路口执行相同的信号控制方案或1个路口控制其他2个路口的信号控制方案，此时只需要确定一个控制方案就可以控制区域交通信号，和单个路口的信号控制相似。

信号智能控制模块包括1个高层级环境、1个低层级环境、1个高层级智能体、M个低层级智能体和深度强化学习算法。高层级智能体和高层级智能体可执行动作是1对M的关系，高层级智能体可执行动作和低层级智能体是1对1的关系，低层级智能体和低层级智能体可执行动作是1对K的关系。

深度强化学习算法包括但不限于：Q-learning算法、DQN算法、A2C算法、TRPO算法、PPO算法的一种或多种组合；高层级智能体和低层级智能体可以采用相同或不同的深度强化学习算法。

高层级智能体从高层级环境和低层级智能体中获取观察值I和奖励值I，基于深度强化学习算法I，搜索高层级智能体可执行动作，产生高层级动作，将高层级动作传输给低层级智能体；

低层级智能体从低层级环境中获取观察值II和奖励值II，基于深度强化学习算法II，搜索低层级智能体可执行动作，产生低层级动作，形成控制方案，将控制方案传输给所述信号控制设备。

低层级环境为交通运行环境，高层级环境和低层级环境存在映射关系，映射关系包括但不限于：时间维度、空间维度、逻辑维度、标量维度的对应关系；高层级动作为相位方案和/或渠化方案；低层级动作包括但不限于：各相位的绿信比、周期时长、各相位绿灯时间。

仿真平台是模拟现实交通运行环境在不断运行的，比如5s每个路口更新的流量，有新的信号控制方案执行产生新的流量。高层级环境和低层级环境是对交通运行环境的提取，低层级环境可以是5s的交通运行环境，高层级环境可以是T个路口信号控制周期的交通运行环境。通常环境下，是为了各个相位上的通行较为均衡。当路口处于一些特殊位置时，如主干道、快速路，可能对某些相位的通行要求较高。此时高层级环境、低层级环境可以从相位即空间关系上进行设置。

低层级智能体的观察值II：各车道1个信号周期内的饱和度平均值Sa；各车道1个信号周期内的车速平均值V；

奖励值II：所有车道(V/V0-Sa/S0)的和，V0为车速基准值，S0为饱和度基准值；

目标II：长期奖励值II最大化，即路口车道拥堵少、行车速度快；

高层级智能体总和M个智能体的观察值II、奖励值II、目标II。

如：某路口相位个数为4，分别为A、B、C、D，排除单个相位的情况，路口可选择的相位方案，2个相位：[A,B]、[A,C]、[A,D]、[B,C]、[B,D]、[A,B]等；3个相位：[A,B,C]、[A,C,D]、[A,B,D]等，4个相位：[A,B,C,D]、[A,B,D,C]、[A,C,B,D]等。渠化方案为车道的功能划分，与相位方案类似，4个车道的可选择渠化方案如：[左,直,直,右]，[左,直,直,直右]。以此构成了高层级智能体的可执行动作M个，每个动作对应一个低层级智能体。高级智能体输出了高层级动作：相位[A,B,C]。对应的低层级智能体在相位[A,B,C]下可选择的低层级动作还包括各相位的绿信比、周期时长、各相位绿灯时间等配时参数。如：相位A绿信比为30％、B绿信比为30％、C绿信比为40％。以此构成了相位[A,B,C]下低层级智能体的可执行动作K个。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种城市级智能交通信号控制系统，其特征在于，包括仿真平台搭建模块、仿真环境、信号智能控制模块和信号控制设备；所述的仿真平台搭建模块用于建立与实际路网一致的仿真模型；所述的仿真环境用于搭建完成可执行交通仿真的区域、路口环境；所述的信号智能控制模块包括离线训练部分和在线应用部分，所述离线训练部分选择深度强化学习算法进行最优控制方案生成训练，在线部分使用所述离线训练部分生成的模型和实时数据计算最优控制方案；

所述的信号控制设备用于执行控制方案；

其中信号智能控制模块包括1个高层级环境、1个低层级环境、1个高层级智能体、M个低层级智能体和深度强化学习算法；

所述高层级智能体从所述高层级环境和所述低层级智能体中获取观察值I和奖励值I，基于深度强化学习算法I，搜索高层级智能体可执行动作，产生高层级动作，将高层级动作传输给所述低层级智能体；所述低层级智能体从所述低层级环境中获取观察值II和奖励值II，基于深度强化学习算法II，搜索低层级智能体可执行动作，产生低层级动作，形成控制方案，将控制方案传输给所述信号控制设备；所述观察值II：区域或路口各车道绿灯结束至绿灯开启时刻排队车辆的最大值V_imax，绿灯开始至绿灯结束时刻排队车辆的最小值V_imin，i指车道编号，i＝(1，2，…，n)，路口车道数量为n；

所述奖励值II：

其中，所述观察值I：T个周期的观察值II，奖励值II，其中T个周期为高层级环境和低层级环境的映射关系；

2.根据权利要求1所述的一种城市级智能交通信号控制系统，其特征在于：所述的仿真平台搭建模块包括历史数据单元和静态路网信息单元，用于校验仿真系统模型参数和路网路口仿真模型搭建；其中，历史数据单元中的数据包括信号设备运行数据和交通检测器数据，历史数据单元包括数据采集单元、数据存储单元和数据预处理单元；路网静态信息单元中的信息包括路网信息，信号设备方案配置信息，速度数据及道路限速数据；

3.根据权利要求1所述的一种城市级智能交通信号控制系统，其特征在于：

所述离线训练部分：通过仿真过程完成所述高层级智能体和低层级智能体以及相应的深度强化学习算法的训练，所述仿真过程如下：所述信号智能控制模块从仿真环境获取高层级环境和低层级环境，输出控制方案；所述信号控制设备获取所述控制方案执行所述控制方案；所述仿真平台搭建模块获取信号控制设备的执行数据，运行产生所述仿真环境。

4.根据权利要求1所述的一种城市级智能交通信号控制系统，其特征在于：所述高层级智能体和所述高层级智能体可执行动作是1对M的关系，所述高层级智能体可执行动作和低层级智能体是1对1的关系，所述低层级智能体和低层级智能体可执行动作是1对K的关系。

5.根据权利要求1所述的一种城市级智能交通信号控制系统，其特征在于：所述的深度强化学习算法包括：Q-learning算法、DQN算法、A2C算法、TRPO算法、PPO算法的一种或多种组合；高层级智能体和低层级智能体可以采用相同或不同的深度强化学习算法。

6.根据权利要求1所述的一种城市级智能交通信号控制系统，其特征在于：所述低层级环境为交通运行环境，所述高层级环境和低层级环境存在映射关系，所述映射关系包括：时间维度、空间维度、逻辑维度、标量维度的对应关系；所述高层级动作为相位方案和/或渠化方案；所述低层级动作包括：各相位的绿信比、周期时长、各相位绿灯时间。

7.根据权利要求1所述的一种城市级智能交通信号控制系统，其特征在于：离线训练部分如下：智能体的随机单元将从各自的动作空间中选择动作并将该动作作用给各自的环境，环境输出观察值和奖励值作为下一次选择智能体选择动作的准则，动作选择的目的是使长期奖励值最大；训练的初始值来自仿真系统配置的基础方案，训练时需要确认时段的划分，平峰和早晚高峰；设置k次训练，一次训练包括j次的集，每集即训练一个时段方案，每集包括h步，每步指一个相位周期，循环每步即可；根据高低智能体关系知：高层智能体运行一步，时间间隔是T个相位周期；离线训练的结果是存储智能体模型，调用训练的智能体模型和动作选择过程即训练观察值函数，即可输出动作，该动作即训练的最优结果，将该结果与实际运行的基础方案做和运算，即该时段的相位运行方案。

8.一种城市级智能交通信号控制方法，应用于城市级智能交通信号控制系统，其特征在于：所述控制系统包括1个已训练的高层级智能体和M个已训练低层级智能体，所述控制方法包括：

相对应的已训练的低层级智能体从当前的交通运行环境获取低层级环境，产生低层级动作，形成控制方案输出；

其中，已训练的高层级智能体和已训练低层级智能体由模型训练系统训练产生，所述模型训练系统包括仿真系统、1个高层级环境、1个低层级环境、1个高层级智能体、M个低层级智能体和深度强化学习算法，仿真系统分别与高层级环境和低层级环境相连，高层级环境与高层级智能体相连，低层级环境与低层级智能体相连，高层级智能体和低层级智能体分别与深度学习算法相连，高层级智能体和低层级智能体分别与仿真系统相连；

所述训练过程包括：

重复上述过程，智能体通过从环境获得观察值、奖励值，产生动作，反馈给环境，以此不断搜索，直至智能体输出的动作为最佳动作，可以使智能体获得最大的长期奖励值；

所述观察值II：区域或路口各车道绿灯结束至绿灯开启时刻排队车辆的最大值V_imax，绿灯开始至绿灯结束时刻排队车辆的最小值V_imin，i指车道编号，i＝(1，2，…，n)，路口车道数量为n；

所述奖励值II：