CN111429737B

CN111429737B - 一种基于agent的城市区域边界控制方法及系统

Info

Publication number: CN111429737B
Application number: CN202010235971.XA
Authority: CN
Inventors: 庞钰琪; 金峻臣; 刘多; 郭海锋; 温晓岳; 王辉
Original assignee: Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co.,Ltd.
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-07-06
Anticipated expiration: 2040-03-30
Also published as: CN111429737A

Abstract

本发明提供给了一种基于agent的城市区域边界控制方法及系统，其中一种基于agent的城市区域边界控制方法,具体步骤如下：S1、将需要控制的城市区域进行区域agent划分成多个区域，每个区域对应相应的agent；S2、利用区域交通异常检测数据进行agent设计；S3、识别区域需要开启边界控制的时段；S4、在边界agent中筛选实施路口；S5、利用agent强化学习方法制定边界控制信号配时方案。

Description

一种基于agent的城市区域边界控制方法及系统

技术领域

本发明属于交通控制领域，涉及一种基于agent的城市区域边界控制方法及系统。

背景技术

国民经济的发展和科技的进步促进了城市范围的扩大，越来越多的大城市周边出现了大型新城、组团等，都市区、城市群间的联系也日益密切，城市内、城市间的交通需求快速增长，再加上城市车辆机动化程度已进入了较高水平，交通拥堵往往不仅发生在路口或路段，也会从路口、路段的点演变到多条路段的线，甚至影响到相交路线，演变成区域层面的交通问题。

根据研究，区域交通拥堵与区域内的交通需求密切相关。在区域范畴内，存在着宏观基本图(Macroscopic Fundamental Diagram,MFD)，当区域交通需求超出其通行能力时，就有可能发生拥堵。因此，根据区域的通行能力，有效调控区域路网的需求，在需求量较大的时段，通过控制驶入交通量，特别是进入区域核心区的交通量，成为了缓解乃至预防区域交通拥堵的关键。

随着互联网技术和数据采集技术的发展，配备GPS和一些互联网应用的私人车辆也可以被认为是可提供数据资源的浮动车辆，这些车辆的数据和路口检测数据共同构成了多源数据库。通过大数据资源，我们可以利用人工智能学习长期的交通演变规律，并在现实中实现人工智能交通控制。

发明内容

针对上述背景技术介绍中存在的问题，本发明的目的在于提供一种有效改善区域交通状况的基于agent的城市区域边界控制方法及系统。

本发明采用的技术方案是：

一种基于agent的城市区域边界控制方法,具体步骤如下：

S1、将需要控制的城市区域进行区域agent划分成多个区域，每个区域对应相应的agent；

S2、利用区域交通异常检测数据进行agent设计；

S3、识别区域需要开启边界控制的时段；

S4、在边界agent中筛选实施路口；

S5、利用agent强化学习方法制定边界控制信号配时方案。

进一步，步骤S1中的区域划分为关键区域，边界区域和外围区域，其中关键区域为可控制区域的核心范围，包括区域的主要交通需求点和拥堵点；边界区域为划分关键区域后，围绕关键区域一个路口范围内的区域；外围区域为边界区域外，围绕边界区域一个路口范围内的区域。

进一步，步骤S2的agent设计包括：

1)状态State：

Agent的状态S_j，t由区域内的路口异常数N_k，j，t表示，即,

S_j，t＝[N_1，j，t，…，N_i，j，t，…，N_k，f，t]^T，

其中，N_i，j，t表示t时间段内，属于j区域的交叉口i的交通异常数；k为区域内交叉口的总个数，用j表征相关的三个区域，其中

2)动作Action：

动作向量A_t为实施边界控制的路口的各相位绿信比，即，

其中，g_i，m，t表示t时间段内，交叉口i的m相位的绿灯时间；

p_i表示i交叉口的相位个数；

q表示实施边界控制的交叉口的总个数；

绿灯时间g_i，m，t受到最小绿灯时间

和最大绿灯时间

的限制，应满足：

3)奖励Reward：agent会选择多个周期内，reward的总和∑R_t最高的动作序列{Action}作为结果输出；

奖励值R_t表示如下

其中，b_j，t为各区域状态变化的收益，与t时段和前一时段(t-1)的等级的变化量有关；

ω_j是各区域收益的权重，

ω₁＞ω₃＞ω₂，ω_j＞0；

σ_j，t为各路口交通异常数的离散系数，用来表征各路口交通异常的均衡。

进一步，各区域状态变化的收益b_j，t的计算函数如下：

b_j，t＝function(G_j，t，G_j，t-1)

其中G_j，t为区域j的交通状态等级，在t时段内，将各区域的交通状态划分为n个等级，确定方法如下：

a_i(i∈[1，n])的取值由经验或统计学方法确定；

function(G_j，t，G_j，t-1)是G_j，t与G_j，t-1的函数；

N_j，t是检测到的区域交通异常总个数，

N_{avg_j，t}是各区域t时段内j区域交通异常平均数；

各路口交通异常数的离散系数σ_j，t的计算如下：

进一步，步骤S3中的边界触发条件可表述为：

trigger＝(G_1，T≥L₁)||(G_2，T≤L₂)||(G_3，T≤L₃)

其中，L_i(i＝{1，2，3})是G_i区域在T时段的交通状态等级，L_i∈{S₁，S₂，…，S_n}，T为t时段前较长的一个时段，满足边界控制触发条件的时段即为控制时段。

进一步，步骤S4中路口筛选的条件是：当路口进入关键区域方向的路段在进行边界控制前未发生交通拥堵。

进一步，步骤S5利用agent强化学习方法制定边界控制信号配时方案具体包括：

建立边界控制agent运行框架；

制定边界控制agent策略。

进一步，所述边界控制agent运行框架包括关键区域环境、边界区域环境、外围环境区域、关键区域agent、边界区域agent、外围环境agent，所述边界区域agent包括观察器、学习机、知识库、执行器、控制机、通讯模块，所述观察器与学习机连接，所述学习机分别与知识库、通信模块连接，所述控制机分别与执行器、知识库、通信模块连接；所述外围区域agent和关键区域agent通过观察器从对应环境获取状态的功能并将状态通过通信模块传至边界区域agent中，边界区域agent通过观察器，获取边界区域状态，并与其他两个agent的状态拼装并计算奖励，再由学习机和控制机交互，将得到的边界控制的控制方案作用在边界区域的环境中。

进一步，所述边界控制agent策略采用深度Q网络算法及相关的改进算法。

一种基于agent的城市区域边界控制系统，其特征在于：包括依次连接的区域agent划分模块、agent设计模块、边界控制触发模块、实施路口筛选模块、AI方案制定模块，其中，

所述区域agent划分模块，用于实现对实际区域的划分和建模，针对一个边界控制的目标区域，将核心区划分为关键区域，将围绕关键区域一个路口范围内的区域划分为边界区域，将边界区域外围一个路口范围内的区域划分为外围区域；

Agent设计模块，用于实现在解决边界控制问题时对agent的描述和定义，由区域内各路口的异常数定义状态，各路口各相位的绿灯时间定义动作，区域状态收益变化和离散系数定义奖励；

边界控制触发模块，用于实现自动判别本系统是否应启动，通过该模块接收信息并自动判断，当满足模块内置的开启条件时开启本系统；

实施路口筛选模块，用于实现对边界区域路口的自动识别、判定和筛选，选择适合运行边界控制策略的路口，过滤不适宜启用边界控制策略的路口；

AI方案制定模块，用于实现agent的自动运行和决策，通过Agent运行单元，定义系统采用的agent运行方式，即agent与环境、agent与agent的交互方法，实现agent的自动运行；通过Agent策略模块，定义agent内部行为的运行方式，利用定义好的策略方法，agent可以实现自主学习和自动决策，输出预测结果最好的动作序列，即交通控制方案。

本发明与现有技术相比，其显著优点包括：通过设计区域Agent，避免了已有边界控制方法需要建立MFD模型的难题，解决了不同区域间的信号冲突问题，解决了区域agent无法处理单点路口突发性拥堵等问题。从区域的角度出发，学习边界路口信号变化对区域交通演化的影响，利用交通控制系统进行边界控制，进而改善区域交通状况。

附图说明

图1是本发明的工作流程。

图2是区域范围的划分示意。

图3是进入区域方向示意(有1个下游路口在关键区域中)。

图4是进入区域方向示意(有2个下游路口在关键区域中)。

图5是多agent智能交通信号控制系统框架。

图6是边界控制Agent运行方法框架。

图7是本发明的系统结构图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

实施例一

本实施例提供了一种基于agent的城市区域边界控制方法，该方法首先将控制区域及周边划分为多个agent，然后利用易得的区域交通异常检测数据，识别区域需要开启边界控制的时段，在边界agent中筛选实施路口，利用agent强化学习方法制定边界控制信号配时方案。

Agent是指具有自治性、社会性、反应性、进化性、预动性的基本特性的实体，它嵌入到环境中，通过观察器感知环境，通过执行器自治地作用于环境并满足设计要求。Agent具有智能，拥有自己的知识库和学习机、控制机，能够自主地决定是否对来自其它agent的信息作出响应。在本发明中，agent是针对区域的交通控制智能体，感知区域交通环境的状态，并可以与其他区域agent信息交互，经过agent自身的学习和知识库，输出区域内交通信号控制机的控制方案作用到环境中。

本发明主要技术方案如下：

按照边界控制方法的工作流程(附图1)，主要包含区域agent划分模块、agent设计模块、边界控制触发模块、实施路口筛选模块、AI方案制定模块等部分。本发明通过设计区域Agent，避免了已有边界控制方法需要建立MFD模型的难题，解决了不同区域间的信号冲突问题，解决了区域agent无法处理单点路口突发性拥堵等问题。

以下详细描述各模块的功能及功能实现所应用的方法。

(1)区域agent划分模块，将需要控制的城市区域进行区域agent划分成多个区域，每个区域对应相应的agent；

人工智能思想在交通控制中已有一定探索。这些探索中，通常将单个交叉口作为1个agent与其对应的环境进行交互、学习，仅考虑一个信号灯可以影响的范围，即，一个交叉口及该交叉口的进口车道、出口车道。在运行时，agent与路口是一一对应的关系，区域中agent的数量与路口数量相等，1个agent只能制定1个路口的控制方案。

采用单路口对应1个agent的人工智能算法，如果要进行区域级别的控制，需要通过当前路口的agent与其他路口的agent的信息交互，综合计算其他交叉口的控制目标与本路口控制目标，即，必须通过更高层的控制器获得调度目标等参数。而在边界控制中，高层控制器需要建立MFD模型来获得区域性能，然后通过反馈方法或者迭代学习方法(ILC)等将区域控制目标转化为路口控制目标，下发至路口agent后实现边界控制。

由此，采用单路口对应1个agent方式的边界控制AI系统，首先需要获得区域MFD模型的基本参数，建立需要控制的关键区域的MFD。然而，区域MFD参数通常需要如道路网的车辆密度、汽车行驶时间、区域内的累积车辆数等交通参数计算获得，这些数据在实际的交通网络中很难获得。这就导致了现有的边界控制方法多由仿真实验产生和验证，在现实中边界控制难以落地。

本发明采用建立区域agent的方式，针对“区域”范围，1个区域对应1个agent，由此，agent本身可以关注整个区域的状态和管理，不需要通过高层控制器获得控制强度指令，从而避免了建立MFD模型带来的问题，可以有效提升边界控制在实际中的应用率和转化率。

针对边界控制问题，本发明将关键区域及周边划分为三个区域，对每个区域都构建相应的agent和可以感知和训练的环境，即，关键区域agent和关键区域环境，边界区域agent和边界区域环境，外围区域agent和外围区域环境。这三个环境构成了边界管理与控制的环境。根据较为成熟的分布式agent框架结构，环境的状态只能通过对应的agent的观察器获得，故需要每个agent从对应的环境中获得状态，通过agent间的通信模块，将3个环境的状态汇总至边界区域agent中。在这个agent中，观察器除接收边界环境的状态外，也需要把其他agent接收的状态组合成边界控制需要的数据结构，同时计算奖励值。通过数据的直观学习，不需要MFD模型，可以由数据趋势得到边界控制方案(控制时段内，边界路口的绿信比的变化序列)。

具体来说，对于一个需要进行边界控制的区域，划分的三个相关区域为：关键区域，边界区域和外围区域，(如附图2所示)。其中，关键区域为可控制区域的核心范围，包括区域的主要交通需求点和拥堵点，如居住区、大型医院、大型商业综合体等，可通过人为划分的方法根据实际需要优先确定；边界区域为划分关键区域后，围绕关键区域一个路口范围内的区域；外围区域为边界区域外，围绕边界区域一个路口范围内的区域。

例如，区域A是边界控制的目标区域，即，边界控制以改善区域A的交通状况为目标，则区域A为关键区域；A区域外，围绕A区域一个路口范围内的区域B为边界区域；外界区域之外一个路口范围内的区域C为外围区域。在本案例中，区域A包含41个可以受系统控制调节的信号控制路口(未标出的表示该路口无信号控制或有信号控制但信号灯未接入到控制系统，无法调整，下同)，这些路口用三角形标出；区域B包含37个可受系统控制调节的信号控制路口(用菱形标出)，区域C包含48个可受系统控制调节的信号控制路口(用圆形标出)。(2)Agent设计模块，利用区域交通异常检测数据进行agent设计；

根据实际需要，交通控制系统的agent设计(状态、动作、奖励的内容)可以有多种组合。本发明重点考量区域agent的设计。

根据交通系统的性质，交通系统的反馈具有较长的延时性，短时间的学习和调整难以获得有相关性的状态；此外，交通系统的使用者，即，驾驶员，具有共性的驾驶习惯，频繁调整相位顺序不利于交通系统的稳定。由此，我们考虑以一个固定时间步长的时间段为单位，将时间序列切分为若干时间段，建模agent，并且保留原有的相位顺序，原信号周期不做调整。

本发明用“交通异常的数量”表征区域交通状况。“交通异常检测”是检测交通数据中，与标准不同的意外项或事件的过程，即，当交通状况与历史标准有明显差异时对其做出标识，记为交通异常。

用j表征相关的三个区域，其中

Agent设计的关键要素如下：

1)状态(State)：状态描述一定时间段内的状况，在环境中生成，会受到动作的影响。

Agent的状态(向量形式)S_j，t由区域内的路口异常数N_k，j，t表示，即,

S_j，t＝[N_1，j，t，…，N_i，j，t，…，N_k，j，t]^T。

其中，N_i，j，t表示t时间段内，属于j区域的交叉口i的交通异常数；

k为区域内交叉口的总个数。

2)动作(Action)：在agent中通过一定的策略选择下一个信号周期的动作，在环境中发挥作用，推动状态在下一个信号周期的变化。信号灯的配时绿信比是信号控制的主要变量。本发明中，动作向量A_t为实施边界控制的路口(由实施路口筛选模块选择)的各相位绿信比，即，

p_i表示i交叉口的相位个数；

q表示实施边界控制的交叉口的总个数(在边界区域中，但需要经过实施路口筛选模块筛选)。

绿灯时间g_i，m，t受到最小绿灯时间

和最大绿灯时间

的限制，应满足：

3)奖励(Reward)：奖励是针对动作生成的，由环境产生，记录了一个动作对状态的影响。Reward由agent计算，是agent选择适宜的动作、完成策略制定过程的依据。agent会选择多个周期内，reward的总和∑R_t最高的动作序列{Action}作为结果输出。由此，设计适宜的奖励值，是解决问题的关键。

本方法的奖励值R_t表示如下

其中，b_j，t为各区域状态变化的收益，与t时段和前一时段(t-1)的等级的变化量有关，可以采用离散的取值方法，通过多次实验获得；也可以通过数值运算，获得计算函数。

b_j，t＝function(G_j，t，G_j，t-1)

a_i(i∈[1，n])的取值由经验或统计学方法确定；

例如n＝5时，将区域划分为5个等级，确定方法如下：

a_i(i∈{1，2，3，4})的取值由经验或统计学方法确定。

function(G_j，t，G_j，t-1)是G_j，t与G_j，t-1的函数，可以考虑利用数学运算，如

b_j，t＝function(G_j，t，G_j，t-1)＝G_j，t-1-G_j，t

N_j，t是检测到的区域交通异常总个数，可作为评估区域总体状态的指标。

N_{avg_j，t}是各区域t时段内j区域交通异常平均数，由一个月的历史数据计算。

ω_j是各区域收益的权重，

ω₁＞ω₃＞ω₂，ω_j＞0

对于边界控制来说，关键区域状态变化最为关键，权重最高，即ω₁最大，外围区域状态对整体状态有一定影响，权重居中，边界区域影响范围较小，权重最低。

权重应为正值，使得奖励值与区域收益呈正相关。区域状态变好时，b_j，t为正，ω_j·b_j，t为正，区域R_t增加；区域状态变差时，b_j，t为负，ω_j·b_j，t为负，区域R_t减小。

σ_j，t为各路口交通异常数的离散系数，用来表征各路口交通异常的均衡。t时间段内，同一区域的交通异常平均值N_{avg_j，t}代表了各路口交通异常的平均水平，离散系数越大，证明区域内各路口的交通异常值越偏离区域平均水平，即，各路口交通异常的分布状态越不均匀，可能是个别路口存在突发性拥堵导致。离散系数的大小可以标识区域内有突发性拥堵的可能性。

利用奖励值R_t的定义，可以解决如下两个问题：

①边界区域、关键区域、外围区域的控制目标平衡关系。

边界控制的目的是改善关键区域内的交通状态，而在边界控制实施时，如果边界区域和外围区域产生较大拥堵，边界控制的效果将被弱化。将三个区域的状态G_j，t共同参与reward计算，则将综合以三个区域的状态计算收益，可以统筹考虑三个区域的控制目标。

例如，对于附图2所示的区域，如果动作序列{Action}₁在实施中，关键区域的状态好转，ω₁·b_1，t为正或不变，但边界区域和外围区域的状态有明显恶化，ω₂·b_2，t+ω₃·b_3，t为负且|ω₂·b_2，t+ω₃·b_3，t|＞ω₁·b_1，t，则R_t为负；如果动作序列{Action}₂在实施中，关键区域的状态好转情况与{Action}₁序列没有明显差别，但边界区域和外围区域的状态恶化不明显，ω₂·b_2，t+ω₃·b_3，t为正或ω₂·b_2，t+ω₃·b_3，t为负且|ω₂·b_2，t+ω₃·b_3，t|≤ω₁·b_1，t，则R_t为正。此时∑R_t-ACTION1＜∑R_t-ACTION2，agent将选择动作序列{Action}₂。

②以解决区域状态的整体性无法反映路口的突发性拥堵问题。

在奖励值R_t中乘上σ_j，t的倒数，如区域内发生突发性拥堵，则σ_j，t值大，

小，由此奖励值R_t小，进而影响总奖励值。这将使得agent根据总奖励值选择动作时，有针对性地选择对缓解突发性拥堵更加有效的动作序列。

例如对于附图2所示的区域，如在B区域发生突发性拥堵，则B区域内σ_2，t将大幅增加，R_t值将比较小。如果动作序列{Action}₁是可以缓解突发性拥堵的，则随着拥堵的消散，即使区域的交通状态没有发生改变(b_2，t不变)，σ_2，t值依然会降低(σ_2，t+1＜σ_2，t)，则R_t值及R_t+1等后续奖励值增大，∑R_t提高；如果动作序列{Action}₂不能改善交通拥堵，则区域交通状态有可能恶化(b_2，t改变)，且σ_2，t增加(σ_2，t+1＞σ_2，t)，则R_t值及R_t+1等后续奖励值减小，∑R_t减小。由此，agent将选择可以缓解突发性拥堵的动作序列{Action}₁。

(3)边界控制触发模块，识别区域需要开启边界控制的时段；

边界控制的目的是将关键区域的交通状况控制在一定范围内，防止区域范围的严重拥堵。通过调整边界区域信号灯的绿信比，将外围区域进入关键区域的车辆“阻拦”在外，从而减少外围区域进入关键区域的车辆是边界控制的主要手段，这就导致边界控制在缓解关键区域内交通状况的同时，也将造成外围区域的交通集聚，形成外围区域交通状况的局部恶化，即，用外围区域的部分“牺牲”改善关键区域。由此，需谨慎触发边界控制。为避免外围交通状况的过度恶化带来反效果，需在确定边界控制的触发条件时，充分考虑内外部的平衡，在外围区域交通状况脆弱、容易发生交通拥堵时，不应采取边界控制的方法。由此，边界控制的触发首先应满足两个条件，①关键区域内交通状况较差；②边界区域及外围区域交通状况稳定。

根据前述交通状态的评价条件，边界控制触发条件可表述为：

trigger＝(G_1，T≥L₁)||(G_2，T≤L₂)||(G_3，T≤L₃)

其中L_i(i＝{1，2，3})是G_i区域在T时段的交通状态等级。

例如，交通状态等级分为1、2、3、4、5一共5个等级时，边界控制触发条件采用：

trigger＝(G_1，T≥3)||(G_2，T≤3)||(G_3，T≤3)

其中T为t时段前较长的一个时段，例如1小时或半小时等。

当trigger＝1，即三个判定同时均成立时，表示关键区域内交通状况已达到临界阈值，同时边界区域和外围区域交通状况尚未达到各自的区域，可以实施边界控制，否则，有任一条件不满足时，边界控制无法触发。

满足边界控制触发条件的时段即为控制时段。

(4)实施路口筛选模块，在边界agent中筛选实施路口；

边界控制通过改变边界区域的信号控制设施的信号配时实现。由于边界控制会将交通需求“阻拦”在关键区域外，在一定程度上导致边界区域和外围区域的交通状况恶化，为避免这种恶化过于严重，选择的边界控制实施路口首先应有一定的调控余量，即，该路口进入关键区域方向的路段在进行边界控制前未发生交通拥堵(无交通异常)。

对于一个边界区域的路口，进入关键区域方向一般有多个，因右转方向通常不进行控制，故不考虑右转。如附图3和附图4，路口B在边界区域中，其下游路口有BB1、BB2、BB3、BB4等4个。当路口下游的4个路口有1个在关键区域中时，进入关键区域的方向有2个：路口BB1-路口B的直行方向，路口BB4-路口B的左转方向；当路口下游当路口下游的4个路口有2个在关键区域中时，进入关键区域的方向有3个：路口BB2-路口B的直行方向，路口BB1-路口B的直行方向和左转方向。

(5)AI方案制定模块，利用agent强化学习方法制定边界控制信号配时方案。

1、Agent运行单元，建立边界控制agent运行框架；

以一种多目标多agent的智能交通信号控制系统框架运行这些agent(如附图5所示)。该框架可应用于所有利用agent的交通控制情形。由于框架是分布式的，每个agent都可以根据自己的学习过程来构建自己的知识库。每个agent通过观察器从环境中获得状态和奖励。学习机通过通信模块对其他agent观察和发送的信息进行分析，扩大知识库，为agent决策提供经验。运行agent时还可以更新知识库。控制机是基于控制逻辑做出决策的过程，有时需要借助知识库和与其他agent的通信。执行器将随后的动作传递给环境。

在边界控制问题中，利用该框架的部分功能即可实现。在边界控制中，边界控制agent运行框架包括关键区域环境、边界区域环境、外围环境区域、关键区域agent、边界区域agent、外围环境agent，所述边界区域agent包括观察器、学习机、知识库、执行器、控制机、通讯模块，所述观察器与学习机连接，所述学习机分别与知识库、通信模块连接，所述控制机分别与执行器、知识库、通信模块连接；外围区域agent和关键区域agent只有通过观察器从对应环境获取状态的功能，然后将这些状态通过通信模块传至边界区域agent中。边界区域agent首先通过观察器，获取边界区域状态，并与其他两个agent的状态拼装并计算奖励，再由学习机和控制机交互，将得到的边界控制的控制方案(动作)作用在边界区域的环境中。具体实现方法见附图6。

2、Agent策略单元，制定边界控制agent策略。

策略，是agent选择动作的方法，在agent的控制机中起作用。当一个动作生成后，需要根据环境生成的状态、奖励进行判断，判断出一个动作是有用并应该重复的，还是无用应该避免的，这个过程需要应用策略。由于边界控制的状态和动作是较为复杂的离散变量，本方法采用深度Q网络算法(Deep Q-Networks,DQN)及相关的改进算法来选择动作。

1)DQN：DQN方法将Q-learning与卷积神经网络相结合，将q-table的更新问题转化为函数拟合问题。它使用两个神经网络来获得状态和动作的Q值，其中，评价网络获得现状的预估Q值q_eval，目标网络获得能得到最优状态的下一步动作的预估Q值q_target。构建损耗函数Loss＝q_target-q_eval,利用随机梯度下降法对神经网络参数进行优化，使损失最小化。通过更新参数使Q函数接近最优Q值。同时,agent存储了一个t时段的状态、动作到下一时段的奖励、折扣因子γ和状态的组合(S_t，A_t，R_t+1，γ_t+1，S_t+1)，并将其存储到知识库中。

DQN的损耗函数为:

其中，θ是评价网络的参数；

是目标网络的参数，在实践中，每隔一段时间，由新优化的θ值替换

a′为能使目标网络获得最优状态的下一步动作；

和q_θ(S_t，A_t)分别为目标网络在状态为S_t+1、动作为a′时及评价网络在状态为S_t、动作为A_t时计算的Q值。

2)Rainbow：DQN方法存在一些限制，由此诸多研究提出了多种方法来进行改善。Rainbow将其中六种改进方法集成为单一集成agent算法，这六种方法分别为，双DQN(Double DQN)、优先经验回放(prioritized experience replay)、竞争网络(duelingnetwork)、多步自举(multi-step bootstrap)、分布式Q-learning(distributional Q-learning)和有噪声的DQN(noisy DQN)Rainbow使用多步变量得到多步分配损失，从而加快了训练过程，使其更加稳定。在计算损失时引入双DQN方法，避免了q值被高估。利用损失代替TD-error实现优先重放，从而优先采样经验池中的经验。将价值和优势流聚合，来获得行动的q值。它还用因式高斯噪声代替线性噪声，以减少独立噪声变量的数量。

3)参数化DQN(Parametrized DQN，P-DQN)：在行动空间是离散-连续混合的情况下，P-DQN采用了一种新的DRL框架，从而不需要近似或松弛。它定义了一个动作值函数，将状态和有限混合动作映射到实值，因此可以通过显式最大化动作的Q值来直接选择离散的动作类型。

实施例二

参见图7，本实施例提供了执行实施例一所述方法的一种基于agent的城市区域边界控制系统，包括区域agent划分模块、agent设计模块、边界控制触发模块、实施路口筛选模块、AI方案制定模块，其中，

Agent设计模块实现在解决边界控制问题时对agent的描述和定义，由区域内各路口的异常数定义状态，各路口各相位的绿灯时间定义动作，区域状态收益变化和离散系数定义奖励；

边界控制触发模块实现自动判别本系统是否应启动，通过该模块接收信息并自动判断，当满足模块内置的开启条件时开启本系统；

实施路口筛选模块实现对边界区域路口的自动识别、判定和筛选，选择适合运行边界控制策略的路口，过滤不适宜启用边界控制策略的路口；

AI方案制定模块实现agent的自动运行和决策。通过Agent运行单元，定义系统采用的agent运行方式，即agent与环境、agent与agent的交互方法，实现agent的自动运行；通过Agent策略模块，定义agent内部行为的运行方式，利用定义好的策略方法，agent可以实现自主学习和自动决策，输出预测结果最好的动作序列，即交通控制方案。

Claims

1.一种基于agent的城市区域边界控制方法,具体步骤如下：

S1、将需要控制的城市区域进行区域agent划分成多个区域，每个区域对应相应的agent；其中，区域划分为关键区域，边界区域和外围区域，其中关键区域为可控制区域的核心范围，包括区域的主要交通需求点和拥堵点；边界区域为划分关键区域后，围绕关键区域一个路口范围内的区域；外围区域为边界区域外，围绕边界区域一个路口范围内的区域；

S2、利用区域交通异常检测数据进行agent设计；

其中，agent设计包括：

1)状态State：

agent的状态S_j，t由区域内的路口异常数N_k，j，t表示；

2)动作Action：

动作向量A_t为实施边界控制的路口的各相位绿信比；

3)奖励Reward：agent会选择多个周期内，reward的总和∑R_t最高的动作序列{Action}作为结果输出；S3、识别区域需要开启边界控制的时段；

其中边界触发条件可表述为：

trigger＝(G_1，T≥L₁)||(G_2，T≤L₂)||(G_3，T≤L₃)

其中L_i(i＝{1，2，3})是G_i区域在T时段的交通状态等级，L_i∈{S₁，S₂，…，S_n}；

T为t时段前较长的一个时段，满足边界控制触发条件的时段即为控制时段；

S4、在边界agent中筛选实施路口；

其中路口筛选的条件是：当路口进入关键区域方向的路段在进行边界控制前未发生交通拥堵；

S5、利用agent强化学习方法制定边界控制信号配时方案。

2.根据权利要求1所述的一种基于agent的城市区域边界控制方法，其特征在于：步骤S2中

S_j，t＝[N_1，j，t，…，N_i，j，t，…，N_k，j，t]^T，

p_i表示i交叉口的相位个数；

q表示实施边界控制的交叉口的总个数；

绿灯时间g_i，m，t受到最小绿灯时间

和最大绿灯时间

的限制，应满足：

奖励值R_t表示如下

ω_j是各区域收益的权重，

ω₁＞ω₃＞ω₂，ω_j＞0；

3.根据权利要求2所述的一种基于agent的城市区域边界控制方法，其特征在于：各区域状态变化的收益b_j，t的计算函数如下：

b_j，t＝function(G_j，t，G_j，t-1)

a_i(i∈[1，n])的取值由经验或统计学方法确定；

function(G_j，t，G_j，t-1)是G_j，t与G_j，t-1的函数；

N_j，t是检测到的区域交通异常总个数，

N_{avg_j，t}是各区域t时段内j区域交通异常平均数；

各路口交通异常数的离散系数σ_j，t的计算如下：

4.根据权利要求1所述的一种基于agent的城市区域边界控制方法，其特征在于：步骤S5利用agent强化学习方法制定边界控制信号配时方案具体包括：

建立边界控制agent运行框架；

制定边界控制agent策略。

5.根据权利要求4所述的一种基于agent的城市区域边界控制方法，其特征在于：所述边界控制agent运行框架包括关键区域环境、边界区域环境、外围环境区域、关键区域agent、边界区域agent、外围环境agent，所述边界区域agent包括观察器、学习机、知识库、执行器、控制机、通讯模块，所述观察器与学习机连接，所述学习机分别与知识库、通信模块连接，所述控制机分别与执行器、知识库、通信模块连接；所述外围区域agent和关键区域agent通过观察器从对应环境获取状态的功能并将状态通过通信模块传至边界区域agent中，边界区域agent通过观察器，获取边界区域状态，并与其他两个agent的状态拼装并计算奖励，再由学习机和控制机交互，将得到的边界控制的控制方案作用在边界区域的环境中。

6.根据权利要求4所述的一种基于agent的城市区域边界控制方法，其特征在于：所述边界控制agent策略采用深度Q网络算法及相关的改进算法。

7.一种基于权利要求1所述的一种基于agent的城市区域边界控制方法的控制系统，包括依次连接的区域agent划分模块、agent设计模块、边界控制触发模块、实施路口筛选模块、AI方案制定模块，其中，