CN114038216B

CN114038216B - 一种基于路网划分和边界流量控制的信号灯管控方法

Info

Publication number: CN114038216B
Application number: CN202111171374.6A
Authority: CN
Inventors: 黄倩; 吴戡; 李道勋; 季玮; 徐图; 朱永东; 赵志峰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2022-12-23
Anticipated expiration: 2041-10-08
Also published as: CN114038216A

Abstract

本发明公开了一种基于路网划分和边界流量控制的信号灯管控方法，本方法先采用基于最大协同度的路网划分方法将城市全域交通路网划分为子路网簇，并将子路网的每个路口视为一个智能体，设计基于深度神经网络的多智能体强化学习方法，通过子网内智能体执行动作过程中与周围交通环境不断交互来学习生成子路网内信号灯最优协同控制策略。同时通过标定子路网宏观基本图模型，对子路网边界路段及路口进行流量控制，进一步优化子路网交通运行状态和通行效率。本发明相对于传统的交通信号灯控制方法，从全局角度对全域路网进行划分，通过对子路网内多信号灯的协同控制和子网边界的流量控制，实现城市信号灯的高效管控，对缓解城市交通拥堵具有重大意义。

Description

一种基于路网划分和边界流量控制的信号灯管控方法

技术领域

本发明涉及智能交通技术领域，尤其涉及一种基于路网划分和边界流量控制的信号灯管控方法。

背景技术

随着城市建设进程的推进，中大型城市人口密度逐渐加大，交通负载日趋加重，缓解城市交通拥堵、提升通行效率是智能交通发展建设的重要任务，合理的路网规划和交通信号灯控制对缓解通行压力有着十分重要的作用。如何在现有路网的基础上，通过信号灯控制提升通行效率是一个重要的研究课题。传统的固定配时或人工定时的单一路口信号灯控制方法，由于只观察路口自身的环境状态，忽视了与其相邻路口的环境状态和所在相位，从而无法形成绿波通行等信号灯协同控制方法，导致信号灯各相位配时不合理，车辆通行量少，信号灯控制效率较低，交通拥堵时常发生。

针对以上问题，本发明提出了一种基于路网划分和边界流量控制的信号灯管控方法，将城市全域交通路网进行划分并获得最佳子路网划分簇，将子路网内的一个路口视为一个智能体，采用基于深度神经网络的强化学习方法，通过观察多智能体环境状态和执行动作，并与周围交通环境不断交互，迭代学习改善自身策略，从而获得在当前交通环境下的最优信号灯控制策略。同时通过标定子路网宏观基本图模型，对子路网边界路段及路口进行流量控制，进一步优化子路网交通运行状态和通行效率。通过路网划分和边界流量控制技术，实现在动态交通环境下信号灯高效配时，对提高通行效率具有重要意义。

发明内容

本发明的目的在于针对现有城市路网交通信号控制方法的不足，提供一种基于路网划分和边界流量控制的信号灯管控方法。

本发明的目的是通过以下技术方案来实现的：一种基于路网划分和边界流量控制的信号灯管控方法，包括以下步骤：

步骤一：获取城市路网信息，将每一个路口视为一个节点，每一条连接路口的路段视为一条边，基于最大协同度的子路网划分方法，将全域路网迭代划分成子路网簇；根据全域城市网络中两两节点间的最短路径计算边连接性指数，边连接性指数CI计算过程如下：

表示与该节点连接已计算CI值的边CI值之和，n1表示与该节点连接已计算CI值的边的数量；

表示与该节点连接还未计算CI值的边的另一端节点的NSP值之和，NSP值为从其他节点到达该节点的最短路径数的值，n2表示与该节点连接未计算CI值的边的数量。NSP_j表示该节点的NSP值。

移除路网中边连接性指数最大的连接路段，并对移除连接路段后形成的子路网簇，计算子路网簇中所有子路网的协同度来衡量此次划分是否为局部最优；若子路网簇协同度达到局部最大值则结束划分，否则继续迭代执行子路网划分，直至子路网簇协同度达到局部最优或划分后的子路网个数超过设定阈值；子路网簇的协同度TSD计算方法为：

其中I_i表示第i个子路网内边的个数占全域路网边的比例，E_i表示所有连接该子路网的边个数占全域路网边的比例，Avg_Intensity表示在过去历史一段时间内连接该子路网的边界路段平均车流密度，ns表示此时子路网个数；

步骤二：对子路网簇中的任意一个子路网，定义子路网内的每一个路口为一个智能体，对于每一个智能体，子路网内其他智能体均为它的协同智能体；采用基于深度神经网络的多智能体强化学习算法，智能体通过同时观察所有协同智能体状态和联结动作空间，获得每一个执行步产生的样本数据，训练值函数神经网络来学习生成子路网内每个信号灯的最优执行相位，所述样本数据包括智能体每一个执行步的观测状态、执行动作以及执行动作后的观测状态、获得奖励。

步骤三，对子路网簇中的其他子路网采用步骤二的方法各自训练值函数神经网络至收敛。对每一个子路网采用相应的值函数神经网络预测智能体的最佳执行动作，实现对各子路网交通信号灯的分布式协同控制；

步骤四，周期性统计子路网内累积车辆数和完成流量，并使用获得的数据进行子路网的宏观基本图模型的标定，用以描述子路网区域内累积车辆数和完成流量之间的非线性关联关系。

步骤五，采用步骤四方法完成所有子路网的宏观基本图模型的标定，并基于宏观基本图模型设计子路网间边界路段及路口的流量动态控制方案，进一步优化子网交通运行状态。对子路网完成流量未达到宏观基本图模型中最佳临界点的情况，增大边界路段通行流量方向的路口信号灯的绿灯时长，提升进入子路网的车辆数。对子路网完成流量超过宏观基本图模型中最佳临界点的情况，减少通行流量方向的路口信号灯的绿灯时长，限制进入子路网的车辆数，直至子路网交通状态恢复至稳定流或自由流。

进一步地，步骤一中，所述城市路网信息包括所有路口间的连接关系和每条道路信息、路口信息，以及每个路口的信号灯信息；所述道路信息包括道路的长度、道路的最高限速；所述路口信息包括十字路口和丁字路口。

进一步地，步骤一的具体过程为：定义一个协同度列表，初始化为空，假设路网中存在N个节点(node₁，node₂，...，node_i，...，node_n)，node_i表示路网的第i个节点，划分方法如下：

(1.1)随机选取路网中的某一个节点node_i，采用深度优先搜索方法，寻找从节点node_i到其他所有节点的最短路径，并为其他节点赋值为从节点node_i到达该点的最短路径数的值NSP(Number of shortest paths，NSP)；

(1.2)采用自底向上方法，按节点的NSP值从大到小的顺序，依次计算每一个节点与之相连接的所有的边连接性指数CI，直至所有节点的边的CI值计算完成；具体计算方法如下：对某一个节点，将与该点连接的边区分为两类，一类为已经计算CI值的边，一类为还未计算CI值的边；采用自底向上方法与一个节点相连的边有可能同时存在CI值计算过与否的情况；对与该节点相连还未计算CI值的每一条边，计算其CI值：

(1.3)对路网中的其他节点，重复步骤(1.1)～(1.2)；若路网中有N个节点，则该步骤重复N次，每一条边能计算出N个CI值；

(1.4)基于路网为有向图的特性，对每一条边的N个CI值，将这N个CI值进行加和形成最终的CI值；

(1.5)移除最终CI值最大的边，若最终CI值最大的边有多个，则均移除；

(1.6)对移除CI值最大的边后形成的子路网簇，分别计算每一个子路网的子协同度(Synergetics Degree，SD)，并求取所有子路网的子协同度之和(Total SynergeticsDegree，TSD)为协同度；对子路网簇，协同度值越大，则子路网的内部协同度越高，与其他子路网的关联度越弱；

(1.7)若协同度列表为空，则将此时协同度添加至协同度列表，否则比较此时协同度与协同度列表中最大值的大小，若协同度大于协同度列表中最大值且子路网个数小于设定阈值，则将该协同度的值添加至协同度列表，并对划分后的子路网分别重复步骤(1.1)～(1.6)选取其他节点继续划分，若协同度小于协同度列表中最大值，则停止划分，并认为上一次划分是最佳划分。

进一步地，步骤二中，智能体的观测状态为子路网内所有车道的车辆平均延误指数、平均排队长度、平均停留时长、平均车速、距离路口的平均距离，以及当前观测状态时刻子路网内所有协同智能体的联结动作空间；智能体的执行动作为可执行的信号灯相位；奖励为智能体执行选定的动作相位后通过路口的车辆数、车辆在绿灯时长内的行驶距离和、是否发生相位切换三个影响因子的加权和；车辆平均延误指数用下式表示：

n表示该车道上车辆总数，speed_i表示该车道第i辆车的即时行驶速度，speed_limit表示道路最高限速。

进一步地，步骤二中，训练值函数网络的具体过程为：

(2.1)根据智能体的观测状态和执行动作的维度大小，设计两个结构和初始参数相同的深度神经值函数网络，分别为T网络和E网络。

(2.2)获取智能体每一个执行步的观测状态、执行动作和执行动作后的观测状态、获得的奖励，重复若干次，将获得的样本数据存储至存储体D中；

(2.3)从存储体D中随机抽取B条样本数据，并对每一条样本数据使用T网络生成对应的目标值函数。

(2.4)使用样本数据和相应的目标值函数训练神经网络E。每训练E网络C次，将T网络的参数与E网络的参数同步。

(2.5)重复步骤(2.3)～(2.4)直至值函数网络E收敛。

进一步地，步骤四的具体过程为：

(4.1)设置周期时长为T，每隔T时间统计一次子路网内累积车辆数和完成流量，直至数据量满足需求阈值。其中，完成流量为子路网内所有道路的车流量总和。

(4.2)以累积车辆数为自变量，完成流量为因变量，使用(4.1)中数据绘制散点图。

(4.3)对散点图进行非线性拟合，获得两个变量的关联系数，实现对宏观基本图模型的标定。

进一步地，步骤五的最佳临界点为宏观基本图模型的完成流量峰值。

本发明的有益效果是，本发明提供一种基于路网划分和边界流量控制的信号灯管控方法，通过对全域路网进行最优子路网簇划分，对每一个子路网，通过同时观察多智能体所在环境状态和所有协同智能体的联结动作空间，设计基于神经网络的多智能体强化学习方法，并用训练好的神经网络预测最佳执行相位，从而实现多路口的协同控制。同时通过标定子路网宏观基本图模型，对子路网边界路段及路口进行流量控制，进一步优化子路网交通运行状态和通行效率。该方法使用全域路网划分和边界流量控制技术，实现信号灯高效协同配时，对缓解城市交通拥堵具有重大意义。

附图说明

图1为本发明方法流程图；

图2为基于本发明方法的城市路网局部子路网划分簇示意图；

图3为一个子路网内部若干个协同控制的路口交通信号灯示意图；

图4为子路网区域宏观基本图模型标定示意图。

具体实施方式

下面根据附图详细说明本发明。

如图1所示，本发明提供了一种基于路网划分和边界流量控制的信号灯管控方法，包括以下步骤：

步骤一：由于真实情况下，难以获得信号灯控制权，因此本实施方案基于CBEngine交通仿真模拟器，将获取的真实城市路网信息和车辆轨迹信息导入仿真模拟器，并在模拟器中进行交通信号灯控制仿真。所述城市路网信息包括所有路口间的连接关系和每条道路信息、路口信息，以及每个路口的信号灯信息；所述道路信息包括3211条道路的长度、道路的最高限速；所述路口信息包括2118个路口，路口类型有十字路口和丁字路口。每一个路口均有一个交通信号灯，信号灯有4个相位，分别为南北直行、南北大左转、东西直行、东西大左转；直行、左转车辆在相应相位的绿灯时间内通行，右转车辆通行不受信号灯影响；所述的模拟的车辆轨迹信息包括10876条车辆在路网道路上的行驶轨迹。

将每一个路口视为一个节点，每一条连接路口的路段视为一条边，基于最大协同度的子路网划分方法，将全域路网迭代划分成子路网簇；从全域城市网络开始，采用深度优先搜索算法得出两两节点间的最短路径，并基于最短路径计算边连接性指数，移除路网中边连接性指数最大的连接路段，并对移除连接路段后形成的子路网簇，计算子路网簇中所有子路网的协同度来衡量此次划分是否为局部最优；若子路网簇协同度达到局部最大值则结束划分，否则继续迭代执行子路网划分，直至子路网簇协同度达到局部最优或划分后的子路网个数超过设定阈值；具体过程如下：

定义一个协同度列表，初始化为空，路网中存在2188个节点，n为最大节点数2188，节点表示为(node₁，node₂，...，node_i，...，node_n)，node_i表示路网的第i个节点，划分方法如下：

(1.1)随机选取路网中的某一个节点node_i，采用深度优先搜索方法，寻找从节点node_i到所有其他所有节点的最短路径，并为其他节点赋值为从节点node_i到达该点的最短路径数的值NSP(Number of shortest paths，NSP)。

(1.2)采用自底向上方法，按节点的NSP值从大到小的顺序，依次计算每一个节点与之相连接的所有的边连接性指数(Connectivity Index，CI)，直至所有节点的边的CI值计算完成。具体计算方法如下：对某一个节点，将与该点连接的边区分为两类，一类为已经计算CI值的边，一类为还未计算CI值的边；采用自底向上方法与一个节点相连的边有可能同时存在CI值计算过与否的情况；对与该节点相连还未计算CI值的每一条边，计算其CI值：

表示与该节点连接还未计算CI值的边的另一端节点的NSP值之和，n2表示与该节点连接未计算CI值的边的数量。NSP_j表示该节点的NSP值。

(1.3)对路网中的其他节点，重复步骤(1.1)～(1.2)；若路网中有N个节点，则该步骤重复N次，每一条边能计算出N个CI值。

(1.4)基于路网为有向图的特性，对每一条边的N个CI值，将这N个CI值进行加和形成最终的CI值。

(1.5)移除最终CI值最大的边，若最终CI值最大的边有多个，则均移除。

(1.6)对移除CI值最大的边后形成的子路网簇，分别计算每一个子路网的子协同度(Synergetics Degree，SD)，并求取所有子路网的子协同度之和(Total SynergeticsDegree，TSD)为协同度TSD；TSD计算方法为：

其中I_i表示子路网内边的个数占全域路网边的比例，E_i表示所有连接该子路网的边个数占全域路网边的比例，AVG_Intensity表示在过去历史一段时间内连接该子路网边路段的平均车流密度，ns表示此时子路网个数，SD_i表示第i个子路网的子协同度；对一个子路网，协同度值越大，则该子网的内部协同度越高，与其他子路网的关联度越弱。

(1.7)若协同度列表为空，则将此时协同度添加至协同度列表，否则比较此时协同度与协同度列表中最大值的大小，若协同度大于协同度列表中最大值且子路网个数小于设定阈值，则将该协同度的值添加至协同度列表，并对划分后的子路网分别重复步骤(1.1)～(1.6)选取其他节点继续划分，若协同度小于协同度列表中最大值，则停止划分，并认为上一次划分是最佳划分。应该理解的是，根据经验，对全域网络的划分，协同度值一般有1～2次的局部最大值，因此，此处认为第一次出现的最大值即为局部最优值，并结束划分。

步骤二：对子路网簇中的任意一个子路网，定义子路网内的每一个路口为一个智能体，对于每一个智能体，子路网内其他智能体均为它的协同智能体；采用基于深度神经网络的多智能体强化学习算法，智能体通过同时观察所有协同智能体状态和联结动作空间，获得每一个执行步产生的样本数据，训练值函数神经网络来学习生成子路网内每个信号灯的最优执行相位，所述样本数据包括智能体每一个执行步的观测状态、执行动作以及执行动作后的观测状态、获得奖励。具体过程如下：

(2.1)根据智能体的观测状态和执行动作的维度大小，设计两个结构和初始参数相同的深度神经值函数网络，分别为T网络和E网络。神经网络的输入为智能体的观测状态，输出为所有可执行相位的Q值向量。假设子路网内智能体总数为Num_A，则神经网络E的输入层大小为Num_A*124，第一层隐藏层大小为128，第二层隐藏层大小为32，输出层大小为4，4表示可执行相位有4种。

(2.2)获取智能体每一个执行步的观测状态、执行动作和执行动作后的观测状态、获得的奖励，重复8000次，将获得的样本数据存储至存储体D中；其中，奖励为智能体执行选定的动作相位后通过路口的车辆数、车辆在绿灯时长内的行驶距离和、是否发生相位切换三个影响因子的加权和；

具体地，观测状态S包括智能体本身和与之相连的所有协同智能体的进出车道的车辆平均延误指数、平均排队长度、平均停留时长、平均车速、距离路口的平均距离、上一个观测状态子路网内所有协同智能体采取的动作；获取方法如下：观测所有路口的进车道和出车道，每个路口的进车道或出车道包括左转车道、直行车道、右转三个车道，则共有24个车道。将每一条车道观测值表示为一个维度为5的一维向量，向量值分别为该车道的车辆平均延误指数、排队长度、平均停留时长、平均车速、距离路口的平均距离；按照北、东、南、西方向将所有车道观测值堆叠成大小为24*5的矩阵，矩阵垂直方向为车道，水平方向为一个车道的观测值；若某个方向的道路不存在(比如此路口为三岔路口或丁字路口)，则该方向所有车道的观测值表示为[-1，-1，-1，-1，-1]。将联结动作空间A和协同智能体的观测状态矩阵按垂直方向拼接，并拉伸为一个一维向量；采用Z-Score标准化方法对该向量进行规范化，规范化后的向量表示此时该智能体的观测状态S。

奖励为智能体执行选定的动作相位后通过路口的车辆数、车辆在绿灯时长内的行驶距离和、是否发生相位切换三个影响因子的加权和；获取方法如下：

r＝w₁*total_pass_num+w₂*total_pass_distance+w₃*phase_switch

其中，total_pass_num表示执行当前选定的动作相位后通过路口的车辆数，total_pass_distance表示为车辆在绿灯时长内行驶时间距离和，phase_switch表示是否发生相位切换，若动作a和上一个状态执行动作相同，则phase_switch值为0，若动作a和上一个状态执行动作不同，则phase_switch值为1；w₁、w₂、w₃分别为通过路口的车辆数、车辆在绿灯时长内行驶时间距离和以及是否发生相位切换三个因子的权重，根据经验选取，目的使通行效率最大化。这里w₁取值0.5、w₂取值0.05、w₃取值1。

(2.3)从存储体D中随机抽取32条样本数据，并对每一条样本数据使用T网络生成对应的目标值函数。

(2.4)使用样本数据训练神经网络E。每训练E网络200次，将T网络的参数与E网络的参数同步。

步骤四，周期性统计子路网内累积车辆数和完成流量，完成流量为子路网内所有道路的车流量总和，并使用获得的数据进行子路网的宏观基本图模型的标定，用以描述子路网区域内累积车辆数和完成流量之间的非线性关联关系。具体过程为：

(4.1)设置周期时长为10分钟，每隔10分钟统计一次子路网内累积车辆数和完成流量，直至数据量满足需求阈值。

(4.3)使用Matlab工具对散点图进行非线性拟合，获得两个变量的关联系数，实现对宏观基本图模型的标定。

步骤五，采用步骤四方法完成所有子路网的宏观基本图模型的标定，并基于宏观基本图模型设计子路网间边界路段及路口的流量动态控制方案，进一步优化子网交通运行状态。对子路网完成流量未达到宏观基本图模型中最佳临界点的情况，增大边界路段通行流量方向的路口信号灯的绿灯时长，提升进入子路网的车辆数。对子路网完成流量超过宏观基本图模型中最佳临界点的情况，控制边界路段通行流量方向的交通流量并减少通行流量方向的路口信号灯的绿灯时长，限制进入子路网的车辆数，直至子路网交通状态恢复至稳定流或自由流。

根据本发明方法，在CBEngine交通仿真引擎中，基于真实城市路网信息，设置2118个路口，3211条道路，10876个车辆轨迹进行仿真。如图2为基于局部最优协同度的城市路网局部子路网簇划分结果示意图，将协同度较高的路口划分到一个子路网，子路网之间的关联度较弱。如图3为一个子路网内部的若干个路口，这些路口信号灯具有协同作用。图4为其中子路网区域宏观交通基本图标定示意图，通过标定好的宏观基本图控制边界流量。

通过子路网内信号灯协同控制方法和子网边界流量控制技术，相比于非协同控制方法，子路网的平均车辆通行效率提升了16％。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于路网划分和边界流量控制的信号灯管控方法，其特征在于，包括以下步骤：

步骤一：获取城市路网信息，将每一个路口视为一个节点，每一条连接路口的路段视为一条边，基于最大协同度的子路网划分方法，将全域路网迭代划分成子路网簇；具体划分过程为：定义一个协同度列表，初始化为空，假设路网中存在N个节点(node₁,node₂,…,node_i,…,node_n)，node_i表示路网的第i个节点，划分方法如下：

(1.7)若协同度列表为空，则将此时协同度添加至协同度列表，否则比较此时协同度与协同度列表中最大值的大小，若协同度大于协同度列表中最大值且子路网个数小于设定阈值，则将该协同度的值添加至协同度列表，并对划分后的子路网分别重复步骤(1.1)～(1.6)选取其他节点继续划分，若协同度小于协同度列表中最大值，则停止划分，并认为上一次划分是最佳划分；

根据全域城市网络中两两节点间的最短路径计算边连接性指数，边连接性指数CI计算过程如下：

表示与该节点连接已计算CI值的边CI值之和，1表示与该节点连接已计算CI值的边的数量；

表示与该节点连接还未计算CI值的边的另一端节点的NSP值之和，NSP值为从其他节点到达该节点的最短路径数的值，n2表示与该节点连接未计算CI值的边的数量；NSP_j表示该节点的NSP值；

步骤二：对子路网簇中的任意一个子路网，定义子路网内的每一个路口为一个智能体，对于每一个智能体，子路网内其他智能体均为它的协同智能体；采用基于深度神经网络的多智能体强化学习算法，智能体通过同时观察所有协同智能体状态和联结动作空间，获得每一个执行步产生的样本数据，训练值函数神经网络来学习生成子路网内每个信号灯的最优执行相位，所述样本数据包括智能体每一个执行步的观测状态、执行动作以及执行动作后的观测状态、获得奖励；

步骤三，对子路网簇中的其他子路网采用步骤二的方法各自训练值函数神经网络至收敛；对每一个子路网采用相应的值函数神经网络预测智能体的最佳执行动作，实现对各子路网交通信号灯的分布式协同控制；

步骤四，周期性统计子路网内累积车辆数和完成流量，并使用获得的数据进行子路网的宏观基本图模型的标定，用以描述子路网区域内累积车辆数和完成流量之间的非线性关联关系；

步骤五，采用步骤四方法完成所有子路网的宏观基本图模型的标定，并基于宏观基本图模型设计子路网间边界路段及路口的流量动态控制方案，进一步优化子网交通运行状态；对子路网完成流量未达到宏观基本图模型中最佳临界点的情况，增大边界路段通行流量方向的路口信号灯的绿灯时长，提升进入子路网的车辆数；对子路网完成流量超过宏观基本图模型中最佳临界点的情况，减少通行流量方向的路口信号灯的绿灯时长，限制进入子路网的车辆数，直至子路网交通状态恢复至稳定流或自由流。

2.根据权利要求1所述的一种基于路网划分和边界流量控制的信号灯管控方法，其特征在于，步骤一中，所述城市路网信息包括所有路口间的连接关系和每条道路信息、路口信息，以及每个路口的信号灯信息；所述道路信息包括道路的长度、道路的最高限速；所述路口信息包括十字路口和丁字路口。

3.根据权利要求1所述的一种基于路网划分和边界流量控制的信号灯管控方法，其特征在于，步骤二中，智能体的观测状态为子路网内所有车道的车辆平均延误指数、平均排队长度、平均停留时长、平均车速、距离路口的平均距离，以及当前观测状态时刻子路网内所有协同智能体的联结动作空间；智能体的执行动作为可执行的信号灯相位；奖励为智能体执行选定的动作相位后通过路口的车辆数、车辆在绿灯时长内的行驶距离和、是否发生相位切换三个影响因子的加权和；车辆平均延误指数用下式表示：

4.根据权利要求1所述的一种基于路网划分和边界流量控制的信号灯管控方法，其特征在于，步骤二中，训练值函数网络的具体过程为：

(2.1)根据智能体的观测状态和执行动作的维度大小，设计两个结构和初始参数相同的深度神经值函数网络，分别为T网络和E网络；

(2.3)从存储体D中随机抽取B条样本数据，并对每一条样本数据使用T网络生成对应的目标值函数；

(2.4)使用样本数据和相应的目标值函数训练神经网络E；每训练E网络C次，将T网络的参数与E网络的参数同步；

(2.5)重复步骤(2.3)～(2.4)直至值函数网络E收敛。

5.根据权利要求1所述的一种基于路网划分和边界流量控制的信号灯管控方法，其特征在于，步骤四的具体过程为：

(4.1)设置周期时长为T，每隔T时间统计一次子路网内累积车辆数和完成流量，直至数据量满足需求阈值；其中，完成流量为子路网内所有道路的车流量总和；

(4.2)以累积车辆数为自变量，完成流量为因变量，使用(4.1)中数据绘制散点图；

6.根据权利要求1所述的一种基于路网划分和边界流量控制的信号灯管控方法，其特征在于，步骤五的最佳临界点为宏观基本图模型的完成流量峰值。