CN116524745B

CN116524745B - 一种云边协同区域交通信号动态配时系统及方法

Info

Publication number: CN116524745B
Application number: CN202310521098.4A
Authority: CN
Inventors: 蒋建春; 李蔚敏; 曾素华; 杨金言; 曹毅; 舒渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2024-01-23
Anticipated expiration: 2043-05-10
Also published as: CN116524745A

Abstract

本发明涉及一种云边协同区域交通信号动态配时系统及方法，属于车路协同领域。本发明分为：云端强化学习调度模型和路端强化学习调度模型。云端，设计一种分类优先经验回放机制；针对状态空间较大导致模型推理速度较慢的问题，设计道路非等间隔分段方法，缩小状态空间。路端，在区域协同控制上，设计共享信息自注意力提取模块，对其他路口共享信息中的重要部分进行提取，降低共享信息中无用部分对模型的影响。本发明利用路端智能路侧感知与V2X通信技术获取交通实时数据，优化云端与路端强化学习模型对区域路口进行实时动态协同配时，提高路口通行效率、减少路口拥堵，在部署后通过智能路侧感知设备采集的数据在云端对模型进行优化。

Description

一种云边协同区域交通信号动态配时系统及方法

技术领域

本发明属于车路协同领域，涉及一种云边协同区域交通信号动态配时系统及方法。

背景技术

交通信号灯作为通用基础设施，在交通调节中起着重要作用。然而，到目前为止静态固定时长交通信号控制仍然是主流的方案。静态固定时长交通信号控制方法无法根据交通流量自动调节交通信号，虽然可以对交通起到调节作用，但是在有些情况下会使交通效率更低。传统交通信号动态控制采取的典型方法是基于某些假设，将交通信号控制作为一个优化问题，试图对交通环境进行建模。但现实世界的交通状况以复杂的方式发展，受到许多因素的影响，如司机的偏好、弱势交通参与者(如行人、骑自行车的人等)的互动、天气和道路状况等，这些因素很难在交通模型中被完全描述。

智慧交通作为解决交通拥堵问题的有效方案，正逐步成为城市化建设的首要研究内容。其中交通信号灯动态配时技术，综合利用路网拓扑结构和交通流量信息自适应地调整交通信号相位配时，有望成为取代传统定时的控制方案，近年来得到广泛关注。与传统动态控制方法相反，强化学习算法从试错中学习，而不对交通模型做出不切实际的假设。从本质上讲，强化学习算法依据当前环境的变化，会采取不同的策略，智能体根据环境的反馈来学习和调整策略。

发明内容

有鉴于此，本发明的目的在于提供一种云边协同区域交通信号动态配时系统及方法，包括：路侧感知识别定位系统、云端强化学习调度模型、路侧强化学习调度模型。其中，使用路侧感知识别定位系统结合5G+V2X通信对道路交通目标进行检测、识别与定位，在路侧MEC设备中进行多源数据融合得到精确、可靠的车辆位置信息和车道排队车辆数据；云端强化学习调度模型通过获取区域交通数据不断修正调度模型参数并下发给路端；路端强化学习调度模型根据自身实时感知数据及相邻交叉口共享的state、action信息对单个交叉口进行精细化决策控制，并进行在线优化，使得交通信号控制更加高效、灵活。

为达到上述目的，本发明提供如下技术方案：

一种云边协同区域交通信号动态配时系统，该系统包括：

路侧感知识别定位系统、云端强化学习调度模型和路侧强化学习调度模型；

路侧感知识别定位系统结合5G+V2X通信对道路交通目标进行检测、识别与定位，在路侧MEC设备中进行多源数据融合，得到车辆位置信息和车道排队车辆数据；

云端强化学习调度模型通过获取区域交通数据不断修正调度模型参数并下发给路端；

路端强化学习调度模型根据自身实时感知数据及相邻交叉口共享的state和action信息，对单个交叉口进行决策控制；

使用交通仿真软件SUMO作为强化学习算法的环境，在该软件中进行道路、交通信号灯设计，通过随机生成车流配置文件的方式来模拟现实环境中的车辆行驶；启动仿真软件后，SUMO软件会首先读取路网配置文件，进行路网的绘制，之后读取车流配置文件，按照配置文件中的内容在仿真过程中投放车辆，并控制车辆按照配置行驶；在训练过程中，右转方向不做控制，车辆自行按照交通情况右转；在交通灯的设置上，十字路口四个驶入方向上都设置交通灯，各个方向左转和直行的相位组合为实际的控制相位；

采取非等间隔分段的方法对当前路口信号灯控制道路进行划分，越靠近路口位置的车辆对于交通信号控制影响越大，越靠近路口的位置划分越密，距离路口越远的位置划分越稀疏，各分段的长度表示为d_i＝k^i-1d₀；其中k>1，距离路口越远的分段长度越长，d₀为控制分段长度的超参数；将道路划分后，如果划分区域内有车辆，state矩阵的对应位置填充为1，否则填充为0；为保证区域内不同交叉口之间的协同控制，将自身的state和action信息与相邻路口共享，让不同路口之间的控制策略相互协调；

使用四个驶入方向的左转和直行进行组合，设计8个无冲突的相位；如果直接以下一时刻的相位作为智能体的动作又会导致交通信号的频繁切换，在做出动作后，当前相位继续保持5s，即经过智能体的决策，如果继续保持当前相位，即使上个周期没结束，重新把当前相位的剩余时间调整为5s；如果需要切换到别的相位，仍然使得当前相位保持5s之后再切换；在红绿灯切换时，加入3秒的黄灯相位来过渡。

可选的，所述车辆平均等待时间的总和最小，车辆平均等待时间部分的奖励函数表示为：

其中，W_t为t时间步长内驶入车道车辆平均等待时间，W_t-1为t-1时间步长内驶入车道车辆平均等待时间，W_t，i为t时间步长内第i辆车的等待时间；

针对车辆启停带来的能源损耗问题，在reward函数设计时将车辆停车次数作为其中的一部分，以保证车辆行驶过程的连续性；停车次数部分的奖励函数表示为：

其中，P_t为t时间步长内驶入车道车辆平均停车次数，P_t-1为t-1时间步长内驶入车道车辆平均停车次数，P_t，i为t时间步长内第i辆车的停车次数；

考虑车辆等待时间和停车次数两部分，综合奖励表示为：

r_t＝(1-η)r_t，w+ηr_t，p

其中，η为两部分奖励的权重系数；

在多交叉口的协同控制上，针对其他路口共享信息中的无用部分导致模型收敛缓慢甚至导致控制效果变差的问题，设计共享信息自注意力提取模块，将接收到的来自其他路口的共享state、action信息经过带有sigmoid函数的自注意力机制映射为0或1，再与原始数据对应相乘，将无用信息全部置0，只保留有用信息。

基于所述系统的云边协同区域交通信号动态配时方法，包括以下步骤：

S101：在SUMO交通仿真软件中根据实际路网绘制；

S102：设置随机种子，在预设的仿真时间段内，产生一系列随机数，并生成SUMO格式的车流配置文件；

S103：仿真开始后，使用Traci接口获取整个路网中的所有车辆的ID；

S104：依据车辆ID使用Traci接口获取车辆的等待时间、所在道路的Road ID，如果该车辆目前行驶在进入该路口的Road上获取所在Road的Lane ID和车辆位置；

S105：根据Road ID和Lane ID，将车辆位置填充到自身state矩阵的对应位置，并将该矩阵共享给相邻路口；

S106：使用自注意力机制对相邻交叉口共享的信息进行提取；

S107：将自身state与提取后的共享信息合并作为最终的state矩阵输入到模型中，Agent依据探索率的大小选择模型输出的结果或者随机选择一个值作为action：

S108：使用车辆平均等待时间、平均停车次数计算reward值；

S109：使用时序差分算法更新Q网络；

S110：返回步骤S103直到仿真结束。

可选的，所述训练过程中，设计分类优先经验回放机制，创建两个独立的经验池，分别为正经验池B_p、负经验池B_n，依据奖励值的正负分别将经验数据放到对应的经验池中，此外依据时序差分误差的大小为每条经验数据增加一个权重p_i＝(|δ_i|+∈)^α；在训练过程中，依据经验池的抽取概率p_p、p_n，以及每条经验的权重p_i，使用分类优先经验回放的方式进行采样，以增加正向经验被抽取的概率；其中，p_i是第i条经验的优先级，δ_i是这条经验数据的时序差分误差，∈是一个较小的常数，α是一个控制幂次方的超参数。

可选的，所述S109中，训练过程中智能体不断收集{s，a，r，s′}对，存放到经验池中，训练时从经验池随机抽取一个batchsize的数据更新价值网络；在一个{s，a，r，s′}对中，根据状态s计算出模型在状态下采取动作a对应的Q值，指当前时刻采取动作a对于未来总的估值，记作Q(s，a；w)，其中w为Q网络的参数；计算s′状态下最优策略对应的Q值，记作计算s′状态下Q值的网络被成为目标网络，使用两个网络可以使得训练过程更加稳定，在训练过程中，隔段时间将Q网络的参数同步给目标网络；对于状态s′的Q值需要乘折扣因子γ；这两个Q值之间的差值即为状态s下采取动作a获得的奖励r，表示为：

时序差分误差为：

其中，奖励r是环境给出的，即为真实差值，时序差分误差δ_t为估计值，根据两者的误差作为损失来更新Q网络；

可选的，所述S110后还包括实际部署阶段，包括收集路口车辆位置信息和最优交通相位决策，具体流程为：

S201：车载5G+V2X设备向路侧5G+V2X设备发送包含自身定位的V2X消息；

S202：路侧视觉和雷达结合5G+V2X通信对路口交通目标检测、识别与定位；

S203：路侧5G+V2X设备过滤接收到的V2X消息并转发给路侧MEC，路侧MEC设备将车辆定位信息与路侧智能感知对象信息进行融合，得到车辆位置信息；

S204：MEC设备解析车辆位置信息，进行预处理，并整合相邻交叉口共享的信息得到强化学习模型的输入state；

S205：MEC设备将state输入模型中，推理最优交通信号灯相位；

S206：MEC设备将模型的输出映射为信号机控制指令，控制信号灯的相位。

可选的，所述车流配置文件小于一定值时，设计交通信号灯自适应介入机制，通过智能路侧感知对车流量进行实时监控，当过去k个周期内车流量持续少于阈值f_v时关闭交通信号灯，否则使用强化学习模型对交通信号灯的相位进行动态控制。

本发明的有益效果在于：本发明使得交通信号控制更加高效、灵活。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明系统框架图；

图2为本发明强化学习算法state示意图；

图3为本发明强化学习算法action示意图；

图4为本发明强化学习算法网络结构图；

图5为本发明交通信号灯自适应介入机制流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

一种基于强化学习和智能路侧感知的交通信号控制系统，如图1所示，包括路侧感知识别定位系统、云端强化学习调度模型、路侧强化学习调度模型。其中，使用路侧感知识别定位系统结合5G+V2X通信对道路交通目标进行检测、识别与定位，在路侧MEC设备中进行多源数据融合得到精确、可靠的车辆位置信息和车道排队车辆数据；云端强化学习调度模型通过获取区域交通数据不断修正调度模型参数并下发给路端；路端强化学习调度模型根据自身实时感知数据及相邻交叉口共享的state、action信息对单个交叉口进行精细化决策控制，并进行在线优化，使得交通信号控制更加高效、灵活。

本发明使用交通仿真软件SUMO作为强化学习算法的环境，在该软件中进行道路、交通信号灯设计，通过随机生成车流配置文件的方式来模拟现实环境中的车辆行驶。启动仿真软件后，SUMO软件会首先读取路网配置文件，进行路网的绘制，之后读取车流配置文件，按照配置文件中的内容在仿真过程中投放车辆，并控制车辆按照配置行驶。在整个训练过程中，右转方向不做控制，车辆自行按照交通情况右转。在交通灯的设置上，十字路口四个驶入方向上都设置交通灯，各个方向左转和直行的相位组合为实际的控制相位。本发明中设置的8相位相比于常见的4相位控制方法更加的灵活，由于强化学习算法在试错过程中学习，智能体可以学习到更高级的环境特征，采取8相位的方式可以让算法更精细的根据实际交通情况做出最优决策。

在强化学习中有三个重要概念分别是state、action和reward，为将强化学习算法与交通信号控制相结合，需对这三个部分进行设计。

智能体在做出最优动作时需要首先获取当前路口的state并与相邻交叉口共享的state、action信息合并作为最终的state，如图2所示，采取非等间隔分段的方法对当前路口信号灯控制道路进行划分，越靠近路口位置的车辆对于交通信号控制影响越大，因此靠近路口的位置划分较密，距离路口较远的路段划分较稀疏，各分段的长度表示为d_i＝k^i-1d₀。其中k>1，因此距离路口越远的分段长度越长，d₀为控制分段长度的超参数。将道路划分后，如果划分区域内有车辆，state矩阵的对应位置填充为1，否则填充为0。为保证区域内不同交叉口之间的协同控制，将自身的state、action信息与相邻路口共享，可以让不同路口之间的控制策略相互协调，避免出现相互制约、相互干扰的情况。

强化学习算法的action即为智能体根据从环境中获取的state做出的最优决策，在本发明中指最优交通相位。如图3所示，本发明中使用四个驶入方向的左转和直行进行组合，设计了8个无冲突的相位，保证了交通信号控制过程中的灵活性。在控制过程中，不对右转方向进行控制，车辆根据路况自行右转。此外，如果直接以下一时刻的相位作为智能体的动作又会导致交通信号的频繁切换，为保证控制过程中的平稳性，给驾驶员留充足的反应时间，在做出动作后，当前相位继续保持5s，即经过智能体的决策，如果继续保持当前相位，即使上个周期仍没结束，重新把当前相位的剩余时间调整为5s；如果需要切换到别的相位，仍然使得当前相位保持5s之后再切换。在红绿灯切换时，加入3秒的黄灯相位来过渡。

agent的reward用来指导智能体进行学习，指明智能体学习的目标，本发明的目标是优化所有车辆的通行时间，也就是减少车辆的等待时间，即所有车辆平均等待时间的总和最小，车辆平均等待时间部分的奖励函数表示为：

其中，W_t为t时间步长内驶入车道车辆平均等待时间，W_t-1为t-1时间步长内驶入车道车辆平均等待时间，W_t，i为t时间步长内第i辆车的等待时间。

针对车辆启停带来的能源损耗问题，在reward函数设计时将车辆停车次数作为其中的一部分，以保证车辆行驶过程的连续性。停车次数部分的奖励函数表示为：

其中，P_t为t时间步长内驶入车道车辆平均停车次数，P_t-1为t-1时间步长内驶入车道车辆平均停车次数，P_t，i为t时间步长内第i辆车的停车次数。

综合考虑车辆等待时间和停车次数两部分，综合奖励表示为：

r_t＝(1-η)r_t，w+ηr_t，p

其中，η为两部分奖励的权重系数。

在多交叉口的协同控制上，针对其他路口共享信息中的无用部分导致模型收敛缓慢甚至导致控制效果变差的问题，设计共享信息自注意力提取模块，将接收到的来自其他路口的共享state、action信息经过带有sigmoid函数的自注意力机制映射为0或1，再与原始数据对应相乘，即可将无用信息全部置0，只保留有用信息，使得策略网络可以更好的利用其他路口共享的信息，避免出现相互制约、相互干扰的情况。

本发明训练阶段流程为：

S101：在SUMO交通仿真软件中根据实际路网绘制；

S106：使用自注意力机制对相邻交叉口共享的信息进行提取；

S107：将自身state与提取后的共享信息合并作为最终的state矩阵输入到模型中，Agent依据探索率的大小选择模型输出的结果或者随机选择一个值作为action；

S108：使用车辆平均等待时间、平均停车次数计算reward值；

S109：使用时序差分算法(TD算法)更新Q网络；

S110：返回步骤S103直到仿真结束。

针对训练过程中，经验数据存在好坏，不好的经验会导致训练过程缓慢的问题，本发明设计分类优先经验回放机制，创建两个独立的经验池，分别为正经验池B_p、负经验池B_n，依据奖励值的正负分别将经验数据放到对应的经验池中，此外依据时序差分误差的大小为每条经验数据增加一个权重p_i＝(|δ_i|+∈)^α。在训练过程中，依据经验池的抽取概率p_p、p_n，以及每条经验的权重p_i，使用分类优先经验回放的方式进行采样，以增加正向经验被抽取的概率，从而提高策略网络的学习效率。其中，p_i是第i条经验的优先级，δ_i是这条经验数据的时序差分误差，∈是一个较小的常数，α是一个控制幂次方的超参数。

本发明中强化学习算法的网络结构如图4所示，使用时序差分算法更新Q网络。训练的过程中智能体不断收集{s，a，r，s′}对，存放到经验池中，训练时从经验池随机抽取一个batchsize的数据更新价值网络。在一个{s，a，r，s′}对中，可以根据状态s计算出模型在该状态下采取动作a对应的Q值，这个值是指当前时刻采取动作a对于未来总的估值，记作Q(s,a；w)，其中w为Q网络的参数。同样的原理，可以计算s′状态下最优策略对应的Q值，记作计算s′状态下Q值的网络被成为目标网络，使用两个网络可以使得训练过程更加稳定，在训练过程中，隔段时间将Q网络的参数同步给目标网络。需要注意的是，对于状态s′的Q值需要乘折扣因子γ。这两个Q值之间的差值即为状态s下采取动作a获得的奖励r，可以被表示为：

时序差分误差为

其中，奖励r是环境给出的，即为真实差值，时序差分误差δ_t为估计值，可以根据两者的误差作为损失来更新Q网络。

实际部署阶段，大致可以分为两个步骤，分别是收集路口车辆位置信息和最优交通相位决策。在车辆位置信息收集时，借助5G+V2X设备的能力，将当前路口所有车辆的高精度定位信息上传并与路侧视觉、雷达数据进行多源数据融合，保证了检测的可靠性，将融合后的车辆位置信息结果预处理后与共享信息合并作为强化学习算法的state，并在MEC设备中使用强化学习动态配时模型进行推理，计算出最优控制策略，具体流程为：

S201：车载5G+V2X设备向路侧5G+V2X设备发送包含自身高精度定位的V2X消息；

S202：路侧视觉、雷达等智能感知识别定位设备结合5G+V2X通信对路口交通目标检测、识别与定位；

S203：路侧5G+V2X设备过滤接收到的V2X消息并转发给路侧MEC，路侧MEC设备将车辆高精度定位信息与路侧智能感知对象信息进行融合，得到高可靠性的车辆精确位置信息；

S205：MEC设备将state输入模型中，推理最优交通信号灯相位；

针对仿真环境无法完全模拟真实交通流数据，训练的模型还需要改进的问题，提出一种由各交叉口部署的边缘计算节点和云计算中心组成的云边协同分级部署架构，通过路侧感知识别定位系统获取区域交通参数对强化学习模型进行修正，同时为调度模型提供实时交通参数。各交叉口部署的边缘计算节点通过路侧感知识别定位系统获取区域交通参数，并定时上传到云计算中心；云计算中心采用增量式学习方法，使用边缘计算节点上传的数据对模型进行在线更新和优化，并下发给路端，进一步提升系统的性能和稳定性。

另外，针对车流量较小的情况下使用交通信号灯甚至会降低通行效率的问题，如图5的流程图所示，设计交通信号灯自适应介入机制，通过智能路侧感知对车流量进行实时监控，当过去k个周期内车流量持续少于阈值f_v时关闭交通信号灯，否则使用强化学习模型对交通信号灯的相位进行动态控制。其有益效果是，在车流量较小的情况下车辆可以根据路况自由行驶，缩小不必要的等待时间，提高通行效率。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种云边协同区域交通信号动态配时系统，其特征在于：该系统包括：

采取非等间隔分段的方法对当前路口信号灯控制道路进行划分，越靠近路口位置的车辆对于交通信号控制影响越大，越靠近路口的位置划分越密，距离路口越远的位置划分越稀疏，各分段的长度表示为d_i＝k^i-1d₀；其中k＞1，距离路口越远的分段长度越长，d₀为控制分段长度的超参数；将道路划分后，如果划分区域内有车辆，state矩阵的对应位置填充为1，否则填充为0；为保证区域内不同交叉口之间的协同控制，将自身的state和action信息与相邻路口共享，让不同路口之间的控制策略相互协调；

使用四个驶入方向的左转和直行进行组合，设计8个无冲突的相位；如果直接以下一时刻的相位作为智能体的动作又会导致交通信号的频繁切换，在做出动作后，当前相位继续保持5s，即经过智能体的决策，如果继续保持当前相位，即使上个周期没结束，重新把当前相位的剩余时间调整为5s；如果需要切换到别的相位，仍然使得当前相位保持5s之后再切换；在红绿灯切换时，加入3秒的黄灯相位来过渡；

车辆平均等待时间的总和最小，车辆平均等待时间部分的奖励函数表示为：

考虑车辆等待时间和停车次数两部分，综合奖励表示为：

r_t＝(1-η)r_t，w+ηr_t，p

其中，η为两部分奖励的权重系数；

2.基于权利要求1所述系统的云边协同区域交通信号动态配时方法，其特征在于：该方法包括以下步骤：

S101：在SUMO交通仿真软件中根据实际路网绘制；

S104：依据车辆ID使用Traci接口获取车辆的等待时间和所在道路的Road ID，如果该车辆目前行驶在进入该路口的Road上获取所在Road的Lane ID和车辆位置；

S106：使用自注意力机制对相邻交叉口共享的信息进行提取；

S108：使用车辆平均等待时间、平均停车次数计算reward值；

S109：使用时序差分算法更新Q网络；

S110：返回步骤S103直到仿真结束。

3.根据权利要求2所述的云边协同区域交通信号动态配时方法，其特征在于：所述训练过程中，设计分类优先经验回放机制，创建两个独立的经验池，分别为正经验池B_p、负经验池B_n，依据奖励值的正负分别将经验数据放到对应的经验池中，若奖励值为正，则将经验数据放到对应的正经验池中，若奖励值为负，则将经验数据放到对应的负经验池中；此外依据时序差分误差的大小为每条经验数据增加一个权重p_i＝(|δ_i|+∈)^α；在训练过程中，依据经验池中，正经验池的抽取概率p_p和负经验池的抽取概率p_n，以及每条经验的权重p_i，使用分类优先经验回放的方式进行采样，以增加正向经验被抽取的概率；其中，p_i是第i条经验的优先级，δ_i是这条经验数据的时序差分误差，∈是一个较小的常数，α是一个控制幂次方的超参数。

4.根据权利要求3所述的云边协同区域交通信号动态配时方法，其特征在于：所述S109中，训练过程中智能体不断收集{s,a,r,s′}对，根据r的正负存放到经验池中，如果r是正的，那么存放到正经验池中，如果r是负的，那么存放到负经验池中，训练时从正经验池或负经验池随机抽取一个batchsize的数据更新价值网络；在一个{s,a,r,s′}对中，根据状态s计算出模型在状态下采取动作a对应的Q值，指当前时刻采取动作a对于未来总的估值，记作Q(s,a；w)，其中w为Q网络的参数；计算s′状态下最优策略对应的Q值，记作计算s′状态下Q值的网络被成为目标网络，在训练过程中，隔段时间将Q网络的参数同步给目标网络；对于状态s′的Q值需要乘折扣因子γ；这两个Q值之间的差值即为状态s下采取动作a获得的奖励r，表示为：

时序差分误差为：

其中，奖励r是环境给出的，即为真实差值，时序差分误差δ_t为估计值，根据两者的误差作为损失来更新Q网络；a表示智能体选取的动作；w′表示神经网络的参数，A是a的集合，表示动作空间。

5.根据权利要求4所述的云边协同区域交通信号动态配时方法，其特征在于：所述S110后还包括实际部署阶段，包括收集路口车辆位置信息和最优交通相位决策，具体流程为：

S205：MEC设备将state输入模型中，推理最优交通信号灯相位；

6.根据权利要求5所述的云边协同区域交通信号动态配时方法，其特征在于：所述车流配置文件小于一定值时，设计交通信号灯自适应介入机制，通过智能路侧感知对车流量进行实时监控，当过去T个周期内车流量持续少于阈值f_v时关闭交通信号灯，否则使用强化学习模型对交通信号灯的相位进行动态控制。