CN117408405A

CN117408405A - 一种基于交通算网的边缘算力解构及智能调度方法

Info

Publication number: CN117408405A
Application number: CN202311404822.1A
Authority: CN
Inventors: 陈苏婷; 吴旭; 陈志伟; 代康; 汪鸿建; 缪则林
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-16

Abstract

本发明公开了一种基于交通算网的边缘算力解构及智能调度方法，包括步骤如下：S1，通过交通算网底层数据感知获取当前城市交通系统复杂节点的相关信息，并通过移动边缘算力解构方法对节点的相关信息进行处理分析；所述节点的相关信息包括通行车辆数量、车辆通行时间、车型排队长度、区域流量、断面流量、分类型流量；S2，通过对交通算网的多因子联合计算，自适应动态生成交通业务调度策略；通过基于强化学习的对抗性智能体优化策略来解决交通算网中的多因子最优规划问题，实现最优路径调度至算力节点。本发明能使得交通算网更好地适应交通系统的动态变化，并快速响应实时的交通需求和优化策略。

Description

一种基于交通算网的边缘算力解构及智能调度方法

技术领域

本发明涉及智能交通领域，尤其涉及一种基于交通算网的边缘算力解构及智能调度方法。

背景技术

数字技术的快速发展为交通领域带来了许多创新。例如，自动驾驶、物联网、大数据分析、云计算和人工智能等技术的应用，使得交通系统能够更好地收集、处理和分析交通数据，从而提供更智能、高效的交通管理和运输服务。智能交通系统的发展和推广为交通算网提供了基础。ITS利用现代通信、信息和控制技术，将交通管理、运输和用户需求整合在一起，以实现更高效、安全和可持续的交通系统。

但是，对于更复杂的交通场景来说，现有的一些智能交通系统只能进行简单的资源调配和单一模态数据监控(如汽车流量监控，道路交通实例分割，目标检测等)。一方面，交通算网涉及大量的数据交换和信息共享。确保这些数据的安全性和隐私性是一个重要的挑战。如果交通算网的安全措施不到位，可能会导致个人隐私泄露、网络攻击或数据篡改等问题。此外，交通算网需要与各种不同的交通系统和设备进行互操作。然而，不同系统之间的技术标准和接口可能不兼容，这可能导致数据集成和交流的困难。为了实现交通算网的无缝连接和协同工作，技术互操作性是一个关键问题。

目前智能交通的常见系统例如交通流量检测、交通违规检测和路口非机动车及行人异常行为检测等，这些单一模态系统只利用了当前交通节点的部分特征进行单一目标任务的运算。在浪费大量有效特征的前提上，这些系统采用将交通节点数据上传至云端进行大规模数据挖掘和智能识别，上传云端远程服务器会消耗大量资源的同时也会带来即时性的时延问题。中央服务器虽然有大规模的数据分析中心，但这需要传输迅速的网络配套设施及依赖于数据节点的物理条件。

发明内容

发明目的：本发明的目的是提供一种基于交通算网的边缘算力解构及智能调度方法,实现交通算网更加高效地利用资源，有助于提高交通算网的整体性能、加快业务处理速度，并优化资源利用率。

技术方案：本发明基于交通算网的边缘算力解构及智能调度方法，包括步骤如下：

S1，通过交通算网底层数据感知获取当前城市交通系统复杂节点的相关信息，并通过移动边缘算力解构方法对节点的相关信息进行处理分析；所述节点的相关信息包括通行车辆数量、车辆通行时间、车型排队长度、区域流量、断面流量、分类型流量；

S2，通过对交通算网的多因子联合计算，自适应动态生成交通业务调度策略；通过基于强化学习的对抗性智能体优化策略来解决交通算网中的多因子最优规划问题，实现最优路径调度至算力节点。

进一步，步骤S1中，通过移动边缘算力解构方法将交通算网中获取的实时交通节点数据解析为当前算网可解构的智能架构，并引入结构联邦学习和意图驱动，详细实现步骤如下：

S101，联邦学习通过各方协作与共享的协议规范，让边缘设备在不向云端设备发送源数据的情况下，合作训练出一个最优的全局机器学习模型；联邦学习算法原理如下：

其中，F_k(w)表示在联邦学习中第k个参与方上的模型的损失函数，n_k代表参与方k的样本数量，数据集d_k代表第k个参与方的本地数据集；参数w包括了第k个参与方对于特定交通任务的本地模型权重，使本地模型能够学习从输入数据到输出标签的映射；f_i(w)是具有参数w的模型对数据集d_k中的实例产生的损失函数；

联邦学习通过本地客户端模型训练的损失函数，乘以固定的学习率η，计算出新一轮的权重更新；本地客户端的模型权重更新如下:

w_t,k＝w_t-1,k-ηΔ1_k(w)

其中，w_t,k代表第k个参与方在迭代t轮次时的本地模型权重；w_t-1,k代表第k个参与方在上一轮迭代t-1时的本地模型权重；ΔF_k(w)代表第k个参与方本地模型的损失函数关于模型权重w的梯度；

S102，基于垂直联邦学习，设计Trans-VFL模型来进行移动边缘算力解构，所述Trans-VFL模型中的ML模型分为三个部分：多个参与方的本地局部模型服务终端聚合模型M^w、特定交通任务模型M^t，其中/>指平台/>维护的第i个局部模型。

进一步，通过Trans-VFL模型来进行移动边缘算力解构的详细实现步骤如下：

S10201，在交通算网体系中，相同特定交通任务的不同特征子集被分散在多个数据源节点上，从公平性的角度，将不同特征子集分为两组：对公平不敏感的特征和对公平敏感的特征，并将对公平不敏感的特征作为Trans-VFL模型输入；设有m种与交通类型相关的公平敏感特征，将第i个具有类型的平台表示为/>此外，所有公平不敏感特征都集中在n个平台上，将第i个平台表示为/>并设有一个特定任务平台P^t在目标任务上保留样本的标签y，且有一个值得信任的服务器用于信息聚合；

S10202，将对公平敏感特征和对公平不敏感特征进行统一编码，去除某些特征集对特定交通任务的偏见；在Trans-VFL中，局部模型用于将局部公平不敏感特征编码为局部表示；

S10203，特定交通任务模型M^t由特定平台P^t维护，利用统一表示S中的信息来对目标任务进行预测、检测、分类和异常识别。

进一步，步骤S10202中，对于编码交通节点区域流量统计，通过transformers模型进行局部编码；对于车辆实时位置和交通节点车辆通行数量，采用PLMs模型进行局部表示；

当任务平台P^t需要训练特定交通任务时，P^t首先将特定交通任务的ID分发给对公平性不敏感的节点在第i个参与方平台/>中，局部编码模型/>也对存储在中的特定交通任务公平性不敏感特征进行编码，并构建局部表示/>因此，获得了多个局部表示/>对目标任务的不同的公平性不敏感特征进行编码，这些局部表示随后被上传到服务器P^w用于任务处理，通过聚合模型M^w将全部局部表示中的信息聚合为统一表示；

对于每个公平敏感性特征首先将统一表示S映射到公平敏感特征编码器a_i中，表达式如下：

a_i＝a_i(S)

其中，a_i是用于去除第i个参与方公平敏感性特征的基于MLP的映射编码器，统一表示S是映射编码器a_i的输入；

给定同一训练批次中的编码表示首先根据这些编码表示/>和a_i之间的相关性进行排序：

其中，S^j分别第j个特定交通任务中公平敏感特征编码和公平不敏感特征编码统一表示，r_j是相关性得分，E是批量大小；

根据相关性排名的前E_i个任务，随机选择一个统一编码表示其中，E_i为超参数；在对比学习中作为负样本，训练对比鉴别器/>来对a_i的输入进行分类：

其中，用于训练对比鉴别器/>以对输入a_i进行分类；/>表示MLP前馈网络，Ω表示训练集，x是Ω中的数据样本，exp()函数表示以自然常数e为底的指数函数；通过迭代最小化/>来训练对比鉴别器/>得到最优对比鉴别器/>

最后，使用最优对比鉴别器S和/>来训练对比对抗学习损失/>和对比对抗学习的下降梯度/>

接着，将a_i上的对比对抗学习梯度进一步反向传播到编码映射器A_i:

进一步将优化后的特征编码a_i上传至公平敏感特征平台上，/>使用误差鉴别器从a_i中预测公平敏感特征/>的标签/>并计算误差鉴别损失/>

通过迭代出最优误差鉴别器对于第i个参与方平台生成的公平敏感性特征/>计算编码映射器损失/>

则得出对比对抗模型的损失函数的表达式：

其中，分别代表对比对抗模型的性能、公平性和隐私性训练目标；/>任务目标损失由平台所选择的特定交通任务类型决定，λ_i和γ_i是设定的超参数。

进一步，步骤S2中，实现最优路径调度至算力节点的详细步骤如下：

S201，设计各因子

数据流量因子：考虑实时交通数据的流量情况，包括道路拥堵程度、车辆密度；

时间效率因子：考虑交通业务的时间敏感性，不同的交通业务对时间有不同的要求；

资源利用率因子：考虑交通算网资源的利用率和可用性；

可靠性因子：考虑交通业务的可靠性要求；

能源效率因子：考虑交通算网的能源消耗；

S202，引入可信对手模型来建模其他智能体的行为，使得每个智能体能够更准确地评估其他智能体的策略对自己的影响；采用对抗性优化的思想，智能体通过与其他智能体的对手模型对抗来学习策略；同时，引入协同学习的概念，使得每个智能体能够从其他智能体的经验中学习，并更好地理解全局的情况；

S203，算网智能化指挥调度平台汇聚城市交通数据各子系统识别出的交通和预警事件；然后，引入多因子联合计算，对汇聚的各类交通类型事件构建不同的指挥处理流程；同时，根据指挥处理调度下达的处置指令，结合最优路径调度算法，自适应对接上层各子系统应用；最后，基于算网数字孪生技术，实现交通算网的智能化指挥调度。

进一步，步骤S202中，基于强化学习的对抗性智能体优化策略来解决交通算网中的多因子最优规划问题的具体步骤：

S20201，将交通算网多因子联合计算问题建模为多智能体强化学习的环境，确定智能体的状态空间S^E、动作空间U和奖励函数R；所述智能体的状态包括算网节点部署位置、实时状态、负载信息、业务需求、数据流量情况；智能体的动作空间则表示交通业务的调度策略或最优算网路径的选择；奖励函数用于评估每次智能体进行最优路径规划后计算出的策略的好坏；

S20202，设计多个智能体来模拟和优化交通系统的运行，所述智能体包括：

车辆智能体：代表道路上的车辆，通过传感器收集实时交通信息，根据当前交通状况做出决策；

信号灯智能体：代表交通信号灯，监测周围车辆和行人的情况，并根据实时交通流量和需求调整信号灯的时序；

行人智能体：代表道路上的行人，根据个体目的地、交通信号和周围环境做出行进决策；

调度智能体：负责整个交通系统的调度和协调，收集来自车辆、信号灯和行人智能体的信息，综合考虑交通流量、道路容量和出行需求，制定最佳的交通规划和调度策略；

对于每个智能体都采用独立的RNN网络，每个智能体都使用自己的策略网络和值函数网络，每个智能体都有一个动作观察网络来记录历史动作τ^α，局部行为网络是基于历史信息所做出的决策π^α(u^α|τ^α)；

S20203，通过可信对手模型观察其他智能体的行为来估计其策略，为每个交通智能体提供一个对手模型，在训练过程中，交替更新当前决策智能体和对手智能体的策略；

S20204，每个智能体的价值分解网络将当前算网节点状态和当前选择的路径优化策略映射到该智能体的期望策略，价值分解网络的输入是当前算网节点状态和所有智能体的实时策略，输出是每个智能体的期望策略；采用D^a来表示单个智能体采取行为后的独立回报，计算公式如下：

D^a＝R(s,u)-R(s,(u^-a,c_a))

其中，c_a表示默认行为动作；R(s,u)是回报函数，表示在状态s下采取行为u后获得的回报；s是当前的状态，u是智能体选择的行为；u^-a是行为u的补充行为，表示与行为a不同的另一种行为；

采用平均效应值Q作为默认行为，来确认哪种行为作为默认行为是最优的：

其中，u′_a表示补充行为，代表智能体在特定历史动作τ^a下可以选择的备选行为；

如此，将独立回报D^a等效近似为调度策略分数R(s,u)：

最后，将当前全局状态、当前智能体的观测行为、除自身智能体外其他智能体的联合动作空间、自身当前智能体的one-hot编码和所有智能体上一时刻的行为都送入中心评价网络Critic中，中心评价网络Critic输出当前智能体所有可执行的Q值，将这些Q值进行SoftMax归一化操作，得到需要的平均效应值Q(s,c_a)；

S20205，交通智能体根据自己的策略和值函数进行决策，同时与其他智能体的可信对手模型进行对抗，每个智能体通过最大化其调度策略评估分数来优化自己的策略网络和值函数网络。

本发明与现有技术相比，其显著效果如下：

1、本发明设计了Trans-VFL(Variational Federated Learning)模型来进行移动边缘算力解构，并采用对比对抗学习方法，有利于对于不同交通数据进行安全保护以及抑制模型对于部分特征数据平台带有偏见的情况，能够最大限度地减少数据共享和隐私泄露的风险；由于每个数据源只需共享其特征数据，而不是全部数据，因此可以更好地保护敏感信息，最大程度地利用交通数据源的特征互补性，提高模型的性能和泛化能力，使得交通算网可以更好地适应交通系统的动态变化，并快速响应实时的交通需求和优化策略；

2、本发明设计的基于强化学习的多因子联合计算方法，自适应动态生成交通业务调度策略，实现最优路径调度至算力节点，提高交通算网资源效率；同时，通过智能感知和自适应调度策略，交通算网能够更好地适应不断变化的交通环境和业务需求，提供更可靠、高效的交通服务；

3、算网智能化指挥调度平台系统可以利用算力节点的位置信息、网络拓扑结构以及节点的处理能力等因素进行计算；同时，考虑到节点的实时负载情况和当前交通业务的需求特征，如处理时延、带宽要求等，系统将综合这些因素进行最优策略规划，以确定最优的路径调度策略；通过实现最优路径调度至算力节点，交通算网可以更加高效地利用资源，有助于提高交通算网的整体性能、加快业务处理速度，并优化资源利用率。

附图说明

图1为本发明的架构示意图；

图2为交通联邦学习Trans-VFL框架图；

图3为对抗性策略最优规划方法原理图；

图4为算网智能化指挥调度平台逻辑架构图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

本发明提供一种基于交通算网的边缘算力解构及智能调度方法，本发明设计的边缘计算架构和最优策略规划方法能够充分感知交通场景的模态特征，实现模块与模块间更快速的实时交互，自适应动态生成交通业务调度策略，提高交通算网资源利用率。

图1展示了本发明的总体框架图，通过交通算网底层数据感知，可以获取当前城市交通系统复杂节点的相关信息如节点的通行车辆数量、车辆通行时间、车型排队长度、区域流量、断面流量、分类型流量等融合数据。通过本发明设计的垂直联邦学习框架对于特定的交通任务，结合多个边缘节点算力平台进行统一训练，在保证数据安全性的基础上，充分融合各平台的异构数据，减少数据孤岛的产生。通过本发明设计的移动边缘算力解构方法，实现了交通算网的部署位置、实时状态、负载信息、业务需求的智能感知。在此之后，本发明结合以上特征设计了适合于交通场景的影响因子如数据流量因子、时间效率因子、可靠性因子和能源依赖性因子等，依据这些交通影响因子设计了基于强化学习的最优策略规划模型。通过比较不同的期望规划策略，可以实现自适应的动态生成交通业务调度策略，并将交通任务调度至最优的算力节点，从而提高交通算网资源的效率。下面将具体阐述本发明的实施步骤：

步骤1，对于交通算网底层感知中，分析和预测的交通节点的通行车辆数量、车辆通行时间、车型排队长度、区域流量、断面流量、分类型流量等融合数据，通过本发明提出的移动边缘算力解构方法进行处理分析。一方面，针对不同的交通算网任务和需求，将多样化、大粒度、复杂的算力任务分解成小粒度、简化的算力任务；另一方面，需根据实际业务需求，实现多要素能力的融合供给和最优匹配，在高效利用资源的同时，提供更为丰富的算网服务。针对交通算网平台，移动边缘算力解构方法将算网中获取的实时交通节点数据解析为当前算网可解构的智能架构，引入结构联邦学习，逐步构建除算力和网络之外的其他要素、能力和应用的融合解构能力，实现结合业务的融合编排，并引入意图驱动等前沿技术提升智能化能力。

步骤101，联邦学习作为边缘计算的操作系统，提供了一种各方协作与共享的协议规范，它能够让边缘设备在不向云端设备发送源数据的情况下，合作训练出一个最优的全局机器学习模型。在城市的不同信息部门中，如应急交通、智能指挥等，会产生大量的异构数据，形成多个数据孤岛，无法整合利用。联邦学习的异构数据处理能力能够帮助决策者创造迅速响应市民需求的智慧交通平台，解决数据孤岛问题。

联邦学习算法原理：

其中，F_k(w)表示在联邦学习中第k个参与方(例如，设备、客户端或节点)上的模型的损失函数，n_k代表参与方k的样本数量；数据集d_k代表第k个参与方的本地数据集，是一个包含训练数据的集合，该数据集由第k个参与方所私有，并用于训练本地模型。参数w包括了第k个参与方对于特定交通任务的本地模型权重，使本地模型能够学习从输入数据到输出标签的映射。f_i(w)是具有参数w的模型对数据集d_k中的实例产生的损失函数。

联邦学习的目标函数优化算法中，通常采用大批量随机梯度下降(SGD)算法，即通过本地客户端模型训练的损失函数，乘以固定的学习率η，计算出新一轮的权重更新。因此，本地客户端的模型权重更新如下：

w_t,k＝w_t-1,k-ηΔF_k(w) (2)

其中，w_t,k代表第k个参与方在迭代t时的本地模型权重。t表示迭代的轮次，k表示参与方编号。w_t-1,k代表第k个参与方在上一轮迭代t-1时的本地模型权重，即先前的模型权重。ΔF_k(w)代表第k个参与方本地模型的损失函数关于模型权重w的梯度，梯度方向表示在参数空间中应该朝着哪个方向更新参数以减小损失。

步骤102，具体地，设计了Trans-VFL(Variational Federated Learning)模型来进行移动边缘算力解构。Trans-VFL模型的框架图如图2所示，整体模型分为本地参与方和服务终端两大块进行学习训练。本地不同的参与方使用本地数据集训练本地初级特征提取模型，此处，本地平台使用的网络是对特征公平性不敏感的。所有参与方将原始数据生成局部特征表示送入服务终端进行全局交通任务迭代学习。服务终端模块主要分为聚合模型、公平敏感特征鉴别平台和特定交通任务模型M^t组成，对于不同参与方使用本地模型训练得到的局部特征，首先采用聚合模型生成统一特征表示，其次通过公平敏感特征鉴别平台抑制统一表示中的偏见信息。特定交通任务模型M^t则使用去除偏见后的统一特征表示进行训练。该框架采用对比对抗学习方法，这种方法有利于对于不同交通数据进行安全保护以及抑制模型对于部分特征数据平台带有偏见的情况。本发明设计的框架基于垂直联邦学习，垂直联邦学习是联邦学习的一种变体，旨在解决数据拥有者之间存在不同特征的情况。在传统的联邦学习中，参与方之间通常具有相同的特征空间，但在垂直联邦学习中，参与方拥有不同但互补的特征。垂直联邦学习通常用于处理涉及多个数据源、各自拥有不同特征的场景。移动边缘算力部署中存在很多的边缘节点，这些节点在本地处理交通算网的数据感知任务，车载相机、车载雷达、道路监控、实时流量监测等原始数据和交通节点的通行车辆数量、车辆通行时间、车型排队长度、区域流量、断面流量、分类型流量等融合数据都是不同结构类型的数据，这些数据源具有不同的特征，但它们可以通过垂直联邦学习进行合作，共同训练一个交通任务模型，从而获得更全面和准确的分析结果。垂直联邦学习的主要优点是能够最大限度地减少数据共享和隐私泄露的风险。由于每个数据源只需共享其特征数据，而不是全部数据，因此可以更好地保护敏感信息，最大程度地利用交通数据源的特征互补性，提高模型的性能和泛化能力。

步骤10201，具体实施如图3所示，在交通算网体系中，相同特定交通任务的不同特征子集被分散在多个数据源节点上。对于某些特定的交通感知任务，与之对应的交通任务训练模型会更倾向于采用它所偏好的特征集，因此会丢失一定的性能和泛化能力。从公平性的角度来看，将这些数据分为两组，即对公平不敏感的特征和对公平敏感的特征，前者可以被特定交通任务训练模型作为输入，而后者则预计与特定交通任务训练模型预测无关。在不失一般性的情况下，假设有m种与交通类型相关的公平敏感特征，将第i个具有类型的平台表示为/>此外，所有公平不敏感特征都集中在n个平台上，将第i个平台表示为/>i指联邦学习中第i个参与方(例如，设备、客户端或节点)。此外，本实施例假设有一个特定任务平台P^t在目标任务上保留样本的标签y，并假设有一个值得信任的服务器用于信息聚合。

步骤10202，对于公平敏感特征和公平不敏感特征进行统一编码，以去除某些特征集对特定交通任务的偏见(bias)。Trans-VFL中的ML模型被划分为三个部分，即多个局部模型聚合模型M^w和特定交通任务模型M^t，其中/>指平台/>维护的第i个局部模型，每个平台都有本地模型(即局部模型，其中，第i个参与方与第i个平台、第i个公平敏感特征、第i个本地模型、第i个局部特征表示是相对应的)。在Trans-VFL中，局部模型用于将局部公平不敏感特征编码为局部表示。本发明根据不同的特征输入种类采用合适的编码模型进行局部表示。例如，对于编码交通节点区域流量统计等数据时，通过transformers进行局部编码；对于车辆实时位置和交通节点车辆通行数量等数据，采用PLMs模型((Pretrained Language Models，预训练语言模型)进行局部表示。

(a)当任务平台P^t需要训练特定交通任务时，P^t首先将特定交通任务的ID分发给对公平性不敏感的节点在第i个平台/>中，局部编码模型/>也即(每个参与方的本地模型)对存储在/>中的特定交通任务公平性不敏感特征进行编码，并构建局部表示/>因此，获得了多个局部表示/>它们对目标任务的不同的公平性不敏感特征进行编码。这些局部表示随后被上传到服务器P^w用于任务处理。聚合模型M^w由服务器P^w维护。聚合模型用于将全部局部表示中的信息聚合为统一的表示。具体而言，相同交通感知任务的不同的特征数据通常具有固有的相关性，挖掘可以增强目标任务模型的性能和泛化性。因此，本实施例中首先应用多头自注意网络来捕捉局部表示之间的相关性，其中/>的上下文表示为/>然后，将注意力网络应用于上下文表示，以对其表示原始数据的相对重要性进行建模，并建立统一表示S。由于统一表示S可以在分散的公平不敏感特征域中对各种信息进行编码，进一步将统一表示S而不是原始数据上传到任务平台P^t，为目标任务提供信息。通过聚合模型，将来自不同交通系统的数据进行融合分析的同时也保证了相关交通系统的独立性和隐私性问题。

(b)从(a)中已经获取了当前任务在算网各个节点的局部表示。虽然公平敏感性特征不是特定交通任务模型M^t的输入，但是M^t仍然可以通过从数据层面挖掘局部特征统一表示S和公平敏感性特征的偏差。本实施应用对抗性学习来抑制统一表示S对公平敏感特征进行编码，通过修改统一表示S来保护用户隐私。具体实施如下：

对于每个公平敏感性特征首先将统一表示S映射到公平敏感特征编码器a_i中：

a_i＝a_i(S)，其中a_i是基于MLP的映射器，统一表示S是a_i的输入。a_i只保留了统一表示S在公平敏感特征上的信息，并消除其他用户的隐私。给定同一训练批次中的编码表示首先根据这些编码表示/>和a_i之间的相关性进行排序：

其中，和S^j分别是第j个特定交通任务中公平敏感特征编码统一表示和公平不敏感特征编码统一表示，r_j是相关性得分，E是批量大小。

高相关性的交通任务很可能共享相同的公平敏感特征根据相关性排名的前E_i个任务，随机选择一个统一编码表示/>该表示/>极有可能同公平敏感特征/>编码后的S相同。其中E_i是个超参数，/>在对比学习中作为负样本来训练对比鉴别器/>来对a_i的输入进行分类：

其中，用于训练对比鉴别器/>以对输入a_i进行分类，是一个负对数似然损失函数，它的目标是通过训练对比鉴别器/>来使聚合模型M^w输出的统一表示S的得分高于负样本/>的得分，从而对输入a_i进行分类，这有助于学习任务a_i的特征表示。/>表示MLP前馈网络，Ω表示训练集，x是Ω中的数据样本，exp()函数表示以自然常数e为底的指数函数；通过迭代最小化/>来训练对比鉴别器/>得到最优对比鉴别器/>

接着，将a_u上的对比对抗学习梯度进一步反向传播到编码映射器A_u:

其中，A_i(·)表示去除第i个参与方数据特征偏见的映射编码器。A_i(S)的目标是学习如何将输入数据S转换为一个去除公平敏感特征偏见的统一表示，以便在对比对抗学习中用于分类或其他任务。这个函数的设计和训练是为了保护不同交通平台的隐私信息(通过对比对抗梯度下降)和降低表示中的公平敏感特征信息，从而提高模型的隐私性和公平性。聚合模型生成的统一表示S和公平敏感特征编码负样本是不随对比对抗梯度下降而调节的，通过这种方式，对比对抗梯度强制编码映射器A_i保护a_i中的不同交通平台的隐私信息和降低编码中公平敏感特征信息。进一步将优化后的特征编码a_i上传至公平敏感特征平台/>上。/>使用误差鉴别器/>从a_i中预测公平敏感特征/>的标签/>并计算误差鉴别损失

通过迭代出最优误差鉴别器对于第i个公平敏感性特征/>可以计算编码映射器损失/>

由公式(4)-(9)，得出了对比对抗模型的损失函数的表达式：

其中，分别代表对比对抗模型的性能、公平性和隐私性训练目标；任务目标损失由平台所选择的特定交通任务类型决定，λ_i和γ_i是设定的超参数。

步骤10203，特定交通任务模型M^t由特定平台P^t维护。它利用统一表示S中的信息来对目标任务进行预测、检测、分类和异常识别等任务，表达式如下：

其中，是特定交通任务模型M^t的输出。

通过将Trans-VFL模型同交通异构数据相结合，可以实时获取交通算网所有边缘节点中与当前任务相关的局部公平性不敏感特征，进行复杂的交通业务处理分析，提高交通算网的融合解构能力和融合编排能力。

步骤2，基于步骤1中移动边缘算力解构方法，实现了对交通算网的部署位置、实时状态、负载信息、业务需求的智能感知。进一步地，将通过算网的多因子联合计算，自适应动态生成交通业务调度策略，即实现最优路径调度至算力节点，提高交通算网资源效率。

步骤201，多因子联合计算方案是一种综合考虑多个因素的方法，用于自适应动态生成交通业务调度策略，并实现最优路径调度至算力节点，以提高交通算网资源的效率。以下是本实施例中设计的一些因子的定义：

1)数据流量因子：考虑实时交通数据的流量情况，包括道路拥堵程度、车辆密度等。通过交通监测设备或移动应用程序收集实时数据，并将其作为一个重要因素纳入计算中。较高的数据流量可能表示交通拥堵，需要调整路径和优化调度策略。

2)时间效率因子：考虑交通业务的时间敏感性。不同的交通业务可能对时间有不同的要求，例如紧急救援车辆需要优先通行。通过将时间因素纳入计算，可以自动选择最优路径和调度策略，以尽可能快速地完成交通任务。

3)资源利用率因子：考虑算网资源的利用率和可用性。交通算网中的计算节点具有不同的计算能力和负载情况。通过监测算力节点的负载和可用性，可以将交通业务调度到最适合的计算节点上，以实现最优的资源利用率。

4)可靠性因子：考虑交通业务的可靠性要求。某些交通业务对可靠性有较高的要求，例如关键任务或紧急救援。通过考虑交通算网和算力节点的可靠性指标，可以调度交通业务到最可靠的节点上，以确保业务的可靠执行。

5)能源效率因子：考虑交通算网的能源消耗。通过考虑节点的能源消耗情况，可以将交通业务调度到能源效率较高的节点上，以减少能源消耗和环境影响。

步骤202，如图3所示，设计了基于强化学习的对抗性智能体优化策略方案来解决交通算网中的多因子最优规划问题。本发明设计改进的策略引入了可信对手模型来建模其他智能体的行为，使得每个智能体能够更准确地评估其他智能体的策略对自己的影响；采用对抗性优化的思想，智能体通过与其他智能体的对手模型对抗来学习策略。这样可以更好地解决多智能体环境中的对抗性问题，使得每个智能体能够更好地适应和应对其他智能体的行为；其次，引入协同学习的概念，智能体之间共享经验和策略，这使得每个智能体能够从其他智能体的经验中学习，并更好地理解全局的情况。对图3中涉及到的字母进行解释：

在局部行为网络Actor部分，其中代表智能体a在时间步t时刻观测到的局部信息或状态，由智能体a的局部观测函数决定。/>代表智能体a在上一时刻采取的动作。/>和/>代表单智能体在历史时刻的观测到的信息和状态。在/>中，/>是智能体a在时间步t时刻时采取的策略函数值；π(*)代表该智能体所采用的策略评估函数；ε通常是从随机分布中采样的值，它引入了随机性，使得策略函数值不会在相同的状态/>下选择完全相同的动作，即它使策略具有一定的探索性。

在中心评价网络Critic部分，代表这表示在时间步t′之前(通常在当前时间步t之前)，行为u′的补充动作，是在原始行为u的基础上修改得到的；S_t代表当前时间步t时智能体所观察到的环境状态；在/>中，Q表示动作值函数，它提供了在某个特定状态下，采取特定动作的预期回报值；/>表示在给定环境状态和其他智能体的行动情况下，智能体a采取动作"1"所获得的预期回报。中心评价网络输出智能体a的每一个行为的Q值，采用SoftMax归一化函数将动作数量级|U|ⁿ降到|U|。

在整体框架中，S^E指交通环境状态集；S_t代表当前时间步t时智能体所观察到的环境状态；R_t代表当前时间步t时智能体在状态s下采取行为u后获得的回报值；和/>代表在当前环境状态S_t下，每个智能体局部观测的状态值，不同的智能体观测到的状态信息是不同的；U代表所有动作样本空间：在相同时刻，每个智能体采取一个行为/>并组成联合动作空间u∈U；P指状态转移函数：根据当前状态s和联合动作空间u，计算当前某时刻状态P(s′|s,u)；s′表示下一时刻的状态，通常在马尔可夫决策过程(Markov Decision Process，MDP)或状态转移函数中使用，表示在给定当前状态s和联合动作空间u下，下一时刻可能的状态；s表示当前时刻的状态，在系统或环境的状态空间中，代表了智能体或决策代理在某一时刻观察到的环境状态，根据当前状态s，智能体可以选择一个动作/>来影响下一时刻的状态s′；R表示全局调度策略分数：R(s,u)；Z则表示单个智能体在每一时刻的局部观测集；O为局部观测函数，式为Z＝O(s,a)；/>和/>则代表在当前时间步t，每个智能体的局部调度策略分数。

具体实现步骤如下：

步骤20201，交通环境初始化

首先，将交通算网多因子联合计算问题建模为多智能体强化学习的环境。确定智能体的状态空间S^E、动作空间U和奖励函数R。定义智能体状态包括算网节点部署位置、实时状态、负载信息、业务需求、数据流量情况等；智能体的动作空间则表示交通业务的调度策略或最优算网路径的选择；奖励函数用于评估每次智能体进行最优路径规划后计算出的策略的好坏。

步骤20202，构建交通智能体

本实施例设计了多个智能体来模拟和优化交通系统的运行，各智能体如下：

车辆智能体：这种智能体代表道路上的车辆。它可以通过传感器收集实时交通信息，例如车速、位置和行驶方向。车辆智能体可以根据当前交通状况做出决策，如选择最佳路径、变道或调整速度，以优化交通流量和减少拥堵。

信号灯智能体：这种智能体代表交通信号灯。它可以监测周围车辆和行人的情况，并根据实时交通流量和需求调整信号灯的时序。信号灯智能体可以优化信号灯的配时方案，以最大程度地减少等待时间和交通拥堵，同时确保安全和顺畅的交通流动。

行人智能体：这种智能体代表道路上的行人。它可以根据个体目的地、交通信号和周围环境做出行进决策，如选择最佳路线、等待过马路的时机或避让其他行人和车辆。行人智能体可以与车辆智能体和信号灯智能体进行合作，以优化行人的出行效率和安全性。

调度智能体：这种智能体负责整个交通系统的调度和协调。它可以收集来自车辆、信号灯和行人智能体的信息，综合考虑交通流量、道路容量和出行需求等因素，制定最佳的交通规划和调度策略。调度智能体可以通过优化交通系统的整体效率和流动性，实现交通拥堵的最小化和资源的最优利用。

对于每个智能体都采用独立的RNN网络，即每个智能体都使用自己的策略网络和值函数网络。每个智能体根据自己的策略和值函数进行决策。每个智能体(agent)都有一个动作观察网络来记录历史动作τ^α，局部行为网络(actor)是基于历史信息所做出的决策π^α(u^α|τ^α),因为在先前更新决策网络参数时是包含了历史信息进行更新的，所以使用更新后的actor网络去做决策可以看作是记录了历史经验后的结果。

步骤20203，可信对手建模

在一般强化学习的基础上，引入可信对手模型，用于建模其他交通智能体的行为和策略。为了学习一个好的系统调度策略，每个智能体需要考虑其他智能体的行为对自身调度策略评分的影响。可信对手模型通过观察其他智能体的行为来估计其策略，为每个交通智能体提供一个对手模型，在训练过程中，交替更新当前决策智能体和对手智能体的策略。具体来说，当对手智能体固定其策略时，更新当前智能体的策略，使其能够最大化其奖励；反之，当本决策智能体固定其策略时，更新对手智能体的策略，使其能够最小化当前智能体的奖励。

步骤20204，计算预估调度策略

为了计算每个交通智能体的预计策略，本实施例采用价值分解网络。每个智能体的价值分解网络可以将当前算网节点状态和当前选择的路径优化策略映射到该智能体的期望策略。价值分解网络的输入是当前算网节点状态和所有智能体的实时策略，输出是每个智能体的期望策略。采用D^a来表示单个智能体采取行为后的独立回报，计算公式如下：

D^α＝R(s,u)-R(s,(u^-α,c_a)) (10)

其中，c_a表示默认行为动作；R(s,u)这是一个回报函数，它表示在状态s下采取行为u后获得的回报，s是当前的状态，u是智能体选择的行为；u^-a是行为u的补充行为，它表示与行为a不同的另一种行为。这个部分是在原始行为u的基础上修改得到的。

为确认哪种行为作为默认行为是最优的，本实施例采用平均效应值Q作为默认行为：

其中，u′_a表示补充行为(alternative action)，代表智能体在特定历史动作(τ^a)下可以选择的备选行为，通常用于与主要行为a进行比较。如此，可以将独立回报D^a等效近似为调度策略分数R(s,u)：

最后，将当前全局状态，当前智能体的观测行为，除自身智能体外其他智能体的联合动作空间，自身当前智能体的one-hot编码和所有智能体上一时刻的行为都送入中心评价网络Critic中，网络输出当前智能体所有可执行的Q值，将这些Q值进行SoftMax归一化操作，就得到需要的平均效应值Q(s,c_a)。

步骤20205，对抗性优化迭代方案

本实施例采用的多智能体最优路径规划方法中，设计了对抗性优化来学习策略。交通智能体根据自己的策略和值函数进行决策，同时与其他智能体的可信对手模型进行对抗。每个智能体通过最大化其调度策略评估分数来优化自己的策略网络和值函数网络。

通过步骤20201～步骤20205，本发明可以在多智能体环境中进行多因子联合计算的决策和优化。利用分布式学习的优势，允许参与方在本地进行模型训练和更新，参与方可以根据本地需求和特定情况进行自主决策，同时通过共享模型参数来实现模型的整体优化，这种模型协同能够有效利用分布式计算资源，提高模型的准确性和性能。通过这种综合考虑多个因素的方法可以实现自适应的动态生成交通业务调度策略，并将交通任务调度至最优的算力节点，从而提高交通算网资源的效率。

步骤203，图4展示了算网智能化指挥调度平台逻辑架构图，首先，汇聚城市交通数据各子系统识别出的交通和预警事件，如监测处理、隐患风险预警识别、事件规律挖掘等；然后，引入多因子联合计算，对汇聚的各类交通类型事件构建不同的指挥处理流程；同时，根据指挥处理调度下达的处置指令，结合最优路径调度算法，自适应对接上层各子系统应用，如融合监控，态势感知预测，统计报表，勤务管理、应急联动等。最后，基于算网数字孪生技术，实现交通算网的智能化指挥调度。通过本平台，道路交通可以充分利用现有硬件设备资源和软件数据，形成高效可用的结构化、智能化多源数据。通过对交通数据的仿真预测，提前预判交通拥堵，有效提升道路服务水平及通行能力。同时，利用仿真子系统生成的未来车流和路况等的预测数据，实现真正的预知未来，防患于未然。平台分为感知层、数据源层、支撑层、引擎层和应用层。每个层次，根据不同的功能又分为不同的应用模块，如图4所示。平台基于J2EE、WPF技术框架，采用SOA面向服务的软件架构，从底层架构设计上保障应用软件的科学性和先进性。确保平台具有良好的扩展性、广泛的适应性、强大的兼容性和可靠的稳定性，保证系统具备海量接入和大并发量访问的能力，确保平台能够满足构建整体信息化智慧化大集成的技术要求。

Claims

1.一种基于交通算网的边缘算力解构及智能调度方法，其特征在于，包括步骤如下：

2.根据权利要求1所述基于交通算网的边缘算力解构及智能调度方法，其特征在于，步骤S1中，通过移动边缘算力解构方法将交通算网中获取的实时交通节点数据解析为当前算网可解构的智能架构，并引入结构联邦学习和意图驱动，详细实现步骤如下：

w_t,k＝w_t-1,k-ηΔF_k(w)

3.根据权利要求2所述基于交通算网的边缘算力解构及智能调度方法，其特征在于，通过Trans-VFL模型来进行移动边缘算力解构的详细实现步骤如下：

S10203，特定交通任务模型M^t由特定平台P^t维护，利用统一表示P中的信息来对目标任务进行预测、检测、分类和异常识别。

4.根据权利要求3所述基于交通算网的边缘算力解构及智能调度方法，其特征在于，步骤S10202中，对于编码交通节点区域流量统计，通过transformers模型进行局部编码；对于车辆实时位置和交通节点车辆通行数量，采用PLMs模型进行局部表示；

当任务平台P^t需要训练特定交通任务时，P^t首先将特定交通任务的ID分发给对公平性不敏感的节点在第i个参与方平台/>中，局部编码模型/>也对存储在/>中的特定交通任务公平性不敏感特征进行编码，并构建局部表示/>因此，获得了多个局部表示/>对目标任务的不同的公平性不敏感特征进行编码，这些局部表示随后被上传到服务器P^w用于任务处理，通过聚合模型M^w将全部局部表示中的信息聚合为统一表示；

a_i＝a_i(S)

根据相关性排名的前E_i个任务，随机选择一个统一编码表示其中，E_i为超参数；/>在对比学习中作为负样本，训练对比鉴别器/>来对a_i的输入进行分类：

接着，将a_i上的对比对抗学习梯度进一步反向传播到编码映射器A_i：

进一步将优化后的特征编码a_i上传至公平敏感特征平台上，/>使用误差鉴别器/>从a_i中预测公平敏感特征/>的标签/>并计算误差鉴别损失/>

则得出对比对抗模型的损失函数的表达式：

5.根据权利要求1所述基于交通算网的边缘算力解构及智能调度方法，其特征在于，步骤S2中，实现最优路径调度至算力节点的详细步骤如下：

S201，设计各因子

资源利用率因子：考虑交通算网资源的利用率和可用性；

可靠性因子：考虑交通业务的可靠性要求；

能源效率因子：考虑交通算网的能源消耗；

S202，引入可信对手模型来建模其他智能体的行为，使得每个智能体能够更准确地评估其他智能体的策略对自己的影响；采用对抗性优化，智能体通过与其他智能体的对手模型对抗来学习策略；同时，引入协同学习，使得每个智能体能够从其他智能体的经验中学习，并更好地理解全局的情况；

6.根据权利要求5所述基于交通算网的边缘算力解构及智能调度方法，其特征在于，步骤S202中，基于强化学习的对抗性智能体优化策略来解决交通算网中的多因子最优规划问题的具体步骤：

S20201，将交通算网多因子联合计算问题建模为多智能体强化学习的环境，确定智能体的状态空间S^E、动作空间U和奖励函数R；智能体的状态包括算网节点部署位置、实时状态、负载信息、业务需求、数据流量情况；智能体的动作空间则表示交通业务的调度策略或最优算网路径的选择；奖励函数用于评估每次智能体进行最优路径规划后计算出的策略的好坏；

对于每个智能体都采用独立的RNN网络，每个智能体都使用自己的策略网络和值函数网络，每个智能体都有一个动作观察网络来记录历史动作τ^α，局部行为网络是基于历史信息所做出的决策π^α(u^α|τ^a)；

D^a＝R(s,u)-R(s,(u^-a,c_a))

如此，将独立回报D^a等效近似为调度策略分数R(s,u)：