CN116542319A

CN116542319A - 边缘计算环境中基于数字孪生的自适应联邦学习方法及系统

Info

Publication number: CN116542319A
Application number: CN202310456258.1A
Authority: CN
Inventors: 郭松涛; 乔德文; 刘贵燕; 焦贤龙; 陈超; 刘凯
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-08-04

Abstract

本发明属于边缘计算及联合学习技术领域，具体公开了一种边缘计算环境中基于数字孪生的自适应联邦学习方法及系统，包括：从获取各设备当前时刻的状态信息以及当前在设备本地训练中所到的模型参数根据上一时刻所选取的部分工业物联网设备所上传的模型参数聚合得到全局模型参数x_t；利用一训练好的深度强化学习代理模型根据所有设备当前的状态信息，优化配置下一时刻各设备，并根据带宽比hⁿ的配置结果，优选用于下一时刻全局模型参数聚合的设备。解决了数字孪生体下的联邦学习存在的Non‑IID和资源分配问题，同时支持系统的实时在线优化，提高了系统在信道状态不友好情况下的鲁棒性。

Description

边缘计算环境中基于数字孪生的自适应联邦学习方法及系统

技术领域

本发明属于边缘计算及联合学习技术领域，具体公开了一种边缘计算环境中基于数字孪生的自适应联邦学习方法及系统。

背景技术

传统的云计算已经无法满足工业物联网(Industrial Internet ofThings,IIoT)应用对延迟的严格要求，而边缘计算(Edge computing,EC)作为一种有前途的技术，可以将传统的云服务扩展到更靠近终端设备的边缘网络，适用于对延迟要求较低的网络业务。同时，在基于机器学习(Machine Learning,ML)的IIoT中，边缘智能服务的实现依赖于对大规模设备的实时状态处理和监控。但由于IIoT中通信时延随机，操作设备急剧增加，边缘服务器很难通过对物联网设备的信道状态信息等运行环境的剖析来进行在线优化。

数字孪生体(Digital Twin,DT)作为一种新兴技术，可以为IIoT提供实时的物理状态与虚拟空间之间的桥梁。通常情况下，由于服务器拥有足够的资源，可以实时维护工业物联网设备不断变化的数字对象。具体来说，通过软件定义和传感器感知在虚拟空间中创建一个数字对象，它是物理实体的状态、特征和演化的及时数字表示。由于DT具有良好的状态感知和实时分析能力，大大提高了控制决策效率。同时，DT是一种数据驱动的方法，依赖于分布式物联网设备的海量数据分析。然而，出于商业竞争和隐私保护的考虑，各制造商不愿在虚拟空间中交换各自物联网设备的私有数据。因此，数据“孤岛”的存在给利用DT构建物理系统的数字对象带来了一定的挑战。

联邦学习(Federated Learning,FL)作为一种新的ML技术，通过交换模型参数而不上传数据到中央服务器的方式，实现了“数据可用但不可见”和“数据不移动但模型移动”的新应用范式。在DT的物联网系统中，联邦学习中根据工业物联网系统的可变状态信息进行灵活决策实现智能模型的构建。因此，在基于DT的IIoT中引入FL不仅可以提高控制效率，还可以提高制造商参与全局模型训练的意愿，从而在DT中得到更精确的数字对象。

然而，在EC环境中，跨设备的非独立同分布(Non-independent and identicallydistributed,Non-IID)数据以及有限的边缘资源，使得通过FL集成DT技术维护数字空间中的虚拟对象非常困难。同时，在边缘环境中，DTs可以相互作用，形成DT边缘网络(DT EdgeNetwork，DTEN)，DTEN与IIoT设备实时工作，反馈信息一致。因此，可以通过优化DTEN中的DTs来实现物理实体的动态优化。

发明内容

为解决前述技术问题，本发明中提出一种边缘计算环境中基于数字孪生的自适应联邦学习方法。

该方法包括：

从工业物联网设备或其数字孪生体处获取各设备当前时刻的状态信息以及当前在设备本地训练中所到的模型参数所述状态信息包括该设备的实际CPU频率γⁿ、传输功率pⁿ、该设备与基站间的传输速率vⁿ；

根据上一时刻所选取的部分工业物联网设备所上传的模型参数聚合得到全局模型参数x_t；

利用一训练好的深度强化学习(DRL)代理模型根据所有设备当前的状态信息，优化配置下一时刻各设备的CPU频率γⁿ、传输功率pⁿ和带宽比hⁿ；

所述深度强化学习代理模型的优化目标为，在相应限制条件下，同时最小化模型训练全局损失函数和资源消耗总量；

同时，根据带宽比hⁿ的配置结果，优选用于下一时刻全局模型参数聚合的设备，优选条件为，当前时刻的配置结果中，设备被分配的带宽比

重复上述过程，进行多次资源配置和模型参数聚合，直至达到结束联邦学习的条件。

进一步的，所述学习代理模型为基于深度确定性策略梯度方法(DDPG)构建及训练的模型。

进一步的，所述学习代理模型包括动作网络和评论家网络Q_θ，参数分别为和θ。

进一步的，在所述学习代理模型的训练中，利用各设备的数字孪生体实施在线训练。

进一步的，所述学习代理模型的目标函数P1及其限制条件可表示为：

其中:

N为IIoT设备的数量，ξ_j是属于/>的样本，/>为第n个IIoT设备的本地数据集，f_n(xⁿ；ξ_j)表示第n个IIoT设备中，样本ξ_j上的损失函数，xⁿ表示第n个IIoT设备上的本地模型参数；

是给定的资源。

进一步的，Z＝2表示考虑时间、能量两种资源消耗，给定的资源以t时段的总能量和总时间消耗表示如下：

其中，对于IIoT设备U_n，e_n表示执行一个样本数据所需CPU周期数，由U_n的CPU性能决定，U_n在一次迭代中的计算能耗为：

其中，κ₁为U_n的计算能耗系数，且U_n的计算时间为：

每个全局聚合中的物联网设备U_n的传输能耗为

上行传输时间为

进一步的，在所述学习代理模型的训练中，用于动作网络参数更新的奖励函数为：

φ(t)＝(α_t+β_t)/2-1

其中，Φ为一个常数，有r_t∈(-1,0]，α_t表示模型精度，β_t表示总资源消耗比。

进一步的，采用梯度下降法更新评论家网络的参数。

进一步的，用于更新评论家网络参数的梯度函数最小化问题可表示如下：

其中，S表示深度确定性策略梯度方法中的随机抽样数量，为抽样样本集合，sj、aj、rj表示该集合第j个随机抽样中动作网络的状态空间、动作空间及奖励函数，γ表示奖励折扣因子。

本发明还公开了一种基于数字孪生体的自适应联邦学习系统，应用于边缘计算环境中，包括了工业物联网设备和服务器，所述服务器内部署有各工业物联网设备的数字孪生体以及训练好的深度强化学习代理模型；

该系统依照前述方法在工业物联网设备和服务器间执行自适应联邦学习。

本发明中提出了一种基于DT的自适应资源高效FL算法(即AFDT)，用于IIoT无线FL网络(WFLNs)中，既减轻了Non-IID数据带来的负面影响，又降低了资源消耗成本。本发明根据WFLN中固定Non-IID情况下无线参数(如带宽比、传输功率)对FL训练性能的影响，并基于异构IIoT器件的FL自适应资源分配优势，将基于DT的FL资源约束(DTFL-RC)问题转化为带宽比和传输功率高度耦合变量下的FL模型损失和资源消耗联合最小化问题。针对DTFL-RC问题，在AFDT中采用基于深度强化学习(Deep Reinforcement Learning,DRL)的方法自适应调整CPU频率、传输功率和带宽比。解决了DT下的FL存在的Non-IID和资源分配问题，同时支持系统的实时在线优化，提高了系统在信道状态不友好情况下的鲁棒性，AFDT算法通过自适应调整IIoT设备的CPU频率、传输功率和带宽比，减轻Non-IID数据带来的负面影响，提高有限资源的利用率。通过大量的仿真结果验证，AFDT算法与基于DT的工业物联网中的三种基准算法相比，在最糟糕的Non-IID情况下，AFDT可以明显节省通信轮成本，分别高达74.23％、69.51％和60.94％。

附图说明

图1为本发明实施例中的异构IIoT系统模型示意图。

图2为WFLN网络中的联邦学习的过程示意图。

图3为本发明实施例中的AFDT算法的总体框架图。

图4为本发明实施例中的环形网络区域的示意图。

图5为本发明实施例中以不同数据集训练DRL的情况下奖励和损失函数随迭代次数变化的曲线图。

图6为本发明实施例中不同模型间在不同Non-IID数据设置上的模型精度对比图。

图7为本发明实施例中不同模型间的通信成本对比图。

图8为本发明实施例中不同的Non-IID数据设置下AFDT算法的资源消耗和DT偏差随通信轮数变化的示意图。

具体实施方式

为了便于理解，表1给出了本实施例中涉及的重要符号及其释义：

表1：主要符号列表

如图1所示，本实施例中示例性的基于DT的异构IIoT系统模型有三个组成部分：IIoT设备、边缘服务器和IIoT设备对应的数字孪生体(DTs)。IIoT设备(如挖掘机、车辆、工业机器人等)用表示，每个IIoT设备上拥有的本地数据集用/>表示，大小为D_n。这些物联网设备通过无线网络与边缘服务器的基站(Base Stations,BSs)互联，这些BSs用/>表示。DT可以将IIoT设备的物理状态映射到虚拟空间，以实现与IIoT设备的实时交互。IIoT设备U_n的DT模型DT_n是由其附近的/>建立的，具体来说，B_m通过收集和处理其现有的关键物理状态，以数字形式动态显示其当前和历史行为，在时隙t时，DT_n可以表示为

其中γ_t ⁿ、/> 分别为IIoT设备U_n的训练状态、计算能力(即CPU频率)、计算能力偏差和能耗。

在IoT中，本实施例中考虑一个保证工业生产安全的FL系统。在FL框架下，这些IIoT设备(如挖掘机、车辆和工业机器人)可以在BSs的协作下，做出令人满意的智能控制和预测性维护决策。在基于FL的IIoT中，当一项工业任务需要完成时，这些IIoT设备协同训练一个全局模型，而不需要将其本地数据集上传到BS。例如，如图1所示，当异构工业设备需要完成质量检测任务时，每个设备根据自己采集的数据集进行局部检测模型训练，每个设备将其局部模型参数而不是本地数据集上传到BS，BS对本地模型进行全局聚合，进而更新全局检测模型参数，并将更新后的全局参数广播到每个设备进行下一次的本地训练。每个工业设备重复这些过程，直到全局模型收敛。因此，在基于FL的IIoT中，所有/>上的全局损失函数定义为：

其中ξ_j是属于的样本，本实施例中的目标是最小化全局损失函数：

本实施例中建立的，基于联邦学习的数字孪生体驱动工业物联网的资源消耗模型如下：

(1)无线传输：对于本地模型上传，所有IIoT设备通过DTEN中的通信网络与BSs进行通信的总带宽为H。以的正交频分多址(Orthogonal Frequency-Division MultipleAccess,OFDMA)通信为例，设为带宽比，因此，U_n在B_m处的上行数据速率为：

其中，o_n为U_n与B_m之间的信道增益，pⁿ为U_n的传输功率，N₀为高斯噪声的功率谱密度。

(2)本地计算资源消耗：对于IIoT设备U_n，e_n表示执行一个样本数据所需CPU周期数，由U_n的CPU性能决定。U_n的CPU频率记为γⁿ。因此，U_n在一次迭代中的计算能耗为：

其中，κ₁为U_n的计算能耗系数，且U_n的计算时间为：

(3)传输资源消耗：对于上行链路，每个全局聚合中的物联网设备U_n的传输能耗为

其中，|xⁿ|为U_n的局部模型参数的大小，上行传输时间为

由于BS具有足够的资源，且其能耗对系统的影响不大，因此本实施例只考虑IIoT设备的资源消耗。另外，BS的下行带宽远大于IIoT设备的上行带宽，因此，我们忽略DTEN中BS的下行广播时间。同时请注意，DTEN也可以扩展到一个宏基站(Macro BS，MBS)含多个小基站(Small BSs，SBSs)的场景，并且从SBSs到MBS的数据传输速率表达式类似于IIoT设备到SBSs(即公式(4))。为方便分析，本实施例的系统中仅考虑单个BS的场景，因此将在以下讨论中使用vⁿ来表示v^n,m。

由于无线传输具有一定的不稳定性，每个数据上行链路都可能出现错误。在上行阶段，本实施中将传输到服务器的本地模型参数作为单个数据包，并使用循环冗余校验(cyclic redundancy check,CRC)机制检查传输错误。具体而言，局部模型参数xⁿ对BS的无线传输过程中产生的数据包错误可以被描述如下:

其中m为瀑布阈值。

在DTEN中，如果任意的本地FL模型包含错误，BS不会使用它来更新全局模型。因此，我们可以将全局FL模型xⁿ写成:

其中并且有/>

本实施例中对目标函数做了一些假设：

假设1.对于目标函数F(x)，F_n(x)，是L-光滑的，且L＞0。即对于任意的我们有/> 其中||·||是L₂-范数。

假设2.对于目标函数F(x)，F_n(x)，是l-强凸的，且l＞0。即对于任意的我们有/>

假设3.对于在任意的IIoT设备/>对于给定的小批量ξⁿ，这个随机梯度的期望/>梯度的平均值/>并且有/>同时，随机梯度方差的上界是：/>χ表示的是Non-IID程度。当数据分布是IID时，我们有χ＝0，/>否则，当数据是Non-IID时，我们有χ＞0。

定理1.让假设1到假设3成立并且有γ＝max{8ν,τ}，以及学习率/>这个收敛率上界如下：

其中具体的证明过程见附录A部分。

Remark 1.定理1说明了FL的扩展形式可以达到的收敛率，这与使用衰减学习率/>的标准梯度下降算法(SGD)是一样的。这意味着在WFLN中我们可以通过选择合适的带宽和传输功率来缓解Non-IID的影响进而实现最小化全局损失。

在基于FL的IIoT中，工业设备通常是异构的且资源受限的。如图2中的示例所示，具有强大计算能力和丰富通信资源的IIoT设备，与计算能力较弱、通信资源较差的IIoT设备相比将会更快的将本地模型参数传输到BS。同时，考虑到那些性能较差的设备拥有的本地数据对全局模型训练具有良好的促进作用。因此，在每次全局聚合中，只聚合那些快速的设备是一个不明智的决定。而且，全局聚合要等到所有设备参与者(即U₁传输完成时的时点t’)完成后才会进行，这可能会降低全局模型的训练效率。在引入设备的功率和通信资源优化后，它们可以大致在时隙t同时参与全局模型聚合。因此，对于基于FL的IIoT环境下的异构工业设备，需要一种自适应的资源分配策略。这可以通过合理配置CPU频率γⁿ、传输功率pⁿ和带宽比hⁿ来实现。

在DTEN中，每个IIoT设备需要更新FL的局部模型参数和其在时隙t的设备状态它们分别用于更新全局模型和同步/>给定一个IIoT场景下的FL任务，本实施例中将FL时间段划分为T≥1个通信时隙。对于/>存在τ≥1个本地训练。在每个t处，每个IIoT设备U_n的/>和/>的值应进行优化，以使全局损失函数最小，同时实现资源约束下的资源优化分配。值得注意的是，/>和/>的值只有在全局聚合阶段时发生变化，在本地训练阶段保持不变。本实施例中设当且仅当分配的带宽大于阈值h_min，即/>IIoT设备U_n才会被选中在第t+1轮进行本地模型的训练。据此，我们可以将DTFL-RC问题可表述为:

其中是给定的资源(如时间、能量和内存资源)，在发明中，考虑Z种不同类型的资源。以考虑时间、能量两种资源消耗，即Z＝2为例，本实施例中给出t时段的总能量和总时间消耗如下：

公式(12a)表示资源消耗不能超过给定的资源限制否则，FL的迭代过程将终止，公式(12b)为CPU频率γⁿ的约束条件，即CPU频率γⁿ要介于最小CPU频率γ_min和最大CPU频率γ_max之间。公式(12c)表示传输功率pⁿ的约束条件，即传输功率pⁿ要大于最小传输功率p_min和小于最大传输功率p_max。公式(12d)表示所有分配的带宽比之和为1。

在每个时隙t处，由于CPU频率γⁿ、传输功率pⁿ和带宽比hⁿ的决定是一个随机过程，使得传统的凸优化算法难以求解P1。另外，由Remark 1和前述内容可知，传输功率pⁿ和带宽比hⁿ共同决定了全局损耗和资源假设。因此在P1中带宽比和传输功率是高度耦合的。复杂的耦合特征使P1的求解困难。利用DRL在处理随机优化问题时的无模型学习优势，本实施例中即使用DRL求解P1。

为了解决P1问题，本实施例中提出了工业物联网的AFDT算法，具体框架如图3所示。在该框架中，DTs状态(如传输数据速率、CPU频率和模型参数)被传输到学习代理，该学习代理由一种名为深度确定性策略梯度(DDPG)的DRL方法构建。然后，基于DDPG推导出最优决策，使全局模型损失最小化，提高资源利用率。

首先，本实施例中基于DT的马尔可夫决策过程可被描述如下：

1)状态空间：为了求解P1，本实施例使用DRL来探索动作空间，并将问题P1表示为马尔可夫决策过程(MDP)，状态空间s_t由DTs构造。在时隙t处，我们可以将状态空间s_t定义为：

其中，x_t表示时隙t处的全局模型参数，另外，考虑IIOT设备的真实CPU速率与下发的CPU速率/>间存在偏差，状态空间中利用一随机噪声/>来逼近这一现象，有/>噪声/>的波动范围大小可人为设定。

2)动作空间：动作空间定义为a_t＝{γ_t,p_t,h_t}，包含P1的优化变量。其中，

3)奖励：即时奖励由每次全局聚合后的模型精度和总资源消耗比两部分组成。本实施例定义了模型精度和总资源消耗比分别为α_t＝Acc_t/Acc_target和其中Acc_target是模型目标精度。在时隙t，奖励函数的定义如下：

其中，Φ为一个常数，有r_t∈(-1,0]，因为φ(t)∈(-1,0]。如果α_t→1或β_t→1，FL的训练将会停止，因此，累积奖励可以写成如下形式：

其中，γ是未来奖励的折扣因子。

现在，对公式(16)中对Φ^φ(t)项进行说明，从公式(16)中可以得知r_t的取值取决于Acc_t和Φ^φ(t)可以激励DRL智能体以更高的模型精度和更低的资源消耗进行决策。在P1中，我们的目标是最大化模型精度和最小化资源消耗，因此，在公式(15)中，对Acc_t和/>给予相同的权重。

为求解P1问题，本实施例中首先给出了如算法1和算法2所示的AFDT的详细过程。接下来，如图1所示，这些DTs设备而不是物理对象与DRL代理交互，从而在P1中实现最优决策。基于DT的FL不仅可以达到与真实环境相同的训练效果，而且具有较低的资源消耗。初始阶段初始化全局模型参数x₀,CPU频率γ₀，传输功率p₀，带宽比h₀，设备设为Acc₀＝0，确保所有设备都参与第一次全局聚合(算法1第23-31行)。

时间段相关参数组成的DRL智能体备份到服务器，且对应的DTs副本将被更新(算法1第30行)。然后，DRL智能体执行动作网络/>获得动作空间(见算法1第11-19行)。设备是否参与下一个全局聚合是基于h_n和h_min的值比较来决定的(算法1第37-42行)。接下来，所选的IIoT设备将根据其本地数据/>训练本地模型，并使用这些选定的设备获得下一次的全局模型(算法1第2-8行和第31行)。最后是计算资源消耗和全局模型精度的计算，如果α_t→1或β_t→1，FL的训练将会停止(算法1第32-34行)。

/>

在本实施例中，CPU频率、传输功率和带宽比的决定是具有连续变量的MDP，DQN和DDQN无法求解。DDPG作为最先进的动作—评论家方法之一，在继承DDQN优点的同时，可以解决连续MDP问题。因此，在DRL代理中采用DDPG实现在线学习，解决连续MDP问题。DRL代理包含两个网络实体(即动作网络和评论家网络Q_θ)，参数为/>和θ。

算法2详细介绍了DRL代理智能体的训练过程。

/>

在训练过程开始时，随机初始化Q_θ的相关参数，同时初始化其他参数(算法2中的第1-3行)。在完成上述初始化后，将相关参数广播到各个DTs进行局部训练(算法2中的第5行)。接下来，将当前状态s_t反馈给动作网络/>从而得到在的动作a_t。然后，设备根据动作训练局部模型。之后，获得瞬时奖励r_t，状态由s_t转换为s_t+1(算法2中的第8-13行)。注意，只有在过渡缓冲区P满时，参数/>和θ才会更新(算法2中的第15-22行)。考虑到状态空间巨大，不利于DRL的训练，因此我们采用PCA技术来降低s_t的维数和资源消耗。

我们只分析算法2中核心部分的计算复杂度。对于算法2中的第9-11行，每一集有个设备执行T次全局聚合，/>的最大值为N，因此其计算复杂度为/>对于算法2的15-23行，在每个集上有T次的全局聚集，在每个/>中，最多可能有I次的训练，因此，其计算复杂度为/>由以上分析可知，对于Y集，算法2的计算复杂度为/>对于算法1，τ步骤在两个全局聚合之间执行。因此，对于每个设备，局部更新过程的计算复杂度为

为了评估AFDT算法的性能，本实施例中考虑如图4所示一个半径为500m的环形网络区域。100个IIoT设备均匀分布在该区域内，与中心基站进行连接。将AFDT与三个具有代表性的基准测试算法进行比较，以验证其在不同的Non-IID数据设置和不同的资源容量下的性能。

控制参数和实验环境：与无线传输相关的实验参数列于表2。此处设置系数m＝0.01，学习率η＝η′＝0.01，transaction 的容量为P＝10，Φ＝100，并设置未来奖励折扣系数γ＝0.9。我们考虑Z＝2两种资源类型(即能源资源和时间资源)，它们都将在每次本地更新和全局聚合时被消耗。这些实验是通过在一个主机上打开多个进程来进行的，其中一个进程代表单个客户端。后端算法是用Python3.8开发的，并在一个处理器(IntelrCoreTMi7-11700@2.50GHz)上进行了测试。

表2：无线传输的参数值

数据集：实验中使用了三个真实世界的数据集，即MNIST、FasdionMNIST和CIFAR-10。MNIST和FasdionMNIST都包含60000028*28张训练图像和10类10000张测试图像；CIFAR-10包含6000032*32张彩色图像，其中50000张训练图像和10000张测试图像。此外，CNN训练MNIST和FshionMNIST的学习率均为0.001，而CNN训练CIFAR-10的学习率设置为0.01，每个数据集的局部时代数和批大小分别为5和10。

基准：本例中将AFDT与三个参考基准进行比较，其描述如下：

·FDTA：与AFDT算法的参数相同，只是采用了固定的带宽比、CPU频率和传输功率，BS将随机选择δ×U个设备参与δ＝0.5的FL。

·FDTB：与AFDT算法相比，该方法只采用了自适应带宽比，而使用了固定的CPU频率和传输功率。

·DTFavor：Favor是一种基于DDQN的设备选择算法，当设备总数为100个时，所选择的设备数量为10个，将基于DT的无线环境添加到Favor中构成DTFavor，它具有固定的带宽比、CPU频率和传输功率。

DRL智能体训练：首先通过检查训练的损失和奖励来证明DRL智能体的训练的表现。DRL中的演员网络和评论家网络Q_θ模型由具有100个隐藏状态的两层MLP网络组成。图5(a)～(c)中给出了在不同数据集上的DRL训练过程。从图中可以看到，在大约20次迭代后，奖励和损失都趋于收敛，这证明了DRL智能体的有效性。基于这一观察结果，可以看出，所提出的DRL智能体收敛速度快，可以作为一种有效的机制。

不同Non-IID数据设置的效率：本例中比较了AFDT与上述三个基准在不同Non-IID数据设置上的模型精度。在获得相应的模型精度时，Non-IID数据设置从0.2到1不等。具体来说，我们使用μ来表示四种不同的Non-IID数据设置：以μ＝0.2为例，μ＝0.2表示每个设备上20％的数据属于同一种标签，其余80％的数据属于其它的标签。类似地，也可以定义μ＝0.5、μ＝0.8和μ＝1。

如图6所示，所有方案的精度都随着通信回合的增加而增加。对于所有的三个数据集，从图中可以观察到，达到收敛所需的精度和通信轮分别随着μ值的增加而减小和增加，这一现象表明，Non-IID数据水平越高，整体模型越差，这与实际情况也是相对应的。值得注意的是，随着μ值得增加，在大多数情况下，AFDT和FDTB的性能超过了FDTA和DTFavor，尤其在CIFAR-10数据集上表现得最为明显。这是因为相比FDTA和DTFavor选择固定的CPU频率，传输功率和通信带宽，AFDT和FDTB选择的是更加灵活的CPU频率，传输功率和通信带宽比。此外，AFDT在所有Non-IID数据设置中也优于FDTB，因为FDTB只调整所有设备的带宽比，而AFDT则调整所有设备的所有CPU频率、传输功率和带宽比。

不同Non-IID数据设置在给定模型精度下的性能分析：本例中比较了不同μ下给定模型精度下AFDT与DTFA、DTFB和DTFavor的通信成本。为了使实验结果更有说服力，本实施例中进行了5次仿真，得到平均通信轮数，结果如图7所示。可以看出，在模型精度相同的情况下，AFDT的通信轮成本始终小于DTFA、DTFB和DTFavor。具体而言，当Non-IID设置μ＝1时，与DTFA、DTFB和DTFavor相比，AFDT在三个数据集上的通信循环成本分别节省了74.23％、69.51％和60.94％。同时，从图中可以注意到，在大多数情况下，随着μ值的增大，AFDT可以节省更高比例的通信成本，因为μ越大，模型收敛的概率越小。以上结果验证了AFDT算法在降低通信循环成本方面比DTFA、DTFB和DTFavor算法的优势。

相同资源消耗下的AFDT性能分析及DT偏差比较：该部分给出了在给定的通信轮数下，不同的μ下AFDT的资源消耗和DT偏差分析。此处仅展示MNIST数据集的结果。同样，通过5次仿真得到平均资源成本，结果如图8所示。模拟结果表明，FashionMNIST和CIFAR-10数据集的DRL智能体训练过程与MNIST完全相同，结果也显示出相似的趋势。

可以看出，在不同的μ下，在给定的通信轮下，AFDT的时间和能量成本始终小于DTFA、DTFB和DTFavor。注意，在所有方案中，DTFA的时间和能量成本总是最高的，因为在大多数情况下，参与每一轮通信的设备数量是最大的。在MNIST数据集上，还有一个有趣的现象是DTFavor的时间成本很小，而能量成本巨大。这一现象可以从每一轮通信中有少量拥有固定CPU频率、发射功率和带宽比的设备参与每一轮的通信来解释。因为在训练过程中，时间成本更多的取决于设备的数量，而能量成本更多的取决于CPU频率、发射功率和带宽比的值。此外，DTFB的时间和能量成本与AFDT几乎相同，因为带宽比不仅决定了参加每一轮通信的设备数量，而且还影响了训练过程中的能量成本。另外，如图8(c)所示，DT偏差对AFDT在所有的μ情况下的性能都有影响，其中当μ＝1时，DT偏差对AFDT性能的影响最大，并且随着μ值的增大，这种影响逐渐提前。

本实施例中的方法及系统，基于DT的工业物联网中跨异构设备的Non-IID数据的资源高效自适应联邦学习，通过选择合理的无线参数使WFLN的全局损耗最小，可以减轻Non-IID的影响，进而可以通过合理配置无线参数以实现资源的优化。在此基础上，本实施例中将DTFL-RC问题转化为FL模型损失和资源消耗的联合最小化问题，并提出了AFDT算法来求解该问题。仿真结果验证了AFDT在基于DT的工业物联网中优于多个基准测试。

Claims

1.一种边缘计算环境中基于数字孪生的自适应联邦学习方法，其特征在于，包括：

从工业物联网设备或其数字孪生体处获取各设备当前时刻的状态信息以及当前在设备本地训练中所得到的模型参数所述状态信息包括该设备的实际CPU频率γⁿ、传输功率pⁿ、该设备与基站间的传输速率vⁿ；

同时，根据带宽比hⁿ的配置结果，优选用于下一时刻全局模型参数聚合的设备，优选条件为，当前时刻的配置结果中，设备被分配的带宽比h_min表示分配的带宽最小阈值；

2.根据权利要求1所述的方法，其特征在于，在所述学习代理模型的训练中，利用各设备的数字孪生体实施在线训练。

3.根据权利要求1所述的方法，其特征在于，所述学习代理模型的目标函数P1及其限制条件可表示为：

P1:

其中:

是给定的资源。

4.根据权利要求3所述的方法，其特征在于，Z＝2表示考虑时间、能量两种资源消耗，给定的资源以t时段的总能量和总时间消耗表示如下：

其中，κ₁为U_n的计算能耗系数，且U_n的计算时间为：

每个全局聚合中的物联网设备U_n的传输能耗为：

上行传输时间为：

5.根据权利要求1所述的方法，其特征在于，所述学习代理模型为基于深度确定性策略梯度方法(DDPG)构建及训练的模型。

6.根据权利要求5所述的方法，其特征在于，所述学习代理模型包括动作网络和评论家网络Q_θ，参数分别为/>和θ。

7.根据权利要求6所述的方法，其特征在于，在所述学习代理模型的训练中，用于动作网络参数更新的奖励函数为：

φ(t)＝(α_t+β_t)/2-1

8.根据权利要求6所述的方法，其特征在于，采用梯度下降法更新评论家网络的参数。

9.根据权利要求8所述的方法，其特征在于，用于更新评论家网络参数的梯度函数最小化问题可表示如下：

其中，S表示深度确定性策略梯度方法中的随机抽样数量，S为抽样样本集合，s_j、a_j、r_j表示该集合第j个随机抽样中动作网络的状态空间、动作空间及奖励函数，γ表示奖励折扣因子。

10.一种基于数字孪生体的自适应联邦学习系统，应用于边缘计算环境中，包括了工业物联网设备和服务器，其特征在于，所述服务器内部署有各工业物联网设备的数字孪生体以及训练好的深度强化学习代理模型；

该系统依照如权利要求1-9中任一所述的方法在工业物联网设备和服务器间执行自适应联邦学习。