CN116341679A

CN116341679A - 一种高时效的联邦边缘学习调度策略设计方法

Info

Publication number: CN116341679A
Application number: CN202310284944.5A
Authority: CN
Inventors: 秦晓琦; 李艺璇; 韩凯峰; 许晓东; 张平
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-27

Abstract

本发明公开了一种高时效的联邦边缘学习调度策略设计方法，首先从理论上推导了优化变量与收敛性能之间的关系，在收敛分析的基础上，提出了在每个设备平均能量和梯度年龄约束下的最小化收敛误差与时间加权和的优化问题。其次采用李雅普诺夫优化方法将长期随机优化问题转化为了在线优化问题，以便在每一轮训练中在线求解。然后提出了一种自适应的数据辅助调度策略，并证明了该算法具有多项式的算法复杂度，同时保持渐近最优性。最后通过实验观察，研究了设备不同的异构性对训练效率的影响。结果表明本发明能够综合考虑设备选择、训练数据量和梯度量化级别等因素，在设备的统计、计算资源和通信资源三重异构下，提高联邦边缘学习的训练效率。

Description

一种高时效的联邦边缘学习调度策略设计方法

技术领域

本发明涉及数据通信技术领域，尤其涉及一种高时效的联邦边缘学习调度策略设计方法。

背景技术

人工智能(AI)和机器学习(ML)是塑造互联网和世界未来的关键技术，它们正在显著地改变数据收集和分析的方式。然而，这史无前例的数据量给传统的集中式学习带来了极大的数据通信开销、任务延迟和隐私等多方面的挑战。幸运的是，随着移动边缘计算技术的发展，移动设备上配备了高性能的中央处理单元(CPU)或图像处理单元(GPU)，使得边缘设备可以在本地训练小型人工智能模型。因此，分布式机器学习应运而生，其中最流行且广泛使用的是联邦学习架构。在联邦学习中，多个边缘用户利用分布式计算训练本地数据，并以保护隐私的方式将模型参数上传至中央服务器，从而得到一个共享模型。

由于业务的多样性和设备个性化的需求，设备产生的数据呈现非独立同分布特性，这给训练一个通用模型的联邦学习带来了很大的挑战，这将降低模型精度。因此，研究如何在设备统计异构的情况下提高模型精度是急需解决的问题，也引起了学者的广泛关注。

设备统计异构下的联邦学习中，将联邦学习与其他个性化学习的方法结合是解决设备统计异构性的常用方法。联邦迁移学习利用联邦学习更新制式，首先获得一个通用的全局模型，然后，再在设备本地根据个性化数据将全局模型进行微调，得到适应每个设备数据的个性化模型。联邦元学习策略利用元学习机理，学习的目标不再是得到一个使得所有设备损失函数加权和最小的全局模型，而是希望得到一个在本地经过一次或几次梯度下降后最优的全局模型，以便能够在设备端快速地个性化，更加适配于设备个性化数据，提高精度。联邦多任务学习也是个性化学习的有效方法，其通过计算相关矩阵来捕捉不同设备模型之间的相似性，把异构的数据作为不同的训练目标，从而进行多任务学习。

虽然考虑设备统计异构性的联邦学习训练策略可以提高模型精度，更加适配设备的数据，但其没有考虑在无线网络中运行联邦学习的训练成本与延迟。许多新兴的边缘智能应用(如自动驾驶业务，虚拟现实设备)具有实时服务的需求。在无线网络中，参与联邦学习训练的设备往往拥有有限的计算能力和电池容量和无线频谱资源，训练大量数据，传输高维模型将带来极大的训练延迟，影响训练效果。因此，在保证模型训练精度的同时，应该考虑训练时间的优化。

同时，无线通信在联邦学习系统中起着重要的作用。由于设备和基站之间需要不断的交互模型，无线资源的异构性和稀缺性对学习性能有很大的影响。因此，联邦学习中的无线资源优化是目前研究的热点。当联邦学习遇上无线网络，仅提高模型精度往往是不够的，还需要考虑训练成本。例如，在单基站参与的联邦学习中，在保证模型精度的情况下，为设备分配无线资源，控制传输功率等，以最小化训练时延或者能耗。空中计算方法也常用于提高通信效率，其通过模拟方式传输本地梯度或模型，并利用无线多接入信道的叠加特性进行空中求和来实现。此外，在多基站参与的联邦学习中，分层联邦学习架构被广泛研究，通过联合优化边缘接入策略和异构资源分配来最小化训练成本。可见，大多数资源优化工作都集中在无线通信对训练性能的影响上。然而，在每一轮训练中，除了模型传输外，还需要对全局模型进行进一步的本地更新和迭代，直到收敛。现有研究忽略了计算过程以及计算与通信的耦合作用对模型性能的影响。即使有一些工作考虑了计算，但它主要从降低训练成本的角度来优化计算能力，例如本地CPU频率的设计，并没有从理论上研究计算是如何影响学习性能的。因此，在异构的系统计算和通信资源的情况下，本发明需要联合优化联邦学习中的计算和通信过程，快速精确地训练模型。

由于频谱资源的稀缺，在每一轮训练中只能选择部分设备上传本地模型。在同步联邦学习中，每一轮的时延为训练最慢设备的时延，因此如何调度设备是优化时延的重要问题。在传统的联邦学习中，设备被随机调度参与训练。由于设备的系统异构性，设备的计算能力，信道状态往往异构的，为了最小化训练成本，资源好的设备被选择参与训练。然而，考虑到设备的统计异构性，不同设备的数据对收敛的贡献是不同的，为了提高收敛性能，加快收敛速度，设备本地梯度的范数被用来衡量设备对收敛的重要性，对收敛有重要贡献的设备应该被调度参与训练以提高收敛性能。现有的设备调度策略分别考虑了设备的系统资源和模型更新的重要性。但是，由于数据分布和系统资源分布不一致，资源好的设备并不能覆盖所有训练数据类别，同样，有助于收敛的设备可能会因为资源状态较差而延长训练时间。因此，现有的设备调度方案无法同时达到优化收敛性能和优化训练时间的目的，不能直接应用。研究实现快速、准确的模型训练的设备调度方法是非常重要的。此外，虽然一些研究同时考虑了设备的信道条件和梯度重要性，但忽略了设备的计算资源，信道状态良好的设备可能计算能力较差，这也增加了训练延迟。因此，在无线联邦学习中，需要联合考虑数据重要性、计算能力和信道条件等因素来调度设备，以提高训练效率。

发明内容

本发明针对现有技术的不足，研究了在计算、通信和统计异质下模型精度和训练时间之间的相互作用，提出一种高时效的联邦边缘学习调度策略设计方法，综合考虑设备调度、训练批量数据大小和梯度量化级别等因素，提出了在每个设备平均能量和梯度年龄约束下的精度与时间的权衡优化问题，从理论上推导了控制变量与收敛上界之间的关系。在收敛分析的基础上，采用李雅普诺夫优化方法将长期随机优化问题转化为了在线优化问题，以便在每一轮训练中在线求解，然后，进一步提出了一种有效的调度算法，证明了该算法具有多项式的算法复杂度，并保持渐近最优性。最后，通过实验观察，研究了设备不同的异构性对联邦边缘学习训练效率的影响。

为了实现上述目的，本发明提供如下技术方案：

本发明提供一种高时效的联邦边缘学习调度策略设计方法，包括以下步骤：

S1、每个参与设备从本地数据集中随机采集数据计算本地梯度；

S2、每个参与设备自适应地量化本地梯度，并向基站传输量化后的梯度；

S3、在每个设备平均能耗和平均梯度年龄约束下，以最小化收敛误差和训练时延的加权和为优化问题；所述梯度年龄表示当前训练轮次距上一次上传本地梯度的通信间隔轮数；

S4、推导控制变量与收敛速度上界之间的关系，采用李雅普诺夫优化方法将步骤S3的长期随机优化问题解耦转化为确定性在线优化问题；所述控制变量包括参与设备选择、训练数据量和梯度量化级别；

S5、在每一轮训练中，提出数据量自适应辅助的调度策略来求解优化问题，算法具有多项式算法复杂度，并具有渐进最优性；

S6、通过实验观察设备的统计异构性、计算资源异构性和通信资源异构性对训练效率的影响，给出调度策略。

进一步地，步骤S1中，每个参与设备从本地数据集

中随机采样大小为d_n(r)的数据集/>

且满足：

在第r轮中，设备n利用本地数据计算本地梯度，表示为：

进一步地，步骤S2中，由于有限的频谱资源，本发明通过梯度量化技术来减少传输的比特数，降低通信成本，Q_qn(g_n(r))表示梯度g_n(r)的量化函数，q_n为设备n的梯度量化级别，

表示为：

其中，ξ_i(g_n(r)，q_n(r))为独立随机变量。

进一步地，步骤S3中，梯度年龄随着训练轮r以速率1逐渐增长，直到设备n被选择参与训练，如果设备n在第r轮被调度，则设备n的梯度年龄降为零，否则设备n的年龄增加1，表示为：

其中，A_n(r)表示第r轮训练时设备n的梯度年龄，

表示设备集合，a_n（r）为二进制变量，表示设备n在第r轮中是否被调度，若a_n（r）＝1，代表设备n在第r轮参与训练；否则，a_n（r）＝0。

进一步地，步骤S3的优化问题P1表示如下：

约束条件为：

其中，F(θ(r))为损失函数，θ（r）为基站第r轮的全局模型，u为调整训练性能和能量成本之间权衡的权重参数；T(r)为每一轮的训练时间，E_n(r)为设备n的能耗，包括本地梯度计算能耗

和梯度上传能耗/>

和/>

为阈值，q_n为设备n的梯度量化级别；d_n(r)每个被调度的设备从本地数据集/>

中随机采集的数据量大小。

进一步地，步骤S3设备的时延计算过程为：

每一轮训练时延T(r)等于当前轮次中最慢设备的时延，表示为：

其中，T_n(r)为设备每一轮的训练时间包括本地梯度计算时间和梯度上传时间；

设备n的梯度计算时间，表示为：

其中，c_n为处理一个数据样本所需的CPU周期数，f_n为CPU的周期频率，l_n为本地更新的迭代次数，d_n(r)为训练数据量；

对于设备n的本地梯度上传过程，本发明采用正交频分多址接入(orthogonalfrequency division multiple access，OFDMA)通信制式，边缘基站将总带宽B均匀地分配给所有调度设备，R_n表示设备n的传输速率，表示为：

其中，B_n表示设备n所分得的上传带宽，h_n表示设备n与边缘服务器之间的信道增益，p_n表示设备n的模型上传功率，N₀表示高斯噪声的功率谱密度；

假设本地梯度包含m_n个元素，本地模型的大小S_n表示为：

设备n将本地梯度上传到边缘基站的传输时延表示为：

在第r轮中，设备n的训练时延包括计算时延和通信时延，表示为：

进一步地，步骤S3中设备能耗的计算过程为：

设备n在第r轮的能耗E_n(r)包括本地梯度计算能耗

和梯度上传能耗

E_n(r)表示为：

对于设备n的本地梯度计算过程,α_n表示有效电容系数，梯度计算能耗表示为：

对于设备n的梯度上传过程，梯度上传的能量取决于上传时间和传输功率，

表示为：

进一步地，步骤S4的控制变量与收敛速度上界之间的关系表示为：

其中，

其中

为全局方差，M²为本地梯度方差界，G²为本地梯度界，η为学习率，L为常数，m_n为本地梯度所包含的元素个数，θ^*为最优的全局模型参数，收敛速度的第一项反映了从初始权重到最优权重的差，随着训练轮数趋于无穷，第一项最终趋向于0，第二项中的C(r)视为收敛的误差界，随着调度设备数量、训练数据量和梯度量化级别的增加而减少；

将步骤S3优化问题中的损失函数替换为收敛误差界，优化问题转化为P2：

约束条件：

其中，C_max和T_max为归一化常数以消除不同数量级的影响。

进一步地，步骤S4中将李雅普诺夫优化方法将长期随机优化问题P2转化为每一轮次的确定性在线优化问题的过程为：

对于长期能耗限制，构造N个能量队列积压

来表示当前能耗与能量阈值之间的差，表示为：

对于梯度年龄限制，构造梯度年龄队列积压

来表示当前梯度年龄与年龄阈值之间的差距，表示为：

令Z(r)＝{Y(r)，Q(r)}为总队列积压，其中

总队列积压表示为：

Z_n(r+1)＝max{Q_n(r+1)，Y_n(r+1)}

引入李雅普诺夫函数L(Z(r))来表示网络的拥塞状态，李雅普诺夫函数表示为：

将Δ(Z(r))表示为条件李雅普诺夫漂移函数，定义为连续两轮训练之间李雅普诺夫函数的差值，条件李雅普诺夫drift函数表示为：

根据李雅普诺夫控制，最小化drift-plus-penalty函数Δ_V(Z(r))，表示为：

其中，C_max和T_max为归一化常数以消除不同数量级的影响，非负权重参数V是一个目标函数和平均虚拟队列积压的调节参数；

给定虚拟队列积压Z(r)，以及第r轮所做的优化决策，李雅普诺夫drift-plus-penalty函数满足以下不等式：

其中，B₁和B₂为常数：

将优化问题P2转化为在线决策的确定性优化问题P3：

约束条件：

其中，

和/>

分别为年龄和能耗的上界。

进一步地，步骤S5提出数据量自适应辅助的调度策略来求解优化问题P3，首先通过选择所有设备来初始化调度策略，然后优化本地训练训练批量数据大小(d_n(r))和梯度量化级别(q_n(r))，接下来给出设备调度策略；具体过程为：

为了解决Min-Max问题，引入辅助变量τ(r)，使得：

优化问题转化为P4：

约束条件：

将训练数据量d_n(r)和梯度量化级别q_n(r)由整数变量松弛为连续变量，利用凹凸规划算法将非凸问题转化为凸优化问题，将耦合变量表示为凸函数与凹函数的和(difference-of-convex)：

其中，

是凹函数，将凹函数转化为如下形式的凸函数：

优化问题P4被转化一个凸问题，采用标准的凸优化方法求解；

对于给定调度设备数量，训练数据量和梯度量化级别，基于问题(P4)的目标函数，同时考虑设备的数据分布和资源分布，训练速度快且拥有重要梯度的设备对训练效率的贡献更大；通过剔除贡献最小的设备来更新设备选择方案，得到新的设备调度策略；第r轮中，设备n对训练效率的贡献定义为：

其中，设备n对收敛的贡献为：

将上述过程不断迭代，通过迭代可能的参与设备n∈{1，…N}，直到找到使目标函数最小的最优参与设备数。

与现有技术相比，本发明的有益效果为：

首先，本发明推导了模型训练的收敛界，并得出统计异构性、设备调度决策、每个调度设备训练使用的数据量及梯度量化级别对收敛性能的影响，为设计设备调度策略提供了理论视角。在收敛性分析的基础上，综合考虑设备长期能耗限制和梯度的年龄限制，以最小化收敛误差和训练时延的加权和为目标，将最优化训练效率的问题建模为整数非线性规划问题(INLP)。

其次，为了高效求解所提出的问题，本发明利用李亚普诺夫优化技术将长期优化问题转化为每训练轮次的确定性优化问题。然后，设计了一种低复杂度的设备调度方案，从而快速得到设备选择、训练数据量、梯度量化级别的决策。本发明从理论上证明了所提出算法具有渐近最优性。

最后，通过实验观察并研究了通信、计算和统计三种异构性如何影响无线联邦学习的训练效率。根据设备不同的异构程度，本发明给出了提升训练效率的用户调度原则。结果表明，本发明提出的策略能够均衡计算和通信的时间，用设备端的计算能力来弥补差的信道条件，和现有模型训练策略相比，可以提升效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的联邦边缘学习系统架构图。

图2为本发明实施例提供的不同调度策略下联邦边缘学习的训练效率图。

图3为本发明实施例提供的当调度设备数从2到10增加，四种不同调度策略下的训练效率。

图4为本发明实施例提供的当调度设备数从2到10增加，四种不同调度策略下的损失函数。

具体实施方式

为了更好地理解本技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实例仅仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

在联邦边缘学习中，多个边缘设备利用本地数据训练本地模型，将本地模型梯度上传至基站，基站聚合所有本地梯度，更新全局模型，再将全局模型广播。然而，在无线网络中，设备的通信资源，计算能力和电池容量都是有限的，计算大量的数据以及传输高维的模型会带来极大的训练成本。在设备的计算资源异构、通信资源异构和统计异构的情况下，如何设计一种高效的调度策略来实现快速准确的模型训练是非常重要的问题。

为了解决该问题，本发明考虑如下几个方面：

首先，确定调度设备的数量。一方面，当设备统计异构时，为了提高模型精度，系统倾向于调度更多的设备以增加数据的多样性，降低收敛误差，提高训练性能。另一方面，由于总带宽有限，调度更多设备导致每轮次的训练时间增加。因此本发明要仔细设计调度设备的数量来平衡模型精度和训练时延。

其次，确定调度哪些设备参与训练。由于设备之间的计算资源和通信资源的异构性，本发明需要调度资源好的设备来加速训练过程。然而，设备的数据分布和资源分布并不一致，贪婪地选择训练速度最快的设备会减少训练速度慢的设备对全局模型的贡献，从而导致全局模型偏颇。因此，在系统和统计的双重异质性下，“快速的联邦边缘学习”和“高精度模型训练”不应该混为一谈，在设备调度时，应该联合考虑设备的资源分布和数据分布。

最后，为调度设备设计模型计算和梯度传输过程。计算大批量的数据，无损地传输模型梯度将提高模型精度，但这也会带来极大的训练成本，因此，本发明在设计训练过程时应该联合考虑模型精度和训练成本。此外，训练数据量和梯度量化级别对模型精度的影响还没有理论性结论。本发明需要从理论上刻画设备的统计异构，设备调度，训练数据大小和梯度量化级别对收敛性能的影响，合理地设计以平衡模型精度和训练时间。

本发明针对以上问题进行研究，在设备能耗和梯度年龄的约束下，最小化收敛误差和训练时延的加权和，在设备统计异构、计算资源异构和通信资源异构的情况下，联合优化设备调度，训练数据大小和梯度量化级别，从而提高训练效率。详细说明如下。

1系统模型

如图1所示，本发明整体系统架构采用一个无线联邦学习架构，它由一个边缘基站和N个边缘设备组成。在网络中，以

表示设备集合，/>

为设备数量。对于每一个设备/>

采集并储存训练数据集/>

其中x_ni为设备n的第i个储存样本，y_ni为x_ni的对应标签，/>

为设备n的训练数据量。本发明假设每个设备只能访问部分数据，设备间的训练数据是非独立同分布的。由于稀缺的频谱资源，在每轮训练中，只能选择部分设备上传模型梯度。

图2给出了不同调度策略下的训练效率(短时间内达到高精度)。在设备通信、计算和统计异构的情况下，训练时间最优策略和收敛性能最优策略由于忽略了数据分布和训练成本，分别在精度和训练时延上表现不佳，训练效率并不高。因此，为了快速准确的模型训练，在系统设计中需要在精度和训练时间之间取得平衡。

1.1无线联邦学习训练过程

在无线联邦学习中，训练目标是学习一个统一的模型来适配设备上的异构数据：

其中，f_n(θ，x_ni，y_ni)为设备n的本地损失函数，其表示全局模型参数θ在映射输入-输出数据对(x_ni，y_ni)时的误差。

无线联邦学习的训练过程包括以下几个步骤：

1)设备调度和全局模型广播：在每一轮训练中，基站首先决定参与设备数以及参加训练的设备。令a_n(r)为二进制变量，表示设备n在第r轮中是否被调度。若a_n(r)＝1，代表设备n在第r轮参与训练；否则，a_n(r)＝0。令

为第r轮中调度设备的数量。基站将当前轮次的全局模型θ(r)广播至参与设备。

2)本地梯度计算：每个被调度的设备从本地数据集

中随机采样大小为d_n(r)的数据集/>

且满足：

在第r轮中，设备n利用本地数据计算本地梯度，其可以表示为：

3)梯度量化和上传：由于有限的频谱资源，本发明通过梯度量化技术来减少传输的比特数，降低通信成本。

表示梯度g_n(r)的量化函数，q_n为设备n的梯度量化级别，/>

可以表示为：

其中，ξ_i(g_n(r)，q_n(r))为独立随机变量，满足：

其中，

为一个整数，使得：

ξ_i(g_n(r)，q_n(r))的期望满足：

/>

上述所用的随机梯度量化方法是无偏的，即

并且具有有界方差：

被调度的设备上传量化后的梯度至基站。

4)全局梯度聚合：基站聚合本地梯度并更新全局模型，可以表示为：

基站将新一轮的全局模型广播至新一轮的调度设备，作为其新一轮更新的初始模型。上述过程在基站和设备之间不断迭代，直到全局模型收敛。

1.2训练时间模型

每一轮的训练时间包括本地梯度计算时间和梯度上传时间。请注意，由于基站有足够的计算能力和下行频谱，全局模型更新和广播时间可以忽略不计。

对于设备n的本地梯度计算过程，c_n表示处理一个数据样本所需的CPU周期数，f_n表示CPU的周期频率，l_n表示本地更新的迭代次数。对于给定的训练数据大小d_n(r)，设备n的计算时间可表示如下：

对于设备n的本地梯度上传过程，本发明采用正交频分多址接入(orthogonalfrequency division multiple access，OFDMA)通信制式，这也很容易拓展到其他通信制式。边缘基站将总带宽B均匀地分配给所有调度设备。R_n表示设备n的传输速率,可以表示为：

其中，B_n表示设备n所分得的上传带宽，h_n表示设备n与边缘服务器之间的信道增益，p_n表示设备n的模型上传功率，N₀表示高斯噪声的功率谱密度。

假设本地梯度包含m_n个元素，本地模型的大小S_n可表示为：

设备n将本地梯度上传到边缘基站的传输时延可表示如下：

在第r轮中，设备n的训练时延包括计算时延和通信时延，可以表示为：

由于本发明是同步联邦学习，每一轮的训练时延等于最慢设备的时延，因此，第r轮的训练时延可表示为：

1.3训练能耗模型

在每一轮中，设备n的能耗E_n(r)包括本地梯度计算能耗

和梯度上传能耗

E_n(r)可以表示为:

对于设备n的本地梯度计算过程,α_n表示有效电容系数，梯度计算能耗可表示为：

对于设备n的梯度上传过程，梯度上传的能量取决于传输时间和传输功率，

可以表示为：

由于设备的可用能量有限，本发明假设设备n的平均能量消耗要小于阈值

其可以表示为：

1.4梯度年龄模型

为了减少训练时间，训练速度快的设备更容易被调度，当设备间的训练数据是非独立同分布时，仅考虑训练速度的设备调度策略可能导致全局模型偏颇，联邦学习的泛化能力大大降低。因此，设备调度应该在训练速度和梯度重要性之间取得平衡。本发明引入梯度年龄的概念来量化梯度的重要性。

将A_n(r)表示为第r轮训练时设备n的梯度年龄，表示当前轮次距上一次上传本地梯度的通信间隔轮数。

梯度年龄随着训练轮r以速率1逐渐增长，直到设备n被选择参与训练。更具体地说，如果设备n在第r轮被调度(a_n（r）＝1)，则设备n的梯度年龄降为零，否则设备n的年龄增加1，其可以表示为：

梯度年龄越大，意味着该设备的数据已经很多轮没有对全局模型做出贡献，这可能会导致全局模型缺少该设备的信息。为了保证数据的公平性，提高模型的准确性，每个设备的平均梯度年龄需要小于一个阈值，其可以表示为：

1.5系统目标

在本发明中，本发明的目标是在能量消耗和梯度年龄的约束下提高训练效率。训练效率最大化相当于在设备上用最少的训练时间获得最好的损失函数值。该优化问题可表述如下：

(P1)：

约束条件：

在目标函数中，u为调整训练性能和能量成本之间的权衡的权重参数。

在该问题中，由于神经网络内部机制缺乏可解释性，网络训练过程复杂多变，损失函数没有显示的封闭表达式。因此，本发明需要推导出全局损失的封闭近似解。此外，由于长期能量和梯度年龄约束，问题(P1)属于长期随机优化问题。问题的最优解需要提前获得所有轮次的全部信息(如信道条件和模型梯度)，这是不可能的。因此，本发明需要进一步将问题解耦为确定性优化问题，并在每一轮训练中在线求解。

2收敛性分析和调度优化

2.1调度变量对收敛性能的影响

本发明分析了异构设备上的收敛速度，主要是为了研究调度变量如何影响训练性能。为了便于收敛性分析，本发明做了以下假设。

假设1：损失函数f₁（θ），...，f_N（θ）为μ-强凸函数，即对于

满足：

假设2：本地梯度的全局更新是有界的，即对于

满足：

基于上述假设和联邦学习更新机制，本发明首先给出了收敛速度上界的重要性定理。本发明的收敛性能分析共同考虑了数据分布的统计异质性、设备调度策略、批量数据大小和调度设备的梯度量化。

定理1：给定第一轮训练的初始化全局模型参数(θ（0))和每一轮训练的优化变量，经过R轮训练后，无线联邦学习的收敛速度上界可以表示为：

其中，

定理1的证明过程如下：

由于损失函数是强凸的，其可以表示为：

接下来，为了方便，我们将

简写为/>

将/>

简写为

将/>

简写为/>

本发明求解等式右侧的第一项：/>

本发明求解等式右侧的第二项：

带回原式，得到：

为了量化梯度范数平方的平均值，本发明给出了以下两个假设：假设3：本地梯度的方差有界，即

使得：

假设4：局部梯度是有界的，即

使得：

将梯度

简写为/>

梯度范数平方的平均值是有界的，上界为：

因此，本发明可以得到：

其中，

把上述不等式从r＝1到r＝R累加，本发明有：

将上述不等式重写如下：

其中，θ^*为最优的全局模型参数。

在定理1中，梯度范数的期望被用作收敛的指标。收敛速度的第一项反映了从初始权重到最优权重的差，随着训练轮数趋于无穷，第一项最终趋向于0。第二项中的C(r)可视为收敛的误差界，最小化C(r)可提高收敛性能。

从定理1中，本发明可以观察到两个事实：

1)统计异构性的影响：收敛误差C(r)的第一项是由于设备数据之间的统计异质性造成的全局方差。它随着调度设备数量的增加而减少。这是很直观的，因为全局模型可以从更多设备的本地数据中获得更多的信息，这减轻了统计异质性对收敛误差的损失。

2)设备本地训练的数据量和梯度量化的影响：从定理1中可以观察到，收敛误差随数据量和梯度量化级别的增加而减小，即，精确的本地更新和无损梯度传输都能减小收敛误差。

为了使优化问题易于处理，根据定理1，本发明将损失函数替换为收敛误差界，问题(P1)可重新表述为：

(P2)：

约束条件：

其中，C_max和T_max为归一化常数以消除不同数量级的影响。

2.2基于李雅普诺夫优化技术的问题转化

为了处理长期约束，本发明应用李雅普诺夫优化方法将长期随机优化问题(P2)转化为每一轮次的确定性优化问题。

对于长期能耗限制，本发明构造了N个能量队列积压

来表示当前能耗与能量阈值之间的差，其可以表示为：

对于梯度年龄限制，本发明同样构造了梯度年龄队列积压

来表示当前梯度年龄与年龄阈值之间的差距，其可以表示为：

令Z(r)＝{Y(r)，Q(r)}为总队列积压，其中

其可以表示为：

Z_n(r+1)＝max{Q_n(r+1)，Y_n(r+1)}

然后，本发明引入李雅普诺夫函数L(Z(r))来表示网络的拥塞状态。函数值越大，表示至少有一个设备的队列不稳定。李雅普诺夫函数可以表示为：

为了将队列积压向较低的拥塞状态推进，将Δ(Z(r))表示为条件李雅普诺夫drift函数，定义为连续两轮训练之间李雅普诺夫函数的差值，可以表示为：

根据李雅普诺夫控制，本发明最小化双重目标的drift-plus-penalty函数Δ_V(Z(r))，其可以表示为：

非负权重参数V是一个目标函数和平均虚拟队列积压的调节参数，通过调节控制参数V，系统可以在各个权衡点之间进行灵活的选择。注意，漂移惩罚函数已经不再是长期限制，可以在当前训练轮次中在线求解，这意味着原来具有长期约束的优化问题(P2)现在已经转化为在线实时求解问题。这使本发明能够在没有任何先验信息的情况下，根据当前网络状态做出在线决策。

引理1：给定虚拟队列积压Z(r)，以及第r轮所做的优化决策，漂移惩罚函数的上界可以表示为：

其中，B₁和B₂为常数：

引理1的证明过程如下：

给定虚拟队列积压Z(r)，以及在第r轮中所做的优化决策，漂移惩罚函数可以表示为：

接下来，本发明求解Δ_V(Q(r))的上界，其可以表示为：

其中，

为常数。

同时，本发明求解Δ_V(Y(r))的上界：

其中，

为常数。

因此，本发明可以得到：

为了更好地理解该问题，根据引理1给出的上界，本发明将问题(P2)转化为在线决策的确定性优化问题：

(P3)：

约束条件：

当队列积压量较小且满足队列稳定性时，系统会更加注重优化收敛误差和训练时间的加权和，其暂时主导了整个目标。因此，系统倾向于选择系统资源好的设备，从而在相同的训练时间内达到更小的收敛误差。然而，频繁选择这些设备会增加能量和年龄的队列积压，使得队列稳定性在系统设计中变得越来越重要。为了保持队列的稳定性，系统会调度资源较差且更新不频繁的设备，这增加了训练时间。直观地说，通过动态重复上述过程，本发明的在线优化框架能够自适应地最小化优化目标并稳定队列。

2.3数据量自适应辅助的调度策略为了解决Min-Max问题，引入辅助变量τ(r)，使得：

优化问题转化为P4：

约束条件：

/>

考虑到设备选择和其他控制策略之间的耦合关系，本发明提出了一种异构设备上的迭代算法，该算法平衡了模型精度和训练成本。本发明进一步提出了一个迭代算法来求解问题(P4)。该过程可以总结如下。

首先，本发明通过选择所有设备来初始化调度策略。然后，本发明优化其他控制变量，即本地训练数据量(d_n(r))和梯度量化级别(q_n(r))。

本发明将d_n(r)和q_n(r)由整数变量松弛为连续变量，将问题转化为更易于处理的形式。然而，由于训练过程中计算和通信过程之间的耦合，该问题仍然难以解决。为了有效地解决这一问题，本发明利用凹凸规划算法将非凸问题转化为凸优化问题。

本发明将耦合变量表示为凸函数与凹函数的和，本发明有：

其中，

是凹函数，而凹函数在任意点处的一阶泰勒展开是它的上界。因此，凹函数可以转化为如下形式的凸函数：

同样，本发明以相同的方法处理下式凹函数：

根据上述过程，问题(P3)被转化一个凸问题，本发明采用标准的凸优化方法(如CVXPY)求解。值得注意的是，求解得到的d_n(r)和q_n(r)为连续值，本发明进一步采用舍入技术将其转化为整数值。

接下来，本发明给出了设备调度策略。对于给定调度设备数量，训练批量数据大小和梯度量化级别，本发明从问题(P4)的目标函数中剥离出设备选择变量，得到每个设备对训练效率的贡献：

其中，设备n对收敛的贡献为：

设备贡献指标反映了本发明希望通过联合考虑设备的资源和数据分布，在模型精度和训练成本之间做出权衡。本发明根据设备选择的原则对设备进行降序排序。通过移除贡献最小的设备来更新候选设备列表，从而获得新的设备调度策略。本发明迭代可能的设备数量n∈{1，…N}，直到找到使目标函数最小的最优设备数。

2.4算法复杂度分析

通过分析算法每个阶段所需的迭代次数和每次迭代的复杂度，本发明表明所提出的算法具有多项式的时间复杂度。

本发明首先分析资源分配算法的复杂度。该算法最多需要K次迭代。对于算法的每次迭代，本发明采用复杂度为

的内点法求解凸优化问题。因此，在给定设备选择策略下，资源分配算法的复杂度为/>

然后，分析了设备调度策略的复杂性。对于给定数量的设备，本发明根据一种排序算法(如Mergesort方法)对备选设备进行排序，最坏情况的算法复杂度为/>

最后，本发明分析了迭代的总次数。本发明迭代计划设备的可能数量n∈{1，…N}，直到找到使目标函数最小的最优设备数。因此，本发明的迭代次数不超过/>

次。总之，本发明的算法具有

的多项式时间复杂度。

2.5最优性分析

本发明将本发明提出的算法与离线算法进行比较，离线算法提前知道所有的网络状态，即每个训练轮的信道条件是已知的。设

和/>

是上述问题的离线最优解，Γ^opt(r)为第r轮训练时对应的离线最优目标函数值。本发明有如下引理：

引理2：假定时变信道是一个稳态过程，且在每轮上是独立同分布的。因此，对于问题的任何可行解，满足：

定义(C^(r)+τ^(r))为所提在线算法求得的渐近最优解，满足如下定理。

定理2：所有设备的平均效率具有一个上界，其可以表示为：

其中，

定理2的证明过程如下：

漂移惩罚函数的上界可表示为：

上述最后一个不等式由引理2得到。

将上述不等式从r＝1到r＝R累加，本发明有：

其中，

定理2为算法能获得渐近最优解提供了很强的理论性保证。该算法能在时变环境下自适应动态决策，且在

范围内获得离线最优解。这意味着当参数V的值增加到足够大时，本发明的在线结果可以接近离线最优解。权重参数V可以平衡目标和约束条件，在实际应用中，本发明应该谨慎选择V，在约束范围内提高系统效率。

3实验观察和设计原则

本发明通过实验观察了通信资源异构性、计算资源异构性和统计异构性对训练效率的影响。本发明发现训练效率随着设备调度数量的增加呈现非单调趋势，存在最优的调度设备数量。本发明在MINIST数据集上采用CNN模型进行仿真。假设系统共有10个设备，训练300轮后，本发明对比了几种策略在用户调度数量为2，4，6，8，10下的性能。

首先，本发明将随机设备调度策略作为基线(标记为“随机”)，这种策略随机选择设备参与训练，每个被调度的设备采用相同的梯度量化级别。

然后，本发明考虑通信资源的异构性(标记为“通信资源异构”)，这种策略选择具有最佳瞬时信道增益的设备参与训练，每个被调度的设备根据自身信道条件决定梯度量化级别。

进而，本发明加入对数据统计异构性的考虑(标记为“通信-统计异构”)，这种策略综合考虑信道条件和梯度时效性来调度设备，每个被调度的设备根据自身信道条件决定参数量化级别。

在上述几种策略中，设备本地训练的数据量是固定的。然而，物联网(如智能工厂，智慧交通)中设备硬件条件呈高度异构。因此，本发明进一步加入对设备计算能力的考虑，让设备动态选择本地训练数据量(标记为“通信-统计-计算异构”)，观察是否能够通过开放计算的自由度，用设备端的计算能力来弥补差的信道条件。

如图3所示，随着每轮调度的设备数量增大，性能先下降后上升，代表训练效率先增加后下降。在每种策略下，均存在一个最优的调度设备数(标记为“星号”)。训练过程可以被分为三个阶段：统计异构性限制阶段，通信限制-计算辅助阶段，通信限制阶段。下面逐一分析。

3.1设备异构性对训练效率的影响

1)统计异构性限制阶段:

当每轮调度的设备数量较少，训练效率主要受到设备数据的统计异构性的限制，增加调度的设备数量可以覆盖更多样化的训练数据，从而提高训练效率。正如图4所示，损失函数随调度设备数增加而降低。因此，考虑统计异构性的策略(“通信-统计异构”和“通信-统计-计算异构”)的训练效率优于其他策略。考虑数据统计异构性的性能增益为紫色阴影区域。

2)通信限制-计算辅助阶段:

随着调度的设备数量增多，由于总带宽受限，每个设备上传梯度的时延增加。为了缩短每轮训练的时延，通常采用梯度量化技术来缩短梯度上传时延。然而，如图4所示，梯度量化会带来梯度精度损失，损失函数值随着用户数增长提升。

值得注意的是，设备使用更多数据进行本地训练可以有效弥补量化误差。因此，在图3中，在用户数大于4以后，考虑了计算异构的策略(“通信-统计-计算异构”)权衡了设备计算时延和梯度传输时延，通过让计算能力强的设备用更多数据进行本地训练，可以继续提升训练效率。然而，其他策略的训练效率由于带宽限制开始变差。考虑计算异构性带来的性能增益为黄色阴影区域。

3)通信限制阶段：

随着调度设备数量的进一步增加，梯度上传时延和梯度量化误差主导了训练效率，所有策略下的训练效率变差。

3.2设计原则

根据上述实验观察，本发明发现：在设备异构的情况下，通过利用计算资源的异构性，将训练数据量联合优化，可以弥补量化误差，提高训练效率。

当参与模型训练的终端设备计算能力相似，设备间计算时间成本相似，训练效率无法通过利用计算资源得到进一步提升。因此，可以采用“通信-统计异构”策略，选择信道增益和梯度年龄大的设备参与训练。

然而，在本发明关注的网联机器智能场景中(如智能工厂)，设备间计算能力往往异构程度非常高，本发明应充分利用计算增益(如图3下方灰色阴影区域所示)，通过使计算能力强的设备训练更多的数据来提升训练效率。

综上，本发明的方法具有如下优点：

a)由于神经网络内部机制缺乏可解释性，网络训练过程复杂多变，模型演化过程难以清晰表达，本发明推导了损失函数期望的封闭近似解，并刻画了收敛误差与设备的统计异构性、设备调度、训练数据量、梯度量化级别之间的关系，为模型精度的优化提供理论依据。

b)本发明研究了模型精度和训练时延之间的权衡关系，联合优化设备调度，计算过程中的数据量和通信过程的梯度量化级别，通过调度重要的设备，并根据动态的资源状态，将计算成本和通信成本相互置换，提高系统效率。

c)由于能耗和梯度年龄的长期约束条件，所提问题为长期优化问题。本发明采用李雅普诺夫优化技术将长期优化问题转化为每一轮次确定性优化问题，可以在不需要未来网络状态下在线求解。此外，由于联邦学习训练过程中计算和通信的耦合性，本发明采用凹凸规划算法，将非凸问题转化为凸问题，并使用低复杂度的凸优化方法求解。最后，本发明证明，本发明所提出的算法具有多项式复杂度，并且具有渐进最优性。

d)通过实验观察，本发明研究了设备的统计异构性，计算资源异构性和通信资源异构性对训练效率的影响。结果表明，训练效率随着调度设备数量的增加而先变好后变差。在调度设备时，需要同时考虑三种异构性，所提出的策略能够均衡计算和通信的时间，用设备端的计算能力来弥补差的信道条件，和现有模型训练策略相比，可以提升效率。

e)本发明给出了设备调度建议，当参与模型训练的终端设备计算能力相似，只需要考虑统计异构性和通信资源异构性；当设备间计算能力异构程度高时，如网联机器智能场景(如智能工厂等)，本发明应该充分考虑计算资源异构性，通过使计算能力强的设备训练更多的数据来提升训练效率。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种高时效的联邦边缘学习调度策略设计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，步骤S1中，每个参与设备从本地数据集

中随机采样大小为d_n(r)的数据集/>

且满足：

在第r轮中，设备n利用本地数据计算本地梯度，表示为：

3.根据权利要求1所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，步骤S2中，通过梯度量化技术来减少传输的比特数，降低通信成本，

表示梯度g_n(r)的量化函数，q_n为设备n的梯度量化级别，/>

表示为：

其中，ξ_i(g_n(r)，q_n(r))为独立随机变量。

4.根据权利要求1所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，步骤S3中，梯度年龄随着训练轮r以速率1逐渐增长，直到设备n被选择参与训练，如果设备n在第r轮被调度，则设备n的梯度年龄降为零，否则设备n的年龄增加1，表示为：

其中，A_n(r)表示第r轮训练时设备n的梯度年龄，

表示设备集合，a_n(r)为二进制变量，表示设备n在第r轮中是否被调度，若a_n(r)＝1，代表设备n在第r轮参与训练；否则，a_n（r）＝0；

优化问题P1表示如下：

约束条件为：

和梯度上传能耗/>

和/>

中随机采集的数据量大小。

5.根据权利要求4所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，步骤S3的训练时延计算过程为：

设备n的梯度计算时间，表示为：

对于设备n的本地梯度上传过程，采用正交频分多址接入通信制式，边缘基站将总带宽B均匀地分配给所有调度设备，R_n表示设备n的传输速率，表示为：

假设本地梯度包含m_n个元素，本地模型的大小S_n可表示为：

设备n将本地梯度上传到边缘基站的传输时延表示为：

6.根据权利要求1所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，步骤S3中设备能耗的计算过程为：

设备n在第r轮的能耗E_n(r)包括本地梯度计算能耗

和梯度上传能耗/>

E_n(r)表示为：

对于设备n的本地梯度计算过程，α_n表示有效电容系数，梯度计算能耗表示为：

表示为：

7.根据权利要求1所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，步骤S4的控制变量与收敛速度上界之间的关系表示为：

其中，

其中，

为全局方差，M²为本地梯度方差界，G²为本地梯度界，η为学习率，L为常数，m_n为本地梯度所包含的元素个数，θ^*为最优的全局模型参数，收敛速度的第一项反映了从初始权重到最优权重的差，随着训练轮数趋于无穷，第一项最终趋向于0，第二项中的C(r)视为收敛的误差界，随着调度设备数量、训练数据量和梯度量化级别的增加而减少。

8.根据权利要求7所述的高时效的联邦边缘学习调度策略设计方法，其特征在于，将步骤S3优化问题中的损失函数替换为收敛误差界，优化问题转化为P2：