CN113992676A

CN113992676A - 端边云架构和完全信息下分层联邦学习的激励方法及系统

Info

Publication number: CN113992676A
Application number: CN202111256017.XA
Authority: CN
Inventors: 王晓飞; 赵云凤; 刘志成; 仇超
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28
Anticipated expiration: 2041-10-27
Also published as: CN113992676B

Abstract

本发明公开了一种端边云架构和完全信息下分层联邦学习的激励方法及系统，包括：基于斯塔克伯格博弈建立终端设备、边缘聚合器和云服务器之间的三层博弈模型；终端设备通过边缘聚合器下载云服务器中的电力数据学习模型；基于分层联邦学习算法构建模型演化函数；利用纳什均衡求解三方的最优策略，使终端设备的效用、边缘聚合器的效用和云服务器的效用达到最大化；终端设备将基于最优策略更新后的模型发送到边缘聚合器，边缘聚合器基于最优策略对终端设备进行激励发放，并将聚合后的模型发送到云服务器，云服务器基于最优策略对边缘聚合器进行激励发放，并将模型进行再次聚合。本发明可向终端设备和边缘聚合器提供报酬，实现合理公平的收益分配。

Description

端边云架构和完全信息下分层联邦学习的激励方法及系统

技术领域

本发明属于联邦学习技术领域，具体涉及一种端边云架构和完全信息下分层联邦学习的激励方法及系统。

背景技术

深度学习的最新发展彻底变革了包括电力领域在内的很多应用领域，如图像处理、自然语言处理、视频分析等。深度学习能在这些领域中取得巨大的成功源于大量训练数据和海量计算能力的可用性。但是，训练数据是由个人或不同组织拥有的分布式设备生成的。如果这些数据被泄露或用于最初目的以外的其他目的，个人隐私将受到损害。例如一些电力数据涉及个人用户隐私信息且安全性要求较高，一旦用电数据的隐私性、完整性、可用性被破坏，不仅会损害用电区域内用户自身的利益，更会对智能电网的整体性能产生不可估量的影响。许多数据所有者不愿意为训练模型共享他们的私有数据。数据隐私正逐渐成为深度学习最严重的问题之一。此外，由于数据大小、延迟和带宽的限制，很难将这些数据聚合到单个计算站点进行集中训练。联邦学习(Federated Learning，FL)的概念被提出来缓解这些问题，它允许多个用户在一个中央服务器的协调下，在不共享数据的情况下建立一个联邦模型。例如，在电力物联网架构下，利用感知层具备的较强的通信和计算能力来满足联邦学习算力和数据分布式需求。因此，移动设备上的大量分布式和隐私敏感数据可以在不泄露隐私的情况下得到很好的利用。

很多场景中的数据涉及用户隐私且安全性要求高，泛在FL的基本思想是让这些计算节点分别使用自己的数据训练局部模型，然后将局部模型而不是数据上传到逻辑上集中的参数服务器，该服务器合成一个全局模型。虽然大多数初步的FL研究假设云作为参数服务器，但是随着最近边缘计算平台的出现，研究人员已经开始研究基于边缘的FL系统，其中边缘服务器将充当参数服务器。在基于云的FL中，参与的客户端总数可达数百万，提供深度学习所需的海量数据集。同时，与云服务器的通信缓慢且不可预测，例如由于网络拥塞，这使得训练过程低效。相反，在基于边缘的FL中，由于参数服务器被放置在最接近的边缘，计算的等待时间与到边缘参数服务器的通信的等待时间相当。因此，有可能在计算和通信之间寻求更好的平衡。然而，一个缺点是每个服务器可以访问的客户端数量有限，导致不可避免的训练性能损失。从上面的比较中，看到了利用云服务器来访问大量训练样本的必要性，并且每个边缘服务器都可以与其本地客户端一起快速更新模型。然后提出了端-边-云架构下分层联邦学习(Hierarchical Federated Learning，HFL)，很好地利用了云和边缘服务器的优点。与基于云的FL相比，端-边-云架构下的HFL将显著减少与云的高成本通信，并辅以高效的端-边缘更新，从而显著减少运行时间和本地迭代次数。另一方面，随着云服务器可以访问更多的数据，HFL在模型训练方面将优于基于边缘的FL。最重要的是，HFL能够发挥改善隐私的能力。简而言之，HFL可以有效地降低通信开销，同时仍能充分利用端侧的丰富数据。

尽管HFL显示出了巨大的优势，但它仍然面临着一个公开的挑战：现有的研究有一个乐观的假设，即所有端移动设备都无条件地参与模型训练并贡献自身的所有资源，由于模型训练会产生各种资源成本，这在现实世界中是不切实际的。

发明内容

针对现有的HFL系统不能很好地利用端侧设备丰富数据的问题，本发明提出了一种端边云架构和完全信息下分层联邦学习的激励方法及系统。为解决以上技术问题，本发明所采用的技术方案如下：

一种端边云架构和完全信息下分层联邦学习的激励方法，包括如下步骤：

S1，基于斯塔克伯格博弈建立终端设备、边缘聚合器和云服务器之间的三层博弈模型；

S2，终端设备通过边缘聚合器下载云服务器中的电力数据学习模型；

S3，基于分层联邦学习算法在终端设备、边缘聚合器和云服务器中分别构建对应的模型演化函数；

S4，利用纳什均衡求解终端设备、边缘聚合器和云服务器的最优策略，使终端设备的效用、边缘聚合器的效用和云服务器的效用达到最大化；

S5，终端设备基于终端设备的最优策略更新本地的电力数据学习模型，并将更新后的电力数据学习模型发送到对应的边缘聚合器，边缘聚合器对电力数据学习模型进行聚合，并将聚合后的电力数据学习模型发送到云服务器，同时基于边缘聚合器的最优策略对终端设备进行激励发放，云服务器对电力数据学习模型进行再次聚合，并基于云服务器的最优策略对边缘聚合器进行激励发放

在步骤S3中，所述模型演化函数的演化公式为：

式中，η_t表示学习率，

表示F_n(ω_n(t-1))损失函数下的下降梯度，ω_n(t)表示终端设备n中的第t个模型演化函数，τ_e表示云服务器聚合一次时边缘聚合器的模型更新数目，τ_w表示边缘聚合器聚合一次时终端设备的模型更新数目，S_n表示边缘聚合器μ(n)所连接的终端设备集合，x_n是终端设备n参与模型训练时所贡献数据集的数据贡献量，也即终端设备n的策略。

所述步骤S4包括如下步骤：

S4.1，初始化初始步数k＝0、终端设备n在博弈过程中第k步的策略

边缘聚合器l在博弈过程中第k步的策略

云服务器在博弈过程中第k步的策略P^k，并设定阈值∈；

S4.2，执行k＝k+1，根据终端设备的收益和成本计算终端设备的效用函数，以效用函数最大化为目标获取终端设备第k步的最优策略

根据最优策略

调整策略

S4.3，根据边缘聚合器的收益和成本计算边缘聚合器的效用函数，以边缘聚合器的效用函数最大化为目标求解边缘聚合器第k步的最优策略

根据最优策略

调整策略

S4.4，根据云服务器的收益和成本计算云服务器的效用函数，以效用函数最大化为目标求解云服务器第k步的最优策略P^*，根据最优策略P^*调整策略P^k；

S4.5，判断

如果是返回步骤S4.2，否则输出策略

策略

策略P^k即为最终的纳什均衡解也即终端设备的最优策略

边缘聚合器最优策略

和云服务器的最优策略P^*。

在步骤S4.2中，所述终端设备的效用函数的计算公式为:

式中，f(x_n,x_-n)表示终端设备n的收益，J_nx_n表示终端设备n的成本，J_n表示终端设备n参与模型训练时的单位成本，

表示终端设备n的效用函数，x_-n表示属于S_n\{n}的终端设备的策略；

所述终端设备n的收益f(x_n，x_-n)的计算公式为：

f(x_n，x_-n)＝p_nR_μ(n)；

式中，p_n表示终端设备n的报酬分配比例，R_μ(n)表示终端设备n所连接的边缘聚合器μ(n)给予它所连接的所有终端设备的报酬；

所述终端设备n的成本J_nx_n采用终端设备n每一轮的训练成本

表示，训练成本

的计算公式为：

式中，λ_e表示能耗的权重参数，E_n(x_n)表示终端设备n参与模型训练时进行一次本地迭代的能耗，λ_t表示延迟的权重参数，τ_c表示云服务器的模型更新数目，τ_e表示云服务器聚合一次时边缘聚合器的模型更新数目，τ_w表示边缘聚合器聚合一次时终端设备的模型更新数目，T_n(x_n)表示终端设备n参与模型训练时进行一次本地迭代的计算时间，C_E表示终端设备n收集单位数据的成本，x_n是终端设备n参与模型训练时所贡献数据集χ_n的数据贡献量，也即终端设备n的策略。

在步骤S4.2中，所述终端设备的最优策略

即为以下问题的解：

所述求解终端设备的最优策略

的步骤为：

a，证明所有终端设备子博弈纳什均衡的存在性；

b，证明所有终端设备子博弈纳什均衡的唯一性；

c，求解终端设备的最优策略

所述终端设备的最优策略

的计算公式为；

式中，|S′_n|为终端设备模型训练参与者的集合S′_n的基，

J_i表示终端设备i参与模型训练时的单位成本，θ_n表示终端设备n参与模型训练时所贡献数据集x_n的数据质量，θ_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据质量；

所述模型训练参与者的集合S′_n中的参与者满足以下条件：

在步骤S4.3中，所述边缘聚合器的效用函数的计算公式为：

式中，h(R_l)表示边缘聚合器l的收益，

表示边缘聚合器l的成本，

表示边缘聚合器的效用函数，R_l表示边缘聚合器l分配给它所连接的终端设备的报酬，也即边缘聚合器l的策略；

所述边缘聚合器l的收益h(R_l)的计算公式为：

h(R_l)＝ln(α_l+p_lR_C)；

式中，α_l表示边缘聚合器l的风险规避参数，p_l表示边缘聚合器l的报酬分配比例，R_C表示云服务器支付给所有边缘聚合器的报酬；

所述边缘聚合器l的成本

的计算公式为：

式中，β_l表示报酬比例系数，E_l表示边缘聚合器l通信的能耗，T_l表示边缘聚合器l通信的延迟，C_L表示边缘聚合器的单位协调成本，|S_l|表示S_l的基，τ_c表示云服务器的模型更新数目，τ_e表示云服务器聚合一次时边缘聚合器的模型更新数目。

所述边缘聚合器l的报酬分配比例p_l的计算公式为：

式中，S_l表示边缘聚合器l所连接的终端设备集合，θ_i表示终端设备i参与模型训练时所贡献数据集x_i的数据质量，x_i是终端设备i参与模型训练时所贡献数据集的数据贡献量，也即终端设备i的策略，

表示所有终端设备的集合。

所述边缘聚合器的最优策略

的计算公式为：

式中，S′_l表示边缘聚合器的模型训练参与者，θ_n表示终端设备n参与模型训练时所贡献数据集χ_n的数据质量，P表示云服务器的策略；

其中，Y_n的计算公式为：

式中，|S′_l|为边缘聚合器的模型训练参与者的集合S′_l的基，θ_n表示终端设备n参与模型训练时所贡献数据集χ_n的数据质量，J_n表示终端设备n参与模型训练时的单位成本。

在步骤S4.4中，所述云服务器的效用函数的表达式为：

u^C(P)＝λg(∑_i∈Nθ_ix_i)-R_C；

式中，λg(∑_i∈Nθ_ix_i)表示电力数据学习模型的收益也即云服务器的回报，g(·)为凹函数，λ表示系统参数，且λ＞0，P表示云服务器的策略，u^C(P)表示云服务器的效用函数，

表示所有终端设备的集合，R_C表示云服务器支付给边缘聚合器的报酬，θ_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据质量，x_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据贡献量，也即终端设备i的策略。

一种采用如上所述的端边云架构和完全信息下分层联邦学习的激励方法的系统，包括云服务器，所述云服务器与若干个边缘聚合器连接，每个边缘聚合器均与若干个终端设备连接，且云服务器中设有基于联邦学习算法建立的电力数据学习模型，所述边缘聚合器中设有用于向所连接的终端设备分配报酬的第一收益分配模块和用于对终端设备的数据贡献量和数据质量进行评估的策略制定模块，所述云服务器中设有用于向边缘聚合器分配报酬的第二收益分配模块，终端设备训练时第一收益分配模块依据终端设备的数据贡献量和所贡献数据集的数据质量分配报酬给对应的终端设备，边缘聚合器训练时第二收益分配模块依据其对风险厌恶程度分配报酬给对应的边缘聚合器。

本发明的有益效果：

本发明将HFL系统中的实体间的交互建模为多层斯塔伯格博弈，利用纳什均衡求解三方实体的最优策略，可以显著减少与云服务器的高成本通信，并辅以高效的端-边缘更新，显著减少运行时间和本地迭代次数，保护了终端设备的数据隐私，边缘聚合器和云服务器基于激励方法也即边缘聚合器和云服务器的策略向终端设备和边缘聚合器提供报酬，实现合理的，公平的经济收益分配，即既能激励实体参与实际的HFL训练，实现实际的系统部署，又可以使得训练的模型达到良好的训练效果以及节约成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于云的联邦学习、基于边缘的联邦学习和端边云分层联邦学习的流程图。

图2为本发明的系统流程示意图。

图3为本发明的性能对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

完全信息条件下是指实体的个人属性(或类型)是HFL系统中的公共信息。

实施例1：一种端边云架构和完全信息下分层联邦学习的激励方法，包括以下步骤：

如图1所示，云服务器、边缘聚合器和终端设备组成了分层联邦学习系统，云服务器是领导者，也是任务发起者、模型拥有者。边缘聚合器在云服务器和多个终端设备之间运行，作为参数聚合的媒介。参与模型训练的所有终端设备的集合采用

表示，且每个终端设备n维护一个数据集χ_n，x_n是终端设备n参与模型训练时所贡献数据集χ_n的数据贡献量，也即终端设备n的策略。如果x_n＝0，表示终端设备n没有参与本轮的模型训练。所有边缘聚合器的集合采用L′＝{1，2，3，...，l，...，L}表示。

S3，基于分层联邦学习算法在终端设备、边缘聚合器和云服务器中分别构建对应的模型演化函数ω_n(t)；

所述模型演化函数ω_n(t)的演化公式如下：

式中，η_t表示学习率，

表示F_n(ω_n(t-1))损失函数的下降梯度，τ_e表示云服务器聚合一次时边缘聚合器的模型更新数目，τ_w表示边缘聚合器聚合一次时终端设备的模型更新数目，S_n表示终端设备n所连接的边缘聚合器μ(n)所连接的终端设备集合。

HFL学习算法是通过最小化所有本地数据集上的损失F(ω)的整体经验风险来学习全局模型ω。在每个终端设备上进行τ_w次本地更新之后，每个边缘聚合器聚集其连接的终端设备上传的模型参数，然后，在每个边缘聚合器模型聚合τ_e次之后，云服务器再聚合所有边缘聚合器的模型，在一轮HFL训练中，云服务器聚合τ_c次，并将ω_n(t)表示为第t次局部更新后的本地模型参数。

S4，利用纳什均衡求解终端设备、边缘聚合器、云服务器的策略，使终端设备的效用、边缘聚合器的效用和云服务器的效用达到最大化，包括如下步骤：

边缘聚合器l在博弈过程中第k步的策略

云服务器在博弈过程中第k步的策略P^k，并设定阈值∈；

所述阈值∈为大于零的最小常数。

根据最优策略

调整策略

所述终端设备的效用函数的计算公式为：

式中，f(x_n，x_-n)表示终端设备n的收益，J_nx_n表示终端设备n的成本，J_n表示终端设备n参与模型训练时的单位成本，

表示终端设备n的效用函数，x_-n表示属于S_n\{n}的终端设备的策略。

所述终端设备n的收益f(x_n，x_-n)的计算公式为：

f(x_n，x_-n)＝p_nR_μ(n)； (3)

式中，p_n表示终端设备n的报酬分配比例，R_μ(n)表示终端设备n所连接的边缘聚合器μ(n)给予它所连接的所有终端设备的报酬。

所述报酬分配比例p_n的计算公式为：

式中，θ_n表示终端设备n参与模型训练时所贡献数据集χ_n的数据质量，S_n\{n}表示从集合S_n中去除终端设备n，θ_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据质量，x_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据贡献量，也即终端设备i的策略。

由于终端设备参与模型训练的训练成本包括计算成本和收集成本两部分，且这两部分与用于模型训练的数据量成正比，因此，终端设备n每一轮的训练成本

也即为成本J_nx_n，

所述终端设备n参与每一轮模型训练的训练成本

的计算公式为：

式中，λ_e表示能耗的权重参数，E_n(x_n)表示终端设备n参与模型训练时进行一次本地迭代的能耗，λ_t表示延迟的权重参数，τ_c表示云服务器的模型更新数目，T_n(x_n)表示终端设备n参与模型训练时进行一次本地迭代的计算时间，C_E表示终端设备n收集单位数据的成本。其中，(λ_eE_n(x_n)+λ_tT_n(x_n))τ_cτ_eτ_w为计算成本，C_Ex_n为收集成本。

所述终端设备n参与模型训练时进行一次本地迭代的能耗E_n(x_n)的计算公式为：

式中，ζ表示终端设备n的芯片有效电容参数，c_n表示终端设备n收集单元数据的CPU周期，f_n表示终端设备n的CPU周期频率。

所述终端设备n参与模型训练时进行一次本地迭代的计算时间T_n(x_n)的计算公式为：

式中，

表示终端设备n的CPU时钟周期。

所述终端设备的最优策略

即为以下问题的解：

所述求解终端设备的最优策略

的步骤为：

a，证明所有终端设备子博弈纳什均衡的存在性；

将终端设备n的效用函数

定义在欧氏空间

的非负、非空、紧子集上，且

是一个连续函数，并对于所有x_n都是凹函数。

b，证明所有终端设备子博弈纳什均衡的唯一性；

使所有终端设备的效用函数

最大化的值是终端设备n对所有其它可能策略的最佳响应

所以

是唯一且稳定的斯塔克尔伯格均衡解，并有

c，求解终端设备的最优策略

如果在终端设备数据贡献量子博弈中有两个或两个以上的玩家，则可以根据它们所贡献数据集的数据质量和训练成本按升序顺序进行排序，然后可以找到一组模型训练参与者的集合S′_n，

且模型训练参与者的集合S′_n中的参与者满足：

并确保有：

式中，|S′_n|为模型训练参与者的集合S′_n的基，J_i表示终端设备i参与模型训练时的单位成本。

只有满足公式(10)条件的终端设备才能参与HFL，公式(11)给出了参与HFL的终端设备的最佳策略的封闭解，当终端设备n属于集合S′_n，终端设备n的最优策略，即数据贡献量为

反之数据贡献量则为0。

根据最优策略

调整策略

所述边缘聚合器的效用函数的计算公式为：

式中，h(R_l)表示边缘聚合器l的收益，

表示边缘聚合器l的成本，

表示边缘聚合器l的效用函数，R_l表示边缘聚合器l分配给它所连接的终端设备的报酬，也即边缘聚合器l的策略。

所述边缘聚合器l的收益h(R_l)的计算公式为：

h(R_l)＝ln(α_l+p_lR_C)； (13)

式中，α_l表示边缘聚合器l的风险规避参数，由边缘聚合器设置以反映边缘聚合器的成本，p_l表示边缘聚合器l的报酬分配比例，R_C表示云服务器支付给所有边缘聚合器的报酬。

所述边缘聚合器l的报酬分配比例p_l的计算公式为：

式中，S_l表示边缘聚合器l所连接的终端设备集合。

所述边缘聚合器l的成本

的计算公式为：

式中，β_l表示报酬比例系数，从成本的角度表示参与者参与HFL任务的意愿，β_l越大，参与模型训练意愿越高，E_l表示边缘聚合器l通信的能耗，T_l表示边缘聚合器l通信的延迟，C_L表示边缘聚合器的单位协调成本，|S_l|表示S_l的基。其中，C_L|S_l|为协调成本，

为分配给连接的终端设备的相对总报酬，τ_cτ_e(λ_eE_l+λ_tT_l)为通信成本。。

所述边缘聚合器l通信的延迟T_l的计算公式为：

T_l＝D/r_l； (16)

式中，D表示模型参数的数据大小，r_l表示边缘聚合器l的最大传输速率。

所述边缘聚合器l通信的能耗E_l的计算公式为：

式中，

表示边缘聚合器l的传输能耗。

所述边缘聚合器的最优策略

即为以下问题的解：

根据步骤S3.2得到的终端设备的最优策略

推导边缘聚合器的最优策略

以最大化边缘聚合器的效用，其中i∈S_l。因此终端设备的最优策略

的公式可以改写为：

其中，过渡变量Y_i的计算公式为：

式中，|S′_l|为边缘聚合器的模型训练参与者的集合S′_l的基。由等式(11)以及为了表示方便，我们用Y_i表示

由于边缘聚合器的效用函数是严格凹的，证明了所有边缘聚合器子博弈纳什均衡的存在性，在具有纳什均衡的边缘聚合器子博弈中，存在一个唯一的策略

使得边缘聚合器的效用函数

最大化，所述边缘聚合器的最优策略

的计算公式为：

式中，P表示云服务器的策略，Y_n可通过Y_i得到。

所述云服务器的效用函数的表达式为：

u^C(P)＝λg(∑_i∈Nθ_ix_i)-R_C； (22)

式中，λg(∑_i∈Nθ_ix_i)表示电力数据学习模型的收益也即云服务器的回报，g(·)为凹函数，λ表示系统参数，且λ＞0，P表示云服务器服务边缘聚合器的单位价格，也即云服务器的策略，u^C(P)表示云服务器的效用函数。

所述云服务器支付给所有边缘聚合器的报酬R_C的计算公式为：

R_C＝∑_i∈Nθ_ix_iP； (23)

因此对于云服务器而言，其效用u^C(P)为全局模型的收益减去成本，全局模型的收益反映了模型训练的性能。

所述云服务器的最优策略P^*为以下问题的解：

云服务器的决策P由终端设备的最优策略

和边缘聚合器的最优策略

决定。云服务器作为整个博弈的领导者，知道终端设备的子博弈中存在纳什均衡，所以云服务器只需要最大化自身效用就能找到最佳策略P^*。

云服务器的效用函数是严格凹的，因此证明了云服务器子博弈中纳什均衡的存在性和唯一性，我们可以由终端设备的最优策略

和边缘聚合器的最优策略

来求解以下等式导出P^*最优解；

S4.5，判断

如果是返回步骤S4.2，否则输出策略

策略

策略P^k即为最终的纳什均衡解也即终端设备的最优策略

边缘聚合器最优策略

和云服务器的最优策略P^*。

S5，终端设备基于终端设备的最优策略更新本地的电力数据学习模型，并将更新后的电力数据学习模型发送到对应的边缘聚合器，边缘聚合器对电力数据学习模型进行聚合，并将聚合后的电力数据学习模型发送到云服务器，同时基于边缘聚合器的最优策略对终端设备进行激励发放，云服务器对电力数据学习模型进行再次聚合，并基于云服务器的最优策略对边缘聚合器进行激励发放。

本发明将HFL系统中的实体间的交互建模为多层斯塔伯格博弈，并证明了纳什均衡解的存在和唯一性，并求出了封闭解，依据求解出的封闭解来对分配经济收益。如图2所示，一轮联邦学习的过程为：每个终端设备贡献本地收集的数据并基于步骤S3中的模型演化函数对本地的电力数据学习模型进行训练，训练后传送到对应的边缘聚合器，边缘聚合器基于模型演化函数对接收到的模型进行聚合，聚合后传送到云服务器，同时边缘聚合器对终端设备进行激励发放，云服务器对接收到的模型进行再次聚合，同时对边缘聚合器进行激励发送，聚合后的模型最终发送到终端设备。

实施例2：一种端边云架构和完全信息下分层联邦学习的激励系统，包括云服务器，所述云服务器与若干个边缘聚合器连接，每个边缘聚合器均与若干个终端设备连接，且云服务器中设有基于联邦学习算法建立的电力数据学习模型。所述边缘聚合器中设有用于向所连接的终端设备分配报酬的第一收益分配模块和用于对终端设备的数据贡献量进行评估的策略制定模块，云服务器中设有用于向边缘聚合器分配报酬的第二收益分配模块，终端设备训练时第一收益分配模块依据终端设备的数据贡献量和所贡献数据集的数据质量两个指标分配经济收益给对应的终端设备，边缘聚合器训练时第二收益分配模块依据其对风险厌恶程度分配经济收益给对应的边缘聚合器。在分层联邦学习系统中更偏向于给贡献更高数据质量、更多数据量的终端设备更多的收益以及对风险厌恶程度较低的边缘聚合器更多的收益，具体的报酬分配方法和策略制定的方法均采用实施例1中所述的方法。

首先，实体在执行每一轮HFL任务之前达成收益分配模块的协议。二是实体根据所给出的策略进行训练或参数聚合。第三，云服务器评估全局模型的表现，并从中获益，模型表现越好，云服务器的获益越多。云服务器和边缘聚合器分别根据边缘聚合器和终端设备实现的性能(即达成的收益分配模块的协议)为下一层的实体支付报酬。值得注意的是，本发明提出的带收益分配模块的HFL系统是可扩展的。在横向上，它可以扩展到每层都有更多的实体，比如多云服务器来协同训练一个模型。此外，在总纵向上，可以扩展到更多的层，例如可以根据聚合的实际频率来分离出更多的层。同时收益分配模块也可根据实际的问题，或者关注的任务需求进行适当的扩展，甚至替换。

本实施例中，“端”指终端设备，如电力监控站中的巡检机器人；“边”指边缘计算，如在电力监控站就近安装部署的边缘服务器即本发明中的边缘聚合器；“云”指云中心，如大型数据总监控中心。智能巡检是电力系统安全稳定运行的基础，巡检机器人拍摄到的图像或视频需要通过图像处理方法识别设备外观、检测设备缺陷，进而实现设备状态分析与缺陷诊断。利用深度学习实现智能巡检的赋能升级已经成为了此领域的热门研究方向，其中必须解决的问题之一就是场景适用的深度学习网络模型的生成。在电力物联网架构下，采用HFL系统来训练深度学习模型，在充分利用终端的丰富数据的同时，保护电力系统中数据的隐私，并有效地降低通信开销。我们拟采用该技术实现电力物联网架构下资源分配公平的分层联邦学习系统部署。

下面阐述进行合理资源定价的必要性：例如云侧的参数服务器想采用HFL进行模型训练(例如训练卷积神经网络模型)，采用端-边-云HFL进行模型训练可以显著减少与云的高成本通信，并辅以高效的端-边缘更新，显著减少运行时间和本地迭代次数。同时也利用了FL的优势，将数据保留的终端设备，保护了终端设备的数据隐私。云侧的参数服务器与终端设备和边缘侧的中间聚合器达成经济收益分配模块的协议，实现合理的，公平的经济收益分配，即既能激励实体参与实际的HFL训练，实现实际的系统部署，又可以使得训练的模型达到良好的训练效果以及节约成本。如果没有合理的资源定价，有很大的概率系统无法部署，或者会付出高成本换来较低的模型提升，从而导致较低的模型性能。可以看出，在这一过程中，制定出合理的资源定价是推动HFL部署的关键点，因此在这一过程中，就需要上述的带经济收益补偿的，资源分配合理的端-边-云架构下的HFL系统。

如图3所示，其中包括三种理性机制，分别为随机终端、贪婪终端和固定终端，这三种机制分别选择随机终端设备、全部终端设备和半数终端设备参与到博弈和训练过程。除了终端设备的选择不同以外，三种理性机制的其他设计与本发明的方法完全相同。还有三种非理性机制，随机、贪婪和固定算法是经常提到的，他们缺乏考虑终端设备或边缘聚合器的自私和理性。它们分别要求随机终端设备提供随机数据，所有终端设备提供所有数据，一半终端设备提供一半数据。

本发明所提出的方法相对于非理性机制的优势在于遵循个体理性，而相对于理性机制的优势在于终端设备的选择。从图中可以看出在云和终端设备方面，本发明提出的方法的效用比其他的理性机制要更高。这一结果符合设计有效激励机制的预期，我们希望让终端设备分配更多的奖励，鼓励训练成本低、数据质量高的终端设备贡献更多的数据，从而提高云的收益。因此提高云的效用是通过提高终端设备的效用和影响边缘聚合器的效用来实现的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S3中，所述模型演化函数的演化公式为：

式中，η_t表示学习率，

3.根据权利要求1所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，所述步骤S4包括如下步骤：

边缘聚合器l在博弈过程中第k步的策略

云服务器在博弈过程中第k步的策略P^k，并设定阈值∈；

根据最优策略

调整策略

根据最优策略

调整策略

S4.5，判断

如果是返回步骤S4.2，否则输出策略

策略

策略P^k即为最终的纳什均衡解也即终端设备的最优策略

边缘聚合器最优策略

和云服务器的最优策略P^*。

4.根据权利要求3所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S4.2中，所述终端设备的效用函数的计算公式为:

所述终端设备n的收益f(x_n，x_-n)的计算公式为：

f(x_n，x_-n)＝p_nR_μ(n)；

所述终端设备n的成本J_nx_n采用终端设备n每一轮的训练成本

表示，训练成本

的计算公式为：

5.根据权利要求4所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S4.2中，所述终端设备的最优策略

即为以下问题的解：

所述求解终端设备的最优策略

的步骤为：

a，证明所有终端设备子博弈纳什均衡的存在性；

b，证明所有终端设备子博弈纳什均衡的唯一性；

c，求解终端设备的最优策略

所述终端设备的最优策略

的计算公式为；

式中，|S′_n|为终端设备模型训练参与者的集合S′_n的基，

J_i表示终端设备i参与模型训练时的单位成本，θ_n表示终端设备n参与模型训练时所贡献数据集χ_n的数据质量，θ_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据质量；

所述模型训练参与者的集合S′_n中的参与者满足以下条件：

6.根据权利要求3所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S4.3中，所述边缘聚合器的效用函数的计算公式为：

式中，h(R_l)表示边缘聚合器l的收益，

表示边缘聚合器l的成本，

所述边缘聚合器l的收益h(R_l)的计算公式为：

h(R_l)＝ln(α_l+p_lR_C)；

所述边缘聚合器l的成本

的计算公式为：

7.根据权利要求6所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，所述边缘聚合器l的报酬分配比例p_l的计算公式为：

式中，S_l表示边缘聚合器l所连接的终端设备集合，θ_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据质量，x_i是终端设备i参与模型训练时所贡献数据集的数据贡献量，也即终端设备i的策略，

表示所有终端设备的集合。

8.根据权利要求6所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，所述边缘聚合器的最优策略

的计算公式为：

其中，Y_n的计算公式为：

9.根据权利要求3所述的端边云架构和完全信息下分层联邦学习的激励方法，其特征在于，在步骤S4.4中，所述云服务器的效用函数的表达式为：

u^C(P)＝λg(∑_i∈Nθ_ix_i)-R_C；

表示所有终端设备的集合，R_C表示云服务器支付给边缘聚合器的报酬，θ_i表示终端设备i参与模型训练时所贡献数据集χ_i的数据质量，x_i表示终端设备i参与模型训练时所贡献数据集X_i的数据贡献量，也即终端设备i的策略。

10.一种采用如权利要求1所述的端边云架构和完全信息下分层联邦学习的激励方法的系统，包括云服务器，所述云服务器与若干个边缘聚合器连接，每个边缘聚合器均与若干个终端设备连接，且云服务器中设有基于联邦学习算法建立的电力数据学习模型，其特征在于，所述边缘聚合器中设有用于向所连接的终端设备分配报酬的第一收益分配模块和用于对终端设备的数据贡献量和数据质量进行评估的策略制定模块，所述云服务器中设有用于向边缘聚合器分配报酬的第二收益分配模块，终端设备训练时第一收益分配模块依据终端设备的数据贡献量和所贡献数据集的数据质量分配报酬给对应的终端设备，边缘聚合器训练时第二收益分配模块依据其对风险厌恶程度分配报酬给对应的边缘聚合器。