CN112367109A

CN112367109A - 空地网络中由数字孪生驱动的联邦学习的激励方法

Info

Publication number: CN112367109A
Application number: CN202011045504.7A
Authority: CN
Inventors: 徐宁; 张芙蓉; 孙文; 张海宾; 张彦
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-12
Anticipated expiration: 2040-09-28
Also published as: CN112367109B

Abstract

本发明公开了空地网络中由数字孪生驱动的联邦学习的激励方法，引入动态数字孪生来捕获空地网络中的元素动态特性，为了提高联邦学习的准确性和可靠性，针对不同规模的空地网络设计了激励方案，以鼓励高质量客户端参与。为了在空地网络中执行联邦学习任务，一架无人机作为聚合器，地面客户端协同完成模型训练。对于客户端，引入丢包率误差和CPU频率误差，分别测量数字孪生体在通信环境和计算能力中的误差，来校正数字孪生模型的误差，从而建立了校准数字孪生模型。其数字孪生体与相应的客户端实时交互保持一致，并且可以快速捕获客户端的加入或退出，此外，客户端的决策过程可以通过数字孪生体在服务器上执行，减少了通信负载以及计算成本。

Description

空地网络中由数字孪生驱动的联邦学习的激励方法

技术领域

本发明属于空地网络中的联邦学习领域，特别涉及不同规模空地网络中由数字孪生驱动的联邦学习的激励方法。

背景技术

未来的6G通信系统将构建一个分布式空天地一体化网络，完成现有通信盲点部署，实现全球无缝覆盖。人工智能进一步赋予了其高效的自主管理和控制学习能力，但是，在空天地一体化网络中各种异构设备和动态变化的环境使数据收集和上下文感知更加困难。数字孪生是一种新兴的数字测绘技术，创建了物理实体的实时数字仿真模型，动态数据孪生由数据驱动实现了数字孪生体和物理实体双向闭环信息反馈。空地网络中的决策通常需要由分布在各种训练设备上的大量数据支持，但是数据孤岛的存在使大规模集中学习不切实际。联邦学习是一种分布式机器学习模型，设备不将原始数据发送到边缘服务器进行聚合，而是使用本地数据训练机器学习模型，使客户端能在不共享数据的情况下协同训练模型，从而打破了技术隔离中的数据孤岛问题。同时在联邦学习中需要引入激励方法以鼓励客户端参与联邦学习。

在空地网络中，不同网段在计算能力和获取数据方面的异质性以及高移动性，特别是在空中网络中，极大地影响了学习体系结构的构建和训练方法。由于空地网络的重要标志之一是高移动性，特别是空中网络和空间网络，实时捕捉动态变化是实现智能决策必不可少的，所以现有的研究成果不适用于空地网络中的联邦学习。此外，联邦学习过程是动态变化的，在训练过程中，应该允许移动设备的离开和加入，因此激励的粒度应该下沉到全局更新甚至局部更新。联邦学习作为一种本质上由数据驱动的机器学习，其关键在于参与的客户端的数量及其数据质量，由于联邦学习参与者的数据是私有的，数据质量和参与者对全局模型的贡献很难评估，所以现有的激励方法不能直接应用于空地网络的联邦学习中。现有的关于数字孪生的研究大多没有考虑到数字孪生的实际值与估计值之间的误差，另外，深入探讨联邦学习在空地网络中的具体应用的研究很少，现有的关于联邦学习激励的工作主要是激励数据量较大或训练时间较长的客户端，而忽略了更新的贡献度和信誉值。

发明内容

本发明基于Stackelberg博弈，针对不同规模的空地网络分别设计了由数字孪生驱动的联邦学习的静态激励方法和动态激励方法。

首先建立了基本的系统模型，如下所述：

A.数字孪生无人机辅助地面网络模型

考虑了一个由无人机、地面客户端和数字孪生体组成的无人机辅助地面网络场景。系统中包含了地面设备和无人机两类数字孪生体，我们使用集合N＝{1,2,...,N}表示网络中的客户端，对于客户端i,其在时间t的数字孪生DT_i ^c可以表示为

DT_i ^c(t)＝{F_i ^t(w),b_i(t),f_i(t)} (28)

w是客户端i的当前训练参数，F_i ^t(w)表示客户i的当前训练状态，b_i(t)表示丢包率， f_i(t)是设备在时间t时的CPU频率。我们引入丢包率误差

和CPU频率误差

来校正数字孪生模型的误差，分别测量数字孪生体在通信环境和计算能力下的误差。因此对于客户端i，校准的数字孪生是

输出

是更新的信誉值。即数字孪生可以根据客户端的属性、当前状态和网络状态动态反映每个客户端的信誉值。

对于无人机j，其数字孪生是

其中P(t)是其覆盖区域内节点的信誉分布，

是客户端本地更新和全局更新之间的误差集。在无人机辅助的地面网络中，设备在硬件、网络连接和计算能力方面是异质的。为了简化统计异质性问题，我们假设每个客户端的本地数据集是独立的，且分布相同。

B.联邦学习过程

每个客户端本地数据集的大小被定义为x_i，即客户端i具有x_i数据样本参与训练，参与训练的所有数据集的总大小是

首先，无人机作为任务发布者，发布全局模型ω。参与联邦学习的所有客户端将从服务器下载全局模型。然后，每个客户端使用自己的私有数据集来训练模型并获得本地模型更新。首先，他们上传新的权重或梯度到服务器，对于客户端i，其损失函数为

其中f_j(ω)是客户端i的本地数据集中的数据样本j上的损失函数。联邦学习通过最小化每个客户端在时间t时的局部损失函数F_i ^t(ω)的加权平均值来优化全局损失函数F(ω)，联邦学习中的全局模型更新表示为

和

无人机作为聚合器聚合这些参数更新全局模型，供客户端下载并开始新一轮训练，然后继续迭代，直到全局损失函数收敛。空地网络中的联邦学习的具体过程如下：在迭代

开始时，所有参与的客户端从聚合器获得相同的机器学习模型

然后每个客户端根据自己的本地数据训练模型，并更新本地模型得到模型

可以表示为

其中λ＞0是学习步骤，接下来客户端i将本地更新的模型

上传到聚合器，聚合器将收集参与客户端上传的所有参数并进行聚合，以更新全局模型，如

最后，参与的客户端从聚合器获得更新的全局模型

并进行新一轮的本地模型更新，并且所有交互记录都将存储在聚合器中。

C.贡献度量

我们设计一个公平的贡献衡量方法以鼓励合适的客户端参与联邦学习，用

表示客户端i的参与轮次数，并主要通过其参与度来衡量客户端i的贡献，客户端参与轮次数等于客户端参与的全局模型更新轮次数，通过每个客户端的本地模型更新到全局模型更新的贡献来度量每个客户端的数据质量，计算了本地模型更新和全局模型更新之间的误差。具体计算方法如下：

其中||·||₂是欧几里德范数，d_i越小，客户端i上传参数的质量越高。聚合器会在每个时间段内更新客户端i的

值，作为对客户端i提交的参数进行质量评估的依据。我们还引入了信誉方法，用

来表示每个客户端的信誉值，当信誉值p_i低于设定的阈值时，客户端i将失去参与模型训练的资格。

D.信誉价值模型

综合考虑客户端的通信能力、计算能力、训练结果的质量以及数字孪生的误差等因素，我们建立了如下基于主观逻辑的信誉值模型：

式中

表示全局更新的轮次数，

表示节点i在第

次全局更新期间的通信能力，

是由(8)计算的学习质量。

其中

和

分别是数字孪生体在通信和计算能力方面的误差。f(·)是对应于DT_i误差和模型更新的信誉值转换函数

其中δ是预设误差阈值，

是全局更新的总数，信誉值映射到范围(0,a)。

基于上述模型，我们针对不同规模的空地网络分别设计了由数字孪生驱动的联邦学习的静态激励方法和动态激励方法，具体如下：

对于地面设备在无人机的覆盖范围内的小型空地网络，我们设计了基于Stackelberg 博弈的静态激励方法，其中无人机的数字孪生体是领导者，地面客户端是追随者。

首先，聚合器在发布任务时提供一个奖励R,然后网络中的客户端根据奖励和自己的训练成本来决定自己的参与轮次数，

代表客户端i的决策，即客户端参与全局更新的轮次数。如果

则表示客户端不参与。

代表所有客户端的决策，

表示除了客户端i的其他客户端的训练决策，我们表示每个客户端每轮计算成本(完成一轮全局更新)为

每轮通信成本为

因此客户端i的效用函数定义为

即奖励减去成本。

聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励，定义为

其中α＞0是保证效用在最优R下大于或等于0的系统参数。

对于空地网络中的联邦学习场景，聚合器和客户端都尽其所能做出最优决策。聚合器调整其奖励R，而客户端i，调整其参与轮次

为了最大化它们的效用，可以分别表示为

基于以上模型，本发明针对不同规模的空地网络，分别设计了由数据孪生驱动的静态联邦学习激励方法和动态联邦学习激励方法，具体如下：

对于一个小型空地网络，无人机作为聚合器执行联邦学习任务，为了激励高质量设备参与训练，我们设计了基于Stackelberg博弈的静态激励机制，其中无人机的数字孪生体是领导者，追随者是地面客户端。

联邦学习的静态激励的过程描述为：

第一步：发布联邦学习任务和奖励。聚合器首先发布一个联邦学习任务，并生成一个全局模型供客户端下载以进行本地模型训练。对任务感兴趣的客户端需要将相关信息(c_i,k_i,b_i,f_i)发送给无人机的数字孪生体，作为对客户端选择的参考。

第二步：计算信誉值并公布奖励。在知道哪些客户端对任务感兴趣后，无人机的数字孪生体开始计算他们的信誉值并将结果通知所有客户端。根据客户端发送的数据和相应的数字孪生体计算参数μ_i，并使用1-|μ_i|来测量通信信道的质量。然后无人机的数字孪生体向客户端公布任务的奖励，这是博弈中领导者的决策阶段。

第三步：确定参与度。客户端i根据自身的训练成本和当前信誉值决定参与全局更新的轮次数

这是客户端的自我决策过程。

第四步：执行联邦学习过程。选定的客户端首先从聚合器下载一个公共全局模型，然后使用本地私有数据为固定轮次训练模型。每次客户完成训练后，他们都需要将新的模型参数发送给聚合器。然后，聚合器负责接收模型参数并将其聚合以获得新的全局模型。

在静态激励方法中，有两个阶段：第一阶段，聚合器发布任务并确定其奖励R；第二阶段，每个客户端制定决策，确定参与联邦学习的轮次数，最大化各自的效用。注意到Stackelberg博弈的第二阶段是非合作对策，我们引入纳什均衡和最佳反应策略的概念，并给出相关定理的证明。

对于给定的

客户端i的最佳反应策略

表示为

其中，c_i+k_i表示客户端i完成一轮全局更新所需的计算成本和通信成本之和。

为了在博弈的第二阶段找到纳什均衡，给出了计算最优反应策略的封闭解为

由此设计了计算博弈第二阶段纳什均衡的一种算法(算法1)。

聚合器的效用函数是一个凹二次函数，可求出最优的R。

其中，

是唯一的Stackelberg博弈均衡。由此，给出静态激励的具体算法(算法2)。

对于规模庞大的空地网络，我们设计了一种动态激励方法来选择最优客户端参与联邦学习。每一轮的全局更新都可以建模为一轮Stackelberg博弈。聚合器决定其奖励，动态选择客户端设备参与，客户端决定其本地训练轮次数。每轮全局更新完成后，客户端的信誉值将被更新。

在动态激励中，我们使用

来表示客户端i在第

轮全局更新期间的信誉值。我们使用

来表示第

次全局更新时的客户端集合，使用

来表示动态激励中客户端完成一轮本地训练的计算成本，

表示通信成本，t_i表示客户端i在一轮全局更新中进行的本地训练的轮次数

代表所有客户端的训练策略，

表示除了客户端i之外的所有客户端的训练策略，类似地，客户端i 的效用可定义为

其中

表示在第

次全局更新开始之前由无人机确定的奖励。聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励，定义为

其中η＞0是保证效用在最优

下大于或等于0的系统参数。因此，对于客户端和无人机，目标如下：

注意，最终无人机的最优总奖励R^*应表示为

其中

是全局更新的轮次数。

联邦学习的动态激励的过程描述为：

第一步：发布联邦学习任务和奖励。无人机发布一个联邦学习任务，并生成一个全局模型，供客户端下载进行本地训练。在收到当前覆盖范围内的客户端信息后，无人机的数字孪生体将公布这一轮全局更新的奖励

第二步：确定参与度。无人机的数字孪生体会向当前客户端公布经过计算的信誉值，对于每一次全局更新，客户端i将根据自己的训练成本和当前信誉值决定是否进行本地训练和本地训练轮次数t_i。请注意，如果是第一次参与全局更新，则客户端i的初始信誉值为1-|μ_i|。

第三步：执行联邦学习过程。所选的客户端首先从无人机下载全局模型，然后使用本地私有数据进行模型训练。当本地训练轮次数达到其预设轮次数时，停止训练，并将本地更新结果上传至无人机。无人机然后根据所有上传的结果执行全局更新，以生成新的全局模型。

第四步：评估本地模型更新的质量。在完成一轮全局更新后，聚合器将根据(9)评估客户端提交的参数。

第五步：更新信誉值。根据上一步的评估结果，按照(10)更新最后一轮全局更新的客户端的信誉值。

上面五个步骤是循环的，直到达到预设的全局更新轮次数。在动态激励中，每一轮全局更新都是一个Stackelberg博弈。博弈分为两个阶段：第一阶段，聚合器发布本轮奖励r；第二阶段，客户端确定本地训练的轮次数。每个客户端的最佳反应策略的封闭解可以表示为

对于动态激励方法，由于无人机的效用函数为凹二次函数，因此每轮博弈中聚合器的最优奖励为

其中

最后，t^*和

构成了这一轮Stackelberg博弈的唯一均衡。由此，我们给出了动态激励的具体算法(算法3)。

本发明引入动态数字孪生来捕获空地网络中的元素动态特性，为了提高联邦学习的准确性和可靠性，针对不同规模的空地网络设计了激励方案，以鼓励高质量客户端参与。

与现有技术相比，本发明具有如下有益效果：

本发明设计了一种用于空地网络的动态数字孪生结构，考虑了无人机和地面客户端的数字孪生体，捕获了空地网络中的动态特性。为了在空地网络中执行联邦学习任务，一架无人机作为聚合器，地面客户端协同完成模型训练。对于客户端，引入丢包率误差和CPU 频率误差，分别测量数字孪生体在通信环境和计算能力中的误差，来校正数字孪生模型的误差，从而建立了校准数字孪生模型。其数字孪生体与相应的客户端实时交互保持一致，并且可以快速捕获客户端的加入或退出，此外，客户端的决策过程可以通过数字孪生体在服务器上执行，减少了通信负载以及计算成本。

本发明考虑了客户端参与联邦学习的轮次数、更新的贡献度和客户端信誉值，通过客户端的参与度衡量客户端的贡献，通过客户端的本地模型更新到全局模型更新的贡献来度量每个客户端的数据质量，计算了本地模型更新和全局模型更新之间的误差，设计了一种公平的贡献衡量方法，以鼓励合适的客户端参与联邦学习。为了尽可能排除恶意客户端继续参与模型训练对全局模型精度和收敛时间产生的不利影响，我们引入了信誉方法，当客户端信誉值低于设定的阈值时，客户端将失去参与模型训练的资格。

本发明综合考虑通信能力、计算能力、训练结果的质量和数字孪生体的误差，建立了基于主观逻辑的信誉值模型，并给出了数字孪生误差和更新的信誉值之间的转换函数，该模型合理量化了数字孪生的误差、通信能力和计算能力，有助于提高联邦学习的准确性和可靠性。

本发明基于Stackelberg博弈分别考虑不同规模的空地网络中联邦学习的激励方法。对于小型空地网络，设计了静态激励方法，其中无人机的数字孪生体作为领导者，发布联邦学习的任务和奖励，根据收集到的信息计算客户端的信誉值，作为无人机对各个客户端的选择偏好，客户端作为追随者在权衡利益和成本后选择参与全局训练轮次。对于规模庞大的空地网络，由于高移动性的特性，空地网络环境可能发生变化，为了适应网络拓扑结构的变化，设计了一种动态激励方法，每一轮的全局更新都建模为一轮Stackelberg博弈, 无人机决定其奖励，动态选择客户端设备参与，客户端决定其本地训练轮次，每轮全局更新完成后，客户端的信誉值将被更新。本发明提出的激励方法能够吸引高质量的客户，提高全局模型的精度，实现可靠的联邦学习。

附图说明

图1为数字孪生无人机辅助地面网络模型图

图2为全局更新轮次数下训练损失比较图

图3为全局更新轮次数下模型精度的比较图

图4为能耗随客户端数据质量的不同而变化图

图5为无人机和客户端的社会整体福利随客户端数量的变化而变化折线图

图6为在不同的数字孪生误差下，模型精度随全局更新的轮次数变化折线图

图7为计算纳什均衡算法

图8为联邦学习的静态激励算法

图9为联邦学习的动态激励算法

图10为模拟参数。

具体实施方式

本发明是在空地网络中由数字孪生驱动的联邦学习激励方法，为了方便叙述具体实施方式，先进行系统模型的介绍，系统模型包括了数字孪生无人机辅助地面网络模型、联邦学习过程、贡献度量和信誉值模型。

图1中，由无人机、地面客户端以及数字孪生体组成无人机辅助地面网络场景。其中无人机在自然灾害或交通高峰期间为地面通信提供补充能力。覆盖范围广的移动无人机充当服务器，负责任务卸载、全局模型更新等。各种各样的地面设备，如智能手机和笔记本电脑作为客户端执行任务，并通过无线通信与无人机连接。此外，系统中还有两类数字孪生体，即地面设备的数字孪生体和无人机的数字孪生体。其中，作为物理实体和虚拟数字系统之间的映射，地面设备的数字孪生体被用来映射网络中的客户端，并部署在附近的基站上。无人机的数字孪生体管理着设备的数字孪生体的误差，并针对不同的用户有相应的偏好。无人机的数字孪生体作为领导者，为特定任务选择合适的客户端，我们使用集合N＝{1,2,...,N}来表示网络中的客户端。对于客户端i,其在时间t的数字孪生DT_i ^c可以表示为

DT_i ^c(t)＝{F_i ^t(w),b_i(t),f_i(t)} (55)

w是客户端i的当前训练参数，F_i ^t(w)表示客户i的当前训练状态，b_i(t)表示丢包率， f_i(t)是设备在时间t时的CPU频率。就数据感知而言，准确的全局感知仍然很困难，而且物理实体的数据不够详细，这导致数字孪生的预测和判断出现误差，为了校正数字孪生模型的误差，我们引入丢包率误差

和CPU频率误差

分别测量数字孪生体在通信环境和计算能力下的误差，误差可以是正的，也可以是负的。因此对于客户端i，校准的数字孪生是

输出DT_i ^c是更新的信誉值，也就是说，数字孪生体可以根据客户端的属性、当前状态和网络状态动态反映每个客户端的信誉值。

对于无人机j，其数字孪生是

其中P(t)是其覆盖区域内节点的信誉分布，

是客户端本地更新和全局更新之间的误差集，上述的数字孪生与相应的客户端实时交互以保持一致性，并且可以快速捕获客户端的加入或退出。此外，客户端的决策过程可以通过数字孪生在服务器上执行，减少了通信负载以及计算成本。此外，在无人机辅助的地面网络中，设备在硬件、网络连接和计算能力方面是异质的。为了简化统计异质性问题，我们假设每个客户端的本地数据集是独立的，且分布相同。

图1中，每个客户端都有自己的本地数据集，每个数据集的大小被定义为x_i，即客户端i具有x_i数据样本参与训练。参与训练的所有数据集的总大小是

首先，无人机作为任务发布者，发布全局模型ω。参与联邦学习的所有客户机将从服务器下载全局模型。然后，每个客户机使用自己的私有数据集来训练模型并获得本地模型更新。首先，他们上传新的权重或梯度到服务器。在这里，客户端已经完成了对全局模型的研究更新。对于客户端i，其损失函数为

和

此时，无人机作为聚合器聚合这些参数更新全局模型，供客户端下载并开始新一轮训练，然后继续迭代，直到全局损失函数收敛。空地网络中的联邦学习的具体过程如下：在迭代

可以表示为

其中λ＞0是学习步骤，接下来客户i将本地更新的模型

最后，参与的客户端从聚合器获得更新的全局模型

并进行新一轮的本地模型更新，并且所有交互记录都将存储在聚合器中。在联邦学习中，数字孪生体反映了客户端的行为，并与客户端进行实时交互，以检测当前通信信道状态作为信誉更新的参数之一。通过这些交互记录和参数信息，可以反映客户端的数据质量。

一个公平的贡献衡量方法可以鼓励合适的客户端参与联邦学习。我们用

表示客户端i的参与轮次数，并主要通过其参与度来衡量客户端i的贡献。客户端参与轮次数等于客户端参与的全局模型更新次数，这样一个度量是合理的，因为客户端i的训练总成本与其参与轮次数成正比。另一个重要度量是更新的贡献度，我们通过每个客户端的本地模型更新到全局模型更新的贡献来度量每个客户端的数据质量，计算了本地模型更新和全局模型更新之间的误差。具体计算方法如下：

值，作为对客户端i提交的参数进行质量评估的依据。客户端可能执行不可靠或恶意的本地模型更新，以获得更多实用程序或攻击聚合器。一方面，模型更新不可靠的主要原因是训练模型有虚假信息、提交虚假的模型更新、通过不安全的通信渠道传递更新的数据。另一方面，恶意客户端会故意发起严重的攻击，如中毒攻击。无论有意或无意的行为，都会降低模型更新的质量，并对最终的全局模型精度和收敛时间产生不利影响。为了尽可能排除恶意客户端继续参与模型训练，我们引入了信誉方法，我们用

为了提高联邦学习的学习质量，我们应该鼓励高质量节点的参与，即拥有充足的通信资源、强大计算能力和准确训练结果的节点。其中，节点i的通信能力和计算能力可以通过DT_i提供的丢包率b_i和CPU频率f_i来衡量，之前讨论了训练结果的质量

另外还注意到数字孪生体到训练设备的映射不准确，数字孪生体的误差也应适当考虑。综合考虑上述因素，我们建立了如下基于主观逻辑的信誉值模型：

式中

表示全局更新的轮次数，

表示节点i在第

次全局更新期间的通信能力，

是由(8)计算的学习质量。基于大多数节点是诚实的假设，

接近0意味着训练效果良好。

其中

和

其中δ是预设误差阈值，

是全局更新的总数，信誉值映射到范围(0,a)。在实际应用中， δ是动态变化的，它是根据所有客户端的更新误差值的分布来确定的。通过上面设计的信誉模型，可以合理量化数字孪生体的误差、通信能力和计算能力，有助于提高联邦学习的准确性和可靠性。

本发明基于Stackelberg博弈分别考虑了不同规模的空地网络中由数字孪生驱动的联邦学习的激励方法。

对于一个小型空地网络，其中地面设备在无人机的覆盖范围内，设计了基于Stackelberg博弈的静态激励方法，其中无人机的数字孪生体是领导者，地面客户端是追随者。在整个学习过程中，假设网络的拓扑结构是静态的，并且已知数字孪生的误差。

代表客户端i的决策，即客户端参与全局更新的轮次数。如果

则表示客户端不参与。

代表所有客户端的决策，

)表示除了客户端i的其他客户端的训练决策，我们表示每个客户端每轮计算成本(完成一轮全局更新)为

每轮通信成本为

因此客户端i的效用函数定义为

即奖励减去成本。我们以每个客户端的参与轮次数作为衡量贡献的标准，即参与轮次数越多，贡献越大，客户端获得的回报就越多。我们在轮次数前乘以信誉值ρ_i，这将鼓励信誉值较高的客户端参与。由于不评估每一轮客户端更新的质量，因此在静态激励下，信道的状态只能用来表示联邦学习开始前的信誉值。

聚合器的效用函数是参与学习过程的客户的总能耗减去聚合器的奖励，定义为

其中α＞0是保证效用在最优R下大于或等于0的系统参数。

对于空地网络中的联邦学习场景，无论是聚合器还是客户端，每个实体都尽其所能做出最优决策。聚合器调整其奖励R，而客户端i，调整其参与轮次

为了最大化它们的效用，可以分别表示为

联邦学习的静态激励的过程描述为：

第二步：计算信誉值并公布奖励。在知道哪些客户端对任务感兴趣后，无人机的数字孪生体开始计算他们的信誉并将结果通知所有客户端。根据客户端发送的数据和相应的数字孪生体计算参数μ_i，并使用1-|μ_i|来测量通信信道的质量。然后无人机的数字孪生体向客户端公布任务的奖励，这是博弈中领导者的决策阶段。

这实际上是客户端的自我决策过程。

第四步：执行联邦学习过程。选定的客户端首先从聚合器下载一个公共全局模型，然后使用本地私有数据为固定轮次训练模型。每次客户端完成训练后，他们都需要将新的模型参数发送给聚合器。然后，聚合器负责接收模型参数并将其聚合以获得新的全局模型。

每个客户端都想得到最大的奖励，但受到训练成本和信誉值的限制，类似地，聚合器希望鼓励尽可能多的高质量客户端参与，但它需要平衡奖励R。显然，无论是客户端还是聚合器，他们都试图做出最佳决策，以实现最大化它们的效用。如上所述，我们利用Stackelberg博弈建立了联邦学习的激励方法。在静态激励中，无人机的数字孪生体是博弈模型的领导者，客户端是追随者。在这种情况下，我们假设聚合器和客户端都知道每个客户端的训练成本和信誉值的分布情况，也就是说，它满足信息完全的条件。

在静态激励方法中，有两个阶段：第一阶段，聚合器发布任务并确定其奖励R；第二阶段，每个客户端制定决策，确定参与联邦学习的轮次数，最大化各自的效用。

注意到Stackelberg博弈的第二阶段是非合作对策，在聚合器给出的奖励R下，任何客户端都无法通过单方面改变当前策略获得任何额外收益,即纳什均衡的概念。

定义1：纳什均衡，一组策略

是博弈第二阶段的纳什均衡，如果对于任何客户端i

纳什均衡的存在很重要，因为纳什均衡策略是稳定的(没有参与者进行单方面的更改)，而非纳什均衡策略是不稳定的。正是由于纳什均衡策略的稳定性，聚合器可以预测客户端的决策，然后确定一个最优的奖励值R，使效用最大化。在证明纳什均衡存在之前，我们首先计算出每个客户端的最佳反应策略。

定义2：最佳反应策略，给定

如果策略使所有的

的

最大化，则策略是客户端i的最佳反应策略，用

表示。

引理1：给定

客户端i的最佳反应策略为

c_i+k_i表示客户端i完成一轮全局更新所需的计算成本和通信成本之和。

证明：根据定义1和定义2，我们可以知道每个客户端在一个纳什均衡中都会做出最佳的反应策略。为了找到客户端i的最佳反应策略，我们需要推导(12)相对于

的一阶导数。

在(17)的基础上，我们继续推导出U_i对

的二阶导数

显然，二阶导函数总是小于零，客户端的效用函数是一个严格凹函数，即存在唯一的最大值点。换言之，给定任何R≥0和其他客户端的策略系数

客户端i的最佳反应策略如果存在的话是唯一的。因此，通过直接使一阶导函数(17)等于零，可以求解

在R 上的最佳关系式，如下所示：

如果右边的项目为负数，客户端i选择不参与学习过程，即

否则，(20)是客户端i的最佳反应策略。因此，我们有(16)。

为了在博弈的第二阶段找到纳什均衡，有必要计算每一个客户端的最佳反应策略的一个封闭解，而(20)仍然包括了其他客户端的决策，因此，我们给出了计算最优反应策略的封闭解，并证明了纳什均衡的存在的唯一性。

定理1：给定R＞0，设

为一个纳什均衡策略，设

表示参与训练的客户端集合。我们有

1)

2)最佳反应策略的封闭解可以表示为

3)如果

则

4)假设客户端的排序为

设h为[2,N]中的最大整数，使得

则

证明：首先证明集合

的大小大于或等于2。当

小于2时，集合中只有0或1个客户端。此时，第二阶段的博弈毫无意义，任何一个客户端都可以通过改变策略来增加其效用，这与纳什均衡假设相矛盾。因此，

然后，我们证明(21)的封闭解。因为没有参与学习的客户端参与轮次设为0，即

如果

则

将它代入 (19)，得到

然后将

中的所有客户端的(22)相加，得到

最后，将(23)代入(22)中，我们得到以下公式：

因此，我们可以得到(21)。

直观上，如果一个客户端的单位训练成本较小，而信誉值大于其他客户端，则客户端越有可能参与学习过程。首先，我们有

对于任何

根据(24)，

即

因此，我们可以进一步推导出

即

假设存在一个客户端m，满足

而

由于客户端m不在集合

中，因此

我们可以将其代入客户端m的第一个导函数，如下所示：

在这种情况下，(27)大于零，这意味着客户端m可以通过增加t_m来获得更大的效用值，即

因此，如果

则必然存在

最后，根据1)和3)，很容易推导出4)的结论，过程没有给出。

根据以上分析和证明，我们给出了计算博弈第二阶段纳什均衡的一种算法(算法1)，如图7所示。算法1的输入是客户端集合

单位训练成本集合

和

信誉值集合

输出是所有客户端的最优决策，即参与的轮次。算法1的主要运行时间是第一步的排序，因此时间复杂度为O(nlogn)。

定理2：存在唯一的Stackelberg博弈均衡，其中R^*是在R∈[0,∞)上使(13)中聚合器效用最大化的唯一值，当R＝R^*时，算法1给出了客户端的最优决策集

证明：将(21)代入聚合器的效用函数中，我们得到

其中，

我们推导出(28)对R的一阶导数

聚合器的效用函数是一个凹二次函数，因此直接令(30)为0，可求出最优的R。

此时，

是唯一的Stackelberg博弈均衡。

在上述的分析和证明的基础上，证明了存在唯一的Stackelberg博弈均衡，并得到了博弈过程中两个阶段最优决策的封闭解。因此，如图8所示，我们可以给出静态激励的具体算法流程(算法2)。

从算法2可以看出，首先执行算法1来确定参与联邦学习的客户端的集合

然后继续得到R^*和

第3行中的while循环控制全局更新，其中

决定全局更新的最大轮次数，

防止一个或部分节点参与过多轮(length＞1为预设值)，导致全局模型陷入局部优化，削弱了泛化能力。然后，第6行中的while循环是客户端的本地训练阶段，其中local_rounds是为每个客户端预先设置的本地训练轮次。当客户端j完成本地训练后，可以将

减少1。如果

减小为0，将j从集合

中移除(第10-13行)。最后，执行全局更新(第15行)，直到循环结束，并返回到最优模型ω^*。

考虑到空地网络规模庞大，一架无人机很难覆盖整个区域。为了适应网络拓扑结构的变化，我们设计了一种动态激励方法来选择最优客户端参与联邦学习。在动态方法过程中，我们假设每一轮的客户端集合都会发生变化，这种变化是由数字孪生动态捕获的。每一轮的全局更新都可以建模为一轮Stackelberg博弈。聚合器决定其奖励，动态选择客户端设备参与，客户端决定其本地训练轮次数。每轮全局更新完成后，客户端的信誉值将被更新。因此，在动态激励中，我们使用

来表示客户端i在第

轮全局更新期间的信誉值。

由于客户端集合是动态变化的，所以我们使用

来表示第

次全局更新时的客户端集合。为了简单起见，我们继续使用

和

来表示动态激励中客户端的计算成本和通信成本。但与静态激励不同的是，动态激励中的

代表了客户端完成一轮本地训练的计算成本。动态激励中的信誉值是不断更新的。t_i表示客户端i在一轮全局更新中进行的本地训练的轮次数。如果t_i＝0，即客户端i不参与此轮全局更新。

代表所有客户端的训练策略，

表示除了客户端i之外的所有客户端的训练策略，类似地，客户端i的效用可定义为

其中

表示在第

其中η＞0是保证效用在最优

注意，最终无人机的最优总奖励R^*应表示为

其中

是全局更新的轮次数。

联邦学习的动态激励方法实施过程如下：

上面五个步骤是循环的，直到达到预设的全局更新轮次数，同样地，我们用Stackelberg 博弈来模拟动态激励方法，其中无人机的数字孪生体是博弈模型的领导者，而客户端是追随者。注意，在动态激励中，每一轮全局更新都是一个Stackelberg博弈。博弈分为两个阶段：第一阶段，聚合器发布本轮奖励r；第二阶段，客户端确定本地训练的轮次。每个客户端的最佳反应策略的封闭解可以表示为

相关证明参考静态激励方法中的证明过程，除了动态方法根据单位训练计算成本与信誉值之比

来选择客户端。

其中

最后，t^*和

构成了这一轮Stackelberg博弈的唯一均衡。如图9所示，我们给出了动态激励的具体算法流程(算法3)。算法3和算法2的整个流程是有点相似的，但是由于两个方案中客户端的决策不同，两个算法在一些地方也有所不同。

与算法2相反，算法3的预设值是全局更新的轮次(全局轮次，第2行)，本地训练的轮次数由客户端决定。

在全局更新的循环体中调用算法3中的算法1，并在每次全局更新开始之前执行一次。算法1只需要在算法2中调用一次。

在算法3完成每一轮全局更新后，需要执行信誉更新(第12行)，以便算法1的后续执行可以排除质量较差的客户端。

注意，在算法3中，信誉更新有一个受限操作，即确保所有信誉值都在间隔(0,1.5]内。如果信誉更新后信誉值小于或等于零，我们将重新分配一个非常小的值。如果大于1.5，则直接设置为1.5，这是为了防止某些节点执行过多轮的本地训练。

下面对本发明的具体的实施例进行说明。

我们使用Pytorch 0.4.1软件构建了一个空地网络中的联邦学习模型，并使用经典数据集MNIST对所提出的激励方法的性能进行了评估和验证。MNIST数据集中有60，000个训练样本和10，000个测试样本，每个客户端可以按照随机比例分配MINST数据集中的数据。采用学习率为0.1％的随机梯度下降法(SGD)对大小为10的小批量进行训练。我们总共设立了10到100个客户端。在静态激励下，我们假设所有客户端都在一架无人机的覆盖范围内。在动态激励下，无人机的通信范围只能同时覆盖20个客户端。具体参数设置见图10。

由于轮次数只能取整数，因此无论是静态激励还是动态激励，都需要计算客户端i的t_i或

后进行舍入运算，我们采用了一个只需成本的方案作为基准，选择训练成本较低的客户端参与联邦学习。

如图2所示，三种方案的损失函数都能在全局更新下收敛。可以看出，训练损失值随着全局更新轮次数而减小，在8次左右的全局更新后收敛。动态激励优于其他两种方案的原因在于，该基准不考虑数据质量，只考虑训练成本来选择客户端参与训练。静态方法虽然考虑了信誉值，但并不动态更新信誉值，无法持续消除不良客户。

图3比较了三种方案下的模型精度与不同的全局更新轮次数。可以看出，随着全局更新轮次数的增加，三种方案的精度也在提高。模型的精度首先迅速提高，然后逐渐趋于收敛。这可以由图2解释。动态激励下的精度最高，最终可达90％以上，因为每一轮全局更新后，都会对客户端的业绩进行评估，低质量客户端的参与度会不断降低。由于基准只考虑了客户端的训练成本，静态方法下的模型精度可以达到85％以上，比基准提高了5％。

为了衡量对通信效率的影响，我们比较了不同级别客户端数据质量差异水平下模型精度达到85％所需的能耗。如图4所示，当所有客户端的数据质量调整到相似的水平时，静态激励比动态激励能耗更少。然而，随着客户端数据质量异质性的增加，动态激励方法的能耗开始低于静态激励方法。造成这种现象的原因是在客户端的数据质量相似的情况下，动态激励方法的过滤效果不明显，但会增加能耗。客户端的数据质量异质性越大，动态激励方法对客户端的选择就越好。因此，当客户端的数据质量比较相似时，静态激励方法更为合适，因为它能以较少的能耗达到相同的精度。当客户端的数据质量或信誉值不同时，动态激励方法的性能更好。

社会福利的比较，即三种方案下的无人机效用和客户端效用之和如图5所示。随着客户端总数的增加，社会整体福利先增加，在40个客户端左右达到峰值，然后下降。这是因为随着客户端数量的增加，无人机的效用也在增加，但由于竞争对手增多，客户端的效用降低。另外，由于基准只选择成本较低的客户端，导致客户端的效用高于静态激励方法，因此基准的社会福利高于静态激励。静态激励方案选择客户端时不仅要考虑成本，还要考虑可靠性和更新的贡献度，因此模型精度比基准更高，如图3所示。动态激励方法的社会福利最高的原因是它鼓励客户端尽可能多地参与全局更新，即使客户端只完成了一轮本地模型训练。这大大提高了无人机的实用性。

图6所示为不同数字孪生误差下模型精度的比较。当数字孪生无误差时，其精度最高可达94％以上。随着数字孪生误差的增大，模型的精度会降低。尽管如此，动态方法下的模型精度仍高于基准(数字孪生误差对基准影响不大，因为它不影响基准方案中客户端的选择)。对于动态激励，这种误差会给信誉更新带来不稳定因素，导致客户端选择的可靠性降低。然而，动态激励的信誉更新不仅考虑了数字孪生的误差，而且衡量了客户端本地更新相对于全局更新的质量。因此，当数字孪生的误差不是很大时，在动态激励下，模型的精度仍然可以达到较高的水平。

本发明设计了两种空地网络中联邦学习的激励方法。为了捕捉网络动态，考虑了无人机和地面客户端设备的数字孪生，通过信誉值消除了数字孪生值与真实状态值的误差。此外，我们利用Stackelberg博弈模型设计激励方法，鼓励具有可靠本地模型更新的高质量客户端参与学习过程。仿真结果表明，所提出的激励方法能够吸引高质量的客户端，提高全局模型的精度，实现可靠的联邦学习。

Claims

1.空地网络中由数字孪生驱动的联邦学习的激励方法，其特征在于，首先建立基本的系统模型：

A.数字孪生无人机辅助地面网络模型

考虑了一个由无人机、地面客户端和数字孪生体组成的无人机辅助地面网络场景，系统中包含了地面设备和无人机两类数字孪生体，我们使用集合N＝{1,2,...,N}表示网络中的客户端，对于客户端i,其在时间t的数字孪生DT_i ^c可以表示为

DT_i ^c(t)＝{F_i ^t(w),b_i(t),f_i(t)} (1)

w是客户端i的当前训练参数，

表示客户i的当前训练状态，b_i(t)表示丢包率，f_i(t)是设备在时间t时的CPU频率，我们引入丢包率误差

和CPU频率误差

来校正数字孪生模型的误差，分别测量数字孪生体在通信环境和计算能力下的误差，因此对于客户端i，校准的数字孪生是

输出

是更新的信誉值，即数字孪生可以根据客户端的属性、当前状态和网络状态动态反映每个客户端的信誉值；

对于无人机j，其数字孪生是

其中P(t)是其覆盖区域内节点的信誉分布，

是客户端本地更新和全局更新之间的误差集，在无人机辅助的地面网络中，设备在硬件、网络连接和计算能力方面是异质的，为了简化统计异质性问题，我们假设每个客户端的本地数据集是独立的，且分布相同；

B.联邦学习过程

首先，无人机作为任务发布者，发布全局模型ω，参与联邦学习的所有客户端将从服务器下载全局模型，然后，每个客户端使用自己的私有数据集来训练模型并获得本地模型更新，首先，他们上传新的权重或梯度到服务器，对于客户端i，其损失函数为

其中f_j(ω)是客户端i的本地数据集中的数据样本j上的损失函数，联邦学习通过最小化每个客户端在时间t时的局部损失函数

的加权平均值来优化全局损失函数F(ω)，联邦学习中的全局模型更新表示为

和

无人机作为聚合器聚合这些参数更新全局模型，供客户端下载并开始新一轮训练，然后继续迭代，直到全局损失函数收敛，空地网络中的联邦学习的具体过程如下：在迭代

可以表示为

其中λ＞0是学习步骤，接下来客户端i将本地更新的模型

最后，参与的客户端从聚合器获得更新的全局模型

并进行新一轮的本地模型更新，并且所有交互记录都将存储在聚合器中；

C.贡献度量

表示客户端i的参与轮次数，并主要通过其参与度来衡量客户端i的贡献，客户端参与轮次数等于客户端参与的全局模型更新轮次数，通过每个客户端的本地模型更新到全局模型更新的贡献来度量每个客户端的数据质量，计算了本地模型更新和全局模型更新之间的误差，具体计算方法如下：

其中||·||₂是欧几里德范数，d_i越小，客户端i上传参数的质量越高，聚合器会在每个时间段内更新客户端i的

值，作为对客户端i提交的参数进行质量评估的依据，我们还引入了信誉方法，用

来表示每个客户端的信誉值，当信誉值p_i低于设定的阈值时，客户端i将失去参与模型训练的资格；

D.信誉价值模型

式中

表示全局更新的轮次数，

表示节点i在第

次全局更新期间的通信能力，

是由(8)计算的学习质量，

其中

和

分别是数字孪生体在通信和计算能力方面的误差，f(·)是对应于DT_i误差和模型更新的信誉值转换函数

其中δ是预设误差阈值，

是全局更新的总数，信誉值映射到范围(0,a)；

对于地面设备在无人机的覆盖范围内的小型空地网络，无人机作为聚合器执行联邦学习任务，为了激励高质量设备参与训练，我们设计了基于Stackelberg博弈的静态激励方法，其中无人机的数字孪生体是领导者，地面客户端是追随者；

代表客户端i的决策，即客户端参与全局更新的轮次数，如果

则表示客户端不参与，

代表所有客户端的决策，

每轮通信成本为

因此客户端i的效用函数定义为

即奖励减去成本；

其中α＞0是保证效用在最优R下大于或等于0的系统参数；

对于空地网络中的联邦学习场景，聚合器和客户端都尽其所能做出最优决策，聚合器调整其奖励R，而客户端i，调整其参与轮次

为了最大化它们的效用，可以分别表示为

2.根据权利要求1所述的空地网络中由数字孪生驱动的联邦学习的激励方法，其特征在于，联邦学习的静态激励为：

第一步：发布联邦学习任务和奖励，聚合器首先发布一个联邦学习任务，并生成一个全局模型供客户端下载以进行本地模型训练，对任务感兴趣的客户端需要将相关信息(c_i,k_i,b_i,f_i)发送给无人机的数字孪生体，作为对客户端选择的参考；

第二步：计算信誉值并公布奖励，在知道哪些客户端对任务感兴趣后，无人机的数字孪生体开始计算他们的信誉值并将结果通知所有客户端，根据客户端发送的数据和相应的数字孪生体计算参数μ_i，并使用1-|μ_i|来测量通信信道的质量，然后无人机的数字孪生体向客户端公布任务的奖励，这是博弈中领导者的决策阶段；

第三步：确定参与度，客户端i根据自身的训练成本和当前信誉值决定参与全局更新的轮次数

这是客户端的自我决策过程；

第四步：执行联邦学习过程，选定的客户端首先从聚合器下载一个公共全局模型，然后使用本地私有数据为固定轮次训练模型，每次客户完成训练后，他们都需要将新的模型参数发送给聚合器，然后，聚合器负责接收模型参数并将其聚合以获得新的全局模型；

在静态激励方法中，有两个阶段：第一阶段，聚合器发布任务并确定其奖励R；第二阶段，每个客户端制定决策，确定参与联邦学习的轮次数，最大化各自的效用，注意到Stackelberg博弈的第二阶段是非合作对策，引入纳什均衡和最佳反应策略的概念，并给出相关定理的证明；

对于给定的

客户端i的最佳反应策略

表示为

其中，c_i+k_i表示客户端i完成一轮全局更新所需的计算成本和通信成本之和；

由此设计了计算博弈第二阶段纳什均衡的一种算法(算法1)；

聚合器的效用函数是一个凹二次函数，可求出最优的R；

其中，

是唯一的Stackelberg博弈均衡。

3.根据权利要求1所述的空地网络中由数字孪生驱动的联邦学习的激励方法，其特征在于，静态激励的具体算法：

对于规模庞大的空地网络，我们设计了一种动态激励方法来选择最优客户端参与联邦学习，每一轮的全局更新都可以建模为一轮Stackelberg博弈，聚合器决定其奖励，动态选择客户端设备参与，客户端决定其本地训练轮次数，每轮全局更新完成后，客户端的信誉值将被更新；

在动态激励中，我们使用

来表示客户端i在第

轮全局更新期间的信誉值，我们使用

来表示第

次全局更新时的客户端集合，使用

来表示动态激励中客户端完成一轮本地训练的计算成本，

代表所有客户端的训练策略，

其中

表示在第

次全局更新开始之前由无人机确定的奖励，聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励，定义为

其中η＞0是保证效用在最优

注意，最终无人机的最优总奖励R^*应表示为

其中

是全局更新的轮次数。

4.根据权利要求1所述的空地网络中由数字孪生驱动的联邦学习的激励方法，其特征在于，联邦学习的动态激励方法如下：

第一步：发布联邦学习任务和奖励，无人机发布一个联邦学习任务，并生成一个全局模型，供客户端下载进行本地训练，在收到当前覆盖范围内的客户端信息后，无人机的数字孪生体将公布这一轮全局更新的奖励

第二步：确定参与度。无人机的数字孪生体会向当前客户端公布经过计算的信誉值，对于每一次全局更新，客户端i将根据自己的训练成本和当前信誉值决定是否进行本地训练和本地训练轮次数t_i，请注意，如果是第一次参与全局更新，则客户端i的初始信誉值为1-|μ_i|；

第三步：执行联邦学习过程，所选的客户端首先从无人机下载全局模型，然后使用本地私有数据进行模型训练，当本地训练轮次数达到其预设轮次数时，停止训练，并将本地更新结果上传至无人机，无人机然后根据所有上传的结果执行全局更新，以生成新的全局模型；

第四步：评估本地模型更新的质量，在完成一轮全局更新后，聚合器将根据(9)评估客户端提交的参数；

第五步：更新信誉值，根据上一步的评估结果，按照(10)更新最后一轮全局更新的客户端的信誉值；

上面五个步骤是循环的，直到达到预设的全局更新轮次数，在动态激励中，每一轮全局更新都是一个Stackelberg博弈，博弈分为两个阶段：第一阶段，聚合器发布本轮奖励r；第二阶段，客户端确定本地训练的轮次数。每个客户端的最佳反应策略的封闭解可以表示为

其中

最后，t^*和

构成了这一轮Stackelberg博弈的唯一均衡，由此，我们给出了动态激励的具体算法(算法3)；