CN112367109A - 空地网络中由数字孪生驱动的联邦学习的激励方法 - Google Patents

空地网络中由数字孪生驱动的联邦学习的激励方法 Download PDF

Info

Publication number
CN112367109A
CN112367109A CN202011045504.7A CN202011045504A CN112367109A CN 112367109 A CN112367109 A CN 112367109A CN 202011045504 A CN202011045504 A CN 202011045504A CN 112367109 A CN112367109 A CN 112367109A
Authority
CN
China
Prior art keywords
client
global
model
training
aggregator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011045504.7A
Other languages
English (en)
Other versions
CN112367109B (zh
Inventor
徐宁
张芙蓉
孙文
张海宾
张彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202011045504.7A priority Critical patent/CN112367109B/zh
Publication of CN112367109A publication Critical patent/CN112367109A/zh
Application granted granted Critical
Publication of CN112367109B publication Critical patent/CN112367109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了空地网络中由数字孪生驱动的联邦学习的激励方法,引入动态数字孪生来捕获空地网络中的元素动态特性,为了提高联邦学习的准确性和可靠性,针对不同规模的空地网络设计了激励方案,以鼓励高质量客户端参与。为了在空地网络中执行联邦学习任务,一架无人机作为聚合器,地面客户端协同完成模型训练。对于客户端,引入丢包率误差和CPU频率误差,分别测量数字孪生体在通信环境和计算能力中的误差,来校正数字孪生模型的误差,从而建立了校准数字孪生模型。其数字孪生体与相应的客户端实时交互保持一致,并且可以快速捕获客户端的加入或退出,此外,客户端的决策过程可以通过数字孪生体在服务器上执行,减少了通信负载以及计算成本。

Description

空地网络中由数字孪生驱动的联邦学习的激励方法
技术领域
本发明属于空地网络中的联邦学习领域,特别涉及不同规模空地网络中由数字孪生驱 动的联邦学习的激励方法。
背景技术
未来的6G通信系统将构建一个分布式空天地一体化网络,完成现有通信盲点部署, 实现全球无缝覆盖。人工智能进一步赋予了其高效的自主管理和控制学习能力,但是,在 空天地一体化网络中各种异构设备和动态变化的环境使数据收集和上下文感知更加困难。 数字孪生是一种新兴的数字测绘技术,创建了物理实体的实时数字仿真模型,动态数据孪 生由数据驱动实现了数字孪生体和物理实体双向闭环信息反馈。空地网络中的决策通常需 要由分布在各种训练设备上的大量数据支持,但是数据孤岛的存在使大规模集中学习不切 实际。联邦学习是一种分布式机器学习模型,设备不将原始数据发送到边缘服务器进行聚 合,而是使用本地数据训练机器学习模型,使客户端能在不共享数据的情况下协同训练模 型,从而打破了技术隔离中的数据孤岛问题。同时在联邦学习中需要引入激励方法以鼓励 客户端参与联邦学习。
在空地网络中,不同网段在计算能力和获取数据方面的异质性以及高移动性,特别是 在空中网络中,极大地影响了学习体系结构的构建和训练方法。由于空地网络的重要标志 之一是高移动性,特别是空中网络和空间网络,实时捕捉动态变化是实现智能决策必不可 少的,所以现有的研究成果不适用于空地网络中的联邦学习。此外,联邦学习过程是动态 变化的,在训练过程中,应该允许移动设备的离开和加入,因此激励的粒度应该下沉到全 局更新甚至局部更新。联邦学习作为一种本质上由数据驱动的机器学习,其关键在于参与 的客户端的数量及其数据质量,由于联邦学习参与者的数据是私有的,数据质量和参与者 对全局模型的贡献很难评估,所以现有的激励方法不能直接应用于空地网络的联邦学习 中。现有的关于数字孪生的研究大多没有考虑到数字孪生的实际值与估计值之间的误差, 另外,深入探讨联邦学习在空地网络中的具体应用的研究很少,现有的关于联邦学习激励 的工作主要是激励数据量较大或训练时间较长的客户端,而忽略了更新的贡献度和信誉 值。
发明内容
本发明基于Stackelberg博弈,针对不同规模的空地网络分别设计了由数字孪生驱动 的联邦学习的静态激励方法和动态激励方法。
首先建立了基本的系统模型,如下所述:
A.数字孪生无人机辅助地面网络模型
考虑了一个由无人机、地面客户端和数字孪生体组成的无人机辅助地面网络场景。系 统中包含了地面设备和无人机两类数字孪生体,我们使用集合N={1,2,...,N}表示网络中 的客户端,对于客户端i,其在时间t的数字孪生DTi c可以表示为
DTi c(t)={Fi t(w),bi(t),fi(t)} (28)
w是客户端i的当前训练参数,Fi t(w)表示客户i的当前训练状态,bi(t)表示丢包率, fi(t)是设备在时间t时的CPU频率。我们引入丢包率误差
Figure BDA0002707837330000021
和CPU频率误差
Figure BDA0002707837330000022
来校正数字孪生模型的误差,分别测量数字孪生体在通信环境和计算能力下的误差。因此对于客户端i,校准的数字孪生是
Figure BDA0002707837330000023
输出
Figure BDA0002707837330000024
是更新的信誉值。即数字孪生可以根据客户端的属性、当前状态和网络状 态动态反映每个客户端的信誉值。
对于无人机j,其数字孪生是
Figure BDA0002707837330000025
其中P(t)是其覆盖区域内节点的信誉分布,
Figure BDA0002707837330000026
是客户端本地更新和全局更新之间 的误差集。在无人机辅助的地面网络中,设备在硬件、网络连接和计算能力方面是异质的。 为了简化统计异质性问题,我们假设每个客户端的本地数据集是独立的,且分布相同。
B.联邦学习过程
每个客户端本地数据集的大小被定义为xi,即客户端i具有xi数据样本参与训练,参 与训练的所有数据集的总大小是
Figure BDA0002707837330000027
首先,无人机作为任务发布者,发布全局模型ω。参与联邦学习的所有客户端将从服务器下载全局模型。然后,每个客户端使用自己的私有数据集来训练模型并获得本地模型更新。首先,他们上传新的权重或梯度到服务器,对于客户端i,其损失函数为
Figure BDA0002707837330000031
其中fj(ω)是客户端i的本地数据集中的数据样本j上的损失函数。联邦学习通过最小 化每个客户端在时间t时的局部损失函数Fi t(ω)的加权平均值来优化全局损失函数F(ω), 联邦学习中的全局模型更新表示为
Figure BDA0002707837330000032
Figure BDA0002707837330000033
无人机作为聚合器聚合这些参数更新全局模型,供客户端下载并开始新一轮训练,然 后继续迭代,直到全局损失函数收敛。空地网络中的联邦学习的具体过程如下:在迭代
Figure BDA0002707837330000034
开始时,所有参与的客户端从聚合器获得相同的机器学习模型
Figure BDA0002707837330000035
然后每个客户端根 据自己的本地数据训练模型,并更新本地模型得到模型
Figure BDA0002707837330000036
可以表示为
Figure BDA0002707837330000037
其中λ>0是学习步骤,接下来客户端i将本地更新的模型
Figure BDA0002707837330000038
上传到聚合器,聚合器将收 集参与客户端上传的所有参数并进行聚合,以更新全局模型,如
Figure BDA0002707837330000039
最后,参与的客户端从聚合器获得更新的全局模型
Figure BDA00027078373300000310
并进行新一轮的本地模型 更新,并且所有交互记录都将存储在聚合器中。
C.贡献度量
我们设计一个公平的贡献衡量方法以鼓励合适的客户端参与联邦学习,用
Figure BDA00027078373300000311
表示客 户端i的参与轮次数,并主要通过其参与度来衡量客户端i的贡献,客户端参与轮次数等于 客户端参与的全局模型更新轮次数,通过每个客户端的本地模型更新到全局模型更新的贡 献来度量每个客户端的数据质量,计算了本地模型更新和全局模型更新之间的误差。具体 计算方法如下:
Figure BDA0002707837330000041
其中||·||2是欧几里德范数,di越小,客户端i上传参数的质量越高。聚合器会在每个时间段 内更新客户端i的
Figure BDA0002707837330000042
值,作为对客户端i提交的参数进行质量评估的依据。我们还引入了 信誉方法,用
Figure BDA0002707837330000043
来表示每个客户端的信誉值,当信誉值pi低于设定的阈值 时,客户端i将失去参与模型训练的资格。
D.信誉价值模型
综合考虑客户端的通信能力、计算能力、训练结果的质量以及数字孪生的误差等因素, 我们建立了如下基于主观逻辑的信誉值模型:
Figure BDA0002707837330000044
式中
Figure BDA0002707837330000045
表示全局更新的轮次数,
Figure BDA0002707837330000046
表示节点i在第
Figure BDA0002707837330000047
次全局更新期间的通信能力,
Figure BDA0002707837330000048
是由(8)计算的学习质量。
Figure BDA0002707837330000049
其中
Figure BDA00027078373300000410
Figure BDA00027078373300000411
分别是数字孪生体在通信和计算 能力方面的误差。f(·)是对应于DTi误差和模型更新的信誉值转换函数
Figure BDA00027078373300000412
其中δ是预设误差阈值,
Figure BDA00027078373300000413
是全局更新的总数,信誉值映射到范围(0,a)。
基于上述模型,我们针对不同规模的空地网络分别设计了由数字孪生驱动的联邦学习 的静态激励方法和动态激励方法,具体如下:
对于地面设备在无人机的覆盖范围内的小型空地网络,我们设计了基于Stackelberg 博弈的静态激励方法,其中无人机的数字孪生体是领导者,地面客户端是追随者。
首先,聚合器在发布任务时提供一个奖励R,然后网络中的客户端根据奖励和自己的 训练成本来决定自己的参与轮次数,
Figure BDA0002707837330000051
代表客户端i的决策,即客户端参与全局更新的轮 次数。如果
Figure BDA0002707837330000052
则表示客户端不参与。
Figure BDA0002707837330000053
代表所有客户端的决策,
Figure BDA0002707837330000054
表示除了客户端i的其他客户端的训练决策,我们表示每个客户 端每轮计算成本(完成一轮全局更新)为
Figure BDA0002707837330000055
每轮通信成本为
Figure BDA0002707837330000056
因此客户端i的效用函数定义为
Figure BDA0002707837330000057
即奖励减去成本。
聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
Figure BDA0002707837330000058
其中α>0是保证效用在最优R下大于或等于0的系统参数。
对于空地网络中的联邦学习场景,聚合器和客户端都尽其所能做出最优决策。聚合器 调整其奖励R,而客户端i,调整其参与轮次
Figure BDA0002707837330000059
为了最大化它们的效用,可以分别表示 为
Figure BDA00027078373300000510
Figure BDA00027078373300000511
基于以上模型,本发明针对不同规模的空地网络,分别设计了由数据孪生驱动的静态 联邦学习激励方法和动态联邦学习激励方法,具体如下:
对于一个小型空地网络,无人机作为聚合器执行联邦学习任务,为了激励高质量设备 参与训练,我们设计了基于Stackelberg博弈的静态激励机制,其中无人机的数字孪生体 是领导者,追随者是地面客户端。
联邦学习的静态激励的过程描述为:
第一步:发布联邦学习任务和奖励。聚合器首先发布一个联邦学习任务,并生成一个 全局模型供客户端下载以进行本地模型训练。对任务感兴趣的客户端需要将相关信息(ci,ki,bi,fi)发送给无人机的数字孪生体,作为对客户端选择的参考。
第二步:计算信誉值并公布奖励。在知道哪些客户端对任务感兴趣后,无人机的数字 孪生体开始计算他们的信誉值并将结果通知所有客户端。根据客户端发送的数据和相应的 数字孪生体计算参数μi,并使用1-|μi|来测量通信信道的质量。然后无人机的数字孪生 体向客户端公布任务的奖励,这是博弈中领导者的决策阶段。
第三步:确定参与度。客户端i根据自身的训练成本和当前信誉值决定参与全局更新 的轮次数
Figure BDA0002707837330000061
这是客户端的自我决策过程。
第四步:执行联邦学习过程。选定的客户端首先从聚合器下载一个公共全局模型,然 后使用本地私有数据为固定轮次训练模型。每次客户完成训练后,他们都需要将新的模型 参数发送给聚合器。然后,聚合器负责接收模型参数并将其聚合以获得新的全局模型。
在静态激励方法中,有两个阶段:第一阶段,聚合器发布任务并确定其奖励R;第二阶段,每个客户端制定决策,确定参与联邦学习的轮次数,最大化各自的效用。注意到Stackelberg博弈的第二阶段是非合作对策,我们引入纳什均衡和最佳反应策略的概念,并给出相关定理的证明。
对于给定的
Figure BDA0002707837330000062
客户端i的最佳反应策略
Figure BDA0002707837330000063
表示为
Figure BDA0002707837330000064
其中,ci+ki表示客户端i完成一轮全局更新所需的计算成本和通信成本之和。
为了在博弈的第二阶段找到纳什均衡,给出了计算最优反应策略的封闭解为
Figure BDA0002707837330000065
由此设计了计算博弈第二阶段纳什均衡的一种算法(算法1)。
聚合器的效用函数是一个凹二次函数,可求出最优的R。
Figure BDA0002707837330000071
其中,
Figure BDA0002707837330000072
Figure BDA0002707837330000073
是唯一的Stackelberg博弈均衡。由此,给出静态激励的具体算法(算法2)。
对于规模庞大的空地网络,我们设计了一种动态激励方法来选择最优客户端参与联邦 学习。每一轮的全局更新都可以建模为一轮Stackelberg博弈。聚合器决定其奖励,动态 选择客户端设备参与,客户端决定其本地训练轮次数。每轮全局更新完成后,客户端的信 誉值将被更新。
在动态激励中,我们使用
Figure BDA0002707837330000074
来表示客户端i在第
Figure BDA0002707837330000075
轮全局更新期间的信誉值。我们 使用
Figure BDA0002707837330000076
来表示第
Figure BDA0002707837330000077
次全局更新时的客户端集合,使用
Figure BDA0002707837330000078
来表示动态激励中客户端完成一轮本地训练的计算成本,
Figure BDA0002707837330000079
表示通信成本,ti表示客户端i在一轮全局更新中进行的本地训练的轮次数
Figure BDA00027078373300000710
代表所有客户端的训练策略,
Figure BDA00027078373300000711
表示除了客户端i之外的所有客户端的训练策略,类似地,客户端i 的效用可定义为
Figure BDA00027078373300000712
其中
Figure BDA00027078373300000713
表示在第
Figure BDA00027078373300000714
次全局更新开始之前由无人机确定的奖励。聚合器的效用函数是 参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
Figure BDA00027078373300000715
其中η>0是保证效用在最优
Figure BDA00027078373300000716
下大于或等于0的系统参数。因此,对于客户端和无人机, 目标如下:
Figure BDA00027078373300000717
Figure BDA00027078373300000718
注意,最终无人机的最优总奖励R*应表示为
Figure BDA0002707837330000081
其中
Figure BDA0002707837330000082
是全局更新的轮次数。
联邦学习的动态激励的过程描述为:
第一步:发布联邦学习任务和奖励。无人机发布一个联邦学习任务,并生成一个全局 模型,供客户端下载进行本地训练。在收到当前覆盖范围内的客户端信息后,无人机的数 字孪生体将公布这一轮全局更新的奖励
Figure BDA0002707837330000083
第二步:确定参与度。无人机的数字孪生体会向当前客户端公布经过计算的信誉值, 对于每一次全局更新,客户端i将根据自己的训练成本和当前信誉值决定是否进行本地训 练和本地训练轮次数ti。请注意,如果是第一次参与全局更新,则客户端i的初始信誉值 为1-|μi|。
第三步:执行联邦学习过程。所选的客户端首先从无人机下载全局模型,然后使用本 地私有数据进行模型训练。当本地训练轮次数达到其预设轮次数时,停止训练,并将本地 更新结果上传至无人机。无人机然后根据所有上传的结果执行全局更新,以生成新的全局 模型。
第四步:评估本地模型更新的质量。在完成一轮全局更新后,聚合器将根据(9)评估客户端提交的参数。
第五步:更新信誉值。根据上一步的评估结果,按照(10)更新最后一轮全局更新的客户端的信誉值。
上面五个步骤是循环的,直到达到预设的全局更新轮次数。在动态激励中,每一轮全 局更新都是一个Stackelberg博弈。博弈分为两个阶段:第一阶段,聚合器发布本轮奖励r; 第二阶段,客户端确定本地训练的轮次数。每个客户端的最佳反应策略的封闭解可以表示 为
Figure BDA0002707837330000084
对于动态激励方法,由于无人机的效用函数为凹二次函数,因此每轮博弈中聚合器的 最优奖励为
Figure BDA0002707837330000091
其中
Figure BDA0002707837330000092
最后,t*
Figure BDA0002707837330000093
构成了这一轮Stackelberg博弈的唯一均衡。由此,我们给出了动态 激励的具体算法(算法3)。
本发明引入动态数字孪生来捕获空地网络中的元素动态特性,为了提高联邦学习的准 确性和可靠性,针对不同规模的空地网络设计了激励方案,以鼓励高质量客户端参与。
与现有技术相比,本发明具有如下有益效果:
本发明设计了一种用于空地网络的动态数字孪生结构,考虑了无人机和地面客户端的 数字孪生体,捕获了空地网络中的动态特性。为了在空地网络中执行联邦学习任务,一架 无人机作为聚合器,地面客户端协同完成模型训练。对于客户端,引入丢包率误差和CPU 频率误差,分别测量数字孪生体在通信环境和计算能力中的误差,来校正数字孪生模型的 误差,从而建立了校准数字孪生模型。其数字孪生体与相应的客户端实时交互保持一致, 并且可以快速捕获客户端的加入或退出,此外,客户端的决策过程可以通过数字孪生体在 服务器上执行,减少了通信负载以及计算成本。
本发明考虑了客户端参与联邦学习的轮次数、更新的贡献度和客户端信誉值,通过客 户端的参与度衡量客户端的贡献,通过客户端的本地模型更新到全局模型更新的贡献来度 量每个客户端的数据质量,计算了本地模型更新和全局模型更新之间的误差,设计了一种 公平的贡献衡量方法,以鼓励合适的客户端参与联邦学习。为了尽可能排除恶意客户端继 续参与模型训练对全局模型精度和收敛时间产生的不利影响,我们引入了信誉方法,当客 户端信誉值低于设定的阈值时,客户端将失去参与模型训练的资格。
本发明综合考虑通信能力、计算能力、训练结果的质量和数字孪生体的误差,建立了 基于主观逻辑的信誉值模型,并给出了数字孪生误差和更新的信誉值之间的转换函数,该 模型合理量化了数字孪生的误差、通信能力和计算能力,有助于提高联邦学习的准确性和 可靠性。
本发明基于Stackelberg博弈分别考虑不同规模的空地网络中联邦学习的激励方法。 对于小型空地网络,设计了静态激励方法,其中无人机的数字孪生体作为领导者,发布联 邦学习的任务和奖励,根据收集到的信息计算客户端的信誉值,作为无人机对各个客户端 的选择偏好,客户端作为追随者在权衡利益和成本后选择参与全局训练轮次。对于规模庞 大的空地网络,由于高移动性的特性,空地网络环境可能发生变化,为了适应网络拓扑结 构的变化,设计了一种动态激励方法,每一轮的全局更新都建模为一轮Stackelberg博弈, 无人机决定其奖励,动态选择客户端设备参与,客户端决定其本地训练轮次,每轮全局更 新完成后,客户端的信誉值将被更新。本发明提出的激励方法能够吸引高质量的客户,提 高全局模型的精度,实现可靠的联邦学习。
附图说明
图1为数字孪生无人机辅助地面网络模型图
图2为全局更新轮次数下训练损失比较图
图3为全局更新轮次数下模型精度的比较图
图4为能耗随客户端数据质量的不同而变化图
图5为无人机和客户端的社会整体福利随客户端数量的变化而变化折线图
图6为在不同的数字孪生误差下,模型精度随全局更新的轮次数变化折线图
图7为计算纳什均衡算法
图8为联邦学习的静态激励算法
图9为联邦学习的动态激励算法
图10为模拟参数。
具体实施方式
本发明是在空地网络中由数字孪生驱动的联邦学习激励方法,为了方便叙述具体实施 方式,先进行系统模型的介绍,系统模型包括了数字孪生无人机辅助地面网络模型、联邦 学习过程、贡献度量和信誉值模型。
图1中,由无人机、地面客户端以及数字孪生体组成无人机辅助地面网络场景。其中 无人机在自然灾害或交通高峰期间为地面通信提供补充能力。覆盖范围广的移动无人机充 当服务器,负责任务卸载、全局模型更新等。各种各样的地面设备,如智能手机和笔记本 电脑作为客户端执行任务,并通过无线通信与无人机连接。此外,系统中还有两类数字孪 生体,即地面设备的数字孪生体和无人机的数字孪生体。其中,作为物理实体和虚拟数字 系统之间的映射,地面设备的数字孪生体被用来映射网络中的客户端,并部署在附近的基 站上。无人机的数字孪生体管理着设备的数字孪生体的误差,并针对不同的用户有相应的 偏好。无人机的数字孪生体作为领导者,为特定任务选择合适的客户端,我们使用集合N={1,2,...,N}来表示网络中的客户端。对于客户端i,其在时间t的数字孪生DTi c可以表示为
DTi c(t)={Fi t(w),bi(t),fi(t)} (55)
w是客户端i的当前训练参数,Fi t(w)表示客户i的当前训练状态,bi(t)表示丢包率, fi(t)是设备在时间t时的CPU频率。就数据感知而言,准确的全局感知仍然很困难,而且 物理实体的数据不够详细,这导致数字孪生的预测和判断出现误差,为了校正数字孪生模 型的误差,我们引入丢包率误差
Figure BDA0002707837330000111
和CPU频率误差
Figure BDA0002707837330000112
分别测量数字孪生体在通信环境和计算能力下的误差,误差可以是正的,也可以是负的。因此对于客户端i,校准的 数字孪生是
Figure BDA0002707837330000113
输出DTi c是更新的信誉值,也就是说,数字孪生体可以根据客户端的属性、当前状态和网络状态动态反映每个客户端的信誉值。
对于无人机j,其数字孪生是
Figure BDA0002707837330000114
其中P(t)是其覆盖区域内节点的信誉分布,
Figure BDA0002707837330000115
是客户端本地更新和全局更新之间 的误差集,上述的数字孪生与相应的客户端实时交互以保持一致性,并且可以快速捕获客 户端的加入或退出。此外,客户端的决策过程可以通过数字孪生在服务器上执行,减少了 通信负载以及计算成本。此外,在无人机辅助的地面网络中,设备在硬件、网络连接和计算能力方面是异质的。为了简化统计异质性问题,我们假设每个客户端的本地数据集是独立的,且分布相同。
图1中,每个客户端都有自己的本地数据集,每个数据集的大小被定义为xi,即客户 端i具有xi数据样本参与训练。参与训练的所有数据集的总大小是
Figure BDA0002707837330000116
首先,无人 机作为任务发布者,发布全局模型ω。参与联邦学习的所有客户机将从服务器下载全局模 型。然后,每个客户机使用自己的私有数据集来训练模型并获得本地模型更新。首先,他们上传新的权重或梯度到服务器。在这里,客户端已经完成了对全局模型的研究更新。对于客户端i,其损失函数为
Figure BDA0002707837330000121
其中fj(ω)是客户端i的本地数据集中的数据样本j上的损失函数。联邦学习通过最小化每 个客户端在时间t时的局部损失函数Fi t(ω)的加权平均值来优化全局损失函数F(ω),联邦 学习中的全局模型更新表示为
Figure BDA0002707837330000122
Figure BDA0002707837330000123
此时,无人机作为聚合器聚合这些参数更新全局模型,供客户端下载并开始新一轮训 练,然后继续迭代,直到全局损失函数收敛。空地网络中的联邦学习的具体过程如下:在 迭代
Figure BDA0002707837330000124
开始时,所有参与的客户端从聚合器获得相同的机器学习模型
Figure BDA0002707837330000125
然后每个客 户端根据自己的本地数据训练模型,并更新本地模型得到模型
Figure BDA0002707837330000126
可以表示为
Figure BDA0002707837330000127
其中λ>0是学习步骤,接下来客户i将本地更新的模型
Figure BDA0002707837330000128
上传到聚合器,聚合器将收集 参与客户端上传的所有参数并进行聚合,以更新全局模型,如
Figure BDA0002707837330000129
最后,参与的客户端从聚合器获得更新的全局模型
Figure BDA00027078373300001210
并进行新一轮的本地模型更新, 并且所有交互记录都将存储在聚合器中。在联邦学习中,数字孪生体反映了客户端的行为, 并与客户端进行实时交互,以检测当前通信信道状态作为信誉更新的参数之一。通过这些 交互记录和参数信息,可以反映客户端的数据质量。
一个公平的贡献衡量方法可以鼓励合适的客户端参与联邦学习。我们用
Figure BDA00027078373300001211
表示客户 端i的参与轮次数,并主要通过其参与度来衡量客户端i的贡献。客户端参与轮次数等于客 户端参与的全局模型更新次数,这样一个度量是合理的,因为客户端i的训练总成本与其 参与轮次数成正比。另一个重要度量是更新的贡献度,我们通过每个客户端的本地模型更 新到全局模型更新的贡献来度量每个客户端的数据质量,计算了本地模型更新和全局模型 更新之间的误差。具体计算方法如下:
Figure BDA0002707837330000131
其中||·||2是欧几里德范数,di越小,客户端i上传参数的质量越高。聚合器会在每个时间段 内更新客户端i的
Figure BDA0002707837330000132
值,作为对客户端i提交的参数进行质量评估的依据。客户端可能执 行不可靠或恶意的本地模型更新,以获得更多实用程序或攻击聚合器。一方面,模型更新 不可靠的主要原因是训练模型有虚假信息、提交虚假的模型更新、通过不安全的通信渠道 传递更新的数据。另一方面,恶意客户端会故意发起严重的攻击,如中毒攻击。无论有意 或无意的行为,都会降低模型更新的质量,并对最终的全局模型精度和收敛时间产生不利 影响。为了尽可能排除恶意客户端继续参与模型训练,我们引入了信誉方法,我们用
Figure BDA0002707837330000133
来表示每个客户端的信誉值,当信誉值pi低于设定的阈值时,客户端i将 失去参与模型训练的资格。
为了提高联邦学习的学习质量,我们应该鼓励高质量节点的参与,即拥有充足的通信 资源、强大计算能力和准确训练结果的节点。其中,节点i的通信能力和计算能力可以通 过DTi提供的丢包率bi和CPU频率fi来衡量,之前讨论了训练结果的质量
Figure BDA0002707837330000134
另外还注意到数字孪生体到训练设备的映射不准确,数字孪生体的误差也应适当考虑。综合考虑上述因素,我们建立了如下基于主观逻辑的信誉值模型:
Figure BDA0002707837330000135
式中
Figure BDA0002707837330000136
表示全局更新的轮次数,
Figure BDA0002707837330000137
表示节点i在第
Figure BDA0002707837330000138
次全局更新期间的通信能力,
Figure BDA0002707837330000139
是由(8)计算的学习质量。基于大多数节点是诚实的假设,
Figure BDA00027078373300001310
接近0意味着训练效果良 好。
Figure BDA00027078373300001311
其中
Figure BDA00027078373300001312
Figure BDA00027078373300001313
分别是数字孪生体在通信和计算能力方面的误差。f(·)是 对应于DTi误差和模型更新的信誉值转换函数
Figure BDA0002707837330000141
其中δ是预设误差阈值,
Figure BDA0002707837330000142
是全局更新的总数,信誉值映射到范围(0,a)。在实际应用中, δ是动态变化的,它是根据所有客户端的更新误差值的分布来确定的。通过上面设计的信 誉模型,可以合理量化数字孪生体的误差、通信能力和计算能力,有助于提高联邦学习的 准确性和可靠性。
本发明基于Stackelberg博弈分别考虑了不同规模的空地网络中由数字孪生驱动的联 邦学习的激励方法。
对于一个小型空地网络,其中地面设备在无人机的覆盖范围内,设计了基于Stackelberg博弈的静态激励方法,其中无人机的数字孪生体是领导者,地面客户端是追随者。在整个学习过程中,假设网络的拓扑结构是静态的,并且已知数字孪生的误差。
首先,聚合器在发布任务时提供一个奖励R,然后网络中的客户端根据奖励和自己的 训练成本来决定自己的参与轮次数,
Figure BDA0002707837330000143
代表客户端i的决策,即客户端参与全局更新的轮 次数。如果
Figure BDA0002707837330000144
则表示客户端不参与。
Figure BDA0002707837330000145
代表所有客户端的决策,
Figure BDA0002707837330000146
)表示除了客户端i的其他客户端的训练决策,我们表示每个客户 端每轮计算成本(完成一轮全局更新)为
Figure BDA0002707837330000147
每轮通信成本为
Figure BDA0002707837330000148
因此客户端i的效用函数定义为
Figure BDA0002707837330000149
即奖励减去成本。我们以每个客户端的参与轮次数作为衡量贡献的标准,即参与轮次数越 多,贡献越大,客户端获得的回报就越多。我们在轮次数前乘以信誉值ρi,这将鼓励信 誉值较高的客户端参与。由于不评估每一轮客户端更新的质量,因此在静态激励下,信道 的状态只能用来表示联邦学习开始前的信誉值。
聚合器的效用函数是参与学习过程的客户的总能耗减去聚合器的奖励,定义为
Figure BDA0002707837330000151
其中α>0是保证效用在最优R下大于或等于0的系统参数。
对于空地网络中的联邦学习场景,无论是聚合器还是客户端,每个实体都尽其所能做 出最优决策。聚合器调整其奖励R,而客户端i,调整其参与轮次
Figure BDA0002707837330000152
为了最大化它们的 效用,可以分别表示为
Figure BDA0002707837330000153
Figure BDA0002707837330000154
联邦学习的静态激励的过程描述为:
第一步:发布联邦学习任务和奖励。聚合器首先发布一个联邦学习任务,并生成一个 全局模型供客户端下载以进行本地模型训练。对任务感兴趣的客户端需要将相关信息(ci,ki,bi,fi)发送给无人机的数字孪生体,作为对客户端选择的参考。
第二步:计算信誉值并公布奖励。在知道哪些客户端对任务感兴趣后,无人机的数字 孪生体开始计算他们的信誉并将结果通知所有客户端。根据客户端发送的数据和相应的数 字孪生体计算参数μi,并使用1-|μi|来测量通信信道的质量。然后无人机的数字孪生体 向客户端公布任务的奖励,这是博弈中领导者的决策阶段。
第三步:确定参与度。客户端i根据自身的训练成本和当前信誉值决定参与全局更新 的轮次数
Figure BDA0002707837330000155
这实际上是客户端的自我决策过程。
第四步:执行联邦学习过程。选定的客户端首先从聚合器下载一个公共全局模型,然 后使用本地私有数据为固定轮次训练模型。每次客户端完成训练后,他们都需要将新的模 型参数发送给聚合器。然后,聚合器负责接收模型参数并将其聚合以获得新的全局模型。
每个客户端都想得到最大的奖励,但受到训练成本和信誉值的限制,类似地,聚合器 希望鼓励尽可能多的高质量客户端参与,但它需要平衡奖励R。显然,无论是客户端还是聚合器,他们都试图做出最佳决策,以实现最大化它们的效用。如上所述,我们利用Stackelberg博弈建立了联邦学习的激励方法。在静态激励中,无人机的数字孪生体是博弈模型的领导者,客户端是追随者。在这种情况下,我们假设聚合器和客户端都知道每个客户端的训练成本和信誉值的分布情况,也就是说,它满足信息完全的条件。
在静态激励方法中,有两个阶段:第一阶段,聚合器发布任务并确定其奖励R;第二阶段,每个客户端制定决策,确定参与联邦学习的轮次数,最大化各自的效用。
注意到Stackelberg博弈的第二阶段是非合作对策,在聚合器给出的奖励R下,任何 客户端都无法通过单方面改变当前策略获得任何额外收益,即纳什均衡的概念。
定义1:纳什均衡,一组策略
Figure BDA0002707837330000161
是博弈第二阶段的纳什均衡,如果对 于任何客户端i
Figure BDA0002707837330000162
纳什均衡的存在很重要,因为纳什均衡策略是稳定的(没有参与者进行单方面的更 改),而非纳什均衡策略是不稳定的。正是由于纳什均衡策略的稳定性,聚合器可以预测客户端的决策,然后确定一个最优的奖励值R,使效用最大化。在证明纳什均衡存在之前,我们首先计算出每个客户端的最佳反应策略。
定义2:最佳反应策略,给定
Figure BDA0002707837330000163
如果策略使所有的
Figure BDA0002707837330000164
Figure BDA0002707837330000165
最大化,则策 略是客户端i的最佳反应策略,用
Figure BDA0002707837330000166
表示。
引理1:给定
Figure BDA0002707837330000167
客户端i的最佳反应策略为
Figure BDA0002707837330000168
ci+ki表示客户端i完成一轮全局更新所需的计算成本和通信成本之和。
证明:根据定义1和定义2,我们可以知道每个客户端在一个纳什均衡中都会做出最 佳的反应策略。为了找到客户端i的最佳反应策略,我们需要推导(12)相对于
Figure BDA0002707837330000169
的一阶导数。
Figure BDA0002707837330000171
在(17)的基础上,我们继续推导出Ui
Figure BDA0002707837330000172
的二阶导数
Figure BDA0002707837330000173
显然,二阶导函数总是小于零,客户端的效用函数是一个严格凹函数,即存在唯一的 最大值点。换言之,给定任何R≥0和其他客户端的策略系数
Figure BDA0002707837330000174
客户端i的最佳反应策略如果存在的话是唯一的。因此,通过直接使一阶导函数(17)等于零,可以求解
Figure BDA0002707837330000175
在R 上的最佳关系式,如下所示:
Figure BDA0002707837330000176
Figure BDA0002707837330000177
如果右边的项目为负数,客户端i选择不参与学习过程,即
Figure BDA0002707837330000178
否则,(20)是客户端i的最佳反应策略。因此,我们有(16)。
为了在博弈的第二阶段找到纳什均衡,有必要计算每一个客户端的最佳反应策略的一 个封闭解,而(20)仍然包括了其他客户端的决策,因此,我们给出了计算最优反应策略 的封闭解,并证明了纳什均衡的存在的唯一性。
定理1:给定R>0,设
Figure BDA0002707837330000179
为一个纳什均衡策略,设
Figure BDA00027078373300001710
表示参与训练的客户端集合。我们有
1)
Figure BDA0002707837330000181
2)最佳反应策略的封闭解可以表示为
Figure BDA0002707837330000182
3)如果
Figure BDA0002707837330000183
Figure BDA0002707837330000184
4)假设客户端的排序为
Figure BDA0002707837330000185
设h为[2,N]中的最大整数,使 得
Figure BDA0002707837330000186
Figure BDA0002707837330000187
证明:首先证明集合
Figure BDA0002707837330000188
的大小大于或等于2。当
Figure BDA0002707837330000189
小于2时,集合中只有0或1个客户端。此时,第二阶段的博弈毫无意义,任何一个客户端都可以通过改变策略来增加其效用,这与纳什均衡假设相矛盾。因此,
Figure BDA00027078373300001810
然后,我们证明(21)的封闭解。因为没 有参与学习的客户端参与轮次设为0,即
Figure BDA00027078373300001811
如果
Figure BDA00027078373300001812
Figure BDA00027078373300001813
将它代入 (19),得到
Figure BDA00027078373300001814
然后将
Figure BDA00027078373300001815
中的所有客户端的(22)相加,得到
Figure BDA00027078373300001816
最后,将(23)代入(22)中,我们得到以下公式:
Figure BDA0002707837330000191
因此,我们可以得到(21)。
直观上,如果一个客户端的单位训练成本较小,而信誉值大于其他客户端,则客户端 越有可能参与学习过程。首先,我们有
Figure BDA0002707837330000192
对于任何
Figure BDA0002707837330000193
根据(24),
Figure BDA0002707837330000194
Figure BDA0002707837330000195
因此,我们可以进一步推导出
Figure BDA0002707837330000196
Figure BDA0002707837330000197
假设存在一个客户端m,满足
Figure BDA0002707837330000198
Figure BDA0002707837330000199
由于客户端m不在集合
Figure BDA00027078373300001910
中,因此
Figure BDA00027078373300001911
我们可以将其代入客户端m的第一个导函数,如下所示:
Figure BDA00027078373300001912
在这种情况下,(27)大于零,这意味着客户端m可以通过增加tm来获得更大的效用值,即
Figure BDA00027078373300001913
因此,如果
Figure BDA00027078373300001914
则必然存在
Figure BDA00027078373300001915
最后, 根据1)和3),很容易推导出4)的结论,过程没有给出。
根据以上分析和证明,我们给出了计算博弈第二阶段纳什均衡的一种算法(算法1), 如图7所示。算法1的输入是客户端集合
Figure BDA00027078373300001916
单位训练成本集合
Figure BDA00027078373300001917
Figure BDA00027078373300001918
信誉值集合
Figure BDA00027078373300001919
输出是所有客户端的最优决策,即参与的轮次。算法1的主要运行时间是第一步的排序, 因此时间复杂度为O(nlogn)。
定理2:存在唯一的Stackelberg博弈均衡,其中R*是在R∈[0,∞)上使(13)中聚合器效用最大化的唯一值,当R=R*时,算法1给出了客户端的最优决策集
Figure BDA0002707837330000201
证明:将(21)代入聚合器的效用函数中,我们得到
Figure BDA0002707837330000202
其中,
Figure BDA0002707837330000203
我们推导出(28)对R的一阶导数
Figure BDA0002707837330000204
聚合器的效用函数是一个凹二次函数,因此直接令(30)为0,可求出最优的R。
Figure BDA0002707837330000205
此时,
Figure BDA0002707837330000206
是唯一的Stackelberg博弈均衡。
在上述的分析和证明的基础上,证明了存在唯一的Stackelberg博弈均衡,并得到了 博弈过程中两个阶段最优决策的封闭解。因此,如图8所示,我们可以给出静态激励的具体算法流程(算法2)。
从算法2可以看出,首先执行算法1来确定参与联邦学习的客户端的集合
Figure BDA0002707837330000207
然后继 续得到R*
Figure BDA0002707837330000208
第3行中的while循环控制全局更新,其中
Figure BDA0002707837330000209
决定全局更新的最大轮次数,
Figure BDA00027078373300002010
防止一个或部分节点参与过多轮(length>1为预设值),导致全局模型陷入局部优化,削弱了泛化能力。然后,第6行中的while循环是客户端的本地训练 阶段,其中local_rounds是为每个客户端预先设置的本地训练轮次。当客户端j完成本地 训练后,可以将
Figure BDA00027078373300002011
减少1。如果
Figure BDA00027078373300002012
减小为0,将j从集合
Figure BDA00027078373300002013
中移除(第10-13行)。最后, 执行全局更新(第15行),直到循环结束,并返回到最优模型ω*
考虑到空地网络规模庞大,一架无人机很难覆盖整个区域。为了适应网络拓扑结构的 变化,我们设计了一种动态激励方法来选择最优客户端参与联邦学习。在动态方法过程中, 我们假设每一轮的客户端集合都会发生变化,这种变化是由数字孪生动态捕获的。每一轮 的全局更新都可以建模为一轮Stackelberg博弈。聚合器决定其奖励,动态选择客户端设 备参与,客户端决定其本地训练轮次数。每轮全局更新完成后,客户端的信誉值将被更新。 因此,在动态激励中,我们使用
Figure BDA0002707837330000211
来表示客户端i在第
Figure BDA0002707837330000212
轮全局更新期间的信誉值。
由于客户端集合是动态变化的,所以我们使用
Figure BDA0002707837330000213
来表示第
Figure BDA0002707837330000214
次全局更 新时的客户端集合。为了简单起见,我们继续使用
Figure BDA0002707837330000215
Figure BDA0002707837330000216
来表示动态激励中客户端的计 算成本和通信成本。但与静态激励不同的是,动态激励中的
Figure BDA0002707837330000217
代表了客户端完成一轮本地 训练的计算成本。动态激励中的信誉值是不断更新的。ti表示客户端i在一轮全局更新中 进行的本地训练的轮次数。如果ti=0,即客户端i不参与此轮全局更新。
Figure BDA0002707837330000218
代 表所有客户端的训练策略,
Figure BDA0002707837330000219
表示除了客户端i之外的所有客户端的 训练策略,类似地,客户端i的效用可定义为
Figure BDA00027078373300002110
其中
Figure BDA00027078373300002111
表示在第
Figure BDA00027078373300002112
次全局更新开始之前由无人机确定的奖励。聚合器的效用函数是 参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
Figure BDA00027078373300002113
其中η>0是保证效用在最优
Figure BDA00027078373300002114
下大于或等于0的系统参数。因此,对于客户端和无人机, 目标如下:
Figure BDA00027078373300002115
Figure BDA00027078373300002116
注意,最终无人机的最优总奖励R*应表示为
Figure BDA0002707837330000221
其中
Figure BDA0002707837330000222
是全局更新的轮次数。
联邦学习的动态激励方法实施过程如下:
第一步:发布联邦学习任务和奖励。无人机发布一个联邦学习任务,并生成一个全局 模型,供客户端下载进行本地训练。在收到当前覆盖范围内的客户端信息后,无人机的数 字孪生体将公布这一轮全局更新的奖励
Figure BDA0002707837330000223
第二步:确定参与度。无人机的数字孪生体会向当前客户端公布经过计算的信誉值, 对于每一次全局更新,客户端i将根据自己的训练成本和当前信誉值决定是否进行本地训 练和本地训练轮次数ti。请注意,如果是第一次参与全局更新,则客户端i的初始信誉值 为1-|μi|。
第三步:执行联邦学习过程。所选的客户端首先从无人机下载全局模型,然后使用本 地私有数据进行模型训练。当本地训练轮次数达到其预设轮次数时,停止训练,并将本地 更新结果上传至无人机。无人机然后根据所有上传的结果执行全局更新,以生成新的全局 模型。
第四步:评估本地模型更新的质量。在完成一轮全局更新后,聚合器将根据(9)评估 客户端提交的参数。
第五步:更新信誉值。根据上一步的评估结果,按照(10)更新最后一轮全局更新的客户端的信誉值。
上面五个步骤是循环的,直到达到预设的全局更新轮次数,同样地,我们用Stackelberg 博弈来模拟动态激励方法,其中无人机的数字孪生体是博弈模型的领导者,而客户端是追 随者。注意,在动态激励中,每一轮全局更新都是一个Stackelberg博弈。博弈分为两个 阶段:第一阶段,聚合器发布本轮奖励r;第二阶段,客户端确定本地训练的轮次。每个 客户端的最佳反应策略的封闭解可以表示为
Figure BDA0002707837330000224
相关证明参考静态激励方法中的证明过程,除了动态方法根据单位训练计算成本与信 誉值之比
Figure BDA0002707837330000231
来选择客户端。
对于动态激励方法,由于无人机的效用函数为凹二次函数,因此每轮博弈中聚合器的 最优奖励为
Figure BDA0002707837330000232
其中
Figure BDA0002707837330000233
最后,t*
Figure BDA0002707837330000234
构成了这一轮Stackelberg博弈的唯一均衡。如图9所示,我们给出了 动态激励的具体算法流程(算法3)。算法3和算法2的整个流程是有点相似的,但是由 于两个方案中客户端的决策不同,两个算法在一些地方也有所不同。
与算法2相反,算法3的预设值是全局更新的轮次(全局轮次,第2行),本地训练的轮次数由客户端决定。
在全局更新的循环体中调用算法3中的算法1,并在每次全局更新开始之前执行一次。 算法1只需要在算法2中调用一次。
在算法3完成每一轮全局更新后,需要执行信誉更新(第12行),以便算法1的后续执行可以排除质量较差的客户端。
注意,在算法3中,信誉更新有一个受限操作,即确保所有信誉值都在间隔(0,1.5]内。 如果信誉更新后信誉值小于或等于零,我们将重新分配一个非常小的值。如果大于1.5, 则直接设置为1.5,这是为了防止某些节点执行过多轮的本地训练。
下面对本发明的具体的实施例进行说明。
我们使用Pytorch 0.4.1软件构建了一个空地网络中的联邦学习模型,并使用经典数据 集MNIST对所提出的激励方法的性能进行了评估和验证。MNIST数据集中有60,000个训练样本和10,000个测试样本,每个客户端可以按照随机比例分配MINST数据集中 的数据。采用学习率为0.1%的随机梯度下降法(SGD)对大小为10的小批量进行训练。 我们总共设立了10到100个客户端。在静态激励下,我们假设所有客户端都在一架无人 机的覆盖范围内。在动态激励下,无人机的通信范围只能同时覆盖20个客户端。具体参 数设置见图10。
由于轮次数只能取整数,因此无论是静态激励还是动态激励,都需要计算客户端i的ti
Figure BDA0002707837330000241
后进行舍入运算,我们采用了一个只需成本的方案作为基准,选择训练成本较低的 客户端参与联邦学习。
如图2所示,三种方案的损失函数都能在全局更新下收敛。可以看出,训练损失值随 着全局更新轮次数而减小,在8次左右的全局更新后收敛。动态激励优于其他两种方案的 原因在于,该基准不考虑数据质量,只考虑训练成本来选择客户端参与训练。静态方法虽 然考虑了信誉值,但并不动态更新信誉值,无法持续消除不良客户。
图3比较了三种方案下的模型精度与不同的全局更新轮次数。可以看出,随着全局更 新轮次数的增加,三种方案的精度也在提高。模型的精度首先迅速提高,然后逐渐趋于收 敛。这可以由图2解释。动态激励下的精度最高,最终可达90%以上,因为每一轮全局 更新后,都会对客户端的业绩进行评估,低质量客户端的参与度会不断降低。由于基准只 考虑了客户端的训练成本,静态方法下的模型精度可以达到85%以上,比基准提高了5%。
为了衡量对通信效率的影响,我们比较了不同级别客户端数据质量差异水平下模型精 度达到85%所需的能耗。如图4所示,当所有客户端的数据质量调整到相似的水平时,静态激励比动态激励能耗更少。然而,随着客户端数据质量异质性的增加,动态激励方法的能耗开始低于静态激励方法。造成这种现象的原因是在客户端的数据质量相似的情况下,动态激励方法的过滤效果不明显,但会增加能耗。客户端的数据质量异质性越大,动 态激励方法对客户端的选择就越好。因此,当客户端的数据质量比较相似时,静态激励方 法更为合适,因为它能以较少的能耗达到相同的精度。当客户端的数据质量或信誉值不同时,动态激励方法的性能更好。
社会福利的比较,即三种方案下的无人机效用和客户端效用之和如图5所示。随着客 户端总数的增加,社会整体福利先增加,在40个客户端左右达到峰值,然后下降。这是因为随着客户端数量的增加,无人机的效用也在增加,但由于竞争对手增多,客户端的效用降低。另外,由于基准只选择成本较低的客户端,导致客户端的效用高于静态激励方法,因此基准的社会福利高于静态激励。静态激励方案选择客户端时不仅要考虑成本,还要考虑可靠性和更新的贡献度,因此模型精度比基准更高,如图3所示。动态激励方法的社会 福利最高的原因是它鼓励客户端尽可能多地参与全局更新,即使客户端只完成了一轮本地模型训练。这大大提高了无人机的实用性。
图6所示为不同数字孪生误差下模型精度的比较。当数字孪生无误差时,其精度最高 可达94%以上。随着数字孪生误差的增大,模型的精度会降低。尽管如此,动态方法下的模型精度仍高于基准(数字孪生误差对基准影响不大,因为它不影响基准方案中客户端的选择)。对于动态激励,这种误差会给信誉更新带来不稳定因素,导致客户端选择的可 靠性降低。然而,动态激励的信誉更新不仅考虑了数字孪生的误差,而且衡量了客户端本 地更新相对于全局更新的质量。因此,当数字孪生的误差不是很大时,在动态激励下,模 型的精度仍然可以达到较高的水平。
本发明设计了两种空地网络中联邦学习的激励方法。为了捕捉网络动态,考虑了无人 机和地面客户端设备的数字孪生,通过信誉值消除了数字孪生值与真实状态值的误差。此 外,我们利用Stackelberg博弈模型设计激励方法,鼓励具有可靠本地模型更新的高质量 客户端参与学习过程。仿真结果表明,所提出的激励方法能够吸引高质量的客户端,提高 全局模型的精度,实现可靠的联邦学习。

Claims (4)

1.空地网络中由数字孪生驱动的联邦学习的激励方法,其特征在于,首先建立基本的系统模型:
A.数字孪生无人机辅助地面网络模型
考虑了一个由无人机、地面客户端和数字孪生体组成的无人机辅助地面网络场景,系统中包含了地面设备和无人机两类数字孪生体,我们使用集合N={1,2,...,N}表示网络中的客户端,对于客户端i,其在时间t的数字孪生DTi c可以表示为
DTi c(t)={Fi t(w),bi(t),fi(t)} (1)
w是客户端i的当前训练参数,
Figure FDA0002707837320000018
表示客户i的当前训练状态,bi(t)表示丢包率,fi(t)是设备在时间t时的CPU频率,我们引入丢包率误差
Figure FDA0002707837320000011
和CPU频率误差
Figure FDA0002707837320000012
来校正数字孪生模型的误差,分别测量数字孪生体在通信环境和计算能力下的误差,因此对于客户端i,校准的数字孪生是
Figure FDA0002707837320000013
输出
Figure FDA0002707837320000014
是更新的信誉值,即数字孪生可以根据客户端的属性、当前状态和网络状态动态反映每个客户端的信誉值;
对于无人机j,其数字孪生是
Figure FDA0002707837320000015
其中P(t)是其覆盖区域内节点的信誉分布,
Figure FDA0002707837320000016
是客户端本地更新和全局更新之间的误差集,在无人机辅助的地面网络中,设备在硬件、网络连接和计算能力方面是异质的,为了简化统计异质性问题,我们假设每个客户端的本地数据集是独立的,且分布相同;
B.联邦学习过程
每个客户端本地数据集的大小被定义为xi,即客户端i具有xi数据样本参与训练,参与训练的所有数据集的总大小是
Figure FDA0002707837320000017
首先,无人机作为任务发布者,发布全局模型ω,参与联邦学习的所有客户端将从服务器下载全局模型,然后,每个客户端使用自己的私有数据集来训练模型并获得本地模型更新,首先,他们上传新的权重或梯度到服务器,对于客户端i,其损失函数为
Figure FDA0002707837320000021
其中fj(ω)是客户端i的本地数据集中的数据样本j上的损失函数,联邦学习通过最小化每个客户端在时间t时的局部损失函数
Figure FDA00027078373200000212
的加权平均值来优化全局损失函数F(ω),联邦学习中的全局模型更新表示为
Figure FDA0002707837320000022
Figure FDA0002707837320000023
无人机作为聚合器聚合这些参数更新全局模型,供客户端下载并开始新一轮训练,然后继续迭代,直到全局损失函数收敛,空地网络中的联邦学习的具体过程如下:在迭代
Figure FDA0002707837320000024
开始时,所有参与的客户端从聚合器获得相同的机器学习模型
Figure FDA0002707837320000025
然后每个客户端根据自己的本地数据训练模型,并更新本地模型得到模型
Figure FDA0002707837320000026
可以表示为
Figure FDA0002707837320000027
其中λ>0是学习步骤,接下来客户端i将本地更新的模型
Figure FDA0002707837320000028
上传到聚合器,聚合器将收集参与客户端上传的所有参数并进行聚合,以更新全局模型,如
Figure FDA0002707837320000029
最后,参与的客户端从聚合器获得更新的全局模型
Figure FDA00027078373200000210
并进行新一轮的本地模型更新,并且所有交互记录都将存储在聚合器中;
C.贡献度量
我们设计一个公平的贡献衡量方法以鼓励合适的客户端参与联邦学习,用
Figure FDA00027078373200000211
表示客户端i的参与轮次数,并主要通过其参与度来衡量客户端i的贡献,客户端参与轮次数等于客户端参与的全局模型更新轮次数,通过每个客户端的本地模型更新到全局模型更新的贡献来度量每个客户端的数据质量,计算了本地模型更新和全局模型更新之间的误差,具体计算方法如下:
Figure FDA0002707837320000031
其中||·||2是欧几里德范数,di越小,客户端i上传参数的质量越高,聚合器会在每个时间段内更新客户端i的
Figure FDA0002707837320000032
值,作为对客户端i提交的参数进行质量评估的依据,我们还引入了信誉方法,用
Figure FDA0002707837320000033
来表示每个客户端的信誉值,当信誉值pi低于设定的阈值时,客户端i将失去参与模型训练的资格;
D.信誉价值模型
综合考虑客户端的通信能力、计算能力、训练结果的质量以及数字孪生的误差等因素,我们建立了如下基于主观逻辑的信誉值模型:
Figure FDA0002707837320000034
式中
Figure FDA0002707837320000035
表示全局更新的轮次数,
Figure FDA0002707837320000036
表示节点i在第
Figure FDA0002707837320000037
次全局更新期间的通信能力,
Figure FDA0002707837320000038
是由(8)计算的学习质量,
Figure FDA0002707837320000039
其中
Figure FDA00027078373200000310
Figure FDA00027078373200000311
分别是数字孪生体在通信和计算能力方面的误差,f(·)是对应于DTi误差和模型更新的信誉值转换函数
Figure FDA00027078373200000312
其中δ是预设误差阈值,
Figure FDA00027078373200000313
是全局更新的总数,信誉值映射到范围(0,a);
基于以上模型,本发明针对不同规模的空地网络,分别设计了由数据孪生驱动的静态联邦学习激励方法和动态联邦学习激励方法,具体如下:
对于地面设备在无人机的覆盖范围内的小型空地网络,无人机作为聚合器执行联邦学习任务,为了激励高质量设备参与训练,我们设计了基于Stackelberg博弈的静态激励方法,其中无人机的数字孪生体是领导者,地面客户端是追随者;
首先,聚合器在发布任务时提供一个奖励R,然后网络中的客户端根据奖励和自己的训练成本来决定自己的参与轮次数,
Figure FDA0002707837320000041
代表客户端i的决策,即客户端参与全局更新的轮次数,如果
Figure FDA0002707837320000042
则表示客户端不参与,
Figure FDA0002707837320000043
代表所有客户端的决策,
Figure FDA0002707837320000044
表示除了客户端i的其他客户端的训练决策,我们表示每个客户端每轮计算成本(完成一轮全局更新)为
Figure FDA0002707837320000045
每轮通信成本为
Figure FDA0002707837320000046
因此客户端i的效用函数定义为
Figure FDA0002707837320000047
即奖励减去成本;
聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
Figure FDA0002707837320000048
其中α>0是保证效用在最优R下大于或等于0的系统参数;
对于空地网络中的联邦学习场景,聚合器和客户端都尽其所能做出最优决策,聚合器调整其奖励R,而客户端i,调整其参与轮次
Figure FDA0002707837320000049
为了最大化它们的效用,可以分别表示为
Figure FDA00027078373200000410
Figure FDA00027078373200000411
2.根据权利要求1所述的空地网络中由数字孪生驱动的联邦学习的激励方法,其特征在于,联邦学习的静态激励为:
第一步:发布联邦学习任务和奖励,聚合器首先发布一个联邦学习任务,并生成一个全局模型供客户端下载以进行本地模型训练,对任务感兴趣的客户端需要将相关信息(ci,ki,bi,fi)发送给无人机的数字孪生体,作为对客户端选择的参考;
第二步:计算信誉值并公布奖励,在知道哪些客户端对任务感兴趣后,无人机的数字孪生体开始计算他们的信誉值并将结果通知所有客户端,根据客户端发送的数据和相应的数字孪生体计算参数μi,并使用1-|μi|来测量通信信道的质量,然后无人机的数字孪生体向客户端公布任务的奖励,这是博弈中领导者的决策阶段;
第三步:确定参与度,客户端i根据自身的训练成本和当前信誉值决定参与全局更新的轮次数
Figure FDA0002707837320000051
这是客户端的自我决策过程;
第四步:执行联邦学习过程,选定的客户端首先从聚合器下载一个公共全局模型,然后使用本地私有数据为固定轮次训练模型,每次客户完成训练后,他们都需要将新的模型参数发送给聚合器,然后,聚合器负责接收模型参数并将其聚合以获得新的全局模型;
在静态激励方法中,有两个阶段:第一阶段,聚合器发布任务并确定其奖励R;第二阶段,每个客户端制定决策,确定参与联邦学习的轮次数,最大化各自的效用,注意到Stackelberg博弈的第二阶段是非合作对策,引入纳什均衡和最佳反应策略的概念,并给出相关定理的证明;
对于给定的
Figure FDA0002707837320000052
客户端i的最佳反应策略
Figure FDA0002707837320000053
表示为
Figure FDA0002707837320000054
其中,ci+ki表示客户端i完成一轮全局更新所需的计算成本和通信成本之和;
为了在博弈的第二阶段找到纳什均衡,给出了计算最优反应策略的封闭解为
Figure FDA0002707837320000055
由此设计了计算博弈第二阶段纳什均衡的一种算法(算法1);
聚合器的效用函数是一个凹二次函数,可求出最优的R;
Figure FDA0002707837320000056
其中,
Figure FDA0002707837320000061
Figure FDA0002707837320000062
是唯一的Stackelberg博弈均衡。
3.根据权利要求1所述的空地网络中由数字孪生驱动的联邦学习的激励方法,其特征在于,静态激励的具体算法:
对于规模庞大的空地网络,我们设计了一种动态激励方法来选择最优客户端参与联邦学习,每一轮的全局更新都可以建模为一轮Stackelberg博弈,聚合器决定其奖励,动态选择客户端设备参与,客户端决定其本地训练轮次数,每轮全局更新完成后,客户端的信誉值将被更新;
在动态激励中,我们使用
Figure FDA0002707837320000063
来表示客户端i在第
Figure FDA0002707837320000064
轮全局更新期间的信誉值,我们使用
Figure FDA0002707837320000065
来表示第
Figure FDA0002707837320000066
次全局更新时的客户端集合,使用
Figure FDA0002707837320000067
来表示动态激励中客户端完成一轮本地训练的计算成本,
Figure FDA0002707837320000068
表示通信成本,ti表示客户端i在一轮全局更新中进行的本地训练的轮次数
Figure FDA0002707837320000069
代表所有客户端的训练策略,
Figure FDA00027078373200000610
表示除了客户端i之外的所有客户端的训练策略,类似地,客户端i的效用可定义为
Figure FDA00027078373200000611
其中
Figure FDA00027078373200000612
表示在第
Figure FDA00027078373200000613
次全局更新开始之前由无人机确定的奖励,聚合器的效用函数是参与学习过程的客户端的总能耗减去聚合器的奖励,定义为
Figure FDA00027078373200000614
其中η>0是保证效用在最优
Figure FDA00027078373200000615
下大于或等于0的系统参数。因此,对于客户端和无人机,目标如下:
Figure FDA00027078373200000616
Figure FDA00027078373200000617
注意,最终无人机的最优总奖励R*应表示为
Figure FDA0002707837320000071
其中
Figure FDA0002707837320000072
是全局更新的轮次数。
4.根据权利要求1所述的空地网络中由数字孪生驱动的联邦学习的激励方法,其特征在于,联邦学习的动态激励方法如下:
第一步:发布联邦学习任务和奖励,无人机发布一个联邦学习任务,并生成一个全局模型,供客户端下载进行本地训练,在收到当前覆盖范围内的客户端信息后,无人机的数字孪生体将公布这一轮全局更新的奖励
Figure FDA0002707837320000073
第二步:确定参与度。无人机的数字孪生体会向当前客户端公布经过计算的信誉值,对于每一次全局更新,客户端i将根据自己的训练成本和当前信誉值决定是否进行本地训练和本地训练轮次数ti,请注意,如果是第一次参与全局更新,则客户端i的初始信誉值为1-|μi|;
第三步:执行联邦学习过程,所选的客户端首先从无人机下载全局模型,然后使用本地私有数据进行模型训练,当本地训练轮次数达到其预设轮次数时,停止训练,并将本地更新结果上传至无人机,无人机然后根据所有上传的结果执行全局更新,以生成新的全局模型;
第四步:评估本地模型更新的质量,在完成一轮全局更新后,聚合器将根据(9)评估客户端提交的参数;
第五步:更新信誉值,根据上一步的评估结果,按照(10)更新最后一轮全局更新的客户端的信誉值;
上面五个步骤是循环的,直到达到预设的全局更新轮次数,在动态激励中,每一轮全局更新都是一个Stackelberg博弈,博弈分为两个阶段:第一阶段,聚合器发布本轮奖励r;第二阶段,客户端确定本地训练的轮次数。每个客户端的最佳反应策略的封闭解可以表示为
Figure FDA0002707837320000074
对于动态激励方法,由于无人机的效用函数为凹二次函数,因此每轮博弈中聚合器的最优奖励为
Figure FDA0002707837320000081
其中
Figure FDA0002707837320000082
最后,t*
Figure FDA0002707837320000083
构成了这一轮Stackelberg博弈的唯一均衡,由此,我们给出了动态激励的具体算法(算法3);
本发明引入动态数字孪生来捕获空地网络中的元素动态特性,为了提高联邦学习的准确性和可靠性,针对不同规模的空地网络设计了激励方案,以鼓励高质量客户端参与。
CN202011045504.7A 2020-09-28 2020-09-28 空地网络中由数字孪生驱动的联邦学习的激励方法 Active CN112367109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011045504.7A CN112367109B (zh) 2020-09-28 2020-09-28 空地网络中由数字孪生驱动的联邦学习的激励方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011045504.7A CN112367109B (zh) 2020-09-28 2020-09-28 空地网络中由数字孪生驱动的联邦学习的激励方法

Publications (2)

Publication Number Publication Date
CN112367109A true CN112367109A (zh) 2021-02-12
CN112367109B CN112367109B (zh) 2022-02-01

Family

ID=74507459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011045504.7A Active CN112367109B (zh) 2020-09-28 2020-09-28 空地网络中由数字孪生驱动的联邦学习的激励方法

Country Status (1)

Country Link
CN (1) CN112367109B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836130A (zh) * 2021-02-20 2021-05-25 四川省人工智能研究院(宜宾) 一种基于联邦学习的上下文感知推荐系统及方法
CN113206887A (zh) * 2021-05-08 2021-08-03 武汉理工大学 边缘计算下针对数据与设备异构性加速联邦学习的方法
CN113268920A (zh) * 2021-05-11 2021-08-17 西安交通大学 一种基于联邦学习的无人机群感知数据安全共享方法
CN113296963A (zh) * 2021-07-27 2021-08-24 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN113469370A (zh) * 2021-06-22 2021-10-01 河北工业大学 一种基于联邦增量学习的工业物联网数据共享方法
CN113537514A (zh) * 2021-07-27 2021-10-22 北京邮电大学 一种高能效的基于数字孪生的联邦学习框架
CN113537518A (zh) * 2021-07-19 2021-10-22 哈尔滨工业大学 基于联邦学习的模型训练方法及装置、设备、存储介质
CN113572804A (zh) * 2021-04-29 2021-10-29 重庆工程职业技术学院 一种基于边缘协作的任务卸载系统、方法及装置
CN113625751A (zh) * 2021-08-05 2021-11-09 南京航空航天大学 面向空地一体联邦学习的无人机位置与资源联合优化方法
CN113992676A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和完全信息下分层联邦学习的激励方法及系统
CN113992692A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和不完全信息下分层联邦学习的方法及系统
CN114326822A (zh) * 2022-03-09 2022-04-12 中国人民解放军66136部队 一种基于演化博弈的无人机集群信息共享方法
CN114530028A (zh) * 2022-02-14 2022-05-24 大连理工大学 一种基于LoRa通信与联邦学习的校园学生智能手环监控系统及方法
CN115018086A (zh) * 2022-06-08 2022-09-06 河海大学 一种基于联邦学习的模型训练方法及联邦学习系统
CN115174396A (zh) * 2022-07-02 2022-10-11 华北电力大学 一种基于数字孪生的低碳能源管控通信网业务管理方法
CN115577641A (zh) * 2022-11-14 2023-01-06 成都飞机工业(集团)有限责任公司 一种数字孪生模型的训练方法、装置、设备及介质
CN115718744A (zh) * 2022-11-28 2023-02-28 北京中航路通科技有限公司 一种基于大数据的数据质量度量方法
WO2023044192A1 (en) * 2021-09-14 2023-03-23 Qualcomm Incorporated User equipment participation indications associated with federated learning
WO2023087442A1 (zh) * 2021-11-18 2023-05-25 清华大学 数字孪生网络低时延高可靠传输方法、装置、设备及介质
CN116502237A (zh) * 2023-06-25 2023-07-28 北京智芯微电子科技有限公司 一种数字孪生平台安全协作方法及系统
CN116757875A (zh) * 2023-08-18 2023-09-15 国网智能电网研究院有限公司 源荷储多孪生体协同互动方法、装置、设备及存储介质
CN117241300A (zh) * 2023-11-16 2023-12-15 南京信息工程大学 一种无人机辅助的通感算网络融合方法
WO2023246568A1 (zh) * 2022-06-22 2023-12-28 烽火通信科技股份有限公司 一种数字孪生架构、模型评价体系以及模型运行方法
CN117521856A (zh) * 2023-12-29 2024-02-06 南京邮电大学 一种基于本地特征的大模型切割联邦学习方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005828A1 (en) * 2017-06-29 2019-01-03 The Boeing Company Method and system for autonomously operating an aircraft
CN110247827A (zh) * 2019-07-25 2019-09-17 浙江鹏信信息科技股份有限公司 基于数字孪生技术的nfv网元全包围测试方法及装置
US20190294975A1 (en) * 2018-03-21 2019-09-26 Swim.IT Inc Predicting using digital twins
CN110851966A (zh) * 2019-10-30 2020-02-28 同济大学 一种基于深度神经网络的数字孪生模型修正方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005828A1 (en) * 2017-06-29 2019-01-03 The Boeing Company Method and system for autonomously operating an aircraft
US20190294975A1 (en) * 2018-03-21 2019-09-26 Swim.IT Inc Predicting using digital twins
CN110247827A (zh) * 2019-07-25 2019-09-17 浙江鹏信信息科技股份有限公司 基于数字孪生技术的nfv网元全包围测试方法及装置
CN110851966A (zh) * 2019-10-30 2020-02-28 同济大学 一种基于深度神经网络的数字孪生模型修正方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONG XING 等: "Decentralized Federated Learning via SGD over Wireless D2D Networks", 《2020 IEEE 21ST INTERNATIONAL WORKSHOP ON SIGNAL PROCESSING ADVANCES IN WIRELESS COMMUNICATIONS (SPAWC)》 *
YUNLONG LU 等: "Communication-Efficient Federated Learning and Permissioned Blockchain for Digital Twin Edge Networks", 《IEEE INTERNET OF THINGS JOURNAL》 *
YUNLONG LU 等: "Low-Latency Federated Learning and Blockchain for Edge Association in Digital Twin Empowered 6G Networks", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *
乐建兵 等: "基于DTIM模型的5G网络共建共享运维方案研究与设计", 《广东通信技术》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836130B (zh) * 2021-02-20 2023-02-03 四川省人工智能研究院(宜宾) 一种基于联邦学习的上下文感知推荐系统及方法
CN112836130A (zh) * 2021-02-20 2021-05-25 四川省人工智能研究院(宜宾) 一种基于联邦学习的上下文感知推荐系统及方法
CN113572804B (zh) * 2021-04-29 2023-06-30 重庆工程职业技术学院 一种基于边缘协作的任务卸载系统、方法及装置
CN113572804A (zh) * 2021-04-29 2021-10-29 重庆工程职业技术学院 一种基于边缘协作的任务卸载系统、方法及装置
CN113206887A (zh) * 2021-05-08 2021-08-03 武汉理工大学 边缘计算下针对数据与设备异构性加速联邦学习的方法
CN113268920A (zh) * 2021-05-11 2021-08-17 西安交通大学 一种基于联邦学习的无人机群感知数据安全共享方法
CN113469370B (zh) * 2021-06-22 2022-08-30 河北工业大学 一种基于联邦增量学习的工业物联网数据共享方法
CN113469370A (zh) * 2021-06-22 2021-10-01 河北工业大学 一种基于联邦增量学习的工业物联网数据共享方法
CN113537518A (zh) * 2021-07-19 2021-10-22 哈尔滨工业大学 基于联邦学习的模型训练方法及装置、设备、存储介质
CN113537514B (zh) * 2021-07-27 2023-07-25 北京邮电大学 一种高能效的基于数字孪生的联邦学习框架
CN113296963A (zh) * 2021-07-27 2021-08-24 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN113296963B (zh) * 2021-07-27 2021-11-02 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN113537514A (zh) * 2021-07-27 2021-10-22 北京邮电大学 一种高能效的基于数字孪生的联邦学习框架
CN113625751A (zh) * 2021-08-05 2021-11-09 南京航空航天大学 面向空地一体联邦学习的无人机位置与资源联合优化方法
CN113625751B (zh) * 2021-08-05 2023-02-24 南京航空航天大学 面向空地一体联邦学习的无人机位置与资源联合优化方法
WO2023044192A1 (en) * 2021-09-14 2023-03-23 Qualcomm Incorporated User equipment participation indications associated with federated learning
US11956785B2 (en) 2021-09-14 2024-04-09 Qualcomm Incorporated User equipment participation indications associated with federated learning
CN113992692B (zh) * 2021-10-27 2022-09-06 天津大学 端边云架构和不完全信息下分层联邦学习的方法及系统
CN113992676B (zh) * 2021-10-27 2022-09-06 天津大学 端边云架构和完全信息下分层联邦学习的激励方法及系统
CN113992692A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和不完全信息下分层联邦学习的方法及系统
CN113992676A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和完全信息下分层联邦学习的激励方法及系统
WO2023087442A1 (zh) * 2021-11-18 2023-05-25 清华大学 数字孪生网络低时延高可靠传输方法、装置、设备及介质
CN114530028A (zh) * 2022-02-14 2022-05-24 大连理工大学 一种基于LoRa通信与联邦学习的校园学生智能手环监控系统及方法
CN114326822A (zh) * 2022-03-09 2022-04-12 中国人民解放军66136部队 一种基于演化博弈的无人机集群信息共享方法
CN115018086B (zh) * 2022-06-08 2024-05-03 河海大学 一种基于联邦学习的模型训练方法及联邦学习系统
CN115018086A (zh) * 2022-06-08 2022-09-06 河海大学 一种基于联邦学习的模型训练方法及联邦学习系统
WO2023246568A1 (zh) * 2022-06-22 2023-12-28 烽火通信科技股份有限公司 一种数字孪生架构、模型评价体系以及模型运行方法
CN115174396A (zh) * 2022-07-02 2022-10-11 华北电力大学 一种基于数字孪生的低碳能源管控通信网业务管理方法
CN115174396B (zh) * 2022-07-02 2024-04-16 华北电力大学 一种基于数字孪生的低碳能源管控通信网业务管理方法
CN115577641A (zh) * 2022-11-14 2023-01-06 成都飞机工业(集团)有限责任公司 一种数字孪生模型的训练方法、装置、设备及介质
CN115718744A (zh) * 2022-11-28 2023-02-28 北京中航路通科技有限公司 一种基于大数据的数据质量度量方法
CN116502237B (zh) * 2023-06-25 2023-11-17 北京智芯微电子科技有限公司 一种数字孪生平台安全协作方法及系统
CN116502237A (zh) * 2023-06-25 2023-07-28 北京智芯微电子科技有限公司 一种数字孪生平台安全协作方法及系统
CN116757875A (zh) * 2023-08-18 2023-09-15 国网智能电网研究院有限公司 源荷储多孪生体协同互动方法、装置、设备及存储介质
CN116757875B (zh) * 2023-08-18 2023-10-24 国网智能电网研究院有限公司 源荷储多孪生体协同互动方法、装置、设备及存储介质
CN117241300A (zh) * 2023-11-16 2023-12-15 南京信息工程大学 一种无人机辅助的通感算网络融合方法
CN117241300B (zh) * 2023-11-16 2024-03-08 南京信息工程大学 一种无人机辅助的通感算网络融合方法
CN117521856A (zh) * 2023-12-29 2024-02-06 南京邮电大学 一种基于本地特征的大模型切割联邦学习方法及系统
CN117521856B (zh) * 2023-12-29 2024-03-15 南京邮电大学 一种基于本地特征的大模型切割联邦学习方法及系统

Also Published As

Publication number Publication date
CN112367109B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN112367109B (zh) 空地网络中由数字孪生驱动的联邦学习的激励方法
Sun et al. Dynamic digital twin and federated learning with incentives for air-ground networks
Kang et al. Incentive mechanism for reliable federated learning: A joint optimization approach to combining reputation and contract theory
Zhan et al. An incentive mechanism design for efficient edge learning by deep reinforcement learning approach
Li et al. Deep reinforcement learning approaches for content caching in cache-enabled D2D networks
CN110351754B (zh) 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN105550323B (zh) 一种分布式数据库负载均衡预测方法和预测分析器
CN109829332A (zh) 一种基于能量收集技术的联合计算卸载方法及装置
Tong et al. Stackelberg game-based task offloading and pricing with computing capacity constraint in mobile edge computing
Aloqaily et al. Fairness-aware game theoretic approach for service management in vehicular clouds
Liu et al. Task offloading optimization of cruising UAV with fixed trajectory
CN115238905A (zh) 敏感场景下可提升系统公平性的横向联邦学习训练方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
Guo et al. Energy-efficient incremental offloading of neural network computations in mobile edge computing
CN116489712A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Zhao et al. An incentive mechanism for big data trading in end-edge-cloud hierarchical federated learning
CN111083724A (zh) 一种雾计算网络下基于ocwg-topsis的用户关联方法
CN113435125A (zh) 一种面向联邦物联网系统的模型训练加速方法与系统
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
Lyu et al. Multi-leader multi-follower Stackelberg game based resource allocation in multi-access edge computing
CN115756873B (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN115329985B (zh) 无人集群智能模型训练方法、装置和电子设备
CN111148155A (zh) 一种基于移动边缘计算的任务卸载方法
Wu et al. Incentive mechanism for federated learning based on random client sampling
Li et al. Deep reinforcement learning-based incentive mechanism design for short video sharing through D2D communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant