CN116528344A - 一种基于动态博弈的联邦学习激励方法 - Google Patents
一种基于动态博弈的联邦学习激励方法 Download PDFInfo
- Publication number
- CN116528344A CN116528344A CN202310501744.0A CN202310501744A CN116528344A CN 116528344 A CN116528344 A CN 116528344A CN 202310501744 A CN202310501744 A CN 202310501744A CN 116528344 A CN116528344 A CN 116528344A
- Authority
- CN
- China
- Prior art keywords
- node
- model
- auv
- nodes
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000005284 excitation Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000005265 energy consumption Methods 0.000 claims abstract description 25
- 230000035945 sensitivity Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims abstract description 14
- 238000004220 aggregation Methods 0.000 claims abstract description 14
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 23
- 238000013441 quality evaluation Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002028 premature Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/30—TPC using constraints in the total amount of available transmission power
- H04W52/34—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/30—TPC using constraints in the total amount of available transmission power
- H04W52/34—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
- H04W52/346—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明属于边缘计算技术领域,公开了一种基于动态博弈的联邦学习激励算法。首先对水下节点的隐私敏感度、能量损耗模型进行建模;其次,对参与节点的学习质量进行评估,选择高质量的节点参与联邦学习任务;然后使用扩展式博弈模型和重复博弈模型对参与节点决策过程进行建模,获得各参与节点训练策略的最优解,以此作为选择训练数据集大小和参与节点数量的依据;最后按照最优策略执行本地模型训练和聚合,在每次迭代中更新全局模型并记录节点历史学习质量。此外,本发明实现了水下网络能源消耗、模型精度和隐私保护之间的最佳均衡,保证了模型的训练效果、能耗和隐私损失的减少。本发明使联邦学习引入水下物联网后节点能更持续投入使用。
Description
技术领域
本发明涉及边缘计算技术领域,特别涉及一种基于动态博弈的联邦学习激励方法。
背景技术
水下物联网是一种由智能互联的水下设备组成的网络,通过收集和感知大量数据信息执行各种类型的预测分析。边缘技术已经被成功应用于水下物联网的众多场景任务中,通过将数据处理和计算任务从云端转移到离数据源更近的边缘节点,提高了数据的传输速率并且有效降低了延迟。然而一些水下物联网的场景任务对于数据的隐私性和安全性有着更高的要求,需要使用更加安全可靠的技术进行数据处理和分析。联邦学习是一种安全的分布式机器学习技术,可以在保护数据隐私的同时,实现多方参与的数据模型训练和预测。对于水下物联网中的安全和隐私问题,联邦学习被认为是一个很有前途的解决方法。
Kwon D等人在论文《Multiagent DDPG-Based Deep Learning for SmartOceanFederated Learning IoT Networks》中提出了一种基于多智能体深度强化学习的算法用于在海洋环境中实现联邦学习计算,该算法能够适应水下环境的意外变化和通道的不可靠性。Z.Qin等人在论文《Privacy-Preserving Blockchain-Based Federated Learning forMarine Internet of Things》中考虑到数据安全的问题,提出了使用区块链和联邦学习机制的框架处理水下物联网环境中的恶意节点问题。尽管以上论文为联邦学习应用于水下物联网的可靠通信和安全聚合做出了相应的贡献,但是都没有考虑到水下物联网能量有限的问题,这对于能否持续执行联邦学习训练过程至关重要。首先,节点设备部署在恶劣的水下环境中,设备能量有限,通常无法为设备充电或更换耗尽的电池,漫无目的的训练会导致网络能量过早耗尽,一旦电池电量耗尽,设备将无法继续工作。因此,有必要考虑能量限制的因素,对训练决策进行优化,以延长节点的寿命。其次,由于节点的位置和环境条件不同,收集的数据数量和质量可能不同,聚合低质量的模型更新可能会降低全局模型质量,同时产生不必要的能量开销,因此需要考虑如何衡量各节点的数据质量,实现模型精度和能源消耗之间的平衡。同时,额外的安全和隐私保护机制进一步加剧了系统能量的消耗和模型准确性的降低。分配能量以优化模型精度、隐私保护和能源消耗成为联邦学习技术能否应用于水下物联网的关键因素。
综上所述,尽管联邦学习为水下物联网的场景任务提供了新的解决方案,但仍存在以下缺陷:(1)没有考虑到复杂应用场景下节点设备能量有限无法充电的情况,忽略了模型性能和能量的决策权衡。(2)聚合低质量的模型更新会造成模型精度和下降以及不必要的能源消耗。(3)数据的隐私保护需求会导致模型性能下降,因此会产生更多模型训练能耗。因此需要综合考虑能源消耗、模型精度和隐私保护之间的权衡。
发明内容
本发明的目的是提出一种基于动态博弈的联邦学习激励方法,以解决上述技术问题。
为实现上述目的,本发明提供了如下方案:
一种基于动态博弈的联邦学习激励方法,步骤如下:
步骤1)、建立水下物联网网络模型,水下物联网网络模型包括场景模型、学习质量评估模型、隐私敏感度衡量模型和能量损耗模型;
步骤1.1)、建立场景模型;
场景模型为三层联邦学习网络架构,该三层联邦学习网络架构中包括1个基站BS、M个海平面基站SLBS和N个自主水下航行器AUV;每个AUV节点拥有一个数据集,所有的AUV节点合作执行联邦学习算法训练一个全局模型;联邦学习过程以时隙方式运行,总训练时间为T,时间跨度被划分为具有相同持续时间的K个连续时隙;一轮完整的联邦学习在一个时隙中迭代一次,每轮迭代中,AUV节点下载初始全局模型进行本地训练,训练好的本地模型发送给SLBS进行局部聚合,再返回BS聚合为当前全局模型;
步骤1.2)、建立学习质量评估模型;
通过每次迭代中的损失减少值和用于训练的数据大小评估AUV节点的学习质量,AUV节点的学习质量通过历史质量记录估计;不同的质量记录根据数据新鲜度为其赋予不同的权重;具体采用指数遗忘函数来分配权重,最新质量记录的权重为1,其他记录权重由其与最新质量记录的相对位置决定;第t轮迭代在时间ts开始并在te结束,AUV节点在[ts,te]时间内提交本地模型更新,否则该本地模型更新将被拒绝;AUV节点Ai在第t轮迭代的学习质量评估值为,
其中,ρ为遗忘因子,为历史学习质量记录,tr-tk表示当前第r轮最新质量记录与第k轮其他质量记录的相对位置;
海平面基站SLBS在联邦学习任务中负责聚合与之通信的AUV节点的本地模型更新,因此定义海平面基站节点Si在第t轮迭代的学习质量为 是节点Si聚合的本地模型更新的数量;同理,基站BS在第t轮迭代的学习质量为/> 是基站节点BS聚合的局部模型更新的数量;
步骤1.3)、建立隐私敏感度衡量模型,
隐私敏感度衡量模型用于衡量每个AUV节点数据集的隐私敏感程度,具体如下;
数据集的隐私敏感程度被定义为先验概率和参与当前迭代的后验概率差值的折现和;其中,是噪声强度,/>ω0和ωt分别是AUV节点第t轮迭代接收到的全局模型和训练后的本地模型,Pr表示概率;
步骤1.4)、建立能量损耗模型;
能量损耗模型中考虑本地计算和通信消耗,不考虑设备操作和模型下载的能量损耗;
任意节点通信时间表示为,
其中esize是联邦学习全局模型参数大小,B是带宽大小,p是传输功率,|G|是信道增益,F是高斯频谱噪声密度。
对于每个AUV节点,计算成本为训练本地模型的能耗;一轮迭代的训练时间定义为,
其中,N是部署AUV节点的数量,是AUV节点Ai的本地数据集大小,/>是AUV节点Ai在第n轮迭代中使用的数据集比例,/>是AUV节点本地训练的处理能力,/>是节点处理单位数据所需要的CPU周期数,/>是有效电容开关;
迭代次数表示为在一轮迭代中AUV节点的计算能耗为SLBS的计算能耗为/> 是与Si通信的Ai节点的数量;基站BS的本地计算能耗为/> 是与基站BS通信的Si节点的数量。
步骤2)、根据建立的水下物联网网络模型构建效用函数,对节点的不同训练策略建模;
步骤2.1)、采用扩展式博弈模型分析在一轮迭代中三种参与节点的策略;分别使用x,y,z表示AUV、SLBS和BS参与联邦学习训练的概率,对不同策略下的效用U建模;每个AUV节点Ai的效用函数为,
其中κ>0是反映隐私泄露对用户回报的负面影响的系数;
每个SLBS节点Si的效用函数为,
BS节点的效用函数为,
将P(Cm)定义为每个策略的概率,其为x,y,z的函数,用于求解AUV、SLBS和BS的纳什均衡解;m=1,2,3;0≤x≤1;0≤y≤1;0≤z≤1;C1:x=1,y=1,z=1,C2:x=1,y=0,z=1,C3:x=0,y=0,z=0;
AUV、SLBS和BS各参与节点的效用的数学期望值通过以下公式计算:
通过求解该数学期望值的纳什均衡解获得各参与节点在一轮迭代中的最优策略,即AUV节点参与训练的本地数据集比例x,SLBS节点聚合的本地模型参数的比例y以及BS节点聚合的局部模型参数的比例z;
步骤2.2)、基于步骤2.1)的最优策略,AUV节点选择x比例大小的本地数据集参与联邦学习训练;SLBS节点按照AUV节点的学习质量评估值降序,选择y比例大小的AUV节点训练的本地模型进行聚合;BS节点按照SLBS节点的学习质量评估值降序,选择z比例大小的SLBS聚合的局部模型进行全局聚合;
步骤2.3)、采用重复博弈模型分析在整个学习过程中三种参与节点的策略;引入贴现因子δ,该贴现因子反映了所述参与节点的偏好,更高的δ意味着参与节点在博弈中更关注后期的效用;参与节点在每轮迭代中的效用为u1,u2,…,ur,则总体效用表示为通过计算贴现因子,参与节点最大限度地提高自身效用;
步骤3)、设计激励算法进行本地训练;
基于步骤2)的分析,设计联邦学习激励机制,用于鼓励更多参与节点在联邦学习训练中提供更高质量的数据,从而为所有参与节点提供一个更稳定的联邦学习系统;包括:
步骤3.1)、计算AUV节点的最优策略x,选择参与训练的数据集比例;计算SLBS节点的最优策略y,按照AUV节点的学习质量评估值降序,选择聚合的本地模型比例;计算BS节点的最优策略z,按照SLBS节点的学习质量评估值降序,选择聚合的局部模型比例;
步骤3.2)、决定噪声强度计算每个AUV节点数据集/>的隐私敏感度/>
步骤3.3)、计算各个节点训练的计算开销和通信开销;
步骤3.4)、构建各个节点的效用函数,根据效用函数计算节点效用大小,据此调整噪声强度的大小。
本发明的有益效果:本发明提出了一种基于动态博弈的联邦学习激励方法,对参与节点的学习质量进行了评估,并以此作为选择节点参与联邦学习的条件,该评估方案基于本地训练过程评估,不产生额外的能量消耗。同时,选择学习质量高的节点参与联邦学习,提升模型性能的同时也更好的节约了设备能源。基于博弈方法提出的联邦学习激励机制实现了模型性能、能源消耗和隐私保护之间的平衡,使得节点在训练过程中提供高质量的数据,从而为所有参与节点提供了一个更稳定的联邦学习系统。
附图说明
图1是本发明所述的水下物联网场景示意图。
图2是本发明一种基于动态博弈的联邦学习激励方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅由于解释本发,并不用于限定本发明。
一种基于动态博弈的联邦学习激励方法,应用于水下物联网任务预测。该场景下,由于节点的位置和环境条件不同,节点的数据质量不同,聚合低质量的模型更新可能会降低全局模型质量,同时也消耗系统的能量。节点设备经常部署在恶劣的水下环境中,设备能量有限,通常无法为设备充电或更换耗尽的电池,漫无目的的训练会导致网络能量过早耗尽,一旦电池电量耗尽,设备将无法继续工作。同时,一些水下物联网的场景任务对于数据的隐私性和安全性有着更高的要求。因此,有必要综合考虑模型性能、能量消耗和隐私要求对训练决策进行优化。
本发明的场景如图1所示,在水下建立一个三层联邦学习网络架构,该网络中包含基站、海平面基站和自主水下航行器三种参与节点。每个自主水下航行器拥有一个数据集,所有的节点合作执行联邦学习算法来训练一个全局模型。节点的训练策略建模为动态博弈过程,在一轮迭代过程中使用扩展式博弈模型分析参与节点策略的均衡解,采用重复博弈模型分析在整个学习过程中三种节点的策略。
本发明的流程图如图2所示,首先,对应用场景中的质量模型、隐私敏感度、能耗模型进行建模并构建优化目标,其次,根据优化目标将节点之间的训练策略建模为扩展式博弈模型和重复博弈模型,求得其纳什均衡解;然后,根据最优解选择一定数量的本地数据集进行本地训练,根据学习质量评估值筛选本地模型进行局部聚合;最后聚合局部模型更新全局模型进行任务预测。
具体步骤如下:
步骤1)、建立水下物联网网络模型,水下物联网网络模型包括场景模型、学习质量评估模型、隐私敏感度衡量模型和能量损耗模型;
步骤1.1)、建立场景模型;
场景模型为三层联邦学习网络架构,该三层联邦学习网络架构中包括1个基站BS、M个海平面基站SLBS和N个自主水下航行器AUV;每个AUV节点拥有一个数据集,所有的AUV节点合作执行联邦学习算法训练一个全局模型;联邦学习过程以时隙方式运行,总训练时间为T,时间跨度被划分为具有相同持续时间的K个连续时隙;一轮完整的联邦学习在一个时隙中迭代一次,每轮迭代中,AUV节点下载初始全局模型进行本地训练,训练好的本地模型发送给SLBS进行局部聚合,再返回BS聚合为当前全局模型;
步骤1.2)、建立学习质量评估模型;
通过每次迭代中的损失减少值和用于训练的数据大小评估AUV节点的学习质量,随着训练过程的重复迭代,AUV节点的学习质量通过历史质量记录估计;具体来说,第t轮迭代在时间ts开始并在te结束,AUV节点在[ts,te]时间内提交本地模型更新,否则该本地模型更新将被拒绝;全局模型在ts时刻的平均测试损失值为loss(ts),AUV节点的局部模型在时刻te的平均训练损失值为则定义节点Ai在第t轮迭代中的学习质量为结合每轮用于训练的数据大小/>节点Ai在第t轮迭代中的学习质量定义为
随着训练过程的重复迭代,节点的学习质量使用历史质量记录来估计;假设节点Ai在迭代t0,t1,…,tr中参与了联邦学习任务,通过历史质量记录估计其在迭代t中贡献的质量,其中t>tr;由于数据集随时间变化,最近的数据比陈旧的数据更具有借鉴意义,因此不同的质量记录根据新鲜度为其赋予不同的权重,最新质量记录的权重为1,其他记录权重由其与最新质量记录的相对位置决定,因此/>对应的权重为/>AUV节点Ai在第t轮迭代的学习质量评估值为
其中,ρ为遗忘因子,为历史学习质量记录,tr-tk表示当前第r轮最新质量记录与第k轮其他质量记录的相对位置;
海平面基站SLBS在联邦学习任务中负责聚合与之通信的AUV节点的本地模型更新,因此定义海平面基站节点Si在第t轮迭代的学习质量为 是节点Si聚合的本地模型更新的数量;同理,基站BS在第t轮迭代的学习质量为/>是基站节点BS聚合的局部模型更新的数量;
步骤1.3)、建立隐私敏感度衡量模型,
隐私敏感度衡量模型用于衡量每个AUV节点数据集的隐私敏感程度,具体如下;
数据集的隐私敏感程度被定义为先验概率和参与当前迭代的后验概率差值的折现和;其中,是噪声强度,/>ω0和ωt分别是AUV节点第t轮迭代接收到的全局模型和训练后的本地模型,Pr表示概率;
步骤1.4)、建立能量损耗模型;
能量损耗模型中考虑本地计算和通信消耗,不考虑设备操作和模型下载的能量损耗;
任意节点通信时间表示为,
其中esize是联邦学习全局模型参数大小,B是带宽大小,p是传输功率,|G|是信道增益,F是高斯频谱噪声密度。
对于每个AUV节点,计算成本为训练本地模型的能耗;一轮迭代的训练时间定义为,
其中,N是部署AUV节点的数量,是AUV节点Ai的本地数据集大小,/>是AUV节点Ai在第n轮迭代中使用的数据集比例,/>是AUV节点本地训练的处理能力,/>是节点处理单位数据所需要的CPU周期数,/>是有效电容开关;
迭代次数表示为在一轮迭代中AUV节点的计算能耗为SLBS的计算能耗为/>是与Si通信的Ai节点的数量;基站BS的本地计算能耗为/>是与基站BS通信的Si节点的数量;
步骤2)、根据建立的水下物联网网络模型构建效用函数,对节点的不同训练策略建模;
步骤2.1)、采用扩展式博弈模型分析在一轮迭代中三种参与节点的策略。扩展博弈树表示为三元组{players,actions,strategies},players={AUV,SLBS,BS},actions={x1,x2,y1,y2,z1,z2},其中x1,x2表示AUV参与联邦学习或者不参与,y1,y2表示SLBS参与联邦学习或者不参与,z1,z2表示AUV参与联邦学习或者不参与,假定只有当与之关联的AUV设备集群选择使用本地数据集更新本地模型并上传时,SLBS才可以加入联邦学习训练负责本地模型聚合,而且除非没有节点参与联邦学习任务,否则BS必须参与全局聚合,strategies={C1,C2,C3};
分别使用x,y,z表示AUV、SLBS和BS参与联邦学习训练的概率,基于上述分析,定义每个AUV节点Ai的效用函数为
其中κ>0是反映隐私泄露对用户回报的负面影响的系数;
定义每个SLBS节点Si的效用函数为;
定义BS的效用函数为;
将P(Cm)定义为每个策略的概率,其为x,y,z的函数,用于求解AUV、SLBS和BS的纳什均衡解;m=1,2,3;0≤x≤1;0≤y≤1;0≤z≤1;C1:x=1,y=1,z=1,C2:x=1,y=0,z=1,C3:x=0,y=0,z=0;
AUV、SLBS和BS各参与节点的效用的数学期望值通过以下公式计算:
通过求解该数学期望值的纳什均衡解获得各参与节点在一轮迭代中的最优策略,即AUV节点参与训练的本地数据集比例x,SLBS节点聚合的本地模型参数的比例y以及BS节点聚合的局部模型参数的比例z;
步骤2.2)、基于步骤2.1)的最优策略,AUV节点选择x比例大小的本地数据集参与联邦学习训练;SLBS节点按照AUV节点的学习质量评估值降序,选择y比例大小的AUV节点训练的本地模型进行聚合;BS节点按照SLBS节点的学习质量评估值降序,选择z比例大小的SLBS聚合的局部模型进行全局聚合;
步骤2.3)、采用重复博弈模型分析在整个学习过程中三种参与节点的策略;引入贴现因子δ,该贴现因子反映了参与节点的偏好,更高的δ意味着参与节点在博弈中更关注后期的效用;参与节点在每轮迭代中的效用为u1,u2,…,ur,则总体效用表示为通过计算贴现因子,参与节点最大限度地提高自身效用;
步骤3)、设计激励算法进行本地训练;
基于步骤2)的分析,设计联邦学习激励机制,用于鼓励更多参与节点在联邦学习训练中提供更高质量的数据,从而为所有参与节点提供一个更稳定的联邦学习系统;包括:
步骤3.1)、计算AUV节点的最优策略x,选择参与训练的数据集比例;计算SLBS节点的最优策略y,按照AUV节点的学习质量评估值降序,选择聚合的本地模型比例;计算BS节点的最优策略z,按照SLBS节点的学习质量评估值降序,选择聚合的局部模型比例;
步骤3.2)、决定噪声强度计算每个AUV节点数据集/>的隐私敏感度/>
步骤3.3)、计算各个节点训练的计算开销和通信开销;
步骤3.4)、构建各个节点的效用函数,根据效用函数计算节点效用大小,据此调整噪声强度的大小。
综上所述:本发明提出了一种基于动态博弈的联邦学习激励方法,通过对节点学习质量进行评估,有效提升模型性能的同时减少了能源消耗。通过对参与节点决策过程建模,获得了了各参与节点训练策略的最优解,实现了水下网络能源消耗、模型精度和隐私保护之间的最佳均衡,保证了模型的训练效果和持续时间。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (1)
1.一种基于动态博弈的联邦学习激励方法,其特征在于,步骤如下:
步骤1)、建立水下物联网网络模型,水下物联网网络模型包括场景模型、学习质量评估模型、隐私敏感度衡量模型和能量损耗模型;
步骤1.1)、建立场景模型;
场景模型为三层联邦学习网络架构,该三层联邦学习网络架构中包括1个基站BS、M个海平面基站SLBS和N个自主水下航行器AUV;每个AUV节点拥有一个数据集,所有的AUV节点合作执行联邦学习算法训练一个全局模型;联邦学习过程以时隙方式运行,总训练时间为T,时间跨度被划分为具有相同持续时间的K个连续时隙;一轮完整的联邦学习在一个时隙中迭代一次,每轮迭代中,AUV节点下载初始全局模型进行本地训练,训练好的本地模型发送给SLBS进行局部聚合,再返回BS聚合为当前全局模型;
步骤1.2)、建立学习质量评估模型;
通过每次迭代中的损失减少值和用于训练的数据大小评估AUV节点的学习质量,AUV节点的学习质量通过历史质量记录估计;不同的质量记录根据数据新鲜度为其赋予不同的权重;具体采用指数遗忘函数来分配权重,最新质量记录的权重为1,其他记录权重由其与最新质量记录的相对位置决定;第t轮迭代在时间ts开始并在te结束,AUV节点在[ts,te]时间内提交本地模型更新,否则该本地模型更新将被拒绝;AUV节点Ai在第t轮迭代的学习质量评估值为,
其中,ρ为遗忘因子,为历史学习质量记录,tr-tk表示当前第r轮最新质量记录与第k轮其他质量记录的相对位置;
海平面基站SLBS在联邦学习任务中负责聚合与之通信的AUV节点的本地模型更新,因此定义海平面基站节点Si在第t轮迭代的学习质量为 是节点Si聚合的本地模型更新的数量;同理,基站BS在第t轮迭代的学习质量为/> 是基站节点BS聚合的局部模型更新的数量;
步骤1.3)、建立隐私敏感度衡量模型,
隐私敏感度衡量模型用于衡量每个AUV节点数据集的隐私敏感程度,具体如下;
数据集的隐私敏感程度被定义为先验概率和参与当前迭代的后验概率差值的折现和;其中,是噪声强度,/>ω0和ωt分别是AUV节点第t轮迭代接收到的全局模型和训练后的本地模型,Pr表示概率;
步骤1.4)、建立能量损耗模型;
能量损耗模型中考虑本地计算和通信消耗,不考虑设备操作和模型下载的能量损耗;
任意节点通信时间表示为,
其中esize是联邦学习全局模型参数大小,B是带宽大小,p是传输功率,|G|是信道增益,F是高斯频谱噪声密度;
对于每个AUV节点,计算成本为训练本地模型的能耗;一轮迭代的训练时间定义为,
其中,N是部署AUV节点的数量,是AUV节点Ai的本地数据集大小,/>是AUV节点Ai在第n轮迭代中使用的数据集比例,/>是AUV节点本地训练的处理能力,/>是节点处理单位数据所需要的CPU周期数,/>是有效电容开关;
迭代次数表示为在一轮迭代中AUV节点的计算能耗为SLBS的计算能耗为/> 是与Si通信的Ai节点的数量;基站BS的本地计算能耗为/> 是与基站BS通信的Si节点的数量;
步骤2)、根据建立的水下物联网网络模型构建效用函数,对节点的不同训练策略建模;
步骤2.1)、采用扩展式博弈模型分析在一轮迭代中三种参与节点的策略;分别使用x,y,z表示AUV、SLBS和BS参与联邦学习训练的概率,对不同策略下的效用U建模;每个AUV节点Ai的效用函数为,
其中κ>0是反映隐私泄露对用户回报的负面影响的系数;
每个SLBS节点Si的效用函数为,
BS节点的效用函数为,
将P(Cm)定义为每个策略的概率,其为x,y,z的函数,用于求解AUV、SLBS和BS的纳什均衡解;m=1,2,3;0≤x≤1;0≤y≤1;0≤z≤1;C1:x=1,y=1,z=1,C2:x=1,y=0,z=1,C3:x=0,y=0,z=0;
AUV、SLBS和BS各参与节点的效用的数学期望值通过以下公式计算:
通过求解该数学期望值的纳什均衡解获得各参与节点在一轮迭代中的最优策略,即AUV节点参与训练的本地数据集比例x,SLBS节点聚合的本地模型参数的比例y以及BS节点聚合的局部模型参数的比例z;
步骤2.2)、基于步骤2.1)的最优策略,AUV节点选择x比例大小的本地数据集参与联邦学习训练;SLBS节点按照AUV节点的学习质量评估值降序,选择y比例大小的AUV节点训练的本地模型进行聚合;BS节点按照SLBS节点的学习质量评估值降序,选择z比例大小的SLBS聚合的局部模型进行全局聚合;
步骤2.3)、采用重复博弈模型分析在整个学习过程中三种参与节点的策略;引入贴现因子δ,该贴现因子反映了所述参与节点的偏好,更高的δ意味着参与节点在博弈中更关注后期的效用;参与节点在每轮迭代中的效用为u1,u2,…,ur,则总体效用表示为通过计算贴现因子,参与节点最大限度地提高自身效用;
步骤3)、设计激励算法进行本地训练;
基于步骤2)的分析,设计联邦学习激励机制,用于鼓励更多参与节点在联邦学习训练中提供更高质量的数据,从而为所有参与节点提供一个更稳定的联邦学习系统;包括:
步骤3.1)、计算AUV节点的最优策略x,选择参与训练的数据集比例;计算SLBS节点的最优策略y,按照AUV节点的学习质量评估值降序,选择聚合的本地模型比例;计算BS节点的最优策略z,按照SLBS节点的学习质量评估值降序,选择聚合的局部模型比例;
步骤3.2)、决定噪声强度计算每个AUV节点数据集/>的隐私敏感度/>
步骤3.3)、计算各个节点训练的计算开销和通信开销;
步骤3.4)、构建各个节点的效用函数,根据效用函数计算节点效用大小,据此调整噪声强度的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501744.0A CN116528344A (zh) | 2023-05-06 | 2023-05-06 | 一种基于动态博弈的联邦学习激励方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501744.0A CN116528344A (zh) | 2023-05-06 | 2023-05-06 | 一种基于动态博弈的联邦学习激励方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116528344A true CN116528344A (zh) | 2023-08-01 |
Family
ID=87393705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310501744.0A Pending CN116528344A (zh) | 2023-05-06 | 2023-05-06 | 一种基于动态博弈的联邦学习激励方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116528344A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932686A (zh) * | 2024-03-22 | 2024-04-26 | 成都信息工程大学 | 基于激励机制的元宇宙中联邦学习隐私保护方法和系统、介质 |
-
2023
- 2023-05-06 CN CN202310501744.0A patent/CN116528344A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932686A (zh) * | 2024-03-22 | 2024-04-26 | 成都信息工程大学 | 基于激励机制的元宇宙中联邦学习隐私保护方法和系统、介质 |
CN117932686B (zh) * | 2024-03-22 | 2024-05-31 | 成都信息工程大学 | 基于激励机制的元宇宙中联邦学习隐私保护方法和系统、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668128B (zh) | 联邦学习系统中终端设备节点的选择方法及装置 | |
CN112367109B (zh) | 空地网络中由数字孪生驱动的联邦学习的激励方法 | |
Zhan et al. | An incentive mechanism design for efficient edge learning by deep reinforcement learning approach | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
US11734568B2 (en) | Systems and methods for modification of neural networks based on estimated edge utility | |
CN109361635B (zh) | 基于深度残差网络的水下通信调制方式识别方法及系统 | |
CN116528344A (zh) | 一种基于动态博弈的联邦学习激励方法 | |
CN110554324A (zh) | 一种soc和soh联合估计方法 | |
CN113852432A (zh) | 基于rcs-gru模型的频谱预测感知方法 | |
CN111813858B (zh) | 基于计算节点自组织分组的分布式神经网络混合同步训练方法 | |
CN116390161A (zh) | 一种移动边缘计算中基于负载均衡的任务迁移方法 | |
CN113760511B (zh) | 一种基于深度确定性策略的车辆边缘计算任务卸载方法 | |
CN116187483A (zh) | 模型训练方法、装置、设备、介质和程序产品 | |
CN116106761A (zh) | 基于典型相关分析的锂离子电池电量实时估计方法 | |
CN103916969A (zh) | 联合授权用户感知与链路状态估计方法与装置 | |
CN115051929A (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
CN114828095A (zh) | 一种基于任务卸载的高效数据感知分层联邦学习方法 | |
CN113095513A (zh) | 双层公平联邦学习方法、装置和存储介质 | |
CN113961204A (zh) | 一种基于多目标强化学习的车联网计算卸载方法及系统 | |
Chowdappa et al. | Distributed clustering algorithm for spatial field reconstruction in wireless sensor networks | |
CN116796821A (zh) | 面向3d目标检测算法的高效神经网络架构搜索方法及装置 | |
El Mekkaoui et al. | Distributed stochastic gradient MCMC for federated learning | |
CN115219910A (zh) | 一种电池余量预测误差的分析方法及装置 | |
CN114912653A (zh) | 一种基于自适应啁啾模态分解和SSA-BiLSTM的短期负荷组合预测方法 | |
CN113890633A (zh) | 一种基于深度神经网络的水声通信体制自适应选取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |