CN116528344A

CN116528344A - 一种基于动态博弈的联邦学习激励方法

Info

Publication number: CN116528344A
Application number: CN202310501744.0A
Authority: CN
Inventors: 覃振权; 孟婕; 卢炳先; 王雷; 朱明�
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-01

Abstract

本发明属于边缘计算技术领域，公开了一种基于动态博弈的联邦学习激励算法。首先对水下节点的隐私敏感度、能量损耗模型进行建模；其次，对参与节点的学习质量进行评估，选择高质量的节点参与联邦学习任务；然后使用扩展式博弈模型和重复博弈模型对参与节点决策过程进行建模，获得各参与节点训练策略的最优解，以此作为选择训练数据集大小和参与节点数量的依据；最后按照最优策略执行本地模型训练和聚合，在每次迭代中更新全局模型并记录节点历史学习质量。此外，本发明实现了水下网络能源消耗、模型精度和隐私保护之间的最佳均衡，保证了模型的训练效果、能耗和隐私损失的减少。本发明使联邦学习引入水下物联网后节点能更持续投入使用。

Description

一种基于动态博弈的联邦学习激励方法

技术领域

本发明涉及边缘计算技术领域，特别涉及一种基于动态博弈的联邦学习激励方法。

背景技术

水下物联网是一种由智能互联的水下设备组成的网络，通过收集和感知大量数据信息执行各种类型的预测分析。边缘技术已经被成功应用于水下物联网的众多场景任务中，通过将数据处理和计算任务从云端转移到离数据源更近的边缘节点，提高了数据的传输速率并且有效降低了延迟。然而一些水下物联网的场景任务对于数据的隐私性和安全性有着更高的要求，需要使用更加安全可靠的技术进行数据处理和分析。联邦学习是一种安全的分布式机器学习技术，可以在保护数据隐私的同时，实现多方参与的数据模型训练和预测。对于水下物联网中的安全和隐私问题，联邦学习被认为是一个很有前途的解决方法。

Kwon D等人在论文《Multiagent DDPG-Based Deep Learning for SmartOceanFederated Learning IoT Networks》中提出了一种基于多智能体深度强化学习的算法用于在海洋环境中实现联邦学习计算，该算法能够适应水下环境的意外变化和通道的不可靠性。Z.Qin等人在论文《Privacy-Preserving Blockchain-Based Federated Learning forMarine Internet of Things》中考虑到数据安全的问题，提出了使用区块链和联邦学习机制的框架处理水下物联网环境中的恶意节点问题。尽管以上论文为联邦学习应用于水下物联网的可靠通信和安全聚合做出了相应的贡献，但是都没有考虑到水下物联网能量有限的问题，这对于能否持续执行联邦学习训练过程至关重要。首先，节点设备部署在恶劣的水下环境中，设备能量有限，通常无法为设备充电或更换耗尽的电池，漫无目的的训练会导致网络能量过早耗尽，一旦电池电量耗尽，设备将无法继续工作。因此，有必要考虑能量限制的因素，对训练决策进行优化，以延长节点的寿命。其次，由于节点的位置和环境条件不同，收集的数据数量和质量可能不同，聚合低质量的模型更新可能会降低全局模型质量，同时产生不必要的能量开销，因此需要考虑如何衡量各节点的数据质量，实现模型精度和能源消耗之间的平衡。同时，额外的安全和隐私保护机制进一步加剧了系统能量的消耗和模型准确性的降低。分配能量以优化模型精度、隐私保护和能源消耗成为联邦学习技术能否应用于水下物联网的关键因素。

综上所述，尽管联邦学习为水下物联网的场景任务提供了新的解决方案，但仍存在以下缺陷：(1)没有考虑到复杂应用场景下节点设备能量有限无法充电的情况，忽略了模型性能和能量的决策权衡。(2)聚合低质量的模型更新会造成模型精度和下降以及不必要的能源消耗。(3)数据的隐私保护需求会导致模型性能下降，因此会产生更多模型训练能耗。因此需要综合考虑能源消耗、模型精度和隐私保护之间的权衡。

发明内容

本发明的目的是提出一种基于动态博弈的联邦学习激励方法，以解决上述技术问题。

为实现上述目的，本发明提供了如下方案：

一种基于动态博弈的联邦学习激励方法，步骤如下：

步骤1)、建立水下物联网网络模型，水下物联网网络模型包括场景模型、学习质量评估模型、隐私敏感度衡量模型和能量损耗模型；

步骤1.1)、建立场景模型；

场景模型为三层联邦学习网络架构，该三层联邦学习网络架构中包括1个基站BS、M个海平面基站SLBS和N个自主水下航行器AUV；每个AUV节点拥有一个数据集，所有的AUV节点合作执行联邦学习算法训练一个全局模型；联邦学习过程以时隙方式运行，总训练时间为T，时间跨度被划分为具有相同持续时间的K个连续时隙；一轮完整的联邦学习在一个时隙中迭代一次，每轮迭代中，AUV节点下载初始全局模型进行本地训练，训练好的本地模型发送给SLBS进行局部聚合，再返回BS聚合为当前全局模型；

步骤1.2)、建立学习质量评估模型；

通过每次迭代中的损失减少值和用于训练的数据大小评估AUV节点的学习质量，AUV节点的学习质量通过历史质量记录估计；不同的质量记录根据数据新鲜度为其赋予不同的权重；具体采用指数遗忘函数来分配权重，最新质量记录的权重为1，其他记录权重由其与最新质量记录的相对位置决定；第t轮迭代在时间t_s开始并在t_e结束，AUV节点在[t_s,t_e]时间内提交本地模型更新，否则该本地模型更新将被拒绝；AUV节点A_i在第t轮迭代的学习质量评估值为，

其中，ρ为遗忘因子，为历史学习质量记录，t_r-t_k表示当前第r轮最新质量记录与第k轮其他质量记录的相对位置；

海平面基站SLBS在联邦学习任务中负责聚合与之通信的AUV节点的本地模型更新，因此定义海平面基站节点S_i在第t轮迭代的学习质量为是节点S_i聚合的本地模型更新的数量；同理，基站BS在第t轮迭代的学习质量为/> 是基站节点BS聚合的局部模型更新的数量；

步骤1.3)、建立隐私敏感度衡量模型，

隐私敏感度衡量模型用于衡量每个AUV节点数据集的隐私敏感程度，具体如下；

数据集的隐私敏感程度被定义为先验概率和参与当前迭代的后验概率差值的折现和；其中，是噪声强度，/>ω₀和ω_t分别是AUV节点第t轮迭代接收到的全局模型和训练后的本地模型，Pr表示概率；

步骤1.4)、建立能量损耗模型；

能量损耗模型中考虑本地计算和通信消耗，不考虑设备操作和模型下载的能量损耗；

任意节点通信时间表示为，

其中e_size是联邦学习全局模型参数大小，B是带宽大小，p是传输功率，|G|是信道增益，F是高斯频谱噪声密度。

对于每个AUV节点，计算成本为训练本地模型的能耗；一轮迭代的训练时间定义为，

其中，N是部署AUV节点的数量，是AUV节点A_i的本地数据集大小，/>是AUV节点A_i在第n轮迭代中使用的数据集比例，/>是AUV节点本地训练的处理能力，/>是节点处理单位数据所需要的CPU周期数，/>是有效电容开关；

迭代次数表示为在一轮迭代中AUV节点的计算能耗为SLBS的计算能耗为/> 是与S_i通信的A_i节点的数量；基站BS的本地计算能耗为/> 是与基站BS通信的S_i节点的数量。

步骤2)、根据建立的水下物联网网络模型构建效用函数，对节点的不同训练策略建模；

步骤2.1)、采用扩展式博弈模型分析在一轮迭代中三种参与节点的策略；分别使用x,y,z表示AUV、SLBS和BS参与联邦学习训练的概率，对不同策略下的效用U建模；每个AUV节点A_i的效用函数为，

其中κ>0是反映隐私泄露对用户回报的负面影响的系数；

每个SLBS节点S_i的效用函数为，

BS节点的效用函数为，

将P(C_m)定义为每个策略的概率，其为x,y,z的函数，用于求解AUV、SLBS和BS的纳什均衡解；m＝1,2,3；0≤x≤1；0≤y≤1；0≤z≤1；C₁：x＝1,y＝1,z＝1，C₂：x＝1,y＝0,z＝1，C₃：x＝0,y＝0,z＝0；

AUV、SLBS和BS各参与节点的效用的数学期望值通过以下公式计算：

通过求解该数学期望值的纳什均衡解获得各参与节点在一轮迭代中的最优策略，即AUV节点参与训练的本地数据集比例x，SLBS节点聚合的本地模型参数的比例y以及BS节点聚合的局部模型参数的比例z；

步骤2.2)、基于步骤2.1)的最优策略，AUV节点选择x比例大小的本地数据集参与联邦学习训练；SLBS节点按照AUV节点的学习质量评估值降序，选择y比例大小的AUV节点训练的本地模型进行聚合；BS节点按照SLBS节点的学习质量评估值降序，选择z比例大小的SLBS聚合的局部模型进行全局聚合；

步骤2.3)、采用重复博弈模型分析在整个学习过程中三种参与节点的策略；引入贴现因子δ，该贴现因子反映了所述参与节点的偏好，更高的δ意味着参与节点在博弈中更关注后期的效用；参与节点在每轮迭代中的效用为u₁,u₂,…,u_r，则总体效用表示为通过计算贴现因子，参与节点最大限度地提高自身效用；

步骤3)、设计激励算法进行本地训练；

基于步骤2)的分析，设计联邦学习激励机制，用于鼓励更多参与节点在联邦学习训练中提供更高质量的数据，从而为所有参与节点提供一个更稳定的联邦学习系统；包括：

步骤3.1)、计算AUV节点的最优策略x，选择参与训练的数据集比例；计算SLBS节点的最优策略y，按照AUV节点的学习质量评估值降序，选择聚合的本地模型比例；计算BS节点的最优策略z，按照SLBS节点的学习质量评估值降序，选择聚合的局部模型比例；

步骤3.2)、决定噪声强度计算每个AUV节点数据集/>的隐私敏感度/>

步骤3.3)、计算各个节点训练的计算开销和通信开销；

步骤3.4)、构建各个节点的效用函数，根据效用函数计算节点效用大小，据此调整噪声强度的大小。

本发明的有益效果：本发明提出了一种基于动态博弈的联邦学习激励方法，对参与节点的学习质量进行了评估，并以此作为选择节点参与联邦学习的条件，该评估方案基于本地训练过程评估，不产生额外的能量消耗。同时，选择学习质量高的节点参与联邦学习，提升模型性能的同时也更好的节约了设备能源。基于博弈方法提出的联邦学习激励机制实现了模型性能、能源消耗和隐私保护之间的平衡，使得节点在训练过程中提供高质量的数据，从而为所有参与节点提供了一个更稳定的联邦学习系统。

附图说明

图1是本发明所述的水下物联网场景示意图。

图2是本发明一种基于动态博弈的联邦学习激励方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅由于解释本发，并不用于限定本发明。

一种基于动态博弈的联邦学习激励方法，应用于水下物联网任务预测。该场景下，由于节点的位置和环境条件不同，节点的数据质量不同，聚合低质量的模型更新可能会降低全局模型质量，同时也消耗系统的能量。节点设备经常部署在恶劣的水下环境中，设备能量有限，通常无法为设备充电或更换耗尽的电池，漫无目的的训练会导致网络能量过早耗尽，一旦电池电量耗尽，设备将无法继续工作。同时，一些水下物联网的场景任务对于数据的隐私性和安全性有着更高的要求。因此，有必要综合考虑模型性能、能量消耗和隐私要求对训练决策进行优化。

本发明的场景如图1所示，在水下建立一个三层联邦学习网络架构，该网络中包含基站、海平面基站和自主水下航行器三种参与节点。每个自主水下航行器拥有一个数据集，所有的节点合作执行联邦学习算法来训练一个全局模型。节点的训练策略建模为动态博弈过程，在一轮迭代过程中使用扩展式博弈模型分析参与节点策略的均衡解，采用重复博弈模型分析在整个学习过程中三种节点的策略。

本发明的流程图如图2所示，首先，对应用场景中的质量模型、隐私敏感度、能耗模型进行建模并构建优化目标，其次，根据优化目标将节点之间的训练策略建模为扩展式博弈模型和重复博弈模型，求得其纳什均衡解；然后，根据最优解选择一定数量的本地数据集进行本地训练，根据学习质量评估值筛选本地模型进行局部聚合；最后聚合局部模型更新全局模型进行任务预测。

具体步骤如下：

步骤1.1)、建立场景模型；

步骤1.2)、建立学习质量评估模型；

通过每次迭代中的损失减少值和用于训练的数据大小评估AUV节点的学习质量，随着训练过程的重复迭代，AUV节点的学习质量通过历史质量记录估计；具体来说，第t轮迭代在时间t_s开始并在t_e结束，AUV节点在[t_s,t_e]时间内提交本地模型更新，否则该本地模型更新将被拒绝；全局模型在t_s时刻的平均测试损失值为loss(t_s)，AUV节点的局部模型在时刻t_e的平均训练损失值为则定义节点A_i在第t轮迭代中的学习质量为结合每轮用于训练的数据大小/>节点A_i在第t轮迭代中的学习质量定义为

随着训练过程的重复迭代，节点的学习质量使用历史质量记录来估计；假设节点A_i在迭代t₀,t₁,…,t_r中参与了联邦学习任务，通过历史质量记录估计其在迭代t中贡献的质量，其中t>t_r；由于数据集随时间变化，最近的数据比陈旧的数据更具有借鉴意义，因此不同的质量记录根据新鲜度为其赋予不同的权重，最新质量记录的权重为1，其他记录权重由其与最新质量记录的相对位置决定，因此/>对应的权重为/>AUV节点A_i在第t轮迭代的学习质量评估值为

海平面基站SLBS在联邦学习任务中负责聚合与之通信的AUV节点的本地模型更新，因此定义海平面基站节点S_i在第t轮迭代的学习质量为是节点S_i聚合的本地模型更新的数量；同理，基站BS在第t轮迭代的学习质量为/>是基站节点BS聚合的局部模型更新的数量；

步骤1.3)、建立隐私敏感度衡量模型，

步骤1.4)、建立能量损耗模型；

任意节点通信时间表示为，

迭代次数表示为在一轮迭代中AUV节点的计算能耗为SLBS的计算能耗为/>是与S_i通信的A_i节点的数量；基站BS的本地计算能耗为/>是与基站BS通信的S_i节点的数量；

步骤2.1)、采用扩展式博弈模型分析在一轮迭代中三种参与节点的策略。扩展博弈树表示为三元组{players,actions,strategies}，players＝{AUV,SLBS,BS}，actions＝{x₁,x₂,y₁,y₂,z₁,z₂}，其中x₁,x₂表示AUV参与联邦学习或者不参与，y₁,y₂表示SLBS参与联邦学习或者不参与，z₁,z₂表示AUV参与联邦学习或者不参与，假定只有当与之关联的AUV设备集群选择使用本地数据集更新本地模型并上传时，SLBS才可以加入联邦学习训练负责本地模型聚合，而且除非没有节点参与联邦学习任务，否则BS必须参与全局聚合，strategies＝{C₁,C₂,C₃}；

分别使用x,y,z表示AUV、SLBS和BS参与联邦学习训练的概率，基于上述分析，定义每个AUV节点A_i的效用函数为

其中κ>0是反映隐私泄露对用户回报的负面影响的系数；

定义每个SLBS节点S_i的效用函数为；

定义BS的效用函数为；

步骤2.3)、采用重复博弈模型分析在整个学习过程中三种参与节点的策略；引入贴现因子δ，该贴现因子反映了参与节点的偏好，更高的δ意味着参与节点在博弈中更关注后期的效用；参与节点在每轮迭代中的效用为u₁,u₂,…,u_r，则总体效用表示为通过计算贴现因子，参与节点最大限度地提高自身效用；

步骤3)、设计激励算法进行本地训练；

步骤3.3)、计算各个节点训练的计算开销和通信开销；

综上所述：本发明提出了一种基于动态博弈的联邦学习激励方法，通过对节点学习质量进行评估，有效提升模型性能的同时减少了能源消耗。通过对参与节点决策过程建模，获得了了各参与节点训练策略的最优解，实现了水下网络能源消耗、模型精度和隐私保护之间的最佳均衡，保证了模型的训练效果和持续时间。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于动态博弈的联邦学习激励方法，其特征在于，步骤如下：

步骤1.1)、建立场景模型；

步骤1.2)、建立学习质量评估模型；

步骤1.3)、建立隐私敏感度衡量模型，

步骤1.4)、建立能量损耗模型；

任意节点通信时间表示为，

其中e_size是联邦学习全局模型参数大小，B是带宽大小，p是传输功率，|G|是信道增益，F是高斯频谱噪声密度；

迭代次数表示为在一轮迭代中AUV节点的计算能耗为SLBS的计算能耗为/> 是与S_i通信的A_i节点的数量；基站BS的本地计算能耗为/> 是与基站BS通信的S_i节点的数量；

其中κ>0是反映隐私泄露对用户回报的负面影响的系数；

每个SLBS节点S_i的效用函数为，

BS节点的效用函数为，

步骤3)、设计激励算法进行本地训练；

步骤3.3)、计算各个节点训练的计算开销和通信开销；