CN116416508A

CN116416508A - 一种加快全局联邦学习模型收敛的方法及联邦学习系统

Info

Publication number: CN116416508A
Application number: CN202310262721.9A
Authority: CN
Inventors: 杨清海; 侯运阳; 刘佳宜
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-07-11

Abstract

本发明涉及一种加快全局联邦学习模型收敛的方法及联邦学习系统，属于工业物联网技术领域，所述方法包括以下步骤：S1、对联邦学习系统的时延建模分析；S2、对联邦学习系统的能耗建模分析；S3、确定优化目标；S4、构建图像分类网络和强化学习智能体网络；S5、设计图像分类网络的损失函数；S6、将节点选择问题转化为马尔可夫决策过程；S7、训练强化学习智能体网络；S8、使用Q网络指导联邦学习的设备选择。所述联邦学习系统，包括云服务器、多个边缘设备和无线网络。本发明通过强化学习智能体辅助联邦学习系统选择合适的设备参与训练，加速全局联邦学习模型的收敛速度，减少联邦训练所需要的通信轮次，降低通信和能耗成本。

Description

一种加快全局联邦学习模型收敛的方法及联邦学习系统

技术领域

本发明属于工业物联网技术领域，具体涉及一种加快全局联邦学习模型收敛的方法及联邦学习系统。

背景技术

工业物联网引入大量人工智能技术，目的是在异构和大规模网络中实现数据驱动的机器学习解决方案。然而由于隐私保护、法律法规等条件的限制，设备间、机构间形成“数据孤岛”。为了打破数据孤岛，充分利用分散在设备上的数据，联邦学习技术被提出并用在数据隐私保护等领域。联邦学习是一种保护用户隐私分布式机器学习框架，在不共享数据情况下完成联合建模。其主要思想是在边缘设备上训练本地模型、由中心云服务器执行联邦平均算法完成模型聚合，并将聚合模型下发给所有参与联邦训练边缘设备进行下一轮本地训练。边缘设备和云服务器重复以上过程直到全局模型达到目标精度。然而传统联邦学习面临以下方面挑战：

(1)设备异构性：不同边缘设备具有不同计算能力、存储空间、电池容量等；

(2)数据异构性：移动设备上收集的数据通常是非独立同分布的，这违反了分布式优化的基本假设。

(3)网络状态不稳定：边缘设备通信资源受限，数据传输速率受限环境影响波动较大，可能会增加联邦训练过程的通信成本以及传输功耗。

工业物联网(Industrial Internet of Things，IIoT)设备的计算和通信资源是受限的，很多IIoT设备使用电池供电，因此需要考虑设备的通信和能耗成本。此外，由于IIoT设备的通信质量不稳定，设备可能需要花费大量的时间用于本地模型的传输，增加通信成本。并且，数据的Non-IID分布会减慢全局模型收敛速度，降低模型精度，并且导致更多的通信轮次以达到模型收敛，因此加快全局联邦模型的收敛速度对降低训练的通信和能耗成本具有重要意义。

Li等人在其发表的论文”Federated Optimization in HeterogeneousNetworks”中提出了FedProx算法，通过使用正则项来平衡全局目标和局部目标之间的优化差异，降低Non-IID数据分布的影响，但是没有考虑动态网络场景下对系统通信成本和能耗成本的影响。

WEN等人在其发表的论文”Communication-Efficient Federated DataAugmentation on Non-IID Data”(Conference on Computer Vision and PatternRecognition Workshops，2022)提出使用自动编码器生成设备缺失的样本，降低设备数据集的非IID程度，但是这种方法给IIoT设备引入额外的计算负担。

YANG等人在其发表的论文”Improving Accuracy and Convergence in Group-based Federated Learning on Non-IID Data”(IEEE Transactions on NetworkScience and Engineering，2022)提出对边缘设备的本地模型进行分组聚类，在训练时从每组中随机抽取设备参加联邦训练，但是这种方法无法确定最佳分类簇数，可能会影响全局模型的收敛。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种加快全局联邦学习模型收敛的方法及联邦学习系统，提高了全局联邦模型的收敛速度，降低了联邦学习的通信和能耗成本。

本发明的目的可以通过以下技术方案实现：

本发明提供了一种加快全局联邦学习模型收敛的方法，包括以下步骤：

S1、对联邦学习系统的时延进行建模分析；

S2、对联邦学习系统的能耗进行建模分析；

S3、确定优化目标；

S4、构建图像分类网络和强化学习智能体网络；

S5、设计图像分类网络的损失函数；

S6、将节点选择问题转化为马尔可夫决策过程；

S7、训练强化学习智能体网络；

S8、使用Q网络指导联邦学习的设备选择；

所述强化学习智能体网络采用DDQN强化学习算法；所述强化学习智能体网络包括所述Q网络和Target Q网络，所述Q网络和Target Q网络采用相同的网络结构。

进一步地，所述对联邦学习系统的时延进行建模分析，具体包括：

计算设备i在第k个通信轮次中执行模型训练消耗的时间

其中，d_i为设备i的样本数量，c_i为训练一个样本需要的cpu周期数，f_i为工作频率，τ本地迭代的轮次；

计算模型的传输时间

其中，

表示本地模型网络参数的绝对值，单位为Byte，/>

表示设备i在第k个通信轮次中的数据传输速率；

计算设备i在第k个通信轮次中的本地训练时延

计算第k次通信过程的训练时延T_k：

进一步地，所述对联邦学习系统的能耗进行建模分析，具体包括：

计算设备i在第k个通信轮次执行本地训练的能量消耗；

计算设备i进行模型传输的通信功耗；

结合所述能量消耗与所述通信功耗得到设备i的空闲能耗；

根据所述空闲能耗计算设备消耗的总能量。

进一步地，所述优化目标描述为：

min(Loss(x；θ)) (1)

f_min≤f_i≤f_max (2)

T_k＜T_max (5)

上式中，

表示决策变量，当/>

表示在第k个通信轮次中，设备i被选中参与联邦训练，当/>

表示不选择设备i，f_min为设备工作频率的最小值，f_max为设备工作频率的最大值，B为服务器带宽，N为设备总量；

其中公式(1)表示优化目标，它表示以最小化全局模型在测试集上的损失函数，x表示测试集样本，θ表示全局模型参数，公式(2)表示对设备工作频率的约束，公式(3)表示被选设备的总带宽不大于服务器带宽B，公式(4)表示在一个通信轮次中至少有一个设备被选中参与联邦训练，而最大数量不超过设备总量N，公式(5)表示在第k个通信轮次的训练时延T_k不能超过规定的最大时延T_max。

进一步地，所述图像分类网络为两层的MLP网络；具体包括图像输入层、第一线性网络、第一激活函数层、第二线性网络、第二激活函数层和全连接网络。

进一步地，所述设计图像分类网络的损失函数，具体包括：

所述图像分类网络的损失函数包括交叉熵损失函数(l_ce)和最大均值差异损失(l_MMD)；

其中，l_ce用于图像分类任务；l_MMD用于衡量全局模型和本地模型在本地数据样本输入下的输出差异；

将l_ce+l_MMD作为本地网络模型的损失函数，并对其进行梯度下降，以更新本地模型参数。

进一步地，所述马尔可夫决策过程包括系统状态、动作空间、策略、奖励函数以及邻接状态；

其中，所述策略表示从状态空间到动作空间的映射；

所述奖励函数设置为最小化的时延与能耗的加权和。

进一步地，所述训练强化学习智能体网络，具体包括：

计算时序差分目标；

根据所述时序差分目标定义损失函数；

通过梯度下降法最小化损失函数以更新所述Q网络的网络参数。

进一步地，所述使用Q网络指导联邦学习的设备选择，具体包括：

云服务器向所有参与联邦学习的边缘设备发送全局模型参数并收集联邦学习系统的状态信息；

将状态信息输入Q网络，Q网络输出Q值，所述Q值表示每个动作的价值，并将排名前k个Q值对应的设备作为当前状态下的最佳设备子集；

最佳设备子集使用本地数据训练图像分类网络以更新本地模型，然后将本地模型上传至云服务器；

云服务器执行模型聚合算法，以更新全局模型；

不断执行以上过程，直到全局模型达到目标精度。

本发明还提供了一种加快全局联邦学习模型收敛的联邦学习系统，包括云服务器、多个边缘设备和无线网络；

所述云服务器，用于存储和更新全局模型参数、接收和发送消息，以及运行强化学习智能体网络和执行模型聚合算法；

所述边缘设备，用于存储和处理本地数据、计算节点评分、执行本地训练、接收和发送消息；

所述无线网络，用于连接云服务器和边缘设备。

本发明的有益效果为：

(1)通过强化学习智能体辅助联邦学习系统选择合适的设备参与训练，以最小全局模型在测试数据集上的模型损失函数为优化目标，以加快全局模型的收敛速度，降低联邦训练过程的通信和能耗成本。

(2)通过构建的强化学习智能体经过大量的交互数据不断改进节点选择策略，使得该方法具有较高的准确率和更高的鲁棒性。

(3)构建的强化学习智能体运行在云端服务器，不会给边缘设备引入额外的计算负担。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的方法流程示意图；

图2为本发明中图像分类器的结构示意图；

图3为本发明中Q网络的结构示意图；

图4为本发明中图像分类网络的损失函数构成示意图；

图5为本发明一实施例DDQN训练阶段的回报曲线图；

图6为本发明一实施例仿真实验的准确率对比曲线图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

一种加快全局联邦学习模型收敛的方法，如图1所示，具体包括以下步骤：

S1、对联邦学习系统的时延进行建模分析。

在一个通信轮次中，设备的训练时延由本地模型训练时的计算时延和模型传输时的通信时延组成。假设设备i拥有d_i个样本，训练一个样本需要的cpu周期数为c_i，工作频率为f_i，并进行τ个轮次的本地迭代，那么设备i在第k个通信轮次中执行模型训练消耗的时间为：

设备i利用本地数据训练得到的本地模型网络参数

上传到参数服务器Es，模型的传输时间计算公式为：

其中，

表示本地模型网络参数的大小，单位为Byte，/>

表示设备i在第k个通信轮次中的数据传输速率，/>

的计算由以下香农公式计算得出：

由上述公式可知，设备i的数据传输速率与分配给设备i的带宽B_i,k、设备i的发射功率p_i,k、信道增益g_i,k以及噪声功率N₀有关，环境状态的改变会影响数据传输速率，加剧通信时延的不确定性。

结合上述内容，设备i在第k个通信轮次中的本地训练时延为：

在联邦同步学习算法中，每个通信轮次的本地训练时间由最慢的设备决定，所以第k次通信过程的训练时延为：

S2、对联邦学习系统的能耗进行建模分析。

设备i在第k个通信轮次，执行本地训练的能量消耗为：

上式中，σ表示有效电容系数，σ与芯片本身的性质有关。

在模型传输时，设备i使用值为p_i,k的功率进行模型传输，设备i的通信功耗为：

需说明的是，最先完成本地模型训练和模型传输的设备需要等待其他未完成的设备，执行速度快的设备存在空闲等待时间，在空闲等待时间消耗的能量称之为空闲能耗，那么设备i的空闲能耗等于空闲等待时间乘以空载状态下的单位能耗，计算公式如下：

其中，

表示设备i在空闲等待时单位时间消耗的能量。

由上述可知，设备i在第k个通信轮次消耗的能量为：

因此在第k个通信轮次，所有设备消耗的总能量为：

S3、确定优化目标。

目标是在动态网络场景下，考虑工业物联网(Industrial Internet of Things，IIoT)设备的异构性，以最小化全局模型在测试集上的损失函数为目标优化目标，并使用以下公式进行描述：

min(Loss(x；θ)) (1)

f_min≤f_i≤f_max (2)

T_k＜T_max (5)

上式中，

表示决策变量，当/>

表示在第k个通信轮次中，设备i被选中参与联邦训练，当/>

表示不选择设备i，f_min为设备工作频率的最小值，f_max为设备工作频率的最大值，B为服务器带宽，N为设备总量。

其中公式(1)为优化目标，它表示全局模型在测试集上的准确率，公式(2)表示对设备工作频率的约束，公式(3)表示被选设备的总带宽不大于服务器带宽B，公式(4)表示在一个通信轮次中至少有一个设备被选中参与联邦训练，而最大数量不超过设备总量N，公式(5)表示在第k个通信轮次的训练时延T_k不能超过规定的最大时延T_max。

S4、构建图像分类网络和强化学习智能体网络。

如图2所示，通过构建一个两层的MLP(多层感知器)网络作为IIoT设备的本地图像分类网络，包括图像输入层、第一线性网络、第一激活函数层、第二线性网络、第二激活函数层和全连接网络；设置第一线性网络的输入维度为784，输出层维度为200，第二线性网络的输入维度为200，输出维度为200，全连接层的输入维度为200，输出维度为10；第一、二激活函数层均采用ReLU函数实现。

强化学习智能体网络采用DDQN(双重深度Q网络)强化学习算法，包括一个Q网络和一个Target Q网络，Q网络和Target Q网络采用相同的网络结构。其中，Q网络也称为强化学习智能体或智能体。

进一步地，Q网络和Target Q网络的网络结构由两层线性网络构成，如图3所示，第一层线性网络的输入维度为联邦学习系统的状态维度，输出维度设置为128，第一层线性网络的输出接ReLU激活函数。第二层线性网络的输入维度为128，输出维度等于边缘IIoT设备的数量。

本发明在实验时使用了20个IIoT设备，将每个设备当前时刻的数据传输速率、工作频率、信号发射功率、样本数量作为状态信息，因此，联邦学习系统的状态维度为80。

S5、设计图像分类网络的损失函数。

如图4所述，图像分类网络的损失函数由两部分构成：一部分是交叉熵损失函数(l_ce)，用于图像分类任务；另一部分是最大均值差异损失(l_MMD)，用于衡量全局模型和本地模型在本地数据样本输入下的输出差异，将l_ce+l_MMD作为本地网络模型的损失函数，并对其进行梯度下降，以更新本地模型参数。

S6、将节点选择问题转化为马尔可夫决策过程。

使用强化学习的方法解决联邦学习的节点选择问题，首先需要将该问题抽象为一个马尔可夫决策过程。一个马尔可夫决策过程包括系统状态S(t)、动作空间A(t)、策略π、奖励函数r以及邻接状态S(t+1)，具体为：

系统状态S(t)由设备与服务器之间的数据传输速率β(t)、设备的工作频率ζ(t)、设备的信号发射功率T_p(t)以及拥有的样本数量ψ(t)组成。因此可定义时隙t的系统状态为：

S(t)＝{β(t),ζ(t),T_p(t),ψ(t)}

动作空间A(t)是由离散变量0-1组成的向量，

表示在t时刻设备i的被选状态。/>

表示设备在t时刻被选中参加本轮的联邦训练过程；反之，表示设备i处于未被选状态，此时设备i可以执行其他任务。

策略π表示从状态空间S(t)到动作空间A(t)的映射，即A(t)＝π(S(t))。DRL(深度强化学习)的目标是学习一个最佳策略π，使得智能体根据当前状态做出的动作可以获得最大的期望奖励。

奖励函数的设置与优化目标一致，即最小化的时延与能耗的加权和，因此，奖励函数r表示为：

r＝-Loss(x；θ)

邻接状态S(t+1)由当前状态S(t)以及策略π决定，具体的表达形式如下：

S(t+1)＝S(t)+π(S(t))。

S7、训练强化学习智能体网络。

DDQN强化学习算法在训练时对Q网络参数进行更新，保持Target Q网络参数保持不变。每经过一定的迭代轮次，将Q网络的参数复制到Target Q网络中，从而避免估计误差和过度估计问题。

假设Q网络的网络参数记作θ，目标网络的网络参数记作θ^-，时序差分目标的计算方式如下：

上式中，r表示系统返回的即时奖励，s'表示下一时刻的系统状态，a'表示采取的动作，A表示动作空间，

表示使用Q网络估计下一个状态获得最大Q值采取的动作，/>

表示使用Target Q网络根据下一时刻的状态以及Q网络估计的动作估计价值。

定义损失函数l(θ)＝(Y^target-Q(s,a；θ))²，通过对损失函数的反向传播更新θ，其中s和a分别表示当前时刻以及当前时刻做出的动作。通过梯度下降法最小化损失函数l(θ)，θ的更新过程为：

上式中，θ_t+1表示更新后的Q网络参数，θ_t表示更新前的参数，

表示对参数θ_t求梯度，s_t和a_t分别表示t时刻的状态以及采取的动作。α表示更新的步长。

本实施例中，α设置为0.001，Target Q网络的更新频率为Q网络每更新20次，Target Q网络使用Q网络更新一次参数。

DDQN强化学习算法根据联邦学习系统的交互数据和Target Q网络构建的损失函数更新所述Q网络的参数，使得获得的期望奖励达到收敛。

S8、使用Q网络指导联邦学习的设备选择。

云服务器向所有参与联邦学习的边缘设备发送全局模型参数并收集联邦学习系统的状态信息；将状态信息输入训练好的Q网络，Q网络输出每个动作的价值，也即Q值。将排名前k个Q值对应的设备作为当前状态下的最佳设备子集；最佳设备子集使用本地数据将接收的全局模型参数进行本地更新，然后将更新后的模型参数上传至服务器，由服务器执行模型聚合算法，以更新全局模型；不断执行以上过程，直到全局模型达到目标精度。

本发明还提供一种加快全局联邦学习模型收敛的联邦学习系统，包括一个云服务器、多个边缘设备和一个无线网络环境。其中，云服务器，用于存储和更新全局模型参数、接收和发送消息，以及运行强化学习智能体网络和执行模型聚合算法。边缘设备，用于存储和处理本地数据、计算节点评分、执行本地训练、接收和发送消息。无线网络环境，用于连接云服务器和边缘设备。

下面结合仿真实验对本发明的效果做进一步的说明：

(1)仿真实验条件：

仿真实验的硬件平台为：处理器为Intel(R)Core i7-12700H CPU，内存为16GB、显卡为NVIDIA GeForce RTX 3060。

仿真实验的软件平台为：win11操作系统，python 3.9.12，PyTorch1.12.1。

(2)仿真内容及仿真结果分析：

本发明仿真实验时使用了MNIST数据集，基于MNIST数据集构建IID数据集和Non-IID数据集。IID数据集是对每个类别的样本随机抽样50次，由总计500个样本组成。Non-IID数据集由主类样本和次类样本组成，其中主类样本占样本总数的70％，剩余的30％对次类样本均匀抽样得到。在实验中，将70％的设备分配Non-IID数据集，剩余30％的设备分配IID数据集。图5展示了强化学习智能体在训练阶段获得的回报随迭代轮次的变化曲线，随着迭代次数的增加，DDQN智能体在训练过程获得的奖励随迭代轮次的更加逐渐上升，并在60轮次迭代后趋近收敛。

本发明所提出的节点选择策略为通过Q网络指导联邦学习进行节点选择。下文结合仿真实验的描述中，将该节点选择策略称为LCNSFL-2算法，用来对比的两个算法是基于随机选择算法(Random Selection)和FedProx算法，从达到目标精度所需要的通信轮数、通信成本、能耗成本以及通信和能耗的加权成本机型对比，如表1所示。将目标精度设置为90％，通过实验结果发现，LCNSFL-2算法所需要的通信轮数最少，其通信、能耗以及加权成本远低于其他两种算法。

表1三种算法的性能对比

算法名称	数据集	通信轮数	通信成本	能耗成本	加权成本
						LCNSFL-2	MNIST	18	3023.7	16175.0	9599.3
Random Selection	MNIST	26	4116.3	25221.7	14669.0
						FedProx	MNIST	22	3549.5	19381.5	11465.5

通过以上所述以及图6可以得出，LCNSFL-2算法可以更快的达到目标精度，减少与服务器的通信轮次，从而降低了系统的通信和能耗成本。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。