CN116227632A

CN116227632A - 用于客户端异构和数据异构场景的联邦学习方法和装置

Info

Publication number: CN116227632A
Application number: CN202211722497.9A
Authority: CN
Inventors: 朱宗卫; 左雁茹; 周学海; 王超
Original assignee: Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Current assignee: Suzhou Institute Of Higher Studies University Of Science And Technology Of China
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-06

Abstract

本发明公开了一种用于客户端异构和数据异构场景的联邦学习方法和装置。其中，该方法包括：中央服务器发送当前全局模型给所选的每个目标客户端；计算每个目标客户端的本地训练能力；根据每个目标客户端的训练能力，自动确定每个目标客户端对应的本地训练轮次；根据本地训练轮次，每个目标客户端基于引入优化的损失函数进行本地模型更新，以得到更新后的模型参数；中央服务器进行全局模型的聚合更新并开启下一轮训练。本发明在客户端进行本地训练时，通过不同客户端的训练能力自动选择训练轮次，并通过优化目标函数来以削弱Non‑IID数据带来的数据偏移问题，减轻了联邦学习中的系统异构性和数据异构性，提高了模型的训练效率。

Description

用于客户端异构和数据异构场景的联邦学习方法和装置

技术领域

本发明实施例涉及联邦学习技术领域，尤其涉及一种用于客户端异构和数据异构场景的联邦学习方法和装置。

背景技术

随着信息技术的快速发展，硬件设备和数据的广泛利用为人工智能发展提供了广阔的应用空间和广泛的应用条件。在利用数据进行机器学习建模的环境中，企业和个人具备了过往无法比拟的计算能力和数据应用优势。每个企业都拥有敏感数据：商业秘密、知识产权、关键业务信息、业务合作伙伴信息和客户信息。然而，在大多数行业中，数据是以孤岛的形式存在的，由于行业竞争、隐私安全、行政手续复杂等问题，即使在同一公司的不同部门之间实现数据整合也面临着重重阻力，在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的，或者说所需的成本是巨大的。

另一方面，随着大数据的进一步发展，重视数据隐私和安全已经成为了世界性的趋势，隐私计算已然成为全球新兴的一大产业。如何在满足数据隐私、安全和监管要求的前提下，设计一个机器学习框架，让人工智能系统能够更加高效、准确地共同使用各自的数据，是人工智能发展的一个重要课题。联邦学习(Federated Learning)作为一种隐私保护的重要解决方案之一，近年来也得到了飞速的发展。联邦学习就是在进行机器学习的过程中，各参与方可借助其他方数据进行联合建模。各方无需共享本地数据资源，即数据不出本地的情况下进行数据联合训练，建立共享的机器学习模型。

联邦学习自提出以来获得了广泛的关注，并在一些场景中得以应用。联邦学习解决了数据汇聚的问题，使得一些跨机构、跨部门的机器学习模型、算法的设计和训练成为了可能。特别地，对于移动设备中的机器学习模型应用，联邦学习表现出了良好的性能和鲁棒性。此外，对于一些没有足够的私人数据来开发精确的本地模型的用户(客户机)来说，通过联邦学习能够大大改进机器学习模型和算法的性能。

但是，由于联邦学习侧重于通过分布式学习所有参与客户机(设备)的本地数据来获得高质量的全局模型，因此它无法捕获每个设备的个人信息，从而导致推理或分类的性能下降。此外，传统的联邦学习需要所有参与设备就协作训练的共同模型达成一致，这在实际复杂的物联网应用中是不现实的。联邦学习在实际应用中面临的问题一般分为：

(1)系统异构性：由于硬件(CPU，内存)、网络连接(3G，4G，5G，wifi)和电源(电池电量)的变化，联邦网络中每个设备的存储、计算和通信能力可能不同，不同客户端同步训练可能会对训练结果产生负影响；

(2)数据异质性：各个客户机(设备)本地数据的非独立同分布(Non-Idependentlyand Identically Distributed，Non-IID)所导致的数据异构性问题；Non-IID数据引起的客户漂移对FedAvg有显着的负面影响，如图1所示。在IID设置下，全局最优值w^*接近于局部最优值w₁ ^*和w₂ ^*，因此平均模型也接近全局最优值。然而在Non-IID设置下，由于全局最优值w^*远离局部最优值w₁ ^*，因此平均模型也远离了全局最优值。

(3)各个客户机根据其应用场景所需要的模型异构性问题。

因此，联邦学习中的系统异构和数据异构成为联邦学习训练中的比较严重的瓶颈。

发明内容

为了解决现有技术中的问题，本发明提供一种用于客户端异构和数据异构场景的联邦学习方法和装置，以减轻联邦学习中的系统异构性和数据异构性，并为每个设备获得高质量的个性化模型。

第一方面，本发明实施例提供了一种用于客户端异构和数据异构场景的联邦学习方法，在每轮的训练回合中，包括：

S1、中央服务器发送当前全局模型给所选的每个目标客户端；

S2、计算每个目标客户端的本地训练能力；

S3、根据所述每个目标客户端的训练能力，自动确定每个目标客户端对应的本地训练轮次；

S4、根据所述本地训练轮次，所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新，以得到更新后的模型参数；

S5、所述每个目标客户端将更新后模型参数发送至中央服务器，以供中央服务器进行全局模型的聚合更新并开启下一轮训练，直至满足模型收敛条件。

可选的，所述S2包括：

计算每次训练的样本总损失与每个目标客户端对应的当前概率向量标准差的比值；

根据当前轮训练比值和上一轮训练比值的差值来确定每个目标客户端对应的训练能力。

可选的，所述S3包括：

基于选择函数，根据每个目标客户端的训练能力以及所有目标客户端训练能力的均值自动确定每个目标客户端对应的本地训练轮次。

可选的，所述选择函数为e～α*N(e_begin)，

本地训练轮次调整的规则为：

当

时，/>

其中，MaxMinNormalization函数将

映射到[1,5]的区间，init代表每一次调节训练轮次的步长基本单位。

可选的，所述引入ElasticNet优化的损失函数为：

其中，l(w,D_k)为原始FedAvg客户端的优化函数，

为新添加的近端项，/>

是第k个目标客户端在第t个轮次的局部模型，w代表本轮次的全局模型，α代表本轮次/>

的权重。

可选的，在所述S1中，所述中央服务器以一定概率从所有客户端中选择进行本轮联邦训练的目标客户端。

可选的，在所述S3中，所述中央服务器进行全局模型的聚合更新，包括：

所述中央处理器对从所述每个目标客户端接收到的更新后的模型参数进行加权平均，得到更新后的全局模型参数。

第二方面，本发明实施例还提供一种用于客户端异构和数据异构场景的联邦学习装置，包括：

全局模型发送模块，用于通过中央服务器发送当前全局模型给所选的每个目标客户端；

本地训练能力确定模块，用于计算每个目标客户端的本地训练能力；

本地训练轮次确定模块，用于根据所述每个目标客户端的训练能力，自动确定每个目标客户端对应的本地训练轮次；

本地模型优化更新模块，用于根据所述本地训练轮次，所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新，以得到更新后的模型参数；

全局聚合更新模块，用于通过所述每个目标客户端将更新后模型参数发送至中央服务器，以供中央服务器进行全局模型的聚合更新并开启下一轮训练，直至满足模型收敛条件。

本发明提供了一种用于客户端异构和数据异构场景的个性化联邦学习方法(pFedEN)，通过根据每个目标客户端的本地训练能力动态的选择训练轮次，在一定程度上减少通信量从而加快整个训练的过程；此外，在客户端进行本地训练时，通过在客户端的优化目标函数中增加一个正则项ElasticNet，以削弱Non-IID数据带来的数据偏移问题，消除训练过程中的不稳定性。

附图说明

图1为现有技术中的Non-IID下的数据漂移示意图；

图2为非独立同分布的数据采用FedAvg算法进行训练的训练效果示意图；

图3为本发明实施例中的一种用于客户端异构和数据异构场景的联邦学习方法的主要模块图；

图4为本发明实施例中的一种用于客户端异构和数据异构场景的联邦学习方法流程图；

图5a为本发明实施例中的CIFAR-10数据集在Partition＝1情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果图；

图5b为本发明实施例中的CIFAR-10数据集在Partition＝2情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果图；

图5c为本发明实施例中的CIFAR-10数据集在Partition＝3情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果示意图；

图6为本发明实施例中的MNIST数据集分别在Patition＝1，Partition＝2，Partition＝3情况下FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验的实验结果示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

传统联邦学习假设系统数据是均匀独立分布的。然而，当联邦学习真实应用于实际场景中时，大部分节点数据都属于非独立同分布，数据异构成为联邦学习中最严重的瓶颈之一。

在传统联邦学习算法的目标是处理收集数据的多个设备和一个中央服务器以调整全局模型为目标，具体而言，假设一共有N个客户端，那么优化函数为：

其中，N为客户端的数量，p_k≥0并且∑_kp_k＝1，一般来说，客户端的局部损失函数可以定义为：

其中，D_k代表不同分布的数据合集，在设备k上都有n_k个样本，因此可以设置

n＝∑_kn_k代表所有数据的总数。

传统算法的局限显而易见，在用户数据分布不完全相同的异质环境中，通过最小化平均损失得到的全局模型一旦应用于每个用户的本地数据集，可能会表现得比较糟糕。为了应对数据异构型挑战，需要对模型进行个性化处理，pFedEN每个客户端都有自己的模型，客户端在训练的过程中结合局部模型和全局模型进行整体的更新，这样就可以保证在整体数据量不足的情况下，数据倾斜比较严重的客户端可以对新的标签数据具有比较好的适应性。

在经典联邦学习算法FedAvg种，设备k在本地训练时，需要最小化的目标函数是优化所有样本的损失和，这是为了让全局模型在本地数据集上表现得更好，但是如果设备间的数据是非独立同分布的，每个客户端优化之后得到的模型就与初始时服务器分配的全局模型相差过大，本地模型将会偏离初始的全局模型，这将减缓全局模型的收敛。非独立同分布的数据在采用FedAvg算法进行训练时得到的效果参见图2。

通过图2可以看到，在独立同分布(iid)的数据下，FedAvg的收敛速度会大于机器学习的随机梯度下降(Stochastic Gradient Descent，SGD)，但是这么做是有代价的，当客户端节点的计算量(以epoch来衡量)相同，那么FedAvg的收敛速度是不如传统SGD的。同时，还可以看出当数据集相同，在相同的训练轮次中，各个节点所拥有的数据异构程度越大，如图2所示，niid后面的数字代表每个客户端所拥有得数据类型，即数字越小，数据的异构程度越大，FedAvg的表现效果就会越差。所以，本实施例的技术方案将从数据异构性入手来改良FedAvg算法。

本发明研究了上述提到的数据异构性和系统异构性之间的相互作用，并且认为系统异构性产生的掉队者问题以及掉队者发往中央服务器的带偏差的参数信息会进一步增加数据异构性，从而加重数据漂移现象，最终影响收敛过程。

为了解决这一问题，本发明实施例提供了一种用于客户端异构和数据异构场景的联邦学习方法(pFedEN)。如图3所示，pFedEN主要由三部分组成：本地训练能力确定模块、本地训练轮次确定模块和本地模型优化更新模块。其中，本地训练能力确定模块用于定义当前客户端节点的训练能力，自动确定本次训练的训练轮次，对方法的运行起到明确的指导作用。本地训练轮次确定模块用于根据不同客户端的本地训练能力自动的调整训练轮次，在确保模型精度的情况下减少通信量。本地模型优化更新模块通过优化本地更新方案，以削弱Non-IID数据带来的数据偏移问题，消除训练过程中的不稳定性。

本发明实施例充分考虑了不同客户端的训练能力，通过上述三个主要模块的通力配合来平衡每个客户端节点的训练特性，并且考虑到了数据异构导致的客户端偏移问题，在提高训练效率的同时又提升了本地训练精度。

具体参见图4，该方法包括：

S1、中央服务器发送当前全局模型给所选的每个目标客户端。

S2、计算每个目标客户端的本地训练能力。

现有技术中通常采用在所有的客户端节点都进行相同轮次训练的方法，然而由于每个客户端节点所拥有的数据量以及计算能力是不同的，单纯的依赖神经网络的概率向量的输出去指导训练方案是不全面的，忽视了每个客户端节点对训练轮次的贡献能力。

因此，本实施例中使用每次训练的样本总损失Global_i和每个客户端节点当前概率向量标准差Vpred_i作为刻画当前客户端节点训练能力的标准，使用ESI来约束二者的关系，定义如下：

在实际应用中，将上一轮的ESI值定义为：

通过当前ESI和过去ESI的差值来表示动态调节epoch(训练轮次)的能力：

本实施例中的ESI可以从以下两个方面去提高模型的训练效率：

1)可以反应客户端节点在初始训练时的训练轮次(epoch)选择能力。在初始训练的时候，每个客户端收到的是来自于中央服务器下发的初始模型，在本地经过初始epoch迭代之后，得到的ESI指标表示了当前客户端的算力不平衡程度。

2)可以反映客户端节点在训练过程中动态调整epoch的能力。在整个联邦学习训练的过程中，模型会越来越精确，那么整个的Globali将会越来越小，而Vpredi会越来越大(个性化模型预测更加精准)，ESI将会不断减小，因此ESI可以作为动态调节epoch的参数标准。

S3、根据所述每个目标客户端的训练能力，自动确定每个目标客户端对应的本地训练轮次。

本实施例中，考虑到

对模型训练epoch的指示意义，通过设计一个epoch动态变化的选择函数。

具体的，选择函数e～α*N(e_begin)输入为一个默认的epoch值，动态的调整epoch机制如下：

条件：

/>

更新:

当满足条件公式时，客户端节点的epoch进行动态调整。在调整过程中，基于选择函数来保证每轮的epoch根据客户端的节点状态进行调整，例如当

时，说明当前客户端的训练能力要比其它节点要差，节点会增加本地训练的epoch来减小训练偏差，同时节点会根据MaxMinNormalization函数将/>

映射到[1,5]的区间，init代表每一次调节epoch的步长基本单位(默认为5)。

该策略对于联邦学习训练来说，客户端通过增加本地迭代的次数的方式在一定程度上减少通信量从而加快整个训练的过程epochs。

S4、根据所述本地训练轮次，所述每个目标客户端基于引入ElasticNet优化的损失函数进行本地模型更新，以得到更新后的模型参数。

具体的，所述引入ElasticNet优化的损失函数为：

其中，l(w,D_k)为原始FedAvg客户端的优化函数，

为新添加的近端项，/>

的权重。

本发明实施例通过在客户端的优化目标函数中增加一个正则项ElasticNet，ElasticNet将Lasso和Ridge组成一个具有两种惩罚因素的单一模型：一个与L1范数成比例，另外一个与L2范数成比例，使用这种方式方法所得到的模型就像纯粹的Lasso回归一样稀疏，但同时具有与岭回归提供的一样的正则化的能力，该方法可以使优化方法更加稳定，最终使得pFedEN在数据异构性下也会收敛得更快。

示例性的，本客户端中的本地数据可以为车辆自动驾驶中涉及的具体数据信息，通过采用本发明实施例中的方法对这些数据进行联邦学习，可以训练得到准确的自动驾驶模型。

本实施例中提供的pFedEN在中央服务器的操作和FedAvg相同，均采用加权平局的全局模型更新策略，但是为了解决数据异构性问题，第k个节点不再执行E轮的SGD，而是求解以下带ElasticNet的优化问题：

本实施例中提供的pFedEN引入了带ElasticNet的更新主要是综合考虑了L1范数和L2范数的优点并进行结合，加入正则项主要是为了使得每个客户端在本地训练更新的时候可以进行个性化的学习，引入L1范数是为了避免过拟合，但是这会产生稀疏的模型，而同时引入L2范数就可以消除L1范数所带来的稀疏性问题，同时来保证模型的稳定性。因此pFedEN在使用新的优化函数之后同时可进行正则化与变量的选择，使得客户端的本地模型更优。

更为具体的，本实施例中提供的一种用于客户端异构和数据异构场景的联邦学习方法具体包括以下流程：

输入：w⁰随机初始化参数,N为总设备；

输出：最终的全局模型参数w^t+1。

(1)FOR全局轮数t＝0,1,…,T-1；

(2)中央服务器Server以概率p_k随机选取K个设备并指定固定学习率；

(3)中央服务器Server发送当前全局模型w^*给所选设备；

(4)每个客户端使用本地数据进行训练，在发送数据到云端之前进行ESI^p和ESI的运算，得到

用于计算epoch值；

(5)每个设备k＝1,2,…,K根据计算出的epoch值并行计算:

(6)每个客户端基于新的损失优化函数进行本地模型更新得到

(7)重复4)-6),结束并行计算,每个设备将计算结果

传至中央服务器Server；

(8)模型更新，中央处理器对从K个客户端接收到的

进行加权平均更新模型参数得到w^t+1；

(9)中央服务器Server将更新后的模型参数w^t+1发送给客户端；

(10)重复2)-9)t次；

(11)结束。

进一步的，本发明实施例对所提出的pFedEN进行实验验证，具体内容如下：

1、实验设置

测试平台设置：在5个TITAN XP GPU上部署pFedEN，其中一个GPU模拟中心云服务器，其他GPU模拟边缘计算设备。

模型和数据集：为了研究pFedEN在Non-IID数据设置上的有效性，本实施例对3个图像数据集(MNIST，CIFAR-10，SVHN)进行了广泛的实验，数据集的统计数据总结在下表1中。

表1数据集统计数据

数据集	训练实例	测试实例	特征数	类别数
					MNIST	60000	10000	784	10
CIFAR-10	60000	10000	784	10
					SVHN	73257	26032	1024	10

对于图像数据集，本实施例使用了三个经典的CNN模型来训练图像分类任务：RESNET-20、RESNET-50和VGG16。其中，RESNET-20和RESNET-50是计算密集型网络，VGG16是通信密集型网络。

基准指标：使用测试数据集上的top-1准确度作为衡量所研究算法的指标。将所有研究过的算法运行相同的轮数以进行公平比较。除非指定，否则默认情况下将轮数设置为50。对典型的联邦学习算法进行了对比实验，包括FedAvg算法(baseline)、FedProx算法和FedNova算法。在不同的数据集、不同的模型、不同的数据集异构程度上进行训练，充分验证了pFedEN算法的通用性和优越性。其中Partition＝k表示每个客户端只有k个不同的数据样本，k越小代表每个客户端之间的数据异构程度越大。

实验结果：

1)CIFAR-10数据集分别在Partition＝1，Partition＝2，Partition＝3情况下对FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验。其中每一轮训练轮次为10，实验结果如图5a-c所示。

2)MNIST数据集分别在Patition＝1，Partition＝2，Partition＝3情况下，每一次训练轮次分别为10，20，40，80并应用FedAvg、FedNova、FedProx、pFedEN四种算法进行对比实验实验结果如图6所示，每个训练轮次上的四个柱状图从左到右分别对应FedAvg、pFedEN、FedNova、FedProx四种算法的实验结果。

3)同时记录三种数据集在不同配置下引入动态调整训练轮次策略的整体算法平均准确度，如下表2所示。

表2不同算法不同数据异构程度的算法平均准确度

数据集	数据异构程度	FedAvg	FedProx	FedNova	PFedEN
						MNIST	Partiton＝1	29.8％±7.9％	39.8％±22.2％	39.2％±22.1％	40.9％±23.1％
	Partiton＝2	95.8％±0.3％	96.4％±0.3％	97.4％±0.5％	97.0％±0.4％
							Partiton＝3	97.4％±04	97.9％±0.2％	96.1％±0.6％	98.0％±0.5％
	IID	98.9％±0.1％	98.9％±0.1％	98.9％±0.1％	98.9％±0.1％
						CIFAR-10	Partiton＝1	10.0％±0.0％	12.3％±0.2％	10.0％±0.0％	12.0％±0.0％
	Partiton＝2	48.8％±3.3％	49.8％±2.1％	46.5％±3.5％	51.2％±1.2％
							Partiton＝3	58.3％±12％	57.6％±1.3％	57.1％±14％	62.5％±2.4％
	IID	70.4％±0.5％	70.2％±0.2％	69.5％±1.0％	70.5％±0.3％
						SVHN	Partiton＝1	11.1％±0.0％	18.7％±0.0％	10.6％±0.8％	18.6％±0.0％
	Partiton＝2	78.4％±0.9％	80.2％±0.7％	754％±4.8％	81.1％±0.4％
							Partiton＝3	82.0％±0.7％	82.1％±1.0％	80.5％±1.2％	82.2％±0.3％
	IID	88.5％±0.8％	88.5％±1.0％	88.4％±0.5％	88.6％±0.3％

2.实验结果分析

1)数据异构程度为1，2，3时，用CIFAR-10数据集分别采用FedAvg、FedNova、FedProx、pFedEN进行训练，可以看出，pFedEN可以取得比先进的或者经典的联邦学习算法更高的训练精度。

2)用VGG16训练MNIST，在数据异构程度分别为1，2，3以及每一次训练轮次数分别为10，20，40，80的环境下，pFedEN与经典的FedAvg、FedNova、FedProx算法相比均提高了训练精度，体现了pFedEN强大的适用性。

3)综合三种数据集，四种不同算法，以及数据独立同分布和数据非独立同分布(Partiton-1，2，3)的环境下，pFedEN相较于FedAvg、FedNova、FedProx大部分情况下展示了更高的训练精度。

实施例1

在食品饮料、日用品、美妆等竞争日益激烈的行业，要如何保持竞争优势、如何让广告有效触达目标群体，并在保护数据安全的同时实现广告价值的高转化，是目前广告主最关注的问题。具备一定技术能力的广告主在人群定向策略的制定过程中，往往会面临数据安全的难题。如果想要实现更加个性化的策略，广告主通常需要上传一方数据到媒体平台的工具上进行洞察和分析，但出于行业特性或数据安全的考虑往往只能止步。

为了能够让流量价值和转化效率最大化，媒体平台近几年陆续推出各自的联邦学习框架，以AI联合建模的方式与广告主共同探索数据价值。联邦学习主要解决数据跨域问题，保证数据不出域，也就是计算资源向数据资源靠拢，保证数据安全隐私和安全合规。在一个典型AI联合建模场景中，数据参与方通常包括媒体平台方、广告主、第三方服务商，由媒体平台侧提供联邦学习的基础框架和数据源特征库，例如消费者在媒体上的各类行为和兴趣特征，客户侧提供客户侧样本特征库，例如零售类企业已经积累的大量基础零售客户群信息以及丰富的产品和内容信息，第三方服务商可能会提供基于其他数据源的样本特征库。而通过引入pFedEN可以使得通过给每个目标群体建立一个个性化模型进行精准广告推送来提高广告收益。

实施例2

车联网技术的发展是5G物联网领域中非常重要的应用之一，尤其是自动驾驶的投入使用，更是加速了车载系统联网入云的进程。据统计数据显示，一辆自动驾驶车每天产生的数据在4TB以上，然而，自动驾驶涉及到用户愿不愿意把自己让行驶数据、驾驶数据等被采集上传到服务器，很多时候大家是不愿意的，如果都不上传数据，自动驾驶就没有办法得到更优的模型。联邦学习有助于打破车路协同的数据孤岛，建立高效局域车联网，降低车载数据等隐私泄露风险。联邦学习可以让所有的用户数据停留在本地，只给予用户一个模型来让用户进行反馈，这样大家就可以进行联合建模，得到更优的自动驾驶模型，同时保护了用户数据隐私。对于未来数据监管越来越严格的情况下，联邦学习是自动驾驶模型训练的解决思路。

而复杂车联网环境中固有的设备、统计和模型的异构性给传统的联邦学习带来了巨大挑战，将pFedEN算法应用到能够从整体上缓解车联网应用中固有的设备异构性、统计异构性和模型异构性问题并且提升模型精度，这实现了数据保护与模型训练的“双赢”。

进一步的，本发明实施例还提供一种用于客户端异构和数据异构场景的联邦学习装置，包括：

其中，本地训练能力确定模块具体用于：

本地训练轮次确定模块，具体用于：基于选择函数，根据每个目标客户端的训练能力以及所有目标客户端训练能力的均值自动确定每个目标客户端对应的本地训练轮次。

其中，所述选择函数为e～α*N(e_begin)，

本地训练轮次调整的规则为：

当

时，/>

其中，MaxMinNormalization函数将

其中，所述引入ElasticNet优化的损失函数为：

其中，l(w,D_k)为原始FedAvg客户端的优化函数，

为新添加的近端项，/>

的权重。

具体的，所述中央服务器以一定概率从所有客户端中选择进行本轮联邦训练的目标客户端。

其中，所述中央服务器进行全局模型的聚合更新，包括：所述中央处理器对从所述每个目标客户端接收到的更新后的模型参数进行加权平均，得到更新后的全局模型参数。

本发明实施例所提供的一种用于客户端异构和数据异构场景的联邦学习装置可执行本发明任意实施例所提供的一种用于客户端异构和数据异构场景的联邦学习方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。