CN114723071A

CN114723071A - 一种基于客户端分类和信息熵的联邦学习方法及装置

Info

Publication number: CN114723071A
Application number: CN202210450751.8A
Authority: CN
Inventors: 廖清; 郭松岳; 贾焰; 高翠芸; 王轩
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-08
Anticipated expiration: 2042-04-26
Also published as: CN114723071B

Abstract

本发明公开了一种基于客户端分类和信息熵的联邦学习方法及装置，涉及机器学习技术领域，该方法包括：基于客户端在非独立同分布数据场景的偏置程度，将客户端归入第一服务器或第二服务器；在相对应的服务器中训练客户端，得到训练好的客户端模型，并确定客户端模型的本地模型参数，并基于本地模型参数对应的更新第一服务器的第一模型参数和第二服务器的第二模型参数；确定第一服务器和第二服务器满足交互条件，基于第一模型参数和第二模型参数分别对应的权重，更新中央服务器的中央模型参数。本发明可以提升联邦学习的模型准确率，使得联邦学习适用于在不同混合程度的Non‑IID场景。

Description

一种基于客户端分类和信息熵的联邦学习方法及装置

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于客户端分类和信息熵的联邦学习方法及装置。

背景技术

机器学习(Machine Learning，ML)是计算机科学的一个领域，机器学习给予计算机在没有明确编程的情况下学习的能力。可以训练机器学习模型来实现复杂函数，该复杂函数用于基于输入集合生成一个或多个预测的输出。

联邦学习(Federated Learning)一种分布式机器学习框架，可以在保证数据隐私安全的前提下，进行机器学习模型的训练，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。

目前联邦学习大多侧重于单一偏置程度的非独立同分布数据(Non-IndependentIdentically Distribution，Non-IID)场景，忽略了解决不同偏置程度的混合数据分布问题。但是，在联邦学习的实际应用场景中，各个客户端的数据分布不可能是同一程度的非独立同分布数据，因此不同混合程度的非独立同分布数据的场景才更贴合联邦学习的实际应用场景。在这种混合场景下，目前的联邦学习模型会因为不同程度非独立同分布数据混合带来模型性能下降，模型准确率达不到相应的要求，影响到预测的输出。

发明内容

有鉴于此，本发明实施例提供了一种基于客户端分类和信息熵的联邦学习方法及装置，以解决目前联邦学习模型在不同混合程度的非独立同分布数据的场景下性能达不到要求的问题。

根据第一方面，本发明实施例提供了基于客户端在非独立同分布数据场景的偏置程度，将所述客户端归入第一服务器或第二服务器；所述第一服务器的偏置程度不超过预设偏置值，所述第二服务器的偏置程度超过预设偏置值，所述客户端与归入的服务器建立通信，所述第一服务器与所述第二服务器均同中央服务器建立通信；

在相对应的服务器中训练所述客户端，得到训练好的客户端模型，并确定所述客户端模型的本地模型参数，并基于所述本地模型参数对应的更新所述第一服务器的第一模型参数和所述第二服务器的第二模型参数；

确定所述第一服务器和所述第二服务器满足交互条件，基于所述第一模型参数和所述第二模型参数分别对应的权重，更新所述中央服务器的中央模型参数；所述交互条件为所述第一模型参数的损失差值不超过第一预设值且所述第二模型参数与所述中央模型参数之间差异值超过第二预设值，所述权重基于模型参数的信息熵得到。

结合第一方面，在第一方面第一实施方式中，所述基于客户端在非独立同分布数据场景的偏置程度，将所述客户端归入第一服务器或第二服务器，具体包括以下步骤：

确定所述客户端的偏置值；所述偏置值基于地球移动距离值得到；

将不超过所述预设偏置值对应的所述客户端归入所述第一服务器，将超过所述预设偏置值对应的所述客户端归入所述第二服务器，并为归入所述第二服务器的所述客户端分配相应的中介服务器。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述为归入所述第二服务器的所述客户端分配中介服务器，具体包括以下步骤：

确定所述中介服务器的偏置值，并确定归入所述第二服务器的所述客户端的所述偏置值与不同的所述中介服务器的所述偏置值累加后分别对应的偏置值之和；

将最低的所述偏置值之和对应的所述中介服务器分配给所述客户端。

结合第一方面第一实施方式，在第一方面第三实施方式中，所述第一模型参数在当前轮次迭代时通过以下方式进行更新：

基于上一轮次迭代完成后的所述第一模型参数、所述第一服务器中各个所述客户端的所述本地模型参数在当前轮次迭代时的变化值、各个所述客户端对应的数据量以及所述第一服务器中所有客户端的数据总量，生成并更新当前轮次迭代时的所述第一模型参数；

所述第二模型参数在当前轮次迭代时通过以下方式进行更新：

基于上一轮次迭代完成后的所述第二模型参数、所述第二服务器中各个所述中介服务器在当前轮次迭代时的变化值以及各个所述中介服务器在所述第二服务器中对应的权重以及所述第二服务器中所有中介服务器的比重之和，生成并更新当前轮次迭代时的所述第二模型参数；所述中介服务器的比重由所述中介服务器中所有客户端对应的数据量及所述偏置值的比值累加得到。

结合第一方面，在第一方面第四实施方式中，所述确定所述第一服务器和所述第二服务器满足交互条件，基于所述第一模型参数和所述第二模型参数分别对应的权重，更新所述中央服务器的中央模型参数，具体包括以下步骤：

确定所述第一服务器和所述第二服务器满足所述交互条件，累加所述第一模型参数与对应的所述权重的乘积以及所述第二模型参数与对应的所述权重的乘积，生成并所述中央服务器的中央模型参数；所述第一模型参数的权重与所述第二模型参数的权重之和为1，所述第一模型参数对应的所述权重基于所述第一模型参数的信息熵及所述第二模型参数的信息熵之间的差值得到。

结合第一方面，在第一方面第五实施方式中，所述第一模型参数的损失差值通过以下方式确定：

基于当前轮次所述第一模型参数的损失函数及上一轮次所述第一模型参数的损失函数的差值，确定所述损失差值；

所述第二模型参数与所述中央模型参数之间差异值通过以下方式确定：

基于当前轮次所述第二模型参数和所述中央模型参数的权重发散程度，确定所述差异值。

根据第二方面，本发明实施例提供了一种基于客户端分类和信息熵的联邦学习方法，该装置包括：

划分模块，用于基于客户端在非独立同分布数据场景的偏置程度，将所述客户端归入第一服务器或第二服务器；所述第一服务器的偏置程度不超过预设偏置值，所述第二服务器的偏置程度超过预设偏置值，所述客户端与归入的服务器建立通信，所述第一服务器与所述第二服务器均同中央服务器建立通信；

训练模块，用于在相对应的服务器中训练所述客户端，得到训练好的客户端模型，并确定所述客户端模型的本地模型参数，并基于所述本地模型参数对应的更新所述第一服务器的第一模型参数和所述第二服务器的第二模型参数；

交互模块，用于确定所述第一服务器和所述第二服务器满足交互条件，基于所述第一模型参数和所述第二模型参数分别对应的权重，更新所述中央服务器的中央模型参数；所述交互条件为所述第一模型参数的损失差值不超过第一预设值且所述第二模型参数与所述中央模型参数之间差异值超过第二预设值，所述权重基于模型参数的信息熵得到。

根据第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一项所述基于客户端分类和信息熵的联邦学习方法的步骤。

根据第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述基于客户端分类和信息熵的联邦学习方法的步骤。

根据第五方面，本发明实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述基于客户端分类和信息熵的联邦学习方法的步骤。

发明提供的基于客户端分类和信息熵的联邦学习方法及装置，通过确定Non-IID场景下各个客户端的偏置程度进行偏置程度度量和服务器归入，并由对应的被归入的第一服务器或者第二服务器分别处理不同偏置程度的客户端数据，可以让不同偏置程度的客户端得到妥善处理，从而能够很好地处理不同混合程度的Non-IID场景，最大程度上缓解了在混合分布场景下联邦学习模型性能下降的问题，从而提高联邦学习的模型准确率，之后，基于信息熵的第一服务器和第二服务器之间的交互机制，使得中央服务器可以有效地聚合第一服务器和第二服务器产生的模型参数，使得本发明可以根据模型信息量的大小进行有效地聚合第一模型参数和第二模型参数，而且不需要每轮进行模型参数交互，从而能够减少不必要的通讯代价，减少联邦学习中服务器间的交互轮次，进而提升模型对混合数据分布的准确率和收敛速度，进一步地提升联邦学习的模型准确率，使得联邦学习适用于在不同混合程度的Non-IID场景。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明提供的基于客户端分类和信息熵的联邦学习方法的流程示意图；

图2示出了本发明提供的基于客户端分类和信息熵的联邦学习方法中步骤S100具体的流程示意图；

图3示出了本发明提供的基于客户端分类和信息熵的联邦学习方法中中介服务器调度分配具体的流程示意图；

图4示出了本发明提供的基于客户端分类和信息熵的联邦学习方法中客户端在对应的服务器中训练的示意图；

图5示出了本发明提供的基于客户端分类和信息熵的联邦学习方法中步骤S300具体的流程示意图；

图6示出了本发明提供的基于客户端分类和信息熵的联邦学习装置的结构示意图；

图7示出了本发明提供的基于客户端分类和信息熵的联邦学习装置中划分模块具体的结构示意图；

图8示出了本发明提供的基于客户端分类和信息熵的联邦学习装置中中介服务器调度分配具体的结构示意图；

图9示出了本发明提供的基于客户端分类和信息熵的联邦学习装置中交互模块具体的结构示意图；

图10示出了本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

机器学习需要收集大量用户数据作为样本进行训练，但包含隐私的数据经由多方处理，因此可能会在数据传输、交换时造成泄露风险。联邦学习可以在保证数据隐私安全的前提下，进行机器学习模型的训练。联邦学习能够不直接将用户数据暴露给服务器和网络，而是在客户端对隐私数据进行模型训练，并选择性地传递模型参数至中央服务器从而共同建立一个中央服务器模型。这个中央服务器模型的建模效果与将整个数据集放在一起进行建模的效果相差不大,同时保证了数据的隐私安全。

Federated-Averaging(FedAvg)是目前常用的联邦学习框架。FedAvg的具体流程为客户端使用本地数据输入模型进行训练，将模型参数上传中央服务器，中央服务器模型通过聚合客户端模型参数并对模型参数重分配的方式进行联合学习。

若令

表示中央服务器模型在轮迭代时的模型参数.存在K个客户端，且第k个客户端的数据集为D_k，数据量为n_k，同时客户端k的第i个数据样本(xⁱ,yⁱ)符合

的概率分布，L(·)为损失函数.因此，客户端k在t+1轮的本地模型参数的变化值

为

此情况下，FedAvg的具体学习流程为：

其中，η表示学习率，

表示客户端k在第t轮的模型参数梯度，xⁱ为客户端k的第i个数据样本，yⁱ为xⁱ的标签。

此时，中央服务器模型C在t+1轮加权聚合后的模型参数

为：

其中，n表示所有客户端(K个客户端)的数据总量。

然而，Non-IID的存在对FedAvg的训练效果造成极大的影响.特别是在偏置程度较大时，客户端拥有极度偏置的数据样本分布.此时局部梯度的加权不再是对宏观收敛方向的无偏估计，从而会对训练效果造成严重的影响。

因此，目前出现了FedAvg框架的改进，例如FedShare、CSFedAvg和Astraea。

FedShare是在Non-IID场景下对FedAvg框架的改进，FedShare会根据客户端的样本分布偏置程度，向客户端分配相应份数独立同分布数据(Independently IdenticalDistribution，IID)的共享数据来减弱客户端样本分布的偏置程度，其他工作流程与FedAvg一样。但是，FedShare中各客户端共享部分的公有数据在实际应用场景中可能不容易获取。

CSFedAvg是基于客户端选择的方式在FedAvg上进行改进，CSFedAvg通过收集客户端本地模型，筛选出本地数据分布较全、模型收敛效果好的客户端模型，使用筛选后的那部分客户端参与FedAvg的模型聚合过程，从而降低Non-IID对联邦学习的影响。CSFedAvg的缺点在于中央服务器只选择了偏置程度较低的客户端，从而抛弃了可能拥有大量数据但是偏置程度较高的客户端。通常，偏置程度较低的客户端可以称为非极偏客户端，偏置程度较高的客户端可以称为极偏客户端，偏置程度较低的服务器可以称为非极偏服务器，偏置程度较高的服务器可以称为极偏服务器。

Astraea的中央服务器使用Kullback-Leibler(KL)散度对客户端的数据分布的偏置程度进行度量，之后中央服务器按各个中介服务器KL散度尽可能平均的原则将客户端重分配到各中介服务器下，各个客户端接下来在各个中介服务器进行异步FedAvg训练，从而使得Astraea达到缓解客户端偏置程度的目的。Astraea由于是使用KL散度度量客户端极偏程度，而对于有重叠部分的数据分布，KL散度无法有效地度量，因此KL散度可度量性较低。

下面结合图1对本发明的基于客户端分类和信息熵的联邦学习方法进行说明，该方法包括：

S100、基于客户端在Non-IID场景的偏置程度，将客户端归入第一服务器或第二服务器。

在本实施例中，第一服务器的偏置程度不超过预设偏置值θ_EMD，第二服务器的偏置程度超过预设偏置值θ_EMD，客户端与归入的服务器建立通信，即被归入第一服务器的客户端与第一服务器建立通信，被归入第二服务器的客户端与第二服务器建立通信，且第一服务器与第二服务器均同中央服务器建立通信，第一服务器即非极偏服务器，第二服务器即极偏服务器。本发明应用到的服务器分别为中央服务器、极偏服务器和非极偏服务器。

S200、在相对应的服务器中训练客户端，得到训练好的客户端模型，并确定训练好的客户端模型的本地模型参数，需要说明的是，在本发明中，客户端模型在每一轮轮次的训练后的本地模型参数可能是不同的，因此，会确定各个轮次的本地模型参数，并基于本地模型参数对应的更新第一服务器的第一模型参数和第二服务器的第二模型参数，即由归入第一服务器的客户端的本地模型参数更新第一模型参数，由归入第二服务器的客户端的本地模型参数更新第二模型参数。

S300、确定第一服务器和第二服务器满足交互条件，基于第一模型参数和第二模型参数分别对应的权重，更新中央服务器的中央模型参数。

在本实施例中，交互条件为第一模型参数的损失差值不超过第一预设值θ_Loss且第二模型参数与中央模型参数之间差异值超过第二预设值θ_WD，第一模型参数的权重基于其的信息熵得到，第二模型的权重也是基于其的信息熵得到。

可以理解的是，当第一服务器和第二服务器不满足交互条件时，并不会更新中央服务器的中央模型参数。

本发明提供的基于客户端分类和信息熵的联邦学习方法，通过确定Non-IID场景下各个客户端的偏置程度进行偏置程度度量和服务器归入，并由对应的被归入的第一服务器或者第二服务器分别处理不同偏置程度的客户端数据，可以让不同偏置程度的客户端得到妥善处理，从而能够很好地处理不同混合程度的Non-IID场景，最大程度上缓解了在混合分布场景下联邦学习模型性能下降的问题，从而提高联邦学习的模型准确率，之后，基于信息熵的第一服务器和第二服务器之间的交互机制，使得中央服务器可以有效地聚合第一服务器和第二服务器产生的模型参数，使得本发明可以根据模型信息量的大小进行有效地聚合第一模型参数和第二模型参数，而且不需要每轮进行模型参数交互，从而能够减少不必要的通讯代价，减少联邦学习中服务器间的交互轮次，进而提升模型对混合数据分布的准确率和收敛速度，进一步地提升联邦学习的模型准确率，使得联邦学习适用于在不同混合程度的Non-IID场景。

下面结合图2对本发明的基于客户端分类和信息熵的联邦学习方法进行说明，步骤S100具体包括：

S110、确定客户端的偏置值。

在本实施例中，客户端的偏置值基于地球移动距离(Earth Mover Distance，EMD)值得到。

S120、将不超过预设偏置值θ_EMD对应的客户端归入第一服务器，将超过预设偏置值θ_EMD对应的客户端归入第二服务器，并为归入第二服务器的客户端分配相应的中介服务器，可以理解的是，本发明中会存在至少一个中介服务器，每个中介服务器又可以调度给多个客户端。

本发明首先使用计算各个客户端的EMD值，将计算得到的EMD值作为客户端相应的偏置程度的依据以及偏置程度度量，即客户端的偏置值，之后根据偏置值与预设偏置值θ_EMD之间的关系，将客户端划分为极偏客户端和非极偏客户端。具体的，偏置值不超过预设偏置值θ_EMD的客户端被划分为非极偏客户端，偏置值超过预设偏置值θ_EMD的客户端被划分为极偏客户端，可以理解的是，非极偏客户端的样本分布较全，Non-IID程度低，极偏客户端的样本分布不全、样本分布不均衡，Non-IID程度高。非极偏客户端又会被归入第一服务器中，极偏客户端会被归入第二服务器中，可以理解的是，第一服务器相当于非极偏服务器，第二服务器相当于极偏服务器。

本发明采用的EMD在Non-IID环境下具有更好的高可度量性，使用EMD计算分布之间的距离时，对于两个没有重合部分的分布，KL、JS散度为定值或无穷值，而此时EMD仍然可以度量两个分布之间的距离。因此EMD对Non-IID的环境，具有高可度量性，可以适应各种各样的Non-IID环境。

在本发明中，极偏服务器中的各个极偏客户端会被调度分配不同的中介服务器，之后，中介服务器会通过本发明所采用的特殊的调度方式对其中的客户端进行本地模型参数的更新。请参阅图3，本发明中中介服务器通过以下步骤调度分配给极偏客户端：

A100、确定中介服务器的偏置值，并确定归入第二服务器的客户端的偏置值与不同的中介服务器的偏置值累加后分别对应的偏置值之和。在本实施中，中介服务器的偏置值也是基于EMD值得到。

A200、将最低的偏置值之和对应的中介服务器分配给客户端。即，本发明按照中介服务器的数据样本总体分布偏置程度最低的原则对极偏客户端进行中介服务器的分配。

需要说明的是，当所有的中介服务器均未分配调度给任务的极偏客户端时，所有的中介服务器中均不存在数据，此时所有的中介服务器的偏置值都是相等的，此时任何一个中介服务器都可以调度分配待分配的该个极偏客户端。在之后的调度分配过程中，如果同样存在所有的中介服务器的偏置值都是相等的情况，也同样的，任何一个中介服务器都可以调度分配待分配的该个极偏客户端。

下面结合图4对本发明的基于客户端分类和信息熵的联邦学习方法进行说明，第一模型参数在当前轮次迭代时通过以下方式进行更新：

基于上一轮次迭代完成后的第一模型参数、第一服务器中各个客户端的本地模型参数在当前轮次迭代时的变化值、各个客户端对应的数据量以及第一服务器中所有客户端的数据总量，生成并更新当前轮次迭代时的第一模型参数。

第二模型参数在当前轮次迭代时通过以下方式进行更新：

基于上一轮次迭代完成后的第二模型参数、第二服务器中各个中介服务器在当前轮次迭代时的变化值以及各个中介服务器在第二服务器中对应的权重以及第二服务器中所有中介服务器的比重之和，生成并更新当前轮次迭代时的第二模型参数。

在本实施例中，中介服务器的比重由中介服务器中所有客户端对应的数据量及偏置值的比值累加得到。

因此，本发明中各个客户端在相应的服务器进行训练，接下来以第t轮迭代时为例介绍相关具体流程。

在一些可能的实施例中，由于非极偏客户端样本分布较全，Non-IID程度小，因此在本实施例中选择传统的FedAvg方式进行训练，即在第一服务器中，采用FedAvg对非极偏客户端进行模型参数更新。此情况下，非极偏服务器在第t轮训练的具体流程如下：

首先，各非极偏客户端接收第一服务器第t轮的模型参数

作为客户端本地模型初始参数

其次，非极偏客户端在t+1轮迭次时的本地模型参数的变化值

为：

其中，第k个非极偏客户端的数据集为D_k，数据量为n_k，在t轮时的模型参数为

同时非极偏客户端k的第i个数据样本(xⁱ,yⁱ)符合

的概率分布，xⁱ为非极偏客户端k的第i个数据样本，yⁱ为xⁱ的标签.L(·)为损失函数。η是学习率，

为非极偏客户端k在第t轮的模型梯度。变化值

是由上一轮的非极偏客户端k的本地模型梯度

损失函数L(·)和学习率η相乘得到。

最后，得到第一服务器的第一模型参数在t+1轮的加权聚合

其中，NEBC为非极偏客户端的序列，n为所有非极偏客户端的数据总量。此外，在每个交流轮次结束时，第一服务器都会将其对应的第一模型参数w^NEBS上传至中央服务器。

在一些可能的实施例中，在第二服务器中，本发明提供一种新型的FedSeq客户端训练方式，通过将极偏客户端划分为多个集群并引入中介服务器对集群进行并行式训练，通过这种训练方式既可降低极偏服务器单个epoch的训练时间，从而增强模型对Non-IID场景下的鲁棒性。

在另一些可能的实施例中，本发明还可以通过对极偏客户端再分配的方式降低集群中数据样本分布的偏置程度，从而增强模型对Non-IID场景下的鲁棒性。

在中介服务器中训练极偏客户端的具体流程如下：

在极偏服务器第t轮训练中，中介服务器m接收第二服务器的模型参数

作为初始参数，初始参数

为：

中介服务器m下的第一个极偏客户端m₁的模型参数

为：

而中介服务器m下的第k个极偏客户端m_k的模型参数

为：

其中，

为第k个极偏客户端m_k的本地模型参数的变化值，

为：

其中，η是学习率，

为第二服务器t-1轮中极偏客户端m_k的模型参数梯度，

为极偏客户端m_k的数据集，

为

的数据量，L(·)为损失函数，xⁱ为极偏客户端m_k的第i个数据样本，yⁱ为数据样本xⁱ的标签，

为极偏客户端m_k在t-1轮的模型参数。

由此，得到更新后的中介服务器m的模型参数

为：

其中，K为中介服务器m的极偏客户端总数，

为中介服务器m下的最后一个的极偏客户端m_K的模型参数。

在本发明中，同一中介服务器下，极偏客户端的模型参数由其上一个的极偏客户端已确定的模型参数训练得到，该中介服务器的第一个极偏客户端为同轮次第二服务器的第二模型参数，该中介服务器的最后一个极偏客户端的模型参数会作为该中介服务器该轮次的中介模型参数。

当所有的中介服务器都完成一轮迭代后，将进行中介服务器之间的模型参数交互，在中介服务器模型参数交换过程中，考虑到当中介服务器中数据分布偏置程度较大或数据量较小均会导致极偏服务器训练效果不佳的情况，本发明提供了一种特殊的权重分配机制，该机制考虑到各中介服务器中的数据偏置程度和数据量对中介服务器权重进行重分配，让训练效果较好的中介服务器在极偏服务器中获得较大的权重，让训练效果较差的中介服务器在极偏服务器中获得较小的权重。

具体的，本发明中，中介服务器m在极偏服务器的权重B_m为：

其中，

n_k为极偏客户端k的数据量，EMD_k为客户端k的EMD值。即，本发明通过累加中介服务器中各个极偏客户端的数据量与偏置值的比值，得到该中介服务器在进行中介服务器之间的模型参数交互时的权重。

t+1轮迭次时的第二服务器模型参数由所有中介服务器的模型参数聚合而成，极偏服务器模型参数

为：

其中，

为所有中介服务器的集合，B为所有中介服务器的权重总和，

为t轮迭次时FedSeq更新后的中介服务器m的模型参数变化量。

考虑到传统联邦学习中，中央服务器因为模型参数频繁交互导致的通信代价大，本发明提供了基于信息熵的模型参数交互机制，从而帮助中央服务器以较小的交互轮次获得较高的模型准确率。下面结合图5对本发明的基于客户端分类和信息熵的联邦学习方法进行说明，步骤S300具体包括以下步骤：

S310、确定第一服务器和第二服务器满足交互条件，累加第一模型参数与对应的权重的乘积以及第二模型参数与对应的权重的乘积，生成并中央服务器的中央模型参数。

在本实施例中，第一模型参数的权重与第二模型参数的权重之和为1，第一模型参数对应的权重基于第一模型参数的信息熵及第二模型参数的信息熵之间的差值得到。

考虑到信息熵在一定程度上可以反映模型包含的信息量，而信息量越大的模型在混合分布场景下可能意味着训练样本数据规模越大，数据种类越齐全.因此在第一服务器与第二服务器的模型参数交互阶段，通过第一服务器和第二服务器模型参数的信息熵来自适应调整第一服务器的权重α，权重α为：

其中，arctan(·)为反正切函数，A的大小可以代表当一个模型的信息量远大于另一个模型时，信息量小的模型保留的比例，而c是用来缩放两个模型信息量差值的大小.而

和

分别表示第一服务器的第一模型参数

和第二服务器的第二模型参数

的信息熵，其中，

和

的信息熵为：

之后，再将模型参数

和

的参数取值区间划分为y个等长区间，进而计算模型参数在各区间y上的概率

和

其中，

和

分别表示模型参数

和

在区间y内的参数个数，

和

分别表示模型参数

和

的总参数个数。

最后，当模型参数交互条件满足时，在第一服务器和第二服务器模型参数交互阶段，采用进行第一服务器和第二服务器的自适应聚合，进而更新中央服务器模型

其中，

分别为满足模型参数交互条件时的中央服务器的中央模型参数、第一服务器的第一模型参数的以及第二服务器的第二模型参数.α是第一服务器的权重。

在本发明中，中央服务器中基于信息熵的模型参数交互机制的条件为：当非极偏服务器的模型处于较为稳定的状态，且极偏服务器的模型与中央服务器模型产生较大差别时，进行极偏服务器与非极偏服务器的参数交互，也就是第一服务器和第二服务器的交互。

在本实施例中，第一模型参数的损失差值通过以下方式确定：

基于当前轮次第一模型参数的损失函数及上一轮次第一模型参数的损失函数的差值，确定损失差值。

在一些可能的实施例中，通过损失函数差值作为衡量模型稳定的标准：

其中，

表示第一服务器模型在t+1轮时的损失，当损失函数之间的差值小于阈值θ_LOSS即第一预设值时，则认为当前第一服务器模型处于较为稳定的状态。

第二模型参数与中央模型参数之间差异值通过以下方式确定：

基于当前轮次第二模型参数和中央模型参数的权重发散程度，确定差异值。

在一些可能的实施例中，通过计算第二服务器的模型参数

和中央服务器的模型参数

的权重发散程度来获取第二服务器的模型与中央服务器模型之间的差异性：

其中，

表示第t轮的第二服务器模型参数.当权重发散程度超过阈值θ_WD即第二预设值时，则认为第二服务器的模型参数和中央服务器模型参数之间产生了较大差异。

下面对本发明提供的基于客户端分类和信息熵的联邦学习装置进行描述，下文描述的基于客户端分类和信息熵的联邦学习装置与上文描述的基于客户端分类和信息熵的联邦学习方法可相互对应参照。

下面结合图6对本发明的基于客户端分类和信息熵的联邦学习装置进行说明，该装置包括：

划分模块100，用于基于客户端在Non-IID场景的偏置程度，将客户端归入第一服务器或第二服务器。

训练模块200，用于在相对应的服务器中训练客户端，得到训练好的客户端模型，并确定训练好的客户端模型的本地模型参数，需要说明的是，在本发明中，客户端模型在每一轮轮次的训练后的本地模型参数可能是不同的，因此，会确定各个轮次的本地模型参数，并基于本地模型参数对应的更新第一服务器的第一模型参数和第二服务器的第二模型参数，即由归入第一服务器的客户端的本地模型参数更新第一模型参数，由归入第二服务器的客户端的本地模型参数更新第二模型参数。

交互模块300，用于确定第一服务器和第二服务器满足交互条件，基于第一模型参数和第二模型参数分别对应的权重，更新中央服务器的中央模型参数。

本发明提供的基于客户端分类和信息熵的联邦学习装置，通过确定Non-IID场景下各个客户端的偏置程度进行偏置程度度量和服务器归入，并由对应的被归入的第一服务器或者第二服务器分别处理不同偏置程度的客户端数据，可以让不同偏置程度的客户端得到妥善处理，从而能够很好地处理不同混合程度的Non-IID场景，最大程度上缓解了在混合分布场景下联邦学习模型性能下降的问题，从而提高联邦学习的模型准确率，之后，基于信息熵的第一服务器和第二服务器之间的交互机制，使得中央服务器可以有效地聚合第一服务器和第二服务器产生的模型参数，使得本发明可以根据模型信息量的大小进行有效地聚合第一模型参数和第二模型参数，而且不需要每轮进行模型参数交互，从而能够减少不必要的通讯代价，减少联邦学习中服务器间的交互轮次，进而提升模型对混合数据分布的准确率和收敛速度，进一步地提升联邦学习的模型准确率，使得联邦学习适用于在不同混合程度的Non-IID场景。

下面结合图7对本发明的基于客户端分类和信息熵的联邦学习装置进行说明，划分模块100具体包括：

确定单元110，用于确定客户端的偏置值。

在本实施例中，客户端的偏置值基于EMD值得到。

划分单元120，用于将不超过预设偏置值θ_EMD对应的客户端归入第一服务器，将超过预设偏置值θ_EMD对应的客户端归入第二服务器，并为归入第二服务器的客户端分配相应的中介服务器，可以理解的是，本发明中会存在至少一个中介服务器，每个中介服务器又可以调度给多个客户端。

在本发明中，极偏服务器中的各个极偏客户端会被调度分配不同的中介服务器，之后，中介服务器会通过本发明所采用的特殊的调度方式对其中的客户端进行本地模型参数的更新。请参阅图8，本发明中中介服务器通过以下模块调度分配给极偏客户端：

第一计算模块400，用于确定中介服务器的偏置值，并确定归入第二服务器的客户端的偏置值与不同的中介服务器的偏置值累加后分别对应的偏置值之和。在本实施中，中介服务器的偏置值也是基于EMD值得到。

第二计算模块500，用于将最低的偏置值之和对应的中介服务器分配给客户端。即，本发明按照中介服务器的数据样本总体分布偏置程度最低的原则对极偏客户端进行中介服务器的分配。

第一模型参数在当前轮次迭代时通过以下方式进行更新：

第二模型参数在当前轮次迭代时通过以下方式进行更新：

因此，本发明中各个客户端在相应的服务器进行训练。

考虑到传统联邦学习中，中央服务器因为模型参数频繁交互导致的通信代价大，本发明提供了基于信息熵的模型参数交互机制，从而帮助中央服务器以较小的交互轮次获得较高的模型准确率。下面结合图9对本发明的基于客户端分类和信息熵的联邦学习装置进行说明，交互模块具体包括：

交互单元310，用于确定第一服务器和第二服务器满足交互条件，累加第一模型参数与对应的权重的乘积以及第二模型参数与对应的权重的乘积，生成并中央服务器的中央模型参数。

考虑到信息熵在一定程度上可以反映模型包含的信息量，而信息量越大的模型在混合分布场景下可能意味着训练样本数据规模越大，数据种类越齐全.因此在第一服务器与第二服务器的模型参数交互阶段，通过第一服务器和第二服务器模型参数的信息熵来自适应调整第一服务器的权重α。

在一些可能的实施例中，通过损失函数差值作为衡量模型稳定的标准。

在一些可能的实施例中，通过计算第二服务器的模型参数

和中央服务器的模型参数

的权重发散程度来获取第二服务器的模型与中央服务器模型之间的差异性。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行基于客户端分类和信息熵的联邦学习方法，该方法包括：

基于客户端在非独立同分布数据场景的偏置程度，将所述客户端归入第一服务器或第二服务器；所述第一服务器的偏置程度不超过预设偏置值，所述第二服务器的偏置程度超过预设偏置值，所述客户端与归入的服务器建立通信，所述第一服务器与所述第二服务器均同中央服务器建立通信；

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于客户端分类和信息熵的联邦学习方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于客户端分类和信息熵的联邦学习方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于客户端分类和信息熵的联邦学习方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于客户端分类和信息熵的联邦学习方法，其特征在于，所述基于客户端在非独立同分布数据场景的偏置程度，将所述客户端归入第一服务器或第二服务器，具体包括以下步骤：

3.根据权利要求2所述的基于客户端分类和信息熵的联邦学习方法，其特征在于，所述为归入所述第二服务器的所述客户端分配中介服务器，具体包括以下步骤：

4.根据权利要求2所述的基于客户端分类和信息熵的联邦学习方法，其特征在于，所述第一模型参数在当前轮次迭代时通过以下方式进行更新：

5.根据权利要求1所述的基于客户端分类和信息熵的联邦学习方法，其特征在于，所述确定所述第一服务器和所述第二服务器满足交互条件，基于所述第一模型参数和所述第二模型参数分别对应的权重，更新所述中央服务器的中央模型参数，具体包括以下步骤：

6.根据权利要求1所述的基于客户端分类和信息熵的联邦学习方法，其特征在于，所述第一模型参数的损失差值通过以下方式确定：

7.一种基于客户端分类和信息熵的联邦学习方法，其特征在于，该装置包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于客户端分类和信息熵的联邦学习方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于客户端分类和信息熵的联邦学习方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于客户端分类和信息熵的联邦学习方法的步骤。