CN116187431A

CN116187431A - 面向非独立同分布场景的联邦学习蒸馏方法及装置

Info

Publication number: CN116187431A
Application number: CN202310142030.5A
Authority: CN
Inventors: 沈超锋; 吴贻军; 祝言抒; 梁前能
Original assignee: Anhui Kexun Jinfu Technology Co ltd
Current assignee: Anhui Kexun Jinfu Technology Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-30

Abstract

本发明涉及人工智能技术领域，提供一种面向非独立同分布场景的联邦学习蒸馏方法及装置，该方法借助于目标终端的非标签数据与目标终端的初始标签数据的相似度、与其他终端的初始标签数据的第一特征相似度以及目标终端的初始标签数据与其他终端的初始标签数据的第二特征相似度，可以丰富初始教师模型以及基础模型的训练样本，不仅可以大大提高初始教师模型以及基础模型的训练效率，还可以使得到的目标教师模型以及学生模型的泛化能力更强，进而可以提升联邦学习得到的聚合模型的准确性。此外，该方法结合知识蒸馏以及联邦学习，可以使学生模型学习到自身完全不存在的其他终端的知识，即自身数据没有相关标签，但是能通过联邦学习学到相关知识。

Description

面向非独立同分布场景的联邦学习蒸馏方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种面向非独立同分布场景的联邦学习蒸馏方法及装置。

背景技术

联邦学习(Federated Learning，FL)是一种新型的模型训练方法，可以通过各个分散的终端设备，将服务端下发的全局模型通过本地数据先进行初步训练，再让每个终端设备将初步训练好的本地模型上传到服务端，在服务端对每个上传的本地模型进行统一聚合，并将聚合模型下发至各终端设备。联邦学习实现了既让本地数据不泄漏，有效地保护了本地数据的隐私安全，又实现了充分利用海量分散的本地数据进行模型训练，获得拟合性能更加优良的本地模型。由于联邦学习允许参与者在不共享数据的前提下协同训练模型，很好地保护了本地数据的隐私并打破数据孤岛，因此联邦学习受到了广泛的关注，尤其广泛应用于分布式训练场景。

在分布式训练场景下，很多传统的分布式机器学习算法，都需要假设数据分布是均匀的，即各个终端设备之间的数据分布需要服从独立同分布(Independent-andIdentically-Distritributed，IID)。然而，在现实生活中，本地数据的产生无法控制，不同终端设备上独立产生本地数据，当多个分散的终端设备作为联邦学习的参与方时，各个终端设备上的本地数据有可能是非独立同分布(Non-Independent-and-Identically-Distributed，Non-IID)的，甚至本地数据带有的标签也是非独立同分布的，这将导致联邦学习中模型训练效率大幅下降，模型泛化能力弱的问题出现。而且，联邦学习的参与方在进行联邦学习后，得到的聚合模型的准确性提升不大，甚至会有所降低。

因此，如何提高联邦学习在Non-IID场景下的模型训练效率，提升模型泛化能力，提高聚合模型的准确性至关重要。

发明内容

本发明提供一种面向非独立同分布场景的联邦学习蒸馏方法及装置，用以解决现有技术中存在的缺陷。

本发明提供一种面向非独立同分布场景的联邦学习蒸馏方法，应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；所述方法包括：

确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；

基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；

将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；

基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

根据本发明提供的一种面向非独立同分布场景的联邦学习蒸馏方法，所述第一特征相似度，基于如下步骤确定：

确定初始特征提取模型，并基于所述初始特征提取模型，提取所述非标签数据的第一特征向量；

将所述初始特征提取模型中的预设结构进行差分隐私保护，得到目标特征提取模型；

将所述目标特征提取模型发送至所述其他终端，并接收所述其他终端基于所述目标特征提取模型提取的其初始标签数据的第二特征向量；

确定所述第一特征向量与所述第二特征向量之间的相似度为所述第一特征相似度。

根据本发明提供的一种面向非独立同分布场景的联邦学习蒸馏方法，所述第二特征相似度，基于如下步骤确定：

基于所述初始特征提取模型，提取所述目标终端的初始标签数据的第三特征向量；

确定所述第三特征向量与所述第二特征向量之间的相似度为所述第二特征相似度。

根据本发明提供的一种面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述学生模型进行联邦学习，包括：

将所述学生模型上传至所述目标服务端；

接收所述目标服务端基于对所述各终端上传的学生模型进行联邦平均聚合后得到的聚合模型，并将所述聚合模型作为所述基础模型循环进行本地蒸馏，直至联邦学习结束。

根据本发明提供的一种面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据，包括：

确定所述目标终端的初始标签数据中与所述非标签数据的相似度最大的第一相似数据，并基于所述第一相似数据带有的标签，对所述非标签数据进行标注，得到所述第一标注数据。

根据本发明提供的一种面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，包括：

确定所述其他终端的初始标签数据中与所述非标签数据的第一特征相似度最大的第二相似数据，并基于所述第二相似数据带有的标签，对所述非标签数据进行标注，得到所述第二标注数据。

根据本发明提供的一种面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据，包括：

计算第三相似数据与第四相似数据带有的标签均值，所述第三相似数据为大于预设阈值的第二特征相似度对应的所述目标终端的初始标签数据，所述第四相似数据为大于所述预设阈值的第二特征相似度对应的所述其他终端的初始标签数据；

将所述标签均值作为所述第三相似数据的标签，得到所述第三标签数据。

本发明还提供一种面向非独立同分布场景的联邦学习蒸馏装置，应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；所述装置包括：

数据聚合模块，用于确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；

数据标注模块，用于将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；

标签预测模块，用于基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；

联邦蒸馏模块，用于基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的面向非独立同分布场景的联邦学习蒸馏方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的面向非独立同分布场景的联邦学习蒸馏方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的面向非独立同分布场景的联邦学习蒸馏方法。

本发明提供的面向非独立同分布场景的联邦学习蒸馏方法及装置，该方法借助于目标终端的非标签数据与目标终端的初始标签数据的相似度、与其他终端的初始标签数据的第一特征相似度以及目标终端的初始标签数据与其他终端的初始标签数据的第二特征相似度，可以丰富初始教师模型以及基础模型的训练样本，不仅可以大大提高初始教师模型以及基础模型的训练效率，还可以使得到的目标教师模型以及学生模型的泛化能力更强，进而可以提升联邦学习得到的聚合模型的准确性。此外，该方法结合知识蒸馏以及联邦学习，可以使学生模型学习到自身完全不存在的其他终端的知识，即自身数据没有相关标签，但是能通过联邦学习学到相关知识，这是一种极端的对于数据标签的非独立同分布场景。同时该方法能够通过联邦学习使学生模型已经拥有的拟合能力更佳。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的面向非独立同分布场景的联邦学习蒸馏方法的流程示意图；

图2是本发明提供的面向非独立同分布场景的联邦学习蒸馏装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中，当多个分散的终端设备作为联邦学习的参与方时，各个终端设备上的本地数据有可能是非独立同分布的，甚至本地数据带有的标签也是非独立同分布的，这将导致联邦学习中模型训练效率大幅下降，模型泛化能力弱的问题出现。而且，联邦学习的参与方在进行联邦学习后，得到的聚合模型的准确性提升不大，甚至会有所降低。因此，本发明实施例中提供了一种面向非独立同分布场景的联邦学习蒸馏方法，用以提高联邦学习在非独立同分布场景下的模型训练效率，提升模型泛化能力，提高聚合模型的准确性至关重要。

图1为本发明实施例中提供的一种面向非独立同分布场景的联邦学习蒸馏方法的流程示意图，该方法应用于目标终端，该目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布。如图1所示，该方法包括：

S1，确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；

S2，基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；

S3，将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；

S4，基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、第二标签数据以及第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

具体地，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，其执行主体为面向非独立同分布场景的联邦学习蒸馏装置，该装置可以配置于目标终端内，该目标终端可以是目标服务端内的每一个终端，即目标服务端内的每一个终端均执行该方法。该目标终端可以是计算机，该计算机可以为本地计算机或云计算机，本地计算机可以是电脑、平板等，此处不作具体限定。

该方法应用的场景为非独立同分布场景，即目标终端归属的目标服务端下包括目标终端在内的各终端的数据和/或标签满足非独立同分布，数据满足非独立同分布是指各终端的数据标签种类相同，但是数据分布不一致。标签满足非独立同分布是指各终端的数据标签种类不完全相同，同时各终端都拥有非标签数据。各终端的数据标签种类不完全相同可以包括各终端的数据标签种类不重合或部分重合，非标签数据是指无标签的数据。

首先执行步骤S1，确定目标终端的初始标签数据以及非标签数据。此处，目标终端可以对本地数据进行聚类，即分别对本地数据中带标签的数据以及不带标签的数据进行聚类，得到初始标签数据以及非标签数据。本地数据可以是图片、隐私数据等，其携带的标签可以是图片中的对象类别、隐私数据类别等，此处不作具体限定。

所有初始标签数据可以构成初始标签数据集，所有非标签数据可以构成非标签数据集。例如，目标服务端下包括终端A和终端B，终端A的本地数据包括带有标签1、2、3的初始标签数据以及不带标签1、5的非标签数据，终端B的本地数据包括带有标签2、3、4、5的初始标签数据以及不带标签1、4的非标签数据。对于终端A，其对应的初始标签数据集可以表示为L-A，对应的非标签数据集可以表示为U-A；对于终端B，其对应的初始标签数据集可以表示为L-B，对应的非标签数据集可以表示为U-B。

利用目标终端的非标签数据与目标终端的初始标签数据的相似度，可以对目标终端的非标签数据进行标注，得到第一标签数据。对于终端A，所有的第一标签数据可以构成第一标签数据集，可以表示为U-Aa；对于终端B，所有的第一标签数据可以构成第一标签数据集，可以表示为U-Bb。

此处，目标终端的非标签数据和目标终端的初始标签数据的相似度，可以通过曼哈顿距离、欧几里得距离、马氏距离或余弦距离等进行表征。利用该相似度，并结合目标终端的初始标签数据带有的标签，可以对目标终端的非标签数据进行标注，进而得到目标终端的非标签数据的第一标签，即得到目标终端的非标签数据及其第一标签构成的第一标签数据。

此处，可以选取相似度大于第一给定阈值的初始标签数据，并将其带有的标签作为非标签数据的第一标签，也可以选取相似度最大的初始标签数据，并将其带有的标签作为非标签数据的第一标签。第一给定阈值可以根据需要进行设定，此处不作具体限定。

然后执行步骤S2，利用目标终端的非标签数据与其他终端的初始标签数据的第一特征相似度，可以对目标终端的非标签数据进行标注，得到第二标签数据。例如，对于终端A，所有的第二标签数据可以构成第二标签数据集，可以表示为U-Ab；对于终端B，所有的第二标签数据可以构成第二标签数据集，可以表示为U-Ba。

目标终端的非标签数据和其他终端的初始标签数据的第一特征相似度，可以通过统一的特征提取模型提取的数据特征计算得到。进而，利用该第一特征相似度，并结合其他终端的初始标签数据带有的标签，可以对目标终端的非标签数据进行标注，进而得到目标终端的非标签数据的第二标签，即得到目标终端的非标签数据及其第二标签构成的第二标签数据。

此处，可以选取其他终端中第一特征相似度大于第二给定阈值的初始标签数据，并将其带有的标签作为目标终端的非标签数据的标签，也可以选取其他终端中相似度最大的初始标签数据，并将其带有的标签作为目标终端的非标签数据的标签。第二给定阈值可以与第一给定阈值相等，也可以与第一给定阈值不同，可以根据实际情况确定，此处不作具体限定。

利用目标终端的初始标签数据与其他终端的初始标签数据的第二特征相似度，可以确定第三标签数据。该第三标签数据是目标终端的初始标签数据中第二特征相似度大于预设阈值的标签数据。该预设阈值可以根据实际情况确定，此处不作具体限定。例如，对于终端A和终端B，所有的第三标签数据可以构成第三标签数据集，可以表示为L-AB。

目标终端的初始标签数据和其他终端的初始标签数据的第二特征相似度，可以通过统一的特征提取模型提取的数据特征计算得到。进而，利用该第二特征相似度，可以得到目标终端的初始标签数据与其他终端的初始标签数据中的相似数据及其带有的标签，即得到第三标签数据。

此后执行步骤S3，先将目标终端与目标服务端下其他终端进行标签对齐，标签对齐结果即目标服务器下各终端的本地数据涉及的所有标签，进而使各终端涉及的标签类别一致，如此可以保证各终端在联邦学习过程中使用统一的损失函数。

目标终端的初始标签数据、第一标签数据、第二标签数据以及第三标签数据可以共同构成新的数据集，利用该新的数据集以及标签对齐结果，即可对初始教师模型进行训练，得到目标教师模型。

例如，对于终端A，初始标签数据集L-A、第一标签数据集U-Aa、第二标签数据集U-Ab以及第三标签数据集L-AB可以组成新的数据集N-A，利用新的数据集N-A以及标签对齐结果对初始教师模型进行训练，得到目标教师模型T-A。对于终端B，初始标签数据集L-B、第一标签数据集U-Bb、第二标签数据集U-Ba以及第三标签数据集L-AB可以组成新的数据集N-B，利用新的数据集N-B以及标签对齐结果对初始教师模型进行训练，得到目标教师模型T-B。

可以理解的是，由于标签对齐结果的引入，则目标教师模型的输出项包括所有标签对应的预测结果，其中包含了目标终端的初始标签数据中本不涉及的标签对应的预测结果。由于第一标签数据集U-Bb、第二标签数据集U-Ba以及第三标签数据集L-AB的引入，可以使得到的目标教师模型的泛化能力更强。

此处，初始教师模型可以基于神经网络构建，在对初始教师模型进行训练时，可以将新的数据集中的数据输入至初始教师模型，得到初始教师模型的输出结果，利用输出结果与输入的数据带有的标签计算损失函数，并基于该损失函数对初始教师模型的结构参数进行迭代更新，直至损失函数收敛，即得到目标教师模型。

此后，可以利用目标教师模型，对目标终端的初始标签数据进行标签预测，得到目标终端的初始标签数据的软标签。此时，目标终端的初始标签数据带有的标签为硬标签hard label。例如，对于终端A，初始标签数据集L-A对应的目标教师模型T-A的输出结果L-A-soft作为初始标签数据集L-A的软标签soft label，此时新的数据集N-A无软标签；对于终端B，初始标签数据集L-B对应的目标教师模型T-B的输出结果L-B-soft作为初始标签数据集L-B的软标签soft label，此时新的数据集N-B无软标签。

最后执行步骤S4，利用目标终端的初始标签数据的软标签、初始标签数据、第一标签数据、第二标签数据以及第三标签数据，对基础模型进行本地蒸馏，得到学生模型。此处，可以进行多轮本地蒸馏，结束标志可以是蒸馏损失收敛。

例如，对于终端A，利用新的数据集N-A以及初始标签数据集L-A的硬标签hardlabel、软标签soft label，对基础模型进行本地蒸馏，可以得到学生模型S-a；对于终端B，利用新的数据集N-B以及初始标签数据集L-B的硬标签hard label、软标签soft label，对基础模型进行本地蒸馏，可以得到学生模型S-b。

此后，可以利用得到的学生模型进行联邦学习，即利用该学生模型与目标服务端进行交互，以实现联邦学习。

本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，应用于目标终端，目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布，该方法首先确定目标终端的初始标签数据以及非标签数据，并基于非标签数据与目标终端的初始标签数据的相似度，对非标签数据进行标注，得到第一标签数据；然后基于非标签数据与其他终端的初始标签数据的第一特征相似度，对非标签数据进行标注，得到第二标签数据，基于目标终端的初始标签数据与其他终端的初始标签数据的第二特征相似度，确定第三标签数据；此后，将目标终端与所述目标服务端下其他终端进行标签对齐，并基于初始标签数据、第一标签数据、第二标签数据、第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于目标教师模型，对初始标签数据进行标签预测，得到初始标签数据的软标签；最后基于初始标签数据的软标签、初始标签数据、第一标签数据、第二标签数据以及第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于学生模型进行联邦学习。该方法借助于目标终端的非标签数据与目标终端的初始标签数据的相似度、与其他终端的初始标签数据的第一特征相似度以及目标终端的初始标签数据与其他终端的初始标签数据的第二特征相似度，可以丰富初始教师模型以及基础模型的训练样本，不仅可以大大提高初始教师模型以及基础模型的训练效率，还可以使得到的目标教师模型以及学生模型的泛化能力更强，进而可以提升联邦学习得到的聚合模型的准确性。此外，该方法结合知识蒸馏以及联邦学习，可以使学生模型学习到自身完全不存在的其他终端的知识，即自身数据没有相关标签，但是能通过联邦学习学到相关知识，这是一种极端的对于数据标签的非独立同分布场景。同时该方法能够通过联邦学习使学生模型已经拥有的拟合能力更佳。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，所述第一特征相似度，基于如下步骤确定：

具体地，计算目标终端的非标签数据与其他终端的初始标签数据的第一特征相似度时，可以通过如下步骤实现：

首先，可以确定初始特征提取模型，该初始特征提取模型可以通过目标服务端下的任一终端确定，或通过公共节点确定，此处不作具体限定。该初始特征提取模型可以是卷积神经网络模型。

然后，利用该初始特征提取模型，可以提取出目标终端的非标签数据的第一特征向量。

此后，可以将初始特征提取模型中的预设结构进行差分隐私保护，得到目标特征提取模型。该预设结构可以是初始特征提取模型中的部分结构，例如可以是初始特征提取模型中的后若干层，由于差分隐私保护的引入，可以使其他终端无法还原出目标终端的非标签数据。由于仅对初始特征提取模型中的部分结构进行差分隐私保护，如此可以使不同终端计算出的特征向量相差不大。

最后，可以将目标特征提取模型发送至其他终端，其他终端则可以利用目标特征提取模型提取自身的初始标签数据的第二特征向量。同时，也可以将第一特征向量发送至其他终端，以使其他终端计算特征相似度。

目标终端接收到第二特征向量之后，可以计算第一特征向量与第二特征向量之间的相似度，该相似度即为第一特征相似度。

本发明实施例中，差分隐私保护的引入，可以使其他终端无法还原出目标终端的非标签数据，达到了数据隐私保护的目的。而且，由于仅对初始特征提取模型中的部分结构进行差分隐私保护，如此可以使不同终端计算出的特征向量相差不大，降低了差分隐私保护带来的误差。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，所述第二特征相似度，基于如下步骤确定：

具体地，计算目标终端的初始标签数据与其他终端的初始标签数据的时，可以通过如下步骤实现：

首先，可以利用初始特征提取模型，提取出目标终端的初始标签数据的第三特征向量。

此后，可以计算第三特征向量与第二特征向量之间的相似度，该相似度即为第二特征相似度。

本发明实施例中，差分隐私保护的引入，可以使其他终端无法还原出目标终端的初始标签数据，达到了数据隐私保护的目的。而且，由于仅对初始特征提取模型中的部分结构进行差分隐私保护，如此可以使不同终端计算出的特征向量相差不大，降低了差分隐私保护带来的误差。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述学生模型进行联邦学习，包括：

将所述学生模型上传至所述目标服务端；

具体地，在利用学生模型进行联邦学习时，可以先将学生模型上传至目标服务端，目标服务端则接收到归属该目标服务端的所有终端上传的学生模型进行联邦平均聚合，得到聚合模型S。联邦平均聚合的方式可以是对接收到的所有学生模型的结构参数进行加权平均。

此后，目标终端可以接收该聚合模型，该接收过程，可以是直接从目标服务端下载该聚合模型。进而，可以将聚合模型重新作为基础模型，循环进行本地蒸馏，即重新进行多轮本地蒸馏得到学生模型并上传至目标服务端，再接收目标服务端的聚合模型，执行若干次上述重复过程，直至联邦学习结束。此时，得到在目标终端可以用于标签类别预测的学生模型，以及目标服务端的聚合模型，即联邦模型。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据，包括：

具体地，在确定第一标签数据时，可以先确定目标终端的初始标签数据中与目标终端的非标签数据的相似度最大的第一相似数据。即对于终端A，找到U-A在L-A中的第一相似数据，对于终端B，找到U-B在L-B中的第一相似数据。

此后，利用第一相似数据带有的标签，对目标终端的非标签数据进行标注，得到目标终端的非标签数据对应的第一标注数据。即对于终端A，利用U-A在L-A中的第一相似数据带有的标签，对U-A进行标注，得到U-Aa；对于终端B，利用U-B在L-B中的第一相似数据带有的标签，对U-B进行标注，得到U-Ab。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，包括：

具体地，在确定第二标签数据时，可以先确定其他终端的初始标签数据中与目标终端的非标签数据的第一特征相似度最大的第二相似数据。即对于终端A，找到U-A在L-B中的第二相似数据，对于终端B，找到U-B在L-A中的第二相似数据。

此后，利用第二相似数据带有的标签，对目标终端的非标签数据进行标注，得到目标终端的非标签数据对应的第二标注数据。即对于终端A，利用U-A在L-B中的第二相似数据带有的标签，对U-A进行标注，得到U-Ab；对于终端B，利用U-B在L-A中的第二相似数据带有的标签，对U-B进行标注，得到U-Ba。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，所述基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据，包括：

具体地，在确定第三标签数据时，可以先确定第三相似数据带有的标签以及第四相似数据带有的标签，然后计算二者的标签均值。其中，第三相似数据是大于预设阈值的第二特征相似度对应的目标终端的初始标签数据，第四相似数据是大于预设阈值的第二特征相似度对应的其他终端的初始标签数据。例如，对于终端A、B，将L-A与L-B进行相似度比对，确定L-A中的第三相似数据带有的标签，以及L-B中的第四相似数据带有的标签。此后，计算标签均值，并将L-A中的第三相似数据带有的标签替换为该标签均值，将L-B中的第四相似数据带有的标签替换为该标签均值。此后，对于终端A，得到由第三相似数据及其对应的标签均值构成的第三标签数据，对于终端B，得到由第四相似数据及其对应的标签均值构成的第三标签数据。

如图2所示，在上述实施例的基础上，本发明实施例中提供了一种面向非独立同分布场景的联邦学习蒸馏装置，应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；所述装置包括：

数据聚合模块21，用于确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；

数据标注模块22，用于将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；

标签预测模块23，用于基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；

联邦蒸馏模块24，用于基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏装置，还包括特征相似度确定模块，用于：

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏装置，所述特征相似度确定模块还用于：

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏装置，所述联邦蒸馏模块，具体用于：

将所述学生模型上传至所述目标服务端；

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏装置，所述数据聚合模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏装置，所述数据标注模块，还用于：

具体地，本发明实施例中提供的面向非独立同分布场景的联邦学习蒸馏装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(Processor)310、通信接口(Communications Interface)320、存储器(Memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行上述各实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，该方法应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；该方法包括：确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，该方法应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；该方法包括：确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的面向非独立同分布场景的联邦学习蒸馏方法，该方法应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；该方法包括：确定所述目标终端的初始标签数据以及非标签数据，并基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据；基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据；将所述目标终端与所述目标服务端下其他终端进行标签对齐，并基于所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据、所述第三标签数据以及标签对齐结果，对初始教师模型进行训练，得到目标教师模型，并基于所述目标教师模型，对所述目标终端的初始标签数据进行标签预测，得到所述目标终端的初始标签数据的软标签；基于所述目标终端的初始标签数据的软标签、所述目标终端的初始标签数据、所述第一标签数据、所述第二标签数据以及所述第三标签数据，对基础模型进行本地蒸馏，得到学生模型，并基于所述学生模型进行联邦学习。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；所述方法包括：

2.根据权利要求1所述的面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，所述第一特征相似度，基于如下步骤确定：

3.根据权利要求2所述的面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，所述第二特征相似度，基于如下步骤确定：

4.根据权利要求1-3中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，所述基于所述学生模型进行联邦学习，包括：

将所述学生模型上传至所述目标服务端；

5.根据权利要求1-3中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，所述基于所述非标签数据与所述目标终端的初始标签数据的相似度，对所述非标签数据进行标注，得到第一标签数据，包括：

6.根据权利要求1-3中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，所述基于所述非标签数据与所述其他终端的初始标签数据的第一特征相似度，对所述非标签数据进行标注，得到第二标签数据，包括：

7.根据权利要求1-3中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法，其特征在于，所述基于所述目标终端的初始标签数据与所述其他终端的初始标签数据的第二特征相似度，确定第三标签数据，包括：

8.一种面向非独立同分布场景的联邦学习蒸馏装置，其特征在于，应用于目标终端，所述目标终端归属的目标服务端下各终端的数据和/或标签满足非独立同分布；所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的面向非独立同分布场景的联邦学习蒸馏方法。