CN117216566B

CN117216566B - 一种基于局部-全局伪标记的联邦半监督学习方法

Info

Publication number: CN117216566B
Application number: CN202311189197.3A
Authority: CN
Inventors: 储节磊; 赵晴; 李天瑞; 吕凤毛
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-04-09
Anticipated expiration: 2043-09-14
Also published as: CN117216566A

Abstract

本发明公开了一种基于局部‑全局伪标记的联邦半监督学习方法，步骤S1、在通信轮次t开始时，服务器将全局模型参数传输到活动客户端；每个客户端在接收到参数后再利用全局模型和上一轮通信轮次t‑1中训练得到的本地模型在未标记数据的弱增强视图上生成伪标签，并将其作为本地训练强增强视图的目标用于优化交叉熵损失；S2、本地训练结束后每个客户端将本地模型的参数发回到服务器，服务器聚合这些参数并对其进行微调，最后得到一个新的全局模型上述交替训练过程重复多次至全局模型收敛后结束。

Description

一种基于局部-全局伪标记的联邦半监督学习方法

技术领域

本发明涉及人工智能技术领域，尤其是一种基于局部-全局伪标记的联邦半监督学习方法。

背景技术

联邦学习作为一种分布式解决方案最近引起了广泛的研究关注，它允许多个参与客户端协作学习一个全局模型，而无需共享自己的私有数据。联邦学习现有的成果主要集中在有监督的环境中，即每个客户端都有完全标记的数据。然而在现实场景中，由于注释成本高或专业知识不足，大多数客户端可能没有足够的真实标签数据，而且必须注意的是，有些客户端可能拥有完全未标注的数据(例如，医院病人的医疗数据)。因此，有学者提出了联邦半监督学习范式，它通过利用客户端存在的大量未标记数据来增强全局模型的性能。根据标记数据在客户端和服务器之间的分布情况，可以将联邦半监督学习分为以下三大类：Ⅰ)Labels-at-client，该场景中客户端拥有由标记数据和未标记数据组成的混合数据集；Ⅱ)Labels-at-server，该场景中客户端包含一个未标记的数据集，而服务器则包含一个标记数据集；Ⅲ)Labels-at-Partial-Client，该场景中一部分客户端具有标记数据集，而其余客户端则具有未标记数据的数据集。

目前，联邦半监督学习领域内的通用框架是FedMatch，它涵盖了联邦半监学习场景中的前两类。FedMatch使用伪标记的方法为无标签数据生成伪标签从而利用每个客户端的未标记数据集。然而，在伪标签的生成过程中它依赖来自其它客户端的辅助模型，这就带来了潜在的隐私泄露风险，这一点与联邦学习的隐私保护性背道而驰。其次，在每一轮通信开始前，服务器都需要将H个辅助模型发送给每个活动的客户端，这极大地增加了通信的开销，降低了全局模型的收敛速度。最后，它是为每一个批次中的未标记训练数据生成伪标签，该做法会导致模型遗忘从标记数据中学习到的知识，虽然参数分解机制能够缓解该问题，但不能从根本上解决它。

SemiFL是Labels-at-server场景下一个效果较好的解决方案。它首次提出了“使用标记数据微调全局模型”和“使用全局模型生成伪标签”的交替训练方式。SemiFL同样使用伪标记法利用未标记数据，但是它为无标签数据生成伪标签时仅使用了全局模型而忽略了本地模型。当本地客户端的数据分布与服务器的差异较大时，生成的伪标签可能包含大量噪声，从而导致严重的确认偏差现象而降低全局模型的性能。尤其是标记数据量较少时，该问题会进一步加剧。

发明内容

针对当前联邦半监督学习方法存在的导致潜在信息泄漏，只使用全局模型来生成伪标签等缺陷，本发明提供一种基于局部-全局伪标记的联邦半监督学习方法。

本发明提供的基于局部-全局伪标记的联邦半监督学习方法，从客户端和服务器之间数据分布差异的角度出发，在不共享任何敏感信息的情况下，提出了一种名为FedLGMatch的新型联邦半监督学习框架。直观的理解是，与全局模型相比，本地模型捕捉本地数据独特特征的能力更强。因此，在为未标记数据生成伪标签时，自然会想到使用在每个客户端训练的本地模型来辅助全局模型。

本发明提供的基于局部-全局伪标记的联邦半监督学习方法，包括以下两个步骤：

S1、在通信轮次t开始时，服务器将全局模型参数传输到活动客户端；每个客户端在接收到参数后再利用全局模型/>和上一轮通信轮次t-1中训练得到的本地模型/>在未标记数据的弱增强视图/>上生成伪标签，并将其作为本地训练强增强视图的目标用于优化交叉熵损失。

S2、本地训练结束后，每个客户端将本地模型的参数发回到服务器，服务器首先聚合这些参数，然后利用标记数据集对其进行微调，最后得到一个新的全局模型/>

上述交替训练过程重复多次至全局模型收敛后结束。

所述步骤S1中，生成伪标签的方法如下：

对于客户端C_u的未标记数据集使用公式(1)和(2)一次性标记数据集内所有数据，并通过下列公式(3)的方式构建一个固定的伪标记数据集/>

式中，I(·)是一个指示函数，DA_w是弱数据增强操作，x^u是未标记数据，是通信轮次t中全局模型的参数，F(·)是一个基于卷积神经网络的编码器，τ是置信度阈值；/>是上一轮通信轮次t-1中训练得到的本地模型参数，L是未标记数据集中的类别总数。

如果数据集为空，则该客户端的训练过程将直接被跳过；否则，则从数据集D^u中随机采样一个与/>等大小的数据集/>用于辅助训练，其定义如下：

其中，是生成的伪标签，/>是数据集/>的大小。

在客户端的本地训练过程中，数据集和/>被随机划分为大小为B_u的小批次数据。

对于伪标记数据集定义如下训练目标：

其中，CE表示交叉熵损失，DA_s是一种强数据增强操作。

从数据集和/>被划分的小批次数据中分别采样一对样本/>和/>然后利用线性插值方法构建一对新的样本：

其中Beta(·)表示Beta分布，α是其对应的超参数；λ是Beta分布生成的一个数值，代表插值方法构造出的新数据，i表示索引下标，u是unlabeled缩写，代表未标记的数据。

对于插值数据定义如下训练目标：

未标记客户端上总的训练目标如下所示：

其中λ_m是决定相对权重的超参数。

所述步骤S2中，完成本地训练后并将参数发送给服务器时，首先通过聚合本地参数，然后使用标记数据集/>对其进行微调，该过程的目标函数如下：

其中，B_l是标记数据集的批次大小；均代表标签数据以及对应的标签，i表示索引下标，l是labeled的缩写，代表标记数据；最终得到一个新的全局模型/>

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于局部-全局伪标记的联邦半监督学习方法。

本发明还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述的基于局部-全局伪标记的联邦半监督学习方法。

现有技术相比，本发明的有益之处在于：

(1)本发明从客户端和服务器之间数据分布差异的角度出发，在不共享任何敏感信息的情况下，提出了一种基于局部-全局伪标记的联邦半监督学习方法。使用“局部-全局”伪标记方法在客户端为无标签数据生成伪标签，它在生成伪标签的过程中同时考虑了全局模型和本地模型的输出。凭借“局部-全局”伪标记方法成功地在Non-IID设置下的未标记客户端上强调了更纯净的伪标签学习。

(2)本发明的基于局部-全局伪标记的联邦半监督学习方法，可以用于阿尔茨海默症早期预。该方法不仅能够用于发现分布式阿尔茨海默症医疗大数据的动态关联关系，而且可以解决分布式医疗大数据的数据异构、标签样本稀少、孤立私密等问题。为跨域阿尔茨海默症医疗大数据环境下，构建多粒度多模态融合的联邦半监督学习计算模型和框架提供理论依据，提高阿尔茨海默症早期预测的准确性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1、本发明的基于局部-全局伪标记的联邦半监督学习方法整体框架。

图2、现有伪标记方法(a)和本发明的“局部-全局”伪标记方法(b)的对比图。

图3、本发明的FedLGMatch和现有的SemiFL之间伪标签数量和质量的对比图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明的基于局部-全局伪标记的联邦半监督学习方法整体框架如图1所示。它包含以下两个步骤：

(1)在通信轮次t开始时，服务器将全局模型参数传输到活动客户端。每个客户端在接收到参数后再利用全局模型/>和上一轮通信轮次t-1中训练得到的本地模型/>在未标记数据的弱增强视图/>上生成伪标签，并将其作为本地训练强增强视图/>的目标用于优化交叉熵损失。

(2)本地训练结束后，每个客户端将本地模型的参数发回到服务器，服务器首先聚合这些参数，然后利用标记数据集对其进行微调，最后得到一个新的全局模型/>

上述过程重复一定迭代次数至全局模型收敛时结束。

以下对本发明的方法进行具体描述。

目前许多关于联邦半监督学习的工作都采用了集中式半监督学习中的基于批次的伪标记方法在未标记的客户端生成伪标签，这种方法通常还使用一个较高的预定义阈值来过滤掉噪声数据。上述做法在服务器与未标记客户端共享一个数据分布时有较好的效果，然而，当为标记客户端的数据分布和服务器端的差异较大时，这种方法生成的伪标签会包含大量的噪声数据，使得模型的训练受到错误标签信息的引导，并且这一过程可能还会在后续的训练中得到累加(即确认偏差现象)，最终使全局模型的性能急剧下降。为了解决上述问题，本发明提出使用“局部-全局”伪标记方法在客户端为无标签数据生成伪标签，它在生成伪标签的过程中同时考虑了全局模型和本地模型的输出。此外，为了解决知识遗忘问题，本发明采用了固定的伪标记方法而不是基于批次的伪标记方法。图2是现有技术的伪标记方法(a)和本发明的“局部-全局”伪标记方法(b)的对比图。

本发明的生成伪标签的方法如下：

式中，I(·)是一个指示函数，DA_w是弱数据增强操作(通常是旋转、裁剪等变换)，x^u是未标记数据，是通信轮次t中全局模型的参数，F(·)是一个基于卷积神经网络的编码器，τ是置信度阈值；/>是上一轮通信轮次t-1中训练得到的本地模型参数，L是未标记数据集中的类别总数。

其中，是生成的伪标签，/>是数据集/>的大小。

对于伪标记数据集定义如下训练目标：

其中，CE#表示交叉熵损失，DA_s是一种强数据增强操作，例如，现有的RandAugment数据增强方法。

除此之外，本发明从数据集和/>被划分的小批次数据中分别采样一对样本和/>然后利用线性插值方法构建一对新的样本：

其中Brta(·)表示Beta分布，α是其对应的超参数。

对于插值数据定义如下训练目标：

最后，未标记客户端上总的训练目标可以被总结为如下形式：

其中λ_m是决定相对权重的超参数。

其中，B_l是标记数据集的批次大小；最终得到一个新的全局模型上述交替训练过程重复多次至全局模型收敛后结束。

性能测试：

将本发明的基于局部-全局伪标记的联邦半监督学习方法(FedLGMatch)与现有的FedMatch和SemiFL方法进行对比测试性能。这三种方法在数据集SVHN、CIFAR-10和CIFAR-100上使用不同设置以及不同标签数量运行4次的性能结果见表1。

表1、本发明的联邦半监督学习方法(FedLGMatch)与FedMatch和SemiFL方法性能测试结果

注：表1中，Non-IID是Not identically and independently distributed的缩写，即非独立同分布，表示客户端和服务器的数据分布是不一致的，Dir(·)是用于采样数据的迪利克雷分布，其参数越小表示客户端与服务器数据分布差异越大。IID是identically and independently distributed的缩写，即独立同分布，表示客户端和服务器共享同一个数据分布。Non-IID，K＝2表示每个客户端只具有全部类别中最多两个类别的数据，而服务器端拥有全部类别的数据。表中FedMatch和SemiFL是对比方法，FedLGMatch是本发明提出的方法。结果采用了“均值±方差”的形式展现，黑色加粗的是最优结果，下划线的是次优结果。

从表1中可以看出，除了CIFAR-100数据集之外，FedLGMatch在三个基准测试中显著超越了它对比方法，其中SemiFL在某些情况下表现稍好一些。本发明人发现，在大多数情况下，FedLGMatch在Non-IID设置下具有更好的性能，特别是当本地客户端数据分布与服务器存在较大差异。例如，在Non-IID,K＝2设置下，本发明方法在SVHN和CIFAR-10数据集上每类仅使用25个标签的测试准确率分别达到90.08％和64.76％，比SemiFL准确率提高了2.58％和4.76％。除此之外，本发明方法从以下角度进一步研究了FedLGMatch的伪标签的数量和质量(见图3)：未标记数据的利用率(Mask Rate)、伪标记数据集的伪标签准确性(Mask Accuracy)、未标记数据整体的伪标签准确率(Pseudo-label Accuracy)。并且在CIFAR-10数据集上使用250个标签分别在IID和Non-IID,K＝2的设置下进行了实验与SemiFL进行对比，结果显示，FedLGMatch在Non-IID设置下比SemiFL具有更好的伪标签数量和质量，以及在IID设置下的表现和SemiFL相近。这进一步表明，FedLGMatch凭借“局部-全局”伪标记方法成功地在Non-IID设置下的未标记客户端上强调了更纯净的伪标签学习。

应用案例

在当前人口老龄化社会中，阿尔茨海默症(AD)是最严峻的致残性疾病。截止目前，还没有针对阿尔茨海默症的有效治疗方法，早期发现和及时干预可以有效缓解甚至避免患者转入到不可逆阶段，因此阿尔茨海默症早期发现的准确性尤为关键。利用先进的机器学习方法，可以在一定程度上提高阿尔茨海默症早期预测的准确性。然而，当前医疗机构的内部数据具有高度的保密性与敏感性，形成一个个私密的“医疗数据孤岛”，传统数据集中模式的机器学习方法难以发挥更大的作用。因此，如何解决分布式阿尔茨海默症医疗大数据的安全隐私保护，实现隐私敏感数据不出本地医疗机构，成为当前智慧医疗从理论研究走向临床应用的关键，由此也带来了一些瓶颈问题。

分布式阿尔茨海默症医疗大数据具有孤立私密性、数据异构和标签样本稀缺等特点，传统数据集中式的机器学习方法难以应用于孤立私密性的分布式医疗大数据分析。如何针对分布式阿尔茨海默症医疗大数据的孤立私密性、标签样本稀缺性、数据异构性进行深入分析，构建微量标签信息引导的隐私保护数据分析模型，成为当前阿尔茨海默症医疗大数据处理的关键核心问题之一。联邦学习作为保护数据隐私前提下解决“数据孤岛”的新兴机器学习基础方法，在原始数据不出域的情况下，保障计算结点交换信息的安全，保护终端数据和个人数据隐私，在多参与方或多计算结点之间开展高效率的联合机器学习，在不分享隐私数据的前提下共同建立共享模型，同时也有效解决单一用户训练数据不足问题，具有强大安全的分布式协同学习能力。半监督学习能够在标签样本大量缺失的情景下，利用微量标签信息和无标签数据提升模型学习能力。

本发明的方法将半监督学习方法深度融合到联邦学习方法和框架中，不仅能够用于发现分布式阿尔茨海默症医疗大数据的动态关联关系，而且可以解决分布式医疗大数据的数据异构、标签样本稀少、孤立私密等问题。为跨域阿尔茨海默症医疗大数据环境下，构建多粒度多模态融合的联邦半监督学习计算模型和框架提供理论依据。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于局部-全局伪标记的联邦半监督学习方法，其特征在于，包括以下两个步骤：

S1、在通信轮次t开始时，服务器将全局模型参数传输到活动客户端；每个客户端在接收到参数后再利用全局模型/>和上一轮通信轮次t-1中训练得到的本地模型/>在未标记数据的弱增强视图/>上生成伪标签，并将其作为本地训练强增强视图的目标用于优化交叉熵损失；

其中，生成伪标签的方法如下：

式中，I(·)是一个指示函数，DA_w是弱数据增强操作，x^u是未标记数据，是通信轮次t中全局模型的参数，F(·)是一个基于卷积神经网络的编码器，/>是置信度阈值；/>是上一轮通信轮次t-1中训练得到的本地模型参数，L是未标记数据集中的类别总数；

其中，是生成的伪标签，/>是数据集/>的大小；

在客户端的本地训练过程中，数据集和/>被随机划分为大小为B_u的小批次数据；

其中，Beta(·)表示Beta分布，α是其对应的超参数；λ是Beta分布生成的一个数值，代表插值方法构造出的新数据，i表示索引下标，u是unlabeled缩写，代表未标记的数据；

对于插值数据定义如下训练目标：

对于伪标记数据集定义如下训练目标：

其中，CE表示交叉熵损失，DA_s是一种强数据增强操作；

未标记客户端上总的训练目标如下所示：

其中λ_m是决定相对权重的超参数；

上述交替训练过程重复多次至全局模型收敛后结束。

2.如权利要求1所述的基于局部-全局伪标记的联邦半监督学习方法，其特征在于，步骤S2中，完成本地训练后并将参数发送给服务器时，首先通过/>聚合本地参数，然后使用标记数据集/>对其进行微调，该过程的目标函数如下：

其中，B_l是标记数据集的批次大小；均代表标签数据以及对应的标签，i表示索引下标，l是labeled的缩写，代表标记数据，最终得到一个新的全局模型/>

3.如权利要求1所述的基于局部-全局伪标记的联邦半监督学习方法，其特征在于，用于阿尔茨海默症早期预测。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1或2所述方法。

5.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1或2所述方法。