CN113420888A

CN113420888A - 一种基于泛化域自适应的无监督联邦学习方法

Info

Publication number: CN113420888A
Application number: CN202110619751.1A
Authority: CN
Inventors: 王斌; 李港
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-21
Anticipated expiration: 2041-06-03
Also published as: CN113420888B

Abstract

本发明公开了一种基于泛化域自适应的无监督联邦学习方法，该方法包括：在联邦学习框架下，基于类别质心的分布式模型参数加权平均聚合方法；发明了特征提取、分类学习两段异步式的学习方法，在源域固定特征分类器训练特征提取，而在目标域固定特征提取器学习特征分类器；提出了基于通信轮数的数据交互方式，不需要每次训练都传递数据，而是在客户端训练多个轮数之后更新服务器上的模型参数。本发明的方法能够应用于分布式无监督场景下面向域泛化的工业互联网场景中，提高了客户端之间的通信效率，保障了用户隐私。基于质心的加权平均方式克服了客户端之间数据量不一致而导致的特征偏移情况，较好的完成了服务器端的特征汇聚，提高了目标域的类别预测准确率。

Description

一种基于泛化域自适应的无监督联邦学习方法

技术领域

本发明属于计算机科学领域，涉及一种基于泛化域自适应的无监督联邦学习方法。

背景技术

近年来，机器学习得到深入发展，一些提升机器学习性能的技术也应运而生。然而，机器学习任务通常需要大量已标记数据，尤其是对于训练深度模型来说。众所周知，对数据打标签是一项既费时又费力的工作。目前，存在各种各样的数据集，但是当一项新任务出现的时候，由于分布差异，在这些数据集上训练的模型不能对新任务有很好的效果。如何在这种源域和目标域概率分布不一致的情况下进行学习即为域自适应学习问题。

具体来说，在拥有已标记源域数据和未标记目标域数据的情况下学习目标模型就是域自适应(一般指无监督域自适应)。为了提升适应性能，即目标模型的准确率，往往系统在设计的时候不止使用一个源域。如何通过多源域的学习建立模型应用到分布式客户端中的无标签数据，得到尽可能高的准确率，是本发明的主要研究场景。因为客户端是分布式结构，要想获得一个统一的模型在各客户端都保证准确性，需要在训练过程中大量传输数据，这样会严重影响用户的隐私安全。为了保护隐私，在训练模型的过程当中，域间不能够大量传递数据。联邦学习可以在一定程度上缓解上述问题。联邦学习可以认为是一种分布式机器学习，分布式客户端间仅需要在训练阶段互相传递梯度而不是数据。但是，联邦对抗域自适应要求每个源域在每个小批量之后和目标域交换和更新模型参数，这不但降低了准确率而且也会产生很高的通信成本且容易发生隐私泄露。特别是当目标客户端(目标域)上是无标签数据，无法参与模型训练，只能被动接受训练好的模型，然后进行标签预测的情况下。如何保证在低通信量的基础上尽可能的提高域间泛化能力，保证目标域的预测准确率，是本发明主要研究问题。

本发明将包含多域模型泛化均衡在内的整个过程叫做自监督联邦域自适应，主要的步骤如下：

S1，以联邦学习的架构方式组织的分布式客户端和服务器。客户端的任务是存储数据、训练模型，服务器的任务是聚合、分发特征梯度。其中，源域客户端上都有带标签的数据，目标域上的数据没有标签。

S2，将各源域的模型参数发送到服务器端进行聚合，在进行加权平均以后再分发回各个客户端，经过多轮交互，直到定义的损失函数值最小，代表模型已经收敛。其中，本发明提出了分段式的异步训练方法。在源域上固定特征分类器，训练特征提取器，而在目标域上固定特征提取器，训练特征分类器。此外，本发明提出服务器上聚合时的加权系数为源域数据各个分类的质心。

S3，将模型参数传到目标服务器，冻结目标服务器(也称作目标域)上的特征提取器，开始用目标域上的数据训练目标域的分类器，因为是无标签数据，所以需要采用伪标签技术，直到信息最大化，训练停止。本步骤的意义是用最小的代价缩小了源域和目标域之间的特征距离，提高目标域上的信息损失，提高了预测准确率。最后，在目标域上用训练好的特征提取器和分类器预测数据的标签。

本发明的技术方案特征和改进为：

对于步骤S2，本发明提出了多域模型泛化均衡框架，它以联邦平均的机制进行源客户端 (源域)之间的模型交互。不同于常见的客户端之间交互数据、训练、计算梯度，然后更新各域模型参数的方法。当每个源域在本地训练模型时，会利用标签平滑技术提高模型的泛化能力。本发明设计的交叉熵损失函数为：

在(1)式中，

指的是K维向量a的softmax输出中第k个元素，而q是一个k维向量，除了正确标签对应的位置是“1”，其余都是“0”。为了提高模型的鉴别能力，标签平滑被应用到源模型的学习中。加入标签平滑技术之后，损失函数变成了：

其中，K代表类别数，α是平滑系数，通常设为0.1。

在每一轮通信当中，客户端多次将自己的模型发送到服务器端并用加权平均的方式进行聚合。最后服务器端将更新后的模型参数分发给每个客户端。这个过程会被执行若干次，直到模型收敛。之后得到的模型可以认为是域泛化的结果，因为此时目标域还是未知的。

对于步骤S2，本发明提出来了一种基于通信轮数的特征更新策略。一般情况下，客户端之间通信轮数越多效果越好，为了获得更好的性能，常见研究中规定服务器每次训练都需要传递一次参数。然而，无限制增加通信轮数不但使得准确率的提升越来越不明显，而且通信成本也会同比例上升，因此通信轮数r的设置非常关键，这关系到客户端之间传递数据量的大小，即整个系统的执行效率。鉴于以上分析，本发明规定每次迭代聚合r次模型(r∈R&r ≤1)。为了执行r轮聚合，可以将每次迭代平均分成r个阶段，每个阶段结束后聚合模型。 r＝0.2表示每5次迭代聚合一次；r＝1表示每一次迭代聚合一次。

对于步骤2，本发明还提出来了一种基于质心的源域模型参数加权策略。已有无监督域自适应方法通常采用的是基于数据集大小的加权策略，但是此方法受到数据集影响太大，无法保证小数据集在特征聚集时所占的比重。本发明提出的加权策略定义如下：

假设现在已经拥有K个源域所上传的源模型{w¹，w²，…，w^K}。将它们直接进行平均得到一个初步模型w⁰：

接着，把w⁰分发到目标域和每个源域，让它们按照下文中计算质心的方法计算并返回各个类别的质心。此时，假定类别数为L，则每个源域的质心为

目标域的质心为

每个域上传的一组质心的大小只与类别数和特征向量的大小有关，而这两者相对于模型来说是很小的。由此可见，这个过程几乎不会对通信效率造成影响。然后，计算每个源域的质心和目标域对应质心的余弦相似度并求和：

因为余弦相似度的取值范围是[-1，1]，为了让sum^k非负，最终的和值为：

sum^k＝sum^k+L (6)

最后，利用这个和值来计算权重：

至此，通过获得的权重就可以重新聚合各个源模型了。

对于步骤S3，本文提出来了在训练目标域时，先用训练好的源模型初始化目标模型，然后冻结特征提取器(在训练时参数不更新)，开始训练目标模型的分类器。值得一提的是，已有算法在训练目标模型时固定的是分类器，只训练了特征提取器。而本发明采用的是固定特征提取器，只训练目标域上的分类器。

目标模型训练的损失函数由两部分构成，即信息最大化损失和伪标签交叉熵损失。

(1)信息最大化

理想的概率向量输出应该和one-hot编码相似，但是不同类别样本的概率向量又彼此不同。因此，本发明应用信息最大化损失让概率最大标签的概率尽量大(预测结果的个别确定性) 的同时使预测出来的每种类别的标签在数量上基本相同(预测结果的全局多样性)。IM损失又由L_ent和L_div两部分组成：

其中，f_t(x)＝h_t(gt(x))是每个目标样本的K维输出，g_T表示特征提取器，h_t表示分类器，

是整个目标域概率向量的按元素运算的均值。L_ent(f_t；X_t)是让每个样本的预测结果更加确定；L_div(f_t；X_t)是促进概率向量输出的多样性。

(2)伪标签

单纯使用IM损失，可能会让模型朝着错误的方向发展。这种消极的影响来自于不准确的网络输出。例如：一个来自第一类的目标域样本，它经过网络后得到的概率向量为[0.34，0.36，0.1，0.1，0.1]，那么它可能被迫有一个这样的预期输出[0.0，1.0，0.0，0.00.0]。为了缓解这个影响，需要对每个未标记数据应用伪标签来更好地监督分类器的训练。在这里，本发明应用了自监督伪标签策略来减少这种不利因素带来的影响。

首先，通过以下公式得到目标域中每个类的质心：

这些质心可以稳定和更可靠地表征目标域内不同类别的分布。然后，利用最近质心分类器得到每个样本的伪标签：

D_f(a，b)测量的是a，b之间的Cosine距离。具体形式为：

通过以下公式，采用迭代的方式，不断更新目标质心：

因为

是通过由无监督方式产生的质心生成的，

被称为自监督伪标签。实际操作中，上式会反复执行多次，即质心和伪标签会被更新多轮。然而，更新一次通常就能得到足够好的伪标签。值得一提的是，实际计算中会在特征向量上加一维非零数(例如1)，以免除零错误发生。

综上所述，给定源模型f_s(x)＝h_s(g_s(x))和上面的伪标签，本发明会固定特征提取器 g_t＝g_s而去学习分类器h_t，总的目标域的损失函数如下：

其中，β大于等于0，用来控制伪标签交叉熵损失的权重。

算法最终只产生一个结果模型，且源模型和目标模型的训练完全分离。两步操作解耦之后，效率有本质上的提高。

附图说明

图1为本发明中基于泛化域自适应的无监督联邦学习方法的流程图。

图2为本发明中多域模型泛化均衡模型数据交互流程示意图。

图3为本发明中分段式的异步训练方法流程示意图

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

一种基于泛化域自适应的无监督联邦学习方法，如图1所示，为本发明的一种基于泛化域自适应的无监督联邦学习方法的流程图，该方法包含：

S1，以联邦学习的架构方式组织的分布式客户端和服务器，如图2所示。源域和目标域 (客户端)的任务是存储数据、训练模型，服务器的任务是聚合、分发特征梯度。其中，源域客户端上都有带标签的数据，目标域上的数据没有标签。

S2，将各源域的模型参数发送到服务器端进行聚合，在进行加权平均以后再分发回各个客户端，经过多轮交互，直到定义的损失函数值最小，代表模型已经收敛。流程如图3所示。其中，本发明提出了分段式的异步训练方法。在源域上固定特征分类器，训练特征提取器，而在目标域上固定特征提取器，训练特征分类器。此外，本发明提出服务器上聚合时的加权系数为源域数据各个分类的质心，这有别于根据数量决定权重而忽略特征散度的常见做法。

S3，将模型参数传到目标服务器，冻结目标服务器(也称作目标域)上的特征提取器。开始用目标域上的数据训练分类器，因为是无标签数据，采用伪标签技术生成标签。计算目标域的质心，进行模型参数训练，直到信息最大化。具体流程见图2。本步骤的意义是用最小的代价缩小了源域和目标域之间的特征距离，提高目标域上的信息损失，提高了预测准确率。最后，在目标域上用训练好的特征提取器和分类器预测数据的标签。

综上所述，本发明的基于泛化域自适应的无监督联邦学习方法适用于需要进行特征迁移的工业互联网场景中，并对互联网中客户端间的信息交互，建立了一套专门针对域自适应问题的自监督联邦学习方法，适用于多个人工智能领域，具有广泛的应用场景。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于泛化域自适应的无监督联邦学习方法，其特征及具体步骤如下：

S3，将模型参数传到目标服务器，冻结目标服务器(也称作目标域)上的特征提取器，开始用目标域上的数据训练目标域的分类器，因为是无标签数据，所以需要采用伪标签技术创建伪标签，进行训练直到信息最大化。本步骤的意义是用最小的代价缩小了源域和目标域之间的特征距离，减少了目标域上的信息损失，提高了预测准确率。最后，在目标域上用训练好的特征提取器和分类器预测数据的标签。

2.根据权利要求1所述的一种基于泛化域自适应的无监督联邦学习方法，其特征在于，对于步骤S2，本发明提出了多域模型泛化均衡框架，它以联邦平均的机制进行源客户端(源域)之间的模型参数交互。这样的数据交互方式不同于常见的客户端之间交互数据、训练、计算梯度，然后更新各域模型参数的方法，具有速度快、数据隐私保护好的优点。

当每个源域在本地训练模型时，会利用标签平滑技术提高模型的泛化能力。本发明设计的交叉熵损失函数为：

在(1)式中，

其中，K代表类别数，α是平滑系数，通常设为0.1。

在每一轮通信当中，客户端将各自的模型发送到服务器端并用加权平均的方式进行聚合。最后服务器端将更新后的模型参数分发给每个客户端。这个过程会被执行若干次，直到模型收敛。之后得到的模型可以认为是域泛化的结果，因为此时目标域还是未知的。

3.根据权利要求1所述的一种基于泛化域自适应的无监督联邦学习方法，其特征在于，对于步骤S2，本发明提出来了一种基于通信轮数的特征更新策略。一般情况下，客户端之间通信轮数越多效果越好，为了获得更好的性能，常见研究中规定服务器每次训练都需要传递一次参数。然而，无限制增加通信轮数不但使得准确率的提升越来越不明显，而且通信成本也会同比例上升，因此通信轮数r的设置非常关键，这关系到客户端之间传递数据量的大小，即整个系统的执行效率。鉴于以上分析，本发明规定每次迭代聚合r次模型(r∈R&r≤1)。为了执行r轮聚合，可以将每次迭代平均分成r个阶段，每个阶段结束后聚合模型。r＝0.2表示每5次迭代聚合一次；r＝1表示每一次迭代聚合一次。

4.根据权利要求1所述的一种基于泛化域自适应的无监督联邦学习方法，其特征在于，对于步骤S2，本发明提出来了一种基于质心的源域模型参数加权策略。已有无监督域自适应方法通常采用的是基于数据集大小的加权策略，但是此方法受到数据集影响太大，无法保证小数据集在特征聚集时所占的比重。本发明提出的加权策略定义如下：

目标域的质心为

sum^k＝sum^k+L (6)

最后，利用这个和值来计算权重：

至此，通过获得的权重就可以重新聚合各个源模型了。

5.根据权利要求1所述的一种基于泛化域自适应的无监督联邦学习方法，其特征在于，对于步骤S3，在训练目标域时，本发明先用训练好的源模型初始化目标模型，然后冻结特征提取器(在训练时参数不更新)，开始训练目标模型的分类器。值得一提的是，已有算法在训练目标模型时固定的是分类器，只训练了特征提取器。而本发明采用的是固定特征提取器，训练目标模型针对目标域的分类器。

(1)信息最大化

理想的概率向量输出应该和one-hot编码相似，但是不同类别样本的概率向量又彼此不同。因此，本发明应用信息最大化损失让概率最大标签的概率尽量大(预测结果的个别确定性)的同时使预测出来的每种类别的标签在数量上基本相同(预测结果的全局多样性)。

IM损失又由L_ent和L_div两部分组成：