CN115577797A

CN115577797A - 一种基于本地噪声感知的联邦学习优化方法及系统

Info

Publication number: CN115577797A
Application number: CN202211273252.2A
Authority: CN
Inventors: 张竞慧; 吕丁阳; 东方
Original assignee: Southeast University; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Southeast University; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-06
Anticipated expiration: 2042-10-18
Also published as: CN115577797B

Abstract

本发明提供一种基于噪声感知的联邦学习优化方法及系统，解决联邦学习场景中客户端本地数据集的样本存在噪声而导致的全局模型精度下降的问题。本发明首先针对联邦学习中客户端本地数据集的样本噪声现象，提出使用标签冲突矩阵来表示数据噪声，然后使用标签矫正网络(LCN)拟合噪声数据集中的标签冲突概率分布，从而达到对噪声样本错误标签值的矫正效果；为了更有效的实现标签矫正网络和联邦学习模型的训练，本发明提出采用元学习的训练模式来实现同步优化；最后，本发明还提出了一种基于交叉验证的数据采样算法，从原始噪声数据集选择出一批带有相对正确标签的数据样本，从而提升LCN模型的标签矫正效果，最终提高联邦学习中训练模型的精度。

Description

一种基于本地噪声感知的联邦学习优化方法及系统

技术领域

本发明属于人工智能技术领域，涉及联邦学习技术，具体涉及一种基于本地噪声感知的联邦学习优化方法及系统。

背景技术

随着移动设备和物联网设备的普及，基于深度神经网络模型的应用取得了广泛的应用，如人脸识别、自然语言处理和推荐系统等。这些终端设备能够在网络的边缘收集大量的数据，这些数据也正是训练深度神经网络所需要的。然而，在这些应用中，由于有限的网络资源以及隐私限制，让所有终端设备向中央服务器上传数据是不现实的。联邦学习是一种机器学习的新范式，可以有效地解决上述问题。联邦学习遵循分布式架构，模型直接在终端设备上进行训练而无需上传或共享本地数据，然后将模型发送到服务器上进行聚合，得到一个全局模型。因此，终端设备的本地模型训练对联邦学习至关重要。在监督学习的情况下，本地训练过程是基于终端设备样本的特征和标签。作为本地训练程序的一部分，从预测结果和样本标签之间计算的损失中获得的梯度被用来更新模型参数。因此，准确的样本标签在联邦学习的本地模型训练中起着重要作用。

然而，在现实世界的场景中，具有完全准确标签的数据集很难获得。对大量的数据进行精准地标注是昂贵而耗时的，这些因素导致现实世界中的数据集含有噪声标签。据统计，真实数据集中的噪声样本数量占整个数据集的8％-38.5％。当用终端设备上含有噪声样本的数据集训练局部模型时，参数会根据错误标签计算的损失和梯度进行更新，这使得模型参数更新偏离了预期的方向。最终，通过联邦聚合各终端设备的局部模型得到的全局模型的收敛精度和泛化能力都会明显下降。目前解决数据样本噪声对模型训练精度影响的研究工作多数围绕在集中式训练模式展开，主要方法包括损失值矫正、样本选择、鲁棒性网络结构等。这些方式针对于集中式的噪声数据集，通过基于各种假设条件和先验知识的启发式算法提升模型训练的泛化能力和收敛精度。但是在联邦学习场景下，由于数据集分散在各个客户端以及数据的隐私保护特性，无法获知关于数据集的相关先验信息，同时由于联邦学习中客户端和服务器之间高昂的通信代价，使得以上方式无法直接应用到联邦训练模式。

申请号为2021106667517的中国发明申请公开了一种基于联邦学习的噪声标签修正方法，该方法根据全局模型参数和本地训练数据，计算指示不同类别的平均预测概率的多个本地类基准，然后通过全局模型的预测结果以及本地类基准来修正标签。该方法仅仅通过全局模型来对噪声标签进行修正，但当数据集噪声程度较大时，全局模型的质量会显著降低，无法获得准确的本地类基准，因此该方法的性能依赖于噪声较少的数据集，无法适用于更一般的场景。

发明内容

为解决上述问题，本发明提出了一种联邦学习下噪声样本感知的本地模型训练方法及系统，通过建立噪声标签冲突模型，分析样本标签的冲突过程，并且采用样本标签矫正技术对噪声样本的标签进行修正，使得标签值更接近于正确值，从而引导模型参数向正确的方向迭代更新。同时，本发明采用了交叉验证的方法，从噪声数据集中采样出标签相对正确的数据样本形成校验数据集，该数据集中标签的正确程度直接决定了标签矫正的效果。因此本发明通过有效的矫正噪声样本标签，提高了模型在各个客户端上的收敛精度。

为了达到上述目的，本发明提供如下技术方案：

一种基于本地噪声感知的联邦学习优化方法，包括如下步骤：

步骤1：设计基于标签冲突矩阵的标签矫正网络LCN，LCN网络模型基于噪声冲突矩阵，噪声冲突矩阵能够定量分析各类型噪声数据集中样本标签发生冲突的过程，用于标签的矫正，将任意噪声样本的标签向量矫正为一个软标签向量；服务器初始化联邦学习模型以及LCN模型，并设定相关参数，组织各个客户端的本地训练；

步骤2：客户端执行基于标签矫正的鲁棒性训练算法，采用元学习的训练模式，对LCN模型和联邦学习模型同步进行优化；

步骤3：客户端执行基于交叉验证的数据采样算法，采用交叉验证的方式实现从噪声数据集中选择出标签相对正确的数据样本，并且将该子集近似作为校验数据集参与LCN模型的更新；

步骤4：服务器负责聚合各客户端的模型并将聚合后的模型发送给各客户端以进行下一轮的训练，在模型收敛后，服务器将最终的模型发送给各客户端用于模型推理。

进一步的，所述步骤1中使用标签矫正网络LCN矫正标签过程包括如下步骤：

步骤1-1：LCN模型输入样本特征向量的函数表征值h(x)，以及噪声样本标签的One-hot向量；

步骤1-2：对标签向量进行Embedding操作，将其线性转换为密集向量；

步骤1-3：已经拟合数据集标签冲突概率分布的LCN模型根据以上输入对该数据样本的标签值进行矫正，最后通过LCN的Softmax层输出矫正结果，该结果是一个1*C的向量，其中每维表示属于某一类别的概率值。

进一步的，所述步骤1中设定相关参数包括：设定学习率、训练批次大小、损失函数以及优化器；并设定联邦学习的超参数。

进一步的，所述步骤2具体包括如下步骤：

步骤2-1：进行元训练模式下的内层训练，利用每轮初始主训练模型参数和初始LCN模型参数在噪声数据集上进行一轮的训练；

步骤2-2：进行元训练模式下的外层训练，利用更新后的主训练模型在校验数据集上计算损失值，利用该损失值计算出的梯度对LCN模型参数进行反向更新；

步骤2-3：最后利用更新后的LCN模型参数和主训练模型参数在噪声数据集上进行多轮的更新迭代，完成该训练轮次的本地模型更新。

进一步的，所述步骤3具体包括如下步骤：

步骤3-1：将整个噪声数据集随机划分为两个子集，将联邦训练模型深度拷贝为两个初始模型分别在两个数据子集上进行多轮的训练迭代，得到两个更新后的模型；

步骤3-2：在推断选取部分，利用更新后的模型在数据集上进行交叉验证，如果模型的推断结果与样本标签一致，则将该样本加入待选集合；

步骤3-3：最后返回两个待选集合的并集作为LCN模型更新的校验数据集。

进一步的，所述步骤4具体包括如下步骤：

步骤4-1：服务器收到各个客户端返回的联邦学习模型参数后，对这些模型参数进行聚合，聚合方法为：

其中t表示训练轮次，I表示客户端数量，D_i表示客户端i数据量大小；

步骤4-2：计算此时是否到达全局的通信轮次或达到预定的模型精度；若到达，则训练完毕，转到步骤4-3；否则，服务器将联邦学习发送至各客户端，转到步骤2，继续下一轮的训练；

步骤4-3：服务器将已经收敛的模型广播至各客户端，用于实际的应用推理。

基于本地噪声感知的联邦学习优化系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于本地噪声感知的联邦学习优化方法。

进一步的，所述计算机程序包括物理资源层、基础服务层、系统服务层、应用层。

与现有技术相比，本发明具有如下优点和有益效果：

本发明提出了一种联邦学习下噪声样本感知的本地模型训练方法，该方法使用标签冲突矩阵来反映数据集的噪声情况，通过使用标签矫正网络(LCN)拟合噪声数据集中的标签冲突概率分布，进而使用基于标签矫正的鲁棒性训练算法来训练联邦学习模型以及LCN模型。此外，该发明还使用基于交叉验证的数据采样算法来有效提升LCN的矫正效果。该方案有以下优点：

(1)准确性：通过噪声冲突矩阵可以定量分析各类型噪声数据集中样本标签发生冲突的过程，并且根据各个标签发生冲突的概率，在训练过程中对噪声样本的标签进行矫正，使得矫正后的标签值更接近于正确标签值，进一步提升模型在噪声数据集中的训练收敛精度。

(2)安全性：联邦学习基于分布式架构，在模型训练的过程中，各个终端的数据以及噪声矫正的过程都在终端本地处理，这一过程并不会使得各个终端上的隐私数据被暴露出来，从而保证了安全性。

(3)可行性。在一些研究工作中都假设校验数据集是天然存在并保存在集中式的云服务器中，但是由于正确标签的数据样本成本昂贵和不易获取，而且在联邦学习模式下客户端在每轮将主训练模型参数发送到服务器端计算损失值和梯度，然后将梯度结果传回本地进行LCN模型的反向更新，将使得通信成本大大增加。而本发明提出的基于交叉验证的数据采样算法直接在联邦学习终端本地产生校验集，节省了传输数据所需带宽，同时也充分利用了各终端的硬件性能，具有更高的可行性。

附图说明

图1为基于本地噪声感知的联邦学习优化方法原型系统示意图。

图2为标签纠正模型LCN结构框架示意图。

图3为采用元学习模式的本地模型训练流程图。

图4为基于交叉验证的数据采样流程图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

联邦学习系统的基本组成为：一台服务器、若干台终端。噪声数据存在于终端本地，噪声数据标签的矫正也发生于终端本地，而无需上传至服务器。本发明提供了基于本地噪声感知的联邦学习优化系统，系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于本地噪声感知的联邦学习优化方法。系统的整体原型结构如图1所示。整个系统从逻辑架构上分为四个层次，包括：物理资源层、基础服务层、系统服务层、应用层。其中物理资源层主要包括参与本地模型训练的客户端设备以及用于模型聚合的服务端设备。其次基础服务层主要是系统开发过程中所使用的现有技术，主要包括开发平台Pytorch，服务端与客户端的通信框架gRPC，数据信息处理的序列化框架Protobuf以及通信协议HTTP/2等，基于这些技术对系统服务层中的模块进行开发实现。然后系统服务层提供相关的关键技术服务，主要包括服务端执行模块，客户端执行模块以及通信模块，这些模块实现本文所提出的方法，即实现本地噪声感知的联邦学习优化方法。因为服务端执行模块和客户端执行模块中均会涉及到数据信息的通信过程，所以通信模块作为这两个模块的基础模块层。最后应用层主要包括该系统支持的一系列智能任务，比如通过训练图像分类模型生成图像识别器等。客户端执行模块主要包括训练控制模块和协同交互模块，其中训练控制模块实现对本地训练流程的控制，该模块实现了噪声感知的本地模型训练方法。协同交互模块用于对通信数据进行管理，同样该模块是通信模块在客户端的具体实现。

服务器和各个客户端协同的完成基于本地噪声的联邦学习优化训练，首先服务器需要进行预处理准备工作，包含以下几个步骤：

步骤一，设计标签矫正网络

步骤1-1：设计基于标签冲突矩阵的标签矫正网络LCN，其架构如图2所示。

本发明提出使用噪声冲突矩阵来表示噪声数据集中样本标签发生冲突的过程，噪声冲突矩阵中的每一个值表示每个标签被错误标记为其他标签的概率。进而提出使用标签矫正网络来拟合噪声冲突矩阵，在已知数据集的标签冲突矩阵前提下，我们可以通过标签冲突的概率值，计算出任意数据样本属于其他标签的概率，从而获得相对正确的标签，达到标签矫正的效果。对于任意噪声数据集，需要对其中的样本标签进行多次的数理统计过程，然后拟合出冲突矩阵中的各个噪声冲突概率值，并且需要随着训练轮次不断更新，以优化冲突概率的准确性。本发明将标签冲突矩阵抽象为深度神经网络结构，使用标签矫正网络(LCN)拟合噪声数据集中的标签冲突概率分布。

该LCN模型基于噪声冲突矩阵，噪声冲突矩阵可以定量分析各类型噪声数据集中样本标签发生冲突的过程，用于标签的矫正。LCN模型输入样本特征向量的函数表征值h(x)，以及噪声样本标签的One-hot向量。其次对标签向量进行Embedding操作，将其线性转换为密集向量。然后已经拟合数据集标签冲突概率分布的LCN模型根据以上输入对该数据样本的标签值进行矫正，最后通过LCN的Softmax层输出矫正结果，该结果是一个1*C的向量，其中每维表示属于某一类别的概率值。因此通过LCN模型，可以将任意噪声样本的标签向量矫正为一个软标签向量，从而降低该样本属于错误标签的概率，以及提升正确标签的概率，最终达到对噪声样本错误标签值的矫正效果。联邦学习模型的设计一般需要针对特定任务，例如一般用于图像分类的任务的卷积神经网络模型等。

步骤1-2：在联邦学习系统中，服务器初始化联邦学习模型以及LCN模型。设定学习率、训练批次大小、损失函数以及优化器；并设定联邦学习的超参数，包括服务器与客户端之间的通信总轮次、每轮中客户端的训练次数等。

步骤1-3：服务器选择并通知一定数量的客户端，将初始的联邦学习模型以及LCN模型发送给客户端，准备开始模型的训练。

步骤二，基于标签矫正的鲁棒性训练算法

客户端收到服务器的训练通知后，开始本地的模型训练，如图3所示。本发明提出了一种元学习训练算法，在训练过程对LCN模型和联邦学习训练模型同步进行优化，主要步骤如下：

步骤2-1：客户端接收服务器发送的联邦学习模型以及LCN模型后，将联邦学习模型作为内层模型，LCN模型作为外层模型。将噪声样本的标签y和特征向量的函数表征值h(x)输入到LCN模型中进行标签矫正，从而得到矫正后的软标签y^c。

步骤2-2：将数据样本的特征向量x输入到联邦训练模型w中进行预测，并得到预测结果f_w(x)。步骤2-1、2-2可并行执行。

步骤2-3：利用联邦训练模型的预测结果和LCN模型的矫正结果，计算损失函数值。该损失值从侧面反映了LCN模型的标签矫正效果，即损失值越小，说明LCN的矫正效果越好。

步骤2-4：利用该损失值得到的梯度对联邦训练模型参数w进行反向更新，实现LCN模型在训练过程中的动态优化，以提升LCN模型的标签矫正效果。至此内层训练过程结束，在该过程中利用LCN模型的矫正后软标签引导联邦学习模型参数更新，因此更新后联邦训练模型在校验数据集上的测试精度可以说明LCN模型的矫正效果。

步骤2-5：利用校验数据集D_c验证更新后联邦训练模型的精度，并计算损失值，其中(x*,y*)∈D_c。

步骤2-6：利用更新后联邦训练模型参数在D_c上损失值得到的梯度对LCN模型的反向更新，从而优化标签矫正效果。

因此客户端此时需要利用本地数据集，并使用基于交叉验证的数据采样算法生成相对不含噪声的校验集，用以更新LCN模型，以完成步骤2-5、2-6。本发明的进一步改进在于提出了基于交叉验证的数据采样算法，该算法通过数据样本采样技术，从噪声数据集中动态选取噪声比更低的样本子集，并且将该子集近似作为校验数据集参与LCN模型的更新。如图4所示，其主要步骤如下：

步骤三：基于交叉验证的数据采样算法。本发明提出了基于交叉验证的数据采样算法，主要步骤分为模型训练和推断选取两部分。

模型训练部分：

步骤3-1：模型更新前，将客户端本地的噪声数据集D随机划分为两个子数据集D₁和D₂。

步骤3-2和3-3为将联邦训练模型深度拷贝为两个初始模型，分别在两个数据子集上进行多轮的训练迭代，得到两个更新后的模型。

推断选取部分：

步骤3-4：基于交叉验证的思想，采用模型w₁(在D₁上训练得到的模型)对子数据集D₂进行推断，以及采用模型w₂(在D₂上训练得到的模型)对子数据集D₁进行推断，分别收集其中预测结果与样本标签值相同的数据样本。具体过程为利用在D₁上训练得到的模型w₁，将集合D₂作为测试集进行推断，对于D₂的每个样本(x,y)，如果模型的推断结果y^fw1与样本标签y一致，则将该样本加入待选集合S₂，对于集合D₁和模型w₂也是同样过程。

步骤3-5：将收集到的数据样本(两个待选集合的并集)归纳为校验数据集D_c。然后利用更新后联邦训练模型参数在D_c上损失值得到的梯度对LCN模型的反向更新，从而优化标签矫正效果。

客户端将更新后的联邦学习模型上传至服务器。至此该轮次的本地训练过程结束。服务器继续以下流程：

其中t表示训练轮次，I表示客户端数量，|D_i|表示客户端i数据量大小，|D|表示所有参与训练的客户端的总数据量，w表示联邦学习模型参数。该公式具体含义为：服务器对收到的模型参数句使用加权平均，每个客户端的权重为该客户端的数据量大小占总数据量的比重。

步骤4-2：服务器计算此时是否到达全局的通信轮次或达到预定的模型精度。若到达，则训练完毕，转到步骤4-3；否则，服务器将联邦学习发送至各客户端，转到步骤2-1，继续下一轮的训练。

步骤4-3：服务器将已经收敛的模型广播至各客户端，该模型可用于实际的应用推理。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于本地噪声感知的联邦学习优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于本地噪声感知的联邦学习优化方法，其特征在于，所述步骤1中使用标签矫正网络LCN矫正标签的过程包括如下步骤：

3.根据权利要求1所述的基于本地噪声感知的联邦学习优化方法，其特征在于，所述步骤1中设定相关参数包括：设定学习率、训练批次大小、损失函数以及优化器；并设定联邦学习的超参数。

4.根据权利要求1所述的基于本地噪声感知的联邦学习优化方法，其特征在于，所述步骤2具体包括如下步骤：

5.根据权利要求1所述的基于本地噪声感知的联邦学习优化方法，其特征在于，所述步骤3具体包括如下步骤：

6.根据权利要求1所述的基于本地噪声感知的联邦学习优化方法，其特征在于，所述步骤4具体包括如下步骤：

7.基于本地噪声感知的联邦学习优化系统，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于本地噪声感知的联邦学习优化方法。

8.根据权利要求7所述的基于本地噪声感知的联邦学习优化系统，其特征在于，所述计算机程序包括物理资源层、基础服务层、系统服务层、应用层。