CN114997374A

CN114997374A - 一种针对数据倾斜的快速高效联邦学习方法

Info

Publication number: CN114997374A
Application number: CN202210671622.1A
Authority: CN
Inventors: 彭红艳; 吴彤彤; 石贞奎; 李先贤
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-02

Abstract

本发明公开一种针对数据倾斜的快速高效联邦学习方法，提出了一种针对训练数据Non‑IID情况下的标签倾斜和特征倾斜问题的联邦模型框架，当训练数据集中存在较为严重的标签倾斜及特征倾斜问题时，会通过动态选择高质量的客户端参与训练以缓解标签分布倾斜问题，并在客户端本地模型中加入批量归一化(Batch Normalization，BN)层，以缓解特征倾斜问题，这大幅度的降低了数据异构性对模型性能的影响，有效提高模型收敛速度和精度，在保护数据隐私的同时也实现了模型个性化设计。

Description

一种针对数据倾斜的快速高效联邦学习方法

技术领域

本发明涉及联邦学习技术领域，具体涉及一种针对数据倾斜的快速高效联邦学习方法。

背景技术

随着互联网技术的不断发展，越来越多人开始担心隐私数据泄露的问题，并且随着多国相继颁布数据隐私安全条例，之前在机器学习领域广泛使用的集中式学习由于存在隐私泄露的风险已经不适用多方安全计算领域。2016年谷歌提出联邦学习(FederatedLearning)的分布式框架，用于多个参与方(客户端)在私有数据保留在本地的情况下协作训练一个机器学习模型，目前已经得到广泛的关注。

在标准的联邦学习框架FedAvg中，每轮更新是从当前所有客户端中选择一个随机的客户端子集参与训练，被选择的客户端利用本地数据进行训练后将更新结果上传到服务器，服务器聚合这些更新结果，并将本轮更新的全局模型下发给所有参与者，继续重复此过程直至模型收敛。但是标准的联邦学习方法FedAvg并不是针对非独立同分布(Non-IID)数据设计的，如果部署在Non-IID样本上会导致模型性能下降。因此，联邦学习中一个主要的挑战是，标签倾斜和特征倾斜。标签倾斜是指不同客户端的数据可能具有不同的来源和各自的偏好，不同的客户端之间数据标签分布极度不均衡的现象。例如在医学诊断任务中，由于不同医院的优势专业不同，因此不同医院不同疾病的患者数量差异很大，这样将造成不同医院(客户端)的数据的疾病类型(标签)存在不均衡的现象。特征倾斜是指不同客户端的数据即使属于同一标签，但仍然有不同的表现形式，其数据在特征空间的分布上也存在偏差的现象。例如不同的客户端使用不同的成像设备，导致同一类型的图片影像外观仍然可能存在较大差异，进而使得数据在特征空间的分布上存在偏差的现象。对于联邦学习方法来说，客户端之间的数据分布差异越大，会使客户端更新的本地模型差异越大，这可能会严重影响联邦学习的全局模型聚合效果。虽然人们花了很多精力优化联邦模型使存在Non-IID数据时模型保持收敛，但是数据标签倾斜及特征倾斜的问题依然没有得到充分的解决，这将极大的影响模型的精度及性能。因此，如何在不访问多个参与方的本地数据集和训练过程的情况下，为联邦学习任务选择一组高质量的客户端及样本数据以解决标签倾斜，并同时降低因特征倾斜对模型精度的影响，是需要解决的问题。

目前，有一些试图在Non-IID数据下进行模型优化的方法，如Fraboni等人利用聚类抽样技术进行无偏客户抽样，提出了基于样本数量和基于相似性的两种聚合抽样方法，并通过实验证明，采用聚类抽样的方法进行节点选择可以使聚合模型在训练和测试时取得更快更平滑的收敛性。Li等人通过在联邦学习框架中加入近端项，缓解了数据异构性，提高了全局模型收敛的稳定性。Diao等人提出本地模型与全局模型具有不同的架构的联邦学习框架，以训练具有不同计算复杂性的异构本地模型。Fernando等人提出利用生成增强来弥补少数群体样本的不足的方法，增加少数派的样本，直到与多数派达到平衡为止，从而纠正类平衡问题。但是现有的联邦学习方法并没有充分考虑各个客户端数据集中类别分布不均衡以及样本数据存在特征倾斜的混合非独立同分布问题，如何在保证模型精度与模型训练收敛速度的同时，降低标签分布倾斜及特征倾斜对联邦学习效果的影响，仍需进一步探索和研究。

发明内容

本发明所要解决的是多方参与的联邦学习任务中存在的客户端标签分布倾斜及特征倾斜的问题，提供一种针对数据倾斜的快速高效联邦学习方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种针对数据倾斜的快速高效联邦学习方法，包括步骤如下：

步骤1、每个客户端通过在卷积神经网络的每个卷积层和每个全连接层之后均增加一批量归一化层来构建本地改进卷积神经网络模型；

步骤2、服务器计算每个客户端的本地数据集的本地标签集与联邦任务标签集的交集，如果该交集中的标签所对应的本地数据的条数大于目标模型所需的最小训练样本数量，则认为该交集所对应的客户端为相关客户端；

步骤3、服务器从相关客户端中筛选出参与每轮联邦学习训练的相关客户端；

在筛选参与首轮联邦学习训练的相关客户端时，服务器基于相关客户端的被选择概率选择被选择概率大的相关客户端作为参与首轮训练的相关客户端；

在筛选参与非首轮联邦学习训练的相关客户端时，服务器基于相关客户端的参数向量偏差选择参数向量偏差大的相关客户端作为参与非首轮联邦学习训练的相关客户端；

步骤4、每个客户端利用本地数据集对本地改进卷积神经网络模型进行训练，得到本轮本地模型参数向量；其中本轮本地模型参数向量包括本轮本地批量归一化层参数向量和本轮本地其他层即非批量归一化层参数向量；

步骤5、参与本轮联邦学习训练的相关客户端将本轮本地非批量归一化层参数向量上传至服务器；服务器将所有参与本轮联邦学习训练的相关客户端上传的本轮本地非批量归一化层参数向量逐层进行全局平均聚合，形成本轮全局非批量归一化层参数向量，并返回给所有参与本轮联邦学习训练的相关客户端；

步骤6、每个参与本轮联邦学习训练的相关客户端利用服务器所返回的本轮全局非批量归一化层参数向量和本地所保存的本轮本地批量归一化层参数向量更新本地改进卷积神经网络模型；

步骤7、重复步骤3-6直到本轮全局非批量归一化层参数向量收敛至最优全局非批量归一化层参数向量；

步骤8、服务器将最优全局非批量归一化层参数向量广播给所有客户端，客户端利用服务器所返回的最优全局非批量归一化层参数向量和本地所保存的最终轮的批量归一化层参数向量得到最终本地改进卷积神经网络模型；

步骤9、客户端利用最终本地改进卷积神经网络模型对待分类图片进行分类。

上述步骤3中，相关客户端C_k的被选择概率P_k为：

式中，h_k为相关客户端C_k的标签分布同质性，

q_k(y)为相关客户端C_k的本地标签集Y_k中标签y的分布，q_u(y)为联邦任务标签集Y中标签y的分布；h_j为相关客户端C_j的标签分布同质性，

q_j(y)为相关客户端C_j的本地标签集Y_j中标签y的分布，q_u(y)为联邦任务标签集Y中标签y的分布；S_kj为相关客户端C_k和相关客户端C_j的相似性，

v_k,i为相关客户端C_k的第i条本地数据的内容嵌入向量，n_k为客户端C_k的本地数据集D_k的本地数据条数；v_j,i为相关客户端C_j的第i条本地数据的内容嵌入向量，n_j为客户端C_j的本地数据集D_j的本地数据条数；C_k、C_j∈R，R表示相关客户端集合。

上述步骤3中，相关客户端C_k的参数向量偏差

为：

式中，θ_t-1,k为相关客户端C_k的t-1轮本地非批量归一化层参数向量，θ_t-1为t-1轮全局非批量归一化层参数向量；C_k∈R，R表示相关客户端集合。

上述步骤3中，基于给定的价格预算和每个相关客户端发布的意愿价格来确定参与每轮联邦学习训练的相关客户端的数量，即参与每轮联邦学习训练的相关客户端的意愿价格之和小于等于给定的预算。

与现有技术相比，本发明提出了一种针对训练数据Non-IID情况下的标签倾斜和特征倾斜问题的联邦模型框架，当训练数据集中存在较为严重的标签倾斜及特征倾斜问题时，会通过动态选择高质量的客户端参与训练以缓解标签分布倾斜问题，并在客户端本地模型中加入批量归一化(Batch Normalization，BN)层，以缓解特征倾斜问题，这大幅度的降低了数据异构性对模型性能的影响，有效提高模型收敛速度和精度，在保护数据隐私的同时也实现了模型个性化设计。

附图说明

图1为一种针对数据倾斜的快速高效联邦学习的系统框架示意图。

图2为一种针对数据倾斜的快速高效联邦学习方法的流程图。

图3为加入批量归一化层的卷积神经网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

本发明针对来自不同客户端(设备)的图片分类任务，各客户端在不共享隐私敏感数据的情况下利用联邦学习协作训练一个图片分类模型。为了解决不同客户端的训练数据样本存在标签分布的严重不平衡，以及本地客户端存储的样本数据中存在的特征倾斜问题，本发明提出了一种在隐私保护前提下，解决联邦学习任务中客户端标签分布倾斜及特征倾斜的数据非独立同分布(Non-IID)问题，以提高模型精度和收敛速度的方法。

参见图1和2，本发明所提出的一种针对数据倾斜的快速高效联邦学习方法，包括步骤如下：

1、联邦训练开始之前

步骤1、每个客户端C_k∈N(N表示客户端集合)通过在卷积神经网络的每个卷积层和每个全连接层之后各增加一批量归一化层来构建本地改进卷积神经网络模型。

为了解决客户端样本数据中存在的样本标签相同，但特征表示不同的特征倾斜问题。本发明在传统卷积神经网络的基础上加入批量归一化(BN)层来缓解模型聚合前的特征倾斜问题。在神经网络中，随着参数向量的层层传递，每层特征值分布会逐渐向激活函数输出区间的上下两端(激活函数饱和区间)靠近，容易导致梯度消失。批量归一化层将特征分布变换重构，使特征值落在激活函数对于输入较为敏感的区间，由于输入的细微变化会导致损失函数较大的变化，即使得梯度变大，因此加入BN层可以避免梯度消失，同时也可以加快收敛速度，并且经过BN层操作后的特征分布会更加接近真实的数据特征分布，有利于解决联邦学习数据异构中的特征倾斜问题。在本发明中，BN层被添加在客户端卷积神经网络模型的每个特征提取层(卷积层和全连接层)之后，即在每一个卷积层之后增加BN层，以及在每一个全连接层之后增加BN层，对每个特征提取层的输出进行归一化处理，使特征分布与真实的数据特征分布更加接近，以便缓解客户端样本数据中存在的特征倾斜问题，并更好地发挥客户端卷积神经网络模型的特征提取作用。

步骤2、服务器计算每个客户端C_k∈N的本地数据集的本地标签集与联邦任务标签集的交集，如果该交集中的标签所对应的本地数据的数量大于目标模型所需的最小训练样本数量，则认为该交集所对应的客户端为相关客户端C_k∈R(R表示相关客户端集合，R∈N)。

在开始训练联邦任务之前，服务器要计算每个客户端标签与联邦任务标签集的交集来确定相关客户端，其方式如下：每一个客户端C_k都有其对应的本地数据集D_k＝{(X_k,Y_k)}。X_k为本地样本集，样本x_k,i∈X_k；Y_k为本地标签集，标签y_k,i∈Y_k；样本集X_k中的每一个样本x_k,i都有对应标签y_k,i属于其标签集Y_k；(x_k,i,y_k,i)为第i个本地数据，i＝1,2,...,n_k，n_k表示客户端C_k的本地数据的条数。计算本地标签集Y_k与当前联邦任务标签集Y的交集，如果该交集中的标签所对应的本地数据的数量大于目标模型所需的最小训练样本数量，即{(x_k,i,y_k,i)∣y_k,i∈Y_k∩Y}|＞v(其中v是目标模型所需的最小训练样本数量)，则认为客户端C_k为相关客户端。

2、联邦训练过程

2.1、客户端选择

步骤3、服务器从相关客户端C_k∈R中筛选出每一轮参与联邦学习训练的相关客户端C_k∈M_t(M_t表示参与第t轮训练的相关客户端集合，M_t∈R)。

本发明在每轮训练过程中会通过客户端筛选机制，选择最适合参与联邦训练的客户端。在每轮训练的过程中，服务器基于客户端重要性计算方法从可参与训练的客户端中选择标签分布倾斜最小化的一组客户端子集参与训练，用于解决不同的客户端之间标签分布极度不均衡的标签倾斜问题。

1)在筛选参与首轮(t＝1)联邦学习训练的相关客户端时，服务器基于相关客户端被选择概率，选择被选择概率大的相关客户端作为参与首轮训练的客户端。

参与首轮训练的相关客户端主要考虑两个指标：第一，客户端标签分布与联邦任务标签分布的同质性；第二，客户端样本分布的多样性。为了同时考虑上述两个指标，在筛选参与首轮(t＝1)联邦学习训练的相关客户端时，每个相关客户端C_k∈R需要利用其标签分布同质性h_k，相关客户端C_j的标签分布同质性h_j，以及与其它相关客户端C_j∈R的相似性S_kj，计算相关客户端C_k∈R的被选择概率被选择概率P_k：

相关客户端C_k∈R的标签分布同质性h_k为：

式中，q_k(y)为相关客户端C_k的本地标签集Y_k中标签y的分布，q_u(y)为联邦任务标签集Y中标签y的分布。

相关客户端C_j的标签分布同质性h_j为：

式中，q_j(y)为相关客户端C_j的本地标签集Y_j中标签y的分布，q_u(y)为联邦任务标签集Y中标签y的分布；

相关客户端C_k∈R和相关客户端C_j∈R的相似性S_kj为：

式中，v_k,i为相关客户端C_k的第i条本地数据的内容嵌入向量，n_k为客户端C_k的本地数据集D_k的本地数据条数；v_j,i为相关客户端C_j的第i条本地数据的内容嵌入向量，n_j为客户端C_j的本地数据集D_j的本地数据条数。

即当同质性增加、相似性降低时，客户端被选择的概率增加，因此服务器可以倾向于选择标签分布与联邦任务标签分布的相似性高的客户端，同时避免选择与其它客户端样本相似度高的客户端。

2)在筛选参与非首轮(t＝2,3,…)联邦学习训练的相关客户端时，服务器基于相关客户端的参数向量偏差选择参数向量偏差大的相关客户端作为参与非首轮联邦学习训练的相关客户端。

为了降低计算成本，服务器在首轮训练之后的每轮迭代中动态选择重要的客户端参与训练，此时不再计算每个客户端所有样本的重要性，而是选择本地模型参数向量与全局模型参数向量偏差大的客户端，因为参数向量偏差越大的客户端对当前全局模型的训练具有更大的贡献。关客户端的参数向量偏差可以表示为

若客户端C_k具有更大的

值，则有更大概率在第t轮训练中被选中。其中θ_t-1,k为第t-1轮客户端C_k更新的本地模型参数向量，θ_t-1为第t-1轮更新的全局模型参数向量。

此外，对于联邦学习训练来说，每一个客户端C_k在模型训练之前都会发布一个参与联邦任务的意愿价格b_k，后续服务器在选择参与每轮训练的相关客户端时，会基于给定的预算和每个相关客户端发布的意愿价格来确定参与每轮联邦学习训练的相关客户端的数量，即参与每轮联邦学习训练的相关客户端的意愿价格b_k之和在给定的价格预算B之内。

2.2、模型训练阶段

步骤4、每个客户端C_k∈N利用本地数据集对本地改进卷积神经网络模型进行训练，得到本轮本地模型参数向量；其中本轮本地模型参数向量包括本轮本地批量归一化层参数向量和本轮本地其他层即非批量归一化层参数向量。

本发明通过在训练过程中动态地筛选参与的客户端子集并且在客户端的本地模型中加入批量归一化(BN)层。在每轮t＝1,2,...,T中，客户端C_k∈N(N表示所有客户端集合)利用本地数据集D_k进行本地卷积神经网络模型训练。每个客户端利用添加了BN层的卷积神经网络进行本地模型训练，客户端的本地改进卷积神经网络模型包括输入值、卷积层、全连接层、BN层、ReLu激活函数、池化层、输出值，如图3所示。在首轮训练之前，服务器初始化全局模型参数向量(包括全局批量归一化层参数向量和全局非批量归一化层参数向量)，并将初始化模型参数向量下发给所有客户端。客户端在本地模型训练过程中的每个训练批次(batch)取m个训练样本，则当前客户端的卷积神经网络模型的输入值为X＝[x⁽¹⁾,x⁽²⁾,...,x^(m)]。假设模型中的某一特征提取层(卷积层或全连接层)为第l层，其对应的中间隐藏值为

其中

表示l层第i个神经元的输出值，分别计算

的均值

以及方差

用求得的均值和方差对

进行归一化计算：

其中∈是为了防止除数为0时所使用的微小正数。为了保证原有的特征分布不丢失，恢复数据原有的表达能力，BN层引入了两个可学习的参数：缩放因子γ和平移因子β，对特征分布进行变换重构，使经过批量归一化处理之后的分布更切合数据的真实分布，保证模型的非线性表达能力。则BN层中第i个神经元的输出为：

当每个神经元经过BN层计算并输出后，这些输出值会经过激活函数运算并继续传入网络下一层进行后续模型训练，直至该客户端本地模型训练结束。

步骤5、参与本轮联邦学习训练的相关客户端C_k∈M_t将本轮本地非批量归一化层参数向量上传至服务器；服务器将所有参与本轮联邦学习训练的相关客户端C_k∈M_t上传的本轮本地非批量归一化层参数向量逐层进行全局平均聚合，形成本轮全局非批量归一化层参数向量，并返回给所有参与本轮联邦学习训练的相关客户端C_k∈M_t。

因为BN层的统计参数向量在一定程度上包含着本地的数据信息，所以所有客户端在完成本地训练之后，所有客户端C_k∈N(N表示客户端集合)都会将本轮本地批量归一化层参数向量保存在本地。而因为联邦学习的参数聚合需要，所以仅需要将参与第t轮联邦学习训练的相关客户端C_k∈M_t(M_t表示参与第t轮训练的相关客户端集合)的第t轮本地非批量归一化层参数向量上传至服务器参与全局聚合。

为了保护数据隐私，参与训练的相关客户端需要将卷积神经网络模型中BN层的所有参数向量保留在本地，上传其它层的参数向量至服务器用于全局聚合，即服务器将接收到的其它层参数向量逐层进行全局平均聚合

其中m_t+1表示参与第t+1轮联邦学习训练的相关客户端子集M^t+1中的客户端数量，

表示在t+1轮更新中，客户端C_k神经网络模型的第l层(非BN层)参数向量。

步骤6、每个参与本轮联邦学习训练的相关客户端C_k∈M_t利用服务器所返回的本轮全局非批量归一化层参数向量与本地所保存的本轮本地批量归一化层参数向量更新本地改进卷积神经网络模型。

步骤7、重复步骤3-6直到本轮全局非批量归一化层参数向量收敛至最优全局非批量归一化层参数向量。

重复以上步骤，进行下一轮参与训练客户端的选择，参与联邦训练的客户端向服务器上传新一轮非BN层参数向量，服务器聚合更新新一轮全局模型参数向量，并检查当前全局模型是否收敛。若模型收敛则结束联邦训练，若模型未收敛则进行下一轮客户端选择继续训练，直至全局模型收敛，并返回最终全局模型参数向量θ^*。

下述算法为加入BN层的联邦训练算法过程：

步骤8、服务器将最优全局非批量归一化层参数向量广播给所有客户端C_k∈N，客户端C_k∈N利用服务器所返回的最优全局非批量归一化层参数向量和本地所保存的最终轮的批量归一化层参数向量得到最终本地改进卷积神经网络模型。

待服务器返回当前更新的全局模型参数向量后，每个本地客户端将更新的全局模型参数向量与本地BN层(BN层参数向量始终保留在本地)参数向量结合构成新的本地模型，在同时解决标签倾斜及特征倾斜的基础上还实现了客户端模型的个性化。

步骤9、客户端C_k∈N利用最终本地改进卷积神经网络模型对待分类图片进行分类。

联邦任务训练结束后，各客户端得到用于图片分类任务的个性化联邦学习模型，对于不同的图片，各客户端能够准确的对图进行分类。

本发明能够有效降低客户端数据集中标签倾斜和特征倾斜问题对模型训练产生的不利影响，提高模型训练精度和收敛速度，保护隐私的前提下同时实现了模型的个性化设计，方法简单且十分有效。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种针对数据倾斜的快速高效联邦学习方法，其特征是，包括步骤如下：

2.根据权利要求1所述的一种针对数据倾斜的快速高效联邦学习方法，其特征是，步骤3中，相关客户端C_k的被选择概率P_k为：

式中，h_k为相关客户端C_k的标签分布同质性，

3.根据权利要求1所述的一种针对数据倾斜的快速高效联邦学习方法，其特征是，步骤3中，相关客户端C_k的参数向量偏差

为：

4.根据权利要求1所述的一种针对数据倾斜的快速高效联邦学习方法，其特征是，步骤3中，基于给定的价格预算和每个相关客户端发布的意愿价格来确定参与每轮联邦学习训练的相关客户端的数量，即参与每轮联邦学习训练的相关客户端的意愿价格之和小于等于给定的预算。