CN116070713A

CN116070713A - 一种基于可解释性联邦学习缓解Non-IID影响的方法

Info

Publication number: CN116070713A
Application number: CN202211722746.4A
Authority: CN
Inventors: 周文杰; 李丕绩; 刘哲
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-05

Abstract

本发明公开了一种基于可解释性联邦学习缓解Non‑IID影响的方法。本发明主要基于本地客户端更新对于聚合模型各类别学习能力的影响，引入验证集可解释机制去刻画中心服务器中验证集样本的可解释性结果，利用结构相似指标(SSIM)对各类别的可解释性结果进行评估，从而推断出数据不均衡的客户端。再对这些数据不均衡的客户端的参数进行调整，最小化不均衡客户端模型和上一轮全局聚合模型参数之间的梯度距离，通过梯度距离的收敛纠正不均衡客户端模型的参数。从而达到减弱数据不均衡所带来的负面影响。

Description

一种基于可解释性联邦学习缓解Non-IID影响的方法

技术领域

本发明属于人工智能安全领域，特别涉及了一种基于可解释性的联邦学习方法来缓解在Non-IID场景中模型性能下降带来的影响。

背景技术

研究表明，随着人工智能技术的不断进步，数据的好坏，数据量的大小，已经成为制约AI模型发展的一个重要因素。但是传统的集中式机器学习，直接收集各方的数据，会导致严重的隐私安全问题。因此，联邦学习的出现，解决了这一关键问题，它可以保持用户数据分散的同时协作训练出共享的全局机器学习模型。但随着联邦学习应用的增多，其面向的场景也越来越复杂，在现实生活中，由于每个客户端都有自己的偏好，所以不同客户端的数据具有不同的特征，这会导致联邦学习模型精度降低，收敛速度变慢等问题。传统的解决联邦学习中Non-IID问题一般是从两个方面入手，一个是对参与聚合的客户端进行权重差异优化，另一个是对于客户端的选择进行优化。但是针对客户端的权重差异进行优化，大多会导致模型的收敛速度下降；针对客户端的选择优化，会增加过多的通信开销与计算开销。

随着各种人工智能模型开始代替人类进行决策，支持模型的输出解释是至关重要的。可解释性研究的初衷是通过构建可解释的模型或设计解释方法提高模型的透明性，同时验证和评估模型决策行为和决策结果的可靠性和安全性，消除模型在实际部署应用中的安全隐患。因此本发明利用可解释性，以一种更合理和可解释性的方式去解决联邦学习场景下Non-IID所带来模型精度下降的问题，使基于此所提出来的解决方案更具有现实意义和应用价值。

发明内容

为了解决上述背景技术提到的技术问题，本发明提供了基于可解释性的联邦学习方法，该方法可以有效缓解由Non-IID场景引起的联邦学习模型精度下降问题。

为了实现上述技术目的，本发明的技术方案为：

一种基于可解释性联邦学习缓解Non-IID影响的方法，基于本地客户端更新对于聚合模型各类别学习能力的影响，引入验证集可解释机制。通过去刻画验证样本的可解释性结果，也就是去刻画出本地客户端对于全局模型学习能力的影响，再借此判断出模型各类别学习能力的变化情况。利用结构相似指标(SSIM)对各类别的代表可解释性结果进行评估，从而推断出数据不均衡的客户端。再对这些数据不均衡的客户端的参数进行调整，利用迭代将客户端参数与上一次更新的聚合模型参数距离缩小，从而达到减弱数据不均衡所带来的负面影响。

进一步地，包括以下步骤：

(1)构建Non-IID场景：针对目标数据集，利用狄利克雷分布，给每个客户端分配不同数量，不同标签的数据，构建出一个Non-IID场景；

(2)构建验证集：中心服务器中，每个类别放置一张图片作为验证集；

(3)选择客户端进行可解释性：根据客户端本地更新方向上一轮聚合的更新方向的余弦相似度进行评分，选取评分较低的top-k个客户端参与可解释性；或者根据客户端的代表梯度对客户端进行聚类，从聚类后的c类中选取m个客户端参与可解释性；

(4)筛选数据不均衡的客户端：通过比较参与聚合的每个客户端模型和上一轮聚合的全局模型，对同一验证集进行可解释后的高亮特征图的差别，进行相似度计算，各类相似度变化幅度超过设定的阈值，则被认为该客户端数据不均衡；

(5)动态调整客户端模型参数：最小化不均衡客户端模型和上一轮全局聚合模型参数之间的梯度距离，通过梯度距离的收敛纠正客户端模型的参数，并且根据联邦学习聚合的时间灵活的调整最小化梯度的迭代次数。

采用上述技术方案带来的有益效果：(1)这是基于可解释性的方法，缓解联邦学习过程中由Non-IID引起的模型性能下降问题，可以很明确的知道在聚合过程中由于哪些客户端引起性能下降，有助于帮助我们更好的选择客户端进行聚合(2)该方法有效的提升了联邦学习模型在Non-IID场景下模型的性能，在更加严格的数据不平衡情况下，相较于其它方法依旧有很好的提升(3)不会过多的增加联邦学习的通信开销与计算开销。

附图说明

图1是本发明的方法流程图；

图2是基于可解释性的联邦学习模型示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明设计了一种基于可解释性联邦学习缓解Non-IID影响的方法，首先针对目标数据集构建Non-IID场景，然后在中心服务器选取每类样本中的一张图片作为验证集，之后利用信任分数和聚类两种方法来选取客户端进行可解释性，通过各客户端模型和上一轮全局模型的比较，即对同一样本可解释性后的高亮特征图的相似性进行对比计算，选取出存在不均衡数据的客户端，最后针对这些不均衡客户端，通过动态的最小化其与全局模型参数的梯度距离，来达到缓解在Non-IID场景下联邦学习模型性能下降问题。

本发明一种基于可解释性联邦学习缓解Non-IID影响的方法包括以下步骤：

步骤1：构建Non-IID场景：针对目标数据集，利用狄利克雷分布，给每个客户端分配不同数量，不同标签的数据，构建出一个Non-IID场景；

步骤2：构建验证集：中心服务器中，每个类别放置一张图片作为验证集；

步骤3：选择客户端进行可解释性：将客户端本地更新方向与上一轮聚合的更新方向计算出的余弦相似度作为评分，选取评分较低的top-k个客户端参与可解释性；或者根据客户端的代表梯度对客户端进行聚类，从聚类后的c类中选取m个客户端参与可解释性；

步骤4：筛选数据不均衡的客户端：通过比较参与聚合的每个客户端模型和上一轮聚合的全局模型，对同一验证集进行可解释后的高亮特征图的差别，进行相似度计算，各类别相似度变化幅度超过设定的阈值，则被认为该客户端数据不均衡；

步骤5：动态调整客户端模型参数：最小化不均衡客户端模型和上一轮全局聚合模型之间的梯度距离，通过梯度距离的收敛纠正客户端模型的参数，并且根据联邦学习聚合的时间灵活的调整最小化梯度的迭代次数。

进一步地，对于步骤1所述构建Non-IID场景，具体步骤如下：

步骤1.1：利用参数alpha＝0.5的狄利克雷分布函数，从狄利克雷分布函数

其中α＝(α₁,α₂,…,α_c).α_i>0，x为随机向量，α为该概率分布的参数)中随机抽样，生成类别标签分布矩阵，即生成每个客户端每个类别占有的数据比例(每个客户端类别种类也因此不同)；

步骤1.2：根据上述步骤生成的类别标签分布矩阵，获得各个客户端不同类别的数据比例，再按照比例对数据集进行随机抽样分配，就构成最终的Non-IID数据集(每个客户端的类别数目和样本数量都不同，服从狄利克雷分布)。

进一步地，对于步骤2所述构建中心服务器验证集，具体步骤如下：

步骤2.1：中心服务器进行数据的收集；

步骤2.2：从收集到的数据中每个类别抽取一张图片作为验证集元素，将每个类别都抽取一张图片的数据集合作为中心服务器验证集。

进一步地，对于步骤3选择客户端进行可解释性，具体步骤如下：

步骤3.1：采用余弦相似度(衡量客户端本地更新方向与上一次聚合更新方向的偏移程度，偏移大的客户端本地更新则被认为需要进行可解释性来进一步判断该客户端数据均衡与否)评分选择进行可解释性客户端的挑选：将客户端本地更新方向与上一轮聚合的更新方向计算出的余弦相似度(

其中g_i与g₀分别表示第i个客户端的本地更新梯度与全局梯度，S_i表示第i个客户端的评分)作为评分；

步骤3.2：将上述评分进行从小到大的顺序排列，选择评分排序前k个客户端(即评分最低的前k个客户端)参与后续的可解释性操作；

步骤3.3：或者采用根据梯度相似性聚类挑选进行可解释性客户端：首先计算每个客户的“代表性梯度”(Grad_rep＝p_i-p₀，其中p_i与p₀分别是第i个客户端本地更新参数和上一次全局更新模型的参数)；

步骤3.4：再根据上述步骤计算出来的“代表性梯度”(也就是客户端本地更新参数与上一次全局更新模型参数的差异)，通过层次聚类(利用ward法通过度量类间距离来划分类(簇))将客户端聚成c个类(簇)：

输入“代表性梯度”作为聚类的输入数据，并使用它创建距离矩阵。假设共有N簇，此时每个簇内的残差平方和(ESS)都为0，ESS计算公式如下：

依次计算每两个簇(cluster)合并后的ESS差异

找到其中合并后ESS差异度最小的两个簇进行合并，每两个簇(cluster)合并后的ESS的计算公式为：

其中x表示合并前两个簇中的所有点，μ_C1∪C2是合并后的新簇的中心点(均值点)，D(x,μ_C1∪C2)表示每个点x到中心点的距离；重复以上过程至聚类成c个；

步骤3.5：从这c个类中按每个类分别随机抽取出1个客户端，直至满足参与聚合的客户端数目m个，再进行后续的可解释性操作。

进一步地，对于步骤4筛选数据不均衡的客户端，具体步骤如下：

步骤4.1：将中心服务器上部署的验证集分别输入到上一轮聚合模型与本次进行可解释性操作的客户端模型中，再根据模型的分类结果对最易泄露隐私的网络层(最能反映模型的特征学习能力)进行可解释性，得到高亮特征图并进行存储；再对两个模型的各类别的高亮特征图进行一一对应的相似度计算；

步骤4.2：计算本次进行可解释性操作的客户端的各类别相似度的变化幅度大小，若各类相似度变化幅度超过设定的阈值，则被认为该客户端数据不均衡，并将这些超过设定的阈值的类别视为不均衡的类别，并将这些不均衡的类别与对应的客户端id予以记录，进行后续的参数修正处理；若各类别相似度变化幅度未超过设定的阈值，则该客户端进入等待均值聚合阶段。

进一步地，对于步骤5动态调整客户端模型参数，具体步骤如下：

步骤5.1：筛选出不均衡客户端模型，再将表现不均衡的验证集作为输入，分别计算出验证集中的每个样本在不均衡的客户端模型和上一轮全局聚合模型参数之间的梯度距离(

其中

分别是本地模型产生的第k个验证集样本梯度和上一次聚合的全局模型产生的第k个验证集样本梯度)，并将该梯度距离进行求和，作为迭代优化目标；

步骤5.2：通过优化由上述梯度距离求和公式

计算出来的梯度距离总和(总损失)来纠正不均衡的客户端模型的所对应的偏移参数，并且根据联邦学习聚合的时间灵活的调整最小化梯度的迭代次数；联邦学习初始阶段时，将迭代次数调整在一个较小的范围内；当联邦模型训练渐渐趋于稳定时，将迭代次数逐步向较大的范围进行调整；利用损失回传来迭代优化不均衡的客户端模型所对应的偏移参数，减弱不均衡客户端在均值聚合过程中的不利影响；调整后的客户端进入均值聚合阶段。

重复上述步骤1-5直到聚合模型收敛或达到预设的聚合次数。

发明结果

本发明首先在MNIST、CIFAR-10、CIFAR-100和CINIC-10数据集上进行了效果验证实验。其中MNIST有10个类别(0～9的手写数字)，包括60000个训练样本和10000个测试样本。CIFAR-10由60000张32×32的10个类别的彩色图片构成，其中包括50000张训练样本，10000张测试样本。CIFAR-100数据集有100个类。每个类有600张大小为32×32的彩色图像，其中500张作为训练集，100张作为测试集。CINIC-10是一个用于图像分类的数据集。该数据集总共有27万张图像，是CIFAR-10数据集的4.5倍。它是基于ImageNet和CIFAR-10这两个数据集构建的。该数据集被分成三个相等的子集(训练、验证和测试)，每个子集包含9万张图像。

为了评估本发明实施的基于可解释性联邦学习缓解Non-IID影响的方法的有效性，评测结果如表1和表2所示，表1展示了应用本发明方法在MNIST和CIFAR-10数据集的精度结果，表1与先进方法FedMA中采取相同的模型结构，表2出示了应用本发明方法在CIFAR-10、CIFAR-100和CINIC-10数据集上的精度结果，表2与先进方法CCVR中采取相同的模型结构，表中的α表示狄利克雷分布的分布参数，其值越大，分布越接近于均匀分布，且FedGDI代表基于“信任评分”选择客户端下的可解释性方法在Non-IID联邦学习中的应用，FedCI表示基于“代表梯度”选择客户端下的可解释性方法在Non-IID联邦学习中的应用：

表1采用本发明方法在MNIST和CIFAR-10数据集上生成的精度结果

表2采用本发明方法在CIFAR-10、CIFAR-100和CINIC-10数据集上生成的精度结果(CNN+MLP模型结构)

表1和表2展示了本技术分别在MNIST、CIFAR-10、CIFAR-100和CINIC-10数据集的精度表现，并与其他先进方法进行对比，结果表明本申请提供的基于可解释性联邦学习缓解Non-IID影响的方法具有有效性。

Claims

1.一种基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于：基于本地客户端更新对于聚合模型各类别学习能力的影响，引入验证集可解释机制去刻画中心服务器中验证集样本的可解释性结果，利用结构相似指标对各类别的可解释性结果进行评估，从而推断出数据不均衡的客户端；再对这些数据不均衡的客户端的参数进行调整，最小化不均衡客户端模型和上一轮全局聚合模型参数之间的梯度距离，通过梯度距离的收敛纠正客户端模型的参数；从而达到减弱数据不均衡所带来的负面影响。

2.根据权利要求1所述基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，包括以下步骤：

(3)选择客户端进行可解释性：将由客户端本地更新方向与上一轮聚合模型更新方向计算出的余弦相似度作为评分，选取评分低的k个客户端参与可解释性；或者根据客户端的代表梯度对客户端进行聚类，从聚类后的c类中选取m个客户端参与可解释性；

3.根据权利要求2所述基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，步骤(1)具体包括：

首先设有K个类别标签，参与联邦学习的客户端数目为N个，每个类别标签的样本需要按照不同的比例划分在不同的客户端上，客户端上的类别数目也不尽相同；

其次设矩阵X∈R^K*N为类别标签分布矩阵；

其中行向量x_c∈R^N表示类别c在不同的客户端上的概率分布向量，每一维表示第c个类别的样本划分；

该随机向量采样自狄利克雷分布：

α＝(α₁,α₂,…,α_c).α_i>0

其中α为参数。

4.根据权利要求2基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，步骤(3)中按照评分选择客户端进行可解释性，包括：将客户端本地更新方向与上一轮聚合的更新方向计算出的余弦相似度作为评分，计算公式如下：

其中g_i与g₀分别表示第i个客户端的本地更新梯度与全局梯度，S_i表示第i个客户端的评分；

将上述评分进行从小到大的顺序排列，选择评分排序前k个客户端参与后续的可解释性操作。

5.根据权利要求2基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，步骤(3)中按照代表梯度选择客户端进行可解释性，包括：将客户的本地模型与全局模型的差异作为“代表性梯度”；首先计算每个客户的“代表性梯度”，“代表性梯度”计算如：Grad_rep＝p_i-p₀，其中p_i与p₀分别是第i个客户端本地更新参数和上一次全局更新的参数；再根据“代表性梯度”，通过层次聚类将客户端聚成c个类；从这c个类中依次抽取出参与聚合的m个客户端，再进行后续的可解释性操作。

6.根据权利要求5所述基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，按照代表梯度选择客户端进行可解释性中的层次聚类，包括：

利用Ward方法进行聚类操作，将“代表性梯度”作为聚类的输入数据，并使用它创建距离矩阵；假设共有N簇，此时每个簇内的残差平方和ESS都为0，ESS计算公式如下：

依次计算每两个簇合并后的ESS差异

找到其中合并后ESS差异度最小的两个簇进行合并，重复上述过程。

7.根据权利要求2基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，筛选数据不均衡的客户端，包括：将中心服务器上部署的验证集分别输入到上一轮聚合模型与本次进行可解释性操作的客户端模型，再根据模型的分类结果进行可解释性，得到高亮特征图；对两个模型的高亮特征图进行一一对应的相似度计算，相似度计算公式如下：

其中

分别表示图片x的系数，以及系数的复共轭，K表示一个用于增强鲁棒性的正常量；若各类相似度变化幅度超过设定的阈值，则被认为该客户端数据不均衡。

8.根据权利要求2基于可解释性联邦学习缓解Non-IID影响的方法，其特征在于，动态调整客户端模型参数，包括：将表现不均衡的验证集输入不均衡客户端模型，分别计算出每个不均衡的客户端模型和上一轮全局聚合模型之间的梯度距离，梯度距离计算公式如下：

其中g^′ _k,

分别是本地模型产生的第k个验证集样本梯度和上一次聚合的全局模型产生的第k个验证集样本梯度；

通过缩小由上述公式计算出来的梯度距离来纠正客户端模型的偏移参数，并且根据联邦学习聚合的时间灵活的调整最小化梯度的迭代次数。