CN117150255B

CN117150255B - 集群联邦学习中的分簇效果验证方法、终端及存储介质

Info

Publication number: CN117150255B
Application number: CN202311396212.1A
Authority: CN
Inventors: 石雷; 吴寒; 许浩; 陈莹莹; 潘思楠
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-02-02
Anticipated expiration: 2043-10-26
Also published as: CN117150255A

Abstract

本发明涉及机器学习技术领域，公开了集群联邦学习中的分簇效果验证方法、终端及存储介质。该方法将参与集群联邦学习的客户作为攻击者，与良性客户即受害者分配至同一个簇中；选定攻击者所要攻击的受害者的训练数据目标类，在集群联邦学习的每一轮训练中，攻击者利用全局模型参数训练判别器；再由生成器生成接近训练数据目标类的样本数据，并输入判别器判别，计算损失后训练生成器。攻击者注入恶意数据，再利用注入恶意数据后的本地数据进行训练，向参数服务器上传训练后的梯度。最后经过迭代完成数据重构，并与原始数据作相似性计算以验证分簇效果。本发明在集群联邦学习场景进行客户数据重构，兼顾了攻击效果和隐蔽性，有效验证分簇效果。

Description

集群联邦学习中的分簇效果验证方法、终端及存储介质

技术领域

本发明涉及机器学习技术领域，具体是集群联邦学习中的分簇效果验证方法，还涉及应用该方法的计算机终端和计算机可读存储介质。

背景技术

联邦学习作为分布式学习架构，得到了广泛的研究和应用。研究的一方面是通过改变联邦学习架构，优化提高联邦学习效果。其中典型代表是集群联邦学习。由于联邦学习在实际应用过程中会不可避免地受到客户端数据非独立同分布的影响，使得训练一个统一的全局模型的效果不佳，集群联邦学习正是一种通过将参与训练的客户按照数据相似度分簇，并为不同簇中的客户训练个性化网络的方法。该方法缓解了数据非独立同分布也就是数据异质性问题，提高了模型精度，然而目前在集群联邦学习的场景下，缺少能够有效验证分簇效果的手段。

研究的另一方面是针对联邦学习的攻防，包括了推断攻击、重构攻击和模型窃取攻击。其中，重构攻击可分为两类：重构原始数据和重构数据类别代表。其中，重构原始数据是以参数服务器作为攻击者，这意味着攻击者能够得到更多更有用的信息。它通过训练生成对抗网络来重构目标数据，但是由于条件足够强烈以至于所重构的数据就是受害者的原始数据。而重构数据类别代表中，攻击者通过训练生成对抗网络来重构目标类数据，由于条件限制和精度影响，重构的数据仅仅是该类数据类代表，这种攻击的弱点在于，这种攻击方法设定了不同客户的数据类别互不重复，大大限制了该攻击方法的使用场景，因为在实际应用中不同客户可能拥有相同种类的数据；此外，它还通过投毒的方式加快攻击，而所攻击的受害者仅仅为一个客户（唯一拥有指定类数据的客户），导致其模型精度大大下降，容易使攻击者被发现。

因此，目前在集群联邦学习的分簇场景下，由于传统重构类别代表数据的手段仍难以兼顾攻击效果和隐蔽性，从而不能有效对集群联邦学习的分簇效果进行验证，限制了其系统框架的发展与完善。

发明内容

为了克服现有技术中由于缺少有效攻击手段，从而难以有效验证集群联邦学习分簇效果的技术问题，本发明提供了集群联邦学习中的分簇效果验证方法、终端及存储介质。

为实现上述目的，本发明提供如下技术方案：

本发明公开集群联邦学习中的分簇效果验证方法，包括以下步骤，即步骤S1~S5。

S1.将参与集群联邦学习的一个客户作为恶意客户即攻击者，进而与一个良性客户即受害者分配至同一个簇中；

其中，集群联邦学习共有多个客户参与，每个客户均拥有全部目标种类的训练数据，各个客户之间的训练数据呈现非独立同分布的特征；由参数服务器为每个客户下发全局模型；恶意客户部署有一个由生成器和判别器组成的生成对抗网络GAN；

S2.选定攻击者所要攻击的受害者的训练数据目标类；

S3.在集群联邦学习的每一轮训练中，攻击者利用全局模型参数训练GAN中的判别器；再由生成器生成接近训练数据目标类的样本数据，并输入判别器判别，经过计算损失后训练生成器；

S4.攻击者对生成器生成的样本数据进行标签替换并注入自身数据集，即注入恶意数据，再利用注入恶意数据后的本地数据进行训练，向参数服务器上传训练后的梯度；

S5.重复执行S3~S4直至全局模型达到收敛，将此时生成器所生成的数据作为受害者的目标类代表数据，即完成数据重构。

S6.对重构的目标类代表数据与该类原始数据进行结构相似性计算，得到相似度分数。在一个预设条件下，通过分析相似度分数与一个预设相似度阈值的大小关系，验证集群联邦学习的分簇效果。

作为上述方案的进一步改进，步骤S1中，集群联邦学习的工作流程具体包括以下步骤：

参数服务器选择参与本轮训练的客户，并为每个参与训练的客户下发初始的全局模型；每个客户接收到来自参数服务器的全局模型后，使用自身数据进行本地训练，更新梯度并上传给参数服务器；

参数服务器依照梯度的余弦相似度对第一轮收集到客户的梯度进行分簇，然后将位于同一个簇中的客户的梯度进行平均聚合，并将聚合后的参数发送给相应簇内的相应客户；

在之后的每一轮中，各个簇内的客户不再变动，形成多个自治的联邦学习系统；参数服务器对每个簇内的客户进行参数聚合和全局模型下发，直至全局模型收敛。

作为上述方案的进一步改进，梯度的余弦相似度的计算公式如下：

式中，similarity表示梯度的余弦相似度；A和B分别为两个客户上传的梯度参数，视为多维向量A(x ₁,x ₂,x ₃,…x _m)和B(y ₁,y ₂,y ₃,…y _m)，A _i和B _i为向量中的各个分量，m指神经网络每层的神经元的数量；θ表示向量A和向量B之间的夹角；N表示每个客户的向量的个数，对应神经网络的层数。

作为上述方案的进一步改进，参数服务器通过将计算的余弦相似度构成一个相似度矩阵，并使用Kmeans算法或DBSCAN算法进行分簇。

作为上述方案的进一步改进，参数服务器为每个簇内的客户进行参数聚合的表达公式为：

式中，表示簇c的第t+1轮的模型参数；/>表示簇c的第t轮的模型参数；k表示簇c中客户的个数；/>表示簇c中第j个客户第t轮的训练的梯度。

作为上述方案的进一步改进，所述全局模型是一个用于参数服务器和客户之间交互的网络模型，其由1个输入层、4个卷积层、1个展平层和两个全连接层组成，并采用稀疏分类交叉熵损失函数。生成对抗网络GAN的判别器采用的网络模型为所述全局模型；生成器采用的网络模型由1个输入层、1个全连接层、3个二维转置卷积层组成，并采用稀疏分类交叉熵损失函数。

作为上述方案的进一步改进，生成对抗网络GAN的训练过程表示为：

式中，生成器G的目标是生成接近训练数据目标类的样本数据以欺骗判别器做出错误判断，对应公式中的min_G V(D,G)；判别器的目标是识别出生成器生成的接近训练数据目标类的样本数据和真实数据，对应公式中的max_D V(D,G)；表示x来自于原始数据的期望；D(x)表示判别器对x的判别结果；/>表示z服从先验分布的期望；x是原始数据中的图像，G(z)是生成器生成的图像。

作为上述方案的进一步改进，步骤S6中，所述预设条件为：对抗生成网络GAN中的生成器和判别器的学习率、批次batch大小保持不变；

其中，在所述预设条件下，当X₁≥X₂时，则判定分簇效果良好；反之，则判定分簇效果差。

本发明还公开一种计算机终端，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述集群联邦学习中的分簇效果验证方法的步骤。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现上述集群联邦学习中的分簇效果验证方法的步骤。

与现有技术相比，本发明的有益效果是：

1、该方法通过在集群联邦学习场景下开展客户数据重构，从而验证了集群联邦学习对数据异质性问题的有效性。通过将参与集群联邦学习的某个客户作为攻击者，并部署GAN用以数据重构，攻击效果相较于传统的联邦学习场景具有明显的提升，同时设定各客户皆具有全部目标种类的训练数据，这样攻击者在对某一类数据进行投毒攻击时，有多位受害者分摊了模型精度损失，保证了较强的隐蔽性。而且由于集群联邦学习的特性，使得攻击者在对某一类数据进行攻击时，这类数据虽然被不同客户所拥有，但这些客户被认为是相似的，攻击的效果不受影响。

因此，本发明的攻击手段兼顾了攻击效果和隐蔽性，利用攻击得到的重构数据能够反推集群联邦学习的分簇效果好坏，促进集群联邦学习系统框架的发展与完善。

2、本发明还公开了应用上述方法的计算机终端和计算机可读存储介质，其能够产生与上述方法相同的有益效果，在此不再赘述。

附图说明

图1为联邦学习架构训练模型的系统结构示意图。

图2为本发明实施例1中使用集群联邦学习架构训练模型的系统结构示意图。

图3为本发明实施例1中集群联邦学习中的分簇效果验证方法的流程图。

图4为本发明实施例1中攻击者参与集群联邦学习时的攻击示意图。

图5为本发明实施例1中进行更换标签时的示意图。

图6（a）为本发明实施例1中采用联邦学习的重构数据图。

图6（b）为本发明实施例1中采用集群联邦学习的重构数据图。

图6（c）为图6（a）和图6（b）中重构数据的原始数据图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，联邦学习作为分布式学习架构，其在实际应用过程中会不可避免地受到客户端数据非独立同分布的影响，使得训练一个统一的全局模型的效果不佳。而集群联邦学习正是一种通过将参与训练的客户按照数据相似度分簇，并为不同簇中的客户训练个性化网络的方法。该方法缓解了数据非独立同分布也就是数据异质性问题，提高了模型精度。

本实施例考虑一个包括多个客户和一个参数服务器的使用集群联邦学习架构共同训练模型的系统。客户之间的数据呈现非独立同分布的特征。其中一个客户是攻击者，攻击者在其内部训练一个生成对抗网络即GAN（Generative Adversarial Networks）。攻击者的目标是通过分析联合模型在训练期间的周期性更新来训练GAN，并重构受害者的目标类数据代表。

本实施例中，全局模型的输入数据为每个客户使用自身数据放入网络模型中训练后的梯度，而每个客户的原始数据是采集不同类型的人的手写的汉字字迹，且每个客户拥有全部种类的数据，例如客户1、2的数据集是儿童手写的中文数字一到数字十，客户3、4的数据集是成人手写的中文数字一到数字十。这些原始数据经过预处理、图像分割、特征提取等操作变成神经网络的输入。全局模型的输出是神经网络所识别的每条数据的类别。

其中，攻击者的输入由两部分组成，一个是同其他客户一样的由真实数据处理后的输入，该输入上传至参数服务器；另一个是从参数服务器接收到的更新的参数，输入到其自身的生成对抗网络中。攻击者攻击的输出是重构的受害者的目标类的代表数据。

集群联邦学习中使用的网络模型主要有两个。一个是参数服务器和客户之间交互的网络模型，即全局模型，它是由1个输入层、4个卷积层、1个Flatten层（展平层）和两个全连接层组成。损失函数使用SparseCategoricalCrossentropy（稀疏分类交叉熵）损失函数，它适用于输入的标签为整数编码形式。

另一个网络模型是生成对抗网络的网络模型。生成对抗网络的判别器（Discriminator，D）使用的网络模型就是全局模型，而对抗生成网络的生成器（Generator，G）使用的网络模型是根据判别器的网络模型每层的输入来设计的。这里的生成器网络模型是由1个输入层、1个全连接层、3个Conv2DTranspose（二维转置卷积）层组成。损失函数同样使用的是稀疏分类交叉熵损失函数。

本发明中的集群联邦学习工作步骤为：

步骤1：参数服务器选择参与本轮训练的客户，服务器给每个参与训练的客户下发初始的全局网络模型。每个客户在接收到来自参数服务器的全局模型后，使用自身数据进行本地训练，更新梯度并上传给参数服务器。

步骤2：如图2所示，参数服务器将第一轮收集到的来自客户的梯度依据梯度的余弦相似度进行分簇，然后将位于同一个簇中的客户的梯度进行平均聚合，并将聚合后的参数发送给相应簇里的相应客户。

其中，梯度的余弦相似度的计算公式如下：

参数服务器通过将计算的余弦相似度构成一个相似度矩阵，并可使用Kmeans算法或DBSCAN算法等聚类算法进行分簇。

步骤3：之后的每一轮中，各个簇内的客户不再变动，形成一个个自治的联邦学习系统。在每一个簇中服务器对其簇内的客户进行参数聚合和下发，直至模型收敛。其中，参数服务器为每个簇内的客户进行参数聚合的表达公式为：

请参阅图3和图4，本实施例提供一种集群联邦学习中的分簇效果验证方法，包括以下步骤，即步骤S1~S5。

S1.将参与集群联邦学习的一个客户作为恶意客户即攻击者，进而与一个良性客户即受害者分配至同一个簇中。

前文已介绍了，集群联邦学习共有n个客户参与，每个客户均拥有全部目标种类的训练数据，各个客户之间的训练数据呈现非独立同分布的特征；由参数服务器为每个客户下发全局模型；恶意客户部署有一个由生成器和判别器组成的生成对抗网络GAN。

S2.选定攻击者所要攻击的受害者的训练数据目标类。

本实施例中，分簇完成后，攻击者开始进行攻击操作，首先便是选定所要攻击的数据类别，即攻击者从训练的所有类中选择一类作为GAN网络生成器的标签先验条件，例如“5”。

S3.在集群联邦学习的每一轮训练中，攻击者先将全局模型参数用作GAN中的判别器的更新，以此来训练判别器；再由生成器生成类别为“5”的数据放入判别器判别，计算损失后训练生成器。

该生成对抗网络的训练过程表示为：

S4.攻击者将生成对抗网络的生成器生成的类别为“5”的数据更换标签，如换成“10”并注入自身数据集。如图5所示，这个数据称之为恶意数据。攻击者再利用注入恶意数据后的本地数据进行训练，向参数服务器上传训练后的梯度。

其中，注入恶意数据是为了在下一轮破坏受害者此类数据的训练精度从而刺激受害者在他的梯度更新中暴露出更多关于目标类的特征信息。

S5.重复执行S3~S4直至全局模型达到收敛，将此时生成器所生成的数据作为受害者的目标类代表数据。

在这个过程中，受害者发现其被攻击者攻击的那一类的数据的训练效果差或训练误差大，便会反复训练、更多地暴露该类数据的特征，并且暗含在上传的梯度中，由参数服务器发送给攻击者。攻击者由此再训练并进化他的对抗生成网络，使得生成器生成的数据朝着受害者数据发展。当全局模型收敛时，本发明认为攻击者的GAN也达到收敛状态，生成器此时所生成的数据即为受害者目标类代表数据。

如图6（a）-（c）所示，图6（c）为原始数据。可见，相较于联邦学习的重构数据即图6（a），本发明中的攻击重构出来的数据即图6（b）效果更好，具备了隐私泄露的可能。此外，由于攻击者每次只攻击受害者数据中的一类，其对受害者模型精度的影响不大，因而具有较好的隐蔽性。

本实施例中，所述预设条件为：对抗生成网络GAN中的生成器和判别器的学习率、批次batch大小保持不变。

另外，本实施例中，重构的目标类代表数据与该类原始数据均为图像，因此可采用现有的结构相似性（SSIM，Structural Similarity）算法计算得到S6中的相似度分数，该算法是一种衡量两幅图像相似度的指标，在此不再赘述原理。

实施例2

本实施例提供一种计算机终端，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。

该计算机终端可以是能够执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据。处理器执行程序时能够实现实施例1中集群联邦学习中的客户数据重构方法的步骤。

实施例3

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，能够实现实施例1中集群联邦学习中的客户数据重构方法的步骤。

该计算机可读存储介质可以包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card ,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.集群联邦学习中的分簇效果验证方法，其特征在于，包括以下步骤：

其中，集群联邦学习共有多个客户参与，每个客户均拥有全部目标种类的训练数据，各个客户之间的训练数据呈现非独立同分布的特征；由参数服务器为每个客户下发全局模型；恶意客户部署有一个由生成器和判别器组成的生成对抗网络即GAN；

集群联邦学习的工作流程具体包括以下步骤：

在之后的每一轮中，各个簇内的客户不再变动，形成多个自治的联邦学习系统；参数服务器对每个簇内的客户进行参数聚合和全局模型下发，直至全局模型收敛；

S2.选定攻击者所要攻击的受害者的训练数据目标类；

S4.攻击者对生成器生成的样本数据进行标签替换并注入自身数据集，即注入恶意数据，再利用注入恶意数据后的本地数据对全局模型进行训练，向参数服务器上传训练后的梯度；

S5.重复执行S3~S4直至全局模型达到收敛，将此时生成器所生成的数据作为受害者的目标类代表数据，即完成数据重构；

S6.对重构的目标类代表数据与该类原始数据进行结构相似性计算，得到相似度分数X₁；在一个预设条件下，通过分析相似度分数X₁与一个预设相似度阈值X₂的大小关系，验证集群联邦学习的分簇效果。

2.根据权利要求1所述的集群联邦学习中的分簇效果验证方法，其特征在于，梯度的余弦相似度的计算公式如下：

3.根据权利要求2所述的集群联邦学习中的分簇效果验证方法，其特征在于，参数服务器通过将计算的余弦相似度构成一个相似度矩阵，并使用Kmeans算法或DBSCAN算法进行分簇。

4.根据权利要求1所述的集群联邦学习中的分簇效果验证方法，其特征在于，参数服务器为每个簇内的客户进行参数聚合的表达公式为：

式中，/>表示簇c的第t+1轮的模型参数；/>表示簇c的第t轮的模型参数；k表示簇c中客户的个数；/>表示簇c中第j个客户第t轮的训练的梯度。

5.根据权利要求1所述的集群联邦学习中的分簇效果验证方法，其特征在于，所述全局模型是一个用于参数服务器和客户之间交互的网络模型，其由1个输入层、4个卷积层、1个展平层和两个全连接层组成，并采用稀疏分类交叉熵损失函数；生成对抗网络GAN的判别器采用的网络模型为所述全局模型；生成器采用的网络模型由1个输入层、1个全连接层、3个二维转置卷积层组成，并采用稀疏分类交叉熵损失函数。

6.根据权利要求5所述的集群联邦学习中的分簇效果验证方法，其特征在于，生成对抗网络GAN的训练过程表示为：

式中，生成器G的目标是生成接近训练数据目标类的样本数据以欺骗判别器做出错误判断，对应公式中的min_G V(D,G)；判别器的目标是识别出生成器生成的接近训练数据目标类的样本数据和真实数据，对应公式中的max_D V(D,G)；/>表示x来自于原始数据的期望；D(x)表示判别器对x的判别结果；/>表示z服从先验分布的期望；x是原始数据中的图像，G(z)是生成器生成的图像。

7.根据权利要求1所述的集群联邦学习中的分簇效果验证方法，其特征在于，步骤S6中，所述预设条件为：对抗生成网络GAN中的生成器和判别器的学习率、批次batch大小保持不变；

8.一种计算机终端，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现如权利要求1至7中任一项所述的集群联邦学习中的分簇效果验证方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至7中任意一项所述的集群联邦学习中的分簇效果验证方法的步骤。