CN117973507A

CN117973507A - 一种基于数据增强与隐私增强的组联邦元学习方法

Info

Publication number: CN117973507A
Application number: CN202410371195.4A
Authority: CN
Inventors: 高龙翔; 宋心如; 边文行; 孙守岳; 崔磊; 顾树俊; 曲悠扬
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-05-03
Anticipated expiration: 2044-03-29
Also published as: CN117973507B

Abstract

本发明属于联邦元学习方法的技术领域，更具体地，涉及一种基于数据增强与隐私增强的组联邦元学习方法。方法包括本地客户端处理阶段；服务器端根据本地客户端的数据分布表示对本地客户端进行初始分组，再将收到的本地元模型进行平均聚合生成组元模型；所有本地客户端收到服务器下发的初始化全局元模型后，进行更新本地元模型；服务器根据更新的数据分布表示更新分组，然后将更新的本地元模型进行更新后的组内聚合，生成新的组元模型；进行更新迭代；本地客户端进行模型个性化。本发明解决了现有技术中存在数据异构性、数据稀缺、类别不平衡的情况，在处理罕见病医疗领域中本地模型泛化效果较差，医疗数据存在被泄露的风险的问题。

Description

一种基于数据增强与隐私增强的组联邦元学习方法

技术领域

本发明属于联邦元学习方法的技术领域，更具体地，涉及一种基于数据增强与隐私增强的组联邦元学习方法。

背景技术

随着人工智能的快速发展，网络边缘设备产生的数据急剧增加，即将开启全球性的“数据爆炸”时代，联邦学习应运而生。联邦学习是一种分布式的机器学习系统，打破了现实社会不同企业，机构之间数据不共享而产生的数据孤岛的问题，本地参与者上传加密后的模型参数，具有较高的隐私保护机制，防止隐私数据泄露。

中国发明专利CN114566277A公开了一种基于联邦元学习的罕见疾病分类方法，包括：对本地医疗数据进行预处理，将常见疾病分为用于元模型训练的支持集和查询集，将罕见疾病分为测试集和验证集；基于强化分类的元学习方法，对支持集和查询集进行动态更新分类，得到训练后的元模型；以F分数对训练后的元模型动态筛选，并进行动态特征融合，得到更新后的全局模型；将更新后的全局模型参数下发给本地元模型初始化，开始下一轮训练；直至获取各个本地收敛的元模型，根据收敛后的元模型获取罕见疾病概率值。

联邦元学习广泛应用于医疗领域，但应用于罕见病领域存在一定的局限性。由于罕见病是指患者数量较少的疾病，通常每种罕见病的患者数量都不超过一定的阈值，存在数据稀缺和数据高度异构的情况，故联邦学习现面临一些挑战，包括异构性和隐私泄露的问题，在实际应用中，如何确保每个本地客户端本地个性化模型泛化能力好，同时隐私数据不被泄露。但此技术的应用存在一些问题：①隐私与效用的平衡：差分隐私通过引入噪声来保护数据隐私，但同时也会对模型的准确性和效用产生影响。②参与方的异质性：在联邦学习中，参与方可能具有不同的数据分布和特征，这种异质性给隐私保护带来了额外的困难。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供一种基于数据增强与隐私增强的组联邦元学习方法，以解决现有技术中由于罕见病发病率较低，数据通常来自多个不同的数据源，包括医院、医疗机构、患者注册表等，存在数据异构性、数据稀缺、类别不平衡的情况，而现有的联邦元学习技术隐含假设不同客户端之间的数据分布是相似的，数据不稀缺的情况下进行研究，没有考虑实际场景中的问题，因此在处理罕见病医疗领域中本地模型泛化效果较差，医疗数据存在被泄露的风险等问题。

本发明详细的技术方案如下：

S1、本地客户端处理阶段：对每个本地客户端的图像数据进行数据增强处理，并将本地客户端的数据分布表示和本地元模型发送至服务器；

S2、服务器端根据本地客户端的数据分布表示对本地客户端进行初始分组，再将收到的本地元模型进行平均聚合生成组元模型并发送至不同分组中的本地客户端；

S3、各本地客户端随机选取自端客户端数据更新数据分布表示，同时，根据得到的组元模型和随机选取的自端客户端数据更新自端的本地元模型，将更新的数据分布表示和更新的本地元模型发送至服务器；

S4、服务器根据更新的数据分布表示使用K-means聚类算法结合欧氏距离公式更新分组，然后将更新的本地元模型进行更新后的组内聚合，生成新的组元模型；

S5、重复S3-S4直至达到设置的更新迭代阈值；

S6、在更新迭代后进行本地客户端模型个性化阶段，用于验证组元模型能否使本地客户端模型个性化泛化能力提高。

本地客户端使用自端数据库中测试任务数据集进行模型个性化，具体过程如下：

本地客户端将自端数据库中测试任务数据集输入到基于自注意力机制的卷积神经网络而获取数据特征，并生成数据分布表示发送给服务器；

在服务器端，将本地客户端的数据分布表示与簇类中心进行欧氏距离对比其相似度，然后向本地客户端返回对应的组元模型用于更新自适应差分项和本地元模型，更新后的本地元模型性能得到提高。

所述S1具体包括以下步骤：

S11、由于罕见病数据存在数据稀缺，分类多样的情况，会导致本地元模型性能低，因此对本地客户端的图像数据进行数据增强；

所述数据增强包括：翻转，抖动，旋转，剪切；

S12、构建基于自注意力机制的卷积神经网络提取各本地客户端的数据特征和相对应的权重值，得到各本地客户端的数据分布表示；通过学习自注意力权重来关注医学图像中的重要区域，从而提高模型对关键特征的捕获能力，同时允许模型动态调整不同位置的权重；

所述基于自注意力机制的卷积神经网络包括：

在训练基于自注意力机制的卷积神经网络中，通过计算每个图像像素位置的查询（Q）、关键向量（K）、值（v），并计算位置之间的关联度，从而使模型能够动态调整对图像中不同位置的关注程度。

首先通过查询Query（Q）和关键向量（K）之间的点积，再除以一个缩放因子计算得到注意力分数/>，公式如下：

（3）；

然后通过注意力分数进行Softmax操作得到注意力权重，公式如下：

（4）；

最后，通过将注意力权重应用于CNN卷积神经网络提取的原始特征，通过加权求和的方式得到了新的特征表示/>，公式如下：

（5）；

因此，每个本地客户端都依据本地基于自注意力机制的卷积神经网络（CNN）提取数据特征，获得本地数据分布表示，一共有N个本地客户端，因此有N个数据分布表示。

S13、定义自适应差分项协同损失函数；

由于要实现的是组联邦元学习，在其训练过程中不仅存在模型反演攻击和成员推理攻击常见的联邦学习中隐私泄露技术，还会因为是依据本地数据进行聚类分组，组内成员的数据分布具有相似性，攻击者会通过分析和对比这些数据和信息，推断出组内其他参与者之间的数据，导致敏感数据的泄露，因此本发明提出在组联邦元学习中引入自适应差分项，具体过程如下：

引入的自适应差分项是跟随本地客户端本地训练模型的损失函数进行训练，因此要先定义自适应差分项；

（1）；

值随着迭代的次数收敛到较小的值，因此噪声会在保护数据的同时，避免模型受到较大的干扰，/>作为常量，通常其值较小，为防止因/>数值较小而发生除数为0的错误而引入。

含有自适应差分项的自适应损失函数如下：

（2）；

S14、每个本地客户端根据模型损失函数收敛确定自适应差分项，对本地元模型/>进行噪声干扰，生成具有隐私保护的本地元模型/>。

S15、将每个本地客户端的本地元模型和数据分布表示/>发送至服务器。

进一步地，所述S2具体包括以下步骤：

S21、服务器根据收到的本地客户端数据分布表示，利用K-means++算法，得到K个初始簇中心/>；

S22、得到K个初始簇类中心后，结合各个本地客户端的数据分布表示/>，使用欧氏距离进行初始化分组；

（6）；

（7）；

代表/>到/>的距离，距离越小，说明相似度越高，因此/>代表本地客户端i的分组标识，通过分组标识能够将本地客户端分成K个分组/>。

S23、服务器将收到的各本地客户端的本地元模型进行平均聚合生成初始化全局元模型作为组元模型，并发送至不同分组中每个本地客户端；

（8）；

其中N为本地客户端的总数量，是本地客户端本身所对应的模型权重，其中。

所述S3具体包括以下步骤：

此更新迭代阶段仍遵循联邦学习的工作流程，设置本地客户端和服务器通信轮数为R，本地客户端训练迭代轮数为T；

S31、本地客户端随机选取自端客户端数据并进行数据增强得到随机数据集，然后输入基于自注意力机制的卷积神经网络，更新数据分布表示；

S32、本地客户端接收到对应组的组元模型，利用随机数据集进行本地迭代更新得到更新后的本地元模型；

本地客户端本地迭代更新分为元训练阶段和元测试阶段；

元训练阶段：本地客户端将自端训练任务数据集，作为模型的输入数据，进行模型训练从而使模型梯度下降，得到更新后的客户端本地元模型和自适应差分项：

（9）；

代表元训练阶段的学习率，/>代表在/>轮中本地客户端i选取的训练任务数据集/>中m个任务的损失表示，/>代表服务器下发的组元模型。

元测试阶段：本地客户端通过利用自端测试任务数据集，对模型和自适应差分项进行微调，使模型能够进行少量梯度更新从而适应新任务。

（10）；

其中代表元测试阶段的学习率，/>代表本地客户端i在第/>次元训练阶段后的本地元模型。

通过元训练和元测试阶段得到了本地客户端i的本地元模型和自适应差分项；在上传服务器之前，对元模型梯度进行噪声干扰，从而达到隐私增强，最终生成更新后的本地元模型/>：

（11）；

S33、所有本地客户端将更新后的模型和数据分布表示上传给服务器。

与现有技术相比，本发明的有益效果为：

1.本发明提出一种基于数据增强与隐私增强的组联邦元学习方法，在初始化阶段，先对客户端中元数据集中训练任务的支持集进行数据增强，同样训练任务也进行增强，能够帮助本地元学习者在数据稀缺的情况下元学习能力提高，客户端使用基于自注意力机制的卷积神经网络进行特征提取，可以更准确的提取数据特征。

2.本发明提出一种基于数据增强与隐私增强的组联邦元学习方法，通过K-means++聚类算法和欧氏距离公式，根据本地数据相似度进行划分组，然后结合元学习算法，形成组联邦元学习算法，能够实现本地个性化模型泛化效果提升，并且K-means++只用于寻找初始化簇类中心阶段，有助于确保分组的初始化是合理的，能够帮助减少不良的初始分组结果，避免了陷入局部最小值问题，提高了初始分组的质量，在更新迭代过程中，使用K-means算法结合欧氏距离进行单次调整分组结果，选出好的初始分组结果会节省计算资源，高效提高本地个性化模型的泛化效果；并且基于数据增强生成的组联邦元模型能够解决现个性化联邦学习中数据高度异构、分布不均衡、数据稀缺等问题导致模型性能下降的挑战。

3.本发明提出一种基于数据增强与隐私增强的组联邦元学习方法，在模型损失函数中引入自适应差分项，随着损失函数一起训练，直至收敛，然后基于自适应差分项对模型梯度进行加噪，防止隐私泄露，在基于数据增强的组联邦元学习算法的基础上进行改进，不仅可以使本地模型个性化泛化效果好同时保证其隐私不被泄露，形成DAPGFedmeta算法的算法。

附图说明

图1是本发明的流程示意图。

图2是本发明基于数据增强初始化阶段示意图。

图3是本发明联邦优化阶段示意图。

图4是本发明医院本地模型个性化阶段示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于数据增强与隐私增强的组联邦元学习方法，如图1所示：

S1、本地客户端处理阶段：

S1、本地客户端处理阶段：对每个本地客户端的图像数据进行数据增强处理，并将本地客户端的数据分布表示和本地元模型发送至服务器。所述S1具体步骤为：

进一步地，所述S1如图2所示，具体包括：

S11、本地客户端即医院端，由于本端数据可能存在数据稀缺，分类多样的情况，会导致本地元模型性能低，因此对本地客户端的图像数据进行数据增强，所述数据增强包括：

翻转，对选中的图像数据进行垂直翻转，垂直翻转能够捕获医学图像的独特属性；

抖动，对于每个图像，添加少量的对比度（+/-1-5个强度值）；

旋转，进行放射变换，，其中/>取值范围为15~170度之间，B为增强后的图像数据；

剪切，对每个图像进行剪切，用仿射变换表示，b定义了图像被剪切的量，其取值范围为[0.15，0.45]。

所述基于自注意力机制的卷积神经网络包括：

（3）；

（4）；

（5）；

S13、定义自适应差分项协同损失函数；

（1）；

通过非线性的sigmoid函数进行激活作为损失函数的正则项引入，当/>项激活后，其值是介于0~1 范围之内，能够保证训练过程中，损失不会因为/>值的局部发散导致明显的震荡，其中/>作为常量，通常较小，防止/>数值较小而发生除数为0的错误而引入，/>会随着迭代的次数收敛到较小的值，因此噪声会在保护数据的同时，避免模型受到较大的干扰；

含有自适应差分项的自适应损失函数如下：

（2）。

S14、每个本地客户端根据模型损失函数收敛确定自适应差分项，对本地元模型进行噪声干扰，生成具有隐私保护的本地元模型/>。

S2、服务器端根据本地客户端的数据分布表示对本地客户端分组，再将收到的本地元模型进行平均聚合生成初始化全局元模型并发送至不同分组中对应的本地客户端；

S21、服务器依据收到的本地客户端数据分布表示，利用K-means++算法，得到K个初始簇中心/>，具体实施如下：

S211、从数据分布表示中随机选择一个作为第一个初始类中心；

S212、计算V中每个数据分布表示和已有聚类中心的样本最近距离，取其中最短距离作为计算结果，公式表示如下：

（12）；

S213、计算每个数据分布表示作为聚类中心的概率，公式如下：

（13）；

S214、根据从数据分布表示中随机选择聚类中心，距离已有聚类中心越远的样本点越有可能成为下一个初始聚类中心；

S215、重复步骤S212~S214，直到获得K个初始聚类中心。

S22、得到K个初始簇类中心后，结合得到各个本地客户端（/>）的数据分布表示依据/>使用欧氏距离进行分组；

（6）；

（7）；

代表/>到/>的距离，距离越小，说明相似度越高，/>代表各本地客户端（）的分组结果，最后能够得到K个分组/>。

S23、服务器将收到的各个本地元模型进行平均聚合生成初始化全局元模型/>并发送至不同分组中对应的本地客户端；

（8）；

其中N为本地客户端的总数量，是本地客户端本身所对应的权重模型权重，其中。

S3、所有本地客户端收到服务器下发的初始化全局元模型后，进行更新本地元模型；此更新迭代阶段仍遵循联邦学习的工作流程，设置本地客户端和服务器通信轮数为R，本地客户端训练迭代轮数为T，以本地客户端i为例代表其他各本地客户端，如图3所示，具体包括：

S31、本地客户端i随机选取自端客户端数据并进行数据增强得到随机数据集，然后输入基于自注意力机制的卷积神经网络，更新数据分布表示/>；所述S31具体步骤如下：

S311、本地客户端i随机选取本端数据；

S312、将自端训练任务数据集中的支持集发送至数据增强器进行增强，得到增强自端训练数据集；

S313、本地客户端通过基于自注意力机制的卷积神经网络（CNN）对增强自端训练数据集进行提取数据特征生成本端的新数据分布表示。

S32、本地客户端i接收到对应的组q的组元模型，在本地利用端数据集进行本地迭代更新得到更新后的模型；

本地客户端本地迭代更新分为元训练阶段和元测试阶段。

元训练阶段：本地客户端将自端训练任务数据集，作为模型的输入数据，进行模型训练从而使模型梯度下降，得到更新后的客户端本地元模型/>和自适应差分项/>。

（9）；

（10）；

通过元训练和元测试阶段得到了本地客户端i的本地元模型和自适应差分项；在上传服务器之前，对元模型梯度进行噪声干扰，从而达到隐私增强，最终生成更新后的本地元模型。

（11）；

S33、本地客户端i将更新后的模型和数据分布表示/>上传给服务器，直至所有本地客户端上传完成。

S4、服务器根据更新的数据分布表示使用K-means聚类算法结合欧氏距离公式更新分组，然后将更新的本地元模型进行更新后的组内聚合，生成新的组元模型，具体步骤如下：

S41、生成新的簇类中心：服务器接收到各本地客户端更新后的数据分布表示，利用K-means算法重新生成簇类中心，公式如下：

（14）；

能够得到更新后的K个新的簇类中心。

S42、当欧氏距离值最小时，表示数据相差较小，相似度最高，每个本地客户端能够得到新的分组标识/>，公式如下：

（15）。

S43、服务器能够形成K个新的分组，对于每一轮/>进行一次组内客户端元模型聚合，形成多个组元模型/>。

S5、重复S3-S4直至达到设置的更新迭代阈值；

S6、本地客户端元模型个性化阶段，即在更新迭代后进行本地客户端模型个性化阶段，用于验证组元模型能否使本地客户端模型个性化泛化能力提高；

本地客户端使用自端数据库中测试任务数据集进行模型个性化，具体过程如图4所示，以客户端e为例：

本地客户端e将自端数据库中的测试任务数据集输入到基于自注意力机制的卷积神经网络获取数据特征，并生成数据分布表示发送给服务器；

在服务器端，对比本地客户端e的数据分布表示和各簇类中心的相似度，根据相似度进行分组，最后向本地客户端e返回对应的组元模型j，进行更新自适应差分项和本地元模型，因此本地元模型性能提高。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，包括：

S1、对每个本地客户端的图像数据进行数据增强处理，并将本地客户端的数据分布表示和本地元模型发送至服务器；

S5、重复S3-S4直至达到设置的更新迭代阈值；

S6、本地客户端使用自端数据库中测试任务数据集进行模型个性化。

2.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述S1具体包括：

S11、此对本地客户端的图像数据进行数据增强，所述数据增强包括：翻转，抖动，旋转，剪切；

S12、构建基于自注意力机制的卷积神经网络提取各本地客户端的数据特征和相对应的权重值，得到各本地客户端的数据分布表示；

S13、定义自适应差分项协同损失函数；

引入的自适应差分项是跟随本地客户端本地训练模型的损失函数进行训练，因此先定义自适应差分项；

（1）；

公式（1）中，值随着迭代的次数而收敛，/>作为常量；

含有自适应差分项的自适应损失函数F如下：

（2）；

S14、每个本地客户端根据模型损失函数收敛确定自适应差分项，对本地元模型/>进行噪声干扰，生成具有隐私保护的本地元模型/>；

3.根据权利要求2所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述基于自注意力机制的卷积神经网络包括：

在训练基于自注意力机制的卷积神经网络中，通过计算每个图像像素位置的查询（Q）、关键向量（K）、值（v），并计算位置之间的关联度，从而使模型能够动态调整对图像中不同位置的关注程度；

（3）；

（4）；

（5）；

因此，每个本地客户端都依据本地基于自注意力机制的卷积神经网络提取数据特征，获得本地数据分布表示，共有N个本地客户端，因此有N个数据分布表示。

4.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述S2具体包括以下步骤：

S22、得到K个初始簇类中心后，结合各个本地客户端的数据分布表示

，使用欧氏距离进行初始化分组；

（6）；

（7）；

代表/>到/>的距离，距离越小，说明相似度越高，因此/>代表本地客户端i的分组标识，通过分组标识能够将本地客户端分成K个分组/>；

（8）；

其中N为本地客户端的总数量，是本地客户端本身所对应的模型权重，其中/>。

5.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述S3具体包括以下步骤：

6.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述本地客户端本地迭代更新分为元训练阶段和元测试阶段；

（9）；

公式（9）中，代表元训练阶段的学习率，/>代表在/>轮中本地客户端i选取的训练任务数据集/>中m个任务的损失表示，/>代表服务器下发的组元模型；

元测试阶段：本地客户端通过利用自端测试任务数据集，对模型和自适应差分项进行微调；

（10）；

公式（10）中，代表元测试阶段的学习率，/>代表本地客户端i在第/>次元训练阶段后的本地元模型；

通过元训练和元测试阶段得到了本地客户端i的本地元模型和自适应差分项，在上传服务器之前，对元模型梯度进行噪声干扰，最终生成更新后的本地元模型：

（11）。