CN115600686A - 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 - Google Patents
基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 Download PDFInfo
- Publication number
- CN115600686A CN115600686A CN202211271384.1A CN202211271384A CN115600686A CN 115600686 A CN115600686 A CN 115600686A CN 202211271384 A CN202211271384 A CN 202211271384A CN 115600686 A CN115600686 A CN 115600686A
- Authority
- CN
- China
- Prior art keywords
- client
- parameters
- model
- transformer
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于个性化Transformer的联邦学习系统。本发明的另一个技术方案是提供了一种基于个性化Transformer的联邦学习模型训练方法。本发明为每个客户端学习一个独特的自注意力层,而其他层的参数在客户端之间共享。此外,本发明通过在服务器上训练一个超网络,以生成自注意力层中的投影矩阵,从而获得与客户端相关的查询、键和值。这种超网络有效维护了客户端之间参数共享,同时保持了个性化Transformer的灵活性。因此本发明大大提升了联邦学习在数据异构环境下的推理预测能力。
Description
技术领域
本发明涉及一种基于个性化Transformer的联邦学习模型训练方法及联邦学习系统,属于人工智能领域。
背景技术
联邦学习是一种以并行计算为基础的分布式机器学习,其结构由一个服务器和若干客户端组成。每个客户端使用自己的本地数据训练一个模型,并只将训练的模型发送回服务器,服务器将接收到的各模型进行聚合得到一个全局模型,在此过程中不会共享客户端本地数据。通过这种方式,联邦学习克服了数据隐私和通信开销方面的一系列问题。然而当客户端之间存在数据异构和系统异构时,单一的全局模型将难以应对与全局分布截然不同的局部分布情况。因此,能为各客户端提供个性化解决方案的个性化联邦学习作为联邦学习的一种扩展应运而生。
当前大多数联邦学习框架都基于卷积神经网络,它通常关注输入的高频局部区域,这种模式可能对数据异质性非常敏感。由于使用自注意力提取的特征具有全局性,Transformer往往对非独立同分布的数据和分布偏移更加稳健。基于此,最近的一项工作提出将Transformer作为联邦学习的网络体系结构,指出Transformer比卷积神经网络能更有效地处理异构数据,但联邦学习算法在聚合过程中可能对自注意力机制造成的影响尚未被研究。
综上所述,当前联邦学习所面临的主要难题有:
(1)现有方法不能很好地处理客户端之间数据异构和系统异构的问题,且大都基于卷积神经网络,对于非独立同分布的数据较为敏感;
(2)现有方法对于图像和语言任务没有一个统一的联邦学习框架;
(3)现有方法在聚合过程中会对Transformer的自注意力机制产生较大影响,缺少更适用于Transformer结构的个性化联邦学习框架。
发明内容
本发明的目的是:考虑Transformer中自注意力的特性,保留客户端个性化特征,且能够更好地捕捉数据异质性并处理客户端之间的分布偏移问题。
为了达到上述目的,本发明的技术方案是公开了一种基于个性化Transformer的联邦学习系统,包括一个服务器和若干客户端,其特征在于,根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,将客户端i的模型参数θi分解为θi={Wi,ξi},其中,Wi为Transformer中自注意力层的投影矩阵,ξi为Transformer中除自注意力层外其余层的参数;
服务器储存有一个超网络以及与每个客户端对应的嵌入向量;
在联邦学习的第k个通信轮次中:
客户端i利用本地数据Bi对初始化后的模型进行本地训练 其中:为客户端i第k个通信轮次更新后的模型参数;α为学习率;为关于参数θi的梯度算子;表示为l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,为训练样本的特征,为训练样本的标签;
将模型参数Wi k保留在客户端i本地,用于储存客户端i的个性化信息;将参数差ΔWi=Wi k-Wi k-1和上传到服务器,分别进行参数更新和聚合以获得其他客户端上的有利信息,得到第k个通信轮次的全局参数其中,N为客户端的数量,mi为客户端i的本地数据量,M为所有客户端的总体数据量。
优选地,所述超网络由三层全连接网络构成,其最后一层全连接网络对于Transformer中的每个模块来说都是不同的。
本发明的另一个技术方案是提供了一种基于个性化Transformer的联邦学习模型训练方法,其特征在于,包括以下步骤:
步骤二:对于初始化后的客户端i,利用随机梯度下降法本地训练其模型t轮,根据从本地数据中采样的训练批次Bi,模型参数用进行更新,其中:为客户端i第k个通信轮次第t轮更新后的模型参数;α为学习率;为关于参数θi的梯度算子;表示为l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,为训练样本的特征,为训练样本的标签;
式中,β为学习率;
步骤六:重复步骤一至步骤五直至达到所规定的训练迭代轮次。
本发明为每个客户端训练并保留其独特的自注意力层参数,而模型中的其他网络层参数与其余客户端进行共享,以此让模型具有更好的处理数据异构的能力。除此之外,为了在客户端之间有效共享参数,同时保持个性化Transformer模型的灵活性,本发明通过在服务器上训练一个超网络其中,为超网络的参数,z作为超网络的输入为相应客户端可学习的嵌入向量,其输出为自注意力层的投影矩阵以获得与该客户端相关的查询Q=HWQ,键K=HWK和值V=HWV,其中,H为输入的嵌入矩阵。这种超网络结构不仅减少了整个模型需要学习的参数数量,并且对于没有参与训练阶段的新客户端也可以提供具有良好性能的个性化模型。
另一方面,得益于个性化的Transformer结构,本发明还提供了一种同时适用于图像及语言任务的联邦学习系统,该系统包含一个中央服务器以及多个客户端。根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,在第k个通信轮次中,根据本地数据训练模型,并将除自注意力层以外的参数ξi发送至服务器。在所述中央服务器中,储存有一个超网络以及与每个客户端对应的嵌入向量。该超网络由三层全连接网络构成,为了超网络的性能,其最后一层全连接网络对于Transformer中的每个模块来说都是不同的。所述服务器在第k个通信轮次生成各客户端特定的自注意力层参数Wi,并将各客户端发送的参数ξi进行加权聚合得到全局参数
与现有技术相比,本发明具有如下有益效果:
(1)本发明第一个探索了自注意力机制在个性化联邦学习中的作用,能更有效地处理非独立同分布的数据;
(2)本发明提出了一个全新的基于Transformer的联邦学习框架,为每个客户端学习全新的自注意力机制,并共享其余参数,在保留个性化信息的同时提高了模型鲁棒性;
(3)本发明为使用相同的联邦网络体系结构执行图像和语言任务提供了一个方便的环境,并在这两项任务中,本发明均能取得比其余个性化联邦学习方法更好的性能。
附图说明
图1示意了基于个性化Transformer的联邦学习模型框架;
图2示意了每个客户端个性化Transformer的模型框架;
图3为基于个性化Transformer的联邦学习模型流程图;
图4为各算法微调模型中个性化参数后新客户端的精度。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本实施公开的一种基于个性化Transformer的联邦学习方法包括以下步骤:
步骤一:在初始化t=0开始阶段,给定一个中央服务器和N个客户端C={c1,c2,...,cN},接着从总数据集中按照分布(本发明使用参数α=0.3的狄利克雷分布)为每个客户端抽取本地数据集其中mi为数据集样本量的个数,并初始化每个客户端的本地模型f(θi;·)和嵌入向量zi以及服务器上超网络中的参数
步骤二:对于集合C中的客户端i,在本地训练前需要对其本地数据进行预处理,包括数据打乱及归一化处理,然后将本地数据按照5:1的比例划分为训练集和测试集,训练集和测试集的数据分布需保持一致,并将两个数据集随机采样为n批次得到其中n为批次大小。
步骤三:将客户端i的本地数据划分为n批次后,需要对其批次中的样本数据再次进行处理:对于序列数据,将其映射为嵌入矩阵;对于图像数据,将原始图片进行分块,并展平为一维向量,接着对每个向量做一个线性变换,压缩其维度为d,这样也得到了一个嵌入矩阵。为了加入序列及分块图片的位置信息,在每个向量中还需引入位置编码。
步骤四:在第k轮训练中,首先从所有客户端中随机挑选出a个客户端组成子集Ct,对于集合Ct中的客户端i,分两步初始化更新其模型参数 Wi k,0通过服务器上的超网络生成得到:其中为第k-1轮更新的超网络参数,为第k-1轮更新的相应客户端的嵌入向量;2)从服务器上下载第k-1轮聚合得到的全局参数
步骤五:对于初始化后的客户端i,将步骤三中处理好的训练集批次输入到Transformer结构的模型中,利用随机梯度下降法本地训练t轮,其模型参数可以用进行更新,其中:为客户端i第k个通信轮次第t轮更新后的模型参数;α为学习率;为关于参数θi的梯度算子;表示为l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,为训练样本的特征,为训练样本的标签。
步骤九:完成第k轮训练后,服务器将更新后的全局参数及超网络生成的参数Wi k传送给所有客户端,利用各客户端的本地测试集进行测试,计算得到第k轮更新的个性化模型在各客户端上的测试准确率,从而计算得到全局的平均测试准确率,以此判断第k轮训练得到的个性化模型的性能。
步骤十:重复步骤四至步骤九直至达到所规定的训练迭代轮次。
步骤十二:对于未参与训练过程的新客户端,可以直接利用步骤十一中记录的全局参数和超网络参数以及随机初始化的相应嵌入向量z,本地训练其个性化模型,经过几轮微调后即可得到较好的结果。我们将经过上述步骤得到的基于个性化Transformer的联邦学习模型称作FedTP,并将其与当前一些较为流行的个性化联邦学习方法分别对图像数据集CIFAR-10和CIFAR-100在两种不同的数据分布(标签不平衡分布指每个客户端拥有固定数量标签的数据样本,狄利克雷分布指根据特定的狄利克雷分布给每个客户端分配一定比例的标签样本)以及拥有100个客户端的情况下的准确度作比较,其中各模型均训练1500轮,每轮随机选取10%的客户端参与训练,实验结果见表一。从表中可以看出,FedTP在所有情况下都优于其他模型。
表一:FedTP与其余模型在100个客户端情况下的精度
为了消除由模型结构差异带来的影响,我们将相同的Transformer结构转移到其他个性化联邦学习方法中,进一步对其结果进行比较,实验结果如表二所示。为了区分这些模型与表一中的模型,我们在更改网络结构的模型后加上“-T”。表二的结果表明,即使将其他模型的网络结构更改为与FedTP相同的Transformer,我们的FedTP仍能取得最好的效果。
表二:FedTP与其余基于Transformer的模型在100个客户端情况下的精度
此外,我们分别针对pFedMe、pFedHN、FedRod和FedTP测试了模型在数据集CIFAR-100上的泛化能力,其中80%的客户端用于训练,剩下20%的客户端在训练期间不可见。对于新加入的客户端,我们通过微调模型的个性化参数以及新客户端基于全局模型和个性化参数得到的精度来比较各模型的泛化能力,结果如图4所示。从图4中可以看出,FedTP仅通过一步微调就能得到较好的效果,随着微调轮次数的增大,FedTP始终能取得比其他方法更好的结果,证实了FedTP具有良好的泛化性。
Claims (4)
1.一种基于个性化Transformer的联邦学习系统,包括一个服务器和若干客户端,其特征在于,根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,将客户端i的模型参数θi分解为θi={Wi,ξi},其中,Wi为Transformer中自注意力层的投影矩阵,ξi为Transformer中除自注意力层外其余层的参数;
服务器储存有一个超网络以及与每个客户端对应的嵌入向量;
在联邦学习的第k个通信轮次中:
客户端i利用本地数据Bi对初始化后的模型进行本地训练 其中:为客户端i第k个通信轮次更新后的模型参数;α为学习率;为关于参数θi的梯度算子;表示为l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,为训练样本的特征,为训练样本的标签;
3.如权利要求1所述的一种基于个性化Transformer的联邦学习系统,其特征在于,所述超网络由三层全连接网络构成,其最后一层全连接网络对于Transformer中的每个模块来说都是不同的。
4.一种基于个性化Transformer的联邦学习模型训练方法,其特征在于,包括以下步骤:
步骤二:对于初始化后的客户端i,利用随机梯度下降法本地训练其模型t轮,根据从本地数据中采样的训练批次Bi,模型参数用进行更新,其中:为客户端i第k个通信轮次第t轮更新后的模型参数;α为学习率;为关于参数θi的梯度算子;表示为l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,为训练样本的特征,为训练样本的标签;
式中,β为学习率;
步骤六:重复步骤一至步骤五直至达到所规定的训练迭代轮次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211271384.1A CN115600686A (zh) | 2022-10-18 | 2022-10-18 | 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211271384.1A CN115600686A (zh) | 2022-10-18 | 2022-10-18 | 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115600686A true CN115600686A (zh) | 2023-01-13 |
Family
ID=84846652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211271384.1A Pending CN115600686A (zh) | 2022-10-18 | 2022-10-18 | 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600686A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385070A (zh) * | 2023-01-18 | 2023-07-04 | 中国科学技术大学 | 电商短视频广告多目标预估方法、系统、设备及存储介质 |
CN117010484A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 基于注意力机制的个性化联邦学习泛化方法、设备、应用 |
-
2022
- 2022-10-18 CN CN202211271384.1A patent/CN115600686A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385070A (zh) * | 2023-01-18 | 2023-07-04 | 中国科学技术大学 | 电商短视频广告多目标预估方法、系统、设备及存储介质 |
CN116385070B (zh) * | 2023-01-18 | 2023-10-03 | 中国科学技术大学 | 电商短视频广告多目标预估方法、系统、设备及存储介质 |
CN117010484A (zh) * | 2023-10-07 | 2023-11-07 | 之江实验室 | 基于注意力机制的个性化联邦学习泛化方法、设备、应用 |
CN117010484B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 基于注意力机制的个性化联邦学习泛化方法、设备、应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Dynamic clustering in federated learning | |
Zhu et al. | Real-time federated evolutionary neural architecture search | |
US10657461B2 (en) | Communication efficient federated learning | |
CN115600686A (zh) | 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 | |
CN107943938A (zh) | 一种基于深度乘积量化的大规模图像相似检索方法及系统 | |
Zhang et al. | Learning-based sparse data reconstruction for compressed data aggregation in IoT networks | |
CN114332984B (zh) | 训练数据处理方法、装置和存储介质 | |
CN114943345B (zh) | 基于主动学习和模型压缩的联邦学习全局模型训练方法 | |
CN114357067A (zh) | 一种针对数据异构性的个性化联邦元学习方法 | |
CN115587633A (zh) | 一种基于参数分层的个性化联邦学习方法 | |
CN109146061A (zh) | 神经网络模型的处理方法和装置 | |
CN115829027A (zh) | 一种基于对比学习的联邦学习稀疏训练方法及系统 | |
CN114553718B (zh) | 一种基于自注意力机制的网络流量矩阵预测方法 | |
CN113344221A (zh) | 一种基于神经网络架构搜索的联邦学习方法及系统 | |
Xue et al. | FedOComp: Two-timescale online gradient compression for over-the-air federated learning | |
Itahara et al. | Lottery hypothesis based unsupervised pre-training for model compression in federated learning | |
Rawson et al. | Convergence guarantees for deep epsilon greedy policy learning | |
Zou et al. | Dynamic games in federated learning training service market | |
Xue et al. | Aggregation delayed federated learning | |
CN115359298A (zh) | 基于稀疏神经网络的联邦元学习图像分类方法 | |
CN117350373B (zh) | 一种基于局部自注意力机制的个性化联邦聚合算法 | |
Zhang et al. | Federated multi-task learning with non-stationary heterogeneous data | |
Rizzello et al. | Learning representations for CSI adaptive quantization and feedback | |
CN117036901A (zh) | 一种基于视觉自注意力模型的小样本微调方法 | |
CN117521783A (zh) | 联邦机器学习方法、装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |