CN115600686A - 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 - Google Patents

基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 Download PDF

Info

Publication number
CN115600686A
CN115600686A CN202211271384.1A CN202211271384A CN115600686A CN 115600686 A CN115600686 A CN 115600686A CN 202211271384 A CN202211271384 A CN 202211271384A CN 115600686 A CN115600686 A CN 115600686A
Authority
CN
China
Prior art keywords
client
parameters
model
transformer
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211271384.1A
Other languages
English (en)
Inventor
石野
李红霞
蔡中一
汪婧雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202211271384.1A priority Critical patent/CN115600686A/zh
Publication of CN115600686A publication Critical patent/CN115600686A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于个性化Transformer的联邦学习系统。本发明的另一个技术方案是提供了一种基于个性化Transformer的联邦学习模型训练方法。本发明为每个客户端学习一个独特的自注意力层,而其他层的参数在客户端之间共享。此外,本发明通过在服务器上训练一个超网络,以生成自注意力层中的投影矩阵,从而获得与客户端相关的查询、键和值。这种超网络有效维护了客户端之间参数共享,同时保持了个性化Transformer的灵活性。因此本发明大大提升了联邦学习在数据异构环境下的推理预测能力。

Description

基于个性化Transformer的联邦学习模型训练方法及联邦学 习系统
技术领域
本发明涉及一种基于个性化Transformer的联邦学习模型训练方法及联邦学习系统,属于人工智能领域。
背景技术
联邦学习是一种以并行计算为基础的分布式机器学习,其结构由一个服务器和若干客户端组成。每个客户端使用自己的本地数据训练一个模型,并只将训练的模型发送回服务器,服务器将接收到的各模型进行聚合得到一个全局模型,在此过程中不会共享客户端本地数据。通过这种方式,联邦学习克服了数据隐私和通信开销方面的一系列问题。然而当客户端之间存在数据异构和系统异构时,单一的全局模型将难以应对与全局分布截然不同的局部分布情况。因此,能为各客户端提供个性化解决方案的个性化联邦学习作为联邦学习的一种扩展应运而生。
当前大多数联邦学习框架都基于卷积神经网络,它通常关注输入的高频局部区域,这种模式可能对数据异质性非常敏感。由于使用自注意力提取的特征具有全局性,Transformer往往对非独立同分布的数据和分布偏移更加稳健。基于此,最近的一项工作提出将Transformer作为联邦学习的网络体系结构,指出Transformer比卷积神经网络能更有效地处理异构数据,但联邦学习算法在聚合过程中可能对自注意力机制造成的影响尚未被研究。
综上所述,当前联邦学习所面临的主要难题有:
(1)现有方法不能很好地处理客户端之间数据异构和系统异构的问题,且大都基于卷积神经网络,对于非独立同分布的数据较为敏感;
(2)现有方法对于图像和语言任务没有一个统一的联邦学习框架;
(3)现有方法在聚合过程中会对Transformer的自注意力机制产生较大影响,缺少更适用于Transformer结构的个性化联邦学习框架。
发明内容
本发明的目的是:考虑Transformer中自注意力的特性,保留客户端个性化特征,且能够更好地捕捉数据异质性并处理客户端之间的分布偏移问题。
为了达到上述目的,本发明的技术方案是公开了一种基于个性化Transformer的联邦学习系统,包括一个服务器和若干客户端,其特征在于,根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,将客户端i的模型参数θi分解为θi={Wi,ξi},其中,Wi为Transformer中自注意力层的投影矩阵,ξi为Transformer中除自注意力层外其余层的参数;
服务器储存有一个超网络以及与每个客户端对应的嵌入向量;
在联邦学习的第k个通信轮次中:
客户端i从服务器上下载第k-1个通信轮次更新聚合的参数
Figure BDA0003895057100000021
利用位于服务器的超网络
Figure BDA0003895057100000022
生成客户端i的投影矩阵Wi,其中:
Figure BDA0003895057100000023
为超网络的参数;zi为超网络的输入,是客户端i可学习的嵌入向量;
客户端i利用本地数据Bi对初始化后的模型进行本地训练
Figure BDA0003895057100000024
Figure BDA0003895057100000025
其中:
Figure BDA0003895057100000026
为客户端i第k个通信轮次更新后的模型参数;α为学习率;
Figure BDA0003895057100000027
为关于参数θi的梯度算子;
Figure BDA0003895057100000028
表示为
Figure BDA0003895057100000029
l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,
Figure BDA00038950571000000210
为训练样本的特征,
Figure BDA00038950571000000211
为训练样本的标签;
将更新后的模型参数
Figure BDA00038950571000000212
分解为
Figure BDA00038950571000000213
其中,Wi k为本地模型中自注意力层的投影矩阵,
Figure BDA00038950571000000214
为本地模型中除自注意力层外其余层的参数;
将模型参数Wi k保留在客户端i本地,用于储存客户端i的个性化信息;将参数差ΔWi=Wi k-Wi k-1
Figure BDA00038950571000000215
上传到服务器,分别进行参数更新和聚合以获得其他客户端上的有利信息,得到第k个通信轮次的全局参数
Figure BDA00038950571000000216
其中,N为客户端的数量,mi为客户端i的本地数据量,M为所有客户端的总体数据量。
优选地,对于服务器上的超网络参数
Figure BDA00038950571000000217
以及客户端i的嵌入向量zi,通过以下两个式子分别进行更新:
Figure BDA00038950571000000218
Figure BDA00038950571000000219
式中,β为学习率,
Figure BDA00038950571000000220
为关于参数
Figure BDA00038950571000000221
的梯度算子,
Figure BDA00038950571000000222
为关于参数zi的梯度算子。
优选地,所述超网络由三层全连接网络构成,其最后一层全连接网络对于Transformer中的每个模块来说都是不同的。
本发明的另一个技术方案是提供了一种基于个性化Transformer的联邦学习模型训练方法,其特征在于,包括以下步骤:
步骤一:在第k轮训练中,首先从所有客户端中随机挑选出a个客户端组成子集Ct,对于集合Ct中的客户端i,分两步初始化更新其模型参数
Figure BDA0003895057100000031
Figure BDA0003895057100000032
其中:
Wi k,0为Transformer中自注意力层的投影矩阵,通过服务器上的超网络生成得到:
Figure BDA0003895057100000033
其中,
Figure BDA0003895057100000034
为第k-1轮更新的超网络参数,
Figure BDA0003895057100000035
为第k-1轮更新的客户端i的嵌入向量;
Figure BDA0003895057100000036
为Transformer中除自注意力层外其余层的参数;
从服务器上下载第k-1轮聚合得到的全局参数
Figure BDA0003895057100000037
步骤二:对于初始化后的客户端i,利用随机梯度下降法本地训练其模型t轮,根据从本地数据中采样的训练批次Bi,模型参数
Figure BDA0003895057100000038
Figure BDA0003895057100000039
进行更新,其中:
Figure BDA00038950571000000310
为客户端i第k个通信轮次第t轮更新后的模型参数;α为学习率;
Figure BDA00038950571000000311
为关于参数θi的梯度算子;
Figure BDA00038950571000000312
表示为
Figure BDA00038950571000000313
l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,
Figure BDA00038950571000000314
为训练样本的特征,
Figure BDA00038950571000000315
为训练样本的标签;
步骤三:本地训练完成后,计算客户端i本地训练前后参数Wi的差ΔWi=Wi k,t-Wi k ,0,并将ΔWi和更新后的参数
Figure BDA00038950571000000316
一并发送至服务器;
步骤四:服务器对接收到的参数
Figure BDA00038950571000000317
进行聚合,得到第k轮的全局参数
Figure BDA00038950571000000318
其中,mi为客户端i的本地数据量,M为所有客户端的总体数据量;
步骤五:对于服务器上的超网络参数
Figure BDA00038950571000000319
以及客户端i的嵌入向量zi,通过以下两个式子分别进行更新:
Figure BDA0003895057100000041
Figure BDA0003895057100000042
式中,β为学习率;
步骤六:重复步骤一至步骤五直至达到所规定的训练迭代轮次。
本发明为每个客户端训练并保留其独特的自注意力层参数,而模型中的其他网络层参数与其余客户端进行共享,以此让模型具有更好的处理数据异构的能力。除此之外,为了在客户端之间有效共享参数,同时保持个性化Transformer模型的灵活性,本发明通过在服务器上训练一个超网络
Figure BDA0003895057100000043
其中,
Figure BDA0003895057100000044
为超网络的参数,z作为超网络的输入为相应客户端可学习的嵌入向量,其输出为自注意力层的投影矩阵
Figure BDA0003895057100000045
以获得与该客户端相关的查询Q=HWQ,键K=HWK和值V=HWV,其中,H为输入的嵌入矩阵。这种超网络结构不仅减少了整个模型需要学习的参数数量,并且对于没有参与训练阶段的新客户端也可以提供具有良好性能的个性化模型。
另一方面,得益于个性化的Transformer结构,本发明还提供了一种同时适用于图像及语言任务的联邦学习系统,该系统包含一个中央服务器以及多个客户端。根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,在第k个通信轮次中,根据本地数据训练模型,并将除自注意力层以外的参数ξi发送至服务器。在所述中央服务器中,储存有一个超网络以及与每个客户端对应的嵌入向量。该超网络由三层全连接网络构成,为了超网络的性能,其最后一层全连接网络对于Transformer中的每个模块来说都是不同的。所述服务器在第k个通信轮次生成各客户端特定的自注意力层参数Wi,并将各客户端发送的参数ξi进行加权聚合得到全局参数
Figure BDA0003895057100000046
与现有技术相比,本发明具有如下有益效果:
(1)本发明第一个探索了自注意力机制在个性化联邦学习中的作用,能更有效地处理非独立同分布的数据;
(2)本发明提出了一个全新的基于Transformer的联邦学习框架,为每个客户端学习全新的自注意力机制,并共享其余参数,在保留个性化信息的同时提高了模型鲁棒性;
(3)本发明为使用相同的联邦网络体系结构执行图像和语言任务提供了一个方便的环境,并在这两项任务中,本发明均能取得比其余个性化联邦学习方法更好的性能。
附图说明
图1示意了基于个性化Transformer的联邦学习模型框架;
图2示意了每个客户端个性化Transformer的模型框架;
图3为基于个性化Transformer的联邦学习模型流程图;
图4为各算法微调模型中个性化参数后新客户端的精度。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本实施公开的一种基于个性化Transformer的联邦学习方法包括以下步骤:
步骤一:在初始化t=0开始阶段,给定一个中央服务器和N个客户端C={c1,c2,...,cN},接着从总数据集
Figure BDA0003895057100000051
中按照分布
Figure BDA0003895057100000052
(本发明使用参数α=0.3的狄利克雷分布)为每个客户端抽取本地数据集
Figure BDA0003895057100000053
其中mi为数据集
Figure BDA0003895057100000054
样本量的个数,并初始化每个客户端的本地模型f(θi;·)和嵌入向量zi以及服务器上超网络
Figure BDA0003895057100000055
中的参数
Figure BDA0003895057100000056
步骤二:对于集合C中的客户端i,在本地训练前需要对其本地数据进行预处理,包括数据打乱及归一化处理,然后将本地数据按照5:1的比例划分为训练集和测试集,训练集和测试集的数据分布需保持一致,并将两个数据集随机采样为n批次得到
Figure BDA0003895057100000057
其中n为批次大小。
步骤三:将客户端i的本地数据划分为n批次后,需要对其批次中的样本数据再次进行处理:对于序列数据,将其映射为嵌入矩阵;对于图像数据,将原始图片进行分块,并展平为一维向量,接着对每个向量做一个线性变换,压缩其维度为d,这样也得到了一个嵌入矩阵。为了加入序列及分块图片的位置信息,在每个向量中还需引入位置编码。
步骤四:在第k轮训练中,首先从所有客户端中随机挑选出a个客户端组成子集Ct,对于集合Ct中的客户端i,分两步初始化更新其模型参数
Figure BDA0003895057100000061
Figure BDA0003895057100000062
Wi k,0通过服务器上的超网络生成得到:
Figure BDA0003895057100000063
其中
Figure BDA0003895057100000064
为第k-1轮更新的超网络参数,
Figure BDA0003895057100000065
为第k-1轮更新的相应客户端的嵌入向量;2)
Figure BDA0003895057100000066
从服务器上下载第k-1轮聚合得到的全局参数
Figure BDA0003895057100000067
Figure BDA0003895057100000068
步骤五:对于初始化后的客户端i,将步骤三中处理好的训练集批次输入到Transformer结构的模型中,利用随机梯度下降法本地训练t轮,其模型参数
Figure BDA0003895057100000069
可以用
Figure BDA00038950571000000610
进行更新,其中:
Figure BDA00038950571000000611
为客户端i第k个通信轮次第t轮更新后的模型参数;α为学习率;
Figure BDA00038950571000000612
为关于参数θi的梯度算子;
Figure BDA00038950571000000613
表示为
Figure BDA00038950571000000614
l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,
Figure BDA00038950571000000615
为训练样本的特征,
Figure BDA00038950571000000616
为训练样本的标签。
步骤六:本地训练完成后,计算客户端i本地训练前后参数Wi的差ΔWi=Wi k,t-Wi k,0,并将ΔWi和更新后的参数
Figure BDA00038950571000000617
一并发送至服务器。
步骤七:服务器对接收到的子集Ct上传的参数
Figure BDA00038950571000000618
进行聚合,得到第k轮的全局参数
Figure BDA00038950571000000619
mi为客户端i的本地数据量,M为所有客户端的总体数据量。
步骤八:对于服务器上的超网络参数
Figure BDA00038950571000000620
以及各客户端的嵌入向量zi,可以通过以下两个式子利用客户端上传的参数ΔWi进行更新,
Figure BDA00038950571000000621
其中,β为学习率,
Figure BDA00038950571000000622
为关于参数
Figure BDA00038950571000000623
的梯度算子,
Figure BDA00038950571000000624
为关于参数zi的梯度算子。
步骤九:完成第k轮训练后,服务器将更新后的全局参数
Figure BDA00038950571000000625
及超网络
Figure BDA00038950571000000626
生成的参数Wi k传送给所有客户端,利用各客户端的本地测试集进行测试,计算得到第k轮更新的个性化模型在各客户端上的测试准确率,从而计算得到全局的平均测试准确率,以此判断第k轮训练得到的个性化模型的性能。
步骤十:重复步骤四至步骤九直至达到所规定的训练迭代轮次。
步骤十一:训练结束后,将全局参数
Figure BDA0003895057100000071
超网络参数
Figure BDA0003895057100000072
及各客户端的嵌入向量
Figure BDA0003895057100000073
(K为规定的训练迭代轮次)记录下来,可用于后续操纵。
步骤十二:对于未参与训练过程的新客户端,可以直接利用步骤十一中记录的全局参数
Figure BDA0003895057100000074
和超网络参数
Figure BDA0003895057100000075
以及随机初始化的相应嵌入向量z,本地训练其个性化模型,经过几轮微调后即可得到较好的结果。我们将经过上述步骤得到的基于个性化Transformer的联邦学习模型称作FedTP,并将其与当前一些较为流行的个性化联邦学习方法分别对图像数据集CIFAR-10和CIFAR-100在两种不同的数据分布(标签不平衡分布指每个客户端拥有固定数量标签的数据样本,狄利克雷分布指根据特定的狄利克雷分布给每个客户端分配一定比例的标签样本)以及拥有100个客户端的情况下的准确度作比较,其中各模型均训练1500轮,每轮随机选取10%的客户端参与训练,实验结果见表一。从表中可以看出,FedTP在所有情况下都优于其他模型。
表一:FedTP与其余模型在100个客户端情况下的精度
Figure BDA0003895057100000076
为了消除由模型结构差异带来的影响,我们将相同的Transformer结构转移到其他个性化联邦学习方法中,进一步对其结果进行比较,实验结果如表二所示。为了区分这些模型与表一中的模型,我们在更改网络结构的模型后加上“-T”。表二的结果表明,即使将其他模型的网络结构更改为与FedTP相同的Transformer,我们的FedTP仍能取得最好的效果。
表二:FedTP与其余基于Transformer的模型在100个客户端情况下的精度
Figure BDA0003895057100000081
此外,我们分别针对pFedMe、pFedHN、FedRod和FedTP测试了模型在数据集CIFAR-100上的泛化能力,其中80%的客户端用于训练,剩下20%的客户端在训练期间不可见。对于新加入的客户端,我们通过微调模型的个性化参数以及新客户端基于全局模型和个性化参数得到的精度来比较各模型的泛化能力,结果如图4所示。从图4中可以看出,FedTP仅通过一步微调就能得到较好的效果,随着微调轮次数的增大,FedTP始终能取得比其他方法更好的结果,证实了FedTP具有良好的泛化性。

Claims (4)

1.一种基于个性化Transformer的联邦学习系统,包括一个服务器和若干客户端,其特征在于,根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,将客户端i的模型参数θi分解为θi={Wii},其中,Wi为Transformer中自注意力层的投影矩阵,ξi为Transformer中除自注意力层外其余层的参数;
服务器储存有一个超网络以及与每个客户端对应的嵌入向量;
在联邦学习的第k个通信轮次中:
客户端i从服务器上下载第k-1个通信轮次更新聚合的参数
Figure FDA0003895057090000011
利用位于服务器的超网络
Figure FDA0003895057090000012
生成客户端i的投影矩阵Wi,其中:
Figure FDA0003895057090000013
为超网络的参数;zi为超网络的输入,是客户端i可学习的嵌入向量;
客户端i利用本地数据Bi对初始化后的模型进行本地训练
Figure FDA0003895057090000014
Figure FDA0003895057090000015
其中:
Figure FDA0003895057090000016
为客户端i第k个通信轮次更新后的模型参数;α为学习率;
Figure FDA0003895057090000017
为关于参数θi的梯度算子;
Figure FDA0003895057090000018
表示为
Figure FDA0003895057090000019
l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,
Figure FDA00038950570900000110
为训练样本的特征,
Figure FDA00038950570900000111
为训练样本的标签;
将更新后的模型参数
Figure FDA00038950570900000112
分解为
Figure FDA00038950570900000113
其中,Wi k为本地模型中自注意力层的投影矩阵,
Figure FDA00038950570900000114
为本地模型中除自注意力层外其余层的参数;
将模型参数Wi k保留在客户端i本地,用于储存客户端i的个性化信息;将参数差ΔWi=Wi k-Wi k-1
Figure FDA00038950570900000115
上传到服务器,分别进行参数更新和聚合以获得其他客户端上的有利信息,得到第k个通信轮次的全局参数
Figure FDA00038950570900000116
其中,N为客户端的数量,mi为客户端i的本地数据量,M为所有客户端的总体数据量。
2.如权利要求1所述的一种基于个性化Transformer的联邦学习系统,其特征在于,对于服务器上的超网络参数
Figure FDA00038950570900000117
以及客户端i的嵌入向量zi,通过以下两个式子分别进行更新:
Figure FDA0003895057090000021
Figure FDA0003895057090000022
式中,β为学习率,
Figure FDA0003895057090000023
为关于参数
Figure FDA0003895057090000024
的梯度算子,
Figure FDA0003895057090000025
为关于参数zi的梯度算子。
3.如权利要求1所述的一种基于个性化Transformer的联邦学习系统,其特征在于,所述超网络由三层全连接网络构成,其最后一层全连接网络对于Transformer中的每个模块来说都是不同的。
4.一种基于个性化Transformer的联邦学习模型训练方法,其特征在于,包括以下步骤:
步骤一:在第k轮训练中,首先从所有客户端中随机挑选出a个客户端组成子集Ct,对于集合Ct中的客户端i,分两步初始化更新其模型参数
Figure FDA0003895057090000026
Figure FDA0003895057090000027
其中:
Wi k,0为Transformer中自注意力层的投影矩阵,通过服务器上的超网络生成得到:
Figure FDA0003895057090000028
其中,
Figure FDA0003895057090000029
为第k-1轮更新的超网络参数,
Figure FDA00038950570900000210
为第k-1轮更新的客户端i的嵌入向量;
Figure FDA00038950570900000211
为Transformer中除自注意力层外其余层的参数;
从服务器上下载第k-1轮聚合得到的全局参数
Figure FDA00038950570900000212
步骤二:对于初始化后的客户端i,利用随机梯度下降法本地训练其模型t轮,根据从本地数据中采样的训练批次Bi,模型参数
Figure FDA00038950570900000213
Figure FDA00038950570900000214
进行更新,其中:
Figure FDA00038950570900000215
为客户端i第k个通信轮次第t轮更新后的模型参数;α为学习率;
Figure FDA00038950570900000216
为关于参数θi的梯度算子;
Figure FDA00038950570900000217
表示为
Figure FDA00038950570900000218
l(·,·)为交叉熵损失函数,f(θi;·)为客户端i的个性化模型,
Figure FDA00038950570900000219
为训练样本的特征,
Figure FDA00038950570900000220
为训练样本的标签;
步骤三:本地训练完成后,计算客户端i本地训练前后参数Wi的差ΔWi=Wi k,t-Wi k,0,并将ΔWi和更新后的参数
Figure FDA0003895057090000031
一并发送至服务器;
步骤四:服务器对接收到的参数
Figure FDA0003895057090000032
进行聚合,得到第k轮的全局参数
Figure FDA0003895057090000033
其中,mi为客户端i的本地数据量,M为所有客户端的总体数据量;
步骤五:对于服务器上的超网络参数
Figure FDA0003895057090000034
以及客户端i的嵌入向量zi,通过以下两个式子分别进行更新:
Figure FDA0003895057090000035
Figure FDA0003895057090000036
式中,β为学习率;
步骤六:重复步骤一至步骤五直至达到所规定的训练迭代轮次。
CN202211271384.1A 2022-10-18 2022-10-18 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 Pending CN115600686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211271384.1A CN115600686A (zh) 2022-10-18 2022-10-18 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211271384.1A CN115600686A (zh) 2022-10-18 2022-10-18 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统

Publications (1)

Publication Number Publication Date
CN115600686A true CN115600686A (zh) 2023-01-13

Family

ID=84846652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211271384.1A Pending CN115600686A (zh) 2022-10-18 2022-10-18 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统

Country Status (1)

Country Link
CN (1) CN115600686A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385070A (zh) * 2023-01-18 2023-07-04 中国科学技术大学 电商短视频广告多目标预估方法、系统、设备及存储介质
CN117010484A (zh) * 2023-10-07 2023-11-07 之江实验室 基于注意力机制的个性化联邦学习泛化方法、设备、应用

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385070A (zh) * 2023-01-18 2023-07-04 中国科学技术大学 电商短视频广告多目标预估方法、系统、设备及存储介质
CN116385070B (zh) * 2023-01-18 2023-10-03 中国科学技术大学 电商短视频广告多目标预估方法、系统、设备及存储介质
CN117010484A (zh) * 2023-10-07 2023-11-07 之江实验室 基于注意力机制的个性化联邦学习泛化方法、设备、应用
CN117010484B (zh) * 2023-10-07 2024-01-26 之江实验室 基于注意力机制的个性化联邦学习泛化方法、设备、应用

Similar Documents

Publication Publication Date Title
Kim et al. Dynamic clustering in federated learning
Zhu et al. Real-time federated evolutionary neural architecture search
US10657461B2 (en) Communication efficient federated learning
CN115600686A (zh) 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统
CN107943938A (zh) 一种基于深度乘积量化的大规模图像相似检索方法及系统
Zhang et al. Learning-based sparse data reconstruction for compressed data aggregation in IoT networks
CN114332984B (zh) 训练数据处理方法、装置和存储介质
CN114943345B (zh) 基于主动学习和模型压缩的联邦学习全局模型训练方法
CN114357067A (zh) 一种针对数据异构性的个性化联邦元学习方法
CN115587633A (zh) 一种基于参数分层的个性化联邦学习方法
CN109146061A (zh) 神经网络模型的处理方法和装置
CN115829027A (zh) 一种基于对比学习的联邦学习稀疏训练方法及系统
CN114553718B (zh) 一种基于自注意力机制的网络流量矩阵预测方法
CN113344221A (zh) 一种基于神经网络架构搜索的联邦学习方法及系统
Xue et al. FedOComp: Two-timescale online gradient compression for over-the-air federated learning
Itahara et al. Lottery hypothesis based unsupervised pre-training for model compression in federated learning
Rawson et al. Convergence guarantees for deep epsilon greedy policy learning
Zou et al. Dynamic games in federated learning training service market
Xue et al. Aggregation delayed federated learning
CN115359298A (zh) 基于稀疏神经网络的联邦元学习图像分类方法
CN117350373B (zh) 一种基于局部自注意力机制的个性化联邦聚合算法
Zhang et al. Federated multi-task learning with non-stationary heterogeneous data
Rizzello et al. Learning representations for CSI adaptive quantization and feedback
CN117036901A (zh) 一种基于视觉自注意力模型的小样本微调方法
CN117521783A (zh) 联邦机器学习方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination