CN117313901B - 一种基于多任务聚类联邦个性学习的模型训练方法及装置 - Google Patents
一种基于多任务聚类联邦个性学习的模型训练方法及装置 Download PDFInfo
- Publication number
- CN117313901B CN117313901B CN202311597925.4A CN202311597925A CN117313901B CN 117313901 B CN117313901 B CN 117313901B CN 202311597925 A CN202311597925 A CN 202311597925A CN 117313901 B CN117313901 B CN 117313901B
- Authority
- CN
- China
- Prior art keywords
- model
- model parameters
- local
- training
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004138 cluster model Methods 0.000 claims abstract description 59
- 238000004220 aggregation Methods 0.000 claims abstract description 25
- 230000002776 aggregation Effects 0.000 claims abstract description 21
- 238000009826 distribution Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多任务聚类联邦个性学习的模型训练方法及装置,中央服务器向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数,并接收各客户端采用本地数据训练得到的本地模型参数和自适应权重;根据各客户端的本地模型参数对各客户端进行聚类分簇;将同一簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型;各客户端基于自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据输入预测模型,得到预测结果;构建预测结果和真实标签的损失,以最小化损失为目标,重复训练步骤。本发明提供的训练方法能够解决数据异质性带来的偏差和难以收敛的问题。
Description
技术领域
本发明涉及联邦学习技术领域,尤其涉及一种基于多任务聚类联邦个性学习的模型训练方法及装置。
背景技术
现实中,大多数据集都是分散存储的,分布在不同用户拥有的多个设备上。传统的机器学习方法将这些来自用户的数据样本收集存储到一个中央存储库中,并在此基础上训练一个机器学习模型。机器学习方法的实现需要将本地设备的本地数据传输至中央服务器,该步骤构成了两个关键的挑战:一是破坏了本地数据的隐私性和安全性,因为中央服务器的恶意行为可能会造成本地数据隐私的泄露。二是增加了通信开销,本地设备需要经过网络或者其他途径将本地数据传输至中央服务器,传输距离和网络状况等均会影响通信开销。
联邦学习是一个新兴的机器学习训练框架,使多个用户可以在本地数据不出本地设备的情况下共同协作训练一个共享的全局模型。在每一轮的开始,中央服务器将当前的全局模型发送给参与本轮训练的本地客户端,每个客户端根据其本地数据训练模型,并只将模型的更新传递回服务器。服务器从所有客户端收集这些更新,并对全局模型进行更新,从而结束这一轮。通过消除在中央服务器上聚合所有本地数据的需要,联邦学习克服了传统机器学习方法的隐私和通信挑战,并允许机器学习模型在分布的数据上学习。
联邦学习存在数据异质性问题,不同本地客户端所拥有的数据的分布情况可能并不相同,不符合假设的独立同分布(Independent Identically Distribution,IID)的分布情况,训练出的本地模型的最优解差距较大,如果在每个客户端上完成寻找局部最优后,直接把模型传给中央服务器进行聚合,那么每个设备上的模型将只满足自己的数据集上的最优解,聚合时每个模型的差异会很大,导致最终的模型效果不好。为了应对数据异构性和数据的非IID分布带来的挑战,全局模型的个性化变得非常必要。
发明内容
鉴于此,本发明实施例提供了一种基于多任务聚类联邦个性学习的模型训练方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有联邦学习模型训练过程中存在的本地数据异质的问题。
一方面,本发明提供了一种基于多任务聚类联邦个性学习的模型训练方法,所述方法在中央服务器中执行,包括以下步骤:
向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数;其中,簇模型的底层表示部分划分为专家层,接近输出的上层部分划分为个性层;
接收各客户端基于所述簇模型参数采用本地数据训练得到的新的本地模型参数和专家层模型参数的自适应权重;所述本地数据包括多个样本以及每个样本对应的真实标签;所述自适应权重由部署在各客户端的自适应权重模型根据所述本地数据训练得到;
根据各客户端的本地模型参数对各客户端进行聚类分簇,形成多个簇;将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型,以得到本轮簇模型参数和专家层模型参数;
各客户端基于所述自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将所述本地数据输入所述预测模型,得到预测结果;构建所述预测结果和所述真实标签之间的损失,以最小化损失为目标,重复上述训练步骤,直至满足预设条件,得到最终的全局模型。
在本发明的一些实施例中,所述方法还包括:
在第一轮训练时,所述中央服务器下发初始化模型参数至各客户端;
各客户端基于所述初始化模型参数采用相应的本地数据进行训练,得到本地模型。
在本发明的一些实施例中,接收各客户端基于所述簇模型参数采用本地数据训练得到的新的本地模型参数,所述方法还包括:
各客户端使用其本地数据通过小批量随机梯度下降训练所述本地模型,并构建用于训练所述本地模型的损失函数;所述损失函数的计算式为:
;
其中,B为所述客户端本地数据的一个小批量抽样;Entropy表示交叉熵损失函数;表示本地模型参数θ l 对第j个样本x的预测值;y为所述样本x的真实标签。
在本发明的一些实施例中,根据各客户端的本地模型参数对各客户端进行聚类分簇,形成多个簇,还包括:
获取各客户端的本地模型参数的分布情况,将参数分布作为样本,根据所述样本之间的距离使用K-Means算法对客户端进行聚类分簇。
在本发明的一些实施例中,使用K-Means算法对客户端进行聚类分簇包括以下步骤:
从各客户端的本地模型参数中随机选择K个样本作为初始的K个中心点;
计算每个样本到中心点的距离,按照距离自身最近的中心点进行第一次聚类;
根据聚类结果计算新的中心点;
反复迭代,直至中心点的变化满足预设收敛条件,得到最终聚类结果。
在本发明的一些实施例中,所述方法还包括:
在聚类时,所述客户端的本地模型参数所属簇的计算式为:
;
其中,i表示簇;表示第j个客户端的本地模型参数;μ i 表示所述中心点;
根据聚类结果计算新的中心点的计算式为:
;
其中,表示新的中心点;/>表示第j个客户端的本地模型参数;C i 表示第i个簇。
在本发明的一些实施例中,以最小化各客户端本地模型参数到其所属的最近的中心点的距离的平方误差为目标,进行优化,计算式为:
;
其中,表示第j个客户端的本地模型参数;C i 表示第i个簇,i∈K;μ i 表示所述中心点。
在本发明的一些实施例中,基于所述自适应权重聚合各簇模型的专家层模型参数的计算式为:
;
其中,表示客户端i聚合簇j专家层模型参数的权重;/>表示簇j的专家层模型参数。
另一方面,本发明提供一种基于多任务聚类联邦个性学习的模型训练装置,所述装置应用于中央服务器,所述装置包括:
发送模块,用于向各客户端发送上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数;
接收模块,用于接收各客户端发送的本地模型参数和专家层模型参数的自适应权重;
聚类模块,用于根据各客户端的本地模型参数对各客户端进行聚类分簇,将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型;
预测模块,用于基于所述自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据作为输入,得到相应的预测结果;
训练模块,用于构建所述预测结果和真实标签之间的损失,以最小化损失为目标,重复所述接收模块、所述聚类模块的训练步骤,直至满足预设条件。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中提及的任意一项所述方法的步骤。
本发明的有益效果至少是:
本发明提供一种基于多任务聚类联邦个性学习的模型训练方法及装置,包括:中央服务器向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数,并接收新的本地模型参数和专家层模型参数的自适应权重;根据各客户端的本地模型参数对各客户端进行聚类分簇;将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型;各客户端基于自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据输入预测模型,得到预测结果;构建预测结果和真实标签之间的损失,以最小化损失为目标,重复训练步骤,直至满足预设条件,得到最终的全局模型。本发明基于聚类分簇的思想将本地模型参数分布相近的客户端进行划分,同一簇内的本地数据具有相似分布,进行簇内参数的联邦平均聚合时,可忽略本地数据异质性带来的偏差和难以收敛等问题。
进一步的,基于多任务学习的思想,将簇模型划分为专家层和个性化层,将每个簇的专家层与其他簇的专家层进行加权聚合,同时,通过自适应权重对专家层的聚合进行控制,从而各客户端能够学习到全局知识,达到知识共享以及数据分布相似的客户端相互促进的效果,使得训练得到的联邦学习个性化模型性能更优。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中基于多任务聚类联邦个性学习的模型训练方法步骤示意图。
图2为本发明一实施例中基于多任务聚类联邦个性学习的模型训练方法中中央服务器侧的流程结构示意图。
图3为本发明一实施例中基于多任务聚类联邦个性学习的模型训练方法中客户端侧的流程结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
这里需要强调的是,在下文中提及的各步骤标记并不是对各步骤先后顺序的限定,而应当理解为可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
为了解决现有联邦学习模型训练过程中存在的本地数据异质的问题,本发明提出了一种基于多任务聚类联邦个性学习的模型训练方法,该方法在中央服务器中执行,如图1所示,该方法包括以下步骤S101~S104:
步骤S101:向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数。其中,簇模型的底层表示部分划分为专家层,接近输出的上层部分划分为个性层。
步骤S102:接收各客户端基于簇模型参数采用本地数据训练得到的新的本地模型参数和专家层模型参数的自适应权重。其中,本地数据包括多个样本以及每个样本对应的真实标签;自适应权重由部署在各客户端的自适应权重模型根据本地数据训练得到。
步骤S103:根据各客户端的本地模型参数对各客户端进行聚类分簇,形成多个簇;将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型,以得到本轮簇模型参数和专家层模型参数。
步骤S104:各客户端基于自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据输入预测模型,得到预测结果;构建预测结果和真实标签之间的损失,以最小化损失为目标,重复上述训练步骤,直至满足预设条件,得到最终的全局模型。
如图2所示,为在中央服务器执行基于多任务聚类联邦个性学习的模型训练方法的流程结构图。由图可知,本发明基于联邦学习训练框架,包括中央服务器和多个客户端。示例性的,客户端集合记作,其中,N i 表示第i个客户端,N l 表示客户端的数量。
在步骤S101中,中央服务器向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数。
在一些实施例中,若为第一轮训练,由于此时还没有进行聚类分簇,不存在簇模型,因此,中央服务器下发初始化模型参数至各客户端。
在步骤S102中,中央服务器接收各客户端基于簇模型参数采用本地数据训练得到的新的本地模型参数和专家层模型参数的自适应权重。
如图3所示,为客户端的结构图。各客户端接收到中央服务器下发的簇模型参数和其他簇的专家层模型参数后,将簇模型作为本轮的本地模型,使用本地数据进行训练,与联邦平均算法类似,客户端使用其本地数据单独训练本地模型,更新后发送至中央服务器。示例性的,所有客户端的本地数据集合记作,其中,D i 表示客户端i的本地数据。本地数据集合能够被划分为M个数据分布,其中,客户端i的本地数据D i ~φ k (x,y), k∈[1,M], M≤N l ,x为本地数据中样本的特征,y为样本对应的真实标签。各客户端训练得到的本地模型参数集合记作/>,其中,/>表示客户端i的本地模型参数。
在一些实施例中,各客户端使用其本地数据通过小批量随机梯度下降训练本地模型,通过构建本地模型的损失函数以训练优化本地模型。
损失函数的计算式如公式(1)所示:
; (1)
其中,B为客户端本地数据的一个小批量抽样;Entropy表示交叉熵损失函数;表示本地模型参数θ l 对第j个样本x的预测值;y为该样本的真实标签。
则本地模型参数的梯度计算式如公式(2)所示:
; (2)
其中,θ l 表示本地模型参数;B为客户端本地数据的一个小批量抽样。
则本地模型参数的更新计算式如公式(3)所示:
; (3)
其中,和/>分别表示t+1轮训练和t轮训练得到的本地模型参数;α表示学习率;表示t+1轮训练得到的本地模型参数的梯度。
在训练本地模型的同时,各客户端根据本地数据训练自适应权重模型。其中,自适应权重模型为单独部署于各客户端的一个神经网络模型。示例性的,各客户端的自适应权重模型记作,其中,/>表示客户端i的自适应权重模型。
在一些实施例中,自适应权重模型根据本地数据进行训练,自适应权重模型的输出为各客户端聚合其他簇专家层模型参数的权重,计算式如公式(4)所示:
; (4)
其中,表示客户端i的自适应权重模型;D i 表示客户端i的本地数据;/>表示客户端i聚合簇j专家层模型参数的权重。
在一些实施例中,使用本地数据小批量随机梯度下降方法对自适应权重模型参数进行更新,分别如公式(5)和公式(6)所示:
; (5)
; (6)
其中,MBGD为Mini-Batch Gradient Descent,小批量梯度下降;表示t轮训练得到的簇模型的个性化层模型参数;/>表示t轮训练得到的簇模型的专家层模型参数;D i 表示本地数据;/>和/>分别表示t+1轮训练和t轮训练得到的自适应权重模型参数;β表示学习率。
各客户端将训练得到的本地模型参数和专家层模型参数的自适应权重上传至中央服务器。
在步骤S103中,中央服务器根据各客户端的本地模型参数对各客户端进行聚类分簇,形成多个簇,示例性的,簇集合记作C={C 1 ,C 2 ,...,C K }。
在一些实施例中,获取各客户端的本地模型参数的分布情况,将参数分布作为样本,根据样本之间的距离大小,使用K-Means算法对客户端进行聚类分簇。即,将样本集分为K个簇,则与之对应的客户端也被相应地划分为K个簇,由此,使得同一个簇内的样本数据的相似性尽可能大,不在同一个簇中的样本数据的差异性也尽可能地大。即聚类后同一类的样本数据尽可能聚集到一起,不同类的样本数据尽量分离。
在一些实施例中,使用K-Means算法对客户端进行聚类分簇,具体包括以下步骤:
从各客户端的本地模型参数中随机选择K个样本{μ 1 ,μ 2 ,...,μ K }作为初始的K个中心点(质心)。
计算每个样本(本地模型参数)到中心点的距离,按照距离自身最近的中心点进行第一次聚类。
在一些实施例中,在聚类时,客户端的本地模型参数所属簇的计算式如公式(7)所示:
; (7)
其中,i表示簇;表示第j个客户端的本地模型参数;μ i 表示中心点。
根据上次聚类结果,计算新的中心点,计算式如公式(8)所示:
; (8)
其中,表示新的中心点;/>表示第j个客户端的本地模型参数;C i 表示第i个簇。
反复迭代,直至中心点的变化满足预设收敛条件(如变化很小或几乎不变化),得到最终聚类结果。
在一些实施例中,以最小化各客户端本地模型参数到其所属的最近的中心点的距离的平方误差为目标,进行优化,计算式如公式(9)所示:
; (9)
其中,表示第j个客户端的本地模型参数;C i 表示第i个簇,i∈K;μ i 表示中心点。
各客户端被聚类划分为多个簇后,将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型。示例性的,簇模型参数集合记作,其中,/>对应的簇内客户端的数据分布为φ j (x,y), j∈[1,K]。
在步骤S104中,经过簇内本地模型参数的聚合后,各客户端学习到簇内其他客户端的知识,但无法学习到其他簇的客户端的全局知识。因此,本发明将不同的簇模型看成多任务模型,引入多任务学习思想,将簇模型的底层的表示部分划分为专家层,更接近输出的上层部分划分为个性化层,并将不同簇的专家层进行加权聚合,从而学习到其他簇的客户端的全局知识。示例性的,专家层模型参数记作,其中,/>表示簇的簇模型的专家层模型参数;同理,个性化层模型参数记作/>。
在上文中已提及,在各客户端部署有自适应权重模型,基于自适应权重模型得到每个客户端在聚合其他簇专家层模型参数时的权重,以实现专家层权重的自适应。
由此,各客户端基于自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型。
在一些实施例中,首先定义预测模型如公式(10)所示:
θ g = [θ p ;θ e ]; (10)
其中,θ g 表示预测模型;θ e 表示经过不同簇模型专家层模型参数聚合后的结果;θ p 表示个性化层模型参数
则各客户端基于自适应权重聚合各簇模型的专家层模型参数对应的计算过程可如公式(11)所示:
; (11)
其中,表示客户端i聚合簇j专家层模型参数的权重;/>表示簇j的专家层模型参数。
将经过不同簇模型专家层模型参数聚合后的结果与个性化层模型参数进行连接,得到最终的预测模型。
在一些实施例中,将本地数据输入预测模型,得到预测结果;构建预测结果和真实标签之间的损失,以最小化损失为目标,重复步骤S101~S103进行训练与优化,直至满足预设条件,得到最终的全局模型。
本发明还提供一种基于多任务聚类联邦个性学习的模型训练装置,该装置应用于中央服务器,该装置包括:
发送模块,用于向各客户端发送上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数。
接收模块,用于接收各客户端发送的本地模型参数和专家层模型参数的自适应权重。
聚类模块,用于根据各客户端的本地模型参数对各客户端进行聚类分簇,将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型。
预测模块,用于基于自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据作为输入,得到相应的预测结果。
训练模块,用于构建预测结果和真实标签之间的损失,以最小化损失为目标,重复接收模块和聚类模块的训练步骤,直至满足预设条件。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于多任务聚类联邦个性学习的模型训练方法的步骤。
与上述方法相应地,本发明还提供了一种设备,该设备包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该设备实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
综上所述,本发明提供一种基于多任务聚类联邦个性学习的模型训练方法及装置,包括:中央服务器向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数,并接收新的本地模型参数和专家层模型参数的自适应权重;根据各客户端的本地模型参数对各客户端进行聚类分簇;将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型;各客户端基于自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据输入预测模型,得到预测结果;构建预测结果和真实标签之间的损失,以最小化损失为目标,重复训练步骤,直至满足预设条件,得到最终的全局模型。本发明基于聚类分簇的思想将本地模型参数分布相近的客户端进行划分,同一簇内的本地数据具有相似分布,进行簇内参数的联邦平均聚合时,可忽略本地数据异质性带来的偏差和难以收敛等问题。
进一步的,基于多任务学习的思想,将簇模型划分为专家层和个性化层,将每个簇的专家层与其他簇的专家层进行加权聚合,同时,通过自适应权重对专家层的聚合进行控制,从而各客户端能够学习到全局知识,达到知识共享以及数据分布相似的客户端相互促进的效果,使得训练得到的联邦学习个性化模型性能更优。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多任务聚类联邦个性学习的模型训练方法,其特征在于,所述方法在中央服务器中执行,包括以下步骤:
向各客户端下发上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数;其中,簇模型的底层表示部分划分为专家层,接近输出的上层部分划分为个性层;
接收各客户端基于所述簇模型参数采用本地数据训练得到的新的本地模型参数和专家层模型参数的自适应权重;所述本地数据包括多个样本以及每个样本对应的真实标签;所述自适应权重由部署在各客户端的自适应权重模型根据所述本地数据训练得到,所述自适应权重模型的输入为所述本地数据,输出为各专家层模型参数的自适应权重,所述自适应权重模型使用所述本地数据小批量随机梯度下降方法进行更新;
获取各客户端的本地模型参数的分布情况,将参数分布作为样本,随机选择K个样本作为初始的K个中心点;计算每个样本到中心点的距离,按照距离自身最近的中心点进行第一次聚类;根据聚类结果计算新的中心点;反复迭代,直至中心点的变化满足预设收敛条件,得到最终聚类结果,形成多个簇;其中,所述预设收敛条件为最小化各本地模型参数与所述中心点的平方误差;将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型,以得到本轮簇模型参数和专家层模型参数;
各客户端基于所述自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将所述本地数据输入所述预测模型,得到预测结果;构建所述预测结果和所述真实标签之间的损失,以最小化损失为目标,重复上述训练步骤,直至满足预设条件,得到最终的全局模型。
2.根据权利要求1所述的基于多任务聚类联邦个性学习的模型训练方法,其特征在于,所述方法还包括:
在第一轮训练时,所述中央服务器下发初始化模型参数至各客户端;
各客户端基于所述初始化模型参数采用相应的本地数据进行训练,得到本地模型。
3.根据权利要求1所述的基于多任务聚类联邦个性学习的模型训练方法,其特征在于,接收各客户端基于所述簇模型参数采用本地数据训练得到的新的本地模型参数,所述方法还包括:
各客户端使用其本地数据通过小批量随机梯度下降训练所述本地模型,并构建用于训练所述本地模型的损失函数;所述损失函数的计算式为:
;
其中,B为所述客户端本地数据的一个小批量抽样;Entropy表示交叉熵损失函数;表示本地模型参数θ l 对第j个样本x的预测值;y为所述样本x的真实标签。
4.根据权利要求1所述的基于多任务聚类联邦个性学习的模型训练方法,其特征在于,所述方法还包括:
在聚类时,所述客户端的本地模型参数所属簇的计算式为:
;
其中,i表示簇;表示第j个客户端的本地模型参数;μ i 表示所述中心点;
根据聚类结果计算新的中心点的计算式为:
;
其中,表示新的中心点;/>表示第j个客户端的本地模型参数;C i 表示第i个簇。
5.根据权利要求1所述的基于多任务聚类联邦个性学习的模型训练方法,其特征在于,以最小化各客户端本地模型参数到其所属的最近的中心点的距离的平方误差为目标,进行优化,计算式为:
;
其中,表示第j个客户端的本地模型参数;C i 表示第i个簇,i∈K;μ i 表示所述中心点。
6.根据权利要求1所述的基于多任务聚类联邦个性学习的模型训练方法,其特征在于,基于所述自适应权重聚合各簇模型的专家层模型参数的计算式为:
;
其中,表示客户端i聚合簇j专家层模型参数的权重;/>表示簇j的专家层模型参数。
7.一种基于多任务聚类联邦个性学习的模型训练装置,其特征在于,所述装置应用于中央服务器,所述装置包括:
发送模块,用于向各客户端发送上一轮训练得到的各客户端所属簇的簇模型参数和其他簇的专家层模型参数;其中,簇模型的底层表示部分划分为专家层,接近输出的上层部分划分为个性层;
接收模块,用于接收各客户端发送的采用本地数据训练得到的本地模型参数和专家层模型参数的自适应权重;其中,所述本地数据包括多个样本以及每个样本对应的真实标签;所述自适应权重由部署在各客户端的自适应权重模型根据所述本地数据训练得到,所述自适应权重模型的输入为所述本地数据,输出为各专家层模型参数的自适应权重,所述自适应权重模型使用所述本地数据小批量随机梯度下降方法进行更新;
聚类模块,用于获取各客户端的本地模型参数的分布情况,将参数分布作为样本,随机选择K个样本作为初始的K个中心点;计算每个样本到中心点的距离,按照距离自身最近的中心点进行第一次聚类;根据聚类结果计算新的中心点;反复迭代,直至中心点的变化满足预设收敛条件,得到最终聚类结果,形成多个簇;将同一个簇中各客户端的本地模型参数进行联邦平均聚合,形成本轮训练得到的簇模型;其中,所述预设收敛条件为最小化各本地模型参数与所述中心点的平方误差;
预测模块,用于基于所述自适应权重聚合各簇模型的专家层模型参数,并连接个性化层模型参数,得到预测模型;将本地数据作为输入,得到相应的预测结果;
训练模块,用于构建所述预测结果和真实标签之间的损失,以最小化损失为目标,重复所述接收模块、所述聚类模块的训练步骤,直至满足预设条件。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311597925.4A CN117313901B (zh) | 2023-11-28 | 2023-11-28 | 一种基于多任务聚类联邦个性学习的模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311597925.4A CN117313901B (zh) | 2023-11-28 | 2023-11-28 | 一种基于多任务聚类联邦个性学习的模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117313901A CN117313901A (zh) | 2023-12-29 |
CN117313901B true CN117313901B (zh) | 2024-04-02 |
Family
ID=89297593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311597925.4A Active CN117313901B (zh) | 2023-11-28 | 2023-11-28 | 一种基于多任务聚类联邦个性学习的模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313901B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591886B (zh) * | 2024-01-15 | 2024-04-05 | 杭州海康威视数字技术股份有限公司 | 基于簇联邦学习的异构数据快速聚合方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022110721A1 (zh) * | 2020-11-24 | 2022-06-02 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
CN115115021A (zh) * | 2022-01-17 | 2022-09-27 | 河南工业大学 | 基于模型参数异步更新的个性化联邦学习方法 |
CN115293358A (zh) * | 2022-06-29 | 2022-11-04 | 中国电子技术标准化研究院 | 一种面向物联网的分簇联邦多任务学习方法及装置 |
CN115587633A (zh) * | 2022-11-07 | 2023-01-10 | 重庆邮电大学 | 一种基于参数分层的个性化联邦学习方法 |
CN116579443A (zh) * | 2023-05-22 | 2023-08-11 | 广东工业大学 | 一种面向数据异构性的个性化联邦学习方法及存储介质 |
CN116933866A (zh) * | 2023-08-16 | 2023-10-24 | 中国人民解放军总医院 | 针对数据异质性的个性化联邦学习方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11715044B2 (en) * | 2020-06-02 | 2023-08-01 | Huawei Cloud Computing Technologies Co., Ltd. | Methods and systems for horizontal federated learning using non-IID data |
-
2023
- 2023-11-28 CN CN202311597925.4A patent/CN117313901B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022110721A1 (zh) * | 2020-11-24 | 2022-06-02 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
CN115115021A (zh) * | 2022-01-17 | 2022-09-27 | 河南工业大学 | 基于模型参数异步更新的个性化联邦学习方法 |
CN115293358A (zh) * | 2022-06-29 | 2022-11-04 | 中国电子技术标准化研究院 | 一种面向物联网的分簇联邦多任务学习方法及装置 |
CN115587633A (zh) * | 2022-11-07 | 2023-01-10 | 重庆邮电大学 | 一种基于参数分层的个性化联邦学习方法 |
CN116579443A (zh) * | 2023-05-22 | 2023-08-11 | 广东工业大学 | 一种面向数据异构性的个性化联邦学习方法及存储介质 |
CN116933866A (zh) * | 2023-08-16 | 2023-10-24 | 中国人民解放军总医院 | 针对数据异质性的个性化联邦学习方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117313901A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Toward self-learning edge intelligence in 6G | |
CN117313901B (zh) | 一种基于多任务聚类联邦个性学习的模型训练方法及装置 | |
WO2021244081A1 (en) | Methods and systems for horizontal federated learning using non-iid data | |
CN110851783B (zh) | 一种用于脑机接口校准的异构标签空间迁移学习方法 | |
CN108108743A (zh) | 异常用户识别方法和用于识别异常用户的装置 | |
Zhou et al. | Toward robust hierarchical federated learning in internet of vehicles | |
KR102067324B1 (ko) | 무선 Wi-Fi 망에서 딥러닝을 이용한 위장 공격 특장점 분석 장치 및 방법 | |
Adam et al. | Toward smart traffic management with 3D placement optimization in UAV-assisted NOMA IIoT networks | |
CN112668482B (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
CN109800730A (zh) | 用于生成头像生成模型的方法和装置 | |
Gudur et al. | Resource-constrained federated learning with heterogeneous labels and models | |
CN115511108B (zh) | 一种基于数据集蒸馏的联邦学习个性化方法 | |
CN116310530A (zh) | 基于语义聚类的联邦无监督图像分类模型训练方法、分类方法及设备 | |
CN112836822B (zh) | 基于宽度学习的联邦学习策略优化方法和装置 | |
CN117371555A (zh) | 基于域泛化技术和无监督聚类算法的联邦学习模型训练方法 | |
CN114861936A (zh) | 一种基于特征原型的联邦增量学习方法 | |
CN115600686A (zh) | 基于个性化Transformer的联邦学习模型训练方法及联邦学习系统 | |
Zhang et al. | Optimizing efficient personalized federated learning with hypernetworks at edge | |
Li et al. | Federated Classification Tasks in Long-tailed Data Environments via Classifier Representation Adjustment and Calibration | |
CN116745782A (zh) | 具有使用异构标签分布的新标签的分布式机器学习 | |
US20240135688A1 (en) | Self-supervised collaborative approach to machine learning by models deployed on edge devices | |
CN116229172A (zh) | 基于对比学习的联邦少样本图像分类模型训练方法、分类方法及设备 | |
CN115244545A (zh) | 用于多模式分布式学习的模型池 | |
Zhang et al. | A cooperative spectrum sensing method based on clustering algorithm and signal feature | |
CN114783425A (zh) | 一种基于私有参数的语音识别联邦学习方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |