CN119646552B

CN119646552B - 基于聚类的异构联邦基础模型自适应微调方法及计算机装置

Info

Publication number: CN119646552B
Application number: CN202411759651.9A
Authority: CN
Inventors: 王方鑫; 王贤达
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2024-12-03
Filing date: 2024-12-03
Publication date: 2025-07-11
Anticipated expiration: 2044-12-03
Also published as: CN119646552A

Abstract

本发明涉及异构联邦基础模型调整领域，具体涉及一种基于聚类的异构联邦基础模型自适应微调方法及计算机装置。方案包括：通过多因素异构感知聚类模块，为每个簇选定一个代表客户端，代表客户端将根据自身的算力限制选定一个对应的模型作为簇模型；通过知识感知模型架构搜索算法，为每个簇内的所有客户端搜索出基于簇模型最优子模型，并将最优子模型部署在客户端；将参数上传到代表客户端，在代表客户端上进行对应参数的聚合，聚合后下发给簇内的客户端，通过集群感知的知识转移模块，将每个簇的知识传递给服务器模型，通过反向知识蒸馏，将服务器模型的知识回传并更新每个簇的代表客户端。本发明适用于异构联邦基础模型自适应微调。

Description

基于聚类的异构联邦基础模型自适应微调方法及计算机装置

技术领域

本发明涉及异构联邦基础模型调整领域，具体涉及一种基于聚类的异构联邦基础模型自适应微调方法及计算机装置。

背景技术

大模型在大量的数据集上进行了预训练，使得它适配于非常多的应用场景，具备广泛的泛化性。因此通过将大模型在特定的数据集上微调，可以使大模型适配于各种特定的任务，然而在现实中，大模型微调面临着很多问题，特别是隐私数据的泄漏。大多数的数据都分布在本地并且是私有的，这限制了大模型微调的数据范围，在云边协同训练场景下，联邦学习作为一种有前景的方法应运而生，它能够在不直接交换私有数据的情况下，实现多个客户端之间模型的协同训练。然而由于大模型的参数量越来越大，通常都有数十亿的参数甚至更大，因此很多边缘客户端没法部署或者微调这些大模型，然而传统的联邦，例如fedavg，需要客户端和服务器共享相同的模型，以便进行参数聚合，因此传统的联邦并不适用。如何优化模型异构的联邦成为当务之急。

当前的研究已经提出了几种策略来实现异构联邦，包括基于knowledgedistillation(知识蒸馏)和partial training的方法。例如FedDF,DS-FL等基于knowledgedistillation的方法，实现客户端部署小模型，服务器部署大模型，传递logits(极大似然估计)，Logits(逻辑值),通常是指模型的输出层的原始未经处理的分数或得分，将客户端上的小模型当作老师来指导服务器上的模型进行训练，从而实现模型异构联邦。

然而这些方法需要每个客户端与服务器进行交互，知识蒸馏的方法时间成本很大，并且对于计算资源很有限的客户端，可能找不到合适的较小版本的FM(Foundationmodel，基础模型)部署，或是没有足够多的版本的FM去匹配高度异质性的客户端资源限制条件，造成资源浪费等。基于partial training的方法例如HeteroFL和FedRolex，将在客户端部署服务器模型的子模型，并将对应的参数上传到服务器聚合，通过这种方式实现模型异构联邦。然而，HeteroFL只能微调模型每一层的前一部分参数，不能微调整个模型。FedRolex虽然采取了滚动提取子模型的方法，使得所有参数都能被微调，但是只能是无规律的滚动提取，不能突出某一些层的重要性。

因此，现有方法中存在如下问题：

1.FM部署问题；

2.协作训练FMs带来巨大的计算和通信开销，在联邦学习中，频繁交换大型模型参数或梯度会导致显著的通信和计算开销，尤其是在带宽有限的网络连接中；

3.异构的数据和资源分布导致训练不平衡、收敛速度慢和性能差，FMs对训练数据的质量提出了更高的要求，因此实际的数据和资源异构性会产生严重影响。

发明内容

本发明的目的在于克服现有技术的缺点，提供一种基于聚类的异构联邦基础模型自适应微调方法及计算机装置，有效解决了在高度资源异构的场景下，微调FMs的问题，使每个客户端上部署的模型满足其资源限制，并大幅度降低了计算开销和通信开销。

本发明采取如下技术方案实现上述目的，第一方面，本发明提供一种基于聚类的异构联邦基础模型自适应微调方法，包括：

S1、通过多因素异构感知聚类模块，综合考虑每个客户端的算力资源限制与数据分布进行聚类，为每个簇选定一个代表客户端，代表客户端将根据自身的算力限制选定一个对应的模型作为簇模型；

S2、通过知识感知模型架构搜索算法，根据每个客户端异构的算力限制，为每个簇内的所有客户端搜索出基于簇模型最优子模型，并将最优子模型部署在客户端；

S3、对每个簇内的客户端进行本地训练，然后将参数上传到代表客户端，在代表客户端上进行对应参数的聚合，聚合后下发给簇内的客户端，重复步骤S3，直至簇内训练完成；

S4、通过集群感知的知识转移模块，将每个簇的知识传递给服务器模型，实现服务器模型的训练；

S5、通过反向知识蒸馏，将服务器模型的知识回传并更新每个簇的代表客户端，更新后的代表客户端将对应的参数下发给簇内的每个客户端。

进一步的是，步骤S1具体包括：

多因素异构感知聚类模块采用K-means算法，综合考虑每个客户端的算力资源限制与数据分布，将具有相似数据分布和算力限制的客户端划分到一个簇内；

聚类时，采用差分隐私的方法，对每个客户端的数据加入了高斯噪音，对于客户端i，其数据分布为P(D_i)，加入高斯噪音后，数据特征为：

Δ_f表示函数的灵敏度，∈表示一个衡量隐私保护的强度的参数；

对于每个簇，根据簇内每个客户端的算力限制，将算力最大的客户端作为这个簇的代表客户端，代表客户端根据自身的算力限制选取对应的基础模型，将选取的基础模型部署在代表客户端，作为簇模型。

进一步的是，步骤S2具体包括：

针对不同的算力限制，通过知识感知模型架构搜索算法，为算力不足的客户端搜索出最优的簇模型的子模型，并将其部署在该客户端；

知识感知模型架构搜索算法为基于遗传算法的深度剪枝算法，将对transformerblocks进行整个剪除，通过两个衡量指标计算出适应度，其中一个是NASWOT的衡量指标，计算方式如下：

S＝log|K|，N_A是激活函数的单元，d_H表示汉明距离，K表示核矩阵，S表示NASWOT的衡量指标；

另一个是KL散度的衡量指标，计算方式如下：

其中p是原始模型的logits，q为子模型的logits，T为可调的超参来控制logits之间的影响，d表示KL散度的衡量指标；

则适应度F，F＝S-d；

知识感知模型架构搜索算法搜索的具体包括：

Step1：生成多个子模型的结构；

Step2：随机选择两个子模型结构，并计算两个子模型结构的适应度，若第一个子模型结构的适应度大于第二个子模型结构的适应度，则第一个子模型结构为winner，第二个子模型结构为loser，否则第二个子模型结构为winner，第一个子模型结构为loser；

Step3：生成随机数，若小于交叉率，则将winner与loser对应的子模型结构进行交叉计算得到新的结构，若随机数小于突变率，则将loser对应的子模型结构翻转得到新的结构；

Step4：计算得到新的结构的适应度，若新的结构的适应度大于loser对应的子模型结构适应度，则将loser对应的子模型结构替换为新的结构；

Step5：重复Step1至Step4，直至完成循环。

进一步的是，步骤S3具体包括：

S301、通过客户端的私有数据进行微调，微调后仅保存参数；

S302、将各个客户端的参数上传到所属簇内的代表客户端，然后进行参数聚合；

S303、重复步骤S301至S302，直到簇内训练完成。

进一步的是，步骤S4具体包括：

S401、通过每个簇内的代表客户端进行知识传递，每个代表客户端的权重计算公式如下：

其中，ω_m表示每个代表客户端的权重，M为簇的个数，N_k为代表客户端的数据量，x_i为原数据，y_i为标签；

S402、使用无标签的公开数据集进行知识蒸馏，利用每个簇内的代表客户端作为教师模型，对无标签数据生成伪标签，通过伪标签和服务器模型的预测值计算cross-entropy loss，计算公式如下：

其中，表示无标签数据,是经过θ_leader(m)产生的伪标签；

S403、将教师模型经过公开数据集计算得到的logits传到服务器上，与服务器模型计算得到的logits计算KL散度，计算公式如下：

D_KL是KL散度的表示，σ表示激活函数；

S404、结合cross-entropy loss和KL loss，得到总的Loss，通过最小化Loss，对服务器模型进行优化，从而实现服务器模型的微调，总的Loss计算公式如下：

α表示超参数，控制cross-entropy loss和KLloss的比例。

进一步的是，步骤S4具体包括：

S501、对服务器模型优化后，通过无标签公开数据集，用知识蒸馏方法将对每个簇的代表模型进行更新，同时代表模型同样保存参数；

S502、每个簇的代表模型更新后，将参数按照簇内每个客户端的子模型结构进行下发，下发对应子模型结构的参数，将每个客户端的模型都进行更新；

S503、执行步骤S1，直至微调结束。

第二方面，本发明提供一种计算机装置，包括存储器，所述存储器存储有程序指令，所述程序指令运行时，执行上述所述的基于聚类的异构联邦基础模型自适应微调方法。

本发明的有益效果为：

本发明利用了partial training(PT)method和knowledge distillation(KD)method,有效解决了在高度资源异构的场景下，微调FMs的问题，使每个clients上部署的模型满足其资源限制，并大幅度降低了计算开销和通信开销。

附图说明

图1是本发明实施例提供的基于聚类的异构联邦基础模型自适应微调方法流程图；

图2是本发明实施例提供的簇内子模型参数聚合示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供一种基于聚类的异构联邦基础模型自适应微调方法，如图1所示，具体包括：

S1.通过MHAC(Multi-Factor Heterogeneous Aware Clustering，多因素异构感知聚类)模块，综合考虑每个客户端的算力资源限制，数据分布，进行聚类。为每个簇选定一个代表客户端(leader node)，代表客户端将会根据自身的算力限制选定一个合适的模型称为簇模型。

S2.通过KAMAS(Knowledge-Aware Model Architecture Search，知识感知模型架构搜索)算法，根据每个客户端异构的算力限制，为每个簇内的所有客户端搜索出基于簇模型最优的子模型，并将最优的子模型部署在客户端。

S3.每个簇内的客户端经过本地训练(基于lora的高效微调)后，将上传lora参数到代表客户端(leader node)，在代表客户端上进行对应参数的聚合，之后下发给簇内的客户端，重复以上步骤，直至簇内训练完成。

S4.通过CAKT(Cluster-Aware Knowledge Transfer，集群感知的知识转移)模块，将每个簇的知识传递给server model,实现server model的训练。

S5.通过反向知识蒸馏，将server model的知识回传并跟新每个簇的代表客户端(leader node),更新后的leader node将对应的lora参数下发给簇内的每个clients。

具体的，步骤S1具体包括：

S101:MHAC模块采用K-means算法进行聚类，综合考虑了clients上的算力和数据分布。为了保护数据的隐私，我们采用差分隐私的方法，对每个clients的数据加入了高斯噪音，对于client i,有数据分布P(D_i)，其加入噪音后，数据特征为Δ_f表示函数的灵敏度，∈表示一个衡量隐私保护的强度的参数；C(D_i)表示客户端的算力限制，K-means算法综合考虑M(D_i)和C(D_i)后，将具有相似数据分布和算力限制的客户端划分到一个簇内。

S102:对于每个簇，根据簇内每个clients的算力限制，将算力最大的client定位这个簇的代表客户端(leader node)，代表客户端可以根据自身的算力限制选取合适的Foundation model(FM),例如clip-base,clip-large模型等。被选中的模型将会被部署在leader node，作为簇模型。

具体的，步骤S2包括：

S201:由于在高度异质的客户端中，即使在同一个簇内，每个客户端的算力限制也有可能是不同的。因此不是每个client都能部署和簇内代表客户端(leader node)一样的模型(簇模型)，因此本发明针对不同的算力限制，通过知识感知模型架构搜索算法，为算力不足的客户端搜索出最有的簇模型的子模型(optimal sub model of cluster model)，并将其部署在该客户端。

S202:KAMAS算法是一种基于遗传算法的深度剪枝算法，将对transformer blocks(layers)进行整个剪除。有两个衡量指标，一个是Neural Architecture Search withoutTraining(NASWOT)score和Kullback-Leibler(KL)Divergence score(KL散度score)。

S＝log|K|，是NASWOT score的计算方法，其中N_A是激活函数的units，d_H表示汉明距离，NASWOT分数利用未训练网络中激活单元的初始激活模式来预测其最终性能。核矩阵K的构造通过计算表示输入数据点(c₁,c₂,...,c_N)在网络线性区域中的激活状态的二进制编码之间的汉明距离完成。最终NASWOT分数S由K的行列式绝对值的对数推导而来。

另一个是KL散度的衡量指标，计算方式如下：

其中p是原始模型的logits，q为子模型的logits，T为可调的超参来控制logits之间的影响。最后综合考虑两个指标可以计算出适应度F,F＝s-d。

搜索算法具体步骤如下所示：

Step1:先生成多个子模型的结构(由于基于transformer的模型是多个transformer block堆叠而成，子模型结构就是选取哪些transformer block的表达式，例如[1,0,0,1,1,0,1...]，1代表选择，0代表不选)。

Step2:随机选择两个子模型结构A,B，计算适应度(Fitness),FA,FB,如果FA>FB,则A是winner,B是loser,反之亦然。

Step3:生成随机数，若小于交叉率，则将winner与loser的结构进行交叉计算得到新的结构。若随机数小于突变率，则将loser的结构翻转得到新的结构。

Step4:重新计算更新后的结构的适应度(Fitness),若新的适应度大于loser的适应度，则将种群中的loser机构替换成这个新的结构。

Step5:重复Step1至Step4，直至完成循环。

具体的，步骤S3具体包括：

S301:客户端用自己的私有数据进行高效微调(使用lora)，微调后仅保存lora参数即可。

S302:将各个客户端的lora参数上传到所属簇内的代表客户端(leader node),之后在这里完成参数聚合，如图2所示，并重新下发给各个客户端。

S303:重复步骤S301至S302，直到簇内训练完成。

具体的，步骤S4具体包括：

S401:通过每个簇内的代表客户端(leader node)进行知识传递，由于各个代表客户端提供的能力不同，为了确保服务器模型得到更精确的知识，本发明利用每个簇内训练后的准确设计了集群感知的知识转移模块。每个代表客户端的权重计算公式如下：

其中M为簇的个数，N_k为代表客户端的数据量，x_i为原数据，y_i为标签；

S402:使用无标签公开数据集进行知识蒸馏，利用每个簇内的代表客户端(leadernode)作为教师模型，对无标签数据生成伪标签，通过伪标签和服务器模型的预测值计算cross-entropy loss,计算公式如下

其中，表示无标签数据,是经过θ_leader(m)产生的伪标签；

S403:将教师模型经过公开数据集计算得到的logits传到服务器上，与服务器模型计算得到的logits计算KL散度，计算公式如下：

D_KL是KL散度的表示，σ表示激活函数；

S404:结合cross-entropy loss和KL loss，得到总的Loss,最终通过最小化Loss，对服务器模型进行优化，从而实现服务器模型的微调，总的Loss计算公式如下：

α表示超参数，控制cross-entropy loss和KLloss的比例。

具体的，步骤S5包括：

S501:更新服务器模型后，通过无标签公开数据集，用知识蒸馏方法将对每个簇的代表模型(leader node)进行跟新，同时leader node的模型同样保存lora参数即可。

S502:每个簇的leader node更新好后，将lora参数按照簇内每个客户端的子模型结构进行下发，下发对应子模型结构的参数，将每个客户端的模型都进行跟新。

S503:更新好所有的客户端后意味着完成了一轮整体的训练，重新开始步骤S1，直至微调结束。

相比于传统方案，本发明的性能显著超越现有的解决方案。在大量实验中，本发明实现了显著提升。具体而言，在cifar10,cifar100,tiny-imagenet数据集中，FedCAMS在图像分类准确率相比其他基线方法提高3-10％。于此同时，与partial training based的基线方法相比，大幅减少了通信开销，通信开销几乎可以忽略不计。通过使用lora高效微调方法，与全量微调相比，可训练参数仅为原来的1％左右，计算开销也大幅降低。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于聚类的异构联邦基础模型自适应微调方法，其特征在于，包括：

2.根据权利要求1所述的基于聚类的异构联邦基础模型自适应微调方法，其特征在于，步骤S1具体包括：

3.根据权利要求1所述的基于聚类的异构联邦基础模型自适应微调方法，其特征在于，步骤S2具体包括：

另一个是KL散度的衡量指标，计算方式如下：

则适应度F，F＝S-d；

知识感知模型架构搜索算法搜索的具体包括：

Step1：生成多个子模型的结构；

Step5：重复Step1至Step4，直至完成循环。

4.根据权利要求1所述的基于聚类的异构联邦基础模型自适应微调方法，其特征在于，步骤S3具体包括：

S301、通过客户端的私有数据进行微调，微调后仅保存参数；

S303、重复步骤S301至S302，直到簇内训练完成。

5.根据权利要求1所述的基于聚类的异构联邦基础模型自适应微调方法，其特征在于，步骤S4具体包括：

其中ω_m表示每个代表客户端的权重，M为簇的个数，N_k为代表客户端的数据量，x_i为原数据，y_i为标签；

S402、使用无标签的公开数据集进行知识蒸馏，利用每个簇内的代表客户端作为教师模型，对无标签数据生成伪标签，通过伪标签和服务器模型的预测值计算cross-entropyloss，计算公式如下：

其中，表示无标签数据,是经过θ_leader(m)产生的伪标签；

D_KL是KL散度的表示，σ表示激活函数；

α表示超参数，控制cross-entropy loss和KL loss的比例。

6.根据权利要求1所述的基于聚类的异构联邦基础模型自适应微调方法，其特征在于，步骤S4具体包括：

S503、执行步骤S1，直至微调结束。

7.一种计算机装置，包括存储器，所述存储器存储有程序指令，其特征在于，所述程序指令运行时，执行如权利要求1-6任意一项所述的基于聚类的异构联邦基础模型自适应微调方法。