CN117521856B

CN117521856B - 一种基于本地特征的大模型切割联邦学习方法及系统

Info

Publication number: CN117521856B
Application number: CN202311849984.6A
Authority: CN
Inventors: 徐玉华; 孙知信; 牛硕; 孙哲; 赵学健; 胡冰; 汪胡青; 宫婧
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-15
Anticipated expiration: 2043-12-29
Also published as: CN117521856A

Abstract

本发明公开了一种基于本地特征的大模型切割联邦学习方法及系统，涉及联邦学习领域，提出一种基于客户端特征的大模型切割算法以获得针对特定特征的本地小模型，进而更高效的进行本地训练；为在保证梯度可用性的情况下尽可能大的提高隐私性，提出一种基于精确度反馈的隐私预算分配方法以确定最合适的隐私预算；为解决恶意客户端上传低质模型影响全局大模型收敛的问题，提出一种基于信誉度的恶意客户端检测和选择方法实现对客户端的检测和选择；为解决产生的通信开销问题，提出一种本地小模型参数压缩算法实现模型参数的压缩，减少通信传输的数据包大小。

Description

一种基于本地特征的大模型切割联邦学习方法及系统

技术领域

本发明涉及联邦学习领域，特别是一种基于本地特征的大模型切割联邦学习方法及系统。

背景技术

近年来，联邦学习成为受到广泛关注的机器学习框架，可以有效解决现有数据孤岛问题。但是在实际应用中，联邦学习面临着一些挑战。首先，各个客户端之间的数据集通常是异构的，这导致在处理大型模型训练时效率较低，进而影响到全局大模型的聚合结果。其次，由于客户端资源的限制，处理大规模模型训练变得非常低效。此外，梯度上传过程中存在潜在的风险，可能会受到推理攻击和反演攻击的威胁。

传统的客户端采样方法没有考虑到恶意客户端的存在，低质量的本地模型会对全局大模型的收敛速度产生负面影响。同时，传统的联邦学习框架往往会带来巨大的通信开销。

发明内容

鉴于现有的客户端间数据集异构性导致的聚合困难、平衡数据隐私和可用性的关系以及恶意客户端上传低质量模型参数引起的收敛困难问题，提出了本发明。

因此，本发明所要解决的问题在于如何采用联邦学习、差分隐私、安全评估机制、模型压缩和分布式推理等技术以提高模型的聚合能力、保护数据隐私并鼓励高质量参与者的参与，同时降低模型的计算和通信成本。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明实施例提供了基于本地特征的大模型切割联邦学习方法，其包括客户端模块C接收中央服务器模块CS下发的全局大模型、全局大模型参数/>和测试数据集/>，并根据自身训练特征对全局大模型/>进行切割以生成适合本地高效训练的本地小模型/>；客户端/>在本地小模型/>上进行本地训练，并更新本地小模型参数/>，同时计算本地小模型/>在测试数据集/>上的精确度和损失函数的梯度；客户端/>根据预设的精确度变化-隐私预算分配策略决定本轮梯度扰动的隐私预算，并对梯度进行加噪处理；完成梯度加噪后，客户端/>通过本地小模型参数压缩算法对更新后的本地小模型参数进行压缩，并将压缩后的本地小模型参数和加噪后的梯度异步上传至异常检测和选择模块DS；异常检测和选择模块DS通过n轮交互完成异常客户端信誉度检测阈值协商，并在接收上传参数后更新全局信誉度和本地信誉度；异常检测和选择模块DS根据信誉度检测阈值协商检测恶意终端，并将全局信誉度以及全局信誉度所对应的压缩模型参数上传至中央服务器模块CS；中央服务器模块CS根据全局信誉度对客户端/>进行二次采样，使用还原聚合方式更新全局大模型/>，并将聚合后的全局大模型参数下发至客户端/>，直至大模型收敛。

作为本发明所述基于本地特征的大模型切割联邦学习方法的一种优选方案，其中：根据自身训练特征对全局大模型进行切割以生成适合本地高效训练的本地小模型包括以下步骤：中央服务器模块CS下发全局大模型/>和全局大模型参数/>到所有参与训练的客户端/>；客户端/>接收全局大模型/>和初始全局大模型参数/>，并在全局大模型/>上执行/>轮本地预训练以获得客户端/>最终的特征挖掘模型/>和特征挖掘模型参数/>；客户端/>根据特征挖掘模型参数/>和初始全局大模型参数/>计算参数相似度矩阵/>；客户端/>将相似度矩阵/>中相似度大于0.95的模型参数所对应的神经网络进行切割，以生成适合本地高效训练的本地小模型/>和本地小模型参数/>；初始全局大模型参数/>的具体公式如下：

；

其中，为第/>层神经网络，/>为大模型结构的第/>层神经网络的第/>个模型参数，/>为第/>层神经网络中模型参数个数，/>为神经网络总层数，/>为神经网络层数，/>为神经网络某层的标号。

特征挖掘模型和特征挖掘模型参数/>的训练过程具体如下：

；

其中，为特征挖掘阶段的训练轮次，/>为客户端/>的标号，/>为特征挖掘模型标识，/>为客户端/>的学习率，/>为对变量求偏导，/>为客户端/>的第t轮特征挖掘模型的梯度，/>表示损失函数，/>表示客户端/>的样本及其对应的标签，/>为第t轮特征挖掘模型参数；

参数相似度矩阵的具体公式如下：

；

其中，为两个神经网络第m层第n个参数的相似度，具体公式如下：

；

其中，为全局大模型/>的第/>层神经网络的第/>个模型参数，/>为特征挖掘模型/>的第/>层神经网络的第/>个模型参数，/>为神经网络层数。

作为本发明所述基于本地特征的大模型切割联邦学习方法的一种优选方案，其中：所述本地小模型参数压缩算法包括以下步骤：通过设定模型参数阈值筛选对训练效果有贡献的重要模型参数，并将无用的本地小模型参数进行稀疏化处理；对稀疏化处理后的本地小模型参数/>进行压缩量化以获得压缩值中心点/>和压缩本地小模型参数；稀疏化处理的具体过程如下：

；

其中，表示模型参数值阈值，/>为本地小模型/>的第/>层神经网络的第个原始模型参数，/>为本地小模型/>的第/>层神经网络的第/>个稀疏化之后的模型参数。

压缩值中心点的具体公式如下：

；

其中，为压缩因子，具体公式如下：

；

其中，为压缩后的本地小模型参数取值最小值，/>为压缩后的本地小模型参数取值最大值，/>为原始的本地小模型参数取值最小值，/>为原始的本地小模型参数取值最大值。

作为本发明所述基于本地特征的大模型切割联邦学习方法的一种优选方案，其中：对梯度进行加噪处理包括以下步骤：在客户端模块C中，为客户端设置最大隐私预算和最小隐私预算；在本地小模型训练前期阶段，客户端根据精确度变化来动态调整每一轮的隐私预算，当精确度不再提升或变化浮动范围不超过时，客户端增加隐私预算以降低噪声水平；在本地小模型训练后期阶段，采用一种多项式线性增长函数以解决隐私预算影响模型的收敛速度问题；精确度变化-隐私预算分配策略包括以下内容：全局大模型精确度-客户端本地小模型精确度：

；

其中，为全局大模型第t轮的精确度，/>为客户端/>本地小模型第t轮的精确度，/>为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，/>为客户端/>第t-1轮的隐私预算。

前一轮全局大模型精确度-当前轮次全局大模型精确度：

；

其中，为全局大模型第t-1轮的精确度，/>为全局大模型第t轮的精确度，/>为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，为客户端/>第t-1轮的隐私预算。

前一轮本地小模型精确度-当前轮次本地小模型精确度：

；

其中，为客户端/>本地小模型第t-1轮的精确度，/>为客户端/>本地模型第t轮的精确度，/>为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，/>为客户端/>第t-1轮的隐私预算。

当全局模型训练精度变化超过阈值时，以倍数/>增加隐私预算；当隐私预算大于/>时，隐私预算不再增加，直到整体隐私预算耗尽；多项式线性增长函数的具体公式如下：

；

其中，为最小隐私预算，t表示当前训练轮次，/>表示预定训练轮次，/>为最大隐私预算。

作为本发明所述基于本地特征的大模型切割联邦学习方法的一种优选方案，其中：异常检测和选择模块DS根据信誉度检测阈值协商检测恶意终端包括以下步骤：异常检测和选择模块DS初始化全部客户端的全局信誉度/>和本地信誉度/>；异常检测和选择模块DS接收客户端/>上传的第t轮训练的加噪的梯度/>和压缩后的本地小模型参数，并计算其本地信誉度/>；当/>且异常检测和选择模块DS计算完成全部客户端的本地信誉度/>后，将本地信誉度按照降序排序得到序列/>，并记录阈值/>和/>分别为/>和/>，同时以/>轮的平均值作为阈值/>和/>的协商值；异常检测和选择模块DS利用本地信誉度/>和阈值/>和/>之间的关系检测判断客户端/>的类别；异常检测和选择模块DS更新客户端/>的全局信誉度/>，并将全局信誉度/>及其对应的压缩后的本地小模型参数/>组成二元组/>，并上传至中央服务器模块CS；客户端/>的类别包括恶意客户端MC、普通客户端GC和高质量客户端HQC，判断准则具体如下：当时，异常检测和选择模块DS将客户端/>设置为恶意客户端MC，并禁止节点继续参与此联邦学习模型训练任务；当/>时，异常检测和选择模块DS将客户端/>设置为普通客户端GC，并统计客户端被认定为普通客户端GC的次数，若次数大于阈值/>，则禁止继续参与本次联合学习模型训练任务；当/>时，异常检测和选择模块DS将客户端/>设置为高质量客户端HQC，允许并鼓励其继续参与此联邦学习模型训练任务。

作为本发明所述基于本地特征的大模型切割联邦学习方法的一种优选方案，其中：使用还原聚合方式更新全局大模型包括以下步骤：中央服务器模块CS异步接收异常检测和选择模块DS上传的二元组/>，并存储在大小为/>的缓冲池内；中央服务器模块CS对缓冲池中的二元组/>以全局信誉度为主元对辅元压缩后的本地小模型参数/>降序排序，并剔除缓冲池排序中全局信誉度低于0.3的本地小模型参数/>，直到缓冲池满；中央服务器模块CS对选择的客户端/>的压缩的本地小模型参数/>进行操作，恢复并还原为稀疏化的本地小模型参数/>；对稀疏化的各客户端/>的本地小模型参数/>与全局大模型参数/>执行/>次基于特征迁移的聚合操作；获取经过特征迁移聚合后的第t轮全局大模型/>，中央服务器模块CS将聚合后的全局大模型参数下发继续训练直至模型收敛。

作为本发明所述基于本地特征的大模型切割联邦学习方法的一种优选方案，其中：所述第t轮全局大模型的聚合公式具体如下：

；

其中，为全局第t轮下第j次特征迁移聚合的大模型，/>为学习率，/>为特征迁移聚合下的损失函数，/>表示客户端/>的本地数据集的样本个数，/>为模型在测试数据集/>上激活函数输出。

第二方面，本发明实施例提供了一种基于本地特征的大模型切割联邦学习系统，其包括客户端模块C，包含参与整个训练过程的恶意客户端MC、普通客户端GC和高质量客户端HQC，用于将全局大模型切割为本地小模型，并在其上进行多轮训练以获得更优的模型，并依据训练的本地小模型在测试数据集上的精确度设计隐私预算分配策略以对梯度进行扰动，同时执行压缩量化算法对训练的切割后的模型压缩后上传至异常检测和选择模块DS；异常检测和选择模块DS，作为客户端模块C和中央服务器模块CS之间的中转站，接收来自客户端模块C中经过加噪处理的梯度，并利用这些梯度计算客户端的信誉度以确定客户端的可信程度，同时负责将本地小模型参数可信上传至中央服务器模块CS；中央服务器模块CS，作为整个框架大模型更新的核心部分，用于在接收异常检测和选择模块DS所发送的全局信誉度和本地小模型参数后，执行基于缓冲池的客户端本地小模型参数二次采样，对接收到的本地模型参数进行解压缩并实现大模型聚合。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于本地特征的大模型切割联邦学习方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于本地特征的大模型切割联邦学习方法的步骤。

本发明有益效果为：本发明针对客户端数据特征对全局模型进行切割得到适用于本地训练的小模型以提高训练效率和收敛速度；通过对客户端设置本地和全局信誉度以检测客户端类别，针对不同类别设置不同的处置策略，进而实现高质量聚合加快模型收敛速度；通过对本地模型参数进行量化压缩，减少通信数据包传输，降低客户端和中央服务器通信压力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1基于本地特征的大模型切割联邦学习方法的方法流程图。

图2为实施例1基于本地特征的大模型切割联邦学习方法的学习框架。

图3为实施例1基于本地特征的大模型切割联邦学习方法的大模型切割算法示意图。

图4为实施例2基于本地特征的大模型切割联邦学习方法的本地小模型训练前后神经网络某层参数权重对比。

图5为实施例2基于本地特征的大模型切割联邦学习方法的模型训练和测试损失和精确度。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1~图3，为本发明第一个实施例，该实施例提供了一种基于本地特征的大模型切割联邦学习方法，包括，

S1：客户端模块C接收中央服务器模块CS下发的全局大模型、全局大模型参数和测试数据集/>，并根据自身训练特征对全局大模型/>进行切割以生成适合本地高效训练的本地小模型/>。

具体的，根据自身训练特征对全局大模型进行切割以生成适合本地高效训练的本地小模型/>包括以下步骤：

S1.1：中央服务器模块CS下发全局大模型、全局大模型参数/>和测试数据集到所有参与训练的客户端/>。

具体的，N表示参与训练的客户端个数，表示标号为i的客户端，初始全局大模型参数/>的具体公式如下：

；

S1.2：客户端接收全局大模型/>和初始全局大模型参数/>，并在全局大模型/>上执行/>轮本地预训练以获得客户端/>最终的特征挖掘模型/>和特征挖掘模型参数/>。

需要说明的是，表示全局大模型，/>表示t轮的全局大模型参数，t表示轮数，故t=0视为初始全局大模型参数。具体的，特征挖掘模型/>和特征挖掘模型参数/>的训练过程具体如下：

；

其中，t为特征挖掘阶段的训练次数，为客户端/>的标号，/>为特征挖掘模型标识，/>为客户端/>的学习率，/>为对变量求偏导，/>为客户端/>的第t轮特征挖掘模型的梯度，/>表示损失函数，/>表示客户端/>的样本及其对应的标签，/>为第t轮特征挖掘模型参数。

需要说明的是，特征挖掘模型参数与初始全局大模型参数/>的结构均相同且/>。

优选的，图2展示了一种基于终端特征的大模型切割方法，在该方法中，客户端首先在大模型上进行预训练，生成一个特征挖掘模型，通过计算客户端的特征与大模型的相似度，可以挖掘出客户端具有的特征。

进一步的，根据挖掘到的特征，利用蒸馏技术切割出客户端的本地小模型，在此过程中，大模型的隐藏层的层数根据模型的判别结果来确定；如果需要识别更多的特征，判别结果会更多，从而导致隐藏层的层数增加；相反，如果需要识别较少的特征，则隐藏层的层数减少。

值得注意的是，图2中部分隐藏层神经元被隐藏起来，仅展示了整体结构。

S1.3：客户端根据特征挖掘模型参数/>和初始全局大模型参数/>计算参数相似度矩阵/>。

具体的，参数相似度矩阵的具体公式如下：

；

其中，为大模型结构/>的第/>层神经网络的第/>个模型参数，/>为特征挖掘模型/>的第/>层神经网络的第/>个模型参数。

S1.4：客户端将相似度矩阵/>中相似度大于0.95的模型参数所对应的神经网络进行切割，以生成适合本地高效训练的本地小模型/>和本地小模型参数/>。

优选的，客户端将相似度矩阵/>中相似度大于0.95的本地小模型参数所对应的神经网络进行切割是因为这部分神经网络中对训练不起作用或作用很小，因此通过从全局大模型该部分特征迁移出新的本地小模型/>及参数/>。

S2：客户端在本地小模型/>上进行本地训练，并更新本地小模型参数/>，同时计算本地小模型/>在测试数据集/>上的精确度和损失函数的梯度。

具体的，包括以下步骤：

S2.1：客户端在本地数据上对切割后的模型参数进行训练。

优选的，过程表示如下：

；

其中，表示本地训练轮次，/>表示本地训练函数，/>表示客户端的本地数据集，/>表示切割后的本地小模型参数。

S2.2：迭代执行次，获得第t轮本地训练的本地小模型参数/>，并更新本地小模型参数。

具体的，表示本地训练总轮次，通过正向传播的结果求反向传播的权重参数求导得到梯度来更新参数。

S2.3：计算本地小模型在测试数据集/>上的精确度和损失函数的梯度。

具体的，本地小模型参数在测试数据集上的精确度的具体公式如下：

；

其中，t表示本地训练轮次，表示精确度测试函数，/>表示测试数据集，表示本地小模型参数。

进一步的，损失函数的梯度的计算公式如下：

；

其中，为本地小模型参数，t表示本地训练轮次，/>为客户端/>的标号，/>为对变量求偏导，/>表示损失函数，/>表示客户端/>的样本及其对应的标签。

S3：客户端根据预设的精确度变化-隐私预算分配策略决定本轮梯度扰动的隐私预算，并对梯度进行加噪处理。

具体的，包括以下步骤：

S3.1：在客户端模块中，为客户端设置最大隐私预算和最小隐私预算/>。

S3.2：在本地小模型训练前期阶段，客户端根据自身实际训练结果和精确度变化来动态调整每一轮的隐私预算，当精确度不再提升或变化浮动范围不超过时，客户端增加隐私预算以降低噪声水平。

具体的，精确度变化-隐私预算分配策略包括以下内容：

S3.2.1：全局大模型精确度-客户端本地小模型精确度：

；

S3.2.2：前一轮全局大模型精确度-当前轮次全局大模型精确度：

；/>

S3.2.3：前一轮本地模型精确度-当前轮次本地模型精确度：

；

其中，为本地小模型第t-1轮的精确度，/>为本地小模型第t轮的精确度，/>为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，为客户端/>第t-1轮的隐私预算。

进一步的，当全局模型训练精度变化超过阈值时，以倍数/>增加隐私预算；当隐私预算大于/>时，隐私预算不再增加，直到整体隐私预算耗尽。

需要说明的是，表示第t轮的全局大模型参数/>在测试数据集上的精确度，/>表示第t轮的全局大模型参数/>在测试数据集上的精确度，/>表示第t轮客户端的本地小模型参数在测试数据集上的精确度，/>表示第t-1轮客户端的本地小模型参数在测试数据集上的精确度，/>表示精确度测试函数。

需要说明的是，精确度变化-隐私预算分配中的-表示利用精确度的变化情况来调整隐私预算；在S3.2.2~S3.2.3中，以全局大模型精确度-客户端本地小模型精确度为例，这里的-表示减号，代表该策略是利用这两个精确度的变化来调整隐私预算；三种策略的本质区别就是精确度变化的计算方式不同；且以倍数增加隐私预算，其中/>没有具体倍数，因为需要做实验找最优倍数；直到整体隐私预算耗尽是因为隐私预算越大，扰动效果越差，而每轮训练都需要更新总的整体隐私预算，当预算用光就不需要扰动了，但是这种情况一般不会发生，这么写是为了有一个额外的函数出口，不至于一直训练结束不了。

S3.3：在本地小模型训练后期阶段，采用一种多项式线性增长函数以解决隐私预算影响模型的收敛速度问题。

具体的，在本地小模型训练后期阶段，较高的噪声（即较小的隐私预算）会影响模型的收敛速度，因此对隐私预算采用一种多项式线性增长函数，隐私预算随时间增长，该函数与精确度等其他因素无关。

其中，多项式线性增长函数的具体公式如下：

；/>

S3.4：利用先前的隐私预算对梯度进行加噪，并计算本地小模型在测试数据集上的加噪后的梯度。

具体公式如下：

；

其中，表示加噪后的梯度，/>表示随机化机制利用隐私预算/>对梯度进行扰动即加噪，/>表示第t轮的全局大模型参数/>在测试数据集/>上的梯度。

需要说明的是，先前的隐私预算是指S3.2和S3.3中得到的隐私预算，等号左边的符号表示客户端在第t轮的隐私预算。

优选的，图3左侧的神经网络结构表示第t轮的全局大模型参数，黑色粗框线圈出来的神经网络结构表示在某客户端训练下有较大变化的神经元，且图3右侧的神经网络表示第t轮的针对客户端特征所切割的本地小模型，即基于大模型参数通过特征迁移蒸馏出针对特定特征的本地小模型参数。

S4：完成梯度加噪后，客户端通过本地小模型参数压缩算法对更新后的本地小模型参数进行压缩，并将压缩后的本地小模型参数和加噪后的梯度异步上传至异常检测和选择模块DS。

具体的，包括以下步骤：

S4.1：完成梯度加噪后，客户端通过本地小模型参数压缩算法对更新后的本地小模型参数进行压缩。

优选的，本地小模型参数压缩算法包括以下步骤：

S4.1.1：通过设定模型参数阈值筛选对训练效果有贡献的重要模型参数，并将无用的本地小模型参数进行稀疏化处理。

具体的，稀疏化处理的具体过程如下：

；

其中，表示本地小模型参数值阈值，/>为本地小模型参数的第/>层神经网络的第/>个原始的模型参数，/>为本地小模型参数的第/>层神经网络的第/>个压缩后的模型参数。

需要说明的是，稀疏化后的本地小模型参数的第m层模型参数可以表示为，且只包含起到训练效果好的模型参数，将不重要的模型参数替换为0相比于浮点数，存储和内存占用更少。

S4.1.2：对稀疏化处理后的本地小模型参数进行压缩量化，以获得压缩值中心点/>和压缩本地小模型参数/>。

具体的，设即每个模型参数的取值范围固定在特殊区间表示神经网络中要传输的浮点型参数，/>和/>表示浮点型原始的模型参数取值的最小值和最大值，/>表示压缩后的模型参数取值，/>和表示压缩后的模型参数取值的最小值和最大值，/>表示压缩因子，/>表示压缩值中的零点即中心点。

具体的，压缩值中心点的具体公式如下：

；

其中，表示压缩因子，具体公式如下：

；

其中，和/>表示原始的本地小模型参数取值的最小值和最大值，和/>表示压缩后的本地小模型参数取值的最小值和最大值，/>表示压缩因子。

进一步的，客户端通过压缩公式对本地小模型参数进行压缩得到压缩后的本地小模型参数，其中压缩后的本地小模型参数/>的具体公式如下：

；

其中，表示压缩值中心点，/>表示压缩后的本地小模型参数，/>表示原始的本地小模型参数，/>表示压缩因子。

S4.1.3：各客户端将压缩后的本地小模型参数和加噪后的梯度异步上传至异常检测和选择模块DS。

S5：异常检测和选择模块DS通过n轮交互完成异常客户端信誉度检测阈值协商，并在接收上传参数后更新全局信誉度和本地信誉度。

S6：异常检测和选择模块DS根据信誉度检测阈值协商检测恶意终端，并将全局信誉度以及全局信誉度所对应的压缩模型参数上传至中央服务器模块CS。

具体的，包括以下步骤：

S6.1：异常检测和选择模块根据信誉度检测阈值协商检测恶意终端。

具体的，包括以下步骤：

S6.1.1：异常检测和选择模块DS初始化全部客户端的全局信誉度/>和本地信誉度/>。

具体的，异常检测和选择模块DS初始化全部客户端的全局信誉度/>和本地信誉度/>为0，即/>、/>，其中/>表示客户端/>第t轮的全局信誉度，/>表示客户端/>第t轮的本地信誉度。

S6.1.2：异常检测和选择模块DS接收客户端上传的第t轮训练的加噪的梯度和压缩后的本地小模型参数/>，并计算其本地信誉度/>。

具体的，本地信誉度的具体公式如下：

；

其中，表示加噪后的梯度，/>表示全局梯度。

S6.1.3：当且异常检测和选择模块DS计算完成全部客户端/>的本地信誉度/>后，将本地信誉度按照降序排序得到序列/>，并记录阈值/>和分别为/>和/>，同时以/>轮的平均值作为阈值/>和/>的协商值。

S6.1.4：异常检测和选择模块DS利用本地信誉度和阈值/>和/>之间的关系检测判断客户端/>的类别。

具体的，客户端的类别包括恶意客户端MC、普通客户端GC和高质量客户端HQC，判断准则具体如下：当/>时，异常检测和选择模块DS将客户端/>设置为恶意客户端MC，并禁止节点继续参与此联邦学习模型训练任务；当/>时，异常检测和选择模块DS将客户端/>设置为普通客户端GC，并统计客户端被认定为普通客户端GC的次数，若次数大于3，则禁止继续参与本次联合学习模型训练任务；当/>时，异常检测和选择模块DS将客户端/>设置为高质量客户端HQC，允许并鼓励其继续参与此联邦学习模型训练任务。

S6.2：异常检测和选择模块DS更新客户端的全局信誉度，其中表示相邻两轮本地信誉度间的关系权重。

需要说明的是，为信誉度重要性的权重，通过指定的/>值来决定客户端前期和后期间全局信誉度的重要程度，若需要关注客户端的早期信誉度，那么/>的值接近1，反之若需要关注客户端的晚期信誉度，那么/>的值接近0。

S6.3：将全局信誉度及其对应的压缩后的本地小模型参数/>组成二元组，并上传至中央服务器模块CS。

S7：中央服务器模块CS根据全局信誉度对客户端/>进行二次采样，使用还原聚合方式更新全局大模型/>，并将聚合后的全局大模型参数下发至客户端/>继续训练，直至大模型收敛。

具体的，包括以下步骤：

S7.1：中央服务器模块CS根据全局信誉度对客户端/>进行二次采样。

具体的，包括以下步骤：

S7.1.1：中央服务器模块CS异步接收异常检测和选择模块DS上传的二元组，并存储在大小为/>的缓冲池内。

S7.1.2：中央服务器模块CS对缓冲池中的二元组以全局信誉度为主元对辅元压缩后的本地小模型参数/>降序排序，并剔除缓冲池排序中全局信誉度低于0.3的本地小模型参数/>，直到缓冲池满。

S7.1.3：中央服务器对选择的客户端的压缩的本地小模型参数/>进行操作，恢复并还原为稀疏化的本地小模型参数/>。

具体的，稀疏化的本地小模型参数的具体公式如下：

；/>

其中，表示压缩后的本地小模型参数，/>表示压缩值中心点，/>表示压缩因子。

S7.2：对稀疏化的各客户端的本地小模型参数/>与全局大模型参数/>执行/>次基于特征迁移聚合操作。

具体的，全局大模型的聚合公式具体如下：

；

其中，为全局第t轮下第j次特征迁移聚合的全局大模型参数，/>为学习率，为特征迁移聚合下的损失函数，/>表示客户端/>的本地数据集的样本个数，为模型在测试数据集/>上激活函数输出。

S7.3：中央服务器CS获取经过特征迁移聚合后的第t轮全局大模型，并将聚合后的全局大模型参数/>下发客户端/>，直至大模型收敛。

进一步的，本实施例还提供一种基于本地特征的大模型切割联邦学习系统，包括客户端模块C，包含参与整个训练过程的恶意客户端MC、普通客户端GC和高质量客户端HQC，用于将全局大模型切割为本地小模型，并在其上进行多轮训练以获得更优的模型，并依据训练的本地小模型在测试数据集上的精确度设计隐私预算分配策略以对梯度进行扰动，同时执行压缩量化算法对训练的切割后的模型压缩后上传至异常检测和选择模块DS；异常检测和选择模块DS，作为客户端模块C和中央服务器模块CS之间的中转站，接收来自客户端模块C中经过加噪处理的梯度，并利用这些梯度计算客户端的信誉度以确定客户端的可信程度，同时负责将本地小模型参数可信上传至中央服务器模块CS；中央服务器模块CS，作为整个框架大模型更新的核心部分，用于在接收到异常检测和选择模块DS所发送的全局信誉度和本地小模型参数后，执行基于缓冲池的客户端本地小模型参数二次采样，对接收到的本地模型参数进行解压缩并实现大模型聚合。

本实施例还提供一种计算机设备，适用于基于本地特征的大模型切割联邦学习方法的情况，包括存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的基于本地特征的大模型切割联邦学习方法。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：客户端模块C接收中央服务器模块CS下发的大模型结构、初始全局大模型参数和测试数据集/>，并根据自身训练特征对大模型结构进行切割以生成适合本地高效训练的本地小模型；客户端/>在本地小模型上进行本地训练，并更新本地小模型参数，同时计算本地小模型在测试数据集/>上的精确度和损失函数的梯度；客户端/>根据预设的精确度变化-隐私预算分配策略决定本轮梯度扰动的隐私预算，并对梯度进行加噪处理；完成梯度加噪后，客户端/>通过本地小模型参数压缩算法对更新后的本地小模型参数进行压缩，并将压缩后的本地小模型参数和加噪后的梯度异步上传至异常检测和选择模块DS；异常检测和选择模块DS通过n轮交互完成异常客户端信誉度检测阈值协商，并在接收上传参数后更新全局信誉度和本地信誉度；异常检测和选择模块DS根据信誉度检测阈值协商检测恶意终端，并将全局信誉度以及全局信誉度所对应的压缩模型参数上传至中央服务器模块CS；中央服务器模块CS根据全局信誉度对客户端/>进行二次采样，使用还原聚合方式更新大模型结构，并将聚合后的全局大模型下发至客户端/>，直至大模型收敛。

综上，本发明针对客户端数据特征对全局模型进行切割得到适用于本地训练的小模型以提高训练效率和收敛速度；通过对客户端设置本地和全局信誉度以检测客户端类别，针对不同类别设置不同的处置策略，进而实现高质量聚合加快模型收敛速度；通过对本地模型参数进行量化压缩，减少通信数据包传输，降低客户端和中央服务器通信压力。

实施例2

参照图4~图5，为本发明第二个实施例，该实施例提供了基于本地特征的大模型切割联邦学习方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

具体的，如图4所示为以MNIST手写数据集为数据集的本地小模型训练前后的倒数第二层神经网络参数对比图。由于神经网络层数越深所提取的特征也就越复杂，但在训练前期本地小模型对复杂特征的提取能力较弱（即针对莫特征的参数权重较小，例如图中短虚线框出部分），因此判别精确度较低；但随着本地小模型训练次数的增加，该层网络参数得到反馈优化使得其特征提取能力增强（即针对某特征的参数权重增加，例如图中长虚线框出部分），进而实现精确度上的提高。

进一步的，如图5所示，从全局大模型切割而来的本地小模型在初始针对本地数据集的训练精确度较低、损失较高，但随着对数据集训练次数的增加，针对该特征的精确度可以从60%提升到90%以上，说明该本地小模型在处理该数据集上的特定问题起到了很大效果。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于本地特征的大模型切割联邦学习方法，其特征在于：包括，

客户端模块C接收中央服务器模块CS下发的全局大模型、全局大模型参数/>和测试数据集/>，并根据自身训练特征对全局大模型/>进行切割以生成适合本地高效训练的本地小模型/>；

客户端在本地小模型/>上进行本地训练，并更新本地小模型参数/>，同时计算本地小模型/>在测试数据集/>上的精确度和损失函数的梯度；

客户端根据预设的精确度变化-隐私预算分配策略决定本轮梯度扰动的隐私预算，并对梯度进行加噪处理；

完成梯度加噪后，客户端通过本地小模型参数压缩算法对更新后的本地小模型参数进行压缩，并将压缩后的本地小模型参数和加噪后的梯度异步上传至异常检测和选择模块DS；

异常检测和选择模块DS通过n轮交互完成异常客户端信誉度检测阈值协商，并在接收上传参数后更新全局信誉度和本地信誉度；

异常检测和选择模块DS根据信誉度检测阈值协商检测恶意终端，并将全局信誉度以及全局信誉度所对应的压缩模型参数上传至中央服务器模块CS；

中央服务器模块CS根据全局信誉度对客户端进行二次采样，使用还原聚合方式更新全局大模型/>，并将聚合后的全局大模型参数下发至客户端/>，直至大模型收敛。

2.如权利要求1所述的基于本地特征的大模型切割联邦学习方法，其特征在于：所述根据自身训练特征对全局大模型进行切割以生成适合本地高效训练的本地小模型/>包括以下步骤：

中央服务器模块CS下发全局大模型和全局大模型参数/>到所有参与训练的客户端/>，其中/>;

客户端接收全局大模型/>和初始全局大模型参数/>，并在全局大模型/>上执行轮本地预训练以获得客户端/>最终的特征挖掘模型/>和特征挖掘模型参数/>；

客户端根据特征挖掘模型参数/>和初始全局大模型参数/>计算参数相似度矩阵/>；

客户端将相似度矩阵/>中相似度大于0.95的模型参数所对应的神经网络进行切割，以生成适合本地高效训练的本地小模型/>和本地小模型参数/>；

所述初始全局大模型参数的具体公式如下：

；

其中，为第/>层神经网络，/>为大模型结构的第/>层神经网络的第/>个模型参数，/>为第/>层神经网络中模型参数个数，/>为神经网络总层数，/>为神经网络层数，为神经网络某层的标号；

所述特征挖掘模型和特征挖掘模型参数/>的训练过程具体如下：

；

所述参数相似度矩阵的具体公式如下：

；

3.如权利要求1所述的基于本地特征的大模型切割联邦学习方法，其特征在于：所述本地小模型参数压缩算法包括以下步骤：

通过设定模型参数阈值筛选对训练效果有贡献的重要模型参数，并将无用的本地小模型参数进行稀疏化处理；

对稀疏化处理后的本地小模型参数进行压缩量化以获得压缩值中心点/>和压缩本地小模型参数/>；

所述稀疏化处理的具体过程如下：

；

其中，表示模型参数值阈值，/>为本地小模型/>的第/>层神经网络的第/>个原始模型参数，/>为本地小模型/>的第/>层神经网络的第/>个稀疏化之后的模型参数；

所述压缩值中心点的具体公式如下：

；

其中，为压缩因子，具体公式如下：

；

4.如权利要求1所述的基于本地特征的大模型切割联邦学习方法，其特征在于：所述对梯度进行加噪处理包括以下步骤：

在客户端模块C中，为客户端设置最大隐私预算/>和最小隐私预算/>；

在本地小模型训练前期阶段，客户端根据精确度变化来动态调整每一轮的隐私预算，当精确度不再提升或变化浮动范围不超过/>时，客户端/>增加隐私预算以降低噪声水平；

在本地小模型训练后期阶段，采用一种多项式线性增长函数以解决隐私预算影响模型的收敛速度问题；

所述精确度变化-隐私预算分配策略包括以下内容：

全局大模型精确度-客户端本地小模型精确度：

；

其中，为全局大模型第t轮的精确度，/>为客户端/>本地小模型第t轮的精确度，/>为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，为客户端/>第t-1轮的隐私预算；

前一轮全局大模型精确度-当前轮次全局大模型精确度：

；

其中，为全局大模型第t-1轮的精确度，/>为全局大模型第t轮的精确度，为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，/>为客户端/>第t-1轮的隐私预算；

前一轮本地小模型精确度-当前轮次本地小模型精确度：

；

其中，为客户端/>本地小模型第t-1轮的精确度，/>为客户端/>本地模型第t轮的精确度，/>为最大隐私预算，/>为隐私预算的增长率，/>为客户端/>第t轮的隐私预算，/>为客户端/>第t-1轮的隐私预算；

当全局模型训练精度变化超过阈值时，以倍数/>增加隐私预算；

当隐私预算大于时，隐私预算不再增加，直到整体隐私预算耗尽；

所述多项式线性增长函数的具体公式如下：

；

5.如权利要求1所述的基于本地特征的大模型切割联邦学习方法，其特征在于：所述异常检测和选择模块DS根据信誉度检测阈值协商检测恶意终端包括以下步骤：

异常检测和选择模块DS初始化全部客户端的全局信誉度/>和本地信誉度/>；

异常检测和选择模块DS接收客户端上传的第t轮训练的加噪的梯度/>和压缩后的本地小模型参数/>，并计算其本地信誉度/>；

当且异常检测和选择模块DS计算完成全部客户端/>的本地信誉度/>后，将本地信誉度按照降序排序得到序列/>，并记录阈值/>和/>分别为和/>，同时以/>轮的平均值作为阈值/>和/>的协商值；

异常检测和选择模块DS利用本地信誉度和阈值/>和/>之间的关系检测判断客户端/>的类别；

异常检测和选择模块DS更新客户端的全局信誉度/>，并将全局信誉度/>及其对应的压缩后的本地小模型参数/>组成二元组/>，并上传至中央服务器模块CS，其中/>表示相邻两轮本地信誉度间的关系权重；

所述客户端的类别包括恶意客户端MC、普通客户端GC和高质量客户端HQC，判断准则具体如下：

当时，异常检测和选择模块DS将客户端/>设置为恶意客户端MC，并禁止节点继续参与此联邦学习模型训练任务；

当时，异常检测和选择模块DS将客户端/>设置为普通客户端GC，并统计客户端被认定为普通客户端GC的次数，若次数大于阈值/>，则禁止继续参与本次联合学习模型训练任务；

当时，异常检测和选择模块DS将客户端/>设置为高质量客户端HQC，允许并鼓励其继续参与此联邦学习模型训练任务。

6.如权利要求1所述的基于本地特征的大模型切割联邦学习方法，其特征在于：所述使用还原聚合方式更新全局大模型包括以下步骤：

中央服务器模块CS异步接收异常检测和选择模块DS上传的二元组，并存储在大小为/>的缓冲池内，所述/>表示全局信誉度；

中央服务器模块CS对缓冲池中的二元组以全局信誉度为主元对辅元压缩后的本地小模型参数/>降序排序，并剔除缓冲池排序中全局信誉度低于0.3的本地小模型参数/>，直到缓冲池满；

中央服务器模块CS对选择的客户端的压缩的本地小模型参数/>进行操作，恢复并还原为稀疏化的本地小模型参数/>；

对稀疏化的各客户端的本地小模型参数/>与全局大模型参数/>执行/>次基于特征迁移的聚合操作；

获取经过特征迁移聚合后的第t轮全局大模型，中央服务器模块CS将聚合后的全局大模型参数/>下发继续训练直至模型收敛。

7.如权利要求6所述的基于本地特征的大模型切割联邦学习方法，其特征在于：所述第t轮全局大模型的聚合公式具体如下：

；

8.一种基于本地特征的大模型切割联邦学习系统，基于权利要求1~7任一所述的基于本地特征的大模型切割联邦学习方法，其特征在于：还包括，

客户端模块C，包含参与整个训练过程的恶意客户端MC、普通客户端GC和高质量客户端HQC，用于将全局大模型切割为本地小模型，并在其上进行多轮训练以获得更优的模型，并依据训练的本地小模型在测试数据集上的精确度设计隐私预算分配策略以对梯度进行扰动，同时执行压缩量化算法对训练的切割后的模型压缩后上传至异常检测和选择模块DS；

异常检测和选择模块DS，作为客户端模块C和中央服务器模块CS之间的中转站，接收来自客户端模块C中经过加噪处理的梯度，并利用这些梯度计算客户端的信誉度以确定客户端的可信程度，同时负责将本地小模型参数可信上传至中央服务器模块CS；

中央服务器模块CS，作为整个框架大模型更新的核心部分，用于在接收异常检测和选择模块DS所发送的全局信誉度和本地小模型参数后，执行基于缓冲池的客户端本地小模型参数二次采样，对接收到的本地模型参数进行解压缩并实现大模型聚合。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1~7任一所述的基于本地特征的大模型切割联邦学习方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1~7任一所述的基于本地特征的大模型切割联邦学习方法的步骤。