CN115564062A

CN115564062A - 一种基于模型剪枝和传输压缩优化的联邦学习系统及方法

Info

Publication number: CN115564062A
Application number: CN202211173605.1A
Authority: CN
Inventors: 李骏; 孙海洋; 韦康; 夏鹏程
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-03

Abstract

本发明公开了一种基于模型剪枝和传输压缩联合优化的联邦学习系统及方法，该系统包括服务器端和多个客户端；方法为：首先客户端清洗数据并归一化成结构化的数据；然后服务器端将原始全局模型修剪成为稀疏全局模型，并下发至客户端；客户端用本地数据集计算稀疏全局模型权重，并对稀疏全局模型权重数据进行压缩后上传至服务器端；服务器端使用稀疏全局模型权重数据更新稀疏全局模型，然后再下发至客户端进行本地训练；重复进行稀疏全局模型和稀疏全局模型权重数据更新，直至稀疏全局模型收敛，使用最终数据训练原始全局模型，得到根据每个客户端的数据训练出的最终全局预测模型。本发明降低了客户端训练模型的复杂程度，降低了通信成本。

Description

一种基于模型剪枝和传输压缩优化的联邦学习系统及方法

技术领域

本发明涉及机器学习技术领域，特别是一种基于模型剪枝和传输压缩优化的联邦学习系统及方法。

背景技术

接些年来，机器学习技术越来越普遍的应用于日常生活中，例如智能家居、智能零售、自动驾驶等。然而，先进的人工智能系统通常需要大型标记数据集、大量计算资源、众多专家等资源用于训练和推理。由于数据隐私法规和通信带宽的限制，在一个中心位置传输和存储所有训练数据通常是不可行的。因此联邦学习成为一种新的分布式学习范式，它使多个客户端能够在不共享本地数据的情况下协作学习全局模型。虽然联邦学习可以将数据保存在本地，缓解了传统范式中传输训练数据带来的较大负担，但联邦学习中的客户端设备通常资源受限，例如计算能力、通信带宽、内存和存储大小等。因此，需要训练一个可用的联邦学习模型，通过协作资源有限的边缘设备，来适应各种情况，例如智能医疗保健和服务推荐等场景。

因此，研究人员提出了模型梯度压缩技术，该技术不上传具有完整参数值的模型，而从原始模型中提取一个小模型用于在融合阶段进行传输。模型梯度压缩技术包括量化技术和稀疏化技术。量化技术常用的方法是具有各种模式的桶量化方法，即随机量化、计数草图和分位数桶量化，量化技术在通信效率之间具有更好的权衡和学习性能。稀疏化技术是减少客户端设备传输比特的经典方法，其仅传输上传向量的重要元素的一小部分。然而，这些方法只能减少通信开销，不能生成用于高效计算的小模型。

深度神经网络(DNN)的稀疏性，例如模型修剪，是提高通信开销和计算复杂度的另一种选择。有研究人员提出了一种改进的稀疏进化训练算法来减少联邦学习中神经网络的连接，从而间接减少要发送到服务器的模型参数的数量。但是，这种稀疏化方法只能应用于全连接层，应用范围有限。因为单个客户端的剪枝模型依赖于客户端的数据分布，不能应用于具有异构数据统计的客户端。现有的工作旨在通过利用彩票假设框架，来设计个性化且通信效率高的联邦学习框架。因此，如何减少服务器端的模型大小，以实现最有效的训练，并进一步压缩客户端设备的传输，仍然是联邦学习中亟需解决的问题。

发明内容

本发明的目的在于提供一种客户端训练模型的复杂程度低、通信成本低的基于模型剪枝和传输压缩优化的联邦学习系统及方法。

实现本发明目的的技术解决方案为：一种基于模型剪枝和传输压缩优化的联邦学习系统，包括服务器端和多个客户端；

所述服务器端，用于执行基本运算、建立初始化全局模型、接受各个用户端上传全局模型参数；

所述客户端，用于进行数据清洗和归一化、模型权重数据计算、模型权重数据压缩、模型参数接收和上传。

一种基于模型剪枝和传输压缩优化的联邦学习方法，包括以下步骤：

步骤1、客户端清洗数据并归一化成结构化的数据；

步骤2、服务器端对原始全局模型进行修剪，得到一个稀疏全局模型；

步骤3、服务器端将稀疏全局模型下发至客户端；

步骤4、客户端接收到稀疏全局模型后，用本地数据集运行优化方法，进行若干次本地迭代后，获得本地更新的稀疏全局模型权重，应用传输量化和传输稀疏化对稀疏全局模型权重数据进行压缩后上传至服务器端；

步骤5、服务器端对接收到的稀疏全局模型权重数据进行压缩和聚合，更新稀疏全局模型，然后再下发至客户端进行本地训练；

步骤6、重复步骤4和步骤5直至稀疏全局模型收敛，使用最终数据训练原始全局模型，得到根据每个客户端的数据训练出的最终全局预测模型。

本发明与现有技术相比，其显著优点为：(1)在服务器端对原始全局模型中不重要的模型参数进行修剪，降低了客户端训练模型的复杂程度；(2)使用传输量化和传输稀疏化对稀疏全局模型权重数据进行压缩，降低了通信成本。

附图说明

图1是本发明基于模型剪枝和传输压缩优化的联邦学习方法的流程示意图。

图2是本发明实施例中模型训练过程的系统示意图。

图3是本发明实施例中本发明的算法和传统算法的性能对比曲线图。

具体实施方式

结合图1～图2，本发明一种基于模型剪枝和传输压缩优化的联邦学习系统，包括服务器端和多个客户端；

进一步地，所述的基于模型剪枝和传输压缩优化的联邦学习系统，所述客户端的数量为2个以上。

本发明一种基于模型剪枝和传输压缩优化的联邦学习方法，包括以下步骤：

步骤1、客户端清洗数据并归一化成结构化的数据；

步骤3、服务器端将稀疏全局模型下发至客户端；

进一步地，步骤1所述的客户端清洗数据并归一化成结构化的数据，具体如下：

每个客户端利用自然语言处理、图像特征提取技术清洗收集得到的数据，并归一化形成结构化的数据。

进一步地，步骤2所述的服务器端对原始全局模型进行修剪，得到一个稀疏全局模型，具体如下：

对原始全局模型的目标函数应用泰勒展开式，得到：

其中，F()表示损失函数，

表示使用修建后模型权重的损失函数，F(w^t)表示原模型的损失函数，忽略展开式中的高阶项：

使用累积更新来估计全局梯度的动量：

Δu^t+1＝βΔu^t+(1-β)Δw^t+1

其中，β是动量率，Δu⁰是零向量，Δu^t+1表示从0到第t+1轮的累积更新向量，由此得到去除[w^t]_j的效用成本：

[T(w^t,Δu^t)]_j＝|[(Δu^t)^Tw^t]_j|

其中，[w^t]_j表示模型中的第j个参数权重；[T(w^t,Δu^t)]_j表示移除参数[w^t]_j的效用成本，因此保留使得[T(w^t,Δu^t)]_j大于设定值的[w^t]_j，对模型性能影响小于设定值的更新(Δu^t)^T清零。

进一步地，步骤2中所述的稀疏全局模型，具体如下：

定义一个掩码函数来生成一个二进制掩码向量：

其中T_s(w^t,Δu^t)是控制修建率p的阈值，客户端的稀疏训练过程表示为：

其中，i∈{1,2,…,U}，

表示局部迭代时间，

表示第t次通信第i个客户端经过

次本地迭代得到的模型权重，η表示学习率，

是一批样本的平均梯度向量，⊙表示逐元素乘积过程，局部更新表示为：

其中，

表示本地迭代τ次的模型权重，

表示未进行本地训练的模型权重。

进一步地，步骤4中所述的传输量化，是对稀疏全局模型所有层和所有通道的未修剪权重进行非均匀量化，所有待上传参数在同一轮通信时共享一个共同的量化策略和量化的赋值；

将

作为簇集，v_i,u作为参数

落在

中的量化值，表示为：

其中，

表示量化策略，

表示第i个用户第t轮通信选择

的量化策略的一个簇；

选择v_i,u值和

簇集，构造以下优化问题：

其中，压缩值使用32位浮点数，

表示第i个用户第t轮通信的簇集，

表示落在簇中的量化值，

是传输容量约束，由量化策略数量

和原始模型大小

控制，这个优化是一个混合整数非线性规划问题，通过以下算法实现次优解：

其中，

表示最优解，

表示第i个用户第t轮通信落在u′中的量化值。

进一步地，步骤4中所述的传输稀疏化，是通过仅保留部分传输值来减少传输比特，具体为用差分编码进一步减少通信开销。

进一步地，所述的差分编码，具体如下：

传输稀疏化引起的传输代价表示为：

其中

是

中保留值的键的集合，r_s是保留值的索引；

通过对稀疏更新数据分布的分析，存在三个特征：

首先，密钥是不重复的；

其次，键按升序排列；

第三，两个相邻键之间的差异比键本身小；

因此，计算两个相邻密钥之间的差异，并仅存储密钥的增量以降低传输成本，称为差分编码；

使用差分编码的传输成本表示为

其中

表示最大差分密钥，即：

其中

表示第s个差分键，r₀＝0表示无保留值的索引为0；

基于差分编码构造以下传输稀疏化的优化问题：

在这个优化问题中，根据损失减少

选择保留集

然后重新计算最大差异键和具有传输容量约束的保留集的可容忍大小；依次执行这两个步骤，直至最大差异键不变。

下面结合附图和具体实施例，对本发明做进一步的详细说明。

实施例

本实施例使用一种基于模型剪枝和传输压缩优化的联邦学习方法，对医疗领域的数据孤岛问题进行模型训练。

医疗领域的数据孤岛问题是一个很棘手但极具价值的问题，联邦学习规定各医院的特征输入一致，构建同一套数据标准形成的疾病标签集与特征集，在此特征标准上构建同一套模型，该技术可以不泄露数据的情况下整合多家医院的数据联合进行训练，可应用到重大慢性病的发病预测中，具体过程如下：

步骤1、每个参与医院利用自然语言处理，图像特征提取等人工智能技术清洗从医院收集得到的患者数据，并归一化形成结构化的医疗数据；

步骤2、服务器端随机初始化全局模型参数，并对模型中不重要的参数进行修剪，具体为对模型应用泰拉展开式，忽略展开式中的高阶项，使用累积更新来估计客户端数据集的全局梯度，通过这个估计，去除对模型性能影响不大的参数，报留对模型效用成本很大的参数；

步骤3、服务器端将模型下发给每个参与医院；

步骤4、每个医院的客户端用本地数据集通过本地随机梯度下降的优化方法不断更新模型的精度，当达到预定的本地训练次数时，对模型的参数进行压缩，具体为对模型所有层和所有通道的未修剪权重进行非均匀量化和差异编码：一个层的所有通道在通信时共享一个共同的量化策略和量化的bin/centers；计算两个相邻键之间的差异，并仅存储键的增量以降低传输成本；

步骤5、服务器端接收到每个医院上传的模型压缩压缩后进行聚合更新全局模型，并再次下发给客户端进行本地训练；

步骤6、重复步骤4、步骤5直至全局模型收敛，得到一个根据每个参与医院数据训练出的疾病预测模型。

图3是基于模型剪枝和传输压缩优化的联邦学习框架的性能效果图。从图中可以看出，传统的联邦学习框架全局模型中存在复杂结构和无意义层浪费大量算力以及传输过程中巨大的通信开销，本发明一种模型剪枝和传输压缩优化的联邦学习训练方法，对不重要模型参数进行修剪，对模型参数传输过程进行压缩，两种方法的联合优化，在保证模型性能前提下，减小了算力消耗和通信开销，提升了联邦学习的效率。