CN114202077A

CN114202077A - 基于联邦学习及均值迭代的机器学习模型压缩方法

Info

Publication number: CN114202077A
Application number: CN202111610294.6A
Authority: CN
Inventors: 廖杰; 马川; 钱玉文; 李骏; 韦康
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-03-18

Abstract

本发明公开了一种基于联邦学习及均值迭代的机器学习模型压缩方法，包括以下步骤：用户在本地端进行联邦学习获取本次的机器学习模型；针对用户进行联邦学习得到的机器学习模型，使用均值迭代模型压缩算法压缩；将压缩后的机器学习模型上传到中心服务器，对压缩后的机器学习模型进行还原和模型聚合处理，对聚合后的机器学习模型进行精度检测。本发明通过均值迭代压缩算法来动态调整边界和优化值，获得量化区间的最优值和最佳边界区间，进而在高压缩率下，保证模型的收敛和模型的精度。

Description

基于联邦学习及均值迭代的机器学习模型压缩方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于联邦学习下的均值迭代模型压缩方法。

背景技术

在人工智能领域，数据是机器学习的基础。而在大多数行业中，由于行业竞争、隐私安全、行政手续复杂等问题，数据常常是以孤岛的形式存在的。甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的，或者说所需的成本是巨大的。随着人工智能的进一步发展，重视数据隐私和安全已经成为了世界性的趋势。

联邦学习是一种机器学习的架构，旨在帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，达到更好的学习效果和隐私保护性能。与传统的分布式机器学习的架构相比，联邦学习交换训练后的模型而非训练前的原始数据，从而在不降低学习效果的前提下保证了隐私数据的私有性。由此，联邦学习使得各个用户在保持数据隐私性的情况下，参与到联合的学习之中，协作完成共同的目标任务。由于联邦学习的分布式结构，每个用户都需要将本地的训练模型传输给中心服务器，考虑到现有模型有越来越大的变化趋势，由此导致用户和中心服务器之间的通信开销变得会越来越大，通过对模型压缩，降低通信开销，进而提高系统的通信效率。

压缩技术在快速发展的无线通信传输中具有重要的应用价值，数据压缩是指在不丢失有用信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率，或按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间的一种技术方法。压缩分为2类：无损压缩和有损压缩。无损压缩一般是通过对原文件进行某种编码，再传输前和传输后可以将源文件的数据百分比的进行还原，然而，由于无损压缩本身100％数据还原的特性，导致很难做到一个高压缩率的情况；有损压缩式通过损失部分信息，使得可以通过某种算法达到一个高的压缩率。

在分布式机器学习系统中，由于机器学习模型参数的特性，使用无损压缩方式并不能对模型大小有一个明显的降低，由于机器模型对外界的抗干扰能力较强，使用有损压缩可以让模型有一个高的压缩比，因此在分布式机器学习系统中有很多的应用。根据文献1(Rothchild D,Panda A,Ullah E,et al.FetchSGD:Communication-Efficient FederatedLearning with Sketching[J].2020.)提出的FetchSGD方案，可以实现在高压缩率下的有损压缩，但是该方案是基于哈希表来实现参数的压缩和还原，其本身在压缩和解压时的随机性情况，导致该方案无法提供一个收敛性的保证，在使用该方案时，需要根据实际的模型花费大量的时间来调整哈希表的长宽结构及哈希表的最终大小，最后才有可能实现高压缩率的实现。文献2(DAlistarh,D Grubic,Li J,et al.QSGD:Communication-Efficient SGDvia Gradient Quantization and Encoding[J].2016.)提出的QSGD方案可以实现收敛，该方案是基于边界及量化等级来实现一次量化进行压缩，在量化等级较高(即压缩率较低)的情况下，可以保证精度的问题，但是在高压缩率下，由于其本身算法的一次量化的问题，导致在高压缩率下，其量化后的参数和原始参数的误差过大，其精度测试效果较低。而传统的联邦学习架构，如谷歌提出的FedAvg架构，在对用户训练的模型进行压缩后，在压缩率和模型测试精度方面很难得到很好的平衡。

发明内容

本发明的目的在于提供一种能够平衡压缩率和模型测试精度的基于联邦学习及均值迭代的机器学习模型压缩方法，降低用户上传模型的大小，并降低中心服务器的通信开销。

实现本发明目的的技术解决方案为：一种基于联邦学习及均值迭代的机器学习模型压缩方法，包括以下步骤：

步骤1、用户在本地端进行联邦学习获取本次的机器学习模型；

步骤2、针对用户进行联邦学习得到的机器学习模型，使用均值迭代模型压缩算法压缩；

步骤3、将压缩后的机器学习模型上传到中心服务器，对压缩后的机器学习模型进行还原和模型聚合处理，对聚合后的机器学习模型进行精度检测。

进一步地，联邦学习是一个机器学习框架，使多个单位在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，联邦学习为纵向联邦学习、横向联邦学习、迁移联邦学习、中心化联邦学习、去中心化联邦学习中的任一种。

进一步地，用户指能够进行计算的设备，为移动终端、计算机、边缘路由器中的任一种。

进一步地，机器学习模型，是一套数据计算的流程，数学上体现为一个函数，物理上体现为一段代码，数据经过这段代码的操作后得到相对应的输出结果，包括支持向量机的模型参数、多层感知机的模型参数、神经网络的模型参数、强化学习的模型参数。

进一步地，步骤1中用户在本地端进行联邦学习获取本次的机器学习模型，表示为g_i。

进一步地，步骤2所述针对用户进行联邦学习得到的机器学习模型，使用均值迭代模型压缩算法压缩，具体如下：

步骤21、设置量化等级M,同时将用户训练好的模型g_i，整理为一个由小到大排序好的、模型长度为L的键值对序列，公式表示为：

g_{sort_i}＝{θ₁,θ₂,......θ_L-1,θ_L}

g_{keys_i}＝{key₁,key₂,......,key_L-1,key_L}

其中,g_{sort_i}表示用户i整理后的模型，{θ₁,θ₂,......θ_L-1,θ_L}表示的是用户g_{sort_i}模型内部排序后的参数；g_{keys_i}表示用户i整理后的索引序列；{key₁,key₂,......,key_L-1,key_L}表示用户排序后的索引值；

为了在最后传输量化后的二进制编码，定义一个长度为L的量化编码序列，数学公式表示为：Code_i＝{c₁,c₁,......,c_L-1,c_L}，其中Code_i表示的是的编码后的模型，{c₁,c₁,......,c_L-1,c_L}表示的是用户i模型参数对应的二进制编码值；

步骤22、设置边界值样本个数K，满足条件K＝M+1,初始状态下，随机给定的K个边界值，数学表示为：D_i＝{d₁,d₂,......,d_K-1,d_K},初始边界值满足：θ₁＝d₁＜d₂,......,d_K-1＜d_K＝θ_L；边界内部设置量化编码值的个数为M个，数学表示为:Coded_i＝{v₁,v₂,......,v_M-1,v_M}，其中Coded_i表示的是用户i的量化编码值；

步骤23、求出每个相邻边界内部模型参数的均值，均值作为本次迭代更新的量化编码值，同时对Code_i的编码模型进行量化编码，计算出每一个编码值对应的误差和Q_err＝{err₁,err₂,.....,err_M-1,err_M},求解过程如下：

…

其中，v_M表示量化的编码值，Len(θ_L)表示在约束条件d_M≤θ_L≤d_M+1时的参数个数，c_L表示的二进制编码，err_M表示每个边界的误差和，d_M≤θ_L≤d_M+1是参数θ_L的约束条件；

步骤24、计算本次模型的量化误差总和Q_all,数学表示为：

Q_all＝∑err_m,m＝1,2,......,M

步骤25、通过量化编码值更新边界值，数学表示为：

根据上述步骤求解出本次的量化误差Q_all；

重复步骤23～步骤25步，计算得到下次的量化误差Q_next：如果误差不相等，则进行迭代操作，重复步骤23～步骤25步；如果相等那么已经求解到最优解，由g_{keys_i}＝{key₁,key₂,......,key_L-1,key_L}和Code_i＝{c₁,c₂,......,c_L-1,c_L}，求解原始模型排序的模型二进制编码Code_{orig_i}＝{s₁,s₂,......,s_L-1,s_L}，输出模型二进制编码Code_{orig_i}＝{s₁,s₂,......,s_L-1,s_L}和量化编码值Coded_i＝{v₁,v₂,......,v_M-1,v_M}。

进一步地，步骤3所述将压缩后的机器学习模型上传到中心服务器，对压缩后的机器学习模型进行还原和模型聚合处理，对聚合后的机器学习模型进行精度检测，具体如下：

模型还原是指，用数学方法将用户上传的压缩模型在中心服务器上进行还原；

模型聚合是指，将各个用户上传到中心服务器的压缩模型还原后，将各个还原的模型对应的参数进行求和取平均值，最终得到聚合后的全局模型；

精度检测是指将模型聚合后的全局模型进精度测试，包括中心服务器上的精度预测试，用户上的精度预测试。

进一步地，所述步骤3具体如下：

步骤31、用户i将压缩的模型Code_{orig_i}和Coded_i上传到中心服务器；

步骤32、中心服务器对各个用户上传压缩的模型进行还原，随后在中心服务器聚合得到聚合后的全局模型；

步骤33、对聚合后的全局模型进行精度测试。

本发明与现有技术相比，其显著优点为：(1)采用均值迭代模型压缩方法，在保证高压缩率情况下，同时能够保证系统收敛；(2)测试精度高，使得中心服务器的通信开销降低，提高了系统的整体性能。

附图说明

图1是本发明基于联邦学习及均值迭代的机器学习模型压缩方法的流程示意图。

图2是本发明在联邦学习中模型压缩传输的系统示意图。

图3是本发明实施例中压缩后模型与未压缩模型的通信性能对比图。

具体实施方式

本发明一种基于联邦学习及均值迭代的机器学习模型压缩方法，该方法指通过在联邦学习的用户进行模型训练，将训练的模型使用均值迭代模型压缩算法压缩，将压缩后的模型上传到中心服务器，进行模型还原并聚合，然后进行精度检测，降低用户到中心服务器的通信开销，包括以下步骤：

进一步地，联邦学习的用户进行模型训练，其特征在于，联邦学习是一个机器学习框架，能有效帮助多个单位在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，包括纵向联邦学习，横向联邦学习，迁移联邦学习，中心化联邦学习，去中心化联邦学习。

进一步地，用户是指可以进行计算的设备，包括移动终端，计算机，边缘路由器。

进一步地，机器学习模型，是一套数据计算的流程方法，数学上体现为一个函数，物理上体现为一段代码，数据经过这段代码的操作(比如加减乘除，或者其他运算组成的操作步骤)后可以得到相对应的输出结果，包括支持向量机的模型参数，多层感知机的模型参数，神经网络的模型参数，强化学习的模型参数。

进一步地，所述步骤1具体如下：

将用户对模型进行本轮的训练，训练好的模型数学表示为：g_i。

进一步地，均值迭代模型压缩是对学习模型的一种数据压缩的方法，数学上体现为一个函数，物理上体现为一段代码，数据经过这段代码的操作(比如加减乘除，或者其他运算组成的操作步骤)后可以得到相对应的输出结果，均值迭代模型压缩包括支持向量机的模型参数，多层感知机的模型参数，神经网络的模型参数，强化学习的模型参数。

步骤2所述针对用户进行联邦学习得到的机器学习模型，使用均值迭代模型压缩算法压缩，具体如下：

g_{sort_i}＝{θ₁,θ₂,......θ_L-1,θ_L}

g_{keys_i}＝{key₁,key₂,......,key_L-1,key_L}

为了在最后传输量化后的二进制编码，定义一个长度为L的量化编码序列，数学公式表示为：Code_i＝{c₁,c₁,......,c_L-1,c_L}，其中Code_i表示的是的编码后的模型，{c₁,c₁,......,c_L-1,c_L}表示的是用户i模型参数对应的二进制编码值。

步骤22、设置边界值样本个数K，满足条件K＝M+1,初始状态下，随机给定的K个边界值，数学表示为：D_i＝{d₁,d₂,......,d_K-1,d_K},初始边界值满足：θ₁＝d₁＜d₂,......,d_K-1＜d_K＝θ_L；边界内部设置量化编码值的个数为M个，数学表示为:Coded_i＝{v₁,v₂,......,v_M-1,v_M}，其中Coded_i表示的是用户i的量化编码值。

…

其中，v_M表示量化的编码值，Len(θ_L)表示在约束条件d_M≤θ_L≤d_M+1时的参数个数，c_L表示的二进制编码，err_M表示每个边界的误差和，d_M≤θ_L≤d_M+1是参数θ_L的约束条件。

步骤24、计算本次模型的量化误差总和Q_all,数学表示为：

Q_all＝∑err_m,m＝1,2,......,M

步骤25、通过量化编码值更新边界值，数学表示为：

根据上述步骤求解出本次的量化误差Q_all；

模型还原是指用特定的数学方法将用户上传的压缩模型在中心服务器上进行还原，数学上体现为一个函数，物理上体现为一段代码，数据经过这段代码的操作(比如加减乘除，或者其他运算组成的操作步骤)后可以得到相对应的输出结果。

模型聚合是将各个用户上传到中心服务器的压缩模型还原后，将各个还原的压缩模型对应的参数进行求和取平均值，最终得到聚合后的全局模型。

进一步地，所述步骤3具体如下：

步骤33、对聚合后的全局模型进行精度测试。

下面结合附图和具体实施例，进一阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域方法人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例1

在去中心化的联邦学习架构中，每个用户都需要将自己训练后的模型上传到中心服务器，随后中心服务器对模型聚合生成全局模型。在这样的框架流程下，随着学习模型的越来越复杂，模型的大小也随之变得越来越大，此时对于中心服务器来说，通信开销组件成为了一个通信系统中的一个主要问题。本发明提出的均值迭代压缩模型方法，为了节省通信资源，降低通信开销，针对每一个用户上上传模型的用户，在保证系统收敛且精度达到要求的情况下，本实施的流程如图1所示，用户在本地对上传的模型进行压缩，通过在用户设置压缩等级，使用均值迭代优化算法后，压缩后，得到的是模型参数的编码值和编码等价的参数。传输该压缩模型到中心服务器后，对用户的压缩模型进行还原，随后进行聚合得到本次训练优化后全局模型。随后将全局模型广播给各个用户，此时，将完成一次完整的经过均值迭代压缩和还原模型的一整个流程。本实施的模型传输系统如图2所示，用户1到用户i进行训练，分别得到模型1到模型n,随后对模型进行压缩，上传到中心服务器进行还原聚合，中心服务器对聚合的模型进行精度测试，测试完成以后，将中心服务器测试的全局模型分别广播给用户1到用户n,至此完成了模型压缩上传、压缩、精度测试以及全局模型下发的一个完整的流程。在使用了本发明的设计后，可以将通信开销降低到一个非常低的情况，同时还可以保证测试精度和未压缩前的聚合模型精度几乎不变。本实施的结果如图3所示：

图3中，我们设置了32倍、16倍压缩后和未压缩模型与中心服务器通信50次精度效果图，图中可以看出，传输原始模型和传输压缩模型，系统模型仍然收敛。从结果上看，本发明方法可以保证精度在我们所预期的范围内的情况下模型压缩后仍然收敛，显著降低了用户到中心服务器之间的通信开销，提高了系统的整体性能，具有非常广阔的应用前景。

Claims

1.一种基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，联邦学习是一个机器学习框架，使多个单位在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，联邦学习为纵向联邦学习、横向联邦学习、迁移联邦学习、中心化联邦学习、去中心化联邦学习中的任一种。

3.根据权利要求1所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，用户指能够进行计算的设备，为移动终端、计算机、边缘路由器中的任一种。

4.根据权利要求1所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，机器学习模型，是一套数据计算的流程，数学上体现为一个函数，物理上体现为一段代码，数据经过这段代码的操作后得到相对应的输出结果，包括支持向量机的模型参数、多层感知机的模型参数、神经网络的模型参数、强化学习的模型参数。

5.根据权利要求1、2、3或4所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，步骤1中用户在本地端进行联邦学习获取本次的机器学习模型，表示为g_i。

6.根据权利要求5所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，步骤2所述针对用户进行联邦学习得到的机器学习模型，使用均值迭代模型压缩算法压缩，具体如下：

g_{sort_i}＝{θ₁,θ₂,......θ_L-1,θ_L}

g_{keys_i}＝{key₁,key₂,......,key_L-1,key_L}

c_L＝1,err₁＝∑|θ_L-v1|,d₁≤θ_L＜d₂

c_L＝2,err₂＝∑|θ_L-v₂|,d₂≤θ_L＜d₃

…

c_L＝M-1,err_M-1＝∑|θ_L-v_M|,d_M-1≤θ_L＜d_M

c_L＝M,err_M＝∑|θ_L-v_M|,d_M≤θ_L≤d_M+1

步骤24、计算本次模型的量化误差总和Q_all,数学表示为：

Q_all＝∑err_m,m＝1,2,......,M

步骤25、通过量化编码值更新边界值，数学表示为：

根据上述步骤求解出本次的量化误差Q_all；

7.根据权利要求6所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，步骤3所述将压缩后的机器学习模型上传到中心服务器，对压缩后的机器学习模型进行还原和模型聚合处理，对聚合后的机器学习模型进行精度检测，具体如下：

8.根据权利要求7所述的基于联邦学习及均值迭代的机器学习模型压缩方法，其特征在于，所述步骤3具体如下：

步骤33、对聚合后的全局模型进行精度测试。