CN113258935B

CN113258935B - 一种联邦学习中基于模型权值分布的通信压缩方法

Info

Publication number: CN113258935B
Application number: CN202110568987.7A
Authority: CN
Inventors: 郭帅帅; 吕舒恒; 张海霞
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-03-04
Anticipated expiration: 2041-05-25
Also published as: CN113258935A

Abstract

本发明涉及一种联邦学习中基于模型权值分布的通信压缩方法，属于无线通信技术领域。本发明基于联邦学习中已有的联邦平均思想，每次通信时首先统计出节点之间要传输的模型权重信息的分布，然后根据其分布特性，通过Lloyd‑Max量化器进行标量量化压缩，然后使用Huffman编码方法来进行编码，最终发送到目标节点，从而在实现最小均方量化误差的同时减小通信所需的比特数。本发明所设计的通信压缩方法，具有良好的普适性，在保证学习效率的前提下节省了通信开销，具有实用性。

Description

一种联邦学习中基于模型权值分布的通信压缩方法

技术领域

本发明涉及一种联邦学习中基于模型权值分布的通信压缩方法，属于无线通信技术领域。

背景技术

联邦学习是一种新兴的分布式学习方法，通过将训练过程在本地完成的思想来达到保护用户数据隐私和安全的目的。

在传统的分布式学习框架中，为了得到具备普适性的学习模型，各节点需要将本地数据发送到服务器端进行训练。目前，随着个人数据的隐私安全变得越发重要，共享本地数据的过程成为了一大弊端，联邦学习应运而生。与传统的分布式学习相比，联邦学习中的节点无需分享本身拥有的数据，而是先利用拥有的数据，先在本地训练出本地模型，再与其他节点共享和加权各自的本地模型参数。在现今日益强调用户数据隐私和安全的背景下，联邦学习无疑具有很大的应用前景。

在联邦学习中，节点之间通信时的带宽占用直接影响训练的收敛速度，是联邦学习过程中非常重要的一个环节。而现有技术中，为减少带宽占用，一种重要的思想是压缩节点之间的通信量，使得较小影响传输精度的前提下尽可能减小通信量的花费。节点之间通信是通过传输梯度或传输模型实现的，目的是交换模型的更新信息。现有压缩方案大多以传输梯度为基础，利用梯度的稀疏特性进行压缩处理。由于各个节点上的梯度信息需要通过汇聚到中心节点再分发回各个节点才能在一个节点上完成一次模型更新，即两次通信只完成一次本地节点上的梯度下降，对通信量的压缩还有提升空间。

发明内容

针对现有技术的不足，本发明提供了一种联邦学习中基于模型权值分布的通信压缩方法，基于联邦学习中的联邦平均思想，对于模型信息中的每一个参数，每次通信时首先统计出节点之间要传输的模型权重信息的分布，然后根据其分布特性进行标量量化压缩，然后使用Huffman编码方法来进行编码，最终发送到目标节点，从而在实现最小均方量化误差的同时减小通信所需的比特数。

术语解释：

1.Huffman编码法：是一种通过构造最佳二叉树，完全依据字符出现概率来构造异字头的平均长度最短码字的编码方法。

2.Lloyd-Max算法：是一种在标量量化中为最小化均方量化误差，根据变量概率分布来求出最佳量化间隔和最佳量化输出的迭代算法。

本发明的技术方案为：

一种联邦学习中基于模型权值分布的通信压缩方法，用于中心式通信系统，所述中心式通信系统包括K个边缘节点和中心服务器，每个边缘节点均与中心服务器相连接；

第k个边缘节点中存储有本地数据

在第t个全局模型训练周期中，边缘节点k基于本次迭代周期从中心服务器得到的全局模型w_t以及本地数据

通过随机梯度下降法训练得到新的的模型参数

k的取值为1，2，3，……K，且k为正整数；中心服务器将各个边缘节点更新的本地模型汇总，得出新的全局模型w_t+1；

边缘节点在整个联邦学习过程中仅与中心服务器进行通信，所述通信压缩方法分别针对中心服务器将从边缘节点汇总后的全局模型广播到边缘节点的过程以及边缘节点将训练得到新的本地模型上传中心服务器的过程；对边缘节点的模型参数w中各个向量参数[w⁽¹⁾，...，w^(s)]执行相同的并行操作，w^(s)，s＝1，2，3……S，w^(s)表示第s个模型参数，以向量参数w^(s)为例，所述通信压缩方法的具体步骤包括：

(1)对待压缩的模型参数w^(s)中的元素

的分布进行拟合，

表示模型参数w^(s)的第i个元素，得到

分布的近似概率密度函数p_s(w)；例如，通过一个卷积神经网络模型进行CIFAR-10数据库的图像分类学习任务，该网络模型包括两个卷积层和三个全连接层，每层都有各自的w和b两个参数，以第一个全连接层的参数w为例，它是一个包含48000个数字的张量，此处写为

(2)设定量化区间数目M，通过Lloyd-Max算法，利用概率密度函数p_s(w)，得到使均方量化误差

最小的量化间隔端点向量

以及量化输出值向量

表示量化间隔端点向量的第m个元素；

表示第m个量化输出值；本压缩方案的目的是对于w^(s)，将w^(s)中的各个参数[w⁽¹⁾，...，w^(S)]分别进行并行压缩；而对于模型参数w^(s)，需要根据该参数的分布特性，将w^(s)中的的每一个参数都需要量化为一个近似值，采用的方法是将模型参数w^(s)包含数字范围划分为多个量化间隔，每个间隔内确定一个输出值，使得该间隔内的数字都近似为该输出值；每个量化间隔分别对应一个量化输出值；量化间隔端点向量

用于确定各个量化间隔端点，量化输出值向量

用于确定量化间隔端点对应的量化输出值；

(3)对模型参数w^(s)中的元素

逐个进行映射，得到量化后的有损模型参数Q(w^(s))；当步骤(2)完成后，原模型参数w^(s)中的元素被替换为相应近似值，此时的模型参数记为Q(w^(s))，Q(·)代表将模型参数内部的元素按步骤(2)方式进行逐个映射的操作，得到的有损模型参数Q(w^(s))损失了原模型参数w^(s)中的部分信息，这种操作是有损的；

根据模型参数w^(s)中的元素

的分布p_s(w)，合理地设计

和

b和v确定了一套可以将w^(s)中所有数字近似的机制，利用该机制将w^(s)映射为Q(w^(s))后，即完成了量化部分。整个压缩过程包括此处量化部分和后面的编码部分，量化会损失压缩部分的精度，压缩不会。

(4)通过Huffman编码方法对量化后的有损模型参数Q(w^(s))进行编码，得到模型参数w^(s)经压缩后最终传输的二进制码。

根据本发明优选的，步骤(2)中，设定量化区间数目M，通过Lloyd-Max算法，利用概率密度函数p_s(w)，得到使均方量化误差

最小的量化间隔端点向量

以及量化输出值向量

具体步骤为：

1)取待量化模型参数w^(s)中的元素

中的最大值为

最小值为

初始化

以及

随机设置第一个量化输出值

的初始值，且满足

2)令m＝1，m表示索引；

3)把

和

代入式(I)：

解出

4)把

和

代入式(II)：

解出

5)令m加1；

6)若m＜M，则返回步骤3)，否则进入步骤7)；

7)经过步骤1)-步骤6)的迭代计算，解出

和

中的各元素；将

与

进行相减，若两者的差值大于预设门限值，则调整

的初始设置值并重复步骤2)到步骤6)，解出新的

直到

与

的差值小于预设门限值，最终得到最优的量化间隔端点向量

以及量化输出值向量

根据本发明优选的，步骤(3)中，对模型参数w^(s)中的元素

逐个进行映射，得到量化后的有损模型参数Q(w^(s))；具体步骤为：

利用最优量化间隔端点向量b^(s)，将w_i分布区间分为M个区间段，将落入各个区间的元素

映射为量化输出向量v^(s)中相应序列的值。b^(s)和v^(s)共同确定了一套将模型参数w^(s)中的元素

逐个进行映射的方式，Q(·)代表将模型参数w^(s)内部的元素按该方式进行逐个映射的操作，Q(w^(s))代表对w^(s)进行该操作后得到的模型参数。由于Q(w^(s))是通过将内部所有元素进行映射而得到的，所以Q(w^(s))中的所有元素都存在于v^(s)中。

根据本发明优选的，步骤(4)中，通过Huffman编码方法对量化后的有损模型参数Q(w^(s))进行编码，得到模型参数w^(s)经压缩后最终传输的二进制码，具体步骤为：

a、根据量化后的模型参数Q(w^(s))中的各元素及各元素出现的频率，例如，Q(w^(s))为一个包含5个元素的向量(1，1，2，2，2，3)，则元素“1”的频率为1/3，元素“2”的频率为1/2，元素“3”的频率为1/6；将元素依概率由大到小排列，编码时从最小的两个元素开始，将两者合并为一项元素，并对较小者标记0，对较大者标记1；

b、根据步骤a更新全体元素，进行新的排列并再次合并最小的两个元素；更新指的是：原有T项，将最小两项合并后视作一项，该项概率权值为原相加两项之和，再对这T-1项依概率再次由大到小排列；

c、重复步骤a和步骤b，直至剩下一项元素的概率为1，从而得到Huffman树；

d、从Huffman树中概率为1的最终节点出发，对于每一个元素，都有且只有一条通路到达代表该元素的叶节点，依次读出路径中标记的二进制序列，则得到该元素的Huffman码，最终将待压缩的模型参数向量压缩为用于实际发送的二进制Huffman编码。Huffman树是一个树结构，当哈夫曼树确定后，从最终的节点出发到达每一个最初的节点的路径都是唯一的，叶节点指的就是各个最初节点，也就是量化后拥有各自出现概率的模型参数Q(w^(s))的各个不同的元素。

本发明的有益效果为：

1.本发明针对联邦学习中模型更新时的通信传输场景，提出了一种基于权值分布的通信压缩方法。通过统计被压缩学习模型参数的分布特性，在兼顾学习效率的前提下，节省了通信的开销。

2.本发明利用联邦平均的思想，对于传输的模型参数进行压缩。与现有联邦学习压缩方法相比，由于每次通信之前本地可进行多次本地训练和模型更新，因此节省了大量通信次数。

3.本发明中，使用的Lloyd-Max量化器进行量化，保证了在该标量量化过程中均方量化误差的最小化。

4.本发明中，使用了Huffman编码方式对量化后的模型参数进行编码，由于Huffman编码是完全依据字符出现概率来构造的平均长度最短的码字，因此保证了实际传输的二进制码最短，从而减少了对通信带宽的占用。

附图说明

图1是本发明中联邦学习通信压缩的系统图；

图2为本发明提供的通信压缩方法与传统通信压缩方法中，训练损失随着通信消耗的下降情况对比示意图；

图3为本发明提供的通信压缩方法与传统通信压缩方法中，测试准确率随着通信消耗的上升情况对比示意图。

具体实施方式

下面结合说明书附图和实施例对本发明予以进一步说明，但不限于此。

实施例1

一种联邦学习中基于模型权值分布的通信压缩方法，用于中心式通信系统，如图1所示，所述中心式通信系统包括K个边缘节点和中心服务器，每个边缘节点均与中心服务器相连接；

第k个边缘节点中存储有本地数据

通过随机梯度下降法训练得到新的的模型参数

(1)对待压缩的模型参数w^(s)中的元素

的分布进行拟合，

表示模型参数w^(s)的第i个元素，得到

最小的量化间隔端点向量

以及量化输出值向量

表示量化间隔端点向量的第m个元素；

用于确定各个量化间隔端点，量化输出值向量

用于确定量化间隔端点对应的量化输出值；

具体步骤为：

1)取待量化模型参数w^(s)中的元素

中的最大值为

最小值为

初始化

以及

随机设置第一个量化输出值

的初始值，且满足

2)令m＝1，m表示索引；

3)把

和

代入式(I)：

解出

4)把

和

代入式(II)：

解出

5)令m加1；

6)若m＜M，则返回步骤3)，否则进入步骤7)；

7)经过步骤1)-步骤6)的迭代计算，解出

科

中的各元素；将

与

进行相减，若两者的差值大于预设门限值，则调整

的初始设置值并重复步骤2)到步骤6)，解出新的

直到

与

的差值小于预设门限值，最终得到最优的量化间隔端点向量

以及量化输出值向量

(3)对模型参数w^(s)中的元素

根据模型参数w^(s)中的元素

的分布p_s(w)，合理地设训

和

具体步骤为：

(4)通过Huffman编码方法对量化后的有损模型参数Q(w^(s))进行编码，得到模型参数w^(s)经压缩后最终传输的二进制码，具体步骤为：

与现有的联邦学习通信压缩方法相比，本方法建立在联邦平均的思想上，由于每次通信之前本地可进行多次本地训练和模型更新，因此节省了大量通信次数。

量化部分使用的Lloyd-Max算法保证了在该标量量化过程中均方量化误差的最小化。

编码部分使用了Huffman编码方式。由于Huffman编码是完全依据字符出现概率来构造的平均长度最短的码字，因此保证了实际传输的二进制码最短。

本发明基于传输模型场景下的模型参数进行压缩，在每次节点间通信之前，本地节点可以利用梯度信息进行多次本地模型的迭代，从而使得每次通信包含更多模型更新信息。对于模型信息，由于其中各个参数的权值都服从一定分布特性，使用基于模型权值分布的压缩方法可以在最大程度保护精度的前提下减少通信的花销。

在实施例中，各个本地节点使用CNN模型训练图像数据集CIFAR-10中的数据。首先各个边缘节点利用本地数据训练出最优的本地训练模型参数，再聚合到中心服务器进行加权平均；更新后的全局模型参数由服务器广播到各个本地节点，至此一个全局迭代周期结束。在该周期中，聚合和广播两个过程都涉及到了本通信压缩方法。

传统方法包括基于联邦随机梯度下降(交换梯度)的基准算法、Top-k算法、QSGD算法，以及基于联邦平均(交换模型)的基准算法。基准算法是未经压缩的算法。Top-k的思想是每次通信前，仅保留发送梯度中绝对值最大的前某一部分的量，其他数字全部置为0。[S.U.Stich,J.-B.Cordonnier,and M.Jaggi,“Sparsified SGD with memory,”inProc.NeurIPS 2018,Montreal,QC,Canada,Dec.2018,pp.4447–4458.]

QSGD先把参数范围划为多个区间，将参数中每个元素映射到距离最近的区间端点上，再使用Elias编码方法，利用大数出现频率较低的性质减少编码所需比特数。[D.Alistarh,D.Grubic,J.Li,R.Tomioka,and M.Vojnovic,“QSGD:Communication-eficient SGD via gradient quantization and encoding,”in Proc.NIPS 2017,LongBeach,CA,United states,Dec.2017,pp.1710–1721.]

图2为各压缩方案下训练损失随着通信消耗的下降情况对比。横坐标为传输消耗的比特数；纵坐标为训练损失，是使用该训练模型预测出的结果与实际值的差距。量化区间数目M＝256。从图2可以看出，在消耗相同通信资源的情况下，本发明所设计的通信压缩方法能比其他方法更快地使系统的训练损失下降。在实际应用中，可以通过调整量化区间数目以在压缩精度和压缩程度之间做平衡。

图3为各压缩方案下测试准确率随着通信消耗的上升情况对比。横坐标为传输消耗的比特数，纵坐标为测试准确率，是使用该训练模型在测试集上预测的成功率。从图3可以看出，在消耗相同资源地情况下，本发明所设计的通信压缩方法能比其他方法更快地提升测试准确率。

由图2和图3可知，本发明所设计的中心式时间同步联邦学习通信压缩方法具有有效提升了系统的通信性价比，在消耗较小通信带宽的情况下更快达到较好的学习效果，颇具实用性。

Claims

1.一种联邦学习中基于模型权值分布的通信压缩方法,其特征在于，用于中心式通信系统，所述中心式通信系统包括K个边缘节点和中心服务器，每个边缘节点均与中心服务器相连接；

边缘节点在整个联邦学习过程中仅与中心服务器进行通信，所述通信压缩方法分别针对中心服务器将从边缘节点汇总后的全局模型广播到边缘节点的过程以及边缘节点将训练得到新的本地模型上传中心服务器的过程；对边缘节点的模型参数w中各个向量参数[w⁽¹⁾，...，w^(S)]执行相同的并行操作，w^(s)，s＝1,2,3……S,w^(s)表示第s个模型参数，所述通信压缩方法的具体步骤包括：

(1)对待压缩的模型参数w^(s)中的元素