CN115765751A

CN115765751A - 一种基于异或幂与取模运算的数据压缩算法

Info

Publication number: CN115765751A
Application number: CN202211395833.3A
Authority: CN
Inventors: 王志强; 任晓蕊; 于欣月; 王卓越
Original assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Current assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-07

Abstract

本发明公开了一种基于异或幂与取模运算的数据压缩算法，具体涉及通信压缩技术领域，包括数据压缩以及数据解压缩两个部分，其中数据压缩算法分为三个阶段。第一个阶段为量化，第二个阶段为索引编码，第三个阶段为逻辑编码。数据解压缩算法则分为两个阶段，第一个阶段为逻辑解码，第二个阶段为索引解码，压缩结果通过解压缩过程得到的数据与量化后的原数据完全一致，是一种无损压缩算法。

Description

一种基于异或幂与取模运算的数据压缩算法

技术领域

本发明涉及通信压缩技术领域，尤其涉及一种基于异或幂与取模运算的数据压缩算法。

背景技术

在联邦学习中，节点需要将梯度通过网络进行交换。现如今的机器学习模型中，参数可高达上千万个，受带宽限制，通信量成为分布式学习的主要瓶颈，是造成训练速度变慢的主要原因。现有的数据压缩技术可以分为两类，一类是有损压缩，一类是无损压缩。

无损压缩是指将数据进行重构，以起到对数据压缩的作用。原始数据通过压缩过程得到占存储空间更小的压缩结果，压缩结果通过解压缩过程得到的数据与原数据完全一致，无损压缩常用于程序以及指纹图像或医学图像等数据的压缩。无损压缩的压缩率通常可以达到20％至50％。常用的无损压缩算法有Shanno-Fano编码、哈夫曼编码、算数编码、游程编码等，其中，哈夫曼编码和游程编码等无损压缩算法常用语重复的整数数据，但是这种算法不适用于浮点型数据，而在包括联邦学习在内的分布式学习中，浮点型数据是训练过程中一定会产生的数据。另有一种无损压缩算法利用数据稀疏性来存储矩阵类型的数据，然而这种算法的压缩性能有限，性能提升空间较小。

有损压缩算法的类型较多，有通过基于稀疏化的策略以及基于量化的策略对浮点梯度进行压缩。稀疏化策略即根据阈值来过滤小梯度，其中一些终端在局部积累小梯度，直到达到阈值，从而对足够大的梯度进行传输。但是经过多次累积的梯度是陈旧的，可能会影响收敛，也有一些方法直接舍弃小梯度，返回丢失部分有用信息，尤其是在数据集有所倾斜训练中。与之对比，量化方式更有前景，因为量化实现了压缩性能与收敛性能之间的平衡，但是现有的量化方法有两个共同的假设，一是假设需要压缩的梯度是密集的，然而在许多真实的大规模机器学习应用中，由于训练数据的稀疏性，梯度向量也是稀疏的，若存储一个梯度向量的所有维度，并对其进行压缩，则会在零梯度值上浪费大量时间，如果以<键，值>对存储稀疏梯度，则无法压缩梯度键；二是假设梯度遵循均匀分布，但梯度更新中的梯度值通常符合非均匀分布，大多数梯度更新位于接近于0的小范围内，统一量化方法无法拟合梯度值的统计分布。有一种新的压缩算法，对梯度进行拆分，但是该方法仅适用于较为稀疏梯度的训练。

发明内容

本发明的技术解决问题：克服现有技术的不足，提供一种基于异或幂与取模运算的数据压缩算法，可以在不影响模型准确率的条件下，更好地减少联邦学习中的通信量，在数据压缩过程中，先将训练产生的浮点型参数梯度更新进行四舍五入式的量化，满足数据压缩算法对原数据为整数的要求；再通过去重、对唯一值进行大小排序后得到压缩对照表，根据压缩对照表使用相应的索引值对量化后的原参数梯度更新序列进行替换，得到整数化参数梯度更新序列；然后采用异或运算和幂运算，对索引编码阶段得到的整数化参数梯度更新序列进行压缩。在数据解压缩过程中，先通过取模运算和除运算，将整数化参数梯度进行一一还原，使得服务器在接收到压缩数据后，能够得到整数化参数梯度更新；再根据压缩对照表，将整数化参数梯度更新中每一个数值转化成其索引对应的梯度值，得到经过量化后的参数梯度更新。此算法可以在不影响模型准确率的条件下，更好地减少联邦学习中的通信量。

为了实现上述目的，本发明采用了如下技术方案：

一种基于异或幂与取模运算的数据压缩算法，具体包括以下步骤：

数据压缩的量化阶段：在深度学习中，训练产生的参数梯度更新往往为浮点型数据，为了能够适用于数据压缩算法对原数据为整数的要求，会对参数梯度更新进行四舍五入式的量化。

数据压缩的索引编码阶段：为了能够将原数据转化为整数，需要根据压缩对照表，使用相应的索引值对量化后的原参数梯度更新序列进行替换，将要传输的每个参数梯度更新转化为整数，得到整数化参数梯度更新序列；

数据压缩的逻辑编码阶段：逻辑编码是数据压缩的重要环节。在逻辑编码中，采用异或运算和幂运算，对索引编码阶段得到的整数化参数梯度更新序列进行压缩；

数据解压缩的逻辑解码阶段：作为解压缩的第一个阶段逻辑编码，通过取模运算和除运算，将整数化参数梯度进行一一还原，使得服务器在接收到压缩数据后，能够得到整数化参数梯度更新；

数据解压缩的索引解码阶段：索引解码阶段的主要任务是根据压缩对照表，将整数化参数梯度更新中每一个数值转化成其索引对应的梯度值，得到经过量化后的参数梯度更新。

优选的，数据压缩的索引编码阶段，所述的压缩对照表以及得到整数化参数梯度更新序列的具体过程是由于在机器学习或者深度学习中，参数梯度更新数量庞大，且有大量大小近似的参数梯度更新，所以通过四舍五入法量化之后，会有相当一部分的参数梯度更新大小相同，因此需要将这些参数梯度更新放入梯度更新池中，对其进行去重，留下唯一值，将其从小到大进行排序，并将这些唯一值从0开始编制索引，从而形成一个索引列表，称之为压缩对照表。压缩对照表中包括整数索引以及其对应的整数化参数梯度更新，以键值对<索引，参数梯度更新>的形式保存。然后根据压缩对照表，使用相应的索引值对量化后的原参数梯度更新序列进行替换，将要传输的每个参数梯度更新转化为整数，得到整数化参数梯度更新。

优选的，数据压缩的逻辑编码阶段，采用异或运算和幂运算，对索引编码阶段得到的整数化参数梯度更新进行压缩的具体步骤是：首先得到参数梯度更新的长度L，得到数据压缩的索引编码阶段的压缩对照表T及其长度K，得到根据压缩对照表得出的整数化参数梯度更新F；然后计算后续压缩算法的幂运算需要的底数

最后令v₀＝F[0]，重复L-1次公式1，公式1为：v_i＝v_i-1XORb_i*dⁱ,0<i≤L，将所有整数化参数梯度更新压缩成一个值v_L，其中i表示整数化参数梯度更新F的第i个索引(从0开始)，每做一次公式1的计算，索引就向后移一个，即索引值加1。

优选的，数据解压缩的逻辑解码阶段，通过取模运算和除运算进行数据还原，得到整数化参数梯度更新，具体步骤是：首先服务器接受压缩后的值v_L，原始参数梯度更新的长度L，对应的压缩对照表T及长度K；然后计算后续解压缩算法的取模运算和除法运算需要的

最后令v₀＝v_L，计算b₀＝v₀modd，重复L-1次公式2得到整数化参数梯度更新，公式2为：

其中i表示整数化参数梯度更新的第i个索引(从0开始)，每做一次公式2的计算，索引就向后移一个，即索引值加1。

优选的，数据解压缩的索引解码阶段，根据压缩对照表<索引，参数梯度更新>的形式，将整数化参数梯度更新中每一个数值转化成以其为索引对应的参数梯度更新，得到量化后压缩前的参数梯度更新，解压后的数据与原数据一致，保证联邦学习过程中在减少传输数据量的同时不会降低模型的准确率。

本发明的有益效果为：

本发明是对联邦学习的通信压缩的一种有效补充，为了更好地减少通信量，最大程度的保证模型的准确率，结合了无损压缩算法中的编码与有损压缩中的量化算法，应用异或运算、幂运算、模运算和除运算对参数梯度更新进行压缩与解压缩，在保证模型的准确率的条件下，得到了更好的压缩率。

附图说明

图1为本发明算法的实现阶段图；

图2为本发明算法的压缩部分流程图；

图3为本发明算法的解压缩部分流程；

图4为本发明算法在基于标签的不平衡数据集上终端数为3准确率的实验对比图；

图5为本发明算法在基于标签的不平衡数据集上终端数为5准确率的实验对比图；

图6为本发明算法在基于标签的不平衡数据集上终端数为10准确率的实验对比图；

图7为本发明算法在基于数量的不平衡数据集上终端数为3准确率的实验对比图；

图8为本发明算法在基于数量的不平衡数据集上终端数为5准确率的实验对比图；

图9为本发明算法在基于数量的不平衡数据集上终端数为10准确率的实验对比图；

图10为本发明的压缩对照表；

图11为本发明的压缩率表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1-11所示，一种基于异或幂与取模运算的数据压缩算法，具体包括以下步骤：

步骤1、数据压缩的量化阶段，在深度学习中，训练产生的参数梯度更新往往为浮点型数据，为了能够适用于数据压缩算法对原数据为整数的要求，会对参数梯度更新进行四舍五入式的量化。在具体实施过程中，由于会损失掉保留小数位数之后的信息，所以在确定保留小数位数时，需要对参数梯度更新的大小进行观察，对参数梯度更新的分布进行判断，保证在使用本压缩算法后，不降低模型的准确率；

步骤2、数据压缩的索引编码阶段，为了能够将原数据转化为整数，需要根据压缩对照表，使用相应的索引值对量化后的原参数梯度更新序列进行替换，将要传输的每个参数梯度更新转化为整数，得到整数化参数梯度更新序列；

步骤2.1、在机器学习或者深度学习中，参数梯度更新数量庞大，且有大量大小近似的参数梯度更新，所以通过四舍五入法量化之后，会有相当一部分的参数梯度更新大小相同，因此需要将这些参数梯度更新放入梯度更新池中，对其进行去重，留下唯一值，将其从小到大进行排序，并将这些唯一值从0开始编制索引，从而形成一个索引列表，称之为压缩对照表。压缩对照表中包括整数索引以及其对应的整数化参数梯度更新，以键值对<索引，参数梯度更新>的形式保存；

步骤2.2、根据压缩对照表，使用相应的索引值对量化后的原参数梯度更新序列进行替换，将要传输的每个参数梯度更新转化为整数，得到整数化参数梯度更新；

步骤3、数据压缩的逻辑编码阶段，采用异或运算和幂运算，对索引编码阶段得到的整数化参数梯度更新进行压缩；

步骤3.1、得到参数梯度更新的长度L，得到数据压缩的索引编码阶段的压缩对照表T及其长度K，得到根据压缩对照表得出的整数化参数梯度更新F；

步骤3.2、计算后续压缩算法的幂运算需要的底数

步骤3.3、令v₀＝F[0]，重复L-1次公式1，公式1为：v_i＝v_i-1XORb_i*dⁱ,0<i≤L，将所有整数化参数梯度更新压缩成一个值v_L，其中i表示整数化参数梯度更新F的第i个索引(从0开始)，每做一次公式1的计算，索引就向后移一个，即索引值加1；

步骤4、数据解压缩的逻辑解码阶段，通过取模运算和除运算进行数据还原，得到整数化参数梯度更新；

步骤4.1、服务器接受压缩后的值v_L，原始参数梯度更新的长度L，对应的压缩对照表T及长度K；

步骤4.2、计算后续解压缩算法的取模运算和除法运算需要的

步骤4.3、令v₀＝v_L，计算b₀＝v₀modd，重复L-1次公式2得到整数化参数梯度更新，公式2为：

其中i表示整数化参数梯度更新的第i个索引(从0开始)，每做一次公式2的计算，索引就向后移一个，即索引值加1；

步骤5、数据解压缩的索引解码阶段，根据压缩对照表<索引，参数梯度更新>的形式，将整数化参数梯度更新中每一个数值转化成以其为索引对应的参数梯度更新，得到量化后压缩前的参数梯度更新，解压后的数据与原数据一致，保证联邦学习过程中在减少传输数据量的同时不会降低模型的准确率；

S6、举例说明，假设有一个待传输的简单参数梯度更新序列，如：update＝([-0.0212,-0.0203,-0.0321,-0.0298,-0.0223,-0.0342,-0.0311,-0.0201,-0.0332,-0.0231])，若直接将以上内容进行传输，需要传输10个浮点数，共计40字节，若使用本算法进行压缩。

步骤6.1压缩过程：

步骤6.1.1、量化：首先对参数梯度更新序列进行四舍五入量化，判断该参数梯度更新序列中的更新在保留两位小数的情况下，可以将更多参数归为一类，也就可以分更少的组，即压缩对照表的长度会更短，从而减少在传输环节中压缩对照表所需要的通信量，并且保留两位小数，损失的精度和细节有限，可以很好地保证聚合后的模型效果。

量化后的结果为：

update′＝([-0.02,-0.02,-0.03,-0.03,-0.02,-0.03,-0.03,-0.02,-0.03,-0.02])；

S6.1.2、引编码：在量化后的参数梯度更新序列中取唯一值，并为这些唯一值添加索引，索引需要从0开始索引编码，得到压缩对照表如图10所示，该压缩对照表长度为2，根据

计算得到d＝2，d将用于压缩过程中的幂运算。另外，需要根据压缩对照表，将量化后参数梯度更新序列中的每个参数梯度更新值转换成其在压缩对照表中所对应的索引值，通过索引编码后得到的序列为update_process＝([0,0,1,1,0,1,1,0,1,0])；

步骤6.1.3、逻辑编码：在逻辑编码环节将采用异或运算、幂运算和乘运算对索引编码后的参数梯度更新进行编码，最终达到对数据压缩的目的。逻辑编码操作如下：

初始化变量update_value＝update_process[0]＝0；

对索引编码后的参数梯度更新序列中的参数梯度更新值逐个进行逻辑编码。

对索引编码后的参数梯度更新序列中第2个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第3个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第4个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第5个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第6个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第7个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第8个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第9个参数梯度更新值进行逻辑编码

对索引编码后的参数梯度更新序列中第10个参数梯度更新值进行逻辑编码

此时的update_value即为逻辑编码的结果，也是基于异或幂与模运算的数据压缩算法的最终结果，数据压缩部分完成。

在数据压缩部分结束后，需要传输的数据有：压缩对照表的第二行，最终的update_value，以及参数梯度更新序列update中参数梯度更新的个数。大小为2个浮点型，2个整数型，共计16字节。在本例中，相较于直接传输减少了24字节；

在数据压缩部分结束后，需要传输的数据有：压缩对照表的第二行，最终的update_value，以及参数梯度更新序列update中参数梯度更新的个数。大小为2个浮点型，2个整数型，共计16字节。在本例中，相较于直接传输减少了24字节。

步骤6.2、解压缩过程：

步骤6.2.1、逻辑解码：获得压缩对照表第二行的长度k，计算中间变量

用于逻辑解码，之后通过1轮迭代还原索引值序列，具体操作如下：

参数梯度更新的第1个值update_process[0]＝update_value％d＝364％2＝0

update_value＝update_value/d＝364/2＝182

参数梯度更新的第2个值update_process[1]＝update_value％d＝182％2＝0

update_value＝update_value/d＝182/2＝91

参数梯度更新的第3个值update_process[2]＝update_value％d＝91％2＝1

update_value＝update_value/d＝91/2＝45

参数梯度更新的第4个值update_process[3]＝update_value％d＝45％2＝1

update_value＝update_value/d＝45/2＝22

参数梯度更新的第5个值update_process[4]＝update_value％d＝22％2＝0

update_value＝update_value/d＝22/2＝11

参数梯度更新的第6个值update_process[5]＝update_value％d＝11％2＝1

update_value＝update_value/d＝11/2＝5

参数梯度更新的第7个值update_process[6]＝update_value％d＝5％2＝1

update_value＝update_value/d＝5/2＝2

参数梯度更新的第8个值update_process[7]＝update_value％d＝2％2＝0

update_value＝update_value/d＝2/2＝1

参数梯度更新的第9个值update_process[8]＝update_value％d＝1％2＝1

update_value＝update_value/d＝1/2＝0

参数梯度更新的第10个值update_process[9]＝update_value％d＝0％2＝0

至此，服务器已经将收到的update_value还原至在压缩部分经过索引编码阶段得到的整数化参数梯度更新中的10个值，即数据压缩部分的update_process＝([0,0,1,1,0,1,1,0,1,0])。

步骤6.2.2、索引解码：在索引解码阶段，需要根据服务器收到的压缩对照表第二行数据，结合其对应的位置，将逻辑解码阶段得到的update_process还原为其对应的量化后的参数梯度更新update′＝([-0.02,-0.02,-0.03,-0.03,-0.02,-0.03,-0.03,-0.02,-0.03,-0.02])。即在压缩部分的量化阶段得到的数值，证明本算法只在量化阶段存在部分精度损失。

步骤7、使用本数据压缩算法，采用基于标签的不平衡数据集和基于数量的不平衡数据集，分别在每轮中选择3个终端、5个终端、10个终端，与未采用本数据压缩算法的联邦学习作对比实验。压缩率(压缩后的通信量/压缩前的通信量)情况如图11所示，准确率的对比情况如图4、图5、图6、图7、图8、图9所示。

总之，本发明对联邦学习的通信压缩的一种有效补充，结合了无损压缩算法中的编码与有损压缩中的量化算法，应用异或运算、幂运算、模运算和除运算对参数梯度更新进行压缩与解压缩，在不影响模型准确率的条件下，更好地减少联邦学习中的通信量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于异或幂与取模运算的数据压缩算法，其特征在于，具体包括以下步骤：

S1、数据压缩的量化阶段：在深度学习中，训练产生的参数梯度更新为浮点型数据，并且对参数梯度更新进行四舍五入式的量化；

S2、数据压缩的索引编码阶段：将原数据转化为整数，根据压缩对照表，使用相应的索引值对量化后的原参数梯度更新序列进行替换，将要传输的每个参数梯度更新转化为整数，得到整数化参数梯度更新序列；

S3、数据压缩的逻辑编码阶段：在逻辑编码中，采用异或运算和幂运算，对索引编码阶段得到的整数化参数梯度更新序列进行压缩；

S4、数据解压缩的逻辑解码阶段：通过取模运算和除运算，将整数化参数梯度进行一一还原，使得服务器在接收到压缩数据后，得到整数化参数梯度更新；

S5、数据解压缩的索引解码阶段：索引解码阶段为根据压缩对照表，将整数化参数梯度更新中每一个数值转化成其索引对应的梯度值，得到经过量化后的参数梯度更新。

2.根据权利要求1所述的一种基于异或幂与取模运算的数据压缩算法，其特征在于，在S2数据压缩的索引编码阶段中：所述的压缩对照表以及得到整数化参数梯度更新序列的具体过程是由于在机器学习或者深度学习中，参数梯度更新数量庞大，且有大量大小近似的参数梯度更新，通过四舍五入法量化之后，有相当一部分的参数梯度更新大小相同，将这些参数梯度更新放入梯度更新池中，对其进行去重，留下唯一值，将其从小到大进行排序，并将这些唯一值从0开始编制索引，从而形成一个索引列表，压缩对照表中包括整数索引以及其对应的整数化参数梯度更新，以键值对<索引，参数梯度更新>的形式保存，根据压缩对照表，使用相应的索引值对量化后的原参数梯度更新序列进行替换，将要传输的每个参数梯度更新转化为整数，得到整数化参数梯度更新。

3.根据权利要求1所述的一种基于异或幂与取模运算的数据压缩算法，其特征在于，在S3数据压缩的逻辑编码阶段:采用异或运算和幂运算，对索引编码阶段得到的整数化参数梯度更新进行压缩的具体步骤是：

S3.1、首先得到参数梯度更新的长度L，得到数据压缩的索引编码阶段的压缩对照表T及其长度K，得到根据压缩对照表得出的整数化参数梯度更新F；

S3.2、然后计算后续压缩算法的幂运算需要的底数

S3.3、最后令v₀＝F[0]，重复L-1次公式1，公式1为：v_i＝v_i-1XORb_i*dⁱ,0<i≤L，将所有整数化参数梯度更新压缩成一个值v_L，其中i表示整数化参数梯度更新F的第i个索引，每做一次公式1的计算，索引就向后移一个，即索引值加1。

4.根据权利要求1所述的一种基于异或幂与取模运算的数据压缩算法，其特征在于，在S4数据解压缩的逻辑解码阶段，通过取模运算和除运算进行数据还原，得到整数化参数梯度更新，具体步骤是：

S4.1、首先服务器接受压缩后的值v_L，原始参数梯度更新的长度L，对应的压缩对照表T及长度K；

S4.2、然后计算后续解压缩算法的取模运算和除法运算需要的

S4.3、最后令v₀＝v_L，计算b₀＝v₀modd，重复L-1次公式2得到整数化参数梯度更新，公式2为：

其中i表示整数化参数梯度更新的第i个索引，每做一次公式2的计算，索引就向后移一个，即索引值加1。

5.根据权利要求1所述的一种基于异或幂与取模运算的数据压缩算法，其特征在于，在S5数据解压缩的索引解码阶段中：根据压缩对照表<索引，参数梯度更新>的形式，将整数化参数梯度更新中每一个数值转化成以其为索引对应的参数梯度更新，得到量化后压缩前的参数梯度更新，解压后的数据与原数据一致。