CN113258935B - 一种联邦学习中基于模型权值分布的通信压缩方法 - Google Patents

一种联邦学习中基于模型权值分布的通信压缩方法 Download PDF

Info

Publication number
CN113258935B
CN113258935B CN202110568987.7A CN202110568987A CN113258935B CN 113258935 B CN113258935 B CN 113258935B CN 202110568987 A CN202110568987 A CN 202110568987A CN 113258935 B CN113258935 B CN 113258935B
Authority
CN
China
Prior art keywords
model
communication
vector
quantization
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110568987.7A
Other languages
English (en)
Other versions
CN113258935A (zh
Inventor
郭帅帅
吕舒恒
张海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110568987.7A priority Critical patent/CN113258935B/zh
Publication of CN113258935A publication Critical patent/CN113258935A/zh
Application granted granted Critical
Publication of CN113258935B publication Critical patent/CN113258935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种联邦学习中基于模型权值分布的通信压缩方法,属于无线通信技术领域。本发明基于联邦学习中已有的联邦平均思想,每次通信时首先统计出节点之间要传输的模型权重信息的分布,然后根据其分布特性,通过Lloyd‑Max量化器进行标量量化压缩,然后使用Huffman编码方法来进行编码,最终发送到目标节点,从而在实现最小均方量化误差的同时减小通信所需的比特数。本发明所设计的通信压缩方法,具有良好的普适性,在保证学习效率的前提下节省了通信开销,具有实用性。

Description

一种联邦学习中基于模型权值分布的通信压缩方法
技术领域
本发明涉及一种联邦学习中基于模型权值分布的通信压缩方法,属于无线通信技术领域。
背景技术
联邦学习是一种新兴的分布式学习方法,通过将训练过程在本地完成的思想来达到保护用户数据隐私和安全的目的。
在传统的分布式学习框架中,为了得到具备普适性的学习模型,各节点需要将本地数据发送到服务器端进行训练。目前,随着个人数据的隐私安全变得越发重要,共享本地数据的过程成为了一大弊端,联邦学习应运而生。与传统的分布式学习相比,联邦学习中的节点无需分享本身拥有的数据,而是先利用拥有的数据,先在本地训练出本地模型,再与其他节点共享和加权各自的本地模型参数。在现今日益强调用户数据隐私和安全的背景下,联邦学习无疑具有很大的应用前景。
在联邦学习中,节点之间通信时的带宽占用直接影响训练的收敛速度,是联邦学习过程中非常重要的一个环节。而现有技术中,为减少带宽占用,一种重要的思想是压缩节点之间的通信量,使得较小影响传输精度的前提下尽可能减小通信量的花费。节点之间通信是通过传输梯度或传输模型实现的,目的是交换模型的更新信息。现有压缩方案大多以传输梯度为基础,利用梯度的稀疏特性进行压缩处理。由于各个节点上的梯度信息需要通过汇聚到中心节点再分发回各个节点才能在一个节点上完成一次模型更新,即两次通信只完成一次本地节点上的梯度下降,对通信量的压缩还有提升空间。
发明内容
针对现有技术的不足,本发明提供了一种联邦学习中基于模型权值分布的通信压缩方法,基于联邦学习中的联邦平均思想,对于模型信息中的每一个参数,每次通信时首先统计出节点之间要传输的模型权重信息的分布,然后根据其分布特性进行标量量化压缩,然后使用Huffman编码方法来进行编码,最终发送到目标节点,从而在实现最小均方量化误差的同时减小通信所需的比特数。
术语解释:
1.Huffman编码法:是一种通过构造最佳二叉树,完全依据字符出现概率来构造异字头的平均长度最短码字的编码方法。
2.Lloyd-Max算法:是一种在标量量化中为最小化均方量化误差,根据变量概率分布来求出最佳量化间隔和最佳量化输出的迭代算法。
本发明的技术方案为:
一种联邦学习中基于模型权值分布的通信压缩方法,用于中心式通信系统,所述中心式通信系统包括K个边缘节点和中心服务器,每个边缘节点均与中心服务器相连接;
第k个边缘节点中存储有本地数据
Figure BDA0003081879550000021
在第t个全局模型训练周期中,边缘节点k基于本次迭代周期从中心服务器得到的全局模型wt以及本地数据
Figure BDA0003081879550000022
通过随机梯度下降法训练得到新的的模型参数
Figure BDA0003081879550000023
k的取值为1,2,3,……K,且k为正整数;中心服务器将各个边缘节点更新的本地模型汇总,得出新的全局模型wt+1
边缘节点在整个联邦学习过程中仅与中心服务器进行通信,所述通信压缩方法分别针对中心服务器将从边缘节点汇总后的全局模型广播到边缘节点的过程以及边缘节点将训练得到新的本地模型上传中心服务器的过程;对边缘节点的模型参数w中各个向量参数[w(1),...,w(s)]执行相同的并行操作,w(s),s=1,2,3……S,w(s)表示第s个模型参数,以向量参数w(s)为例,所述通信压缩方法的具体步骤包括:
(1)对待压缩的模型参数w(s)中的元素
Figure BDA0003081879550000024
的分布进行拟合,
Figure BDA0003081879550000025
Figure BDA0003081879550000026
Figure BDA0003081879550000027
表示模型参数w(s)的第i个元素,得到
Figure BDA0003081879550000028
分布的近似概率密度函数ps(w);例如,通过一个卷积神经网络模型进行CIFAR-10数据库的图像分类学习任务,该网络模型包括两个卷积层和三个全连接层,每层都有各自的w和b两个参数,以第一个全连接层的参数w为例,它是一个包含48000个数字的张量,此处写为
Figure BDA0003081879550000029
(2)设定量化区间数目M,通过Lloyd-Max算法,利用概率密度函数ps(w),得到使均方量化误差
Figure BDA00030818795500000210
最小的量化间隔端点向量
Figure BDA00030818795500000211
以及量化输出值向量
Figure BDA00030818795500000212
Figure BDA00030818795500000213
表示量化间隔端点向量的第m个元素;
Figure BDA00030818795500000214
表示第m个量化输出值;本压缩方案的目的是对于w(s),将w(s)中的各个参数[w(1),...,w(S)]分别进行并行压缩;而对于模型参数w(s),需要根据该参数的分布特性,将w(s)中的的每一个参数都需要量化为一个近似值,采用的方法是将模型参数w(s)包含数字范围划分为多个量化间隔,每个间隔内确定一个输出值,使得该间隔内的数字都近似为该输出值;每个量化间隔分别对应一个量化输出值;量化间隔端点向量
Figure BDA0003081879550000031
用于确定各个量化间隔端点,量化输出值向量
Figure BDA0003081879550000032
用于确定量化间隔端点对应的量化输出值;
(3)对模型参数w(s)中的元素
Figure BDA0003081879550000033
逐个进行映射,得到量化后的有损模型参数Q(w(s));当步骤(2)完成后,原模型参数w(s)中的元素被替换为相应近似值,此时的模型参数记为Q(w(s)),Q(·)代表将模型参数内部的元素按步骤(2)方式进行逐个映射的操作,得到的有损模型参数Q(w(s))损失了原模型参数w(s)中的部分信息,这种操作是有损的;
根据模型参数w(s)中的元素
Figure BDA0003081879550000034
的分布ps(w),合理地设计
Figure BDA0003081879550000035
Figure BDA0003081879550000036
b和v确定了一套可以将w(s)中所有数字近似的机制,利用该机制将w(s)映射为Q(w(s))后,即完成了量化部分。整个压缩过程包括此处量化部分和后面的编码部分,量化会损失压缩部分的精度,压缩不会。
(4)通过Huffman编码方法对量化后的有损模型参数Q(w(s))进行编码,得到模型参数w(s)经压缩后最终传输的二进制码。
根据本发明优选的,步骤(2)中,设定量化区间数目M,通过Lloyd-Max算法,利用概率密度函数ps(w),得到使均方量化误差
Figure BDA0003081879550000037
最小的量化间隔端点向量
Figure BDA0003081879550000038
以及量化输出值向量
Figure BDA0003081879550000039
具体步骤为:
1)取待量化模型参数w(s)中的元素
Figure BDA00030818795500000310
中的最大值为
Figure BDA00030818795500000311
最小值为
Figure BDA00030818795500000312
初始化
Figure BDA00030818795500000313
以及
Figure BDA00030818795500000314
随机设置第一个量化输出值
Figure BDA00030818795500000315
的初始值,且满足
Figure BDA00030818795500000316
2)令m=1,m表示索引;
3)把
Figure BDA00030818795500000317
Figure BDA00030818795500000318
代入式(I):
Figure BDA00030818795500000319
解出
Figure BDA00030818795500000320
4)把
Figure BDA0003081879550000041
Figure BDA0003081879550000042
代入式(II):
Figure BDA0003081879550000043
解出
Figure BDA0003081879550000044
5)令m加1;
6)若m<M,则返回步骤3),否则进入步骤7);
7)经过步骤1)-步骤6)的迭代计算,解出
Figure BDA0003081879550000045
Figure BDA0003081879550000046
中的各元素;将
Figure BDA0003081879550000047
Figure BDA0003081879550000048
进行相减,若两者的差值大于预设门限值,则调整
Figure BDA0003081879550000049
的初始设置值并重复步骤2)到步骤6),解出新的
Figure BDA00030818795500000410
直到
Figure BDA00030818795500000411
Figure BDA00030818795500000412
的差值小于预设门限值,最终得到最优的量化间隔端点向量
Figure BDA00030818795500000413
以及量化输出值向量
Figure BDA00030818795500000414
根据本发明优选的,步骤(3)中,对模型参数w(s)中的元素
Figure BDA00030818795500000415
逐个进行映射,得到量化后的有损模型参数Q(w(s));具体步骤为:
利用最优量化间隔端点向量b(s),将wi分布区间分为M个区间段,将落入各个区间的元素
Figure BDA00030818795500000416
映射为量化输出向量v(s)中相应序列的值。b(s)和v(s)共同确定了一套将模型参数w(s)中的元素
Figure BDA00030818795500000417
逐个进行映射的方式,Q(·)代表将模型参数w(s)内部的元素按该方式进行逐个映射的操作,Q(w(s))代表对w(s)进行该操作后得到的模型参数。由于Q(w(s))是通过将内部所有元素进行映射而得到的,所以Q(w(s))中的所有元素都存在于v(s)中。
根据本发明优选的,步骤(4)中,通过Huffman编码方法对量化后的有损模型参数Q(w(s))进行编码,得到模型参数w(s)经压缩后最终传输的二进制码,具体步骤为:
a、根据量化后的模型参数Q(w(s))中的各元素及各元素出现的频率,例如,Q(w(s))为一个包含5个元素的向量(1,1,2,2,2,3),则元素“1”的频率为1/3,元素“2”的频率为1/2,元素“3”的频率为1/6;将元素依概率由大到小排列,编码时从最小的两个元素开始,将两者合并为一项元素,并对较小者标记0,对较大者标记1;
b、根据步骤a更新全体元素,进行新的排列并再次合并最小的两个元素;更新指的是:原有T项,将最小两项合并后视作一项,该项概率权值为原相加两项之和,再对这T-1项依概率再次由大到小排列;
c、重复步骤a和步骤b,直至剩下一项元素的概率为1,从而得到Huffman树;
d、从Huffman树中概率为1的最终节点出发,对于每一个元素,都有且只有一条通路到达代表该元素的叶节点,依次读出路径中标记的二进制序列,则得到该元素的Huffman码,最终将待压缩的模型参数向量压缩为用于实际发送的二进制Huffman编码。Huffman树是一个树结构,当哈夫曼树确定后,从最终的节点出发到达每一个最初的节点的路径都是唯一的,叶节点指的就是各个最初节点,也就是量化后拥有各自出现概率的模型参数Q(w(s))的各个不同的元素。
本发明的有益效果为:
1.本发明针对联邦学习中模型更新时的通信传输场景,提出了一种基于权值分布的通信压缩方法。通过统计被压缩学习模型参数的分布特性,在兼顾学习效率的前提下,节省了通信的开销。
2.本发明利用联邦平均的思想,对于传输的模型参数进行压缩。与现有联邦学习压缩方法相比,由于每次通信之前本地可进行多次本地训练和模型更新,因此节省了大量通信次数。
3.本发明中,使用的Lloyd-Max量化器进行量化,保证了在该标量量化过程中均方量化误差的最小化。
4.本发明中,使用了Huffman编码方式对量化后的模型参数进行编码,由于Huffman编码是完全依据字符出现概率来构造的平均长度最短的码字,因此保证了实际传输的二进制码最短,从而减少了对通信带宽的占用。
附图说明
图1是本发明中联邦学习通信压缩的系统图;
图2为本发明提供的通信压缩方法与传统通信压缩方法中,训练损失随着通信消耗的下降情况对比示意图;
图3为本发明提供的通信压缩方法与传统通信压缩方法中,测试准确率随着通信消耗的上升情况对比示意图。
具体实施方式
下面结合说明书附图和实施例对本发明予以进一步说明,但不限于此。
实施例1
一种联邦学习中基于模型权值分布的通信压缩方法,用于中心式通信系统,如图1所示,所述中心式通信系统包括K个边缘节点和中心服务器,每个边缘节点均与中心服务器相连接;
第k个边缘节点中存储有本地数据
Figure BDA0003081879550000061
在第t个全局模型训练周期中,边缘节点k基于本次迭代周期从中心服务器得到的全局模型wt以及本地数据
Figure BDA0003081879550000062
通过随机梯度下降法训练得到新的的模型参数
Figure BDA0003081879550000063
k的取值为1,2,3,……K,且k为正整数;中心服务器将各个边缘节点更新的本地模型汇总,得出新的全局模型wt+1
边缘节点在整个联邦学习过程中仅与中心服务器进行通信,所述通信压缩方法分别针对中心服务器将从边缘节点汇总后的全局模型广播到边缘节点的过程以及边缘节点将训练得到新的本地模型上传中心服务器的过程;对边缘节点的模型参数w中各个向量参数[w(1),...,w(S)]执行相同的并行操作,w(s),s=1,2,3……S,w(s)表示第s个模型参数,以向量参数w(s)为例,所述通信压缩方法的具体步骤包括:
(1)对待压缩的模型参数w(s)中的元素
Figure BDA0003081879550000064
的分布进行拟合,
Figure BDA0003081879550000065
Figure BDA0003081879550000066
Figure BDA0003081879550000067
表示模型参数w(s)的第i个元素,得到
Figure BDA0003081879550000068
分布的近似概率密度函数ps(w);例如,通过一个卷积神经网络模型进行CIFAR-10数据库的图像分类学习任务,该网络模型包括两个卷积层和三个全连接层,每层都有各自的w和b两个参数,以第一个全连接层的参数w为例,它是一个包含48000个数字的张量,此处写为
Figure BDA0003081879550000069
(2)设定量化区间数目M,通过Lloyd-Max算法,利用概率密度函数ps(w),得到使均方量化误差
Figure BDA00030818795500000610
最小的量化间隔端点向量
Figure BDA00030818795500000611
以及量化输出值向量
Figure BDA00030818795500000612
Figure BDA00030818795500000613
表示量化间隔端点向量的第m个元素;
Figure BDA00030818795500000614
表示第m个量化输出值;本压缩方案的目的是对于w(s),将w(s)中的各个参数[w(1),...,w(S)]分别进行并行压缩;而对于模型参数w(s),需要根据该参数的分布特性,将w(s)中的的每一个参数都需要量化为一个近似值,采用的方法是将模型参数w(s)包含数字范围划分为多个量化间隔,每个间隔内确定一个输出值,使得该间隔内的数字都近似为该输出值;每个量化间隔分别对应一个量化输出值;量化间隔端点向量
Figure BDA0003081879550000071
用于确定各个量化间隔端点,量化输出值向量
Figure BDA0003081879550000072
用于确定量化间隔端点对应的量化输出值;
具体步骤为:
1)取待量化模型参数w(s)中的元素
Figure BDA0003081879550000073
中的最大值为
Figure BDA0003081879550000074
最小值为
Figure BDA0003081879550000075
初始化
Figure BDA0003081879550000076
以及
Figure BDA0003081879550000077
随机设置第一个量化输出值
Figure BDA0003081879550000078
的初始值,且满足
Figure BDA0003081879550000079
2)令m=1,m表示索引;
3)把
Figure BDA00030818795500000710
Figure BDA00030818795500000711
代入式(I):
Figure BDA00030818795500000712
解出
Figure BDA00030818795500000713
4)把
Figure BDA00030818795500000714
Figure BDA00030818795500000715
代入式(II):
Figure BDA00030818795500000716
解出
Figure BDA00030818795500000717
5)令m加1;
6)若m<M,则返回步骤3),否则进入步骤7);
7)经过步骤1)-步骤6)的迭代计算,解出
Figure BDA00030818795500000718
Figure BDA00030818795500000719
中的各元素;将
Figure BDA00030818795500000720
Figure BDA00030818795500000721
进行相减,若两者的差值大于预设门限值,则调整
Figure BDA00030818795500000722
的初始设置值并重复步骤2)到步骤6),解出新的
Figure BDA0003081879550000081
直到
Figure BDA0003081879550000082
Figure BDA0003081879550000083
的差值小于预设门限值,最终得到最优的量化间隔端点向量
Figure BDA0003081879550000084
以及量化输出值向量
Figure BDA0003081879550000085
(3)对模型参数w(s)中的元素
Figure BDA0003081879550000086
逐个进行映射,得到量化后的有损模型参数Q(w(s));当步骤(2)完成后,原模型参数w(s)中的元素被替换为相应近似值,此时的模型参数记为Q(w(s)),Q(·)代表将模型参数内部的元素按步骤(2)方式进行逐个映射的操作,得到的有损模型参数Q(w(s))损失了原模型参数w(s)中的部分信息,这种操作是有损的;
根据模型参数w(s)中的元素
Figure BDA0003081879550000087
的分布ps(w),合理地设训
Figure BDA0003081879550000088
Figure BDA0003081879550000089
b和v确定了一套可以将w(s)中所有数字近似的机制,利用该机制将w(s)映射为Q(w(s))后,即完成了量化部分。整个压缩过程包括此处量化部分和后面的编码部分,量化会损失压缩部分的精度,压缩不会。
具体步骤为:
利用最优量化间隔端点向量b(s),将wi分布区间分为M个区间段,将落入各个区间的元素
Figure BDA00030818795500000810
映射为量化输出向量v(s)中相应序列的值。b(s)和v(s)共同确定了一套将模型参数w(s)中的元素
Figure BDA00030818795500000811
逐个进行映射的方式,Q(·)代表将模型参数w(s)内部的元素按该方式进行逐个映射的操作,Q(w(s))代表对w(s)进行该操作后得到的模型参数。由于Q(w(s))是通过将内部所有元素进行映射而得到的,所以Q(w(s))中的所有元素都存在于v(s)中。
(4)通过Huffman编码方法对量化后的有损模型参数Q(w(s))进行编码,得到模型参数w(s)经压缩后最终传输的二进制码,具体步骤为:
a、根据量化后的模型参数Q(w(s))中的各元素及各元素出现的频率,例如,Q(w(s))为一个包含5个元素的向量(1,1,2,2,2,3),则元素“1”的频率为1/3,元素“2”的频率为1/2,元素“3”的频率为1/6;将元素依概率由大到小排列,编码时从最小的两个元素开始,将两者合并为一项元素,并对较小者标记0,对较大者标记1;
b、根据步骤a更新全体元素,进行新的排列并再次合并最小的两个元素;更新指的是:原有T项,将最小两项合并后视作一项,该项概率权值为原相加两项之和,再对这T-1项依概率再次由大到小排列;
c、重复步骤a和步骤b,直至剩下一项元素的概率为1,从而得到Huffman树;
d、从Huffman树中概率为1的最终节点出发,对于每一个元素,都有且只有一条通路到达代表该元素的叶节点,依次读出路径中标记的二进制序列,则得到该元素的Huffman码,最终将待压缩的模型参数向量压缩为用于实际发送的二进制Huffman编码。Huffman树是一个树结构,当哈夫曼树确定后,从最终的节点出发到达每一个最初的节点的路径都是唯一的,叶节点指的就是各个最初节点,也就是量化后拥有各自出现概率的模型参数Q(w(s))的各个不同的元素。
与现有的联邦学习通信压缩方法相比,本方法建立在联邦平均的思想上,由于每次通信之前本地可进行多次本地训练和模型更新,因此节省了大量通信次数。
量化部分使用的Lloyd-Max算法保证了在该标量量化过程中均方量化误差的最小化。
编码部分使用了Huffman编码方式。由于Huffman编码是完全依据字符出现概率来构造的平均长度最短的码字,因此保证了实际传输的二进制码最短。
本发明基于传输模型场景下的模型参数进行压缩,在每次节点间通信之前,本地节点可以利用梯度信息进行多次本地模型的迭代,从而使得每次通信包含更多模型更新信息。对于模型信息,由于其中各个参数的权值都服从一定分布特性,使用基于模型权值分布的压缩方法可以在最大程度保护精度的前提下减少通信的花销。
在实施例中,各个本地节点使用CNN模型训练图像数据集CIFAR-10中的数据。首先各个边缘节点利用本地数据训练出最优的本地训练模型参数,再聚合到中心服务器进行加权平均;更新后的全局模型参数由服务器广播到各个本地节点,至此一个全局迭代周期结束。在该周期中,聚合和广播两个过程都涉及到了本通信压缩方法。
传统方法包括基于联邦随机梯度下降(交换梯度)的基准算法、Top-k算法、QSGD算法,以及基于联邦平均(交换模型)的基准算法。基准算法是未经压缩的算法。Top-k的思想是每次通信前,仅保留发送梯度中绝对值最大的前某一部分的量,其他数字全部置为0。[S.U.Stich,J.-B.Cordonnier,and M.Jaggi,“Sparsified SGD with memory,”inProc.NeurIPS 2018,Montreal,QC,Canada,Dec.2018,pp.4447–4458.]
QSGD先把参数范围划为多个区间,将参数中每个元素映射到距离最近的区间端点上,再使用Elias编码方法,利用大数出现频率较低的性质减少编码所需比特数。[D.Alistarh,D.Grubic,J.Li,R.Tomioka,and M.Vojnovic,“QSGD:Communication-eficient SGD via gradient quantization and encoding,”in Proc.NIPS 2017,LongBeach,CA,United states,Dec.2017,pp.1710–1721.]
图2为各压缩方案下训练损失随着通信消耗的下降情况对比。横坐标为传输消耗的比特数;纵坐标为训练损失,是使用该训练模型预测出的结果与实际值的差距。量化区间数目M=256。从图2可以看出,在消耗相同通信资源的情况下,本发明所设计的通信压缩方法能比其他方法更快地使系统的训练损失下降。在实际应用中,可以通过调整量化区间数目以在压缩精度和压缩程度之间做平衡。
图3为各压缩方案下测试准确率随着通信消耗的上升情况对比。横坐标为传输消耗的比特数,纵坐标为测试准确率,是使用该训练模型在测试集上预测的成功率。从图3可以看出,在消耗相同资源地情况下,本发明所设计的通信压缩方法能比其他方法更快地提升测试准确率。
由图2和图3可知,本发明所设计的中心式时间同步联邦学习通信压缩方法具有有效提升了系统的通信性价比,在消耗较小通信带宽的情况下更快达到较好的学习效果,颇具实用性。

Claims (4)

1.一种联邦学习中基于模型权值分布的通信压缩方法,其特征在于,用于中心式通信系统,所述中心式通信系统包括K个边缘节点和中心服务器,每个边缘节点均与中心服务器相连接;
边缘节点在整个联邦学习过程中仅与中心服务器进行通信,所述通信压缩方法分别针对中心服务器将从边缘节点汇总后的全局模型广播到边缘节点的过程以及边缘节点将训练得到新的本地模型上传中心服务器的过程;对边缘节点的模型参数w中各个向量参数[w(1),...,w(S)]执行相同的并行操作,w(s),s=1,2,3……S,w(s)表示第s个模型参数,所述通信压缩方法的具体步骤包括:
(1)对待压缩的模型参数w(s)中的元素
Figure FDA0003081879540000011
的分布进行拟合,
Figure FDA0003081879540000012
i=1,2,3……n,
Figure FDA0003081879540000013
表示模型参数w(s)的第i个元素,得到
Figure FDA0003081879540000014
分布的近似概率密度函数ps(w);
(2)设定量化区间数目M,通过Lloyd-Max算法,利用概率密度函数ps(w),得到使均方量化误差
Figure FDA0003081879540000015
最小的量化间隔端点向量
Figure FDA0003081879540000016
以及量化输出值向量
Figure FDA0003081879540000017
Figure FDA0003081879540000018
表示量化间隔端点向量的第m个元素;
Figure FDA0003081879540000019
表示第m个量化输出值;量化间隔端点向量
Figure FDA00030818795400000110
用于确定各个量化间隔端点,量化输出值向量
Figure FDA00030818795400000111
用于确定量化间隔端点对应的量化输出值;
(3)对模型参数w(s)中的元素
Figure FDA00030818795400000112
逐个进行映射,得到量化后的有损模型参数Q(w(s));
(4)通过Huffman编码方法对量化后的有损模型参数Q(w(s))进行编码,得到模型参数w(s)经压缩后最终传输的二进制码。
2.根据权利要求1所述的一种联邦学习中基于模型权值分布的通信压缩方法,其特征在于,步骤(2)中,设定量化区间数目M,通过Lloyd-Max算法,利用概率密度函数ps(w),得到使均方量化误差
Figure FDA00030818795400000113
最小的量化间隔端点向量
Figure FDA00030818795400000114
以及量化输出值向量
Figure FDA00030818795400000115
具体步骤为:
1)取待量化模型参数w(s)中的元素
Figure FDA00030818795400000116
中的最大值为
Figure FDA00030818795400000117
最小值为
Figure FDA00030818795400000118
初始化
Figure FDA00030818795400000119
以及
Figure FDA00030818795400000120
随机设置第一个量化输出值
Figure FDA00030818795400000121
的初始值,且满足
Figure FDA00030818795400000122
2)令m=1,m表示索引;
3)把
Figure FDA0003081879540000021
Figure FDA0003081879540000022
代入式(I):
Figure FDA0003081879540000023
解出
Figure FDA0003081879540000024
4)把
Figure FDA0003081879540000025
Figure FDA0003081879540000026
代入式(II):
Figure FDA0003081879540000027
解出
Figure FDA0003081879540000028
5)令m加1;
6)若m<M,则返回步骤3),否则进入步骤7);
7)经过步骤1)-步骤6)的迭代计算,解出
Figure FDA0003081879540000029
Figure FDA00030818795400000210
中的各元素;将
Figure FDA00030818795400000211
Figure FDA00030818795400000212
进行相减,若两者的差值大于预设门限值,则调整
Figure FDA00030818795400000213
的初始设置值并重复步骤2)到步骤6),解出新的
Figure FDA00030818795400000214
直到
Figure FDA00030818795400000215
Figure FDA00030818795400000216
的差值小于预设门限值,最终得到最优的量化间隔端点向量
Figure FDA00030818795400000217
以及量化输出值向量
Figure FDA00030818795400000218
3.根据权利要求2所述的一种联邦学习中基于模型权值分布的通信压缩方法,其特征在于,步骤(3)中,对模型参数w(s)中的元素
Figure FDA00030818795400000219
逐个进行映射,得到量化后的有损模型参数Q(w(s));具体步骤为:
利用最优量化间隔端点向量b(s),将wi分布区间分为M个区间段,将落入各个区间的元素
Figure FDA0003081879540000031
映射为量化输出向量υ(s)中相应序列的值。
4.根据权利要求1所述的一种联邦学习中基于模型权值分布的通信压缩方法,其特征在于,步骤(4)中,通过Huffman编码方法对量化后的有损模型参数Q(w(s))进行编码,得到模型参数w(s)经压缩后最终传输的二进制码,具体步骤为:
a、根据量化后的模型参数Q(w(s))中的各元素及各元素出现的频率,将元素依概率由大到小排列,编码时从最小的两个元素开始,将两者合并为一项元素,并对较小者标记0,对较大者标记1;
b、根据步骤a更新全体元素,进行新的排列并再次合并最小的两个元素;
c、重复步骤a和步骤b,直至剩下一项元素的概率为1,从而得到Huffman树;
d、从Huffman树中概率为1的最终节点出发,对于每一个元素,都有且只有一条通路到达代表该元素的叶节点,依次读出路径中标记的二进制序列,则得到该元素的Huffman码,最终将待压缩的模型参数向量压缩为用于实际发送的二进制Huffman编码。
CN202110568987.7A 2021-05-25 2021-05-25 一种联邦学习中基于模型权值分布的通信压缩方法 Active CN113258935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110568987.7A CN113258935B (zh) 2021-05-25 2021-05-25 一种联邦学习中基于模型权值分布的通信压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110568987.7A CN113258935B (zh) 2021-05-25 2021-05-25 一种联邦学习中基于模型权值分布的通信压缩方法

Publications (2)

Publication Number Publication Date
CN113258935A CN113258935A (zh) 2021-08-13
CN113258935B true CN113258935B (zh) 2022-03-04

Family

ID=77184180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110568987.7A Active CN113258935B (zh) 2021-05-25 2021-05-25 一种联邦学习中基于模型权值分布的通信压缩方法

Country Status (1)

Country Link
CN (1) CN113258935B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726561A (zh) * 2021-08-18 2021-11-30 西安电子科技大学 利用联邦学习训练卷积神经网络的业务类型识别方法
CN114301573B (zh) * 2021-11-24 2023-05-23 超讯通信股份有限公司 联邦学习模型参数传输方法及系统
CN116227630A (zh) * 2021-12-02 2023-06-06 华为技术有限公司 一种联邦学习方法及相关设备
CN116579438A (zh) * 2022-01-29 2023-08-11 华为技术有限公司 信息处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307372A (zh) * 2011-08-26 2012-01-04 电信科学技术研究院 一种基于Lloyd-Max量化器的数据压缩方法和设备
JP2012060210A (ja) * 2010-09-06 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 適応量子化方法,適応量子化装置および適応量子化プログラム
CN110728350A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 用于机器学习模型的量化
CN110909865A (zh) * 2019-11-18 2020-03-24 福州大学 边缘计算中基于分层张量分解的联邦学习方法
CN111447083A (zh) * 2020-03-10 2020-07-24 中国人民解放军国防科技大学 动态带宽和不可靠网络下的联邦学习架构及其压缩算法
CN111553483A (zh) * 2020-04-30 2020-08-18 同盾控股有限公司 基于梯度压缩的联邦学习的方法、装置及系统
CN111901829A (zh) * 2020-07-10 2020-11-06 江苏智能交通及智能驾驶研究院 基于压缩感知和量化编码的无线联邦学习方法
CN112364913A (zh) * 2020-11-09 2021-02-12 重庆大学 一种基于核心数据集的联邦学习通信量优化方法及系统
CN112424797A (zh) * 2018-05-17 2021-02-26 弗劳恩霍夫应用研究促进协会 神经网络的分布式学习和/或其参数化更新的传输的概念

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089922A1 (en) * 2019-09-24 2021-03-25 Qualcomm Incorporated Joint pruning and quantization scheme for deep neural networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012060210A (ja) * 2010-09-06 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 適応量子化方法,適応量子化装置および適応量子化プログラム
CN102307372A (zh) * 2011-08-26 2012-01-04 电信科学技术研究院 一种基于Lloyd-Max量化器的数据压缩方法和设备
CN112424797A (zh) * 2018-05-17 2021-02-26 弗劳恩霍夫应用研究促进协会 神经网络的分布式学习和/或其参数化更新的传输的概念
CN110728350A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 用于机器学习模型的量化
CN110909865A (zh) * 2019-11-18 2020-03-24 福州大学 边缘计算中基于分层张量分解的联邦学习方法
CN111447083A (zh) * 2020-03-10 2020-07-24 中国人民解放军国防科技大学 动态带宽和不可靠网络下的联邦学习架构及其压缩算法
CN111553483A (zh) * 2020-04-30 2020-08-18 同盾控股有限公司 基于梯度压缩的联邦学习的方法、装置及系统
CN111901829A (zh) * 2020-07-10 2020-11-06 江苏智能交通及智能驾驶研究院 基于压缩感知和量化编码的无线联邦学习方法
CN112364913A (zh) * 2020-11-09 2021-02-12 重庆大学 一种基于核心数据集的联邦学习通信量优化方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Low-Complexity Vector Quantized Compressed Sensing via Deep Neural Networks;Markus Leinonen等;《IEEE Open Journal of the Communications Society》;20200828;全文 *
联邦学习通信开销研究综述;邱鑫源等;《计算机应用》;20210430;全文 *

Also Published As

Publication number Publication date
CN113258935A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113258935B (zh) 一种联邦学习中基于模型权值分布的通信压缩方法
Mills et al. Communication-efficient federated learning for wireless edge intelligence in IoT
CN112714032B (zh) 无线网络协议知识图谱构建分析方法、系统、设备及介质
CN112424797A (zh) 神经网络的分布式学习和/或其参数化更新的传输的概念
US11468370B1 (en) Communication compression method based on model weight distribution in federated learning
WO2018218850A1 (zh) 文件大小异构的分布式编码缓存放置方法及系统
CN112886970B (zh) 一种用于连续变量量子密钥分发的协商方法
CN113595993B (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
Yang et al. Efficient asynchronous federated learning research in the internet of vehicles
CN116910285B (zh) 基于物联网的智慧交通数据优化存储方法
Lungisani et al. Image compression techniques in wireless sensor networks: A survey and comparison
CN107947803A (zh) 一种极化码的快速译码方法
CN113328755A (zh) 一种面向边缘计算的压缩数据传输方法
CN113467949B (zh) 边缘计算环境下用于分布式dnn训练的梯度压缩方法
CN114640356A (zh) 基于神经网络的大数据压缩方法、系统及存储介质
Chen et al. Communication-efficient design for quantized decentralized federated learning
CN113255750B (zh) 一种基于深度学习的vcc车辆攻击检测方法
US8811156B1 (en) Compressing n-dimensional data
Liang et al. Wyner-Ziv gradient compression for federated learning
Beitollahi et al. FLAC: Federated learning with autoencoder compression and convergence guarantee
CN103227644A (zh) 一种针对汽车车身小格式数据的压缩方法
Liu et al. Semantic communications system with model division multiple access and controllable coding rate for point cloud
Chen et al. DNN gradient lossless compression: Can GenNorm be the answer?
Enam et al. An adaptive data aggregation technique for dynamic cluster based wireless sensor networks
CN116303002A (zh) 基于top-k的通信高效联邦学习的异构软件缺陷预测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant