CN113315604A - 一种联邦学习自适应梯度量化方法 - Google Patents

一种联邦学习自适应梯度量化方法 Download PDF

Info

Publication number
CN113315604A
CN113315604A CN202110574087.3A CN202110574087A CN113315604A CN 113315604 A CN113315604 A CN 113315604A CN 202110574087 A CN202110574087 A CN 202110574087A CN 113315604 A CN113315604 A CN 113315604A
Authority
CN
China
Prior art keywords
gradient
quantization
local
training
working node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110574087.3A
Other languages
English (en)
Other versions
CN113315604B (zh
Inventor
范晨昱
吴昊
章小宁
李永耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110574087.3A priority Critical patent/CN113315604B/zh
Publication of CN113315604A publication Critical patent/CN113315604A/zh
Application granted granted Critical
Publication of CN113315604B publication Critical patent/CN113315604B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0006Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/06Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种联邦学习自适应梯度量化方法,初始化各工作节点的训练样本和本地模型,利用训练样本训练本地模型,得到局部梯度,并根据各工作节点得到的量化等级对局部梯度进行量化;将局部梯度上传至参数服务器进行梯度聚合,并将聚合结果传输回各工作节点;各工作节点利用量化后的聚合梯度对本地模型参数进行更新;判断迭代轮数是否满足预设间隔时间阈值,若满足则广播各工作节点链路状态,及时调整自身量化等级,否则进入迭代训练过程,直至达到预设条件,结束训练;本发明根据节点链路的实时带宽自适应地调整梯度的量化比特,有效缓解straggler问题,在完成传统量化方法降低通信开销任务基础上,提升了带宽资源利用率,完成更高效的联邦学习训练。

Description

一种联邦学习自适应梯度量化方法
技术领域
本发明涉及梯度量化技术领域,具体涉及一种联邦学习自适应梯度量化方法。
背景技术
由于数据量和模型规模的不断扩大,传统机器学习无法满足应用需求,于是分布式机器学习成为主流。为了完成多机的协作,节点间的通信必不可少。但是随着模型、神经网络的规模越来越大,每次要传输的参数量也非常庞大,导致通信的时间可能会过长,甚至因为加长的通信时间抵消掉由并行节约下来的计算时间。因此如何降低通信代价成为了分布式机器学习领域一个被广泛研究的课题。异步随机梯度下降、模型的压缩和稀疏化、梯度的量化和稀疏化都是可以有效缓解分布式机器学习通信瓶颈的方法。
近年来有不少梯度量化的方法被提出。比如1-bit SGD量化算法将32bit浮点数的梯度积极地量化为了1bit,并在某些特定场景中获得了十倍的训练加速。但因为其量化过程是逐列进行的,每列量化梯度都需要一对浮点数的标量同时传输,所以1-bit SGD算法无法在卷积神经网络(CNN,Convolutional Neural Network)中获得速度增益。另外,该算法采用“冷启动”的方式,需要进行24小时不并行不量化的预训练,来为后续的1-bit量化取得一个良好的初始点。并且遗憾的是该算法的收敛性目前还没有理论上的证明。DoReFa-Net是从AlexNet中衍生出的量化算法,将权重、激活和梯度的位宽分别降低为1、2和6比特,但在单机的实验显示其损失了9.8%的训练精度。Gupta等人使用16比特定点数的梯度成功地在MNIST和CIFAR-10数据集上训练了深度神经网络(DNN,Deep Neural Network)。在意识到梯度量化并不一定总能让模型收敛后,Alistarsh等人提出了一种随机量化算法QSGD(Quantized Stochastic Gradient Descent),该算法在凸和非凸问题上都有理论的收敛性保证。QSGD在ImageNet上获得了1.8倍的速度增益。同时期的TernGrad使用了类似于QSGD的随机量化思想,将梯度量化为{-1,0,1},并且引入了逐层三值化和梯度剪裁的方法来提升训练精度,最终将AlexNet的Top-1精度提升了0.92%。
上述梯度量化算法在一些特定的场景中都体现出了良好的加速效果,但是都是固定精度的量化算法,在联邦学习(FL,Federated Learning)中还是有一些局限性。联邦学习是在保证数据隐私安全及合法合规的基础上,对分散的边缘设备上的数据进行分析的一种分布式机器学习框架。由于边缘设备的通信技术多种多样,包括Wi-Fi、5G、Road Side Unit(RSU)等,导致联邦学习的网络是异构且动态的,客户端之间的网络状态可能有很大的差距,甚至达到十倍以上。在所需的全局模型规模较大的情况下,网络带宽限制和工作节点数量会加剧联邦学习的通信瓶颈,从而减慢整体的训练进程,异构且动态的网络会造成客户端设备掉队/退出的问题(Straggler Problem)。此时如果采用统一精度的梯度量化算法,会导致快慢节点之间的通信时间相差很大,快节点等待慢节点完成参数同步的过程中会造成大量计算资源和通信资源的浪费,这加剧了straggler问题。同时对于链路状态好的节点,如果和链路状态差的节点一样使用低精度的量化梯度,也会使最终训练的模型精度有所下降。
另外,Faghri等人提出了两种自适应的QSGD算法,ALQ和AMQ,旨在通过调整梯度压缩时的量化等级,以降低单个工作节点上梯度间的方差,从而加速训练,提高模型精度。但是该研究考虑的是一般分布式机器学习的场景,而本发明考虑的是联邦学习的场景。相比一般DML,联邦学习的通信技术多种多样,具有更强的网络异构性,因此不同于上述研究使用梯度间的方差来调整量化等级,我们通过实时的链路状态来调整量化等级来保证各节点的通信时间大体相同。在联邦学习的场景中,ALQ和AMQ无法平衡各节点的通信时间,从而无法应对在该场景中更加严重的straggler问题,造成计算和通信资源的浪费,而本发明则可以很好的缓解该问题。
发明内容
针对现有技术中的上述不足,本发明提供了一种自适应的梯度量化方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种联邦学习自适应梯度量化方法,包括以下步骤:
S1、初始化各工作节点训练样本、本地模型;
S2、各工作节点向其余工作节点广播自身对应的链路带宽,并利用全局最小的链路带宽计算各节点对应量化等级;
S3、根据步骤S1中训练样本,采用随机梯度下降算法训练本地模型,得到局部梯度,并根据步骤S2得到的量化等级对局部梯度进行量化;
S4、将步骤S2量化后的局部梯度上传参数服务器进行梯度聚合,并将得到的聚合梯度传输回各个工作节点;
S5、接收到参数服务器回传的聚合梯度后进行本地模型参数更新;
S6、判断迭代轮数是否满足预设条件,若满足则结束训练,否则进入步骤S7;
S7、判断迭代轮数是否满足预设间隔时间阈值,若满足则返回步骤S2,否则返回步骤S3。
该方案的有益效果为:
提出了一种为联邦学习系统设计的自适应梯度量化,可以根据节点链路的实时带宽自适应地调整梯度的量化比特,在降低了通信代价的同时,可以获得更高的本地模型精度,取得了更好的通信代价与本地模型精度的平衡,同时因为量化比特的调整,可以控制不同节点的通信时间大体相同,从而有效缓解straggler问题,并在理论上保持收敛性,在完成传统量化降低通信开销任务基础上,从总体上提高了带宽资源的利用率,完成了更加高效的联邦学习训练。
进一步地,所述步骤S2具体包括以下分步骤:
S21、利用步骤S1中最小的节点链路带宽计算单个量化梯度所需要的比特数,表示为:
Figure BDA0003083643410000041
其中,Bworst为带宽最小的节点链路带宽,bmin为最小的量化比特,k为工作节点,Bk为链路带宽,bk为单个量化梯度所需要的比特数;
S22、利用步骤S21中单个量化梯度所需要的比特数bk计算对应量化等级sk,表示为:
Figure BDA0003083643410000042
其中,
Figure BDA0003083643410000043
为上舍入运算。
该进一步方案的有益效果为:
不同节点可以根据自身的链路状态使用不同的量化等级sk,用不同的比特数表示量化梯度,使得不同工作节点的通信时间大致相同,从而有效地缓解了straggler问题,避免了计算资源和通信资源的浪费。
进一步地,所述步骤S3具体包括以下分步骤:
S31、根据步骤S1中训练样本,采用随机梯度下降算法训练本地模型,计算本地模型的损失函数;
S32、根据步骤S31得到的本地模型的损失函数利用反向传播计算局部梯度,表示为:
Figure BDA0003083643410000051
其中,gk为工作节点k的局部梯度,L(.)为损失函数,
Figure BDA0003083643410000052
为梯度求导,wk为当前本地模型参数,zk为当前训练使用的训练样本;
S33、利用步骤S32中局部梯度对应的量化等级对局部梯度进行量化,量化过程Qs(gi)表示为:
Qs(gi)=||g||p·sign(gi)·ξi(g,s)
其中,gi为梯度向量g中第i个分量,||·||p为l-p范数,sign()为符号函数,ξi(g,s)为随机变量,s为量化等级。
该进一步方案的有益效果为:
完成对本地模型的训练,并通过局部梯度对应的量化等级对局部梯度进行量化。
进一步地,所述步骤S33中随机变量ξi(g,s)表示为:
Figure BDA0003083643410000061
其中,l为整数,P(.)为概率计算函数,|gi|为梯度向量g中第i个分量的绝对值。
该进一步方案的有益效果为:
对上述随机量化过程中原始梯度进行无偏估计,有良好的收敛性保证。
进一步地,所述概率计算函数P(.)表示为:
Figure BDA0003083643410000062
该进一步方案的有益效果为:
计算随机量化过程中量化概率。
进一步地,所述步骤S3中梯度聚合表示为:
Figure BDA0003083643410000063
其中,
Figure BDA0003083643410000064
为聚合梯度,N为工作节点的数量,k为工作节点,
Figure BDA0003083643410000065
为工作节点k量化后的局部梯度。
该进一步方案的有益效果为:
为不同工作节点选择不同的量化等级,充分利用有限的带宽资源并缓解了straggler问题。
进一步地,所述步骤S4中本地模型参数更新过程表示为:
Figure BDA0003083643410000071
其中,t为迭代轮数,wt+1为更新后的本地模型参数,wt为更新前的本地模型参数,η为学习率,
Figure BDA0003083643410000072
为第t轮迭代的聚合梯度。
该进一步方案的有益效果为:
对普通机器学习中本地模型参数进行更新。
附图说明
图1为本发明提供的一种自适应的梯度量化方法的整体流程示意图;
图2为本发明在分布式机器学习中使用的参数服务器构架示意图;
图3为步骤S2的分步骤流程示意图;
图4为步骤S3的分步骤流程示意图;
图5为随机量化过程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1、图2所示,本发明提供一种自适应的梯度量化方法,包括以下步骤S1至步骤S7:
S1、初始化各工作节点训练样本、本地模型;
本实施例中,初始化各个工作节点从参数服务器中获取的数据分片以及本地模型,其中,将数据分片作为训练样本。
S2、各工作节点向其余工作节点广播自身对应的链路带宽,并利用全局最小的链路带宽计算各节点对应量化等级;
如图3所示,步骤S2具体包括以下分步骤:
S21、利用步骤S1中最小的节点链路带宽计算单个量化梯度所需要的比特数,表示为:
Figure BDA0003083643410000081
其中,Bworst为带宽最小的节点链路带宽,bmin为最小的量化比特,k为工作节点,Bk为链路带宽,bk为单个量化梯度所需要的比特数;
S22、利用步骤S21中单个量化梯度所需要的比特数bk计算对应量化等级sk,表示为:
Figure BDA0003083643410000082
其中,
Figure BDA0003083643410000083
为上舍入运算。
实际中,对于不同的量化等级来说,可以通过两个参数来调整表示梯度需要的bit数:①当l-p范数中非负整数p固定时,量化等级s越大,那么量化间隔1/s越小,则量化精度越高;②当量化等级s固定时,可以通过l-p范数中非整数p来调整量化后梯度的稀疏程度,如量化后梯度在非负整数p=2时会比非负整数p=∞有更大的可能取到0,而更稀疏的梯度通过调整编码方式可以降低最终的bit量。因此在本方案中,在链路带宽过低的时候取非负整数p=2,以便进行稀疏化的编码或其他处理,从而进一步降低传输的数据量;如果不是链路带宽过低地情况,则为了让梯度更加均匀地分布取非负整数p=∞,以降低精度地损失。
并以带宽最小的节点链路Bworst为基准,让其使用最小的量化比特bmin,其中每个工作节点单轮传输的数据量相同,不考虑传播的时延,对于任意一个链路带宽Bk的工作节点k,反解得到该工作节点表示单个量化梯度所需要的比特数bk
S3、根据步骤S1中训练样本,采用随机梯度下降算法训练本地模型,得到局部梯度,并根据步骤S2得到的量化等级对局部梯度进行量化;
本实施例中,各个工作节点根据步骤S1中的训练样本,采用随机梯度下降SGD(Stochastic Gradient Descent)算法完成本地模型训练,计算出损失函数(LossFunction)值,并利用该损失函数值完成反向传播计算,得到局部梯度,并利用局部梯度自身的量化等级进行量化。
如图4所示,步骤S3具体包括以下分步骤:
S31、根据步骤S1中训练样本,采用随机梯度下降算法训练本地模型,计算本地模型的损失函数;
S32、根据步骤S31得到的本地模型的损失函数利用反向传播计算局部梯度,表示为:
Figure BDA0003083643410000101
其中,gk为工作节点k的局部梯度,L(.)为损失函数,
Figure BDA0003083643410000102
为梯度求导,wk为当前本地模型参数,zk为当前训练使用的训练样本;
S33、利用步骤S32中局部梯度对应的量化等级对局部梯度进行量化,量化过程Qs(gi)表示为:
Qs(gi)=||g||p·sign(gi)·ξi(g,s)
其中,gi为梯度向量g中第i个分量,||·||p为l-p范数,sign()为符号函数,ξi(g,s)为随机变量,s为量化等级。
实际中,对于工作节点k,假定该工作节点k量化等级为sk,任意梯度向量g属于n维向量Rn,且不包括零向量0。
本实施例中,随机变量ξi(g,s)表示为:
Figure BDA0003083643410000103
其中,l为整数,满足0≤l≤s,|gi|为梯度向量g中第i个分量的绝对值,且
Figure BDA0003083643410000111
其中
Figure BDA0003083643410000112
为梯度值归一化去符号后的量化区间。
本实施例中,P(.)为概率计算函数,表示为:
Figure BDA0003083643410000113
其中,
Figure BDA0003083643410000114
为梯度值归一化去符号后的量化区间,且对于任意的
Figure BDA0003083643410000115
Figure BDA0003083643410000116
实际中,如图5所示,在量化等级s=4的情况下,将0到1区间范围划分为{0,0.25,0.5,0.75,1}5个量化值,间隔为0.25。假设原始梯度在归一化去符号后为0.6,在0.5和0.75之间,那么它只能被随机量化为这两个值之中的某一个,概率由0.6和这两个点之间的距离决定,距离越近概率越大。根据上述量化过程容易计算出,该归一化去符号的梯度值被量化为0.5的概率Pb[Q=0.5]=0.6,被量化为0.75的概率Pb[Q=0.75]=0.4。
S4、将步骤S2量化后的局部梯度上传参数服务器进行梯度聚合,并将得到的聚合梯度传输回各个工作节点,梯度聚合表示为:
Figure BDA0003083643410000117
其中,
Figure BDA0003083643410000118
为聚合梯度,N为工作节点的数量,k为工作节点,
Figure BDA0003083643410000119
为工作节点k量化后的局部梯度;
S5、接收到参数服务器回传的聚合梯度后进行本地模型参数更新,参数更新过程表示为:
Figure BDA0003083643410000121
其中,t为迭代轮数,wt+1为更新后的本地模型参数,wt为更新前的本地模型参数,η为学习率,
Figure BDA0003083643410000122
为第t轮迭代的聚合梯度;
S6、判断迭代轮数是否满足预设条件,若满足则结束训练,否则进入步骤S7;
本实施例中,判断迭代轮数t是否满足训练轮数达到上限或损失函数的值达到预设阈值,一般设置该阈值为0.001,若满足则训练结束,否则进入步骤S6。
S7、判断迭代轮数是否满足预设间隔时间阈值,若满足则返回步骤S2,否则返回步骤S3。
本实施中,判断迭代轮数t是否满足预设间隔时间阈值,一般设置迭代轮数达到100轮,若满足该阈值条件则返回步骤S2广播各个工作节点的链路状态,以供各工作节点及时根据链路带宽调整自身的量化等级sk,否则返回步骤S3进行本地模型训练。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (7)

1.一种联邦学习自适应梯度量化方法,其特征在于,包括以下步骤:
S1、初始化各工作节点训练样本、本地模型;
S2、各工作节点向其余工作节点广播自身对应的链路带宽,并利用全局最小的链路带宽计算各节点对应量化等级;
S3、根据步骤S1中训练样本,采用随机梯度下降算法训练本地模型,得到局部梯度,并根据步骤S2得到的量化等级对局部梯度进行量化;
S4、将步骤S2量化后的局部梯度上传参数服务器进行梯度聚合,并将得到的聚合梯度传输回各个工作节点;
S5、接收到参数服务器回传的聚合梯度后进行本地模型参数更新;
S6、判断迭代轮数是否满足预设条件,若满足则结束训练,否则进入步骤S7;
S7、判断迭代轮数是否满足预设间隔时间阈值,若满足则返回步骤S2,否则返回步骤S3。
2.根据权利要求1所述的一种联邦学习自适应梯度量化方法,其特征在于,所述步骤S2具体包括以下分步骤:
S21、利用步骤S1中最小的节点链路带宽计算单个量化梯度所需要的比特数,表示为:
Figure FDA0003083643400000011
其中,Bworst为带宽最小的节点链路带宽,bmin为最小的量化比特,k为工作节点,Bk为链路带宽,bk为单个量化梯度所需要的比特数;
S22、利用步骤S21中单个量化梯度所需要的比特数bk计算对应量化等级sk,表示为:
Figure FDA0003083643400000021
其中,
Figure FDA0003083643400000022
为上舍入运算。
3.根据权利要求1所述的一种联邦学习自适应梯度量化方法,其特征在于,所述步骤S3具体包括以下分步骤:
S31、根据步骤S1中训练样本,采用随机梯度下降算法训练本地模型,计算本地模型的损失函数;
S32、根据步骤S31得到的本地模型的损失函数利用反向传播计算局部梯度,表示为:
Figure FDA0003083643400000023
其中,gk为工作节点k的局部梯度,L(.)为损失函数,
Figure FDA0003083643400000024
为梯度求导,wk为当前本地模型参数,zk为当前训练使用的训练样本;
S33、利用步骤S32中局部梯度对应的量化等级对局部梯度进行量化,量化过程Qs(gi)表示为:
Qs(gi)=||g||p·sign(gi)·ξi(g,s)
其中,gi为梯度向量g中第i个分量,||·||p为l-p范数,sign()为符号函数,ξi(g,s)为随机变量,s为量化等级。
4.根据权利要求3所述的一种联邦学习自适应梯度量化方法,其特征在于,所述步骤S33中随机变量ξi(g,s)表示为:
Figure FDA0003083643400000031
其中,l为整数,P(.)为概率计算函数,|gi|为梯度向量g中第i个分量的绝对值。
5.根据权利要求4所述的一种联邦学习自适应梯度量化方法,其特征在于,所述概率计算函数P(.)表示为:
Figure FDA0003083643400000032
6.根据权利要求1所述的一种联邦学习自适应梯度量化方法,其特征在于,所述步骤S4中梯度聚合表示为:
Figure FDA0003083643400000033
其中,
Figure FDA0003083643400000034
为聚合梯度,N为工作节点的数量,k为工作节点,
Figure FDA0003083643400000035
为工作节点k量化后的局部梯度。
7.根据权利要求1所述的一种联邦学习自适应梯度量化方法,其特征在于,所述步骤S5中本地模型参数更新过程表示为:
Figure FDA0003083643400000041
其中,t为迭代轮数,wt+1为更新后的本地模型参数,wt为更新前的本地模型参数,η为学习率,
Figure FDA0003083643400000042
为第t轮迭代的聚合梯度。
CN202110574087.3A 2021-05-25 2021-05-25 一种联邦学习自适应梯度量化方法 Expired - Fee Related CN113315604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110574087.3A CN113315604B (zh) 2021-05-25 2021-05-25 一种联邦学习自适应梯度量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110574087.3A CN113315604B (zh) 2021-05-25 2021-05-25 一种联邦学习自适应梯度量化方法

Publications (2)

Publication Number Publication Date
CN113315604A true CN113315604A (zh) 2021-08-27
CN113315604B CN113315604B (zh) 2022-06-03

Family

ID=77374677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110574087.3A Expired - Fee Related CN113315604B (zh) 2021-05-25 2021-05-25 一种联邦学习自适应梯度量化方法

Country Status (1)

Country Link
CN (1) CN113315604B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118381A (zh) * 2021-12-03 2022-03-01 中国人民解放军国防科技大学 基于自适应聚合稀疏通信的学习方法、装置、设备及介质
CN114154392A (zh) * 2021-10-15 2022-03-08 海南火链科技有限公司 基于区块链和联邦学习的模型共建方法、装置及设备
CN114301573A (zh) * 2021-11-24 2022-04-08 超讯通信股份有限公司 联邦学习模型参数传输方法及系统
CN114422605A (zh) * 2022-01-12 2022-04-29 重庆邮电大学 一种基于联邦学习的通信梯度自适应压缩方法
CN114462090A (zh) * 2022-02-18 2022-05-10 北京邮电大学 一种针对联邦学习中差分隐私预算计算的收紧方法
CN114510911A (zh) * 2022-02-16 2022-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114629797A (zh) * 2022-03-11 2022-06-14 阿里巴巴(中国)有限公司 带宽预测方法、模型生成方法及设备
CN114710415A (zh) * 2022-05-23 2022-07-05 北京理工大学 一种冗余编码的无源消息可靠传输与处理系统
CN115086437A (zh) * 2022-06-15 2022-09-20 中国科学技术大学苏州高等研究院 基于分簇和xdp技术的梯度聚合加速方法和装置
CN115103031A (zh) * 2022-06-20 2022-09-23 西南交通大学 一种多级量化以及自适应调整方法
CN115174397A (zh) * 2022-07-28 2022-10-11 河海大学 联合梯度量化与带宽分配的联邦边缘学习训练方法及系统
CN116016212A (zh) * 2022-12-26 2023-04-25 电子科技大学 一种带宽感知的去中心化联邦学习方法及装置
WO2023098546A1 (zh) * 2021-12-02 2023-06-08 华为技术有限公司 一种联邦学习方法及相关设备
CN117997906A (zh) * 2024-03-29 2024-05-07 广东琴智科技研究院有限公司 节点计算资源分配方法、网络交换子系统及智能计算平台
CN118101501A (zh) * 2024-04-23 2024-05-28 山东大学 一种工业物联网异构联邦学习的通信方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088789A (zh) * 2011-03-03 2011-06-08 北京航空航天大学 用于无线通信的信道信息反馈自适应传输和带宽分配方法
CN109189825A (zh) * 2018-08-10 2019-01-11 深圳前海微众银行股份有限公司 横向数据切分联邦学习建模方法、服务器及介质
CN110728350A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 用于机器学习模型的量化
CN111580970A (zh) * 2020-05-07 2020-08-25 电子科技大学 一种联邦学习的模型分发与聚合的传输调度方法
WO2021022707A1 (zh) * 2019-08-06 2021-02-11 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088789A (zh) * 2011-03-03 2011-06-08 北京航空航天大学 用于无线通信的信道信息反馈自适应传输和带宽分配方法
CN110728350A (zh) * 2018-06-29 2020-01-24 微软技术许可有限责任公司 用于机器学习模型的量化
CN109189825A (zh) * 2018-08-10 2019-01-11 深圳前海微众银行股份有限公司 横向数据切分联邦学习建模方法、服务器及介质
WO2021022707A1 (zh) * 2019-08-06 2021-02-11 深圳前海微众银行股份有限公司 一种混合联邦学习方法及架构
CN111580970A (zh) * 2020-05-07 2020-08-25 电子科技大学 一种联邦学习的模型分发与聚合的传输调度方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RUI CHEN等: ""To Talk or toWork: Energy Efficient Federated Learning over Mobile Devices via theWeight Quantization and 5G Transmission Co-Design"", 《NETWORKING AND INTERNET ARCHITECTURE》 *
RUI CHEN等: ""To Talk or toWork: Energy Efficient Federated Learning over Mobile Devices via theWeight Quantization and 5G Transmission Co-Design"", 《NETWORKING AND INTERNET ARCHITECTURE》, 21 December 2020 (2020-12-21) *
邱鑫源等: ""联邦学习通信开销研究综述"", 《计算机应用》 *
邱鑫源等: ""联邦学习通信开销研究综述"", 《计算机应用》, 30 April 2021 (2021-04-30), pages 334 - 340 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154392A (zh) * 2021-10-15 2022-03-08 海南火链科技有限公司 基于区块链和联邦学习的模型共建方法、装置及设备
CN114301573A (zh) * 2021-11-24 2022-04-08 超讯通信股份有限公司 联邦学习模型参数传输方法及系统
WO2023098546A1 (zh) * 2021-12-02 2023-06-08 华为技术有限公司 一种联邦学习方法及相关设备
CN114118381A (zh) * 2021-12-03 2022-03-01 中国人民解放军国防科技大学 基于自适应聚合稀疏通信的学习方法、装置、设备及介质
CN114118381B (zh) * 2021-12-03 2024-02-02 中国人民解放军国防科技大学 基于自适应聚合稀疏通信的学习方法、装置、设备及介质
CN114422605A (zh) * 2022-01-12 2022-04-29 重庆邮电大学 一种基于联邦学习的通信梯度自适应压缩方法
CN114510911A (zh) * 2022-02-16 2022-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114510911B (zh) * 2022-02-16 2024-07-12 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114462090A (zh) * 2022-02-18 2022-05-10 北京邮电大学 一种针对联邦学习中差分隐私预算计算的收紧方法
CN114462090B (zh) * 2022-02-18 2023-06-27 北京邮电大学 一种针对联邦学习中差分隐私预算计算的收紧方法
CN114629797A (zh) * 2022-03-11 2022-06-14 阿里巴巴(中国)有限公司 带宽预测方法、模型生成方法及设备
CN114629797B (zh) * 2022-03-11 2024-03-08 阿里巴巴(中国)有限公司 带宽预测方法、模型生成方法及设备
CN114710415B (zh) * 2022-05-23 2022-08-12 北京理工大学 一种冗余编码的无源消息可靠传输与处理系统
CN114710415A (zh) * 2022-05-23 2022-07-05 北京理工大学 一种冗余编码的无源消息可靠传输与处理系统
CN115086437A (zh) * 2022-06-15 2022-09-20 中国科学技术大学苏州高等研究院 基于分簇和xdp技术的梯度聚合加速方法和装置
CN115086437B (zh) * 2022-06-15 2023-08-22 中国科学技术大学苏州高等研究院 基于分簇和xdp技术的梯度聚合加速方法和装置
CN115103031A (zh) * 2022-06-20 2022-09-23 西南交通大学 一种多级量化以及自适应调整方法
CN115103031B (zh) * 2022-06-20 2023-07-14 西南交通大学 一种多级量化以及自适应调整方法
CN115174397B (zh) * 2022-07-28 2023-10-13 河海大学 联合梯度量化与带宽分配的联邦边缘学习训练方法及系统
CN115174397A (zh) * 2022-07-28 2022-10-11 河海大学 联合梯度量化与带宽分配的联邦边缘学习训练方法及系统
CN116016212B (zh) * 2022-12-26 2024-06-04 电子科技大学 一种带宽感知的去中心化联邦学习方法及装置
CN116016212A (zh) * 2022-12-26 2023-04-25 电子科技大学 一种带宽感知的去中心化联邦学习方法及装置
CN117997906A (zh) * 2024-03-29 2024-05-07 广东琴智科技研究院有限公司 节点计算资源分配方法、网络交换子系统及智能计算平台
CN117997906B (zh) * 2024-03-29 2024-06-11 广东琴智科技研究院有限公司 节点计算资源分配方法、网络交换子系统及智能计算平台
CN118101501A (zh) * 2024-04-23 2024-05-28 山东大学 一种工业物联网异构联邦学习的通信方法和系统

Also Published As

Publication number Publication date
CN113315604B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN113315604B (zh) 一种联邦学习自适应梯度量化方法
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN111401552B (zh) 基于调整批量大小与梯度压缩率的联邦学习方法和系统
Chen et al. LAG: Lazily aggregated gradient for communication-efficient distributed learning
CN111091199B (zh) 一种基于差分隐私的联邦学习方法、装置及存储介质
CN109472353B (zh) 一种卷积神经网络量化电路及量化方法
CN112839382B (zh) 一种车联网中视频语义驱动的通信和计算资源联合分配方法
US11785073B2 (en) Systems and methods for communication efficient distributed mean estimation
Elbir et al. A hybrid architecture for federated and centralized learning
CN111898484A (zh) 生成模型的方法、装置、可读存储介质及电子设备
Deng et al. Adaptive federated learning with negative inner product aggregation
KR102153192B1 (ko) 시뮬레이션-가이드된 반복적 프루닝을 사용하는 효율적인 네트워크 압축
CN115374853A (zh) 基于T-Step聚合算法的异步联邦学习方法及系统
CN110795235A (zh) 一种移动web深度学习协作的方法及系统
Qiao et al. Communication-efficient federated learning with dual-side low-rank compression
CN112104867A (zh) 一种视频处理方法、视频处理装置、智能设备及存储介质
CN117648994A (zh) 一种基于无监督学习的高效异构纵向联邦学习方法
Chen et al. Communication-efficient design for quantized decentralized federated learning
CN113128682B (zh) 神经网络模型自动适配方法和装置
US20230396783A1 (en) Data processing method and apparatus, device, and readable storage medium
CN112738225B (zh) 基于人工智能的边缘计算方法
CN114925829A (zh) 一种神经网络训练方法、装置、电子设备及存储介质
CN114116052A (zh) 一种边缘计算方法及装置
CN114548421A (zh) 一种针对联邦学习通信开销的优化处理方法及装置
Wu et al. ASTC: An adaptive gradient compression scheme for communication-efficient edge computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220603