CN113487036A - 机器学习模型的分布式训练方法及装置、电子设备、介质 - Google Patents

机器学习模型的分布式训练方法及装置、电子设备、介质 Download PDF

Info

Publication number
CN113487036A
CN113487036A CN202110704799.2A CN202110704799A CN113487036A CN 113487036 A CN113487036 A CN 113487036A CN 202110704799 A CN202110704799 A CN 202110704799A CN 113487036 A CN113487036 A CN 113487036A
Authority
CN
China
Prior art keywords
gradient
value
key
increment
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110704799.2A
Other languages
English (en)
Other versions
CN113487036B (zh
Inventor
高云君
杨克宇
陈璐
曾志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110704799.2A priority Critical patent/CN113487036B/zh
Publication of CN113487036A publication Critical patent/CN113487036A/zh
Application granted granted Critical
Publication of CN113487036B publication Critical patent/CN113487036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种机器学习模型的分布式训练方法及装置、电子设备、介质,该方法采用梯度键值对表示所述梯度向量中的非零元素;保留绝对值大于设定阈值的所述梯度值;通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;根据所述增量梯度键,得到长度标志位;对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;再将所述压缩的梯度值和梯度键用于节点间传输,降低了各节点传输的梯度数据通信量,进而达到了提升机器学习模型分布式训练效率的技术效果。

Description

机器学习模型的分布式训练方法及装置、电子设备、介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种机器学习模型的分布式训练方法及装置、电子设备、介质。
背景技术
机器学习在现代社会的各个领域有着广阔的应用场景,包括但不限于计算机视觉、自然语言处理、语音识别等。随着以互联网技术和社会的发展,机器学习能使用的数据正以前所未有的速度不断增长和累积,此时单独一台机器往往无法有效地训练模型。因此,分布式机器学习训练成为了行业热点。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
分布式机器学习模型训练通常采用分布式梯度下降,即在分布式环境中使用随机梯度下降法(支持大量机器学习模型进行训练的核心优化方法,需要进行多轮迭代)训练机器学习模型。此时,训练数据集被划分到多台机器(即分布式工作节点)上,每个分布式工作节点都拥有相应的训练数据划分以及完整模型参数的本地副本,每台机器使用本地数据集独立计算本地梯度,并通过网络通信进行梯度交互以及聚合更新。由于随机梯度下降法是一个迭代的过程,整个训练过程会处理很多轮,各个机器之间均需要传输大量的梯度数据,这会产生高额的梯度通信量,带来计算资源利用效率低下、训练时间冗长等问题。
发明内容
本发明实施例的目的是提供一种机器学习模型的分布式训练方法及装置、电子设备、介质,以解决现有机器学习模型对计算资源利用效率低下、训练时间冗长的问题。
根据本申请实施例的第一方面,提供一种机器学习模型的分布式训练方法,应用于子节点,该方法包括:
获取机器学习模型分布式训练过程中产生的梯度向量;
采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留绝对值大于设定阈值的所述梯度值;
通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
根据所述增量梯度键,得到长度标志位;
对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收所述更新后的梯度向量,进行所述机器学习模型更新。
进一步地,还包括:
获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
根据本发明实施例的第二方面,提供一种机器学习模型的分布式训练装置,应用于子节点,该装置包括:
获取模块,用于获取机器学习模型分布式训练过程中产生的梯度向量;
表示模块,用于采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留模块,用于保留绝对值大于设定阈值的所述梯度值;
转化模块,用于通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
对数量化模块,用于将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
保留模块,用于根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
求解模块,用于根据所述增量梯度键,得到长度标志位;
编码模块,用于对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
发送模块,用于将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收训练模块,用于接收所述更新后的梯度向量,进行所述机器学习模型更新。
进一步地,还包括:
迭代训练模块,用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
根据本发明实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;保留绝对值大于设定阈值的所述梯度值;通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;根据所述增量梯度键,得到长度标志位;对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;再将所述压缩的梯度值和梯度键用于节点的传输,可极大的降低了各个机器之间传输的梯度数据通信量,进而达到了提升机器学习模型分布式训练效率的技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的机器学习模型分布式训练架构中主节点与子节点拓扑示意图。
图2是根据一示例性实施例示出的一种机器学习模型的分布式训练方法的流程图。
图3是根据一示例性实施例示出的对数量化方法的流程图。
图4是根据一示例性实施例示出的梯度键压缩的示意图。
图5是根据一示例性实施例示出的一种机器学习模型的分布式训练装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。
图1是根据一示例性实施例示出的机器学习模型分布式训练架构中主节点与子节点拓扑示意图,如图1所示,整个机器学习模型的分布式训练架构由一个主节点和多个子节点组成。
其中,主节点负责解压所有子节点发送的压缩的梯度键和梯度值,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;再将更新后的梯度向量发送给各子节点。
子节点负责根据主节点更新后的梯度向量相应更新机器学习模型,并获取机器学习模型分布式训练过程中产生的梯度向量,再根据本发明设计的梯度压缩方法对梯度向量进行压缩,得到压缩的梯度键和梯度值,将压缩的梯度键和梯度值发送给主节点。
需要说明的是,上述的主节点和子节点从硬件层面来说,可以为一终端,即一般计算机即可。
图2是根据一示例性实施例示出的一种机器学习模型的分布式训练方法的流程图,如图2所示,该方法应用于子节点中,可以包括以下步骤:
步骤S101,获取机器学习模型分布式训练过程中产生的梯度向量;
具体地,子节点获取机器学习模型分布式训练过程中产生的梯度向量
Figure BDA0003131762280000051
其中,Dm为机器学习模型中的参数数量。机器学习模型可以包括线性回归、逻辑斯特回归、支持向量机、神经网络等任何能够通过梯度下降方法从训练数据中学习以改善运行性能的模型。本领域普通技术人员可以理解,在上述模型的训练过程中会产生梯度向量g。
步骤S102,采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
具体地,对于梯度向量g的第j个非零元素,使用键值对(kj,vj)表示其梯度键和梯度值。若梯度向量g中有D个非零元素,则j=1.2,…,D。相应梯度向量g的梯度键值对表示,记为
Figure BDA0003131762280000061
通过此步骤可以用更少的空间来表示梯度向量。
步骤S103,保留绝对值大于设定阈值的所述梯度值;
具体地,比较所设定阈值与各梯度值绝对值的大小关系,若梯度值的大于所设定阈值,则将其保留进行后续操作;否则将其丢弃,不再进行后续操作。若保留的梯度值中有d个元素,则将保留的梯度值记为
Figure BDA0003131762280000062
通过此步骤可以丢弃对机器学习模型训练贡献较低的梯度值。
步骤S104,通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;该步骤包括以下两个子步骤:
步骤S1041,对所述保留的梯度值,进行所有梯度值绝对值的求和;
具体地,对保留的梯度值
Figure BDA0003131762280000063
计算得到所有梯度值绝对值的和
Figure BDA0003131762280000064
步骤S1042,将求得的梯度值绝对值之和除以单个所述保留的梯度值,以得到对应梯度值的梯度倒数值;
具体地,将求得的梯度值绝对值之和
Figure BDA0003131762280000065
除以每个保留的梯度值vj,j=1,2,…,d,以得到对应梯度值的梯度倒数值R(υj),其中倒数映射公式为:
Figure BDA0003131762280000066
通过此步骤可以将梯度值的绝对值统一表示为大于1的数,有利于后续得到量化整数;且可以将梯度值大小顺序转置,即用较小的梯度倒数值表示较大的梯度值,有利于后续用较少的空间压缩较大的梯度值。
步骤S105,将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;该步骤包括以下三个子步骤:
步骤S1051,对所述梯度倒数值,利用给定底数取得对应对数值;
具体地,对于每个梯度倒数值R(υj),j=1,2,…,d,利用给定底数b(b>1)取得对应对数值
Figure BDA0003131762280000071
步骤S1052,通过取上整操作将所述对数值转化为量化整数;
具体地,通过取上整操作将每个梯度倒数值对应的对数值
Figure BDA0003131762280000072
转换为量化整数
Figure BDA0003131762280000073
步骤S1053,若所述梯度倒数值对应的梯度值为负数,则为所述量化整数分配一个负号标记,得到量化整数。
具体地,给定一个梯度倒数值R(vj),若其对应的梯度值vj,则为其对应的量化整数L(vj),得到量化整数L(vj)=-L(vj)。
通过此步骤可以用量化整数表示梯度倒数值,压缩存储空间。
如图2所示,给定底数b=2,以其中第一个梯度倒数值R(v1)=6.1为例,经过步骤S105处理,得到对应对数值
Figure BDA0003131762280000074
步骤S106,根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
具体地,将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键;其中,所述最小的梯度键用本身作为增量梯度键,所述其余梯度键均与前一个梯度键计算差值,得到增量梯度键。特别地,每个梯度键kj被编码为增量梯度键Δkj,具体公式为:
Figure BDA0003131762280000081
通过此步骤可以用较小的增量梯度键表示梯度键,压缩存储空间。
步骤S107,根据所述增量梯度键,得到长度标志位;该步骤包括以下两个子步骤:
步骤S1071,根据所述增量梯度键的最大值,得到各长度标志位的表示范围;
具体地,使用两个比特位表示后续二进制编码的长度,这两个长度标志位提供了四个不同的二进制编码长度状态:分别为1/4、1/2、3/4和1倍的最大增量梯度键对应二进制编码长度。
步骤S1072,根据所述增量梯度键大小以及各长度标志位的表示范围,得到所述增量梯度键对应最小长度的长度标志位。
具体地,根据每个增量梯度键大小以及上述长度标志位表示的四个不同的二进制编码长度状态,得到每个增量梯度键对应最小长度的长度标志位。
通过此步骤使得后续步骤可以用最小长度的二进制编码来压缩增量梯度键。
步骤S108,对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
具体地,每个增量梯度键根据对应长度标志位进行二进制编码,并组合长度标志位和二进制编码得到压缩的梯度键。
通过此步骤可以使用长度标志位和二进制编码压缩梯度键。
图4给出了S106至S108步骤的流程示例,首先,本发明根据S106步骤将保留的梯度值对应的梯度键表示为增量梯度键。图4中给出的例子里增量梯度键的最大值为232,需要8个比特位进行存储。因此,根据S107步骤,得到长度标志位表示的4个二进制编码长度状态分别为2、4、6和8个比特位,对应的增量梯度键大小范围分别为[0,4)、[4,16)、[16,64)和[64,256)。进而得到每个增量梯度键对应最小长度的长度标志位。然后,通过S108步骤,将每个增量梯度键根据对应长度标志位进行二进制编码,并组合长度标志位和二进制编码得到压缩的梯度键。以图4中最后一个梯度键kj=578为例,其首先被编码为增量梯度键Δkj=3;而后对应最小二进制编码长度的长度标志位为“00”,增量梯度键本身被编码为两个比特位的二进制编码“11”;最后,其对应的变长细粒度梯度键编码为“0011”。
步骤S109,将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
具体地,子节点在完成步骤S101至S108对梯度向量的压缩之后,得到压缩的梯度值和梯度键,将其发送给主节点,使得主节点将所有子节点发送的所述压缩的梯度值和梯度键进行基于步骤S101至S108反向操作的解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量。通过此步骤可以使整个机器学习模型的分布式训练架构中利用到压缩后的梯度键和梯度值减少网络通信量。
步骤S110,接收所述更新后的梯度向量,进行所述机器学习模型更新。
具体地,子节点接收主节点发送的更新后的梯度向量,对本地的机器学习模型进行更新。
为了进行迭代式的机器学习模型分布式训练,该方法还可包括:步骤S111,获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复步骤S101-步骤S110,直到所述机器学习模型训练收敛。
与前述的一种机器学习模型的分布式训练方法的实施例相对应,本申请还提供了一种机器学习模型的分布式训练装置的实施例。
图5是根据一示例性实施例示出的一种机器学习模型的分布式训练装置的结构示意图。参照图5,该装置应用于子节点,该装置包括:
获取模块201,用于获取机器学习模型分布式训练过程中产生的梯度向量;
表示模块202,用于采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留模块203,用于保留绝对值大于设定阈值的所述梯度值;
转化模块204,用于通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
对数量化模块205,用于将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
保留模块206,用于根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
求解模块207,用于根据所述增量梯度键,得到长度标志位;
编码模块208,用于对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
发送模块209,用于将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收训练模块210,用于接收所述更新后的梯度向量,进行所述机器学习模型更新。
还可包括:迭代训练模块211,用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的一种机器学习模型的分布式训练方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的一种机器学习模型的分布式训练方法。

Claims (10)

1.一种机器学习模型的分布式训练方法,其特征在于,应用于子节点,该方法包括:
获取机器学习模型分布式训练过程中产生的梯度向量;
采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留绝对值大于设定阈值的所述梯度值;
通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
根据所述增量梯度键,得到长度标志位;
对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收所述更新后的梯度向量,进行所述机器学习模型更新。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
3.根据权利要求1所述的方法,其特征在于,通过倒数映射的方式,将保留的梯度值转化为梯度倒数值,包括:
对所述保留的梯度值,进行所有梯度值绝对值的求和;
将求得的梯度值绝对值之和除以单个所述保留的梯度值,以得到对应梯度值的梯度倒数值。
4.根据权利要求1所述的方法,其特征在于,将所述梯度倒数值进行对数量化,得到梯度量化整数,包括:
对所述梯度倒数值,利用给定底数取得对应对数值;
通过取上整操作将所述对数值转化为量化整数;
若所述梯度倒数值对应的梯度值为负数,则为所述量化整数分配一个负号标记,得到量化整数。
5.根据权利要求1所述的方法,其特征在于,根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键,包括:
将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键,其中所述最小的梯度键用本身作为增量梯度键,所述其余梯度键均与前一个梯度键计算差值,得到增量梯度键。
6.根据权利要求1所述的方法,根据所述增量梯度键,得到长度标志位,包括:
根据所述增量梯度键的最大值,得到各长度标志位的表示范围;
根据所述增量梯度键大小以及各长度标志位的表示范围,得到所述增量梯度键对应最小长度的长度标志位。
7.一种机器学习模型的分布式训练装置,其特征在于,应用于子节点,该装置包括:
获取模块,用于获取机器学习模型分布式训练过程中产生的梯度向量;
表示模块,用于采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留模块,用于保留绝对值大于设定阈值的所述梯度值;
转化模块,用于通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
对数量化模块,用于将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
保留模块,用于根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
求解模块,用于根据所述增量梯度键,得到长度标志位;
编码模块,用于对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
发送模块,用于将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收训练模块,用于接收所述更新后的梯度向量,进行所述机器学习模型更新。
8.根据权利要求7所述的装置,其特征在于,还包括:
迭代训练模块,用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
CN202110704799.2A 2021-06-24 2021-06-24 机器学习模型的分布式训练方法及装置、电子设备、介质 Active CN113487036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704799.2A CN113487036B (zh) 2021-06-24 2021-06-24 机器学习模型的分布式训练方法及装置、电子设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704799.2A CN113487036B (zh) 2021-06-24 2021-06-24 机器学习模型的分布式训练方法及装置、电子设备、介质

Publications (2)

Publication Number Publication Date
CN113487036A true CN113487036A (zh) 2021-10-08
CN113487036B CN113487036B (zh) 2022-06-17

Family

ID=77936126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704799.2A Active CN113487036B (zh) 2021-06-24 2021-06-24 机器学习模型的分布式训练方法及装置、电子设备、介质

Country Status (1)

Country Link
CN (1) CN113487036B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023134065A1 (zh) * 2022-01-14 2023-07-20 平安科技(深圳)有限公司 梯度压缩方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017098581A1 (ja) * 2015-12-08 2017-06-15 株式会社日立製作所 記憶装置、及び、データの誤り訂正方法
CN109002889A (zh) * 2018-07-03 2018-12-14 华南理工大学 自适应迭代式卷积神经网络模型压缩方法
CN109951438A (zh) * 2019-01-15 2019-06-28 中国科学院信息工程研究所 一种分布式深度学习的通信优化方法及系统
US20190213470A1 (en) * 2018-01-09 2019-07-11 NEC Laboratories Europe GmbH Zero injection for distributed deep learning
CN110245753A (zh) * 2019-05-27 2019-09-17 东南大学 一种基于幂指数量化的神经网络压缩方法
CN110533175A (zh) * 2018-05-23 2019-12-03 富士通株式会社 深度学习加速的方法和设备及深度神经网络
CN111382844A (zh) * 2020-03-11 2020-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN111553483A (zh) * 2020-04-30 2020-08-18 同盾控股有限公司 基于梯度压缩的联邦学习的方法、装置及系统
CN112231742A (zh) * 2020-12-14 2021-01-15 支付宝(杭州)信息技术有限公司 基于隐私保护的模型联合训练方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017098581A1 (ja) * 2015-12-08 2017-06-15 株式会社日立製作所 記憶装置、及び、データの誤り訂正方法
US20190213470A1 (en) * 2018-01-09 2019-07-11 NEC Laboratories Europe GmbH Zero injection for distributed deep learning
CN110533175A (zh) * 2018-05-23 2019-12-03 富士通株式会社 深度学习加速的方法和设备及深度神经网络
CN109002889A (zh) * 2018-07-03 2018-12-14 华南理工大学 自适应迭代式卷积神经网络模型压缩方法
CN109951438A (zh) * 2019-01-15 2019-06-28 中国科学院信息工程研究所 一种分布式深度学习的通信优化方法及系统
CN110245753A (zh) * 2019-05-27 2019-09-17 东南大学 一种基于幂指数量化的神经网络压缩方法
CN111382844A (zh) * 2020-03-11 2020-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN111553483A (zh) * 2020-04-30 2020-08-18 同盾控股有限公司 基于梯度压缩的联邦学习的方法、装置及系统
CN112231742A (zh) * 2020-12-14 2021-01-15 支付宝(杭州)信息技术有限公司 基于隐私保护的模型联合训练方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAWEI JIANG 等,: "SKCompress: compressing sparse and nonuniform gradient in distributed machine learning", 《THE VLDB JOURNAL VOLUME》 *
JIAWEI JIANG 等,: "SKCompress: compressing sparse and nonuniform gradient in distributed machine learning", 《THE VLDB JOURNAL VOLUME》, vol. 2020, 1 January 2020 (2020-01-01), pages 945 - 972, XP037222702, DOI: 10.1007/s00778-019-00596-3 *
宋匡时 等,: "一个轻量级分布式机器学习系统的设计与实现", 《计算机工程》 *
宋匡时 等,: "一个轻量级分布式机器学习系统的设计与实现", 《计算机工程》, vol. 46, no. 1, 31 January 2020 (2020-01-31), pages 201 - 207 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023134065A1 (zh) * 2022-01-14 2023-07-20 平安科技(深圳)有限公司 梯度压缩方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113487036B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN109472353B (zh) 一种卷积神经网络量化电路及量化方法
CN111382844B (zh) 一种深度学习模型的训练方法及装置
CN110659734B (zh) 深度可分离卷积结构的低比特量化方法
CN109859281B (zh) 一种稀疏神经网络的压缩编码方法
CN107666370A (zh) 编码方法和设备
CN111641832A (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN110505218B (zh) 基于json的栅格数据自适应压缩传输方法及计算机存储介质
CN112733863B (zh) 一种图像特征提取方法、装置、设备及存储介质
CN113487036B (zh) 机器学习模型的分布式训练方法及装置、电子设备、介质
CN113595993A (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
CN113467949B (zh) 边缘计算环境下用于分布式dnn训练的梯度压缩方法
CN107437976B (zh) 一种数据处理方法及设备
CN112817940B (zh) 基于梯度压缩的联邦学习数据处理系统
Salgia et al. Distributed linear bandits under communication constraints
CN113784125A (zh) 一种点云属性预测方法及其设备
CN110612738A (zh) 广义极化码
CN117353754A (zh) 高斯混合模型信源的编解码方法、系统、设备和介质
CN110808739A (zh) 一种信源符号概率分布未知的二元编码方法及装置
EP4111417A1 (en) Generating quantization tables for image compression
CN111161363A (zh) 一种图像编码模型训练方法及装置
CN114202077A (zh) 基于联邦学习及均值迭代的机器学习模型压缩方法
CN111274950B (zh) 特征向量数据编解码方法及服务器和终端
CN112752290A (zh) 一种无线基站数据流量预测方法和设备
CN112200301B (zh) 卷积计算装置及方法
WO2022217502A1 (zh) 信息处理方法、装置、通信设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant