CN113487036B - 机器学习模型的分布式训练方法及装置、电子设备、介质 - Google Patents
机器学习模型的分布式训练方法及装置、电子设备、介质 Download PDFInfo
- Publication number
- CN113487036B CN113487036B CN202110704799.2A CN202110704799A CN113487036B CN 113487036 B CN113487036 B CN 113487036B CN 202110704799 A CN202110704799 A CN 202110704799A CN 113487036 B CN113487036 B CN 113487036B
- Authority
- CN
- China
- Prior art keywords
- gradient
- value
- key
- increment
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 64
- 238000010801 machine learning Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000013139 quantization Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 230000000717 retained effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种机器学习模型的分布式训练方法及装置、电子设备、介质,该方法采用梯度键值对表示所述梯度向量中的非零元素;保留绝对值大于设定阈值的所述梯度值;通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;根据所述增量梯度键,得到长度标志位;对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;再将所述压缩的梯度值和梯度键用于节点间传输,降低了各节点传输的梯度数据通信量,进而达到了提升机器学习模型分布式训练效率的技术效果。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种机器学习模型的分布式训练方法及装置、电子设备、介质。
背景技术
机器学习在现代社会的各个领域有着广阔的应用场景,包括但不限于计算机视觉、自然语言处理、语音识别等。随着以互联网技术和社会的发展,机器学习能使用的数据正以前所未有的速度不断增长和累积,此时单独一台机器往往无法有效地训练模型。因此,分布式机器学习训练成为了行业热点。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
分布式机器学习模型训练通常采用分布式梯度下降,即在分布式环境中使用随机梯度下降法(支持大量机器学习模型进行训练的核心优化方法,需要进行多轮迭代)训练机器学习模型。此时,训练数据集被划分到多台机器(即分布式工作节点)上,每个分布式工作节点都拥有相应的训练数据划分以及完整模型参数的本地副本,每台机器使用本地数据集独立计算本地梯度,并通过网络通信进行梯度交互以及聚合更新。由于随机梯度下降法是一个迭代的过程,整个训练过程会处理很多轮,各个机器之间均需要传输大量的梯度数据,这会产生高额的梯度通信量,带来计算资源利用效率低下、训练时间冗长等问题。
发明内容
本发明实施例的目的是提供一种机器学习模型的分布式训练方法及装置、电子设备、介质,以解决现有机器学习模型对计算资源利用效率低下、训练时间冗长的问题。
根据本申请实施例的第一方面,提供一种机器学习模型的分布式训练方法,应用于子节点,该方法包括:
获取机器学习模型分布式训练过程中产生的梯度向量;
采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留绝对值大于设定阈值的所述梯度值;
通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
根据所述增量梯度键,得到长度标志位;
对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收所述更新后的梯度向量,进行所述机器学习模型更新。
进一步地,还包括:
获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
根据本发明实施例的第二方面,提供一种机器学习模型的分布式训练装置,应用于子节点,该装置包括:
获取模块,用于获取机器学习模型分布式训练过程中产生的梯度向量;
表示模块,用于采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留模块,用于保留绝对值大于设定阈值的所述梯度值;
转化模块,用于通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
对数量化模块,用于将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
保留模块,用于根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
求解模块,用于根据所述增量梯度键,得到长度标志位;
编码模块,用于对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
发送模块,用于将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收训练模块,用于接收所述更新后的梯度向量,进行所述机器学习模型更新。
进一步地,还包括:
迭代训练模块,用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
根据本发明实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;保留绝对值大于设定阈值的所述梯度值;通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;根据所述增量梯度键,得到长度标志位;对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;再将所述压缩的梯度值和梯度键用于节点的传输,可极大的降低了各个机器之间传输的梯度数据通信量,进而达到了提升机器学习模型分布式训练效率的技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的机器学习模型分布式训练架构中主节点与子节点拓扑示意图。
图2是根据一示例性实施例示出的一种机器学习模型的分布式训练方法的流程图。
图3是根据一示例性实施例示出的对数量化方法的流程图。
图4是根据一示例性实施例示出的梯度键压缩的示意图。
图5是根据一示例性实施例示出的一种机器学习模型的分布式训练装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。
图1是根据一示例性实施例示出的机器学习模型分布式训练架构中主节点与子节点拓扑示意图,如图1所示,整个机器学习模型的分布式训练架构由一个主节点和多个子节点组成。
其中,主节点负责解压所有子节点发送的压缩的梯度键和梯度值,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;再将更新后的梯度向量发送给各子节点。
子节点负责根据主节点更新后的梯度向量相应更新机器学习模型,并获取机器学习模型分布式训练过程中产生的梯度向量,再根据本发明设计的梯度压缩方法对梯度向量进行压缩,得到压缩的梯度键和梯度值,将压缩的梯度键和梯度值发送给主节点。
需要说明的是,上述的主节点和子节点从硬件层面来说,可以为一终端,即一般计算机即可。
图2是根据一示例性实施例示出的一种机器学习模型的分布式训练方法的流程图,如图2所示,该方法应用于子节点中,可以包括以下步骤:
步骤S101,获取机器学习模型分布式训练过程中产生的梯度向量;
具体地,子节点获取机器学习模型分布式训练过程中产生的梯度向量其中,Dm为机器学习模型中的参数数量。机器学习模型可以包括线性回归、逻辑斯特回归、支持向量机、神经网络等任何能够通过梯度下降方法从训练数据中学习以改善运行性能的模型。本领域普通技术人员可以理解,在上述模型的训练过程中会产生梯度向量g。
步骤S102,采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
具体地,对于梯度向量g的第j个非零元素,使用键值对(kj,vj)表示其梯度键和梯度值。若梯度向量g中有D个非零元素,则j=1,2,…,D。相应梯度向量g的梯度键值对表示,记为通过此步骤可以用更少的空间来表示梯度向量。
步骤S103,保留绝对值大于设定阈值的所述梯度值;
具体地,比较所设定阈值与各梯度值绝对值的大小关系,若梯度值的大于所设定阈值,则将其保留进行后续操作;否则将其丢弃,不再进行后续操作。若保留的梯度值中有d个元素,则将保留的梯度值记为通过此步骤可以丢弃对机器学习模型训练贡献较低的梯度值。
步骤S104,通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;该步骤包括以下两个子步骤:
步骤S1041,对所述保留的梯度值,进行所有梯度值绝对值的求和;
步骤S1042,将求得的梯度值绝对值之和除以单个所述保留的梯度值,以得到对应梯度值的梯度倒数值;
通过此步骤可以将梯度值的绝对值统一表示为大于1的数,有利于后续得到量化整数;且可以将梯度值大小顺序转置,即用较小的梯度倒数值表示较大的梯度值,有利于后续用较少的空间压缩较大的梯度值。
步骤S105,将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;该步骤包括以下三个子步骤:
步骤S1051,对所述梯度倒数值,利用给定底数取得对应对数值;
步骤S1052,通过取上整操作将所述对数值转化为量化整数;
步骤S1053,若所述梯度倒数值对应的梯度值为负数,则为所述量化整数分配一个负号标记,得到量化整数。
具体地,给定一个梯度倒数值R(vj),若其对应的梯度值vj,则为其对应的量化整数L(vj),得到量化整数L(vj)=--L(vj)。
通过此步骤可以用量化整数表示梯度倒数值,压缩存储空间。
步骤S106,根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
具体地,将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键;其中,所述最小的梯度键用本身作为增量梯度键,所述其余梯度键均与前一个梯度键计算差值,得到增量梯度键。特别地,每个梯度键kj被编码为增量梯度键Δkj,具体公式为:
通过此步骤可以用较小的增量梯度键表示梯度键,压缩存储空间。
步骤S107,根据所述增量梯度键,得到长度标志位;该步骤包括以下两个子步骤:
步骤S1071,根据所述增量梯度键的最大值,得到各长度标志位的表示范围;
具体地,使用两个比特位表示后续二进制编码的长度,这两个长度标志位提供了四个不同的二进制编码长度状态:分别为1/4、1/2、3/4和1倍的最大增量梯度键对应二进制编码长度。
步骤S1072,根据所述增量梯度键大小以及各长度标志位的表示范围,得到所述增量梯度键对应最小长度的长度标志位。
具体地,根据每个增量梯度键大小以及上述长度标志位表示的四个不同的二进制编码长度状态,得到每个增量梯度键对应最小长度的长度标志位。
通过此步骤使得后续步骤可以用最小长度的二进制编码来压缩增量梯度键。
步骤S108,对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
具体地,每个增量梯度键根据对应长度标志位进行二进制编码,并组合长度标志位和二进制编码得到压缩的梯度键。
通过此步骤可以使用长度标志位和二进制编码压缩梯度键。
图4给出了S106至S108步骤的流程示例,首先,本发明根据S106步骤将保留的梯度值对应的梯度键表示为增量梯度键。图4中给出的例子里增量梯度键的最大值为232,需要8个比特位进行存储。因此,根据S107步骤,得到长度标志位表示的4个二进制编码长度状态分别为2、4、6和8个比特位,对应的增量梯度键大小范围分别为[0,4)、[4,16)、[16,64)和[64,256)。进而得到每个增量梯度键对应最小长度的长度标志位。然后,通过S108步骤,将每个增量梯度键根据对应长度标志位进行二进制编码,并组合长度标志位和二进制编码得到压缩的梯度键。以图4中最后一个梯度键kj=578为例,其首先被编码为增量梯度键Δkj=3;而后对应最小二进制编码长度的长度标志位为“00”,增量梯度键本身被编码为两个比特位的二进制编码“11”;最后,其对应的变长细粒度梯度键编码为“0011”。
步骤S109,将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
具体地,子节点在完成步骤S101至S108对梯度向量的压缩之后,得到压缩的梯度值和梯度键,将其发送给主节点,使得主节点将所有子节点发送的所述压缩的梯度值和梯度键进行基于步骤S101至S108反向操作的解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量。通过此步骤可以使整个机器学习模型的分布式训练架构中利用到压缩后的梯度键和梯度值减少网络通信量。
步骤S110,接收所述更新后的梯度向量,进行所述机器学习模型更新。
具体地,子节点接收主节点发送的更新后的梯度向量,对本地的机器学习模型进行更新。
为了进行迭代式的机器学习模型分布式训练,该方法还可包括:步骤S111,获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复步骤S101-步骤S110,直到所述机器学习模型训练收敛。
与前述的一种机器学习模型的分布式训练方法的实施例相对应,本申请还提供了一种机器学习模型的分布式训练装置的实施例。
图5是根据一示例性实施例示出的一种机器学习模型的分布式训练装置的结构示意图。参照图5,该装置应用于子节点,该装置包括:
获取模块201,用于获取机器学习模型分布式训练过程中产生的梯度向量;
表示模块202,用于采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留模块203,用于保留绝对值大于设定阈值的所述梯度值;
转化模块204,用于通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
对数量化模块205,用于将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
保留模块206,用于根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
求解模块207,用于根据所述增量梯度键,得到长度标志位;
编码模块208,用于对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
发送模块209,用于将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收训练模块210,用于接收所述更新后的梯度向量,进行所述机器学习模型更新。
还可包括:迭代训练模块211,用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的一种机器学习模型的分布式训练方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的一种机器学习模型的分布式训练方法。
Claims (6)
1.一种机器学习模型的分布式训练方法,其特征在于,应用于子节点,该方法包括:
获取机器学习模型分布式训练过程中产生的梯度向量;
采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留绝对值大于设定阈值的所述梯度值;
通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
根据所述增量梯度键,得到长度标志位;
对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收所述更新后的梯度向量,进行所述机器学习模型更新;
其中通过倒数映射的方式,将保留的梯度值转化为梯度倒数值,包括:
对所述保留的梯度值,进行所有梯度值绝对值的求和;
将求得的梯度值绝对值之和除以单个所述保留的梯度值,以得到对应梯度值的梯度倒数值;
将所述梯度倒数值进行对数量化,得到梯度量化整数,包括:
对所述梯度倒数值,利用给定底数取得对应对数值;
通过取上整操作将所述对数值转化为量化整数;
若所述梯度倒数值对应的梯度值为负数,则为所述量化整数分配一个负号标记,得到量化整数;
根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键,包括:
将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键,其中所述最小的梯度键用本身作为增量梯度键,所述其余梯度键均与前一个梯度键计算差值,得到增量梯度键;
根据所述增量梯度键,得到长度标志位,包括:
根据所述增量梯度键的最大值,得到各长度标志位的表示范围;
根据所述增量梯度键大小以及各长度标志位的表示范围,得到所述增量梯度键对应最小长度的长度标志位。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
3.一种机器学习模型的分布式训练装置,其特征在于,应用于子节点,该装置包括:
获取模块,用于获取机器学习模型分布式训练过程中产生的梯度向量;
表示模块,用于采用梯度键值对表示所述梯度向量中的非零元素,所述梯度键值对包括梯度键和梯度值;
保留模块,用于保留绝对值大于设定阈值的所述梯度值;
转化模块,用于通过倒数映射的方式,将保留的梯度值转化为梯度倒数值;
对数量化模块,用于将所述梯度倒数值进行对数量化,得到梯度量化整数,作为压缩的梯度值;
保留模块,用于根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键;
求解模块,用于根据所述增量梯度键,得到长度标志位;
编码模块,用于对所述增量梯度键根据对应长度标志位进行二进制编码,组合长度标志位和二进制编码得到压缩的梯度键;
发送模块,用于将所述压缩的梯度值和梯度键发送给主节点,以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压,并将解压后的梯度值和梯度键进行聚合,得到更新后的梯度向量;
接收训练模块,用于接收所述更新后的梯度向量,进行所述机器学习模型更新;
其中通过倒数映射的方式,将保留的梯度值转化为梯度倒数值,包括:
对所述保留的梯度值,进行所有梯度值绝对值的求和;
将求得的梯度值绝对值之和除以单个所述保留的梯度值,以得到对应梯度值的梯度倒数值;
将所述梯度倒数值进行对数量化,得到梯度量化整数,包括:
对所述梯度倒数值,利用给定底数取得对应对数值;
通过取上整操作将所述对数值转化为量化整数;
若所述梯度倒数值对应的梯度值为负数,则为所述量化整数分配一个负号标记,得到量化整数;
根据保留的梯度值对应的梯度键求相邻梯度键的增量,获得增量梯度键,包括:
将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键,其中所述最小的梯度键用本身作为增量梯度键,所述其余梯度键均与前一个梯度键计算差值,得到增量梯度键;
根据所述增量梯度键,得到长度标志位,包括:
根据所述增量梯度键的最大值,得到各长度标志位的表示范围;
根据所述增量梯度键大小以及各长度标志位的表示范围,得到所述增量梯度键对应最小长度的长度标志位。
4.根据权利要求3所述的装置,其特征在于,还包括:
迭代训练模块,用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量,重复分布式训练,直到所述机器学习模型训练收敛。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-2任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-2中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110704799.2A CN113487036B (zh) | 2021-06-24 | 2021-06-24 | 机器学习模型的分布式训练方法及装置、电子设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110704799.2A CN113487036B (zh) | 2021-06-24 | 2021-06-24 | 机器学习模型的分布式训练方法及装置、电子设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113487036A CN113487036A (zh) | 2021-10-08 |
CN113487036B true CN113487036B (zh) | 2022-06-17 |
Family
ID=77936126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110704799.2A Active CN113487036B (zh) | 2021-06-24 | 2021-06-24 | 机器学习模型的分布式训练方法及装置、电子设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487036B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386622A (zh) * | 2022-01-14 | 2022-04-22 | 平安科技(深圳)有限公司 | 梯度压缩方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017098581A1 (ja) * | 2015-12-08 | 2017-06-15 | 株式会社日立製作所 | 記憶装置、及び、データの誤り訂正方法 |
CN109951438A (zh) * | 2019-01-15 | 2019-06-28 | 中国科学院信息工程研究所 | 一种分布式深度学习的通信优化方法及系统 |
CN110533175A (zh) * | 2018-05-23 | 2019-12-03 | 富士通株式会社 | 深度学习加速的方法和设备及深度神经网络 |
CN112231742A (zh) * | 2020-12-14 | 2021-01-15 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的模型联合训练方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190213470A1 (en) * | 2018-01-09 | 2019-07-11 | NEC Laboratories Europe GmbH | Zero injection for distributed deep learning |
CN109002889B (zh) * | 2018-07-03 | 2021-12-17 | 华南理工大学 | 自适应迭代式卷积神经网络模型压缩方法 |
CN110245753A (zh) * | 2019-05-27 | 2019-09-17 | 东南大学 | 一种基于幂指数量化的神经网络压缩方法 |
CN111382844B (zh) * | 2020-03-11 | 2023-07-07 | 华南师范大学 | 一种深度学习模型的训练方法及装置 |
CN111553483B (zh) * | 2020-04-30 | 2024-03-29 | 同盾控股有限公司 | 基于梯度压缩的联邦学习的方法、装置及系统 |
-
2021
- 2021-06-24 CN CN202110704799.2A patent/CN113487036B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017098581A1 (ja) * | 2015-12-08 | 2017-06-15 | 株式会社日立製作所 | 記憶装置、及び、データの誤り訂正方法 |
CN110533175A (zh) * | 2018-05-23 | 2019-12-03 | 富士通株式会社 | 深度学习加速的方法和设备及深度神经网络 |
CN109951438A (zh) * | 2019-01-15 | 2019-06-28 | 中国科学院信息工程研究所 | 一种分布式深度学习的通信优化方法及系统 |
CN112231742A (zh) * | 2020-12-14 | 2021-01-15 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的模型联合训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
SKCompress: compressing sparse and nonuniform gradient in distributed machine learning;Jiawei Jiang 等,;《The VLDB Journal volume》;20200101;第2020年卷;第945-972页 * |
一个轻量级分布式机器学习系统的设计与实现;宋匡时 等,;《计算机工程》;20200131;第46卷(第1期);第201-207页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113487036A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105656604B (zh) | 一种比特交织极化编码调制方法及装置 | |
CN111382844B (zh) | 一种深度学习模型的训练方法及装置 | |
CN107666370A (zh) | 编码方法和设备 | |
CN107565973B (zh) | 一种结点可扩展的哈夫曼编码的实现方法及电路结构 | |
CN110505218B (zh) | 基于json的栅格数据自适应压缩传输方法及计算机存储介质 | |
CN112817940B (zh) | 基于梯度压缩的联邦学习数据处理系统 | |
CN112733863B (zh) | 一种图像特征提取方法、装置、设备及存储介质 | |
CN113487036B (zh) | 机器学习模型的分布式训练方法及装置、电子设备、介质 | |
CN113467949B (zh) | 边缘计算环境下用于分布式dnn训练的梯度压缩方法 | |
CN107437976B (zh) | 一种数据处理方法及设备 | |
WO2022110691A1 (zh) | 编码方法、译码方法、电子设备及存储介质 | |
CN104065460A (zh) | 基于二叉树的编码方法和编码装置 | |
CN113784125A (zh) | 一种点云属性预测方法及其设备 | |
CN110612738A (zh) | 广义极化码 | |
CN110808739A (zh) | 一种信源符号概率分布未知的二元编码方法及装置 | |
CN117353754A (zh) | 高斯混合模型信源的编解码方法、系统、设备和介质 | |
CN111274950A (zh) | 特征向量数据编解码方法及服务器和终端 | |
WO2021063218A1 (zh) | 一种图像信号处理方法及装置 | |
CN114202077A (zh) | 基于联邦学习及均值迭代的机器学习模型压缩方法 | |
CN112752290A (zh) | 一种无线基站数据流量预测方法和设备 | |
CN112217521A (zh) | 一种基于gzip的大文件分布式压缩方法 | |
Prakash et al. | An Evaluation of Arithmetic and Huffman Coding in Data Compression & Source Coding | |
CN115529104B (zh) | 基于最大互信息的极化码量化译码方法及装置 | |
CN114142869A (zh) | 一种杰林码纠错的检错性能提升方法、系统、设备及介质 | |
Iman et al. | Study the Effect of Noise on Compressed Images Used in Smart Application Based on JPEG Standard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |