CN113487036B

CN113487036B - 机器学习模型的分布式训练方法及装置、电子设备、介质

Info

Publication number: CN113487036B
Application number: CN202110704799.2A
Authority: CN
Inventors: 高云君; 杨克宇; 陈璐; 曾志豪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-06-17
Anticipated expiration: 2041-06-24
Also published as: CN113487036A

Abstract

本发明公开了一种机器学习模型的分布式训练方法及装置、电子设备、介质，该方法采用梯度键值对表示所述梯度向量中的非零元素；保留绝对值大于设定阈值的所述梯度值；通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；根据所述增量梯度键，得到长度标志位；对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；再将所述压缩的梯度值和梯度键用于节点间传输，降低了各节点传输的梯度数据通信量，进而达到了提升机器学习模型分布式训练效率的技术效果。

Description

机器学习模型的分布式训练方法及装置、电子设备、介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种机器学习模型的分布式训练方法及装置、电子设备、介质。

背景技术

机器学习在现代社会的各个领域有着广阔的应用场景，包括但不限于计算机视觉、自然语言处理、语音识别等。随着以互联网技术和社会的发展，机器学习能使用的数据正以前所未有的速度不断增长和累积，此时单独一台机器往往无法有效地训练模型。因此，分布式机器学习训练成为了行业热点。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

分布式机器学习模型训练通常采用分布式梯度下降，即在分布式环境中使用随机梯度下降法(支持大量机器学习模型进行训练的核心优化方法，需要进行多轮迭代)训练机器学习模型。此时，训练数据集被划分到多台机器(即分布式工作节点)上，每个分布式工作节点都拥有相应的训练数据划分以及完整模型参数的本地副本，每台机器使用本地数据集独立计算本地梯度，并通过网络通信进行梯度交互以及聚合更新。由于随机梯度下降法是一个迭代的过程，整个训练过程会处理很多轮，各个机器之间均需要传输大量的梯度数据，这会产生高额的梯度通信量，带来计算资源利用效率低下、训练时间冗长等问题。

发明内容

本发明实施例的目的是提供一种机器学习模型的分布式训练方法及装置、电子设备、介质，以解决现有机器学习模型对计算资源利用效率低下、训练时间冗长的问题。

根据本申请实施例的第一方面，提供一种机器学习模型的分布式训练方法，应用于子节点，该方法包括：

获取机器学习模型分布式训练过程中产生的梯度向量；

采用梯度键值对表示所述梯度向量中的非零元素，所述梯度键值对包括梯度键和梯度值；

保留绝对值大于设定阈值的所述梯度值；

通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；

将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；

根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；

根据所述增量梯度键，得到长度标志位；

对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；

将所述压缩的梯度值和梯度键发送给主节点，以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量；

接收所述更新后的梯度向量，进行所述机器学习模型更新。

进一步地，还包括：

获取更新后的机器学习模型分布式训练过程中产生的梯度向量，重复分布式训练，直到所述机器学习模型训练收敛。

根据本发明实施例的第二方面，提供一种机器学习模型的分布式训练装置，应用于子节点，该装置包括：

获取模块，用于获取机器学习模型分布式训练过程中产生的梯度向量；

表示模块，用于采用梯度键值对表示所述梯度向量中的非零元素，所述梯度键值对包括梯度键和梯度值；

保留模块，用于保留绝对值大于设定阈值的所述梯度值；

转化模块，用于通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；

对数量化模块，用于将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；

保留模块，用于根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；

求解模块，用于根据所述增量梯度键，得到长度标志位；

编码模块，用于对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；

发送模块，用于将所述压缩的梯度值和梯度键发送给主节点，以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量；

接收训练模块，用于接收所述更新后的梯度向量，进行所述机器学习模型更新。

进一步地，还包括：

迭代训练模块，用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量，重复分布式训练，直到所述机器学习模型训练收敛。

根据本发明实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请采用梯度键值对表示所述梯度向量中的非零元素，所述梯度键值对包括梯度键和梯度值；保留绝对值大于设定阈值的所述梯度值；通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；根据所述增量梯度键，得到长度标志位；对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；再将所述压缩的梯度值和梯度键用于节点的传输，可极大的降低了各个机器之间传输的梯度数据通信量，进而达到了提升机器学习模型分布式训练效率的技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的机器学习模型分布式训练架构中主节点与子节点拓扑示意图。

图2是根据一示例性实施例示出的一种机器学习模型的分布式训练方法的流程图。

图3是根据一示例性实施例示出的对数量化方法的流程图。

图4是根据一示例性实施例示出的梯度键压缩的示意图。

图5是根据一示例性实施例示出的一种机器学习模型的分布式训练装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。

图1是根据一示例性实施例示出的机器学习模型分布式训练架构中主节点与子节点拓扑示意图，如图1所示，整个机器学习模型的分布式训练架构由一个主节点和多个子节点组成。

其中，主节点负责解压所有子节点发送的压缩的梯度键和梯度值，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量；再将更新后的梯度向量发送给各子节点。

子节点负责根据主节点更新后的梯度向量相应更新机器学习模型，并获取机器学习模型分布式训练过程中产生的梯度向量，再根据本发明设计的梯度压缩方法对梯度向量进行压缩，得到压缩的梯度键和梯度值，将压缩的梯度键和梯度值发送给主节点。

需要说明的是，上述的主节点和子节点从硬件层面来说，可以为一终端，即一般计算机即可。

图2是根据一示例性实施例示出的一种机器学习模型的分布式训练方法的流程图，如图2所示，该方法应用于子节点中，可以包括以下步骤：

步骤S101，获取机器学习模型分布式训练过程中产生的梯度向量；

具体地，子节点获取机器学习模型分布式训练过程中产生的梯度向量

其中，D_m为机器学习模型中的参数数量。机器学习模型可以包括线性回归、逻辑斯特回归、支持向量机、神经网络等任何能够通过梯度下降方法从训练数据中学习以改善运行性能的模型。本领域普通技术人员可以理解，在上述模型的训练过程中会产生梯度向量g。

步骤S102，采用梯度键值对表示所述梯度向量中的非零元素，所述梯度键值对包括梯度键和梯度值；

具体地，对于梯度向量g的第j个非零元素，使用键值对(k_j，v_j)表示其梯度键和梯度值。若梯度向量g中有D个非零元素，则j＝1，2，…，D。相应梯度向量g的梯度键值对表示，记为

通过此步骤可以用更少的空间来表示梯度向量。

步骤S103，保留绝对值大于设定阈值的所述梯度值；

具体地，比较所设定阈值与各梯度值绝对值的大小关系，若梯度值的大于所设定阈值，则将其保留进行后续操作；否则将其丢弃，不再进行后续操作。若保留的梯度值中有d个元素，则将保留的梯度值记为

通过此步骤可以丢弃对机器学习模型训练贡献较低的梯度值。

步骤S104，通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；该步骤包括以下两个子步骤：

步骤S1041，对所述保留的梯度值，进行所有梯度值绝对值的求和；

具体地，对保留的梯度值

计算得到所有梯度值绝对值的和

步骤S1042，将求得的梯度值绝对值之和除以单个所述保留的梯度值，以得到对应梯度值的梯度倒数值；

具体地，将求得的梯度值绝对值之和

除以每个保留的梯度值v_j，j＝1，2，…，d，以得到对应梯度值的梯度倒数值R(v_j)，其中倒数映射公式为：

通过此步骤可以将梯度值的绝对值统一表示为大于1的数，有利于后续得到量化整数；且可以将梯度值大小顺序转置，即用较小的梯度倒数值表示较大的梯度值，有利于后续用较少的空间压缩较大的梯度值。

步骤S105，将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；该步骤包括以下三个子步骤：

步骤S1051，对所述梯度倒数值，利用给定底数取得对应对数值；

具体地，对于每个梯度倒数值R(v_j)，j＝1，2，…，d，利用给定底数b(b＞1)取得对应对数值

步骤S1052，通过取上整操作将所述对数值转化为量化整数；

具体地，通过取上整操作将每个梯度倒数值对应的对数值

转换为量化整数

步骤S1053，若所述梯度倒数值对应的梯度值为负数，则为所述量化整数分配一个负号标记，得到量化整数。

具体地，给定一个梯度倒数值R(v_j)，若其对应的梯度值v_j，则为其对应的量化整数L(v_j)，得到量化整数L(v_j)＝--L(v_j)。

通过此步骤可以用量化整数表示梯度倒数值，压缩存储空间。

如图2所示，给定底数b＝2，以其中第一个梯度倒数值R(v₁)＝6.1为例，经过步骤S105处理，得到对应对数值

步骤S106，根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；

具体地，将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键；其中，所述最小的梯度键用本身作为增量梯度键，所述其余梯度键均与前一个梯度键计算差值，得到增量梯度键。特别地，每个梯度键k_j被编码为增量梯度键Δk_j，具体公式为：

通过此步骤可以用较小的增量梯度键表示梯度键，压缩存储空间。

步骤S107，根据所述增量梯度键，得到长度标志位；该步骤包括以下两个子步骤：

步骤S1071，根据所述增量梯度键的最大值，得到各长度标志位的表示范围；

具体地，使用两个比特位表示后续二进制编码的长度，这两个长度标志位提供了四个不同的二进制编码长度状态：分别为1/4、1/2、3/4和1倍的最大增量梯度键对应二进制编码长度。

步骤S1072，根据所述增量梯度键大小以及各长度标志位的表示范围，得到所述增量梯度键对应最小长度的长度标志位。

具体地，根据每个增量梯度键大小以及上述长度标志位表示的四个不同的二进制编码长度状态，得到每个增量梯度键对应最小长度的长度标志位。

通过此步骤使得后续步骤可以用最小长度的二进制编码来压缩增量梯度键。

步骤S108，对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；

具体地，每个增量梯度键根据对应长度标志位进行二进制编码，并组合长度标志位和二进制编码得到压缩的梯度键。

通过此步骤可以使用长度标志位和二进制编码压缩梯度键。

图4给出了S106至S108步骤的流程示例，首先，本发明根据S106步骤将保留的梯度值对应的梯度键表示为增量梯度键。图4中给出的例子里增量梯度键的最大值为232，需要8个比特位进行存储。因此，根据S107步骤，得到长度标志位表示的4个二进制编码长度状态分别为2、4、6和8个比特位，对应的增量梯度键大小范围分别为[0，4)、[4，16)、[16，64)和[64，256)。进而得到每个增量梯度键对应最小长度的长度标志位。然后，通过S108步骤，将每个增量梯度键根据对应长度标志位进行二进制编码，并组合长度标志位和二进制编码得到压缩的梯度键。以图4中最后一个梯度键k_j＝578为例，其首先被编码为增量梯度键Δk_j＝3；而后对应最小二进制编码长度的长度标志位为“00”，增量梯度键本身被编码为两个比特位的二进制编码“11”；最后，其对应的变长细粒度梯度键编码为“0011”。

步骤S109，将所述压缩的梯度值和梯度键发送给主节点，以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量；

具体地，子节点在完成步骤S101至S108对梯度向量的压缩之后，得到压缩的梯度值和梯度键，将其发送给主节点，使得主节点将所有子节点发送的所述压缩的梯度值和梯度键进行基于步骤S101至S108反向操作的解压，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量。通过此步骤可以使整个机器学习模型的分布式训练架构中利用到压缩后的梯度键和梯度值减少网络通信量。

步骤S110，接收所述更新后的梯度向量，进行所述机器学习模型更新。

具体地，子节点接收主节点发送的更新后的梯度向量，对本地的机器学习模型进行更新。

为了进行迭代式的机器学习模型分布式训练，该方法还可包括：步骤S111，获取更新后的机器学习模型分布式训练过程中产生的梯度向量，重复步骤S101-步骤S110，直到所述机器学习模型训练收敛。

与前述的一种机器学习模型的分布式训练方法的实施例相对应，本申请还提供了一种机器学习模型的分布式训练装置的实施例。

图5是根据一示例性实施例示出的一种机器学习模型的分布式训练装置的结构示意图。参照图5，该装置应用于子节点，该装置包括：

获取模块201，用于获取机器学习模型分布式训练过程中产生的梯度向量；

表示模块202，用于采用梯度键值对表示所述梯度向量中的非零元素，所述梯度键值对包括梯度键和梯度值；

保留模块203，用于保留绝对值大于设定阈值的所述梯度值；

转化模块204，用于通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；

对数量化模块205，用于将所述梯度倒数值进行对数量化，得到梯度量化整数，作为压缩的梯度值；

保留模块206，用于根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键；

求解模块207，用于根据所述增量梯度键，得到长度标志位；

编码模块208，用于对所述增量梯度键根据对应长度标志位进行二进制编码，组合长度标志位和二进制编码得到压缩的梯度键；

发送模块209，用于将所述压缩的梯度值和梯度键发送给主节点，以使得所述主节点将所有子节点发送的所述压缩的梯度值和梯度键进行解压，并将解压后的梯度值和梯度键进行聚合，得到更新后的梯度向量；

接收训练模块210，用于接收所述更新后的梯度向量，进行所述机器学习模型更新。

还可包括：迭代训练模块211，用于获取更新后的机器学习模型分布式训练过程中产生的梯度向量，重复分布式训练，直到所述机器学习模型训练收敛。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的一种机器学习模型的分布式训练方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的一种机器学习模型的分布式训练方法。

Claims

1.一种机器学习模型的分布式训练方法，其特征在于，应用于子节点，该方法包括：

获取机器学习模型分布式训练过程中产生的梯度向量；

保留绝对值大于设定阈值的所述梯度值；

通过倒数映射的方式，将保留的梯度值转化为梯度倒数值；

根据所述增量梯度键，得到长度标志位；

接收所述更新后的梯度向量，进行所述机器学习模型更新;

其中通过倒数映射的方式，将保留的梯度值转化为梯度倒数值，包括：

对所述保留的梯度值，进行所有梯度值绝对值的求和；

将求得的梯度值绝对值之和除以单个所述保留的梯度值，以得到对应梯度值的梯度倒数值；

将所述梯度倒数值进行对数量化，得到梯度量化整数，包括：

对所述梯度倒数值，利用给定底数取得对应对数值；

通过取上整操作将所述对数值转化为量化整数；

若所述梯度倒数值对应的梯度值为负数，则为所述量化整数分配一个负号标记，得到量化整数；

根据保留的梯度值对应的梯度键求相邻梯度键的增量，获得增量梯度键，包括：

将保留的梯度值对应的梯度键分为最小的梯度键和其余梯度键，其中所述最小的梯度键用本身作为增量梯度键，所述其余梯度键均与前一个梯度键计算差值，得到增量梯度键；

根据所述增量梯度键，得到长度标志位，包括：

根据所述增量梯度键的最大值，得到各长度标志位的表示范围；

根据所述增量梯度键大小以及各长度标志位的表示范围，得到所述增量梯度键对应最小长度的长度标志位。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.一种机器学习模型的分布式训练装置，其特征在于，应用于子节点，该装置包括：

保留模块，用于保留绝对值大于设定阈值的所述梯度值；

求解模块，用于根据所述增量梯度键，得到长度标志位；

接收训练模块，用于接收所述更新后的梯度向量，进行所述机器学习模型更新；

对所述保留的梯度值，进行所有梯度值绝对值的求和；

对所述梯度倒数值，利用给定底数取得对应对数值；

通过取上整操作将所述对数值转化为量化整数；

根据所述增量梯度键，得到长度标志位，包括：

4.根据权利要求3所述的装置，其特征在于，还包括：

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-2任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-2中任一项所述方法的步骤。