CN113642736A

CN113642736A - 基于冷热分离的梯度聚合方法与系统

Info

Publication number: CN113642736A
Application number: CN202110861852.XA
Authority: CN
Inventors: 潘恒; 崔鹏来; 贾茹; 李振宇; 谢高岗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-12
Anticipated expiration: 2041-07-29
Also published as: CN113642736B

Abstract

本发明公开了一种基于冷热分离的梯度聚合方法，包括以下步骤：对稀疏场景的训练数据进行随机采样以对稀疏模型进行预训练；统计该稀疏模型的预训练过程中参数的频率，并根据该频率的大小将该参数分类为热参数或冷参数；利用该稀疏场景的训练数据对该稀疏模型进行重新训练，各训练节点分别传输该重新训练过程中的热参数梯度和冷参数梯度；该热参数梯度在可编程交换机上进行聚合后发送至远程服务器进行同步，该冷参数梯度由该可编程交换机直接该发送至远程服务器上进行聚合及同步。

Description

基于冷热分离的梯度聚合方法与系统

技术领域

本发明涉及分布式机器学习领域，具体涉及一种基于冷热分离的梯度聚合方法与系统。

背景技术

近年来，人工智能与机器学习已广泛应用于计算机视觉、网络运维、广告推荐等不同领域。随着训练模型不断复杂，训练数据日益激增，传统单节点的训练模式已经无法满足训练需求。因此，分布式机器学习已被广泛采用。在分布式机器学习中，训练节点进行本地模型的训练，不同训练节点间进行全局模型的同步。根据训练模型的特点，当前主要分为稠密模型训练与稀疏模型训练。对于稠密模型，分布式训练节点在每次迭代中需要计算、同步整个模型的参数梯度，其模型规模小、参数少；对于稀疏模型，分布式训练节点在每次迭代中所计算的模型绝大部分参数梯度是无效的，只需同步少量有效模型参数，其模块规模大，参数多。

由于需要进行周期性同步通信，网络已经成为分布式训练重要的性能瓶颈之一。当前，学术界与工业界主要从两个方面进行网络性能的优化：(1)从端服务器侧的角度出发进行优化，例如对参数梯度进行量化压缩、参数优先级调度、流调度等等；(2)从网络侧出发，利用网络的计算能力，将需要同步的参数梯度在网络内做聚合，这也是本发明所关注的场景。

当前在网络内进行梯度聚合的主要方法是：每个训练节点将在每次迭代过程中发送参数梯度，可编程交换机截取、解析来自不同训练节点的参数梯度，并将相同参数的梯度进行聚合，最后将聚合结果发送给远程服务器进行同步更新。如图1所示，可编程交换机解析到数据包携带的参数θ₄的值θ'₄，然后在可编程交换机查找存储参数θ₄的寄存器，将寄存器中的值与θ'₄求和，最后将结果θ'₄'更新到对应的存储θ₄的寄存器。

现有技术的工作方式：在每轮迭代过程中，训练节点将训练的整个模型的参数梯度发送给可编程交换机，由可编程交换机进行参数聚合，然后将聚合结果发送给远程服务器进行统一同步。然而，可编程交换机的片上存储空间有限(如几十兆字节)，这直接限制了其能够存储参数梯度的寄存器数量。因此，现有技术仅适用于加速稠密场景下规模较小的模型训练。

对于稀疏模型的分布式训练，其模型的参数规模通常能够达到上亿级别(如广告推荐)，可编程交换机无法存储整个稀疏模型参数。此外，稀疏模型训练每次迭代只需要同步部分少量的参数，而不同迭代其需要同步的参数往往也有很大的差异。这使得网络内的梯度聚合难以适用于稀疏模型的训练。

发明内容

为了解决上述问题，本发明的主要目的在于提出一种基于冷热分离的梯度聚合方法与系统，能够支持稀疏模型训练的网络内加速。

为了实现上述目的，本发明提出一种基于冷热分离的梯度聚合方法，包括：

步骤1，对稀疏场景的训练数据进行随机采样以对稀疏模型进行预训练；步骤2，统计该稀疏模型的预训练过程中参数的频率，并根据该频率的大小将该参数分类为热参数或冷参数；步骤3，利用该稀疏场景的训练数据对该稀疏模型进行重新训练，各训练节点分别传输该重新训练过程中的热参数梯度和冷参数梯度；步骤4，该热参数梯度在可编程交换机上进行聚合后发送至远程服务器进行同步，该冷参数梯度由该可编程交换机直接该发送至远程服务器上进行聚合及同步。

上述的基于冷热分离的梯度聚合方法，其中，该步骤1包括：步骤11，利用随机函数对大规模的该稀疏场景的训练数据进行随机采样得到小规模的训练数据集；步骤12，将该训练数据集切分为多段数据并分别发送至各训练节点以解析该稀疏模型的参数；步骤13，各该训练节点从远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据集进行训练，计算对应的参数梯度；步骤14，各该训练节点将计算的该参数梯度发送至该远程服务器进行全局同步。

上述的基于冷热分离的梯度聚合方法，其中，该步骤2中，利用可编程交换机截获并统计各该训练节点发送至该该远程服务器的该参数的频率，并根据该频率大小对该参数进行排序，将频率之和大于等于全部参数的频率之和的50％的前N个参数标记为该热参数，其余标记为该冷参数。

上述的基于冷热分离的梯度聚合方法，其中，该步骤3包括：步骤31，将该稀疏场景的训练数据切分为多段数据并分别发送至各该训练节点以解析该稀疏模型的参数；步骤32，各该训练节点从该远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据进行训练，计算对应的参数；步骤33，各该训练节点根据冷热参数的标记将计算的该参数梯度分类为该热参数梯度和该冷参数梯度，并对该热参数梯度和该冷参数梯度分别进行封装与发送。

上述的基于冷热分离的梯度聚合方法，其中，该步骤4包括：步骤41，对该热参数按照名字符号大小进行排序，并根据该排序对该热参数进行分组；步骤42，该可编程交换机根据该热参数的分组对寄存器进行分组，对携带该热参数梯度的数据包按照该分组进行解析，并将解析结果加至对应的该寄存器分组以进行该热参数梯度的聚合。

为了实现上述目的，本发明还提出一种基于冷热分离的梯度聚合系统，包括：

模型预训练模块，用于对稀疏场景的训练数据进行随机采样以对稀疏模型进行预训练；

冷热参数标记模块，用于统计该稀疏模型的预训练过程中参数的频率，并根据该频率的大小将该参数分类为热参数或冷参数；

模型重训练模块，用于利用该稀疏场景的训练数据对该稀疏模型进行重新训练，各训练节点分别传输该重新训练过程中的热参数梯度和冷参数梯度；

梯度聚合模块，用于该热参数梯度在可编程交换机上进行聚合后发送至远程服务器进行同步，该冷参数梯度由该可编程交换机直接该发送至远程服务器上进行聚合及同步。

上述的基于冷热分离的梯度聚合需系统，其中，该模型预训练模块包括：数据采样子模块，用于利用随机函数对大规模的该稀疏场景的训练数据进行随机采样得到小规模的训练数据集；参数解析子模块，将该训练数据集切分为多段数据并分别发送至各训练节点以解析该稀疏模型的参数；参数更新子模块，各该训练节点从远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据集进行训练，计算对应的参数梯度；参数同步子模块，各该训练节点将计算的该参数梯度发送至该远程服务器进行全局同步。

上述的基于冷热分离的梯度聚合系统，其中，该冷热参数标记模块，具体用于利用可编程交换机截获并统计各该训练节点发送至该该远程服务器的该参数梯度的频率，并根据该频率大小对该参数进行排序，将频率之和大于等于全部参数的频率之和的50％的前N个参数标记为该热参数，其余标记为该冷参数。

上述的基于冷热分离的梯度聚合系统，其中，该模型重训练模块包括：参数解析子模块，用于将该稀疏场景的训练数据切分为多段数据并分别发送至各该训练节点以解析该稀疏模型的参数；参数更新子模块，用于各该训练节点从该远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据进行训练，计算对应的参数梯度；冷热参数分类子模块，用于各该训练节点根据冷热参数的标记将计算的该参数梯度分类为该热参数梯度和该冷参数梯度，并对该热参数梯度和该冷参数梯度分别进行封装与发送。

上述的基于冷热分离的梯度聚合系统，其中，该梯度聚合模块包括：热参数分组子模块，用于对该热参数按照名字符号大小进行排序，并根据该排序对该热参数进行分组；热参数聚合子模块，用于该可编程交换机根据该热参数的分组对寄存器进行分组，对携带该热参数梯度的数据包按照该分组进行解析，并将解析结果加至对应的该寄存器分组以进行该热参数梯度的聚合。

由以上方案可知，本发明的优点在于：

本发明采用预训练稀疏模型对冷热参数进行标记，然后在重训练稀疏模型的过程中，根据预训练中冷热参数的标记来将参数梯度进行分类并分别在可编程交换机和远程服务器上进行聚合，从而可以有效支持稀疏模型训练的网络内梯度聚合，大大加速模型整体的训练效率。

附图说明

图1为现有技术的网络内梯度聚合的示意图。

图2为本发明一实施例的基于冷热分离的梯度聚合方法的流程图。

图3为本发明一实施例的基于冷热分离的梯度聚合方法的框架示意图。

图4为本发明一实施例的可编程交换机中的热参数梯度分组示意图。

图5为本发明一实施例的基于冷热分离的梯度聚合系统的模块图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

参见图1所示，本发明的实施例提出一种基于冷热分离的梯度聚合方法，包括步骤S10-S40，其中：

步骤S10，对稀疏场景的训练数据进行随机采样以对稀疏模型进行预训练。

在本实施例中，例如从具有广告推荐、搜索等稀疏训练场景业务的互联网企业中获得大规模的训练数据(PB级)。然后，对该大规模的训练数据进行随机采样，例如利用随机函数随机生成多个不同数字，每个数字代表训练数据的行数，以此为基础，将对应行的数据提取出来从而形成一个小规模的训练数据集(TB级)。

本发明以上述获得的小规模的训练数据集作为输入，进行稀疏模型的预训练，训练框架例如采用参数服务器架构，主要分为训练节点和远程服务器节点，训练节点负责本地模型的训练，远程服务器节点存储了全局最新的训练模型，负责模型同步。整个训练过程如下：

(1)将该小规模的训练数据集切分为多段训练数据并分别发送到不同的训练节点，每个训练节点读取当前的一段训练数据，解析相关模型参数，由于稀疏性，解析出的模型参数只占整个模型的一部分；(2)各训练节点从远程服务器拉取所解析出的模型参数的最新值，并结合训练数据进行模型训练，计算对应的参数梯度值；(3)各训练节点将计算的参数梯度值发送给远程服务器进行全局同步，即远程服务器将来自不同训练节点的参数梯度更新进行聚合(累加求和)。训练节点可重复上述(1)到(3)，直至训练结束。

步骤S20，统计该稀疏模型的预训练过程中参数的频率，并根据该频率的大小将该参数分类为热参数或冷参数。

在上述稀疏模型预训练过程中的第(3)步，本发明利用可编程交换机不断截获各训练节点发给远程服务器的参数梯度更新，统计里面的模型参数。在整个模型训练结束后，可编程交换机可获得不同模型参数在训练过程中所出现的频率。本发明按更新频率从大到小对模型参数进行排序。如果前N个参数所对应的更新频率之和占整个模型参数更新频率的50％，则前N个参数标记为热参数，其余参数标记为冷参数。

步骤S30，利用该稀疏场景的训练数据对该稀疏模型进行重新训练，各训练节点分别传输该重新训练过程中的热参数梯度和冷参数梯度。步骤S40，该热参数梯度在可编程交换机上进行聚合后发送至远程服务器进行同步，该冷参数梯度由该可编程交换机直接该发送至远程服务器上进行聚合及同步。

参见图2所示，本发明在上述稀疏模型预训练的冷热参数进行标记基础上，利用大规模的训练数据对稀疏模型的进行重新训练。其中，单次迭代训练过程如下：(1)训练数据切分为多段训练数据并发送至不同的训练节点，每个训练节点读取当前的一段训练数据，解析相关模型参数；(2)从远程服务器拉取所解析出的模型参数最新值，并结合训练数据进行模型训练，计算对应的参数梯度值；(3)训练节点根据冷热参数标记，将计算出的参数梯度分为两部分，一部分为热参数梯度，另一部分为冷参数梯度，并分别进行数据包的封装、发送；(4)可编程交换机为每个热参数梯度分配了寄存器(如初始为0)，在训练过程中截获来自不同训练节点携带热参数梯度的数据包，并对其进行解析，将其参数梯度值累加到对应的寄存器上，完成热参数梯度的聚合；(5)对于冷参数梯度数据包，可编程交换机将其直接转发到远程服务器上，远程服务器负责将来自不同训练节点对应的冷参数梯度累加到一起，完成冷参数梯度的聚合；(6)可编程交换机在收到了来自所有的训练节点的热参数梯度后，将热参数梯度的聚合结果发送给远程服务器，远程服务器根据收到的结果更新对应的热参数梯度。

参见图3所示，在上述(4)中，由于热参数梯度分布的范围广，可编程交换机在解析到热参数时，无法通过参数的名字定位到其所对应的寄存器。为此，本发明将热参数按名字符号大小进行排序，然后进行按序分组，可选地对每组顺序分配一个组ID。可编程交换机根据热参数的分组情况也对寄存器进行分组，对携带热参数梯度数据包也按组进行解析，并将解析的结果直接加到对应的寄存器组以完成梯度的聚合。而分组中的每组具体的成员数主要根据可编程交换机单次所能处理的数据包长度计算而成。

参见图4所示，基于相同的发明构思，本发明的实施例还提出一种基于冷热分离的梯度聚合系统200，其包括：

模型预训练模块210，用于对稀疏场景的训练数据进行随机采样以对稀疏模型进行预训练；

冷热参数标记模块220，用于统计该稀疏模型的预训练过程中参数的频率，并根据该频率的大小将该参数分类为热参数或冷参数；

模型重训练模块230，用于利用该稀疏场景的训练数据对该稀疏模型进行重新训练，各训练节点分别传输该重新训练过程中的热参数梯度和冷参数梯度；

梯度聚合模块240，用于该热参数梯度在可编程交换机上进行聚合后发送至远程服务器进行同步，该冷参数梯度由该可编程交换机直接该发送至远程服务器上进行聚合及同步。

于一实施例中，该模型预训练模块包括：

数据采样子模块，用于利用随机函数对大规模的该稀疏场景的训练数据进行随机采样得到小规模的训练数据集；

参数解析子模块，将该训练数据集切分为多段训练数据并分别发送至各训练节点以解析该稀疏模型的参数；

参数更新子模块，各该训练节点从远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据集进行训练，计算对应的参数梯度；

参数同步子模块，各该训练节点将计算的该参数梯度发送至该远程服务器进行全局同步。

于一实施例中，该冷热参数标记模块220，具体用于利用可编程交换机截获并统计各该训练节点发送至该该远程服务器的该参数的频率，并根据该频率大小对该参数进行排序，将频率之和大于等于全部参数的频率之和的50％的前N个参数标记为该热参数，其余标记为该冷参数。

于一实施例中，该模型重训练模块包括：

参数解析子模块，用于将该稀疏场景的训练数据切分为多段训练数据并分别发送至各该训练节点以解析该稀疏模型的参数；

参数更新子模块，用于各该训练节点从该远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据进行训练，计算对应的参数梯度；

冷热参数分类子模块，用于各该训练节点根据冷热参数的标记将计算的该参数梯度分类为该热参数梯度和该冷参数梯度，并对该热参数梯度和该冷参数梯度分别进行封装与发送。

于一实施例中，该梯度聚合模块包括：

热参数分组子模块，用于对该热参数按照名字符号大小进行排序，并根据该排序对该热参数进行分组；

热参数聚合子模块，用于该可编程交换机根据该热参数的分组对寄存器进行分组，对携带该热参数梯度的数据包按照该分组进行解析，并将解析结果加至对应的该寄存器分组以进行该热参数梯度的聚合。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于冷热分离的梯度聚合方法，其特征在于，包括：

步骤1，对稀疏场景的训练数据进行随机采样以对稀疏模型进行预训练；

步骤2，统计该稀疏模型的预训练过程中参数的频率，并根据该频率的大小将该参数分类为热参数或冷参数；

步骤3，利用该稀疏场景的训练数据对该稀疏模型进行重新训练，各训练节点分别传输该重新训练过程中的热参数梯度和冷参数梯度；

步骤4，该热参数梯度在可编程交换机上进行聚合后发送至远程服务器进行同步，该冷参数梯度由该可编程交换机直接该发送至远程服务器上进行聚合及同步。

2.如权利要求1所述的基于冷热分离的梯度聚合方法，其特征在于，该步骤1包括：

步骤11，利用随机函数对大规模的该稀疏场景的训练数据进行随机采样得到小规模的训练数据集；

步骤12，将该训练数据集切分为多段训练数据并分别发送至各训练节点以解析该稀疏模型的参数；

步骤13，各该训练节点从远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据集进行训练，计算对应的参数梯度；

步骤14，各该训练节点将计算的该参数梯度发送至该远程服务器进行全局同步。

3.如权利要求2所述的基于冷热分离的梯度聚合方法，其特征在于，该步骤2中，利用可编程交换机截获并统计各该训练节点发送至该该远程服务器的该参数的频率，并根据该频率大小对该参数进行排序，将频率之和大于等于全部参数的频率之和的50％的前N个参数标记为该热参数，其余标记为该冷参数。

4.如权利要求1或3所述的基于冷热分离的梯度聚合方法，其特征在于，该步骤3包括：

步骤31，将该稀疏场景的训练数据切分为多段训练数据并分别发送至各该训练节点以解析该稀疏模型的参数；

步骤32，各该训练节点从该远程服务器拉取该稀疏模型的参数的最新值，并结合该训练数据进行训练，计算对应的参数梯度；

步骤33，各该训练节点根据冷热参数的标记将计算的该参数梯度分类为该热参数梯度和该冷参数梯度，并对该热参数梯度和该冷参数梯度分别进行封装与发送。

5.如权利要求4所述的基于冷热分离的梯度聚合方法，其特征在于，该步骤4包括：

步骤41，对该热参数按照名字符号大小进行排序，并根据该排序对该热参数进行分组；

步骤42，该可编程交换机根据该热参数的分组对寄存器进行分组，对携带该热参数梯度的数据包按照该分组进行解析，并将解析结果加至对应的该寄存器分组以进行该热参数梯度的聚合。

6.一种基于冷热分离的梯度聚合系统，其特征在于，包括：

7.如权利要求6所述的基于冷热分离的梯度聚合需系统，其特征在于，该模型预训练模块包括：

8.如权利要求7所述的基于冷热分离的梯度聚合系统，其特征在于，该冷热参数标记模块，具体用于利用可编程交换机截获并统计各该训练节点发送至该该远程服务器的该参数的频率，并根据该频率大小对该参数进行排序，将频率之和大于等于全部参数的频率之和的50％的前N个参数标记为该热参数，其余标记为该冷参数。

9.如权利要求6或8所述的基于冷热分离的梯度聚合系统，其特征在于，该模型重训练模块包括：

10.如权利要求9所述的基于冷热分离的梯度聚合系统，其特征在于，该梯度聚合模块包括：