CN110958187A

CN110958187A - 一种面向分布式机器学习参数同步差异化数据传输方法

Info

Publication number: CN110958187A
Application number: CN201911300999.0A
Authority: CN
Inventors: 虞红芳; 周华漫; 李宗航; 蔡青青; 孙罡
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-03
Anticipated expiration: 2039-12-17
Also published as: CN110958187B

Abstract

本发明公开了一种面向分布式机器学习参数同步差异化数据传输方法，将等待同步的结构化梯度张量按照其张量结构，从更细粒度进行数据拆分之后衡量数据对模型收敛的贡献，依据梯度的贡献度，本发明提供差异化传输质量(可靠性、传输时延)的梯度传输方案；对模型收敛贡献度高的数据得到更高的传输可靠性和更低的传输时延；差异化的梯度数据传输方法使得在有限的网络资源下，数据传输更加高效；从而解决在保证模型收敛的同时降低参数同步的通信开销的问题。

Description

一种面向分布式机器学习参数同步差异化数据传输方法

技术领域

本发明涉及人工智能领域，具体涉及一种面向分布式机器学习参数同步差异化数据传输方法。

背景技术

分布式机器学习(Distributed Machine Learning,DML)是解决人工智能领域中大规模机器学习任务模型复杂度过高、训练数据量过大的主流解决方案。DML通过数据划分或模型划分的方式将大规模机器模型任务分为若干规模较小的子任务，使用类似GPU、TPU、FPGA、ASIC等具有更高算力的计算机集群对子任务进行分布式并行训练，集群节点之间相互通信实现信息共享和参数同步，通过迭代式的局部优化、全局更新完成整个模型的训练。DML能够高效地利用大数据训练更准确的复杂模型，极大促进了AI产业的发展。

DML集群间通信主要是为了进行参数同步获取全局模型的参数更新值，其通信网络传输层通常依赖于类似于TCP协议的可靠传输控制协议，同时DML通常采用迭代式的优化算法进行模型训练，通信频次高、数据传输量大。因此，DML集群通信过程中的数据流具有周期性、突发性的特点。参数汇聚端有大量流量同时达到会出现吞吐量崩溃问题，导致报文丢失并引发TCP协议的重传机制，影响DML的训练时间。因此，DML集群间的通信是DML的性能瓶颈，如何在保证DML集群数据流交互的可靠性的同时减小通信网络资料的开销，是现有技术尚无法解决的工程难题。

发明内容

针对现有技术中的上述不足，本发明提供的一种面向分布式机器学习参数同步差异化数据传输方法，结合流量调度策略混合使用可靠传输协议和不可靠传输协议进行数据传输，使对模型收敛重要的数据得到优先可靠传输，非重要的数据使用低优先级尽力传输，解决了在保证模型收敛的同时，如何使数据传输更加高效，且降低参数同步的通信开销解决的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种面向分布式机器学习参数同步差异化数据传输方法，包括以下步骤：

S1、根据等待同步的结构化梯度张量的模型结构特征，对等待同步的结构化梯度张量进行分块处理及封装操作，得到梯度数据块报文；

S2、通过SANE算法对梯度数据块报文中的梯度数据进行贡献度估计，得到梯度数据块报文中的梯度数据贡献度值；

S3、根据梯度数据块报文中的梯度数据贡献度值，对梯度数据块报文进行分类，并将分类后的报文采用差异化传输方式由发送端传输至接收端，通过接收端对梯度数据块报文进行提取、数据存储和数据重构，完成数据传输过程。

进一步地：步骤S1包括以下步骤：

S11、判断等待同步的结构化梯度张量是否为卷积神经网络模型的卷积层参数张量，若是，则跳转至步骤S12；若否，则跳转至步骤S13；

S12、将等待同步的结构化梯度张量按照卷积核的大小划分为梯度参数子数据块，并跳转至步骤S14；

S13、将等待同步的结构化梯度张量按照其预定义的块大小划分为梯度参数子数据块，并跳转至步骤S14；

S14、对梯度参数子数据块进行消息报文封装，并对其添加消息头和按照传输协议添加数据报头，得到梯度数据块报文。

上述进一步方案的有益效果为：将等待同步的结构化梯度张量按照其模型结构进行划分，以数据块对模型收敛的贡献度大小作为衡量重要数据和不重要数据的标准，一方面便于数据的封装和发送，另一方面也从更细的粒度衡量数据的重要性，保障重要梯度报文的可靠传输，减少可靠传输的数据量。

进一步地：步骤S14中在消息头中顺序添加以下信息：该子块所属的梯度张量序号、该子块序号、该子块所属梯度张量的第一个子块序号、该子块所属梯度张量的最后一个子块序号、该子块所属梯度张量的总字节数和该子块所属梯度张量的位置。

进一步地：步骤S2中贡献度的计算公式为：

其中，

为分布式机器学习集群的第k个工作节点在第τ次进行参数同步操作时的第j个梯度参数子数据块的贡献度，α为平滑因子，n为子数据块中梯度值的数量，g_i为子数据块的第i个梯度值，

为工作节点k上第j个子数据块。

进一步地：步骤S3包括以下步骤：

S31、计算分类阈值；

S32、根据梯度数据块报文中的梯度数据贡献度值对梯度数据块报文进行排序，判断梯度数据块报文中的梯度数据贡献度值是否大于分类阈值，若是，则跳转至步骤S33，若否，则跳转至步骤S34；

S33、标记梯度数据块报文为重要梯度报文，采用可靠传输协议，并通过最高优先级的通道传输至接收端，并跳转至步骤S35；

S34、标记梯度数据块报文为非重要梯度报文，采用不可靠传输协议和非重要报文传输通道将非重要梯度报文传输至接收端；

S35、采用异步接收延迟更新策略，根据接收端接收到的梯度数据块报文，提取并储存梯度参数子数据块，进行数据重构，完成数据传输过程。

进一步地：步骤S34包括以下步骤：

S341、标记梯度数据块报文为非重要梯度报文；

S342、根据梯度数据贡献度值大小对非重要梯度报文划分等级，并根据非重要梯度报文的等级确定各级别的非重要梯度报文的非重要报文传输通道；

S343、根据差异化的优先级，将每个等级的非重要梯度报文通过交换机相应的非重要报文传输通道和不可靠传输协议传输至接收端。

上述进一步方案的有益效果为：重要梯度报文使用最高优先级进行传输，非重要梯度数据使用剩余优先级通道进行优先级分级，避免没有流量控制和拥塞控制的不可靠流量抢占过多网络资源，影响重要数据的完成时间，保证可靠传输优先完成。

进一步地：步骤S35包括以下步骤：

S351、将通过接收端的可靠传输协议接收到的梯度数据块报文放入靠通道缓冲区中，将通过不可靠传输协议接收到的梯度数据块报文放入不可靠传输通道缓冲区；

S352、通过不可靠数据接收引擎从不可靠接收缓冲区获取梯度数据块报文，并对梯度数据块报文进行解封装操作，将得到梯度参数子数据块存入数据缓冲区，并继续获取梯度数据块报文；

S353、通过可靠数据接收引擎从可靠通道缓冲区获取梯度数据块报文，对梯度数据块报文进行解封装操作，将得到的梯度参数子数据块存入数据缓冲区，并判断重要梯度报文是否完全接收，若是，则跳转至S354，若否，则继续获取梯度数据块报文；

S354、对数据缓冲区的梯度参数子数据块进行数据重构，还原原始结构化梯度张量，将缺失子块对应的结构化梯度数据进行0填充；

S355、将重构完成的结构化梯度张量递交上层模型，完成参数同步数据传输过程。

上述进一步方案的有益效果为：对接收端接收到的梯度参数子数据块采用“非重要梯度报文及时更新，非重要梯度报文延迟更新”的策略，一方面减少了接收端进行数据重构的等待时间，另一方面避免了对延迟到达的不可靠数据直接丢弃，提高传输效率。

本发明的有益效果为：将等待同步的结构化梯度张量按照其张量结构，从更细粒度衡量数据的重要性，对模型收敛重要的数据得到优先可靠传输。重要梯度报文采用最高优先级和可靠传输控制协议发送，保障重要梯度报文的优先可靠传输，减少可靠传输的数据量；对其余贡献度低的梯度采用不可靠传输，使数据传输更加高效。

附图说明

图1为一种面向分布式机器学习参数同步差异化数据传输方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种面向分布式机器学习参数同步差异化数据传输方法，包括以下步骤：

步骤S1包括以下步骤：

将等待同步的结构化梯度张量按照其模型结构进行划分，以数据块对模型收敛的贡献度大小作为衡量重要数据和不重要数据的标准，一方面便于数据的封装和发送，另一方面也从更细的粒度衡量数据的重要性，保障重要梯度报文的可靠传输，减少可靠传输的数据量。

步骤S14中在消息头中顺序添加以下信息：该子块所属的梯度张量序号、该子块序号、该子块所属梯度张量的第一个子块序号、该子块所属梯度张量的最后一个子块序号、该子块所属梯度张量的总字节数和该子块所属梯度张量的位置。

步骤S2中贡献度的计算公式为：

其中，

为工作节点k上第j个子数据块。

步骤S3包括以下步骤：

S31、计算分类阈值；在参数更新迭代过程中的第τ轮迭代时，获取第τ-1轮迭代损失函数值loss_τ-1，并使用以下公式计算第τ轮迭代的分类阈值p_τ，其中：loss₀为上层模型损失函数的初始值，p₀为用户定义的初始分类阈值，p_min为用户定义的最低分类阈值；

S33、标记梯度数据块报文为重要梯度报文，采用可靠传输协议(例如TCP协议)，并通过最高优先级的通道传输至接收端，并跳转至步骤S35；

S34、标记梯度数据块报文为非重要梯度报文，采用不可靠传输协议(例如UDP协议)和非重要报文传输通道将非重要梯度报文传输至接收端；

步骤S34包括以下步骤：

S341、标记梯度数据块报文为非重要梯度报文；

S342、根据梯度数据贡献度值大小对非重要梯度报文划分等级(等级数量为交换机剩余通道数量)，并根据非重要梯度报文的等级确定各级别的非重要梯度报文的非重要报文传输通道(各个等级的非重要梯度报文采用各自对应的优先级的非重要报文传输通道进行传输)；

重要梯度报文使用最高优先级进行传输，非重要梯度数据使用剩余优先级通道进行优先级分级，避免没有流量控制和拥塞控制的不可靠流量抢占过多网络资源，影响重要数据的完成时间，保证可靠传输优先完成。

步骤S35包括以下步骤：

对接收端接收到的梯度参数子数据块采用“非重要梯度报文及时更新，非重要梯度报文延迟更新”的策略，一方面减少了接收端进行数据重构的等待时间，另一方面避免了对延迟到达的不可靠数据直接丢弃，提高传输效率。

Claims

1.一种面向分布式机器学习参数同步差异化数据传输方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向分布式机器学习参数同步差异化数据传输方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求2所述的面向分布式机器学习参数同步差异化数据传输方法，其特征在于，所述步骤S14中在消息头中顺序添加以下信息：该子块所属的梯度张量序号、该子块序号、该子块所属梯度张量的第一个子块序号、该子块所属梯度张量的最后一个子块序号、该子块所属梯度张量的总字节数和该子块所属梯度张量的位置。

4.根据权利要求1所述的面向分布式机器学习参数同步差异化数据传输方法，其特征在于，所述步骤S2中贡献度的计算公式为：

其中，

为工作节点k上第j个子数据块。

5.根据权利要求1所述的面向分布式机器学习参数同步差异化数据传输方法，其特征在于，所述步骤S3包括以下步骤：

S31、计算分类阈值；

6.根据权利要求5所述的面向分布式机器学习参数同步差异化数据传输方法，其特征在于，所述步骤S34包括以下步骤：

S341、标记梯度数据块报文为非重要梯度报文；

7.根据权利要求5所述的面向分布式机器学习参数同步差异化数据传输方法，其特征在于，所述步骤S35包括以下步骤：