CN112162791B

CN112162791B - 一种分布式深度学习任务混部后的性能预测方法

Info

Publication number: CN112162791B
Application number: CN202011024461.4A
Authority: CN
Inventors: 赵来平; 丁紫薇; 李克秋
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-12-30
Anticipated expiration: 2040-09-25
Also published as: CN112162791A

Abstract

本发明公开一种分布式深度学习任务混部后的性能预测方法，包括如下步骤：所述任务刻画模块收集分布式GPU深度学习任务中所有混部的应用单独运行时的性能指标、单独训练时间以及多应用混部时位置和时间关系的数据信息；所述过滤模块对所述任务刻画模块中混部单独运行时的性能指标、单独训练时间和位置、时间数据进行筛选生成混部任务组合数据信息；所述性能预测模块对混部任务组合数据信息进行编码输入，通过预测到的干扰状态下总体完成时间得到任务混部干扰程度；本发明综合考虑了分布式GPU任务混部不同任务后干扰不同，任务混部之间的不同位置关系和不同时间关系对GPU任务的性能影响不同等因素，可以适用于多任务混部的性能预测。

Description

一种分布式深度学习任务混部后的性能预测方法

技术领域

本发明涉及大数据中分布式训练任务的预测分配技术领域,尤其涉及一种分布式深度学习任务混部后的性能预测方法。

背景技术

近年来，随着每个深度学习应用的数据量的急剧增加，以及计算复杂度和模型参数的增加，分布式机器学习应运而生。分布式机器学习主要运行在大规模集群上，训练任务的时间跨度较大，从几分钟到几天不等，在训练时间内，特别是对于长时间的GPU分布式任务，我们应该合理的安排集群中任务训练的时间。因此，有必要提前进行性能预测，预测分布式任务的执行时间。

通过性能预测，可以合理的安排集群中的任务，避免分布式任务受到较大的干扰的同时可以增加GPU的利用率。目前已经有很多工作研究了任务性能预测问题，但大部分工作是在CPU上，GPU上的性能预测大多数是针对单机任务，而针对分布式任务的性能预测，只包括任务单独运行情况下的预测，没有对分布式任务混部下的干扰预测，没有考虑分布式任务在混部场景下由于混部位置不同等因素造成的干扰不同。

我们针对这些问题提出了一个性能干扰预测模型，是一个灵活，有效，适用性高的针对GPU深度学习任务混部情况下的性能干扰预测模型，可以预测出在GPU空分共享环境下受到单节点任务，分布式任务或者多个任务影响的分布式任务的完成时间的模型，不需要多个模型分别预测，准确度很高，复杂度很低，时间开销较小。该预测模型考虑了运行时混部应用影响性能的性能指标，如GPU利用率和显存使用率等，将混部任务单独运行时的资源特征，混部任务间的位置关系和时间关系，以及混部任务不加干扰下的训练时间等数据作为本模型的输入数据，就可以来预测分布式任务在混部情况下受干扰后的完成时间。

发明内容

本发明旨在解决混部情况下分布式训练任务的干扰问题，通过综合考虑硬件资源异构性、计算精度、位置关系、时间关系等因素，预测干扰后分布式任务的完成时间，从而最小化混部干扰。

为了解决现有技术中存在的技术问题，本发明采用如下技术方案实施：

一种分布式环境针对深度学习训练模型的性能预测方法，由任务刻画模块、过滤模块和性能预测模块三个部分组成，包括如下步骤：

所述任务刻画模块收集GPU深度学习任务中所有混部的应用单独运行时的性能指标、单独训练时间以及多应用混部时位置和时间关系的数据信息；

所述过滤模块对所述任务刻画模块中混部单独运行时的性能指标、单独训练时间和混部位置、时间数据进行筛选生成混部任务组合数据信息；

所述性能预测模块对混部任务组合数据信息进行编码输入，通过预测到的干扰状态下总体完成时间得到任务混部干扰程度。

进一步，所述任务刻画模块生成混合任务组合的数据信息步骤为：

S1、使用kubernetes框架将多个服务器创建成一个集群，实现混部在同一组GPU上；

S2、在创建的集群上不加干扰地单独运行混部任务，监测即将混部的任务单独运行时的资源使用情况，收集与性能相关的性能指标和任务单独运行时的训练时间；

S3、当多任务混部导致任务干扰的情况下，记录任务混部下的位置关系和时间关系，并收集这种位置关系和时间关系下任务受到干扰后的训练时间；

S4、将记录下的位置关系和时间关系进行编码，并与收集到的任务性能指标和训练时间获得混合训练时间的数据。

进一步，所述过滤模块生成混部任务组合数据信息步骤为：

S1、将收集到的混部任务的GPU显存信息提取出来，列举出即将混部的任务组合；

S2、将每个混部任务组合中任务的GPU显存相加，与共享的GPU实际配置进行比对；

S3、将GPU显存之和大于GPU实际显存量的任务组合选择出来，作为不能混部的任务组合，不参与预测。

进一步，所述性能预测模块还包括步数预测单元和步长预测单元，其中：

所述步长预测单元将混部单独运行的性能指标，混部任务之间的位置关系和时间关系，以及混合训练时间作为输入数据输入预测模型中获得混部干扰下每步的训练时间；

所述步数预测单元用于预测分布式混部任务达到目标精度时的总体步数并通过如下公式获得混部在干扰状态下总体完成时间：

T₂＝t_col*S_col

If T₂＞T₁

T＝t_i+T₁

If T₁＞T₂

其中：S_dis和S_col通过收敛函数计算，为混部GPU训练任务达到目标精度下的总体步数，t_i(i＝1,2..)为混部任务的启动时间间隔，t_dis,t_col分别为分布式任务和混部任务受干扰后每步的训练时间，t_dis-solo为分布式任务单独运行时每步的训练时间。

有益效果

现有的工作大多不适用于分布式任务混部情况下的性能干扰预测，现有的针对分布式任务的性能预测模型大多是针对单个分布式任务，没有对混部下的分布式任务的性能干扰进行预测，也大多没有考虑混部任务之间的位置关系和时间关系(启动时间间隔)。为了弥补这方面的不足，本发明设计了在分布式环境下GPU训练任务混部下的性能干扰预测方法。与现有工作不同，本发明综合考虑了分布式GPU任务混部不同任务后干扰不同，任务混部之间的不同位置关系和不同时间关系对GPU任务的性能影响不同等因素，提出了一种机器学习算法用来预测分布式任务受干扰程度，可以适用于多任务混部的性能预测，产生的预测误差为3.93％，同时预测开销为0.998ms.

附图说明

图1为本发明的系统架构示意图。

表1为性能指标与性能之间的相关性列表。

图2为在不同混部场景下，步长预测模型利用五种不同的算法在不同的数据集大小下进行模型训练混部一个任务和多个任务得到的平均预测误差示意图。

图3为在不同GPU训练任务混部场景下，整个系统模型利用RFR算法预测任务的完成时间的平均误差示意图。

具体实施方式：

以下结合实施案例和附图，对本发明的技术和方法进行详细描述，以下案例和附图用于说明本发明的构成，但不是用来限定本发明的范围。

如图1所示为本发明的系统架构示意图，本发明提供了一种基于机器学习的GPU训练应用在混部干扰下的性能预测方法，能够准确预测分布式GPU应用受干扰下的性能，该方法由任务刻画模块、过滤模块和性能预测模块三个部分组成。

1.任务刻画模块

任务刻画模块将收集所有即将混部的应用单独运行时的性能指标和训练时间，以及多应用混部后受干扰后的训练时间，将收集到的数据处理后作为预测模型训练的数据集来训练模型，提高精度。

具体步骤如下：

1)使用kubernetes框架将多个服务器创建成一个集群，其中每个服务器上有多个GPU，每台服务器上的GPU配置可以不同，但GPU架构必须可以实现空分共享，允许多应用混部在同一组GPU上。

2)在创建的集群上不加干扰地单独运行混部任务，监测即将混部的任务单独运行时的资源使用情况，收集与性能相关的性能指标和任务单独运行时的训练时间，由于训练任务大部分为长时间运行任务，所以收集的训练时间为每步的训练时间。

3)当多任务混部导致任务干扰的情况下，记录任务混部下的位置关系和时间关系，并收集这种位置关系和时间关系下任务受到干扰后的训练时间。

4)将记录下的位置关系和时间关系进行编码，并与收集到的任务性能指标和训练时间构建模型训练所需的数据集。其中：

指标收集：

数据集的建立需要收集在任务单独运行时的性能指标，收集的性能指标分为资源层和应用层。

分布式GPU训练任务将每个worker分配到不同的服务器的容器上，为每个worker分配不同的资源。记录此时每个容器的分配情况，包括CPU核，内存，GPU核数，显存等情况，以及任务的训练精度等固定指标。

在分布式环境中不加干扰的运行混部任务，收集单独运行时每个容器的性能指标使用情况，包括功耗，显存频率，处理器频率，PCIe读写带宽等，以及为缩减采集成本，并考虑到深度学习训练中每批次训练的数据量是相同的，经过的神经网络模型也是相同的，并进行实验验证出每步的完成时间是在一个平均值内上下浮动，因此采集任务每步的训练时间，并为后面的完成时间的计算收集任务单独运行的步数以及对应的loss值。

在分布式GPU应用混部其他多个GPU应用的情况下，收集GPU应用受到混部干扰下每步的训练时间，记录混部情况下任务之间的位置关系和时间关系。

利用收集到的指标创建数据集时，为避免创建的预测模型产生过度拟合的现象，从而导致准确度的下降，所以我们需要选择相关性大的性能指标，通过Pearson相关系数和Spearman相关系数来评价目标绩效与其他绩效指标之间的相关性。系数越大，指标与性能的相关性越高。相关性在表一中展示。最终选择将Mclk不作为数据输入。见表1所示：

Num	Metric	Pearson	Spearman
				1	Cpu％	-0.62	-0.72
2	Mem-CPU	0.51	0.76
				3	Mem％	0.49	0.72
4	Pwr	0.36	0.72
				5	Stemp	0.25	0.68
6	Sm	0.56	0.72
				7	Mem-GPU	0.71	0.78
8	Mclk	-0.03	-0.02
				9	Pclk	0.39	0.70
10	FB	0.68	0.72
				11	Bar1	-0.87	-0.89
12	rxPci	-0.29	-0.25
				13	txPci	-0.28	-0.30

数据处理：

使用收集的混部任务的性能指标和记录到的位置关系和时间关系的数据进行编码，提出了一个回归模型，可以预测多GPU应用混部干扰下的完成时间。

T_interval指的是混部任务之间启动时间间隔即任务的时间关系，T_A是指系统中分布式任务的完成时间，T_B是指即将混部的任务的完成时间，Own_G1，Own_G2指的是不同GPU所拥有的全部资源，U_G1，U_G2是指任务在不同GPU上使用的资源。若是任务分布在多个GPU上，继续叠加Own_G3,U_G3，这些参数统称为一组参数，若是有两个任务共享GPU，所有参数都要按顺序在后面写出，第一组为我们的分布式任务，其余组都是与分布式任务共享GPU的混部任务，它们的参数顺序按第一组的顺序排列。若混部任务没有和分布式任务共享在某个GPU上，则混部任务的这组参数上相应位置的参数为0。

2.过滤模块：其目的是过滤掉不能混部的任务组合，来减少预测开销，提高预测精确度。具体步骤如下：

创建混部任务的集合，将即将混部的GPU训练任务的组合放进去。

由于GPU训练任务在GPU上运行的一个特性是当任务运行时所需显存大于GPU拥有的全部显存时，任务将无法启动。因此使用收集的任务单独运行时的性能指标，GPU显存使用量，将混部任务的GPU显存使用量相加，与GPU显存总量进行比对，

根据比对结果，当任务显存使用量之和大于GPU显存总量，将这种混部任务的组合从集合中剔除。

3.性能预测模块

性能预测模块将任务不受干扰时的性能指标，位置关系和时间关系的编码，以及单独运行时每步的训练时间输入到性能预测模型，可以预测任务混部干扰程度。性能预测模块预测分布式任务混部干扰下达到目标精度时的总体完成时间，分为两个单元，步数预测单元和步长预测单元，步长预测单元将任务单独运行情况下收集到的性能指标，任务之间的位置关系和时间关系，以及混部任务的训练时间作为输入数据输入预测模型中，可以得到分布式任务在混部干扰下每步的训练时间。步数预测模型预测分布式GPU任务达到目标精度时的总体步数，具体步骤如下：

通过将收集到的信息构建成用于训练模型的数据集，从而不断训练模型，然后将训练好的预测模型放入系统中使用。

当到达一个新任务，想要与系统中正在运行的分布式任务混部，首先要单独运行新任务，收集新任务不受干扰时的性能指标，以及任务单独运行时每步的训练时间。

收集此时系统中分布式任务单独运行时的性能指标和训练时间。

通过过滤模式后，如果可以混部，给定任务混部的不同位置关系和启动时间间隔，与收集到的新任务的性能指标和训练时间，输入到预测模型中，可以得到系统中分布式任务受到该任务混部干扰下每步的训练时间。

通过收集到的分布式任务单独运行时的步数以及每步对应的loss值，可以通过收敛函数预测达到目标精度时的总体步数。

通过公式计算，计算分布式任务混部干扰下的总体完成时间。其中：

采用五种典型的机器学习模型(包括K-Nearest Neighbor(KNN)Regression,Logistic Regression(LR),Random Forest Regression(RFR),Support VectorRegression(SVR)和Multi-layer Perceptron Neural Network(MLPNN))建立模型，通过构建的数据集的80％对模型进行训练，20％的数据集对训练好的模型进行测试，通过图2可以看到步长预测单元采用以上五种机器学习模型训练的平均预测误差，从而选择预测精度最高，开销最小的机器学习模型作为性能预测模型。

在系统中单独运行新到达的即将混部的任务，收集性能指标，训练时间以及两者之间的位置关系和时间关系，若能通过过滤模块，将数据编码输入选择好的性能预测模型，得到系统中分布式GPU训练任务混部干扰下每步的训练时间。

由于GPU训练应用与其他应用不同，GPU应用的训练时间是达到目标精度下的训练时间。因此在已知任务每步训练时间后，需要得知达到训练精度时的总体步数，通过以下收敛函数可以得知：

其中l是任务训练过程中的loss值，k是任务训练到某个loss值下的步数。根据任务单独运行时采集的训练步数和对应步数下的loss值，可以迭代出该函数，通过此函数求出任务达到目标精度时任务训练所需的总体步数。

根据收集到的指标以及预测出达到目标精度时的总体步数，设计计算分布式任务受到混部干扰下总体完成时间的公式如下：

T₂＝t_col*S_col

If T₂＞T₁

T＝t_i+T₁

If T₁＞T₂

其中S_dis和S_col通过收敛函数计算，为混部GPU训练任务达到目标精度下的总体步数，t_i(i＝1,2..)为混部任务的启动时间间隔，t_dis,t_col分别为分布式任务和混部任务受干扰后每步的训练时间，t_dis-solo为分布式任务单独运行时每步的训练时间，图3描述了整个预测模型得到分布式任务混部干扰后完成时间的平均误差。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种分布式深度学习任务混部后的性能预测方法，该方法应用在任务刻画模块、过滤模块和性能预测模块，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种分布式深度学习任务混部后的性能预测方法，其特征在于,所述任务刻画模块生成混部后训练时间的数据信息步骤为：

3.根据权利要求1所述的一种分布式深度学习任务混部后的性能预测方法，其特征在于,所述过滤模块生成混部任务组合数据信息步骤为：

4.根据权利要求1所述的一种分布式深度学习任务混部后的性能预测方法，其特征在于,所述性能预测模块还包括步数预测单元和步长预测单元，其中：

所述步长预测单元将混部单独运行的性能指标，混部任务之间的位置关系和时间关系，以及单独训练时间作为输入数据输入预测模型中获得混部干扰下每步的训练时间；

所述步数预测单元用于预测分布式混部任务达到目标精度时的总体步数并通过如下公式获得混部干扰状态下总体完成时间：

T₂＝t_col*S_col

If T₂＞T₁

T＝t_i+T₁

If T₁＞T₂