CN110147284A

CN110147284A - 基于二维长短期记忆神经网络的超级计算机工作负载预测方法

Info

Publication number: CN110147284A
Application number: CN201910442178.4A
Authority: CN
Inventors: 唐小勇
Original assignee: Hunan Agricultural University
Current assignee: Hunan Agricultural University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-20
Anticipated expiration: 2039-05-24
Also published as: CN110147284B

Abstract

本发明公开了一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法。第一步，建立具有日期与时间二维时间序列特征的超级计算机工作负载x^d,t模型；第二步，设计二维长短期记忆神经网络Cell结构；第三步，利用二维长短期记忆神经网络Cell结构和二维工作负载信息进行t时刻步训练；第四步，t时刻步二维LSTM神经网络预测方法预测误差计算；第五步，二维长短期记忆神经网络预测方法误差反向传播阶段中的各参数权重计算；第六步，训练完毕则转步骤七，否则则转步骤三；第七步，利用二维长短期记忆神经网络预测方法进行超级计算机工作负载预测。由于该方法针对超级计算机工作负载特性，因而能有效预测系统工作负载。

Description

基于二维长短期记忆神经网络的超级计算机工作负载预测方法

技术领域

本发明属于计算机软件以及大规模超级计算机资源管理技术领域，涉及一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法。

背景技术

随着社会经济和科学技术的进步，高能物理计算、核聚变模拟、航空宇宙计算、飓风预测等高计算需求与复杂应用成为高性能超级计算系统发展的主要动力，推动着以我国“神威太湖之光”、“Tianhe-2”和美国“Titan”为代表的超级计算机向大规模、异构化方向发展。例如，TOP 500排名第四的“Tianhe-2”由Intel Xeon E5-2692 12C多核CPU与IntelXeon Phi MIC众核处理器构成，总计312万处理核，计算能力达33862.7TFLOP/S；排名第九的“Titan”由AMD Opteron 6274多核CPU与NVIDIATesla K20X GPU众核处理器构成，总计560640处理核，计算能力达17590TFLOP/S；“Tianhe-1A”由Xeon X5670多核CPU与NVIDIATesla C2050GPU众核处理器构成，总计186368处理核，计算能力也达2566TFLOP/S。然而，随着超级计算机规模持续扩大、计算能力不断增强、应用越来越复杂，系统面临可靠性墙、能耗墙、并行墙等大量挑战性问题，导致复杂并行应用程序应用效率低下，如大规模基因组预测软件只能利用4000核进行并行计算，而无法利用超级计算机的上百万核。另外，超级计算机系统可用性与能耗也是制约其应用效率的重要键性因素，如“Tianhe-2”功耗为17808KW，其耗电量相当于广州大学城5所大学的总和；“Tianhe-1A”在实际应用中其平均无故障时间仅约为7小时。

解决这些问题的有效方法是提高超级计算机的资源管理效率，对系统资源进行动态管理。而超级计算机资源动态管理的核心是工作负载，高负载时需要大量资源，低负载时资源空闲量大，通过关闭这些闲置资源将节省能耗。因而如何正确预测超级计算机工作负载则成为动态管理资源的关键。然而，大多数现有工作负载预测模型，如ARIMAR、RNN、LSTM都假设所训练数据是一维时间序列特征。也就是说，超级计算系统未来工作负载只与前面一维工作负载信息相关。然而，对于超级计算机，其系统工作负载具有时间、日期和季节的周期性。实际上，每天工作时间系统工作负载量可能大，其他时间的工作负载相对较低。各周相同时间段，工作负载具有相似处，并且工作负载可能随季节变化很大。因而，我们认为超级计算机工作负载具有日期与时间二维时间序列特征。

发明内容

本发明针对大规模超级计算机面临可靠性墙、能耗墙、并行墙等大量挑战性问题导致复杂并行应用程序应用效率低下问题，需要高效的资源管理技术。而超级计算机资源有效动态管理的关键是对未来工作负载精确预测。传统计算系统工作负载预测都是基于一维时间序列，没有充分考虑超级计算机工作负载特性。

为解决上述问题，本发明所采用的技术方案为：

一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，包括如下步骤：

步骤1：基于超级计算机系统处理器的总核数、用于执行任务的核数和执行任务的时间，建立具有日期与时间二维时间序列特征的超级计算机工作负载模型；

步骤2：设置包括输入门、遗忘门、输出门和存储器在内的二维长短期记忆神经网络Cell结构，神经网络包括输入层、隐含层和输出层，且神经网络前一隐含层向下一隐含层同时传递隐含层日期维计算信息h^d-1,t和时间维计算信息h^d,t-1，其中d表示日期、t表示时间；

步骤3：将步骤1中得到的以二维形式表达的工作负载转换为一维数据来进行训练，将训练数据输入至二维长短期记忆神经网络Cell结构的输入门、遗忘门、输出门和存储器中的实现公式为：

I^t＝W⁽ⁱ⁾X^t+h^(d-1,t)UD⁽ⁱ⁾+h^(d,t-1)UH⁽ⁱ⁾

G^t＝W^(c)X^t+h^(d-1,t)UD^(c)+h^(d,t-1)UH^(c)

F^t＝W^(f)X^t+h^(d-1,t)UD^(f)+h^(d,t-1)UH^(f)

O^t＝W^(o)X^t+h^(d-1,t)UD^(o)+h^(d,t-1)UH^(o)

C^t＝σ(I^t)*tanh(G^t)+σ(F^t)*C^t-1

h^t＝σ(O^t)*tanh(C^t)

其中，i、f、o和c分别表示输入门、遗忘门、输出门和存储器，符号I^t、F^t、O^t和G^t分别是输入门、遗忘门、输出门和存储器在时刻t的输出结果，并由激活函数控制；C^t是t时刻状态信息，h^t是t时刻输出结果，激活函数采用sigmoid函数，其中激活函数σ为：

另一激活函数tanh为

W、UD、UH分别是输入层到隐含层权重、前一隐含层向下一隐含层传送日期h^d-1,t的权重、前一隐含层向下一隐含层传送时间h^d,t-1二维隐含层计算信息的权重，符号C和h分别是二维长短期记忆神经网络Cell结构状态值和隐含层计算值，最后，所有隐含层信息向输出层转化，产生预测值y^t，形式表示为：

y^t＝σ(W^(out)h^t)。

步骤4：对于t时刻，预测误差E(t)是时刻t和t-1的系统实际工作负载与预测值y^t、y^t-1的标准方差，即

步骤5：在误差反向传播阶段中进行参数权重更新，通过利用偏导数的大小来实现误差反向传播，并在每次迭代训练后确定神经网络Cell结构W、UD、UH和隐含层到输出层W^(out)参数权值，其中隐含层计算值h^t偏导数相对于t时刻训练误差的偏导为：

这里W^(out)表示隐含层到输出层参数，则二维长短期记忆神经网络预测模型Cell结构的状态量C的偏导为

同时，上一时刻t-1的状态值C^t-1接收来自h^t-1和下一隐含层状态C^t的梯度，则二维长短期记忆神经网络误差向隐含层状态C^t-1的反向传播更新为

二维LSTM神经网络输出层参数权重通过如下偏导实现计算：

其中，α是学习率，表示每次迭代训练成长的速率，则对于LSTM神经网络隐含层的输入门、遗忘门、输出门和存储器，相应参数W、UD、UH的权重值通过以下公式计算：

其中ΔW^(α)，ΔUD^(α)，ΔUH^(α)中的(α)表示i、f、o或c中的一个；

步骤6：检测所有训练数据是否全部训练完毕，如果训练完毕则转步骤7，执行超级计算机工作负载预测；否则转步骤3，继续进行二维长短期记忆神经网络训练；

步骤7：利用二维长短期记忆神经网络预测方法进行超级计算机工作负载预测，其数据是前n+1天的t时刻和m+1个时间序列系统工作负载。

所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，所述的步骤1中，用于执行任务的核数和执行任务的时间是分析通过超级计算机系统中的管理日志文件得到的。

所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，所述的步骤1中，分析管理日志文件时，通过分析应用软件执行信息来获得实际执行核数，包括统计用户、应用程序、任务、计算核心、开始时间、完成时间和计算节点，并根据统计结果获得实际执行核数。

所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，所述的步骤1中，超级计算机工作负载为

其中，x为超级计算机工作负载，total cores表示超级计算机系统总核数，execution cores表示实际执行核数，建立具有日期与时间二维时间序列特征的超级计算机工作负载模型为x^d,t，其中d表示日期、t表示时间。

所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，所述的步骤3中，训练数据为：

X^t＝[x^d-n,t,…,x^d-1,t,x^d,t]Δ[x^d,t-m,…,x^d,t-1,x^d,t]

X^t是一个具有n+m+2个输入节点，由前n+1天的t时刻和m+1个时间序列超级计算系统工作负载组合而成。

附图说明

图1是基于二维长短期记忆神经网络的超级计算机工作负载预测方法流程图；

图2是超级计算机工作负载二维变化图；

图3是二维长短期记忆神经网络工作负载预测方法Cell结构图；

图4是学习率与预测方法性能实验结果图；

图5是基于二维长短期记忆神经网络的预测方法与传统LSTM工作负载预测方法实验比较图。

具体实施方式

下面结合附图和实施例对本发明所述方法进行详细说明。

本发明针对超级计算机工作负载具有日期与时间二维相关特性，提出了一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，以实现超级计算系统未来工作负载的精确预测，为提高系统资源管理效率提供坚实的技术基础，其流程图如图1所示。该方法与具体应用软件对超级计算系统的需求无关，只通过历史数据进行预测，因而具有精度高，部署简单快捷等特点。

本发明通过下述技术方案实现：

基于二维长短期记忆神经网络的超级计算机工作负载预测方法，包括如下步骤：

步骤1：检索超级计算机系统总核数(total cores)和管理日志文件，分析应用软件执行信息如用户、应用程序、任务、计算核心、开始时间、完成时间、计算节点等来获得实际执行核数(execution cores)，利用下式实现超级计算机工作负载计算。

建立具有日期与时间二维时间序列特征的超级计算机工作负载x^d,t模型。由于实际执行计算核数通常小于系统总核数，所以该值取值范围为(0,1)。针对计算系统工作负荷的二维特性，本专利将这些信息描述为d天、t时形式的二维时间序列超级计算机工作负载x^d,t模型，如第4天、13时的工作负载为0.89，则x^4,13＝0.89。

步骤2：设计二维长短期记忆(LSTM)神经网络Cell结构，其输入门、遗忘门、输出门和存储器接收二维工作负载数据x^d,t输入，前一隐含层向下一隐含层同时传递隐含层日期维计算信息h^d-1,t和时间维计算信息h^d,t-1；

步骤3：本专利利用二维工作负载信息来训练二维长短期记忆神经网络预测方法，其二维数据如下式所示生成，并作为输入层数据输入。

X^t＝[x^d-n,t,…,x^d-1,t,x^d,t]Δ[x^d,t-m,…,x^d,t-1,x^d,t]

这里，X^t是一个具有n+m+2个输入节点，由前n+1天的t时刻和m+1个时间序列超级计算系统工作负载组合而成。这些数据被输入到LSTM神经网络Cell结构中的输入门、遗忘门、输出门和存储器中。其具体实现公式如下：

I^t＝W⁽ⁱ⁾X^t+h^(d-1,t)UD⁽ⁱ⁾+h^(d,t-1)UH⁽ⁱ⁾.

G^t＝W^(c)X^t+h^(d-1,t)UD^(c)+h^(d,t-1)UH^(c).

F^t＝W^(f)X^t+h^(d-1,t)UD^(f)+h^(d,t-1)UH^(f).

O^t＝W^(o)X^t+h^(d-1,t)UD^(o)+h^(d,t-1)UH^(o).

C^t＝σ(I^t)*tanh(G^t)+σ(F^t)*C^t-1.

h^t＝σ(O^t)*tanh(C^t).

其中，本专利使用符号I、F、O和C分别表示输入门、遗忘门、输出门和存储器。符号I^t、F^t、O^t和G^t是这此门在时刻t的输出结果，并由激活函数控制。本专利提出的二维LSTM中其输入、忘记和输出门的激活函数采用是标准的sigmoid函数，定义为：

另一激活函数为tanh，LSTM中参数为W、UD、UH，分别是输入层到隐含层权重、前一隐含层向下一隐含层传送日期h^d-1,t和时间h^d,t-1二维隐含层计算信息的权重。符号C和h分别是LSTM神经网络Cell结构状态值和隐含层计算值。最后，所有隐含层信息向输出层转化，产生预测值y^t，形式表示为：

y^t＝σ(W^(out)h^t).

步骤4：对于t时刻步，二维LSTM神经网络预测方法预测误差E(t)是时刻t和t-1的系统实际工作负载与预测值y^t、y^t-1的标准方差，即

步骤5：误差反向传播阶段中参数权重更新。本专利利用偏导数的大小来实现误差反向传播，并在每次迭代训练后确定每个参数权值。由于隐含层计算值h^t偏导数更常用于确定其他参数权重，因而本专利首先给出其相对于t时刻训练步误差的偏导：

这里h^t偏导数是其他参数权重计算的基础，对二维LSTM神经网络预测模型Cell结构的状态量C，其偏导为

同时，上一时刻t-1的状态值C^t-1接收来自h^t-1和下一隐含层状态C^t的梯度。因此，LSTM神经网络误差向隐含层状态C^t-1的反向传播也可更新为

二维LSTM神经网络输出层参数权重可通过如下偏导实现计算：

其中，α是学习率，表示每次迭代训练成长的速率。本专利提出的二维LSTM神经网络预测方法误差反向传播阶段的其他参数权重计算中都包括此学习率α，因而在后续的表述中不再重复引入和解释此问题。对于LSTM神经网络隐含层的输入门、遗忘门、输出门和存储器，其参数W、UD、UH的权重值可类似于如下输入门偏导计算参数方式获取：

步骤6：根据是否完成全部训练数据来判断基于二维长短期记忆神经网络的超级计算机工作负载预测方法迭代训练是否结束。如果训练完毕则转步骤7，执行超级计算机工作负载预测；否则则转步骤3、4、5，继续进行长短期记忆神经网络训练；

步骤7：利用二维长短期记忆神经网络预测方法进行超级计算机工作负载预测。其数据是前n+1天的t时刻和m+1个时间序列系统工作负载。在预测时，同样将工作负载转换为一维数据作为输入。

本实施例针对超级计算机工作负载历史信息来对未来系统负载进行预测。超级计算中心的工作负载是实际执行计算核数与计算资源总量的比率。总的计算资源量通常提前知道，如超级计算机中心拥有价值9000个计算核。实际执行计算核数可以通过系统管理日志文件分析实现，本专利通过检索计算系统应用软件执行信息，如用户、应用程序、任务、计算核心、开始时间、完成时间、计算节点等信息来获得实际执行核数，表1是这些信息的示例。

表1超级计算系统应用程序执行信息

本专利依据这种方法可以获得超级计算系统一定时间间隔内的实际执行核数，如1小时、30分钟和10分钟等。图2显示2017年7月7日到2017年7月24日时间段内某超级计算机实际执行核数，这里时间间隔设置为1小时。本专利分析了某超级计算机中心300天，总计7200个实际执行核数的工作负载数据。我们可以得出这样的结论：高工作负载时间发生在工作日8:00到20:00间，周末系统工作负载相对较轻。实际上，每天工作时间系统工作负载量可能大，其他时间的工作负载相对较低。各周相同时间段，工作负载具有相似处，并且工作负载可能随季节变化很大。因而，我们认为超级计算机工作负载具有日期与时间二维时间序列特征。在此，本专利定义系统工作负载如下：

由于实际执行计算核数通常小于系统总核数，所以该值取值范围为(0,1)。针对计算系统工作负荷的二维特性，本专利将这些信息描述为d天、t时刻的x^d,t二维时间序列。

接下来本专利将利用二维长短期记忆(LSTM)神经网络来预测未来系统工作负载。本专利首先设计二维长短期记忆神经网络Cell结构，如图3所示。本专利的LSTM神经网络Cell结构中也引入了三个门：输入门、遗忘门、输出门和存储器，但与经典LSTM不同的是：本专利提出的二维LSTM每个门都以二维时间序列d天、t时刻x^d,t工作负载数据作为输入，前一隐含层向下一隐含层同时传递隐含层日期维计算信息h^d-1,t和时间维计算信息h^d,t-1。

本发明专利提出的二维LSTM预测方法主要目标是预测超级计算机d天、t+1时刻的工作负载。本专利将利用二维工作负载信息来训练二维LSTM神经网络预测方法，其二维数据如公式(2)所示生成LSTM输入层输入数据。

X^t＝[x^d-n,t,…,x^d-1,t,x^d,t]Δ[x^d,t-m,…,x^d,t-1,x^d,t] (2)

I^t＝W⁽ⁱ⁾X^t+h^(d-1,t)UD⁽ⁱ⁾+h^(d,t-1)UH⁽ⁱ⁾. 3)

G^t＝W^(c)X^t+h^(d-1,t)UD^(c)+h^(d,t-1)UH^(c). (4)

F^t＝W^(f)X^t+h^(d-1,t)UD^(f)+h^(d,t-1)UH^(f). (5)

O^t＝W^(o)X^t+h^(d-1,t)UD^(o)+h^(d,t-1)UH^(o). (6)

C^t＝σ(I^t)*tanh(G^t)+σ(F^t)*C^t-1. (7)

h^t＝σ(O^t)*tanh(C^t). (8)

y^t＝σ(W^(out)h^t). (10)

对于t时刻步，本专利提出的二维LSTM神经网络预测方法预测误差E(t)是时刻t和t-1的系统实际工作负载与预测值y^t、y^t-1的标准方差，即

接下来，本专利将利用这个误差确定误差反向传播阶段中每个参数权重的梯度。本专利利用偏导数的大小来实现误差反向传播，并在每次迭代训练后确定每个参数权值。由于隐含层计算值h^t偏导数更常用于确定其他参数权重，因而本专利首先给出其相对于t时刻训练步误差的偏导：

这样，本专利提出的二维LSTM神经网络输出层参数权重可通过如下偏导实现计算：

其中，α是学习率，表示每次迭代训练成长的速率。本专利提出的二维LSTM神经网络预测方法误差反向传播阶段的其他参数权重计算中都包括此学习率α，因而在后续的表述中不再重复引入和解释此问题。对于LSTM神经网络隐含层的输入门、遗忘门、输出门和存储器，其参数W、UD、UH的权重值可依次使用如下偏导获取：

本专利实施例每次迭代训练后，都会利用上述误差反向传播方法重新计算所有参数的权重，以实现对超级计算机未来工作负载的精确预测。

性能分析及结果验证：

为了评估本发明专利提出的二维LSTM神经网络预测方法性能，本专利在一台具有8核XeonX7550的SuperMicro 8046B-TRF服务器上进行实验。用于本专利训练和评估的超过300天的超级计算机工作负载信息样本都来自实际的超级计算中心。本专利取前290天的样本用于训练二维LSTM神经网络预测方法，后10天时间序列样本数据用于评估。本专利使用性能指标均方误差(Mean square error，MSE)为损失函数来评估这预测方法的精确必性。

图4显示不同学习率α的二维长短期记忆神经网络工作负载预测方法实验结果。从图4中观察可知，随着学习率α从20增加到160，均方误差在不断减小。然而，随着学习率α的持续增加，本专利提出的预测方法性能却开始下降。因而，本发明专利认为最佳学习率α为160，在后面的对比实验中，本专利将以学习率α＝160的方法进行性能比较。

图5是本专利提出的二维长短期记忆神经网络预测方法(Improved LSTM)与传统LSTM方法进行比较的实验结果，其结果将与超级计算机2018年2月11日至2018年2月20日的实际工作负载进行比较。从图5可以看出，本专利提出的二维LSTM神经网络预测方法性能优于传统LSTM。实际上，二维LSTM对实际工作负载的平均误差为6.26％，传统LSTM的平均误差为19.25％。因此，本专利发明提出的二维长短期记忆神经网络预测方法优于传统LSTM约67.5％。性能指标均方误差(MSE)也证明了这一结论，本专利发明提出的二维LSTM预测方法模型MSE是0.019，传统LSTMMSE是为0.042。本发明专利提出的二维长短期记忆神经网络预测方法在均方误差方面优于传统LSTM约54.8％。实验结果说明本发明专利提出的二维长短期记忆神经网络预测方法非常适合超级计算系统工作负载预测。

Claims

1.一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，其特征在于，包括如下步骤：

I^t＝W⁽ⁱ⁾X^t+h^(d-1,t)UD⁽ⁱ⁾+h^(d,t-1)UH⁽ⁱ⁾

G^t＝W^(c)X^t+h^(d-1,t)UD^(c)+h^(d,t-1)UH^(c)

F^t＝W^(f)X^t+h^(d-1,t)UD^(f)+h^(d,t-1)UH^(f)

O^t＝W^(o)X^t+h^(d-1,t)UD^(o)+h^(d,t-1)UH^(o)

C^t＝σ(I^t)*tanh(G^t)+σ(F^t)*C^t-1

h^t＝σ(O^t)*tanh(C^t)

另一激活函数tanh为

y^t＝σ(W^(out)h^t)。

二维LSTM神经网络输出层参数权重通过如下偏导实现计算：

步骤7：利用训练完毕的二维长短期记忆神经网络进行超级计算机工作负载预测，其数据是前n+1天的t时刻和m+1个时间序列系统工作负载。

2.根据权利要求1所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，其特征在于，所述的步骤1中，用于执行任务的核数和执行任务的时间是分析通过超级计算机系统中的管理日志文件得到的。

3.根据权利要求2所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，其特征在于，所述的步骤1中，分析管理日志文件时，通过分析应用软件执行信息来获得实际执行核数，包括统计用户、应用程序、任务、计算核心、开始时间、完成时间和计算节点，并根据统计结果获得实际执行核数。

4.根据权利要求1所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，其特征在于，所述的步骤1中，超级计算机工作负载为

其中，x为超级计算机工作负载，totalcores表示超级计算机系统总核数，executioncores表示实际执行核数，建立具有日期与时间二维时间序列特征的超级计算机工作负载模型为x^d,t，其中d表示日期、t表示时间。

5.据权利要求4所述的一种基于二维长短期记忆神经网络的超级计算机工作负载预测方法，其特征在于，所述的步骤3中，训练数据为：

X^t＝[x^d-n,t,…,x^d-1,t,x^d,t]Δ[x^d,t-m,…,x^d,t-1,x^d,t]