CN113076239A

CN113076239A - 一种高性能计算机用混合神经网络故障预测方法及系统

Info

Publication number: CN113076239A
Application number: CN202110391106.9A
Authority: CN
Inventors: 伍卫国; 杨晓曦; 杨傲; 康益菲; 王雄; 杨诗园
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-06
Anticipated expiration: 2041-04-12
Also published as: CN113076239B

Abstract

本发明公开了一种高性能计算机用混合神经网络故障预测方法及系统，收集高性能计算机的日志数据，日志数据包括日志事件id，发生对应日志事件的时间戳和日志事件等级；对收集的日志数据进行数据清洗和特征选择，得到初始特征数据；使用随机森林算法构建故障预测模型，将得到初始特征数据输入故障预测模型，使用随机森林算法计算特征重要性，进行特征选择得到特征样本数据；将得到的特征样本数据输入LSTM网络模型中，使用LSTM网络模型对特征样本中是否存在故障事件进行预测。本发明通过随机森林对日志数据特征进行打分遴选，降低维度，这样可以减少训练复杂度，加快训练组度。

Description

一种高性能计算机用混合神经网络故障预测方法及系统

技术领域

本发明属于存储系统可靠性与可用性技术领域，具体涉及一种高性能计算机用混合神经网络故障预测方法及系统。

背景技术

高性能计算(High Performance Computing，HPC)是一种利用并行处理来运行应用程序的计算方法，这种计算方法高效、快速并且可靠。高性能计算系统允许在通过迅速网络互联的大量高端处理器上执行计算密集型应用程序。同时，高性能计算系统如今也被大领域广泛应用，如气候模拟、分子动力学、流体动力学、医学成像等等。正因如此，各个国家都大力发展研究高性能计算。

而随着高性能计算机大力发展，这些超级计算机的规模和复杂度也在不断变高，随着系统规模的不断扩大以及高性能计算机组件数量的增加，系统的平均无故障时间越来越短，甚至已经变成几小时。例如，Google Cluster大约每隔36小时就会出现结点失效，而ASCI White系统的平均无故障时间约为40个小时。

由于高性能计算机发生故障所带来的损失很大，会直接影响系统的运行，为了能在故障发生前，有效地预测出故障发生时间段，需要研究发明一种有效准确的故障预测手段。

故障预测方法一般是通过分析高性能计算机当前以及过去一段时间的状态来预测之后一段时间的状态，尤其是之后一段时间是否会发生故障，从而允许采取一定的处理手段来减轻故障带来的损失，故障预测的方法可行，但同时也为我们的故障预测带来两大挑战，一是如何设计出比较高的准确率的故障预测模型，二是预测出故障后，采取什么样的手段来将故障所带来的损失降到最低。

容错是指如果系统发生故障，系统中的程序还能够正常运行，故障如果无法避免，但是系统仍然能够正确处理程序输入输出。容错一般分为主动容错和被动容错，主动容错方法一般通过故障预测算法来实现，被动容错一般基于检查点设置和回滚恢复技术等。主动容错需要预测算法准确率高，被动容错会增加额外的时间和空间开销，保证系统的性能。难点在于如何将两者结合起来，保证预测准确率高的情况下，保证系统性能良好。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种高性能计算机用混合神经网络故障预测方法及系统，通过使用混合神经网络方法，对高性能计算机的日志数据进行清洗、筛选与分析，提前对系统所要发生的故障做出准确率较高的预测，并对即将发生的故障进行一定的容错机制处理。

本发明采用以下技术方案：

一种高性能计算机用混合神经网络故障预测方法，包括以下步骤：

S1、收集高性能计算机的日志数据，日志数据包括日志事件id，发生对应日志事件的时间戳和日志事件等级；

S2、对步骤S1收集的日志数据进行数据清洗和特征选择，得到初始特征数据；

S3、使用随机森林算法构建故障预测模型，将步骤S2得到初始特征数据输入构建的故障预测模型，使用随机森林算法计算特征重要性，根据特征重要性进行特征选择得到特征样本数据；

S4、将步骤S3得到的特征样本数据输入LSTM网络模型中，使用LSTM网络模型对特征样本中是否存在故障事件进行预测。

具体的，步骤S2中，数据清洗具体为：

删除日志数据中重复冗余列以及对故障预测没有帮助的数据列；移除日志数据中的无意义数据；删除缺失记录；针对编辑距离设置阈值，如果两条日志的编辑距离小于阈值，则视为重复冗余日志记录，保留时间最远的第一条记录，删除其余冗余记录，得到时间窗口以及当前窗口的各项特征数据。

具体的，步骤S2中，使用Pearson相关系数法进行特征选择，两个成对变量的相关系数r如下：

其中，X和Y表示的是一对成对的连续的变量，n为单位时间窗口数量，r的取值范围是[-1,1]。

具体的，步骤S3具体为：

S301、利用观测时间窗口以及当前窗口的各项特征数据，将初始特征数据向量化，构建样本数据向量；

S302、从步骤S301构建的样本数据向量中选取2h时间段的样本数据，将观测时间窗口内的特征向量组成向量；

S303、将步骤S302选取的向量输入随机森林故障预测模型中，得到结果故障标签；

S304、如果步骤S303得到的结果故障标签为0，则为未发生故障，如果结果故障标签为1，则为即将发生故障；

S305、计算袋外数据误差，以及加入噪声干扰的袋外数据误差，计算特征重要度；

S306、调用随机森林算法的特征选择函数，得到特征重要度排序，选取特征重要度前10位特征样本数据组成向量Y_(t)。

进一步的，步骤S305中，特征重要度result计算如下：

result＝∑(err_OOB2-err_OOB1)/N

其中，err_OOB1为袋外数据误差，err_OOB2为加入噪声干扰的袋外数据误差，N为分类问题个数。

进一步的，步骤S306中，特征样本数据包括：ERROR等级事件的数量，FATAL 等级事件的数量，FAILURE等级事件的数量，SEVERE等级事件的数量，ERROR 等级事件的数量，FATAL等级事件的数量，FAILURE等级事件的数量，MONITOR 设备故障事件数量，MMCS设备故障事件数量和DISCOVERY设备故障事件数量。

具体的，步骤S4中，进行LSTM网络模型的故障预测具体为：

S401、将步骤S3得到的特征样本数据数据输入至LSTM网络模型中，用n个单位时间窗口构建观测时间窗口；

S402、LSTM网络模型输出得到结果输出概率p；

S403、设置故障阈值k，对观测时间窗口进行判断，如果p<k，则未发生故障，否则发生故障。

进一步的，步骤S402中，输出概率p为：

p＝f(Y_(t))

其中，f表示要求解的模型，Y_(t)为LSTM网络模型中观测窗口的前10位特征样本数据组成的向量。

具体的，使用主动容错和被动容错对步骤S4预测的即将发生的故障进行处理，具体为：

S501、为高性能计算集群的主节点增加一个备用节点，定期对主节点进行心跳检测；

S502、设置时间阈值，如果高性能计算集群的备用节点在设置的时间阈值内没有收到主节点发来的数据，则判定为节点故障，将主节点的所有作业服务分配给备用节点运行；

S503、定期为计算节点设置检查点，如果发生故障；则对计算节点进行恢复，从上一个计算节点重新运行；

S504、结合步骤S4的故障预测结果，如果预测结果为预测窗口发生故障，则将故障影响部分迁移。

本发明的另一技术方案是，一种高性能计算机用混合神经网络故障预测系统，包括：

采集模块，收集高性能计算机的日志数据，日志数据包括日志事件id，发生对应日志事件的时间戳和日志事件等级；

筛选模块，对采集模块收集的日志数据进行数据清洗和特征选择，得到初始特征数据；

选择模块，使用随机森林算法构建故障预测模型，将筛选模块得到初始特征数据输入构建的故障预测模型，使用随机森林算法计算特征重要性，根据特征重要性进行特征选择得到特征样本数据；

预测模块，将选择模块得到的特征样本数据输入LSTM网络模型中，使用 LSTM网络模型对特征样本中是否存在故障事件进行预测。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种高性能计算机用混合神经网络故障预测方法，对日志数据进行数据清洗和特征选择得到初始特征数据；使用随机森林算法构建故障预测模型，将初始特征数据输入故障预测模型，使用随机森林算法计算特征重要性，进行特征选择得到特征样本数据；将特征样本数据输入LSTM网络模型中，使用LSTM网络模型对特征样本中是否存在故障事件进行预测，能够在提前一段时间内准确预测出之后一段时间可能会发生的故障，之所以提前预测出故障是为了方便在预测出故障之后，对将来可能会发生的故障采取一定的手段来预防，针对未来故障如何处理的问题。

进一步的，将日志数据进行清洗过滤后，从而得到了连续完整的，不含有缺失值和无意义字段的可用于进行故障预测研究的数据。

进一步的，经过日志数据清洗之后的数据中仍然含有一些与故障预测研究无关或者是关联很小的特征，因此我们需要进行特征选择。

进一步的，通过随机森林算法的特征提取，不仅将故障预测问题直接定位为分类问题，降低故障预测的难度，同时进行特征选择，降维之后，故障模型更将简易构建，效率更高并且避免了一些无效或者对故障影响较小的特征的干扰，解决了日志数据特征复杂繁多的问题，从而大大提高预测准确率，加快预测速率。

进一步的，随机森林的进行特征选择的思想上：如果一个特征加入噪音之后，结果的精度大幅下降，则说明该特征是比较重要的。

进一步的，随机森林在每次重抽样建立决策树时，都会有一些样本没有被选中即袋外数据(OOB)，那么就可以用这些样本去做交叉验证。

进一步的，由于日志故障预测数据集都是严格的时间序列，针对时间序列预测，循环神经网络是一种强大有效的工具，而长短期记忆网络(LSTM)由于拥有记忆功能，所以在时序预测问题中，会表现出良好的性能。

进一步的，LSTM故障预测之后得到输出概率p，经过与阈值的判断，可以得到预测窗口内是否会发生故障的结果。

进一步的，本发明提出一种容错策略，使用主动容错和被动容错，便于实现故障预测-容错的半自动化流程，这对目前研究的故障预测有着重要的意义。

综上所述，本发明通过随机森林对日志数据特征进行打分遴选，降低维度，这样可以减少训练复杂度，加快训练组度，同时结合LSTM算法，进行故障预测，对于即将发生的故障，采用一种主动容错和被动容错相结合的容错机制，来对即将发生的故障问题进行处理，实现故障预测-容错的半自动化流程。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为时间窗口定义图；

图2为LSTM的结构示意图；

图3为LSTM循环神经单元结构图；

图4为本发明故障预测流程图。

图5为本发明故障预测结果展示

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种高性能计算机用混合神经网络故障预测方法及系统，采用一种基于随机森林的高性能计算机日志数据的预测模型，有效准确预测未来一段时间的故障发生情况，为了进一步提升对高性能计算机的故障预测准确率，本发明使用随机森林对日志数据特征进行进一步筛选，将筛选之后的特征输入到 LSTM模型中继续进行进一步预测，对于即将发生的故障，本发明采取主动和被动容错两种机制进行处理。

请参阅图4，本发明一种高性能计算机用混合神经网络故障预测方法，首先日志数据进行清洗，去掉无效数据。之后使用随机森林算法计算特征重要性，进一步进行特征选择，之后使用长短期记忆网络对日志数据进行故障预测，最后使用主动容错和被动容错相结合的手段对即将发生的故障进行处理，从而减轻故障发生给系统所带来的损失。具体步骤如下：

S1、收集高性能计算机(超级计算机)的日志数据，包括日志事件id，日志事件id样本数据记作N_t1，N_t2，...，N_tn；发生对应日志事件的时间戳，发生对应日志事件的时间戳记作T_t1，T_t2，...，T_tn；日志事件等级，日志事件等级记作L_t1，L_t2，...，L_tn；日志事件等级包括故障事件和非故障事件；

S2、对步骤S1收集的高性能计算机的日志数据进行数据清洗和特征选择，得到初始特征数据；

使用Pearson相关系数的方法进行特征选择。Pearson相关系数是一种被经常用来衡量向量相似度的方法，是一种可以比较直观的反映出两个变量之间相关度的衡量方法，Pearson相关系数的公式如下所示：

其中，r表示两个成对变量的相关系数，反映了两个变量线性相关关系的强弱，X和Y表示的是一对成对的连续的变量，r的取值范围是[-1,1]，当r＝0的时候表示X和Y两个变量不相关，r越是接近-1或者1，证明X和Y两个相关度越强。

针对高性能计算机故障预测的研究难点，首先是日志数据中故障事件数量远远小于非故障事件数量，因此在日志数据预处理阶段，冗余日志文件的剔除过滤显得尤为重要，其次，故障预测不应包括突发故障事件，所以应当适当筛选故障日志数据样本以及和故障数据样本相关联的非故障数据样本。

S201、重复列的处理

删除日志数据中大量的重复冗余列以及对故障预测没有帮助的数据列。

S202、无意义日志数据清洗

移除日志数据中包含类似a、the、is的无意义数据。

S203、缺失日志数据

删除无法进行研究的缺失记录。

S204、重复日志数据。

超级计算机日志冗余的一大原因是由于其每秒产生的系统日志数据量很大，这对故障预测研究是很不利的，针对这些记录，选择计算编辑距离来进行处理：

在两条日志消息中，编辑距离指的是，由一条日志内容转换为另一条日志内容所需要操作的最少次数，操作包括插入、删除。而日志间的编辑距离越小，表明两条日志内容相似度越高。针对编辑距离设置阈值，如果两条日志的编辑距离小于阈值，则视为重复冗余日志记录，保留时间最远的第一条记录，删除其余冗余记录。

由此得到时间窗口以及当前窗口的各项特征数据。

S3、构建随机森林故障预测模型，对步骤S2得到初始特征数据进行特征选择，得到特征样本数据；

故障预测的时候，通过结合观测时间窗口和当前时间窗口的特征值对预测时间窗口的故障事件进行预测，因为直接对预测时间窗口的故障事件发生时间进行预测的话，具有很高的难度和极大的不确定性，所以本发明是针对预测时间窗口是否会发生故障事件来进行预测，因此，故障预测问题是一个分类预测问题。对于分类预测，随机森林算法有着很大的优势，能够处理较高纬度的数据，并且随机森林算法还可以判断特征的重要度，为选取重要的特征，用于更准确的故障预测模型的构建的预测，所以为了提高故障预测模型的准确率，提出了一种基于随机森林的特征选择方法。

随机森林是一种比较灵活、方便使用的算法，它的性能是比较好的，即使在没有超参数条有的情况下，性能也良好，通常可以用来处理分类和回归问题。随机森林是由多个决策树构成，训练方式是“bagging”方法，即bootstrap aggregating，通过随机有放回的选择训练数据构造分类器。可以准确稳定的预测，本发明先使用随机森林算法对高性能计算机的日志数据进行故障预测，所以先采用了随机森林的分类问题。针对分类问题，随机森林的每棵树都是一个分类器，针对一个输入样本，N棵树会有N个分类问题，随机森林算法将所有的分类结果进行统一，投票最多的则为最终输出。

因为直接应用随机森林进行分类处理，预测准确率并不高，无法进行之后的主动容错手段，所以我们采用随机森林算法将特征进行筛选，选择出与故障关系较大，影响较大的特征，再对其进行预测，从而提高故障预测准确率。随机森林进行特征选择的时候，一般使用袋外数据错误率来进行衡量。可以通过这种方法计算出每个特征对随机森林的每棵树的贡献大小。

具体的，构建随机森林预测模型以及选择特征的步骤为以下几步：

S301、利用观测时间窗口以及当前窗口的各项特征数据，构建样本数据向量；

S302、从步骤S301构建的样本数据向量中选取2h时间段的样本数据，将观测时间窗口内的特征向量组成向量P(t)＝(p(1),p(2),...,p(N))；

S303、将步骤S302选取的向量P(t)输入至随机森林故障预测模型中，得到结果故障标签；

S304、如果步骤S303得到的结果故障标签是“0”则为未发生故障，如果是“1”，则为即将发生故障；

S305、计算袋外数据误差err_OOB1，以及加入噪声干扰的袋外数据误差err_OOB2，利用result＝∑(err_OOB2-err_OOB1)/N计算出特征重要度；

S306、调用随机森林算法的特征选择函数，得到特征重要度排序，选取前10 位特征样本数据。

S4、将步骤S3得到的特征样本数据输入LSTM网络模型中，对LSTM网络模型预测窗口中是否存在故障事件进行预测；

由于日志故障预测数据集都是严格的时间序列，针对时间序列预测，循环神经网络是一种强大有效的工具，而长短期记忆网络由于拥有记忆功能，所以在时序预测问题中，会表现出良好的性能。

请参阅图2，长短期记忆网络(LSTM)是RNN的变形，因为高性能计算机的日志数据是按照时间序列排序的，而LSTM对于时间序列预测效果很好，请参阅图3，LSTM最核心的部分就是循环神经单元结构图，其中有3个门，分别为遗忘门，输入门，输出门。门可以让信息选择性的通过。

遗忘门f_n计算为：

f_n＝δ(W_f,xX_n+W_f,yY_n-1+b_f)

输入门i_n计算为：

i_n＝δ(W_i,xX_n+W_i,yY_n-1+b_i)

输出门o_n计算为：

o_n＝δ(W_o,xX_n+W_o,yY_n-1+b_o)

其中，X_n，Y_n-1表示输入与输出，W表示权重，δ作用于sigmoid函数，输出值[0,1]，b表示偏置量。

进行LSTM网络模型的故障预测的步骤为以下几步：

S401、将步骤S3得到的特征样本数据数据输入至LSTM网络模型中；

S402、LSTM网络模型输出得到结果输出概率p；

长短期记忆网络的输入为观测窗口的10个特征日志数据组成的向量，经过故障预测得出预测窗口内是否发生故障，预测窗口内是否发生故障p表示为：

p＝f(Y_(t))

其中，f表示要求解的模型，1表示故障，0表示非故障。

S403、设置故障阈值k，如果p<k，则未发生故障，否则发生故障。

S5、针对步骤S4预测的即将发生的故障，采取主动容错与被动容错相结合的手段进行处理。

被动容错方案为针对主节点，设置增加一个备用节点，定期对主节点进行心跳检测，如果在一定的时间阈值，备用节点没有收到主节点发送来的网络数据，则认为主节点已经遭遇故障，系统会将主节点上运行的所有作业服务都分配给备用节点去运行，同时将主节点的一些数据库数据、硬盘数据等备份到备用节点上。

另一种方法是定期给计算节点的任务做检查点，如果节点发生故障，则将错误信息发送给用户，并进行恢复，从上一个检查点重新运行。

但是，目前广泛应用的这两种方法，会带来很多不便，例如降低系统可用性，浪费计算资源，也会增加时间和空间开销，降低系统的效率。

本发明结合前一部分的故障预测方法，设计出一种主动容错机制，本发明利用故障预测方法预测出来的故障，将故障可能会影响到的部分进行迁移，然后尽量避免故障带来的损失。本发明主动容错方法主要体现的时间节点为故障发生前。

容错的步骤为以下几步：

S501、为主节点增加一个备用节点，定期对主节点进行心跳检测；

S502、设置时间阈值，如果备用节点在时间阈值内没有收到主节点发来的数据，则判定为节点故障，将主节点的所有作业服务分配给备用节点运行；

S503、定期为节点设置检查点，如果发生故障；则进行恢复，从上一个检查点重新运行；

S504、结合故障预测结果，如果预测结果为预测窗口将会发生故障，则将故障可能会影响到的部分进行迁移。

本发明再一个实施例中，提供一种高性能计算机用混合神经网络故障预测系统，该系统能够用于实现上述高性能计算机用混合神经网络故障预测方法，具体的，该高性能计算机用混合神经网络故障预测系统包括采集模块、筛选模块、选择模块以及预测模块。

其中，采集模块，收集高性能计算机的日志数据，日志数据包括日志事件id，发生对应日志事件的时间戳和日志事件等级；

选择模块，使用随机森林算法构建故障预测模型，将筛选模块得到初始特征数据输入故障预测模型，使用随机森林算法计算特征重要性，进行特征选择得到特征样本数据；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于高性能计算机用混合神经网络故障预测方法的操作，包括：

收集高性能计算机的日志数据，日志数据包括日志事件id，发生对应日志事件的时间戳和日志事件等级；对收集的日志数据进行数据清洗和特征选择，得到初始特征数据；使用随机森林算法构建故障预测模型，将得到初始特征数据输入故障预测模型，使用随机森林算法计算特征重要性，进行特征选择得到特征样本数据；将得到的特征样本数据输入LSTM网络模型中，使用LSTM网络模型对特征样本中是否存在故障事件进行预测。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关高性能计算机用混合神经网络故障预测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

利用高性能计算机BlueGene/L的日志数据集，本数据集是该高性能计算机在2005年6月3日至2006年1月4日系统运行215天所收集到的日志数据，共计4747963条，其中故障日志数据共计348460条，故障数据占比约为7.3％，使用随机森林算法构建故障预测模型，同时使用随机森林算法计算特征重要性，进一步进行特征选择，之后使用长短期记忆网络对日志数据进行故障预测，之后使用主动容错和被动容错相结合的手段对即将发生的故障进行处理，从而减轻故障发生给系统所带来的损失。

S1、进行日志数据收集

本数据集是BlueGene/L在2005年6月3日至2006年1月4日系统运行215 天所收集到的日志数据，共计4747963条，其中故障日志数据共计348460条，故障数据占比约为7.3％。

其中所包含的信息如下：

1)日志事件id：随着日志记录的产生，是一种个递增序列；

2)粗略的时间戳：表示该日志记录的产生时间；

3)发生该日志事件的具体位置；

4)精确到微秒的日志记录时间戳；

5)冗余的日志时间发生位置；

6)RAS：日志记录机制；

7)日志时间的设备：在BlueGene/L超级计算机的日志记录中，共发现有10 种设备，分别为：KERNEL、APP、DISCOVERY、CMCS、LINKCARD、SERV_NET、 HARDWARE、MONITOR、MMCS、BGLMASTER；

8)日志事件等级：在BlueGene/L超级计算机的日志记录中，共发现有6种级别的时间类型，分别为：INFO、WARNING、SEVERE、ERROR、FATAL、FAILURE。 INFO等级的事件表示信息，指的是某一个操作或者状态发生了改变，该等级不会影响系统的正常运行，WARNING等级的事件表示警告，该等级表示系统存在非正常工作的节点，SEVERE等级的事件表示严重，该等级是对警告事件的进一步描述，ERROR等级的事件表示错误，这个等级表示的是错误已经发生了，需要引起注意，FATAL等级的事件表示致命，这个等级的事件表示发生了致命的错误，比ERROR严重，往往会导致系统、应用程序无法再正常运行，FAILURE等级的事件表示故障时间，这一等级是指系统已经崩溃，无法正常运行。这一标签也是进行故障预测时判断日志事件是否为故障事件的重要标志。FATAL和 FAILURE级别表示系统或应用程序崩溃，这两种日志数据表示的就是故障日志数据；

9)日志事件描述：简单描述日志事件的内容；

S2、对日志数据进行筛选并构建初始特征数据

初始特征数据为：

1)初始特征数据分为两部分：一部分为观测窗口特征，一部分为当前时间窗口特征。因为越临近故障发生时间，故障预兆特征就越明显，统计当前时间窗口的特征。

2)由于日志数据中共有六种日志事件等级，所以需要统计观测窗口的这六种等级事件的数量和当前时间窗口这六种等级事件的数量，分别为：观测窗口的 INFO等级事件的数量(INFONUM)，WARNING等级事件的数量(WARNINGNUM)，SEVERE等级事件的数量(SEVERENUM)，ERROR等级事件的数量(ERRORNUM)，FATAL等级事件的数量(FATALNUM)和FAILURE 等级事件的数量(FAILURENUM)共6个特征，以及当前时间窗口的INFO等级事件的数量(InfoNum)，WARNING等级事件的数量(WarningNum)，SEVERE 等级事件的数量(SevereNum)，ERROR等级事件的数量(ErrorNum)，FATAL 等级事件的数量(FatalNum)和FAILURE等级事件的数量(FailureNum)共6 个特征。

3)日志数据中，产生日志记录的设备共有10种类型设备，每种设备在观测窗口的故障事件数量，也就是FATAL和FAILURE等级的事件数量，分别为 KERNEL设备故障事件数量(KERNELNUM)、APP设备故障事件数量(APPNUM)、DISCOVERY设备故障事件数量(DISCOVERYNUM)、CMCS设备故障事件数量(CMCSNUM)、LINKCARD设备故障事件数量(LINKCARDNUM)、SERV_NET设备故障事件数量(SERV_NETNUM)、 HARDWARE设备故障事件数量(HARDWARENUM)、MONITOR设备故障事件数量(MONITORNUM)、MMCS设备故障事件数量(MMCSNUM)、 BGLMASTER设备故障事件数量(BGLMASTERNUM)

S3、构建随机森林模型并进行特征选择

请参阅图1，针对日志数据进行清洗筛选，之后由n个单位时间窗口构建成观测时间窗口，然后去预测出预测窗口中是否有故障发生，预测窗口为单位时间窗口。

单位时间窗口为5分钟。

观测时间段内的各项预测数据Y为：

Y＝f(P(t))

其中，f表示要求解的模型，P(t)为所有特征数据组成的向量，t∈(1,n)。

随机森林故障预测模型的参数设置如下：

n_estimators设置为20。

max_depth设置为50。

min_samples_leaf设置为20。

min_samples_split设置为30。

特征选择后保留下来的特征包括：ERRORNUM，FATALNUM， FAILURENUM，SevereNum，ErrorNum，FatalNum，FailureNum，MONITORNUM， MMCSNUM，DISCOVERYNUM。

S4、将随机森林筛选出的特征数据输入至LSTM网络模型中进行故障预测。

LSTM网络模型参数设置如下：

时间步长设置为24(每5分钟为一个时间段，共2个小时)，即每个数据与之前24个时间段的数据相关联。

特征值设置为9。

ctivation即激活函数设置为'relu'。

Dropout设置为0.2。

Batch_size设置为196。

隐含层节点数设置为5。

基于随机森林的故障预测模型如表1所示：

表1.基于随机森林的故障预测模型

基于随机森林的特征选择如表2所示。

表2.基于随机森林的特征选择

基于LSTM的故障预测方法如表3所示。

表3.基于LSTM的故障预测方法

目前国内外对高性能计算机故障预测的研究虽然比较多，但是大多都没有在保证较高准确率的情况下对预测出来的故障采取手段处理。

预测结果如图5所示，在观察窗口为30min时，预测率高达76％，实现了较好的预测效果。

综上所述，本发明一种高性能计算机用混合神经网络故障预测方法及系统，通过随机森林对日志数据特征进行打分遴选，降低维度，这样可以减少训练复杂度，加快训练速度，同时利用长短期记忆网络对时间序列的数据预测效果良好的特性以及具有独特的记忆功能，对超级计算机日志数据进行故障预测，同时采取一种主动容错和被动容错相结合的容错机制，来对即将发生的故障问题进行处理。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种高性能计算机用混合神经网络故障预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S2中，数据清洗具体为：

3.根据权利要求1所述的方法，其特征在于，步骤S2中，使用Pearson相关系数法进行特征选择，两个成对变量的相关系数r如下：

4.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

5.根据权利要求4所述的方法，其特征在于，步骤S305中，特征重要度result计算如下：

result＝∑(err_OOB2-err_OOB1)/N

6.根据权利要求4所述的方法，其特征在于，步骤S306中，特征样本数据包括：ERROR等级事件的数量，FATAL等级事件的数量，FAILURE等级事件的数量，SEVERE等级事件的数量，ERROR等级事件的数量，FATAL等级事件的数量，FAILURE等级事件的数量，MONITOR设备故障事件数量，MMCS设备故障事件数量和DISCOVERY设备故障事件数量。

7.根据权利要求1所述的方法，其特征在于，步骤S4中，进行LSTM网络模型的故障预测具体为：

S402、LSTM网络模型输出得到结果输出概率p；

8.根据权利要求7所述的方法，其特征在于，步骤S402中，输出概率p为：

p＝f(Y_(t))

9.根据权利要求1所述的方法，其特征在于，使用主动容错和被动容错对步骤S4预测的即将发生的故障进行处理，具体为：

10.一种高性能计算机用混合神经网络故障预测系统，其特征在于，包括：

预测模块，将选择模块得到的特征样本数据输入LSTM网络模型中，使用LSTM网络模型对特征样本中是否存在故障事件进行预测。