CN114169651A

CN114169651A - 一种基于应用相似性的超级计算机作业失败主动预测方法

Info

Publication number: CN114169651A
Application number: CN202210132077.9A
Authority: CN
Inventors: 喻杰; 鲜港; 杨文祥; 周隆放; 王昉; 王岳青; 邓亮; 杨志供; 赵丹; 陈呈; 杨超; 代喆
Original assignee: Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Current assignee: Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-03-11
Anticipated expiration: 2042-02-14
Also published as: CN114169651B

Abstract

本发明公开了一种基于应用相似性的超级计算机作业失败主动预测方法，属于超级计算机领域，包括步骤：S1，从作业日志中提取特征数据，并加入作业路径数据后一起作预处理，然后作为机器学习算法模型的输入特征；S2，在机器学习算法模型对输入特征数据进行处理后，实现主动预测作业失败状态。本发明挖掘出了能够准确描述作业应用属性的特征，具有很好的预测提升效果；采用机器学习算法寻找作业失败预测方法，提升预测模型的鲁棒性，尤其适应非线性数据；对作业应用属性的聚类方法，显著降低聚类计算开销，降低误差；实现预测效率高，能够实际应用于大型超级计算机。

Description

一种基于应用相似性的超级计算机作业失败主动预测方法

技术领域

本发明涉及超级计算机领域，更为具体的，涉及一种基于应用相似性的超级计算机作业失败主动预测方法。

背景技术

大量作业在超级计算机中提交并等待执行，但在作业的执行过程中可能会因为各种原因而导致作业失败，比如系统资源无法满足作业需求，内存错误以及软、硬件故障。与此同时，作业失败会造成系统资源浪费、延长排队中作业等待时间等不良影响，采用作业失败预测能够对用于减缓这些失败所造成的影响，因此如何有效预测作业失败对提升系统可靠性和系统资源利用率至关重要。

目前，对于超级计算机（高性能计算系统）的软、硬件故障的预测方法较多，而针对作业失败预测方法研究较为匮乏，并且主要采用一些统计学方法，如线性分析，二次判别分析进行预测作业失败，这类方法的核心思想是尝试寻找作业失败的线性可分关系，但是效果并不理想，因为这些方法需要大量的数据样本，计算效率不高。此外，用于预测失败的特征多为资源、性能属性，这些属性复杂多变，并不能够准确描述作业的应用特征，这也是采用线性分析思想的预测方法并不理想的原因。

发明内容

本发明的目的在于克服现有技术的不足，针对超级计算机现有作业失败预测方法中存在的问题，提供一种基于应用相似性的超级计算机作业失败主动预测方法，挖掘出了能够准确描述作业应用属性的特征，具有很好的预测提升效果；采用机器学习算法寻找作业失败预测方法，提升预测模型的鲁棒性，尤其适应非线性数据；对作业应用属性的聚类方法，显著降低聚类计算开销，降低误差；易于实现，实现预测效率高，能够实际应用于大型超级计算机。

本发明的目的是通过以下方案实现的：

一种基于应用相似性的超级计算机作业失败主动预测方法，包括步骤：

S1，从作业日志中提取特征数据，并加入作业路径数据后一起作预处理，然后作为机器学习算法模型的输入特征；

S2，在机器学习算法模型对输入特征数据进行处理后，实现主动预测作业失败状态。

进一步地，所述作业路径数据来自于额外监控信息。

进一步地，在步骤S1中所述预处理包括采用聚类预处理。

进一步地，在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理，将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练，根据目的需求选择训练效果最好的预测模型。

进一步地，在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理，每个用户单独使用机器学习算法构建预测模型，动态选择最优预测模型，以适应不同用户需求。

进一步地，在步骤S1中，在所述预处理后，且作为机器学习算法模型的输入特征前包括过滤子步骤：过滤用户作业，过滤掉对用户而言无意义的作业。

进一步地，所述聚类预处理包括作业名聚类子步骤：

S101，从语义优先级的角度出发去除冗余信息，然后根据作业名组成模式设置作业名保留信息；

S102，将所述作业名保留信息中字母全部转换为小写；

S103，基于最长公共子序列算法LCS设计如下作业名相似度算法：

其中，最长公共子序列：

其中，S_x,y(i,j)表示作业名x和作业名y的最长公共子序列相似度，范围在0-1之间，c[i,j]表示两个作业名之间的最长公共子序列长度，这里的i表示第一作业名的字符长度，这里的j表示第二作业名的字符长度，x_i和y_j分别表示作业名x和作业名y的字符组成序列，max表示最大值函数；

S104，利用步骤S103中所述作业名相似度算法计算两两作业名之间的距离相似度，形成相似度矩阵，再采用聚类算法对作业名进行聚类操作。

进一步地，所述聚类预处理包括子步骤：

S111，从语义优先级的角度出发去除冗余信息，然后根据作业名组成模式设置作业名保留信息；

S112，将作业路径保留信息转为字母和“/”；

S113，基于莱文斯坦距离相似度算法设计如下作业路径相似度算法：

其中，莱文斯坦距离：

其中，

表示两个作业路径之间的相似度，范围在0-1之间，

表示路径长度为i的第一作业路径和路径长度为j的第二作业路径的莱文斯坦距离，

表示两个路径长度最长的取值，

表示两个路径长度最小的取值；

S114，利用步骤S113中所述作业路径相似度算法计算两两作业路径之间的距离相似度，形成相似度矩阵，再采用聚类算法对作业路径进行聚类操作。

本发明的有益效果包括：

本发明实施例中提出的作业路径是一个全新的特征，首次出现在作业失败预测方案中，在具体方案应用中具有如下优点：

1.作业路径能够更加深入体现作业的工作模式，包含丰富语义信息，将作业路径作为新的预测输入特征，具有很好的预测提升效果。在具体实施例中，基于设计的作业名和作业路径聚类方法，所采用的机器学习算法，主要基于树模型的算法，可解释性强，并且实现简单、抗过拟合能力强、能够适应非线性数据

2.采用改进后的相似度聚类操作，不仅更好的保留语义组成信息及顺序，而且还能显著降低聚类计算开销。在具体实施例中，设计的作业名和作业路径聚类方法，通过在分析名称语义及组成的基础上，通过计算相似度的方式，既保留了语义关键信息及组成顺序模式，降低了计算开销，并且能够得到高相似性的应用类别，为后续预测提供准确的应用类别信息，降低误差。

3.基于设计的新输入特征，没有采用基于SVM分类的现有方案，而是采用多机器学习模型，动态选择最优模型，提升预测模型的鲁棒性，尤其适应非线性数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的应用相似性作业失败主动预测的整体框架；

图2为本发明实施例的粗粒度预测方法；

图3为本发明实施例的细粒度预测方法。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

本发明实施例的附图包括图1、图2和图3。下面根据附图1~图3，对本发明解决的技术问题、技术构思、工作原理、工作过程和有益效果作进一步详细、充分地说明。

关于本发明要解决的技术问题之一，如背景技术中所述，现有的作业失败预测方法使用到的预测特征，基本为作业资源性能属性，属性复杂多变，并不能够很好的描述作业工作应用特性，并且采用的支持向量机要通过高维空间寻找决策平面以作业划分界限，很难达到有效拟合，计算开销较大。比较具有典型代表意义的现有技术文献资料可参见：刘春红, 韩晶晶, 商彦磊. 基于SVM分类的云集群失败作业主动预测方法[J]. 北京邮电大学学报, 2016, 39(005):104-109。

本发明旨在解决上述问题，技术构思和工作原理在于：为了实现挖掘出能够准确描述作业应用属性的特征，并采用机器学习算法主动寻找作业失败预测方法。本发明提供的方案中，总的超级计算机作业失败主动预测方法框架如图1所示。在超级计算机中提交的每一个作业的相关信息都将记录于作业日志中，在日志中包含了多种字段信息，如表1所示。

表1 作业日志信息

类别	字段信息
		ID标识	JobID, JobName, UID, User
时间	Submit, Eligible, Start, End
		资源	ReqCPUS, AllocCPUS, NodeList, NNodes
作业状态	State

在这些字段中，作业状态（State）为本发明的预测目标，包括两种类型：成功作业（COMPLETED）和失败作业（FAILED）。预测方法中的输入特征来源为作业执行前可获得的相关字段信息，例如包括作业名（JobName），作业提交时间（Submit），资源（ReqCPUS），节点数量（NNodes）。

此外，在本发明中，还使用了一种全新的特征输入为作业路径（Path），作业日志中并不包含此信息，它来源于额外监控信息，能够使路径中包含丰富的作业信息。例如，某项目使用的数据规模和参数，其路径示例为/home/Artorije/dove/vislabor2020/django_BOOT/A5B2_O。

用户在提交的作业中，存在大量具有相似作业名和作业路径的作业，这些作业具有相似的工作模式，认为具有相似作业名和作业路径的作业属于同一应用。因此，本发明为了更好的保留语义组成信息及顺序，降低聚类计算开销，分别设计了针对作业名和作业路径聚类的不同实现方式，具体技术方案如下：

（1）作业名聚类

作业名长度较短且主要由单词、缩写、数字和特殊字符组成，其中单词和缩写由字母组成，特殊字符包括‘-’、‘_’,‘+’，‘=’，‘（’，‘）’、‘.’等等。从语义优先级的角度出发，字母>数字>特殊字符。作业名组成模式主要分为三种情况：

表2 作业名组成模式

组成模式	组成描述
		混合模式	字母+数字+特殊字符
字母主导	字母、字母+数字、字母+特殊字符
		数字主导	数字、数字+特殊字符

实际上，当字母与数字同时出现在作业名中时，数字差别的影响较大且语义价值较小，远不如特殊字符的间隔作用，可视作冗余信息。因此，按照字符优先级：字母>特殊字符>数字，保留作业名信息，如表3：

表3 作业名保留信息

组成模式	保留作业名信息
		混合模式+字母主导	字母+特殊字符
数字主导	数字+特殊字符

其中，认为同类大小写字母语义无差别，将保留作业名信息中字母全部转换为小写。

然后，采用基于最长公共子序列算法（LCS）提出相似度算法，具体算法设计如下：

其中，最长公共子序列：

如上算法命名为本发明的作业名相似度算法，其中，S_x,y(i,j)表示作业名x和作业名y的最长公共子序列相似度，范围在0-1之间，c[i,j]表示两个作业名之间的最长公共子序列长度，这里i表示作业名一的字符长度，j表示作业名二的字符长度，x_i和y_j分别表示作业名x和作业名y的字符组成序列，max表示最大值函数。

利用上述作业名相似度算法计算两两作业名之间的距离相似度，形成相似度矩阵，再采用K-Means聚类算法（只要目的是将相似组成的作业名聚成一类，可以采用其他策略进行聚类操作，也能够达到一定的聚类效果，不限于K-Means聚类算法））对作业名进行聚类操作，在具体应用时，聚类结束指标可为：混合模式和字母主导模式下，每一类中作业名之间的相似度均大于0.8，字母主导模式下，每一类中作业名之间的相似度均大于0.6。

（2）作业路径聚类

作业路径的组成与作业名类似，不同的是作业路径较长，且在特殊字符中“/”的语义间隔作用最强。为减少冗余信息，本发明将作业路径保留信息为字母和“/”，使用基于莱文斯坦距离的相似度算法，设计具体的算法如下：

其中，莱文斯坦距离：

如上算法命名为本发明的作业路径相似度算法，其中，

表示两个作业路径之间的相似度，范围在0-1之间，

表示作业路径一（路径长度为i）和作业路径二（路径长度为j）的莱文斯坦距离，

表示两个路径长度最长的取值；

表示两个路径长度最小的取值。

利用上述作业路径相似度算法，计算两两作业路径之间的距离相似度，形成相似度矩阵，再采用K-Means聚类算法（只要目的是将相似组成的作业路径名聚成一类，可以采用其他策略进行聚类操作，也能够达到一定的聚类效果，不限于K-Means聚类算法）对作业路径进行聚类操作，在具体应用时，聚类结束指标可为：每一类中作业路径之间的相似度均大于0.8。

基于上述设计的作业名相似度算法和作业路径相似度算法，本发明在具体应用时，可再提出两种不同的作业失败主动预测方法，具体技术方案如下：

（1）粗粒度预测方法

如图2所示，将处理好的训练数据信息与三种不同的机器学习模型进行拟合训练，根据目的需求选择训练效果最好的预测模型。

（2）细粒度预测方法

由于，每个用户的专业领域及工程应用不同，如图3所示，为每个用户单独使用机器学习算法构建预测模型，根据预测指标动态选择最优预测模型，预测指标以能够识别更多失败作业为目的，以适应不同用户的作业应用情况。

在现有的作业预测方法中，没有通过从字符语义分析的角度预测作业失败的方案，并且本发明实施例中提出的作业路径是一个全新的特征，首次出现在作业失败预测方案中。与现有的作业失败预测方法相比，优点在于：

1.作业路径能够更加深入体现作业的工作模式，包含丰富语义信息，将作业路径作为新的预测输入特征，具有很好的预测提升效果。

2.采用改进后的相似度聚类操作，不仅更好的保留语义组成信息及顺序，而且还能显著降低聚类计算开销。

本发明的技术特征相比较现有技术，具有如下技术进步性：

1.本发明在具体实施中，所设计的作业名和作业路径聚类方法，通过在分析名称语义及组成的基础上，通过计算相似度的方式，既保留了语义关键信息及组成顺序模式，降低了计算开销，并且能够得到高相似性的应用类别，为后续预测提供准确的应用类别信息，降低误差。

2.本发明在具体实施中，基于上述设计的作业名和作业路径聚类方法，所采用的机器学习算法，主要基于树模型的算法，可解释性强，并且实现简单、抗过拟合能力强、能够适应非线性数据。

实施例1：一种基于应用相似性的超级计算机作业失败主动预测方法，包括步骤：

实施例2：在实施例1的基础上，作业路径数据来自于额外监控信息。

实施例3：在实施例1的基础上，在步骤S1中预处理包括采用聚类预处理。

实施例4：在实施例1的基础上，在步骤S2中对输入特征数据进行处理包括粗粒度预测处理，将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练，根据目的需求选择训练效果最好的预测模型。

实施例5：在实施例1的基础上，在步骤S2中对输入特征数据进行处理包括细粒度预测处理，每个用户单独使用机器学习算法构建预测模型，动态选择最优预测模型，以适应不同用户需求。

实施例6：在实施例1的基础上，在步骤S1中，在预处理后，且作为机器学习算法模型的输入特征前包括过滤子步骤：过滤用户作业，过滤掉对用户而言无意义的作业。

实施例7：在实施例3的基础上，聚类预处理包括作业名聚类子步骤：

S102，将作业名保留信息中字母全部转换为小写；

S103，基于最长公共子序列算法LCS设计如下作业名相相似度算法：

其中，最长公共子序列：

其中，S_x,y(i,j)表示作业名x和作业名y的最长公共子序列相似度，范围在0-1之间，c[i,j]表示两个作业名之间的最长公共子序列长度，i表示作业名一的字符长度，j表示作业名二的字符长度，x_i和y_j分别表示作业名x和作业名y的字符组成序列，max表示最大值函数。

S104，利用步骤S103中作业名相似度算法计算两两作业名之间的距离相似度，形成相似度矩阵，再采用聚类算法对作业名进行聚类操作。

实施例8：在实施例3或7的基础上，聚类预处理包括子步骤：

S112，将作业路径保留信息转为字母和“/”；

其中，莱文斯坦距离：

其中，

表示两个作业路径之间的相似度，范围在0-1之间，

表示两个路径长度最长的取值；

表示两个路径长度最小的取值；

S114，利用步骤S113中作业路径相似度算法计算两两作业路径之间的距离相似度，形成相似度矩阵，再采用聚类算法对作业路径进行聚类操作。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，所述作业路径数据来自于额外监控信息。

3.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，在步骤S1中所述预处理包括采用聚类预处理。

4.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理，将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练，根据目的需求选择训练效果最好的预测模型。

5.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理，每个用户单独使用机器学习算法构建预测模型，动态选择最优预测模型，以适应不同用户需求。

6.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，在步骤S1中，在所述预处理后，且作为机器学习算法模型的输入特征前包括过滤子步骤：过滤用户作业，过滤掉对用户而言无意义的作业。

7.根据权利要求3所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，所述聚类预处理包括作业名聚类子步骤：

S102，将所述作业名保留信息中字母全部转换为小写；

其中，最长公共子序列算法：

8.根据权利要求3所述的基于应用相似性的超级计算机作业失败主动预测方法，其特征在于，所述聚类预处理包括子步骤：

S112，将作业路径保留信息转为字母和“/”；

其中，莱文斯坦距离：

其中，

表示两个作业路径之间的相似度，范围在0-1之间，

表示第一作业路径和第二作业路径的莱文斯坦距离，

表示两个路径长度最长的取值，

表示两个路径长度最小的取值；