CN114169651B - 一种基于应用相似性的超级计算机作业失败主动预测方法 - Google Patents

一种基于应用相似性的超级计算机作业失败主动预测方法 Download PDF

Info

Publication number
CN114169651B
CN114169651B CN202210132077.9A CN202210132077A CN114169651B CN 114169651 B CN114169651 B CN 114169651B CN 202210132077 A CN202210132077 A CN 202210132077A CN 114169651 B CN114169651 B CN 114169651B
Authority
CN
China
Prior art keywords
job
similarity
clustering
path
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210132077.9A
Other languages
English (en)
Other versions
CN114169651A (zh
Inventor
喻杰
鲜港
杨文祥
周隆放
王昉
王岳青
邓亮
杨志供
赵丹
陈呈
杨超
代喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Original Assignee
Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computational Aerodynamics Institute of China Aerodynamics Research and Development Center filed Critical Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority to CN202210132077.9A priority Critical patent/CN114169651B/zh
Publication of CN114169651A publication Critical patent/CN114169651A/zh
Application granted granted Critical
Publication of CN114169651B publication Critical patent/CN114169651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种基于应用相似性的超级计算机作业失败主动预测方法,属于超级计算机领域,包括步骤:S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。本发明挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;实现预测效率高,能够实际应用于大型超级计算机。

Description

一种基于应用相似性的超级计算机作业失败主动预测方法
技术领域
本发明涉及超级计算机领域,更为具体的,涉及一种基于应用相似性的超级计算机作业失败主动预测方法。
背景技术
大量作业在超级计算机中提交并等待执行,但在作业的执行过程中可能会因为各种原因而导致作业失败,比如系统资源无法满足作业需求,内存错误以及软、硬件故障。与此同时,作业失败会造成系统资源浪费、延长排队中作业等待时间等不良影响,采用作业失败预测能够对用于减缓这些失败所造成的影响,因此如何有效预测作业失败对提升系统可靠性和系统资源利用率至关重要。
目前,对于超级计算机(高性能计算系统)的软、硬件故障的预测方法较多,而针对作业失败预测方法研究较为匮乏,并且主要采用一些统计学方法,如线性分析,二次判别分析进行预测作业失败,这类方法的核心思想是尝试寻找作业失败的线性可分关系,但是效果并不理想,因为这些方法需要大量的数据样本,计算效率不高。此外,用于预测失败的特征多为资源、性能属性,这些属性复杂多变,并不能够准确描述作业的应用特征,这也是采用线性分析思想的预测方法并不理想的原因。
发明内容
本发明的目的在于克服现有技术的不足,针对超级计算机现有作业失败预测方法中存在的问题,提供一种基于应用相似性的超级计算机作业失败主动预测方法,挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;易于实现,实现预测效率高,能够实际应用于大型超级计算机。
本发明的目的是通过以下方案实现的:
一种基于应用相似性的超级计算机作业失败主动预测方法,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
进一步地,所述作业路径数据来自于额外监控信息。
进一步地,在步骤S1中所述预处理包括采用聚类预处理。
进一步地,在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
进一步地,在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
进一步地,在步骤S1中,在所述预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
进一步地,所述聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S102,将所述作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相似度算法:
Figure 913372DEST_PATH_IMAGE001
其中,最长公共子序列:
Figure 423988DEST_PATH_IMAGE003
其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,这里的i表示第一作业名的字符长度,这里的j表示第二作业名的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数;
S104,利用步骤S103中所述作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业名进行聚类操作。
进一步地,所述聚类预处理包括子步骤:
S111,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S112,将作业路径保留信息转为字母和“/”;
S113,基于莱文斯坦距离相似度算法设计如下作业路径相似度算法:
Figure 672567DEST_PATH_IMAGE004
其中,莱文斯坦距离:
Figure 661251DEST_PATH_IMAGE005
其中,
Figure 210044DEST_PATH_IMAGE006
表示两个作业路径之间的相似度,范围在0-1之间,
Figure 124517DEST_PATH_IMAGE007
表示路径长度为i的第一作业路径和路径长度为j的第二作业路径的莱文斯坦距 离,
Figure 860392DEST_PATH_IMAGE008
表示两个路径长度最长的取值,
Figure 793713DEST_PATH_IMAGE009
表示两个路径长度最小的取值;
S114,利用步骤S113中所述作业路径相似度算法计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业路径进行聚类操作。
本发明的有益效果包括:
本发明实施例中提出的作业路径是一个全新的特征,首次出现在作业失败预测方案中,在具体方案应用中具有如下优点:
1.作业路径能够更加深入体现作业的工作模式,包含丰富语义信息,将作业路径作为新的预测输入特征,具有很好的预测提升效果。在具体实施例中,基于设计的作业名和作业路径聚类方法,所采用的机器学习算法,主要基于树模型的算法,可解释性强,并且实现简单、抗过拟合能力强、能够适应非线性数据
2.采用改进后的相似度聚类操作,不仅更好的保留语义组成信息及顺序,而且还能显著降低聚类计算开销。在具体实施例中,设计的作业名和作业路径聚类方法,通过在分析名称语义及组成的基础上,通过计算相似度的方式,既保留了语义关键信息及组成顺序模式,降低了计算开销,并且能够得到高相似性的应用类别,为后续预测提供准确的应用类别信息,降低误差。
3.基于设计的新输入特征,没有采用基于SVM分类的现有方案,而是采用多机器学习模型,动态选择最优模型,提升预测模型的鲁棒性,尤其适应非线性数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的应用相似性作业失败主动预测的整体框架;
图2为本发明实施例的粗粒度预测方法;
图3为本发明实施例的细粒度预测方法。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明实施例的附图包括图1、图2和图3。下面根据附图1~图3,对本发明解决的技术问题、技术构思、工作原理、工作过程和有益效果作进一步详细、充分地说明。
关于本发明要解决的技术问题之一,如背景技术中所述,现有的作业失败预测方法使用到的预测特征,基本为作业资源性能属性,属性复杂多变,并不能够很好的描述作业工作应用特性,并且采用的支持向量机要通过高维空间寻找决策平面以作业划分界限,很难达到有效拟合,计算开销较大。比较具有典型代表意义的现有技术文献资料可参见:刘春红, 韩晶晶, 商彦磊. 基于SVM分类的云集群失败作业主动预测方法[J]. 北京邮电大学学报, 2016, 39(005):104-109。
本发明旨在解决上述问题,技术构思和工作原理在于:为了实现挖掘出能够准确描述作业应用属性的特征,并采用机器学习算法主动寻找作业失败预测方法。本发明提供的方案中,总的超级计算机作业失败主动预测方法框架如图1所示。在超级计算机中提交的每一个作业的相关信息都将记录于作业日志中,在日志中包含了多种字段信息,如表1所示。
表1 作业日志信息
类别 字段信息
ID标识 JobID, JobName, UID, User
时间 Submit, Eligible, Start, End
资源 ReqCPUS, AllocCPUS, NodeList, NNodes
作业状态 State
在这些字段中,作业状态(State)为本发明的预测目标,包括两种类型:成功作业(COMPLETED)和失败作业(FAILED)。预测方法中的输入特征来源为作业执行前可获得的相关字段信息,例如包括作业名(JobName),作业提交时间(Submit),资源(ReqCPUS),节点数量(NNodes)。
此外,在本发明中,还使用了一种全新的特征输入为作业路径(Path),作业日志中并不包含此信息,它来源于额外监控信息,能够使路径中包含丰富的作业信息。例如,某项目使用的数据规模和参数,其路径示例为/home/Artorije/dove/vislabor2020/django_BOOT/A5B2_O。
用户在提交的作业中,存在大量具有相似作业名和作业路径的作业,这些作业具有相似的工作模式,认为具有相似作业名和作业路径的作业属于同一应用。因此,本发明为了更好的保留语义组成信息及顺序,降低聚类计算开销,分别设计了针对作业名和作业路径聚类的不同实现方式,具体技术方案如下:
(1)作业名聚类
作业名长度较短且主要由单词、缩写、数字和特殊字符组成,其中单词和缩写由字母组成,特殊字符包括‘-’、‘_’,‘+’,‘=’,‘(’,‘)’、‘.’等等。从语义优先级的角度出发,字母>数字>特殊字符。作业名组成模式主要分为三种情况:
表2 作业名组成模式
组成模式 组成描述
混合模式 字母+数字+特殊字符
字母主导 字母、字母+数字、字母+特殊字符
数字主导 数字、数字+特殊字符
实际上,当字母与数字同时出现在作业名中时,数字差别的影响较大且语义价值较小,远不如特殊字符的间隔作用,可视作冗余信息。因此,按照字符优先级:字母>特殊字符>数字,保留作业名信息,如表3:
表3 作业名保留信息
组成模式 保留作业名信息
混合模式+字母主导 字母+特殊字符
数字主导 数字+特殊字符
其中,认为同类大小写字母语义无差别,将保留作业名信息中字母全部转换为小写。
然后,采用基于最长公共子序列算法(LCS)提出相似度算法,具体算法设计如下:
Figure 56067DEST_PATH_IMAGE001
其中,最长公共子序列:
Figure 783852DEST_PATH_IMAGE010
如上算法命名为本发明的作业名相似度算法,其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,这里i表示作业名一的字符长度,j表示作业名二的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数。
利用上述作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用K-Means聚类算法(只要目的是将相似组成的作业名聚成一类,可以采用其他策略进行聚类操作,也能够达到一定的聚类效果,不限于K-Means聚类算法))对作业名进行聚类操作,在具体应用时,聚类结束指标可为:混合模式和字母主导模式下,每一类中作业名之间的相似度均大于0.8,字母主导模式下,每一类中作业名之间的相似度均大于0.6。
(2)作业路径聚类
作业路径的组成与作业名类似,不同的是作业路径较长,且在特殊字符中“/”的语义间隔作用最强。为减少冗余信息,本发明将作业路径保留信息为字母和“/”,使用基于莱文斯坦距离的相似度算法,设计具体的算法如下:
Figure 131656DEST_PATH_IMAGE004
其中,莱文斯坦距离:
Figure 337510DEST_PATH_IMAGE005
如上算法命名为本发明的作业路径相似度算法,其中,
Figure 454370DEST_PATH_IMAGE006
表示两个 作业路径之间的相似度,范围在0-1之间,
Figure 353056DEST_PATH_IMAGE007
表示作业路径一(路径长度为i)和作业 路径二(路径长度为j)的莱文斯坦距离,
Figure 329103DEST_PATH_IMAGE008
表示两个路径长度最长的取值;
Figure 699166DEST_PATH_IMAGE009
表示两个路径长度最小的取值。
利用上述作业路径相似度算法,计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用K-Means聚类算法(只要目的是将相似组成的作业路径名聚成一类,可以采用其他策略进行聚类操作,也能够达到一定的聚类效果,不限于K-Means聚类算法)对作业路径进行聚类操作,在具体应用时,聚类结束指标可为:每一类中作业路径之间的相似度均大于0.8。
基于上述设计的作业名相似度算法和作业路径相似度算法,本发明在具体应用时,可再提出两种不同的作业失败主动预测方法,具体技术方案如下:
(1)粗粒度预测方法
如图2所示,将处理好的训练数据信息与三种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
(2)细粒度预测方法
由于,每个用户的专业领域及工程应用不同,如图3所示,为每个用户单独使用机器学习算法构建预测模型,根据预测指标动态选择最优预测模型,预测指标以能够识别更多失败作业为目的,以适应不同用户的作业应用情况。
在现有的作业预测方法中,没有通过从字符语义分析的角度预测作业失败的方案,并且本发明实施例中提出的作业路径是一个全新的特征,首次出现在作业失败预测方案中。与现有的作业失败预测方法相比,优点在于:
1.作业路径能够更加深入体现作业的工作模式,包含丰富语义信息,将作业路径作为新的预测输入特征,具有很好的预测提升效果。
2.采用改进后的相似度聚类操作,不仅更好的保留语义组成信息及顺序,而且还能显著降低聚类计算开销。
3.基于设计的新输入特征,没有采用基于SVM分类的现有方案,而是采用多机器学习模型,动态选择最优模型,提升预测模型的鲁棒性,尤其适应非线性数据。
本发明的技术特征相比较现有技术,具有如下技术进步性:
1.本发明在具体实施中,所设计的作业名和作业路径聚类方法,通过在分析名称语义及组成的基础上,通过计算相似度的方式,既保留了语义关键信息及组成顺序模式,降低了计算开销,并且能够得到高相似性的应用类别,为后续预测提供准确的应用类别信息,降低误差。
2.本发明在具体实施中,基于上述设计的作业名和作业路径聚类方法,所采用的机器学习算法,主要基于树模型的算法,可解释性强,并且实现简单、抗过拟合能力强、能够适应非线性数据。
实施例1:一种基于应用相似性的超级计算机作业失败主动预测方法,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
实施例2:在实施例1的基础上,作业路径数据来自于额外监控信息。
实施例3:在实施例1的基础上,在步骤S1中预处理包括采用聚类预处理。
实施例4:在实施例1的基础上,在步骤S2中对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
实施例5:在实施例1的基础上,在步骤S2中对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
实施例6:在实施例1的基础上,在步骤S1中,在预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
实施例7:在实施例3的基础上,聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S102,将作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相相似度算法:
Figure 77058DEST_PATH_IMAGE001
其中,最长公共子序列:
Figure 5700DEST_PATH_IMAGE011
其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,i表示作业名一的字符长度,j表示作业名二的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数。
S104,利用步骤S103中作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业名进行聚类操作。
实施例8:在实施例3或7的基础上,聚类预处理包括子步骤:
S111,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S112,将作业路径保留信息转为字母和“/”;
S113,基于莱文斯坦距离相似度算法设计如下作业路径相似度算法:
Figure 203463DEST_PATH_IMAGE004
其中,莱文斯坦距离:
Figure 16698DEST_PATH_IMAGE005
其中,
Figure 108151DEST_PATH_IMAGE006
表示两个作业路径之间的相似度,范围在0-1之间,
Figure 614219DEST_PATH_IMAGE007
表示作业路径一(路径长度为i)和作业路径二(路径长度为j)的莱文斯坦距离,
Figure 158332DEST_PATH_IMAGE008
表示两个路径长度最长的取值;
Figure 509679DEST_PATH_IMAGE009
表示两个路径长度最小的取值;
S114,利用步骤S113中作业路径相似度算法计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业路径进行聚类操作。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
在步骤S1中所述预处理包括采用聚类预处理;
所述聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发,对作业名组成模式按照字符优先级:字母>特殊字符>数字去除冗余信息得到作业名保留信息;
S102,将所述作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相似度算法:
Figure 253185DEST_PATH_IMAGE001
其中,最长公共子序列算法:
Figure 232643DEST_PATH_IMAGE002
其中,Sm,n(x,y)表示作业名m和作业名n的最长公共子序列相似度,范围在0-1之间,c[x,y]表示两个作业名之间的最长公共子序列长度,这里的x表示作业名一的字符长度,这里的y表示作业名二的字符长度,mx和ny分别表示作业名m和作业名n的字符组成序列,max表示最大值函数;
S104,利用步骤S103中所述作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业名进行聚类操作;
所述聚类预处理包括作业路径聚类子步骤:
S111,从语义优先级的角度出发,对作业名组成模式按照字符优先级:字母>特殊字符>数字去除冗余信息得到作业路径保留信息;
S112,作业路径保留信息包括字母和“/”;
S113,基于莱文斯坦距离相似度算法设计如下作业路径相似度算法:
Figure 746801DEST_PATH_IMAGE003
其中,莱文斯坦距离:
Figure 486218DEST_PATH_IMAGE004
其中,
Figure 97328DEST_PATH_IMAGE005
表示两个作业路径之间的相似度,范围在0-1之间,
Figure 654211DEST_PATH_IMAGE006
表 示第一作业路径和第二作业路径的莱文斯坦距离,
Figure 468714DEST_PATH_IMAGE007
表示两个路径长度最长的取 值,
Figure 526669DEST_PATH_IMAGE008
表示两个路径长度最小的取值;
S114,利用步骤S113中所述作业路径相似度算法计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业路径进行聚类操作;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
2.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,所述作业路径数据来自于额外监控信息。
3.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
4.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
5.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S1中,在所述预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
CN202210132077.9A 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法 Active CN114169651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210132077.9A CN114169651B (zh) 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210132077.9A CN114169651B (zh) 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法

Publications (2)

Publication Number Publication Date
CN114169651A CN114169651A (zh) 2022-03-11
CN114169651B true CN114169651B (zh) 2022-04-19

Family

ID=80489862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210132077.9A Active CN114169651B (zh) 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法

Country Status (1)

Country Link
CN (1) CN114169651B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069143B (zh) * 2023-04-06 2023-07-18 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN111027615A (zh) * 2019-12-05 2020-04-17 江苏方天电力技术有限公司 基于机器学习的中间件故障预警方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202431B (zh) * 2016-07-13 2019-06-28 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
US10078520B1 (en) * 2017-03-16 2018-09-18 Flexera Software Llc Calculating wait time for batch scheduler jobs
US20200293946A1 (en) * 2019-03-15 2020-09-17 Accenture Global Solutions Limited Machine learning based incident classification and resolution
CN113138841A (zh) * 2020-01-17 2021-07-20 华为技术有限公司 一种资源调度方法以及资源调度系统
CN113254517A (zh) * 2021-05-22 2021-08-13 北京德风新征程科技有限公司 一种基于互联网大数据的服务提供方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN111027615A (zh) * 2019-12-05 2020-04-17 江苏方天电力技术有限公司 基于机器学习的中间件故障预警方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
On/Off-Line Prediction Applied to Job Scheduling on Non-Dedicated NOWs;Mauricio Hanzich等;《Journal of Computer Science & Technology》;20110228(第01期);第99-116页 *
Work in Progress:Topic Modeling for HPC Job State Prediction;Alexandra DeLucia等;《MLCS"18: Proceedings of the First Workshop on Machine Learning for Computing Systems》;20180612;第1-4页 *
一种基于日志结合分析的集群系统失效预测方法;付晓毓等;《高技术通讯》;20160615;第519-527页 *
农业信息云平台作业失败预测算法研究;侯建萍;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190115;第I139-386页 *
基于SVM分类的云集群失败作业主动预测方法;刘春红等;《北京邮电大学学报》;20161202;第39卷(第5期);第104-109页 *

Also Published As

Publication number Publication date
CN114169651A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
US20220171781A1 (en) System And Method For Analyzing Data Records
EP3796176B1 (en) Fault root cause analysis method and apparatus
CN111723209A (zh) 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
WO2021258848A1 (zh) 数据字典生成方法、数据查询方法、装置、设备及介质
CN108664635B (zh) 数据库统计信息的获取方法、装置、设备和存储介质
Hull et al. An integrated algorithm for text recognition: comparison with a cascaded algorithm
CN114169651B (zh) 一种基于应用相似性的超级计算机作业失败主动预测方法
CN110888876A (zh) 生成数据库脚本的方法、装置、存储介质及计算机设备
CN111859984B (zh) 意图挖掘方法、装置、设备及存储介质
CN112035230A (zh) 一种任务调度文件生成方法、装置及存储介质
CN112560416B (zh) 页面图表生成方法、装置、电子设备及存储介质
CN115757304A (zh) 一种日志存储方法、装置、系统、电子设备及存储介质
CN114047926A (zh) 数组计算表达语言的转换方法、装置、设备及存储介质
CN111475295A (zh) 软硬件分层管理方法、装置及计算机可读存储介质
CN115062567B (zh) 图数据中邻接节点集合的缩合操作方法、装置及电子设备
CN117093638B (zh) 一种微服务数据初始化方法、系统、电子设备及存储介质
CN117390064B (zh) 一种基于可嵌入子图的数据库查询优化方法
CN111159218B (zh) 数据处理方法、装置及可读存储介质
CN117033464B (zh) 一种基于聚类的日志并行解析算法及应用
Chen et al. AS-Parser: Log Parsing Based on Adaptive Segmentation
CN111738005A (zh) 命名实体对齐方法、装置、电子设备及可读存储介质
CN115146692A (zh) 数据聚类方法、装置、电子设备及可读存储介质
CN114416694A (zh) 一种自动分库分表方法、装置、设备及存储介质
CN114860923A (zh) 基于大数据的多维属性标签提取方法、系统、终端及介质
CN116431556A (zh) 一种基于自适应执行引擎的sql路由方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant