CN114169651A - 一种基于应用相似性的超级计算机作业失败主动预测方法 - Google Patents

一种基于应用相似性的超级计算机作业失败主动预测方法 Download PDF

Info

Publication number
CN114169651A
CN114169651A CN202210132077.9A CN202210132077A CN114169651A CN 114169651 A CN114169651 A CN 114169651A CN 202210132077 A CN202210132077 A CN 202210132077A CN 114169651 A CN114169651 A CN 114169651A
Authority
CN
China
Prior art keywords
job
similarity
prediction
clustering
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210132077.9A
Other languages
English (en)
Other versions
CN114169651B (zh
Inventor
喻杰
鲜港
杨文祥
周隆放
王昉
王岳青
邓亮
杨志供
赵丹
陈呈
杨超
代喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Original Assignee
Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computational Aerodynamics Institute of China Aerodynamics Research and Development Center filed Critical Computational Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority to CN202210132077.9A priority Critical patent/CN114169651B/zh
Publication of CN114169651A publication Critical patent/CN114169651A/zh
Application granted granted Critical
Publication of CN114169651B publication Critical patent/CN114169651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于应用相似性的超级计算机作业失败主动预测方法,属于超级计算机领域,包括步骤:S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。本发明挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;实现预测效率高,能够实际应用于大型超级计算机。

Description

一种基于应用相似性的超级计算机作业失败主动预测方法
技术领域
本发明涉及超级计算机领域,更为具体的,涉及一种基于应用相似性的超级计算机作业失败主动预测方法。
背景技术
大量作业在超级计算机中提交并等待执行,但在作业的执行过程中可能会因为各种原因而导致作业失败,比如系统资源无法满足作业需求,内存错误以及软、硬件故障。与此同时,作业失败会造成系统资源浪费、延长排队中作业等待时间等不良影响,采用作业失败预测能够对用于减缓这些失败所造成的影响,因此如何有效预测作业失败对提升系统可靠性和系统资源利用率至关重要。
目前,对于超级计算机(高性能计算系统)的软、硬件故障的预测方法较多,而针对作业失败预测方法研究较为匮乏,并且主要采用一些统计学方法,如线性分析,二次判别分析进行预测作业失败,这类方法的核心思想是尝试寻找作业失败的线性可分关系,但是效果并不理想,因为这些方法需要大量的数据样本,计算效率不高。此外,用于预测失败的特征多为资源、性能属性,这些属性复杂多变,并不能够准确描述作业的应用特征,这也是采用线性分析思想的预测方法并不理想的原因。
发明内容
本发明的目的在于克服现有技术的不足,针对超级计算机现有作业失败预测方法中存在的问题,提供一种基于应用相似性的超级计算机作业失败主动预测方法,挖掘出了能够准确描述作业应用属性的特征,具有很好的预测提升效果;采用机器学习算法寻找作业失败预测方法,提升预测模型的鲁棒性,尤其适应非线性数据;对作业应用属性的聚类方法,显著降低聚类计算开销,降低误差;易于实现,实现预测效率高,能够实际应用于大型超级计算机。
本发明的目的是通过以下方案实现的:
一种基于应用相似性的超级计算机作业失败主动预测方法,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
进一步地,所述作业路径数据来自于额外监控信息。
进一步地,在步骤S1中所述预处理包括采用聚类预处理。
进一步地,在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
进一步地,在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
进一步地,在步骤S1中,在所述预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
进一步地,所述聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S102,将所述作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相似度算法:
Figure 913372DEST_PATH_IMAGE001
其中,最长公共子序列:
Figure 423988DEST_PATH_IMAGE003
其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,这里的i表示第一作业名的字符长度,这里的j表示第二作业名的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数;
S104,利用步骤S103中所述作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业名进行聚类操作。
进一步地,所述聚类预处理包括子步骤:
S111,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S112,将作业路径保留信息转为字母和“/”;
S113,基于莱文斯坦距离相似度算法设计如下作业路径相似度算法:
Figure 672567DEST_PATH_IMAGE004
其中,莱文斯坦距离:
Figure 661251DEST_PATH_IMAGE005
其中,
Figure 210044DEST_PATH_IMAGE006
表示两个作业路径之间的相似度,范围在0-1之间,
Figure 124517DEST_PATH_IMAGE007
表示路径长度为i的第一作业路径和路径长度为j的第二作业路径的莱文斯坦 距离,
Figure 860392DEST_PATH_IMAGE008
表示两个路径长度最长的取值,
Figure 793713DEST_PATH_IMAGE009
表示两个路径长度最小的取 值;
S114,利用步骤S113中所述作业路径相似度算法计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业路径进行聚类操作。
本发明的有益效果包括:
本发明实施例中提出的作业路径是一个全新的特征,首次出现在作业失败预测方案中,在具体方案应用中具有如下优点:
1.作业路径能够更加深入体现作业的工作模式,包含丰富语义信息,将作业路径作为新的预测输入特征,具有很好的预测提升效果。在具体实施例中,基于设计的作业名和作业路径聚类方法,所采用的机器学习算法,主要基于树模型的算法,可解释性强,并且实现简单、抗过拟合能力强、能够适应非线性数据
2.采用改进后的相似度聚类操作,不仅更好的保留语义组成信息及顺序,而且还能显著降低聚类计算开销。在具体实施例中,设计的作业名和作业路径聚类方法,通过在分析名称语义及组成的基础上,通过计算相似度的方式,既保留了语义关键信息及组成顺序模式,降低了计算开销,并且能够得到高相似性的应用类别,为后续预测提供准确的应用类别信息,降低误差。
3.基于设计的新输入特征,没有采用基于SVM分类的现有方案,而是采用多机器学习模型,动态选择最优模型,提升预测模型的鲁棒性,尤其适应非线性数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的应用相似性作业失败主动预测的整体框架;
图2为本发明实施例的粗粒度预测方法;
图3为本发明实施例的细粒度预测方法。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明实施例的附图包括图1、图2和图3。下面根据附图1~图3,对本发明解决的技术问题、技术构思、工作原理、工作过程和有益效果作进一步详细、充分地说明。
关于本发明要解决的技术问题之一,如背景技术中所述,现有的作业失败预测方法使用到的预测特征,基本为作业资源性能属性,属性复杂多变,并不能够很好的描述作业工作应用特性,并且采用的支持向量机要通过高维空间寻找决策平面以作业划分界限,很难达到有效拟合,计算开销较大。比较具有典型代表意义的现有技术文献资料可参见:刘春红, 韩晶晶, 商彦磊. 基于SVM分类的云集群失败作业主动预测方法[J]. 北京邮电大学学报, 2016, 39(005):104-109。
本发明旨在解决上述问题,技术构思和工作原理在于:为了实现挖掘出能够准确描述作业应用属性的特征,并采用机器学习算法主动寻找作业失败预测方法。本发明提供的方案中,总的超级计算机作业失败主动预测方法框架如图1所示。在超级计算机中提交的每一个作业的相关信息都将记录于作业日志中,在日志中包含了多种字段信息,如表1所示。
表1 作业日志信息
类别 字段信息
ID标识 JobID, JobName, UID, User
时间 Submit, Eligible, Start, End
资源 ReqCPUS, AllocCPUS, NodeList, NNodes
作业状态 State
在这些字段中,作业状态(State)为本发明的预测目标,包括两种类型:成功作业(COMPLETED)和失败作业(FAILED)。预测方法中的输入特征来源为作业执行前可获得的相关字段信息,例如包括作业名(JobName),作业提交时间(Submit),资源(ReqCPUS),节点数量(NNodes)。
此外,在本发明中,还使用了一种全新的特征输入为作业路径(Path),作业日志中并不包含此信息,它来源于额外监控信息,能够使路径中包含丰富的作业信息。例如,某项目使用的数据规模和参数,其路径示例为/home/Artorije/dove/vislabor2020/django_BOOT/A5B2_O。
用户在提交的作业中,存在大量具有相似作业名和作业路径的作业,这些作业具有相似的工作模式,认为具有相似作业名和作业路径的作业属于同一应用。因此,本发明为了更好的保留语义组成信息及顺序,降低聚类计算开销,分别设计了针对作业名和作业路径聚类的不同实现方式,具体技术方案如下:
(1)作业名聚类
作业名长度较短且主要由单词、缩写、数字和特殊字符组成,其中单词和缩写由字母组成,特殊字符包括‘-’、‘_’,‘+’,‘=’,‘(’,‘)’、‘.’等等。从语义优先级的角度出发,字母>数字>特殊字符。作业名组成模式主要分为三种情况:
表2 作业名组成模式
组成模式 组成描述
混合模式 字母+数字+特殊字符
字母主导 字母、字母+数字、字母+特殊字符
数字主导 数字、数字+特殊字符
实际上,当字母与数字同时出现在作业名中时,数字差别的影响较大且语义价值较小,远不如特殊字符的间隔作用,可视作冗余信息。因此,按照字符优先级:字母>特殊字符>数字,保留作业名信息,如表3:
表3 作业名保留信息
组成模式 保留作业名信息
混合模式+字母主导 字母+特殊字符
数字主导 数字+特殊字符
其中,认为同类大小写字母语义无差别,将保留作业名信息中字母全部转换为小写。
然后,采用基于最长公共子序列算法(LCS)提出相似度算法,具体算法设计如下:
Figure 56067DEST_PATH_IMAGE001
其中,最长公共子序列:
Figure 783852DEST_PATH_IMAGE010
如上算法命名为本发明的作业名相似度算法,其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,这里i表示作业名一的字符长度,j表示作业名二的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数。
利用上述作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用K-Means聚类算法(只要目的是将相似组成的作业名聚成一类,可以采用其他策略进行聚类操作,也能够达到一定的聚类效果,不限于K-Means聚类算法))对作业名进行聚类操作,在具体应用时,聚类结束指标可为:混合模式和字母主导模式下,每一类中作业名之间的相似度均大于0.8,字母主导模式下,每一类中作业名之间的相似度均大于0.6。
(2)作业路径聚类
作业路径的组成与作业名类似,不同的是作业路径较长,且在特殊字符中“/”的语义间隔作用最强。为减少冗余信息,本发明将作业路径保留信息为字母和“/”,使用基于莱文斯坦距离的相似度算法,设计具体的算法如下:
Figure 131656DEST_PATH_IMAGE004
其中,莱文斯坦距离:
Figure 337510DEST_PATH_IMAGE005
如上算法命名为本发明的作业路径相似度算法,其中,
Figure 454370DEST_PATH_IMAGE006
表示 两个作业路径之间的相似度,范围在0-1之间,
Figure 353056DEST_PATH_IMAGE007
表示作业路径一(路径长度为i) 和作业路径二(路径长度为j)的莱文斯坦距离,
Figure 329103DEST_PATH_IMAGE008
表示两个路径长度最长的取值;
Figure 699166DEST_PATH_IMAGE009
表示两个路径长度最小的取值。
利用上述作业路径相似度算法,计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用K-Means聚类算法(只要目的是将相似组成的作业路径名聚成一类,可以采用其他策略进行聚类操作,也能够达到一定的聚类效果,不限于K-Means聚类算法)对作业路径进行聚类操作,在具体应用时,聚类结束指标可为:每一类中作业路径之间的相似度均大于0.8。
基于上述设计的作业名相似度算法和作业路径相似度算法,本发明在具体应用时,可再提出两种不同的作业失败主动预测方法,具体技术方案如下:
(1)粗粒度预测方法
如图2所示,将处理好的训练数据信息与三种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
(2)细粒度预测方法
由于,每个用户的专业领域及工程应用不同,如图3所示,为每个用户单独使用机器学习算法构建预测模型,根据预测指标动态选择最优预测模型,预测指标以能够识别更多失败作业为目的,以适应不同用户的作业应用情况。
在现有的作业预测方法中,没有通过从字符语义分析的角度预测作业失败的方案,并且本发明实施例中提出的作业路径是一个全新的特征,首次出现在作业失败预测方案中。与现有的作业失败预测方法相比,优点在于:
1.作业路径能够更加深入体现作业的工作模式,包含丰富语义信息,将作业路径作为新的预测输入特征,具有很好的预测提升效果。
2.采用改进后的相似度聚类操作,不仅更好的保留语义组成信息及顺序,而且还能显著降低聚类计算开销。
3.基于设计的新输入特征,没有采用基于SVM分类的现有方案,而是采用多机器学习模型,动态选择最优模型,提升预测模型的鲁棒性,尤其适应非线性数据。
本发明的技术特征相比较现有技术,具有如下技术进步性:
1.本发明在具体实施中,所设计的作业名和作业路径聚类方法,通过在分析名称语义及组成的基础上,通过计算相似度的方式,既保留了语义关键信息及组成顺序模式,降低了计算开销,并且能够得到高相似性的应用类别,为后续预测提供准确的应用类别信息,降低误差。
2.本发明在具体实施中,基于上述设计的作业名和作业路径聚类方法,所采用的机器学习算法,主要基于树模型的算法,可解释性强,并且实现简单、抗过拟合能力强、能够适应非线性数据。
实施例1:一种基于应用相似性的超级计算机作业失败主动预测方法,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
实施例2:在实施例1的基础上,作业路径数据来自于额外监控信息。
实施例3:在实施例1的基础上,在步骤S1中预处理包括采用聚类预处理。
实施例4:在实施例1的基础上,在步骤S2中对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
实施例5:在实施例1的基础上,在步骤S2中对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
实施例6:在实施例1的基础上,在步骤S1中,在预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
实施例7:在实施例3的基础上,聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S102,将作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相相似度算法:
Figure 77058DEST_PATH_IMAGE001
其中,最长公共子序列:
Figure 5700DEST_PATH_IMAGE011
其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,i表示作业名一的字符长度,j表示作业名二的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数。
S104,利用步骤S103中作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业名进行聚类操作。
实施例8:在实施例3或7的基础上,聚类预处理包括子步骤:
S111,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S112,将作业路径保留信息转为字母和“/”;
S113,基于莱文斯坦距离相似度算法设计如下作业路径相似度算法:
Figure 203463DEST_PATH_IMAGE004
其中,莱文斯坦距离:
Figure 16698DEST_PATH_IMAGE005
其中,
Figure 108151DEST_PATH_IMAGE006
表示两个作业路径之间的相似度,范围在0-1之间,
Figure 614219DEST_PATH_IMAGE007
表示作业路径一(路径长度为i)和作业路径二(路径长度为j)的莱文斯坦距离,
Figure 158332DEST_PATH_IMAGE008
表示两个路径长度最长的取值;
Figure 509679DEST_PATH_IMAGE009
表示两个路径长度最小的取值;
S114,利用步骤S113中作业路径相似度算法计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业路径进行聚类操作。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,包括步骤:
S1,从作业日志中提取特征数据,并加入作业路径数据后一起作预处理,然后作为机器学习算法模型的输入特征;
S2,在机器学习算法模型对输入特征数据进行处理后,实现主动预测作业失败状态。
2.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,所述作业路径数据来自于额外监控信息。
3.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S1中所述预处理包括采用聚类预处理。
4.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S2中所述对输入特征数据进行处理包括粗粒度预测处理,将处理好的训练数据信息与多种不同的机器学习模型进行拟合训练,根据目的需求选择训练效果最好的预测模型。
5.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S2中所述对输入特征数据进行处理包括细粒度预测处理,每个用户单独使用机器学习算法构建预测模型,动态选择最优预测模型,以适应不同用户需求。
6.根据权利要求1所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,在步骤S1中,在所述预处理后,且作为机器学习算法模型的输入特征前包括过滤子步骤:过滤用户作业,过滤掉对用户而言无意义的作业。
7.根据权利要求3所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,所述聚类预处理包括作业名聚类子步骤:
S101,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S102,将所述作业名保留信息中字母全部转换为小写;
S103,基于最长公共子序列算法LCS设计如下作业名相似度算法:
Figure 124309DEST_PATH_IMAGE001
其中,最长公共子序列算法:
Figure 598016DEST_PATH_IMAGE002
其中,Sx,y(i,j)表示作业名x和作业名y的最长公共子序列相似度,范围在0-1之间,c[i,j]表示两个作业名之间的最长公共子序列长度,这里的i表示第一作业名的字符长度,这里的j表示第二作业名的字符长度,xi和yj分别表示作业名x和作业名y的字符组成序列,max表示最大值函数;
S104,利用步骤S103中所述作业名相似度算法计算两两作业名之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业名进行聚类操作。
8.根据权利要求3所述的基于应用相似性的超级计算机作业失败主动预测方法,其特征在于,所述聚类预处理包括子步骤:
S111,从语义优先级的角度出发去除冗余信息,然后根据作业名组成模式设置作业名保留信息;
S112,将作业路径保留信息转为字母和“/”;
S113,基于莱文斯坦距离相似度算法设计如下作业路径相似度算法:
Figure 193208DEST_PATH_IMAGE003
其中,莱文斯坦距离:
Figure 879404DEST_PATH_IMAGE004
其中,
Figure 758498DEST_PATH_IMAGE005
表示两个作业路径之间的相似度,范围在0-1之间,
Figure 403106DEST_PATH_IMAGE006
表示第一作业路径和第二作业路径的莱文斯坦距离,
Figure 984129DEST_PATH_IMAGE007
表示两个路径 长度最长的取值,
Figure 739595DEST_PATH_IMAGE008
表示两个路径长度最小的取值;
S114,利用步骤S113中所述作业路径相似度算法计算两两作业路径之间的距离相似度,形成相似度矩阵,再采用聚类算法对作业路径进行聚类操作。
CN202210132077.9A 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法 Active CN114169651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210132077.9A CN114169651B (zh) 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210132077.9A CN114169651B (zh) 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法

Publications (2)

Publication Number Publication Date
CN114169651A true CN114169651A (zh) 2022-03-11
CN114169651B CN114169651B (zh) 2022-04-19

Family

ID=80489862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210132077.9A Active CN114169651B (zh) 2022-02-14 2022-02-14 一种基于应用相似性的超级计算机作业失败主动预测方法

Country Status (1)

Country Link
CN (1) CN114169651B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069143A (zh) * 2023-04-06 2023-05-05 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
US20190034207A1 (en) * 2017-03-16 2019-01-31 Flexera Software Llc Calculating wait time for batch scheduler jobs
CN111027615A (zh) * 2019-12-05 2020-04-17 江苏方天电力技术有限公司 基于机器学习的中间件故障预警方法和系统
US20200293946A1 (en) * 2019-03-15 2020-09-17 Accenture Global Solutions Limited Machine learning based incident classification and resolution
CN113138841A (zh) * 2020-01-17 2021-07-20 华为技术有限公司 一种资源调度方法以及资源调度系统
CN113254517A (zh) * 2021-05-22 2021-08-13 北京德风新征程科技有限公司 一种基于互联网大数据的服务提供方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
CN105468677A (zh) * 2015-11-13 2016-04-06 国家计算机网络与信息安全管理中心 一种基于图结构的日志聚类方法
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
US20190034207A1 (en) * 2017-03-16 2019-01-31 Flexera Software Llc Calculating wait time for batch scheduler jobs
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
US20200293946A1 (en) * 2019-03-15 2020-09-17 Accenture Global Solutions Limited Machine learning based incident classification and resolution
CN111027615A (zh) * 2019-12-05 2020-04-17 江苏方天电力技术有限公司 基于机器学习的中间件故障预警方法和系统
CN113138841A (zh) * 2020-01-17 2021-07-20 华为技术有限公司 一种资源调度方法以及资源调度系统
CN113254517A (zh) * 2021-05-22 2021-08-13 北京德风新征程科技有限公司 一种基于互联网大数据的服务提供方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEXANDRA DELUCIA等: "Work in Progress:Topic Modeling for HPC Job State Prediction", 《MLCS"18: PROCEEDINGS OF THE FIRST WORKSHOP ON MACHINE LEARNING FOR COMPUTING SYSTEMS》 *
MAURICIO HANZICH等: "On/Off-Line Prediction Applied to Job Scheduling on Non-Dedicated NOWs", 《JOURNAL OF COMPUTER SCIENCE & TECHNOLOGY》 *
付晓毓等: "一种基于日志结合分析的集群系统失效预测方法", 《高技术通讯》 *
侯建萍: "农业信息云平台作业失败预测算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
刘春红等: "基于SVM分类的云集群失败作业主动预测方法", 《北京邮电大学学报》 *
贾统等: "基于日志数据的分布式软件系统故障诊断综述", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069143A (zh) * 2023-04-06 2023-05-05 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统

Also Published As

Publication number Publication date
CN114169651B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
US11275743B2 (en) System and method for analyzing data records
CN111723209A (zh) 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
US20100161611A1 (en) Systems and methods for characterizing linked documents using a latent topic model
WO2021258848A1 (zh) 数据字典生成方法、数据查询方法、装置、设备及介质
CN108664635B (zh) 数据库统计信息的获取方法、装置、设备和存储介质
CN114169651B (zh) 一种基于应用相似性的超级计算机作业失败主动预测方法
CN114420215A (zh) 基于生成树的大规模生物数据聚类方法及系统
CN112035230A (zh) 一种任务调度文件生成方法、装置及存储介质
CN110888876A (zh) 生成数据库脚本的方法、装置、存储介质及计算机设备
CN112527300A (zh) 面向多目标的细粒度编译自调优方法
CN113656440A (zh) 一种数据库语句优化方法、装置及设备
CN111859984B (zh) 意图挖掘方法、装置、设备及存储介质
CN112560416B (zh) 页面图表生成方法、装置、电子设备及存储介质
CN115757304A (zh) 一种日志存储方法、装置、系统、电子设备及存储介质
CN115062567B (zh) 图数据中邻接节点集合的缩合操作方法、装置及电子设备
CN111475295A (zh) 软硬件分层管理方法、装置及计算机可读存储介质
CN117390064B (zh) 一种基于可嵌入子图的数据库查询优化方法
CN109710419A (zh) 基于文本分析的mpi代码通信过程解析方法
CN117093638B (zh) 一种微服务数据初始化方法、系统、电子设备及存储介质
CN111738005A (zh) 命名实体对齐方法、装置、电子设备及可读存储介质
CN114416694A (zh) 一种自动分库分表方法、装置、设备及存储介质
Zaojian et al. Semi-supervised Power Microservices Log Anomaly Detection Based on BiLSTM and BERT with Attention
Slavin Optimizing the performance of a server-based classification for a large business document flow
CN115146692A (zh) 数据聚类方法、装置、电子设备及可读存储介质
CN116431556A (zh) 一种基于自适应执行引擎的sql路由方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant