CN107577547A - 一种高性能集群的紧急作业续算方法以及系统 - Google Patents

一种高性能集群的紧急作业续算方法以及系统 Download PDF

Info

Publication number
CN107577547A
CN107577547A CN201710670787.6A CN201710670787A CN107577547A CN 107577547 A CN107577547 A CN 107577547A CN 201710670787 A CN201710670787 A CN 201710670787A CN 107577547 A CN107577547 A CN 107577547A
Authority
CN
China
Prior art keywords
keyword
error
reports
continuous
amendment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710670787.6A
Other languages
English (en)
Other versions
CN107577547B (zh
Inventor
都政
李志伟
刘建文
井革新
陈远磊
饶青雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Cloud Computing Center Co Ltd
NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Original Assignee
Shenzhen Cloud Computing Center Co Ltd
NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Cloud Computing Center Co Ltd, NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER) filed Critical Shenzhen Cloud Computing Center Co Ltd
Priority to CN201710670787.6A priority Critical patent/CN107577547B/zh
Publication of CN107577547A publication Critical patent/CN107577547A/zh
Application granted granted Critical
Publication of CN107577547B publication Critical patent/CN107577547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种高性能集群的紧急作业续算方法以及模块,方法包括:S100、实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词进入下一个步骤;S200、基于当前抓取到的报错关键词执行修正续算,如修正续算的过程中报错中断,则判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次执行修正续算;S300、如确认算例文件已完成修正,则重新提交任务,重新提交任务后跳转至步骤S100继续监控提交任务的输出日志文件。本发明实现了高性能集群系统使用功能上的拓展,实现了集群用户遇到的常见错误的快速修正,降低时间成本。

Description

一种高性能集群的紧急作业续算方法以及系统
技术领域
本发明涉及高性能计算领域,尤其涉及一种高性能集群的紧急作业续算方法以及系统。
背景技术
高性能集群计算系统因其具有强大的运算能力、较高的I/O性能、高性能管理和较强的系统扩展能力而广受关注。高性能计算主要面向挑战性的科学与工程问题,例如飞行器设计、气象预报、全球气候变化模拟、核聚变模拟、新材料设计、药物设计以及人类基因组等。高性能计算主要采用数值模拟的方法,即科学发现的第三范式。如:药物设计则是使用分子动力学方法对大量的药物分子进行筛选,计算候选药物对特定靶点的活性,筛选其中活性较高的药物再进入实验筛选。
可以看出,高性能计算是对需求解的科学或工程的复杂问题进行展开的。由于系统的复杂性,作业的计算规模和计算成本是很大的,尤其是时间成本。目前针对中途运行中断或报错的计算任务,需要用户自行发现后,进行手动测试调整,这极大地增加了计算任务的时间成本,影响项目进度。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种高性能集群的紧急作业续算方法以及系统。
本发明解决其技术问题所采用的技术方案是:构造一种高性能集群的紧急作业续算方法,方法包括:
S100、实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词进入下一个步骤;
S200、基于当前抓取到的报错关键词执行修正续算,具体包括:根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正;
S300、如确认算例文件已完成修正,则重新提交任务,重新提交任务后跳转至步骤S100继续监控提交任务的输出日志文件。
较佳的,所述方法还包括:如修正续算的过程中报错中断,则判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次执行修正续算;如果超过,则结束方法;
其中,所述的基于新抓取到的报错关键词再次执行修正续算具体包括:基于新抓取到的报错关键词再次执行修正续算:如此次的报错关键词与上一次抓取的报错关键词一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果进行算例的修正;如此次的报错关键词与上一次抓取的报错关键词不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正。
较佳的,所述方法还包括:在每一次修正续算完成或者中断后,将包含修正续算过程的日志信息记录在自动续算日志文件中。
较佳的,步骤S100之前还包括以下条件步骤:在作业脚本中设置用于触发紧急作业续算的自动续算关键词,作业计算程序在发现该自动续算关键词后启动步骤S100。
本发明还要求保护一种高性能集群的紧急作业续算模块,包括监控模块、管理模块、脚本修正模块、共享库;
监控模块,用于实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词;
管理模块,用于基于当前抓取到的报错关键词触发脚本修正模块执行修正续算,如确认算例文件已完成修正,则重新提交任务;
其中,所述的基于当前抓取到的报错关键词触发脚本修正模块执行修正续算包括:管理模块根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果发往脚本修正模块进行算例的修正。
较佳的,管理模块还用于在修正续算的过程中报错中断时,判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次触发脚本修正模块执行修正续算;
其中,所述的基于新抓取到的报错关键词再次触发脚本修正模块执行修正续算具体包括:如此次的报错关键词与上一次抓取的报错关键词一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果发往脚本修正模块进行算例的修正;如此次的报错关键词与上一次抓取的报错关键词不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果发往脚本修正模块进行算例的修正。
较佳的,所述管理模块还用于在每一次修正续算完成或者中断后,将包含修正续算过程的日志信息记录在自动续算日志文件中。
实施本发明的高性能集群的紧急作业续算方法以及系统,具有以下有益效果:本发明实现了高性能集群系统使用功能上的拓展,可以在现有集群基础上增加的新功能,是对高性能集群功能的拓展;实现了集群用户遇到的常见错误的快速修正,降低时间成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1是本发明的紧急作业续算方法的较佳实施例的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
为了更好的理解本发明的技术方案,下面将结合说明书附图以及具体的实施方式对本发明的技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
可以理解的是,本发明的紧急作业续算方法可以以程序模块的形式嵌入在集群中,即可以以程序指令的形式存储,并由处理器加载执行。其中,紧急作业续算功能可以是默认开启的,也可以由提交作业的集群用户执行选择是否开启。
较佳实施例中采用的是集群用户执行选择的方式,具体的:集群用于可以在作业脚本中设置用于触发紧急作业续算的自动续算关键词,例如关键词Autocalcu,作业计算程序在发现该自动续算关键词后调用紧急作业续算模块执行本发明的方法。
需要说明的是,需要计算的程序作业是可在高性能集群上并行实现的,而且需要计算的程序作业是在中断后支持继续计算的。
参考图1,较佳实施例的方法包括:
S100、实时监控提交任务的输出日志文件直至任务完成,在监控过程中,如计算中断则抓取报错关键词进入下一个步骤S200;
S200、基于当前抓取到的报错关键词执行修正续算,具体包括:根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正,如修正续算的过程中报错中断,则判断本次计算中断后的修正续算的次数是否超过预设次数,例如较佳实施例中预设次数设定为3此,如果没超过预设次数,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次执行修正续算;如果超过预设次数,则结束方法;
其中,所述的基于新抓取到的报错关键词再次执行修正续算具体包括:基于新抓取到的报错关键词再次执行修正续算:如此次的报错关键词与上一次抓取的报错关键词一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果进行算例的修正;如此次的报错关键词与上一次抓取的报错关键词不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正。
需要说明的是,检索结果是指根据报错关键词检索到的对应的错误修改点,即具体的内容修改建议,所以后续可以根据检索结果进行算例修正,包括作业脚本的修正、各个输入文件的修正等等。
S300、如确认算例文件已完成修正,则重新提交任务,重新提交任务后跳转至步骤S100继续监控提交任务的输出日志文件。
优选的,在每一次修正续算完成或者中断后,可以将包含修正续算过程的日志信息记录在紧急作业续算模块的自动续算日志文件Autocalcu.log中,步骤S100中,如作业正常结束,没有出现中断,则输出作业正常的信息至紧急作业续算模块的自动续算日志文件Autocalcu.log中。
基于同一发明构思,本发明还公开了一种高性能集群的紧急作业续算模块,其可嵌入在集群中。紧急作业续算模块可以为存储装置形式,在装置内存储多条可被处理器加载的指令以实现本发明的上述方法。本发明中,紧急作业续算模块包括监控模块、管理模块、脚本修正模块、共享库。
其中,监控模块,用于实时监控提交任务的输出日志文件,如计算中断则抓取报错关键词;管理模块,用于基于当前抓取到的报错关键词触发脚本修正模块执行修正续算,如确认算例文件已完成修正,则重新提交任务,任务重新提交后,再次启动监控模块;
其中,所述的基于当前抓取到的报错关键词触发脚本修正模块执行修正续算包括:管理模块根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果发往脚本修正模块进行算例的修正;
优选的,管理模块还用于在修正续算的过程中报错中断时,抓取新产生的报错关键词,并基于新抓取到的报错关键词再次执行修正续算;
其中,基于新抓取到的报错关键词再次执行修正续算具体包括:管理模块判断此次的报错关键词与上一次抓取的报错关键词是否一致,如果一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果发往脚本修正模块进行算例的修正;如果不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果发往脚本修正模块进行算例的修正。
进一步优选的,所述管理模块在修正续算的过程中报错中断时,首先判定修正续算的次数是否超过预设次数,如果是,则不再触发下一次修正续算。
优选的,所述管理模块还用于在每一次修正续算完成或者中断后,将包含修正续算过程的日志信息记录在紧急作业续算模块的自动续算日志文件Autocalcu.log中;而如作业正常结束,没有出现中断,则输出作业正常的信息至紧急作业续算模块的自动续算日志文件Autocalcu.log中。
综上所述,实施本发明的高性能集群的紧急作业续算方法以及系统,具有以下有益效果:本发明实现了高性能集群系统使用功能上的拓展,可以在现有集群基础上增加的新功能,是对高性能集群功能的拓展;实现了集群用户遇到的常见错误的快速修正,降低时间成本。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种高性能集群的紧急作业续算方法,其特征在于,方法包括:
S100、实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词进入下一个步骤;
S200、基于当前抓取到的报错关键词执行修正续算,具体包括:根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正;
S300、如确认算例文件已完成修正,则重新提交任务,重新提交任务后跳转至步骤S100继续监控提交任务的输出日志文件。
2.根据权利要求1所述的高性能集群的紧急作业续算方法,其特征在于,所述方法还包括:如修正续算的过程中报错中断,则判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次执行修正续算;如果超过,则结束方法;
其中,所述的基于新抓取到的报错关键词再次执行修正续算具体包括:基于新抓取到的报错关键词再次执行修正续算:如此次的报错关键词与上一次抓取的报错关键词一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果进行算例的修正;如此次的报错关键词与上一次抓取的报错关键词不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正。
3.根据权利要求2所述的高性能集群的紧急作业续算方法,其特征在于,所述方法还包括:在每一次修正续算完成或者中断后,将包含修正续算过程的日志信息记录在自动续算日志文件中。
4.根据权利要求1所述的高性能集群的紧急作业续算方法,其特征在于,步骤S100之前还包括以下条件步骤:在作业脚本中设置用于触发紧急作业续算的自动续算关键词,作业计算程序在发现该自动续算关键词后启动步骤S100。
5.一种高性能集群的紧急作业续算模块,其特征在于,包括监控模块、管理模块、脚本修正模块、共享库;
监控模块,用于实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词;
管理模块,用于基于当前抓取到的报错关键词触发脚本修正模块执行修正续算,如确认算例文件已完成修正,则重新提交任务;
其中,所述的基于当前抓取到的报错关键词触发脚本修正模块执行修正续算包括:管理模块根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果发往脚本修正模块进行算例的修正。
6.根据权利要求5所述的高性能集群的紧急作业续算系统,其特征在于,管理模块还用于在修正续算的过程中报错中断时,判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次触发脚本修正模块执行修正续算;
其中,所述的基于新抓取到的报错关键词再次触发脚本修正模块执行修正续算具体包括:如此次的报错关键词与上一次抓取的报错关键词一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果发往脚本修正模块进行算例的修正;如此次的报错关键词与上一次抓取的报错关键词不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果发往脚本修正模块进行算例的修正。
7.根据权利要求6所述的高性能集群的紧急作业续算系统,其特征在于,所述管理模块还用于在每一次修正续算完成或者中断后,将包含修正续算过程的日志信息记录在自动续算日志文件中。
CN201710670787.6A 2017-08-08 2017-08-08 一种高性能集群的紧急作业续算方法以及系统 Active CN107577547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710670787.6A CN107577547B (zh) 2017-08-08 2017-08-08 一种高性能集群的紧急作业续算方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710670787.6A CN107577547B (zh) 2017-08-08 2017-08-08 一种高性能集群的紧急作业续算方法以及系统

Publications (2)

Publication Number Publication Date
CN107577547A true CN107577547A (zh) 2018-01-12
CN107577547B CN107577547B (zh) 2020-11-27

Family

ID=61035665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710670787.6A Active CN107577547B (zh) 2017-08-08 2017-08-08 一种高性能集群的紧急作业续算方法以及系统

Country Status (1)

Country Link
CN (1) CN107577547B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883160A (zh) * 2021-02-25 2021-06-01 南昌鑫轩科技有限公司 一种用于成果转移转化的捕捉方法及辅助系统
CN116738892A (zh) * 2023-08-08 2023-09-12 中国空气动力研究与发展中心计算空气动力研究所 一种流场数值模拟数据保护方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161565A1 (en) * 2008-12-18 2010-06-24 Electronics And Telecommunications Research Institute Cluster data management system and method for data restoration using shared redo log in cluster data management system
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN106326024A (zh) * 2016-08-16 2017-01-11 国家超级计算深圳中心(深圳云计算中心) 一种基于lsf平台的集群管理系统查错方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161565A1 (en) * 2008-12-18 2010-06-24 Electronics And Telecommunications Research Institute Cluster data management system and method for data restoration using shared redo log in cluster data management system
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN106326024A (zh) * 2016-08-16 2017-01-11 国家超级计算深圳中心(深圳云计算中心) 一种基于lsf平台的集群管理系统查错方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883160A (zh) * 2021-02-25 2021-06-01 南昌鑫轩科技有限公司 一种用于成果转移转化的捕捉方法及辅助系统
CN116738892A (zh) * 2023-08-08 2023-09-12 中国空气动力研究与发展中心计算空气动力研究所 一种流场数值模拟数据保护方法、系统、设备及介质
CN116738892B (zh) * 2023-08-08 2023-10-20 中国空气动力研究与发展中心计算空气动力研究所 一种流场数值模拟数据保护方法、系统、设备及介质

Also Published As

Publication number Publication date
CN107577547B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
WO2017185945A1 (zh) 一种故障处理方法及装置
CN110309051B (zh) 管理测试用例的方法、系统、设备及存储介质
CN107690676A (zh) 金融自助设备维修派单生成方法、手持终端及电子设备
CN109345200A (zh) 基于大批量报告单的自动审核方法及装置、计算机可读存储介质
CN105988798B (zh) 补丁处理方法及装置
CN107577547A (zh) 一种高性能集群的紧急作业续算方法以及系统
US9483254B2 (en) Method, apparatus and storage medium for dynamically patching a function
US20090187791A1 (en) Failure Location Detection Using Types in Assembly Files
CN107516547A (zh) 内存硬错误的处理方法及装置
US20090204851A1 (en) Method and System for Software Testing
CN106708725A (zh) 一种测试与诊断相结合的测试序列动态管理方法
CN101482596A (zh) 多因素工业系统的故障快速识别方法
CN115757157A (zh) 一种高效回归的实现方法、装置及存储介质
CN111949553B (zh) 一种基于规则引擎的场景用例测试方法及装置
CN108540308A (zh) 一种基于SCOM的windows应用平台故障自愈系统及方法
US20120284007A1 (en) Verifying a processor design using a processor simulation model
US20120096467A1 (en) Microprocessor operation monitoring system
CN105913226B (zh) 基于智能语音提示的核电厂运行支持系统
CN113127324B (zh) 测试报告自动化生成方法、装置、计算机设备及存储介质
CN108845932B (zh) 一种网络库的单元测试方法、装置、存储介质及终端
CN111987701B (zh) 配电网维护方法
CN117453495B (zh) 支持在线纠错和调试的芯片、设计方法及相关设备
KR960010867B1 (ko) 전전자 교환기에서 감사 대상 데이타의 오류 발생시 복구방법
WO2023029219A1 (zh) 集成电路修补方法、装置、电子设备和存储介质
CN114511234B (zh) 一种生产线资源稳健配置方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant