CN106326024A - 一种基于lsf平台的集群管理系统查错方法及装置 - Google Patents

一种基于lsf平台的集群管理系统查错方法及装置 Download PDF

Info

Publication number
CN106326024A
CN106326024A CN201610676637.1A CN201610676637A CN106326024A CN 106326024 A CN106326024 A CN 106326024A CN 201610676637 A CN201610676637 A CN 201610676637A CN 106326024 A CN106326024 A CN 106326024A
Authority
CN
China
Prior art keywords
calculating task
task
rslib
submodule
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610676637.1A
Other languages
English (en)
Other versions
CN106326024B (zh
Inventor
都政
李志伟
刘建文
陈远磊
秦莉兰
饶青雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Cloud Computing Center Co Ltd
NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Original Assignee
Shenzhen Cloud Computing Center Co Ltd
NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Cloud Computing Center Co Ltd, NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER) filed Critical Shenzhen Cloud Computing Center Co Ltd
Priority to CN201610676637.1A priority Critical patent/CN106326024B/zh
Priority claimed from CN201610676637.1A external-priority patent/CN106326024B/zh
Publication of CN106326024A publication Critical patent/CN106326024A/zh
Application granted granted Critical
Publication of CN106326024B publication Critical patent/CN106326024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于LSF平台的集群管理系统查错方法及装置,该方法包括:获取计算任务管理主机中的计算任务;从计算任务中实时查找错误提示信息;藉由RSLIB系统并依据错误提示信息查找错误内容的位置;藉由RSLIB系统修改并反馈错误内容。该发明的有益效果为:可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户的使用效率;通过分类处理计算任务提高了同类问题的处理效率。

Description

一种基于LSF平台的集群管理系统查错方法及装置
技术领域
本发明涉及高性能计算技术领域,尤其涉及一种基于LSF平台的集群管理系统查错方法及装置。
背景技术
集群系统是一组通过高速网络互联的、相互独立的计算机,并且以单一系统的模式加以管理。集群系统正式通过充分利用集群中每一台计算机的资源,才使得复杂运算的并行处理得以实现。和传统高性能计算机技术相比,集群技术利用服务器作为节点,因此其造价低;在系统造价低廉的同时,又没有牺牲运算速度,能够完成大运算量的计算。除此之外,集群系统也具有较高的响应能力,能够满足当今日趋增加的信息服务的需求。随着并行计算技术的发展,集群系统的应用越来越广泛,集群系统在完成大规模的计算任务方面的优势越来越突出。
集群是一种造价低廉、易于构筑,并具有较好可扩放性的体系结构,因此具有良好的应用前景。为了提高集群的利用率,各种集群管理系统相继产生。目前集群作业管理系统中作业调度常用的组织模式有3种,分别是集中式、分布式、层次式。
目前被人们大量使用的集群管理系统有LSF(Load Sharing Facility)、PBS(便携式批处理系统,Portable Batch System)、SGE(Sun网格引擎,Sun Grid)等。PBS、SGE、LSF是当今颇具代表性和影响力的几种集群作业管理系统。其中PBS、SGE是研究产品,LSF是商业软件。
LSF是独立于平台,最终用户通过一组实用程序命令使用LSF的功能。LSF还提供一个API(Application Programming Interface),该API是一个叫作负载共享库LSLIB(负载共享库,Load Sharing Facility)的运行时库,使用LSLIB 明确要求用户修改应用程序代码,而使用实用程序命令则不必。在集群中的每一个服务器节点上必须启动两个LSFdaemon守护进程,一个是负载信息管理器LIMs,它定期收集和交换负载信息,另一个是远程执行服务器RES(远程执行服务器,Remote Execution Server),它为任何任务提供透明的远程执行。
LSF管理系统实现了系统资源的整合、多用户的管理、用户权限的管理。其核心关键是对系统资源的整合,具体来说是针对资源组织管理与作业的调度,也是集群作业管理系统的关键技术。
LSF相较于其他管理系统,有以下优势:
(1)在作业调度的组织模式上,LSF支持层次式组织模式。
(2)LSF的作业调度模式提供了可扩展的作业选取策略框架,支持多种作业选取策略,并允许用户自行确定策略,并提供了抢占式调度和关键资源保障,保证紧急作业的调度。LSF在资源分配上提供公平共享和独占式策略。
(3)LSF支持核心级、用户级及应用程序级的进程迁移和检查点操作。
但是,现有技术中,由于集群用户的使用都是独立的,用户使用集群没有和软件使用进行对接统一,故不同用户在集群进行高性能计算时,总会遇到各种出错,往往会遇到很多类似的错误。尤其使用同种软件的用户在做相关计算时,总有诸多类似的问题,致使用户为了解决同类问题时耗费大量的精力与时间。
发明内容
本发明要解决的技术问题在于,针对上述现有技术中在集群进行高性能计算时会遇到各种出错而导致为了解决同类问题时耗费大量的精力与时间的问题,提供一种基于LSF平台的集群管理系统查错方法及装置。
本发明解决其技术问题所采用的技术方案是:
一方面,构造一种基于LSF平台的集群管理系统查错方法,包括:
获取计算任务管理主机中的计算任务;
从所述计算任务中实时查找错误提示信息;
藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;
藉由所述RSLIB系统修改并反馈所述错误内容。
在本发明所述的集群管理系统查错方法中,所述获取计算任务管理主机中的计算任务的步骤包括以下子步骤:
收集所述计算任务管理主机所分解的计算任务;
收集所述计算任务管理主机向多个计算节点所分发的计算任务。
在本发明所述的集群管理系统查错方法中,所述从所述计算任务中实时查找错误提示信息的步骤包括以下子步骤:
监测所述计算任务管理主机中的用户进程;
若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。
在本发明所述的集群管理系统查错方法中,所述藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置的步骤包括以下子步骤:
藉由所述RSLIB系统分解所述错误提示信息;
于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;
将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;
查找所述错误提示信息中相应的命令段。
在本发明所述的集群管理系统查错方法中,所述藉由所述RSLIB系统修改并反馈所述错误内容的步骤包括以下子步骤:
对所述命令段进行修改并重新提交对应的计算任务;
收集所述计算任务的运行结果;
分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。
另一方面,提供一种基于LSF平台的集群管理系统查错装置,包括:
任务获取模块,用于获取计算任务管理主机中的计算任务;
错误查找模块,用于从所述计算任务中实时查找错误提示信息;
位置查找模块,用于藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;
修改反馈模块,用于藉由所述RSLIB系统修改并反馈所述错误内容。
在本发明所述的集群管理系统查错装置中,所述任务获取模块包括:
计算任务收集子模块,用户收集所述计算任务管理主机从用户端所接收的计算任务;
分发任务收集子模块,用于收集所述计算任务管理主机向多个计算节点所分发的计算任务。
在本发明所述的集群管理系统查错装置中,所述错误查找模块包括:
进程检测子模块,用于监测所述计算任务管理主机中的用户进程;
错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。
在本发明所述的集群管理系统查错装置中,所述位置查找模块包括:
信息分解子模块,用于藉由所述RSLIB系统分解所述错误提示信息;
相似度匹配子模块,用于于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;
结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;
命令段查找子模块,用于查找所述错误提示信息中相应的命令段。
在本发明所述的集群管理系统查错装置中,所述修改反馈模块包括:
任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;
结果收集子模块,用于收集所述计算任务的运行结果;
结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。
上述公开的一种基于LSF平台的集群管理系统查错方法及装置具有以下有益效果:可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户的使用效率;通过分类处理计算任务提高了同类问题的处理效率。
附图说明
图1为本发明提供的一种基于LSF平台的集群管理系统查错方法流程图;
图2为本发明提供的集群管理系统的逻辑框图;
图3为本发明提供的一种基于LSF平台的集群管理系统查错装置框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于LSF(Load Sharing Facility)平台的集群管理系统200查错方法及装置,其目的在于,可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户的使用效率。通过本发明提供的方法及装置,实现了集群系统的使用功能的拓展,本发明是在现有集群基础上增加RSLIB(Response Sharing Library)系统,是对集群功能的拓展;实现了集群用户错误的快速反馈,快速修正。本发明实现集群用户在集群和软件使用上的对接,通过管理程序、匹配程序、共享库三个部分实现对集群用户出错的快速反馈和款式修正。其中RSLIB系统101包括管理程序、匹配程序及共享库。
其中,RSLIB为反馈共享库,即提供快速反馈快速修正之意;负载共享 设施LSF是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。
本发明是基于LSF的集群管理系统200的RSLIB系统101的功能设计方法,在集群系统中进行计算,主要是协调好管理调度的三多问题:节点多、任务多、用户多,同时尽可能地实现快速高效的计算。具体来说,就是主要实现以下的三个功能:系统资源的整合、多用户的管理、用户权限的管理。
由于LSF相较于其他管理系统具有的以下三个优势:
(1)在作业调度的组织模式上,LSF支持层次式组织模式。
(2)LSF的作业调度模式提供了可扩展的作业选取策略框架,支持多种作业选取策略,并允许用户自行确定策略,并提供了抢占式调度和关键资源保障,保证紧急作业的调度。LSF在资源分配上提供公平共享和独占式策略。
(3)LSF支持核心级、用户级及应用程序级的进程迁移和检查点操作。
故本发明是基于LSF的集群管理系统200实现计算出错的反馈与修正的功能,使集群计算与软件使用对接,能够解决用户使用时的错误修正问题,提高集群用户的使用效率。
参见图1,图1为一种基于LSF平台的集群管理系统200查错方法,该包括步骤S1-S4:
S1、获取计算任务管理主机102中的计算任务;该步骤S1包括子步骤S11-S12:
S11、收集所述计算任务管理主机102所分解的计算任务;参见图2,图2为本发明提供的集群管理系统200的逻辑框图,集群管理系统200包括计算任务管理主机102、RSLIB系统101、计算节点103、用户端105以及多个计算任务执行主机104。计算任务管理主机102包括计算任务分解单元、计算任务派发单元、计算结果汇总处理单元以及计算结果收集单元。一般的,计算任务分解单元对用户端105的计算任务进行分解。本步骤对这些分解的计算任务进行收集。
S12、收集所述计算任务管理主机102向多个计算节点103所分发的计算任务。参见图2,计算机任务管理主机102的主要功能是对计算任务进行管理,包括对任务的分解、调度执行安排和结果收集;计算节点103是统一由计算机 任务管理主机调度和分发任务。计算任务派发单元主要功能是对多个计算节点103进行分发计算任务。该步骤对分发的计算任务进行收集。
S2、从所述计算任务中实时查找错误提示信息;该步骤S2包括子步骤S21-S22:
S21、监测所述计算任务管理主机102中的用户进程;对计算任务中的错误提示信息时,一般通过对用户进程进行检查。
S22、若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统101反馈。如图2中,RSLIB系统101与计算结果汇总处理单元对接,当计算结果汇总处理单元出现计算任务错误的提示,会马上反馈给RSLIB系统101。一般的,如果用户进程结束且出现任务计算失败的情况,将同时给RSLIB系统101进行反馈。即用户在集群中提交计算任务,计算任务结束时,计算任务管理主机102会对计算结果进行收集和汇总,并反馈用户。此时,对用户进程进行检查,如果用户进程结束且出现任务计算失败的情况,将同时给RSLIB系统101的管理程序进行反馈。
S3、藉由RSLIB系统101并依据所述错误提示信息查找错误内容的位置;该步骤S3包括子步骤S31-S34:
S31、藉由所述RSLIB系统101分解所述错误提示信息;即在个人用户使用集群系统中,新增加一个模块RSLIB共享库,该模块与现有LSF管理系统中的负载信息管理器LIMs(负载信息管理器,LoadInformation Manager)类似,均为层次式结构中的独立模块。
S32、于所述RSLIB系统101中预设的共享库中对所分解的错误提示信息进行相似度匹配;一般的,RSLIB系统101的管理程序对错误信息进行分解,在反馈共享库中进行相似度匹配,将结果按照匹配结果进行排序后反馈给用户,经用户确认是或可能是,则对相应错误段进行更改,然后重新提交作业。
S33、将相似度匹配的结果按照预设的优先级排序并反馈至用户端105并接收所述用户端105的确认信息以确认所述错误提示信息需更改;具体的,通过用户提供的反馈选定可能引起错误的命令段,通过在RSLIB中进行检索,将匹配结果进行优先级排序,并及时反馈给用户进行选择、使用,如果用户收 到反馈后确认不是错误,则按照优先级往后确认,或由用户选择错误的命令段之后进行再匹配;此外,还可以由系统自动判断错误内容,并给出修改意见以供用户选用。
S34、查找所述错误提示信息中相应的命令段。通过用户提供的反馈选定可能引起错误的命令段或是由系统自动判断错误内容,通过在RSLIB中进行检索,将匹配结果进行优先级排序,并及时反馈给用户进行选择、使用,减少用户使用耗时,提高集群用户的效率。
S4、藉由所述RSLIB系统101修改并反馈所述错误内容。该步骤S4包括子步骤S41-S43:
S41、对所述命令段进行修改并重新提交对应的计算任务;即计算任务的错误成功解决则修改成功并记录,若不成功则再次更改错误的命令段,一般的,反复三次更改错误的命令段仍错误的,则退出该模式。例如,用户再提交作业,运行成功,进行结果收集。运行失败,则按优先级排序再修改提交,直到任务成功或多次之后自动退出,同时,进行结果收集。
S42、收集所述计算任务的运行结果;通过S41的处理方法,收集并存储运行结果。
S43、分类记录所述运行结果并将所述运行结果反馈至预设的供应端;供应端一般为软件供应商,可以通过上传至网络,再传送至相应的软件供应商处,也可以由软件供应商直接从系统中获取。
其中,所述运行结果包括以下三种:
1、所述计算任务运行成功。
2、所述计算任务运行失败,经一至多次修改之后运行成功。
3、所述计算任务运行失败,经多次修改之后仍运行失败。
即经多次匹配失败的情况一并进行分类记录,当累计达到一定数量之后,给软件供应商进行反馈。依据以上三种运行结果分类存储,以便尽快地提高用户使用效率并尽早地解决问题。在问题得到解决后,对出错前后文件进行对比并保存至数据库,以供后续用户选用。
综上,本发明内容中可通过LSF平台实现,理由如下:
1、LSF支持层式组织模式在LSF系统中增加一个RSLIB模块,不会影响系统的整体运行。
2、LSF支持用户进程检查操作,RSLIB模块可以对接上用户进程的生命周期,同时输出错误的情况,直接对计算错误的情况进行反馈,实现错误的快速修正,减少用户计算任务时解决各种错误的时间,提高用户的使用效率。
参见图3,该基于LSF平台的集群管理系统200查错装置100通过在相应的集群管理系统200以及其中RSLIB系统101中设置相应的程序实现,该基于LSF平台的集群管理系统200查错装置100包括任务获取模块1、错误查找模块2、位置查找模块3以及修改反馈模块4。
任务获取模块1用于获取计算任务管理主机102中的计算任务;
错误查找模块2用于从所述计算任务中实时查找错误提示信息;
位置查找模块3用于藉由RSLIB系统101并依据所述错误提示信息查找错误内容的位置;
修改反馈模块4用于藉由所述RSLIB系统101修改并反馈所述错误内容。
优选的,所述任务获取模块1包括:
计算任务收集子模块,用户收集所述计算任务管理主机102从用户端105所接收的计算任务;
分发任务收集子模块,用于收集所述计算任务管理主机102向多个计算节点103所分发的计算任务。
优选的,所述错误查找模块2包括:
进程检测子模块,用于监测所述计算任务管理主机102中的用户进程;
错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统101反馈。
优选的,所述位置查找模块3包括:
信息分解子模块,用于藉由所述RSLIB系统101分解所述错误提示信息;
相似度匹配子模块,用于于所述RSLIB系统101中预设的共享库中对所分解的错误提示信息进行相似度匹配;
结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈 至用户端105并接收所述用户端105的确认信息以确认所述错误提示信息需更改;
命令段查找子模块,用于查找所述错误提示信息中相应的命令段。
优选的,所述修改反馈模块4包括:
任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;
结果收集子模块,用于收集所述计算任务的运行结果;
结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或操作可以构成一个或计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关 于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

Claims (10)

1.一种基于LSF平台的集群管理系统查错方法,其特征在于,包括:
获取计算任务管理主机中的计算任务;
从所述计算任务中实时查找错误提示信息;
藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;
藉由所述RSLIB系统修改并反馈所述错误内容。
2.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述获取计算任务管理主机中的计算任务的步骤包括以下子步骤:
收集所述计算任务管理主机所分解的计算任务;
收集所述计算任务管理主机向多个计算节点所分发的计算任务。
3.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述从所述计算任务中实时查找错误提示信息的步骤包括以下子步骤:
监测所述计算任务管理主机中的用户进程;
若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。
4.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置的步骤包括以下子步骤:
藉由所述RSLIB系统分解所述错误提示信息;
于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;
将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;
查找所述错误提示信息中相应的命令段。
5.根据权利要求4所述的集群管理系统查错方法,其特征在于,所述藉由所述RSLIB系统修改并反馈所述错误内容的步骤包括以下子步骤:
对所述命令段进行修改并重新提交对应的计算任务;
收集所述计算任务的运行结果;
分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。
6.一种基于LSF平台的集群管理系统查错装置,其特征在于,包括:
任务获取模块,用于获取计算任务管理主机中的计算任务;
错误查找模块,用于从所述计算任务中实时查找错误提示信息;
位置查找模块,用于藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;
修改反馈模块,用于藉由所述RSLIB系统修改并反馈所述错误内容。
7.根据权利要求6所述的集群管理系统查错装置,其特征在于,所述任务获取模块包括:
计算任务收集子模块,用户收集所述计算任务管理主机从用户端所接收的计算任务;
分解任务收集子模块,用于收集所述计算任务管理主机所分解的计算任务;
分发任务收集子模块,用于收集所述计算任务管理主机向多个计算节点所分发的计算任务。
8.根据权利要求6所述的集群管理系统查错装置,其特征在于,所述错误查找模块包括:
进程检测子模块,用于监测所述计算任务管理主机中的用户进程;
错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。
9.根据权利要求6所述的集群管理系统查错装置,其特征在于,所述位置查找模块包括:
信息分解子模块,用于藉由所述RSLIB系统分解所述错误提示信息;
相似度匹配子模块,用于于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;
结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;
命令段查找子模块,用于查找所述错误提示信息中相应的命令段。
10.根据权利要求9所述的集群管理系统查错装置,其特征在于,所述修改反馈模块包括:
任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;
结果收集子模块,用于收集所述计算任务的运行结果;
结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。
CN201610676637.1A 2016-08-16 一种基于lsf平台的集群管理系统查错方法及装置 Active CN106326024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610676637.1A CN106326024B (zh) 2016-08-16 一种基于lsf平台的集群管理系统查错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610676637.1A CN106326024B (zh) 2016-08-16 一种基于lsf平台的集群管理系统查错方法及装置

Publications (2)

Publication Number Publication Date
CN106326024A true CN106326024A (zh) 2017-01-11
CN106326024B CN106326024B (zh) 2019-07-16

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577547A (zh) * 2017-08-08 2018-01-12 国家超级计算深圳中心(深圳云计算中心) 一种高性能集群的紧急作业续算方法以及系统
CN111767181A (zh) * 2020-06-29 2020-10-13 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理系统
US11244012B2 (en) 2019-11-06 2022-02-08 Kyndryl, Inc. Compliance by clustering assets according to deviations

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016249A1 (en) * 2006-07-17 2008-01-17 The Mathworks, Inc. Recoverable error detection for concurrent computing programs
CN102930475A (zh) * 2012-09-18 2013-02-13 曙光信息产业(北京)有限公司 一种基于pbs交互的石油应用封装方法
CN103516563A (zh) * 2013-10-18 2014-01-15 北京奇虎科技有限公司 一种用于监控命令是否异常的设备和方法
CN104516730A (zh) * 2013-09-29 2015-04-15 国际商业机器公司 一种数据处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016249A1 (en) * 2006-07-17 2008-01-17 The Mathworks, Inc. Recoverable error detection for concurrent computing programs
CN102930475A (zh) * 2012-09-18 2013-02-13 曙光信息产业(北京)有限公司 一种基于pbs交互的石油应用封装方法
CN104516730A (zh) * 2013-09-29 2015-04-15 国际商业机器公司 一种数据处理方法和装置
CN103516563A (zh) * 2013-10-18 2014-01-15 北京奇虎科技有限公司 一种用于监控命令是否异常的设备和方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577547A (zh) * 2017-08-08 2018-01-12 国家超级计算深圳中心(深圳云计算中心) 一种高性能集群的紧急作业续算方法以及系统
US11244012B2 (en) 2019-11-06 2022-02-08 Kyndryl, Inc. Compliance by clustering assets according to deviations
CN111767181A (zh) * 2020-06-29 2020-10-13 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理系统
CN111767181B (zh) * 2020-06-29 2021-11-02 深圳小马洛可科技有限公司 一种led显示屏用大规模集群管理系统

Similar Documents

Publication Publication Date Title
Zhang et al. Digital twin-driven carbon emission prediction and low-carbon control of intelligent manufacturing job-shop
Zhu et al. A framework-based approach to utility big data analytics
CN105550268A (zh) 大数据流程建模分析引擎
CN102169505A (zh) 基于云计算的推荐系统构建方法
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN103605662A (zh) 一种分布式计算框架参数优化方法、装置及系统
Moser et al. Semantic tool interoperability for engineering manufacturing systems
CN103440279A (zh) 一种数据采集过程中的数据适配器及其数据适配方法
Liu et al. Predicting of job failure in compute cloud based on online extreme learning machine: a comparative study
CN116755939B (zh) 一种基于系统资源的智能化数据备份任务规划方法及系统
Thanekar et al. Big Data and MapReduce Challenges, Opportunities and Trends.
Kholopov et al. Application of the digital twin concept to solve the monitoring task of machine-building technological process
Liang et al. Automating the Training and Deployment of Models in MLOps by Integrating Systems with Machine Learning
De et al. Decision support in computer-integrated manufacturing
US10489416B2 (en) Optimizing and managing execution of hybrid flows
CN106326024B (zh) 一种基于lsf平台的集群管理系统查错方法及装置
Zhao et al. MapReduce model-based optimization of range queries
CN106326024A (zh) 一种基于lsf平台的集群管理系统查错方法及装置
Lin et al. Analyzing job completion reliability and job energy consumption for a general MapReduce infrastructure
CN101794417A (zh) 基于序号的工作流调度和业务流程建模方法
Tu et al. An intelligent ETL workflow framework based on data partition
Song et al. Design of Disaster Recovery and Load Balancing Strategies in Traditional Centralized Distributed Web Systems
Chen et al. Design of workshop production management control system based on multi-agent
Chen et al. Development of a cyber-physical-style continuous yield improvement system for manufacturing industry
Wang et al. Distributed data mining based on semantic web and grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant