CN105159815A - 高性能计算集群系统故障预测方法和装置 - Google Patents

高性能计算集群系统故障预测方法和装置 Download PDF

Info

Publication number
CN105159815A
CN105159815A CN201510557804.6A CN201510557804A CN105159815A CN 105159815 A CN105159815 A CN 105159815A CN 201510557804 A CN201510557804 A CN 201510557804A CN 105159815 A CN105159815 A CN 105159815A
Authority
CN
China
Prior art keywords
service node
fan
rotation speed
task
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510557804.6A
Other languages
English (en)
Other versions
CN105159815B (zh
Inventor
马四腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510557804.6A priority Critical patent/CN105159815B/zh
Publication of CN105159815A publication Critical patent/CN105159815A/zh
Application granted granted Critical
Publication of CN105159815B publication Critical patent/CN105159815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种高性能计算集群系统故障预测方法和装置。故障预测方法包括:获取集群系统中各服务节点的芯片工况和电源输出功率,根据所述芯片工况和电源输出功率分析各服务节点的工作状态,在服务节点的工作状态为非正常时,执行预先设定的维护策略。本发明通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地提高了集群系统的整体利用率。

Description

高性能计算集群系统故障预测方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种高性能计算集群系统故障预测方法和装置。
背景技术
当前,随着计算机技术的发展和越来越广泛的应用,越来越多的依赖于计算机技术的应用系统走进了我们的工作和生活。尽管单台计算机的性能和可靠性越来越好,但还是有很多现实的要求是单台计算机难以达到的,需要高性能计算集群系统作为后台支撑。
高性能计算集群系统作为一个整体系统,不仅对运算速率有较高的要求,而且对系统稳定性的要求更加严格。一个高性能计算任务,往往要耗费数小时、数天甚至数月才能完成。如此巨大的计算任务,如果计算过程中设备出现故障,就可能面临重算的窘境,造成时间、经费的浪费。因此,如何有效降低高性能计算集群系统的故障率,是高性能计算集群系统迫切需要解决的比较重要的问题。
发明内容
为了解决上述技术问题,本发明提供一种高性能计算集群系统故障预测方法和装置,以有效降低高性能计算集群系统的故障率。
为了达到本发明目的,本发明提供了一种高性能计算集群系统故障预测方法,包括:
获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;
根据所述芯片工况和电源输出功率分析各服务节点的工作状态;
在服务节点的工作状态为非正常时,执行预先设定的维护策略。
进一步地,所述根据所述芯片工况和电源输出功率分析各服务节点的工作状态具体为:
预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。
进一步地,所述在服务节点的工作状态为非正常时执行预先设定的维护策略具体为:
在服务节点的工作状态为亚健康状态时,执行任务调度;在服务节点的工作状态为异常状态时,执行维护处理。
进一步地,所述执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务;所述执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。
进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则执行维护处理;所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。
为了达到本发明目的,本发明还提供了一种高性能计算集群系统故障预测装置,包括:
获取参数模块,用于获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;
分析状态模块,用于根据所述芯片工况和电源输出功率分析各服务节点的工作状态;
执行策略模块,用于在服务节点的工作状态为非正常时,执行预先设定的维护策略。
进一步地,所述分析状态模块具体用于,预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。
进一步地,所述执行策略模块包括任务调度单元和维护处理单元,其中,
任务调度单元,用于在服务节点的工作状态为亚健康状态时,对所述服务节点执行任务调度;
维护处理单元,用于在服务节点的工作状态为异常状态时,对所述服务节点执行维护处理。
进一步地,所述对所述服务节点执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务;所述对所述服务节点执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。
进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则对所述服务节点执行维护处理;所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。
本发明提供了一种高性能计算集群系统故障预测方法和装置,通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地提高了集群系统的整体利用率。本发明故障预测方法具有简单、有效、易于实施、适用性广等特点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明高性能计算集群系统故障预测方法的处理流程图;
图2为本发明高性能计算集群系统故障预测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明高性能计算集群系统故障预测方法的处理流程图。如图1所示,本发明高性能计算集群系统故障预测方法包括:
步骤1、获取集群系统中各服务节点的芯片工况和电源输出功率。
现有高性能计算集群系统中的服务节点基本上都具有基板管理控制器BMC(BaseboardManagementController),BMC通过管理总线实时监测服务节点中各部件的运行参数。实际使用中,本发明获取芯片工况和电源输出功率两参数可以通过集群系统中各服务节点的BMC来获取。本发明中,芯片包括CPU或加速卡芯片,芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,其中芯片温度与风扇转速的对应关系是指:BMC中定义的风扇转速根据芯片温度进行调整的对应关系。例如,CPU或加速卡芯片升高5°,风扇转速调高1档位,档位的概念是BMC中定义的,该对应关系会根据服务节点不同而不同,具有独立性。获取芯片工况和电源输出功率后,将这些参数顺序记录下来。实际使用中,可以通过设置日、周、月等时间段,展示这些参数曲线。
步骤2、根据所述芯片工况和电源输出功率,分析服务节点的工作状态。
对于高性能计算集群系统中的服务节点,芯片工况和电源输出功率可以很好地反映计算类服务节点的工作状态。例如,每个服务节点的芯片温度、风扇转速和电源输出功率均有一个正常工作参数范围,超出正常工作参数范围就属于异常,当风扇转速不符合BMC中定义的当前CPU温度所处档位的转速,档位过高或过低也属于异常。又如,在同一时间段内,同一角色的服务节点处理相同的任务或处于相同的状态时(服务节点的不同状态需要结合作业调度软件获取),某个服务节点CPU或加速卡芯片的温度高于除自己外其它服务节点的平均值,或某个服务节点的风扇转速高于除自己外其它服务节点的平均值,该服务节点就属于异常。例如,10台服务节点运行同一任务时,BMC监测到1-9号服务节点加速卡芯片平均温度为69°,而10号服务节点加速卡芯片的温度为75°,那么认为10号服务节点出现异常。同理,在同一时间段内,同一角色的服务节点处理相同的任务或处于相同的状态时,某个服务节点的电源输出功率高于除自己外其它服务节点的平均值,可以判定该服务节点处于异常状态。再如,一般服务节点的功耗是可以计算的,如果电源输出功率持续高于计算值,也可以判定该服务节点处于异常状态。
本发明中,通过预先设置对应阈值范围、温度阈值范围、转速阈值范围和功率阈值范围的方式,来分析服务节点的工作状态。具体地说,预先设置第一对应阈值范围和第二对应阈值范围,第二对应阈值范围大于第一对应阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,判定服务节点处于异常状态。预先设置第一温度阈值范围和第二温度阈值范围,第二温度阈值范围大于第一温度阈值范围;当服务节点的芯片温度处于第一温度阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度处于第二温度阈值范围内时,判定服务节点处于异常状态。预先设置第一转速阈值范围和第二转速阈值范围,第二转速阈值范围大于第一转速阈值范围;当服务节点的风扇转速处于第一转速阈值范围内时,判定服务节点处于亚健康状态;当服务节点的风扇转速处于第二转速阈值范围内时,判定服务节点处于异常状态。预先设置第一功率阈值范围和第二功率阈值范围,第二功率阈值范围大于第一功率阈值范围;当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。其中,上述第一阈值范围和第二阈值范围可以由生产厂家提供,也可以通过测试得出。
实际使用中,可以对高性能计算集群系统中的服务节点进行分类,分类原则可以依据各服务节点在集群中的角色。例如,可以将服务节点划分为CPU计算节点、加速卡计算节点和胖节点。本发明进行分类的目的,主要是考虑到服务节点的角色不同,使用情况会有较大不同。通常,与CPU计算节点相比,加速卡计算节点的电源输出功率较大,风扇转速和芯片温度较高。通过对服务节点进行分类,不仅可以为不同类别的服务节点设置不同的阈值范围,而且可以为不同类别的服务节点设置不同维护策略,采用不同的调整手段。
步骤3、在服务节点的工作状态为非正常时,执行预先设定的维护策略。
为了有效地预测高性能计算集群系统可能出现的故障,本发明将服务节点的工作状态分为正常状态和非正常状态,非正常状态又细分为亚健康状态和异常状态。对于正常状态的服务节点,不需要调整服务器。对于非正常状态的服务节点,则需要采用相应的维护策略,以避免可能出现的故障,降低服务节点的故障率。本发明维护策略主要包括任务调度和维护处理,当服务节点的工作状态为亚健康状态时,执行任务调度,当服务节点的工作状态为异常状态时,执行维护处理。
当服务节点的工作状态为亚健康状态时,向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器收到亚健康预警信息后,调整任务调度队列,在任务调度队列中减少分配给该服务节点的任务,或者将分配给该服务节点的任务删除,直接跳过该服务节点不分配任务。
当服务节点的工作状态为异常状态时,向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器收到异常预警信息后,调整计算资源分配,将该服务节点上的计算资源转移到备用服务节点或其它服务节点上,计算资源转移后,使该服务节点进入维护模式(测试模式)进行维护,维护完成后重置状态。其中,调整任务调度队列、从服务节点上转移计算资源、服务节点进入维护模式以及进行维护等均采用现有技术手段,这里不再赘述。
实际使用中,本发明还设置有计时器,根据计时器的计时情况执行相应的维护策略。当判断服务节点的工作状态为亚健康状态,发送亚健康预警信息时,立即启动计时器计时,如果在设定的时间内,服务节点的工作状态没有从亚健康状态恢复到正常状态,说明调整任务的维护策略失败,则判定该服务节点的工作状态为异常状态,执行维护处理。如果服务节点的工作状态由亚健康状态恢复到正常状态,则向高性能计算集群系统的任务调度器发送亚健康恢复信息,任务调度器收到亚健康恢复信息后,调整任务调度队列,在任务调度队列中逐渐增加分配给该服务节点的任务。
当判断服务节点的工作状态为异常状态,发送异常预警信息时,立即启动计时器计时,如果在设定的时间内,服务节点的工作状态仍为异常状态,说明维护处理的维护策略失败,则发送告警信号,指示维修人员进行故障处理。
本发明提供了一种高性能计算集群系统故障预测方法,通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态,当服务节点为非正常状态时执行预先设定的维护策略,不仅可以准确地预测高性能计算集群系统可能出现的故障,而且通过执行相应的维护方案在一定程度上避免了发生故障的可能,因而有效地降低了高性能计算集群系统的故障率,有效地提高了集群系统的整体利用率。本发明故障预测方法具有简单、有效、易于实施、适用性广等特点。
在本发明高性能计算集群系统故障预测方法技术方案基础上,本发明还提供了一种高性能计算集群系统故障预测装置。图2为本发明高性能计算集群系统故障预测装置的结构示意图,如图2所示,本发明故障预测装置的主体结构包括获取参数模块、分析状态模块和执行策略模块,其中,
获取参数模块,用于获取集群系统中各服务节点的芯片工况和电源输出功率,并将所述芯片工况和电源输出功率发送给分析状态模块,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系。
分析状态模块,与所述获取参数模块连接,用于接收所述芯片工况和电源输出功率,根据所述芯片工况和电源输出功率分析各服务节点的工作状态,并将各服务节点的工作状态发送给执行策略模块。
执行策略模块,与所述分析状态模块连接,用于接收所述各服务节点的工作状态,在服务节点的工作状态为非正常时,执行预先设定的维护策略。
进一步地,所述分析状态模块具体为,预先设置第一和第二对应阈值范围,第一和第二温度阈值范围,第一和第二转速阈值范围,以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。
进一步地,所述执行策略模块具体包括任务调度单元和维护处理单元,其中,
任务调度单元,与所述分析状态模块连接,用于接收到服务节点的工作状态为亚健康状态时,对所述服务节点执行任务调度;
维护处理单元,与所述分析状态模块连接,用于接收到服务节点的工作状态为异常状态时,对所述服务节点执行维护处理。
其中,所述执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务。进一步地,所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则对所述服务节点执行维护处理。
其中,所述执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。进一步地,所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种高性能计算集群系统故障预测方法,其特征在于,包括:
获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;
根据所述芯片工况和电源输出功率分析各服务节点的工作状态;
在服务节点的工作状态为非正常时,执行预先设定的维护策略。
2.根据权利要求1所述的方法,其特征在于,所述根据所述芯片工况和电源输出功率分析各服务节点的工作状态具体为:
预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。
3.根据权利要求2所述的方法,其特征在于,所述在服务节点的工作状态为非正常时执行预先设定的维护策略具体为:
在服务节点的工作状态为亚健康状态时,执行任务调度;在服务节点的工作状态为异常状态时,执行维护处理。
4.根据权利要求3所述的方法,其特征在于,
所述执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务;
所述执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。
5.根据权利要求4所述的方法,其特征在于,
所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则执行维护处理;
所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。
6.一种高性能计算集群系统故障预测装置,其特征在于,包括:
获取参数模块,用于获取集群系统中各服务节点的芯片工况和电源输出功率,所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系,所述芯片温度与风扇转速的对应关系是指:基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系;
分析状态模块,用于根据所述芯片工况和电源输出功率分析各服务节点的工作状态;
执行策略模块,用于在服务节点的工作状态为非正常时,执行预先设定的维护策略。
7.根据权利要求6所述的处理装置,其特征在于,所述分析状态模块具体用于,预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时,或当服务节点的芯片温度处于第一温度阈值范围内时,或当服务节点的风扇转速处于第一转速阈值范围内时,或当服务节点的电源输出功率处于第一功率阈值范围内时,判定服务节点处于亚健康状态;当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时,或当服务节点的芯片温度处于第二温度阈值范围内时,或当服务节点的风扇转速处于第二转速阈值范围内时,或当服务节点的电源输出功率处于第二功率阈值范围内时,判定服务节点处于异常状态。
8.根据权利要求7所述的处理装置,其特征在于,所述执行策略模块包括任务调度单元和维护处理单元,其中,
任务调度单元,用于在服务节点的工作状态为亚健康状态时,对所述服务节点执行任务调度;
维护处理单元,用于在服务节点的工作状态为异常状态时,对所述服务节点执行维护处理。
9.根据权利要求8所述的处理装置,其特征在于,
所述对所述服务节点执行任务调度具体为:向高性能计算集群系统的任务调度器发送亚健康预警信息,任务调度器调整任务调度队列,在任务调度队列中减少或删除分配给所述服务节点的任务;
所述对所述服务节点执行维护处理具体为:向高性能计算集群系统的系统管理控制器发送异常预警信息,系统管理控制器调整计算资源分配,将所述服务节点上的计算资源移除,并使所述服务节点进入维护模式进行维护,维护完成后重置状态。
10.根据权利要求9所述的处理装置,其特征在于,
所述执行任务调度还包括:发送亚健康预警信息时启动计时器计时,如果在设定的时间内,服务节点没有恢复到正常状态,则对所述服务节点执行维护处理;
所述执行维护处理还包括:发送异常预警信息时启动计时器计时,如果在设定的时间内,服务节点仍为异常状态,则发送告警信号。
CN201510557804.6A 2015-09-02 2015-09-02 高性能计算集群系统故障预测方法和装置 Active CN105159815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510557804.6A CN105159815B (zh) 2015-09-02 2015-09-02 高性能计算集群系统故障预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510557804.6A CN105159815B (zh) 2015-09-02 2015-09-02 高性能计算集群系统故障预测方法和装置

Publications (2)

Publication Number Publication Date
CN105159815A true CN105159815A (zh) 2015-12-16
CN105159815B CN105159815B (zh) 2018-06-19

Family

ID=54800677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510557804.6A Active CN105159815B (zh) 2015-09-02 2015-09-02 高性能计算集群系统故障预测方法和装置

Country Status (1)

Country Link
CN (1) CN105159815B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868035A (zh) * 2016-04-26 2016-08-17 浪潮电子信息产业股份有限公司 一种故障预测的方法、装置和系统
CN105872061A (zh) * 2016-04-01 2016-08-17 浪潮电子信息产业股份有限公司 一种服务器集群管理方法、装置及系统
CN107357676A (zh) * 2017-08-04 2017-11-17 郑州云海信息技术有限公司 重启机箱管理系统的方法、装置、可读介质及存储控制器
CN115914247A (zh) * 2022-09-30 2023-04-04 超聚变数字技术有限公司 一种分布式集群选主方法、节点及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120110352A1 (en) * 2010-10-29 2012-05-03 Alexander Branover Method and apparatus for thermal control of processing nodes
CN102510422A (zh) * 2011-10-09 2012-06-20 惠州Tcl移动通信有限公司 一种移动终端及其调节运行负荷的方法
CN103492974A (zh) * 2011-04-25 2014-01-01 高通股份有限公司 用于通过监视和控制便携式计算装置中的电流流动来减少热负载的方法和系统
CN104346164A (zh) * 2013-08-08 2015-02-11 瑞萨电子株式会社 半导体装置及其控制方法
CN104360724A (zh) * 2014-11-26 2015-02-18 曙光信息产业股份有限公司 一种基于作业调度的刀片服务器的散热系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120110352A1 (en) * 2010-10-29 2012-05-03 Alexander Branover Method and apparatus for thermal control of processing nodes
CN103492974A (zh) * 2011-04-25 2014-01-01 高通股份有限公司 用于通过监视和控制便携式计算装置中的电流流动来减少热负载的方法和系统
CN102510422A (zh) * 2011-10-09 2012-06-20 惠州Tcl移动通信有限公司 一种移动终端及其调节运行负荷的方法
CN104346164A (zh) * 2013-08-08 2015-02-11 瑞萨电子株式会社 半导体装置及其控制方法
CN104360724A (zh) * 2014-11-26 2015-02-18 曙光信息产业股份有限公司 一种基于作业调度的刀片服务器的散热系统和方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872061A (zh) * 2016-04-01 2016-08-17 浪潮电子信息产业股份有限公司 一种服务器集群管理方法、装置及系统
CN105872061B (zh) * 2016-04-01 2018-10-09 浪潮电子信息产业股份有限公司 一种服务器集群管理方法、装置及系统
CN105868035A (zh) * 2016-04-26 2016-08-17 浪潮电子信息产业股份有限公司 一种故障预测的方法、装置和系统
CN105868035B (zh) * 2016-04-26 2018-09-04 浪潮电子信息产业股份有限公司 一种故障预测的方法、装置和系统
CN107357676A (zh) * 2017-08-04 2017-11-17 郑州云海信息技术有限公司 重启机箱管理系统的方法、装置、可读介质及存储控制器
CN115914247A (zh) * 2022-09-30 2023-04-04 超聚变数字技术有限公司 一种分布式集群选主方法、节点及系统

Also Published As

Publication number Publication date
CN105159815B (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
US11140056B2 (en) Flexible and safe monitoring of computers
CN107734035B (zh) 一种云计算环境下的虚拟集群自动伸缩方法
US10355959B2 (en) Techniques associated with server transaction latency information
CN105159815A (zh) 高性能计算集群系统故障预测方法和装置
WO2016062117A1 (zh) 虚拟机迁移处理方法及装置
CN103684916A (zh) 一种云计算下智能监控分析方法及系统
CN104601492A (zh) 一种nfv架构下进行业务流控的方法及装置
CN105159769A (zh) 一种适用于计算能力异构集群的分布式作业调度方法
CN107992394A (zh) 实时数据处理的监控方法、装置、系统、设备及存储介质
CN104077189A (zh) 一种用于资源分配的方法和装置
WO2004090720A3 (en) Method and apparatus for task scheduling based on memory requirements
CN104407958A (zh) 一种高可靠性的系统监测方法和系统
CN105511937A (zh) 一种适用于云平台的批量虚拟机蓝屏监控方法
WO2021102838A1 (zh) 确定采集频率的方法、装置、计算设备和存储介质
CN105872061A (zh) 一种服务器集群管理方法、装置及系统
CN113672345A (zh) 一种基于io预测的云虚拟化引擎分布式资源调度方法
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN104780062A (zh) 一种快速获取bmc管理网口ip地址的方法
CN104008046A (zh) 程序的测试方法以及用于测试程序的设备
Iturriaga et al. An empirical study of the robustness of energy-aware schedulers for high performance computing systems under uncertainty
CN102734896B (zh) 一种多联机空调系统运行环境监控方法和装置
CN116680131A (zh) 服务器测试系统、服务器测试方法、电子设备及存储介质
CN108021463B (zh) 一种基于有限状态机的gpu故障管理方法
CN114490091A (zh) 工业数据采集管理系统中监控规则引擎性能的方法及装置
CN103051473B (zh) 一种网络运维保障效果仿真方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant