CN105159815A

CN105159815A - 高性能计算集群系统故障预测方法和装置

Info

Publication number: CN105159815A
Application number: CN201510557804.6A
Authority: CN
Inventors: 马四腾
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2015-12-16
Anticipated expiration: 2035-09-02
Also published as: CN105159815B

Abstract

本发明公开了一种高性能计算集群系统故障预测方法和装置。故障预测方法包括：获取集群系统中各服务节点的芯片工况和电源输出功率，根据所述芯片工况和电源输出功率分析各服务节点的工作状态，在服务节点的工作状态为非正常时，执行预先设定的维护策略。本发明通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态，当服务节点为非正常状态时执行预先设定的维护策略，不仅可以准确地预测高性能计算集群系统可能出现的故障，而且通过执行相应的维护方案在一定程度上避免了发生故障的可能，因而有效地降低了高性能计算集群系统的故障率，有效地提高了集群系统的整体利用率。

Description

高性能计算集群系统故障预测方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种高性能计算集群系统故障预测方法和装置。

背景技术

当前，随着计算机技术的发展和越来越广泛的应用，越来越多的依赖于计算机技术的应用系统走进了我们的工作和生活。尽管单台计算机的性能和可靠性越来越好，但还是有很多现实的要求是单台计算机难以达到的，需要高性能计算集群系统作为后台支撑。

高性能计算集群系统作为一个整体系统，不仅对运算速率有较高的要求，而且对系统稳定性的要求更加严格。一个高性能计算任务，往往要耗费数小时、数天甚至数月才能完成。如此巨大的计算任务，如果计算过程中设备出现故障，就可能面临重算的窘境，造成时间、经费的浪费。因此，如何有效降低高性能计算集群系统的故障率，是高性能计算集群系统迫切需要解决的比较重要的问题。

发明内容

为了解决上述技术问题，本发明提供一种高性能计算集群系统故障预测方法和装置，以有效降低高性能计算集群系统的故障率。

为了达到本发明目的，本发明提供了一种高性能计算集群系统故障预测方法，包括：

获取集群系统中各服务节点的芯片工况和电源输出功率，所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系，所述芯片温度与风扇转速的对应关系是指：基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系；

根据所述芯片工况和电源输出功率分析各服务节点的工作状态；

在服务节点的工作状态为非正常时，执行预先设定的维护策略。

进一步地，所述根据所述芯片工况和电源输出功率分析各服务节点的工作状态具体为：

预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时，或当服务节点的芯片温度处于第一温度阈值范围内时，或当服务节点的风扇转速处于第一转速阈值范围内时，或当服务节点的电源输出功率处于第一功率阈值范围内时，判定服务节点处于亚健康状态；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时，或当服务节点的芯片温度处于第二温度阈值范围内时，或当服务节点的风扇转速处于第二转速阈值范围内时，或当服务节点的电源输出功率处于第二功率阈值范围内时，判定服务节点处于异常状态。

进一步地，所述在服务节点的工作状态为非正常时执行预先设定的维护策略具体为：

在服务节点的工作状态为亚健康状态时，执行任务调度；在服务节点的工作状态为异常状态时，执行维护处理。

进一步地，所述执行任务调度具体为：向高性能计算集群系统的任务调度器发送亚健康预警信息，任务调度器调整任务调度队列，在任务调度队列中减少或删除分配给所述服务节点的任务；所述执行维护处理具体为：向高性能计算集群系统的系统管理控制器发送异常预警信息，系统管理控制器调整计算资源分配，将所述服务节点上的计算资源移除，并使所述服务节点进入维护模式进行维护，维护完成后重置状态。

进一步地，所述执行任务调度还包括：发送亚健康预警信息时启动计时器计时，如果在设定的时间内，服务节点没有恢复到正常状态，则执行维护处理；所述执行维护处理还包括：发送异常预警信息时启动计时器计时，如果在设定的时间内，服务节点仍为异常状态，则发送告警信号。

为了达到本发明目的，本发明还提供了一种高性能计算集群系统故障预测装置，包括：

获取参数模块，用于获取集群系统中各服务节点的芯片工况和电源输出功率，所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系，所述芯片温度与风扇转速的对应关系是指：基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系；

分析状态模块，用于根据所述芯片工况和电源输出功率分析各服务节点的工作状态；

执行策略模块，用于在服务节点的工作状态为非正常时，执行预先设定的维护策略。

进一步地，所述分析状态模块具体用于，预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时，或当服务节点的芯片温度处于第一温度阈值范围内时，或当服务节点的风扇转速处于第一转速阈值范围内时，或当服务节点的电源输出功率处于第一功率阈值范围内时，判定服务节点处于亚健康状态；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时，或当服务节点的芯片温度处于第二温度阈值范围内时，或当服务节点的风扇转速处于第二转速阈值范围内时，或当服务节点的电源输出功率处于第二功率阈值范围内时，判定服务节点处于异常状态。

进一步地，所述执行策略模块包括任务调度单元和维护处理单元，其中，

任务调度单元，用于在服务节点的工作状态为亚健康状态时，对所述服务节点执行任务调度；

维护处理单元，用于在服务节点的工作状态为异常状态时，对所述服务节点执行维护处理。

进一步地，所述对所述服务节点执行任务调度具体为：向高性能计算集群系统的任务调度器发送亚健康预警信息，任务调度器调整任务调度队列，在任务调度队列中减少或删除分配给所述服务节点的任务；所述对所述服务节点执行维护处理具体为：向高性能计算集群系统的系统管理控制器发送异常预警信息，系统管理控制器调整计算资源分配，将所述服务节点上的计算资源移除，并使所述服务节点进入维护模式进行维护，维护完成后重置状态。

进一步地，所述执行任务调度还包括：发送亚健康预警信息时启动计时器计时，如果在设定的时间内，服务节点没有恢复到正常状态，则对所述服务节点执行维护处理；所述执行维护处理还包括：发送异常预警信息时启动计时器计时，如果在设定的时间内，服务节点仍为异常状态，则发送告警信号。

本发明提供了一种高性能计算集群系统故障预测方法和装置，通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态，当服务节点为非正常状态时执行预先设定的维护策略，不仅可以准确地预测高性能计算集群系统可能出现的故障，而且通过执行相应的维护方案在一定程度上避免了发生故障的可能，因而有效地降低了高性能计算集群系统的故障率，有效地提高了集群系统的整体利用率。本发明故障预测方法具有简单、有效、易于实施、适用性广等特点。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明高性能计算集群系统故障预测方法的处理流程图；

图2为本发明高性能计算集群系统故障预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明高性能计算集群系统故障预测方法的处理流程图。如图1所示，本发明高性能计算集群系统故障预测方法包括：

步骤1、获取集群系统中各服务节点的芯片工况和电源输出功率。

现有高性能计算集群系统中的服务节点基本上都具有基板管理控制器BMC(BaseboardManagementController)，BMC通过管理总线实时监测服务节点中各部件的运行参数。实际使用中，本发明获取芯片工况和电源输出功率两参数可以通过集群系统中各服务节点的BMC来获取。本发明中，芯片包括CPU或加速卡芯片，芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系，其中芯片温度与风扇转速的对应关系是指：BMC中定义的风扇转速根据芯片温度进行调整的对应关系。例如，CPU或加速卡芯片升高5°，风扇转速调高1档位，档位的概念是BMC中定义的，该对应关系会根据服务节点不同而不同，具有独立性。获取芯片工况和电源输出功率后，将这些参数顺序记录下来。实际使用中，可以通过设置日、周、月等时间段，展示这些参数曲线。

步骤2、根据所述芯片工况和电源输出功率，分析服务节点的工作状态。

对于高性能计算集群系统中的服务节点，芯片工况和电源输出功率可以很好地反映计算类服务节点的工作状态。例如，每个服务节点的芯片温度、风扇转速和电源输出功率均有一个正常工作参数范围，超出正常工作参数范围就属于异常，当风扇转速不符合BMC中定义的当前CPU温度所处档位的转速，档位过高或过低也属于异常。又如，在同一时间段内，同一角色的服务节点处理相同的任务或处于相同的状态时(服务节点的不同状态需要结合作业调度软件获取)，某个服务节点CPU或加速卡芯片的温度高于除自己外其它服务节点的平均值，或某个服务节点的风扇转速高于除自己外其它服务节点的平均值，该服务节点就属于异常。例如，10台服务节点运行同一任务时，BMC监测到1-9号服务节点加速卡芯片平均温度为69°，而10号服务节点加速卡芯片的温度为75°，那么认为10号服务节点出现异常。同理，在同一时间段内，同一角色的服务节点处理相同的任务或处于相同的状态时，某个服务节点的电源输出功率高于除自己外其它服务节点的平均值，可以判定该服务节点处于异常状态。再如，一般服务节点的功耗是可以计算的，如果电源输出功率持续高于计算值，也可以判定该服务节点处于异常状态。

本发明中，通过预先设置对应阈值范围、温度阈值范围、转速阈值范围和功率阈值范围的方式，来分析服务节点的工作状态。具体地说，预先设置第一对应阈值范围和第二对应阈值范围，第二对应阈值范围大于第一对应阈值范围；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时，判定服务节点处于亚健康状态；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时，判定服务节点处于异常状态。预先设置第一温度阈值范围和第二温度阈值范围，第二温度阈值范围大于第一温度阈值范围；当服务节点的芯片温度处于第一温度阈值范围内时，判定服务节点处于亚健康状态；当服务节点的芯片温度处于第二温度阈值范围内时，判定服务节点处于异常状态。预先设置第一转速阈值范围和第二转速阈值范围，第二转速阈值范围大于第一转速阈值范围；当服务节点的风扇转速处于第一转速阈值范围内时，判定服务节点处于亚健康状态；当服务节点的风扇转速处于第二转速阈值范围内时，判定服务节点处于异常状态。预先设置第一功率阈值范围和第二功率阈值范围，第二功率阈值范围大于第一功率阈值范围；当服务节点的电源输出功率处于第一功率阈值范围内时，判定服务节点处于亚健康状态；当服务节点的电源输出功率处于第二功率阈值范围内时，判定服务节点处于异常状态。其中，上述第一阈值范围和第二阈值范围可以由生产厂家提供，也可以通过测试得出。

实际使用中，可以对高性能计算集群系统中的服务节点进行分类，分类原则可以依据各服务节点在集群中的角色。例如，可以将服务节点划分为CPU计算节点、加速卡计算节点和胖节点。本发明进行分类的目的，主要是考虑到服务节点的角色不同，使用情况会有较大不同。通常，与CPU计算节点相比，加速卡计算节点的电源输出功率较大，风扇转速和芯片温度较高。通过对服务节点进行分类，不仅可以为不同类别的服务节点设置不同的阈值范围，而且可以为不同类别的服务节点设置不同维护策略，采用不同的调整手段。

步骤3、在服务节点的工作状态为非正常时，执行预先设定的维护策略。

为了有效地预测高性能计算集群系统可能出现的故障，本发明将服务节点的工作状态分为正常状态和非正常状态，非正常状态又细分为亚健康状态和异常状态。对于正常状态的服务节点，不需要调整服务器。对于非正常状态的服务节点，则需要采用相应的维护策略，以避免可能出现的故障，降低服务节点的故障率。本发明维护策略主要包括任务调度和维护处理，当服务节点的工作状态为亚健康状态时，执行任务调度，当服务节点的工作状态为异常状态时，执行维护处理。

当服务节点的工作状态为亚健康状态时，向高性能计算集群系统的任务调度器发送亚健康预警信息，任务调度器收到亚健康预警信息后，调整任务调度队列，在任务调度队列中减少分配给该服务节点的任务，或者将分配给该服务节点的任务删除，直接跳过该服务节点不分配任务。

当服务节点的工作状态为异常状态时，向高性能计算集群系统的系统管理控制器发送异常预警信息，系统管理控制器收到异常预警信息后，调整计算资源分配，将该服务节点上的计算资源转移到备用服务节点或其它服务节点上，计算资源转移后，使该服务节点进入维护模式(测试模式)进行维护，维护完成后重置状态。其中，调整任务调度队列、从服务节点上转移计算资源、服务节点进入维护模式以及进行维护等均采用现有技术手段，这里不再赘述。

实际使用中，本发明还设置有计时器，根据计时器的计时情况执行相应的维护策略。当判断服务节点的工作状态为亚健康状态，发送亚健康预警信息时，立即启动计时器计时，如果在设定的时间内，服务节点的工作状态没有从亚健康状态恢复到正常状态，说明调整任务的维护策略失败，则判定该服务节点的工作状态为异常状态，执行维护处理。如果服务节点的工作状态由亚健康状态恢复到正常状态，则向高性能计算集群系统的任务调度器发送亚健康恢复信息，任务调度器收到亚健康恢复信息后，调整任务调度队列，在任务调度队列中逐渐增加分配给该服务节点的任务。

当判断服务节点的工作状态为异常状态，发送异常预警信息时，立即启动计时器计时，如果在设定的时间内，服务节点的工作状态仍为异常状态，说明维护处理的维护策略失败，则发送告警信号，指示维修人员进行故障处理。

本发明提供了一种高性能计算集群系统故障预测方法，通过获取各服务节点的芯片工况和电源输出功率来分析服务节点的工作状态，当服务节点为非正常状态时执行预先设定的维护策略，不仅可以准确地预测高性能计算集群系统可能出现的故障，而且通过执行相应的维护方案在一定程度上避免了发生故障的可能，因而有效地降低了高性能计算集群系统的故障率，有效地提高了集群系统的整体利用率。本发明故障预测方法具有简单、有效、易于实施、适用性广等特点。

在本发明高性能计算集群系统故障预测方法技术方案基础上，本发明还提供了一种高性能计算集群系统故障预测装置。图2为本发明高性能计算集群系统故障预测装置的结构示意图，如图2所示，本发明故障预测装置的主体结构包括获取参数模块、分析状态模块和执行策略模块，其中，

获取参数模块，用于获取集群系统中各服务节点的芯片工况和电源输出功率，并将所述芯片工况和电源输出功率发送给分析状态模块，所述芯片工况包括芯片温度、风扇转速以及芯片温度与风扇转速的对应关系，所述芯片温度与风扇转速的对应关系是指：基板管理控制器BMC中定义的风扇转速根据芯片温度进行调整的对应关系。

分析状态模块，与所述获取参数模块连接，用于接收所述芯片工况和电源输出功率，根据所述芯片工况和电源输出功率分析各服务节点的工作状态，并将各服务节点的工作状态发送给执行策略模块。

执行策略模块，与所述分析状态模块连接，用于接收所述各服务节点的工作状态，在服务节点的工作状态为非正常时，执行预先设定的维护策略。

进一步地，所述分析状态模块具体为，预先设置第一和第二对应阈值范围，第一和第二温度阈值范围，第一和第二转速阈值范围，以及第一和第二功率阈值范围；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时，或当服务节点的芯片温度处于第一温度阈值范围内时，或当服务节点的风扇转速处于第一转速阈值范围内时，或当服务节点的电源输出功率处于第一功率阈值范围内时，判定服务节点处于亚健康状态；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时，或当服务节点的芯片温度处于第二温度阈值范围内时，或当服务节点的风扇转速处于第二转速阈值范围内时，或当服务节点的电源输出功率处于第二功率阈值范围内时，判定服务节点处于异常状态。

进一步地，所述执行策略模块具体包括任务调度单元和维护处理单元，其中，

任务调度单元，与所述分析状态模块连接，用于接收到服务节点的工作状态为亚健康状态时，对所述服务节点执行任务调度；

维护处理单元，与所述分析状态模块连接，用于接收到服务节点的工作状态为异常状态时，对所述服务节点执行维护处理。

其中，所述执行任务调度具体为：向高性能计算集群系统的任务调度器发送亚健康预警信息，任务调度器调整任务调度队列，在任务调度队列中减少或删除分配给所述服务节点的任务。进一步地，所述执行任务调度还包括：发送亚健康预警信息时启动计时器计时，如果在设定的时间内，服务节点没有恢复到正常状态，则对所述服务节点执行维护处理。

其中，所述执行维护处理具体为：向高性能计算集群系统的系统管理控制器发送异常预警信息，系统管理控制器调整计算资源分配，将所述服务节点上的计算资源移除，并使所述服务节点进入维护模式进行维护，维护完成后重置状态。进一步地，所述执行维护处理还包括：发送异常预警信息时启动计时器计时，如果在设定的时间内，服务节点仍为异常状态，则发送告警信号。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种高性能计算集群系统故障预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述芯片工况和电源输出功率分析各服务节点的工作状态具体为：

3.根据权利要求2所述的方法，其特征在于，所述在服务节点的工作状态为非正常时执行预先设定的维护策略具体为：

4.根据权利要求3所述的方法，其特征在于，

所述执行任务调度具体为：向高性能计算集群系统的任务调度器发送亚健康预警信息，任务调度器调整任务调度队列，在任务调度队列中减少或删除分配给所述服务节点的任务；

所述执行维护处理具体为：向高性能计算集群系统的系统管理控制器发送异常预警信息，系统管理控制器调整计算资源分配，将所述服务节点上的计算资源移除，并使所述服务节点进入维护模式进行维护，维护完成后重置状态。

5.根据权利要求4所述的方法，其特征在于，

所述执行任务调度还包括：发送亚健康预警信息时启动计时器计时，如果在设定的时间内，服务节点没有恢复到正常状态，则执行维护处理；

所述执行维护处理还包括：发送异常预警信息时启动计时器计时，如果在设定的时间内，服务节点仍为异常状态，则发送告警信号。

6.一种高性能计算集群系统故障预测装置，其特征在于，包括：

7.根据权利要求6所述的处理装置，其特征在于，所述分析状态模块具体用于，预先设置第一和第二对应阈值范围、第一和第二温度阈值范围、第一和第二转速阈值范围以及第一和第二功率阈值范围；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第一对应阈值范围内时，或当服务节点的芯片温度处于第一温度阈值范围内时，或当服务节点的风扇转速处于第一转速阈值范围内时，或当服务节点的电源输出功率处于第一功率阈值范围内时，判定服务节点处于亚健康状态；当服务节点的芯片温度与风扇转速的对应关系不符合BMC定义且处于第二对应阈值范围内时，或当服务节点的芯片温度处于第二温度阈值范围内时，或当服务节点的风扇转速处于第二转速阈值范围内时，或当服务节点的电源输出功率处于第二功率阈值范围内时，判定服务节点处于异常状态。

8.根据权利要求7所述的处理装置，其特征在于，所述执行策略模块包括任务调度单元和维护处理单元，其中，

9.根据权利要求8所述的处理装置，其特征在于，

所述对所述服务节点执行任务调度具体为：向高性能计算集群系统的任务调度器发送亚健康预警信息，任务调度器调整任务调度队列，在任务调度队列中减少或删除分配给所述服务节点的任务；

所述对所述服务节点执行维护处理具体为：向高性能计算集群系统的系统管理控制器发送异常预警信息，系统管理控制器调整计算资源分配，将所述服务节点上的计算资源移除，并使所述服务节点进入维护模式进行维护，维护完成后重置状态。

10.根据权利要求9所述的处理装置，其特征在于，

所述执行任务调度还包括：发送亚健康预警信息时启动计时器计时，如果在设定的时间内，服务节点没有恢复到正常状态，则对所述服务节点执行维护处理；