CN104834584A

CN104834584A - 一种监测主机硬件负载的方法和系统

Info

Publication number: CN104834584A
Application number: CN201510304555.XA
Authority: CN
Inventors: 张勤; 李璐
Original assignee: SHENZHEN ZHONGBO KECHUANG INFORMATION TECHNOLOGY Co Ltd
Current assignee: Beijing Toyou Feiji Electronics Co., Ltd.
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2015-08-12
Anticipated expiration: 2035-06-04
Also published as: CN104834584B

Abstract

一种监测主机硬件负载的方法，其特征在于，包括以下步骤：将负载参数的预设阈值和预设区间封装为第一消息队列；开始监测硬件负载并获取负载参数值，并将获取到的负载参数值封装为第二消息队列；将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较；根据比较结果，判定所述硬件负载的状态是否正常，并将判定结果封装为第三消息队列。该方法不仅可以及时的监测到多主机集群系统中主机硬件负载运行是否正常，而且还可以迅速定位状态异常的主机和硬件负载，以实现多主机集群系统出现异常时，能够及时对异常硬件负载进行处理，保证多主机集群系统的稳定性。

Description

一种监测主机硬件负载的方法和系统

技术领域

本发明涉及计算机技术领域，具体涉及一种适用于多主机集群系统的监测主机硬件负载的方法和系统。

背景技术

近年来，多主机集群系统已经成为计算机技术发展的新趋势。多主机集群方式通过将多个单一独立的主机有机的结合串联成一个系统性的整体，并依托存储区域网络，对外提供一个大容量文件系统的共享存储应用。实现了存储区域网络内的多并发用户操作和大数据传输。其优点是，由于数据是分布在集群系统不同的主机的存储单元上的，即使某几个主机宕机或存储单元不可用，也不会造成数据的丢失。

但是宕机或者存储单元不可用仍然会对整体系统的性能和稳定性造成一定影响。所以保证多主机集群硬件系统的正常运行尤为重要。

那么如何保证多主机集群系统的硬件系统正常运行？其中，一个非常关键的技术就是及时了解多主机集群系统中各主机硬件负载运行是否正常。随之而来的一系列问题是，如何从一个由众多单一主机连接而成的多主机集群系统中获取各主机硬件负载的运行状态，在如此多的主机中如何判断其是否正常，以及如何确定是哪个主机硬件负载异常，在判断其异常后如何处理等等都成为技术难题。而解决这些技术问题又是保证系统整体性能和稳定性的基础。

发明内容

本发明的目的，就是克服现有技术的不足，提供一种监测主机硬件负载的方法，其适用于多主机集群系统，该方法不仅可以及时的监测到多主机集群系统中主机硬件负载运行是否正常，而且还可以迅速定位状态异常的主机和硬件负载，以实现多主机集群系统出现异常时，能够及时对异常硬件负载进行处理，保证多主机集群系统的稳定性。

本发明的另一个目的是提供一种多主机硬件负载的收集系统。

为了达到上述目的，采用如下技术方案：

一种监测主机硬件负载的方法，其适用于多主机集群系统，所述多主机集群系统包括有多个主机节点，所述主机节点包括管理节点、监控节点和存储节点；其特征在于，包括有以下步骤：

将负载参数的预设阈值和预设区间封装为第一消息队列；

开始监测硬件负载并获取负载参数值，并将获取到的负载参数值封装为第二消息队列；

将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较；

根据比较结果，判定所述硬件负载的状态是否正常，并将判定结果封装为第三消息队列；

若某一硬件负载的负载参数值落在第一区间，则判定该硬件负载的状态为正常状态；

若某一硬件负载的负载参数值落在第二区间，则判定该硬件负载的状态为第一异常状态；

若某一硬件负载的负载参数值落在第三区间，则判定该硬件负载的状态为第二异常状态；

根据所述第三消息队列中的判定结果，对所述硬件负载进行处理；

若所述硬件负载的状态为正常状态，则对该硬件负载不作处理；

若所述硬件负载的状态为第一异常状态，则生成第一状态事件；

若所述硬件负载的状态为第二异常状态，则生成第二状态事件，并调高固定监测频率对该硬件负载再次监测，获取该硬件负载的负载参数值，将该硬件负载的负载参数值与所述预设阈值、预设区间进行比较，进一步判定该硬件负载的状态是否正常；

根据进一步判定结果，对所述硬件负载进行处理；

若所述硬件负载再次被判定为第二异常状态，则再次生成第二状态事件，并报警对该硬件负载进行定位；

若所述硬件负载未再次被判定为第二异常状态，则不对该硬件负载进行处理或生成第一状态事件，并恢复至第一监测频率对该硬件负载进行监测；

结束本次监测，等待下一次监测开始。

作为一种具体的实施例，在将获取到的负载参数值封装为第二消息队列后，还包括以临时文件的方式将第二消息队列保存到监控消息数据库，并将所述第二消息队列发送至管理消息数据库的步骤。

进一步地，在将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较之前，还包括接收所述第二消息队列，将所述第二消息队列保存至所述管理消息数据库，解析所述第二消息队列，并读取所述第二消息队列中的负载参数值的步骤。

作为一种具体的实施例，在将所述第二消息队列发送至管理消息数据库之前，还包括同步各监控消息数据库之间的第二消息队列的步骤。

作为一种具体的实施例，所述负载参数值至少包括主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器的流量和冷却单元的运行速度中的一个或多个。

进一步地，所述主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器流量的第一阈值均小于第二阈值；

其中，将小于或等于第一阀值的区域定义为第一区间；将大于第一阀值且低于或等于第二阀值的区域定义为第二区间；将大于第二阀值的区域定义为第三区间。

进一步地，所述冷却单元的运行速度的第一阈值大于第二阈值；

其中，将大于或等于第一阈值的区域定义为第一区间；将大于或等于第二阀值且小于第一阀值的区域定义为第二区间；将小于第二阀值的区域定义为第三区间。

作为一种具体的实施例，所述第一状态事件包括监测时间、异常状态、异常主机、异常硬件负载以及负载参数值中的一个或多个；

所述第二状态事件包括监测时间、异常状态、异常主机、异常硬件负载、负载参数值以及连续异常次数。

一种监测主机硬件负载的系统，其适用于多主机集群系统，所述多主机集群系统包括有多个主机节点，所述主机节点包括管理节点、监控节点和存储节点，其特征在于，包括：

阈值设置模块，用以将负载参数的预设阈值和预设区间封装为第一消息队列；

负载监测模块，用以监测硬件负载并获取负载参数值，并将获取到的负载参数值封装为第二消息队列；

比较判定模块，用以将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较；以及根据比较结果，判定所述硬件负载的状态为正常状态或第一异常状态或第二异常状态，并将判定结果封装为第三消息队列；

处理模块，用以根据所述第三消息队列中的判定结果，对所述硬件负载进行处理；以及用以在所述硬件负载初步判定为第二异常状态时，根据调高固定监测频率后，再次监测该硬件负载，进一步判定该硬件负载的状态的判定结果，对所述硬件负载进行处理。

作为一种具体的实施例，所述阈值设置模块、比较判定模块以及处理模块集成在所述管理节点上；

所述负载监测模块集成在所述监控节点上。

与现有技术相比，本发明的有益效果在于：

本发明通过设计一种监测主机硬件负载的方法和系统，通过阈值设置模块的设置，首先将主机板的温度、中央处理器温度等负载参数的预设阈值和预设区间按照一定序列封装成第一消息队列；然后通过设置负载监测模块监测各硬件负载并获取硬件负载运行时的负载参数值，并将获取到的负载参数值按照与第一消息队列相同的封装序列封装成第二消息队列；再通过比较判定模块将第二消息队列中的负载参数值与第一消息队列中预设阈值和预设区间进行比较，并判定各硬件负载的运行状态是否正常；最后通过设置处理模块，针对各硬件负载不同的状态相应进行处理。通过本发明的一种监测主机硬件负载的方法和系统，有效地从多主机集群系统的众多主机中获取各个主机运行时的负载参数值，并且可以有效地从众多主机中定位出是哪个主机出现异常，哪个硬件负载的哪项参数指标出现异常，从而使得异常状态得到及时处理。

为了在初步判定某一硬件负载为第二异常状态后，可以迅速确定该硬件负载是否正常，本发明在初步判定某一硬件负载为第二异常状态后，调高监测频率对该硬件负载再次监测。

同时本发明充分考虑到多主机集群系统的可扩展性，适用于主机节点数量不等的不同规模的多主机集群系统。

附图说明

图1是多主机集群系统的一种实施例示意图。

图2是多主机集群系统的另一一种实施例示意图。

图3是本发明的监测主机硬件负载的系统的模块示意图。

图4是本发明所述的消息队列的封装序列示意图。

图5是本发明的消息队列的另一种实施例示意图。

图6是本发明所述的第一状态事件示意图。

图7是本发明所述的第二状态事件示意图。

图8是本发明的监测主机硬件负载的方法流程框架图。

具体实施方式

下面将结合附图以及具体实施方法来详细说明本发明，在本发明的示意性实施例及说明用来解释本发明，但并不作为对本发明的限定。

如图1、2所示，本发明一种监测主机硬件负载的系统，其适用于多主机集群系统。所述多主机集群系统包括有N1到Nn总共n个主机节点，其中n大于等于2，所述n个主机节点包括1个管理节点、m个监控节点和存储节点。

如图1所示，若m等于1，即只有1个监控节点时，且管理节点和监控节点为同一主机节点时，则有n-1存储节点；

若m大于等于1，且管理节点和监控节点不是同一主机节点，则有n-m-1个存储节点。如图2所示，m为2，即有两个监控节点。

也即所述监控节点可以只有1个，也可以有多个，可以和管理节点在同一主机节点上，也可以在不同主机节点上。

其中，本发明所涉及到的主机硬件负载包括有主机板，中央处理器，内存储器，外存储器，网络适配器和冷却单元，在具体监测时，可以根据需要监测所述上述主机硬件负载中的一个或多个，以获取相应的负载参数值。

如图3所示，本发明一种监测主机硬件负载的系统，包括有：阈值设置模块1、负载监测模块2、比较判定模块3以及处理模块4。

下面将分别对各模块进行描述说明：

阈值设置模块1：

所述阈值设置模块1集成在多主机集群系统的管理节点上；用以将负载参数的预设阈值和预设区间按照一定的序列封装成第一消息队列，存储在管理消息数据库中。

本模块中涉及到的预设阀值包括主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器的流量、冷却单元的运行速度的第一阈值和第二阈值。

其中，主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器流量的第一阈值均小于第二阈值。例如主机板的温度的第一阈值设置为40℃，第二阈值设置为70℃；中央处理器的使用率的第一阈值设置为40％，第二阈值设置为70％。其中，具体预设阈值的具体数值可根据硬件负载的常用阈值进行自定义设置。

进一步，根据预设阈值，将小于或等于第一阀值的区域定义为第一区间；将大于第一阀值且低于或等于第二阀值的区域定义为第二区间；将大于第二阀值的区域定义为第三区间。具体的，例如内存储器的温度的第一阈值为40℃，第二阈值为70℃；将内存储器的温度小于或等于为40℃的区域定义为第一区间，将大于40℃且低于或等于70℃的区域定义为第二区间，将大于70℃的区域定义为第三区间。

其中，冷却单元的运行速度的第一阈值大于第二阈值。例如冷却单元的运行速度的第一阈值为70％，第二阈值为40％；进一步地，将冷却单元的运行速度大于或等于70％的区域定义为第一区间，将大于或等于40％且小于70％的区域定义为第二区间，将小于40％的区域定义为第三区间。当冷却单元的运行速度小于正常运行速度的70％时，冷却单元即不能良好散热。

其中，所述第一消息队列可以按照如图4所示的封装序列进行封装。即按照主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器的流量、冷却单元的运行速度顺序，把相应负载参数的阈值和区间封装成第一消息队列。

负载监测模块2：

所述负载监测模块2集成在多主机集群系统的监控节点上，用以对主机硬件负载进行实时监测，获取主机硬件负载的负载参数值，其中实时监测是以一固定监测频率进行的，也即每隔一个固定时长就去获取一次多主机集群系统中各个主机的中央处理器的温度、中央处理器的使用率，内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器流量和冷却单元运行速度。

所述负载监测模块2在获取到负载参数值后，按照与第一消息队列相同的序列将获取到的负载参数值封装为第二消息队列。例如，如图4所示，按照中央处理器的温度、中央处理器的使用率，内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器流量和冷却单元运行速度这样的序列，将各项负载参数值封装成第二消息队列。

如果只有1个监控节点且和管理节点在同一主机节点上，则所述第二消息队列直接存入消息管理数据库中。

如果监控节点大于等于1个且和管理节点不再同一主机节点上，则所述负载监测模块2会将第二消息队列以临时文件的方式先存储到所述多主机集群系统的监控节点的监控消息数据库中。同时所述负载监测模块2将所述第二消息队列发送至所述管理节点。

并且在监控节点大于1个时，在所述负载监测模块2将所述第二消息队列发送至所述管理节点前，所述负载监测模块2会同步各监控节点之间的第二消息队列。待同步完成后，所述负载监测模块2再将这个第二消息队列发送到管理节点。

其中，当完成一次监测并获取负载参数值后，所述负载监测模块2将更新第二消息队列中的各负载参数值。

需要说明的是，当初次判定某一硬件负载的状态为第二异常状态时，然后调高固定监测频率对该硬件负载再次监测，再次获取该硬件负载的负载参数值，并且将该负载参数值封装为新的第二消息队列。此时，如果只有个别负载参数为第二异常状态，例如，只有中央处理器的使用率、网络适配器流量和冷却单元的运行速度出现第二异常状态，则此时只对中央处理器的使用率、网络适配器流量和冷却单元的运行速度调高监测频率再次监测并获取相应的负载参数值，并将相应的负载参数值封装为新的第二消息队列。如图5所示，此时的第二消息队列除了中央处理器的使用率、网络适配器流量和冷却单元的运行速度对应序列位置，其他序列位置为空。

其中，主机板、中央处理器、内存储器、外存储器、网络适配器上均设置有温度传感器，用以监测各主机硬件单元的温度；冷却单元上设置有转速传感器，用以监测冷却单元的转速。

所述主机板上还设置有监控芯片，用以接收温度传感器和转速传感器的信号。

其中，所述主机硬件负载还包括相应的驱动组件，所述驱动组件用以获取并记录中央处理器的使用率，内存储器的占用率，外存储器的占用率，网络适配器的流量。

所述多主机集群系统的主机上还设置有蜂鸣器和LED灯，用以在判定负载异常时，报警对所述主机进行定位。

比较判定模块3：

所述比较判定模块3集成在多主机集群系统的管理节点上，若管理节点和监控节点不在同一主机节点上，所述比较判定模块3接收第二消息队列，在成功接收到第二消息队列后，本模块对第二消息队列进行解析，并读取第二消息队列中的负载参数值，成功读取后，将第二消息队列中的负载参数值与第一消息队列中的预设阈值和预设区间进行比较。

所述比较判定模块3根据比较结果，判定主机硬件负载的状态是否正常，并将判定结果封装为第三消息队列，其中，第三消息队列的封装序列和第一、第二消息队列相同。

其中，所述比较判定模块3根据判定结果，判定主机硬件负载的状态是否正常具体是：

若某一硬件负载的负载参数值落在第三区间，则判定该硬件负载的状态为第二异常状态。

当更新后的第二消息队列发送至所述管理节点，所述比较判定模块3接收更新后的第二消息队列，所述比较判定模块3对更新后的第二消息队列进行解析，并读取更新后的第二消息队列中的负载参数值，成功读取后，将更新后的第二消息队列中的负载参数值与第一消息队列中的预设阈值和预设区间进行比较，根据比较结果，判定所述主机硬件负载的运行状态是否正常，并且将新的判定结果封装为新的第三消息队列，更新第三消息队列。

处理模块4：

所述处理模块4集成在多主机集群系统的管理节点上，用以根据所述第三消息队列中的判定结果，对所述硬件负载进行处理；

其中，若所述硬件负载的状态为正常状态，则对该硬件负载不作处理；

根据进一步判定结果，对所述硬件负载进行处理；

若所述硬件负载未再次被判定为第二异常状态，则不对该硬件负载进行处理或生成第一状态事件，并恢复至第一监测频率对该硬件负载进行监测。

其中，如图6所示，所述第一状态事件包括监测时间、异常状态、异常主机、异常硬件负载以及负载参数值中的一个或多个；

如图7所示，所述第二状态事件包括监测时间、异常状态、异常主机、异常硬件负载、负载参数值以及连续异常次数。

下面将结合附图以及本发明的多主机硬件负载的收集系统，对本发明一种多主机硬件负载的收集方法做一详细描述。

如图8所示，本发明一种监测主机硬件负载的方法，其适用于多主机集群系统，在所述多主机集群系统运行时，以一固定监测频率重复该方法，对所述多主机集群系统的主机硬件负载进行实时监测，该方法包括有以下步骤：

将负载参数的预设阈值和预设区间封装为第一消息队列；

监测硬件负载并获取负载参数值，并将获取到的负载参数值封装为第二消息队列；

根据进一步判定结果，对所述硬件负载进行处理；

其中，若管理节点和监控节点不在同一主机节点上，则在将获取到的负载参数值封装为第二消息队列后，还包括以临时文件的方式将第二消息队列保存到监控消息数据库，并将所述第二消息队列发送至管理消息数据库的步骤。

在将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较之前，还包括接收所述第二消息队列，将所述第二消息队列保存至所述管理消息数据库，解析所述第二消息队列，并读取所述第二消息队列中的负载参数值的步骤。

其中，若所述多主机集群系统包括有多个监控节点，在将所述第二消息队列发送至管理消息数据库之前，还包括同步各监控消息数据库之间的第二消息队列的步骤。

下面以多主机集群系统包括有多个监控节点，并且监控节点和管理节点不在同一主机节点的情况，对本发明提供的一种监测主机硬件负载的方法做一详细说明，具体如下：

启动多主机集群系统；

包括有：启动主机硬件系统，监测装载各主机硬件单元；启动主机操作系统，加载各主机硬件负载的驱动组件。

将负载参数的预设阈值和预设区间封装为第一消息队列，并将所述第一消息队列存储至管理消息数据库。

监测硬件负载并获取负载参数值，并将获取到的负载参数值封装为第二消息队列。

以临时文件的方式将第二消息队列保存到监控消息数据库。

同步各监控消息数据库之间的第二消息队列。

将所述第二消息队列发送至管理消息数据库。

若某一监控节点在一时间限制内没有成功发送第二消息队列，则从该节点再次发送，或者从其他监控节点发送，直到发送完成。

接收所述第二消息队列；若硬件负载状态判定模块3在一时间限制内没有成功接收第二消息队列，则某一监控节点再次发送第二消息队列，直到接收成功；

将所述第二消息队列保存至所述管理消息数据库，解析所述第二消息队列，并读取所述第二消息队列中的负载参数值。

将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较。

若所述硬件负载的状态为第二异常状态，则生成第二状态事件，并调高固定监测频率对该硬件负载再次监测，再次获取该硬件负载的负载参数值，再次将该硬件负载的负载参数值与所述预设阈值、预设区间进行比较，进一步判定该硬件负载的状态是否正常；

根据进一步判定结果，对所述硬件负载进行处理；

这样，一次完整的监测就结束了，当一次完整的监测结束后，为了能够对多主机集群系统的硬件负载实时监测，以一固定监测频率周期重复该监测方法，以实现对多主机集群系统的硬件负载进行监测。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；同时，对于本领域的一般技术人员，依据本发明实施例，在具体实施方式以及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种监测主机硬件负载的方法，其适用于多主机集群系统，所述多主机集群系统包括有多个主机节点，所述主机节点包括管理节点、监控节点和存储节点；其特征在于，包括以下步骤：

将负载参数的预设阈值和预设区间封装为第一消息队列；

根据进一步判定结果，对所述硬件负载进行处理；

结束本次监测，等待下一次监测开始。

2.根据权利要求1所述的监测主机硬件负载的方法，其特征在于，

在将获取到的负载参数值封装为第二消息队列后，还包括以临时文件的方式将第二消息队列保存到监控消息数据库，并将所述第二消息队列发送至管理消息数据库的步骤。

3.根据权利要求2所述的监测主机硬件负载的方法，其特征在于，

4.根据权利要求2所述的监测主机硬件负载的方法，其特征在于，

在将所述第二消息队列发送至管理消息数据库之前，还包括同步各监控消息数据库之间的第二消息队列的步骤。

5.根据权利要求1所述的监测主机硬件负载的方法，其特征在于，

所述负载参数值至少包括主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器的流量和冷却单元的运行速度中的一个或多个。

6.根据权利要求5所述的监测主机硬件负载的方法，其特征在于，

所述主机板的温度，中央处理器的温度、中央处理器的使用率，内存储器的温度、内存储器的占用率，外存储器的温度、外存储器的占用率，网络适配器流量的第一阈值均小于第二阈值；

7.根据权利要求5所述的监测主机硬件负载的方法，其特征在于，

所述冷却单元的运行速度的第一阈值大于第二阈值；

8.根据权利要求1所述的监测主机硬件负载的方法，其特征在于，

所述第一状态事件包括监测时间、异常状态、异常主机、异常硬件负载以及负载参数值中的一个或多个；

9.一种监测主机硬件负载的系统，其适用于多主机集群系统，所述多主机集群系统包括有多个主机节点，所述主机节点包括管理节点、监控节点和存储节点，其特征在于，包括：

处理模块，用以根据所述第三消息队列中的判定结果，对所述硬件负载进行处理；以及用以在所述硬件负载初步判定为第二异常状态后，根据调高固定监测频率，再次监测该硬件负载，进一步判定该硬件负载的状态的判定结果，对该硬件负载进行处理。

10.根据权利要求9所述的监测主机硬件负载的系统，其特征在于，

所述阈值设置模块、比较判定模块以及处理模块集成在所述管理节点上；

所述负载监测模块集成在所述监控节点上。