CN109728981A

CN109728981A - 一种云平台故障监测方法及装置

Info

Publication number: CN109728981A
Application number: CN201910211153.3A
Authority: CN
Inventors: 赵晶明; 孙峰; 张�杰
Original assignee: Jiangsu Hui Zhi Da Mdt Infotech Ltd
Current assignee: Jiangsu Hui Zhi Da Mdt Infotech Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-05-07

Abstract

本发明公开了云平台故障监测方法及装置，通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现，对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测，并且通过故障概率值和用户预先给定的期望阈值，快速判断目标节点是否失联宕机以及故障原因，对故障监测方法进行优化，从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

Description

一种云平台故障监测方法及装置

技术领域

本发明涉及故障监测技术领域，特别涉及一种云平台故障监测方法及装置。

背景技术

目前云平台中现有的故障监测方法一般是预先设定一个超时时间T，而被诊断的目标机会每间隔一段固定时间发起心跳数据包，在接收方一端，通过比较当前时间t和超时时间T的大小，来判断目标机是否宕机。在这种方式中，接收方首先要非常清楚目标的心跳大致规律才能正确设定一个超时时间T，而T的选择又依赖当前网络状况、目标主机的处理能力等很多因素。并且现有故障监测只能判断是否宕机，不能准确知晓故障原因从而不能快速修复。因此，亟待提出一种准确的云平台故障监测方法及装置。

发明内容

本发明实施例提供了一种云平台故障监测方法及装置，对故障监测方法进行优化，从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

为了解决上述问题，本发明公开了如下技术方案：

第一方面，提供一种云平台故障监测方法，所述方法包括：主机故障监测过程由网络心跳消息和存储心跳消息配合实现的：

步骤一、开始时每个主机节点为活动状态，表示运行正常；

步骤二、计算资源节点向计算管理节点发送所述网络心跳消息，所述计算管理节点接收到消息时，给所述计算资源节点发送响应消息；如果网络心跳信息正常，则判断所述计算资源节点为正常状态，转入步骤六；如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息，则设置所述计算资源节点其为失联状态，转入步骤三；

步骤三、对处于失联状态的所述计算资源节点，所述计算管理节点发送命令给其他健康计算资源节点，由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳，如果存储心跳正常，则置其为失联故障状态，进入步骤四；如果存储心跳失败，则判定计算资源节点故障，置为故障状态，进入步骤五；

步骤四、重启所述失联故障状态的计算资源节点，返回步骤二；

步骤五、迁移所述故障状态的计算资源节点上面的虚拟机，进入步骤六；

步骤六、监测结束。

进一步的，其中监测所述网络心跳消息包括：

(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间T_S，以及目标节点的网络心跳信息的消息等待时间T_W；

(2)根据记录的网络心跳到达时间构建一概率分布；

(3)通过该概率分布计算节点的故障概率值P；

(4)故障概率值P和用户预先给定的期望阈值E(T_W)进行比较，当P>E(T_W)时则可认为节点发生了故障；

其中消息等待时间T_W的期望阈值为：

上式中，σ代表消息的平均到达速率，其中包括网络心跳消息速率σ_b和数据消息速率σ_d，则σ＝σ_b+σ_d；T_Q代表一条消息总服务时间，它包含消息等待时间T_W和消息发送时间T_S，即T_Q＝T_W+T_S；在一定的网络环境中即消息长度L一定，网络带宽C一定，那么消息发送时间是一定的，即T_S＝L/C。

第二方面，提供一种云平台故障监测装置，所述装置包括：

初始模块，开始时每个主机节点为活动状态，表示运行正常；

网络心跳消息监测模块，计算资源节点向计算管理节点发送所述网络心跳消息，所述计算管理节点接收到消息时，给所述计算资源节点发送响应消息；如果网络心跳信息正常，则判断所述计算资源节点为正常状态，进入监测关闭模块；如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息，则设置所述计算资源节点其为失联状态，进入存储心跳消息监测模块；

存储心跳消息监测模块，对处于失联状态的所述计算资源节点，所述计算管理节点发送命令给其他健康计算资源节点，由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳，如果存储心跳正常，则置其为失联故障状态，进入重启模块；如果存储心跳失败，则判定计算资源节点故障，置为故障状态，进入迁移模块；

重启模块，重启所述失联故障状态的计算资源节点，返回所述网络心跳消息监测模块；

迁移模块，迁移所述故障状态的计算资源节点上面的虚拟机，进入监测关闭模块；

监测关闭模块，监测结束。

进一步的，其中所述网络心跳消息监测模块还用于：

(2)根据记录的网络心跳到达时间构建一概率分布；

(3)通过该概率分布计算节点的故障概率值P；

其中消息等待时间T_W的期望阈值为：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中云平台故障监测方法的流程示意图。

图2是本发明另一个实施例中云平台故障监测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明一个实施例提出了一种云平台故障监测方法的流程图。

主机故障监测过程由网络心跳消息和存储心跳消息配合实现的：

步骤一、开始时，每个主机节点为活动状态，表示运行正常；

步骤二、计算资源节点向计算管理节点发送网络心跳消息，计算管理节点接收到消息时，给计算资源节点发送响应消息。如果网络心跳信息正常，则判断计算资源节点为正常状态，转入步骤六；如果计算管理节点或者计算资源节点在固定时间周期内没有接收对方发送的消息，则设置计算资源节点其为失联状态，转入步骤三；

步骤三、对处于失联状态的计算资源节点，计算管理节点发送命令给其他健康计算资源节点，由健康计算资源节点监测失联状态的计算资源节点的存储心跳，如果存储心跳正常，则置其为失联故障状态，进入步骤四；如果存储心跳失败，则判定计算资源节点故障，置为故障状态，进入步骤五；

步骤四、重启失联故障状态的计算资源节点，返回步骤二；

步骤五、迁移故障状态的计算资源节点上面的虚拟机，进入步骤六。

步骤六、监测结束。

其中网络心跳消息监测具体过程如下：

(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间T_S，以及目标节点的网络心跳信息的消息等待时间T_W。

(2)根据记录的网络心跳到达时间构建一概率分布。

(3)通过该概率分布计算节点的故障概率值P。

(4)故障概率值P和用户预先给定的期望阈值E(T_W)进行比较，当P>E(T_W)时则可认为节点发生了故障。

考虑到网络负载情况，在分布式网络环境中，T_Q代表一条消息总服务时间，它包含消息等待时间T_W和消息发送时间T_S，即T_Q＝T_W+T_S。在一定的网络环境中即消息长度L一定，网络带宽C一定，那么消息发送时间是一定的，即T_S＝L/C。对于T_W的确定是根据前几次网络等待时间推算出的期望值。

那么，获得消息等待时间T_W的期望阈值为：

上式中，σ代表消息的平均到达速率，其中包括网络心跳消息速率σ_b和数据消息速率σ_d，则σ＝σ_b+σ_d。

不同应用可以根据自身提供的服务质量需求来定义适合自己的期望值。定义一个较低的期望值，可以尽快的探测出一个节点的宕机，但准确性不高，容易产生误判比如监测算法可能会将网络波动误认为是节点宕机。定义一个较高的期望值，可以比较准确的判断出一个节点的宕机，但探测的时间会比较长，这样可能在一端时间窗口内，请求依然会被定向到故障节点上，使得这些请求都以失败而告终。根据以往心跳间隔的经验值，对主机的心跳到达时间进行统计分析即可较好的快速估算出目标节点是否宕机。

上述云平台故障监测方法通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现，对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测，并且通过故障概率值和用户预先给定的期望阈值，快速判断目标节点是否失联宕机以及故障原因，对故障监测方法进行优化，从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

图2是本发明另一个实施例中云平台故障监测装置的结构示意图，包括：初始模块201、网络心跳消息监测模块202、存储心跳消息监测模块203、重启模块204、迁移模块205以及监测关闭模块206。

初始模块201，开始时每个主机节点为活动状态，表示运行正常；

网络心跳消息监测模块202，计算资源节点向计算管理节点发送所述网络心跳消息，所述计算管理节点接收到消息时，给所述计算资源节点发送响应消息；如果网络心跳信息正常，则判断所述计算资源节点为正常状态，进入监测关闭模块；如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息，则设置所述计算资源节点其为失联状态，进入存储心跳消息监测模块；

存储心跳消息监测模块203，对处于失联状态的所述计算资源节点，所述计算管理节点发送命令给其他健康计算资源节点，由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳，如果存储心跳正常，则置其为失联故障状态，进入重启模块；如果存储心跳失败，则判定计算资源节点故障，置为故障状态，进入迁移模块；

重启模块204，重启所述失联故障状态的计算资源节点，返回所述网络心跳消息监测模块；

迁移模块205，迁移所述故障状态的计算资源节点上面的虚拟机，进入监测关闭模块；

监测关闭模块206，监测结束。

进一步的，其中所述网络心跳消息监测模块202还用于：

(2)根据记录的网络心跳到达时间构建一概率分布；

(3)通过该概率分布计算节点的故障概率值P；

那么，获得消息等待时间T_W的期望阈值为：

上述云平台故障监测装置通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现，对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测，并且通过故障概率值和用户预先给定的期望阈值，快速判断目标节点是否失联宕机以及故障原因，对故障监测方法进行优化，从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

为了描述的方便，以上装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种云平台故障监测方法，其特征在于，所述方法包括：主机故障监测过程由网络心跳消息和存储心跳消息配合实现的：

步骤一、开始时每个主机节点为活动状态，表示运行正常；

步骤六、监测结束。

2.根据权利要求1所述的方法，其特征在于，进一步的，其中监测所述网络心跳消息包括：

(2)根据记录的网络心跳到达时间构建一概率分布；

(3)通过该概率分布计算节点的故障概率值P；

其中消息等待时间T_W的期望阈值为：

3.一种云平台故障监测装置，其特征在于，所述装置包括：

监测关闭模块，监测结束。

4.根据权利要求3所述的方法，其特征在于，进一步的，其中所述网络心跳消息监测模块还用于：

(2)根据记录的网络心跳到达时间构建一概率分布；

(3)通过该概率分布计算节点的故障概率值P；

其中消息等待时间T_W的期望阈值为：