CN109728981A - 一种云平台故障监测方法及装置 - Google Patents

一种云平台故障监测方法及装置 Download PDF

Info

Publication number
CN109728981A
CN109728981A CN201910211153.3A CN201910211153A CN109728981A CN 109728981 A CN109728981 A CN 109728981A CN 201910211153 A CN201910211153 A CN 201910211153A CN 109728981 A CN109728981 A CN 109728981A
Authority
CN
China
Prior art keywords
message
node
computing resource
heartbeat
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910211153.3A
Other languages
English (en)
Inventor
赵晶明
孙峰
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hui Zhi Da Mdt Infotech Ltd
Original Assignee
Jiangsu Hui Zhi Da Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hui Zhi Da Mdt Infotech Ltd filed Critical Jiangsu Hui Zhi Da Mdt Infotech Ltd
Priority to CN201910211153.3A priority Critical patent/CN109728981A/zh
Publication of CN109728981A publication Critical patent/CN109728981A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了云平台故障监测方法及装置,通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现,对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测,并且通过故障概率值和用户预先给定的期望阈值,快速判断目标节点是否失联宕机以及故障原因,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。

Description

一种云平台故障监测方法及装置
技术领域
本发明涉及故障监测技术领域,特别涉及一种云平台故障监测方法及装置。
背景技术
目前云平台中现有的故障监测方法一般是预先设定一个超时时间T,而被诊断的目标机会每间隔一段固定时间发起心跳数据包,在接收方一端,通过比较当前时间t和超时时间T的大小,来判断目标机是否宕机。在这种方式中,接收方首先要非常清楚目标的心跳大致规律才能正确设定一个超时时间T,而T的选择又依赖当前网络状况、目标主机的处理能力等很多因素。并且现有故障监测只能判断是否宕机,不能准确知晓故障原因从而不能快速修复。因此,亟待提出一种准确的云平台故障监测方法及装置。
发明内容
本发明实施例提供了一种云平台故障监测方法及装置,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。
为了解决上述问题,本发明公开了如下技术方案:
第一方面,提供一种云平台故障监测方法,所述方法包括:主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:
步骤一、开始时每个主机节点为活动状态,表示运行正常;
步骤二、计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,转入步骤六;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,转入步骤三;
步骤三、对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;
步骤四、重启所述失联故障状态的计算资源节点,返回步骤二;
步骤五、迁移所述故障状态的计算资源节点上面的虚拟机,进入步骤六;
步骤六、监测结束。
进一步的,其中监测所述网络心跳消息包括:
(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW
(2)根据记录的网络心跳到达时间构建一概率分布;
(3)通过该概率分布计算节点的故障概率值P;
(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;
其中消息等待时间TW的期望阈值为:
上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σbd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。
第二方面,提供一种云平台故障监测装置,所述装置包括:
初始模块,开始时每个主机节点为活动状态,表示运行正常;
网络心跳消息监测模块,计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,进入监测关闭模块;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,进入存储心跳消息监测模块;
存储心跳消息监测模块,对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入重启模块;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入迁移模块;
重启模块,重启所述失联故障状态的计算资源节点,返回所述网络心跳消息监测模块;
迁移模块,迁移所述故障状态的计算资源节点上面的虚拟机,进入监测关闭模块;
监测关闭模块,监测结束。
进一步的,其中所述网络心跳消息监测模块还用于:
(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW
(2)根据记录的网络心跳到达时间构建一概率分布;
(3)通过该概率分布计算节点的故障概率值P;
(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;
其中消息等待时间TW的期望阈值为:
上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σbd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。
本发明公开了云平台故障监测方法及装置,通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现,对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测,并且通过故障概率值和用户预先给定的期望阈值,快速判断目标节点是否失联宕机以及故障原因,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中云平台故障监测方法的流程示意图。
图2是本发明另一个实施例中云平台故障监测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明一个实施例提出了一种云平台故障监测方法的流程图。
主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:
步骤一、开始时,每个主机节点为活动状态,表示运行正常;
步骤二、计算资源节点向计算管理节点发送网络心跳消息,计算管理节点接收到消息时,给计算资源节点发送响应消息。如果网络心跳信息正常,则判断计算资源节点为正常状态,转入步骤六;如果计算管理节点或者计算资源节点在固定时间周期内没有接收对方发送的消息,则设置计算资源节点其为失联状态,转入步骤三;
步骤三、对处于失联状态的计算资源节点,计算管理节点发送命令给其他健康计算资源节点,由健康计算资源节点监测失联状态的计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;
步骤四、重启失联故障状态的计算资源节点,返回步骤二;
步骤五、迁移故障状态的计算资源节点上面的虚拟机,进入步骤六。
步骤六、监测结束。
其中网络心跳消息监测具体过程如下:
(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW
(2)根据记录的网络心跳到达时间构建一概率分布。
(3)通过该概率分布计算节点的故障概率值P。
(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障。
考虑到网络负载情况,在分布式网络环境中,TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS。在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。对于TW的确定是根据前几次网络等待时间推算出的期望值。
那么,获得消息等待时间TW的期望阈值为:
上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σbd
不同应用可以根据自身提供的服务质量需求来定义适合自己的期望值。定义一个较低的期望值,可以尽快的探测出一个节点的宕机,但准确性不高,容易产生误判比如监测算法可能会将网络波动误认为是节点宕机。定义一个较高的期望值,可以比较准确的判断出一个节点的宕机,但探测的时间会比较长,这样可能在一端时间窗口内,请求依然会被定向到故障节点上,使得这些请求都以失败而告终。根据以往心跳间隔的经验值,对主机的心跳到达时间进行统计分析即可较好的快速估算出目标节点是否宕机。
上述云平台故障监测方法通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现,对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测,并且通过故障概率值和用户预先给定的期望阈值,快速判断目标节点是否失联宕机以及故障原因,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。
图2是本发明另一个实施例中云平台故障监测装置的结构示意图,包括:初始模块201、网络心跳消息监测模块202、存储心跳消息监测模块203、重启模块204、迁移模块205以及监测关闭模块206。
初始模块201,开始时每个主机节点为活动状态,表示运行正常;
网络心跳消息监测模块202,计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,进入监测关闭模块;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,进入存储心跳消息监测模块;
存储心跳消息监测模块203,对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入重启模块;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入迁移模块;
重启模块204,重启所述失联故障状态的计算资源节点,返回所述网络心跳消息监测模块;
迁移模块205,迁移所述故障状态的计算资源节点上面的虚拟机,进入监测关闭模块;
监测关闭模块206,监测结束。
进一步的,其中所述网络心跳消息监测模块202还用于:
(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW
(2)根据记录的网络心跳到达时间构建一概率分布;
(3)通过该概率分布计算节点的故障概率值P;
(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;
考虑到网络负载情况,在分布式网络环境中,TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS。在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。对于TW的确定是根据前几次网络等待时间推算出的期望值。
那么,获得消息等待时间TW的期望阈值为:
上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σbd
不同应用可以根据自身提供的服务质量需求来定义适合自己的期望值。定义一个较低的期望值,可以尽快的探测出一个节点的宕机,但准确性不高,容易产生误判比如监测算法可能会将网络波动误认为是节点宕机。定义一个较高的期望值,可以比较准确的判断出一个节点的宕机,但探测的时间会比较长,这样可能在一端时间窗口内,请求依然会被定向到故障节点上,使得这些请求都以失败而告终。根据以往心跳间隔的经验值,对主机的心跳到达时间进行统计分析即可较好的快速估算出目标节点是否宕机。
上述云平台故障监测装置通过主机故障监测过程由网络心跳消息和存储心跳消息配合实现,对失联状态的节点继续判断是失联故障还是问题故障进行进一步监测,并且通过故障概率值和用户预先给定的期望阈值,快速判断目标节点是否失联宕机以及故障原因,对故障监测方法进行优化,从而解决了现有技术中不能快速修复以及不能及时反应故障问题等技术问题。
为了描述的方便,以上装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (4)

1.一种云平台故障监测方法,其特征在于,所述方法包括:主机故障监测过程由网络心跳消息和存储心跳消息配合实现的:
步骤一、开始时每个主机节点为活动状态,表示运行正常;
步骤二、计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,转入步骤六;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,转入步骤三;
步骤三、对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入步骤四;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入步骤五;
步骤四、重启所述失联故障状态的计算资源节点,返回步骤二;
步骤五、迁移所述故障状态的计算资源节点上面的虚拟机,进入步骤六;
步骤六、监测结束。
2.根据权利要求1所述的方法,其特征在于,进一步的,其中监测所述网络心跳消息包括:
(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW
(2)根据记录的网络心跳到达时间构建一概率分布;
(3)通过该概率分布计算节点的故障概率值P;
(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;
其中消息等待时间TW的期望阈值为:
上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σbd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。
3.一种云平台故障监测装置,其特征在于,所述装置包括:
初始模块,开始时每个主机节点为活动状态,表示运行正常;
网络心跳消息监测模块,计算资源节点向计算管理节点发送所述网络心跳消息,所述计算管理节点接收到消息时,给所述计算资源节点发送响应消息;如果网络心跳信息正常,则判断所述计算资源节点为正常状态,进入监测关闭模块;如果所述计算管理节点或者所述计算资源节点在固定时间周期内没有接收对方发送的消息,则设置所述计算资源节点其为失联状态,进入存储心跳消息监测模块;
存储心跳消息监测模块,对处于失联状态的所述计算资源节点,所述计算管理节点发送命令给其他健康计算资源节点,由所述健康计算资源节点监测所述失联状态的所述计算资源节点的存储心跳,如果存储心跳正常,则置其为失联故障状态,进入重启模块;如果存储心跳失败,则判定计算资源节点故障,置为故障状态,进入迁移模块;
重启模块,重启所述失联故障状态的计算资源节点,返回所述网络心跳消息监测模块;
迁移模块,迁移所述故障状态的计算资源节点上面的虚拟机,进入监测关闭模块;
监测关闭模块,监测结束。
4.根据权利要求3所述的方法,其特征在于,进一步的,其中所述网络心跳消息监测模块还用于:
(1)用一个滑动窗口记录下接收到的计算节点的网络心跳信息的消息发送时间TS,以及目标节点的网络心跳信息的消息等待时间TW
(2)根据记录的网络心跳到达时间构建一概率分布;
(3)通过该概率分布计算节点的故障概率值P;
(4)故障概率值P和用户预先给定的期望阈值E(TW)进行比较,当P>E(TW)时则可认为节点发生了故障;
其中消息等待时间TW的期望阈值为:
上式中,σ代表消息的平均到达速率,其中包括网络心跳消息速率σb和数据消息速率σd,则σ=σbd;TQ代表一条消息总服务时间,它包含消息等待时间TW和消息发送时间TS,即TQ=TW+TS;在一定的网络环境中即消息长度L一定,网络带宽C一定,那么消息发送时间是一定的,即TS=L/C。
CN201910211153.3A 2019-03-19 2019-03-19 一种云平台故障监测方法及装置 Pending CN109728981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910211153.3A CN109728981A (zh) 2019-03-19 2019-03-19 一种云平台故障监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910211153.3A CN109728981A (zh) 2019-03-19 2019-03-19 一种云平台故障监测方法及装置

Publications (1)

Publication Number Publication Date
CN109728981A true CN109728981A (zh) 2019-05-07

Family

ID=66302544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910211153.3A Pending CN109728981A (zh) 2019-03-19 2019-03-19 一种云平台故障监测方法及装置

Country Status (1)

Country Link
CN (1) CN109728981A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300103A (zh) * 2019-06-20 2019-10-01 厦门市美亚柏科信息股份有限公司 无线数据探测设备、修复方法及备份方法
CN110855504A (zh) * 2019-11-22 2020-02-28 苏州浪潮智能科技有限公司 一种云平台管理节点的故障恢复方法、系统及相关装置
CN111756573A (zh) * 2020-05-28 2020-10-09 浪潮电子信息产业股份有限公司 分布式集群中的ctdb双网卡故障监测方法及相关设备
CN112949869A (zh) * 2021-02-08 2021-06-11 上海钧正网络科技有限公司 一种车辆失联预测方法、系统、介质及服务器
CN113765748A (zh) * 2021-09-02 2021-12-07 云宏信息科技股份有限公司 计算节点故障处理方法和计算机可读存储介质
CN115858222A (zh) * 2022-12-19 2023-03-28 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051470A (zh) * 2012-11-29 2013-04-17 中标软件有限公司 一种集群及其磁盘心跳的控制方法
CN105634779A (zh) * 2014-11-04 2016-06-01 中兴通讯股份有限公司 主备设备的运行处理方法及装置
CN106815298A (zh) * 2016-12-09 2017-06-09 中电科华云信息技术有限公司 基于块存储的分布式共享文件系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051470A (zh) * 2012-11-29 2013-04-17 中标软件有限公司 一种集群及其磁盘心跳的控制方法
CN105634779A (zh) * 2014-11-04 2016-06-01 中兴通讯股份有限公司 主备设备的运行处理方法及装置
CN106815298A (zh) * 2016-12-09 2017-06-09 中电科华云信息技术有限公司 基于块存储的分布式共享文件系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周艳春: ""云计算中大规模集群下故障检测功能的设计与实现"", 《中国优秀硕士论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300103A (zh) * 2019-06-20 2019-10-01 厦门市美亚柏科信息股份有限公司 无线数据探测设备、修复方法及备份方法
CN110855504A (zh) * 2019-11-22 2020-02-28 苏州浪潮智能科技有限公司 一种云平台管理节点的故障恢复方法、系统及相关装置
CN111756573A (zh) * 2020-05-28 2020-10-09 浪潮电子信息产业股份有限公司 分布式集群中的ctdb双网卡故障监测方法及相关设备
CN112949869A (zh) * 2021-02-08 2021-06-11 上海钧正网络科技有限公司 一种车辆失联预测方法、系统、介质及服务器
CN112949869B (zh) * 2021-02-08 2023-07-04 上海钧正网络科技有限公司 一种车辆失联预测方法、系统、介质及服务器
CN113765748A (zh) * 2021-09-02 2021-12-07 云宏信息科技股份有限公司 计算节点故障处理方法和计算机可读存储介质
CN115858222A (zh) * 2022-12-19 2023-03-28 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备
CN115858222B (zh) * 2022-12-19 2024-01-02 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN109728981A (zh) 一种云平台故障监测方法及装置
JP6949045B2 (ja) 分散クラスタ型訓練方法及び装置
CN1795446B (zh) 计算机集群及其中的计算机节点和传送状态信息的方法
CN109088794A (zh) 一种节点的故障监测方法和装置
JP6405416B2 (ja) データ送信システム、及びデータ送信方法
CN112231075B (zh) 一种基于云服务的服务器集群负载均衡控制方法及系统
CN108712464A (zh) 一种面向集群微服务高可用的实现方法
US9009305B1 (en) Network host inference system
CN107872457B (zh) 一种基于网络流量预测进行网络操作的方法及系统
EP2713270A1 (en) Resource scheduling method and device
US10447561B2 (en) BFD method and apparatus
CN105245381B (zh) 云服务器宕机监控迁移系统和方法
CN110809060B (zh) 一种应用服务器集群的监控系统及监控方法
CN114357495B (zh) 基于区块链的预言机链下聚合方法、装置、设备和介质
US7386613B2 (en) System and method for measuring middleware response time
CN110750425A (zh) 数据库监控方法、装置、系统和存储介质
CN107426012B (zh) 一种基于超融合架构的故障恢复方法及其装置
CN103634167A (zh) 云环境中对目标主机进行安全配置检查的方法和系统
CN110198228A (zh) 一种故障监控方法、装置、服务器及存储介质
JP2020035297A (ja) 機器状態監視装置及びプログラム
CN109831342A (zh) 一种基于分布式系统的故障恢复方法
CN113612624B (zh) 一种节点之间心跳处理方法及装置
CN115080215A (zh) 由状态监控芯片在计算节点间进行任务调度的方法及系统
US11765042B2 (en) Traffic application amount calculation apparatus, method and program
CN114448838A (zh) 系统可靠度评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190507

RJ01 Rejection of invention patent application after publication