CN108964992B - 一种节点故障检测方法、装置和计算机可读存储介质 - Google Patents

一种节点故障检测方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN108964992B
CN108964992B CN201810697824.7A CN201810697824A CN108964992B CN 108964992 B CN108964992 B CN 108964992B CN 201810697824 A CN201810697824 A CN 201810697824A CN 108964992 B CN108964992 B CN 108964992B
Authority
CN
China
Prior art keywords
node
target
target node
read request
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810697824.7A
Other languages
English (en)
Other versions
CN108964992A (zh
Inventor
赵赞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810697824.7A priority Critical patent/CN108964992B/zh
Publication of CN108964992A publication Critical patent/CN108964992A/zh
Application granted granted Critical
Publication of CN108964992B publication Critical patent/CN108964992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种节点故障检测方法、装置和计算机可读存储介质,分布式文件系统中的管理模块可以向目标节点发送读请求;判断在定时时间内是否接收到目标节点反馈的响应消息;若否,则判断目标节点的当前超时比例值是否大于或等于目标比例值;其中,目标节点的当前超时比例值可以依据目标节点当前的未完成读请求和未完成的超时读请求计算得出;超时读请求可以是超过目标时间阈值未响应的读请求;当目标节点的当前超时比例值大于或等于目标比例值时,则可以判定该目标节点为故障节点。在该技术方案中,管理模块通过向目标节点主动发送读请求的方式,来检验目标节点的运行状态,可以快速准确的检测到节点故障,提高了系统性能。

Description

一种节点故障检测方法、装置和计算机可读存储介质
技术领域
本发明涉及分布式文件系统技术领域,特别是涉及一种节点故障检测方法、装置和计算机可读存储介质。
背景技术
在分布式文件系统中包括有多个节点,为了便于对各节点进行调用管理,在分布式文件系统中会设置相应的模块,用于管理各节点运行状态,该模块可以称作管理模块。
现在的分布式文件系统中,基本都是在每个节点设置监控模块。监控模块通过心跳消息来检测节点的运行状态,并将监控得到的状态信息定时反馈给管理模块。这种被动的方式有个主要的问题就是效率低反应慢。管理模块需要依据各监控模块反馈的状态信息判定节点是否故障。
特别是当节点断电或重启的场景下,此时该节点的监控模块无法向管理模块反馈状态信息,此时管理模块会依据上一次获取的状态信息判定该节点属于正常运行的节点,从而向该节点指定相应的读写任务。由于该节点当前处于离线状态,从而导致读写操作的延时或失败,影响了分布式文件系统的性能。
可见,如何准确的检测节点的当前运行状态,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种节点故障检测方法、装置和计算机可读存储介质,可以准确的检测节点的当前运行状态。
为解决上述技术问题,本发明实施例提供一种节点故障检测方法,包括:
向目标节点发送读请求;
判断在定时时间内是否接收到所述目标节点反馈的响应消息;
若否,则判断所述目标节点的当前超时比例值是否大于或等于目标比例值;其中,所述目标节点的当前超时比例值依据所述目标节点当前的未完成读请求和未完成的超时读请求计算得出;所述超时读请求为超过目标时间阈值未响应的读请求;
当所述目标节点的当前超时比例值大于或等于所述目标比例值时,则判定所述目标节点为故障节点。
可选的,在所述判断所述目标节点的当前超时比例值是否大于或等于目标比例值之前还包括:
根据接收到的所述目标节点的状态信息,按照预设参数规则调整所述目标比例值以及所述目标时间阈值的取值。
可选的,在所述判定所述目标节点为故障节点之前还包括:
检测所述目标节点当前未完成的超时读请求是否均属于所述目标节点中的同一个存储单元;
若是,则判定所述目标节点为非故障节点,所述存储单元为故障单元。
可选的,在所述判定所述目标节点为故障节点之后还包括:
将所述目标节点从读请求节点清单中删除。
本发明实施例还提供了一种节点故障检测装置,包括发送单元、第一判断单元、第二判断单元和确定单元;
所述发送单元,用于向目标节点发送读请求;
所述第一判断单元,用于判断在定时时间内是否接收到所述目标节点反馈的响应消息;若否,则触发所述第二判断单元;
所述第二判断单元,用于判断所述目标节点的当前超时比例值是否大于或等于目标比例值;其中,所述目标节点的当前超时比例值依据所述目标节点当前的未完成读请求和未完成的超时读请求计算得出;所述超时读请求为超过目标时间阈值未响应的读请求;
所述确定单元,用于当所述目标节点的当前超时比例值大于或等于所述目标比例值时,则判定所述目标节点为故障节点。
可选的,还包括调整单元;
所述调整单元,用于根据接收到的所述目标节点的状态信息,按照预设参数规则调整所述目标比例值以及所述目标时间阈值的取值。
可选的,还包括检测单元;
所述检测单元,用于检测所述目标节点当前未完成的超时读请求是否均属于所述目标节点中的同一个存储单元;
所述确定单元还用于当所述目标节点当前未完成的超时读请求均属于所述目标节点中的同一个存储单元,则判定所述目标节点为非故障节点,所述存储单元为故障单元。
可选的,还包括删除单元;
所述删除单元,用于在判定所述目标节点为故障节点之后将所述目标节点从读请求节点清单中删除。
本发明实施例还提供了一种节点故障检测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述节点故障检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述节点故障检测方法的步骤。
由上述技术方案可以看出,分布式文件系统中的管理模块可以向目标节点发送读请求;判断在定时时间内是否接收到目标节点反馈的响应消息;若否,则判断目标节点的当前超时比例值是否大于或等于目标比例值;其中,目标节点的当前超时比例值可以依据目标节点当前的未完成读请求和未完成的超时读请求计算得出;超时读请求可以是超过目标时间阈值未响应的读请求;当目标节点的当前超时比例值大于或等于目标比例值时,则可以判定该目标节点为故障节点。在该技术方案中,管理模块通过向目标节点主动发送读请求的方式,来检验目标节点的运行状态,可以快速准确的检测到节点故障,提高了系统性能。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种节点故障检测方法的流程图;
图2为本发明实施例提供的一种节点故障检测装置的结构示意图;
图3为本发明实施例提供的一种节点故障检测装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种节点故障检测方法。
图1为本发明实施例提供的一种节点故障检测方法的流程图,该方法包括:
S101:向目标节点发送读请求。
本发明提供的节点故障检测方法适用于副本模式的分布式文件系统,即数据存储成多份完全相同的冗余模式。只要有一个副本在,数据就不会丢失,并能够将其它副本恢复。
在副本模式下执行读操作时只涉及一个节点,这种场景下进行超时判断准确高效。而其它操作如写操作往往涉及到多个节点,比如写两个副本,就要涉及两个节点都写完才算操作完成,期间若是有超时也不好区分哪个节点超时。
因此在本发明实施例中,可以采用读请求的方式来检验节点的运行状态。可以将待检验的节点称作目标节点。
S102:判断在定时时间内是否接收到目标节点反馈的响应消息。
管理模块向目标节点发送读请求时,可以将该读请求的识别码和发送时间记录下来,同时设置定时器。该定时器可以从管理模块发送读请求时开始计时。
在节点正常运行情况下,管理模块从向该节点发送读请求到接收到该节点反馈的响应消息所花费的时间相对比较固定,可以将该时间称作响应时间。
在实际应用中,如果每当在响应时间内接收不到响应消息时就触发节点的故障检测机制,这样会导致节点故障检测机制的执行频率太高。因此,在本发明实施例中,可以将定时时间的取值设置的比响应时间长一些。当然,对于定时时间的取值可以依据实际需求进行设定,在此不做限定。
当管理模块在定时时间内接收到目标节点反馈的响应消息时,则说明该目标节点处于在线状态。
当管理模块在定时时间内未接收到目标节点反馈的响应消息时,说明该目标节点可能出现了问题,则需要对该目标节点的运行状态进行进一步的检测,此时则可以触发节点的故障检测机制,即可以执行S103。
S103:判断目标节点的当前超时比例值是否大于或等于目标比例值。
其中,目标节点的当前超时比例值可以依据目标节点当前的未完成读请求和未完成的超时读请求计算得出。超时读请求为超过目标时间阈值未响应的读请求。
时间阈值的取值可以依据响应时间进行设定,在此不做具体限定。
以一个读请求为例,当超过时间阈值后还没有收到响应消息,则可以将该读请求标记为未完成的超时读请求。
目标比例值可以是节点的当前超时比例值的一个上限值。
目标比例值可以采用分数、小数或者是百分数的形式表示。为了便于比较当前超时比例值和目标比例值,相应的,当前超时比例值和目标比例值可以采用相同的表示形式。例如,目标比例值以分数形式表示,相应的,在计算目标节点的当前超时比例值时也采用分数形式表示。
其中,目标节点的当前超时比例值可以按照目标节点的当前未完成的超时读请求个数除以目标节点的当前未完成的所有读请求的个数得到。
假设目标节点当前未完成的所有读请求有10个,其中,该目标节点当前未完成的超时读请求有5个,以分数形式表示,则目标节点的当前超时比例值为5/10=1/2。
随着目标节点对各读请求的完成情况的变化,其对应的超时比例值也会发生变化。也即目标节点的超时比例值是一个动态变化的数值。
结合上述举例中,目标节点未完成的所有读请求有10个,其中,该目标节点未完成的超时读请求有5个。
当这10个读请求一直处于未完成状态并且目标节点未接收新的读请求的情况下,目标节点的当前超时比例值不发生变化。
当目标节点完成了这5个超时读请求中的1个读请求时,相应的,目标节点当前未完成的所有读请求变成了9个,目标节点当前未完成的超时读请求变成了4个,以分数形式表示,则目标节点的当前超时比例值为4/9。
当目标节点在时间阈值内完成了这10个读请求中的1个读请求时,相应的,目标节点当前未完成的所有读请求变成了9个,由于完成的该读请求并不属于超时读请求,因此,目标节点当前未完成的超时读请求仍为5个,以分数形式表示,则目标节点的当前超时比例值为5/9。
S104:当目标节点的当前超时比例值大于或等于目标比例值时,则判定目标节点为故障节点。
当目标节点的当前超时比例值大于或等于目标比例值时,则说明目标节点已经无法对读请求进行正常的处理,则可以判定该目标节点为故障节点。相应的,管理模块可以将目标节点从读请求名单中删除,以保证后续的请求尽量都发往状态正常的节点。
由上述技术方案可以看出,分布式文件系统中的管理模块可以向目标节点发送读请求;判断在定时时间内是否接收到目标节点反馈的响应消息;若否,则判断目标节点的当前超时比例值是否大于或等于目标比例值;其中,目标节点的当前超时比例值可以依据目标节点当前的未完成读请求和未完成的超时读请求计算得出;超时读请求可以是超过目标时间阈值未响应的读请求;当目标节点的当前超时比例值大于或等于目标比例值时,则可以判定该目标节点为故障节点。在该技术方案中,管理模块通过向目标节点主动发送读请求的方式,来检验目标节点的运行状态,可以快速准确的检测到节点故障,提高了系统性能。
在本发明实施例中,为了提升节点故障检测的准确性,降低误判情况的发生,可以根据各节点的运行情况,对目标比例值和时间阈值的具体取值进行调整。
具体的,管理模块可以根据接收到的目标节点的状态信息,按照预设参数规则调整目标比例值以及目标时间阈值的取值。
预设参数规则中可以包括各类状态参数的正常数值范围,当状态信息中的参数处于该正常数值范围内时,则可以判定节点处于正常运行状态;当状态信息中的参数不处于该正常数值范围内时,则可以判定节点处于非正常运行状态。
在节点正常运行状态下,可以将目标比例值设置的小一些,时间阈值设置的短一些。当节点由于非故障因素的影响,导致其处理速度较慢时,即节点处于非正常运行状态时,则可以将目标比例值设置的大一些,时间阈值设置的长一些。
例如,节点正常运行状态下,目标比例值以分数形式表示可以设置为3/5,时间阈值可以设置为1秒;当节点由于非故障因素的影响,导致其处理速度较慢时,目标比例值以分数形式表示可以设置为9/10,时间阈值可以设置为1.5秒。
依据节点运行状态的变化情况,动态的调整目标比例值和时间阈值的取值,可以使得节点故障检测机制更加准确,有效的降低了误判情况的发生。
一个节点中往往包括有多个存储单元,在实际应用中,可能会出现节点中的某个存储单元处于故障状态,而该节点的其它存储单元处于正常运行状态的情况。在该种情况下,依据上述判定方式,可能会将该节点判定为故障节点。
从节点整体运行状态而言,对于只有一个存储单元出现故障,而其它存储单元可以正常运行的情况,可以将该节点看作是非故障节点。具体的,可以在目标节点的当前超时比例值大于或等于目标比例值,判定目标节点为故障节点之前,进一步检测目标节点当前未完成的超时读请求是否均属于目标节点中的同一个存储单元;若是,则判定目标节点为非故障节点,该存储单元为故障单元。
为了降低误判的概率,在实际应用中,当节点中的一个存储单元在响应时间内对接收到的读请求进行了反馈,则说明该存储单元可以正常工作,则可以将发送至该存储单元的发送时间早于该读请求的其它读请求默认为正常的读请求即非超时读请求。
通过对目标节点中当前未完成的超时读请求进行定位,实现了对目标节点中的各存储单元的故障检测,可以更加具体的确定出目标节点的故障情况,进一步提升了节点故障检测的准确性,降低了误判情况的发生。
上述介绍中,以节点中只有一个存储单元出现故障的情况为例,而其它存储单元都可以正常运行时,可以将该节点判定为非故障节点。在实际应用中,在对故障检测灵敏度要求不是特别高的情况下,也可以当节点中只有少数存储单元出现故障,而其它存储单元都可以正常运行时,将该节点判定为非故障节点。
相应的,管理模块可以在判定存储单元为故障单元之后,将该存储单元从读请求节点清单中删除,以便于当某个节点的存储单元故障时,可以及时避免向该存储单元继续发送请求,提升了分布式文件系统的性能。
图2为本发明实施例提供的一种节点故障检测装置的结构示意图,装置包括发送单元21、第一判断单元22、第二判断单元23和确定单元24;
发送单元21,用于向目标节点发送读请求;
第一判断单元22,用于判断在定时时间内是否接收到目标节点反馈的响应消息;若否,则触发第二判断单元23;
第二判断单元23,用于判断目标节点的当前超时比例值是否大于或等于目标比例值;其中,目标节点的当前超时比例值依据目标节点当前的未完成读请求和未完成的超时读请求计算得出;超时读请求为超过目标时间阈值未响应的读请求;
确定单元24,用于当目标节点的当前超时比例值大于或等于目标比例值时,则判定目标节点为故障节点。
可选的,还包括调整单元;
调整单元,用于根据接收到的目标节点的状态信息,按照预设参数规则调整目标比例值以及目标时间阈值的取值。
可选的,还包括检测单元;
检测单元,用于检测目标节点当前未完成的超时读请求是否均属于目标节点中的同一个存储单元;
确定单元还用于当目标节点当前未完成的超时读请求均属于目标节点中的同一个存储单元,则判定目标节点为非故障节点,存储单元为故障单元。
可选的,还包括删除单元;
删除单元,用于在判定目标节点为故障节点之后将目标节点从读请求节点清单中删除。
图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,分布式文件系统中的管理模块可以向目标节点发送读请求;判断在定时时间内是否接收到目标节点反馈的响应消息;若否,则判断目标节点的当前超时比例值是否大于或等于目标比例值;其中,目标节点的当前超时比例值可以依据目标节点当前的未完成读请求和未完成的超时读请求计算得出;超时读请求可以是超过目标时间阈值未响应的读请求;当目标节点的当前超时比例值大于或等于目标比例值时,则可以判定该目标节点为故障节点。在该技术方案中,管理模块通过向目标节点主动发送读请求的方式,来检验目标节点的运行状态,可以快速准确的检测到节点故障,提高了系统性能。
如图3所示为本发明实施例提供的一种节点故障检测装置30的硬件结构示意图,所述装置30包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序以实现如上述节点故障检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述节点故障检测方法的步骤。
以上对本发明实施例所提供的一种节点故障检测方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (8)

1.一种节点故障检测方法,其特征在于,包括:
向目标节点发送读请求;
判断在定时时间内是否接收到所述目标节点反馈的响应消息;
若否,则判断所述目标节点的当前超时比例值是否大于或等于目标比例值;其中,所述目标节点的当前超时比例值依据所述目标节点当前的未完成读请求和未完成的超时读请求计算得出;所述超时读请求为超过目标时间阈值未响应的读请求;
当所述目标节点的当前超时比例值大于或等于所述目标比例值时,则判定所述目标节点为故障节点;
在所述判定所述目标节点为故障节点之前还包括:
检测所述目标节点当前未完成的超时读请求是否均属于所述目标节点中的同一个存储单元;
若是,则判定所述目标节点为非故障节点,所述存储单元为故障单元。
2.根据权利要求1所述的方法,其特征在于,在所述判断所述目标节点的当前超时比例值是否大于或等于目标比例值之前还包括:
根据接收到的所述目标节点的状态信息,按照预设参数规则调整所述目标比例值以及所述目标时间阈值的取值。
3.根据权利要求1-2任意一项所述的方法,其特征在于,在所述判定所述目标节点为故障节点之后还包括:
将所述目标节点从读请求节点清单中删除。
4.一种节点故障检测装置,其特征在于,包括发送单元、第一判断单元、第二判断单元和确定单元;
所述发送单元,用于向目标节点发送读请求;
所述第一判断单元,用于判断在定时时间内是否接收到所述目标节点反馈的响应消息;若否,则触发所述第二判断单元;
所述第二判断单元,用于判断所述目标节点的当前超时比例值是否大于或等于目标比例值;其中,所述目标节点的当前超时比例值依据所述目标节点当前的未完成读请求和未完成的超时读请求计算得出;所述超时读请求为超过目标时间阈值未响应的读请求;
所述确定单元,用于当所述目标节点的当前超时比例值大于或等于所述目标比例值时,则判定所述目标节点为故障节点;
还包括检测单元;
所述检测单元,用于检测所述目标节点当前未完成的超时读请求是否均属于所述目标节点中的同一个存储单元;
所述确定单元还用于当所述目标节点当前未完成的超时读请求均属于所述目标节点中的同一个存储单元,则判定所述目标节点为非故障节点,所述存储单元为故障单元。
5.根据权利要求4所述的装置,其特征在于,还包括调整单元;
所述调整单元,用于根据接收到的所述目标节点的状态信息,按照预设参数规则调整所述目标比例值以及所述目标时间阈值的取值。
6.根据权利要求4-5任意一项所述的装置,其特征在于,还包括删除单元;
所述删除单元,用于在判定所述目标节点为故障节点之后将所述目标节点从读请求节点清单中删除。
7.一种节点故障检测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至3任意一项所述节点故障检测方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述节点故障检测方法的步骤。
CN201810697824.7A 2018-06-29 2018-06-29 一种节点故障检测方法、装置和计算机可读存储介质 Active CN108964992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810697824.7A CN108964992B (zh) 2018-06-29 2018-06-29 一种节点故障检测方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810697824.7A CN108964992B (zh) 2018-06-29 2018-06-29 一种节点故障检测方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108964992A CN108964992A (zh) 2018-12-07
CN108964992B true CN108964992B (zh) 2022-02-25

Family

ID=64484343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810697824.7A Active CN108964992B (zh) 2018-06-29 2018-06-29 一种节点故障检测方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108964992B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487646B2 (en) 2019-03-01 2022-11-01 Red Hat, Inc. Dynamic test case timers
CN112965791B (zh) * 2021-03-29 2022-06-07 北京三快在线科技有限公司 定时任务检测方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103457755B (zh) * 2012-06-05 2016-08-31 深圳市华力特电气股份有限公司 一种iec 61850系统通信故障检测的方法及系统
CN104660693A (zh) * 2015-02-06 2015-05-27 北京京东尚科信息技术有限公司 图形化展示节点状态信息的方法和装置
CN106712842B (zh) * 2015-07-13 2019-05-03 富士通株式会社 在线故障检测装置、方法和系统
CN105357057B (zh) * 2015-12-06 2019-03-08 浙江宇视科技有限公司 一种无中心的监控管理节点异地冗余方法
CN107171828B (zh) * 2017-04-18 2020-04-10 北京思特奇信息技术股份有限公司 一种应对远程调用依赖的超时熔断方法和系统

Also Published As

Publication number Publication date
CN108964992A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN106716972B (zh) 半自动故障转移
CN114064333A (zh) 一种内存故障处理方法和装置
CN107015991B (zh) 数据一致性的自检方法、装置、系统和业务装置
JP6387747B2 (ja) 情報処理装置、障害回避方法およびコンピュータプログラム
CN107729185B (zh) 一种故障处理方法及装置
US20180150239A1 (en) Disk detection method and apparatus
US20230185659A1 (en) Memory Fault Handling Method and Apparatus
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
CN110008090B (zh) 一种监控内存错误的方法、装置和计算机可读存储介质
CN114564284B (zh) 虚拟机的数据备份方法、计算机设备及存储介质
CN111901176B (zh) 故障确定方法、装置、设备及存储介质
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
WO2017168484A1 (ja) 管理計算機および性能劣化予兆検知方法
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
CN117076186B (zh) 一种内存故障检测方法、系统、装置、介质及服务器
JP6539974B2 (ja) 障害通報装置、障害通報方法及び障害通報プログラム
CN107451039B (zh) 一种对集群中执行设备评价的方法和设备
CN113676365B (zh) 一种访问请求的处理方法、装置及电子设备
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN110908824A (zh) 一种故障识别方法、装置及设备
CN110457194A (zh) 电子设备稳定性预警方法、系统、装置、设备和存储介质
CN108509143B (zh) 一种基于云存储的数据检测方法及装置
CN113542001B (zh) Osd故障心跳检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant