CN110677480B - 一种节点健康管理方法、装置和计算机可读存储介质 - Google Patents

一种节点健康管理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110677480B
CN110677480B CN201910931729.3A CN201910931729A CN110677480B CN 110677480 B CN110677480 B CN 110677480B CN 201910931729 A CN201910931729 A CN 201910931729A CN 110677480 B CN110677480 B CN 110677480B
Authority
CN
China
Prior art keywords
node
fault type
value
state value
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910931729.3A
Other languages
English (en)
Other versions
CN110677480A (zh
Inventor
赵慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN201910931729.3A priority Critical patent/CN110677480B/zh
Publication of CN110677480A publication Critical patent/CN110677480A/zh
Application granted granted Critical
Publication of CN110677480B publication Critical patent/CN110677480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 

Abstract

本发明实施例公开了一种节点健康管理方法、装置和计算机可读存储介质,对节点的日志文件中的特定参数进行量化处理,得到量化参数;为了实现对节点异常状态的检测,可以预先建立故障类型库,在该故障类型库中包括有各故障类型及其对应的参数范围。将节点的各量化参数与预先建立的故障类型库进行匹配,得到节点的状态值。当所述状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。处于隔离状态的节点不再提供存储服务,降低了异常节点工作时对集群的数据存储速率的影响,也降低了节点突然损坏或网络突然断开造成数据丢失的情况发生,保证了集群数据存储正常进行,有效的提升了集群的整体服务性能。

Description

一种节点健康管理方法、装置和计算机可读存储介质
技术领域
本发明涉及分布式存储节点技术领域,特别是涉及一种节点健康管理方法、装置和计算机可读存储介质。
背景技术
集群系统包括有多个节点,每个节点有其负责的工作,各节点之间可以进行交互。一旦某个节点出现异常,会对整个集群系统造成影响。
一般情况下,集群系统会在节点连接失败的情况下,即节点状态异常时,上报告警,方便操作人员对异常节点进行处理。但是除节点连接失败情况,节点连接也会存在其他异常情况,比如节点响应较慢,或者节点相关服务存在异常时也会影响节点处理速度,进而影响整个集群的数据存储速率,导致集群的整体服务性能下降。
可见,如何提升集群的整体服务性能,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种节点健康管理方法、装置和计算机可读存储介质,可以提升集群的整体服务性能。
为解决上述技术问题,本发明实施例提供一种节点健康管理方法,包括:
对节点的日志文件中的特定参数进行量化处理,得到量化参数;
将各所述量化参数与预先建立的故障类型库进行匹配,得到节点的状态值;其中,所述故障类型库中包括有各故障类型及其对应的参数范围;
当所述状态值大于或等于预设阈值时,则上报告警信息,并对所述节点上的数据进行备份之后将所述节点隔离。
可选地,所述将各所述量化参数与预先建立的故障类型库进行匹配,得到节点的状态值包括:
将各所述量化参数与各故障类型对应的参数范围进行匹配,确定出所述节点在各故障类型下的匹配度;
选取取值最大的匹配度作为所述节点的状态值。
可选地,在所述故障类型库中还包括有各故障类型所对应的维修方法;
相应的,在所述选取取值最大的匹配度作为所述节点的状态值之后还包括:
将取值最大的匹配度所对应的故障类型作为所述节点的节点故障类型,上报与所述节点故障类型相匹配的维修方法。
可选地,所述当所述状态值大于或等于预设阈值时,对所述节点上的数据进行备份之后将所述节点隔离包括:
当所述状态值大于或等于预设阈值时,将所述节点上的数据备份至预先设定的存储空间;
对所述节点设置隔离标识,以切断所述节点的存储服务。
可选地,在将所述节点隔离之后还包括:
检测所述节点的状态值;
当所述节点的状态值小于预设阈值时,则取消对所述节点设置的隔离标识,以恢复所述节点的存储服务。
本发明实施例还提供了一种节点健康管理装置,包括量化单元、匹配单元和隔离单元;
所述量化单元,用于对节点的日志文件中的特定参数进行量化处理,得到量化参数;
所述匹配单元,用于将各所述量化参数与预先建立的故障类型库进行匹配,得到节点的状态值;其中,所述故障类型库中包括有各故障类型及其对应的参数范围;
所述隔离单元,用于当所述状态值大于或等于预设阈值时,则上报告警信息,并对所述节点上的数据进行备份之后将所述节点隔离。
可选地,所述匹配单元包括确定子单元和选取子单元;
所述确定子单元,用于将各所述量化参数与各故障类型对应的参数范围进行匹配,确定出所述节点在各故障类型下的匹配度;
所述选取子单元,用于选取取值最大的匹配度作为所述节点的状态值。
可选地,在所述故障类型库中还包括有各故障类型所对应的维修方法;相应的,所述装置还包括维修单元;
所述维修单元,用于在所述选取取值最大的匹配度作为所述节点的状态值之后,将取值最大的匹配度所对应的故障类型作为所述节点的节点故障类型,上报与所述节点故障类型相匹配的维修方法。
可选地,所述隔离单元包括备份子单元和设置子单元;
所述备份子单元,用于当所述状态值大于或等于预设阈值时,将所述节点上的数据备份至预先设定的存储空间;
所述设置子单元,用于对所述节点设置隔离标识,以切断所述节点的存储服务。
可选地,还包括检测单元和恢复单元;
所述检测单元,用于将所述节点隔离之后,检测所述节点的状态值;
所述恢复单元,用于当所述节点的状态值小于预设阈值时,则取消对所述节点设置的隔离标识,以恢复所述节点的存储服务。
本发明实施例还提供了一种节点健康管理装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述节点健康管理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述节点健康管理方法的步骤。
由上述技术方案可以看出,对节点的日志文件中的特定参数进行量化处理,得到量化参数;为了实现对节点异常状态的检测,可以预先建立故障类型库,在该故障类型库中包括有各故障类型及其对应的参数范围。将节点的各量化参数与预先建立的故障类型库进行匹配,得到节点的状态值。当所述状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。处于隔离状态的节点不再提供存储服务,降低了异常节点工作时对集群的数据存储速率的影响,也降低了节点突然损坏或网络突然断开造成数据丢失的情况发生,保证了集群数据存储正常进行,有效的提升了集群的整体服务性能。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种节点健康管理方法的流程图;
图2为本发明实施例提供的一种节点健康状态管理的框图;
图3为本发明实施例提供的一种节点健康管理装置的结构示意图;
图4为本发明实施例提供的一种节点健康管理装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种节点健康管理方法。图1为本发明实施例提供的一种节点健康管理方法的流程图,该方法包括:
S101:对节点的日志文件中的特定参数进行量化处理,得到量化参数。
其中,特定参数指的是反映节点运行状态的参数,例如,节点的丢包率、网络时延、MON服务参数、MDS服务参数、IOPS参数等。
不同类型的参数其数据格式不同,为了便于后续的分析处理,在本发明实施例中,可以对特定参数进行量化处理,即将特定参数进行数字化表示。不同类型的参数的量化处理方式可以不同,在此不做限定,对于本身以数字形式呈现的特定参数无需执行量化处理。
S102:将各量化参数与预先建立的故障类型库进行匹配,得到节点的状态值。
其中,故障类型库中包括有各故障类型及其对应的参数范围。
节点在正常运行状态下,每种类型的量化参数有其对应的正常取值范围。在实际应用中,可以将超出正常取值范围的取值作为故障类型库的参数范围。
节点的故障类型存在多种,每种故障类型有其对应的参数种类,每种参数有其对应的正常取值范围,相应的,每种故障类型有其对应的参数范围。
在确定节点的状态值时,可以将节点的量化参数分别与故障类型库中每种故障类型所对应的参数范围进行匹配,确定出节点在各故障类型下的匹配度;选取取值最大的匹配度作为节点的状态值。
以节点的通信异常为例,通信异常下的参数包括有网络时延,当网络时延超过预设上限值时,则说明节点存在通信异常,在故障类型库中可以将超过预设上限值的取值范围作为网络时延的参数范围,当节点实际的网络时延越高时,则说明节点与通信异常的匹配度越高。
考虑到每种故障类型对应的参数种类有多种,每种参数有其对应的匹配度,可以取同种故障类型下各参数匹配度的平均值作为节点在该故障类型下的匹配度。每种故障类型下有其对应的一个匹配度,可以选取取值最大的匹配度作为节点的状态值。
S103:当状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。
状态值反映了节点的异常状态,状态值越大,说明节点存在的异常问题越严重。为了降低异常节点对集群系统的影响,当节点的状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。
在实际应用中,可以预先设定存储空间,用于存储节点的备份数据,即当节点的状态值大于或等于预设阈值时,将节点上的数据备份至该存储空间,并对节点设置隔离标识,以切断节点的存储服务。
处于隔离状态的节点不再提供存储服务,即不再进行数据的存储,避免了节点工作时影响集群的数据存储速率,也避免了节点突然损坏或网络突然断开造成数据丢失。
在本发明实施例中,通过依赖于各节点的日志文件以及预先建立故障类型库,对各节点的健康状态进行评估,可以当节点的健康状态较差时,及时对节点进行隔离并上报告警信息。如图2所示为本发明实施例提供的一种节点健康状态管理的框图,日志处理模块可以对节点的日志信息进行量化处理,并将量化处理的结果与故障类型库进行匹配,确定出各节点的状态值。告警模块用于当节点的状态值大于或等于预设阈值时,上报告警信息。为了不影响集群系统的整体服务性能,可以将出现异常的节点进行隔离。存储模块用于将异常节点的数据进行备份。管理人员可以通过集群系统管理模块查看各节点的健康状态。当存在告警信息时,管理人员可以及时对该告警信息所对应的节点进行维护管理,从而及时的解决节点出现的异常问题。
由上述技术方案可以看出,对节点的日志文件中的特定参数进行量化处理,得到量化参数;为了实现对节点异常状态的检测,可以预先建立故障类型库,在该故障类型库中包括有各故障类型及其对应的参数范围。将节点的各量化参数与预先建立的故障类型库进行匹配,得到节点的状态值。当所述状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。处于隔离状态的节点不再提供存储服务,降低了异常节点工作时对集群的数据存储速率的影响,也降低了节点突然损坏或网络突然断开造成数据丢失的情况发生,保证了集群数据存储正常进行,有效的提升了集群的整体服务性能。
在实际应用中,不同的故障类型对应的维修方法不同,在本发明实施例中,可以根据历史维修经验,统计各故障类型对应的维修方法,并将其记录在故障类型库中。相应的,在选取取值最大的匹配度作为节点的状态值之后,可以将取值最大的匹配度所对应的故障类型作为节点的节点故障类型,上报与节点故障类型相匹配的维修方法。
通过上报维修方法,管理人员可以依赖该维修方法实现对异常节点的快速维修,降低了异常节点的维修难度。并且维修方式也更加规范化。
节点的异常情况有多种,多数情况下通过调试或者维修,可以使得异常节点恢复正常,此时恢复正常的节点仍可以继续工作,为了避免节点资源的浪费,在将节点隔离之后,可以进一步检测节点的状态值;当节点的状态值小于预设阈值时,则取消对节点设置的隔离标识,以恢复节点的存储服务。
在本发明实施例中,通过对节点的健康状况进行评估,可以及时对异常节点进行隔离,降低了异常节点对集群系统存储性能的影响。通过检测隔离后的节点的运行状态,当节点恢复正常后,可以及时解除对节点的隔离,使得节点可以再次投入使用,有效的提升了节点的资源利用率。
图3为本发明实施例提供的一种节点健康管理装置的结构示意图,包括量化单元31、匹配单元32和隔离单元33;
量化单元31,用于对节点的日志文件中的特定参数进行量化处理,得到量化参数;
匹配单元32,用于将各量化参数与预先建立的故障类型库进行匹配,得到节点的状态值;其中,故障类型库中包括有各故障类型及其对应的参数范围;
隔离单元33,用于当状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。
可选地,匹配单元包括确定子单元和选取子单元;
确定子单元,用于将各量化参数与各故障类型对应的参数范围进行匹配,确定出节点在各故障类型下的匹配度;
选取子单元,用于选取取值最大的匹配度作为节点的状态值。
可选地,在故障类型库中还包括有各故障类型所对应的维修方法;相应的,装置还包括维修单元;
维修单元,用于在选取取值最大的匹配度作为节点的状态值之后,将取值最大的匹配度所对应的故障类型作为节点的节点故障类型,上报与节点故障类型相匹配的维修方法。
可选地,隔离单元包括备份子单元和设置子单元;
备份子单元,用于当状态值大于或等于预设阈值时,将节点上的数据备份至预先设定的存储空间;
设置子单元,用于对节点设置隔离标识,以切断节点的存储服务。
可选地,还包括检测单元和恢复单元;
检测单元,用于将节点隔离之后,检测节点的状态值;
恢复单元,用于当节点的状态值小于预设阈值时,则取消对节点设置的隔离标识,以恢复节点的存储服务。
图3所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,对节点的日志文件中的特定参数进行量化处理,得到量化参数;为了实现对节点异常状态的检测,可以预先建立故障类型库,在该故障类型库中包括有各故障类型及其对应的参数范围。将节点的各量化参数与预先建立的故障类型库进行匹配,得到节点的状态值。当所述状态值大于或等于预设阈值时,则上报告警信息,并对节点上的数据进行备份之后将节点隔离。处于隔离状态的节点不再提供存储服务,降低了异常节点工作时对集群的数据存储速率的影响,也降低了节点突然损坏或网络突然断开造成数据丢失的情况发生,保证了集群数据存储正常进行,有效的提升了集群的整体服务性能。
图4为本发明实施例提供的一种节点健康管理装置40的硬件结构示意图,包括:
存储器41,用于存储计算机程序;
处理器42,用于执行计算机程序以实现如上述任意一项节点健康管理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项节点健康管理方法的步骤。
以上对本发明实施例所提供的一种节点健康管理方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (8)

1.一种节点健康管理方法,其特征在于,包括:
对节点的日志文件中的特定参数进行量化处理,得到量化参数;
将各所述量化参数与预先建立的故障类型库进行匹配,得到节点的状态值;其中,所述故障类型库中包括有各故障类型及其对应的参数范围;将超出正常取值范围的取值作为故障类型库的参数范围;
当所述状态值大于或等于预设阈值时,则上报告警信息,并对所述节点上的数据进行备份之后将所述节点隔离;
所述将各所述量化参数与预先建立的故障类型库进行匹配,得到节点的状态值包括:
将各所述量化参数与各故障类型对应的参数范围进行匹配,确定出所述节点在各故障类型下的匹配度;
选取取值最大的匹配度作为所述节点的状态值。
2.根据权利要求1所述的方法,其特征在于,在所述故障类型库中还包括有各故障类型所对应的维修方法;
相应的,在所述选取取值最大的匹配度作为所述节点的状态值之后还包括:
将取值最大的匹配度所对应的故障类型作为所述节点的节点故障类型,上报与所述节点故障类型相匹配的维修方法。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述当所述状态值大于或等于预设阈值时,对所述节点上的数据进行备份之后将所述节点隔离包括:
当所述状态值大于或等于预设阈值时,将所述节点上的数据备份至预先设定的存储空间;
对所述节点设置隔离标识,以切断所述节点的存储服务。
4.根据权利要求3所述的方法,其特征在于,在将所述节点隔离之后还包括:
检测所述节点的状态值;
当所述节点的状态值小于预设阈值时,则取消对所述节点设置的隔离标识,以恢复所述节点的存储服务。
5.一种节点健康管理装置,其特征在于,包括量化单元、匹配单元和隔离单元;
所述量化单元,用于对节点的日志文件中的特定参数进行量化处理,得到量化参数;
所述匹配单元,用于将各所述量化参数与预先建立的故障类型库进行匹配,得到节点的状态值;其中,所述故障类型库中包括有各故障类型及其对应的参数范围;将超出正常取值范围的取值作为故障类型库的参数范围;
所述隔离单元,用于当所述状态值大于或等于预设阈值时,则上报告警信息,并对所述节点上的数据进行备份之后将所述节点隔离;
所述匹配单元包括确定子单元和选取子单元;
所述确定子单元,用于将各所述量化参数与各故障类型对应的参数范围进行匹配,确定出所述节点在各故障类型下的匹配度;
所述选取子单元,用于选取取值最大的匹配度作为所述节点的状态值。
6.根据权利要求5所述的装置,其特征在于,在所述故障类型库中还包括有各故障类型所对应的维修方法;相应的,所述装置还包括维修单元;
所述维修单元,用于在所述选取取值最大的匹配度作为所述节点的状态值之后,将取值最大的匹配度所对应的故障类型作为所述节点的节点故障类型,上报与所述节点故障类型相匹配的维修方法。
7.一种节点健康管理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至4任意一项所述节点健康管理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述节点健康管理方法的步骤。
CN201910931729.3A 2019-09-29 2019-09-29 一种节点健康管理方法、装置和计算机可读存储介质 Active CN110677480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910931729.3A CN110677480B (zh) 2019-09-29 2019-09-29 一种节点健康管理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910931729.3A CN110677480B (zh) 2019-09-29 2019-09-29 一种节点健康管理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110677480A CN110677480A (zh) 2020-01-10
CN110677480B true CN110677480B (zh) 2022-04-22

Family

ID=69079905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910931729.3A Active CN110677480B (zh) 2019-09-29 2019-09-29 一种节点健康管理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110677480B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666170B (zh) * 2020-05-29 2024-04-12 中国工商银行股份有限公司 基于分布式框架的故障节点处理方法及装置
CN112148733A (zh) * 2020-09-15 2020-12-29 珠海格力电器股份有限公司 确定故障类型的方法、装置、电子装置和计算机可读介质
CN113132160B (zh) * 2021-04-08 2023-02-28 山东英信计算机技术有限公司 一种客户端节点的网络亚健康状态的检测方法和系统
CN115102962A (zh) * 2022-06-22 2022-09-23 青岛中科曙光科技服务有限公司 集群管理方法、装置、计算机设备和存储介质
CN117014916B (zh) * 2023-10-07 2023-12-15 广州市升谱达音响科技有限公司 一种语音网络广播系统、方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161135A (zh) * 2015-04-23 2016-11-23 中国移动通信集团福建有限公司 业务交易故障分析方法及装置
CN107257289A (zh) * 2017-04-24 2017-10-17 努比亚技术有限公司 一种风险分析设备、监控系统和监控方法
CN109818763A (zh) * 2017-11-20 2019-05-28 北京绪水互联科技有限公司 设备故障的分析统计方法和系统及设备实时质控方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014165538A2 (en) * 2013-04-01 2014-10-09 Nebula, Inc. Update management for a distributed computing system
CN105337765B (zh) * 2015-10-10 2018-10-12 上海新炬网络信息技术股份有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN106209432B (zh) * 2016-06-30 2019-04-19 中国人民解放军国防科学技术大学 基于动态阈值的网络设备亚健康预警方法及装置
CN107222346A (zh) * 2017-06-09 2017-09-29 郑州云海信息技术有限公司 一种集群节点健康状态预警方法及系统
CN108241894A (zh) * 2018-01-10 2018-07-03 湖南大唐先科技有限公司 故障定位方法、设备及存储介质
CN108833190A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种nfs服务故障告警方法、装置和存储介质
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161135A (zh) * 2015-04-23 2016-11-23 中国移动通信集团福建有限公司 业务交易故障分析方法及装置
CN107257289A (zh) * 2017-04-24 2017-10-17 努比亚技术有限公司 一种风险分析设备、监控系统和监控方法
CN109818763A (zh) * 2017-11-20 2019-05-28 北京绪水互联科技有限公司 设备故障的分析统计方法和系统及设备实时质控方法和系统

Also Published As

Publication number Publication date
CN110677480A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110677480B (zh) 一种节点健康管理方法、装置和计算机可读存储介质
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US7574502B2 (en) Early warning of potential service level agreement violations
EP3340535A1 (en) Failure recovery method and device
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN106685676B (zh) 一种节点切换方法及装置
CN110650060A (zh) 流量告警的处理方法、设备及存储介质
CN108924202B (zh) 一种分布式集群的数据容灾方法以及相关装置
CN102083091A (zh) 网管告警管理方法和系统以及告警采集服务器
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
CN111142801B (zh) 分布式存储系统网络亚健康检测方法及装置
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
CN109510730B (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN112100029B (zh) 客户端状态监测方法及相关组件
CN111478792B (zh) 一种割接信息处理方法、系统及装置
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN110224872B (zh) 一种通信方法、装置及存储介质
US11237892B1 (en) Obtaining data for fault identification
CN112905484B (zh) 一种自适应闭环性能测试方法、系统及介质
CN102916832A (zh) 业务系统服务设备的繁忙度获得方法及系统
WO2014040470A1 (zh) 告警消息的处理方法及装置
US20100153543A1 (en) Method and System for Intelligent Management of Performance Measurements In Communication Networks
CN111669294B (zh) 监控系统配置方法、装置、监控系统和存储介质
CN116594571B (zh) 一种存储故障修复方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant