CN110474821B - 节点故障检测方法及装置 - Google Patents

节点故障检测方法及装置 Download PDF

Info

Publication number
CN110474821B
CN110474821B CN201910684978.7A CN201910684978A CN110474821B CN 110474821 B CN110474821 B CN 110474821B CN 201910684978 A CN201910684978 A CN 201910684978A CN 110474821 B CN110474821 B CN 110474821B
Authority
CN
China
Prior art keywords
node
detection
detection information
fault
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910684978.7A
Other languages
English (en)
Other versions
CN110474821A (zh
Inventor
朱文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN201910684978.7A priority Critical patent/CN110474821B/zh
Publication of CN110474821A publication Critical patent/CN110474821A/zh
Application granted granted Critical
Publication of CN110474821B publication Critical patent/CN110474821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种节点故障检测方法,包括:获取各个节点的IP地址;基于各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;将满足所述检测条件的节点确定为目标节点;向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。应用本发明实施例提供的方法,能够向各个节点发送检测指令,获取各个所述节点依据所述检测指令生成的检测信息,判断该检测信息是否存在异常标识,以确定与该检测信息对应的节点是否存在故障,能快速的发现系统中已经处于故障状态的节点。

Description

节点故障检测方法及装置
技术领域
本发明涉及分布式系统领域,特别涉及一种节点故障检测方法及装置。
背景技术
随着信息科技的发展,分布式系统在互联网领域中占据着举足轻重地位,在分布式系统的分布式管理软件中,通常由多个管理节点组成多个对等的管理集群,其中,管理节点能够管理与其相对应的管理集群中的普通受管节点,在系统运行过程中,各个管理节点及各个普通受管理节点能够互相协作,从而实现整个系统的高可用。
经本发明人研究发现,现有技术中,分布式管理系统的某个管理节点或普通受管节点出现故障时,仍能由系统中的其余相应的节点进行替代工作,使得技术人员难以发现系统中已经处于故障状态节点,不能及时发现问题并解决问题,导致系统实际功能受损。
发明内容
本发明所要解决的技术问题是提供一种节点故障检测方法,能够向各个节点发送检测指令,获取各个所述节点依据所述检测指令生成的检测信息,依据该检测信息判断与其对应的节点是否存在故障,能快速的发现系统中已经处于故障状态的节点。
本发明还提供了一种节点故障检测装置,用以保证上述方法在实际中的实现及应用。
一种节点故障检测方法,包括:
获取各个节点的IP地址;
基于各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;
将满足所述检测条件的节点确定为目标节点;
向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;
判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。
上述的方法,可选的,所述获取各个节点的IP地址,包括:
接收到用户发送的节点检测请求时,解析所述节点检测请求中包含的节点信息;
基于所述节点信息遍历预先设置的IP地址存储表,以获取与所述节点检测请求对应的各个节点的IP地址。
上述的方法,可选的,所述基于各个节点的IP地址,判断每个节点是否满足预先设置的检测条件,包括:
依次对各个所述节点的IP地址进行ping测试,以判断各个所述节点的网络是否连通;
将网络连通的所述节点确定为满足预先设置的检测条件的节点;
将网络不连通的所述节点确定为不满足所述检测条件的节点。
上述的方法,可选的,所述将存在异常标识的所述检测信息对应的节点确定为故障节点之后,还包括:
依据所述异常标识确定所述故障节点的故障类型,遍历预先设置的配置文件,以确定所述故障节点的异常原因;
执行与所述异常原因对应的修复操作,以修复所述故障节点。
上述的方法,可选的,所述目标节点生成检测信息的过程,包括:
检测所述目标节点中软件进程的数目是否与预先设置的数目阈值匹配,以生成第一检测信息;
检测所述目标节点中各个软件进程是否处于正常状态,以生成第二检测信息;
基于所述第一检测信息及所述第二检测信息生成检测信息。
上述的方法,可选的,若接收到所述检测指令的目标节点为管理节点,则所述基于所述第一检测信息及所述第二检测信息生成检测信息,包括:
检测所述目标节点的消息中间件、注册中心及高可用软件的运行状态,以生成第三检测信息;
依据所述第一检测信息、所述第二检测信息及所述第三检测信息生成检测信息。
一种节点故障检测装置,包括:
获取单元,用于获取各个节点的IP地址;
第一判断单元,用于依据各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;
确定单元,用于将满足所述检测条件的节点确定为目标节点;
发送单元,用于向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;
第二判断单元,用于判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。
上述的节点故障检测装置,可选的,所述获取单元,包括:
接收子单元,用于接收到用户发送的节点检测请求时,解析所述节点检测请求中包含的节点信息;
获取子单元,用于依据所述节点信息遍历预先设置的IP地址存储表,以获取与所述节点检测请求对应的各个节点的IP地址。
上述的节点故障检测装置,可选的,所述第一判断单元,包括:
判断子单元,用于依次对各个所述节点的IP地址进行ping测试,以判断各个所述节点的网络是否连通;
第一确定子单元,用于将网络连通的所述节点确定为满足预先设置的检测条件的节点;
第二确定子单元,用于将网络不连通的所述节点确定为不满足所述检测条件的节点。
上述的节点故障检测装置,可选的,还包括:
匹配单元及执行单元;
所述匹配单元,用于依据所述异常标识确定所述故障节点的故障类型,遍历预先设置的配置文件,以确定所述故障节点的异常原因;
所述执行单元,用于执行与所述异常原因对应的修复操作,以修复所述故障节点。
与现有技术相比,本发明包括以下优点:
本发明提供了一种节点故障检测方法,包括:获取各个节点的IP地址;基于各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;将满足所述检测条件的节点确定为目标节点;向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。应用本发明实施例提供的方法,能够向各个节点发送检测指令,获取各个所述节点依据所述检测指令生成的检测信息,判断该检测信息是否存在异常标识,以确定与该检测信息对应的节点是否存在故障,能快速的发现系统中已经处于故障状态的节点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种节点故障检测方法的方法流程图;
图2为本发明提供的一种节点故障检测方法的又一方法流程图;
图3为本发明提供的一种节点故障检测方法的又一方法流程图;
图4为本发明提供的一种节点故障检测方法的又一方法流程图;
图5为本发明提供的一种节点故障检测装置的结构示意图;
图6为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种节点故障检测方法,该方法可以应用在多种系统平台,其执行主体可以为主管理器的处理器,所述主管理器可以为计算机终端或各种移动设备,所述主管理器可以管理分布式系统中的各个管理节点及各个普通节点,所述方法的方法流程图如图1所示,具体包括:
S101:获取各个节点的IP地址。
本发明实施例提供的方法中,接收到用户发送节点检测请求或者响应于预设指令的情况下,获取各个节点的IP地址;节点可以为分布式系统中的管理节点或普通节点。
需要说明的是,该各个节点的IP地址可以从用户发送的节点检测请求中获取,也可以为主管理器预先存储的。
S102:基于各个所述节点的IP地址,判断每个所述节点是否满足预先设置的检测条件。
本发明实施例提供的方法中,通过验证各个节点的IP地址是否有效,来确定各个节点是否满足预先设置的检测条件。
具体的,通过IP地址检测主管理器与各个节点之间的网络连通性;当主管理器与节点的网络连通正常时,确定节点满足预先设置的检测条件。
进一步的,将不满足检测条件的节点确定为故障节点,并将该节点进行网络异常标记,向用户展示该节点的异常信息。
S103:将满足所述检测条件的节点确定为目标节点。
本发明实施例提供的方法中,将与主管理器网络连通正常的节点,确定为目标节点,目标节点的数量可以为一个或多个。
S104:向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息。
本发明实施例提供的方法中,可以依次向各个目标节点发送检测指令,也可以同时向各个目标节点发送检测指令;优选的,本发明实施例向各个目标节点发送检测指令的方式为,依次向各个目标节点发送检测指令的方式。
需要说明的是,每个目标节点接收到检测指令时,执行相应的一个或多个检测操作,以生成检测信息。其中,管理节点与普通节点执行的检测操作可以相同,也可以不同。
S105:判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。
本发明实施例提供的方法中,解析每个检测信息,以判断每个检测信息中是否存在异常标识;该异常标识可以为目标节点检测到异常状态时,依据异常状态的类型设置的;当判断出在检测信息中存在异常标识的情况下,将存在异常标识的检测信息对应的目标节点确定为故障节点,并将该故障节点的检测信息进行标记,将标记后的检测信息向用户展示,以提示用户该节点存在故障。
本发明实施例提供的方法中,当检测信息中不存在异常标识时,将该检测信息对应的目标节点确定为正常节点,并将该检测信息向用户进行展示。
本发明实施例提供的节点故障检测方法,包括:获取各个节点的IP地址;基于各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;将满足所述检测条件的节点确定为目标节点;向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。应用本发明实施例提供的方法,能够向各个节点发送检测指令,获取各个所述节点依据所述检测指令生成的检测信息,判断该检测信息是否存在异常标识,以确定与该检测信息对应的节点是否存在故障,能快速的发现系统中已经处于故障状态的节点。
本发明实施例提供的节点故障检测方法中,基于上述实施过程,具体的,所述获取各个节点的IP地址,如图2所示,可以包括:
S201:接收到用户发送的节点检测请求时,解析所述节点检测请求中包含的节点信息。
本发明实施例提供的方法中,可以接收到用户通过可视化页面触发的节点检测请求,该节点检测请求可以包含用户想要检测的各个节点的节点信息;该节点信息可以包含节点的身份标识。
S202:基于所述节点信息遍历预先设置的IP地址存储表,以获取与所述节点检测请求对应的各个节点的IP地址。
本发明实施例提供的方法中,该地址存储表存储有各个节点的IP地址信息。
本发明实施例提供的方法中,通过预先记录的节点信息与IP地址之间的对应关系,在该IP地址存储表中,获取与该节点信息对应的IP地址。
本发明实施例提供的节点故障检测方法中,基于上述实施过程,具体的,所述基于各个节点的IP地址,判断每个所述节点是否满足预先设置的检测条件,包括:
依次对各个所述节点的IP地址进行ping测试,以判断各个所述节点的网络是否连通;
将网络连通的所述节点确定为满足预先设置的检测条件的节点;
将网络不连通的所述节点确定为不满足所述检测条件的节点。
本发明实施例提供的方法中,通过对各个节点的IP地址进行ping测试,可以验证该节点是否可达;若该节点可达,则该节点满足预先设置的检测条件;若该节点不可达,则该节点不可达,则该节点不满足预先设置的检测条件,将不满足预先设置的检测条件的节点,确定为故障节点。
本发明实施例提供的节点故障检测方法中,基于上述实施过程,具体的,所述将存在异常标识的所述检测信息对应的节点确定为故障节点之后,还包括:
依据所述异常标识确定所述故障节点的故障类型,遍历预先设置的配置文件,以确定所述故障节点的异常原因;
执行与所述异常原因对应的修复操作,以修复所述故障节点。
本发明实施例提供的方法中,每个故障节点可以包含多个异常标识;每个异常标识可以对应一个故障类型,即,一个故障节点可以能存在多个故障;通过遍历预先设置的配置文件,可以获取与该故障节点的故障类型相对应的故障原因;可以将该故障原因生成提示信息,以提示用户该故障节点可能出现的故障原因。
本发明实施例提供的方法中,判断是否存在与该故障原因对应的修复规则,若存在,则执行该修复规则对应的该修复操作,以修复该故障节点。
本发明实施例提供的节点故障检测方法中,基于上述实施过程,具体的,所述目标节点生成检测信息的过程,如图3所示,可以包括:
S301:检测所述目标节点中软件进程的数目是否与预先设置的数目阈值匹配,以生成第一检测信息。
本发明实施例提供的方法中,不同类型的目标节点可以设置有不同的数目阈值;若该目标节点为管理节点,则该数目阈值可以设置为12;若该目标节点为普通节点,则该数目阈值可以设置为10。
本发明实施例提供的方法中,若目标节点中的软件进程的数目与其预先设置的数目阈值不匹配,则该第一检测信息中包含与当前进程的数目对应的异常标识。
本发明实施例提供方法中,该第一检测信息还可以包含目标节点的软件进程的数目信息及软件进程对应的软件标识。
S302:检测所述目标节点中各个软件进程是否处于正常状态,以生成第二检测信息。
本发明实施例提供的方法中,通过检测各个软件进程的状态属性,可以确定各个软件进行是否处于正常状态;对于任意一个软件进程,若该软件进程的状态属性表征为运行状态,则该软件进程处于正常状态;若该软件进程的状态属性表征为停止状态,则该软件进程处于不正常状态。
本发明实施例提供的方法中,依据各个软件进程的状态生成第二检测信息,其中,若存在处于不正常状态的软件进程,则该第二检测信息中包含与该软件进程对应的异常标识。
S303:基于所述第一检测信息及所述第二检测信息生成检测信息。
本发明实施例提供的方法中,通过目标节点通过统计第一检测信息及第二检测信息,以得到检测信息,将该检测信息发送至主管理器。
本发明实施例提供的节点故障检测方法中,基于上述实施过程,具体的,若接收到所述检测指令的目标节点为管理节点,则基于所述第一检测信息及所述第二检测信息生成检测信息,包括:
检测所述目标节点的消息中间件、注册中心及高可用软件的运行状态,以生成第三检测信息;
依据所述第一检测信息、所述第二检测信息及所述第三检测信息生成检测信息。
本发明实施例提供的方法中,该消息中间件可以为RabbitMQ消息中间件,通过检测该消息中间件的端口状态,可以判断该消息中间件是否运行正常。
本发明实施例提供的方法中,该注册中心可以为Zookeeper协调软件;通过调用预先设置的注册脚本在该注册中心进行注册,若注册成功,则确定该注册中心运行正常,并将该注册脚本生成的注册信息进行删除;若注册失败,则确定该注册中心运行不正常。
本发明实施例提供的方法中,该高可用软件可以为Keepalived软件,可以通过检测该高可用软件的进程状态,判断该高可用软件是否运行正常。
本发明实施例提供的方法中,目标节点接收到检测指令时,可以检测当前各个软件的运行状态及各个软件进程的数目,以生成检测信息。
本发明实施例在具体应用过程中,主管理器的处理器可以按技术人员设置的检测周期对管理集群中的各个管理节点及各个普通节点进行检测;每次检测过程中,都需要获取当前管理集群中各个节点的IP地址,用于检测各个节点的网络状态;将网络连接异常的节点进行异常标识;向网络正常的目标节点通过RabbitMQ消息通道发送健康自检的命令请求,即发送检测指令;各目标节点收到自检通知后运行健康检测程序,检测自身的健康状态,检测完毕后返回消息给主管理节点;主管理节点汇总检测信息,统一在界面展示,对异常项已告警信息展示,提示及时关注处理。目标节点收到健康自检的命令后,若该目标节点为管理节点,则执行自检的过程,如图4所示,具体为:
S401:检测消息中间件的健康状态,并生成消息中间件检测信息。
本发明实施例提供的方法中,检测消息中间件RabbitMQ是否停止运行,然后检测RabbitMQ运行是否正常。
S402:检测注册中心的健康状态,并生成注册中心检测信息。
本发明实施例提供的方法中,检测注册中心Zookeeper是否停止运行,然后检测Zookeeper运行是否正常。
S403:检测高可用软件的健康状态,并生成高可用软件检测信息。
本发明实施例提供的方法中,检测高可用软件Keepalived是否停止运行,然后检测Keepalived运行是否正常。
S404:检测当前后台进程的数目,并生成后台进程数目检测信息。
本发明实施例提供的方法中,检测节点后台常驻管理软件进程的数目是否与预先设置的阈值匹配。
S405:检测各个后台进程的各个运行状态,并生成后台进程运行状态检测信息。
本发明实施例提供的方法中,检测节点管理软件进程运行是否处于正常状态。
S406:依据消息中间件检测信息、注册中心检测信息、高可用软件检测信息、后台进程数目检测信息及后台进程运行状态检测信息生成该目标节点的检测信息。
本发明实施例提供的方法中,若该目标节点为普通节点,则检测当前后台进程的数目,并生成后台进程数目检测信息;检测各个后台进程的各个运行状态,并生成后台进程运行状态检测信息;依据后台进程数目检测信息及后台进程运行状态检测信息生成该目标节点的检测信息。
本发明实施例提供的方法中,接收到各个目标节点发送的检测信息时,将各个检测信息进行汇总显示,能够统计各个目标节点当前软件的可用性状态,从而帮助管理软件的使用人员第一时间定位问题所在,缩短了问题的定位时间。而且对于发现的网络连接故障和硬件故障等引起的管理软件部分功能数据异常问题,管理软件的运营人员可以自行解决,省去了冗长的上报维修过程。
上述各个具体的实现方式,及各个实现方式的衍生过程,均在本发明保护范围内。
与图1所述的方法相对应,本发明实施例还提供了一种节点故障检测装置,用于对图1中方法的具体实现,本发明实施例提供的节点故障检测装置可以应用计算机终端或各种移动设备中,其结构示意图如图5所示,具体包括:
获取单元501,用于获取各个节点的IP地址;
第一判断单元502,用于依据各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;
确定单元503,用于将满足所述检测条件的节点确定为目标节点;
发送单元504,用于向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;
第二判断单元505,用于判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。
在本发明实施例提供的节点故障检测装置中,所述获取单元501,包括:
接收子单元,用于接收到用户发送的节点检测请求时,解析所述节点检测请求中包含的节点信息;
获取子单元,用于依据所述节点信息遍历预先设置的IP地址存储表,以获取与所述节点检测请求对应的各个节点的IP地址。
在本发明实施例提供的节点故障检测装置中,所述第一判断单元502,包括:
判断子单元,用于依次对各个所述节点的IP地址进行ping测试,以判断各个所述节点的网络是否连通;
第一确定子单元,用于将网络连通的所述节点确定为满足预先设置的检测条件的节点;
第二确定子单元,用于将网络不连通的所述节点确定为不满足所述检测条件的节点。
在本发明实施例提供的节点故障检测装置中,还包括:
匹配单元及执行单元;
所述匹配单元,用于依据所述异常标识确定所述故障节点的故障类型,遍历预先设置的配置文件,以确定所述故障节点的异常原因;
所述执行单元,用于执行与所述异常原因对应的修复操作,以修复所述故障节点。
本发明实施例提供的节点故障检测装置,通过获取各个节点的IP地址;基于各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;将满足所述检测条件的节点确定为目标节点;向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。应用本发明实施例提供的方法,能够向各个节点发送检测指令,获取各个所述节点依据所述检测指令生成的检测信息,判断该检测信息是否存在异常标识,以确定与该检测信息对应的节点是否存在故障,能快速的发现系统中已经处于故障状态的节点。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述节点故障检测方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
获取各个节点的IP地址;
基于各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;
将满足所述检测条件的节点确定为目标节点;
向各个所述目标节点发送检测指令,并获取各个所述目标节点依据所述检测指令生成的检测信息;
判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种节点故障检测方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种节点故障检测方法,其特征在于,应用于主管理器,所述方法包括:
当接收到节点检测请求时,获取所述主管理器所管理的分布式系统中的各个节点的IP地址;
基于各个所述节点的IP地址,判断每个所述节点是否满足预先设置的检测条件;
将满足所述检测条件的节点确定为目标节点;
向各个所述目标节点发送检测指令,并获取各个所述目标节点执行所述检测指令对应的多个检测操作所生成的检测信息;
判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点;
其中,所述目标节点生成检测信息的过程,包括:
检测所述目标节点中软件进程的数目是否与预先设置的数目阈值匹配,以生成第一检测信息;
检测所述目标节点中各个软件进程是否处于正常状态,以生成第二检测信息;
基于所述第一检测信息及所述第二检测信息生成检测信息。
2.根据权利要求1所述的方法,其特征在于,所述获取各个节点的IP地址,包括:
接收到用户发送的节点检测请求时,解析所述节点检测请求中包含的节点信息;
基于所述节点信息遍历预先设置的IP地址存储表,以获取与所述节点检测请求对应的各个节点的IP地址。
3.根据权利要求1所述的方法,其特征在于,所述基于各个节点的IP地址,判断每个节点是否满足预先设置的检测条件,包括:
依次对各个所述节点的IP地址进行ping测试,以判断各个所述节点的网络是否连通;
将网络连通的所述节点确定为满足预先设置的检测条件的节点;
将网络不连通的所述节点确定为不满足所述检测条件的节点。
4.根据权利要求1所述的方法,其特征在于,所述将存在异常标识的所述检测信息对应的节点确定为故障节点之后,还包括:
依据所述异常标识确定所述故障节点的故障类型,遍历预先设置的配置文件,以确定所述故障节点的异常原因;
执行与所述异常原因对应的修复操作,以修复所述故障节点。
5.根据权利要求1所述的方法,其特征在于,若接收到所述检测指令的目标节点为管理节点,则所述基于所述第一检测信息及所述第二检测信息生成检测信息,包括:
检测所述目标节点的消息中间件、注册中心及高可用软件的运行状态,以生成第三检测信息;
依据所述第一检测信息、所述第二检测信息及所述第三检测信息生成检测信息。
6.一种节点故障检测装置,其特征在于,应用于主管理器,所述装置包括:
获取单元,用于当接收到节点检测请求时,获取所述主管理器所管理的分布式系统中的各个节点的IP地址;
第一判断单元,用于依据各个所述节点的IP地址,判断每个节点是否满足预先设置的检测条件;
确定单元,用于将满足所述检测条件的节点确定为目标节点;
发送单元,用于向各个所述目标节点发送检测指令,并获取各个所述目标节点执行所述检测指令对应的多个检测操作所生成的检测信息;
第二判断单元,用于判断每个所述检测信息中是否存在异常标识,并将存在异常标识的所述检测信息对应的节点确定为故障节点;
其中,所述目标节点生成检测信息的过程,包括:
检测所述目标节点中软件进程的数目是否与预先设置的数目阈值匹配,以生成第一检测信息;
检测所述目标节点中各个软件进程是否处于正常状态,以生成第二检测信息;
基于所述第一检测信息及所述第二检测信息生成检测信息。
7.根据权利要求6所述的节点故障检测装置,其特征在于,所述获取单元,包括:
接收子单元,用于接收到用户发送的节点检测请求时,解析所述节点检测请求中包含的节点信息;
获取子单元,用于依据所述节点信息遍历预先设置的IP地址存储表,以获取与所述节点检测请求对应的各个节点的IP地址。
8.根据权利要求6所述的节点故障检测装置,其特征在于,所述第一判断单元,包括:
判断子单元,用于依次对各个所述节点的IP地址进行ping测试,以判断各个所述节点的网络是否连通;
第一确定子单元,用于将网络连通的所述节点确定为满足预先设置的检测条件的节点;
第二确定子单元,用于将网络不连通的所述节点确定为不满足所述检测条件的节点。
9.根据权利要求6所述的节点故障检测装置,其特征在于,还包括:
匹配单元及执行单元;
所述匹配单元,用于依据所述异常标识确定所述故障节点的故障类型,遍历预先设置的配置文件,以确定所述故障节点的异常原因;
所述执行单元,用于执行与所述异常原因对应的修复操作,以修复所述故障节点。
CN201910684978.7A 2019-07-26 2019-07-26 节点故障检测方法及装置 Active CN110474821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910684978.7A CN110474821B (zh) 2019-07-26 2019-07-26 节点故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910684978.7A CN110474821B (zh) 2019-07-26 2019-07-26 节点故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN110474821A CN110474821A (zh) 2019-11-19
CN110474821B true CN110474821B (zh) 2021-08-31

Family

ID=68509527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910684978.7A Active CN110474821B (zh) 2019-07-26 2019-07-26 节点故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN110474821B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179468A (zh) * 2019-12-31 2020-05-19 深圳一清创新科技有限公司 无人车故障检测方法、装置、计算机设备和存储介质
CN114113916A (zh) * 2021-12-13 2022-03-01 中国电信股份有限公司 故障检测系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9173117B2 (en) * 2013-05-02 2015-10-27 Telefonaktiebolaget L M Ericsson (Publ) Enhancing a mobile backup channel to address a node failure in a wireline network
CN104348641A (zh) * 2013-07-30 2015-02-11 华为技术有限公司 一种故障的检测方法和故障检测装置
CN106656675B (zh) * 2017-01-03 2020-01-21 北京奇虎科技有限公司 一种传输节点集群的检测方法和装置
CN108600040B (zh) * 2018-03-16 2022-03-15 国电南瑞科技股份有限公司 一种基于高可用检测节点的分布式系统节点故障检测方法
CN109273045B (zh) * 2018-09-21 2021-12-03 郑州云海信息技术有限公司 存储设备在线检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110474821A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110716842B (zh) 集群故障检测方法和装置
CN112148887A (zh) 设备故障诊断方法、装置、存储介质和电子设备
CN111130938B (zh) 指标采集方法、装置、电子设备及计算机可读存储介质
CN110474821B (zh) 节点故障检测方法及装置
CN112631913A (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
US9104565B2 (en) Fault tracing system and method for remote maintenance
CN110502399B (zh) 故障检测方法及装置
CN111338858A (zh) 一种双机房的容灾方法及装置
CN108307414B (zh) 应用程序的Wi-Fi连接异常处理方法、装置、终端及存储介质
CN106411643B (zh) Bmc检测方法以及装置
CN112069032A (zh) 一种虚拟机的可用性检测方法、系统及相关装置
CN110896569B (zh) 一种弹幕自动重连方法、存储介质、电子设备及系统
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN111200522A (zh) 一种端口检测方法、装置、设备及存储介质
CN107766232B (zh) 一种插件管理方法及装置
CN110875832A (zh) 异常业务监控方法、装置、系统及计算机可读存储介质
CN111858079B (zh) 分布式锁迁移方法、装置及电子设备、存储介质
CN107864057B (zh) 一种基于联网状态的联机自动检查及告警方法
CN114095394A (zh) 网络节点故障检测方法、装置、电子设备及存储介质
CN109039770B (zh) 一种服务器cmc的刷新方法、装置及相关设备
CN110752950A (zh) 云资源池的更新检测方法、装置及终端设备
CN115460271B (zh) 一种基于边缘计算的网络控制方法及装置、存储介质
CN112286738B (zh) 一种数据库访问的方法、系统、设备及可读存储介质
CN111917602B (zh) 一种ip地址可用性检测方法、装置和电子设备
CN111224841B (zh) 一种政务云平台网站应用的运维方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant