CN105933176B - 一种检测主机状态的方法及装置 - Google Patents

一种检测主机状态的方法及装置 Download PDF

Info

Publication number
CN105933176B
CN105933176B CN201510954850.XA CN201510954850A CN105933176B CN 105933176 B CN105933176 B CN 105933176B CN 201510954850 A CN201510954850 A CN 201510954850A CN 105933176 B CN105933176 B CN 105933176B
Authority
CN
China
Prior art keywords
host
abnormal state
detection
path
testing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510954850.XA
Other languages
English (en)
Other versions
CN105933176A (zh
Inventor
鲁强
谢亮
缪海波
郭延斌
冀乃庚
卢凯
苗浩
张胜发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201510954850.XA priority Critical patent/CN105933176B/zh
Publication of CN105933176A publication Critical patent/CN105933176A/zh
Application granted granted Critical
Publication of CN105933176B publication Critical patent/CN105933176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种检测主机状态的方法及装置。本发明实施例中,在第N检测周期内对各条检测路径进行检测,得到各条检测路径的检测结果,根据各条检测路径的检测结果,将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,随后,更新状态异常的主机的异常次数,得到更新后的异常次数,并在判断更新后的异常次数大于第一阈值的情况下,将状态异常的主机设置为故障主机。本发明实施例能够有效检测出整个系统中所有主机的状态,比传统的检测方式更为全面,且采用本发明实施例中的方法,能够在较短时间内确定出故障主机,有效降低因未能及时检测出故障主机而导致的交易成功率下降的问题。

Description

一种检测主机状态的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种检测主机状态的方法及装置。
背景技术
联机系统通常由一系列相同或不同功能的主机组成,例如有通讯主机、联机主机、数据库主机等,各主机之间相互通信、协调,共同完成联机交易的处理。传统的系统健康检测方法通常都是对主机做局部检测,例如检查主机CPU、内存使用状况、进程个数、磁盘使用情况、消息队列中消息数目、数据库连接状态等。每个检查项都对应一个阈值,一旦检测数据接近或超过阈值,则通过图像,文字,声音等告警方式通知系统管理员。这种方式有如下不足:
(1)准确性不高:目前监测只局限于系统资源的使用情况,并且随着系统负载的增加,系统资源偶尔的跳动属于正常,会出错误的检测结果,无法检测主机和主机之间的连接是否正常。
(2)检查难以全面:局部检查不可能穷尽所有的检查点,总是有一些检查点没有在监控列表中,并且,随着系统不断升级,又会新增一些检查点,要同时考虑到所有检查点的难度较大。
(3)故障定位时间较长:如果健康检测系统检查出某一问题并告警,运行维护人员仍需具备一定的专业知识,要能够判断是否会影响交易,是否需要采取相应措施,同时对于一些波动性较大的监控项也不易于判断。总之,从故障发生到故障的定位需要的时间较长。
综上,目前亟需一种有效检测主机状态的方法以解决现有检测方法中存在的问题。
发明内容
本发明实施例提供一种检测主机状态的方法及装置,用以实现解决现有技术中
本发明实施例提供的一种检测主机状态的方法,包括:
在第N检测周期内指示各条检测路径的起始主机向所述各条检测路径的终止主机发送检测报文,得到所述各条检测路径的检测结果;所述检测路径是根据联机系统中的各个主机之间的交互关系得到的;
根据所述检测结果,确定状态异常的主机;所述状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径;
更新所述状态异常的主机的异常次数,得到更新后的异常次数;
在所述更新后的异常次数大于第一阈值的情况下,将所述状态异常的主机设置为故障主机。
较佳地,所述更新所述状态异常的主机的异常次数,得到更新后的异常次数,包括:
获取所述状态异常的主机在第N-1检测周期内的检测结果,若所述第N-1检测周期内的检测结果为状态异常,则将所述状态异常的主机的异常次数加1,得到更新后的异常次数;若所述第N-1检测周期内的检测结果为状态正常,则将所述状态异常的主机的正常次数清零,并将异常次数更新为1。
较佳地,所述将所述状态异常的主机设置为故障主机之后,还包括:
获取所述故障主机在第N+K检测周期内的检测结果;
确定第N+K检测周期内的检测结果为状态正常的情况下,更新所述故障主机的正常次数,得到更新后的正常次数;
在所述更新后的正常次数大于第二阈值的情况下,将所述故障主机恢复为正常主机。
较佳地,所述检测路径是根据联机系统中的各个主机之间的交互关系得到的,包括:
确定起始主机和终止主机;
根据所述联机系统中的各个主机之间的交互关系,获取所述起始主机到所述终止主机之间存在的各条交互路径,得到所述各条检测路径。
较佳地,将所述状态异常的主机设置为故障主机之后,还包括:
指示所述故障主机的关联主机将存储的所述故障主机的状态信息更新为异常,以使所述关联主机将业务报文发送给所述故障主机的备用主机;所述关联主机为与所述故障主机存在交互关系的主机。
本发明实施例提供一种检测主机状态的装置,该装置包括:
检测模块,用于在第N检测周期内指示各条检测路径的起始主机向所述各条检测路径的终止主机发送检测报文,得到所述各条检测路径的检测结果;所述检测路径是根据联机系统中的各个主机之间的交互关系得到的;
确定模块,用于根据所述检测结果,确定状态异常的主机;所述状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径;
更新模块,用于更新所述状态异常的主机的异常次数,得到更新后的异常次数;
设置模块,用于在所述更新后的异常次数大于第一阈值的情况下,将所述状态异常的主机设置为故障主机。
较佳地,所述更新模块用于:
获取所述状态异常的主机在第N-1检测周期内的检测结果,若所述第N-1检测周期内的检测结果为状态异常,则将所述状态异常的主机的异常次数加1,得到更新后的异常次数;若所述第N-1检测周期内的检测结果为状态正常,则将所述状态异常的主机的正常次数清零,并将异常次数更新为1。
较佳地,所述更新模块还用于:
获取所述故障主机在第N+K检测周期内的检测结果;
确定第N+K检测周期内的检测结果为状态正常的情况下,更新所述故障主机的正常次数,得到更新后的正常次数;
所述设置模块还用于:
在所述更新后的正常次数大于第二阈值的情况下,将所述故障主机恢复为正常主机。
较佳地,所述检测模块还用于:
确定起始主机和终止主机;
根据所述联机系统中的各个主机之间的交互关系,获取所述起始主机到所述终止主机之间存在的各条交互路径,得到所述各条检测路径。
较佳地,将设置模块还用于:
指示所述故障主机的关联主机将存储的所述故障主机的状态信息更新为异常,以使所述关联主机将业务报文发送给所述故障主机的备用主机;所述关联主机为与所述故障主机存在交互关系的主机。
本发明的上述实施例中,在第N检测周期内对各条检测路径进行检测,得到各条检测路径的检测结果,根据各条检测路径的检测结果,将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,随后,更新状态异常的主机的异常次数,得到更新后的异常次数,并在判断更新后的异常次数大于第一阈值的情况下,将状态异常的主机设置为故障主机。本发明实施例中,根据各条检测路径的检测结果确定主机的状态,能够有效检测出整个系统中所有主机的状态;通过将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,能够检测出各种影响主机交互的问题,比传统的检测方式更为全面,且采用本发明实施例中的方法,能够在较短时间内确定出故障主机,有效降低因未能及时检测出故障主机而导致的交易成功率下降的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种检测主机状态的方法所对应的流程示意图;
图2为本发明实施例提供的一种典型的联机系统模型示意图;
图3为本发明实施例提供的一种存储有关联主机状态的联机系统模型示意图;
图4为本发明实施例提供的一种检测主机状态的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种检测主机状态的方法所对应的流程示意图,该方法包括:
步骤101,在第N检测周期内指示各条检测路径的起始主机向所述各条检测路径的终止主机发送检测报文,得到所述各条检测路径的检测结果;所述检测路径是根据联机系统中的各个主机之间的交互关系得到的;
步骤102,根据所述检测结果,确定状态异常的主机;所述状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径;
步骤103,更新所述状态异常的主机的异常次数,得到更新后的异常次数;
步骤104,在所述更新后的异常次数大于第一阈值的情况下,将所述状态异常的主机设置为故障主机。
本发明实施例中,根据各条检测路径的检测结果确定主机的状态,能够有效检测出整个系统中所有主机的状态;通过将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,能够检测出各种影响主机交互的问题,比传统的检测方式更为全面,且采用本发明实施例中的方法,能够在较短时间内确定出故障主机,有效降低因未能及时检测出故障主机而导致的交易成功率下降的问题。
图2为一种典型的联机交易系统模型示意图。如图2所示,完成一笔联机交易需要3类主机(主机N、主机C、和主机A)的共同协作,交易报文经主机N处理后发往主机C,主机C处理后发往主机A,主机A处理后发往主机C,主机C再转发给主机N。为了实现高可用性,每一类别的主机会采用多机热备的方式,如图2所示,主机N1和主机N2实现相同的功能,主机C1和主机C2实现相同的功能,主机A1和主机A2实现相同的功能。因此,对于任一类别的主机,例如主机C1和主机C2,在联机处理过程中任意选择C1或C2皆可。例如,主机N1完成了交易处理,可以将交易报文发往主机C1,也可发往主机C2,通常发往主机C1和主机C2的概率各为50%。
结合图2,本发明实施例中,首先根据联机系统中的各个主机,确定出一组起始主机和一组终止主机,并根据联机系统中的各个主机之间的交互关系,获取起始主机到终止主机之间存在的8条交互路径,得到检测路径。由于联机系统中各主机之间的关系是交互的,因此,本发明实施例中可直接确定起始主机和终止主机为相同主机,从而使得检测路径为一条完整的回路。例如,确定起始主机为主机N1和主机N2,终止主机也为N1和主机N2,得到的8条检测路径,分别为:N1->C1->A1->C1->N1;N1->C1->A2->C1->N1;N1->C2->A1->C2->N1;N1->C2->A2->C2->N1;N2->C1->A1->C1->N2;N2->C1->A2->C1->N2;N2->C2->A1->C2->N2;N2->C2->A2->C2->N2。本发明实施例中,通过这种方式确定检测路径,能够覆盖到整个联机系统中的各个主机,从而使得检测更为全面。
本发明实施例中具体结合起始主机为主机N1和主机N2,终止主机也为主机N1和主机N2的情形进行介绍。
在步骤101中,在第N检测周期内指示各条检测路径的起始主机向各条检测路径的终止主机发送检测报文,即在上述8条检测路径上发送检测报文,并判断各条路径上的终止主机是否接收到检测报文,针对于一条检测路径,若该检测路径的终止主机未接收所述检测报文,则确定该检测路径的检测结果为异常路径;若该检测路径的终止主机接收所述检测报文,则确定该检测路径的检测结果为正常路径,从而得到各条检测路径的检测结果。例如,通过判断得知,终止主机未接收到接收到检测报文的检测路径为N1-C1->A1->C1->N1、N1->C2->A1->C2->N1、N2->C1->A1->C1->N2、N2->C2->A1->C2->N2,从而可确定上述四条检测路径均为异常路径;终止主机接收到检测报文的检测路径为N1->C1->A2->C1->N1、N1->C2->A2->C2->N1、N2->C1->A2->C1->N2;N2->C2->A2->C2->N2,从而可确定上述四条检测路径均为正常路径;
本发明实施例中的检测报文可以为在起始主机和终止主机之间的各个主机上进行透传的报文,也可以为普通的业务报文。为更有效地对各个检测路径进行检测,本发明实施例中的检测报文优选为普通的业务报文,从而能够更准确地检测出各个主机的状态。
在步骤102中,根据上述检测路径的检测结果,确定出状态异常的主机;其中,状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径。由于主机A1对应的检测路径均为异常路径,因此可将主机A1确定为状态异常的主机;而其它的主机(主机N1、主机N2、主机C1、主机C2、主机A2)对应的检测路径中至少存在一条检测路径为正常路径,因此可将主机N1、主机N2、主机C1、主机C2、主机A2均确定为状态正常的主机。
在步骤103中,获取所述状态异常的主机A1在第N-1检测周期内的检测结果,若第N-1检测周期内的检测结果为状态异常,则将状态异常的主机A1的异常次数加1,得到更新后的异常次数;若第N-1检测周期内的检测结果为状态正常,则将状态异常的主机A1的正常次数清零,并将异常次数更新为1。
相应地,对于在第N检测周期内状态正常的主机N1、主机N2、主机C1、主机C2、主机A2也可获取各个主机在第N-1检测周期内的检测结果,若第N-1检测周期内的检测结果为状态异常,则将该主机的异常次数次数清零,并将正常次数更新为1;若第N-1检测周期内的检测结果为状态正常,则将该主机的正常次数加1,得到更新后的正常次数。
在步骤104中,对于状态异常的主机,判断更新后的异常次数是否大于第一阈值,若是,则将该状态异常的主机设置为故障主机。其中,第一阈值可由本领域技术人员根据经验设置。例如,设置第一阈值为5,若主机A1在连续的5个检测周期内均为状态异常的主机,则可将主机A1设置为故障主机。本发明实施例中,通过设置第一阈值,将在连续多个检测周期内均为状态异常的主机设置故障主机,从而使得故障主机的判断更为准确,避免将在一个检测周期内因检测误差而被判断为状态异常的主机误设为故障主机。且,能够在较短时间内确定出故障主机,有效降低因未能及时检测出故障主机而导致的交易成功率下降的问题。
本发明实施例中,各个主机中均存储有与该主机存在交互关系的主机的状态信息。如图3所示,为存储有关联主机状态的联机系统模型示意图。主机N1和主机N2中均存储有主机C1和主机C2的状态信息,主机C1和主机C2均存储有主机N1、主机N2、主机A1以及主机A2的状态信息,主机A1和主机A2中均存储有主机C1和主机C2的状态信息。根据各个检测周期内确定出的主机的状态,对各个关联主机内存储的状态信息进行周期性更新。
具体地,在确定主机A1为故障主机后,指示主机A1的关联主机(主机C1和主机C2)将存储的主机A1的状态信息更新为异常,以使主机C1和主机C2将业务报文发送给所述主机A1的备用主机A2,从而保证业务报文的正常发送。本发明实施例通过上述过程,在发现故障主机后,能自动实现隔离处理,而无需人工干预。
进一步地,主机A1被确定为故障主机后,可通过发出警报信息以使工作人员及时对故障主机进行维护。在随后的检测周期内,继续对主机A1的状态进行检测,获取主机A1在第N+K检测周期内的检测结果,若确定第N+K检测周期内的检测结果为状态正常,则更新主机A1的正常次数,得到更新后的正常次数;并判断更新后的正常次数是否大于第二阈值,若大于第二阈值,则将主机A1恢复为正常主机;若不大于第二阈值,则继续下一个检测周期。其中,第二阈值可由本领域技术人员根据经验设置。本发明实施例中,通过设置第二阈值,将在连续多个检测周期内均为状态正常的主机恢复为正常主机,从而使得将故障主机恢复为正常主机的判断更为准确,避免将在一个检测周期内因检测误差而被判断为状态正常的故障主机误设为正常主机。且,本发明实施例中当故障被修复后,系统能够自动恢复,使恢复正常的主机参与交易。
需要说明的是,图2和图3中示例联机系统中的主机类别数为3,同一类别的主机数为2,然而,本发明实施例中对联机系统中的主机类别数和同一类别的主机数并不做具体限制,实际过程中,不同联机系统的主机类别数和同一类别的主机数可根据具体情况设定,其均可采用本发明实施例中的检测方法来对主机的状态进行检测。
本发明的上述实施例中,在第N检测周期内对各条检测路径进行检测,得到各条检测路径的检测结果,根据各条检测路径的检测结果,将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,随后,更新状态异常的主机的异常次数,得到更新后的异常次数,并在判断更新后的异常次数大于第一阈值的情况下,将状态异常的主机设置为故障主机。本发明实施例中,根据各条检测路径的检测结果确定主机的状态,能够有效检测出整个系统中所有主机的状态;通过将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,能够检测出各种影响主机交互的问题,比传统的检测方式更为全面,且采用本发明实施例中的方法,能够在较短时间内确定出故障主机,有效降低因未能及时检测出故障主机而导致的交易成功率下降的问题。
针对上述方法流程,本发明实施例还提供一种检测主机状态的装置,该装置的具体内容可以参照上述方法实施,在此不再赘述。
图4为本发明实施例提供的一种检测主机状态的装置的结构示意图,该装置包括:
检测模块401,用于在第N检测周期内指示各条检测路径的起始主机向所述各条检测路径的终止主机发送检测报文,得到所述各条检测路径的检测结果;所述检测路径是根据联机系统中的各个主机之间的交互关系得到的;
确定模块402,用于根据所述检测结果,确定状态异常的主机;所述状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径;
更新模块403,用于更新所述状态异常的主机的异常次数,得到更新后的异常次数;
设置模块404,用于在所述更新后的异常次数大于第一阈值的情况下,将所述状态异常的主机设置为故障主机。
较佳地,所述更新模块403用于:
获取所述状态异常的主机在第N-1检测周期内的检测结果,若所述第N-1检测周期内的检测结果为状态异常,则将所述状态异常的主机的异常次数加1,得到更新后的异常次数;若所述第N-1检测周期内的检测结果为状态正常,则将所述状态异常的主机的正常次数清零,并将异常次数更新为1。
较佳地,所述更新模块403还用于:
获取所述故障主机在第N+K检测周期内的检测结果;
确定第N+K检测周期内的检测结果为状态正常的情况下,更新所述故障主机的正常次数,得到更新后的正常次数;
所述设置模块404还用于:
在所述更新后的正常次数大于第二阈值的情况下,将所述故障主机恢复为正常主机。
较佳地,所述检测模块401还用于:
确定起始主机和终止主机;
根据所述联机系统中的各个主机之间的交互关系,获取所述起始主机到所述终止主机之间存在的各条交互路径,得到所述各条检测路径。
较佳地,将设置模块404还用于:
指示所述故障主机的关联主机将存储的所述故障主机的状态信息更新为异常,以使所述关联主机将业务报文发送给所述故障主机的备用主机;所述关联主机为与所述故障主机存在交互关系的主机。
从上述内容可以看出:
本发明实施例中,在第N检测周期内对各条检测路径进行检测,得到各条检测路径的检测结果,根据各条检测路径的检测结果,将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,随后,更新状态异常的主机的异常次数,得到更新后的异常次数,并在判断更新后的异常次数大于第一阈值的情况下,将状态异常的主机设置为故障主机。本发明实施例中,根据各条检测路径的检测结果确定主机的状态,能够有效检测出整个系统中所有主机的状态;通过将对应的检测路径的检测结果均为异常路径的主机确定为状态异常的主机,能够检测出各种影响主机交互的问题,比传统的检测方式更为全面,且采用本发明实施例中的方法,能够在较短时间内确定出故障主机,有效降低因未能及时检测出故障主机而导致的交易成功率下降的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种检测主机状态的方法,其特征在于,该方法包括:
在第N个检测周期内指示各条检测路径的起始主机向所述各条检测路径的终止主机发送检测报文,得到所述各条检测路径的检测结果;所述检测路径是根据联机系统中的各个主机之间的交互关系得到的;
根据所述检测结果,确定状态异常的主机;所述状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径;
更新所述状态异常的主机的异常次数,得到更新后的异常次数;
在所述更新后的异常次数大于第一阈值的情况下,将所述状态异常的主机设置为故障主机。
2.如权利要求1所述的方法,其特征在于,所述更新所述状态异常的主机的异常次数,得到更新后的异常次数,包括:
获取所述状态异常的主机在第N-1个检测周期内的检测结果,若所述第N-1个检测周期内的检测结果为状态异常,则将所述状态异常的主机的异常次数加1,得到更新后的异常次数;若所述第N-1个检测周期内的检测结果为状态正常,则将所述状态异常的主机的正常次数清零,并将异常次数更新为1。
3.如权利要求1所述的方法,其特征在于,所述将所述状态异常的主机设置为故障主机之后,还包括:
获取所述故障主机在第N+K个检测周期内的检测结果;
确定第N+K个检测周期内的检测结果为状态正常的情况下,更新所述故障主机的正常次数,得到更新后的正常次数;
在所述更新后的正常次数大于第二阈值的情况下,将所述故障主机恢复为正常主机。
4.如权利要求1所述的方法,其特征在于,所述检测路径是根据联机系统中的各个主机之间的交互关系得到的,包括:
确定起始主机和终止主机;
根据所述联机系统中的各个主机之间的交互关系,获取所述起始主机到所述终止主机之间存在的各条交互路径,得到所述各条检测路径。
5.如权利要求1所述的方法,其特征在于,将所述状态异常的主机设置为故障主机之后,还包括:
指示所述故障主机的关联主机将存储的所述故障主机的状态信息更新为异常,以使所述关联主机将业务报文发送给所述故障主机的备用主机;所述关联主机为与所述故障主机存在交互关系的主机。
6.一种检测主机状态的装置,其特征在于,该装置包括:
检测模块,用于在第N个检测周期内指示各条检测路径的起始主机向所述各条检测路径的终止主机发送检测报文,得到所述各条检测路径的检测结果;所述检测路径是根据联机系统中的各个主机之间的交互关系得到的;
确定模块,用于根据所述检测结果,确定状态异常的主机;所述状态异常的主机对应的检测路径的检测结果均为异常路径;所述状态异常的主机对应的检测路径为经过所述状态异常的主机的检测路径;
更新模块,用于更新所述状态异常的主机的异常次数,得到更新后的异常次数;
设置模块,用于在所述更新后的异常次数大于第一阈值的情况下,将所述状态异常的主机设置为故障主机。
7.如权利要求6所述的装置,其特征在于,所述更新模块用于:
获取所述状态异常的主机在第N-1个检测周期内的检测结果,若所述第N-1个检测周期内的检测结果为状态异常,则将所述状态异常的主机的异常次数加1,得到更新后的异常次数;若所述第N-1个检测周期内的检测结果为状态正常,则将所述状态异常的主机的正常次数清零,并将异常次数更新为1。
8.如权利要求6所述的装置,其特征在于,所述更新模块还用于:
获取所述故障主机在第N+K个检测周期内的检测结果;
确定第N+K个检测周期内的检测结果为状态正常的情况下,更新所述故障主机的正常次数,得到更新后的正常次数;
所述设置模块还用于:
在所述更新后的正常次数大于第二阈值的情况下,将所述故障主机恢复为正常主机。
9.如权利要求6所述的装置,其特征在于,所述检测模块还用于:
确定起始主机和终止主机;
根据所述联机系统中的各个主机之间的交互关系,获取所述起始主机到所述终止主机之间存在的各条交互路径,得到所述各条检测路径。
10.如权利要求6所述的装置,其特征在于,将设置模块还用于:
指示所述故障主机的关联主机将存储的所述故障主机的状态信息更新为异常,以使所述关联主机将业务报文发送给所述故障主机的备用主机;所述关联主机为与所述故障主机存在交互关系的主机。
CN201510954850.XA 2015-12-17 2015-12-17 一种检测主机状态的方法及装置 Active CN105933176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510954850.XA CN105933176B (zh) 2015-12-17 2015-12-17 一种检测主机状态的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510954850.XA CN105933176B (zh) 2015-12-17 2015-12-17 一种检测主机状态的方法及装置

Publications (2)

Publication Number Publication Date
CN105933176A CN105933176A (zh) 2016-09-07
CN105933176B true CN105933176B (zh) 2018-12-28

Family

ID=56840045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510954850.XA Active CN105933176B (zh) 2015-12-17 2015-12-17 一种检测主机状态的方法及装置

Country Status (1)

Country Link
CN (1) CN105933176B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979509B (zh) * 2017-11-28 2020-05-12 杭州迪普科技股份有限公司 一种检测fpga工作状态的方法和装置
CN110646699A (zh) * 2019-10-10 2020-01-03 北京嘀嘀无限科技发展有限公司 充电桩故障识别方法、存储介质、充电桩及电子设备
CN110875928B (zh) * 2019-11-14 2022-09-06 绿盟科技集团股份有限公司 一种攻击溯源方法、装置、介质和设备
CN112256527B (zh) * 2020-10-19 2023-08-25 杭州萤石软件有限公司 一种保护设备运行时安全的方法、装置及存储介质
CN112783792B (zh) * 2021-02-08 2024-01-09 腾讯云计算(北京)有限责任公司 分布式数据库系统的故障检测方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291290A (zh) * 2011-08-08 2011-12-21 浙江中控技术股份有限公司 以太环网故障检测、连接的方法和系统
US20140025985A1 (en) * 2012-07-18 2014-01-23 Fujitsu Limited Communication control device and communication control method
US20140189443A1 (en) * 2012-12-31 2014-07-03 Advanced Micro Devices, Inc. Hop-by-hop error detection in a server system
CN104243232A (zh) * 2014-07-02 2014-12-24 中国人民解放军信息工程大学 虚拟网故障探测和定位方法
CN104348659A (zh) * 2013-08-08 2015-02-11 富士通株式会社 多跳网络的故障检测方法和节点
CN104777401A (zh) * 2015-03-18 2015-07-15 航天科工深圳(集团)有限公司 电网故障定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291290A (zh) * 2011-08-08 2011-12-21 浙江中控技术股份有限公司 以太环网故障检测、连接的方法和系统
US20140025985A1 (en) * 2012-07-18 2014-01-23 Fujitsu Limited Communication control device and communication control method
US20140189443A1 (en) * 2012-12-31 2014-07-03 Advanced Micro Devices, Inc. Hop-by-hop error detection in a server system
CN104348659A (zh) * 2013-08-08 2015-02-11 富士通株式会社 多跳网络的故障检测方法和节点
CN104243232A (zh) * 2014-07-02 2014-12-24 中国人民解放军信息工程大学 虚拟网故障探测和定位方法
CN104777401A (zh) * 2015-03-18 2015-07-15 航天科工深圳(集团)有限公司 电网故障定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Path Failure Detection and Session Recovery Mechanism in Multihomed HIMALIS Network;Ved P.Kafle, Yusuke Fukushima and Hiroaki Harai;《Fifth international Conference on Ubiquitous and future Network》;20130930;558-563 *
基于主机网络行为的状态检测技术研究与实现;任德志,蔡开裕等;《2010 Asia-Pacific Conference on Information Theory》;20101112;161-166 *

Also Published As

Publication number Publication date
CN105933176A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN105933176B (zh) 一种检测主机状态的方法及装置
CN109783262A (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN108205424A (zh) 基于磁盘的数据迁移方法、装置及电子设备
CN102740112B (zh) 一种基于视频监控系统的设备轮巡的控制方法
CN105202704B (zh) 空调故障信息的显示方法及装置
CN106998265A (zh) 一种监控方法及其装置
CN107209829A (zh) 数据判定装置、数据判定方法及程序
CN114896166A (zh) 场景库构建方法、装置、电子设备及存储介质
EP3237980B1 (en) Device and method for distributed diagnostics analysis
CN111159029B (zh) 自动化测试方法、装置、电子设备及计算机可读存储介质
CN106911519A (zh) 一种数据采集监控方法及装置
CN108599989A (zh) 一种mvb总线检测方法及装置
CN107566036A (zh) 自动检测通信中的错误并且自动确定该错误的源
US9009535B2 (en) Anomaly detection at the level of run time data structures
JP2010152539A (ja) 障害発見システム検証装置、障害発見システム検証方法及び障害発見システム検証制御プログラム
CN208579785U (zh) 一种异常检测系统
CN115269389A (zh) 一种项目质量确定方法、装置、电子设备及存储介质
CN112804115B (zh) 一种虚拟网络功能的异常检测方法、装置及设备
CN105988907B (zh) 业务监控方法和装置
Kanaev et al. Model of the synchronization network functioning process in the context of intellectualization of network control functions
CN110347713A (zh) 业务监控规则、业务监控指标生成方法及装置
WO2009119032A1 (ja) 稼動偏差通知装置および稼動偏差通知方法
CN110319914A (zh) 车辆载重检测设备的故障检测方法及装置
CN110134000A (zh) 控制系统、诊断装置、诊断方法、以及存储有诊断程序的计算机可读介质
CN114710389B (zh) 信息处理方法和信息处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant