CN110708180A - 故障检测方法、故障解析方法及装置 - Google Patents

故障检测方法、故障解析方法及装置 Download PDF

Info

Publication number
CN110708180A
CN110708180A CN201810752323.4A CN201810752323A CN110708180A CN 110708180 A CN110708180 A CN 110708180A CN 201810752323 A CN201810752323 A CN 201810752323A CN 110708180 A CN110708180 A CN 110708180A
Authority
CN
China
Prior art keywords
monitoring party
monitored host
fault detection
host
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810752323.4A
Other languages
English (en)
Other versions
CN110708180B (zh
Inventor
周涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810752323.4A priority Critical patent/CN110708180B/zh
Publication of CN110708180A publication Critical patent/CN110708180A/zh
Application granted granted Critical
Publication of CN110708180B publication Critical patent/CN110708180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/08Protocols specially adapted for terminal emulation, e.g. Telnet

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书一个或多个实施例提供一种故障检测方法、故障解析方法及装置,该方法可以包括:监测方远程登录被监测主机;所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作;所述监测方接收所述被监测主机返回的故障检测结果。

Description

故障检测方法、故障解析方法及装置
技术领域
本说明书一个或多个实施例涉及终端技术领域,尤其涉及一种故障检测方法、故障解析方法及装置。
背景技术
电子设备的运行往往并不十分可靠,可能由于各种因素的影响而产生故障,因而需要对电子设备进行故障检测,从而及时发现和解决问题。但是,对于诸如云计算平台上的主机等电子设备,用户往往无法直接对这些电子设备实施操作,从而影响了故障检测的及时性,降低了电子设备的可靠程度。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种故障检测方法、故障解析方法及装置。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种故障检测方法,包括:
监测方远程登录被监测主机;
所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作;
所述监测方接收所述被监测主机返回的故障检测结果。
根据本说明书一个或多个实施例的第二方面,提出了一种故障检测装置,包括:
登录单元,使监测方远程登录被监测主机;
调用单元,使所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作;
接收单元,使所述监测方接收所述被监测主机返回的故障检测结果。
根据本说明书一个或多个实施例的第三方面,提出了一种故障解析方法,包括:
监测方远程登录被监测主机;
所述监测方调用故障解析命令,以使所述被监测主机执行故障解析操作;
所述监测方接收所述被监测主机返回的故障解析结果。
根据本说明书一个或多个实施例的第四方面,提出了一种故障解析装置,包括:
登录单元,使监测方远程登录被监测主机;
调用单元,使所述监测方调用故障解析命令,以使所述被监测主机执行故障解析操作;
接收单元,使所述监测方接收所述被监测主机返回的故障解析结果。
附图说明
图1是一示例性实施例提供的一种故障检测系统的架构示意图。
图2是一示例性实施例提供的一种故障检测方法的流程图。
图3是一示例性实施例提供的一种故障检测系统的示意图。
图4是一示例性实施例提供的另一种故障检测系统的示意图。
图5是一示例性实施例提供的又一种故障检测系统的示意图。
图6是一示例性实施例提供的一种设备的结构示意图。
图7是一示例性实施例提供的一种故障检测装置的框图。
图8是一示例性实施例提供的一种故障解析方法的流程图。
图9是一示例性实施例提供的另一种设备的结构示意图。
图10是一示例性实施例提供的一种故障解析装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
图1是一示例性实施例提供的一种故障检测系统的架构示意图。如图1所示,该系统可以包括被监测主机11、网络12、监测设备13-14。
被监测主机11可以为包含一物理主机,或者该被监测主机11可以为主机集群承载的虚拟主机或容器。被监测主机11可以用于实现预设的业务功能。
监测设备13-14可以包括任意类型的电子设备,比如图1所示的监测设备13可以为手机、监测设备14可以为PC,当然本说明书并不对此进行限制。在运行过程中,该监测设备13-14可与被监测主机11建立远程连接,使得监测设备13-14可以对被监测主机11进行故障检测,从而及时发现和解决被监测主机11存在的问题。
而对于监测设备13-14与被监测主机11之间进行交互的网络12,可以包括多种类型的有线或无线网络。在一实施例中,该网络12可以包括公共交换电话网络(PublicSwitched Telephone Network,PSTN)和因特网。
图2是一示例性实施例提供的一种故障检测方法的流程图。如图2所示,该方法可以包括以下步骤:
步骤202,监测方远程登录被监测主机。
在一实施例中,被监测主机可以包括以下至少之一:云计算平台中的物理机、虚拟机、容器等。在其他实施例中,被监测主机可以包括其他任意类型的电子设备,本说明书并不对此进行限制。
在一实施例中,所述监测方为专用监测设备,例如该专用监测设备可以包括监测服务器。专用监测设备的“专用”是指其功能区别于被监测主机所执行的功能,但该专业监测设备还可以实现除此之外的其他功能,本说明书并不对此进行限制。其中,被监测主机的数量可以为一个或多个。在一种情况下,当被监测主机的数量为多个时,监测方的数量可以仅为一个,即所有的被监测主机均连接至该监测方,并由该监测方对所有被监测主机进行故障检测。在另一种情况下,当被监测主机的数量为多个时,监测方的数量可以为多个,其中每一监测方分别连接至若干被监测主机,以对连接的若干台被监测主机进行故障检测。
在一实施例中,当被监测主机的数量为多个时,这些被监测主机之间可以形成多个层级;其中,当任一被监测主机处于最高层级时,该任一被监测主机与专用监测设备相连,并由该专用监测设备直接对该任一被监测主机进行故障检测;当任一被监测主机未处于最高层级时,上述的监测方可以为该任一被监测主机的上一层级的另一被监测主机,该另一被监测主机通过远程登录该任一被监测主机、获取该任一被监测主机的故障检测结果,并将故障检测结果返回自身上一层级的电子设备,譬如该电子设备为专用监测设备,又譬如该电子设备为又一被监测主机、该又一被监测主机可以继续向自身上一层级的电子设备传递该故障检测结果、直至传递至专用监测设备。
在一实施例中,所述监测方可以通过安全外壳协议(Secure Shell,简称SSH)登录所述被监测主机。在另一实施例中,所述监测方可以通过远程终端协议(Telnet)远程登录所述被监测主机。通过由监测方远程登录被监测主机,使得被监测主机上无需预先安装和运行代理(agent)客户端,可以减少被监测主机的系统复杂度,也免除了对代理客户端的维护复杂度,有助于简单高效地实现对被监测主机的故障检测。
步骤204,所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作。
在一实施例中,所述故障检测命令可以包括:预定义的壳(shell)命令,或者其他任意类型的命令,本说明书并不对此进行限制。
在一实施例中,所述监测方可以调用所述被监测主机上的故障检测指令。由于监测方已经远程登录了被监测主机,因而可以对该被监测主机实施“本地”调用。
在一实施例中,所述监测方可以通过所述被监测主机调用预设对象处的故障检测指令。由于监测方已经远程登录了被监测主机,因而可以对被监测主机进行控制,使得该被监测主机可以访问该预设对象并调用该预设对象处的故障检测指令。其中,该预设对象可以为某一主机、某一服务器或某一服务平台等,本说明书并不对此进行限制。
步骤206,所述监测方接收所述被监测主机返回的故障检测结果。
在一实施例中,被监测主机通过运行故障检测命令,直接生成的检测结果信息可能较为散乱。因此,可使被监测主机按照预定义文本结构对检测结果信息进行规整化、得到相应的文本信息,并将一条或多条文本信息包含于故障检测结果中,以返回至监测方。换言之,通过对检测结果信息进行规整化,使得多条检测结果信息对应的文本信息可以被整合于同一故障检测结果中,并同时返回至监测方,而无需分别将每一检测结果信息分别返回至监测方,可以极大地减少被监测主机与监测方之间的交互次数,有助于提升故障检测效率。相应的,所述监测方在收到故障检测结果后,可以通过解析所述故障检测结果包含的文本信息,以得到相应的检测结果信息。
在一实施例中,可以通过对被监测主机上的shell命令进行预处理,使得该shell命令被调用后,可以对检测结果信息实施上述的规整化处理。
在一实施例中,当所述故障检测结果包含多条文本信息时,所述多条文本信息可以来源于一个或多个被调用的故障检测命令对应的检测结果信息。换言之,一个故障检测命令可以生成一条检测结果信息,从而形成相应的一条文本信息;或者,一个故障检测命令可以生成多条检测结果信息,从而形成相应的多条文本信息。
为了便于理解,以针对云计算平台的物理机、虚拟机或容器等主机进行故障检测为例,对本说明书一个或多个实施例的技术方案进行说明。图3是一示例性实施例提供的一种故障检测系统的示意图。如图3所示,假定云计算平台包括主机321、主机322和主机323,而用户可以通过PC311对这些主机321~323进行故障检测。
在一实施例中,PC311可以分别对主机321~323进行远程登录,比如PC311可以通过Telnet协议或SSH协议实现该远程登录操作。相应地,只需要主机321~323开启自身的Telnet功能或SSH功能即可,而无需在主机321~323上安装和运行agent客户端,不会增加主机321~323的系统复杂度,有助于提升主机321~323的运行可靠性。
在一实施例中,PC311在远程登录主机321~323后,可以对主机321~323进行远程操控。例如,PC311可以远程调用主机321~323上的shell命令,使得主机321~323可以通过运行该shell命令,执行相应的故障检测操作,生成检测结果信息。
在一实施例中,主机321~323在生成检测结果信息后,可以对检测结果信息进行规整化,使得所有检测结果信息均按照预定义文本结构形成相应的文本信息。然后,主机321~323可以分别将自身得到的文本信息合并为故障检测结果,并分别将得到的故障检测结果返回至PC311,以供PC311进行自动分析或由相关工作人员进行查看。通过对检测结果信息进行规整化,使得所有检测结果信息均被处理为预定义文本结构的文本信息,解决了不同检测结果信息的信息杂乱的问题,使得多条文本信息能够被整合至同一故障检测结果中、同时返回至PC311,而无需将每条检测结果信息分别返回至PC311,从而极大地减少了主机321~323与PC311之间的交互次数,同时PC311可以快速对文本信息进行解析处理,从而快速确定出主机321~323可能存在的故障或隐患。
图4是一示例性实施例提供的另一种故障检测系统的示意图。如图4所示,云计算平台的主机数量往往较多,比如图4中包括主机421、主机422、主机423、主机424、主机425、主机426等,虽然可以采用类似于图3所示的实施例,即通过诸如PC411对这些主机421~426等进行故障检测,但是PC411的处理性能、带宽性能等往往有限,如果主机数量更多或逐步增加的情况下,可能会影响故障检测效率或可靠性。
因此,当主机数量增加的情况下,可以随之增加监测方的数量,实现对故障检测系统的水平扩展。例如图4所示,假定每一监测方可以对3台主机进行故障检测,那么可使PC411对主机421~423进行故障检测、PC412对主机424~426进行检测,相当于将整个故障检测系统划分为若干组,比如PC411与主机421~423一组、PC412与主机424~426一组,而每组内的故障检测方案可以分别参考图3所示的实施例,此处不再赘述。
基于图4所示的实施例,当云计算平台中的主机数量增加时,可以增加监测方的数量,并扩展出新的分组,而新的分组可以基于图3所示的实施例对组内的主机实现故障检测,具有极强的系统扩展性能。
在一实施例中,当故障检测系统中包含多个监测方时,为了便于对这些监测方进行管理,这些监测方可以作为监测客户端,而故障检测系统还可以包括一监测服务端,该监测服务端可以连接至各个监测客户端,并接收各个监测客户端上报的故障检测结果,从而对这些故障检测结果进行自动分析或提供至相关工作人员进行查看。
在一实施例中,可以根据云计算平台中各个主机所处的地理位置,将同一或相近地理位置处(比如同一机房)的主机划分为同一组,并针对同一组内的主机设置监测方进行故障检测。其中,当同一或相近地理位置处的主机数量较少时,可以仅设置一个监测方进行故障检测;当同一或相近地理位置处的主机数量较多时,可以设置多个监测方进行故障检测,本说明书并不对此进行限制。
图5是一示例性实施例提供的又一种故障检测系统的示意图。假定云计算平台包括如图5所示的主机521、主机531、主机532、主机541、主机542、主机543等,可以通过在这些主机之间构成级联结构,使得工作人员仅通过PC511即可对这些主机实现故障检测。
在一实施例中,可使主机521作为第一层级、该主机521连接至PC511,可使主机531、主机532作为第二层级,该主机531-532分别连接至主机521,可使主机541、主机542、主机543作为第三层级,其中主机541-542分别连接至主机531、主机543连接至主机532。
在一实施例中,PC511可以作为监测方,以对主机521进行故障检测。例如,PC511可以通过Telnet协议或SSH协议远程登录主机521,并通过调用该主机521上的shell命令,使得主机521执行故障检测操作,生成相应的故障检测结果并返回至PC511,该过程可以参考图3所示的实施例。
在一实施例中,主机521可以作为监测方,以对主机531-532进行故障检测。例如,主机521可以通过Telnet协议或SSH协议分别远程登录主机531-532,并通过分别调用该主机531-532上的shell命令,使得主机531-532分别执行故障检测操作,生成相应的故障检测结果并返回至主机521,该过程可以参考图3所示的实施例。进一步地,由于主机521只是扮演了“监测方”这一角色,因而主机521还进一步将获得的故障检测结果返回至PC511,以供PC511进行自动分析或提供至相关工作人员进行查看。
在一实施例中,与主机521相类似的,当云计算平台中的各个主机之间建立起级联结构后,任一主机如果存在下一层级的其他主机时,该任一主机就可以通过扮演“监测方”角色,对该下一层级的其他主机进行故障检测。例如,主机531可以作为主机541-542的监测方,通过类似于主机521的上述处理逻辑,远程登录主机541-542并获得相应的故障检测结果;再例如,主机532可以作为主机543的监测方,通过类似于主机521的上述处理逻辑,远程登录主机543并获得相应的故障检测结果。
进一步地,主机531-532在获得自身下一层级的其他主机返回的故障检测结果后,由于该主机531-532并非第一层级的主机、并未直接连接至PC511,因而主机531-532可以将获得的故障检测结果通过级联结构层层向上传递,比如主机531-532可以将获得的故障检测结果传递至主机521,并进而由主机521提供至PC511。
当云计算平台包含更多主机时,主机541~543也可以包括向下层级的其他主机,使得主机541~543可以作为监测方进行故障检测,此处不再赘述。同时,主机541~543在获得相应的故障检测结果后,可以通过级联结构层层向上传递,比如主机541-542可以传递至主机531、由主机531传递至主机521、由主机521传递至PC511,主机543可以传递至主机532、由主机532传递至主机521、由主机521传递至PC511。
图6是一示例性实施例提供的一种设备的示意结构图。请参考图6,在硬件层面,该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行,在逻辑层面上形成故障检测装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图7,在软件实施方式中,该故障检测装置可以包括:
登录单元71,使监测方远程登录被监测主机;
调用单元72,使所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作;
接收单元73,使所述监测方接收所述被监测主机返回的故障检测结果。
可选的,所述登录单元71具体用于:
使所述监测方通过安全外壳协议或远程终端协议远程登录所述被监测主机。
可选的,所述调用单元72具体用于:
使所述监测方调用所述被监测主机上的故障检测指令;
或者,使所述监测方通过所述被监测主机调用预设对象处的故障检测指令。
可选的,所述故障检测命令包括:预定义的壳命令。
可选的,所述故障检测结果包含按照预定义文本结构进行整理的一条或多条文本信息,所述文本信息由所述被监测主机按照所述预定义文本结构对检测结果信息进行规整化而得到;所述装置还包括:
解析单元74,使所述监测方解析所述故障检测结果包含的文本信息,以得到相应的检测结果信息。
可选的,当所述故障检测结果包含多条文本信息时,所述多条文本信息来源于一个或多个被调用的故障检测命令对应的检测结果信息。
可选的,所述被监测主机包括以下至少之一:
云计算平台中的物理机、虚拟机、容器。
可选的,所述监测方为专用监测设备。
可选的,所述监测方为位于所述被监测主机的上一层级的另一被监测主机;所述装置还包括:
返回单元75,使所述监测方将所述故障检测结果返回至自身上一层级的电子设备,该电子设备为专用监测设备或又一被监测主机。
结合图1所示的实施例:基于图1所示的系统架构,监测设备13-14可以通过网络12远程登录被监测主机11,并针对被监测主机11上发生的故障进行解析,从而及时解决被监测主机11存在的问题。
相应地,图8是一示例性实施例提供的一种故障解析方法的流程图。如图8所示,该方法可以包括以下步骤:
步骤802,监测方远程登录被监测主机。
在一实施例中,被监测主机可以包括以下至少之一:云计算平台中的物理机、虚拟机、容器等。在其他实施例中,被监测主机可以包括其他任意类型的电子设备,本说明书并不对此进行限制。
在一实施例中,所述监测方为专用监测设备,例如该专用监测设备可以包括监测服务器。专用监测设备的“专用”是指其功能区别于被监测主机所执行的功能,但该专业监测设备还可以实现除此之外的其他功能,本说明书并不对此进行限制。其中,被监测主机的数量可以为一个或多个。在一种情况下,当被监测主机的数量为多个时,监测方的数量可以仅为一个,即所有的被监测主机均连接至该监测方,并由该监测方对所有被监测主机进行故障解析。在另一种情况下,当被监测主机的数量为多个时,监测方的数量可以为多个,其中每一监测方分别连接至若干被监测主机,以对连接的若干台被监测主机进行故障解析。
在一实施例中,当被监测主机的数量为多个时,这些被监测主机之间可以形成多个层级;其中,当任一被监测主机处于最高层级时,该任一被监测主机与专用监测设备相连,并由该专用监测设备直接对该任一被监测主机进行故障解析;当任一被监测主机未处于最高层级时,上述的监测方可以为该任一被监测主机的上一层级的另一被监测主机,该另一被监测主机通过远程登录该任一被监测主机、获取该任一被监测主机的故障解析结果,并将故障解析结果返回自身上一层级的电子设备,譬如该电子设备为专用监测设备,又譬如该电子设备为又一被监测主机、该又一被监测主机可以继续向自身上一层级的电子设备传递该故障解析结果、直至传递至专用监测设备。
在一实施例中,所述监测方可以通过安全外壳协议(Secure Shell,简称SSH)登录所述被监测主机。在另一实施例中,所述监测方可以通过远程终端协议(Telnet)远程登录所述被监测主机。通过由监测方远程登录被监测主机,使得被监测主机上无需预先安装和运行代理(agent)客户端,可以减少被监测主机的系统复杂度,也免除了对代理客户端的维护复杂度,有助于简单高效地实现对被监测主机的故障解析。
在一实施例中,监测方可以主动登录被监测主机,譬如按照预设周期登录被监测主机或者随机挑选并登录被监测主机等,并在发现被监测主机存在故障时,针对被监测主机实施故障解析。
在一实施例中,被监测主机可以在发生故障后向监测方发起故障解析请求,而监测方可以根据接收到的来自被监测主机的故障解析请求,远程登录被监测主机,并对被监测主机存在的故障进行解析。
步骤804,所述监测方调用故障解析命令,以使所述被监测主机执行故障解析操作。
在一实施例中,所述故障解析命令可以包括:预定义的壳(shell)命令,或者其他任意类型的命令,本说明书并不对此进行限制。
在一实施例中,所述监测方可以调用所述被监测主机上的故障解析指令。由于监测方已经远程登录了被监测主机,因而可以对该被监测主机实施“本地”调用。
在一实施例中,所述监测方可以通过所述被监测主机调用预设对象处的故障解析指令。由于监测方已经远程登录了被监测主机,因而可以对被监测主机进行控制,使得该被监测主机可以访问该预设对象并调用该预设对象处的故障解析指令。其中,该预设对象可以为某一主机、某一服务器或某一服务平台等,本说明书并不对此进行限制。
步骤806,所述监测方接收所述被监测主机返回的故障解析结果。
在一实施例中,被监测主机通过运行故障解析命令,直接生成的解析结果信息可能较为散乱。因此,可使被监测主机按照预定义文本结构对解析结果信息进行规整化、得到相应的文本信息,并将一条或多条文本信息包含于故障解析结果中,以返回至监测方。换言之,通过对解析结果信息进行规整化,使得多条解析结果信息对应的文本信息可以被整合于同一故障解析结果中,并同时返回至监测方,而无需分别将每一解析结果信息分别返回至监测方,可以极大地减少被监测主机与监测方之间的交互次数,有助于提升故障解析效率。相应的,所述监测方在收到故障解析结果后,可以通过解析所述故障解析结果包含的文本信息,以得到相应的解析结果信息。
在一实施例中,可以通过对被监测主机上的shell命令进行预处理,使得该shell命令被调用后,可以对解析结果信息实施上述的规整化处理。
在一实施例中,当所述故障解析结果包含多条文本信息时,所述多条文本信息可以来源于一个或多个被调用的故障解析命令对应的解析结果信息。换言之,一个故障解析命令可以生成一条解析结果信息,从而形成相应的一条文本信息;或者,一个故障解析命令可以生成多条解析结果信息,从而形成相应的多条文本信息。
类似于图3所示的实施例,用户可以通过PC311对主机321~323进行故障解析,其系统架构、远程登录、命令调用、结果返回等过程,均可以参考图3所示的实施例,只是PC311调用的shell命令用于实施故障解析操作、而非故障检测操作,此处不再赘述。
类似于图4所示的实施例,通过将PC411与主机421~423划分为一组、将PC412与主机424~426划分为一组,每组内可以分别参考图3所示的实施例,实现对主机的远程登录与故障解析。
类似于图5所示的实施例,通过在主机521、主机531、主机532、主机541、主机542、主机543等之间构成级联结构,使得通过PC511能够实现对这些主机的故障解析,其系统架构、远程登录、命令调用、结果返回等过程,均可以参考图5所示的实施例,只是所调用的shell命令用于实施故障解析操作、而非故障检测操作,此处不再赘述。
图9是一示例性实施例提供的一种设备的示意结构图。请参考图9,在硬件层面,该设备包括处理器902、内部总线904、网络接口906、内存908以及非易失性存储器910,当然还可能包括其他业务所需要的硬件。处理器902从非易失性存储器910中读取对应的计算机程序到内存908中然后运行,在逻辑层面上形成故障解析装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图10,在软件实施方式中,该故障解析装置可以包括:
登录单元1001,使监测方远程登录被监测主机;
调用单元1002,使所述监测方调用故障解析命令,以使所述被监测主机执行故障解析操作;
接收单元1003,使所述监测方接收所述被监测主机返回的故障解析结果。
可选的,所述登录单元1001具体用于:
使所述监测方通过安全外壳协议或远程终端协议远程登录所述被监测主机。
可选的,所述调用单元1002具体用于:
使所述监测方调用所述被监测主机上的故障解析指令;
或者,使所述监测方通过所述被监测主机调用预设对象处的故障解析指令。
可选的,所述故障解析命令包括:预定义的壳命令。
可选的,所述故障解析结果包含按照预定义文本结构进行整理的一条或多条文本信息,所述文本信息由所述被监测主机按照所述预定义文本结构对解析结果信息进行规整化而得到;所述装置还包括:
解析单元1004,使所述监测方解析所述故障解析结果包含的文本信息,以得到相应的解析结果信息。
可选的,当所述故障解析结果包含多条文本信息时,所述多条文本信息来源于一个或多个被调用的故障解析命令对应的解析结果信息。
可选的,所述被监测主机包括以下至少之一:
云计算平台中的物理机、虚拟机、容器。
可选的,所述监测方为专用监测设备。
可选的,所述监测方为位于所述被监测主机的上一层级的另一被监测主机;所述装置还包括:
返回单元1005,使所述监测方将所述故障解析结果返回至自身上一层级的电子设备,该电子设备为专用监测设备或又一被监测主机。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (20)

1.一种故障检测方法,其特征在于,包括:
监测方远程登录被监测主机;
所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作;
所述监测方接收所述被监测主机返回的故障检测结果。
2.根据权利要求1所述的方法,其特征在于,所述监测方远程登录被监测主机,包括:
所述监测方通过安全外壳协议或远程终端协议远程登录所述被监测主机。
3.根据权利要求1所述的方法,其特征在于,所述监测方调用故障检测命令,包括:
所述监测方调用所述被监测主机上的故障检测指令;
或者,所述监测方通过所述被监测主机调用预设对象处的故障检测指令。
4.根据权利要求1所述的方法,其特征在于,所述故障检测命令包括:预定义的壳命令。
5.根据权利要求1所述的方法,其特征在于,所述故障检测结果包含按照预定义文本结构进行整理的一条或多条文本信息,所述文本信息由所述被监测主机按照所述预定义文本结构对检测结果信息进行规整化而得到;所述方法还包括:
所述监测方解析所述故障检测结果包含的文本信息,以得到相应的检测结果信息。
6.根据权利要求5所述的方法,其特征在于,当所述故障检测结果包含多条文本信息时,所述多条文本信息来源于一个或多个被调用的故障检测命令对应的检测结果信息。
7.根据权利要求1所述的方法,其特征在于,所述被监测主机包括以下至少之一:
云计算平台中的物理机、虚拟机、容器。
8.根据权利要求1所述的方法,其特征在于,所述监测方为专用监测设备。
9.根据权利要求1所述的方法,其特征在于,所述监测方为位于所述被监测主机的上一层级的另一被监测主机;所述方法还包括:
所述监测方将所述故障检测结果返回至自身上一层级的电子设备,该电子设备为专用监测设备或又一被监测主机。
10.一种故障检测装置,其特征在于,包括:
登录单元,使监测方远程登录被监测主机;
调用单元,使所述监测方调用故障检测命令,以使所述被监测主机执行故障检测操作;
接收单元,使所述监测方接收所述被监测主机返回的故障检测结果。
11.根据权利要求10所述的装置,其特征在于,所述登录单元具体用于:
使所述监测方通过安全外壳协议或远程终端协议远程登录所述被监测主机。
12.根据权利要求10所述的装置,其特征在于,所述调用单元具体用于:
使所述监测方调用所述被监测主机上的故障检测指令;
或者,使所述监测方通过所述被监测主机调用预设对象处的故障检测指令。
13.根据权利要求10所述的装置,其特征在于,所述故障检测命令包括:预定义的壳命令。
14.根据权利要求10所述的装置,其特征在于,所述故障检测结果包含按照预定义文本结构进行整理的一条或多条文本信息,所述文本信息由所述被监测主机按照所述预定义文本结构对检测结果信息进行规整化而得到;所述装置还包括:
解析单元,使所述监测方解析所述故障检测结果包含的文本信息,以得到相应的检测结果信息。
15.根据权利要求14所述的装置,其特征在于,当所述故障检测结果包含多条文本信息时,所述多条文本信息来源于一个或多个被调用的故障检测命令对应的检测结果信息。
16.根据权利要求10所述的装置,其特征在于,所述被监测主机包括以下至少之一:
云计算平台中的物理机、虚拟机、容器。
17.根据权利要求10所述的装置,其特征在于,所述监测方为专用监测设备。
18.根据权利要求10所述的装置,其特征在于,所述监测方为位于所述被监测主机的上一层级的另一被监测主机;所述装置还包括:
返回单元,使所述监测方将所述故障检测结果返回至自身上一层级的电子设备,该电子设备为专用监测设备或又一被监测主机。
19.一种故障解析方法,其特征在于,包括:
监测方远程登录被监测主机;
所述监测方调用故障解析命令,以使所述被监测主机执行故障解析操作;
所述监测方接收所述被监测主机返回的故障解析结果。
20.一种故障解析装置,其特征在于,包括:
登录单元,使监测方远程登录被监测主机;
调用单元,使所述监测方调用故障解析命令,以使所述被监测主机执行故障解析操作;
接收单元,使所述监测方接收所述被监测主机返回的故障解析结果。
CN201810752323.4A 2018-07-10 2018-07-10 故障检测方法、故障解析方法及装置 Active CN110708180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810752323.4A CN110708180B (zh) 2018-07-10 2018-07-10 故障检测方法、故障解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810752323.4A CN110708180B (zh) 2018-07-10 2018-07-10 故障检测方法、故障解析方法及装置

Publications (2)

Publication Number Publication Date
CN110708180A true CN110708180A (zh) 2020-01-17
CN110708180B CN110708180B (zh) 2023-01-06

Family

ID=69192340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810752323.4A Active CN110708180B (zh) 2018-07-10 2018-07-10 故障检测方法、故障解析方法及装置

Country Status (1)

Country Link
CN (1) CN110708180B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766382A (zh) * 2022-10-21 2023-03-07 济南浪潮数据技术有限公司 一种基于云计算平台的巡检方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030022666A1 (en) * 2001-07-25 2003-01-30 Kazuhiko Sato Apparatus and method for network management, communication apparatus, and network system
CN104300681A (zh) * 2014-10-14 2015-01-21 许继电气股份有限公司 一种智能变电站的站级设备节点状态监测方法
CN104935621A (zh) * 2014-03-20 2015-09-23 中芯国际集成电路制造(上海)有限公司 一种远程监控系统及远程监控方法
CN105577799A (zh) * 2015-12-25 2016-05-11 北京奇虎科技有限公司 一种数据库集群的故障检测方法和装置
CN107092549A (zh) * 2017-04-26 2017-08-25 郑州云海信息技术有限公司 一种自动监控并解析内存故障的工具及方法
JP2017195450A (ja) * 2016-04-19 2017-10-26 日本電気株式会社 通信装置および通信方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030022666A1 (en) * 2001-07-25 2003-01-30 Kazuhiko Sato Apparatus and method for network management, communication apparatus, and network system
CN104935621A (zh) * 2014-03-20 2015-09-23 中芯国际集成电路制造(上海)有限公司 一种远程监控系统及远程监控方法
CN104300681A (zh) * 2014-10-14 2015-01-21 许继电气股份有限公司 一种智能变电站的站级设备节点状态监测方法
CN105577799A (zh) * 2015-12-25 2016-05-11 北京奇虎科技有限公司 一种数据库集群的故障检测方法和装置
JP2017195450A (ja) * 2016-04-19 2017-10-26 日本電気株式会社 通信装置および通信方法
CN107092549A (zh) * 2017-04-26 2017-08-25 郑州云海信息技术有限公司 一种自动监控并解析内存故障的工具及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766382A (zh) * 2022-10-21 2023-03-07 济南浪潮数据技术有限公司 一种基于云计算平台的巡检方法、系统、设备及介质

Also Published As

Publication number Publication date
CN110708180B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
US10560465B2 (en) Real time anomaly detection for data streams
WO2022016847A1 (zh) 一种适用于云平台的自动化测试方法及装置
WO2018171578A1 (en) Service graph based serverless cloud platform
US20180295029A1 (en) Managing groups of servers
WO2016184175A1 (zh) 数据库处理方法及装置
US10798218B2 (en) Environment isolation method and device
JP2019517040A (ja) クラウドプラットフォームベースのクライアントアプリケーション情報統計方法および装置
US20150236799A1 (en) Method and system for quick testing and detecting mobile devices
CN105991694B (zh) 一种实现分布式服务调用的方法与设备
CN104580406A (zh) 一种同步登录状态的方法和装置
WO2023030417A1 (zh) 报文处理方法、设备、存储介质及计算机程序产品
CN113467970B (zh) 云计算系统中的跨安全区域的资源访问方法及电子设备
CN111258851A (zh) 一种集群的告警方法、装置、设置及存储介质
US20160366041A1 (en) Virtual Probes
US8326913B2 (en) Method and system for service contract discovery
CN116055524A (zh) 用于互联网平台与物联网设备的交互方法、处理器及装置
CN114598749B (zh) 一种服务访问方法及装置
US10599505B1 (en) Event handling system with escalation suppression
CN114363334B (zh) 云系统及云桌面虚拟机的网络配置方法、装置及设备
CN116303309A (zh) 文件挂载方法、装置和电子设备
CN110708180B (zh) 故障检测方法、故障解析方法及装置
CN113518002B (zh) 一种基于无服务器平台的监控方法、装置、设备及存储介质
CN112994934B (zh) 数据交互方法、装置及系统
CN114218046A (zh) 一种业务监控方法、介质、电子设备及可读存储介质
CN106790521B (zh) 采用基于ftp的节点设备进行分布式组网的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant