CN105183619A - 一种系统故障预警方法和系统 - Google Patents

一种系统故障预警方法和系统 Download PDF

Info

Publication number
CN105183619A
CN105183619A CN201510634318.XA CN201510634318A CN105183619A CN 105183619 A CN105183619 A CN 105183619A CN 201510634318 A CN201510634318 A CN 201510634318A CN 105183619 A CN105183619 A CN 105183619A
Authority
CN
China
Prior art keywords
node equipment
relevant
label
equipment
malfunctioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510634318.XA
Other languages
English (en)
Other versions
CN105183619B (zh
Inventor
郭磊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510634318.XA priority Critical patent/CN105183619B/zh
Publication of CN105183619A publication Critical patent/CN105183619A/zh
Application granted granted Critical
Publication of CN105183619B publication Critical patent/CN105183619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种系统故障预警方法和系统,以对系统中故障节点设备快速、有效的预警。所述的方法包括:获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;依据所述告警类型确定所述故障节点设备对应的相关节点设备;对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。

Description

一种系统故障预警方法和系统
技术领域
本发明涉及计算机软件技术领域,特别是涉及一种系统故障预警方法和一种系统故障预警系统。
背景技术
分布式系统(DistributedSystem)是建立在网络之上的软件系统。在分布式系统中,特别是大型分布式系统,如Hadoop集群系统,通过预先设置监控阈值,然后,对系统节点服务器进行周期性的监控,当监控指标达到监控阈值时,对系统节点服务器进行故障预警。
但是,这种系统节点故障预警方式只有在监控指标达到预置阈值时,才能对系统节点服务器进行故障预警。一方面,当系统节点服务器已经存在故障,但监控指标尚未达到监控阈值时,无法对节点服务器故障进行有效的预警,从而影响系统的正常运行,例如,当集群中某个节点服务器的磁盘出现坏道故障时节点服务器的吞吐量将会下降,但未达到预先设置的监控指标,系统则无法发出节点服务器故障预警。另一方面,由于无法通过系统告警快速的发现已发生故障的节点,使得故障节点得不到及时的维护,从而影响系统的稳定运行。
发明内容
本发明实施例所要解决的技术问题是提供一种系统故障预警方法,以对系统中故障节点设备快速、有效的预警。
相应的,本发明实施例还提供了一种系统故障预警系统,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种系统故障预警方法,包括:获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;依据所述告警类型确定所述故障节点设备对应的相关节点设备;对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
可选的,在获取故障节点设备的告警信息之前,还包括:将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
可选的,依据所述告警类型确定所述故障节点设备对应的相关节点设备,包括:依据所述告警类型确定所述故障节点设备的至少一种标签;针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
可选的,对所述相关节点设备进行检测,包括:针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;分别对所述性能检测项进行检测,确定所述性能检测项的检测值;检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
可选的,对所述相关节点设备进行检测之前,还包括:在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备进行检测的步骤。
可选的,对检测异常的相关节点设备进行故障预警,包括:对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
本发明实施例还公开了一种故障预警系统,包括:告警获取模块,用于获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;相关节点检测模块,用于依据所述告警类型确定所述故障节点设备对应的相关节点设备;预警模块,用于对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
可选的,还包括:标签标注模块,用于将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
可选的,所述告警获取模块,包括:标签获取子模块,用于依据所述告警类型确定所述故障节点设备的至少一种标签;相关节点查找子模块,用于针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
可选的,所述预警模块,包括:检测项确定子模块,用于针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;检测值确定子模块,用于分别对所述性能检测项进行检测,确定所述性能检测项的检测值;异常检测子模块,用于检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
可选的,所述异常检测子模块,还用于在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备的检测。
可选的,所述预警模块,包括:故障预警子模块,用于对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
与现有技术相比,本发明实施例包括以下优点:
通过获取的故障节点设备的告警信息,从所述告警信息中获取告警类型,然后依据告警类型确定所述故障节点设备对应的相关节点设备,对所述相关节点设备进行检测,能够在一个节点设备出现故障时主动对与其相关的其他节点设备进行检测,从而对检测异常的相关节点设备进行故障预警,有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。
附图说明
图1是本发明的一种系统故障预警方法实施例的步骤流程图;
图2是本发明的另一种系统故障预警方法实施例的步骤流程图;
图3是本发明实施例中对集群系统的预警检测示意图;
图4是本发明一种故障预警系统实施例的结构框图;
图5是本发明另一种故障预警系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,提供一种系统故障预警方法,以对系统中故障节点设备快速、有效的预警。通过获取的故障节点设备的告警信息,从所述告警信息中获取告警类型,然后依据告警类型确定所述故障节点设备对应的相关节点设备,对所述相关节点设备进行检测,能够在一个节点设备出现故障时主动对与其相关的其他节点设备进行检测,从而对检测异常的相关节点设备进行故障预警,有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。
实施例一
参照图1,示出了本发明的一种系统故障预警方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102,获取系统中故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型。
在集群系统运行过程中,为了能够及时发现系统的问题,防止出现由于较多设备故障才告警而此时系统已无法运行的问题。本实施例在系统中任一节点设备发生故障后,故障的节点设备会自动发出告警信息,其中该告警信息用于告知节点设备的故障以进行系统预警,告警信息中包括:故障节点设备的告警类型,告警类型用于标识节点设备的属性信息,以便于后续确定同种属性的其他节点设备是否也发生故障或存在故障可能从而提前对系统进行预警,保证系统的正常稳定运行。因此获取到该告警信息后,可以从告警信息中获取故障节点设备的告警类型。本实施例所述的节点设备可以包括集群系统中的服务器等设备。
步骤104,依据所述告警类型确定所述故障节点设备对应的相关节点设备。
系统中的具有相同属性的节点设备存在共性,例如同一厂家生产的设备,又如类型相同的设备等,因此可以将具有相同属性的节点设备作为相关节点设备,可以依据告警类型确定属性,从而查找具有该属性的其他节点设备作为故障节点设备对应的相关节点设备。
步骤106,对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
本实施例中主动对相关节点设备进行检测,以检测相关节点设备是否存在同类隐患,从而提前预警。例如可以调用系统中的主动检测工具对相关节点设备进行主动检测,其中可以依据告警类型确定主动检测的项目,例如故障节点设备是CPU出现故障,则可以检测其他设备的CPU利用率等CPU相关性能,通过主动检测确定相关节点设备是否出现异常,例如若CPU利用率过高,则认为相关节点设备异常,可以在系统中进行预警。使得系统尽早发现问题,防止问题堆积最终影响系统的正常运行。
综上,通过获取的故障节点设备的告警信息,从所述告警信息中获取告警类型,然后依据告警类型确定所述故障节点设备对应的相关节点设备,对所述相关节点设备进行检测,能够在一个节点设备出现故障时主动对与其相关的其他节点设备进行检测,从而对检测异常的相关节点设备进行故障预警,有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。
实施例二
在上述实施例的基础上,本实施例详细论述基于故障节点设备对系统进行预警的方法。
参照图2,示出了本发明的另一种系统故障预警方法实施例的步骤流程图。
步骤202,将具有相同配置信息的节点设备标注相同类型的标签。
本实施例可以预先为系统中的节点设备标注标签,以便后续确定相关节点设备,其中,标签的标注方式包括静态标注和/或动态标注。
静态标注即依据节点设备的静态属性标注标签,即可以确定节点设备的配置信息,配置信息是节点设备的固有属性,依据配置信息为节点设备设置标签,将具有相同配置信息的节点设备标注相同类型的标,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息。
其中,硬件配置信息包括:设备类型、性能参数、购买厂商、采购批次等,网络架构信息指的是集群中设备的的网络拓扑信息,如包括每台节点设备如服务器连接到哪台交换机、交换机之间的带宽和连接、是否跨机房等。通过确定配置信息即可确定标注的标签,如基于网络架构信息,处于同一个机架的服务器是相关的,即标注相同标签;处于同一个交换机下的服务器是相关的,即标注相同标签;处于同一个数据中心的服务器是相关的,即标注相同标签。又如基于硬件配置信息,同一厂商同一批次的服务器是相关的,即标注相同标签;具有相同容量和性能参数的服务器是相关的,即标注相同标签。
步骤204,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
标签还可以采用动态标注的方式,即通过统计的方法,收集第一时间阈值内发生故障的节点设备的故障信息,故障信息包括节点设备的故障类型等信息,即记录一段时间内故障告警的服务器(一种节点设备)及故障类型,然后对故障信息进行统计分析所述发生故障的节点设备的关联关系,例如分析这些服务器是否经常同时或先后发生故障,如果是确认这些服务器具有关联关系,将具有关联关系的节点设备标注相同类型的标签。
本实施例中,每一个节点设备可以标注一种或多种类型的标签,对节点设备标注标签的方法也很多,本实施例对此不做限定。
步骤206,获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型。
在系统中任一节点设备发生故障后,故障的节点设备会自动发出告警信息,其中该告警信息用于告知节点设备的故障以进行系统预警,告警信息中包括:故障节点设备的告警类型,告警类型用于标识节点设备的属性信息,以便于后续确定同种属性的其他节点设备是否也发生故障或存在故障可能从而提前对系统进行预警,保证系统的正常稳定运行。因此获取到该告警信息后,可以从告警信息中获取故障节点设备的告警类型。如图2,告警接收装置接收系统故障节点设备的告警信息,并将告警信息存储在告警信息库中。因此,从告警信息库中获取故障节点设备的告警信息。
步骤208,依据所述告警类型确定所述故障节点设备的至少一种标签。
步骤210,针对每种标签,在系统中查找具有所述标签的节点设备,确定所述故障节点设备对应的相关节点设备。
本实施例预先对节点设备的标签进行了标注,此后在节点设备出现故障上传告警信息后,可以依据告警类型获取相应的标签,例如,对于磁盘/网卡等硬件故障告警,可能与配置信息有关,因此可以查找相关配置信息的标签,又如性能有关的告警,如RPC时间,可能与机架的相关节点有关,因此可以查找网络架构相关的标签,又如应用相关的告警,如GC次数等,可能与相同应用的相关节点有关,可以查找配置信息相关的标签,上述各种告警均可以查找动态标注的标签。
针对每种标签,在集群系统中查找具有所述标签的节点设备,将与故障节点设备具有相同标签的节点设备作为相关节点设备。
步骤212,在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值。
为了防止频繁的检测影响集群系统的运行,本实施例可以在第二时间阈值内对各故障节点设备的标签进行分类统计,确定每种标签的数量即标签类型相同的故障节点设备的数量,然后检测标签类型相同的故障节点设备的数量是否超过检测阈值,若是,即标签类型相同的故障节点设备的数量达到检测阈值,则执行步骤214;若否,即标签类型相同的故障节点设备的数量为达到检测阈值,则返回步骤212继续收集检测。
其中,检测阈值可以看作是执行主动检测的门限,用于对主动检测进行判断,即确定当前故障的节点设备是否足以引起对相关节点设备的主动检测。
即在集群系统有告警发生时,可以触发一次主动检测决策判断,即记录故障节点设备的告警类型,确定相关节点设备。当在一定时间内(第二时间阈值内)发生同类告警的故障节电设备的数目超过阈值时,则触发对相关节点设备的主动检测。
步骤214,针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项。
步骤216,分别对所述性能检测项进行检测,确定所述性能检测项的检测值。
为了防止集群系统由于大量设备故障而导致运行出现问题,在检测出故障节点设备的相关节点设备后,可以调用对应的主动检测工具对相关节点设备进行主动探测,以主动检测故障节点设备的相关节点设备是否出现异常,从而在其异常时提起进行预警,确保集群系统的稳定运行。
因此,针对每个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项,从而根据故障节点设备的故障类型进行检测,故障节点设备是网络相关故障,检测项可以包括网络延时、带宽等,则对相关节点的网络延时、带宽等进行检测。又如故障节点设备是硬件付账,则检测项可以包括CPU利用率、内存利用情况、IO吞吐量等,则对相关节点的CPU利用率、内存利用情况、IO吞吐量等进行检测。分别对每种性能检测项进行检测后,可以确定所述性能检测项的检测值。
步骤218,检测所述检测值是否在所述性能检测项的正常范围内。
为了确定相关节点设备是否异常,可以检测每个检测值是否在其对应性能检测项的正常范围内。
若是,即检测值均在所述性能检测项的正常范围内,则无需执行其他处理,可以返回步骤218继续检测。若否,即任一检测值不在所述性能检测项的正常范围内,则执行步骤220。
步骤220,相关节点设备异常。
若某一相关节点设备的任一检测值不在所述性能检测项的正常范围内,可以确定该相关节点设备出现异常。可以理解的是设备异常包括设备的某些性能出现异常,但该异常并未导致该节点设备故障。
步骤222,对检测异常的相关节点设备进行统计,确定异常的相关节点设备的数量。
步骤224,检测异常的相关节点设备的数量是否达到故障预警阈值。
对检测异常的相关节点设备进行统计,例如在通过检测项确定节点设备异常时,可以通过计数器等进行统计,确定异常的相关节点设备的数量。检测异常的相关节点设备的数量是否达到故障预警阈值,若是,即异常的相关节点设备的数量达到故障预警阈值,则执行步骤226。若否,即异常的相关节点设备的数量未达到故障预警阈值,则返回步骤224继续检测。
其中,故障预警阈值作为对集群系统执行预警门限,用于对确定故障预警执行与否。
步骤226,故障预警。
异常的相关节点设备的数量达到故障预警阈值,可以在进群系统中执行故障预警,使得集群系统可以基于该预警执行相应操作,例如调整节点设备的运行,执行主、备调换等预警操作,防止集群上运行的任务由于bug或使用不当,而造成节点设备的网卡打满或占用较大的内存的问题的出现,并且通过预警能够在该任务对系统造成实际大面积(如对多个节点设备)影响发生前,无法做出有效的预警。
例如,在集群中某个节点的磁盘出现故障(坏道等)时节点吞吐量下降,虽然此时未达到现有的整体指标中设定的阈值,但本发明实施例依然可以基于该故障发起主动检测,从而执行预警,有效稳定系统的运行。
如图3所示,是本发明实施例中对集群系统的预警检测示意图,集群系统运行过程中,当集群系统中出现故障节点设备时可以生成告警信息发送给相应的告警接收装置,告警接收装置将告警信息存入到告警信息库中。后续节点相关性分析装置可以从告警信息库中读取告警信息,然后从配置信息库中读取配置信息如节点设备的标签,基于告警信息和标签分析节点的相关性,将分析结果存入到相关性分析库中。此后,告警接收装置还可以调用主动检测决策装置确定是否需要执行主动检测,主动检测决策装置从相关性分析库获取相关节点设备,在确定需要执行主动检测时可以调用主动检测工具对集群系统进行主动检测,主动检测工具对进群执行主动检测后生成主动检测结果,返回给主动检测决策装置,主动检测决策装置依据该主动检测结果确定是否需要执行预警,若需要则主动预警告警接收装置,然后告警接收装置对集群系统进行告警,使得集群系统能够及时进行预警操作,保证系统的稳定运行。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
在上述实施例的基础上,本实施例还提供了一种故障预警系统。
参照图4,示出了本发明一种故障预警系统实施例的结构框图,具体可以包括如下模块:
告警获取模块402,用于获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型。
相关节点检测模块404,用于依据所述告警类型确定所述故障节点设备对应的相关节点设备。
预警模块406,用于对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
综上,通过获取的故障节点设备的告警信息,从所述告警信息中获取告警类型,然后依据告警类型确定所述故障节点设备对应的相关节点设备,对所述相关节点设备进行检测,能够在一个节点设备出现故障时主动对与其相关的其他节点设备进行检测,从而对检测异常的相关节点设备进行故障预警,有效对系统内设备进行维护并预警,保证系统的正常、稳定运行。
参照图5,示出了本发明另一种故障预警系统实施例的结构框图,具体可以包括如下模块:
标签标注模块508,用于将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
告警获取模块502,用于获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型。
相关节点检测模块504,用于依据所述告警类型确定所述故障节点设备对应的相关节点设备。
预警模块506,用于对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
本发明一个可选实施例中,所述告警获取模块502,包括:标签获取子模块50202,用于依据所述告警类型确定所述故障节点设备的至少一种标签;相关节点查找子模块50204,用于针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
所述预警模块506,包括:检测项确定子模块50602,用于针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;检测值确定子模块50604,用于分别对所述性能检测项进行检测,确定所述性能检测项的检测值;异常检测子模块50606,用于检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
所述异常检测子模块50606,还用于在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备的检测。
所述预警模块506,包括:故障预警子模块50608,用于对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种系统故障预警方法和一种故障预警系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种系统故障预警方法,其特征在于,包括:
获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;
依据所述告警类型确定所述故障节点设备对应的相关节点设备;
对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
2.根据权利要求1所述的方法,其特征在于,在获取故障节点设备的告警信息之前,还包括:
将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或
收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
3.根据权利要求2所述的方法,其特征在于,依据所述告警类型确定所述故障节点设备对应的相关节点设备,包括:
依据所述告警类型确定所述故障节点设备的至少一种标签;
针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
4.根据权利要求3所述的方法,其特征在于,对所述相关节点设备进行检测,包括:
针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;
分别对所述性能检测项进行检测,确定所述性能检测项的检测值;
检测所述检测值是否在所述性能检测项的正常范围内;
若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
5.根据权利要求4所述的方法,其特征在于,对所述相关节点设备进行检测之前,还包括:
在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;
若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备进行检测的步骤。
6.根据权利要求5所述的方法,其特征在于,对检测异常的相关节点设备进行故障预警,包括:
对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
7.一种故障预警系统,其特征在于,包括:
告警获取模块,用于获取故障节点设备的告警信息,从所述告警信息中获取所述故障节点设备的告警类型;
相关节点检测模块,用于依据所述告警类型确定所述故障节点设备对应的相关节点设备;
预警模块,用于对所述相关节点设备进行检测,对检测异常的相关节点设备进行故障预警。
8.根据权利要求7所述的系统,其特征在于,还包括:
标签标注模块,用于将具有相同配置信息的节点设备标注相同类型的标签,其中,所述配置信息包括节点设备的硬件配置信息和网络架构信息;和/或,收集第一时间阈值内发生故障的节点设备的故障信息,依据所述故障信息统计分析所述发生故障的节点设备的关联关系,将具有关联关系的节点设备标注相同类型的标签。
9.根据权利要求8所述的系统,其特征在于,所述告警获取模块,包括:
标签获取子模块,用于依据所述告警类型确定所述故障节点设备的至少一种标签;
相关节点查找子模块,用于针对每种标签,在系统中查找具有所述标签的节点设备,将所述节点设备作为所述故障节点设备对应的相关节点设备。
10.根据权利要求9所述的系统,其特征在于,所述预警模块,包括:
检测项确定子模块,用于针对每一个相关节点设备,分别获取所述相关节点设备的每一种标签对应的性能检测项;
检测值确定子模块,用于分别对所述性能检测项进行检测,确定所述性能检测项的检测值;
异常检测子模块,用于检测所述检测值是否在所述性能检测项的正常范围内;若任一检测值不在所述性能检测项的正常范围内,则所述相关节点设备异常。
11.根据权利要求10所述的系统,其特征在于,
所述异常检测子模块,还用于在第二时间阈值内,检测标签类型相同的故障节点设备的数量是否达到检测阈值;若标签类型相同的故障节点设备的数量达到所述检测阈值,则执行对所述相关节点设备的检测。
12.根据权利要求11所述的方法,其特征在于,所述预警模块,包括:
故障预警子模块,用于对检测异常的相关节点设备进行统计,当所述检测异常的相关节点设备的数量达到故障预警阈值时,执行故障预警。
CN201510634318.XA 2015-09-29 2015-09-29 一种系统故障预警方法和系统 Active CN105183619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510634318.XA CN105183619B (zh) 2015-09-29 2015-09-29 一种系统故障预警方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510634318.XA CN105183619B (zh) 2015-09-29 2015-09-29 一种系统故障预警方法和系统

Publications (2)

Publication Number Publication Date
CN105183619A true CN105183619A (zh) 2015-12-23
CN105183619B CN105183619B (zh) 2018-03-27

Family

ID=54905711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510634318.XA Active CN105183619B (zh) 2015-09-29 2015-09-29 一种系统故障预警方法和系统

Country Status (1)

Country Link
CN (1) CN105183619B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106571965A (zh) * 2016-11-07 2017-04-19 成都科曦科技有限公司 一种用于酒店设备故障自检、互检反馈的监测展示系统及方法
CN107465575A (zh) * 2017-08-17 2017-12-12 郑州云海信息技术有限公司 一种集群的监控方法及系统
CN108306747A (zh) * 2017-01-11 2018-07-20 阿里巴巴集团控股有限公司 一种云安全检测方法、装置和电子设备
CN110000815A (zh) * 2019-04-09 2019-07-12 深圳前海达闼云端智能科技有限公司 一种碰撞检测方法、装置、电子设备及存储介质
CN110601875A (zh) * 2019-08-15 2019-12-20 平安普惠企业管理有限公司 信息输出方法、装置、管理设备及计算机可读存储介质
CN110690699A (zh) * 2019-07-30 2020-01-14 国网浙江省电力有限公司嘉兴供电公司 一种基于泛在电力物联网的变电站智慧检测系统
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN115225460A (zh) * 2022-07-15 2022-10-21 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050188240A1 (en) * 2003-12-19 2005-08-25 Brendan Murphy Determination of related failure events in a multi-node system
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
US20140156832A1 (en) * 2011-05-04 2014-06-05 Microsoft Corporation Monitoring the health of distributed systems
CN104244293A (zh) * 2013-06-06 2014-12-24 中国移动通信集团广东有限公司 网络节点告警方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050188240A1 (en) * 2003-12-19 2005-08-25 Brendan Murphy Determination of related failure events in a multi-node system
US20140156832A1 (en) * 2011-05-04 2014-06-05 Microsoft Corporation Monitoring the health of distributed systems
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN104244293A (zh) * 2013-06-06 2014-12-24 中国移动通信集团广东有限公司 网络节点告警方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106571965A (zh) * 2016-11-07 2017-04-19 成都科曦科技有限公司 一种用于酒店设备故障自检、互检反馈的监测展示系统及方法
CN108306747A (zh) * 2017-01-11 2018-07-20 阿里巴巴集团控股有限公司 一种云安全检测方法、装置和电子设备
CN107465575A (zh) * 2017-08-17 2017-12-12 郑州云海信息技术有限公司 一种集群的监控方法及系统
CN110000815A (zh) * 2019-04-09 2019-07-12 深圳前海达闼云端智能科技有限公司 一种碰撞检测方法、装置、电子设备及存储介质
CN110000815B (zh) * 2019-04-09 2022-03-01 达闼机器人有限公司 一种碰撞检测方法、装置、电子设备及存储介质
CN110690699A (zh) * 2019-07-30 2020-01-14 国网浙江省电力有限公司嘉兴供电公司 一种基于泛在电力物联网的变电站智慧检测系统
CN110601875A (zh) * 2019-08-15 2019-12-20 平安普惠企业管理有限公司 信息输出方法、装置、管理设备及计算机可读存储介质
CN110601875B (zh) * 2019-08-15 2022-08-19 平安普惠企业管理有限公司 信息输出方法、装置、管理设备及计算机可读存储介质
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113010375B (zh) * 2021-02-26 2023-03-28 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN115225460A (zh) * 2022-07-15 2022-10-21 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质
CN115225460B (zh) * 2022-07-15 2023-11-28 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN105183619B (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN105183619A (zh) 一种系统故障预警方法和系统
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN112653586B (zh) 基于全链路监控的时空大数据平台应用性能管理方法
CN107171819B (zh) 一种网络故障诊断方法及装置
US10177984B2 (en) Isolation of problems in a virtual environment
US9122784B2 (en) Isolation of problems in a virtual environment
WO2015090098A1 (zh) 一种实现故障定位的方法及装置
CN105243004A (zh) 一种故障资源检测方法及装置
Bhaduri et al. Detecting abnormal machine characteristics in cloud infrastructures
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN107592223A (zh) 一种基于大数据的智能告警处理方法
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
CN114780335A (zh) 监测数据的关联方法、装置、计算机设备和存储介质
CN106487597A (zh) 一种基于Zookeeper的服务监控系统和方法
CN107548087A (zh) 一种告警关联分析的方法及装置
CN115102834A (zh) 一种变更风险评估方法、设备及存储介质
CN101252477B (zh) 一种网络故障根源的确定方法及分析装置
US20230004487A1 (en) System and method for anomaly detection and root cause automation using shrunk dynamic call graphs
JP7082285B2 (ja) 監視システム、監視方法および監視プログラム
CN115529219A (zh) 告警分析方法、装置、计算机可读存储介质及电子设备
CN112363893B (zh) 时序指标异常检测方法、设备及装置
CN113312197A (zh) 批量故障的确定方法和装置,计算机存储介质和电子设备
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant