CN102546205B - 一种故障关系生成及故障确定方法及装置 - Google Patents

一种故障关系生成及故障确定方法及装置 Download PDF

Info

Publication number
CN102546205B
CN102546205B CN201010597571.XA CN201010597571A CN102546205B CN 102546205 B CN102546205 B CN 102546205B CN 201010597571 A CN201010597571 A CN 201010597571A CN 102546205 B CN102546205 B CN 102546205B
Authority
CN
China
Prior art keywords
node
fault
alert
alert event
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010597571.XA
Other languages
English (en)
Other versions
CN102546205A (zh
Inventor
张志宏
孙少陵
周伟
赵鹏
罗治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201010597571.XA priority Critical patent/CN102546205B/zh
Publication of CN102546205A publication Critical patent/CN102546205A/zh
Application granted granted Critical
Publication of CN102546205B publication Critical patent/CN102546205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种故障关系生成及故障确定方法及装置,用以解决系统结构复杂,无法进行故障定位的问题。该方法根据报警事件发生的时间,确定该报警事件对应故障的每个有效期信息,并确定在每个有效期内发生的其他报警事件,将每个报警事件作为故障关系中的节点,连接该报警事件对应的节点到其导致的该确定的其他报警时间对应的节点的路径从而生成故障关系。由于在本发明实施例中根据在报警事件的有效期内发生的其他报警事件,从而确定报警事件与其他报警事件之间的关系,因此在进行故障定位时可以根据生成的故障关系进行故障定位,从而为复杂的系统提供了一种有效,准确的故障定位方法。

Description

一种故障关系生成及故障确定方法及装置
技术领域
本发明涉及业务支撑技术领域,尤其涉及一种故障关系生成及故障确定方法及装置。
背景技术
云计算系统是利用大规模低成本运算单元通过复杂的IP网络相连所组成的,提供运算服务的运算系统。图1为现有云计算系统的垂直分层结构示意图,云计算系统由底层向高层依次包括:网络层、物理服务器层、操作系统层、云计算平台层以及云计算应用层。
云计算系统规模庞大,通常包括上千个服务器节点,并且云计算系统的底层为性能较差的商业服务器节点,其故障率较高。同时云计算系统以分布式计算模型为主,即一个应用包含多个服务器之间的网络交互和协同工作,因此当云计算系统中某一服务器节点出现故障时,与其相关的服务器节点的相应部件也要受到影响出现故障。并且对于云计算系统由于其各个层次之间也存在依赖关系,不同层次之间的服务器节点的故障也会相互影响。因此如何在云计算系统中确定故障的根源成为一个比较棘手的问题。另外,对于其他结构比较复杂的系统,在进行定位时也存在与云计算系统相同的问题。
现有技术在确定故障的根源时,可以基于网络设备之间的物理连接关系,其主要过程包括:对各个网络设备的故障进行轮询,根据轮询的结果,将相互之间存在物理连接关系的网络设备所在的区域称为故障区域,在确定的故障区域内,根据每个故障的网络设备与其他网络设备之间的物理连接关系,确定该故障区域内的故障根源。
上述确定故障的方法中,基于网络设备之间的物理连接关系确定,该方法只能解决通信设备层面的问题,而对于结构比较复杂的系统,例如云计算系统由于其包括上千个服务器节点,连接关系非常复杂,并且位于不同层面的服务器之间也是相互关联的。因此可知对于系统中这种在不同服务器节点之间,以及同一服务器节点的不同层面之间都具有复杂的相关性,因此基于上述网络设备确定故障的方法无法应用到该系统中。
另外,在现有技术中还可以确定软件中的故障,具体包括:根据链接时的优化器,获取静态控制依赖信息,并根据动态插装可执行程序,搜集动态执行轨迹信息;解析搜集到的轨迹信息,得到动态依赖关系;再根据保存的动态依赖关系的可疑度公式,计算得到的每个动态依赖关系的可疑度;然后将可疑度的值映射到程序的可执行语句上,并将各语句按照可疑度的大小进行降序排列,输出软件故障定位的报告。
上述确定软件中的故障的方法,由于其只能用于对软件进行故障定位,也就是说只能用于对单个软件内部进行故障的定位,因此无法适用于确定整个系统中的故障。
发明内容
有鉴于此,本发明实施例提供一种故障关系生成及故障确定方法及装置,用以解决无法在系统中进行故障定位的问题。
本发明实施例提供的一种故障关系生成方法,包括:
根据该报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的故障类型信息与时间范围信息的对应关系,确定该报警事件对应的故障的有效期信息;并
根据确定的有效期信息,确定发生时间处于该有效期内的其他报警事件;
将每个报警事件作为故障关系中的节点,分别连接该报警事件对应的节点到确定的其他报警事件对应的节点的路径。
本发明实施例提供的一种基于上述生成的故障关系进行故障确定的方法,包括:
根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
根据查找到的节点,逆向路径查找到达该节点的每条路径,根据每条路径上的节点对应的报警事件进行故障定位。
本发明实施例提供的一种基于上述生成的故障关系确定报警事件的扩散范围的方法,包括:
根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
根据查找到的节点,顺次查找以该节点为起点的每条路径,根据每条路径上的节点对应的报警事件,确定该报警事件的扩散范围。
本发明实施例提供的一种云计算系统中故障关系生成装置,包括:
第一确定模块,用于根据报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的故障类型信息与时间范围信息的对应关系,确定该报警事件对应的故障的有效期信息,并根据确定的有效期信息,确定发生时间在该有效期内的其他报警事件;
生成模块,用于将每个报警事件作为故障关系中的节点,分别连接该报警事件对应的节点到确定的其他报警事件对应的节点的路径。
本发明实施例提供的一种基于上述生成装置的故障确定装置,包括:
第一查找模块,用于根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
第一确定模块,用于根据查找到的节点,逆向路径查找到达该节点的每条路径,根据每条路径上的节点对应的报警事件进行故障定位。
本发明实施例提供的基于上述生成装置的确定报警事件的扩散范围的装置,所述装置包括:
第二查找模块,用于根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
第二确定模块,用于根据查找到的节点,顺次查找以该节点为起点的每条路径,根据每条路径上的节点对应的报警事件,确定该报警事件的扩散范围。
本发明实施例提供了一种故障关系生成及故障确定方法及装置,该故障关系生成方法中根据报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的对应该故障类型的时间范围信息,确定该报警事件对应故障的有效期信息,并确定发生时间处于该有效期内的其他报警事件,将每个报警事件作为故障关系中的节点,连接该报警事件对应的节点到确定的该其他报警事件对应的节点的路径从而生成故障关系。由于在本发明实施例中根据在报警事件的有效期内发生的其他报警事件,从而确定报警事件与其他报警事件之间的关系,因此在进行故障定位时可以根据生成的故障关系进行故障定位,从而为复杂的系统提供了一种有效,准确的故障定位方法。
附图说明
图1为现有云计算系统的垂直分层结构示意图;
图2为本发明实施例提供的故障关系生成过程;
图3为本发明实施例提供的针对每个报警事件,确定该报警事件与其他报警时间之间的依赖关系的过程;
图4为本发明实施例提供的根据报警事件之间的故障关系参数确定的故障关系表的示意图;
图5为本发明实施例提供的基于该生成的故障关系表确定故障的过程;
图6为本发明实施例提供的基于该生成的故障关系表进行故障确定的具体过程;
图7为本发明实施例提供的一种故障关系生成装置的结构示意图;
图8为本发明实施例提供的基于图7所述的生成装置的故障确定装置的结构示意图;
图9为本发明实施例提供的基于图7所述的生成装置确定报警事件的扩散范围的装置的结构示意图。
具体实施方式
本发明实施例中为了准确的在系统中进行故障确定,提供了一种故障关系生成方法,这是由于当主机出现故障时会自动的上报报警事件,其中该报警事件中记录有故障类型信息,而在本发明实施例中针对不同的类型的故障,保存了该故障类型对应的时间范围信息,即认为该类型的故障在该时间范围内会对产生其他故障,从而可以确定该报警事件对应的故障的有效期,在该有效期内发生的其他报警事件就可以认为,该其他报警事件与该报警事件存在故障关系,并且是由该报警事件导致的该其他报警事件,因此根据报警事件之间的故障关系,就可以生成包含各个报警事件的故障关系。结合该故障关系即可对每种报警事件进行故障定位。
下面结合说明书附图,对本发明实施例进行详细说明。
图2为本发明实施例提供的故障关系生成过程,该过程包括以下步骤:
S201:针对每个报警事件执行以下步骤:根据该报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的故障类型信息与时间范围信息的对应关系,确定该报警事件的故障的有效期信息。
当每台主机在运行某个程序,或者该主机的其中某个部件出现故障时,该主机都会上报报警事件,当该主机上报该报警事件时可以记录该报警事件发生的时间,以便后续可以进行故障关系的生成,并且为故障排查提供帮助。
另外在每个报警事件中还可以包括;故障发生的主机的IP地址信息和/或该主机发生故障的对象。其中故障的对象也就是具体的该主机的哪个部件,者哪个应用,或哪个进程。
S202:根据确定的有效期信息,确定发生时间在该有限期内的其他报警事件。
由于在本发明实施例中针对每种故障类型保存了对应该故障类型的时间范围信息,当针对该设定时间长度内的每个报警事件,生成故障关系时,针对每个报警事件,根据该报警事件发生的时间,该报警事件中记录的故障类型信息,以及保存的对应故障类型的时间范围信息,将该每个发生时间作为起点,将该发生时间加上该时间范围信息作为终点,该起点和终点间的时间为每个有效期,则可以统计发生时间在该有效期的其他报警事件。
S203:将每个报警事件作为节点,分别连接该报警事件对应的节点到确定的其他报警事件对应的节点的路径。
具体的在生成故障关系时,将每个报警事件都作为故障关系中的一个节点,当确定第一报警事件的发生导致第二报警事件的发生时,则分别查找第一报警事件和第二报警事件对应的节点,连接第一报警事件对应的节点到其导致的第二报警事件对应的节点的路径,也可以说将该第一报警事件对应的节点作为箭头的起点,将该第二报警事件对应的节点作为箭头的终点,该箭头连接的线路称为一个路径。
本发明实施例在生成云计算系统的故障关系时,对整个系统中的故障根源进行分析,包括分析不同服务器节点之间,以及同一服务器节点的不同层面之间,对系统中的网络、服务器、操作系统以及各应用软件的各维度进行分析,从而准确的确定出的系统中的故障关系。当确定了系统中的故障关系后,当该报警事件中还携带有故障发生的主机的IP地址信息时,还可以确定该每个节点对应的报警事件对应的主机的信息,即针对每个节点保存发生该报警事件的主机的IP地址信息。
由于本发明实施例提供的故障关系生成方法,可以生成系统中各个报警事件的故障关系,对于云计算系统,由于其系统规模庞大,包括上千个服务器节点,而且各个层次之间也存在依赖关系,不同层次之间的服务器节点的故障也会相互影响,因此采用本发明实施例提供的故障关系生成方法,可以用于对结构复杂的云计算系统中的故障关系生成。当对云计算系统中的报警事件进行统计时,认为可以统计到云计算系统中的每个报警事件,或者也可以在具体实现时,将每个报警事件都上报到统一的平台,以便于后续根据报警事件进行故障关系确定。
另外,在本发明实施例中的报警事件是指当系统中的一个部件无法完成其预定的功能时,生成的一个报警事件。在该报警事件中包含故障类型信息。并且在报警事件上报时还会记录该报警事件发生的时间信息,该报警事件发生的时间信息可以是在该报警事件在上报时携带在该报警事件中的,或者当该报警事件的上报是实时的时,也可以认为接收到该报警事件的时间即为该报警事件发生的时间。另外,该报警事件中还携带有故障发生的主机的IP地址信息和或/该主机发生故障的对象,以确定具体是哪台IP地址的主机出现了故障,并且当该报警事件中主机发生故障的对象时,还可以确定该主机具体哪个对象出现了故障。
在本发明实施例中在设定时间长度内会统计到多个报警事件,当该报警事件包含的内容相同时,可以认为该报警事件为同一报警事件,从而可以统计该设定时间长度内每个报警事件发生的次数。当报警事件中携带有时间信息时,出去该时间信息其他信息都相同时,可以认为是同一报警事件。
由于故障发生是存在依赖关系的,因此当某一故障对应的报警事件发生时,该故障导致的其他故障的报警事件会在一定的时间范围内发生,因此根据在每个故障的有效期内发生的其他报警事件,就可以确定报警事件之间的故障关系。具体的报警时间之间的故障关系可以用报警事件之间的故障关系参数来表示,由一种报警事件导致其他报警事件发生的可能性,具体的在确定报警事件之间的故障关系参数时包括:针对每个其他报警事件,统计该其他报警事件在几个有效期内出现,根据统计的该设定时间长度内该报警事件发生的次数,以及该其他报警事件在几个有效期内出现,确定该报警事件发生导致该其他报警事件发生的故障关系参数。
由于在每个有效期内每个其他报警事件只能发生一次,因此针对每个其他报警事件统计其在几个有效期内出现,就可以确定其与该报警事件关联的发生次数,根据该次数,以及该报警事件在该设定时间长度内发生的次数,可以确定该报警事件发生导致该其他报警事件发生的故障关系参数。
如果当某一个报警事件E1的发生,即某一个故障发生,可能导致另一报警事件E2的发生时,则可以认为报警事件E2依赖于报警事件E1,表示为E1->E2。并且报警事件的发生在时间上具有关联性,每个报警事件在一定的时间范围内会存在一定的影响,因此可以确定该报警事件的有效期,例如记为E1.limit,当两个报警事件的发生时间满足,E1.t<E2.t且E2.t-E1.t<E1.limit,则称事件E1和E2具有时间相关性,其中E1.t为报警事件E1发生的时间,E2.t为报警事件E2发生的时间。在确定具有时间相关性的两个报警事件E1和E2之间的依赖关系时,可以用概率来表示,具体为:
PE1>E2=P(E2|E1)=P(E1E2)÷P(E1)
其中,PE1>E2、P(E2|E1)表示报警事件E1导致报警事件E2发生的概率,P(E1E2)表示报警事件E1、报警事件E2同时发生的概率,P(E1)表示报警事件E1发生的概率。
图3为本发明实施例提供的针对每个报警事件,确定该报警事件与其他报警时间之间的依赖关系的过程,该过程包括以下步骤:
S301:根据每个报警事件发生的事时间,统计在设定的时间长度内发生的每个报警事件。
其中每个报警事件中记录有故障类型信息,故障发生的主机的IP地址信息以及该主机发生故障的对象。
S302:并确定在该设定时间长度内,同一报警事件发生的次数。
例如统计到第一报警事件在一个月内发生了10次,第二报警事件在一个月内发生了12次,第三报警事件在一个月内发生了9次。
以下步骤是针对统计到的每种报警事件分别进行的。
S303:针对同一报警事件,根据该报警事件在该设定时间长度内每次发生的时间,该报警事件中记录的故障类型信息,以及保存的对应该故障类型的时间范围信息,确定该故障的每个有效期信息。
对于第一报警事件,当该报警事件对应的故障为数据库服务器硬盘故障时,对应数据库服务器硬盘故障保存的时间范围可以为1个小时。该第一报警事件在一个月内每次的发生时间分别为:第一天的10:00,第10天的7:52,第15天的8:00,......,因此确定的该报警事件对应故障的每个有效期分别为第一天的10:00~11:00,第10天的7:52~8:52,第15天的8:00~9:00,......。
S304:统计在每个有效期内发生的其他报警事件。
例如当第二报警事件在第一天的10:35发生时,由于其发生的时间位于第一报警事件对应的故障发生的有效期(第一天的10:00~11:00)内,因为可以认为该第二报警事件为在第一报警事件的有效期内发生的报警事件。
S305:针对每个其他报警事件,统计该其他报警事件在每个有效期内出现的次数。
由于对于一个报警事件其在一段时间内只能出现一次,因此一般在每个有效期内如果一个报警事件出现时,也就只能出现一次,因此针对每个其他报警事件,统计该其他报警事件在几个有效期内出现,也就能确定该其他报警事件在每个有效期内出现次数的和。
当然在每个有效期内其他报警事件出现的次数不止一次时,统计该其他报警事件在该报警事件的有效期内出现的次数,也可以确定该其他报警事件在每个有效期内出现的次数的和。
S306:确定该其他报警事件在每个有效期内出现次数的和,与该设定时间长度内该报警事件发生的次数商,将该商值作为该报警事件导致确定的其他报警事件发生的故障关系参数。
S307:将该报警事件及该其他报警事件分别作为故障关系中的节点,连接该报警事件对应的节点到其导致的该其他报警事件对应的节点的路径,基于确定的该报警事件导致确定的其他报警事件发生的故障关系参数,对应该路径保存该两个报警事件之间的故障关系参数。
具体的在确定了每两个报警事件之间的路径后,由于该两个报警事件中,其中一个报警事件的发生将导致另一报警事件的发生,因此为了标识报警事件之间的依赖关系,该路径可以包括方向标识,该路径的方向标识是由报警事件对应的节点指向其导致的报警事件对应的节点的。进一步为了标识每两个报警事件之间的关联程度,由于确定了报警事件之间的故障关系参数,因此可以针对每条路径,根据每条路径连接的每两个节点包含的报警事件,对应该路径保存该两个报警事件之间的故障关系参数。
下述表1为各个报警事件之间的故障关系参数的示意:
  报警事件   E1   E2   E3   E4
  E1   -   0.95   0.8   0.7
  E2   0   -   0.9   0.75
  E3   0   0.1   -   0.80
  E4   0   0.05   0.2   -
表1
在上述表1中以每个报警事件都为云计算系统中的报警事件为例进行说明,其中报警事件E1为数据库服务器硬盘故障,报警事件E2为数据库故障,报警事件E3为应用服务器故障,报警事件E4为web服务故障,其中报警事件E1导致报警事件E2发生的故障关系参数为0.95,报警事件E1导致报警事件E3发生的故障关系参数为0.8,报警事件E1导致报警事件E4发生的故障关系参数为0.7,报警事件E2导致报警事件E3发生的故障关系参数为0.9,报警事件E2导致报警事件E4发生的故障关系参数为0.75,报警事件E3导致报警事件E4发生的故障关系参数为0.8,报警事件E2、E3、E4导致报警事件E1发生的故障关系参数为0,报警事件E3导致报警事件E2发生的故障关系参数为0.1,报警事件E4导致报警事件E2发生的故障关系参数为0.05,报警事件E4导致报警事件E3发生的故障关系参数为0.2。
当确定了每个报警事件导致其他报警事件发生的故障关系参数后,可以依据确定的报警事件的故障关系参数确定报警事件之间的故障关系。图4为本发明实施例提供的根据报警事件之间的故障关系参数确定的故障关系表的示意图,在该图4中包含报警事件的节点之间通过对应的路径连接,并且针对每条路径保存了该路径连接的每两个节点对应的报警事件之间的故障关系参数。
具体的数据库服务器硬盘故障报警事件与数据故障报警事件之间存在连接路径,并且对应该路径保存的该两个报警事件的故障关系参数为0.95,数据库服务器硬盘故障报警事件与web服务故障报警事件之间存在连接路径,并且对应该路径保存的该两个报警事件的故障关系参数为0.6,数据库故障报警事件与应用服务器故障报警事件之间存在连接路径,并且对应该路径保存的该两个报警事件的故障关系参数为0.9,数据库故障报警事件与web服务故障报警事件之间存在连接路径,并且对应该路径保存的该两个报警事件的故障关系参数为0.7,认证服务器故障报警事件与应用服务器故障报警事件之间存在连接路径,并且对应该路径保存的该两个报警事件的故障关系参数为0.5,应用服务器故障报警事件、web服务操作系统Out of Memory报警事件与web服务故障报警事件都存在连接路径,对应每条连接路径的故障参数分别为0.8、0.6。
当根据设定时间长度内每个报警事件发生的次数,以及在每个报警事件有效期内其他报警事件发生的次数,确定了该报警事件导致该其他报警事件发生的故障关系参数后,可以确定并生成报警事件之间故障关系。由于故障关系可以反映一段时间内云计算系统中各个报警事件之间的关联关系,但是该关联关系可以在一定的时间内会发生变化,为了及时有效的体现报警事件之间的关联关系,可以按照一定的时间间隔,对报警事件之间的故障关系进行更新。
当生成了报警事件之间的故障关系后,就可以依据该故障关系进行故障定位了。图5为本发明实施例提供的基于该生成的故障关系确定故障的过程,该过程包括以下步骤:
S501:根据用户输入的报警事件,在生成的故障关系中查找包含该报警事件的节点。
S502:根据查找到的节点,逆向路径查找达到该节点的每条路径,根据每条路径中的节点对应的报警事件进行故障定位。
在根据每条路径中的节点对应的其他报警事件进行故障定位时,由于在该故障关系中已经确定了每个报警事件对应的节点与其导致的该其他报警事件对应的节点的路径,因此当用户需要对发生的某个报警事件进行故障确定时,逆向路径查找到达该每个节点的每条路径,就可以进行故障定位了。
依据图4当用户输入的报警事件为应用服务器故障报警事件时,查找到对应应用服务器故障报警事件的节点,根据查找的节点,逆向路径查找达到该节点的路径包括两条,第一条路径为认证服务器故障报警事件对应的路径,第二条路径为数据库故障报警事件-数据库服务器硬盘故障报警事件对应的路径。因此根据每条路径的节点对应的报警事件可以进行故障定位,也就是说导致应用服务器故障报警事件发生的报警事件可能为认证服务器故障报警事件、或数据库故障报警事件,或数据库服务器硬盘故障报警事件。
并且在本发明实施例中当用户数输入了报警事件后,还可以根据生成的故障关系确定该报警事件的扩散范围,具体在确定该报警事件的扩散范围包括:根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;根据查找到的节点,顺次查找以该节点为起点的每条路径,根据每条路径上的其他节点对应的其他报警事件,确定该报警事件的扩散范围。
还以用户输入的报警事件为应用服务器故障报警事件为例,在确定该报警事件的扩散范围时,顺次查找以该应用服务器故障报警事件对应的节点为起点的路径包括一条,这条路径为到达web服务故障报警事件的路径,因此可知当应用服务器故障报警事件扩散的范围内包括web服务故障报警事件,即当应用服务器故障报警事件发生时,其可能导致web服务故障报警事件的发生。
具体的由于报警事件之间的关联可以通过故障关系参数体现,当报警事件之间的故障关系参数比较大时,说明该两个报警事件之间的关联性比较大。因此在进行故障定位时,如果为了提高定位的速度,用户可以输入截止频率信息,可以根据用户输入的截止频率,将导致用户输入的报警事件关联性较大的报警事件提供给用户。
当用户输入查找截止频率时,逆向路径查找到达该节点的每条路径,根据每条路径中的节点包含的其他报警事件进行故障定位包括:
逆向路径查找与该节点连接的每个第一节点,针对每个第一节点,判断该节点与该第一直接之间的故障关系参数是否不小于所述截止频率;
当该故障关系参数小于截止频率时,确定该路径中包含的节点对应的其他报警事件不会导致该报警事件的发生;
当该故障关系参数不小于截止频率时,逆向查找与该第一节点连接的每个第二节点,并针对每个第二节点,判断该逆向路径中该节点与第一节点对应的故障关系参数,与第一节点与第二节点对应的故障关系参数的积是否不小于所述截止频率,当该积小于截止频率时,则确定第一节点对应的其他报警事件的发生导致该报警事件的发生,当该积不小于截止频率时,保存该积,将该第二节点作为第一节点,逆向查找到的与该第二节点连接的第三节点作为第二节点,将该积作为该节点与该第一节点之间的故障参数,直到确定每个导致该报警事件发生的其他报警事件。
图6为本发明实施例提供的基于该生成的故障关系表进行故障确定的具体过程,该过程包括以下步骤:
S601:根据用户输入的报警事件,在生成的故障关系中查找对应该报警事件的节点。
S602:根据查找到的节点,逆向路径查找到达该节点的每条路径。
S603:根据用户输入的查找截止频率,针对每条路径,逆向路径查找与该用户输入的报警事件对应的节点连接的第一节点,判断该第一节点与该节点之间的故障参数是否不小于所述截止频率,当判断结果为是时,进行步骤S604,否则,进行步骤S607。
S604:逆向查找与该第一节点连接的第二节点,判断该节点与第一节点之间的故障参数,以及第一节点与第二节点之间的故障参数的积是否不小于所述截止频率,当判断结果为是时,进行步骤S605,否则,进行步骤S606。
S605:保存当前的积,将该第二节点作为第一节点,逆向查找到的与该第二节点连接的第三节点作为第二节点,将该积作为该节点与该第一节点之间的故障关系参数,进行步骤S604。
S606:根据该故障关系参数的积不小于截止频率的每条路径中的节点包含的其他报警事件进行故障定位。
S607:该条路径中包含的节点对应的报警事件不会导致该用户输入的报警事件的发生。
例如当用户输入的报警事件为web服务故障报警事件时,当逆向查找到达该web服务故障报警事件对应的节点的每条路径时,查找到到五条路径,其中(为了方便这段描述,用报警事件代替报警事件对应的节点)第一条路径为:数据库服务器硬盘故障报警事件-web服务故障报警事件的路径,第二条路径为:web服务器操作系统out of Memory报警事件-web服务故障报警事件的路径,第三条路径为:数据库故障报警事件-web服务故障报警事件的路径,第四条路径为:数据库服务器硬盘故障报警事件-数据库故障报警事件-应用服务器故障报警事件-web服务故障报警事件的路径,第五条路径为:认证服务器故障报警时事件-应用服务器故障报警事件-web服务故障报警事件。
此时当用户输入的截止频率为0.7时,对于第一条路径和第二条路径,由于数据库服务器硬盘故障报警事件、web服务器操作系统out of Memory报警事件与web服务故障报警事件之间的故障关系参数都为0.6小于0.7,因此该两条路径中包含的节点对应的报警事件不会导致该用户输入的报警事件的发生。
对于第三条路径由于数据库故障报警事件与web服务故障报警事件之间的故障关系参数都为0.7,因此可知该数据库故障报警事件将会导致该web服务故障报警事件的发生。
对于第四条路径,由于第一节点对应的应用服务器故障报警事件与该节点对应的web服务故障报警事件之间的故障关系参数为0.8大于0.7,因此继续逆向路径查询第二节点数据库故障报警事件,由于第二节点对应的数据库故障报警事件与第一节点对应的应用服务器故障报警事件之间的故障关系参数为0.9,第一节点对应的应用服务器故障报警事件与该节点对应的web服务故障报警事件之间的故障关系参数为0.8,两者的积为0.72大于0.7,因此继续逆向路径查询第三节点数据库服务器硬盘故障报警事件,由于数据库服务器硬盘故障报警事件与数据库故障报警事件之间的故障关系参数为0.95,保存的该积为0.72,因此此时确定的0.95与0.72的积为0.68小于0.7,因此该路径上数据库故障报警事件、应用服务器报警事件将会导致web服务故障报警事件的发生。
对于第五条路径,由于第一节点对应的应用服务器故障报警事件与该节点对应的web服务故障报警事件之间的故障关系参数为0.8大于0.7,因此继续逆向路径查询第二节点认证服务器故障报警事件,由于第二节点对应的认证服务器故障报警事件与第一节点对应的应用服务器故障报警事件之间的故障关系参数为0.5,第一节点对应的应用服务器故障报警事件与该节点对应的web服务故障报警事件之间的故障关系参数为0.8,两者的积为0.4小于0.7,因此该路径上导致web服务故障报警事件发生的为应用服务器故障报警事件。
根据上述查找判断的结果可知当对web服务故障报警事件进行故障确定时,可以确定数据库故障报警事件、应用服务器故障报警事件将会导致web服务故障报警事件的发生。
同样的在根据某一报警事件,查找该报警事件的扩散范围时,其方法与上述方法类似,只是依据路径的方法顺次查找,在这里就不在一一赘述。
图7为本发明实施例提供的一种故障关系生成装置的结构示意图,该装置包括:
第一确定模块71,用于根据报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的故障类型信息与时间范围信息的对应关系,确定该报警事件对应的故障的有效期信息,并根据确定的有效期信息,确定发生时间在该有效期内的其他报警事件;
生成模块72,用于将每个报警事件作为故障关系中的节点,分别连接该报警事件对应的节点到确定的其他报警事件对应的节点的路径。
所述装置还包括:
第二确定模块73,用于统计设定时间长度内该报警事件发生的次数,并统计确定的其他报警事件分别在每个有效期内出现次数的和,根据统计的该设定时间长度内该报警事件发生的次数,以及确定的其他报警事件分别在每个有效期内出现次数的和,确定该报警事件发生导致确定的其他报警事件发生的故障关系参数,基于确定的该报警事件导致确定的其他报警事件发生的故障关系参数,根据每条路径连接的每两个节点对应的报警事件,对应该路径保存该两个报警事件之间的故障关系参数。
所述第二确定模块73具体用于,
确定该其他报警事件在每个有效期内出现次数的和,与所述设定时间长度内该报警事件发生的次数的商,将该商值作为该报警事件发生导致确定的其他报警事件发生的故障关系参数。
图8为本发明实施例提供的基于图7所述的生成装置的故障确定装置的结构示意图,其特征在于,所述装置包括:
第一查找模块81,用于根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
第一确定模块82,用于根据查找到的节点,逆向路径查找到达该节点的每条路径,根据每条路径上的节点对应的报警事件进行故障定位。
所述第一确定模块82具体用于,当用户输入查找截止频率时,逆向路径查找与该节点连接的每个第一节点,针对每个第一节点,判断该节点与该第一节点之间的故障关系参数是否不小于所述截止频率,当该故障关系参数小于截止频率时,确定该路径中包含的节点对应的其他报警事件不会导致该报警事件的发生,当该故障关系参数不小于截止频率时,逆向查找与该第一节点连接的每个第二节点,并针对每个第二节点,判断该逆向路径中该节点与第一节点对应的故障关系参数,与第一节点与第二节点对应的故障关系参数的积是否不小于所述截止频率,当该积小于截止频率时,则确定第一节点对应的其他报警事件的发生导致该报警事件的发生,当该积不小于截止频率时,保存该积,将该第二节点作为第一节点,逆向查找到的与该第二节点连接的第三节点作为第二节点,将该积作为该节点与该第一节点之间的故障参数,直到确定每个导致该报警事件发生的其他报警事件。
图9为本发明实施例提供的基于图7所述的生成装置确定报警事件的扩散范围的装置的结构示意图,该装置包括:
第二查找模块91,用于根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
第二确定模块92,用于根据查找到的节点,顺次查找以该节点为起点的每条路径,根据每条路径上的节点对应的报警事件,确定该报警事件的扩散范围。
本发明实施例提供了一种故障关系生成及故障确定方法及装置,该故障关系生成方法中根据报警事件发生的时间,该报警事件中记录的故障类型信息,以及保存的对应该故障类型的时间范围信息,确定该报警事件对应故障的有效期信息,并确定发生时间处于该有效期内的其他报警事件,将每个报警事件作为故障关系中的节点,连接该报警事件对应的节点到确定的该其他报警事件对应的节点的路径从而生成故障关系。由于在本发明实施例中根据在报警事件的有效期内发生的其他报警事件,从而确定报警事件与其他报警事件之间的关系,因此在进行故障定位时可以根据生成的故障关系进行故障定位,从而为复杂的系统提供了一种有效,准确的故障定位方法。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种故障关系生成方法,其特征在于,针对每个报警事件执行以下步骤:
根据该报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的故障类型信息与时间范围信息的对应关系,确定该报警事件对应的故障的有效期信息;并
根据确定的有效期信息,确定发生时间处于该有效期内的其他报警事件;
统计设定时间长度内该报警事件发生的次数,并统计确定的其他报警事件分别在每个有效期内出现次数的和,以及,根据统计的该设定时间长度内该报警事件发生的次数,以及确定的其他报警事件分别在每个有效期内出现次数的和,确定该报警事件导致确定的其他报警事件发生的故障关系参数;其中,确定该报警事件导致确定的其他报警事件发生的故障关系参数,具体包括:确定统计得到的其他报警事件分别在每个有效期内出现次数的和,与设定时间长度内该报警事件发生的次数的商,并将该商值作为该报警事件导致确定的其他报警事件发生的故障关系参数;
将每个报警事件作为故障关系中的节点,分别连接该报警事件对应的节点到确定的其他报警事件对应的节点的路径,并基于确定的该报警事件导致确定的其他报警事件发生的故障关系参数,根据每条路径连接的每两个节点对应的报警事件,对应该路径保存该两个报警事件之间的故障关系参数。
2.如权利要求1所述的方法,其特征在于,所述报警事件中还包括:故障发生的主机的IP地址信息和/或该主机发生故障的对象。
3.一种基于权利要求1生成的故障关系进行故障确定的方法,其特征在于,所述方法包括:
根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
根据查找到的节点,逆向路径查找到达该节点的每条路径,根据每条路径上的节点对应的报警事件进行故障定位;
其中,当用户输入查找截止频率时,逆向路径查找到达该节点的每条路径,根据每条路径上的节点对应的报警事件进行故障定位包括:
逆向路径查找与该节点连接的每个第一节点,针对每个第一节点,判断该节点与该第一节点之间的故障关系参数是否不小于所述截止频率;
当该故障关系参数小于截止频率时,确定该路径中包含的节点对应的其他报警事件不会导致该报警事件的发生;
当该故障关系参数不小于截止频率时,逆向查找与该第一节点连接的每个第二节点,并针对每个第二节点,判断该逆向路径中该节点与第一节点对应的故障关系参数,与第一节点与第二节点对应的故障关系参数的积是否不小于所述截止频率,当该积小于截止频率时,则确定第一节点对应的其他报警事件的发生导致该报警事件的发生,当该积不小于截止频率时,保存该积,将该第二节点作为第一节点,逆向查找到的与该第二节点连接的第三节点作为第二节点,将该积作为该节点与该第一节点之间的故障关系参数,直到确定每个导致该报警事件发生的其他报警事件。
4.一种基于权利要求1生成的故障关系确定报警事件的扩散范围的方法,其特征在于,所述方法包括:
根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
根据查找到的节点,顺次查找以该节点为起点的每条路径,根据每条路径上的节点对应的报警事件,确定该报警事件的扩散范围。
5.一种故障关系生成装置,其特征在于,所述装置包括:
第一确定模块,用于根据报警事件发生的时间,该报警事件中携带的故障类型信息,以及保存的故障类型信息与时间范围信息的对应关系,确定该报警事件对应的故障的有效期信息,并根据确定的有效期信息,确定发生时间在该有效期内的其他报警事件;
第二确定模块,用于统计设定时间长度内该报警事件发生的次数,并统计确定的其他报警事件分别在每个有效期内出现次数的和,根据统计的该设定时间长度内该报警事件发生的次数,以及确定的其他报警事件分别在每个有效期内出现次数的和,确定该报警事件发生导致确定的其他报警事件发生的故障关系参数,基于确定的该报警事件导致确定的其他报警事件发生的故障关系参数,根据每条路径连接的每两个节点对应的报警事件,对应该路径保存该两个报警事件之间的故障关系参数;其中,确定该报警事件导致确定的其他报警事件发生的故障关系参数,具体包括:确定统计得到的其他报警事件分别在每个有效期内出现次数的和,与设定时间长度内该报警事件发生的次数的商,并将该商值作为该报警事件导致确定的其他报警事件发生的故障关系参数;
生成模块,用于将每个报警事件作为故障关系中的节点,分别连接该报警事件对应的节点到确定的其他报警事件对应的节点的路径。
6.一种基于权利要求5所述的生成装置的故障确定装置,其特征在于,所述故障确定装置包括:
第一查找模块,用于根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
第一确定模块,用于根据查找到的节点,逆向路径查找到达该节点的每条路径,根据每条路径上的节点对应的报警事件进行故障定位;
其中,所述故障确定装置中的所述第一确定模块具体用于,当用户输入查找截止频率时,逆向路径查找与该节点连接的每个第一节点,针对每个第一节点,判断该节点与该第一节点之间的故障关系参数是否不小于所述截止频率,当该故障关系参数小于截止频率时,确定该路径中包含的节点对应的其他报警事件不会导致该报警事件的发生,当该故障关系参数不小于截止频率时,逆向查找与该第一节点连接的每个第二节点,并针对每个第二节点,判断该逆向路径中该节点与第一节点对应的故障关系参数,与第一节点与第二节点对应的故障关系参数的积是否不小于所述截止频率,当该积小于截止频率时,则确定第一节点对应的其他报警事件的发生导致该报警事件的发生,当该积不小于截止频率时,保存该积,将该第二节点作为第一节点,逆向查找到的与该第二节点连接的第三节点作为第二节点,将该积作为该节点与该第一节点之间的故障关系参数,直到确定每个导致该报警事件发生的其他报警事件。
7.一种基于权利要求5所述的生成装置的确定报警事件的扩散范围的装置,其特征在于,所述确定报警事件的扩散范围的装置包括:
第二查找模块,用于根据用户输入的报警事件,在生成的故障关系中查找对应该输入的报警事件的节点;
第二确定模块,用于根据查找到的节点,顺次查找以该节点为起点的每条路径,根据每条路径上的节点对应的报警事件,确定该报警事件的扩散范围。
CN201010597571.XA 2010-12-20 2010-12-20 一种故障关系生成及故障确定方法及装置 Active CN102546205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010597571.XA CN102546205B (zh) 2010-12-20 2010-12-20 一种故障关系生成及故障确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010597571.XA CN102546205B (zh) 2010-12-20 2010-12-20 一种故障关系生成及故障确定方法及装置

Publications (2)

Publication Number Publication Date
CN102546205A CN102546205A (zh) 2012-07-04
CN102546205B true CN102546205B (zh) 2014-12-10

Family

ID=46352216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010597571.XA Active CN102546205B (zh) 2010-12-20 2010-12-20 一种故障关系生成及故障确定方法及装置

Country Status (1)

Country Link
CN (1) CN102546205B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023028B (zh) * 2012-12-17 2015-09-02 江苏省电力公司 一种基于实体间依赖关系图的电网故障快速定位方法
CN103957116B (zh) * 2014-03-31 2017-12-01 昆明理工大学 一种云故障数据的决策方法及系统
CN105763397B (zh) * 2016-04-19 2019-05-07 山东中创软件商用中间件股份有限公司 一种性能检测方法及装置
CN107992012B (zh) * 2017-12-20 2020-09-25 联想(北京)有限公司 用于获取生产线工序间相关性的方法和装置
CN112104470A (zh) * 2019-06-18 2020-12-18 中国移动通信有限公司研究院 一种网络设备故障定位方法及数字家庭业务分析平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1874249A (zh) * 2005-05-31 2006-12-06 华为技术有限公司 基于父子关系的告警相关性处理方法
CN101188523A (zh) * 2007-12-10 2008-05-28 中兴通讯股份有限公司 告警相关性规则的生成方法及生成系统
EP1981211A1 (en) * 2006-01-23 2008-10-15 Huawei Technologies Co., Ltd. A method for processing the tandem connection monitoring failure dependency of different levels and an equipment thereof
CN101360013A (zh) * 2008-09-25 2009-02-04 烽火通信科技股份有限公司 一种基于相关性分析的传输网通用快速故障定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1874249A (zh) * 2005-05-31 2006-12-06 华为技术有限公司 基于父子关系的告警相关性处理方法
EP1981211A1 (en) * 2006-01-23 2008-10-15 Huawei Technologies Co., Ltd. A method for processing the tandem connection monitoring failure dependency of different levels and an equipment thereof
CN101188523A (zh) * 2007-12-10 2008-05-28 中兴通讯股份有限公司 告警相关性规则的生成方法及生成系统
CN101360013A (zh) * 2008-09-25 2009-02-04 烽火通信科技股份有限公司 一种基于相关性分析的传输网通用快速故障定位方法

Also Published As

Publication number Publication date
CN102546205A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
US20210119892A1 (en) Online computer system with methodologies for distributed trace aggregation and for targeted distributed tracing
US10929217B2 (en) Multi-variant anomaly detection from application telemetry
CN106293892B (zh) 分布式流计算系统、方法和装置
CN113328872B (zh) 故障修复方法、装置和存储介质
Lin et al. iDice: Problem identification for emerging issues
US9710122B1 (en) Customer support interface
CN102546205B (zh) 一种故障关系生成及故障确定方法及装置
CN103562863A (zh) 创建定义事件类型之间关系的相关规则
CN104137078A (zh) 操作管理设备、操作管理方法和程序
CN109309596B (zh) 一种压力测试方法、装置及服务器
US10769641B2 (en) Service request management in cloud computing systems
US20190146774A1 (en) Deployment routing of clients by analytics
CN101997709A (zh) 一种根告警数据分析的方法及其系统
CN111310061B (zh) 全链路多渠道归因方法、装置、服务器及存储介质
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
JP2014102661A (ja) 適用判定プログラム、障害検出装置および適用判定方法
US10191800B2 (en) Metric payload ingestion and replay
JP2011138405A (ja) 障害箇所推定システム、障害箇所推定装置および障害箇所推定方法
US20210149789A1 (en) System and method for troubleshooting abnormal behavior of an application
US20200099570A1 (en) Cross-domain topological alarm suppression
CN110083581B (zh) 一种日志追溯的方法、装置、存储介质及计算机设备
CN104820663A (zh) 发现低性能的sql语句以及预测sql语句性能的方法和装置
US20140095934A1 (en) Test case production utilizing problem reports
US20170351560A1 (en) Software failure impact and selection system
US20180095819A1 (en) Incident analysis program, incident analysis method, information processing device, service identification program, service identification method, and service identification device

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant