CN103026344B - 故障检测设备、故障检测方法和程序记录介质 - Google Patents

故障检测设备、故障检测方法和程序记录介质 Download PDF

Info

Publication number
CN103026344B
CN103026344B CN201180028026.1A CN201180028026A CN103026344B CN 103026344 B CN103026344 B CN 103026344B CN 201180028026 A CN201180028026 A CN 201180028026A CN 103026344 B CN103026344 B CN 103026344B
Authority
CN
China
Prior art keywords
fault
related damages
mutual relationship
general character
aggregate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180028026.1A
Other languages
English (en)
Other versions
CN103026344A (zh
Inventor
石王坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN103026344A publication Critical patent/CN103026344A/zh
Application granted granted Critical
Publication of CN103026344B publication Critical patent/CN103026344B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

对检测到的相关破坏估计可能发生的故障。故障检测设备(10)包括存储单元(12)和相关模型比较单元(25)。存储单元(12)存储相关破坏集合信息(33),该相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,该相关模型表示系统中的多种类型的性能值之间的相互关系。相关模型比较单元(25)计算包含在相关破坏集合信息中的相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。

Description

故障检测设备、故障检测方法和程序记录介质
技术领域
本发明涉及一种故障检测设备、故障检测方法和程序记录介质。
背景技术
大规模信息系统例如商业信息系统和IDC(因特网数据中心)系统中,随着作为社会基础结构的信息和通信服务(例如web服务和商业服务)的重要性增长,提供这些服务的计算机系统需要保持运行稳定性。此类计算机系统的运行管理通常由管理员手工执行。随着系统变得大规模和复杂化,管理员的负担急剧增加,由于判断失误或者误操作导致的服务挂起变得更加容易发生。
出于这个原因,提供了一种集成的故障原因提取系统,该系统以统一方式监控和控制包含在上述系统中的硬件和软件的运行状态。在集成故障原因提取系统中,由该集成系统管理的多个计算机系统中的硬件和软件的运行状态信息被获取并输出至与该系统连接的故障原因提取设备。用于判别被管理系统的故障的装置包括预先对运行信息设置阈值的装置,以及评估该运行信息与其平均值之间的偏差的装置。
例如,在该故障原因提取系统的故障原因提取设备中,为各个性能信息设置阈值,通过查找超过其各自阈值的各个性能信息来检测故障。故障原因提取设备预先设置一个指示异常的值作为阈值,检测各个元素的异常并且将其报告给管理员。
当报告检测到异常时,管理员需要确定异常发生的原因以解决它。异常发生的典型原因是,例如,CPU超负荷、内存容量不足或者网络超负荷。为了识别异常发生的原因,需要识别可能与该异常相关的计算机,然后调查其系统日志和参数。该操作需要每个管理员具有高度的知识或者知道如何去做,并且需要每个管理员花费大量时间和精力。
由于这一点,该集成故障原因提取系统基于从多个装置获得的事件数据(状态通知),通过对运行状态等的组合自动执行相关分析,为管理员提供针对异常的对策支持,从更广的角度估计问题或原因,然后将其通知给管理员。特别地,为了确保这些服务长期、连续运行的可靠性,其不仅需要针对已经发生的异常采取措施,还需要提取出成为未来异常可能原因的元素,即使这些异常目前还没有明显的发生,然后采取措施,例如以规划的方式强化设备。
例如,以下所示的每个专利文献中描述了这样的故障原因提取系统,或者与该系统中的相关分析相关并且可应用于该系统的技术。专利文献1中公开的技术通过推导出关于正常状态下的任意两个性能信息的值(性能值)的时间序列的转换函数来生成相关模型,其中将一个序列作为输入,另一个作为输出。该技术将根据相关模型的转换函数的性能值与在另一时间获得的性能信息进行比较,并且基于相关破坏程度来检测故障。
将更加详细地解释专利文献1中描述的技术。图17是示出根据专利文献1中描述的技术包括故障原因提取设备910的故障原因提取系统901的示意性整体配置的说明图。故障原因提取系统901包括作为多个被管理设备的被监控计算机902A,902B,902C,…,以及管理这些计算机902的运行的故障原因提取设备910,它们通过网络903连接从而可以相互通信。
故障原因提取设备910从每个被监控的计算机902A,902B,902C,…获取包括多个性能项目(例如,CPU利用率或者剩余内存容量)中每个性能项目的性能值在内的性能信息,并且基于该性能信息执行如下所述的操作。
此处,性能项目、被管理设备(被监控计算机902)或其组合被定义为性能信息中的一个元素(性能值的类型,或者仅仅是类型)。
图18是示出如图17所示的故障原因提取设备910和被监控计算机902的配置的说明图。如图17所示的被监控计算机902A,902B,902C,…具有与被监控计算机902A相同的配置,在图18中省略了详细描述,它们被共同命名为被监控计算机902。图19是示出图18中所示的故障原因提取设备910的处理流程的说明图。
根据专利文献1所描述的技术,故障原因提取设备910,例如,是一个通用计算机设备,包括作为计算机程序执行的核心的主运算控制单元(CPU:中央处理单元)911,存储数据的存储单元912,通过网络903与其他计算机进行数据通信的通信单元913,以及接受用户(在此情形下为网络管理员)的操作并且呈现处理结果的输入/输出单元914。
在该故障原因提取设备910的主运算控制单元911中,性能信息累积单元922、相关模型生成单元923、相关分析单元924、故障分析单元925和管理员交互单元926中的每个都以计算机程序的形式运行。进而,正常状态性能信息931、相关模型信息932和分析设置信息933中的每个均存储在存储单元912中。
如故障原因提取设备910一样,被监控计算机902也包括主运算控制单元951、存储单元952和通信单元953。当这些单元的功能分别与故障原因提取设备910中的主运算控制单元911、存储单元912和通信单元913相同时,被监控计算机902的主运算控制单元951中的服务执行单元961、信息收集单元962、对策执行单元963中的每个均以计算机程序的形式运行。
被监控计算机902的服务执行单元961提供例如web服务和商业服务的信息和通信服务。信息收集单元962检测服务执行单元961的运行状态,获取包括在运行状态中的性能信息,并将信息发送给故障原因提取设备910的性能信息累积单元922。故障原因提取设备910的性能信息累积单元922接收来自每个被监控计算机902的信息收集单元962的性能信息,并将该信息作为正常状态性能信息931进行存储。
相关模型生成单元923在某个时间段内从正常状态性能信息931获得性能信息,针对性能信息中的性能值的两种任意类型的时间序列推导出转换函数(相关函数),其中将两个时间序列中的一个作为输入,另一个作为输出。相关模型生成单元923将由该转换函数生成的性能值序列与该性能值的实际检测值序列进行比较,并且由这两个值的序列之间的差值来计算转换函数的权重信息。进而,通过对每对类型重复该过程,相关模型生成单元923针对服务执行单元961的总运行状态生成一个相关模型。相关模型生成单元923将生成的相关模型作为相关模型信息932进行存储。
相关分析单元924接收来自性能信息累积单元922的、新检测到的性能信息,分析包含在接收的性能信息中的性能值是否在一定的误差范围内满足由存储在相关模型信息932中的相关模型的每个转换函数表示的关系,并输出分析结果。
相关分析单元924基于第一元素的新检测性能值和相关函数,计算针对第二元素的预测性能值,然后,通过比较第二元素的新检测性能值与该预测性能值来计算预测误差。相关分析单元924分析该预测误差是否在预定的误差范围内。当预测误差超出预定的误差范围时,相关分析单元924判断第一和第二元素之间的相互关系被破坏。
错误分析单元925接收由性能信息累积单元922收集的运行状态以及由相关分析单元924执行分析的结果,并且根据预先存储在分析设置信息933中的分析设置内容来执行故障分析。
管理员交互单元926接收来自故障分析单元925的故障分析结果并且通过输入/输出单元14将其呈现给管理员。然后,管理员交互单元926接受来自管理员的操作输入,并指示被监测计算机902的对策执行单元963根据该操作输入执行对策。该对策执行单元963响应于来自管理员交互单元926的命令,执行针对服务执行单元961上的故障的对策过程。
管理员交互单元926通过输入/输出单元14将该故障分析结果呈现给管理员。当管理员通过输入/输出单元14进行用于指示某种对策的输入时,管理员交互单元926将该输入的内容发送给对策执行单元963并使其执行该对策。例如,当被监控计算机902中的某个特定计算机出现CPU利用率或者剩余内存容量异常时,管理员指示一种对策,例如减少指示给被监控计算机902中的该特定计算机的操作的量,然后将这些操作转移到被监控计算机902中的其他计算机。
随后,如果在性能信息累积单元922以固定时间间隔收集的性能信息值中没有检测到相关破坏,则故障分析单元925判断其是否从该故障中恢复,并且通过管理员交互单元926将该结果呈现给管理员。通过重复该收集信息、分析、采取对策的过程,持续地执行故障检测和针对服务执行单元961上的故障的对策。
图20是示出图18和图19所示的性能信息累积单元922中累积的正常状态性能信息931的例子的说明图。被监控计算机902的信息收集单元962检测服务执行单元961的运行状态,从运行状态中提取性能信息并将该信息发送给故障原因提取设备910的性能信息累积单元922。性能信息累积单元922将接收到的性能信息作为正常状态性能信息931进行记录和累积。
正常状态性能信息931是由信息收集单元962为服务执行单元961持续收集的性能信息的列表。每个性能信息包括由图17中所示的每个被监控计算机902同时测量的多个性能值项目,并且按照预定的时间间隔将其列出。例如,当在服务执行单元961处执行web服务时,信息收集单元962以预定的时间间隔检测提供web服务的每个被监控计算机902的CPU利用率或者剩余内存容量,并将该信息发送给故障原因提取设备910的性能信息累积单元922。性能信息累积单元922将该信息作为正常状态性能信息931进行记录和累积。
图20示出了如此累积的正常状态性能信息931的例子。此处,图17所示的被监控计算机902分别被指定为被监控计算机902A,902B,902C,…。被监控计算机902A,902B,902C,…的名称分别为“A”、“B”、“C”。
例如,类型“A.CPU”表示被监控计算机902A(A)的CPU利用率,可以看出“A.CPU”的性能值在2010年4月5日17:25测量为“12”,随后,以一分钟的间隔从17:26顺序测量的性能值分别为“15”、“34”、“63”…。类似地,类型“A.MEM”表示被监控计算机902A(A)的内存使用情况,与“A.CPU”同时测量的“A.MEM”的性能值被呈现。类型“B.CPU”表示被监控计算机902B(B)的CPU利用率,与其他性能值同时被测量的“B.CPU”的性能值被呈现。
相关模型生成单元923对如此累积的正常状态性能信息931中的每种类型的性能值执行如下所示的相关模型生成处理。例如,相关模型生成单元923将x和y之间的关系近似为一个近似式“y=f(x)=Ax+B”(A和B是常数),其中“A.CPU”被视为x,“A.MEM”被视为y,并且以“A=-0.6”和“B=100”为系数值进行计算。相关模型生成单元923由基于转换函数的预测性能值序列与实际性能值之间的差值计算出权重值“w=0.88”。
图21示出了由相关模型生成单元923根据图20所示的正常状态性能信息931生成的相关模型信息932的示例的说明图。图22示出了由图18所示的故障原因提取设备910执行的故障原因提取操作的流程图。
对于上述正常状态性能信息931记录的每一对类型,相关模型信息932包括被视为该转换函数的输入和输出的类型名称、指定转换函数的系数和权重的各值、以及用于指示对应的相互关系是否有效的相互关系判断信息(有效性)。
例如,关于图21所示的“A.CPU”与“A.MEM”之间的相互关系,对于输出“A.MEM”,式“y=f(x)=Ax+B”中系数A的值为“-0.6”、系数B的值为“100”并且权重值为“0.88”的相互关系被存储在相关模型信息932中。
相关模型生成单元923针对性能信息累积单元922中累积的正常状态性能信息931中的每一对类型执行这样的分析,并基于在整个故障原因提取系统901稳定且正常地运行时获得的性能信息生成相关模型信息932(图22中的步骤S991)。
图23是示出基于图21所示的相关模型信息932由管理员交互单元926呈现给管理员的显示画面990的内容的说明图。图23所示的显示画面990显示了相关破坏数量990a、相关图990b和异常元素列表990c中的每个。以下将示出其细节。
相关图990b表示该故障原因提取系统901中的一个元素与另一个元素之间的相互关系。在图23所示的例子中,三个被监控计算机902A、902B和902C的CPU利用率和内存使用情况中的每个被分别表示为性能信息的A到F六个元素。元素A、B…分别用带圆圈的“A”、“B”…表示。
被监控计算机的CPU利用率和内存使用情况分别被表示为902A的“A.CPU”和“A.MEM”,902B的“B.CPU”和“B.MEM”…。元素A代表“A.CPU”,即,被监控计算机902A的CPU利用率。类似地,元素D代表“C.CPU”,即,被监控计算机902C的CPU利用率。
然后,将各个元素相互连接的线代表相关模型中的转换函数所表示的关系。将权重w定义为处于0到1的范围内,如果权重w等于或大于0.5,则用实线表示该关系,如果权重w小于0.5则不表示该关系。例如,因为元素A和B之间的相互关系的权重w等于或大于0.5,所以这些元素之间用实线连接。因为元素A和F之间的相互关系的权重w小于0.5,所以这些元素之间没有连接。
对于权重值w等于或大于0.5的每一对类型,相关分析单元924判断权重w是否等于或者大于一个特定阈值,即,该相互关系是否有效。并且,相关分析单元924对新获得的性能信息执行上述相互关系分析(图22中的步骤S992)。
然后,可能存在这样一种情形,即,当故障原因提取系统901整体正常运行时,随着时间的推移,有效的相互关系变得无效。这就是该示例性实施方式中定义的“相关破坏”,它意味着在故障原因提取系统901的运行状态中无疑已发生了某种改变。
当检测到相关破坏时,相关分析单元924将其显示在显示画面990上(图22中的步骤S993至994)。相关破坏数量990a表示时间序列中检测到的相关破坏发生的数量。异常元素列表990c表示发生相关破坏的元素。相关图990b用粗线表示被破坏的相互关系。
响应于由管理员在显示画面上的操作,可以在显示画面990上示出每个元素的细节并且可以发出指示以对该元素采取对策。以上是专利文献1中描述的故障原因提取设备910的操作。
除了专利文献1外,还存在以下技术文献。专利文献2中公开的故障检测设备为了预测实际运行中发生的瓶颈,采用了与专利文献1中相同的相关模型。专利文献3中公开的异常故障现象检测设备计算相关系数矩阵及其转置矩阵,并且检测被监控设备的异常故障现象。
[引用列表]
[专利文献]
[专利文献1]日本专利公开No.2009-199533
[专利文献2]日本专利公开No.2009-199534
[专利文献3]日本专利公开No.2008-146591
发明内容
[技术问题]
在专利文献1公开的技术中,物理连接关系中的相邻设备的异常程度能够基于与被破坏的相互关系有关的元素的数量、破坏程度的总和、或者被破坏的相互关系的比值来计算。即使当前没有明显的故障发生,也可以通过检测相关破坏来提取作为故障的可能原因的元素,并且采取例如强化设备的对策。
然而,专利文献1公开的技术没有考虑也没有预先提出“对于检测的相关破坏可能出现的特定异常”。
例如,当专利文献1的技术应用于包括web服务器、应用服务器和数据库服务器的通用三层系统时,没有预先提出对于检测的相关破坏,web服务器是否可以处于超负荷状态或者应用服务器是否可以处于故障状态。因此,难于针对可能出现的故障准备对策。
类似的,专利文献2和3公开的技术没有考虑“对于检测的相关破坏可能出现的特定异常”,因此,即使这些技术方案与专利文献1中描述的技术相结合,也没有提出对于检测的相关破坏可能出现的特定故障。
本发明的目的在于提供一种故障检测设备、故障检测方法和程序记录介质,其能够估计对于检测的相关破坏可能发生的故障。
[问题的解决方案]
根据本发明的一个示例性方面的故障检测设备包括:存储装置,用于存储相关破坏集合信息,该相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,相关模型表示系统的多种类型的性能值之间的相互关系,以及相关模型比较装置,用于计算包含在相关破坏集合信息中的相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。
根据本发明的一个示例性方面的故障检测方法包括:存储相关破坏集合信息,该相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,该相关模型表示系统的多种类型的性能值之间的相互关系,以及计算包含在相关破坏集合信息中的相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。
根据本发明的一个示例性方面的计算机可读存储介质在其上记录程序,使得计算机执行一种方法,该方法包括存储相关破坏集合信息,该相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,相关模型表示系统的多种类型的性能值之间的相互关系,以及计算包含在相关破坏集合信息中的相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。
[发明的有益效果]
本发明的效果在于能够估计对于检测的相关破坏可能发生的故障。
附图说明
图1是示出了根据本发明第一示例性实施方式的故障检测设备和被监控计算机的配置的说明图。
图2是示出了根据本发明第一示例性实施方式的、包括故障检测设备的故障原因提取系统1的示意性整体配置的示例的说明图。
图3是示出了图1所示的故障检测设备的处理流程的说明图。
图4是解释图1和图3所示的相关分析单元的更详细操作的说明图。
图5是示出了图1和图3所示的相关模型和相关破坏集合信息的示例的说明图。
图6是示出了作为图7所示处理的结果、由管理员交互单元呈现的示出了显示画面示例的说明图。
图7是示出了由图1和图3所示的故障检测设备执行的、基于被破坏的相互关系预测可能发生的异常的操作的流程图。
图8是示出了根据本发明第二示例性实施方式的、包括故障检测设备的故障原因提取系统的示意性整体配置的示例的说明图。
图9是示出了图8所示的故障检测设备的配置的说明图。
图10是示出了图9所示的故障检测设备的处理流程的说明图。
图11是示出了图9和图10所示的故障检测设备执行的、基于被破坏的相互关系预测可能发生的异常的操作的流程图。
图12是示出了作为图11所示处理的结果、由管理员交互单元向管理员呈现的示出了显示画面示例的说明图。
图13是示出了根据本发明第三示例性实施方式的、包括故障检测设备的故障原因提取系统的示意性整体配置的示例的说明图。
图14是示出了图13所示的故障检测设备的配置的说明图。
图15是示出了图14所示的故障检测设备的处理流程的说明图。
图16是示出了图14所示的故障检测设备检测到相关破坏的情况下,由管理员交互单元向管理员呈现的显示画面内容的说明图。
图17是示出了根据专利文献1中描述的技术、包括故障原因提取设备的故障原因提取系统的示意性整体配置的示例的说明图。
图18是示出了图17所示的故障原因提取设备和被监控计算机的配置的说明图。
图19是示出了图18所示的故障原因提取设备的处理流程的说明图。
图20是示出了图18和图19所示的性能信息累积单元所累积的正常状态性能信息示例的说明图。
图21是示出了由相关模型生成单元根据图20所示的正常状态性能信息生成的相关模型信息示例的说明图。
图22是示出了由图18所示的故障原因提取设备执行的故障原因提取操作的流程图。
图23是示出了基于图21所示的相关模型信息、由管理员交互单元呈现给管理员的显示画面内容的说明图。
图24是示出了根据本发明的第一示例性实施方式的特征配置的框图。
具体实施方式
(第一示例性实施方式)
下文中,将基于图1解释本发明的第一示例性实施方式的配置。
首先将解释第一示例性实施方式的基本内容,此后,将解释更详细的内容。
根据第一示例性实施方式的故障检测设备10从包括在系统中的多个为计算机设备的被管理设备2获取与被管理设备2的运行状态相关的多个性能项目中每个性能项目的、包括性能值的性能信息,并且提取被管理设备中发生的故障原因。
故障检测设备10包括相关模型生成单元23、相关分析单元24和相关模型比较单元25。
在性能项目、被管理设备或其组合被定义为一个元素(性能值的类型,或者仅仅是类型)的情况下,相关模型生成单元23从多个性能序列信息中推导出性能序列信息的任意两个元素之间的相关函数,并且生成包括针对每对元素的相关函数的相关模型,其中每个性能序列信息表示以固定的时间间隔获得的每个元素的性能值的时间序列变化。
当新检测到性能信息时,相关分析单元24对任意两个元素中第一元素新检测到的性能值应用该相关模型中的相关函数,针对任意两个元素中的第二元素计算预测性能值,比较第二元素的检测性能值与预测性能值并且计算预测误差。相关分析单元24针对新检测到的性能信息中的每一对元素分析预测误差是否位于预定误差范围内,如果该预测误差超出了误差范围,则判断第一和第二元素之间的相互关系被破坏。
存储单元12预先存储相关破坏集合信息33与该相关模型。相关破坏集合信息33是这样一种数据,其将当被管理设备中实际已发生故障时,该相关模型中已经由相关分析单元24判断为相互关系被破坏的元素对的列表(与故障发生时检测到的相关破坏有关的相互关系的列表)与已发生的故障的现象名称相关联。
相关模型比较单元25在由相关分析单元24已经判断其相互关系最近被破坏的元素对(最近检测到其相关破坏的相互关系)与相关破坏集合信息33之间执行匹配核查,并且计算共性程度,该共性程度是指其两者之间匹配对(相互关系)的数量与在相关破坏集合信息33中注册的对(相互关系)的总数的比值。当共性程度等于或大于预先给出的边界共性程度时,相关模型比较单元25发出警告。
此处,相关破坏集合信息33包括与对的列表关联的边界共性程度和现象名称。
故障检测设备10包括管理员交互单元28,其显示带有警告的共性程度的时间序列变化。
按照这样的配置,故障检测设备10能够估计对于相互关系破坏可能发生的故障。
下文中将更加详细的解释第一示例性实施方式。
图2是示出根据本发明第一示例性实施方式的、包括故障检测设备10的故障原因提取系统1的示意性整体配置的说明图。根据第一示例性实施方式的故障原因提取系统1包括作为多个被管理设备的被监控计算机2A,2B,2C,…,以及管理这些计算机2的运行的故障检测设备10,它们通过网络3连接,从而能够相互通信。
故障检测设备10从每个被监控计算机2A,2B,2C,…获取性能信息,以及基于该性能信息执行以下描述的操作,其中该性能信息包括针对多个性能项目(例如,CPU利用率或者剩余内存容量)中的每个性能项目的性能值。尽管图2中示出了存在四个被监控计算机2A,2B,2C,2D的例子,但是被监控计算机2的数量是任意的。
图1是根据本发明第一示例性实施方式的故障检测设备10和被监控计算机2的配置的说明图。由于图2所示的被监控计算机2A,2B,2C,…具有与被监控计算机2A相同的配置,因此图1中省略了详细描述并且将它们共同命名为被监控计算机2。图3是示出图1所示的故障检测设备10的处理流程的说明图。
根据本发明第一示例性实施方式的故障检测设备10例如是通用计算机设备,并且包括作为计算机程序执行核心的主运算控制单元(CPU:中央处理单元)11,存储数据的存储单元12,通过网络3与其他计算机进行数据通信的通信单元13,以及接受来自管理员的操作并呈现处理结果的输入/输出单元14。
在故障检测设备10的主运算控制单元11中,性能信息累积单元22、相关模型生成单元23、相关分析单元24、相关模型比较单元25、故障分析单元27和管理员交互单元28中的每个均以计算机程序的形式运行。此外,正常状态性能信息31、相关模型信息32、相关破坏集合信息33和分析设置信息34中的每个被存储在存储单元12中。
被监控计算机2与故障检测设备10一样,也包括主运算控制单元51、存储单元52和通信单元53。当这些单元的功能分别与故障检测设备10中的主运算控制单元11、存储单元12和通信单元13相同时,被监控计算机2的主运算控制单元51中的服务执行单元61、信息收集单元62和对策执行单元63中的每个均以计算机程序的形式运行。
被监控计算机2的服务执行单元61提供信息和通信服务,例如web服务和商业服务。信息收集单元62检测服务执行单元61的运行状态,获取包含在运行状态中的性能信息,并将该信息发送给故障检测设备10的性能信息累积单元22。故障检测设备10的性能信息累积单元22接收来自每个被监控计算机2的信息收集单元62的性能信息,并将该信息作为正常状态性能信息31进行存储。
相关模型生成单元23在某个时间段内从正常状态性能信息31中取得性能信息,针对性能信息中的任意两个类型的性能值的时间序列,以两个时间序列中的一个作为输入、另一个作为输出,从而推导出转换函数(相关函数)。相关模型生成单元23将由该转换函数生成的性能值的序列与性能值的实际检测值的序列进行比较,根据两个值的序列之间的差值计算转换函数的权重信息。此外,通过对每一对类型重复该过程,相关模型生成单元23针对服务执行单元61的整体运行状态生成相关模型。相关模型生成单元23将生成的相关模型作为相关模型信息32进行存储。
相关分析单元24从性能信息累积单元22接收新检测到的性能信息(运行中的性能信息),分析包含在接收到的性能信息中的性能值是否在一定的误差范围内满足由存储在相关模型信息32中的相关模型的每个转换函数所表示的关系,并输出分析结果。
图4是更详细地解释图1和图3所示的相关分析单元24的操作的说明图。相关分析单元24包括作为函数的性能预测函数24a、预测误差计算函数24b、误差范围分析函数24c和相关破坏输出函数24d。性能预测函数24a将针对从性能信息累积单元22新接收的运行中的性能信息的第一元素的性能值应用到相关函数,并针对第二元素计算出预测性能值。预测误差计算函数24b将性能值与第二元素的预测性能值进行比较,并计算出预测误差。误差范围分析函数24c分析该预测误差是否在预定的误差范围内。如果预测误差超出了误差范围,则相关破坏输出函数24d判断第一元素和第二元素之间的相互关系被破坏并将其输出。
当第一和第二元素的运行中的性能信息分别被视为x和y,相关模型信息32中的相关函数被视为f,性能预测函数24a由x计算f(x),预测误差计算函数24b计算预测误差|y-f(x)|。误差范围分析函数24c分析该预测误差|y-f(x)|是否处于预先存储在相关分析单元24中的阈值的范围内,如果该预测误差超出了误差范围,则相关破坏输出函数24d将其输出。
故障分析单元27接收由性能信息累积单元22收集的运行状态和由相关分析单元24执行的分析结果,根据预先存储在分析设置信息34中的分析设置内容对故障的发生进行分析。分析设置单元34进一步包括作为相关分析单元24判断相互关系破坏的标准的阈值。
管理员交互单元28接收来自故障分析单元27的故障分析结果,通过输入/输出单元14将其呈现给管理员。然后,管理员交互单元28接收来自管理员的操作输入,并根据该操作输入命令被监控计算机2的对策执行单元63采取对策。对策执行单元63响应于来自管理员交互单元28的指令,执行针对服务执行单元61上的故障的对策处理。
以上是关于与前述专利文献1中公开的故障检测设备相同的配置和操作。根据第一示例性实施方式的故障检测设备10进一步包括运行在主运算控制单元11中的相关模型比较单元25和存储在存储单元12中的相关破坏集合信息33。当相关模型比较单元25判断该共性程度超过阈值时,管理员交互单元28将包括判断结果、被破坏的相互关系和该共性程度的警告显示给管理员。
图5是示出图1和图3所示的相关模型和相关破坏集合信息33的示例的说明图。相关破坏集合信息33包括过去发生的故障的现象名称33a、破坏相关列表33b以及边界共性程度33c,其中破坏相关列表33b是故障发生时观察到的破坏的相互关系的列表,边界共性程度33c是用于判断故障发生的共性程度的阈值。边界共性程度33c是被破坏的相互关系相对于破坏相关列表33b中的相互关系的比值的阈值。
相关破坏集合信息33由系统管理员基于故障实际发生时由相关分析单元24检测到的相关破坏的内容预先输入。多个这样的现象名称33a、破坏相关列表33b和边界共性程度33c的集合被存储。
相关模型比较单元25将由相关分析单元24检测到的当前被破坏的相互关系的列表与相关破坏集合信息33中的破坏相关列表33b相比较,基于这两者之间共同的被破坏的相互关系的数量计算“共性程度”,并且将该共性程度与边界共性程度33c相比较。
在相关模型比较单元25中,存储在相关破坏集合信息33中的多个现象名称33a、破坏相关列表33b和边界共性程度33c的集合中的仅一个集合被用于比较。例如,在包括web服务器、应用服务器和数据库服务器的典型三层配置的系统中,对于同一个相关模型,假使web服务器处于异常状态时的被破坏的相互关系和假使应用服务器处于异常状态时的被破坏的相互关系是不同的。例如,在前一种情形下,现象名称33a“web服务器异常”与包括那时观察到破坏的相互关系的破坏相关列表33b互相关联地存储。现象名称33a“应用服务器异常”也是如此。
边界共性程度33c是用于判断上述每种情况下现象正在发生的阈值。作为边界共性程度33c的值,用于判断的每个现象的不同值可由系统管理员预先输入。当具有现象名称33a的故障发生时,较高的边界共性程度33c使得能够仅检测与针对该故障观察到的相关破坏状态接近的相关破坏状态。然而,即使出现表示有很大可能性发生故障的相关破坏状态,也可以不输出警告且管理员可忽略该状态。相反地,较低的边界共性程度33c降低了表示有很大可能性发生故障的状态被忽略的可能性。然而,即使出现了并非由故障引起并且不需要紧急处理的相关破坏状态,也可以输出警告。系统管理员在设置边界共性程度33c时需要考虑到这一点。
在图2和图5(A)所示的例子中,存在四个计算机S1至S4作为被监控计算机2。这四个计算机S1至S4中的每个计算机中,信息收集单元62获取包括“CPU利用率”和“剩余内容容量”的性能信息作为性能项目,并将其传送给故障检测设备10。
在此,例如,计算机S1的CPU利用率“S1.CPU”和剩余内存容量“S1.MEM”分别被视为元素“A”和“B”。计算机S2的CPU利用率“S2.CPU”和剩余内存容量“S2.MEM”分别被视为元素“C”和“D”。计算机S3的CPU利用率“S3.CPU”和剩余内存容量“S3.MEM”分别被视为元素“E”和“F”。计算机S4的CPU利用率“S4.CPU”和剩余内存容量“S4.MEM”分别被视为元素“G”和“H”。
图5(A)表示用于说明由相关模型生成单元23为计算机S1至S4生成的相关模型信息32的相关模型101。在相关模型101中,分别地,计算出的权重等于或大于0.5的相互关系用“粗实线”表示,计算出的权重小于0.5的相互关系用“细实线”表示。在相关分析单元24的分析中,对相关模型中的六个条目(相互关系)“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“G-H”检测相关破坏。每个被检测到相关破坏的相互关系用“粗虚线”表示。
图5(B)表示存储在相关模型101的相关破坏集合信息33中的内容。在该示例中,表示以往四个计算机S1-S4中发生“S1超负荷”故障时有7个条目“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“C-E”和“E-F”被检测到相关破坏的信息已经被存储。现象名称33a为“S1超负荷”,与之关联的破坏相关列表33b包括“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“C-E”和“E-F”这7个条目。
此外,新检测到表示条目(相互关系)“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“C-E”和“E-F”中的每个被检测到相关破坏的信息。这些条目被表示在相关破坏检测列表102中。相关模型比较单元25将相关破坏检测列表102中的每个条目和与相关破坏集合信息33中的现象名称33a“S1超负荷”相关联的破坏相关列表33b中的每个条目进行比较。结果是,检测到相关破坏的7个条目中的5个条目被包含在与现象名称33a“S1超负荷”相关联的破坏相关列表33b中。相关模型比较单元25将这些条目的数量应用于下面的式1中以得到共性程度。
[式1]
共性程度=(相关破坏检测列表102与破坏相关列表33b之间共同的条目数量)/(破坏相关列表33b中的条目总数)
假设图5所示的例子中,与现象名称33a“S1超负荷”相关联的破坏相关列表33b的全部7个条目中有5个条目分别与相关破坏检测列表102中的条目匹配,则共性程度被计算为5/7,大约等于71.4%。例如,如果与现象名称33a“S1超负荷”相关联的边界共性程度33c定义为“大于或等于70%”,由于计算出的共性程度“71.4%”超过了边界共性程度33c,所以相关模型比较单元25通过管理员交互单元28向管理员呈现如下所述的警告屏幕。注意,如上所述的边界共性程度33c的定义可以设为任意的,设置为“等于或大于70%”仅仅是其中的一个例子。
图7是示出由图1和图3所示的故障检测设备10执行的、基于被破坏的相互关系预测可能发生的异常的操作的流程图。故障检测设备10接受来自管理员的如图5所示的相关破坏集合信息33的输入(步骤S101)。故障检测设备10接受针对相关破坏集合信息33中的现象名称和破坏相关列表的每个集合的边界共性程度33c的输入(步骤S102)。
故障检测设备10按照与专利文献1中公开的方式相同的方式,检测被监控计算机2的每个元素中发生的相关破坏,即,来自运行中的性能信息的相关破坏检测列表102的每个条目(步骤S103)。相关模型比较单元25将相关破坏集合信息33的破坏相关列表33b与针对检测到相关破坏的相关破坏检测列表102进行比较,从而利用式1获得共性程度。
结果是,当破坏相关列表33b与步骤S103中检测的相关破坏检测列表102之间的相关破坏的共性程度等于或者大于边界共性程度33c的值(步骤S104中为“是”)时,该相关模型比较单元25通过管理员交互单元28将其显示给管理员(步骤S105)。当共性程度小于边界共性程度33c的值(步骤S104中为“否”)时,从步骤S103继续处理。
注意,当多个现象名称33a和与之相关联的数据的集合存储在相关破坏集合信息33中时,故障检测设备10可以预先选择例如其中的任意一个集合,并且执行如图7所示的处理。故障检测设备10也可以针对相关破坏集合信息33中的多个数据集合中的每个执行该处理。当其中一个共性程度大于边界共性程度33c的值时,发出步骤S105中的警告。
图6是示出作为图7所示的处理结果的、由管理员交互单元28呈现的显示画面200的示例的说明图。显示画面200包括将当前检测的相关破坏状态与相关破坏集合信息33中注册的破坏相关列表33b相比较的比较显示200a、显示相关破坏共性程度的时间序列变化的共性程度变化图200b、和显示用于判断关于相关破坏状态的现象名称33a的异常类型显示200c。
(第一示例性实施方式的整体操作)
接下来解释上述第一示例性实施方式的整体操作。
根据示例性实施方式的故障检测设备10从包含在系统中的作为计算机设备的多个被管理设备2获取包括性能值的性能信息,并且提取被管理设备中发生的故障的原因,其中该性能信息是针对与被管理设备2的运行状态有关的多个性能项目中的每个性能项目的。
在性能项目、被管理设备或其组合被定义为一个元素(性能值的类型,或者仅仅是类型)的情况下,相关模型生成单元23从多个性能序列信息中推导出性能序列信息的任意两个元素之间的相关函数,并且生成包括针对每对元素的相关函数的相关模型,其中每个性能序列信息表示以固定的时间间隔获得的每个元素的性能值的时间序列变化。
当新检测到性能信息时,相关分析单元24对任意两个元素中第一元素新检测到的性能值应用该相关模型中的相关函数,针对任意两个元素中的第二元素计算预测性能值,比较第二元素的检测性能值与预测性能值并且计算预测误差。相关分析单元24针对新检测到的性能信息中的每一对元素分析预测误差是否位于预定误差范围内,如果该预测误差超出了误差范围,则判断第一和第二元素之间的相互关系被破坏。
存储单元12将相关破坏集合信息33与相关模型一起存储(图7中的步骤S101至102)。相关破坏集合信息33是这样一种数据,其将已判断为相互关系被破坏的元素对的列表(被检测到相关破坏的相互关系的列表)与已发生的故障的现象名称相关联。
相关模型比较单元25在已经判断其相互关系最近被破坏的元素对(最近被检测到相关破坏的相互关系)与相关破坏集合信息33之间执行匹配核查,并且计算共性程度,该共性程度是指其两者之间匹配对(相互关系)的数量与在数值相关破坏集合信息33中注册的对(相互关系)的总数的比值。当共性程度等于或大于预先给出的边界共性程度时,相关模型比较单元25发出警告(图7中的步骤S105)。
注意,以上描述的每个操作步骤都可以表达为程序,从而其可以由计算机执行,而且该程序可由作为可直接执行上述步骤的计算机的故障检测设备10执行。
接下来将解释本发明的第一示例性实施方式的特征配置。图24是示出本发明的第一示例性实施方式的特征配置的框图。
故障检测设备10包括存储单元12和相关模型比较单元25。
存储单元12存储相关破坏集合信息33,相关破坏集合信息33指示在表示系统中的多个性能值类型之间的相互关系的相关模型中包含的相互关系中,与发生故障时检测到相关破坏有关的相互关系。
相关模型比较单元25针对输入的性能值计算包含在相关破坏集合信息33中的相互关系与被检测到相关破坏的相互关系之间的共性程度。
根据本发明的第一示例性实施方式,对于被检测到的相关破坏,能够估计可能发生的故障,因为已预先准备了当系统发生故障时被检测到相关破坏的、包括元素对(相互关系)列表的相关破坏集合信息33,并且计算出包含在相互关系列表中的相互关系与新检测到相关破坏的相互关系之间的共性程度。
结果是,可以预测出具有高出现可能性的故障,并且提前准备针对该故障的对策。
此外,由于基于过去实际发生的故障的内容被存储在相关破坏集合信息33中,所以根据过去的经验准备故障的对策内容很有可能是显然的。因此,管理员针对故障准备对策的负担得以减轻。
(第二示例性实施方式)
除了根据第一示例性实施方式的故障检测设备10的配置之外,在根据第二示例性实施方式的故障检测设备310中,相关破坏集合信息33包括被检测到相关破坏的元素对(相互关系)列表与被管理设备2中实际发生的多个故障中的每个故障的现象名称之间的关联。对于多个故障中的每个故障,相关模型比较单元325计算针对相关分析单元24已经判断相互关系最近被破坏的元素对(最近被检测到相关破坏的相互关系)的共性程度,并且从最高的共性程度开始顺序地发出警告。
结果是,除了第一示例性实施方式的效果外,第二示例性实施方式还具有以下效果,即,针对很可能连续发生的多种故障类型,管理员也可以容易地采取对策。
以下将更加详细地解释这一点。
图8是示出根据本发明第二示例性实施方式、包括故障检测设备310的故障原因提取系统301的示意性整体配置的示例的说明图。根据第二示例性实施方式的故障原因提取系统301包括作为多个被管理设备的被监控计算机2A,2B,2C,…,以及管理这些计算机2的运行的故障检测设备310,它们通过网络3连接,从而能够相互通信。被监控计算机2A,2B,2C…与在第一示例性实施方式中解释的被监控计算机2相同。根据第一示例性实施方式的故障原因提取系统1的故障检测设备10被替换为故障检测设备310。
图9是示出图8所示的故障检测设备310的配置的说明图。图10是示出图9所示的故障检测设备310的处理流程的说明图。尽管根据本发明的第二示例性实施方式的故障检测设备310的基本配置与根据第一示例性实施方式的故障检测设备10相同,但是相关模型比较单元25被替换为相关模型比较单元325。
图11是示出由图9和图10所示的故障检测设备310执行的、基于被破坏的相互关系预测可能发生的异常的操作流程图。在图11中,对与根据图7所示的第一示例性实施方式的操作相同的操作给出了相同的参考数字。步骤S101至S103与根据第一示例性实施方式的操作相同。
对于相关破坏集合信息33中存储的多个现象名称33a、破坏相关列表33b和边界共性程度33c的集合中的每个集合,相关模型比较单元325将步骤S103中检测到的当前被破坏的相互关系与破坏相关列表33b进行比较,并利用上述图1所示的等式来计算共性程度。相关模型比较单元325判断是否存在其中共性程度等于或者大于边界共性程度33c的集合(注册数据)(步骤S404)。
当存在其中计算的共性程度等于或大于边界共性程度33c的注册数据时,相关模型比较单元25通过管理员交互单元28向管理员呈现对应于具有最高计算共性程度的破坏相关列表33b的现象名称33a(步骤S405)。当步骤S404中不存在其中计算的共性程度等于或大于边界共性程度33c的注册数据时,从步骤S103重复该处理。
图12是示出作为图11所示的处理结果的、由管理员交互单元28向管理员呈现的显示画面500的示例的说明图。显示画面500包括异常类型显示500b和比较显示500a,其中,异常类型显示500b从最高的共性程度开始顺序地显示与其中共性程度等于或大于边界共性程度33c的破坏相关列表33b相关联的现象名称33a,比较显示500a显示当前检测到的相关破坏状态与对应于异常类型显示500b中显示的现象名称33a的破坏相关列表33b的比较结果。
(第三示例性实施方式)
除了根据第一示例性实施方式的故障检测设备10的配置之外,根据第三示例性实施方式的故障检测设备610还包括相关破坏集合注册单元626。相关破坏集合注册单元626从管理员接受当前正在发生的现象名称的输入,并且将该元素对的列表(相互关系列表)与现象名称相互关联的存储为相关破坏集合信息33,其中所述现象名称是针对相关分析单元24已经判断相互关系当前被破坏的元素对的列表(被检测到相关破坏的相互关系的列表)的。
结果是,除了第一示例性实施方式的效果之外,第三示例性实施方式还具有以下效果,即关于实际发生的故障的相关破坏集合信息的注册变得更加容易。
以下将更加详细地解释这一点。
图13是示出根据本发明第三示例性实施方式的、包括故障检测设备610的故障原因提取系统601的示意性整体配置示例的说明图。根据第三示例性实施方式的故障原因提取系统601包括作为多个被管理设备的被监控计算机2A,2B,2C,…,以及管理这些计算机2的运行的故障检测设备610,它们通过网络3连接,从而能够相互通信。被监控计算机2A,2B,2C…与在第一示例性实施方式中解释的被监控计算机2相同。根据第一示例性实施方式的故障原因提取系统1的故障检测设备10被替换为故障检测设备610。
图14是示出图13所示的故障检测设备610的配置的说明图。图15是示出图14所示的故障检测设备610的处理流程的说明图。除了相关破坏集合注册单元626也在主运算控制单元11中运行之外,根据本发明的第三示例性实施方式的故障检测设备610的配置与根据第一示例性实施方式的故障检测设备10相同。
相关破坏集合注册单元626请求管理员针对相关分析单元24检测到的相关破坏集合输入现象名称和边界共性程度,并将输入的内容分别视为现象名称33a和边界共性程度33c。相关破坏集合注册单元626将检测到的相关破坏集合视为破坏相关列表33b,并且在相关破坏集合信息33中将破坏相关列表33b、现象名称33a和边界共性程度33c相互关联地进行存储。
图16是示出图14所示的故障检测设备610中检测到相关破坏的情况下、由管理员交互单元28呈现给管理员的显示画面700的内容的说明图。这一点对应于图23中所示的背景技术中所描述的故障原因提取设备910中的显示画面990。与显示画面990相同,相关破坏的数量700a、相关图700b、异常元素列表700c中的每一个都被显示在显示画面700上,此外,还提供了故障注册按钮700d。
当管理员按下该故障注册按钮700d时,打开对话框700e,管理员可以输入现象名称33a和边界共性程度33c。相关破坏集合注册单元626将显示为相关图700b的相关破坏集合视为破坏相关列表33b,并将破坏相关列表33b、输入的现象名称33a和边界共性程度33c相互关联地注册在相关破坏集合信息33中。
相关模型比较单元25利用注册的相关破坏集合信息33执行的操作与根据第一示例性实施方式的故障检测设备10相同。注意,相关破坏集合注册单元626可被添加到根据第二示例性实施方式的故障检测设备310中。
虽然参考其示例性实施方式详细示出和描述了本发明,但本发明并不限于这些实施方式。本领域普通技术人员可以理解的是,对此进行各种形式和细节上的改变将不脱离由权利要求所限定的本发明的实质和保护范围。
本发明基于并且要求2010年6月7日提交的日本专利申请No.2010-129842的优先权,在此通过引用并入其全部公开内容。
工业实用性
本发明可应用于提供信息和通信服务的通用计算机网络。
参考标记列表
1,301,601故障检测系统
2,2A,2B,2C  被监控计算机
3  网络
10,310,610  故障检测设备
11,51  主运算控制单元
12,52  存储单元
13,53  通信单元
14  输入/输出单元
22  性能信息累积单元
23  相关模型生成单元
24  相关分析单元
25,325  相关模型比较单元
27  故障分析单元
28  管理员交互单元
31  正常状态性能信息
32  相关模型信息
33  相关破坏集合信息
33a  现象名称
33b  破坏相关列表
33c  边界共性程度
34  分析设置信息
61  服务执行单元
62  信息收集单元
63  对策执行单元
101  相关模型
200,500,700  显示画面
200a,500a  比较显示
200b  共性程度变化图
200c,500b  异常类型显示
625  相关破坏集合注册单元
700a  相关破坏的数量
700b  相关图
700c  异常元素列表
700d  故障注册按钮
700e  对话框

Claims (16)

1.一种故障检测设备,包括:
存储单元,其存储相关破坏集合信息,所述相关破坏集合信息包括相关模型中所包含的一个或多个相互关系中的、均与故障发生时检测到的相关破坏有关的一个或多个相互关系,所述相关模型包括系统的多种类型的性能值中的不同类型的性能值之间的一个或多个相互关系,以及
相关模型比较单元,其计算包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对输入的性能值检测到的相关破坏有关的一个或多个相互关系之间的共性程度。
2.根据权利要求1所述的故障检测设备,其中
所述相关模型比较单元计算一个或多个相匹配的相互关系的数量与包含在所述相关破坏集合信息中的所述一个或多个相互关系的数量的比值,以作为所述共性程度,所述一个或多个相匹配的相互关系是包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对所述输入的性能值检测到的相关破坏有关的所述一个或多个相互关系之间相匹配的相互关系。
3.根据权利要求1所述的故障检测设备,其中
所述相关破坏集合信息包括所述故障的故障名称,并且
如果所述共性程度等于或大于预定阈值,则所述相关模型比较单元输出所述故障的所述故障名称。
4.根据权利要求1所述的故障检测设备,其中
所述相关破坏集合信息包括与多个所述故障的每个故障名称相关联的一个或多个相互关系,每个所述相互关系均与所述故障发生时检测到的相关破坏有关,以及
所述相关模型比较单元针对所述多个故障中的每个故障计算所述共性程度,所述共性程度是包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对所述输入的性能值检测到的相关破坏有关的所述一个或多个相互关系之间的共性程度。
5.根据权利要求3所述的故障检测设备,进一步包括:
相关破坏集合注册单元,当输入所述系统中发生的所述故障的所述故障名称时,其注册与所述故障名称相关联的所述一个或多个相互关系,每个所述相互关系均与针对所述输入的性能值检测到的相关破坏有关。
6.一种故障检测方法,包括:
存储相关破坏集合信息,所述相关破坏集合信息包括相关模型中所包含的相互关系中的、均与故障发生时检测到的相关破坏有关的一个或多个相互关系,所述相关模型包括系统的多种类型的性能值中不同类型的性能值之间的一个或多个相互关系,以及
计算包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对输入的性能值检测到的相关破坏有关的一个或多个相互关系之间的共性程度。
7.根据权利要求6所述的故障检测方法,其中
所述计算共性程度计算一个或多个相匹配的相互关系的数量与包含在所述相关破坏集合信息中的所述一个或多个相互关系的数量的比值,以作为所述共性程度,所述一个或多个相匹配的相互关系是包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对所述输入的性能值检测到的相关破坏有关的所述一个或多个相互关系之间相匹配的相互关系。
8.根据权利要求6所述的故障检测方法,其中
所述相关破坏集合信息包括所述故障的故障名称,并且
如果所述共性程度等于或大于预定阈值,则所述计算共性程度输出所述故障的所述故障名称。
9.根据权利要求6所述的故障检测方法,其中
所述相关破坏集合信息包括与多个所述故障的每个故障名称相关联的一个或多个相互关系,每个所述相互关系均与所述故障发生时检测到的相关破坏有关,以及
所述计算共性程度针对所述多个故障中的每个故障计算所述共性程度,所述共性程度是包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对所述输入的性能值检测到的相关破坏有关的所述一个或多个相互关系之间的共性程度。
10.根据权利要求8所述的故障检测方法,进一步包括:
当输入所述系统中发生的所述故障的所述故障名称时,注册与所述故障名称相关联的所述一个或多个相互关系,每个所述相互关系均与针对所述输入的性能值检测到的相关破坏有关。
11.一种用于故障检测的设备,包括:
用于存储相关破坏集合信息的装置,所述相关破坏集合信息包括相关模型中所包含的相互关系中的、均与故障发生时检测到的相关破坏有关的一个或多个相互关系,所述相关模型包括系统的多种类型的性能值中不同类型的性能值之间的一个或多个相互关系,以及
用于计算包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对输入的性能值检测到的相关破坏有关的一个或多个相互关系之间的共性程度的装置。
12.根据权利要求11所述的设备,其中
用于计算共性程度的所述装置计算一个或多个相匹配的相互关系的数量与包含在所述相关破坏集合信息中的所述一个或多个相互关系的数量的比值,以作为所述共性程度,所述一个或多个相匹配的相互关系是包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对所述输入的性能值检测到的相关破坏有关的所述一个或多个相互关系之间相匹配的相互关系。
13.根据权利要求11所述的设备,其中
所述相关破坏集合信息包括所述故障的故障名称,并且
如果所述共性程度等于或大于预定阈值,则用于计算共性程度的装置输出所述故障的所述故障名称。
14.根据权利要求11所述的设备,其中
所述相关破坏集合信息包括与多个所述故障的每个故障名称相关联的一个或多个相互关系,每个所述相互关系均与所述故障发生时检测到的相关破坏有关,以及
用于计算共性程度的装置针对所述多个故障中的每个故障计算所述共性程度,所述共性程度是包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对所述输入的性能值检测到的相关破坏有关的所述一个或多个相互关系之间的共性程度。
15.根据权利要求13所述的设备,进一步包括:
用于当输入所述系统中发生的所述故障的所述故障名称时,注册与所述故障名称相关联的所述一个或多个相互关系的装置,每个所述相互关系均与针对所述输入的性能值检测到的相关破坏有关。
16.一种故障检测设备,包括:
存储装置,用于存储相关破坏集合信息,所述相关破坏集合信息包括相关模型中所包含的一个或多个相互关系中的、均与故障发生时检测到的相关破坏有关的一个或多个相互关系,所述相关模型包括系统的多种类型的性能值中的不同类型的性能值之间的一个或多个相互关系,以及
相关模型比较装置,用于计算包含在所述相关破坏集合信息中的所述一个或多个相互关系和均与针对输入的性能值检测到相关破坏有关的一个或多个相互关系之间的共性程度。
CN201180028026.1A 2010-06-07 2011-06-06 故障检测设备、故障检测方法和程序记录介质 Expired - Fee Related CN103026344B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010129842 2010-06-07
JP2010-129842 2010-06-07
PCT/JP2011/063426 WO2011155621A1 (ja) 2010-06-07 2011-06-06 障害検出装置、障害検出方法およびプログラム記録媒体

Publications (2)

Publication Number Publication Date
CN103026344A CN103026344A (zh) 2013-04-03
CN103026344B true CN103026344B (zh) 2015-09-09

Family

ID=45098222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180028026.1A Expired - Fee Related CN103026344B (zh) 2010-06-07 2011-06-06 故障检测设备、故障检测方法和程序记录介质

Country Status (5)

Country Link
US (2) US8880946B2 (zh)
EP (1) EP2579156B1 (zh)
JP (1) JP5267736B2 (zh)
CN (1) CN103026344B (zh)
WO (1) WO2011155621A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5051228B2 (ja) * 2007-07-30 2012-10-17 富士通株式会社 電子機器、情報処理システム、電子機器の障害通知方法、および障害通知プログラム
JP5267736B2 (ja) * 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
JP5267749B2 (ja) * 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
EP2759938B1 (en) * 2011-09-19 2019-09-11 Nec Corporation Operations management device, operations management method, and program
WO2013111560A1 (ja) * 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN104205063B (zh) 2012-03-14 2017-05-24 日本电气株式会社 操作管理装置、操作管理方法和程序
KR20140051513A (ko) * 2012-10-23 2014-05-02 한국전자통신연구원 데이터 분산 서비스 모니터링 장치 및 그 방법
WO2014125796A1 (ja) 2013-02-18 2014-08-21 日本電気株式会社 システム分析装置、及び、システム分析方法
JP6387747B2 (ja) * 2013-09-27 2018-09-12 日本電気株式会社 情報処理装置、障害回避方法およびコンピュータプログラム
US10157113B2 (en) 2014-05-16 2018-12-18 Nec Corporation Information processing device, analysis method, and recording medium
CN105786678B (zh) * 2014-12-25 2018-09-25 北京电子工程总体研究所 一种基于相关性模型的测试性预计方法
WO2016147656A1 (ja) 2015-03-16 2016-09-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
CN108141649B (zh) * 2015-10-19 2020-12-22 株式会社能率 通信适配器
WO2017169949A1 (ja) * 2016-03-30 2017-10-05 日本電気株式会社 ログ分析装置、ログ分析方法及びプログラムを格納する記録媒体
JP6649214B2 (ja) * 2016-09-12 2020-02-19 クラリオン株式会社 ログ送信装置、ログ収集システム
CN107370618B (zh) * 2017-06-05 2020-06-05 北京奇艺世纪科技有限公司 故障排查方法、装置及电子设备
JP2020154828A (ja) * 2019-03-20 2020-09-24 富士通株式会社 データ補完プログラム、データ補完方法及びデータ補完装置
US20220382614A1 (en) * 2021-05-26 2022-12-01 Nec Laboratories America, Inc. Hierarchical neural network-based root cause analysis for distributed computing systems
CN114912642B (zh) * 2022-07-18 2022-12-20 中科云策(深圳)科技成果转化信息技术有限公司 一种基于互联网的人工智能机器人故障预测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314769A (ja) * 1995-05-18 1996-11-29 Hitachi Ltd 障害情報採取方法
US7318178B2 (en) * 2001-03-22 2008-01-08 International Business Machines Corporation Method and system for reducing false alarms in network fault management systems
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091972A1 (en) * 2001-01-05 2002-07-11 Harris David P. Method for predicting machine or process faults and automated system for implementing same
US7529974B2 (en) * 2006-11-30 2009-05-05 Microsoft Corporation Grouping failures to infer common causes
JP4413915B2 (ja) 2006-12-13 2010-02-10 株式会社東芝 異常兆候検出装置および方法
US7509234B2 (en) * 2007-08-16 2009-03-24 Gm Global Technology Operations, Inc. Root cause diagnostics using temporal data mining
JP4872945B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
WO2010044797A1 (en) * 2008-10-16 2010-04-22 Hewlett-Packard Development Company, L.P. Performance analysis of applications
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
EP2490126B1 (en) * 2009-10-15 2020-08-26 Nec Corporation System operation management device, system operation management method, and program storage medium
US8719636B2 (en) * 2010-02-15 2014-05-06 Nec Corporation Apparatus method, and storage medium for fault cause extraction utilizing performance values
JP5267736B2 (ja) * 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
JP5267749B2 (ja) * 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
EP2690559B1 (en) * 2011-03-23 2020-08-26 Nec Corporation Operation administration system, operation administration method, and program
EP2759938B1 (en) * 2011-09-19 2019-09-11 Nec Corporation Operations management device, operations management method, and program
WO2013111560A1 (ja) * 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN104205063B (zh) * 2012-03-14 2017-05-24 日本电气株式会社 操作管理装置、操作管理方法和程序
WO2014125796A1 (ja) * 2013-02-18 2014-08-21 日本電気株式会社 システム分析装置、及び、システム分析方法
JP6183449B2 (ja) * 2013-02-26 2017-08-23 日本電気株式会社 システム分析装置、及び、システム分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314769A (ja) * 1995-05-18 1996-11-29 Hitachi Ltd 障害情報採取方法
US7318178B2 (en) * 2001-03-22 2008-01-08 International Business Machines Corporation Method and system for reducing false alarms in network fault management systems
WO2010032701A1 (ja) * 2008-09-18 2010-03-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム

Also Published As

Publication number Publication date
WO2011155621A1 (ja) 2011-12-15
EP2579156A4 (en) 2015-08-12
US8880946B2 (en) 2014-11-04
US9529659B2 (en) 2016-12-27
CN103026344A (zh) 2013-04-03
EP2579156A1 (en) 2013-04-10
JP5267736B2 (ja) 2013-08-21
JPWO2011155621A1 (ja) 2013-08-15
US20150127987A1 (en) 2015-05-07
EP2579156B1 (en) 2019-08-28
US20120185737A1 (en) 2012-07-19

Similar Documents

Publication Publication Date Title
CN103026344B (zh) 故障检测设备、故障检测方法和程序记录介质
CN102713862B (zh) 故障原因提取装置、故障原因提取方法和程序记录介质
JP4980581B2 (ja) 性能監視装置、性能監視方法及びプログラム
EP2759938B1 (en) Operations management device, operations management method, and program
CN103797468A (zh) 系统异常的自动化检测
US9704382B2 (en) Method for calculating error rate of alarm
US20190068467A1 (en) Cloud Network Stability
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN107302469B (zh) 分布式服务集群系统数据更新的监控装置及方法
EP3615892A1 (en) Method and system for detecting anomalies in energy consumption
Marashi et al. Identification of interdependencies and prediction of fault propagation for cyber–physical systems
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
US9886082B2 (en) Power protection and remediation
JP2018207690A (ja) データ管理システム
CN114238020A (zh) 多维度的高精度智能业务监控方法及系统
CN107533492A (zh) 中继装置和程序
JP6832890B2 (ja) 監視装置、監視方法、及びコンピュータプログラム
JP2019191880A (ja) 設備管理支援システム
JP6979562B2 (ja) エネルギーデータベースシステム
KR20060076337A (ko) 에프티에이를 이용한 불량 데이터 관리 시스템
Atanasov MODELING ASPECTS OF AUTONOMOUS SMART METERING INFORMATION SYSTEMS.
CN109739210A (zh) 设备部件健康状态的评估方法及装置
JP7411724B2 (ja) システム分析装置及びシステム分析方法
JP5261510B2 (ja) ネットワーク監視装置及び方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150909