CN105027088A - 系统分析设备和系统分析方法 - Google Patents

系统分析设备和系统分析方法 Download PDF

Info

Publication number
CN105027088A
CN105027088A CN201480009299.5A CN201480009299A CN105027088A CN 105027088 A CN105027088 A CN 105027088A CN 201480009299 A CN201480009299 A CN 201480009299A CN 105027088 A CN105027088 A CN 105027088A
Authority
CN
China
Prior art keywords
association
failure mode
polymerization
type
identical type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480009299.5A
Other languages
English (en)
Other versions
CN105027088B (zh
Inventor
矢吹谦太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN105027088A publication Critical patent/CN105027088A/zh
Application granted granted Critical
Publication of CN105027088B publication Critical patent/CN105027088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0243Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
    • G05B23/0254Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model based on a quantitative model, e.g. mathematical relationships between inputs and outputs; functions: observer, Kalman filter, residual calculation, Neural Networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

在使用关联破坏模式进行系统状态检测时,提高了关联破坏模式的多用性。一种系统分析设备包括(100):关联破坏模式存储单元(113)、聚合破坏模式产生单元(104)和相似度计算单元(105)。关联破坏模式存储单元(113)存储多个关联破坏模式(123),各关联破坏模式是系统中的成对度量的关联之中的检测到关联破坏的关联集合。聚合破坏模式产生单元(104)产生通过聚合所述多个关联破坏模式(123)之中的同一类型的关联破坏模式而得到的聚合破坏模式(124)。相似度计算单元(105)计算并输出所述聚合破坏模式(124)和新检测到的关联破坏模式(123)之间的相似度。

Description

系统分析设备和系统分析方法
技术领域
本发明涉及系统分析设备和系统分析方法。
背景技术
在PTL1中描述了操作管理系统的一个示例,该操作管理系统使用系统性能的时序信息来对系统进行建模,并且使用所产生的模型来确定系统的故障、异常等的原因。
PTL1中描述的操作管理系统基于系统的多个度量的测量值来确定指示多个度量当中的每一对的关联的关联函数,以产生系统的关联模型。然后,操作管理系统使用所产生的关联模型来检测关联的破坏(关联破坏),并且基于关联破坏来确定系统的故障原因。以该方式基于关联破坏来分析系统状态的技术被称为不变关系分析。
在不变关系分析中,在PTL2中公开了用于基于关联破坏的状态在过去的故障的时间和当前时间之间的相似度来确定故障原因的技术的一个示例。PTL2中描述的操作管理设备将度量分类为若干组,并且将在各个组中在过去的故障发生的时间和当前发生的时间之间的关联破坏的多个度量的分布。然而,在PTL2的操作管理设备中,即使关联破坏发生的度量在各个组中是不同的,当各个组中关联破坏发生的多个度量的分布类似时,可以确定是相同的故障。
在PTL3中公开了用于解决该问题的技术的一个示例。PTL3中描述的操作管理设备比特关联破坏在过去的故障的时间和当前之间的关联的模式(关联破坏模式)。通过比较在关联模型中的各个关联中的关联破坏的发生的存在或不存在的对应比率,操作管理设备确定故障的原因。
[引用列表]
[专利文献]
[PTL1]日本专利公开No.4872944
[PTL2]WO 2010/032701
[PTL3]WO 2011/155621
发明内容
技术问题
在上述PTL3的技术中,因为比较关联破坏模式,所以需要在过去故障时的系统和当前时间的系统是具有相同关联模型的相同系统过去出现故障时的系统和目前的系统需要是具有相同关联模式的相同系统。另外,除非过去出现故障时的故障位置和当前时间的故障位置是相同的,否则无法确定是相同的故障。
例如,当系统的关联模型在过去故障时和当前时间之间存在改变,则通过添加执行分布式处理的相同类型的设备,在过去故障时无法使用关联故障模式来确定故障原因。另外,当过去出现故障的设备和当前出现故障的设备是执行分布式处理的相同类型的设备,但是是不同设备时,无法使用过去故障时的关联破坏模式来确定故障原因。
本发明的目的是为了解决上述问题,并且提供一种系统分析设备和系统分析方法,该系统分析设备和系统分析方法可以在使用关联破坏模式的系统的状态检测中,改善关联破坏模式的多用性。
对问题的解决方案
根据本发明的示例性方面的系统分析设备包括:关联破坏模式存储装置,用于存储多个关联破坏模式,其中的每一个是在系统中的度量对的关联当中检测到的关联破坏的关联集合;聚合破坏模式产生装置,用于产生通过聚合多个关联破坏模式当中的相同类型的关联破坏模式而得到的聚合破坏模式;以及相似度计算装置,用于计算并且输出在聚合的破坏模式和新检测到的关联破坏模式之间的相似度。
根据本发明的示例性方面的系统分析方法包括:存储多个关联破坏模式,其中的每一个是在系统中的度量对的关联当中检测到的关联破坏的关联集合;产生通过聚合多个关联破坏模式当中的相同类型的关联破坏模式而得到的聚合破坏模式;以及计算并且输出在聚合的破坏模式和新检测到的关联破坏模式之间的相似度。
根据本发明的示例性方面的计算机可读存储介质记录有程序,该程序使得计算机执行方法,包括:存储多个关联破坏模式,其中的每一个是在系统中的度量对的关联当中检测到的关联破坏的关联集合;产生通过聚合多个关联破坏模式当中的相同类型的关联破坏模式而得到的聚合破坏模式;以及计算并且输出在聚合的破坏模式和新检测到的关联破坏模式之间的相似度。
本发明的有益效果
本发明的有益效果将能够在使用关联破坏模式的系统的状态检测中,改善关联破坏模式的多用性。
附图说明
图1是示出本发明的示例性实施例的特征配置的框图。
图2是示出本发明的示例性实施例中的系统分析设备100的配置的框图。
图3是示出本发明的示例性实施例中的被监视系统的示例的示图。
图4是示出本发明的示例性实施例中的聚合破坏模式产生处理的流程图。
图5是示出本发明的示例性实施例中的异常水平计算处理的流程图。
图6是示出本发明的示例性实施例中的关联模型122的示例的示图。
图7是示出本发明的示例性实施例中的关联映射125的示例的示图。
图8是示出本发明的示例性实施例中的关联破坏检测结果的示例的示图。
图9是示出本发明的示例性实施例中的关联破坏模式123的示例的示图。
图10是示出本发明的示例性实施例中的关联破坏检测结果的另一示例的示图。
图11是示出本发明的示例性实施例中的关联破坏模式123的另一个示例的示图。
图12是示出本发明的示例性实施例中的聚合破坏模式124的产生示例的示图。
图13是示出本发明的示例性实施例中的关联破坏检测结果的另一示例的示图。
图14是示出本发明的示例性实施例中的关联破坏模式123的另一个示例的示图。
图15是示出本发明的示例性实施例中的相似度的计算示例的示图。
图16是示出本发明的示例性实施例中的显示画面300的示例的示图。
具体实施方式
将描述本发明的示例性实施例。
首先,将描述本发明的示例性实施例的配置。图2是示出本发明的示例性实施例中的系统分析设备100的配置的框图。
参考图2,本发明的示例性实施例中的系统分析设备100连接到包括一个或多个被监视设备200的被监视系统。被监视设备200是配置被监视系统的服务器设备或网络设备。这里,提供相同服务的被监视设备200,诸如分布地布置的服务器设备或网络设备,属于相同的设备组。可以给出包括设备组的标识符的被监视设备200的设备标识符。
要注意,在下面的描述中,引号中的代码指示标识符。例如,设备组“WEB”指示具有标识符WEB的设备组,并且Web服务器“WEB1”指示具有标识符WEB1的Web服务器。
图3是示出本发明的示例性实施例中的被监视系统的示例的示图。在图3的示例中,如被监视设备200,被监视系统包括网络设备“NW1”和“NW2”、Web服务器“WEB1”、“WEB2”和“WEB3”、应用(AP)服务器“AP1”和“AP2”以及数据库(DB)服务器“DB1”和“DB2”。这里,网络设备“NW1”和“NW2”属于设备组“NW”。Web服务器“WEB1”、“WEB2”和“WEB3”属于设备组“WEB”。应用(AP)服务器“AP1”和“AP2”属于设备组“AP”。数据库(DB)服务器“DB1”和“DB2”属于设备组“WEB”。
被监视设备200以规则间隔测量被监视设备200的多个项的性能值的实际测量数据(测量值),并且将实际测量数据传送到系统分析设备100。例如,作为性能值的项,使用计算机资源或网络资源的利用率或使用率,诸如CPU(中央处理单元)利用率、存储器利用率、磁盘存取频率和输入/输出分组计数。
这里,被监视设备200和性能值的项的组合被定义为度量(性能指标),并且同时测量的多个度量的值的组合被定义为性能信息。用整数或十进制数的数值来表示度量。该度量对应于PTL1中产生关联模型的“元件”。
下文中,用设备标识符和性能值的项的组合来指示度量的标识符。例如,度量“WEB 1.CPU”指示Web服务器“WEB 1”的CPU利用率。另外,度量“NW1.IN”指示网络设备“NW 1”的输入分组计数。
系统分析设备100基于从被监视设备200收集的性能信息来产生被监视系统的关联模型122,并且使用所产生的关联模型122来分析被监视系统的状态。
系统分析设备100包括性能信息收集单元101、关联模型产生单元102、关联破坏检测单元103、聚合的破坏模式产生单元104、相似度计算单元105和对话单元106。系统分析设备100进一步包括性能信息存储单元111、关联模型存储单元112、关联破坏模式存储单元113和聚合破坏模式存储单元114。
性能信息收集单元101从被监视设备200收集性能信息。
性能信息存储单元111存储由性能信息收集单元101收集的性能信息的时序变量作为性能序列信息121。
关联模型产生单元102基于性能序列信息121来产生被监视系统的关联模型122。
这里,关联模型122包括指示多个度量当中的每个度量对的关联的关联函数(或转换函数)。关联函数是下述函数:使用度量对中的一个度量(输入度量)的时间t时和之前的时序数据和另一度量(输出度量)的时间t之前的时序数据来估计时间t时的输出度量的值。关联模型产生单元102基于在预定建模时段中的性能信息来确定每个度量对的相关函数的系数。如PTL1的操作管理设备的情况,通过对度量的测量值的时序进行系统识别处理来确定关联函数的系数。关联模型产生单元102可以基于每个度量对的关联函数的转换误差来计算权重,并且使用其权重等于或大于预定值的关联函数的集合(有效关联函数)作为关联模型122,如PTL 1的操作管理设备的情况。
图6是示出本发明的示例性实施例中的关联模型122的示例的示图。关联模型122包括每个度量对的关联函数。下文中,在输入度量(X)和输出度量(Y)之间的关联函数被称为fx,y
图7是示出本发明的示例性实施例中的关联映射125的示例的示图。图7的关联映射125对应于图6的关联模型122。在图7中,用由节点(圆形)和箭头组成的图形指示关联模型122。这里,每个节点指示度量,度量之间的箭头指示关联。另外,箭头的源指示输入度量,并且箭头的目的地指示输出度量。
下文中,用一对输入度量的标识符和输出度量的标识符来指示关联模型122中的每个关联。例如,关联“NW1.IN-WEB1.CPU”指示输入度量“NW1.IN”并且输出度量“WEB1.CPU”的关联。
关联模型存储单元112存储由关联模型产生单元102所产生的关联模型122。
关联破坏检测单元103相对于新输入的性能信息来检测包括在关联模型122中的关联的关联破坏,如PTL 1的操作管理设备的情况一样。
这里,关联破坏检测单元103将度量的测量值输入到关联函数,以官于每对度量得到输出度量的预测值,如PTL 1的情况。然后,当在得到的输出度量的预测值和输出度量的测量值之间的差(由于关联函数而导致的转换误差)等于或大于预定值时,关联破坏检测单元103检测该对的关联的关联破坏。
图8、图10和图13是示出本发明的示例性实施例中的关联破坏检测结果的示例的示图。在图8、图10和图13中,用虚线箭头指示在图7的关联映射125上检测到的关联破坏的关联。
另外,关联破坏检测单元103产生关联破坏模式123,其中的每一个是已经检测到关联破坏的关联的集合。
图9、图11和图14是示出本发明的示例性实施例中的关联破坏模式123的示例的示图。图9、图11和图14的关联破坏模式123分别对应于图8、图10和图13的关联破坏检测结果。
关联破坏模式123包括检测到关联破坏的关联集合。另外,关联破坏模式123还可以包括标识在检测到关联破坏时出现的故障或异常的故障名称或异常名称。在该情况下,例如,由管理员等关于在故障或异常发生时检测到关联破坏的关联的集合来设置故障名称或异常名称。
关联破坏模式存储单元113存储由关联破坏检测单元103产生的关联破坏模式123。
聚合破坏模式产生单元104从存储在关联破坏模式存储单元113中的关联破坏模式123提取相同类型的关联破坏模式123,并且产生通过聚合相同类型的关联破坏模式123所得到的聚合破坏模式124。
聚合破坏模式存储单元114存储由聚合破坏模式产生单元104所产生的聚合破坏模式124。
相似度计算单元105计算在新检测到的关联破坏模式123和聚合破坏模式124之间的相似度。
对话单元106向管理员等提供相似度计算单元105对相似度的计算结果。
系统分析设备100可以是包括CPU和存储程序的存储介质并且基于程序进行控制来操作的计算机。另外,性能信息存储单元111、关联模型存储单元112、关联破坏模式存储单元113和聚合破坏模式存储单元114可以是单独的存储介质或者可以通过一个存储介质来配置。
接下来,将描述本发明的示例性实施例中的系统分析设备100的操作。
这里,假设图6中示出的关联模型122是关联模型产生单元102基于预定建模时段中的性能信息来产生的,并且被存储在关联模型存储单元112中。另外,假设图9、图11的关联破坏模式123a、123b是关于在Web服务器“WEB 1”、“WEB 2”的故障时检测到的图8、图10的关联破坏而产生的,并且被存储在关联破坏模式存储单元113中。
首先,将描述本发明的示例性实施例中的聚合破坏模式产生处理。
图4是示出本发明的示例性实施例中的聚合破坏模式产生处理的流程图。
聚合破坏模式产生单元104从存储在关联破坏模式存储单元113中的关联破坏模式123来提取相同类型的关联破坏模式123(步骤S101)。
图12是示出本发明的示例性实施例中的聚合破坏模式124的产生示例的示图。
这里,聚合破坏模式产生单元104确定在关联破坏模式123之间的具有相同度量类型对的关联,并且预定范围内的关联系数的差异是相同类型的关联。这里,具有相同度量类型对意味着,在关联之间,输入度量类型和输出度量类型分别是相同的。然后,聚合破坏模式产生单元104提取包括例如预定数目或更多个或者预定比率或更大的相同类型的关联的关联破坏模式123作为相同类型的关联破坏模式123。
度量类型被确定为使得在被监视系统上以相同方式表现的度量是相同类型的度量。例如,具有提供相同服务(属于相同设备组)的不同被监视设备200中的性能值的相同项的度量是相同类型的度量。
例如,基于度量的标识符中包括的性能值的项和设备组来确定度量类型。另外,当度量的标识符包括度量类型时,可以从度量的标识符得到度量类型。另外,当度量的标识符和度量类型相关联的信息被存储在附图中未示出的存储单元中时,可以基于该信息来确定度量类型。
下文中,用被监视设备200所属于的设备组和性能值的项的组合来指示度量类型。例如,度量类型“WEB.CPU”指示根据属于设备组“WEB”的被监视设备200的CPU利用率的度量。另外,度量类型“NW.IN”指示根据属于设备组“NW”的被监视设备200的输入分组计数的度量。另外,用输入度量类型和输出度量类型的组合来指示度量类型对。例如,度量类型对“NW.IN-WEB.CPU”指示输入度量类型是“NW.IN”,并且输出度量类型是“WEB.CPU”。
例如,在图12中,包括在关联破坏模式123a中的关联“NW1.IN-WEB 1.CPU”和包括在关联破坏模式123b中的关联“NW2.IN-WEB 3.CPU”的度量类型对是相同的“NW.IN-WEB.CPU”。这里,假设关联“NW 1.IN-WEB 1.CPU”的关联函数fn1,w1和关联“NW2.IN-WEB 3.CPU”的关联函数fn2,w3的关联系数之间的差在预定范围内。在该情况下,聚合破坏模式产生单元104确定这些关联是相同类型。
类似地,假设其度量类型对是“NW.IN-AP.CPU”的关联“NW1.IN-AP 1.CPU”的关联函数fw1,a1和关联“NW 2.IN-AP 2.CPU”的关联函数fw2,a2的关联系数之间的差在预定范围内。在该情况下,聚合破坏模式产生单元104确定这些关联也是相同类型。此外,假设其度量类型对是“WEB.CPU-AP.CPU”的关联“WEB 1.CPU-AP 1.CPU”的关联函数fw1,a1和关联“WEB 3.CPU-AP 2.CPU”的关联函数fw2,a2的关联系数之间的差在预定范围内。在该情况下,聚合破坏模式产生单元104确定这些关联也是相同类型。
另一方面,假设其度量类型对是“AP.CPU-DB.CPU”的关联“AP1.CPU-DB 1.CPU”的关联函数fa1,d1和关联“AP 2.CPU-DB 2.CPU”的关联函数fa2,d2的关联系数之间的差超过预定范围。在该情况下,聚合破坏模式产生单元104确定这些关联不是相同类型。
然后,例如,假设当相同类型的关联的比率等于或大于60%时,确定关联破坏模式123是相同类型。在该情况下,聚合破坏模式产生单元104提取关联破坏模式123a和关联破坏模式123b作为相同类型的关联破坏模式123。
要注意,聚合破坏模式产生单元104可以在不使用关联系数的情况下确定具有相同度量类型对的关联是相同类型的关联。
接下来,聚合破坏模式产生单元104基于相同类型的关联破坏模式123来产生聚合破坏模式124(步骤S102)。
这里,聚合破坏模式124包括相同类型的关联被聚合的聚合关联集合。根据相同类型的关联的度量类型对用于聚合关联。
下文中,通过一对输入度量类型和输出度量类型来指示每个聚合关联。例如,聚合关联“NW.IN-WB.CPU”指示输入度量类型是“NW.IN”并且输出度量类型是“WEB.CPU”的聚合关联。
例如,在图12中,聚合破坏模式产生单元104在聚合破坏模式124中根据与聚合关联相同类型的关联“NW.IN-WB.CPU”、“NW.IN-AP.CPU”和“WEB.CPU-AP.CPU”来设置度量类型对。
另外,聚合破坏模式产生单元104可以在聚合破坏模式124中设置对相同类型的关联破坏模式123的故障名称或异常名称公共的故障名称或异常名称。在该情况下,例如,管理员等可以关于相同类型的关联破坏模式123来设置公共故障名称或异常名称。
例如,在图12中,聚合破坏模式产生单元104在聚合破坏模式124中设置故障名称“WEB故障”。
接下来,将描述本发明的示例性实施例中的异常水平计算处理。
图5是示出本发明的示例性实施例中的异常水平计算处理的流程图。
关联破坏检测单元103使用由性能信息收集单元101新收集的性能信息来检测包括在关联模型122中的关联的关联破坏,并且产生新的关联破坏模式123(步骤S201)。
例如,关联破坏检测单元103关于新收集的性能信息来检测图13的关联破坏,并且产生图14的关联破坏模式123c。
接下来,相似度计算单元105计算在聚合破坏模式124和新的关联破坏模式123之间的相似度(步骤S202)。
这里,当包括在聚合破坏模式124中的聚合关联和包括在新的关联破坏模式123中的关联具有相同度量类型对时,相似度计算单元105确定聚合关联和关联是相同类型。这里,具有相同度量类型对意味着,在聚合关联和关联之间,输入度量类型和输出度量类型分别是相同的。然后,例如,相似度计算单元105计算与包括在新的关联破坏模式123中的关联相同类型的包括在聚合破坏模式124中的聚合关联当中的聚合关联的数目或比率作为相似度。
图15是示出本发明的示例性实施例中的相似度计算示例的示图。
例如,在图15中,包括在关联破坏模式123c中的关联“NW2.IN-WEB 2.CPU”的度量类型对与包括在聚合破坏模式124中的聚合关联“NW.IN-WEB.CPU”相同。因此,相似度计算单元105确定聚合关联“NW.IN-WEB.CPU”和关联“NW 2.IN-WEB 3.CPU”是相同类型。类似地,相似度计算单元105确定聚合关联“WEB.CPU-AP.CPU”和关联“WEB 2.CPU-AP 1.CPU”是相同类型。
然后,相似度计算单元105计算67%作为相似度,67%是相同类型的聚合关联的比率。
接下来,相似度计算单元105通过对话单元106将相似度的计算结果输出给管理员等(步骤S203)。这里,相似度计算单元105可以一起输出相似度与包括在聚合破坏模式124中的故障名称或异常名称。另外,相似度计算单元105可以按相似度的顺序输出关于各个多个聚合破坏模式124的相似度列表。
图16是示出本发明的示例性实施例中的显示画面300的示例的示图。显示画面300包括相似度列表显示单元301和关联破坏模式比较画面302。
在图16的示例中,在相似度列表显示单元301中,故障名称和相似度的组合以相似度的降序作为列表被显示。另外,在关联破坏模式比较画面302中,关于所选择的故障,显示在聚合破坏模式124(过去故障时的关联破坏)和关联破坏模式123(当前关联破坏)之间的比较结果。
管理员等参考显示画面300,并且可以确定具有大相似度的故障或异常可能在被监视系统中发生。
例如,管理员等可以基于图16的显示画面300来确定具有大相似度的WEB服务(“WEB 2”)的故障可能发生。
因此,完成了本发明的示例性实施例的操作。
要注意,在本发明的示例性实施例中,聚合破坏模式产生单元104提取输入度量类型和输出度量类型分别相同的关联作为相同类型的关联。然而,聚合破坏模式产生单元104可以提取下述关联作为相同类型的关联:一侧的输入度量类型和输出度量类型分别与另一侧的输出度量类型和输入度量类型相同。类似地,相似度计算单元105确定输入度量类型和输出度量类型分别相同的聚合关联和关联是相同类型。然而,相似度计算单元105可以确定一侧的输入度量类型和输出度量类型分别与另一侧的输出度量类型和输入度量类型相同的关联和聚合关联是相同类型。
接下来,将描述本发明的示例性实施例的特征配置。图1是示出本发明的示例性实施例的特征配置的框图。
参考图1,系统分析设备100包括关联破坏模式存储单元113、聚合破坏模式产生单元104和相似度计算单元105。
关联破坏模式存储单元113存储多个关联破坏模式123,其中的每一个是系统中度量对的关联当中的检测到关联破坏的关联的集合。聚合破坏模式产生单元104产生聚合破坏模式124,聚合破坏模式124是通过聚合多个关联破坏模式123当中的相同类型的关联破坏模式123来得到的。相似度计算单元105计算并且输出在聚合破坏模式124和新检测到的关联破坏模式123之间的相似度。
根据本发明的示例性实施例,在使用关联破坏模式的系统的状态检测中,可以改善关联破坏模式的多用性。原因如下。聚合破坏模式产生单元104生成聚合破坏模式124,聚合破坏模式124是通过聚合多个关联破坏模式123当中的相同类型的关联破坏模式123而得到的。然后,相似度计算单元105计算在聚合破坏模式124和新检测到的关联破坏模式123之间的相似度。
因此,即使在关联模型中存在改变,例如,添加了执行分布式处理的相同类型的设备,通过使用基于在过去故障或异常时的关联破坏模式123所产生的聚合破坏模式124,可以确定故障或异常的成因。另外,即使过去出现故障或异常的设备和当前出现故障或异常的设备是执行分布式处理的相同类型的设备,但是是不同设备,则可以使用聚合破坏模式124来确定故障或异常的原因。
虽然已经参考本发明的示例性实施例具体示出和描述了本发明,但是本发明不限于这些实施例。本领域的普通技术人员应当理解,在不脱离权利要求书限定的本发明的精神和范围的情况下,可以进行形式和细节上的各种改变。
例如,在上述示例性实施例中,被监视系统是包括服务器设备、网络设备等作为被监视设备200的IT系统。然而,被监视系统可以是另一系统,只要产生被监视系统的关联模型并且可以基于关联破坏确定异常原因。例如,被监视系统可以是诸如工厂设备或电站的工厂系统、诸如桥梁或隧道的结构、或诸如车辆或飞行器的运输设备。在该情况下,系统分析设备100使用诸如温度、振动、位置、电流、电压、速度和角度的各种传感器值作为度量,来产生关联模型122。然后,系统分析设备100产生聚合破坏模式124,并且使用具有相同类型并且以相同方式(例如布置在相同位置处)表现的传感器来计算相似度作为相同类型的度量。
本申请基于并且要求2013年2月18日提交的日本专利申请No.2013-028746的优先权权益,其全部公开内容通过引用合并于此。
工业实用性
本发明可以适用于诸如IT系统、工厂系统、物理系统或社交系统的系统分析,其基于在关联模型上检测到的关联破坏来确定异常或故障的原因。
附图标记列表
100 系统分析设备
101 性能信息收集单元
102 关联模型产生单元
103 关联破坏检测单元
104 聚合破坏模式产生单元
105 相似度计算单元
106 对话单元
111 性能信息存储单元
112 关联模型存储单元
113 关联破坏模式存储单元
114 聚合破坏模式存储单元
121 性能序列信息
122 关联模型
123 关联破坏模式
124 聚合破坏模式
125 关联映射
200 被监视设备
300 显示画面
301 相似度列表显示单元
302 关联破坏模式比较画面

Claims (12)

1.一种系统分析设备,包括:
关联破坏模式存储装置,所述关联破坏模式存储装置用于存储多个关联破坏模式,所述多个关联破坏模式中的每一个是在系统中度量对的关联当中的检测到关联破坏的关联的集合;
聚合破坏模式产生装置,所述聚合破坏模式产生装置用于产生聚合破坏模式,所述聚合破坏模式是通过聚合在所述多个关联破坏模式当中的相同类型的关联破坏模式而得到的;以及
相似度计算装置,所述相似度计算装置用于计算并输出在所述聚合破坏模式和新检测到的关联破坏模式之间的相似度。
2.根据权利要求1所述的系统分析设备,其中,
所述聚合破坏模式产生装置提取包括预定数目或更多个或者相同类型的关联的预定比率或更大的关联破坏模式作为相同类型的关联破坏模式,并且产生聚合关联集合作为聚合破坏模式,所述聚合关联集合是通过聚合在所提取的关联破坏模式当中的相同类型的关联而得到的,并且
所述相似度计算装置计算与所述新检测到的关联破坏模式中所包括的关联相同类型的聚合破坏模式中所包括的聚合关联当中的聚合关联的数目或比率作为所述相似度。
3.根据权利要求2所述的系统分析设备,其中,
所述聚合破坏模式产生装置确定具有相同度量类型对的关联是相同类型的关联,并且使用根据与所述聚合关联相同类型的关联的所述度量类型对,并且
当所述聚合关联的度量类型对和根据所述新检测到的关联破坏模式中所包括的关联的所述度量类型对相同时,所述相似度计算装置确定所述聚合关联和所述新检测到的关联破坏模式中所包括的关联是相同类型。
4.根据权利要求3所述的系统分析设备,其中,
所述聚合破坏模式产生装置确定具有相同度量类型对和预定范围内的关联系数差的关联是相同类型的关联。
5.一种系统分析方法,包括:
存储多个关联破坏模式,所述多个关联破坏模式中的每一个是在系统中度量对的关联当中的检测到关联破坏的关联的集合;
产生聚合破坏模式,所述聚合破坏模式是通过聚合在所述多个关联破坏模式当中的相同类型的关联破坏模式而得到的;以及
计算并输出在所述聚合破坏模式和新检测到的关联破坏模式之间的相似度。
6.根据权利要求5所述的系统分析方法,其中,
当产生所述聚合破坏模式时,提取包括预定数目或更多个或者相同类型的关联的预定比率或更大的关联破坏模式作为相同类型的关联破坏模式,并且产生聚合关联集合作为聚合破坏模式,所述聚合关联集合是通过聚合在所提取的关联破坏模式当中的相同类型的关联而得到的,并且
当计算所述相似度时,计算与所述新检测到的关联破坏模式中所包括的关联相同类型的聚合破坏模式中所包括的聚合关联当中的聚合关联的数目或比率作为所述相似度。
7.根据权利要求6所述的系统分析方法,其中,
当产生所述聚合破坏模式时,确定具有相同度量类型对的关联是相同类型的关联,并且使用根据与所述聚合关联相同类型的关联的所述度量类型对,并且
当计算所述相似度时,在所述聚合关联的度量类型对和根据所述新检测到的关联破坏模式中所包括的关联的所述度量类型对相同的情况下,确定所述聚合关联和所述新检测到的关联破坏模式中所包括的关联是相同类型。
8.根据权利要求7所述的系统分析方法,其中,
当产生所述聚合破坏模式时,确定具有相同度量类型对和预定范围内的关联系数差的关联是相同类型的关联。
9.一种记录有程序的计算机可读存储介质,所述程序使得计算机执行方法,所述方法包括:
存储多个关联破坏模式,所述多个关联破坏模式中的每一个是在系统中度量对的关联当中的检测到关联破坏的关联的集合;
产生聚合破坏模式,所述聚合破坏模式是通过聚合在所述多个关联破坏模式当中的相同类型的关联破坏模式而得到的;以及
计算并输出在所述聚合破坏模式和新检测到的关联破坏模式之间的相似度。
10.根据权利要求9所述的记录有程序的计算机可读存储介质,所述程序使得计算机执行所述方法,其中,
当产生所述聚合破坏模式时,提取包括预定数目或更多个或者相同类型的关联的预定比率或更大的关联破坏模式作为相同类型的关联破坏模式,并且产生聚合关联集合作为聚合破坏模式,所述聚合关联集合是通过聚合在所提取的关联破坏模式当中的相同类型的关联而得到的,并且
当计算所述相似度时,计算与所述新检测到的关联破坏模式中所包括的关联相同类型的聚合破坏模式中所包括的聚合关联当中的聚合关联的数目或比率作为所述相似度。
11.根据权利要求10所述的记录有程序的计算机可读存储介质,所述程序使得计算机执行所述方法,其中,
当产生所述聚合破坏模式时,确定具有相同度量类型对的关联是相同类型的关联,并且使用根据与所述聚合关联相同类型的关联的所述度量类型对,并且
当计算所述相似度时,在所述聚合关联的度量类型对和根据所述新检测到的关联破坏模式中所包括的关联的所述度量类型对相同的情况下,确定所述聚合关联和所述新检测到的关联破坏模式中所包括的关联是相同类型。
12.根据权利要求11所述的记录有程序的计算机可读存储介质,所述程序使得计算机执行所述方法,其中,
当产生所述聚合破坏模式时,确定具有相同度量类型对和预定范围内的关联系数差的关联是相同类型的关联。
CN201480009299.5A 2013-02-18 2014-02-05 系统分析设备和系统分析方法 Active CN105027088B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013028746 2013-02-18
JP2013-028746 2013-02-18
PCT/JP2014/000613 WO2014125796A1 (ja) 2013-02-18 2014-02-05 システム分析装置、及び、システム分析方法

Publications (2)

Publication Number Publication Date
CN105027088A true CN105027088A (zh) 2015-11-04
CN105027088B CN105027088B (zh) 2018-07-24

Family

ID=51353809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480009299.5A Active CN105027088B (zh) 2013-02-18 2014-02-05 系统分析设备和系统分析方法

Country Status (5)

Country Link
US (1) US20150363250A1 (zh)
EP (1) EP2958023B1 (zh)
JP (1) JP5971395B2 (zh)
CN (1) CN105027088B (zh)
WO (1) WO2014125796A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164417A (zh) * 2020-10-10 2021-01-01 上海威固信息技术股份有限公司 一种存储芯片的性能检测方法和系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10445253B2 (en) * 2016-04-20 2019-10-15 International Business Machines Corporation Cost effective service level agreement data management
JP2017204017A (ja) * 2016-05-09 2017-11-16 公益財団法人鉄道総合技術研究所 プログラム、生成装置及び予兆検知装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168619A (ja) * 1993-10-20 1995-07-04 Hitachi Ltd 機器/設備診断方法およびシステム
US20100205483A1 (en) * 2009-02-12 2010-08-12 Ken Ishiou Operation management apparatus and method thereof
WO2011099341A1 (ja) * 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
US20120185737A1 (en) * 2010-06-07 2012-07-19 Ken Ishiou Fault detection apparatus, a fault detection method and a program recording medium
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4201027B2 (ja) * 2006-07-10 2008-12-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数の観測結果の間の差異を検出するシステムおよびその方法
US7770072B2 (en) * 2007-01-16 2010-08-03 Xerox Corporation Method and system for analyzing time series data
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5375829B2 (ja) 2008-09-18 2013-12-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
US8069370B1 (en) * 2010-07-02 2011-11-29 Oracle International Corporation Fault identification of multi-host complex systems with timesliding window analysis in a time series
JP5267749B2 (ja) * 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP5803463B2 (ja) * 2011-09-13 2015-11-04 日本電気株式会社 セキュリティイベント監視装置、方法およびプログラム
EP2759938B1 (en) * 2011-09-19 2019-09-11 Nec Corporation Operations management device, operations management method, and program
JP5831558B2 (ja) * 2012-01-23 2015-12-09 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168619A (ja) * 1993-10-20 1995-07-04 Hitachi Ltd 機器/設備診断方法およびシステム
US20100205483A1 (en) * 2009-02-12 2010-08-12 Ken Ishiou Operation management apparatus and method thereof
WO2011099341A1 (ja) * 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体
US20120185737A1 (en) * 2010-06-07 2012-07-19 Ken Ishiou Fault detection apparatus, a fault detection method and a program recording medium
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164417A (zh) * 2020-10-10 2021-01-01 上海威固信息技术股份有限公司 一种存储芯片的性能检测方法和系统

Also Published As

Publication number Publication date
EP2958023A1 (en) 2015-12-23
JP5971395B2 (ja) 2016-08-17
EP2958023B1 (en) 2022-04-27
EP2958023A4 (en) 2016-11-16
US20150363250A1 (en) 2015-12-17
JPWO2014125796A1 (ja) 2017-02-02
WO2014125796A1 (ja) 2014-08-21
CN105027088B (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
CN104137078A (zh) 操作管理设备、操作管理方法和程序
US9389946B2 (en) Operation management apparatus, operation management method, and program
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
US8874963B2 (en) Operations management apparatus, operations management method and program thereof
CN105027088A (zh) 系统分析设备和系统分析方法
US10346758B2 (en) System analysis device and system analysis method
CN104756106A (zh) 表征数据存储系统中的数据源
EP2963552B1 (en) System analysis device and system analysis method
JP2017207894A (ja) 統合監視運用システムおよび方法
CN102546205B (zh) 一种故障关系生成及故障确定方法及装置
US20160117622A1 (en) Shared risk group management system, shared risk group management method, and shared risk group management program
Zhang et al. A clustering-based QoS prediction approach for web service selection
WO2021123924A1 (en) Log analyzer for fault detection
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
Wenjuan et al. Construction Method and Typical Application of Data Analysis Service for Power Grid Enterprises Based on Data Middle Platform
CN116187975A (zh) 设备运行状态检测方法、装置、计算机设备和存储介质
CN117729576A (zh) 告警监控方法、装置、设备及存储介质
CN116560882A (zh) 故障根因定位方法、装置、设备及计算机存储介质
CN114760186A (zh) 告警分析方法、装置、电子设备及存储介质
CN117950901A (zh) 异常根因定位方法、设备、介质及产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant