CN103502951B - 操作管理系统、操作管理方法及其程序 - Google Patents

操作管理系统、操作管理方法及其程序 Download PDF

Info

Publication number
CN103502951B
CN103502951B CN201280014481.0A CN201280014481A CN103502951B CN 103502951 B CN103502951 B CN 103502951B CN 201280014481 A CN201280014481 A CN 201280014481A CN 103502951 B CN103502951 B CN 103502951B
Authority
CN
China
Prior art keywords
time period
detection
related damages
abnormality degree
described detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280014481.0A
Other languages
English (en)
Other versions
CN103502951A (zh
Inventor
野野垣阳介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN103502951A publication Critical patent/CN103502951A/zh
Application granted granted Critical
Publication of CN103502951B publication Critical patent/CN103502951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明的目的是最小化针对将要被分析的多个系统的不变量分析中的故障检测延迟。一种操作管理系统(1)包括相关模型存储单元(212)、分析顺序存储单元(412)、分析单元(300)以及顺序控制单元(400)。相关模型存储单元(212)存储相关模型(222),该相关模型(222)代表对于多个系统中的每个系统的多个类型的性能值之间的相关性。分析顺序存储单元(412)存储对于该多个系统的相关破坏检测顺序。在多个周期中的每个周期内,分析单元(300)根据所述检测顺序,使用针对该周期输入的性能值来检测是否发生所述多个系统中的每个系统的相关模型(222)中所包含的相关性的相关破坏。顺序控制单元(400)在所述多个周期中的每个周期内更新所述检测顺序。

Description

操作管理系统、操作管理方法及其程序
技术领域
本发明涉及操作管理系统、操作管理方法及其程序,并且尤其涉及检测系统故障的操作管理系统、操作管理方法及其程序。
背景技术
在专利文献1中公开了操作管理系统的一个示例,其通过从关于系统性能的时域顺序信息生成系统模型并使用所生成的系统模型来检测系统的故障。
根据专利文献1中所公开的操作管理系统,基于针对系统的多个类型的性能值的测得值,确定该多个类型中每一对类型的相关函数,并继而生成包括多个确定的相关函数的相关模型。继而,所述操作管理系统通过使用生成的相关模型来判断在新输入的测得性能值中是否发生相关破坏,并通过检测造成集中的相关破坏的性能类型来标识故障的原因。如上所述,基于相关破坏来分析故障原因的技术被称为不变量分析。
由于不变量分析关注的不是性能值的大小,而是性能值之间的相关性,因此不变量分析与通过将每个性能值与阈值执行比较来检测故障的情况相比具有以下优点:无需设置阈值;并且可以检测无法通过使用阈值来检测的故障;并且容易标识异常原因等。
在对多个被分析系统——例如,对全国各地数十个被分析系统——执行不变量分析的情况下,如果在每个被分析系统中布置执行不变量分析的装置,则会增加投资成本。
因此,设想到一种方法,其由布置在管理全国各地的系统的数据中心或者类似场所内并为多个被分析系统工作的一个分析装置来依次对所述多个被分析系统中的每一个执行不变量分析。
[引文列表]
[专利文献]
[专利文献1]日本专利申请公开第2009-199533号
发明内容
[技术问题]
然而,在一个分析装置依次对多个被分析系统中的每一个执行专利文献1中所描述的不变量分析的情况中,存在一个问题,即:对分析顺序安排靠后的系统的故障的检测遭受延迟,并且因此不可能适当地通知和执行对策。
例如,在由于每个被分析系统包括大量服务器而需要几秒钟来对每个被分析系统执行不变量分析的情况中,当对数十个被分析系统应用不变量分析时,需要几分钟来检测分析顺序安排靠后的系统的故障。
本发明的一个目标在于提供能够在应用于多个被分析系统的不变量分析中减少故障检测延迟的操作管理系统、操作管理方法及其程序。
[问题解决方案]
根据本发明的示例性方面的操作管理系统包括:相关模型存储装置,用于针对多个系统中的每个系统存储相关模型,该相关模型指示多个类型的性能值之间的相关性;分析顺序存储装置,用于存储该多个系统中的检测顺序,以供执行对相关破坏的检测;分析装置,用于在多个时间段中的每个时间段内,基于所述检测顺序,通过使用针对多个时间段中的每个时间段输入的性能值,来执行对是否发生多个系统中的每个系统的相关模型中所包括的相关性的相关破坏的检测;以及顺序控制装置,用于在多个时间段中的所述每个时间段内更新所述检测顺序。
根据本发明的示例性方面的操作管理方法包括:针对多个系统中的每个系统存储相关模型,该相关模型指示多个类型的性能值之间的 相关性;存储该多个系统中的检测顺序,以供执行对相关破坏的检测;在多个时间段中的每个时间段内,基于所述检测顺序,通过使用针对多个时间段中的每个时间段输入的性能值,来执行对是否发生所述多个系统中的每个系统的相关模型中所包括的相关性的相关破坏的检测;以及在多个时间段中的每个时间段内更新所述检测顺序。
根据本发明的示例性方面的计算机可读存储介质,在其上记录程序,使得计算机执行以下方法,包括:针对多个系统中的每个系统存储相关模型,该相关模型指示多个类型的性能值之间的相关性;存储该多个系统中的检测顺序,以供执行对相关破坏的检测;在多个时间段中的每个时间段内,基于所述检测顺序,通过使用针对多个时间段中的每个时间段输入的性能值,来执行对是否发生所述多个系统中的每个系统的相关模型中所包括的相关性的相关破坏的检测;以及在多个时间段中的每个时间段内更新所述检测顺序。
[发明有利效果]
本发明的效果在于,可以在应用于多个被分析系统的不变量分析中减少故障检测的延迟。
附图说明
[图1]示出本发明第一示例性实施方式的典型配置的框图。
[图2]示出根据本发明第一示例性实施方式的操作管理系统1的配置的框图。
[图3]示出由所述根据本发明第一示例性实施方式的操作管理系统1执行的过程的流程图。
[图4]示出由所述根据本发明第一示例性实施方式的操作管理系统1执行的相关破坏检测过程(步骤S102)的细节的流程图。
[图5]示出根据本发明第一示例性实施方式的性能序列信息221的示例的示图。
[图6]示出根据本发明第一示例性实施方式的相关模型222的示例的示图。
[图7]示出根据本发明第一示例性实施方式的相关破坏信息223的示例的示图。
[图8]示出根据本发明第一示例性实施方式的相关破坏模式224的示例的示图。
[图9]示出根据本发明第一示例性实施方式计算异常度的示例的示图。
[图10]示出根据本发明第一示例性实施方式的异常度信息421的示例的示图。
[图11]示出根据本发明第一示例性实施方式的分析顺序信息422的示例的示图。
[图12]示出根据本发明第一示例性实施方式在每个时间段中执行的相关破坏检测过程的示例的示图。
[图13]示出根据本发明第一示例性实施方式计算检测顺序的示例的示图。
[图14]示出根据本发明第一示例性实施方式的分析顺序信息422的另一示例的示图。
[图15]示出根据本发明第二示例性实施方式的操作管理系统1的配置的框图。
[图16]示出由所述根据本发明第二示例性实施方式的操作管理系统1执行的过程的流程图。
[图17]示出根据本发明第二示例性实施方式的未分析系统信息423的示例的示图。
[图18]示出根据本发明第二示例性实施方式在每个时间段中执行的相关破坏检测过程的示例的示图。
[图19]示出根据本发明第二示例性实施方式计算检测顺序的示例的示图。
[图20]示出根据本发明第二示例性实施方式计算检测顺序的示例的示图。
[图21]示出根据本发明第二示例性实施方式计算检测顺序的示例 的示图。
[图22]示出根据本发明第三示例性实施方式在每个时间段中执行的相关破坏检测过程的示例的示图。
[图23]示出根据本发明第三示例性实施方式计算检测顺序的示例的示图。
[图24]示出根据本发明第三示例性实施方式计算检测顺序的示例的示图。
[图25]示出根据本发明第三示例性实施方式计算检测顺序的示例的示图。
具体实施方式
(第一示例性实施方式)
接下来,将描述根据本发明的第一示例性实施方式。
首先,将描述根据本发明第一示例性实施方式的配置。图2为示出根据本发明第一示例性实施方式的操作管理系统1的配置的框图。
参考图2,根据本发明第一示例性实施方式的操作管理系统1包括多个被分析系统100(100a、100b、100c...)、多个分析控制单元200(200a、200b和200c...)、分析单元300以及顺序控制单元400。
被分析系统100包括一个或多个被监控装置,诸如构成所述被分析系统的网络服务器、应用服务器和数据库服务器等。
分析控制单元200分别与被分析系统100相连接。分析控制单元200生成关于被分析系统100的相关模型222。此外,分析控制单元200向用户输出分析结果并针对检测到的故障执行对策。
分析控制单元200包括性能信息收集单元201、相关模型生成单元202、管理员交互单元203、对策执行单元204、性能信息存储单元211、相关模型存储单元212、相关破坏存储单元213以及相关破坏模式存储单元214。
在此,性能信息收集单元201从被分析系统100中所包括的每个被监控装置收集以预定时间间隔在被监控装置中测量的多个项目的 性能值的测得数据(测得值)。作为性能值的项目,例如,收集CPU(中央处理器)(简称为CPU)的使用率、存储器(简称为MEM)的使用量、磁盘(简称为DSK)的使用量等。在此,将一组被监控装置和性能值项目定义为性能值的类型(性能类型(或简称为类型)),并且将一组同时测量的多个类型的性能值定义为性能信息。性能信息收集单元201使性能信息存储单元211存储该性能信息的时域顺序变化作为性能序列信息211。
图5为示出根据本发明第一示例性实施方式的性能序列信息211的示例的示图。根据图5中的示例,性能序列信息221包括:具有装置标识符SV1的被监控装置的CPU使用率(SV1.CPU)、存储器使用量(SV1.MEM)以及磁盘使用量(SV1.DSK),具有装置标识符SV2的被监控装置200的CPU使用量(SV2.CPU)等,作为性能类型。
相关模型生成单元202基于性能序列信息221来生成被分析系统100的相关模型222。在此,相关模型生成单元202基于性能序列信息221中所包括的以预定时间间隔收集的性能信息来确定指示所述多个性能类型当中一对性能类型的相关性的相关函数(转换函数),并生成相关模型222,该相关模型222为所确定的相关函数的集合。该相关函数基于一个性能类型的测得值的时域序列,来估计另一性能类型的性能值的时域序列。如专利文献1中所示,该相关函数在向一对性能类型的测得值的时域序列应用的系统标识过程中得到确定。相关模型生成单元202可基于由相关函数所造成的转换误差的平均值来计算每个相关函数的权重。在此,所述权重随着所述转换误差的平均值变大而变小。继而,相关模型生成单元202可使相关模型222仅包括具有大于预定值的权重的相关函数。
相关模型存储单元212存储由相关模型生成单元202所生成的相关模型222。
图6为示出根据本发明第一示例性实施方式的相关模型222的示例的示图。在图6中,每个节点意指性能类型,并且由所述节点之间 的实线所指示的箭头意指两个性能类型当中从一个到另一个的相关性。对于这些相关性中的每个相关性确定相关函数(未在该图中示出)。
相关破坏存储单元213存储相关破坏信息223,该相关破坏信息223为相关模型222中相关破坏检测的结果,并且从分析单元300来获取。
图7为示出根据本发明第一示例性实施方式的相关破坏信息223的示例的示图。相关破坏信息223生成于性能信息的每次测量时间,并且包括:作为相关破坏检测的目标的性能信息的测量时间;在相关模型222中所包括的相关性(输入和输出);以及根据每个相关性的相关破坏检测结果。在该相关破坏检测结果中,“o”是指未发生相关破坏,而“x”是指发生了相关破坏。图7示出了对图6中所示的相关模型222的相关破坏检测的结果的示例。
相关破坏模式存储单元214存储相关破坏模式224,该相关破坏模式224被用于在分析单元300中计算信令故障度。
图8为示出根据本发明第一示例性实施方式的相关破坏模式224的示例的示图。如图8中所示,该相关破坏模式224包括一组或多组分配给过去故障的标识符(故障标识符),以及当发生故障时对每个相关性的相关破坏检测结果的列表。图8示出了针对图6中所示相关模型222的相关破坏模式224的示例。
管理员交互单元203向管理员等通知从分析单元300获取的相关破坏检测结果,并接收管理员发出的指令,诸如针对故障的对策。
对策执行单元204在被分析系统100上执行由管理员所指示的对策。
分析单元300与多个分析控制单元200(200a、200b、...)相连接,并对多个被分析系统100(100a、100b、...)中的每个被分析系统的相关模型222中的相关性执行相关破坏检测。
分析单元300包括相关破坏检测单元301。
相关破坏检测单元301在时域中连续的多个时间段中的每个时间 段内,对多个被分析系统100中的每个被分析系统的相关模型222中所包括的相关性执行相关破坏的检测。在每个时间段中,相关破坏检测单元301从分析控制单元200的性能信息存储单元211获取将要被分析的性能信息,并依次对性能信息执行相关破坏检测。
在此,每个时间段的时间长度可与上述用于收集性能值的时间间隔相同。在这种情况下,相关破坏检测单元301在每个时间段中从性能信息存储单元211获取新收集的性能信息,并继而执行相关破坏检测。
相关破坏检测单元301与专利文献1中所描述的技术类似,通过使用将要被分析的性能信息以及存储于相关模型存储单元212中的相关模型222,来检测该相关模型222中所包括的相关性的相关破坏。相关破坏检测单元301计算通过将包括在将要被分析的性能信息中的一对性能类型当中的一个性能类型的测得值输入至与该对性能类型有关的相关函数中而获得的值与该对性能类型当中另一性能类型的测得值之间的差异。继而,如果该差异等于或大于预定值,则相关破坏检测单元301判断发生了该对性能类型的相关破坏。
相关破坏检测单元301基于由获取自顺序控制单元400的分析顺序信息422所指示的在多个被分析系统100中的“相关破坏检测的顺序”,来依次对每个被分析系统100执行相关破坏检测。在本发明的第一示例性实施方式中,假定在每个时间段内完成对所有被分析系统100执行的相关破坏检测。
此外,相关破坏检测单元301基于检测到的相关破坏来计算每个被分析系统100的异常度,并将该异常度发送至顺序控制单元400。在此,相关破坏检测单元301计算“相关破坏度”和“信令故障度”作为异常度。
该相关破坏度指示相关模型222中的相关破坏的程度。在本发明的示例性实施方式中,使用相关模型222中所包括的相关性当中被相关破坏检测单元301检测到相关破坏的相关性的数目作为相关破坏度。在相关破坏度大的情况下,估计有在被分析系统100中发生故障 的可能性。
图9为示出根据本发明第一示例性实施方式计算异常度的示例的示图。例如,在如图7中所示的由相关破坏检测单元301在图6中的相关模型222中的5个相关性上检测到相关破坏的情况下,相关破坏度如图9中所示为5。
相关破坏度具有当被分析系统的相关模型222中所包括的相关性的数目较大时变大的倾向。
在此,相关破坏检测单元301可使用由另一方法计算出的值作为相关破坏度,只要该值指示相关破坏度即可。例如,相关破坏检测单元301可使用分配给被检测到相关破坏的相关性的总权重作为相关破坏度。
信令故障度指示由相关破坏检测单元301所执行的相关破坏检测的结果与在过去发生故障时的相关破坏检测的结果之间的相似性(相似度)。在本发明的示例性实施方式中,使用由相关破坏检测单元301对每个相关性执行的是否检测到相关破坏的判断的结果与对于相关破坏模式224中的每个相关性执行的是否检测到相关破坏的判断的结果之间的重合度作为信令故障度。当该重合度大时,认为有在被分析系统100中此刻发生或者将来会发生与相关破坏模式224所指示的故障相同的故障的可能性。
例如,在对于图6中所示的相关模型222,如图7中所示在5个相关性上检测到相关破坏,并且相关破坏模式224被设置成如图8中所示的情况下,判断是否检测到相关破坏的结果如图9中所示对于8个相关性重合。在这种情况下,通过将判断是否检测到相关破坏的结果所重合的相关性的数目除以相关性的数目,在判断是否检测到相关破坏的结果上的重合度等于80%。
信令故障度具有当被分析系统的相关模型222中所包括的相关性的数目较小时变大的倾向。
在此,相关破坏检测单元301可使用由另一方法计算出的值作为信令故障度,只要该值指示由相关破坏检测单元301执行的相关破坏 检测的结果与在过去发生故障时的相关破坏检测的结果之间的相似性(相似度)即可。例如,相关破坏检测单元301可通过比较每个被检测到相关破坏的相关性而不是比较判断是否检测到相关破坏的结果,来查出被检测到相关破坏的相关性的相似性,并继而使用该相似性作为信令故障度。此外,相关破坏检测单元301可将所述相关性分为若干组,并查出关于被检测到相关破坏的相关性的数目的每组分布的相似性,并使用该相似性作为信令故障度。
顺序控制单元400与分析单元300相连接。该顺序控制单元400确定和更新在多个被分析系统100中的相关破坏检测的顺序。
顺序控制单元400包括分析顺序确定单元401、异常度存储单元411和分析顺序存储单元412。
分析顺序确定单元401在上述多个时间段中的每个时间段内,基于存储在异常度存储单元411中的每个被分析系统100的异常度来确定在多个被分析系统100中执行相关破坏检测的顺序,并更新存储于分析顺序存储单元412中的分析顺序信息422。
异常度存储单元411存储从分析单元300获取的、指示每个被分析系统100的异常度的异常度信息421。图10为示出根据本发明第一示例性实施方式的异常度信息421的示例的示图。如图10中所示,该异常度信息421包括被分析系统100的标识符(系统标识符),以及被定义为被分析系统100的异常度的相关破坏度和信令故障度。
分析顺序存储单元412存储分析顺序信息422,该分析顺序信息422指示在多个被分析系统100中执行相关破坏检测的顺序。在此,由分析顺序确定单元401来确定执行相关破坏检测的顺序。图11为示出根据本发明第一示例性实施方式的分析顺序信息422的示例的示图。如图11中所示,分析顺序信息422包括被分析系统100的系统标识符以及执行被分析系统100的相关破坏检测的顺序。
在此,分析控制单元200、分析单元300和顺序控制单元400之中的每一个可以是包括CPU和存储了程序的存储介质并且利用基于该程序的控制而工作的计算机。
在此,分析单元300和顺序控制单元400可被布置在一个装置中。另外,分析控制单元200可包括被分析系统100。
此外,可将多个被分析系统100与一个分析控制单元200相连接。在这种情况下,分析控制单元200生成多个被分析系统100中的每个被分析系统的相关模型222,并且对多个被分析系统100中的每个被分析系统执行相关破坏检测。另外,在这种情况下,分析控制单元200、分析单元300和顺序控制单元400可被布置在一个装置中。
接下来,将描述根据本发明第一示例性实施方式的操作管理系统1的操作。
图3为示出由根据本发明第一示例性实施方式的操作管理系统1所执行的过程的流程图。图12为示出根据本发明第一示例性实施方式在每个时间段内执行的相关破坏检测过程的示例的示图。
在此,假定每个被分析系统100的相关模型222由对应的分析控制单元200来生成,并被存储在相关模型存储单元212中。
首先,在上述多个时间段中的每个时间段内,分析单元300的相关破坏检测单元301从顺序控制单元400的分析顺序存储单元412获取分析顺序信息422(步骤S101)。
例如,相关破坏检测单元301在图12中所示的时间段1内获取图11中所示的分析顺序信息422。在此,可例如按被分析系统100的系统标识符的升序来确定检测顺序作为初始状态。
相关破坏检测单元301基于获取的分析顺序信息422来执行相关破坏检测过程(步骤S102)。
图4为示出由根据本发明第一示例性实施方式的操作管理系统1执行的相关破坏检测过程(步骤S102)的细节的流程图。
相关破坏检测单元301根据分析顺序存储单元412,依次对每个被分析系统100重复步骤S152至S157(步骤S151)。
相关破坏检测单元301从分析控制单元200的性能信息存储单元211获取针对当前时间段的性能信息(步骤S152)。相关破坏检测单元301从分析控制单元200的相关模型存储单元212获取相关模型 222(步骤S153)。相关破坏检测单元301通过使用获取的性能信息和获取的相关模型222,来对相关模型222中所包括的相关性执行相关破坏检测(步骤S154)。相关破坏检测单元301将相关破坏检测的结果作为相关破坏信息223存储在分析控制单元200的相关破坏存储单元213中(步骤S155)。
相关破坏检测单元301基于检测到的相关破坏来计算被分析系统100的异常度(步骤S156)。相关破坏检测单元301将计算出的异常度作为异常度信息421存储在顺序控制单元400的异常度存储单元411中(步骤S157)。
例如,在图12中所示的时间段1内,相关破坏检测单元301根据图11中所示的分析顺序信息422,以系统标识符S1、S2、S3和S4的顺序,分别对在相应的被分析系统100中测量的时间段1的性能信息d11、d21、d31和d41执行相关破坏检测和计算异常度。作为结果,图10中所示的针对每个被分析系统100的异常度信息421被存储在异常度存储单元411中。
接下来,顺序控制单元400的分析顺序确定单元401从异常度存储单元411获取异常度信息421(步骤S103)。
分析顺序确定单元401基于在异常度信息421中所包括的每个被分析系统100的相关破坏度,向每个被分析系统100分配用于评价异常度的评价得分(下文中称为得分)(步骤S104)。分析顺序确定单元401基于在异常度信息421中所包括的每个被分析系统100的信令故障度,向每个被分析系统100分配得分(步骤S105)。在此,分析顺序确定单元401分配根据所有被分析系统100中的相关破坏度或信令故障度的顺序而变大的值,相应地作为关于相关破坏度或信令故障度的得分。
图13为示出根据本发明第一示例性实施方式计算检测顺序的示例的示图。例如,如图13中所示,分析顺序确定单元401以4个被分析系统100中相关破坏度的大小顺序,分别向具有系统标识符S1、S4、S3和S2的被分析系统100分配得分4、3、2和1。另外,分析 顺序确定单元401以4个被分析系统100中信令故障度的大小顺序,分别向具有系统标识符S1、S3、S2和S4的被分析系统100分配得分4、3、2和1。
接下来,分析顺序确定单元401基于每一被分析系统100的相关破坏度以及基于每一被分析系统100的信令故障度的得分来计算总得分,并且以较先对具有较高总得分的被分析系统100执行相关破坏检测的方式,确定在多个被分析系统100中执行相关破坏检测的顺序(步骤S106)。继而,分析顺序确定单元401将确定的检测顺序作为分析顺序信息422存储在分析顺序存储单元412中(步骤S107)。
例如,如图13中所示,分析顺序确定单元401计算每一被分析对象系统100的总得分,并以总得分的大小顺序分别将具有系统标识符S1、S3、S4和S2的被分析系统100的检测顺序确定为1、2、3和4。
图14为示出根据本发明第一示例性实施方式的分析顺序信息422的另一示例的示图。分析顺序确定单元401在分析顺序存储单元412中存储(更新)图14中所示的分析顺序信息422。在此,在多个被分析系统100具有相同总得分的情况下,分析顺序确定单元401可按以下方式确定检测顺序:即,可较先对具有较大相关破坏度或较大信令故障度的被分析系统100执行检测。
继而,相关破坏检测单元301和分析顺序确定单元401在多个时间段中的每个时间段内重复执行步骤S101至S107。此时,相关破坏检测单元301基于存储在分析顺序存储单元412中的分析顺序信息422来执行相关破坏检测和计算异常度。
例如,在图12中所示的时间段2内,相关破坏检测单元301根据图14中所示的更新的分析顺序信息422,以系统标识符S1、S3、S4和S2的顺序,分别对在相应的被分析系统100中所测量的时间段2的性能信息d12、d32、d42和d22执行相关破坏检测和计算异常度。
如上所述,检测顺序按以下方式得到更新:在对具有较低异常度评价得分的带有系统标识符S2的被分析系统的相关破坏检测之前, 优先执行对具有较高异常度评价得分的带有系统标识符S3和S4的被分析系统的相关破坏检测。
根据本发明第一示例性实施方式的操作随即完成。
虽然根据本发明的第一实施方式,分析顺序确定单元401基于相关破坏度的顺序和信令故障度的顺序来计算对应于异常度的得分,并基于总得分来确定检测顺序,但亦可使用另一方法,只要检测顺序是基于异常度的大小而确定即可。例如,分析顺序确定单元401可基于相关破坏度和信令故障度的总值的顺序来确定检测顺序。
此外,分析顺序确定单元401可使用相关破坏度和信令故障度之中的任何一个作为异常度。此外,除了相关破坏度和信令故障度之外,分析顺序确定单元401可使用基于相关破坏检测的结果而计算出的另一指标作为异常度。
接下来,将描述本发明第一示例性实施方式的特性配置。图1为示出根据本发明第一示例性实施方式的特性配置的框图。
参考图1,操作管理系统1包括相关模型存储单元212、分析顺序存储单元412、分析单元300以及顺序控制单元400。
相关模型存储单元212存储针对多个系统中的每个系统的相关模型222,该相关模型222指示多个类型的性能值之间的相关性。
分析顺序存储单元412存储多个系统中的检测顺序,以供执行相关破坏的检测。
分析单元300在多个时间段中的每个时间段内,基于检测顺序,通过使用针对多个时间段中的所述每个时间段而输入的性能值,来执行是否发生多个系统中的每个系统的相关模型中所包括的相关性的相关破坏的检测。
顺序控制单元400在多个时间段中的所述每个时间段内更新检测顺序。
根据本发明的第一示例性实施方式,可以在应用于多个被分析系统100的不变量分析中减少故障检测的延迟。原因在于顺序控制单元400在多个时间段中的每个时间段内更新检测顺序。
此外,根据本发明的第一示例性实施方式,可以优先地对具有较高的在此刻发生故障或将要在将来发生故障的可能性的被分析系统100执行故障检测。原因在于,顺序控制单元400通过使用如下异常度来确定检测顺序,该异常度是由基于已被检测到相关破坏的相关性的数目而计算出的相关破坏度以及当被分析系统100曾处于故障状态时的相关破坏检测的结果与针对输入的性能值的相关破坏检测的结果之间的相似度中的至少一个得出的。
此外,根据本发明的第一示例性实施方式,无论被检测系统100的规模如何,均可以减少故障检测的延迟。原因在于,顺序控制单元400使用具有随相关模型422中所包括的相关性的数目变大而变大的倾向的相关破坏度以及具有随相关模型422中所包括的相关性的数目变小而变大的倾向的相关破坏检测结果之间的相似度的结合作为异常度。
(第二示例性实施方式)
接下来,将描述本发明的第二示例性实施方式。
在本发明的第二示例性实施方式中,假定并不总是有可能在每个时间段内执行(完成)对所有被分析系统100的相关破坏检测。
例如,在被分析系统100的数目较大,而收集性能信息的时间间隔短于对所有被分析系统100执行相关破坏检测所需的时间的情况下,不可能在每个时间段内对检测顺序安排靠后的被分析系统100执行相关破坏检测。此外,在分析单元300除了执行相关破坏检测之外必须执行处理时间为时变性的过程的情况下,在一些时间段内不可能对检测顺序安排靠后的被分析系统100执行相关破坏检测。
在这种情况下,由于在根据本发明第一示例性实施方式的配置中未被执行相关破坏检测的被分析系统100的异常度没有得到更新,因此存在这样的问题:即,未对被分析系统100执行相关破坏检测的状态会持续。
继而,在本发明的第二示例性实施方式中,将大于在曾执行相关破坏检测的先前时间段中所计算出的异常度的值分配给未被执行相 关破坏检测的被分析系统100的异常度。通过上述方式,可以在下一时间段中,优先于另一被分析系统100而执行对该被分析系统100的相关破坏检测。
应当注意的是,在本发明的第二示例性实施方式中,只要没有具体描述,则具有与本发明第一示例性实施方式的组件相同的参考符号的组件同该第一示例性实施方式的组件相同。
首先,将描述根据本发明第二示例性实施方式的配置。图15为示出根据本发明第二示例性实施方式的操作管理系统1的配置的框图。
参考图15,根据本发明第二示例性实施方式的操作管理系统1的顺序控制单元400除了根据本发明第一示例性实施方式的配置之外还包括未分析系统存储单元413。
未分析系统存储单元413存储未分析系统信息423,该未分析系统信息423指示在上述多个时间段中的每个时间段内未被执行相关破坏检测(未被分析)的被分析系统100。
图17为示出根据本发明第二示例性实施方式的未分析系统信息423的示例的示图。如图17中所示,未分析系统信息423包括被分析系统100的系统标识符集合以及未分析次数的列表,该未分析次数指示未对被分析系统100执行相关破坏检测的次数。该未分析次数在初始状态中为0。在已执行相关破坏检测的情况下,该未分析次数被重置为0。
分析单元300的相关破坏检测单元301在多个时间中的每个时间段内,基于从顺序控制单元400获取的分析顺序信息422所指示的检测顺序,依次在每个被分析系统100中执行相关破坏检测。根据本发明的第二示例性实施方式,相关破坏检测单元301不仅对当前时间段的性能信息执行相关破坏检测,而且还对未执行相关破坏检测的先前时间段的性能信息执行相关破坏检测。
顺序控制单元400的分析顺序确定单元401在上述多个时间段中的每个时间段内,基于存储在异常度存储单元411中的每个被分析系 统100的异常度,来确定在多个被分析系统100中执行相关破坏检测的顺序。根据本发明的第二示例性实施方式,分析顺序确定单元401将大于在曾执行过相关破坏检测的先前时间段中计算出的异常度的值分配给未被执行相关破坏检测的被分析系统100的异常度,并基于该值所分配给的异常度来确定执行相关破坏检测的顺序。具体而言,分析顺序确定单元401使用通过将在曾执行过相关破坏检测的时间段中计算出的异常度乘以未分析次数而获得的值,来确定执行相关破坏检测的顺序。
接下来,将描述根据本发明第二示例性实施方式的操作管理系统1的操作。
图16为示出由根据本发明第二示例性实施方式的操作管理系统1所执行的过程的流程图。图18为示出根据本发明第二示例性实施方式在每个时间段内执行的相关破坏检测过程的示例的示图。
首先,在上述多个时间段中的每个时间段内,分析单元300的相关破坏检测单元301从顺序控制单元400的分析顺序存储单元412获取分析顺序信息422(步骤S201)。
例如,相关破坏检测单元301在图18中所示的时间段1中获取图11中所示的分析顺序信息422。
相关破坏检测单元301基于获取的分析顺序信息422来执行相关破坏检测过程(步骤S202)。
在此,相关破坏检测单元301根据分析顺序存储单元412,依次对每个被分析系统100执行如图4中所示的步骤S151至步骤S157的相关破坏检测过程。
然而,相关破坏检测单元301在时间段到期时停止该过程,即使对一些被分析系统100的相关破坏检测过程尚未完成。
在步骤S152中,在参考未分析系统信息423,被分析系统100的未分析次数等于或大于1的情况下,亦即,在未于先前时间段内对被分析系统100执行相关破坏检测的情况下,相关破坏检测单元301不仅获取当前时间段的性能信息,还一同获取未曾执行相关破坏检测 的先前时间段的性能信息。在步骤S154中,相关破坏检测单元301共同地对未曾执行相关破坏检测的先前时间段的性能信息和当前时间段的性能信息执行相关破坏检测。在步骤S155中,相关破坏检测单元301将针对未曾执行相关破坏检测的时间段的相关破坏检测的结果与针对当前时间段的相关破坏检测的结果共同地存储在相关破坏存储单元213中。
接下来,相关破坏检测单元301更新存储于未分析系统存储单元413中的未分析系统信息423(步骤S203)。在此,相关破坏检测单元301向在该时间段内未完成相关破坏检测过程的被分析系统100的未分析次数增加1,而向在该时间段内完成了相关破坏检测过程的被分析系统100的未分析次数设置0。
图19、图20和图21中的每一个均为示出根据本发明第二示例性实施方式计算检测顺序的示例的示图。
例如,在图18中所示的时间段1内,相关破坏检测单元301根据图11中所示的分析顺序信息422,相应地以系统标识符S1、S2、S3和S4的顺序来执行相关破坏检测和计算异常度。
在此,在未对具有系统标识符S3和S4的被分析系统100执行相关破坏检测过程的情况下,相关破坏检测单元301如图19中所示那样,相应地向具有系统标识符S4和S3的被分析系统100的未分析次数增加1,并向其他被分析系统100的未分析次数设置0。
在对具有系统标识符S1和S2的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301分别对在被分析系统100中测量的时间段1的性能信息d11和d21执行相关破坏检测。相关破坏检测单元301如图19中所示那样,分别计算具有系统标识符S1和S2的被分析系统100的异常度。
接下来,顺序控制单元400的分析顺序确定单元401从异常度存储单元411获取异常度信息421(步骤S204)。分析顺序确定单元401从未分析系统存储单元413获取未分析系统信息423(步骤S205)。
分析顺序确定单元401基于异常度信息421中所包括的相关破坏 度以及未分析系统存储单元413中所包括的未分析次数,向每个被分析系统100分配得分(步骤S206)。分析顺序确定单元401基于异常度信息421中所包括的信令故障度以及未分析系统存储单元413中所包括的未分析次数,向每个被分析系统100分配得分(步骤S207)。在此,对于具有等于或大于1的未分析次数的被分析系统100,分析顺序确定单元401通过将异常度信息421中所包括的相关度和信令故障度分别乘以未分析次数来计算值,并且类似于第一示例性实施方式那样使用计算出的值来分配得分。
例如,如图19中所示,分析顺序确定单元401在将具有系统标识符S3和S4的被分析系统的相关破坏度和信令故障度分别乘以1之后分配得分。
接下来,分析顺序确定单元401基于总得分来确定在多个被分析系统100中执行相关破坏检测的顺序(步骤S208)。继而,分析顺序确定单元401将确定出的检测顺序作为分析顺序信息422存储在分析顺序存储单元412中(步骤S209)。
例如,如图19中所示,分析顺序确定单元401计算每一被分析系统100的总得分,并以总得分的大小顺序分别将具有系统标识符S1、S2、S3和S4的被分析系统100的检测顺序确定为1、2、3和4。
继而,相关破坏检测单元301和分析顺序确定单元401在多个时间段中的每个时间段内重复执行步骤S201至S209。
例如,在图18中所示的时间段2内,相关破坏检测单元301分别以系统标识符S1、S2、S3和S4的顺序,来执行相关破坏检测和计算异常度。
在此,在未对具有系统标识符S3和S4的被分析系统执行相关破坏检测过程的情况下,相关破坏检测单元301如图20中所示,分别向具有系统标识符S3和S4的被分析系统100的未分析次数增加1,并向其他被分析系统100的未分析次数设置0。
在对具有系统标识符S1和S2的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301分别对在被分析系统100中测量 的时间段2的性能信息d12和d22执行相关破坏检测。相关破坏检测单元301如图20中所示,分别计算具有系统标识符S1和S2的被分析系统100的异常度。
如图20中所示,分析顺序确定单元401在分别将具有系统标识符S3和S4的被分析系统的相关破坏度和信令故障度乘以2之后分配得分。分析顺序确定单元401基于总得分,将具有系统标识符S1、S2、S3和S4的被分析系统100的检测顺序分别确定为1、3、2和4。
继而,在图18中所示的时间段3内,相关破坏检测单元301相应地以系统标识符S1、S3、S2和S4的顺序,执行相关破坏检测和计算异常度。
在此,在未对具有系统标识符S4的被分析系统执行相关破坏检测过程的情况下,相关破坏检测单元301如图21中所示,向具有系统标识符S4的被分析系统100的未分析次数增加1,并向其他被分析系统100的未分析次数设置0。
在对具有系统标识符S1和S2的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301分别对在被分析系统100中测量的时间段3的性能信息d13和d23执行相关破坏检测。在对具有系统标识符S3的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301对在被分析系统100中测量的时间段1、时间段2和时间段3的性能信息d31、d32和d33执行相关破坏检测。相关破坏检测单元301如图21中所示,分别计算具有系统标识符S1、S3和S2的被分析系统100的异常度。
如图21中所示,分析顺序确定单元401在将具有系统标识符S4的被分析系统的相关破坏度和信令故障度乘以3之后分配得分。分析顺序确定单元401基于总得分,分别将具有系统标识符S1、S2、S3和S4的被分析系统100的检测顺序确定为1、3、4和2。
继而,在图18中所示的时间段4内,相关破坏检测单元301以系统标识符S1、S4、S2和S3的顺序,分别执行相关破坏检测和计算异常度。
如上所述,检测顺序按以下方式得到更新:即,在时间段2中或其后,优先对未在时间段1中执行相关破坏检测的具有系统标识符S3和S4的被分析系统执行相关破坏检测。
此外,关于未在时间段1和时间段2中执行相关破坏检测的具有系统标识符S3的被分析系统100,在时间段3中共同地执行对时间段1、时间段2和时间段3的性能信息的相关破坏检测。
如上所述,由分析单元300所执行的相关破坏检测过程被分成3个子过程:(a)从分析控制单元200获取性能信息和相关模型222(步骤S152和S153);(b)执行相关破坏检测(步骤S154);以及(c)在分析控制单元200中存储相关破坏检测的结果(步骤S155)。
在此,关于(a)和(c)的过程时间,用于访问存储装置等的读取和写入控制所需的时间长于传输数据所需的时间。因此,可适当地认为,在共同地获取和存储多个时间段的性能信息的情况中所需的(a)和(c)的过程时间几乎等于在获取和存储一个时间段的性能信息的情况中所需的(a)和(c)的过程时间。此外,可适当地认为,不包括用于访问存储装置等的时间的(b)的过程时间与(a)和(c)的过程时间相比很小。在这种情况下,对多个时间段的相关破坏检测的过程时间几乎等于对一个时间段的相关破坏检测的过程时间。
相应地,可以通过共同地执行对多个时间段的相关破坏检测来减少相关破坏检测过程的负荷。
根据本发明第二示例性实施方式的操作随即完成。
虽然在本发明的第二示例性实施方式中,分析顺序确定单元401使用通过将曾执行过相关破坏检测的时间段内所计算出的异常度乘以未分析次数所获得的值来确定相关破坏检测的顺序,但是亦可使用另一方法,只要有可能使用比曾执行过相关破坏检测的时间段中所计算出的异常度更大的值作为异常度即可。例如,分析顺序确定单元401可将曾执行过相关破坏检测的时间段中所计算出的异常度乘以预定常数。此外,分析顺序确定单元401可将曾执行过相关破坏检测的时间段中所计算出的异常度乘以根据未分析次数而变大的另一系数。
根据本发明的第二示例性实施方式,即使存在由于靠后的检测顺序而未在分析时间段内执行相关破坏检测的被分析系统100,仍可以在后一时间段内对该被分析系统100执行相关破坏检测。原因在于,分析顺序确定单元401将大于在执行了相关破坏检测的前一时间段内所计算出的异常度的值分配给未执行相关破坏检测的被分析系统100的异常度,并基于分配的异常度来确定相关破坏检测的顺序。
此外,根据本发明的第二示例性实施方式,有可能减小相关破坏检测过程的负荷。原因在于,相关破坏检测单元301不仅对当前时间段的性能信息执行相关破坏检测,而且还一同对未曾执行相关破坏检测的前一时间段的性能信息执行相关破坏检测。
此外,根据本发明的第二示例性实施方式,可以通过优先地对具有较高的在此刻发生或者将会在未来发生故障的可能性的被分析系统100的故障执行检测,来减小相关破坏检测过程的负荷。原因在于,对具有较大异常度的被分析系统100的相关破坏检测在每个时间段中优先地执行,而对具有较小异常度的被分析系统100的相关破坏检测则共同地针对多个时间段的性能信息来执行。
(第三示例性实施方式)
接下来,将描述本发明的第三示例性实施方式。
在本发明的第三示例性实施方式中,分析顺序确定单元401设置一组具有较大未分析次数的未执行相关破坏检测的多个被分析系统100,来代替将未曾执行相关破坏检测的时间段中所计算出的异常度乘以未分析次数。分析顺序确定单元401将总异常度——其中每个异常度是在对该组中所包括的多个被分析系统100之中对应的一个执行相关破坏检测的时间段中计算而得——分配给该组中所包括的每个被分析系统100的异常度,并基于分配的异常度来确定相关破坏检测的顺序。
本发明第三示例性实施方式的配置类似于根据本发明第二示例性实施方式的配置(图15)。
接下来,将描述根据本发明第三示例性实施方式的操作管理系统 1的操作。示出由根据本发明第三示例性实施方式的操作管理系统1所执行的过程的流程图类似于根据本发明第二示例性实施方式的流程图(图16)。
图22为示出根据本发明第三示例性实施方式在每个时间段中执行的相关破坏检测过程的示例的示图。图23、图24和图25中的每一个均为示出根据本发明第三示例性实施方式计算检测顺序的示例的示图。
例如,在图22中所示的时间段1内,相关破坏检测单元301根据图11中所示的分析顺序信息422,分别以系统标识符S1、S2、S3和S4的顺序来执行相关破坏检测和计算异常度。
在此,如图23中所示,在未对具有系统标识符S3和S4的被分析系统100执行相关破坏检测过程的情况下,相关破坏检测单元301向具有系统标识符S3和S4的被分析系统100的未分析次数增加1,并向其他被分析系统的未分析次数设置0。
在对具有系统标识符S1和S2的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301分别对在被分析系统100中测量的时间段1的性能信息d11和d21执行相关破坏检测。相关破坏检测单元301如图23中所示,分别计算具有系统标识符S1和S2的被分析系统100的异常度。
在此,例如作为设置所述组的条件,假定来自未执行相关破坏检测的被分析系统100的预定数目的具有最大未分析次数值的被分析系统100被包括在组中。此外,假定该预定数目为2。
在这种情况下,如图23中所示,分析顺序确定单元401设置一组未分析次数为1的、具有系统标识符S3和S4的被分析系统100。分析顺序确定单元401将通过增加具有系统标识符S3和S4的被分析系统100的相关破坏度而获得的值分配给具有系统标识符S3和S4的被分析系统100的相关破坏度。此外,分析顺序确定单元401将通过增加具有系统标识符S3和S4的被分析系统100的信令故障度而获得的值分配给具有系统标识符S3和S4的被分析系统100的信令故障 度。继而,分析顺序确定单元401计算得分和总得分。
分析顺序确定单元401基于总得分,分别将具有系统标识符S1、S2、S3和S4的被分析系统100的检测顺序确定为1、4、2和3。应当注意的是,该组内的被分析系统100的检测顺序按以下方式得到确定:即,可较早地对具有较大异常度或较大信令故障度的被分析系统100执行相关破坏检测。
继而,在图22中所示的时间段2内,相关破坏检测单元301分别以系统标识符S1、S3、S4和S2的顺序来执行相关破坏检测和计算异常度。
在此,在未对具有系统标识符S3、S4和S2的被分析系统执行相关破坏检测过程的情况下,相关破坏检测单元301如图24中所示,向具有系统标识符S3、S4和S2的被分析系统100的未分析次数增加1,并向其他被分析系统的未分析次数设置0。
在对具有系统标识符S1的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301对在被分析系统100中测量的时间段2的性能信息d12执行相关破坏检测。相关破坏检测单元301如图24中所示,计算具有系统标识符S1的被分析系统100的异常度。
如图24中所示,分析顺序确定单元401设置一组未分析次数为2的、具有系统标识符S3和S4的被分析系统100,并分配得分。分析顺序确定单元401基于总得分,分别将具有系统标识符S1、S2、S3和S4的被分析系统100的检测顺序确定为1、4、2和3。
继而,在图22中所示的时间段3内,相关破坏检测单元301分别以系统标识符S1、S3、S4和S2的顺序来执行相关破坏检测和计算异常度。
在此,在未对具有系统标识符S2的被分析系统100执行相关破坏检测过程的情况下,相关破坏检测单元301如图25中所示,向具有系统标识符S2的被分析系统100的未分析次数增加1,并向其他被分析系统100的未分析次数设置0。
在对具有系统标识符S1的被分析系统100执行的相关破坏检测 过程中,相关破坏检测单元301对在被分析系统100中测量的时间段3的性能信息d13执行相关破坏检测和计算异常度。在对具有系统标识符S3和S4的被分析系统100执行的相关破坏检测过程中,相关破坏检测单元301对在被分析系统100中测量的时间段4的性能信息d31、d32和d33以及d41、d42和d43执行相关破坏检测和计算异常度。相关破坏检测单元301如图25中所示,分别计算具有系统标识符S1、S3和S4的被分析系统100的异常度。
如图25中所示,分析顺序确定单元401分配得分,并基于总得分而分别将具有系统标识符S1、S2、S3和S4的被分析系统100的检测顺序确定为1、2、3和4。
如上所述,检测顺序按以下方式得到更新:即,在时间段2中或其后优先地执行未在时间段1中对具有系统标识符S3和S4的被分析系统执行的相关破坏检测。
根据本发明第三示例性实施方式的操作随即完成。
虽然在本发明的第三示例性实施方式中,分析顺序确定单元401设置包括来自未执行相关破坏检测的被分析系统100的预定数目的具有最大未分析次数值的被分析系统100的组,但亦可使用另一方法,只要可以设置一组具有较大未分析次数值的被分析系统即可。例如,分析顺序确定单元401可设置一组未分析次数等于或大于预定值的被分析系统。
虽然已参考本发明的示例性实施方式而特别地示出和描述了本发明,但本发明并不限于这些实施方式。本领域一般技术人员将会理解,在不偏离如权利要求所限定的本发明的精神和范围的情况下,可对本发明做出形式和细节上的各种改变。
例如,当分析单元300确定检测顺序时,分析单元300可同时采用根据本发明第二示例性实施方式使用通过将异常度乘以预定系数而获得的值的方法以及根据本发明第三示例性实施方式通过设置一组被分析系统100而使用总异常度的方法。
本申请基于并要求提交于2011年3月23日的日本专利申请第 2011-064603号的优先权,其全部公开内容通过引用而全文并入于此。参考符号列表
1 操作管理系统
100 被分析系统
200 分析控制单元
201 性能信息收集单元
202 相关模型生成单元
203 管理员交互单元
204 对策执行单元
211 性能信息存储单元
212 相关模型存储单元
213 相关破坏存储单元
214 相关破坏模式存储单元
221 性能序列信息
222 相关模型
223 相关破坏信息
224 相关破坏模式
300 分析单元
301 相关破坏检测单元
400 顺序控制单元
401 分析顺序确定单元
411 异常度存储单元
412 分析顺序存储单元
413 未分析系统存储单元
421 异常度信息
422 分析顺序信息
423 未分析系统信息

Claims (18)

1.一种操作管理系统,包括:
相关模型存储单元,所述相关模型存储单元存储针对多个系统中的每个系统的相关模型,所述相关模型指示多个类型的性能值之间的相关性;
分析顺序存储单元,所述分析顺序存储单元存储所述多个系统中的检测顺序,以供执行相关破坏的检测;
分析单元,所述分析单元在多个时间段中的每个时间段内,基于所述检测顺序,通过使用针对所述多个时间段中的每个时间段输入的性能值,来执行是否发生所述多个系统中的每个系统的所述相关模型中所包括的所述相关性的所述相关破坏的检测;以及
顺序控制单元,所述顺序控制单元在所述多个时间段中的每个时间段内更新所述检测顺序,
其中所述顺序控制单元通过使用异常度来确定所述检测顺序,
其中在未在所述多个时间段中的一个时间段内对所述多个系统中的一个系统执行所述检测的情况下,所述顺序控制单元向所述多个系统中的所述一个系统的所述异常度设置一个值,所述值比在所述多个时间段中的所述一个时间段之前曾对所述多个系统中的所述一个系统执行过所述检测的时间段内计算出的所述异常度更大。
2.根据权利要求1所述的操作管理系统,其中
所述顺序控制单元基于在所述多个系统中的每个系统中是否发生所述相关破坏的所述检测的结果,来确定所述检测顺序。
3.根据权利要求2所述的操作管理系统,其中
所述异常度是由基于所述检测的所述结果中所包括的被破坏的相关性的数目所计算的相关破坏度和当在所述系统中发生故障时所获得的所述检测的所述结果与对所述输入的性能值的所述检测的所述结果之间的相似度中的至少一个得出的。
4.根据权利要求1所述的操作管理系统,其中,
所述顺序控制单元向所述多个系统中的所述一个系统的所述异常度设置一个值,所述值是通过将在所述多个时间段中的所述一个时间段之前曾对所述多个系统中的所述一个系统执行过所述检测的时间段内计算出的所述异常度乘以根据未执行过所述检测的时间段的数目而变大的系数而获得的值。
5.根据权利要求1所述的操作管理系统,其中,
所述顺序控制单元生成一组未执行所述检测的时间段的数目大于其他系统的多个系统,并且向所述组中所包括的所述多个系统中的每个系统的所述异常度设置总体的所述异常度,其中所述总体的所述异常度中的每个异常度是在所述多个时间段中的所述一个时间段之前曾对所述组中所包括的所述多个系统中对应的一个系统执行过所述检测的时间段内计算而得出的。
6.根据权利要求1所述的操作管理系统,其中,
在所述分析单元在所述多个时间段中的每个时间段内执行所述检测的情况下,所述分析单元通过不仅使用针对所述多个时间段中的所述每个时间段输入的所述性能值,而且还使用针对在所述多个时间段中的所述每个时间段之前未曾执行所述检测的时间段而输入的所述性能值,来执行所述检测。
7.一种操作管理方法,包括:
存储针对多个系统中的每个系统的相关模型,所述相关模型指示多个类型的性能值之间的相关性;
存储所述多个系统中的检测顺序,以供执行相关破坏的检测;
在多个时间段中的每个时间段内,基于所述检测顺序,通过使用针对所述多个时间段中的每个时间段输入的性能值,执行是否发生所述多个系统中的每个系统的所述相关模型中所包括的所述相关性的所述相关破坏的检测;以及
在所述多个时间段中的每个时间段内更新所述检测顺序,
其中所述更新所述检测顺序通过使用异常度来确定所述检测顺序,
其中在未在所述多个时间段中的一个时间段内对所述多个系统中的一个系统执行所述检测的情况下,向所述多个系统中的所述一个系统的所述异常度设置一个值,所述值比在所述多个时间段中的所述一个时间段之前曾对所述多个系统中的所述一个系统执行过所述检测的时间段内计算出的所述异常度更大。
8.根据权利要求7所述的操作管理方法,其中
所述更新所述检测顺序基于在所述多个系统中的每个系统中是否发生所述相关破坏的所述检测的结果,来确定所述检测顺序。
9.根据权利要求8所述的操作管理方法,其中
所述异常度是由基于所述检测的所述结果中所包括的被破坏的相关性的数目计算而得出的相关破坏度、以及当在所述系统中发生故障时所获得的所述检测的所述结果与对所述输入的性能值的所述检测的所述结果之间的相似度中的至少一个而得出的。
10.根据权利要求7所述的操作管理方法,其中,
向所述多个系统中的所述一个系统的所述异常度设置一个值,所述值是通过将在所述多个时间段中的所述一个时间段之前曾对所述多个系统中的所述一个系统执行过所述检测的时间段内计算出的所述异常度乘以根据未执行过所述检测的时间段的数目而变大的系数而获得的值。
11.根据权利要求7所述的操作管理方法,其中,
生成一组未执行所述检测的时间段的数目大于其他系统的多个系统,并且向所述组中所包括的所述多个系统中的每个系统的所述异常度设置总体的所述异常度,其中所述总体的所述异常度中的每个异常度是在所述多个时间段中的所述一个时间段之前曾对所述组中所包括的所述多个系统中对应的一个系统执行过所述检测的时间段内计算而得出的。
12.根据权利要求7所述的操作管理方法,其中,
在于所述多个时间段中的每个时间段内执行所述检测的情况下,通过不仅使用针对所述多个时间段中的所述每个时间段输入的所述性能值,而且还使用针对在所述多个时间段中的所述每个时间段之前未曾执行过所述检测的时间段输入的所述性能值,来执行所述检测。
13.一种操作管理设备,包括:
用于存储针对多个系统中的每个系统的相关模型的装置,所述相关模型指示多个类型的性能值之间的相关性;
用于存储所述多个系统中的检测顺序,以供执行相关破坏的检测的装置;
用于在多个时间段中的每个时间段内,基于所述检测顺序,通过使用针对所述多个时间段中的每个时间段输入的性能值,执行是否发生所述多个系统中的每个系统的所述相关模型中所包括的所述相关性的所述相关破坏的检测的装置;以及
用于在所述多个时间段中的每个时间段内通过使用异常度来更新所述检测顺序的装置,其中在未在所述多个时间段中的一个时间段内对所述多个系统中的一个系统执行所述检测的情况下,向所述多个系统中的所述一个系统的所述异常度设置一个值,所述值比在所述多个时间段中的所述一个时间段之前曾对所述多个系统中的所述一个系统执行过所述检测的时间段内计算出的所述异常度更大。
14.根据权利要求13所述的设备,其中
用于更新所述检测顺序的装置包括:用于基于在所述多个系统中的每个系统中是否发生所述相关破坏的所述检测的结果,来确定所述检测顺序的装置。
15.根据权利要求13所述的设备,其中
所述异常度是由基于所述检测的所述结果中所包括的被破坏的相关性的数目计算而得出的相关破坏度、以及当在所述系统中发生故障时所获得的所述检测的所述结果与对所述输入的性能值的所述检测的所述结果之间的相似度中的至少一个而得出的。
16.根据权利要求13所述的设备,其中,
向所述多个系统中的所述一个系统的所述异常度设置一个值,所述值是通过将在所述多个时间段中的所述一个时间段之前曾对所述多个系统中的所述一个系统执行过所述检测的时间段内计算出的所述异常度乘以根据未执行所述检测的时间段的数目而变大的系数而获得的值。
17.根据权利要求13所述的设备,其中,
生成一组未执行所述检测的时间段的数目大于其他系统的多个系统,并且向所述组中所包括的所述多个系统中的每个系统的所述异常度设置总体的所述异常度,其中所述总体的所述异常度中的每个异常度是在所述多个时间段中的所述一个时间段之前曾对所述组中所包括的所述多个系统中对应的一个系统执行过所述检测的时间段内计算而得出的。
18.根据权利要求13所述的设备,其中,
在于所述多个时间段中的每个时间段内执行所述检测的情况下,通过不仅使用针对所述多个时间段中的所述每个时间段输入的所述性能值,而且还使用针对在所述多个时间段中的所述每个时间段之前未曾执行过所述检测的时间段输入的所述性能值,来执行所述检测。
CN201280014481.0A 2011-03-23 2012-03-21 操作管理系统、操作管理方法及其程序 Active CN103502951B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-064603 2011-03-23
JP2011064603 2011-03-23
PCT/JP2012/058033 WO2012128388A1 (ja) 2011-03-23 2012-03-21 運用管理システム、運用管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN103502951A CN103502951A (zh) 2014-01-08
CN103502951B true CN103502951B (zh) 2016-12-07

Family

ID=46879519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280014481.0A Active CN103502951B (zh) 2011-03-23 2012-03-21 操作管理系统、操作管理方法及其程序

Country Status (5)

Country Link
US (2) US9417940B2 (zh)
EP (1) EP2690559B1 (zh)
JP (1) JP5267748B2 (zh)
CN (1) CN103502951B (zh)
WO (1) WO2012128388A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2579156B1 (en) * 2010-06-07 2019-08-28 Nec Corporation Malfunction detection device, obstacle detection method, and program recording medium
CN104769551B (zh) * 2012-11-01 2018-07-03 日本电气株式会社 分布式数据处理系统和分布式数据处理方法
US20150363250A1 (en) * 2013-02-18 2015-12-17 Nec Corporation System analysis device and system analysis method
US9846574B2 (en) 2014-12-19 2017-12-19 Signalfx, Inc. Representing result data streams based on execution of data stream language programs
US10394692B2 (en) 2015-01-29 2019-08-27 Signalfx, Inc. Real-time processing of data streams received from instrumented software
WO2016147657A1 (ja) * 2015-03-17 2016-09-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP5875726B1 (ja) * 2015-06-22 2016-03-02 株式会社日立パワーソリューションズ 異常予兆診断装置のプリプロセッサ及びその処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
US7366666B2 (en) * 2003-10-01 2008-04-29 International Business Machines Corporation Relative delta computations for determining the meaning of language inputs
JP2005326935A (ja) * 2004-05-12 2005-11-24 Hitachi Ltd 仮想化ストレージを備える計算機システムの管理サーバおよび障害回避復旧方法
US7325166B2 (en) * 2004-06-23 2008-01-29 Autodesk, Inc. Hierarchical categorization of customer error reports
JP4201027B2 (ja) * 2006-07-10 2008-12-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数の観測結果の間の差異を検出するシステムおよびその方法
EP1895416B1 (en) * 2006-08-25 2011-07-06 Accenture Global Services Limited Data visualization for diagnosing computing systems
US8127099B2 (en) 2006-12-26 2012-02-28 International Business Machines Corporation Resource recovery using borrowed blocks of memory
FR2920233B1 (fr) * 2007-08-20 2009-10-30 Airbus France Sas Procede et dispositifs d'evaluation de risques operationnels pour l'aide aux decisions de maintenance de vehicules
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
JP5378847B2 (ja) 2009-03-26 2013-12-25 株式会社野村総合研究所 監視装置
JP5310434B2 (ja) 2009-09-18 2013-10-09 株式会社島津製作所 ボールネジを用いた送液装置及び分析装置

Also Published As

Publication number Publication date
CN103502951A (zh) 2014-01-08
US20160321128A1 (en) 2016-11-03
EP2690559A4 (en) 2015-08-12
US10430268B2 (en) 2019-10-01
US9417940B2 (en) 2016-08-16
US20130055037A1 (en) 2013-02-28
JPWO2012128388A1 (ja) 2014-07-24
EP2690559A1 (en) 2014-01-29
EP2690559B1 (en) 2020-08-26
JP5267748B2 (ja) 2013-08-21
WO2012128388A1 (ja) 2012-09-27

Similar Documents

Publication Publication Date Title
CN103502951B (zh) 操作管理系统、操作管理方法及其程序
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
TWI632443B (zh) 異常資料的重要度判定裝置以及異常資料的重要度判定方法
US9424157B2 (en) Early detection of failing computers
CN105247379B (zh) 用于不间断电源电池监测和数据分析的系统和方法
US20140012821A1 (en) Reliable profiling for monitoring systems
KR101848193B1 (ko) 디스크 용량의 예측방법, 장치, 설비 및 비휘발성 컴퓨터기억매체
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
US20120296605A1 (en) Method, computer program, and system for performing interpolation on sensor data for high system availability
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
CN103154904B (zh) 操作管理设备、操作管理方法和程序
CN105975377A (zh) 一种监控内存的方法及装置
JP6777142B2 (ja) システム分析装置、システム分析方法、及び、プログラム
CN112633542A (zh) 系统性能指标预测方法、装置、服务器及存储介质
CN106598822A (zh) 一种用于容量评估的异常数据检测方法及装置
JP7339861B2 (ja) 故障確率評価システム
US20050080892A1 (en) Method for predicting a development over time of a system quantity
CN114661505A (zh) 存储部件故障处理方法、装置、设备和存储介质
KR20180106701A (ko) 사물인터넷 기반 기기 관리 시스템 및 방법
JP6931615B2 (ja) センサ選択装置およびセンサ選択方法
CN109716251A (zh) 运转状态分类装置
KR20150137950A (ko) 시스템 모니터링 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant