CN101201762A - 检测异常征候的装置和方法 - Google Patents

检测异常征候的装置和方法 Download PDF

Info

Publication number
CN101201762A
CN101201762A CN200710199817.6A CN200710199817A CN101201762A CN 101201762 A CN101201762 A CN 101201762A CN 200710199817 A CN200710199817 A CN 200710199817A CN 101201762 A CN101201762 A CN 101201762A
Authority
CN
China
Prior art keywords
data
string data
distance
monitored
abnormal symptom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200710199817.6A
Other languages
English (en)
Inventor
酢山明弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101201762A publication Critical patent/CN101201762A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

一种检测异常征候的装置和方法,其中所述方法包括:以预定或任意时间间隔从将被监控的装置获取由多个监控项目组成的串数据;在存储部分临时存储各个获取的串数据;利用在所述存储部分中存储的各个串数据计算监控项目的每一个的均值和方差以及指示所述监控项目之间的相关的相关信息;利用各个监控项目的均值和方差对所获取的串数据进行归一化;通过利用所述归一化的串数据和所述相关信息进行计算,来对归一化的串数据计算对于该相关信息的距离;以及根据所计算的距离是否落入对某概率分布预先设置的置信区间之内来判定将被监控的装置中是否存在异常征候。

Description

检测异常征候的装置和方法
技术领域
本发明涉及一种用于检测将被监控的装置的异常征候的装置和方法,并涉及检测由例如单个计算机或多个计算机组成的系统(解决方案)的异常征候的技术。
背景技术
利用通过监控计算机获取的数据,尤其是信息源具有变化特征的数据(不稳定数据)来检测计算机的异常征候(sign)的方法的例子包括利用专门技术对被监控数据进行阈值判定的方法(常规的第一方法),利用根据以往类似监控数据的学习结果估计当前监控数据的情形的方法(常规的第二方法)以及根据改变模型时的情形进行检测/预测的方法(常规的第三方法)。
描述第一常规方法的文献例子包括JP-A 2001-312375(公开)(专利文献1)。描述第二常规方法的文献例子包括JP-A 2005-309733(公开)(专利文献2)、JP-A 2004-213618(公开)(专利文献3)和JP-A 11-338848(公开)(专利文献4)。描述第三常规方法的文献例子包括JP-A2005-141601(公开)(专利文献5)、JP-A 2004-54370(公开)(专利文献6)。
专利文献1中描述的利用专门技术进行阈值判定被认为具有相对较高的准确率,然而,其在预先进行阈值设置时也存在着困难,并且极度难以判定具有高复杂度的情形。
从计算机和解决方案(多个网络化计算机)获取的监控项目数据不仅根据单个计算机和解决方案在数值和趋势上发生巨大变化,而且还包括其行为在重启后发生变化的项目,并且因此,通过利用类似监控数据进行学习来检测和预测的专利文献2到4的方法不能进行高精度的分析。
专利文献5和6所述的方法从非常近的以往数据进行学习,从而即使当单个情况不同时,其也能够高精度地检测异常,并且所述方法还能够通过利用连续的学习降低计算成本,由此以往的数据逐渐被遗忘。具体地,专利文献6的技术对于不稳定数据也有效。然而,设置用于判定异常情况的阈值要求从输出结果进行人工判断。
如果可以设计这样一种模型,使得计算机的正常工作空间成为空间末端,并且覆盖计算机正常工作的全部空间,则可以知道Mahalanobis距离基本上符合卡方分布,从而可以通过利用“Strategy of Research andDevelopment-essence of splendid Taguchi methods”(Genichi Taguchi,日本标准协会(2005)(非专利文献1))中描述的Mahalanobis-Taguchi方法,无需设置任何阈值即可判断异常征候,但是由于给出覆盖所有正常空间的数据是极度困难的,设置阈值需要进行试验,也会出现误差。
发明内容
根据本发明的一个方面,提供了一种异常征候检测装置,其包括:
数据获取部分,其被配置为以预定或任意时间间隔从将被监控的装置获取由多个监控项目组成的串数据(string data);
数据临时存储部分,其被配置为临时地存储各个所获取的串数据;
数据计算部分,其被配置为利用在所述数据临时存储部分中存储的各个串数据计算所述监控项目的每一个的均值和方差;
信息计算部分,其被配置为利用在所述数据临时存储部分中存储的各个串数据计算指示所述监控项目之间的相关的相关信息;
归一化部分,其被配置为利用各个监控项目的所述均值和所述方差对由所述数据获取部分获取的串数据进行归一化;
距离计算部分,其被配置为通过利用所述归一化的串数据和所述相关信息进行计算,来对所述归一化的串数据计算到相关信息的距离;以及
异常征候判定部分,其被配置为根据所计算的距离是否落入对某个概率分布预先设置的置信区间之内来判定所述将被监控的装置中是否存在异常征候。
根据本发明的一个方面,提供了一种异常征候检测装置,其包括:
第一数据获取部分,其被配置为以预定或任意时间间隔从将被监控的装置获取分别由多个监控项目组成的第1到第n个串数据;
第一数据临时存储部分,其被配置为临时地存储所获取的第1到第n个串数据;
第一计算部分,其被配置为利用在所述第一数据临时存储部分中存储的第1到第n个串数据计算与所述第1到第n个串数据中的每一个对应的各个监控项目的均值和方差,并且计算指示在所述第1到第n个串数据的每一个的监控项目之间的相关的相关信息;
第一归一化部分,其被配置为利用与由所述第一数据获取部分获取的所述第1到第n个串数据的每一个对应的各个监控项目的所述均值和所述方差对所述第1到第n个串数据中的每一个进行归一化;
第一距离计算部分,其被配置为通过利用所述归一化的第1到第n个串数据和与所述归一化的第1到第n个串数据中的每一个对应的所述相关信息进行计算,来对所述归一化的第1到第n个串数据的每一个计算到所述相关信息的距离;
概率计算部分,其被配置为计算概率,此概率与各个计算得到的距离或者小于所述各个计算得到的距离以及某个概率分布相对应;
第二数据获取部分,其被配置为以预定或任意时间间隔获取具有作为监控项目的所述各个计算得到的概率的串数据;
第二数据临时存储部分,其被配置为临时地存储各个获取的串数据;
第二计算部分,其被配置为利用在所述第二数据存储部分中存储的各个串数据计算所述监控项目的每一个的均值和方差,以及指示所述监控项目之间的相关的第二相关信息;
第二归一化部分,其被配置为利用所述监控项目的每一个的所述均值和所述方差对由所述第二数据获取部分获取的串数据进行归一化;
第二距离计算部分,其被配置为通过利用所述归一化的串数据和所述第二相关信息进行计算,来对所述归一化的串数据计算到所述第二相关信息的第二距离;以及
异常征候判定部分,其被配置为根据所计算的第二距离是否落入对所述某个概率分布预先设置的置信区间之内来判定将被监控的装置中是否存在异常征候。
根据本发明的一个方面,提供了一种异常征候检测方法,其包括:
以预定或任意时间间隔从将被监控的装置获取由多个监控项目组成的串数据;
在数据临时存储部分中临时地存储各个获取的串数据;
利用在所述数据临时存储部分中存储的各个串数据计算所述监控项目的每一个的均值和方差以及指示所述监控项目之间的相关的相关信息;
利用各个监控项目的所述均值和所述方差对所获取的串数据进行归一化;
通过利用所述归一化的串数据和所述相关信息进行计算,来对所述归一化的串数据计算到所述相关信息的距离;以及
根据所计算的距离是否落入对某个概率分布预先设置的置信区间之内来判定将被监控的装置中是否存在异常征候。
附图说明
图1示出了根据本发明第一实施例的异常征候检测装置的构造;
图2是流程图,其示出了根据本发明第一实施例的异常征候检测装置的操作;
图3是流程图,其示出了所述单位空间生成部分的操作;
图4示出了生成单位空间之后在单位空间存储部分45中的信息的例子;
图5示出了在初始化时在单位空间存储部分45中的信息的例子;
图6示出了根据本发明第二实施例的异常征候检测装置的构造;
图7是流程图,其示出了根据本发明第二实施例的异常征候检测装置的操作;
图8示出了分层结构信息的例子;
图9示出了在单位空间存储部分45中存储的信息的例子;
图10示出了所述异常征候检测装置的输出例子;
图11阐明了单位空间分层结构;
图12阐明了另一种单位空间分层结构;以及
图13阐明了再一个的单位空间分层结构。
具体实施方式
在“具体实施方式”末尾示出的表1是根据本发明第一实施例的异常征候检测装置的监控项目的例子的列表,它们已被证明是有效的,并且被归类为老化类型监控项目和非老化类型监控项目。表1对应于例如列表信息。
第一栏示出了协议的名称等,第二栏示出了监控项目的名称。也有对于一个名称存在多个实例的情况。例如,Win32_Process.PageFileUsage对于已经开始的所有处理具有值。第三栏中的“类别”指示所述监控项目是“老化型监控项目”还是“非老化型监控项目”。“H/W”(硬件)示出了老化型监控项目,而“S/W”(软件)示出了非老化型监控项目。“H/W”对应于第一标注,而“S/W”对应于第二标注。第四栏示出了对所述监控项目的解释(评价)。
此处,“老化型监控项目”是由于老化导致性能下降的监控项目(主要是硬件条件下的监控项目)。所述老化型监控项目对应于在其中设置了第一标注的监控项目。另一方面,所述“非老化型监控项目”是其状况通过计算机的重启进行完全初始化的监控项目(主要是软件条件下的监控项目)。所述非老化型监控项目对应于在其中设置了第二标注的监控项目。前者的“老化型监控项目”的性能也因为计算机重启而降低。
图1示出了根据本发明第一实施例的异常征候检测装置的构造,在此例中,从将被监控的装置中获取表1所示的各个监控项目的数据,并检查和检测异常征候的存在/不存在。
图1中的异常征候检测装置4从输入部分1接收用于指定将被监控的多个监控项目的信息(监控项目信息)以及关于各个监控项目获取监控数据的间隔(数据获取间隔),并根据所接收到的监控项目信息和数据获取间隔从将被监控的装置3获取各个监控项目的数据作为监控串数据(或串数据)。作为监控对象,也可以从解决方案(将被监控的系统)中获取监控串数据,在此解决方案中,网络化的多个将被监控的装置取代了将被监控的装置3。异常征候检测装置4进行处理,诸如从所获取的监控串数据(各个监控项目的数据)对将被监控的装置3进行异常征候的检测,以及通过输出部分2输出所述处理的结果。
可以通过通用计算机实现输入部分1、输出部分2以及异常征候检测装置4。例如,可以通过从诸如鼠标或键盘的输入设备输入信息或者可以通过从外部存储装置输入数据或者通过与外部装置的通信获取数据来实现通过输入部分1的信息获取。可以将输出部分2配置为诸如打印机或LCD(液晶显示器)的装置。异常征候检测装置4是计算机的主单元,其包括,例如,CPU(中央处理单元)、ROM和存储程序的存储装置等,以及诸如被用作为执行计算等的工作区域的RAM的各种装置。将被监控的装置3具有网络信息、软件信息、硬件信息等。
异常征候检测装置4配备有:操作设置部分41、数据获取部分42、数据初步处理部分43、单位空间生成部分44、单位空间存储部分45、归一化部分46、距离计算部分47以及异常征候判定部分48。数据初步处理部分43对应于例如预处理部分。异常征候判定部分48包括例如概率计算部分,而单位空间生成部分44包括,例如,数据临时存储部分、数据计算部分、信息计算部分以及重启检测部分。
操作设置部分41将从输入部分1输入的监控项目信息和数据获取间隔记录到单位空间存储部分45。此外,操作设置部分41记录在监控项目信息指定的多个监控项目中是否包括非老化型监控项目(存在/不存在非老化型监控项目)。
数据获取部分42利用WMI(Windows管理规范)、SNMP(简单网络管理协议)、S.M.A.R.T.(自我监测、分析和报告技术)等以上述数据获取间隔从将被监控的装置3获取由监控项目信息指定的多个监控项目组成的监控串数据(或串数据)。
数据初步处理部分43进行数据选择、数据清理、数据编码处理等,这都是在“Data Mining”(Pieter Adriaans、Dolf Zantinage著,KYORITSUSHUPPAN有限公司的Eiko Yamamoto、Kyoji Umemura译(1998))(非专利文献3)中描述的“数据挖掘”的预处理。也可以将此预处理称为初步处理。对从数据获取部分42接连输入的监控串数据进行初步处理。
单位空间生成部分44利用由数据初步处理部分43转换的多条监控串数据来计算各个监控项目的均值和方差,以及还计算指示监控项目之间的相关的相关系数矩阵和相关系数逆矩阵。所述方差是偏差(variation)的一种例子。所述相关系数矩阵和相关系数逆矩阵是相关信息的例子。
单位空间存储部分45存储通过单位空间生成部分44计算的各个监控项目的均值和方差,以及相关系数矩阵和相关系数逆矩阵。这组均值、方差、相关系数矩阵、相关系数逆矩阵对应于单位空间。当将被监控的装置3处于正常状态时收集到的从所述监控串数据生成的单位空间对应于正常状态的单位空间。
图4(A)到图4(F)示出了单位空间存储部分45的存储内容的例子。有130个监控项目X1到X130,并且由于在这些监控项目中存在非老化型监控项目,“存在/不存在非老化项目”的值是“TRUE”。图4(F)示出了各个监控项目的名称,图4(B)示出了各个监控项目的监控数据的均值,图4(C)示出了各个监控项目的监控数据的方差,图4(D)示出了监控项目间相关系数矩阵,而图4(E)示出了该相关系数矩阵的逆矩阵。
归一化部分46利用在单位空间存储部分45中存储的各个监控项目的均值和方差对通过数据初步处理部分43预处理过的监控串数据进行归一化。
距离计算部分47利用由归一化部分46归一化的监控串数据以及在单位空间存储部分45中存储的相关系数逆矩阵,计算在考虑监控项目之间的相关时与所述单位空间的距离,以及在不考虑监控项目之间的相关时与所述单位空间的距离。
异常征候判定部分48利用通过距离计算部分47计算出的考虑监控项目之间的相关时与所述单位空间的距离以及不考虑监控项目之间的相关时与所述单位空间的距离,无需任何阈值,进行异常征候判定(判定是否存在异常征候),并向输出部分2输出所述判定结果等。
下面参考图2和图3解释如以上所示构造的异常征候检测装置4的操作的例子。图2是流程图,其解释异常征候检测装置4的操作的概况,而图3是流程图,其解释图2中的单位空间生成处理(S406)的细节。此例子假设仅生成一个单位空间。
操作设置部分41通过例如将从输入部分1输入的监控项目信息和数据获取间隔记录到单位空间存储部分45来对异常征候检测装置的操作进行初始设置(S400)。将利用图5解释所述初始设置的细节。
图5示出了当从输入部分1输入监控项目X1到X130作为监控项目信息并将所述数据获取间隔设置为1分钟(60秒)时的例子。首先,在数组中存储如图5(F)所示的从输入部分1输入的监控项目信息的名称或ID(X1到X130)。接下来,将“130”记录为图5(A)中的“项目数”,并将60(秒)记录为“获取间隔”。此外,参考表1中的类别(H/W,S/W),判断上述130个监控项目中是否包括非老化型监控项目,并以二进制数据将判断结果存储在“存在/不存在非老化项目”的字段中。此处,由于包括了非老化型监控项目,记录“True”。对于均值和方差,分配了数组大小对应于项目数的存储区域((B)、(C)),而对于相关系数矩阵和相关系数逆矩阵,分配了矩阵大小对应于项目数×项目数的存储区域((D)、(E)),并被初始化,从而变成单位矩阵。当从输入部分1输入指示所述单位空间的初始化的初始化指令信息时,假设操作设置部分41对在单位空间存储部分45中存储的所述单位空间(均值、方差、相关系数矩阵、相关系数逆矩阵)进行初始化。
数据获取部分42从将被监控的装置3获取单位空间存储部分45中的监控项目信息中指定的多个监控项目的数据(监控串数据)(S401)。所述监控项目可以是由WMI、SNMP、S.M.A.R.T.等提供的项目,或者是独立开发的项目或是预期将来提供的项目。获取监控串数据的方法可以是任何方法,但是需要以在单位空间存储部分45中存储的数据获取间隔(以预定时间间隔)周期性地获取监控串数据,并假设在此例中以所述数据获取间隔获取所述监控串数据。然而,也可以以任何时间间隔获取所述监控串数据。
数据初步处理部分43对由数据获取部分42获取的所述监控串数据进行初步处理(预处理)(S402)。可以利用诸如滤波方法和封装方法(wrappermethod)等已有的(或通用的)属性选择算法(可以在将来进行研究)或者通过利用专门技术的限制规则来实现作为预处理例子的数据选择。可以例如通过当在时刻t获取的监控串数据中包含有包括了超出上下限的明显矛盾的值的监控数据时防止在时刻t的监控串数据被处理,来实现数据清理。利用诸如确定各条监控串数据之间的在指示总次数(例如,已经发生的错误的累积总数)的项目中的差别以及将所述差别转换为每单元时间的次数的处理的已有技术或者利用通过所述对象的知识将有用的一个变量(项目)代替(或加入)多个监控项目的方法,来实现数据编码。
单位空间生成部分44根据需要计算并存储新的单位空间(均值、方差、相关系数矩阵、相关系数逆矩阵)。更具体地,首先,单位空间生成部分44检查从数据初步处理部分43输出的监控串数据中是否包含非老化型监控项目(S403)。当包含非老化型监控项目时(S403为是),单位空间生成部分44检查在获取监控串数据紧接之前是否已经重启了将被监控的装置3(S404)。当在紧接之前已经重启了将被监控的装置3时(S404为是),流程进行到单位空间生成处理(S406)。另一方面,当在紧接之前尚未重启将被监控的装置3或者没有包含非老化型监控项目时(S403为否),单位空间生成部分44检查将被生成的所述单位空间是否存储在单位空间存储部分45中(S405),或者,当将被生成的所述单位空间没有存储在单位空间存储部分45中时(S405为是),流程进行到单位空间生成处理(S406)。
在所述单位空间生成处理中,首先如图3所示对在单位空间存储部分45存储的信息中的如下信息进行初始化(S407)。即,将待生成的单位空间中的所有监控项目的均值和方差设置为0,将读取的监控串数据的个数(读取的数据的个数)设置为0,并将所述监控项目之间的所述相关系数矩阵和所述相关系数逆矩阵转换为单位矩阵。假设仅当通过S404中的“是”流程到达S407时进行步骤S407,并且当流程经过S405时不进行S407。
接下来,将在单位空间存储部分45中存储的所述读取的数据的个数增加1,并更新在单位空间存储部分45中存储的均值、方差、相关系数矩阵(S408)。此时,通过给定极小的噪声量来进行计算,从而使得所述方差不会变为0。噪声优选地遵循高斯分布,但也可以遵循其它分布函数。在“Creation of Abnormality Diagnostic System of Racing Vehicles usingTelemetering”(Koichi Onishi,Collection of 10th Quality EngineeringResearch Presentation(2002))(非专利文献2)中报告了给定噪声的效果。
判断是否满足预定的单位空间生成条件(S409),并且如果不满足所述条件(S409为否),流程返回步骤S401的监控数据获取处理,而不会生成任何单位空间(此后,流程通过S405中的“是”返回到S407)。此处,假设所述预定的单位空间生成条件是读取数据的个数应该至少是这样的数据个数(指定的数据个数),其等于或多于监控项目个数的三倍。可以由设计者将指定数据的个数预先设置为特定值,或者可以根据考虑了监控项目数等的函数进行确定,或者也可以由用户通过输入部分1指定。
在步骤S409,当满足预定的单位空间生成条件时(S409为是),利用在单位空间存储部分45中存储的相关系数矩阵计算相关系数逆矩阵,并将其存储在单位空间存储部分45中,从而生成单位空间(均值、方差、相关系数矩阵、相关系数逆矩阵)(S410)。以上所示的图4示出了生成所述单位空间之后单位空间存储部分45的状况的例子。
在作为生成单位空间的处理的步骤S408到S410中,利用除了上述利用临时均值(在S408逐次更新的均值)的有效方法之外的任何方法,在将满足上述预定单位空间生成条件的多条监控串数据存储在所述存储装置中之后,还可以计算均值、方差,以及相关系数矩阵。并且,当在累积了满足上述预定单位空间生成条件的多条串数据之后进行计算时,也可以计算均值和方差,然后利用稍后将描述的表达式(1)对所有累积的监控串数据进行归一化,并从所有归一化后的监控串数据确定方差/协方差矩阵。这是因为从各个归一化的监控串数据计算出的方差/协方差矩阵对应于所述相关系数矩阵。
当不需要生成任何单位空间时(S405为否),即,(1)当没有包含非老化型监控项目时或者(2)当包含了一个或多个非老化型监控项目但没有在紧接之前重启并且已经生成了所述单位空间时,所述流程进行到S411,并且归一化部分46在步骤S402利用表达式(1)对经过初步处理的监控串数据进行归一化。
[表达式1]
X(t)={(x1(t)-m1)/σ1,…,(xk(t)-mk)/σk}            (1)
Xi(t)、mi以及σi分别表示第i个监控项目的初步处理数据值、均值和标准差。当标准差是0时,不能计算表达式(1),并且因此,在步骤S408计算均值和方差时给出了很小量的噪声。
距离计算部分47利用在步骤S411归一化的监控串数据和在单位空间存储部分45中存储的相关系数逆矩阵,来计算考虑监控项目之间的相关时的对单位空间的距离,以及不考虑监控项目之间的相关时的对单位空间的距离。作为具体的例子,表达式(2)示出了考虑监控项目之间的相关时的计算表达式,而表达式(3)示出了不考虑监控项目之间的相关时的计算表达式。
[表达式2]
DM(t)2=1/k·X(t)·R-1·X(t)T                       (2)
表达式(2)是考虑了监控项目之间的相关以及各个监控项目的值的变化的距离的计算函数的例子,并且在Taguchi方法中将其称为“Mahalanobis距离”。“X(t)”是在步骤S411归一化的在时刻t的监控串数据,而X(t)T是X(t)的转置矩阵。此外,“R-1”是逆相关系数矩阵,而“k”是监控项目的个数。
Mahalanobis距离是考虑变量之间(监控项目之间)的相关的一种距离度量,并且因此,不管存在当CPU负载很高时CPU温度也很高的相关的事实,如果例如,尽管获得的CPU负载低,指示CPU温度的监控串数据仍然很高,则能够采用较大的值。这样,因为Mahalanobis距离对于与单位空间具有不同倾向的数据具有高敏感度,其被认为在检测异常征候时非常有用。
通常认为表达式(2)给出的Mahalanobis距离极少采用6或者更大的值,因此,认为优选地将所述阈值设置为6,但是当用来生成所述单位空间的数据不够时,取代变量(监控项目)之间的相关的变化,变量(监控项目)的值的变化导致的距离的变化具有较大的贡献,这就导致了不一定能够确定所述阈值的问题。尤其,当计算机被当作将被监控的装置时,在几乎所有能够发生的正常模式下,很难获得监控串数据,因此,存在阈值的确定变成类似试错法(trial-and-error)的问题。因此,为了消除由于变量(监控项目)的值的变化导致的距离的变化,此实施例从不考虑监控项目之间的相关的距离计算差别,稍后将进行描述。
因此,在将被监控的计算机(例如,个人计算机)或解决方案中检测到异常征候之后,如果当生成单位空间时环境能够覆盖处于正常状况的监控项目的所有值,则假设稍后描述的表达式(4)为Y(t)=DM(t)2
[表达式3]
DE(t)2=1/k·X(t)·E·X(t)T                   (3)
表达式(3)是不考虑监控项目之间的相关的距离(即,仅考虑各个监控项目的值的变化的距离)的计算函数的例子,将其称为“Euclid距离”。其特征在于被监控项目的个数k相除,以匹配表达式(2)中的距离。X(t)是在步骤S411中归一化的在时刻t的监控串数据,而E是单位矩阵,其具有与在单位空间存储部分45中存储的相关系数矩阵相同的大小。
最后,异常征候判定部分48进行计算,以利用在S412确定的距离来判定存在/不存在异常征候,基于通过所述计算获得的值(异常征候的级别或概率)是否落入在某个概率分布中的预定的统计置信区间以内来判定异常征候的存在/不存在(S413),并向输出部分2输出所述判定结果等。以此方式判定异常征候的存在/不存在,无需设置阈值。以下将进行详细解释。
通常,以试错方式确定阈值的因素包括(A)监控数据伴随有不稳定的变化以及(B)因为用于生成所述单位空间的监控数据没有覆盖所有正常状态,即使在正常状态下也可计算极大的距离。
在(A)的情况下,在一种方法中,数据初步处理部分43假设所述差别的计算或者监控数据的算法,并将计算得到的值给与单位空间生成部分44,这种方法也是一种解决问题的技术。在(B)的情况下,通过生成覆盖所有正常状态的单位空间来解决问题,但是极难充分地覆盖可能发生的所有正常状态。因此,假设当在所述计算机或解决方案中出现异常时,即使在不完全的单位空间中,表达式(4-1)和(4-2)通过利用在监控项目之间的相关的趋势中经常产生不同于正常状态的微小偏移的事实,仅通过计算监控项目之间的相关的变化来进行具有高准确率的异常分析。
[表达式4]
Y(t)=DM(t)2/DE(t)2                     (4-1)
Y(t)=LOG(DM(t)2/DE(t)2)                (4-2)
表达式(4-1)和表达式(4-2)通过将考虑监控项目之间的相关的距离(Mahalanobis距离)除以不考虑监控项目之间的相关的距离(Euclid距离)来仅计算相对于所述单位空间的变化量(该量不包括各个监控项的值的变化)。
表达式(4-1)是当在监控数据xi不包括非稳定数据(例如,值累积降低或增加的数据)的情况下使用时有效的计算表达式,而表达式(4-2)是当在监控数据xi包括非稳定数据的情况下使用时有效的计算表达式。使用表达式(4-2)使得即使数据初步处理部分43不计算所述监控数据等的差别或算法时也能够处理非稳定数据。
表达式(4-1)和表达式(4-2)在正常状态下取值近似为0<Y(t)<1,但是在正常状态之外的任何状态下,Y(t)变成等于或大于1,并且也能够甚至取无穷大,而所述值取决于监控项目的个数变化。因此,当试图通过阈值判定来判断异常征候的存在/不存在时,可能出现问题。
因此,假设Y(t)遵循某概率分布,基于并不依赖于监控项目数的统计置信度来判定异常征候的存在/不存在。
[表达式5]
F ( x ) = P ( X ≤ x )
= ∫ - ∞ x f ( u ) du - - - ( 5 )
表达式(5)是分布函数的表达式,其表示变量X的取值等于或小于x的概率。F(x)是任意概率密度函数。F(x)对应于异常征候的级别或概率。
可以认为表达式(4-1)或表达式(4-2)近似表示当生成正常单位空间时的距离。在Mahalanobis距离的情况下,由于已知所述距离能够近似遵循卡方分布,通过用k·Y(t)替换x,可以将表达式(5)转换为以下的表达式(6)。
F(k·Y(t))=(ΓY(t)·k/2(k/2))/(Γ(k/2))  Y(t)>0
=0                                       Y(t)≤0    (6)
将F(k·Y(t))变成例如等于或大于与统计置信区间之外范围对应的99%或95%的情况(即,其变成等于或大于0.99或0.95的情况)确定为存在异常征候的情况。即,通过F(k·Y(t))是否落在99%的统计置信度或者95%的统计置信度以内来判定异常征候的存在/不存在。然而,由于在实际环境中通常被输入极端程度的噪声信号,期望将表达式(6)的计算结果的移动平均值变成等于或大于在所述统计置信区间以外的99%或95%的情况确定为存在异常征候的情况。
异常征候判定部分48将在S412计算的DM(t)2(考虑监控项目之间的相关的距离)、在S413计算的F(t)(异常征候的程度)、F(t)的移动平均值以及异常征候存在/不存在的判定结果中的至少任意一个传送给输出部分2,并且输出部分2输出已经接收到的信息。
图10(A)到图10(C)示出了来自输出部分2的输出结果的例子。图10(A)和图10(B)示出了检测到异常征候的例子,而图10(C)示出了正常的例子。横轴示出了时序索引(time sequence index),单位是分钟(即,每分钟获取监控串数据)。纵轴示出了表达式(5)中的F(x)的值(异常征候的程度)。假设从时序索引1到时序索引2000(约1.5天)获得的监控串数据中生成单位空间。直线L1表示时刻t的F(x),而折线L2(轮廓线)示出了F(x)的一个小时的移动平均值。
在所述一个小时的移动均值取值0.99或以上(在0.99的置信区间以外)的情况下,异常征候检测装置4假设检测到异常征候,并给予用户警告。给予警告的方法可以是发送给管理员等的电子邮件、在控制台上显示、输出到日志、通过弹出窗口或声音等执行预定的任意程序指令或通知。
下面通过将其转换为实际日期和时间来详细解释图10(B)。从7月6日11:00到7月7日20:28的2000个监控串数据生成单位空间。异常征候的程度从7月6日22:06开始几乎是单调增加,并且在7月8日16:23检测到异常征候。从那时开始,当个人计算机实际冻结(freeze)时,直到7月10日12:58,F(x)的数值一直为1。
作为输出部分2的输出方法,可以以图10(A)到图10(C)所示的图形格式输出数据,或者可以列举数值或者可以将数据写入文件或存储在RAM(随机存储器)中。
根据此实施例的异常征候检测装置使得大部分卡方分布是Mahalanobis距离的近似分布函数,其中所述Mahalanobis距离是考虑监控项目之间的相关的距离,并且从而,无需任何阈值,即可判定存在/不存在异常征候,但是当利用另外的距离度量进行计算时,期望使用该距离的分布函数。此外,将表达式(5)变换为表达式(6),其假设所述Mahalanobis距离可近似为卡方分布,但是即使在诸如F分布、gamma分布的其它概率分布的情况下,如果它们在数学上可以转换为等效于卡方分布,则认为它们等价。
例如,在F分布的情况下,
F(x)=Bγ(m1/2,m2/2)/B(m1/2,m2/2)            (7)
(γ=m1·x/(m2+m1·x),B是β函数,Bγ是不完全的β函数)
如果给出x=Y(t)和m2=∞,则F(x)等价于卡方分布。
同样,在gamma分布的情况下,
F(x)=1-[EXP(-x/β)][∑iα-1]                 (8)
如果给出x=k·Y(t),a=k/2以及β=2,F(x)变成等价于卡方分布。
如上所述,此实施例扩展了非专利文献1的Mahalanobis-Taguchi方法,从利用了考虑监控项目之间的相关的距离和不考虑监控项目之间的相关的距离的函数,计算对应于单位空间的距离(相关的变化量)(参见表达式4-1、4-2),取决于计算得到的距离是否落入预定的概率分布中的预定置信区间内来检测异常征候,因此,无需确定任何阈值,就可以进行异常征候检测。此外,可以快速检测异常征候状态,并给出警告。
图6示出了根据本发明第二实施例的异常征候检测装置的示意性构造。这对应于加入了单位空间层次存储部分49的图1中的异常征候检测装置4。图6中与图1相同的部分被赋以相同的参考数字。数据获取部分42包括例如第一数据获取部分和第二数据获取部分,单位空间生成部分44包括例如第一数据临时存储部分和第二数据临时存储部分、第一计算部分、第二计算部分以及重启检测部分,归一化部分46包括例如第一归一化部分和第二归一化部分,距离计算部分47包括例如第一距离计算部分和第二距离计算部分,以及,异常征候判定部分48包括例如概率计算部分。
在解释此异常征候检测装置之前,将解释在此实施例中新引入的术语“单位空间分层结构”。作为“背景技术”中描述的非专利文献1中的Mahalanobis-Taguchi方法的应用研究,已经开发出了一种多阶段Mahalanobis-Taguchi方法。在所述多阶段Mahalanobis-Taguchi方法中,将项目分类为几组,以避免多重共线性,分别计算Mahalanobis距离,将获得的Mahalanobis距离作为新项目来计算Mahalanobis距离。所述单位空间分层结构定义了所述单位空间的层次关系,并且此实施例使得所述异常征候检测装置利用此单位空间分层结构执行与多阶段Mahalanobis-Taguchi方法类似的处理。这使得可以减少生成单位空间的计算开销,将监控对象划分为多个块,并容易发现存在异常征候的区域。
图11是为了减少生成单位空间的计算开销而构造的单位空间分层结构的例子。此单位空间分层结构由在顶层(根节点)的单位空间U2以及作为根节点的子节点的单位空间U0、U1组成。从老化型监控项目X1到X130的串数据和单位空间U0获得异常征候的第一级,从非老化型监控项目Y1到Y80的串数据和单位空间U1获得异常征候的第二级。作为监控项目Z1、Z2的串数据来处理异常征候的这些第一和第二级,并且与第一实施例的情况一样,从监控项目Z1、Z2的串数据以及单位空间U2获得异常征候存在/不存在的判定结果或者异常征候的级别等,并将其从输出部分2输出。在此,与第一实施例类似,从老化型监控项目X1到X130周期性获取的串数据生成单位空间U0,与第一实施例类似,从非老化型监控项目Y1到Y80周期性获取的串数据生成单位空间U1,并且,与第一实施例类似,从监控项目Z1、Z2周期性获取的串数据生成单位空间U2。由于单位空间U1基于非老化型监控项目,必须为将被监控的装置的每次重启生成单位空间U1,而单位空间U0仅基于老化型监控项目,并且因此,即使重启将被监控的装置,也无需再次生成。由于单位空间U2基于单位空间U1,当重启将被监控的装置时必须重新生成。在图8所示的分层结构信息中描述了这样的单位空间分层结构,并且在图6中的单位空间层次存储部分49中存储了此分层结构信息。
图11示出了意图减小生成单位空间的计算开销的单位空间分层结构的例子,而图12示出了意图减小生成单位空间的计算开销并且将待监控的装置划分为块以容易地发现异常征候的区域的单位空间分层结构。尽管在单位空间U0、U1中涉及的将被监控的装置相同,但在单位空间U3、U5、U6中涉及的将被监控的装置不同于在单位空间U0、U1中涉及的将被监控的装置,并且当从输出部分2的单位空间U7检测到异常征候时,通过分析所述单位空间分层结构和来自各个单位空间的输出,可以容易地发现在其中出现了异常征候的将被监控的装置。如图13所示,当定义了仅具有一个阶段的分层结构时,这变得等同于第一实施例。
此后,将利用图6到图9和图11来解释图6中的异常征候检测装置的操作。图7是流程图,其阐明了图6中的异常征候检测装置的操作。为其中的处理与第一实施例中使用的图2中的流程图的处理等同的步骤分配了相同的参考数字(S400到S413)。
首先,操作设置部分41将从输入部分1输入的监控项目信息以及数据获取间隔记录到单位空间存储部分45,并将从输入部分1输入的分层结构信息(假设在此处输入图8中的分层结构信息)记录到单位空间层次存储部分49,从而对异常征候检测装置进行初始设置(S400)。此外,当输入所述单位空间的初始化指示信息时,对与在单位空间存储部分45中存储的初始化指令信息中指示的单位空间ID(参见图8)相关的信息(均值、方差、相关系数矩阵、相关系数逆矩阵)进行初始化。
当将分层结构信息中的所有监控项目分配给所述单位空间ID时,这等价于根据第一实施例的异常征候检测装置。此外,当存在多个单位空间ID,但没有定义分层结构时(在图8中,定义了U2和U0、U1之间的层次关系),这等价于对各个单位空间独立进行处理(并列地进行在第一实施例中解释的处理)的根据第一实施例的异常征候检测装置。
由于生成单位空间U0到U2的所述方法,计算异常征候的级别以及判定异常征候存在/不存在等与第一实施例相同,因此,将省略对其的解释,并将基于图11中的例子解释层次化地确定输出的处理。
可以认为分层结构是一个树结构,假设接近输入的那些是“叶节点”,假设接近输出的那些是“根节点”。在图11中,U2对应于根节点,而U0和U1对应于叶节点。因此,利用树结构的扫描算法,可以递归地计算从与输出接近的结点开始的异常征候的级别(F(x))和异常征候的存在/不存在。
首先,假设最接近于输出的U2是感兴趣的节点(S500)。
单位空间生成部分44参照单位空间层次存储部分49,并且当检查到感兴趣节点U2的输入时,首先参照U0(S501、S502为否)。在单位空间层次存储部分49中的分层结构信息中记录首先参照的U0,作为单位空间ID(S503为是),因此将U0变为感兴趣的节点(S504)。
此处,参照单位空间层次存储部分49的分层结构信息,并与U2的情况一样,检查感兴趣节点U0的输入(S501)。由于没有在单位空间层次存储部分49中的分层结构信息中将首次参照的X1记录为单位空间ID(S502为否,S503为否),证明X1是监控项目。同样的方式,当证明一直到X130的项目是相对于U0的输入的监控项目时(S502为是),即,当证明U0没有更低的节点时,利用作为S412的结果的考虑了监控项目之间的相关的距离(参见表达式(2)、表达式(4-1)、表达式(4-2))或者作为U0的输出的S413中的异常征候的级别来进行并完成S403到S413的处理,然后,流程返回到U2的处理。
在感兴趣的节点U2,继续检查所述输入(S501),并且证明U1是下一个输入。由于和U0的情况一样,U1被存储为单位空间层次存储部分49的单位空间ID(S502为否,S503为是),则U1变成感兴趣的节点(S504)。此后,进行与U0类似的处理,获得U1的输出,并且流程返回到对感兴趣节点U2的处理。
由于在感兴趣的节点U2没有下一个输入(S502为是),利用作为U2输入的U0的输出和U1的输出进行S403到S413的处理,并且作为S412的结果的考虑了监控项目之间的相关的距离(参见表达式(2)、表达式(4-1)、表达式(4-2))或者作为S413的结果的异常征候的级别,被作为U2的输出。
在图9(A)到图9(E)中示出了通过上述处理的单位空间存储部分45中存储的信息的例子。
根据第二实施例,根据其是状态完全通过重启计算机或解决方案进行初始化的监控项目还是包括状态不完全通过重启计算机或解决方案进行初始化的项目的单位空间来对监控项目进行归类,在重启时重新生成所述单位空间,从而可以减小检测异常征候所需要的计算开销。此外,可以动态改变所述单位空间,从而以更小的开销判断计算机的异常征候。
可以利用通用计算机装置作为上述基础硬件实现图1和图6的异常征候检测装置。即,可以通过使得上述计算机装置上安装的处理器执行程序来实现图1和图6中的异常征候检测装置中的各块。此时,也可以通过在计算机装置上安装上述程序实现图1和图6的异常征候检测装置,或者通过在诸如CD-ROM的存储介质中存储所述程序或者经由网络分发上述程序并适当地在计算机装置中安装此程序来进行实现。此外,可以利用集成在或者添加到上述计算机装置中的存储器、硬盘或者诸如CD-R、CD-RW、DVD-RAM、DVD-R的存储介质适当地实现图1和图6中的单位空间存储部分以及图6中的单位空间层次存储部分。
本发明不限于上述实施例,无需脱离实施阶段的实质,可以在其范围内修改和实施所述组件。此外,通过适当地组合上述实施例中公开的多个组件可以形成各种发明。例如,可以从所述实施例中所示的所有组件中删除一些组件。此外,可以适当地组合不同实施例中使用的组件。
(表1)
  来源   名称   类别   评价
  S.M.A.R.T.   Raw Read Error Rate   H/W   此项示出了当从硬盘读取数据时出现的错误率。当此数值低于阈值时,在硬盘的磁盘或磁头中存在异常。
  S.M.A.R.T.   Throughput Performance   H/W   硬盘的整体吞吐性能。当此数值等于或低于阈值时,硬盘出现异常的概率非常高。
  S.M.A.R.T.   Spin Up Time   H/W   在硬盘开始当前应用
  和旋转,直到达到指定的旋转次数所花费的平均时间。
  S.M.A.R.T.  Start/Stop Count   H/W   硬盘的主轴电机旋转/停止的次数。
  S.M.A.R.T.  Reallocated Sectors Count   H/W   已经重新分配的坏扇区数(数据转移到特定保留的区域)。
  S.M.A.R.T.  Seek Error Rate   H/W   磁头试图移动到存在目标数据的磁轨上但却失败的比率(寻道错误)。这是由于硬盘发热以及伺服机制损坏等导致的。当该值较低时,在硬盘表面和硬盘机械系统中可能出现问题。
  S.M.A.R.T.  Seek Time Performance   H/W   磁头寻道所需要的平均时间。
  S.M.A.R.T.  Power-On Hours   H/W   来自厂家缺省设置的对硬盘的当前应用的全部时间。与阈值相关的此值中的下降指示MTBF(平均故障间隔)的下降。
  S.M.A.R.T.  Spin Retry Count   H/W   将盘旋转增加到指定速度的重试次数。
  S.M.A.R.T.  Recalibration Retries   H/W   重试硬盘校准操作(自
  动校正由于发热导致的脱轨现象的功能)的次数(校准再次失败)。
  S.M.A.R.T.   Device Power Cycle Count   H/W   硬盘的电源被开启/关闭的次数。
  S.M.A.R.T.   Soft Read Error Rate   H/W
  S.M.A.R.T.   G-Sense Error Rate   H/W   由于硬盘上的冲击出现的错误率。由硬盘上集成的冲击感应传感器感应冲击。
  S.M.A.R.T.   Power-Off Retract Count   H/W   由于拔出电源线等导致的硬盘强制停止并且磁头紧急退回的次数。这给硬盘带来了很大的负担。
  S.M.A.R.T.   Load/Unload Cycle Count   H/W   加载/卸载机制导致磁头从磁盘表面退回到退回区域然后再返回磁盘表面的总次数。
  S.M.A.R.T.   Temperature   S/W   磁盘的当前温度。通常,可确保操作的最高温度是55℃。
  S.M.A.R.T.   Hardware ECC recovered   H/W
  S.M.A.R.T.   Reallocation Event Count   H/W   发生扇区重新分配的次数。即使处理失败,也将此量加入计数。
  S.M.A.R.T.   Current Pending SectorCount   S/W   当前异常并且等待重新分配的扇区总数。如
  果一些扇区稍后成功读取,则此值降低。
  S.M.A.R.T.  Off-Line Scan UncorrectableSector Count   H/W   在离线扫描时发现的不可恢复的扇区的总数。当此值增加时,磁盘表面肯定存在问题。
  S.M.A.R.T.  UltraDMA CRC ErrorCount   S/W   在数据以UltraDMA模式传输期间发生的CRC错误的次数。
  S.M.A.R.T.  Write Error Rate(MultiZone Error Rate)   S/W   写数据期间发现的错误的总数。
  S.M.A.R.T.  Soft Read Error Count   H/W   当程序从磁盘表面读取数据时发生的错误率。
  S.M.A.R.T.  Data Address Mark Error   H/W   指示DAM(数据地址标记)相关的错误的频率。
  S.M.A.R.T.  Run Out Cancel   H/W   指示ECC(错误校正码)错误的频率
  S.M.A.R.T.  Soft ECC Correction   H/W   由软件ECC校正的错误的总数。
  S.M.A.R.T.  Thermal Asperity Rate   H/W   由热严酷现象(当磁头与磁介质的突起相碰撞,发热以及产生误导数据检测的可能性时产生的现象)导致的错误的总数。
  S.M.A.R.T.  Flying Height   H/W   磁头的飘浮高度。
  S.M.A.R.T.   Spin High Current   H/W   用来旋转驱动器的高电流量。
  S.M.A.R.T.   Spin Buzz   H/W   已经使用蜂鸣声例程(挂起使磁头与盘垂直的处理,以防止磁头接触盘。当顺利发生时,此声音类似蜂鸣声)的次数。
  S.M.A.R.T.   Offline Seek Performance   H/W   [209]指示离线扫描期间测量的寻道功能的性能的数值。
  S.M.A.R.T.   Disk Shift   H/W   盘(盘片)由于冲击等从初始的固定位置偏移的距离。
  S.M.A.R.T.   Loaded Hours   S/W   指示普通操作期间产生的磁头致动器上的负载的值。
  S.M.A.R.T.   Load/Unload Retry Count   H/W   在加载或卸载时加载/卸载机制的失败以及进行重试的次数。
  S.M.A.R.T.   Load Friction   H/W   指示由于机械部分摩擦导致的磁头致动器上的负荷的值。
  S.M.A.R.T.   Load-in Time   H/W   磁头致动器承受数据读取负荷期间的时间总和。
  S.M.A.R.T.   Torque Amplification Count   H/W   指示磁盘旋转期间转矩放大力的值。
  S.M.A.R.T.   GMR Head Amplitude   H/W   GMR磁头操作期间的振动幅度。
  S.M.A.R.T.   Head Flying Hours   H/W   磁头定位期间的时间。
  S.M.A.R.T.   Read Error Retry Rate   H/W   当从磁盘读取数据时出现错误的频率。
  WMI   Win32_Processor.LoadPercentage   S/W   处理器的使用率
  WMI   Win32_LogicalDisk.FreeSpace   H/W   磁盘的剩余空间
  WMI   Win32_PageFileUsage.CurrentUsage   S/W   所使用的页面文件的数量
  WMI   Win32_OperatingSystem.FreePhisycalMemory   S/W   存储器的剩余空间
  WMI   Win32_OperatingSystem.FreeVirtualMemory   S/W   虚拟存储器的剩余空间
  WMI   Win32_OperatingSystem.NumberOfProcess   S/W   正在开始的进程数
  WMI   Win32_Process.HandleCount   S/W   句柄数
  WMI   Win32_Process.PageFileUsage   S/W   进程使用的页面文件的数量
  WMI   Win32_Process.ReadOperationCount   S/W   进程的读取指令的个数(累积)
  WMI   Win32_Process.ReadTransferCount   S/W   进程的读取数据的量(累积)
  WMI   Win32_Process.ThreadCount   S/W   进程的活动线程的个数
  WMI   Win32_Process.VirtualSize   S/W   进程使用的虚拟存储
 器的量
  WMI   Win32_Process.WorkingSetSize   S/W  进程使用的存储的量
  WMI   Win32_Process.WriteOperationCount   S/W  进程的写指令的个数(累积)
  WMI   Win32_Process.WriteTransferCount   S/W  进程的写数据的量(累积)
  SNMP   ifNnumber   S/W  设备中提供的接口数
  SNMP   ifOperStatus   S/W  操作状态
  SNMP   ifInOctets   S/W  已接收的八位组的总数
  SNMP   ifInUcastPkts   S/W  已接收的单播数据包的个数
  SNMP   IfInNUcastPkts   S/W  已接收的非单播数据包的个数
  SNMP   ifInDiscards   S/W  除错误以外的原因丢弃的已接收数据包的个数
  SNMP   ifInErrors   S/W  导致错误的已接收数据包的个数
  SNMP   ifInUnknownProtos   S/W  由于不支持的协议导致丢弃的数据包的个数
  SNMP   ifOutOctets   S/W  所有发送的八位组的个数
  SNMP   ifOutUcastPkts   S/W  已发送的单播数据包的个数
  SNMP   ifOutNUcastPkts   S/W  已发送的非单播数据
  包的个数
  SNMP   ifOutDiscards   S/W   由于错误以外的原因丢弃的发送数据包的个数
  SNMP   ifOutErrors   S/W   导致错误的发送数据包的个数
  SNMP   ifOutQLen   S/W   为输出队列累积的数据包的个数
  SNMP   IDiskPercentDiskReadTime   S/W
  SNMP   IDiskPercentDiskTime   S/W
  SNMP   IDiskPercentDiskWriteTime   S/W
  SNMP   IDiskPercentFreeSpace   S/W
  SNMP   IDiskPercentIdleTime   S/W
  SNMP   IDiskAvgDiskQueueLength   S/W
  SNMP   IDiskAvgDiskReadQueueLength   S/W
  SNMP   IDiskAvgDiskWriteQueueLength   S/W
  SNMP   IDiskAvgDiskSecPerRead   H/W
  SNMP   IDiskAvgDiskSecPerTransfer   H/W
  SNMP   IDiskAvgDiskSecPerWrite   H/W
  SNMP   IDiskCurrentDiskQueueLength   S/W
  SNMP   IDiskDiskBytesPerSec   S/W
  SNMP   IDiskDiskReadBytesPerSec   S/W
  SNMP   IDiskDiskReadPerSec   S/W
  SNMP   IDiskDiskTransfersPerSec   S/W
  SNMP   IDiskDiskWriteBytesPerSec   S/W
  SNMP   IDiskDiskWritesPerSec   S/W
  SNMP   IDiskFreeMegabytes   S/W
  SNMP   IDiskSplitIOPerSec   H/W
  SNMP   memoryAvailableMBytes   S/W
  SNMP   memoryCommittedBytes   S/W
  SNMP   memoryCacheBytes   S/W
  SNMP   memoryCacheBytesPeak   S/W
  SNMP   memoryPageFaultsPerSec   S/W
  SNMP   memoryPagesInputPerSec   S/W
  SNMP   memoryPagesOutputPerSec   S/W
  SNMP   memoryPagesPerSec   S/W
  SNMP   memoryPoolNonpagedBytes   S/W
  SNMP   memoryPoolPagedBytes   S/W
  SNMP   memoryPoolPagedResidentBytes   S/W
  SNMP   memorySystemCacheResidentBytes   S/W
  SNMP   memorySystemCodeResidentBytes   S/W
  SNMP   memorySystemCodeTotalBytes   S/W
  SNMP   memorySystemDriverResidentBytes   S/W
  SNMP   memorySystemDriverTotalBytes   S/W
  SNMP   objectsProcesses   S/W
  SNMP   objectsThreads   S/W
  SNMP   cpuPercentDPCTime   S/W
  SNMP   cpuPercentInterruptTime   S/W
  SNMP   cpuPercentPrivilegedTime   S/W
  SNMP   cpuPercentProcessorTime   S/W
  SNMP   cpuPercentUserTime   S/W
  SNMP   cpuAPCBypassesPerSec   S/W
  SNMP   cpuDPCBypassesPerSec   S/W
  SNMP   cpuDPCRate   S/W
  SNMP   cpuDPCsQueuedPerSec   S/W
  SNMP   cpuInterruptsPerSec   S/W
  SNMP   hrSystemInitialLoadDevice   -
  SNMP   hrSystemInitialLoadParameters -
  SNMP   hrSystemNumUsers   -
  SNMP   hrSystemProcesses   S/W
  SNMP   hrSystemMaxProcesses   -
  SNMP   hrMemorySize   -
  SNMP   hrStorageAllocationUnits   S/W
  SNMP   hrStorageSize   S/W
  SNMP   hrStorageUsed   S/W
  SNMP   hrStorageAllocationFailures   S/W
  SNMP   hrDeviceStatus   -
  SNMP   hrDeviceErrors   H/W
  SNMP   hrSWRunPerfCPU   S/W
  SNMP   hrSWRunPerfMem   S/W
  SNMP  hrSWInstalledLastChange   -
  SNMP  hrSWInstalledLastUpdateTime   -
  SNMP  hrSWInstalledType   -
  SNMP  hrSWInstalledDate   -
  SNMP  mbmSensorType   -
  SNMP  mbmSensorCurrentS   H/W

Claims (14)

1.一种异常征候检测装置,包括:
数据获取部分,其被配置为以预定或任意时间间隔从将被监控的装置获取由多个监控项目组成的串数据;
数据临时存储部分,其被配置为临时地存储各个获取的串数据;
数据计算部分,其被配置为利用在所述数据临时存储部分中存储的各个串数据来计算所述监控项目的每一个的均值和方差;
信息计算部分,其被配置为利用在所述数据临时存储部分中存储的各个串数据来计算指示所述监控项目之间的相关的相关信息;
归一化部分,其被配置为利用各个监控项目的所述均值和所述方差对由所述数据获取部分获取的串数据进行归一化;
距离计算部分,其被配置为通过利用所述归一化的串数据和所述相关信息进行计算,来对所述归一化的串数据计算对于所述相关信息的距离;以及
异常征候判定部分,其被配置为取决于所述计算的距离是否落入对某概率分布预先设置的置信区间之内来判定所述将被监控的装置中是否存在异常征候。
2.根据权利要求1所述的装置,其中,所述数据计算部分计算所述监控项目之间的相关系数矩阵的逆矩阵,作为所述相关信息,以及
所述距离计算部分通过利用所述归一化的串数据和所述逆矩阵进行计算来计算所述距离。
3.根据权利要求2所述的装置,其中,所述距离是Mahalanobis距离。
4.根据权利要求1所述的装置,其中,所述数据计算部分计算所述监控项目之间的相关系数矩阵的逆矩阵,作为所述相关信息,
所述距离计算部分
通过利用所述归一化的串数据和所述相关系数矩阵的逆矩阵进行计算来计算第一距离,
通过利用所述归一化的串数据和与所述监控项目的个数对应的单位矩阵进行计算来计算第二距离,以及
通过用所述第二距离除所述第一距离来计算所述距离。
5.根据权利要求4所述的装置,其中,所述第一距离是Mahalanobis距离,而所述第二距离是Euclid距离。
6.根据权利要求1所述的装置,进一步包括:
列表存储部分,其被配置为存储在其中为所述监控项目的每一个设置了第一标注或第二标注的列表信息;以及
重启检测部分,其被配置为检测所述将被监控的装置的重启,
其中,当检测到所述重启时,在所述监控项目的至少一个中设置了所述第二标注的情况下,所述数据计算部分重新计算所述均值、所述方差以及所述相关信息。
7.根据权利要求1所述的装置,进一步包括:预处理部分,其被配置为对由所述数据获取部分获取的串数据进行预处理。
8.根据权利要求1所述的装置,其中,所述异常征候判定部分取决于所述距离的移动平均值是否落入所述置信区间之内来判定所述将被监控的装置中是否存在异常征候。
9.根据权利要求1所述的装置,其中,所述某概率分布是卡方分布。
10.根据权利要求1所述的装置,其中,所述数据获取部分以预定的或任意的时间间隔从具有两个或更多将被监控的装置的将被监控的系统获取由多个监控项目组成的所述串数据,以及
所述异常征候判定部分判定所述将被监控的系统中是否存在异常征候。
11.一种异常征候检测装置,包括:
第一数据获取部分,其被配置为以预定或任意时间间隔从将被监控的装置获取其每一个由多个监控项目组成的第1到第n个串数据;
第一数据临时存储部分,其被配置为临时地存储所述获取的第1到第n个串数据;
第一计算部分,其被配置为利用在所述第一数据临时存储部分中存储的第1到第n个串数据,计算与所述第1到第n个串数据中的每一个对应的各个监控项目的均值和方差,以及为所述第1到第n个串数据的每一个计算指示所述监控项目之间的相关的相关信息;
第一归一化部分,其被配置为利用与由所述第一数据获取部分获取的所述第1到第n个串数据的每一个对应的各个监控项目的所述均值和所述方差对所述第1到第n个串数据中的每一个进行归一化;
第一距离计算部分,其被配置为通过利用所述归一化的第1到第n个串数据和与所述归一化的第1到第n个串数据中的每一个对应的所述相关信息进行计算,来对所述归一化的第1到第n个串数据的每一个计算对于所述相关信息的距离;
概率计算部分,其被配置为计算与各个计算得到的距离或者小于所述各个计算得到的距离以及某个概率分布相对应的概率;
第二数据获取部分,其被配置为以预定或任意时间间隔获取具有作为监控项目的所述各个计算得到的概率的串数据;
第二数据临时存储部分,其被配置为临时地存储各个获取的串数据;
第二计算部分,其被配置为利用在所述第二数据存储部分中存储的各个串数据计算所述监控项目的每一个的均值和方差,以及指示所述监控项目之间的相关的第二相关信息;
第二归一化部分,其被配置为利用所述监控项目的每一个的所述均值和所述方差对由所述第二数据获取部分获取的串数据进行归一化;
第二距离计算部分,其被配置为通过利用所述归一化的串数据和所述第二相关信息进行计算,来对所述归一化的串数据计算对于所述第二相关信息的第二距离;以及
异常征候判定部分,其被配置为取决于所述计算的第二距离是否落入对所述某概率分布预先设置的置信区间之内来判定所述将被监控的装置中是否存在异常征候。
12.根据权利要求11所述的装置,其中,所述第一数据获取部分以预定的或任意的时间间隔从具有两个或更多将被监控的装置的将被监控的系统获取所述第1到第n个串数据,以及
所述异常征候判定部分判定所述将被监控的系统中是否存在异常征候。
13.根据权利要求12所述的装置,进一步包括:
列表存储部分,其被配置为存储在其中为与所述第1到第n个串数据中的每一个对应的各个监控项目设置了第一标注或第二标注的列表信息;以及
重启检测部分,其被配置为检测所述系统中的装置被重启,
其中,当检测到所述重启并且为与重启的装置相关联的监控项目中的至少一个设置了所述第二标注时,所述第一计算部分从具有与所述重启装置相关联的监控项目的串数据重新计算均值、方差以及相关信息,并且
所述第二计算部分重新计算所述均值、所述方差以及所述第二相关信息。
14.一种异常征候检测方法,包括:
以预定或任意时间间隔从将被监控的装置获取由多个监控项目组成的串数据;
在数据临时存储部分中临时地存储各个获取的串数据;
利用在所述数据临时存储部分中存储的各个串数据计算所述监控项目的每一个的均值和方差以及指示所述监控项目之间的相关的相关信息;
利用各个监控项目的所述均值和所述方差对所述获取的串数据进行归一化;
通过利用所述归一化的串数据和所述相关信息进行计算,来对所述归一化的串数据计算对于所述相关信息的距离;以及
根据所述计算的距离是否落入对某个概率分布预先设置的置信区间之内来判定所述将被监控的装置中是否存在异常征候。
CN200710199817.6A 2006-12-13 2007-12-13 检测异常征候的装置和方法 Pending CN101201762A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP336263/2006 2006-12-13
JP2006336263A JP4413915B2 (ja) 2006-12-13 2006-12-13 異常兆候検出装置および方法

Publications (1)

Publication Number Publication Date
CN101201762A true CN101201762A (zh) 2008-06-18

Family

ID=39516936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710199817.6A Pending CN101201762A (zh) 2006-12-13 2007-12-13 检测异常征候的装置和方法

Country Status (3)

Country Link
US (1) US7548831B2 (zh)
JP (1) JP4413915B2 (zh)
CN (1) CN101201762A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279775A (zh) * 2011-08-19 2011-12-14 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN102306504A (zh) * 2011-08-17 2012-01-04 厦门市美亚柏科信息股份有限公司 样本采集方法及复制设备健康状况的预测方法
CN102930178A (zh) * 2012-11-26 2013-02-13 慈溪市供电局 一种负荷数据异常检测方法
CN103020166A (zh) * 2012-11-26 2013-04-03 宁波电业局 一种电力实时数据异常检测方法
CN103984938A (zh) * 2014-05-30 2014-08-13 中国科学院遥感与数字地球研究所 一种遥感时间序列异常检测方法
CN104254873A (zh) * 2012-03-15 2014-12-31 行为识别系统公司 视频监控系统中的警报量归一化
CN104462445A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 网页访问数据的处理方法和装置
CN107949865A (zh) * 2015-09-02 2018-04-20 富士通株式会社 异常检测装置、异常检测方法及异常检测程序
CN109800122A (zh) * 2018-12-13 2019-05-24 平安科技(深圳)有限公司 监控提示方法、装置、计算机设备及存储介质
CN110597703A (zh) * 2018-06-13 2019-12-20 中国移动通信集团浙江有限公司 一种回归测试方法及装置

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT507019B1 (de) * 2008-07-04 2011-03-15 Siemens Vai Metals Tech Gmbh Verfahren zur überwachung einer industrieanlage
US8700953B2 (en) 2008-09-18 2014-04-15 Nec Corporation Operation management device, operation management method, and operation management program
JP2010282348A (ja) * 2009-06-03 2010-12-16 Nec System Technologies Ltd 情報収集装置および情報収集方法
JP5388122B2 (ja) * 2009-12-16 2014-01-15 Kddi株式会社 サーバ監視装置およびそのサーバ障害判定方法
US8386849B2 (en) * 2010-01-29 2013-02-26 Honeywell International Inc. Noisy monitor detection and intermittent fault isolation
CN102822768A (zh) * 2010-03-23 2012-12-12 索尼公司 通过从处理器性能管理系统掩蔽处理来减少功耗
JP5337909B2 (ja) * 2010-03-30 2013-11-06 株式会社東芝 異常検出装置
JP5267736B2 (ja) 2010-06-07 2013-08-21 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
CN102339288B (zh) * 2010-07-21 2013-09-25 中国移动通信集团辽宁有限公司 数据仓库异常数据的检测方法及装置
JP5594050B2 (ja) * 2010-10-20 2014-09-24 株式会社リコー 液吐出不良検出装置、インクジェット記録装置、及び液吐出不良検出方法
CN101984415A (zh) * 2010-11-02 2011-03-09 中兴通讯股份有限公司 一种设定监控指标阈值的方法和装置
CN102331331A (zh) * 2011-06-20 2012-01-25 中国国际航空股份有限公司 飞机机载氧气性能检测方法
WO2013035264A1 (ja) * 2011-09-05 2013-03-14 日本電気株式会社 監視装置、監視方法およびプログラム
CN102722042B (zh) * 2012-06-06 2014-12-17 深圳市华星光电技术有限公司 液晶生产设备的内部环境检测系统及方法
JP2014010538A (ja) * 2012-06-28 2014-01-20 Nec Corp 運用管理装置、運用管理システム及び運用管理方法
CN102761888B (zh) * 2012-07-20 2016-01-13 无锡儒安科技有限公司 一种基于特征选择的传感网络异常检测方法和装置
JP5490278B2 (ja) * 2013-03-05 2014-05-14 三菱重工業株式会社 プラント運転状態監視方法
JP6424562B2 (ja) * 2014-10-23 2018-11-21 富士ゼロックス株式会社 障害予測装置、障害予測システム、及びプログラム
JP2016095751A (ja) * 2014-11-17 2016-05-26 富士通株式会社 異常機器特定プログラム、異常機器特定方法、及び、異常機器特定装置
US20160253118A1 (en) * 2015-02-26 2016-09-01 Kabushiki Kaisha Toshiba Electronic device, controlling method, and storage medium
CN107464578A (zh) * 2016-06-02 2017-12-12 深圳市祈飞科技有限公司 一种硬盘自动加热控制系统和方法
FR3061324B1 (fr) * 2016-12-22 2019-05-31 Electricite De France Procede de caracterisation d'une ou plusieurs defaillances d'un systeme
EP3391939B1 (en) * 2017-04-19 2020-01-15 Ion Beam Applications S.A. System and method for detecting hardware degradation in a radiation therapy system
US10831382B2 (en) * 2017-11-29 2020-11-10 International Business Machines Corporation Prevent disk hardware failure for cloud applications
CN110262947B (zh) * 2018-03-12 2022-05-17 腾讯科技(深圳)有限公司 阈值告警方法、装置、计算机设备及存储介质
JP7029362B2 (ja) * 2018-08-16 2022-03-03 三菱重工業株式会社 異常検出装置、異常検出方法、及びプログラム
US10942662B2 (en) * 2018-11-30 2021-03-09 International Business Machines Corporation Relocating and/or re-programming blocks of storage space based on calibration frequency and resource utilization
US11334414B2 (en) * 2019-03-04 2022-05-17 Mitsubishi Heavy Industries, Ltd. Abnormality detecting apparatus, rotating machine, abnormality detection method, and non- transitory computer readable medium
JP6959287B2 (ja) * 2019-04-01 2021-11-02 ファナック株式会社 監視装置、監視システムおよび監視方法
JP7377637B2 (ja) * 2019-06-28 2023-11-10 三菱重工業株式会社 異常検出装置、異常検出方法、及びプログラム
CN110765369B (zh) * 2019-09-11 2022-03-29 安徽先兆科技有限公司 基于时空属性的实时监测数据处理方法和系统
CN112037106B (zh) * 2020-08-07 2023-12-15 汉威科技集团股份有限公司 一种基于特征互相关性和概率密度的数据异常分析方法
CN112836990B (zh) * 2021-03-02 2023-08-01 浙江数智交院科技股份有限公司 隧道监测设备故障判断方法、装置及电子设备
CN113342616B (zh) * 2021-06-30 2023-10-27 北京奇艺世纪科技有限公司 异常指标信息的定位方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11338848A (ja) 1998-05-26 1999-12-10 Ffc:Kk データ異常検出装置
JP2001312375A (ja) 2000-02-24 2001-11-09 Nec Corp 外部記憶装置の故障予測システム
JP3821225B2 (ja) 2002-07-17 2006-09-13 日本電気株式会社 時系列データに対する自己回帰モデル学習装置並びにそれを用いた外れ値および変化点の検出装置
JP4333331B2 (ja) 2002-12-20 2009-09-16 セイコーエプソン株式会社 故障予測システム及び故障予測プログラム並びに故障予測方法
JP2005141601A (ja) 2003-11-10 2005-06-02 Nec Corp モデル選択計算装置,動的モデル選択装置,動的モデル選択方法およびプログラム
JP2005309733A (ja) 2004-04-21 2005-11-04 Seiko Epson Corp 故障予測装置、故障予測方法、および故障予測プログラム
JP2006173907A (ja) 2004-12-14 2006-06-29 Sharp Corp 動画像プリント装置
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306504A (zh) * 2011-08-17 2012-01-04 厦门市美亚柏科信息股份有限公司 样本采集方法及复制设备健康状况的预测方法
CN102306504B (zh) * 2011-08-17 2013-09-04 厦门市美亚柏科信息股份有限公司 样本采集方法及复制设备健康状况的预测方法
CN102279775B (zh) * 2011-08-19 2013-04-17 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN102279775A (zh) * 2011-08-19 2011-12-14 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN104254873A (zh) * 2012-03-15 2014-12-31 行为识别系统公司 视频监控系统中的警报量归一化
CN103020166B (zh) * 2012-11-26 2017-05-24 宁波电业局 一种电力实时数据异常检测方法
CN102930178A (zh) * 2012-11-26 2013-02-13 慈溪市供电局 一种负荷数据异常检测方法
CN103020166A (zh) * 2012-11-26 2013-04-03 宁波电业局 一种电力实时数据异常检测方法
CN102930178B (zh) * 2012-11-26 2016-05-11 慈溪市供电局 一种负荷数据异常检测方法
CN103984938A (zh) * 2014-05-30 2014-08-13 中国科学院遥感与数字地球研究所 一种遥感时间序列异常检测方法
CN103984938B (zh) * 2014-05-30 2017-05-24 中国科学院遥感与数字地球研究所 一种遥感时间序列异常检测方法
CN104462445A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 网页访问数据的处理方法和装置
CN107949865A (zh) * 2015-09-02 2018-04-20 富士通株式会社 异常检测装置、异常检测方法及异常检测程序
CN107949865B (zh) * 2015-09-02 2021-10-29 富士通株式会社 异常检测装置、异常检测方法
CN110597703A (zh) * 2018-06-13 2019-12-20 中国移动通信集团浙江有限公司 一种回归测试方法及装置
CN109800122A (zh) * 2018-12-13 2019-05-24 平安科技(深圳)有限公司 监控提示方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US20080198950A1 (en) 2008-08-21
JP2008146591A (ja) 2008-06-26
JP4413915B2 (ja) 2010-02-10
US7548831B2 (en) 2009-06-16

Similar Documents

Publication Publication Date Title
CN101201762A (zh) 检测异常征候的装置和方法
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
US20100131800A1 (en) Diagnostic device
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
EP3859472B1 (en) Monitoring system and monitoring method
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
CN103197663B (zh) 一种故障预测方法及系统
US11449376B2 (en) Method of determining potential anomaly of memory device
CN115964361B (zh) 一种数据增强方法、系统、设备及计算机可读存储介质
CN111813585A (zh) 慢盘的预测和处理
CN114090352A (zh) 机组能效异常诊断方法、装置以及存储介质
Basak et al. Spatio-temporal AI inference engine for estimating hard disk reliability
JP2016045852A (ja) 異常診断装置及び異常診断方法
CN116361351B (zh) 一种用于工业设备健康管理的数据挖掘方法
CN101752008B (zh) 固态储存媒体可靠度的测试方法
US20220391754A1 (en) Monte carlo simulation framework that produces anomaly-free training data to support ml-based prognostic surveillance
CN109933890B (zh) 一种产品综合维修方法和装置
Mohapatra et al. Large-scale End-of-Life Prediction of Hard Disks in Distributed Datacenters
JP5287170B2 (ja) 障害原因分析システム、障害原因分析方法
Tao et al. A new control chart based on the loess smooth applied to information system quality performance
JP5771318B1 (ja) 異常診断装置及び異常診断方法
Last et al. Condition-based maintenance with multi-target classification models
US20060074830A1 (en) System, method for deploying computing infrastructure, and method for constructing linearized classifiers with partially observable hidden states
Taji et al. Economic-statistical design of fully adaptive multivariate control charts under effects of multiple assignable causes
JP7287481B2 (ja) 閾値取得装置、その方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080618