JP2011002906A - 監視プログラム、監視装置、および監視方法 - Google Patents

監視プログラム、監視装置、および監視方法 Download PDF

Info

Publication number
JP2011002906A
JP2011002906A JP2009143630A JP2009143630A JP2011002906A JP 2011002906 A JP2011002906 A JP 2011002906A JP 2009143630 A JP2009143630 A JP 2009143630A JP 2009143630 A JP2009143630 A JP 2009143630A JP 2011002906 A JP2011002906 A JP 2011002906A
Authority
JP
Japan
Prior art keywords
monitoring
monitoring data
failure
old
failure case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009143630A
Other languages
English (en)
Inventor
Taketoshi Yoshida
武俊 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009143630A priority Critical patent/JP2011002906A/ja
Priority to US12/784,012 priority patent/US20100318856A1/en
Publication of JP2011002906A publication Critical patent/JP2011002906A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】監視対象機器において今後発生する障害を予測して通知すること。
【解決手段】監視装置101は、監視対象機器102−kから現監視データを受信し、複数の監視項目の測定値に基づいて、障害事例DB120内の旧監視データGijごとに、旧監視データGijと現監視データとの類似度Rijを算出する。そして、監視装置101は、算出された算出結果に基づいて、障害事例DB120を参照して、複数の障害事例B1〜Bmの中から監視対象機器102−kにおいて発生が予測される障害事例Biを決定して出力する。
【選択図】図10

Description

本開示技術は、計算機の稼働状況を監視する監視プログラム、監視装置、および監視方法に関する。
近年、データセンタの巨大化、高度複雑化により、電子機器(たとえば、計算機、ルータ、スイッチなど)の稼働状況の監視にかかる作業負担が増大している。一方で、データセンタでのサービス品質を維持するために、計算機で動作する顧客サービスが障害などの影響を受けることなく安定して稼働し続ける必要がある。
従来、原子力プラント、火力プラントなどのプラント機器の異常がプラント運転に及ぼす影響を評価して、各プラント機器の点検手法を決定する技術がある。また、過去に発生した故障事例をグラフ化したグラフデータをDB(データベース)に蓄積し、現に発生した故障状況をグラフ化したグラフデータを用いてDBにアクセスして、過去に発生した類似の故障事例に対して有効であった対応策を検索する技術がある。
特開2005−222377号公報 特開2004−240642号公報
しかしながら、上述した従来技術では、事後的な結果から故障原因を特定するため、故障の予知や回避を行なうことが難しく、障害発生前において事前処置を適切に行なうことが困難であるという問題があった。この結果、計算機上で動作する顧客サービスが障害の影響を受け、サービス品質の低下を招くという問題があった。
本開示技術は、上述した従来技術による問題点を解消するため、監視対象機器において今後発生する障害を予測することができる監視プログラム、監視装置、および監視方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本開示技術は、監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶するデータベースにアクセス可能であり、前記監視対象機器から複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信し、前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出し、算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定し、決定された決定結果を出力することを特徴とする。
本監視プログラム、監視装置、および監視方法によれば、監視対象機器において今後発生する障害を予測することができるという効果を奏する。
データセンタのシステム構成の一例を示す説明図である。 監視装置のハードウェア構成を示すブロック図である。 監視データの具体例を示す説明図である。 障害事例DBの記憶内容の一例を示す説明図である。 監視装置の機能的構成を示すブロック図である。 類似度テーブルの記憶内容の一例を示す説明図である。 障害予測レポートの具体例を示す説明図である。 障害事例の発生までの時間的な緊急度を示す説明図である。 障害リストの記憶内容の一例を示す説明図である。 監視装置の監視処理手順の一例を示すフローチャートである。 類似度算出処理の具体的処理手順の一例を示すフローチャートである。 第1重み付け処理の具体的処理手順の一例を示すフローチャートである。 監視装置の他の監視処理手順の一例を示すフローチャートである。 第2重み付け処理の具体的処理手順の一例を示すフローチャートである。
以下に添付図面を参照して、本開示技術にかかる監視プログラム、監視装置、および監視方法の好適な実施の形態を詳細に説明する。
(データセンタのシステム構成)
まず、本実施の形態にかかるデータセンタのシステム構成について説明する。図1は、データセンタのシステム構成の一例を示す説明図である。図1において、データセンタ100は、監視装置101と、監視対象機器102−1〜102−pと、がインターネット、LAN(Local Area Network)、WAN(Wide Area Network)などのネットワーク130を介して相互に通信可能に接続されている。
監視装置101は、監視データDB110を備え、監視対象機器102−1〜102−pから監視データを受信する機能を有する。ここで、監視データDB110は、監視対象機器102−1〜102−pから受信した監視データを記憶するデータベースである。
また、監視データは、監視対象機器102−1〜102−pの複数の監視項目の状態を表わす情報である。監視項目としては、たとえば、監視対象機器102−1〜102−pのCPU(Central Processing Unit)温度、ハードディスク温度、メモリ温度、NIC(Network Interface Card)死活、消費電力などがある。なお、監視データの具体例は図3を用いて後述する。
また、監視装置101は、障害事例DB120を備え、監視対象機器102−1〜102−pにおいて今後発生が予測される障害を特定する機能を有する。ここで、障害事例DB120は、監視対象機器102−1〜102−pにおいて過去に発生した障害事例ごとに、該障害事例の発生時刻に至るまでの一定期間分の監視データを記憶するデータベースである。なお、障害事例DB120の記憶内容については図4を用いて後述する。
また、監視装置101は、監視対象機器102−1〜102−pを制御する機能を有する。具体的には、たとえば、監視装置101は、障害が発生した監視対象機器102−1〜102−pの電源を遮断したり、一時的にネットワーク130から切り離したりする。また、監視装置101は、障害が発生した監視対象機器102−1〜102−p上で動作するアプリケーションを他の監視対象機器102−1〜102−pにマイグレーションする機能を有する。
監視対象機器102−1〜102−pは、たとえば、アプリケーションやジョブを実行する計算機である。また、監視対象機器102−1〜102−pは、複数の計算機を接続するためのルータやスイッチ、電源を安定供給するための冗長化電源機器などであってもよい。
監視対象機器102−1〜102−pは、複数の監視項目の状態を測定し、測定結果を監視データとして監視装置101に送信する機能を有する。具体的には、たとえば、監視対象機器102−1〜102−pは、監視装置101からの送信要求に応じて、複数の監視項目の状態を測定し、監視データを送信する。なお、監視データの送信要求は、たとえば、所定時間間隔(たとえば、5分)で監視装置101から送信される。
また、監視対象機器102−1〜102−pは、何らかの障害発生時に障害データを監視装置101に送信する。具体的には、たとえば、監視対象機器102−1〜102−pは、CPU温度が所定値を超えた場合や、ハードディスクが故障した場合などに障害データを監視装置101に送信する。なお、障害データには、障害を特定する情報(たとえば、障害名)が含まれている。
(監視装置のハードウェア構成)
図2は、監視装置のハードウェア構成を示すブロック図である。図2において、監視装置101は、CPU201と、ROM(Read‐Only Memory)202と、RAM(Random Access Memory)203と、磁気ディスクドライブ204と、磁気ディスク205と、光ディスクドライブ206と、光ディスク207と、ディスプレイ208と、I/F(Interface)209と、キーボード210と、マウス211と、スキャナ212と、プリンタ213と、を備えている。また、各構成部はバス200によってそれぞれ接続されている。
ここで、CPU201は、監視装置101の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。磁気ディスクドライブ204は、CPU201の制御にしたがって磁気ディスク205に対するデータのリード/ライトを制御する。磁気ディスク205は、磁気ディスクドライブ204の制御で書き込まれたデータを記憶する。
光ディスクドライブ206は、CPU201の制御にしたがって光ディスク207に対するデータのリード/ライトを制御する。光ディスク207は、光ディスクドライブ206の制御で書き込まれたデータを記憶したり、光ディスク207に記憶されたデータをコンピュータに読み取らせたりする。
ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
インターフェース(以下、「I/F」と略する。)209は、通信回線を通じてLAN、WAN、インターネットなどのネットワーク130に接続され、このネットワーク130を介して他の装置に接続される。そして、I/F209は、ネットワーク130と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、たとえばモデムやLANアダプタなどを採用することができる。
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ212は、画像を光学的に読み取り、監視装置101内に画像データを取り込む。なお、スキャナ212は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ213は、画像データや文書データを印刷する。プリンタ213には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
なお、図2では監視装置101のハードウェア構成について説明したが、監視対象機器102−1〜102−p(図1参照)のハードウェア構成についても同様のハードウェア構成によって実現できる。
(監視データの具体例)
つぎに、監視対象機器102−k(k=1,2,…,p)から監視装置101に送信される監視データの具体例について説明する。図3は、監視データの具体例を示す説明図である。図3において、監視データ300は、時間、CPU温度、ハードディスク温度、NIC死活および消費電力のフィールドを有する。各フィールドに情報を設定することで、複数の監視項目に関する観測結果がレコードとして記憶されている。
ここで、時間とは、監視データ300の送信時刻である。CPU温度とは、監視対象機器102−kが有するCPUの温度[℃]である。ハードディスク温度とは、監視対象機器102−kが有するハードディスクの温度[℃]である。NIC死活とは、監視対象機器102−kが有するNICの稼働状態を表わす値である。ここでは、NICの稼働状態に障害がない場合は「0」が設定され、障害がある場合は「1」が設定される。消費電力とは、監視対象機器102−kで消費されている消費電力[W]である。
(障害事例DBの記憶内容)
つぎに、図1に示した障害事例DB120の記憶内容について説明する。図4は、障害事例DBの記憶内容の一例を示す説明図である。図4において、障害事例DB120は、監視対象機器102−1〜102−pにおいて過去に発生した様々な障害事例に関する障害事例データ400−1〜400−mを有している。
具体的には、障害事例データ400−1〜400−mは、障害ID、障害名、障害内容および対処方法を有している。ここで、障害IDとは、障害事例の識別子である。障害名とは、障害の名称である。障害内容とは、障害の具体的内容である。対処方法とは、障害が発生した場合に行なうべき対応策である。障害事例データ400−1を例に挙げると、障害B1の障害名は「CPU温度障害」、障害内容は「CPU温度が上昇しシステム停止」、対処方法は「空調温度を下げる」である。
また、障害事例データ400−1〜400−mは、障害の発生時刻に至るまでの一定時間分の時系列の監視データ群を有している。障害事例データ400−1を例に挙げると、障害B1の発生時刻に至るまでの一定時間分の時系列の監視データG11〜G1nを有している。なお、監視データIDは、監視データの識別子である。
ここでは、監視データG1nの時間tnを障害B1の発生時刻とする。また、監視対象機器102−kから監視装置101に送信される監視データの送信時間間隔(たとえば、監視データG11と監視データG12の時間間隔)を5分とする。ここで、「n=60」とすると、監視データG11の時間t1は、障害B1の発生時刻(時間t60)の295分前である。すなわち、監視データの送信時間間隔を一定間隔とすることにより、任意の監視データ間の時間間隔を監視対象機器102−kからの送信順序によって求めることができる。
なお、以下の説明では、障害事例データ400−1〜400−mのうち任意の障害事例データを「障害事例データ400−i」と表記する(i=1,2,…,m)。また、障害事例データ400−iが有する監視データ群を「監視データGi1〜Gin」と表記する。また、監視データGi1〜Ginのうち任意の監視データを「監視データGij」と表記する(j=1,2,…,n)。
(監視装置の機能的構成)
つぎに、監視装置101の機能的構成について説明する。図5は、監視装置の機能的構成を示すブロック図である。図5において、監視装置101は、受信部501と、類似度算出部502と、決定部503と、選択部504と、残余時間算出部505と、作成部506と、重み算出部507と、出力部508と、を含む構成である。この制御部となる機能(受信部501〜出力部508)は、具体的には、たとえば、図2に示したROM202、RAM203、磁気ディスク205、光ディスク207などの記憶装置に記憶されたプログラムをCPU201に実行させることにより、または、I/F209により、その機能を実現する。
受信部501は、監視対象機器102−kから複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信する機能を有する。具体的には、たとえば、受信部501が、ネットワーク130を介して、監視対象機器102−kから監視データ300(図3参照)を受信する。なお、受信された受信結果は、図2に示したRAM203、磁気ディスク205、光ディスク207などの記憶装置に記憶される。
類似度算出部502は、複数の監視項目の測定値に基づいて、障害事例DB120内の過去の監視データGij(以下、「旧監視データ」という)ごとに、旧監視データGijと現監視データとの類似度を算出する機能を有する。なお、以下の説明では、現監視データと旧監視データGijとの類似度を「類似度Rij」と表記する。
具体的には、たとえば、まず、類似度算出部502が、複数の監視項目をベクトル要素として、現監視データと旧監視データGijを多次元ベクトル化する。そして、類似度算出部502が、現監視データと旧監視データGijとのベクトル間距離を求めることにより、類似度Rijを算出することにしてもよい。ここでは、現監視データと旧監視データGijとのベクトル間距離が近いほど類似度Rijは高くなる。
より具体的には、たとえば、類似度算出部502が、下記式(1)を用いて、現監視データの多次元ベクトルと旧監視データGijの多次元ベクトルがなす角θの余弦(cosθ)を求めることで、類似度Rijを算出することができる。
Figure 2011002906
ここで、現監視データを監視データ300とし、旧監視データGijを旧監視データG11とする。この場合、監視データ300と旧監視データG11との類似度R11は、各監視項目の測定値を上記式(1)に代入することにより、下記式(2)のように求めることができる。
11=(30×50+20×40+0×0+90×100)/{(30−50)2+(20−40)2+(0−0)2+(90−100)21/2≒377 …(2)
なお、上記式(1)に代入する監視項目の測定値に重み付けを行なうことにしてもよい。具体的には、たとえば、重大な問題を引き起こす可能性が高い監視項目(たとえば、NIC死活)の観測値をα倍(たとえば、100倍)して、上記式(1)に代入することにしてもよい。
また、類似度Rijの算出手法は上述した手法に限らない。具体的には、たとえば、まず、類似度算出部502が、現監視データと旧監視データGijとの同一監視項目の測定値を比較する。そして、類似度算出部502が、監視項目の測定値が一致(または所定範囲内)となる項目数を計数して、類似度Rij(たとえば、測定値が一致する項目数)を算出することにしてもよい。
算出された算出結果は、たとえば、図6に示す類似度テーブル600に記憶される。図6は、類似度テーブルの記憶内容の一例を示す説明図である。図6において、類似度テーブル600は、障害ID、監視データIDおよび類似度のフィールドを有する。各フィールドに情報を設定することで、旧監視データごとの類似度がレコードとして記憶されている。なお、類似度テーブル600は、たとえば、RAM203、磁気ディスク205、光ディスク207などの記憶装置に記憶されている。
決定部503は、算出された算出結果に基づいて、複数の障害事例B1〜Bmの中から、監視対象機器102−kにおいて発生が予測される障害事例Biを決定する機能を有する。ここで、決定部503による決定処理の具体例について説明する。
まず、選択部504は、算出された算出結果に基づいて、障害事例DB120内の全旧監視データの中から現監視データに類似する旧監視データを選択する機能を有する。具体的には、たとえば、選択部504が、類似度テーブル600を参照して、類似度が最大となる旧監視データGijを選択してもよい。
このあと、決定部503が、類似度テーブル600を参照して、選択された旧監視データGijに対応する障害事例Biを特定する。そして、決定部503が、障害事例DB120を参照して、特定された障害事例Biの障害事例データ400−iを、監視対象機器102−kにおいて発生が予測される障害事例に決定する。
なお、上記選択部504は、類似度テーブル600を参照して、類似度が高い上位X個の旧監視データを選択することにしてもよい。この場合、決定部503が、類似度テーブル600を参照して、選択されたX個の旧監視データに対応する障害事例を特定することになる。なお、上記Xは任意に設定可能である。決定された決定結果は、RAM203、磁気ディスク205、光ディスク207などの記憶装置に記憶される。
出力部508は、決定された決定結果を出力する機能を有する。具体的には、たとえば、出力部508が、障害事例Biの障害事例データ400−iを、監視対象機器102−kの識別子と関連付けて出力することにしてもよい。これにより、監視対象機器102−kにおいて今後発生が予測される障害名、障害内容および対処方法をユーザに通知することができる。
なお、出力形式としては、たとえば、ディスプレイ208への表示、プリンタ213への印刷出力、I/F209による外部装置への送信がある。また、RAM203、磁気ディスク205、光ディスク207などの記憶装置に記憶することとしてもよい。
残余時間算出部505は、監視対象機器102−kにおいて障害が発生するまでの残余の時間を算出する機能を有する。具体的には、たとえば、残余時間算出部505が、下記式(3)を用いて、選択部504によって選択された旧監視データGijの時間tjと、障害事例Biの発生時刻との時間間隔を残余の時間として算出することができる。ただし、障害事例Biの発生時刻は旧監視データGinの時間tn、Tは障害が発生するまでの残余の時間、Sは監視データの送信時間間隔である。また、nは障害事例Biごとの旧監視データ群Gi1〜Ginのデータ数であり、jは「1〜n」の整数である。
T=S(n−j) ・・・(3)
作成部506は、決定された決定結果と、算出された残余の時間とを用いて、監視対象機器102−kにおいて今後発生が予測される障害に関する障害予測レポートを作成する機能を有する。ここで、障害予測レポートの具体例について説明する。
図7は、障害予測レポートの具体例を示す説明図である。図7において、障害予測レポート700には、機器ID、障害ID、障害名、障害内容、対処方法および障害が発生するまでの残余の時間が示されている。なお、機器IDは、監視対象機器102−kの識別子であり、たとえば、監視対象機器102−kのIPアドレスである。
また、出力部508は、作成された障害予測レポートを出力する。具体的には、たとえば、出力部508が、障害予測レポート700を出力することにしてもよい。これにより、監視対象機器102−kにおいて今後発生が予測される障害名、障害内容、対処方法および障害が発生するまでの残余の時間をユーザに通知することができる。
重み算出部507は、旧監視データGijごとに、障害事例Biの発生時刻と旧監視データGijの測定時刻とに基づいて、障害事例Biの発生までの時間的な緊急度を表わす重みを算出する機能を有する。ここで、旧監視データGijの測定時刻は、たとえば、複数の監視項目の測定値が測定された時間であってもよく、また、旧監視データGijの送信時刻でもよい。
また、障害事例Biの発生までの時間的な緊急度は、図8に示すように、障害事例の発生時刻に近くなるほど高くなる。図8は、障害事例の発生までの時間的な緊急度を示す説明図である。図8において、障害事例Biの発生までの時間的な緊急度の時間変化を表わすグラフ800が示されている。なお、図8中、縦軸は障害事例Biの発生までの時間的な緊急度を表わし、横軸は旧監視データGijの時間tjを表わしている。
グラフ800によれば、旧監視データGijの時間tjが障害事例Biの発生時刻(ここでは、時間t20)に近づくにつれて、指数関数的に緊急度が増加している。そこで、重み算出部507が、たとえば、下記式(4)を用いて、障害事例Biの発生までの時間的な緊急度を表わす重みを算出することにしてもよい。ただし、Aijは障害事例Biの発生までの旧監視データGijの時間的な緊急度を表わす重みである。
ij=(1+log(j)) ・・・(4)
上記式(4)において、jは「1〜n」の整数である。すなわち、重みAijは、旧監視データGijの時間tjが障害事例Biの発生時刻(時間tn)に近づく(ここでは、時間tjの“j”が大きくなる)につれて大きくなる。
また、類似度算出部502は、算出された旧監視データGijの重みAijと、旧監視データGijの類似度Rijとを用いて、重み付けされた旧監視データGijの類似度を算出することにしてもよい。具体的には、たとえば、類似度算出部502が、下記式(5)を用いて、重み付けされた旧監視データGijの類似度を算出することができる。ただし、R’ijは重み付けされた旧監視データGijの類似度である。
R’ij=Aij×Rij ・・・(5)
上記式(5)によれば、旧監視データGijの時間tjが障害事例Biの発生時刻に近いほど、旧監視データGijの類似度R’ijは高くなる。なお、重み付けされた旧監視データGijの類似度R’ijは、たとえば、図6に示した類似度テーブル600に記憶される。
また、決定部503は、重み付けされた旧監視データGijの類似度R’ijに基づいて、障害事例B1〜Bmの中から監視対象機器102−kにおいて発生が予測される障害事例Biを決定してもよい。これにより、障害が発生するまでの時間的な緊急度を考慮して、監視対象機器102−kにおいて今後発生が予測される障害を特定することができる。
また、重み算出部507は、障害事例Biごとに、旧監視データ群Gi1〜Ginの類似度Ri1〜Rinのばらつき度合を表わす重みを算出する機能を有する。ここで、ある障害が発生するまでの類似度の変化パターンは時系列に沿って類似しており、ある時点での類似度が高いからといって、その障害が発生するとは限らないと仮定する。すなわち、障害事例Biについて、類似度Ri1〜Rinが(10,20,30,…)のように時系列に沿って規則的に変化している場合は適切とする。一方、障害事例Biについて、(20,80,10,…)のように時系列に沿って不規則に変化している場合は不適切とする。
具体的には、たとえば、重み算出部507が、下記式(6)を用いて、時系列に連続する旧監視データGijと旧監視データGi(j+1)との類似度の差分の総和を求めることにより、類似度Ri1〜Rinのばらつき度合を表わす重みを算出してもよい。ただし、Diは類似度Ri1〜Rinのばらつき度合を表わす重みである。
Figure 2011002906
また、類似度算出部502は、算出された障害事例Biの重みDiと、旧監視データGijの類似度Rijとを用いて、重み付けされた旧監視データGijの類似度R’ijを算出してもよい。具体的には、たとえば、類似度算出部502が、下記式(7)を用いて、類似度R’ijを算出することができる。
R’ij=Rij/Di ・・・(7)
上記式(7)によれば、類似度Ri1〜Rinのばらつき度合を表わす重みDiが大きくなるにつれて、旧監視データGijの類似度R’ijは低くなる。これにより、旧監視データ群Gi1〜Ginの類似度Ri1〜Rinのばらつきが大きくなる障害事例Biを予測対象から排除することができる。
(障害事例DBの構築手法)
つぎに、障害事例DB120の構築手法の一例について説明する。ここでは、以下に説明する(1)〜(5)の手順により、障害事例DB120に障害事例データを登録する手法について説明する。
(1)監視装置101により、監視対象機器102−kから監視データを受信すると、監視データを監視対象機器102−kの識別子と関連付けて監視データDB110に記憶する。監視データDB110には、監視対象機器102−kごとに、一定期間分の監視データ群が記憶される。
(2)監視装置101により、監視対象機器102−kから障害データを受信すると、障害事例DB120を参照して、障害データに含まれる障害名の障害事例データが登録されているか否かを判断する。ここでは、障害事例DB120に障害データに含まれる障害名の障害事例データが未登録とする。
(3)監視装置101により、図9に示す障害リスト900を参照して、障害データに含まれる障害名から障害内容および対処方法を特定する。図9は、障害リストの記憶内容の一例を示す説明図である。障害リスト900には、障害ごとの障害内容および対処方法がリスト化されて記憶されている。
(4)監視装置101により、監視データDB110から一定期間分の監視データ群を抽出し、障害名、障害内容および対処方法を含む障害事例データを作成する。(5)監視装置101により、作成された障害事例データを障害事例DB120に登録する。これにより、障害事例データを自動作成して障害事例DB120に登録することができる。
(監視装置の監視処理手順)
つぎに、監視装置101の監視処理手順について説明する。図10は、監視装置の監視処理手順の一例を示すフローチャートである。図10のフローチャートにおいて、まず、受信部501により、監視対象機器102−kから現監視データを受信したか否かを判断する(ステップS1001)。
ここで、現監視データを受信するのを待つ(ステップS1001:No)。そして、現監視データを受信した場合(ステップS1001:Yes)、類似度算出部502により、旧監視データGijと現監視データとの類似度Rijを算出する類似度算出処理を実行する(ステップS1002)。
このあと、類似度算出部502により、障害事例Biの発生までの時間的な緊急度に関する第1重み付け処理を実行する(ステップS1003)。つぎに、選択部504により、類似度テーブル600を参照して、全旧監視データの中から類似度が最大となる旧監視データGijを選択する(ステップS1004)。
そして、決定部503により、障害事例DB120を参照して、選択された旧監視データGijに対応する障害事例Biを、監視対象機器102−kにおいて発生が予測される障害事例に決定する(ステップS1005)。
このあと、残余時間算出部505により、選択された旧監視データGijの時間tjと、決定された障害事例Biの発生時刻を表わす時間tnとの時間間隔を求めることにより、監視対象機器102−kにおいて障害が発生するまでの残余の時間を算出する(ステップS1006)。
そして、作成部506により、障害予測レポートを作成し(ステップS1007)、出力部508により、作成された障害予測レポートを出力して(ステップS1008)、本フローチャートによる一連の処理を終了する。
これにより、監視対象機器102−kにおいて今後発生が予測される障害をユーザに通知することができる。
<類似度算出処理手順>
つぎに、図10に示したステップS1002の類似度算出処理の具体的処理手順について説明する。図11は、類似度算出処理の具体的処理手順の一例を示すフローチャートである。図11のフローチャートにおいて、まず、類似度算出部502により、「i=1」として(ステップS1101)、障害事例DB120を参照して、障害事例B1〜Bmの中から障害事例Biを選択する(ステップS1102)。
このあと、類似度算出部502により、「j=1」として(ステップS1103)、障害事例DB120を参照して、旧監視データGijを選択する(ステップS1104)。そして、類似度算出部502により、上記式(1)を用いて、現監視データと旧監視データGijとの類似度Rijを算出して(ステップS1105)、類似度テーブル600に記憶する(ステップS1106)。
つぎに、類似度算出部502により、jをインクリメントして(ステップS1107)、「j>n」か否かを判断する(ステップS1108)。ここで、「j≦n」の場合(ステップS1108:No)、ステップS1104に戻る。
一方、「j>n」の場合(ステップS1108:Yes)、類似度算出部502により、iをインクリメントして(ステップS1109)、「i>m」か否かを判断する(ステップS1110)。ここで、「i≦m」の場合(ステップS1110:No)、ステップS1102に戻る。一方、「i>m」の場合(ステップS1110:Yes)、図10に示したステップS1003に移行する。
これにより、現監視データと旧監視データGijとの類似度Rijを定量的に求めることができる。
<第1重み付け処理手順>
つぎに、図10に示したステップS1003の第1重み付け処理の具体的処理手順について説明する。図12は、第1重み付け処理の具体的処理手順の一例を示すフローチャートである。図12のフローチャートにおいて、まず、重み算出部507により、「i=1」とし(ステップS1201)、「j=1」とする(ステップS1202)。
このあと、重み算出部507により、上記式(4)を用いて、旧監視データGijの時間的な緊急度を表わす重みAijを算出する(ステップS1203)。そして、類似度算出部502により、上記式(5)を用いて、重み付けされた旧監視データGijの類似度R’ijを算出して(ステップS1204)、類似度テーブル600に記憶する(ステップS1205)。
つぎに、重み算出部507により、jをインクリメントして(ステップS1206)、「j>n」か否かを判断する(ステップS1207)。ここで、「j≦n」の場合(ステップS1207:No)、ステップS1203に戻る。
一方、「j>n」の場合(ステップS1207:Yes)、重み算出部507により、iをインクリメントして(ステップS1208)、「i>m」か否かを判断する(ステップS1209)。ここで、「i≦m」の場合(ステップS1209:No)、ステップS1202に戻る。一方、「i>m」の場合(ステップS1209:Yes)、図10に示したステップS1004に移行する。
これにより、障害が発生するまでの時間的な緊急度を考慮して、監視対象機器102−kにおいて今後発生する障害を予測することができる。
(監視装置の他の監視処理手順)
つぎに、監視装置101の他の監視処理手順について説明する。図10のフローチャートでは、障害事例Biの発生までの時間的な緊急度を考慮して、類似度Rijの重み付けを行なう場合について説明した。ここでは、さらに類似度Ri1〜Rinのばらつき度合を考慮して重み付けを行なう場合について説明する。
図13は、監視装置の他の監視処理手順の一例を示すフローチャートである。図13のフローチャートにおいて、まず、受信部501により、監視対象機器102−kから現監視データを受信したか否かを判断する(ステップS1301)。
ここで、現監視データを受信するのを待つ(ステップS1301:No)。そして、現監視データを受信した場合(ステップS1301:Yes)、類似度算出部502により、旧監視データGijと現監視データとの類似度Rijを算出する類似度算出処理を実行する(ステップS1302)。
このあと、類似度算出部502により、障害事例Biの発生までの時間的な緊急度に関する第1重み付け処理を実行する(ステップS1303)。つぎに、障害事例Biごとに、旧監視データ群Gi1〜Ginの類似度Ri1〜Rinのばらつき度合に関する第2重み付け処理を実行する(ステップS1304)。
そして、選択部504により、類似度テーブル600を参照して、全旧監視データの中から類似度が最大となる旧監視データGijを選択する(ステップS1305)。つぎに、決定部503により、障害事例DB120を参照して、選択された旧監視データGijに対応する障害事例Biを、監視対象機器102−kにおいて発生が予測される障害事例に決定する(ステップS1306)。
このあと、残余時間算出部505により、選択された旧監視データGijの時間tjと、決定された障害事例Biの発生時刻を表わす時間tnとの時間間隔を求めることにより、監視対象機器102−kにおいて障害が発生するまでの残余の時間を算出する(ステップS1307)。
そして、作成部506により、障害予測レポートを作成し(ステップS1308)、出力部508により、作成された障害予測レポートを出力して(ステップS1309)、本フローチャートによる一連の処理を終了する。
<第2重み付け処理手順>
つぎに、図13に示したステップS1304の第2重み付け処理の具体的処理手順について説明する。図14は、第2重み付け処理の具体的処理手順の一例を示すフローチャートである。
図14のフローチャートにおいて、まず、重み算出部507により、「i=1」とし(ステップS1401)、上記式(6)を用いて、類似度Ri1〜Rinのばらつき度合を表わす重みDiを算出する(ステップS1402)。そして、類似度算出部502により、「j=1」として(ステップS1403)、障害事例DB120を参照して、旧監視データGijを選択する(ステップS1404)。
このあと、類似度算出部502により、下記式(8)を用いて、重み付けされた旧監視データGijの類似度R’’ijを算出して(ステップS1405)、類似度テーブル600に記憶する(ステップS1406)。
R’’ij=R’ij/Di ・・・(8)
つぎに、類似度算出部502により、jをインクリメントして(ステップS1407)、「j>n」か否かを判断する(ステップS1408)。ここで、「j≦n」の場合(ステップS1408:No)、ステップS1404に戻る。
一方、「j>n」の場合(ステップS1408:Yes)、重み算出部507により、iをインクリメントして(ステップS1409)、「i>m」か否かを判断する(ステップS1410)。ここで、「i≦m」の場合(ステップS1410:No)、ステップS1402に戻る。一方、「i>m」の場合(ステップS1410:Yes)、図13に示したステップS1305に移行する。
これにより、旧監視データ群Gi1〜Ginの類似度Rijのばらつきが大きくなる障害事例Biを予測対象から排除することができる。
以上説明したように、本開示技術は、複数の監視項目の測定値に基づいて、障害事例DB120内の旧監視データと現監視データとの類似度を算出し、障害事例B1〜Bmの中から監視対象機器102−kにおいて発生が予測される障害事例Biを決定する。これにより、監視対象機器102−kにおいて今後発生が予測される障害をユーザに通知することができる。
また、本開示技術において、複数の監視項目をベクトル要素として多次元ベクトル化して現監視データと旧監視データGijとのベクトル間距離を求めることにより、類似度Rijを算出することにしてもよい。これにより、現監視データと旧監視データGijとの類似度Rijを定量的に求めることができる。
また、本開示技術において、旧監視データ/現監視データ間の類似度に基づいて、全旧監視データの中から現監視データに類似する旧監視データGijを選択し、旧監視データGijに対応する障害事例Biを今後発生が予測される障害事例に決定してもよい。これにより、監視対象機器102−kの現在の稼働状況に類似した稼働状況において発生した障害事例を、今後発生する障害事例として予測することができる。
また、本開示技術において、全旧監視データの中から類似度が最大となる旧監視データGijを選択してもよい。これにより、監視対象機器102−kの現在の稼働状況に最も類似した稼働状況において発生した障害事例を、今後発生する障害事例として予測することができる。
また、本開示技術において、選択された旧監視データGijの測定時刻と、決定された障害事例Biの発生時刻との時間間隔を求めることにより、障害事例Biが発生するまでの残余の時間を算出することにしてもよい。これにより、監視対象機器102−kにおいて障害が発生するまでの残余の時間をユーザに通知することができる。
また、本開示技術において、旧監視データGijに対応する障害事例Biの発生時刻と旧監視データGijの測定時刻から、障害発生までの時間的な緊急度を表わす重みAiを算出して、類似度Rijに重み付けすることにしてもよい。これにより、障害が発生するまでの時間的な緊急度を考慮して、監視対象機器102−kにおいて今後発生する障害を予測することができる。
また、本開示技術は、時系列に連続する旧監視データ群Gi1〜Ginの類似度Ri1〜Rinのばらつき度合を表わす重みDiを算出して、類似度Rijを重み付けすることにしてもよい。これにより、旧監視データ群Gi1〜Ginの類似度Rijのばらつきが大きくなる障害事例Biを予測対象から排除することができる。
これらのことから、本監視プログラム、監視装置、および監視方法によれば、監視対象機器102−kにおいて発生する障害および障害発生までの残余時間が予測可能となり、障害発生前の事前処置を適切に行なうことができる。
具体的には、たとえば、障害発生までの残余時間から緊急を要さないと判断された場合は、監視周期を長くすることで監視作業にかかるネットワーク負荷や監視サーバの負荷を軽減することができる。一方、緊急を要すると判断された場合は、監視対象機器102−kに対する迅速な事前処置を行なうことができる。
また、障害の対処方法を提示することにより、たとえば、ハードディスク障害では、事前に交換用ハードディスクの在庫確認を行なうなど、適切な事前処置を行なうことができる。この結果、データセンタ100において、シームレスかつ高品質のサービスを顧客に提供することができる。
なお、本実施の形態で説明した監視方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本監視プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本監視プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶するデータベースにアクセス可能なコンピュータを、
前記監視対象機器から前記複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信する受信手段、
前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出する算出手段、
前記算出手段によって算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定する決定手段、
前記決定手段によって決定された決定結果を出力する出力手段、
として機能させることを特徴とする監視プログラム。
(付記2)前記算出手段は、
前記複数の監視項目をベクトル要素として多次元ベクトル化して前記現監視データと前記旧監視データとのベクトル間距離を求めることにより、前記類似度を算出することを特徴とする付記1に記載の監視プログラム。
(付記3)前記コンピュータを、
前記算出手段によって算出された算出結果に基づいて、前記全旧監視データの中から前記現監視データに類似する旧監視データを選択する選択手段、
前記監視対象機器において発生が予測される障害事例が発生するまでの残余の時間を算出する残余時間算出手段として機能させ、
前記決定手段は、
前記選択手段によって選択された旧監視データに対応する障害事例を、前記監視対象機器において発生が予測される障害事例に決定し、
前記残余時間算出手段は、
前記選択手段によって選択された旧監視データの測定時刻と、前記決定手段によって決定された障害事例の発生時刻との時間間隔を求めることにより、当該障害事例が発生するまでの残余の時間を算出し、
前記出力手段は、
前記決定結果とともに、前記残余時間算出手段によって算出された残余の時間を出力することを特徴とする付記1または2に記載の監視プログラム。
(付記4)前記選択手段は、
前記全旧監視データの中から前記類似度が最大となる旧監視データを選択することを特徴とする付記3に記載の監視プログラム。
(付記5)前記コンピュータを、
前記旧監視データごとに、当該旧監視データに対応する障害事例の発生時刻と前記旧監視データの測定時刻とに基づいて、前記障害事例の発生までの時間的な緊急度を表わす重みを算出する重み算出手段として機能させ、
前記算出手段は、
前記重み算出手段によって算出された旧監視データごとの重みと、前記旧監視データの類似度とを用いて、重み付けされた前記旧監視データの類似度を算出し、
前記決定手段は、
前記算出手段によって算出された重み付けされた類似度に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定することを特徴とする付記1〜4のいずれか一つに記載の監視プログラム。
(付記6)前記重み算出手段は、
前記障害事例ごとに、時系列に連続する前記旧監視データ群の類似度のばらつき度合を表わす重みを算出し、
前記算出手段は、
前記重み算出手段によって算出された障害事例ごとの重みと、前記旧監視データの類似度とを用いて、重み付けされた前記旧監視データの類似度を算出することを特徴とする付記5に記載の監視プログラム。
(付記7)監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶する記憶手段と、
前記監視対象機器から前記複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信する受信手段と、
前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出する算出手段と、
前記算出手段によって算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定する決定手段と、
前記決定手段によって決定された決定結果を出力する出力手段と、
を備えることを特徴とする監視装置。
(付記8)制御手段および記憶手段を備え、監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶するデータベースにアクセス可能なコンピュータが、
前記制御手段により、前記監視対象機器から前記複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信して、前記記憶手段に記憶する受信工程と、
前記制御手段により、前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出して、前記記憶手段に記憶する算出工程と、
前記制御手段により、前記算出工程によって算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定して、前記記憶手段に記憶する決定工程と、
前記制御手段により、前記決定工程によって決定された決定結果を出力する出力工程と、
を実行することを特徴とする監視方法。
100 データセンタ
101 監視装置
102−1〜102−p,102−k 監視対象機器
110 監視データDB
120 障害事例DB
501 受信部
502 類似度算出部
503 決定部
504 選択部
505 残余時間算出部
506 作成部
507 重み算出部
508 出力部

Claims (7)

  1. 監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶するデータベースにアクセス可能なコンピュータを、
    前記監視対象機器から前記複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信する受信手段、
    前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出する算出手段、
    前記算出手段によって算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定する決定手段、
    前記決定手段によって決定された決定結果を出力する出力手段、
    として機能させることを特徴とする監視プログラム。
  2. 前記算出手段は、
    前記複数の監視項目をベクトル要素として多次元ベクトル化して前記現監視データと前記旧監視データとのベクトル間距離を求めることにより、前記類似度を算出することを特徴とする請求項1に記載の監視プログラム。
  3. 前記コンピュータを、
    前記算出手段によって算出された算出結果に基づいて、前記全旧監視データの中から前記現監視データに類似する旧監視データを選択する選択手段、
    前記監視対象機器において発生が予測される障害事例が発生するまでの残余の時間を算出する残余時間算出手段として機能させ、
    前記決定手段は、
    前記選択手段によって選択された旧監視データに対応する障害事例を、前記監視対象機器において発生が予測される障害事例に決定し、
    前記残余時間算出手段は、
    前記選択手段によって選択された旧監視データの測定時刻と、前記決定手段によって決定された障害事例の発生時刻との時間間隔を求めることにより、当該障害事例が発生するまでの残余の時間を算出し、
    前記出力手段は、
    前記決定結果とともに、前記残余時間算出手段によって算出された残余の時間を出力することを特徴とする請求項1または2に記載の監視プログラム。
  4. 前記コンピュータを、
    前記旧監視データごとに、当該旧監視データに対応する障害事例の発生時刻と前記旧監視データの測定時刻とに基づいて、前記障害事例の発生までの時間的な緊急度を表わす重みを算出する重み算出手段として機能させ、
    前記算出手段は、
    前記重み算出手段によって算出された旧監視データごとの重みと、前記旧監視データの類似度とを用いて、重み付けされた前記旧監視データの類似度を算出し、
    前記決定手段は、
    前記算出手段によって算出された重み付けされた類似度に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定することを特徴とする請求項1〜3のいずれか一つに記載の監視プログラム。
  5. 前記重み算出手段は、
    前記障害事例ごとに、時系列に連続する前記旧監視データ群の類似度のばらつき度合を表わす重みを算出し、
    前記算出手段は、
    前記重み算出手段によって算出された障害事例ごとの重みと、前記旧監視データの類似度とを用いて、重み付けされた前記旧監視データの類似度を算出することを特徴とする請求項4に記載の監視プログラム。
  6. 監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶する記憶手段と、
    前記監視対象機器から前記複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信する受信手段と、
    前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出する算出手段と、
    前記算出手段によって算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定する決定手段と、
    前記決定手段によって決定された決定結果を出力する出力手段と、
    を備えることを特徴とする監視装置。
  7. 制御手段および記憶手段を備え、監視対象機器において発生した障害事例ごとに、当該障害事例の発生時刻に至るまでの前記監視対象機器の複数の監視項目の測定値を表わす過去の監視データ群を記憶するデータベースにアクセス可能なコンピュータが、
    前記制御手段により、前記監視対象機器から前記複数の監視項目の現在の測定値を表わす監視データ(以下、「現監視データ」という)を受信して、前記記憶手段に記憶する受信工程と、
    前記制御手段により、前記複数の監視項目の測定値に基づいて、前記データベース内の過去の監視データ(以下、「旧監視データ」という)ごとに、当該旧監視データと前記現監視データとの類似度を算出して、前記記憶手段に記憶する算出工程と、
    前記制御手段により、前記算出工程によって算出された算出結果に基づいて、前記複数の障害事例の中から前記監視対象機器において発生が予測される障害事例を決定して、前記記憶手段に記憶する決定工程と、
    前記制御手段により、前記決定工程によって決定された決定結果を出力する出力工程と、
    を実行することを特徴とする監視方法。
JP2009143630A 2009-06-16 2009-06-16 監視プログラム、監視装置、および監視方法 Withdrawn JP2011002906A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009143630A JP2011002906A (ja) 2009-06-16 2009-06-16 監視プログラム、監視装置、および監視方法
US12/784,012 US20100318856A1 (en) 2009-06-16 2010-05-20 Recording medium storing monitoring program, monitoring device, and monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009143630A JP2011002906A (ja) 2009-06-16 2009-06-16 監視プログラム、監視装置、および監視方法

Publications (1)

Publication Number Publication Date
JP2011002906A true JP2011002906A (ja) 2011-01-06

Family

ID=43307465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009143630A Withdrawn JP2011002906A (ja) 2009-06-16 2009-06-16 監視プログラム、監視装置、および監視方法

Country Status (2)

Country Link
US (1) US20100318856A1 (ja)
JP (1) JP2011002906A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127588A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 対処支援プログラム、対処支援装置および対処支援方法
WO2012150688A1 (ja) * 2011-05-02 2012-11-08 シャープ株式会社 管理装置、予測方法、および管理プログラム
JP2014049045A (ja) * 2012-09-03 2014-03-17 Hitachi Solutions Ltd ジョブ管理システムにおける障害対応システム及びそのプログラム
JP2014199579A (ja) * 2013-03-29 2014-10-23 富士通株式会社 検出方法、検出プログラム、および検出装置
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
JP2019057139A (ja) * 2017-09-21 2019-04-11 日本電気株式会社 運用管理システム、監視サーバ、方法およびプログラム
JP2019185454A (ja) * 2018-04-12 2019-10-24 京セラドキュメントソリューションズ株式会社 デバイス管理装置
JPWO2021001991A1 (ja) * 2019-07-04 2021-01-07

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5778087B2 (ja) 2012-06-19 2015-09-16 横河電機株式会社 プロセス監視システム及び方法
US9311176B1 (en) * 2012-11-20 2016-04-12 Emc Corporation Evaluating a set of storage devices and providing recommended activities
CN103885995B (zh) * 2012-12-21 2017-05-03 中国移动通信集团河北有限公司 一种基于表的数据库监控方法和装置
EP3059676B1 (en) * 2015-02-20 2019-09-11 Siemens Aktiengesellschaft A method and apparatus for analyzing the availability of a system, in particular of a safety critical system
US20160342453A1 (en) * 2015-05-20 2016-11-24 Wanclouds, Inc. System and methods for anomaly detection
US10073753B2 (en) * 2016-02-14 2018-09-11 Dell Products, Lp System and method to assess information handling system health and resource utilization
US10176034B2 (en) * 2016-02-16 2019-01-08 International Business Machines Corporation Event relationship analysis in fault management
US10467083B2 (en) * 2017-06-08 2019-11-05 International Business Machines Corporation Event relationship analysis in fault management
JP6904155B2 (ja) * 2017-08-09 2021-07-14 富士通株式会社 情報処理装置、情報処理方法及びプログラム
WO2020138176A1 (ja) * 2018-12-28 2020-07-02 京セラドキュメントソリューションズ株式会社 監視システム、監視方法および監視プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615367B1 (en) * 1999-10-28 2003-09-02 General Electric Company Method and apparatus for diagnosing difficult to diagnose faults in a complex system
US6738811B1 (en) * 2000-03-31 2004-05-18 Supermicro Computer, Inc. Method and architecture for monitoring the health of servers across data networks
US7107491B2 (en) * 2001-05-16 2006-09-12 General Electric Company System, method and computer product for performing automated predictive reliability
US7313573B2 (en) * 2003-09-17 2007-12-25 International Business Machines Corporation Diagnosis of equipment failures using an integrated approach of case based reasoning and reliability analysis

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127588A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 対処支援プログラム、対処支援装置および対処支援方法
JP5708789B2 (ja) * 2011-03-18 2015-04-30 富士通株式会社 対処支援プログラム、対処支援装置および対処支援方法
WO2012150688A1 (ja) * 2011-05-02 2012-11-08 シャープ株式会社 管理装置、予測方法、および管理プログラム
JP2014049045A (ja) * 2012-09-03 2014-03-17 Hitachi Solutions Ltd ジョブ管理システムにおける障害対応システム及びそのプログラム
JP2014199579A (ja) * 2013-03-29 2014-10-23 富士通株式会社 検出方法、検出プログラム、および検出装置
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
US10042686B2 (en) 2014-09-30 2018-08-07 Fujitsu Limited Determination method, selection method, and determination device
JP2019057139A (ja) * 2017-09-21 2019-04-11 日本電気株式会社 運用管理システム、監視サーバ、方法およびプログラム
JP2019185454A (ja) * 2018-04-12 2019-10-24 京セラドキュメントソリューションズ株式会社 デバイス管理装置
JPWO2021001991A1 (ja) * 2019-07-04 2021-01-07
WO2021001991A1 (ja) * 2019-07-04 2021-01-07 日本電気株式会社 予測方法、予測装置、記録媒体
JP7355108B2 (ja) 2019-07-04 2023-10-03 日本電気株式会社 予測方法、予測装置、記録媒体

Also Published As

Publication number Publication date
US20100318856A1 (en) 2010-12-16

Similar Documents

Publication Publication Date Title
JP2011002906A (ja) 監視プログラム、監視装置、および監視方法
Giagopoulos et al. Structural health monitoring and fatigue damage estimation using vibration measurements and finite element model updating
US20170097980A1 (en) Detection method and information processing device
JP5708789B2 (ja) 対処支援プログラム、対処支援装置および対処支援方法
US20200380398A1 (en) Remote Validation of Machine-Learning Models for Data Imbalance
JP6193287B2 (ja) 異常検出装置、異常検出方法及びネットワーク異常検出システム
US9736031B2 (en) Information system construction assistance device, information system construction assistance method, and information system construction assistance program
JP6094593B2 (ja) 情報システム構築装置、情報システム構築方法および情報システム構築プログラム
US20110246410A1 (en) Information processing apparatus, control method therefor, and computer-readable storage medium
Xuan et al. Developer recommendation on bug commenting: A ranking approach for the developer crowd
CN113269359A (zh) 用户财务状况预测方法、设备、介质及计算机程序产品
US10789577B2 (en) Workflow, assessment, verification, and evaluation (WAVE) system and method
Yue et al. A projection-based approach to intuitionistic fuzzy group decision making
JP2012113556A (ja) 運用監視装置、運用監視方法、および運用監視プログラム
KR102054500B1 (ko) 설계 도면 제공 방법
JP2021182314A (ja) 判定方法、および判定プログラム
JP7297575B2 (ja) 部分放電診断装置、部分放電診断方法、部分放電診断システム及びコンピュータプログラム
WO2019180778A1 (ja) 情報処理装置、情報処理方法及び記録媒体
US20210279608A1 (en) Prediction rationale analysis apparatus and prediction rationale analysis method
Fu et al. Digital twin-driven vibration amplitude simulation for condition monitoring of axial blowers in blast furnace ironmaking
JPWO2018207225A1 (ja) 時系列データの分析制御方法および分析制御装置
CN114041154A (zh) 维护历史可视化工具以便于解决间歇性问题
US20220129792A1 (en) Method and apparatus for presenting determination result
WO2022064894A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2022101234A1 (en) System and method for automated or semi-automated identification of malfunction area(s) for maintenance cases

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120904