JP5098821B2 - 監視対象システムの障害等の予兆を検出する監視装置及び監視方法 - Google Patents

監視対象システムの障害等の予兆を検出する監視装置及び監視方法 Download PDF

Info

Publication number
JP5098821B2
JP5098821B2 JP2008144062A JP2008144062A JP5098821B2 JP 5098821 B2 JP5098821 B2 JP 5098821B2 JP 2008144062 A JP2008144062 A JP 2008144062A JP 2008144062 A JP2008144062 A JP 2008144062A JP 5098821 B2 JP5098821 B2 JP 5098821B2
Authority
JP
Japan
Prior art keywords
time
metadata
series data
past
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008144062A
Other languages
English (en)
Other versions
JP2009289221A (ja
Inventor
晃一 森山
清 来海
哲朗 今村
幸司 中山
仁 澁谷
誠 吉沢
直宏 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008144062A priority Critical patent/JP5098821B2/ja
Publication of JP2009289221A publication Critical patent/JP2009289221A/ja
Application granted granted Critical
Publication of JP5098821B2 publication Critical patent/JP5098821B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は大規模コンピュータシステムやネットワークシステム等の監視対象システムの障害等の予兆を検出する監視装置及び監視方法に関する。
大規模コンピュータシステム,ネットワークシステムにおける障害対応や規制措置等の保守操作は,構成する各装置による異常状態検出時の通知や,保守者による状態監視での,経験に基づく状況判断により実施される方法が一般的に行われている。
これらのシステムの常時監視により,システムのサービス継続の阻害となる障害を検出し,保守操作を行うことは極めて重要であり,更に障害に至る以前にその予兆をできるだけ早く正確に検出し,障害の防止対策を迅速に行うことが求められている。
事前に異常を検知する技術として,過去に異常のあった日時を過去のトラヒックデータの蓄積結果より特定し,同様のトラヒックデータの変動が予見される日時に対して予め規制制御する技術がある(特許文献1参照)。しかし,この技術では時間帯などと因果関係のない突発的な異常について予期することはできない。
他の方法として,過去のネットワーク監視データを統計処理し,検出対象となる統計的な振る舞いを定め,それに基づいて管理対象の情報を絞り込んで監視を行い,連続量情報の統計的な振る舞いを検出すると異常が発生する予兆を発見したとみなして,監視ルールを参照して監視情報収集部に対して関連する複数の監視情報を収集するよう指示し,監視情報判定部でその値を判定することにより障害の原因を特定する技術(特許文献2参照)があるが,この技術ではバースト的なトラヒック増減や障害によるリソース使用量の急増は検出が可能ではあるが,正常値の範囲内で発生するゆらぎ等の予兆として捕捉すべき傾向を検出することはできない。
具体的には,図9に示す監視対象のデータが推移するパターンの例について説明すると,時刻(t-z) 〜時刻(t-z)+n のデータの推移があらわれた後,時刻t+1に異常が発生した場合,閾値や統計情報の検出手段によっては時刻(t-z) 〜時刻(t-z)+n のデータの推移はth1で示す通常値の平均的な値(正常値)の範囲内とみなされて,異常の可能性を検出することはできない。異常を検出する閾値であるth2を超えないと異常を感知することができないため,時刻t+1になって異常を検出することになり平均的な値th1の状態では時刻t+1に発生する異常の予兆として検出することができない。
特開2001−28628号公報 特開2005−285040号公報
上記したように従来の特許文献1や特許文献2の方法では,トラフィックの異常や障害の発生を検出する手段としては有効であるが,それらの方法では図9に示すように異常判断の閾値の範囲内(正常動作と判断される範囲)で発生するゆらぎや発生するパターンに対して適用しても異常や障害を検出することができない。すなわち,従来は予め型が決められた予兆検出手段(閾値や平均値による検出)を用いているが,従来の各リソース(装置構成)毎に設定した閾値などによる検出手段では,設定する値が低ければ誤検知が発生し,高ければ検出した直後に障害に至ってしまうなど,適切な設定が難しいため,障害に至る予兆を的確に捉えることはできなかった。
一方,予兆に対する保守作業については,従来,保守者の経験やスキルに依存しており,正確で迅速な障害防止対策をすることは難しかった。
本発明は監視対象の時系列データの値が異常を表す閾値を超えることが無くても,大規模コンピュータシステムやネットワークシステム等の監視対象システムの障害等の予兆を検出する監視装置及び監視方法を提供することを目的とする。
この発明では単一点での異常値判定ではなく,時系列の監視データに対する値の変化の特徴をリアルタイムにデータ化し,その特徴点が過去に似たような推移があったかを検出することにより,異常を表す閾値に依存せずに予兆を検出するものである。
なお,以下の説明で選定条件(またはポリシールール)は,監視対象の時系列データの値の変化や,パターンの特徴を表すデータや,障害情報,オペレーション(保守者による運用操作),システムイベント(故障やアラーム等の発生)等が含まれ,この選定条件に含まれた特徴を表すデータに従ってメタデータが生成される。また,時系列データは,監視対象システムである大規模コンピュータシステムやネットワークシステムから一定周期で取得するトラヒックや状態(リソース使用量や性能情報等)に関する値を指し,例えば,CPU使用率,DISK入出力回数,空き容量,メモリ使用等のサーバの性能やリソースを判断できるデータや,回線使用率,パケット破棄率,エラーパケット数等のネットワーク性能等を判断するためのデータ等の定期的に取得できる時系列のデータを意味する。また,メタデータは,監視対象システムから上記選定条件に従って生成したデータ及びシステムから発生したデータや,保守端末からの操作により発生したデータも含まれる。なお,システムから発生したデータは,障害情報,システムイベント(故障やアラーム等の発生)が含まれ,保守端点からの操作により発生したデータは,オペレーション(保守者による運用操作)が含まれる。
この大規模コンピュータシステムやネットワークシステム等の監視対象システムの障害等の予兆を検出する監視装置は,監視対象システムの性能を表す時系列データを一定周期で抽出して過去の時系列データとして格納する手段と,前記時系列データが,設定された数値や変化のパターンを表す特徴データや,障害発生等のイベントを含むトリガデータ等で構成する予め格納部に格納された選定条件に従って過去のメタデータを生成して過去の時系列データと関連付けて過去のメタデータ格納手段に格納する第1のメタデータ化手段を備える。一方,監視対象システムからのリアルタイムの状態を表す時系列データについて上記選定条件とは別に設定することができる選定条件に従ってリアルタイムのメタデータを生成する第2のメタデータ化手段を備える。そのリアルタイムのメタデータと過去のメタデータ格納手段のメタデータとを照合し,予め設定された所定の一致度が得られると当該メタデータに関連付けられた過去の時系列データを参照して設定された時系列データの今後の変化を照合予兆検出手段により検出して出力するよう構成する。
更に,上記の照合予兆検出手段は,所定の一致度が得られたメタデータに関連付けられた過去の時系列データにおいて異常が発生するか判別して,異常が検出されると,異常に対する対処手順を関連付けられた過去のメタデータから読み出して保守端末に表示して対処を促すように構成することができる。また,照合予兆検出手段は,照合において予め設定された所定の一致度が複数の過去のメタデータについて得られると,該複数の過去のメタデータに関連付けられた各時系列データを参照して最近に発生した時系列データの今後の変化を検出して出力するように構成することができる。
また,この監視装置の原理による監視対象システムの監視方法として,監視対象システムの状態を表す時系列データの値や変化の特徴を選定条件として予め設定し,前記選定条件に従って監視対象の時系列データをメタデータ化して過去のメタデータとして過去の時系列データと関連付けて格納し,監視対象システムのリアルタイムの状態を表す時系列データについて予め設定した値や変化の特徴を選定条件としてメタデータを生成し,生成したリアルタイムのメタデータと過去のメタデータと照合して,予め設定した程度の一致度が得られると当該過去のメタデータ及び関連付けられた過去の時系列データを参照して,その時点以降に発生したデータの変化やイベントを予兆として検出して出力するよう構成することができる。
本発明によればシステムへのトラヒックや性能データ等の監視データに対して選定条件(またはポリシールールという)に従い,傾向やイベント等の特徴や,保守者が行ったオペレーション,障害や保守作業イベント等を監視データに関係付けてメタデータとして保持し,リアルタイムのトラヒックや性能データ等のメタデータに対して選定条件に従って照合(マッチング)を行うことで,将来の監視データを予測及び将来起こりうる事象を迅速且つ正確に予兆し,起こりうるイベントやそのイベントに対する過去行った保守オペレーションを保守者へ通知することができる。
そして,単一点での異常値判定ではなく,特徴点の取得観点を選定条件(ポリシールール)として監視対象データ毎に設定できるようにすることで,取得データの種別や状況変化に柔軟に対応できるようにする。
また,過去の障害トラブルなどのイベント,障害防止対策として実施したオペレーションなどをそのメタデータに関連付けることで照合された過去データから必要なオペレーションを正確に抽出することを可能とする。
図1は本発明に係るシステムの実施例の構成を示す。図中,1は監視装置,10は監視対象システムからリアルタイムに収集する時系列データから指定されたメタデータを作成すると共に過去のメタデータと照合することで障害等の予兆を検出する処理部,10aは監視対象システム2のトラヒックや処理量等のシステムの状態を表す時系列データに対して予め設定されたデータの変化の傾向や,障害や保守作業のイベント等を関連付けて格納する過去データ用の第1のメタデータ化手段,10bはリアルタイムの監視のための第2のメタデータ化手段,10cはリアルタイムの時系列データから第2の選定条件格納部11bの選定条件に従って生成されたリアルタイムのメタデータと,過去のメタデータ格納部13bのメタデータとを照合して一致度が予め設定された値以上である過去のメタデータを検出すると,そのメタデータに対して一定時間内に障害が発生するか過去の時系列データ格納部12bのデータから障害発生,障害時の規制等の対処内容等の予兆を出力する照合予兆検出手段である。
11aは監視対象システムのトラヒックや性能に関するデータや,回線使用率,パケット破棄率,エラーパケット数等のデータ等を定期的に取得した時系列データに対して,障害とは言えない(障害と判断される閾値を超えない)レベルであるが,平均値を超える値の発生回数や,変化のパターン等の過去のデータとの照合で障害等の予兆として検出できる設定データ,監視対象システムからの障害等のイベントデータ,保守端末14からの作業内容(障害等の異常時における保守者のオペレーション)等を含む各種の選定条件(ポリシールールと呼ぶ場合がある)が格納された第1の選定条件格納部,11bは監視対象システムのリアルタイムの時系列データから保守端末14に対して障害発生の予兆を検出するためのメタデータを生成するための各種の選定条件(第1の選定条件格納部11aと同じ場合もあるが一部異なる条件を設定可能)が設定された第2の選定条件格納部,12aは監視対象システムから入力するトラヒック,CPU使用率等のシステムの性能を表す予め設定された周期で抽出された複数種の時系列データを,障害等のシステムイベント情報(保守者が入力した情報を含む)とそれぞれの時間情報と共に格納される時系列データ格納部である。
13aは上記過去データ用の第1のメタデータ化手段10aにより生成したメタデータを格納したメタデータ格納部,13bはメタデータ格納部13aに格納した過去の時系列データにより生成したメタデータが格納された過去のメタデータ格納部,14は保守者が監視対象システム2に対して入力する操作指示(オペレーション)や,監視対象システム2から発生した障害やアラームを保守者に知らせるために出力(表示)が行われると共に,監視装置1からの障害等の予兆検出に応じて表示を行う保守端末,2は大規模コンピュータシステムやネットワークシステム等の監視対象システム,20−1〜20−3は監視対象システム2の構成要素であるノード(コンピュータ,端末等)である。なお,図1の構成では時系列データ格納部12bを時系列データ格納部12aと別に設けているが,監視対象システム2からのシステムの性能を表すリアルタイムの時系列データを格納するのと同時に,時系列データ格納部12aに格納された過去の時系列データを照合予兆検出手段10cにおける照合のためにアクセス可能な構成を備えるようにすれば,過去の時系列データ格納部12bを時系列データ格納部12aとは別に設ける必要がないが,図1の例では時系列データ格納部12aに格納したデータを過去データとして過去の時系列データ格納部12bに適時に複写して照合に使用する。
選定条件格納部(図1の第1の選定条件格納部11aと第2の選定条件格納部11b)に設定される選定条件(ポリシールール)の種類には,次のようなものがある。
(1) 時系列データ選定条件・・・時系列データの種類(監視対象システムから取出す性能を表すデータの種類)
(2) 抽出データ選定条件・・・メタデータとして保持するデータの抽出間隔(サンプリング間隔)
(3) 特徴データ選定条件・・・データ列に対する特徴を表現するための評価観点
(4) トリガデータ選定条件・・・メタデータ化とするシステム上に発生する各種イベント(故障やアラーム等)
(5) 知識データ選定条件・・・メタデータ化とする保守作業や障害対象の内容
(6) オフラインデータ選定条件・・・オフラインでメタデータ化する場合の投入形式の定義
図2に各部に格納されるデータの具体例を示す。図2のA.は選定条件格納部(図1の11a,11b)に設定される選定条件のデータ構成であり,選定条件が110〜116の各種類に分類されている例を示す。110は時系列データ選定条件でありa1〜a3が設定されており,a1はCPU使用率,a2はメモリ使用率,a3は回線使用率である。111は抽出データ選定条件であり,b1〜b3としてそれぞれ1分,10分,60分の抽出間隔が設定されている。112は特徴データ選定条件であり,c1〜c7の各特徴データが設定されおり,c1はtポイント(抽出間隔がt個分の時間)内での異常値検出回数,c2はtポイント内での平均値±30%内の回数,c3は最大異常値連続検出回数,c4は増減パターン列(特徴となる増減パターン列),c5は5を1単位とした場合の正規化値(元の数値を5で除算した時の商),c6は5を1単位とした場合の増減正規化値,c7は異常値検出回数(tポイント内)である。113はトリガデータ選定条件であり,この例ではd1として,システムイベント(障害やアラーム等)が設定されている。114は知識データ選定条件であり,e1として異常復旧手順,e2として障害解析手順が設定されている。115はオフラインデータ選定条件であり,保守者がオフラインで保守端末(図1の14)から直接設定したメタデータであり,この例ではf1〜f4としてそれぞれ日付データとメタデータの組合せで構成される。116は一致度を表し,このデータは上記図1の照合予兆検出手段10cにおける照合において,過去データ(実績データ)とリアルタイムデータとの一致度の程度を表し,g1は特徴データ選定条件の50%の一致度が要求される場合であり,g2は特徴データ選定条件の100%の一致度が要求されることを表す。
図2のB.は時系列データ格納部のデータ構成例であり,この例はCPU使用率のデータだけを示すが,他にメモリ使用率,回線使用率,トラヒック等の各種の時系列データを格納することができる。B.の例では,計測時間の抽出周期毎のCPU使用率を表す時系列データ120が設定され,この例では抽出周期が1分毎(15:11:50は15時11分50秒を表し,15:12:50,15:13:50,15:14:50・・・の各時点)の場合であり,図2のA.に示す抽出データ選定条件のb1に設定された抽出周期である。C.はメタデータ格納部に格納されるデータ構成例であり,各種の抽出された時系列データに対するメタデータ130が格納され,各抽出データ毎(時系列データの種別及び抽出周期別)にメタデータが作成される。C.に示す例では,抽出データとして上記B.に示す1分周期で抽出されたCPU使用率を表す時系列データに対して,特徴データ選定条件として図2のA.の選定条件の中の特徴データ選定条件112の中の異常値検出回数c1と最大異常値連続検出回数c3に適合したメタデータであり,トリガデータ選定条件113のシステムイベントd1及び知識データ選定条件114の中の異常復旧手順e1の各選定条件を満たして選定されたメタデータが格納されている。
図3は時系列データ収集とメタデータ格納の処理フローである。図4は時系列データからメタデータ生成の仕組みと時系列データの変動パターン例を示し,A.のa〜dは時系列データ入力,障害情報入力,オペレーション入力及びシステムイベント入力という監視対象システムから出力または保守端末からシステムへ入力されるデータを表し,このデータが第1の選定条件格納部11aに設定された条件に適合するとメタデータ格納部13aに格納され,時系列データは時系列データ格納部12aに格納され,図4のB.は時系列データの変化の例を示し,平均値に対する±30%の変動のライン,時間t0の一定時間後の時間t1にトラヒックが増加してサーバAの輻輳が発生し,時間t2にトラヒック入量規制が実行され,時間t3に入量規制解除が実行されている例を示す。
図3のフローチャートを図2及び図4を参照しながら説明する。最初に選定条件を読込む(図3のS1)。この場合,図1の第1の選定条件格納部11aから処理部10の第1のメタデータ化手段10aに読込まれる。続いて時系列データを収集し(図3のS2),収集された時系列データに対してデータの種類(例えば,CPU使用率)に対して設定された選定条件に従いメタデータ化を行う(同S3)。この場合,入力された時系列データについて,選定条件として設定された条件を満たすか判定し,満たす場合はそれをメタデータとして格納する。図2に示す例では時系列データの入力に対してA.に示す選定条件11aと照合して,C.に示すメタデータが生成される。
この時の時系列データとそれに関するメタデータとを関連付け(時間情報を共通データとして持つ),データベース(図1〜図4の時系列データ格納部12とメタデータ格納部13aに対応)に格納し(図3のS4),次に新しい収集データが存在するか判別し(同S5),存在する場合はステップS3に戻り,同様の処理(S4,S5)が実行され,存在しないと終了する。
このようにして監視対象システム2からの時系列データとその時系列データについて選定条件を満たしたメタデータが,時間情報を共通データとして紐付け(関連付け)られ,メタデータ格納部13aに過去データ(実績)として格納され,そのメタデータ格納部13aに格納されたメタデータに対応した過去の時系列データが時系列データ格納部12に格納され,各格納部12,13aのデータは監視装置1において後述する監視の処理フロー(図6)において利用される。なお,メタデータ格納部13aには,特徴データだけでなく,実際に過去において発生(実行)したトリガデータ(障害等のシステムイベント),知識データ(障害復旧手順等),オフラインデータ(操作者が実行した操作,処理等)等の実績データも含まれ,時系列データ格納部12aには図4のB.に示すCPU使用率等の変動パターンとイベント(イベントはメタデータだけに含まれる)のデータ(障害発生等)が格納される。
図5はオフラインのメタデータ設定の処理フローであり,保守端末14からの操作により実行される。最初に現状の選定条件(ポリシールール)として定義されている内容を全て表示し(図5のS1),保守端末よりメタデータとして登録したいデータの読み込み(保守作業等の作業手順,システムイベント,システム状況等)を行う(同S2)。選定条件(オフライン登録形式定義)に従い,登録されたデータからメタデータとして保持するデータを抽出し(図5のS3),抽出されたメタデータを時系列データと時間(日付)により紐付け(関係付け)し,データベースへ格納する(同S4)。このようにして,異常発生後の対処手順や障害発生前に発生するように予兆現象などの監視時系列データの特徴,時系列データに現れないサービスイベントや保守イベントなどを,保存されているオンラインで作成されるメタデータに対してオフライン作業として追加することが可能となる。
図6は監視対象システムのリアルタイムの監視の処理フローであり,図7は照合によるリアルタイムの予兆検出動作の説明図である。図7のA.はリアルタイムの時系列データ,B.は過去のメタデータとリアルタイムのメタデータとの照合を取る動作を示し,C.は一定程度以上の一致が得られた(マッチングした)場合の現在から後に発生するパターン(過去の時系列データから得たパターン)を示し,D.は一致が得られたデータが複数パターン検出された場合の複数のパターンを表す。
図6において,最初に選定条件(ポリシールール)を読み込む(図6のS1)。この時の選定条件は図1の第2の選定条件格納部11bに格納されたリアルタイムの監視に使用する選定条件であり,上記図3の処理フローの過去データ(実績データ)を収集する時に参照される選定条件(図1の第1の選定条件格納部11a)と同じでもよいが,異なったもの(一部を選択可能)でも良い。監視装置(図1の1)の監視対象システム(図1の2)を構成する装置から情報収集を行う(図6のS2)。次にリアルタイムの時系列データ(図7のA.に例として示す)に対して選定条件(図1の第2の選定条件格納部11b)に従ってメタデータ化され,得られたメタデータと過去データのメタデータ(図1の過去のメタデータ格納部13b)を照合する(図6のS3)。この様子は図7のB.に示される。
照合による一致度を算出する(図6のS4)。この場合,一致度として60%,40%等の数値が得られる。複数の過去データに対して一致度の数値によりソート(降順)する(図6のS5)。これにより一致度の異なる複数の過去データが検出されても一致度の高いものから順に並べられる。次に予め設定された一定値以上の一致度を持つ対象過去データがあるか判別し(図6のS6),一定値以上の一致度を持つ対象過去データが無いとステップS3に戻り,該当する対象過去データがあった場合は選択された過去データ(一定値以上の一致度を持つ)に対して,今後発生しうるデータ状況を表示する(同S7)。このデータ状況の表示は一定値以上の一致度を持つ過去データの時間情報の後に発生したデータ状況を当該一致度を持つ過去の時系列データ(時系列データ格納部12に格納)の中から選択して表示する。図7のC.は,一致度が一定値以上であった現在までの過去データについて,現在より後に発生し得る過去データの例が表示されている。
次に上記ステップS7で選択された過去データにおいて異常が発生しうるか判別する(図6のS8)。この判別は,選択された一定値以上の一致度を持つ過去のメタデータ(図1のメタデータ格納部13b)の発生時刻(時点t)に対応する過去の時系列データ(図1の時系列データ格納部12b)を見てその一定時間内(時点t+x内)に性能データに異常が発生しているかを検出するものである。
現在から一定時間内に異常が発生しないと判別されると,ステップS3に戻り,現状の情報のメタデータと過去点のメタデータの比較の処理を引き続き行い,異常が発生し得ると判別されると,発生され得る(予兆される)と判別された異常に対してメタデータから対処手順を読み込む(図6のS9)。この対処手順は図2の例で示すと,C.に示すメタデータの中では「(e1)異常復旧手順」として示されて,上記図2のA.に示す知識データ選定条件114の中の異常復旧手順に適合したデータとして格納されている。次にこの対処手順について選定条件に異常時の自動対処(フラグ)がオンであるか判別する(図6のS10)。図2のA.の例では知識データ選定条件114の中の障害復旧手順に対して「自動対処フラグ」が「1」(オンを表す)に設定されている。
自動対処のフラグがオンに設定されてない場合は,異常内容及び対処内容を表示(図1の保守端末14に表示)し(図6のS11),保守者が対処内容(結果)を確認できるようにする。図7のD.は異常内容(予兆)及び対処内容を保守端末に表示した例を示し,現在時間t0に対し一定時間後のt1にサーバAの輻輳発生があり,t2にトラヒック入量規制の対処が実行され,t3に入量規制解除が実行されていることが表示される。なおこの例では,点線で示す別の過去データ(一致度が一定値以上の別のデータ)が存在し,複数のデータが同時に表示されている。
上記ステップS10で自動対処フラグがオンに設定されていると判別されると,自動処理が実行されるが,対象が複数存在するか判別する(図6のS12)。これは上記ステップS5において一致度が一定値以上の過去データが複数あるか判別するもので,複数存在する場合は選定条件に従い,最適なパターンを選択する(同S13)。この時,日付情報により最も近いものを最適パターンとして選択する。その場合,選定条件(ポリシールール)に最新日付情報とする定義がなされているものとし,デフォルトを最新日付とすることができる。
ステップS12で対象が複数存在しない場合及びステップS13で選択されると,異常内容を表示して対処処理(自動処理の内容)を実行し(図6のS14),処理を終了する。
上記ステップS8で判別される過去データには,監視を強化すべき状態であることや,保守者によるシステムへのアクション(設定,制御等のオペレーション)の発火条件等をを過去の時系列データに記録しておくことにより,それらのデータを一定以上の一致度を持つ場合に出力することができる。
図8は監視対象データのメタデータ化の例を示し,図8の(1) は時系列データの例であり, 計測単位時間として1分(抽出間隔)を用い,監視対象システムの特性を表す測定データの一つとしてトラヒック量を収集した例である。図8の(2) は,(1) に示す時系列データ(測定データ)に対して選定条件の例1として,図2のA.の特徴データ選定条件112の中のc5に示す「5」を1単位とした場合の正規化値である。また,図8の(3) は(1) に示す時系列の測定データに対して選定条件の例2として,図2のA.の特徴データ選定条件112の中のc6に示す「5」を1単位とした場合の1単位以上の増減正規化値である。更に,図8の(4) は(1) に示す時系列の測定データに対して選定条件として,「5」を1単位として,2単位を超える測定データの正規化値である。(2) 〜(4) の各正規化値における警報発生の条件が設定されている。
(付記1) 大規模コンピュータシステムやネットワークシステム等の監視対象システムの障害等の予兆を検出する監視装置であって,監視対象システムの性能を表す時系列データを一定周期で抽出して過去の時系列データとして格納する手段と,前記時系列データが,設定された数値や変化のパターンを表す特徴データや,障害発生等のイベントやトリガデータを含む予め格納部に格納された選定条件に適合すると過去のメタデータとして前記時系列データと関連付けて過去のメタデータ格納手段に格納する第1のメタデータ化手段と,監視対象システムからのリアルタイムの性能を表す時系列データについて上記選定条件とは別に設定された選定条件に適合するとリアルタイムのメタデータを生成する第2のメタデータ化手段と,前記リアルタイムのメタデータと前記過去のメタデータ格納手段のメタデータとを照合し,前記照合において予め設定された所定の一致度が得られると当該メタデータに関連付けられた前記過去の時系列データを参照して設定された時系列データの今後の変化を検出して出力する照合予兆検出手段と,を備えることを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
(付記2) 付記1において,前記照合予兆検出手段は,前記所定の一致度が得られたメタデータに関連付けられた前記過去の時系列データにおいて異常が発生するか判別して,異常が検出されると,異常に対する対処手順を前記関連付けられた過去のメタデータから読み出して保守端末に表示して対処を促すことを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
(付記3) 付記1において,前記照合予兆検出手段は,前記照合において予め設定された所定の一致度が複数の過去のメタデータについて得られると,該複数の過去のメタデータに関連付けられた各時系列データを参照して最も最近に発生した時系列データの今後の変化を検出して出力することを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
(付記4) 付記1において,前記選定条件のデータとして,時系列データの抽出周期,知識データとして異常復旧手順,障害解析手順,オフラインデータとして操作端末からの日付とイベントの情報を設定し,前記第1と第2のメタデータ化手段は,前記各選定条件に設定されたオフライン設定データを含めてメタデータ化することを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
(付記5) 大規模コンピュータシステムやネットワークシステム等の監視対象システムの監視方法において,前記監視対象システムの状態を表す時系列データの値や変化の特徴を選定条件として予め設定し,前記選定条件に従って監視対象の時系列データをメタデータ化して過去のメタデータとして過去の時系列データと関連付けて格納し,前記監視対象システムのリアルタイムの状態を表す時系列データについて予め設定した値や変化の特徴を選定条件としてメタデータを生成し,前記生成したリアルタイムのメタデータと前記過去のメタデータと照合して,予め設定した程度の一致度が得られると当該過去のメタデータ及び関連付けられた過去の時系列データを参照して,その時点以降に発生したデータの変化やイベントを予兆として検出して出力する,ことを特徴とする監視対象システムの障害等の予兆を検出する監視方法。
(付記6) 付記5において,前記選定条件は,監視対象システムの監視対象データ毎に設定することを特徴とする監視対象システムの障害等の予兆を検出する監視方法。
(付記7) 付記5において,前記過去のメタデータとして,障害時における保守者が対応すべき操作内容を関連付けて保持し,障害の予兆が出力される時に前記保持された操作内容を出力することを特徴とする監視対象システムの障害等の予兆を検出する監視方法。
本発明に係るシステムの実施例の構成を示す図である。 各部に格納されるデータの具体例を示す図である。 時系列データ収集とメタデータ格納の処理フローである。 時系列データからメタデータ生成の仕組みと時系列データの変動パターン例を示す図である。 オフラインのメタデータ設定の処理フローを示す図である。 監視対象システムのリアルタイムの監視の処理フローを示す図である。 照合によるリアルタイムの予兆検出動作の説明図である。 監視対象データのメタデータ化の例を示す図である。 監視対象のデータが推移するパターンの例を示す図である。
符号の説明
1 監視装置
10 処理部
10a 第1のメタデータ化手段
10b 第2のメタデータ化手段
10c 照合予兆検出手段
11a 第1の選定条件格納部
11b 第2の選定条件格納部
12a 時系列データ格納部
13a メタデータ格納部
13b 過去のメタデータ格納部
14 保守端末
2 監視対象システム
20−1〜20−3 ノード

Claims (5)

  1. 大規模コンピュータシステムやネットワークシステム等の監視対象システムの障害等の予兆を検出する監視装置であって,
    監視対象システムの性能を表す時系列データを一定周期で抽出して過去の時系列データとして格納する手段と,
    前記時系列データが,各部の使用率,抽出間隔,異常値検出回数,知識データ選定条件,オフラインデータ選定条件を含む予め選定条件格納部に格納された選定条件に適合すると過去のメタデータとして前記時系列データと関連付けて過去のメタデータ格納手段に格納する第1のメタデータ化手段と,
    監視対象システムからのリアルタイムの性能を表す時系列データについて上記選定条件とは別に設定された選定条件に適合するとリアルタイムのメタデータを生成する第2のメタデータ化手段と,
    前記リアルタイムのメタデータと前記過去のメタデータ格納手段のメタデータとを照合し,前記照合において予め設定された所定の一致度が得られると当該メタデータに関連付けられた前記過去の時系列データを参照して設定された時系列データの今後の変化を検出して出力する照合予兆検出手段と,
    を備えることを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
  2. 請求項1において,
    前記照合予兆検出手段は,前記所定の一致度が得られたメタデータに関連付けられた前記過去の時系列データにおいて異常が発生するか判別して,異常が検出されると,異常に対する対処手順を前記関連付けられた過去のメタデータから読み出して保守端末に表示して対処を促すことを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
  3. 請求項1において,
    前記照合予兆検出手段は,前記照合において予め設定された所定の一致度が複数の過去のメタデータについて得られると,該複数の過去のメタデータに関連付けられた各時系列データを参照して最も最近に発生した時系列データの今後の変化を検出して出力することを特徴とする監視対象システムの障害等の予兆を検出する監視装置。
  4. 大規模コンピュータシステムやネットワークシステム等の監視対象システムの監視方法において,
    前記監視対象システムの状態を表す時系列データの値や変化の特徴を,各部の使用率,抽出間隔,異常値検出回数,知識データ選定条件,オフラインデータ選定条件を含む選定条件として予め設定し,前記選定条件に従って監視対象の時系列データをメタデータ化して過去のメタデータとして過去の時系列データと関連付けて格納し,
    前記監視対象システムのリアルタイムの状態を表す時系列データについて予め設定した値や変化の特徴を選定条件としてメタデータを生成し,
    前記生成したリアルタイムのメタデータと前記過去のメタデータと照合して,予め設定した程度の一致度が得られると当該過去のメタデータ及び関連付けられた過去の時系列データを参照して,その時点以降に発生したデータの変化やイベントを予兆として検出して出力する,
    ことを特徴とする監視対象システムの障害等の予兆を検出する監視方法。
  5. 請求項4において,
    前記過去のメタデータとして,障害時における保守者が対応すべき操作内容を関連付けて保持し,障害の予兆が出力される時に前記保持された操作内容を出力することを特徴とする監視対象システムの障害等の予兆を検出する監視方法。
JP2008144062A 2008-06-02 2008-06-02 監視対象システムの障害等の予兆を検出する監視装置及び監視方法 Expired - Fee Related JP5098821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008144062A JP5098821B2 (ja) 2008-06-02 2008-06-02 監視対象システムの障害等の予兆を検出する監視装置及び監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008144062A JP5098821B2 (ja) 2008-06-02 2008-06-02 監視対象システムの障害等の予兆を検出する監視装置及び監視方法

Publications (2)

Publication Number Publication Date
JP2009289221A JP2009289221A (ja) 2009-12-10
JP5098821B2 true JP5098821B2 (ja) 2012-12-12

Family

ID=41458343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008144062A Expired - Fee Related JP5098821B2 (ja) 2008-06-02 2008-06-02 監視対象システムの障害等の予兆を検出する監視装置及び監視方法

Country Status (1)

Country Link
JP (1) JP5098821B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012053140A1 (ja) * 2010-10-20 2012-04-26 日本電気株式会社 サービス管理装置、表示方法およびプログラム
WO2012067031A1 (ja) 2010-11-17 2012-05-24 日本電気株式会社 違反予兆条件設定支援システム、違反予兆条件設定支援方法および違反予兆条件設定支援プログラム
JP5598293B2 (ja) 2010-12-06 2014-10-01 富士ゼロックス株式会社 画像形成システム、予測基準設定装置、予測装置、画像形成装置及びプログラム
WO2013186870A1 (ja) * 2012-06-13 2013-12-19 株式会社日立製作所 サービス監視システム、及び、サービス監視方法
JP2014010538A (ja) * 2012-06-28 2014-01-20 Nec Corp 運用管理装置、運用管理システム及び運用管理方法
JP6025574B2 (ja) * 2013-01-08 2016-11-16 株式会社日立製作所 モニタリングシステム、及び計算機
WO2014145153A2 (en) * 2013-03-15 2014-09-18 Neeley John Automatic recording and graphing of measurement data
JP6311329B2 (ja) * 2014-01-29 2018-04-18 日本電気株式会社 情報処理装置、監視方法、及び、プログラム
US20160147204A1 (en) * 2014-11-26 2016-05-26 General Electric Company Methods and systems for enhancing control of power plant generating units
KR101775478B1 (ko) * 2017-05-04 2017-09-06 국방과학연구소 발사절차 또는 점검절차 과정에서 특이점 행렬을 이용한 데이터 비정상 오류 검출 방법
US11411850B2 (en) * 2018-03-14 2022-08-09 Nec Corporation Traffic analysis apparatus, method, and program
JP6999936B2 (ja) * 2018-03-22 2022-01-19 株式会社国際電気通信基礎技術研究所 無線状況予測装置、無線状況予測方法、および、プログラム
JP6906477B2 (ja) * 2018-05-22 2021-07-21 株式会社日立製作所 データ処理装置およびデータ処理方法
CN109002261B (zh) * 2018-07-11 2022-03-22 佛山市云端容灾信息技术有限公司 差异区块大数据分析方法、装置、存储介质及服务器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049219A (ja) * 1996-08-02 1998-02-20 Mitsubishi Electric Corp 障害発生回避装置
JP2001028628A (ja) * 1999-07-14 2001-01-30 Nec Commun Syst Ltd 指定日時を用いたトラヒック規制制御方法及びトラヒック規制制御装置
JP2005523526A (ja) * 2002-04-19 2005-08-04 コンピュータ アソシエイツ シンク,インコーポレイテッド システム内の進化的変化を発見するための方法及び装置
JP4412031B2 (ja) * 2004-03-31 2010-02-10 日本電気株式会社 ネットワーク監視システム及びその方法、プログラム

Also Published As

Publication number Publication date
JP2009289221A (ja) 2009-12-10

Similar Documents

Publication Publication Date Title
JP5098821B2 (ja) 監視対象システムの障害等の予兆を検出する監視装置及び監視方法
TWI632443B (zh) 異常資料的重要度判定裝置以及異常資料的重要度判定方法
JP5375829B2 (ja) 運用管理装置、運用管理方法、および運用管理プログラム
CN111010291B (zh) 业务流程异常告警方法、装置、电子设备及存储介质
EP2950177A1 (en) Asset condition monitoring
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
JP4892367B2 (ja) 異常兆候検出システム
JPWO2016132717A1 (ja) アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム
AU2019275633B2 (en) System and method of automated fault correction in a network environment
JP5704234B2 (ja) メッセージ判定装置およびメッセージ判定プログラム
CN106953766B (zh) 一种报警方法及装置
CN106104530B (zh) 自动化处理自动化系统的多个协议数据的方法
US20210224383A1 (en) Abnormality detection device
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
JP2009217382A (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
CN110727533A (zh) 一种告警的方法、装置、设备和介质
EP3187950B1 (en) A method for managing alarms in a control system
CN108039971A (zh) 一种告警方法及装置
CN107463963A (zh) 一种故障分类方法及装置
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN114676791A (zh) 一种基于模糊证据推理的电力系统告警信息处理方法
KR20190135923A (ko) 설비 관리 방법 및 이를 실행하는 장치
JP2018205992A (ja) 機器診断システム
US20210027254A1 (en) Maintenance management apparatus, system, method, and non-transitory computer readable medium
CN104346246B (zh) 故障预测方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees