JP5716472B2 - 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム - Google Patents

障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム Download PDF

Info

Publication number
JP5716472B2
JP5716472B2 JP2011061632A JP2011061632A JP5716472B2 JP 5716472 B2 JP5716472 B2 JP 5716472B2 JP 2011061632 A JP2011061632 A JP 2011061632A JP 2011061632 A JP2011061632 A JP 2011061632A JP 5716472 B2 JP5716472 B2 JP 5716472B2
Authority
JP
Japan
Prior art keywords
information
failure
operation information
failure prediction
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011061632A
Other languages
English (en)
Other versions
JP2012198693A (ja
Inventor
裕明 半田
裕明 半田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2011061632A priority Critical patent/JP5716472B2/ja
Publication of JP2012198693A publication Critical patent/JP2012198693A/ja
Application granted granted Critical
Publication of JP5716472B2 publication Critical patent/JP5716472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、障害予測対象システムの稼働情報が格納された稼働情報データベースと接続された障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラムに関する。
市場に出回っている様々なシステムにおいて故障等の障害が発生した場合に、障害の内容によっては長期間に渡りシステムが使用できなくなりユーザに不便を強いる虞がある。このため各種システムにおいて障害の発生を事前に予測し、障害発生前に対処することが望まれている。そこで従来では、障害を予測するための種々の技術が開示されている。
図1は、従来の障害予測を説明する図である。従来のシステムでは、インターネットを介して接続されたシステムを構成する多数の障害予測対象機器の稼働状況を管理している。図1の例では、管理サーバは負荷分散機を経由して障害予測対象機器の稼働状況を示す稼働情報を定期的に収集し、データベースに格納する。そしてデータベース内の稼働情報と、予め設定された障害予測閾値とを比較し、障害の予兆を示す稼働情報があるか否かを判断している。障害予測閾値とは、予め設定された既知の値であり、障害予測対象のシステムにおいて過去に発生した障害に基づき設定される値である。
また例えば特許文献1には、予測有用情報について、過去の挙動に対して特異に動きをしているか否かを判定した結果に基づき、障害予測を行うことが開示されている。
上記従来の技術では、既知の情報を使用して障害予測値を設定するため、既知の情報が不足している場合には精度の良い障害予測を行うことが困難である。また上記従来の技術では、膨大な量の障害予測閾値を設定しなければならず、設定作業に多大な労力が必要となる。
本発明は、上記事情を鑑みてこれを解決すべく成されたものであり、簡単に適切な障害予測を行うことが可能な障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラムを提供することを目的としている。
本発明は、上記目的を達成するために以下の如き構成を採用した。
本発明は、障害予測対象システムの稼働情報が格納された稼働情報データベースと接続された障害予測サーバであって、前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段と、前記稼働情報データベースに格納された最も新しい稼働情報を取得する最新稼働情報取得手段と、前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出手段と、前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成手段と、を有する。
また本発明の障害予測サーバは、前記抽出された稼働情報における前記所定項目の値に対する前記差分の割合を算出し、前記割合と前記閾値とを比較する情報比較手段を有し、前記通知情報作成手段は、前記割合が前記閾値を上回るとき、前記通知情報を作成する。
また本発明の障害予測サーバは、前記障害予測対象システムにおいて過去に発生した障害の内容を示す障害情報が格納された障害情報データベースと接続されており、前記通知情報作成手段は、前記情報抽出手段により抽出された前記稼働情報に、過去に障害があったことを示す障害実績フラグが含まれていたとき、前記障害実績フラグと対応した前記障害情報の内容を前記通知情報に含める。
また本発明の障害予測サーバにおいて、前記記憶手段には、前記障害予測対象システムの状態を示す状態情報が格納されており、前記状態情報に基づき前記閾値を補正する閾値補正手段を有する。
また本発明の障害予測サーバにおいて、前記通知情報作成手段は、前記通知情報を当該障害予測サーバの管理用端末へ送信する電子メールとして作成する。
本発明は、障害予測対象システムの稼働情報が格納された稼働情報データベースと、前記障害予測対象システムの障害予測に関する通知情報を作成する障害予測サーバとを有する障害予測システムであって、前記障害予測サーバは、前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段と、前記稼働情報データベースに格納された最も新しい稼働情報を取得する最新稼働情報取得手段と、前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出手段と、前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成手段と、を有する。
本発明は、障害予測対象システムの稼働情報が格納された稼働情報データベースと接続されており、前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段を有する障害予測サーバによる障害予測方法であって、前記稼働情報データベースに格納された最も新しい稼働情報を取得する最新稼働情報取得手順と、前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出手順と、前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成手順と、を有する。
本発明は、障害予測対象システムの稼働情報が格納された稼働情報データベースと接続されており、前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段を有する障害予測サーバにおいて実行される障害予測プログラムであって、前記障害予測サーバに、前記稼働情報データベースに格納された最も新しい最新稼働情報を取得する最新稼働情報取得ステップと、前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出ステップと、前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成ステップと、を実行させる。
本発明によれば、簡単に適切な障害予測を行うことができる。
従来の障害予測を説明する図である。 第一の実施形態の障害予測システムのシステム構成の一例を示す図である。 第一の実施形態の障害予測サーバのハードウェア構成の一例を示す図である。 第一の実施形態の障害予測サーバの機能構成の一例を示す図である。 第一の実施形態の稼働情報データベースを説明する図である。 第一の実施形態の障害情報データベースを説明する図である。 第一の実施形態の項目情報の一例を示す図である。 第一の実施形態の乖離度テーブルを説明する図である。 第一の実施形態の障害予測サーバの動作を説明するフローチャートである。 第一の実施形態の比較用稼働情報の例を示す図である。 第二の実施形態の障害予測サーバの機能構成を示す図である。 第二の実施形態のシステム状態情報を説明する図である。 第二の実施形態の障害予測サーバの動作を説明するフローチャートである。 第二の実施形態の通知情報の例を示す図である。
(第一の実施形態)
以下に図面を参照して本発明の第一の実施形態について説明する。図2は、第一の実施形態の障害予測システムのシステム構成の一例を示す図である。
本実施例の障害予測システム100は機器管理システム200と接続されている。機器管理システム200は、管理対象機器300を管理するためのシステムである。管理対象機器300は、例えば複数の画像形成装置等を含んでおり、ネットワークを介して管理システム200と接続されている。尚本実施形態では、ネットワークは公共のインターネットでも良いし、LAN(Local Area Network)であっても良い。
機器管理システム200は、負荷分散機210、管理サーバ220、データベース230を有し、管理対象機器300の稼働状況を示す稼働情報を収集する。尚本実施形態の管理サーバ220は、複数の管理サーバ220A〜220Nを含む。本実施形態において管理サーバ220A〜220Nの数は任意であって良い。本実施形態の負荷分散機210は、管理サーバ220A〜220Nによる管理対象機器300の管理の負荷を分散させるものである。管理サーバ220A〜220Nは、それぞれが接続された管理対象機器300の稼働情報を収集し、データベース230へ格納する。データベース230には、管理サーバ220A〜220Nにより収集された稼働情報が格納されている。
本実施形態の障害予測システム100は、障害予測サーバ110、稼働情報データベース120、障害情報データベース130を有する。障害予測システム100では、データベース230に格納された稼働情報に基づき、機器管理システム200の障害を予測する。
以下に本実施形態の障害予測サーバ110について説明する。図3は、第一の実施形態の障害予測サーバのハードウェア構成の一例を示す図である。
障害予測サーバ110では、入力装置11、表示装置12、主記憶装置13、CPU14、インターフェース装置15、補助記憶装置16及びドライバ装置17がバスBで相互に接続されている。
バスBで相互に接続されている入力装置11、表示装置12、主記憶装置13、CPU14、インターフェース装置15、補助記憶装置16及びドライバ装置17は、CPU14による管理下で相互にデータの送受を行うことができる。CPU14は、障害予測サーバ110全体の動作制御を司る中央処理装置である。
インターフェース装置15は他のサーバからのデータを受信し、そのデータの内容をCPU14に渡す。さらに、インターフェース装置15はCPU14からの指示に応じて他の障害予測サーバにデータを送信する。
補助記憶装置16には、障害予測サーバ110の機能を発揮させるプログラムの一部として、少なくとも障害予測サーバ110に障害予測を実行させる障害予測プログラムが記憶されている。
そして障害予測サーバ110は、CPU14が障害予測プログラムを補助記憶装置16から読み出して実行することで、障害予測機能を有する装置となる。障害予測プログラムはCPU14とアクセス可能な主記憶装置13に格納されていても良い。入力装置11はCPU14の管理下でデータの入力を受付ける。障害予測プログラムは障害予測サーバ110が読み取り可能な記録媒体18に記録しておくことができる。
障害予測サーバ110で読み取り可能な記録媒体18には、磁気記録媒体、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録媒体には、HDD(Hard Disk Drive)、フレキシブルディスク(FD)、磁気テープ(MT)などがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc − Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。また、光磁気記録媒体には、MO(Magneto − Optical disk)などがある。障害予測プログラムを流通させる場合には、例えば障害予測プログラムが記録されたDVD、CD−ROM等の可搬型の記録媒体18を販売することが考えられる。
そして障害予測プログラムを実行する障害予測サーバ110は、例えばドライバ装置17が障害予測プログラムを記録した記録媒体18から、障害予測プログラムを読み出す。CPU14は、読み出された障害予測プログラムを主記憶装置13若しくは補助記憶装置16に格納する。
そして障害予測サーバ110は、自己の記憶装置である主記憶装置13若しくは補助記憶装置16から障害予測プログラムを読み取り、障害予測プログラムに従った処理を実行する。
図4は、第一の実施形態の障害予測サーバの機能構成の一例を示す図である。本実施形態の障害予測サーバ110は、管理サーバ220A〜220Nが収集してデータベース230へ格納した稼働情報を監視し、障害の予兆を示す稼働情報がないか否かを判断する。
本実施形態の障害予測サーバ110は、稼働情報収集部111、稼働情報蓄積部112、比較対象情報取得部113、情報抽出部114、情報比較部115、フラグ管理部116、障害情報管理部117、通知情報作成部118、記憶部140を有し、稼働情報データベース120と障害情報データベース130とに接続されている。
本実施形態の稼働情報収集部111は、データベース230から定期的に稼働情報を収集する。稼働情報蓄積部112は、収集された稼働情報を稼働情報データベース120へ
蓄積する。本実施形態の稼働情報蓄積部112は、収集した稼働情報を管理サーバ220A〜220N毎に稼働情報データベース120へ格納する。
以下に図5を参照して本実施形態の稼働情報データベース120について説明する。図5は、第一の実施形態の稼働情報データベースを説明する図である。
本実施形態の稼働情報データベース120には、データベース230から稼働情報収集部111が収集した稼働情報121が格納されている。稼働情報121は、機器管理システム200の有する管理サーバ毎に設けられた情報である。すなわち稼働情報データベース120には、機器管理システム200の有する各管理サーバに対応した稼働情報121が格納されている。
図5に示す稼働情報121は、例えば管理サーバ220Aに対応した稼働情報として説明する。管理サーバ220Aでは、稼働情報における監視項目として所定間隔毎にCPU処理時間が取得される。稼働情報121には、データベース230にCPU処理時間が格納された日時、曜日、CPU処理時間、障害実績フラグの有無が含まれる。障害実績フラグとは、この監視項目に関連する障害が過去に発生したか否かを示す。
尚図5では稼働情報の監視項目をCPU処理時間としたが、例えば管理サーバ220Bについてはメモリ使用量を稼働情報の監視項目として所定間隔毎に取得しデータベース230へ格納しても良い。また稼働情報の監視項目は、上記以外にも、例えばイベント毎の待ち時間、入出力されるデータ量等であっても良い。また本実施形態の障害予測サーバ110は、管理サーバ220A〜220Nの処理の内容に対応させて、稼働情報の監視項目を設定可能であっても良い。
最新稼働情報取得部113は、稼働情報データベース120に格納された各管理サーバの稼働情報121において、最も新しい最新稼働情報を取得する。情報抽出部114は、後述する項目情報141に基づき、最新稼働情報取得部113により取得された最新稼働情報との比較するための比較用稼働情報を抽出する。
情報比較部115は、最新稼働情報と比較用稼働情報との差分と後述する乖離度とに基づき、最新稼働情報に障害の兆しがあるか否かを判断する。本実施形態の乖離度とは、稼働情報が障害の予兆を示しているか否かの判断に用いる閾値である。情報比較部115の処理の詳細は後述する。
フラグ管理部116は、障害実績フラグの管理を行う。障害実績フラグの管理の詳細は後述する。障害情報管理部117は、障害情報データベース130の障害情報131を管理する。
以下に図6を参照して本実施形態の障害情報データベース130について説明する。図6は、第一の実施形態の障害情報データベースを説明する図である。
本実施形態の障害情報データベース130には、障害情報131が格納されている。本実施形態の障害情報131は、管理対象機器300や管理サーバ220A〜220Nにおいて故障が発生したと判断されたときに取得される情報である。本実施形態では、例えばデータベース230に格納された稼働情報のうち、故障と判断された際の稼働情報の一部に障害の内容等を付加した情報を障害情報131としても良い。図6の例では、障害情報131が障害情報データベース130へ格納された日時、曜日、障害が発生したときの日時、障害の種類、予兆がでていた部分、障害発生時間等が障害情報131に含まれる。障害発生時間とは、予兆がでてから障害が発生するまでの時間を含んでいる。
通知情報作成部118は、障害の予兆と判断される稼働情報が稼働情報データベース120に存在する場合に、障害予測サーバ110の管理者へ障害予測に関する通知情報を作成する。この通知情報は、例えば電子メール等により管理者の使用する端末へ送信されても良いし、障害予測サーバ110の表示装置12等に表示されても良い。
記憶部140は、本実施形態の主記憶装置13及び/又は補助記憶装置16により構成されており、項目情報141、乖離度テーブル142が格納されている。以下に図7〜図9を参照して項目情報141、乖離度テーブル142について説明する。
図7は、第一の実施形態の項目情報の一例を示す図である。本実施形態の項目情報141は、情報抽出部114が稼働情報データベース130から最新稼働情報と比較する比較用稼働情報を抽出する際に参照する情報である。本実施形態の情報抽出部114は、項目情報141を参照し、項目情報141に示す項目の情報が最新稼働情報と一致している稼働情報を抽出する。図7に示す項目情報141では、項目1として日付と時間、項目2として時間と曜日が設定されている。
このように項目情報141を日付、時間、曜日等に設定すると、例えば特定の処理を行う日付や曜日が管理サーバ220に決められていた場合に、特定の処理による負荷の増大を障害の予兆と誤判断することを回避できる。例えば管理対象機器300が画像形成装置であり、管理サーバ220Aが毎月1日に管理サーバ220Aに接続された全ての管理対象機器300の出力カウンタ値を集計する場合等には、管理サーバ220AのCPU処理時間は毎月1日だけ長くなることが予測される。本実施形態では、項目情報141に特定の処理を実行する日付、時間、曜日を設定することで、同じ条件での管理サーバ220AのCPU処理時間を比較することができる。
図8は、第一の実施形態の乖離度テーブルを説明する図である。本実施形態の乖離度テーブル142は、稼働情報において監視項目とされた情報毎の乖離度が設定されたテーブルである。乖離度とは、最新稼働情報が障害の予兆を示すものか否かを判断する際に用いられる閾値である。本実施形態の乖離度テーブル142には、監視項目としてCPU処理時間、メモリ使用量等が含まれており、監視項目毎に乖離度が設定されている。
尚本実施形態の乖離度テーブル142には、乖離度による障害予兆の判断が不可能であった場合に、障害予兆の判断に用いる判断閾値が設定されていても良い。この判断閾値は、既知の障害情報から求められた値であっても良い。
次に、本実施形態の障害予測サーバ110の動作について説明する。図9は、第一の実施形態の障害予測サーバの動作を説明するフローチャートである。尚以下の図9で説明する処理は、管理サーバ220A〜220N毎に各管理サーバに対応する稼働情報121に対して実行される。
本実施形態の障害予測サーバ110において、最新稼働情報取得部113は、稼働情報データベース120から最新稼働情報を取得する(ステップS901)。最新稼働情報とは、稼働情報データベース120に最後に蓄積された稼働情報である。
続いて障害予測サーバ110は、情報抽出部114により、最新稼働情報と比較する比較用稼働情報を抽出する(ステップS902)。具体的には情報抽出部114は、記憶部140の項目情報141を参照し、稼働情報121において項目情報141に設定された項目の値が最新稼働情報と同様の稼働情報を比較用稼働情報として抽出する。
続いて障害予測サーバ110は、抽出された比較用稼働情報が存在する場合(ステップS903)、情報比較部114により最新稼働情報の監視項目の値と比較用稼働情報の監視項目の値とを比較する(ステップS904)。具体的には情報比較部115は、乖離度テーブル142を参照し、最新稼働情報の監視項目の値と比較用稼働情報の監視項目の値との差分と、乖離度テーブル142に設定された乖離度とを比較する。
差分が乖離度テーブル142に設定された乖離度を上回るとき(ステップS905)、通知情報作成部118は、最新稼働情報の監視項目の値と比較用稼働情報の監視項目の値を含む通知情報を作成する(ステップS906)。ステップS905において差分が乖離度以下である場合、後述するステップS907へ進む。
続いて障害予測サーバ110は、フラグ管理部116により比較用稼働情報の障害実績フラグの有無を判断する(ステップS907)。ステップS907において比較用稼働情報に障害実績フラグが立っている場合、通知情報作成部118は、比較用稼働情報に含まれる障害発生時間をステップS906で作成した通知情報に加える(ステップS908)。ステップS908において障害実績フラグが立っていない場合、後述するステップS909へ進む。障害予測サーバ110は、ステップS904〜ステップS908の処理をステップS903で抽出された比較用稼働情報の数だけ繰り返す。
障害予測サーバ110は、通知情報作成部118により作成された通知情報を送信する(ステップS909)。尚本実施形態の通知情報は、障害予測サーバ110の管理者が使用する個人の端末へ電子メール等により送信されても良い。
またステップS903において比較用稼働情報が存在しない場合、障害予測サーバ110は、情報比較部115により、乖離度テーブル142に設定された判断閾値と、最新稼働情報の監視項目の値とを比較し、監視項目の値が判断閾値を上回っているか否かを判断する。そして監視項目の値が判断閾値を上回っている場合に、監視項目の値と判断閾値とを通知情報とする(ステップS910)。
以下に、管理サーバ220Aについて図9の処理を行った場合について具体的に説明する。本実施形態の管理サーバ220Aの稼働情報121では、監視項目はCPU処理時間である。
そこで最新稼働情報取得部113は、図5に示す稼働情報121から最新の稼働情報を取得する。図5の稼働情報121では、最新稼働情報はレコード1である。
次に情報抽出部114は、稼働情報121から図7に示す項目情報141に基づき比較用稼働情報を抽出する。本実施形態では、項目情報141に設定された項目1及び項目2の両方がレコード1と一致する稼働情報を比較用稼働情報として抽出する。よって稼働情報121から抽出される比較用稼働情報は、日付が1日であり且つ時間が10時である稼働情報と、時間が10時であり且つ曜日が水曜日である稼働情報である。
ここで抽出された比較用稼働情報を図10に示す。図10は、第一の実施形態の比較用稼働情報の例を示す図である。図10では、抽出された比較用稼働情報をレコード10、レコード11とした。続いて情報比較部115は、レコード1のCPU処理時間とレコード10のCPU処理時間との差分を乖離度テーブル142に設定されたCPU処理時間に対応する値と比較する。本実施形態では、乖離度を比較用稼働情報の監視項目の値に対する差分の割合をパーセンテージで示す。尚乖離度は、パーセンテージ以外の値で示されても良い。
レコード1のCPU処理時間は784510.1時間であり、レコード10のCPU処理時間は774510.1時間であるから、差分は10000時間である。この差分は、レコード10のCPU処理時間の約1.3%である。図8に示す乖離度テーブル142に設定されたCPU処理時間の乖離度は5%であるから、通知情報作成部118は、レコード1の通知情報として、レコード1とレコード10のCPU処理時間を含む情報を作成する。このときレコード10の障害実績フラグは立っていないため、通知情報に障害発生時間は含まれない。
障害予測サーバ110は、レコード11についても同様の処理を行い、その結果作成された通知情報を障害予測サーバ110の管理者へ送信する。
以上に説明したように、本実施形態の障害予測サーバ110によれば、蓄積された過去の稼働情報から最新稼働情報と所定の項目の値が一致する比較用稼働情報を抽出し、最新稼働情報と比較用稼働情報とを比較した結果を管理者へ通知する。よって本実施形態によれば、既知の情報を使用して膨大な量の障害予測閾値を設定する必要がなく、簡単に適切な障害予測へ貢献することができる。
尚本実施形態では、稼働情報データベース120と障害情報データベース130とが障害予測サーバ110の外部に設けられた構成としたが、これらのデータベースは障害予測サーバ110の内部に設けられていても良い。
(第二の実施形態)
以下に図面を参照して本発明の第二の実施形態について説明する。本発明の第二の実施形態では、乖離度を障害予測対象のシステムの状態に基づき補正する点で第一の実施形態と相違する。よって以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには第一の実施形態の説明で用いた符号と同様の符号を付与し、説明を省略する。
図11は、第二の実施形態の障害予測サーバの機能構成を示す図である。本実施形態の障害予測サーバ110Aは、乖離度補正部119と記憶部140Aとを有する。
乖離度補正部119は、記憶部140Aに格納されたシステム状態情報143に基づき乖離度テーブル142の乖離度を補正する。
以下に本実施形態のシステム状態情報143について説明する。図12は、第二の実施形態のシステム状態情報を説明する図である。本実施形態のシステム状態情報143は、乖離度補正部119による乖離度の補正の際等に参照される情報である。本実施形態のシステム状態情報143は、傾向情報1431、抽出対象期間1432、項目情報候補1433を含む。傾向情報1431は、管理対象機器300の台数の増減の傾向を示す。具体的には傾向情報1431は、例えば管理対象機器300から管理サーバ220へのリクエストの回数やトランザクション等を含む。
抽出対象期間1432は、比較用稼働情報の抽出対象となる稼働情報が取得された期間を示す。例えば抽出対象期間1432が1年間であった場合、情報抽出部114は、最新稼働情報の取得時から1年前までに取得された稼働情報から比較用稼働情報を抽出する。
項目情報候補1433は、項目情報141を設定するための情報である。本実施形態では、項目候補情報1433から選択された項目が項目情報141として設定されても良い。尚本実施形態のシステム状態情報143は、管理サーバ220A〜220N毎に設けられていても良い。
以下に図13を参照して本実施形態の障害予測サーバ110Aの動作の詳細を説明する。図13は、第二の実施形態の障害予測サーバの動作を説明するフローチャートである。
本実施形態の障害予測サーバ110Aは、稼働情報収集部111によりデータベース230から管理サーバ220A〜220N全ての稼働情報を収集し、稼働情報蓄積部112により稼働情報を稼働情報データベース120へ蓄積する(ステップS1301)。続いて稼働情報収集部111は、ある一台の管理サーバの稼働情報121とシステム状態情報143を取得する(ステップS1302)。ここでは管理サーバ220Aの稼働情報121とシステム状態情報143を取得するものとした。
続いて最新稼働情報取得部113は、ステップS1302で取得した稼働情報121から最新稼働情報を取得する(ステップS1303)。続いて情報抽出部114は、システム状態情報143の項目情報候補1433により項目情報141を設定し、項目情報141が一致する稼働情報を抽出対象期間内の稼働情報から抽出する(ステップS1304)。以下の説明では、抽出された比較用稼働情報に複数のレコードを含むものとする。
ステップS1304において該当する稼働情報が存在する場合(ステップS1305)、後述するステップS1306へ進む。またステップS1305において該当する稼働情報が存在しない場合、後述するステップS1323へ進む。
ステップS1305において該当する稼働情報が存在する場合、乖離度補正部119は、システム状態情報143の傾向情報1431に基づき乖離度を補正する。また情報比較部115は、比較稼働情報の監視項目の値と最新稼働情報の監視項目の値との差分を取得する(ステップS1306)。例えばサーバ220Aの監視項目はCPU処理時間であり、乖離度テーブル142に設定された乖離度は5%である。
ここで例えば傾向情報1431がサーバ220Aに接続される管理対象機器300が増加傾向にあることを示している場合、乖離度補正部119は、乖離度の値を大きくするように乖離度を補正する。このように乖離度を補正することで、例えばサーバ220Aへ接続された管理対象機器300の台数の相違によるCPU処理時間の増加に対応して、障害予測を行うことができる。尚乖離度補正部119は、例えばメモリ使用量に対応する乖離度の補正等も行う。
続いて比較用稼働情報に含まれるレコードに障害実績フラグが立っているか否かを判断する(ステップS1307)。ステップS1307において障害実績フラグが立っている場合、情報比較部115は差分が乖離度以下か否かを判断する(ステップS1308)。尚ここでの乖離度は、乖離度補正部119による補正後の乖離度である。ステップS1308において差分が乖離度以下であった場合、通知情報作成部118は、最新稼働情報と比較用稼働情報それぞれの監視項目の値を通知情報に含める。また通知情報作成部118は、障害実績フラグ有りを示す情報も通知情報へ含める(ステップS1309)。尚本実施形態では、障害実績フラグと共に障害発生時間も稼働情報に含まれているものとした。
ステップS1308において差分が乖離度以下でない場合、後述するステップS1312へ進む。
ステップS1307において障害実績フラグが立っていない場合、情報比較部115は差分が乖離度を上回るか否かを判断する(ステップS1310)。ステップS1310において差分が乖離度を上回る場合、通知情報作成部118は、最新稼働情報と比較用稼働情報それぞれの監視項目の値を通知情報に含め、通知情報を作成する(ステップS1311)。
ステップS1310において差分が乖離度以下の場合、情報比較部115は、最新稼働情報と比較用稼働情報のそれぞれにおいて比較すべき監視項目が存在するか否かを判断する(ステップS1312)。ステップS1312において該当する監視項目が存在する場合、ステップS1307へ戻る。
ステップS1312において該当する監視項目が存在しない場合、情報比較部115は、ステップS1306〜ステップS1312までの処理を行っていないレコードが存在するか否かを判断する(ステップS1313)。ステップS1313において該当するレコードが存在する場合、ステップS1306へ戻る。ステップS1313において該当するレコードが存在しない場合、情報比較部115は、全ての管理サーバに対応する稼働情報121に対してステップS1303以降の処理を実行したか否かを判断する(ステップS1314)。
ステップS1314において処理を実行していない管理サーバに対応する稼働情報が存在する場合、ステップS1302へ戻る。ステップS1314において処理を実行していない管理サーバに対応する稼働情報が存在しない場合、フラグ管理部116は、障害実績フラグ有りを示す情報が含まれる通知情報が存在するか否かを判断する(ステップS1315)。
ステップS1315において障害実績フラグ有りの通知情報が存在する場合、通知情報作成部118は、通知情報のタイトルを「障害予報」とする。また通知情報作成部118は、障害実績フラグと対応付けられた障害が発生するまでに係る障害発生時間を通知情報に追記し、通知情報を送信する(ステップS1316)。
ステップS1315において障害実績フラグ有りの通知情報が存在しない場合、通知情報作成部118は通知情報が作成されたか否かを判断する(ステップS1317)。ステップS1317において通知情報が作成されていた場合、通知情報作成部118は、通知情報のタイトルを「障害予兆」とし、通知情報を送信する(ステップS1318)。
ステップS1317において通知情報が作成されていない場合、障害情報管理部117は障害情報データベース130へアクセスする(ステップS1319)。続いて障害情報管理部117は、障害情報131に含まれる登録日時から、新たに追加された障害情報が存在するか否かを判断する(ステップS1320)。ここで新たに追加された障害情報とは、前回最新稼働情報を取得してから次に最新稼働情報を取得するまでの間に追加された障害情報である。例えば本実施形態の障害予測サーバ110Aが1時間毎に最新稼働情報を取得する場合、障害情報管理部117は、過去1時間以内に追加された障害情報を新たに追加された障害情報とする。
ステップS1320において新たに追加された障害情報が存在する場合、フラグ管理部116は、稼働情報データベース120にアクセスし、障害情報に含まれる障害発生日時よりも障害発生時間前までのレコードを抽出する(ステップS1321)。続いてフラグ管理部116は、抽出されたレコードに障害実績フラグを立てる(ステップS1322)。
ステップS1321とステップS1322の処理について、図6に示す障害情報131において新たに追加された障害情報がレコード31であった場合を例として説明する。
レコード31における障害発生日時は、2010年1月1日8時である。またレコード31における障害発生時間は72時間である。障害発生時間とは、障害の予兆が出始めてから実際に障害が発生するまでの時間である。
そこでフラグ管理部116は、稼働情報121から障害発生日時の2010年1月1日8時より72時間前までのレコードを抽出する。すなわちフラグ管理部116は、稼働時データベース120に収集された日時が2009年12月29日8時から2010年1月1日8時までのレコードを抽出する。そして抽出されたレコードに障害実績フラグを立て、逆算した障害発生時間を追記する。
具体的には例えば、2009年12月29日8時に取得されたレコードには、障害実績フラグと共に障害発生時間として72時間が追記される。また2009年12月30日8時に取得されたレコードには、障害実績フラグと共に障害発生時間として48時間が追記される。尚本実施形態では、このとき稼働情報121の各レコードには、障害情報131のどの障害により障害実績フラグが立てられたかを識別するための識別情報が含まれることが好ましい。
またステップS1305において、該当する稼働情報が存在しない場合、情報比較部115は監視項目の値が乖離度テーブル142に設定された判断閾値を上回るか否かを判断する(ステップS1323)。ステップS1323において判断閾値を上回っている場合、通知情報作成部118は通知情報を作成し(ステップS1324)、ステップS1325へ進む。このとき通知情報作成部118は、監視項目の名称、判断閾値、監視項目の値を通知情報に含める。
ステップS1323において監視項目の値が判断閾値以下であった場合、情報比較部115は比較すべき監視項目が存在するか否かを判断する(ステップS1325)。ステップS1325において該当する監視項目が存在する場合、ステップS1323へ戻る。ステップS1325において該当する監視項目が存在しない場合、通知情報作成部118は通知情報が作成されたか否かを判断する(ステップS1326)。ステップS1326の処理はステップS1317と同様であるから説明を省略する。
以下に本実施形態の通知情報について説明する。図14は、第二の実施形態の通知情報の例を示す図である。
図14は、電子メールで送信する場合の通知情報を示している。図14の通知情報40では、電子メールの件名が入力されるエリア21、通知内容が入力されるエリア22、23を有する。エリア21、23は、電子メールの本文入力欄に設けられている。
本実施形態では、例えば通知情報40に障害実績フラグ有りの情報が含まれる場合はエリア21に障害予報と入力され、通知情報40に障害実績フラグがない場合はエリア21に障害予兆と入力されても良い。またエリア22には、例えば通知情報40に障害実績フラグ有りの情報が含まれる場合に、障害情報に基づく障害の内容を示す情報が入力されても良い。
またエリア23には、例えば最新稼働情報の監視項目の値と、比較用稼働情報の監視項目の値とが入力されても良い。またエリア24には、通知情報40に障害実績フラグ有りの情報が含まれる場合に、障害実績フラグに対応する障害情報の内容が入力されても良い。
以上にように本実施形態では、管理サーバ220A〜220Nに対する管理対象機器
300の接続状態等に応じて障害の予兆か否かを判断するための乖離度を補正する。このため本実施形態では、機器管理システム200の状態に応じて障害予測を行うことができる。
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
100 障害予測システム
110 障害予測サーバ
120 稼働情報データベース
130 障害情報データベース
140 記憶部
141 項目情報
142 乖離度テーブル
200 管理システム
220A〜220N 管理サーバ
300 管理対象機器
特開2010−101948号公報

Claims (7)

  1. 障害予測対象システムの稼働情報が格納された稼働情報データベースと接続された障害予測サーバであって、
    前記障害予測対象システムにおいて過去に発生した障害の内容を示す障害情報が格納された障害情報データベースと接続されており、
    前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段と、
    前記稼働情報データベースに格納された最も新しい最新稼働情報を取得する最新稼働情報取得手段と、
    前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出手段と、
    前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成手段と、を有し、
    前記通知情報作成手段は、
    前記情報抽出手段により抽出された前記稼働情報に、過去に障害があったことを示す障害実績フラグが含まれていたとき、前記障害実績フラグと対応した前記障害情報の内容を前記通知情報に含める障害予測サーバ。
  2. 前記抽出された稼働情報における前記所定項目の値に対する前記差分の割合を算出し、前記割合と前記閾値とを比較する情報比較手段を有し、
    前記通知情報作成手段は、
    前記割合が前記閾値を上回るとき、前記通知情報を作成する請求項1記載の障害予測サーバ。
  3. 前記記憶手段には、
    前記障害予測対象システムの状態を示す状態情報が格納されており、
    前記状態情報に基づき前記閾値を補正する閾値補正手段を有する請求項1又は2記載の障害予測サーバ。
  4. 前記通知情報作成手段は、
    前記通知情報を当該障害予測サーバの管理用端末へ送信する電子メールとして作成する請求項1ないしの何れか一項に記載の障害予測サーバ。
  5. 障害予測対象システムの稼働情報が格納された稼働情報データベースと、前記障害予測対象システムの障害予測に関する通知情報を作成する障害予測サーバとを有する障害予測システムであって、
    前記障害予測サーバは、前記障害予測対象システムにおいて過去に発生した障害の内容を示す障害情報が格納された障害情報データベースと接続されており、
    前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段と、
    前記稼働情報データベースに格納された最も新しい最新稼働情報を取得する最新稼働情報取得手段と、
    前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出手段と、
    前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成手段と、を有し、
    前記通知情報作成手段は、
    前記情報抽出手段により抽出された前記稼働情報に、過去に障害があったことを示す障害実績フラグが含まれていたとき、前記障害実績フラグと対応した前記障害情報の内容を前記通知情報に含める障害予測システム。
  6. 障害予測対象システムの稼働情報が格納された稼働情報データベースと、前記障害予測対象システムにおいて過去に発生した障害の内容を示す障害情報が格納された障害情報データベースと接続されており、前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段を有する障害予測サーバによる障害予測方法であって、
    前記稼働情報データベースに格納された最も新しい最新稼働情報を取得する最新稼働情報取得手順と、
    前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出手順と、
    前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成手順と、を有し、
    前記通知情報作成手順において、
    前記情報抽出手順において抽出された前記稼働情報に、過去に障害があったことを示す障害実績フラグが含まれていたとき、前記障害実績フラグと対応した前記障害情報の内容を前記通知情報に含める障害予測方法。
  7. 障害予測対象システムの稼働情報が格納された稼働情報データベースと、前記障害予測対象システムにおいて過去に発生した障害の内容を示す障害情報が格納された障害情報データベースと接続されており、
    前記稼働情報に含まれる情報の項目が設定された項目情報と、前記稼働情報が障害の予兆を示すか否かを判断するために用いる閾値とが格納された記憶手段を有する障害予測サーバにおいて実行される障害予測プログラムであって、
    前記障害予測サーバに、
    前記稼働情報データベースに格納された最も新しい最新稼働情報を取得する最新稼働情報取得ステップと、
    前記項目情報に基づき、前記最新稼働情報と前記項目情報に設定された前記項目の値が等しい稼働情報を前記稼働情報データベースから抽出する情報抽出ステップと、
    前記最新稼働情報における所定項目の値と前記抽出された稼働情報における前記所定項目の値との差分と前記閾値とに基づき、障害予測に関する通知情報を作成する通知情報作成ステップと、を実行させ、
    前記通知情報作成ステップは、
    前記情報抽出ステップにおいて抽出された前記稼働情報に、過去に障害があったことを示す障害実績フラグが含まれていたとき、前記障害実績フラグと対応した前記障害情報の内容を前記通知情報に含める障害予測プログラム。
JP2011061632A 2011-03-18 2011-03-18 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム Active JP5716472B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011061632A JP5716472B2 (ja) 2011-03-18 2011-03-18 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011061632A JP5716472B2 (ja) 2011-03-18 2011-03-18 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム

Publications (2)

Publication Number Publication Date
JP2012198693A JP2012198693A (ja) 2012-10-18
JP5716472B2 true JP5716472B2 (ja) 2015-05-13

Family

ID=47180859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011061632A Active JP5716472B2 (ja) 2011-03-18 2011-03-18 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム

Country Status (1)

Country Link
JP (1) JP5716472B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153736A (ja) * 2013-02-05 2014-08-25 Fujitsu Ltd 障害予兆検出方法、プログラムおよび装置
WO2016067391A1 (ja) * 2014-10-29 2016-05-06 株式会社 東芝 電子機器、システムおよび方法
JP5790891B1 (ja) * 2015-01-27 2015-10-07 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058645A (ja) * 2001-08-09 2003-02-28 Ricoh Co Ltd It環境フルサポートサービス運用システム、該システムの機能を実現するプログラム及び記録媒体
JP4089427B2 (ja) * 2002-12-26 2008-05-28 株式会社日立製作所 管理システム、管理計算機、管理方法及びプログラム
JP2010009313A (ja) * 2008-06-26 2010-01-14 Mitsubishi Electric Corp 障害予兆検知装置
JP5468837B2 (ja) * 2009-07-30 2014-04-09 株式会社日立製作所 異常検出方法、装置、及びプログラム

Also Published As

Publication number Publication date
JP2012198693A (ja) 2012-10-18

Similar Documents

Publication Publication Date Title
JP6055285B2 (ja) データ保全装置およびその方法、システム
US9262260B2 (en) Information processing apparatus, information processing method, and recording medium
US20150370587A1 (en) Computer-readable recording medium having stored therein outputting program, output apparatus and outputting method
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
JP6163931B2 (ja) 情報取得プログラム、情報取得方法および情報取得装置
JP6413537B2 (ja) 障害予兆通報装置および予兆通報方法、予兆通報プログラム
WO2015154517A1 (zh) 一种软件故障的定位方法、装置及设备
JP5888239B2 (ja) サービス管理装置、表示方法およびプログラム
JP5716472B2 (ja) 障害予測サーバ、障害予測システム、障害予測方法及び障害予測プログラム
US20150149623A1 (en) Management system and method for controlling the same
CN111143103A (zh) 一种关联关系确定方法、装置、设备及可读存储介质
Lingrand et al. Optimization of jobs submission on the EGEE production grid: modeling faults using workload
US8037359B2 (en) Operation management system having a process execution apparatus, information management apparatus, and process analyzing apparatus, process analyzing apparatus, recording medium in which process analysis program is recorded, and process analysis method
WO2018163280A1 (ja) 予兆検知装置及び予兆検知方法
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
JP2004348640A (ja) ネットワーク管理システム及びネットワーク管理方法
US9063996B2 (en) Minimizing replication search on failover
JP2006099249A (ja) 障害管理装置および障害管理方法
US20050273349A1 (en) System and method for establishing computer warranty costs
US20170185397A1 (en) Associated information generation device, associated information generation method, and recording medium storing associated information generation program
JP2007041828A (ja) Sla達成状況判定方法
JP2015215739A (ja) 障害切り分けサポートシステムおよび障害対応管理方法
US11909541B1 (en) Management method, management device, and recording medium
US20180046568A1 (en) Systems and Methods for Continuity of Dataflow Operations
US11908023B1 (en) Method and system for generating user interfaces to prompt users to perform an activity in a software application based on transaction time analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150302