JP5380386B2 - 機器情報管理システム及び方法 - Google Patents

機器情報管理システム及び方法 Download PDF

Info

Publication number
JP5380386B2
JP5380386B2 JP2010164617A JP2010164617A JP5380386B2 JP 5380386 B2 JP5380386 B2 JP 5380386B2 JP 2010164617 A JP2010164617 A JP 2010164617A JP 2010164617 A JP2010164617 A JP 2010164617A JP 5380386 B2 JP5380386 B2 JP 5380386B2
Authority
JP
Japan
Prior art keywords
data
electronic device
function
processing unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010164617A
Other languages
English (en)
Other versions
JP2012027635A (ja
Inventor
正裕 本林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2010164617A priority Critical patent/JP5380386B2/ja
Publication of JP2012027635A publication Critical patent/JP2012027635A/ja
Application granted granted Critical
Publication of JP5380386B2 publication Critical patent/JP5380386B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、機器情報管理システム・機器監視システム(電子機器の性能・障害などを監視し情報を管理するシステム)などの技術に関し、特に、対象の複数の電子機器における複数の様々な形式のデータ(機器情報)を比較し、類似の傾向を示すデータなどを抽出し、機器の異常やその原因などを検出する技術に関する。
現在、ITシステム機器など(ネットワークでつながるサーバ等)の各種の電子機器(以下「機器」ともいう)を対象としてその性能や障害などを監視する技術には、様々なものがある。
例えば、特開2000−293411号公報(特許文献1)では、各種障害に関する情報を蓄積したデータベースの中から必要な情報を自動的に収集し、収集したデータを分析し、その分析結果とあらかじめ用意されている評価基準とを比較して評価を行い、その分析・評価の結果を出力することにより、障害の分析やグラフ化などの作業を人手により行わなくても、一連の開発工程の中の任意の段階で分析・評価の処理を自動的に実行することにより、異常の有無を判定し、適切な対策を早期に行えるようにする技術について記載されている。
特開2002−202813号公報(特許文献2)では、製造ライン上で処理中のユニットの障害データをリアルタイムに収集し、収集した障害データを、位置、障害種別、及びユニット別に集計し、集計した位置、障害内容、及びユニット毎のいずれか1つ以上のリストを表示すると共にグラフィカルに表示する技術について記載されている。
特開2007−241426号公報(特許文献3)では、対象となるアプリケーションに追跡ログを出力するための処理を実装し、エラー発生時にアプリケーションが出力した追跡ログをログ分析手段で読み込み、そのエラーが発生するに至った処理経路を示すログと、同様の処理経路を示しているエラー発生時点以前のログとを比較し、呼び出し関係が異なる処理部分を抽出して出力する技術について記載されている。
特開2000−293411号公報 特開2002−202813号公報 特開2007−241426号公報
従来、各種の機器の性能や障害などを監視する技術は、大きくは、(a)閾値監視(閾値比較判定)による手法(コンピュータで処理する一手法)、(b)機器を管理する人(以下「機器管理者」等)のスキルや経験に頼る手法、がある。
(a)の手法は、機器単体の異常を検出することに適するが、別機器の影響により当該機器に異常が発生するケースでは、この手法では異常の原因(影響関係)を発見(特定)することができない。(a)の手法で異常の原因を発見できない場合、(b)の手法を用いる。
(b)の手法で、機器管理者は、異常が検出された機器に原因が見つからない場合、その発生が想像できるケースを経験から導き出し、原因として考えられる全ての機器の状況を調査していく。(b)の手法では、原因確定までに要する時間(比較的時間がかかる)の問題、および、経験による個人差のため画一的なサービス提供が難しいという問題、等がある。また、機器を含むシステムが巨大化するほど、この傾向は顕著となり、原因となる機器が影響を及ぼす範囲(影響範囲)などの特定が困難となる。例えばネットワークでつながる複数のサーバ等の機器がある場合、原因や影響範囲の機器やその機能の特定が困難となる。
従来の手法におけるこれらの欠点を補うために、現在の多くの機器情報管理システム・機器監視システムでは、システム・機器の稼働状況の見える化(可視化)などの機能を備えるようになってきている。しかし、このような機能を用いて、どの機器を見るべきか、さらに機器が持つどの情報を見るべきか等については、依然として見る者(機器管理者など)の経験などに頼らざるを得ない。
以上を鑑み、本発明の主な目的は、機器情報管理システム等に係わり、複数の機器の性能・障害などの監視を一様に行うことができ、また、原因や影響範囲の機器や機能の特定などを容易に行うことができる技術を提供することである。
前記目的を実現するために、本発明は、各々様々な機能を持つ複数の各々の機器(電子機器)のデータ(機器情報)をネットワーク等を通じて収集して管理し、各機器の性能や障害などに係わる状態(稼働状態)を監視する処理などを行うコンピュータシステム(機器情報管理システム・機器監視システム)などの技術であって、複数の機器・機能に関するデータ(機器情報)を抽象化する変換、及び当該抽象化されたデータの比較・判定や推定などの処理を行うことにより、機器・機能における正常/異常などの状態の判定や、異常の原因となる機器・機能や、異常による影響範囲に含まれる機器・機能などの特定などを行い、それらの情報を管理者などに対して出力する手段を有することを特徴とする。
本コンピュータシステムは、例えば、各々様々な機能を持つ複数の電子機器のデータを、ネットワークを通じて収集して管理し、各電子機器の稼働状態を監視する、機器情報管理システムである。各電子機器のデータは、当該電子機器及び機能の違いに応じて、各々異なる形式を持つ場合がある。本機器情報管理システムは、各電子機器から当該電子機器及び当該電子機器が持つ機能に関する第1のデータ(稼働状態に係わる機器情報、各々形式が異なり得る)をネットワークを通じて収集しデータベースに格納する収集処理部と、複数の各電子機器の第1のデータを、それぞれ異なる形式であっても、比較可能な共通の形式の第2のデータに抽象化する変換の処理を行う抽象化処理部と、複数の各電子機器の第1のデータまたは第2のデータを用いて、当該データ同士の比較により、前記複数の各電子機器の稼働状態を判定して異常の電子機器または機能を検出する処理を行う判定処理部と、上記異常が検出された場合の第1の電子機器または機能について、前記複数の各電子機器の第1のデータまたは第2のデータを用いて、当該データ同士の比較により、当該異常の原因となる第2の電子機器または機能、または当該異常の影響範囲に含まれる第3の電子機器または機能、の少なくとも一方を特定する処理を行う特定処理部と、を有し、上記判定及び特定の結果を含む情報を出力する。
本発明の代表的なものによれば、機器情報管理システム等に係わり、複数の機器の性能・障害などの監視を一様に行うことができ、また、原因や影響範囲の機器や機能の特定などを容易に行うことができる。
本発明の一実施の形態のコンピュータシステム(機器情報管理システムを含む)の構成例を示す図である。 本実施の形態における、(a)収集タイミング、(b)判定タイミング、(c)機器情報、を記述・登録するデータの構造及び例を示す図である。 本実施の形態における、(a)抽象化ルール、(b)抽象化済みデータ、を記述・登録するデータの構造及び例を示す図である。 本実施の形態における、機器情報収集処理手順を示す図である。 本実施の形態における、判定処理手順などを示す図である。 本実施の形態における、第1のデータ比較の処理手順を示す図である。 本実施の形態における、第2のデータ比較の処理手順を示す図である。 (a),(b)は、本実施の形態における、データの単純化の方法の例を示す図である。 (a)〜(c)は、本実施の形態における、異常状態の開始点の決定の方法の例を示す図である。 本実施の形態における、異常状態の開始点の比較の例を示す図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
本実施の形態のコンピュータシステムは、特徴として、各々異なるデータ(機器情報)の形式であり得る複数の各機器110・各機能50を対象として(図1等)、データ(機器情報:第1のデータ)の抽象化及び当該抽象化されたデータ(第2のデータ)の比較などの処理(図3、図8〜図10等)を行うことにより、機器110・機能50の異常状態の判定や、異常の原因の機器110・機能50の特定や、異常による影響範囲に含まれる機器110・機能50の特定などの処理(図5〜図7等)を行う機能を備える。
[システム]
図1に、本発明の一実施の形態のコンピュータシステム(機器情報管理システム120を含む)全体の構成例を示している。本システム全体として、ネットワーク101で接続される、複数の機器110{110A,110B,110C等}、及び複数の機器110の情報を管理し機器の状態の監視などを行う機器情報管理システム120を有する。
複数の各々の機器110は、管理・監視の対象であり、中央演算処理装置などの計算処理能力を有し、この能力を利用して実現される様々な機能50(機能a等)を持つ。例えば機器110Aは、機能a,b,c等を持つ。機器110は例えばサーバ装置、その機能50は例えばサービス処理機能などである。
各機器110は、管理部111、情報保存部112、及び1つ以上の情報収集部115等を有する。各部は所定のハードウェア・ソフトウェア(プログラム処理など)により実現される。なお、機器110A,110B,110Cに関して同様の各部(111,112,115等)を有する構成であるが、これら各機器110は、異なる様々な機能50を有していてよい。
管理部111は、機器情報管理システム120や他の機器110などの要求者から受信した要求に応じて、必要な情報(機器情報など)を情報保存部112から抽出し、要求者に送信する。
情報収集部115は、対応付けられた機能50についての情報を収集し、情報保存部112に保存する。一つの情報収集部115は、一つの機能50、または幾つかの機能50に対して対応付けられる。図1の例では、機能aに対しては情報収集部115a、機能bと機能cに対しては情報収集部115bcがそれぞれ対応付けられている。
情報保存部112は、上記収集される情報(機器情報)を保存する。機器情報は、機能50の情報を含むものとする。情報保存部112は、ファイル形式、データベース形式など、様々な態様(形式)で情報(機器情報など)を保存する。機器110及び機能50に応じて、その情報(機器情報)は異なる形式を有してよい。図1の例では、機器110Aの機器情報(データA)、機器110Bの機器情報(データB)、機器110Cの機器情報(データC)は、それぞれ異なる形式であってよい。
機器情報管理システム120は、各機器110の情報(情報収集部115により収集され情報保存部112に保存された機器情報)を、ネットワーク101を介して収集(取得)して管理し、各機器110に関する性能・障害の監視などを行うシステムであり、機器情報管理処理部121、及び機器情報管理DB(データベース)122等を有する構成である。
機器情報管理処理部121は、収集処理部130、判定処理部140、抽象化処理部150、及び原因特定処理部160、の4つの処理部(サブシステム)を有する。各処理部(サブシステム)は、所定のハードウェア・ソフトウェア(プログラム処理など)により実現される。
収集処理部130は、機器情報管理システム120が管理する対象の機器110の情報(機器情報)を、ネットワーク101等を介して収集(取得)し、データベース122に登録(格納)する処理を行う。
判定処理部140は、収集処理部130により収集された機器110の情報について、機器110の状態(性能や障害に係わる状態)に関する正常/異常などを判定する処理を行う。この判定により、機器110(ないし機能50)の状態に関する異常を発見する。
抽象化処理部150は、判定処理部140により異常を発見した場合に、データベース122(機器情報)から、機器110、機能50、時間帯、等の必要な情報データを抽出し、抽出した情報データを抽象化する変換の処理を行う。この抽象化(変換)の処理は、複数の機器110でデータの形式などが異なっていても比較が可能なようにする処理である。
原因特定処理部160は、抽象化処理部150により抽象化した情報データを比較することにより、機器110(ないし機能50)の異常に関する原因(原因となる機器110や機能50)や、機器110(ないし機能50)の異常による影響範囲(影響を受けた機器110や機能50)などを特定ないし推定する処理を行う。
本コンピュータシステムでは、上記の判定や特定の結果を含む各情報を出力する。例えば管理者のコンピュータ端末に対する情報の通知や表示などを行う。
[データベース・管理情報]
本コンピュータシステムにおいて機器情報管理DB122に格納・管理される情報データとして、(a)収集タイミング、(b)判定タイミング、(c)機器情報、(d)抽象化ルール、(e)抽象化済みデータ、等を有する。それぞれ詳しくは後述する。
図2(a)は、収集タイミングの情報の例を示す。本情報では、機器IDで識別される機器110ごと、及び機能IDで識別される機能50ごとに、情報を収集するタイミング(例えば毎日、毎時など)の情報を格納する。本情報の設定は、管理者などにより本システムに対して可能である。例えば、機器110Aの機能aについての機器情報の収集タイミングが“毎日”に設定されている。
図2(b)は、判定タイミングの情報の例を示す。本情報では、機器ID及び機能IDごとに、判定を実行するタイミング(例えば毎日、毎時など)、及び判定の際の閾値を登録する。本情報の設定は、管理者などにより本システムに対して可能である。例えば、機器110Aの機能aについての機器情報の判定タイミングが“毎日”、当該判定の閾値が“7200”に設定されている。
図2(c)は、機器情報(各機器110から収集される情報)の例を示す。本情報では、収集などの「時刻」の情報と、機器ID及び機能IDと、当該機器110の状態に係わるログデータ等の「情報」と、状態に係わる「フラグ」と、を有する。「情報」の項目は、例えば通信アクセスのコマンドやアドレスやステータス等を格納する。「フラグ」の項目は、当該機器110・機能50の正常/異常などの状態、及び当該状態の判定処理(140による)の判定済み/未判定などを示す値が格納される。フラグの値は例えば“正常”、“異常”、“未判定”などを含む。“未判定”の場合は、後述の未判定データに該当し、そうでない場合は、判定済みデータに該当する。図2(c)の例では、ある時刻における機器110Aの機能aについての機器情報(ログデータ等)が格納されており、フラグは“未判定”である。
図3(a)は、抽象化ルール(変換ルール)の情報の例を示す。本情報では、抽象化処理(150による)で用いる抽象化ルール(変換ルール)を登録する。ルールIDごとに、データ種類ID、ルール(定義)、時間単位、備考、等を格納する。データ種類IDは、データ種類(形式)のIDである。前述の各機器情報(データA〜C等)の形式が異なる場合にも当該IDにより識別される。ルール(定義)は、例えば、行数の数え上げ、単語の出現頻度、などがある。ここでいう行数や単語は、図2(c)の機器情報の「情報」(ログデータ等)の項目を対象とする。時間単位は、ルールに関する時間単位を示す。備考は、ルールに関する説明を示す。
図3(a)の例では、第1のルール(ルールID:“AR001”)として、データ種類IDが“D001”のデータ(機器情報)に関して、1分間単位での行数の数え上げ(カウント)を適用することを示す。即ち、第1のルールによる抽象化(変換)処理では、1分間において記録されるログの発生数(行数に対応)をカウントして当該数値を時系列(数値列)で出力することを示す。また、第2のルール(ルールID:“AR002”)として、データ種類IDが“D002”のデータ(機器情報)に関して、1時間単位での単語の出現頻度を適用することを示す。1時間に記録されるログに含まれる単語別の出現頻度を求めて、当該数値を時系列(1時間ごとの数値列)で出力することを示す。
図3(b)は、抽象化済みデータ(抽象化データ)の例を示す。本情報では、図3(a)の抽象化ルールの情報に基づいて抽象化(変換)されたデータを格納する。なお、本情報では、後述するが、「抽象化済み正常データ」、及び「抽象化済み未判定データ」を含む。本情報では、時間単位(開始時刻、終了時刻)ごと、機器ID及び機能IDごとに、抽象化データを格納する。抽象化データの項目は、上記図3(a)のルールに基づき得られた数値列などの出力が格納される。
その他、図示しないが、システム内の複数の機器110・機能50に関する異常発見箇所(140による判定結果)のデータや、それらに関する原因・影響範囲など(160による特定結果)のデータなどを保持する。例えば、異常発見箇所は機器Aの機能aであり、その異常の原因は機器Bの機能bであり、その異常の影響範囲は機器Cの機能cである、といった情報を格納する。
[情報収集]
図4に、本システムの要素間における機器情報収集処理手順(収集処理部130により機器110(例えば110A)から情報(機器情報)を収集する際の手順)を示す。Sは手順(処理ステップ等)を示す。
収集処理部130は、データベース122から、情報を収集したい対象の機器110(本例では図1の機器110Aとする)についての収集タイミングの情報(図2(a))を入手する(要求(S301),抽出(S302),返戻(S303)等)。
そして収集処理部130は、その収集タイミングの情報に従い、情報を収集するための機能(収集処理部130が持つ一機能)を起動し、当該収集タイミングが来るまで待機する(S304)。当該収集タイミングが来ると、対象の機器110(110A)の管理部111に対して情報要求を送付する(S305)。
上記情報要求を受信した機器110(110A)の管理部111は、要求者についての認証を行い(S306)、認証の通過に基づいて、情報保存部112から必要な情報(機器情報)を抽出し、収集処理部130に返戻する(S307〜S310)。
対象の機器110から上記情報を受信した収集処理部130は、その情報をデータベース122に登録し(S311,S312)、S304に戻り、次の収集タイミングが来るのを待つ。
[判定]
図5に、判定処理手順(判定処理部140により機器情報について機器110の状態を判定する処理を行う際の手順)などを示す。
抽象化処理部150は、データベース122(図3(b))から、予め抽象化されている正常時のデータ(「抽象化済み正常データ」)、及び図2(b)の判定タイミング(閾値を含む)などの情報を入手する。そして、これらの情報を判定処理部140に送付し、当該判定タイミングが来るまで待機する(S501〜S504)。上記の正常時とは、機器110の稼働状態が正常の時である。
上記判定タイミングになると、抽象化処理部150は、データベース122の図2(c)の機器情報から、フラグの値が“未判定”であるレコードのデータ(「未判定データ」)を入手する(S505)。そして、抽象化処理部150は、この未判定データを抽象化(変換)処理し、判定処理部140に送付する(S506,S507)。以下、上記抽象化した「未判定データ」を、「抽象化済み未判定データ」と呼ぶ。
判定処理部140は、上記の抽象化済み未判定データと抽象化済み正常データとを比較して判定する(S508)。例えば、両者の差異が、閾値(S503によるもの)以内である場合は「正常」、閾値を超える場合は「異常」と判定する。そして、この判定結果に応じて、データベース122の「未判定データ」のフラグの値を“正常”/“異常”などの値に更新し、当該判定結果の情報を登録する(S509,S510)。なおこれにより当該データは「未判定データ」から「判定済みデータ」となる。そして、S504に戻る。S511以降は原因特定処理部160に係わる処理であり後述する。
[データ抽象化(変換)]
前記図5のS506のデータ抽象化(変換)に関する技術について詳述する。本実施の形態で、データ抽象化(変換)とは、複数の機器110・機能50における様々な形式のデータを、比較可能な共通の形式に抽象化(変換)する技術である。例えば図1の各機器110(110A〜110C)の機器情報(データA〜C)は、異なる形式のデータであり、これらが共通の形式のデータに抽象化(変換)される。
上記のデータ抽象化の処理の手順の例は以下である。抽象化処理部150は、データベース122(図2(c))から、未判定データを入手する(S505)。さらに、入手した未判定データに対応して適用する抽象化ルールを、データベース122(図3(a))から入手する。次に、抽象化処理部150は、入手した抽象化ルールに従い、未判定データを抽象化する変換処理を行う。そして、抽象化処理部150は、その結果(抽象化済みデータ)を、データベース122(図3(b))に登録する。本実施の形態では、前述のルール例に従い、データ形式ごとに、及び時間単位ごとに、ログデータの量を行数などによってカウントして時系列の数値として出力する。
[第1のデータ比較(状態の判定)]
図6を用いて、前記図5のS508の閾値比較判定(抽象化済み正常データと抽象化済み未判定データとの比較)の処理に関する技術(以下「第1のデータ比較」)について詳述する。本実施の形態で、第1のデータ比較とは、抽象化処理部150により抽象化したデータ(複数の抽象化済みデータ)を判定処理部140により比較することで機器110・機能50の状態(正常/異常)の判定(即ち異常の発見)を行う技術である。未判定とは判定対象のことであり、正常とは稼働状態が正常と判定されていることを示す。
図6に、第1のデータ比較の処理の手順を示す。判定処理部140は、抽象化処理部150から、前記図3(b)に基づく、抽象化済み正常データ(D0とする)を入手し(S601、前記S503に対応)、また、抽象化済み未判定データ(D1とする)を入手する(S602、前記S507に対応)。
判定処理部140は、抽象化済み正常データ(D0)と抽象化済み未判定データ(D1)とにおける最初から最後までの差(i番目のデータ単位ごとの差)を求め、その絶対値の総和を求め、それを差異(DDとする)の値として出力する(S603〜S607)。
判定処理部140は、この差異(DD)の値が、前述の所定の閾値以下である場合は、当該未判定データに対応する機器110・機能50の状態を「正常」、閾値を超える場合は「異常」と判定する。
[第2のデータ比較(原因・影響範囲の特定)]
図7を用いて、前記図5のS513の原因及び影響範囲の特定などに関する技術(以下「第2のデータ比較」)について詳述する。本実施の形態で、第2のデータ比較とは、複数の異なる機器110、機能50、収集タイミング、等の抽象化済みデータを比較することで、原因及び影響範囲の機器110・機能50などを特定する技術である。
図7に、第2のデータ比較の処理の手順を示す。原因特定処理部160は、抽象化処理部150から、抽象化済み未判定データ(D1)を入手する(S701、前記S511に対応)。次に、原因特定処理部160は、抽象化処理部150から、該当する時間帯における、フラグの値が“異常”である、全ての抽象化済みデータ(Dn)(0≦n≦N)を入手する(S702、前記S512に対応)。nは0以上の整数、Nは対象の機器110や機能50の最大数である。
N>0の判定(S703)において、N=0の場合(No)、つまりDnが無い場合、原因特定処理部160は、異常の原因が、抽象化済み未判定データ(D1)と関連付けられた機器110・機能50自体にあると推定し、影響範囲は無しとして(S704)、終了する。
N>0の場合(Yes)、原因特定処理部160は、抽象化済み未判定データ(D1)を単純化し(S705)、単純化したD1をグラフ化し、そのグラフを画像データ(G1とする)に変換する(S706)。ここで、上記の単純化(S705)の方法としては、例えば以下の2つが考えられる(なおこれらに限らずに様々な方法を適用してもよい)。
第1の方法: 最小値が0,最大値が1になるように変換する。図8(a)に、この第1の方法の場合の変換を示す。
第2の方法: 最小値が0,最大値が1になるように変換した後、0.5より大きい値を1に、0.5より小さい値を0に変換する。図8(b)に、この第2の方法の場合の変換を示す。
次に、原因特定処理部160は、上記の抽象化済みデータ(Dn(0≦n≦N))の一つ一つに対しても、上記のD1と同様に、単純化、グラフ化、画像データ(Gn)への変換を行う(S707〜S709)。画像データ(Gn)への変換では、G1と同じサイズ・形式の画像データ(Gn)に変換する。
次に、原因特定処理部160は、上記のG1とGnを比較し、異常状態の開始点の差異を抽出する(S710)。この異常状態の開始点の決定方法としては、例えば以下の3つが考えられる(なおこれらに限らず様々な方法を適用してもよい)。
第1の方法: データ毎に定められている閾値(前述の異常を判定するための閾値)を超えた点を、異常状態の開始点(P)とする。図9(a)に、この第1の方法の場合の例を示す。
第2の方法: 平均値(D1,Dnを含む複数のデータの平均値)を超えた点を異常状態の開始点とする。図9(b)に、この第2の方法の場合の例を示す。
第3の方法: 予め決定される設定値(第1の方法の閾値とは別の設定値。データに依らずに一定値)を超えた点を異常状態の開始点とする。図9(c)に、この第3の方法の場合の例を示す。
原因特定処理部160は、上記比較の結果、Gnの開始点(Pnとする)がG1の開始点(P1とする)より前である場合は、当該Dnと関連付けられた機器110・機能50を、原因の候補とする。また、Gnの開始点(Pn)がG1の開始点(P1)より後である場合は、当該Dnと関連付けられた機器110・機能50を、影響範囲に加える(S710)。
図10に、上記S710における比較の例を示す。(a)は、抽象化済みデータDj1(開始点:Pj1),(b)は、抽象化済み未判定データD1(開始点:P1),(c)は、抽象化済みデータDj2(開始点:Pj2)を示す。開始点の関係が、Pj1<P1<Pj2の場合である。Dj1(Pj1)がD1(P1)よりも早い場合、異常原因がDj1にあると推定される。Dj2(Pj2)がD1(P1)よりも遅い場合、Dj2は異常の影響を受けている(影響範囲に含まれる)と推定される。
図7のフローで全てのDn(n)に対して処理を行い(S711,S712)、全ての処理が終わったとき(S711−Yes)、原因特定処理部160(あるいは機器情報管理処理部121)は、原因の候補(機器・機能)を異常状態の開始点(P)の早い順に並べ替え、その情報を出力する。また、影響範囲に含まれる機器・機能についても、異常状態の開始点(P)の早い順に並べ替え、その情報を出力する(S713)。
結果、例えば、図1の機器110Aが異常原因、機器110Bが異常個所、機器110Cが影響範囲、といったように情報が出力されることになり、機器管理者は、その情報を端末の画面等で参照することで、システム内の複数の機器110・機能50に関する性能や障害などに係わる状態及び関係を容易に把握することができる。
[効果等]
以上説明したように、本実施の形態によれば、前述したデータの抽象化及び比較などの処理機能により、各種機器110・機能50における形式が異なるログデータ等(機器情報)を扱うことができるため、複数の機器110・機能50の性能や障害などの監視を一様に行うことができ、また、異常の原因や影響範囲の特定などを容易に行うことができる。
本システムでは、機器110単体の異常の検出に限らず、複数の機器110間の影響関係による異常の原因や影響範囲などの検出・特定も容易化される。また、検出・特定までに要する時間も短縮化し得る。また、管理者の経験やスキルなどの個人差によらずにサービスが提供できる。また、機器110を含む対象システムの巨大化に対しても対処することができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
本発明は、サーバシステム等を対象とした機器監視システムなどに利用可能である。
50…機能、101…ネットワーク、110{110A,110B,110C}…機器(電子機器)、111…管理部、112…情報保存部、115{115a,115bc}…情報収集部、120…機器情報管理システム、121…機器情報管理処理部、122…機器情報管理DB、130…収集処理部、140…判定処理部、150…抽象化処理部、160…原因特定処理部。

Claims (4)

  1. 各々様々な機能を持つ複数の電子機器のデータを、ネットワークを通じて収集して管理し、各電子機器の稼働状態を監視する、機器情報管理システムであって、
    前記各電子機器のデータは、当該電子機器及び機能の違いに応じて、異なる形式を持つ場合があり、
    本機器情報管理システムは、
    前記各電子機器から当該電子機器及び当該電子機器が持つ機能に関する第1のデータを前記ネットワークを通じて収集しデータベースに格納する収集処理部と、
    前記複数の各電子機器の第1のデータを、比較可能な共通の形式の第2のデータに抽象化する変換の処理を行う抽象化処理部と、
    前記複数の各電子機器の第1のデータまたは第2のデータを用いて、当該データ同士の比較により、前記複数の各電子機器の稼働状態を判定して異常の電子機器または機能を検出する処理を行う判定処理部と、
    上記異常が検出された場合の第1の電子機器または機能について、前記複数の各電子機器の第1のデータまたは第2のデータを用いて、当該データ同士の比較により、当該異常の原因となる第2の電子機器または機能、または当該異常の影響範囲に含まれる第3の電子機器または機能、の少なくとも一方を特定する処理を行う特定処理部と、を有し、
    上記判定及び特定の結果を含む情報を出力し、
    前記抽象化処理部は、前記データベースから、未判定の状態の電子機器または機能の第1のデータと、当該未判定の第1のデータに対応して適用するルールの情報と、を入手し、次に、上記未判定の第1のデータを上記ルールに従って前記抽象化する変換の処理を行い、これにより得られる抽象化済みの前記第2のデータを前記データベースに登録する処理を行い、
    前記第1のデータは、当該電子機器または機能の稼働に関するログデータを含み、
    前記第1のデータまたは第2のデータは、当該電子機器または機能の稼働状態及び未判定かどうかを表すフラグを含み、
    前記収集処理部は、前記複数の各電子機器及び各機能からの前記第1のデータの収集を、前記複数の各電子機器及び各機能ごとに、設定された第1のタイミングで実行し、
    前記判定処理部は、前記判定の処理を、前記複数の各電子機器及び各機能ごとに、設定された第2のタイミング及び閾値で実行し、
    前記抽象化処理部は、前記抽象化する変換の処理を、設定された前記ルールに従って実行し、これにより得られる抽象化済みの前記第2のデータを前記データベースに格納し、
    前記ルールとして、前記第1のデータの形式ごとに、及び時間単位ごとに、前記ログデータの量をカウントして時系列の数値として出力するルールを有し、
    前記ルールとして、前記ログデータの発生の行数をカウントするルール、及び前記ログデータに含まれる単語の出現頻度を求めるルールを含むこと、を特徴とする機器情報管理システム。
  2. 請求項1記載の機器情報管理システムにおいて、
    前記判定処理部は、
    前記抽象化処理部または前記データベースから、正常の状態の1つ以上の電子機器または機能に関する前記抽象化済みの前記第2のデータ(D0)と、未判定の状態の電子機器または機能に関する前記抽象化済みの前記第2のデータ(D1)と、を入手する処理と、
    上記正常の第2のデータ(D0)と上記未判定の第2のデータ(D1)とにおいて、最初から最後までデータ単位ごとに差を求め、当該差の絶対値の総和を求め、当該総和を当該第2のデータ(D0,D1)間の差異値(DD)として計算する処理と、
    上記差異値(DD)が所定の閾値以下の場合は当該未判定の状態の電子機器または機能に関する稼働状態を正常と判定し、当該閾値を超える場合は異常と判定する処理と、を行うこと、を特徴とする機器情報管理システム。
  3. 請求項1記載の機器情報管理システムにおいて、
    前記特定処理部は、
    前記抽象化処理部または前記データベースから、未判定の状態の電子機器または機能に関する前記抽象化済みの第2のデータ(D1)と、該当する時間帯における、前記稼働状態が異常と判定された電子機器または機能に関する、全ての前記抽象化済みの第2のデータ(Dn)(0≦n≦N)と、を入手する処理を行い、
    上記全ての第2のデータ(Dn)において、
    N=0の場合、
    上記未判定の第2のデータ(D1)に関連付けられた電子機器または機能を当該異常の原因と推定し、当該異常による影響範囲に含まれる電子機器または機能は無いと推定する処理を行い、
    N≧1の場合、
    上記未判定の第2のデータ(D1)を単純化し、当該単純化したデータ(D1)をグラフ化し、当該グラフ化されたデータ(D1)を画像データ(G1)へ変換する処理を行い、
    上記異常の第2のデータ(Dn)の各々に対して、上記未判定の第2のデータ(D1)と同様に、単純化、グラフ化、及び画像データ(Gn)へ変換する処理を行い、
    次に、上記未判定の第2のデータ(D1)の画像データ(G1)と上記異常の状態の第2のデータ(Dn)の画像データ(Gn)とを比較して、両者の異常状態の開始点(P1,Pn)の差異を抽出し、
    上記開始点(P1,Pn)の差異について、PnがP1よりも前である場合、当該異常の第2のデータ(Dn)に関連付けられた電子機器または機能を当該異常の原因の候補とし、PnがP1よりも後の場合、当該異常の第2のデータ(Dn)に関連付けられた電子機器または機能を当該異常による影響範囲に含まれるものとして追加し、
    上記全ての第2のデータ(Dn)に対する処理の終了後、上記原因の候補を上記開始点の早い順に並べ替えた情報と、上記影響範囲に含まれるものを、上記開始点の早い順に並べ替えた情報と、を出力する処理を行うこと、を特徴とする機器情報管理システム。
  4. 各々様々な機能を持つ複数の電子機器のデータを、ネットワークを通じて収集して管理し、各電子機器の稼働状態を監視する、機器情報管理システムにおける機器情報管理方法であって、
    前記各電子機器のデータは、当該電子機器及び機能の違いに応じて、異なる形式を持つ場合があり、
    本機器情報管理方法は、
    前記各電子機器から当該電子機器及び当該電子機器が持つ機能に関する第1のデータを前記ネットワークを通じて収集しデータベースに格納する収集処理ステップと、
    前記複数の各電子機器の第1のデータを、比較可能な共通の形式の第2のデータに抽象化する変換の処理を行う抽象化処理ステップと、
    前記複数の各電子機器の第1のデータまたは第2のデータを用いて、当該データ同士の比較により、前記複数の各電子機器の稼働状態を判定して異常の電子機器または機能を検出する処理を行う判定処理ステップと、
    上記異常が検出された場合の第1の電子機器または機能について、前記複数の各電子機器の第1のデータまたは第2のデータを用いて、当該データ同士の比較により、当該異常の原因となる第2の電子機器または機能、または当該異常の影響範囲に含まれる第3の電子機器または機能、の少なくとも一方を特定する処理を行う特定処理ステップと、
    上記判定及び特定の結果を含む情報を出力する処理ステップと、を有し、
    前記抽象化処理ステップは、前記データベースから、未判定の状態の電子機器または機能の第1のデータと、当該未判定の第1のデータに対応して適用するルールの情報と、を入手し、次に、上記未判定の第1のデータを上記ルールに従って前記抽象化する変換の処理を行い、これにより得られる抽象化済みの前記第2のデータを前記データベースに登録する処理を行い、
    前記第1のデータは、当該電子機器または機能の稼働に関するログデータを含み、
    前記第1のデータまたは第2のデータは、当該電子機器または機能の稼働状態及び未判定かどうかを表すフラグを含み、
    前記収集処理ステップは、前記複数の各電子機器及び各機能からの前記第1のデータの収集を、前記複数の各電子機器及び各機能ごとに、設定された第1のタイミングで実行し、
    前記判定処理ステップは、前記判定の処理を、前記複数の各電子機器及び各機能ごとに、設定された第2のタイミング及び閾値で実行し、
    前記抽象化処理ステップは、前記抽象化する変換の処理を、設定された前記ルールに従って実行し、これにより得られる抽象化済みの前記第2のデータを前記データベースに格納し、
    前記ルールとして、前記第1のデータの形式ごとに、及び時間単位ごとに、前記ログデータの量をカウントして時系列の数値として出力するルールを有し、
    前記ルールとして、前記ログデータの発生の行数をカウントするルール、及び前記ログデータに含まれる単語の出現頻度を求めるルールを含むこと、を特徴とする機器情報管理方法。
JP2010164617A 2010-07-22 2010-07-22 機器情報管理システム及び方法 Expired - Fee Related JP5380386B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010164617A JP5380386B2 (ja) 2010-07-22 2010-07-22 機器情報管理システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010164617A JP5380386B2 (ja) 2010-07-22 2010-07-22 機器情報管理システム及び方法

Publications (2)

Publication Number Publication Date
JP2012027635A JP2012027635A (ja) 2012-02-09
JP5380386B2 true JP5380386B2 (ja) 2014-01-08

Family

ID=45780504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010164617A Expired - Fee Related JP5380386B2 (ja) 2010-07-22 2010-07-22 機器情報管理システム及び方法

Country Status (1)

Country Link
JP (1) JP5380386B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6451483B2 (ja) * 2015-05-11 2019-01-16 富士通株式会社 予兆検知プログラム、装置、及び方法
US11079731B2 (en) * 2019-10-07 2021-08-03 Honeywell International Inc. Multi-site building management system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3078778B2 (ja) * 1998-02-27 2000-08-21 松下電器産業株式会社 異常診断方法および車両緊急情報通報装置
JP2004094701A (ja) * 2002-09-02 2004-03-25 Hitachi Information Systems Ltd 監視情報表示システムと監視情報表示方法およびプログラムならびに監視装置
JP2006178834A (ja) * 2004-12-24 2006-07-06 Mitsubishi Electric Corp 依存関係情報収集システム及び依存関係情報収集方法
JP4648838B2 (ja) * 2006-01-16 2011-03-09 三菱電機株式会社 ネットワーク監視支援装置、ネットワーク監視支援方法およびネットワーク監視支援プログラム
JP2010020358A (ja) * 2008-06-13 2010-01-28 Sanyo Electric Co Ltd 機器管理装置

Also Published As

Publication number Publication date
JP2012027635A (ja) 2012-02-09

Similar Documents

Publication Publication Date Title
TWI632443B (zh) 異常資料的重要度判定裝置以及異常資料的重要度判定方法
EP2759938B1 (en) Operations management device, operations management method, and program
US8751417B2 (en) Trouble pattern creating program and trouble pattern creating apparatus
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
US9146927B2 (en) Data processing apparatus, data processing method, and program
US20140189431A1 (en) Method and system for monitoring transaction execution on a computer network and computer storage medium
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
JP2007172131A (ja) 障害予測システム、障害予測方法、障害予測プログラム
JP2008041041A (ja) ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法
CN111814999A (zh) 一种故障工单生成方法、装置、设备
CN114548706A (zh) 一种业务风险的预警方法以及相关设备
CN113438110B (zh) 一种集群性能的评价方法、装置、设备及存储介质
WO2021056731A1 (zh) 基于日志数据分析的行为检测方法、装置、设备及介质
JP6802122B2 (ja) 原因推定方法およびプログラム
CN114298558B (zh) 电力网络安全研判系统及其研判方法
JP5380386B2 (ja) 機器情報管理システム及び方法
US9645877B2 (en) Monitoring apparatus, monitoring method, and recording medium
CN109074293B (zh) 静观候选确定装置、方法以及计算机能读取的存储介质
JP2004348640A (ja) ネットワーク管理システム及びネットワーク管理方法
JP6832890B2 (ja) 監視装置、監視方法、及びコンピュータプログラム
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
JP6512646B1 (ja) 保守管理装置、システム及びプログラム
US8448028B2 (en) System monitoring method and system monitoring device

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130930

R150 Certificate of patent or registration of utility model

Ref document number: 5380386

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees