JP2005202446A - 障害監視復旧支援装置 - Google Patents

障害監視復旧支援装置 Download PDF

Info

Publication number
JP2005202446A
JP2005202446A JP2004004925A JP2004004925A JP2005202446A JP 2005202446 A JP2005202446 A JP 2005202446A JP 2004004925 A JP2004004925 A JP 2004004925A JP 2004004925 A JP2004004925 A JP 2004004925A JP 2005202446 A JP2005202446 A JP 2005202446A
Authority
JP
Japan
Prior art keywords
information
failure
countermeasure
log
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004004925A
Other languages
English (en)
Inventor
Katsuyuki Suetsugu
勝幸 末次
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004004925A priority Critical patent/JP2005202446A/ja
Publication of JP2005202446A publication Critical patent/JP2005202446A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】
複数台または1台の業務サーバ、ネットワーク機器、業務アプリケーションが存在する環境で障害の発見・障害の調査・対策を行なうには、時間と労力を要した。しかも、業務サーバ、ネットワーク機器、アプリケーションが連携をしている場合、各サーバ・ネットワーク機器へログインし、ログ情報を確認し、該当するメッセージ内容を調査して、対策情報を検討および支援装置を使用し復旧していた。
【解決手段】
本発明では、監視対象業務サーバ、ネットワーク機器、アプリケーションのログ情報を監視し、障害を検知した場合、関連する業務サーバやアプリケーションの関連するログ情報も含めて抽出可能な障害関し復旧支援装置を提供する。これらのログは初期設定時に出力形式が指定され、メッセージ内容を統一しておく。本装置では抽出した情報より対策内容を障害対策情報データベースから検索し、表示し、対策した内容は、キーワードを設定し障害対策情報データベースに登録して障害対策時間を短縮する。
【選択図】 図1

Description

本発明は、複数台または1台の業務サーバ、ネットワーク機器、業務アプリケーションを使用している際の障害の検知および障害復旧への対策事例の検索・対応時の必要な情報の提供、障害対策事例の登録など障害発生時の復旧支援を行なう装置に関する。
障害検知には計算機監視方式の例があり、過去事例検索には事例ベース推論方法および事例ベース推論装置の例がある。また、障害を検知し通知するものや、障害時の過去の事例を検索する装置も存在するが、両者が連携するものは存在していない。すなわち、障害検知に関しては障害発生時にはログ情報を確認し、エラー出力している部位を特定する。他アプリケーションと連携している場合は、そのログについても調査する。過去事例についてはエラー内容はメーカーに問い合わせるか、マニュアルで確認したり、過去の同様の事例を確認し障害復旧を行ない実現していた。
特開平7−253956号公報
特開2003−15877号公報
複数台または1台の業務サーバ、ネットワーク機器、業務アプリケーションが存在する環境で障害の発見・障害の調査・対策を行なうには、時間と労力を要した。しかも、業務サーバ、ネットワーク機器、アプリケーションが連携をしている場合、各サーバ・ネットワーク機器へログインし、ログ情報を確認し、該当するメッセージ内容を調査して、対策情報を検討および支援装置を使用し復旧していた。障害を検知するものや、過去の事例を検索する装置は存在したが、両装置が連携していなかったため即時に復旧方法を取得できない問題があった。本発明の目的は、その両装置を連携させ障害発生を検知し、その障害内容から過去に発生した同種(類似)の障害であるかどうかを検索して、該当する情報があれば対策方法を掲示するし、なければ今回発生した情報を蓄積し次回同類の障害時に情報を提供し、障害の復旧を支援する装置を提供することにある。
本発明では、業務サーバ、ネットワーク機器、アプリケーションのログ情報を監視し、障害を検知した場合、ログ情報を抽出する。関連する業務サーバ、ネットワーク機器、アプリケーションが有る場合は、関連するログ情報も抽出する。抽出した情報より障害情報検索キーワードを生成し、対策内容を障害対策情報データベースから検索し、対策内容を表示し、障害対策時間を短縮する。また、過去の対策したものが無い場合は、メッセージ内容・リソース情報を提供する事により、問合せや調査に必要な情報を提供し、調査の時間を短縮する。対策した内容は、キーワードを設定し障害対策情報データベースに登録する。また、メーカの違うサーバ、ネットワーク機器、アプリケーションのログは、初期設定時にログの出力形式を指定させる事により、メッセージの内容を統一でき、障害情報を検索できる。
複数台または1台の業務サーバ、ネットワーク機器、業務アプリケーションが存在する環境で障害の発生を検知し、障害内容をログ情報より抽出し、障害対策情報を検索する事により、障害発生時の早期対策を実施することが可能となり復旧時間を短縮することが出来る。また、障害対策情報に無い場合は、調査に必要なログ情報やリソース情報を編集し提供する事により専門知識が無くても障害情報を抽出できる。障害の検知、対策掲示が連携することにより障害時の早期対策が可能となる。
各監視対象サーバ、ネットワーク機器、アプリケーションのログ情報を監視し、障害を検知した場合、ログ情報より障害情報検索キーワードを生成する。関連する業務サーバ、ネットワーク機器、アプリケーションが有る場合は、関連するログ情報から障害情報検索キーワードを生成する。抽出した障害情報検索キーワードより対策内容を障害対策情報データベースから検索し、対策内容を表示することにより以下のような実施例を生み出す事が出来るようになる。
障害を検知し障害対策情報を検索する装置を一実施例として図1において説明する。障害監視復旧支援装置(11)は、キーワード登録機能(11a)及びログ情報監視機能(11b)及び障害対策情報検索機能(11c)及び提供情報編集機能(11d)及び障害対策情報登録機能(11e)及びリソース監視機能(11j)から構成されている。障害監視復旧支援装置(11)の監視する機器としてネットワーク(15)により接続された監視対象業務サーバ(gyoumu1)(12)、監視対象業務サーバ(gyoumu2)(13)、監視対象業務サーバ(gyoumu3)(14)、監視対象ネットワーク機器(net1)(15)がある。障害監視復旧支援装置(11)のログ情報・リソース情報(11i)は監視対象業務サーバ(gyoumu1)(12)のログ情報・リソース情報(12a)及び監視対象業務サーバ(gyoumu2)(13)のログ情報・リソース情報(13a)及び監視対象業務サーバ(gyoumu3)(14)のログ情報・リソース情報(14a)及び監視対象ネットワーク機器(net1)(15)のログ情報・リソース情報(15a)の情報を入手する。
キーワード登録機能(11a)は、図2に示すキーワード情報(21a)及び関連情報(21b)及びメッセージ情報(21c)の情報を設定する。設定内容は、監視する機器名及びログNO及びログファイル名及びキーワードとする。キーワードは、業務サーバ、ネットワーク機器のOSや業務アプリケーションで障害時に出力される文字列を設定する。キーワード情報(21a)より監視対象業務サーバ(gyoumu1)(12)のログNO1が障害時に必ず出力する文字列は、「ERROR」及び「WARNING」であるため、これら2つのキーワードをキーワード(1)、キーワード(2)に設定する。ログNO2は、「ERR」及び「WRN」であるため2つのキーワードを設定する。同様に監視対象業務サーバ(gyoumu2)(13)、監視対象業務サーバ(gyoumu3)(14)、監視対象ネットワーク機器(net1)(15)についてもログNoとキーワードを設定する。
関連情報(21b)は、監視対象業務サーバ(gyoumu1)(12)のログNO1と監視対象業務サーバ(gyoumu2)(13)のログNO2が連携している場合に設定する。連携していない場合は、設定は不要。監視対象業務サーバ(gyoumu1)(12)のログNO2は、監視対象業務サーバ(gyoumu2)(13)のログNO2と監視対象業務サーバ(gyoumu3)(14)のログNO2と連携しているため2つ設定している。
メッセージ情報(21c)は、ログファイルの出力される形式を指定する。監視対象業務サーバ(gyoumu1)(12)のログNO1は「yyyy-mm-dd hh:mm:ss errono=XXX messege1 messege2 ・・・messege50」の形式でログ情報より文字列を抽出する。
ログ情報監視機能(11b)は、図3に示すフローチャートに従い入手したログ情報(11i)よりログ情報を監視する。ログ情報取得(31)は、各監視対象業務サーバから取得したログ情報を1行読み込む。メッセージ抽出(32)は、ログ情報取得(31)より読み込んだ文字列をメッセージ情報(21c)で指定した形式で抽出する。キーワード確認(33)は、メッセージ抽出(32)より抽出された文字列中にキーワード情報(21a)に設定したキーワード(1)「ERROR」及びキーワード(2)「WARNING」が存在するか確認する。存在しなければログ情報取得(31)へ戻り監視を継続する。存在すれば関連情報確認(34)にて関連情報(21b)の設定が有るか確認する。設定が有る場合は、関連サーバに関してもメッセージ抽出(35)を行う。さらに、関連情報確認(36)にて関連情報(21b)の設定が有るか確認する。障害対策情報検索用キーワード生成(37)にて図4の障害対策情報検索用キーワード(41)に示す形式にてキーワードを抽出する。
図4の業務サーバログ情報(出力例)(41a)で示すメッセージについて行なっている。監視対象業務サーバ(gyoumu1)(12)のログNO1「2003-01-01 01:01:00 errono=00000001 ERROR SSL handshake failed gyoumu2」と監視対象業務サーバ(gyoumu2)(13)のログNO2「2003/01/01 01 01 00:errorno(ERR00020) ERR not running program」。図3に示すフローチャートに従い生成したものが障害対策情報検索用キーワード(41b)である。
障害対策情報検索機能(11c)は、図5に示すフローチャートに従い障害対策情報の検索を行なう。障害対策情報検索(51)は、生成した障害対策情報検索用キーワード(41b)のキーワードについて障害対策情報(42a)を検索し、該当する対策NOを取得する。取得した対策NOから対策情報(42b)を検索し対策内容を取得する。対策情報表示・通知(52)は、取得した対策内容を画面に表示し保守担当者に通知する。設定により対策内容をメールにて行なう事も可能とする。対策が完了した事を保守担当者に入力させ、障害回数カウントアップ(54)を実行し、同様の障害について何件発生しているか累計をとる。障害対策情報(42a)を検索した結果、対策内容が見つからない場合や、対策内容に従い実施した結果、対策できなかった場合は、提供情報編集(55)にて必要な情報を提供する。提供された情報を利用し、調査・対策を行い、新規に障害対策情報として障害対策情報登録(57)にて登録する。実施例では、障害対策情報検索用キーワード(41b)より「対策3」及び「対策5」を表示する。
図6の業務サーバログ情報(出力例)(61a)で示すメッセージについて行なっている。監視対象業務サーバ()(12)のログNO1「2003/01/01 00:00:00 ERROR errono=00000590 failed to bind a name to a socket」と監視対象業務サーバ(gyoumu2)(13)のログNO2「2003/01/01 00:00:00 ERROR errono=ERR00090 User unknown」。図3に示すフローチャートに従い生成したものが障害対策情報検索用キーワード(61b)である。この出力例の場合、生成した障害対策情報検索用キーワード(61b)のキーワードについて障害対策情報(42a)を検索しても該当するものが無いため、提供情報編集(11d)にて編集を行い図7に示す新規障害情報(71)を作成する。提供する情報は、調査に必要な機器名及びOS名及びOSのバージョン及びアプリケーションのバージョン及びエラーメッセージ及びサーバのリソース。また、関連情報が有る場合は、その情報についても提供する。提供された情報を利用し、保守担当者は、調査・対策を行い、新規に障害対策情報として障害対策情報登録(11e)にて登録する。
障害対策情報登録機能(11e)は、図8に示すフローチャートに従い情報の登録を行なう。検索対象キーワードの選択(81)は、生成した障害対策情報検索用キーワード(61b)の中から次回検索に必要とする項目を登録者に選択させ内容をキーワードとして登録する。対策内容入力(82)は、実施した対策内容を入力し登録する。情報登録(83)は、入力された検索対象キーワード及び対策内容を障害対策情報(84a)及び対策情報(84b)へ登録を行なう。登録例(84)の場合、検索対象キーワードの選択(81)よって選択されたキーワードを障害対策情報検索用キーワード(61b)から取り出し、機器名:gyoumu1、ログNO:1、エラーNO:00000590、キーワード1:failed、キーワード2:bind、関連1機器名:gyoumu2、関連1エラーNO:ERR00090、対策NO:00000006と登録する。同様にgyoumu2についても登録する。入力された対策内容は、対策NO:00000006に関連付けられ対策内容:対策6、障害回数:1と登録される。対策NO:00000007についても同様に登録される。
リソース監視(11j)は、図9に示すフローチャートに従い入手したリソース情報(11i)より各サーバ・ネットワーク機器のリソース情報を監視する。取得するリソース情報は、SNMP( Simple Network Management Protocol )を利用し、監視対象サーバ及び監視対象ネットワークのMIB(Management Information Base)情報より抽出する。抽出する情報としては、CPU利用率、メモリ使用量、ディスク使用量、ネットワーク利用率。また、閾値の情報は、閾値情報(95a)に示すように設定されている。閾値超過確認(93)にて抽出された各リソースが設定された閾値情報(95a)の閾値を越えていないか確認する。閾値を超えた場合は、画面に表示し保守担当者に通知する。
上記事例に示すように、新規に起きた障害に関する対策情報を蓄積していくことにより、同様の障害発生時の復旧時間を短縮する事ができる。また、対策情報に無い場合も調査に必要なログ情報やリソース情報を編集し提供する事により専門知識が無くても障害情報を抽出できる。障害の検知、対策掲示が連携することにより障害時の早期対策が可能となる。
複数台または1台の業務サーバ、ネットワーク機器、業務アプリケーションが存在する様々なシステム環境を利用する産業分野において活用することが可能である。障害の発生を検知し、障害内容をログ情報より抽出し、障害対策情報を検索する事により、障害発生時の早期対策を実施し、復旧時間を短縮することが出来、業務の中断が最小限にとどめられることになる。また、障害対策情報に無い場合は、調査に必要なログ情報やリソース情報を編集し提供する事により専門知識が無くても障害情報を抽出でき、障害の検知、対策掲示が連携することにより障害時の早期対策が可能となる。
本発明の障害監視復旧支援装置の一実施例のブロック構成図 図1のキーワード情報、関連情報、メッセージ情報のテーブル図 図1のログ情報監視フローチャート図 図1の障害対策情報検索用キーワード生成例、障害対策情報、対策内容のテーブル図 図1の障害対策情報検索フローチャート図 図1の障害対策情報検索用キーワード生成例 図1の提供情報編集の出力例 図1の障害情報登録フローチャート図 図1のリソース監視フローチャート図、閾値情報のテーブル図
符号の説明
11 障害監視復旧支援装置
11a キーワード登録機能
11b ログ情報監視機能
11c 障害情報検索機能
11d 提供情報編集機能
11e 障害対策情報登録機能
11f キーワード情報、関連情報、メッセージ情報のテーブル
11g 障害対策情報検索用キーワード
11h 障害対策情報
11i ログ情報、リソース情報
11j リソース監視機能
11k リソース情報
12 監視対象サーバ(gyoumu1)
12a 監視対象サーバ(gyoumu1)ログ情報、リソース情報
13 監視対象サーバ(gyoumu2)
13a 監視対象サーバ(gyoumu2)ログ情報、リソース情報
14 監視対象サーバ(gyoumu3)
13a 監視対象サーバ(gyoumu3)ログ情報、リソース情報
15 ・・・障害監視復旧支援装置と監視対象サーバを接続するネットワーク及び監視対象ネットワーク機器(net1)
21 キーワード情報、関連情報、メッセージ情報のデータ
21a キーワード情報テーブル
21b 関連情報テーブル
21c メッセージ情報のテーブル
31 ログ情報取得処理
32 ログ抽出処理
33 キーワード確認
34 関連情報確認
35 関連サーバログ抽出処理
36 関連サーバ関連情報確認
37 障害対策情報検索用キーワード生成
41 障害対策情報検索用キーワード生成データ、
41a 業務サーバログ情報(出力例)、
41b 障害対策情報検索用キーワード(生成例)、
42 障害対策情報、対策情報データ
42a 障害対策情報テーブル
42b 対策情報テーブル
51 障害対策情報検索処理
52 対策情報表示処理
53 対策完了確認処理
54 障害回数カウントアップ処理
55 提供情報編集処理
56 提供情報を元に原因調査および対策
57 障害対策情報登録処理
61 障害対策情報検索用キーワード生成データ
61a 業務サーバログ情報(出力例)
61b 障害対策情報検索用キーワード(生成例)
71 新規障害情報
81 検索対象キーワードの選択処理
82 対策内容の入力処理
83 対策情報登録処理
84 登録例
84a 障害対策情報テーブル登録例
84b 対策情報テーブル登録例
91 リソース情報取得処理
92 リソース抽出処理
93 閾値超過確認処理
94 警告メッセージの表示、通知処理
95 閾値情報設定例

Claims (3)

  1. 業務サーバやネットワーク機器などの監視対象機器とともにネットワーク上に接続された障害監視復旧支援装置であって、
    上記監視対象機器から、OS・業務アプリケーションのログ情報、リソース情報及び障害発生時には障害情報を取得する監視部と、
    障害の内容や対策情報が登録され蓄積されている障害情報データベースと、
    発生した障害情報に関して上記障害情報データベースの検索結果としての対策情報を表示する表示部と、
    上記発生した障害情報に対する障害対策後に、該障害対策内容を上記障害情報データベースに登録し蓄積する障害対策支援部と、
    を有することを特徴とする障害監視復旧支援装置。
  2. 請求項1において、上記監視部は上記発生した障害情報が異機種・複数のアプリケーションに対応する、または、関連する業務サーバまたはネットワーク機器または業務アプリケーションが有る場合はそのログ情報も検索し必要情報を取得し、障害時のリソース状態も監視することにより障害時のサーバ状態も把握することを特徴とする障害監視復旧支援装置。
  3. 請求項1において、前記発生した障害情報をキーワードに上記障害情報データベースを検索した際に、上記検索結果としての対策情報が無い場合、調査に必要なログ情報及びリソース情報を編集して提供する、また、対策後は障害メッセージ・対策内容を障害情報データベースに登録できることを特徴とする障害監視復旧支援装置。
JP2004004925A 2004-01-13 2004-01-13 障害監視復旧支援装置 Pending JP2005202446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004004925A JP2005202446A (ja) 2004-01-13 2004-01-13 障害監視復旧支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004004925A JP2005202446A (ja) 2004-01-13 2004-01-13 障害監視復旧支援装置

Publications (1)

Publication Number Publication Date
JP2005202446A true JP2005202446A (ja) 2005-07-28

Family

ID=34819392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004004925A Pending JP2005202446A (ja) 2004-01-13 2004-01-13 障害監視復旧支援装置

Country Status (1)

Country Link
JP (1) JP2005202446A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249883A (ja) * 2006-03-20 2007-09-27 Fujitsu Ltd 障害解析装置及びプログラム
JP2007293699A (ja) * 2006-04-26 2007-11-08 Toshiba Corp プログラム異常動作時における解析用データ取得装置及びプログラム
JP2009276929A (ja) * 2008-05-13 2009-11-26 Hitachi Electronics Service Co Ltd 自動障害対応システム
JP2012079212A (ja) * 2010-10-05 2012-04-19 Hitachi Systems Ltd 情報処理装置、および障害復旧方法
JP2014215837A (ja) * 2013-04-25 2014-11-17 京セラドキュメントソリューションズ株式会社 機器管理システム、機器管理プログラム、および機器管理方法
WO2016045098A1 (zh) * 2014-09-26 2016-03-31 华为技术有限公司 交换机、控制器、系统及链路质量检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249883A (ja) * 2006-03-20 2007-09-27 Fujitsu Ltd 障害解析装置及びプログラム
JP2007293699A (ja) * 2006-04-26 2007-11-08 Toshiba Corp プログラム異常動作時における解析用データ取得装置及びプログラム
JP2009276929A (ja) * 2008-05-13 2009-11-26 Hitachi Electronics Service Co Ltd 自動障害対応システム
JP2012079212A (ja) * 2010-10-05 2012-04-19 Hitachi Systems Ltd 情報処理装置、および障害復旧方法
JP2014215837A (ja) * 2013-04-25 2014-11-17 京セラドキュメントソリューションズ株式会社 機器管理システム、機器管理プログラム、および機器管理方法
WO2016045098A1 (zh) * 2014-09-26 2016-03-31 华为技术有限公司 交换机、控制器、系统及链路质量检测方法
US10756994B2 (en) 2014-09-26 2020-08-25 Huawei Technologies Co., Ltd. Switch, controller, system, and link quality detection method

Similar Documents

Publication Publication Date Title
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
KR101436033B1 (ko) 운용 관리 장치, 운용 관리 방법 및 운용 관리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2014067369A (ja) 情報処理装置,プログラム,情報処理方法
JP2011034507A (ja) 動作履歴収集装置、動作履歴収集方法およびプログラム
CN111506470B (zh) 浏览器错误检测和告警方法、装置、设备及存储介质
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
JP6238221B2 (ja) ソフトウェアの実行を監視する装置、方法およびプログラム
JP2005202446A (ja) 障害監視復旧支援装置
JP2012094049A (ja) インシデント管理システムおよびインシデント管理プログラム
WO2014155517A1 (ja) エンジニアリングツール
JP2006085538A (ja) 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
CN107451056B (zh) 监听接口测试结果的方法及装置
JP2007293699A (ja) プログラム異常動作時における解析用データ取得装置及びプログラム
JP2007122429A (ja) 情報提供システム、装置、及び方法
JP2004038535A (ja) 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
JP5088738B2 (ja) 障害監視装置及び障害監視方法並びにそのためのプログラム
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
JPH11212826A (ja) 障害情報出力方式及び装置
JP2015032068A (ja) 情報処理画面出力装置、情報処理画面出力プログラム、および情報処理画面出力システム
JP2019133557A (ja) エラー対応支援プログラム、エラー対応支援装置及びエラー対応支援方法
JP2005044226A (ja) 操作情報収集システム
JP6443909B2 (ja) 障害検出装置、障害検出システム、障害検出方法、および、プログラム
Ramakrishna et al. A platform for end-to-end mobile application infrastructure analytics using system log correlation
JP7167749B2 (ja) 情報処理装置、情報処理システム、及び情報処理プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424