JP2016218844A - 監視装置 - Google Patents

監視装置 Download PDF

Info

Publication number
JP2016218844A
JP2016218844A JP2015104569A JP2015104569A JP2016218844A JP 2016218844 A JP2016218844 A JP 2016218844A JP 2015104569 A JP2015104569 A JP 2015104569A JP 2015104569 A JP2015104569 A JP 2015104569A JP 2016218844 A JP2016218844 A JP 2016218844A
Authority
JP
Japan
Prior art keywords
log
acquisition unit
failure
alarm number
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015104569A
Other languages
English (en)
Inventor
保輝 望月
Yasuteru Mochizuki
保輝 望月
井上 誠
Makoto Inoue
誠 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Network and System Integration Corp
Original Assignee
NEC Corp
NEC Network and System Integration Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Network and System Integration Corp filed Critical NEC Corp
Priority to JP2015104569A priority Critical patent/JP2016218844A/ja
Publication of JP2016218844A publication Critical patent/JP2016218844A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ログを過不足なく取得するのは困難であること。
【解決手段】計算機システムを監視する監視装置は、警報番号取得部とログ名取得部とログ取得部と通報部とを有する。警報番号取得部は、障害が発生した計算機システムから警報番号を取得する。ログ名取得部は、警報番号に対応してログ識別名を記録する対応表から、警報番号に対応するログ識別名を取得する。ログ取得部は、ログ識別名のログを計算機システムから取得する。通報部は、取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する。
【選択図】図1

Description

本発明は、計算機システムの監視装置、監視方法、およびプログラムに関する。
サーバ等の計算機システムの障害発生時に、障害の原因を究明するためのログを自動的に採取し、外部の端末へ通報する技術が提案ないし実用化されている。
例えば、計算機システムの電源投入時に、起動処理を行った後にアプリケーションを立ち上げる起動処理部と、システム電源を制御すると共に起動処理部の障害およびシステム運用中の障害を監視する障害監視部とを備えた計算機において、障害監視部で起動処理部の障害を検知した際に、起動処理部に保存されているシステムログを採取して外部のリモート保守管理システムに通報する障害通報部を備えることが、本発明に関連する第1の関連技術として提案されている(例えば特許文献1参照)。
また、ユーザ先の計算機システムを監視している障害監視通報装置が、計算機システムの障害を検出すると、計算機システム全てのログを採取して障害原因の解析を行う解析装置へ送信することが、本発明に関連する第2の関連技術として提案されている(例えば特許文献2参照)。
特開2001−325124号公報 特開2008−197698号公報
ところで、サーバ等の計算機システムのログには、システムログ、アプリケーションログなど多種多様な種類のログがあり、その目的や役割は同じではない。そのため、計算機システムの障害検出時に全てのログを採取する上記第2の関連技術では、障害原因の究明に役立たない大量のログが採取される無駄がある。他方、計算機システムの障害時にシステムログだけを採取する上記第1の関連技術では、障害原因の究明に役立つログが採取されないケースが発生し得る。
本発明の目的は、上述した課題、すなわち、ログを過不足なく取得するのは困難である、という課題を解決する監視装置を提供することにある。
本発明の一実施形態に係る監視装置は、
計算機システムを監視する監視装置であって、
障害が発生した前記計算機システムから警報番号を取得する警報番号取得部と、
前記警報番号に対応してログ識別名を記録する対応表から、前記取得した警報番号に対応する前記ログ識別名を取得するログ名取得部と、
前記取得した前記ログ識別名のログを前記計算機システムから取得するログ取得部と、
前記取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する送信部と、
を有する。
本発明の他の実施形態に係る監視方法は、
計算機システムに接続され、警報番号取得部とログ名取得部とログ取得部と通報部とを有する監視装置が実行する監視方法であって、
前記警報番号取得部が、障害が発生した前記計算機システムから警報番号を取得し、
前記ログ名取得部が、前記警報番号に対応してログ識別名を記録する対応表から、前記取得した警報番号に対応する前記ログ識別名を取得し、
前記ログ取得部が、前記取得した前記ログ識別名のログを前記計算機システムから取得し、
前記通報部が、前記取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する。
本発明の他の実施形態に係るプログラムは、
計算機システムを監視するコンピュータを、
障害が発生した前記計算機システムから警報番号を取得する警報番号取得部と、
前記警報番号に対応してログ識別名を記録する対応表から、前記取得した警報番号に対応する前記ログ識別名を取得するログ名取得部と、
前記取得した前記ログ識別名のログを前記計算機システムから取得するログ取得部と、
前記取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する通報部と、
して機能させる。
本発明は上述した構成を有するため、計算機システムで障害が発生した際、ログを過不足なく取得して、保守会社端末へ送信することができる。
本発明の第1の実施形態に係る監視装置のブロック図である。 本発明の第1の実施形態に係る監視装置の動作の一例を示すフローチャートである。 本発明の第2の実施形態のブロック図である。 本発明の第2の実施形態における収集ログ一覧表のフォーマット例を示す図である。 本発明の第2の実施形態における収集ログ一覧表の具体例を示す図である。 本発明の第2の実施形態における過去事象一覧表のフォーマット例を示す図である。 本発明の第2の実施形態における過去事象一覧表の具体例を示す図である。 本発明の第2の実施形態における工事予定一覧表のフォーマット例を示す図である。 本発明の第2の実施形態における工事予定一覧表の具体例を示す図である。 本発明の第2の実施形態に係る監視装置のブロック図である。 本発明の第2の実施形態における障害発生状況連絡画面のフォーマット例を示す図である。 本発明の第2の実施形態に係る監視装置の動作の一例を示すフローチャートである。 本発明の第2の実施形態に係る監視装置による障害発生状況連絡画面作成動作の一例を示すフローチャートである。 本発明の第2の実施形態における障害発生状況連絡画面の一例を示す図である。 本発明の第2の実施形態における障害発生状況連絡画面の他の例を示す図である。 本発明の第2の実施形態における障害発生状況連絡画面の他の例を示す図である。 本発明の第3の実施形態に係る監視装置のブロック図である。
次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態に係る監視装置100は、サービス提供装置110を監視する機能を有する。監視装置100は、サービス提供装置110にLAN等の通信ネットワークを通じて接続されている。また監視装置100は、対応表121を記憶する記憶部120にLAN等の通信ネットワークを通じて接続されている。さらに監視装置100は、保守会社端末130にLAN等の通信ネットワークを通じて接続されている。
サービス提供装置110は、図示しないユーザ端末に対して通信サービスや情報提供サービスなどの所定のサービスを提供する計算機システムである。サービス提供装置110は、自装置のハードウェアおよびソフトウェアに障害が発生したことを検出すると、検出した障害の種類に応じた警報番号を有する警報を監視装置100へ通知する機能を有する。またサービス提供装置110は、監視装置100からログ識別名を有するログ取得要求を受信すると、そのログ識別名に対応するログを自装置から採取して監視装置100へ送信する機能を有する。
記憶部120に記憶されている対応表121は、警報番号とログ識別名との対応関係を記録している。対応表121は、好ましくは、警報番号のそれぞれに対応して、その警報番号に対応する種類の障害の原因究明に使用する1以上のログの識別名を記録し、原因究明に使用しないログの識別名は記録していない。
監視装置100は、主な機能部として、警報番号取得部101、ログ名取得部102、ログ取得部103、および通報部104を有する。
警報番号取得部101は、障害が発生したサービス提供装置110から警報番号を取得する機能を有する。具体的には、警報番号取得部101は、サービス提供装置110から警報を受信し、受信した警報に含まれる警報番号を取得する。
ログ名取得部102は、対応表121から警報番号に対応するログ識別名を取得する機能を有する。具体的には、ログ名取得部102は、警報番号取得部101から上記取得した警報番号を受け取り、その警報番号に対応するログ識別名を対応表121から取得する。
ログ取得部103は、ログ識別名のログをサービス提供装置110から取得する機能を有する。具体的には、ログ取得部103は、ログ名取得部102から上記取得したログ識別名を受け取り、そのログ識別名を有するログ取得要求をサービス提供装置110へ送信し、上記ログ取得要求に対する応答であるログをサービス提供装置110から受信する。
通報部104は、ログを含む障害発生状況連絡情報を生成して保守会社端末130へ送信する機能を有する。具体的には、通報部104は、ログ取得部103から上記取得したログを受け取り、そのログを含む障害発生状況連絡情報を生成し、電子メール等により保守会社端末130へ送信する。
図2は監視装置100の動作の一例を示すフローチャートである。以下、図2を参照して、本実施形態に係る監視装置100の動作を説明する。
サービス提供装置110上で障害が発生し、障害の種類に応じた警報番号を有する警報がサービス提供装置110から監視装置100へ送信されると、まず、警報番号取得部101が、その警報を受信し、その警報に含まれる警報番号を取得してログ名取得部102へ伝達する(ステップS101)。
次に、ログ名取得部102が、対応表121を参照して、上記警報番号に対応するログ識別名を取得し、ログ取得部103へ伝達する(ステップS102)。
次に、ログ取得部103が、上記ログ識別名を取得対象ログに指定したログ取得要求をサービス提供装置110へ送信し、その応答であるログをサービス提供装置110から受信して通報部104へ伝達する(ステップS103)。
最後に、通報部104が、上記ログを含む障害発生状況連絡情報を生成して保守会社端末130へ送信する(ステップS104)。
このように本実施形態によれば、サービス提供装置110で障害が発生した際、ログを過不足なく取得して、保守会社端末130へ送信することができる。
その理由は、監視装置100は、障害が発生したサービス提供装置110から取得した警報番号に対応するログ識別名を対応表121から取得し、その取得したログ識別名のログをサービス提供装置110から取得し、この取得したログを含む障害発生状況連絡情報を生成して保守会社端末130へ送信するためである。
本実施形態は、上述した構成および動作を基本としつつ、以下のような各種の付加変更が可能である。
通報部104は、障害が発生した日時が工事期間中に含まれる工事の情報を工事予定一覧表から検索して障害発生状況連絡情報に加えるようにしてよい。通報部104は、例えばサービス提供装置110から送信される警報中に障害発生日時が含まれる場合、警報中から障害発生日時を抽出してよい。或いは通報部104は、サービス提供装置110から警報を受信した日時を障害発生日時としてよい。工事予定一覧表は、監視装置100のローカルファイルに記憶されていてもよいし、遠隔地に存在するリモートファイルに記憶されていてもよい。
通報部104は、障害が発生した装置の警報番号に係る過去の障害事例を過去事象一覧表から検索して障害発生状況連絡情報に加えるようにしてよい。過去事象一覧表は、監視装置100のローカルファイルに記憶されていてもよいし、遠隔地に存在するリモートファイルに記憶されていてもよい。
通報部104は、生成した障害発生状況連絡情報をシステム運用者端末に表示するようにしてよい。また通報部104は、生成した障害発生状況連絡情報をシステム運用者端末からの送信指示を待たずに保守会社端末130へ送信するか否かを、収集ログ一覧表121に記載される保守申告判定の情報に基づいて決定してよい。
[第2の実施形態]
次に本発明の第2の実施形態について詳細に説明する。
<本実施形態の特徴>
本実施形態では、サービス提供装置の障害発生時に出力されるアラーム(警報)をトリガーとして、自動的に対象ログを採取して保守会社(障害解析を行うメーカー)へ自動送付する方法を提供することにより、システム運用者の作業負担軽減、および障害切り分けから復旧までの迅速化を容易とする。
<本実施形態が解決しようとする課題>
現状では、サービス提供装置の障害発生時に出力されるアラームをシステム運用者が確認し、電子メールや電話等で保守会社に問い合わせをしている。また、システム運用者は当該アラームの文面を手入力で電子メールに書き込むと共に、メーカーから予め指定されているログがある場合は手動で収集して電子メールに添付する等してメーカーに連絡をしている。
しかしながら、上述した方法では、障害発生から解決までには、まず障害が発生したシステムの運用者が障害の連絡を保守会社に行う必要がある。また、保守会社は問題解析に必要なログや障害発生時の補足情報をシステム運用者から収集し、問題の解決にあたる必要がある。このため、保守会社が障害申告を受けるまでに要する時間が大きくなり、問題の解決までの時間もそれに伴い長くなる。
保守会社へ保守申告をするまでの時間が長くなる要因として、システム運用者が当該アラームに気が付かず放置する状態があること、また、システム運用者のスキルレベルに依存することがあげられる。例えば、当該アラームが発生した場合にメーカーから予め指定されているログを採取する手順が分からず、確認しているうちに時間が経過する。また、障害メッセージに応じて採取するログが異なり、どのログを採取すれば良いのかを確認することに時間を要することがある。また、保守会社が保守申告を受ける時間が長時間になるにつれて、該当の障害を解析するために必要なログ情報が消えてしまうシステムが多く、解析不可能となってしまう要因ともなる場合がある。
<本実施形態による解決手段>
本実施形態では、障害発生時に出力されるアラームをトリガーとして、自動的に対象ログを採取する仕組み、および採取したログを保守会社へ自動送付する仕組みを提供する。この仕組みにより、システム運用者の作業負担軽減、および障害切り分けから復旧までの迅速化が可能になる。
<本実施形態の構成>
図3を参照すると、本実施形態に係る監視装置200は、サービス提供装置210を監視するために当該サービス提供装置210に接続されている。また監視装置200には、警報とログの対応データである収集ログ一覧表221を記憶する記憶装置220、工事予定一覧表241を記憶する記憶部240、および過去事象一覧表251を記憶する記憶部250、システム運用者端末270が接続されている。さらに監視装置200は、インターネットなどのデータ通信網260を通じて保守会社端末230に接続されている。
サービス提供装置210は、自装置を構成するハードウェアやソフトウェアの障害を検出して障害箇所に応じた警報ログを出力する機能、該当の警報を監視装置200に送信する機能、監視装置200からのログ収集要求に応じて該当ログを返信する機能を有する。監視装置200に送信される警報の中には、装置名、警報番号、障害発生日時が含まれている。またログ収集要求によってサービス提供装置210から収集できるログとしては、例えば、ハードウェアログ、システムログ、各アプリケーションのログなどがある。
図4は収集ログ一覧表221のフォーマットの一例を示す。この例では、収集ログ一覧表221は、装置名、警報番号、自動ログ収集判定、保守申告判定、収集ログ名といった項目を有する。装置名の項目には、サービス提供装置210の名前が記載される。警報番号の項目には、サービス提供装置210で発生する警報番号が記載される。自動ログ収集判定の項目には、ログの収集を自動的に行うか否かが記載される。保守申告判定の項目には、保守会社端末230への連絡を自動的に行うか否かが記載される。収集ログ名の項目には、収集するログの識別名が記載される。収集ログ名の項目は、収集するログの数だけ存在する。
図5は収集ログ一覧表221の具体例を示す。例えば、1行目のエントリの情報は、サービス提供装置210で警報番号「300」の警報が発生した場合、ハードウェアログという名前のログを自動的に収集すること、保守会社端末230への連絡を手動で行うことを表している。また、2行目のエントリの情報は、サービス提供装置210で警報番号「301」の警報が発生した場合、システムログという名前のログとアプリAという名前のログを自動的に収集すること、保守会社端末230への連絡を自動的に行うことを表している。また、3行目のエントリの情報は、サービス提供装置210で警報番号「302」の警報が発生した場合、システムログという名前のログ、アプリBという名前のログ、アプリCという名前のログ、およびアプリDという名前のログを自動的に収集すること、保守会社端末230への連絡を自動的に行うことを表している。
図6は過去事象一覧表251のフォーマットの一例を示す。この例では、過去事象一覧表251は、装置名、警報番号、発生日時、障害名、対処方法といった項目を有する。装置名の項目には、サービス提供装置210の名前が記載される。警報番号の項目には、サービス提供装置210で発生した警報番号が記載される。発生日時の項目には、サービス提供装置210で警報が発生した日時が記載される。障害名の項目には、発生した障害を特徴付ける名前が記載される。対処方法の項目には、発生した障害に対する対処方法が記足される。
図7は過去事象一覧表251の具体例を示す。例えば、1行目のエントリの情報は、サービス提供装置210において2014年11月11日の12時00分に警報番号「301」の警報が発生し、その警報に係る障害名は「通信リンク断」であり、その対処方法は現在調査中であることを表している。また2行目のエントリの情報は、サービス提供装置210において2014年12月9日の22時00分に警報番号「302」の警報が発生し、その障害に係る障害名は「ECC1ビットエラー」であり、その対処は不要であることを表している。また3行目のエントリの情報は、サービス提供装置210において2015年1月9日の12時00分に警報番号「309」の警報が発生し、その警報に係る障害名は「温度閾値超過」であり、その対処はリセットボタン押下であることを表している。
図8は工事予定一覧表241のフォーマットの一例を示す。この例では、工事予定一覧表241は、工事開始日時、工事終了日時、対象装置、対象ポート、工事内容、作業責任者連絡先といった項目を有する。工事開始日時の項目には、工事を開始する日時が記載される。工事終了日時の項目には、工事を終了する日時が記載される。対象装置の項目には、工事を行う装置の名前が記載される。対象ポートの項目には、工事を行う通信ポートが記載される。工事内容の項目には、工事の内容が記載される。作業責任者連絡先の項目には、工事作業の責任者の連絡先(電話番号やメールアドレスなど)が記載される。
図9は工事予定一覧表241の具体例を示す。例えば、1行目のエントリの情報は、2014年12月25日の0時00分から2015年1月9日の12時00分まで、NodeA0012(サービス提供装置210の対向)の021ポートを対象として、回線閉塞(xxシステムの装置交換)のための工事を実施し、その責任者の連絡先は望月 090−cdef−ghijであることを表している。また2行目のエントリの情報は、2015年1月11日の18時00分から2015年1月14日の17時00分まで、NodeA0033(サービス提供装置210の対向)の030ポートを対象として、回線閉塞(△装置更改)のための工事を実施し、その責任者の連絡先は望月 090−cdef−ghijであることを表している。また3行目のエントリの情報は、2015年1月13日の0時00分から2015年1月13日の6時00分まで、NodeA0012(サービス提供装置210の対向)の030ポートを対象として、回線閉塞(xxシステムの装置交換)のための工事を実施し、その責任者の連絡先は井上 090−cdef−ghijであることを表している。
保守会社端末230は、インターネットなどのデータ通信網260を介して監視装置200と接続されている。保守会社端末230は、監視端末200からのメールを受信する機能を有する。また、保守会社端末230は、監視端末200から送信されるログを受信する機能を有する。
監視装置200は、サービス提供装置210から警報を受信する機能、警報番号を基にして収集ログ一覧表221を検索し、サービス提供装置210にログ収集要求をする機能などを有する。
図10は監視装置200のブロック図である。監視装置200は、主な機能部として、警報番号取得部201、ログ名取得部202、ログ取得部203、および通報部204を有する。
警報番号取得部201は、サービス提供装置210から警報を受信する機能を有する。また警報番号取得部201は、受信した警報の中から装置名と警報番号と障害発生日時とを取得し、ログ名取得部202に通知する機能を有する。
ログ名取得部202は、警報番号取得部201から通知された装置名と警報番号の組に一致する装置名と警報番号の組を有するエントリを収集ログ一覧表221から検索する機能を有する。またログ名取得部202は、検索に成功した収集ログ一覧表221のエントリの記載項目から収集ログ名を取得し、必要な他の情報と一緒にログ取得部203に通知する機能を有する。またログ名取得部202は、検索に失敗した場合、所定の処理を行う機能を有する。
ログ取得部203は、ログ名取得部202から通知された収集ログ名のログをサービス対象装置210から取得する機能を有する。ログ取得部203は、取得したログを必要な他の情報と一緒に通報部204に通知する機能を有する。
通報部204は、障害の発生した装置名や障害発生日時などをメール本文に記載したメールを作成し、保守会社端末230へ送信する機能を有する。また通報部204は、ログ取得部203から通知されたログをメールに添付する機能を有する。また通報部204は、障害発生日時が工事期間中に含まれる工事の情報を工事予定一覧表241から検索してメール本文に記載する機能を有する。また通報部204は、同じ装置名と警報番号に係る過去の障害事例を過去事象一覧表251から検索してメール本文に記載する機能を有する。また通報部204は、システム運用者端末270を通じてシステム運用者と対話処理を行う機能を有する。
図11は、通報部204がシステム運用者端末270に表示するメーカーへの障害発生状況連絡画面271のフォーマット例を示す。この例の障害発生状況連絡画面271は、メール送信ボタン272、宛先入力欄273、Cc入力欄274、件名入力欄275、添付ファイル入力欄276、メール本文入力欄277、キャンセルボタン278を有する。メール送信ボタン272は、障害発生状況連絡画面271で作成したメールを手動で送信する際に利用する。メールが通報部204によって自動送信される場合、このメール送信ボタン272は使用されない。宛先入力欄273とCc入力欄274には、予め定められた保守会社やサービス提供会社のメールアドレスが記載される。件名入力欄275には、障害の発生したサービス提供装置名と警報番号が記載される。添付ファイル入力欄276には、サービス提供装置210から収集されたログを記録したファイルが記載される。メール本文入力欄277には、メール本文が記載される。キャンセルボタン278は、メーカーに問い合わせしない、即ちメールを送信しないときに使用する。キャンセルボタン278が操作されると、メールは送信されず、障害発生状況連絡画面271は閉じられる。
図12は監視装置200の動作の一例を示すフローチャートである。以下、図12を参照して、本実施形態に係る監視装置200の動作を説明する。
サービス提供装置210において何かしらの障害が発生すると、サービス提供装置210は、監視装置200に対して該当の障害の発生を示す警報を送信する。この警報の中には、装置名、警報番号、障害発生日時が含まれている。
監視装置200は、サービス提供装置210から警報を受け取ると、図12に示す処理の実行を開始する。まず、警報番号取得部201は、受け取った警報の中から装置名と警報番号と障害発生日時を取り出す(ステップS201)。次に、ログ名取得部202は、上記装置名と警報番号をキーに収集ログ一覧表221を検索する(ステップS202)。
ログ名取得部202は、上記検索に成功した場合(ステップS203でYES)、すなわち収集ログ一覧表221から上記装置名と警報番号に一致する装置名と警報番号を有するエントリを検索した場合、当該エントリ中の自動ログ収集判定が「自動」である否か、収集ログ名が記載されているか否かを調べる(ステップS204、S205)。エントリ中の自動ログ収集判定が「自動」であり且つ収集ログ名が記載されている場合、ログ取得部203は、上記記載された収集ログ名のログをサービス提供装置210から収集する(ステップS206)。そして、通報部204は障害発生状況連絡画面271を作成し、システム運用者端末270に表示する(ステップS207)。他方、ログ名取得部202による上記検索が失敗した場合(ステップS203でNO)、および当該検索に成功したが検索したエントリ中の自動ログ収集判定が「自動」でないか(ステップS204でNO)、収集ログ名が記載されていない場合(ステップS205でNO)、ログ取得部203によるログ収集ステップS206はスキップされ、通報部204は障害発生状況連絡画面271を作成し、システム運用者端末270に表示する(ステップS207)。
次に、通報部204は、上記検索された収集ログ一覧表221のエントリ中の保守申告判定が「自動」であるか否かを調べ(ステップS208)、「自動」であれば、上記作成した障害発生状況連絡画面271に基づくメールを保守会社端末230へ送信する(ステップS209)。また通報部204は、上記検索された収集ログ一覧表221のエントリ中の保守申告判定が「自動」でなければ(ステップS208でNO)、障害発生状況連絡画面271上のメール送信ボタンまたはキャンセルボタンが押下されたか否かを判定する(ステップS210、S211)。そして、通報部204は、メール送信ボタンが押下されたならば、上記作成した障害発生状況連絡画面271に基づくメールを保守会社端末230へ送信する(ステップS209)。また通報部204は、キャンセルボタンが押下されたならば、保守会社端末230へのメールによる通報を行わず、障害発生状況連絡画面271を閉じる(ステップS212)。
図13は、図12のステップS207の詳細、すなわち障害発生状況連絡画面271の作成手順の一例を示すフローチャートである。図13のフローチャートに示すように、通報部204は、まず、障害発生状況連絡画面271の宛先入力欄273、Cc入力欄274に予め設定された送信先、Cc先の情報を記載する(ステップS221)。次に通報部204は、件名入力欄275に警報から取り出した装置名と警報番号を含む文面を記載する(ステップS222)。次に通報部204は、ログ取得部203によって収集したログを添付ファイル入力欄276に記載する(ステップS223)。通報部204は、ログ取得部203によるログ収集が実施されていない場合、添付ファイル入力欄276は空白にする。
次に通報部204は、障害発生状況連絡画面271のメール本文入力欄277に、定型文、事象、発生日時、装置名、工事予定、収集ログ、参考、コメントの各項目を順次記載する(ステップS224〜S231)。通報部204は、定型文の作成では、予め設定された定型文をメール本文入力欄277の先頭部分に記載する。通報部204は、事象、発生日時、装置名の各項目には、警報から取り出した警報番号、障害発生日時、装置名を記載する。
通報部204は、工事予定の項目には、障害発生日時が工事期間中に含まれる工事の情報を工事予定一覧表241から検索して記載する。具体的には、通報部204は、工事予定一覧表241のエントリのうち、工事開始日時が障害発生日時以前の日時であり、且つ工事終了日時が障害発生日時以降の日時であるエントリを全て検索する。これで、障害が発生した時刻に実施している関連したシステムの工事情報が取り出せる。このような工事の情報は、障害の解析に有効である。例えば、発生した障害が通信リンク切断のとき、その通信リンクの接続先のシステムが工事中で閉塞状態になっていることが工事情報で判明すれば、装置(通信リンク)自体の故障ではなく、回線閉塞による通信リンク切断が原因であるケースと分かる。そのため、保守会社が障害発生時刻の工事情報を知ることは、障害の解決スピードを速める効果がある。
通報部204は、収集ログの項目には、収集ログの有無を記載する。通報部204は、参考の項目には、同じ装置名と警報番号に係る過去の障害事例を過去事象一覧表251から検索して記載する。具体的には、通報部204は、警報から取り出した装置名と警報番号との組を有する全てのエントリを過去事象一覧表251から検索する。これで、過去に発生した同一装置の同件問題を知ることができる。
通報部204は、コメントの項目には、システム運用者端末270を通じてシステム運用者から入力されたコメントを記載する。
次に、本実施形態に係る監視装置200の動作を具体例に基づいて説明する。
<具体例1>
サービス提供装置210から、装置名=サービス提供装置210、警報番号=301、障害発生日時=2015/1/13 05:12、を含む警報が監視装置200に出されたとする。
監視装置200は、サービス提供装置210から当該警報を受け取ると、図12に示す処理の実行を開始する。まず、警報番号取得部201は、受け取った警報の中に含まれる装置名(サービス提供装置201)と警報番号(301)と障害発生日時(2015/1/13 05:12)を取り出す。次にログ名取得部202は、サービス提供装置201と警報番号301の組を有するエントリを収集ログ一覧表221から検索し、図5の2行目のエントリを取得する。このエントリの自動ログ収集判定は「自動」であり、収集ログ名1と収集ログ名2とに収集ログ名が記載されている。そのため、ログ取得部203は、収集ログ名1に記載された「システムログ」と収集ログ名2に記載された「アプリAログ」とをサービス提供装置210から取得する。
次に通報部204は、メーカーへの障害発生状況連絡画面271を作成する。図14はこのとき作成された障害発生状況連絡画面271の一例を示す。図14に示す障害発生状況連絡画面271では、宛先入力欄273に保守会社○○のメールアドレスが、Cc入力欄274にサービス提供会社△△のメールアドレスが、件名入力欄275に、サービス提供装置210において警報番号301の警報が発生した旨が、それぞれ記載されている。また添付ファイル入力欄276に、サービス提供装置210から収集されたログとして、システムログとアプリAログが記載されている。またメール本文入力欄277には、所定の定型文につづいて、[事象]、[発生日時]、[装置名]、[工事予定]、[収集ログ]、[参考]、[コメント]の欄が記載されている。そして、[事象]の欄には、障害番号を表す「障害301」が記載され、[発生日時]の欄には、「2015/1/13 05:12 発生」が記載され、[装置名]の欄には、「サービス提供装置210」が記載されている。また[工事予定]の欄には、「2015/1/11 18:00〜2015/1/14 17:00 回線閉塞(△装置更改) 2015/1/13 0:00〜2015/1/13 6:00 回線閉塞(xxシステム装置交換)」が記載されている。また[収集ログ]の欄には、収集されたログが存在する旨が記載されている。また[参考]の欄には、「過去同件問題 2014/11/11 12:00 通信リンク断 対処方法 調査中」が記載されている。また[コメント]の欄は空白になっている。
次に通報部204は、上記検索された収集ログ一覧表221のエントリの保守申告判定が「自動」なので、上記作成した障害発生状況連絡画面271に基づくメールを、データ通信網260を介して保守会社端末230に自動送信する。次に通報部204は、該当の保守申告メールを保守会社に自動送信したことをシステム保守者に示すために、システム運用者端末270に図15に示すような障害発生状況連絡画面271を表示する。図15に示す障害発生状況連絡画面271にはメール送信ボタン272はなく、自動送信した旨のメッセージが画面の下部に記載されている。
この具体例1に示すように、警報に含まれる装置名と警報番号の組に対応付けて、収集する必要のある1以上のログ名を記載し、また自動ログ収集判定と保守申告判定とを共に「自動」に設定したエントリを収集ログ一覧表221に事前に記録しておくことにより、ログを過不足なく収集して保守会社に通報する動作を自動化することができる。
<具体例2>
サービス提供装置210から、装置名=サービス提供装置210、警報番号=309、障害発生日時=2015/1/13 05:12、を含む警報が監視装置200に出されたとする。なお、サービス提供装置210と警報番号(309)を有するエントリは収集ログ一覧表221には存在しないものとする。
監視装置200は、サービス提供装置210から当該警報を受け取ると、図12に示す処理の実行を開始する。まず、警報番号取得部201は、受け取った警報の中に含まれる装置名(サービス提供装置201)と警報番号(309)と障害発生日時(2015/1/13 05:12)を取り出す。次にログ名取得部202は、サービス提供装置201と警報番号309の組を有するエントリを収集ログ一覧表221から検索するが、該当するエントリは存在しない。そのため、ログ取得部203による自動的なログ収集は行われない。
次に通報部204は、メーカーへの障害発生状況連絡画面271を作成する。図16はこのとき作成された障害発生状況連絡画面271の一例を示す。図16に示す障害発生状況連絡画面271は、図14に示す障害発生状況連絡画面271と比較して、以下の点が相違する。件名入力欄275に、サービス提供装置210において警報番号309の警報が発生した旨が記載されている。また添付ファイル入力欄276は空白である。即ち、添付ファイルはない。また、メール本文入力欄277における[事象]の欄には「障害309」が記載され、[収集ログ]の欄には、ログがないこと(収集ログ一覧表には存在しないこと)が記載されている。また[参考]の欄には、「過去同件問題 2015/1/9 12:00 サービス提供装置210 温度閾値超過 対処方法 サービス提供装置210 リセットボタン押下」が記載されている。
次に通報部204は、障害発生状況連絡画面271上のメール送信ボタンが押下されたならば、上記作成した障害発生状況連絡画面271に基づくメールを保守会社端末230へ送信する。また通報部204は、キャンセルボタンが押下されたならば、保守会社端末230へのメールによる通報を行わず、障害発生状況連絡画面271を閉じる。
この具体例2に示すように、警報に含まれる装置名と警報番号の組に対応するエントリが収集ログ一覧表221に存在しない場合、ログは自動的に収集されず、システム運用者によるメール送信の指示を待って保守会社に通報される。これによって、システム運用者は障害発生状況連絡画面の内容を送信前に確認することができる。またシステム運用者の手動によるログ収集の機会が確保される。システム運用者は、必要に応じてログを収集し、手動でメールに添付して保守会社に送信することが可能である。但し、警報に含まれる装置名と警報番号の組に対応するエントリが収集ログ一覧表221に存在しない場合、メール送信を手動とすることは一例であり、保守申告判定が「自動」の場合と同様にメール送信を自動的に実行するようにしてもよい。
このように本実施形態によれば、以下のような効果を得ることができる。
第一の効果は、障害アラーム発生後に、システム運用者がログを収集し保守会社に連絡を取るまでの時間が大幅に軽減されることである。
第二の効果は、障害アラーム発生後に、システム運用者がログ収集手順を確認し、それらのログを収集する負担が軽減されることである。
第三の効果は、障害発生の報告を保守会社へ連絡する際に作成する電子メールが自動作成されるため、保守会社へ連絡を取るまでの時間が短縮されることである。
第四の効果は、障害発生から時間が経過すると障害ログが消えてしまう可能性があるが、本実施形態によれば障害が発生してから速やかに収集対象のログを取得できるため、該当の障害を含むログを取得することができる。
第五の効果は、保守会社へ連絡する際の電子メールが自動生成される中に、工事予定情報が含まれるため、障害発生時の状況を短時間に知ることができるようになることである。その結果、障害解析に所要する時間が短縮される。
第六の効果は、障害アラームが発生した際に、過去に同一装置で発生した同一事象のデータをシステムが自動で検索して過去の対処方法と共に出力されるため、システム運用者や保守会社が過去の同件問題かどうかを判断することが可能となることである。
[第3の実施形態]
図17は本発明の第3の実施形態に係る監視装置300のハードウェア構成の一例を示す図である。本実施形態に係る監視装置300は、1以上のマイクロプロセッサ等の演算処理部310と、本発明の第2の実施形態に係る監視装置200が利用する収集ログ一覧表221、工事予定一覧表241、過去事象一覧表251を記憶するためのメモリやハードディスク等の記憶部320とを有する情報処理装置330と、プログラム340とで実現される。プログラム340は、監視装置300の立ち上げ時等に外部のコンピュータ読み取り可能な記録媒体からメモリに読み込まれ、演算処理部310の動作を制御することにより、演算処理部310上に、本発明の第1の実施形態に係る監視装置100が備える警報番号取得部101、ログ名取得部102、ログ取得部103、通報部104、あるいは本発明の第2の実施形態に係る監視装置200が備える警報番号取得部201、ログ名取得部202、ログ取得部203、通報部204といった機能的手段を実現する。
本発明は、サービス提供装置などの計算機システムを監視する装置全般に利用可能である。
100、200、300…監視装置
101、201…警報番号取得部
102、202…ログ名取得部
103、203…ログ取得部
104、204…通報部
120、220、230、240…記憶部
121、221…収集ログ一覧表
130、230…保守会社端末
241…工事予定一覧表
251…過去事象一覧表
270…システム運用者端末

Claims (7)

  1. 計算機システムを監視する監視装置であって、
    障害が発生した前記計算機システムから警報番号を取得する警報番号取得部と、
    前記警報番号に対応してログ識別名を記録する対応表から、前記取得した警報番号に対応する前記ログ識別名を取得するログ名取得部と、
    前記取得した前記ログ識別名のログを前記計算機システムから取得するログ取得部と、
    前記取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する通報部と、
    を有する監視装置。
  2. 前記通報部は、前記障害が発生した日時が工事期間中に含まれる工事の情報を工事予定一覧表から検索して前記障害発生状況連絡情報に加える、
    請求項1に記載の監視装置。
  3. 前記通報部は、前記障害が発生した装置の前記警報番号に係る過去の障害事例を過去事象一覧表から検索して前記障害発生状況連絡情報に加える、
    請求項1または2に記載の監視装置。
  4. 前記通報部は、前記生成した前記障害発生状況連絡情報をシステム運用者端末に表示する、
    請求項1乃至3の何れかに記載の監視装置。
  5. 前記通報部は、前記生成した前記障害発生状況連絡情報をシステム運用者端末からの送信指示を待たずに前記保守会社端末へ送信するか否かを、前記対応表に記載される保守申告判定の情報に基づいて決定する、
    請求項1乃至4の何れかに記載の監視装置。
  6. 計算機システムに接続され、警報番号取得部とログ名取得部とログ取得部と通報部とを有する監視装置が実行する監視方法であって、
    前記警報番号取得部が、障害が発生した前記計算機システムから警報番号を取得し、
    前記ログ名取得部が、前記警報番号に対応してログ識別名を記録する対応表から、前記取得した警報番号に対応する前記ログ識別名を取得し、
    前記ログ取得部が、前記取得した前記ログ識別名のログを前記計算機システムから取得し、
    前記通報部が、前記取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する、
    監視方法。
  7. 計算機システムを監視するコンピュータを、
    障害が発生した前記計算機システムから警報番号を取得する警報番号取得部と、
    前記警報番号に対応してログ識別名を記録する対応表から、前記取得した警報番号に対応する前記ログ識別名を取得するログ名取得部と、
    前記取得した前記ログ識別名のログを前記計算機システムから取得するログ取得部と、
    前記取得したログを含む障害発生状況連絡情報を生成して保守会社端末へ送信する通報部と、
    して機能させるためのプログラム。
JP2015104569A 2015-05-22 2015-05-22 監視装置 Pending JP2016218844A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015104569A JP2016218844A (ja) 2015-05-22 2015-05-22 監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015104569A JP2016218844A (ja) 2015-05-22 2015-05-22 監視装置

Publications (1)

Publication Number Publication Date
JP2016218844A true JP2016218844A (ja) 2016-12-22

Family

ID=57578547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015104569A Pending JP2016218844A (ja) 2015-05-22 2015-05-22 監視装置

Country Status (1)

Country Link
JP (1) JP2016218844A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207517A (ja) * 2018-05-29 2019-12-05 株式会社リコー 情報処理システム、情報処理装置、及び管理サーバ
JP2020102100A (ja) * 2018-12-25 2020-07-02 Necプラットフォームズ株式会社 ログ取得装置、ログデータ取得方法およびログデータ取得プログラム

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744422A (ja) * 1993-07-30 1995-02-14 Fujitsu Ltd 監視システム
JPH08286990A (ja) * 1995-04-12 1996-11-01 Hitachi Electron Service Co Ltd 電子メール連動型障害監視システム
JP2001325124A (ja) * 2000-05-17 2001-11-22 Fujitsu Ltd 計算機、システム管理支援装置及び管理方法
JP2003044322A (ja) * 2001-07-27 2003-02-14 Nec Soft Ltd 障害解析支援システム及び方法
JP2003216558A (ja) * 2002-01-22 2003-07-31 Canon Inc デバイス端末装置、ネットワークシステム、電子メール通知方法、記憶媒体、及びプログラム
JP2003345628A (ja) * 2002-05-29 2003-12-05 Hitachi Ltd 障害調査資料採取方法及びその実施システム並びにその処理プログラム
JP2005173958A (ja) * 2003-12-11 2005-06-30 Olympus Corp 医療情報システムの障害情報管理装置、方法、及びプログラム
JP2006190138A (ja) * 2005-01-07 2006-07-20 Mitsubishi Electric Corp アラーム管理装置及びアラーム管理方法及びプログラム
JP2008027022A (ja) * 2006-07-19 2008-02-07 Hitachi Software Eng Co Ltd 障害資料採取システム
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
JP2011118695A (ja) * 2009-12-03 2011-06-16 Hitachi Ltd 情報処理システム、情報処理装置、及び管理コンピュータ
JP2012079212A (ja) * 2010-10-05 2012-04-19 Hitachi Systems Ltd 情報処理装置、および障害復旧方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744422A (ja) * 1993-07-30 1995-02-14 Fujitsu Ltd 監視システム
JPH08286990A (ja) * 1995-04-12 1996-11-01 Hitachi Electron Service Co Ltd 電子メール連動型障害監視システム
JP2001325124A (ja) * 2000-05-17 2001-11-22 Fujitsu Ltd 計算機、システム管理支援装置及び管理方法
JP2003044322A (ja) * 2001-07-27 2003-02-14 Nec Soft Ltd 障害解析支援システム及び方法
JP2003216558A (ja) * 2002-01-22 2003-07-31 Canon Inc デバイス端末装置、ネットワークシステム、電子メール通知方法、記憶媒体、及びプログラム
JP2003345628A (ja) * 2002-05-29 2003-12-05 Hitachi Ltd 障害調査資料採取方法及びその実施システム並びにその処理プログラム
JP2005173958A (ja) * 2003-12-11 2005-06-30 Olympus Corp 医療情報システムの障害情報管理装置、方法、及びプログラム
JP2006190138A (ja) * 2005-01-07 2006-07-20 Mitsubishi Electric Corp アラーム管理装置及びアラーム管理方法及びプログラム
JP2008027022A (ja) * 2006-07-19 2008-02-07 Hitachi Software Eng Co Ltd 障害資料採取システム
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
JP2011118695A (ja) * 2009-12-03 2011-06-16 Hitachi Ltd 情報処理システム、情報処理装置、及び管理コンピュータ
JP2012079212A (ja) * 2010-10-05 2012-04-19 Hitachi Systems Ltd 情報処理装置、および障害復旧方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207517A (ja) * 2018-05-29 2019-12-05 株式会社リコー 情報処理システム、情報処理装置、及び管理サーバ
JP7119582B2 (ja) 2018-05-29 2022-08-17 株式会社リコー 情報処理システム、及び管理サーバ
JP2020102100A (ja) * 2018-12-25 2020-07-02 Necプラットフォームズ株式会社 ログ取得装置、ログデータ取得方法およびログデータ取得プログラム

Similar Documents

Publication Publication Date Title
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
CN107241229B (zh) 一种基于接口测试工具的业务监控方法及装置
US20170024115A1 (en) Facility operations management and mobile systems
US9461879B2 (en) Apparatus and method for system error monitoring
JP2008090504A (ja) コンピュータ保守支援システム及び解析サーバ
KR20180121389A (ko) 시설 감시 장치
JP2016218844A (ja) 監視装置
JP2009230700A (ja) 装置メンテナンスシステムおよび方法
JP6665503B2 (ja) データ収集システム、データ収集装置及びデータ収集方法
JP2017156863A (ja) 監視システム、プログラム
JP2006155124A (ja) 監視プログラム、これを記憶したコンピュータ読み取り可能な記録媒体、並びに前記監視プログラムが格納されたサーバ及び監視装置
JP2009104619A (ja) 自動火災報知設備の遠隔監視システム
JP2011192201A (ja) リモート保全システムおよびリモート保全方法
JP3867868B2 (ja) 障害統合管理装置
CN112799957A (zh) 基于用户行为的故障处理方法、系统、设备和介质
JP2011150586A (ja) 障害履歴の管理システム
US7370038B2 (en) Stereographic network monitoring system and method thereof
JP5029697B2 (ja) オペレーションシステムのサーバシステム
JP2006139647A (ja) プリンタサポートサーバとプリンタ制御プログラムとプリンタサポートサーバプログラムと記録媒体とプリンタサポート制御方法
JP6139199B2 (ja) データベースシステム、サーバ装置およびプログラム
JP2017049860A (ja) トレンドグラフ表示システム
JP2009087366A (ja) 自動火災報知設備の遠隔監視システム
JP2008129960A (ja) セキュリティシステム、セキュリティ装置、セキュリティシステム制御方法及びセキュリティシステム制御プログラム
JP2007156805A (ja) ネットワーク監視システム及びネットワーク監視方法
JP5787730B2 (ja) デバイス監視サーバー、管理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190305