JP5732913B2 - 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム - Google Patents

障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム Download PDF

Info

Publication number
JP5732913B2
JP5732913B2 JP2011044417A JP2011044417A JP5732913B2 JP 5732913 B2 JP5732913 B2 JP 5732913B2 JP 2011044417 A JP2011044417 A JP 2011044417A JP 2011044417 A JP2011044417 A JP 2011044417A JP 5732913 B2 JP5732913 B2 JP 5732913B2
Authority
JP
Japan
Prior art keywords
failure
data
collection
server
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011044417A
Other languages
English (en)
Other versions
JP2012181699A (ja
Inventor
洋介 日比
洋介 日比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011044417A priority Critical patent/JP5732913B2/ja
Publication of JP2012181699A publication Critical patent/JP2012181699A/ja
Application granted granted Critical
Publication of JP5732913B2 publication Critical patent/JP5732913B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラムに関し、特にコンピュータネットワークで発生した障害の種類に応じて必要な資料の採取を適切に行うことを可能とする障害調査情報資料採取システム等に関する。
コンピュータネットワークが企業などの基幹業務で根幹をなす存在となっている以上、その運用中に発生した障害に対しては早急に対処する必要がある。障害が発生した場合、その発生原因を特定するために、当該ネットワーク上で運用中であるコンピュータやネットワーク機器から、たとえば動作ログ、入力ログなどのような必要な情報を採取することが必要である。これを、本明細書では資料の採取という。
この資料の採取は、当該コンピュータネットワーク上で正常に動作している他のコンピュータ、アプリケーション、およびネットワーク機器などの動作に悪影響を及ぼさない範囲で行うことが必要とされている。そのため、通常は基幹業務用アプリケーションが動作している平日の昼間などの時間帯を避けて資料の採取が行われる。
これに関連して、次のような各々の技術文献がある。その中でも特許文献1には、あらかじめシステム管理者が定めた、障害時の情報採取に生じるリスクをポリシーとして定めて、その範囲内での資料を採取するという障害調査資料採取システムについて記載されている。
特許文献2には、過去に発生した障害と現在の障害とを比較して採取する資料の種類を決定するという障害調査資料採取システムについて記載されている。特許文献3には、資料の採取によって生じる影響を定めたポリシーから、発生した故障の原因を分析して措置を行うという故障措置システムについて記載されている。
特許文献4には、現在の障害と過去の類似障害とを比較して障害発生可能性を予測する障害監視システムについて記載されている。特許文献5には、稼働状態に関する情報から算出した相関情報から、障害を回復する処理による影響を判定して実行要否/時刻/順序を決定するというコンピュータシステムの制御方法について記載されている。
特許文献6には、ソフトウェアの動作について記録した監査ログの特定の指標値について集計し、その指標値について以前のログと比較して評価するという監査ログ収集・比較システムについて記載されている。特許文献7には、採取情報データベースを用いて資料採取を一元化することができるという情報採取手順管理システムについて記載されている。
特開2006−195687号公報 特開2003−345628号公報 特開2004−080297号公報 特開2007−293393号公報 特開2008−009842号公報 特開2009−110220号公報 特開2009−193207号公報
特許文献1に記載された既存の障害調査資料採取システムでは、発生した障害の種類に応じて、リスクの判定に使用するポリシー、具体的には採取する資料の種類やその採取方法を切り替えることはできない。
より具体的には、「アプリケーションの処理速度が低下した(アプリケーションスローダウン)」場合なら動作中の他のアプリケーションの動作を阻害しない範囲で資料の採取を行う必要があるが、「アプリケーションの動作が停止した(アプリケーションダウン)」場合にはそのアプリケーションの動作を再開させることが必要であるので、他の基幹業務ソフトの動作を阻害してでも資料の採取を優先することが適切である。
しかしながら、この障害調査資料採取システムでは、発生した障害の種類に応じて採取する資料やその採取方法を切り替えることができないので、このような点に対して考慮した適切な措置を取ることが不可能である。
また、この障害調査資料採取システムでは、採取する必要のある資料であってもポリシーとして設定された条件を満たさないと判定された場合には、以後その資料の採取は行わないものと判定される。たとえば、「その資料を採取することによってCPU(Central Processing Unit)の利用率が特定の数値範囲を越える場合にはその資料の採取を行わない」ようにポリシーが設定されていた時に「CPUの利用率が設定された範囲を越えている」と判断された場合には、他のアプリケーションが動作していない夜間や休日などにCPUの利用率が低下してその資料の採取が可能になったとしても、その資料は採取されない。
特許文献1に記載された技術のこれらの問題点を解決しうる技術は、特許文献2〜7には記載されていない。特許文献5には、障害を回復する処理による影響を判定して実行要否などを決定するという技術は記載されているが、これは「資料の採取による影響」について判定するものではない。残る特許文献1〜4および6〜7にも、この点について判定して資料の採取を適切に行うことを可能とする技術は記載されていない。
本発明の目的は、ネットワーク内において発生した障害の種類に応じて、その発生原因の特定に必要な資料の採取がネットワーク全体に対して与える影響について判定し、資料の採取を適切に行うことを可能とする障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラムを提供することにある。
上記目的を達成するため、本発明に係る障害調査情報資料採取システムは、管理サーバと監視対象サーバとが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な障害資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムであって、監視対象サーバが、管理サーバから予め送られた発生条件によって障害の発生を検知してその旨を含む障害情報を管理サーバに対して送出する障害検知部と、管理サーバからの要求に応じて障害資料を採取する障害試料採取部とを備えると共に、管理サーバが、監視対象サーバから障害情報を受信した際に、予め記憶された障害時採取情報データから障害情報に含まれる障害名に対応して監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響、および障害名に対応する障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから取得する採取資料判断部と、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較し、障害名に対応する優先許容度に基づいて、障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを判定する障害資料管理部と、取得可能であると判定された障害資料の取得を監視対象サーバの障害試料採取部に依頼する障害資料要求部とを有することを特徴とする。
上記目的を達成するため、本発明に係る管理サーバは、監視対象サーバと相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を監視対象サーバから採取する管理サーバであって、監視対象サーバから障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから障害情報に含まれる障害名に対応して監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響、および障害名に対応する障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから取得する採取資料判断部と、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較し、障害名に対応する優先許容度に基づいて、障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを判定する障害資料管理部と、取得可能であると判定された障害資料を監視対象サーバから取得する障害資料要求部とを有することを特徴とする。
上記目的を達成するため、本発明に係る障害調査情報資料採取方法は、管理サーバと監視対象サーバとが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムにあって、監視対象サーバから障害が発生した旨の障害情報を管理サーバが受信し、障害情報に含まれる障害名に対応する障害資料の種類を予め記憶された障害時採取情報データから管理サーバの障害診断部が取得して決定し、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響、および障害名に対応する障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから管理サーバの採取資料判断部が取得し、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較し、障害名に対応する優先許容度に基づいて、障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを管理サーバの障害資料管理部が判定し、取得可能であると判定された障害資料を監視対象サーバから管理サーバの障害資料要求部が取得することを特徴とする。
上記目的を達成するため、本発明に係る障害調査情報資料採取プログラムは、管理サーバと監視対象サーバとが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムにあって、管理サーバが備えるコンピュータに、監視対象サーバから受信した障害が発生した旨の障害情報に含まれる障害名に対応する障害資料の種類を予め記憶された障害時採取情報データから取得して決定する手順、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響、および障害名に対応する障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから取得する手順、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較し、障害名に対応する優先許容度に基づいて、障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを判定する手順、および取得可能であると判定された障害資料を監視対象サーバから取得する手順を実行させることを特徴とする。
本発明は、上述したように、発生した障害の種類に対応してその採取による影響を監視対象サーバの現在の状態と比較してその障害資料が取得可能であるか否かを判断するように構成した。これによって、ネットワーク内において発生した障害の種類に応じて、その発生原因の特定に必要な資料の採取を適切に行うことを可能であるという、優れた特徴を持つ障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラムを提供することができる。
図2に示した障害調査情報採取システムを構成する管理サーバ、監視対象サーバ、管理端末の動作を、より観念的に示す説明図である 本発明の第1の実施形態に係る障害調査情報採取システムの構成について示す説明図である。 図1〜2に示した許容度データの内容の一例について示す説明図である。 図1〜2に示した採取対象障害資料データの内容の一例について示す説明図である。 図1〜2に示した障害時採取情報データの内容の一例について示す説明図である。 図1〜2に示した障害資料データの内容の一例について示す説明図である。 図1〜2に示したシステム状態データの内容の一例について示す説明図である。 図1〜2に示した監視対象サーバの発生条件データの内容の一例について示す説明図である。 図1〜2に示した障害調査情報採取システムで行われる、障害資料の採取の動作について示すフローチャートである。
(実施形態)
以下、本発明の実施形態の構成について添付図1〜2に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
本実施形態に係る障害調査情報採取システム1は、管理サーバ10と監視対象サーバ20とが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムである。ここで監視対象サーバ20は、管理サーバから予め送られた発生条件によって障害の発生を検知してその旨を含む障害情報を管理サーバに対して送出する障害検知部201と、管理サーバからの要求に応じて障害資料を採取する障害試料採取部203とを備える。そして管理サーバ10は、監視対象サーバから障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データ113から障害情報に含まれる障害名に対応して監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部101と、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データ112から取得する採取資料判断部104と、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部105と、取得可能であると判定された障害資料の取得を監視対象サーバの障害試料採取部に依頼する障害資料要求部103とを有する。
また、障害時採取情報データ113には、障害名に対応する障害資料が取得可能であるか否かの判定基準である優先許容度について記憶されており、障害資料管理部105は、この障害名に対応する優先許容度に基づいて障害資料が取得可能であるか否かを判定する機能を有する。
ここで、管理サーバ10は、監視対象サーバの現在の状態の中で当該監視対象サーバから取得可能な項目についてこれを取得するよう当該監視対象サーバに要求するシステム情報要求部102を有する。また、監視対象サーバの現在の状態の中でユーザが入力可能な項目についての入力を受け付けてこれを記憶するシステム状態入力部106を有する。
そして障害資料要求部103は、取得可能でないと判定された障害資料について、取得可能になるまで待機してから取得する機能を有する。さらに、この管理サーバ10と、障害時採取情報データおよび採取対象障害資料データをユーザが予め入力することが可能である管理端末30とが相互に接続されている。
以上の構成を備えることにより、障害調査情報採取システム1は、ネットワーク内において発生した障害の種類に応じて、その発生原因の特定に必要な資料の採取を適切に行うことが可能となる。
以下、これをより詳細に説明する。
図2は、本発明の第1の実施形態に係る障害調査情報採取システム1の構成について示す説明図である。障害調査情報採取システム1(以後単にシステムという場合がある)は、障害調査情報の採取についての動作を管理する管理サーバ10、監視対象となる業務に係る動作を行う監視対象サーバ20、およびシステム管理者が操作入力を行う管理端末30が、ネットワーク40を介して相互に接続されて構成されている。管理サーバ10、監視対象サーバ20、管理端末30の各々の台数については特に制限は無い。
管理サーバ10は、一般的なコンピュータ装置としての構成を備えている。即ち、管理サーバ10は、コンピュータプログラムとして記述された各種処理を実行する主体である主演算制御手段(CPU: Central Processing Unit)11と、プログラムおよびデータを記憶する記憶手段12と、ネットワーク40に接続して他の情報処理装置とデータ通信を行う通信手段13とを備える。その他の要素については、本実施形態を説明する上で特に必要ではないので、図示していない。
管理サーバ10の主演算制御手段11で障害調査情報採取プログラムが動作することにより、主演算制御手段11は、障害診断部101、システム情報要求部102、障害資料要求部103、採取資料判断部104、障害資料管理部105、およびシステム状態入力部106の各々として機能する。また記憶手段12には、許容度データ111、採取対象障害資料データ112、障害時採取情報データ113、障害資料データ114、およびシステム状態データ115の各々が記憶されている。これらの各々については後述する。
監視対象サーバ20もまた、一般的なコンピュータ装置としての構成を備えている。即ち、監視対象サーバ20は、管理サーバ10と同様の主演算制御手段21と、通信手段22と、記憶手段23とを備える。入出力手段やその他の要素については、本実施形態を説明する上で特に必要ではないので、図示していない。
監視対象サーバ20の主演算制御手段21で、管理サーバ10とは別の障害調査情報採取プログラムが動作することにより、主演算制御手段21は障害検知部201、システム情報採取部202、障害資料採取部203、および本業務プログラム動作部204の各々として機能する。記憶手段23には、発生条件データ211が記憶されている。これらの各々についても後述する。
管理端末30もまた、一般的なコンピュータ装置としての構成を備えている。即ち、管理端末30は、管理サーバ10および監視対象サーバ20と同様の主演算制御手段31と、通信手段32とを備える。さらに、ユーザからの操作入力を受け付け、またユーザに処理結果を提示する入出力手段33を備える。記憶手段やその他の要素については、本実施形態を説明する上で特に必要ではないので、図示していない。
管理端末30の主演算制御手段31で、管理サーバ10および監視対象サーバ20とは別の障害調査情報採取プログラムが動作することにより、主演算制御手段31は採取対象障害資料登録部301、障害時採取情報登録部302、許容度登録部303、障害資料管理部304、およびシステム状態登録部305の各々として機能する。これらの各々についても後述する。
図1は、図2に示した障害調査情報採取システム1を構成する管理サーバ10、監視対象サーバ20、管理端末30の動作を、より観念的に示す説明図である。
障害診断部101は、障害検知部201から受信した障害情報の内容に応じて、障害時採取情報データ113を用いて採取すべき障害資料を判断し、その判断結果を採取資料判断部103に渡す。
システム情報要求部102は、障害資料の採取が障害調査情報採取システム1全体に与える直接的なリスクを判断するために必要な情報、たとえば「ファイルサイズ」「CPU利用率」などのような情報をシステム情報採取部202から受信して、これを障害資料管理部105に渡す。
障害資料要求部103は、障害資料管理部105から「採取すべき障害資料」についての情報を受け取り、この障害資料の送付を障害資料採取部203に対して要求すると共に、これに対して返送されてきた障害資料を障害資料採取部203から受信し、これを障害資料データ114に保存する。
採取資料判断部104は、障害診断部101から「採取すべき障害資料」についての情報を受け取り、これの「具体的な取得方法」および「採取が与える影響」についての情報を採取対象障害資料データ112を参照して読み取り、これを障害資料管理部105に渡す。
障害資料管理部105は、採取資料判断部104、システム情報要求部102、およびシステム状態入力部106から受け取った情報から、許容度データ111および障害資料データ114を参照して、「採取すべき障害資料」を決定し、この決定結果を障害資料要求部103に渡す。この動作の詳細については後述する。
システム状態入力部106は、リスクに関連するシステムの状態に関するユーザからの入力を取得し、障害資料管理部105に送出する。ここでいう「リスクに関連するシステムの状態」とは、たとえば該システムが「本番稼働中」である、あるいは「障害対応中」である、などのような動作状態のことをいう。ただし、その「リスクに関連するシステムの状態」の中には、日時などのように、管理サーバ10の内蔵時計などを介して取得可能なものもある。
本実施形態では、システム情報要求部102が監視対象サーバ20から取得する情報を「システム情報」といい、それ以外の(システム管理者の入力などによる)情報を「システム状態」という。システム情報およびシステム状態は、いずれも障害資料管理部105が各々の資料の採取が可能であるか否かを判定するために使用される情報であり、いずれも特許請求の範囲でいう「監視対象サーバの現在の状態」に該当する情報である。
障害検知部201は、予め管理サーバ10から送られた障害発生と判定する条件を発生条件データ211として記憶し、この条件によって監視対象サーバ20で発生した障害を検知し、障害診断部101に対してその情報を送出する。
システム情報採取部202は、監視対象サーバ20においてシステム情報要求部102からの要求に応じて、システムに与える直接的なリスクを判断するために必要な情報を採取し、これをシステム情報要求部102に返信する。
障害資料採取部203は、監視対象サーバ20において障害資料要求部103からの要求に応じて、障害の調査に必要な障害資料を採取し、これを障害資料要求部103に返信する。
本業務プログラム動作部204は、監視対象となる業務に係る動作を行うコンピュータプログラムである本業務プログラム(図示せず)を動作させる。
管理端末30の採取対象障害資料登録部301、障害時採取情報登録部302、許容度登録部303、障害資料管理部304、およびシステム状態登録部305は、それぞれ採取対象障害資料データ112、障害時採取情報データ113、許容度データ111、障害資料データ114、およびシステム状態データ115の内容の追加、削除、変更、参照などを、入出力手段33を介して行う。
図3は、図1〜2に示した許容度データ111の内容の一例について示す説明図である。図4は、採取対象障害資料データ112の内容の一例について示す説明図である。図5は、障害時採取情報データ113の内容の一例について示す説明図である。図6は、障害資料データ114の内容の一例について示す説明図である。図7は、システム状態データ115の内容の一例について示す説明図である。そして図8は、図1〜2に示した監視対象サーバ20の発生条件データ211の内容の一例について示す説明図である。
許容度データ111(図3)は、各々の許容度の設定に対して一意に与えられる許容度番号111aと、その許容度が影響を与える対象を示す影響対象111bと、影響対象111bに対してシステムとして許容できる範囲についての内容を示す許容影響度111cを含む。即ち、影響対象111bで示される各項目の各々について、許容できる範囲が許容影響度111cとして示される。
ここでいう影響対象111bは、システム情報要求部102が監視対象サーバ20から直接的に取得するファイルサイズやCPU使用率などのようなデータ(システム情報)だけでなく、たとえば日時や曜日、あるいはプログラムの動作状況などのような内容(システム状態)も対象として含む。図3に示された例では、「ファイルサイズ」と「CPU使用率」に加えて、「日時」と「業務」が影響対象111bに含まれている。「日時」に対する許容影響度111cは「平日9時〜18時の間は実施不可」、「業務」に対する許容影響度111cは「本業務プログラムの稼働中は実施不可」となっている。
後述するように、「ファイルサイズ」と「CPU使用率」については監視対象サーバ20から取得されたシステム情報と比較し、「日時」と「業務」についてはシステム管理者の入力などによるシステム状態と比較して、各々が許容範囲であるか否かを判断する。
採取対象障害資料データ112(図4)は、採取対象の障害資料に対して一意に与えられる採取資料番号112a、採取対象の資料の名前を示す採取資料名112b、その資料を採取する方法を示す採取方法112c、その採取によってシステムに与える影響を示す影響112dを含む。
ここで、採取方法112cは、採取する際に使用するコマンド、もしくは採取するファイルのホスト名を含むURI(Uniform Resource Identifier)などを表す。図4に示した例では、「動作ログ」「入力ログ」を取得する場合にそのファイルのURI、「ホスト名」を取得する場合にはそのホスト名(hostname)、「CPU(主演算制御手段21)利用率」を取得する場合には「sar」コマンドを「CPU利用率を1秒間に1回取得する」というオプションを指定して送信する、ということが示されている。
影響112dは、その情報の採取によってシステムに直接的に与える影響、たとえば取得されるデータファイルの容量、あるいはCPU(主演算制御手段21)の利用率の増加などについて登録する。
障害時採取情報データ113(図5)は、障害の種類を示す障害名113a、その障害が発生したことを判別する方法および条件を示す判別方法113b、その障害が発生した時に採取する資料を示す採取情報113c、およびその障害が発生した時に優先的に考慮すべきリスクへの対応内容を示す優先許容影響度113dを含む。
ここで、採取情報113cに登録される情報は採取対象障害資料データ112の採取資料番号112aで表され、また優先度順に並べられている。また優先許容影響度113dに登録されている情報は、許容度データ111の許容度番号111aと、その許容度番号111aが示す影響対象111bに対する条件が示されている。即ち、障害名113aに示される項目の障害が発生した場合に、優先的に考慮すべきリスクへの対応内容が優先許容影響度113dに登録されている。
図5に示されている例でいえば、アプリケーションの処理速度の低下を意味する障害名113a「AP(アプリケーション)スローダウン」の障害については、「apperfコマンドで取得される性能情報の数値が30以下である」という条件で示される状態が検出された場合にこの障害が発生したと判断するよう、判別方法113bに示されている。
そして、この障害が発生した場合の採取情報113cは「1,4,3」、即ち「動作ログ」「CPU利用率」「ホスト名」を順番に取得することを示している。そしてこの場合の優先許容影響度113dは空欄であるので、許容度データ111に示された許容範囲内で各データを取得することが示されている。
これに対して、アプリケーションの動作の停止を意味する障害名113a「APダウン」の障害については、「APNAME」をチェック対象アプリケーションのプロセス名とすると、「動作中プロセス一覧を取得して、その中に該プロセス名(APNAME)が含まれない」という条件で示される状態が検出された場合にこの障害が発生したと判断するよう、判別方法113bに示されている。
そして、この障害が発生した場合の採取情報113cは「1,2,3」、即ち「動作ログ」「入力ログ」「ホスト名」を順番に取得することを示している。そして優先許容影響度113dは「ファイルサイズ:無制限」と「業務:無制限」であるので、許容度データ111に示された許容範囲の中で「ファイルサイズ」と「業務」についての条件を無視して、「CPU利用率」と「日時」の許容範囲だけを満たす範囲で各データを取得することが示されている。
障害資料データ114(図6)は、情報採取の起因となった各々の障害に対して与えられる障害番号114a、その障害の名前を示す障害名114b、その障害が登録された日時を示す登録日時114c、採取対象となった障害情報の資料を示す採取資料114d、その採取資料が採取済みか否かを示す採取状況114eを含む。
ここで、同一種類の障害が複数回発生した場合でも、原因がその各々で異なる場合がある。また同じ原因で発生した同一種類の障害であっても、対処はそのたびごとに行う必要がある。従って、資料の採取は障害発生のたびに行われ、障害番号114aはそのたびに与えられる。
採取資料114dは、採取対象障害資料データ112の採取資料番号112aで表され、その順序は障害時採取情報データ113の採取情報113cとして示された順番に従う。採取状況114eは「未済」「要求済」「採取済」の3通りの値で示される。「未済」はその資料に対して何もアクションが行われていない状態、「要求済」はその資料を採取するよう障害資料要求部103に対して要求はされたが実際の採取がまだであるという状態、「採取済」はその資料の採取が完了した状態、を各々示す。初期値は「未済」である。
システム状態データ115(図7)は、前述したように、システム管理者が管理端末30を介して入力した、または管理サーバ10の内蔵時計を介して取得した「リスクに関連するシステムの状態」を含む。
図7に示した例では、システム状態データ115には「日時」「業務(業務プログラムの動作状況)」といった各項目が含まれており、「日時」は内蔵時計から取得される。また、「業務」はシステム管理者が管理端末30のシステム状態登録部305を介して入力する。これらの状態と許容影響度111cとを比較して、各々の資料の採取が可能であるか否かを障害資料管理部105が判定する。
監視対象サーバ20の発生条件データ211(図8)は、障害時採取情報データ113の障害名113aおよび判別方法113bと同一のデータが、予め障害診断部101から障害検知部201に送られて記憶されるものである。ここで、監視対象サーバ20ごとに該当する障害名113aおよび判別方法113bのみを、障害診断部101から障害検知部201に送るようにしてもよい。障害検知部201は、これで記憶された発生条件に基づいて障害の発生を検知する。
図9は、図1〜2に示した障害調査情報採取システム1で行われる、障害資料の採取の動作について示すフローチャートである。まず、障害診断部101は障害時採取情報データ113の障害名113aおよび判別方法113bを、各々の監視対象サーバ20ごとに、予め障害検知部201に送っておく。障害検知部201はこれを発生条件データ211として記憶する(ステップS101)。障害検知部201は判別方法113bに示された基準に基づいて障害の発生を検知する動作を行う。
障害検知部201が障害の発生を検知すると(ステップS102)、検知した障害名113aを障害発生情報として障害診断部101に送信する。これを受けた障害診断部101は、障害時採取情報データ113を参照して、障害名113aに対応する採取情報113c、即ちその障害に対して採取すべき資料を確定させ、採取資料判断部104にその資料を採取するよう指令する(ステップS103)。その際、採取情報113cに登録された順序で資料を採取するよう、採取資料判断部104に指令する。
これを受けた採取資料判断部104は、障害診断部101から採取するよう指令された採取情報113cに示された資料を、採取情報113cを採取資料番号112aとして採取対象障害資料データ112を参照して、これに対応する採取方法112cと影響112dとを取得し、障害資料管理部105に渡す(ステップS104)。
これを受けた障害資料管理部105は、受け取った情報を障害資料データ114に登録する(ステップS105)。ステップS102で障害検知部201が検知した障害の種類が障害名114bとなり、障害番号114aは前述のようにその障害発生に対して与えられる番号、登録日時114cはその障害が登録された日時である。ステップS103で障害診断部101が採取するよう指令した資料番号が、順番もそのまま採取資料114dとなる。採取資料114dの各々に対する採取状況114eの初期値は「未済」である。
障害資料管理部105は引き続いて、障害資料データ114に登録された採取資料114dの中で、採取状況114eが「未済」(即ち障害資料要求部103に対して採取要求が行われてもいない)の資料があるか否かを判定する(ステップS106)。全ての資料について、障害資料要求部103に対して採取要求が行われていれば(即ち採取状況114eが「未済」のものが1つもなければ)、ステップS110に進む。
採取状況114eが「未済」の資料があれば(ステップS106がイエス)、その資料およびその資料採取の元になった障害に対して、(システム情報要求部102がシステム情報採取部202から取得した)システム情報および(システム状態データ115に入力された)システム状態と、採取対象障害資料データ112の影響112dとして登録されたその資料の取得による影響と、許容度データ111の許容影響度111cとして登録された影響対象に対する許容影響度、障害時採取情報データ113の優先許容影響度113dとして登録された優先許容影響度を比較し、現時点で採取可能な情報であるか否かを判断する(ステップS107〜108)。
この時、障害時採取情報データ113の優先許容影響度113dが登録されている場合には、その内容に基づいてその資料が採取可能であるか否かを判定し、優先許容影響度113dが登録されていない場合には許容度データ111の許容影響度111cの内容に基づいて判定を行う。
また、許容度データ111でシステム状態データ115にある項目、たとえば「日時」「業務」(システム状態)についてはそのシステム状態データ115を利用し、それ以外の項目、たとえば「(動作ログや入力ログなどの)ファイルサイズ」「CPU利用率」(システム情報)についてはシステム情報要求部102が採取対象障害資料データ112に登録された採取方法によってシステム情報採取部202から取得する。
障害資料データ114に登録された全ての採取資料114dについて以上のリスク判定を行い、それらの許容範囲を満たしつつその資料を採取することが可能である場合には、それらのデータを取得するよう、障害資料要求部103に指令する。障害資料要求部103は、採取状況114eを「要求済」として、指定された資料の優先度の順に採取スケジュールを立てる(ステップS109)。その後、ステップS106に戻る。
ここで、ステップS107〜108の判断についてより詳細に説明する。障害名113a「APダウン」の障害が発生した場合、優先許容影響度113dは「ファイルサイズ:無制限」と「業務:無制限」であるので、障害資料管理部105は、システム状態データ115などに示されたシステム上の状態が、許容度データ111に示された許容範囲の中で「ファイルサイズ」と「業務」についての条件を無視して「CPU利用率」と「日時」の許容範囲だけを満たす範囲で各データを取得するよう、障害資料要求部103に指令する。その際、採取情報113cに「1,2,3」とあるので、「動作ログ」「入力ログ」「ホスト名」を順番に取得するよう、障害資料要求部103に指令する。
これに対して、障害名113a「AP(アプリケーション)スローダウン」の障害が発生した場合、優先許容影響度113dは空欄であるので、障害資料管理部105は、システム状態データ115などに示されたシステム上の状態が許容度データ111に示された許容範囲の全項目を満たす範囲で各データを取得するよう、障害資料要求部103に指令する。その際、採取情報113cに「1,4,3」とあるので、「動作ログ」「CPU利用率」「ホスト名」を順番に取得するよう、障害資料要求部103に指令する。
障害資料データ114に登録された全ての資料について、障害資料要求部103に対して採取要求が行われていれば、障害資料要求部103はステップS109で立てられたスケジュールに基づき、障害資料採取部203経由でそれらの資料を採取する(ステップS110)。障害資料要求部103はこれに伴って、採取が完了した資料について採取状況114eを「採取済」とする。そして、障害資料データ114に登録された全ての資料が採取されたか否か(採取状況114eが「採取済」となったか否か)を判断する(ステップS111)。
採取されていない資料がある場合(ステップS111がノー)、これはシステム情報およびシステム状態のうちのいずれかの項目が許容範囲を満たしていないからである(たとえば「CPU利用率」が指定された条件の範囲を超えていたため、「日時」の条件が「平日9時〜18時実施不可」となっているのに対してその範囲内の日時だったため、あるいは「業務」の条件が「本業務プログラム稼働中実施不可」となっているのに対して本業務プログラムが稼働中であったため…などのように)。
従って、障害資料要求部103は、その許容範囲を満たす状態になるまで待機して(ステップS112)からステップS106に戻る。障害資料データ114に登録された全ての資料が採取できたら(ステップS111がイエス)、ひとまず動作は終了し、ステップS102の障害発生を待機する状態に戻る。
(実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。本実施形態に係る障害調査情報資料採取方法は、管理サーバ10と監視対象サーバ20とが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムにあって、監視対象サーバから障害が発生した旨の障害情報を管理サーバが受信し(図9・ステップS102)、障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから管理サーバの障害診断部が取得して決定し(図9・ステップS103)、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから管理サーバの採取資料判断部が取得し(図9・ステップS104)、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを管理サーバの障害資料管理部が判定し(図9・ステップS107〜108)、取得可能であると判定された障害資料を監視対象サーバから管理サーバの障害資料要求部が取得する(図9・ステップS110)。
ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータである管理サーバ10に実行させるようにしてもよい。本プログラムは、非一時的な記録媒体、例えば、DVD、CD、フラッシュメモリ等に記録されてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。
この動作により、本実施形態は以下のような効果を奏する。
本実施形態によれば、発生した障害の種類に応じて採取する資料の種類を切り替えるだけでなく、障害資料が取得可能であるか否かを判定する基準もまた、発生した障害の種類に応じて切り替えることができる。従って、たとえば前述した「APスローダウン」と「APダウン」のように、発生した障害の質や重要度などに応じて、必要な資料の採取を適切に行うことが可能となる。
さらに、現状で採取できないと判定された資料であっても、状況が変わることを待ってから採取する構成となっているので、必要な資料が採取できないために障害原因の解析が困難となるような状況の発生を抑制することができる。
そして、障害資料が取得可能であるか否かの判断には、監視対象サーバから取得したシステム情報だけでなく、システム管理者が手で入力するシステム状態も利用するので、障害資料が取得可能であるか否かについてより状況に即した適切な判断が可能となる。
これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。
上述した実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。
(付記1) 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムであって、
前記監視対象サーバが、前記管理サーバから予め送られた発生条件によって前記障害の発生を検知してその旨を含む障害情報を前記管理サーバに対して送出する障害検知部と、前記管理サーバからの要求に応じて前記障害資料を採取する障害試料採取部とを備えると共に、
前記管理サーバが、
前記監視対象サーバから前記障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害名に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、
取得可能であると判定された前記障害資料の取得を前記監視対象サーバの前記障害試料採取部に依頼する障害資料要求部と
を有することを特徴とする障害調査情報資料採取システム。
(付記2) 前記障害時採取情報データに、前記障害名に対応する前記障害資料が取得可能であるか否かの判定基準である優先許容度について記憶されており、
前記障害資料管理部が、この障害名に対応する優先許容度に基づいて前記障害資料が取得可能であるか否かを判定する機能を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。
(付記3) 前記管理サーバが、前記監視対象サーバの現在の状態の中で当該監視対象サーバから取得可能な項目についてこれを取得するよう当該監視対象サーバに要求するシステム情報要求部を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。
(付記4) 前記管理サーバが、前記監視対象サーバの現在の状態の中でユーザが入力可能な項目についての入力を受け付けてこれを記憶するシステム状態入力部を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。
(付記5) 前記管理サーバの前記障害資料要求部が、取得可能でないと判定された前記障害資料について、取得可能になるまで待機してから取得する機能を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。
(付記6) 前記管理サーバと、前記障害時採取情報データおよび前記採取対象障害資料データをユーザが予め入力することが可能である管理端末とが相互に接続されていることを特徴とする、付記1に記載の障害調査情報資料採取システム。
(付記7) 監視対象サーバと相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記監視対象サーバから採取する管理サーバであって、
前記監視対象サーバから前記障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害の種類に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、
取得可能であると判定された前記障害資料を前記監視対象サーバから取得する障害資料要求部と
を有することを特徴とする管理サーバ。
(付記8) 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムにあって、
前記監視対象サーバから前記障害が発生した旨の障害情報を前記管理サーバが受信し、
前記障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから前記管理サーバの障害診断部が取得して決定し、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから前記管理サーバの採取資料判断部が取得し、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを前記管理サーバの障害資料管理部が判定し、
取得可能であると判定された前記障害資料を前記監視対象サーバから前記管理サーバの障害資料要求部が取得する
ことを特徴とする障害調査情報資料採取方法。
(付記9) 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムにあって、
前記管理サーバが備えるコンピュータに、
前記障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから取得して決定する手順、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する手順、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する手順、
および取得可能であると判定された前記障害資料を前記監視対象サーバから取得する手順
を実行させることを特徴とする障害調査情報資料採取プログラム。
本発明は、コンピュータネットワークの維持および運用に適用できる。特に、企業などの基幹業務を実行するコンピュータネットワークに適している。
1 障害調査情報採取システム
10 管理サーバ
11、21、31 主演算制御手段
12、23 記憶手段
13、22、32 通信手段
20 監視対象サーバ
30 管理端末
33 入出力手段
40 ネットワーク
101 障害診断部
102 システム情報要求部
103 障害資料要求部
104 採取資料判断部
105 障害資料管理部
106 システム状態入力部
111 許容度データ
112 採取対象障害資料データ
113 障害時採取情報データ
114 障害資料データ
115 システム状態データ
201 障害検知部
202 システム情報採取部
203 障害資料採取部
204 本業務プログラム動作部
211 発生条件データ
301 採取対象障害資料登録部
302 障害時採取情報登録部
303 許容度登録部
304 障害資料管理部
305 システム状態登録部

Claims (8)

  1. 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な障害資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムであって、
    前記監視対象サーバが、前記管理サーバから予め送られた発生条件によって前記障害の発生を検知してその旨を含む障害情報を前記管理サーバに対して送出する障害検知部と、前記管理サーバからの要求に応じて前記障害資料を採取する障害試料採取部とを備えると共に、
    前記管理サーバが、
    前記監視対象サーバから前記障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害名に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
    前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響、および前記障害名に対応する前記障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから取得する採取資料判断部と、
    前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較し、前記障害名に対応する優先許容度に基づいて、前記障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを判定する障害資料管理部と、
    取得可能であると判定された前記障害資料の取得を前記監視対象サーバの前記障害試料採取部に依頼する障害資料要求部と
    を有することを特徴とする障害調査情報資料採取システム。
  2. 前記管理サーバが、前記監視対象サーバの現在の状態の中で当該監視対象サーバから取得可能な項目についてこれを取得するよう当該監視対象サーバに要求するシステム情報要求部を有することを特徴とする、請求項1に記載の障害調査情報資料採取システム。
  3. 前記管理サーバが、前記監視対象サーバの現在の状態の中でユーザが入力可能な項目の情報についての入力を受け付けてこれを記憶するシステム状態入力部を有することを特徴とする、請求項1に記載の障害調査情報資料採取システム。
  4. 前記管理サーバの前記障害資料要求部が、取得可能でないと判定された前記障害資料について、取得可能になるまで待機してから取得する機能を有することを特徴とする、請求項1に記載の障害調査情報資料採取システム。
  5. 前記管理サーバと、前記障害時採取情報データおよび前記採取対象障害資料データをユーザが予め入力することが可能である管理端末とが相互に接続されていることを特徴とする、請求項1に記載の障害調査情報資料採取システム。
  6. 監視対象サーバと相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記監視対象サーバから採取する管理サーバであって、
    前記監視対象サーバから前記障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害名に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
    前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響、および前記障害名に対応する前記障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから取得する採取資料判断部と、
    前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較し、前記障害名に対応する優先許容度に基づいて、前記障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを判定する障害資料管理部と、
    取得可能であると判定された前記障害資料を前記監視対象サーバから取得する障害資料要求部と
    を有することを特徴とする管理サーバ。
  7. 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムにあって、
    前記監視対象サーバから前記障害が発生した旨の障害情報を前記管理サーバが受信し、
    前記障害情報に含まれる障害名に対応する障害資料の種類を予め記憶された障害時採取情報データから前記管理サーバの障害診断部が取得して決定し、
    前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響、および前記障害名に対応する前記障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから前記管理サーバの採取資料判断部が取得し、
    前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較し、前記障害名に対応する優先許容度に基づいて、前記障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを前記管理サーバの障害資料管理部が判定し、
    取得可能であると判定された前記障害資料を前記監視対象サーバから前記管理サーバの障害資料要求部が取得する
    ことを特徴とする障害調査情報資料採取方法。
  8. 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムにあって、
    前記管理サーバが備えるコンピュータに、
    前記監視対象サーバから受信した前記障害が発生した旨の障害情報に含まれる障害名に対応する障害資料の種類を予め記憶された障害時採取情報データから取得して決定する手順、
    前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響、および前記障害名に対応する前記障害資料の取得による影響対象とその取得に対して許容できる範囲である許容影響度とを含む優先許容度を予め記憶された採取対象障害資料データから取得する手順、
    前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較し、前記障害名に対応する優先許容度に基づいて、前記障害資料の取得による影響が許容範囲内であるか否かによって当該障害資料が取得可能であるか否かを判定する手順、
    および取得可能であると判定された前記障害資料を前記監視対象サーバから取得する手順
    を実行させることを特徴とする障害調査情報資料採取プログラム。
JP2011044417A 2011-03-01 2011-03-01 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム Expired - Fee Related JP5732913B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011044417A JP5732913B2 (ja) 2011-03-01 2011-03-01 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011044417A JP5732913B2 (ja) 2011-03-01 2011-03-01 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2012181699A JP2012181699A (ja) 2012-09-20
JP5732913B2 true JP5732913B2 (ja) 2015-06-10

Family

ID=47012844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011044417A Expired - Fee Related JP5732913B2 (ja) 2011-03-01 2011-03-01 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5732913B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6655361B2 (ja) * 2015-11-11 2020-02-26 日立オートモティブシステムズ株式会社 車両制御装置
JP7052396B2 (ja) * 2018-02-13 2022-04-12 日本電気株式会社 資料採取サーバ、資料採取システム、資料採取方法および資料採取プログラム
CN109144800A (zh) * 2018-08-27 2019-01-04 郑州云海信息技术有限公司 一种服务器故障信息的收集方法、装置及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195687A (ja) * 2005-01-13 2006-07-27 Hitachi Ltd 障害調査資料採取システム
JP4661722B2 (ja) * 2006-07-31 2011-03-30 日本電気株式会社 運用管理システム、監視装置、監視設定情報生成方法及びプログラム
JP5383061B2 (ja) * 2008-02-28 2014-01-08 三菱電機株式会社 データ処理装置及び通信システム及びデータ処理方法及びプログラム
JP5459472B2 (ja) * 2009-08-07 2014-04-02 日本電気株式会社 障害復旧装置、障害復旧方法、及びプログラム

Also Published As

Publication number Publication date
JP2012181699A (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
JP4859558B2 (ja) コンピュータシステムの制御方法及びコンピュータシステム
JP4866861B2 (ja) トランザクション・ベースのシステムを監視するための方法及びシステム
US8352589B2 (en) System for monitoring computer systems and alerting users of faults
US8707386B2 (en) Policy processing system, method, and program
US20070168696A1 (en) System for inventing computer systems and alerting users of faults
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
US9191296B2 (en) Network event management
WO2013010657A1 (en) Method and system for distributed and collaborative monitoring
US20110113429A1 (en) Incident management method and operation management server
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
JP2011197785A (ja) ログ収集システムおよびログ収集プログラム
JP5732913B2 (ja) 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム
KR20180037342A (ko) 어플리케이션 에러 모니터링 및 통계관리 서비스 및 방법
JP5007247B2 (ja) ジョブ処理システムおよびジョブ管理方法
JP2020149390A (ja) サイバー攻撃検知装置
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP4575020B2 (ja) 障害解析装置
EP4174596A1 (en) System and method for collecting mes information
KR101828156B1 (ko) 트랜잭션 모니터링 시스템 및 그 동작방법
US8086912B2 (en) Monitoring and root cause analysis of temporary process wait situations
Dudley et al. Automatic self-healing systems in a cross-product IT environment
US20180052728A1 (en) Root cause candidate determination in multiple process systems
JP2011186516A (ja) ログ管理方法およびログ管理プログラムとログ管理装置
JP2003296140A (ja) オブジェクト監視方式、オブジェクト監視方法およびオブジェクト監視用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150330

R150 Certificate of patent or registration of utility model

Ref document number: 5732913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees