JP2012181699A - System for collecting failure investigation information material, administrative server, method for collecting failure investigation information material, and program therefor - Google Patents
System for collecting failure investigation information material, administrative server, method for collecting failure investigation information material, and program therefor Download PDFInfo
- Publication number
- JP2012181699A JP2012181699A JP2011044417A JP2011044417A JP2012181699A JP 2012181699 A JP2012181699 A JP 2012181699A JP 2011044417 A JP2011044417 A JP 2011044417A JP 2011044417 A JP2011044417 A JP 2011044417A JP 2012181699 A JP2012181699 A JP 2012181699A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- data
- collection
- server
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラムに関し、特にコンピュータネットワークで発生した障害の種類に応じて必要な資料の採取を適切に行うことを可能とする障害調査情報資料採取システム等に関する。 The present invention relates to a failure investigation information material collection system, a management server, a failure investigation information material collection method, and a program thereof, and in particular, makes it possible to appropriately collect necessary data according to the type of failure that occurred in a computer network. Related to troubleshooting information collection system.
コンピュータネットワークが企業などの基幹業務で根幹をなす存在となっている以上、その運用中に発生した障害に対しては早急に対処する必要がある。障害が発生した場合、その発生原因を特定するために、当該ネットワーク上で運用中であるコンピュータやネットワーク機器から、たとえば動作ログ、入力ログなどのような必要な情報を採取することが必要である。これを、本明細書では資料の採取という。 As computer networks have become the backbone of core business such as companies, it is necessary to deal quickly with failures that occur during their operation. When a failure occurs, it is necessary to collect necessary information such as operation logs and input logs from computers and network devices that are operating on the network in order to identify the cause of the failure. . This is called collection of data in this specification.
この資料の採取は、当該コンピュータネットワーク上で正常に動作している他のコンピュータ、アプリケーション、およびネットワーク機器などの動作に悪影響を及ぼさない範囲で行うことが必要とされている。そのため、通常は基幹業務用アプリケーションが動作している平日の昼間などの時間帯を避けて資料の採取が行われる。 It is necessary to collect this material as long as it does not adversely affect the operation of other computers, applications, network devices, etc. that are operating normally on the computer network. For this reason, data collection is usually performed avoiding the time zone such as daytime on weekdays when the business application is running.
これに関連して、次のような各々の技術文献がある。その中でも特許文献1には、あらかじめシステム管理者が定めた、障害時の情報採取に生じるリスクをポリシーとして定めて、その範囲内での資料を採取するという障害調査資料採取システムについて記載されている。 In this connection, there are the following technical documents. Among them, Patent Document 1 describes a failure investigation data collection system in which a risk that arises in collecting information at the time of a failure is determined as a policy and a material within that range is collected, which is determined in advance by a system administrator. .
特許文献2には、過去に発生した障害と現在の障害とを比較して採取する資料の種類を決定するという障害調査資料採取システムについて記載されている。特許文献3には、資料の採取によって生じる影響を定めたポリシーから、発生した故障の原因を分析して措置を行うという故障措置システムについて記載されている。 Patent Document 2 describes a failure investigation material collection system that determines a type of material to be collected by comparing a failure that has occurred in the past with a current failure. Patent Document 3 describes a failure countermeasure system that analyzes a cause of a failure that has occurred based on a policy that defines the effects caused by the collection of data.
特許文献4には、現在の障害と過去の類似障害とを比較して障害発生可能性を予測する障害監視システムについて記載されている。特許文献5には、稼働状態に関する情報から算出した相関情報から、障害を回復する処理による影響を判定して実行要否/時刻/順序を決定するというコンピュータシステムの制御方法について記載されている。 Patent Document 4 describes a failure monitoring system that predicts the possibility of occurrence of a failure by comparing a current failure with a past similar failure. Patent Document 5 describes a computer system control method that determines the necessity / time / order of execution by determining the influence of processing for recovering a failure from correlation information calculated from information related to an operating state.
特許文献6には、ソフトウェアの動作について記録した監査ログの特定の指標値について集計し、その指標値について以前のログと比較して評価するという監査ログ収集・比較システムについて記載されている。特許文献7には、採取情報データベースを用いて資料採取を一元化することができるという情報採取手順管理システムについて記載されている。 Patent Document 6 describes an audit log collection / comparison system in which specific index values of an audit log recorded about the operation of software are aggregated, and the index values are evaluated in comparison with previous logs. Patent Document 7 describes an information collection procedure management system that can collect data collection using a collection information database.
特許文献1に記載された既存の障害調査資料採取システムでは、発生した障害の種類に応じて、リスクの判定に使用するポリシー、具体的には採取する資料の種類やその採取方法を切り替えることはできない。 In the existing trouble investigation data collection system described in Patent Document 1, according to the type of trouble that has occurred, it is not possible to switch the policy used for risk determination, specifically the type of material to be collected and its collection method. Can not.
より具体的には、「アプリケーションの処理速度が低下した(アプリケーションスローダウン)」場合なら動作中の他のアプリケーションの動作を阻害しない範囲で資料の採取を行う必要があるが、「アプリケーションの動作が停止した(アプリケーションダウン)」場合にはそのアプリケーションの動作を再開させることが必要であるので、他の基幹業務ソフトの動作を阻害してでも資料の採取を優先することが適切である。 More specifically, if “application processing speed has been reduced (application slowdown)”, it is necessary to collect data within a range that does not hinder the operation of other running applications. In the case of “stopped (application down)”, it is necessary to restart the operation of the application. Therefore, it is appropriate to prioritize the collection of data even if the operation of other core business software is obstructed.
しかしながら、この障害調査資料採取システムでは、発生した障害の種類に応じて採取する資料やその採取方法を切り替えることができないので、このような点に対して考慮した適切な措置を取ることが不可能である。 However, in this trouble investigation data collection system, it is not possible to switch the data to be collected and the collection method according to the type of failure that occurred, so it is impossible to take appropriate measures in consideration of such points It is.
また、この障害調査資料採取システムでは、採取する必要のある資料であってもポリシーとして設定された条件を満たさないと判定された場合には、以後その資料の採取は行わないものと判定される。たとえば、「その資料を採取することによってCPU(Central Processing Unit)の利用率が特定の数値範囲を越える場合にはその資料の採取を行わない」ようにポリシーが設定されていた時に「CPUの利用率が設定された範囲を越えている」と判断された場合には、他のアプリケーションが動作していない夜間や休日などにCPUの利用率が低下してその資料の採取が可能になったとしても、その資料は採取されない。 Also, in this trouble investigation data collection system, even if it is necessary to collect the data, if it is determined that the conditions set as a policy are not met, it will be determined that the data will not be collected thereafter. . For example, when the policy is set to "collect the data, if the CPU (Central Processing Unit) usage rate exceeds a specific numerical range, the data will not be collected." If it is determined that the rate exceeds the set range, it is assumed that the CPU usage rate has fallen during the night or holidays when other applications are not running, and the data can be collected. However, the data is not collected.
特許文献1に記載された技術のこれらの問題点を解決しうる技術は、特許文献2〜7には記載されていない。特許文献5には、障害を回復する処理による影響を判定して実行要否などを決定するという技術は記載されているが、これは「資料の採取による影響」について判定するものではない。残る特許文献1〜4および6〜7にも、この点について判定して資料の採取を適切に行うことを可能とする技術は記載されていない。 Patent Documents 2 to 7 do not describe any technology that can solve these problems of the technology described in Patent Document 1. Patent Document 5 describes a technique for determining the necessity of execution by determining the influence of a process for recovering a failure, but this does not determine “the influence of collecting data”. The remaining Patent Documents 1 to 4 and 6 to 7 do not describe a technique that makes it possible to appropriately collect data by determining this point.
本発明の目的は、ネットワーク内において発生した障害の種類に応じて、その発生原因の特定に必要な資料の採取がネットワーク全体に対して与える影響について判定し、資料の採取を適切に行うことを可能とする障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラムを提供することにある。 The purpose of the present invention is to determine the influence of the collection of data necessary for identifying the cause of the occurrence on the entire network according to the type of failure that occurred in the network, and to appropriately collect the data. It is an object of the present invention to provide a failure investigation information material collection system, a management server, a failure investigation information material collection method, and a program thereof.
上記目的を達成するため、本発明に係る障害調査情報資料採取システムは、管理サーバと監視対象サーバとが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムであって、監視対象サーバが、管理サーバから予め送られた発生条件によって障害の発生を検知してその旨を含む障害情報を管理サーバに対して送出する障害検知部と、管理サーバからの要求に応じて障害資料を採取する障害試料採取部とを備えると共に、管理サーバが、監視対象サーバから障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから障害情報に含まれる障害名に対応して監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、取得可能であると判定された障害資料の取得を監視対象サーバの障害試料採取部に依頼する障害資料要求部とを有することを特徴とする。 In order to achieve the above object, the failure investigation information material collection system according to the present invention is necessary for analyzing the cause of a failure that has occurred in the operation of the monitored server because the management server and the monitored server are connected to each other. A failure investigation information data collection system in which the management server collects data from the monitored server, where the monitored server detects the occurrence of a failure according to the occurrence condition sent in advance from the management server and displays failure information including that fact. Failure information indicating that a failure has occurred from the monitored server, as well as a failure detection unit that is sent to the management server and a failure sample collection unit that collects failure data in response to a request from the management server Of the failure data collected from the monitored server corresponding to the failure name included in the failure information from the pre-stored failure time collection information data A fault diagnosis unit that obtains and determines a class, a sampling method that acquires from the pre-stored sampling target fault data, the sampling method corresponding to the type of fault data, and the effect that this causes on the monitored server; The failure data management unit that determines whether or not this failure data can be acquired by comparing the type, collection method, and impact of the failure data with the current status of the monitored server, and determined that acquisition is possible And a failure data request unit that requests the failure sample collection unit of the monitoring target server to acquire the failure data.
上記目的を達成するため、本発明に係る管理サーバは、監視対象サーバと相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を監視対象サーバから採取する管理サーバであって、監視対象サーバから障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから障害情報に含まれる障害の種類に対応して監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、取得可能であると判定された障害資料を監視対象サーバから取得する障害資料要求部とを有することを特徴とする。 In order to achieve the above object, the management server according to the present invention is interconnected with the monitored server, and collects data necessary for analyzing the cause of the failure that occurred in the operation of the monitored server from the monitored server. When the failure information indicating that a failure has occurred is received from the monitoring target server, the management server receives from the monitoring target server corresponding to the type of failure included in the failure information from the pre-stored failure collection information data. Acquires the fault diagnosis unit that acquires and determines the type of fault data to be collected, the sampling method corresponding to the type of fault data, and the effects that this causes on the monitored server from pre-stored fault target data The collected data judgment unit compares the type, collection method, and impact of the fault data with the current status of the monitored server to determine whether the fault data can be acquired. That a fault material management unit, and having a fault article requesting unit for acquiring the determined fault article that can be obtained from the monitored servers.
上記目的を達成するため、本発明に係る障害調査情報資料採取方法は、管理サーバと監視対象サーバとが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムにあって、監視対象サーバから障害が発生した旨の障害情報を管理サーバが受信し、障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから管理サーバの障害診断部が取得して決定し、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから管理サーバの採取資料判断部が取得し、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを管理サーバの障害資料管理部が判定し、取得可能であると判定された障害資料を監視対象サーバから管理サーバの障害資料要求部が取得することを特徴とする。 In order to achieve the above object, the failure investigation information material collecting method according to the present invention is necessary for analyzing the cause of a failure that has occurred in the operation of the monitored server when the management server and the monitored server are mutually connected. In the failure investigation information data collection system in which the management server collects data from the monitored server, the management server receives failure information indicating that a failure has occurred from the monitored server, and handles the types of failures included in the failure information The failure diagnosis unit of the management server obtains and determines the type of failure data to be collected from failure collection information data stored in advance, and determines the collection method corresponding to the type of failure material and the effect on the monitored server. The collected data judgment unit of the management server obtains the collected failure data from the previously collected collection, and the type, collection method, and impact of the failure data are displayed on the monitored server. The failure data management unit of the management server determines whether or not this failure data can be acquired by comparing with the status of the server, and requests the failure data of the management server from the monitored server for the failure data determined to be available. The department acquires.
上記目的を達成するため、本発明に係る障害調査情報資料採取プログラムは、管理サーバと監視対象サーバとが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムにあって、管理サーバが備えるコンピュータに、障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから取得して決定する手順、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する手順、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する手順、および取得可能であると判定された障害資料を監視対象サーバから取得する手順を実行させることを特徴とする。 In order to achieve the above object, the failure investigation information material collection program according to the present invention is necessary for analyzing the cause of a failure that has occurred in the operation of the monitored server when the management server and the monitored server are mutually connected. In a failure investigation information data collection system in which the management server collects data from monitored servers, when a failure is stored in advance on the computer provided in the management server, the type of failure data corresponding to the type of failure included in the failure information Procedure to obtain and determine from the collected information data, collection method corresponding to the type of fault data and the effect of this on the monitored server, and procedure to acquire from the pre-stored fault target data, type of fault data The procedure for determining whether or not this failure data can be acquired by comparing the collection method and impact with the current status of the monitored server And the determined fault article that can be obtained, characterized in that to execute the steps of obtaining from the monitoring server.
本発明は、上述したように、発生した障害の種類に対応してその採取による影響を監視対象サーバの現在の状態と比較してその障害資料が取得可能であるか否かを判断するように構成した。これによって、ネットワーク内において発生した障害の種類に応じて、その発生原因の特定に必要な資料の採取を適切に行うことを可能であるという、優れた特徴を持つ障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラムを提供することができる。 As described above, the present invention determines whether or not the failure data can be acquired by comparing the influence of the collection with the current state of the monitored server corresponding to the type of failure that has occurred. Configured. As a result, according to the type of failure that occurred in the network, it is possible to appropriately collect the data necessary for identifying the cause of the failure. It is possible to provide a server, a troubleshooting information collection method, and a program thereof.
(実施形態)
以下、本発明の実施形態の構成について添付図1〜2に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
本実施形態に係る障害調査情報採取システム1は、管理サーバ10と監視対象サーバ20とが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムである。ここで監視対象サーバ20は、管理サーバから予め送られた発生条件によって障害の発生を検知してその旨を含む障害情報を管理サーバに対して送出する障害検知部201と、管理サーバからの要求に応じて障害資料を採取する障害試料採取部203とを備える。そして管理サーバ10は、監視対象サーバから障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データ113から障害情報に含まれる障害名に対応して監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部101と、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データ112から取得する採取資料判断部104と、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部105と、取得可能であると判定された障害資料の取得を監視対象サーバの障害試料採取部に依頼する障害資料要求部103とを有する。
(Embodiment)
Hereinafter, the configuration of an embodiment of the present invention will be described with reference to FIGS.
First, the basic content of the present embodiment will be described, and then more specific content will be described.
In the failure investigation information collection system 1 according to the present embodiment, the
また、障害時採取情報データ113には、障害名に対応する障害資料が取得可能であるか否かの判定基準である優先許容度について記憶されており、障害資料管理部105は、この障害名に対応する優先許容度に基づいて障害資料が取得可能であるか否かを判定する機能を有する。
Further, the failure
ここで、管理サーバ10は、監視対象サーバの現在の状態の中で当該監視対象サーバから取得可能な項目についてこれを取得するよう当該監視対象サーバに要求するシステム情報要求部102を有する。また、監視対象サーバの現在の状態の中でユーザが入力可能な項目についての入力を受け付けてこれを記憶するシステム状態入力部106を有する。
Here, the
そして障害資料要求部103は、取得可能でないと判定された障害資料について、取得可能になるまで待機してから取得する機能を有する。さらに、この管理サーバ10と、障害時採取情報データおよび採取対象障害資料データをユーザが予め入力することが可能である管理端末30とが相互に接続されている。
Then, the failure
以上の構成を備えることにより、障害調査情報採取システム1は、ネットワーク内において発生した障害の種類に応じて、その発生原因の特定に必要な資料の採取を適切に行うことが可能となる。
以下、これをより詳細に説明する。
With the above configuration, the failure investigation information collection system 1 can appropriately collect data necessary for identifying the cause of occurrence according to the type of failure that occurred in the network.
Hereinafter, this will be described in more detail.
図2は、本発明の第1の実施形態に係る障害調査情報採取システム1の構成について示す説明図である。障害調査情報採取システム1(以後単にシステムという場合がある)は、障害調査情報の採取についての動作を管理する管理サーバ10、監視対象となる業務に係る動作を行う監視対象サーバ20、およびシステム管理者が操作入力を行う管理端末30が、ネットワーク40を介して相互に接続されて構成されている。管理サーバ10、監視対象サーバ20、管理端末30の各々の台数については特に制限は無い。
FIG. 2 is an explanatory diagram showing the configuration of the failure investigation information collection system 1 according to the first embodiment of the present invention. The failure investigation information collection system 1 (hereinafter may be simply referred to as a system) includes a
管理サーバ10は、一般的なコンピュータ装置としての構成を備えている。即ち、管理サーバ10は、コンピュータプログラムとして記述された各種処理を実行する主体である主演算制御手段(CPU: Central Processing Unit)11と、プログラムおよびデータを記憶する記憶手段12と、ネットワーク40に接続して他の情報処理装置とデータ通信を行う通信手段13とを備える。その他の要素については、本実施形態を説明する上で特に必要ではないので、図示していない。
The
管理サーバ10の主演算制御手段11で障害調査情報採取プログラムが動作することにより、主演算制御手段11は、障害診断部101、システム情報要求部102、障害資料要求部103、採取資料判断部104、障害資料管理部105、およびシステム状態入力部106の各々として機能する。また記憶手段12には、許容度データ111、採取対象障害資料データ112、障害時採取情報データ113、障害資料データ114、およびシステム状態データ115の各々が記憶されている。これらの各々については後述する。
When the failure investigation information collection program operates in the main
監視対象サーバ20もまた、一般的なコンピュータ装置としての構成を備えている。即ち、監視対象サーバ20は、管理サーバ10と同様の主演算制御手段21と、通信手段22と、記憶手段23とを備える。入出力手段やその他の要素については、本実施形態を説明する上で特に必要ではないので、図示していない。
The
監視対象サーバ20の主演算制御手段21で、管理サーバ10とは別の障害調査情報採取プログラムが動作することにより、主演算制御手段21は障害検知部201、システム情報採取部202、障害資料採取部203、および本業務プログラム動作部204の各々として機能する。記憶手段23には、発生条件データ211が記憶されている。これらの各々についても後述する。
The main
管理端末30もまた、一般的なコンピュータ装置としての構成を備えている。即ち、管理端末30は、管理サーバ10および監視対象サーバ20と同様の主演算制御手段31と、通信手段32とを備える。さらに、ユーザからの操作入力を受け付け、またユーザに処理結果を提示する入出力手段33を備える。記憶手段やその他の要素については、本実施形態を説明する上で特に必要ではないので、図示していない。
The
管理端末30の主演算制御手段31で、管理サーバ10および監視対象サーバ20とは別の障害調査情報採取プログラムが動作することにより、主演算制御手段31は採取対象障害資料登録部301、障害時採取情報登録部302、許容度登録部303、障害資料管理部304、およびシステム状態登録部305の各々として機能する。これらの各々についても後述する。
The main
図1は、図2に示した障害調査情報採取システム1を構成する管理サーバ10、監視対象サーバ20、管理端末30の動作を、より観念的に示す説明図である。
FIG. 1 is an explanatory diagram more conceptually showing the operations of the
障害診断部101は、障害検知部201から受信した障害情報の内容に応じて、障害時採取情報データ113を用いて採取すべき障害資料を判断し、その判断結果を採取資料判断部103に渡す。
The
システム情報要求部102は、障害資料の採取が障害調査情報採取システム1全体に与える直接的なリスクを判断するために必要な情報、たとえば「ファイルサイズ」「CPU利用率」などのような情報をシステム情報採取部202から受信して、これを障害資料管理部105に渡す。
The system
障害資料要求部103は、障害資料管理部105から「採取すべき障害資料」についての情報を受け取り、この障害資料の送付を障害資料採取部203に対して要求すると共に、これに対して返送されてきた障害資料を障害資料採取部203から受信し、これを障害資料データ114に保存する。
The failure
採取資料判断部104は、障害診断部101から「採取すべき障害資料」についての情報を受け取り、これの「具体的な取得方法」および「採取が与える影響」についての情報を採取対象障害資料データ112を参照して読み取り、これを障害資料管理部105に渡す。
The collection
障害資料管理部105は、採取資料判断部104、システム情報要求部102、およびシステム状態入力部106から受け取った情報から、許容度データ111および障害資料データ114を参照して、「採取すべき障害資料」を決定し、この決定結果を障害資料要求部103に渡す。この動作の詳細については後述する。
The failure
システム状態入力部106は、リスクに関連するシステムの状態に関するユーザからの入力を取得し、障害資料管理部105に送出する。ここでいう「リスクに関連するシステムの状態」とは、たとえば該システムが「本番稼働中」である、あるいは「障害対応中」である、などのような動作状態のことをいう。ただし、その「リスクに関連するシステムの状態」の中には、日時などのように、管理サーバ10の内蔵時計などを介して取得可能なものもある。
The system
本実施形態では、システム情報要求部102が監視対象サーバ20から取得する情報を「システム情報」といい、それ以外の(システム管理者の入力などによる)情報を「システム状態」という。システム情報およびシステム状態は、いずれも障害資料管理部105が各々の資料の採取が可能であるか否かを判定するために使用される情報であり、いずれも特許請求の範囲でいう「監視対象サーバの現在の状態」に該当する情報である。
In the present embodiment, information acquired from the
障害検知部201は、予め管理サーバ10から送られた障害発生と判定する条件を発生条件データ211として記憶し、この条件によって監視対象サーバ20で発生した障害を検知し、障害診断部101に対してその情報を送出する。
The
システム情報採取部202は、監視対象サーバ20においてシステム情報要求部102からの要求に応じて、システムに与える直接的なリスクを判断するために必要な情報を採取し、これをシステム情報要求部102に返信する。
The system
障害資料採取部203は、監視対象サーバ20において障害資料要求部103からの要求に応じて、障害の調査に必要な障害資料を採取し、これを障害資料要求部103に返信する。
In response to a request from the failure
本業務プログラム動作部204は、監視対象となる業務に係る動作を行うコンピュータプログラムである本業務プログラム(図示せず)を動作させる。
The business
管理端末30の採取対象障害資料登録部301、障害時採取情報登録部302、許容度登録部303、障害資料管理部304、およびシステム状態登録部305は、それぞれ採取対象障害資料データ112、障害時採取情報データ113、許容度データ111、障害資料データ114、およびシステム状態データ115の内容の追加、削除、変更、参照などを、入出力手段33を介して行う。
The collection target failure
図3は、図1〜2に示した許容度データ111の内容の一例について示す説明図である。図4は、採取対象障害資料データ112の内容の一例について示す説明図である。図5は、障害時採取情報データ113の内容の一例について示す説明図である。図6は、障害資料データ114の内容の一例について示す説明図である。図7は、システム状態データ115の内容の一例について示す説明図である。そして図8は、図1〜2に示した監視対象サーバ20の発生条件データ211の内容の一例について示す説明図である。
FIG. 3 is an explanatory diagram showing an example of the contents of the
許容度データ111(図3)は、各々の許容度の設定に対して一意に与えられる許容度番号111aと、その許容度が影響を与える対象を示す影響対象111bと、影響対象111bに対してシステムとして許容できる範囲についての内容を示す許容影響度111cを含む。即ち、影響対象111bで示される各項目の各々について、許容できる範囲が許容影響度111cとして示される。
The tolerance data 111 (FIG. 3) includes a
ここでいう影響対象111bは、システム情報要求部102が監視対象サーバ20から直接的に取得するファイルサイズやCPU使用率などのようなデータ(システム情報)だけでなく、たとえば日時や曜日、あるいはプログラムの動作状況などのような内容(システム状態)も対象として含む。図3に示された例では、「ファイルサイズ」と「CPU使用率」に加えて、「日時」と「業務」が影響対象111bに含まれている。「日時」に対する許容影響度111cは「平日9時〜18時の間は実施不可」、「業務」に対する許容影響度111cは「本業務プログラムの稼働中は実施不可」となっている。
The influence target 111b here is not only data (system information) such as the file size or CPU usage rate directly acquired from the
後述するように、「ファイルサイズ」と「CPU使用率」については監視対象サーバ20から取得されたシステム情報と比較し、「日時」と「業務」についてはシステム管理者の入力などによるシステム状態と比較して、各々が許容範囲であるか否かを判断する。
As will be described later, “file size” and “CPU usage rate” are compared with system information acquired from the
採取対象障害資料データ112(図4)は、採取対象の障害資料に対して一意に与えられる採取資料番号112a、採取対象の資料の名前を示す採取資料名112b、その資料を採取する方法を示す採取方法112c、その採取によってシステムに与える影響を示す影響112dを含む。
The collection target failure data data 112 (FIG. 4) indicates a
ここで、採取方法112cは、採取する際に使用するコマンド、もしくは採取するファイルのホスト名を含むURI(Uniform Resource Identifier)などを表す。図4に示した例では、「動作ログ」「入力ログ」を取得する場合にそのファイルのURI、「ホスト名」を取得する場合にはそのホスト名(hostname)、「CPU(主演算制御手段21)利用率」を取得する場合には「sar」コマンドを「CPU利用率を1秒間に1回取得する」というオプションを指定して送信する、ということが示されている。
Here, the
影響112dは、その情報の採取によってシステムに直接的に与える影響、たとえば取得されるデータファイルの容量、あるいはCPU(主演算制御手段21)の利用率の増加などについて登録する。
The
障害時採取情報データ113(図5)は、障害の種類を示す障害名113a、その障害が発生したことを判別する方法および条件を示す判別方法113b、その障害が発生した時に採取する資料を示す採取情報113c、およびその障害が発生した時に優先的に考慮すべきリスクへの対応内容を示す優先許容影響度113dを含む。
Failure collection information data 113 (FIG. 5) indicates a
ここで、採取情報113cに登録される情報は採取対象障害資料データ112の採取資料番号112aで表され、また優先度順に並べられている。また優先許容影響度113dに登録されている情報は、許容度データ111の許容度番号111aと、その許容度番号111aが示す影響対象111bに対する条件が示されている。即ち、障害名113aに示される項目の障害が発生した場合に、優先的に考慮すべきリスクへの対応内容が優先許容影響度113dに登録されている。
Here, the information registered in the
図5に示されている例でいえば、アプリケーションの処理速度の低下を意味する障害名113a「AP(アプリケーション)スローダウン」の障害については、「apperfコマンドで取得される性能情報の数値が30以下である」という条件で示される状態が検出された場合にこの障害が発生したと判断するよう、判別方法113bに示されている。
In the example shown in FIG. 5, for the failure with the
そして、この障害が発生した場合の採取情報113cは「1,4,3」、即ち「動作ログ」「CPU利用率」「ホスト名」を順番に取得することを示している。そしてこの場合の優先許容影響度113dは空欄であるので、許容度データ111に示された許容範囲内で各データを取得することが示されている。
When the failure occurs, the
これに対して、アプリケーションの動作の停止を意味する障害名113a「APダウン」の障害については、「APNAME」をチェック対象アプリケーションのプロセス名とすると、「動作中プロセス一覧を取得して、その中に該プロセス名(APNAME)が含まれない」という条件で示される状態が検出された場合にこの障害が発生したと判断するよう、判別方法113bに示されている。
On the other hand, for the failure of the
そして、この障害が発生した場合の採取情報113cは「1,2,3」、即ち「動作ログ」「入力ログ」「ホスト名」を順番に取得することを示している。そして優先許容影響度113dは「ファイルサイズ:無制限」と「業務:無制限」であるので、許容度データ111に示された許容範囲の中で「ファイルサイズ」と「業務」についての条件を無視して、「CPU利用率」と「日時」の許容範囲だけを満たす範囲で各データを取得することが示されている。
When the failure occurs, the
障害資料データ114(図6)は、情報採取の起因となった各々の障害に対して与えられる障害番号114a、その障害の名前を示す障害名114b、その障害が登録された日時を示す登録日時114c、採取対象となった障害情報の資料を示す採取資料114d、その採取資料が採取済みか否かを示す採取状況114eを含む。
The failure material data 114 (FIG. 6) includes a
ここで、同一種類の障害が複数回発生した場合でも、原因がその各々で異なる場合がある。また同じ原因で発生した同一種類の障害であっても、対処はそのたびごとに行う必要がある。従って、資料の採取は障害発生のたびに行われ、障害番号114aはそのたびに与えられる。
Here, even when the same type of failure occurs a plurality of times, the cause may be different for each. Even if the same type of failure occurs for the same cause, it is necessary to deal with it each time. Accordingly, the collection of data is performed every time a failure occurs, and the
採取資料114dは、採取対象障害資料データ112の採取資料番号112aで表され、その順序は障害時採取情報データ113の採取情報113cとして示された順番に従う。採取状況114eは「未済」「要求済」「採取済」の3通りの値で示される。「未済」はその資料に対して何もアクションが行われていない状態、「要求済」はその資料を採取するよう障害資料要求部103に対して要求はされたが実際の採取がまだであるという状態、「採取済」はその資料の採取が完了した状態、を各々示す。初期値は「未済」である。
The
システム状態データ115(図7)は、前述したように、システム管理者が管理端末30を介して入力した、または管理サーバ10の内蔵時計を介して取得した「リスクに関連するシステムの状態」を含む。
As described above, the system state data 115 (FIG. 7) is the “risk-related system state” input by the system administrator through the
図7に示した例では、システム状態データ115には「日時」「業務(業務プログラムの動作状況)」といった各項目が含まれており、「日時」は内蔵時計から取得される。また、「業務」はシステム管理者が管理端末30のシステム状態登録部305を介して入力する。これらの状態と許容影響度111cとを比較して、各々の資料の採取が可能であるか否かを障害資料管理部105が判定する。
In the example shown in FIG. 7, the
監視対象サーバ20の発生条件データ211(図8)は、障害時採取情報データ113の障害名113aおよび判別方法113bと同一のデータが、予め障害診断部101から障害検知部201に送られて記憶されるものである。ここで、監視対象サーバ20ごとに該当する障害名113aおよび判別方法113bのみを、障害診断部101から障害検知部201に送るようにしてもよい。障害検知部201は、これで記憶された発生条件に基づいて障害の発生を検知する。
The occurrence condition data 211 (FIG. 8) of the
図9は、図1〜2に示した障害調査情報採取システム1で行われる、障害資料の採取の動作について示すフローチャートである。まず、障害診断部101は障害時採取情報データ113の障害名113aおよび判別方法113bを、各々の監視対象サーバ20ごとに、予め障害検知部201に送っておく。障害検知部201はこれを発生条件データ211として記憶する(ステップS101)。障害検知部201は判別方法113bに示された基準に基づいて障害の発生を検知する動作を行う。
FIG. 9 is a flowchart showing an operation of collecting failure data performed by the failure investigation information collection system 1 shown in FIGS. First, the
障害検知部201が障害の発生を検知すると(ステップS102)、検知した障害名113aを障害発生情報として障害診断部101に送信する。これを受けた障害診断部101は、障害時採取情報データ113を参照して、障害名113aに対応する採取情報113c、即ちその障害に対して採取すべき資料を確定させ、採取資料判断部104にその資料を採取するよう指令する(ステップS103)。その際、採取情報113cに登録された順序で資料を採取するよう、採取資料判断部104に指令する。
When the
これを受けた採取資料判断部104は、障害診断部101から採取するよう指令された採取情報113cに示された資料を、採取情報113cを採取資料番号112aとして採取対象障害資料データ112を参照して、これに対応する採取方法112cと影響112dとを取得し、障害資料管理部105に渡す(ステップS104)。
Upon receipt of this, the collected
これを受けた障害資料管理部105は、受け取った情報を障害資料データ114に登録する(ステップS105)。ステップS102で障害検知部201が検知した障害の種類が障害名114bとなり、障害番号114aは前述のようにその障害発生に対して与えられる番号、登録日時114cはその障害が登録された日時である。ステップS103で障害診断部101が採取するよう指令した資料番号が、順番もそのまま採取資料114dとなる。採取資料114dの各々に対する採取状況114eの初期値は「未済」である。
Receiving this, the failure
障害資料管理部105は引き続いて、障害資料データ114に登録された採取資料114dの中で、採取状況114eが「未済」(即ち障害資料要求部103に対して採取要求が行われてもいない)の資料があるか否かを判定する(ステップS106)。全ての資料について、障害資料要求部103に対して採取要求が行われていれば(即ち採取状況114eが「未済」のものが1つもなければ)、ステップS110に進む。
The failure
採取状況114eが「未済」の資料があれば(ステップS106がイエス)、その資料およびその資料採取の元になった障害に対して、(システム情報要求部102がシステム情報採取部202から取得した)システム情報および(システム状態データ115に入力された)システム状態と、採取対象障害資料データ112の影響112dとして登録されたその資料の取得による影響と、許容度データ111の許容影響度111cとして登録された影響対象に対する許容影響度、障害時採取情報データ113の優先許容影響度113dとして登録された優先許容影響度を比較し、現時点で採取可能な情報であるか否かを判断する(ステップS107〜108)。
If there is a material whose
この時、障害時採取情報データ113の優先許容影響度113dが登録されている場合には、その内容に基づいてその資料が採取可能であるか否かを判定し、優先許容影響度113dが登録されていない場合には許容度データ111の許容影響度111cの内容に基づいて判定を行う。
At this time, if the priority
また、許容度データ111でシステム状態データ115にある項目、たとえば「日時」「業務」(システム状態)についてはそのシステム状態データ115を利用し、それ以外の項目、たとえば「(動作ログや入力ログなどの)ファイルサイズ」「CPU利用率」(システム情報)についてはシステム情報要求部102が採取対象障害資料データ112に登録された採取方法によってシステム情報採取部202から取得する。
For the items in the
障害資料データ114に登録された全ての採取資料114dについて以上のリスク判定を行い、それらの許容範囲を満たしつつその資料を採取することが可能である場合には、それらのデータを取得するよう、障害資料要求部103に指令する。障害資料要求部103は、採取状況114eを「要求済」として、指定された資料の優先度の順に採取スケジュールを立てる(ステップS109)。その後、ステップS106に戻る。
If all the collected
ここで、ステップS107〜108の判断についてより詳細に説明する。障害名113a「APダウン」の障害が発生した場合、優先許容影響度113dは「ファイルサイズ:無制限」と「業務:無制限」であるので、障害資料管理部105は、システム状態データ115などに示されたシステム上の状態が、許容度データ111に示された許容範囲の中で「ファイルサイズ」と「業務」についての条件を無視して「CPU利用率」と「日時」の許容範囲だけを満たす範囲で各データを取得するよう、障害資料要求部103に指令する。その際、採取情報113cに「1,2,3」とあるので、「動作ログ」「入力ログ」「ホスト名」を順番に取得するよう、障害資料要求部103に指令する。
Here, the determination in steps S107 to S108 will be described in more detail. When a failure with the
これに対して、障害名113a「AP(アプリケーション)スローダウン」の障害が発生した場合、優先許容影響度113dは空欄であるので、障害資料管理部105は、システム状態データ115などに示されたシステム上の状態が許容度データ111に示された許容範囲の全項目を満たす範囲で各データを取得するよう、障害資料要求部103に指令する。その際、採取情報113cに「1,4,3」とあるので、「動作ログ」「CPU利用率」「ホスト名」を順番に取得するよう、障害資料要求部103に指令する。
On the other hand, when a failure with the
障害資料データ114に登録された全ての資料について、障害資料要求部103に対して採取要求が行われていれば、障害資料要求部103はステップS109で立てられたスケジュールに基づき、障害資料採取部203経由でそれらの資料を採取する(ステップS110)。障害資料要求部103はこれに伴って、採取が完了した資料について採取状況114eを「採取済」とする。そして、障害資料データ114に登録された全ての資料が採取されたか否か(採取状況114eが「採取済」となったか否か)を判断する(ステップS111)。
If a collection request is made to the failure
採取されていない資料がある場合(ステップS111がノー)、これはシステム情報およびシステム状態のうちのいずれかの項目が許容範囲を満たしていないからである(たとえば「CPU利用率」が指定された条件の範囲を超えていたため、「日時」の条件が「平日9時〜18時実施不可」となっているのに対してその範囲内の日時だったため、あるいは「業務」の条件が「本業務プログラム稼働中実施不可」となっているのに対して本業務プログラムが稼働中であったため…などのように)。 When there is data that has not been collected (step S111 is no), this is because any item of the system information and the system state does not satisfy the allowable range (for example, “CPU utilization” is designated) Because the condition range was exceeded, the “date and time” condition was “cannot be implemented from 9 am to 6 pm on weekdays” whereas the date and time was within that range, or the condition of “business” was “this work (This is because the business program was running while the program was not running ").
従って、障害資料要求部103は、その許容範囲を満たす状態になるまで待機して(ステップS112)からステップS106に戻る。障害資料データ114に登録された全ての資料が採取できたら(ステップS111がイエス)、ひとまず動作は終了し、ステップS102の障害発生を待機する状態に戻る。
Therefore, the failure
(実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。本実施形態に係る障害調査情報資料採取方法は、管理サーバ10と監視対象サーバ20とが相互に接続され、監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を管理サーバが監視対象サーバから採取する障害調査情報資料採取システムにあって、監視対象サーバから障害が発生した旨の障害情報を管理サーバが受信し(図9・ステップS102)、障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから管理サーバの障害診断部が取得して決定し(図9・ステップS103)、障害資料の種類に対応する採取方法とこれによって監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから管理サーバの採取資料判断部が取得し(図9・ステップS104)、障害資料の種類と採取方法および影響を監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを管理サーバの障害資料管理部が判定し(図9・ステップS107〜108)、取得可能であると判定された障害資料を監視対象サーバから管理サーバの障害資料要求部が取得する(図9・ステップS110)。
(Overall operation of the embodiment)
Next, the overall operation of the above embodiment will be described. In the failure investigation information material collection method according to the present embodiment, the
ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータである管理サーバ10に実行させるようにしてもよい。本プログラムは、非一時的な記録媒体、例えば、DVD、CD、フラッシュメモリ等に記録されてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。
この動作により、本実施形態は以下のような効果を奏する。
Here, each of the above operation steps may be programmed to be executable by a computer, and may be executed by the
By this operation, this embodiment has the following effects.
本実施形態によれば、発生した障害の種類に応じて採取する資料の種類を切り替えるだけでなく、障害資料が取得可能であるか否かを判定する基準もまた、発生した障害の種類に応じて切り替えることができる。従って、たとえば前述した「APスローダウン」と「APダウン」のように、発生した障害の質や重要度などに応じて、必要な資料の採取を適切に行うことが可能となる。 According to the present embodiment, not only the type of data to be collected is switched according to the type of failure that has occurred, but also the criteria for determining whether or not the failure material can be acquired also depends on the type of failure that has occurred. Can be switched. Therefore, it is possible to appropriately collect necessary data according to the quality and importance of the failure that has occurred, such as “AP slowdown” and “AP down” described above.
さらに、現状で採取できないと判定された資料であっても、状況が変わることを待ってから採取する構成となっているので、必要な資料が採取できないために障害原因の解析が困難となるような状況の発生を抑制することができる。 Furthermore, even if it is determined that the data cannot be collected at present, it is collected after waiting for the situation to change, so it is difficult to analyze the cause of the failure because the necessary data cannot be collected. The occurrence of unusual situations can be suppressed.
そして、障害資料が取得可能であるか否かの判断には、監視対象サーバから取得したシステム情報だけでなく、システム管理者が手で入力するシステム状態も利用するので、障害資料が取得可能であるか否かについてより状況に即した適切な判断が可能となる。 In order to determine whether or not failure data can be acquired, not only the system information acquired from the monitored server but also the system status entered manually by the system administrator can be used. It is possible to make an appropriate judgment according to the situation as to whether or not there is.
これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。 The present invention has been described with reference to the specific embodiments shown in the drawings. However, the present invention is not limited to the embodiments shown in the drawings, and any known hitherto provided that the effects of the present invention are achieved. Even if it is a structure, it is employable.
上述した実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。 Regarding the embodiment described above, the main points of the new technical contents are summarized as follows. In addition, although part or all of the said embodiment is summarized as follows as a novel technique, this invention is not necessarily limited to this.
(付記1) 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムであって、
前記監視対象サーバが、前記管理サーバから予め送られた発生条件によって前記障害の発生を検知してその旨を含む障害情報を前記管理サーバに対して送出する障害検知部と、前記管理サーバからの要求に応じて前記障害資料を採取する障害試料採取部とを備えると共に、
前記管理サーバが、
前記監視対象サーバから前記障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害名に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、
取得可能であると判定された前記障害資料の取得を前記監視対象サーバの前記障害試料採取部に依頼する障害資料要求部と
を有することを特徴とする障害調査情報資料採取システム。
(Supplementary note 1) A failure in which the management server and the monitoring target server are connected to each other, and the management server collects data necessary for analyzing the cause of the failure that has occurred in the operation of the monitoring target server from the monitoring target server A survey information collection system,
The monitoring target server detects the occurrence of the failure according to the occurrence condition sent in advance from the management server and sends failure information including the failure to the management server; and from the management server With a fault sample collection unit that collects the fault data as required,
The management server is
Faults collected from the monitored server corresponding to the fault name included in the fault information from the pre-stored faulty collection information data when the fault information indicating that the fault has occurred is received from the monitored server A fault diagnosis unit that obtains and determines the type of material;
A collection material determination unit that acquires a collection method corresponding to the type of the failure material and an effect caused on the monitored server thereby from the collection object failure material data stored in advance,
A fault data management unit that determines whether or not the fault data can be acquired by comparing the type and collection method of the fault data and the influence with the current state of the monitored server;
A failure investigation information material collection system, comprising: a failure material request unit that requests the failure sample collection unit of the monitoring target server to acquire the failure material determined to be obtainable.
(付記2) 前記障害時採取情報データに、前記障害名に対応する前記障害資料が取得可能であるか否かの判定基準である優先許容度について記憶されており、
前記障害資料管理部が、この障害名に対応する優先許容度に基づいて前記障害資料が取得可能であるか否かを判定する機能を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。
(Supplementary Note 2) The priority collection degree that is a criterion for determining whether or not the failure material corresponding to the failure name can be acquired is stored in the failure collection information data.
The failure investigation information according to appendix 1, wherein the failure material management unit has a function of determining whether or not the failure material can be acquired based on a priority tolerance corresponding to the failure name. Data collection system.
(付記3) 前記管理サーバが、前記監視対象サーバの現在の状態の中で当該監視対象サーバから取得可能な項目についてこれを取得するよう当該監視対象サーバに要求するシステム情報要求部を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。 (Additional remark 3) The said management server has a system information request | requirement part which requests | requires the said monitoring target server to acquire this about the item which can be acquired from the said monitoring target server in the present state of the said monitoring target server. The failure investigation information material collection system according to appendix 1, which is characterized.
(付記4) 前記管理サーバが、前記監視対象サーバの現在の状態の中でユーザが入力可能な項目についての入力を受け付けてこれを記憶するシステム状態入力部を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。 (Additional remark 4) The said management server has a system state input part which receives the input about the item which a user can input in the present state of the said monitoring object server, and memorize | stores this, The additional remark 1 characterized by the above-mentioned. Failure investigation information material collection system described in 1.
(付記5) 前記管理サーバの前記障害資料要求部が、取得可能でないと判定された前記障害資料について、取得可能になるまで待機してから取得する機能を有することを特徴とする、付記1に記載の障害調査情報資料採取システム。 (Supplementary note 5) The supplementary note 1 is characterized in that the faulty material request unit of the management server has a function of obtaining the faulty material determined to be unacquirable after waiting until it can be acquired. Failure investigation information material collection system described.
(付記6) 前記管理サーバと、前記障害時採取情報データおよび前記採取対象障害資料データをユーザが予め入力することが可能である管理端末とが相互に接続されていることを特徴とする、付記1に記載の障害調査情報資料採取システム。 (Supplementary Note 6) The supplementary note is characterized in that the management server is connected to a management terminal through which a user can input in advance the failure collection information data and the collection target failure material data. The failure investigation information material collection system according to 1.
(付記7) 監視対象サーバと相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記監視対象サーバから採取する管理サーバであって、
前記監視対象サーバから前記障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害の種類に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、
取得可能であると判定された前記障害資料を前記監視対象サーバから取得する障害資料要求部と
を有することを特徴とする管理サーバ。
(Supplementary Note 7) A management server that is interconnected with a monitoring target server and collects data necessary for analyzing the cause of a failure that has occurred in the operation of the monitoring target server from the monitoring target server,
When failure information indicating that the failure has occurred is received from the monitored server, it is collected from the monitored server corresponding to the type of failure included in the failure information from pre-stored failure collection information data A fault diagnosis unit that acquires and determines the type of fault data;
A collection material determination unit that acquires a collection method corresponding to the type of the failure material and an effect caused on the monitored server thereby from the collection object failure material data stored in advance,
A fault data management unit that determines whether or not the fault data can be acquired by comparing the type and collection method of the fault data and the influence with the current state of the monitored server;
A management server, comprising: a failure data request unit that acquires the failure data determined to be obtainable from the monitoring target server.
(付記8) 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムにあって、
前記監視対象サーバから前記障害が発生した旨の障害情報を前記管理サーバが受信し、
前記障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから前記管理サーバの障害診断部が取得して決定し、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから前記管理サーバの採取資料判断部が取得し、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを前記管理サーバの障害資料管理部が判定し、
取得可能であると判定された前記障害資料を前記監視対象サーバから前記管理サーバの障害資料要求部が取得する
ことを特徴とする障害調査情報資料採取方法。
(Supplementary note 8) A failure in which the management server and the monitoring target server are connected to each other, and the management server collects data necessary for analyzing the cause of the failure that has occurred in the operation of the monitoring target server from the monitoring target server In the investigation information collection system,
The management server receives failure information indicating that the failure has occurred from the monitored server,
The fault diagnosis unit of the management server obtains and determines the type of fault data corresponding to the type of fault included in the fault information from the pre-stored fault collection information data,
The collection material determination unit of the management server obtains the collection method corresponding to the type of the failure material and the influence generated on the monitored server thereby from the collection target failure material data stored in advance,
The failure data management unit of the management server determines whether or not the failure data can be acquired by comparing the type and collection method of the failure material and the influence with the current state of the monitored server.
A failure investigation information material collection method, wherein the failure material request unit of the management server acquires the failure material determined to be obtainable from the monitored server.
(付記9) 管理サーバと監視対象サーバとが相互に接続され、前記監視対象サーバの動作について発生した障害の原因を解析するために必要な資料を前記管理サーバが前記監視対象サーバから採取する障害調査情報資料採取システムにあって、
前記管理サーバが備えるコンピュータに、
前記障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから取得して決定する手順、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する手順、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する手順、
および取得可能であると判定された前記障害資料を前記監視対象サーバから取得する手順
を実行させることを特徴とする障害調査情報資料採取プログラム。
(Supplementary note 9) Failures in which the management server and the monitoring target server are connected to each other, and the management server collects data necessary for analyzing the cause of the failure that has occurred in the operation of the monitoring target server from the monitoring target server In the investigation information collection system,
In the computer provided in the management server,
A procedure for obtaining and determining the type of fault data corresponding to the type of fault included in the fault information from pre-stored fault collection information data,
A procedure for acquiring from the collection target failure material data stored in advance the collection method corresponding to the type of the failure material and the effect caused by this on the monitored server;
A procedure for determining whether or not the failure data can be acquired by comparing the type and collection method of the failure material and the influence with the current state of the monitored server;
And a failure investigation information material collection program for executing a procedure for obtaining the failure material determined to be obtainable from the monitoring target server.
本発明は、コンピュータネットワークの維持および運用に適用できる。特に、企業などの基幹業務を実行するコンピュータネットワークに適している。 The present invention can be applied to the maintenance and operation of a computer network. In particular, it is suitable for a computer network that executes a basic business such as a company.
1 障害調査情報採取システム
10 管理サーバ
11、21、31 主演算制御手段
12、23 記憶手段
13、22、32 通信手段
20 監視対象サーバ
30 管理端末
33 入出力手段
40 ネットワーク
101 障害診断部
102 システム情報要求部
103 障害資料要求部
104 採取資料判断部
105 障害資料管理部
106 システム状態入力部
111 許容度データ
112 採取対象障害資料データ
113 障害時採取情報データ
114 障害資料データ
115 システム状態データ
201 障害検知部
202 システム情報採取部
203 障害資料採取部
204 本業務プログラム動作部
211 発生条件データ
301 採取対象障害資料登録部
302 障害時採取情報登録部
303 許容度登録部
304 障害資料管理部
305 システム状態登録部
DESCRIPTION OF SYMBOLS 1 Failure investigation
Claims (9)
前記監視対象サーバが、前記管理サーバから予め送られた発生条件によって前記障害の発生を検知してその旨を含む障害情報を前記管理サーバに対して送出する障害検知部と、前記管理サーバからの要求に応じて前記障害資料を採取する障害試料採取部とを備えると共に、
前記管理サーバが、
前記監視対象サーバから前記障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害名に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、
取得可能であると判定された前記障害資料の取得を前記監視対象サーバの前記障害試料採取部に依頼する障害資料要求部と
を有することを特徴とする障害調査情報資料採取システム。 Failure investigation information data that the management server collects from the monitored server the failure data necessary for analyzing the cause of the failure that occurred in the operation of the monitored server when the management server and the monitored server are connected to each other A collection system,
The monitoring target server detects the occurrence of the failure according to the occurrence condition sent in advance from the management server and sends failure information including the failure to the management server; and from the management server With a fault sample collection unit that collects the fault data as required,
The management server is
When the failure information is received from the monitored server, the type of failure data collected from the monitored server corresponding to the failure name included in the failure information is acquired from the failure collection information data stored in advance. Fault diagnosis department to be determined,
A collection material determination unit that acquires a collection method corresponding to the type of the failure material and an effect caused on the monitored server thereby from the collection object failure material data stored in advance,
A fault data management unit that determines whether or not the fault data can be acquired by comparing the type and collection method of the fault data and the influence with the current state of the monitored server;
A failure investigation information material collection system, comprising: a failure material request unit that requests the failure sample collection unit of the monitoring target server to acquire the failure material determined to be obtainable.
前記障害資料管理部が、この障害名に対応する優先許容度に基づいて前記障害資料が取得可能であるか否かを判定する機能を有することを特徴とする、請求項1に記載の障害調査情報資料採取システム。 Stored in the failure collection information data is a priority tolerance that is a criterion for determining whether or not the failure material corresponding to the failure name can be acquired,
The failure investigation according to claim 1, wherein the failure material management unit has a function of determining whether or not the failure material can be acquired based on a priority tolerance corresponding to the failure name. Information collection system.
前記監視対象サーバから前記障害が発生した旨の障害情報を受信した際に、予め記憶された障害時採取情報データから前記障害情報に含まれる障害の種類に対応して前記監視対象サーバから採取する障害資料の種類を取得して決定する障害診断部と、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する採取資料判断部と、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する障害資料管理部と、
取得可能であると判定された前記障害資料を前記監視対象サーバから取得する障害資料要求部と
を有することを特徴とする管理サーバ。 A management server that is interconnected with a monitored server and collects data necessary for analyzing the cause of a failure that has occurred in the operation of the monitored server from the monitored server,
When failure information indicating that the failure has occurred is received from the monitored server, it is collected from the monitored server corresponding to the type of failure included in the failure information from pre-stored failure collection information data A fault diagnosis unit that acquires and determines the type of fault data;
A collection material determination unit that acquires a collection method corresponding to the type of the failure material and an effect caused on the monitored server thereby from the collection object failure material data stored in advance,
A fault data management unit that determines whether or not the fault data can be acquired by comparing the type and collection method of the fault data and the influence with the current state of the monitored server;
A management server, comprising: a failure data request unit that acquires the failure data determined to be obtainable from the monitoring target server.
前記監視対象サーバから前記障害が発生した旨の障害情報を前記管理サーバが受信し、
前記障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから前記管理サーバの障害診断部が取得して決定し、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから前記管理サーバの採取資料判断部が取得し、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを前記管理サーバの障害資料管理部が判定し、
取得可能であると判定された前記障害資料を前記監視対象サーバから前記管理サーバの障害資料要求部が取得する
ことを特徴とする障害調査情報資料採取方法。 Collection of failure investigation information data that the management server collects from the monitored server the data necessary for analyzing the cause of the failure that occurred in the operation of the monitored server when the management server and the monitored server are connected to each other In the system,
The management server receives failure information indicating that the failure has occurred from the monitored server,
The fault diagnosis unit of the management server obtains and determines the type of fault data corresponding to the type of fault included in the fault information from the pre-stored fault collection information data,
The collection material determination unit of the management server obtains the collection method corresponding to the type of the failure material and the influence generated on the monitored server thereby from the collection target failure material data stored in advance,
The failure data management unit of the management server determines whether or not the failure data can be acquired by comparing the type and collection method of the failure material and the influence with the current state of the monitored server.
A failure investigation information material collection method, wherein the failure material request unit of the management server acquires the failure material determined to be obtainable from the monitored server.
前記管理サーバが備えるコンピュータに、
前記障害情報に含まれる障害の種類に対応する障害資料の種類を予め記憶された障害時採取情報データから取得して決定する手順、
前記障害資料の種類に対応する採取方法とこれによって前記監視対象サーバに発生する影響とを予め記憶された採取対象障害資料データから取得する手順、
前記障害資料の種類と採取方法および前記影響を前記監視対象サーバの現在の状態と比較してこの障害資料が取得可能であるか否かを判定する手順、
および取得可能であると判定された前記障害資料を前記監視対象サーバから取得する手順
を実行させることを特徴とする障害調査情報資料採取プログラム。 Collection of failure investigation information data that the management server collects from the monitored server the data necessary for analyzing the cause of the failure that occurred in the operation of the monitored server when the management server and the monitored server are connected to each other In the system,
In the computer provided in the management server,
A procedure for obtaining and determining the type of fault data corresponding to the type of fault included in the fault information from pre-stored fault collection information data,
A procedure for acquiring from the collection target failure material data stored in advance the collection method corresponding to the type of the failure material and the effect caused by this on the monitored server;
A procedure for determining whether or not the failure data can be acquired by comparing the type and collection method of the failure material and the influence with the current state of the monitored server;
And a failure investigation information material collection program for executing a procedure for obtaining the failure material determined to be obtainable from the monitoring target server.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011044417A JP5732913B2 (en) | 2011-03-01 | 2011-03-01 | Failure investigation information material collection system, management server, failure investigation information material collection method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011044417A JP5732913B2 (en) | 2011-03-01 | 2011-03-01 | Failure investigation information material collection system, management server, failure investigation information material collection method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012181699A true JP2012181699A (en) | 2012-09-20 |
JP5732913B2 JP5732913B2 (en) | 2015-06-10 |
Family
ID=47012844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011044417A Expired - Fee Related JP5732913B2 (en) | 2011-03-01 | 2011-03-01 | Failure investigation information material collection system, management server, failure investigation information material collection method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5732913B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017081985A1 (en) * | 2015-11-11 | 2017-05-18 | 日立オートモティブシステムズ株式会社 | Vehicle control device |
CN109144800A (en) * | 2018-08-27 | 2019-01-04 | 郑州云海信息技术有限公司 | A kind of collection method, device and the relevant device of server failure information |
JP2019139566A (en) * | 2018-02-13 | 2019-08-22 | 日本電気株式会社 | Material collection server, material collection system, material collection method and material collection program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006195687A (en) * | 2005-01-13 | 2006-07-27 | Hitachi Ltd | Fault investigation data collection system |
JP2008033725A (en) * | 2006-07-31 | 2008-02-14 | Nec Corp | Operation management system, monitoring device, monitoring setting information generation method and program |
JP2009205486A (en) * | 2008-02-28 | 2009-09-10 | Mitsubishi Electric Corp | Data processor and communication system and data processing method and program |
JP2011039632A (en) * | 2009-08-07 | 2011-02-24 | Nec Corp | Apparatus and method for recovering failure, and program |
-
2011
- 2011-03-01 JP JP2011044417A patent/JP5732913B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006195687A (en) * | 2005-01-13 | 2006-07-27 | Hitachi Ltd | Fault investigation data collection system |
JP2008033725A (en) * | 2006-07-31 | 2008-02-14 | Nec Corp | Operation management system, monitoring device, monitoring setting information generation method and program |
JP2009205486A (en) * | 2008-02-28 | 2009-09-10 | Mitsubishi Electric Corp | Data processor and communication system and data processing method and program |
JP2011039632A (en) * | 2009-08-07 | 2011-02-24 | Nec Corp | Apparatus and method for recovering failure, and program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017081985A1 (en) * | 2015-11-11 | 2017-05-18 | 日立オートモティブシステムズ株式会社 | Vehicle control device |
JP2019139566A (en) * | 2018-02-13 | 2019-08-22 | 日本電気株式会社 | Material collection server, material collection system, material collection method and material collection program |
JP7052396B2 (en) | 2018-02-13 | 2022-04-12 | 日本電気株式会社 | Data collection server, data collection system, data collection method and data collection program |
CN109144800A (en) * | 2018-08-27 | 2019-01-04 | 郑州云海信息技术有限公司 | A kind of collection method, device and the relevant device of server failure information |
Also Published As
Publication number | Publication date |
---|---|
JP5732913B2 (en) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657309B2 (en) | Behavior analysis and visualization for a computer infrastructure | |
JP4866861B2 (en) | Method and system for monitoring transaction-based systems | |
JP5267736B2 (en) | Fault detection apparatus, fault detection method, and program recording medium | |
US20070168696A1 (en) | System for inventing computer systems and alerting users of faults | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
US9191296B2 (en) | Network event management | |
JP2017520032A (en) | Integrated monitoring and control of processing environment | |
WO2013010657A1 (en) | Method and system for distributed and collaborative monitoring | |
WO2016188100A1 (en) | Information system fault scenario information collection method and system | |
JP6009089B2 (en) | Management system for managing computer system and management method thereof | |
US20110113429A1 (en) | Incident management method and operation management server | |
US9621679B2 (en) | Operation task managing apparatus and method | |
JP2011197785A (en) | System and program for collecting log | |
KR20180037342A (en) | Application software error monitoring, statistics management service and solution method. | |
JP5007247B2 (en) | Job processing system and job management method | |
JP5732913B2 (en) | Failure investigation information material collection system, management server, failure investigation information material collection method and program | |
JP3916232B2 (en) | Knowledge-type operation management system, method and program | |
US20210266238A1 (en) | Operation device and operation method | |
EP2495660A1 (en) | Information processing device and method for controlling information processing device | |
JP2014228932A (en) | Failure notification device, failure notification program, and failure notification method | |
JP4575020B2 (en) | Failure analysis device | |
EP4174596A1 (en) | System and method for collecting mes information | |
US10255128B2 (en) | Root cause candidate determination in multiple process systems | |
CN113824601A (en) | Electric power marketing monitored control system based on service log | |
JP2011186516A (en) | Log management method, log management program, and log management device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141028 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5732913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |