JP2005004513A - Failure analysis data sampling system and method thereof - Google Patents
Failure analysis data sampling system and method thereof Download PDFInfo
- Publication number
- JP2005004513A JP2005004513A JP2003167858A JP2003167858A JP2005004513A JP 2005004513 A JP2005004513 A JP 2005004513A JP 2003167858 A JP2003167858 A JP 2003167858A JP 2003167858 A JP2003167858 A JP 2003167858A JP 2005004513 A JP2005004513 A JP 2005004513A
- Authority
- JP
- Japan
- Prior art keywords
- failure analysis
- analysis data
- data collection
- failure
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Computer And Data Communications (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、コンピュータシステムの障害解析用データ採取装置およびその方法に関するものである。
【0002】
【従来の技術】
従来の障害解析用データ採取装置として、クライアント側ワークステーションとサーバ側ワークステーションとがネットワークを介して接続されていて、クライアント側ワークステーションには、アプリケーションプログラム、通信管理プログラム、アプリケーションプログラムの関連プログラム名称をテーブル化した関連プログラム一覧テーブル、保守情報管理部、メッセージ通信エリア、管理テーブル等が備わるものがある。関連プログラム一覧テーブルと管理テーブルはシステム導入時に作成されるものであり、関連プログラム一覧テーブルには、サーバアクセス時に関連するクライアントの通信管理プログラムとサーバの通信管理プログラムおよびアプリケーションプログラムが登録されている。また、サーバ側ワークステーションにもシステム導入時に、管理テーブルを作成しておくものである。
【0003】
上述したような装置でクライアント側ワークステーションからサーバ側ワークステーションにアクセスをして障害が発生した場合、自身の保守情報取得停止を行い、それまでメモリに記録していた情報をディスクに書き込む。続いて、関連プログラム一覧テーブルを参照し、クライアント側ワークステーションおよびサーバ側ワークステーション上の関連プログラムを特定し、保守情報管理部およびメッセージ通信エリアを経由して、それぞれのプログラムの保守情報取得停止を行う。この処理により、障害が発生したプログラムだけでなく、関連するクライアント側ワークステーションおよびサーバ側ワークステーション上のプログラムの保守情報取得停止を実施し、採取してきた保守情報をディスクに記録するものである(例えば、特許文献1参照)。
【0004】
【特許文献1】
特開平6−266686号公報
【0005】
【発明が解決しようとする課題】
従来の障害解析データ採取装置では、ディスクに記録した保守情報は、各プログラムがメモリ上に記憶していた情報に関しているだけであり、障害原因究明のためには障害発生時、または、障害発生時前後の、より詳しい障害情報を追加採取することが望まれるが採取する機能を備えてはいない。また、追加情報が必要ないように通常時から詳細情報を採取しようとすると、コンピュータの処理やメモリあるいはディスク等のリソースに過大な負荷をかけてしまうという問題がある。
【0006】
また、障害情報を採取する対象をテーブルに登録できるが固定的であり、障害発生時の状況から判断して取得する保守情報を追加したり削除したり採取内容を変更したりすることができない。さらに関係するプログラムを固定的に登録し、障害発生時は常に、登録されたプログラムのみから、或いは登録されたプログラムの全てから保守情報を取得するのでは、最適な保守情報を得ることは困難である。
【0007】
この発明は上記のような課題を解決するためになされたもので、障害発生時に、障害解析データ(保守情報)を追加で採取する方法、および最適な障害解析データを採取するために、障害発生時点の状況を判断し、採取データを決定する障害解析データ採取装置およびその方法を得ることを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る障害解析データ採取装置は、分散コンピュータシステムで構成された障害解析データ採取装置において、障害の発生を監視し検知する障害監視手段と、障害発生時点の状況を調査し、採取すべきノードと障害解析データを特定する採取対象特定手段と、障害解析データを採取するデータ採取手段と、障害解析データの採取処理を制御するデータ採取制御手段とを備えるものである。
【0009】
この発明に係る障害解析データ採取方法は、分散コンピュータシステムにより障害解析データを採取する障害解析データ採取方法において、障害の発生を監視および検知し、障害発生時点の状況を調査して、採取すべきノードと障害解析データを判断し、さらに障害解析データを採取すると共に、障害解析データの採取処理を行うものである。
【0010】
【発明の実施の形態】
以下、この発明の実施の一形態について説明する。
実施の形態1.
この発明に係る実施の形態1について図1を参照して説明する。なお、図1は実施の形態1に係る障害解析データ採取装置100の構成を示すブロック図である。
【0011】
障害解析データ採取装置100は、監視対象ノード1,2,3と、ネットワーク5と、監視対象リソース10と、障害監視手段11と、データ採取制御手段12と、データ採取手段13a,13b,13cと、採取対象特定手段14と、データ記録手段23a,23b,23cとを備えて構成される。
尚、監視対象ノードは3つに限ることはなく、さらに多数のノードがネットワークに接続されていてもよいものである。
【0012】
監視対象ノード1,2,3は、分散コンピュータシステム内のサーバやネットワーク機器等の監視対象となるノードであり、ネットワーク5は分散している夫々の監視対象ノード1,2,3を接続する。監視対象リソース10は監視対象ノード内のメモリ、プロセッサ、プログラムおよびディスク等の監視対象となるリソースであり、障害監視手段11は監視対象の障害、異常を監視、検知する。
【0013】
データ採取制御手段12は、データ採取手段13a,13b,13cと採取対象特定手段14を利用して障害解析データを収集する処理の制御を行う。データ採取手段13a,13b,13cは、新たに詳細な障害解析データを採取し、また採取対象特定手段14は、現在のシステム状況等を調査し、障害解析データとして、どこからどのような障害解析データを採取すべきかを判断する。データ記録手段23a,23b,23cは過去の障害情報を含めて記録されていて、データ採取手段13a,13b,13cにより記録され、また、必要な情報が読み出される。
【0014】
次に障害解析データ採取装置100の動作について説明する。
障害監視手段11は、障害発生を監視し(図1の▲1▼の処理)、検知した場合その内容をデータ採取制御手段12に通知する(図1の▲2▼の処理)。データ採取制御手段12は採取対象特定手段14に問い合わせを行い、現在のシステム状況から、どのノードからどのような障害解析データを採取するべきかの情報を得る(図1の▲3▼の処理)。
【0015】
データ採取制御手段12は採取対象特定手段14から得た情報をもとに、複数あるデータ採取手段13a,13b,13cの中からデータ記録手段23a,23b,23cに記録されている情報に基づき、必要な手段を選び(たとえば13aと13cを選び)、さらにそれぞれの手段に対して、データ採取範囲を限定するような付加情報を付与して、障害解析データ採取処理を行う(図1の▲4▼の処理)。
【0016】
以上説明したように、障害発生時の解析データの採取処理において、各プログラムが通常時から記録しておいたログやトレースを保存するだけにとどまらず、障害解析に有効な詳細データを、発生時の状況に応じて選択し、追加採取することができる。これにより障害発生時の解析に必要なデータが揃いやすく、障害解析の迅速化を可能とするものである。
【0017】
実施の形態2.
この発明に係る実施の形態2について図2を参照して説明する。なお、図2は実施の形態2に係る障害解析データ採取装置200の構成を示すブロック図である。
【0018】
障害解析データ採取装置200の構成は、上述した実施の形態1の障害解析データ採取装置100に、分散システム内の他のノードの障害解析データも採取できるよう、ノード間連携手段15を追加した構成である。その他の構成要素とそれらの動作は実施の形態1で説明したことと同様であり、ここでの説明は省略する。
【0019】
障害解析情報は、障害発生ノード内からのみの採取では不十分な場合があり、他ノードからの採取が望まれる場合がある。これに備え、ノード間連携手段15は、他ノードへのデータ採取要求を行うとともに、他からのデータ採取要求に応え、データ採取制御手段12を介して、データ採取手段13a,13b,13cを利用して障害解析データを採取する。図2の中の監視対象ノード2および監視対象ノード3の内部構成は監視対象ノード1と同様であり、互いに連携することができる(図2の▲5▼および▲6▼の処理)。また、連携方式は特に限定はなく、ノード間で直接連携する方式でも、マネージャ機能等の全体の連携を制御する機能を介して要求することでもよい。特にクライアントサーバ形式に限定するものではない。
【0020】
実施の形態3.
この発明に係る実施の形態3について図3および図4を参照して説明する。なお、図3は実施の形態3に係る障害解析データ採取装置300の構成を示すブロック図であり、図4は障害解析データ採取装置300のコネクション情報を示すテーブルである。
【0021】
障害解析データ採取装置300の構成は、上述した実施の形態2の障害解析データ採取装置200に、採取対象特定のために、自ノードのネットワークコネクション状態を調査する、コネクション状況調査手段16を加えた構成である。その他の構成要素とその動作は実施の形態1および実施の形態2で説明したことと同様であり、ここでの説明は省略する。
【0022】
分散システムで発生する障害は、通信相手、あるいは通信相手との通信処理過程に原因が存在する場合があり、発生時のコネクション状況から、実施の形態3において備えたコネクション状況調査手段16により、関連があると思われるノードを推測し、障害解析データを採取しておくことが可能となる。
【0023】
図4に示すようにコネクション情報は、例えばプロトコルの種類、自ノードのポート番号、通信状態、相手ノードの番号、相手ポートの番号があり、所定の条件下で採取判断がなされる。採取対象特定手段14では、コネクション状況調査手段16に要求し取得した障害発生時のコネクション状態の情報と、予め決めておく障害データ採取を行うコネクションを特定する条件とを利用して、障害解析データ対象を特定する。条件として例えば「接続状態のtcpプロトコルのコネクションで、自ノード、相手ノードともポート番号が1000番以上」であれば、自ノードのポート番号が2000番と1500番の場合が選択される。このようにして障害解析に有効なデータを採取することが可能となる。
【0024】
実施の形態4.
この発明に係る実施の形態4について図5を参照して説明する。なお、図5は実施の形態4に係る障害解析データ採取装置400の構成を示すブロック図である。
【0025】
障害解析データ採取装置400の構成は、上述した実施の形態2である障害解析データ採取装置200に、採取対象特定のために、分散システム全体のネットワークコネクション状態を記録するコネクション状況モニタ手段17を加えた構成である。その他の構成要素とその動作は実施の形態1、および実施の形態2で説明したことと同様であり、ここでの説明は省略する。
【0026】
コネクション状況モニタ手段17は、専らネットワークのコネクション状態を監視し、他の機能を有さない手段であり、刻々と変化するネットワーク状況を詳細にモニタし続けることができる。実施の形態3では障害発生時直後のネットワークコネクション情報を活用する方式であったが、実施の形態4では障害発生時、或いはその前後の情報をも活用する方式であり、より効果的である。また、障害が発生したノード自身で採取できる状況の情報だけでなく、外部の装置から客観的に情報が採取され、抜けや認識誤りも発生しにくく、情報としてより正確になる。
【0027】
また、採取データ内容は実施の形態3と同様であるが、タイミングとして障害発生時および、その前後の情報を扱えることで、必要な採取データの選定の正確性が増大する。
【0028】
実施の形態5.
この発明に係る実施の形態5について図6および図7を参照して説明する。なお、図6は実施の形態5に係る障害解析データ採取装置500の構成を示すブロック図であり、図7は障害解析データ採取装置500のコネクション情報を示すテーブルである。
【0029】
障害解析データ採取装置500の構成は、上述した実施の形態4である障害解析データ採取装置400に、あるべきコネクション状態を登録するコネクション状態登録手段18を加えた構成である。その他の構成要素とその動作は実施の形態1、実施の形態2、および実施の形態4で説明したことと同様であり、ここでの説明は省略する。
【0030】
コネクション状態登録手段18は、そのノードでの正常時にあるべきネットワークコネクションの状態を登録しておくことができる手段である。障害発生時にコネクション状況モニタ手段17から得たコネクション状態の情報と、コネクション状態登録手段18に登録してある、あるべきコネクション状態に相違がある場合に、その相違に関連する部分に障害の原因や、障害原因を特定するための情報がある確率が高いと考えられ、関連する部分から、より詳細の障害解析データを採取する判断ができることになる。
【0031】
図7は、コネクション状況モニタ手段17で採取した障害発生時の情報〔図7(a)〕と、コネクション状態登録手段18に登録しておいたあるべきネットワークコネクション状態の情報〔図7(b)〕の例である。これら情報の比較から、自ポート2000とのコネクションが存在するはずであるにも関わらず不在になっているノード3からの障害解析情報の採取が望まれることが判断できる。
【0032】
障害発生ノード上では正常時に、どのようなコネクションが確立されているべきかの情報を登録することができ、障害が発生した時点の実際のコネクション状況と比較し、相違部分があれば、その相違に関係するノードから詳細の障害解析データを追加採取することで、より有効な障害解析データの採取が可能となる。
【0033】
実施形態6.
この発明に係る実施の形態6について図8を参照して説明する。なお、図8は実施の形態6に係る障害解析データ採取装置600の構成を示すブロック図である。
【0034】
障害解析データ採取装置600の構成は、上述した実施の形態2である障害解析データ採取装置200に、採取対象特定のために、分散システム全体のネットワークトラフィック状態を記録するトラフィック状況モニタ手段19を加えた構成である。その他の構成要素とその動作は実施の形態1、および実施の形態2で説明したことと同様であり、ここでの説明は省略する。
【0035】
トラフィックモニタ手段19は、専らネットワークのトラフィック監視のみを行う手段であり、刻々と変化するネットワーク状況を詳細にモニタし続けることができる。障害はネットワークトラフィック異常に起因して発生している場合もあり、障害発生時に、あらかじめ規定した異常と判断するトラフィック量を超えるトラフィックを検出していた場合に、その異常トラフィックに関わるノードからの詳細な障害解析情報を追加で採取することが可能となる。例えば、ノード2とノード3の間で異常トラフィックが発生していた場合、ノード2とノード3とその中継経路上のネットワーク装置から障害解析情報を採取する。
【0036】
分散システムで発生する障害は、ネットワーク上のトラフィック異常により発生することもあり、分散システム内にネットワークのトラフィックをモニタする手段を設け、トラフィック情報を蓄積し、障害発生時には、該当ノードからの問い合わせにより、その情報を提供することができるので、異常ネットワークトラフィックに関係しているノードから、詳細障害解析データを追加採取することで有効な情報を採取できる。
【0037】
実施の形態7.
この発明に係る実施の形態7について図9および図10を参照して説明する。なお、図9は実施の形態7に係る障害解析データ採取装置700の構成を示すブロック図であり、図10は障害解析データ採取装置700の処理履歴を示すテーブルである。
【0038】
障害解析データ採取装置700の構成は、上述した実施の形態2である障害解析データ採取装置200に、採取対象特定のために処理フローモニタ手段20を加えた構成である。その他の構成要素とその動作は実施の形態1および実施の形態2で説明したことと同様であり、ここでの説明は省略する。
【0039】
分散システム上の処理は、ワークフロー処理や、ジョブ制御機能により、複数のノードを渡り処理が進むものがある。処理は必ずしも同じ経路をたどらず、処理内容等により、経路が異なったり、省略されたりするため、固定的ではない。このような処理の場合、障害が発生したノードではなく、それ以前の処理を行ったノードに問題があったことも予測される。これに備えた障害解析データを採取するために、該当処理がどのような処理履歴をたどったかをモニタする手段を加え、関連したノードやプログラムを特定することができる。
【0040】
図10に示すように処理フローモニタ手段20が記録した処理履歴のデータとして、例えば処理ID、実施順、処理ノード、処理プログラム、開始日時、終了日時等が記録されている。データは一覧の処理に付与される処理ID毎に、その処理の履歴として記録される。ある処理(ID=X11)がノード1で障害になり、処理停止になった場合、処理フローモニタ手段20に問い合わせを行うと、過去の処理履歴を得ることができる。このデータを元に過去に経由してきた処理ノードのそれぞれのプログラムに関する障害解析データを追加採取することが可能となる。
【0041】
【発明の効果】
以上のように、この発明によれば、障害発生時の解析データの採取処理において、各プログラムが通常時から記録しておいた採取処理に関するログやトレースを保存するだけにとどまらず、障害解析に有効な詳細データを、発生時の状況に応じて、動的に選択して追加採取することができる。これにより障害発生時の解析に必要なデータが揃いやすく、障害解析の迅速化を可能とする効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1に係る障害解析データ採取装置の構成を示すブロック図である。
【図2】この発明の実施の形態2に係る障害解析データ採取装置の構成を示すブロック図である。
【図3】この発明の実施の形態3に係る障害解析データ採取装置の構成を示すブロック図である。
【図4】実施の形態3を説明するためのコネクション情報を示すテーブルである。
【図5】この発明の実施の形態4に係る障害解析データ採取装置の構成を示すブロック図である。
【図6】この発明の実施の形態5に係る障害解析データ採取装置の構成を示すブロック図である。
【図7】実施の形態5を説明するためのコネクション情報を示すテーブルである。
【図8】この発明の実施の形態6に係る障害解析データ採取装置の構成を示すブロック図である。
【図9】この発明の実施の形態7に係る障害解析データ採取装置の構成を示すブロック図である。
【図10】実施の形態7を説明するための処理履歴を示すテーブルである。
【符号の説明】
1,2,3 監視対象ノード、5 ネットワーク、10 監視対象リソース、11 障害監視手段、12 データ採取制御手段、13a,13b,13c データ採取手段、14 採取対象特定手段、15 ノード間連携手段、16 コネクション状況調査手段、17 コネクション状況モニタ手段、18 コネクション状態登録手段、19 トラフィックモニタ手段、20 処理フローモニタ手段、23a,23b,23c データ記録手段。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a failure analysis data collection device and method for computer systems.
[0002]
[Prior art]
As a conventional failure analysis data collection device, a client-side workstation and a server-side workstation are connected via a network, and the client-side workstation has application programs, communication management programs, and application program related program names. Are provided with a related program list table, a maintenance information management unit, a message communication area, a management table, and the like. The related program list table and the management table are created when the system is introduced. In the related program list table, a client communication management program, a server communication management program, and an application program related to server access are registered. A management table is also created in the server side workstation when the system is introduced.
[0003]
When a failure occurs when the client-side workstation accesses the server-side workstation with the above-described apparatus, the maintenance information acquisition is stopped, and the information recorded in the memory until then is written to the disk. Next, refer to the related program list table, identify the related programs on the client workstation and server workstation, and stop the maintenance information acquisition of each program via the maintenance information management unit and the message communication area. Do. By this processing, maintenance information acquisition is stopped not only for the program in which the failure has occurred, but also for the programs on the associated client workstation and server workstation, and the collected maintenance information is recorded on the disk ( For example, see Patent Document 1).
[0004]
[Patent Document 1]
Japanese Patent Laid-Open No. 6-266686
[Problems to be solved by the invention]
In the conventional failure analysis data collection device, the maintenance information recorded on the disk is only related to the information that each program has stored in the memory. It is desirable to collect more detailed fault information before and after, but it does not have a function to collect. In addition, if detailed information is collected from a normal time so that additional information is not required, there is a problem that an excessive load is applied to resources such as computer processing and memory or a disk.
[0006]
In addition, the target for collecting failure information can be registered in the table, but it is fixed, and maintenance information to be acquired based on the situation at the time of failure cannot be added or deleted, or the collected content cannot be changed. Furthermore, it is difficult to obtain the optimum maintenance information by registering the related programs in a fixed manner and always obtaining maintenance information from only the registered programs or all of the registered programs when a failure occurs. is there.
[0007]
The present invention has been made to solve the above-described problems. When a failure occurs, a method for additionally collecting failure analysis data (maintenance information) and a failure occurrence in order to collect optimum failure analysis data It is an object of the present invention to obtain a failure analysis data collection apparatus and method for judging a situation at a time point and determining collection data.
[0008]
[Means for Solving the Problems]
The failure analysis data collection device according to the present invention should investigate and collect failure monitoring means for monitoring and detecting the occurrence of a failure, and the situation at the time of failure occurrence in the failure analysis data collection device configured by a distributed computer system A collection target identification unit that identifies a node and failure analysis data, a data collection unit that collects failure analysis data, and a data collection control unit that controls failure analysis data collection processing are provided.
[0009]
The failure analysis data collection method according to the present invention is a failure analysis data collection method for collecting failure analysis data by a distributed computer system. The failure analysis data collection method should monitor and detect the occurrence of a failure, investigate the situation at the time of failure, and collect the failure analysis data. The node and the failure analysis data are judged, and further, failure analysis data is collected and failure analysis data is collected.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described.
[0011]
The failure analysis
Note that the number of nodes to be monitored is not limited to three, and a larger number of nodes may be connected to the network.
[0012]
The
[0013]
The data
[0014]
Next, the operation of the failure analysis
The failure monitoring means 11 monitors the occurrence of a failure (process (1) in FIG. 1), and if detected, notifies the data collection control means 12 of the content (process (2) in FIG. 1). The data collection control means 12 makes an inquiry to the collection target specifying means 14 and obtains information on what kind of failure analysis data should be collected from which node based on the current system status (process (3) in FIG. 1). .
[0015]
Based on the information obtained from the collection
[0016]
As explained above, in the process of collecting analysis data at the time of failure occurrence, detailed data useful for failure analysis is not only saved in the logs and traces recorded by each program from the normal time. Depending on the situation, additional sampling can be selected. As a result, the data necessary for the analysis at the time of failure occurrence can be easily prepared, and the failure analysis can be speeded up.
[0017]
A second embodiment according to the present invention will be described with reference to FIG. FIG. 2 is a block diagram showing the configuration of the failure analysis
[0018]
The configuration of the failure analysis
[0019]
It may be insufficient to collect the failure analysis information only from within the failed node, and it may be desired to collect the failure analysis information from another node. In preparation for this, the inter-node cooperation means 15 makes a data collection request to another node and uses the data collection means 13a, 13b, 13c via the data collection control means 12 in response to a data collection request from another. Collect failure analysis data. The internal configurations of the
[0020]
[0021]
In the configuration of the failure analysis
[0022]
The failure that occurs in the distributed system may be caused by the communication partner or the communication processing process with the communication partner, and the connection status investigation means 16 provided in
[0023]
As shown in FIG. 4, the connection information includes, for example, the type of protocol, the port number of the own node, the communication state, the number of the partner node, and the number of the partner port, and the collection determination is made under predetermined conditions. The collection
[0024]
[0025]
The configuration of the failure analysis
[0026]
The connection status monitoring means 17 is a means that exclusively monitors the connection status of the network and does not have other functions, and can continue to monitor the network status that changes every moment in detail. In the third embodiment, the network connection information immediately after the failure occurs is used, but in the fourth embodiment, the information is also used when the failure occurs or before and after the failure, which is more effective. Also, not only information on the situation that can be collected by the failed node itself, but also information is objectively collected from an external device, so that omissions and recognition errors are less likely to occur, and the information becomes more accurate.
[0027]
The contents of the collected data are the same as those in the third embodiment, but the accuracy of selecting the necessary collected data can be increased by handling the information at the time of failure and the information before and after the failure.
[0028]
[0029]
The configuration of the failure analysis
[0030]
The connection
[0031]
FIG. 7 shows information at the time of failure (FIG. 7A) collected by the connection status monitor means 17 and information on the network connection status that should be registered in the connection status registration means 18 (FIG. 7B). ] Is an example. From the comparison of the information, it can be determined that it is desired to collect the failure analysis information from the
[0032]
Information on what kind of connection should be established at the time of normal operation can be registered on the failed node. Compared with the actual connection status at the time of failure, if there is a difference, the difference It is possible to collect more effective failure analysis data by additionally collecting detailed failure analysis data from nodes related to.
[0033]
[0034]
The configuration of the failure analysis
[0035]
The
[0036]
Failures that occur in a distributed system may occur due to abnormal traffic on the network. A means for monitoring network traffic is provided in the distributed system, and traffic information is accumulated. Since this information can be provided, effective information can be collected by additionally collecting detailed failure analysis data from nodes related to abnormal network traffic.
[0037]
A seventh embodiment according to the present invention will be described with reference to FIG. 9 and FIG. 9 is a block diagram showing a configuration of the failure analysis
[0038]
The configuration of the failure analysis
[0039]
Some of the processes on the distributed system proceed through a plurality of nodes by workflow process or job control function. The processing does not necessarily follow the same route, and the route is different or omitted depending on the processing content or the like. In the case of such processing, it is also predicted that there was a problem not with the node where the failure occurred, but with the node that performed the previous processing. In order to collect the failure analysis data prepared for this, it is possible to add a means for monitoring what processing history the corresponding process has followed, and to specify related nodes and programs.
[0040]
As processing history data recorded by the processing flow monitoring means 20 as shown in FIG. 10, for example, processing ID, execution order, processing node, processing program, start date and time, end date and time, etc. are recorded. Data is recorded as a history of processing for each processing ID assigned to the processing of the list. When a process (ID = X11) becomes a failure in the
[0041]
【The invention's effect】
As described above, according to the present invention, in the analysis data collection process at the time of failure occurrence, not only the logs and traces related to the collection process recorded by each program from the normal time but also the failure analysis is performed. Effective detailed data can be selected and collected dynamically according to the situation at the time of occurrence. As a result, the data necessary for the analysis at the time of failure occurrence can be easily obtained, and the failure analysis can be speeded up.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 2 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 3 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 4 is a table showing connection information for explaining the third embodiment.
FIG. 5 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 6 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 7 is a table showing connection information for explaining the fifth embodiment;
FIG. 8 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 9 is a block diagram showing a configuration of a failure analysis data collection device according to
FIG. 10 is a table showing a processing history for explaining the seventh embodiment.
[Explanation of symbols]
1, 2, 3 Monitoring target node, 5 network, 10 Monitoring target resource, 11 Fault monitoring means, 12 Data collection control means, 13a, 13b, 13c Data collection means, 14 Collection target specifying means, 15 Inter-node cooperation means, 16 Connection status checking means, 17 connection status monitoring means, 18 connection status registration means, 19 traffic monitoring means, 20 processing flow monitoring means, 23a, 23b, 23c data recording means.
Claims (14)
障害の発生を監視し検知する障害監視手段と、
障害発生時点の状況を調査し、採取すべきノードと障害解析データを特定する採取対象特定手段と、
前記障害解析データを採取するデータ採取手段と、
前記障害解析データの採取処理を制御するデータ採取制御手段と
を備えることを特徴とする障害解析データ採取装置。In the failure analysis data collection device configured with a distributed computer system,
A fault monitoring means for monitoring and detecting the occurrence of a fault;
A collection target identification means for investigating the situation at the time of failure occurrence and identifying nodes to be collected and failure analysis data,
Data collection means for collecting the failure analysis data;
A failure analysis data collection device comprising: data collection control means for controlling the failure analysis data collection processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003167858A JP4286594B2 (en) | 2003-06-12 | 2003-06-12 | Fault analysis data collection device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003167858A JP4286594B2 (en) | 2003-06-12 | 2003-06-12 | Fault analysis data collection device and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005004513A true JP2005004513A (en) | 2005-01-06 |
JP4286594B2 JP4286594B2 (en) | 2009-07-01 |
Family
ID=34093545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003167858A Expired - Fee Related JP4286594B2 (en) | 2003-06-12 | 2003-06-12 | Fault analysis data collection device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4286594B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122330A (en) * | 2005-10-27 | 2007-05-17 | Nec Corp | Cluster fault estimation system |
JP2008165558A (en) * | 2006-12-28 | 2008-07-17 | Fuji Xerox Co Ltd | Information browsing system, information processor, information delivery device and program |
JP2012208919A (en) * | 2011-03-15 | 2012-10-25 | Ricoh Co Ltd | Electronic machine, information processing system and program |
-
2003
- 2003-06-12 JP JP2003167858A patent/JP4286594B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122330A (en) * | 2005-10-27 | 2007-05-17 | Nec Corp | Cluster fault estimation system |
JP2008165558A (en) * | 2006-12-28 | 2008-07-17 | Fuji Xerox Co Ltd | Information browsing system, information processor, information delivery device and program |
JP2012208919A (en) * | 2011-03-15 | 2012-10-25 | Ricoh Co Ltd | Electronic machine, information processing system and program |
Also Published As
Publication number | Publication date |
---|---|
JP4286594B2 (en) | 2009-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7266758B2 (en) | Network monitoring program, network monitoring method, and network monitoring apparatus | |
US8543988B2 (en) | Trace processing program, method and system | |
CN106462702B (en) | Method and system for acquiring and analyzing electronic forensic data in a distributed computer infrastructure | |
US20140189431A1 (en) | Method and system for monitoring transaction execution on a computer network and computer storage medium | |
JP5560936B2 (en) | Configuration information acquisition method, virtual probe, and configuration information acquisition control device | |
JP2008217735A (en) | Fault analysis system, method and program | |
CN105610648A (en) | Operation and maintenance monitoring data collection method and server | |
JP5342082B1 (en) | Network failure analysis system and network failure analysis program | |
JP6223380B2 (en) | Relay device and program | |
JP4286594B2 (en) | Fault analysis data collection device and method | |
JP2007274282A (en) | Network monitoring program, network monitoring method and network monitoring device | |
JP4025597B2 (en) | Data communication apparatus and method, data communication program and recording medium recording the program | |
JP2004348640A (en) | Method and system for managing network | |
US20080216057A1 (en) | Recording medium storing monitoring program, monitoring method, and monitoring system | |
CN116204386A (en) | Method, system, medium and equipment for automatically identifying and monitoring application service relationship | |
CN1992647A (en) | Device and method for detecting load balance system | |
JP2003345628A (en) | Method for collecting fault research material, and implementation system therefor and processing program therefor | |
JP4575020B2 (en) | Failure analysis device | |
CN114598622A (en) | Data monitoring method and device, storage medium and computer equipment | |
JP2008005118A (en) | Network monitor system | |
JP4081258B2 (en) | Management server system | |
JP4317420B2 (en) | Server computer and communication log processing method | |
JP2005227982A (en) | Network system equipped with security monitoring function, log data analysis terminal and information terminal | |
CN115687036A (en) | Log collection method and device and log system | |
JP2002259236A (en) | Distributed control system and method for collecting data in emergency in this system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060213 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070119 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20081016 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20081016 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20081016 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20081016 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20081120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090325 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |