JP2016071640A - Information processing system, logging control program, and logging control method - Google Patents
Information processing system, logging control program, and logging control method Download PDFInfo
- Publication number
- JP2016071640A JP2016071640A JP2014200524A JP2014200524A JP2016071640A JP 2016071640 A JP2016071640 A JP 2016071640A JP 2014200524 A JP2014200524 A JP 2014200524A JP 2014200524 A JP2014200524 A JP 2014200524A JP 2016071640 A JP2016071640 A JP 2016071640A
- Authority
- JP
- Japan
- Prior art keywords
- message
- information
- log information
- unit
- logging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は,情報処理システム,ロギング制御プログラム及びロギング制御方法に関する。 The present invention relates to an information processing system, a logging control program, and a logging control method.
例えば,利用者に対してサービスを提供する業務システムは,その業務システムで実行される処理の動作に関する情報(以下,動作情報とも呼ぶ)を記憶する場合がある(以下,記憶された動作情報をログ情報とも呼ぶ)。そして,運用管理者は,例えば,業務システムで障害が発生したことを検知した場合,障害が発生した前後のログ情報に基づく解析を行う。これにより,運用管理者は,発生した障害の原因を特定することが可能になる。 For example, a business system that provides a service to a user may store information (hereinafter also referred to as operation information) regarding the operation of a process executed by the business system (hereinafter referred to as stored operation information). Also called log information). For example, when the operation manager detects that a failure has occurred in the business system, the operation manager performs analysis based on log information before and after the failure. As a result, the operation manager can identify the cause of the failure that has occurred.
また,上記のような業務システムは,新たな動作情報によって,障害発生前後の動作情報に関するログ情報が上書きされることを防止するため,例えば,予め定めた条件に合致したログ情報を保護するための処理(以下,保護処理とも呼ぶ)を行う場合がある。これにより,運用管理者は,例えば,障害が発生してからログ情報の解析を行うまでにタイムラグがあった場合であっても,ログ情報に基づく障害の原因の特定を行うことが可能になる(例えば,特許文献1及び2参照)。
The business system as described above also prevents log information related to operation information before and after a failure from being overwritten by new operation information. For example, to protect log information that meets a predetermined condition. (Hereinafter also referred to as protection processing). As a result, for example, even if there is a time lag between the occurrence of a failure and the analysis of log information, the operation manager can identify the cause of the failure based on the log information. (For example, see
上記のような業務システムが複数のマシン(物理マシンまたは仮想マシン)に跨る形で構築されている場合,各マシンは,連携を行いながら利用者にサービスを提供するための処理を行う。そして,業務システムを構築する複数のマシンのうち,いずれかのマシンで障害の発生を検知した場合,業務システムは,他のマシンのログ情報についても保護処理を行う。これにより,運用管理者は,障害の原因が障害の発生を検知したマシンとは異なるマシンにある場合であっても,障害の原因を特定することが可能になる。 When the business system as described above is constructed across multiple machines (physical machines or virtual machines), each machine performs processing for providing services to users while cooperating. When a failure is detected on any of a plurality of machines constituting the business system, the business system also performs protection processing on log information of other machines. As a result, the operation manager can identify the cause of the failure even when the failure is in a different machine from the machine that detected the occurrence of the failure.
しかしながら,業務システムが複数のマシンに跨る形で構築されている場合,障害を検知するタイミングがマシン間で異なる場合がある。そして,この場合,障害の検知が遅れたマシンでは,ログ情報の保護処理を実行するタイミングが他のマシンよりも遅れる。そのため,障害の検知が遅れたマシンでは,障害の原因を特定するために必要なログ情報が上書きされてしまう場合がある。 However, when a business system is built across multiple machines, the timing for detecting a failure may differ between machines. In this case, the timing of executing the log information protection processing is delayed in the machine in which the detection of the failure is delayed compared to the other machines. For this reason, the log information necessary to identify the cause of a failure may be overwritten on a machine whose failure detection is delayed.
そこで,一つの実施の形態の目的は,障害の原因を特定するために必要なログ情報を特定できる情報処理システム,ロギング制御プログラム及びロギング制御方法を提供することにある。 Accordingly, an object of one embodiment is to provide an information processing system, a logging control program, and a logging control method that can specify log information necessary for specifying the cause of a failure.
実施の形態の一つの側面によれば,第1の装置に関するログ情報を記憶する記憶部と,
前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信する受信部と,
前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行う処理部と,
前記抽出した第2のメッセージを識別可能な第1の識別情報を送信する送信部と,
を備えた第1のロギング装置と,
前記第2の装置に関するログ情報を記憶する記憶部と,
前記送信された第1の識別情報を受信する受信部と,
前記受信した第1の識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記第2のメッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する処理部と,
を備えた第2のロギング装置と,を含む。
According to one aspect of the embodiment, a storage unit that stores log information about the first device;
A receiving unit that receives a notification from the first device that there is no response from the second device with respect to the first message transmitted from the first device to the second device;
A process of extracting log information corresponding to a second message received by the first device from the second device before transmission of the first message from the stored log information about the first device; A processing unit to perform,
A transmitter for transmitting first identification information capable of identifying the extracted second message;
A first logging device comprising:
A storage unit for storing log information related to the second device;
A receiver for receiving the transmitted first identification information;
Based on the received first identification information, log information corresponding to a message transmitted to the first device after transmission of the second message is specified from the stored log information about the second device. A processing unit to perform,
A second logging device comprising:
一つの側面によれば,障害の原因を特定するために必要なログ情報を特定できる。 According to one aspect, log information necessary to identify the cause of a failure can be identified.
[情報処理システムの構成]
図1は,情報処理システムの全体構成を示す図である。図1に示す情報処理システム100は,物理マシン1(以下,コンピュータ1とも呼ぶ)と物理マシン2(以下,コンピュータ2とも呼ぶ)とが設けられている。そして,図1に示す物理マシン1では,利用者にサービスを提供するために動作する監視対象処理部11(以下,第1の監視対象処理部11とも呼ぶ)と,監視対象処理部11の動作情報を蓄積するため動作するロギング制御部12(以下,第1のロギング制御部12とも呼ぶ)とが動作している。また,図1に示す物理マシン2では,利用者にサービスを提供するために動作する監視対象処理部21(以下,第2の監視対象処理部21とも呼ぶ)と,監視対象処理部21の動作情報を蓄積するために動作するロギング制御部22(以下,第2のロギング制御部22とも呼ぶ)とが動作している。図1に示す例において,監視対象処理部11と監視対象処理部21とは,互いに連携しながら利用者にサービスを提供するための処理を行う。また,図1に示すロギング制御部12は,物理マシン1に設けられた記憶媒体13に監視対象処理部11の動作情報を記憶し,図1に示すロギング制御部22は,物理マシン2に設けられた記憶媒体23に監視対象処理部21の動作情報を記憶する。
[Configuration of information processing system]
FIG. 1 is a diagram illustrating an overall configuration of an information processing system. An
なお,監視対象処理部11,ロギング制御部12,監視対象処理部21及びロギング制御部22は,それぞれ異なる物理マシン(例えば,第1の装置,第1のロギング装置,第2の装置及び第2のロギング装置)で動作するものであってもよい。この場合,記憶媒体13及び記憶媒体23は,例えば,ロギング制御部12及びロギング制御部22がそれぞれ動作する物理マシン(第1のロギング装置及び第2のロギング装置)にそれぞれ設けられるものであってもよい。さらに,監視対象処理部11,ロギング制御部12,監視対象処理部21及びロギング制御部22は,例えば,物理マシン1または物理マシン2のリソースが割り当てられて動作する仮想マシンにおいて動作するものであってもよい。
Note that the monitoring
[障害発生時の動作例]
次に,情報処理システム100において障害が発生した場合の動作例を説明する。図2は,障害発生時の動作例を説明する図である。以下,図1と異なる点について説明を行う。
[Operation example when a failure occurs]
Next, an operation example when a failure occurs in the
図2に示す例において,監視対象処理部11は,例えば,監視対象処理部11で実行した処理の動作結果等に異常があった場合,監視対象処理部11において障害が発生したものと判定する。この場合,監視対象処理部11は,ロギング制御部12に障害の発生を通知する。そして,監視対象処理部11から通知を受信したロギング制御部12は,例えば,記憶媒体13に記憶されたログ情報のうち,監視対象処理部11で障害が発生した時刻の前後のログ情報の保護処理を行う。すなわち,ロギング制御部12は,新たな動作情報によって障害が発生した時刻の前後のログ情報が上書きされることを防止するために,ログ情報の保護処理を行う。これにより,運用管理者は,例えば,障害発生からログ情報の解析を行うまでの間にタイムラグがあった場合であっても,障害が発生した時刻の前後のログ情報を参照することが可能になり,障害の原因の特定を行うことが可能になる。
In the example illustrated in FIG. 2, the monitoring
一方,物理マシン2で動作する監視対象処理部21は,例えば,定期的に行う監視対象処理部11の起動確認(生存監視)により,監視対象処理部11で障害が発生したことを検知する。ここで,監視対象処理部21は,起動確認の実行間隔によっては,監視対象処理部11で発生した障害を検知するまでに時間を要する場合がある。そして,この場合,監視対象処理部21がロギング制御部22に対して行う通知が遅れるため,ロギング制御部22は,ログ情報の保護処理を行うタイミングが遅れる。そのため,監視対象処理部11の障害発生前後のログ情報は,新たな動作情報によって上書きされてしまう可能性がある。したがって,運用管理者は,監視対象処理部11で発生した障害の原因の究明を行う際に,監視対象処理部11の障害発生前後のログ情報を参照することができなくなる可能性がある。
On the other hand, the monitoring
そこで,本実施の形態では,ロギング制御部12は,監視対象処理部11が送信した通知(以下,第1のメッセージとも呼ぶ)に対して監視対象処理部21が無応答である場合,記憶媒体13を参照する。そして,ロギング制御部12は,第1のメッセージの送信前に,監視対象処理部21から受信した通知(以下,第2のメッセージとも呼ぶ)に対応する識別情報(以下,第1の識別情報とも呼ぶ)をロギング制御部22に送信する。さらに,ロギング制御部22は,受信した識別情報に基づき,第2のメッセージの送信よりも後のログ情報を特定する。これにより,ロギング制御部22は,監視対象処理部21の無応答に関連するログ情報を特定することが可能になる。そのため,運用管理者は,特定したログ情報に基づき,無応答に伴う障害の原因の調査を行うことが可能になる。
Therefore, in the present embodiment, the
[情報処理システムのハードウエア構成]
次に,情報処理システム100の構成について説明する。図3は,情報処理システムのハードウエア構成を示す図である。
[Hardware configuration of information processing system]
Next, the configuration of the
物理マシン1は,プロセッサであるCPU101と,メモリ102と,外部インターフェース(I/Oユニット)103と,記憶媒体104とを有する。各部は,バス105を介して互いに接続される。記憶媒体104は,例えば,記憶媒体104内のプログラム格納領域(図示しない)に,ログ情報の蓄積を制御する処理(以下,ロギング制御処理とも呼ぶ)等を行うためのプログラム110(以下,ロギング制御プログラム110とも呼ぶ)を記憶する。CPU101は,図3に示すように,プログラム110の実行時に,プログラム110を記憶媒体104からメモリ102にロードし,プログラム110と協働してロギング制御処理等を行う。また,記憶媒体104は,例えば,ロギング制御処理等を行う際に用いられる情報を記憶する情報格納領域130を有する。
The
また,物理マシン2は,物理マシン1と同様に,プロセッサであるCPU201と,メモリ202と,外部インターフェース(I/Oユニット)203と,記憶媒体204とを有する。各部は,バス205を介して互いに接続される。記憶媒体204は,例えば,記憶媒体204内のプログラム格納領域(図示しない)に,ロギング制御処理等を行うためのプログラム210(以下,ロギング制御プログラム210とも呼ぶ)を記憶する。CPU201は,図3に示すように,プログラム210の実行時に,プログラム210を記憶媒体204からメモリ202にロードし,プログラム210と協働してロギング制御処理等を行う。また,記憶媒体204は,例えば,ロギング制御処理等を行う際に用いられる情報を記憶する情報格納領域230を有する。
Similarly to the
[物理マシンのソフトウエア構成]
図4及び図5は,図3の物理マシンの機能ブロック図である。図4は,物理マシン1の機能ブロック図であり,図5は,物理マシン2の機能ブロック図である。
[Software configuration of physical machine]
4 and 5 are functional block diagrams of the physical machine of FIG. FIG. 4 is a functional block diagram of the
物理マシン1のCPU101は,プログラム110と協働することにより,例えば,ログ情報取得部111と,情報受信部112(以下,受信部112とも呼ぶ)と,ログ情報抽出部113(以下,処理部113とも呼ぶ)と,情報送信部114(以下,送信部114とも呼ぶ)と,ログ情報保護部115として動作する。また,CPU101は,プログラム110と協働することにより,例えば,状態取得部116と,状態更新部117と,状態判定部118と,起動検知部119と,ダンプ取得部120として動作する。また,情報格納領域130(以下,記憶部130とも呼ぶ)には,例えば,ログ情報131と,保護情報132,状態情報133とが記憶されている。なお,ログ情報取得部111,情報受信部112,ログ情報抽出部113,情報送信部114,ログ情報保護部115,状態取得部116,状態更新部117,状態判定部118,起動検知部119及びダンプ取得部120は,図1におけるロギング制御部12に対応する。また,情報格納領域130は,図1における記憶媒体13に対応する。
The
また,物理マシン2のCPU201は,上記のCPU101と同様に,プログラム210と協働することにより,例えば,ログ情報取得部211と,情報受信部212(以下,受信部212とも呼ぶ)と,ログ情報抽出部213(以下,処理部213とも呼ぶ)と,情報送信部214と,ログ情報保護部215として動作する。また,CPU201は,プログラム210と協働することにより,例えば,状態取得部216と,状態更新部217と,状態判定部218と,起動検知部219と,ダンプ取得部220として動作する。また,情報格納領域230(以下,記憶部230とも呼ぶ)には,例えば,ログ情報231と,保護情報232,状態情報233とが記憶されている。なお,ログ情報取得部211,情報受信部212,ログ情報抽出部213,情報送信部214,ログ情報保護部215,状態取得部216,状態更新部217,状態判定部218,起動検知部219及びダンプ取得部220は,図1におけるロギング制御部22に対応する。また,情報格納領域230は,図1における記憶媒体23に対応する。
Similarly to the
初めに,物理マシン1のログ情報取得部111と,情報受信部112と,ログ情報抽出部113と,情報送信部114とを説明する。
First, the log
物理マシン1のログ情報取得部111は,例えば,図1に示す監視対象処理部11に関するログ情報131を監視対象処理部11から取得し,情報格納領域130に記憶する。ログ情報取得部111は,例えば,監視対象処理部11が動作した履歴に関する情報(以下、トレース情報とも呼ぶ)をログ情報131として取得する。これにより,運用管理者は,ログ情報131を参照することにより,障害発生前後の監視対象処理部11の動作を追跡することが可能になる。なお,ログ情報131の具体例については後述する。
The log
物理マシン1の情報受信部112は,例えば,監視対象処理部11から通知を受信する。具体的に,情報受信部112は,例えば,監視対象処理部11が物理マシン2の監視対象処理部21に送信した第1のメッセージに対して,監視対象処理部21から無応答であった旨の通知(以下,無応答通知とも呼ぶ)を,監視対象処理部11から受信する。これにより,情報受信部112は,監視対象処理部11から無応答通知を受信した場合に,監視対象処理部21において障害が発生したものと判定することが可能になる。そして,情報受信部112は,監視対象処理部21において障害が発生したものと判定した場合に,後述するようにログ情報131,231の保護処理を行うことが可能になる。
For example, the
物理マシン1のログ情報抽出部113は,例えば,記憶媒体13から監視対象処理部11に関するログ情報131を抽出する処理を行う。具体的に,ログ情報抽出部113は,例えば,情報受信部112が監視対象処理部11から無応答通知を受信した場合に,監視対象処理部11が第1のメッセージの送信前に監視対象処理部21から受信した第2のメッセージに対応するログ情報131を抽出する。
For example, the log
物理マシン1の情報送信部114は,例えば,ログ情報抽出部113が抽出した第2のメッセージを識別可能な識別情報を送信する。
For example, the
次に,物理マシン2のログ情報取得部211と,情報受信部212と,ログ情報抽出部213と,情報送信部214とを説明する。
Next, the log
物理マシン2のログ情報取得部211は,例えば,ログ情報取得部111と同様に,図1に示す監視対象処理部21に関するログ情報231を取得し,情報格納領域230に記憶する。
The log
物理マシン2の情報受信部212は,例えば,物理マシン1の情報送信部114が送信した識別情報を受信する。
For example, the
物理マシン2のログ情報抽出部213は,例えば,情報受信部212が受信した識別情報に基づいて,記憶媒体23に記憶された監視対象処理部21に関するログ情報231から,第2のメッセージの送信よりも後に監視対象処理部11へ送信したメッセージに対応するログ情報231を特定する。これにより,ログ情報抽出部213は,監視対象処理部21が監視対象処理部11に正常に送信したと判断できる第2のメッセージよりも後に,監視対象処理部11に送信したメッセージを特定することが可能になる。これにより,ログ情報抽出部213は,第1のメッセージに関するログ情報を情報格納領域230から抽出することが可能になる。そして,運用管理者は,ログ情報131,231に基づき,発生した障害の原因究明を行うことが可能になる。
The log
なお,上記の例では,監視対象処理部21で発生した障害を監視対象処理部11が検知した場合について説明したが,監視対象処理部11,21がそれぞれ互いに障害の発生を監視するものであってよい。そして,この場合,障害を検知した監視対象処理部から無応答通知を受信したロギング制御部は,上記のロギング制御部12として機能するものであってよい。また,他方の監視対象処理部の動作情報を記憶するロギング制御部は,上記のロギング制御部22として機能するものであってもよい。
In the above example, the case where the monitoring
次に,物理マシン1及び物理マシン2のその他の機能を説明する。
Next, other functions of the
物理マシン1のログ情報保護部115は,例えば,ログ情報抽出部113が抽出したログ情報131の保護処理を行う。具体的に,ログ情報保護部115は,例えば,ログ情報131の保護を行う範囲を設定した保護情報132に基づき,ログ情報抽出部113が抽出したログ情報131をメモリ上において上書き禁止にする。これにより,ログ情報保護部115は,障害発生前後に記憶されたログ情報が新たなログ情報によって上書きされることを防止することが可能になる。また,物理マシン2のログ情報保護部215は,ログ情報保護部115と同様に,ログ情報231の保護を行う範囲を設定した保護情報232に基づき,ログ情報抽出部213が抽出したログ情報231をメモリ上において上書き禁止にする。なお,保護情報132の具体例については後述する。
For example, the log
物理マシン1の状態取得部116は,例えば,監視対象処理部11が送信するメッセージ(以下,第3のメッセージとも呼ぶ)の送受信の状態に関する情報を取得する。具体的に,状態取得部116は,例えば,監視対象処理部11が送信した第3のメッセージの応答を待っている状態にあるか否かについての情報を定期的に取得する。なお,監視対象処理部11による第3のメッセージの送信先は,例えば,監視対象処理部21であってよい。
The
物理マシン1の状態更新部117は,例えば,監視対象処理部11による第3のメッセージの送信に応じて,監視対象処理部11が第3のメッセージの応答を受信待ちである旨を示す情報を状態情報133として情報格納領域130に記憶する。また,状態更新部117は,第3のメッセージの応答の受信に応じて,状態情報133のうち対応する情報を消去(更新)する。
For example, in response to the transmission of the third message by the monitoring
物理マシン1の状態判定部118は,例えば,記憶されてからの時間が所定の時間(例えば,1分)を上回る状態情報133の存在を検知する。すなわち,状態判定部118は,記憶されてからの時間が所定の時間を上回る状態情報133の存在を検知することにより,第3のメッセージの送信先(例えば,監視対象処理部21)で障害が発生したと判定することができる。そして,状態判定部118は,例えば,ログ情報抽出部113に対して,ログ情報131の抽出の指示を行うことが可能になる。物理マシン2の状態取得部216,状態更新部217及び状態判定部218については,状態取得部116,状態更新部117及び状態判定部118とそれぞれ同じ処理を行うため,その説明を省略する。
For example, the
物理マシン1の起動検知部119は,例えば,監視対象処理部21に対して定期的に起動確認(生存確認)を行う。起動検知部119は,例えば,監視対象処理部21に対して定期的にPINGを送信するものであってよい。そして,起動検知部119は,例えば,監視対象処理部21の起動確認ができない場合(識別情報の送信ができない場合),情報送信部114に情報の送信を待機させる。その後,起動検知部119は,例えば,監視対象処理部21の起動確認ができた場合,識別情報を送信(再送)する。物理マシン2の起動検知部219については,物理マシン1の起動検知部119と同様であるため説明を省略する。
For example, the
物理マシン1のダンプ取得部120は,例えば,情報受信部112が通知を受信したことに応じて,監視対象処理部11のメモリ状態に関するメモリダンプを取得する。物理マシン2のダンプ取得部220については,物理マシン2のダンプ取得部220と同様であるため説明を省略する。
For example, the
[第1の実施の形態の概略]
次に,第1の実施の形態の概略について説明する。図6は,第1の実施の形態におけるロギング制御処理の概略を説明するシーケンスチャート図である。また,図7は,第1の実施の形態におけるロギング制御処理の概略を説明する図である。以下,図7については,図1と異なる点について説明を行う。
[Outline of First Embodiment]
Next, an outline of the first embodiment will be described. FIG. 6 is a sequence chart for explaining the outline of the logging control process in the first embodiment. FIG. 7 is a diagram for explaining the outline of the logging control process in the first embodiment. Hereinafter, with respect to FIG. 7, differences from FIG. 1 will be described.
図6及び図7に示すように,監視対象処理部11は,例えば,ロギング制御部12にログ情報131の送信を行う(S1)。また,監視対象処理部21は,例えば,ロギング制御部22にログ情報231の送信を行う(S2)。ログ情報131,231は,例えば,監視対象処理部11または監視対象処理部21の動作に関するトレース情報である。なお,図6の例に示す監視対象処理部11,21は,後述するS3からS7の発生の有無を問わず,ロギング制御部12,22に対して定常的にログ情報131,231の送信を行う。
As shown in FIGS. 6 and 7, the monitoring
そして,監視対象処理部11は,例えば,監視対象処理部21に送信した第1のメッセージについて無応答を検知した場合(S3,S4),ロギング制御部12に対して第1のメッセージに関する無応答通知を行う(S5)。すなわち,監視対象処理部11は,第1のメッセージについての無応答を検知した場合,監視対象処理部21において障害は発生したものと判定し,ロギング制御部12に対して無応答通知を行う。なお,監視対象処理部11は,監視対象処理部21に第1のメッセージを送信した後,所定の時間(例えば,30秒)を経過しても返信がない場合に,無応答であると判定するものであってよい。
Then, for example, when the monitoring
続いて,無応答通知を受信したロギング制御部12は,例えば,監視対象処理部11が第1のメッセージを送信する前に,監視対象処理部21から受信した第2のメッセージに対応するログ情報131を記憶媒体13から取得する(S6)。そして,ロギング制御部12は,例えば,第2のメッセージの識別情報をロギング制御部22に送信する(S7)。その後,識別情報を受信したロギング制御部22は,例えば,第2のメッセージよりも後に,監視対象処理部11へ送信したメッセージに対応するログ情報131を特定する(S8)。
Subsequently, the
すなわち,ロギング制御部12は,例えば,監視対象処理部11から無応答通知を受信した際に,監視対象処理部21で障害が発生したものと判定する。そして,ロギング制御部12は,監視対象処理部21から正常に受信していると判断できる第2のメッセージを抽出し,その第2のメッセージの識別情報をロギング制御部22に送信する。さらに,ロギング制御部22は,識別情報に基づいて,第2のメッセージの送信よりも後に監視対象処理部11へ送信したメッセージに対応するログ情報131を特定する。これにより,ロギング制御部22は,監視対象処理部11に正常に送信されたと判断できる第2のメッセージの送信時よりも後に記憶されたログ情報131を抽出することが可能になる。そのため,ロギング制御部22は,第2のメッセージの送信よりも後に行われた第1のメッセージの送受信に関するログ情報を抽出することが可能になる。したがって,運用管理者は,監視すべき情報処理システムが複数のマシンに跨る形で設けられている場合において,いずれかのマシンで障害が発生した場合であっても,全てのマシンにおいて記憶された障害に関連するログ情報を抽出することが可能になる。
That is, the
このように,第1の実施の形態によれば,ロギング制御部12は,監視対象処理部11に関するログ情報131を記憶する。そして,ロギング制御部12は,監視対象処理部11から監視対象処理部21に送信された第1のメッセージに対して監視対象処理部21から無応答であった旨の通知を監視対象処理部11から受信する。続いて,ロギング制御部12は,監視対象処理部11に関するログ情報131から,第1のメッセージの送信前に監視対象処理部11が監視対象処理部21から受信した第2のメッセージに対応するログ情報131を抽出する処理を行う。そして,ロギング制御部12は,抽出した第2のメッセージを識別可能な識別情報を送信する。一方,ロギング制御部22は,受信した識別情報に基づいて,記憶された監視対象処理部21に関するログ情報231から第2のメッセージの送信よりも後に監視対象処理部21へ送信したメッセージに対応するログ情報231を特定する。これにより,ロギング制御部22は,無応答に関連するログ情報231を特定することが可能になる。そのため,運用管理者は,特定したログ情報231に基づき,無応答に伴う障害の原因の特定を行うことが可能になる。
As described above, according to the first embodiment, the
[第1の実施の形態の詳細]
次に,第1の実施の形態の詳細について説明する。図8から図13は,第1の実施の形態におけるロギング制御処理の詳細を説明するフローチャート図である。また,図14から図18は,第1の実施の形態におけるロギング制御処理の詳細を説明する図である。図14から図18を参照しながら,図8から図13のロギング処理の詳細を説明する。
[Details of First Embodiment]
Next, details of the first embodiment will be described. FIGS. 8 to 13 are flowcharts for explaining the details of the logging control processing in the first embodiment. FIGS. 14 to 18 are diagrams for explaining the details of the logging control process in the first embodiment. Details of the logging process of FIGS. 8 to 13 will be described with reference to FIGS. 14 to 18.
[第1のロギング制御部での処理]
初めに,ロギング制御部12において実行されるロギング制御処理を説明する。ロギング制御部12のログ情報取得部111は,監視対象処理部11に関するログ情報を記憶する(S10)。具体的に,ログ情報取得部111は,例えば,取得したログ情報131を情報格納領域130に記憶する。以下,ログ情報131の具体例を説明する。
[Processing in the first logging control unit]
First, the logging control process executed in the
図14に示すログ情報131は,ログ情報131に含まれる各情報を識別する「識別ID」と,ログ情報131を情報格納領域130に記憶した日時である「日時」と,各メッセージが送受信されるセッションを識別する「セッションID」とを項目として有する。また,メッセージの送信に対応する情報であるか受信に対応する情報であるかを識別する「属性」と,メッセージの種別である「種別」と,メッセージの内容を識別する「コード」とを項目として有する。「属性」には,監視対象処理部11がメッセージを送信した場合に対応する情報であることを示す「Request」と,監視対象処理部11がメッセージを受信した場合に対応する情報であることを示す「Receive」とが設定される。また,「種別」には,監視対象処理部11が他のマシン等にメッセージを送信した場合の情報であることを示す「データ」と,「種別」が「データ」であるメッセージに対する応答のメッセージである「レス」とが設定される。さらに,「種別」には,「種別」が「データ」であるメッセージに対する応答のメッセージを再度要求する「レス待ち」が設定される。そして,図14に示すログ情報131は,さらに,各情報が記憶される情報格納領域130内の格納アドレスを示す「格納アドレス」を項目として有する。
In the
具体的に,図14に示すログ情報131において,「識別ID」が1である情報には,「日時」として「03/05 12:25:10:502」が設定され,「セッションID」として「11」が設定されている。そして,「識別ID」が1である情報には,「属性」として「Request」が設定され,「種別」として「データ」が設定され,「コード」として「AAAA」が設定され,「格納アドレス」として「0x11223311」が設定されている。また,図14に示すログ情報131のうち,「識別ID」が2である情報には,「日時」として「03/05 12:25:10:503」が設定され,「セッションID」として「11」が設定されている。そして,「識別ID」が2である情報には,「属性」として「Receive」が設定され,「種別」として「レス」が設定され,「コード」として「AAAA」が設定され,「格納アドレス」として「0x11223322」が設定されている。また,図14に示すログ情報131のうち,「識別ID」が4である情報には,「日時」として「03/05 12:25:10:518」が設定され,「セッションID」として「15」が設定されている。そして,「識別ID」が4である情報には,「属性」として「Request」が設定され,「種別」として「レス待ち」が設定され,「コード」として「BBBB」が設定され,「格納アドレス」として「0x11223344」が設定されている。図14のその他の情報については,上記と同様であるため説明を省略する。
Specifically, in the
図8に戻り,ロギング制御部12の情報受信部112は,例えば,監視対象処理部11から無応答通知を受信するまで待機する(S11のNO)。以下,無応答通知の具体例を説明する。
Returning to FIG. 8, the
図16は,無応答通知の具体例を示す例である。図16に示す無応答通知は,発生した障害の種別を示す「エラー種別」と,監視対象処理部11の状態を示す「自分の状態」と,監視対象処理部11が通信を行う相手の状態を示す「相手の状態」とを項目として有する。「エラー種別」には,例えば,監視対象処理部11が送信したメッセージに対して応答がないことを示す「無応答検知」と,監視対象処理部11が送信したメッセージに対する応答が異常な内容であったことを示す「応答異常検知」等が設定される。また,「自分の状態」及び「相手の状態」には,異常が発生していないことを示す「正常」と,一時的に発生する異常であることを示す「一時的な異常」と,恒久的な異常であることを示す「恒久的な異常」等が設定される。なお,この「正常」は,例えば,監視対象処理部11が通信を行う相手が処理を行うまで待機している状態である「処理実行待ち」と,監視対象処理部11が通信を行う相手に送信したメッセージに対する応答を待っている状態である「応答待ち」とを含むものであってもよい。また,図16に示す無応答通知は,メッセージの内容を示す「メッセージ内容」と,監視対象処理部11と通信を行う相手とのセッションを識別する「セッションID」とを項目として有する。「メッセージ内容」には,監視対象処理部11がロギング制御部12に無応答通知を送信する契機となったメッセージの内容が設定される。図16に示す「メッセージ内容」には,監視対象処理部11がロギング制御部12に無応答通知を送信する契機となったメッセージの「日時」,「属性」,「種別」及び「コード」が設定されている。これにより,ログ情報抽出部113は,後述するように,無応答通知に含まれる「メッセージ内容」に基づいて,無応答通知に対応するログ情報131を検索することが可能になる。
FIG. 16 shows an example of a non-response notification. The non-response notification shown in FIG. 16 includes “error type” indicating the type of failure that has occurred, “own status” indicating the status of the monitoring
具体的に,図16に示す無応答通知は,「エラー種別」として「無応答検知」が設定され,「自分の状態」として「正常」が設定され,「相手の状態」として「恒久的な異常」が設定されている。また,図16に示すエラー通知は,「メッセージ内容」として「03/05 12:25:10:539,Receive,レス待ち,CCCC」が設定され,「セッションID」として「11」が設定されている。 Specifically, in the non-response notification shown in FIG. 16, “No response detection” is set as “Error type”, “Normal” is set as “My state”, and “Permanent state” is “Permanent”. "Abnormal" is set. Further, in the error notification shown in FIG. 16, “03/05 12: 25: 10: 539, Receive, wait for wait, CCCC” is set as “message content”, and “11” is set as “session ID”. Yes.
なお,監視対象処理部11は,例えば,無応答通知の「エラー種別」を変更することにより,無応答の検知以外による障害を検知した場合においても,その内容をロギング制御部12に通知することが可能になる。
Note that the monitoring
図8に戻り,監視対象処理部11から無応答通知を受信した場合(S11のYES),ロギング制御部12のログ情報抽出部113は,例えば,情報格納領域130に記憶されたログ情報131を抽出する。具体的に,ログ情報抽出部113は,例えば,監視対象処理部11が第1のメッセージを送信する前に,監視対象処理部21から受信した第2のメッセージに対応するログ情報131よりも後に情報格納領域130に記憶されたログ情報131を抽出する(S12)。すなわち,ログ情報抽出部113は,情報受信部112が監視対象処理部21から正常に受信していると判断できるメッセージである第2のメッセージに対応するログ情報131を抽出する。
Returning to FIG. 8, when the no-response notification is received from the monitoring target processing unit 11 (YES in S11), the log
具体的に,図16に示す無応答通知を情報受信部112が受信した場合,ログ情報抽出部113は,例えば,無応答通知の「メッセージ内容」を参照する。そして,ログ情報抽出部113は参照した「メッセージ内容」と同じ内容を含むログ情報131を特定する。例えば,図14に示すログ情報131のうち,図16に示す無応答通知の「メッセージ内容」と同じ内容を含む情報は,「識別ID」が「9」である情報である。したがって,ログ情報抽出部113は,監視対象処理部11から受信した無応答通知に対応するログ情報131として,「識別ID」が「9」である情報を特定する。
Specifically, when the
次に,ログ情報抽出部113は,ログ情報131をさらに参照し,監視対象処理部11が監視対象処理部21に第1のメッセージを送信する前に,監視対象処理部21から受信した第2のメッセージに対応する情報を抽出する。具体的に,ログ情報抽出部113は,「識別ID」が「9」である情報よりも前の情報であって,「セッションID」が「11」であり,「属性」が「Receive」である情報を抽出する。すなわち,ログ情報抽出部113は,図14に示すログ情報131においては,「識別ID」が「2」である情報を抽出する。これにより,ログ情報抽出部113は,監視対象処理部21が送信したメッセージであって,監視対象処理部11が正常に受信していると判断できる情報を抽出することが可能になる。
Next, the log
なお,ログ情報抽出部113は,監視対象処理部21が送信したメッセージであって,監視対象処理部11が正常に受信していると判断できる情報が複数ある場合,最も新しい情報を抽出することが好ましい。これにより,ログ情報保護部115は,保護処理を行う情報の量を抑えることが可能になる。
Note that the log
図8に戻り,ログ情報保護部115は,例えば,抽出したログ情報131の保護処理を実行する(S13)。すなわち,ログ情報抽出部113は,保護情報132を設定することにより,抽出したログ情報131よりも後に記憶されたログ情報131が上書きされることを防止する。これにより,ログ情報保護部115は,第2のメッセージの受信よりも後に実行された第1のメッセージの送受信に関するログ情報131を保護することが可能になる。具体的に,図14に示すログ情報131においては,ログ情報保護部115は,例えば,「識別ID」が「2」である情報から,「識別ID」が「11」である情報(ログ情報131に含まれる最も新しい情報)まで保護処理を行う。以下,保護情報132の具体例を説明する。
Returning to FIG. 8, the log
図17は,保護情報132の具体例を示す図である。図17に示す保護情報132は,ログ情報131を記憶するために割り当てられたメモリ上の領域の先頭アドレスを示す「先頭アドレス」を項目として有する。また,図17に示す保護情報132は,次にログ情報131を記憶する予定のメモリ上の領域の先頭アドレスを示す「書き込み先頭アドレス」と,上書き禁止が行われているか否かを示す「上書き禁止有無」とを項目として有する。さらに,図17に示す保護情報132は,上書き禁止が行われているメモリ上の領域の先頭アドレスを示す「上書き禁止先頭アドレス」と,上書き禁止が行われているメモリ上の領域の最終アドレスを示す「上書き禁止最終アドレス」とを項目として有する。具体的に,図17に示す保護情報132には,「先頭アドレス」として「0x11223311」が設定され,「書込可能先頭アドレス」として「0x112233cc」が設定され,「上書き禁止有無」として「有り」が設定されている。また,図17に示す保護情報132には,「上書き禁止先頭アドレス」として「0x112233bb」が設定され,「上書き禁止最終アドレス」として「0x112233cc」が設定されている。
FIG. 17 is a diagram illustrating a specific example of the
図8に戻り,ロギング制御部12のダンプ取得部120は,例えば,物理マシン1のメモリの内容をファイルに出力し,メモリダンプを取得する(S14)。これにより,運用管理者は,発生した障害の原因究明を行う際に,より詳細な調査を行うことが可能になる。
Returning to FIG. 8, the
図10は,ダンプ取得部120がメモリダンプを取得する処理(以下,ダンプ取得処理とも呼ぶ)の詳細を説明するフローチャート図である。図10に示すフローチャート図において,ロギング制御部12のダンプ取得部120は,例えば,監視対象処理部21に状態を確認するためのメッセージを送信する(S41)。そして,ダンプ取得部120が送信したメッセージに対して無応答であり,監視対象処理部21が異常から復旧していないと判定した場合(S41のYES),ダンプ取得部120は,例えば,メモリダンプの取得を行う(S42)。一方,ダンプ取得部120が送信したメッセージに対して応答があり,監視対象処理部21が異常から復旧したと判定した場合(S41のNO),ダンプ取得部120は,例えば,メモリダンプの取得を行わない。すなわち,ダンプ取得部120がメモリダンプの取得を行う場合,監視対象処理部11(監視対象処理部11で動作しているプロセス)を停止させる必要がある。そのため,この場合,監視対象処理部11が利用者に提供しているサービスに影響を及ぼす可能性がある。したがって,ダンプ取得部120は,メモリダンプの取得を行う前に監視対象処理部21の状態を再度確認する。そして,ダンプ取得部120は,監視対象処理部21が異常から復旧していると判定した場合,メモリダンプの取得を行わないものであってよい。これにより,ダンプ取得部120は,メモリダンプの取得によるサービスへの影響を抑えることが可能になる。
FIG. 10 is a flowchart for explaining details of the process in which the
また,S41において,監視対象処理部11は,監視対象処理部21の状態を確認するためのメッセージの送信を行うものであってもよい。そして,監視対象処理部21が異常から復旧していないと判定した場合,監視対象処理部11は,ロギング制御部12に対して再度無応答通知を送信するものであってよい。なお,ロギング制御部12のダンプ取得部120は,例えば,監視対象処理部11から無応答通知を2回受信したことに応じて,メモリダンプの取得を行うものであってよい。
In S <b> 41, the monitoring
図8に戻り,ロギング制御部12の情報送信部114は,例えば,ログ情報抽出部113が抽出した第2のメッセージと,第1のメッセージとを識別可能な識別情報をロギング制御部22に送信する(S15)。
Returning to FIG. 8, the
図11は,情報送信部114が識別情報を送信する処理(以下,識別情報送信処理とも呼ぶ9の詳細を説明するフローチャート図である。図11に示すフローチャート図において,S14の場合と同様に,監視対象処理部21が異常から復旧しているか否かを判定する(S51)。そして,監視対象処理部21が異常から復旧していないと判定した場合(S51のYES),情報送信部114は,メモリダンプの取得の指示を含む識別情報をロギング制御部22に送信する(S52)。一方,監視対象処理部21が異常から復旧していると判定した場合(S51のNO),情報送信部114は,メモリダンプの取得の指示を含まない識別情報をロギング制御部22に送信する(S53)。すなわち,S14の場合と同様に,監視対象処理部21が異常から復旧していると判定した場合,情報送信部114は,ロギング制御部22にメモリダンプの取得の指示を行わない。これにより,情報送信部114は,S14の場合と同様に,メモリダンプの取得によるサービスへの影響を抑えることが可能になる。以下,識別情報の具体例を説明する。
FIG. 11 is a flowchart for explaining details of the process in which the
図18は,識別情報の具体例を説明する図である。図18に示す識別情報は,識別情報の送信先に指示する処理の内容を示す「処理内容」と,図14で説明した「セッションID」とを項目として有する。「処理内容」には,識別情報の送信先にログ情報231の上書き禁止を指示する「上書き禁止」等が設定される。また,図18に示す識別情報は,第1のメッセージの内容である「メッセージ内容1」と,第2のメッセージの内容である「メッセージ内容2」と,識別情報の送信先にメモリダンプの取得を指示するか否かを示す「メモリダンプ取得有無」とを有する。「メッセージ内容1」及び「メッセージ内容2」には,例えば,図16で説明した「メッセージ内容」と同じ内容が設定される。
FIG. 18 is a diagram illustrating a specific example of identification information. The identification information shown in FIG. 18 includes “processing contents” indicating the contents of the processing instructed to the transmission destination of the identification information and “session ID” described in FIG. In the “processing content”, “overwrite prohibition” for instructing the transmission destination of the identification information to overwrite the
具体的に,図18に示す識別情報は,「処理内容」として「上書き禁止」が設定され,「セッションID」として「31」が設定され,「メッセージ内容1」として「03/05 12:25:10:539,Receive,レス待ち,CCCC」が設定されている。また,図18に示す識別情報は,「メッセージ内容2」として「03/05 12:25:10:503,Receive,レス,AAAA」が設定され,「メモリダンプ取得有無」として「無」が設定されている。
Specifically, in the identification information shown in FIG. 18, “overwrite prohibited” is set as “processing content”, “31” is set as “session ID”, and “03/05 12:25” is set as “
なお,監視対象処理部11は,無応答通知の「セッションID」に,第1のメッセージの送信を行った際に用いたポートのポート番号(監視対象処理部11側のポート番号)を設定するものであってもよい。この場合,ロギング制御部12は,例えば,メッセージの送信先のホスト名と,その送信先と通信を行うための監視対象処理部11側のポート番号とを対応させた対応情報(図示しない)を予め記憶しておく。そして,無応答通知を受信したロギング制御部12は,例えば,無応答通知に設定されたポート番号に基づき,第1のメッセージの送信先のホスト名を取得する。さらに,ロギング制御部12は,対応情報を参照して,第1のメッセージを送信した送信先の動作情報を取得するロギング制御部のポート番号を特定し,その特定したポート番号に対して識別情報を送信するものであってもよい(図10のS15)。
The monitoring
また,ロギング制御部12は,例えば,監視対象処理部21の状態を定期的に取得するものであってもよい。具体的に,ロギング制御部12は,監視対象処理部21の状態として,通信相手において処理が行われるまで待機している状態である「処理実行待ち」,または,通信相手に送信したメッセージに対する応答を待っている状態である「応答待ち」に関する情報を取得する。さらに,ロギング制御部12は,監視対象処理部21の状態が「応答待ち」である場合に,応答を待っているメッセージに関する情報を取得する。そして,ロギング制御部12は,例えば,新たに取得した監視対象処理部21の状態及び前回取得した監視対象処理部21の状態が「応答待ち」であって,応答を待っているメッセージが同じである場合,監視対象処理部21が無応答の状態であると判定するものであってよい。すなわち,この場合,ロギング制御部12は,監視対象処理部11から無応答通知を受信した場合(S11のYES)と同様に,S12以降の処理を行うものであってよい。これにより,例えば,監視対象処理部11において,監視対象処理部21が無応答の状態であることを検知するためのタイマーが正常に動作していない場合であっても,ロギング制御部12は,監視対象処理部21が無応答の状態にあることを検知することが可能になる。
Further, the
[第2のロギング制御部での処理]
次に,ロギング制御部22において実行されるロギング制御処理を説明する。図9に示すように,ロギング制御部22のログ情報取得部211は,監視対象処理部21に関するログ情報を記憶する(S20)。具体的に,ログ情報取得部211は,例えば,取得したログ情報231を情報格納領域230に記憶する。以下,ログ情報231の具体例を説明する。
[Processing in the second logging control unit]
Next, the logging control process executed in the
図15は,ログ情報231の具体例を説明する図である。図15に示すログ情報231は,例えば,図14に示すログ情報131と同じ項目を有している。具体的に,図15に示すログ情報231のうち,「識別ID」が1である情報には,「日時」として「03/05 12:25:10:502」が設定され,「セッションID」として「23」が設定されている。そして,「識別ID」が1である情報には,「属性」として「Request」が設定され,「種別」として「データ」が設定され,「コード」として「GGGG」が設定され,「格納アドレス」として「0x22334411」が設定されている。なお,ログ情報231における「セッションID」は,ログ情報131と共通の情報を用いるものであってもよいし,ロギング制御部12及びロギング制御部22がそれぞれ管理している情報を用いるものであってもよい。図15のその他の情報については,上記と同様であるため説明を省略する。
FIG. 15 is a diagram for explaining a specific example of the
図9に戻り,ロギング制御部22の情報受信部212は,例えば,ロギング制御部12から第1のメッセージ及び第2のメッセージの識別情報を受信するまで待機する(S21のNO)。そして,ロギング制御部12から識別情報を受信した場合(S21のYES),ロギング制御部22のログ情報抽出部213は,例えば,情報格納領域230に記憶されたログ情報231を抽出する。具体的に,ログ情報抽出部213は,例えば,情報受信部212が受信した第2のメッセージを識別する識別情報に基づいて,第2のメッセージの送信よりも後に監視対象処理部11へ送信したメッセージに対応するログ情報を抽出する(S22)。すなわち,ログ情報抽出部213は,監視対象処理部11が受信したメッセージである第2のメッセージの後に情報格納領域230に記憶されたログ情報231を抽出する。
Returning to FIG. 9, the
そして,ログ情報抽出部213は,例えば,ログ情報抽出部113と同様に,抽出したログ情報231の保護処理を実行する(S23)。すなわち,ログ情報抽出部213は,新たに発生したログ情報231により,抽出したログ情報231が上書きされることを防止する。これにより,ログ情報抽出部213は,第2のメッセージの送信よりも後に記憶されたログ情報231を保護することが可能になる。
Then, the log
図12は,ロギング制御部22におけるログ情報231の保護を行う処理(以下,ログ情報保護処理とも呼ぶ)の詳細を説明するフローチャート図である。図12のフローチャート図が示すように,ログ情報保護部215は,情報受信部212が受信した識別情報の「処理内容」が「上書き禁止」であるか否かを確認する(S61)。そして,受信した識別情報の「処理内容」に「上書き禁止」が設定されている場合(S61のYES),ログ情報保護部215は,S23と同様に,抽出したログ情報231よりも後に情報格納領域230に記憶されたログ情報231の保護処理を実行する(S62)。一方,受信した識別情報の「処理内容」に「上書き禁止」以外が設定されている場合(S61のNO),ログ情報保護部215は,ログ情報231の抽出を行わない。すなわち,ログ情報保護部215は,監視対象処理部11からログ情報231の保護に関する指示がない場合には,ログ情報231の保護を行わない。
FIG. 12 is a flowchart for explaining details of processing for protecting the
図9に戻り,ダンプ取得部220は,例えば,ダンプ取得部120と同様に,物理マシン1のメモリの内容をファイルに出力し,メモリダンプを取得する(S24)。これにより,運用管理者は,発生した障害の原因究明を行う際に,より詳細な調査を行うことが可能になる。
Returning to FIG. 9, the
図13は,ダンプ取得部220がメモリダンプを取得する処理(以下,ダンプ取得処理とも呼ぶ)の詳細を説明するフローチャート図である。図13に示すフローチャート図において,ロギング制御部22のダンプ取得部220は,例えば,情報受信部212が受信した識別情報の「メモリダンプ取得有無」が「有」であるか否かを確認する(S71)。そして,受信した識別情報の「メモリダンプ取得有無」に「有」が設定されている場合(S71のYES),ダンプ取得部220は,例えば,メモリダンプの取得を行う(S72)。一方,受信した識別情報の「メモリダンプ取得有無」に「無」が設定されている場合(S71のNO),ダンプ取得部220は,例えば,メモリダンプの取得を行わない。すなわち,ロギング制御部12から受信した識別情報の「メモリダンプ取得有無」に「無」が設定されている場合とは,ロギング制御部12が監視対象処理部21の復旧を検知し,メモリダンプの取得を行う必要がないと判断した場合である。そのため,ロギング制御部12から受信した識別情報の「メモリダンプ取得有無」に「無」が設定されている場合,ダンプ取得部220は,メモリダンプの取得を行わない。これにより,ダンプ取得部220は,メモリダンプの取得によるサービスへの影響を抑えることが可能になる。
FIG. 13 is a flowchart for explaining the details of the process in which the
図9に戻り,ログ情報抽出部213は,受信した第1のメッセージを識別する識別情報に基づいて,第1のメッセージに対応するログ情報231が記憶されているか否かを判定する(S25)。すなわち,第1のメッセージに対応するログ情報231が記憶されている場合,ログ情報抽出部213は,監視対象処理部21が第1のメッセージを受信していたと判定することができる。そのため,ログ情報抽出部213は,この場合,例えば,第1のメッセージに対する応答を監視対象処理部11に送信した監視対象処理部21の情報送信部214等で障害が発生したものと判定することができる。また,第1のメッセージに対応するログ情報231が記憶されていない場合,ログ情報抽出部213は,監視対象処理部21が第1のメッセージを受信していないと判定することができる。ログ情報抽出部213は,この場合,例えば,第1のメッセージを送信した監視対象処理部11の情報送信部114等において障害が発生したものと判定することができる。
Returning to FIG. 9, the log
[第2の実施の形態]
次に,第2の実施の形態について説明する。図19から図21は,第2の実施の形態におけるロギング制御処理を説明するフローチャート図である。図22は,第2の実施の形態におけるロギング制御処理を説明する図である。図22を参照しながら図19から図21のロギング制御処理の説明を行う。
[Second Embodiment]
Next, a second embodiment will be described. FIGS. 19 to 21 are flowcharts for explaining the logging control process in the second embodiment. FIG. 22 is a diagram for explaining the logging control processing in the second embodiment. The logging control process of FIGS. 19 to 21 will be described with reference to FIG.
第2の実施の形態では,第1の実施の形態で説明した無応答を検知した場合に加え,監視対象処理部11,21の処理状態に応じて,ログ情報131,231の保護処理を行う。具体的に,ロギング制御部12,22は,監視対象処理部の11,22の処理状態をそれぞれ定常的に取得する。そして,監視対象処理部11,21の処理状態が所定時間(例えば,1分)を経過しても更新されない場合,ロギング制御部12,22は,監視対象処理部11または監視対象処理部21で障害が発生したものと判定する。すなわち,例えば,監視対象処理部21において障害が発生した場合,第1の実施の形態では,障害の発生を検知するために監視対象処理部11から監視対象処理部21にメッセージを送信している必要がある。これに対し,第2の実施の形態では,監視対象処理部11から監視対象処理部21にメッセージを送信することなく,監視対象処理部21で発生している障害を検知することが可能になる。以下,第2の実施の形態におけるロギング制御処理の詳細を説明する。
In the second embodiment, in addition to the case where no response described in the first embodiment is detected, the
[状態更新処理の詳細]
初めに,ロギング制御部12における状態情報133の更新を行う処理(以下,状態更新処理とも呼ぶ)の詳細を説明する。図19に示すように,ロギング制御部12の状態取得部116は,例えば,状態取得タイミングになるまで待機する(S91のNO)。状態取得タイミングは,1分間隔等であってよい。そして,状態取得タイミングになった場合(S91のYES),状態取得部116は,例えば,ログ情報131を参照してセッションの状態を確認する。そして,ロギング制御部12の状態更新部117は,対応する状態情報133に設定する(S92)。以下,状態情報133の具体例を説明する。
[Details of status update processing]
First, the details of the process of updating the
図22は,状態情報133の具体例を示す図である。図22に示す状態情報133は,図14で説明した「セッションID」と,各セッションに関する現在の状態を示す「現在の状態」と,各セッションに関する前回の状態取得時における状態を示す「前回の状態」とを項目として有する。
FIG. 22 is a diagram illustrating a specific example of the
「現在の状態」及び「前回の状態」には,メッセージの送信先から送信したメッセージの応答を待っている状態を示す「レス待ち」や,メッセージの送信を行っていない状態(メッセージの応答を待っていない状態)を示す「正常」等が設定される。すなわち,状態更新部117は,例えば,図14で説明したログ情報131において,「セッションID」毎に,「属性」が「Request」である情報に対して「属性」が「Receive」である情報が存在するか否かを判定する。そして,状態更新部117は,「属性」が「Request」である情報に対して「属性」が「Receive」である情報が存在する「セッションID」について,「現在の状態」を「正常」に設定する。一方,状態取得部116は,「属性」が「Request」である情報に対して「属性」が「Receive」である情報が存在しない「セッションID」について,「現在の状態」を「レス待ち」に設定する。具体的に,図14のログ情報131のうち「セッションID」が「11」である情報において,「属性」が「Request」である情報(「識別ID」が1,7の情報)に対する「属性」が「Receive」である情報(「識別ID」が2,9の情報)は,全て存在する。そのため,この場合,状態更新部117は,状態情報133において,「セッションID」が「11」である情報に対応する「現在の情報」を「正常」と判定する。一方,「セッションID」が「15」である情報において,「属性」が「Request」である情報(「識別ID」が3,4,7である情報)に対する「属性」が「Receive」である情報(「識別ID」が5,8である情報)は,一部のみが存在する。すなわち,図14に示す状態において,情報受信部112は,「セッションID」が「15」である通信相手から応答を待っている状態である。そのため,この場合,状態更新部117は,状態情報133において,「セッションID」が「15」である情報に対応する「現在の情報」を「レス待ち」と判定する。
“Current status” and “Previous status” include “Waiting for waiting” indicating the status of waiting for the response of the message sent from the message destination, and the status of not transmitting the message (message response “Normal” indicating a state of not waiting) is set. That is, for example, in the
図22に戻り,図22に示す状態情報133は,具体的に,「セッションID」が「11」,「13」,「15」,「21」,「23」及び「31」であるセッションが確立されている状態を示している。そして,「セッションID」が「11」である情報は,「現在の状態」として「正常」が設定され,「前回の状態」として「正常」が設定されている。また,「セッションID」が「23」である情報は,「現在の状態」として「レス待ち」が設定され,「前回の状態」として「レス待ち」が設定されている。すなわち,「セッションID」が「23」である情報は,「前回の状態」及び「現在の状態」ともに「レス待ち」の状態である。したがって,この場合,ロギング制御部12は,監視対象処理部11等において障害が発生した可能性があると判定し,例えば,ログ情報131,231の保護処理を行うことが可能になる。図22のその他の情報については,上記と同様であるため説明を省略する。
Returning to FIG. 22, the
なお,状態更新部117は,例えば,状態情報133を更新する前に,「現在の状態」に設定されている内容を「前回の状態」に設定するものであってよい。これにより,状態取得部116が取得した新たな情報によって,状態取得部116が前回取得した情報が上書きされることを防止することが可能になる。
For example, the
図19に戻り,状態取得部116が監視対象処理部11との間で確立されている全セッションについて状態の取得が完了した場合(S93のYES),状態取得部116は,次の状態取得タイミングまで待機する(S91)。一方,全セッションについての状態の取得が完了していない場合(S93のNO),状態取得部116は,状態の取得が完了していないセッションに関する状態の取得を行う(S92)。
Returning to FIG. 19, when the
[状態判定処理の詳細]
次に,ロギング制御部12における状態情報133の判定を行う処理(以下,状態判定処理とも呼ぶ)の詳細を説明する。図20に示すように,ロギング制御部12の状態判定部118は,例えば,状態判定タイミングになるまで待機する(S101のNO)。状態判定タイミングは,例えば,状態取得タイミングと同様に,1分間隔であってよい。そして,状態判定タイミングになった場合(S101のYES),状態判定部118は,例えば,状態情報133を参照し,「前回の状態」及び「現在の状態」の両方が「レス待ち」になっている情報が存在するか否かを確認する(S102)。
[Details of status judgment processing]
Next, details of a process for determining the
その結果,「前回の状態」及び「現在の状態」の両方が「レス待ち」になっている情報が存在しない場合(S102のNO),状態判定部118は,次の状態判定タイミングまで再度待機する(S101)。一方,「前回の状態」及び「現在の状態」の両方が「レス待ち」になっている情報が存在する場合(S102のYES),ログ情報抽出部113は,例えば,ログ情報131の抽出を行う。具体的に,ログ情報抽出部113は,監視対象処理部11が第3のメッセージを送信する前に監視対象処理部21から受信したメッセージ(以下,第4のメッセージとも呼ぶ)に対応するログ情報131よりも後に情報格納領域130に記憶された情報を抽出する(S103)。すなわち,「前回の状態」及び「現在の状態」の両方が「レス待ち」になっている情報が存在する場合,状態判定部118は,監視対象処理部11(または監視対象処理部11の通信相手)において障害が発生したために,情報が更新されていない可能性があると判定する。そして,ログ情報抽出部113は,「前回の状態」及び「現在の状態」の両方が「レス待ち」になっているセッションにおいて,監視対象処理部11が正常に受信した判断できるメッセージに対応するログ情報131を抽出する。これにより,ログ情報抽出部113は,障害が発生した際の情報を含むログ情報131を特定して抽出することが可能になる。
As a result, when there is no information in which “Previous state” and “Current state” are both “Waiting for reply” (NO in S102), the
続いて,ログ情報保護部115は,図8の場合と同様に,例えば,抽出したログ情報131の保護処理を実行する(S104)。そして,ダンプ取得部120は,例えば,物理マシン1のメモリの内容をファイルに出力し,メモリダンプを取得する(S105)。さらに,情報送信部114は,例えば,ログ情報抽出部113が抽出した第4のメッセージと,第3のメッセージとを識別可能な識別情報をロギング制御部22に送信する(S106)。
Subsequently, the log
一方,図21に示すように,ロギング制御部22の情報受信部212は,例えば,ロギング制御部12から識別情報を受信するまで待機する(S111のNO)。そして,ロギング制御部12から識別情報を受信した場合(S111のYES),ロギング制御部22のログ情報抽出部213は,例えば,情報格納領域230に記憶されたログ情報231を抽出する。具体的に,ログ情報抽出部213は,例えば,情報受信部212が受信した第4のメッセージを識別する識別情報に基づいて,第4のメッセージの送信よりも後に監視対象処理部11へ送信したメッセージに対応するログ情報を抽出する(S112)。
On the other hand, as shown in FIG. 21, the
そして,ログ情報抽出部213は,例えば,ログ情報抽出部113と同様に,抽出したログ情報231の保護処理を実行する(S113)。続いて,ダンプ取得部220は,例えば,ダンプ取得部120と同様に,物理マシン1のメモリの内容をファイルに出力し,メモリダンプを取得する(S114)。さらに,ログ情報抽出部213は,例えば,受信した第3のメッセージを識別する識別情報に基づいて,第1のメッセージに対応するログ情報231が記憶されているか否かを判定する(S115)。
And the log
すなわち,第2の実施の形態によれば,監視対象処理部11の処理状態が所定時間(例えば,1分)を経過しても更新されない場合,ロギング制御部12は,監視対象処理部11等で障害が発生したものと判定する。これにより,メッセージの送受信を行わない場合においても,監視対象処理部11等で発生している障害を検知することが可能になる。そのため,ロギング制御部12は,発生した障害を迅速に検知することが可能になる。
That is, according to the second embodiment, when the processing state of the monitoring
[識別情報が送信できない場合の処理]
次に,第1の実施の形態において,第2のメッセージの識別情報の送信(図8のS15)を行うことができない場合の処理を説明する。図23及び図24は,識別情報の送信を行うことができない場合のフローチャート図である。
[Processing when identification information cannot be sent]
Next, in the first embodiment, a process when the identification information of the second message cannot be transmitted (S15 in FIG. 8) will be described. 23 and 24 are flowcharts when the identification information cannot be transmitted.
例えば,物理マシン2において再起動を要するような障害が発生した場合,ロギング制御部22は,ロギング制御部12から送信される識別情報を受信できない場合がある。この場合,ロギング制御部12は,例えば,物理マシン2の再起動が完了するまで待機し,物理マシン2の再起動完了後,識別情報を再送する。ここで,物理マシン2では,再起動の実行に伴って,物理マシン2での障害発生前後に関するログ情報を含むメモリダンプが出力されている。そのため,ロギング制御部22は,物理マシン2の再起動完了後,受信した識別情報に含まれる内容及びメモリダンプに含まれる内容に基づき,物理マシン2において発生した障害の原因調査を行うことが可能になる。すなわち,この場合,ロギング制御部22は,メモリダンプに含まれる内容を参照することにより,ログ情報231の保護処理を行うことなく障害の原因調査が可能になる。以下,識別情報の送信を行うことができない場合の処理の詳細を説明する。
For example, when a failure that requires a restart occurs in the
図23は,識別情報の送信を行うことができない場合の識別情報送信処理を説明するフローチャート図である。図23に示すように,情報送信部114は,図11で説明した場合と同様に,監視対象処理部21が異常から復旧しているか否かを判定する(S121)。そして,監視対象処理部21が異常から復旧していないと判定した場合(S121のYES),情報送信部114は,メモリダンプの取得の指示を含む識別情報をロギング制御部22に送信する(S122)。一方,監視対象処理部21が異常から復旧していると判定した場合(S121のNO),情報送信部114は,メモリダンプの取得の指示を含まない識別情報をロギング制御部22に送信する(S123)。
FIG. 23 is a flowchart for explaining identification information transmission processing when identification information cannot be transmitted. As shown in FIG. 23, the
そして,識別情報の送信が完了した場合(S124のYES),図11で説明した場合と同様に,識別情報送信処理が終了する。一方,識別情報の送信が完了しない場合(S124のNO),情報送信部114は,例えば,識別情報の送信が完了するまで待機する(S125のNO)。すなわち,発生した障害に起因して物理マシン2で再起動が行われている場合,情報送信部114は,ロギング制御部22に識別情報を送信することができない。そのため,情報送信部114は,この場合,物理マシン2に対してPINGの送信等を行うことによって,定期的に物理マシン2(ロギング制御部22)の状況を確認する。そして,ロギング制御部22への識別情報の送信が可能になった場合(S125のYES),情報送信部114は,例えば,送信できなかった識別情報をロギング制御部22に送信(再送)する(S126)。
When the transmission of the identification information is completed (YES in S124), the identification information transmission process ends as in the case described with reference to FIG. On the other hand, when the transmission of the identification information is not completed (NO in S124), the
次に,ロギング制御部22が物理マシン2の再起動後に行う処理(以下,再起動時ロギング制御処理とも呼ぶ)を説明する。ロギング制御部22は,例えば,物理マシン2の再起動に伴って起動した後,ロギング制御部12から識別情報を受信するまで待機する(S131のNO)。そして,識別情報を受信した場合(S131のYES),ログ情報抽出部213は,例えば,物理マシン2の再起動の際に取得したメモリダンプを参照し,受信した識別情報に対応するログ情報231の後に記憶されたログ情報231を抽出する(S132)。すなわち,物理マシン2の再起動が行われた場合,情報格納領域230に記憶されたログ情報231はメモリダンプとして出力されている。そのため,ロギング制御部22は,出力されたメモリダンプの内容を参照することにより,ログ情報231の保護処理を行うことなく,物理マシン2において発生した障害の原因調査を行うことが可能になる。
Next, processing performed by the
その後,ログ情報抽出部213は,図10で説明した場合と同様に,例えば,受信した第1のメッセージを識別する識別情報に基づいて,第1のメッセージに対応するログ情報231が記憶されているか否かを判定する(S133)。
Thereafter, the log
以上の実施の形態をまとめると,以下の付記のとおりである。 The above embodiment is summarized as follows.
(付記1)
第1の装置に関するログ情報を記憶する記憶部と,
前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信する受信部と,
前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行う処理部と,
前記抽出した第2のメッセージを識別可能な第1の識別情報を送信する送信部と,
を備えた第1のロギング装置と,
前記第2の装置に関するログ情報を記憶する記憶部と,
前記送信された第1の識別情報を受信する受信部と,
前記受信した第1の識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記第2のメッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する処理部と,
を備えた第2のロギング装置と,を含む,
ことを特徴とする情報処理システム。
(Appendix 1)
A storage unit for storing log information relating to the first device;
A receiving unit that receives a notification from the first device that there is no response from the second device with respect to the first message transmitted from the first device to the second device;
A process of extracting log information corresponding to a second message received by the first device from the second device before transmission of the first message from the stored log information about the first device; A processing unit to perform,
A transmitter for transmitting first identification information capable of identifying the extracted second message;
A first logging device comprising:
A storage unit for storing log information related to the second device;
A receiver for receiving the transmitted first identification information;
Based on the received first identification information, log information corresponding to a message transmitted to the first device after transmission of the second message is specified from the stored log information about the second device. A processing unit to perform,
A second logging device comprising:
An information processing system characterized by this.
(付記2)
付記1において,
前記第2のロギング装置の前記処理部は,さらに,前記特定したログ情報を抽出して保護処理を実行する,
ことを特徴とする情報処理システム。
(Appendix 2)
In
The processing unit of the second logging device further extracts the identified log information and executes a protection process;
An information processing system characterized by this.
(付記3)
付記1において,
前記送信部は,前記第1のメッセージを識別可能な識別情報を送信し,
前記第2のロギング装置の前記処理部は,前記受信した第1のメッセージの識別情報に基づいて,前記第2のロギング装置の前記記憶部に前記第1のメッセージに対応するログ情報が記憶されているか否かを判定する,
ことを特徴とする情報処理システム。
(Appendix 3)
In
The transmission unit transmits identification information capable of identifying the first message;
The processing unit of the second logging device stores log information corresponding to the first message in the storage unit of the second logging device based on the received identification information of the first message. To determine whether or not
An information processing system characterized by this.
(付記4)
付記1において,
前記第2のロギング装置の前記処理部は,前記第2の装置から前記第1の装置への第3のメッセージの送信に応じて,前記第2の装置が前記第3のメッセージの応答を受信待ちである旨を示す状態情報を記憶部に記憶し,前記第3のメッセージの応答の受信に応じて,前記記憶した状態情報を消去し,
前記第2のロギング装置の前記処理部は,記憶されてからの時間が所定の時間を上回る状態情報の存在を検知した場合,前記記憶された第2の装置に関するログ情報から,前記第3のメッセージの送信前に前記第2の装置が前記第1の装置から受信した第4のメッセージに対応するログ情報を抽出し,
前記送信部は,前記抽出した第4のメッセージを識別可能な識別情報を送信し,
前記第1のロギング装置の前記受信部は,前記送信された第4のメッセージの識別情報を受信し,
前記受信した第4のメッセージの識別情報に基づいて,前記記憶された第1の装置に関するログ情報から前記第4のメッセージの送信よりも後に前記第2の装置へ送信したメッセージに対応するログ情報を抽出する,
ことを特徴とする情報処理システム。
(Appendix 4)
In
The processing unit of the second logging device receives the response of the third message in response to the transmission of the third message from the second device to the first device. Storing status information indicating that it is waiting in the storage unit, and erasing the stored status information in response to receiving a response to the third message;
When the processing unit of the second logging device detects the presence of state information that has been stored for more than a predetermined time, the processing unit detects, based on the stored log information about the second device, the third information Extracting log information corresponding to the fourth message received from the first device by the second device before sending the message;
The transmission unit transmits identification information capable of identifying the extracted fourth message;
The receiving unit of the first logging device receives identification information of the transmitted fourth message;
Based on the received identification information of the fourth message, log information corresponding to a message transmitted from the stored log information about the first device to the second device after transmission of the fourth message Extract,
An information processing system characterized by this.
(付記5)
付記1において,
前記送信部は,前記第2のロギング装置に前記識別情報を送信できない場合,前記第2のロギング装置への前記識別情報の送信が可能になるまで待機し,その後,前記識別情報を再送する,
ことを特徴とする情報処理システム。
(Appendix 5)
In
The transmission unit waits until the identification information can be transmitted to the second logging device when the identification information cannot be transmitted to the second logging device, and then retransmits the identification information.
An information processing system characterized by this.
(付記6)
付記1において,
前記第1のロギング装置の前記処理部は,前記第1のロギング装置の前記受信部が前記通知を受信したことに応じて,前記第1の装置のメモリの状態に関するメモリダンプを取得し,
前記第2のロギング装置の前記処理部は,前記第1のロギング装置の前記受信部が前記識別情報を受信したことに応じて,前記第2の装置のメモリの状態に関するメモリダンプを取得する,
ことを特徴とする情報処理システム。
(Appendix 6)
In
The processing unit of the first logging device acquires a memory dump related to a memory state of the first device in response to the reception of the notification by the receiving unit of the first logging device,
The processing unit of the second logging device acquires a memory dump related to a memory state of the second device in response to the reception of the identification information by the receiving unit of the first logging device;
An information processing system characterized by this.
(付記7)
付記6において,
前記第1のロギング装置の前記処理部は,前記第1のロギング装置の前記受信部が前記通知を受信した際に,前記第2の装置の状態を確認し,前記第2の装置の状態が正常であると判定した場合,前記メモリダンプの取得を行わない,
ことを特徴とする情報処理システム。
(Appendix 7)
In
The processing unit of the first logging device checks the state of the second device when the receiving unit of the first logging device receives the notification, and the state of the second device is If it is determined to be normal, the memory dump is not acquired.
An information processing system characterized by this.
(付記8)
付記6において,
前記第2のロギング装置の前記処理部は,前記第2のロギング装置の前記受信部が前記識別情報を受信した際に,前記第2の装置の状態を確認し,前記第2の装置の状態が正常であると判定した場合,前記メモリダンプの取得を行わない,
ことを特徴とする情報処理システム。
(Appendix 8)
In
The processing unit of the second logging device confirms the state of the second device when the receiving unit of the second logging device receives the identification information, and the state of the second device If it is determined that is normal, the memory dump is not acquired.
An information processing system characterized by this.
(付記9)
コンピュータに,
第1の装置に関するログ情報を記憶し,
前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信し,
前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行い,
前記抽出した第2のメッセージを識別可能な識別情報を送信する,
ことを実行させることを特徴とするロギング制御プログラム。
(Appendix 9)
Computer
Storing log information about the first device;
Receiving a notification from the first device that there was no response from the second device to the first message transmitted from the first device to the second device;
A process of extracting log information corresponding to a second message received by the first device from the second device before transmission of the first message from the stored log information about the first device; Done,
Transmitting identification information for identifying the extracted second message;
A logging control program characterized by causing
(付記10)
コンピュータに,
第2の装置に関するログ情報を記憶し,
前記第2の装置が第1の装置に送信したメッセージを識別可能な識別情報を第1の装置から受信し,
前記受信した識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記メッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する,
ことを実行させることを特徴とするロギング制御プログラム。
(Appendix 10)
Computer
Storing log information about the second device;
Receiving identification information from the first device that can identify the message transmitted by the second device to the first device;
Based on the received identification information, log information corresponding to a message transmitted to the first device after transmission of the message is specified from the stored log information on the second device.
A logging control program characterized by causing
(付記11)
第1のロギング装置は,第1の装置に関するログ情報を記憶し,
前記第1のロギング装置は,前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信し,
前記第1のロギング装置は,前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行い,
前記第1のロギング装置は,前記抽出した第2のメッセージを識別可能な識別情報を送信し,
第2のロギング装置は,前記第2の装置に関するログ情報を記憶し,
前記第2のロギング装置は,前記送信された識別情報を受信し,
前記第2のロギング装置は,前記受信した識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記第2のメッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する,
ことを特徴とするロギング制御方法。
(Appendix 11)
The first logging device stores log information relating to the first device,
The first logging device notifies the first device that there has been no response from the second device to the first message transmitted from the first device to the second device. Receive,
The first logging device responds to a second message received from the second device by the first device before transmission of the first message from the stored log information about the first device. Process to extract log information to be
The first logging device transmits identification information capable of identifying the extracted second message;
A second logging device for storing log information relating to the second device;
The second logging device receives the transmitted identification information;
The second logging device responds to a message transmitted to the first device after transmission of the second message from log information relating to the stored second device based on the received identification information. Identify the log information to be used,
A logging control method characterized by the above.
1:物理マシン 2:物理マシン
11:監視対象処理部 12:ロギング制御部
13:記憶媒体 21:監視対象処理部
22:ロギング制御部 23:記憶媒体
1: Physical machine 2: Physical machine 11: Monitoring target processing unit 12: Logging control unit 13: Storage medium 21: Monitoring target processing unit 22: Logging control unit 23: Storage medium
Claims (7)
前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信する受信部と,
前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行う処理部と,
前記抽出した第2のメッセージを識別可能な第1の識別情報を送信する送信部と,
を備えた第1のロギング装置と,
前記第2の装置に関するログ情報を記憶する記憶部と,
前記送信された第1の識別情報を受信する受信部と,
前記受信した第1の識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記第2のメッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する処理部と,
を備えた第2のロギング装置と,を含む,
ことを特徴とする情報処理システム。 A storage unit for storing log information relating to the first device;
A receiving unit that receives a notification from the first device that there is no response from the second device with respect to the first message transmitted from the first device to the second device;
A process of extracting log information corresponding to a second message received by the first device from the second device before transmission of the first message from the stored log information about the first device; A processing unit to perform,
A transmitter for transmitting first identification information capable of identifying the extracted second message;
A first logging device comprising:
A storage unit for storing log information related to the second device;
A receiver for receiving the transmitted first identification information;
Based on the received first identification information, log information corresponding to a message transmitted to the first device after transmission of the second message is specified from the stored log information about the second device. A processing unit to perform,
A second logging device comprising:
An information processing system characterized by this.
前記第2のロギング装置の前記処理部は,さらに,前記特定したログ情報を抽出して保護処理を実行する,
ことを特徴とする情報処理システム。 In claim 1,
The processing unit of the second logging device further extracts the identified log information and executes a protection process;
An information processing system characterized by this.
前記送信部は,前記第1のメッセージを識別可能な識別情報を送信し,
前記第2のロギング装置の前記処理部は,前記受信した第1のメッセージの識別情報に基づいて,前記第2のロギング装置の前記記憶部に前記第1のメッセージに対応するログ情報が記憶されているか否かを判定する,
ことを特徴とする情報処理システム。 In claim 1,
The transmission unit transmits identification information capable of identifying the first message;
The processing unit of the second logging device stores log information corresponding to the first message in the storage unit of the second logging device based on the received identification information of the first message. To determine whether or not
An information processing system characterized by this.
前記第2のロギング装置の前記処理部は,前記第2の装置から前記第1の装置への第3のメッセージの送信に応じて,前記第2の装置が前記第3のメッセージの応答を受信待ちである旨を示す状態情報を記憶部に記憶し,前記第3のメッセージの応答の受信に応じて,前記記憶した状態情報を消去し,
前記第2のロギング装置の前記処理部は,記憶されてからの時間が所定の時間を上回る状態情報の存在を検知した場合,前記記憶された第2の装置に関するログ情報から,前記第3のメッセージの送信前に前記第2の装置が前記第1の装置から受信した第4のメッセージに対応するログ情報を抽出し,
前記送信部は,前記抽出した第4のメッセージを識別可能な識別情報を送信し,
前記第1のロギング装置の前記受信部は,前記送信された第4のメッセージの識別情報を受信し,
前記受信した第4のメッセージの識別情報に基づいて,前記記憶された第1の装置に関するログ情報から前記第4のメッセージの送信よりも後に前記第2の装置へ送信したメッセージに対応するログ情報を抽出する,
ことを特徴とする情報処理システム。 In claim 1,
The processing unit of the second logging device receives the response of the third message in response to the transmission of the third message from the second device to the first device. Storing status information indicating that it is waiting in the storage unit, and erasing the stored status information in response to receiving a response to the third message;
When the processing unit of the second logging device detects the presence of state information that has been stored for more than a predetermined time, the processing unit detects, based on the stored log information about the second device, the third information Extracting log information corresponding to the fourth message received from the first device by the second device before sending the message;
The transmission unit transmits identification information capable of identifying the extracted fourth message;
The receiving unit of the first logging device receives identification information of the transmitted fourth message;
Based on the received identification information of the fourth message, log information corresponding to a message transmitted from the stored log information about the first device to the second device after transmission of the fourth message Extract,
An information processing system characterized by this.
第1の装置に関するログ情報を記憶し,
前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信し,
前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行い,
前記抽出した第2のメッセージを識別可能な識別情報を送信する,
ことを実行させることを特徴とするロギング制御プログラム。 Computer
Storing log information about the first device;
Receiving a notification from the first device that there was no response from the second device to the first message transmitted from the first device to the second device;
A process of extracting log information corresponding to a second message received by the first device from the second device before transmission of the first message from the stored log information about the first device; Done,
Transmitting identification information for identifying the extracted second message;
A logging control program characterized by causing
第2の装置に関するログ情報を記憶し,
前記第2の装置が第1の装置に送信したメッセージを識別可能な識別情報を第1の装置から受信し,
前記受信した識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記メッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する,
ことを実行させることを特徴とするロギング制御プログラム。 Computer
Storing log information about the second device;
Receiving identification information from the first device that can identify the message transmitted by the second device to the first device;
Based on the received identification information, log information corresponding to a message transmitted to the first device after transmission of the message is specified from the stored log information on the second device.
A logging control program characterized by causing
前記第1のロギング装置は,前記第1の装置から第2の装置に送信された第1のメッセージに対して前記第2の装置から無応答であった旨の通知を前記第1の装置から受信し,
前記第1のロギング装置は,前記記憶された第1の装置に関するログ情報から,前記第1のメッセージの送信前に前記第1の装置が前記第2の装置から受信した第2のメッセージに対応するログ情報を抽出する処理を行い,
前記第1のロギング装置は,前記抽出した第2のメッセージを識別可能な識別情報を送信し,
第2のロギング装置は,前記第2の装置に関するログ情報を記憶し,
前記第2のロギング装置は,前記送信された識別情報を受信し,
前記第2のロギング装置は,前記受信した識別情報に基づいて,前記記憶された第2の装置に関するログ情報から前記第2のメッセージの送信よりも後に前記第1の装置へ送信したメッセージに対応するログ情報を特定する,
ことを特徴とするロギング制御方法。 The first logging device stores log information relating to the first device,
The first logging device notifies the first device that there has been no response from the second device to the first message transmitted from the first device to the second device. Receive,
The first logging device responds to a second message received from the second device by the first device before transmission of the first message from the stored log information about the first device. Process to extract log information to be
The first logging device transmits identification information capable of identifying the extracted second message;
A second logging device for storing log information relating to the second device;
The second logging device receives the transmitted identification information;
The second logging device responds to a message transmitted to the first device after transmission of the second message from log information relating to the stored second device based on the received identification information. Identify the log information to be used,
A logging control method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014200524A JP6330607B2 (en) | 2014-09-30 | 2014-09-30 | Information processing system, logging control program, and logging control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014200524A JP6330607B2 (en) | 2014-09-30 | 2014-09-30 | Information processing system, logging control program, and logging control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016071640A true JP2016071640A (en) | 2016-05-09 |
JP6330607B2 JP6330607B2 (en) | 2018-05-30 |
Family
ID=55867005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014200524A Active JP6330607B2 (en) | 2014-09-30 | 2014-09-30 | Information processing system, logging control program, and logging control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6330607B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019003335A (en) * | 2017-06-13 | 2019-01-10 | 株式会社Fuji | Board work system and board work apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284520A (en) * | 2004-03-29 | 2005-10-13 | Nec Corp | Method, program, program recording medium, apparatus and system for log collection |
JP2007199968A (en) * | 2006-01-26 | 2007-08-09 | Hitachi Ltd | Log collection system for information processor |
JP2012168907A (en) * | 2011-02-17 | 2012-09-06 | Nec Corp | Mutual monitoring system |
-
2014
- 2014-09-30 JP JP2014200524A patent/JP6330607B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284520A (en) * | 2004-03-29 | 2005-10-13 | Nec Corp | Method, program, program recording medium, apparatus and system for log collection |
JP2007199968A (en) * | 2006-01-26 | 2007-08-09 | Hitachi Ltd | Log collection system for information processor |
JP2012168907A (en) * | 2011-02-17 | 2012-09-06 | Nec Corp | Mutual monitoring system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019003335A (en) * | 2017-06-13 | 2019-01-10 | 株式会社Fuji | Board work system and board work apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP6330607B2 (en) | 2018-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3142011B1 (en) | Anomaly recovery method for virtual machine in distributed environment | |
CN108958970B (en) | Data recovery method, server and computer readable medium | |
WO2018095414A1 (en) | Method and apparatus for detecting and recovering fault of virtual machine | |
JP5366184B2 (en) | Data storage system and data storage method | |
JP6330607B2 (en) | Information processing system, logging control program, and logging control method | |
US10735440B2 (en) | Communication destination determination device, communication destination determination method, and recording medium | |
JP5558279B2 (en) | MONITORING / CONTROL SYSTEM, MONITORING / CONTROL DEVICE USED FOR SAME, AND MONITORING / CONTROL METHOD | |
JP2010244463A (en) | Event detection control method and system | |
CN112069032A (en) | Availability detection method, system and related device for virtual machine | |
JP2008192035A (en) | Monitoring program, monitoring method, and monitoring system | |
JP6222759B2 (en) | Failure notification device, failure notification method and program | |
JP4485344B2 (en) | Server apparatus, failure path diagnosis method, and failure path diagnosis program | |
KR101977953B1 (en) | Remote fault recovery system | |
JP2018128920A (en) | Logging control program, logging control device, logging control method and information processing system | |
JP2012103916A (en) | Information processor for automatically performing uninstallation of application software in abnormal time | |
JP2016200961A (en) | Server failure monitoring system | |
JP2019193202A (en) | One-way communication device, one-way communication method, and one-way communication program | |
JP7298412B2 (en) | Abnormality determination device, abnormality determination method, and program | |
JP7395908B2 (en) | information processing system | |
CN112256527B (en) | Method, device and storage medium for protecting equipment operation safety | |
JP4459185B2 (en) | Computer system | |
JP7041347B2 (en) | Control program, information processing device and control method | |
JP6944799B2 (en) | Information processing device | |
JP2022093720A (en) | Backup method, backup device, and backup program | |
JP4413758B2 (en) | Monitoring device and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180320 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6330607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |