JP2013003950A - Decentralized processing system, log collection server, log collection method, and program - Google Patents
Decentralized processing system, log collection server, log collection method, and program Download PDFInfo
- Publication number
- JP2013003950A JP2013003950A JP2011136126A JP2011136126A JP2013003950A JP 2013003950 A JP2013003950 A JP 2013003950A JP 2011136126 A JP2011136126 A JP 2011136126A JP 2011136126 A JP2011136126 A JP 2011136126A JP 2013003950 A JP2013003950 A JP 2013003950A
- Authority
- JP
- Japan
- Prior art keywords
- server
- service providing
- log
- program
- log collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、サーバからログを収集する技術に関し、特に、複数のサーバから大容量のログを収集する技術に関する。 The present invention relates to a technique for collecting logs from a server, and more particularly to a technique for collecting large-capacity logs from a plurality of servers.
分散処理システムは、複数のサーバが協調して動作することでサービスを提供するシステムであり、各サーバ上では複数のプログラムが動作する。 The distributed processing system is a system that provides a service by a plurality of servers operating in cooperation, and a plurality of programs operate on each server.
各プログラムは、障害発生時に備え、障害原因を特定するためのログ(解析用ログ)を各サーバに出力している。ログは、大容量のため、通常は各サーバに蓄積しており、障害発生時に各サーバから収集して、障害原因の特定のために解析者が使用する。 Each program outputs a log (analysis log) for identifying the cause of the failure to each server in preparation for the occurrence of the failure. Logs are usually stored in each server because of their large capacity, and are collected from each server when a failure occurs and used by an analyst to identify the cause of the failure.
サーバからログを収集する技術として、例えば、非特許文献1には、簡易操作で運用可能な統合ログ管理環境を提供し、システム監査や障害調査に必要な各種ログを収集し、管理コストを削減する技術が記載されている。 As a technology for collecting logs from the server, Non-Patent Document 1, for example, provides an integrated log management environment that can be operated with simple operations, collects various logs necessary for system audits and fault investigations, and reduces management costs The technology to do is described.
また、サーバからログを収集する他の技術として、例えば、非特許文献2には、サーバの各部品や様々なサービス間の依存関係に注目し、システム全体の全ログの中から管理者が現在注目している事象に関連のあるログを自動抽出する技術が開示されている。
As another technique for collecting logs from the server, for example, Non-Patent
しかし、非特許文献1,2に記載の技術においては、ログを一括して収集した後に解析を開始するため、全てのログを回収するまで解析に着手できなかった。
However, in the techniques described in
分散処理システムを構成する複数のサーバから大容量のログを収集するには長い時間を要する(場合によっては数日を要する)ため、障害発生時に全ログの到着を待って解析に着手していては、障害原因の特定が遅れてしまう。 Collecting large volumes of logs from multiple servers that make up a distributed processing system takes a long time (in some cases it may take several days), so we have begun analysis after waiting for the arrival of all logs when a failure occurs. Will delay the identification of the cause of the failure.
そこで、本発明の目的は、プログラムに障害が発生した場合に、解析者がログの到着を待つ時間を短縮することができる分散処理システム、ログ収集サーバ、ログ収集方法、プログラムを提供することにある。 Accordingly, an object of the present invention is to provide a distributed processing system, a log collection server, a log collection method, and a program capable of reducing the time for an analyst to wait for the arrival of a log when a failure occurs in the program. is there.
本発明の分散処理システムは、
複数のサービス提供サーバと、前記サービス提供サーバからログを収集するログ収集サーバと、を有してなる分散処理システムであって、
前記ログ収集サーバは、
プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストと、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したプログラムについて前記第1のリストに表される順序に従って前記サービス提供サーバからログを収集するログ収集部と、を有する。
The distributed processing system of the present invention
A distributed processing system comprising a plurality of service providing servers and a log collection server that collects logs from the service providing servers,
The log collection server
For each program, a first list that represents a sequence in which logs are collected when a failure occurs in the program, which is predetermined according to the dependency relationship between the programs;
And a log collection unit that collects logs from the service providing server according to the order represented in the first list when a failure occurs in the program on the service providing server.
本発明のログ収集サーバは、
サービス提供サーバからログを収集するログ収集サーバであって、
プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストと、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したプログラムについて前記第1のリストに表される順序に従って前記サービス提供サーバからログを収集するログ収集部と、を有する。
The log collection server of the present invention
A log collection server that collects logs from a service providing server,
For each program, a first list that represents a sequence in which logs are collected when a failure occurs in the program, which is predetermined according to the dependency relationship between the programs;
And a log collection unit that collects logs from the service providing server according to the order represented in the first list when a failure occurs in the program on the service providing server.
本発明のログ収集方法は、
サービス提供サーバからログを収集するログ収集サーバが行うログ収集方法であって、
プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストを登録し、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したプログラムについて前記第1のリストに表される順序に従って前記サービス提供サーバからログを収集する。
The log collection method of the present invention includes:
A log collection method performed by a log collection server that collects logs from a service providing server,
For each program, register a first list representing a sequence in which logs are collected when a failure occurs in the program, which is determined in advance according to the dependency relationship between the programs,
When a failure occurs in the program on the service providing server, logs are collected from the service providing server according to the order shown in the first list for the program in which the failure has occurred.
本発明のプログラムは、
前記ログ収集方法を前記ログ収集サーバに実行させるためのものである。
The program of the present invention
This is for causing the log collection server to execute the log collection method.
本発明によれば、プログラム毎に、プログラム間の依存関係に応じて、そのプログラムに障害が発生した時のログ収集する順序を予め決めておき、障害発生時には、その順序でログを収集する。 According to the present invention, for each program, the order of log collection when a failure occurs in the program is determined in advance according to the dependency relationship between the programs, and when a failure occurs, the logs are collected in that order.
これにより、障害発生時には、解析者が必要とする順序でログを自動的に収集することができ、解析者がログの収集を待つ時間を短縮できるという効果が得られる。 As a result, when a failure occurs, logs can be automatically collected in the order required by the analyst, and the time that the analyst waits for log collection can be shortened.
(1)本発明の概要
最初に、本発明の概要について説明する。
(1) Outline of the Present Invention First, an outline of the present invention will be described.
ここでは、1台のサーバにおいて、P1、P2、P3の3個のプログラムが動作するケースを考える。本ケースでは、P1、P2、P3の依存関係は、図1に示すように、P1がP2を使用し、P2がP3を使用するという関係になっている。また、図2に示すように、障害(アラーム)が発生したプログラムがP1、障害の真の原因となる不具合があるプログラムがP3だとする。 Here, a case where three programs P1, P2, and P3 operate on one server is considered. In this case, as shown in FIG. 1, the dependency relationship between P1, P2, and P3 is such that P1 uses P2 and P2 uses P3. Further, as shown in FIG. 2, it is assumed that a program in which a failure (alarm) has occurred is P1, and a program having a problem that causes a failure is P3.
この場合、解析者は、P1の障害の原因を特定するため、まず、P1のログを解析する。P1のログを解析した結果、障害の原因がP1ではない場合、次に、解析者は、P1が使用するP2のログを解析する。P2のログを解析した結果、障害の原因がP2ではない場合、次に、解析者は、P2が使用するP3のログを解析する。そして、P3のログを解析した結果、障害の真の原因がP3の不具合であることを特定する。 In this case, the analyst first analyzes the log of P1 in order to identify the cause of the failure of P1. As a result of analyzing the log of P1, if the cause of the failure is not P1, then the analyst analyzes the log of P2 used by P1. If the cause of the failure is not P2, as a result of analyzing the P2 log, the analyst then analyzes the P3 log used by P2. As a result of analyzing the log of P3, it is specified that the true cause of the failure is a malfunction of P3.
上記のケースでは、解析者がログを必要とする順序は、P1→P2→P3の順序である。そのため、P1→P2→P3の順序でログを収集すれば、解析者がログの到着を待つ時間を短縮できる。 In the above case, the order in which the analyst needs logs is the order of P1 → P2 → P3. Therefore, if logs are collected in the order of P1, P2, and P3, the time for the analyst to wait for the arrival of the log can be shortened.
そこで、本発明では、図3に示すように、プログラム毎に、プログラム間の依存関係に応じて、そのプログラムに障害が発生した時のログ収集する順序を予め決めておき、障害発生時には、その順序でログを収集する。 Therefore, in the present invention, as shown in FIG. 3, for each program, the order of log collection when a failure occurs in the program is determined in advance according to the dependency relationship between the programs. Collect logs in order.
これにより、障害発生時には、解析者が必要とするP1→P2→P3の順序でログを自動的に収集することができ、解析者がログの収集を待つ時間を短縮できる。 Thus, when a failure occurs, logs can be automatically collected in the order of P1 → P2 → P3 required by the analyst, and the time for the analyst to wait for log collection can be shortened.
一方、プログラム間の依存関係を考慮せずにログを収集した場合、例えば、最初にP1のログ、次にP3のログ、最後にP2のログを収集した場合を考える。 On the other hand, when logs are collected without considering the dependency relationship between programs, for example, a case where a log of P1 is collected first, then a log of P3, and finally a log of P2 is considered.
この場合には、解析者は、P1のログを解析後、P2のログを解析しようとするが、この時点ではP3のログしか収集できていない可能性がある。その場合には、解析者は、P2のログが到着するのを待つ必要があり、解析作業の進捗を阻害してしまう。 In this case, the analyst tries to analyze the log of P2 after analyzing the log of P1, but there is a possibility that only the log of P3 can be collected at this point. In that case, the analyst needs to wait for the log of P2 to arrive, which hinders the progress of the analysis work.
なお、上記のケースは、サーバが1台の例であるが、分散処理システムでは、図4に示すように、各プログラムは複数のサーバ上で稼動し、かつ、それらの複数のサーバが協調して動作する。各プログラムのログは、大容量であり、かつ、複数のサーバに分散して蓄積されるため、障害発生時に全てのログを収集するには非常に長い時間を要する。 The above case is an example of a single server, but in a distributed processing system, as shown in FIG. 4, each program runs on a plurality of servers, and the plurality of servers cooperate. Works. Since the logs of each program have a large capacity and are distributed and accumulated in a plurality of servers, it takes a very long time to collect all the logs when a failure occurs.
障害発生時には、一刻も早く原因を特定する必要があり、ログ収集にかける時間は短ければ短いほど好ましい。ただ、解析者は、大容量のログの全てを一度に解析できるわけではないため、解析者が解析する順序でログを提供できれば、解析者がログの到着を待つ時間を短縮でき、解析作業の進捗を阻害することはない。 When a failure occurs, it is necessary to identify the cause as soon as possible, and the shorter the time required for log collection, the better. However, the analyst cannot analyze all of the large-capacity logs at the same time, so if the analysts can provide logs in the order in which they are analyzed, the time for the analysts to wait for the arrival of logs can be shortened, and There is no impediment to progress.
そのため、本発明では、図3のログ収集順序に従って、まず、サーバ1〜NのP1のログ、次に、サーバ1〜NのP2のログ、最後に、サーバ1〜NのP3のログの順序で収集して解析者に提供する。 Therefore, in the present invention, according to the log collection order of FIG. 3, first, the P1 log of the servers 1 to N, then the P2 log of the servers 1 to N, and finally the P3 log of the servers 1 to N. Collected and provided to analysts.
これにより、解析者がログの到着を待つ時間を短縮することができる。
(2)本発明の実施形態
続いて、本発明の実施形態について説明する。
(2−1)第1の実施形態
図5に、本実施形態の分散処理システムの構成例を示す。
Thereby, it is possible to shorten the time for the analyst to wait for the arrival of the log.
(2) Embodiment of the Present Invention Next, an embodiment of the present invention will be described.
(2-1) First Embodiment FIG. 5 shows a configuration example of a distributed processing system of this embodiment.
図5に示すように、本実施形態の分散処理システムは、複数台(より具体的には数百台以上)のサービス提供サーバ(以下、サーバと表記した場合にはサービス提供サーバを意味する)10と、アラーム監視サーバ20と、ログ収集サーバ30と、を有している。
As shown in FIG. 5, the distributed processing system of the present embodiment has a plurality of (more specifically, several hundred or more) service providing servers (hereinafter referred to as “server providing servers”). 10, an
サーバ10は、同一サービスを提供するグループ毎に分類される。
The
サーバ10は、障害発生時に備えて解析に必要なログを蓄積している。
The
なお、図5において、Pziは、グループzの各サーバ10にインストールされたi個目のプログラム(z=A,B,・・・、i=1,2,・・・)であり、また、Lziは、プログラムPziのログ(z=A,B,・・・、i=1,2,・・・)である(以下の図面において同じ)。
In FIG. 5, Pzi is the i-th program (z = A, B,..., I = 1, 2,...) Installed in each
サーバ10は、自己のサービス提供サーバ上のプログラムに障害が発生した場合、アラームを送信するアラーム送信部11を有している。なお、アラームは、自己のサーバ10を識別する情報と障害が発生したプログラムを識別する情報を含むものとする。
The
アラーム監視サーバ20は、障害が発生したサーバ10からアラームを受信するアラーム受信部21と、アラーム受信部21が受信したアラームを表示するアラーム表示部22と、を有している。
The
ログ収集サーバ30は、障害発生時にサーバ10からログを収集するログ収集部31と、サーバ10から収集したログを格納するログ格納部32と、ログ収集順序リスト33と、サーバリスト34と、を有している。
The
図6に、ログ収集順序リスト33の例を示す。
FIG. 6 shows an example of the log
図6に示すように、ログ収集順序リスト33は、プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストである。
As shown in FIG. 6, the log
図7に、サーバリスト34の例を示す。 FIG. 7 shows an example of the server list 34.
図7に示すように、サーバリスト34は、グループ毎に、そのグループに属するサーバ10の情報(サーバ名、IPアドレス等)を表す第2のリストである。
As shown in FIG. 7, the server list 34 is a second list that represents information (server name, IP address, etc.) of the
分散処理システムでは、基本的には、グループ単位でサービスを提供し、同一グループに属するサーバ10間で協調動作を行う。
In the distributed processing system, basically, a service is provided in units of groups, and a cooperative operation is performed between
そのため、ログ収集部31は、サーバ10で障害が発生した場合、そのサーバ10と同じグループに属する全てのサーバ10からログを収集する。
Therefore, when a failure occurs in the
以下に、本実施形態の分散処理システムの動作について説明する。 The operation of the distributed processing system of this embodiment will be described below.
図8に、本実施形態の分散処理システムにおいて、サーバ10−A1上で動作するプログラムPA1に障害が発生した時の動作例を説明するシーケンスチャートを示す。 FIG. 8 shows a sequence chart for explaining an operation example when a failure occurs in the program PA1 operating on the server 10-A1 in the distributed processing system of this embodiment.
図8に示すように、各プログラムPziは、ログLziをサーバ10に常時出力している(ステップA1)。 As shown in FIG. 8, each program Pzi always outputs the log Lzi to the server 10 (step A1).
ここで、サーバ10−A1上のプログラムPA1に障害が発生したとする(ステップA2)。 Here, it is assumed that a failure has occurred in the program PA1 on the server 10-A1 (step A2).
すると、サーバ10−A1のアラーム送信部11は、アラーム監視サーバ20にアラームを送信する(ステップA3)。
Then, the
アラーム監視サーバ20内では、アラーム受信部21は、アラームを受信すると、そのアラームをアラーム表示部22に表示する(ステップA4)。
In the
運用者20Aは、アラーム監視サーバ20のアラーム表示部22を監視することにより、サーバ10−A1上のプログラムPA1にて障害が発生したことを確認する(ステップA5)。
The
次に、運用者20Aは、ログ収集サーバ30のログ収集部31に対し、サーバ10−A1のプログラムPA1に関連するログの収集を指示する(ステップA6)。
Next, the
すると、ログ収集部31は、後述する図9に示すフローに従って、サーバ10−A1と同じグループに属する全てのサーバ10からログを収集し、収集したログをログ格納部32に格納する(ステップA7)。
Then, the
解析者30Aは、ログLA1が収集され次第、解析を開始する(ステップA8)。
The
ここでは、ログ収集部31により、ログはLA1→LA2→LA3・・・→LAXの順序で収集される。そのため、障害の真の原因がPA1でなかった場合、解析者30Aは、LA2→LA3・・・の順序でログを解析する。
Here, the logs are collected by the
図9に、ログ収集部31のログ収集動作の動作例を説明するフローチャートを示す。
FIG. 9 shows a flowchart for explaining an operation example of the log collection operation of the
図9に示すように、まず、ログ収集部31は、NとXを初期化してそれぞれ1にする(ステップB1)。
As shown in FIG. 9, first, the
次に、ログ収集部31は、ログ収集順序リスト33から、プログラムPA1の障害発生時にX番目に収集すべき対象ログを特定する(ステップB2)。
Next, the
次に、ログ収集部31は、サーバリスト34から、障害が発生したサーバ10−A1が属するグループAのN番目に収集すべき対象サーバを特定する(ステップB3)。
Next, the
なお、N番目のサーバは、例えば、サーバリスト34に記載されたサーバ名の数字部分の順序や、サーバリスト34の記載の順序等で判断する。 Note that the Nth server is determined based on, for example, the order of the numeric part of the server name described in the server list 34, the order of description in the server list 34, or the like.
次に、ログ収集部31は、対象サーバから対象ログを収集する(ステップB4)。
Next, the
次に、ログ収集部31は、Nをインクリメントし(ステップB5)、グループAの中に対象ログを未収集の未収集サーバがあるか否かを判断し(ステップB6)、未収集のサーバがあれば(ステップB6のYES)、ステップB3に戻る。
Next, the
一方、グループAの中に未収集サーバがなければ(ステップB6のNO)、ログ収集部31は、Xをインクリメントすると共にNを初期化して1にし(ステップB7)、プログラムPA1の障害発生時に収集すべきログの中に、未収集ログがあるか否かを判断し(ステップB8)、未収集ログがあれば(ステップB8のYES)、ステップB2に戻り、未収集ログがなければ(ステップB8のNO)、処理を終了する。
On the other hand, if there is no uncollected server in group A (NO in step B6), the
上述したように本実施形態によれば、プログラム毎に、プログラム間の依存関係に応じて、そのプログラムに障害が発生した時のログ収集する順序を予め決めておき、障害発生時には、その順序でログを収集する。 As described above, according to the present embodiment, for each program, the order of collecting logs when a failure occurs in the program is determined in advance according to the dependency relationship between the programs. Collect logs.
これにより、障害発生時には、解析者が必要とする順序でログを自動的に収集することができ、解析者がログの収集を待つ時間を短縮できる。
(2−2)第2の実施形態
本実施形態の分散処理システムは、第1の実施形態と構成自体は同様であるが、動作が第1の実施形態とは異なる。
As a result, when a failure occurs, logs can be automatically collected in the order required by the analyst, and the time for the analyst to wait for log collection can be shortened.
(2-2) Second Embodiment The distributed processing system of the present embodiment has the same configuration as that of the first embodiment, but the operation is different from that of the first embodiment.
すなわち、第1の実施形態においては、障害が発生したサーバ10と同じグループに属するサーバ10からログを収集する際に、サーバ名の数字部分の順序やサーバリスト34に記載された順序でログを収集していた。
That is, in the first embodiment, when logs are collected from the
これに対して、本実施形態においては、最初に、障害が発生したサーバ10からログを収集し、その後に、障害が発生したサーバ10と同じグループに属する他のサーバ10からログを収集する。
On the other hand, in the present embodiment, first, logs are collected from the
以下、本実施形態の分散処理システムの動作について説明する。 Hereinafter, the operation of the distributed processing system of this embodiment will be described.
なお、本実施形態は、第1の実施形態と比較して、ログ収集部31のログ収集動作が異なり、その他の動作は同様である。そのため、以下では、本実施形態のログ収集動作の動作例についてのみ、図10を参照して説明する。
Note that the present embodiment is different from the first embodiment in the log collection operation of the
図10に示すように、まず、ログ収集部31は、障害が発生したサーバ10−A1を、最初にログを収集すべきサーバと決定する(ステップC1)。
As illustrated in FIG. 10, first, the
次に、ログ収集部31は、Xを初期化して1にする(ステップC2)。
Next, the
次に、ログ収集部31は、ログ収集順序リスト33から、プログラムPA1の障害発生時にX番目に収集すべき対象ログを特定する(ステップC3)。
Next, the
次に、ログ収集部31は、サーバ10−A1から対象ログを収集する(ステップC4)。
Next, the
次に、ログ収集部31は、Xをインクリメントし(ステップC5)、プログラムPA1の障害発生時に収集すべきログの中に、未収集ログがあるか否かを判断し(ステップC6)、未収集ログがあれば(ステップC6のYES)、ステップC3に戻り、未収集ログがなければ(ステップC6のNO)、ステップC7に進む。
Next, the
以降、図9に示したステップB1〜B8と同様のステップC7〜C14の処理を行う。 Thereafter, the same processes of steps C7 to C14 as steps B1 to B8 shown in FIG. 9 are performed.
上述したように本実施形態によれば、障害が発生したサーバ10から最初にログを収集するため、障害が発生したサーバ10のログを優先して解析することができる。
As described above, according to the present embodiment, since logs are first collected from the
その他の効果は第1の実施形態と同様である。
(2−3)第3の実施形態
図11に、本実施形態の分散処理システムの構成例を示す。
Other effects are the same as those of the first embodiment.
(2-3) Third Embodiment FIG. 11 shows a configuration example of a distributed processing system according to this embodiment.
図11に示すように、本実施形態の分散処理システムは、図5に示した第1の実施形態と比較して、アラーム監視サーバ20を削除した点と、ログ収集サーバ30にアラーム受信部35を追加した点と、が異なる。
As shown in FIG. 11, the distributed processing system of this embodiment is different from the first embodiment shown in FIG. 5 in that the
第1の実施形態においては、運用者20Aがアラーム監視サーバ20を監視し、アラームを確認した場合にログ収集サーバ30にログ収集を手動で指示し、ログ収集サーバ30は、運用者20Aの指示をトリガーとしてログを収集していた。
In the first embodiment, when the
これに対して、本実施形態においては、各サーバ10からログ収集サーバ30に直接アラームを送信し、ログ収集サーバ30は、アラームの受信をトリガーとして、そのアラームに関連するログを自動で収集する。
On the other hand, in the present embodiment, an alarm is directly transmitted from each
以下に、本実施形態の分散処理システムの動作について説明する。 The operation of the distributed processing system of this embodiment will be described below.
図12に、本実施形態の分散処理システムにおいて、サーバ10−A1上で動作するプログラムPA1に障害が発生した時の動作例を説明するシーケンスチャートを示す。 FIG. 12 shows a sequence chart for explaining an operation example when a failure occurs in the program PA1 operating on the server 10-A1 in the distributed processing system of this embodiment.
図12に示すように、各プログラムPziは、ログLziをサーバ10に常時出力している(ステップD1)。 As shown in FIG. 12, each program Pzi always outputs the log Lzi to the server 10 (step D1).
ここで、サーバ10−A1上のプログラムPA1に障害が発生したとする(ステップD2)。 Here, it is assumed that a failure has occurred in the program PA1 on the server 10-A1 (step D2).
すると、サーバ10−A1のアラーム送信部11は、ログ収集サーバ30にアラームを送信する(ステップD3)。
Then, the
ログ収集サーバ30内では、アラーム受信部35は、アラームを受信すると、そのアラームに関連するログの収集をログ収集部31に指示する(ステップD4)。
In the
すると、ログ収集部31は、上述した図9または図10に示すフローに従って、サーバ10−A1と同じグループに属する全てのサーバ10からログを収集し、収集したログをログ格納部32に格納する(ステップD5)。
Then, the
解析者30Aは、ログLA1が収集され次第、解析を開始する(ステップD6)。
The
ここでは、ログ収集部31により、ログはLA1→LA2→LA3・・・→LAXの順序で収集される。そのため、障害の真の原因がPA1でなかった場合、解析者30Aは、LA2→LA3・・・の順序でログを解析する。
Here, the logs are collected by the
上述したように本実施形態によれば、各サーバ10からログ収集サーバ30に直接アラームを送信するため、運用者が手動で指示をすることなく、アラームに関連するログを自動で収集することができる。
As described above, according to the present embodiment, the alarm is directly transmitted from each
その他の効果は第1または第2の実施形態と同様である。 Other effects are the same as those of the first or second embodiment.
10 サービス提供サーバ
20 アラーム監視サーバ
21 アラーム受信部
22 アラーム表示部
30 ログ収集サーバ
31 ログ収集部
32 ログ格納部
33 ログ収集順序リスト
34 サーバリスト
35 アラーム受信部
DESCRIPTION OF
Claims (8)
前記ログ収集サーバは、
プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストと、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したプログラムについて前記第1のリストに表される順序に従って前記サービス提供サーバからログを収集するログ収集部と、を有する分散処理システム。 A distributed processing system comprising a plurality of service providing servers and a log collection server that collects logs from the service providing servers,
The log collection server
For each program, a first list that represents a sequence in which logs are collected when a failure occurs in the program, which is predetermined according to the dependency relationship between the programs;
A distributed processing system comprising: a log collecting unit that collects logs from the service providing server according to the order represented in the first list when a failure occurs in the program on the service providing server; .
グループ毎に、そのグループに属するサービス提供サーバを表す第2のリストを有し、
前記ログ収集部は、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したサービス提供サーバと同じグループに属する全てのサービス提供サーバからログを収集する、請求項1に記載の分散処理システム。 The log collection server
Each group has a second list representing service providing servers belonging to the group,
The log collecting unit
The distributed processing system according to claim 1, wherein when a failure occurs in a program on the service providing server, logs are collected from all service providing servers belonging to the same group as the service providing server in which the failure has occurred.
前記サービス提供サーバ上のプログラムに障害が発生した場合、最初に、障害が発生したサービス提供サーバからログを収集し、その後に、障害が発生したサービス提供サーバと同じグループに属する他のサービス提供サーバからログを収集する、請求項2に記載の分散処理システム。 The log collecting unit
When a failure occurs in the program on the service providing server, the log is first collected from the service providing server in which the failure has occurred, and then another service providing server belonging to the same group as the service providing server in which the failure has occurred. The distributed processing system according to claim 2, wherein logs are collected from the system.
自己のサービス提供サーバ上のプログラムに障害が発生したことを表すアラームを送信するアラーム送信部を有し、
前記分散処理システムは、
前記サービス提供サーバから前記アラームを受信し表示するアラーム監視サーバを有し、
前記ログ収集部は、
障害が発生したサービス提供サーバ上のプログラムに関連するログを収集する指示が入力されたことをトリガーとして、前記サービス提供サーバからログを収集する、請求項1から3のいずれか1項に記載の分散処理システム。 The service providing server includes:
An alarm transmission unit that transmits an alarm indicating that a failure has occurred in the program on the service providing server;
The distributed processing system includes:
An alarm monitoring server for receiving and displaying the alarm from the service providing server;
The log collecting unit
4. The log according to claim 1, wherein logs are collected from the service providing server triggered by an input of an instruction to collect a log related to a program on the service providing server in which a failure has occurred. Distributed processing system.
自己のサービス提供サーバ上のプログラムに障害が発生したことを表すアラームを送信するアラーム送信部を有し、
前記ログ収集サーバは、
前記サービス提供サーバから前記アラームを受信するアラーム受信部を有し、
前記ログ収集部は、
前記アラームを受信したことをトリガーとして、前記サービス提供サーバからログを収集する、請求項1から3のいずれか1項に記載の分散処理システム。 The service providing server includes:
An alarm transmission unit that transmits an alarm indicating that a failure has occurred in the program on the service providing server;
The log collection server
An alarm receiver for receiving the alarm from the service providing server;
The log collecting unit
4. The distributed processing system according to claim 1, wherein a log is collected from the service providing server, triggered by reception of the alarm. 5.
プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストと、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したプログラムについて前記第1のリストに表される順序に従って前記サービス提供サーバからログを収集するログ収集部と、を有するログ収集サーバ。 A log collection server that collects logs from a service providing server,
For each program, a first list that represents a sequence in which logs are collected when a failure occurs in the program, which is predetermined according to the dependency relationship between the programs;
A log collection server having a log collection unit that collects logs from the service provision server according to the order represented in the first list when a failure occurs in the program on the service provision server; .
プログラム毎に、プログラム間の依存関係に応じて予め決められた、そのプログラムに障害が発生した時にログを収集する順序を表す第1のリストを登録し、
前記サービス提供サーバ上のプログラムに障害が発生した場合、障害が発生したプログラムについて前記第1のリストに表される順序に従って前記サービス提供サーバからログを収集する、ログ収集方法。 A log collection method performed by a log collection server that collects logs from a service providing server,
For each program, register a first list representing a sequence in which logs are collected when a failure occurs in the program, which is determined in advance according to the dependency relationship between the programs,
A log collection method for collecting a log from the service providing server according to the order represented in the first list when a failure occurs in a program on the service providing server.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011136126A JP5566956B2 (en) | 2011-06-20 | 2011-06-20 | Distributed processing system, log collection server, log collection method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011136126A JP5566956B2 (en) | 2011-06-20 | 2011-06-20 | Distributed processing system, log collection server, log collection method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013003950A true JP2013003950A (en) | 2013-01-07 |
JP5566956B2 JP5566956B2 (en) | 2014-08-06 |
Family
ID=47672439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011136126A Expired - Fee Related JP5566956B2 (en) | 2011-06-20 | 2011-06-20 | Distributed processing system, log collection server, log collection method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5566956B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016194119A1 (en) * | 2015-06-01 | 2016-12-08 | 株式会社日立製作所 | Management system for managing computer system |
EP3176700A1 (en) | 2015-12-01 | 2017-06-07 | Fujitsu Limited | Information processing device and information processing method |
CN110569274A (en) * | 2019-08-02 | 2019-12-13 | 福建星网智慧软件有限公司 | Distributed real-time log analysis method and computer-readable storage medium |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010939A (en) * | 1998-06-25 | 2000-01-14 | Sony Corp | Information processing device and system and recording medium |
JP2003216594A (en) * | 2002-01-21 | 2003-07-31 | Hitachi Ltd | Fault data collecting method and execution system and processing program therefor |
JP2004164389A (en) * | 2002-11-14 | 2004-06-10 | Nec Fielding Ltd | Maintenance service system, method and program |
JP2005284520A (en) * | 2004-03-29 | 2005-10-13 | Nec Corp | Method, program, program recording medium, apparatus and system for log collection |
JP2008203942A (en) * | 2007-02-16 | 2008-09-04 | Nomura Research Institute Ltd | Log management device, log management method, program, and recording medium |
JP2009169610A (en) * | 2008-01-15 | 2009-07-30 | Fujitsu Ltd | Failure coping support program, failure coping support device, and failure coping support method |
JP2009266031A (en) * | 2008-04-25 | 2009-11-12 | Toshiba Corp | Computer system and computer |
WO2010001481A1 (en) * | 2008-07-04 | 2010-01-07 | 富士通株式会社 | Information collecting equipment, information collecting program and method |
-
2011
- 2011-06-20 JP JP2011136126A patent/JP5566956B2/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010939A (en) * | 1998-06-25 | 2000-01-14 | Sony Corp | Information processing device and system and recording medium |
JP2003216594A (en) * | 2002-01-21 | 2003-07-31 | Hitachi Ltd | Fault data collecting method and execution system and processing program therefor |
JP2004164389A (en) * | 2002-11-14 | 2004-06-10 | Nec Fielding Ltd | Maintenance service system, method and program |
JP2005284520A (en) * | 2004-03-29 | 2005-10-13 | Nec Corp | Method, program, program recording medium, apparatus and system for log collection |
JP2008203942A (en) * | 2007-02-16 | 2008-09-04 | Nomura Research Institute Ltd | Log management device, log management method, program, and recording medium |
JP2009169610A (en) * | 2008-01-15 | 2009-07-30 | Fujitsu Ltd | Failure coping support program, failure coping support device, and failure coping support method |
JP2009266031A (en) * | 2008-04-25 | 2009-11-12 | Toshiba Corp | Computer system and computer |
WO2010001481A1 (en) * | 2008-07-04 | 2010-01-07 | 富士通株式会社 | Information collecting equipment, information collecting program and method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016194119A1 (en) * | 2015-06-01 | 2016-12-08 | 株式会社日立製作所 | Management system for managing computer system |
JPWO2016194119A1 (en) * | 2015-06-01 | 2017-11-02 | 株式会社日立製作所 | Management system for managing computer systems |
US10503577B2 (en) | 2015-06-01 | 2019-12-10 | Hitachi, Ltd. | Management system for managing computer system |
EP3176700A1 (en) | 2015-12-01 | 2017-06-07 | Fujitsu Limited | Information processing device and information processing method |
US10339028B2 (en) | 2015-12-01 | 2019-07-02 | Fujitsu Limited | Log storage via application priority level |
CN110569274A (en) * | 2019-08-02 | 2019-12-13 | 福建星网智慧软件有限公司 | Distributed real-time log analysis method and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5566956B2 (en) | 2014-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4458493B2 (en) | Log notification condition definition support apparatus, log monitoring system, program, and log notification condition definition support method | |
JP2009199534A (en) | Operation management device, operation management system, information processing method, and operation management program | |
US10567557B2 (en) | Automatically adjusting timestamps from remote systems based on time zone differences | |
JP5446894B2 (en) | Network management support system, network management support device, network management support method and program | |
JP5331585B2 (en) | Fault tolerant computer system and method in fault tolerant computer system | |
CN102893261B (en) | The idle conversion method of sampling and system thereof | |
CN110928934A (en) | Data processing method and device for business analysis | |
JP5566956B2 (en) | Distributed processing system, log collection server, log collection method, program | |
KR101266930B1 (en) | A visualization system for Forensics audit data | |
US10915510B2 (en) | Method and apparatus of collecting and reporting database application incompatibilities | |
JP4504346B2 (en) | Trouble factor detection program, trouble factor detection method, and trouble factor detection device | |
CN111046007B (en) | Method, apparatus and computer program product for managing a storage system | |
US11630716B2 (en) | Error handling during asynchronous processing of sequential data blocks | |
JP2004348640A (en) | Method and system for managing network | |
JP2009098706A (en) | Device for supporting analysis of processing history, its system, and its program | |
CN111143304A (en) | Micro-service system abnormal log analysis method based on request link | |
CN108170561B (en) | Disaster recovery backup method, device and system | |
JP5444071B2 (en) | Fault information collection system, method and program | |
CN112685376A (en) | Massive log data analysis method and system | |
CN112214374A (en) | Log data processing method and device | |
CN112347068A (en) | Log analysis method and system based on ELK | |
JP5768964B2 (en) | Failure investigation support device, method and program | |
JP2015043181A (en) | Regression test supporting system | |
EP3349127A1 (en) | Category information generating device, category information generating method, search device, search method, and recording medium | |
JP2011118575A (en) | Failure countermeasure information acquisition method and management server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20130305 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5566956 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |