JP2021103409A - Log analysis device, log analysis system, log analysis method, and program for log analysis - Google Patents
Log analysis device, log analysis system, log analysis method, and program for log analysis Download PDFInfo
- Publication number
- JP2021103409A JP2021103409A JP2019234073A JP2019234073A JP2021103409A JP 2021103409 A JP2021103409 A JP 2021103409A JP 2019234073 A JP2019234073 A JP 2019234073A JP 2019234073 A JP2019234073 A JP 2019234073A JP 2021103409 A JP2021103409 A JP 2021103409A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- log
- timeout
- processing unit
- trail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、ログ解析装置、ログ解析システム、ログ解析方法、及び、ログ解析用のプログラムに関する。 The present invention relates to a log analysis device, a log analysis system, a log analysis method, and a program for log analysis.
メンテナンスや開発の容易性から、処理リクエストに対して、複数の処理ユニットや装置が協働してリクエストの処理を行うシステムが利用されることがある。このような処理システムにおいて、処理リクエストに対してタイムアウトによるエラーが生じた場合、エラーの特定が必要となる。特許文献1では、処理ユニットで発生したエラーを時系列的に列挙するとともに、エラーの要因を列挙して提示することが開示されている。 For ease of maintenance and development, a system in which a plurality of processing units and devices cooperate to process a processing request may be used. In such a processing system, when an error occurs due to a timeout for a processing request, it is necessary to identify the error. Patent Document 1 discloses that the errors generated in the processing unit are listed in chronological order and the causes of the errors are listed and presented.
ところで、複数のタイムアウトによるエラーが発生する際、それらのエラーには関連性があり、あるエラーが他のエラーの要因となることがある。エラーを時系列に列挙するとともに、エラーの要因を列挙するだけでは、システムの運用管理者はエラーに対する対処を効率的に行うことができない。 By the way, when errors due to a plurality of timeouts occur, those errors are related, and one error may cause another error. By simply listing the errors in chronological order and listing the causes of the errors, the system operation administrator cannot efficiently deal with the errors.
そこでこの発明は、システムにてエラーが生じた際に、そのエラーの有力な要因を特定して提示することのできるログ解析装置、ログ解析システム、ログ解析方法、及び、ログ解析用のプログラムを提供することを目的としている。 Therefore, the present invention provides a log analysis device, a log analysis system, a log analysis method, and a program for log analysis that can identify and present a promising cause of the error when an error occurs in the system. It is intended to be provided.
本発明の第1の態様によれば、ログ解析装置は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段を備える。 According to the first aspect of the present invention, the log analysis device is a trail log including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. Therefore, an analysis means for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using the trail log is provided.
本発明の第2の態様によれば、ログ解析システムは、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログを出力するログ出力手段を備える複数の処理ユニットからなる処理装置と、前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段を備えるログ解析装置とからなる。 According to the second aspect of the present invention, the log analysis system displays a trail log including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. An analysis means for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using a processing device including a plurality of processing units having a log output means for outputting and the trail log. It consists of a log analysis device equipped with.
本発明の第3の態様によれば、コンピュータによるログ解析方法は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する。 According to the third aspect of the present invention, the log analysis method by a computer is a trail including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. In the log, the trail log is used to estimate the probable cause of the timeout from the relationship between the processing unit and the request destination and the timeout type.
本発明の第4の態様によれば、コンピュータによるログ解析方法は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログを出力し、前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する特定する。 According to the fourth aspect of the present invention, the log analysis method by a computer is a trail including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. The log is output, and the trail log is used to identify the probable cause of the timeout from the relationship between the processing unit and the request destination and the timeout type.
本発明の第5の態様によれば、ログ解析装置用のプログラムは、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する。 According to the fifth aspect of the present invention, the program for the log analysis device includes information for specifying a processing unit that performs processing, a processing request destination from the processing unit, and a processing timeout type in the processing unit. It is a trail log, and a probable cause of timeout is estimated from the relationship between the processing unit and the request destination and the timeout type using the trail log.
本発明によれば、証跡ログを用いて処理ユニットとそのリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定するので、エラーの有力な要因を特定して提示することができる、という効果が得られる。 According to the present invention, since the probable cause of the timeout is estimated from the relationship between the processing unit and the request destination and the timeout type using the trail log, it is possible to identify and present the promising cause of the error. The effect is obtained.
以下、本発明の一実施形態によるログ解析システム、ログ解析装置を、図面を参照して説明する。図1は、複数の処理ユニットからなるシステム6の構成の一例を示す図である。 Hereinafter, a log analysis system and a log analysis device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a configuration of a system 6 composed of a plurality of processing units.
図1において、符号4はリクエストを発行するサービス要求端末を、符号5はリクエストを受けて処理結果を返却する外部サーバ(外部サービス)Dを示す。符号6は複数の処理ユニットA’、B’、C1’、C2’から構成され、これら処理ユニットが協働してサービス要求端末4からのリクエストの処理をするシステムを示す。また、システム6において、複数の処理ユニットにてタイムアウトの設定ができるものとする。図1を利用して、エラーがタイムアウトに関するもので、時系列の最初に発生したタイムアウトのエラーのうち、最初のエラーが直接の原因ではなく、後の時刻に記録されたエラーに原因がある可能性がある例について説明する。
In FIG. 1, reference numeral 4 indicates a service request terminal that issues a request, and
サービス要求端末4からのリクエストを処理ユニットA’が受けて、処理ユニットA’はリクエストの処理のため処理ユニットB’に処理を依頼する。処理ユニットB’は、以下の処理を実施し、その一連の内部処理タイムアウト時間を90秒に設定しているものとする。
・処理ユニットA’からのリクエストを処理
・処理ユニットC1’にリクエストを送信
・処理ユニットC1’からのレスポンスを処理し、処理ユニットC2’にリクエストを送信
・処理ユニットC2’からのレスポンスを処理し、処理ユニットA’にレスポンスを送信
The processing unit A'receives a request from the service request terminal 4, and the processing unit A'requests the processing unit B'to process the request. It is assumed that the processing unit B'performs the following processing and sets the series of internal processing timeout time to 90 seconds.
-Processing the request from processing unit A'-Sending the request to processing unit C1'-Processing the response from processing unit C1'and sending the request to processing unit C2'-Processing the response from processing unit C2' , Send response to processing unit A'
処理ユニットC2’は外部サーバDにリクエスト送信処理を行い、そのレスポンスの応答タイムアウト時間を60秒に設定しているものとする。 It is assumed that the processing unit C2'performs the request transmission processing to the external server D and sets the response timeout time of the response to 60 seconds.
この一連の処理において、処理ユニットA’から処理ユニットB’へのリクエストによる処理が時刻(0:00:15)(時:分:秒)に開始したとする。処理ユニットC1’で処理に35秒を要し正常終了し、その後に処理ユニットB’からのリクエストを受けた処理ユニットC2’が外部サーバDからの応答待ちで60秒が経過し、タイムアウトしたとする。この場合、処理ユニットC2’から外部サーバDへのリクエストの開始時刻は(0:00:50)となり、処理ユニットC2’におけるタイムアウト時刻は、(0:01:50)となる。一方、処理ユニットB’の処理の開始時刻は(0:00:15)で、内部処理タイムアウトは90秒に設定されているので、処理ユニットB’にタイムアウト時刻は(0:01:45)となる。 In this series of processing, it is assumed that the processing by the request from the processing unit A'to the processing unit B'starts at the time (0:00:15) (hour: minute: second). It took 35 seconds for processing in processing unit C1'and ended normally, and then 60 seconds passed while waiting for a response from external server D in processing unit C2'that received a request from processing unit B', and timed out. To do. In this case, the start time of the request from the processing unit C2'to the external server D is (0:00:50), and the timeout time in the processing unit C2'is (0:01:50). On the other hand, since the processing start time of the processing unit B'is (0:00:15) and the internal processing timeout is set to 90 seconds, the timeout time of the processing unit B'is (0:01:45). Become.
この際の、タイムアウトに伴うエラーログは図2のようになる。図2において、エラーログはエラーが発生した処理ユニットにおいて、エラー発生時に出力される。図2の例では、エラーログに記録される項目は、エラーの「発生時刻」、タイムアウトによるエラーのためログを出力した「処理ユニット」、タイムアウトが起こった「タイムアウト種別」、設定される「タイムアウト(秒)」、および、ステータスとなる「結果」である。 At this time, the error log due to the timeout is as shown in FIG. In FIG. 2, the error log is output when an error occurs in the processing unit in which the error has occurred. In the example of FIG. 2, the items recorded in the error log are the "occurrence time" of the error, the "processing unit" that output the log due to the error due to the timeout, the "timeout type" in which the timeout occurred, and the set "timeout". (Seconds) ”and the status“ result ”.
図2に示すように、時系列としては処理ユニットB’におけるタイムアウトによるエラーの発生時刻(0:01:45)が、実際にエラーの原因となった処理ユニットC2’におけるタイムアウトのログ(0:01:50)より先に記録される。このように、処理ユニットB’におけるタイムアウトのログが時系列的には先であるが、処理ユニットC2’におけるタイムアウトが発生した原因を調査した方が望ましい。 As shown in FIG. 2, as a time series, the time when the error occurred due to the timeout in the processing unit B'(0:01:45) is the time-out log (0 :) in the processing unit C2'that actually caused the error. It is recorded before 01:50). As described above, although the timeout log in the processing unit B'is ahead in time series, it is desirable to investigate the cause of the timeout in the processing unit C2'.
このように、複数箇所でタイムアウトによるエラーが発生した場合に、最初に発生した箇所が原因なのか、それ以外に原因があるのか、時系列の最初に登場したタイムアウトのエラーからだけでは判断できない。このため、ログで示されるエラーを一通り確認してどの箇所を優先的に調査すべきか判断する必要がある。そのため、運用管理者にとってエラーの原因を特定することが煩雑となる。 In this way, when an error occurs due to a timeout at multiple locations, it cannot be determined from the timeout error that appears first in the time series whether the cause is the first occurrence or other causes. Therefore, it is necessary to check all the errors shown in the log and decide which part should be investigated preferentially. Therefore, it is complicated for the operation manager to identify the cause of the error.
図3本発明の一実施形態によるログ解析システムの構成の概要を示す図である。図3において、符号1はログ解析装置を、符号2は処理装置を、符号3は処理ログDBを、符号4はサービス要求端末を、符号5は外部サーバ(外部サービス)を示す。
FIG. 3 is a diagram showing an outline of a configuration of a log analysis system according to an embodiment of the present invention. In FIG. 3, reference numeral 1 is a log analysis device,
ログ解析装置1は、処理ログDB3に蓄えられた証跡ログを解析して、有力なタイムアウトの原因を推定し、原因や対処法を提示する処理を行う。 The log analysis device 1 analyzes the trail log stored in the processing log DB 3, estimates the cause of a promising timeout, and performs a process of presenting the cause and the remedy.
処理装置2は、複数の処理ユニットA,B,C1,C2から構成され、これら複数の処理ユニットが協働してリクエストに対する処理を行う。なお、各処理ユニットA,B,C1,C2は、同一あるいは異なる処理を並列処理等で効率的に行うために設けられる。また、各処理ユニットA,B,C1,C2は、タイムアウトに起因するエラーが生じた際、エラーの解析のための証跡ログを出力する機能を備える。なお、図3に示す処理装置2は、処理ユニットA,B,C1,C2により構成されるように示されているが、これに限定されるものではない。
The
処理ログDB3は、処理ユニットA,B,C1,C2が出力した証跡ログを蓄積するデータベースである。処理ログDB3は、ログ解析装置1および処理装置2と通信可能に接続される。
The processing log DB3 is a database that stores trail logs output by the processing units A, B, C1 and C2. The processing log DB 3 is communicably connected to the log analysis device 1 and the
サービス要求端末4は、処理装置2と通信可能に接続され、処理装置2に対するサービスのリクエストをし、サービスを受ける端末である。
The service request terminal 4 is a terminal that is communicably connected to the
外部サーバ5は、処理装置2の外のサーバであって、サービス要求端末4からのリクエストを処理するために、処理装置2からのリクエストに応じてサービスを提供するサーバである。また、外部サーバ5は、処理装置2と通信可能に接続される。なお、図3では、外部サーバ5として、外部サーバDのみを示しているが、複数の外部サーバが処理装置2からのリクエストを受けてサービスを提供できるよう、通信可能に接続される構成であってもよい。
The
図3において、ログ解析装置1と処理装置2により、ログ解析システムが構成される。また、処理解析システムは、さらに、処理ログDB3を備えてもよい。
In FIG. 3, a log analysis system is configured by the log analysis device 1 and the
図4は、本発明の一実施形態によるログ解析システムの構成を示すブロック図である。図4に示すように処理装置2は、複数の処理ユニットから構成される。また、各処理ユニットは、送受信部21、処理部22、タイムアウト設定部23、ログ出力部24を備える。
FIG. 4 is a block diagram showing a configuration of a log analysis system according to an embodiment of the present invention. As shown in FIG. 4, the
送受信部21は、リクエスト、レスポンスデータを送受信する。処理部22は、処理ユニットに応じた処理を実施する。
The transmission /
タイムアウト設定部23は、タイムアウト時間を設定する。また、タイムアウト設定部23は、タイムアウトが発生した場合は送信元の処理ユニットにタイムアウトエラーのレスポンスを送信する。
The time-out
ログ出力部24は、タイムアウトによるエラーを監視し、エラーが生じた際、エラーに関連する情報を証跡ログとして所定の情報を記録する。証跡ログの一例を図5に示す。証跡ログは、「発生時刻」、「処理ユニット」、「送信元」、「送信先」、「タイムアウト種別」、「タイムアウト(秒)」、「結果」という情報を含む。また、各証跡ログは、証跡ログの紐付けとなる処理IDを含み、同一の処理IDを含む証跡ログがログ解析装置1により解析される。ここで、「処理時刻」は、タイムアウトのエラーが発生した時刻を、「処理ユニット」は証跡ログを出力した処理ユニットを特定する情報である。「送信元」はリクエストの依頼元となる装置を、「送信先」は送信先からリクエストを送信する先の装置を示す。「タイムアウト種別」および「タイムアウト(秒)」はタイムアウトの設定内容(種類、秒数)を示す。「結果」はステータスとなる処理状況を示す。なお、証跡ログは、上記項目のすべてを含まなくても良く、また、上記項目以外の情報を含んでもよい。
The
本実施の形態では、処理ユニットに設定可能なタイムアウトの種別として、「接続タイムアウト」、「応答タイムアウト」、「内部処理タイムアウト」の3つを定義する。それぞれのタイムアウトの内容は以下の通りである。 In the present embodiment, three types of timeouts that can be set in the processing unit are defined: "connection timeout", "response timeout", and "internal processing timeout". The contents of each timeout are as follows.
「接続タイムアウト」
他の処理ユニット、外部サーバ(外部サービス)、ユーザ端末等に接続し通信できるようになるまでのタイムアウト時間。
"Connection timeout"
Timeout time until it becomes possible to connect to another processing unit, external server (external service), user terminal, etc. and communicate.
「応答タイムアウト」
他の処理ユニット、外部サーバ(外部サービス)等にリクエストを送信してから、その応答を受信するまでのタイムアウト時間。
"Response timeout"
Timeout time from sending a request to another processing unit, external server (external service), etc. to receiving the response.
「内部処理タイムアウト」
ある処理ユニットが他の処理ユニットからリクエストを受け、そのレスポンスを返すまでのタイムアウト時間。
"Internal processing timeout"
The timeout period before one processing unit receives a request from another processing unit and returns the response.
なお、タイムアウトの種類は記載の3つに限定されるものではなく、他のタイムアウトを定義し、利用可能としてもよい。 The types of timeouts are not limited to the three described above, and other timeouts may be defined and made available.
ログ解析装置1は、取得部11、解析部12、結果出力部14により構成される。取得部11は、複数の処理ユニットから構成される処理装置2にて処理のタイムアウトが生じた際、処理ユニットにて出力された証跡ログを取得する。取得部11は、エラーが生じた処理を特定する処理IDを利用して、同一の処理IDを含み「結果」がエラーとなった証跡ログを取得する。取得部11は、証跡ログを処理ログDB3より取得するが、各処理ユニットから直接取得できる構成としてもよい。
The log analysis device 1 is composed of an
解析部12は、取得部11が取得した証跡ログを用いて、証跡ログに記録される処理ユニットとリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定する処理を行う。また、解析部12は提示部13を備える。提示部13は、解析部12にて推定されたエラーの原因に関する証跡ログを利用して、タイムアウトの原因に関するメッセージを生成する。
Using the trail log acquired by the
解析部12は、タイムアウトが処理装置2外の装置との関係で生じている場合、処理装置2外の装置との関係で生じているタイムアウトに起因する事象を有力なタイムアウトの原因として優先度を高くする解析処理を行う。
一方、解析部12は、タイムアウトが処理装置2を構成する処理ユニットにて、または、処理ユニットの間の関係で生じている場合のタイムアウトに起因する事象の優先度を、タイムアウトが処理ユニット外の装置との関係で生じている場合の優先度に比べ低くする解析処理を行う。
When the timeout occurs in relation to the device outside the
On the other hand, the
結果出力部14は、提示部13にて生成されたタイムアウトの原因や原因に対する対処等のメッセージを出力する。出力は、表示装置への出力であっても、運用管理者へのメール等による通知であってもよい。
The
図6は本発明の一実施形態によるログ解析装置1、処理装置2のハードウェア構成を示す図である。ログ解析装置1、処理装置2は、CPU(Central Processing Unit)61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、SSD(Solid State Drive)64、通信モジュール65を備える。
CPU61は、ROM62またはSSD64等の記録媒体に記憶されるプログラムを実行することで、ログ解析装置1や処理装置2の各機能を実現する。
SSD64は、ログ解析装置1や処理装置2の機能を実現するため必要となるデータ等も記憶する。なお、SSD64は、他の不揮発性の記憶装置、例えば、HDD(Hard Disk Drive)であってもよく、いくつかの異なる種類の不揮発性の記憶装置により構成させてもよい。通信モジュール65は、ネットワーク接続のため、あるいは、処理ユニット間の接続に用いられる。また、ログ解析装置1や処理装置2は、必要に応じて入出力装置66を備えてもよい。入出力装置66は、キーボード、マウス、タッチパネル、表示装置等の機器のいずれかあるいは全てである。
FIG. 6 is a diagram showing a hardware configuration of a log analysis device 1 and a
The
The
なお、処理装置2を構成する処理モジュールは、処理装置2を構成するハードウェアおよびソフトウェアを用いて仮想的に構成されてもよく、また、一部ハードウェアまたはすべてのハードウェアを複数備え物理的に構成されてもよい。
The processing module constituting the
図7は、本発明の一実施形態による処理装置2を構成する処理ユニットのエラーに関連する動作の一例を示す図である。以下、図7を用いて処理ユニットの動作の一例を説明する。なお、各処理ユニットには、タイムアウト設定部23によりタイムアウトの種類に対するタイムアウト時間が予め設定されているものとする。また、図7に示すフローは、送受信部21によりリクエストの受信、処理部22によるリクエストの処理、リクエストを処理するために、必要に応じて別の処理ユニット、外部装置へのリクエストの送信等が行われる過程での動作の一例を示している。
FIG. 7 is a diagram showing an example of an operation related to an error of the processing unit constituting the
ログ出力部24は、自己の処理ユニットでの内部処理におけるタイムアウト、他の処理ユニット、外部装置との間で生じる接続タイムアウト、応答タイムアウトによるエラーが発生していないか監視をする(ステップS71)。エラーが発生しない場合(ステップS71:NO)、ログ出力部24は、継続してエラーの有無の監視を続ける。
The
エラーが発生した場合(ステップS71:YES)、ログ出力部24は、図5に示すような証跡データを出力する。なお、証跡データの出力は、処理ログDB3に対しての出力でも、処理ユニット内部への出力でもよい。なお、証跡データの出力が処理ユニット内部への出力の場合、ログ出力部24は、所定のタイミングで蓄積した証跡ログを処理ログDB3に出力する、あるいは、ログ解析装置1の要請に応じて証跡ログをログ解析装置1に提供するようにしてもよい。なお、エラーが発生した場合、タイムアウト設定部23は、送信元の処理ユニットにタイムアウトエラーのレスポンスを送信する。
When an error occurs (step S71: YES), the
以上のようにして、処理ユニットはエラーに関連する動作を行う。 As described above, the processing unit performs the operation related to the error.
図8は、本発明の一実施形態によるログ解析装置1の動作の一例を示す図である。以下、図8を用いてログ解析装置1の動作の一例を説明する。 FIG. 8 is a diagram showing an example of the operation of the log analysis device 1 according to the embodiment of the present invention. Hereinafter, an example of the operation of the log analysis device 1 will be described with reference to FIG.
ログ解析装置1の取得部11は、処理装置2にて処理のタイムアウトによるエラーが生じた際、処理ユニットにて出力された証跡ログを取得する(ステップS81)。なお、取得部11は、証跡ログを処理ログDB3より取得するが、各処理ユニットから直接取得するようにしてもよい。また、取得部11は、ログの解析対象となるリクエストに割り当てられた処理IDを利用して、解析対象となるリクエストの処理IDに関する証跡ログを取得する。
The
解析部12は、取得部11が取得した証跡ログを用いて、証跡ログに記録される処理ユニットとリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定する処理を行う(ステップS82)。また、解析部12を構成する提示部13はステップS82において、解析部12にて推定されたエラーの原因に関する証跡ログを利用して、タイムアウトの原因等に関するメッセージを生成する。解析部12による証跡ログの解析処理の詳細は、図9、図10を利用して説明する。
Using the trail log acquired by the
結果出力部14は、提示部13にて生成されたタイムアウトの原因や原因に対する対処等のメッセージを出力する。出力は、運用管理者に提示できる方法であればいずれであってもよい。出力の一例としては、表示装置への出力、運用管理者へのメール等による通知であってもよい。また、結果出力部14は、生成されたメッセージと共に抽出された証跡ログを合わせて出力するようにしてもよい。
The
次に、図9、図10を用いて、ログ解析装置1の解析部12の動作について説明する。図9は、本発明の一実施形態によるログ解析装置の証跡ログの解析における条件を示す図である。まず、図9を用いて本発明の一実施形態によるログ解析装置の証跡ログの解析における解析条件について説明する。図9では、確認箇所としての優先度の高い順に、条件1から条件5を解析条件としている。
Next, the operation of the
解析部12は、証跡ログの解析において、図9に示す条件を満たすかを優先度の高い条件順に判断し、条件を満たす場合、解析部12の提示部13は、満たした条件おけるメッセージを生成する。
In the analysis of the trail log, the
最も優先度の高い条件1では、解析部12は、証跡ログの項目「送信先」が処理装置2外の装置であり、かつ、タイムアウトの種類が「接続タイムアウト」である証跡ログをすべて抽出する。抽出された証跡ログに対して、提示部13は、「処理ユニットXにて、接続先Yに接続できなかった」旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名を、「Y」は抽出された証跡ログの項目「送信先」の装置名とする。なお、結果出力部14は、証跡ログを用いて生成されたメッセージを提示する処理を行う。また、複数の証跡ログが条件1を満たす場合、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージのすべてを提示する処理を行う。
Under the highest priority condition 1, the
2番目に優先度の高い条件2では、解析部12は、証跡ログの項目「送信先」が処理装置2外の装置であり、かつ、タイムアウトの種類が「応答タイムアウト」である証跡ログをすべて抽出する。抽出された証跡ログに対して、提示部13は、「処理ユニットXにて、接続先Yからの応答がないため処理に失敗」との旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名を、「Y」は抽出された証跡ログの項目「送信先」の装置名とする。なお、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。また、複数の証跡ログが条件2を満たす場合、結果出力部14は、証跡ログに対する生成されたメッセージのすべてを提示する処理を行う。
Under the second
3番目に優先度の高い条件3では、解析部12は、証跡ログの項目「送信先」が処理装置2内の処理ユニットであり、かつ、タイムアウトの種類が「接続タイムアウト」である証跡ログを抽出する。解析部12は、条件3を満たす証跡ログが複数ある場合、抽出された証跡ログにおける「発生時刻」が最も早い証跡ログを抽出する。抽出された証跡ログに対して、提示部13は、「処理ユニットXにて、処理ユニットYからの応答がないため処理に失敗」との旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名を、「Y」は抽出された証跡ログの項目「送信先」の処理ユニット名とする。なお、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。
Under the third highest priority condition 3, the
4番目に優先度の高い条件4では、解析部12は、タイムアウトの種類が「内部処理タイムアウト」である証跡ログを検出する。解析部12は、条件4を満たす証跡ログが検出された場合、抽出された証跡ログの「処理ユニット」より先で解析対象となるリクエストのための処理がなされているか、なされている場合に先の処理で条件1から3が発生していないか確認する。先の処理がない、あるいは、先の処理があるものの条件1から3が発生していない場合に、解析部12は対象の証跡ログを抽出する。このようにして抽出された証跡ログが複数ある場合、解析部12は「発生時刻」が最も早い証跡ログを抽出する。抽出された証跡ログに対して、提示部13は、「エラーはないが内部処理に時間がかかっており、処理ユニットXの処理を見直すか、内部処理タイムアウト時間を拡張」との旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名とする。なお、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。
Under the fourth highest priority condition 4, the
5番目に優先度の高い条件5では、解析部12は、証跡ログの項目「送信先」が処理装置2内の処理ユニットであり、かつ、タイムアウトの種類が「応答タイムアウト」である証跡ログを検出する。解析部12は、条件5を満たす証跡ログが検出された場合、抽出された証跡ログの「処理ユニット」より先で解析対象となるリクエストのための処理がなされているか、なされている場合に先の処理で条件1から3が発生していないか確認する。先の処理がない、あるいは、先の処理があるものの条件1から3が発生していない場合に、解析部12は対象の証跡ログを抽出する。このようにして抽出された証跡ログが複数ある場合、解析部12は「発生時刻」が最も早い証跡ログを抽出する。抽出された証跡ログに対して、提示部13は、「後続の処理ユニットの処理を見直すか、内部処理タイムアウト時間を拡張」との旨のメッセージを生成する。なお、結果出力部14は抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。
Under the fifth
以上のように原因を特定する際の優先順位は、処理ユニットとこの処理ユニットからのリクエスト先の関連性として、送信先が「処理装置の外の装置」の方が「内部処理ユニット」より優先となる。また、送信先が同じ場合には、タイムアウト種別「接続タイムアウト」が「応答タイムアウト」より優先となる。送信先が「内部処理ユニット」あるいはタイムアウト種別が「内部処理タイムアウト」との関係では、優先順位は、タイムアウト種別が「接続タイムアウト」、「内部処理タイムアウト」、「応答タイムアウト」となる。 As described above, as for the priority when identifying the cause, as the relationship between the processing unit and the request destination from this processing unit, the destination "device outside the processing device" has priority over the "internal processing unit". It becomes. If the destinations are the same, the timeout type "connection timeout" has priority over "response timeout". When the destination is "internal processing unit" or the timeout type is "internal processing timeout", the priority order is "connection timeout", "internal processing timeout", and "response timeout".
さらに、送信先が「処理装置の外の装置」の場合、すべての証跡ログが抽出、原因の提示の対象となる。一方、送信先が「内部処理ユニット」の場合、あるいは、タイムアウト種別が「内部処理タイムアウト」の場合、所定の条件を満たす最も早い時刻のエラーを記録する証跡ログが抽出、原因の提示の対象となる。 Furthermore, when the destination is "a device outside the processing device", all trail logs are extracted and the cause is presented. On the other hand, when the destination is "internal processing unit" or the timeout type is "internal processing timeout", the trail log that records the error at the earliest time that satisfies the predetermined condition is extracted and the cause is presented. Become.
図10は、本発明の一実施形態によるログ解析装置1の解析部12による証跡ログの解析に関する動作(ステップS82)を示す図である。ここで、図9に示すテーブルは、解析のための条件テーブルとして、ログ解析装置1に記憶されているものとする。
FIG. 10 is a diagram showing an operation (step S82) related to the analysis of the trail log by the
解析部12は、優先順位の最も高い条件である「条件1」を用いた解析を開始するためにフラグ“i”に“1”を設定する(ステップS91)。
The
解析部12は、フラグに設定された条件“i”における条件をテーブルより取得するとともに、ステップS81で得た証跡ログに対して、取得した条件を満たす証跡ログがあるか解析するとともに、条件を満たす場合、その証跡ログを抽出する(ステップS92)。なお、解析の条件は、図9に示すように、「送信先」、「タイムアウト種別」、「他条件」のすべて、あるいは一部により構成される。
The
条件“i”を満たす証跡ログがある場合(ステップS92:YES)、提示部13は抽出された証跡ログを利用して、原因等を提示するためのメッセージの生成を行う。メッセージの生成のため、提示部13は、図9に示すテーブルの条件“i”に示す「メッセージ」のフォームを取得する。また、提示部13は、ステップS92で抽出された証跡ログの情報、取得した「メッセージ」のフォームを利用して、メッセージを生成する。
When there is a trail log satisfying the condition "i" (step S92: YES), the presenting
一方、 条件“i”を満たす証跡ログがない場合(ステップS92:NO)、解析部12は、すべての条件の確認を完了したか判断する(ステップS94)。図9に示すテーブルの場合、解析部12は、フラグ“i”が“5”となっている場合、すべての条件の確認を完了したと判断する。
On the other hand, when there is no trail log satisfying the condition "i" (step S92: NO), the
すべての条件の確認を完了した場合(ステップS94:YES)、提示部13は、「エラーの解析ができなかった」旨のメッセージを生成する(ステップS96)。
When the confirmation of all the conditions is completed (step S94: YES), the
一方、 すべての条件の確認が終了していない場合(ステップS94:NO)、次の優先順位の条件を満たす証跡ログがあるかを確認するために、解析部12は、フラグ“i”を1つインクリメントする(ステップS95)。そして、解析部12は、次の優先度の条件を満たす証跡ログがあるかの解析を行う(ステップS92)。
On the other hand, when the confirmation of all the conditions is not completed (step S94: NO), the
以上のようにして、解析部12は、取得部11により取得された証跡ログの解析を行う。
As described above, the
例えば、図5が取得部11により取得された処理ID“0001”に関する証跡ログとする。この場合、証跡ログ51は条件4を満たし、証跡ログ52は条件2を満たす。そのため、解析部12は、優先順位の高い条件2を満たす証跡ログ52を抽出する。また、提示部13は、証跡ログ52を用いてメッセージ「処理ユニットC2にて、接続先Dからの応答がないため処理に失敗」とのメッセージを生成する。そして、結果出力部14は、提示部13が生成したメッセージを出力する。
For example, FIG. 5 is a trail log related to the processing ID “0001” acquired by the
なお、図9に示すメッセージは一例であり、これに限定されるものではない。例えば、上述の例では、「処理ユニットC2にて、接続先Dからの応答がないため処理に失敗」とのメッセージの代わりに、抽出された証跡ログを利用して「処理ユニットC2にて外部サーバ(外部サービス)Dの応答が60秒以内に返らなかったことによりリクエストが失敗した可能性がります。外部サーバ(外部サービス)Dの処理ログを確認してください。」のように、運用管理者にとってより分かりやすいメッセージとしてもよい。 The message shown in FIG. 9 is an example, and the present invention is not limited to this. For example, in the above example, instead of the message "Processing failed because there is no response from the connection destination D in processing unit C2", the extracted trail log is used to "externally in processing unit C2". The request may have failed because the response of the server (external service) D was not returned within 60 seconds. Please check the processing log of the external server (external service) D. " It may be a message that is easier for people to understand.
図5の証跡ログの例では、分かりやすいように、処理ユニットBおよび処理ユニットC2で、所定のタイムアウトの条件が設定される場合における例を示している。実際には、他の処理ユニットにおいても所定のタイムアウトの条件が設定され、それにより、処理ユニットC2におけるタイムアウトによるエラーに起因して、他の処理ユニット、例えば、処理ユニットAにおいても、エラーによる証跡ログが出力され得る。 In the example of the trail log of FIG. 5, for the sake of clarity, an example is shown in the case where a predetermined timeout condition is set in the processing unit B and the processing unit C2. In reality, a predetermined timeout condition is set also in the other processing unit, and as a result, due to the error caused by the timeout in the processing unit C2, the trail due to the error is also set in the other processing unit, for example, the processing unit A. Logs can be output.
以上のように、複数箇所でタイムアウトによるエラーが発生した場合、何の種別のタイムアウトがどこで発生したか、送信先はどこか(他の処理ユニットか、外部サーバや外部サービスか)の情報から、最も有力と考えられる原因を提示することが可能となる。 As described above, when an error occurs due to a timeout in multiple places, from the information of what type of timeout occurred where and where the destination is (other processing unit, external server or external service), It is possible to present the most probable cause.
具体的には、外部サーバ(外部サービス)等、処理装置2外の他システムに対して接続タイムアウトや応答タイムアウトが発生していた場合、他システムのサービスダウンやビジーが有力な原因と推定し、他システム側を調査するように提示する。処理装置2内の処理ユニット間や処理ユニット内部でタイムアウトが発生した場合は提示の優先度は前述よりも低く、処理内容やタイムアウト値の設定誤りが有力な原因と推定し、処理内容やタイムアウト値の見直しを提示する。
また、タイムアウト起因のエラーが複数発生した場合に、タイムアウトの種類と送信先の種類の情報から、どの箇所のエラーを優先して確認すれば良いかを提示する事で、運用管理者の負荷を削減する事ができる。
Specifically, if a connection timeout or response timeout occurs for another system other than the
In addition, when multiple errors due to timeout occur, the load on the operation administrator can be reduced by presenting which part of the error should be prioritized and confirmed from the information on the type of timeout and the type of destination. It can be reduced.
処理ユニットは、上記で説明した処理装置2、ログ解析装置1の機能を搭載するものであれば形態は何であってもよい。例えば、通信基盤アプリケーションとして処理ユニットの全ての処理が一つのサーバ上で実行される形態や、個別のWebアプリケーションとして別々の処理ユニットが複数のサーバ上で動作する形態であってもよい。
The processing unit may be in any form as long as it is equipped with the functions of the
また、上記で説明した原因と対処を運用管理者に提示する機能は、エンタープライズサービスバス領域、マイクロサービス領域、ハイブリッドクラウド領域等の疎結合で動作するサービスを管理する運用管理製品への適用も可能である。 In addition, the function that presents the causes and countermeasures explained above to the operation manager can also be applied to operation management products that manage services that operate in loose coupling such as the enterprise service bus area, microservice area, and hybrid cloud area. Is.
また、本実施の形態では、処理装置2とログ解析装置1を別の装置として説明しているが、これら2つの装置の機能を1つの装置に収めるようにしてもよい。
Further, in the present embodiment, the
図10に示すログ解析装置1の解析処理では、優先度の高い条件を満たす解析ログがある場合、その解析ログを用いた原因や対策の提示をする処理をし、処理を終了している。これに限定されるものではなく、各条件を満たす証跡ログをすべて抽出し、優先度の高い順で、原因や対策の提示をするようにしてもよい。また、この際、優先度に関する情報も加えて、提示をするようにしてもよい。 In the analysis process of the log analysis device 1 shown in FIG. 10, when there is an analysis log satisfying a high priority condition, a process of presenting a cause and a countermeasure using the analysis log is performed, and the process is completed. Not limited to this, all trail logs satisfying each condition may be extracted, and causes and countermeasures may be presented in descending order of priority. At this time, the information on the priority may be added and presented.
図11は、本発明の一実施形態によるログ解析装置1の最小構成図を示す図である。ログ解析装置1は、解析部12を備える。
解析部12は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて、処理ユニットとリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定する処理を行う。
FIG. 11 is a diagram showing a minimum configuration diagram of the log analysis device 1 according to the embodiment of the present invention. The log analysis device 1 includes an
The
上述の処理装置2、ログ解析装置1は内部に、コンピュータシステムを有している。そして、上述した証跡ログの出力、証跡ログの解析の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
The
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the above program may be for realizing a part of the above-mentioned functions. Further, a so-called difference file (difference program) may be used, which can realize the above-mentioned functions in combination with a program already recorded in the computer system.
1・・・ログ解析装置
2・・・処理装置
3・・・処理ログDB
4・・・サービス要求端末
5・・・外部サーバ
11・・・取得部
12・・・解析部
13・・・提示部
14・・・結果出力部
21・・・送受信部
22・・・処理部
23・・・タイムアウト設定部
24・・・ログ出力部
1 ...
4 ...
Claims (9)
を備えるログ解析装置。 A trail log containing information that specifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and the processing unit and the request destination using the trail log. A log analysis device provided with an analysis means for estimating a probable cause of a timeout from the relevance of the above and the timeout type.
前記推定された原因に関する証跡ログを利用して、タイムアウトの原因に関するメッセージを生成する提示手段
をさらに備える請求項1に記載のログ解析装置。 The analysis means
The log analysis device according to claim 1, further comprising a presenting means for generating a message regarding the cause of the timeout by using the trail log regarding the probable cause.
を備え、
前記解析手段は、
前記取得手段により取得された前記複数の処理ユニットからの証跡ログを用いて、前記有力なタイムアウトの原因を特定する
請求項1または請求項2のいずれかに記載のログ解析装置。 It is provided with an acquisition means for acquiring the trail log output by the plurality of processing units when a processing timeout occurs in a processing device composed of a plurality of processing units.
The analysis means
The log analysis device according to claim 1 or 2, wherein the trail logs from the plurality of processing units acquired by the acquisition means are used to identify the cause of the promising timeout.
前記証跡ログにおいて、タイムアウトが前記処理ユニットを構成する装置外の装置との関係で生じている場合、該処理ユニットを構成する装置外の装置との関係で生じているタイムアウトに起因する事象を前記有力なタイムアウトの原因として優先度を高くする
請求項1から請求項3のいずれか一項に記載のログ解析装置。 The analysis means
In the trail log, when the timeout occurs in relation to the device outside the device constituting the processing unit, the event caused by the timeout occurring in relation to the device outside the device constituting the processing unit is described. The log analysis apparatus according to any one of claims 1 to 3, which raises the priority as a leading cause of a timeout.
前記証跡ログにおいて、タイムアウトが前記処理ユニット、または、前記処理ユニットの間の関係で生じている場合のタイムアウトに起因する事象の優先度を、タイムアウトが前記処理ユニットを構成する装置外の装置との関係で生じている場合の優先度に比べ低くする
請求項4に記載のログ解析装置。 The analysis means
In the trail log, the priority of the event caused by the timeout when the timeout occurs in the processing unit or the relationship between the processing units is set with the device outside the device in which the timeout constitutes the processing unit. The log analysis apparatus according to claim 4, wherein the priority is lower than the priority when the relationship occurs.
前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段を備えるログ解析装置と
からなるログ解析システム。 A processing device consisting of a processing unit including a processing unit that performs processing, a processing request destination from the processing unit, and a log output means for outputting a trail log including information that specifies a processing timeout type in the processing unit. ,
A log analysis system including a log analysis device including an analysis means for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using the trail log.
コンピュータによるログ解析方法。 A trail log containing information that specifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and the processing unit and the request destination using the trail log. A computer-based log analysis method that estimates the cause of a promising timeout from the relevance of the above and the timeout type.
前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する特定する
コンピュータによるログ解析方法。 Outputs a trail log containing information that specifies the processing unit that performs processing, the processing request destination from the processing unit, and the processing timeout type in the processing unit.
A computer-based log analysis method for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using the trail log.
ログ解析装置用のプログラム。 A trail log containing information that specifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and the processing unit and the request destination using the trail log. A program for a log analysis device that estimates the cause of a promising timeout from the relevance of the above and the timeout type.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019234073A JP2021103409A (en) | 2019-12-25 | 2019-12-25 | Log analysis device, log analysis system, log analysis method, and program for log analysis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019234073A JP2021103409A (en) | 2019-12-25 | 2019-12-25 | Log analysis device, log analysis system, log analysis method, and program for log analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021103409A true JP2021103409A (en) | 2021-07-15 |
Family
ID=76755182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019234073A Pending JP2021103409A (en) | 2019-12-25 | 2019-12-25 | Log analysis device, log analysis system, log analysis method, and program for log analysis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021103409A (en) |
-
2019
- 2019-12-25 JP JP2019234073A patent/JP2021103409A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9122520B2 (en) | Generic wait service: pausing a BPEL process | |
CN108520454A (en) | Method and system for calling back orders in real time | |
EP2779583B1 (en) | Telecommunication method and system | |
US8683587B2 (en) | Non-intrusive monitoring of services in a services-oriented architecture | |
US20160224400A1 (en) | Automatic root cause analysis for distributed business transaction | |
JP2011076371A (en) | Job processing system, and method and program for the same | |
US20130097578A1 (en) | Dynamically selecting service provider, computing system, computer, and program | |
US8914517B1 (en) | Method and system for predictive load balancing | |
CN112445860B (en) | Method and device for processing distributed transaction | |
US20150332280A1 (en) | Compliant auditing architecture | |
JPWO2008105099A1 (en) | Application cooperation control program, application cooperation control method, and application cooperation control apparatus | |
JP2021103409A (en) | Log analysis device, log analysis system, log analysis method, and program for log analysis | |
US11811894B2 (en) | Reduction of data transmissions based on end-user context | |
CN113535439B (en) | Service request processing method, device, equipment and storage medium | |
US10430582B2 (en) | Management apparatus and management method | |
WO2018200167A1 (en) | Managing asynchronous analytics operation based on communication exchange | |
CN111061576B (en) | Method and system for creating entity object | |
CN115170152A (en) | Data distribution method, device, equipment and storage medium | |
JP2012022641A (en) | Information analysis apparatus for analyzing system stability, information analysis method, information analysis system and program | |
US8352553B2 (en) | Electronic mail connector | |
CN111414269A (en) | Log alarm method, device, storage medium and equipment | |
CN113590425B (en) | Data processing method, apparatus, device, medium, and program product | |
US20240202023A1 (en) | Report reexecution framework | |
US20240297860A1 (en) | Technique for communicating electronic messages | |
CN112181763B (en) | Intelligent detection alarm method and device in intelligent scheduling |