JP2021103409A - Log analysis device, log analysis system, log analysis method, and program for log analysis - Google Patents

Log analysis device, log analysis system, log analysis method, and program for log analysis Download PDF

Info

Publication number
JP2021103409A
JP2021103409A JP2019234073A JP2019234073A JP2021103409A JP 2021103409 A JP2021103409 A JP 2021103409A JP 2019234073 A JP2019234073 A JP 2019234073A JP 2019234073 A JP2019234073 A JP 2019234073A JP 2021103409 A JP2021103409 A JP 2021103409A
Authority
JP
Japan
Prior art keywords
processing
log
timeout
processing unit
trail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019234073A
Other languages
Japanese (ja)
Inventor
貴光 石井
Takamitsu Ishii
貴光 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019234073A priority Critical patent/JP2021103409A/en
Publication of JP2021103409A publication Critical patent/JP2021103409A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

To provide a log analysis device that identifies and presents, when an error occurs in a system, a leading factor of the error.SOLUTION: In a log analysis system, a log analysis device 1 includes an acquisition unit 11, an analysis unit 12, and a result output unit 14. When a processing timeout occurs in a processing device 2 composed of a plurality of processing units, the acquisition unit acquires trail logs output by the processing units and stored in a processing log DB 3. The acquisition unit acquires trail logs which include the same processing ID and whose "results" have been an error, by using the processing ID that identifies the processing in which the error has occurred. Using the trail logs acquired by the acquisition unit, the analysis unit performs processing for estimating a leading cause of the timeout based on a relevance between the processing unit and a request destination recorded in the trail logs, and a timeout type. A presenting unit uses the trail logs regarding the cause of the error estimated by the analysis unit to generate a message regarding the cause of the timeout.SELECTED DRAWING: Figure 4

Description

本発明は、ログ解析装置、ログ解析システム、ログ解析方法、及び、ログ解析用のプログラムに関する。 The present invention relates to a log analysis device, a log analysis system, a log analysis method, and a program for log analysis.

メンテナンスや開発の容易性から、処理リクエストに対して、複数の処理ユニットや装置が協働してリクエストの処理を行うシステムが利用されることがある。このような処理システムにおいて、処理リクエストに対してタイムアウトによるエラーが生じた場合、エラーの特定が必要となる。特許文献1では、処理ユニットで発生したエラーを時系列的に列挙するとともに、エラーの要因を列挙して提示することが開示されている。 For ease of maintenance and development, a system in which a plurality of processing units and devices cooperate to process a processing request may be used. In such a processing system, when an error occurs due to a timeout for a processing request, it is necessary to identify the error. Patent Document 1 discloses that the errors generated in the processing unit are listed in chronological order and the causes of the errors are listed and presented.

特開2015−001758号公報JP 2015-001758

ところで、複数のタイムアウトによるエラーが発生する際、それらのエラーには関連性があり、あるエラーが他のエラーの要因となることがある。エラーを時系列に列挙するとともに、エラーの要因を列挙するだけでは、システムの運用管理者はエラーに対する対処を効率的に行うことができない。 By the way, when errors due to a plurality of timeouts occur, those errors are related, and one error may cause another error. By simply listing the errors in chronological order and listing the causes of the errors, the system operation administrator cannot efficiently deal with the errors.

そこでこの発明は、システムにてエラーが生じた際に、そのエラーの有力な要因を特定して提示することのできるログ解析装置、ログ解析システム、ログ解析方法、及び、ログ解析用のプログラムを提供することを目的としている。 Therefore, the present invention provides a log analysis device, a log analysis system, a log analysis method, and a program for log analysis that can identify and present a promising cause of the error when an error occurs in the system. It is intended to be provided.

本発明の第1の態様によれば、ログ解析装置は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段を備える。 According to the first aspect of the present invention, the log analysis device is a trail log including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. Therefore, an analysis means for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using the trail log is provided.

本発明の第2の態様によれば、ログ解析システムは、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログを出力するログ出力手段を備える複数の処理ユニットからなる処理装置と、前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段を備えるログ解析装置とからなる。 According to the second aspect of the present invention, the log analysis system displays a trail log including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. An analysis means for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using a processing device including a plurality of processing units having a log output means for outputting and the trail log. It consists of a log analysis device equipped with.

本発明の第3の態様によれば、コンピュータによるログ解析方法は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する。 According to the third aspect of the present invention, the log analysis method by a computer is a trail including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. In the log, the trail log is used to estimate the probable cause of the timeout from the relationship between the processing unit and the request destination and the timeout type.

本発明の第4の態様によれば、コンピュータによるログ解析方法は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログを出力し、前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する特定する。 According to the fourth aspect of the present invention, the log analysis method by a computer is a trail including information that identifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit. The log is output, and the trail log is used to identify the probable cause of the timeout from the relationship between the processing unit and the request destination and the timeout type.

本発明の第5の態様によれば、ログ解析装置用のプログラムは、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する。 According to the fifth aspect of the present invention, the program for the log analysis device includes information for specifying a processing unit that performs processing, a processing request destination from the processing unit, and a processing timeout type in the processing unit. It is a trail log, and a probable cause of timeout is estimated from the relationship between the processing unit and the request destination and the timeout type using the trail log.

本発明によれば、証跡ログを用いて処理ユニットとそのリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定するので、エラーの有力な要因を特定して提示することができる、という効果が得られる。 According to the present invention, since the probable cause of the timeout is estimated from the relationship between the processing unit and the request destination and the timeout type using the trail log, it is possible to identify and present the promising cause of the error. The effect is obtained.

タイムアウトによるエラーが生じた際の一例を示す図である。It is a figure which shows an example when an error occurs due to a timeout. 処理ユニットで出力される証跡ログの一例を示す図である。It is a figure which shows an example of the trail log output by a processing unit. 本発明の一実施形態によるログ解析システムの構成の概要を示す図である。It is a figure which shows the outline of the structure of the log analysis system by one Embodiment of this invention. 本発明の一実施形態によるログ解析システムの構成を示すブロック図である。It is a block diagram which shows the structure of the log analysis system by one Embodiment of this invention. 本発明の一実施形態による処理ユニットにより出力される証跡ログの一例を示す図である。It is a figure which shows an example of the trail log output by the processing unit by one Embodiment of this invention. 本発明の一実施形態による処理装置、ログ解析装置のハードウェア構成を示す図である。It is a figure which shows the hardware configuration of the processing apparatus and log analysis apparatus by one Embodiment of this invention. 本発明の一実施形態による処理ユニットのエラー処理に関する動作を示す図である。It is a figure which shows the operation about the error processing of the processing unit by one Embodiment of this invention. 本発明の一実施形態によるログ解析装置の動作を示す図である。It is a figure which shows the operation of the log analysis apparatus by one Embodiment of this invention. 本発明の一実施形態によるログ解析装置の証跡ログの解析における条件を示す図である。It is a figure which shows the condition in the analysis of the trail log of the log analysis apparatus by one Embodiment of this invention. 本発明の一実施形態によるログ解析装置による証跡ログの解析に関する動作を示す図である。It is a figure which shows the operation about the analysis of the trail log by the log analysis apparatus by one Embodiment of this invention. 本発明の一実施形態によるログ解析装置の最小構成図を示す図である。It is a figure which shows the minimum block diagram of the log analysis apparatus by one Embodiment of this invention.

以下、本発明の一実施形態によるログ解析システム、ログ解析装置を、図面を参照して説明する。図1は、複数の処理ユニットからなるシステム6の構成の一例を示す図である。 Hereinafter, a log analysis system and a log analysis device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a configuration of a system 6 composed of a plurality of processing units.

図1において、符号4はリクエストを発行するサービス要求端末を、符号5はリクエストを受けて処理結果を返却する外部サーバ(外部サービス)Dを示す。符号6は複数の処理ユニットA’、B’、C1’、C2’から構成され、これら処理ユニットが協働してサービス要求端末4からのリクエストの処理をするシステムを示す。また、システム6において、複数の処理ユニットにてタイムアウトの設定ができるものとする。図1を利用して、エラーがタイムアウトに関するもので、時系列の最初に発生したタイムアウトのエラーのうち、最初のエラーが直接の原因ではなく、後の時刻に記録されたエラーに原因がある可能性がある例について説明する。 In FIG. 1, reference numeral 4 indicates a service request terminal that issues a request, and reference numeral 5 indicates an external server (external service) D that receives a request and returns a processing result. Reference numeral 6 indicates a system composed of a plurality of processing units A', B', C1', and C2', in which these processing units cooperate to process a request from the service request terminal 4. Further, in the system 6, it is possible to set a timeout in a plurality of processing units. Using Figure 1, the error is related to a timeout, and of the first timeout errors in the time series, the first error may not be the direct cause, but the error recorded at a later time. An example of sex will be described.

サービス要求端末4からのリクエストを処理ユニットA’が受けて、処理ユニットA’はリクエストの処理のため処理ユニットB’に処理を依頼する。処理ユニットB’は、以下の処理を実施し、その一連の内部処理タイムアウト時間を90秒に設定しているものとする。
・処理ユニットA’からのリクエストを処理
・処理ユニットC1’にリクエストを送信
・処理ユニットC1’からのレスポンスを処理し、処理ユニットC2’にリクエストを送信
・処理ユニットC2’からのレスポンスを処理し、処理ユニットA’にレスポンスを送信
The processing unit A'receives a request from the service request terminal 4, and the processing unit A'requests the processing unit B'to process the request. It is assumed that the processing unit B'performs the following processing and sets the series of internal processing timeout time to 90 seconds.
-Processing the request from processing unit A'-Sending the request to processing unit C1'-Processing the response from processing unit C1'and sending the request to processing unit C2'-Processing the response from processing unit C2' , Send response to processing unit A'

処理ユニットC2’は外部サーバDにリクエスト送信処理を行い、そのレスポンスの応答タイムアウト時間を60秒に設定しているものとする。 It is assumed that the processing unit C2'performs the request transmission processing to the external server D and sets the response timeout time of the response to 60 seconds.

この一連の処理において、処理ユニットA’から処理ユニットB’へのリクエストによる処理が時刻(0:00:15)(時:分:秒)に開始したとする。処理ユニットC1’で処理に35秒を要し正常終了し、その後に処理ユニットB’からのリクエストを受けた処理ユニットC2’が外部サーバDからの応答待ちで60秒が経過し、タイムアウトしたとする。この場合、処理ユニットC2’から外部サーバDへのリクエストの開始時刻は(0:00:50)となり、処理ユニットC2’におけるタイムアウト時刻は、(0:01:50)となる。一方、処理ユニットB’の処理の開始時刻は(0:00:15)で、内部処理タイムアウトは90秒に設定されているので、処理ユニットB’にタイムアウト時刻は(0:01:45)となる。 In this series of processing, it is assumed that the processing by the request from the processing unit A'to the processing unit B'starts at the time (0:00:15) (hour: minute: second). It took 35 seconds for processing in processing unit C1'and ended normally, and then 60 seconds passed while waiting for a response from external server D in processing unit C2'that received a request from processing unit B', and timed out. To do. In this case, the start time of the request from the processing unit C2'to the external server D is (0:00:50), and the timeout time in the processing unit C2'is (0:01:50). On the other hand, since the processing start time of the processing unit B'is (0:00:15) and the internal processing timeout is set to 90 seconds, the timeout time of the processing unit B'is (0:01:45). Become.

この際の、タイムアウトに伴うエラーログは図2のようになる。図2において、エラーログはエラーが発生した処理ユニットにおいて、エラー発生時に出力される。図2の例では、エラーログに記録される項目は、エラーの「発生時刻」、タイムアウトによるエラーのためログを出力した「処理ユニット」、タイムアウトが起こった「タイムアウト種別」、設定される「タイムアウト(秒)」、および、ステータスとなる「結果」である。 At this time, the error log due to the timeout is as shown in FIG. In FIG. 2, the error log is output when an error occurs in the processing unit in which the error has occurred. In the example of FIG. 2, the items recorded in the error log are the "occurrence time" of the error, the "processing unit" that output the log due to the error due to the timeout, the "timeout type" in which the timeout occurred, and the set "timeout". (Seconds) ”and the status“ result ”.

図2に示すように、時系列としては処理ユニットB’におけるタイムアウトによるエラーの発生時刻(0:01:45)が、実際にエラーの原因となった処理ユニットC2’におけるタイムアウトのログ(0:01:50)より先に記録される。このように、処理ユニットB’におけるタイムアウトのログが時系列的には先であるが、処理ユニットC2’におけるタイムアウトが発生した原因を調査した方が望ましい。 As shown in FIG. 2, as a time series, the time when the error occurred due to the timeout in the processing unit B'(0:01:45) is the time-out log (0 :) in the processing unit C2'that actually caused the error. It is recorded before 01:50). As described above, although the timeout log in the processing unit B'is ahead in time series, it is desirable to investigate the cause of the timeout in the processing unit C2'.

このように、複数箇所でタイムアウトによるエラーが発生した場合に、最初に発生した箇所が原因なのか、それ以外に原因があるのか、時系列の最初に登場したタイムアウトのエラーからだけでは判断できない。このため、ログで示されるエラーを一通り確認してどの箇所を優先的に調査すべきか判断する必要がある。そのため、運用管理者にとってエラーの原因を特定することが煩雑となる。 In this way, when an error occurs due to a timeout at multiple locations, it cannot be determined from the timeout error that appears first in the time series whether the cause is the first occurrence or other causes. Therefore, it is necessary to check all the errors shown in the log and decide which part should be investigated preferentially. Therefore, it is complicated for the operation manager to identify the cause of the error.

図3本発明の一実施形態によるログ解析システムの構成の概要を示す図である。図3において、符号1はログ解析装置を、符号2は処理装置を、符号3は処理ログDBを、符号4はサービス要求端末を、符号5は外部サーバ(外部サービス)を示す。 FIG. 3 is a diagram showing an outline of a configuration of a log analysis system according to an embodiment of the present invention. In FIG. 3, reference numeral 1 is a log analysis device, reference numeral 2 is a processing device, reference numeral 3 is a processing log DB, reference numeral 4 is a service request terminal, and reference numeral 5 is an external server (external service).

ログ解析装置1は、処理ログDB3に蓄えられた証跡ログを解析して、有力なタイムアウトの原因を推定し、原因や対処法を提示する処理を行う。 The log analysis device 1 analyzes the trail log stored in the processing log DB 3, estimates the cause of a promising timeout, and performs a process of presenting the cause and the remedy.

処理装置2は、複数の処理ユニットA,B,C1,C2から構成され、これら複数の処理ユニットが協働してリクエストに対する処理を行う。なお、各処理ユニットA,B,C1,C2は、同一あるいは異なる処理を並列処理等で効率的に行うために設けられる。また、各処理ユニットA,B,C1,C2は、タイムアウトに起因するエラーが生じた際、エラーの解析のための証跡ログを出力する機能を備える。なお、図3に示す処理装置2は、処理ユニットA,B,C1,C2により構成されるように示されているが、これに限定されるものではない。 The processing device 2 is composed of a plurality of processing units A, B, C1, and C2, and the plurality of processing units cooperate to perform processing on a request. The processing units A, B, C1 and C2 are provided in order to efficiently perform the same or different processing by parallel processing or the like. Further, each of the processing units A, B, C1 and C2 has a function of outputting a trail log for analyzing the error when an error occurs due to a timeout. The processing device 2 shown in FIG. 3 is shown to be composed of processing units A, B, C1 and C2, but is not limited thereto.

処理ログDB3は、処理ユニットA,B,C1,C2が出力した証跡ログを蓄積するデータベースである。処理ログDB3は、ログ解析装置1および処理装置2と通信可能に接続される。 The processing log DB3 is a database that stores trail logs output by the processing units A, B, C1 and C2. The processing log DB 3 is communicably connected to the log analysis device 1 and the processing device 2.

サービス要求端末4は、処理装置2と通信可能に接続され、処理装置2に対するサービスのリクエストをし、サービスを受ける端末である。 The service request terminal 4 is a terminal that is communicably connected to the processing device 2, makes a service request to the processing device 2, and receives the service.

外部サーバ5は、処理装置2の外のサーバであって、サービス要求端末4からのリクエストを処理するために、処理装置2からのリクエストに応じてサービスを提供するサーバである。また、外部サーバ5は、処理装置2と通信可能に接続される。なお、図3では、外部サーバ5として、外部サーバDのみを示しているが、複数の外部サーバが処理装置2からのリクエストを受けてサービスを提供できるよう、通信可能に接続される構成であってもよい。 The external server 5 is a server outside the processing device 2, and is a server that provides a service in response to a request from the processing device 2 in order to process a request from the service request terminal 4. Further, the external server 5 is communicably connected to the processing device 2. Although only the external server D is shown as the external server 5 in FIG. 3, it is configured to be communicably connected so that a plurality of external servers can receive a request from the processing device 2 and provide a service. You may.

図3において、ログ解析装置1と処理装置2により、ログ解析システムが構成される。また、処理解析システムは、さらに、処理ログDB3を備えてもよい。 In FIG. 3, a log analysis system is configured by the log analysis device 1 and the processing device 2. Further, the processing analysis system may further include a processing log DB3.

図4は、本発明の一実施形態によるログ解析システムの構成を示すブロック図である。図4に示すように処理装置2は、複数の処理ユニットから構成される。また、各処理ユニットは、送受信部21、処理部22、タイムアウト設定部23、ログ出力部24を備える。 FIG. 4 is a block diagram showing a configuration of a log analysis system according to an embodiment of the present invention. As shown in FIG. 4, the processing device 2 is composed of a plurality of processing units. Further, each processing unit includes a transmission / reception unit 21, a processing unit 22, a timeout setting unit 23, and a log output unit 24.

送受信部21は、リクエスト、レスポンスデータを送受信する。処理部22は、処理ユニットに応じた処理を実施する。 The transmission / reception unit 21 transmits / receives request and response data. The processing unit 22 performs processing according to the processing unit.

タイムアウト設定部23は、タイムアウト時間を設定する。また、タイムアウト設定部23は、タイムアウトが発生した場合は送信元の処理ユニットにタイムアウトエラーのレスポンスを送信する。 The time-out setting unit 23 sets the time-out time. Further, when a timeout occurs, the timeout setting unit 23 transmits a timeout error response to the processing unit of the transmission source.

ログ出力部24は、タイムアウトによるエラーを監視し、エラーが生じた際、エラーに関連する情報を証跡ログとして所定の情報を記録する。証跡ログの一例を図5に示す。証跡ログは、「発生時刻」、「処理ユニット」、「送信元」、「送信先」、「タイムアウト種別」、「タイムアウト(秒)」、「結果」という情報を含む。また、各証跡ログは、証跡ログの紐付けとなる処理IDを含み、同一の処理IDを含む証跡ログがログ解析装置1により解析される。ここで、「処理時刻」は、タイムアウトのエラーが発生した時刻を、「処理ユニット」は証跡ログを出力した処理ユニットを特定する情報である。「送信元」はリクエストの依頼元となる装置を、「送信先」は送信先からリクエストを送信する先の装置を示す。「タイムアウト種別」および「タイムアウト(秒)」はタイムアウトの設定内容(種類、秒数)を示す。「結果」はステータスとなる処理状況を示す。なお、証跡ログは、上記項目のすべてを含まなくても良く、また、上記項目以外の情報を含んでもよい。 The log output unit 24 monitors an error due to a timeout, and when an error occurs, records predetermined information as a trail log of information related to the error. An example of the trail log is shown in FIG. The trail log contains information such as "occurrence time", "processing unit", "source", "destination", "timeout type", "timeout (seconds)", and "result". Further, each trail log includes a processing ID associated with the trail log, and the trail log including the same processing ID is analyzed by the log analysis device 1. Here, the "processing time" is the time when the timeout error occurs, and the "processing unit" is the information that identifies the processing unit that output the trail log. The “source” indicates the device that is the request source of the request, and the “destination” indicates the device to which the request is transmitted from the destination. "Time-out type" and "Time-out (seconds)" indicate the timeout settings (type, number of seconds). "Result" indicates the processing status that becomes the status. The trail log may not include all of the above items, and may include information other than the above items.

本実施の形態では、処理ユニットに設定可能なタイムアウトの種別として、「接続タイムアウト」、「応答タイムアウト」、「内部処理タイムアウト」の3つを定義する。それぞれのタイムアウトの内容は以下の通りである。 In the present embodiment, three types of timeouts that can be set in the processing unit are defined: "connection timeout", "response timeout", and "internal processing timeout". The contents of each timeout are as follows.

「接続タイムアウト」
他の処理ユニット、外部サーバ(外部サービス)、ユーザ端末等に接続し通信できるようになるまでのタイムアウト時間。
"Connection timeout"
Timeout time until it becomes possible to connect to another processing unit, external server (external service), user terminal, etc. and communicate.

「応答タイムアウト」
他の処理ユニット、外部サーバ(外部サービス)等にリクエストを送信してから、その応答を受信するまでのタイムアウト時間。
"Response timeout"
Timeout time from sending a request to another processing unit, external server (external service), etc. to receiving the response.

「内部処理タイムアウト」
ある処理ユニットが他の処理ユニットからリクエストを受け、そのレスポンスを返すまでのタイムアウト時間。
"Internal processing timeout"
The timeout period before one processing unit receives a request from another processing unit and returns the response.

なお、タイムアウトの種類は記載の3つに限定されるものではなく、他のタイムアウトを定義し、利用可能としてもよい。 The types of timeouts are not limited to the three described above, and other timeouts may be defined and made available.

ログ解析装置1は、取得部11、解析部12、結果出力部14により構成される。取得部11は、複数の処理ユニットから構成される処理装置2にて処理のタイムアウトが生じた際、処理ユニットにて出力された証跡ログを取得する。取得部11は、エラーが生じた処理を特定する処理IDを利用して、同一の処理IDを含み「結果」がエラーとなった証跡ログを取得する。取得部11は、証跡ログを処理ログDB3より取得するが、各処理ユニットから直接取得できる構成としてもよい。 The log analysis device 1 is composed of an acquisition unit 11, an analysis unit 12, and a result output unit 14. The acquisition unit 11 acquires the trail log output by the processing unit when a processing timeout occurs in the processing device 2 composed of a plurality of processing units. The acquisition unit 11 uses a process ID that identifies the process in which the error has occurred, and acquires a trail log that includes the same process ID and whose "result" is an error. Although the acquisition unit 11 acquires the trail log from the processing log DB 3, it may be configured so that it can be acquired directly from each processing unit.

解析部12は、取得部11が取得した証跡ログを用いて、証跡ログに記録される処理ユニットとリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定する処理を行う。また、解析部12は提示部13を備える。提示部13は、解析部12にて推定されたエラーの原因に関する証跡ログを利用して、タイムアウトの原因に関するメッセージを生成する。 Using the trail log acquired by the acquisition unit 11, the analysis unit 12 performs a process of estimating a probable cause of the timeout from the relationship between the processing unit recorded in the trail log and the request destination and the timeout type. Further, the analysis unit 12 includes a presentation unit 13. The presentation unit 13 uses the trail log regarding the cause of the error estimated by the analysis unit 12 to generate a message regarding the cause of the timeout.

解析部12は、タイムアウトが処理装置2外の装置との関係で生じている場合、処理装置2外の装置との関係で生じているタイムアウトに起因する事象を有力なタイムアウトの原因として優先度を高くする解析処理を行う。
一方、解析部12は、タイムアウトが処理装置2を構成する処理ユニットにて、または、処理ユニットの間の関係で生じている場合のタイムアウトに起因する事象の優先度を、タイムアウトが処理ユニット外の装置との関係で生じている場合の優先度に比べ低くする解析処理を行う。
When the timeout occurs in relation to the device outside the processing device 2, the analysis unit 12 prioritizes the event caused by the time-out occurring in the relationship with the device outside the processing device 2 as a promising cause of the timeout. Perform analysis processing to increase.
On the other hand, the analysis unit 12 determines the priority of the event caused by the timeout when the timeout occurs in the processing unit constituting the processing device 2 or in the relationship between the processing units, and the timeout is outside the processing unit. Perform analysis processing to lower the priority compared to the priority when it occurs in relation to the device.

結果出力部14は、提示部13にて生成されたタイムアウトの原因や原因に対する対処等のメッセージを出力する。出力は、表示装置への出力であっても、運用管理者へのメール等による通知であってもよい。 The result output unit 14 outputs a message such as a cause of the timeout generated by the presentation unit 13 and a countermeasure for the cause. The output may be an output to the display device or a notification to the operation manager by e-mail or the like.

図6は本発明の一実施形態によるログ解析装置1、処理装置2のハードウェア構成を示す図である。ログ解析装置1、処理装置2は、CPU(Central Processing Unit)61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、SSD(Solid State Drive)64、通信モジュール65を備える。
CPU61は、ROM62またはSSD64等の記録媒体に記憶されるプログラムを実行することで、ログ解析装置1や処理装置2の各機能を実現する。
SSD64は、ログ解析装置1や処理装置2の機能を実現するため必要となるデータ等も記憶する。なお、SSD64は、他の不揮発性の記憶装置、例えば、HDD(Hard Disk Drive)であってもよく、いくつかの異なる種類の不揮発性の記憶装置により構成させてもよい。通信モジュール65は、ネットワーク接続のため、あるいは、処理ユニット間の接続に用いられる。また、ログ解析装置1や処理装置2は、必要に応じて入出力装置66を備えてもよい。入出力装置66は、キーボード、マウス、タッチパネル、表示装置等の機器のいずれかあるいは全てである。
FIG. 6 is a diagram showing a hardware configuration of a log analysis device 1 and a processing device 2 according to an embodiment of the present invention. The log analysis device 1 and the processing device 2 include a CPU (Central Processing Unit) 61, a ROM (Read Only Memory) 62, a RAM (Random Access Memory) 63, an SSD (Solid State Drive) 64, and a communication module 65.
The CPU 61 realizes each function of the log analysis device 1 and the processing device 2 by executing a program stored in a recording medium such as the ROM 62 or the SSD 64.
The SSD 64 also stores data and the like necessary for realizing the functions of the log analysis device 1 and the processing device 2. The SSD 64 may be another non-volatile storage device, for example, an HDD (Hard Disk Drive), or may be configured by several different types of non-volatile storage devices. The communication module 65 is used for network connection or connection between processing units. Further, the log analysis device 1 and the processing device 2 may be provided with the input / output device 66 as needed. The input / output device 66 is any or all of devices such as a keyboard, a mouse, a touch panel, and a display device.

なお、処理装置2を構成する処理モジュールは、処理装置2を構成するハードウェアおよびソフトウェアを用いて仮想的に構成されてもよく、また、一部ハードウェアまたはすべてのハードウェアを複数備え物理的に構成されてもよい。 The processing module constituting the processing device 2 may be virtually configured by using the hardware and software constituting the processing device 2, and may be physically provided with a plurality of some hardware or all the hardware. It may be configured in.

図7は、本発明の一実施形態による処理装置2を構成する処理ユニットのエラーに関連する動作の一例を示す図である。以下、図7を用いて処理ユニットの動作の一例を説明する。なお、各処理ユニットには、タイムアウト設定部23によりタイムアウトの種類に対するタイムアウト時間が予め設定されているものとする。また、図7に示すフローは、送受信部21によりリクエストの受信、処理部22によるリクエストの処理、リクエストを処理するために、必要に応じて別の処理ユニット、外部装置へのリクエストの送信等が行われる過程での動作の一例を示している。 FIG. 7 is a diagram showing an example of an operation related to an error of the processing unit constituting the processing device 2 according to the embodiment of the present invention. Hereinafter, an example of the operation of the processing unit will be described with reference to FIG. 7. It is assumed that the timeout setting unit 23 presets the timeout time for the timeout type in each processing unit. Further, in the flow shown in FIG. 7, the transmission / reception unit 21 receives the request, the processing unit 22 processes the request, and in order to process the request, another processing unit, transmission of the request to the external device, and the like are performed as necessary. An example of the operation in the process of being performed is shown.

ログ出力部24は、自己の処理ユニットでの内部処理におけるタイムアウト、他の処理ユニット、外部装置との間で生じる接続タイムアウト、応答タイムアウトによるエラーが発生していないか監視をする(ステップS71)。エラーが発生しない場合(ステップS71:NO)、ログ出力部24は、継続してエラーの有無の監視を続ける。 The log output unit 24 monitors whether or not an error has occurred due to a timeout in internal processing in its own processing unit, a connection timeout occurring with another processing unit or an external device, or a response timeout (step S71). If no error occurs (step S71: NO), the log output unit 24 continuously monitors for the presence or absence of an error.

エラーが発生した場合(ステップS71:YES)、ログ出力部24は、図5に示すような証跡データを出力する。なお、証跡データの出力は、処理ログDB3に対しての出力でも、処理ユニット内部への出力でもよい。なお、証跡データの出力が処理ユニット内部への出力の場合、ログ出力部24は、所定のタイミングで蓄積した証跡ログを処理ログDB3に出力する、あるいは、ログ解析装置1の要請に応じて証跡ログをログ解析装置1に提供するようにしてもよい。なお、エラーが発生した場合、タイムアウト設定部23は、送信元の処理ユニットにタイムアウトエラーのレスポンスを送信する。 When an error occurs (step S71: YES), the log output unit 24 outputs trail data as shown in FIG. The trail data may be output to the processing log DB3 or to the inside of the processing unit. When the output of the trail data is to the inside of the processing unit, the log output unit 24 outputs the trail log accumulated at a predetermined timing to the processing log DB 3, or the trail is received at the request of the log analysis device 1. The log may be provided to the log analysis device 1. When an error occurs, the timeout setting unit 23 transmits a timeout error response to the processing unit of the transmission source.

以上のようにして、処理ユニットはエラーに関連する動作を行う。 As described above, the processing unit performs the operation related to the error.

図8は、本発明の一実施形態によるログ解析装置1の動作の一例を示す図である。以下、図8を用いてログ解析装置1の動作の一例を説明する。 FIG. 8 is a diagram showing an example of the operation of the log analysis device 1 according to the embodiment of the present invention. Hereinafter, an example of the operation of the log analysis device 1 will be described with reference to FIG.

ログ解析装置1の取得部11は、処理装置2にて処理のタイムアウトによるエラーが生じた際、処理ユニットにて出力された証跡ログを取得する(ステップS81)。なお、取得部11は、証跡ログを処理ログDB3より取得するが、各処理ユニットから直接取得するようにしてもよい。また、取得部11は、ログの解析対象となるリクエストに割り当てられた処理IDを利用して、解析対象となるリクエストの処理IDに関する証跡ログを取得する。 The acquisition unit 11 of the log analysis device 1 acquires the trail log output by the processing unit when an error occurs due to a processing timeout in the processing device 2 (step S81). Although the acquisition unit 11 acquires the trail log from the processing log DB 3, it may acquire the trail log directly from each processing unit. In addition, the acquisition unit 11 acquires a trail log related to the processing ID of the request to be analyzed by using the processing ID assigned to the request to be analyzed.

解析部12は、取得部11が取得した証跡ログを用いて、証跡ログに記録される処理ユニットとリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定する処理を行う(ステップS82)。また、解析部12を構成する提示部13はステップS82において、解析部12にて推定されたエラーの原因に関する証跡ログを利用して、タイムアウトの原因等に関するメッセージを生成する。解析部12による証跡ログの解析処理の詳細は、図9、図10を利用して説明する。 Using the trail log acquired by the acquisition unit 11, the analysis unit 12 performs a process of estimating a probable cause of the timeout from the relationship between the processing unit recorded in the trail log and the request destination and the timeout type (step S82). ). Further, in step S82, the presentation unit 13 constituting the analysis unit 12 generates a message regarding the cause of the timeout or the like by using the trail log regarding the cause of the error estimated by the analysis unit 12. Details of the trail log analysis process by the analysis unit 12 will be described with reference to FIGS. 9 and 10.

結果出力部14は、提示部13にて生成されたタイムアウトの原因や原因に対する対処等のメッセージを出力する。出力は、運用管理者に提示できる方法であればいずれであってもよい。出力の一例としては、表示装置への出力、運用管理者へのメール等による通知であってもよい。また、結果出力部14は、生成されたメッセージと共に抽出された証跡ログを合わせて出力するようにしてもよい。 The result output unit 14 outputs a message such as a cause of the timeout generated by the presentation unit 13 and a countermeasure for the cause. The output may be any method that can be presented to the operation manager. As an example of the output, the output to the display device, the notification to the operation manager by e-mail, or the like may be used. Further, the result output unit 14 may output the extracted trail log together with the generated message.

次に、図9、図10を用いて、ログ解析装置1の解析部12の動作について説明する。図9は、本発明の一実施形態によるログ解析装置の証跡ログの解析における条件を示す図である。まず、図9を用いて本発明の一実施形態によるログ解析装置の証跡ログの解析における解析条件について説明する。図9では、確認箇所としての優先度の高い順に、条件1から条件5を解析条件としている。 Next, the operation of the analysis unit 12 of the log analysis device 1 will be described with reference to FIGS. 9 and 10. FIG. 9 is a diagram showing conditions for analyzing the trail log of the log analysis device according to the embodiment of the present invention. First, the analysis conditions in the analysis of the trail log of the log analysis apparatus according to the embodiment of the present invention will be described with reference to FIG. In FIG. 9, conditions 1 to 5 are set as analysis conditions in descending order of priority as confirmation points.

解析部12は、証跡ログの解析において、図9に示す条件を満たすかを優先度の高い条件順に判断し、条件を満たす場合、解析部12の提示部13は、満たした条件おけるメッセージを生成する。 In the analysis of the trail log, the analysis unit 12 determines whether the conditions shown in FIG. 9 are satisfied in the order of high priority conditions, and if the conditions are satisfied, the presentation unit 13 of the analysis unit 12 generates a message under the satisfied conditions. To do.

最も優先度の高い条件1では、解析部12は、証跡ログの項目「送信先」が処理装置2外の装置であり、かつ、タイムアウトの種類が「接続タイムアウト」である証跡ログをすべて抽出する。抽出された証跡ログに対して、提示部13は、「処理ユニットXにて、接続先Yに接続できなかった」旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名を、「Y」は抽出された証跡ログの項目「送信先」の装置名とする。なお、結果出力部14は、証跡ログを用いて生成されたメッセージを提示する処理を行う。また、複数の証跡ログが条件1を満たす場合、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージのすべてを提示する処理を行う。 Under the highest priority condition 1, the analysis unit 12 extracts all trail logs whose trail log item "destination" is a device outside the processing device 2 and whose timeout type is "connection timeout". .. With respect to the extracted trail log, the presentation unit 13 generates a message stating that "the processing unit X could not connect to the connection destination Y". Here, "X" is the processing unit name of the extracted trail log item "processing unit", and "Y" is the device name of the extracted trail log item "destination". The result output unit 14 performs a process of presenting a message generated by using the trail log. Further, when the plurality of trail logs satisfy the condition 1, the result output unit 14 performs a process of presenting all the messages generated by using the extracted trail logs.

2番目に優先度の高い条件2では、解析部12は、証跡ログの項目「送信先」が処理装置2外の装置であり、かつ、タイムアウトの種類が「応答タイムアウト」である証跡ログをすべて抽出する。抽出された証跡ログに対して、提示部13は、「処理ユニットXにて、接続先Yからの応答がないため処理に失敗」との旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名を、「Y」は抽出された証跡ログの項目「送信先」の装置名とする。なお、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。また、複数の証跡ログが条件2を満たす場合、結果出力部14は、証跡ログに対する生成されたメッセージのすべてを提示する処理を行う。 Under the second highest priority condition 2, the analysis unit 12 detects all trail logs whose trail log item "destination" is a device outside the processing device 2 and whose timeout type is "response timeout". Extract. With respect to the extracted trail log, the presentation unit 13 generates a message stating "Processing failed because there is no response from the connection destination Y in the processing unit X". Here, "X" is the processing unit name of the extracted trail log item "processing unit", and "Y" is the device name of the extracted trail log item "destination". The result output unit 14 performs a process of presenting a message generated by using the extracted trail log. Further, when the plurality of trail logs satisfy the condition 2, the result output unit 14 performs a process of presenting all the generated messages for the trail logs.

3番目に優先度の高い条件3では、解析部12は、証跡ログの項目「送信先」が処理装置2内の処理ユニットであり、かつ、タイムアウトの種類が「接続タイムアウト」である証跡ログを抽出する。解析部12は、条件3を満たす証跡ログが複数ある場合、抽出された証跡ログにおける「発生時刻」が最も早い証跡ログを抽出する。抽出された証跡ログに対して、提示部13は、「処理ユニットXにて、処理ユニットYからの応答がないため処理に失敗」との旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名を、「Y」は抽出された証跡ログの項目「送信先」の処理ユニット名とする。なお、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。 Under the third highest priority condition 3, the analysis unit 12 selects the trail log in which the trail log item "destination" is the processing unit in the processing device 2 and the timeout type is "connection timeout". Extract. When there are a plurality of trail logs satisfying the condition 3, the analysis unit 12 extracts the trail log having the earliest "occurrence time" in the extracted trail logs. With respect to the extracted trail log, the presentation unit 13 generates a message stating that "processing failed because there is no response from processing unit Y in processing unit X". Here, "X" is the processing unit name of the extracted trail log item "processing unit", and "Y" is the processing unit name of the extracted trail log item "destination". The result output unit 14 performs a process of presenting a message generated by using the extracted trail log.

4番目に優先度の高い条件4では、解析部12は、タイムアウトの種類が「内部処理タイムアウト」である証跡ログを検出する。解析部12は、条件4を満たす証跡ログが検出された場合、抽出された証跡ログの「処理ユニット」より先で解析対象となるリクエストのための処理がなされているか、なされている場合に先の処理で条件1から3が発生していないか確認する。先の処理がない、あるいは、先の処理があるものの条件1から3が発生していない場合に、解析部12は対象の証跡ログを抽出する。このようにして抽出された証跡ログが複数ある場合、解析部12は「発生時刻」が最も早い証跡ログを抽出する。抽出された証跡ログに対して、提示部13は、「エラーはないが内部処理に時間がかかっており、処理ユニットXの処理を見直すか、内部処理タイムアウト時間を拡張」との旨のメッセージを生成する。ここで、「X」は抽出された証跡ログの項目「処理ユニット」の処理ユニット名とする。なお、結果出力部14は、抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。 Under the fourth highest priority condition 4, the analysis unit 12 detects the trail log whose timeout type is “internal processing timeout”. When the trail log satisfying the condition 4 is detected, the analysis unit 12 performs processing for the request to be analyzed before the "processing unit" of the extracted trail log, or if it has been performed first. Check if conditions 1 to 3 have occurred in the process of. When there is no previous process, or when conditions 1 to 3 do not occur although there is a previous process, the analysis unit 12 extracts the target trail log. When there are a plurality of trail logs extracted in this way, the analysis unit 12 extracts the trail log having the earliest “occurrence time”. In response to the extracted trail log, the presentation unit 13 sends a message stating, "There is no error, but the internal processing is taking a long time, and the processing of the processing unit X should be reviewed or the internal processing timeout time should be extended." Generate. Here, "X" is the processing unit name of the extracted trail log item "processing unit". The result output unit 14 performs a process of presenting a message generated by using the extracted trail log.

5番目に優先度の高い条件5では、解析部12は、証跡ログの項目「送信先」が処理装置2内の処理ユニットであり、かつ、タイムアウトの種類が「応答タイムアウト」である証跡ログを検出する。解析部12は、条件5を満たす証跡ログが検出された場合、抽出された証跡ログの「処理ユニット」より先で解析対象となるリクエストのための処理がなされているか、なされている場合に先の処理で条件1から3が発生していないか確認する。先の処理がない、あるいは、先の処理があるものの条件1から3が発生していない場合に、解析部12は対象の証跡ログを抽出する。このようにして抽出された証跡ログが複数ある場合、解析部12は「発生時刻」が最も早い証跡ログを抽出する。抽出された証跡ログに対して、提示部13は、「後続の処理ユニットの処理を見直すか、内部処理タイムアウト時間を拡張」との旨のメッセージを生成する。なお、結果出力部14は抽出された証跡ログを用いて生成されたメッセージを提示する処理を行う。 Under the fifth highest priority condition 5, the analysis unit 12 selects the trail log in which the trail log item "destination" is the processing unit in the processing device 2 and the timeout type is "response timeout". To detect. When the trail log satisfying the condition 5 is detected, the analysis unit 12 performs processing for the request to be analyzed before the "processing unit" of the extracted trail log, or if it has been performed first. Check if conditions 1 to 3 have occurred in the process of. When there is no previous process, or when conditions 1 to 3 do not occur although there is a previous process, the analysis unit 12 extracts the target trail log. When there are a plurality of trail logs extracted in this way, the analysis unit 12 extracts the trail log having the earliest “occurrence time”. With respect to the extracted trail log, the presentation unit 13 generates a message to the effect that "review the processing of the subsequent processing unit or extend the internal processing timeout time". The result output unit 14 performs a process of presenting a message generated by using the extracted trail log.

以上のように原因を特定する際の優先順位は、処理ユニットとこの処理ユニットからのリクエスト先の関連性として、送信先が「処理装置の外の装置」の方が「内部処理ユニット」より優先となる。また、送信先が同じ場合には、タイムアウト種別「接続タイムアウト」が「応答タイムアウト」より優先となる。送信先が「内部処理ユニット」あるいはタイムアウト種別が「内部処理タイムアウト」との関係では、優先順位は、タイムアウト種別が「接続タイムアウト」、「内部処理タイムアウト」、「応答タイムアウト」となる。 As described above, as for the priority when identifying the cause, as the relationship between the processing unit and the request destination from this processing unit, the destination "device outside the processing device" has priority over the "internal processing unit". It becomes. If the destinations are the same, the timeout type "connection timeout" has priority over "response timeout". When the destination is "internal processing unit" or the timeout type is "internal processing timeout", the priority order is "connection timeout", "internal processing timeout", and "response timeout".

さらに、送信先が「処理装置の外の装置」の場合、すべての証跡ログが抽出、原因の提示の対象となる。一方、送信先が「内部処理ユニット」の場合、あるいは、タイムアウト種別が「内部処理タイムアウト」の場合、所定の条件を満たす最も早い時刻のエラーを記録する証跡ログが抽出、原因の提示の対象となる。 Furthermore, when the destination is "a device outside the processing device", all trail logs are extracted and the cause is presented. On the other hand, when the destination is "internal processing unit" or the timeout type is "internal processing timeout", the trail log that records the error at the earliest time that satisfies the predetermined condition is extracted and the cause is presented. Become.

図10は、本発明の一実施形態によるログ解析装置1の解析部12による証跡ログの解析に関する動作(ステップS82)を示す図である。ここで、図9に示すテーブルは、解析のための条件テーブルとして、ログ解析装置1に記憶されているものとする。 FIG. 10 is a diagram showing an operation (step S82) related to the analysis of the trail log by the analysis unit 12 of the log analysis device 1 according to the embodiment of the present invention. Here, it is assumed that the table shown in FIG. 9 is stored in the log analysis device 1 as a condition table for analysis.

解析部12は、優先順位の最も高い条件である「条件1」を用いた解析を開始するためにフラグ“i”に“1”を設定する(ステップS91)。 The analysis unit 12 sets the flag “i” to “1” in order to start the analysis using the “condition 1” which is the highest priority condition (step S91).

解析部12は、フラグに設定された条件“i”における条件をテーブルより取得するとともに、ステップS81で得た証跡ログに対して、取得した条件を満たす証跡ログがあるか解析するとともに、条件を満たす場合、その証跡ログを抽出する(ステップS92)。なお、解析の条件は、図9に示すように、「送信先」、「タイムアウト種別」、「他条件」のすべて、あるいは一部により構成される。 The analysis unit 12 acquires the condition under the condition “i” set in the flag from the table, analyzes the trail log obtained in step S81 to see if there is a trail log satisfying the acquired condition, and sets the condition. If so, the trail log is extracted (step S92). As shown in FIG. 9, the analysis condition is composed of all or a part of "destination", "timeout type", and "other condition".

条件“i”を満たす証跡ログがある場合(ステップS92:YES)、提示部13は抽出された証跡ログを利用して、原因等を提示するためのメッセージの生成を行う。メッセージの生成のため、提示部13は、図9に示すテーブルの条件“i”に示す「メッセージ」のフォームを取得する。また、提示部13は、ステップS92で抽出された証跡ログの情報、取得した「メッセージ」のフォームを利用して、メッセージを生成する。 When there is a trail log satisfying the condition "i" (step S92: YES), the presenting unit 13 uses the extracted trail log to generate a message for presenting the cause and the like. In order to generate a message, the presentation unit 13 acquires the form of the "message" shown in the condition "i" of the table shown in FIG. In addition, the presentation unit 13 generates a message by using the trail log information extracted in step S92 and the acquired "message" form.

一方、 条件“i”を満たす証跡ログがない場合(ステップS92:NO)、解析部12は、すべての条件の確認を完了したか判断する(ステップS94)。図9に示すテーブルの場合、解析部12は、フラグ“i”が“5”となっている場合、すべての条件の確認を完了したと判断する。 On the other hand, when there is no trail log satisfying the condition "i" (step S92: NO), the analysis unit 12 determines whether the confirmation of all the conditions has been completed (step S94). In the case of the table shown in FIG. 9, when the flag “i” is “5”, the analysis unit 12 determines that the confirmation of all the conditions has been completed.

すべての条件の確認を完了した場合(ステップS94:YES)、提示部13は、「エラーの解析ができなかった」旨のメッセージを生成する(ステップS96)。 When the confirmation of all the conditions is completed (step S94: YES), the presentation unit 13 generates a message stating that "the error could not be analyzed" (step S96).

一方、 すべての条件の確認が終了していない場合(ステップS94:NO)、次の優先順位の条件を満たす証跡ログがあるかを確認するために、解析部12は、フラグ“i”を1つインクリメントする(ステップS95)。そして、解析部12は、次の優先度の条件を満たす証跡ログがあるかの解析を行う(ステップS92)。 On the other hand, when the confirmation of all the conditions is not completed (step S94: NO), the analysis unit 12 sets the flag “i” to 1 in order to confirm whether there is a trail log satisfying the conditions of the next priority. Increment by one (step S95). Then, the analysis unit 12 analyzes whether or not there is a trail log satisfying the following priority priority conditions (step S92).

以上のようにして、解析部12は、取得部11により取得された証跡ログの解析を行う。 As described above, the analysis unit 12 analyzes the trail log acquired by the acquisition unit 11.

例えば、図5が取得部11により取得された処理ID“0001”に関する証跡ログとする。この場合、証跡ログ51は条件4を満たし、証跡ログ52は条件2を満たす。そのため、解析部12は、優先順位の高い条件2を満たす証跡ログ52を抽出する。また、提示部13は、証跡ログ52を用いてメッセージ「処理ユニットC2にて、接続先Dからの応答がないため処理に失敗」とのメッセージを生成する。そして、結果出力部14は、提示部13が生成したメッセージを出力する。 For example, FIG. 5 is a trail log related to the processing ID “0001” acquired by the acquisition unit 11. In this case, the trail log 51 satisfies the condition 4, and the trail log 52 satisfies the condition 2. Therefore, the analysis unit 12 extracts the trail log 52 that satisfies the condition 2 having a high priority. Further, the presentation unit 13 uses the trail log 52 to generate a message "Processing failed because there is no response from the connection destination D in the processing unit C2". Then, the result output unit 14 outputs the message generated by the presentation unit 13.

なお、図9に示すメッセージは一例であり、これに限定されるものではない。例えば、上述の例では、「処理ユニットC2にて、接続先Dからの応答がないため処理に失敗」とのメッセージの代わりに、抽出された証跡ログを利用して「処理ユニットC2にて外部サーバ(外部サービス)Dの応答が60秒以内に返らなかったことによりリクエストが失敗した可能性がります。外部サーバ(外部サービス)Dの処理ログを確認してください。」のように、運用管理者にとってより分かりやすいメッセージとしてもよい。 The message shown in FIG. 9 is an example, and the present invention is not limited to this. For example, in the above example, instead of the message "Processing failed because there is no response from the connection destination D in processing unit C2", the extracted trail log is used to "externally in processing unit C2". The request may have failed because the response of the server (external service) D was not returned within 60 seconds. Please check the processing log of the external server (external service) D. " It may be a message that is easier for people to understand.

図5の証跡ログの例では、分かりやすいように、処理ユニットBおよび処理ユニットC2で、所定のタイムアウトの条件が設定される場合における例を示している。実際には、他の処理ユニットにおいても所定のタイムアウトの条件が設定され、それにより、処理ユニットC2におけるタイムアウトによるエラーに起因して、他の処理ユニット、例えば、処理ユニットAにおいても、エラーによる証跡ログが出力され得る。 In the example of the trail log of FIG. 5, for the sake of clarity, an example is shown in the case where a predetermined timeout condition is set in the processing unit B and the processing unit C2. In reality, a predetermined timeout condition is set also in the other processing unit, and as a result, due to the error caused by the timeout in the processing unit C2, the trail due to the error is also set in the other processing unit, for example, the processing unit A. Logs can be output.

以上のように、複数箇所でタイムアウトによるエラーが発生した場合、何の種別のタイムアウトがどこで発生したか、送信先はどこか(他の処理ユニットか、外部サーバや外部サービスか)の情報から、最も有力と考えられる原因を提示することが可能となる。 As described above, when an error occurs due to a timeout in multiple places, from the information of what type of timeout occurred where and where the destination is (other processing unit, external server or external service), It is possible to present the most probable cause.

具体的には、外部サーバ(外部サービス)等、処理装置2外の他システムに対して接続タイムアウトや応答タイムアウトが発生していた場合、他システムのサービスダウンやビジーが有力な原因と推定し、他システム側を調査するように提示する。処理装置2内の処理ユニット間や処理ユニット内部でタイムアウトが発生した場合は提示の優先度は前述よりも低く、処理内容やタイムアウト値の設定誤りが有力な原因と推定し、処理内容やタイムアウト値の見直しを提示する。
また、タイムアウト起因のエラーが複数発生した場合に、タイムアウトの種類と送信先の種類の情報から、どの箇所のエラーを優先して確認すれば良いかを提示する事で、運用管理者の負荷を削減する事ができる。
Specifically, if a connection timeout or response timeout occurs for another system other than the processing device 2 such as an external server (external service), it is presumed that the service down or busy of the other system is the probable cause. Present to investigate the other system side. If a timeout occurs between the processing units in the processing device 2 or inside the processing unit, the priority of presentation is lower than the above, and it is presumed that an error in setting the processing content or timeout value is a probable cause, and the processing content or timeout value is presumed to be the probable cause. Present a review of.
In addition, when multiple errors due to timeout occur, the load on the operation administrator can be reduced by presenting which part of the error should be prioritized and confirmed from the information on the type of timeout and the type of destination. It can be reduced.

処理ユニットは、上記で説明した処理装置2、ログ解析装置1の機能を搭載するものであれば形態は何であってもよい。例えば、通信基盤アプリケーションとして処理ユニットの全ての処理が一つのサーバ上で実行される形態や、個別のWebアプリケーションとして別々の処理ユニットが複数のサーバ上で動作する形態であってもよい。 The processing unit may be in any form as long as it is equipped with the functions of the processing device 2 and the log analysis device 1 described above. For example, as a communication infrastructure application, all the processing of the processing units may be executed on one server, or as individual Web applications, different processing units may operate on a plurality of servers.

また、上記で説明した原因と対処を運用管理者に提示する機能は、エンタープライズサービスバス領域、マイクロサービス領域、ハイブリッドクラウド領域等の疎結合で動作するサービスを管理する運用管理製品への適用も可能である。 In addition, the function that presents the causes and countermeasures explained above to the operation manager can also be applied to operation management products that manage services that operate in loose coupling such as the enterprise service bus area, microservice area, and hybrid cloud area. Is.

また、本実施の形態では、処理装置2とログ解析装置1を別の装置として説明しているが、これら2つの装置の機能を1つの装置に収めるようにしてもよい。 Further, in the present embodiment, the processing device 2 and the log analysis device 1 are described as separate devices, but the functions of these two devices may be contained in one device.

図10に示すログ解析装置1の解析処理では、優先度の高い条件を満たす解析ログがある場合、その解析ログを用いた原因や対策の提示をする処理をし、処理を終了している。これに限定されるものではなく、各条件を満たす証跡ログをすべて抽出し、優先度の高い順で、原因や対策の提示をするようにしてもよい。また、この際、優先度に関する情報も加えて、提示をするようにしてもよい。 In the analysis process of the log analysis device 1 shown in FIG. 10, when there is an analysis log satisfying a high priority condition, a process of presenting a cause and a countermeasure using the analysis log is performed, and the process is completed. Not limited to this, all trail logs satisfying each condition may be extracted, and causes and countermeasures may be presented in descending order of priority. At this time, the information on the priority may be added and presented.

図11は、本発明の一実施形態によるログ解析装置1の最小構成図を示す図である。ログ解析装置1は、解析部12を備える。
解析部12は、処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて、処理ユニットとリクエスト先の関連性、タイムアウト種別から、有力なタイムアウトの原因を推定する処理を行う。
FIG. 11 is a diagram showing a minimum configuration diagram of the log analysis device 1 according to the embodiment of the present invention. The log analysis device 1 includes an analysis unit 12.
The analysis unit 12 is a trail log including information for specifying a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and processing is performed using the trail log. Performs processing to estimate the cause of a promising timeout from the relationship between the unit and the request destination and the timeout type.

上述の処理装置2、ログ解析装置1は内部に、コンピュータシステムを有している。そして、上述した証跡ログの出力、証跡ログの解析の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。 The processing device 2 and the log analysis device 1 described above have a computer system inside. The process of outputting the trail log and analyzing the trail log described above is stored in a computer-readable recording medium in the form of a program, and the above processing is performed by the computer reading and executing this program. .. Here, the computer-readable recording medium refers to a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Further, this computer program may be distributed to a computer via a communication line, and the computer receiving the distribution may execute the program.

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the above program may be for realizing a part of the above-mentioned functions. Further, a so-called difference file (difference program) may be used, which can realize the above-mentioned functions in combination with a program already recorded in the computer system.

1・・・ログ解析装置
2・・・処理装置
3・・・処理ログDB
4・・・サービス要求端末
5・・・外部サーバ
11・・・取得部
12・・・解析部
13・・・提示部
14・・・結果出力部
21・・・送受信部
22・・・処理部
23・・・タイムアウト設定部
24・・・ログ出力部
1 ... Log analysis device 2 ... Processing device 3 ... Processing log DB
4 ... Service request terminal 5 ... External server 11 ... Acquisition unit 12 ... Analysis unit 13 ... Presentation unit 14 ... Result output unit 21 ... Transmission / reception unit 22 ... Processing unit 23 ... Time-out setting unit 24 ... Log output unit

Claims (9)

処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段
を備えるログ解析装置。
A trail log containing information that specifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and the processing unit and the request destination using the trail log. A log analysis device provided with an analysis means for estimating a probable cause of a timeout from the relevance of the above and the timeout type.
前記解析手段は、
前記推定された原因に関する証跡ログを利用して、タイムアウトの原因に関するメッセージを生成する提示手段
をさらに備える請求項1に記載のログ解析装置。
The analysis means
The log analysis device according to claim 1, further comprising a presenting means for generating a message regarding the cause of the timeout by using the trail log regarding the probable cause.
複数の処理ユニットから構成される処理装置にて処理のタイムアウトが生じた際、前記複数の処理ユニットにて出力された証跡ログを取得する取得手段
を備え、
前記解析手段は、
前記取得手段により取得された前記複数の処理ユニットからの証跡ログを用いて、前記有力なタイムアウトの原因を特定する
請求項1または請求項2のいずれかに記載のログ解析装置。
It is provided with an acquisition means for acquiring the trail log output by the plurality of processing units when a processing timeout occurs in a processing device composed of a plurality of processing units.
The analysis means
The log analysis device according to claim 1 or 2, wherein the trail logs from the plurality of processing units acquired by the acquisition means are used to identify the cause of the promising timeout.
前記解析手段は、
前記証跡ログにおいて、タイムアウトが前記処理ユニットを構成する装置外の装置との関係で生じている場合、該処理ユニットを構成する装置外の装置との関係で生じているタイムアウトに起因する事象を前記有力なタイムアウトの原因として優先度を高くする
請求項1から請求項3のいずれか一項に記載のログ解析装置。
The analysis means
In the trail log, when the timeout occurs in relation to the device outside the device constituting the processing unit, the event caused by the timeout occurring in relation to the device outside the device constituting the processing unit is described. The log analysis apparatus according to any one of claims 1 to 3, which raises the priority as a leading cause of a timeout.
前記解析手段は、
前記証跡ログにおいて、タイムアウトが前記処理ユニット、または、前記処理ユニットの間の関係で生じている場合のタイムアウトに起因する事象の優先度を、タイムアウトが前記処理ユニットを構成する装置外の装置との関係で生じている場合の優先度に比べ低くする
請求項4に記載のログ解析装置。
The analysis means
In the trail log, the priority of the event caused by the timeout when the timeout occurs in the processing unit or the relationship between the processing units is set with the device outside the device in which the timeout constitutes the processing unit. The log analysis apparatus according to claim 4, wherein the priority is lower than the priority when the relationship occurs.
処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログを出力するログ出力手段を備える複数の処理ユニットからなる処理装置と、
前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する解析手段を備えるログ解析装置と
からなるログ解析システム。
A processing device consisting of a processing unit including a processing unit that performs processing, a processing request destination from the processing unit, and a log output means for outputting a trail log including information that specifies a processing timeout type in the processing unit. ,
A log analysis system including a log analysis device including an analysis means for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using the trail log.
処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する
コンピュータによるログ解析方法。
A trail log containing information that specifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and the processing unit and the request destination using the trail log. A computer-based log analysis method that estimates the cause of a promising timeout from the relevance of the above and the timeout type.
処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログを出力し、
前記証跡ログを用いて、前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する特定する
コンピュータによるログ解析方法。
Outputs a trail log containing information that specifies the processing unit that performs processing, the processing request destination from the processing unit, and the processing timeout type in the processing unit.
A computer-based log analysis method for estimating a probable cause of a timeout from the relationship between the processing unit and the request destination and the timeout type using the trail log.
処理を行う処理ユニット、該処理ユニットからの処理のリクエスト先、該処理ユニットでの処理のタイムアウト種別を特定する情報を含む証跡ログであって、該証跡ログを用いて前記処理ユニットと前記リクエスト先の関連性、前記タイムアウト種別から、有力なタイムアウトの原因を推定する
ログ解析装置用のプログラム。
A trail log containing information that specifies a processing unit that performs processing, a processing request destination from the processing unit, and a time-out type of processing in the processing unit, and the processing unit and the request destination using the trail log. A program for a log analysis device that estimates the cause of a promising timeout from the relevance of the above and the timeout type.
JP2019234073A 2019-12-25 2019-12-25 Log analysis device, log analysis system, log analysis method, and program for log analysis Pending JP2021103409A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019234073A JP2021103409A (en) 2019-12-25 2019-12-25 Log analysis device, log analysis system, log analysis method, and program for log analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019234073A JP2021103409A (en) 2019-12-25 2019-12-25 Log analysis device, log analysis system, log analysis method, and program for log analysis

Publications (1)

Publication Number Publication Date
JP2021103409A true JP2021103409A (en) 2021-07-15

Family

ID=76755182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019234073A Pending JP2021103409A (en) 2019-12-25 2019-12-25 Log analysis device, log analysis system, log analysis method, and program for log analysis

Country Status (1)

Country Link
JP (1) JP2021103409A (en)

Similar Documents

Publication Publication Date Title
US9122520B2 (en) Generic wait service: pausing a BPEL process
CN108520454A (en) Method and system for calling back orders in real time
EP2779583B1 (en) Telecommunication method and system
US8683587B2 (en) Non-intrusive monitoring of services in a services-oriented architecture
US20160224400A1 (en) Automatic root cause analysis for distributed business transaction
JP2011076371A (en) Job processing system, and method and program for the same
US20130097578A1 (en) Dynamically selecting service provider, computing system, computer, and program
US8914517B1 (en) Method and system for predictive load balancing
CN112445860B (en) Method and device for processing distributed transaction
US20150332280A1 (en) Compliant auditing architecture
JPWO2008105099A1 (en) Application cooperation control program, application cooperation control method, and application cooperation control apparatus
JP2021103409A (en) Log analysis device, log analysis system, log analysis method, and program for log analysis
US11811894B2 (en) Reduction of data transmissions based on end-user context
CN113535439B (en) Service request processing method, device, equipment and storage medium
US10430582B2 (en) Management apparatus and management method
WO2018200167A1 (en) Managing asynchronous analytics operation based on communication exchange
CN111061576B (en) Method and system for creating entity object
CN115170152A (en) Data distribution method, device, equipment and storage medium
JP2012022641A (en) Information analysis apparatus for analyzing system stability, information analysis method, information analysis system and program
US8352553B2 (en) Electronic mail connector
CN111414269A (en) Log alarm method, device, storage medium and equipment
CN113590425B (en) Data processing method, apparatus, device, medium, and program product
US20240202023A1 (en) Report reexecution framework
US20240297860A1 (en) Technique for communicating electronic messages
CN112181763B (en) Intelligent detection alarm method and device in intelligent scheduling