JP5869513B2 - Fault response system and fault response method - Google Patents

Fault response system and fault response method Download PDF

Info

Publication number
JP5869513B2
JP5869513B2 JP2013079635A JP2013079635A JP5869513B2 JP 5869513 B2 JP5869513 B2 JP 5869513B2 JP 2013079635 A JP2013079635 A JP 2013079635A JP 2013079635 A JP2013079635 A JP 2013079635A JP 5869513 B2 JP5869513 B2 JP 5869513B2
Authority
JP
Japan
Prior art keywords
information processing
processing apparatus
failure
application
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013079635A
Other languages
Japanese (ja)
Other versions
JP2014203294A (en
Inventor
英樹 高野
英樹 高野
前岡 淳
淳 前岡
祖父江 恒夫
恒夫 祖父江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013079635A priority Critical patent/JP5869513B2/en
Publication of JP2014203294A publication Critical patent/JP2014203294A/en
Application granted granted Critical
Publication of JP5869513B2 publication Critical patent/JP5869513B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、障害対応システムおよび障害対応方法に関するものであり、具体的には、ネットワーク上の複数装置間でアプリケーションが連携する環境において、障害発生時に障害発生箇所を効率的に特定して、状況に応じた適宜な障害対応をユーザに促し、障害の影響を効果的に抑制可能とする技術に関する。   The present invention relates to a failure handling system and a failure handling method. Specifically, in an environment in which applications are linked among a plurality of devices on a network, the location where a failure occurs is efficiently identified when a failure occurs. The present invention relates to a technology that prompts the user to take appropriate measures according to the situation and effectively suppress the influence of the failures.

システム障害が発生した場合、発生した障害の原因を特定するために、該当システムにおけるアプリケーション実行時に出力されているログを分析し、その障害状況に応じた処理を実施して障害の影響を低減する技術思想がある。   When a system failure occurs, in order to identify the cause of the failure that occurred, analyze the log that was output when the application was running on the system, and perform processing according to the failure status to reduce the impact of the failure. There is a technical idea.

このような技術としては、例えば、障害通知処理を組み込んだアプリケーションプログラムからの情報を収集する情報収集手段が、障害の発生したアプリケーションプログラムからの障害通知を受けた場合、該受けた障害通知に対応する障害収集処理プログラムを障害通知側に送付する障害情報収集装置(特許文献1参照)などが提案されている。   As such a technique, for example, when an information collection unit that collects information from an application program in which failure notification processing is incorporated receives a failure notification from the application program in which a failure has occurred, it responds to the received failure notification. A failure information collection device (see Patent Document 1) that sends a failure collection processing program to the failure notification side has been proposed.

また、他に、エラーを一意に識別するためのエラーコードとエラーの種類であるエラーレベルとを対応づけたエラーレベル対応表を記憶する記憶手段と、アプリケーションプログラムにおいてエラーが発生すると、該エラーのエラーコードをキーとしてエラーレベル対応表を検索してエラーレベルを取得し、該エラーレベルに応じた障害復旧処理を行うエラーレベル判定手段とを備える障害自動復旧システム(特許文献2参照)なども提案されている。   In addition, a storage unit that stores an error level correspondence table that associates an error code for uniquely identifying an error with an error level that is an error type, and when an error occurs in an application program, An automatic failure recovery system (see Patent Document 2) including an error level determination unit that searches an error level correspondence table using an error code as a key, acquires an error level, and performs failure recovery processing according to the error level is also proposed. Has been.

特開2001−282671号公報JP 2001-282671 A 特開2001−5693号公報JP 2001-5893 A

一方、昨今ではスマートフォンやタブレット端末等の高機能な携帯端末が増加しており、これらの携帯端末は、ユーザによるアプリケーションのインストールが端末購入後に自由に実行できる、アプリケーション実行基盤を備えている。また、一部のカーナビゲーション装置も、その購入後にユーザがアプリケーションを自由にインストールできる機能を有している。更に、そうしたカーナビゲーション装置のうち、テレマティクスサービス(telematics service)に接続するものは、スマートフォンで動作するアプリケーションと連携してユーザに機能を提供できるものがある。このスマートフォンで動作するアプリケーションも、カーナビゲーション装置購入後にユーザが自由に追加可能となっている。   On the other hand, in recent years, highly functional portable terminals such as smartphones and tablet terminals are increasing, and these portable terminals have an application execution base that allows a user to install an application freely after purchasing the terminal. Some car navigation devices also have a function that allows a user to freely install an application after purchase. Furthermore, some of such car navigation devices that are connected to a telematics service can provide a function to a user in cooperation with an application that operates on a smartphone. The application that operates on the smartphone can also be freely added by the user after purchasing the car navigation device.

上述した、携帯端末、携帯端末と接続したカーナビゲーション装置などの各種装置、および、携帯端末(のキャリア)を介して各種装置に情報提供を行うサーバ、のように、複数の装置がネットワーク上で互いに協働し、しかも装置購入後にユーザが自由にインストールした複数のアプリケーションが実行されるといったシステムに関して、従来の障害対応手法を採用するとしても課題が残されていた。   A plurality of devices such as a mobile terminal, various devices such as a car navigation device connected to the mobile terminal, and a server that provides information to the various devices via the mobile terminal (carriers) are provided on the network. Even if the conventional failure handling method is adopted for a system that cooperates with each other and that executes a plurality of applications that are freely installed by the user after the purchase of the device, a problem remains.

例えば、従来技術においては、障害情報を収集する対象が、障害の発生したアプリケーションが動作するサーバとなっており、障害発生箇所が不明な場合にネットワーク上で連携して動作する複数の装置から障害情報を自動収集して原因箇所を特定し、必要な対応処理を行うことは実現されていない。また、障害発生時のエラーコードに基づいて状況を判断し、必要な対応処理を行う場合、プログラム品質の問題等によりエラーコードが正しく出力されない、或いは障害によってエラーコードの出力自体が実行されない、といった事態に対応することはできない。また、障害発生時に、被害を受けたユーザの状況を踏まえた適切なメッセージを、適切なタイミングに調整して出力するといった、障害復旧以外の幅広い目的に対応することも出来なかった。   For example, in the prior art, failure information is collected from a server on which a failed application operates, and when the location of the failure is unknown, the failure is detected from multiple devices operating in cooperation on the network. It has not been realized to automatically collect information, identify the cause, and perform the necessary response processing. Also, when judging the situation based on the error code at the time of the failure and performing the necessary response processing, the error code is not output correctly due to a program quality problem, etc., or the error code output itself is not executed due to the failure I cannot respond to the situation. Moreover, when a failure occurs, it was not possible to cope with a wide range of purposes other than failure recovery, such as adjusting and outputting an appropriate message based on the situation of the affected user at an appropriate timing.

そこで本発明の目的は、ネットワーク上の複数装置間でアプリケーションが連携する環境において、障害発生時に障害発生箇所を効率的に特定して、状況に応じた適宜な障害対応をユーザに促し、障害の影響を効果的に抑制可能とする技術を提供することにある。   Accordingly, an object of the present invention is to efficiently identify a failure occurrence location when a failure occurs in an environment in which applications are linked among a plurality of devices on the network, and prompt the user to take appropriate failure countermeasures according to the situation. The object is to provide a technique capable of effectively suppressing the influence.

上記課題を解決する本発明の障害対応システムは、ネットワークを介しアプリケーションを互いに連携させる複数の情報処理装置を含むシステムであって、各情報処理装置は、アプリケーション実行時に、他の情報処理装置たる第2の情報処理装置のアプリケーションの呼び出しが発生する度に、情報処理装置間を跨る処理の識別子と情報処理装置間の送受信関係とを含む通信ログを記憶装置に格納する処理と、障害発生時に、エラー内容と前記識別子とを含むアプリログを記憶装置に格納する処理と、障害検知時に、前記アプリログが含む前記識別子をキーとして前記通信ログでの検索を行い、障害発生時に前記識別子に対応した処理で利用された第2の情報処理装置を特定する処理と、前記特定した第2の情報処理装置に対し、当該第2の情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、当該第2の情報処理装置が前記識別子に対応付いた処理での通信相手とした第3の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかを要求する処理と、前記要求が前記第2の情報処理装置で実行されて返信された結果として、前記識別子に対応付いたアプリログと、前記第3の情報処理装置におけるモジュールに関する動作確認結果との少なくとも何れかの情報を取得し、当該取得した情報に基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定する処理と、障害箇所に応じて予め定められた対応動作の内容に基づいて、前記特定した障害箇所に応じた対応動作を特定し、該当対応動作を実行する処理と、を実行する演算装置を備えることを特徴とする。   The failure handling system of the present invention that solves the above problem is a system that includes a plurality of information processing apparatuses that link applications together via a network, and each information processing apparatus is a first information processing apparatus that is the other information processing apparatus when executing the application. Each time an application call of the information processing apparatus 2 is generated, a process of storing a communication log including an identifier of a process across the information processing apparatuses and a transmission / reception relationship between the information processing apparatuses in a storage device; Processing for storing an application log including an error content and the identifier in a storage device, and when a failure is detected, a search is performed in the communication log using the identifier included in the application log as a key, and the identifier corresponds to the identifier when a failure occurs. A process for specifying the second information processing apparatus used in the process and the second information processing apparatus for the specified second information processing apparatus A module for the third information processing apparatus that the information processing apparatus holds and acquires the application log associated with the identifier and that the second information processing apparatus uses as a communication partner in the process associated with the identifier A process requesting at least one of the operation confirmation, an application log associated with the identifier as a result of the request being executed and returned by the second information processing apparatus, and the third information Processing for acquiring at least one of the information on the operation confirmation result regarding the module in the processing device, and identifying an application or module of the information processing device not performing normal operation as a failure location based on the acquired information; Based on the content of the corresponding action predetermined according to the location, the corresponding action according to the identified failure location is specified, and the corresponding response operation is executed. Characterized in that it comprises an arithmetic unit for the processing of the execution.

また、本発明の障害対応方法は、ネットワークを介しアプリケーションを互いに連携させる各情報処理装置が、アプリケーション実行時に、他の情報処理装置たる第2の情報処理装置のアプリケーションの呼び出しが発生する度に、情報処理装置間を跨る処理の識別子と情報処理装置間の送受信関係とを含む通信ログを記憶装置に格納する処理と、障害発生時に、エラー内容と前記識別子とを含むアプリログを記憶装置に格納する処理と、障害検知時に、前記アプリログが含む前記識別子をキーとして前記通信ログでの検索を行い、障害発生時に前記識別子に対応した処理で利用された第2の情報処理装置を特定する処理と、前記特定した第2の情報処理装置に対し、当該第2の情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、当該第2の情報処理装置が前記識別子に対応付いた処理での通信相手とした第3の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかを要求する処理と、前記要求が前記第2の情報処理装置で実行されて返信された結果として、前記識別子に対応付いたアプリログと、前記第3の情報処理装置におけるモジュールに関する動作確認結果との少なくとも何れかの情報を取得し、当該取得した情報に基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定する処理と、障害箇所に応じて予め定められた対応動作の内容に基づいて、前記特定した障害箇所に応じた対応動作を特定し、該当対応動作を実行する処理と、を実行することを特徴とする。   Further, the failure handling method of the present invention is such that each information processing device that links applications with each other via a network each time an application is called from the second information processing device, which is another information processing device, when the application is executed. Processing for storing a communication log including an identifier of processing across information processing devices and a transmission / reception relationship between information processing devices in a storage device, and storing an application log including an error content and the identifier when a failure occurs And a process of performing a search in the communication log using the identifier included in the application log as a key when a failure is detected, and specifying a second information processing apparatus used in the process corresponding to the identifier when the failure occurs And the application log associated with the identifier held by the second information processing apparatus for the specified second information processing apparatus A process for requesting at least one of acquisition and operation check of a module directed to a third information processing apparatus as a communication partner in the process associated with the identifier by the second information processing apparatus; As a result of the request being executed and returned by the second information processing apparatus, at least one of information of an application log associated with the identifier and an operation confirmation result regarding the module in the third information processing apparatus Based on the content of the corresponding operation determined in advance according to the process of identifying the application or module of the information processing apparatus that is not performing normal operation based on the acquired information as a failure location And specifying a corresponding action corresponding to the specified failure location and executing the corresponding action.

本発明によれば、ネットワーク上の複数装置間でアプリケーションが連携する環境において、障害発生時に障害発生箇所を効率的に特定して、状況に応じた適宜な障害対応をユーザに促し、障害の影響を効果的に抑制することができる。   According to the present invention, in an environment in which applications are linked among a plurality of devices on a network, the location of a failure is efficiently identified when a failure occurs, and the user is encouraged to take appropriate measures according to the situation. Can be effectively suppressed.

本実施形態における障害対応システムの構成例を示す図である。It is a figure which shows the structural example of the failure response system in this embodiment. 本実施形態におけるユーザ端末の構成例を示す図である。It is a figure which shows the structural example of the user terminal in this embodiment. 本実施形態におけるサーバの構成例を示す図である。It is a figure which shows the structural example of the server in this embodiment. 本実施形態における管理サーバの構成例を示す図である。It is a figure which shows the structural example of the management server in this embodiment. 本実施形態における障害対応方法の処理手順例1を示す図である。It is a figure which shows the process sequence example 1 of the failure response method in this embodiment. 本実施形態における通信ログの出力例を示す図である。It is a figure which shows the example of an output of the communication log in this embodiment. 本実施形態におけるアプリログの出力例を示す図である。It is a figure which shows the example of an output of the application log in this embodiment. 本実施形態における障害対応方法の処理手順例2を示す図である。It is a figure which shows process sequence example 2 of the failure response method in this embodiment. 本実施形態における障害対応方法の処理手順例3を示す図である。It is a figure which shows process sequence example 3 of the failure response method in this embodiment. 本実施形態における障害対応方法の処理手順例4を示す図である。It is a figure which shows the process sequence example 4 of the failure response method in this embodiment. 本実施形態の障害状況調査結果の例を示す図である。It is a figure which shows the example of the failure condition investigation result of this embodiment. 本実施形態のモジュール確認方法データの例を示す図である。It is a figure which shows the example of the module confirmation method data of this embodiment. 本実施形態の障害対応方法DBのデータ構成例を示す図である。It is a figure which shows the data structural example of failure response method DB of this embodiment. 本実施形態のユーザプロファイルのデータ構成例を示す図である。It is a figure which shows the example of a data structure of the user profile of this embodiment.

以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の障害対応システム1の構成例を示す図である。図1に示す障害対応システム1は、ネットワーク上の複数装置間でアプリケーションが連携する環境において、障害発生時に障害発生箇所を効率的に特定して、状況に応じた適宜な障害対応をユーザに促し、障害の影響を効果的に抑制可能とするコンピュータシステムである。   Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a diagram illustrating a configuration example of a failure handling system 1 according to the present embodiment. The failure handling system 1 shown in FIG. 1 efficiently identifies the location of a failure when a failure occurs in an environment in which applications are linked among a plurality of devices on the network, and prompts the user for appropriate failure handling according to the situation. This is a computer system that can effectively suppress the influence of a failure.

ここでは、ユーザが利用するユーザ端末10とデータセンタ100の各サーバ装置らをキャリアネットワーク20で接続したネットワーク構成を前提とする。また、ユーザ端末10と上述のサーバ装置の各々に所定のプログラムを配置することで、アプリケーション実行基盤を実現し、このアプリケーション実行基盤上で動作するアプリケーションに障害が発生した時に、適切な障害対策を自動的に実施するのが本実施形態の障害対応システム1となる。   Here, it is assumed that the user terminal 10 used by the user and each server device of the data center 100 are connected by the carrier network 20. In addition, by arranging a predetermined program in each of the user terminal 10 and the server device described above, an application execution platform is realized, and when a failure occurs in an application operating on the application execution platform, appropriate countermeasures are taken. What is automatically executed is the failure handling system 1 of the present embodiment.

図1に示すネットワーク構成において、ユーザ端末10は、アプリケーションのユーザが利用する情報処理装置である。このユーザ端末10は、キャリアネットワーク20経由で、データセンタ100に配置したサーバ装置の機能を利用する。本実施形態では、ユーザ端末10としてカーナビゲーション機能を提供する車載機を想定する。   In the network configuration shown in FIG. 1, a user terminal 10 is an information processing apparatus used by an application user. The user terminal 10 uses the function of the server device arranged in the data center 100 via the carrier network 20. In the present embodiment, an in-vehicle device that provides a car navigation function is assumed as the user terminal 10.

なお、ユーザ端末10とデータセンタ100との間を接続するネットワークとして、図1の例では、携帯電話回線であるキャリアネットワーク20を想定しているが、勿論、ユーザ端末10とデータセンタ100との間の通信プロトコルに応じて適宜なネットワークを採用すればよい。   Note that, in the example of FIG. 1, the carrier network 20 that is a mobile phone line is assumed as a network that connects the user terminal 10 and the data center 100, but of course, between the user terminal 10 and the data center 100. An appropriate network may be employed according to the communication protocol between the two.

一方、データセンタ100には、負荷分散器110、A1サーバ130、A2サーバ140、Bサーバ150、管理サーバ120が配置され、各装置はネットワークで接続さている。こデータセンタ100におけるネットワークは、ユーザ端末10と通信できるように上述のキャリアネットワーク20と接続している。また、これらのデータセンタ100の各装置110〜150は、物理サーバ装置または仮想情報処理装置のいずれかである。   On the other hand, in the data center 100, a load balancer 110, an A1 server 130, an A2 server 140, a B server 150, and a management server 120 are arranged, and each device is connected via a network. The network in the data center 100 is connected to the carrier network 20 described above so that it can communicate with the user terminal 10. In addition, each of the devices 110 to 150 of the data center 100 is either a physical server device or a virtual information processing device.

こうしたネットワーク構成において、上述のユーザ端末10に配置したユーザ端末アプリから所定の処理要求を出すと、A1サーバ130又はA2サーバ140、及びBサーバ150に配置したサーバアプリが連携して処理を行い、上述の処理要求に対する応答をユーザ端末10のユーザ端末アプリに送返信することとなる。   In such a network configuration, when a predetermined processing request is issued from the user terminal application arranged on the user terminal 10 described above, the server application arranged on the A1 server 130 or the A2 server 140 and the B server 150 performs processing, A response to the above processing request is sent back to the user terminal application of the user terminal 10.

なお、上述の負荷分散器110は、ユーザ端末10で実行するユーザ端末アプリからの処理要求を複数のサーバ130、140のいずれかに振り分ける機能を持つ。本実施形態では、A1サーバ130及びA2サーバ140は同様のサーバアプリ機能を有することを想定しており、従って、負荷分散器110は、ユーザ端末10で動作するユーザ端末アプリからの処理要求を受けた場合、A1サーバ130又はA2サーバ140に処理を振り分ける。この振り分けの処理は、例えば、ユーザ端末10から処理要求を受け取る順序に従って交互に振り分け先を切り替えたり、各サーバに所定の処理要求を送信し応答を受け取るまでにかかった時間を計測し、その時間が短い方に振り分けたりする方法を取る。   The load balancer 110 described above has a function of distributing a processing request from a user terminal application executed on the user terminal 10 to one of the plurality of servers 130 and 140. In the present embodiment, it is assumed that the A1 server 130 and the A2 server 140 have the same server application function. Therefore, the load balancer 110 receives a processing request from the user terminal application that operates on the user terminal 10. If it happens, the process is distributed to the A1 server 130 or the A2 server 140. This distribution process is performed by, for example, switching the distribution destination alternately according to the order in which the processing requests are received from the user terminal 10, or measuring the time taken to send a predetermined processing request to each server and receive a response. Take a way to sort the shortest.

また、Bサーバ150のサーバアプリは、A1サーバ130又はA2サーバ140に配置したアプリケーションから利用する機能を有している。例えば、A1サーバ130及びA2サーバ140にはWebサーバ機能とWebサーバが受け取った処理要求に応じて所定の処理を実行するアプリの実行機能を配置し、このアプリの実行時に当該アプリが利用するデータをA1サーバ130とA2サーバ140で共通化するため、データベース機能をBサーバ150に配置して連携するものとする。   Further, the server application of the B server 150 has a function used from an application arranged in the A1 server 130 or the A2 server 140. For example, the A1 server 130 and the A2 server 140 are provided with a Web server function and an application execution function for executing a predetermined process in response to a processing request received by the Web server, and data used by the application when the application is executed. Are shared by the A1 server 130 and the A2 server 140, the database function is arranged in the B server 150 and cooperates.

図2にユーザ端末10の構成例を示す。ユーザ端末10は情報処理装置であり、CPU201、メモリ202、記憶装置220、表示装置203、入力装置204、位置測位装置205、通信装置206、加速度センサ207、ジャイロセンサ208、車両情報取得装置209で構成する。記憶装置220は、本実施形態の障害対応システム1を構成する情報処理装置としての機能を実装するためのプログラム225、221や、各データを格納している。また、CPU201は、記憶装置220に保存されたプログラム225、221やデータを適宜メモリ202に読み込んで処理する。   FIG. 2 shows a configuration example of the user terminal 10. The user terminal 10 is an information processing device, and includes a CPU 201, a memory 202, a storage device 220, a display device 203, an input device 204, a position positioning device 205, a communication device 206, an acceleration sensor 207, a gyro sensor 208, and a vehicle information acquisition device 209. Configure. The storage device 220 stores programs 225 and 221 for implementing functions as an information processing device constituting the failure handling system 1 of the present embodiment, and each data. Further, the CPU 201 reads the programs 225 and 221 and data stored in the storage device 220 into the memory 202 as appropriate and processes them.

また、表示装置203は、上述のプログラム225、221の実行結果をユーザに示す装置でありディスプレイ装置を想定できる。また、入力装置204はユーザからの指示を受け付ける装置であり、キーボードやマウス等の装置を想定できる。   The display device 203 is a device that shows the execution results of the above-described programs 225 and 221 to the user, and a display device can be assumed. The input device 204 is a device that receives instructions from the user, and devices such as a keyboard and a mouse can be assumed.

また、位置測位装置205は、ユーザ端末10が存在する位置を測位する装置であり、GPSユニット等を想定出来る。また、通信装置206は、キャリアネットワーク20を介してデータセンタ100のサーバ類とデータを送受信する装置である。   The position positioning device 205 is a device that measures the position where the user terminal 10 exists, and a GPS unit or the like can be assumed. The communication device 206 is a device that transmits / receives data to / from the servers of the data center 100 via the carrier network 20.

また、加速度センサ207は、ユーザ端末10の加速度を測定する装置であり、ジャイロセンサ208は、ユーザ端末10の角速度を測定する装置である。   The acceleration sensor 207 is a device that measures the acceleration of the user terminal 10, and the gyro sensor 208 is a device that measures the angular velocity of the user terminal 10.

また、車両情報取得装置209は、当該ユーザ端末10が搭載された車両の制御に用いられる車内ネットワークに接続し、車両状態等に関する車両情報(例:アクセルやブレーキの踏み込み度合いや車両の速度等の情報)を取得するために用いる装置である。   In addition, the vehicle information acquisition device 209 is connected to an in-vehicle network used for control of the vehicle on which the user terminal 10 is mounted, and vehicle information on the vehicle state and the like (e.g., the degree of depression of an accelerator or a brake, the speed of the vehicle, etc.) Information).

次に、記憶装置220に格納するプログラムとデータについて説明する。ユーザ端末アプリ221は、ユーザが利用するアプリケーションを実現するプログラムである。また、プログラム225は、本実施形態の障害対応システム1を構成する情報処理装置として必要な機能を実装するためのプログラムとなる。   Next, programs and data stored in the storage device 220 will be described. The user terminal application 221 is a program that realizes an application used by the user. The program 225 is a program for implementing functions necessary for the information processing apparatus constituting the failure handling system 1 of the present embodiment.

また、ユーザプロファイル231は、該当情報処理装置のユーザの属性(例:年齢1402、性別1403、住所1404など)を格納したデータベースである(図14参照)。   The user profile 231 is a database that stores user attributes (eg, age 1402, gender 1403, address 1404, etc.) of the corresponding information processing apparatus (see FIG. 14).

また、通信ログファイル232は、プログラムの動作を追跡可能とするために用いる通信ログを保存するファイルであり、アプリログファイル233は、プログラム実行中に発生した障害情報を表すアプリログを保存するファイルである。なお、通信ログファイル232、アプリログファイル233は、ファイルではなくDB等を用いても良い。   Further, the communication log file 232 is a file for storing a communication log used for making it possible to track the operation of the program, and the application log file 233 is a file for storing an application log representing failure information generated during the program execution. It is. Note that the communication log file 232 and the application log file 233 may use a DB instead of a file.

また、障害対応方法DB234は、障害の状況に応じた振る舞いを格納するデータベースである。この障害対応方法DB234は、DBではなくファイルを用いても良い。   The failure handling method DB 234 is a database that stores behaviors according to the failure status. The failure handling method DB 234 may use a file instead of a DB.

図3に、A1サーバ130、A2サーバ140、およびBサーバ150の各サーバ装置の構成例を示す。各サーバは、CPU301、メモリ302、記憶装置320、表示装置303、入力装置304、通信装置305を、上述のユーザ端末10と同様に備えている。また、記憶装置320には、サーバアプリ321、および、障害対応システム1を構成する情報処理装置として必要な機能を実装するためのプログラム325、通信ログファイル326、アプリログファイル327を格納する。   FIG. 3 shows a configuration example of each server device of the A1 server 130, the A2 server 140, and the B server 150. Each server includes a CPU 301, a memory 302, a storage device 320, a display device 303, an input device 304, and a communication device 305 in the same manner as the user terminal 10 described above. In addition, the storage device 320 stores a server application 321 and a program 325, a communication log file 326, and an application log file 327 for implementing functions necessary as an information processing device constituting the failure handling system 1.

サーバアプリ321は、ユーザ端末アプリ221と連携してユーザに機能を提供するプログラムである。ここでは、A1サーバ130、A2サーバ140には同じサーバアプリ321が稼働し、Bサーバ150には、A1サーバ130、A2サーバ140とは異なるサーバアプリ321が稼働することを想定する。なお、通信ログファイル326、アプリログファイル327は、図2のユーザ端末10の記憶装置220に格納した同名のプログラム、データと同様の構成、役割を持つ。   The server application 321 is a program that provides functions to the user in cooperation with the user terminal application 221. Here, it is assumed that the same server application 321 operates on the A1 server 130 and the A2 server 140, and a server application 321 different from the A1 server 130 and the A2 server 140 operates on the B server 150. Note that the communication log file 326 and the application log file 327 have the same configuration and role as the program and data of the same name stored in the storage device 220 of the user terminal 10 in FIG.

図4に管理サーバ120の構成例を示す。この管理サーバ120においても、CPU401、メモリ402、記憶装置410、表示装置403、入力装置404、通信装置405を、ユーザ端末10等と同様に備えている。このうち、記憶装置410には、障害対応システム1を構成する情報処理装置として必要な機能を実装するためのプログラム425、統合通信ログDB413、および統合アプリログDB414を格納する。統合通信ログDB413、統合アプリログDB414はファイルで実現しても良い。プログラム425は、上述のA1サーバ130、A2サーバ140、Bサーバ150らから送信された通信ログ又はアプリログを受信し、統合通信ログDB413又は統合アプリログDB414に格納する処理と、統合通信ログDB413又は統合アプリログDB414から条件に合致するログを検索する処理とを実装するためのプログラムとなる。   FIG. 4 shows a configuration example of the management server 120. The management server 120 also includes a CPU 401, a memory 402, a storage device 410, a display device 403, an input device 404, and a communication device 405 in the same manner as the user terminal 10 and the like. Among these, the storage device 410 stores a program 425, an integrated communication log DB 413, and an integrated application log DB 414 for implementing functions necessary as an information processing device constituting the failure handling system 1. The integrated communication log DB 413 and the integrated application log DB 414 may be realized by files. The program 425 receives the communication log or application log transmitted from the above-described A1 server 130, A2 server 140, and B server 150 and stores the communication log or application log in the integrated communication log DB 413 or the integrated application log DB 414, and the integrated communication log DB 413. Alternatively, the integrated application log DB 414 is a program for implementing a process for searching for a log that matches a condition.

続いて、上述したネットワーク構成においてユーザ端末10のユーザ端末アプリ221と、A1サーバ130(ないしA2サーバ140)とが連携し、更には、A1サーバ130(ないしA2サーバ140)とBサーバ150とが連携する処理の流れについて説明する。図5は本実施形態における障害対応方法の処理手順例1を示す図であり、具体的には、アプリの処理の流れを示す図である。   Subsequently, in the network configuration described above, the user terminal application 221 of the user terminal 10 and the A1 server 130 (or A2 server 140) cooperate, and further, the A1 server 130 (or A2 server 140) and the B server 150 The flow of processing to be linked will be described. FIG. 5 is a diagram showing a processing procedure example 1 of the failure handling method in the present embodiment, and more specifically, a diagram showing a flow of processing of the application.

この場合、ユーザ端末10は、ユーザ端末アプリ221における処理(501)で、サーバへの通信が必要であるとき、まずトランザクションID(以降、TIDとする)を生成する(502)。以降、このTIDは情報処理装置に跨った通信時に他の情報処理装置に引き渡すこととし、ユーザ端末10やA1サーバ130、A2サーバ140、Bサーバ150らは、通信ログやアプリログ等の出力時に、このTIDを一緒に出力する。   In this case, the user terminal 10 first generates a transaction ID (hereinafter referred to as a TID) (502) when communication with the server is required in the process (501) in the user terminal application 221. Thereafter, this TID is handed over to other information processing devices during communication across the information processing devices, and the user terminal 10, the A1 server 130, the A2 server 140, the B server 150, etc., when outputting communication logs, application logs, etc. , Output this TID together.

次に、ユーザ端末10は、通信ログ(要求送信)を出力(503)した上で、Aサーバ処理要求(504)をキャリアネットワーク20に送信する。Aサーバ処理要求(504)は、その宛先に従って負荷分散器110に到達することになる。   Next, the user terminal 10 outputs a communication log (request transmission) (503), and then transmits an A server processing request (504) to the carrier network 20. The A server processing request (504) reaches the load balancer 110 according to the destination.

この時、負荷分散器110では、サーバ振り分け先の特定処理(505)を実施し、A1サーバ130又はA2サーバ140のどちらへAサーバ処理要求を送信すべきか決定する。負荷分散器110は、決定した送信先(本例ではA1サーバ130とする)にAサーバ処理要求を送信する(506)。   At this time, the load balancer 110 performs a server distribution destination specifying process (505), and determines which of the A1 server 130 and the A2 server 140 should transmit the A server processing request. The load balancer 110 transmits an A server processing request to the determined transmission destination (A1 server 130 in this example) (506).

A1サーバ130は、上述のAサーバ処理要求を受けると、通信ログ(要求受信)を出力(507)し、上述のサーバアプリ321によるAサーバアプリ処理(508)を実施する。また、A1サーバ130は、Bサーバ処理要求を出す場合は、通信ログ(要求送信)を出力(509)し、Bサーバ処理要求をBサーバ150に送信する(510)。   Upon receipt of the above-mentioned A server processing request, the A1 server 130 outputs (507) a communication log (request reception), and executes the A server application processing (508) by the above server application 321. Further, when issuing the B server processing request, the A1 server 130 outputs a communication log (request transmission) (509), and transmits the B server processing request to the B server 150 (510).

Bサーバ150は、上述のBサーバ処理要求を受信すると、通信ログ(要求受信)を出力(511)する。Bサーバ150は、自身のサーバアプリによるBサーバアプリ処理を実施し終えたら、応答を返す前に、通信ログ(応答送信)を出力(513)し、要求元たるA1サーバ130に応答を返す。   When the B server 150 receives the above-described B server processing request, the B server 150 outputs (511) a communication log (request reception). The B server 150 outputs (513) a communication log (response transmission) and returns a response to the requesting A1 server 130 before returning a response after completing the B server application processing by its own server application.

この場合、A1サーバ130はBサーバ150から応答を受け取って、通信ログ(応答受信)を出力(514)し、サーバアプリ321によるAサーバアプリ処理(515)を実行する。A1サーバ130は、要求元たるユーザ端末10に応答する際、通信ログ(応答送信)を出力(516)して応答を返す。   In this case, the A1 server 130 receives a response from the B server 150, outputs a communication log (response reception) (514), and executes the A server application process (515) by the server application 321. When the A1 server 130 responds to the requesting user terminal 10, it outputs (516) a communication log (response transmission) and returns a response.

一方、ユーザ端末10では、A1サーバ130からの応答を受信し、通信ログ(応答受信)を出力(517)して、ユーザ端末アプリ221によるユーザ端末アプリ処理(518)を実行する。こうして、各情報処理装置のアプリケーション間での一連の処理に伴う、通信ログの出力がなされることとなる。なお、図5の例では、TIDをユーザ端末アプリ221による通信の開始時に生成しているが、ユーザ端末アプリ221へのユーザの入力が発生するたびに生成するとしても良い。また、HTTPでアクセスしたときに動作するサーバアプリ処理は、APサーバ上で実施することが一般的であり、APサーバと連携し、APサーバが要求を受け取ったときに、通信ログ(要求受信)出力を自動的に実施する方法も考えられる。   On the other hand, the user terminal 10 receives a response from the A1 server 130, outputs a communication log (response reception) (517), and executes user terminal application processing (518) by the user terminal application 221. In this way, a communication log is output in accordance with a series of processes between applications of each information processing apparatus. In the example of FIG. 5, the TID is generated at the start of communication by the user terminal application 221, but may be generated every time a user input to the user terminal application 221 occurs. In addition, server application processing that operates when accessed via HTTP is generally executed on the AP server. When the AP server receives a request in cooperation with the AP server, a communication log (request reception) A method of automatically performing output is also conceivable.

このような図5に示すシーケンスを実行した結果、出力される通信ログの例を、図6に示す。図6に示す通信ログ600の例では、ユーザ端末10にて生成されたTIDが「123456abc」であり、ユーザ端末10のIPアドレスが「123.1.1.10」、負荷分散器110のIPアドレスが「210.1.1.110」、A1サーバ130のIPアドレスが「210.1.1.130」、Bサーバ150のIPアドレスが「210.1.1.150」となっている。   An example of a communication log output as a result of executing the sequence shown in FIG. 5 is shown in FIG. In the example of the communication log 600 illustrated in FIG. 6, the TID generated in the user terminal 10 is “123456abc”, the IP address of the user terminal 10 is “123.1.1.10”, and the IP of the load balancer 110. The address is “210.1.1.110”, the IP address of the A1 server 130 is “210.1.1.130”, and the IP address of the B server 150 is “210.1.1.150”.

また、この通信ログ600は、A1サーバ130又はA2サーバ140のAサーバアプリは、ポート番号「80」で公開し、A1サーバ130又はA2サーバ140のAサーバアプリへは負荷分散器110を通して、「http://abc.com/app」のURLでアクセスできるように構成されていることを示している。また、Bサーバ150のBサーバアプリは、ポート番号「80」で公開し、「http://210.1.1.150/appB」のURLでアクセスできるよう構成されている。   In addition, the communication log 600 is disclosed by the port number “80” for the A server application of the A1 server 130 or the A2 server 140, and to the A server application of the A1 server 130 or the A2 server 140 through the load balancer 110. It shows that it is configured to be accessible with a URL of “http://abc.com/app”. Further, the B server application of the B server 150 is configured to be disclosed with a port number “80” and accessed with a URL “http://210.1.1.150/appB”.

この通信ログ600における項目は、日時601、通信種別602、TID603、クライアントIP604、クライアントポート番号605、サーバIP606、サーバポート番号607、プログラム種別608、URL609である。このうち日時601は、ログが出力された日時を表す。また、通信種別602は、通信ログの種別を表す情報であり、SND_REQ(要求を送信したことを表す)、RCV_REQ(要求を受信したことを表す)、SND_RES(応答を送信したことを表す)、RCV_RES(応答を受信したことを表す)、といった種類がある。   Items in the communication log 600 are a date 601, a communication type 602, a TID 603, a client IP 604, a client port number 605, a server IP 606, a server port number 607, a program type 608, and a URL 609. Of these, date 601 represents the date and time when the log was output. The communication type 602 is information indicating the type of communication log, SND_REQ (representing that a request has been transmitted), RCV_REQ (representing that a request has been received), SND_RES (representing that a response has been transmitted), There is a type such as RCV_RES (indicating that a response has been received).

また、TID603は、トランザクションIDであり、複数の情報処理装置に跨った一連の処理を一意に特定するために用いるIDである。また、クライアントIP604は、HTTP通信におけるクライアント側のIPアドレスであり、クライアントポート番号605は、HTTP通信におけるクライアントのポート番号である。   A TID 603 is a transaction ID, and is an ID used to uniquely identify a series of processes across a plurality of information processing apparatuses. The client IP 604 is a client-side IP address in HTTP communication, and the client port number 605 is a client port number in HTTP communication.

また、サーバIP606は、HTTP通信におけるサーバ側のIPアドレスであり、サーバポート番号607は、HTTP通信におけるサーバ側のポート番号である。   The server IP 606 is a server-side IP address in HTTP communication, and the server port number 607 is a server-side port number in HTTP communication.

また、プログラム種別608は、ログを出力したプログラムの種別であり、URL609は、サーバ側のアプリすなわちサーバアプリ321にアクセスするためのURLである。本実施形態では通信ログ600の出力例を表形式で記述したが、スペース区切りのテキストファイルで出力した形態であるとしてもよい。   A program type 608 is a type of a program that outputs a log, and a URL 609 is a URL for accessing a server-side application, that is, a server application 321. In this embodiment, the output example of the communication log 600 is described in a table format, but it may be output in a space-delimited text file.

一方、上述のユーザ端末10やデータセンタ100のA1サーバ130、A2サーバ140、Bサーバ150らにおける各アプリの処理で障害が発生した場合、各装置はアプリログに障害の内容を記録することとなる。図7にアプリログ700の出力例を示す。このアプリログ700において、日時701はログが出力された日時を表し、重要度702は、アプリログの重要度を表す。また、重要度702には、例えば、FATAL(アプリの動作を続行できない障害の発生を表す)、ERROR(トランザクション処理を続行できない障害の発生を表す)、WARNING(トランザクション処理は続行できるが、注意を要する事象の発生を表す)、INFORMATION(アプリの内部状態の変化の発生を表す)、DEBUG(デバッグ用のメッセージの発生を表す)、といった値がある。   On the other hand, when a failure occurs in the processing of each application in the above-described user terminal 10 or A1 server 130, A2 server 140, B server 150, etc. of the data center 100, each device records the content of the failure in the application log. Become. FIG. 7 shows an output example of the application log 700. In the application log 700, the date 701 represents the date when the log was output, and the importance 702 represents the importance of the application log. The importance 702 includes, for example, FATAL (representing the occurrence of a failure that prevents the application operation from continuing), ERROR (representing the occurrence of a failure that prevents the transaction processing from continuing), and WARNING (transaction processing can continue, There are values such as the occurrence of a required event), INFORMATION (representing the occurrence of a change in the internal state of the application), and DEBUG (representing the occurrence of a message for debugging).

また、TID703は、トランザクションIDであり、複数の情報処理装置に跨った処理の流れを一意に特定するために用いるIDである。   A TID 703 is a transaction ID, and is an ID used for uniquely specifying the flow of processing across a plurality of information processing apparatuses.

また、プログラム種別704は、ログを出力したプログラムの種別であり、IP705はログを出力した情報処理装置のIPアドレスであり、情報処理装置(ユーザ端末10やサーバ類)を識別するために用いる。   The program type 704 is the type of the program that has output the log, and the IP 705 is the IP address of the information processing apparatus that has output the log, and is used to identify the information processing apparatus (the user terminal 10 or servers).

また、メッセージID706は、発生したエラーを識別するためのIDであり、内容707は、発生したエラー内容を表す文字列である。   The message ID 706 is an ID for identifying the error that has occurred, and the content 707 is a character string that represents the content of the error that has occurred.

本例ではアプリログ700の出力例を表形式の形態として記述したが、スペース区切りのテキストファイルで出力する形態も考えられる。   In this example, the output example of the application log 700 is described in the form of a table. However, a form of outputting as a space-delimited text file is also conceivable.

なお、上述の各サーバ、すなわちA1サーバ130、A2サーバ140、Bサーバ150らは、自身のサーバアプリ321が出力したログを検知し、該当ログを管理サーバ120に送信するものとする。この場合の処理の流れを図8に例示する。   Each of the above-described servers, that is, the A1 server 130, the A2 server 140, and the B server 150, detects the log output by its own server application 321 and transmits the corresponding log to the management server 120. The processing flow in this case is illustrated in FIG.

図8にて示すように、A1サーバ130、A2サーバ140、Bサーバ150らは、プログラム325を実行することで実装される機能として、サーバアプリ321が出力したログを検知し(801)、検知したログを管理サーバ120に送信する(802)。他方、ログ管理サーバ120は、A1サーバ130、A2サーバ140、Bサーバ150らから受信したログを、記憶装置420における統合通信ログDB413または統合アプリログDB414に保存する(803)。   As shown in FIG. 8, the A1 server 130, the A2 server 140, the B server 150, and the like detect the log output by the server application 321 as a function implemented by executing the program 325 (801). The transmitted log is transmitted to the management server 120 (802). On the other hand, the log management server 120 stores the logs received from the A1 server 130, the A2 server 140, and the B server 150 in the integrated communication log DB 413 or the integrated application log DB 414 in the storage device 420 (803).

なお、A1サーバ130、A2サーバ140、B150で出力されたログを、ログ管理サーバ120で一括管理することと同様に、ユーザ端末10で発生したログも管理サーバ120に送信し、管理サーバ120にて収集するとしてもよい。   Similarly to the log management server 120 collectively managing the logs output from the A1 server 130, the A2 server 140, and B150, the logs generated in the user terminal 10 are also transmitted to the management server 120 and sent to the management server 120. May be collected.

続いて、上述のネットワーク構成において、いずれかの情報処理装置にて障害が発生した際の処理について説明する。図9は、本実施形態における障害対応方法の処理手順例3を示す図である。   Next, processing when a failure occurs in any of the information processing apparatuses in the above-described network configuration will be described. FIG. 9 is a diagram illustrating a processing procedure example 3 of the failure handling method according to the present embodiment.

ここではまず、ユーザ端末10がユーザ端末アプリ221の障害を検知(901)する。この障害検知の手法としては、例えば、ユーザ端末10が、プログラム225を実行して得られる所定機能により(以下、各処理について同様)、ユーザ端末アプリ221に関して収集しているアプリログファイル233を監視し、アプリログファイル233が含む重要度702の値が「ERROR」又は「FATAL」のときに障害であると検知する、といった手法が採用できる。   Here, first, the user terminal 10 detects a failure of the user terminal application 221 (901). As a failure detection method, for example, the application log file 233 collected for the user terminal application 221 is monitored by a predetermined function obtained by the user terminal 10 executing the program 225 (hereinafter, the same applies to each process). Then, a method of detecting a failure when the importance 702 value included in the application log file 233 is “ERROR” or “FATAL” can be employed.

次に、ユーザ端末10は、重要度702の値が「ERROR」又は「FATAL」である上記アプリログ233におけるTID703の値を読み出し、このTID713の値が対応付いている通信ログを、通信ログファイル232から読み出し、該当通信ログから、障害発生時の通信相手を特定する(902)。図7の例であれば、例えば、重要度702の値が「ERROR」であるアプリログにおけるTID703の値「234567bcd」を読み出し、このTID713の値「234567bcd」が対応付いている通信ログを、通信ログファイル232から読み出る。そしてここで出力した各通信ログのクライアントIP604,サーバIP606の各値から、障害発生時のユーザ端末10(IPアドレスが、“123.1.1.10”)の通信相手たるサーバを、例えば、負荷分散器110(IPアドレスが、“123.1.1.110”)などと特定できる。   Next, the user terminal 10 reads the value of the TID 703 in the application log 233 having the importance 702 value of “ERROR” or “FATAL”, and the communication log file corresponding to the TID 713 value is read out. The communication partner at the time of failure occurrence is specified from the corresponding communication log (902). In the example of FIG. 7, for example, the value “234567bcd” of the TID 703 in the application log having the importance 702 value of “ERROR” is read, and the communication log associated with the value “234567bcd” of the TID 713 is transmitted. Read from the log file 232. Then, from each value of the client IP 604 and server IP 606 of each communication log output here, the server that is the communication partner of the user terminal 10 (IP address is “123.1.1.10”) at the time of the failure is, for example, The load balancer 110 (IP address is “123.1.1.110”) can be specified.

次に、ユーザ端末10は、モジュール確認の処理(903)を実施する。この処理は、通信相手の情報処理装置、この場合はすなわち負荷分散器110で稼働するモジュールの動作をチェックする処理である。当該処理の詳細については後述する。   Next, the user terminal 10 performs a module confirmation process (903). This process is a process of checking the operation of the information processing apparatus of the communication partner, in this case, that is, the module operating in the load balancer 110. Details of this processing will be described later.

続いて、ユーザ端末10は、障害状況調査要求を通信相手の負荷分散器110に送信する(904)。一方、負荷分散器110は、ユーザ端末10から処理を受けると、上述したようなサーバ振り分け先の特定処理を実施し、振り分け先とした通信先(ここではA2サーバ140とする)に対し、ユーザ端末10から受けた上述の障害状況調査要求を送信する(906)。   Subsequently, the user terminal 10 transmits a failure condition investigation request to the load balancer 110 of the communication partner (904). On the other hand, when receiving the processing from the user terminal 10, the load balancer 110 performs the server distribution destination specifying process as described above, and the user is assigned to the communication destination (here, the A2 server 140) as the distribution destination. The above-described failure status investigation request received from the terminal 10 is transmitted (906).

続いて、A2サーバ140では、上述の障害状況調査要求を負荷分散器110から受信し、上述したステップ902〜904と同様に、障害状況調査要求が含む上述のTID「234567bcd」の値が対応付いている通信ログを、通信ログファイル326から読み出し、該当通信ログから、障害発生時の通信相手(ここではBサーバ150とする)を特定する処理(907)、A2サーバ140の通信相手たるBサーバ150におけるモジュール確認の処理(908)、障害状況調査要求を通信相手のBサーバ150に送信する処理(909)を実施する。   Subsequently, the A2 server 140 receives the above-described failure status investigation request from the load balancer 110, and corresponds to the value of the above-described TID “234567bcd” included in the failure status investigation request in the same manner as in steps 902 to 904 described above. The communication log is read from the communication log file 326, the process (907) for identifying the communication partner (B server 150 here) at the time of failure from the corresponding communication log, and the B server that is the communication partner of the A2 server 140 A module confirmation process (908) in 150, and a process (909) for transmitting a failure status investigation request to the communication partner B server 150 are executed.

一方、A2サーバ140から上述の障害状況調査要求を受けたBサーバ150は、上述のステップ902やステップ907と同様に通信相手の特定(910)を行うが、図9に示すシーケンスの例では、更なる通信先が存在しないため、ステップ908、909に相当する処理は実施しない。   On the other hand, the B server 150 that has received the above-described failure status investigation request from the A2 server 140 identifies (910) the communication partner in the same manner as in the above-described step 902 and step 907, but in the sequence example illustrated in FIG. Since there is no further communication destination, the processing corresponding to steps 908 and 909 is not performed.

他方、Bサーバ150は、障害があったときのアプリログを上述のTID「234567bcd」をキーに自身のアプリログファイル327から取得し(911)、これを障害状況調査要求の送り元であるA2サーバ140に返す。   On the other hand, the B server 150 acquires the application log when there is a failure from its own application log file 327 using the above-mentioned TID “234567bcd” as a key (911), and this is A2 which is the transmission source of the failure state investigation request Return to server 140.

一方、A2サーバ140でもBサーバ150同様に、上述のTID「234567bcd」をキーに自身のアプリログファイル327からアプリログの取得を実施し(912)、障害状況調査要求を受けた上述のユーザ端末10に返す。また、このユーザ端末10でもアプリログの取得処理を実施する(913)。   On the other hand, the A2 server 140 also acquires the application log from its own application log file 327 using the above-mentioned TID “234567bcd” as a key in the same manner as the B-server 150 (912), and receives the failure status investigation request. Return to 10. Further, the application log acquisition process is also performed on the user terminal 10 (913).

以上のように障害状況の調査処理は、障害が発生したトランザクションに参加した情報処理装置(ユーザ端末10、負荷分散器110、A2サーバ140、Bサーバ150)に跨って実施され、モジュールの動作確認の結果やアプリログの情報がユーザ端末10に収集される。   As described above, the failure status investigation process is performed across the information processing apparatuses (the user terminal 10, the load balancer 110, the A2 server 140, and the B server 150) that have participated in the transaction in which the failure has occurred. And the application log information are collected in the user terminal 10.

続いて、ユーザ端末10は、こうして収集した情報と、ユーザプロファイル231やユーザ端末10が搭載された車両状態等の情報を組み合わせて、障害への対応動作を特定する(914)。この対応動作の特定処理の詳細については後述する。最後に、ユーザ端末10は、ステップ914で特定した障害への対応動作を実行する(915)。この対応動作についても詳細は後述する。   Subsequently, the user terminal 10 combines the information collected in this way with information such as the vehicle state in which the user profile 231 and the user terminal 10 are mounted, and specifies an action to respond to the failure (914). Details of the processing for specifying the corresponding operation will be described later. Finally, the user terminal 10 performs an operation for dealing with the failure identified in Step 914 (915). Details of this corresponding operation will be described later.

次に、上述した障害状況調査要求に応じて情報処理装置にて実行される障害状況調査のフローについて説明する。図10は本実施形態における障害対応方法の処理手順例4を示す図である。このフローは、ユーザ端末10、A1サーバ130、A2サーバ140、およびB150で実施する処理となる。なお、本フローは、障害が発生したトランザクションのTIDが分かっていることを前提としている。   Next, a failure status investigation flow executed by the information processing apparatus in response to the above-described failure status investigation request will be described. FIG. 10 is a diagram showing a processing procedure example 4 of the failure handling method in the present embodiment. This flow is processing executed by the user terminal 10, the A1 server 130, the A2 server 140, and B150. This flow is based on the premise that the TID of a transaction in which a failure has occurred is known.

また、障害状況調査とは、図9のシーケンスで例示した通信相手の特定(902、907、910)、モジュールの動作確認(903、908)、障害状況調査要求(904、909)、およびアプリログ取得(911、912、913)の各処理を含んでいる。当該フローチャートの左側に各々の処理に対応する箇所を示している。   Also, the failure status investigation is the identification of the communication partner exemplified in the sequence of FIG. 9 (902, 907, 910), the module operation check (903, 908), the failure status investigation request (904, 909), and the application log. Each process of acquisition (911, 912, 913) is included. On the left side of the flowchart, portions corresponding to the respective processes are shown.

この場合まず、障害状況調査要求を受けた情報処理装置は、自情報処理装置の記憶装置にて、上述のTID(障害が発生したトランザクションのもの)が対応付いた通信ログが存在することを確認する(1001)。この処理により、上述のTIDが対応付いた通信ログを特定できなければ(1001:N)、情報処理装置は、管理サーバ120に対し、上述のTIDとURLが対応付いたログが存在することを確認する(1002)。なお、ユーザ端末10でステップ1002を実行する場合、ステップ1002の結果は常に「N」、すなわち対応するログは無い結果となる。   In this case, first, the information processing apparatus that has received the failure status investigation request confirms that there is a communication log associated with the above TID (of the transaction in which the failure occurred) in the storage device of its own information processing apparatus. (1001). If the communication log associated with the above-mentioned TID cannot be specified by this process (1001: N), the information processing apparatus confirms that the log associated with the above-mentioned TID and URL exists for the management server 120. Confirm (1002). When step 1002 is executed on the user terminal 10, the result of step 1002 is always “N”, that is, there is no corresponding log.

ステップ1002の結果、上述のTIDとURLが対応付いたログが管理サーバ120にて特定できた場合(1002:Y)、情報処理装置は、管理サーバ120にて特定できたログが示す通信相手の情報処理装置は冗長構成が取られていると特定し、障害状況調査結果1100(図11)の冗長構成1104の値として「あり」と記録する(1003)。   As a result of step 1002, when the management server 120 can identify the log with the above-mentioned TID and URL associated with each other (1002: Y), the information processing apparatus displays the communication partner indicated by the log identified by the management server 120. The information processing apparatus identifies that the redundant configuration is taken, and records “Yes” as the value of the redundant configuration 1104 of the failure status investigation result 1100 (FIG. 11) (1003).

また、情報処理装置は、通信種別602の値が「SND_REQ」である全通信ログのサーバIP606の値を、通信相手のIPとして取得する(1004)。他方、上述のステップ1002の結果、上述のTIDとURLが対応付いたログが管理サーバ120にて特定できなかった場合(1002:N)、情報処理装置は、障害状況調査結果1100の障害箇所1103の値として「通信」と記録する(1005)。   Further, the information processing apparatus acquires the value of the server IP 606 of all communication logs whose communication type 602 is “SND_REQ” as the IP of the communication partner (1004). On the other hand, as a result of step 1002 described above, when the management server 120 cannot identify the log having the corresponding TID and URL (1002: N), the information processing apparatus determines the failure location 1103 of the failure status investigation result 1100. Is recorded as “communication” (1005).

続いて、情報処理装置は、上述のステップ1004で得ている全ての通信相手のIPごとに、通信相手のモジュールを特定する(1007)。この通信相手のモジュールの特定処理は、例えば、図12に示すモジュール確認方法DB1200を用いて実施する。この場合、情報処理装置は、ステップ1004で得ている通信相手のIPが、モジュール確認方法DB1200において処理装置IP1201の値が一致するエントリを取得する。なお、このモジュール確認方法DB1200におけるモジュール1202の値は、モジュールの名称であり、確認順序1203の値は、モジュール間で動作確認を行う順序であり、確認方法1204の値は、モジュールの動作確認を行う際の方法を示している。   Subsequently, the information processing apparatus specifies a communication partner module for each of the communication partner IPs obtained in step 1004 (1007). For example, the module identifying method DB 1200 shown in FIG. 12 is used to specify the communication partner module. In this case, the information processing apparatus acquires an entry whose IP address of the communication partner obtained in step 1004 matches the value of the processing apparatus IP 1201 in the module confirmation method DB 1200. Note that the value of the module 1202 in the module confirmation method DB 1200 is the name of the module, the value of the confirmation order 1203 is the order in which the operation is confirmed between modules, and the value of the confirmation method 1204 is the confirmation of the operation of the module. Shows how to do it.

例えば、図12の例のうち、処理装置IPが「210.1.1.150」の情報処理装置、すなわちBサーバ150は、「OS」と「DBサーバ」がモジュールとして稼働しており、「OS」、「DBサーバ」の順で動作確認すべきであることを示している。また、この場合の「OS」の動作確認は、pingコマンドのreply有無で実施し、「DBサーバ」の動作確認は、DBへの接続成功か否かにより実施することが示されている。   For example, in the example of FIG. 12, the information processing apparatus whose processing apparatus IP is “210.1.1.150”, that is, the B server 150, operates “OS” and “DB server” as modules. This indicates that the operation should be confirmed in the order of “OS” and “DB server”. Further, it is shown that the operation check of “OS” in this case is performed based on whether or not the ping command is “reply”, and the operation check of “DB server” is performed depending on whether or not the connection to the DB is successful.

なお、図12のモジュール確認方法DB1200の例では、分かり易さのために確認方法1204の値を文章で記述しているが、プログラム等の情報処理装置で実行可能な形式で格納するとしてもよい。また、処理装置IP1201毎にモジュールを管理しているが、アプリにアクセスするときに用いる識別子であるURL毎に管理するとしてもよい。   In the example of the module confirmation method DB 1200 in FIG. 12, the value of the confirmation method 1204 is described in text for easy understanding, but may be stored in a format that can be executed by an information processing apparatus such as a program. . Further, although the module is managed for each processing device IP1201, it may be managed for each URL that is an identifier used when accessing the application.

情報処理装置は、上述のステップ1007を実行後、各モジュールの確認順序1203の値と確認方法1204の値に従って、通信相手のモジュールに関するチェック(動作確認)を実行する(1009)。このチェックの結果、該当モジュールが正常であれば(1010:Y)、情報処理装置は処理をステップ1008に戻し、次のモジュールの動作確認を実施する。情報処理装置は、こうしたモジュールの動作確認の処理を、モジュール数分繰り返し、終了したかどうかを確認する(1008)。   After executing step 1007 described above, the information processing apparatus executes a check (operation check) on the communication partner module according to the value of the confirmation order 1203 of each module and the value of the confirmation method 1204 (1009). As a result of this check, if the corresponding module is normal (1010: Y), the information processing apparatus returns the processing to step 1008 and performs the operation check of the next module. The information processing apparatus repeats such module operation confirmation processing for the number of modules, and confirms whether or not the processing has been completed (1008).

なお、本実施形態では、モジュールのチェック(1009)の処理を、通信元の情報処理装置から通信相手の情報処理装置に対して実施するように構成したが、自情報処理装置で稼働するモジュールを自情報処理装置内に閉じてチェックするとしてもよい。つまり、障害状況調査要求を受けたら、自情報処理装置で稼働するモジュールを特定し、その動作確認を行うのである。   In this embodiment, the module check (1009) processing is performed from the communication source information processing apparatus to the communication partner information processing apparatus. You may close and check in the own information processing apparatus. In other words, when a failure situation investigation request is received, a module operating in the information processing apparatus is identified and its operation is confirmed.

説明をステップ1008に戻す。モジュール数分の動作確認が終了していなければ(1008:N)、情報処理装置は、ステップ1009、1010を実行する。他方、モジュール数分の動作確認が終了していれば(1008:Y)、情報処理装置は、処理をステップ1006に戻し、上述のステップ1007〜ステップ1010の処理を、ステップ1004で取得した通信相手数分だけ繰り返し実行する。   The description returns to step 1008. If the operation confirmation for the number of modules has not been completed (1008: N), the information processing apparatus executes steps 1009 and 1010. On the other hand, if the operation confirmation for the number of modules has been completed (1008: Y), the information processing apparatus returns the process to step 1006, and the communication partner acquired in step 1004 by performing the processes in steps 1007 to 1010 described above. Repeat for a few minutes.

他方、上述のステップ1007〜ステップ1010の処理を、ステップ1004で取得した通信相手数分だけ実行済みとなれば(1006:Y)、情報処理装置は、処理をステップ1013に進める。   On the other hand, if the processes in steps 1007 to 1010 described above have been executed for the number of communication partners acquired in step 1004 (1006: Y), the information processing apparatus advances the process to step 1013.

なお、上述のステップ1010の処理の結果、該当モジュールが正常ではなかった場合(1010:N)、情報処理装置は、障害状況調査結果1100の障害箇所1103の値として、正常ではなかったモジュールの名称を記録し(1011)、ステップ1004で得ている通信相手のうち処理の済んでいない通信相手に、障害状況調査要求を送信する(1012)。このとき情報処理装置は、上述のステップ1001又はステップ1002で特定した通信ログの情報を相手先に送信する。   If the corresponding module is not normal as a result of the processing in step 1010 described above (1010: N), the information processing apparatus uses the name of the module that is not normal as the value of the failure location 1103 in the failure status investigation result 1100. Is recorded (1011), and a failure status investigation request is transmitted to a communication partner that has not been processed among the communication partners obtained in step 1004 (1012). At this time, the information processing apparatus transmits the communication log information specified in step 1001 or step 1002 described above to the other party.

次に、ステップ1013において情報処理装置は、上述のTID(障害が発生したトランザクションのTID)が対応付いたアプリログを、自身の記憶装置にて取得する。該当情報処理装置がユーザ端末10であれば、自身の記憶装置に格納されたアプリログファイル233中からログを取得し、サーバ(A1サーバ130、A2サーバ140、Bサーバ150)であれば管理サーバ120に要求し、管理サーバ120の統合アプリログDB41から取得する。   Next, in step 1013, the information processing apparatus acquires the application log associated with the above-described TID (TID of the transaction in which the failure has occurred) in its own storage device. If the information processing apparatus is the user terminal 10, a log is acquired from the application log file 233 stored in its own storage device, and if it is a server (A1 server 130, A2 server 140, B server 150), the management server Requested to 120 and acquired from the integrated application log DB 41 of the management server 120.

次に、情報処理装置は、障害状況調査結果1100の処理装置IP1101の値として、自情報処理装置のIPを記録し(1014)、障害状況調査結果1100を、障害状況調査要求の送り元に返して(1015)、処理を終了する。   Next, the information processing apparatus records the IP of the information processing apparatus as the value of the processing apparatus IP1101 of the failure status investigation result 1100 (1014), and returns the failure status investigation result 1100 to the sender of the failure status investigation request. (1015), and the process ends.

なお、以上の処理(1001〜1015)を情報処理装置が実施した結果、図11に示す障害状況調査結果1100を生成し、これを障害状況調査要求の送り元に返すことになる。この障害状況調査結果1100は、障害の発生したトランザクション内で利用された情報処理装置毎に、処理装置IP1101、該当処理装置で発生したアプリログ1102、障害箇所1103、および冗長構成1104の各値から構成されている。各値の設定手法については上述した通りである。なお、本実施形態では、この障害状況調査結果1100を表形式にて表現しているが、XMLやJSON等の構造化データとして記載するとしてもよい。   Note that, as a result of the above processing (1001 to 1015) being performed by the information processing apparatus, the failure state investigation result 1100 shown in FIG. 11 is generated and returned to the sender of the failure state investigation request. The failure status investigation result 1100 is obtained from each value of the processing device IP 1101, the application log 1102 generated in the corresponding processing device, the failure location 1103, and the redundant configuration 1104 for each information processing device used in the failed transaction. It is configured. The method for setting each value is as described above. In the present embodiment, the failure status investigation result 1100 is expressed in a table format, but may be described as structured data such as XML or JSON.

また、上述の例では、ネットワーク上の情報処理装置の冗長構成有無を、障害が発生したときに呼び出された情報処理装置と、障害状況調査時に呼び出された情報処理装置が異なることをもって判断した例を示しているが、予め代表IPアドレス(負荷分散器110のIPアドレス)又はURLと冗長構成有無のテーブルを用意し、クライアントのアクセス先のURLから、冗長構成の有無を判定する方法も採用できる。   In the above example, the information processing device on the network is determined whether or not the redundant configuration exists based on the difference between the information processing device called when the failure occurs and the information processing device called when the failure status is investigated. However, a representative IP address (IP address of the load balancer 110) or URL and a table of whether or not there is a redundant configuration are prepared in advance, and a method for determining the presence or absence of a redundant configuration from the URL of the client access destination can also be adopted. .

続いて、障害対応方法DB234について説明する。図13は本実施形態の障害対応方法DB234のデータ構成例を示す図である。ここで例示する障害対応方法DB234は、アプリログ1301、障害箇所(観測箇所)1302、冗長構成1303、ユーザプロファイル1304、車両状態1305、アプリ性質1306、および対応方法1307の各値から構成されている。   Next, the failure handling method DB 234 will be described. FIG. 13 is a diagram showing a data configuration example of the failure handling method DB 234 of the present embodiment. The failure handling method DB 234 exemplified here includes values of an application log 1301, a failure location (observation location) 1302, a redundant configuration 1303, a user profile 1304, a vehicle state 1305, an application property 1306, and a handling method 1307. .

このうちアプリ性質1306は、アプリ(ユーザ端末アプリ221、サーバアプリ321)を公開するURL毎に管理する属性であり、ユーザ操作(ユーザが操作したことをトリガーとして呼び出されるアプリであることを示す。例:飲食店の検索アプリ)、バックグラウンド(ユーザの操作がなくてもバックグラウンドで呼び出されるアプリであることを示す。例:カーナビゲーション装置の地図上に表示する渋滞情報を取得するアプリ)といった種類があることを想定する。なお、DB中の「−」は何れであっても良いことを表す。また、図13の例では、対応方法を文章で表現したが、ユーザ端末10等の情報処理装置で実行できるプログラムで記述することができる。   Among these, the application property 1306 is an attribute managed for each URL for publishing the application (user terminal application 221 and server application 321), and indicates that the application is called by a user operation (acted by the user as a trigger). Example: restaurant search application), background (indicating that the app is called in the background without any user operation. Example: app that acquires traffic information to be displayed on the map of the car navigation device) Assume that there are types. Note that “-” in the DB represents any value. In the example of FIG. 13, the handling method is expressed in text, but can be described by a program that can be executed by an information processing apparatus such as the user terminal 10.

このような障害対応方法DB234を利用する情報処理装置は、図10のフローにより得られた障害状況調査結果1100が含む、処理装置IP1101、アプリログ1102、障害箇所1103、冗長構成1104と、自身の記憶装置にて保持するユーザプロファイル231、当該情報処理装置が搭載された車両の制御に用いられる車内ネットワークに接続して得た車両状態の情報、通信ログに記録したURLで公開されているアプリの性質1306とを、上述の障害対応方法DB234(に格納した条件である、アプリログ1301、障害箇所(観測箇所)1302、冗長構成1303、ユーザプロファイル1304、車両状態1305、アプリ性質1306の各値)に照合し、各値がマッチする対応方法1307の値を取得することとなる。また、情報処理装置は、取得した対応方法1307の値に対応した動作を実行する。   The information processing apparatus using such a failure response method DB 234 includes the processing device IP 1101, application log 1102, failure location 1103, redundant configuration 1104, and its own, which are included in the failure status investigation result 1100 obtained by the flow of FIG. 10. User profile 231 held in the storage device, information on the vehicle state obtained by connecting to the in-vehicle network used for controlling the vehicle on which the information processing device is mounted, and the application published in the URL recorded in the communication log The property 1306 is stored in the above-described failure response method DB 234 (values stored in the application log 1301, failure location (observation location) 1302, redundant configuration 1303, user profile 1304, vehicle state 1305, application property 1306). To obtain the value of the corresponding method 1307 in which each value matches That. Further, the information processing apparatus executes an operation corresponding to the acquired value of the handling method 1307.

例えば、図13の障害対応方法DB234における各行のうち、「#1」と「#2」のエントリは、アプリログ1301に「ユーザ端末が通信不可に設定されており通信できない」内容のログが出力されており、アプリ性質1306が「ユーザ操作」であった場合の対応動作を規定したものである。この場合は、情報処理装置は、ユーザプロファイル1304の年齢1402の値を参照し、該当ユーザの年齢が「60以上」であれば、該当ユーザに対しサポートセンタの電話番号を含むメッセージを表示装置203にて表示し、一方、年齢が「60未満」であればユーザに対しサポートセンタの電話番号を含まないメッセージを表示装置203にて表示することになる。こうした制御を行うことにより、サポートセンタへの問い合わせ数を制御することができる。   For example, among the rows in the failure handling method DB 234 of FIG. 13, “# 1” and “# 2” entries are output in the application log 1301 with the content “The user terminal is set to communication disabled and communication is not possible”. The application behavior 1306 defines a corresponding operation when the user operation is “user operation”. In this case, the information processing apparatus refers to the value of the age 1402 of the user profile 1304. If the age of the corresponding user is “60 or more”, the information processing apparatus displays a message including the telephone number of the support center to the corresponding user. On the other hand, if the age is less than 60, a message not including the support center telephone number is displayed on the display device 203 to the user. By performing such control, the number of inquiries to the support center can be controlled.

また、「#3」のエントリは、障害箇所1302がサーバの通信であった場合に対応したものとなる。サーバに関して、障害箇所1302の値が「通信」になる場合は、障害状況調査時には通信が通ったことを示す。つまり、障害時には不通であったが、障害状況調査時には、疎通したことが予想できる。そのため、この場合の情報処理装置は、ユーザ端末からの要求を再送する対応方法1307を実行することになる。   The entry of “# 3” corresponds to the case where the failure location 1302 is server communication. Regarding the server, when the value of the failure location 1302 is “communication”, it indicates that communication has been made when the failure status is investigated. In other words, it was not possible to communicate at the time of failure, but it can be predicted that communication was possible at the time of failure status investigation. Therefore, the information processing apparatus in this case executes the handling method 1307 for retransmitting the request from the user terminal.

また、「#4」のエントリは、障害箇所1302が「OS」であり、障害箇所(観測箇所)は「ユーザ端末」であり、アプリ性質1306が「ユーザ操作」であった場合に対応したものとなる。こうした状況は、キャリアネットワーク20の電波状況が悪いことが考えられる。そのため、この場合の情報処理装置は、ユーザに対し、電波状況を確認することを示すメッセージを表示装置203にて示す対応方法1307を実行することになる。   The entry “# 4” corresponds to the case where the failure location 1302 is “OS”, the failure location (observation location) is “user terminal”, and the application property 1306 is “user operation”. It becomes. Under such circumstances, the radio wave condition of the carrier network 20 may be bad. Therefore, the information processing apparatus in this case executes a handling method 1307 in which a message indicating that the radio wave status is confirmed is displayed on the display device 203 to the user.

また、「#5」、「#6」のエントリは、モジュールの動作確認処理において、「Webサーバ/APサーバ/DBサーバ」の何れかが不正であり、かつ冗長構成が「ない」場合に対応したものとなる。Webサーバ/APサーバ/DBサーバのミドルウェアにおける障害は、再起動により復旧する可能性がある。そのため、この場合の情報処理装置は、アプリ性質1306が「ユーザ操作」であった場合、ユーザに対し、5分以上(再起動に要するであろう時間)経ってから該当処理を再実行することを表示装置203にて示し、他方、アプリ性質1306が「バックグラウンド」であった場合、5分経過後に自動的に該当処理を再実行する対応方法1307を実行する。   The entries “# 5” and “# 6” correspond to the case where any of “Web server / AP server / DB server” is invalid and there is no redundant configuration in the module operation check process. Will be. A failure in the middleware of the Web server / AP server / DB server may be recovered by restarting. Therefore, in this case, when the application property 1306 is “user operation”, the information processing apparatus re-executes the corresponding process after 5 minutes or more (the time required for restarting) to the user. Is displayed on the display device 203. On the other hand, when the application property 1306 is “background”, a corresponding method 1307 is executed in which the corresponding process is automatically re-executed after 5 minutes.

また、「#7」のエントリは、障害箇所1302が存在しない(つまりチェックしたモジュールは正常であった)場合に対応したものとなる。このとき、冗長構成が取られていれば、次回は正常なサーバに処理を割り振られる可能性がある。そのため、情報処理装置は、自動的に要求を再送するとの対応方法1307を実行する。   The entry of “# 7” corresponds to the case where the failure location 1302 does not exist (that is, the checked module is normal). At this time, if a redundant configuration is taken, processing may be allocated to a normal server next time. Therefore, the information processing apparatus executes a handling method 1307 that automatically retransmits the request.

また、「#8」のエントリは、障害箇所1302が存在せず、冗長構成が「ない」場合に対応したものとなる。この時、モジュールは正常であることから、アプリケーションに障害が発生したことが考えられ、この場合、障害復旧には時間がかかることが考えられる。そのため、アプリ性質1306が「ユーザ操作」であれば、情報処理装置は、ユーザに対し、しばらく要求しないように該当メッセージを表示装置203にて示し、ユーザが操作しても30分間は同URLに要求を送信しないように抑止する。一方、アプリ性質1306が「バックグラウンド」であれば、情報処理装置は、30経過後要求を再送する。   The entry “# 8” corresponds to the case where there is no failure location 1302 and there is no redundant configuration. At this time, since the module is normal, it is considered that a failure has occurred in the application. In this case, it may be time-consuming to recover from the failure. Therefore, if the application property 1306 is “user operation”, the information processing apparatus shows the corresponding message on the display device 203 so as not to request the user for a while, and the URL remains the same for 30 minutes even if the user operates. Suppress the request from being sent. On the other hand, if the application property 1306 is “background”, the information processing apparatus retransmits the request after 30 minutes.

また、「#10」、「#11」のエントリは、アプリログ1301があり、車両状態1305が「運転中」かどうかにより、アプリログの内容を表示するか否かを決定するものとなる。また、「#12」のエントリは、アプリログがなく、かつ、他にマッチする条件が障害対応方法DB234内に存在しない場合に対応したものとなる。この場合は、原因不明のエラーであるため、情報処理装置は、ユーザに対し、サポートセンタに問い合わせを行うようにメッセージを表示装置203にて表示する対応方法1307を実行する。   The entries “# 10” and “# 11” determine whether or not to display the contents of the application log depending on whether or not the application log 1301 exists and the vehicle state 1305 is “driving”. The entry “# 12” corresponds to a case where there is no application log and no other matching condition exists in the failure handling method DB 234. In this case, since the cause is an unknown error, the information processing apparatus executes a handling method 1307 in which a message is displayed on the display device 203 so as to make an inquiry to the support center.

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。   Although the best mode for carrying out the present invention has been specifically described above, the present invention is not limited to this, and various modifications can be made without departing from the scope of the invention.

こうした本実施形態によれば、ネットワーク上の複数装置間でアプリケーションが連携する環境において、障害発生時に障害発生箇所を効率的に特定して、状況に応じた適宜な障害対応をユーザに促し、障害の影響を効果的に抑制可能となる。   According to this embodiment, in an environment in which applications are linked among a plurality of devices on a network, the location where the failure occurs is efficiently identified and the user is encouraged to respond appropriately according to the situation. Can be effectively suppressed.

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち本実施形態の障害対応システムにおける情報処理装置の演算装置は、当該情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、前記特定した第2の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかを実行し、前記障害箇所を特定する処理において、前記第2の情報処理装置から得た、前記識別子に対応付いたアプリログおよび、前記第3の情報処理装置におけるモジュールに関する動作確認結果の少なくとも何れかの情報と、当該情報処理装置自身で得た、前記識別子に対応付いたアプリログおよび、前記第2の情報処理装置におけるモジュールの動作確認結果との少なくともいずれかの情報と、に基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定するものである、としてもよい。   At least the following will be clarified by the description of the present specification. That is, the arithmetic device of the information processing apparatus in the failure handling system according to the present embodiment obtains the application log associated with the identifier and the module for the identified second information processing apparatus held by the information processing apparatus And an application log associated with the identifier obtained from the second information processing apparatus in the process of performing at least one of the operation confirmation and specifying the fault location, and the third information processing apparatus And / or at least one of the operation confirmation result regarding the module in the information processing apparatus itself, the application log associated with the identifier obtained by the information processing apparatus itself, and the operation confirmation result of the module in the second information processing apparatus Based on the information and failure of the application or module of the information processing device that is not operating normally It is to identify as Tokoro may be.

これによれば、障害発生を感知した情報処理装置における障害箇所についても特定可能であり、より効率的かつ的確な障害対応が可能となる。   According to this, it is possible to identify a fault location in the information processing apparatus that senses the occurrence of the fault, and it is possible to deal with the fault more efficiently and accurately.

また、上述の障害対応システムにおける前記第2の情報処理装置の演算装置は、前記要求を受けた際に、前記識別子に対応した処理で通信相手であった第3の情報処理装置を自身の通信ログで特定し、前記特定した第3の情報処理装置に対し、当該第3の情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、当該第3の情報処理装置が前記識別子に対応付いた処理での通信相手とした第4の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかの要求を更に行うものである、としてもよい。   In addition, when receiving the request, the arithmetic device of the second information processing apparatus in the failure handling system described above communicates with the third information processing apparatus that was the communication partner in the process corresponding to the identifier. For the identified third information processing apparatus, acquisition of an application log associated with the identifier, which is stored in the third information processing apparatus, and the third information processing apparatus It is also possible to further request at least one of the operation check of the module toward the fourth information processing apparatus as the communication partner in the processing corresponding to.

これによれば、ネットワーク上でトランザクションIDなどの識別子を介して一連の処理を実行する情報処理装置の範囲をより幅広く把握することにつながり、ひいては、障害箇所特定の精度をより向上させ、更に的確な障害対応が可能となる。   This leads to a broader understanding of the range of information processing apparatuses that execute a series of processing via an identifier such as a transaction ID on the network, and as a result, the accuracy of identifying the fault location can be further improved and further accurately determined. It becomes possible to deal with troubles.

また、上述の障害対応システムにおける前記情報処理装置の演算装置は、前記障害箇所を特定する処理において、前記識別子をキーとして送受信関係で連なった、少なくとも前記第2から前記第4の各情報処理装置間で前記要求に応じた処理が実行されて返信された結果として、前記連なった前記第2から前記第4の各情報処理装置らで出力した、前記識別子に対応付いたアプリログと、通信相手の情報処理装置におけるモジュールに関する動作確認結果との少なくとも何れかの情報を取得し、当該取得した情報と、当該情報処理装置自身で得た、前記識別子に対応付いたアプリログおよび、前記第2の情報処理装置におけるモジュールの動作確認結果との少なくともいずれかの情報とに基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定するものである、としてもよい。   Further, the arithmetic unit of the information processing apparatus in the failure handling system described above has at least each of the second to fourth information processing apparatuses connected in a transmission / reception relationship using the identifier as a key in the process of specifying the fault location. The application log associated with the identifier, output from the second to fourth information processing apparatuses connected as a result of execution of the process in response to the request and returned, and the communication partner Information on at least one of the operation confirmation results regarding the module in the information processing apparatus, the acquired information, the application log associated with the identifier obtained by the information processing apparatus itself, and the second Based on at least one of the information on the module operation check result in the information processing apparatus, the information processing apparatus that is not operating normally It is intended to identify publication or module as a fault location may be.

これによれば、ネットワーク上でトランザクションIDなどの識別子を介して一連の処理を実行する情報処理装置の範囲をより幅広く把握し、障害箇所特定の精度をより向上させ、更に的確な障害対応が可能となる。   According to this, it is possible to grasp a wider range of information processing devices that execute a series of processing via an identifier such as a transaction ID on the network, improve the accuracy of identifying the fault location, and handle the fault more accurately. It becomes.

また、上述の障害対応システムにおける各情報処理装置は、記憶装置において、少なくとも通信相手となりうる情報処理装置ないしアプリケーション毎に、該当情報処理装置に含まれる又はアプリケーションが利用している各モジュールの識別子と、各モジュールに関する前記動作確認の内容と、モジュール間での前記動作確認の実行順序とを規定した、モジュール確認方法データベースを格納しており、前記第2の情報処理装置の演算装置は、前記要求を受けた際に、当該要求が前記モジュールの動作確認を含むものであった場合、前記識別子をキーとして自身の通信ログでの検索を行い、前記識別子に対応した処理で通信相手であった前記第3の情報処理装置を特定し、前記特定した前記第3の情報処理装置の各モジュールについて、該当モジュールの動作確認の内容と各モジュール間での動作確認の実行順序とを前記モジュール確認方法データベースにて特定し、前記各モジュールに対する前記動作確認を前記実行順序に従って実行し、当該実行結果である、前記各モジュールに関する動作確認結果を前記要求の送信元である前記情報処理装置に宛てて返信する処理を実行するものである、としてもよい。   In addition, each information processing apparatus in the failure handling system described above includes, for each information processing apparatus or application that can be at least a communication partner in the storage device, an identifier of each module included in the corresponding information processing apparatus or used by the application. , Storing a module confirmation method database that defines the contents of the operation confirmation for each module and the execution order of the operation confirmation between modules, and the arithmetic unit of the second information processing apparatus is configured to store the request When the request includes the confirmation of the operation of the module, a search is performed in its own communication log using the identifier as a key, and the communication partner in the process corresponding to the identifier A third information processing device is identified, and for each module of the identified third information processing device, The content of the operation check of the module and the execution order of the operation check between the modules are identified in the module check method database, the operation check for each module is executed according to the execution order, and the execution result is obtained. It is good also as performing the process which sends in response the operation confirmation result regarding each said module to the said information processing apparatus which is the transmission origin of the said request | requirement.

これによれば、情報処理装置に備わる複数のモジュールそれぞれについて、好適な実行順序の下、的確な動作確認を効率的に行うことが可能となり、障害箇所特定の効率と精度をより向上させ、更に的確な障害対応が可能となる。   According to this, for each of the plurality of modules provided in the information processing apparatus, it is possible to efficiently perform accurate operation confirmation under a suitable execution order, further improving the efficiency and accuracy of identifying the fault location, Accurate failure handling is possible.

また、上述の障害対応システムにおける前記情報処理装置は、障害検知時に、前記アプリログが含む前記識別子をキーとして、当該情報処理装置および前記第2の情報処理装置の各通信ログでの検索を行い、いずれの情報処理装置でも前記識別子が対応付いた通信ログが存在しなかった場合、前記第2の情報処理装置についてはネットワークにおいて冗長構成が取られていると特定する処理を実行し、前記対応動作の特定を行う処理において、障害箇所における冗長構成有無に応じて予め定められた対応動作の内容に基づいて、前記特定した障害箇所とその冗長構成有無に応じた対応動作を特定し、該当対応動作を実行するものである、としてもよい。   The information processing apparatus in the above-described failure handling system performs a search in each communication log of the information processing apparatus and the second information processing apparatus using the identifier included in the application log as a key when a failure is detected. If there is no communication log associated with the identifier in any of the information processing devices, the second information processing device performs processing for specifying that a redundant configuration is taken in the network, and In the process of specifying the operation, the corresponding operation according to the specified failure location and the presence / absence of the redundant configuration is specified based on the content of the corresponding operation determined in advance according to the presence / absence of the redundant configuration at the failure location, and the corresponding response The operation may be performed.

これによれば、ネットワーク上で広く存在する冗長構成について、これを対応動作の特定基準に含めることで、更に的確な障害対応が可能となる。   According to this, it is possible to cope with a more accurate failure by including the redundant configuration widely existing on the network by including it in the specific criterion of the corresponding operation.

また、上述の記載の障害対応システムにおける前記情報処理装置は、前記記憶装置において、当該情報処理装置のユーザの属性情報を格納したユーザプロファイルと、ネットワーク上の障害箇所、当該情報処理装置のユーザの属性、および当該情報処理装置を備えた所定装置の状態、の少なくともいずれか又はそれらを組み合わせた条件と、該当条件時における対応動作とを対応付けた障害対応方法データベースとを格納しており、前記演算装置は、対応動作の特定を行う処理において、前記特定した障害箇所、前記ユーザプロファイルから得た当該情報処理装置のユーザの属性、および前記所定装置から所定のインターフェイスを介して取得した前記所定装置の状態、の少なくともいずれか又はそれらを組み合わせた情報を、前記障害対応方法データベースの前記条件に照合して対応動作を特定し、該当対応動作を実行するものである、としてもよい。   Further, the information processing apparatus in the failure handling system described above includes a user profile storing attribute information of a user of the information processing apparatus, a fault location on the network, and a user of the information processing apparatus in the storage device. A failure handling method database that associates at least one of an attribute and a state of a predetermined device including the information processing device or a combination of these with a corresponding operation at the time of the corresponding condition; In the process of specifying the corresponding operation, the arithmetic device is configured to acquire the specified failure location, the user attribute of the information processing device obtained from the user profile, and the predetermined device acquired from the predetermined device via a predetermined interface. Status information, or a combination of these, By collating the condition of law database to identify the corresponding operation, and executes the appropriate corresponding operation may be.

これによれば、障害発生時の様々な条件、すなわち障害箇所や、冗長構成の有無や、ユーザプロファイルや、ユーザの利用状況等に応じて、障害対応時のシステムの振る舞いを切り替えることが可能となり、障害発生時にユーザが取るべき行動を、よりきめ細やかにかつ適切に案内することができる。そのためユーザ満足度を向上できる。しかも、障害発生時にユーザが迷わず対策できれば、アプリケーション開発ベンダやシステムベンダが用意するサポートセンタへの問い合わせ数、頻度を低減できる効果もある。   According to this, it becomes possible to switch the system behavior at the time of failure response according to various conditions at the time of failure occurrence, that is, failure location, presence / absence of redundant configuration, user profile, user usage status, etc. The actions that the user should take when a failure occurs can be guided more precisely and appropriately. Therefore, user satisfaction can be improved. Moreover, if the user can take measures without hesitation when a failure occurs, the number of inquiries to the support center prepared by the application development vendor or system vendor and the frequency can be reduced.

また、上述の障害対応システムにおける前記情報処理装置は、ネットワーク上におけるユーザ端末であり、前記第2および第3の情報処理装置は、ネットワーク上におけるサーバ装置であるとしてもよい。これによれば、ユーザ端末のアプリケーションとサーバ装置のアプリケーションとの間の連携環境に関して障害箇所を特定し、的確かつ効率的な障害対応が可能となる。   Further, the information processing apparatus in the failure handling system described above may be a user terminal on a network, and the second and third information processing apparatuses may be server apparatuses on the network. According to this, it is possible to identify a fault location regarding the linkage environment between the application of the user terminal and the application of the server device, and to perform accurate and efficient fault handling.

1 障害対応システム
10 ユーザ端末(情報処理装置)
20 キャリアネットワーク(ネットワーク)
100 データセンタ
110 負荷分散器
120 管理サーバ
130 A1サーバ(第2の情報処理装置)
140 A2サーバ(第2の情報処理装置)
150 Bサーバ(第3の情報処理装置)
201、301、401 CPU(演算装置)
202、302、402 メモリ
203、303、403 表示装置
204、304、404 入力装置
205 位置測位装置
206、305、405 通信装置
207 加速度センサ
208 ジャイロセンサ
209 車両情報取得装置
220、320、420 記憶装置
225、325、425 プログラム
231 ユーザプロファイル
234 障害対応方法DB
232、326 通信ログファイル
233、327 アプリログファイル
413 統合通信ログDB
414 統合アプリログDB
1 Failure response system 10 User terminal (information processing device)
20 Carrier network (network)
100 data center 110 load balancer 120 management server 130 A1 server (second information processing apparatus)
140 A2 server (second information processing apparatus)
150 B server (third information processing apparatus)
201, 301, 401 CPU (arithmetic unit)
202, 302, 402 Memory 203, 303, 403 Display device 204, 304, 404 Input device 205 Positioning device 206, 305, 405 Communication device 207 Acceleration sensor 208 Gyro sensor 209 Vehicle information acquisition device 220, 320, 420 Storage device 225 325, 425 Program 231 User profile 234 Failure response method DB
232, 326 Communication log file 233, 327 Application log file 413 Integrated communication log DB
414 Integrated application log DB

Claims (9)

ネットワークを介しアプリケーションを互いに連携させる複数の情報処理装置を含むシステムであって、
各情報処理装置は、
アプリケーション実行時に、他の情報処理装置たる第2の情報処理装置のアプリケーションの呼び出しが発生する度に、情報処理装置間を跨る処理の識別子と情報処理装置間の送受信関係とを含む通信ログを記憶装置に格納する処理と、
障害発生時に、エラー内容と前記識別子とを含むアプリログを記憶装置に格納する処理と、
障害検知時に、前記アプリログが含む前記識別子をキーとして前記通信ログでの検索を行い、障害発生時に前記識別子に対応した処理で利用された第2の情報処理装置を特定する処理と、
前記特定した第2の情報処理装置に対し、当該第2の情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、当該第2の情報処理装置が前記識別子に対応付いた処理での通信相手とした第3の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかを要求する処理と、
前記要求が前記第2の情報処理装置で実行されて返信された結果として、前記識別子に対応付いたアプリログと、前記第3の情報処理装置におけるモジュールに関する動作確認結果との少なくとも何れかの情報を取得し、当該取得した情報に基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定する処理と、
障害箇所に応じて予め定められた対応動作の内容に基づいて、前記特定した障害箇所に応じた対応動作を特定し、該当対応動作を実行する処理と、
を実行する演算装置を備えることを特徴とする障害対応システム。
A system including a plurality of information processing apparatuses that link applications with each other via a network,
Each information processing device
When an application is called from the second information processing apparatus, which is another information processing apparatus, when the application is executed, a communication log including an identifier of the process across the information processing apparatuses and a transmission / reception relationship between the information processing apparatuses is stored. Processing stored in the device;
A process of storing an application log including an error content and the identifier in a storage device when a failure occurs;
A process of performing a search in the communication log using the identifier included in the application log as a key when a failure is detected, and identifying a second information processing apparatus used in a process corresponding to the identifier when a failure occurs;
For the specified second information processing apparatus, acquisition of an application log associated with the identifier held by the second information processing apparatus, and processing in which the second information processing apparatus is associated with the identifier Processing for requesting at least one of the module operation check for the third information processing apparatus as a communication partner in
Information on at least one of an application log associated with the identifier and an operation confirmation result regarding a module in the third information processing apparatus as a result of the request being executed and returned by the second information processing apparatus And, based on the acquired information, a process for identifying an application or module of an information processing apparatus that is not performing normal operation as a failure location;
Based on the content of the corresponding action determined in advance according to the fault location, the corresponding action according to the specified fault location is specified, and the corresponding response operation is executed,
A failure response system comprising an arithmetic device that executes the following.
前記情報処理装置の演算装置は、
当該情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、前記特定した第2の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかを実行し、
前記障害箇所を特定する処理において、
前記第2の情報処理装置から得た、前記識別子に対応付いたアプリログおよび、前記第3の情報処理装置におけるモジュールに関する動作確認結果の少なくとも何れかの情報と、当該情報処理装置自身で得た、前記識別子に対応付いたアプリログおよび、前記第2の情報処理装置におけるモジュールの動作確認結果との少なくともいずれかの情報と、に基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定するものである、
ことを特徴とする請求項1に記載の障害対応システム。
The arithmetic unit of the information processing apparatus includes:
Executing at least one of acquisition of an application log associated with the identifier held by the information processing apparatus and operation check of the module directed to the identified second information processing apparatus;
In the process of identifying the fault location,
Information obtained from the second information processing apparatus, at least one of the application log associated with the identifier and the operation confirmation result regarding the module in the third information processing apparatus, and the information processing apparatus itself. An application or module of an information processing apparatus that is not operating normally based on at least one of the application log associated with the identifier and the module operation confirmation result in the second information processing apparatus Is identified as a failure location,
The failure handling system according to claim 1.
前記第2の情報処理装置の演算装置は、
前記要求を受けた際に、前記識別子に対応した処理で通信相手であった第3の情報処理装置を自身の通信ログで特定し、前記特定した第3の情報処理装置に対し、当該第3の情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、当該第3の情報処理装置が前記識別子に対応付いた処理での通信相手とした第4の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかの要求を更に行うものである、
ことを特徴とする請求項2に記載の障害対応システム。
The arithmetic unit of the second information processing apparatus is:
When the request is received, the third information processing apparatus that was the communication partner in the process corresponding to the identifier is specified in its own communication log, and the third information processing apparatus is identified with respect to the specified third information processing apparatus. Acquisition of an application log corresponding to the identifier held by the information processing apparatus, and the third information processing apparatus toward the fourth information processing apparatus that is a communication partner in the process corresponding to the identifier It further performs at least one of the request of the operation check of the module,
The failure handling system according to claim 2.
前記情報処理装置の演算装置は、
前記障害箇所を特定する処理において、
前記識別子をキーとして送受信関係で連なった、少なくとも前記第2から前記第4の各情報処理装置間で前記要求に応じた処理が実行されて返信された結果として、前記連なった前記第2から前記第4の各情報処理装置らで出力した、前記識別子に対応付いたアプリログと、通信相手の情報処理装置におけるモジュールに関する動作確認結果との少なくとも何れかの情報を取得し、当該取得した情報と、当該情報処理装置自身で得た、前記識別子に対応付いたアプリログおよび、前記第2の情報処理装置におけるモジュールの動作確認結果との少なくともいずれかの情報とに基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定するものである、
ことを特徴とする請求項3に記載の障害対応システム。
The arithmetic unit of the information processing apparatus includes:
In the process of identifying the fault location,
As a result of executing and responding to the request according to the request between at least the second to fourth information processing apparatuses linked in the transmission / reception relationship with the identifier as a key, the linked second to the above Obtaining at least one of the application log output from each of the fourth information processing devices and corresponding to the identifier and the operation confirmation result regarding the module in the information processing device of the communication partner; The information processing apparatus itself performs normal operation based on at least one of the application log associated with the identifier and the module operation check result in the second information processing apparatus. The application or module of a non-information processing device is identified as a failure location.
The failure handling system according to claim 3.
各情報処理装置は、
記憶装置において、少なくとも通信相手となりうる情報処理装置ないしアプリケーション毎に、該当情報処理装置に含まれる又はアプリケーションが利用している各モジュールの識別子と、各モジュールに関する前記動作確認の内容と、モジュール間での前記動作確認の実行順序とを規定した、モジュール確認方法データベースを格納しており、
前記第2の情報処理装置の演算装置は、前記要求を受けた際に、当該要求が前記モジュールの動作確認を含むものであった場合、前記識別子をキーとして自身の通信ログでの検索を行い、前記識別子に対応した処理で通信相手であった前記第3の情報処理装置を特定し、前記特定した前記第3の情報処理装置の各モジュールについて、該当モジュールの動作確認の内容と各モジュール間での動作確認の実行順序とを前記モジュール確認方法データベースにて特定し、前記各モジュールに対する前記動作確認を前記実行順序に従って実行し、当該実行結果である、前記各モジュールに関する動作確認結果を前記要求の送信元である前記情報処理装置に宛てて返信する処理を実行するものである、
ことを特徴とする請求項1に記載の障害対応システム。
Each information processing device
In the storage device, at least for each information processing device or application that can be a communication partner, the identifier of each module included in the information processing device or used by the application, the content of the operation confirmation regarding each module, and between the modules A module confirmation method database that defines the execution order of the operation confirmation of
When the arithmetic unit of the second information processing apparatus receives the request and the request includes an operation check of the module, the arithmetic unit performs a search in its own communication log using the identifier as a key. The third information processing apparatus that was the communication partner in the process corresponding to the identifier is specified, and the operation confirmation contents of the corresponding module and the modules are determined for each module of the specified third information processing apparatus. The operation confirmation execution order in the module confirmation method database is specified in the module confirmation method database, the operation confirmation for each module is executed according to the execution order, and the operation confirmation result for each module, which is the execution result, is requested. A process of sending a reply to the information processing apparatus that is the transmission source of
The failure handling system according to claim 1.
前記情報処理装置は、
障害検知時に、前記アプリログが含む前記識別子をキーとして、当該情報処理装置および前記第2の情報処理装置の各通信ログでの検索を行い、いずれの情報処理装置でも前記識別子が対応付いた通信ログが存在しなかった場合、前記第2の情報処理装置についてはネットワークにおいて冗長構成が取られていると特定する処理を実行し、
前記対応動作の特定を行う処理において、障害箇所における冗長構成有無に応じて予め定められた対応動作の内容に基づいて、前記特定した障害箇所とその冗長構成有無に応じた対応動作を特定し、該当対応動作を実行するものである、
ことを特徴とする請求項1に記載の障害対応システム。
The information processing apparatus includes:
When a failure is detected, a search is performed in each communication log of the information processing apparatus and the second information processing apparatus using the identifier included in the application log as a key, and communication with which the identifier is associated with any information processing apparatus If the log does not exist, the second information processing apparatus executes processing for specifying that a redundant configuration is taken in the network,
In the process of specifying the corresponding operation, based on the content of the corresponding operation predetermined according to the presence or absence of the redundant configuration at the failure location, identify the corresponding operation according to the specified failure location and the presence or absence of the redundant configuration, To perform the corresponding action,
The failure handling system according to claim 1.
前記情報処理装置は、
前記記憶装置において、
当該情報処理装置のユーザの属性情報を格納したユーザプロファイルと、
ネットワーク上の障害箇所、当該情報処理装置のユーザの属性、および当該情報処理装置を備えた所定装置の状態、の少なくともいずれか又はそれらを組み合わせた条件と、該当条件時における対応動作とを対応付けた障害対応方法データベースとを格納しており、
前記演算装置は、対応動作の特定を行う処理において、
前記特定した障害箇所、前記ユーザプロファイルから得た当該情報処理装置のユーザの属性、および前記所定装置から所定のインターフェイスを介して取得した前記所定装置の状態、の少なくともいずれか又はそれらを組み合わせた情報を、前記障害対応方法データベースの前記条件に照合して対応動作を特定し、該当対応動作を実行するものである、
ことを特徴とする請求項1に記載の障害対応システム。
The information processing apparatus includes:
In the storage device,
A user profile storing attribute information of a user of the information processing apparatus;
Associating at least one of the failure location on the network, the attribute of the user of the information processing apparatus, the state of the predetermined apparatus including the information processing apparatus, or a combination thereof with the corresponding action at the time And a database for troubleshooting
In the processing for specifying the corresponding operation, the arithmetic device,
Information of at least one of the identified failure location, the attribute of the user of the information processing device obtained from the user profile, and the state of the predetermined device acquired from the predetermined device via a predetermined interface, or a combination thereof Is to match the condition of the failure handling method database to identify the corresponding action, and execute the corresponding action.
The failure handling system according to claim 1.
前記情報処理装置は、ネットワーク上におけるユーザ端末であり、前記第2および第3の情報処理装置は、ネットワーク上におけるサーバ装置であることを特徴とする請求項1に記載の障害対応システム。   The failure handling system according to claim 1, wherein the information processing apparatus is a user terminal on a network, and the second and third information processing apparatuses are server apparatuses on the network. ネットワークを介しアプリケーションを互いに連携させる各情報処理装置が、
アプリケーション実行時に、他の情報処理装置たる第2の情報処理装置のアプリケーションの呼び出しが発生する度に、情報処理装置間を跨る処理の識別子と情報処理装置間の送受信関係とを含む通信ログを記憶装置に格納する処理と、
障害発生時に、エラー内容と前記識別子とを含むアプリログを記憶装置に格納する処理と、
障害検知時に、前記アプリログが含む前記識別子をキーとして前記通信ログでの検索を行い、障害発生時に前記識別子に対応した処理で利用された第2の情報処理装置を特定する処理と、
前記特定した第2の情報処理装置に対し、当該第2の情報処理装置が保持する、前記識別子に対応付いたアプリログの取得と、当該第2の情報処理装置が前記識別子に対応付いた処理での通信相手とした第3の情報処理装置に向けたモジュールの動作確認と、の少なくとも何れかを要求する処理と、
前記要求が前記第2の情報処理装置で実行されて返信された結果として、前記識別子に対応付いたアプリログと、前記第3の情報処理装置におけるモジュールに関する動作確認結果との少なくとも何れかの情報を取得し、当該取得した情報に基づいて、正常動作を行っていない情報処理装置のアプリケーションないしモジュールを障害箇所として特定する処理と、
障害箇所に応じて予め定められた対応動作の内容に基づいて、前記特定した障害箇所に応じた対応動作を特定し、該当対応動作を実行する処理と、
を実行することを特徴とする障害対応方法。
Each information processing device that links applications to each other via a network
When an application is called from the second information processing apparatus, which is another information processing apparatus, when the application is executed, a communication log including an identifier of the process across the information processing apparatuses and a transmission / reception relationship between the information processing apparatuses is stored. Processing stored in the device;
A process of storing an application log including an error content and the identifier in a storage device when a failure occurs;
A process of performing a search in the communication log using the identifier included in the application log as a key when a failure is detected, and identifying a second information processing apparatus used in a process corresponding to the identifier when a failure occurs;
For the specified second information processing apparatus, acquisition of an application log associated with the identifier held by the second information processing apparatus, and processing in which the second information processing apparatus is associated with the identifier Processing for requesting at least one of the module operation check for the third information processing apparatus as a communication partner in
Information on at least one of an application log associated with the identifier and an operation confirmation result regarding a module in the third information processing apparatus as a result of the request being executed and returned by the second information processing apparatus And, based on the acquired information, a process for identifying an application or module of an information processing apparatus that is not performing normal operation as a failure location;
Based on the content of the corresponding action determined in advance according to the fault location, the corresponding action according to the specified fault location is specified, and the corresponding response operation is executed,
A failure response method characterized by executing
JP2013079635A 2013-04-05 2013-04-05 Fault response system and fault response method Active JP5869513B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013079635A JP5869513B2 (en) 2013-04-05 2013-04-05 Fault response system and fault response method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013079635A JP5869513B2 (en) 2013-04-05 2013-04-05 Fault response system and fault response method

Publications (2)

Publication Number Publication Date
JP2014203294A JP2014203294A (en) 2014-10-27
JP5869513B2 true JP5869513B2 (en) 2016-02-24

Family

ID=52353676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013079635A Active JP5869513B2 (en) 2013-04-05 2013-04-05 Fault response system and fault response method

Country Status (1)

Country Link
JP (1) JP5869513B2 (en)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681849B (en) * 2015-11-10 2020-11-24 创新先进技术有限公司 Data processing method and device
CN106681909A (en) * 2016-12-02 2017-05-17 中国工商银行股份有限公司 Online transaction fault locating method and device
CN107679051B (en) * 2016-12-14 2019-02-01 平安科技(深圳)有限公司 Transaction system error-detecting method and device
WO2020012579A1 (en) * 2018-07-11 2020-01-16 日本電気株式会社 Log analysis device, log analysis method, and program
JP7218141B2 (en) * 2018-10-15 2023-02-06 キヤノン株式会社 Communication system and image forming apparatus
CN113051121B (en) * 2019-12-26 2023-07-28 百度在线网络技术(北京)有限公司 Log information retrieval method, device, electronic equipment and medium
CN112100048B (en) * 2020-09-24 2024-01-26 中国建设银行股份有限公司 Self-adaptive inspection method and device for server
CN112463561B (en) * 2020-11-20 2024-06-18 中国建设银行股份有限公司 Fault positioning method, device, equipment and storage medium
CN113704067B (en) * 2021-09-09 2023-10-24 合肥新青罗数字技术有限公司 Intangible asset management system monitoring method
CN113890819A (en) * 2021-09-29 2022-01-04 杭州迪普科技股份有限公司 Fault processing method, device and system
CN116449809B (en) * 2023-06-16 2023-09-05 成都瀚辰光翼生物工程有限公司 Fault processing method and device, electronic equipment and storage medium
CN116560893B (en) * 2023-07-07 2023-09-22 湖南开放大学(湖南网络工程职业学院、湖南省干部教育培训网络学院) Computer application program operation data fault processing system
CN117615057B (en) * 2023-11-22 2024-07-02 中电金信数字科技集团有限公司 Fault detection method, device, system, computer equipment and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216594A (en) * 2002-01-21 2003-07-31 Hitachi Ltd Fault data collecting method and execution system and processing program therefor
JP2003228498A (en) * 2002-02-05 2003-08-15 Toshiba Corp History data collecting system and history data collecting program
JP5588295B2 (en) * 2010-10-05 2014-09-10 株式会社日立システムズ Information processing apparatus and failure recovery method
JP5906719B2 (en) * 2011-03-15 2016-04-20 株式会社リコー Electronic device, information processing system, and program

Also Published As

Publication number Publication date
JP2014203294A (en) 2014-10-27

Similar Documents

Publication Publication Date Title
JP5869513B2 (en) Fault response system and fault response method
CN107633016B (en) Data processing method and device and electronic equipment
CN109714209B (en) Method and system for diagnosing website access fault
CN110719199B (en) Network automatic testing and fault positioning method and device
US20090165100A1 (en) Web page safety judgment system
CN106911648B (en) Environment isolation method and equipment
US10467576B2 (en) Distributed software process tracking
JP6654738B1 (en) Processing telemetry data based on the operating state of the data source
CN106060004A (en) Database access method and database agent node
CN106790131B (en) Parameter modification method and device and distributed platform
CN112737800B (en) Service node fault positioning method, call chain generating method and server
CN103001815A (en) Method, device and system for acquiring test data
CN113835836B (en) System, method, computer device and medium for dynamic publishing container service
US9935867B2 (en) Diagnostic service for devices that employ a device agent
CN106571975B (en) Fault tolerance method and device for communication data
CN110875832B (en) Abnormal service monitoring method, device and system and computer readable storage medium
CN102684925A (en) Method and device for acquiring internet access source information
US20060200554A1 (en) System and method for prompting unnormal statuses of an operation system
JP7548069B2 (en) Center, update control method, update control program, OTA master, and software update system
CN107872493B (en) Information processing method, terminal and server
US7756252B2 (en) Method and system for network denial case generation
JP2007304837A (en) Information processor, monitoring method, and program
US8719633B2 (en) Search device, search method, and search program
CN102761672B (en) Method, system and device for realizing speech communication in webpage server
CN115361467B (en) Message display method and terminal equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160107

R150 Certificate of patent or registration of utility model

Ref document number: 5869513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150