JP2010287142A - Fault tolerant computer system and method in fault tolerant computer system - Google Patents
Fault tolerant computer system and method in fault tolerant computer system Download PDFInfo
- Publication number
- JP2010287142A JP2010287142A JP2009141803A JP2009141803A JP2010287142A JP 2010287142 A JP2010287142 A JP 2010287142A JP 2009141803 A JP2009141803 A JP 2009141803A JP 2009141803 A JP2009141803 A JP 2009141803A JP 2010287142 A JP2010287142 A JP 2010287142A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- log
- node
- nodes
- logs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法に関する。 The present invention relates to fault tolerant computer systems and methods in fault tolerant computer systems.
特許文献1は、種々のデータ形式により記録されているログ情報を汎用ログフォーマットという中間形式に変換することにより、ログファイル中に偏在していたログ情報を時刻情報を基準として統合する技術を開示している。
ネットワークを介して接続された複数の処理ノードにより構成されるフォールトトレラントコンピュータシステムにおいて、ユーザがシステムの保守、障害原因解析等の作業を行うためにログを参照する場合、システム内の複数のノードを跨いでの一連の実行処理を追跡するために、個々のノードに個別に蓄積されているログの中から該当するレコードを抽出して並べて参照する必要がある。 In a fault-tolerant computer system composed of multiple processing nodes connected via a network, when a user refers to a log to perform tasks such as system maintenance and failure cause analysis, multiple nodes in the system In order to track a series of execution processes across straddles, it is necessary to extract corresponding records from logs individually stored in individual nodes and refer to them side by side.
また、同じ処理を並列実行する複数のノードに対して、同一事象に関するログレコードを各ノードから抽出し、比較参照する必要がある。特に前記複数のノードでの同じ処理の並列実行はフォールトトレラントコンピュータシステムの信頼性を維持するために重要であり、並列実行不可となることがシステムに発生し得る障害として深刻であり、該障害に対する容易な原因解析及び迅速な復旧が求められる。 In addition, for a plurality of nodes that execute the same process in parallel, it is necessary to extract log records related to the same event from each node and compare and reference them. In particular, parallel execution of the same processing in the plurality of nodes is important for maintaining the reliability of the fault-tolerant computer system, and the fact that the parallel execution is impossible is a serious failure that can occur in the system. Easy cause analysis and quick recovery are required.
しかしながら、特許文献1記載の技術では、上述した課題を解決することが出来ない。ネットワークを介して接続された複数の処理ノードにより構成されるフォールトトレラントコンピュータシステムでは、システムを構成する個々のノード間で時刻が正確に一致していないため、時刻情報を基準にレコードを並べたり、個々のノード間で並列処理された同一事象に関するレコードを抽出することが出来ないからである。
However, the technique described in
また、特許文献1記載の技術は、そもそも単一のコンピュータもしくは構成するノード間で時刻が一致するコンピュータシステムを想定したものであり、フォールトトレラントコンピュータシステムを想定したものでもない。
In addition, the technique described in
上記課題を解決するため、本発明は以下の構成を備える。即ち、ネットワークを介して接続された複数の処理ノードと複数の処理ノードのログを取得する保守ノードとを備えるフォールトトレラントコンピュータシステムにおける方法であって、複数の処理ノードが、同一の処理を並行して実行するステップと、複数の処理ノードが、同一の処理のログをネットワークを介して保守ノードへ送信するステップと、保守ノードが、複数の処理ノードにおいて実行された同一の処理のログをネットワークを介して受信するステップと、保守ノードが、複数の処理ノードにおける同一の処理のログをそれぞれ紐付けるステップと、保守ノードが、ユーザ端末からログの要求を受けたとき、同一の処理として紐付けられたログをユーザ端末に送信する。 In order to solve the above problems, the present invention comprises the following arrangement. That is, a method in a fault tolerant computer system comprising a plurality of processing nodes connected via a network and a maintenance node for acquiring logs of the plurality of processing nodes, wherein the plurality of processing nodes perform the same processing in parallel. A plurality of processing nodes transmitting the same processing log to the maintenance node via the network, and the maintenance node transmitting the same processing log executed by the plurality of processing nodes to the network. And the maintenance node associates logs of the same process in a plurality of processing nodes with each other, and the maintenance node is associated with the same process when receiving a log request from the user terminal. Log is sent to the user terminal.
また、ネットワークを介して接続された複数の処理ノードと複数の処理ノードのログを取得する保守ノードとを備えるフォールトトレラントコンピュータシステムであって、複数の処理ノードが、同一の処理を並行して実行し、複数の処理ノードが、同一の処理のログをネットワークを介して保守ノードへ送信し、保守ノードが、複数の処理ノードにおいて実行された同一の処理のログをネットワークを介して受信し、保守ノードが、複数の処理ノードにおける同一の処理のログをそれぞれ紐付け、保守ノードが、ユーザ端末からログの要求を受けたとき、同一の処理として紐付けられたログをユーザ端末に送信する。 A fault-tolerant computer system comprising a plurality of processing nodes connected via a network and a maintenance node for acquiring logs of the plurality of processing nodes, wherein the plurality of processing nodes execute the same processing in parallel. A plurality of processing nodes transmit the same processing log to the maintenance node via the network, and the maintenance node receives the same processing log executed at the plurality of processing nodes via the network for maintenance. The node associates logs of the same process in a plurality of processing nodes, respectively, and when the maintenance node receives a log request from the user terminal, the log associated with the same process is transmitted to the user terminal.
本発明によれば、ユーザによる保守、障害解析等の作業の効率化を図ることが出来る。 According to the present invention, the efficiency of operations such as maintenance and failure analysis by the user can be improved.
本発明の実施形態においては、ネットワークを介して相互接続した複数の独立したノードにより構成され、構成する各ノードにおいて同じ処理を並列実行させるフォールトトレラントコンピュータ(Fault Tolerant Computer)システムを例として説明する。ここでは、ユーザがシステムの保守、障害原因解析等の作業を行う場合に、システムを構成する各ノードにて処理の実行に伴い発生する各種のログを収集し、ユーザに提示するログを統合することを基本的な考え方として説明する。 In the embodiment of the present invention, a fault tolerant computer (Fault Tolerant Computer) system configured by a plurality of independent nodes interconnected via a network and executing the same processing in parallel in each of the nodes will be described as an example. Here, when the user performs tasks such as system maintenance and failure cause analysis, various logs generated by the execution of processing are collected at each node constituting the system, and the logs presented to the user are integrated. Explain this as a basic concept.
ログは、例えばOS、ミドルウェア、ユーザプログラム等が各々の処理ステップにおいて、処理結果や状態等に応じて逐次出力するデータであり、1つの事象に関するレコードが1つ以上集まったものである。個々のノードにおいて個別の形式にてメモリ、ハードディスク等に蓄積される。 The log is, for example, data that is sequentially output in accordance with the processing result, state, and the like in each processing step by the OS, middleware, user program, and the like, and is a collection of one or more records related to one event. Each node is stored in a memory, a hard disk, etc. in an individual format.
図1は、本発明の実施形態によるフォールトトレラントコンピュータシステムにおける分散ログの統合方法の概要を示す図である。 FIG. 1 is a diagram showing an outline of a method for integrating distributed logs in a fault-tolerant computer system according to an embodiment of the present invention.
主な構成要素は、外部システムからの入力メッセージをフォールトトレラントコンピュータシステムの内部へ転送し、フォールトトレラントコンピュータシステムの内部からのメッセージを集約し外部システムへ転送するゲートウェイ0213、同じ処理を並列実行する複数の処理ノード0212a、0212b、0212cである。ゲートウェイ0213では処理実行に伴い、ログ0110、0120及び0180、0190、0100が発生する。処理ノード0212aでは処理実行に伴い、ログ0130、0140、0150、0160、0170が発生する。処理ノード0212bでは処理実行に伴い、ログ0131、0141、0151、0161、0171が発生する。処理ノード0212cでは処理実行に伴い、ログ0132、0142、0152、0162、0172が発生する。フォールトトレラントコンピュータシステムでは、ゲートウェイ0213及び処理ノード0212a、0212b、0212cでは時刻は完全には一致しておらず、同じ処理を並列実行する複数の処理ノード0212a、0212b、0212cでも全ての処理を完全に実行タイミングを合わせられるわけではない。
The main components are a
本実施形態によると、フォールトトレラントコンピュータシステム内のノードを跨いで処理発生順に紐付けてログを並べる。例えば処理の進捗に従ってゲートウェイ0213及び処理ノード0212aからのログ0110、0120、0130、0140、0150、0160、0170、0180、0190、0100が紐付けて並べられる。つまり、ログ0110、0120、0130、0140、0150、0160、0170、0180、0190、0100が処理発生順に並べて紐付けられる。ここでの紐付け方法の詳細は図8で後述する。
According to this embodiment, logs are arranged in association with each other in the order of processing generation across the nodes in the fault tolerant computer system. For example,
また本実施形態によると、同じ処理を並列実行する複数の処理ノード0212a、0212b、0212cの間で、時刻情報が一致していなくとも同一事象に関するログを互いに紐付ける。例えば処理ノード0212a、0212b、0212cからのログ0130と0131と0132、ログ0140と0141と0142、ログ0150と0151と0152、ログ0160と0161と0162、ログ0170と0171と0172はそれぞれ同一事象に関するログとして紐付けられる。つまり、各処理ノードにおける同一事象に関するログがそれぞれ紐付けられる。ここでの紐付け方法の詳細は図9で後述する。
Further, according to the present embodiment, logs related to the same event are associated with each other even if the time information does not match between the plurality of
図2は、ネットワーク(通信媒体)を介して相互接続した、複数の独立したノードにより構成され、構成する各ノードにおいて同じ処理を並列実行させることによるフォールトトレラントコンピュータシステムの概要を示す図である。 FIG. 2 is a diagram showing an overview of a fault-tolerant computer system configured by a plurality of independent nodes interconnected via a network (communication medium), and executing the same processing in parallel in each of the constituent nodes.
本フォールトトレラントコンピュータシステム0201の主な構成要素は、LAN0214を介して相互接続する、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノード0211、2つ以上の処理ノード0212、広域ネットワーク0203に接続し外部システムとの通信の中継を行うゲートウェイサーバ0213、等である。
The main components of the fault
フォールトトレラントコンピュータシステム0201は、広域ネットワーク0203を介して通信可能な外部システム0204からの要求を受け付けて、該要求に対する処理を実施し、処理結果を応答として該外部システム0204に返信することによるサービスを提供する。ここでは外部システム0204からの要求として入力メッセージ0231を受信し、該要求に対する処理結果を格納した出力メッセージ0241を外部システム0204に対して送信する。
The fault
フォールトトレラントコンピュータシステム0201の内部では、広域ネットワーク0203を介して外部システム0204からの要求として入力メッセージ0231を受信したゲートウェイサーバ0213がLAN0214を介して、システム内の全ての処理ノード0212に対して入力メッセージ0232として転送し直す。ここでほぼ同時に全ての処理ノード0212が該メッセージを受信し、概メッセージに対する処理を開始できるように、入力メッセージ0232はブロードキャスト送信する。該入力メッセージ0232を受信した各処理ノード0212は、各々該入力メッセージ0232に対する処理を実行して、処理結果を格納した出力メッセージ0242を、LAN0214を介してゲートウェイサーバ0213に対して送信する。各処理ノード0212からの出力メッセージ0242を受信したゲートウェイサーバ0213は要求元の外部システム0204への応答として出力メッセージ0241を作成し、外部システム0204に対して送信する。ここでゲートウェイサーバ0213は、各処理ノード0212から受信した1つ以上の出力メッセージ0242のデータ内容の比較照合、正誤判定等を行い、正しいメッセージデータを出力メッセージ0241として、要求元の外部システム0204に送信する。前記出力メッセージ0242のデータ内容の比較照合、正誤判定では、データ内容が合致するものが最も多い出力メッセージ0242が正しいメッセージデータと見なし、前記正しい出力メッセージ0242のうちの1つを、外部システム0204への出力メッセージ0241にする。
In the fault
保守ノード0211では、前記外部システム0204からの要求に対して実行するオンライン処理は一切実行しない。前記外部システム0204からの要求に対して実行する処理の過程で、各々の処理0212及びゲートウェイ0213にて発生する各種のログを、保守ノード0211へと収集し、蓄積する。なおログ収集に伴う処理は、各々の処理ノード0212及びゲートウェイ0213におけるオンライン処理に影響を与えないように低負荷で実行する。また前記保守ノード0211に収集、蓄積したログは、ユーザ端末0202を用いて前記保守ノード0211へとログインしてきたユーザにより参照可能である。
The
保守ノード0211の主なハードウェア構成は、処理装置(CPU)0221、記憶装置(メモリ、ハードディスク)0222、通信装置0223からなる。記憶装置0222には、処理ノード0212及びゲートウェイ0213からログを収集し、記憶装置0222内の指定領域に格納するためのソフトウェアプログラム、処理ノード0212及びゲートウェイ0213から収集したログの統合及び加工を行い、ユーザに提示するための画面表示等を行うためのソフトウェアプログラム、LAN0214を介して保守ノード0211と処理ノード0212との間の通信または保守ノード0211とゲートウェイ0213との間の通信を行うためのソフトウェアプログラム等が格納され、処理装置0221により処理される。また通信装置0223は、処理ノード0212またはゲートウェイ0213からの送信されるログを受信するための通信処理、またはユーザ端末0202からのログインに対する画面の入出力等を行うための通信処理を行う。
The main hardware configuration of the
なお、処理装置(CPU)0221はハードディスク等の記憶装置0222から処理に必要なプログラムを読み出して各処理を実行する。また、記憶装置0222や通信装置0223の動作を制御する。また、後述する各図面で説明するフローチャートやシーケンス図における保守ノード0211の処理は、特段の説明がない限り処理装置(CPU)0221が実行するものとする。
The processing device (CPU) 0221 reads out a program necessary for processing from the
処理ノード0212の主なハードウェア構成は、処理装置(CPU)0224、記憶装置(メモリ、ハードディスク)0225、通信装置0226からなる。記憶装置0225には、フォールトトレラントコンピュータシステム0201により外部システム0204に対して提供するサービスを実行する上で必要なデータ、上記サービスに関する外部システム0204からの要求に対して処理を実行するためのユーザプログラム、複数の処理ノード0212の間での稼動中に同期を実施するためのソフトウェアプログラム、各ソフトウェアプログラムの実行に伴い発生するログを取得し保守ノード0211へと送信するためのソフトウェアプログラム、LAN0214を介して処理ノード0212とゲートウェイサーバ0213との間の通信または処理ノード0212と保守ノード0211との間の通信を行うためのソフトウェアプログラム等が格納され、処理装置0224により処理される。また通信装置0226は、ゲートウェイサーバ0213からの入力メッセージ0232を受信し、ゲートウェイサーバ0213に対して出力メッセージ0242を送信するための通信処理を行う。
The main hardware configuration of the
なお、処理装置(CPU)0224はハードディスク等の記憶装置0225から処理に必要なプログラムを読み出して各処理を実行する。また、記憶装置0225や通信装置0226の動作を制御する。また、後述する各図面で説明するフローチャートやシーケンス図における処理ノード0212の処理は、特段の説明がない限り処理装置(CPU)0224が実行するものとする。
The processing device (CPU) 0224 reads out a program necessary for processing from the
ユーザ端末0202の主なハードウェア構成は、処理装置(CPU)、記憶装置(ハードディスク)、通信装置からなる。前記記憶装置には、保守ノード0211にログインし、コマンド操作及び操作結果として統合・加工済みのログデータ等の画面表示等を行うためのソフトウェアプログラム、ユーザ端末0202と保守ノード0211との間の通信を行うためのソフトウェアプログラム等が格納され、前記処理装置により処理される。また前記通信装置は、保守ノード0211へのログインに対する画面の入出力等を行うための通信処理を行う。
The main hardware configuration of the
なお、前記処理装置はハードディスク等の前記記憶装置から処理に必要なプログラムを読み出して各処理を実行する。また、前記記憶装置や前期通信装置の動作を制御する。また、後述する各図面で説明するフローチャートやシーケンス図におけるユーザ端末0202の処理は、特段の説明がない限り前記処理装置(CPU)が実行するものとする。
The processing device reads each program necessary for processing from the storage device such as a hard disk and executes each processing. It also controls the operation of the storage device and the previous communication device. In addition, the processing of the
図3は、フォールトトレラントコンピュータシステムにおける分散ログ統合方法の実施形態を示す図である。 FIG. 3 is a diagram illustrating an embodiment of a distributed log integration method in a fault tolerant computer system.
フォールトトレラントコンピュータシステム0201が外部システム0204からの要求を受け付けると、該要求に対してゲートウェイ0213での処理、ゲートウェイ0213から複数の処理ノード0212への通信、処理ノード0212での処理、各処理ノード0212からゲートウェイ0213への通信、ゲートウェイ0213での処理、外部システム0204への通信、という一連の処理が発生する(図中の(1)〜(9)、処理ノード0212では(5)(5’)(5’’)(5’’’)が並列実行)。
When the fault-
前記フォールトトレラントコンピュータシステム0201を構成する各ノード(0212、0213)にて実行する処理に伴い発生する各種のログは、保守ノード0211へとLAN0214を介して収集し、蓄積する(0301)。保守ノード0211では、前記収集、蓄積したログを統合、加工して(0302)、統合、加工の結果を、ユーザ端末0202を介してユーザに提示する(0303)。ここではフォールトトレラントコンピュータシステム0201におけるノードを跨いでの処理実行順序に各種のログを陳列して表示したり(0311)、同じ処理を並列実行する処理ノード0212におけるログを並列表示する(0312)。
Various logs generated by processing executed in each node (0212, 0213) constituting the fault-
図4は、フォールトトレラントコンピュータシステムにおける分散ログ統合方法を実施する上での、フォールトトレラントコンピュータシステムを構成する複数のノード間での全体処理シーケンスを示す図である。 FIG. 4 is a diagram showing an overall processing sequence between a plurality of nodes constituting the fault-tolerant computer system when executing the distributed log integration method in the fault-tolerant computer system.
主な構成要素は、フォールトトレラントコンピュータシステム0201を構成する、処理ノード1(0212a)、処理ノード2(0212b)、ゲートウェイ0213、保守ノード0211及びユーザ端末0202である。
The main components are a processing node 1 (0212a), a processing node 2 (0212b), a
図4は処理ノード1(0212a)にて障害が発生した場合について示している。処理ノード1(0212a)にて、0401において障害発生を検出すると、0402において、他のノード(処理ノード2(0212b)、ゲートウェイ0213、保守ノード0211)に対して一斉に、処理ノード1(0212a)における障害発生を通知する。処理ノード1(0212a)は、0403において、自ノードにて蓄積している自ノードのログデータを取得する。0402の障害通知を受信した、処理ノード2(0212b)、ゲートウェイ0213でも、蓄積している各ノードのログデータを取得する(0411、0421)。処理ノード1(0212a)、処理ノード2(0212b)、ゲートウェイ0213の各ノードから保守ノード0211に対して、取得したログデータを送信する(0404、0412、0422)。保守ノード0211では、0431において、前記各ノードから送信されたログデータを受信し、0432において、該ログデータをディスク等に蓄積する。
FIG. 4 shows a case where a failure occurs in the processing node 1 (0212a). When the processing node 1 (0212a) detects the occurrence of a failure in 0401, in 0402, the processing node 1 (0212a) is simultaneously transmitted to the other nodes (processing node 2 (0212b),
ユーザ端末0202にて、ユーザの操作により、0441において、保守ノード0211にログインし、0442において、ログ表示に関するコマンドを実行すると、保守ノード0211にて前記コマンド入力を受け付け、0433において、蓄積したログデータより該当するデータを取得し、0434において、コマンドの入力内容に従って、ログデータの統合、加工の処理を実行し、0435において、前記処理の実行結果を画面出力する。
In the
図5は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードのモジュール構成を示す図である。 FIG. 5 is a diagram showing a module configuration of a maintenance node included in the fault-tolerant computer system and performing processing such as log collection, accumulation, and presentation to the user.
保守ノード0211には、ログの収集・蓄積、統合・加工、ユーザへの提示等の処理を行うログ統合管理部0501、収集したログを蓄積するためのハードディスク0502が導入される。ログ統合管理部0501は、処理装置(CPU)0221により実行されるソフトウェアプログラムである。
The
ログ統合管理部0501の主な構成要素は、データ通信部0515を介して、処理ノード0212、ゲートウェイ0213から送信されてくるログを受け取り、ハードディスク0502へと格納するログ収集・蓄積部0511、ユーザからの要求に対してハードディスク0502より該当するログデータを取り出し、統合、加工等の処理を行う統合・加工部0512、ユーザ端末0202からのリモート接続に対して、コマンド入力画面や統合・加工部0512の処理結果の出力画面等を提供する画面表示部0513、データ通信部0515を介してユーザ端末0202からのリモート接続を受け付け、画面表示部0513に接続する、リモートアクセス受付部0514、通信媒体0214を介してシステム内の処理ノード0211やゲートウェイ0213等との間の通信を行うデータ通信部0515がある。なおログ収集・蓄積部0511はログデータの収集及び蓄積の度に蓄積ログデータ管理テーブル0521の更新を行い、統合・加工部0512はユーザ要求に対して、蓄積ログデータ管理テーブル0521を参照して、該当ログデータを抽出する。ここでハードディスク0502に該当データが無い場合、ログ収集・蓄積部0511を介して、処理ノード0211またはゲートウェイ0213から問合せ応答により該当ログデータを取得する。なお、蓄積ログデータ管理テーブル0521は図7で後述する。
The main components of the integrated
図6は、フォールトトレラントコンピュータシステムを構成し、外部からの要求に対する処理等を実行する処理ノード及びゲートウェイのモジュール構成を示す図である。 FIG. 6 is a diagram showing a module configuration of a processing node and a gateway that configure a fault tolerant computer system and execute processing for a request from the outside.
処理ノード0212には、ログデータの取得、保守ノード0211への送信等の処理を行うログデータ収集部0601、外部システム0204からの要求に対して各種の処理を行うOS0602、ミドルウェア0603、ユーザプログラム0604、処理ノード0212の間でOS0602、ミドルウェア0603、ユーザプログラム0604の処理同期を図るための同期処理制御部0605、またOS0602、ミドルウェア0603、ユーザプログラム0604によるログデータの書き込み先であるメモリ0606、ハードディスク0607が導入される。ログデータ収集部0601及び同期処理制御部0605は、処理装置(CPU)0224により実行されるソフトウェアプログラムである。
The
ログデータ収集部0601の主な構成要素は、自ノードのOS0602、ミドルウェア0603、ユーザプログラム0604を監視し、自ノードの障害発生を検出する、もしくはデータ通信部0614を介して他の処理ノード0212からの障害通知を受信することにより他ノードの障害発生を検出する、障害発生検出部0611、障害発生検出部0611からの指示等により、メモリ0606、ハードディスク0607から、OS0602、ミドルウェア0603、ユーザプログラム0604が出力し蓄積されているログを取得する、ログデータ取得部0612、ログデータ取得部0612が取得したログデータを、データ通信部0614を介して保守ノード0211へと転送する、ログデータ転送部0613、通信媒体0214を介してシステム内の他の処理ノード0212やゲートウェイ0213、保守ノード0211等との間の通信を行う、データ通信部0614がある。またログデータ転送部0613は、データ通信部0614を介して保守ノード0211からの問合せ応答によるログデータ要求に対して、ログデータ取得部0612を介して取得したログデータを、データ通信部0614を介して送信する場合もある。
The main components of the log
なおゲートウェイ0213の場合のモジュール構成は、前記の図6の構成からユーザプログラム0604及び同期処理制御部0605を除いたものとなる。
The module configuration in the case of the
図7は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにおいて管理される蓄積ログデータ管理テーブルの構成を示す図である。 FIG. 7 is a diagram illustrating a configuration of an accumulated log data management table that is included in the fault tolerant computer system and is managed in a maintenance node that performs processing such as log collection, accumulation, and presentation to the user.
蓄積ログデータ管理テーブルの主な構成要素は、ログ種別0701、発生元ノード0702、収集通番0703、収集時刻0704、最古レコード時刻0705、最新レコード時刻0706、最古同期通番0707、最新同期通番0708、レコード数0709、ファイル格納先0710である。
The main components of the accumulated log data management table are log type 0701, source node 0702,
ログ種別0701には、処理ノード0212またはゲートウェイ0213から収集したログの種別を示す情報が格納される。発生元ノード0702には、収集したログの発生元である、処理ノード0212またはゲートウェイ0213のいずれかを識別する情報が格納される。収集通番0703には、処理ノード0212、ゲートウェイ0213から保守ノード0211へとログを収集する処理が開始される度に加算される通番の値が格納される。収集時刻0704には、処理ノード0212またはゲートウェイ0213から送信された当該ログを保守ノード0211が受信した時刻(保守ノード0211が有する時計を用いて算出)が格納される。最古レコード時刻0705には、収集した当該ログに含まれる1つ以上のログレコードのうち最も古いログレコードに、ログ発生元の処理ノード0212またはゲートウェイ0213にて付けられた時刻が格納される、最新レコード時刻0706には、収集した当該ログに含まれる1つ以上のログレコードのうち最も新しいログレコードに、ログ発生元の処理ノード0212またはゲートウェイ0213にて付けられた時刻が格納される。最古同期通番0707には、収集した当該ログに含まれる1つ以上のログレコードのうち最も古いログレコードに、ログ発生元の処理ノード0212にて割り振られた同期通番が格納される。最新同期通番0708には、収集した当該ログに含まれる1つ以上のログレコードのうち最も新しいログレコードに、ログ発生元の処理ノード0212にて割り振られた同期通番が格納される。レコード数0709には、収集した当該ログに含まれるログレコードの件数が格納される。ファイル格納先0710には、収集した当該ログの格納先であるファイルパスが格納される。
The log type 0701 stores information indicating the type of log collected from the
前記蓄積ログデータ管理テーブルは、処理ノード0212、ゲートウェイ0213から保守ノード0211へとログが収集され、保守ノード0211上のハードディクスに格納される度に更新され、ユーザからの要求に対してログを提示する際に参照される。
The accumulated log data management table is updated each time logs are collected from the
図8は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにて、各ノードより収集したログに対して、外部システムからの入力受付時のフォールトトレラントコンピュータシステム内のノードを跨いでの処理発生順序に並べるための紐付けの方法の概要を示す図である。 FIG. 8 shows a fault that is included in the fault-tolerant computer system, and that receives logs from an external system for logs collected from each node in a maintenance node that performs processing such as log collection, storage, and presentation to the user. It is a figure which shows the outline | summary of the linking method for arranging in the process generation order across the nodes in a tolerant computer system.
主な構成要素は、フォールトトレラントコンピュータシステム0201を構成する、ゲートウェイ0213及び処理ノード0212である。ゲートウェイ0213、処理ノード0212は同期していないそれぞれ異なる時刻情報を有している(0801、0802)。複数のノードを跨いで統一的に紐付けるための一元的な情報は存在しない。このため1ノード内、ノード間等の部分的な紐付けの組合せによりフォールトトレラントコンピュータシステム0201内のノードを跨いでの処理発生順序に従って、保守ノード0211は収集・蓄積する異種かつ複数のログを並べていく。
The main components are a
外部システム0204からの入力メッセージ受信後のゲートウェイ0213における処理のログに対して保守ノード0211は、各種ログ(通信ログ、ログA)に一般的に共通して含まれるPID(プロセスID)に着目し、外部システム0204からのメッセージ受信のログからPIDが同一のログを、各ログに刻印された時刻0801に従って発生順に紐付ける(0811、0812、0813)。
The
ゲートウェイ0213から処理ノード0212への通信のログに関して、通信ログは各々個別に記録されるが、保守ノード0211は、同一メッセージの送信及び受信に関するログを紐付けるために、メッセージの識別情報及び通番が同一のものを抽出する(0831)。
Regarding the log of communication from the
ゲートウェイ0213からのメッセージ受信後の処理ノード0212における処理のログに対して保守ノード0211は、前記ゲートウェイ0213の内部処理のログと同様に、各種ログ(通信ログ、ログB、ログC)からPIDに着目して、ゲートウェイ0213からのメッセージ受信のログからPIDが同一のログを、各ログに刻印された時刻0802に従って発生順に紐付ける(0821、0822、0823、0824、0825、0826)。ここで処理の過程で実行プロセスの切り替え、新規起動等が発生する場合はそれらのログの参照により対象とするPIDの変化を追跡する。
For the processing log in the
処理ノード0212からゲートウェイ0213への通信のログに関して、前記ゲートウェイ0213から処理ノード0212への通信のログの場合と同様にして、保守ノード0211は、同一メッセージの送信及び受信に関するログを紐付ける(0832)。
Regarding the communication log from the
処理ノード0212からのメッセージ受信後のゲートウェイ0213における処理のログに対して保守ノード0211は、前記ゲートウェイ0213の内部処理のログまたは処理ノード0212の内部処理のログと同様に、各種ログ(通信ログ、ログA)からPIDに着目して、処理ノード0212からのメッセージ受信のログからPIDが同一のログを、各ログに刻印された時刻0801に従って発生順に紐付ける(0814、0815、0816)。
For the processing log in the
上記のノード内またはノード間での部分的な紐付けの組合せにより保守ノード0211は、外部システム0204から入力メッセージを受信してから該応答としてのメッセージを外部システム0204に送信するまでの、フォールトトレラントコンピュータシステム0201におけるノードを跨いでの一連の処理を紐付けることができる。
The
図9は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにて、各ノードより収集したログに対して、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法の概要を示す図である。 FIG. 9 shows a plurality of processes that are included in the fault-tolerant computer system and that execute the same process in parallel on the logs collected from each node in a maintenance node that performs processes such as log collection, storage, and presentation to the user. It is a figure which shows the outline | summary of the correlation method of the log record regarding the same event between nodes.
主な構成要素は、同じ処理(処理1〜4)を並列実行する複数の処理ノード0212a、0212b、0212cである。処理ノード0212a、0212b、0212cは同期していないそれぞれ異なる時刻情報を有しており(0901、0902、0903)、処理ノード間で時刻が同一のログレコードが存在したとしても、実際には同時に発生した事象ではない可能性がある。
The main components are a plurality of
処理ノード0212a、0212b、0212cはゲートウェイ0213からブロードキャスト送信されるメッセージ0911を同時に受信し処理を一斉に開始する。またある特定の処理を開始する際に処理ノード間で開始タイミングの待合わせを行うために同期信号0912の送受信を処理ノード間で実施している。ただしこれらは処理ノード間で処理実行タイミングが大きくずれることを回避するためのものであり、処理ノード間で完全にタイミングを合わせて同期実行するためのものではない。
The
前記の処理ノード0212a、0212b、0212cの動作内容から、処理実行の過程では、メッセージ受信時や同期信号受信時のように処理ノード間で処理開始の待合わせを実施する同期ポイント0921が存在する。同期ポイント0921は、処理ノード間である特定の処理の開始タイミングを合わせるためのものであり、処理ノード0212にて稼動するユーザプログラムの処理コードに対して、ネットワーク、共有メモリ、ハードディスク等へのI/Oアクセスの処理、新規プロセス起動等の開始直前に設ける。各処理ノード0212では、前記同期ポイントに到達すると処理実行を一時停止し、同期信号0912をブロードキャスト送信する。各処理ノード0212では他の全ての処理ノード0212からの前記同期信号0912の受信を確認してから処理を再開する。
ここで同期ポイント0921を通過する度に1加算する同期通番0922を導入し、各処理ノードのログに対応付ける。ここでは各種ログにおける事象毎の1ログレコードの中に同期通番0922を格納する領域を追加し、ログレコードの発生時点での同期通番0922の値も当該ログレコード内に記録する、もしくは別途ログレコードと同期通番0922との対応テーブルを設け、各ログレコードの識別コードと当該ログレコード発生時点での同期通番0922の値とを対応付けて記録するものとする。処理ノード0212は保守ノード0211に対して、前記同期通番0922も格納されたログレコードを送信する、もしくは前記対応テーブルをログレコードとともに送信する。
From the operation contents of the
Here, a synchronization
前記同期通番0922で区切られた範囲内では、処理ノード間で同一処理または事象に関するログが含まれているので、当該範囲内で各種ログの個々の識別コード及び当該範囲内での同種のログレコードの発生順序に基づき、同一事象に関するログレコードをノード間で紐付ける。例えば、同期通番0922が“n+1”である範囲内では、処理ノード1(0212a)には0932〜0935のログが含まれており、処理ノード2(0212b)には0942〜0948のログが含まれている。これらのログから識別コードと各識別コードを有する同種のログレコードの中での発生順序に基づいて、ログ0932と0942、ログ0933と0943、ログ0934と0946、ログ0935と0948がそれぞれ紐付けられる。なお少なくとも1つの処理ノードのみで発生し、他の処理ノードには同一ログが存在しないログ(例えばエラーログ等)は紐付け無しとして扱う。ログ0944、0945、0947は処理ノード2(0212b)のみの紐付け無しログとなる。 図10は、フォールトトレラントコンピュータシステムを構成し、外部からの要求に対する処理等を実行する処理ノードにて、蓄積していたログを取得し、保守ノードに送信する処理の流れを示すフローチャートである。
Within the range delimited by the synchronization
1001において、障害発生を検出する。ここで検出した障害は自ノードで発生したものである場合、1002において、他ノードへ障害通知を送信する。1001において、他ノードからの障害通知を受信した場合、1002の処理は行わない。1003において、自ノードにて蓄積しているログデータを取得する。ここで取得するログデータは、当該ノードにて蓄積しているログデータのうち、前記障害検出の時点で保守ノード0211には未送信である全てのログデータである。1004において、1003にて取得したログデータを保守ノードへ送信する。1005において、障害発生したのは自ノードである場合、正常にノードの処理を終了させるべく、1006において、終了処理を行う。1005において、障害発生したのは自ノードでは無い場合、1001から1005の処理を繰り返す。
In 1001, occurrence of a failure is detected. If the detected failure has occurred in its own node, in 1002, a failure notification is transmitted to another node. When a failure notification from another node is received in 1001, the processing in 1002 is not performed. In 1003, log data accumulated in the own node is acquired. The log data acquired here is all the log data that has not been transmitted to the
1004において、処理ノード0212における各ログのデータ保有期間の長さ、ログのデータサイズ、実行中のオンライン処理の負荷等に応じて、ログ毎に優先度を決定して当該処理ノード0212から保守ノード0211への送信処理を行う。例えば、処理ノード0212におけるデータ保有期間の終了までの時間が短いログから優先して送信し、データ保有期間の終了までの期間が長いログは、1003にてログデータ取得後直ちに一斉送信せず、遅延して送信する。もしくは一定間隔毎に分割して送信する(ただしいずれのログもデータ保有期間終了までに送信完了することは保証する)。データサイズの小さいログの送信はオンライン処理と並行実行しても良いが、データサイズの大きいログの送信は、処理負荷増、通信帯域の占有等でオンライン処理に影響を与える可能性があるため、オンライン処理が実行していない期間に実施する。また処理ノード0211におけるCPU負荷率を計測し、特にオンライン処理実行中は、CPU負荷率が設定した閾値を超えると、送信処理を中断する、というような制御を実施する。これらにより外部システム0204からの入力に対する処理実行に与える影響を最小限にする。
In
図11は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにて、各処理ノードからログを収集し、統合及び加工、ユーザへの提示の処理の流れを示すフローチャートである。 FIG. 11 is a maintenance node that is included in the fault tolerant computer system and performs processing such as log collection, storage, and presentation to the user. Logs are collected from each processing node, integrated, processed, and presented to the user. It is a flowchart which shows the flow.
1101において、ユーザ端末0202を介してのユーザからのコマンド実行要求を受け付ける。前記コマンドの入力には要求する処理内容、対象とするデータの範囲等が含まれる。1102において、1101のコマンド入力により指定された範囲内で、保守ノード0211のハードディスク0502に格納されたログデータより該当データを検索する。1103において、1102の検索の結果、該当データが無い場合、1104において、保守ノード0211から処理ノード0212、ゲートウェイ0213に問い合わせて、該当データを取得する。1103において、1102の検索の結果、該当データがある場合、1104の処理は省略する。1105において、1101のコマンド入力で指定された処理の要求内容が“処理発生順表示”である場合、1106において、1102または1104により取得したログレコードの中から、送信先ノード(最初はゲートウェイ0213)における受信ログ(最初は外部システム0204からのメッセージ受信のログ)を抽出する。1107において、1106で抽出したログレコードとPIDが一致するログレコードを抽出する。1108において、1107で抽出したログレコードが該当ノードの送信ログ(最初はゲートウェイ0213から処理ノード0212へのメッセージ送信のログ)でない場合、1107の処理を繰り返す。1108において、1107で抽出したログレコードが該当ノードの送信ログである場合、1109において、抽出したログレコードを表示用に配列する。1110において、全ノード分(処理実行順にゲートウェイ0213、処理ノード0212、ゲートウェイ0213)のログレコード抽出及び配列が終了していなければ、1106〜1109の処理を繰り返す。1110において、全ノード分のログレコード抽出及び配列が終了した場合、1111において、1110までの処理結果を画面表示し、終了する。
In 1101, a command execution request from the user via the
1105において、1101のコマンド入力で指定された処理の要求内容が“並列表示”もしくは“比較表示”である場合、1112において、1102または1104により取得したログレコードを同期通番の値により範囲分割する。1113において、1112にて分割した1つの範囲のログレコードの中から、紐付け情報(図9参照)を参照し、処理ノード間で同一事象のレコードを抽出する。1114において、1つの事象に関する全処理ノード分のログレコードの抽出が終了していない場合、1113の処理を繰り返す。1114において、1つの事象に関する全処理ノード分のログレコードの抽出が終了した場合、1115において、1101のコマンド入力で指定された処理の要求内容が“比較表示”である場合、1116において、1113にて抽出した全処理ノード分の同一事象に関するログレコードのデータ内容の比較処理を実施する。1115において、1101のコマンド入力で指定された処理の要求内容が“並列表示”である場合、1116の処理は省略する。1117において、1つの同期通番の値による範囲内で全ログレコードに対する処理が終了していない場合、1112〜1116の処理を繰り返す。1117において、1つの同期通番の値による範囲内で全ログレコードに対する処理が終了した場合、1118において、抽出したログレコードを表示用に配列する。1119において、1112で分割した全範囲に関して処理が終了していない場合、1112〜1118の処理を繰り返す。1119において、1112で分割した全範囲に関して処理が終了した場合、1111において、1119までの処理結果を画面表示し、終了する。 In 1105, when the requested processing content specified by the command input in 1101 is “parallel display” or “comparison display”, in 1112 the log record acquired in 1102 or 1104 is divided into ranges by the value of the synchronous serial number. In 1113, the record of the same event is extracted between the processing nodes by referring to the association information (see FIG. 9) from the log records in one range divided in 1112. If the extraction of log records for all processing nodes related to one event has not been completed in 1114, the processing of 1113 is repeated. If the extraction of log records for all processing nodes related to one event is completed in 1114, the request content of the process designated by the command input in 1101 is “comparison display” in 1115, the process returns to 1113 in 1116 Compare the data contents of log records related to the same event for all processing nodes extracted in this way. In 1115, when the request content of the process designated by the command input of 1101 is “parallel display”, the process of 1116 is omitted. In 1117, if the processing for all the log records is not completed within the range based on the value of one synchronous serial number, the processing of 1112 to 1116 is repeated. If the processing for all the log records is completed within the range based on the value of one synchronization serial number in 1117, the extracted log records are arranged for display in 1118. If the process has not been completed for the entire range divided by 1112 in 1119, the processes of 1112 to 1118 are repeated. In 1119, when the processing is completed for the entire range divided in 1112, in 1111 the processing results up to 1119 are displayed on the screen, and the processing ends.
1107または1113において、少なくとも1つの処理ノード0212またはゲートウェイ0213から収集したログレコードの件数が他の処理ノード0212から収集したログレコードの件数を大きく上回る場合、当該処理ノード0212またはゲートウェイ0213から収集したログレコードの間引きを実施する。特に連続して発生する同一内容のログレコード、同一ログレコードのデータ内容が更新される場合の最新値以外のレコード、当該処理ノード0212にのみ含まれるログ、ユーザによる参照頻度の低いログ、等が間引きの対象となる。ここで間引きの対象となったログレコードは加工、画面表示等の対象外となるだけで、格納していたハードディスクからの削除は実施しない。
In 1107 or 1113, when the number of log records collected from at least one
図12は、ノードを跨いで処理発生順に陳列したログを、ユーザに対して提示するための、画面表示例を示す図である。 FIG. 12 is a diagram illustrating a screen display example for presenting a log displayed in the order of processing generation across nodes to the user.
画面表示1201は、図8にて示した、外部システムからの入力受付時のフォールトトレラントコンピュータシステム内のノードを跨いでの処理発生順序に並べるための紐付けの方法に基づく処理結果であり、ユーザのコマンド操作に対して図11に示した処理実行による出力結果として表示する。1211に示す開始時刻と終了時刻の間に発生した、外部システムから入力に対して、フォールトトレラントコンピュータシステム内の各ノードにて実行された処理に伴い発生したログを発生順に並べて表示したものであり、表示の1行が1つのログレコードに該当する。各ログレコードに対して、発生元の構成要素(ノード)1212、各構成要素でのログの発生時刻1213、ログ種別1214、ログレコードに含まれるメッセージ1215が表示される。
The
図13は、同じ処理を並列実行する複数の処理ノード間で紐付けた、同一事象に関するログレコードを、複数の処理ノード分だけ並列に並べて、ユーザに対して提示するための、画面表示例を示す図である。 FIG. 13 is a screen display example for displaying log records related to the same event, which are linked between a plurality of processing nodes that execute the same processing in parallel, in parallel for a plurality of processing nodes and presented to the user. FIG.
画面表示1202は、図9にて示した、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法に基づき、同一事象に関するログレコードを並列表示する結果であり、ユーザのコマンド操作に対して図11に示した処理実行による出力結果として表示する。1221に示す開始時刻と終了時刻の間に、同じ処理を並列実行する複数の処理ノードで実行された処理に伴い発生したログを発生順に並べて表示したものであり、表示の1行が同じ処理を並列実行する複数の処理ノードにおける同一事象に関する1つのログレコードに該当する。各ログレコードに対して、ログ種別1222、ログレコードに含まれるメッセージ1223、各処理ノードにおける該当ログレコードの、各処理ノードでの発生時刻(1224、1225、1226)、各処理ノードでのログレコードの発生時刻を比較した結果である時間差1227が表示される。ここでは各処理ノードでのログレコードの発生時刻の時間差が設定された閾値内に収まっていれば“match”と表示し、時間差が設定された閾値内に収まっていなければ“unmatch”と表示する。
The
図14は、同じ処理を並列実行する複数の処理ノード間で紐付けた、同一事象に関するログレコードに関してデータ内容に比較結果を、ユーザに対して提示するための、画面表示例を示す図である。 FIG. 14 is a diagram showing a screen display example for presenting a comparison result to the data contents regarding the log records related to the same event, which are linked between a plurality of processing nodes executing the same process in parallel. .
画面表示1203は、図9にて示した、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法に基づき、同一事象に関するログレコードのデータ内容の比較処理結果であり、ユーザのコマンド操作に対して図11に示した処理実行による出力結果として表示する。画面表示1203では、同一事象に関するログレコードのうち、処理ノード間でデータ内容に差異があったもの(ただし発生時刻の差異は対象外)のみ表示している。1231には、前記処理ノード間でデータ内容に差異のあったログレコードを特定するための識別情報を表示し、1232には差異のある2つの処理ノードの間でのデータ内容の比較結果を表示する。なお図中の“TARGET”、“ORIGINAL”はデータ内容比較における比較対象及び比較の参照元を示す。ユーザは、“TARGET”の最後の箇所「0000 0000 0000」と“ORIGINAL”の最後の箇所「0fff 000c 0001」が一致していないことを容易に確認することできる。
The
以上のように、本発明の実施形態によれば、フォールトトレラントコンピュータシステムの構成の複雑さや各ノードに搭載されるソフトウェア等の構成の複雑さに関わらず、ユーザによるシステム稼働中の動作状態把握、または障害発生時の早急な原因解析等が容易となり、システム構成等に関する詳細知識を有さなくとも、ユーザによる保守、障害解析等の作業の効率化を図ることができる。 As described above, according to the embodiment of the present invention, regardless of the complexity of the configuration of the fault-tolerant computer system and the complexity of the software installed on each node, the user can grasp the operating state during system operation, Or, it is easy to quickly analyze the cause when a failure occurs, and it is possible to improve the efficiency of operations such as maintenance and failure analysis by the user without having detailed knowledge about the system configuration or the like.
なお、本発明の実施形態について、その実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 In addition, although embodiment of this invention was concretely demonstrated based on the embodiment, it is not limited to this and can be variously changed in the range which does not deviate from the summary.
201・・・フォールトトレラントコンピュータシステム、0202・・・ユーザ端末、0203・・・広域ネットワーク、0204・・・LAN、0211・・・保守ノード、0212・・・処理ノード、0213・・・ゲートウェイサーバ、0221・・・処理装置、0222・・・記憶装置、0223・・・通信装置、0224・・・処理装置、0225・・・記憶装置、0226・・・通信装置。 201 ... fault tolerant computer system, 0202 ... user terminal, 0203 ... wide area network, 0204 ... LAN, 0211 ... maintenance node, 0212 ... processing node, 0213 ... gateway server, 0221 ... Processing device, 0222 ... Storage device, 0223 ... Communication device, 0224 ... Processing device, 0225 ... Storage device, 0226 ... Communication device.
Claims (13)
前記複数の処理ノードが、同一の処理を並行して実行するステップと、
前記複数の処理ノードが、前記同一の処理のログをネットワークを介して保守ノードへ送信するステップと、
前記保守ノードが、前記複数の処理ノードにおいて実行された前記同一の処理のログをネットワークを介して受信するステップと、
前記保守ノードが、前記複数の処理ノードにおける前記同一の処理のログをそれぞれ紐付けるステップと、
前記保守ノードが、ユーザ端末から前記ログの要求を受けたとき、前記同一の処理として紐付けられたログを前記ユーザ端末に送信することを特徴とする方法。 A method in a fault tolerant computer system comprising a plurality of processing nodes connected via a network and a maintenance node for acquiring logs of the plurality of processing nodes,
The plurality of processing nodes executing the same processing in parallel;
The plurality of processing nodes transmitting a log of the same processing to a maintenance node via a network;
The maintenance node receiving a log of the same process executed in the plurality of processing nodes via a network;
The maintenance node associating each log of the same processing in the plurality of processing nodes;
When the maintenance node receives the log request from a user terminal, the maintenance node transmits a log associated with the same process to the user terminal.
前記複数の処理ノードのそれぞれが各処理に対応する同期番号をログに記録し、
前記保守ノードは、前記同期番号を用いて、それぞれの処理ノードにおける同一の処理のログを紐付けることを特徴とする方法。 The method of claim 1, comprising:
Each of the plurality of processing nodes records a synchronization number corresponding to each processing in a log,
The maintenance node associates logs of the same process in each processing node using the synchronization number.
前記複数の処理ノードのそれぞれは、各処理の同期ポイントに到達したとき、同期信号を他の処理ノードに送信し、
前記複数の処理ノードのそれぞれは、前記他の処理ノードからの同期信号を受信するまで処理の実行を停止することを特徴とする方法。 The method according to claim 1 or 2, comprising:
Each of the plurality of processing nodes transmits a synchronization signal to another processing node when reaching the synchronization point of each processing,
Each of the plurality of processing nodes stops processing until receiving a synchronization signal from the other processing node.
前記保守ノードは、一の処理ノードにおいてのみ記録され、他の処理ノードにおいて記録されていないログを紐付けないことを特徴とする方法。 A method according to any one of claims 1 to 3,
The method is characterized in that the maintenance node does not link a log that is recorded only in one processing node and not recorded in another processing node.
前記複数の処理ノードのそれぞれは、それぞれの処理ノードにおけるログの保有期間、前記ログのデータサイズに基づいて、前記保守ノードへ前記ログを送信することを特徴とする方法。 A method according to any of claims 1 to 4, comprising
Each of the plurality of processing nodes transmits the log to the maintenance node based on a log retention period in each processing node and a data size of the log.
前記複数の処理ノードのそれぞれは、オンライン処理が実行されていない期間に前記ログを前記保守ノードへ送信することを特徴とする方法。 A method according to any one of claims 1 to 5, comprising
Each of the plurality of processing nodes transmits the log to the maintenance node during a period when online processing is not being executed.
前記複数の処理ノードのうち少なくとも1つの処理ノードで障害が発生した場合には、
前記障害が発生した処理ノードは、その他の処理ノードに対して障害の発生を通知し、かつ、前記障害が発生した処理ノードのログを前記保守ノードへ送信し、
前記その他の処理ノードは、それぞれのログを前記保守ノードへ送信することを特徴とする方法。 The method according to any one of claims 1 to 6, comprising:
When a failure occurs in at least one of the plurality of processing nodes,
The processing node in which the failure has occurred notifies the other processing nodes of the occurrence of the failure, and sends a log of the processing node in which the failure has occurred to the maintenance node,
The other processing nodes send their respective logs to the maintenance node.
前記フォールトトレラントコンピュータシステムは、ネットワークを介して外部装置からの処理要求を受信し、または、ネットワークを介して前記外部装置へ前記処理要求に対する処理結果を送信するゲートウェイ装置を備え、
前記ゲートウェイ装置は、ネットワークを介して前記外部装置から受信した処理要求を受信し、前記処理要求を前記複数の処理ノードへ送信し、
前記複数の処理ノードは、前記処理要求に対する処理をそれぞれ並行して実行し、前記実行した処理結果を前記ゲートウェイ装置へそれぞれ送信し、
前記ゲートウェイ装置は、前記複数の処理ノードから受信した各処理ノードで実行された処理結果を照合し、正常とみなした処理結果を前記外部装置へネットワークを介して送信することを特徴とする方法。 A method according to any one of claims 1 to 7,
The fault tolerant computer system includes a gateway device that receives a processing request from an external device via a network or transmits a processing result for the processing request to the external device via a network,
The gateway device receives a processing request received from the external device via a network, and transmits the processing request to the plurality of processing nodes;
The plurality of processing nodes respectively execute processing for the processing request in parallel, and transmit the executed processing results to the gateway device.
The gateway device collates processing results executed by each processing node received from the plurality of processing nodes, and transmits a processing result regarded as normal to the external device via a network.
前記ゲートウェイ装置は、前記外部装置から受信した処理要求を前記処理要求に対応する識別情報とともに前記処理ノードへ送信し、かつ、前記ゲートウェイ装置で実行された処理のログと前記処理ノードへの送信及び前記外部装置からの受信のログを前記ゲートウェイ装置における処理に対応する識別情報及び前記処理の実行時刻情報とともに前記保守ノードへ送信し、
前記処理ノードは、前記ゲートウェイ装置から受信した処理要求に対する処理を実行するとともに、前記処理ノードで実行された処理のログと前記ゲートウェイ装置との間の送信及び受信のログを前記処理ノードで実行された処理に対応する識別情報及び前記処理の実行時刻情報とともに前記保守ノードへ送信し、
前記保守ノードは、前記ゲートウェイ装置から受信した処理のログと、前記処理ノードから受信した処理のログを、前記ゲートウェイ装置または前記処理ノードにおける前記識別情報と前記実行時刻情報に従って、前記処理の処理発生順に並べることを特徴とする方法。 9. The method of claim 8, wherein
The gateway device transmits a processing request received from the external device to the processing node together with identification information corresponding to the processing request, and transmits a log of processing executed by the gateway device to the processing node, and A log of reception from the external device is transmitted to the maintenance node together with identification information corresponding to processing in the gateway device and execution time information of the processing,
The processing node executes processing for a processing request received from the gateway device, and a processing log executed by the processing node and a transmission and reception log between the gateway device are executed by the processing node. Together with the identification information corresponding to the process and the execution time information of the process to the maintenance node,
The maintenance node generates a process log of the process received from the gateway apparatus and a process log received from the process node according to the identification information and the execution time information in the gateway apparatus or the process node. A method characterized by arranging in order.
前記保守ノードは、同一の識別情報を有する、前記ゲートウェイ装置から受信した処理のログと前記処理ノードから受信した処理のログとを、前記ゲートウェイ装置または前記処理ノードにおける前記識別情報と前記実行時刻情報に従って、前記処理の処理発生順に並べることを特徴とする方法。 10. A method according to claim 8 or 9, comprising
The maintenance node has a process log received from the gateway device and a process log received from the processing node having the same identification information, the identification information and the execution time information in the gateway device or the processing node. According to the method, the processes are arranged in the order of occurrence of the processes.
前記ユーザ端末は、前記同一の処理として紐付けられたログを画面上に並べて表示することを特徴とする方法。 A method according to any of claims 1 to 10, comprising
The user terminal displays the logs associated with the same process side by side on a screen.
前記ユーザ端末は、前記同一の処理として紐付けられたログの比較結果を画面上に表示することを特徴とする方法。 A method according to any of claims 1 to 11, comprising
The user terminal displays a comparison result of logs associated as the same processing on a screen.
前記複数の処理ノードが、同一の処理を並行して実行し、
前記複数の処理ノードが、前記同一の処理のログをネットワークを介して保守ノードへ送信し、
前記保守ノードが、前記複数の処理ノードにおいて実行された前記同一の処理のログをネットワークを介して受信し、
前記保守ノードが、前記複数の処理ノードにおける前記同一の処理のログをそれぞれ紐付け、
前記保守ノードが、ユーザ端末から前記ログの要求を受けたとき、前記同一の処理として紐付けられたログを前記ユーザ端末に送信することを特徴とするフォールトトレラントコンピュータシステム。 A fault tolerant computer system comprising a plurality of processing nodes connected via a network and a maintenance node for acquiring logs of the plurality of processing nodes,
The plurality of processing nodes execute the same processing in parallel;
The plurality of processing nodes send logs of the same processing to a maintenance node via a network;
The maintenance node receives a log of the same process executed in the plurality of processing nodes via a network;
The maintenance node associates logs of the same processing in the plurality of processing nodes,
A fault tolerant computer system, wherein when the maintenance node receives a request for the log from a user terminal, the log associated with the same process is transmitted to the user terminal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009141803A JP5331585B2 (en) | 2009-06-15 | 2009-06-15 | Fault tolerant computer system and method in fault tolerant computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009141803A JP5331585B2 (en) | 2009-06-15 | 2009-06-15 | Fault tolerant computer system and method in fault tolerant computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010287142A true JP2010287142A (en) | 2010-12-24 |
JP5331585B2 JP5331585B2 (en) | 2013-10-30 |
Family
ID=43542775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009141803A Expired - Fee Related JP5331585B2 (en) | 2009-06-15 | 2009-06-15 | Fault tolerant computer system and method in fault tolerant computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5331585B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014010047A1 (en) * | 2012-07-11 | 2014-01-16 | 株式会社日立製作所 | Management system and information acquisition method |
WO2014049804A1 (en) * | 2012-09-28 | 2014-04-03 | 株式会社日立製作所 | System operation trace method in distributed system |
JP2015133029A (en) * | 2014-01-15 | 2015-07-23 | 株式会社日立製作所 | Security apparatus, security system, and security method |
JPWO2013190663A1 (en) * | 2012-06-20 | 2016-02-08 | 富士通株式会社 | Management device and log collection method |
WO2016120988A1 (en) * | 2015-01-27 | 2016-08-04 | 株式会社日立製作所 | Database system and database management method |
JP2017083979A (en) * | 2015-10-26 | 2017-05-18 | 株式会社Screenホールディングス | Log comparison method, log comparison program, and log comparison device |
JP2020149245A (en) * | 2019-03-12 | 2020-09-17 | 株式会社リコー | Network device, network communication system, and network control program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113039302B (en) | 2019-01-31 | 2022-10-11 | 古河电气工业株式会社 | Aluminum alloy material, conductive member using same, battery member, fastening member, spring member, structural member, and rubber-insulated cable |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05250342A (en) * | 1991-07-30 | 1993-09-28 | Hewlett Packard Co <Hp> | Distributed system and its monitoring method |
JPH06259209A (en) * | 1993-03-10 | 1994-09-16 | Toshiba Corp | Process executing condition display device |
JPH10198616A (en) * | 1997-01-08 | 1998-07-31 | Hitachi Ltd | Network system with distributed log batch management function |
JP2000010815A (en) * | 1998-06-22 | 2000-01-14 | Nec Corp | Device and method for debugging parallel decentralized systems |
JP2001344016A (en) * | 2000-06-01 | 2001-12-14 | Nec Eng Ltd | History information management system |
JP2005346414A (en) * | 2004-06-03 | 2005-12-15 | Fujitsu Ltd | Trace processing program, method, and device |
JP2006079488A (en) * | 2004-09-13 | 2006-03-23 | Mitsubishi Electric Corp | Data collection apparatus, data collection system and data collection method |
JP2006512634A (en) * | 2002-09-12 | 2006-04-13 | シーメンス アクチエンゲゼルシヤフト | Method and circuit arrangement for synchronizing processing units synchronously or asynchronously clocked |
JP2007241426A (en) * | 2006-03-06 | 2007-09-20 | Hitachi Software Eng Co Ltd | Specification operation support system for failure factor of application |
JP2008071085A (en) * | 2006-09-13 | 2008-03-27 | Ricoh Co Ltd | Image processor and log transfer method |
JP2008210308A (en) * | 2007-02-28 | 2008-09-11 | Mitsubishi Electric Corp | Log integrating managing device, log integrating managing method, and log integrating managing program |
JP2009099016A (en) * | 2007-10-18 | 2009-05-07 | Hitachi Ltd | Computer system, synchronous operation method, node and program |
-
2009
- 2009-06-15 JP JP2009141803A patent/JP5331585B2/en not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05250342A (en) * | 1991-07-30 | 1993-09-28 | Hewlett Packard Co <Hp> | Distributed system and its monitoring method |
JPH06259209A (en) * | 1993-03-10 | 1994-09-16 | Toshiba Corp | Process executing condition display device |
JPH10198616A (en) * | 1997-01-08 | 1998-07-31 | Hitachi Ltd | Network system with distributed log batch management function |
JP2000010815A (en) * | 1998-06-22 | 2000-01-14 | Nec Corp | Device and method for debugging parallel decentralized systems |
JP2001344016A (en) * | 2000-06-01 | 2001-12-14 | Nec Eng Ltd | History information management system |
JP2006512634A (en) * | 2002-09-12 | 2006-04-13 | シーメンス アクチエンゲゼルシヤフト | Method and circuit arrangement for synchronizing processing units synchronously or asynchronously clocked |
JP2005346414A (en) * | 2004-06-03 | 2005-12-15 | Fujitsu Ltd | Trace processing program, method, and device |
JP2006079488A (en) * | 2004-09-13 | 2006-03-23 | Mitsubishi Electric Corp | Data collection apparatus, data collection system and data collection method |
JP2007241426A (en) * | 2006-03-06 | 2007-09-20 | Hitachi Software Eng Co Ltd | Specification operation support system for failure factor of application |
JP2008071085A (en) * | 2006-09-13 | 2008-03-27 | Ricoh Co Ltd | Image processor and log transfer method |
JP2008210308A (en) * | 2007-02-28 | 2008-09-11 | Mitsubishi Electric Corp | Log integrating managing device, log integrating managing method, and log integrating managing program |
JP2009099016A (en) * | 2007-10-18 | 2009-05-07 | Hitachi Ltd | Computer system, synchronous operation method, node and program |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2013190663A1 (en) * | 2012-06-20 | 2016-02-08 | 富士通株式会社 | Management device and log collection method |
WO2014010047A1 (en) * | 2012-07-11 | 2014-01-16 | 株式会社日立製作所 | Management system and information acquisition method |
US9130880B2 (en) | 2012-07-11 | 2015-09-08 | Hitachi, Ltd. | Management system and information acquisition method |
WO2014049804A1 (en) * | 2012-09-28 | 2014-04-03 | 株式会社日立製作所 | System operation trace method in distributed system |
JPWO2014049804A1 (en) * | 2012-09-28 | 2016-08-22 | 株式会社日立製作所 | System operation tracing method in distributed system |
JP2015133029A (en) * | 2014-01-15 | 2015-07-23 | 株式会社日立製作所 | Security apparatus, security system, and security method |
WO2016120988A1 (en) * | 2015-01-27 | 2016-08-04 | 株式会社日立製作所 | Database system and database management method |
JP2017083979A (en) * | 2015-10-26 | 2017-05-18 | 株式会社Screenホールディングス | Log comparison method, log comparison program, and log comparison device |
JP2020149245A (en) * | 2019-03-12 | 2020-09-17 | 株式会社リコー | Network device, network communication system, and network control program |
JP7298207B2 (en) | 2019-03-12 | 2023-06-27 | 株式会社リコー | Network equipment, network communication system and network control program |
Also Published As
Publication number | Publication date |
---|---|
JP5331585B2 (en) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5331585B2 (en) | Fault tolerant computer system and method in fault tolerant computer system | |
CN105959151B (en) | A kind of Stream Processing system and method for High Availabitity | |
US20130205017A1 (en) | Computer failure monitoring method and device | |
CN110895488B (en) | Task scheduling method and device | |
JP2008041041A (en) | Log notification condition definition support device, log monitoring system, program, and log notification condition definition support method | |
WO2014090002A1 (en) | Data synchronization method, device and system | |
WO2014049804A1 (en) | System operation trace method in distributed system | |
JP2018510430A (en) | Remote data synchronization method and apparatus for database | |
JP6434021B2 (en) | Manage data feeds | |
CN104601668A (en) | State management based data push method, device and system | |
CN110196780B (en) | Method, device, storage medium and electronic device for determining server state | |
US20130205162A1 (en) | Redundant computer control method and device | |
KR101191832B1 (en) | Database Replication Method And System Using Analyzing Network Packets | |
US9747142B2 (en) | Method for centralizing events for a multilevel hierarchical computer management system | |
WO2024148817A1 (en) | Data processing system and method, and electronic device and computer storage medium | |
US20150088958A1 (en) | Information Processing System and Distributed Processing Method | |
JP2014225179A (en) | Log acquisition device, log acquisition method, and log acquisition program | |
US11461160B2 (en) | Method and apparatus for reaction-free and integrity-protected synchronization of log data | |
CN109005246B (en) | Data synchronization method, device and system | |
US11513769B2 (en) | Data acquisition system, input device, data acquisition apparatus, and data combining apparatus | |
JP7442751B1 (en) | Control program, supervisory control system, gateway device and control method | |
US10305754B2 (en) | Apparatus and method to collect packets related to abnormal connection | |
KR101753897B1 (en) | Method for collecting and storing continuous data and system for the same | |
JP2011118575A (en) | Failure countermeasure information acquisition method and management server | |
JP5768964B2 (en) | Failure investigation support device, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130729 |
|
LAPS | Cancellation because of no payment of annual fees |