JP5331585B2 - フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法 - Google Patents

フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法 Download PDF

Info

Publication number
JP5331585B2
JP5331585B2 JP2009141803A JP2009141803A JP5331585B2 JP 5331585 B2 JP5331585 B2 JP 5331585B2 JP 2009141803 A JP2009141803 A JP 2009141803A JP 2009141803 A JP2009141803 A JP 2009141803A JP 5331585 B2 JP5331585 B2 JP 5331585B2
Authority
JP
Japan
Prior art keywords
processing
log
node
logs
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009141803A
Other languages
English (en)
Other versions
JP2010287142A (ja
Inventor
秀典 山本
博光 加藤
雅徳 吉田
芳昭 足達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009141803A priority Critical patent/JP5331585B2/ja
Publication of JP2010287142A publication Critical patent/JP2010287142A/ja
Application granted granted Critical
Publication of JP5331585B2 publication Critical patent/JP5331585B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法に関する。
特許文献1は、種々のデータ形式により記録されているログ情報を汎用ログフォーマットという中間形式に変換することにより、ログファイル中に偏在していたログ情報を時刻情報を基準として統合する技術を開示している。
特開2001−356939号公報
ネットワークを介して接続された複数の処理ノードにより構成されるフォールトトレラントコンピュータシステムにおいて、ユーザがシステムの保守、障害原因解析等の作業を行うためにログを参照する場合、システム内の複数のノードを跨いでの一連の実行処理を追跡するために、個々のノードに個別に蓄積されているログの中から該当するレコードを抽出して並べて参照する必要がある。
また、同じ処理を並列実行する複数のノードに対して、同一事象に関するログレコードを各ノードから抽出し、比較参照する必要がある。特に前記複数のノードでの同じ処理の並列実行はフォールトトレラントコンピュータシステムの信頼性を維持するために重要であり、並列実行不可となることがシステムに発生し得る障害として深刻であり、該障害に対する容易な原因解析及び迅速な復旧が求められる。
しかしながら、特許文献1記載の技術では、上述した課題を解決することが出来ない。ネットワークを介して接続された複数の処理ノードにより構成されるフォールトトレラントコンピュータシステムでは、システムを構成する個々のノード間で時刻が正確に一致していないため、時刻情報を基準にレコードを並べたり、個々のノード間で並列処理された同一事象に関するレコードを抽出することが出来ないからである。
また、特許文献1記載の技術は、そもそも単一のコンピュータもしくは構成するノード間で時刻が一致するコンピュータシステムを想定したものであり、フォールトトレラントコンピュータシステムを想定したものでもない。
上記課題を解決するため、本発明は以下の構成を備える。即ち、ネットワークを介して接続された複数の処理ノードと複数の処理ノードのログを取得する保守ノードとを備えるフォールトトレラントコンピュータシステムにおける方法であって、複数の処理ノードが、同一の処理を並行して実行するステップと、複数の処理ノードが、同一の処理のログをネットワークを介して保守ノードへ送信するステップと、保守ノードが、複数の処理ノードにおいて実行された同一の処理のログをネットワークを介して受信するステップと、保守ノードが、複数の処理ノードにおける同一の処理のログをそれぞれ紐付けるステップと、保守ノードが、ユーザ端末からログの要求を受けたとき、同一の処理として紐付けられたログをユーザ端末に送信する。
また、ネットワークを介して接続された複数の処理ノードと複数の処理ノードのログを取得する保守ノードとを備えるフォールトトレラントコンピュータシステムであって、複数の処理ノードが、同一の処理を並行して実行し、複数の処理ノードが、同一の処理のログをネットワークを介して保守ノードへ送信し、保守ノードが、複数の処理ノードにおいて実行された同一の処理のログをネットワークを介して受信し、保守ノードが、複数の処理ノードにおける同一の処理のログをそれぞれ紐付け、保守ノードが、ユーザ端末からログの要求を受けたとき、同一の処理として紐付けられたログをユーザ端末に送信する。
本発明によれば、ユーザによる保守、障害解析等の作業の効率化を図ることが出来る。
フォールトトレラントコンピュータシステムにおける分散ログ統合方法の概要を示す図である。 フォールトトレラントコンピュータシステムの概要を示す図である。 フォールトトレラントコンピュータシステムにおける分散ログ統合方法の実施形態を示す図である。 フォールトトレラントコンピュータシステムにおける分散ログ統合方法を実施する上での、フォールトトレラントコンピュータシステムを構成する複数のノード間での全体処理シーケンスを示す図である。 ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードのモジュール構成を示す図である。 外部からの要求に対する処理等を実行する処理ノード及びゲートウェイのモジュール構成を示す図である。 保守ノードにおいて管理される蓄積ログデータ管理テーブルの構成を示す図である。 保守ノードにて、各ノードより収集したログに対して、外部システムからの入力受付時のフォールトトレラントコンピュータシステム内のノードを跨いでの処理発生順序に並べるための紐付けの方法の概要を示す図である。 保守ノードにて、各ノードより収集したログに対して、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法の概要を示す図である。 処理ノードにて、蓄積していたログを取得し、保守ノードに送信する処理の流れを示すフローチャートである。 保守ノードにて、各処理ノードからログを収集し、統合及び加工、ユーザへの提示の処理の流れを示すフローチャートである。 ノードを跨いで処理発生順に陳列したログを、ユーザに対して提示するための、画面表示例を示す図である。 同じ処理を並列実行する複数の処理ノード間で紐付けた、同一事象に関するログレコードを、複数の処理ノード分だけ並列に並べて、ユーザに対して提示するための、画面表示例を示す図である。 同じ処理を並列実行する複数の処理ノード間で紐付けた、同一事象に関するログレコードに関してデータ内容に比較結果を、ユーザに対して提示するための、画面表示例を示す図である。
本発明の実施形態においては、ネットワークを介して相互接続した複数の独立したノードにより構成され、構成する各ノードにおいて同じ処理を並列実行させるフォールトトレラントコンピュータ(Fault Tolerant Computer)システムを例として説明する。ここでは、ユーザがシステムの保守、障害原因解析等の作業を行う場合に、システムを構成する各ノードにて処理の実行に伴い発生する各種のログを収集し、ユーザに提示するログを統合することを基本的な考え方として説明する。
ログは、例えばOS、ミドルウェア、ユーザプログラム等が各々の処理ステップにおいて、処理結果や状態等に応じて逐次出力するデータであり、1つの事象に関するレコードが1つ以上集まったものである。個々のノードにおいて個別の形式にてメモリ、ハードディスク等に蓄積される。
図1は、本発明の実施形態によるフォールトトレラントコンピュータシステムにおける分散ログの統合方法の概要を示す図である。
主な構成要素は、外部システムからの入力メッセージをフォールトトレラントコンピュータシステムの内部へ転送し、フォールトトレラントコンピュータシステムの内部からのメッセージを集約し外部システムへ転送するゲートウェイ0213、同じ処理を並列実行する複数の処理ノード0212a、0212b、0212cである。ゲートウェイ0213では処理実行に伴い、ログ0110、0120及び0180、0190、0100が発生する。処理ノード0212aでは処理実行に伴い、ログ0130、0140、0150、0160、0170が発生する。処理ノード0212bでは処理実行に伴い、ログ0131、0141、0151、0161、0171が発生する。処理ノード0212cでは処理実行に伴い、ログ0132、0142、0152、0162、0172が発生する。フォールトトレラントコンピュータシステムでは、ゲートウェイ0213及び処理ノード0212a、0212b、0212cでは時刻は完全には一致しておらず、同じ処理を並列実行する複数の処理ノード0212a、0212b、0212cでも全ての処理を完全に実行タイミングを合わせられるわけではない。
本実施形態によると、フォールトトレラントコンピュータシステム内のノードを跨いで処理発生順に紐付けてログを並べる。例えば処理の進捗に従ってゲートウェイ0213及び処理ノード0212aからのログ0110、0120、0130、0140、0150、0160、0170、0180、0190、0100が紐付けて並べられる。つまり、ログ0110、0120、0130、0140、0150、0160、0170、0180、0190、0100が処理発生順に並べて紐付けられる。ここでの紐付け方法の詳細は図8で後述する。
また本実施形態によると、同じ処理を並列実行する複数の処理ノード0212a、0212b、0212cの間で、時刻情報が一致していなくとも同一事象に関するログを互いに紐付ける。例えば処理ノード0212a、0212b、0212cからのログ0130と0131と0132、ログ0140と0141と0142、ログ0150と0151と0152、ログ0160と0161と0162、ログ0170と0171と0172はそれぞれ同一事象に関するログとして紐付けられる。つまり、各処理ノードにおける同一事象に関するログがそれぞれ紐付けられる。ここでの紐付け方法の詳細は図9で後述する。
図2は、ネットワーク(通信媒体)を介して相互接続した、複数の独立したノードにより構成され、構成する各ノードにおいて同じ処理を並列実行させることによるフォールトトレラントコンピュータシステムの概要を示す図である。
本フォールトトレラントコンピュータシステム0201の主な構成要素は、LAN0214を介して相互接続する、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノード0211、2つ以上の処理ノード0212、広域ネットワーク0203に接続し外部システムとの通信の中継を行うゲートウェイサーバ0213、等である。
フォールトトレラントコンピュータシステム0201は、広域ネットワーク0203を介して通信可能な外部システム0204からの要求を受け付けて、該要求に対する処理を実施し、処理結果を応答として該外部システム0204に返信することによるサービスを提供する。ここでは外部システム0204からの要求として入力メッセージ0231を受信し、該要求に対する処理結果を格納した出力メッセージ0241を外部システム0204に対して送信する。
フォールトトレラントコンピュータシステム0201の内部では、広域ネットワーク0203を介して外部システム0204からの要求として入力メッセージ0231を受信したゲートウェイサーバ0213がLAN0214を介して、システム内の全ての処理ノード0212に対して入力メッセージ0232として転送し直す。ここでほぼ同時に全ての処理ノード0212が該メッセージを受信し、概メッセージに対する処理を開始できるように、入力メッセージ0232はブロードキャスト送信する。該入力メッセージ0232を受信した各処理ノード0212は、各々該入力メッセージ0232に対する処理を実行して、処理結果を格納した出力メッセージ0242を、LAN0214を介してゲートウェイサーバ0213に対して送信する。各処理ノード0212からの出力メッセージ0242を受信したゲートウェイサーバ0213は要求元の外部システム0204への応答として出力メッセージ0241を作成し、外部システム0204に対して送信する。ここでゲートウェイサーバ0213は、各処理ノード0212から受信した1つ以上の出力メッセージ0242のデータ内容の比較照合、正誤判定等を行い、正しいメッセージデータを出力メッセージ0241として、要求元の外部システム0204に送信する。前記出力メッセージ0242のデータ内容の比較照合、正誤判定では、データ内容が合致するものが最も多い出力メッセージ0242が正しいメッセージデータと見なし、前記正しい出力メッセージ0242のうちの1つを、外部システム0204への出力メッセージ0241にする。
保守ノード0211では、前記外部システム0204からの要求に対して実行するオンライン処理は一切実行しない。前記外部システム0204からの要求に対して実行する処理の過程で、各々の処理0212及びゲートウェイ0213にて発生する各種のログを、保守ノード0211へと収集し、蓄積する。なおログ収集に伴う処理は、各々の処理ノード0212及びゲートウェイ0213におけるオンライン処理に影響を与えないように低負荷で実行する。また前記保守ノード0211に収集、蓄積したログは、ユーザ端末0202を用いて前記保守ノード0211へとログインしてきたユーザにより参照可能である。
保守ノード0211の主なハードウェア構成は、処理装置(CPU)0221、記憶装置(メモリ、ハードディスク)0222、通信装置0223からなる。記憶装置0222には、処理ノード0212及びゲートウェイ0213からログを収集し、記憶装置0222内の指定領域に格納するためのソフトウェアプログラム、処理ノード0212及びゲートウェイ0213から収集したログの統合及び加工を行い、ユーザに提示するための画面表示等を行うためのソフトウェアプログラム、LAN0214を介して保守ノード0211と処理ノード0212との間の通信または保守ノード0211とゲートウェイ0213との間の通信を行うためのソフトウェアプログラム等が格納され、処理装置0221により処理される。また通信装置0223は、処理ノード0212またはゲートウェイ0213からの送信されるログを受信するための通信処理、またはユーザ端末0202からのログインに対する画面の入出力等を行うための通信処理を行う。
なお、処理装置(CPU)0221はハードディスク等の記憶装置0222から処理に必要なプログラムを読み出して各処理を実行する。また、記憶装置0222や通信装置0223の動作を制御する。また、後述する各図面で説明するフローチャートやシーケンス図における保守ノード0211の処理は、特段の説明がない限り処理装置(CPU)0221が実行するものとする。
処理ノード0212の主なハードウェア構成は、処理装置(CPU)0224、記憶装置(メモリ、ハードディスク)0225、通信装置0226からなる。記憶装置0225には、フォールトトレラントコンピュータシステム0201により外部システム0204に対して提供するサービスを実行する上で必要なデータ、上記サービスに関する外部システム0204からの要求に対して処理を実行するためのユーザプログラム、複数の処理ノード0212の間での稼動中に同期を実施するためのソフトウェアプログラム、各ソフトウェアプログラムの実行に伴い発生するログを取得し保守ノード0211へと送信するためのソフトウェアプログラム、LAN0214を介して処理ノード0212とゲートウェイサーバ0213との間の通信または処理ノード0212と保守ノード0211との間の通信を行うためのソフトウェアプログラム等が格納され、処理装置0224により処理される。また通信装置0226は、ゲートウェイサーバ0213からの入力メッセージ0232を受信し、ゲートウェイサーバ0213に対して出力メッセージ0242を送信するための通信処理を行う。
なお、処理装置(CPU)0224はハードディスク等の記憶装置0225から処理に必要なプログラムを読み出して各処理を実行する。また、記憶装置0225や通信装置0226の動作を制御する。また、後述する各図面で説明するフローチャートやシーケンス図における処理ノード0212の処理は、特段の説明がない限り処理装置(CPU)0224が実行するものとする。
ユーザ端末0202の主なハードウェア構成は、処理装置(CPU)、記憶装置(ハードディスク)、通信装置からなる。前記記憶装置には、保守ノード0211にログインし、コマンド操作及び操作結果として統合・加工済みのログデータ等の画面表示等を行うためのソフトウェアプログラム、ユーザ端末0202と保守ノード0211との間の通信を行うためのソフトウェアプログラム等が格納され、前記処理装置により処理される。また前記通信装置は、保守ノード0211へのログインに対する画面の入出力等を行うための通信処理を行う。
なお、前記処理装置はハードディスク等の前記記憶装置から処理に必要なプログラムを読み出して各処理を実行する。また、前記記憶装置や前期通信装置の動作を制御する。また、後述する各図面で説明するフローチャートやシーケンス図におけるユーザ端末0202の処理は、特段の説明がない限り前記処理装置(CPU)が実行するものとする。
図3は、フォールトトレラントコンピュータシステムにおける分散ログ統合方法の実施形態を示す図である。
フォールトトレラントコンピュータシステム0201が外部システム0204からの要求を受け付けると、該要求に対してゲートウェイ0213での処理、ゲートウェイ0213から複数の処理ノード0212への通信、処理ノード0212での処理、各処理ノード0212からゲートウェイ0213への通信、ゲートウェイ0213での処理、外部システム0204への通信、という一連の処理が発生する(図中の(1)〜(9)、処理ノード0212では(5)(5’)(5’’)(5’’’)が並列実行)。
前記フォールトトレラントコンピュータシステム0201を構成する各ノード(0212、0213)にて実行する処理に伴い発生する各種のログは、保守ノード0211へとLAN0214を介して収集し、蓄積する(0301)。保守ノード0211では、前記収集、蓄積したログを統合、加工して(0302)、統合、加工の結果を、ユーザ端末0202を介してユーザに提示する(0303)。ここではフォールトトレラントコンピュータシステム0201におけるノードを跨いでの処理実行順序に各種のログを陳列して表示したり(0311)、同じ処理を並列実行する処理ノード0212におけるログを並列表示する(0312)。
図4は、フォールトトレラントコンピュータシステムにおける分散ログ統合方法を実施する上での、フォールトトレラントコンピュータシステムを構成する複数のノード間での全体処理シーケンスを示す図である。
主な構成要素は、フォールトトレラントコンピュータシステム0201を構成する、処理ノード1(0212a)、処理ノード2(0212b)、ゲートウェイ0213、保守ノード0211及びユーザ端末0202である。
図4は処理ノード1(0212a)にて障害が発生した場合について示している。処理ノード1(0212a)にて、0401において障害発生を検出すると、0402において、他のノード(処理ノード2(0212b)、ゲートウェイ0213、保守ノード0211)に対して一斉に、処理ノード1(0212a)における障害発生を通知する。処理ノード1(0212a)は、0403において、自ノードにて蓄積している自ノードのログデータを取得する。0402の障害通知を受信した、処理ノード2(0212b)、ゲートウェイ0213でも、蓄積している各ノードのログデータを取得する(0411、0421)。処理ノード1(0212a)、処理ノード2(0212b)、ゲートウェイ0213の各ノードから保守ノード0211に対して、取得したログデータを送信する(0404、0412、0422)。保守ノード0211では、0431において、前記各ノードから送信されたログデータを受信し、0432において、該ログデータをディスク等に蓄積する。
ユーザ端末0202にて、ユーザの操作により、0441において、保守ノード0211にログインし、0442において、ログ表示に関するコマンドを実行すると、保守ノード0211にて前記コマンド入力を受け付け、0433において、蓄積したログデータより該当するデータを取得し、0434において、コマンドの入力内容に従って、ログデータの統合、加工の処理を実行し、0435において、前記処理の実行結果を画面出力する。
図5は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードのモジュール構成を示す図である。
保守ノード0211には、ログの収集・蓄積、統合・加工、ユーザへの提示等の処理を行うログ統合管理部0501、収集したログを蓄積するためのハードディスク0502が導入される。ログ統合管理部0501は、処理装置(CPU)0221により実行されるソフトウェアプログラムである。
ログ統合管理部0501の主な構成要素は、データ通信部0515を介して、処理ノード0212、ゲートウェイ0213から送信されてくるログを受け取り、ハードディスク0502へと格納するログ収集・蓄積部0511、ユーザからの要求に対してハードディスク0502より該当するログデータを取り出し、統合、加工等の処理を行う統合・加工部0512、ユーザ端末0202からのリモート接続に対して、コマンド入力画面や統合・加工部0512の処理結果の出力画面等を提供する画面表示部0513、データ通信部0515を介してユーザ端末0202からのリモート接続を受け付け、画面表示部0513に接続する、リモートアクセス受付部0514、通信媒体0214を介してシステム内の処理ノード0211やゲートウェイ0213等との間の通信を行うデータ通信部0515がある。なおログ収集・蓄積部0511はログデータの収集及び蓄積の度に蓄積ログデータ管理テーブル0521の更新を行い、統合・加工部0512はユーザ要求に対して、蓄積ログデータ管理テーブル0521を参照して、該当ログデータを抽出する。ここでハードディスク0502に該当データが無い場合、ログ収集・蓄積部0511を介して、処理ノード0211またはゲートウェイ0213から問合せ応答により該当ログデータを取得する。なお、蓄積ログデータ管理テーブル0521は図7で後述する。
図6は、フォールトトレラントコンピュータシステムを構成し、外部からの要求に対する処理等を実行する処理ノード及びゲートウェイのモジュール構成を示す図である。
処理ノード0212には、ログデータの取得、保守ノード0211への送信等の処理を行うログデータ収集部0601、外部システム0204からの要求に対して各種の処理を行うOS0602、ミドルウェア0603、ユーザプログラム0604、処理ノード0212の間でOS0602、ミドルウェア0603、ユーザプログラム0604の処理同期を図るための同期処理制御部0605、またOS0602、ミドルウェア0603、ユーザプログラム0604によるログデータの書き込み先であるメモリ0606、ハードディスク0607が導入される。ログデータ収集部0601及び同期処理制御部0605は、処理装置(CPU)0224により実行されるソフトウェアプログラムである。
ログデータ収集部0601の主な構成要素は、自ノードのOS0602、ミドルウェア0603、ユーザプログラム0604を監視し、自ノードの障害発生を検出する、もしくはデータ通信部0614を介して他の処理ノード0212からの障害通知を受信することにより他ノードの障害発生を検出する、障害発生検出部0611、障害発生検出部0611からの指示等により、メモリ0606、ハードディスク0607から、OS0602、ミドルウェア0603、ユーザプログラム0604が出力し蓄積されているログを取得する、ログデータ取得部0612、ログデータ取得部0612が取得したログデータを、データ通信部0614を介して保守ノード0211へと転送する、ログデータ転送部0613、通信媒体0214を介してシステム内の他の処理ノード0212やゲートウェイ0213、保守ノード0211等との間の通信を行う、データ通信部0614がある。またログデータ転送部0613は、データ通信部0614を介して保守ノード0211からの問合せ応答によるログデータ要求に対して、ログデータ取得部0612を介して取得したログデータを、データ通信部0614を介して送信する場合もある。
なおゲートウェイ0213の場合のモジュール構成は、前記の図6の構成からユーザプログラム0604及び同期処理制御部0605を除いたものとなる。
図7は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにおいて管理される蓄積ログデータ管理テーブルの構成を示す図である。
蓄積ログデータ管理テーブルの主な構成要素は、ログ種別0701、発生元ノード0702、収集通番0703、収集時刻0704、最古レコード時刻0705、最新レコード時刻0706、最古同期通番0707、最新同期通番0708、レコード数0709、ファイル格納先0710である。
ログ種別0701には、処理ノード0212またはゲートウェイ0213から収集したログの種別を示す情報が格納される。発生元ノード0702には、収集したログの発生元である、処理ノード0212またはゲートウェイ0213のいずれかを識別する情報が格納される。収集通番0703には、処理ノード0212、ゲートウェイ0213から保守ノード0211へとログを収集する処理が開始される度に加算される通番の値が格納される。収集時刻0704には、処理ノード0212またはゲートウェイ0213から送信された当該ログを保守ノード0211が受信した時刻(保守ノード0211が有する時計を用いて算出)が格納される。最古レコード時刻0705には、収集した当該ログに含まれる1つ以上のログレコードのうち最も古いログレコードに、ログ発生元の処理ノード0212またはゲートウェイ0213にて付けられた時刻が格納される、最新レコード時刻0706には、収集した当該ログに含まれる1つ以上のログレコードのうち最も新しいログレコードに、ログ発生元の処理ノード0212またはゲートウェイ0213にて付けられた時刻が格納される。最古同期通番0707には、収集した当該ログに含まれる1つ以上のログレコードのうち最も古いログレコードに、ログ発生元の処理ノード0212にて割り振られた同期通番が格納される。最新同期通番0708には、収集した当該ログに含まれる1つ以上のログレコードのうち最も新しいログレコードに、ログ発生元の処理ノード0212にて割り振られた同期通番が格納される。レコード数0709には、収集した当該ログに含まれるログレコードの件数が格納される。ファイル格納先0710には、収集した当該ログの格納先であるファイルパスが格納される。
前記蓄積ログデータ管理テーブルは、処理ノード0212、ゲートウェイ0213から保守ノード0211へとログが収集され、保守ノード0211上のハードディクスに格納される度に更新され、ユーザからの要求に対してログを提示する際に参照される。
図8は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにて、各ノードより収集したログに対して、外部システムからの入力受付時のフォールトトレラントコンピュータシステム内のノードを跨いでの処理発生順序に並べるための紐付けの方法の概要を示す図である。
主な構成要素は、フォールトトレラントコンピュータシステム0201を構成する、ゲートウェイ0213及び処理ノード0212である。ゲートウェイ0213、処理ノード0212は同期していないそれぞれ異なる時刻情報を有している(0801、0802)。複数のノードを跨いで統一的に紐付けるための一元的な情報は存在しない。このため1ノード内、ノード間等の部分的な紐付けの組合せによりフォールトトレラントコンピュータシステム0201内のノードを跨いでの処理発生順序に従って、保守ノード0211は収集・蓄積する異種かつ複数のログを並べていく。
外部システム0204からの入力メッセージ受信後のゲートウェイ0213における処理のログに対して保守ノード0211は、各種ログ(通信ログ、ログA)に一般的に共通して含まれるPID(プロセスID)に着目し、外部システム0204からのメッセージ受信のログからPIDが同一のログを、各ログに刻印された時刻0801に従って発生順に紐付ける(0811、0812、0813)。
ゲートウェイ0213から処理ノード0212への通信のログに関して、通信ログは各々個別に記録されるが、保守ノード0211は、同一メッセージの送信及び受信に関するログを紐付けるために、メッセージの識別情報及び通番が同一のものを抽出する(0831)。
ゲートウェイ0213からのメッセージ受信後の処理ノード0212における処理のログに対して保守ノード0211は、前記ゲートウェイ0213の内部処理のログと同様に、各種ログ(通信ログ、ログB、ログC)からPIDに着目して、ゲートウェイ0213からのメッセージ受信のログからPIDが同一のログを、各ログに刻印された時刻0802に従って発生順に紐付ける(0821、0822、0823、0824、0825、0826)。ここで処理の過程で実行プロセスの切り替え、新規起動等が発生する場合はそれらのログの参照により対象とするPIDの変化を追跡する。
処理ノード0212からゲートウェイ0213への通信のログに関して、前記ゲートウェイ0213から処理ノード0212への通信のログの場合と同様にして、保守ノード0211は、同一メッセージの送信及び受信に関するログを紐付ける(0832)。
処理ノード0212からのメッセージ受信後のゲートウェイ0213における処理のログに対して保守ノード0211は、前記ゲートウェイ0213の内部処理のログまたは処理ノード0212の内部処理のログと同様に、各種ログ(通信ログ、ログA)からPIDに着目して、処理ノード0212からのメッセージ受信のログからPIDが同一のログを、各ログに刻印された時刻0801に従って発生順に紐付ける(0814、0815、0816)。
上記のノード内またはノード間での部分的な紐付けの組合せにより保守ノード0211は、外部システム0204から入力メッセージを受信してから該応答としてのメッセージを外部システム0204に送信するまでの、フォールトトレラントコンピュータシステム0201におけるノードを跨いでの一連の処理を紐付けることができる。
図9は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにて、各ノードより収集したログに対して、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法の概要を示す図である。
主な構成要素は、同じ処理(処理1〜4)を並列実行する複数の処理ノード0212a、0212b、0212cである。処理ノード0212a、0212b、0212cは同期していないそれぞれ異なる時刻情報を有しており(0901、0902、0903)、処理ノード間で時刻が同一のログレコードが存在したとしても、実際には同時に発生した事象ではない可能性がある。
処理ノード0212a、0212b、0212cはゲートウェイ0213からブロードキャスト送信されるメッセージ0911を同時に受信し処理を一斉に開始する。またある特定の処理を開始する際に処理ノード間で開始タイミングの待合わせを行うために同期信号0912の送受信を処理ノード間で実施している。ただしこれらは処理ノード間で処理実行タイミングが大きくずれることを回避するためのものであり、処理ノード間で完全にタイミングを合わせて同期実行するためのものではない。
前記の処理ノード0212a、0212b、0212cの動作内容から、処理実行の過程では、メッセージ受信時や同期信号受信時のように処理ノード間で処理開始の待合わせを実施する同期ポイント0921が存在する。同期ポイント0921は、処理ノード間である特定の処理の開始タイミングを合わせるためのものであり、処理ノード0212にて稼動するユーザプログラムの処理コードに対して、ネットワーク、共有メモリ、ハードディスク等へのI/Oアクセスの処理、新規プロセス起動等の開始直前に設ける。各処理ノード0212では、前記同期ポイントに到達すると処理実行を一時停止し、同期信号0912をブロードキャスト送信する。各処理ノード0212では他の全ての処理ノード0212からの前記同期信号0912の受信を確認してから処理を再開する。
ここで同期ポイント0921を通過する度に1加算する同期通番0922を導入し、各処理ノードのログに対応付ける。ここでは各種ログにおける事象毎の1ログレコードの中に同期通番0922を格納する領域を追加し、ログレコードの発生時点での同期通番0922の値も当該ログレコード内に記録する、もしくは別途ログレコードと同期通番0922との対応テーブルを設け、各ログレコードの識別コードと当該ログレコード発生時点での同期通番0922の値とを対応付けて記録するものとする。処理ノード0212は保守ノード0211に対して、前記同期通番0922も格納されたログレコードを送信する、もしくは前記対応テーブルをログレコードとともに送信する。
前記同期通番0922で区切られた範囲内では、処理ノード間で同一処理または事象に関するログが含まれているので、当該範囲内で各種ログの個々の識別コード及び当該範囲内での同種のログレコードの発生順序に基づき、同一事象に関するログレコードをノード間で紐付ける。例えば、同期通番0922が“n+1”である範囲内では、処理ノード1(0212a)には0932〜0935のログが含まれており、処理ノード2(0212b)には0942〜0948のログが含まれている。これらのログから識別コードと各識別コードを有する同種のログレコードの中での発生順序に基づいて、ログ0932と0942、ログ0933と0943、ログ0934と0946、ログ0935と0948がそれぞれ紐付けられる。なお少なくとも1つの処理ノードのみで発生し、他の処理ノードには同一ログが存在しないログ(例えばエラーログ等)は紐付け無しとして扱う。ログ0944、0945、0947は処理ノード2(0212b)のみの紐付け無しログとなる。 図10は、フォールトトレラントコンピュータシステムを構成し、外部からの要求に対する処理等を実行する処理ノードにて、蓄積していたログを取得し、保守ノードに送信する処理の流れを示すフローチャートである。
1001において、障害発生を検出する。ここで検出した障害は自ノードで発生したものである場合、1002において、他ノードへ障害通知を送信する。1001において、他ノードからの障害通知を受信した場合、1002の処理は行わない。1003において、自ノードにて蓄積しているログデータを取得する。ここで取得するログデータは、当該ノードにて蓄積しているログデータのうち、前記障害検出の時点で保守ノード0211には未送信である全てのログデータである。1004において、1003にて取得したログデータを保守ノードへ送信する。1005において、障害発生したのは自ノードである場合、正常にノードの処理を終了させるべく、1006において、終了処理を行う。1005において、障害発生したのは自ノードでは無い場合、1001から1005の処理を繰り返す。
1004において、処理ノード0212における各ログのデータ保有期間の長さ、ログのデータサイズ、実行中のオンライン処理の負荷等に応じて、ログ毎に優先度を決定して当該処理ノード0212から保守ノード0211への送信処理を行う。例えば、処理ノード0212におけるデータ保有期間の終了までの時間が短いログから優先して送信し、データ保有期間の終了までの期間が長いログは、1003にてログデータ取得後直ちに一斉送信せず、遅延して送信する。もしくは一定間隔毎に分割して送信する(ただしいずれのログもデータ保有期間終了までに送信完了することは保証する)。データサイズの小さいログの送信はオンライン処理と並行実行しても良いが、データサイズの大きいログの送信は、処理負荷増、通信帯域の占有等でオンライン処理に影響を与える可能性があるため、オンライン処理が実行していない期間に実施する。また処理ノード0211におけるCPU負荷率を計測し、特にオンライン処理実行中は、CPU負荷率が設定した閾値を超えると、送信処理を中断する、というような制御を実施する。これらにより外部システム0204からの入力に対する処理実行に与える影響を最小限にする。
図11は、フォールトトレラントコンピュータシステムに含まれ、ログ収集、蓄積及びユーザへの提示等の処理を行う保守ノードにて、各処理ノードからログを収集し、統合及び加工、ユーザへの提示の処理の流れを示すフローチャートである。
1101において、ユーザ端末0202を介してのユーザからのコマンド実行要求を受け付ける。前記コマンドの入力には要求する処理内容、対象とするデータの範囲等が含まれる。1102において、1101のコマンド入力により指定された範囲内で、保守ノード0211のハードディスク0502に格納されたログデータより該当データを検索する。1103において、1102の検索の結果、該当データが無い場合、1104において、保守ノード0211から処理ノード0212、ゲートウェイ0213に問い合わせて、該当データを取得する。1103において、1102の検索の結果、該当データがある場合、1104の処理は省略する。1105において、1101のコマンド入力で指定された処理の要求内容が“処理発生順表示”である場合、1106において、1102または1104により取得したログレコードの中から、送信先ノード(最初はゲートウェイ0213)における受信ログ(最初は外部システム0204からのメッセージ受信のログ)を抽出する。1107において、1106で抽出したログレコードとPIDが一致するログレコードを抽出する。1108において、1107で抽出したログレコードが該当ノードの送信ログ(最初はゲートウェイ0213から処理ノード0212へのメッセージ送信のログ)でない場合、1107の処理を繰り返す。1108において、1107で抽出したログレコードが該当ノードの送信ログである場合、1109において、抽出したログレコードを表示用に配列する。1110において、全ノード分(処理実行順にゲートウェイ0213、処理ノード0212、ゲートウェイ0213)のログレコード抽出及び配列が終了していなければ、1106〜1109の処理を繰り返す。1110において、全ノード分のログレコード抽出及び配列が終了した場合、1111において、1110までの処理結果を画面表示し、終了する。
1105において、1101のコマンド入力で指定された処理の要求内容が“並列表示”もしくは“比較表示”である場合、1112において、1102または1104により取得したログレコードを同期通番の値により範囲分割する。1113において、1112にて分割した1つの範囲のログレコードの中から、紐付け情報(図9参照)を参照し、処理ノード間で同一事象のレコードを抽出する。1114において、1つの事象に関する全処理ノード分のログレコードの抽出が終了していない場合、1113の処理を繰り返す。1114において、1つの事象に関する全処理ノード分のログレコードの抽出が終了した場合、1115において、1101のコマンド入力で指定された処理の要求内容が“比較表示”である場合、1116において、1113にて抽出した全処理ノード分の同一事象に関するログレコードのデータ内容の比較処理を実施する。1115において、1101のコマンド入力で指定された処理の要求内容が“並列表示”である場合、1116の処理は省略する。1117において、1つの同期通番の値による範囲内で全ログレコードに対する処理が終了していない場合、1112〜1116の処理を繰り返す。1117において、1つの同期通番の値による範囲内で全ログレコードに対する処理が終了した場合、1118において、抽出したログレコードを表示用に配列する。1119において、1112で分割した全範囲に関して処理が終了していない場合、1112〜1118の処理を繰り返す。1119において、1112で分割した全範囲に関して処理が終了した場合、1111において、1119までの処理結果を画面表示し、終了する。
1107または1113において、少なくとも1つの処理ノード0212またはゲートウェイ0213から収集したログレコードの件数が他の処理ノード0212から収集したログレコードの件数を大きく上回る場合、当該処理ノード0212またはゲートウェイ0213から収集したログレコードの間引きを実施する。特に連続して発生する同一内容のログレコード、同一ログレコードのデータ内容が更新される場合の最新値以外のレコード、当該処理ノード0212にのみ含まれるログ、ユーザによる参照頻度の低いログ、等が間引きの対象となる。ここで間引きの対象となったログレコードは加工、画面表示等の対象外となるだけで、格納していたハードディスクからの削除は実施しない。
図12は、ノードを跨いで処理発生順に陳列したログを、ユーザに対して提示するための、画面表示例を示す図である。
画面表示1201は、図8にて示した、外部システムからの入力受付時のフォールトトレラントコンピュータシステム内のノードを跨いでの処理発生順序に並べるための紐付けの方法に基づく処理結果であり、ユーザのコマンド操作に対して図11に示した処理実行による出力結果として表示する。1211に示す開始時刻と終了時刻の間に発生した、外部システムから入力に対して、フォールトトレラントコンピュータシステム内の各ノードにて実行された処理に伴い発生したログを発生順に並べて表示したものであり、表示の1行が1つのログレコードに該当する。各ログレコードに対して、発生元の構成要素(ノード)1212、各構成要素でのログの発生時刻1213、ログ種別1214、ログレコードに含まれるメッセージ1215が表示される。
図13は、同じ処理を並列実行する複数の処理ノード間で紐付けた、同一事象に関するログレコードを、複数の処理ノード分だけ並列に並べて、ユーザに対して提示するための、画面表示例を示す図である。
画面表示1202は、図9にて示した、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法に基づき、同一事象に関するログレコードを並列表示する結果であり、ユーザのコマンド操作に対して図11に示した処理実行による出力結果として表示する。1221に示す開始時刻と終了時刻の間に、同じ処理を並列実行する複数の処理ノードで実行された処理に伴い発生したログを発生順に並べて表示したものであり、表示の1行が同じ処理を並列実行する複数の処理ノードにおける同一事象に関する1つのログレコードに該当する。各ログレコードに対して、ログ種別1222、ログレコードに含まれるメッセージ1223、各処理ノードにおける該当ログレコードの、各処理ノードでの発生時刻(1224、1225、1226)、各処理ノードでのログレコードの発生時刻を比較した結果である時間差1227が表示される。ここでは各処理ノードでのログレコードの発生時刻の時間差が設定された閾値内に収まっていれば“match”と表示し、時間差が設定された閾値内に収まっていなければ“unmatch”と表示する。
図14は、同じ処理を並列実行する複数の処理ノード間で紐付けた、同一事象に関するログレコードに関してデータ内容に比較結果を、ユーザに対して提示するための、画面表示例を示す図である。
画面表示1203は、図9にて示した、同じ処理を並列実行する複数の処理ノード間で同一事象に関するログレコードの紐付けの方法に基づき、同一事象に関するログレコードのデータ内容の比較処理結果であり、ユーザのコマンド操作に対して図11に示した処理実行による出力結果として表示する。画面表示1203では、同一事象に関するログレコードのうち、処理ノード間でデータ内容に差異があったもの(ただし発生時刻の差異は対象外)のみ表示している。1231には、前記処理ノード間でデータ内容に差異のあったログレコードを特定するための識別情報を表示し、1232には差異のある2つの処理ノードの間でのデータ内容の比較結果を表示する。なお図中の“TARGET”、“ORIGINAL”はデータ内容比較における比較対象及び比較の参照元を示す。ユーザは、“TARGET”の最後の箇所「0000 0000 0000」と“ORIGINAL”の最後の箇所「0fff 000c 0001」が一致していないことを容易に確認することできる。
以上のように、本発明の実施形態によれば、フォールトトレラントコンピュータシステムの構成の複雑さや各ノードに搭載されるソフトウェア等の構成の複雑さに関わらず、ユーザによるシステム稼働中の動作状態把握、または障害発生時の早急な原因解析等が容易となり、システム構成等に関する詳細知識を有さなくとも、ユーザによる保守、障害解析等の作業の効率化を図ることができる。
なお、本発明の実施形態について、その実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
201・・・フォールトトレラントコンピュータシステム、0202・・・ユーザ端末、0203・・・広域ネットワーク、0204・・・LAN、0211・・・保守ノード、0212・・・処理ノード、0213・・・ゲートウェイサーバ、0221・・・処理装置、0222・・・記憶装置、0223・・・通信装置、0224・・・処理装置、0225・・・記憶装置、0226・・・通信装置。

Claims (13)

  1. ネットワークを介して接続された複数の処理ノードと前記複数の処理ノードのログを取得する保守ノードとを備えるフォールトトレラントコンピュータシステムにおける方法であって、
    前記複数の処理ノードが、
    同一の処理を並行して実行するステップと、
    前記複数の処理ノードのそれぞれには、特定の処理の開始タイミングを合わせるための同期ポイントが予め設定されており、前記同期ポイントに到達する度に同期通番を1加算し、前記ログに対応付けるステップと、
    前記同一の処理のログをネットワークを介して保守ノードへ送信するステップと、
    前記保守ノードが、
    前記複数の処理ノードにおいて実行された前記同一の処理のログをネットワークを介して受信するステップと、
    受信した前記ログを前記同期通番の値に基づいて分割するステップと、
    同一の前記同期通番の範囲内において、同一事象のログを抽出するステップと、
    前記同一事象のログの発生順序に基づいて、前記ログ同士をそれぞれ紐付けるステップと、
    前記保守ノードが、ユーザ端末から前記ログの要求を受けたとき、前記同一の処理として紐付けられたログを前記ユーザ端末に送信することを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記複数の処理ノードのそれぞれが各処理に対応する同期番号をログに記録し、
    前記保守ノードは、前記同期番号を用いて、それぞれの処理ノードにおける同一の処理のログを紐付けることを特徴とする方法。
  3. 請求項1または2記載の方法であって、
    前記複数の処理ノードのそれぞれは、各処理の同期ポイントに到達したとき、同期信号を他の処理ノードに送信し、
    前記複数の処理ノードのそれぞれは、前記他の処理ノードからの同期信号を受信するまで処理の実行を停止することを特徴とする方法。
  4. 請求項1から3のいずれか記載の方法であって、
    前記保守ノードは、一の処理ノードにおいてのみ記録され、他の処理ノードにおいて記録されていないログを紐付けないことを特徴とする方法。
  5. 請求項1から4のいずれか記載の方法であって、
    前記複数の処理ノードのそれぞれは、それぞれの処理ノードにおけるログの保有期間、
    前記ログのデータサイズに基づいて、前記保守ノードへ前記ログを送信することを特徴とする方法。
  6. 請求項1から5のいずれか記載の方法であって、
    前記複数の処理ノードのそれぞれは、オンライン処理が実行されていない期間に前記ログを前記保守ノードへ送信することを特徴とする方法。
  7. 請求項1から6のいずれか記載の方法であって、
    前記複数の処理ノードのうち少なくとも1つの処理ノードで障害が発生した場合には、
    前記障害が発生した処理ノードは、その他の処理ノードに対して障害の発生を通知し、
    かつ、前記障害が発生した処理ノードのログを前記保守ノードへ送信し、
    前記その他の処理ノードは、それぞれのログを前記保守ノードへ送信することを特徴とする方法。
  8. 請求項1から7のいずれか記載の方法であって、
    前記フォールトトレラントコンピュータシステムは、ネットワークを介して外部装置からの処理要求を受信し、または、ネットワークを介して前記外部装置へ前記処理要求に対する処理結果を送信するゲートウェイ装置を備え、
    前記ゲートウェイ装置は、ネットワークを介して前記外部装置から受信した処理要求を受信し、前記処理要求を前記複数の処理ノードへ送信し、
    前記複数の処理ノードは、前記処理要求に対する処理をそれぞれ並行して実行し、前記実行した処理結果を前記ゲートウェイ装置へそれぞれ送信し、
    前記ゲートウェイ装置は、前記複数の処理ノードから受信した各処理ノードで実行された処理結果を照合し、正常とみなした処理結果を前記外部装置へネットワークを介して送信することを特徴とする方法。
  9. 請求項8記載の方法であって、
    前記ゲートウェイ装置は、前記外部装置から受信した処理要求を前記処理要求に対応する識別情報とともに前記処理ノードへ送信し、かつ、前記ゲートウェイ装置で実行された処理のログと前記処理ノードへの送信及び前記外部装置からの受信のログを前記ゲートウェイ装置における処理に対応する識別情報及び前記処理の実行時刻情報とともに前記保守ノードへ送信し、
    前記処理ノードは、前記ゲートウェイ装置から受信した処理要求に対する処理を実行するとともに、前記処理ノードで実行された処理のログと前記ゲートウェイ装置との間の送信及び受信のログを前記処理ノードで実行された処理に対応する識別情報及び前記処理の実行時刻情報とともに前記保守ノードへ送信し、
    前記保守ノードは、前記ゲートウェイ装置から受信した処理のログと、前記処理ノードから受信した処理のログを、前記ゲートウェイ装置または前記処理ノードにおける前記識別情報と前記実行時刻情報に従って、前記処理の処理発生順に並べることを特徴とする方法。
  10. 請求項8または9記載の方法であって、
    前記保守ノードは、同一の識別情報を有する、前記ゲートウェイ装置から受信した処理のログと前記処理ノードから受信した処理のログとを、前記ゲートウェイ装置または前記処理ノードにおける前記識別情報と実行時刻情報に従って、前記処理の処理発生順に並べることを特徴とする方法。
  11. 請求項1から10のいずれか記載の方法であって、
    前記ユーザ端末は、前記同一の処理として紐付けられたログを画面上に並べて表示することを特徴とする方法。
  12. 請求項1から11のいずれか記載の方法であって、
    前記ユーザ端末は、前記同一の処理として紐付けられたログの比較結果を画面上に表示することを特徴とする方法。
  13. ネットワークを介して接続された複数の処理ノードと前記複数の処理ノードのログを取
    得する保守ノードとを備えるフォールトトレラントコンピュータシステムであって、
    前記複数の処理ノードが、同一の処理を並行して実行し、
    前記複数の処理ノードのそれぞれには、特定の処理の開始タイミングを合わせるための同期ポイントが予め設定されており、前記同期ポイントに到達する度に同期通番を1加算し、前記ログに対応付け、
    前記複数の処理ノードが、前記同一の処理のログをネットワークを介して保守ノードへ送信し、
    前記保守ノードが、前記複数の処理ノードにおいて実行された前記同一の処理のログをネットワークを介して受信し、
    前記保守ノードが、受信した前記ログを前記同期通番の値に基づいて分割し、同一の前記同期通番の範囲内において、同一事象のログを抽出し、前記同一事象のログの発生順序に基づいて、前記ログ同士をそれぞれ紐付け、
    前記保守ノードが、ユーザ端末から前記ログの要求を受けたとき、前記同一の処理として紐付けられたログを前記ユーザ端末に送信することを特徴とするフォールトトレラントコンピュータシステム。
JP2009141803A 2009-06-15 2009-06-15 フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法 Expired - Fee Related JP5331585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009141803A JP5331585B2 (ja) 2009-06-15 2009-06-15 フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009141803A JP5331585B2 (ja) 2009-06-15 2009-06-15 フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法

Publications (2)

Publication Number Publication Date
JP2010287142A JP2010287142A (ja) 2010-12-24
JP5331585B2 true JP5331585B2 (ja) 2013-10-30

Family

ID=43542775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009141803A Expired - Fee Related JP5331585B2 (ja) 2009-06-15 2009-06-15 フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法

Country Status (1)

Country Link
JP (1) JP5331585B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210078495A (ko) 2019-01-31 2021-06-28 후루카와 덴키 고교 가부시키가이샤 알루미늄 합금재 및 이를 사용한 도전 부재, 전지용 부재, 체결 부품, 스프링용 부품, 구조용 부품, 캡타이어 케이블

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013190663A1 (ja) * 2012-06-20 2013-12-27 富士通株式会社 管理装置およびログ採取方法
US9130880B2 (en) 2012-07-11 2015-09-08 Hitachi, Ltd. Management system and information acquisition method
JPWO2014049804A1 (ja) * 2012-09-28 2016-08-22 株式会社日立製作所 分散システムにおけるシステム動作トレース方法
JP2015133029A (ja) * 2014-01-15 2015-07-23 株式会社日立製作所 保安装置、保安システム及び保安方法
WO2016120988A1 (ja) * 2015-01-27 2016-08-04 株式会社日立製作所 データベースシステム及びデータベース管理方法
JP6579911B2 (ja) * 2015-10-26 2019-09-25 株式会社Screenホールディングス ログ比較方法、ログ比較プログラム、およびログ比較装置
JP7298207B2 (ja) 2019-03-12 2023-06-27 株式会社リコー ネットワーク機器、ネットワーク通信システム、及び、ネットワーク制御プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774377A (en) * 1991-07-30 1998-06-30 Hewlett-Packard Company Method and apparatus for monitoring a subsystem within a distributed system for providing an archive of events within a certain time of a trap condition
JPH06259209A (ja) * 1993-03-10 1994-09-16 Toshiba Corp プロセス実行状況表示装置
JP3497338B2 (ja) * 1997-01-08 2004-02-16 株式会社日立製作所 分散ログ一括管理機能付きネットワークシステム
JP3139459B2 (ja) * 1998-06-22 2001-02-26 日本電気株式会社 並列分散システムのデバッグ装置及びデバッグ方法
JP2001344016A (ja) * 2000-06-01 2001-12-14 Nec Eng Ltd 履歴情報管理方式
EP1398700A1 (de) * 2002-09-12 2004-03-17 Siemens Aktiengesellschaft Verfahren und Schaltungsanordnung zur Synchronisation redundanter Verarbeitungseinheiten
JP2005346414A (ja) * 2004-06-03 2005-12-15 Fujitsu Ltd トレース処理プログラム、方法及び装置
JP4537808B2 (ja) * 2004-09-13 2010-09-08 三菱電機株式会社 データ収集装置、データ収集システム及びデータ収集方法
JP4737624B2 (ja) * 2006-03-06 2011-08-03 株式会社日立ソリューションズ アプリケーションの障害原因の特定作業支援システム
JP2008071085A (ja) * 2006-09-13 2008-03-27 Ricoh Co Ltd 画像処理装置及びログ転送方法
JP2008210308A (ja) * 2007-02-28 2008-09-11 Mitsubishi Electric Corp ログ統合管理装置、及び、ログ統合管理方法、ログ統合管理プログラム
JP4874211B2 (ja) * 2007-10-18 2012-02-15 株式会社日立製作所 計算機システム、同期稼動化方法、ノード、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210078495A (ko) 2019-01-31 2021-06-28 후루카와 덴키 고교 가부시키가이샤 알루미늄 합금재 및 이를 사용한 도전 부재, 전지용 부재, 체결 부품, 스프링용 부품, 구조용 부품, 캡타이어 케이블

Also Published As

Publication number Publication date
JP2010287142A (ja) 2010-12-24

Similar Documents

Publication Publication Date Title
JP5331585B2 (ja) フォールトトレラントコンピュータシステムおよびフォールトトレラントコンピュータシステムにおける方法
JP4458493B2 (ja) ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法
US20130205017A1 (en) Computer failure monitoring method and device
US20150169288A1 (en) System operation tracing method on distributed system
WO2014090002A1 (zh) 一种数据同步的方法、装置及系统
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN110895488B (zh) 任务调度方法及装置
CN104809200A (zh) 一种数据库同步的方法和装置
JP6434021B2 (ja) データフィードの管理
US20120136914A1 (en) Data processing system for reverse reproduction in data stream processing
US9747142B2 (en) Method for centralizing events for a multilevel hierarchical computer management system
JP2014225179A (ja) ログ取得装置、ログ取得方法およびログ取得プログラム
CN109005246B (zh) 一种数据的同步方法、装置及系统
KR20120009666A (ko) 네트워크 패킷 분석을 통한 데이터베이스 복제 방법 및 시스템
US20190196842A1 (en) Medium, change detection method, and change detection apparatus
US20150088958A1 (en) Information Processing System and Distributed Processing Method
US11513769B2 (en) Data acquisition system, input device, data acquisition apparatus, and data combining apparatus
US11461160B2 (en) Method and apparatus for reaction-free and integrity-protected synchronization of log data
JP2005284520A (ja) ログ収集方法/プログラム/プログラム記録媒体/装置/システム
US20200296189A1 (en) Packet analysis apparatus, packet analysis method, and storage medium
JP2013003950A (ja) 分散処理システム、ログ収集サーバ、ログ収集方法、プログラム
US10305754B2 (en) Apparatus and method to collect packets related to abnormal connection
JP7442751B1 (ja) 制御プログラム、監視制御システム、ゲートウェイ装置及び制御方法
KR101753897B1 (ko) 연속적인 데이터 수집 및 적재 방법, 그리고 그 방법을 위한 시스템
JP5768964B2 (ja) 障害調査支援装置、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130729

LAPS Cancellation because of no payment of annual fees