JP2006146685A - マルチノードシステム及び障害復旧方法 - Google Patents

マルチノードシステム及び障害復旧方法 Download PDF

Info

Publication number
JP2006146685A
JP2006146685A JP2004337650A JP2004337650A JP2006146685A JP 2006146685 A JP2006146685 A JP 2006146685A JP 2004337650 A JP2004337650 A JP 2004337650A JP 2004337650 A JP2004337650 A JP 2004337650A JP 2006146685 A JP2006146685 A JP 2006146685A
Authority
JP
Japan
Prior art keywords
node
inter
communication control
control device
node communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004337650A
Other languages
English (en)
Inventor
Yoji Tabuchi
陽治 田渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004337650A priority Critical patent/JP2006146685A/ja
Publication of JP2006146685A publication Critical patent/JP2006146685A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】 システムに通信障害が発生した場合に、通信不能箇所を直ちに初期化処理し、初期化処理が正常に終了したか否か基づいて障害を区別し、障害に応じた復旧処理を行うマルチノードシステムを提供する。
【解決手段】 マルチノードシステムにおいて、ノード間制御装置とノードとの間に通信障害が発生した場合に、通信障害が発生したノード間通信制御装置を直ちに初期化し、初期化が成功したか否かに基づいて発生した障害を間欠障害と固定障害とに区別し、障害に応じた処理を行う。ノード間通信制御装置の初期化が成功したときは、ノード間通信制御装置をシステムから切り離さず、性能を低下することなくシステムの運用することができる。ノード間通信制御装置の初期化が成功しなかったときは、障害の発生したノード間通信制御装置を速やかにシステムから切り離し、外部に通知し、速やかに人手による復旧を行うことができる。
【選択図】 図1

Description

本発明は、マルチノードシステムにおいて、障害復旧を行うシステムに関し、特に間欠障害時の障害復旧を行うシステムに関する。
従来のマルチノードシステムでは、ノードとノード管理装置との間に障害が発生した場合、ノード管理装置をマルチノードシステムから切り離した後、人手により障害を特定し復旧を行っていた。しかし、障害が間欠的な障害である場合にまで、毎回人手による復旧を行うことは効率が悪く、また、システムの停止時間が増加してしまう。これを解消するため、障害回数が一定回数を超えるまでは装置を切り離さず同一処理の再試行を行うことで、所定回数までの間欠障害に対して装置の切り離しを行わないようにした技術があった。(以下、第1の従来技術という。)
また、自動的に障害の復旧を行う技術として、特許文献1に開示される技術がある。この特許文献1に開示されている技術では、障害復旧システムが、原因テーブルと対策テーブルとを持っており、障害発生時に、原因テーブルを参照して障害の原因を特定し、対策テーブルを参照して特定された原因に対する対策を特定する。そして、障害復旧システムは、特定した対策に基づいて、修正プログラム等を作成し、発生した障害の復旧を行うことができる。(以下、第2の従来技術という。)
特開2000−150407号公報
上述の第1の従来技術では、固定障害と間欠障害との区別をせずに障害をカウントしており、障害が間欠障害である場合にも障害発生数が一定回数を超過すると、障害箇所を切り離して運用を行うか、人手による復旧作業を行った後に運用を再開しなければならない。つまり、障害が間欠障害であっても、一定回数を超過すると障害箇所は切り離され、縮退されたシステムで性能が低下したままシステムを運用しなければならないという問題がある。一方、障害が固定障害である場合には、既定回数の障害が検出されなければ、固定障害が発生したままでシステムの運用を継続してしまう。この場合、結局は復旧作業が必要であるにもかかわらず、一定回数の障害が発生するまでは固定障害を抱えたままシステムを運用してしまうため、復旧作業が遅れ、この結果、正常なシステム運用時間が減少するという問題がある。
また、上述の第2の従来技術では、原因テーブルに記憶されている障害しか復旧することが出来ないという問題がある。さらに、上述の第2の従来技術では、障害を特定し個別に対応しているため特別かつ複雑な処理を要するので、復旧処理に時間がかかってしまうという問題がある。
本発明の目的は、システムに通信障害が発生した場合に、通信不能箇所を直ちに初期化し、初期化が正常に終了したか否かに応じて障害を区別し、障害に応じた処理を行うことにより、障害が間欠障害であった場合には、性能を低下することなくシステムの運用ができ、障害が固定障害であった場合には、速やかに外部に通知し人手による復旧を行うことができるマルチノードシステムを提供することにある。
また、本発明の他の目的は、システムに障害が発生した場合に、障害箇所に対して初期化処理を行うことにより、予め想定していた障害以外の障害であっても初期化処理により復旧可能な障害であれば復旧することができるマルチノードシステムを提供することにある。
上述の目的を達成するため、本発明のマルチノードシステムは、第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置とを含むマルチノードシステムにおいて、前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノード間通信制御装置を初期化する初期化手段と、前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記第一及び第二のノードから切り離さず、前記第一のノード間通信制御装置の初期化できなかったときは、前記第一のノード間通信制御装置を前記第一及び第二のノードから切り離す指示を出す管理手段と、を含むことを特徴とする。
また、本発明の他のマルチノードシステムは、前記第一のノード間通信制御装置を初期化できなかったときは、その旨をシステムの外部へ報知する報知手段を含むことを特徴とする。
さらに、本発明の他のマルチノードシステムは、前記第一のノード間通信制御装置を初期化できなかったときは、前記第二のノード間通信制御装置が前記第一のノード間通信制御装置が初期化前に行っていた処理を実行することを特徴とする。
また、本発明の他のマルチノードシステムは、前記初期化手段は、前記第一のノード間通信制御装置を再起動することを含むことを特徴とする。
さらに、本発明の他のマルチノードシステムは、第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置とを含むマルチノードシステムにおいて、前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノードと前記第一のノード間通信制御装置とを初期化する初期化手段と、前記第一のノードの初期化ができたときは、前記第一のノードを前記マルチノードシステムから切り離さず、前記第一のノードの初期化ができなかったときは、前記第一のノードを前記マルチノードシステムから切り離す指示を出す管理手段と、前記第一のノード間通信制御装置の初期化ができたときは、前記第一のノード間通信装置を前記マルチノードシステムから切り離さず、前記第一のノード間通信制御装置の初期化ができなかったときは、前記第一のノード間通信制御装置を前記マルチノードシステムから切り離す指示を出す管理手段と、を含むことを特徴とする。
上述の目的を達成するため、本発明の障害復旧方法は、第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置と、前記第一及び第二のノードと前記第一及び第二のノード間通信制御装置との管理を行う管理手段とを含むマルチノードシステムにおいて、前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノード間通信制御装置を初期化するステップと、前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記第一及び第二のノードから切り離さず、前記第一のノード間通信制御装置を初期化できなかったときは、前記第一のノード間通信制御装置を前記第一及び第二のノードから切り離す指示を出すステップと、を含むことを特徴とする。
また、本発明の他の障害復旧方法は、前記第一のノード間通信制御装置を初期化できなかったときは、その旨をシステムの外部へ報知するステップを含むことを特徴とする。
さらに、本発明の他の障害復旧方法は、前記第一のノード間通信制御装置を初期化できなかったときは、前記第二のノード間通信制御装置が前記第一のノード間通信制御装置が初期化前に行っていた処理を実行することを特徴とする。
また、本発明の他の障害復旧方法は、前記初期化するステップは、前記第一のノード間通信制御装置を再起動処理することを含むことを特徴とする。
さらに、本発明の他の障害復旧方法は、第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置と、前記第一及び第二のノードと前記第一及び第二のノード間通信制御装置との管理を行う管理手段とを含むマルチノードシステムにおいて、前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記管理手段が前記第一のノードと前記第一のノード間通信制御装置とを初期化するステップと、前記第一のノードを初期化できたときは、前記第一のノードを前記マルチノードシステムから切り離さず、前記第一のノードを初期化できなかったときは、前記管理手段が前記第一のノードを前記マルチノードシステムから切り離す指示を出すステップと、前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記マルチノードシステムから切り離さず、前記第一のノード間通信制御装置を初期化できなかったときは、前記管理手段が前記第一のノード間通信制御装置を前記マルチノードシステムから切り離す指示を出すステップと、を含むことを特徴とする。
上述した手段によれば、本発明は、ノード間制御装置とノードとの間に通信障害が発生した場合に、通信障害が発生したノード間通信制御装置を直ちに初期化し、初期化が成功したか否かに応じて発生した障害を間欠障害と固定障害とに区別し、障害に応じた処理を行うことができる。
また、本発明では、通信障害が発生したノード間通信制御装置の初期化が成功したか否かによって障害を区別しているので、障害を区別するための特別な構成を設けることなく発生した障害を区別することができる。
さらに、本発明では、障害が発生した場合は、ノード間通信制御装置のみを直ちに初期化し、ノード間通信制御装置の初期化が成功したとき、即ち通信障害が間欠障害に起因するものであったときには、障害に依存しない画一的な処理である初期化処理により障害に対応しているため、システムの最大構成での運用状態に速やかに復旧させることができ、この結果、システムの性能低下を防ぐことができる。
また、本発明では、障害が発生した場合は、ノード間通信制御装置のみを直ちに初期化するので、ノード間通信制御装置の初期化が成功しなかったとき、即ち通信障害が固定障害に起因するものであったときには、障害の発生したノード間通信制御装置を速やかに切り離し、障害が発生したノード間通信制御装置の行っていたノード間通信を正常なノード間通信制御装置が行うことができる。
さらに、本発明では、ノード間制御装置とノードとの間に通信障害が発生した場合に、通信障害が発生したノード間通信制御装置及びノードを切り離なすことなく初期化を行い、ノード間通信制御装置だけでなく、ノードに発生した障害についても対応することができる。
また、本発明では、ノード間通信制御装置の初期化が成功しなかった場合には、その旨をシステムの外部に報知することにより、速やかに人手による復旧を行うことができる。
さらに、本発明では、システムに障害が発生した場合に、障害箇所に対して初期化処理を行うことにより、予め想定していた障害以外の障害であっても初期化処理により復旧可能な障害であれば復旧することができる。
本発明のマルチノードシステムの実施の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明のマルチノードシステムは、複数のノード21、22、23、及び24と、ノード21、22、23及び24の制御および障害監視を行うノード用サービスプロセッサ12(以下、ノードSVPと呼ぶ)と、ノード間の通信の制御を行うノード間通信制御装置31および32と、ノード間通信制御装置31及び32の制御および管理を行う統合サービスプロセッサ11(以下、統合SVPと呼ぶ)とを含む。ノード21、22、23及び24はそれぞれが独立したシステムとして運用可能であり、それぞれが演算処理を行う。ノードSVP12はノード21、22、23及び24のそれぞれと接続されており、各ノードの運用、構成制御や障害監視などの処理を行う。ノード間通信制御装置31及び32は、それぞれがノード21、22、23及び24と接続されており、ノード間でデータのやりとりを行うためにノード間を伝達する信号の経路となる装置である。統合SVP11は、ノード間通信制御装置31及び32に接続されており、各ノード間通信制御装置の運用、構成制御や障害監視などの処理を行う。また、統合SVP11とノードSVP12とは接続されており、相互に通信し要求や報告を行うことが出来る。
本発明のマルチノードシステムの通常の動作は次のようになる。ノード21の演算結果をノード22での演算で使用する場合は、まずノード21が演算結果をノード間通信制御装置31へ送る。次に、ノード間通信制御装置31は、ノード21から送られてきた演算結果をノード22へ送る。ノード22は、ノード間通信制御装置31から送られてきたノード21の演算結果を用いて演算を行う。ノード間通信制御装置31と32とは独立で動作し、それぞれがノード間の通信を制御する。
まず、本発明の第1の実施の形態における統合SVP11、ノードSVP12、ノード間通信制御装置31及び32、ノード21、22、23、及び24の内部構成について説明する。
図2を参照すると、ノード間通信制御装置31及び32は、統合SVP11からの初期化命令を受けた場合に初期化処理を行う初期化手段301と、障害が発生した場合に統合SVP11に障害の発生を通知する障害通知手段302と、初期化処理を行った場合にその初期化処理が成功したか否かを統合SVP11に通知する初期化結果通知手段303とを含む。本発明における初期化とは、装置の再起動を指し、ノード間通信制御装置31、32は、初期化命令を受けると再起動を行う。
統合SVP11はノード間通信制御装置31及び32に対して初期化命令を発行する初期化命令手段111と、ノード間通信制御手段31又はノード21をシステムから切り離す指示を出す切り離し指示手段112と、ノード間通信制御装置31及び32から障害発生の通知を受け取った場合にノードSVP12にノード間通信を停止させる要求を発行するノード間通信停止要求手段113と、ノード間通信制御装置31及び32の初期化が成功したという通知を受けた場合にノードSVP12にノード間の通信を再開させる要求を発行するノード間通信再開要求手段114と、ノード間通信制御装置31又は32の初期化処理が成功しなかったという通知を受けた場合に障害発生を通知する障害信号を出力する障害通知手段115とを含む。障害通知手段115は、障害信号を報知手段40に出力する。報知手段40は、障害通知手段115から出力された障害信号を用いて、LEDを点灯させる又はブザーを鳴らす等の手法でシステムの外部へ報知する。
ノードSVP12は、統合SVP11からノード間通信を再開する要求を受け取った場合にノード21、22、23及び24にノード間通信再開を命令するノード間通信再開命令手段121と、統合SVP11からノード間通信を停止する要求を受け取った場合にノード21、22、23及び24にノード間通信停止を命令するノード間通信停止命令手段122と、ノード21、22、23及び24からの処理完了通知を受けた場合にその通知を統合SVP11に通知する行う通知手段123とを含む。
ノード21、22、23及び24は、ノードSVP12からノード間通信を再開する命令を受けた場合にノード間通信を再開するノード間通信再開手段201と、ノードSVP12からノード間通信を停止する命令を受けた場合にノード間通信を停止するノード間通信停止手段202と、ノード間通信の停止が完了した時及びノード間通信の再開が完了した時にノードSVP12に処理の完了を通知する処理完了通知手段203とを含む。
本実施例では、ノード間通信制御手段31又はノード21をシステムから切り離す指示を出す切り離し指示手段112を統合SVP11が含むとしたが、ノード間通信制御手段31をシステムから切り離す指示を出す切り離し指示手段を統合SVP11が含むと共にノード21をシステムから切り離す指示を出す切り離し指示手段をノードSVP12が含むというように構成してもよい。
次に、本発明の第1の実施の形態の動作について図面を参照して説明する。本実施の形態では、ノード間通信制御装置31とノード21との間の通信が不可能になる場合について説明する。
図1及び図3を参照すると、まず、ノード間通信制御装置31とノード21との通信が不可能となり(ステップA1)、統合SVP11はノード間通信制御装置31とノード21、22、23及び24との間の通信を停止する要求を発行し、ノード間通信を停止させる(ステップA2)。統合SVP11はノード間通信制御装置31を初期化する命令を出し、ノード間通信制御装置31は初期化処理を行う(ステップA3)。統合SVP11は、ステップA3におけるノード間通信制御装置31の初期化処理が成功したか否かを確認する(ステップA4)。ステップA4において、ノード間通信制御装置31の初期化処理が成功した場合は、統合SVP11はノード間通信制御装置31とノード21、22、23及び24とのノード間通信を再開する(ステップA5)。
ステップA4において、ノード間通信制御装置31の初期化処理が成功しなかった場合は、統合SVP11はノード間制御装置31の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、ノード21、22、23及び24にノード間通信制御装置31をシステムから切り離す指示を出す。統合SVP11からの指示によりノード間通信制御装置31はシステムから切り離される。統合SVP11はノード間通信制御32とノード21、22、23及び24とによるノード間通信の再開を要求し、ノード間通信制御32とノード21、22、23及び24とはノード間通信が再開する(ステップA6)。
次に、本発明の第1の実施の形態における各装置の動作をさらに詳細に説明する。まず、ノード間通信制御装置31の初期化処理が成功した場合の動作について説明する。
図2及び図4を参照すると、ノード間通信制御装置31とノード21との間で通信障害が発生すると、ノード間通信制御装置31の障害通知手段302は統合SVP11に対して通信障害が発生したことを通知する(ステップB1)。その通知に基づき、統合SVP11のノード間通信停止要求手段113は、ノードSVP12に対してノード間通信制御装置31とノード21、22、23及び24とのノード間通信を停止するノード間通信停止要求を発行する(ステップB2)。ノード間通信停止要求に基づいて、ノードSVP12のノード間通信停止命令手段122はノード21、22、23及び24に対してノード間通信制御装置31との通信を停止するようノード間通信停止命令を発行する(ステップB3)。ノード間通信停止命令に基づいて、ノード21、22、23及び24のノード通信停止手段202は、それぞれノード間通信制御装置31との通信を停止し、ノード間通信停止を完了したら各ノードの処理完了通知手段203はノード間通信停止の完了をノードSVP12に対して通知する(ステップB4)。ノードSVP12の通知手段123は、統合SVP11に対し各ノードがノード間通信停止を完了したことを通知する(ステップB5)。全ノードからノード間通信停止完了の通知を受けると、統合SVP11の初期化命令手段111はノード間通信制御装置31に対して初期化処理を行うよう初期化命令を発行する(ステップB6)。ノード間通信制御装置31の初期化手段301は統合SVP11からの命令に基づいて初期化処理を行い、初期化結果通知手段303は初期化処理が成功したことを統合SVP11に通知する(ステップB7)。統合SVP11のノード間通信再開要求手段114はノードSVP12に、ノード間通信制御装置31とノード21、22、23及び24とのノード間通信再開要求を発行する(ステップB8)ノードSVP12のノード間通信再開命令手段121は、受信したノード間通信再開要求に基づいて、ノード21、22、23、24に対し、ノード間通信制御装置31によるノード間通信再開を命令する(ステップB9)。
次に、ノード間通信制御装置31の初期化処理が成功しなかった場合の動作について説明する。ステップB1からステップB6までは図4の説明と重複するので省略する。
図2及び図5において、ノード間制御装置31の初期化処理が成功しなかった場合は、ノード間通信制御装置31の初期化結果通知手段303は、その旨を統合SVP11に通知する(ステップB10)。統合SVP11の障害通知手段115は、ノード間制御装置31の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、統合SVP11のノード間通信再開要求手段114はノードSVP12に対してノード間通信制御装置32によるノード間通信の要求を発行する。それと共に、統合SVP11の切り離し指示手段112はノード21、22、23及び24に対しノード間通信制御装置31システムから切り離す指示を出す。ノード間通信制御装置31はその指示に基づいて自らをシステムから切り離す(ステップB11)。ノードSVP12のノード間通信再開命令手段121はノード間通信発行要求に基づいて、ノード21、22、23及び24に対してノード間通信制御装置32によるノード間通信の命令を発行する(ステップB12)。
本発明の第1の実施の形態では、ノード間制御装置31とノード21との間に通信障害が発生した場合に、障害に関係のあるノード間通信制御装置31のみを直ちに初期化し、初期化が成功したか否かに応じて発生した障害を間欠障害と固定障害とに区別し、障害に応じた処理を行うことができる。即ち、ノード間通信制御装置31の初期化が成功した場合には、ノード間通信制御装置31はシステムから切り離されないので性能を低下することなくシステムの運用ができ、ノード間通信制御装置31の初期化が成功しなかった場合には、ノード間通信制御装置31はシステムから切り離され速やかにシステムの外部に通知することができる。
また、ノード間制御装置31と32とが関連して動作している場合においても同様の効果が得られる。ノード間制御装置31とノード21との間に通信障害が発生した時には、ノード間通信制御装置31が初期化を行う間は、ノード間通信制御装置32は動作を止める。ノード間通信制御装置31のノード間通信制御装置31の初期化が成功した場合には、ノード間制御装置31及び32が共に動作を再開し性能を低下することなくシステムの運用ができ、ノード間通信制御装置31の初期化が成功しなかった場合には、障害発生を速やかにシステムの外部に通知し、ノード間通信制御装置31で行っていた処理をノード間通信制御装置32が行うようにすることでシステムの運用することができる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。本発明の第2の実施の形態では、ノード間通信が停止した場合にノード間通信制御装置及びノードのどちらにも障害が発生し得ることを考慮し、ノード間通信制御装置及びノードの初期化処理を行う。
まず、各装置の内部構成について詳細に説明する。図2の説明と重複する部分の説明は省略する。
図6を参照すると、ノードSVP12は、ノード21、22、23及び24からの処理完了通知を受けた場合又はノード21、22、23及び24からの初期化結果の通知を受けた場合にその通知を統合SVP11に通知する行う通知手段123と、ノード21、22、23及び24に対して初期化命令を発行する初期化命令手段124とを含む。
ノード21、22、23及び24は、障害が発生した場合に統合SVP11に障害の発生を通知する障害通知手段204と、初期化処理を行った場合にその初期化処理が成功したか否かをノードSVP12に通知する初期化結果通知手段205と、ノードSVP12からの初期化命令を受けた場合に初期化処理を行う初期化手段206とを含む。
次に、本発明の第2の実施の形態の動作について図面を参照して説明する。
図6および図7を参照すると、まず、ノード間通信制御装置31とノード21の間において通信障害が発生し、ノード間通信制御装置31とノード21との通信が不可能となる(ステップC1)。統合SVP11は、ノード間通信制御装置31と全ノード、すなわち、ノード21、22、23及び24との間の通信を停止する(ステップC2)。統合SVP11はノード21を初期化する要求を出し、ノード21は初期化処理を行う(ステップC3)。統合SVP11は、ステップC3におけるノード21の初期化が成功したか否かを確認する(ステップC4)。
ステップC4におけるノード21の初期化が成功したと確認された場合は、統合SVP11はノード間通信制御装置31を初期化する命令を出し、ノード間通信制御装置31は初期化処理を行う(ステップC5)。統合SVP11は、ステップC5におけるノード間通信制御装置31の初期化処理が成功したか否かを確認する(ステップC7)。ステップC7においてノード間通信制御装置31の初期化処理が成功したと確認されたときは、統合SVP11はノード間通信制御31及び32とノード21、22、23及び24とによるノード間通信の再開を要求し、ノード間通信制御31及び32とノード21、22、23及び24とはノード間通信が再開する(ステップC9)。ステップC7においてノード間通信制御装置31の初期化処理が成功しなかったと確認されたときは、統合SVP11は、ノード間制御装置31の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、ノード21、22、23及び24に対してノード間通信制御装置31をシステムから切り離す指示を出す。統合SVP11からの指示によりノード間通信制御装置31はシステムから切り離される。統合SVP11はノード間通信制御32とノード21、22、23及び24とによるノード間通信の再開を要求し、ノード間通信制御32とノード21、22、23及び24とはノード間通信が再開する(ステップC10)。
ステップC4におけるノード21の初期化が成功しなかったと確認された場合は、統合SVP11はノード間通信制御装置31を初期化する命令を出し、ノード間通信制御装置31は初期化処理を行う(ステップC6)。統合SVP11は、ステップC6におけるノード間通信制御装置31の初期化処理が成功したか否かを確認する(ステップC8)。ステップC8においてノード間通信制御装置31の初期化処理が成功したと確認されたときは、統合SVP11はノード21の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、ノード間通信制御装置31及び32とノード22、23及び24に対してノード21をシステムから切り離す指示を出す。統合SVP11からの指示によりノード21はシステムから切り離される。統合SVP11はノード間通信制御31及び32とノード22、23及び24とによるノード間通信の再開を要求し、ノード間通信制御31及び32とノード22、23及び24とはノード間通信が再開する(ステップC11)。ステップC8においてノード間通信制御装置31の初期化処理が成功しなかったと確認されたときは、統合SVP11は、ノード間制御装置31及びノード21の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、ノード22、23及び24に対してノード間制御装置31をシステムから切り離す指示を、ノード間通信制御装置32とノード22、23及び24に対してノード21をシステムから切り離す指示をそれぞれ出す。統合SVP11からの指示によりノード間通信制御装置31及びノード21はシステムから切り離される。統合SVP11はノード間通信制御32とノード22、23及び24とによるノード間通信の再開を要求し、ノード間通信制御32とノード22、23及び24とはノード間通信が再開する(ステップC12)。
また、本発明の第2の実施の形態における各装置の動作をさらに詳細に説明する。まず、ノード間通信制御装置31及びノード21の初期化処理が成功した場合の動作について説明する。
図6及び図8を参照すると、ノード間通信制御装置31とノード21との間で通信障害が発生すると、ノード間通信制御装置31の障害通知手段302は統合SVP11に対して通信障害が発生したことを通知し(ステップD1)、ノード21の障害通知手段204はノードSVP12に対して通信障害が発生したことを通知する(ステップD2)。ノード間通信制御装置31からの障害発生の通知に基づき、統合SVP11のノード間通信停止要求手段113は、ノードSVP12に対してノード間通信制御装置31とノード21、22、23及び24とのノード間通信を停止するノード間通信停止要求を発行する(ステップD3)。ノード間通信停止要求に基づいて、ノードSVP12のノード間通信再開命令手段121はノード21、22、23及び24に対してノード間通信制御装置31との通信を停止するようノード間通信停止命令を発行する(ステップD4)。ノード間通信停止命令に基づいて、ノード21、22、23及び24のノード間通信停止手段202は、ノード間通信制御装置31との通信を停止し、ノード間通信停止を完了したら各ノードの処理完了通知手段203はノード間通信停止を完了したらノード間通信停止の完了をノードSVP12に対して通知する(ステップD5)。ノード間通信停止の完了の通知を受け取った後に、ノードSVP12の初期化命令手段124は、ノード21に対して初期化処理を行うように命令を発行する(ステップD6)。ノード21の初期化手段206は、ノードSVP12からの命令に基づいて初期化処理を行い、初期化結果通知手段205は初期化処理が成功したことをノードSVP12に通知する(ステップD7)。ノードSVP12の通知手段123は、ノード21の初期化処理が成功したことを統合SVP11に通知する(ステップD8)。統合SVP11の初期化命令手段111は、ノード21の初期化処理が成功したことの通知を受け取った後、ノード間通信制御装置31に対して初期化処理を行うように命令を発行する(ステップD9)。ノード間通信制御装置31の初期化手段301は、統合SVP11からの命令に基づいて初期化処理を行い、初期化結果通知手段303は初期化処理が成功したことを統合SVP11に通知する(ステップD10)。統合SVP11のノード間通信再開要求手段114はノードSVP12に、ノード間通信制御装置31及び32とノード21、22、23及び24とのノード間通信再開要求を発行する(ステップD11)。ノードSVP12のノード間通信再開命令手段121は、統合SVP11からの要求に基づいて、ノード21、22、23、24に対し、ノード間通信制御装置31及び32によるノード間通信再開を命令する(ステップD12)。
次に、ノード21の初期化処理は成功したが、ノード間通信制御装置31の初期化処理は成功しなかった場合の動作について説明する。ステップD1からステップD9までは図8の説明と重複するので省略する。
図6及び図9を参照すると、ノード間制御装置31の初期化処理が成功しなかった場合は、ノード間通信装置31の初期化結果通知手段303は、その旨を統合SVP11に通知する(ステップD13)。統合SVP11の障害通知手段115は、ノード間制御装置31の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、統合SVP11のノード間通信再開要求113はノードSVP12に対してノード間通信制御装置32によるノード間通信の要求を発行する。それと共に、統合SVP11の切り離し指示手段112はノード21、22、23及び24に対しシステムからノード間通信制御装置31を切り離す指示を出す。ノード間通信制御装置31はその指示に基づいて自らをシステムから切り離す(ステップD14)。ノードSVP12のノード間通信再開命令手段121はノード間通信発行要求に基づいて、ノード21、22、23及び24に対してノード間通信制御装置32によるノード間通信の命令を発行する(ステップD15)。
次に、ノード21の初期化処理が成功しなかったが、ノード間通信制御装置31の初期化処理が成功した場合の動作について説明する。ステップD1からステップD6までは図8の説明と重複するので省略する。
図6及び図10を参照すると、ノード21の初期化処理が成功しなかった場合は、ノード21の初期化結果通知手段203は、その旨をノードSVP12に通知する(ステップD16)。ノードSVP12の通知手段123は、ノード21の初期化処理が成功しなかったことを統合SVP11に通知する(ステップD17)。統合SVP11の初期化命令手段111は、ノード21の初期化処理が成功しなかったことの通知を受け取った後、ノード間通信制御装置31に対して初期化処理を行うように命令を発行する(ステップD9)。ノード間通信制御装置31の初期化手段303は、統合SVP11からの命令に基づいて初期化処理を行い、初期化結果通知手段303は初期化処理が成功したことを統合SVP11に通知する(ステップD10)。統合SVP11の障害通知手段115はノード21の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、統合SVP11のノード間通信再開要求手段114はノードSVP12に対してノード間通信制御装置31及び32とノード22、23及び24とのノード間通信再開要求を発行する。それと共に、統合SVP11の切り離し指示手段112はノード間通信制御装置31及び32、ノード21、22、23及び24に対しノード21をシステムから切り離す指示を出す(ステップD18)。ノードSVP12のノード間通信再開命令手段121は、統合SVP11からの要求に基づいて、ノード22、23、24に対し、ノード間通信制御装置31及び32によるノード間通信再開を命令する(ステップD19)。
次に、ノード21の初期化処理及びノード間通信制御装置31の初期化処理が共に成功しなかった場合の動作について説明する。ステップD1からステップD6までは図8の説明と重複するので省略する。
図6及び図11を参照すると、ノード21の初期化処理が成功しなかった場合は、ノード21の初期化結果通知手段203は、その旨をノードSVP12に通知する(ステップD16)。ノードSVP12の通知手段123は、ノード21の初期化処理が成功しなかったことを統合SVP11に通知する(ステップD17)。統合SVP11の初期化命令手段111は、ノード21の初期化処理が成功しなかったことの通知を受け取った後、ノード間通信制御装置31に対して初期化処理を行うように命令を発行する(ステップD9)。ノード間通信制御装置31の初期化手段301は、統合SVP11からの命令に基づいて初期化処理を行い、初期化結果通知手段303は初期化処理が成功しなかったことを統合SVP11に通知する(ステップD13)。統合SVP11の障害通知手段123はノード間制御装置31及びノード21の初期化処理が成功しなかった旨の通知である障害信号を報知手段40に出力し、統合SVP11のノード間通信再開要求手段114はノードSVP12に対してノード間通信制御装置32とノード22、23及び24とのノード間通信再開要求を発行する。それと共に、統合SVP11の切り離し指示手段112は、ノード22、23及び24に対してノード間制御装置31をシステムから切り離す指示を、ノード間通信制御装置32とノード22、23及び24とに対してノード21をシステムから切り離す指示をそれぞれ出す(ステップD20)。ノードSVP12のノード間通信再開命令手段121は、統合SVP11からの要求に基づいて、ノード22、23、24に対し、ノード間通信制御装置32によるノード間通信再開を命令する(ステップD21)。
本発明の第2の実施の形態では、ノード間通信制御装置31の初期化だけでなく、障害に関係のあるノード21の初期化処理も行うように構成されているので、ノード間通信処理装置31とノード21との間に通信障害が発生した場合に、ノード21に起因する障害の復旧を行うことが出来る。
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
本発明の実施の形態を示すブロック図である。 本発明の第1の実施の形態を示すブロック図である。 本発明の第1の実施の形態の動作を示すフローチャートである。 本発明の第1の実施の形態の動作を示す図である。 本発明の第1の実施の形態の動作を示す図である。 本発明の第2の実施の形態を示すブロック図である。 本発明の第2の実施の形態の動作を示すフローチャートである。 本発明の第2の実施の形態の動作を示す図である。 本発明の第2の実施の形態の動作を示す図である。 本発明の第2の実施の形態の動作を示す図である。 本発明の第2の実施の形態の動作を示す図である。
符号の説明
11 統合SVP
12 ノードSVP
21、・・・、24 ノード
31、32 ノード間通信制御装置31
40 報知手段
111 統合SVPの初期化命令手段
112 統合SVPのノード間通信停止要求手段
113 統合SVPのノード間通信再開要求手段
114 統合SVPの障害通知手段
121 ノードSVPのノード間通信再開命令手段
122 ノードSVPのノード間通信停止命令手段
123 ノードSVPの通知手段
124 ノードSVPの初期化命令手段
201 ノードのノード間通信再開手段
202 ノードのノード間通信停止手段
203 ノードの処理完了通知手段
204 ノードの障害通知手段
205 ノードの初期化結果通知手段
206 ノードの初期化手段
301 ノード間通信制御装置の初期化手段
302 ノード間通信制御装置の障害通知手段
303 ノード間通信制御装置の初期化結果通知手段

Claims (16)

  1. 第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置とを含むマルチノードシステムにおいて、
    前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノード間通信制御装置を初期化する初期化手段と、
    前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記第一及び第二のノードから切り離さず、前記第一のノード間通信制御装置を初期化できなかったときは、前記第一のノード間通信制御装置を前記第一及び第二のノードから切り離す指示を出す管理手段と、
    を含むことを特徴とするマルチノードシステム。
  2. 前記第一のノード間通信制御装置を初期化できなかったときは、その旨をシステムの外部へ報知する報知手段を含むことを特徴とする請求項1に記載のマルチノードシステム。
  3. 前記第一のノード間通信制御装置を初期化できなかったときは、前記第二のノード間通信制御装置が前記第一のノード間通信制御装置が初期化前に行っていた処理を実行することを特徴とする請求項1及び2に記載のマルチノードシステム。
  4. 前記初期化手段は、前記第一のノード間通信制御装置を再起動することを含むことを特徴とする請求項1乃至3に記載のマルチノードシステム。
  5. 第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置とを含むマルチノードシステムにおいて、
    前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノードと前記第一のノード間通信制御装置とを初期化する初期化手段と、
    前記第一のノードを初期化できたときは、前記第一のノードを前記マルチノードシステムから切り離さず、前記第一のノードを初期化できなかったときは、前記第一のノードを前記マルチノードシステムから切り離す指示を出す第一の管理手段と、
    前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記マルチノードシステムから切り離さず、前記第一のノード間通信制御装置を初期化できなかったときは、前記第一のノード間通信制御装置を前記マルチノードシステムから切り離す指示を出す第二の管理手段と、
    を含むことを特徴とするマルチノードシステム。
  6. 前記第一のノード間通信制御装置又は前記第一のノードを初期化できなかったときは、その旨をシステムの外部へ報知する報知手段を含むことを特徴とする請求項5に記載のマルチノードシステム。
  7. 前記第一のノード間通信制御装置を初期化できなかったときは、前記第二のノード間通信制御装置が前記第一のノード間通信制御装置が初期化前に行っていた処理を実行することを特徴とする請求項5及び6に記載のマルチノードシステム。
  8. 前記初期化手段は、前記第一のノード間通信制御装置と前記第一のノードとを再起動することを含むことを特徴とする請求項4乃至7に記載のマルチノードシステム。
  9. 第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置と、前記第一及び第二のノードと前記第一及び第二のノード間通信制御装置との管理を行う管理手段とを含むマルチノードシステムにおいて、
    前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノード間通信制御装置を初期化するステップと、
    前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記第一及び第二のノードから切り離さず、前記第一のノード間通信制御装置を初期化できなかったときは、前記第一のノード間通信制御装置を前記第一及び第二のノードから切り離す指示を出すステップと、
    を含むことを特徴とする障害復旧方法。
  10. 前記第一のノード間通信制御装置を初期化できなかったときは、その旨をシステムの外部へ報知するステップを含むことを特徴とする請求項9に記載の障害復旧方法。
  11. 前記第一のノード間通信制御装置を初期化できなかったときは、前記第二のノード間通信制御装置が前記第一のノード間通信制御装置が初期化前に行っていた処理を実行することを特徴とする請求項9及び10に記載の障害復旧方法。
  12. 前記初期化するステップは、前記第一のノード間通信制御装置を再起動処理することを含むことを特徴とする請求項9乃至11に記載の障害復旧方法。
  13. 第一及び第二のノードと、前記第一及び第二のノードに接続される第一及び第二のノード間通信制御装置と、前記第一及び第二のノードの管理を行う第一の管理手段と前記第一及び第二のノード間通信制御装置の管理を行う第二の管理手段とを含むマルチノードシステムにおいて、
    前記第一のノードと前記第一のノード間通信制御装置との間が通信不能になった場合は、前記第一のノードと前記第一のノード間通信制御装置とを初期化するステップと、
    前記第一のノードを初期化できたときは、前記第一のノードを前記マルチノードシステムから切り離さず、前記第一のノードを初期化できなかったときは、前記第一の管理手段が前記第一のノードを前記マルチノードシステムから切り離す指示を出すステップと、
    前記第一のノード間通信制御装置を初期化できたときは、前記第一のノード間通信装置を前記マルチノードシステムから切り離さず、前記第一のノード間通信制御装置を初期化できなかったときは、前記第二の管理手段が前記第一のノード間通信制御装置を前記マルチノードシステムから切り離す指示を出すステップと、
    を含むことを特徴とする障害復旧方法。
  14. 前記第一のノード間通信制御装置又は前記第一のノードを初期化できなかったときは、その旨をシステムの外部へ報知するステップを含むことを特徴とする請求項10に記載の障害復旧方法。
  15. 前記第一のノード間通信制御装置を初期化できなかったときは、前記第二のノード間通信制御装置が前記第一のノード間通信制御装置が初期化前に行っていた処理を実行することを特徴とする請求項10及び11に記載の障害復旧方法。
  16. 前記初期化するステップは、前記第一のノード間通信制御装置と前記第一のノードとを再起動することを含むことを特徴とする請求項13乃至15に記載の障害復旧方法。
JP2004337650A 2004-11-22 2004-11-22 マルチノードシステム及び障害復旧方法 Withdrawn JP2006146685A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004337650A JP2006146685A (ja) 2004-11-22 2004-11-22 マルチノードシステム及び障害復旧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004337650A JP2006146685A (ja) 2004-11-22 2004-11-22 マルチノードシステム及び障害復旧方法

Publications (1)

Publication Number Publication Date
JP2006146685A true JP2006146685A (ja) 2006-06-08

Family

ID=36626277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004337650A Withdrawn JP2006146685A (ja) 2004-11-22 2004-11-22 マルチノードシステム及び障害復旧方法

Country Status (1)

Country Link
JP (1) JP2006146685A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186302A (ja) * 2009-02-12 2010-08-26 Nec Corp マルチノードシステム、異常処理方法、スイッチ、ノード及びプログラム
JP5299283B2 (ja) * 2007-11-19 2013-09-25 富士通株式会社 情報処理装置及び情報処理システム並びにそれらの制御方法
JP2016212516A (ja) * 2015-04-30 2016-12-15 富士通株式会社 バス接続対象装置,ストレージ制御装置およびバス通信システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299283B2 (ja) * 2007-11-19 2013-09-25 富士通株式会社 情報処理装置及び情報処理システム並びにそれらの制御方法
US8745436B2 (en) 2007-11-19 2014-06-03 Fujitsu Limited Information processing apparatus, information processing system, and control method therefor
JP2010186302A (ja) * 2009-02-12 2010-08-26 Nec Corp マルチノードシステム、異常処理方法、スイッチ、ノード及びプログラム
JP2016212516A (ja) * 2015-04-30 2016-12-15 富士通株式会社 バス接続対象装置,ストレージ制御装置およびバス通信システム
US10268560B2 (en) 2015-04-30 2019-04-23 Fujitsu Limited Bus connection target device, storage control device and bus communication system

Similar Documents

Publication Publication Date Title
CN113468162B (zh) 用于针对异常数据进行处理的方法、设备和介质
EP2784677A1 (en) Processing apparatus, program and method for logically separating an abnormal device based on abnormality count and a threshold
JP2007067540A (ja) 二重系系切替装置
JP4747909B2 (ja) ファイバチャネルスイッチにおける障害装置の切り離し方法
JP2006146685A (ja) マルチノードシステム及び障害復旧方法
JP4541241B2 (ja) プラント制御システム
JP2006277646A (ja) 障害解析システム及び方法並びにプログラム
WO2013061496A1 (ja) 通信中継装置、稼働系切替方法及び通信中継制御基板
JP6654662B2 (ja) サーバ装置およびサーバシステム
JP2007249389A (ja) クラスタシステムおよびその障害検出方法
JP2000020336A (ja) 二重化通信システム
JPH1196033A (ja) 情報処理装置
JP2006268278A (ja) 遠隔保守コンピュータ保守システム
JP2013025365A (ja) 二重化システムにおける予備装置の障害通知方法
JP5951520B2 (ja) 多重系処理システム
JP2006171995A (ja) 制御用計算機
JP2007183739A (ja) 情報処理装置および方法、並びにプログラム
JPH1049450A (ja) 遠隔監視システムの異常時の復旧方式
JP3166127B2 (ja) Lan切替方式及び電力系統監視制御システム
JP4935597B2 (ja) コンピュータ及び通信処理方法
JPH1069445A (ja) 遠隔監視システムの異常時の復旧方式
JPH11168502A (ja) 通信障害処理装置及び方法
JPH113293A (ja) 計算機システム
JPH08147255A (ja) 障害監視方式
JP4957068B2 (ja) 二重化系切替え方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080205