JP2004013723A - 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 - Google Patents
共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 Download PDFInfo
- Publication number
- JP2004013723A JP2004013723A JP2002169024A JP2002169024A JP2004013723A JP 2004013723 A JP2004013723 A JP 2004013723A JP 2002169024 A JP2002169024 A JP 2002169024A JP 2002169024 A JP2002169024 A JP 2002169024A JP 2004013723 A JP2004013723 A JP 2004013723A
- Authority
- JP
- Japan
- Prior art keywords
- data
- node
- control unit
- nodes
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Multi Processors (AREA)
Abstract
【課題】共有メモリネットワークのようにノード間が密に結合した構成の場合、複数のノードに障害が伝搬し、高信頼システムにならない。
【解決手段】ノード10はMPU111と固有メモリ空間116−1と共有メモリ空間116−2を有するメモリ部116とメモリ制御部115とIO制御部113とクロスバスイッチ50と接続されるシステム制御部114とプロセッサバス117で構成しシステム制御部は他ノードからデータが転送されてこないときタイムアウトするタイマー回路114−1と全ビット“1”のデータを作成するデータ差し替え手段114−2が内蔵されクラスタドライバー112には受信データに対しall“1”データであるか否かをチェックする機能112−1が備えられデータが転送されてこないことをタイムアウトにより検出しall“1”データに差し替えデータが不正なデータであることをチェックする。
【選択図】 図1
【解決手段】ノード10はMPU111と固有メモリ空間116−1と共有メモリ空間116−2を有するメモリ部116とメモリ制御部115とIO制御部113とクロスバスイッチ50と接続されるシステム制御部114とプロセッサバス117で構成しシステム制御部は他ノードからデータが転送されてこないときタイムアウトするタイマー回路114−1と全ビット“1”のデータを作成するデータ差し替え手段114−2が内蔵されクラスタドライバー112には受信データに対しall“1”データであるか否かをチェックする機能112−1が備えられデータが転送されてこないことをタイムアウトにより検出しall“1”データに差し替えデータが不正なデータであることをチェックする。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法に関し、特に通信先のノードがダウンした時でも、自ノードの動作を安全に継続する共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法に関する。
【0002】
【従来の技術】
従来、システムの一部に障害が発生しても,システム全体がダウンすることなく稼動できるようにするために,複数台のシステムを組み合わせて,1つのシステムとして扱うようにしたクラスタシステムは、システムの冗長性を上げて,耐障害性を向上させたり,全体的なパフォーマンスを向上させることができる。
【0003】
クラスタシステムでは、情報処理装置と言う大きな単位で多重化し、それぞれのシステムでは独立したプロセスを動作させることが多い。
【0004】
障害が発生した場合は、そのノードのみを切り離し、実行中のプロセスやトランザクションなどは、他のノード上で再度実行させる、もしくは、継続実行させることになる。
【0005】
このようなクラスタを構築する最大の目的は,何よりも信頼性が求められるシステムにおいて,万一何らかの問題が発生した場合でも,問題を起こしたノードに代わってクラスタ内の他のノードで処理を続行できるようにすることである。
【0006】
また従来、情報処理装置において上記のようなクラスタ構成は、1つのノードを1台の情報処理装置で構成し、またノード間の通信路は、ローカルエリアネットワーク(LAN)に代表される通信ネットワークによって構成されていた。
【0007】
ここで、従来のLANの障害のケースの説明すると、この従来の情報処理装置において、ノード間のデータ転送は、あるノードのメモリから通信ネットワークを制御するドライバーソフトウェアの制御のもとに、通信ネットッワーク制御ハードウェア通じて、データが他のノードに流れて行く。
【0008】
ここで、あるノードに障害が発生しデータ転送ができない場合でも、通信ネットワークと正常なノードのメモリとの間に、通信ネットッワーク制御ハードウェアが存在しているため、この制御ハードウェアおよびドライバーソフトウェアのレベルで障害を食い止めることが可能であり、これにより、あるノードの異常が正常動作している他のノードのメモリに対し、データ転送の順序制御や、通信ネットワークメモリ空間とプロセッサキャッシュ間のデータの矛盾、などシステム動作が不安定になる現象を起こさない構成であった。
【0009】
しかし、近年では、共有メモリ型の情報処理装置を論理的に分割し、1つのノードをプロセッサ、メモリ、IO装置からなる論理的分散ノードと、ノード間の通信路を共有メモリネットワークで構成し、ノード間の通信を超高速に行うタイプのクラスタシステムも存在する。
【0010】
ここで、この共有メモリ型システムとは、各ノードのメモリ領域をネットワーク接続で、他のノードからもアクセス可能とした方式である。この方式によると共有メモリへのアクセスデータは、ほとんど瞬時に他ノードに転送されるため、分散処理の高速化、リアルタイム応答性を確保しやすい利点がある。
【0011】
しかし、この従来技術は、次のような問題点があった。第1の問題点は、共有メモリネットワークのようにノード間が密に結合した構成の場合、複数のノードに障害が伝搬し、結果として高信頼システムにならないことである。
【0012】
その理由は、共有メモリネットワークのようにノード間が密に結合した構成の場合、あるノードにて障害が発生しデータが転送できない場合に、結合が密であるがゆえデータ転送の順序制御や、共有メモリ空間とプロセッサキャッシュ間のデータの矛盾、ソフト的なタイムアウトなどシステムの動作が不安定になってしまうためである。
【0013】
【発明が解決しようとする課題】
上述した従来の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法は、
第1の問題点は、共有メモリネットワークのようにノード間が密に結合した構成の場合、複数のノードに障害が伝搬し、結果として高信頼システムにならないことである。
【0014】
その理由は、共有メモリネットワークのようにノード間が密に結合した構成の場合、あるノードにて障害が発生しデータが転送できない場合に、結合が密であるがゆえデータ転送の順序制御や、共有メモリ空間とプロセッサキャッシュ間のデータの矛盾、ソフト的なタイムアウトなどシステムの動作が不安定になってしまうためである。
【0015】
【課題を解決するための手段】
第1の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0016】
第2の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0017】
第3の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0018】
第4の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0019】
第5の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0020】
第6の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0021】
第7の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
【0022】
第8の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をクロスバスイッチに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、クロスバスイッチはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、クロスバスイッチから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
【0023】
第9の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、共有メモリを持し、ネットワークを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0024】
第10の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0025】
第11の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0026】
第12の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0027】
第13の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、ネットワークを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0028】
第14の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0029】
第15の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する。
【0030】
第16の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をネットワークに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、ネットワークはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、ネットワークから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する。
【0031】
第17の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0032】
第18の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0033】
第19の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0034】
第20の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0035】
第21の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0036】
第22の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0037】
第23の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0038】
第24の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0039】
第25の発明のプログラムは、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する処理をコンピュータに実行させる。
【0040】
第26の発明のプログラムは、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をクロスバスイッチに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、クロスバスイッチはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、クロスバスイッチから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する処理をコンピュータに実行させる。
【0041】
第27の発明のプログラムは、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する処理をコンピュータに実行させる。
【0042】
第28の発明のプログラムは、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をネットワークに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、ネットワークはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、ネットワークから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する処理をコンピュータに実行させる。
【0043】
第29の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0044】
第30の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0045】
第31の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0046】
第32の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0047】
第33の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0048】
第34の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0049】
第35の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0050】
第36の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0051】
【発明の実施の形態】
本発明の、共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行う、クラスタ構成化された情報処理システムの障害処理装置と方法は、通信先のノードがダウンした時でも、自ノードの動作を安全に継続する手段を提供することにある。
【0052】
具体的にはノード間で通信されるデータが、転送されてこないこと(以下タイムアウトと記載)を検出するタイマー手段、タイムアウトを検出した場合に、データを不正データを示すデータに差し替え自ノードのデータリード要求元に返却する手段、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段の3つの手段を併用することによりデータ受信側のノードにノードダウン等の悪影響を防止する。
【0053】
次に、本発明の実施の形態について図面を参照して説明する。
【0054】
図1は本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態を示すブロック図である。
【0055】
図1を参照すると、第1ノード10、第2のノード20、第3のノード30、第4ノード40という4個のノードとこの各ノード間を接続するクロスバスイッチ50から構成されている。
【0056】
図1のクラスタ構成をとる情報処理システムにおいて、システムの一部に障害が発生しても,システム全体がダウンすることなく稼動できるようにするために,第1のノード10から第4のノード40を組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる。また、クラスタ間の通信は各ノードの共有メモリ空間1n6−2(n=1,2,3,4)とクロスバスイッチ50を介し実現している。
【0057】
各ノード間の通信は、クラスタドライバー1n2(n=1,2,3,4)によりソフトウェア制御されている。
【0058】
第3のノード30のクラスタドライバー132(第1のノード10の場合はクラスタドライバー112)は、第1のノード10の共有メモリ空間116−2(第3のノード30の場合は共有メモリ空間136−2)をリードしデータ通信を実施する場合、まず第3のノード30のシステム制御部134が、リード要求を第1のノード10のシステム制御部114に伝えるとともに、自身のタイマー回路134−1(第1のノード10の場合はタイマー回路114−1)を起動する。第1のノード10が障害でノードダウンとなったときには、第1のノード10からデータが返却されず、タイマー回路134−1がタイムアウトを検出する。
【0059】
第3のノード30のシステム制御部134は、タイムアウト検出を契機としてデータ差し替え手段134−2(第1のノード10の場合はデータ差し替え手段114−2)を動かし、クラスタドライバー132に対し、全てのデータが“1”となったall“1”データを返却する。
【0060】
クラスタドライバー132は返却されたデータ(受信データ)をデータチェック機能132−1にてチェックし、データがall“1”であった場合には、受信データを破棄するとともに、第1のノード10がダウンしたと認識し、第1のノード10のダウン処理を実施する。
【0061】
これにより、データ受信側の第3のノード30は、データ送信側の第1のノード10のダウン等の障害の影響を受けずに、ノードの動作が継続可能となる。
【0062】
なお共有メモリ空間1n6−2への書き込みは、共有メモリ空間1n6−2を持ったノードn0(n=1,2,3,4)のみ許可、共有メモリ空間1n6−2からの読み出しは各ノードとも許可されている。なお、本実施の形態では各ノード間のインタフェースはメディアを電気、接続方式をクロスバスイッチ50としたが、メディアは光、電気、電波のいずれであってもよく、さらに、その接続方式もバス型、リング型、スター型、無線型のいずれであってもよいネットワーク構成とすることにできる。
【0063】
各ノードは、それぞれ独立して動作可能な情報処理装置、または、情報処理装置として必要な、プロセッサ、メモリ、入出力部を持った論理的な単位であるが、本実施の形態ではノードはプロセッサ、メモリ、入出力部を持ったセルと呼ばれるカードで構成されている。
【0064】
ここで、第1のノード10から第4のノード40は同一構成のため、以下は第1のノード10を用いて説明する。
【0065】
第1のノード10は、プログラム命令を解釈し実行することのできるマイクロプロセッサユニット(以後MPUと呼ぶ)MPU111(第3のノード30の場合はMPU131)と、自ノードのプログラム命令およびデータを格納する固有メモリ空間116−1と一部を他ノードからリード可能・ライト不可能な共有メモリ空間116−2として設定したメモリ部116(第3のノード30の場合は固有メモリ空間136−1と共有メモリ空間136−2とメモリ部136)と、このメモリ部116へのアクセスを制御しメモリ部116と接続されるメモリ制御部115(第3のノード30の場合はメモリ制御部135)と、第1のノード10が情報処理装置として動作する為に必要なLAN、ファイル装置、キーボード等の入出力デバイス(図示されてない)を配下に持ち、この配下のデバイスへのアクセスを制御するIO制御部113と、メモリ制御部115、IO制御部113(第3のノード30の場合はIO制御部133)と接続され、MPU111の命令によりメモリ制御部115、IO制御部113への動作要求を行い、かつ、クロスバスイッチ50と接続されるシステム制御部114と、MPU111とシステム制御部114とを接続するプロセッサバス117(第3のノード30の場合はプロセッサバス137)から構成される。
【0066】
システム制御部114には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路114−1、全てのビットが“1”固定値のデータ固定値(以後all“1”データと記載)を作成するデータ差し替え手段114−2が内蔵されている。
【0067】
各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバー1n2という専用ソフトウェアが動作しており、このクラスタドライバー1n2には、他ノードの共有メモリ空間1n6−2から読み出した受信データに対し、all“1”データであるか否かをチェックする機能1n2−1が備えられている。
【0068】
本発明の実施の形態には、装置のブートおよびシャットダウンに伴う電源制御を含めたサービス、障害発生時の障害情報の採取および障害ノードのシャットダウン、他ノードへの障害通知、障害後処理のサービスを行うサービスプロセッサという装置を付加し、各ノードが訂正不可能および訂正可能障害を検出した場合には、サービスプロセッサにも障害通知を行い、各ノードが、このサービスプロセッサとのインタフェースから他ノードの障害通知を受け取る構成を追加しても良い。
【0069】
次に、本発明の実施の形態の動作について、図1を参照して詳細に説明する。
【0070】
本実施の形態では、各ノードのメモリ部1n6を自ノードのプログラム命令およびデータを格納する固有メモリ空間1n6−1と一部を他ノードからリード可能・ライト不可能な共有メモリ空間1n6−2として設定し、この共有メモリ空間1n6−2をクラスタドライバー1n2がアクセスすることでノード間通信を実現している。
【0071】
なお本実施の形態では、第1のノード10に障害が発生し、このリード要求に対応するデータがクロスバスイッチ50および第3のノード30に返却されない状態であるとして説明する。
【0072】
第3のノード30のクラスタドライバー132は、第1のノード10の共有メモリ空間116−2をリードしデータ通信を実施する場合、第3のノード30のシステム制御部134は、リード要求を第1のノード10のシステム制御部114に伝えるとともに、自身のタイマー回路134−1を起動する。
【0073】
第1のノード10が障害でノードダウンとなったときには、第1のノード10からデータが返却されず、タイマー回路134−1がタイムアウトを検出する。
【0074】
第3のノード30のシステム制御部134は、タイムアウト検出を契機としてデータ差し替え手段134−2を動かし、クラスタドライバー132に対し、全てのビットが“1”となったall“1”データを返却する。
【0075】
クラスタドライバー132は返却されたデータをデータチェック機能132−1にてall“1”データであるかチェックし、データがall“1”であった場合には、受信データを破棄するとともに、第1のノード10がダウンしたと認識し、第1のノード10のダウン処理を実施する。
【0076】
おなじく、本発明の実施の形態の動作について、図2を参照して詳細に説明する。
【0077】
図2は本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態の動作を示すシーケンスチャートである。
【0078】
図2を参照すると、第3のノード30のクラスタドライバー132は第1のノード10の共有メモリ空間116−2に用意された通信エリアをリードする(図2の301)。
【0079】
クラスタドライバー132のリードは、MPU131から第1のノード10の共有メモリ空間116−2リード要求としてシステム制御部134に発行される。
【0080】
システム制御部134はリード要求が他ノードへの要求であることを認識し、このリード要求をクロスバスイッチ50に発行する(図2の302)。
【0081】
さらにシステム制御部134は、第1のノード10からデータが返却されないことを監視するタイマー回路134−1をスタートさせる(図2の303)。
【0082】
また、クロスバスイッチ50はこのリード要求が第1のノード10に対する要求であることを認識し、第1のノード10のシステム制御部114にリード要求を発行する(図2の304)。
【0083】
本来であればクロスバスイッチ50から要求を受けた第1のノード10のシステム制御部114はメモリ制御部115を介して共有メモリ空間116−2のリードを実行し、共有メモリ空間116−2から先のリード要求に従ったデータが読み出され、メモリ制御部115を経由しシステム制御部114に共有メモリ空間116−2から読み出されたデータが返却される。
【0084】
しかし、第1のノード10において障害が発生し、データが返却されない場合には、タイマー回路134−1がタイムアウトを検出し(図2の305)、データ差し替え手段134−2にタイムアウトを通知する。
【0085】
データ差し替え手段134−2は、クラスタドライバ132に対しあたかも第1のノード10からデータが返却されたかのようにall“1”データを渡す(図2の306)。このとき誤り制御を行い誤り訂正符号ECC(エラーコレクティングコード)を付加してもよい。
【0086】
データを受け取ったクラスタドライバ132は受け取ったデータがall“1”であるかを、データチェック機能132−1によりチェックする(図2の307)。
【0087】
データがall“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄(図2の308)と、第1のノード10が通信不可能な状態であることを認識し、以後第1のノード10にアクセスしないよう第1のノード10のノードダウン処理(図2の309)を実施する。
【0088】
これにより、データ受信側の第3のノード30は、データ送信側の第1のノード10のノードダウン等の障害の影響を受けずに、ノードの動作が継続可能となる。
【0089】
【発明の効果】
以上説明したように、本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法は、
第1の効果は、他ノードの障害の影響を自ノードに伝搬させないとことである。
【0090】
その理由は、他ノードから応答が無いときにall“1”というダミーデータへの差し替えを自ノードで行い、データが受信できないことによるシステム内の動作不正を防ぐとともに、他ノードのダウンをall“1”データによって知ることができるためである。
【図面の簡単な説明】
【図1】本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態を示すブロック図である。
【図2】本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態の動作を示すシーケンスチャートである。
【符号の説明】
10 第1のノード
20 第2のノード
30 第3のノード
40 第4のノード
50 クロスバスイッチ
111,131 MPU
112,132 クラスタドライバー
113,133 IO制御部
114,134 システム制御部
114−1,134−1 タイマー回路
114−2,134−2 データ差し替え手段
115,135 メモリ制御部
116,136 メモリ部
116−1,136−1 固有メモリ空間
116−2,136−2 共有メモリ空間
117,137 プロセッサバス
【発明の属する技術分野】
本発明は共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法に関し、特に通信先のノードがダウンした時でも、自ノードの動作を安全に継続する共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法に関する。
【0002】
【従来の技術】
従来、システムの一部に障害が発生しても,システム全体がダウンすることなく稼動できるようにするために,複数台のシステムを組み合わせて,1つのシステムとして扱うようにしたクラスタシステムは、システムの冗長性を上げて,耐障害性を向上させたり,全体的なパフォーマンスを向上させることができる。
【0003】
クラスタシステムでは、情報処理装置と言う大きな単位で多重化し、それぞれのシステムでは独立したプロセスを動作させることが多い。
【0004】
障害が発生した場合は、そのノードのみを切り離し、実行中のプロセスやトランザクションなどは、他のノード上で再度実行させる、もしくは、継続実行させることになる。
【0005】
このようなクラスタを構築する最大の目的は,何よりも信頼性が求められるシステムにおいて,万一何らかの問題が発生した場合でも,問題を起こしたノードに代わってクラスタ内の他のノードで処理を続行できるようにすることである。
【0006】
また従来、情報処理装置において上記のようなクラスタ構成は、1つのノードを1台の情報処理装置で構成し、またノード間の通信路は、ローカルエリアネットワーク(LAN)に代表される通信ネットワークによって構成されていた。
【0007】
ここで、従来のLANの障害のケースの説明すると、この従来の情報処理装置において、ノード間のデータ転送は、あるノードのメモリから通信ネットワークを制御するドライバーソフトウェアの制御のもとに、通信ネットッワーク制御ハードウェア通じて、データが他のノードに流れて行く。
【0008】
ここで、あるノードに障害が発生しデータ転送ができない場合でも、通信ネットワークと正常なノードのメモリとの間に、通信ネットッワーク制御ハードウェアが存在しているため、この制御ハードウェアおよびドライバーソフトウェアのレベルで障害を食い止めることが可能であり、これにより、あるノードの異常が正常動作している他のノードのメモリに対し、データ転送の順序制御や、通信ネットワークメモリ空間とプロセッサキャッシュ間のデータの矛盾、などシステム動作が不安定になる現象を起こさない構成であった。
【0009】
しかし、近年では、共有メモリ型の情報処理装置を論理的に分割し、1つのノードをプロセッサ、メモリ、IO装置からなる論理的分散ノードと、ノード間の通信路を共有メモリネットワークで構成し、ノード間の通信を超高速に行うタイプのクラスタシステムも存在する。
【0010】
ここで、この共有メモリ型システムとは、各ノードのメモリ領域をネットワーク接続で、他のノードからもアクセス可能とした方式である。この方式によると共有メモリへのアクセスデータは、ほとんど瞬時に他ノードに転送されるため、分散処理の高速化、リアルタイム応答性を確保しやすい利点がある。
【0011】
しかし、この従来技術は、次のような問題点があった。第1の問題点は、共有メモリネットワークのようにノード間が密に結合した構成の場合、複数のノードに障害が伝搬し、結果として高信頼システムにならないことである。
【0012】
その理由は、共有メモリネットワークのようにノード間が密に結合した構成の場合、あるノードにて障害が発生しデータが転送できない場合に、結合が密であるがゆえデータ転送の順序制御や、共有メモリ空間とプロセッサキャッシュ間のデータの矛盾、ソフト的なタイムアウトなどシステムの動作が不安定になってしまうためである。
【0013】
【発明が解決しようとする課題】
上述した従来の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法は、
第1の問題点は、共有メモリネットワークのようにノード間が密に結合した構成の場合、複数のノードに障害が伝搬し、結果として高信頼システムにならないことである。
【0014】
その理由は、共有メモリネットワークのようにノード間が密に結合した構成の場合、あるノードにて障害が発生しデータが転送できない場合に、結合が密であるがゆえデータ転送の順序制御や、共有メモリ空間とプロセッサキャッシュ間のデータの矛盾、ソフト的なタイムアウトなどシステムの動作が不安定になってしまうためである。
【0015】
【課題を解決するための手段】
第1の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0016】
第2の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0017】
第3の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0018】
第4の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0019】
第5の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0020】
第6の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0021】
第7の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
【0022】
第8の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をクロスバスイッチに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、クロスバスイッチはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、クロスバスイッチから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
【0023】
第9の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、共有メモリを持し、ネットワークを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0024】
第10の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0025】
第11の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0026】
第12の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0027】
第13の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、ネットワークを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続する。
【0028】
第14の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0029】
第15の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する。
【0030】
第16の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をネットワークに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、ネットワークはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、ネットワークから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する。
【0031】
第17の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0032】
第18の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0033】
第19の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0034】
第20の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0035】
第21の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0036】
第22の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0037】
第23の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0038】
第24の発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法は、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる。
【0039】
第25の発明のプログラムは、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する処理をコンピュータに実行させる。
【0040】
第26の発明のプログラムは、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をクロスバスイッチに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、クロスバスイッチはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、クロスバスイッチから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する処理をコンピュータに実行させる。
【0041】
第27の発明のプログラムは、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する処理をコンピュータに実行させる。
【0042】
第28の発明のプログラムは、データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をネットワークに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、ネットワークはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、ネットワークから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する処理をコンピュータに実行させる。
【0043】
第29の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0044】
第30の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0045】
第31の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0046】
第32の発明のプログラムは、複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0047】
第33の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0048】
第34の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0049】
第35の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0050】
第36の発明のプログラムは、複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させる。
【0051】
【発明の実施の形態】
本発明の、共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行う、クラスタ構成化された情報処理システムの障害処理装置と方法は、通信先のノードがダウンした時でも、自ノードの動作を安全に継続する手段を提供することにある。
【0052】
具体的にはノード間で通信されるデータが、転送されてこないこと(以下タイムアウトと記載)を検出するタイマー手段、タイムアウトを検出した場合に、データを不正データを示すデータに差し替え自ノードのデータリード要求元に返却する手段、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段の3つの手段を併用することによりデータ受信側のノードにノードダウン等の悪影響を防止する。
【0053】
次に、本発明の実施の形態について図面を参照して説明する。
【0054】
図1は本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態を示すブロック図である。
【0055】
図1を参照すると、第1ノード10、第2のノード20、第3のノード30、第4ノード40という4個のノードとこの各ノード間を接続するクロスバスイッチ50から構成されている。
【0056】
図1のクラスタ構成をとる情報処理システムにおいて、システムの一部に障害が発生しても,システム全体がダウンすることなく稼動できるようにするために,第1のノード10から第4のノード40を組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる。また、クラスタ間の通信は各ノードの共有メモリ空間1n6−2(n=1,2,3,4)とクロスバスイッチ50を介し実現している。
【0057】
各ノード間の通信は、クラスタドライバー1n2(n=1,2,3,4)によりソフトウェア制御されている。
【0058】
第3のノード30のクラスタドライバー132(第1のノード10の場合はクラスタドライバー112)は、第1のノード10の共有メモリ空間116−2(第3のノード30の場合は共有メモリ空間136−2)をリードしデータ通信を実施する場合、まず第3のノード30のシステム制御部134が、リード要求を第1のノード10のシステム制御部114に伝えるとともに、自身のタイマー回路134−1(第1のノード10の場合はタイマー回路114−1)を起動する。第1のノード10が障害でノードダウンとなったときには、第1のノード10からデータが返却されず、タイマー回路134−1がタイムアウトを検出する。
【0059】
第3のノード30のシステム制御部134は、タイムアウト検出を契機としてデータ差し替え手段134−2(第1のノード10の場合はデータ差し替え手段114−2)を動かし、クラスタドライバー132に対し、全てのデータが“1”となったall“1”データを返却する。
【0060】
クラスタドライバー132は返却されたデータ(受信データ)をデータチェック機能132−1にてチェックし、データがall“1”であった場合には、受信データを破棄するとともに、第1のノード10がダウンしたと認識し、第1のノード10のダウン処理を実施する。
【0061】
これにより、データ受信側の第3のノード30は、データ送信側の第1のノード10のダウン等の障害の影響を受けずに、ノードの動作が継続可能となる。
【0062】
なお共有メモリ空間1n6−2への書き込みは、共有メモリ空間1n6−2を持ったノードn0(n=1,2,3,4)のみ許可、共有メモリ空間1n6−2からの読み出しは各ノードとも許可されている。なお、本実施の形態では各ノード間のインタフェースはメディアを電気、接続方式をクロスバスイッチ50としたが、メディアは光、電気、電波のいずれであってもよく、さらに、その接続方式もバス型、リング型、スター型、無線型のいずれであってもよいネットワーク構成とすることにできる。
【0063】
各ノードは、それぞれ独立して動作可能な情報処理装置、または、情報処理装置として必要な、プロセッサ、メモリ、入出力部を持った論理的な単位であるが、本実施の形態ではノードはプロセッサ、メモリ、入出力部を持ったセルと呼ばれるカードで構成されている。
【0064】
ここで、第1のノード10から第4のノード40は同一構成のため、以下は第1のノード10を用いて説明する。
【0065】
第1のノード10は、プログラム命令を解釈し実行することのできるマイクロプロセッサユニット(以後MPUと呼ぶ)MPU111(第3のノード30の場合はMPU131)と、自ノードのプログラム命令およびデータを格納する固有メモリ空間116−1と一部を他ノードからリード可能・ライト不可能な共有メモリ空間116−2として設定したメモリ部116(第3のノード30の場合は固有メモリ空間136−1と共有メモリ空間136−2とメモリ部136)と、このメモリ部116へのアクセスを制御しメモリ部116と接続されるメモリ制御部115(第3のノード30の場合はメモリ制御部135)と、第1のノード10が情報処理装置として動作する為に必要なLAN、ファイル装置、キーボード等の入出力デバイス(図示されてない)を配下に持ち、この配下のデバイスへのアクセスを制御するIO制御部113と、メモリ制御部115、IO制御部113(第3のノード30の場合はIO制御部133)と接続され、MPU111の命令によりメモリ制御部115、IO制御部113への動作要求を行い、かつ、クロスバスイッチ50と接続されるシステム制御部114と、MPU111とシステム制御部114とを接続するプロセッサバス117(第3のノード30の場合はプロセッサバス137)から構成される。
【0066】
システム制御部114には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路114−1、全てのビットが“1”固定値のデータ固定値(以後all“1”データと記載)を作成するデータ差し替え手段114−2が内蔵されている。
【0067】
各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバー1n2という専用ソフトウェアが動作しており、このクラスタドライバー1n2には、他ノードの共有メモリ空間1n6−2から読み出した受信データに対し、all“1”データであるか否かをチェックする機能1n2−1が備えられている。
【0068】
本発明の実施の形態には、装置のブートおよびシャットダウンに伴う電源制御を含めたサービス、障害発生時の障害情報の採取および障害ノードのシャットダウン、他ノードへの障害通知、障害後処理のサービスを行うサービスプロセッサという装置を付加し、各ノードが訂正不可能および訂正可能障害を検出した場合には、サービスプロセッサにも障害通知を行い、各ノードが、このサービスプロセッサとのインタフェースから他ノードの障害通知を受け取る構成を追加しても良い。
【0069】
次に、本発明の実施の形態の動作について、図1を参照して詳細に説明する。
【0070】
本実施の形態では、各ノードのメモリ部1n6を自ノードのプログラム命令およびデータを格納する固有メモリ空間1n6−1と一部を他ノードからリード可能・ライト不可能な共有メモリ空間1n6−2として設定し、この共有メモリ空間1n6−2をクラスタドライバー1n2がアクセスすることでノード間通信を実現している。
【0071】
なお本実施の形態では、第1のノード10に障害が発生し、このリード要求に対応するデータがクロスバスイッチ50および第3のノード30に返却されない状態であるとして説明する。
【0072】
第3のノード30のクラスタドライバー132は、第1のノード10の共有メモリ空間116−2をリードしデータ通信を実施する場合、第3のノード30のシステム制御部134は、リード要求を第1のノード10のシステム制御部114に伝えるとともに、自身のタイマー回路134−1を起動する。
【0073】
第1のノード10が障害でノードダウンとなったときには、第1のノード10からデータが返却されず、タイマー回路134−1がタイムアウトを検出する。
【0074】
第3のノード30のシステム制御部134は、タイムアウト検出を契機としてデータ差し替え手段134−2を動かし、クラスタドライバー132に対し、全てのビットが“1”となったall“1”データを返却する。
【0075】
クラスタドライバー132は返却されたデータをデータチェック機能132−1にてall“1”データであるかチェックし、データがall“1”であった場合には、受信データを破棄するとともに、第1のノード10がダウンしたと認識し、第1のノード10のダウン処理を実施する。
【0076】
おなじく、本発明の実施の形態の動作について、図2を参照して詳細に説明する。
【0077】
図2は本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態の動作を示すシーケンスチャートである。
【0078】
図2を参照すると、第3のノード30のクラスタドライバー132は第1のノード10の共有メモリ空間116−2に用意された通信エリアをリードする(図2の301)。
【0079】
クラスタドライバー132のリードは、MPU131から第1のノード10の共有メモリ空間116−2リード要求としてシステム制御部134に発行される。
【0080】
システム制御部134はリード要求が他ノードへの要求であることを認識し、このリード要求をクロスバスイッチ50に発行する(図2の302)。
【0081】
さらにシステム制御部134は、第1のノード10からデータが返却されないことを監視するタイマー回路134−1をスタートさせる(図2の303)。
【0082】
また、クロスバスイッチ50はこのリード要求が第1のノード10に対する要求であることを認識し、第1のノード10のシステム制御部114にリード要求を発行する(図2の304)。
【0083】
本来であればクロスバスイッチ50から要求を受けた第1のノード10のシステム制御部114はメモリ制御部115を介して共有メモリ空間116−2のリードを実行し、共有メモリ空間116−2から先のリード要求に従ったデータが読み出され、メモリ制御部115を経由しシステム制御部114に共有メモリ空間116−2から読み出されたデータが返却される。
【0084】
しかし、第1のノード10において障害が発生し、データが返却されない場合には、タイマー回路134−1がタイムアウトを検出し(図2の305)、データ差し替え手段134−2にタイムアウトを通知する。
【0085】
データ差し替え手段134−2は、クラスタドライバ132に対しあたかも第1のノード10からデータが返却されたかのようにall“1”データを渡す(図2の306)。このとき誤り制御を行い誤り訂正符号ECC(エラーコレクティングコード)を付加してもよい。
【0086】
データを受け取ったクラスタドライバ132は受け取ったデータがall“1”であるかを、データチェック機能132−1によりチェックする(図2の307)。
【0087】
データがall“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄(図2の308)と、第1のノード10が通信不可能な状態であることを認識し、以後第1のノード10にアクセスしないよう第1のノード10のノードダウン処理(図2の309)を実施する。
【0088】
これにより、データ受信側の第3のノード30は、データ送信側の第1のノード10のノードダウン等の障害の影響を受けずに、ノードの動作が継続可能となる。
【0089】
【発明の効果】
以上説明したように、本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法は、
第1の効果は、他ノードの障害の影響を自ノードに伝搬させないとことである。
【0090】
その理由は、他ノードから応答が無いときにall“1”というダミーデータへの差し替えを自ノードで行い、データが受信できないことによるシステム内の動作不正を防ぐとともに、他ノードのダウンをall“1”データによって知ることができるためである。
【図面の簡単な説明】
【図1】本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態を示すブロック図である。
【図2】本発明の共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法の一実施の形態の動作を示すシーケンスチャートである。
【符号の説明】
10 第1のノード
20 第2のノード
30 第3のノード
40 第4のノード
50 クロスバスイッチ
111,131 MPU
112,132 クラスタドライバー
113,133 IO制御部
114,134 システム制御部
114−1,134−1 タイマー回路
114−2,134−2 データ差し替え手段
115,135 メモリ制御部
116,136 メモリ部
116−1,136−1 固有メモリ空間
116−2,136−2 共有メモリ空間
117,137 プロセッサバス
Claims (36)
- 共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クロスバスイッチを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をクロスバスイッチに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、クロスバスイッチはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、クロスバスイッチから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 共有メモリを持し、ネットワークを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、ネットワークを介し共有メモリを使ったノード間通信を行い、クラスタ構成化された情報処理システムにおいて、ノード間で通信されるデータが、データ送信側のノードから転送されてこないことをタイムアウトにより検出するタイマー手段と、タイマー手段がタイムアウトを検出した場合に、データを不正データを示すデータに差し替えデータ受信側のノードのデータリード要求元に返却する手段と、および、ノード間通信により受信したデータが不正なデータであることをチェックする手段と、を備え、データ受信側のノードは、データ送信側のノードのノードダウンの障害の影響を受ずに動作を継続することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置。
- データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をネットワークに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、ネットワークはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、ネットワークから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施することを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となることを特徴とする共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理方法。
- データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する処理をコンピュータに実行させるためのプログラム。
- データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をクロスバスイッチに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、クロスバスイッチはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、クロスバスイッチから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する処理をコンピュータに実行させるためのプログラム。
- データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部は、リード要求をデータ送信側のシステム制御部に伝えるとともに、自身のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのビットが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にて全て“1”データであるかチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施する処理をコンピュータに実行させるためのプログラム。
- データ受信側のクラスタドライバーはデータ送信側の共有メモリ空間に用意された通信エリアをリードし、クラスタドライバーのリードは、マイクロプロセッサからデータ送信側の共有メモリ空間リード要求としてシステム制御部に発行し、システム制御部はリード要求が他ノードへの要求であることを認識し、リード要求をネットワークに発行し、システム制御部は、データ送信側からデータが返却されないことを監視するタイマー回路をスタートさせ、ネットワークはこのリード要求がデータ送信側に対する要求であることを認識し、データ送信側のシステム制御部にリード要求を発行し、ネットワークから要求を受けたデータ送信側のシステム制御部はメモリ制御部を介して共有メモリ空間のリードを実行し、共有メモリ空間から先のリード要求に従ったデータが読み出され、メモリ制御部を経由しシステム制御部に共有メモリ空間から読み出されたデータが返却される過程で、データ送信側において障害が発生し、データが返却されない場合には、タイマー回路がタイムアウトを検出し、データ差し替え手段にタイムアウトを通知し、データ差し替え手段は、クラスタドライバに対しあたかもデータ送信側からデータが返却されたかのように全て“1”データを渡し、データを受け取ったクラスタドライバは受け取ったデータが全て“1”であるかを、データチェック機能によりチェックし、データが全て“1”であった場合には、リードデータが破壊されており、使用できないと認識しデータの破棄と、データ送信側が通信不可能な状態であることを認識し、以後データ送信側にアクセスしないようデータ送信側のノードダウン処理を実施する処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、クロスバスイッチと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するクロスバスイッチから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とクロスバスイッチを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、メモリ部の一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、メモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、各ノードにはノード間通信および他のノードの状態を管理するクラスタドライバーという専用ソフトウェアが動作しており、クラスタドライバーは、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、各ノードは、プログラム命令を解釈し実行することのできるマイクロプロセッサユニットと、プログラム命令およびデータを格納するメモリ部と、このメモリ部へのアクセスを制御しメモリ部と接続されるメモリ制御部と、入出力デバイスを配下に持ち、配下のデバイスへのアクセスを制御するIO制御部と、メモリ制御部、IO制御部と接続され、マイクロプロセッサユニットの命令によりメモリ制御部、IO制御部への動作要求を行い、かつ、ネットワークと接続されるシステム制御部と、マイクロプロセッサユニットとシステム制御部とを接続するプロセッサバスから構成され、システム制御部には、他ノードからデータが転送されてこないことのタイムアウトを監視するタイマー回路、全てのビットが“1”固定値のデータ固定値を作成するデータ差し替え手段が内蔵し、メモリ部には、自ノードのプログラム命令およびデータを格納する固有メモリ空間と一部を他ノードからリード可能・ライト不可能な共有メモリ空間として設定し、共有メモリ空間をクラスタドライバーがアクセスすることでノード間通信を行い、クラスタドライバーはソフトウェアで動作し、ノード間通信および他のノードの状態を管理し、他ノードの共有メモリ空間から読み出した受信データに対し、全て“1”データであるか否かをチェックする機能を備え、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
- 複数のノードとこれらの各ノード間を接続するネットワークから構成し、これら複数のノードを組み合わせて,1つのシステムとして扱うようにしたクラスタ構成を組んでいる情報処理システムにおいて、書き込みは、自ノードのみ許可、読み出しは各ノードとも許可されている共有メモリを持し、クラスタ間の通信は各ノードの共有メモリ空間とネットワークを介し行い、各ノード間の通信は、クラスタドライバーによりソフトウェア制御し、データ受信側のクラスタドライバーは、データ送信側の共有メモリ空間をリードしデータ通信を実施する場合、データ受信側のシステム制御部が、リード要求をデータ送信側のシステム制御部に伝えるとともに、データ受信側のタイマー回路を起動し、データ送信側が障害でノードダウンとなったとき、データ送信側からデータが返却されず、タイマー回路がタイムアウトを検出し、データ受信側のシステム制御部は、タイムアウト検出を契機としてデータ差し替え手段を動かし、クラスタドライバーに対し、全てのデータが“1”となった全て“1”データを返却し、クラスタドライバーは返却されたデータをデータチェック機能にてチェックし、データが全て“1”であった場合には、受信データを破棄するとともに、データ送信側がダウンしたと認識し、データ送信側のダウン処理を実施し、データ受信側は、データ送信側のダウンの障害の影響を受けずに、ノードの動作が継続可能となる処理をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002169024A JP2004013723A (ja) | 2002-06-10 | 2002-06-10 | 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002169024A JP2004013723A (ja) | 2002-06-10 | 2002-06-10 | 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004013723A true JP2004013723A (ja) | 2004-01-15 |
Family
ID=30435775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002169024A Pending JP2004013723A (ja) | 2002-06-10 | 2002-06-10 | 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004013723A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007096987A1 (ja) * | 2006-02-24 | 2007-08-30 | Fujitsu Limited | エラー制御装置 |
JP2007233777A (ja) * | 2006-03-02 | 2007-09-13 | Nec Corp | マルチノードコンピュータシステム、統合サービスプロセッサ及びそれらに用いる多重化制御方法 |
JP2010186365A (ja) * | 2009-02-13 | 2010-08-26 | Nec Corp | マルチノードコンピュータシステム及びノード間接続装置 |
EP2610748A1 (en) | 2011-12-28 | 2013-07-03 | Fujitsu Limited | Information processing apparatus, control program, and control method |
JP2014197402A (ja) * | 2014-05-26 | 2014-10-16 | 富士通株式会社 | 情報処理装置、制御方法および制御プログラム |
-
2002
- 2002-06-10 JP JP2002169024A patent/JP2004013723A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007096987A1 (ja) * | 2006-02-24 | 2007-08-30 | Fujitsu Limited | エラー制御装置 |
JPWO2007096987A1 (ja) * | 2006-02-24 | 2009-07-09 | 富士通株式会社 | エラー制御装置 |
KR100995621B1 (ko) | 2006-02-24 | 2010-11-22 | 후지쯔 가부시끼가이샤 | 에러 제어 장치 |
US8264948B2 (en) | 2006-02-24 | 2012-09-11 | Fujitsu Limited | Interconnection device |
JP2007233777A (ja) * | 2006-03-02 | 2007-09-13 | Nec Corp | マルチノードコンピュータシステム、統合サービスプロセッサ及びそれらに用いる多重化制御方法 |
JP2010186365A (ja) * | 2009-02-13 | 2010-08-26 | Nec Corp | マルチノードコンピュータシステム及びノード間接続装置 |
EP2610748A1 (en) | 2011-12-28 | 2013-07-03 | Fujitsu Limited | Information processing apparatus, control program, and control method |
JP2013140445A (ja) * | 2011-12-28 | 2013-07-18 | Fujitsu Ltd | 情報処理装置、制御方法および制御プログラム |
US9065706B2 (en) | 2011-12-28 | 2015-06-23 | Fujitsu Limited | Information processing apparatus, computer-readable recording medium, and control method |
JP2014197402A (ja) * | 2014-05-26 | 2014-10-16 | 富士通株式会社 | 情報処理装置、制御方法および制御プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7685476B2 (en) | Early notification of error via software interrupt and shared memory write | |
US7774638B1 (en) | Uncorrectable data error containment systems and methods | |
JP6098778B2 (ja) | 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム | |
JP2006195821A (ja) | 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム | |
JPH086910A (ja) | クラスタ型計算機システム | |
JP2006039897A (ja) | マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム | |
JP4218538B2 (ja) | コンピュータシステム、バスコントローラ及びそれらに用いるバス障害処理方法 | |
JP2004013723A (ja) | 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 | |
JP6134720B2 (ja) | 接続方法 | |
JP3434735B2 (ja) | 情報処理システム及びそれに用いる障害処理方式 | |
US7243257B2 (en) | Computer system for preventing inter-node fault propagation | |
JP4572138B2 (ja) | サーバ装置、サーバシステム、及びサーバシステムでの系切り換え方法 | |
US8264948B2 (en) | Interconnection device | |
US7526544B2 (en) | Message tracking method, apparatus, and system | |
JP5145860B2 (ja) | メモリ二重化システム及び情報処理装置 | |
JPH06325008A (ja) | リセット機能を備えるコンピュータシステム | |
JP2004348335A (ja) | 障害検出方法及び情報処理システム | |
JPH0934852A (ja) | クラスタシステム | |
JP2002373084A (ja) | 二重化システムの状態交換・障害検出兼用方法 | |
JP2005208972A (ja) | コンピュータ装置及びシステム | |
JPH05224964A (ja) | バス異常通知方式 | |
JP2706027B2 (ja) | プログラマブルコントローラ | |
JPH03111962A (ja) | マルチプロセッサ・システム | |
JPH10275090A (ja) | 基本処理装置の二重化方式 | |
JPH05175980A (ja) | 系間交絡通信制御方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050426 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050906 |