JP2001007893A

JP2001007893A - 情報処理システム及びそれに用いる障害処理方式

Info

Publication number: JP2001007893A
Application number: JP11176166A
Authority: JP
Inventors: Mutsuo Shindo; 睦雄進藤
Original assignee: NEC Computertechno Ltd
Current assignee: NEC Computertechno Ltd
Priority date: 1999-06-23
Filing date: 1999-06-23
Publication date: 2001-01-12
Anticipated expiration: 2019-06-23
Also published as: JP3434735B2

Abstract

(57)【要約】【課題】自ノードの障害を他ノードに伝搬させること
なく、自ノードの障害に起因する他ノードでのデータ破
壊等の不正動作を防止し、高信頼クラスタ・システムを
構築可能な情報処理システムを提供する。【解決手段】システム制御部１４の拡張ＥＣＣ回路１
４ａはＥＣＣによる１ビットエラー検出、１ビットエラ
ー訂正、２ビットエラー検出、及び２ビットエラー検出
時に他のノード２〜４への転送データを“０”固定値＋
ＥＣＣに置換える等の各機能を持つ。クラスタ・ドライ
バ１７，３１のサム付加機能１７ａ，３１ａは自ノード
の共有メモリに書込んで他のノードへ送出する送出デー
タに必ずデータチェック用のサム算出及びサムを付加
し、サムチェック機能１７ｂ，３１ｂは他のノードの共
有メモリから読出した受信データに対して必ずデータチ
ェック用のサムをチェックする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報処理システム及
びそれに用いる障害処理方式に関し、特にクロスバ・ス
イッチを介して共有メモリによるノード間通信を行うク
ラスタ構成化された情報処理システムの障害処理方式に
関する。

【０００２】

【従来の技術】従来、この種の情報処理システムにおい
ては、システムの一部に障害が発生してもシステム全体
がダウンすることなく稼動できるようにするために、複
数台のシステムを組合せて１つのシステムとして扱うよ
うにしている。このクラスタ・システムではシステムの
冗長性を上げて耐障害性を向上させたり、全体的なパフ
ォーマンスを向上させることができる。

【０００３】クラスタ・システムでは情報処理装置とい
う大きな単位で多重化し、それぞれのシステムでは独立
したプロセスを動作させることが多い。障害が発生した
場合にはそのノードのみを切離し、実行中のプロセスや
トランザクション等は他のノード上で再度実行させる
か、もしくは継続実行させることになる。

【０００４】このようなクラスタを構築する最大の目的
は、何よりも信頼性が求められるシステムにおいて、万
一何らかの問題が発生した場合でも、問題を起こしたサ
ーバに代わってクラスタ内の他のサーバ（ノードと呼ば
れる）で処理を続行できるようにすることである。

【０００５】また、従来の情報処理装置において、上記
のようなクラスタ構成は１つのノードを１台の情報処理
装置で構成し、またノード間の通信路はイーサネットに
代表される通信ネットワークによって構成されている。

【０００６】しかしながら、近年、分散共有メモリ型の
情報処理装置を論理的に分割し、１つのノードをプロセ
ッサ、メモリ、ＩＯ（入出力）装置からなる論理的分散
ノードとノード間の通信路とを分散共有メモリネットワ
ークで構成し、ノード間の通信を超高速に行うタイプの
クラスタ・システムも存在する。

【０００７】ここで、この分散共有メモリ型システムと
は各ノードのメモリ領域をネットワーク接続で、他のノ
ードからもアクセス可能とした方式である。この方式に
よると、分散共有メモリへのアクセス・データはほとん
ど瞬時に他ノードに転送されるため、分散処理の高速
化、リアルタイム応答性を確保しやすい利点がある。

【０００８】この種の分散共有メモリ型システムとして
は、例えば特開平８−３１４８７５号公報に記載された
情報処理装置があり、この情報処理装置では分散共有メ
モリを分散共有メモリ・ネットワークで接続している。

【０００９】図５は従来の情報処理システムの構成を示
すブロック図である。この図５において、６ａ〜６ｄは
当該システムを形成するコントローラまたは計算機等に
よる分散ノードで、８ａ〜８ｄはＣＰＵ、７ａ〜７ｄは
主メモリ、９ａ〜９ｄは分散共有メモリである。各分散
ノード６ａ〜６ｄはこれらＣＰＵ８ａ〜８ｄ、主メモリ
７ａ〜７ｄ、分散共有メモリ９ａ〜９ｄにて構成されて
いる。

【００１０】また、９１ａ〜９１ｄは各分散ノード６ａ
〜６ｄで共有利用される分散共有メモリ９ａ〜９ｄ上の
共有データであり、９２ａ〜９２ｄは分散システム管理
データが格納された分散共有メモリ９ａ〜９ｄ上の状態
監視テーブルである。

【００１１】さらに、ＣＰＵ８ａ内において、８１ａ，
８２ａ，８３ａは当該ＣＰＵ８ａの複数のアプリケーシ
ョンタスクであり、８４ａはこれら各アプリケーション
タスク８１ａ，８２ａ，８３ａの実行を制御するタスク
実行制御部であり、８５ａは自ノードの状態を状態監視
テーブル９２ａに記録するとともに、状態監視テーブル
９２ａを参照して他の分散ノード６ｂ〜６ｄの異常を検
出する状態監視部、８６ａは他の分散ノード６ｂ〜６ｄ
に故障が検出された場合に必要なアプリケーションタス
ク８１ａ，８２ａ，８３ａの処理をタスク実行制御部８
４ａに依頼する故障対処部である。尚、他の分散ノード
６ｂ〜６ｄのＣＰＵ８ｂ〜８ｄ内もＣＰＵ８ａと同様の
構成となっている。

【００１２】また、３００はこれら各分散ノード６ａ〜
６ｄの分散共有メモリ９ａ〜９ｄを直接接続している分
散共有メモリネットワークであり、各分散ノード６ａ〜
６ｄの分散共有メモリ９ａ〜９ｄの内容変更はこの分散
共有メモリネットワーク３００を介して各分散ノード６
ａ〜６ｄの動作とは独立に、各分散ノード６ａ〜６ｄの
分散共有メモリ９ａ〜９ｄに通信されてそのメモリ内容
が反映される。

【００１３】次に、上記の情報処理システムの動作につ
いて説明する。ここで、各分散ノード６ａ〜６ｄは互い
に対等であり、符号を読み替えるだけで全く同様に動作
するものであるため、以下分散ノード６ａにおける動作
について説明し、他の分散ノード６ｂ〜６ｄの動作につ
いてはその説明を省略する。

【００１４】今、分散ノード６ａのＣＰＵ８ａが分散共
有メモリ９ａに書込みを行うと、そのアドレス及び内容
が分散共有メモリネットワーク３００を介して他の分散
ノード６ｂ〜６ｄの分散共有メモリ９ｂ〜９ｄに転送さ
れ、同じアドレスに同じ内容が書込まれる。すなわち、
各分散ノード６ａ〜６ｄの分散共有メモリ９ａ〜９ｄは
通信遅延を除いて等価である。

【００１５】ＣＰＵ８ａは複数のアプリケーションタス
ク８１ａ，８２ａ，８３ａを実行し、各アプリケーショ
ンタスク８１ａ，８２ａ，８３ａの実行処理は主メモリ
７ａ上にある局所データ及び分散共有メモリ９ａ上の共
有データ９１ａをアクセスして進める。尚、どのアプリ
ケーションタスク８１ａ，８２ａ，８３ａを実行するか
はタスク実行制御部８４ａが制御している。

【００１６】

【発明が解決しようとする課題】上述した従来の情報処
理システムでは、分散共有メモリネットワークのように
ノード間が密に結合した構成の場合、あるノードにて訂
正不可能障害が発生すると、結合が密であるがゆえ、訂
正不可能障害を検出したデータがそのまま別のノードに
流れてしまい、この訂正不可能障害を複数または全部の
ノードで検出してしまうため、複数のノードに障害が伝
搬し、結果として高信頼システムにならない。

【００１７】また、あるデータがあるノードの分散共有
メモリに書込まれると、そのアドレス及び内容が分散共
有メモリネットワークを介して他のノードに瞬時に書込
まれる構成であるため、本来の処理系統とは別に準備さ
れた障害検出及び通知系統からの通知との間に時間差が
生まれ、あるノードが障害通知を受けた時点で、すでに
障害データを使い終わってしまう可能性がある。よっ
て、最悪データ破壊等が発生する可能性がある。

【００１８】そこで、本発明の目的は上記の問題点を解
消し、自ノードの障害を他ノードに伝搬させることな
く、自ノードの障害に起因する他ノードでのデータ破壊
等の不正動作を防止することができ、ノード間の高速通
信を維持したまま高信頼クラスタ・システムを構築する
ことができる情報処理システム及びそれに用いる障害処
理方式を提供することにある。

【００１９】

【課題を解決するための手段】本発明による情報処理シ
ステムは、共有メモリを用いて複数のノード間の通信を
行うクラスタ構成の情報処理システムであって、前記複
数のノード間で通信されるデータに訂正不可能な障害が
発生した時に当該障害データのデータ受取り側のノード
への伝搬を抑止する手段と、前記複数のノード間の通信
で受信したデータが不正なデータであることをチェック
する手段とを前記複数のノード各々に備えている。

【００２０】本発明による他の情報処理システムは、ク
ロスバ・スイッチを介して共有メモリによる複数のノー
ド間の通信を、自ノードの共有メモリに通信データを書
込みかつその通信データを他のノードが当該共有メモリ
から読出すことで行うクラスタ構成化された情報処理シ
ステムであって、前記複数のノード間で通信されるデー
タに訂正不可能な障害が発生した時に当該障害データの
データ受取り側のノードへの伝搬を抑止する手段と、前
記複数のノード間の通信によって受信したデータが不正
なデータであることをチェックする手段とを前記複数の
ノード各々に備えている。

【００２１】本発明による情報処理システムの障害処理
方式は、共有メモリを用いて複数のノード間の通信を行
うクラスタ構成の情報処理システムの障害処理方式であ
って、前記複数のノード各々において、前記複数のノー
ド間で通信されるデータに訂正不可能な障害が発生した
時に当該障害データのデータ受取り側のノードへの伝搬
を抑止し、前記複数のノード間の通信で受信したデータ
が不正なデータであることをチェックするようにしてい
る。

【００２２】本発明による他の情報処理システムの障害
処理方式は、クロスバ・スイッチを介して共有メモリに
よる複数のノード間の通信を、自ノードの共有メモリに
通信データを書込みかつその通信データを他のノードが
当該共有メモリから読出すことで行うクラスタ構成化さ
れた情報処理システムの障害処理方式であって、前記複
数のノード各々において、前記複数のノード間で通信さ
れるデータがデータ送信側において訂正不可能な障害が
発生した時に当該障害データのデータ受取り側のノード
への伝搬を抑止し、前記複数のノード間の通信によって
受信したデータが不正なデータであることをチェックす
るようにしている。

【００２３】すなわち、本発明の情報処理システムは、
クロスバ・スイッチを介して共有メモリによるノード間
通信を行うクラスタ構成化されたシステムであり、ノー
ド間で通信されるデータがデータ送信側において訂正不
可能な障害が発生した場合でも、データ受取り側のノー
ドに対して障害データを伝搬させない手段、及びノード
間通信によって受信したデータが不正なデータであるこ
とをチェックする手段の２つの手段を併用することによ
ってデータ受取り側のノードにノードダウン等の悪影響
と不正データによるデータ破壊等の不正動作とを防止可
能としている。

【００２４】具体的に、本発明のクラスタ構成をとる情
報処理システムにおいては、各ノード間の通信をクラス
タ・ドライバというソフトウェアによって制御してい
る。例えば、第１のノードと第３のノードとの間の通信
は第１のクラスタ・ドライバが自ノードの共有メモリに
通信データを書込み、その通信データを第３のノードの
クラスタ・ドライバが第１のノードの共有メモリを読出
すことで、または第３のクラスタ・ドライバが自ノード
の共有メモリに通信データを書込み、その通信データを
第１のノードのクラスタ・ドライバが第３のノードの共
有メモリを読出すことで実現している。

【００２５】尚、クロスバ・スイッチで接続された共有
メモリを使ったノード間通信はイーサーネットのような
ネットワークを使ったノード間通信に比べ、通信速度が
桁違いに早いという特徴も合わせ持っている。

【００２６】第１のノードから第３のノードへ通信デー
タを送る場合、第３のノードのクラスタドライバが第１
のノードの共有メモリ領域のリード要求を発行し、第１
のノードのメモリ制御部がメモリ中の共有メモリ領域か
らデータを読出す。この第１のノード内部では読出しデ
ータにＥＣＣ（Ｅｒｒｏｒ−ＣｏｒｒｅｃｔｉｎｇＣｏ
ｄｅ）で訂正不可能な２ビットエラーが検出された時、
この訂正不可能なエラーを検出した第１のノードは第３
のノードにリード要求のあったデータのうちの２ビット
エラーを検出した時点から残りの全データを、２ビット
エラー状態でない固定値（例えば、ＥＣＣ以外のビット
が“０”であるデータ）を返却する。

【００２７】これによって、訂正不可能な２ビットエラ
ーを持ったデータが、他のノードに伝搬されるのを防止
することが可能となり、結果として障害が他のノードに
伝搬するのを防止可能となる。

【００２８】しかしながら、第３のノードから見れば、
第１のノードから化けたデータが返却されたことにな
り、第３のノードがこのデータを使って処理を進める
と、データ破壊等の新たな障害につながってしまう。

【００２９】そこで、クラスタ間の通信を制御するクラ
スタ・ドライバは自ノードの共有メモリに通信データを
書込む時にチェックサムデータを必ず付加し、他のノー
ドの共有メモリから通信データを読出す場合にチェック
サムによるデータの誤りを必ず検出している。

【００３０】つまり、第１のノードから第３のノードに
通信データを送る場合、第１のノードのクラスタ・ドラ
イバが送るべき通信データを自ノードの共有メモリに書
込む時にチェックサムデータを算出し、書込みデータに
付加する。

【００３１】第３のノードのクラスタ・ドライバは受取
るべき通信データを第１のノードの共有メモリから読出
し、さらにチェックサムによるデータの正当制を確認す
る。このデータの正当制の確認時点で、２ビットエラー
の無い任意の固定値を返却されたノードではクラスタ・
ドライバがチェックサムエラーを検出し、第１のノード
に異常が発生したこと、また受取ったデータが無効であ
ることを検出することが可能となり、不正データを使用
したデータ破壊等が防止可能となる。

【００３２】

【発明の実施の形態】次に、本発明の一実施例について
図面を参照して説明する。図１は本発明の一実施例によ
る情報処理システムの構成を示すブロック図である。図
１において、本発明の一実施例による情報処理システム
は第１のノード１、第２のノード２、第３のノード３、
第４のノード４という４個のノードと、これら各ノード
１〜４間を接続するクロスバ・スイッチ５とから構成さ
れている。

【００３３】本発明の一実施例による情報処理システム
ではシステムの一部に障害が発生しても、システム全体
がダウンすることなく稼動できるようにするために、第
１のノード１と第２のノード２と第３のノード３と第４
のノード４とを組合せて、１つのシステムとして扱うよ
うにしたクラスタ構成を組んでいる。

【００３４】また、クラスタ間の通信は各ノード１〜４
の共有メモリ（メモリ部１６の共有メモリ空間１６ｂ）
とクロスバ・スイッチ５とを介して実現している。尚、
共有メモリへの書込みは共有メモリを持ったノードのみ
許可、共有メモリからの読出しは各ノードとも許可され
ている。

【００３５】さらに、本発明の一実施例による情報処理
システムでは各ノード１〜４間のインタフェースはメデ
ィアを電気、接続方式をクロスバ・スイッチとしたが、
メディアは光、電気、電波のいずれであってもよく、そ
の接続方式もバス型、リング型、スター型、無線型のい
ずれであってもよい。

【００３６】各ノード１〜４はそれぞれ独立して動作可
能な情報処理装置、または情報処理装置として必要なプ
ロセッサ、メモリ、入出力部を持った論理的な単位であ
るが、本発明の一実施例による情報処理システムではノ
ードがプロセッサ、メモリ、入出力部を持ったセルと呼
ばれるカードで構成されている。ここで、第１のノード
１と第２のノード２と第３のノード３と第４のノード４
とはそれぞれ同一構成となっており（第１のノード１の
詳細構成のみ図示）、以下第１のノード１を例に挙げて
説明する。

【００３７】第１のノード１は複数のＭＰＵ（マイクロ
・プロセッサ・ユニット）１１−１〜１１−ｎと、ＩＯ
（入出力）制御部１３と、システム制御部１４と、メモ
リ制御部１５と、メモリ部１６と、プロセッサバス１１
０とから構成されている。

【００３８】複数のＭＰＵ１１−１〜１１−ｎはプログ
ラム命令を解釈して実行する。ＩＯ制御部１３は第１の
ノード１が情報処理装置として動作するために必要なＬ
ＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ファ
イル装置、キーボード等の入出力デバイスを配下に持
ち、この配下のデバイスへのアクセスを制御する。

【００３９】システム制御部１４はメモリ制御部１５及
びＩＯ制御部１３にＥＣＣを持ったインタフェースで接
続され、各ＭＰＵ１１−１〜１１−ｎの命令によってメ
モリ制御部１５及びＩＯ制御部１３への動作要求を行
い、かつクロスバ・スイッチ５にＥＣＣを持ったインタ
フェースで接続される。

【００４０】メモリ制御部１５はメモリ部１６へのアク
セスを制御し、メモリ部１６にＥＣＣ（Ｅｒｒｏｒ−Ｃ
ｏｒｒｅｃｔｉｎｇＣｏｄｅ）を持ったインタフェー
スで接続される。メモリ部１６は固有メモリ空間１６ａ
と共有メモリ空間１６ｂとからなり、ＥＣＣが付加され
データの１ビットエラーを訂正することが可能なプログ
ラム命令及びデータを格納する。プロセッサバス１１０
はＥＣＣを持ち、各ＭＰＵ１１−１〜１１−ｎとシステ
ム制御部１４とを接続する。

【００４１】システム制御部１４にはＥＣＣによる１ビ
ットエラー検出、１ビットエラー訂正、２ビットエラー
検出、及び２ビットエラー検出時に他のノード２〜４へ
の転送データを“０”固定値＋ＥＣＣに置換える等の各
機能を持つ拡張ＥＣＣ回路１４ａが内蔵されている。

【００４２】また、ＩＯ制御部１３、メモリ制御部１
５、クロスバ・スイッチ５もＥＣＣによる１ビットエラ
ー検出、１ビットエラー訂正、２ビットエラー検出の機
能を持つＥＣＣ回路（図示せず）が内蔵されている。

【００４３】ここで、本実施例では固定値を“０”＋Ｅ
ＣＣとしたが、ＥＣＣによって２ビットエラーが検出さ
れない限り、この固定値はどんな値でも良い。尚、第１
のノード１及び第３のノード３にはノード間通信及び他
のノードの状態を管理するクラスタ・ドライバという専
用ソフトウェア１７，３１が動作している。また、図示
していないが、第２のノード２及び第４のノード４にも
専用ソフトウェアが動作している。

【００４４】このクラスタ・ドライバ１７，３１には自
ノードの共有メモリに書込んで他のノードへ送出する送
出データに対して必ずデータチェック用のサム算出とサ
ムの付加とを行うサム付加機能１７ａ，３１ａと、他の
ノードの共有メモリから読出した受信データに対して必
ずデータチェック用のサムをチェックするサムチェック
機能１７ｂ，３１ｂの２つの機能が備えられている。

【００４５】本発明の一実施例による情報処理システム
には装置のブート及びシャットダウンに伴う電源制御を
含めたサービス、障害発生時の障害情報の採取及び障害
ノードのシャットダウン、他のノードへの障害通知、障
害後処理のサービスを行うサービスプロセッサという装
置を付加し、各ノードが訂正不可能及び訂正可能障害を
検出した場合にサービスプロセッサにも障害通知を行
い、各ノードがこのサービスプロセッサとのインタフェ
ースから他のノードの障害通知を受取る構成を追加して
もよい。

【００４６】また、拡張ＥＣＣ回路１４ａをクロスバ・
スイッチ５の各ノード１〜４間インタフェース部分に持
たせ、各ノード１〜４とクロスバ・スイッチインタフェ
ース上で発生した訂正不可能障害も他のノードに伝搬し
ないよう構成してもよい。

【００４７】さらに、ノード間通信データのサム作成、
サムチェックを行う専用回路を各ノード１〜４のシステ
ム制御部１４（ノード２〜４のシステム制御部は図示せ
ず）に設け、クラスタ・ドライバ１７，３１の処理負荷
を減らすという構成をとってもよい。

【００４８】図２は図１の拡張ＥＣＣ回路１４ａの構成
例を示すブロック図である。図２において、拡張ＥＣＣ
回路１４ａはＥＣＣ付きデータの入力レジスタ２０と、
ＥＣＣエラー検出回路２１と、ＣＲＣＴ回路２２と、エ
ラー保持レジスタ２３と、オアゲート２４と、アンドゲ
ート２５と、セレクタ２６とから構成されている。

【００４９】ＥＣＣエラー検出回路２１は入力レジスタ
２０からの出力を受け、１ビット及び２ビットエラーを
検出し、それぞれのエラー検出信号を出力する。ＣＲＣ
Ｔ回路２２は入力レジスタ２０からの出力を受け、１ビ
ットエラーがあった場合にエラー訂正データを生成す
る。

【００５０】エラー保持レジスタ２３はＥＣＣエラー検
出回路２１が２ビットエラーを検出したことを通知する
２ビットエラー信号２０１とクロックの立下りとによっ
てセットされ、データ転送要求の完了によってリセット
される。

【００５１】オアゲート２４は２ビットエラー信号２０
１とエラー保持レジスタ２３の２値とを入力し、２ビッ
トエラーを示す値を出力する。アンドゲート２５は送出
先が他ノード／自ノードかを示す信号を図示せぬデータ
転送先判断回路から受けるノード通知信号２０２及び２
ビットエラーを示すオアゲート２４の出力の２値とを入
力し、セレクタ２６に信号を出力する。

【００５２】セレクタ２６はアンドゲート２５の出力を
受け、拡張ＥＣＣ回路１４ａの出力データをＥＣＣ以外
のビットが“０”であるデータとするか、ＣＲＣＴ回路
２２の出力とするかを選択する。

【００５３】ここで、本実施例では２ビットエラー検出
時に、エラーデータを任意の固定値に変更するのはデー
タの送り先が他のノードであるか否かをノード通知信号
２０２とアンドゲート２５とから判断するよう構成して
いるが、全ての２ビットエラーデータについて、任意の
固定値へのデータ差し替えを実施するよう構成してもよ
い。その場合、本実施例のノード通知信号２０２とアン
ドゲート２５とが不要になる。

【００５４】図３は本発明の一実施例による情報処理シ
ステムの動作を示すタイミングチャートであり、図４は
図２に示す拡張ＥＣＣ回路１４ａの動作を示すタイミン
グチャートである。これら図１〜図４を参照して本発明
の一実施例による情報処理システムの動作について説明
する。

【００５５】本発明の一実施例による情報処理システム
では各ノード１〜４のメモリ部１６の一部を他のノード
からリード可能・ライト不可能な共有メモリ空間１６ｂ
として設定し、この共有メモリ空間１６ｂをクラスタ・
ドライバ１７，３１がアクセスすることでノード間通信
を実現している。

【００５６】ここでは第３のノード３が第１のノード１
と通信する場合について、特に第３のノード３が第１の
ノード１の共有メモリ空間１６ｂのデータをリードした
場合について説明する。

【００５７】図３を参照すると、第３のノードのクラス
タ・ドライバ３１は第１のノード１の共有メモリ空間１
６ｂに用意された通信エリアをリードする（図３の４１
参照）。クラスタ・ドライバ３１によるリードはＭＰＵ
（図示せず）から第１のノード１の共有メモリ空間１６
ｂへのリード要求としてシステム制御部（図示せず）に
発行される。

【００５８】システム制御部はリード要求が他のノード
（この場合、第１のノード１）への要求であることを認
識し、そのリード要求をクロスバ・スイッチ５に発行す
る（図３の４２参照）。

【００５９】また、クロスバ・スイッチ５はこのリード
要求が第１のノード１に対する要求であることを認識
し、第１のノード１のシステム制御部１４にリード要求
を発行する（図３の４３参照）。

【００６０】クロスバ・スイッチ５からリード要求を受
けた第１のノード１のシステム制御部１４はメモリ制御
部１５を介して共有メモリ空間１６ｂのリードを実行す
る（図３の４４，４５参照）。

【００６１】メモリ部１６からは上記のリード要求にし
たがったデータが読出され（図３の４６参照）、メモリ
制御部１５を経由してシステム制御部１４に共有メモリ
空間１６ｂから読出されたデータが返却される（図３の
４７参照）。尚、本実施例ではメモリ部１６から読出さ
れたデータが訂正不可能な２ビットエラー状態であると
して説明する。

【００６２】システム制御部１４は共有メモリ空間１６
ｂのリードデータを受取りつつ、ＥＣＣによるデータエ
ラーをチェックするが、このチェックで２ビットエラー
を検出する（図３の４８参照）。

【００６３】システム制御部１４は２ビットエラー検出
時にエラーを持ったデータが他のノードへ返却すべきデ
ータであることも合わせて認識し、クロスバ・スイッチ
５に対して返却するデータを２ビットエラーを検出した
時点から、返却データを２ビットエラーを訂正した
“０”固定値＋ＥＣＣに差し替えてクロスバ・スイッチ
５に返却する。

【００６４】尚、この時、第１のノード１では障害通知
信号線（図示せず）を使って障害時の装置内部（図示せ
ず）の情報を採取したり、障害発生時の後処理を行うサ
ービスプロセッサに障害を通知している。

【００６５】２ビットエラーを訂正して“０”固定値＋
ＥＣＣに差し替えられたデータは、クロスバ・スイッチ
５を経由し（図３の４９参照）、第３のノード３のシス
テム制御部を経由してＭＰＵに返却される（図３の５０
参照）。

【００６６】ここで、先の第３のノード３のクラスタ・
ドライバ３１からの通信エリアへのリード要求が完了す
る。この通信エリアへのリード要求の完了を受け、クラ
スタ・ドライバ３１はリードしたデータをサムによるチ
ェックする（図３の５１参照）。

【００６７】このチェックではデータの途中が“０”に
変えられているため、サムの不一致が発生し、クラスタ
・ドライバ３１は第１のノード１にて障害が発生して受
取ったデータが無効であること、以後、第１のノード１
へのアクセスを実施しないようノードダウンの処理が必
要であることに気がつく。そこで、クラスタ・ドライバ
３１はリードデータを破棄し（図３の５２参照）、第１
のノード１のダウン処理を行う（図３の５１参照）。

【００６８】次に、第１のノード１のシステム制御部１
４がＥＣＣによるデータエラーをチェックする動作につ
いて図２及び図４を参照して説明する。図４を参照する
と、入力レジスタ２０が２ビットエラーを含んだデータ
をデータ送出元の制御部（本ケースではメモリ制御部１
５）から受取り、時刻Ｔ０においてクロックの立下りと
共に入力レジスタ２０に格納する。同時に、ＥＣＣエラ
ー検出回路２１とＣＲＣＴ回路２２と２ビットエラーを
含んだデータの出力を開始する。

【００６９】また、入力レジスタ２０が格納したデータ
はクロスバ・スイッチ５経由で他のノードに送出される
ため、ノード通知信号２０２は他のノードを示す“１”
の値となっている。

【００７０】時刻Ｔ１において、ＥＣＣエラー検出回路
２１が２ビットエラーを検出し、２ビットエラー検出信
号２０１に２ビットエラーを示す“１”を出力する。こ
の時、ノード通知信号２０２は他のノードを示す“１”
であるから、オアゲート２４の出力と、アンドゲート２
５の出力も“１”となり、セレクタ２６に対して拡張Ｅ
ＣＣ回路１４ａの出力データを“０”＋ＥＣＣであるデ
ータを出力するよう通知する。

【００７１】時刻Ｔ２において、セレクタ２６は“０”
＋ＥＣＣであるデータを出力として選択し、次のデータ
が入力レジスタ２０に取込まれる時刻Ｔ３まで、この
“０”＋ＥＣＣデータを拡張ＥＣＣ回路１４ａの出力デ
ータとして出力し続ける。

【００７２】時刻Ｔ３において、エラー保持レジスタ２
３は２ビットエラー検出信号２０１の出力する値“１”
を保持し、以後、データ転送要求の完了まで“１”を出
力し続ける。これによって、オアゲート２４の出力及び
アンドゲート２５の出力が“１”となり、セレクタ２６
は拡張ＥＣＣ回路１４ａの出力データを“０”＋ＥＣＣ
とし、データ転送要求の完了まで出力する。

【００７３】このように、自ノードの訂正不可能な２ビ
ットエラーデータを、ＥＣＣを合わせたデータ部分が
“０”のデータに置換えることによって、２ビットエラ
ーを消去することができるので、自ノードの障害を他の
ノードに伝搬させないことができる。

【００７４】また、ノード間通信データにデータの正当
性を確認するサムを付加し、受信時にサムによるデータ
のチェックを行うことによって、自ノードの障害に起因
する他のノードでのデータ破壊等の不正動作を防止する
ことができる。

【００７５】さらに、分散型共有メモリ方式をベースに
したノード間通信方式はデータ転送が高速であるという
長所と、メモリの２ビットエラーのような訂正不可能な
障害を伝搬しやすいという短所とを合わせ持つが、２ビ
ットエラーデータの置き換え及びノード間通信データの
正当性のチェックを併用することによって、長所をその
ままとし、短所だけを排除することができるので、ノー
ド間の高速通信を維持したまま、高信頼クラスタ・シス
テムを構築することができる。

【００７６】

【発明の効果】以上説明したように本発明によれば、共
有メモリを用いて複数のノード間の通信を行うクラスタ
構成の情報処理システムにおいて、複数のノード間で通
信されるデータに訂正不可能な障害が発生した時に当該
障害データのデータ受取り側のノードへの伝搬を抑止
し、複数のノード間の通信で受信したデータが不正なデ
ータであることをチェックすることによって、自ノード
の障害を他ノードに伝搬させることなく、自ノードの障
害に起因する他ノードでのデータ破壊等の不正動作を防
止することができ、ノード間の高速通信を維持したまま
高信頼クラスタ・システムを構築することができるとい
う効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例による情報処理システムの構
成を示すブロック図である。

【図２】図１の拡張ＥＣＣ回路の構成例を示すブロック
図である。

【図３】本発明の一実施例による情報処理システムの動
作を示すタイミングチャートである。

【図４】図２に示す拡張ＥＣＣ回路の動作を示すタイミ
ングチャートである。

【図５】従来の情報処理システムの構成を示すブロック
図である。

【符号の説明】

１第１のノード２第２のノード３第３のノード４第４のノード５クロスバ・スイッチ１１−１〜１１−ｎＭＰＵ１３ＩＯ制御部１４システム制御部１４ａ拡張ＥＣＣ回路１５メモリ制御部１６メモリ部１６ａ固有メモリ空間１６ｂ共有メモリ空間１７，３１クラスタ・ドライバ１７ａ，３１ａサム付加機能１７ｂ，３１ｂサムチェック機能２０入力レジスタ２１ＥＣＣエラー検出回路２２ＣＲＣＴ回路２３エラー保持レジスタ２４オアゲート２５アンドゲート２６セレクタ

Claims

【特許請求の範囲】

【請求項１】共有メモリを用いて複数のノード間の通
信を行うクラスタ構成の情報処理システムであって、前
記複数のノード間で通信されるデータに訂正不可能な障
害が発生した時に当該障害データのデータ受取り側のノ
ードへの伝搬を抑止する手段と、前記複数のノード間の
通信で受信したデータが不正なデータであることをチェ
ックする手段とを前記複数のノード各々に有することを
特徴とする情報処理システム。
【請求項２】前記障害データのデータ受取り側のノー
ドへの伝搬を抑止する手段は、前記訂正不可能な障害が
発生した時に前記障害データを予め設定された固定値及
び前記障害検出用のデータに置き換えて出力するよう構
成したことを特徴とする請求項１記載の情報処理システ
ム。
【請求項３】前記不正なデータであることをチェック
する手段は、前記共有メモリに通信データを書込む時に
チェックサムデータを付加する手段と、他のノードの共
有メモリから通信データを読出す際にチェックサムによ
って当該データの誤りを検出する手段とを含むことを特
徴とする請求項１または請求項２記載の情報処理システ
ム。
【請求項４】クロスバ・スイッチを介して共有メモリ
による複数のノード間の通信を、自ノードの共有メモリ
に通信データを書込みかつその通信データを他のノード
が当該共有メモリから読出すことで行うクラスタ構成化
された情報処理システムであって、前記複数のノード間
で通信されるデータに訂正不可能な障害が発生した時に
当該障害データのデータ受取り側のノードへの伝搬を抑
止する手段と、前記複数のノード間の通信によって受信
したデータが不正なデータであることをチェックする手
段とを前記複数のノード各々に有することを特徴とする
情報処理システム。
【請求項５】前記障害データのデータ受取り側のノー
ドへの伝搬を抑止する手段は、前記訂正不可能な障害が
発生した時に前記障害データを予め設定された固定値及
び前記障害検出用のデータに置き換えて出力するよう構
成したことを特徴とする請求項４記載の情報処理システ
ム。
【請求項６】前記不正なデータであることをチェック
する手段は、前記共有メモリに通信データを書込む時に
チェックサムデータを付加する手段と、他のノードの共
有メモリから通信データを読出す際にチェックサムによ
って当該データの誤りを検出する手段とを含むことを特
徴とする請求項４または請求項５記載の情報処理システ
ム。
【請求項７】共有メモリを用いて複数のノード間の通
信を行うクラスタ構成の情報処理システムの障害処理方
式であって、前記複数のノード各々において、前記複数
のノード間で通信されるデータに訂正不可能な障害が発
生した時に当該障害データのデータ受取り側のノードへ
の伝搬を抑止し、前記複数のノード間の通信で受信した
データが不正なデータであることをチェックするように
したことを特徴とする情報処理システムの障害処理方
式。
【請求項８】前記訂正不可能な障害が発生した時に前
記障害データを予め設定された固定値及び前記障害検出
用のデータに置き換えて出力することで、前記障害デー
タのデータ受取り側のノードへの伝搬を抑止するように
したことを特徴とする請求項７記載の情報処理システム
の障害処理方式。
【請求項９】前記共有メモリに通信データを書込む時
にチェックサムデータを付加し、他のノードの共有メモ
リから通信データを読出す際にチェックサムによって当
該データの誤りを検出することで、前記不正なデータで
あることをチェックするようにしたことを特徴とする請
求項７または請求項８記載の情報処理システムの障害処
理方式。
【請求項１０】クロスバ・スイッチを介して共有メモ
リによる複数のノード間の通信を、自ノードの共有メモ
リに通信データを書込みかつその通信データを他のノー
ドが当該共有メモリから読出すことで行うクラスタ構成
化された情報処理システムの障害処理方式であって、前
記複数のノード各々において、前記複数のノード間で通
信されるデータがデータ送信側において訂正不可能な障
害が発生した時に当該障害データのデータ受取り側のノ
ードへの伝搬を抑止し、前記複数のノード間の通信によ
って受信したデータが不正なデータであることをチェッ
クするようにしたことを特徴とする情報処理システムの
障害処理方式。
【請求項１１】前記訂正不可能な障害が発生した時に
前記障害データを予め設定された固定値及び前記障害検
出用のデータに置き換えて出力することで、前記障害デ
ータのデータ受取り側のノードへの伝搬を抑止するよう
にしたことを特徴とする請求項１０記載の情報処理シス
テムの障害処理方式。
【請求項１２】前記共有メモリに通信データを書込む
時にチェックサムデータを付加し、他のノードの共有メ
モリから通信データを読出す際にチェックサムによって
当該データの誤りを検出することで、前記不正なデータ
であることをチェックするようにしたことを特徴とする
請求項１０または請求項１１記載の情報処理システムの
障害処理方式。