JP2001007893A - 情報処理システム及びそれに用いる障害処理方式 - Google Patents

情報処理システム及びそれに用いる障害処理方式

Info

Publication number
JP2001007893A
JP2001007893A JP11176166A JP17616699A JP2001007893A JP 2001007893 A JP2001007893 A JP 2001007893A JP 11176166 A JP11176166 A JP 11176166A JP 17616699 A JP17616699 A JP 17616699A JP 2001007893 A JP2001007893 A JP 2001007893A
Authority
JP
Japan
Prior art keywords
data
node
nodes
communication
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11176166A
Other languages
English (en)
Other versions
JP3434735B2 (ja
Inventor
Mutsuo Shindo
睦雄 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP17616699A priority Critical patent/JP3434735B2/ja
Publication of JP2001007893A publication Critical patent/JP2001007893A/ja
Application granted granted Critical
Publication of JP3434735B2 publication Critical patent/JP3434735B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)
  • Small-Scale Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

(57)【要約】 【課題】 自ノードの障害を他ノードに伝搬させること
なく、自ノードの障害に起因する他ノードでのデータ破
壊等の不正動作を防止し、高信頼クラスタ・システムを
構築可能な情報処理システムを提供する。 【解決手段】 システム制御部14の拡張ECC回路1
4aはECCによる1ビットエラー検出、1ビットエラ
ー訂正、2ビットエラー検出、及び2ビットエラー検出
時に他のノード2〜4への転送データを“0”固定値+
ECCに置換える等の各機能を持つ。クラスタ・ドライ
バ17,31のサム付加機能17a,31aは自ノード
の共有メモリに書込んで他のノードへ送出する送出デー
タに必ずデータチェック用のサム算出及びサムを付加
し、サムチェック機能17b,31bは他のノードの共
有メモリから読出した受信データに対して必ずデータチ
ェック用のサムをチェックする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理システム及
びそれに用いる障害処理方式に関し、特にクロスバ・ス
イッチを介して共有メモリによるノード間通信を行うク
ラスタ構成化された情報処理システムの障害処理方式に
関する。
【0002】
【従来の技術】従来、この種の情報処理システムにおい
ては、システムの一部に障害が発生してもシステム全体
がダウンすることなく稼動できるようにするために、複
数台のシステムを組合せて1つのシステムとして扱うよ
うにしている。このクラスタ・システムではシステムの
冗長性を上げて耐障害性を向上させたり、全体的なパフ
ォーマンスを向上させることができる。
【0003】クラスタ・システムでは情報処理装置とい
う大きな単位で多重化し、それぞれのシステムでは独立
したプロセスを動作させることが多い。障害が発生した
場合にはそのノードのみを切離し、実行中のプロセスや
トランザクション等は他のノード上で再度実行させる
か、もしくは継続実行させることになる。
【0004】このようなクラスタを構築する最大の目的
は、何よりも信頼性が求められるシステムにおいて、万
一何らかの問題が発生した場合でも、問題を起こしたサ
ーバに代わってクラスタ内の他のサーバ(ノードと呼ば
れる)で処理を続行できるようにすることである。
【0005】また、従来の情報処理装置において、上記
のようなクラスタ構成は1つのノードを1台の情報処理
装置で構成し、またノード間の通信路はイーサネットに
代表される通信ネットワークによって構成されている。
【0006】しかしながら、近年、分散共有メモリ型の
情報処理装置を論理的に分割し、1つのノードをプロセ
ッサ、メモリ、IO(入出力)装置からなる論理的分散
ノードとノード間の通信路とを分散共有メモリネットワ
ークで構成し、ノード間の通信を超高速に行うタイプの
クラスタ・システムも存在する。
【0007】ここで、この分散共有メモリ型システムと
は各ノードのメモリ領域をネットワーク接続で、他のノ
ードからもアクセス可能とした方式である。この方式に
よると、分散共有メモリへのアクセス・データはほとん
ど瞬時に他ノードに転送されるため、分散処理の高速
化、リアルタイム応答性を確保しやすい利点がある。
【0008】この種の分散共有メモリ型システムとして
は、例えば特開平8−314875号公報に記載された
情報処理装置があり、この情報処理装置では分散共有メ
モリを分散共有メモリ・ネットワークで接続している。
【0009】図5は従来の情報処理システムの構成を示
すブロック図である。この図5において、6a〜6dは
当該システムを形成するコントローラまたは計算機等に
よる分散ノードで、8a〜8dはCPU、7a〜7dは
主メモリ、9a〜9dは分散共有メモリである。各分散
ノード6a〜6dはこれらCPU8a〜8d、主メモリ
7a〜7d、分散共有メモリ9a〜9dにて構成されて
いる。
【0010】また、91a〜91dは各分散ノード6a
〜6dで共有利用される分散共有メモリ9a〜9d上の
共有データであり、92a〜92dは分散システム管理
データが格納された分散共有メモリ9a〜9d上の状態
監視テーブルである。
【0011】さらに、CPU8a内において、81a,
82a,83aは当該CPU8aの複数のアプリケーシ
ョンタスクであり、84aはこれら各アプリケーション
タスク81a,82a,83aの実行を制御するタスク
実行制御部であり、85aは自ノードの状態を状態監視
テーブル92aに記録するとともに、状態監視テーブル
92aを参照して他の分散ノード6b〜6dの異常を検
出する状態監視部、86aは他の分散ノード6b〜6d
に故障が検出された場合に必要なアプリケーションタス
ク81a,82a,83aの処理をタスク実行制御部8
4aに依頼する故障対処部である。尚、他の分散ノード
6b〜6dのCPU8b〜8d内もCPU8aと同様の
構成となっている。
【0012】また、300はこれら各分散ノード6a〜
6dの分散共有メモリ9a〜9dを直接接続している分
散共有メモリネットワークであり、各分散ノード6a〜
6dの分散共有メモリ9a〜9dの内容変更はこの分散
共有メモリネットワーク300を介して各分散ノード6
a〜6dの動作とは独立に、各分散ノード6a〜6dの
分散共有メモリ9a〜9dに通信されてそのメモリ内容
が反映される。
【0013】次に、上記の情報処理システムの動作につ
いて説明する。ここで、各分散ノード6a〜6dは互い
に対等であり、符号を読み替えるだけで全く同様に動作
するものであるため、以下分散ノード6aにおける動作
について説明し、他の分散ノード6b〜6dの動作につ
いてはその説明を省略する。
【0014】今、分散ノード6aのCPU8aが分散共
有メモリ9aに書込みを行うと、そのアドレス及び内容
が分散共有メモリネットワーク300を介して他の分散
ノード6b〜6dの分散共有メモリ9b〜9dに転送さ
れ、同じアドレスに同じ内容が書込まれる。すなわち、
各分散ノード6a〜6dの分散共有メモリ9a〜9dは
通信遅延を除いて等価である。
【0015】CPU8aは複数のアプリケーションタス
ク81a,82a,83aを実行し、各アプリケーショ
ンタスク81a,82a,83aの実行処理は主メモリ
7a上にある局所データ及び分散共有メモリ9a上の共
有データ91aをアクセスして進める。尚、どのアプリ
ケーションタスク81a,82a,83aを実行するか
はタスク実行制御部84aが制御している。
【0016】
【発明が解決しようとする課題】上述した従来の情報処
理システムでは、分散共有メモリネットワークのように
ノード間が密に結合した構成の場合、あるノードにて訂
正不可能障害が発生すると、結合が密であるがゆえ、訂
正不可能障害を検出したデータがそのまま別のノードに
流れてしまい、この訂正不可能障害を複数または全部の
ノードで検出してしまうため、複数のノードに障害が伝
搬し、結果として高信頼システムにならない。
【0017】また、あるデータがあるノードの分散共有
メモリに書込まれると、そのアドレス及び内容が分散共
有メモリネットワークを介して他のノードに瞬時に書込
まれる構成であるため、本来の処理系統とは別に準備さ
れた障害検出及び通知系統からの通知との間に時間差が
生まれ、あるノードが障害通知を受けた時点で、すでに
障害データを使い終わってしまう可能性がある。よっ
て、最悪データ破壊等が発生する可能性がある。
【0018】そこで、本発明の目的は上記の問題点を解
消し、自ノードの障害を他ノードに伝搬させることな
く、自ノードの障害に起因する他ノードでのデータ破壊
等の不正動作を防止することができ、ノード間の高速通
信を維持したまま高信頼クラスタ・システムを構築する
ことができる情報処理システム及びそれに用いる障害処
理方式を提供することにある。
【0019】
【課題を解決するための手段】本発明による情報処理シ
ステムは、共有メモリを用いて複数のノード間の通信を
行うクラスタ構成の情報処理システムであって、前記複
数のノード間で通信されるデータに訂正不可能な障害が
発生した時に当該障害データのデータ受取り側のノード
への伝搬を抑止する手段と、前記複数のノード間の通信
で受信したデータが不正なデータであることをチェック
する手段とを前記複数のノード各々に備えている。
【0020】本発明による他の情報処理システムは、ク
ロスバ・スイッチを介して共有メモリによる複数のノー
ド間の通信を、自ノードの共有メモリに通信データを書
込みかつその通信データを他のノードが当該共有メモリ
から読出すことで行うクラスタ構成化された情報処理シ
ステムであって、前記複数のノード間で通信されるデー
タに訂正不可能な障害が発生した時に当該障害データの
データ受取り側のノードへの伝搬を抑止する手段と、前
記複数のノード間の通信によって受信したデータが不正
なデータであることをチェックする手段とを前記複数の
ノード各々に備えている。
【0021】本発明による情報処理システムの障害処理
方式は、共有メモリを用いて複数のノード間の通信を行
うクラスタ構成の情報処理システムの障害処理方式であ
って、前記複数のノード各々において、前記複数のノー
ド間で通信されるデータに訂正不可能な障害が発生した
時に当該障害データのデータ受取り側のノードへの伝搬
を抑止し、前記複数のノード間の通信で受信したデータ
が不正なデータであることをチェックするようにしてい
る。
【0022】本発明による他の情報処理システムの障害
処理方式は、クロスバ・スイッチを介して共有メモリに
よる複数のノード間の通信を、自ノードの共有メモリに
通信データを書込みかつその通信データを他のノードが
当該共有メモリから読出すことで行うクラスタ構成化さ
れた情報処理システムの障害処理方式であって、前記複
数のノード各々において、前記複数のノード間で通信さ
れるデータがデータ送信側において訂正不可能な障害が
発生した時に当該障害データのデータ受取り側のノード
への伝搬を抑止し、前記複数のノード間の通信によって
受信したデータが不正なデータであることをチェックす
るようにしている。
【0023】すなわち、本発明の情報処理システムは、
クロスバ・スイッチを介して共有メモリによるノード間
通信を行うクラスタ構成化されたシステムであり、ノー
ド間で通信されるデータがデータ送信側において訂正不
可能な障害が発生した場合でも、データ受取り側のノー
ドに対して障害データを伝搬させない手段、及びノード
間通信によって受信したデータが不正なデータであるこ
とをチェックする手段の2つの手段を併用することによ
ってデータ受取り側のノードにノードダウン等の悪影響
と不正データによるデータ破壊等の不正動作とを防止可
能としている。
【0024】具体的に、本発明のクラスタ構成をとる情
報処理システムにおいては、各ノード間の通信をクラス
タ・ドライバというソフトウェアによって制御してい
る。例えば、第1のノードと第3のノードとの間の通信
は第1のクラスタ・ドライバが自ノードの共有メモリに
通信データを書込み、その通信データを第3のノードの
クラスタ・ドライバが第1のノードの共有メモリを読出
すことで、または第3のクラスタ・ドライバが自ノード
の共有メモリに通信データを書込み、その通信データを
第1のノードのクラスタ・ドライバが第3のノードの共
有メモリを読出すことで実現している。
【0025】尚、クロスバ・スイッチで接続された共有
メモリを使ったノード間通信はイーサーネットのような
ネットワークを使ったノード間通信に比べ、通信速度が
桁違いに早いという特徴も合わせ持っている。
【0026】第1のノードから第3のノードへ通信デー
タを送る場合、第3のノードのクラスタドライバが第1
のノードの共有メモリ領域のリード要求を発行し、第1
のノードのメモリ制御部がメモリ中の共有メモリ領域か
らデータを読出す。この第1のノード内部では読出しデ
ータにECC(Error−CorrectingCo
de)で訂正不可能な2ビットエラーが検出された時、
この訂正不可能なエラーを検出した第1のノードは第3
のノードにリード要求のあったデータのうちの2ビット
エラーを検出した時点から残りの全データを、2ビット
エラー状態でない固定値(例えば、ECC以外のビット
が“0”であるデータ)を返却する。
【0027】これによって、訂正不可能な2ビットエラ
ーを持ったデータが、他のノードに伝搬されるのを防止
することが可能となり、結果として障害が他のノードに
伝搬するのを防止可能となる。
【0028】しかしながら、第3のノードから見れば、
第1のノードから化けたデータが返却されたことにな
り、第3のノードがこのデータを使って処理を進める
と、データ破壊等の新たな障害につながってしまう。
【0029】そこで、クラスタ間の通信を制御するクラ
スタ・ドライバは自ノードの共有メモリに通信データを
書込む時にチェックサムデータを必ず付加し、他のノー
ドの共有メモリから通信データを読出す場合にチェック
サムによるデータの誤りを必ず検出している。
【0030】つまり、第1のノードから第3のノードに
通信データを送る場合、第1のノードのクラスタ・ドラ
イバが送るべき通信データを自ノードの共有メモリに書
込む時にチェックサムデータを算出し、書込みデータに
付加する。
【0031】第3のノードのクラスタ・ドライバは受取
るべき通信データを第1のノードの共有メモリから読出
し、さらにチェックサムによるデータの正当制を確認す
る。このデータの正当制の確認時点で、2ビットエラー
の無い任意の固定値を返却されたノードではクラスタ・
ドライバがチェックサムエラーを検出し、第1のノード
に異常が発生したこと、また受取ったデータが無効であ
ることを検出することが可能となり、不正データを使用
したデータ破壊等が防止可能となる。
【0032】
【発明の実施の形態】次に、本発明の一実施例について
図面を参照して説明する。図1は本発明の一実施例によ
る情報処理システムの構成を示すブロック図である。図
1において、本発明の一実施例による情報処理システム
は第1のノード1、第2のノード2、第3のノード3、
第4のノード4という4個のノードと、これら各ノード
1〜4間を接続するクロスバ・スイッチ5とから構成さ
れている。
【0033】本発明の一実施例による情報処理システム
ではシステムの一部に障害が発生しても、システム全体
がダウンすることなく稼動できるようにするために、第
1のノード1と第2のノード2と第3のノード3と第4
のノード4とを組合せて、1つのシステムとして扱うよ
うにしたクラスタ構成を組んでいる。
【0034】また、クラスタ間の通信は各ノード1〜4
の共有メモリ(メモリ部16の共有メモリ空間16b)
とクロスバ・スイッチ5とを介して実現している。尚、
共有メモリへの書込みは共有メモリを持ったノードのみ
許可、共有メモリからの読出しは各ノードとも許可され
ている。
【0035】さらに、本発明の一実施例による情報処理
システムでは各ノード1〜4間のインタフェースはメデ
ィアを電気、接続方式をクロスバ・スイッチとしたが、
メディアは光、電気、電波のいずれであってもよく、そ
の接続方式もバス型、リング型、スター型、無線型のい
ずれであってもよい。
【0036】各ノード1〜4はそれぞれ独立して動作可
能な情報処理装置、または情報処理装置として必要なプ
ロセッサ、メモリ、入出力部を持った論理的な単位であ
るが、本発明の一実施例による情報処理システムではノ
ードがプロセッサ、メモリ、入出力部を持ったセルと呼
ばれるカードで構成されている。ここで、第1のノード
1と第2のノード2と第3のノード3と第4のノード4
とはそれぞれ同一構成となっており(第1のノード1の
詳細構成のみ図示)、以下第1のノード1を例に挙げて
説明する。
【0037】第1のノード1は複数のMPU(マイクロ
・プロセッサ・ユニット)11−1〜11−nと、IO
(入出力)制御部13と、システム制御部14と、メモ
リ制御部15と、メモリ部16と、プロセッサバス11
0とから構成されている。
【0038】複数のMPU11−1〜11−nはプログ
ラム命令を解釈して実行する。IO制御部13は第1の
ノード1が情報処理装置として動作するために必要なL
AN(Local Area Network)、ファ
イル装置、キーボード等の入出力デバイスを配下に持
ち、この配下のデバイスへのアクセスを制御する。
【0039】システム制御部14はメモリ制御部15及
びIO制御部13にECCを持ったインタフェースで接
続され、各MPU11−1〜11−nの命令によってメ
モリ制御部15及びIO制御部13への動作要求を行
い、かつクロスバ・スイッチ5にECCを持ったインタ
フェースで接続される。
【0040】メモリ制御部15はメモリ部16へのアク
セスを制御し、メモリ部16にECC(Error−C
orrecting Code)を持ったインタフェー
スで接続される。メモリ部16は固有メモリ空間16a
と共有メモリ空間16bとからなり、ECCが付加され
データの1ビットエラーを訂正することが可能なプログ
ラム命令及びデータを格納する。プロセッサバス110
はECCを持ち、各MPU11−1〜11−nとシステ
ム制御部14とを接続する。
【0041】システム制御部14にはECCによる1ビ
ットエラー検出、1ビットエラー訂正、2ビットエラー
検出、及び2ビットエラー検出時に他のノード2〜4へ
の転送データを“0”固定値+ECCに置換える等の各
機能を持つ拡張ECC回路14aが内蔵されている。
【0042】また、IO制御部13、メモリ制御部1
5、クロスバ・スイッチ5もECCによる1ビットエラ
ー検出、1ビットエラー訂正、2ビットエラー検出の機
能を持つECC回路(図示せず)が内蔵されている。
【0043】ここで、本実施例では固定値を“0”+E
CCとしたが、ECCによって2ビットエラーが検出さ
れない限り、この固定値はどんな値でも良い。尚、第1
のノード1及び第3のノード3にはノード間通信及び他
のノードの状態を管理するクラスタ・ドライバという専
用ソフトウェア17,31が動作している。また、図示
していないが、第2のノード2及び第4のノード4にも
専用ソフトウェアが動作している。
【0044】このクラスタ・ドライバ17,31には自
ノードの共有メモリに書込んで他のノードへ送出する送
出データに対して必ずデータチェック用のサム算出とサ
ムの付加とを行うサム付加機能17a,31aと、他の
ノードの共有メモリから読出した受信データに対して必
ずデータチェック用のサムをチェックするサムチェック
機能17b,31bの2つの機能が備えられている。
【0045】本発明の一実施例による情報処理システム
には装置のブート及びシャットダウンに伴う電源制御を
含めたサービス、障害発生時の障害情報の採取及び障害
ノードのシャットダウン、他のノードへの障害通知、障
害後処理のサービスを行うサービスプロセッサという装
置を付加し、各ノードが訂正不可能及び訂正可能障害を
検出した場合にサービスプロセッサにも障害通知を行
い、各ノードがこのサービスプロセッサとのインタフェ
ースから他のノードの障害通知を受取る構成を追加して
もよい。
【0046】また、拡張ECC回路14aをクロスバ・
スイッチ5の各ノード1〜4間インタフェース部分に持
たせ、各ノード1〜4とクロスバ・スイッチインタフェ
ース上で発生した訂正不可能障害も他のノードに伝搬し
ないよう構成してもよい。
【0047】さらに、ノード間通信データのサム作成、
サムチェックを行う専用回路を各ノード1〜4のシステ
ム制御部14(ノード2〜4のシステム制御部は図示せ
ず)に設け、クラスタ・ドライバ17,31の処理負荷
を減らすという構成をとってもよい。
【0048】図2は図1の拡張ECC回路14aの構成
例を示すブロック図である。図2において、拡張ECC
回路14aはECC付きデータの入力レジスタ20と、
ECCエラー検出回路21と、CRCT回路22と、エ
ラー保持レジスタ23と、オアゲート24と、アンドゲ
ート25と、セレクタ26とから構成されている。
【0049】ECCエラー検出回路21は入力レジスタ
20からの出力を受け、1ビット及び2ビットエラーを
検出し、それぞれのエラー検出信号を出力する。CRC
T回路22は入力レジスタ20からの出力を受け、1ビ
ットエラーがあった場合にエラー訂正データを生成す
る。
【0050】エラー保持レジスタ23はECCエラー検
出回路21が2ビットエラーを検出したことを通知する
2ビットエラー信号201とクロックの立下りとによっ
てセットされ、データ転送要求の完了によってリセット
される。
【0051】オアゲート24は2ビットエラー信号20
1とエラー保持レジスタ23の2値とを入力し、2ビッ
トエラーを示す値を出力する。アンドゲート25は送出
先が他ノード/自ノードかを示す信号を図示せぬデータ
転送先判断回路から受けるノード通知信号202及び2
ビットエラーを示すオアゲート24の出力の2値とを入
力し、セレクタ26に信号を出力する。
【0052】セレクタ26はアンドゲート25の出力を
受け、拡張ECC回路14aの出力データをECC以外
のビットが“0”であるデータとするか、CRCT回路
22の出力とするかを選択する。
【0053】ここで、本実施例では2ビットエラー検出
時に、エラーデータを任意の固定値に変更するのはデー
タの送り先が他のノードであるか否かをノード通知信号
202とアンドゲート25とから判断するよう構成して
いるが、全ての2ビットエラーデータについて、任意の
固定値へのデータ差し替えを実施するよう構成してもよ
い。その場合、本実施例のノード通知信号202とアン
ドゲート25とが不要になる。
【0054】図3は本発明の一実施例による情報処理シ
ステムの動作を示すタイミングチャートであり、図4は
図2に示す拡張ECC回路14aの動作を示すタイミン
グチャートである。これら図1〜図4を参照して本発明
の一実施例による情報処理システムの動作について説明
する。
【0055】本発明の一実施例による情報処理システム
では各ノード1〜4のメモリ部16の一部を他のノード
からリード可能・ライト不可能な共有メモリ空間16b
として設定し、この共有メモリ空間16bをクラスタ・
ドライバ17,31がアクセスすることでノード間通信
を実現している。
【0056】ここでは第3のノード3が第1のノード1
と通信する場合について、特に第3のノード3が第1の
ノード1の共有メモリ空間16bのデータをリードした
場合について説明する。
【0057】図3を参照すると、第3のノードのクラス
タ・ドライバ31は第1のノード1の共有メモリ空間1
6bに用意された通信エリアをリードする(図3の41
参照)。クラスタ・ドライバ31によるリードはMPU
(図示せず)から第1のノード1の共有メモリ空間16
bへのリード要求としてシステム制御部(図示せず)に
発行される。
【0058】システム制御部はリード要求が他のノード
(この場合、第1のノード1)への要求であることを認
識し、そのリード要求をクロスバ・スイッチ5に発行す
る(図3の42参照)。
【0059】また、クロスバ・スイッチ5はこのリード
要求が第1のノード1に対する要求であることを認識
し、第1のノード1のシステム制御部14にリード要求
を発行する(図3の43参照)。
【0060】クロスバ・スイッチ5からリード要求を受
けた第1のノード1のシステム制御部14はメモリ制御
部15を介して共有メモリ空間16bのリードを実行す
る(図3の44,45参照)。
【0061】メモリ部16からは上記のリード要求にし
たがったデータが読出され(図3の46参照)、メモリ
制御部15を経由してシステム制御部14に共有メモリ
空間16bから読出されたデータが返却される(図3の
47参照)。尚、本実施例ではメモリ部16から読出さ
れたデータが訂正不可能な2ビットエラー状態であると
して説明する。
【0062】システム制御部14は共有メモリ空間16
bのリードデータを受取りつつ、ECCによるデータエ
ラーをチェックするが、このチェックで2ビットエラー
を検出する(図3の48参照)。
【0063】システム制御部14は2ビットエラー検出
時にエラーを持ったデータが他のノードへ返却すべきデ
ータであることも合わせて認識し、クロスバ・スイッチ
5に対して返却するデータを2ビットエラーを検出した
時点から、返却データを2ビットエラーを訂正した
“0”固定値+ECCに差し替えてクロスバ・スイッチ
5に返却する。
【0064】尚、この時、第1のノード1では障害通知
信号線(図示せず)を使って障害時の装置内部(図示せ
ず)の情報を採取したり、障害発生時の後処理を行うサ
ービスプロセッサに障害を通知している。
【0065】2ビットエラーを訂正して“0”固定値+
ECCに差し替えられたデータは、クロスバ・スイッチ
5を経由し(図3の49参照)、第3のノード3のシス
テム制御部を経由してMPUに返却される(図3の50
参照)。
【0066】ここで、先の第3のノード3のクラスタ・
ドライバ31からの通信エリアへのリード要求が完了す
る。この通信エリアへのリード要求の完了を受け、クラ
スタ・ドライバ31はリードしたデータをサムによるチ
ェックする(図3の51参照)。
【0067】このチェックではデータの途中が“0”に
変えられているため、サムの不一致が発生し、クラスタ
・ドライバ31は第1のノード1にて障害が発生して受
取ったデータが無効であること、以後、第1のノード1
へのアクセスを実施しないようノードダウンの処理が必
要であることに気がつく。そこで、クラスタ・ドライバ
31はリードデータを破棄し(図3の52参照)、第1
のノード1のダウン処理を行う(図3の51参照)。
【0068】次に、第1のノード1のシステム制御部1
4がECCによるデータエラーをチェックする動作につ
いて図2及び図4を参照して説明する。図4を参照する
と、入力レジスタ20が2ビットエラーを含んだデータ
をデータ送出元の制御部(本ケースではメモリ制御部1
5)から受取り、時刻T0においてクロックの立下りと
共に入力レジスタ20に格納する。同時に、ECCエラ
ー検出回路21とCRCT回路22と2ビットエラーを
含んだデータの出力を開始する。
【0069】また、入力レジスタ20が格納したデータ
はクロスバ・スイッチ5経由で他のノードに送出される
ため、ノード通知信号202は他のノードを示す“1”
の値となっている。
【0070】時刻T1において、ECCエラー検出回路
21が2ビットエラーを検出し、2ビットエラー検出信
号201に2ビットエラーを示す“1”を出力する。こ
の時、ノード通知信号202は他のノードを示す“1”
であるから、オアゲート24の出力と、アンドゲート2
5の出力も“1”となり、セレクタ26に対して拡張E
CC回路14aの出力データを“0”+ECCであるデ
ータを出力するよう通知する。
【0071】時刻T2において、セレクタ26は“0”
+ECCであるデータを出力として選択し、次のデータ
が入力レジスタ20に取込まれる時刻T3まで、この
“0”+ECCデータを拡張ECC回路14aの出力デ
ータとして出力し続ける。
【0072】時刻T3において、エラー保持レジスタ2
3は2ビットエラー検出信号201の出力する値“1”
を保持し、以後、データ転送要求の完了まで“1”を出
力し続ける。これによって、オアゲート24の出力及び
アンドゲート25の出力が“1”となり、セレクタ26
は拡張ECC回路14aの出力データを“0”+ECC
とし、データ転送要求の完了まで出力する。
【0073】このように、自ノードの訂正不可能な2ビ
ットエラーデータを、ECCを合わせたデータ部分が
“0”のデータに置換えることによって、2ビットエラ
ーを消去することができるので、自ノードの障害を他の
ノードに伝搬させないことができる。
【0074】また、ノード間通信データにデータの正当
性を確認するサムを付加し、受信時にサムによるデータ
のチェックを行うことによって、自ノードの障害に起因
する他のノードでのデータ破壊等の不正動作を防止する
ことができる。
【0075】さらに、分散型共有メモリ方式をベースに
したノード間通信方式はデータ転送が高速であるという
長所と、メモリの2ビットエラーのような訂正不可能な
障害を伝搬しやすいという短所とを合わせ持つが、2ビ
ットエラーデータの置き換え及びノード間通信データの
正当性のチェックを併用することによって、長所をその
ままとし、短所だけを排除することができるので、ノー
ド間の高速通信を維持したまま、高信頼クラスタ・シス
テムを構築することができる。
【0076】
【発明の効果】以上説明したように本発明によれば、共
有メモリを用いて複数のノード間の通信を行うクラスタ
構成の情報処理システムにおいて、複数のノード間で通
信されるデータに訂正不可能な障害が発生した時に当該
障害データのデータ受取り側のノードへの伝搬を抑止
し、複数のノード間の通信で受信したデータが不正なデ
ータであることをチェックすることによって、自ノード
の障害を他ノードに伝搬させることなく、自ノードの障
害に起因する他ノードでのデータ破壊等の不正動作を防
止することができ、ノード間の高速通信を維持したまま
高信頼クラスタ・システムを構築することができるとい
う効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例による情報処理システムの構
成を示すブロック図である。
【図2】図1の拡張ECC回路の構成例を示すブロック
図である。
【図3】本発明の一実施例による情報処理システムの動
作を示すタイミングチャートである。
【図4】図2に示す拡張ECC回路の動作を示すタイミ
ングチャートである。
【図5】従来の情報処理システムの構成を示すブロック
図である。
【符号の説明】
1 第1のノード 2 第2のノード 3 第3のノード 4 第4のノード 5 クロスバ・スイッチ 11−1〜11−n MPU 13 IO制御部 14 システム制御部 14a 拡張ECC回路 15 メモリ制御部 16 メモリ部 16a 固有メモリ空間 16b 共有メモリ空間 17,31 クラスタ・ドライバ 17a,31a サム付加機能 17b,31b サムチェック機能 20 入力レジスタ 21 ECCエラー検出回路 22 CRCT回路 23 エラー保持レジスタ 24 オアゲート 25 アンドゲート 26 セレクタ

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 共有メモリを用いて複数のノード間の通
    信を行うクラスタ構成の情報処理システムであって、前
    記複数のノード間で通信されるデータに訂正不可能な障
    害が発生した時に当該障害データのデータ受取り側のノ
    ードへの伝搬を抑止する手段と、前記複数のノード間の
    通信で受信したデータが不正なデータであることをチェ
    ックする手段とを前記複数のノード各々に有することを
    特徴とする情報処理システム。
  2. 【請求項2】 前記障害データのデータ受取り側のノー
    ドへの伝搬を抑止する手段は、前記訂正不可能な障害が
    発生した時に前記障害データを予め設定された固定値及
    び前記障害検出用のデータに置き換えて出力するよう構
    成したことを特徴とする請求項1記載の情報処理システ
    ム。
  3. 【請求項3】 前記不正なデータであることをチェック
    する手段は、前記共有メモリに通信データを書込む時に
    チェックサムデータを付加する手段と、他のノードの共
    有メモリから通信データを読出す際にチェックサムによ
    って当該データの誤りを検出する手段とを含むことを特
    徴とする請求項1または請求項2記載の情報処理システ
    ム。
  4. 【請求項4】 クロスバ・スイッチを介して共有メモリ
    による複数のノード間の通信を、自ノードの共有メモリ
    に通信データを書込みかつその通信データを他のノード
    が当該共有メモリから読出すことで行うクラスタ構成化
    された情報処理システムであって、前記複数のノード間
    で通信されるデータに訂正不可能な障害が発生した時に
    当該障害データのデータ受取り側のノードへの伝搬を抑
    止する手段と、前記複数のノード間の通信によって受信
    したデータが不正なデータであることをチェックする手
    段とを前記複数のノード各々に有することを特徴とする
    情報処理システム。
  5. 【請求項5】 前記障害データのデータ受取り側のノー
    ドへの伝搬を抑止する手段は、前記訂正不可能な障害が
    発生した時に前記障害データを予め設定された固定値及
    び前記障害検出用のデータに置き換えて出力するよう構
    成したことを特徴とする請求項4記載の情報処理システ
    ム。
  6. 【請求項6】 前記不正なデータであることをチェック
    する手段は、前記共有メモリに通信データを書込む時に
    チェックサムデータを付加する手段と、他のノードの共
    有メモリから通信データを読出す際にチェックサムによ
    って当該データの誤りを検出する手段とを含むことを特
    徴とする請求項4または請求項5記載の情報処理システ
    ム。
  7. 【請求項7】 共有メモリを用いて複数のノード間の通
    信を行うクラスタ構成の情報処理システムの障害処理方
    式であって、前記複数のノード各々において、前記複数
    のノード間で通信されるデータに訂正不可能な障害が発
    生した時に当該障害データのデータ受取り側のノードへ
    の伝搬を抑止し、前記複数のノード間の通信で受信した
    データが不正なデータであることをチェックするように
    したことを特徴とする情報処理システムの障害処理方
    式。
  8. 【請求項8】 前記訂正不可能な障害が発生した時に前
    記障害データを予め設定された固定値及び前記障害検出
    用のデータに置き換えて出力することで、前記障害デー
    タのデータ受取り側のノードへの伝搬を抑止するように
    したことを特徴とする請求項7記載の情報処理システム
    の障害処理方式。
  9. 【請求項9】 前記共有メモリに通信データを書込む時
    にチェックサムデータを付加し、他のノードの共有メモ
    リから通信データを読出す際にチェックサムによって当
    該データの誤りを検出することで、前記不正なデータで
    あることをチェックするようにしたことを特徴とする請
    求項7または請求項8記載の情報処理システムの障害処
    理方式。
  10. 【請求項10】 クロスバ・スイッチを介して共有メモ
    リによる複数のノード間の通信を、自ノードの共有メモ
    リに通信データを書込みかつその通信データを他のノー
    ドが当該共有メモリから読出すことで行うクラスタ構成
    化された情報処理システムの障害処理方式であって、前
    記複数のノード各々において、前記複数のノード間で通
    信されるデータがデータ送信側において訂正不可能な障
    害が発生した時に当該障害データのデータ受取り側のノ
    ードへの伝搬を抑止し、前記複数のノード間の通信によ
    って受信したデータが不正なデータであることをチェッ
    クするようにしたことを特徴とする情報処理システムの
    障害処理方式。
  11. 【請求項11】 前記訂正不可能な障害が発生した時に
    前記障害データを予め設定された固定値及び前記障害検
    出用のデータに置き換えて出力することで、前記障害デ
    ータのデータ受取り側のノードへの伝搬を抑止するよう
    にしたことを特徴とする請求項10記載の情報処理シス
    テムの障害処理方式。
  12. 【請求項12】 前記共有メモリに通信データを書込む
    時にチェックサムデータを付加し、他のノードの共有メ
    モリから通信データを読出す際にチェックサムによって
    当該データの誤りを検出することで、前記不正なデータ
    であることをチェックするようにしたことを特徴とする
    請求項10または請求項11記載の情報処理システムの
    障害処理方式。
JP17616699A 1999-06-23 1999-06-23 情報処理システム及びそれに用いる障害処理方式 Expired - Fee Related JP3434735B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17616699A JP3434735B2 (ja) 1999-06-23 1999-06-23 情報処理システム及びそれに用いる障害処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17616699A JP3434735B2 (ja) 1999-06-23 1999-06-23 情報処理システム及びそれに用いる障害処理方式

Publications (2)

Publication Number Publication Date
JP2001007893A true JP2001007893A (ja) 2001-01-12
JP3434735B2 JP3434735B2 (ja) 2003-08-11

Family

ID=16008828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17616699A Expired - Fee Related JP3434735B2 (ja) 1999-06-23 1999-06-23 情報処理システム及びそれに用いる障害処理方式

Country Status (1)

Country Link
JP (1) JP3434735B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243257B2 (en) 2002-05-14 2007-07-10 Nec Corporation Computer system for preventing inter-node fault propagation
WO2007096987A1 (ja) * 2006-02-24 2007-08-30 Fujitsu Limited エラー制御装置
JP2010186365A (ja) * 2009-02-13 2010-08-26 Nec Corp マルチノードコンピュータシステム及びノード間接続装置
JP2012119813A (ja) * 2010-11-30 2012-06-21 Nec Corp エラー訂正回路及びエラー訂正方法
WO2019106830A1 (ja) * 2017-12-01 2019-06-06 株式会社日立製作所 分散制御装置
CN111858129A (zh) * 2019-04-28 2020-10-30 深信服科技股份有限公司 一种纠删码读请求处理方法、系统、设备及计算机介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243257B2 (en) 2002-05-14 2007-07-10 Nec Corporation Computer system for preventing inter-node fault propagation
WO2007096987A1 (ja) * 2006-02-24 2007-08-30 Fujitsu Limited エラー制御装置
JPWO2007096987A1 (ja) * 2006-02-24 2009-07-09 富士通株式会社 エラー制御装置
KR100995621B1 (ko) * 2006-02-24 2010-11-22 후지쯔 가부시끼가이샤 에러 제어 장치
US8264948B2 (en) 2006-02-24 2012-09-11 Fujitsu Limited Interconnection device
JP2010186365A (ja) * 2009-02-13 2010-08-26 Nec Corp マルチノードコンピュータシステム及びノード間接続装置
JP2012119813A (ja) * 2010-11-30 2012-06-21 Nec Corp エラー訂正回路及びエラー訂正方法
WO2019106830A1 (ja) * 2017-12-01 2019-06-06 株式会社日立製作所 分散制御装置
CN111858129A (zh) * 2019-04-28 2020-10-30 深信服科技股份有限公司 一种纠删码读请求处理方法、系统、设备及计算机介质
CN111858129B (zh) * 2019-04-28 2024-02-23 深信服科技股份有限公司 一种纠删码读请求处理方法、系统、设备及计算机介质

Also Published As

Publication number Publication date
JP3434735B2 (ja) 2003-08-11

Similar Documents

Publication Publication Date Title
US4228496A (en) Multiprocessor system
US6505305B1 (en) Fail-over of multiple memory blocks in multiple memory modules in computer system
US8140936B2 (en) System for a combined error correction code and cyclic redundancy check code for a memory channel
US7444540B2 (en) Memory mirroring apparatus and method
US9436548B2 (en) ECC bypass using low latency CE correction with retry select signal
US7747897B2 (en) Method and apparatus for lockstep processing on a fixed-latency interconnect
KR102378466B1 (ko) 메모리 장치 및 모듈
US6237108B1 (en) Multiprocessor system having redundant shared memory configuration
JP2008097527A (ja) ストレージシステム及びその制御方法
US7162545B2 (en) Duplexed processor system
JP3434735B2 (ja) 情報処理システム及びそれに用いる障害処理方式
US7243257B2 (en) Computer system for preventing inter-node fault propagation
US20050165974A1 (en) Computer apparatus and computer system
JP2014532236A (ja) 接続方法
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP5145860B2 (ja) メモリ二重化システム及び情報処理装置
JP2000148523A (ja) 二重化メモリ装置及びメモリ切替方法
JP3015537B2 (ja) 電子計算機の二重化方式
JP2001034587A (ja) マルチプロセッサシステム
JPS5870495A (ja) 多重化記憶装置の制御装置
US20050198230A1 (en) Method, system, and article of manufacture for configuring a shared resource
CN113037507A (zh) 具有错误侦测功能的智能网卡系统及错误侦测方法
JPH0981465A (ja) 主記憶制御装置
Falih Mahmood A Pipelined Fault Tolerant Architecture for Real time DSP Applications
JPH05289896A (ja) フォールトトレラントコンピュータ

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120530

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120530

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees