JPH04280352A - 並列計算機 - Google Patents

並列計算機

Info

Publication number
JPH04280352A
JPH04280352A JP3043202A JP4320291A JPH04280352A JP H04280352 A JPH04280352 A JP H04280352A JP 3043202 A JP3043202 A JP 3043202A JP 4320291 A JP4320291 A JP 4320291A JP H04280352 A JPH04280352 A JP H04280352A
Authority
JP
Japan
Prior art keywords
data
error
communication path
line
ecc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3043202A
Other languages
English (en)
Inventor
Shinichi Shudo
首藤 信一
Koichiro Omoda
面田 耕一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP3043202A priority Critical patent/JPH04280352A/ja
Publication of JPH04280352A publication Critical patent/JPH04280352A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は並列プロセッサに係り、
特にプロセッサ間のデータ転送の信頼性の高い並列プロ
セッサに関する。
【0002】
【従来の技術】従来のデータ転送におけるデータ誤りの
検出方法として、『フォールトトレラントシステム』、
J.グレイ他著、渡辺栄一編訳、マグロウヒルブック社
出版のp.13以降に記載される2重化がある。これは
、データ転送経路を2重化し、送信側より到着したそれ
ぞれのデータを比較して不一致の場合には、システムは
誤りを通報する。また、データ誤りの訂正方法として、
待機交換がある。これは、装置を2系統用意し、受信側
でデータの誤りを検出して、データが誤りであれば、待
機系と交換して完全に動作可能な状態に戻すことが可能
であるが、データの誤りを検出するだけで、必ずプロセ
ッサの動作を一旦停止して誤りがあった箇所を直すか、
再転送しなければならない。
【0003】
【発明が解決しようとする課題】本発明の目的は、プロ
セッサ間のデータ転送によってデータの誤りによるデー
タの再転送の回数を低減し、かつプロセッサの動作を停
止しないでデータ通信路内の障害箇所を容易に特定でき
る並列プロセッサを提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するため
に、データ通信路内の複数個所にそこを通るデータの誤
り検出用の、しかし誤り訂正に用いられないコードをそ
れぞれ解読する複数の誤り検出手段を設け、各プロセッ
サ内に送信データに誤り訂正用のコードを付して送信す
る手段と、受信データに付された誤り訂正用のコードを
解読し、受信データに訂正可能な誤りがあるとき、これ
を訂正する誤り訂正手段と、該受信データの誤りが該誤
り訂正手段により訂正不可能なとき、データの誤り発生
を他のプロセッサに通知する手段と、いずれか一つのプ
ロセッサからデータの誤り発生の通知を受けたとき、誤
り発生の通知をした該一つのプロセッサに向けて誤り検
出用の、しかし誤り訂正に用いられないコードを付した
診断用データを送出する手段とを設け、さらに、該複数
の誤り検出手段のいずれにより、いずれかのプロセッサ
から送出された診断用データの誤りを検出したかを監視
する手段を設ける。
【0005】
【作用】訂正不可能なエラーが発生したデータの送信元
PEがどのPEかは通常判断できないが、本発明では、
全てのPEから診断用のデータを訂正不可能な誤りを検
出したPEに向けて送信するため、元の誤りが発生した
データが通過した経路をいずれかの診断用データが通過
する。このため、データ通信路の中の誤り検出回路のい
ずれかがそこを通るデータの誤りを検出し、これにより
エラーの発生箇所を特定できる。
【0006】
【実施例】以下、本発明の実施例を図面に従って説明す
る。図1は、本発明の全体構成をあらわす並列プロセッ
サである。並列プロセッサは、各プロセッサ(PE)1
02A,データ通信路101,ホストプロセッサ113
、およびSVP114により構成される。データ通信路
101には、各PE102Aとホストプロセッサ113
が接続される。データ通信路101は多段スイッチ,ク
ロスバスイッチなどいろいろな構成が考えられる。この
データ通信路101にはパリティ解読装置104が設け
られ、その装置104の結果はSVP114に送られる
。 ホストプロセッサ113は、各PE102Aにデータ通
信路101を介して、各PE102Aで実行するプログ
ラムやデータなどを送る機能を持つ。
【0007】各PE102Aは、データ通信路101か
ら送られてきたデータを受信する受信装置110A,そ
の受信装置110Aが受け取ったデータのECC(Er
rorCorrecting Code)を検査し、訂
正するECC解読装置108A,プログラムやデータを
格納する、ECCを持ったメモリ105A,メモリ10
5Aから命令やデータを取り出し、命令を実行するデー
タ処理装置103A,メモリ105Aの内容を読み出し
たときに、そのデータのECCを検査しECC解読装置
108B、およびデータ通信路101にデータを送出す
る送信装置109Aから構成される。PE102A間の
データ転送は送信側のPE102Aのメモリ105Aか
ら受信側のプロセッサ102Aのメモリ105Aへデー
タ転送することによって実現する。
【0008】PE102Aには、通常動作と診断動作の
2種類の動作があり、それぞれ2種類のメッセージ形式
をもつ。通常動作では、図2(1)に示すように受信先
PEが1つの場合と、全ての場合がある。
【0009】(a)は受信先PEが1つの場合で、送信
種134Aの0は受信先PEが1つであることを示す。
【0010】受信先PE番号135Aは、メッセージを
受け取るPEを示す。受信先PEのメモリ内アドレス1
36Aは、メッセージを受信したPEがメッセージ内の
データを格納するメモリのアドレスを示す。送信元PE
番号138Aは、このメッセージを送信するPEの番号
である。データ141Aは、転送するデータそのもので
ある。ECC140A,140Cは、これらの誤りを訂
正するためのコードである。
【0011】(b)は受信先PEが全ての場合で、送信
種134Bの1は受信先PEが全てであることを示す。
【0012】データ通信路101は図2に示した転送デ
ータの送信種が0のときに単一PEに送り、1のときは
全PEに送るための機能とPE間の経路を確定する機能
を備えている。
【0013】データ通信路101はどんな構成であって
もよいが、ここでは図3に示すようなネットワークを考
える。この並列プロセッサは縦横2×2にPEが並んだ
2次元のPE構成であるが、これに限らなくてもよい。 このネットワークはクロスバ乗り換えスイッチ125A
〜Dおよびクロスバスイッチ124A〜124Dにより
構成され、それぞれの構成は図4,5に示す。これらの
スイッチ124,125には、通常動作時に動作せず、
診断動作時に動作するパリティ解読装置104を1つ以
上設ける。ECC解読装置は、データの誤りが発生して
も訂正可能であるが、多くの部品によって構成されるデ
ータ通信路101内の誤り発生個所を容易に特定するに
は、多くの個所に解読装置を設けなければならない。E
CC解読装置を設けると、データ通信路の論理規模が大
きくなる。したがって、PE102A内にはデータの誤
りを訂正するECC解読装置を、データ通信路101内
には誤り発生個所を小規模の論理で特定できるパリティ
解読装置を設ける必要がある。任意のPE102A間の
経路は、送信種と受信PE番号で経路を決定し、任意の
PE102A間の経路は一意に決まる。
【0014】(1)通常の動作 各PE102A内のデータ処理装置103Aは、線11
5Aから命令読み出しアドレスを指定してメモリ105
Aより命令を読み出し、線114Aを通ってECC解読
装置108Bで読み出し時の誤りを確認し、線117A
を通って命令を受け取る。データ処理装置103Aで受
け取った命令が送信命令のとき、そのPE102Aが送
信側となり、その命令のオペランドで指定されたPE1
02Aが受信側となる。また、全PE102Aがオペラ
ンドで指定されると全PE102Aが受信側となる。
【0015】PE102Aが送信命令を実行すると、そ
のPE102A内のデータ処理装置103Aは、線11
5Aからオペランドに記述されたアドレスを指定してメ
モリ105Aより転送データを読み出す。読み出した転
送データは、線114Aを通ってECC解読装置108
Bで読み出し時の誤りを確認する。転送データに誤りが
ないとき、ECC解読装置108Bは、転送データを線
116Aと転送データ切り換え装置107Aと線120
Aとを通って送信装置109Aに送る。
【0016】データ処理装置103Aは、線122Aを
通して転送データ以外のヘッダ(第2図の(1)を参照
)をECC生成装置131Aに送り、線132Aを通っ
てヘッダとそのECCを送信装置109Aに送る。送信
装置109Aは、ヘッダと転送データとそれぞれのEC
Cを合わせてメッセージとして、第2図(1)のような
通信形式でデータ通信路101に送出する。
【0017】データ通信路101に送出したメッセージ
は、そのメッセージ内の送信種と受信先PE番号から経
路が一意に決まり、受信側の1つまたは全てのPE10
2Aに到着する。このとき、データ通信路101内のパ
リティ解読装置104A〜Dは動作中であるが、メッセ
ージのコードがECCであるため、線123A〜Dを伝
ってSVP114に送られるが、SVP114は線12
3Eによりそれを無視できる。受信側のPE102Aで
は到着したメッセージを受信装置110Aがヘッダとデ
ータに分解する。分解したヘッダとデータは、線112
Aを通ってECC解読装置108Aで通信時の誤りを検
出する。ヘッダとデータに誤りがないとき、線130A
への出力は0にし、線113Aから受信先PEのメモリ
内アドレスを指定し、かつデータとそのECCをメモリ
105Aに書き込む。ヘッダとデータに1ビットエラー
があるとき、該解読装置108Aでヘッダとデータを訂
正して線130Aへの出力は0にし、線113Aから受
信先PE102Aのメモリ内アドレスを指定し、かつデ
ータとそのECCをメモリ105Aに書き込む。
【0018】(2)訂正不可能なデータを受信したとき
の受信側PEの動作(診断時の動作) 受信PE102Aにおいて、ヘッダとデータが2ビット
以上のエラーのとき、ECC解読装置108Aは線13
0Aへの出力を1にして、自PE102A内のデータ処
理装置103Aと、データ通信路101内の制御線11
1を通じて他のPE102Aへ訂正不可能なエラーを検
出したことを通知する。また、受信したデータとそのE
CCはメモリ105Aに書き込まない。このとき、制御
線111と線130Aは共に1であるので、自PE10
2A内の線119Aは0である。自PE102A内のデ
ータ処理装置103Aは、線130Aが1で線119A
が0の信号を受けたとき、線133Aを使ってECC生
成装置131Aの動作を抑止する。そして線122Aと
線132Aを通してヘッダと検出プロセッサ番号(これ
は自プロセッサ番号に等しい)とそれぞれのパリティを
送信装置109Aに送る。送信装置109Aは、ヘッダ
と検出PE番号とそれぞれのパリティを合わせてメッセ
ージとして、図2(2)の(a)のような通信形式で故
障通知用メッセージをデータ通信路101に送出する。 このメッセージは、以下の項目からなる。
【0019】送信種134Cの1は、受信先PE102
Aが全てであることを示している。検出PE番号139
は、エラーを検出したPEの番号を示している。
【0020】パリティコード143Aは、主に検出PE
番号とヘッダのそれぞれに対するものからなる。
【0021】(3)データ通信路内の故障判別〔1〕(
診断時の動作) データ通信路101に送出したメッセージは、他のPE
102Aに到着する。このとき、メッセージが故障箇所
の経路を通過することも考えられ、この転送だけで故障
箇所を特定できる場合もありうる。これは、データ通信
路101内のパリティ解読装置104A〜Dがパリティ
コードを解読し、線123A〜Dを伝って解読結果をS
VP114に送る。SVP114は、制御線111が1
であるときに入力線123A〜Dの解読結果を有効と判
断するためである。
【0022】(4)受信側PE以外のPEの動作(診断
時の動作) 他のPE102Aに到着したメッセージを受信装置11
0Aがヘッダと検出PE番号に分解する。分解したヘッ
ダと検出PE番号は、線112Aを通ってECC解読装
置108Aに伝わる。このときデータ通信路101内の
制御線111が1で、線130Aが0であるため、該装
置108Aに入力する線119Aが1であると、該装置
108AはECCチェックせずにメモリ105A内の固
定アドレスを指定して、検出PE番号をメモリ105A
に書き込む。他のPE102Aのデータ処理装置103
Aは、線130Aが0で線119Aが1の信号を受けた
とき、線115Aから固定アドレスを指定してメモリ1
05Aより検出PE番号を読み出す。ECC解読装置1
08Bの入力線119Aが1のとき、線114Aを通っ
た検出PE番号は、ECC解読装置108BでECCチ
ェックせずに、線117Aを通ってデータ処理装置10
3Aで受け取る。データ処理装置103Aは、線118
Aを通して診断用レジスタ106Aのデータの出力指示
と、線133Aを使ってECC生成装置131Aの動作
を抑止する。そして線132Aと線122Aを通してヘ
ッダとそのパリティコードを送信装置109Aに送る。 線119Aが1であると、転送データ切り換え装置10
7Aの入力は、診断用レジスタ106Aになり、該装置
107Aは診断用データとそのパリティコードとを線1
32Aと線120Aを通って送信装置109Aに送る。 送信装置109Aは、ヘッダと診断用データとそれぞれ
のパリティコードを合わせてメッセージとして、第2図
(2)の(b)のような通信形式でデータ通信路111
に送出する。(b)は他のPE102Aが検出PE10
2Aへ診断用データを送信するときの通信形式で、以下
の項目からなる。
【0023】送信種134Dの0は、受信先PE102
Aが1つであることを示している。受信先PE番号13
5Bとしては、故障通知用メッセージに含まれた検出P
E番号をそのまま用いる。
【0024】送信元PE番号139Cは、他のPE10
2Aのうちの送信元PE番号を示している。
【0025】診断用データ142は、診断用レジスタ1
06A内のデータである。
【0026】パリティコード143Bは、主に診断用デ
ータとヘッダの2種類である。
【0027】(5)データ通信路内の故障判別〔2〕(
診断時の動作) 各PEから送出された診断用メッセージに対しては、そ
のメッセージ内の送信種と受信先PE番号から経路が一
意に決まるため、訂正不可能なエラーが検出されたメッ
セージを先に送信したPE102Aから、送信された診
断用メッセージは、訂正不可能なエラーが検出されたメ
ッセージが先に通過したのと同一の経路を通って、先の
エラー検出元PE102Aに到着する。このとき、デー
タ通信路101内のパリティ解読装置104A〜Dがパ
リティコードを解読し、線123A〜Dを伝って解読結
果をSVP114に送る。SVP114は、制御線11
1が1なので、入力線123A〜Dの解読結果を有効と
判断する。
【0028】以上の動作により、SVP114にて誤り
があった箇所を特定できる。
【0029】上記の通常動作時に、データの1ビット誤
りを訂正できるECCをデータ等に付加しているが、こ
れと同等以上の機能を備えたECCでもよい。例えば、
データの2ビット以下の誤りを訂正し、3ビット以上の
誤りを訂正できないECCである。
【0030】なお、データ通信路内にパリティ解読装置
104A〜Dを用いて障害個所を特定することによって
、1ビット誤りを訂正するECC解読装置を用いた場合
と比較して、1/10程度の規模の論理回路で実現でき
る。
【0031】
【発明の効果】本発明は、以上説明したように構成され
ているので、以下に記載されるような効果がある。
【0032】誤り検出が可能で訂正が不可能なコードを
解読する手段が小規模の論理回路で構成できるので、デ
ータ通信路内の多くの個所にこの手段を設けることによ
って、誤り個所の特定が容易になる。
【0033】誤り検出と訂正が可能なコードを解読する
手段をプロセッサ内に設けることによって、データ通信
路内でデータの誤りが発生しても訂正可能なコードをデ
ータに付加し、受信側のプロセッサで訂正できるので、
プロセッサの停止やデータの再転送低減できる。
【図面の簡単な説明】
【図1】本発明の一実施例の全体構成をあらわす並列プ
ロセッサ。
【図2】通常動作時と診断動作時のメッセージの形式の
一実施例。
【図3】データ通信路を2次元の2×2PEのハイパク
ロスバネットワークで実現した場合の一実施例の全体構
成をあらわす並列プロセッサ。
【図4】該図3の構成におけるクロスバスイッチの構成
【図5】該図3の構成におけるスイッチの構成。
【符号の説明】
101…データ通信路、102A…PE、103A…デ
ータ処理装置、104A〜D…パリティ解読装置、10
5A…メモリ、106A…診断用レジスタ、107A…
転送データ切り替え装置、108A,B…ECC解読装
置、109A…送信装置、110A…受信装置、111
…制御線、113…ホストプロセッサ、114…SVP
、124A〜D…2×2のスイッチ、125A〜D…3
×3のクロスバスイッチ、131A…ECC生成装置。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】データを他のプロセッサとの間で転送する
    ための送受信装置と、データを処理するデータ処理装置
    から成るプロセッサを複数台並べ、異なるプロセッサ間
    でデータ転送を行なうことができるデータ通信路を設け
    た並列プロセッサにおいて、該データ通信路内の複数個
    所にそこを通るデータの誤り検出用の、しかし誤り訂正
    に用いられないコードをそれぞれ解読する複数の誤り検
    出手段を設け、各プロセッサ内に送信データに誤り訂正
    用のコードを付して送信する手段と、受信データに付さ
    れた誤り訂正用のコードを解読し、受信データに訂正可
    能な誤りがあるとき、これを訂正する誤り訂正手段と、
    該受信データの誤りが該誤り訂正手段により訂正不可能
    なとき、データの誤り発生を他のプロセッサに通知する
    手段と、いずれか一つのプロセッサからデータの誤り発
    生の通知を受けたとき、誤り発生の通知をした該一つの
    プロセッサに向けて誤り検出用の、しかし誤り訂正に用
    いられないコードを付した診断用データを送出する手段
    とを設け、さらに、該複数の誤り検出手段のいずれによ
    り、いずれかのプロセッサから送出された診断用データ
    の誤りを検出したかを監視する手段を設けたことを特徴
    とする並列プロセッサ。
JP3043202A 1991-03-08 1991-03-08 並列計算機 Pending JPH04280352A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3043202A JPH04280352A (ja) 1991-03-08 1991-03-08 並列計算機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3043202A JPH04280352A (ja) 1991-03-08 1991-03-08 並列計算機

Publications (1)

Publication Number Publication Date
JPH04280352A true JPH04280352A (ja) 1992-10-06

Family

ID=12657348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3043202A Pending JPH04280352A (ja) 1991-03-08 1991-03-08 並列計算機

Country Status (1)

Country Link
JP (1) JPH04280352A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010064286A1 (ja) * 2008-12-01 2010-06-10 富士通株式会社 制御回路、情報処理装置及び情報処理装置の制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010064286A1 (ja) * 2008-12-01 2010-06-10 富士通株式会社 制御回路、情報処理装置及び情報処理装置の制御方法
JP5152340B2 (ja) * 2008-12-01 2013-02-27 富士通株式会社 制御回路、情報処理装置及び情報処理装置の制御方法

Similar Documents

Publication Publication Date Title
US20030208704A1 (en) High integrity recovery from multi-bit data failures
WO2011036727A1 (ja) メモリシステム及びメモリシステムの制御方法
JPH0223888B2 (ja)
JPS5875253A (ja) デ−タ処理装置における障害処理機構
US6823476B2 (en) Mechanism to improve fault isolation and diagnosis in computers
US7774638B1 (en) Uncorrectable data error containment systems and methods
JPH01293450A (ja) 障害装置特定システム
US8644136B2 (en) Sideband error signaling
US5269016A (en) Byzantine resilient fault tolerant shared memory data processing system
US7162545B2 (en) Duplexed processor system
JPS6235704B2 (ja)
JPH02199938A (ja) データ伝送誤り検出方式
US20050204193A1 (en) Dynamic interconnect width reduction to improve interconnect availability
JPH04280352A (ja) 並列計算機
US7243257B2 (en) Computer system for preventing inter-node fault propagation
US7478262B2 (en) Method for allowing distributed high performance coherent memory with full error containment
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JPH10117193A (ja) データ伝送システム
JPS62208152A (ja) 冗長化並列伝送装置
JPH01106247A (ja) メモリカード
JPS61243549A (ja) 誤り検出訂正方式
JPH0638239B2 (ja) 誤り訂正機構
JPS63247854A (ja) 記憶装置
JPH02171845A (ja) バス方式
JPH0760391B2 (ja) 誤り訂正機構