JPH0690682B2 - マルチプロセツサシステムの障害処理方式 - Google Patents

マルチプロセツサシステムの障害処理方式

Info

Publication number
JPH0690682B2
JPH0690682B2 JP62044079A JP4407987A JPH0690682B2 JP H0690682 B2 JPH0690682 B2 JP H0690682B2 JP 62044079 A JP62044079 A JP 62044079A JP 4407987 A JP4407987 A JP 4407987A JP H0690682 B2 JPH0690682 B2 JP H0690682B2
Authority
JP
Japan
Prior art keywords
cache memory
memory
failure
failure processing
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62044079A
Other languages
English (en)
Other versions
JPS63213048A (ja
Inventor
達郎 橋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62044079A priority Critical patent/JPH0690682B2/ja
Priority to US07/160,757 priority patent/US4920479A/en
Publication of JPS63213048A publication Critical patent/JPS63213048A/ja
Publication of JPH0690682B2 publication Critical patent/JPH0690682B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring
    • G11C29/88Masking faults in memories by using spares or by reconfiguring with partially good memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は,マルチプロセッサシステムの情報処理装置に
関し,特にストアイン方式のキャッシュメモリを有する
メモリ制御装置の障害処理方式に関する。
〔従来の技術〕
ストアイン方式とは従来周知の技術であり,簡略に説明
すると,主記憶装置の内容とキャッシュメモリの内容が
通常は異っているもので,新たに主記憶装置の内容を必
要としてキャッシュメモリに空き領域がないときにキャ
ッシュメモリの内容が主記憶装置に戻されるというもの
である。従来,この種のメモリ制御装置においては,キ
ャッシュメモリがストアイン方式を採用している場合,
該メモリ制御装置に障害が発生した場合,キャッシュメ
モリの内容を主記憶装置に書き戻す手段がなかった。
〔発明が解決しようとする問題点〕
上述した従来のメモリ制御装置は,メモリ制御装置に障
害が発生した場合にキャッシュメモリの内容を主記憶装
置に書き戻す手段がないため,メモリ制御装置のキャッ
シュメモリ部以外に障害が発生しても,つまりキャッシ
ュメモリの内容が保証されていても,その内容を主記憶
装置に戻しかつ該メモリ制御装置を切離してシステムの
動作の続行が出きず,システムが停止してしまうという
欠点があった。
〔問題点を解決するための手段〕
本発明によるマルチプロセッサシステムの障害処理方式
は,主記憶装置と複数の演算処理装置及び複数の入出力
処理装置と接続されかつストアイン方式のキャッシュメ
モリを有するメモリ制御装置と,前記各装置と診断イン
タフェースを介して接続され,前記各装置の障害発生時
の救済を行う障害処理装置とから構成される情報処理シ
ステムを2つ有し,各々前記メモリ制御装置,障害処理
装置間で接続されるマルチプロセッサシステムにおい
て,前記キャッシュメモリの内容を前記障害処理装置が
前記診断インタフェースを介して読み出し可能とするキ
ャッシュメモリ読み出し手段と,前記障害処理装置から
前記診断インタフェースを介してキャッシュメモリを書
き換え可能とするキャッシュメモリ書き込み手段と,前
記2つの障害処理装置間でデータ転送を可能とする障害
処理装置間通信手段とを有し,前記メモリ制御装置に障
害が発生した場合に前記キャッシュメモリの内容を障害
処理装置から取り出し,他系障害処理装置を経由して,
他系の前記メモリ制御装置の前記キャッシュメモリに転
送することを可能とする。
〔実施例〕
次に本発明の実施例について図面を参照して説明する。
第1図は本発明の一実施例の構成を示すブロック図であ
る。
主記憶装置(MEM)1−1,1−2は,通常はメモリ制御装
置(MCU)2−1,2−2とそれぞれ接続されるが,故障等
によりMCUの1台が使用不可能な場合には,1台のMCUに2
台のMEMを図中の1点鎖線により接続することが可能で
ある。キャッシュメモリは,キャッシュメモリアドレス
部10−1,10−2とキャッシュメモリデータ部11−1,11−
2とから構成され,演算処理装置(EPU)4−1,4−2又
は入出力処理装置(図示しない)等の主記憶アクセスの
データバッファとして使用される。障害処理装置(DG
P)3−1,3−2は,各装置の障害救済処理,障害情報収
集処理等を行う。
次に動作について説明する。
MEM1−1,1−2とMCU2−1,2−2は第1図の実線で示すよ
うに接続されているものとし,この状態のときEPU4−1
がMEM1−1からデータを読み出し又はMEM1−1へデータ
を書き込む場合はキャッシュメモリデータ部11−1を,M
EM1−2からデータを読み出し又はMEM1−2へデータを
書き込む場合はキャッシュメモリデータ部11−2をそれ
ぞれ使用する。このとき,読み出しでキャッシュメモリ
がヒットしなかった場合,キャッシュメモリデータ部11
−1であれば,MEM1−1からデータがある単位でキャッ
シュメモリデータ部11−1に読み込まれるが,それに先
立ち該当するキャッシュメモリデータ部11−1の内容が
MEM11−1に書き戻される。このようにして通常の動作
が行われる。従って,キャッシュメモリデータ部11−1
はMEM1−1のデータバッファとしてキャッシュメモリデ
ータ部11−2はMEM1−2のデータバッファとして使用さ
れる。
次にこの状態でMCU2−1のキャッシュメモリを除く部分
に障害が発生した場合について示す。
MCU2−1に障害が発生すると,DGP3−1にその旨が通知
される。DGP3−1はキャッシュメモリの内容が保証でき
ることを確認した後,システムを一次停止してキャッシ
ュメモリアドレス部10−1及びキャッシュメモリデータ
部11−1を順次読み出し,DGP3−1とDGP3−2間の通信
手段によりデータ転送を行う。DGP3−2は,データの受
信を行うと,そのデータを相対するキャッシュメモリア
ドレス部10−2及びキャッシュメモリデータ部11−2に
書き込みを行う。DGP3−2はこのキャッシュメモリの書
き込みに先立ちキャッシュメモリデータ部11−2のMEM1
−2へのスワップアウト(はき出し)を通常のスワップ
アウト回路を使用して行う。
以上のようにしてキャッシュメモリデータ部11−2の内
容はMEM1−2へ書き戻され又キャッシュメモリデータ部
11−1の内容はキャッシュメモリ11−2へ移される。そ
の後に,DGP3−2は,MEM1−1をMCU2−2へ接続替えを行
う(図中一点鎖線で示すインタフェースを有効とす
る)。これはインタフェース有効,無効フラグを切替え
ることにより論理的に行われる。以後システムの動作を
再開する。
次に前述したキャッシュメモリの読み出し及び書き込み
について第2図を使用して説明する。
キャッシュメモリの読み出し及び書き込みは,障害が発
生した状態で行うため,少量の回路により実現する必要
がある。
第2図は一般的に図示したランダムアクセスメモリ(RA
M)の読み出し方法を示した図である。RAM20は,書き込
みアドレスレジスタ21及び書き込みデータレジスタ22及
び読み出しデータレジスタ23を備えている。尚,以上の
各レジスタは,フリップフロップ単位でチェインを構成
し,DGP3からのデータのスキャンイン,スキャンアウト
動作が可能である。今,RAM20の内容の読み出しを行おう
とする場合,書き込みアドレスレジスタ21にRAM20の所
望のアドレスが入るようにスキャンイン動作を行い,次
に読み出しデータレジスタ23にクロックを1つ発行する
ことにより,所望のデータがセットされる。この読み出
しデータレジスタ23の内容はスキャンアウト動作を行う
ことにより取り出される。
〔発明の効果〕
以上説明したように本発明は障害の発生したMCUのキャ
ッシュメモリの内容を正常なMCUへ移送することを可能
とすることにより,主記憶装置の内容が継続的に保証で
き,システム停止となることを回避できるという効果が
ある。又,周知の技術であるプロセッサリリーフ機能と
併用することも可能である。この場合は,障害の発生し
たMCU配下のEPUで実行していたジョブのアボート(異常
終了)も回避できる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図,第
2図はキャッシュメモリの書き込み,読み出しを行うた
めの回路構成図である。 1−1,1−2……主記憶装置(MEM),2−1,2−2……メ
モリ制御装置(MCU),3−1,3−2……障害処理装置(DG
P),4−1,4−2……演算処理装置(EPU),10−1,10−2
……キャッシュメモリアドレス部,11−1,11−2……キ
ャッシュメモリデータ部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】主記憶装置と,複数の演算処理装置及び複
    数の入出力処理装置と接続されかつストアイン方式のキ
    ャッシュメモリを有するメモリ制御装置と,前記各装置
    と診断インタフェースを介して接続され,前記各装置の
    障害発生時の救済を行う障害処理装置とから構成される
    情報処理システムを2つ有し,各々前記メモリ制御装
    置,障害処理装置間で接続されるマルチプロセッサシス
    テムにおいて,前記キャッシュメモリの内容を前記障害
    処理装置が前記診断インタフェースを介して読み出し可
    能とするキャッシュメモリ読み出し手段と,前記障害処
    理装置から前記診断インタフェースを介してキャッシュ
    メモリを書き換え可能とするキャッシュメモリ書き込み
    手段と,前記2つの障害処理装置間でデータ転送を可能
    とする障害処理装置間通信手段とを有し,前記メモリ制
    御装置に障害が発生した場合に前記キャッシュメモリの
    内容を障害処理装置から取り出し,他系障害処理装置を
    経由して,他系の前記メモリ制御装置の前記キャッシュ
    メモリに転送することを可能とするマルチプロセッサシ
    ステムの障害処理方式。
JP62044079A 1987-02-28 1987-02-28 マルチプロセツサシステムの障害処理方式 Expired - Lifetime JPH0690682B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62044079A JPH0690682B2 (ja) 1987-02-28 1987-02-28 マルチプロセツサシステムの障害処理方式
US07/160,757 US4920479A (en) 1987-02-28 1988-02-26 Multiprocessor system with storage control units including buffer storage units comprising an error recovery system for storage control units

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62044079A JPH0690682B2 (ja) 1987-02-28 1987-02-28 マルチプロセツサシステムの障害処理方式

Publications (2)

Publication Number Publication Date
JPS63213048A JPS63213048A (ja) 1988-09-05
JPH0690682B2 true JPH0690682B2 (ja) 1994-11-14

Family

ID=12681615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62044079A Expired - Lifetime JPH0690682B2 (ja) 1987-02-28 1987-02-28 マルチプロセツサシステムの障害処理方式

Country Status (2)

Country Link
US (1) US4920479A (ja)
JP (1) JPH0690682B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185877A (en) * 1987-09-04 1993-02-09 Digital Equipment Corporation Protocol for transfer of DMA data
US5068780A (en) * 1989-08-01 1991-11-26 Digital Equipment Corporation Method and apparatus for controlling initiation of bootstrap loading of an operating system in a computer system having first and second discrete computing zones
US5251227A (en) * 1989-08-01 1993-10-05 Digital Equipment Corporation Targeted resets in a data processor including a trace memory to store transactions
US5163138A (en) * 1989-08-01 1992-11-10 Digital Equipment Corporation Protocol for read write transfers via switching logic by transmitting and retransmitting an address
US5068851A (en) * 1989-08-01 1991-11-26 Digital Equipment Corporation Apparatus and method for documenting faults in computing modules
US5153881A (en) * 1989-08-01 1992-10-06 Digital Equipment Corporation Method of handling errors in software
US5068852A (en) * 1989-11-23 1991-11-26 John Fluke Mfg. Co., Inc. Hardware enhancements for improved performance of memory emulation method
US5649090A (en) * 1991-05-31 1997-07-15 Bull Hn Information Systems Inc. Fault tolerant multiprocessor computer system
EP0596144A1 (en) * 1992-10-07 1994-05-11 International Business Machines Corporation Hierarchical memory system for microcode and means for correcting errors in the microcode
JPH06214897A (ja) * 1992-12-14 1994-08-05 E Syst Inc 誤り状態検出時に周辺装置に記憶したデータの損失を最少にする方法
US5771367A (en) * 1992-12-17 1998-06-23 International Business Machines Corporation Storage controller and method for improved failure recovery using cross-coupled cache memories and nonvolatile stores
US6047384A (en) * 1995-07-21 2000-04-04 Siemens Aktiengesellschaft Rapid recovery and start-up system for peripheral systems
US5748871A (en) * 1995-08-11 1998-05-05 Symbios Logic Inc. Dual bus architecture for a storage device
JP2004302713A (ja) * 2003-03-31 2004-10-28 Hitachi Ltd 記憶システム及びその制御方法
JP2005071196A (ja) * 2003-08-27 2005-03-17 Hitachi Ltd ディスクアレイ装置、及びその障害情報の制御方法
US7549029B2 (en) * 2005-05-06 2009-06-16 International Business Machines Corporation Methods for creating hierarchical copies
JP2012083992A (ja) * 2010-10-13 2012-04-26 Nec Computertechno Ltd データ障害処理装置、及びデータ障害処理方法
JP5748214B2 (ja) * 2011-07-14 2015-07-15 日本電気通信システム株式会社 二重化情報処理システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4099241A (en) * 1973-10-30 1978-07-04 Telefonaktiebolaget L M Ericsson Apparatus for facilitating a cooperation between an executive computer and a reserve computer
US4351023A (en) * 1980-04-11 1982-09-21 The Foxboro Company Process control system with improved system security features
JPS5717019A (en) * 1980-07-07 1982-01-28 Fanuc Ltd Numerical controller
JPS6053339B2 (ja) * 1980-10-09 1985-11-25 日本電気株式会社 論理装置のエラ−回復方式
US4371754A (en) * 1980-11-19 1983-02-01 Rockwell International Corporation Automatic fault recovery system for a multiple processor telecommunications switching control
IT1151351B (it) * 1982-01-19 1986-12-17 Italtel Spa Disposizione circuitale atta a realizzare lo scambio di dati tra una coppia di elaboratori operanti secondo il principio master-slave
DE3215177A1 (de) * 1982-04-23 1983-10-27 Hartmann & Braun Ag, 6000 Frankfurt Ueberwachungssystem fuer eine oder mehrere, gleichartig aufgebaute prozessstationen
US4466098A (en) * 1982-06-11 1984-08-14 Siemens Corporation Cross channel circuit for an electronic system having two or more redundant computers
US4684885A (en) * 1985-11-04 1987-08-04 Get Communication Systems Corporation Arrangement for on-line diagnostic testing of an off-line standby processor in a duplicated processor configuration
US4751702A (en) * 1986-02-10 1988-06-14 International Business Machines Corporation Improving availability of a restartable staged storage data base system that uses logging facilities

Also Published As

Publication number Publication date
US4920479A (en) 1990-04-24
JPS63213048A (ja) 1988-09-05

Similar Documents

Publication Publication Date Title
JPH0690682B2 (ja) マルチプロセツサシステムの障害処理方式
JPH01154242A (ja) 二重ゾーンの耐欠陥コンピュータシステム
JP2996440B2 (ja) データ処理システムの診断方式
US4835684A (en) Microcomputer capable of transferring data from one location to another within a memory without an intermediary data bus
JPS6389961A (ja) セマフォ回路
US4953131A (en) Unconditional clock and automatic refresh logic
JPH10133938A (ja) クラスタ間共有メモリアクセス方式
JPH11272627A (ja) パイプライン型マルチプロセッサシステム
JPH0652067A (ja) マルチポートramチェック制御方法
JPH02132543A (ja) 情報処理装置
JP2890426B2 (ja) 情報処理装置
JP2520158B2 (ja) ディジタルシグナルプロセッサのデバッグ方式
JP2635637B2 (ja) システム内メモリの試験装置
JPS63278159A (ja) 情報処理装置
JPS6144352B2 (ja)
EP0369935A2 (en) Multiple posting cache memory
JPS63155347A (ja) メモリ診断補助回路
JPS60549A (ja) メモリ試験方式
JPH0324640A (ja) 情報処理装置のデバッグ方式
JPS5847055B2 (ja) 情報処理装置の故障診断方法
JPS5984290A (ja) 画像表示装置
JPH03175770A (ja) 並行データ試験方法
JPH02161536A (ja) バスインタフェース装置
JPH03233780A (ja) バスアクセス方式
JPH05210598A (ja) コンピューターのメモリ試験方法