JPH11134211A - 二重化コンピュータシステムおよびその運用方法 - Google Patents

二重化コンピュータシステムおよびその運用方法

Info

Publication number
JPH11134211A
JPH11134211A JP9298928A JP29892897A JPH11134211A JP H11134211 A JPH11134211 A JP H11134211A JP 9298928 A JP9298928 A JP 9298928A JP 29892897 A JP29892897 A JP 29892897A JP H11134211 A JPH11134211 A JP H11134211A
Authority
JP
Japan
Prior art keywords
fault
main storage
function device
self
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9298928A
Other languages
English (en)
Other versions
JP3156654B2 (ja
Inventor
Katsumi Tanaka
克美 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP29892897A priority Critical patent/JP3156654B2/ja
Publication of JPH11134211A publication Critical patent/JPH11134211A/ja
Application granted granted Critical
Publication of JP3156654B2 publication Critical patent/JP3156654B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 主記憶障害が発生した場合にその障害を特定
しエラーの訂正やメモリの縮退を実行してシステムの運
用を継続し、その間に二重化システムへの復旧を図るよ
うにした二重化コンピュータシステムおよびその運用方
法を提供する。 【解決手段】 障害検出手段a11が主記憶装置の障害
を検出した場合にステータス保持手段a13を参照して
他機能装置b2が正常な状態にある時には出力抑止手段
a19によって処理を継続し,前記他機能装置b2が正
常な状態にない時には前記障害が訂正可能であればエラ
ー訂正手段a17によって前記障害を訂正して処理を継
続する。さらに、他機能装置b2が正常な状態にない場
合に自機能装置a1の主記憶装置の障害が訂正不能の固
定的な障害の時には前記障害を含むメモリブロックを切
り離して処理を継続する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は二重化コンピュータ
システムおよびその運用方法に関し、特に主記憶装置の
障害時の処理に適応する二重化コンピュータシステムお
よびその運用方法に関する。
【0002】
【従来の技術】従来、二重化コンピュータシステムは処
理内容の高度化とともにその信頼性の向上を図るために
活用されている。そして、その運用においては、通常、
緻密な障害対策や復旧方法が策定されている。
【0003】たとえば、特開平8−22398号公報に
よれば、A系およびB系を有する二重化コンピュータシ
ステムにおいて、いずれかの系が正常であればその系に
よって片系運転を継続し、その間に異常な系の復旧を図
り二重化系に戻すようにしている。さらに片系運転中に
障害が発生した場合には、無条件にシステムダウンにし
ている。なお、障害が主記憶装置に発生した場合にも、
上記と同様な手順で運用している。
【0004】
【発明が解決しようとする課題】上記のような従来の二
重化コンピュータシステムは次の問題点を有する。
【0005】すなわち、二重化された機能装置が同期し
て動作するコンピュータシステムにおいては、主記憶も
二重化されているので、片系で主記憶の訂正可能障害が
発生しても両系の同期を取るために障害の訂正を行わ
ず、また当該障害が固定的障害であっても主記憶を縮退
せず、単純に障害となった系を切り離し正常な他系によ
り動作を継続する方式がとられている。したがって主記
憶の障害によって片系で動作を継続中に更なる主記憶障
害が発生した場合には即座にシステムダウンとなってし
まう。
【0006】その理由は両系で同期して動作中に片系で
主記憶障害が発生した場合に、訂正可能障害時に障害系
のエラー訂正を行うと、正常な系と同期ずれを起こす。
また、障害系と正常系が同期ずれを起こさないようにす
るためには、障害系からビジー信号を正常系に対し発行
し正常系を待たせる制御が必要となり、制御が複雑とな
るとともに障害系の訂正のための余分な訂正サイクルが
発生し、性能劣化の要因となる。さらに、当該障害が固
定的に発生した場合でも、メモリディアロケートによる
主記憶の縮退運転を行うと、両系の同期をとる為に、正
常な系の主記憶までも縮退してしまう。したがって主記
憶資源の有効活用ができず、性能の劣化になる。
【0007】本発明の目的は、上記の欠点を改善し、主
記憶障害が発生した場合にその障害を特定しエラーの訂
正やメモリの縮退を実行してシステムの運用を継続し、
その間に二重化システムへの復旧を図るようにした二重
化コンピュータシステムおよびその運用方法を提供する
ことにある。
【0008】
【課題を解決するための手段】本発明の二重化コンピュ
ータは、中央処理装置,主記憶装置,および入出力制御
装置をそれぞれ含む第一および第二の機能装置を複数の
バスによって相互に接続し同期して動作する二重化コン
ピュータシステムにおいて、前記第一および第二の機能
装置はそれぞれ、自機能装置の障害を検出する障害検出
手段と、前記障害を検出したとき自機能装置の出力を抑
止する出力抑止手段と、他機能装置が障害によってシス
テムから切り離されたか否かを自機能装置に示すステー
タス保持手段と、自機能装置の主記憶装置の障害が訂正
可能の場合には前記障害を訂正し処理を継続させるエラ
ー訂正手段と、前記障害検出手段が主記憶装置の障害を
検出した場合に前記ステータス保持手段を参照して他機
能装置が正常な状態にある時には前記出力抑止手段によ
って処理を継続し,前記他機能装置が正常な状態にない
時には前記障害が訂正可能であれば前記エラー訂正手段
によって前記障害を訂正して処理を継続する制御手段
と、主記憶装置が外部に送出するデータ信号を前記制御
手段の指示に従って切り替えるセレクタとを有して構成
される。
【0009】さらに、本発明の二重化コンピュータシス
テムにおいて、前記制御手段は他機能装置が正常な状態
にない場合に自機能装置の主記憶装置の障害が訂正不能
の固定的な障害の時には前記障害を含むメモリブロック
を切り離して処理を継続するメモりディアロケーション
機能を具備する。
【0010】さらに、本発明の二重化コンピュータシス
テムにおいて、前記主記憶装置は複数個のメモリブロッ
クを有し、前記メモリブロック単位に切り離して主記憶
を再構成する機能を備える。
【0011】また、本発明の二重化コンピュータシステ
ムの運用方法は、中央処理装置,主記憶装置,および入
出力制御装置をそれぞれ含む第一および第二の機能装置
を複数のバスによって相互に接続し同期して動作する二
重化コンピュータシステムの運用方法において、前記第
一および第二の機能装置はそれぞれ、自機能装置の障害
を検出する障害検出手段と、前記障害を検出したとき自
機能装置の出力を抑止する出力抑止手段と、他機能装置
が障害によってシステムから切り離されたか否かを自機
能装置に示すステータス保持手段と、自機能装置の主記
憶装置の障害が訂正可能の場合には前記障害を訂正し処
理を継続させるエラー訂正手段とを備え、前記障害検出
手段が主記憶装置の障害を検出した場合に前記ステータ
ス保持手段を参照して他機能装置が正常な状態にある時
には前記出力抑止手段によって出力を抑止するとともに
自機能装置をシステムから切り離し他機能装置によって
処理を継続し,前記他機能装置が正常な状態にない時に
は前記障害が訂正可能であれば前記エラー訂正手段によ
って前記障害を訂正して処理を継続するようにして実現
される。
【0012】さらに、本発明の二重化コンピュータシス
テムの運用方法において、他機能装置が正常な状態にな
い場合に自機能装置の主記憶装置の障害が訂正不能の固
定的な障害の時には前記障害を含むメモリブロックを切
り離して処理を継続するメモりディアロケーションを実
行するようにして構成される。
【0013】
【発明の実施の形態】以下、本発明について図面を参照
しながら説明する。
【0014】図1は本発明の実施の一形態を示すブロッ
ク図である。同図において、本発明による二重化コンピ
ュータシステムは、中央処理装置(以下、CPUとい
う。)a5と主記憶装置a7と入出力制御装置(以下、
IOPという。)a25とから構成される機能装置a1
と、前記機能装置a1と同期して動作する。CPUb6
と主記憶装置b8とIOPb26とから構成される機能
装置b2と、前記機能装置a1およびb2の構成要素で
あるCPUa5およびb6,主記憶装置a7およびb
8,IOPa25およびb26の各々に接続され各構成
要素間のデータ転送を行うバスa3およびb4とから構
成されている。
【0015】そして、主記憶装置a7は、主記憶部a9
と、主記憶部a9の障害を検出する障害検出手段a11
と、他系の主記憶部に障害があった事が検出され他系の
主記憶装置がシスイテムから切り離されたことを保持す
るステータス保持手段a13と、主記憶部a9が訂正可
能障害となった場合にエラー訂正を行い訂正後のデータ
を送出するエラー訂正回路a17と、主記憶部a9が障
害となった場合に出力抑止を行う出力抑止回路a19
と、主記憶部a9の出力,エラー訂正回路a17の出
力,あるいは出力抑止回路a19の出力を選択するセレ
クタa21と、障害検出手段a11により主記憶部a9
の障害が検出された場合にステータス表示手段a13の
ステータスをチェックしセレクタa21へ選択指示を出
す制御手段a15とを備える。
【0016】同様に主記憶装置b8は、主記憶部b10
と、障害検出手段b12と、ステータス保持手段b14
と、エラー訂正回路b18と、出力抑止回路b20と、
セレクタb22と、制御手段b16とを備える。
【0017】図2は上記の二重化コンピュータシステム
の動作を示す流れ図である。
【0018】まず、二重化コンピュータシステムの各構
成要素が完全に同期して動作しているものとする。この
ときに、主記憶部a9で障害が発生した場合、障害検出
手段a11にて障害を検出する(S31)。次に、主記
憶部a9の障害が検出されると、制御手段a15にて、
ステータス保持手段a13の内容から二重化両系動作中
か、片系動作中かをテストする(S32)。
【0019】ここでは、二重化動作中であった事からテ
スト結果はNOとなり、制御手段a15は出力抑止回路
a19の出力を選択するようセレクタa21を制御する
(S33)。従って、バスa3およびb4へは主記憶装
置a7からの出力は送出されずシステムから切り離され
た状態となり、主記憶装置b8側のみ出力され、システ
ムとしては主記憶部a9の障害に影響されず動作を継続
する。
【0020】次に、主記憶装置a7はセルフテストが実
行され(S34)、間欠障害の場合はセルフテストOK
となりシステムは再組み込みが行われ(S35)、固定
障害の場合はセルフテストNGとなり障害検出手段a1
1から主記憶装置b8のステータス保持手段b14へ主
記憶装置a7が障害により切り離されたことを示すステ
ータスビットをセットする(S37)。
【0021】通常の場合、障害となった主記憶装置a7
の保守交換が行われる事により、主記憶装置a7の再組
み込みが行われ(S35)、ステータス保守手段b14
のステータスビットはリセットされ(S38,39)、
二重化動作に戻ることになる(S36)。しかしながら
保守交換が実行されるまでに、正常な片系の主記憶部b
8が障害とならないとは限らない。
【0022】次に主記憶装置a7の保守交換以前に主記
憶装置b8が障害となった場合について説明する。
【0023】障害となった主記憶装置a7をシステムか
ら切り離し、主記憶装置b8の片系動作中に主記憶装置
b8内の主記憶部b10で障害が発生すると、障害検出
手段b12が障害の発生を検出する(S31)。次に、
主記憶部b10の障害が検出されると、制御手段b16
にて、ステータス保持手段b14の内容から二重化両系
動作中か,片系動作中かをテストする(S32)。
【0024】ここでは、既に主記憶装置a7は切り離さ
れており、主記憶装置b8のみの片系動作中であること
がステータス保持手段b14によって示されているの
で、制御手段b16はエラー訂正回路b18によってエ
ラー訂正されたデータを選択するようにセレクタb22
を制御する。
【0025】エラー訂正回路b18では、主記憶部b1
0の障害が訂正可能障害であった場合はエラー訂正を行
うが(S40,41)、訂正不可障害の場合は正常なデ
ータを送出できないためシステムダウンとなる(S4
4)。訂正可能な障害の場合、エラー訂正回路b18で
訂正されたデータはセレクタb22に送出され、通常エ
ラー訂正のためのデータ生成のサイクルが必要になり性
能は劣化するが、制御手段b16の指示により訂正され
た正常なデータをバスa3およびb4に供給でき、処理
を継続することが可能となる。
【0026】またエラー訂正回路b18では、訂正した
主記憶アドレスを登録しておき、同一ブロックのアドレ
スが頻繁に障害となっている場合は、当該ブロックの固
定障害であることを検知し(S41,42)、当該ブロ
ックを無効化するメモリーディアロケーションを実行す
る(S43)。この場合、主記憶内容を縮退することに
なるが、訂正不可エラーの発生確率を低下させ、信頼性
を向上させながら処理を継続することができる。
【0027】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、二重化された両系で同期動作を実行中に主記憶
障害が発生した場合には、障害となった系を切り離し正
常な系で処理を継続することにより、性能劣化を防ぐと
ともに論理的な主記憶容量を縮退する事なく動作を継続
できる。さらに、片系動作時に主記憶障害が発生した場
合には、訂正可能な障害の場合はエラー訂正を行い、か
つ当該障害が固定障害の場合には主記憶をディアロケー
トする事で縮退運転を行い、処理を継続可能とし信頼性
を向上させる事ができる。
【0028】その理由は、二重化された両系で動作中
か,他系の障害により自系のみでの片系動作中かを示す
ステータス表示手段を持ち、主記憶障害が発生した場合
に制御手段により前記ステータス表示手段をテストし、
両系動作時に主記憶障害が発生した場合と、片系動作時
に主記憶障害が発生した場合とで処理継続の方法を変更
するように制御を分離しているからである。
【図面の簡単な説明】
【図1】本発明の実施の一形態を示すブロック図。
【図2】本発明の主記憶障害時の動作を示す流れ図。
【符号の説明】
1 機能装置a 3 バスa 5 CPUa 7 主記憶装置a 9 主記憶部a 11 障害検出手段a 13 ステータス保持手段a 15 制御手段a 17 エラー訂正回路a 19 出力抑止回路a 21 セレクタa 25 IOPa

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 中央処理装置,主記憶装置,および入出
    力制御装置をそれぞれ含む第一および第二の機能装置を
    複数のバスによって相互に接続し同期して動作する二重
    化コンピュータシステムにおいて、前記第一および第二
    の機能装置はそれぞれ、自機能装置の障害を検出する障
    害検出手段と、前記障害を検出したとき自機能装置の出
    力を抑止する出力抑止手段と、他機能装置が障害によっ
    てシステムから切り離されたか否かを自機能装置に示す
    ステータス保持手段と、自機能装置の主記憶装置の障害
    が訂正可能の場合には前記障害を訂正し処理を継続させ
    るエラー訂正手段と、前記障害検出手段が主記憶装置の
    障害を検出した場合に前記ステータス保持手段を参照し
    て他機能装置が正常な状態にある時には前記出力抑止手
    段によって処理を継続し,前記他機能装置が正常な状態
    にない時には前記障害が訂正可能であれば前記エラー訂
    正手段によって前記障害を訂正して処理を継続する制御
    手段と、主記憶装置が外部に送出するデータ信号を前記
    制御手段の指示に従って切り替えるセレクタとを有する
    ことを特徴とする二重化コンピュータシステム。
  2. 【請求項2】 請求項1記載の二重化コンピュータシス
    テムにおいて、前記制御手段は他機能装置が正常な状態
    にない場合に自機能装置の主記憶装置の障害が訂正不能
    の固定的な障害の時には前記障害を含むメモリブロック
    を切り離して処理を継続するメモリディアロケーション
    機能を具備することを特徴とする二重化コンピュータシ
    ステム。
  3. 【請求項3】 請求項2記載の二重化コンピュータシス
    テムにおいて、前記主記憶装置は複数個のメモリブロッ
    クを有し、前記メモリブロック単位に切り離して主記憶
    を再構成する機能を備えることを特徴とする二重化コン
    ピュータシステム。
  4. 【請求項4】 中央処理装置,主記憶装置,および入出
    力制御装置をそれぞれ含む第一および第二の機能装置を
    複数のバスによって相互に接続し同期して動作する二重
    化コンピュータシステムの運用方法において、前記第一
    および第二の機能装置はそれぞれ、自機能装置の障害を
    検出する障害検出手段と、前記障害を検出したとき自機
    能装置の出力を抑止する出力抑止手段と、他機能装置が
    障害によってシステムから切り離されたか否かを自機能
    装置に示すステータス保持手段と、自機能装置の主記憶
    装置の障害が訂正可能の場合には前記障害を訂正し処理
    を継続させるエラー訂正手段とを備え、前記障害検出手
    段が主記憶装置の障害を検出した場合に前記ステータス
    保持手段を参照して他機能装置が正常な状態にある時に
    は前記出力抑止手段によって出力を抑止するとともに自
    機能装置をシステムから切り離し他機能装置によって処
    理を継続し,前記他機能装置が正常な状態にない時には
    前記障害が訂正可能であれば前記エラー訂正手段によっ
    て前記障害を訂正して処理を継続することを特徴とする
    二重化コンピュータシステムの運用方法。
  5. 【請求項5】 請求項4記載の二重化コンピュータシス
    テムの運用方法において、他機能装置が正常な状態にな
    い場合に自機能装置の主記憶装置の障害が訂正不能の固
    定的な障害の時には前記障害を含むメモリブロックを切
    り離して処理を継続するメモリディアロケーションを実
    行することを特徴とする二重化コンピュータシステムの
    運用方法。
JP29892897A 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法 Expired - Fee Related JP3156654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29892897A JP3156654B2 (ja) 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29892897A JP3156654B2 (ja) 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法

Publications (2)

Publication Number Publication Date
JPH11134211A true JPH11134211A (ja) 1999-05-21
JP3156654B2 JP3156654B2 (ja) 2001-04-16

Family

ID=17866003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29892897A Expired - Fee Related JP3156654B2 (ja) 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法

Country Status (1)

Country Link
JP (1) JP3156654B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233777A (ja) * 2006-03-02 2007-09-13 Nec Corp マルチノードコンピュータシステム、統合サービスプロセッサ及びそれらに用いる多重化制御方法
JP2013025452A (ja) * 2011-07-19 2013-02-04 Nec Computertechno Ltd メモリ試験装置、メモリ試験方法およびメモリ試験プログラム
JP2013206278A (ja) * 2012-03-29 2013-10-07 Nec Corp 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム
JP2014071668A (ja) * 2012-09-28 2014-04-21 Fujitsu Ltd 情報処理装置、起動プログラム、および起動方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233777A (ja) * 2006-03-02 2007-09-13 Nec Corp マルチノードコンピュータシステム、統合サービスプロセッサ及びそれらに用いる多重化制御方法
JP2013025452A (ja) * 2011-07-19 2013-02-04 Nec Computertechno Ltd メモリ試験装置、メモリ試験方法およびメモリ試験プログラム
JP2013206278A (ja) * 2012-03-29 2013-10-07 Nec Corp 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム
JP2014071668A (ja) * 2012-09-28 2014-04-21 Fujitsu Ltd 情報処理装置、起動プログラム、および起動方法

Also Published As

Publication number Publication date
JP3156654B2 (ja) 2001-04-16

Similar Documents

Publication Publication Date Title
US6393582B1 (en) Error self-checking and recovery using lock-step processor pair architecture
US7802138B2 (en) Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus
US6574748B1 (en) Fast relief swapping of processors in a data processing system
KR100566338B1 (ko) 폴트 톨러런트 컴퓨터 시스템, 그의 재동기화 방법 및 재동기화 프로그램이 기록된 컴퓨터 판독가능 기억매체
EP0811916B1 (en) Mesh interconnected array in a fault-tolerant computer system
US7020800B2 (en) System and method for memory failure recovery using lockstep processes
JPH03182939A (ja) ソフトウェアのエラー処理の方法
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
JPH0934809A (ja) 高信頼化コンピュータシステム
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
WO2010100757A1 (ja) 演算処理システム、再同期方法、およびファームプログラム
JP2017146833A (ja) 監視装置、フォールトトレラントシステムおよび方法
JP3156654B2 (ja) 二重化コンピュータシステムおよびその運用方法
JPH0375834A (ja) パリティの置換装置及び方法
JP3180737B2 (ja) システムの冗長化方法
JPH0934852A (ja) クラスタシステム
KR0152240B1 (ko) 메모리 데이타 불일치 검출 및 복구 방법
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JP3539687B2 (ja) プロセッサ二重化方式の情報処理装置
JPS6139138A (ja) 多重化システム
JPH1185713A (ja) マルチコンピュータシステム
KR19990053243A (ko) 개방형 내장 시스템에서의 순환 이중화 방법
JPH06348421A (ja) 拡張記憶機構における障害時の二重化装置動的切り換え 制御システム
JPH0471037A (ja) 電子計算機の二重化方式
JPH04211841A (ja) 二重化処理装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010109

LAPS Cancellation because of no payment of annual fees