JPH0675804A - 記憶制御システム - Google Patents

記憶制御システム

Info

Publication number
JPH0675804A
JPH0675804A JP5133411A JP13341193A JPH0675804A JP H0675804 A JPH0675804 A JP H0675804A JP 5133411 A JP5133411 A JP 5133411A JP 13341193 A JP13341193 A JP 13341193A JP H0675804 A JPH0675804 A JP H0675804A
Authority
JP
Japan
Prior art keywords
storage
controller
command
ssc
control system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5133411A
Other languages
English (en)
Other versions
JP2540006B2 (ja
Inventor
Kevin C Huang
ファン チュアン−チ
David A Wise
アレン ワイズ デイヴィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0675804A publication Critical patent/JPH0675804A/ja
Application granted granted Critical
Publication of JP2540006B2 publication Critical patent/JP2540006B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1675Temporal synchronisation or re-synchronisation of redundant processing components
    • G06F11/1683Temporal synchronisation or re-synchronisation of redundant processing components at instruction level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1633Error detection by comparing the output of redundant processing systems using mutual exchange of the output between the redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2082Data synchronisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/835Timestamp

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

(57)【要約】 【目的】 制御装置内の障害発生ページを修復する。 【構成】 二重制御装置は、1次およびバックアップ制
御装置を含み、各メッセージコマンドを実行するのに常
に同期がとられ、速度調整プロセッサに、共用データを
供給するばかりでなく、多重処理要素データの管理に必
要な制御情報を供給する。二重制御装置はそれぞれ処理
要素から自分自身のコマンドを受信し、他の装置とコン
センサスを一致させ、コマンド実行を同期させ、応答コ
ードを処理要素に戻す。各二重制御装置によりコマンド
実行を順序付け同期を取るため、密に同期がとられたシ
スプレックスタイマを用いて、各コマンドにタイムスタ
ンプを押し、二重制御装置が同期してランするように応
答する。「同期はずれ」条件がSSCにより検知される
と、SSCのモニタリング情報および統合SP、診断の
結果を用いて、二重SSCのうちの欠陥のあるSSCを
判定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピューティングシ
ステムに関し、特に、処理要素のクラスタ、すなわち、
シスプレックス(sysplex) の記憶制御装置に関する。
【0002】なお、本明細書の記述は本件出願の優先権
の基礎たる米国特許出願第07/910,193号の明
細書の記載に基づくものであって、当該米国特許出願の
番号を参照することによって当該米国特許出願の明細書
の記載内容が本明細書の一部分を構成するものとする。
【0003】関連同時係属出願 米国特許出願第07/754,815号 出願人:本出願と同一出願人(International Business
Machines Corporation, Armonk, N.Y.) 、 出願日:1991年9月4日、 発明者:B. Glendening 、 発明の名称:Method and Apparatus for Timer Synchro
nization in Logically Partitioned Data Processing
System。
【0004】この同時係属出願の出願番号を付して、明
細書の一部とする。
【0005】用語集 本明細書で用いる技術用語は辞書に載っている通りの意
味を有するものもあるが、次の技術用語の用語集はたぶ
ん有用であろう。
【0006】 シスプレックス(Sysplex) 複数プロセッサのクラスタ CPC(central processor complex) シスプレックスの個
々の処理要素または機能単位 SSC(shared storage controller) 共用記憶制御装置 TOD(time of day clock) 時刻機構 SP(integrated support processor) CPC のオペレーシ
ョンをモニタしログする統合サポートプロセッサ ETR(external timer reference unit) 密に同期をとっ
たTOD を我々のシスプレックスの全単位に供給する装置 ISC(intersystem channel) 処理要素と制御装置の間の
パスウェイ。もう1つのパスウェイが制御装置間にあ
る。パスウェイはコンピュータシステムの機能単位を結
合する。バスは機能単位およびチャネル内の内部結合で
ある。
【0007】IOP(I/O processor) SSC およびCPC の機
能単位または処理要素の1つになり、I/O チォネルオペ
レーションを制御する。
【0008】DASD ディスク記憶システム メッセージ データおよび制御情報を用いた要求または
応答
【0009】
【従来の技術】ホストコンピューティングシステムのク
ラスタは、大域共用記憶装置に接続されており、システ
ム複合体(system complex)、すなわち、シスプレックス
(sysplex) と呼ばれる。単一のオペレーティングシステ
ムを用いてランされる各ホストコンピューティングシス
テムの場合、シスプレックスはマルチシステム・オペレ
ーティング・システムを有することになる。複数のチャ
ネルI/O 装置を有する複数のプロセッサよりなる各ホス
トコンピューティングシステムは、中央プロセッサ複合
体(central processor complex; CPC)といわれる。
【0010】1種類のシスプレックスシステムは上記米
国特許出願第07/754,815号に記述されている。シスプレ
ックスタイマを用いて、複数のホストの同期がとられ
る。
【0011】大域共用記憶を有する密結合システムは、
共用記憶装置を介して、全システムのオペレーションと
通信を行い同期をとる。高度に利用可能な密結合システ
ムでは、クリチカルなシステムコンポーネントは欠陥を
トラレイトするために設計され、しかも、高度に利用さ
れる必要がある。大域共用データはクリティカルなシス
テムコンポーネントであり、このようなシステムコンポ
ーネントは、接続された全てのCPCに依存する。その
ため、その大域共用記憶制御装置とそのデータを高度に
利用することは避けられないことである。
【0012】共用記憶制御装置(SSC) は、クリティカル
なデータベースアプリケーションに対してカストマデー
タのリポジトリとして用いられるばかりでなく、複数シ
ステムを管理する制御情報を提供する。SSCでの共用
データの紛失は、カストマが対処できない災害である。
この共用制御装置の設計では、主SSCおよびバックア
ップSSCを物理的に分離し、SSCの障害が他の制御
装置に伝播されないようにする。
【0013】高度に利用可能な共用記憶制御装置に対す
る従来のアプローチは、フォールトトレラント設計を用
いており、ロックステップ同期でオペレーションする複
数プロセッサ、または二重コピーシステムはCPCによ
り制御されている。ロックステップ同期がとられた複数
プロセッサのアプローチは、同期を保持し、結果を比較
するか、あるいは結果に対してボート(vote)するには、
ハードウェアが複雑過ぎ、開発にコストがかかる。エラ
ー検知回路が高度にビルトインされたプロセッサは、欠
陥を検知するのに、プロセッサのロックステップ設計に
依存する必要はない。正規のオペレーション中に生じる
欠陥は、エラー検知ハードウェアにより素早く検知され
ることになる。
【0014】二重コピーシステムの前の設計では、多く
の場合、1次装置および2次装置にデータを書き込むこ
とにより、データのコピーを複写するようになってい
る。2つの装置で、データの2つのコピーを保持するの
は簡単なことである。二重コピー機能の一例はIBM TDB
(by J.T.Robin, "Method for Scheduling Writes in a
Duplexed DASD Subsystem," TDB vol.29 no.5 October
1986, pp 2102-2107) に記述されている。二重コピー
機能の他の例は(by B.H.Berger, "Maintaining duplex
paired devices by means of a dual copy function,"
IBM docket TU986013) に記述されている。
【0015】共用データの二重コピー機能を機能させる
ため、本発明は、前記二重共用記憶制御装置(SSC) でメ
ッセージコマンドを並列に実行する技法を採用し、親C
PCにより同期をとる代わりに、1次および2次制御装
置間で同期をとる。コマンド実行は、全CPCおよびS
SCに伝送されるTODであって、密に同期をとったT
DOからの時刻値を用いて、SSCで、シーケンスさ
れ、同期がとられる。
【0016】同期をとった全二重制御装置またはプロセ
ッサを設計する際の主な欠陥となるもののうちで、欠陥
のあるプロセッサを障害発生後に判定するのが困難であ
るということが1つの障害である。いずれかの制御装置
での「同期はずれ」条件、またはオペレーションのタイ
ムアウトは、欠陥のあるプロセッサを判定するには通常
充分ではなく、特に、メインフレームプロセッサが複雑
な場合には充分ではない。疎に同期がとられたオペレー
ションの同期がはずれる場合、エラー条件が明瞭でな
い。それらのエラー条件はプロセッサ自身で検出するの
は容易ではない。本発明は、各CPCおよびSSCの統
合サポートプロセッサ(SP)を用いて、各同期期間に、プ
ロセッサオペレーションの異常条件を監視するととも
に、診断するという新規な特徴を有する。「同期はず
れ」がメッセージオペレーションの期間で検出される
と、その管理情報はSSCによる欠陥のあるプロセッサ
の診断を充分に向上させることになる。
【0017】本発明の目的は、制御装置内の共用記憶装
置の障害発生ページを修復することにある。破壊された
記憶ページは、他の制御装置の同一の仮想アドレスから
良いデータをコピーして修復することになる。障害回復
処置は制御装置および接続されたCPCの両方のプログ
ラムに対して透過になることになる。
【0018】
【課題を解決するための手段】多重処理要素環境におい
てデータを共用するため高度に利用可能な共用記憶装置
を提供する。高度に利用可能な共用記憶装置は、不揮発
性記憶装置を有する二重制御装置により提供される。二
重制御装置は密結合処理要素により単一の論理コピーと
してアクセスされる。本発明に係る二重制御装置は、速
度調整プロセッサに、共用データを提供し、同様に、多
重処理要素にデータ管理に必要な制御情報を提供する。
【0019】本発明に係る制御装置は、1次制御装置と
バックアップ制御装置を含み、制御装置が分離されない
ことを保証する各メッセージコマンドを実行するため、
常に同期がとられる。二重制御装置の各制御装置は処理
要素から自分自身のコマンドを受信し、他の制御装置と
のコンセンサスを一致させて、コマンド実行を同期さ
せ、応答コードを処理要素に戻す。コマンド実行を各二
重制御装置により順序付けるとともに、同期をとるた
め、密に同期がとられたシスプレックスタイマを用い
て、各コマンドにタイムスタンプを押し、二重制御装置
が同期してランするように応答する。
【0020】本発明によれば、上記目的を達成するた
め、記憶制御システムを、シスプレックス、すなわち、
不揮発性データ記憶装置を有する多数の多重プロセッサ
要素のクラスタに提供する。二重制御装置は、コンピュ
ーティングシステムのチャネル間カップリングと密結合
されている。2つの記憶制御装置はそれぞれ別々に電源
が供給され、構成が同一である。任意の例外的な条件と
エラー事象をモニタし、ログするために用いられる統合
サービスプロセッサSPを、各同期期間の間、我々は前
記記憶制御装置に提供する。このSPは、「同期はず
れ」条件が検知されたとき、故障記憶制御装置を診断す
る際に援助する。
【0021】ラッチ設定を有する二重記憶制御装置は、
それぞれ、その記憶制御装置に対する役割が1次または
バックアップ制御装置であると規定する。各メッセージ
コマンド実行に対して、1次およびバックアップ制御装
置により提供される同期機構は、不揮発性共用データの
二重コピーを、接続された全処理要素に提供する。
【0022】本発明に係る好ましい実施例は、タイマと
して機能する密に同期がとられた時刻クロック機構を全
シスプレックスコンピューティングシステムに提供し、
コマンド実行を順序付ける際に用い、かつ、メッセージ
オペレーション応答の同期をとるために、コンピューテ
ィングシステムおよび記憶制御システム全体に亘って時
刻を絶えず監視する。
【0023】処理要素から受信された各コマンドの二重
並列実行は、二重並列実行するために同期がとられ、同
期点が1次およびバックアップ制御装置でコマンドを実
行する間に確立される。しかも、各同期点では、本発明
に係るSCS制御装置と、結合された統合サービスプロ
セッサは、そのコマンドを試験し、しかも、応答して、
二重記憶制御システムが同期してオペレーションするの
を保証する。
【0024】他の特徴および改良点は図面を参照して詳
細に説明する。
【0025】
【実施例】データを共用するために密結合されたマルチ
システムでは、独立した中央プロセッサ複合体(CP
C)のクラスタは、共通の共用記憶制御装置(SSC)
に接続されている。SSCは共用データにアクセスし、
データコヒーレンシを保持するため、共用資源を制御す
る。各CPCはオペレーティングシステムの個別のコピ
ーを用いてランしている。このマルチシステム構造で
は、そのシステムは協調して単一のシステムイメージを
提供し、このイメージはユーザに対する単一のエンティ
ティとして、そのシステムにより管理されるとともに、
ネットワーク内の他のリモートコンピュータシステムと
して管理される。共用データとワークロードを用いる際
の調整には、データインテグリティを維持するため、S
SCを介して通信を行う必要がある。
【0026】シスプレックスの主なコンポーネントは、
図1に示すように、CPCと、シスプレックスタイマ
と、共用記憶制御装置とを含む。SSCは二重制御装置
であり、同一に構成され、かつ、個別に電源が供給され
る制御装置よりなる。機能上は、二重制御装置の一方の
制御装置は1次制御装置といい、他の制御装置はバック
アップ制御装置という。1次SSCとそのバックアップ
は物理的に別々であり、SSCの一方はバックアップ制
御装置としてサーブすることができる。バックアップ制
御装置はデータに冗長さを与え、1次制御装置に障害が
発生した場合は、シンプレックスモードで、1次制御装
置としてオペレーションする。
【0027】また、外部タイマ基準(ETR)装置がそ
のシステム構造に含まれており、集中フォールトトレラ
ントタイム基準を提供する。集中フォールトトレラント
タイム基準は全てのCPCおよびSSCに対し時刻(Tim
e of day;TOD) を保持する際に用いられる。ETR装置
は、専用光ファイバケーブルを用いて、全ての接続され
たプロセッサに冗長タイムを伝送する。最適リンクは、
ケーブルおよびプロセッサのインプリメント差異に適応
させるためにETRにより調整されたものであり、CP
C間のTODスキューを規定限度まで保持する。接続さ
れた全CPCに対するSSCによるメッセージコマンド
実行を、密に同期をとったタイマを用いて順序付ける。
【0028】図2はシステム間チャネル(ISC)を示
す。ISCは各CPCと二重SSCとを接続する。2つ
の2地点間ISCリンクは各CPCから二重SSCに提
供される。ISCは光ファイバトランシーバと、データ
移動および割り込みを制御するマイクロプロセッサとに
よりなる。また、ISCはコマンドを開始するIOPと
通信を行う。CPCおよびSSC間のリンクの他に、別
のシステム間チャネルリンクが提供されている。このリ
ンクは1次SSCとバックアップSSCの間のコマンド
同期をとるためのものである。各CPCは主にESA/
390プロセッサと、そのサービスプロセッサよりな
る。ESA/390プロセッサはCP(中央プロセッ
サ)と、IOP(I/O プロセッサ)よりなる。SSC
は、速度調整のためのCPCと同一のESA/390を
用いて構成され、バッテリの他に、SSCに対して不揮
発性記憶装置を提供するDASDを用いて構成されてい
る。バッテリは短時間の電源故障停止に対して連続的に
電力を供給する。記憶内容は、電源故障停止が長引く場
合には、DASDに保管されることになる。
【0029】システムから視ると、SSCの外部共用記
憶装置にアクセスするため、Send Message命令はCPC
により用いられる。Send Message命令は同期または非同
期のいずれかで実行することができる。同期命令実行の
間、Send Messageにより開始された全SSCオペレーシ
ョンが完了するまで、CPは待機する。Send Messageが
非同期で実行された場合は、要求をSSCに送信するイ
ニシャティブをIOPに渡す。CPは次の命令の実行を
続け、IOPはSend Messageオペレーションを継続す
る。その後IOPが受信した終了ステータスは、CPに
戻される。アーキテクチャ上、Send Message命令は、M
CB(message control block) をSSCに渡すのに必要
であり、MRB(message response block)の応答はメッ
セージ命令を終了するのに必要である。任意指定データ
を送信することもできる。2種類のメッセージオペレー
ション、すなわち、CPCにより開始されるread/write
メッセージオペレーションと、SSCにより開始される
2次オペレーションとを開始することができる。Send M
essage命令が開始されると、特定のLCBを用いて、I
SCにSIGWコマンドを発行するIOPを、CPはシ
グナルする。メッセージ命令を実行する間、CP/IO
Pコードはその要求をフォーマットし、LCB(link co
ntrol block)と呼ぶコマンドブロックの集合にする。L
CBはICB(intersystem channel command block) と
バッファを含む。LCBはMCB、データ、およびMR
Bの記憶アドレスをメッセージオペレーションに提供す
るICBの集合を含む。MCBは主記憶から取り出さ
れ、ISCに転送され、フレーミングされ、SSCに伝
送される。
【0030】コマンド実行の間、要求されたデータはま
た送信されることになる。予期されたMRBはISCに
より受信され、特定の主記憶位置に移動され、そのオペ
レーションを完了する。メッセージオペレーションの
間、エラーがないか、あるいは異常条件がない場合、C
PはMRBの受信すると同期命令を完了し、次の順次命
令に移行する。非同期命令の場合は、IOPは終了条件
を通知する。SSC開始分離およびXI(cross invalid
ation)オペレーションの場合、ICBチェインの集合を
構築し、オペレーションをハンドルする。MCBはCP
Cに送信され、MRBの応答はSSCに戻される。
【0031】各コマンド実行に対して、一貫性のある同
期は1次および2次SSCの間で維持されなければなら
ない。このことは、各コマンド実行完了時に、両制御装
置の共用データの二重コピーを保証する。CPC開始re
ad/write命令の場合、同期点はMCBがSSCにより受
信されたときに確立され、しかも、MRB応答がCPC
に送信される時に確立される。IOPは、両MRBが受
信され、メッセージオペレーションが同期して終了する
ことを保証する。SSC開始分離およびXIオペレーシ
ョンのような2次オペレーションに対して、MCBが打
ち込まれた(launch)とき同期点がまた確立され、しか
も、MRBがSSCにより受信されたとき同期点が確立
される。各同期点では、サービスプロセッサはシグナル
され、SPは同期期間の間にSSCオペレーションのモ
ニタを開始することができる。
【0032】送信メッセージ命令がCP/IOPにより
発行されると、IOPは1つの要求を各二重制御装置に
送信することになる。1次および2次制御装置に送信さ
れる同一のMCBは、コマンドコードと、他のコマンド
関連情報の他に、同一のTOB値を含むことになる。M
CBを受信すると直ちに、SSCはまずそのコマンドを
待行列化し、ついで、同期アクションを開始する。その
同期アクションは1次制御装置から開始される。その1
次制御装置は他の制御装置と通信を行い、同一のCPC
からの同一コマンドが順次受信されたか否かを検証す
る。両制御装置により実行されるコマンドに対するコン
センサスが一致するまで、コマンドの実行は継続されな
い。1次SSCとバックアップSSCはMCBを他のS
SCに送信し、次に実行されるMCBを示すことにな
る。他のSSCからのMCBのTOD値とコマンドコー
ドは、それ自身が受信したMCBと比較される。そし
て、コンセンサスが両SSCにより一致した場合は、M
CBは実行待行列に待行列化される。同期段階の間、M
CBは、SSCで実行された最後のコマンドが複製され
たか、順次でないか、正常に完了したかが検査される。
この検査により、CPCのCP/IOPにより前に発行
された全コマンドが正常に完了したことが保証され、し
かも、現コマンドと最後のコマンド要求の間でコマンド
要求が紛失されないことが保証される。同期アクション
は、同期アクションが要求CPCに送信される前に、両
SSCによりMRBに対して行われることになる。MR
Bが発行IOPに送信される前に、両SSCはエラー条
件を除く終了ステータスが一致しなければならない。全
SSC開始2次オペレーションに対して、MCBおよび
MRBの同期はCPC開始オペレーションと同様にして
行われる。
【0033】堅固な通信オペレーションを達成するた
め、障害検知および障害回復は、リンクレベルおよびメ
ッセージレベルで、システム間チャネルオペレーション
に提供される。障害リンクを回復するために用いること
ができるプロシージャが存在する。2つ以上のISCが
CPCおよびSSCの間に存在するシステムの場合、ど
ちらか一方のISCを用いて固有の(solid )リンク障
害を回復する。多くのエラー条件に対して、拒否応答コ
ードを送信元に戻してリトライするため、レシーバが必
要である。メッセージレベルでは、バッファ領域に対し
て障害回復が行われる。拒否応答が送信元で受信される
と、全バッファの伝送を回復するため、送信元が要求さ
れる。
【0034】また、IOPは、read/writeメッセージオ
ペレーションおよび2次メッセージオペレーションに対
して、MRBおよびMCB上での同期を保証することに
なる。IOPは、オペレーションをオーバラップさせる
ことなくread/writeメッセージを常に逐次化させること
になる。二重SSCからの終了スタータスは、応答コー
ドがCPに戻される前に、IOPにより同期がとられる
ことになる。前のCPメッセージ命令が完了するまで、
SSCに対して、新しいコマンドは開始されない。IO
Pがタイムアウト期間内にMRBまたはMCB受信に失
敗した場合、リンクレベルまたはメッセージレベルでの
エラー回復が試みられることになる。
【0035】システムオペレーションが複雑なので、S
SCはある障害モードに影響を受け易く、しかも、故障
が発生したSSCを識別するのが困難な例外的な条件に
影響を受け易い。各SSCにより収集されたエラーデー
タの他に、その問題を解消するため、別の情報が必要で
ある。SSCに集積されたサービスプロセッサは、例外
的な条件に対して、SSCオペレーションをモニタし、
各同期期間(SI)に対してエラーをモニタする。モニタリ
ング活動は全CPと、IOPと、記憶装置と、各SSC
での電源制御オペレーションについての情報を収集す
る。SSCの保健を判定する必要がある場合は、別の診
断を行うことができる。この別のモニタリング情報およ
び診断情報を用いて、サービスプロセッサはSSCでの
「同期はずれ」条件の原因を診断することができる。こ
れらの原因は、ハードウェアマシン検査と、プロセッサ
停止およぞポーズと、他のハードウェア回復アクション
とを含む。
【0036】「同期はずれ」条件が1次制御装置および
バックアップ制御装置により検知されると、常に、エラ
ー割り込みがSPの制御プログラムに送信されることに
なる。サービスプロセッサは最後の同期期間のステータ
スを試験するとともに、各SSCによりログされた現オ
ペレーションを試験する。両SSCのSPは、他のSS
Cのオペレーションステータスに対して、リモートSP
インタフェースを介してメッセージを交換することにな
る。回復不可能なエラーが最後の同期期間で検知された
場合は、同一メッセージオペレーションを再同期するた
め、タイムアウト値を自動的に拡張することになる。そ
の他の全ての場合、欠陥のあるSSCを判定する際、コ
ンセンサスは両SPにより一致しなければならない。S
SCに欠陥があると判定された場合は、全ての接続され
たCPCは生存しているSSCにより通知され、静止(q
uiesce) する。SSCは未解決の要求が全て完了するま
で、非冗長モードでオペレーションを継続する。故障の
SSCは静止され停止される。そして、リセットされ、
初期設定され、他のSCCの現状態にされる。この静止
状態の間、共用記憶内容の全体は他のSSCから障害が
発生したSSCにイメージコピーされる。そして、CP
Cが通知され、オペレーションをリジュームし、二重S
SCが同期して再スタートされる。
【0037】エラー回復を頻繁に行うのを回避するた
め、フォールトトレラントな記憶装置をSSCの共用記
憶装置に提供することになる。しかし、それでも、通常
「同期はずれ」の原因となる記憶訂正不可能エラーの影
響を受けることになる。SSCの共用記憶装置は仮想ア
ドレスを用いてアドレス指定される。コマンド実行中、
記憶訂正不可能エラーがSSCで検知された場合、マシ
ン検査がレイズ(raise)れ、実ページを修復するため、
故障が発生した仮想アドレスのデータを獲得する。再同
期アクションの後、両SSCは正規のオペレーションに
戻ることになる。以上、本発明に係る好ましい実施例を
説明したが、特許請求の範囲を逸脱することなく種々の
変更を行うことができることは当業者にとって当然であ
る。これらの特許請求の範囲は最初に開示された発明を
適正に保護するものである。
【0038】
【発明の効果】以上説明したように、本発明によれば、
上記のように構成したので、制御装置内の障害発生ペー
ジを修復することができる。
【図面の簡単な説明】
【図1】SSCとともにシスプレックス構成を示すブロ
ック図である。
【図2】SSCとCPCとのシステム間チャネル接続を
示すブロック図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 デイヴィッド アレン ワイズ アメリカ合衆国 13903 ニューヨーク州 ビンガムトン イースト ハムトン ロ ード 159

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 不揮発性データを記憶する手段を有する
    複数の処理要素と、 密結合された2つの記憶制御装置であって、しかも、前
    記複数の処理要素を結合してシスプレックスの一部とす
    るか、あるいはクラスタ化されたコンピューティングシ
    ステムとする2つの記憶制御装置と、 該2つの記憶制御装置は別々に電源が供給され、同一に
    構成され、 内蔵サービスプロセッサと、 前記記憶制御装置がそれぞれ前記記憶制御装置に効率的
    に接続される前記統合サービスプロセッサに結合され、 各制御装置はラッチを有し、 前記記憶制御装置の一方のラッチは前記記憶制御装置の
    一方を主制御装置と識別し、 前記記憶制御装置の他方のラッチは前記記憶制御装置の
    他方をバックアップ制御装置と識別し、 各メッセージコマンド実行に対して主制御装置およびバ
    ックアップ制御装置の同期をとり、接続された全処理要
    素に対して、不揮発性共用データの二重コピーを生成す
    る手段とを備えたことを特徴とする記憶制御システム。
  2. 【請求項2】 請求項1に記載の記憶制御システムにお
    いて、 シスプレックス・コンピューティングシステムが前記コ
    ンピューティングシステム処理要素および記憶制御装置
    に亘って時刻を絶えず監視し、コマンド実行を順序付け
    る際に用いられ、しかも、メッセージオペレーション応
    答の同期をとるタイマとして機能し、密に同期をとった
    時刻クロック機構を含むことを特徴とする記憶制御シス
    テム。
  3. 【請求項3】 請求項2に記載の記憶制御システムにお
    いて、 前記二重記憶制御システムは、処理要素コマンドから受
    信し、前記コマンドは二重および並列に前記主記憶制御
    装置およびバックアップ記憶制御装置により実行される
    ことを特徴とする記憶制御システム。
  4. 【請求項4】 請求項3に記載の記憶制御システムにお
    いて、 前記処理要素から受信されたコマンドを二重並列に実行
    する間、各コマンドは二重並列実行に対して疎に同期が
    とられ、 同期点は主記憶制御装置およびバックアップ記憶制御装
    置でのコマンド実行の間に確立され、 各同期点で、各記憶制御装置および結合された統合サー
    ビスプロセッサはコマンドおよび応答を試験し、前記二
    重記憶制御システムが同期してオペレーションすること
    を保証する手段を有することを特徴とする記憶制御シス
    テム。
  5. 【請求項5】 請求項4に記載の記憶制御システムにお
    いて、 前記統合サービスプロセッサ内の手段であって、各同期
    期間の間に、前記記憶制御装置内の例外的な条件および
    エラー事象をモニタしかつログする手段を備えたことを
    特徴とする記憶制御システム。
JP5133411A 1992-07-08 1993-06-03 記憶制御システム Expired - Lifetime JP2540006B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/910,193 US5398331A (en) 1992-07-08 1992-07-08 Shared storage controller for dual copy shared data
US910193 1997-08-12

Publications (2)

Publication Number Publication Date
JPH0675804A true JPH0675804A (ja) 1994-03-18
JP2540006B2 JP2540006B2 (ja) 1996-10-02

Family

ID=25428434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5133411A Expired - Lifetime JP2540006B2 (ja) 1992-07-08 1993-06-03 記憶制御システム

Country Status (2)

Country Link
US (1) US5398331A (ja)
JP (1) JP2540006B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260160A (ja) * 2005-03-17 2006-09-28 Fujitsu Ltd 二重化記憶装置及び二重化記憶装置の制御方法
JP2012173933A (ja) * 2011-02-21 2012-09-10 Toshiba Corp データ記憶装置及び誤り検出訂正方法

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110925A (ja) * 1992-09-28 1994-04-22 Hitachi Ltd ネットワークで接続された計算機とその利用方法
US5790776A (en) * 1992-12-17 1998-08-04 Tandem Computers Incorporated Apparatus for detecting divergence between a pair of duplexed, synchronized processor elements
US6157967A (en) * 1992-12-17 2000-12-05 Tandem Computer Incorporated Method of data communication flow control in a data processing system using busy/ready commands
US5630048A (en) * 1994-05-19 1997-05-13 La Joie; Leslie T. Diagnostic system for run-time monitoring of computer operations
AU2663095A (en) * 1994-06-10 1996-01-05 Sequoia Systems, Inc. Main memory system and checkpointing protocol for fault-tolerant computer system
US5764903A (en) * 1994-09-26 1998-06-09 Acer America Corporation High availability network disk mirroring system
US5630045A (en) * 1994-12-06 1997-05-13 International Business Machines Corporation Device and method for fault tolerant dual fetch and store
US5539875A (en) * 1994-12-30 1996-07-23 International Business Machines Corporation Error windowing for storage subsystem recovery
JP3253473B2 (ja) * 1995-01-27 2002-02-04 富士通株式会社 二重化された共用メモリの等価性回復処理方法および装置
US5692155A (en) * 1995-04-19 1997-11-25 International Business Machines Corporation Method and apparatus for suspending multiple duplex pairs during back up processing to insure storage devices remain synchronized in a sequence consistent order
US5848230A (en) * 1995-05-25 1998-12-08 Tandem Computers Incorporated Continuously available computer memory systems
US5632013A (en) * 1995-06-07 1997-05-20 International Business Machines Corporation Memory and system for recovery/restoration of data using a memory controller
US5720029A (en) * 1995-07-25 1998-02-17 International Business Machines Corporation Asynchronously shadowing record updates in a remote copy session using track arrays
US5864657A (en) * 1995-11-29 1999-01-26 Texas Micro, Inc. Main memory system and checkpointing protocol for fault-tolerant computer system
EP0825506B1 (en) * 1996-08-20 2013-03-06 Invensys Systems, Inc. Methods and apparatus for remote process control
US5790397A (en) * 1996-09-17 1998-08-04 Marathon Technologies Corporation Fault resilient/fault tolerant computing
US6070251A (en) * 1997-06-26 2000-05-30 Sun Microsystems, Inc. Method and apparatus for high availability and caching data storage devices
US5983015A (en) * 1997-10-31 1999-11-09 Oracle Corporation Latch-free sequence generation for high concurrency systems
KR100258079B1 (ko) * 1997-12-17 2000-06-01 이계철 밀결합 결함 허용 시스템에서 메모리 버스 확장에 의한 동시 쓰기 이중화 장치
US6691183B1 (en) 1998-05-20 2004-02-10 Invensys Systems, Inc. Second transfer logic causing a first transfer logic to check a data ready bit prior to each of multibit transfer of a continous transfer operation
US7013305B2 (en) * 2001-10-01 2006-03-14 International Business Machines Corporation Managing the state of coupling facility structures, detecting by one or more systems coupled to the coupling facility, the suspended state of the duplexed command, detecting being independent of message exchange
US7089530B1 (en) 1999-05-17 2006-08-08 Invensys Systems, Inc. Process control configuration system with connection validation and configuration
US6754885B1 (en) 1999-05-17 2004-06-22 Invensys Systems, Inc. Methods and apparatus for controlling object appearance in a process control configuration system
WO2000070417A1 (en) 1999-05-17 2000-11-23 The Foxboro Company Process control configuration system with parameterized objects
US6501995B1 (en) 1999-06-30 2002-12-31 The Foxboro Company Process control system and method with improved distribution, installation and validation of components
US6788980B1 (en) 1999-06-11 2004-09-07 Invensys Systems, Inc. Methods and apparatus for control using control devices that provide a virtual machine environment and that communicate via an IP network
WO2001009690A1 (en) 1999-07-29 2001-02-08 The Foxboro Company Methods and apparatus for object-based process control
CA2382929A1 (en) * 1999-08-31 2001-03-08 Times N Systems, Inc. Shared memory disk
US6473660B1 (en) 1999-12-03 2002-10-29 The Foxboro Company Process control system and method with automatic fault avoidance
US6779128B1 (en) 2000-02-18 2004-08-17 Invensys Systems, Inc. Fault-tolerant data transfer
US6859866B2 (en) 2001-10-01 2005-02-22 International Business Machines Corporation Synchronizing processing of commands invoked against duplexed coupling facility structures
US6813726B2 (en) 2001-10-01 2004-11-02 International Business Machines Corporation Restarting a coupling facility command using a token from another coupling facility command
US6944787B2 (en) * 2001-10-01 2005-09-13 International Business Machines Corporation System-managed duplexing of coupling facility structures
US6910158B2 (en) * 2001-10-01 2005-06-21 International Business Machines Corporation Test tool and methods for facilitating testing of duplexed computer functions
US7099935B2 (en) * 2001-10-01 2006-08-29 International Business Machines Corporation Dynamically determining whether to process requests synchronously or asynchronously
US6954817B2 (en) * 2001-10-01 2005-10-11 International Business Machines Corporation Providing at least one peer connection between a plurality of coupling facilities to couple the plurality of coupling facilities
JP2003157189A (ja) * 2001-11-20 2003-05-30 Hitachi Ltd データ多重化管理方法およびこれに用いるコンピュータ装置および記憶装置
WO2003089995A2 (en) * 2002-04-15 2003-10-30 Invensys Systems, Inc. Methods and apparatus for process, factory-floor, environmental, computer aided manufacturing-based or other control system with real-time data distribution
JP3774826B2 (ja) * 2002-07-11 2006-05-17 日本電気株式会社 情報処理装置
US7178058B2 (en) * 2002-08-30 2007-02-13 Nec Corporation Fault tolerant computer and transaction synchronization control method
US8726075B1 (en) * 2003-02-14 2014-05-13 At&T Intellectual Property Ii, L.P. Method and apparatus for screenshot archiving to digital video disk (DVD)
US7725760B2 (en) * 2003-09-23 2010-05-25 Symantec Operating Corporation Data storage system
US7287133B2 (en) 2004-08-24 2007-10-23 Symantec Operating Corporation Systems and methods for providing a modification history for a location within a data store
US7577807B2 (en) * 2003-09-23 2009-08-18 Symantec Operating Corporation Methods and devices for restoring a portion of a data store
US7904428B2 (en) * 2003-09-23 2011-03-08 Symantec Corporation Methods and apparatus for recording write requests directed to a data store
US7631120B2 (en) 2004-08-24 2009-12-08 Symantec Operating Corporation Methods and apparatus for optimally selecting a storage buffer for the storage of data
US7730222B2 (en) 2004-08-24 2010-06-01 Symantec Operating System Processing storage-related I/O requests using binary tree data structures
US7577806B2 (en) * 2003-09-23 2009-08-18 Symantec Operating Corporation Systems and methods for time dependent data storage and recovery
US7827362B2 (en) * 2004-08-24 2010-11-02 Symantec Corporation Systems, apparatus, and methods for processing I/O requests
US7991748B2 (en) * 2003-09-23 2011-08-02 Symantec Corporation Virtual data store creation and use
US7761923B2 (en) 2004-03-01 2010-07-20 Invensys Systems, Inc. Process control methods and apparatus for intrusion detection, protection and network hardening
JP2006178636A (ja) * 2004-12-21 2006-07-06 Nec Corp フォールトトレラントコンピュータ、およびその制御方法
US7860857B2 (en) * 2006-03-30 2010-12-28 Invensys Systems, Inc. Digital data processing apparatus and methods for improving plant performance
JP4326552B2 (ja) * 2006-10-12 2009-09-09 株式会社日立製作所 バックエンドで他のストレージシステムと通信するストレージシステム
US8594814B2 (en) 2008-06-20 2013-11-26 Invensys Systems, Inc. Systems and methods for immersive interaction with actual and/or simulated facilities for process, environmental and industrial control
US7979746B2 (en) * 2009-04-27 2011-07-12 Honeywell International Inc. Dual-dual lockstep processor assemblies and modules
US8127060B2 (en) 2009-05-29 2012-02-28 Invensys Systems, Inc Methods and apparatus for control configuration with control objects that are fieldbus protocol-aware
US8463964B2 (en) 2009-05-29 2013-06-11 Invensys Systems, Inc. Methods and apparatus for control configuration with enhanced change-tracking
US9043283B2 (en) * 2011-11-01 2015-05-26 International Business Machines Corporation Opportunistic database duplex operations
EP2701065B1 (de) * 2012-08-24 2015-02-25 Siemens Aktiengesellschaft Verfahren zum Betreiben eines redundanten Automatisierungssystems
US9471409B2 (en) * 2015-01-24 2016-10-18 International Business Machines Corporation Processing of PDSE extended sharing violations among sysplexes with a shared DASD
US9952788B2 (en) * 2015-09-29 2018-04-24 Cnex Labs, Inc. Method and apparatus for providing a shared nonvolatile memory system using a distributed FTL scheme
US10089194B2 (en) * 2016-06-08 2018-10-02 Qualcomm Incorporated System and method for false pass detection in lockstep dual core or triple modular redundancy (TMR) systems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144821A (ja) * 1984-01-06 1985-07-31 Nec Corp 電子デイスク装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4099241A (en) * 1973-10-30 1978-07-04 Telefonaktiebolaget L M Ericsson Apparatus for facilitating a cooperation between an executive computer and a reserve computer
US4007448A (en) * 1974-08-15 1977-02-08 Digital Equipment Corporation Drive for connection to multiple controllers in a digital data secondary storage facility
US4351023A (en) * 1980-04-11 1982-09-21 The Foxboro Company Process control system with improved system security features
US4371754A (en) * 1980-11-19 1983-02-01 Rockwell International Corporation Automatic fault recovery system for a multiple processor telecommunications switching control
US4381543A (en) * 1981-02-02 1983-04-26 International Business Machines Corporation Controller port switch arrangement for sharing stored data among different systems
US4443850A (en) * 1981-12-01 1984-04-17 Burroughs Corporation Interface circuit for subsystem controller
US4468731A (en) * 1981-12-15 1984-08-28 Honeywell Information Systems Inc. Identification apparatus for use in a controller to facilitate the diagnosis of faults
US4527271A (en) * 1982-08-17 1985-07-02 The Foxboro Company Process control system with improved fault isolation
JPS60138653A (ja) * 1983-12-27 1985-07-23 Hitachi Ltd 階層記憶制御方式
JPH0760422B2 (ja) * 1983-12-30 1995-06-28 株式会社日立製作所 記憶ロツク方式
US4823256A (en) * 1984-06-22 1989-04-18 American Telephone And Telegraph Company, At&T Bell Laboratories Reconfigurable dual processor system
US4680753A (en) * 1985-04-03 1987-07-14 Texas Instruments Incorporated System and method for controlling network bus communications for input-output interlocking information among distributed programmable controllers
US4718002A (en) * 1985-06-05 1988-01-05 Tandem Computers Incorporated Method for multiprocessor communications
US4751702A (en) * 1986-02-10 1988-06-14 International Business Machines Corporation Improving availability of a restartable staged storage data base system that uses logging facilities
US5201040A (en) * 1987-06-22 1993-04-06 Hitachi, Ltd. Multiprocessor system having subsystems which are loosely coupled through a random access storage and which each include a tightly coupled multiprocessor
US4849978A (en) * 1987-07-02 1989-07-18 International Business Machines Corporation Memory unit backup using checksum
US4958273A (en) * 1987-08-26 1990-09-18 International Business Machines Corporation Multiprocessor system architecture with high availability
JP2714952B2 (ja) * 1988-04-20 1998-02-16 株式会社日立製作所 計算機システム
US5148533A (en) * 1989-01-05 1992-09-15 Bull Hn Information Systems Inc. Apparatus and method for data group coherency in a tightly coupled data processing system with plural execution and data cache units
US4959768A (en) * 1989-01-23 1990-09-25 Honeywell Inc. Apparatus for tracking predetermined data for updating a secondary data base
US4958270A (en) * 1989-01-23 1990-09-18 Honeywell Inc. Method for control data base updating of a redundant processor in a process control system
JP2825906B2 (ja) * 1990-02-01 1998-11-18 株式会社日立製作所 計算機システム
US5140592A (en) * 1990-03-02 1992-08-18 Sf2 Corporation Disk array system
US5124987A (en) * 1990-04-16 1992-06-23 Storage Technology Corporation Logical track write scheduling system for a parallel disk drive array data storage subsystem
US5155845A (en) * 1990-06-15 1992-10-13 Storage Technology Corporation Data storage system for providing redundant copies of data on different disk drives
US5161214A (en) * 1990-08-28 1992-11-03 International Business Machines Corporation Method and apparatus for document image management in a case processing system
US5201053A (en) * 1990-08-31 1993-04-06 International Business Machines Corporation Dynamic polling of devices for nonsynchronous channel connection
US5280611A (en) * 1991-11-08 1994-01-18 International Business Machines Corporation Method for managing database recovery from failure of a shared store in a system including a plurality of transaction-based systems of the write-ahead logging type

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144821A (ja) * 1984-01-06 1985-07-31 Nec Corp 電子デイスク装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260160A (ja) * 2005-03-17 2006-09-28 Fujitsu Ltd 二重化記憶装置及び二重化記憶装置の制御方法
JP4667093B2 (ja) * 2005-03-17 2011-04-06 富士通株式会社 二重化記憶装置及び二重化記憶装置の制御方法
JP2012173933A (ja) * 2011-02-21 2012-09-10 Toshiba Corp データ記憶装置及び誤り検出訂正方法
US8732554B2 (en) 2011-02-21 2014-05-20 Kabushiki Kaisha Toshiba Data storage device and method for checking and correcting errors

Also Published As

Publication number Publication date
US5398331A (en) 1995-03-14
JP2540006B2 (ja) 1996-10-02

Similar Documents

Publication Publication Date Title
JP2540006B2 (ja) 記憶制御システム
US5099485A (en) Fault tolerant computer systems with fault isolation and repair
EP0731945B1 (en) Fault resilient/fault tolerant computing
US5249187A (en) Dual rail processors with error checking on I/O reads
US7496786B2 (en) Systems and methods for maintaining lock step operation
US4907228A (en) Dual-rail processor with error checking at single rail interfaces
US5255367A (en) Fault tolerant, synchronized twin computer system with error checking of I/O communication
US4916704A (en) Interface of non-fault tolerant components to fault tolerant system
US6205565B1 (en) Fault resilient/fault tolerant computing
US5870537A (en) Concurrent switch to shadowed device for storage controller and device errors
US20050071708A1 (en) Method, system, and program for recovery from a failure in an asynchronous data copying system
US20050240806A1 (en) Diagnostic memory dump method in a redundant processor
Kim Highly available systems for database applications
JP3595033B2 (ja) 高信頼化コンピュータシステム
JPH06242979A (ja) 二重化コンピュータ装置
JP3679412B6 (ja) 故障から立直りが速い/故障に対する耐性がある計算処理
JPH08190494A (ja) 二重化処理装置を有する高信頼化コンピュータ