JP2000181887A - 情報処理装置における障害処理方法及び記憶制御装置 - Google Patents

情報処理装置における障害処理方法及び記憶制御装置

Info

Publication number
JP2000181887A
JP2000181887A JP10357254A JP35725498A JP2000181887A JP 2000181887 A JP2000181887 A JP 2000181887A JP 10357254 A JP10357254 A JP 10357254A JP 35725498 A JP35725498 A JP 35725498A JP 2000181887 A JP2000181887 A JP 2000181887A
Authority
JP
Japan
Prior art keywords
shared memory
access
failure
adapter
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10357254A
Other languages
English (en)
Other versions
JP4132322B2 (ja
JP2000181887A5 (ja
Inventor
Takeo Fujimoto
健雄 藤本
Hisao Honma
久雄 本間
Katsuhiro Okumoto
勝博 奥元
Osamu Sakaguchi
治 阪口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP35725498A priority Critical patent/JP4132322B2/ja
Priority to EP99117283A priority patent/EP1011047B1/en
Priority to DE69939050T priority patent/DE69939050D1/de
Publication of JP2000181887A publication Critical patent/JP2000181887A/ja
Priority to US10/600,828 priority patent/US7302606B2/en
Publication of JP2000181887A5 publication Critical patent/JP2000181887A5/ja
Application granted granted Critical
Publication of JP4132322B2 publication Critical patent/JP4132322B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • G06F11/201Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1405Saving, restoring, recovering or retrying at machine instruction level
    • G06F11/141Saving, restoring, recovering or retrying at machine instruction level for bus or memory accesses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Bus Control (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】 【課題】共通バス接続方式或いは個別パス接続法式で
は、一部の故障においてもシステム全体に影響を与えて
しまう。また、故障個所の判定も行う事ができない。 【解決手段】アダプタ11,12と共有メモリ21,2
2との接続を複数の個別パス31〜38で接続する。そ
して共有メモリ21,22内にアドレスロック部(図示
せず)を設け、アダプタ11,12からのメモリアクセ
スに対してアドレスロックチェックを行い、アクセスし
ようとするアドレスがロック中であれば、ロックが解除
される迄ロック待ちの状態に入る。そして目的とするア
クセスは、そのアドレスロックが解除されてから実行す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータを用
いた情報処理システムあるいは情報処理装置の記憶装置
における対故障処理方式に係わり、システムの一部であ
る記憶装置に故障が発生しても、システム全体として
は、所望の動作が継続可能とするための障害検出や復旧
処理に関し、特に詳細には、マルチプロセッサシステム
におけるプロセッサと他の共通モジュールとの結合方式
技術と、それによるフォールトトレランス制御技術に関
する。
【0002】
【従来の技術】コンピュータを用いた情報処理システム
が社会全般に普及してきた現在において、その障害が与
える社会的な影響は、極めて大きい。その一方、システ
ムが大規模になるに従い、システム全体が無故障である
ことが殆ど望めないものとなり、一部に故障が発生して
もシステム全体としては所望の動作が継続可能なこと
が、要求される様になっている。
【0003】そのための情報処理システムのアーキテク
チャとして、情報処理学会の「情報処理」学会誌、Vol.
34 No.11Nov.1993 P1375〜P1384に記載されている「リ
アルタイム映像信号処理装置とその応用」(八木伸行著)
「2.3 結合方式」中の「図−3プロセッサ間接続」には、
システムを構成する各々のモジュールを共通バスにて接
続する“共通バス接続方式”として(a)のBus方式、連結
に必要な各々のモジュールをそれぞれ個別パスにて接続
する“個別パス接続方式”として(d)のComplete等が示
されている。
【0004】更に、この共通バス結合を拡張した2重バ
ス結合方式として特開平9−160723号公報があ
る。この接続方式では、共通バスの使用権を調停するた
めに専用の機構が必要であり、共通バス自身、もしく
は、前記調停機構に故障が発生すると、システム全体が
動作不可に陥る。そのため、更に共通バスを複数系統用
意し、冗長度を持たせる接続方式も実施されている。
【0005】一方、個別パス接続方式では、各プロセッ
サとシステム内の各共有モジュールとの接続経路が独立
であり、通常1つのパスの故障が、全システムに伝播す
ることはない。
【0006】
【発明が解決しようとする課題】共通バス接続は、本質
的にバス信号線を複数のプロセッサや構成モジュールと
が時分割で共有するので、同時に複数の信号を伝達する
ことができない。そのために、特に、高性能が要求され
る制御装置では、バスの限界がシステムの性能ネックと
なる。また、共通バス系は、システムの共通資源となっ
ているため、故障が発生した場合、システム全体に影響
を与えることが免れない。
【0007】個別パス接続は、各プロセッサから共有モ
ジュールへの通信路が1つのみであり、通信経路を切り
替えてのテストができない。そのため、故障の種別次第
では、故障部位を正しく切り離し、システム継続動作を
保証することができない。
【0008】ここで、単純に各プロセッサと各共通モジ
ュール間への個別パスを複数にすると、共有メモリを持
つマルチプロセッサシステムでは、同一プロセッサパッ
ケージから発生する複数のアクセス要求と、更に各プロ
セッサから発生するアクセス要求とが混在して共有メモ
リへ入りこんでしまう。そして同一共有メモリ上のデー
タに対して、リードモディファイライト等排他が必要な
アクセス中に他のアクセスが入り込むと、データの整合
性が保たれなくなってしまう。
【0009】本発明の目的は、この様な欠点を克服し、
マルチプロセッサを持つ情報処理装置及びシステムにお
いて、データの整合性を保つことが可能な複数個別パス
接続方式及びこの接続方式を用いた制御装置を提供する
ことである。
【0010】
【課題を解決するための手段】前述のバス接続方式の問
題点を解決するために、各プロセッサからシステムの各
共通モジュールへの接続経路を、それぞれ2つ以上持た
せる複数個別パス結合方式とする。そして、障害を検出
した場合には、通信経路を変更してテストを行い、総合
的に故障部位を判定する。
【0011】そして、各プロセッサから各共通モジュー
ルへ複数の接続経路にアクセスパスの切り替え及びアド
レスロック方式を用いる。
【0012】アドレスロック方式とは、共有メモリ等シ
ステム共通モジュールにアドレスロック部を設置し、予
め決められたアドレス範囲での排他を行う方式である。
アドレス排他制御が必要なアクセスが要求された場合
に、アクセスアドレスを登録して、アドレスがロック中
状態を示す。ロック中状態に入り込む他のアクセス要求
に対して、アクセスアドレスと各ロック中アドレスとの
コンペアチェックを行い、ロック中アドレスと一致する
アクセスについては、ロックが解除されるまでにアクセ
スをウェイトすることにより、データの整合性を保つこ
とが可能である。
【0013】
【発明の実施の形態】本発明の実施形態について、図面
を用いて以下に詳細を説明する。
【0014】まず、図1に本発明を適応した記憶装置の
実施例の階層を表すシステム概略図を示す。上位装置で
あるホストコンピュータ(図示せず)に接続するチャネ
ル接続系1、入出力データを一時的に格納するキャッシ
ュメモリ2、チャネル接続系1とキャッシュメモリ2間
のデータ転送を制御するチャネルアダプタ(以下CHA
と称する)3、データを蓄積する記憶媒体であるディス
クアレイ4、キャッシュメモリ2とディスクアレイ4間
のデータ転送を制御するディスクアダプタ(以下DKA
と称する)5、CHA3とDKA3との間に設けられ、
後述する共有メモリ6から構成される。
【0015】図1は概念的な略図であるので詳細な接続
を示すものではなく、実際にはキャッシュメモリ2と共
有メモリ6は一つのCHA(またはDKA)から接続を
している。尚、チャネル接続系としては例えば、メイン
フレーム系のホストコンピュータ(CKDデータフォー
マット)と接続の場合にはチャネル制御装置、UNIX
系のコンピュータ(FBAデータフォーマット)の場合
にはSCSIバス制御装置が挙げられる。また、ファイ
バチャネルを用いた制御装置でもよい。
【0016】共有メモリ6には、キャッシュメモリ2の
使用を管理するディレクトリー情報(キャッシュセグメ
ントをサーチするための階層化テーブル及び各セグメン
トの状態)、CHA3、DKA5のプロセッサ間通信メ
ッセージ(各プロセッサ間の協調、同期等の為に行われ
る通信内容)、システムの構成情報(システム内に存在
するCHA3、DKA5の実装状態、キャッシュメモリ
2、共有メモリ6の容量、ディスクアレイ4の数等シス
テムの構成状態に係わる共通情報)等の制御情報を格納
する。
【0017】次に、記憶装置の基本動作を説明する。
【0018】CHA3は、チャネル接続系1経由で上位
のホストコンピュータからコマンドを受け付け、コマン
ド解析、及びデータ転送の制御を行う。例えば、上位か
らデータをリード命令を受け付けた場合についての基本
動作について、以下に説明する。
【0019】CHA3は、共有メモリ6をアクセスし
て、キャッシュメモリ2上に当該データが存在している
かどうかをチェックする。キャッシュメモリ2上に目的
データがあれば、キャッシュメモリ2からチャネル接続
系1経由して、ホストコンピュータへの転送を行うが、
キャッシュメモリ上に目的データが存在しなければ、共
有メモリ6を用いて、DKA5へのプロセッサ間通信を
行う。DKA5は、その目的データをディスクアレイ4
からキャッシュメモリ2に転送し、データ転送を完了し
たセグメントについて、再び共有メモリ6をアクセスし
てCHA3への通信を行い、CHA3によりキャッシュ
メモリ2からホストコンピュータへの転送を制御する。
【0020】システム内に複数存在するCHA3、DK
A5には、それぞれプロセッサを搭載し、各プロセッサ
から共有メモリ6への接続が独立に設けられている。ま
た、単一の故障によるシステム動作停止を防ぐ為、共有
メモリ6も多重化して、冗長性を持たせている。
【0021】各プロセッサから共有メモリ6への接続系
を以下に詳細を説明する。
【0022】図2に共有メモリとの詳細な結合方式をブ
ロック図にて示す。本図は、プロセッサが搭載されてい
るサブシステムであるCHA(またはDKA、双方を含
めてアダプタと言う事も有る)11,12、周辺装置
(共通モジュール)であり二重化にされた共有メモリ2
1,22、CHA(DKA)11,12と共有メモリ2
1,22とを連結するアクセスパス31,32,33,
34,35,36,37,38を示している。更に、C
HA(DKA)には、パス選択制御回路41,42、パ
スモード設定レジスタ51,52が具備されている。
【0023】共有メモリ21,22は二重化され、どち
らか片方が故障して閉塞された場合、多少の性能ダウン
があっても、残った正常な1つの共有メモリのみでシス
テム動作は継続可能である。
【0024】また、例えば、CHA(DKA)11側の
プロセッサから共有メモリ21へのアクセスは、アクセ
スパス31を経由して行うこともアクセスパス32を経
由して行うことも可能である様に、プロセッサと共有メ
モリとの接続パスをそれぞれ2つ具備し、各アクセスパ
スはそれぞれ独立に機能し、システムの正常作動時には
個別にアクセス可能なようにしている。
【0025】以下パスモード選択制御回路41,42の
機能について述べる。
【0026】プロセッサから任意の共有メモリアクセス
が指示された場合、パスモード選択制御回路41,42
は、パスモード設定レジスタ51,52の内容を参照し
て、アクセスに用いるアクセスパスを決定する。パスモ
ード設定レジスタ51,52は、4ビットからなるレジ
スタであり、各ビットはそれぞれ当該プロセッサに接続
されている4つのアクセスパスに対応する。パスモード
設定レジスタ51,52は、プログラムから設定可能で
あり、通常時は、4ビットとも0が設定され、パス自動
分散を意味する。パスモード選択制御回路で0指定を参
照できた場合、前回のアクセスで使用しなかったパスを
優先的に用いる。その結果、共有メモリアクセス負荷
は、2つのアクセスパスに分散され、アクセス性能を高
めることが可能となる。
【0027】故障等により片側のパスが使用できない場
合、プログラムよりパスモード設定レジスタ51,52
にパス固定モードを設定する。例えば、共有メモリ21
に対応する2つのビットに1、0を設定して共有メモリ
21に対するアクセスを行えば、パスモード選択制御回
路41,42は、第1のアクセスパス(CHA又はDK
A11からならアクセスパス31、CHA又はDKA1
2からならアクセスパス35)を固定的に選択する。
【0028】パスモード設定レジスタ51,52の設定
値と、それぞれの時に選択されるアクセスパスを図3に
示す。図3中“パス分散”とあるところは、上記説明の
通り、前回のアクセスで使用しなかったパスを選択し、
負荷を分散することを意味する。
【0029】さて、共通バス接続方式と異なり、各アク
セスパスは独立に動作可能であるため、共有メモリの同
一データに対してアクセスの競合が発生することが考え
られる。特にリードモディファイライト動作中に競合が
発生すると、データの不整合が発生する恐れがある。
【0030】リードモディファイライトとは、共有メモ
リ上のあるデータをリードし、例えば特定ビットをON
してライトする処理である。例えば、リードして操作し
ようとするデータを、リライトする前に他のライトアク
セスによって書き換えられても、その後のライトで当該
書き替えが無効になってしまう。この様に、一連の動作
中に他パス経由にてアクセスを排他制御しないと、デー
タの整合性が保証できなくなる。
【0031】そのために、本装置では、アドレスロック
部をハード的に設け、リードモディファイライト命令が
指示された場合、アクセス対象アドレスが、アドレスロ
ック部内に設定され、そのアドレスがロック中である事
を示す。アドレスロック部にロックが設定されている場
合には、他のすべてメモリアクセスに対してアドレスロ
ックチェックを行い、アクセスしようとするアドレスが
ロック中であれば、ロックが解除される迄ロック待ちの
状態に入る。そして目的とするアクセスは、そのアドレ
スロックが解除されてから実行される。
【0032】また、複数プロセッサがロック待ち状態に
入った場合には、ラウンドロビン制御が働き、ロックタ
イムアウトにならない様に制御される。
【0033】このアドレスロック部を含む共有メモリ内
制御部の構成ブロック図を図4に示す。尚、図4におけ
る共有メモリ1は図2における共有メモリA面に、共有
メモリ2は共有メモリB面と同義である。また、図1の
共有メモリは二重化され、それぞれ共有メモリA面及び
B面となる。
【0034】共有メモリ制御LSIは、前述の競合を制
御する競合制御部、メモリ制御部、ECC生成部、EC
Cチェック部等を有し、データライト時にECC(Err
orCheck Conditon)というチェックコードを生成し
て、データリード時にECCの整合性をチェックするこ
とにより、メモリ故障によるデータ破壊を防止する。
【0035】そして、アドレスロック部において、予め
決められたアドレス範囲での排他を行う。具体的には、
アドレス排他制御が必要なアクセスが要求された場合
に、アクセスアドレスを登録して、アドレスがロック中
状態とする。そしてロック中状態に入り込む他のアクセ
ス要求に対して、アクセスアドレスと各ロック中アドレ
スとのコンペアチェックを行い、ロック中アドレスと一
致するアクセスについては、ロックが解除されるまでに
アクセスをウェイトすることにより、データの整合性を
保つことが可能である。
【0036】このアドレスロックによる共有メモリアク
セス排他方式を図5に示す。ここで、MP#1のプロセ
ッサは、リードモディファイライトを行うために、ロッ
ク付きのアクセス命令を発行する。この場合にはロック
付きのリード指示である。共有メモリはこのロック付き
の指示を受けると、アクセス経路を固定して、同一アド
レスへは他の経路からのアクセスができないように設定
する。共有メモリはリード指示によりメモリを読み込
み、MP#1に読み込んだリードデータとそのステータ
スを返す。MP#1は送られてきたデータをモデファイ
処理した後、共有メモリにライト指示を出す。そして、
MP#1は共有メモリからそのステータスを受け取って
処理を完了した後、共有メモリに対してロック解除の指
示を出す。この指示により、共有メモリは他経路からの
アクセスを受けられるようになる。
【0037】つまり、共有メモリがロックされている際
に同一アドレスをアクセスしようとするMP#2のプロ
セッサは、MP#1のアクセスがロック中はロック待ち
に入り、MP#1のロックが解除してからメモリライト
が実行される。尚、図5においてMP#1,2は任意の
CHA、DKA内のプロセッサを示し、図2におけるプ
ロセッサと同じ物である。
【0038】次に、DKA12のプロセッサからアクセ
スパス35を経由し、共有メモリ21へのアクセス時
に、ハード故障によりアクセスエラーが発生した場合の
フォールトトレラント制御について説明する。
【0039】まず、障害発生時のハード情報から故障部
位が明確に判定可能なケースが存在する。例えば、いま
DKA12内のプロセッサ内部の故障であると判定でき
れば、DKA12をシステムから引き離し、残り他のD
KA内のプロセッサでシステム動作を継続する。また例
えば、障害情報から共有メモリ21内部の故障であると
判定できれば、共有メモリ21をシステムから切り離
し、共有メモリ22を用いてシステム動作を継続する。
【0040】しかし、複数のハード構成部位からなるシ
ステムで、障害時の情報のみで故障部位が明確的にわか
らない場合が考えられる。例えば、DKA12内のプロ
セッサがアクセスパス35を用いて、共有メモリ21へ
のライトアクセスにタイムアウトが発生し、正常終了が
報告されない場合が発生したとする。DKA12内のプ
ロセッサの故障により、ライト命令が共有メモリ21の
制御部に伝わらなかったのか、共有メモリ21の故障に
より、正常終了の報告ができなかったか、或いはアクセ
スパス35の故障により情報の伝達が正常にできなかっ
たかを、タイムアウトが発生したという事実だけでは明
確的に判別できない。
【0041】この様な故障部位が曖昧なケースが発生し
たら、本システムでは、障害処理内にてアクセステスト
を行い、各経路からの共有メモリアクセスが正常である
かどうかの結果を総合的に判断し、障害部位の特定と切
り離しを行う。
【0042】具体的には、DKA12で障害を検出した
ら、アクセスパス35を経由した共有メモリ21へのア
クセス、アクセスパス36を経由した共有メモリ21へ
のアクセス、アクセスパス37を経由した共有メモリ2
2へのアクセス、アクセスパス38を経由した共有メモ
リ22へのアクセスをそれぞれ試行する。以上4パター
ンのアクセスが、それぞれ正常に行えたかどうかの結果
を用いて故障部位を判定する。
【0043】例えば、ここでアクセスパス35を経由し
て、共有メモリ21へのアクセス時のみに障害が発生
し、アクセスパス36から共有メモリ21へのアクセス
時は、正常にアクセス可能だとすれば、アクセスパス3
5のみの故障であると判定し、アクセスパス35の使用
を停止し、以降は、保守作業によってアクセスパス35
が回復される迄、DKA12から共有メモリ21へのア
クセスはアクセスパス36の経路から行う。
【0044】また、例えば、アクセスパス35及び36
から共有メモリ21へのアクセスが両方失敗し、アクセ
スパス37及び38を経由した共有メモリ22へは、正
常にアクセス可能だとすれば、共有メモリ21の故障に
起因する障害であると判定して、共有メモリ21の閉塞
を行う。以降は、保守作業によって共有メモリ21が回
復されるまで、各プロセッサは、共有メモリ21を使用
せず、情報の伝達等は共有メモリ22を用いて行う。
【0045】更に、アクセスパス35及び36から共有
メモリ21へのアクセス、アクセス37及び38から共
有メモリ22へのアクセスが、全ての経路で正常にアク
セスできないのだとすれば、DKA12回りに故障があ
るものと判定し、当該プロセッサの閉塞を行う。
【0046】図6に上記アクセステストの結果の組み合
わせと、システムから引き離す閉塞部位の一覧を示す。
図6のパス1A(a),1A(b),1B(a),1B
(b)は例えば図2のアクセスパス31,32,33,
34に相当する。この組み合わせにおいて、アクセスパ
ス単独の故障であれば確実に障害部位を特定する事が出
来る。また、共有メモリ及びCHAまたはDKAのプロ
セッサ故障についても、複数のアクセスパスが同時に故
障を起こす可能性はあまり考えられないので、ほぼ特定
をする事が出来る。つまり、本組み合わせをテーブルに
整理し、障害処理はアクセステストの結果から本テーブ
ルを検索すれば、閉塞すべき部位をすばやく特定するこ
とができる。
【0047】尚、全てのアクセスパスのテストを行う前
に、同じ共有メモリへ他のアクセスパスを使用してテス
トを行うことのみでも、アクセスパス単独の故障か否か
を判断することが可能である。なぜならば、異なる共有
メモリに対して複数のアクセスパスがNGの場合は多重
障害の可能性が高く、いずれにせよ故障部署の特定が困
難だからである。
【0048】以上に説明した障害特定方式の処理流れ図
を図7に示す。
【0049】障害を検出した場合(ステップ701)、
その情報を採取する(ステップ702)。そしてその情
報により故障部位が明白であるか否かを判断し(ステッ
プ703)、明白な場合にはその故障部位を閉鎖(ステ
ップ711)し、障害処理を完了(ステップ712)す
る。
【0050】明白でない場合には、アクセスを再度トラ
イし(ステップ704)、アクセスが成功か否かを見る
(ステップ705)。成功した場合には一時的な障害で
あると判定し(ステップ712)、障害処理を完了(ス
テップ712)する。再度アクセス失敗の場合は、パス
1-共有メモリ(A)からパス2-共有メモリ(B)(例
えば図6のパス1A(a)からパス1B(b))のアク
セステストをし(ステップ706〜709)、図6に示
すようなテーブルを参照して故障部位を判定する(ステ
ップ710)。そしてその部位を閉鎖(ステップ71
1)し、障害処理を完了(ステップ712)する。尚、
ステップ706〜709は故障部位に関するアクセスパ
スのテストを行うのであれば特に順番は関係無い。
【0051】共通バスによる接続方式と違って、本方式
に従って処理すれば、アクセスパスの故障時は、システ
ム内他プロセッサのアクセスを影響、または中断する必
要なく、故障パスを閉塞することが可能である。
【0052】尚、本実施例では、記憶制御装置内部での
プロセッサと共有メモリ間の接続について示したが、共
有メモリだけではなく、キャッシュメモリ等他の記憶装
置等の共通部位への接続にも、全く同様な論理にて実現
可能である。
【0053】更に、同様なサブシステムであるホストコ
ンピュータと周辺装置である記憶装置間との接続に適応
することも考えられる。この場合、記憶装置が多重化に
した上、各ホストコンピュータと各記憶装置には、それ
ぞれ2つ接続径路を持たせる。エラーが報告された場合
には、同一記憶装置への他の径路、他の記憶装置に接続
される径路から、それぞれアクセステストを行い、アク
セステストの結果を図3のテーブルに適応すれば、記憶
装置全体の故障であるか、チャネル等接続系の故障であ
るかを判別可能となる。
【0054】
【発明の効果】マルチプロセッサを持つ情報処理装置に
おいて、共有バス結合による問題を解決する接続方式を
提案し、一般的な個別バス接続方式で接続時に生じる障
害部位特定上の課題をも解決し、性能面と信頼性の両立
が両立可能な接続手段を提供する。
【0055】複数個別パス結合方式としたことにより、
各プロセッサと各構成モジュール間の通信路が、全て独
立となり、単一の故障がシステム全体に波及することは
なくなる。また、複数の通信路は、時分割にではなく、
同時に並行動作が可能となるため、共通バスによりもた
らされる性能低下の問題も解決できる。
【図面の簡単な説明】
【図1】本発明方式を適用した実施例のシステム概略図
である。
【図2】本発明処理方式を適用した図1装置の結合要部
ブロック図である。
【図3】パスモード設定レジスタの値と選択されるアク
セスパスの組み合わせ表である。
【図4】共有メモリ制御部の構成ブロック図である。
【図5】アドレスロック方式によるである。
【図6】アクセステスト結果と推定される故障部位の組
み合わせ表である。
【図7】障害検出から故障部位判定のフローである。
【符号の説明】
1…ホスト接続ハードウェア、2…キャッシュメモリ、
3…CHA(チャネルアダプタ)、4…ディスクアレ
イ、5…DKA(ディスクアダプタ)、6…共有メモ
リ、11,12…プロセッサ搭載パッケージ(CHAま
たはDKA)、21,22…共有メモリ、31,32,
33,34,35,36,37,38…共有メモリへの
アクセスパス、41,42…パス選択制御回路、51,
52…パスモード設定レジスタ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 13/14 310 G06F 13/14 310E 13/36 520 13/36 520C (72)発明者 本間 久雄 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内 (72)発明者 奥元 勝博 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内 (72)発明者 阪口 治 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウェアエンジニアリング株式会 社内 Fターム(参考) 5B014 HA13 5B034 BB15 CC05 DD01 5B045 BB17 DD01 DD12 JJ07 JJ27 JJ47 5B061 GG11 QQ06 5B065 BA01 EA12

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】アダプタから共有メモリへのアクセスに障
    害が発生した場合に、他の接続手段を使用して同一共有
    メモリへアクセスし、そのアクセス結果より故障部位を
    判定し、その判定した故障部位を切り離す情報処理装置
    の障害処理方法。
  2. 【請求項2】アダプタから共有メモリへのアクセスに障
    害が発生した場合に、障害情報を採取し故障部位が明ら
    かなときにはその部分を閉鎖し、明らかでない場合には
    アクセスを再トライし、再度障害が発生したときには他
    の接続手段を使用して同一共有メモリへアクセスし、そ
    のアクセス結果と故障部位を判定するためのテーブルを
    比較し障害部位を判定し、その判定した故障部位を切り
    離す情報処理装置の障害処理方法。
  3. 【請求項3】上位装置と接続するためのチャネル接続系
    と、このチャネル接続系経由で前記上位装置からのコマ
    ンドを受け付けるチャネルアダプタと、このチャネルア
    ダプタに接続され前記上位装置へのデータを一時的に格
    納するキャッシュメモリと、前記チャネルアダプタに接
    続され前記キャッシュメモリに格納しているデータを管
    理する共有メモリとを備えた記憶制御装置において、前
    記チャネルアダプタと前記共有メモリとを互いに複数の
    接続手段で接続した記憶制御装置。
  4. 【請求項4】データを格納するディスクアレイと、上位
    装置に送る際にデータを一時的に格納するキャッシュメ
    モリと、前記ディスクアレイから前記キャッシュディス
    クにデータを転送するディスクアダプタと、前記ディス
    クアダプタに接続され前記キャッシュメモリに格納して
    いるデータを管理する共有メモリとを備えた記憶制御装
    置において、 前記ディスクアダプタと前記共有メモリとを互いに複数
    の接続手段で接続した記憶制御装置。
  5. 【請求項5】前記チャネルアダプタまたは前記ディスク
    アダプタのプロセッサは、処理を行う際に前記共有メモ
    リにロック付きのアクセス命令を出し処理終了後にはロ
    ック解除を行う請求項3または4に記載の記憶制御装
    置。
JP35725498A 1998-12-16 1998-12-16 記憶制御装置およびその制御方法 Expired - Fee Related JP4132322B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP35725498A JP4132322B2 (ja) 1998-12-16 1998-12-16 記憶制御装置およびその制御方法
EP99117283A EP1011047B1 (en) 1998-12-16 1999-09-02 Fault recovery method and storage controller in information processing apparatus
DE69939050T DE69939050D1 (de) 1998-12-16 1999-09-02 Fehlerkorrekturverfahren und Speichersteuergerät in einer Datenverarbeitungsvorrichtung
US10/600,828 US7302606B2 (en) 1998-12-16 2003-06-23 Fault recovery method and a storage controller in an information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35725498A JP4132322B2 (ja) 1998-12-16 1998-12-16 記憶制御装置およびその制御方法

Publications (3)

Publication Number Publication Date
JP2000181887A true JP2000181887A (ja) 2000-06-30
JP2000181887A5 JP2000181887A5 (ja) 2006-01-12
JP4132322B2 JP4132322B2 (ja) 2008-08-13

Family

ID=18453188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35725498A Expired - Fee Related JP4132322B2 (ja) 1998-12-16 1998-12-16 記憶制御装置およびその制御方法

Country Status (4)

Country Link
US (1) US7302606B2 (ja)
EP (1) EP1011047B1 (ja)
JP (1) JP4132322B2 (ja)
DE (1) DE69939050D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284478A (ja) * 2004-03-29 2005-10-13 Hitachi Ltd ストレージシステムおよびその制御方法
JP2006303654A (ja) * 2005-04-15 2006-11-02 Sony Corp 光信号処理装置、情報記録再生装置及び情報記録再生システム
US8572428B2 (en) 2010-12-20 2013-10-29 Fujitsu Limited Storage apparatus and control method for storage apparatus
JP2014523010A (ja) * 2011-12-14 2014-09-08 株式会社日立製作所 ストレージ装置とそのメモリ制御方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288279A (ja) 2002-03-28 2003-10-10 Hitachi Ltd 記憶装置間の障害検出方法、及びこれに用いられる記憶装置
US7565566B2 (en) * 2003-04-23 2009-07-21 Dot Hill Systems Corporation Network storage appliance with an integrated switch
US7627780B2 (en) 2003-04-23 2009-12-01 Dot Hill Systems Corporation Apparatus and method for deterministically performing active-active failover of redundant servers in a network storage appliance
US7401254B2 (en) * 2003-04-23 2008-07-15 Dot Hill Systems Corporation Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis
US7676600B2 (en) * 2003-04-23 2010-03-09 Dot Hill Systems Corporation Network, storage appliance, and method for externalizing an internal I/O link between a server and a storage controller integrated within the storage appliance chassis
JP4454299B2 (ja) * 2003-12-15 2010-04-21 株式会社日立製作所 ディスクアレイ装置及びディスクアレイ装置の保守方法
US7450959B2 (en) * 2003-12-31 2008-11-11 Qualcomm Incorporated Wireless multiprocessor system-on-chip with unified memory and fault inhibitor
JP2006244123A (ja) * 2005-03-03 2006-09-14 Fujitsu Ltd データストレージシステム及びデータストレージ制御装置
JP4461485B2 (ja) * 2005-04-05 2010-05-12 株式会社ジェイテクト 分散制御装置
US7590885B2 (en) * 2005-04-26 2009-09-15 Hewlett-Packard Development Company, L.P. Method and system of copying memory from a source processor to a target processor by duplicating memory writes
JP4414399B2 (ja) * 2006-01-30 2010-02-10 富士通株式会社 ディスク制御装置
US8055856B2 (en) * 2008-03-24 2011-11-08 Nvidia Corporation Lock mechanism to enable atomic updates to shared memory
US20150248320A1 (en) * 2014-02-28 2015-09-03 Red Hat Israel, Ltd. Host-storage connectivity monitoring
US10528435B2 (en) * 2017-05-08 2020-01-07 International Business Machines Corporation Performance efficient time locks on data in a storage controller
US10514859B2 (en) 2017-05-08 2019-12-24 International Business Machines Corporation Reduction of processing overhead for point in time copy to allow access to time locked data
US10489080B2 (en) 2017-05-08 2019-11-26 International Business Machines Corporation Point in time copy of time locked data in a storage controller
US10514721B2 (en) 2017-05-08 2019-12-24 International Business Machines Corporation Validation of clock to provide security for time locked data

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3623014A (en) 1969-08-25 1971-11-23 Control Data Corp Computer communications system
US5680574A (en) * 1990-02-26 1997-10-21 Hitachi, Ltd. Data distribution utilizing a master disk unit for fetching and for writing to remaining disk units
US5155845A (en) 1990-06-15 1992-10-13 Storage Technology Corporation Data storage system for providing redundant copies of data on different disk drives
US5638506A (en) 1991-04-08 1997-06-10 Storage Technology Corporation Method for logically isolating a cache memory bank from a memory bank group
US5392425A (en) * 1991-08-30 1995-02-21 International Business Machines Corporation Channel-initiated retry and unit check for peripheral devices
JP2777301B2 (ja) 1992-01-07 1998-07-16 三菱電機株式会社 記録装置
US5581724A (en) 1992-10-19 1996-12-03 Storage Technology Corporation Dynamically mapped data storage subsystem having multiple open destage cylinders and method of managing that subsystem
US5572694A (en) * 1992-11-25 1996-11-05 Fujitsu Limited Virtual system for detecting access paths belonging to same group from plurality of access paths to reach device designated by command with reference to table
US5771367A (en) * 1992-12-17 1998-06-23 International Business Machines Corporation Storage controller and method for improved failure recovery using cross-coupled cache memories and nonvolatile stores
US5473752A (en) 1993-03-17 1995-12-05 Detector Electronics Corporation Fault isolation circuit
US5390326A (en) 1993-04-30 1995-02-14 The Foxboro Company Local area network with fault detection and recovery
JP3264465B2 (ja) * 1993-06-30 2002-03-11 株式会社日立製作所 記憶システム
US5790775A (en) * 1995-10-23 1998-08-04 Digital Equipment Corporation Host transparent storage controller failover/failback of SCSI targets and associated units
JP3628777B2 (ja) * 1995-10-30 2005-03-16 株式会社日立製作所 外部記憶装置
US6032271A (en) 1996-06-05 2000-02-29 Compaq Computer Corporation Method and apparatus for identifying faulty devices in a computer system
JP3581765B2 (ja) 1996-09-20 2004-10-27 株式会社日立コミュニケーションテクノロジー 複合リング形ネットワークシステムにおけるパス切替方法及び装置
US5890219A (en) 1996-11-27 1999-03-30 Emc Corporation Redundant writing of data to cached storage system
US5862308A (en) * 1996-12-03 1999-01-19 Bull Hn Information Systems Inc. Fault intercept and resolution process independent of operating system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284478A (ja) * 2004-03-29 2005-10-13 Hitachi Ltd ストレージシステムおよびその制御方法
JP4585217B2 (ja) * 2004-03-29 2010-11-24 株式会社日立製作所 ストレージシステムおよびその制御方法
JP2006303654A (ja) * 2005-04-15 2006-11-02 Sony Corp 光信号処理装置、情報記録再生装置及び情報記録再生システム
US7580598B2 (en) 2005-04-15 2009-08-25 Sony Corporation Optical signal processing device, information recording/reproducing apparatus and information recording/reproducing system
JP4645278B2 (ja) * 2005-04-15 2011-03-09 ソニー株式会社 光信号処理装置
US8572428B2 (en) 2010-12-20 2013-10-29 Fujitsu Limited Storage apparatus and control method for storage apparatus
JP2014523010A (ja) * 2011-12-14 2014-09-08 株式会社日立製作所 ストレージ装置とそのメモリ制御方法

Also Published As

Publication number Publication date
EP1011047A2 (en) 2000-06-21
JP4132322B2 (ja) 2008-08-13
US20040153691A1 (en) 2004-08-05
EP1011047B1 (en) 2008-07-09
US7302606B2 (en) 2007-11-27
EP1011047A3 (en) 2006-07-12
DE69939050D1 (de) 2008-08-21

Similar Documents

Publication Publication Date Title
JP2000181887A (ja) 情報処理装置における障害処理方法及び記憶制御装置
US5005174A (en) Dual zone, fault tolerant computer system with error checking in I/O writes
US5153881A (en) Method of handling errors in software
JP2694099B2 (ja) 大型耐故障不揮発性複数ポート・メモリー
US4438494A (en) Apparatus of fault-handling in a multiprocessing system
US4907228A (en) Dual-rail processor with error checking at single rail interfaces
US6321346B1 (en) External storage
JP5127491B2 (ja) ストレージサブシステム及びこれの制御方法
US4916704A (en) Interface of non-fault tolerant components to fault tolerant system
US6266785B1 (en) File system filter driver apparatus and method
US5251227A (en) Targeted resets in a data processor including a trace memory to store transactions
JPH03232045A (ja) Dmaデータ転送のためのプロトコル
EP0415549A2 (en) Method of converting unique data to system data
JP2000181887A5 (ja)
EP0415546A2 (en) Memory device
US6804794B1 (en) Error condition handling
US6801983B2 (en) Disk control device and storage device using it
EP0411805B1 (en) Bulk memory transfer during resync
US7752340B1 (en) Atomic command retry in a data storage system
US6490662B1 (en) System and method for enhancing the reliability of a computer system by combining a cache sync-flush engine with a replicated memory module
JPH0744327A (ja) データ処理システム
EP0416732B1 (en) Targeted resets in a data processor
US7472221B1 (en) Mirrored memory
US7302526B1 (en) Handling memory faults for mirrored memory
US6249878B1 (en) Data storage system

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051117

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20051117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080602

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees