JP2000181887A - 情報処理装置における障害処理方法及び記憶制御装置 - Google Patents
情報処理装置における障害処理方法及び記憶制御装置Info
- Publication number
- JP2000181887A JP2000181887A JP10357254A JP35725498A JP2000181887A JP 2000181887 A JP2000181887 A JP 2000181887A JP 10357254 A JP10357254 A JP 10357254A JP 35725498 A JP35725498 A JP 35725498A JP 2000181887 A JP2000181887 A JP 2000181887A
- Authority
- JP
- Japan
- Prior art keywords
- shared memory
- access
- failure
- adapter
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
- G06F11/201—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/073—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1405—Saving, restoring, recovering or retrying at machine instruction level
- G06F11/141—Saving, restoring, recovering or retrying at machine instruction level for bus or memory accesses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Bus Control (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
は、一部の故障においてもシステム全体に影響を与えて
しまう。また、故障個所の判定も行う事ができない。 【解決手段】アダプタ11,12と共有メモリ21,2
2との接続を複数の個別パス31〜38で接続する。そ
して共有メモリ21,22内にアドレスロック部(図示
せず)を設け、アダプタ11,12からのメモリアクセ
スに対してアドレスロックチェックを行い、アクセスし
ようとするアドレスがロック中であれば、ロックが解除
される迄ロック待ちの状態に入る。そして目的とするア
クセスは、そのアドレスロックが解除されてから実行す
る。
Description
いた情報処理システムあるいは情報処理装置の記憶装置
における対故障処理方式に係わり、システムの一部であ
る記憶装置に故障が発生しても、システム全体として
は、所望の動作が継続可能とするための障害検出や復旧
処理に関し、特に詳細には、マルチプロセッサシステム
におけるプロセッサと他の共通モジュールとの結合方式
技術と、それによるフォールトトレランス制御技術に関
する。
が社会全般に普及してきた現在において、その障害が与
える社会的な影響は、極めて大きい。その一方、システ
ムが大規模になるに従い、システム全体が無故障である
ことが殆ど望めないものとなり、一部に故障が発生して
もシステム全体としては所望の動作が継続可能なこと
が、要求される様になっている。
チャとして、情報処理学会の「情報処理」学会誌、Vol.
34 No.11Nov.1993 P1375〜P1384に記載されている「リ
アルタイム映像信号処理装置とその応用」(八木伸行著)
「2.3 結合方式」中の「図−3プロセッサ間接続」には、
システムを構成する各々のモジュールを共通バスにて接
続する“共通バス接続方式”として(a)のBus方式、連結
に必要な各々のモジュールをそれぞれ個別パスにて接続
する“個別パス接続方式”として(d)のComplete等が示
されている。
ス結合方式として特開平9−160723号公報があ
る。この接続方式では、共通バスの使用権を調停するた
めに専用の機構が必要であり、共通バス自身、もしく
は、前記調停機構に故障が発生すると、システム全体が
動作不可に陥る。そのため、更に共通バスを複数系統用
意し、冗長度を持たせる接続方式も実施されている。
サとシステム内の各共有モジュールとの接続経路が独立
であり、通常1つのパスの故障が、全システムに伝播す
ることはない。
的にバス信号線を複数のプロセッサや構成モジュールと
が時分割で共有するので、同時に複数の信号を伝達する
ことができない。そのために、特に、高性能が要求され
る制御装置では、バスの限界がシステムの性能ネックと
なる。また、共通バス系は、システムの共通資源となっ
ているため、故障が発生した場合、システム全体に影響
を与えることが免れない。
ジュールへの通信路が1つのみであり、通信経路を切り
替えてのテストができない。そのため、故障の種別次第
では、故障部位を正しく切り離し、システム継続動作を
保証することができない。
ュール間への個別パスを複数にすると、共有メモリを持
つマルチプロセッサシステムでは、同一プロセッサパッ
ケージから発生する複数のアクセス要求と、更に各プロ
セッサから発生するアクセス要求とが混在して共有メモ
リへ入りこんでしまう。そして同一共有メモリ上のデー
タに対して、リードモディファイライト等排他が必要な
アクセス中に他のアクセスが入り込むと、データの整合
性が保たれなくなってしまう。
マルチプロセッサを持つ情報処理装置及びシステムにお
いて、データの整合性を保つことが可能な複数個別パス
接続方式及びこの接続方式を用いた制御装置を提供する
ことである。
題点を解決するために、各プロセッサからシステムの各
共通モジュールへの接続経路を、それぞれ2つ以上持た
せる複数個別パス結合方式とする。そして、障害を検出
した場合には、通信経路を変更してテストを行い、総合
的に故障部位を判定する。
ルへ複数の接続経路にアクセスパスの切り替え及びアド
レスロック方式を用いる。
ステム共通モジュールにアドレスロック部を設置し、予
め決められたアドレス範囲での排他を行う方式である。
アドレス排他制御が必要なアクセスが要求された場合
に、アクセスアドレスを登録して、アドレスがロック中
状態を示す。ロック中状態に入り込む他のアクセス要求
に対して、アクセスアドレスと各ロック中アドレスとの
コンペアチェックを行い、ロック中アドレスと一致する
アクセスについては、ロックが解除されるまでにアクセ
スをウェイトすることにより、データの整合性を保つこ
とが可能である。
を用いて以下に詳細を説明する。
実施例の階層を表すシステム概略図を示す。上位装置で
あるホストコンピュータ(図示せず)に接続するチャネ
ル接続系1、入出力データを一時的に格納するキャッシ
ュメモリ2、チャネル接続系1とキャッシュメモリ2間
のデータ転送を制御するチャネルアダプタ(以下CHA
と称する)3、データを蓄積する記憶媒体であるディス
クアレイ4、キャッシュメモリ2とディスクアレイ4間
のデータ転送を制御するディスクアダプタ(以下DKA
と称する)5、CHA3とDKA3との間に設けられ、
後述する共有メモリ6から構成される。
を示すものではなく、実際にはキャッシュメモリ2と共
有メモリ6は一つのCHA(またはDKA)から接続を
している。尚、チャネル接続系としては例えば、メイン
フレーム系のホストコンピュータ(CKDデータフォー
マット)と接続の場合にはチャネル制御装置、UNIX
系のコンピュータ(FBAデータフォーマット)の場合
にはSCSIバス制御装置が挙げられる。また、ファイ
バチャネルを用いた制御装置でもよい。
使用を管理するディレクトリー情報(キャッシュセグメ
ントをサーチするための階層化テーブル及び各セグメン
トの状態)、CHA3、DKA5のプロセッサ間通信メ
ッセージ(各プロセッサ間の協調、同期等の為に行われ
る通信内容)、システムの構成情報(システム内に存在
するCHA3、DKA5の実装状態、キャッシュメモリ
2、共有メモリ6の容量、ディスクアレイ4の数等シス
テムの構成状態に係わる共通情報)等の制御情報を格納
する。
のホストコンピュータからコマンドを受け付け、コマン
ド解析、及びデータ転送の制御を行う。例えば、上位か
らデータをリード命令を受け付けた場合についての基本
動作について、以下に説明する。
て、キャッシュメモリ2上に当該データが存在している
かどうかをチェックする。キャッシュメモリ2上に目的
データがあれば、キャッシュメモリ2からチャネル接続
系1経由して、ホストコンピュータへの転送を行うが、
キャッシュメモリ上に目的データが存在しなければ、共
有メモリ6を用いて、DKA5へのプロセッサ間通信を
行う。DKA5は、その目的データをディスクアレイ4
からキャッシュメモリ2に転送し、データ転送を完了し
たセグメントについて、再び共有メモリ6をアクセスし
てCHA3への通信を行い、CHA3によりキャッシュ
メモリ2からホストコンピュータへの転送を制御する。
A5には、それぞれプロセッサを搭載し、各プロセッサ
から共有メモリ6への接続が独立に設けられている。ま
た、単一の故障によるシステム動作停止を防ぐ為、共有
メモリ6も多重化して、冗長性を持たせている。
を以下に詳細を説明する。
ロック図にて示す。本図は、プロセッサが搭載されてい
るサブシステムであるCHA(またはDKA、双方を含
めてアダプタと言う事も有る)11,12、周辺装置
(共通モジュール)であり二重化にされた共有メモリ2
1,22、CHA(DKA)11,12と共有メモリ2
1,22とを連結するアクセスパス31,32,33,
34,35,36,37,38を示している。更に、C
HA(DKA)には、パス選択制御回路41,42、パ
スモード設定レジスタ51,52が具備されている。
らか片方が故障して閉塞された場合、多少の性能ダウン
があっても、残った正常な1つの共有メモリのみでシス
テム動作は継続可能である。
プロセッサから共有メモリ21へのアクセスは、アクセ
スパス31を経由して行うこともアクセスパス32を経
由して行うことも可能である様に、プロセッサと共有メ
モリとの接続パスをそれぞれ2つ具備し、各アクセスパ
スはそれぞれ独立に機能し、システムの正常作動時には
個別にアクセス可能なようにしている。
機能について述べる。
が指示された場合、パスモード選択制御回路41,42
は、パスモード設定レジスタ51,52の内容を参照し
て、アクセスに用いるアクセスパスを決定する。パスモ
ード設定レジスタ51,52は、4ビットからなるレジ
スタであり、各ビットはそれぞれ当該プロセッサに接続
されている4つのアクセスパスに対応する。パスモード
設定レジスタ51,52は、プログラムから設定可能で
あり、通常時は、4ビットとも0が設定され、パス自動
分散を意味する。パスモード選択制御回路で0指定を参
照できた場合、前回のアクセスで使用しなかったパスを
優先的に用いる。その結果、共有メモリアクセス負荷
は、2つのアクセスパスに分散され、アクセス性能を高
めることが可能となる。
合、プログラムよりパスモード設定レジスタ51,52
にパス固定モードを設定する。例えば、共有メモリ21
に対応する2つのビットに1、0を設定して共有メモリ
21に対するアクセスを行えば、パスモード選択制御回
路41,42は、第1のアクセスパス(CHA又はDK
A11からならアクセスパス31、CHA又はDKA1
2からならアクセスパス35)を固定的に選択する。
値と、それぞれの時に選択されるアクセスパスを図3に
示す。図3中“パス分散”とあるところは、上記説明の
通り、前回のアクセスで使用しなかったパスを選択し、
負荷を分散することを意味する。
セスパスは独立に動作可能であるため、共有メモリの同
一データに対してアクセスの競合が発生することが考え
られる。特にリードモディファイライト動作中に競合が
発生すると、データの不整合が発生する恐れがある。
リ上のあるデータをリードし、例えば特定ビットをON
してライトする処理である。例えば、リードして操作し
ようとするデータを、リライトする前に他のライトアク
セスによって書き換えられても、その後のライトで当該
書き替えが無効になってしまう。この様に、一連の動作
中に他パス経由にてアクセスを排他制御しないと、デー
タの整合性が保証できなくなる。
部をハード的に設け、リードモディファイライト命令が
指示された場合、アクセス対象アドレスが、アドレスロ
ック部内に設定され、そのアドレスがロック中である事
を示す。アドレスロック部にロックが設定されている場
合には、他のすべてメモリアクセスに対してアドレスロ
ックチェックを行い、アクセスしようとするアドレスが
ロック中であれば、ロックが解除される迄ロック待ちの
状態に入る。そして目的とするアクセスは、そのアドレ
スロックが解除されてから実行される。
入った場合には、ラウンドロビン制御が働き、ロックタ
イムアウトにならない様に制御される。
制御部の構成ブロック図を図4に示す。尚、図4におけ
る共有メモリ1は図2における共有メモリA面に、共有
メモリ2は共有メモリB面と同義である。また、図1の
共有メモリは二重化され、それぞれ共有メモリA面及び
B面となる。
御する競合制御部、メモリ制御部、ECC生成部、EC
Cチェック部等を有し、データライト時にECC(Err
orCheck Conditon)というチェックコードを生成し
て、データリード時にECCの整合性をチェックするこ
とにより、メモリ故障によるデータ破壊を防止する。
決められたアドレス範囲での排他を行う。具体的には、
アドレス排他制御が必要なアクセスが要求された場合
に、アクセスアドレスを登録して、アドレスがロック中
状態とする。そしてロック中状態に入り込む他のアクセ
ス要求に対して、アクセスアドレスと各ロック中アドレ
スとのコンペアチェックを行い、ロック中アドレスと一
致するアクセスについては、ロックが解除されるまでに
アクセスをウェイトすることにより、データの整合性を
保つことが可能である。
セス排他方式を図5に示す。ここで、MP#1のプロセ
ッサは、リードモディファイライトを行うために、ロッ
ク付きのアクセス命令を発行する。この場合にはロック
付きのリード指示である。共有メモリはこのロック付き
の指示を受けると、アクセス経路を固定して、同一アド
レスへは他の経路からのアクセスができないように設定
する。共有メモリはリード指示によりメモリを読み込
み、MP#1に読み込んだリードデータとそのステータ
スを返す。MP#1は送られてきたデータをモデファイ
処理した後、共有メモリにライト指示を出す。そして、
MP#1は共有メモリからそのステータスを受け取って
処理を完了した後、共有メモリに対してロック解除の指
示を出す。この指示により、共有メモリは他経路からの
アクセスを受けられるようになる。
に同一アドレスをアクセスしようとするMP#2のプロ
セッサは、MP#1のアクセスがロック中はロック待ち
に入り、MP#1のロックが解除してからメモリライト
が実行される。尚、図5においてMP#1,2は任意の
CHA、DKA内のプロセッサを示し、図2におけるプ
ロセッサと同じ物である。
スパス35を経由し、共有メモリ21へのアクセス時
に、ハード故障によりアクセスエラーが発生した場合の
フォールトトレラント制御について説明する。
位が明確に判定可能なケースが存在する。例えば、いま
DKA12内のプロセッサ内部の故障であると判定でき
れば、DKA12をシステムから引き離し、残り他のD
KA内のプロセッサでシステム動作を継続する。また例
えば、障害情報から共有メモリ21内部の故障であると
判定できれば、共有メモリ21をシステムから切り離
し、共有メモリ22を用いてシステム動作を継続する。
ステムで、障害時の情報のみで故障部位が明確的にわか
らない場合が考えられる。例えば、DKA12内のプロ
セッサがアクセスパス35を用いて、共有メモリ21へ
のライトアクセスにタイムアウトが発生し、正常終了が
報告されない場合が発生したとする。DKA12内のプ
ロセッサの故障により、ライト命令が共有メモリ21の
制御部に伝わらなかったのか、共有メモリ21の故障に
より、正常終了の報告ができなかったか、或いはアクセ
スパス35の故障により情報の伝達が正常にできなかっ
たかを、タイムアウトが発生したという事実だけでは明
確的に判別できない。
たら、本システムでは、障害処理内にてアクセステスト
を行い、各経路からの共有メモリアクセスが正常である
かどうかの結果を総合的に判断し、障害部位の特定と切
り離しを行う。
ら、アクセスパス35を経由した共有メモリ21へのア
クセス、アクセスパス36を経由した共有メモリ21へ
のアクセス、アクセスパス37を経由した共有メモリ2
2へのアクセス、アクセスパス38を経由した共有メモ
リ22へのアクセスをそれぞれ試行する。以上4パター
ンのアクセスが、それぞれ正常に行えたかどうかの結果
を用いて故障部位を判定する。
て、共有メモリ21へのアクセス時のみに障害が発生
し、アクセスパス36から共有メモリ21へのアクセス
時は、正常にアクセス可能だとすれば、アクセスパス3
5のみの故障であると判定し、アクセスパス35の使用
を停止し、以降は、保守作業によってアクセスパス35
が回復される迄、DKA12から共有メモリ21へのア
クセスはアクセスパス36の経路から行う。
から共有メモリ21へのアクセスが両方失敗し、アクセ
スパス37及び38を経由した共有メモリ22へは、正
常にアクセス可能だとすれば、共有メモリ21の故障に
起因する障害であると判定して、共有メモリ21の閉塞
を行う。以降は、保守作業によって共有メモリ21が回
復されるまで、各プロセッサは、共有メモリ21を使用
せず、情報の伝達等は共有メモリ22を用いて行う。
メモリ21へのアクセス、アクセス37及び38から共
有メモリ22へのアクセスが、全ての経路で正常にアク
セスできないのだとすれば、DKA12回りに故障があ
るものと判定し、当該プロセッサの閉塞を行う。
わせと、システムから引き離す閉塞部位の一覧を示す。
図6のパス1A(a),1A(b),1B(a),1B
(b)は例えば図2のアクセスパス31,32,33,
34に相当する。この組み合わせにおいて、アクセスパ
ス単独の故障であれば確実に障害部位を特定する事が出
来る。また、共有メモリ及びCHAまたはDKAのプロ
セッサ故障についても、複数のアクセスパスが同時に故
障を起こす可能性はあまり考えられないので、ほぼ特定
をする事が出来る。つまり、本組み合わせをテーブルに
整理し、障害処理はアクセステストの結果から本テーブ
ルを検索すれば、閉塞すべき部位をすばやく特定するこ
とができる。
に、同じ共有メモリへ他のアクセスパスを使用してテス
トを行うことのみでも、アクセスパス単独の故障か否か
を判断することが可能である。なぜならば、異なる共有
メモリに対して複数のアクセスパスがNGの場合は多重
障害の可能性が高く、いずれにせよ故障部署の特定が困
難だからである。
を図7に示す。
その情報を採取する(ステップ702)。そしてその情
報により故障部位が明白であるか否かを判断し(ステッ
プ703)、明白な場合にはその故障部位を閉鎖(ステ
ップ711)し、障害処理を完了(ステップ712)す
る。
イし(ステップ704)、アクセスが成功か否かを見る
(ステップ705)。成功した場合には一時的な障害で
あると判定し(ステップ712)、障害処理を完了(ス
テップ712)する。再度アクセス失敗の場合は、パス
1-共有メモリ(A)からパス2-共有メモリ(B)(例
えば図6のパス1A(a)からパス1B(b))のアク
セステストをし(ステップ706〜709)、図6に示
すようなテーブルを参照して故障部位を判定する(ステ
ップ710)。そしてその部位を閉鎖(ステップ71
1)し、障害処理を完了(ステップ712)する。尚、
ステップ706〜709は故障部位に関するアクセスパ
スのテストを行うのであれば特に順番は関係無い。
に従って処理すれば、アクセスパスの故障時は、システ
ム内他プロセッサのアクセスを影響、または中断する必
要なく、故障パスを閉塞することが可能である。
プロセッサと共有メモリ間の接続について示したが、共
有メモリだけではなく、キャッシュメモリ等他の記憶装
置等の共通部位への接続にも、全く同様な論理にて実現
可能である。
ンピュータと周辺装置である記憶装置間との接続に適応
することも考えられる。この場合、記憶装置が多重化に
した上、各ホストコンピュータと各記憶装置には、それ
ぞれ2つ接続径路を持たせる。エラーが報告された場合
には、同一記憶装置への他の径路、他の記憶装置に接続
される径路から、それぞれアクセステストを行い、アク
セステストの結果を図3のテーブルに適応すれば、記憶
装置全体の故障であるか、チャネル等接続系の故障であ
るかを判別可能となる。
おいて、共有バス結合による問題を解決する接続方式を
提案し、一般的な個別バス接続方式で接続時に生じる障
害部位特定上の課題をも解決し、性能面と信頼性の両立
が両立可能な接続手段を提供する。
各プロセッサと各構成モジュール間の通信路が、全て独
立となり、単一の故障がシステム全体に波及することは
なくなる。また、複数の通信路は、時分割にではなく、
同時に並行動作が可能となるため、共通バスによりもた
らされる性能低下の問題も解決できる。
である。
ブロック図である。
セスパスの組み合わせ表である。
み合わせ表である。
3…CHA(チャネルアダプタ)、4…ディスクアレ
イ、5…DKA(ディスクアダプタ)、6…共有メモ
リ、11,12…プロセッサ搭載パッケージ(CHAま
たはDKA)、21,22…共有メモリ、31,32,
33,34,35,36,37,38…共有メモリへの
アクセスパス、41,42…パス選択制御回路、51,
52…パスモード設定レジスタ。
Claims (5)
- 【請求項1】アダプタから共有メモリへのアクセスに障
害が発生した場合に、他の接続手段を使用して同一共有
メモリへアクセスし、そのアクセス結果より故障部位を
判定し、その判定した故障部位を切り離す情報処理装置
の障害処理方法。 - 【請求項2】アダプタから共有メモリへのアクセスに障
害が発生した場合に、障害情報を採取し故障部位が明ら
かなときにはその部分を閉鎖し、明らかでない場合には
アクセスを再トライし、再度障害が発生したときには他
の接続手段を使用して同一共有メモリへアクセスし、そ
のアクセス結果と故障部位を判定するためのテーブルを
比較し障害部位を判定し、その判定した故障部位を切り
離す情報処理装置の障害処理方法。 - 【請求項3】上位装置と接続するためのチャネル接続系
と、このチャネル接続系経由で前記上位装置からのコマ
ンドを受け付けるチャネルアダプタと、このチャネルア
ダプタに接続され前記上位装置へのデータを一時的に格
納するキャッシュメモリと、前記チャネルアダプタに接
続され前記キャッシュメモリに格納しているデータを管
理する共有メモリとを備えた記憶制御装置において、前
記チャネルアダプタと前記共有メモリとを互いに複数の
接続手段で接続した記憶制御装置。 - 【請求項4】データを格納するディスクアレイと、上位
装置に送る際にデータを一時的に格納するキャッシュメ
モリと、前記ディスクアレイから前記キャッシュディス
クにデータを転送するディスクアダプタと、前記ディス
クアダプタに接続され前記キャッシュメモリに格納して
いるデータを管理する共有メモリとを備えた記憶制御装
置において、 前記ディスクアダプタと前記共有メモリとを互いに複数
の接続手段で接続した記憶制御装置。 - 【請求項5】前記チャネルアダプタまたは前記ディスク
アダプタのプロセッサは、処理を行う際に前記共有メモ
リにロック付きのアクセス命令を出し処理終了後にはロ
ック解除を行う請求項3または4に記載の記憶制御装
置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35725498A JP4132322B2 (ja) | 1998-12-16 | 1998-12-16 | 記憶制御装置およびその制御方法 |
EP99117283A EP1011047B1 (en) | 1998-12-16 | 1999-09-02 | Fault recovery method and storage controller in information processing apparatus |
DE69939050T DE69939050D1 (de) | 1998-12-16 | 1999-09-02 | Fehlerkorrekturverfahren und Speichersteuergerät in einer Datenverarbeitungsvorrichtung |
US10/600,828 US7302606B2 (en) | 1998-12-16 | 2003-06-23 | Fault recovery method and a storage controller in an information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35725498A JP4132322B2 (ja) | 1998-12-16 | 1998-12-16 | 記憶制御装置およびその制御方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000181887A true JP2000181887A (ja) | 2000-06-30 |
JP2000181887A5 JP2000181887A5 (ja) | 2006-01-12 |
JP4132322B2 JP4132322B2 (ja) | 2008-08-13 |
Family
ID=18453188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35725498A Expired - Fee Related JP4132322B2 (ja) | 1998-12-16 | 1998-12-16 | 記憶制御装置およびその制御方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7302606B2 (ja) |
EP (1) | EP1011047B1 (ja) |
JP (1) | JP4132322B2 (ja) |
DE (1) | DE69939050D1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284478A (ja) * | 2004-03-29 | 2005-10-13 | Hitachi Ltd | ストレージシステムおよびその制御方法 |
JP2006303654A (ja) * | 2005-04-15 | 2006-11-02 | Sony Corp | 光信号処理装置、情報記録再生装置及び情報記録再生システム |
US8572428B2 (en) | 2010-12-20 | 2013-10-29 | Fujitsu Limited | Storage apparatus and control method for storage apparatus |
JP2014523010A (ja) * | 2011-12-14 | 2014-09-08 | 株式会社日立製作所 | ストレージ装置とそのメモリ制御方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288279A (ja) | 2002-03-28 | 2003-10-10 | Hitachi Ltd | 記憶装置間の障害検出方法、及びこれに用いられる記憶装置 |
US7565566B2 (en) * | 2003-04-23 | 2009-07-21 | Dot Hill Systems Corporation | Network storage appliance with an integrated switch |
US7627780B2 (en) | 2003-04-23 | 2009-12-01 | Dot Hill Systems Corporation | Apparatus and method for deterministically performing active-active failover of redundant servers in a network storage appliance |
US7401254B2 (en) * | 2003-04-23 | 2008-07-15 | Dot Hill Systems Corporation | Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis |
US7676600B2 (en) * | 2003-04-23 | 2010-03-09 | Dot Hill Systems Corporation | Network, storage appliance, and method for externalizing an internal I/O link between a server and a storage controller integrated within the storage appliance chassis |
JP4454299B2 (ja) * | 2003-12-15 | 2010-04-21 | 株式会社日立製作所 | ディスクアレイ装置及びディスクアレイ装置の保守方法 |
US7450959B2 (en) * | 2003-12-31 | 2008-11-11 | Qualcomm Incorporated | Wireless multiprocessor system-on-chip with unified memory and fault inhibitor |
JP2006244123A (ja) * | 2005-03-03 | 2006-09-14 | Fujitsu Ltd | データストレージシステム及びデータストレージ制御装置 |
JP4461485B2 (ja) * | 2005-04-05 | 2010-05-12 | 株式会社ジェイテクト | 分散制御装置 |
US7590885B2 (en) * | 2005-04-26 | 2009-09-15 | Hewlett-Packard Development Company, L.P. | Method and system of copying memory from a source processor to a target processor by duplicating memory writes |
JP4414399B2 (ja) * | 2006-01-30 | 2010-02-10 | 富士通株式会社 | ディスク制御装置 |
US8055856B2 (en) * | 2008-03-24 | 2011-11-08 | Nvidia Corporation | Lock mechanism to enable atomic updates to shared memory |
US20150248320A1 (en) * | 2014-02-28 | 2015-09-03 | Red Hat Israel, Ltd. | Host-storage connectivity monitoring |
US10528435B2 (en) * | 2017-05-08 | 2020-01-07 | International Business Machines Corporation | Performance efficient time locks on data in a storage controller |
US10514859B2 (en) | 2017-05-08 | 2019-12-24 | International Business Machines Corporation | Reduction of processing overhead for point in time copy to allow access to time locked data |
US10489080B2 (en) | 2017-05-08 | 2019-11-26 | International Business Machines Corporation | Point in time copy of time locked data in a storage controller |
US10514721B2 (en) | 2017-05-08 | 2019-12-24 | International Business Machines Corporation | Validation of clock to provide security for time locked data |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3623014A (en) | 1969-08-25 | 1971-11-23 | Control Data Corp | Computer communications system |
US5680574A (en) * | 1990-02-26 | 1997-10-21 | Hitachi, Ltd. | Data distribution utilizing a master disk unit for fetching and for writing to remaining disk units |
US5155845A (en) | 1990-06-15 | 1992-10-13 | Storage Technology Corporation | Data storage system for providing redundant copies of data on different disk drives |
US5638506A (en) | 1991-04-08 | 1997-06-10 | Storage Technology Corporation | Method for logically isolating a cache memory bank from a memory bank group |
US5392425A (en) * | 1991-08-30 | 1995-02-21 | International Business Machines Corporation | Channel-initiated retry and unit check for peripheral devices |
JP2777301B2 (ja) | 1992-01-07 | 1998-07-16 | 三菱電機株式会社 | 記録装置 |
US5581724A (en) | 1992-10-19 | 1996-12-03 | Storage Technology Corporation | Dynamically mapped data storage subsystem having multiple open destage cylinders and method of managing that subsystem |
US5572694A (en) * | 1992-11-25 | 1996-11-05 | Fujitsu Limited | Virtual system for detecting access paths belonging to same group from plurality of access paths to reach device designated by command with reference to table |
US5771367A (en) * | 1992-12-17 | 1998-06-23 | International Business Machines Corporation | Storage controller and method for improved failure recovery using cross-coupled cache memories and nonvolatile stores |
US5473752A (en) | 1993-03-17 | 1995-12-05 | Detector Electronics Corporation | Fault isolation circuit |
US5390326A (en) | 1993-04-30 | 1995-02-14 | The Foxboro Company | Local area network with fault detection and recovery |
JP3264465B2 (ja) * | 1993-06-30 | 2002-03-11 | 株式会社日立製作所 | 記憶システム |
US5790775A (en) * | 1995-10-23 | 1998-08-04 | Digital Equipment Corporation | Host transparent storage controller failover/failback of SCSI targets and associated units |
JP3628777B2 (ja) * | 1995-10-30 | 2005-03-16 | 株式会社日立製作所 | 外部記憶装置 |
US6032271A (en) | 1996-06-05 | 2000-02-29 | Compaq Computer Corporation | Method and apparatus for identifying faulty devices in a computer system |
JP3581765B2 (ja) | 1996-09-20 | 2004-10-27 | 株式会社日立コミュニケーションテクノロジー | 複合リング形ネットワークシステムにおけるパス切替方法及び装置 |
US5890219A (en) | 1996-11-27 | 1999-03-30 | Emc Corporation | Redundant writing of data to cached storage system |
US5862308A (en) * | 1996-12-03 | 1999-01-19 | Bull Hn Information Systems Inc. | Fault intercept and resolution process independent of operating system |
-
1998
- 1998-12-16 JP JP35725498A patent/JP4132322B2/ja not_active Expired - Fee Related
-
1999
- 1999-09-02 DE DE69939050T patent/DE69939050D1/de not_active Expired - Fee Related
- 1999-09-02 EP EP99117283A patent/EP1011047B1/en not_active Expired - Lifetime
-
2003
- 2003-06-23 US US10/600,828 patent/US7302606B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284478A (ja) * | 2004-03-29 | 2005-10-13 | Hitachi Ltd | ストレージシステムおよびその制御方法 |
JP4585217B2 (ja) * | 2004-03-29 | 2010-11-24 | 株式会社日立製作所 | ストレージシステムおよびその制御方法 |
JP2006303654A (ja) * | 2005-04-15 | 2006-11-02 | Sony Corp | 光信号処理装置、情報記録再生装置及び情報記録再生システム |
US7580598B2 (en) | 2005-04-15 | 2009-08-25 | Sony Corporation | Optical signal processing device, information recording/reproducing apparatus and information recording/reproducing system |
JP4645278B2 (ja) * | 2005-04-15 | 2011-03-09 | ソニー株式会社 | 光信号処理装置 |
US8572428B2 (en) | 2010-12-20 | 2013-10-29 | Fujitsu Limited | Storage apparatus and control method for storage apparatus |
JP2014523010A (ja) * | 2011-12-14 | 2014-09-08 | 株式会社日立製作所 | ストレージ装置とそのメモリ制御方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1011047A2 (en) | 2000-06-21 |
JP4132322B2 (ja) | 2008-08-13 |
US20040153691A1 (en) | 2004-08-05 |
EP1011047B1 (en) | 2008-07-09 |
US7302606B2 (en) | 2007-11-27 |
EP1011047A3 (en) | 2006-07-12 |
DE69939050D1 (de) | 2008-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000181887A (ja) | 情報処理装置における障害処理方法及び記憶制御装置 | |
US5005174A (en) | Dual zone, fault tolerant computer system with error checking in I/O writes | |
US5153881A (en) | Method of handling errors in software | |
JP2694099B2 (ja) | 大型耐故障不揮発性複数ポート・メモリー | |
US4438494A (en) | Apparatus of fault-handling in a multiprocessing system | |
US4907228A (en) | Dual-rail processor with error checking at single rail interfaces | |
US6321346B1 (en) | External storage | |
JP5127491B2 (ja) | ストレージサブシステム及びこれの制御方法 | |
US4916704A (en) | Interface of non-fault tolerant components to fault tolerant system | |
US6266785B1 (en) | File system filter driver apparatus and method | |
US5251227A (en) | Targeted resets in a data processor including a trace memory to store transactions | |
JPH03232045A (ja) | Dmaデータ転送のためのプロトコル | |
EP0415549A2 (en) | Method of converting unique data to system data | |
JP2000181887A5 (ja) | ||
EP0415546A2 (en) | Memory device | |
US6804794B1 (en) | Error condition handling | |
US6801983B2 (en) | Disk control device and storage device using it | |
EP0411805B1 (en) | Bulk memory transfer during resync | |
US7752340B1 (en) | Atomic command retry in a data storage system | |
US6490662B1 (en) | System and method for enhancing the reliability of a computer system by combining a cache sync-flush engine with a replicated memory module | |
JPH0744327A (ja) | データ処理システム | |
EP0416732B1 (en) | Targeted resets in a data processor | |
US7472221B1 (en) | Mirrored memory | |
US7302526B1 (en) | Handling memory faults for mirrored memory | |
US6249878B1 (en) | Data storage system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051117 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20051117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080602 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130606 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |