JP2001356968A - 故障許容データ格納システムおよび故障許容データ格納システムの動作方法 - Google Patents
故障許容データ格納システムおよび故障許容データ格納システムの動作方法Info
- Publication number
- JP2001356968A JP2001356968A JP2001121489A JP2001121489A JP2001356968A JP 2001356968 A JP2001356968 A JP 2001356968A JP 2001121489 A JP2001121489 A JP 2001121489A JP 2001121489 A JP2001121489 A JP 2001121489A JP 2001356968 A JP2001356968 A JP 2001356968A
- Authority
- JP
- Japan
- Prior art keywords
- transaction
- fault
- storage system
- interface
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/004—Error avoidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
状況を検出し、このエラーまたは故障状況を含む故障コ
ンポーネントを切り離す故障許容データ格納システムを
提供する。 【解決手段】 本発明の故障許容データ格納システム
は、複数の結合されたコンポーネントを含み、各コンポ
ーネントはデータ接続(51)から複数のトランザクシ
ョンを選択的に受信するインタフェース(60)と、こ
のインタフェース(60)に結合されこのインタフェー
ス(60)から受信されたトランザクションを処理する
トランザクション処理回路(62)と、トランザクショ
ン内のエラー状況を検出し、その検出に応答して、個々
にエラー状況を含むトランザクションが各コンポーネン
トへエントリするのを阻止するよう構成される分析回路
(53)とを備える。
Description
納システムおよび故障許容データ格納システムを動作す
る方法に関する。
ray of Inexpensive Disks)サブシステムが利用されて
きている。故障許容RAIDサブシステムにおいて、故
障許容の第1の目的は、あらゆるタイプの故障の発生を
回避することではなく、むしろ、コンポーネントの故障
が存在しても、正確に動作し続けることである。故障許
容目標を達成するには、多くの異なる方法がある。しか
し、これら目的が明確に設計者の前にある場合であって
も、この故障を許容するという目的が実際には達成され
ない場合が多い。
っては、システムが完全に停止しなければならない程大
きなもの(例えば、火災)もあり、適正に切り離される
(isolated)もの、RAIDサブシステムに格納されてい
るユーザデータを潜在的に破損するものもある。データ
が一旦破損すると、概して、破損データをホストに戻し
て、該データを良好なものとして通知するのはあまり望
ましくない。すべての故障を許容するシステムは、破損
データをホストに戻さない。
性および正確性を提供するための手段として広く見られ
ていた。故障許容性は、完全なデータ可用性に対する需
要が極端なレベルまで増大した場合に、非常に重要なも
のとなる。例えば、システムによっては、年に5分だけ
の保証停止時間を設けるものもある。
いくつかの大型システムにおける多くのコンポーネント
のうちの1つにすぎない。例えば、RAIDサブシステ
ムは、全部で5分という年停止時間のうちの1分の割り
当てしか持つことができない。さらに、この大型サブシ
ステムに接続されたRAIDサブシステムの複数のサブ
システムは、この1分を共有する必要がある。通常、い
かなる時でも、データをRAID格納サブシステムから
得ることができなくなることは許されない。さらに、デ
ータ可用性の損失に関連する制約は、時代と共に劇的に
増大している。
の動作を停止し、サブシステムのワイドリセットを開始
し、故障したコンポーネントをディスエーブルするよう
システムを再構成し、「ウォームブート」動作後に動作
を再開することで、故障許容性および連続動作を提供す
ることができる。システムのリブートに要求される時間
は、データ可用性という目標が、リブート方式によって
相当に影響を受ける程長い(およそ数秒程度)ものであ
る。このような遅延は、許容できない時間期間に近づき
うる。
故障許容データ格納システムおよび故障許容データ格納
システムを動作する方法を提供することにある。
タ格納システムおよび故障許容データ格納システムを動
作する方法を提供する。
格納システムは、複数の結合されたコンポーネントを備
え、該複数の結合されたコンポーネントは個々に、デー
タ接続に結合し、該データ接続から複数のトランザクシ
ョンを選択的に受信するよう適合されるインタフェース
と、該インタフェースに結合され、該インタフェースか
ら受信されたトランザクションを処理するよう構成され
るトランザクション処理回路と、トランザクション内の
エラー状況を検出し、該検出に応答して、個々にエラー
状況を含むトランザクションが各コンポーネントへエン
トリするのを阻止するよう構成される分析回路と、を備
える。
タ格納システムを動作する方法は、トランザクションを
処理するよう構成される複数のコンポーネントを含む故
障許容データ格納システムを提供するステップと、通信
のために、トランザクションを各コンポーネントに提供
するステップと、トランザクション内でエラー状況を検
出するステップと、該検出に応答して、個々にエラー状
況を含むトランザクションの各コンポーネントへのエン
トリを阻止するステップと、を含む。
処理するよう構成される複数のコンポーネントを含み、
接続されたコンポーネント間でトランザクションを通信
し、トランザクション内でエラー状況を検出し、該検出
に応答して、エラー状況を含むトランザクションを出力
したコンポーネントを切り離すように構成される故障許
容データ格納システムを動作させる方法を提供する。
細な説明、添付の特許請求の範囲および図面を参照する
ことで、当業者には明らかになろう。
ステム10の例示的なサブシステムを示す。故障許容デ
ータ格納システム10は、説明される実施の形態におい
て、デジタルデータの冗長格納を提供するために、冗長
回路構成12を備える。回路構成12は、本発明の例示
的な一実施の形態において、別個の情報回路基板として
実施される。故障許容データ格納システム10は、故障
許容データ格納システム10内で発生する故障領域があ
っても、動作し続ける。このような故障許容データ格納
システム10の故障領域および動作については、図3を
用いてさらに詳細に後述する。
イクロプロッサ14と、入出力プロセッサ(IOP)1
6と、ミラー回路18と、格納回路20と、を備える。
マイクロプロセッサ14は、故障許容データ格納システ
ム10の上記構成における各回路構成12内の動作を監
視し、制御する。入出力プロセッサ16は、通常、パー
ソナルコンピュータ、ワークステーション等の1台また
は複数台の外部ホスト装置に結合される。このような外
部ホスト装置は、冗長的に格納されたデータを故障許容
データ格納システム10から読み出すと共に、冗長格納
のために、データを故障許容データ格納システム10に
書き込むよう動作可能である。
2の両格納回路20に対してアクセスを行う。例えば、
一方の回路構成12のミラー回路18は、所定の回路構
成12のローカル格納回路20、および結合された他方
の回路構成12にあるリモート格納回路20のデータに
アクセスすることが可能である。本願明細書において、
ローカルとは所定の回路構成12内のコンポーネントを
指し、その一方で、リモートとは接続された他方の回路
構成12内にあるコンポーネントを指す。ミラー回路1
8は、冗長動作の場合には双方の格納回路20に対し
て、また選択的な動作の場合には格納回路20の一方に
対して、データを読み書きする。
方の回路構成12の格納回路20と共に、データを冗長
的に格納するよう構成される。故障許容データ格納シス
テム10は、説明する実施の形態において、RAID格
納システムとして構成される。他の構成の故障許容デー
タ格納システム10も可能である。このようなRAID
格納システムの例示的な格納回路20は、一時的にデー
タをバッファリングするためのダイナミックRAM(D
RAM)と、データの格納を提供するための複数のハー
ドディスクと、を備える(DRAMおよびハードディス
クは図示せず)。
な詳細をさらに示す。図示するミラー回路18は、バス
インタフェース22、バスインタフェース24、および
メモリ制御部26を備える。バスインタフェース22、
24およびメモリ制御部26は、通常、データ交換およ
び動作制御のために結合される。バスインタフェース2
2は、マイクロプロセッサ14との通信を行う。バスイ
ンタフェース24は、入出力プロセッサ16と通信を行
う。メモリ制御部26は、ローカルおよびリモートの格
納回路20に対してデータのアドレス指定および転送を
行う。例示的な構成において、共通バス27は、バスイ
ンタフェース22、バスインタフェース24、およびメ
モリ制御部26を結合する。
テム10内の例示的な故障領域の概念を示す。図3は、
故障許容データ格納システム10の例示的なサブシステ
ム30を示す。サブシステム30は、複数の例示的なコ
ンポーネント32、34、36、38を備える。コンポ
ーネント32は、図示のように、内部コンポーネント3
8を含む。コンポーネント32は、バス42を介してサ
ブシステム30の外部にあるコンポーネント40と結合
する。図示の構成において、サブシステム30は、特定
用途向け集積回路(ASIC)として実施される。例示
的なコンポーネント32、34、36、38、40は、
メモリコンポーネント、処理コンポーネント、入出力コ
ンポーネント、バスコンポーネント等を含む。サブシス
テム30は、マイクロプロセッサ、入出力プロセッサ、
ミラー回路等、故障許容データ格納システム10の任意
のサブシステムを含むことができる。
34、36、38、40およびバス42をそれぞれ故障
領域としてに参照する。エラーまたは故障が1つの故障
領域内で発生すると、隣接コンポーネントが、かかるエ
ラーまたは故障の状況の発生を、後述するように検出す
ることができる。例示的な一例において、バス42にお
いて故障が発生すると、内部コンポーネント32および
外部コンポーネント40が、一方の構成における論理回
路を用いて、故障を検出することができる。一例は、バ
ス42において検出されたパリティエラーである。バス
42は、その後、破損として識別することができる。
ッファ構成において実施されるコンポーネント38に関
連してもよい。このような例では、データがコンポーネ
ント38内に格納され、かかるデータが後に読み出さ
れ、コンポーネント32により、パリティエラー等の故
障状況またはエラーが検出されると、コンポーネント3
8および関連データは破損とマークされ、コンポーネン
ト38に対するすべてのさらなるデータ転送がディスエ
ーブルされる。このようなディスエーブル化動作につい
ては、さらに詳細に後述する。
作するために、コンポーネント38の信頼性のある動作
を必要とする場合、内部コンポーネント34、36およ
びバス42と結合されたコンポーネント40に、内部コ
ンポーネント32内のいずれかに故障があることを通知
してもよい。
コンポーネント34へのアクセスを望み、かつコンポー
ネント38内に決定された故障またはエラー状況があり
うるものと想定してもよい。その後、コンポーネント3
4とコンポーネント32間のインタフェースが、エラー
状況の検出に応答してディスエーブルされる。コンポー
ネント32は、コンポーネント34に適切にトランザク
ションを完了するよう要求する場合、エラー状況を有す
るコンポーネント40とのトランザクションを終結す
る。その後、コンポーネント40と内部コンポーネント
32の間のインタフェースがディスエーブルされる。
ネント36が、コンポーネント32とインタフェースせ
ずに、要求される動作を行うことが可能である。かかる
状況では、内部コンポーネント36は、コンポーネント
38に含まれる破損または故障状況が広がる可能性を有
することなしに、動作を継続させる。このような方法論
においては、コンポーネント38における破損は、隣接
するコンポーネントに広がらない。
障害またはエラー状況の存在に対する応答について説明
する。所定のコンポーネントが故障またはエラー状況に
ある場合、その特定コンポーネントに関する動作は停止
する。ミラー回路18において、後述するプロトコルチ
ェックエンジンが、バスインタフェースロジック22、
24内に存在している。例えば、マイクロプロセッサ1
4が、所定の範囲外のメモリロケーションから読み出す
ことを決定すると、バスインタフェース22は、このよ
うなエラー動作を検出して、マイクロプロセッサ14へ
のインタフェースをディスエーブルする。このようなこ
とは、破損したコードの領域内で動作しているマイクロ
プロセッサ14からから生じうる。しかし、ファイバチ
ャネルまたはホストシステムへのSCSI接続性向けの
IOプロセッサ等の入出力プロセッサ16は、破損が検
出されても、依然として格納回路20へアクセスする。
ラーまたは故障状況の存在を検出する動作、およびかか
るエラーまたは故障状況を局所的に含む故障コンポーネ
ントを切り離す動作の一例について説明する。故障した
コンポーネントの切り離しにより、故障許容データ格納
システム10の他の破損していないコンポーネントの動
作を続けることが可能である。本発明の好ましい態様に
おいて、個々の障害コンポーネントは完全に切り離さ
れ、故障したコンポーネントに接続されるすべてのイン
タフェースが、ディスエーブルされる。このようなこと
は、故障したコンポーネントを隔離するよう動作する。
冗長コンポーネントの使用により、故障許容データ格納
システム10の他の動作は、故障の発生にも関わらず、
継続する。
ンザクション受信装置52等のコンポーネントを図4に
示す。かかるトランザクション発信装置50、トランザ
クション受信装置52は、故障許容データ格納システム
10内の任意の2つのコンポーネントを表している。ト
ランザクション受信装置52は、さらに後述するよう
に、複数の内部コンポーネントを備える。トランザクシ
ョン発信装置50、トランザクション受信装置52は、
読み出し動作、書き込み動作等のトランザクションを通
信する。図示のように、データバス61、アドレスバス
63、および制御バス65をそれぞれ備えるデータ接続
部51が、トランザクション発信装置50、トランザク
ション受信装置52の間で利用されて、通信を行う。図
示のデータ接続部51は、データ情報、アドレス情報、
および制御情報をトランザクション発信装置50、トラ
ンザクション受信装置52の間で、通信する。
信装置52は、分析回路53と、インタフェース60
と、トランザクション処理回路62と、を備える。一実
施の形態において、分析回路53は、パリティ妥当性検
査回路54と、プロトコル妥当性検査回路56と、イネ
ーブル制御論理回路58と、を備える。パリティ妥当性
検査回路54は、バス61を介して通信されているデー
タ内のパリティエラーを決定し、プロトコル妥当性検査
回路56は、バス65を介して通信される制御情報内の
エラーを決定する。他の実施の形態では、他の構成の分
析回路53が提供される。例示的な一構成において、ト
ランザクション処理回路62は、DRAMメモリコント
ローラ、ハードディスクコントローラ、または格納回路
20にアクセスするための他の回路を備える。他の構成
のトランザクション処理回路62も可能である。
接続部51を用いて、トランザクションを通信する。ト
ランザクション受信装置52のインタフェース60は、
データ接続部51に接続されて、データ接続部51から
複数のトランザクションを選択的に受信する。このよう
な選択的な受信動作については、以下に詳述する。トラ
ンザクション処理回路62は、インタフェース60に接
続され、インタフェース60から受信したトランザクシ
ョンを処理するよう配置される。
54、プロトコル妥当性検査回路56、およびイネーブ
ル制御論理回路58を備え、上記実施の形態で述べたデ
ータ接続部51を用いて通信されているトランザクショ
ン内のエラー状況を検出する。分析回路53は、エラー
状況の検出に応答して、インタフェース60へのトラン
ザクションの通過を制御する。
ン内でのかかるエラーの検出に応答して、エラー状況を
含むトランザクションがトランザクション受信装置52
のインタフェース60にエントリするのを阻止するよう
動作する。
は、パリティエラーおよび/またはプロトコルエラーの
ようなエラー状況の検出に応答して、インタフェース6
0をディスエーブルする。イネーブル制御論理回路58
は、イネーブルビットをセットして、インタフェース6
0内のトランザクションの受信を制御する。一実施の形
態において、イネーブル制御論理回路58は、インタフ
ェースイネーブル信号を送り、インタフェース60との
トランザクションの受信を阻止するよう動作する。イン
タフェース60は、エラー状況の検出に応答してディス
エーブルされ、トランザクション発信装置50からトラ
ンザクション受信装置52が切り離される。
フェース60を用いるこのような切り離しは、さらに後
述するエラー状況のタイプに従う、選択的なものであ
る。より具体的には、分析回路53は、エラー状況のタ
イプを決定し、該エラー状況のタイプの決定に応答し
て、いくつかのトランザクション(例えば、後述する
「強制完了」動作)では、インタフェース60とトラン
ザクション処理回路62へエントリするのを選択的に許
可する。例えば、完了強制動作は、分析回路53によっ
て識別され、エラー状況が示されているにもかかわら
ず、インタフェース60へのエントリが許される。この
ような例において、トランザクションの制御情報(デー
タ接続部51の制御バスを用いて通信される)は、強制
完了ラベルを含むことができる。この強制完了ラベル
は、プロトコル妥当性検査回路56を備える分析回路5
3に、検出されたエラー状況の存在を無視するように、
また関連トランザクションのエントリを許可するよう通
知する。
テム10を用いた各種動作に利用される。かかる動作
は、バックグラウンド動作で行われ、格納回路20の内
容を消去し、各コンポーネントの修復を可能にすること
ができる。例えば、データへのアクセスが頻繁ではない
領域におけるメモリを識別して、修復できるようにす
る。DRAMによっては、シングルビットエラーを生
じ、このシングルビットエラーは、修正されない場合に
は、単一ワード内のマルチビットエラーに発展する可能
性がある。強制完了動作は、消去(scrubbing)のよう
なバックグラウンド動作を許可し、故障許容データ格納
システム10内のコンポーネントを切り離さずに、動作
を継続する。
接続部51を用いて通信される制御情報内で利用しても
よい。これは、トランザクションが特に、例えばバック
グラウンドプロセスに関連することを示す。1つのコン
ポーネントは、他のコンポーネントにエラーの存在を警
告することが可能であるが、受信コンポーネントは、送
信コンポーネントを切り離さずに、トランザクションを
処理し続けることができる。したがって、故障許容デー
タ格納システム10の主要な動作は、強制完了動作内の
故障またはエラーによる影響を受けない。要約すると、
強制完了動作は、故障許容データ格納システム10が動
作を継続している間に、故障許容データ格納システム1
0を修復するというバックグラウンド動作の実行を可能
にする。
ョン発信装置50は、トランザクション発信装置50と
データ接続部51間で通信するために、各データ接続部
51に結合されるインタフェースを備える。同様に、ト
ランザクション発信装置50は、トランザクション発信
装置50に入力するトランザクションを選択的に阻止す
るのに適した分析回路を備えることができる。
路53は、エラー状況の検出を通信する。本発明のいく
つかの態様に従って、データ接続部51が利用され、エ
ラー状況の検出が通信される。例えば、プロトコル妥当
性検査回路56は、データ接続部51を用いて、エラー
状況の存在をトランザクション発信装置50に通信する
ことが可能である。したがって、かかる分析回路53
は、エラー状況の検出をトランザクション発信装置50
等他のコンポーネントに通信する。さらに、イネーブル
制御論理回路58を備える分析回路53は、いくつかの
態様において、トランザクション受信装置52の外部に
さらに通信することのできるインタフェースイネーブル
信号を用いて、検出されたエラー状況を通信するため
に、利用される。
装置50、トランザクション受信装置52は、他の実施
の形態において、故障許容データ格納システム10の他
のコンポーネントに結合されてもよい。トランザクショ
ン発信装置50、トランザクション受信装置52に結合
される他のコンポーネントもまたそれぞれ分析回路およ
びインタフェースを備え、各トランザクション内のエラ
ーの通信を検出し、エラー状況を含むトランザクション
を通信する装置からかかる装置を切り離す。図1に示す
ように、故障許容データ格納システム10内に冗長コン
ポーネントを設けることで、故障許容データ格納システ
ム10は、所定のコンポーネント内での障害または故障
の発生に応答して、動作し続ける可能性が強化され、増
大される。
通信するために、トランザクション発信装置50、トラ
ンザクション受信装置52は個々に、追加のインタフェ
ース60を備える。適切なインタフェースを用いて、あ
るコンポーネントから別のコンポーネントを切り離した
後、適切に動作しているコンポーネントは、他のこのよ
うに適切に動作しているコンポーネントに関して、動作
し続ける。例えば、かかる適切に動作しているコンポー
ネントは、各トランザクション処理回路を利用して、ト
ランザクションを処理し続ける。
ステム10の所定のコンポーネントの分析回路53およ
びインタフェース60内での読み出しトランザクション
および書き込みトランザクションの処理に関する状態マ
シンを示されている。特に、図5は、かかる動作中のト
ランザクションに関するインタフェース60の状態を示
す。
は、分析回路53からのイネーブル信号またはリセット
状況に応答して、アイドルの状態である。状態S12
は、例えば、インタフェース60に結合された適切なデ
ータ接続によるトランザクションの受信を表す。トラン
ザクションが読み出し動作を示す場合、状態S14にお
いて、インタフェース60は、アドレスデータおよび長
さ情報を、インタフェース60内に結合された関連する
メモリ制御部および格納回路に送出する。状態S16に
おいて、インタフェース60は、関連するメモリ制御部
および関連する格納回路からの読み出しデータの受信を
待つ。状態S18において、インタフェース60は、デ
ータを関連するデータ接続に戻す。書き込み動作の場
合、インタフェース60の状態は、状態S12から状態
S20まで進み、S20において、書き込むべきデータ
を適切なデータ接続から受け入れる。状態S22におい
て、インタフェース60は、アドレス情報および関連デ
ータを適切な記憶装置に送出する。例えば、これは、メ
モリコントローラまたはハードディスクコントローラを
備えるトランザクション処理回路62を用いてもよい。
状態S18、S22の後に、インタフェース60の状態
は、インタフェース60が分析回路53からイネーブル
される限り、S10のアイドル状態に戻る。
テム10を提供する。説明した故障許容データ格納シス
テム10は、故障許容データ格納システム10の1つま
たは複数のコンポーネントが故障またはエラー状況を被
っている間に、データにアクセスする可能性を増大した
ホストシステムを提供する。故障許容データ格納システ
ム10の構成および動作は、本発明の特徴を提供するた
めに変更されることはない。さらに、本発明の特定の実
施の形態では、故障許容データ格納システムの動作を維
持するために、プロセッサとのやりとりは必要でない。
本発明の態様は、数多くの状況において故障が発生する
際に、データ可用性の損失がまったくないか、または最
小に抑えられるようにする。長々とした再構成サイクル
は回避される。本発明の開示した構成において、故障
は、プロセッサの介入なく、リアルタイムで処理され
る。
された実施の形態によっては制限されず、添付の特許請
求の範囲によってのみ制限されるべきである。
む。 (1)故障許容データ格納システム(10)であって、
複数の結合されたコンポーネントを備え、該複数の結合
されたコンポーネントは個々に、データ接続(51)に
結合され、該データ接続(51)から複数のトランザク
ションを選択的に受信するインタフェース(60)と、
該インタフェース(60)に結合され、該インタフェー
ス(60)から受信されたトランザクションを処理する
よう構成されるトランザクション処理回路(62)と、
前記トランザクション内のエラー状況を検出し、該検出
に応答して、個々にエラー状況を含むトランザクション
が各コンポーネントへエントリするのを阻止するよう構
成される分析回路(53)とを備える。
いて、前記分析回路(53)は、前記エラー状況の検出
に応答して、前記インタフェース(60)をディスエー
ブルさせるように構成される故障許容データ格納システ
ム。
ステムにおいて、前記分析回路(53)は、前記エラー
状況の検出に応答して、前記インタフェース(60)へ
の前記トランザクションの通過を制御するよう構成され
る故障許容データ格納システム。
に記載されるシステムにおいて、前記分析回路(53)
は、エラー状況のタイプを決定し、該決定に応答して、
対応するトランザクションの選択的なエントリを許すよ
う構成される故障許容データ格納システム。
れかに記載されるシステムにおいて、前記分析回路(5
3)は、前記エラー状況の検出を通信するよう構成され
ることを特徴とする故障許容データ格納システム。
0)を動作する方法であって、トランザクションを処理
するよう構成される複数のコンポーネントを含む故障許
容データ格納システム(10)を提供するステップと、
通信のために、前記トランザクションを各コンポーネン
トに提供するステップと、前記トランザクション内でエ
ラー状況を検出するステップと、該検出に応答して、個
々にエラー状況を含むトランザクションの各コンポーネ
ントへのエントリを阻止するステップと、を含む故障許
容データ格納システムの動作方法。
おいて、前記エントリを阻止するステップは、前記各コ
ンポーネントのインタフェース(60)をディスエーブ
ルさせることを含む故障許容データ格納システムの動作
方法。
システムにおいて、前記エントリを阻止するステップ
は、個々のエラー状況を含むトランザクションの前記各
コンポーネントへのエントリを選択的に阻止することを
含む故障許容データ格納システムの動作方法。
に記載されるシステムにおいて、エラー状況のタイプを
決定するステップをさらに含み、前記エントリを阻止す
るステップは、該決定に応答して、トランザクションの
エントリを選択的に阻止することを含む故障許容データ
格納システムの動作方法。
いずれかに記載されるシステムにおいて、 前記エラー
状況の検出を通信するステップをさらに含む故障許容デ
ータ格納システムの動作方法。
ラーまたは故障状況を検出し、このエラーまたは故障状
況を含む故障コンポーネントを切り離す故障許容データ
格納システムを提供する。この切り離し機能によって、
トランザクション内のエラー状況が検出され、該検出に
応答して、個々にエラー状況を含むトランザクションが
各コンポーネントへエントリするのを阻止できる。
ウェアサブシステムの機能ブロック図である。
的なミラー回路のさらに詳細を示す機能ブロック図であ
る。
ステムの例示的な故障領域を示す機能ブロック図であ
る。
ンポーネント間の通信を示す機能ブロック図である。
ント内でトランザクション受信中の、動作の例示的な状
態を示す状態マシン図である。
Claims (1)
- 【請求項1】 故障許容データ格納システムであって、
複数の結合されたコンポーネントを備え、該複数の結合
されたコンポーネントは個々に、 データ接続に結合され、該データ接続から複数のトラン
ザクションを選択的に受信するインタフェースと、 該インタフェースに結合され、該インタフェースから受
信されたトランザクションを処理するよう構成されるト
ランザクション処理回路と、 前記トランザクション内のエラー状況を検出し、該検出
に応答して、個々にエラー状況を含むトランザクション
が各コンポーネントへエントリするのを阻止するよう構
成される分析回路と、を備えることを特徴とする故障許
容データ格納システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US552669 | 1995-11-03 | ||
US09/552,669 US6647516B1 (en) | 2000-04-19 | 2000-04-19 | Fault tolerant data storage systems and methods of operating a fault tolerant data storage system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001356968A true JP2001356968A (ja) | 2001-12-26 |
JP2001356968A5 JP2001356968A5 (ja) | 2007-08-16 |
Family
ID=24206290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001121489A Pending JP2001356968A (ja) | 2000-04-19 | 2001-04-19 | 故障許容データ格納システムおよび故障許容データ格納システムの動作方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6647516B1 (ja) |
JP (1) | JP2001356968A (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6647516B1 (en) * | 2000-04-19 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Fault tolerant data storage systems and methods of operating a fault tolerant data storage system |
US6950966B2 (en) * | 2001-07-17 | 2005-09-27 | Seachange International, Inc. | Data transmission from raid services |
US7346825B2 (en) * | 2001-09-06 | 2008-03-18 | Intel Corporation | Error method, system and medium |
US6990604B2 (en) * | 2001-12-28 | 2006-01-24 | Storage Technology Corporation | Virtual storage status coalescing with a plurality of physical storage devices |
US7020803B2 (en) * | 2002-03-11 | 2006-03-28 | Hewlett-Packard Development Company, Lp. | System and methods for fault path testing through automated error injection |
US7444551B1 (en) | 2002-12-16 | 2008-10-28 | Nvidia Corporation | Method and apparatus for system status monitoring, testing and restoration |
GB2406404C (en) * | 2003-09-26 | 2011-11-02 | Advanced Risc Mach Ltd | Data processing apparatus and method for handling corrupted data values |
US7296179B2 (en) * | 2003-09-30 | 2007-11-13 | International Business Machines Corporation | Node removal using remote back-up system memory |
US20050097208A1 (en) * | 2003-10-31 | 2005-05-05 | International Business Machines Corporation | Node removal using remote back-up system memory |
JP6415092B2 (ja) * | 2014-04-25 | 2018-10-31 | キヤノン株式会社 | ストレージデバイスへのデータの書き込みを禁止する情報処理装置及び方法 |
US10146610B2 (en) * | 2017-04-03 | 2018-12-04 | Dell Products, L.P. | Agentless remediation and recovery |
US10922203B1 (en) * | 2018-09-21 | 2021-02-16 | Nvidia Corporation | Fault injection architecture for resilient GPU computing |
CN112306766A (zh) | 2019-07-31 | 2021-02-02 | 伊姆西Ip控股有限责任公司 | 用于错误检测的方法、电子设备、存储系统和计算机程序产品 |
US11500717B2 (en) | 2020-07-23 | 2022-11-15 | EMC IP Holding Company LLC | Method for detecting data storage system, device and data storage system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05173727A (ja) * | 1991-12-20 | 1993-07-13 | Nec Eng Ltd | ディスクアレイ装置 |
JPH05290494A (ja) * | 1992-04-03 | 1993-11-05 | Nec Eng Ltd | ディスクアレイ装置 |
JPH07134636A (ja) * | 1993-11-10 | 1995-05-23 | Nec Eng Ltd | ディスクアレイ装置 |
JPH09319526A (ja) * | 1996-06-03 | 1997-12-12 | Ekushingu:Kk | Raid制御システム |
JPH10320129A (ja) * | 1997-05-20 | 1998-12-04 | Hitachi Ltd | ディスクアレイ装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4965717A (en) * | 1988-12-09 | 1990-10-23 | Tandem Computers Incorporated | Multiple processor system having shared memory with private-write capability |
US5295258A (en) * | 1989-12-22 | 1994-03-15 | Tandem Computers Incorporated | Fault-tolerant computer system with online recovery and reintegration of redundant components |
US5383201A (en) * | 1991-12-23 | 1995-01-17 | Amdahl Corporation | Method and apparatus for locating source of error in high-speed synchronous systems |
US5574849A (en) * | 1992-12-17 | 1996-11-12 | Tandem Computers Incorporated | Synchronized data transmission between elements of a processing system |
SE502777C2 (sv) * | 1993-04-29 | 1996-01-08 | Ellemtel Utvecklings Ab | Felisolering av delar hos ett tele- och datakommunikationssystem |
US5592610A (en) * | 1994-12-21 | 1997-01-07 | Intel Corporation | Method and apparatus for enhancing the fault-tolerance of a network |
US5680537A (en) * | 1995-03-01 | 1997-10-21 | Unisys Corporation | Method and apparatus for isolating an error within a computer system that transfers data via an interface device |
US5953351A (en) * | 1995-09-15 | 1999-09-14 | International Business Machines Corporation | Method and apparatus for indicating uncorrectable data errors |
US5928370A (en) * | 1997-02-05 | 1999-07-27 | Lexar Media, Inc. | Method and apparatus for verifying erasure of memory blocks within a non-volatile memory structure |
US6308284B1 (en) * | 1998-08-28 | 2001-10-23 | Emc Corporation | Method and apparatus for maintaining data coherency |
US6370659B1 (en) * | 1999-04-22 | 2002-04-09 | Harris Corporation | Method for automatically isolating hardware module faults |
US6519736B1 (en) * | 1999-11-30 | 2003-02-11 | International Business Machines Corporation | Generating special uncorrectable error codes for failure isolation |
US6647516B1 (en) * | 2000-04-19 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Fault tolerant data storage systems and methods of operating a fault tolerant data storage system |
US6618825B1 (en) * | 2000-04-20 | 2003-09-09 | Hewlett Packard Development Company, L.P. | Hierarchy of fault isolation timers |
US6594785B1 (en) * | 2000-04-28 | 2003-07-15 | Unisys Corporation | System and method for fault handling and recovery in a multi-processing system having hardware resources shared between multiple partitions |
-
2000
- 2000-04-19 US US09/552,669 patent/US6647516B1/en not_active Expired - Fee Related
-
2001
- 2001-04-19 JP JP2001121489A patent/JP2001356968A/ja active Pending
-
2003
- 2003-10-16 US US10/688,487 patent/US7143315B2/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05173727A (ja) * | 1991-12-20 | 1993-07-13 | Nec Eng Ltd | ディスクアレイ装置 |
JPH05290494A (ja) * | 1992-04-03 | 1993-11-05 | Nec Eng Ltd | ディスクアレイ装置 |
JPH07134636A (ja) * | 1993-11-10 | 1995-05-23 | Nec Eng Ltd | ディスクアレイ装置 |
JPH09319526A (ja) * | 1996-06-03 | 1997-12-12 | Ekushingu:Kk | Raid制御システム |
JPH10320129A (ja) * | 1997-05-20 | 1998-12-04 | Hitachi Ltd | ディスクアレイ装置 |
Also Published As
Publication number | Publication date |
---|---|
US7143315B2 (en) | 2006-11-28 |
US6647516B1 (en) | 2003-11-11 |
US20040153735A1 (en) | 2004-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6802023B2 (en) | Redundant controller data storage system having hot insertion system and method | |
US6178520B1 (en) | Software recognition of drive removal or insertion in a storage system | |
US5790775A (en) | Host transparent storage controller failover/failback of SCSI targets and associated units | |
US7055054B2 (en) | Fail-over of multiple memory blocks in multiple memory modules in computer system | |
US6266785B1 (en) | File system filter driver apparatus and method | |
US7409580B2 (en) | System and method for recovering from errors in a data processing system | |
US7774646B2 (en) | Surviving storage system takeover by replaying operations in an operations log mirror | |
US20020133744A1 (en) | Redundant controller data storage system having an on-line controller removal system and method | |
US20130151767A1 (en) | Memory controller-independent memory mirroring | |
GB2375412A (en) | Resetting controllers in a redundant-controller data storage system | |
US20020184576A1 (en) | Method and apparatus for isolating failing hardware in a PCI recoverable error | |
JPH03184130A (ja) | ソフトウェアの誤り処理方法 | |
US6754853B1 (en) | Testing components of a computerized storage network system having a storage unit with multiple controllers | |
JP2001356968A (ja) | 故障許容データ格納システムおよび故障許容データ格納システムの動作方法 | |
JP4132322B2 (ja) | 記憶制御装置およびその制御方法 | |
US6950978B2 (en) | Method and apparatus for parity error recovery | |
US5765034A (en) | Fencing system for standard interfaces for storage devices | |
US7543179B2 (en) | Error management topologies | |
US7293138B1 (en) | Method and apparatus for raid on memory | |
US6732298B1 (en) | Nonmaskable interrupt workaround for a single exception interrupt handler processor | |
US20060117215A1 (en) | Storage virtualization apparatus and computer system using the same | |
JP4644720B2 (ja) | 制御方法、情報処理装置及びストレージシステム | |
US7725761B2 (en) | Computer system, fault tolerant system using the same and operation control method and program thereof | |
US7302526B1 (en) | Handling memory faults for mirrored memory | |
US7895493B2 (en) | Bus failure management method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070626 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070627 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070702 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100811 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110119 |