JP2001356968A - 故障許容データ格納システムおよび故障許容データ格納システムの動作方法 - Google Patents

故障許容データ格納システムおよび故障許容データ格納システムの動作方法

Info

Publication number
JP2001356968A
JP2001356968A JP2001121489A JP2001121489A JP2001356968A JP 2001356968 A JP2001356968 A JP 2001356968A JP 2001121489 A JP2001121489 A JP 2001121489A JP 2001121489 A JP2001121489 A JP 2001121489A JP 2001356968 A JP2001356968 A JP 2001356968A
Authority
JP
Japan
Prior art keywords
transaction
fault
storage system
interface
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001121489A
Other languages
English (en)
Other versions
JP2001356968A5 (ja
Inventor
Robert A Rust
ロバート・エー・ルスト
Barry J Oldfield
バリー・ジェイ・オールドフィールド
Lee Schrader Steven
スティーブン・リー・シュレイダー
Grand Kristen
クリスティン・グランド
W Johanson Christopher
クリストファー・ダブリュー・ジョハンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2001356968A publication Critical patent/JP2001356968A/ja
Publication of JP2001356968A5 publication Critical patent/JP2001356968A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

(57)【要約】 【課題】 コンポーネントに発生したエラーまたは故障
状況を検出し、このエラーまたは故障状況を含む故障コ
ンポーネントを切り離す故障許容データ格納システムを
提供する。 【解決手段】 本発明の故障許容データ格納システム
は、複数の結合されたコンポーネントを含み、各コンポ
ーネントはデータ接続(51)から複数のトランザクシ
ョンを選択的に受信するインタフェース(60)と、こ
のインタフェース(60)に結合されこのインタフェー
ス(60)から受信されたトランザクションを処理する
トランザクション処理回路(62)と、トランザクショ
ン内のエラー状況を検出し、その検出に応答して、個々
にエラー状況を含むトランザクションが各コンポーネン
トへエントリするのを阻止するよう構成される分析回路
(53)とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、故障許容データ格
納システムおよび故障許容データ格納システムを動作す
る方法に関する。
【0002】
【従来の技術】多年にわたり、RAID(Redundant Ar
ray of Inexpensive Disks)サブシステムが利用されて
きている。故障許容RAIDサブシステムにおいて、故
障許容の第1の目的は、あらゆるタイプの故障の発生を
回避することではなく、むしろ、コンポーネントの故障
が存在しても、正確に動作し続けることである。故障許
容目標を達成するには、多くの異なる方法がある。しか
し、これら目的が明確に設計者の前にある場合であって
も、この故障を許容するという目的が実際には達成され
ない場合が多い。
【0003】例えば、故障のタイプに応じて、故障によ
っては、システムが完全に停止しなければならない程大
きなもの(例えば、火災)もあり、適正に切り離される
(isolated)もの、RAIDサブシステムに格納されてい
るユーザデータを潜在的に破損するものもある。データ
が一旦破損すると、概して、破損データをホストに戻し
て、該データを良好なものとして通知するのはあまり望
ましくない。すべての故障を許容するシステムは、破損
データをホストに戻さない。
【0004】過去において、故障許容性は、動作の頑強
性および正確性を提供するための手段として広く見られ
ていた。故障許容性は、完全なデータ可用性に対する需
要が極端なレベルまで増大した場合に、非常に重要なも
のとなる。例えば、システムによっては、年に5分だけ
の保証停止時間を設けるものもある。
【0005】
【発明が解決しようとする課題】格納サブシステムは、
いくつかの大型システムにおける多くのコンポーネント
のうちの1つにすぎない。例えば、RAIDサブシステ
ムは、全部で5分という年停止時間のうちの1分の割り
当てしか持つことができない。さらに、この大型サブシ
ステムに接続されたRAIDサブシステムの複数のサブ
システムは、この1分を共有する必要がある。通常、い
かなる時でも、データをRAID格納サブシステムから
得ることができなくなることは許されない。さらに、デ
ータ可用性の損失に関連する制約は、時代と共に劇的に
増大している。
【0006】従来の構成では、システムにおけるすべて
の動作を停止し、サブシステムのワイドリセットを開始
し、故障したコンポーネントをディスエーブルするよう
システムを再構成し、「ウォームブート」動作後に動作
を再開することで、故障許容性および連続動作を提供す
ることができる。システムのリブートに要求される時間
は、データ可用性という目標が、リブート方式によって
相当に影響を受ける程長い(およそ数秒程度)ものであ
る。このような遅延は、許容できない時間期間に近づき
うる。
【0007】したがって、本発明の目的は、改良された
故障許容データ格納システムおよび故障許容データ格納
システムを動作する方法を提供することにある。
【0008】
【課題を解決するための手段】本発明は、故障許容デー
タ格納システムおよび故障許容データ格納システムを動
作する方法を提供する。
【0009】本発明の一態様において、故障許容データ
格納システムは、複数の結合されたコンポーネントを備
え、該複数の結合されたコンポーネントは個々に、デー
タ接続に結合し、該データ接続から複数のトランザクシ
ョンを選択的に受信するよう適合されるインタフェース
と、該インタフェースに結合され、該インタフェースか
ら受信されたトランザクションを処理するよう構成され
るトランザクション処理回路と、トランザクション内の
エラー状況を検出し、該検出に応答して、個々にエラー
状況を含むトランザクションが各コンポーネントへエン
トリするのを阻止するよう構成される分析回路と、を備
える。
【0010】本発明の別の態様において、故障許容デー
タ格納システムを動作する方法は、トランザクションを
処理するよう構成される複数のコンポーネントを含む故
障許容データ格納システムを提供するステップと、通信
のために、トランザクションを各コンポーネントに提供
するステップと、トランザクション内でエラー状況を検
出するステップと、該検出に応答して、個々にエラー状
況を含むトランザクションの各コンポーネントへのエン
トリを阻止するステップと、を含む。
【0011】本発明の別の態様は、トランザクションを
処理するよう構成される複数のコンポーネントを含み、
接続されたコンポーネント間でトランザクションを通信
し、トランザクション内でエラー状況を検出し、該検出
に応答して、エラー状況を含むトランザクションを出力
したコンポーネントを切り離すように構成される故障許
容データ格納システムを動作させる方法を提供する。
【0012】本発明の他の特徴および利点は、以下の詳
細な説明、添付の特許請求の範囲および図面を参照する
ことで、当業者には明らかになろう。
【0013】
【発明の実施の形態】図1を参照して、故障許容格納シ
ステム10の例示的なサブシステムを示す。故障許容デ
ータ格納システム10は、説明される実施の形態におい
て、デジタルデータの冗長格納を提供するために、冗長
回路構成12を備える。回路構成12は、本発明の例示
的な一実施の形態において、別個の情報回路基板として
実施される。故障許容データ格納システム10は、故障
許容データ格納システム10内で発生する故障領域があ
っても、動作し続ける。このような故障許容データ格納
システム10の故障領域および動作については、図3を
用いてさらに詳細に後述する。
【0014】図示のように、個々の回路構成12は、マ
イクロプロッサ14と、入出力プロセッサ(IOP)1
6と、ミラー回路18と、格納回路20と、を備える。
マイクロプロセッサ14は、故障許容データ格納システ
ム10の上記構成における各回路構成12内の動作を監
視し、制御する。入出力プロセッサ16は、通常、パー
ソナルコンピュータ、ワークステーション等の1台また
は複数台の外部ホスト装置に結合される。このような外
部ホスト装置は、冗長的に格納されたデータを故障許容
データ格納システム10から読み出すと共に、冗長格納
のために、データを故障許容データ格納システム10に
書き込むよう動作可能である。
【0015】ミラー回路18は、図示される回路構成1
2の両格納回路20に対してアクセスを行う。例えば、
一方の回路構成12のミラー回路18は、所定の回路構
成12のローカル格納回路20、および結合された他方
の回路構成12にあるリモート格納回路20のデータに
アクセスすることが可能である。本願明細書において、
ローカルとは所定の回路構成12内のコンポーネントを
指し、その一方で、リモートとは接続された他方の回路
構成12内にあるコンポーネントを指す。ミラー回路1
8は、冗長動作の場合には双方の格納回路20に対し
て、また選択的な動作の場合には格納回路20の一方に
対して、データを読み書きする。
【0016】個々の回路構成12の格納回路20は、他
方の回路構成12の格納回路20と共に、データを冗長
的に格納するよう構成される。故障許容データ格納シス
テム10は、説明する実施の形態において、RAID格
納システムとして構成される。他の構成の故障許容デー
タ格納システム10も可能である。このようなRAID
格納システムの例示的な格納回路20は、一時的にデー
タをバッファリングするためのダイナミックRAM(D
RAM)と、データの格納を提供するための複数のハー
ドディスクと、を備える(DRAMおよびハードディス
クは図示せず)。
【0017】図2を参照して、ミラー回路18の例示的
な詳細をさらに示す。図示するミラー回路18は、バス
インタフェース22、バスインタフェース24、および
メモリ制御部26を備える。バスインタフェース22、
24およびメモリ制御部26は、通常、データ交換およ
び動作制御のために結合される。バスインタフェース2
2は、マイクロプロセッサ14との通信を行う。バスイ
ンタフェース24は、入出力プロセッサ16と通信を行
う。メモリ制御部26は、ローカルおよびリモートの格
納回路20に対してデータのアドレス指定および転送を
行う。例示的な構成において、共通バス27は、バスイ
ンタフェース22、バスインタフェース24、およびメ
モリ制御部26を結合する。
【0018】図3を参照して、故障許容データ格納シス
テム10内の例示的な故障領域の概念を示す。図3は、
故障許容データ格納システム10の例示的なサブシステ
ム30を示す。サブシステム30は、複数の例示的なコ
ンポーネント32、34、36、38を備える。コンポ
ーネント32は、図示のように、内部コンポーネント3
8を含む。コンポーネント32は、バス42を介してサ
ブシステム30の外部にあるコンポーネント40と結合
する。図示の構成において、サブシステム30は、特定
用途向け集積回路(ASIC)として実施される。例示
的なコンポーネント32、34、36、38、40は、
メモリコンポーネント、処理コンポーネント、入出力コ
ンポーネント、バスコンポーネント等を含む。サブシス
テム30は、マイクロプロセッサ、入出力プロセッサ、
ミラー回路等、故障許容データ格納システム10の任意
のサブシステムを含むことができる。
【0019】次の説明において、コンポーネント32、
34、36、38、40およびバス42をそれぞれ故障
領域としてに参照する。エラーまたは故障が1つの故障
領域内で発生すると、隣接コンポーネントが、かかるエ
ラーまたは故障の状況の発生を、後述するように検出す
ることができる。例示的な一例において、バス42にお
いて故障が発生すると、内部コンポーネント32および
外部コンポーネント40が、一方の構成における論理回
路を用いて、故障を検出することができる。一例は、バ
ス42において検出されたパリティエラーである。バス
42は、その後、破損として識別することができる。
【0020】別の例示的な故障領域は、上記例では、バ
ッファ構成において実施されるコンポーネント38に関
連してもよい。このような例では、データがコンポーネ
ント38内に格納され、かかるデータが後に読み出さ
れ、コンポーネント32により、パリティエラー等の故
障状況またはエラーが検出されると、コンポーネント3
8および関連データは破損とマークされ、コンポーネン
ト38に対するすべてのさらなるデータ転送がディスエ
ーブルされる。このようなディスエーブル化動作につい
ては、さらに詳細に後述する。
【0021】さらに、コンポーネント32が、適切に動
作するために、コンポーネント38の信頼性のある動作
を必要とする場合、内部コンポーネント34、36およ
びバス42と結合されたコンポーネント40に、内部コ
ンポーネント32内のいずれかに故障があることを通知
してもよい。
【0022】別のシナリオでは、コンポーネント40が
コンポーネント34へのアクセスを望み、かつコンポー
ネント38内に決定された故障またはエラー状況があり
うるものと想定してもよい。その後、コンポーネント3
4とコンポーネント32間のインタフェースが、エラー
状況の検出に応答してディスエーブルされる。コンポー
ネント32は、コンポーネント34に適切にトランザク
ションを完了するよう要求する場合、エラー状況を有す
るコンポーネント40とのトランザクションを終結す
る。その後、コンポーネント40と内部コンポーネント
32の間のインタフェースがディスエーブルされる。
【0023】このようなアクティビティの間、コンポー
ネント36が、コンポーネント32とインタフェースせ
ずに、要求される動作を行うことが可能である。かかる
状況では、内部コンポーネント36は、コンポーネント
38に含まれる破損または故障状況が広がる可能性を有
することなしに、動作を継続させる。このような方法論
においては、コンポーネント38における破損は、隣接
するコンポーネントに広がらない。
【0024】再度図2を参照して、ハードウェア内での
障害またはエラー状況の存在に対する応答について説明
する。所定のコンポーネントが故障またはエラー状況に
ある場合、その特定コンポーネントに関する動作は停止
する。ミラー回路18において、後述するプロトコルチ
ェックエンジンが、バスインタフェースロジック22、
24内に存在している。例えば、マイクロプロセッサ1
4が、所定の範囲外のメモリロケーションから読み出す
ことを決定すると、バスインタフェース22は、このよ
うなエラー動作を検出して、マイクロプロセッサ14へ
のインタフェースをディスエーブルする。このようなこ
とは、破損したコードの領域内で動作しているマイクロ
プロセッサ14からから生じうる。しかし、ファイバチ
ャネルまたはホストシステムへのSCSI接続性向けの
IOプロセッサ等の入出力プロセッサ16は、破損が検
出されても、依然として格納回路20へアクセスする。
【0025】図4を参照して、コンポーネントに伴うエ
ラーまたは故障状況の存在を検出する動作、およびかか
るエラーまたは故障状況を局所的に含む故障コンポーネ
ントを切り離す動作の一例について説明する。故障した
コンポーネントの切り離しにより、故障許容データ格納
システム10の他の破損していないコンポーネントの動
作を続けることが可能である。本発明の好ましい態様に
おいて、個々の障害コンポーネントは完全に切り離さ
れ、故障したコンポーネントに接続されるすべてのイン
タフェースが、ディスエーブルされる。このようなこと
は、故障したコンポーネントを隔離するよう動作する。
冗長コンポーネントの使用により、故障許容データ格納
システム10の他の動作は、故障の発生にも関わらず、
継続する。
【0026】トランザクション発信装置50およびトラ
ンザクション受信装置52等のコンポーネントを図4に
示す。かかるトランザクション発信装置50、トランザ
クション受信装置52は、故障許容データ格納システム
10内の任意の2つのコンポーネントを表している。ト
ランザクション受信装置52は、さらに後述するよう
に、複数の内部コンポーネントを備える。トランザクシ
ョン発信装置50、トランザクション受信装置52は、
読み出し動作、書き込み動作等のトランザクションを通
信する。図示のように、データバス61、アドレスバス
63、および制御バス65をそれぞれ備えるデータ接続
部51が、トランザクション発信装置50、トランザク
ション受信装置52の間で利用されて、通信を行う。図
示のデータ接続部51は、データ情報、アドレス情報、
および制御情報をトランザクション発信装置50、トラ
ンザクション受信装置52の間で、通信する。
【0027】図示の構成において、トランザクション受
信装置52は、分析回路53と、インタフェース60
と、トランザクション処理回路62と、を備える。一実
施の形態において、分析回路53は、パリティ妥当性検
査回路54と、プロトコル妥当性検査回路56と、イネ
ーブル制御論理回路58と、を備える。パリティ妥当性
検査回路54は、バス61を介して通信されているデー
タ内のパリティエラーを決定し、プロトコル妥当性検査
回路56は、バス65を介して通信される制御情報内の
エラーを決定する。他の実施の形態では、他の構成の分
析回路53が提供される。例示的な一構成において、ト
ランザクション処理回路62は、DRAMメモリコント
ローラ、ハードディスクコントローラ、または格納回路
20にアクセスするための他の回路を備える。他の構成
のトランザクション処理回路62も可能である。
【0028】トランザクション発信装置50は、データ
接続部51を用いて、トランザクションを通信する。ト
ランザクション受信装置52のインタフェース60は、
データ接続部51に接続されて、データ接続部51から
複数のトランザクションを選択的に受信する。このよう
な選択的な受信動作については、以下に詳述する。トラ
ンザクション処理回路62は、インタフェース60に接
続され、インタフェース60から受信したトランザクシ
ョンを処理するよう配置される。
【0029】分析回路53は、パリティ妥当性検査回路
54、プロトコル妥当性検査回路56、およびイネーブ
ル制御論理回路58を備え、上記実施の形態で述べたデ
ータ接続部51を用いて通信されているトランザクショ
ン内のエラー状況を検出する。分析回路53は、エラー
状況の検出に応答して、インタフェース60へのトラン
ザクションの通過を制御する。
【0030】特に、分析回路53は、各トランザクショ
ン内でのかかるエラーの検出に応答して、エラー状況を
含むトランザクションがトランザクション受信装置52
のインタフェース60にエントリするのを阻止するよう
動作する。
【0031】図示の実施の形態において、分析回路53
は、パリティエラーおよび/またはプロトコルエラーの
ようなエラー状況の検出に応答して、インタフェース6
0をディスエーブルする。イネーブル制御論理回路58
は、イネーブルビットをセットして、インタフェース6
0内のトランザクションの受信を制御する。一実施の形
態において、イネーブル制御論理回路58は、インタフ
ェースイネーブル信号を送り、インタフェース60との
トランザクションの受信を阻止するよう動作する。イン
タフェース60は、エラー状況の検出に応答してディス
エーブルされ、トランザクション発信装置50からトラ
ンザクション受信装置52が切り離される。
【0032】本発明のいくつかの態様において、インタ
フェース60を用いるこのような切り離しは、さらに後
述するエラー状況のタイプに従う、選択的なものであ
る。より具体的には、分析回路53は、エラー状況のタ
イプを決定し、該エラー状況のタイプの決定に応答し
て、いくつかのトランザクション(例えば、後述する
「強制完了」動作)では、インタフェース60とトラン
ザクション処理回路62へエントリするのを選択的に許
可する。例えば、完了強制動作は、分析回路53によっ
て識別され、エラー状況が示されているにもかかわら
ず、インタフェース60へのエントリが許される。この
ような例において、トランザクションの制御情報(デー
タ接続部51の制御バスを用いて通信される)は、強制
完了ラベルを含むことができる。この強制完了ラベル
は、プロトコル妥当性検査回路56を備える分析回路5
3に、検出されたエラー状況の存在を無視するように、
また関連トランザクションのエントリを許可するよう通
知する。
【0033】強制完了動作は、故障許容データ格納シス
テム10を用いた各種動作に利用される。かかる動作
は、バックグラウンド動作で行われ、格納回路20の内
容を消去し、各コンポーネントの修復を可能にすること
ができる。例えば、データへのアクセスが頻繁ではない
領域におけるメモリを識別して、修復できるようにす
る。DRAMによっては、シングルビットエラーを生
じ、このシングルビットエラーは、修正されない場合に
は、単一ワード内のマルチビットエラーに発展する可能
性がある。強制完了動作は、消去(scrubbing)のよう
なバックグラウンド動作を許可し、故障許容データ格納
システム10内のコンポーネントを切り離さずに、動作
を継続する。
【0034】上述したように、強制完了識別は、データ
接続部51を用いて通信される制御情報内で利用しても
よい。これは、トランザクションが特に、例えばバック
グラウンドプロセスに関連することを示す。1つのコン
ポーネントは、他のコンポーネントにエラーの存在を警
告することが可能であるが、受信コンポーネントは、送
信コンポーネントを切り離さずに、トランザクションを
処理し続けることができる。したがって、故障許容デー
タ格納システム10の主要な動作は、強制完了動作内の
故障またはエラーによる影響を受けない。要約すると、
強制完了動作は、故障許容データ格納システム10が動
作を継続している間に、故障許容データ格納システム1
0を修復するというバックグラウンド動作の実行を可能
にする。
【0035】図4には図示していないが、トランザクシ
ョン発信装置50は、トランザクション発信装置50と
データ接続部51間で通信するために、各データ接続部
51に結合されるインタフェースを備える。同様に、ト
ランザクション発信装置50は、トランザクション発信
装置50に入力するトランザクションを選択的に阻止す
るのに適した分析回路を備えることができる。
【0036】本発明の他の実施の形態によれば、分析回
路53は、エラー状況の検出を通信する。本発明のいく
つかの態様に従って、データ接続部51が利用され、エ
ラー状況の検出が通信される。例えば、プロトコル妥当
性検査回路56は、データ接続部51を用いて、エラー
状況の存在をトランザクション発信装置50に通信する
ことが可能である。したがって、かかる分析回路53
は、エラー状況の検出をトランザクション発信装置50
等他のコンポーネントに通信する。さらに、イネーブル
制御論理回路58を備える分析回路53は、いくつかの
態様において、トランザクション受信装置52の外部に
さらに通信することのできるインタフェースイネーブル
信号を用いて、検出されたエラー状況を通信するため
に、利用される。
【0037】図示していないが、トランザクション発信
装置50、トランザクション受信装置52は、他の実施
の形態において、故障許容データ格納システム10の他
のコンポーネントに結合されてもよい。トランザクショ
ン発信装置50、トランザクション受信装置52に結合
される他のコンポーネントもまたそれぞれ分析回路およ
びインタフェースを備え、各トランザクション内のエラ
ーの通信を検出し、エラー状況を含むトランザクション
を通信する装置からかかる装置を切り離す。図1に示す
ように、故障許容データ格納システム10内に冗長コン
ポーネントを設けることで、故障許容データ格納システ
ム10は、所定のコンポーネント内での障害または故障
の発生に応答して、動作し続ける可能性が強化され、増
大される。
【0038】図示しない他のさらなるコンポーネントと
通信するために、トランザクション発信装置50、トラ
ンザクション受信装置52は個々に、追加のインタフェ
ース60を備える。適切なインタフェースを用いて、あ
るコンポーネントから別のコンポーネントを切り離した
後、適切に動作しているコンポーネントは、他のこのよ
うに適切に動作しているコンポーネントに関して、動作
し続ける。例えば、かかる適切に動作しているコンポー
ネントは、各トランザクション処理回路を利用して、ト
ランザクションを処理し続ける。
【0039】図5を参照すると、故障許容データ格納シ
ステム10の所定のコンポーネントの分析回路53およ
びインタフェース60内での読み出しトランザクション
および書き込みトランザクションの処理に関する状態マ
シンを示されている。特に、図5は、かかる動作中のト
ランザクションに関するインタフェース60の状態を示
す。
【0040】状態S10において、インタフェース60
は、分析回路53からのイネーブル信号またはリセット
状況に応答して、アイドルの状態である。状態S12
は、例えば、インタフェース60に結合された適切なデ
ータ接続によるトランザクションの受信を表す。トラン
ザクションが読み出し動作を示す場合、状態S14にお
いて、インタフェース60は、アドレスデータおよび長
さ情報を、インタフェース60内に結合された関連する
メモリ制御部および格納回路に送出する。状態S16に
おいて、インタフェース60は、関連するメモリ制御部
および関連する格納回路からの読み出しデータの受信を
待つ。状態S18において、インタフェース60は、デ
ータを関連するデータ接続に戻す。書き込み動作の場
合、インタフェース60の状態は、状態S12から状態
S20まで進み、S20において、書き込むべきデータ
を適切なデータ接続から受け入れる。状態S22におい
て、インタフェース60は、アドレス情報および関連デ
ータを適切な記憶装置に送出する。例えば、これは、メ
モリコントローラまたはハードディスクコントローラを
備えるトランザクション処理回路62を用いてもよい。
状態S18、S22の後に、インタフェース60の状態
は、インタフェース60が分析回路53からイネーブル
される限り、S10のアイドル状態に戻る。
【0041】本発明の態様は、故障許容データ格納シス
テム10を提供する。説明した故障許容データ格納シス
テム10は、故障許容データ格納システム10の1つま
たは複数のコンポーネントが故障またはエラー状況を被
っている間に、データにアクセスする可能性を増大した
ホストシステムを提供する。故障許容データ格納システ
ム10の構成および動作は、本発明の特徴を提供するた
めに変更されることはない。さらに、本発明の特定の実
施の形態では、故障許容データ格納システムの動作を維
持するために、プロセッサとのやりとりは必要でない。
本発明の態様は、数多くの状況において故障が発生する
際に、データ可用性の損失がまったくないか、または最
小に抑えられるようにする。長々とした再構成サイクル
は回避される。本発明の開示した構成において、故障
は、プロセッサの介入なく、リアルタイムで処理され
る。
【0042】保護要求は、例としてのみ与えられる開示
された実施の形態によっては制限されず、添付の特許請
求の範囲によってのみ制限されるべきである。
【0043】この発明は、例として次の実施態様を含
む。 (1)故障許容データ格納システム(10)であって、
複数の結合されたコンポーネントを備え、該複数の結合
されたコンポーネントは個々に、データ接続(51)に
結合され、該データ接続(51)から複数のトランザク
ションを選択的に受信するインタフェース(60)と、
該インタフェース(60)に結合され、該インタフェー
ス(60)から受信されたトランザクションを処理する
よう構成されるトランザクション処理回路(62)と、
前記トランザクション内のエラー状況を検出し、該検出
に応答して、個々にエラー状況を含むトランザクション
が各コンポーネントへエントリするのを阻止するよう構
成される分析回路(53)とを備える。
【0044】(2) 上記1に記載されるシステムにお
いて、前記分析回路(53)は、前記エラー状況の検出
に応答して、前記インタフェース(60)をディスエー
ブルさせるように構成される故障許容データ格納システ
ム。
【0045】(3) 上記の1または2に記載されるシ
ステムにおいて、前記分析回路(53)は、前記エラー
状況の検出に応答して、前記インタフェース(60)へ
の前記トランザクションの通過を制御するよう構成され
る故障許容データ格納システム。
【0046】(4)上記の1、2、または3のいずれか
に記載されるシステムにおいて、前記分析回路(53)
は、エラー状況のタイプを決定し、該決定に応答して、
対応するトランザクションの選択的なエントリを許すよ
う構成される故障許容データ格納システム。
【0047】(5)上記の1、2、3、または4のいず
れかに記載されるシステムにおいて、前記分析回路(5
3)は、前記エラー状況の検出を通信するよう構成され
ることを特徴とする故障許容データ格納システム。
【0048】(6) 故障許容データ格納システム(1
0)を動作する方法であって、トランザクションを処理
するよう構成される複数のコンポーネントを含む故障許
容データ格納システム(10)を提供するステップと、
通信のために、前記トランザクションを各コンポーネン
トに提供するステップと、前記トランザクション内でエ
ラー状況を検出するステップと、該検出に応答して、個
々にエラー状況を含むトランザクションの各コンポーネ
ントへのエントリを阻止するステップと、を含む故障許
容データ格納システムの動作方法。
【0049】(7) 上記の6に記載されるシステムに
おいて、前記エントリを阻止するステップは、前記各コ
ンポーネントのインタフェース(60)をディスエーブ
ルさせることを含む故障許容データ格納システムの動作
方法。
【0050】(8) 上記の項6または7に記載される
システムにおいて、前記エントリを阻止するステップ
は、個々のエラー状況を含むトランザクションの前記各
コンポーネントへのエントリを選択的に阻止することを
含む故障許容データ格納システムの動作方法。
【0051】(9)上記の6、7、または8のいずれか
に記載されるシステムにおいて、エラー状況のタイプを
決定するステップをさらに含み、前記エントリを阻止す
るステップは、該決定に応答して、トランザクションの
エントリを選択的に阻止することを含む故障許容データ
格納システムの動作方法。
【0052】(10)上記の項6、7、8、または9の
いずれかに記載されるシステムにおいて、 前記エラー
状況の検出を通信するステップをさらに含む故障許容デ
ータ格納システムの動作方法。
【0053】
【発明の効果】本発明は、コンポーネントに発生したエ
ラーまたは故障状況を検出し、このエラーまたは故障状
況を含む故障コンポーネントを切り離す故障許容データ
格納システムを提供する。この切り離し機能によって、
トランザクション内のエラー状況が検出され、該検出に
応答して、個々にエラー状況を含むトランザクションが
各コンポーネントへエントリするのを阻止できる。
【図面の簡単な説明】
【図1】例示的な故障許容データ格納システムのハード
ウェアサブシステムの機能ブロック図である。
【図2】図1に示す故障許容データ格納システムの例示
的なミラー回路のさらに詳細を示す機能ブロック図であ
る。
【図3】故障許容データ格納システムの例示的なサブシ
ステムの例示的な故障領域を示す機能ブロック図であ
る。
【図4】故障許容データ格納システムの例示的な回路コ
ンポーネント間の通信を示す機能ブロック図である。
【図5】故障許容データ格納システムの回路コンポーネ
ント内でトランザクション受信中の、動作の例示的な状
態を示す状態マシン図である。
【符号の説明】
10 故障許容データ格納システム 51 データ接続 53 分析回路 60 インタフェース 62 トランザクション処理回路
───────────────────────────────────────────────────── フロントページの続き (72)発明者 バリー・ジェイ・オールドフィールド アメリカ合衆国アイダホ州ボイジー ウェ スト ダニエル コート 11302 (72)発明者 スティーブン・リー・シュレイダー アメリカ合衆国アイダホ州ボイジー ノー ス レーナ アヴェニュー 3860 (72)発明者 クリスティン・グランド アメリカ合衆国アイダホ州メリディアン イースト ボーモント コート 4531 (72)発明者 クリストファー・ダブリュー・ジョハンソ ン アメリカ合衆国アイダホ州ホースシューベ ンド ブラウンリー ロード 125 Fターム(参考) 5B018 GA04 HA05 KA14 MA12 5B034 BB15 5B065 BA01 CA30 EK02

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 故障許容データ格納システムであって、
    複数の結合されたコンポーネントを備え、該複数の結合
    されたコンポーネントは個々に、 データ接続に結合され、該データ接続から複数のトラン
    ザクションを選択的に受信するインタフェースと、 該インタフェースに結合され、該インタフェースから受
    信されたトランザクションを処理するよう構成されるト
    ランザクション処理回路と、 前記トランザクション内のエラー状況を検出し、該検出
    に応答して、個々にエラー状況を含むトランザクション
    が各コンポーネントへエントリするのを阻止するよう構
    成される分析回路と、を備えることを特徴とする故障許
    容データ格納システム。
JP2001121489A 2000-04-19 2001-04-19 故障許容データ格納システムおよび故障許容データ格納システムの動作方法 Pending JP2001356968A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US552669 1995-11-03
US09/552,669 US6647516B1 (en) 2000-04-19 2000-04-19 Fault tolerant data storage systems and methods of operating a fault tolerant data storage system

Publications (2)

Publication Number Publication Date
JP2001356968A true JP2001356968A (ja) 2001-12-26
JP2001356968A5 JP2001356968A5 (ja) 2007-08-16

Family

ID=24206290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001121489A Pending JP2001356968A (ja) 2000-04-19 2001-04-19 故障許容データ格納システムおよび故障許容データ格納システムの動作方法

Country Status (2)

Country Link
US (2) US6647516B1 (ja)
JP (1) JP2001356968A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6647516B1 (en) * 2000-04-19 2003-11-11 Hewlett-Packard Development Company, L.P. Fault tolerant data storage systems and methods of operating a fault tolerant data storage system
US6950966B2 (en) * 2001-07-17 2005-09-27 Seachange International, Inc. Data transmission from raid services
US7346825B2 (en) * 2001-09-06 2008-03-18 Intel Corporation Error method, system and medium
US6990604B2 (en) * 2001-12-28 2006-01-24 Storage Technology Corporation Virtual storage status coalescing with a plurality of physical storage devices
US7020803B2 (en) * 2002-03-11 2006-03-28 Hewlett-Packard Development Company, Lp. System and methods for fault path testing through automated error injection
US7444551B1 (en) 2002-12-16 2008-10-28 Nvidia Corporation Method and apparatus for system status monitoring, testing and restoration
GB2406404C (en) * 2003-09-26 2011-11-02 Advanced Risc Mach Ltd Data processing apparatus and method for handling corrupted data values
US7296179B2 (en) * 2003-09-30 2007-11-13 International Business Machines Corporation Node removal using remote back-up system memory
US20050097208A1 (en) * 2003-10-31 2005-05-05 International Business Machines Corporation Node removal using remote back-up system memory
JP6415092B2 (ja) * 2014-04-25 2018-10-31 キヤノン株式会社 ストレージデバイスへのデータの書き込みを禁止する情報処理装置及び方法
US10146610B2 (en) * 2017-04-03 2018-12-04 Dell Products, L.P. Agentless remediation and recovery
US10922203B1 (en) * 2018-09-21 2021-02-16 Nvidia Corporation Fault injection architecture for resilient GPU computing
CN112306766A (zh) 2019-07-31 2021-02-02 伊姆西Ip控股有限责任公司 用于错误检测的方法、电子设备、存储系统和计算机程序产品
US11500717B2 (en) 2020-07-23 2022-11-15 EMC IP Holding Company LLC Method for detecting data storage system, device and data storage system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05173727A (ja) * 1991-12-20 1993-07-13 Nec Eng Ltd ディスクアレイ装置
JPH05290494A (ja) * 1992-04-03 1993-11-05 Nec Eng Ltd ディスクアレイ装置
JPH07134636A (ja) * 1993-11-10 1995-05-23 Nec Eng Ltd ディスクアレイ装置
JPH09319526A (ja) * 1996-06-03 1997-12-12 Ekushingu:Kk Raid制御システム
JPH10320129A (ja) * 1997-05-20 1998-12-04 Hitachi Ltd ディスクアレイ装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965717A (en) * 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
US5295258A (en) * 1989-12-22 1994-03-15 Tandem Computers Incorporated Fault-tolerant computer system with online recovery and reintegration of redundant components
US5383201A (en) * 1991-12-23 1995-01-17 Amdahl Corporation Method and apparatus for locating source of error in high-speed synchronous systems
US5574849A (en) * 1992-12-17 1996-11-12 Tandem Computers Incorporated Synchronized data transmission between elements of a processing system
SE502777C2 (sv) * 1993-04-29 1996-01-08 Ellemtel Utvecklings Ab Felisolering av delar hos ett tele- och datakommunikationssystem
US5592610A (en) * 1994-12-21 1997-01-07 Intel Corporation Method and apparatus for enhancing the fault-tolerance of a network
US5680537A (en) * 1995-03-01 1997-10-21 Unisys Corporation Method and apparatus for isolating an error within a computer system that transfers data via an interface device
US5953351A (en) * 1995-09-15 1999-09-14 International Business Machines Corporation Method and apparatus for indicating uncorrectable data errors
US5928370A (en) * 1997-02-05 1999-07-27 Lexar Media, Inc. Method and apparatus for verifying erasure of memory blocks within a non-volatile memory structure
US6308284B1 (en) * 1998-08-28 2001-10-23 Emc Corporation Method and apparatus for maintaining data coherency
US6370659B1 (en) * 1999-04-22 2002-04-09 Harris Corporation Method for automatically isolating hardware module faults
US6519736B1 (en) * 1999-11-30 2003-02-11 International Business Machines Corporation Generating special uncorrectable error codes for failure isolation
US6647516B1 (en) * 2000-04-19 2003-11-11 Hewlett-Packard Development Company, L.P. Fault tolerant data storage systems and methods of operating a fault tolerant data storage system
US6618825B1 (en) * 2000-04-20 2003-09-09 Hewlett Packard Development Company, L.P. Hierarchy of fault isolation timers
US6594785B1 (en) * 2000-04-28 2003-07-15 Unisys Corporation System and method for fault handling and recovery in a multi-processing system having hardware resources shared between multiple partitions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05173727A (ja) * 1991-12-20 1993-07-13 Nec Eng Ltd ディスクアレイ装置
JPH05290494A (ja) * 1992-04-03 1993-11-05 Nec Eng Ltd ディスクアレイ装置
JPH07134636A (ja) * 1993-11-10 1995-05-23 Nec Eng Ltd ディスクアレイ装置
JPH09319526A (ja) * 1996-06-03 1997-12-12 Ekushingu:Kk Raid制御システム
JPH10320129A (ja) * 1997-05-20 1998-12-04 Hitachi Ltd ディスクアレイ装置

Also Published As

Publication number Publication date
US7143315B2 (en) 2006-11-28
US6647516B1 (en) 2003-11-11
US20040153735A1 (en) 2004-08-05

Similar Documents

Publication Publication Date Title
US6802023B2 (en) Redundant controller data storage system having hot insertion system and method
US6178520B1 (en) Software recognition of drive removal or insertion in a storage system
US5790775A (en) Host transparent storage controller failover/failback of SCSI targets and associated units
US7055054B2 (en) Fail-over of multiple memory blocks in multiple memory modules in computer system
US6266785B1 (en) File system filter driver apparatus and method
US7409580B2 (en) System and method for recovering from errors in a data processing system
US7774646B2 (en) Surviving storage system takeover by replaying operations in an operations log mirror
US20020133744A1 (en) Redundant controller data storage system having an on-line controller removal system and method
US20130151767A1 (en) Memory controller-independent memory mirroring
GB2375412A (en) Resetting controllers in a redundant-controller data storage system
US20020184576A1 (en) Method and apparatus for isolating failing hardware in a PCI recoverable error
JPH03184130A (ja) ソフトウェアの誤り処理方法
US6754853B1 (en) Testing components of a computerized storage network system having a storage unit with multiple controllers
JP2001356968A (ja) 故障許容データ格納システムおよび故障許容データ格納システムの動作方法
JP4132322B2 (ja) 記憶制御装置およびその制御方法
US6950978B2 (en) Method and apparatus for parity error recovery
US5765034A (en) Fencing system for standard interfaces for storage devices
US7543179B2 (en) Error management topologies
US7293138B1 (en) Method and apparatus for raid on memory
US6732298B1 (en) Nonmaskable interrupt workaround for a single exception interrupt handler processor
US20060117215A1 (en) Storage virtualization apparatus and computer system using the same
JP4644720B2 (ja) 制御方法、情報処理装置及びストレージシステム
US7725761B2 (en) Computer system, fault tolerant system using the same and operation control method and program thereof
US7302526B1 (en) Handling memory faults for mirrored memory
US7895493B2 (en) Bus failure management method and system

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070626

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070702

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100811

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110119