JP2006202254A - Deterministic preventive recovery from predicted failure in distributed storage system - Google Patents

Deterministic preventive recovery from predicted failure in distributed storage system Download PDF

Info

Publication number
JP2006202254A
JP2006202254A JP2005138588A JP2005138588A JP2006202254A JP 2006202254 A JP2006202254 A JP 2006202254A JP 2005138588 A JP2005138588 A JP 2005138588A JP 2005138588 A JP2005138588 A JP 2005138588A JP 2006202254 A JP2006202254 A JP 2006202254A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
storage
data
failure
recovery
preventive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005138588A
Other languages
Japanese (ja)
Inventor
Robert G Bean
Bruce Allen Bicknell
Paul W Burnett
Mark A Gaertner
Robert J German
アレン ビックネル ブルース
ウィリアム バーネット ポール
アレン ガエートナー マーク
ジョージ ビーン ロバート
ジョン ジャーマン ロバート
Original Assignee
Seagate Technology Llc
シーゲイト テクノロジー エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a deterministic preventive recovery from a predicted failure in a distributed storage system. <P>SOLUTION: A data storage subsystem in a distributed storage system has a plurality of predictive failure analyzing data storage devices. The subsystem furthermore has a circuit that is responsive to a predicted failure indication by a data storage device in relation to predetermined rules stored in memory for deterministically initiating a preventive recovery either by a data recovery procedure in the data storage device or by a fault tolerance storage arrangement in the subsystem. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

(関連する出願) (RELATED APPLICATIONS)
本出願は、2004年3月24日出願の米国仮特許出願第60/555,879号からの優先権を主張する。 This application claims priority from US Provisional Patent Application No. 60 / 555,879, filed March 24, 2004.

本発明の実施例は一般に、分散記憶システムに関し、特に、データ記憶サブシステムによる予測される記憶故障をインテリジェント(知能的)にスケジュールし保守点検するための装置および関連する方法に制限なく関する。 Examples of the present invention generally relates to distributed storage system, in particular, relates without limitation storage failure is predicted by the data storage subsystem intelligent device and associated method for scheduling the (intelligent) maintenance.

一般にデータ記憶システムは、磁気あるいは光データ記憶ディスクのような記憶媒体上にデータを記憶する、1つあるいは複数のデータ記憶装置を有する。 Generally to data storage systems store data on a storage medium such as a magnetic or optical data storage disk, having one or more data storage devices. 磁気記憶装置においては、例えば、1つあるいは複数の磁気ディスクがまとめられてディスク・ドライブとなっている。 In the magnetic storage device, for example, summarizes the one or more magnetic disk has a disk drive.

ディスク・ドライブは、発生する可能性のある故障をそれが起こる前に予測するために、状態および多様な動作パラメータを目立たないように監視するためのプログラム命令に応答するディスク・ドライブ制御装置を有することが望ましい。 Disk drive, a fault that may occur to predict before it happens, having disk drive controller responsive to program instructions to monitor unobtrusively conditions and various operating parameters it is desirable. 広く使用されている予測故障分析(PFA)ツールは、自己監視、分析および報告技術(SMART)である。 Widely used predictive failure analysis (PFA) tool is a self-monitoring, analysis and reporting technology (SMART). PFAは、故障モードに相応する条件が存在するあるいは故障モードに相応する傾向があると思われる条件がある場合に、その目的にかなった指示を発行する。 PFA, if there is a condition that seems to be a tendency that the conditions corresponding to the failure mode corresponding to the existing or failure mode, issues an instruction that meets its purpose. PFAは、例えば現在のパラメータ値を製造過程においてメモリに記憶されたパラメータ値と比較することによる自己診断検査を実行することによって、実現することができる。 PFA, for example by performing a self-diagnostic test by comparing the parameter values ​​stored in the memory during the manufacturing process the current parameter values ​​can be realized. PFAはまた、パラメータ値の変化の観測時間率(time rate of change)に基づき故障を予測することができる。 PFA may also predict failure on the basis of the observation time rate of change of the parameter values ​​(time rate of change).

故障予測能力のあるディスク・ドライブは、“SMARTドライブ”と呼ばれることもあり、予測される故障から予防的に回復する(preventive recover)ために、さらにデータ回復プロシージャ(DRP)を使用することができる。 Disk drive with a failure prediction capability, sometimes referred to as "SMART Drive", for prophylactically to recover from a failure to be predicted (preventive the recover), can further use the data recovery procedure (DRP) . 例えば、SMARTドライブは、悪化した信号対雑音比に基づき予測される故障を指示してもよい。 For example, SMART drive may indicate a failure to be predicted on the basis of the deteriorated signal-to-noise ratio. その結果、DRP回路はMRヘッドの再位置付けを開始してもよい。 As a result, DRP circuit may initiate a re-positioning of the MR head.

近年、記憶容量および柔軟性への要求が増すにつれ、ストレージ・エリア・ネットワーク(SAN)の使用が急増している。 Recently, as the demand for storage capacity and greater flexibility, the use of a storage area network (SAN) is increasing rapidly. SANにおいて、ディスク・ドライブはまとめられてアレイとされ、大容量記憶装置として集合的に使用されたり、個別の記憶エンティティに区分されたりしている。 In SAN, the disk drive is a summarized by the array, or be collectively used as a mass storage device, and or is divided into separate memory entities. SAN内においては、独立ディスクの冗長アレイ(RAID)におけるように、耐故障性配置(fault tolerant arrangement:フォールト・トレラント配置或いは無停止配置とも呼ばれる)においてデータを記憶することが有益である。 In the SAN, as in redundant array of independent disks (RAID), fault tolerance located: it is beneficial to store data in (fault tolerant arrangement The also called fault-tolerant arrangement or nonstop arrangement). このことにより、複製されたデータ(mirrored data)を検索することによって、あるいは記憶されたパリティ情報からデータを復元することによって、破損したデータを回復することができる。 Thus, by searching the replicated data (mirrored data), or by restoring the data from the stored parity information, it can recover corrupted data.

DRPおよびRAIDは共に、信頼性の高い記憶データを維持することを目的としている。 DRP and RAID together are intended to maintain a highly reliable storage data. これらは、しかし、異なるそして多くの場合矛盾する方法でその目的を達成している。 These, however, have achieved its purpose in different and often conflicting methods. 例えば、DRPは故障状態の元の位置における修復(in−situ repair)を強調するが、予測される故障からの回復に必要な処理オーバヘッドのコストが比較的大きくなる。 For example, DRP emphasizes repair (in-situ repair) in the original position of the fault condition, the cost of the processing overhead required to recover from a failure to be predicted is relatively large. SMARTドライブは、元々は主に独立型システムにおいて使用され、しばしば故障を予測する際に過度に包括的になり、データの完全性を保証する側において故障する傾向がある。 SMART Drive was originally used mainly in stand-alone system, often become overly inclusive in predicting failure tends to fail in the side to ensure data integrity. RAIDシステムは、それとは反対に、通常、必要であれば故障を収容するために大きくすることができるスケーラブルな記憶容量内において使用される。 RAID system, to the contrary, commonly used in the scalable storage capacity can be increased to accommodate the failure, if necessary. 例えばスペアリング(sparing)は、RAIDシステムにおいては通常であり、それにより余分のディスク・ドライブ(extra disc drives)を記憶装置の故障の場合に使用することができる。 For example sparing (sparing) is usually in the RAID system, whereby it is possible to use extra disk drive (extra disc drives) in the event of a failure of the storage device. スペアリングの閾値量が使用された場合、元の位置における回復(in−situ)プロシージャを実行するよりも、追加のスペアリング容量を追加するか、あるいは故障したドライブからデータをコピーしそれらを取り替えるほうがより効率的である。 If the threshold amount of sparing is used, than to perform recovery (in-situ) procedure in the original position, or to add additional sparing capacity, or to copy the data from the failed drive replace them more is more efficient.

必要なのは、データ記憶サブシステムにおけるスケジュールされていない保守の事例を最少にするために、DRPの予測的故障および元の位置における回復の利点、および、RAIDの柔軟性および効率の利点の双方を高める解決策である。 What is needed is to the case of maintenance unscheduled in a data storage subsystem to minimize the benefits of recovery in predictive failure and the original position of the DRP, and enhances the advantages of both RAID flexibility and efficiency it is a solution. 本発明の実施例はこれらの利点に向けられている。 Examples of the present invention is directed to these advantages.

ここに実施例として説明され以下に請求項として開示されるように、本発明の実施例は一般に、予測される記憶装置の故障に関連するデータの予防的回復のための装置および関連する方法に関する。 As disclosed herein as the claims are described below as examples, embodiments of the present invention generally relates to an apparatus and associated method for the prevention recovery of data relating to the failure of the storage device to be predicted .

本発明のいくつかの実施例は、分散記憶システムにおけるデータ記憶サブシステムに関する。 Some embodiments of the present invention relates to a data storage subsystem in a distributed storage system. 本サブシステムは、複数の予測故障分析データ記憶装置を有する。 This subsystem includes a plurality of predictive failure analysis data storage device. 本サブシステムはさらに、データ記憶装置におけるデータ回復プロシージャによってあるいはサブシステムにおける耐故障性記憶配置によって予防的回復を決定論的に(deterministically)開始するために、メモリに記憶された所定の規則に関連してデータ記憶装置による予測される故障の指示に応答する回路を有する。 This subsystem is further to deterministically (deterministically) initiate preventive recovery by fault-tolerant memory disposed in or subsystems by a data recovery procedure in the data storage device, associated with a given rule stored in the memory having a circuit responsive to indication of failure to be predicted by the data storage device Te.

本発明のいくつかの実施例は、複数のデータ記憶装置を有するデータ記憶サブシステムにおける記憶データを保護するための方法に関する。 Some embodiments of the present invention relates to a method for protecting stored data in the data storage subsystem having a plurality of data storage devices. 本方法は、データ記憶装置の1つによるデータ転送障害を予測することと、データ記憶装置におけるデータ回復プロシージャによってあるいはサブシステムにおける耐故障性記憶配置によって予防回復ルーチンを決定性的に開始するために、予測された故障を所定の規則に関連して分析すること、を含む。 The method includes predicting a data transfer failure due to one of the data storage device, in order to initiate preventive recovery routine by fault tolerant storage locations in or subsystems by a data recovery procedure in the data storage device deterministic manner, prediction analyzing the fault, which is in connection with the predetermined rule, including.

本発明のいくつかの実施例は、記憶サブシステムを定義する複数の予測故障分析データ記憶装置と、サブシステムにおけるスケジュールされていない保守を決定性的に最少にする、メモリに記憶された所定の規則に従って回復するための手段とを含むデータ記憶サブシステムに関する。 Some embodiments of the present invention, a plurality of predictive failure analysis data storage device defining a storage subsystem, to minimize the deterministic manner maintenance unscheduled in subsystems, a predetermined stored in the memory rules It relates to a data storage subsystem including a means for recovering accordance.

請求される発明を特徴付けるこれらおよび多様な他の特徴および利点は、以下の詳細な説明を読むにあたり、そして付随する図面を参照するにあたり、明白となるであろう。 These and various other features and advantages, which characterize the invention as claimed, when reading the following detailed description, and Upon reference to the accompanying drawings, it will be apparent.

図1は、本発明の実施例において使用される予測故障分析データ記憶装置10の平面図である。 Figure 1 is a plan view of a predictive failure analysis data storage device 10 used in the embodiment of the present invention. データ記憶装置10は、カバー14(部分的に除かれて示されている)と密閉するようにかみ合うベース12から形成されるハウジングを含む。 Data storage device 10 includes a housing formed from a base 12 which engages so as to seal the cover 14 and (partially excluded by shown). 1つあるいは複数のデータ記憶ディスク16から形成されるディスク・スタックが、モータ18上に回転するように取り付けられている。 One or disk stack formed from a plurality of data storage disk 16 is mounted for rotation on the motor 18. 各ディスク表面は、ヘッド20に対しデータを転送するような関係に配置され得る。 Each disk surface, with respect to the head 20 may be arranged in relation to transfer data. 図1によって示される実施例において、ヘッド20はサスペンション22によって支持され、サスペンション22はまた、アクチュエータ26のアーム24に取り付けられている。 In the embodiment shown by Figure 1, the head 20 is supported by a suspension 22, the suspension 22 is also attached to the arm 24 of the actuator 26. 図1の実施例において、アクチュエータ26は、ボイス・コイル・モータ28によって配置可能に制御される回転型ムービング・コイル・アクチュエータと一般に称される型のものである。 1 embodiment, actuator 26 is of referred type rotary moving coil actuator generally disposed can be controlled by a voice coil motor 28. ボイス・コイル・モータ28は、ヘッド20をディスク16の内側および外側の直径の間の経路に沿って所望のデータ・トラックに近接して位置付けるために、アクチュエータ26をピボット・シャフト30の周りで回転させる。 Voice coil motor 28, rotates the head 20 to position it along the path between the inner and outer diameters of the disk 16 proximate to the desired data track, the actuator 26 about the pivot shaft 30 make.

図2は、データ記憶装置10の機能ブロック図であり、データ記憶装置10は一般に、読取り/書込みチャネル32、サーボ制御回路34、およびスピンドル制御回路36を含み、これらは全て制御バス38によってプロセッサ40に接続している。 Figure 2 is a functional block diagram of a data storage device 10, the data storage device 10 is generally a read / write channel 32 includes a servo control circuit 34 and a spindle control circuit 36, the processor 40 by all the control buses 38 It is connected to. インタフェース回路42は読取り/書込みチャネル32にバス41によって接続し、プロセッサ40にバス43によって接続している。 The interface circuit 42 is connected by a bus 41 to a read / write channel 32 is connected to processor 40 by a bus 43. インタフェース回路42は、データ記憶装置10のためのデータ・インタフェースとして機能する。 The interface circuit 42 functions as a data interface for the data storage device 10.

スピンドル制御回路36は、信号経路42によってモータ18およびディスク16の回転速度を制御する。 Spindle control circuit 36 ​​controls the rotation speed of the motor 18 and the disc 16 by signal path 42. サーボ制御回路34は、信号経路44を通してヘッド20からのサーボ位置情報を受信し、それに応答して、ディスク16に対してヘッド20を位置付けるために、ボイス・コイル・モータ28のアクチュエータ・コイル部分に信号経路46を通して訂正信号を提供する。 The servo control circuit 34 receives the servo position information from the head 20 through the signal path 44, in response thereto, to position the head 20 relative to the disk 16, the actuator coil portion of the voice coil motor 28 providing a correction signal through the signal path 46. 読取り/書込みチャネル32は、ディスク16に書込むべきそしてディスク16から読取るべきデータのそれぞれを信号経路48およびヘッド20を通して渡す。 Read / write channel 32, and be written to the disk 16 passes the respective data to be read from the disk 16 through a signal path 48 and the head 20.

一般に、プロセッサ40によってインタフェース42から受信されたホスト(図2には示されていない)からの書込みコマンドに応答して、プロセッサ40は、ホストからインタフェース42および読取り/書込みチャネル32への、ディスク16に書込まれるべきデータの流れを制御する。 In general, in response by the processor 40 to the write command from the host received from the interface 42 (not shown in FIG. 2), the processor 40, from the host to the interface 42 and a read / write channel 32, the disk 16 controlling the flow of data to be written to. 読取り/書込みチャネル32はまた、ディスク16上の選択されたデータ・トラックを選択的に磁化することによってデータを書込むために、書込み電流をヘッド20に提供する。 Read / write channel 32 also, in order to write data by selectively magnetizing selected data tracks on the disk 16, provides a write current to the head 20. また、インタフェース42を介してのホストからの読取りコマンドに応答して、ヘッド20は、ディスク16上の選択されたデータ・トラックからの磁束反転を検知し、読取り/書込みチャネル32にアナログ読取り信号を提供する。 Further, in response to a read command from the host via the interface 42, the head 20 senses the magnetic flux reversal from a selected data track on the disk 16, the analog read signal to the read / write channel 32 provide. 読取り/書込みチャネル32はまた、アナログ読取り信号をディジタル形式に変換し、ホストへの出力のためのデータをインタフェース回路42に提供するために、必要な復号動作を実行する。 Read / write channel 32 also converts the analog read signal to digital form, in order to provide data for output to the host interface circuit 42, performs the necessary decoding operations. データ記憶装置10のこれらの動作を制御するにおいて、プロセッサ40は、メモリ50に記憶されたプログラミング命令を使用する。 In controlling these operations of the data storage device 10, processor 40 uses the programming instructions stored in the memory 50.

図3は、データ記憶装置10のデータ回復プログラム(DRP)52の特徴を示す機能ブロック図である。 Figure 3 is a functional block diagram illustrating features of a data recovery program (DRP) 52 of the data storage device 10. DRPは、修正処理を開始するおよび/あるいは予測される故障を通信するために、バス38あるいはバス43のいずれかを通してコマンド・シーケンスを実行する際に、メモリに記憶された所定の命令に従って、1つあるいは複数の信号入力54、56、58に応答する。 DRP is to communicate the failure to be start and / or predict the correction process, when executing a command sequence through either bus 38 or bus 43, according to a predetermined instructions stored in the memory, 1 One or responsive to a plurality of signal inputs 54, 56, 58. センサ54、56、58は、温度および振動妨害のようなデータ転送を妨げる多様な妨害に対して、データ記憶装置10を監視する。 Sensors 54, 56, 58, with respect to a variety of disturbances which interfere with data transfer, such as temperature and vibration disturbance, monitors the data storage device 10. 入力54、56、58はまた、DRP52が定期的に照会することができる選択されたパラメータ値のデータ・ログであってもよい。 Input 54, 56, 58 also, DRP52 may be a data log of the selected parameter values ​​may be queried periodically. いくつかの実施例において、センサ54、56、58およびメモリに常駐する命令は、自己監視分析および報告技術(SMART:self−monitoring analysis and reporting technology)として特徴付けることができる。 In some embodiments, instructions that reside in the sensor 54, 56, 58 and the memory, self-Monitoring Analysis and Reporting Technology: can be characterized as (SMART self-monitoring analysis and reporting technology).

入力54、56、58に応答してDRP52によって決定された予測される故障の性質に依存して、DRP52は適当な回復処理を開始することができる。 Depending on the nature of the fault to be predicted is determined by DRP52 in response to an input 54,56,58, DRP52 can initiate an appropriate recovery process. 例えば、ある場合において、DRP52は、ヘッド20が単にデータを再び読取ろうとする、“再試行”シーケンスを開始するであろう。 For example, in some cases, DRP52 the head 20 is to be read simply again data, will initiate a "retry" sequence. 他の場合には、“シーク・アウェイ(seek away)”シーケンスが効果的であることがあり、これにより、ヘッド20は選択されたトラックから離され、それから選択されたトラックに戻され読取りステップが再試行される。 In other cases, it may "seek Away (seek away The)" sequence is effective, thereby, the head 20 is separated from the selected track, then read step is returned to the selected track It is retried. ある場合には、より厳密な回復動作が必要であるかもしれない。 In some cases, it may be necessary more rigorous recovery operation. 例えば、DRP52は、“適応読取チャネル”シーケンスを開始してもよく、これにより読取りチャネルの再パラメータ化(reparameterization)が起こる。 For example, DRP52 may initiate the "adaptive read channel" sequence, thereby re-parameterization of a read channel (reparameterization) occurs. 例えば、ゼロ加速プロファイル(ZAP:zero acceleration profile)あるいはサーボ・ノッチ最適化(SNO:servo notch optimization)のようなパラメータを調整してもよい。 For example, zero acceleration profile (ZAP: zero acceleration profile) or servo notch Optimization (SNO: servo notch optimization) parameter may be adjusted, such as. DRP52はまた、“ECCレベル変更”シーケンスを開始してもよく、これにより、より厳密なあるいはより精度の低い検査がエラー修正コード・アルゴリズムによって適用される。 DRP52 may also initiate a "ECC level change" sequence, thereby, more stringent or lower precision inspection is applied by the error correction code algorithm. DRP52はまた、ヘッド20の浮上高を調整してもよく、あるいはヘッド20における書込みヒータ(writer heater)を付勢してもよい。 DRP52 may also adjust the flying height of the head 20, or write a heater (writer Heater) in the head 20 may be energized to.

図4は、分散記憶システムにおいて使用するためのデータ記憶サブシステム60の分解等角投影図である。 Figure 4 is an exploded isometric view of a data storage subsystem 60 for use in a distributed storage system. サブシステム60は、データ記憶装置10の多重ディスク・アレイ66を電気的に接続するための後部面(backplane:バックプレーン)64を支持するシェルフ62を有する。 Subsystem 60, a rear surface for electrically connecting the multiple disk array 66 of the data storage device 10: a shelf 62 for supporting the (backplane backplane) 64. 図4の実施例はまた、主および冗長制御装置68、バッテリ・パック・バックアップ70、電源装置72、およびインタフェース74を有するサブシステム60を示している。 Embodiment of Figure 4 also shows the main and redundant controller 68, the battery pack backup 70, power supply 72, and a subsystem 60 having an interface 74.

図5は、多重データ記憶サブシステム60を使用する、ストレージ・エリア・ネットワーク(SAN)のような分散記憶システム80の機能ブロック図である。 Figure 5 uses multiple data storage subsystem 60 is a functional block diagram of a distributed storage system 80, such as storage area networks (SAN). システム80は、それぞれホストA、B、およびCとして識別される複数のホスト・コンピュータ82を含む。 System 80 includes each host A, B, and a plurality of host computer 82 identified as C. 図5において、ホスト・コンピュータ82は、ファブリック84を介して互いに、そして同様に1組のデータ記憶サブシステム60(それぞれAおよびBと示される)と相互に作用する或いはインタラクトする。 5, the host computer 82 to each other through the fabric 84, and likewise interacts with a set of data storage subsystem 60 (shown as A and B, respectively), or interact. ファブリック84は、ファイバ・チャネルに基づくスイッチング・ネットワークとして特徴付けられるものであることが望ましいが、インターネットを含む他の構成も同様に使用することができる。 Fabric 84 is desirably those characterized as a switching network based on Fiber Channel, may also be used as well other configurations, including the Internet.

制御装置68および1組のデータ記憶装置10は、独立ドライブの冗長アレイ(RAID)として動作するデータ記憶装置として特徴付けられるものであることが望ましい。 Controller 68 and a set of data storage device 10, it is desirable that characterized as a data storage device that operates as an independent drive redundant array (RAID). つまり、制御装置68およびデータ記憶装置10は、多様な制御装置68が並列、冗長リンクを使用し、システム80によって記憶されたユーザ・データの少なくともある部分はデータ記憶装置10の少なくとも1組内に冗長形式で記憶されるように、耐故障性配置を使用することが望ましい。 In other words, the control unit 68 and data storage device 10, various control devices 68 in parallel, using a redundant link, at least some portion of the user data stored by the system 80 at least one set in the data storage device 10 as stored in a redundant form, it is desirable to use a fault tolerant arrangement.

Aホスト・コンピュータ82およびAデータ記憶サブシステム60は、第1の場所に物理的に置くことができ、Bホスト・コンピュータ82およびB記憶サブシステム60は第2の場所に物理的に置くことができ、Cホスト・コンピュータ82はさらに第3の場所に置くことができることがさらに理解できる。 A host computer 82 and the A data storage subsystem 60 may be placed at a first location physically, B host computer 82 and the B memory sub-system 60 be placed physically to a second location can, C host computer 82 may further understood that can be placed further to the third location. しかしこれらは単に例示であって、制限的なものではない。 However, these are merely illustrative, not limiting.

図6は、制御装置68のうちの選択された1つをより詳細に示している。 Figure 6 shows a selected one of the control device 68 in more detail. 制御装置68は、単一の集積回路に組み込む、あるいは、望み応じて、複数の個別の回路の間で分散することができる。 Controller 68, incorporated in a single integrated circuit, or may be in response desired, be distributed between a plurality of individual circuits. 主プロセッサ90は、プログラマブル、コンピュータ・プロセッサとして特徴付けられるものであることが望ましく、不揮発性メモリ92(例えばフラッシュ・メモリあるいは類似するもの)および動的ランダム・アクセス・メモリ(DRAM)94に記憶されるものであることが望ましいプログラミング・ステップおよび処理データに従って制御を提供する。 The main processor 90, a programmable, it is desirable that those characterized as a computer processor, a non-volatile memory 92 (e.g. flash memory or similar ones) and stored in the dynamic random access memory (DRAM) 94 to provide a control in accordance with the desired programming steps and processing data is shall.

ファブリック・インタフェース(I/F)回路96は、ファブリック84を介して他の制御装置68およびホスト・コンピュータ82と通信し、装置I/F回路98は、記憶装置10と通信する。 Fabric interface (I / F) circuit 96, through the fabric 84 to communicate with other control devices 68 and the host computer 82, the device I / F circuit 98 communicates with the storage device 10. I/F回路96、98および経路制御装置100は、例えばキャッシュ・メモリ102を使用することによって、記憶サブシステム68とホスト82との間でコマンドおよびデータを渡すための通信経路を形成する。 I / F circuit 96, 98 and the path control device 100, such as by using a cache memory 102, to form a communication path to pass commands and data between the storage subsystem 68 and the host 82. ここでは個別に図示されているが、経路制御装置100およびI/F回路96、98は単一体として構築することができることが理解されるであろう。 Although here is shown separately, path control device 100 and the I / F circuit 96, 98 will be understood to be able to construct a single body.

サブシステムは、決定論的予防回復(DPR)回路104を有し、DRP回路104は、データ記憶装置10におけるDRP52(図3)によってあるいはサブシステム60における耐故障性記憶配置によって訂正処理を開始するためにメモリに記憶された所定の規則に関連してデータ記憶装置10(インタフェース42からの)による予想される故障の指示に応答する。 Subsystem has a deterministic preventive recovery (DPR) circuit 104, DRP circuit 104 for starting the correction process by the fault tolerant storage arrangement in subsystem 60 or by DRP52 in the data storage device 10 (FIG. 3) in connection with the stored predetermined rule in the memory in response to an instruction of the failure to be predicted by the data storage device 10 (from the interface 42) to.

図7は、DPR回路104によって実行される方法105の処理ステップを表す流れ図である。 Figure 7 is a flow chart showing the processing steps of a method 105 executed by DPR circuit 104. シーケンスは、正常動作106の間、トリガ事象108が検知され予測される故障が指示されるまで、バックグラウンドにおいて動作する。 Sequence during the normal operation 106, until the failure trigger event 108 is predicted sensed is instructed to operate in the background. 上記のように、トリガ事象108は、データ記憶装置インタフェース42からサブシステム・インタフェース98に通信される。 As described above, the trigger event 108 is communicated from the data storage interface 42 to the subsystem interface 98. ブロック110において、使用可能な候補選択肢112および1組の所定の規則114に基づき、どの予防回復作戦が開始されるかが決定される。 In block 110, or based on the candidate choices 112 and a set of predetermined rules 114 available, which prevention recovery operations are started is determined.

使用可能な候補選択肢112は、DRP52における元の位置における回復ルーチンと共に、予測される故障に関連するデータが耐故障性記憶方法によって保護されている場合にはRAID回復をも含む。 Candidate selection 112 available, with recovery routine in the original position in DRP52, including a RAID recovery when data relating to failure to be predicted is protected by fault tolerant storage method. より具体的には、予測される故障に関連するデータが現在RAIDにおいてバックアップがとられている場合、DPR回路104は、バックアップをとられたデータをRAIDにおける新しい位置に永久にコピーするよう選択すると共に予測される故障に関する記憶容量をスペアから外す(storage capacity associated with the predicted failure spared out)か、あるいは、バックアップをとられたデータを予測される故障に関するデータの回復が試みられている間一時的にコピーすることができる。 More specifically, data related to the failure is expected when the current has been backed up in RAID, DPR circuit 104 selects to copy permanently was taken back up data to a new location in the RAID remove the storage capacity regarding the failure to be predicted from the spare with (storage capacity associated with the predicted failure spared out) or, alternatively, temporarily while the data relating to failure predicted the data backed up recovery has been tried it is possible to copy to.

規則114は、メモリに予めプログラムされた命令であり、DRP52におけるようにデータ記憶装置10制御レベルにおいて、あるいは、RAIDにおけるようにサブシステム60制御レベルにおいて、予防回復ルーチンを決定論的に開始する。 Rule 114 is a pre-programmed instructions in the memory, the data storage device 10 controls the level as in DRP52, or in the subsystem 60 controls the level as in RAID, initiates preventive recovery routine deterministically. 規則114は、分散記憶システム80の動作性能を所望のように調整(tune)するように形成することができる。 Rules 114 may be formed so as to adjust (tune) as desired performance of the distributed storage system 80. 例えば、規則114は、データ記憶装置10を引き抜いたがしかし何の問題も発見されなかったという場合の発生を最少にすることが望ましい。 For example, rule 114, it is desirable that the occurrence of the case that has been pulled out data storage device 10 but no problems have not been found to minimize. また、規則114は、スケジュールされていない保守の発生を排除しないまでも最少にすることが望ましい。 Further, rule 114, it is desirable to minimize, if not eliminate the occurrence of maintenance unscheduled.

既に述べたように、いくつかの実施例において、規則114は、予測される故障がRAIDに冗長的に記憶されているデータを含むかどうかに関連して決定する(determinative)。 As already mentioned, in some embodiments, rules 114, a fault is predicted is determined in relation to whether to include the data that is redundantly stored in RAID (determinative). もし含むのであれば、データのバックアップ・コピーが既に存在するという事実から利益を得ることができ、従って規則114は、冗長コピーが存在することを保証するためにバックアップ・データをコピーすることを選択してもよい。 If the containing if chooses can benefit from the fact that a backup copy of the data already exists, therefore rule 114, which copies the backup data to ensure that the redundant copies exist it may be. DRP52による元の位置における予防回復は次に、データ記憶装置10のアイドル時間の間にスケジュールすることができ、分散システム80処理オーバヘッド上への元の位置における回復の影響を小さくする。 Prevention recovery in the original position by DRP52 then can be scheduled during the idle time of the data storage device 10, to reduce the influence of the restoration of the original position of the distributed system 80 processing overhead on. また、他の規則114に関連する決定に関連して、予測される故障に関連するデータは望ましくは削除されてもよく、記憶容量はスペアリングされてもよい(the data associated with the predicted failure might preferably be deleted and the storage capacity spared)。 In connection with decisions related to other rules 114, data associated with the failure to be predicted desirably may be removed, storage capacity may be sparing (the data associated with the predicted failure might preferably be deleted and the storage capacity spared).

いくつかの実施例において、規則114は、予測される故障に関連するデータの定義されたクリティカリティに関連して決定する(determinative)。 In some embodiments, rules 114 are determined in relation to a defined criticality of data associated with the failure predicted (Determinative). 例えば、データが高度にオペレーション・クリティカル(operation critical)でありRAIDに冗長的に記憶されていない場合、規則114は、実現可能な限り早く元の位置における回復プロシージャを開始することの優先度を高くするよう、DPR回路104に信号を送ることが望ましい。 For example, if the data is not redundantly stored in RAID are highly Operations critical (operation critical), rule 114 has a higher priority to initiate recovery procedures in the original position as soon as feasible to such, it is desirable to send a signal to the DPR circuit 104. 他方、データを保存しなくてもよい(expendable:消費できる、犠牲にできる)場合、あるいはRAIDにバックアップを取られている場合、規則114は、それを回復するにおいて何の処理も特定しない、あるいは優先度の低い処理を特定してもよい。 On the other hand, it is not necessary to store data (expendable: can consume, it sacrificed) case, or if it is backed up to a RAID, rule 114 does not specify any processing in recovering it, or low priority process may identify the.

いくつかの実施例において、規則114は、予測される故障の範囲に関連して決定する。 In some embodiments, rules 114 are determined in relation to a range of faults to be expected. 例えば、予測される故障が局所的な事象を含む場合、規則114は、元の位置における回復を命令して単に予測される故障に関連するデータを予備のセクタにコピーすることが望ましいかもしれない。 For example, if the failure is predicted including local events, rules 114, it may be desirable to copy the data relating to failure simply be predicted by the instruction to recover the original position to a spare sector . しかし予測される故障がより広範囲にわたる場合は、規則114は、予測される故障に関連するデータを他の記憶空間にコピーすることによって、データ記憶ディスク16あるいはその一部をスペアから外す処理を行う(to spare out the data storage disc 16 or a portion thereof)のが望ましいかもしれない。 However, if the predicted failure more extensive, the rules 114, by copying data relating to a failure to be predicted in the other storage space, performs a process of removing the data storage disk 16 or a part thereof from the spare (to spare out the data storage disc 16 or a portion thereof) of it may be desirable.

いくつかの実施例において、規則114は、予測される故障を指示したデータ記憶装置10に関する経験的性能情報に関連して決定する(determinative)。 In some embodiments, rules 114 are determined in relation to empirical performance information about the data storage device 10 instructs the failure to be predicted (Determinative). 例えば、規則114は、元の位置における回復あるいはRAID回復を開始するかどうかを決定するにおいて、特定の故障指示の発生を、平均故障間隔(MTBF)データあるいは観測故障モード(observe failure mode)のパレト(Pareto)分散のような、品質保証データと比較してもよい。 For example, rule 114, in determining whether to initiate a recovery or RAID recovery in the original position, the occurrence of a particular fault indication, mean time between failures (MTBF) data or observation failure modes (observe failure mode) Pareto (Pareto) dispersion, such as, may be compared with the quality assurance data.

使用される規則114の特定の順番および範囲は、分散記憶システム80の望ましい最適化、使用される任意のRAIDの範囲、および使用されるデータ記憶装置10の型および品質、のような多くの要因によって変化する。 Particular order and scope of the rules 114 used is desirable optimization of distributed storage system 80, the type and quality of the data storage device 10 is any RAID range used, and use, a number of factors, such as It varies with. 全ての可能性のある規則114の定義および組合せを列挙することは不可能であるが、この分野の技術者が本発明の実施例の意味および範囲を理解するためには必要ないであろう。 Although it is impossible to enumerate the definition and combination of all possible rules 114, skill in the art would not be necessary in order to understand the meaning and scope of the embodiments of the present invention.

予防回復作戦がブロック110において選択されると、制御はブロック116にわたり、ここで選択された作戦が実行される。 When prevention recovery operations are selected at block 110, control passes to block 116 where the selected the operations are executed. 判断ブロック118において、選択された予防回復作戦が首尾よく予測された故障を回復したかどうかが判定される。 In decision block 118, whether to recover the failure preventive recovery strategy selected is successful prediction is determined. 回復していない場合、制御はブロック110に戻り、ここで作戦は繰り返されるかあるいは変更されてもよい。 If not recovered, control returns to block 110, where operations may be or changes are repeated. 回復した場合、制御はブロック106における正常動作に戻る。 If recovered, control returns to normal operation at block 106.

要約すると、データ記憶サブシステム(60のような)が分散記憶システム(80のような)のために提供される。 In summary, the data storage subsystem (60 like) is provided for the distributed storage system (80 like). サブシステムは、複数の予防故障分析データ記憶装置(10のような)を有し、データ記憶装置におけるデータ回復プロシージャ(52のような)によってあるいはサブシステムにおける耐故障性記憶配置によって予防回復を決定論的に開始するために、メモリ(94のような)に記憶された所定の規則(114のような)に関連して、データ記憶装置による予測される故障の指示に応答する回路(104のような)を含む。 Subsystem has a plurality of preventive fault analysis data storage device (10 like), deterministic preventive recovery by fault tolerant storage locations in or subsystem by (such as 52) data recovery procedure in the data storage device to initiate manner, in relation to predetermined rules stored in (such as 94) memory (114 like), as the circuit (104 in response to an instruction of the failure to be predicted by the data storage device including the Do).

複数のデータ記憶装置を有するデータ記憶サブシステムにおける記憶データを保護するための方法(105のような)が提供される。 Method for protecting stored data in the data storage subsystem having a plurality of data storage devices (105 like) is provided. 本方法は、データ記憶装置(108のような)の1つによるデータ転送障害を予測することと、データ記憶装置におけるデータ回復プロシージャによってあるいはサブシステム(110のような)における耐故障性記憶配置によって、予防回復ルーチンを決定論的に開始するために、予測される故障を所定の規則に関連して分析すること(analyzing the predicted failure in relation to predetermined rules)、を含む。 The method includes predicting a data transfer failure due to one of the data storage device (108, such as a), the fault tolerant storage locations in or subsystem by the data recovery procedure (110 like) in the data storage device, to initiate preventive recovery routine deterministically, it is analyzed in relation to failure to be predicted in a predetermined rule (analyzing the predicted failure in relation to predetermined rules), including.

一般にデータ記憶サブシステムは、記憶サブシステムを定義する複数の予防故障分析データ記憶装置と、サブシステムのスケジュールされていない保守を決定論的に最少にする、メモリに記憶された所定の規則に従って回復するための手段を含んで提供される。 In general the data storage subsystem, recovery and more prophylactic failure analysis data storage device defining a storage subsystem, to minimize maintain deterministic unscheduled subsystem, according to a predetermined rule stored in the memory It is provided including a means for. 回復するための手段は、予測される故障を指示する、複数のデータ記憶装置におけるデータ回復プロシージャによってあるいはサブシステムにおける耐故障性データ記憶配置によって、回復を選択的に開始することによって特徴付けることができる。 Means for recovering indicates the failure to be predicted, by fault tolerant data storage arrangement in or subsystems by a data recovery procedure at a plurality of data storage devices can be characterized by initiating recovery selectively. 回復するための手段は、予測される故障がサブシステムに冗長的に記憶されたデータを含むかどうかを判定することによって特徴付けることができる。 Means for recovering can be characterized by determining whether to include data a fault is redundantly stored in the subsystem being predicted. 回復するための手段は、予測される故障に関連するデータの割り当てられたクリティカリティを決定することによって特徴付けることができる。 Means for recovering can be characterized by determining the criticality assigned the data related to the failure is predicted. 回復するための手段は、予測される故障の観測範囲(observed extent)を決定することによって特徴付けることができる。 Means for recovering can be characterized by determining the expected observation area of ​​the fault (observed extent). 回復するための手段は、故障を予測しているデータ記憶装置に関する経験的性能情報を判定することによって特徴付けることができる。 Means for recovering can be characterized by determining the empirical performance information about the data storage device that predict failure.

先に試みられた解決策と比較して、本発明の実施例によって著しい改良を実現することができる。 Compared to previously attempted solutions, it can be realized Examples significant improvements of the present invention. 第1に、スケジュールされていない保守事象の発生を、予測される故障の早期の検知によって、そして予測される故障に関連するデータをデータ記憶空間の他の部分に早期にコピーすることによって、かなり排除することができる。 First, by copying the generation of maintenance events that are not scheduled, the early detection of faults to be expected, and the data associated with the predicted fault early to other parts of the data storage space, considerable it can be eliminated. 第2に、データ記憶装置がそうでない場合アイドル状態である時にのみ元の位置における回復技術を開始することによって、処理オーバヘッドを減らすことができる。 Second, by starting the recovery techniques in the original position only when the data storage device is when idle otherwise, it is possible to reduce the processing overhead. これにより、分散記憶システムの動作効率に悪影響を与えることなく、引き抜かれたドライブの数が少なくなる。 Thus, without adversely affecting the operating efficiency of the distributed storage system, the number of withdrawn drive is reduced. 第3に、オペレーション・クリティカルなデータの冗長コピーを常に維持しようとする回復方法によって、データの信頼性が改良される。 Third, the recovery process to be maintained at all times redundant copies of operational critical data, reliability of data is improved.

本発明の多様な実施例の多数の特徴および利点が、本発明の多様な実施例の構造および機能の詳細と共に上記の記述において説明されてきたが、この詳細な説明は単に例示であり、特に本発明の原則内における構造および部分の配置に関して、付随する請求項が表される用語の広範な一般的な意味によって表される完全な範囲において、詳細における変更を行うことができることを理解されたい。 Numerous characteristics and advantages of various embodiments of the invention have been described in detail together with the above descriptions of the structure and function of various embodiments of the present invention, this detailed description is merely exemplary, in particular with regard to the arrangement of the structure and the portion in the principles of the present invention, in a full range represented by the broad general meaning of the terms accompanying claims is expressed, it is to be understood that changes may be made in details . 例えば、予防回復を決定性的に開始するために使用される特定の規則は、本発明の精神および範囲から逸脱することなく、特定の構成および環境により異なってもよい。 For example, the specific rules that are used to initiate preventive recovery deterministic manner, without departing from the spirit and scope of the present invention may vary depending on the particular configuration and environment.

本発明の実施例において使用されるデータ記憶装置の平面図である。 It is a plan view of a data storage device used in the embodiment of the present invention. 図1のデータ記憶装置の機能ブロック図である。 It is a functional block diagram of a data storage device of FIG. 図2のデータ記憶装置のデータ回復プログラム(Data Recovery Program)の機能ブロック図である。 It is a functional block diagram of a data recovery program data storage device of FIG. 2 (Data Recovery Program). 複数の図1のデータ記憶装置から構成される分散記憶システムのためのデータ記憶サブシステムの分解等角投影図である。 It is an exploded isometric view of a data storage subsystem for a distributed storage system including a plurality of data storage devices of FIG. 図4のデータ記憶サブシステムを使用する分散記憶システムの機能ブロック図である。 It is a functional block diagram of a distributed storage system that uses data storage subsystem of FIG. 図5のデータ記憶サブシステムの制御装置の機能ブロック図である。 It is a functional block diagram of the data control device of the storage subsystem of FIG. 本発明の実施例による、予測される故障からの決定性予防回復のための方法のステップを表す流れ図である。 According to an embodiment of the present invention, it is a flowchart illustrating the steps of a method for the determination of the prevention recovery from failure is predicted.

符号の説明 DESCRIPTION OF SYMBOLS

10 データ記憶装置 12 ベース 14 カバー 16 ディスク 18 モータ 20 ヘッド 22 サスペンション 24 アーム 26 アクチュエータ 28 ボイス・コイル・モータ 30 ピボット・シャフト 32 読取り/書込みチャネル 34 サーボ制御回路 36 スピンドル制御回路 38 制御バス 40 システム・プロセッサ 41 バス 42 インタフェース回路 43 バス 42 信号経路 44 信号経路 46 信号経路 48 信号経路 50 メモリ 52 DRP 10 data storage device 12 base 14 covering 16 disk 18 motor 20 the head 22 suspension 24 arm 26 the actuator 28 the voice coil motor 30 pivot shaft 32 read / write channel 34 servo control circuit 36 ​​spindle control circuit 38 controls the bus 40 the system processor 41 bus 42 interface circuit 43 the bus 42 signal path 44 signal path 46 signal path 48 signal path 50 memories 52 DRP
54 信号入力 56 信号入力 58 信号入力 60 データ記憶サブシステム 62 シェルフ 64 後部面 66 多重ディスク・アレイ 68 制御装置 70 バッテリ・パック・バックアップ 72 電源機構 74 インタフェース 80 分散記憶システム 82 ホスト・コンピュータ 84 ファブリック 90 主プロセッサ 92 フラッシュ・メモリ 94 DRAM 54 signal input 56 signal input 58 signal input 60 data storage subsystem 62 shelf 64 rear surface 66 multiple disk array 68 controller 70 battery pack Backup 72 Power supply 74 Interface 80 distributed storage system 82 the host computer 84 Fabric 90 main processor 92 flash memory 94 DRAM
96 ファブリック・インタフェース回路 98 装置インタフェース回路 100 経路制御装置 102 キャッシュ・メモリ 104 決定論的予防回復回路 112 選択肢 114 規則 96 Fabric Interface circuit 98 device interface circuit 100 routing control unit 102 cache memory 104 deterministic preventive recovery circuit 112 choices 114 Rules

Claims (20)

  1. 分散記憶システムにおけるデータ記憶サブシステムであって、 A data storage subsystem in a distributed storage system,
    複数の予防故障分析データ記憶装置を有し、 A plurality of preventing failure analysis data storage device,
    データ記憶装置による予測される故障指示に応答し、メモリに記憶された所定の規則に関連して上記サブシステムにおける耐故障性記憶配置と協調して上記データ記憶装置におけるデータ回復プロシージャによって予防的回復を決定論的に開始する回路を含む、 In response to the expected fault indication by the data storage device, in association with predetermined rules stored in the memory in cooperation with fault tolerant storage arrangement in the subsystem prophylactic recovered by data recovery procedure in the data storage device includes circuitry for starting deterministically,
    上記データ記憶サブシステム。 The data storage subsystem.
  2. 請求項1に記載のデータ記憶サブシステムにおいて、各データ記憶装置は、自己監視分析および報告技術を含むことを特徴とする、上記データ記憶サブシステム。 In the data storage subsystem of claim 1, each of the data storage device, characterized in that it comprises a self-Monitoring Analysis and Reporting Technology, said data storage subsystem.
  3. 請求項1に記載のデータ記憶サブシステムにおいて、上記サブシステムは、独立ドライブの冗長アレイを使用することを特徴とする、上記データ記憶サブシステム。 In the data storage subsystem of claim 1, said sub-system is characterized by the use of redundant array of independent drives, the data storage subsystem.
  4. 請求項3に記載のデータ記憶サブシステムにおいて、上記規則は、上記予測される故障が上記サブシステムに冗長的に記憶されたデータを含むかどうかに関連して決定することを特徴とする、上記データ記憶サブシステム。 In the data storage subsystem of claim 3, said rules, characterized in that the fault is the prediction is determined in relation to whether to include the data redundantly stored in the subsystem, the data storage subsystem.
  5. 請求項3に記載のデータ記憶サブシステムにおいて、上記規則は、上記予測される故障に関連する上記データの定義されたクリティカリティに関連して決定することを特徴とする、上記データ記憶サブシステム。 In the data storage subsystem of claim 3, said rules, and determines in conjunction with the defined criticality of the data related to the fault to be the prediction, the data storage subsystem.
  6. 請求項3に記載のデータ記憶サブシステムにおいて、上記規則は、上記予測される故障の範囲に関連して決定することを特徴とする、上記データ記憶サブシステム。 In the data storage subsystem of claim 3, said rules, and determines in conjunction with a range of fault to be the prediction, the data storage subsystem.
  7. 請求項3に記載のデータ記憶サブシステムにおいて、上記規則は、上記予測される故障を指示する上記データ記憶装置に関する経験的性能情報に関連して決定することを特徴とする、上記データ記憶サブシステム。 In the data storage subsystem of claim 3, said rules, and determines in conjunction with the empirical performance information on the data storage device for indicating the fault to be the prediction, the data storage subsystem .
  8. 複数のデータ記憶装置を有するデータ記憶サブシステムにおける記憶データを保護するための方法であって、 A method for protecting stored data in the data storage subsystem having a plurality of data storage devices,
    上記データ記憶装置の1つによりデータ転送障害を予測することと、 And predicting a data transfer failure by one of the data storage device,
    上記サブシステムにおける耐故障性記憶配置と協調して、上記データ記憶装置におけるデータ回復プロシージャによって予防回復ルーチンを決定性的に開始するために、あらかじめ決定された規則に関連して上記予測される故障を分析すること、 In cooperation with the fault tolerant storage arrangement in the subsystem, in order to initiate deterministic manner preventive recovery routine by the data recovery procedure in the data storage device, it analyzes the fault to be the prediction in connection with the predetermined rule It is,
    を含む、上記方法。 Including, the method described above.
  9. 請求項8に記載の方法において、上記予測するステップは、自己監視分析および報告技術を含む上記データ記憶装置によって特徴付けられる、上記方法。 The method of claim 8, said step of predicting is characterized by the data storage device including a self-Monitoring Analysis and Reporting Technology, the method described above.
  10. 請求項8に記載の方法において、上記分析するステップは、メモリから上記予め選択された規則を呼び出すことを含むことを特徴とする、上記方法。 The method of claim 8, said step of analyzing is characterized in that it comprises a call to the pre-selected rules from the memory, the method described above.
  11. 請求項8に記載の方法において、上記分析するステップは、上記予測される故障が上記サブシステムに冗長的に記憶されたデータを含むかどうかに関する上記規則によって特徴付けられる、上記方法。 The method of claim 8, said step of analysis is fault to be the prediction is characterized by the rule as to whether including data redundantly stored in the subsystem, the method described above.
  12. 請求項8に記載の方法において、上記分析するステップは、上記予測される故障に関連するデータの割り当てられたクリティカリティに関する上記規則によって特徴付けられる、上記方法。 The method of claim 8, the step is characterized by the rules for criticality assigned the data related to the fault to be the prediction of the analysis, the method described above.
  13. 請求項8に記載の方法において、上記分析するステップは、上記予測される故障の観測範囲に関する上記規則によって特徴付けられる、上記方法。 The method of claim 8, said step of analyzing is characterized by the rules for the observation area of ​​the fault to be the prediction, the method described above.
  14. 請求項8に記載の方法において、上記分析するステップは、上記データ記憶装置に関する経験的性能情報に関する上記規則によって特徴付けられる、上記方法。 The method of claim 8, said step of analyzing is characterized by the rules for empirical performance information about the data storage device, the method described above.
  15. データ記憶サブシステムであって、 A data storage subsystem,
    記憶サブシステムを定義する複数の予防故障分析データ記憶装置と、 A plurality of preventing malfunction analytical data storage device defining a storage subsystem,
    上記サブシステムのスケジュールされていない保守を決定論的に最少にする、メモリに記憶された所定の規則に従って回復するための手段、 Means for the a subsystem scheduled to minimize the have not maintained by deterministic, restored in accordance with a predetermined rule stored in the memory,
    を含む、上記データ記憶サブシステム。 Including, the data storage subsystem.
  16. 請求項15に記載のシステムにおいて、上記回復するための手段は、前記複数のデータ記憶装置のうちの予測される故障を指示しているデータ記憶装置におけるデータ回復プロシージャによってあるいは上記サブシステムにおける耐故障性データ記憶配置によって回復を選択的に開始することで特徴付けられる、上記システム。 The system of claim 15, said means for recovering the fault tolerance of or the subsystem by the data recovery procedure in the data storage device instructs the expected failure of the plurality of data storage devices characterized by selectively starting recovery by data storage arrangement, the system.
  17. 請求項15に記載のシステムにおいて、上記回復するための手段は、予測される故障が上記サブシステムに冗長的に記憶されたデータを含むかどうかを決定することによって特徴付けられる、上記システム。 The system of claim 15, the means for the recovery, the failure to be predicted is characterized by determining whether to include the data redundantly stored in the subsystems, the system.
  18. 請求項15に記載のシステムにおいて、上記回復するための手段は、予測される故障に関連するデータの割り当てられたクリティカリティを決定することによって特徴付けられる、上記システム。 The system of claim 15, the means for the recovery, characterized by determining the criticality assigned the data related to the failure is predicted, the system.
  19. 請求項15に記載のシステムにおいて、上記回復するための手段は、予測される故障の観測範囲を決定することによって特徴付けられる、上記システム。 The system of claim 15, means for the recovery is characterized by determining an observation range of faults to be expected, the system.
  20. 請求項15に記載のシステムにおいて、上記回復するための手段は、故障を予測しているデータ記憶装置に関する経験的性能情報を決定することによって特徴付けられる、上記システム。 The system of claim 15, means for the recovery is characterized by determining the empirical performance information about the data storage device that predict failure, the system.
JP2005138588A 2004-03-24 2005-05-11 Deterministic preventive recovery from predicted failure in distributed storage system Pending JP2006202254A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11040410 US7526684B2 (en) 2004-03-24 2005-01-21 Deterministic preventive recovery from a predicted failure in a distributed storage system

Publications (1)

Publication Number Publication Date
JP2006202254A true true JP2006202254A (en) 2006-08-03

Family

ID=36960172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005138588A Pending JP2006202254A (en) 2004-03-24 2005-05-11 Deterministic preventive recovery from predicted failure in distributed storage system

Country Status (1)

Country Link
JP (1) JP2006202254A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183067B2 (en) 2012-11-19 2015-11-10 Kabushiki Kaisha Toshiba Data preserving apparatus, method and system therefor

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314674A (en) * 1991-04-01 1993-11-26 Hitachi Ltd System for recovering fault in storage device and method therefor
JPH0651915A (en) * 1992-08-03 1994-02-25 Hitachi Ltd Disk device and disk array control system
JPH07182250A (en) * 1993-12-22 1995-07-21 Hitachi Ltd Automatic substituting processing system for magnetic disk

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314674A (en) * 1991-04-01 1993-11-26 Hitachi Ltd System for recovering fault in storage device and method therefor
JPH0651915A (en) * 1992-08-03 1994-02-25 Hitachi Ltd Disk device and disk array control system
JPH07182250A (en) * 1993-12-22 1995-07-21 Hitachi Ltd Automatic substituting processing system for magnetic disk

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183067B2 (en) 2012-11-19 2015-11-10 Kabushiki Kaisha Toshiba Data preserving apparatus, method and system therefor

Similar Documents

Publication Publication Date Title
US5500940A (en) Method for evaluating failure in an electronic data storage system and preemptive notification thereof, and system with component failure evaluation
US20100122148A1 (en) Apparatus, system, and method for predicting failures in solid-state storage
US6604171B1 (en) Managing a cache memory
US6397347B1 (en) Disk array apparatus capable of dealing with an abnormality occurring in one of disk units without delaying operation of the apparatus
US7627786B2 (en) Tracking error events relating to data storage drives and/or media of automated data storage library subsystems
US6401214B1 (en) Preventive recovery action in hard disk drives
US6467023B1 (en) Method for logical unit creation with immediate availability in a raid storage environment
US20020162057A1 (en) Data integrity monitoring storage system
US7325179B2 (en) Storage system comprising logical circuit configured in accordance with information in memory on PLD
US5566316A (en) Method and apparatus for hierarchical management of data storage elements in an array storage device
US6223252B1 (en) Hot spare light weight mirror for raid system
US5941993A (en) Data reconstruction method and system wherein timing of data reconstruction is controlled in accordance with conditions when a failure occurs
US7281160B2 (en) Rapid regeneration of failed disk sector in a distributed database system
US5822782A (en) Methods and structure to maintain raid configuration information on disks of the array
US5790773A (en) Method and apparatus for generating snapshot copies for data backup in a raid subsystem
Elerath et al. Enhanced reliability modeling of raid storage systems
US5720025A (en) Frequently-redundant array of independent disks
US6363457B1 (en) Method and system for non-disruptive addition and deletion of logical devices
US20020162048A1 (en) Storage-device activation control for a high-availability storage system
US20130047029A1 (en) Storage system, storage control apparatus, and storage control method
US6883112B2 (en) Storage device, backup and fault tolerant redundant method and computer program code of plurality storage devices
US20050229033A1 (en) Disk array controller and information processing apparatus
US6442711B1 (en) System and method for avoiding storage failures in a storage array system
US20100262772A1 (en) Transfer control of a storage volume between storage controllers in a cluster
US7434090B2 (en) Method and apparatus for just in time RAID spare drive pool management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080512

RD03 Notification of appointment of power of attorney

Effective date: 20100526

Free format text: JAPANESE INTERMEDIATE CODE: A7423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110329