JP5160085B2 - ストレージ・デバイスの障害を予測するための装置、システム、および方法 - Google Patents

ストレージ・デバイスの障害を予測するための装置、システム、および方法 Download PDF

Info

Publication number
JP5160085B2
JP5160085B2 JP2006351329A JP2006351329A JP5160085B2 JP 5160085 B2 JP5160085 B2 JP 5160085B2 JP 2006351329 A JP2006351329 A JP 2006351329A JP 2006351329 A JP2006351329 A JP 2006351329A JP 5160085 B2 JP5160085 B2 JP 5160085B2
Authority
JP
Japan
Prior art keywords
storage device
threshold
storage
module
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006351329A
Other languages
English (en)
Other versions
JP2007200301A (ja
Inventor
ロバート・アキラ・クボ
デヴィッド・フランク・マンネンバック
カール・アレン・ニールセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007200301A publication Critical patent/JP2007200301A/ja
Application granted granted Critical
Publication of JP5160085B2 publication Critical patent/JP5160085B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Description

本発明は、ストレージ・デバイスの障害を予測することに関し、とりわけ、技術記述子(technology descriptor)に応答して障害を予測するための予測障害(predictive failure)しきい値の設定に関する。
データ・ストレージ・システムは、通常、ハード・ディスク・ドライブ、光ストレージ・ドライブ、磁気テープ・ドライブ、マイクロメカニカル・デバイス、半導体デバイスなどの、複数のストレージ・デバイスを備える。データ・ストレージ・システムは、1つまたは複数のホストにデータ・ストレージを提供する。各ホストは、ネットワーク、内部バスなどの通信媒体を介して、データ・ストレージ・システムにデータを格納するか、またはデータ・ストレージ・システムからデータを取り出すことができる。データ・ストレージ・システムは、1つまたは複数のストレージ・デバイスにデータを格納するか、あるいは1つまたは複数のストレージ・デバイスからデータを取り出すことができる。ストレージ・デバイスは、ホストに十分なデータ・ストレージ容量を提供するためにデータ・ストレージ・システムに追加するか、またはデータ・ストレージ・システムから取り外すことができる。
データ・ストレージ・システムは、データを重複して格納するように組み上げることができる。たとえばデータ・ストレージ・システムは、第1のストレージ・デバイスからのデータのコピーを第2のストレージ・デバイス上で保存しておくか、または第1のストレージ・デバイスから第2のストレージ・デバイス上へとデータをミラーリングすることができる。ミラーリングされたデータには、第1のストレージ・デバイスに障害が発生した場合、第2のストレージ・デバイスからアクセス可能である。
データ・ストレージ・システムは、当業者に良く知られたような新磁気ディスク制御機構(「RAID」)システムとして編成することもできる。RAIDデータ・ストレージ・システムでは、データは複数のストレージ・デバイスにまたがって重複する形で縞模様の構造でもって(in stripes)格納することができる。複数のストレージ・デバイスのうちの1つに障害が発生した場合、データ・ストレージ・システムは他のストレージ・デバイスからデータを回復させることができる。
データ・ストレージ・システムは、データを保護するため、障害発生前の段階で対策を講じられるようにストレージ・デバイスに障害が発生する可能性があるかどうかを判定するように試みることができる。たとえば、データ・ストレージ・システムは、各ストレージ・デバイスを定期的にテストすることができる。ストレージ・デバイスが障害基準を満たしている場合、データ・ストレージ・システムはストレージ・デバイスからデータをマイグレーションし、ストレージ・デバイスを交換するかまたはさらにテストを行うべきである旨を管理者に通知することができる。
データ・ストレージ・システムは、通常、高信頼性高コスト(「HRHC」)ストレージ・デバイスを採用してきたが、近年、データ・ストレージ・システムは高容量低コスト・データ(「HCLC」)ストレージ・デバイスも採用している。残念ながら、HCLCストレージ・デバイスは、HRHCストレージ・デバイスからの異なる基準に照らすと、障害発生とされる可能性がある。しかしながら、HCLCストレージ・デバイスがHCLCストレージ・デバイスの障害基準を満たしていなくとも、HCLCストレージ・デバイスがHRHC障害基準を満たしていれば、データ・ストレージ・システムは、依然としてHCLCストレージ・デバイスの潜在的な障害を認識することができる。そうすることで結果として、データ・ストレージ・システムはHCLCストレージ・デバイスからデータをマイグレーションし、HCLCストレージ・デバイスをオフラインにすることができる。残念ながら、HCLCストレージ・デバイスからのデータのマイグレーションは、データ・ストレージ・システムの性能に影響を与える可能性があり、保守または交換のためにHCLCストレージ・デバイスをオフラインにすることは、保守コストを増加させることになる。
加えてHCLCストレージ・デバイスは、HCLCストレージ・デバイスへのストレスを減らすようにワークロードを管理することができる。たとえば、HCLCストレージ・デバイスへの過度な負荷を防ぐために、HCLCストレージ・デバイスのデューティ・サイクルを減らすことができる。デューティ・サイクルは、当業者に周知の、ストレージ・デバイスが操作を実行する時間のパーセンテージと理解してよい。残念ながら、ワークロードが管理されたHCLCストレージ・デバイスは、障害基準を満たす可能性がより高くなる場合がある。データ・ストレージ・システムが、ワークロードが管理されたHCLCストレージ・デバイス内の潜在的な障害を認識した場合、データ・ストレージ・システムはワークロードが管理されたHCLCストレージ・デバイスからデータをマイグレーションして、HCLCストレージ・デバイスをオフラインにすることとなり、データ・ストレージ・システムの性能を低下させ、保守コストを増加させる可能性がある。
前述の考察からも明らかなように、ストレージ・デバイスの特性に基づいてストレージ・デバイスの障害を予測する装置、システム、および方法が求められている。こうした装置、システム、および方法は、各ストレージ・デバイスの技術に基づいて障害を予測し、データ・ストレージ・システムから誤って除去されるストレージ・デバイスの数を減らすことになるという利点を有する。
本発明は、当分野の現状に対処すべく、特に、ストレージ・デバイスの障害を予測するための現在使用可能な方法では未だ完全に解決されていない当分野の問題および必要性に対処すべく、開発されてきた。すなわち本発明は、当分野における前述の欠点の多くまたはすべてを克服する、ストレージ・デバイスの障害を予測するための装置、システム、および方法を提供するために開発されてきたものである。
ストレージ・デバイスの障害を予測するための装置には、技術記述子をストレージ・デバイスに関連付けるステップと、ストレージ・デバイスに関する予測障害しきい値を設定するステップと、予測障害しきい値を超えるストレージ・デバイス・エラーを検出するステップとを、機能的に実行するように構成された、複数のモジュールが提供される。記載された諸実施形態におけるこれらのモジュールには、技術記述子モジュール、障害しきい値モジュール、および性能検出モジュールが含まれる。
技術記述子モジュールは、技術記述子をストレージ・デバイスに関連付ける。技術記述子は、ストレージ・デバイスに関する1つまたは複数の公称動作特性(nominal operating characteristic)を指定することができる。一実施形態では、技術記述子は、HCLCストレージ・デバイス、HRHCストレージ・デバイスなどのストレージ・デバイスのクラスを記述する。
障害しきい値モジュールは、技術記述子に応答してストレージ・デバイスに関する予測障害しきい値を設定する。一実施形態では、予測障害しきい値は指定された時間間隔内に発生するエラーの指定された数であり、ここで、エラーとは指定された応答時間内に格納動作を完了できないことをいう。
性能検出モジュールは、予測障害しきい値を超えるストレージ・デバイス・エラーをストレージ・デバイス予測障害として検出する。ストレージ・デバイス・エラーが生じている場合は、入出力動作に関する最大待ち時間を越えている可能性がある。したがって装置は、ストレージ・デバイスの特性に応じてストレージ・デバイス障害を予測し、データ・ストレージ・システムの性能の低下と、正常に機能しているストレージ・デバイスをオフラインにすることから生じる保守コストとを回避する。
ストレージ・デバイスの障害を予測するための本発明のシステムも提示される。このシステムは、データ・ストレージ・システム内で具体化することができる。特に、一実施形態におけるシステムには、データ・ストレージ・デバイスおよびストレージ・コントローラが含まれる。ストレージ・コントローラは、技術記述子モジュール、障害しきい値モジュール、ワークロード管理検出モジュール、しきい値修正モジュール、および性能検出モジュールを備える。加えて、ストレージ・コントローラは修復モジュールを含むこともできる。
ストレージ・デバイスはデータを格納する。ストレージ・デバイスは、HRHCストレージ・デバイスおよびHCLCストレージ・デバイスを含む複数のストレージ・デバイスの階級から選択することができる。ストレージ・デバイスのクラスは、公称動作特性の範囲を示すものである。ストレージ・コントローラはストレージ・デバイスを管理する。加えて、ストレージ・コントローラは、ファイバ・チャネル接続、スモール・コンピュータ・システム・インターフェース(「SCSI」)などの通信媒体を介して、ストレージ・デバイスへデータを書き込むことおよびストレージ・デバイスからデータを読み取ることができる。
技術記述子モジュールは、技術記述子をストレージ・デバイスに関連付けるものであり、技術記述子はストレージ・デバイスに関する公称動作特性を指定する。障害しきい値モジュールは、技術記述子に応答してストレージ・デバイスに関する予測障害しきい値を設定する。ワークロード管理検出モジュールは、ストレージ・デバイスのワークロード管理を検出する。
しきい値修正モジュールは、ストレージ・デバイスのワークロード管理の検出に応答して予測障害しきい値を修正する。性能検出モジュールは、修正された予測障害しきい値を超えるストレージ・デバイス・エラーをストレージ・デバイス予測障害として検出する。一実施形態では、修復モジュールは、ストレージ・デバイス予測障害の検出に応答して、ストレージ・デバイスの予測障害を修復する。システムは、ストレージ・デバイスの技術記述子に基づいて、予測障害しきい値を使用してストレージ・デバイスの障害を予測する。
ストレージ・デバイス障害を予測するための本発明の方法も提示される。開示された諸実施形態における方法は、記載された装置およびシステムの操作に関して前述の機能を実行するためのステップを含む。一実施形態では、この方法は、技術記述子をストレージ・デバイスに関連付けること、ストレージ・デバイスに関する予測障害しきい値を設定すること、ワークロード管理を検出すること、および予測障害しきい値を超えるストレージ・デバイス・エラーを検出することが含まれる。この方法は、予測障害しきい値を修正することも含むことができる。
技術記述子モジュールは、技術記述子をストレージ・デバイスに関連付ける。障害しきい値モジュールは、技術記述子に応答してストレージ・デバイスに関する予測障害しきい値を設定する。ワークロード管理検出モジュールは、ストレージ・デバイスのワークロード管理を検出することができる。一実施形態では、しきい値修正モジュールは、ストレージ・デバイスのワークロード管理の検出に応答して予測障害しきい値を修正する。
性能検出モジュールは、予測障害しきい値を越えるストレージ・デバイス・エラーをストレージ・デバイス予測障害として検出する。一実施形態では、修復モジュールは、ストレージ・デバイス予測障害の検出に応答してストレージ・デバイス予測障害を修復する。この方法は、ストレージ・デバイスに関する技術記述子に応答して予測障害しきい値を設定し、予測障害しきい値を使用してストレージ・デバイスの障害を予測する。
本明細書全体を通じて説明している機能、利点、その他への言及は、本発明によって実現可能な機能および利点のすべてが特定の実施形態にあるべきことを示唆するものではない。むしろこの機能および利点に言及する用語は、ある実施形態に関して記載された特定の機能、利点、または特性が、本発明のうちの少なくとも1つの実施形態に含まれるものであるにすぎないことを理解されよう。したがって、本明細書全体を通じて説明している機能および利点その他は、同じ実施形態を言い表すものであるかもしれないが、必ずしもそれに限定されるわけではない。
さらに、記載された本発明の機能、利点、および特性は、1つまたは複数の実施形態において任意の好適な様式で組み合わせることができる。当業者であれば、本発明が、特定の実施形態の1つまたは複数の特定の機能または利点なしで実施可能であることを理解されよう。さらには、他の実施形態では、ここで記載されていない追加の機能および利点が含まれうる。
本発明の実施形態は、ストレージ・デバイスに関連付けられた技術記述子に応答して予測障害しきい値を設定し、この予測障害しきい値を使用してストレージ・デバイス障害を予測する。加えて本発明の実施形態は、ストレージ・デバイスのワークロード管理の検出に応答して予測障害しきい値を修正することができる。本発明のこれらの機能および利点は、以下の説明および添付の特許請求の範囲からより完全に明らかになるか、または以下に示されるような本発明の実施によって知ることが可能である。
本発明の利点を容易に理解するために、添付の図面に示された具体的な諸実施形態を参照することにより、前述の通り簡単に説明された本発明がより詳細に説明されよう。これらの図面が本発明の典型的な諸実施形態のみを示すものであり、その範囲を制限するものとみなされるべきではなく、添付の図面を使用して追加の特性および細部を用いて本発明について記述および説明する。
本明細書に記載された機能ユニットの多くは、とりわけそれらの実施の際に各々が独自に設計しうることを示すべく、モジュールとしてラベル付けされている。たとえばあるモジュールを、カスタムVLSI回路またはゲート・アレイ、論理チップなどの既製の半導体、トランジスタ、あるいは他の離散構成要素を備えるハードウェア回路として実施することができる。別のモジュールは、フィールド・プログラム可能ゲート・アレイ、プログラム可能アレイ論理、プログラム可能論理デバイスなどの、プログラム可能ハードウェア・デバイスで実施することもできる。
モジュールは、様々なタイプのプロセッサによって実行するためのソフトウェア内で実施することもできる。特定の実行可能コードのモジュールは、たとえばオブジェクト、プロシージャ、または機能として構成された、1つまたは複数の物理または論理ブロックのコンピュータ命令を備えることができる。特定のモジュールの複数の実行可能コード(executables)は、物理的に一緒に配置する必要はなく、異なる場所に格納された異種の命令として構成することができ、論理的に結合された場合にもモジュールを構成し、そのモジュールが目標とするものを達成することができる。
実際のところ、実行可能コードのモジュールは単一の命令または多数の命令とすることが可能であり、いくつかの異なるコード・セグメントにわたって、異なるプログラム間で、およびいくつかのメモリ・デバイスにまたがって、分散することも可能である。同様に、モジュール内の演算データ(operational data)を識別および例示することが可能であり、任意の好適な形で具体化し、任意の好適なタイプのデータ構造で編成することが可能である。演算データは、単一のデータ・セットとして集めるか、または異なるストレージ・デバイス間のような異なる場所にわたって分散させることが可能であり、少なくとも部分的に、システムまたはネットワーク上の単なる電子信号として存在することも可能である。
本明細書全体を通じて「一実施形態」、「実施形態」、または同様の言葉に言及することは、その実施形態に関連して説明された特定の機能、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通じて「一実施形態において」、「実施形態において」、または同様の言葉の言い回しが出現した場合、すべて同じ実施形態について言及している可能性があるが、そうでない場合もある。
信号伝送媒体に言及した場合、信号を生成すること、信号を生成させること、またはデジタル処理装置上でマシン読み取り可能命令のプログラムを実行させることの、いずれかを実行できるようなものであってもよい。信号伝送媒体の具体例としては、伝送回線、コンパクト・ディスク、デジタル・ビデオ・ディスク、磁気テープ、ベルヌーイ・ドライブ、磁気ディスク、パンチ・カード、フラッシュ・メモリ、集積回路、または他のデジタル処理装置メモリ・デバイスがある。
さらに、前述の本発明の機能、構造、または特性は、1つまたは複数の実施形態において任意の好適な様式で組み合わせることもできる。以下の説明では、本発明の諸実施形態を完全に理解するために、プログラミング、ソフトウェア・モジュール、ユーザ選択、ネットワーク・トランザクション、データベース照会、データベース構造、ハードウェア・モジュール、ハードウェア回路、ハードウェア・チップ、その他の例などの、多数の詳細な具体例を示す。しかしながら、関連分野の技術者であれば、本発明が1つまたは複数の詳細な具体例なしで、または他の方法、構成要素、材料などを使用して、実施可能であることを理解されよう。本発明の諸態様を不明瞭にするのを避けるために、周知の構造、材料、または操作については図示または説明しない場合もある。
図1は、本発明に従ったデータ処理システム100の一実施形態を示す略ブロック図である。システム100は、1つまたは複数のホスト105、ネットワーク110、ストレージ・サーバ115、ストレージ・ネットワーク120、およびデータ・ストレージ・システム130を含む。ストレージ・システム130は、1つまたは複数のストレージ・コントローラ125および1つまたは複数のストレージ・デバイス145を含む。システム100は4つのホスト105、1つのネットワーク110、1つのストレージ・サーバ115、1つのストレージ・ネットワーク120、1つのストレージ・システム130、2つのストレージ・コントローラ125、および4つのストレージ・デバイス145を含むように記載されているが、任意数のホスト105、ネットワーク110、ストレージ・サーバ115、ストレージ・ネットワーク120、ストレージ・システム130、ストレージ・コントローラ125、およびストレージ・デバイス145を採用することが可能である。
ストレージ・デバイス145はホスト105に関するデータを格納する。たとえば、第1のホスト105aは、第1のストレージ・デバイス145a内のデータベース・アプリケーションに関するデータを格納および取り出すことができる。ストレージ・コントローラ125は、通信媒体135を介してストレージ・デバイス145と通信する。通信媒体135はファイバ・チャネル接続、SCSI接続などとすることができる。ストレージ・コントローラ125はストレージ・デバイス145を管理する。たとえば、第1のストレージ・コントローラは第1のストレージ・デバイス145aを初期化し、第1のストレージ・デバイス145aの部分を有する論理ボリュームを作成し、通信媒体135を介して第1のストレージ・デバイス145aへのデータの書き込みおよびここからのデータの読み取りを実行することができる。
各ストレージ・デバイス145は、ハード・ディスク・ドライブ、光ストレージ・デバイス、磁気テープ・ドライブ、マイクロメカニカル・デバイス、または半導体デバイスとすることができる。たとえば、第1のストレージ・デバイス145aはハード・ディスク・ドライブとすることができる。各ストレージ・デバイス145は、複数のストレージ・デバイス・クラスから選択することができる。たとえばハード・ディスク・ドライブは、HRHCストレージ・デバイス145およびHCLCストレージ・デバイス145とすることができる。
データ・ストレージ・システム130の管理者は、ストレージ・デバイス145、もしくは、ストレージ・デバイス145のクラス、またはその両方を選択することができ、ここでクラスとは、コスト、信頼性、デューティ・サイクルなどを含むいくつかの特徴に関するものである。たとえば管理者は、より信頼性が高くよりデューティ・サイクルが長い、データ・ストレージ・システム130用のHRHCストレージ・デバイス145を選択することができる。別の方法として、管理者は、データ・ストレージ・コストを削減するためにHCLCストレージ・デバイス145を選択することができる。
各ストレージ・デバイス・クラスもしくは各ストレージ・デバイスまたはその両方は、1つまたは複数の公称動作特性を有することができる。たとえば、第1のHRHCストレージ・デバイス・クラスを、第1の回数のI/O動作を1秒当たりに実行するように構成し、第2のHCLCストレージ・デバイス・クラスを、より少ない第2の回数のI/O動作を1秒当たりに実行するように構成することができる。
ストレージ・コントローラ125は、公称動作特性を使用して、ストレージ・デバイス145が障害を起こす可能性があるかどうかを予測することができる。たとえば、第1のストレージ・コントローラ125aは、第1のストレージ・デバイス145aによって実行されるI/O動作の回数が指定されたしきい値を下回る場合、第1のストレージ・デバイス145aが障害を起こす可能性が高いと予測することができる。残念ながら、指定されたしきい値がHRHCストレージ・デバイス・クラス用であり、第1のストレージ・デバイス145aがHCLCストレージ・デバイス・クラスに属する場合、第1のストレージ・コントローラ125aはこの第1のストレージ・デバイスが障害を起こす可能性があるものと誤って予測してしまうことがある。加えて、ストレージ・デバイス145の各クラスもしくはストレージ・デバイス145またはその両方は別個の公称動作特性を有するため、第1および第2のストレージ・デバイス145a、145bの公称動作特性が大幅に異なる場合があっても、ストレージ・コントローラ125は、第1のストレージ・デバイス145aの公称動作特性を使用して、第2のストレージ・デバイス145bが障害を起こす可能性が高いと予測することができる。
一実施形態では、ストレージ・デバイス145はワークロードが管理された状態に入り、ストレージ・デバイス145へのストレスを減らすことができる。たとえば、第1のストレージ・デバイス145は、I/O動作の実行を指定された1秒当たりの動作回数に制限するというワークロードが管理された状態に入ることができる。管理された状態に入ることで、デューティ・サイクルおよび結果として生じるストレージ・デバイス145へのストレスを減らすことができる。
残念ながら、ストレージ・コントローラ125は、1秒当たりのI/O動作実行の減少などのストレージ・デバイス145の性能の変化によって、ワークロードが管理されたストレージ・デバイス145が障害を起こす可能性が高いと予測することができる。ストレージ・コントローラ125がストレージ・デバイスの障害を誤って予測した場合、ストレージ・コントローラ125はストレージ・デバイス145からデータをマイグレーションし、これによってシステム性能を低下させ、さらにストレージ・デバイス145の保守を要求し、これによってシステム・コストを増加させる可能性がある。
本発明の実施形態は、以下で論じるように、各ストレージ・デバイス145の予測障害しきい値を指定するために技術記述子を採用する。技術記述子に基づいて予測障害しきい値を指定することにより、ストレージ・デバイス障害の誤った予測を減らすことができる。加えて本発明の実施形態は、ストレージ・デバイス障害の誤った予測をさらに減らすために、ストレージ・デバイス145のワークロード管理の検出に応答して予測障害しきい値を修正することができる。
図2は、本発明のストレージ障害予測装置200の一実施形態を示す略ブロック図である。ストレージ障害予測装置200は、図1のストレージ・コントローラ125内で具体化することができる。加えて、ストレージ障害予測装置200の説明は図1の要素を参照し、同じ番号は同じ要素を示す。ストレージ障害予測装置200は技術記述子モジュール205、障害しきい値モジュール210、性能検出モジュール215、ワークロード管理検出モジュール220、しきい値修正モジュール225、修復モジュール230、および通知モジュール235を含む。
以下で説明するように、技術記述子モジュール205は、技術記述子をストレージ・デバイス145に関連付ける。一実施形態では、技術記述子はストレージ・デバイス・クラスを指定する。たとえば、技術記述子はHRHCストレージ・デバイス・クラスを指定することができる。技術記述子は、ストレージ・デバイスに関する1つまたは複数の公称動作特性も指定することができる。たとえば、技術記述子は最大I/O待ち時間を指定することができる。I/O待ち時間は、各I/O動作が完了するのに必要な時間である。ある実施形態では、技術記述子はストレージ・デバイス145の製造元(make)およびモデルを指定する。
障害しきい値モジュール210は、以下で説明するように、技術記述子に応答してストレージ・デバイス145に関する予測障害しきい値を設定する。一実施形態では、予測障害しきい値は、指定された時間間隔内に発生する指定された数のエラーである。エラーとは、指定された応答時間内に格納動作が完了できないことをいう。
性能検出モジュール215は、以下で説明するように、予測障害しきい値を超えるストレージ・デバイス・エラーをストレージ・デバイス予測障害として検出する。たとえば、予測障害しきい値が1分間隔内に10のエラーとして指定され、各エラーが100ミリ秒(100ms)内に読み取りが完了できないこと、もしくは500ミリ秒(500ms)内に書き込みが完了できないこと、またはその両方である場合、予測障害しきい値を超える11のこうしたエラーが1分間隔内に発生すると、性能検出モジュール215はストレージ・デバイス・エラーを検出する。
一実施形態では、以下で説明するように、ワークロード管理検出モジュール220がストレージ・デバイス145のワークロード管理を検出する。ワークロード管理検出モジュール220は、ワークロード管理の指標となる、ストレージ・デバイスの活動特性もしくはストレージ・デバイスの環境特性またはその両方から、ストレージ・デバイス145のワークロード管理を検出することができる。たとえば、ストレージ・デバイス145が大気温度摂氏70度(70℃)でワークロード管理のされた状態に入るように構成された場合、ワークロード管理検出モジュール220は、ストレージ・デバイスの大気温度が摂氏70度(70℃)を超えた時点でワークロード管理を検出することができる。
一実施形態では、以下で説明するように、ストレージ・デバイス145のワークロード管理の検出に応答して、しきい値修正モジュール225が予測障害しきい値を修正する。一例では、予測障害しきい値が1分間隔内で10のエラーである場合、しきい値修正モジュール225は、ワークロード管理検出モジュール220がストレージ・デバイス145のワークロード管理を検出したのに応答して、予測障害しきい値を1分間隔内で20のエラーに修正することができる。
一実施形態では、以下で説明するように、修復モジュール230はストレージ・デバイス予測障害の検出に応答して、ストレージ・デバイス予測障害を修復する。たとえば修復モジュール230は、ストレージ・デバイス予測障害を修復するために、ストレージ・デバイス145からデータをマイグレーションすることができる。一実施形態では、以下で説明するように、通知モジュール235はストレージ・デバイス予測障害の通知を送信する。たとえば、通知モジュール235は予測障害エラーの通知を管理者に送信することができる。ストレージ障害予測装置200は、ストレージ・デバイス145に関する技術記述子に基づいて予測障害しきい値を採用することによって、誤った障害予測を減らす。
図3は、本発明のストレージ・コントローラ125の一実施形態を示す略ブロック図である。一実施形態では、ストレージ・コントローラ125は図1のストレージ・コントローラ125であり、図2のストレージ障害予測装置200を具体化する。加えて、ストレージ・コントローラ125の説明は図1および2の要素を参照し、同じ番号は同じ要素を示す。ストレージ・コントローラ125は、プロセッサ・モジュール305、メモリ・モジュール310、ブリッジ・モジュール315、ネットワーク・インターフェース・モジュール320、ストレージ・インターフェース・モジュール325、および周辺インターフェース・モジュール330を含む。加えて、ストレージ・コントローラ125は、ストレージ・サーバ115、ストレージ・デバイス145、およびセンサ335と通信するように示される。
プロセッサ・モジュール305、メモリ・モジュール310、ブリッジ・モジュール315、ネットワーク・インターフェース・モジュール320、ストレージ・インターフェース・モジュール325、および周辺インターフェース・モジュール330は、1つまたは複数の半導体基板上に半導体ゲートを製作することができる。各半導体基板は、回路カード上に取り付けられた1つまたは複数の半導体デバイスにパッケージングすることができる。プロセッサ・モジュール305、メモリ・モジュール310、ブリッジ・モジュール315、ネットワーク・インターフェース・モジュール320、ストレージ・インターフェース・モジュール325、および周辺インターフェース・モジュール330の間の接続は、半導体金属レイヤ、基板間配線、あるいは半導体素子を接続する回路カード・トレースまたはワイヤを介することができる。
メモリ・モジュール310はソフトウェア命令およびデータを格納する。プロセッサ・モジュール305は、当業者であれば周知のようにソフトウェア命令を実行し、データを操作する。一実施形態では、図2の技術記述子モジュール205、障害しきい値モジュール210、性能検出モジュール215、ワークロード管理検出モジュール220、しきい値修正モジュール225、修復モジュール230、および通知モジュール235を有する1つまたは複数のソフトウェア・プロセスを、メモリ・モジュール310が格納し、プロセッサ・モジュール305がこれを実行する。
プロセッサ・モジュール305は、ブリッジ・モジュール315を介して、ネットワーク・インターフェース・モジュール320、ストレージ・インターフェース・モジュール325、および周辺インターフェース・モジュール330と通信する。ストレージ・インターフェース・モジュール325はファイバ・チャネル・インターフェース、SCSIインターフェースなどとすることができる。ネットワーク・インターフェース・モジュール320は、イーサネット・インターフェース、トークン・リング・インターフェースなどとすることができる。周辺インターフェース・モジュール330は、ユニバーサル・シリアル・バス(「USB」)、シリアル・ポート・インターフェースなどとすることができる。センサ335は温度センサとすることができる。
以下の略流れ図は、一般に論理流れ図として示される。したがって、示された順序およびラベル付けされたステップは、提示された方法の一実施形態を示す。機能、論理、または効果において、例示された方法の1つまたは複数のステップ、あるいはその一部と同等の、他のステップおよび方法も着想可能である。さらに、採用される構成および記号はこの方法の論理ステップを説明するために提供され、本方法の範囲を限定するものとは理解されない。流れ図では様々なタイプの矢印および線が採用可能であるが、これらは対応する方法の範囲を限定するものとは理解されない。実際に、いくつかの矢印または他の結合子を使用して、この方法の論理流れのみを示すことができる。たとえば、ある矢印は、示された方法の列挙されたステップ間の指定されていない持続時間の待機または監視期間を示すことができる。さらに、特定の方法が実行される順序は、示された対応するステップの順序を厳密に守ってもよく、守らなくともかまわない。
図4は、本発明のストレージ障害予測方法400の一実施形態を示す略流れ図である。方法400は、図1〜3に記載された装置200、300、およびシステム100の操作に関して、前述の機能を実行するためのステップを実質的に含む。加えて、方法400は図1〜3の要素を参照し、同じ番号は同じ要素を示す。
方法400が開始され、技術記述子モジュール205は技術記述子をストレージ・デバイス145に関連付ける(405)。管理者は、ストレージ・コントローラ125と通信しているホスト105上で実行中の保守インターフェース・グラフィカル・ユーザ・インターフェース(「GUI」)を介するなどして、ストレージ・デバイス145の識別、ストレージ・デバイス・クラス、もしくはストレージ・デバイス145の公称動作特性、またはそれらすべてを、技術記述子モジュール205に送ることができる。別の方法として、ストレージ・デバイス145は、ストレージ・デバイス145がデータ・ストレージ・システム130もしくはストレージ・コントローラ125またはその両方と通信するように配置された場合、ストレージ・デバイス145の識別を技術記述子モジュール205に送ることもできる。ある実施形態では、技術記述子モジュール205はストレージ・デバイス145を識別するためにストレージ・デバイス145に照会する。
一実施形態では、技術記述子モジュール205は、ストレージ・デバイス145の識別、ストレージ・デバイス・クラス、もしくはストレージ・デバイス145の公称動作特性、またはそれらすべてを受け取る。技術記述子モジュール205は、この識別に応答して、技術記述子をストレージ・デバイス145に関連付ける(405)ことができる。
一実施形態では、技術記述子がストレージ・デバイス145を識別する。たとえば、技術記述子はストレージ・デバイス145の製造元およびモデルを識別することができる。代替実施形態では、技術記述子はストレージ・デバイス・クラスを記述する。たとえば技術記述子は、ストレージ・デバイス145をHCLCストレージ・デバイス・クラスとして識別することができる。
一実施形態では、技術記述子はストレージ・デバイス145の1つまたは複数の公称動作特性を識別する。たとえば技術記述子は、50パーセント(50%)デューティ・サイクルなどの、ストレージ・デバイス145によってサポートされるデューティ・サイクルを識別することができる。代替例では、技術記述子は、ストレージ・デバイス145によってサポートされるI/O動作の実行の最低数を識別することができる。
技術記述子モジュール205は、ストレージ・デバイス145の1つまたは複数の製造元およびモデル、1つまたは複数のストレージ・デバイス・クラス、もしくは1つまたは複数の公称動作特性、またはそれらすべてを列挙する、技術テーブルを維持することができる。各技術テーブルのエントリは、対応する技術記述子を有することができる。一例では、HRHCストレージ・デバイス・クラスは、対応するHRHC技術記述子を有することができる。技術記述子モジュール205は、技術テーブル内の対応するストレージ・デバイス識別を特定し、ストレージ・デバイス145の識別を対応する技術記述子に関連付けることができる。たとえば、技術記述子モジュール205は、HRHCストレージ・デバイス・クラスをHRHC技術記述子に関連付けることができる。
障害しきい値モジュール210は、技術記述子に応答してストレージ・デバイス145に関する予測障害しきい値を設定する(410)。一実施形態では、障害しきい値モジュール210は、1つまたは複数の技術記述子値および各技術記述子値に関する1つまたは複数の対応する予測障害しきい値を有する、しきい値テーブルを維持する。たとえばしきい値テーブルは、第1の技術記述子を、1分間隔内で10エラーの第1の予測障害しきい値と、60パーセント(60%)デューディ・サイクルの第2の予測障害しきい値とを伴う、「HCLCストレージ・デバイス」の値に関連付けることができる。障害しきい値モジュール210は、性能検出モジュール215によって採用される障害予測方法に従って、技術記述子に関する予測障害しきい値を、10エラーの第1の予測障害しきい値もしくは60パーセント(60%)デューティ・サイクルの第2の予測障害しきい値、またはその両方に設定することができる。たとえば、性能検出モジュール215が最低デューティ・サイクル値を下回るデューティ・サイクルとしてストレージ・エラーを検出した場合、障害しきい値モジュール210は、予測障害しきい値を60パーセント(60%)デューティ・サイクルの第2の予測障害しきい値に設定することができる。
一実施形態では、しきい値テーブルは、各技術記述子値に関する1つまたは複数の対応する予測障害しきい値、および1つまたは複数の対応するワークロード管理のされた予測障害しきい値を含むことができる。たとえば「HCLCストレージ・デバイス」という値を備える第1の技術記述子は、1分当たり10エラーの対応する予測障害しきい値および1分当り20エラーのワークロード管理のされた予測障害しきい値を有することができる。
一実施形態では、ワークロード管理検出モジュール220はストレージ・デバイス145のワークロード管理を検出する(415)。一実施形態では、ワークロード管理検出モジュール220はワークロード管理を検出するためにストレージ・デバイス145に照会する。たとえば、ストレージ・コントローラ125上で実行中のワークロード管理検出モジュール220は、ワークロード管理に関してストレージ・デバイス145に照会することができる。ストレージ・デバイス145は、ストレージ・デバイス145のワークロード管理状況に応答することができる。
一実施形態では、ワークロード管理検出モジュール220は、ワークロード管理を検出する(415)ために、ストレージ・デバイス145の活動特性を採用する。たとえばワークロード管理検出モジュール220は、ストレージ・デバイスのデューティ・サイクルが25パーセント(25%)を下回った場合に、ストレージ・デバイス145がワークロード管理のされた状態にあると判定することができる。別の方法として、ワークロード管理検出モジュール220は、ワークロード管理を検出する(415)ために環境特性を採用することができる。たとえばワークロード管理検出モジュール220は、ストレージ・デバイス145の大気温度が摂氏60度(60℃)を上回った場合に、ストレージ・デバイス145がワークロード管理のされた状態にあると判定することができる。
ワークロード管理検出モジュール220がワークロード管理を検出した(415)場合、しきい値修正モジュール225はストレージ・デバイス145のワークロード管理の検出に応答して予測障害しきい値を修正する(420)。しきい値修正モジュール225は、予測障害しきい値に定数を掛け合わせることによって予測障害しきい値を修正することができる(420)。たとえば、予測障害しきい値が1分当たり8エラーであり、ワークロード管理検出モジュール220がストレージ・デバイス145のワークロード管理を検出した(415)場合、しきい値修正モジュール225は予測障害しきい値に定数1.5を掛けて、1分当たり12エラーの修正済み予測障害しきい値を算出することができる。
別の方法として、しきい値修正モジュール225は、技術記述子に対応するワークロード管理のされた予測障害しきい値をしきい値テーブルから選択することによって、予測障害しきい値を修正することもできる(420)。たとえば技術記述子に関して、予測障害しきい値が1分当たり8エラーで、ワークロードが管理された予測障害しきい値が1分当たり13エラーであり、ワークロード管理検出モジュール220がストレージ・デバイス145のワークロード管理を検出した(415)場合、しきい値修正モジュール225は、予測障害しきい値を1分当たり13エラーに修正することができる。
ワークロード管理検出モジュール220がワークロード管理を検出しない(415)場合、性能検出モジュール215は、予測障害しきい値を超えるストレージ・デバイス・エラーをストレージ・デバイス予測障害として検出する(425)。一実施形態では、性能検出モジュール215はエラー・ログ内のストレージ・デバイス・エラーを追跡する。性能検出モジュール215は、予測障害しきい値を超えるいくつかのエラーについて定期的にエラー・ログをスキャンすることができる。
別の方法として、性能検出モジュール215はストレージ・デバイス145のカウンタを初期化し、各ストレージ・デバイス・エラーのカウンタを増分し、各指定された時間間隔後に指定された数だけカウンタを減分することができる。性能検出モジュール215は、カウンタが予測障害しきい値を超える場合、予測障害しきい値を超えるストレージ・デバイス・エラーを検出する(415)ことができる。
一実施形態では、性能検出モジュール215は予測障害しきい値を超えるストレージ・デバイス・エラーを検出する(425)ために、ストレージ・デバイス145に照会する。たとえば、性能検出モジュール215はストレージ・デバイス145のデューティ・サイクルについてストレージ・デバイス145に照会し、ストレージ・デバイス145のデューティ・サイクルが予測障害しきい値によって指定されたデューティ・サイクルを下回る場合、予測障害しきい値を超えるストレージ・デバイス・エラーを検出することができる。
性能検出モジュール215が予測障害しきい値を超えるストレージ・デバイス・エラーを検出しない(425)場合、ワークロード管理検出モジュール220はストレージ・デバイス145のワークロード管理を検出する(425)。性能検出モジュール215が予測障害しきい値を超えるストレージ・デバイス・エラーを検出した(425)場合、修復モジュール230は、ストレージ・デバイス予測障害の検出に応答してストレージ・デバイス予測障害を修正する(435)ことができる。
一実施形態では、修復モジュール230はストレージ・デバイス予測障害を修復する(430)ために、ストレージ・デバイス145からデータをマイグレーションする。加えて、修復モジュール230は、ストレージ・デバイス予測障害を修復する(430)ために、ストレージ・デバイス145をオフラインにすることができる。たとえば、性能検出モジュール215が第1のストレージ・デバイス145aに関してストレージ・デバイス予測障害を検出した場合、修復モジュール230は、第1のストレージ・デバイス145aから第2のストレージ・デバイス145bへとデータをコピーし、第1のストレージ・デバイス145aをオフラインにすることができる。ある実施形態では、第1のストレージ・デバイス145aが第2のストレージ・デバイス145bによってミラーリングされ、性能検出モジュール215が第1のストレージ・デバイス145aに関してストレージ・デバイス予測障害を検出した(425)場合、修復モジュール230は第2のストレージ・デバイス145bを使用してそのデータにアクセスするように指示をすることができる。
一実施形態では、通知モジュール235がストレージ・デバイス予測障害の通知を送り(435)、方法400が終了する。たとえば通知モジュール235は、管理者が通知を受け取ることができるように、コンピュータ・ワークステーションにエラー・メッセージを送る(435)ことができる。別の方法として、通知モジュール235は、システム・ログなどのログに通知を送る(435)ことができる。方法400は、ストレージ・デバイス145に関する技術記述子に応答して予測障害しきい値を設定し410、予測障害しきい値を使用してストレージ・デバイス145の障害を予測する。
図5は、本発明のRAIDシステム500の一実施形態を示す略ブロック図である。システム500は、図1の1つまたは複数のストレージ・デバイス145によって具体化することができる。加えて、システム500は図1〜4の要素を参照し、同じ番号は同じ要素を示す。話を簡単にするために、4つのストレージ・デバイス145が示されているが、任意数のストレージ・デバイス145を採用することができる。
一実施形態では、ストレージ・デバイス145はハード・ディスク・ドライブである。各ストレージ・デバイス145は複数のストライプ510、520、530、540としてデータを格納する。各ストレージ・デバイス145からのストライプ510、520、530、540は、ストライプ・グループを形成することができる。たとえば、各ストレージ・デバイスの第1のストライプ510a、520a、530a、540aは第1のストライプ・グループを形成することができる。
図に示されるように、第1、第2、および第3のストレージ・デバイス145a、145b、145cの第1のストライプ510a、520a、530aはデータを格納するが、第4のストレージ・デバイス145dの第1のストライプ540aは冗長データを格納する。第1、第2、および第3のストレージ・デバイス145a、145b、145cのうちの1つに障害が発生した場合、障害のあるストレージ・デバイス145のデータは、残りのストレージ・デバイス145のデータおよび第4のストレージ・デバイス145dの冗長(redundant)データを使用して回復することができる。
図6は、本発明のRAIDシステム600に関するデータのマイグレーションの一実施形態を示す略ブロック図である。システム600は、図5のストレージ・デバイス145を含む。加えてシステム600は図1〜4の要素を参照し、同じ番号は同じ要素を示す。
性能検出モジュール215は、予測障害しきい値を超える第2のストレージ・デバイス145bに関するストレージ・デバイス・エラーを、ストレージ・デバイス予測障害として検出する(425)。修復モジュール230は、第2のストレージ・デバイス145bのストライプ520a〜dのデータを第5のストレージ・デバイス145eへマイグレーションすることができる。第2のストレージ・デバイス145bの第1、第2、および第3のストライプ520a〜cが、第5のストレージ・デバイス145eにマイグレーションされたものとして示される。
本発明の実施形態は、ストレージ・デバイス145に関連付けられた技術記述子に応答して予測障害しきい値を設定し(410)、予測障害しきい値を使用して潜在的なストレージ・デバイス障害を検出する(425)。加えて、本発明の実施形態は、ストレージ・デバイス145のワークロード管理の検出に応答して、予測障害しきい値を修正することができる。
本発明は、その趣旨または不可欠な特性を逸脱することなく、他の特定の形で具体化することが可能である。説明された諸実施形態は、すべての点において、限定的でなく単なる例示としてみなされるものである。したがって本発明の範囲は、前述の説明によってではなく添付の特許請求の範囲によって示される。特許請求の範囲の意味および同等性の範囲内にあるすべての変更は、それらの範囲内に包含されるものである。
本発明に従ったデータ処理システムの一実施形態を示す略ブロック図である。 本発明のストレージ障害予測装置の一実施形態を示す略ブロック図である。 本発明のストレージ・コントローラの一実施形態を示す略ブロック図である。 本発明のストレージ障害予測方法の一実施形態を示す略流れ図である。 本発明のRAIDシステムの一実施形態を示す略ブロック図である。 本発明のRAIDシステムに関するデータのマイグレーションの一実施形態を示す略ブロック図である。
符号の説明
200 ストレージ障害予測装置
205 技術記述子モジュール
210 障害しきい値モジュール
215 性能検出モジュール
220 ワークロード管理検出モジュール
225 しきい値修正モジュール
230 修復モジュール
235 通知モジュール

Claims (10)

  1. ストレージ・デバイスの特徴を識別する記述子をストレージ・デバイスに関連付けるように構成されたモジュールと、
    複数の前記記述子と、障害を予測するためのしきい値とが関連付けられたしきい値テーブルを使用して、前記記述子が関連付けられたストレージ・デバイスに関するしきい値を設定するように構成されたしきい値モジュールと、
    前記しきい値を超えるストレージ・デバイス・エラーを、ストレージ・デバイス予測障害として検出するように構成された性能検出モジュールと、
    を備える、ストレージ・デバイス障害を予測するための装置。
  2. 前記ストレージ・デバイスのワークロードを管理するように構成されたワークロード管理モジュールをさらに備える、請求項1に記載の装置。
  3. 前記ストレージ・デバイスのワークロードを管理すべき状態を検出した場合に、前記しきい値を修正するように構成されたしきい値修正モジュールをさらに備える、請求項2に記載の装置。
  4. ワークロード管理モジュールが、ストレージ・デバイスの活動の特性を示す活動特性およびストレージ・デバイスの環境の特性を示す環境特性から選択される特性を使用して、前記ストレージ・デバイスの前記ワークロードを管理すべき状態を検出する、請求項3に記載の装置。
  5. 前記ストレージ・デバイス予測障害の検出に応答して、前記ストレージ・デバイス予測障害を修復するように構成された修復モジュールをさらに備える、請求項1に記載の装置。
  6. さらに前記修復モジュールが、前記ストレージ・デバイス予測障害を修復するために、ミラーリングを行うストレージ・デバイスからのデータにアクセスするように構成された、請求項5に記載の装置。
  7. 前記ストレージ・デバイス予測障害の通知を送るように構成された通知モジュールをさらに備える、請求項1に記載の装置。
  8. データを格納するように構成されたストレージ・デバイスと、
    前記ストレージ・デバイスを管理するように構成されたストレージ・コントローラであって、
    ストレージ・デバイスの特徴を識別する記述子をストレージ・デバイスに関連付けるように構成されたモジュールと、
    複数の前記記述子と、障害を予測するためのしきい値とが関連付けられたしきい値テーブルを使用して、前記記述子が関連付けられたしきい値を設定するように構成されたしきい値モジュールと、
    前記ストレージ・デバイスのワークロードを管理するように構成されたワークロード管理モジュールと、
    前記ストレージ・デバイスの前記ワークロード管理の検出に応答して、前記しきい値を修正するように構成されたしきい値修正モジュールと、
    前記修正されたしきい値を超えるストレージ・デバイス・エラーを、ストレージ・デバイス予測障害として検出するように構成された性能検出モジュールと、
    を備える、ストレージ・コントローラと、
    を備える、ストレージ・デバイス障害を予測するためのシステム。
  9. 前記ストレージ・コントローラが、前記ストレージ・デバイス予測障害の検出に応答して、前記ストレージ・デバイス予測障害を修復するように構成された修復モジュールをさらに備える、請求項8に記載のシステム。
  10. コンピュータ読み取り可能なコードをコンピューティング・システムに統合することを含む、コンピュータ・インフラストラクチャを配置するための方法であって、前記コンピューティング・システムと組み合わされた前記コードは、
    ストレージ・デバイスの特徴を識別する記述子を、ストレージ・デバイスに関連付けるステップと、
    複数の前記記述子と、障害を予測するためのしきい値とが関連付けられたしきい値テーブルを使用して、前記記述子が関連付けられたしきい値を設定するステップと、
    前記ストレージ・デバイスのワークロードを管理すべき状態を検出するステップと、
    前記検出に応答して、前記しきい値を修正するステップと、および
    前記修正されたしきい値を超えるストレージ・デバイス・エラーをストレージ・デバイス予測障害として検出するステップと、
    が実行可能である、方法。
JP2006351329A 2006-01-23 2006-12-27 ストレージ・デバイスの障害を予測するための装置、システム、および方法 Expired - Fee Related JP5160085B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/337,391 US7496796B2 (en) 2006-01-23 2006-01-23 Apparatus, system, and method for predicting storage device failure
US11/337391 2006-01-23

Publications (2)

Publication Number Publication Date
JP2007200301A JP2007200301A (ja) 2007-08-09
JP5160085B2 true JP5160085B2 (ja) 2013-03-13

Family

ID=38287039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006351329A Expired - Fee Related JP5160085B2 (ja) 2006-01-23 2006-12-27 ストレージ・デバイスの障害を予測するための装置、システム、および方法

Country Status (3)

Country Link
US (1) US7496796B2 (ja)
JP (1) JP5160085B2 (ja)
CN (1) CN100481019C (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080117751A1 (en) * 2006-11-22 2008-05-22 Read Christopher J Jukebox disc deterioration testing
US7917810B2 (en) * 2007-10-17 2011-03-29 Datadirect Networks, Inc. Method for detecting problematic disk drives and disk channels in a RAID memory system based on command processing latency
US8185784B2 (en) * 2008-04-28 2012-05-22 Lsi Corporation Drive health monitoring with provisions for drive probation state and drive copy rebuild
GB2473970A (en) * 2008-05-27 2011-03-30 Fujitsu Ltd system operation management support system, method and apparatus
US8090997B2 (en) * 2008-06-20 2012-01-03 International Business Machines Corporation Run-time fault resolution from development-time fault and fault resolution path identification
US20110035248A1 (en) * 2009-08-07 2011-02-10 Loic Juillard Distributed Service Platform Computing with a Guaranteed Quality of Service
CN102147708B (zh) * 2010-02-10 2012-12-12 华为数字技术(成都)有限公司 一种磁盘检测方法及装置
US10447767B2 (en) * 2010-04-26 2019-10-15 Pure Storage, Inc. Resolving a performance issue within a dispersed storage network
US8938552B2 (en) * 2010-08-02 2015-01-20 Cleversafe, Inc. Resolving a protocol issue within a dispersed storage network
US10157002B2 (en) 2010-08-26 2018-12-18 International Business Machines Corporation Migrating an encoded data slice based on an end-of-life memory level of a memory device
US11614893B2 (en) 2010-09-15 2023-03-28 Pure Storage, Inc. Optimizing storage device access based on latency
US8589655B2 (en) * 2010-09-15 2013-11-19 Pure Storage, Inc. Scheduling of I/O in an SSD environment
JP5126393B2 (ja) * 2011-06-29 2013-01-23 日本精工株式会社 車載電子制御装置
CN102521058A (zh) * 2011-12-01 2012-06-27 北京威视数据系统有限公司 Raid组磁盘数据预迁移方法
US9037921B1 (en) * 2012-03-29 2015-05-19 Amazon Technologies, Inc. Variable drive health determination and data placement
US8719320B1 (en) 2012-03-29 2014-05-06 Amazon Technologies, Inc. Server-side, variable drive health determination
US9792192B1 (en) * 2012-03-29 2017-10-17 Amazon Technologies, Inc. Client-side, variable drive health determination
JP6041546B2 (ja) * 2012-06-08 2016-12-07 キヤノン株式会社 情報処理装置及びその制御方法、並びにプログラム
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
US8984333B2 (en) * 2013-01-11 2015-03-17 International Business Machines Corporation Automatic computer storage medium diagnostics
US9053747B1 (en) 2013-01-29 2015-06-09 Western Digitial Technologies, Inc. Disk drive calibrating failure threshold based on noise power effect on failure detection metric
CN104346246B (zh) * 2013-08-05 2017-12-15 华为技术有限公司 故障预测方法和装置
US9626432B2 (en) 2013-09-09 2017-04-18 International Business Machines Corporation Defect record classification
CN104731664A (zh) * 2013-12-23 2015-06-24 伊姆西公司 用于故障处理的方法和装置
US9036283B1 (en) 2014-01-22 2015-05-19 Western Digital Technologies, Inc. Data storage device with selective write to a first storage media or a second storage media
US9263088B2 (en) 2014-03-21 2016-02-16 Western Digital Technologies, Inc. Data management for a data storage device using a last resort zone
JP6252285B2 (ja) 2014-03-24 2017-12-27 富士通株式会社 ストレージ制御装置、制御方法、及びプログラム
CN104050071B (zh) * 2014-06-30 2017-02-08 苏州科达科技股份有限公司 存储设备失效预警方法及系统
US9747042B2 (en) 2015-06-30 2017-08-29 International Business Machines Corporation Statistic-based isolation of lethargic drives
US10599352B2 (en) 2015-08-14 2020-03-24 Samsung Electronics Co., Ltd. Online flash resource allocation manager based on a TCO model
US10402254B2 (en) * 2015-11-11 2019-09-03 Seagate Technology Llc Storage drive monitoring
US20170278007A1 (en) * 2016-03-23 2017-09-28 Nec Laboratories America, Inc. Early Warning Prediction System
US11001265B2 (en) * 2016-03-25 2021-05-11 Cummins Inc. Systems and methods of adjusting operating parameters of a vehicle based on vehicle duty cycles
US10771369B2 (en) * 2017-03-20 2020-09-08 International Business Machines Corporation Analyzing performance and capacity of a complex storage environment for predicting expected incident of resource exhaustion on a data path of interest by analyzing maximum values of resource usage over time
US11269715B2 (en) * 2018-05-05 2022-03-08 Dell Products L.P. Systems and methods for adaptive proactive failure analysis for memories
US10896114B2 (en) 2018-05-23 2021-01-19 Seagate Technology Llc Machine learning error prediction in storage arrays
US11869586B2 (en) * 2018-07-11 2024-01-09 Pure Storage, Inc. Increased data protection by recovering data from partially-failed solid-state devices
KR20200015999A (ko) * 2018-08-06 2020-02-14 에스케이하이닉스 주식회사 예측 오류 정정 장치, 이의 동작 방법 및 이를 이용하는 메모리 시스템
US10652208B2 (en) 2018-10-03 2020-05-12 Axonius Solutions Ltd. System and method for managing network connected devices
US11209808B2 (en) 2019-05-21 2021-12-28 At&T Intellectual Property I, L.P. Systems and method for management and allocation of network assets
US20210342241A1 (en) * 2020-04-29 2021-11-04 Advanced Micro Devices, Inc. Method and apparatus for in-memory failure prediction
US11301312B1 (en) * 2021-01-06 2022-04-12 Vmware, Inc. Error logging during system boot and shutdown

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04241335A (ja) * 1991-01-14 1992-08-28 Fuji Photo Film Co Ltd メモリ・カード内蔵電池電圧低下警告機能付ディジタル電子スチル・カメラ
JP2711207B2 (ja) 1992-05-19 1998-02-10 インターナショナル・ビジネス・マシーンズ・コーポレイション クリアランス及び滑りの測定が可能でヘッド衝突の警告をするディスク・ファイル記憶装置及びクリアランス測定方法
US5828583A (en) * 1992-08-21 1998-10-27 Compaq Computer Corporation Drive failure prediction techniques for disk drives
US5923247A (en) 1994-12-23 1999-07-13 British Telecommunications Public Limited Company Fault monitoring
US5717850A (en) 1996-03-12 1998-02-10 International Business Machines Corporation Efficient system for predicting and processing storage subsystem failure
JPH11213576A (ja) * 1998-01-21 1999-08-06 Ricoh Co Ltd 再記録可能ディスク記録再生装置
JPH11345095A (ja) * 1998-06-02 1999-12-14 Toshiba Corp ディスクアレイ装置およびその制御方法
US6415189B1 (en) * 1999-07-23 2002-07-02 International Business Machines Corporation Method and system for predicting disk drive failures
JP2001210027A (ja) * 2000-01-25 2001-08-03 Oki Electric Ind Co Ltd ハードディスク装置
US7043504B1 (en) 2000-04-10 2006-05-09 International Business Machines Corporation System and method for parallel primary and secondary backup reading in recovery of multiple shared database data sets
JP2001093106A (ja) * 2000-08-22 2001-04-06 Hitachi Ltd 磁気記録再生装置
US6922801B2 (en) * 2001-06-01 2005-07-26 International Business Machines Corporation Storage media scanner apparatus and method providing media predictive failure analysis and proactive media surface defect management
US7120832B2 (en) 2001-09-27 2006-10-10 Hewlett-Packard Development Company, L.P. Storage device performance monitor
JP2003168259A (ja) * 2001-11-30 2003-06-13 Sony Corp 車載情報処理機器
US6771440B2 (en) 2001-12-18 2004-08-03 International Business Machines Corporation Adaptive event-based predictive failure analysis measurements in a hard disk drive
US6948102B2 (en) 2002-04-29 2005-09-20 International Business Machines Corporation Predictive failure analysis for storage networks
US7631067B2 (en) 2002-06-20 2009-12-08 International Business Machines Corporation Server initiated predictive failure analysis for disk drives
US6982842B2 (en) 2002-09-16 2006-01-03 Seagate Technology Llc Predictive disc drive failure methodology
US20040215912A1 (en) 2003-04-24 2004-10-28 George Vergis Method and apparatus to establish, report and adjust system memory usage
JP2005004869A (ja) * 2003-06-11 2005-01-06 Adtex:Kk 記録装置、記録データ管理方法、及びプログラム
JP2005088779A (ja) * 2003-09-18 2005-04-07 Xanavi Informatics Corp 車載情報端末
JP2005258633A (ja) * 2004-03-10 2005-09-22 Hitachi Ltd ディスクアレイシステム及びハードディスクドライブの障害予測方法

Also Published As

Publication number Publication date
CN101008910A (zh) 2007-08-01
CN100481019C (zh) 2009-04-22
US7496796B2 (en) 2009-02-24
JP2007200301A (ja) 2007-08-09
US20070174720A1 (en) 2007-07-26

Similar Documents

Publication Publication Date Title
JP5160085B2 (ja) ストレージ・デバイスの障害を予測するための装置、システム、および方法
CN105589762B (zh) 存储器装置、存储器模块和用于纠错的方法
TWI450087B (zh) 複數個磁碟陣列系統之資料儲存方法及資料儲存系統
US7487408B2 (en) Deferring error reporting for a storage device to align with staffing levels at a service center
KR102378466B1 (ko) 메모리 장치 및 모듈
US7624301B2 (en) Method and apparatus for identifying failure module
JP2007207062A (ja) データ信頼性向上方法及びその方法を用いた情報処理装置
US8370688B2 (en) Identifying a storage device as faulty for a first storage volume without identifying the storage device as faulty for a second storage volume
US8005798B2 (en) Method and apparatus for partial data set recovery
US9632857B2 (en) Intelligent dump suppression
JP4669263B2 (ja) ストレージ装置
US20140201566A1 (en) Automatic computer storage medium diagnostics
US8161324B2 (en) Analysis result stored on a field replaceable unit
KR20220008237A (ko) 임시 스토리지에 대한 데이터 복원을 위한 시스템 및 장치
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
US8001425B2 (en) Preserving state information of a storage subsystem in response to communication loss to the storage subsystem
US20070067668A1 (en) Information processing apparatus and information processing recovery method
US7844863B2 (en) Ramped error logging system
CN113179665A (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
JP2003263703A (ja) 磁気ディスク装置及びディスク制御装置
US11847032B2 (en) Solid state drive, electronic device including solid state drive, and method of managing solid state drive
US20080189315A1 (en) Method and server system for creating sensor data record
CN113901530A (zh) 一种硬盘防御性预警保护的方法、装置、设备及可读介质
EP4127932A1 (en) Targeted repair of hardware components in a computing device
CN113868000B (zh) 一种链路故障修复方法、系统及相关组件

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20111024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111024

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111222

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120702

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20121002

R155 Notification before disposition of declining of application

Free format text: JAPANESE INTERMEDIATE CODE: R155

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121212

R150 Certificate of patent or registration of utility model

Ref document number: 5160085

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees