JP2005293594A - 管理された信頼性記憶システムと方法 - Google Patents

管理された信頼性記憶システムと方法 Download PDF

Info

Publication number
JP2005293594A
JP2005293594A JP2005105960A JP2005105960A JP2005293594A JP 2005293594 A JP2005293594 A JP 2005293594A JP 2005105960 A JP2005105960 A JP 2005105960A JP 2005105960 A JP2005105960 A JP 2005105960A JP 2005293594 A JP2005293594 A JP 2005293594A
Authority
JP
Japan
Prior art keywords
data storage
storage system
data
component
program code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005105960A
Other languages
English (en)
Inventor
Stephen J Sicola
スティーブン、ジェイ.シコラ
Charles M Sander
エム.サンダー チャールズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seagate Technology LLC
Original Assignee
Seagate Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seagate Technology LLC filed Critical Seagate Technology LLC
Publication of JP2005293594A publication Critical patent/JP2005293594A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】RAIDを例に信頼性の管理を体系化し、信頼性が管理された記憶システムと信頼性を確保する方法を開示する。
【解決手段】(1)確実なデータ記憶フォーマット、(2)閾値の信頼性管理を含む計画された信頼性管理、および(3)ソフトウエアによるデータのリカバリが記憶システムの信頼性の柱である。(1)はRAIDとその実施例のように故障が発生しても破壊されない記憶フォーマットを使う、(2)はシステム使用量と最適使用方法モデルを反映する利用率の監視と調整、定期的診断とイベント・ドリブン型診断の実行および記憶システム構成要素の動作パラメータの条件付き調整をする、(3)は、ECC、RLLなど冗長的データ・フォーマットを用いデータの再生、再構築を可能にすることである。
【選択図】図1

Description

本発明は、一般にデータ記憶装置に関し、より詳細には、積極的な信頼性管理システムと方法に関する。
データ記憶システムは、1つまたは複数のバスを使用する1つまたは複数のディスク・アレイ・コントローラに接続されたディスク・ドライブのアレイを含むことができる。ディスク・アレイ・コントローラは、1つまたは複数のバスを使用する1つまたは複数のホスト・システムに接続される。RAID(冗長性を持たせた独立なディスクのアレイ)のようなデータ記憶装置のフォーマットは、ドライブが故障の場合、残った動作中のドライブに対してユーザのデータがコピー、再生または再構成される(他のドライブに再生またはコピーされる)ように、ユーザのデータや冗長的情報を複数のドライブに分配するために使用される。またシステムも、接続経路またはコントローラが故障の場合、データとコマンドを転送するために他の経路またはコントローラが利用可能であるように、冗長的コントローラとバスまたはそのいずれかを使用することができる。
データ記憶システムが故障せずに長時間動作する能力は、構成要素の数と品質を反映するとともに、そのシステムの価値と市場性に直接影響を及ぼす。MTBFが非常に長い構成要素を選択することは、記憶システムの確実な寿命を延ばすことができるが、コストが増大するのが普通である。予備のコントローラ、バスおよび記憶装置またはそれらのいずれかを追加するなど、高水準の冗長性は、システムのコストを増大させる。
高水準の冗長性を備えたシステムは、データを損失せずに修復されうるが、故障になった構成要素が交換されるまでデータの可用性とスループットは、制限される。システムの利用率が低い時に構成要素を定期交換することは、利用率が高い時のデータの可用性を高めるが、部品と労力の費用が追加される。この定期交換も構成要素の運用コストを増大することになる。何故ならば、交換しなくても動作を継続するであろう構成要素も交換されるからである。
例えば、エラー率が所定の閾値以上になると、ドライブの交換を提案するというように、現在の記憶システムの管理方法は、本来、受け身的である。この方法は、低すぎる閾値に設定されていると、故障になる前に構成要素を識別することに失敗し、閾値の設定が高すぎると、不必要な構成要素の交換になるという点で問題があり、費用とダウン時間が追加されることになる。
本発明の実施例は、記憶システムの運用と記憶システムの構成要素を積極的に管理するとともに、記憶システムの寿命を延長するようにシステムと構成要素の動作パラメータを調整するシステムと方法を提供する。記憶システムの構成要素の管理は、システムの動作特性を監視して、システムと1つまたは複数の構成要素の動作パラメータの調整を実行すべきか否かの決定を含む。システムの動作パラメータの調整は、キャッシュのサイズを調整すること、読出し動作と書込み動作のスケジューリング、更には構成要素の利用率を含むことができる。システム動作パラメータと構成要素の調整は、定期的に実行しても良く、あるいは、イベント・ドリブン型で監視したパラメータまたはユーザの入力における変化に応答して実行しても良い。
したがって、本発明の実施例は、データ記憶システムを動作させる方法を更に含むことができるが、この方法は、データ記憶システムの動作を監視し、データ記憶システムの動作の少なくとも1つのパラメータを取得し、データ記憶システムの少なくとも1つの構成要素を表すデータ記憶システムの最適使用方法モデルにアクセスし、データ記憶システムの動作を監視することによって取得した少なくとも1つのパラメータと、最適使用方法モデルに含まれる所定の値を比較し、更に、少なくとも1つのパラメータが所定の値より大きいか所定の値に等しい場合、少なくとも1つのデータ記憶システムの使用方法を調整することを含む。
本発明の実施例は、データ記憶システムを管理する方法を含むことができるが、この方法は、調整のイベントが発生したか否かを決定し、少なくとも1つの記憶システム構成要素を識別し、少なくとも1つのデータ記憶システム構成要素を診断テストの条件にセットし、少なくとも1つのデータ記憶システム構成要素をテストする診断用コンピュータ・プログラム・コードを実行し、診断用コンピュータ・プログラム・コードから少なくとも1つのデータ記憶構成要素のパラメータを取得し、更に、少なくとも1つのデータ記憶システム構成要素のパラメータが所定の値より大きいか所定の値に等しい場合、少なくとも1つのデータ記憶システム構成要素を調整することを含む。
したがって、本発明の実施例は、データ記憶システムを含むことができるが、このシステムは、ホスト・システムと、記憶装置コントローラと、複数のデータ記憶装置と、少なくとも1つのデータ記憶システム構成要素の最適使用方法モデルと、少なくとも1つのデータ記憶システム構成要素の少なくとも1つの動作パラメータを取得して、少なくとも1つの動作パラメータと、最適使用方法のモデルに含まれる所定の値を比較し、少なくとも1つの動作パラメータが所定の値より大きいか所定の値に等しい場合、データ記憶システムの使用方法を調整するコンピュータ・プログラム・コードを含む。
したがって、本発明の実施例は、データ記憶システムを含むことができるが、このシステムは、ホスト・システムと、記憶装置コントローラと、複数のデータ記憶装置と、少なくとも1つのスケジューリング条件が満たされている否かを決定し、少なくとも1つのスケジューリング条件が満たされている場合、診断用コンピュータ・プログラム・コードの実行を開始するスケジューリング用コンピュータ・プログラム・コードと、少なくとも1つの開始用イベントが発生したか否かを決定し、少なくとも1つの開始用イベントが発生した場合、診断用コンピュータ・プログラム・コードの実行を開始するイベント検出用コンピュータ・プログラム・コードと、診断用コンピュータ・プログラム・コードによって取得された少なくとも1つの構成要素パラメータの値と所定の値を比較し、少なくとも1つの構成要素パラメータが所定の値より大きいか所定の値に等しい場合、記憶システム構成要素の調整を遂行するコンピュータ・プログラム・コードとを含む。
(発明の詳細な説明)
管理された信頼性は、データ記憶システムに於いてシステム構成要素の確実な寿命を延長することによって低コストで確実な長期間のデータ記憶を提供するシステムと方法である。管理された信頼性は、パーソナル・コンピュータから大容量の記憶装置アレイまでを含む広範囲の記憶システムに適用可能である。
本発明の実施例は、構成要素の特性、能力および限界が首尾一貫しているようにシステム構成要素を利用することによって、またシステム動作パラメータの定期的調整またはイベント・ドリブン型調整と、記憶システム構成要素の定期的診断テストと調整またはイベント・ドリブン型診断テストと調整を介して、データ記憶システムの寿命を確実に延長する。このシステムは、定期的、イベント・ドリブン型または連続方式で監視され、システム構成要素がいかに利用されているかを決定するとともに、システム構成要素の動作条件を決定する。監視機能と調整機能は、例えば、ディスク・ドライブの電子部分、ディスク・アレイ・コントローラ、ホスト・システム、ネットワークのポータル/監視システムおよび遠隔システムを含む記憶システム内の1つまたは複数の場所で実行される。動作は、完全に自動的であってユーザによる観察は、不能であるか、あるいは、記憶システムの状態を示すユーザ・インタフェースと遂行または計画された行動とを含むことができる。管理と調整の動作は、見えないように実行され、構成要素またはシステムの利用率が低い時を利用するように計画されるか、データ・アクセス動作によってバラバラにされる。診断テスト中、構成要素をオフ・ラインにできるようにデータ記憶システムの予備の記憶容量を使用することができる。
調整可能なパラメータは、ディスク・ドライブ・パラメータを含むとともに、信号の振幅、ディスク・フォーマット、データ・マッピング、読出し/書込みバッファの割り当て、パケット・サイズ、オフセットなどを含むバスとコントローラの構成情報を含むことができる。本発明の実施例は、製造段階中に確定されるディスク・ドライブ・パラメータの調整を都合良く含んでおり、他のシステムや方法におけるよりも強力に制御される。調整されたディスク・ドライブ・パラメータは、ディスクまたは記憶装置自体の中のサブ装置の信頼性を高くするとともに、故障が発生しても回復する機能を含む。
管理された信頼性は、故障が発生しても破壊しないようにデータを組織化し、構成要素の定期的調整と構成要素のイベント・ドリブン型調整に対するシステム動作と構成要素動作を監視して分析し、構成要素が故障になった場合のデータ回復方法とデータ再構築方法を提供するという複数の機能を含む。図1は、管理された機能のブロック図を示している。機能100は、確実なデータの組織化(RDO)102、計画された信頼性管理(PRM)104、閾値の信頼性管理(TRM)106およびソフトウエアによるデータの再生と再構築(SDR)108を含む。RDO102は、記憶システムの中にデータを格納することを含むが、この記憶システムは、故障が発生しても破壊されないデータ記憶フォーマットを使用し、RAIDと、例えば、ECCやリード・ソロモンなど、何らかの他の符号化方法やそれらの組合せを含めてもよい。RAIDの各種レベルや故障が発生しても破壊されない符号化方法など、複数の異なるフォーマットが同時にサポートされる。
計画された信頼性管理104は、システム動作を構成するとともにデータ記憶構成要素を調整するため、そのいずれかをするために採用される定期的監視・診断手続きを含む。少なくとも1つのデータ記憶システム構成要素に対して最適使用方法モデルが提供されている。異なるデータ記憶システム構成要素と構成要素の異なるバージョンに対して各種モデルが提供されている。最適使用方法モデルは、構成要素の寿命、故障発生可能性の減少(信頼性)およびパフォーマンスの最適化、または、それらのいずれかになりうる使用方法パラメータを定義する。パラメータは、書込みキャッシュ・サイズ、読出しキャッシュ・サイズ、最長の連続アクセス時間、平均利用率、アクチュエータの加速およびその他のパラメータを含むことができる。ディスク・ドライブは、ドライブ内で複数のI/O動作が待ち行列に入っている場合、より効率的に動作する傾向がある。例えば、ドライブは、ヘッドの動きを小さくする媒体上の物理的位置に対応する保留中の入出力の実行順序を選択する「エレベータ・ソート」アルゴリズムを使用することが多い。このアルゴリズムを使用すると、平均アクセス時間を減らすとともに、ヘッド位置決め(アクチュエータ)機構に対する摩耗を減らすことになる。ドライブに発行する前の入出力要求のキャッシングは、ヘッドのスラッシングを減らすことになる。読出しキャッシュと書込みキャッシュのサイズは、アクチュエータの動きを減らすように調整される。この動作は、定期的に遂行され、アクセス中のデータのタイプに反映される。例えば、ビデオ・データのストリーミングは、大量の連続したデータ・ブロックを含むが、伝票発行情報は、記憶媒体全体にわたって分配されている多数の小型ファイルを含むことができる。他の最適使用方法モデルのパラメータは、最長連続アクセス時間である。ドライブのヘッドは、読出し書込み動作中に熱を発生する。発熱性を管理することは、ドライブの寿命を延ばし信頼性を向上することになる。前述のビデオ・データのストリーミングのような大容量のファイルは、複数のドライブにわたって分配されるので、どれか1つのドライブに対するアクセスの継続時間を限定する。平均利用率を採用して、複数のドライブ間のアクセス率を平均させることができる。計画された信頼性管理は、入出力をリアル・タイム・アクセスと非リアル・タイム・アクセスにソートすることも含む。例えば、ビデオをストリーミングすることは、おそらくリアル・タイムか準リアル・タイムの動きであるが、伝票発行をリアル・タイム方式で実行する必要はない。管理用ソフトウエアは、ドライブのエレベータ・ソート機能を利用して、所定の数のアクセスが保留になるまで伝票発行のアクセスを隠しておき、その後で複数の入出力コマンドをドライブに発行する。最適使用方法モデルを採用してシステム動作をカスタマイズするだけでなく、計画された信頼性は、システム構成要素の状態を検出するための診断チェックを含むことができる。構成要素は、条件に依存して調整される。診断チェックのスケジューリングは、記憶システムの利用率の分析を採用して、構成要素の調整を遂行することができる望ましい時間を決定することができる。診断を遂行する間は、1つまたは複数の記憶システム構成要素をオフ・ラインにすることができる。これをすることは、システムが動作を続けるとともに調整と診断のタスクがバックグラウンドで遂行されるように、データを他のドライブまたはシステムに格納することと、そのドライブまたはシステムに対する入出力の対応付けをすることを含むことができる。
閾値の信頼性管理106は、診断手続きと、障害、エラーまたは故障の検出、あるいは、所定の値より大きいか所定の値に等しい使用方法パラメータの検出のようなイベントに応答して遂行されるシステムまたは構成要素の調整手続きを含む。パラメータは、最適使用方法モデルのパラメータまたは構成要素のエラー条件、読出し再試行率、エラー発生率などを含むことができる。閾値の信頼性管理機能は、計画された信頼性の機能を含むか行使することができるだけでなく、ソフトウエアによるデータの回復機能を実施する機能を含むことができる。診断手続きと構成要素の調整手続きを図2および図3に関連させて詳細に説明する。SDR108は、データのコピー、故障した構成要素または、なんとか動いている構成要素からのデータの再生と再構築または、それらのいずれかと他の機能している構成要素またはシステムに対するデータの格納およびRDO102の確実なデータ・フォーマットと一致したデータの入出力の対応付けを含むことができる。データ・フォーマットは、このプロセス中に変わるかも知れない。例えば、RAID−1データ・ファイルは、構成要素の故障の後ではRAID−5データ・ファイルとして格納される。図1に示す機能は、例えば、インタフェース・コントローラ、ディスク・コントローラおよびホスト、または、それらのいずれかを含むデータ記憶システムの1つまたは複数の部分を動作させるコンピュータ・プログラム・コードの中で実施される。
図2は、管理された信頼性のシステム環境を示す。環境200は、ホスト202、ディスク・コントローラ204およびディスク・アレイ206を含む。ホスト202は、例えば、SCSI、ファイバ・チャネル、イーサネット(登録商標)またはP1394のような1つまたは複数のバス接続またはネットワーク接続を介してディスク・コントローラ204に接続される。ディスク・コントローラ204は、ホスト202からデータ転送要求を受信すると、ディスク・アレイ206を構成する1つまたは複数のディスク・ドライブに対してコマンドを発行する。データ転送要求は、ディスク・アレイ206のディスクに格納されるデータと、RAM、EEPROMやディスク・コントローラ204の中の他のメモリ、あるいは、ディスク・アレイ206のドライブのメモリの中に存在するデータを含む。割込みや他の信号フォーマットを使用して、ディスク・アレイ206のディスクからディスク・コントローラ204、およびディスク・コントローラ204からホスト202、または、それらのいずれかにステータス情報を転送する。本発明の実施例の信頼性機能(またはその一部)を管理するコンピュータ・プログラム・コードは、ホスト202、ディスク・コントローラ204およびディスク・アレイ206のディスク・ドライブの中に常駐することができる。本発明の実施例を実施する場合に遂行される各種機能は、環境200の異なる部分に常駐することができるか、または必要に応じて各種構成要素に対してダウンロードすることができる。そのようなダウンロードは、ディスク・コントローラまたはディスク・ドライブのメモリからコンピュータ・プログラム・コードを読出し、プログラム・コードを格納し、診断コードまたは調整コードをダウンロードし、それらコードを実行し、何らかの結果を取得するか調整を遂行し、調整をチェックするか更なる診断を遂行した後、最初のプログラム・コードに戻ることを含む。ホスト202の中で動作するホストのコンピュータ・プログラム・コード210は、監視用コード、ユーザ・インタフェース用コード、スケジューリング用コード、診断用コード、構成要素調整用コードおよびその他コードを含むことができる。ユーザ・インタフェースは、データのスループット、待ち時間、エラー発生率、利用率などのようなシステム動作の概要を提供することができる。またユーザ・インタフェースは、スケジューリング機能、診断機能および構成要素調整機能をオペレータが制御できるようにすることができる。ユーザは、利用率の情報を採用して、診断ルーチンを走行させる時を選択または指定することができる。またオペレータは、一組の診断ルーチンから1つまたは複数の診断ルーチンを選択することができるが、そのような選択は、例えば、検出されたエラー発生率や待ち時間増加の検出のような傾向を表す情報を反映することができる。スケジューリング条件が満たされた結果として診断ルーチンを実行することができる。スケジューリング・イベントは、例えば、所定の時間が経過したこと、所定の数のデータ転送が遂行されたこと、またはシステム利用率のレベルが所定のレベルより低いか所定のレベルに等しいこと、あるいは、条件の組合せを含むことができる。診断ルーチンは、エラー条件または監視したパラメータが所定の値に一致するか所定の値を超過することに応答して、またはユーザ入力の結果として実行される。このように遂行される診断は、イベント・ドリブン型診断または閾値に基づく診断と呼ばれる。調整機能は、診断ルーチンとともに遂行されるか、単独で遂行される。調整機能は、ユーザ入力に応答して、スケジューリングに応答して、あるいは、イベントに応答して遂行される。
再び図2を参照すると、コンピュータ・プログラム・コード210は、ホスト202の中で動作し、コントローラ・プログラム・コード212は、ディスク・コントローラ204の中で動作し、ディスク・プログラム・コード214は、ディスク・アレイ206の1つまたは複数のディスクの中で動作する。監視機能、診断機能および調整機能のプログラム・コードの各種構成要素は、ホスト202、ディスク・コントローラ204およびディスク・アレイ206の1つまたは複数のディスクの間、または、それらのいずれかに分配される。前に注意したように、コードは、ホスト202、ディスク・コントローラ204および1つまたは複数のディスク・アレイ206または、それらのいずれかにダウンロードされる。コードは、ホスト202からディスク・コントローラ204およびディスク・アレイ206の1つまたは複数のディスクまたは、それらのいずれかにネットワークからダウンロードされる。コードは、ディスク・コントローラ204からディスク・アレイ206の1つまたは複数のディスクにダウンロードされる。コードのダウンロードは、構成要素から構成要素内に配置されたメモリまたはシステムのどこかに配置されたメモリに他のコードを保存することを含む。診断手続きと調整手続きが完了すると、コードはその構成要素に再ロードされる。図2のシステムは、例えば、本発明の実施例を実施するために採用されるコンピュータ・プログラム・コードの一部を含むことができるインタフェース・コントローラのようなプログラム可能な他の構成要素(示されず)を含むことができる。
図3は、管理された信頼性の実施例の流れ図である。ステップ302で、データが記憶サブ・システムの中に格納される。図1に関連して説明したように、データ記憶は、確実なデータの組織化(RDO)を利用する。ここで本発明の実施例は、特定のフォーマットや組織化あるいは組織化の組合せに限定されない。各種のデータ記憶フォーマットは、例えば、RAID−0、RAID−1およびRAID−5のようなデータ記憶システムの中で同時に採用されうる。つまり、フォーマットは、システム全体に拡張されうる。例えば、データの組織化は、2つのデータ記憶サブ・システムの異なる2つのドライブ上のRAID1フォーマットのデータを含むことができる。ステップ304で、システム・パラメータが取得されて監視される。システム・パラメータは、定期的にまたは連続して取得される。パラメータの監視は、最適使用方法モデルまたは他の装置パラメータと閾値との比較を含むとともに、率、傾向およびシステムと構成要素の動きと条件の他の表示の計算を含むことができる。監視は、SMART(自装置で監視して結果を報告する技術)の要素を採用することができる。SMARTは、業界が採用した故障を警告するための標準化された仕様である。SMARTは、ビット読出しエラーとトラック・シーク・エラーのようなドライブの過剰な内部エラーを監視することに基づいている。SMARTは、エラー発生率が閾値を超えているか否かをチェックし、そのような条件が存在する場合、ドライブのマイクロ・プロセッサで走行しドライブ・インタフェースを介してホストCPUに警告を送る故障警告アルゴリズムを採用する。SMARTは、起こりうるドライブの故障(と閾値の設定における問題点)に対して反応型方法を採用しているが、SMARTの各種態様は、本発明の実施例の監視機能の一部として取得されたパラメータの中で採用される。本発明の監視機能は、システム・パラメータと装置パラメータの連続監視と定期的監視、傾向の計算、最適使用方法モデルとの比較、システム利用率とドライブ・パラメータの調整を可能にする定期的およびイベント・ドリブン型診断を含むことができ、信頼性を向上するとともに寿命を延ばすことを提案する。
ステップ306で、スケジューリング条件や閾値イベントのようなイベントが発生したか否かの決定がなされる。スケジューリング条件は、所定の時間、所定の数の入出力または他のスケジューリング条件に依存することができる。スケジューリング条件は、例えば、所定の時間が経過したこと、所定の値より小さいか所定の値に等しい利用率の発生のような要因の組合せを採用することができる。スケジューリングは、システムの利用率が下がった期間中に診断が遂行される「利用可能な」シナリオを採用することができる。またスケジューリングは、エラー条件が存在しない限りシステム診断と調整の手続きが遂行されないように、タイム・オブ・デイまたは指定された期間の除外を含むことができる。閾値イベントは、エラー条件、記憶サブ・システムや構成要素の動作パラメータが所定の値または範囲の外にあること、またはユーザの入力を含むことができる。記憶システムの監視は、ホスト・システム、ディスク・コントローラ、ディスクやこれらの組合せで動作するコンピュータ・プログラム・コードを採用することができる。イベントが全然検出されない場合、処理は、ステップ304に続く。イベントが検出された場合、処理は、ステップ308に続く。ステップ308でチェックが遂行され、イベントが使用方法イベントであるか否かを決定する。使用方法イベントは、システム動作パラメータの定期的調整を含むことができるか、または所定の値より大きいか所定の値に等しいシステム動作パラメータを含むことができる。イベントが使用方法イベントであるとステップ308が決定すると、処理は、310に続き、ここでシステム動作パラメータが調整される。そのような調整は、キャッシュ・サイズを変更すること、待ち行列のアルゴリズム、データのマッピングまたは、その他パラメータを含むことができる。例えば、ウェブ・サーバで特定のウェブ・ページの人気が高まると、データに対する多数の要求が受信される。所望の最適使用方法モデルを超えるドライブまたはドライブのセットに対するアクセス率は、使用方法閾値イベントを発生することができる。ステップ310で遂行される調整は、ウェブ・ページのデータを格納するドライブに対してキャッシュを追加割り当てすることができ、データの一部を他のドライブに対して移動またはコピー(二重に)することができ、あるいは、そのデータに対して読出し要求を処理する率を減らすことができる。調整は、例えば、RAID−5からRAID−1から格納されたデータのフォーマットを変更して読出しパフォーマンスに影響を与えることを含むことができる。そのほか、使用頻度が少ないデータをRAID−1からRAID−5に変換して記憶容量を追加することができる。手続きは、読出し要求の数を絞って、ドライブ・ヘッドの冷却期間をつくり出すことを含むことができる。説明した調整は、例示であり、本発明の実施例は、システム動作を最適使用方法モデルのシステム動作にカスタマイズする何らかの調整を採用することができる。ステップ306で検出されたイベントが使用方法イベントではないとステップ308で決定されると、処理は、ステップ312に続く。
ステップ312で、診断を走行すべき1つまたは複数の構成要素が選択される。そのような選択は、監視したパラメータ、報告または検出したエラー、または各種構成要素を異なる間隔で診断することができるか、直列に個別診断することができるスケジューリングを反映する。ステップ314で、記憶システムは、選択された構成要素上で走行する診断の条件にセットされる。この状態は、選択された構成要素または複数の構成要素をオフ・ラインにすることを含む。走行する診断の性質と、診断用コンピュータ・プログラム・コードを実行するシステム内の位置に依存して、この状態は、保留中の入出力を実行して読出しバッファと書込みバッファまたは、そのいずれかを空にし、完了できなかった入出力のバッファ・データを保存し、インタフェース・コントローラ、ディスク・コントローラまたはディスク・ドライブの電子回路からのコンピュータ・プログラム・コードを保存し、あるいは1つまたは複数のディスク・ドライブからのユーザ・データを保存することを含むことができる。例えば、起こりうる読出しエラーのためユーザ・データが使用不能の場合、データをコピーするか再生して他のドライブに格納することができる。データは、ステップ302で採用されたフォーマットまたは複数のフォーマットと一致するようにバックアップ(格納)される。データのバックアップ(格納)は、データを同一システム内の記憶装置アレイの他のディスク・ドライブに分配するか、あるいは他の記憶システムに格納することを採用することができる。そのような記憶は、例えば、RAID−1フォーマットのデータをRAID−5フォーマットのデータに変換するように、データ・フォーマットの変換を採用することができる。データを格納することは、ディスク・ドライブ上のデータを上書きするか、さもなければデータ損失になりうる各種テストを遂行することを可能にする。インタフェース・コントローラ、ディスク・コントローラまたはディスク・ドライブの電子回路からのコンピュータ・プログラム・コードのデータを保存することは、診断または調整の機能の一部を実施するコンピュータ・プログラム・コードをコントローラおよびドライブまたは、そのいずれにダウンロードすることを可能にするとともに、当初のデータを後で復元することを可能にする。ステップ316で、システム入出力のマップを更新し、システムが診断を遂行しながらデータにアクセスすることを可能にする。ステップ318では、1つまたは複数の診断機能を遂行することができる。そのような診断は、各種読出し書込みテストを含むことができるとともに、動作条件とマージンを決定する読出しチャネルのフィルタリング、利得、サーボとトラッキングのフィードバックなどのような動作パラメータの調整を含むことができる。本発明の実施例は、特定型式の診断に限定されず、製造プロセス中に採用された診断ルーチンを都合良く採用することができる。ステップ320では構成要素を調整することができる。そのような調整は、ステップ318で遂行される診断から取得された情報を使用して遂行されるか、診断とともに遂行されて所望の値に「ホーム・インする」ことができる。診断ルーチンと調整ルーチンは、階層的にかつ回帰的に、または、そのいずれかの型式で遂行される。本発明の実施例は、遂行される各種型式の調整に限定されず、製造プロセス中に採用された調整を含むことができる。調整は、例えば、セクタの対応付け(ドライブをフォーマットすること)、書込み電圧または書込み電流の調整、読出し増幅器の利得調整、フィルタ係数、トラッキング・アルゴリズム、モーター速度およびアクチュエータの加速、または、それらのいずれかを含むことができる。また調整は、例えば、(SRAM、DRAMまたはEEPROMのような)装置のメモリ内のコードを再配置すること、コードをダウンロードすること、メモリを再割り当てすること、メモリの一部を除外することを含むことができる。ステップ318で遂行される診断機能は、定期的診断の場合のように調整を必要としないことを決定することができるので、ステップ320では調整は遂行されない。ステップ322では調整が検証される。調整が遂行されると、診断を遂行して調整の効果を決定するとともに、更なる調整の必要の有無を決定ことができる。ステップ318で検出された条件に関連して、検出した条件を修復するために採用される複数の調整動作が存在する。ステップ320、322は、所望の結果が達成されるまで、あるいは、その条件を修復できないことが決定されるまで各種調整が遂行されるという点で回帰的である。ステップ324では、ステップ314で格納されたデータがあれば、そのデータが復元される。この動作は、他の装置またはシステムからデータをコピーすることを含むことができるとともに、例えば、RAID−5からRAID−1への変換のように、記憶フォーマット間の変換を含むことができる。ステップ326では、必要に応じて入出力マップを更新する。入出力マップは、もしあれば、検出した条件が修復されたか否か、前にオフ・ラインにしたドライブに対してデータが復元されているか否か、あるいは、条件が修復されなかったか否かを反映する。代替的に、ステップ314で格納されたデータを格納された位置にとどめておいても良く、ステップ312で選択した構成要素の記憶容量を再割り当てしても良い。
図3に示すステップは、示されている順番に条件付きで遂行されるか、あるいは、回帰的に、またはセグメント化されて遂行される。例えば、いくつかの診断ルーチンは、データをバックアップすることを必要としない。診断の最初のセットを遂行すると、最初の診断の結果を採用して更なる診断を走行させるか否かを決定する。構成要素の調整は、優先順位をつけた調整ルーチンを採用する。例えば、診断した条件は、1つまたは複数の調整によって修復されるかも知れない。最初の調整を遂行すると、調整の結果を集めて、所望のレベルの動作が達成されたか否かを決定する。次に第2の調整が遂行される。第1の調整が遂行された後で第2の調整を再度、遂行することができるように、遂行は、回帰的であるか、相互に関係づけされる。
或る実施例では、診断と調整または、それらのいずれかのコンピュータ・プログラム・コードは、所有権があり、公表されておらず秘密であると考えられている。そのようなコードまたはそれの一部は、インタフェース・コントローラ、ディスク・コントローラまたは記憶装置のアレイに常駐することができるか、暗号化を採用するネットワークを介してアクセスされた後、実行される前にホスト・コンピュータ、インタフェース・コントローラ、ディスク・コントローラまたはディスク・ドライブのメモリの中で解読される。診断機能と調整機能を与えるコードの各部は、遠隔サイトで実行することができる。したがって、本発明の実施例は、独占的サービスとして提供される。
本発明の実施例は、記憶システムと構成要素の動作パラメータの定期的またはイベント・ドリブン型で診断し調整することができるとともに、製造プロセスに付随する低レベルの調整を含むことができる。記憶システムの動作パラメータを最適化することは、動作寿命を延ばすとともにデータ損失の可能性を小さくすることができる。診断ルーチンと調整ルーチンからの傾向情報を採用して、記憶システムの構成要素の故障の可能性と、構成要素を使用されるままにしておくべきか、交換すべきかの勧告を更に推定することができる。低レベルの診断と調整を使用することは、構成要素の故障の可能性を決定する場合にSMARTや同様な監視方法によって得られる精度よりも高い精度にすることができる。
診断と調整は、構成要素に特化されるか、システムに特化される。調整は、例えば、ディスク・ドライブのような単一構成要素の動作を反映するか、起こりうる振動やトラッキング・エラーをつくり出すディスク・ドライブのアクチュエータ加速率のように、複数の構成要素の相互作用を反映する。例えば、アクチュエータの加速率を変えるような本発明の実施例を採用して、1つまたは複数の構成要素が固定部分で緩んでいることを決定することができる。複数の構成要素の相互作用を反映する他の調整は、例えば、パケット・サイズまたはオフセットを含むことができる。
本発明の実施例の最適使用方法モデルは、突然故障の可能性を小さくすることや装置の動作寿命を延長することにつながる動作モードを定義する複数の動作パラメータを含む。これらのモデルは、装置のタイプに依存して変わる。例えば、ディスク・ドライブは、デスクトップ用から企業用までに広がっており、企業用ディスク・ドライブはより強靱であって高い利用率に適しているが、デスクトップ用ディスク・ドライブは、低アクセス率とシングル・スレッド・アクセスに適している。モデルは、どんな型式の記憶システムの装置に対しても与えられるので、1つのシステムの積極的な信頼性管理の中に複数のモデルを採用することができる。本発明の実施例の特徴を例示するために前述の説明を採用してきたが、本発明の実施例は、調整可能な構成要素を有するいかなる記憶システムにも適用可能である。
本発明の例示と説明のために前述の説明をしてきた。この説明が本発明を網羅することも、本発明が開示されている精緻な型式に限定されることも意図しておらず、更に上記教示を考慮すると他の改造や変更も可能である。本発明の原理と実際的な応用を最も良く説明し、当業者が各種実施例の中で本発明を最も良く利用できることを可能にするために、実施例を選択して説明した。更に各種改造は、熟慮された特定の使用方法に適している。特許請求の範囲は、先行技術によって限定される範囲を除き、本発明の代替可能な実施例を含むものと解釈すべきである。
管理された信頼性の構成要素のブロック図を示す図である。 管理された信頼性のシステム環境を示す図である。 管理された信頼性の実施例の流れ図を示す図である。
符号の説明
100 機能
102 確実なデータの組織化(RDO)
104 計画された信頼性管理(PRM)
106 閾値の信頼性管理(TRM)
108 ソフトウエアによるデータの再生と再構築(SDR)
200 環境
202 ホスト
204 ディスク・アレイ・コントローラ
206 ディスク・アレイ
210 コンピュータ・プログラム・コード
212 ディスク・アレイ・コントローラ・プログラム・コード
214 ディスク・プログラム・コード

Claims (41)

  1. データ記憶システムを動作させる方法であって、
    データ記憶システムの動作を監視し、
    データ記憶システムの動作の少なくとも1つのパラメータを取得し、
    データ記憶システムの少なくとも1つの構成要素を反映するデータ記憶システムのための最適使用方法モデルにアクセスし、
    データ記憶システムの動作を監視することによって取得した少なくとも1つのパラメータと、最適使用方法モデルに含まれる所定の値を比較し、
    少なくとも1つのパラメータが所定の値より大きいか所定の値に等しい場合、データ記憶システムの使用方法を調整すること、
    を含む前記方法。
  2. 請求項1に記載の方法において、前記データ記憶システムを調整するステップは、書込みキャッシュのサイズを変えることを含む前記方法。
  3. 請求項1に記載の方法において、前記データ記憶システムを調整するステップは、データ記憶システムの少なくとも1つのデータ記憶装置から他のデータ記憶装置にデータをコピーするとともに、データ要求の一部を少なくとも1つのデータ記憶装置から他のデータ記憶装置に向けることを含む前記方法。
  4. 請求項1に記載の方法において、前記データ記憶システムを調整するステップは、少なくとも1つのデータ記憶装置に対する連続したデータ・アクセスの継続時間を制限することを含む前記方法。
  5. 請求項1に記載の方法であって、
    調整のイベントが発生したか否かを決定し、
    少なくとも1つの記憶システム構成要素を識別し、
    少なくとも1つのデータ記憶システム構成要素を診断テストの条件にセットし、
    少なくとも1つのデータ記憶システム構成要素をテストする診断用コンピュータ・プログラム・コードを実行し、
    診断用コンピュータ・プログラム・コードから少なくとも1つのデータ記憶構成要素のパラメータを取得し、
    少なくとも1つのデータ記憶システム構成要素のパラメータが所定の値より大きいか所定の値に等しい場合、少なくとも1つのデータ記憶システム構成要素を調整すること、
    を更に含む前記方法。
  6. 請求項5に記載の方法において、前記調整のイベントが発生したか否かを決定するステップは、スケジューリング条件が満たされたか否かを決定することを含む前記方法。
  7. 請求項5に記載の方法において、前記調整のイベントが発生したか否かを決定するステップは、エラーが発生したか否かを決定することを含む前記方法。
  8. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素をテストの条件にセットするステップは、少なくとも1つのデータ記憶システム構成要素からのユーザ・データを他のデータ記憶構成要素に保存することを更に含む前記方法。
  9. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素をテストの条件にセットするステップは、少なくとも1つのデータ記憶構成要素からのユーザ・データを再構築して、前記データを他のデータ記憶構成要素に保存することを更に含む前記方法。
  10. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、書込み電圧を調整することを含む前記方法。
  11. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、セクタを対応付けすることを含む前記方法。
  12. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、アクチュエータの加速を調整することを含む前記方法。
  13. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、読出し増幅器の利得を調整することを含む前記方法。
  14. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、構成要素の半導体メモリを対応付けすることを含む前記方法。
  15. 請求項5に記載の方法において、前記診断用コンピュータ・プログラム・コードを実行するステップは、ネットワーク全体にわたってコンピュータ・プログラム・コードにアクセスすることを更に含む前記方法。
  16. 請求項5に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、ネットワーク全体にわたって調整用コンピュータ・プログラム・コードにアクセスすることを更に含む前記方法。
  17. 請求項16に記載の方法であって、前記コンピュータ・プログラム・コードを解読することを更に含む前記方法。
  18. 請求項5に記載の方法であって、前記少なくとも1つのデータ記憶システム構成要素に対してユーザ・データを復元することを更に含む前記方法。
  19. データ記憶システムを管理する方法であって、
    調整のイベントが発生したか否かを決定し、
    少なくとも1つの記憶システム構成要素を識別し、
    少なくとも1つのデータ記憶システム構成要素を診断テストの条件にセットし、
    少なくとも1つのデータ記憶システム構成要素をテストする診断用コンピュータ・プログラム・コードを実行し、
    診断用コンピュータ・プログラム・コードから少なくとも1つのデータ記憶構成要素のパラメータを取得し、
    少なくとも1つのデータ記憶システム構成要素のパラメータが所定の値より大きいか所定の値に等しい場合、少なくとも1つのデータ記憶システム構成要素を調整すること、
    を含む前記方法。
  20. 請求項19に記載の方法において、前記調整のイベントが発生したか否かを決定するステップは、スケジューリング条件が満たされたか否かを決定することを含む前記方法。
  21. 請求項19に記載の方法において、前記調整のイベントが発生したか否かを決定するステップは、エラーが発生したか否かを決定することを含む前記方法。
  22. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素をテストの条件にセットするステップは、少なくとも1つのデータ記憶システム構成要素からのユーザ・データを他のデータ記憶構成要素に保存することを更に含む前記方法。
  23. 請求項22に記載の方法において、前記データを保存するステップは、異なるフォーマットでユーザ・データを格納することを更に含む前記方法。
  24. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素をテストの条件にセットするステップは、少なくとも1つのデータ記憶構成要素からのユーザ・データを再構築して、データを他のデータ記憶構成要素に保存することを更に含む前記方法。
  25. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、書込み電圧を調整することを含む前記方法。
  26. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、セクタを対応付けすることを含む前記方法。
  27. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、アクチュエータの加速を調整することを含む前記方法。
  28. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、読出し増幅器の利得を調整することを含む前記方法。
  29. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、構成要素の半導体メモリを対応付けすることを含む前記方法。
  30. 請求項19に記載の方法において、前記診断用コンピュータ・プログラム・コードを実行するステップは、ネットワーク全体にわたってコンピュータ・プログラム・コードにアクセスすることを更に含む前記方法。
  31. 請求項19に記載の方法において、前記少なくとも1つのデータ記憶システム構成要素を調整するステップは、ネットワーク全体にわたって調整用コンピュータ・プログラム・コードにアクセスすることを更に含む前記方法。
  32. 請求項31に記載の方法であって、前記コンピュータ・プログラム・コードを解読することを更に含む前記方法。
  33. 請求項19に記載の方法であって、前記少なくとも1つのデータ記憶システム構成要素に対してユーザ・データを復元することを更に含む前記方法。
  34. ホスト・システムと、
    記憶装置コントローラと、
    複数のデータ記憶装置と、
    少なくとも1つのデータ記憶システム構成要素に用いる最適使用方法のモデルと、
    少なくとも1つのデータ記憶システム構成要素の少なくとも1つの動作パラメータを取得して、少なくとも1つの動作パラメータと最適使用方法モデルに含まれる所定の値を比較し、少なくとも1つの動作パラメータが所定の値より大きいか所定の値に等しい場合、データ記憶システムの使用方法を調整するコンピュータ・プログラム・コードと、
    を含むデータ記憶システム。
  35. ホスト・システムと、
    記憶装置コントローラと、
    複数のデータ記憶装置と、
    少なくとも1つのスケジューリング条件が満たされているか否かを決定し、少なくとも1つのスケジューリング条件が満たされている場合、診断用コンピュータ・プログラム・コードの実行を開始するスケジューリング用コンピュータ・プログラム・コードと、
    少なくとも1つの開始用イベントが発生したか否かを決定し、少なくとも1つの開始用イベントが発生した場合、診断用コンピュータ・プログラム・コードの実行を開始するイベント検出用コンピュータ・プログラム・コードと、
    診断用コンピュータ・プログラム・コードによって取得された少なくとも1つの構成要素パラメータ値と所定の値を比較し、少なくとも1つの構成要素パラメータが所定の値より大きいか所定の値に等しい場合、記憶システム構成要素の調整を遂行するコンピュータ・プログラム・コードと、
    を含むデータ記憶システム。
  36. 請求項35に記載のデータ記憶システムであって、故障が発生しても破壊されないようにデータ記憶システムに格納されたユーザ・データをフォトして格納する確実なデータ組織化コンピュータ・プログラム・コードを更に含む前記データ記憶システム。
  37. 請求項35に記載のデータ記憶システムであって、ユーザ・データが少なくとも1つのデータ記憶装置からアクセス不能な場合、複数のデータ記憶装置の少なくとも1つのデータ記憶装置からのユーザ・データを生成する確実なデータ組織化コンピュータ・プログラム・コードを更に含む前記データ記憶システム。
  38. 請求項35に記載のデータ記憶システムであって、前記診断用コンピュータ・プログラム・コードを実行する前に、少なくとも1つのデータ記憶装置からのユーザ・データを少なくとも1つの他のデータ記憶装置に保存するコンピュータ・プログラム・コードを更に含む前記データ記憶システム。
  39. 請求項14に記載のデータ記憶システムにおいて、前記調整を遂行するコンピュータ・プログラム・コードは、ネットワーク全体にわたってアクセスされる前記データ記憶システム。
  40. ホスト手段と、
    記憶装置コントローラ手段と、
    複数のデータ記憶装置手段と、
    最適使用方法モデル手段と、
    データ記憶システムのために少なくとも1つの動作パラメータを取得し、少なくとも1つの動作パラメータと、最適使用方法モデル手段に含まれる所定の値を比較する使用方法監視手段と、
    少なくとも1つの動作パラメータが所定の値より大きいか所定の値に等しい場合、前記システムの使用方法を変更するシステム使用方法調整手段と、
    を含むデータ記憶システム。
  41. ホスト手段と、
    記憶装置コントローラ手段と、
    複数のデータ記憶装置手段と、
    少なくとも1つのスケジューリング条件が満たされているか否かを決定し、スケジューリング条件が満たされている場合、診断手段の実行を開始するスケジューリング手段と、
    少なくとも1つの開始用イベントが発生したか否かを決定し、少なくとも1つの開始用イベントが発生した場合、診断手段の実行を開始するイベント検出手段と、
    診断手段によって取得された少なくとも1つの構成要素パラメータ値と所定の値を比較し、少なくとも1つの動作パラメータが所定の値より大きいか所定の値に等しい場合、記憶システム構成要素の調整を遂行する手段と、
    を含むデータ記憶システム。
JP2005105960A 2004-04-02 2005-04-01 管理された信頼性記憶システムと方法 Pending JP2005293594A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/817,617 US7350046B2 (en) 2004-04-02 2004-04-02 Managed reliability storage system and method monitoring storage conditions

Publications (1)

Publication Number Publication Date
JP2005293594A true JP2005293594A (ja) 2005-10-20

Family

ID=35137847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005105960A Pending JP2005293594A (ja) 2004-04-02 2005-04-01 管理された信頼性記憶システムと方法

Country Status (2)

Country Link
US (1) US7350046B2 (ja)
JP (1) JP2005293594A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269338A (ja) * 2007-04-20 2008-11-06 Hitachi Ltd ストレージ装置及び管理単位設定方法
JP2009543216A (ja) * 2006-06-27 2009-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・ストレージ・システムの制御のための方法およびコンピュータ・プログラム
JP2010186284A (ja) * 2009-02-12 2010-08-26 Hitachi Ltd ファイル入出力方法

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676502B2 (en) * 2006-05-22 2010-03-09 Inmage Systems, Inc. Recovery point data view shift through a direction-agnostic roll algorithm
US9209989B2 (en) * 2004-06-01 2015-12-08 Inmage Systems, Inc. Causation of a data read operation against a first storage system by a server associated with a second storage system according to a host generated instruction
US8868858B2 (en) * 2006-05-19 2014-10-21 Inmage Systems, Inc. Method and apparatus of continuous data backup and access using virtual machines
US8224786B2 (en) * 2004-06-01 2012-07-17 Inmage Systems, Inc. Acquisition and write validation of data of a networked host node to perform secondary storage
US8055745B2 (en) * 2004-06-01 2011-11-08 Inmage Systems, Inc. Methods and apparatus for accessing data from a primary data storage system for secondary storage
US7698401B2 (en) * 2004-06-01 2010-04-13 Inmage Systems, Inc Secondary data storage and recovery system
US8949395B2 (en) 2004-06-01 2015-02-03 Inmage Systems, Inc. Systems and methods of event driven recovery management
US7979656B2 (en) 2004-06-01 2011-07-12 Inmage Systems, Inc. Minimizing configuration changes in a fabric-based data protection solution
US7664983B2 (en) 2004-08-30 2010-02-16 Symantec Corporation Systems and methods for event driven recovery management
JP2006252031A (ja) * 2005-03-09 2006-09-21 Nec Corp ディスクアレイコントローラ
US8601225B2 (en) * 2005-09-16 2013-12-03 Inmage Systems, Inc. Time ordered view of backup data on behalf of a host
US8683144B2 (en) * 2005-09-16 2014-03-25 Inmage Systems, Inc. Causation of a data read against a first storage system to optionally store a data write to preserve the version to allow viewing and recovery
US8554727B2 (en) * 2006-05-19 2013-10-08 Inmage Systems, Inc. Method and system of tiered quiescing
US8838528B2 (en) * 2006-05-22 2014-09-16 Inmage Systems, Inc. Coalescing and capturing data between events prior to and after a temporal window
US8527470B2 (en) * 2006-05-22 2013-09-03 Rajeev Atluri Recovery point data view formation with generation of a recovery view and a coalesce policy
US8527721B2 (en) * 2008-12-26 2013-09-03 Rajeev Atluri Generating a recovery snapshot and creating a virtual view of the recovery snapshot
US8576722B2 (en) * 2006-08-22 2013-11-05 Centurylink Intellectual Property Llc System and method for modifying connectivity fault management packets
US9479341B2 (en) 2006-08-22 2016-10-25 Centurylink Intellectual Property Llc System and method for initiating diagnostics on a packet network node
US7634507B2 (en) * 2006-08-30 2009-12-15 Inmage Systems, Inc. Ensuring data persistence and consistency in enterprise storage backup systems
US7904689B1 (en) * 2007-08-16 2011-03-08 Sprint Communications Company L.P. Just in time storage allocation analysis systems and methods
US8006133B2 (en) * 2008-02-14 2011-08-23 International Business Machines Corporation Non-disruptive I/O adapter diagnostic testing
JP2009294803A (ja) * 2008-06-03 2009-12-17 Hitachi Ltd ストレージ装置の運用方法とストレージ装置およびストレージサブシステム
US8255562B2 (en) * 2008-06-30 2012-08-28 International Business Machines Corporation Adaptive data throttling for storage controllers
US8028194B2 (en) * 2008-07-25 2011-09-27 Inmage Systems, Inc Sequencing technique to account for a clock error in a backup system
US7983171B2 (en) * 2008-09-30 2011-07-19 International Business Machines Corporation Method to manage path failure thresholds
US8027263B2 (en) * 2008-09-30 2011-09-27 International Business Machines Corporation Method to manage path failure threshold consensus
US8069227B2 (en) * 2008-12-26 2011-11-29 Inmage Systems, Inc. Configuring hosts of a secondary data storage and recovery system
CN101668046B (zh) * 2009-10-13 2012-12-19 成都市华为赛门铁克科技有限公司 资源缓存方法及其装置、系统
US20110191626A1 (en) * 2010-02-01 2011-08-04 Sqalli Mohammed H Fault-tolerant network management system
US11429486B1 (en) 2010-02-27 2022-08-30 Pure Storage, Inc. Rebuilding data via locally decodable redundancy in a vast storage network
US20180365105A1 (en) 2014-06-05 2018-12-20 International Business Machines Corporation Establishing an operation execution schedule in a dispersed storage network
CN101887351B (zh) * 2010-06-22 2012-07-11 杭州华三通信技术有限公司 一种磁盘阵列容错方法及其系统
US8707105B2 (en) * 2010-11-01 2014-04-22 Cleversafe, Inc. Updating a set of memory devices in a dispersed storage network
US9323670B2 (en) 2010-12-13 2016-04-26 Seagate Technology Llc Protecting volatile data of a storage device in response to a state reset
US9280477B2 (en) 2010-12-13 2016-03-08 Seagate Technology Llc Data storage management in a memory device
US9268493B2 (en) * 2012-11-28 2016-02-23 Dell Products L.P. Systems and methods for smart storage interconnection in a heterogeneous storage environment
US9007829B2 (en) * 2012-12-07 2015-04-14 Phison Electronics Corp. Memory repairing method, and memory controller and memory storage apparatus using the same
TWI506642B (zh) * 2012-12-07 2015-11-01 Phison Electronics Corp 記憶體修復方法、記憶體控制器與記憶體儲存裝置
US9747034B2 (en) 2013-01-15 2017-08-29 Xiotech Corporation Orchestrating management operations among a plurality of intelligent storage elements
US9454443B1 (en) 2013-01-24 2016-09-27 Seagate Technology Llc Managed reliability of data storage
US9612956B2 (en) 2013-03-15 2017-04-04 Seagate Technology Llc Multi-tiered caching for data storage management in a device
US10127157B2 (en) * 2014-10-06 2018-11-13 SK Hynix Inc. Sizing a cache while taking into account a total bytes written requirement
US9558078B2 (en) 2014-10-28 2017-01-31 Microsoft Technology Licensing, Llc Point in time database restore from storage snapshots
US20180107421A1 (en) * 2014-12-02 2018-04-19 International Business Machines Corporation Multi-site duplication via high-level storage unit processing modules
US9678864B2 (en) * 2014-12-03 2017-06-13 Seagate Technology Llc Data reallocation upon detection of errors
US10268553B2 (en) 2016-08-31 2019-04-23 Seagate Technology Llc Adaptive failure prediction modeling for detection of data storage device failures
CN107577561A (zh) * 2017-09-14 2018-01-12 郑州云海信息技术有限公司 一种数据恢复方法、装置、设备及计算机可读存储介质
CN110058965B (zh) 2018-01-18 2023-07-28 伊姆西Ip控股有限责任公司 存储系统中的数据重建方法及设备
US11481265B2 (en) * 2019-06-06 2022-10-25 Micron Technology, Inc. Persistent health monitoring for volatile memory systems
US11163630B2 (en) * 2019-10-18 2021-11-02 Dell Products L.P. Using real-time analytics to manage application features
US11403029B2 (en) * 2020-10-30 2022-08-02 Dell Products L.P. System and method for managing cleaning policies of storage devices in storage device pools using self-monitored statistics and input/output statistics
EP4281879A1 (en) 2021-01-25 2023-11-29 Volumez Technologies Ltd. Remote online volume cloning method and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11154057A (ja) * 1997-11-21 1999-06-08 Alps Electric Co Ltd ディスクアレイ装置
JP2000311347A (ja) * 1999-04-23 2000-11-07 Sony Corp ドライブ装置
JP2001319330A (ja) * 2000-05-12 2001-11-16 Fujitsu Ltd 記憶装置
JP2002229867A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd ディスク装置の故障予知装置
JP2003085118A (ja) * 2001-09-13 2003-03-20 Fujitsu Ltd 周辺装置のパラメータ設定方法、及び、周辺装置
JP2003150326A (ja) * 2001-11-15 2003-05-23 Hitachi Ltd 記憶装置の制御方法および記憶装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6279108B1 (en) * 1987-06-02 2001-08-21 Seagate Technology Llc Programmable microcontroller architecture for disk drive system
JPH0774984B2 (ja) * 1991-06-10 1995-08-09 インターナショナル・ビジネス・マシーンズ・コーポレイション システム資源利用率測定方法とデータ処理システム
US5206497A (en) * 1992-04-06 1993-04-27 At&T Bell Laboratories Free-space optical switching apparatus
US5495607A (en) * 1993-11-15 1996-02-27 Conner Peripherals, Inc. Network management system having virtual catalog overview of files distributively stored across network domain
US5802069A (en) * 1995-11-13 1998-09-01 Intel Corporation Implementing mass storage device functions using host processor memory
US6247105B1 (en) * 1996-06-20 2001-06-12 Sun Microsystems, Inc. Externally identifiable descriptor for standard memory allocation interface
US6018432A (en) * 1996-10-17 2000-01-25 Seagate Technology, Inc. Disc drive operational response using idle mode compensation
US5944839A (en) * 1997-03-19 1999-08-31 Symantec Corporation System and method for automatically maintaining a computer system
US6073105A (en) * 1997-06-13 2000-06-06 Tele-Publishing, Inc. Interactive personals online network method and apparatus
US6061761A (en) * 1997-10-06 2000-05-09 Emc Corporation Method for exchanging logical volumes in a disk array storage device in response to statistical analyses and preliminary testing
US6332178B1 (en) * 1997-11-26 2001-12-18 Compaq Computer Corporation Method for estimating statistics of properties of memory system transactions
US6374367B1 (en) * 1997-11-26 2002-04-16 Compaq Computer Corporation Apparatus and method for monitoring a computer system to guide optimization
US6249890B1 (en) * 1998-06-05 2001-06-19 Seagate Technology Llc Detecting head readback response degradation in a disc drive
US20010056362A1 (en) * 1998-07-29 2001-12-27 Mike Hanagan Modular, convergent customer care and billing system
US6710952B1 (en) * 2000-01-19 2004-03-23 Hitachi Global Storage Technologies Netherlands, B.V. System and method for gracefully relinquishing a computer hard disk drive from imminent catastrophic failure
US6789132B2 (en) * 2000-02-09 2004-09-07 Seagate Technology Llc Modular disc drive architecture
US20020129048A1 (en) 2000-03-03 2002-09-12 Surgient Networks, Inc. Systems and methods for resource monitoring in information storage environments
AU2001259342A1 (en) * 2000-05-15 2001-11-26 Superspeed Software, Inc. System and method for high-speed substitute cache
EP1290558A1 (en) 2000-05-19 2003-03-12 Self Repairing Computers, Inc. A computer with switchable components
US6434673B1 (en) * 2000-06-30 2002-08-13 Intel Corporation Optimized configurable scheme for demand based resource sharing of request queues in a cache controller
US6708175B2 (en) * 2001-06-06 2004-03-16 International Business Machines Corporation Program support for disk fencing in a shared disk parallel file system across storage area network
US6744578B1 (en) * 2001-09-10 2004-06-01 Maxtor Corporation Method and apparatus for controlling write current in writer drivers
WO2003025755A2 (en) 2001-09-14 2003-03-27 Seagate Technology Llc sETHOD AND SYSTEM FOR CACHE MANAGEMENT ALGORITHM SELECTION
JP4026703B2 (ja) 2001-11-28 2007-12-26 株式会社日立製作所 記憶装置の運用管理システムおよび運用管理方法
US7003644B2 (en) 2002-03-28 2006-02-21 Seagate Technology Llc Execution time dependent command schedule optimization
JP4310070B2 (ja) 2002-04-26 2009-08-05 株式会社日立製作所 ストレージシステムの運用管理方式
US7193993B2 (en) 2002-05-23 2007-03-20 Intel Corporation Integrated medium access control device and physical layer device
JP2004302751A (ja) 2003-03-31 2004-10-28 Hitachi Ltd 計算機システムの性能管理方法、および、記憶装置の性能を管理する計算機システム
US20040215912A1 (en) 2003-04-24 2004-10-28 George Vergis Method and apparatus to establish, report and adjust system memory usage
US20050033625A1 (en) 2003-08-06 2005-02-10 International Business Machines Corporation Method, apparatus and program storage device for scheduling the performance of maintenance tasks to maintain a system environment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11154057A (ja) * 1997-11-21 1999-06-08 Alps Electric Co Ltd ディスクアレイ装置
JP2000311347A (ja) * 1999-04-23 2000-11-07 Sony Corp ドライブ装置
JP2001319330A (ja) * 2000-05-12 2001-11-16 Fujitsu Ltd 記憶装置
JP2002229867A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd ディスク装置の故障予知装置
JP2003085118A (ja) * 2001-09-13 2003-03-20 Fujitsu Ltd 周辺装置のパラメータ設定方法、及び、周辺装置
JP2003150326A (ja) * 2001-11-15 2003-05-23 Hitachi Ltd 記憶装置の制御方法および記憶装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009543216A (ja) * 2006-06-27 2009-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・ストレージ・システムの制御のための方法およびコンピュータ・プログラム
JP2008269338A (ja) * 2007-04-20 2008-11-06 Hitachi Ltd ストレージ装置及び管理単位設定方法
JP2010186284A (ja) * 2009-02-12 2010-08-26 Hitachi Ltd ファイル入出力方法

Also Published As

Publication number Publication date
US7350046B2 (en) 2008-03-25
US20050240792A1 (en) 2005-10-27

Similar Documents

Publication Publication Date Title
JP2005293594A (ja) 管理された信頼性記憶システムと方法
US7526684B2 (en) Deterministic preventive recovery from a predicted failure in a distributed storage system
US10268553B2 (en) Adaptive failure prediction modeling for detection of data storage device failures
US7574623B1 (en) Method and system for rapidly recovering data from a “sick” disk in a RAID disk group
US7191283B2 (en) Grouping of storage media based on parameters associated with the storage media
US8473779B2 (en) Systems and methods for error correction and detection, isolation, and recovery of faults in a fail-in-place storage array
US6886108B2 (en) Threshold adjustment following forced failure of storage device
US7707060B2 (en) Automatic collection and dissemination of product usage information
US6986075B2 (en) Storage-device activation control for a high-availability storage system
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
US20060053338A1 (en) Method and system for disk drive exercise and maintenance of high-availability storage systems
US20080256397A1 (en) System and Method for Network Performance Monitoring and Predictive Failure Analysis
US8566637B1 (en) Analyzing drive errors in data storage systems
US8601212B2 (en) Scheduling read operations during drive reconstruction in an array of redundant disk drives
JP2008065433A (ja) 計算機システム及び性能チューニング方法
JP2006268673A (ja) 記憶制御装置及び記憶デバイスのエラー制御方法
US8370688B2 (en) Identifying a storage device as faulty for a first storage volume without identifying the storage device as faulty for a second storage volume
JP2010128773A (ja) ディスクアレイ装置、そのディスク管理方法及びそのディスク管理プログラム
JP4807172B2 (ja) ディスクアレイ装置及びパトロール診断方法及びパトロール診断制御プログラム
JP4775843B2 (ja) ストレージシステム及び記憶制御方法
CN113179665A (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
US20060245103A1 (en) Storage device system operating based on system information, and method for controlling thereof
JP2006079219A (ja) ディスクアレイ制御装置およびディスクアレイ制御方法
JP4968078B2 (ja) 故障診断装置及び故障診断方法
JP2012018481A (ja) ディスクアレイ装置およびディスクアレイ制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080401

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110415

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111115