JP2006244447A - データ記憶アレイにおける障害傾向の検出及び訂正を行う装置及び方法 - Google Patents

データ記憶アレイにおける障害傾向の検出及び訂正を行う装置及び方法 Download PDF

Info

Publication number
JP2006244447A
JP2006244447A JP2005202408A JP2005202408A JP2006244447A JP 2006244447 A JP2006244447 A JP 2006244447A JP 2005202408 A JP2005202408 A JP 2005202408A JP 2005202408 A JP2005202408 A JP 2005202408A JP 2006244447 A JP2006244447 A JP 2006244447A
Authority
JP
Japan
Prior art keywords
data
data storage
storage devices
analysis
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005202408A
Other languages
English (en)
Other versions
JP5059304B2 (ja
Inventor
Robert S Gittins
シャーウッド ギティンズ ロバート
Robert M Lester
マイケル レスター ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seagate Technology LLC
Original Assignee
Seagate Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seagate Technology LLC filed Critical Seagate Technology LLC
Publication of JP2006244447A publication Critical patent/JP2006244447A/ja
Application granted granted Critical
Publication of JP5059304B2 publication Critical patent/JP5059304B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/36Monitoring, i.e. supervising the progress of recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2508Magnetic discs
    • G11B2220/2516Hard disks
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/41Flat as opposed to hierarchical combination, e.g. library of tapes or discs, CD changer, or groups of record carriers that together store one title

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】データ記憶アレイにおけるパラメータの障害傾向を検出しシステムの障害を回避する。
【解決手段】複数のデータ記憶装置は、このうちの複数によるアドレス可能なメモリ・アレイ空間を形成するように構成されている。コントローラは、メモリ・アレイ空間へのアクセスを制御し、履歴ログへ各データ記憶装置からの動作性能データを累積する。コントローラの統計解析エンジンは、データ記憶装置の異常な動作を検出するために動作性能データを解析する。コントローラは、要求に応じまさに前記解析に応答してデータ記憶装置特定の訂正処置を開始する。統計解析エンジンによる解析は、個々のデータ記憶装置による解析の外に、または、この解析の代わりともなり得る。データ要求ブロックは、与えられたパラメータの追加のデータ・サンプルを要求し、または前記解析を促進するために追加のパラメータ・データを要求する。
【選択図】図5

Description

本請求になる発明は、一般的には、データ記憶システムの分野に関し、特に、限定する意図ではないが、データ記憶アレイにおけるパラメータ障害の傾向を検出し訂正する装置及び方法に関する。
マルチ・デバイス・アレイ(MDA)は、比較的大きなデータ空間記憶システムであり、デバイス相互のアドレス可能なメモリ空間を提供するように共に集められたハード・ディスク・ドライブ(HDD)のような多数のデータ記憶装置を有している。MDAは、多種類のデータ集中アプリケーション、ウエッブ・サーバ及び他のネットワーク・アクセス・システムでますます使用されている。
個々のデータ記憶装置は、早期の障害傾向検出能力を提供するために種々の動作パラメータを監視するルーチンを備えることができる。これにより、データ空間記憶システムの他の部分に悪影響を及ぼすシステム障害イベントより前にユーザは関連するデータ記憶装置の再配置または置換のような適切な訂正処置を取ることができる。
MDAの信頼性及び使用が連続的に増大したために、実施可能ではあるが障害傾向を解析することができ、かつシステム障害イベントを回避することができる方法の要求が依然として続いている。
本発明の好適な実施例は、一般的には、データ記憶アレイにおけるパラメータの障害傾向を検出して訂正する装置及び方法に関する。
好適な実施例に従って、ハード・ディスク・ドライブのような複数のデータ記憶装置は、マルチ・デバイスのアドレス可能なメモリ・アレイ空間を形成するように構成してある。コントローラは、そのメモリ・アレイ空間へのアクセスを制御するために設けられている。
コントローラは、各データ記憶装置から履歴ログへ動作性能データを累積するように構成されている。このコントローラの統計解析エンジンは、多数のデバイスにわたるデータの水平解析を含む、データ記憶装置の異常な動作を検出するためにデータを解析する。コントローラは、必要に応じて、その解析に応答してデータ記憶装置の特定の訂正動作イベントを開始するために訂正動作モジュールを利用する。
統計解析エンジンによる解析は、個々の装置による解析のほかに、または、この解析の代わりに行うことができる。データ要求ブロックは、その解析を促進するために、一定のパラメータに関する追加のデータ・サンプルを要求する、すなわち、その解析を促進するために更に追加のパラメータ・データを要求する。グラフィック・ユーザ・インターフェイス(GUI)は、アラーム表示をシステム・ユーザに報告し、並びに、ユーザが特定したデータの集成及び解析を容易にする。
請求になる本発明を特徴付ける上記及び種々の他の特徴及び利点は、次の詳細な記載を読み、かつ、関連する図面を吟味した時に明らかとなろう。
図1は、データ記憶装置100の分解図を示す。このデータ記憶装置100は、コンピュータ化されたデータを記憶し検索するために使用される種類の3.5インチフォームファクタのハード・ディスク・ドライブとして特徴付けることが好ましいが、これは、請求になる本主題の範囲を限定するものではない。
データ記憶装置100は、基部デッキ104と上カバー106から形成された硬質で環境制御式のハウジング102を有している。スピンドル・モータ108は、比較的高速度で多数のデータ記憶メディア110を回転するようハウジング102の中に取り付けられている。
データは、対応するデータ変換ヘッド112のアレイによりアクセスされるメディア110の同心形のトラック(図示せず)に配列されている。データ変換ヘッド112(トランスジューサ)は、アクチュエータ114により支持され、そして、音声コイル・モータVCM116への電流の印加によりメディア表面上を移動される。フレックス回路アセンブリ118は、アクチュエータ114と、外部取り付けのプリント回路板PCB120上の制御回路との間の通信を容易にする。
図2に示したように、制御回路は、適当なインターフェイス・プロトコルを使用してホスト装置と通信するインターフェイス回路124を有することが好ましい。トップ・レベル・プロセッサ126は、データ記憶装置100に対してトップ・レベル制御を行い、データ記憶装置100の動作を指示するために適当なプログラミングをもつプログラム可能な汎用プロセッサとして特徴付けることが好ましい。
読み取り/書き込みチャネル128は、ディスク110にデータを書き込み、このディスク110からデータを回復するためにプリアンプリファイヤ/ドライバ回路(プリアンプ)130と共に動作する。サーボ回路132は、ヘッド112のための閉ループ位置制御を行う。
トップ・レベル・プロセッサ126は、データ記憶装置100の動作中に障害傾向検出を行うためのプログラミング・ルーチンを有することができる。当業者が認識すると思われるが、データ記憶装置100の動作に関連した種々のパラメータは、オーバータイムを監視することができ、これらのパラメータの値の変化は、性能の低下または差し迫った障害の開始を信号で知らせることができる。この方法で監視できるパラメータは、読み取り誤り率、チャネル品質、ヘッド・バイアス電流の大きさ、サーボ位置決め時間、スピンドル・モータの速度、振動レベル、動作温度レベル、厳しい温度の発生またはメディアにおける他の成長欠陥などを含むが、これらに限定はされない。
一つの試みでは、種々のパラメータの予め選択された閾値レベルが確立される。関連する閾値に到達すると、データ記憶装置100は、エンド・ユーザに警報を与えて、このデータ記憶装置100により記憶されたデータの再配置及び障害装置の新ユニットへの交換のようなシステム・データの完全性を確保するための適切な訂正処置を取らせることができる。
多数の組のデータ記憶装置100を、図3で140として一般的に示したようなマルチ・デバイス・アレイ(MDA)に組み込むことは、ますます一般化しつつある。MDA140は、単一の比較的大きなアドレス可能メモリ空間を提供するためにデータ記憶装置100のデータ記憶容量を共同利用する。公知のRAID技術は、種々のデータ記憶装置100にわたるデータの記録を分散するために使用することが好ましい。
そのN個のデータ記憶装置100は、共通の入力/出力ブロック142と通信するように構成されている。電源ブロック114とバッテリ・バックアップ電源146は、MDA140の正常な要求及びスタンバイ要求を満足するように設けられている。
図4には示してないが、その構成要素は、ラックまたは他のシステム内へ組み込むことができる単一のプラグ−アンド−プレイ・ユニットを提供するように共通のハウジング内へ配列することが好ましい。冷却ファン及び相互連絡用のバックプレインのような追加の要素は、図示の明確化のために省略してあり、図4に示した冗長な組の要素(例えば、2つの電源、2つのバッテリ・バックアップなど)は、システムの信頼性及び利用性を高めるためにMDA140内に組み込むことが好ましい。
図4は、140のような多数のMDAが組み込まれているネットワーク150を示す。各MDA140は、各それぞれのMDA140に対するアクセスを制御する関連のコントローラ152を有するように示してある。各コントローラ152は、MDA140に対する大規模なデータ転送を制御するために比較的強力な汎用プロセッサと比較的大きなキャッシュ・メモリ空間を有することが好ましい。
図示はしないが、2つのコントローラ152と2つのMDA140は、冗長性を得るために各場所で縦列的に動作される。コントローラ152は、ファブリック156を介して多数のホスト・コンピュータ154と通信をする。ファブリック156は、インターネット、広域ネットワークまたは他のネットワーク接続システムを含むことができる。
図5は、図4からの各コントローラ/MDAの組み合わせの好適な動作アーキテクチャを示す。以下に更に詳しく説明するように、MDA140における各データ記憶装置100からの動作パラメータのデータは、コントローラ152によりデータ・ログ160内へ累積される。
統計解析エンジン162は、データを解析し、該当する場合は、訂正処置モジュール164を使用してデータ記憶装置特定の訂正処置を開始する。訂正処置モジュール164は、ユーザに対して可視式及び/または可聴式アラーム表示器及び他の出力を提供するためにGUI166(グラフィック・ユーザ・インターフェイス)とインターフェイス接続されている。GUI166により、更に、ユーザ特定のデータ要求及び解析を開始するために、統計解析エンジン162へのアクセスが可能となる。統計解析エンジン162は、更に、要求に応じて、データ・ログ160へ供給されるパラメータ・データの種類及び/またはサンプリング周波数を調整するために、指令ブロック168を介してパラメータ監視データの要求を行う。
データ・ログ160は、MDA140内のデータ記憶装置100により提供される不揮発性のメモリ空間の指定された一部に記憶されることが好ましい。ここからログ全体またはその選択された一部は、統計解析エンジン162によるアクセスを可能にするためにコントローラ152のキャッシュ・メモリ空間へアップロードされる。或いは、(専用アレイを有する)メモリ空間の別個の設備が、データ記憶装置100からのパラメータ・データを記憶するためにコントローラ152によりアクセス可能に設けられる。
データ・ログ160は、与えられたアプリケーションの必要条件に依存して、任意の数の形態をとることができる。特に有用なフォーマットは、図6により一般的に示してあるが、これは、各データ記憶装置100から個々のパラメータ・データを(経過時間のような)共通の指標を使用する別々の「列」で提供する。
従って、例えば、装置1に関する列は、時間に関する履歴シーケンスで単一のパラメータ(例えば、チャネル品質)についてのデータの全てを含むことができ、後で得られるCQ測定値は終わりに添付される。同様なデータは、残りの装置2からNの各々に関する隣接する列で提供される。別々の「シート」は、監視される異なる動作パラメータの各々を追跡するために形成することができる。
しかし、同一のテーブル内へ全てのまたは関連する一部の組の相関パラメータをグループ化し、すなわち各装置当たり異なるシートを提供するフォーマットを備えた、データ・ログ160用の他の構成は容易に考えられる。それでも、データ・ログ160は、MDA140における関連のデータ記憶装置100の全てにわたる履歴のパラメータ・データを表す。
これにより、垂直データ・ブロック170により示されるデータ記憶装置100の1つと関連したデータに対する統計解析エンジン162による垂直解析の実行、及び、水平データ・ブロック172により示される多数の装置にわたる統計解析エンジン162による水平解析の実行が容易となる。
かくして、潜在的な解析モードの階層は、図7に示したように想像される。ある好適な実施例では、個々のデータ記憶装置100は、動作中に選択パラメータの別個の監視を実行するように元々構成されたままで動作を続行する。このことは、ブロック174により表される。この動作は、各装置におけるローカルのトップ・レベル・プロセッサ130(図2)により別個に実施される。
この例では、特定のパラメータが処理禁止のものであるということがわかると、警報表示をローカルのインターフェイスブロック124を介してMDA入力/出力ブロック142に送ることができ、これはコントローラ152に知らされる。コントローラ152は、このイベントをログに記録するか、または訂正処置モジュール164とGUI166を介してユーザに知らせるような適切な処置をとる。適切な訂正処置は、そのイベントの厳しさに依存し、コントローラによる特定の命令制御入力に応答して装置により、またはユーザの介在により装置レベルで取られてもよい。
上記の動作の他に、個々のデータ記憶装置100により集められ解析されたパラメータ・データの全ては、履歴データをデータ・ログ160に累積するためにデータ・ログ160に送ることが好ましい。
図7で提供された解析の他のレベルは、ブロック176で示した、統計解析エンジン162による上記の垂直解析である。個々のデータ記憶装置100が本来の場所でパラメータ解析を続行する上記の例を使用すると、パラメータ解析により別のレベルの検証能力が提供される。すなわち、統計解析エンジン162は、ローカルプロセッサ130と縦列的に同一解析を実行し、システムの信頼性を増し、誤りの存在を減少させることができる。
統計解析エンジン162は、第1のパス・フィルタ・スクリーンとして作用するように、あるいはローカルプロセッサ130に依存することができるので、個々のデータ記憶装置100により設定された警報は、コントローラ・レベルで調査及び解析を開始するために統計解析エンジン162への入力として役立つ。この場合、統計解析エンジン162は、現存のデータに対し高級な統計解析を行い、状況を評価して、障害傾向が実際に検出されたか否か、及び、もし行うとすれば、どんな訂正処置が取られるべきかに関する決定に到達するために、関連するデータ記憶装置100により以前は提供されなかった追加データ(すなわち、より大きなサンプルの周波数、他の利用可能ではあるが通常は報告されないパラメータの報告など)を要求する発見的方法を使用してもよい。
もう1つの他の実施例では、個々の装置レベルにおけるローカル化されたパラメータの最適化は除去されているが、これは、更に強力な統計解析エンジン162により代わって実行される。この場合、データ記憶装置100は、単に、関連する実行時間のパラメータ・データをデータ・ログ160にアップロードするが、その解析は全然行われないかまたは最小限に限られる。
この特定の試みの利点は、個々の装置の設計及びプログラミングの簡略化である。それは、この解析に要求されるパワーと資源は、設計から除去することができるからである。なお、当業者には、この簡略化により、装置あたりかなりのコスト節減を行うことができ、これに、MDA内に組み込まれた装置の途方もない量を掛算すると、かなりのコスト節減及びシステム利用の進歩をもたらすことができるということが理解されよう。
または、その解析側における個々の装置レベルでのシステム資源の解放は、個々の装置がデータ・ログ160へより大きな量のデータ(より多くのサンプル及びより多くの数のパラメータ)を移動するために利用することができる。
従って、この別の試みでは、ブロック176により表される垂直解析は、個々のデータ記憶装置100により行われるローカルのパラメータ解析に置き換わるものと考えられる(ブロック174)。前述のように、コントローラ152の更に大きな処理能力のために、現在利用可能なよりも更に複雑な計算集中的統計処理をデータに対して加えることができる。更に、より多くのデータを得て解析品質を高めるために初期傾向の検出によりブロック168を介して関連するデータ記憶装置100に、適切なデータ要求をもたらすことができる。
図7のブロック178は、MDA140における多数のデータ記憶装置100にわたる上記の水平解析を示す。この解析レベルは、例えば、時間ベースまたはパラメータ・ベースでブロック174及び/または176の水平解析の他に行われることが好ましい。なお、ブロック178の水平解析は、履歴ログ160における少なくとも一部のデータの組に対する解析に関わるもので、この一部の組は、MDA140におけるデータ記憶装置100の内の少なくとも複数個に関連している(すなわち、要求に応じてそのアレイにおける複数のデータ記憶装置または全ての装置にわたっている)。
GUI166を介して開始されたユーザ特定の質問及び解析は、ブロック180に示してある。なお、図7における種々のブロックは、単一でまたは組み合わせて利用することができ、その一つの出力は、他の実行の自動的なトリガとすることができる。
図8は、解析ブロックを好都合に利用することができる一つの方法を示す。図8は、指標x軸190と共通振幅y軸192に対してグラフでプロットした包括的な一連のパラメータ履歴曲線182、184、186、188を提供する。このパラメータの組のグラフ表示は、関連する処理を実行するために、統計解析エンジン162により必ずしも要求されるものではないが、これらのグラフは本記載を容易にし、所望によりGUI166を介してユーザに容易に提供することができるということが認識されよう。
第1の例では、パラメータ履歴曲線182、184、186、188は、特定のパラメータ、この場合には誤り率にそれぞれ関連した装置1、2、3、Nの各々のデータを表すということが想定される。このデータは、より低い値が「より良い」ものであり、より高い値が「より悪い」ものとなるように表されているが、これは単に一つの利用可能な処方である。関連するベースライン値は、破線により示してある。
(194で局部的に示した)装置Nに対する誤り率におけるかなりの上昇傾向は、傾向解析(移動平均など)によるか、または、関連する閾値(図示せず)の交差により容易に検出することができるということが理解できる。
誤り率の増加は、それ自体必ずしも特定の原因を示唆するものではないが、システムの性能に対する障害傾向の影響を最小にするように影響を受けたデータの再配置のような即時の救済的な訂正処置を取ることを可能にする。しかし、更なる監視及び診断は1つ以上の原因を分離するために行うことができ、これによりシステムからの問題を除去することができる。例示的な訂正処置には、特定のヘッド/メディアの組み合わせの廃棄、MDA内における待機「スペア」の代わりとしての特定の装置の使用、別のRAIDまたはECCレベルの適用、ルーチンの予定保全の実行などが含まれる。
この例を続行すると、MDA140内における多数の装置にわたるデータの解析により、このイベントに関し更なる重要な情報が提供され、すなわち、装置Nのみが誤り率の局部的増大を現在経験していて、他の装置は明らかに該当する時間期間内において影響を受けないということが知られよう。換言すれば、この点において障害イベントは装置Nに分離されるように見える。
読者は、同一の知識はブロック174の分離した個々の装置レベルの解析に単に頼ることによって利用可能になるように見えるが、事実はそうではなく、禁止条件の傾向を識別するためのアレイ内における他の装置のうちのいずれかの障害は、特定のデータが同時に各装置にとって何であるかを全体的に知ることと同一ではないということを知るであろう。従って、統合されたデータ・ログの試みにより、データ・イベントが単一の装置へ分離される時でも、そして、個々の装置レベルで行われるのと同一レベルの解析が行われる時でも優れた解析及び訂正処置動作が行われる。
図8を用いて他の例を続行すると、パラメータ履歴曲線182、184、186、188の各々は、例えば、同一または異なる装置に対してそれぞれチャネル品質、サーボ認定時間(servo qualification time)、回転振動及びトラック外れエラーのような種々のパラメータを表すということが考えられる。この場合、それぞれのパラメータの相互依存性への更なる洞察が可能となる196と198でのようなパラメータ間の相関関係を識別することができる。例えば、198における減少が194における対応の増大を誘導するようなタイム・ラグ関係を確立することもできる。この関係を識別すると、特定のイベントの真の原因を更によく分離することができる。
例えば、パラメータ履歴曲線184に関連した装置(装置2)は、パラメータ履歴曲線186により示される装置(装置3)に作用することでパラメータ履歴曲線188(装置N)にエラーを誘導するということを決定してもよい。従って、装置2の調整または置換により、装置3とNなどにより経験される動作上の難点が解決されよう。
今や、本明細書に示した本発明の好適な実施例は、従来技術に比較して利点を提供するということが理解されよう。いくつものデータ記憶装置100にわたり履歴データを累算するデータ・ログ160を使用することによりコスト節減とシステム資源の解放、装置単位でのパラメータ・データのより深い大規模な解析、及び多数の装置にわたるデータの解析を行うことができる。
添付の請求項のために述べれば、列挙した第1の手段は、図5で示したコントローラの構造に対応するものと理解され、統計解析エンジンは、図6と図7に示した水平解析を実施するように構成されている。
なお、本発明の種々の実施例の数多くの特徴及び利点は、本発明の種々の実施例の構造及び機能の詳細と共に上記記載で示されたが、この詳細な記載は、単に例示的なものであって、種々の変更は、詳細に、特に、添付の請求項を表現する用語の広い一般的な意味により示される十分な程度まで本発明の原理内における部品の構成及び配置の点でなし得ようということは理解されるべきである。例えば、特定の要素は、本発明の主旨及び範囲から逸脱せずに特定の制御環境に依存して変化してもよい。
更に、ここに記載した実施例は、共通のアドレス可能なメモリ空間を提供するためのいくつものハード・ディスク・ドライブを使用するマルチ・ディスク・アレイに関するものであるが、当業者は、請求の主題はそのように制限されるものではなく、光ベースの固体データ記憶装置を含む種々の他のデータ記憶システムが請求になる本発明の主旨及び範囲から逸脱せずに容易に利用することができるということを理解するであろう。
本発明の好適な実施例に従って構成され動作されるデータ記憶装置の分解図である。 図1のデータ記憶装置の一般化した機能ブロック図である。 図1と図2に示したような複数のデータ記憶装置から形成されたマルチ・デバイス・アレイ(MDA)の要部を示す。 図3に示したような多数のMDAを利用するネットワーク・システムを示す。 本発明の好適な実施例に従う選択されたMDA/コントローラ・サブ・システムの動作の一般化した機能ブロック図を提供する。 図5のデータ・ログのための好適なフォーマットを示す。 図5のサブ・システムにより実行される他の統計解析方法の流れを提供する。 図5のサブ・システムの好適な動作をよりよく示すための多数のパラメータ・データの組をグラフで示す。
符号の説明
100 データ記憶装置
102 ハウジング
104 基部デッキ
106 上カバー
108 スピンドル・モータ
110 メディア
112 データ変換ヘッド
114 アクチュエータ
116 音声コイル・モータVCM
118 フレックス回路アセンブリ
120 プリント回路板PCB
130 プリアンプ

Claims (20)

  1. マルチ・デバイス・メモリ・アレイ空間を形成するように構成された複数のデータ記憶装置と、前記マルチ・デバイス・メモリ・アレイ空間へのアクセスを制御するコントローラとを有し、このコントローラは、前記複数のデータ記憶装置の各々からの動作性能データを履歴ログ内へ累積し、前記データを解析して前記複数のデータ装置の異常な動作を検出し、及び、前記解析に関してデータ記憶装置特定の訂正処置を開始するように構成されている、装置。
  2. 複数のデータ記憶装置の各々は、このデータ記憶装置の異常な動作を検出するためにこの記憶装置に関連した履歴ログ内へ累積された動作性能データを解析する、請求項1に記載の装置。
  3. 前記コントローラによる前記データの解析は、前記複数のデータ記憶装置の内の複数のものに関連したパラメータ・データを有する、請求項1に記載の装置。
  4. 前記コントローラは、前記データを解析するために前記データ・ログに記憶されたデータで動作する統計解析エンジンを有する、請求項1に記載の装置。
  5. 前記コントローラは、更に、前記データ記憶装置の前記異常な動作の検出に応答して前記装置のユーザに対し警報表示を送る訂正処置モジュールを有する、請求項4に記載の装置。
  6. 前記データ・ログに累積されたデータで前記統計解析エンジンによりユーザ特定の解析を容易にするために前記統計解析エンジンと通信するグラフィック・ユーザ・インターフェイスを更に有する、請求項4に記載の装置。
  7. 前記統計解析エンジンに応答して前記データ・ログに追加のデータを提供するために前記データ記憶装置の内の少なくとも選択されたものに対し要求を発する前記統計解析エンジンと通信するデータ要求ブロックを有する、請求項4に記載の装置。
  8. 前記データ・ログは、前記複数のデータ記憶装置により確立された前記アレイ空間に記憶される、請求項1に記載の装置。
  9. 前記複数のデータ記憶装置の各々は、移動可能なトランスジューサによりアクセスされる少なくとも1つの回転可能なデータ記憶媒体を備えたハード・ディスク・ドライブとして特徴付けられる、請求項1に記載の装置。
  10. マルチ・デバイス・メモリ・アレイ空間を形成するように構成された複数のデータ記憶装置と、
    前記複数のデータ記憶装置の各々から動作性能データを累積し、前記複数のデータ記憶装置の内の複数のものに関連した前記データの一部の組の解析を行い、該解析の結果としての異常なイベントの検出に応答してユーザに対し警報表示を提供する第1の手段とを備えた装置。
  11. 前記複数のデータ記憶装置の少なくとも1つは、前記累積された動作性能データの解析を行い、前記第1の手段は、前記複数のデータ記憶装置の少なくとも1つにより行われた解析に応答して動作する、請求項10に記載の装置。
  12. 前記第1の手段は、更に、該第1の手段による累積及び解析のための追加のデータを供給するために前記複数のデータ記憶装置の少なくとも1つに対しデータ要求命令を発する、請求項10に記載の装置。
  13. マルチ・デバイス・メモリ・アレイ空間を形成するために複数のデータ記憶装置を配列するステップと、
    前記アレイ空間へのアクセスを制御するコントローラを提供するステップとを有し、該コントローラは、前記複数のデータ記憶装置の各々からの動作性能データを履歴ログ内へ累積し、前記データを解析して前記複数のデータ装置の異常な動作を検出し、及び、まさに前記解析に関してデータ記憶装置特定の訂正処置を開始するように構成されている、方法。
  14. 前記複数のデータ記憶装置の各々の異常な動作を検出するためにこのデータ記憶装置に関連した前記履歴ログ内へ累積された動作性能データを別個に解析するようそのデータ記憶装置を構成するステップを更に有する、請求項13に記載の方法。
  15. 前記提供するステップが行われている最中の前記データの解析は、前記複数のデータ記憶装置の内の複数のものに関連したパラメータ・データの解析を有する、請求項13に記載の方法。
  16. 前記提供するステップの前記コントローラは、前記データを解析するために前記データ・ログに記憶されたデータで動作する統計解析エンジンを有する、請求項13に記載の方法。
  17. 前記提供するステップの前記コントローラは、更に、前記データ記憶装置の前記異常な動作の検出に応答して前記システムのユーザに対し警報表示を送る訂正処置モジュールを有する、請求項16に記載の方法。
  18. 前記提供するステップの前記コントローラは、前記統計解析エンジンにより行われた前記解析に応答して前記データ・ログに追加のデータを提供するために前記データ記憶装置の内の少なくとも選択されたものに対し要求を発する前記統計解析エンジンと通信するデータ要求ブロックを有する、請求項16に記載の方法。
  19. 前記提供するステップの前記データ・ログは、前記複数のデータ記憶装置により形成された前記アレイ空間に記憶される、請求項13に記載の方法。
  20. 前記複数のデータ記憶装置の各々は、移動可能なトランスジューサによりアクセスされる少なくとも1つの回転可能なデータ記憶媒体を備えたハード・ディスク・ドライブとして特徴付けられる、請求項13に記載の方法。
JP2005202408A 2005-03-03 2005-07-12 データ記憶アレイにおける障害傾向の検出及び訂正を行う装置及び方法 Expired - Fee Related JP5059304B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/070942 2005-03-03
US11/070,942 US20060200726A1 (en) 2005-03-03 2005-03-03 Failure trend detection and correction in a data storage array

Publications (2)

Publication Number Publication Date
JP2006244447A true JP2006244447A (ja) 2006-09-14
JP5059304B2 JP5059304B2 (ja) 2012-10-24

Family

ID=36945437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005202408A Expired - Fee Related JP5059304B2 (ja) 2005-03-03 2005-07-12 データ記憶アレイにおける障害傾向の検出及び訂正を行う装置及び方法

Country Status (2)

Country Link
US (2) US20060200726A1 (ja)
JP (1) JP5059304B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083687A1 (ja) 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636872B2 (en) * 2005-03-23 2009-12-22 Microsoft Corporation Threat event-driven backup
US7747907B2 (en) * 2005-09-20 2010-06-29 Seagate Technology Llc Preventive recovery from adjacent track interference
US8271140B2 (en) * 2006-08-25 2012-09-18 International Business Machines Corporation Periodic rotational vibration check for storage devices to compensate for varying loads
US8319613B2 (en) * 2009-02-09 2012-11-27 Steven Lazar Smart cap with communication function
US8683456B2 (en) * 2009-07-13 2014-03-25 Apple Inc. Test partitioning for a non-volatile memory
JP5468837B2 (ja) * 2009-07-30 2014-04-09 株式会社日立製作所 異常検出方法、装置、及びプログラム
US8645776B2 (en) * 2010-03-24 2014-02-04 Apple Inc. Run-time testing of memory locations in a non-volatile memory
US8650446B2 (en) * 2010-03-24 2014-02-11 Apple Inc. Management of a non-volatile memory based on test quality
US8751903B2 (en) 2010-07-26 2014-06-10 Apple Inc. Methods and systems for monitoring write operations of non-volatile memory
US8726095B2 (en) 2010-12-02 2014-05-13 Dell Products L.P. System and method for proactive management of an information handling system with in-situ measurement of end user actions
US8707111B2 (en) * 2011-02-09 2014-04-22 Ebay Inc. High-volume distributed script error handling
WO2014006701A1 (ja) * 2012-07-04 2014-01-09 富士通株式会社 情報処理装置、アクセス制御プログラム、およびアクセス制御方法
US8970977B1 (en) * 2012-09-28 2015-03-03 Western Digital Technologies, Inc. Disk drive logging failure analysis data when performing an emergency unload
US9720716B2 (en) * 2013-03-12 2017-08-01 Intel Corporation Layered virtual machine integrity monitoring
US8908308B1 (en) 2013-11-26 2014-12-09 Seagate Technology Llc Adaptive passive data track erasure healing
US9384082B1 (en) * 2015-10-23 2016-07-05 Pure Storage, Inc. Proactively providing corrective measures for storage arrays
US11360844B1 (en) 2015-10-23 2022-06-14 Pure Storage, Inc. Recovery of a container storage provider
US10514978B1 (en) 2015-10-23 2019-12-24 Pure Storage, Inc. Automatic deployment of corrective measures for storage arrays
US10222228B1 (en) 2016-04-11 2019-03-05 State Farm Mutual Automobile Insurance Company System for driver's education
US10486708B1 (en) 2016-04-11 2019-11-26 State Farm Mutual Automobile Insurance Company System for adjusting autonomous vehicle driving behavior to mimic that of neighboring/surrounding vehicles
US10247565B2 (en) 2016-04-11 2019-04-02 State Farm Mutual Automobile Insurance Company Traffic risk avoidance for a route selection system
US10026309B1 (en) 2016-04-11 2018-07-17 State Farm Mutual Automobile Insurance Company Networked vehicle control systems to facilitate situational awareness of vehicles
US10233679B1 (en) 2016-04-11 2019-03-19 State Farm Mutual Automobile Insurance Company Systems and methods for control systems to facilitate situational awareness of a vehicle
US11851041B1 (en) 2016-04-11 2023-12-26 State Farm Mutual Automobile Insurance Company System for determining road slipperiness in bad weather conditions
US10019904B1 (en) 2016-04-11 2018-07-10 State Farm Mutual Automobile Insurance Company System for identifying high risk parking lots
US10872379B1 (en) 2016-04-11 2020-12-22 State Farm Mutual Automobile Insurance Company Collision risk-based engagement and disengagement of autonomous control of a vehicle
US11099924B2 (en) 2016-08-02 2021-08-24 International Business Machines Corporation Preventative system issue resolution
US10795750B2 (en) 2017-06-04 2020-10-06 Apple Inc. Auto bug capture
US11237893B2 (en) 2019-06-26 2022-02-01 Western Digital Technologies, Inc. Use of error correction-based metric for identifying poorly performing data storage devices
US10969969B2 (en) 2019-06-26 2021-04-06 Western Digital Technologies, Inc. Use of recovery behavior for prognosticating and in-situ repair of data storage devices
US11150971B1 (en) 2020-04-07 2021-10-19 International Business Machines Corporation Pattern recognition for proactive treatment of non-contiguous growing defects

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651915A (ja) * 1992-08-03 1994-02-25 Hitachi Ltd ディスク装置およびディスクアレイ管理方式
JPH11345095A (ja) * 1998-06-02 1999-12-14 Toshiba Corp ディスクアレイ装置およびその制御方法
JP2000305720A (ja) * 1999-04-15 2000-11-02 Nec Software Hokkaido Ltd アレイディスクの自動復旧方法ならびにシステム
JP2004227449A (ja) * 2003-01-27 2004-08-12 Hitachi Ltd ディスクアレイ装置における障害の診断装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US624890A (en) * 1899-05-09 Valve-controlling device
US5450609A (en) * 1990-11-13 1995-09-12 Compaq Computer Corp. Drive array performance monitor
US5774285A (en) * 1995-09-06 1998-06-30 Seagate Technology, Inc. Selection of optimal read/write channel parameters in a hard disc drive
US5721816A (en) * 1996-07-29 1998-02-24 Kusbel; Paul F. Adaptive recovery of read and write errors in a disc drive
US6249890B1 (en) * 1998-06-05 2001-06-19 Seagate Technology Llc Detecting head readback response degradation in a disc drive
US6980381B2 (en) * 1998-09-21 2005-12-27 William F. Gray Apparatus and method for predicting failure of a disk drive
US6401214B1 (en) * 1999-03-04 2002-06-04 International Business Machines Corporation Preventive recovery action in hard disk drives
US6606210B1 (en) * 1999-04-21 2003-08-12 Seagate Technology Llc Intelligent sector recovery algorithm
US6738757B1 (en) * 1999-06-02 2004-05-18 Workwise, Inc. System for database monitoring and agent implementation
US6832236B1 (en) * 1999-07-08 2004-12-14 International Business Machines Corporation Method and system for implementing automatic filesystem growth monitor for production UNIX computer system
US6415189B1 (en) * 1999-07-23 2002-07-02 International Business Machines Corporation Method and system for predicting disk drive failures
US6460151B1 (en) * 1999-07-26 2002-10-01 Microsoft Corporation System and method for predicting storage device failures
US6611393B1 (en) * 2001-04-30 2003-08-26 Western Digital Technologies, Inc. Disk drive employing field calibration based on marginal sectors
US6760174B2 (en) * 2001-08-06 2004-07-06 Seagate Technology Llc Adaptive fly height for error recovery in a disc drive
US6771440B2 (en) * 2001-12-18 2004-08-03 International Business Machines Corporation Adaptive event-based predictive failure analysis measurements in a hard disk drive
US7293003B2 (en) * 2002-03-21 2007-11-06 Sun Microsystems, Inc. System and method for ranking objects by likelihood of possessing a property
US6732233B2 (en) * 2002-05-21 2004-05-04 International Business Machines Corporation Hot spare reliability for storage arrays and storage networks
US6982842B2 (en) * 2002-09-16 2006-01-03 Seagate Technology Llc Predictive disc drive failure methodology
US6892276B2 (en) * 2002-11-26 2005-05-10 Lsi Logic Corporation Increased data availability in raid arrays using smart drives
US7317943B2 (en) * 2003-01-31 2008-01-08 Medtronic, Inc. Capture threshold monitoring
US7373559B2 (en) * 2003-09-11 2008-05-13 Copan Systems, Inc. Method and system for proactive drive replacement for high availability storage systems
WO2006036812A2 (en) * 2004-09-22 2006-04-06 Xyratex Technology Limited System and method for network performance monitoring and predictive failure analysis
US7769975B2 (en) * 2004-11-15 2010-08-03 International Business Machines Corporation Method for configuring volumes in a storage system
US20070079170A1 (en) * 2005-09-30 2007-04-05 Zimmer Vincent J Data migration in response to predicted disk failure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651915A (ja) * 1992-08-03 1994-02-25 Hitachi Ltd ディスク装置およびディスクアレイ管理方式
JPH11345095A (ja) * 1998-06-02 1999-12-14 Toshiba Corp ディスクアレイ装置およびその制御方法
JP2000305720A (ja) * 1999-04-15 2000-11-02 Nec Software Hokkaido Ltd アレイディスクの自動復旧方法ならびにシステム
JP2004227449A (ja) * 2003-01-27 2004-08-12 Hitachi Ltd ディスクアレイ装置における障害の診断装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083687A1 (ja) 2010-01-08 2011-07-14 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム記憶媒体
US8645769B2 (en) 2010-01-08 2014-02-04 Nec Corporation Operation management apparatus, operation management method, and program storage medium

Also Published As

Publication number Publication date
US20080244316A1 (en) 2008-10-02
JP5059304B2 (ja) 2012-10-24
US20060200726A1 (en) 2006-09-07
US7765437B2 (en) 2010-07-27

Similar Documents

Publication Publication Date Title
JP5059304B2 (ja) データ記憶アレイにおける障害傾向の検出及び訂正を行う装置及び方法
US7526684B2 (en) Deterministic preventive recovery from a predicted failure in a distributed storage system
US7350046B2 (en) Managed reliability storage system and method monitoring storage conditions
US7373559B2 (en) Method and system for proactive drive replacement for high availability storage systems
US7434097B2 (en) Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US6600614B2 (en) Critical event log for a disc drive
US10606722B2 (en) Method and system for diagnosing remaining lifetime of storages in data center
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
CN101131855B (zh) 监视旋转振动的方法和系统
JP2007241897A (ja) データ記録装置、及び、データ記録装置のホストデータ転送のパフォーマンスを評価する方法
JP4807172B2 (ja) ディスクアレイ装置及びパトロール診断方法及びパトロール診断制御プログラム
CN113179665A (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
JP4775843B2 (ja) ストレージシステム及び記憶制御方法
US7457990B2 (en) Information processing apparatus and information processing recovery method
JP6079578B2 (ja) ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法
WO2019054434A1 (ja) 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体
JP7273669B2 (ja) ストレージシステム及びその制御方法
US10748582B1 (en) Data storage device with recording surface resolution
JP2006268169A (ja) ディスクアレイシステム、ディスクアレイ装置、その電源制御方法
JP2006202254A (ja) 分散記憶システムにおける予測される故障からの決定論的予防回復
EP3486779A1 (en) Method and system for diagnosing remaining lifetime of storages in data center
CN113179657A (zh) 恢复行为对于数据存储设备的预后和原位修复的用途
JP2000293320A (ja) ディスクサブシステム、ディスクサブシステムの検査診断方法及びディスクサブシステムのデータ復元方法
CN117746924A (zh) 故障诊断方法、盘装置的制造方法以及记录介质
JP5643238B2 (ja) ディスクアレイ制御装置、ディスクアレイ装置、及び、ディスクアレイ制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080709

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees