JP2009170034A - 故障診断装置及び故障診断方法 - Google Patents

故障診断装置及び故障診断方法 Download PDF

Info

Publication number
JP2009170034A
JP2009170034A JP2008007156A JP2008007156A JP2009170034A JP 2009170034 A JP2009170034 A JP 2009170034A JP 2008007156 A JP2008007156 A JP 2008007156A JP 2008007156 A JP2008007156 A JP 2008007156A JP 2009170034 A JP2009170034 A JP 2009170034A
Authority
JP
Japan
Prior art keywords
error
command
hard disk
disk drive
failure diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008007156A
Other languages
English (en)
Other versions
JP4968078B2 (ja
Inventor
Kenji Makita
健志 牧田
Ryuichi Asano
隆一 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008007156A priority Critical patent/JP4968078B2/ja
Publication of JP2009170034A publication Critical patent/JP2009170034A/ja
Application granted granted Critical
Publication of JP4968078B2 publication Critical patent/JP4968078B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】ハードディスクドライブの不良診断がより的確に行えるようにする。
【解決手段】ハードディスクドライブの故障を診断する故障診断を行う場合に、ハードディスクドライブの書き込み及び/又は読み出しのコマンドに対する応答のエラーを判断し、そのコマンドエラー判断でエラーと判断した回数を累積する。そして、エラーと判断される頻度が閾値を超えることで、ハードディスクドライブの不良と判断すると共に、その閾値をエラー回数の累積値に応じて可変設定する。
【選択図】図6

Description

本発明は、例えばRAID(Redundant Arrays of Inexpensive Disks)装置の如き多数のハードディスクドライブを使用したデータ記録・再生装置に適用して好適な故障診断装置及び故障診断方法に関する。
RAID技術を用いて複数台のハードディスクドライブにAVデータ(ビデオデータ及びオーディオデータ)を記録する装置であるRAID装置が、ビジネス用途やプロフェッショナル用途のデータ記録装置として普及している。こうしたRAID装置は、通常、上位の制御装置から送信されるコマンドに基づいてAVデータの書き込み/読み出しを行う。
ハードディスクドライブは、ヘッドを使用してディスクにデータを書き込ませるとともに読み出す装置であり、ヘッドによる書き込みや読み出しの状態や、ヘッドのシーク状態などの種々の要因で、書き込みや読み出しが不安定になる可能性があり、記録や再生にある程度のエラーが発生する可能性があるデータ記録装置である。
上述したように、複数台のハードディスクドライブを使用してRAID装置として構成することで、データは複数台のハードディスクに分散して記録されることになり、1台のハードディスクドライブでエラーがあっても、他のハードディスクドライブから正しく読み出しができれば、欠落したデータを補うことができ、データ記録装置としての信頼性は確保できる。なお、エラーとしては、データが読み出されない状態になって、該当するデータが欠落する場合以外にも、例えば読み出しのコマンドを送ってから、該当するデータがディスクから読み出されるまでの時間が、遅くなるようなエラーもある。
ところで、ハードディスクドライブは、寿命がある装置であり、ある程度使用した段階で、新しいものに交換することが必要である。例えば上述したビジネス用途やプロフェッショナル用途のデータ記録装置としては、データ記録の信頼性が非常に重要であり、データ記録装置としてある程度使用される毎に、ハードディスクドライブを交換するメンテナンスが必要である。
このようなハードディスクドライブの交換を考えた場合、例えば1年ごとに交換する等のように、一定の年月ごとに一斉に交換するのが、管理上は簡単である。しかしながら、ハードディスクドライブの不具合は、個々のハードディスクドライブごとに発生状況が異なり、長期間使用してもほとんどトラブルなく使用できるものがある一方で、比較的早い使用期間でエラーが多く発生するものもあり、1台ごとにエラーの発生状況を見て、管理を行うことが好ましい。
従来のこの種のハードディスクドライブの不良の診断技術としては、例えばハードディスクドライブへのアクセス時のエラー発生の頻度を判定して、その判定した頻度が予め設定した閾値を越えた場合に、該当するハードディスクドライブが不良であると判断して、交換するようにしていた。
特許文献1には、このような判断でハードディスクドライブの故障の可能性が高いかどうかを診断する点についての記載がある。
特開平10−11701号公報
ところで、ハードディスクドライブのアクセス時のエラー発生の頻度を見ているだけでは、個々のハードディスクドライブの不良状況を正確に把握することができない場合がある。
即ち、例えば図8(a)に示すように、アクセス回数の累計を横軸とし、一定アクセス(例えば100アクセス)毎のエラー発生頻度を縦軸としたとき、エラー発生頻度ER0が故障判断の閾値TH0を越えたとき、該当するハードディスクドライブの交換が必要であると判断するようにしている。エラー発生頻度ER0は、一般的にはハードディスクドライブの使用により、徐々に高くなると想定されている。
ところが、実施のハードディスクドライブのエラー発生状況として、例えば、図8(a)の例のように、長期間使用しても、エラー発生頻度ER0にほとんど変化が発生しない場合がある。この図8(a)の例を、図8(b)に示すようにエラー発生数の積算値を縦軸とし、横軸をアクセス回数で見た場合には、累積のエラー発生数ET0の変化が、ほぼ直線的な変化である。
例えば図8(a)に示したエラー発生頻度ER0が、一定であっても、非常に低い頻度で一定であれば問題ないが、故障判断の閾値TH0より若干低い程度で頻度ER0が一定である場合には、ある程度エラー発生が多い状況で、そのハードディスクドライブが継続的に使用されることになり、好ましくない状況になってしまう。
本発明は、上述の点に鑑み、ハードディスクドライブの不良診断がより的確に行えるようにすることを目的とする。
この課題を解決するため、本発明は、ハードディスクドライブの故障を診断する故障診断を行う場合に、ハードディスクドライブの書き込み及び/又は読み出しのコマンドに対する応答のエラーを判断し、そのコマンドエラー判断でエラーと判断した回数を累積する。そして、エラーと判断される頻度が閾値を超えることで、ハードディスクドライブの不良と判断すると共に、その閾値をエラー回数の累積値に応じて可変設定することを特徴とする。
本発明によると、エラーと判断される頻度を比較する閾値が可変設定されるために、エラー回数の累積値に基づいて、閾値を適正に設定されることで、エラーの発生頻度についてはそれ程変化がない場合であっても、不良と判断できるようになる。
本発明によれば、エラー回数の累積値に基づいて閾値を適正に設定することで、エラーの発生頻度についてはそれ程変化がない場合であっても、不良と判断できるようになり、適正にエラー発生回数に基づいた不良管理が可能となる。例えば、比較的エラーの発生状況が多い状況で安定しているようなハードディスクドライブを、比較的短い使用期間で不良品として検出できるようになり、ハードディスクドライブを使用したデータ記録装置の信頼性向上に貢献する。
以下、本発明の実施の形態を、図面を用いて具体的に説明する。本実施の形態では、デジタルシネマ上映システムに本発明を適用した例を説明するが、その前提として、まずデジタルシネマ上映システムの概要を説明する。
図1は、本発明を適用したデジタルシネマ上映システムの全体構成図である。このデジタルシネマ上映システムは、RAID技術を用いたデータ記録装置(いわゆるRAID装置)1と、デジタルシネマサーバ2と、プロジェクタ(投射型表示装置)3と、パーソナルコンピュータ4とで構成されている。
データ記録装置1,デジタルシネマサーバ2及びプロジェクタ3は、同一の筐体内に収納されている。デジタルシネマサーバ2とパーソナルコンピュータ4とは、1000BASE−Tのような高速ネットワーク5で接続されている。
このデジタルシネマ上映システムは、上映する映画のAVデータ(ビデオデータは、JPEG2000のような画像圧縮方式で圧縮したデータ)を、パーソナルコンピュータ4からデジタルシネマサーバ2を介してデータ記録装置1に記録させておき、データ記録装置1から再生させたAVデータを、デジタルシネマサーバ2からプロジェクタ3に送ってスクリーンに投影するものである。
パーソナルコンピュータ4には、GUI画面上で、AVデータの記録や、映画の上映や、AVデータ以外のデータ(データ記録装置1の動作のログ情報や、データ記録装置1内のAVデータに関するファイルシステムの情報や、映画の字幕のデータ)の管理を行うためのプログラムが格納されている。パーソナルコンピュータ4からは、このGUI画面上での操作に基づき、AVデータの書き込み/読み出し要求や、ログ情報やファイルシステム情報や字幕データの書き込み/読み出し要求を高速ネットワーク5経由でデジタルシネマサーバ2に送信する。
図2は、デジタルシネマサーバ2内に設けられている主要な回路を示す図である。デジタルシネマサーバ2内には、CPU11と、圧縮されたAVデータを伸長するデコーダ20とが設けられている。CPU11は、図1の高速ネットワーク5に接続されるとともに、PCI−X規格のバスによって図1のデータ記録装置1に接続されている。デコーダ20は、データ記録装置1に接続されるとともに、図1のプロジェクタ3に接続されている。
CPU11は、汎用のOS(例えばLinux)が動作しており、この汎用OS上の汎用のファイルシステム(例えばXFS)によってデータ記録装置1内のハードディスクを管理している。また、CPU11には、この汎用OS上で動作する下記の(a)〜(c)の3つのプログラムが格納されている。
(a)データ記録装置1の内部制御を行うプログラムである「内部制御アプリケーション」
(b)パーソナルコンピュータ4からのAVデータの書き込み/読み出し要求に従い、AVデータの書き込み/読み出しコマンドを上記「内部制御アプリケーション」に送信するプログラムである「デジタルシネマ用アプリケーション」
(c)パーソナルコンピュータ4からのログ情報やファイルシステム情報や字幕データの書き込み/読み出し要求に従い、ログ情報やファイルシステム情報や字幕データの書き込み/読み出しコマンドを上記「内部制御アプリケーション」に送信するプログラムである「管理用アプリケーション」
なお、CPU11は、「デジタルシネマ用アプリケーション」や「管理用アプリケーション」を実行することによってデータ記録装置1の上位の制御装置(データ記録装置1にデータの書き込み/読み出しコマンドを送信する装置)として機能するとともに、「内部制御アプリケーション」を実行することによって記録装置1の内部制御を行う機能も併有している。
そこで、以下では、説明を分かりやすくするために、CPU11のうち、上位の制御装置として機能する部分を上位制御部11−1とし、データ記録装置1の内部制御を行う機能の部分を内部制御部11−2とするというように、CPU11を機能によって2つの部分に分けて説明を行うことにする。
図3は、データ記録装置1の構成を、この上位制御部11−1,内部制御部11−2及びデコーダ20とともに示す図である。なお、ここでは、内部制御部11−2は、その機能から、データ記録装置1の一部として示している。また、データ(AVデータと、ログ情報やファイルシステム情報や字幕データ)の流れを二重線の矢印で示し、上位制御部11−1や内部制御部11−2で授受されるコマンドや応答の流れを単線の矢印で示している。
データ記録装置1には、FPGAから成るECC・DMA部12と、キャッシュメモリ13と、合計7台のHDD(ハードディスク)を制御するためのHDDコントローラ(例えばSASコントローラ)14(14−1〜14−7)とが設けられている。HDDコントローラ14に接続される合計7台のHDD15(15−1〜15−7)のうち、4台のHDD15−1〜15−4はデータ用、2台のHDD15−5〜15−6はエラー訂正用、残りの1台のHDD15−7はスペア用である。各HDD15−1〜15−7は、データ記録装置の保守時には1台ごとに個別に交換することが可能である。
ECC・DMA部12は、記録時には、デジタルシネマサーバ2内の上位制御部11−1から送られたデータからエラー訂正符号を生成し、そのエラー訂正符号を付加したデータを、キャッシュメモリ13を用いてストライピングして、HDDコントローラ14−1〜14−6を介してHDD15−1〜15−6に供給する。
ECC・DMA部12は、再生時には、HDD15−1〜15−6からHDDコントローラ14−1〜14−6を介して供給されたデータをキャッシュメモリ13を用いてデストライピングし、そのデストライピングしたデータをエラー訂正して、元のデータを復元する。
ビデオデータの再生時には、ECC・DMA部12で復元されたビデオデータは、デコーダ20に送られる。そして、デコーダ20で伸長されたベースバンドのビデオデータが、図1のプロジェクタ3に送られて、プロジェクタ3からスクリーンに投影される。
オーディオデータの再生時には、ECC・DMA部12で復元されたオーディオデータは、データ記録装置1,デジタルシネマサーバ2及びプロジェクタ3を収納している筐体に設けられたオーディオ出力端子(図示略)から外部に出力される。
ログ情報やファイルシステム情報の再生時には、ECC・DMA部12で復元されたログ情報やファイルシステム情報は、上位制御部11−1に送られ、上位制御部11−1から図1のパーソナルコンピュータ4に送られて、パーソナルコンピュータ4のディスプレイ上のGUI画面に表示される。
字幕データの再生時には、ECC・DMA部12で復元された字幕データは、デジタルシネマサーバ2内に設けられているミキシング回路(図示略)に送られて、デコーダ20で伸長されたベースバンドのビデオデータと合成される。
内部制御部11−2は、前述の「内部制御アプリケーション」を実行して、ECC・DMA部12及びHDDコントローラ14を制御する。
次に、図3に示したデータ記録装置1の構成の中で、ハードディスクへのデータの書き込み及び読み出しに関係した構成の概要を示したものである。
FC(ファイバーチャンネル)などの高速ネットワーク5経由で外部から供給された記録させるデータは、ECC・DMA部12でエラー訂正符号を生成し、そのエラー訂正符号を付加したデータを、キャッシュメモリ13を用いてストライピングして、HDDコントローラ14−1〜14−6を介してHDD15−1〜15−6に供給する。書き込みや読み出しのコマンドについても、高速ネットワーク5を介して供給される。
また再生時には、HDD15−1〜15−6からHDDコントローラ14−1〜14−6を介して供給されたデータをキャッシュメモリ13を用いてデストライピングし、そのデストライピングしたデータをエラー訂正して、元のデータを復元する。
これらの記録時及び再生時の処理は、内部制御部11−2の制御で実行され、内部制御部11−2が備えるメモリであるSDRAM11−3に、制御状態に関するデータが記憶される。記憶される制御状態に関するデータの例については後述する。なお、制御状態に関するデータは、SDRAM以外の記憶手段に記憶させてもよい。例えば、不揮発性のメモリを使用してデータを記憶させるようにしてもよい。或いは、ハードディスクの一部に記憶させるようにしてもよい。
次に、本実施の形態のデータ記録装置1内にコマンドが供給されることで、行われるデータの書き込み及び読み出しの処理構造であるプロセス構造を、図5を参照して説明する。この図5に示したプロセス構造は、図3及び図4に示した内部制御部11−2の制御で実行される場合のプロセス構造を示したものであり、内部制御部11−2が制御機能を備える。
デジタルシネマサーバから高速ネットワークのドライバであるFCドライバにコマンドが供給されると、コマンド待機処理が行われ、コマンドで指示された処理内容を、コマンド処理に伝える。
コマンド処理は、コマンドの処理内容を実際に処理する部分であり、テーブル検索、リソースの確保などを行い、高速ネットワーク側と通信を行う。
また、再構築設定に合わせて、再構築用のコマンドを発行し、設定と状況に合わせて再構築を実行する。
LBAマネージャでは、例えば、HDDにデータが書き込み出来ない状況が発生した場合に、そのことが通知されて、管理を行う。
モードページマネージャでは、HDDのエラーを集計して、各HDDの不良判断を行う。後述する不良判断処理は、ここで実行されることになる。ここでは、具体的にはエラー発生の頻度値と積算値とを集計する。頻度値は、各HDDに対して一定数のコマンドが発行される毎のエラー数であり、積算値は、該当するHDDを使用開始してからの累積のエラー数である。また、不良判断は、現在の頻度値と設定された閾値とを比較して、現在の頻度値が閾値を越えた場合に、不良であると判断する。但し後述するように本例の場合には、この閾値を可変設定するようにしてある。また、不良と判断された場合には、該当する不良HDDを、管理者に対して伝える処理が実行される。例えば表示などで不良と判断されたHDDを知らせる処理が行われる。
リソースマネージャでは、コマンドテーブルやキャッシュの割当てを行う。
HDDマネージャでは、コマンドテーブルの監視、空いているHDDコントローラへの指令、HDDステータスの管理を行う。
HDDコントローラは、HDD実行部へのコマンドの発行を行う。コマンドに基づいた処理が、規定された時間内に行われているかを監視するタイムアウト監視についても行う。正常に終了した場合は、終了を返答して次のコマンド待ちになる。規定された時間内に処理が終了しないタイムアウトした場合には、タイムアウトを返送し、HDDステータスをRADIコントローラに返し、タイムアウトしたドライバの終了を待つ。さらにタイムアウトした場合はリセット処理に入り、終了時点でステータスを返し、次の待ちに入る。さらにだめな場合には、不良としてステータスを返し、次の待ちに入る。
実行部は、HDDドライバを呼び出す処理を実行する。
ステータスデーモンは、HDDの状態を監視する。ここでは、主として物理層の状態を監視する。HDDの着脱、物理層のエラーによる切断も反映させる。
次に、本実施の形態によるHDDの故障診断処理について、図6のフローチャートを参照して説明する。
この故障診断処理は、データ記録装置1が備える複数台のHDD1台ごとに行われるものである。
まず、HDDに対するデータの書き込み及び読み出しのコマンドが供給されると、そのコマンドが正常に処理されたか否か判断して、正常に処理されない場合に、エラーとする。正常に処理されない状態としては、データの読み出しや書き込みができない場合だけでなく、規定された時間内に処理されないタイムアウト時も含まれる。
エラー発生があると(ステップS11)、そのエラー発生の頻度値と積算値とをカウントアップさせる(ステップS12)。頻度値は、ここでは100アクセス当りのエラーの発生数である。そして、そのエラー発生回数の積算値が10000の倍数に達したか否か判断する(ステップS13)。
エラー発生回数の積算値が、10000の倍数に達した場合には、頻度値を比較する閾値の設定値を、現在の設定値の約半分の値とする(ステップS14)。但し、閾値の下限値を予め決めておく。ここでは、初期状態での閾値を10とし、10→5→2と変化させる。この2を下限値とし、以後は閾値2が設定された状態を継続させる。
そして、ステップS13で積算値が10000の倍数に達してない場合と、ステップS14で閾値を変更した場合のいずれの場合でも、現在設定されている閾値とエラー発生回数の積算値とを比較して、故障判定を行う(ステップS15)。閾値を越えた場合、該当するHDDが故障と判断する。故障と判断すると、そのHDDの交換を告知する処理が行われる。
このように処理されることで、例えば1台のHDDが使用開始されると、当初はエラー頻度値と比較する閾値が10であり、100アクセス当りのエラー数が10を越える場合に、不良であると判断される。そして、エラーの発生回数の累計値が10000になったとき、閾値が5に変化し、100アクセス当りのエラー数が5を越える場合に、不良であると判断される。さらに、エラーの発生回数の累計値が20000になったとき、閾値が2に変化し、100アクセス当りのエラー数が2を越える場合に、不良であると判断される。それ以後は、エラーの発生回数の累計値が30000になっても、閾値は2のままである。
なお、この閾値の変化例は一例であり、その他の条件を設定してもよい。
例えば、積算値÷1000=nとし、閾値÷2^nとしてもよい。(2^nは2のn乗)
或いは、閾値の設定テーブルを設けて、積算値が10000などの一定値を越えるごとに、その設定テーブルを参照して、新しい閾値を設定(又は新しい閾値を決めるための条件の値の設定)を行うようにしてもよい。
図7は、本実施の形態により故障判断処理例を示したものである。
図7(a)は、アクセス回数の累計を横軸とし、100アクセス毎のエラー発生頻度を縦軸とした図である。この例では、エラー発生頻度ER1はほぼ一定で推移しているものとする。
この状況では、図7(b)に示すようにエラー発生数の積算値を縦軸とし、横軸をアクセス回数で見た場合には、累積のエラー発生数ET1の変化が、ほぼ直線的な変化である。
この状態で、故障判断の閾値は、初期の閾値TH1から、使用が進むに従って、閾値TH2,TH3と順に変化する。ここで、エラー発生頻度ER1がそれなりの頻度である場合には、頻度変化がなくても、閾値を越えることになり、故障であると診断される。図7の例では、最も低い閾値となった時点で不良であると判断されているが、頻度がより高い場合には、それよりも早い時点で閾値を越えるので、より早く不良であると判断されることになる。
従って本実施の形態によると、HDDのエラーの発生頻度についてはそれ程変化がない場合であっても、不良と判断できるようになり、適正にエラー発生回数に基づいた不良管理が可能となる。例えば、比較的エラーの発生状況が多い状況で安定しているようなハードディスクドライブを、比較的短い使用期間で不良品として検出できるようになり、ハードディスクドライブを使用したデータ記録装置の信頼性向上に貢献する。
図7(a)に示したように、閾値の変化として段階的な変化を行うようにしたが、よりなだらかに(曲線状に)閾値を変化させるようにしてもよい。
また、以上の実施の形態ではデジタルシネマ上映システムに本発明を適用した例について説明した。しかし、本発明は、その他のRAID装置でのハードディスクドライブの故障診断にも適用可能である。さらに、RAID装置以外の各種データ記録用のハードディスクドライブの故障診断(故障予測)にも適用可能である。
また、上述した実施の形態では、データ記録装置に故障診断を行う各部を備える構成としたが、例えば、ハードディスクドライブを備えた汎用の情報処理装置(コンピュータ装置など)に、本発明のそれぞれの処理(図6のフローチャートなどに示した処理)を実行するプログラム(ソフトウェア)を実装させて、同様の故障診断を行うように構成させてもよい。
この場合のコンピュータ装置などによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、リムーバブルメディアによりパッケージメディアとして提供される。リムーバブルメディアとしては、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD−ROM(Compact Disc - Read Only Memory),DVD(Digital Versatile Disc),光磁気ディスクを含む)、もしくは半導体メモリなどを適用することができる。あるいは、プログラム記録媒体は、プログラムが一時的もしくは永続的に格納(記録)されるROMや、ハードディスクなどにより構成してもよい。
プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部を介して、ローカルエリアネットワーク(LAN:Local Area Network)、インターネットなどの有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述する処理ステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)をも含むものである。
また、プログラムは、一つのコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
本発明の一実施の形態を適用したデジタルシネマ上映システムの全体構成図である。 図1例のデジタルシネマサーバに設けられている回路を示すブロック図である。 図1例のデータ記録装置の構成を示すブロック図である。 図3の要部の構成例を示すブロック図である。 本発明の一実施の形態の装置でのプロセス構造例を示す説明図である。 本発明の一実施の形態による故障診断処理例を示したフローチャートである。 本発明の一実施の形態による故障判断例を示した説明図である。 従来の故障判断例を示した説明図である。
符号の説明
1…データ記録装置、2…デジタルシネマサーバ、3…プロジェクタ、4…パーソナルコンピュータ、5…高速ネットワーク、11…CPU、11−1…上位制御部、11−2…内部制御部、12…ECC・DMA部、13…キャッシュメモリ、14−1〜14−7…HDDコントローラ、15−1〜15−7…HDD、 20…デコーダ

Claims (6)

  1. ハードディスクドライブの故障を診断する故障診断装置において、
    前記ハードディスクドライブの書き込み又は読み出しのコマンドに対する応答のエラーを判断するコマンドエラー判断部と、
    前記コマンドエラー判断部でエラーと判断した回数を累積するエラー回数累積部と、
    前記コマンドエラー判断部でエラーと判断される頻度が閾値を超えることで、前記ハードディスクドライブの不良と判断すると共に、前記閾値を前記エラー回数累積部での累積回数に応じて可変設定する不良判定部とを備えたことを特徴とする
    故障診断装置。
  2. 請求項1記載の故障診断装置において、
    前記エラー回数累積部で累積されるエラー回数が予め決められた一定回数を超えるごとに、前記不良判定部で可変設定される頻度の閾値を減らす閾値設定部を更に備えることを特徴とする
    故障診断装置。
  3. 請求項2記載の故障診断装置において、
    前記閾値設定部は、前記一定回数を超えるごとに、頻度の閾値を半分に減らすことを特徴とする
    故障診断装置。
  4. 請求項1記載の故障診断装置において、
    前記コマンドエラー判断部は、コマンドに対するレスポンスが所定時間以上遅延したものを、エラーと判断することを特徴とする
    故障診断装置。
  5. 請求項1記載の故障診断装置において、
    前記コマンドエラー判断部は、コマンドにより読み出されたデータが不良であるものを、エラーと判断することを特徴とする
    故障診断装置。
  6. ハードディスクドライブの故障を診断する故障診断方法において、
    前記ハードディスクドライブの書き込み又は読み出しのコマンドに対する応答のエラーを判断するコマンドエラー判断処理と、
    前記コマンドエラー判断処理でエラーと判断した回数を累積するエラー回数累積処理と、
    前記コマンドエラー判断処理でエラーと判断される頻度が閾値を超えることで、前記ハードディスクドライブの不良と判断すると共に、前記閾値を前記エラー回数累積処理での累積回数に応じて可変設定する不良判定処理とを行うことを特徴とする
    故障診断方法。
JP2008007156A 2008-01-16 2008-01-16 故障診断装置及び故障診断方法 Expired - Fee Related JP4968078B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008007156A JP4968078B2 (ja) 2008-01-16 2008-01-16 故障診断装置及び故障診断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008007156A JP4968078B2 (ja) 2008-01-16 2008-01-16 故障診断装置及び故障診断方法

Publications (2)

Publication Number Publication Date
JP2009170034A true JP2009170034A (ja) 2009-07-30
JP4968078B2 JP4968078B2 (ja) 2012-07-04

Family

ID=40971040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008007156A Expired - Fee Related JP4968078B2 (ja) 2008-01-16 2008-01-16 故障診断装置及び故障診断方法

Country Status (1)

Country Link
JP (1) JP4968078B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011051258A (ja) * 2009-09-02 2011-03-17 Ricoh Co Ltd 画像形成装置
US9459943B2 (en) 2013-05-16 2016-10-04 Fujitsu Limited Fault isolation by counting abnormalities
JP2017037405A (ja) * 2015-08-07 2017-02-16 株式会社Jvcケンウッド 故障予測装置、故障予測方法及び故障予測プログラム
WO2023014448A1 (en) * 2021-08-05 2023-02-09 Microsoft Technology Licensing, Llc Automated interoperational tracking in computing systems

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011701A (ja) * 1996-06-26 1998-01-16 Toshiba Corp 磁気ディスク装置及び同装置の故障予測方法
JPH11353819A (ja) * 1998-06-08 1999-12-24 Nec Software Hokkaido Ltd ディスク装置およびディスク装置の予防保守方法
JP2001006273A (ja) * 1999-06-18 2001-01-12 Toshiba Tec Corp Hddを搭載するデータ処理装置
JP2001014113A (ja) * 1999-06-29 2001-01-19 Nec Corp ディスク装置故障検出システム
JP2001265538A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd ディスク装置の故障を予測する故障予測装置、媒体、および情報集合体
JP2006048789A (ja) * 2004-08-02 2006-02-16 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置
JP2008084392A (ja) * 2006-09-26 2008-04-10 Nec Corp 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011701A (ja) * 1996-06-26 1998-01-16 Toshiba Corp 磁気ディスク装置及び同装置の故障予測方法
JPH11353819A (ja) * 1998-06-08 1999-12-24 Nec Software Hokkaido Ltd ディスク装置およびディスク装置の予防保守方法
JP2001006273A (ja) * 1999-06-18 2001-01-12 Toshiba Tec Corp Hddを搭載するデータ処理装置
JP2001014113A (ja) * 1999-06-29 2001-01-19 Nec Corp ディスク装置故障検出システム
JP2001265538A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd ディスク装置の故障を予測する故障予測装置、媒体、および情報集合体
JP2006048789A (ja) * 2004-08-02 2006-02-16 Hitachi Global Storage Technologies Netherlands Bv 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置
JP2008084392A (ja) * 2006-09-26 2008-04-10 Nec Corp 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011051258A (ja) * 2009-09-02 2011-03-17 Ricoh Co Ltd 画像形成装置
US9459943B2 (en) 2013-05-16 2016-10-04 Fujitsu Limited Fault isolation by counting abnormalities
JP2017037405A (ja) * 2015-08-07 2017-02-16 株式会社Jvcケンウッド 故障予測装置、故障予測方法及び故障予測プログラム
WO2023014448A1 (en) * 2021-08-05 2023-02-09 Microsoft Technology Licensing, Llc Automated interoperational tracking in computing systems
US11921603B2 (en) 2021-08-05 2024-03-05 Microsoft Technology Licensing, Llc Automated interoperational tracking in computing systems

Also Published As

Publication number Publication date
JP4968078B2 (ja) 2012-07-04

Similar Documents

Publication Publication Date Title
US7577897B2 (en) Data integrity inspection support method for disk devices, and data integrity inspection method for disk devices
US7281088B2 (en) Disk array apparatus and disk array apparatus controlling method
JP5078235B2 (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
JP4755510B2 (ja) データ記録装置、及び、データ記録装置のホストデータ転送のパフォーマンスを評価する方法
JP2005293594A (ja) 管理された信頼性記憶システムと方法
US20140223215A1 (en) System and method for power management of storage resources
US8566637B1 (en) Analyzing drive errors in data storage systems
JP4456626B2 (ja) ディスクアレイ装置、ディスクアレイ装置制御プログラムおよびディスクアレイ装置制御方法
JP4317436B2 (ja) ディスクアレイシステム及びインターフェイス変換装置
JP4852118B2 (ja) ストレージ装置及び論理ディスク管理方法
US20180024742A1 (en) Storage media performance management
JP4968078B2 (ja) 故障診断装置及び故障診断方法
JP2000003255A (ja) ディスクアレイ装置
US8112583B2 (en) Data recording for a hard drive in response to commands
JP4775843B2 (ja) ストレージシステム及び記憶制御方法
US7457990B2 (en) Information processing apparatus and information processing recovery method
US20120011317A1 (en) Disk array apparatus and disk array control method
JP5217452B2 (ja) 情報処理装置及びシステム、並びに、記憶領域管理方法及びプログラム
US8811133B2 (en) Writing system, writing device, and writing method
JP5823755B2 (ja) 記憶装置、およびプログラム
JP2016057876A (ja) 情報処理装置、入出力制御プログラム、及び入出力制御方法
JP2004185477A (ja) 光記憶媒体アレイ装置およびデータ転送方法
JP2007323377A (ja) 記録装置、管理データの書き込み方法および管理データの修復方法
JP5585930B2 (ja) ディスクアレイ装置、及びデータ制御方法
JP2006244413A (ja) データ記憶システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees