JP2009170034A - 故障診断装置及び故障診断方法 - Google Patents
故障診断装置及び故障診断方法 Download PDFInfo
- Publication number
- JP2009170034A JP2009170034A JP2008007156A JP2008007156A JP2009170034A JP 2009170034 A JP2009170034 A JP 2009170034A JP 2008007156 A JP2008007156 A JP 2008007156A JP 2008007156 A JP2008007156 A JP 2008007156A JP 2009170034 A JP2009170034 A JP 2009170034A
- Authority
- JP
- Japan
- Prior art keywords
- error
- command
- hard disk
- disk drive
- failure diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【解決手段】ハードディスクドライブの故障を診断する故障診断を行う場合に、ハードディスクドライブの書き込み及び/又は読み出しのコマンドに対する応答のエラーを判断し、そのコマンドエラー判断でエラーと判断した回数を累積する。そして、エラーと判断される頻度が閾値を超えることで、ハードディスクドライブの不良と判断すると共に、その閾値をエラー回数の累積値に応じて可変設定する。
【選択図】図6
Description
特許文献1には、このような判断でハードディスクドライブの故障の可能性が高いかどうかを診断する点についての記載がある。
即ち、例えば図8(a)に示すように、アクセス回数の累計を横軸とし、一定アクセス(例えば100アクセス)毎のエラー発生頻度を縦軸としたとき、エラー発生頻度ER0が故障判断の閾値TH0を越えたとき、該当するハードディスクドライブの交換が必要であると判断するようにしている。エラー発生頻度ER0は、一般的にはハードディスクドライブの使用により、徐々に高くなると想定されている。
(a)データ記録装置1の内部制御を行うプログラムである「内部制御アプリケーション」
(b)パーソナルコンピュータ4からのAVデータの書き込み/読み出し要求に従い、AVデータの書き込み/読み出しコマンドを上記「内部制御アプリケーション」に送信するプログラムである「デジタルシネマ用アプリケーション」
(c)パーソナルコンピュータ4からのログ情報やファイルシステム情報や字幕データの書き込み/読み出し要求に従い、ログ情報やファイルシステム情報や字幕データの書き込み/読み出しコマンドを上記「内部制御アプリケーション」に送信するプログラムである「管理用アプリケーション」
内部制御部11−2は、前述の「内部制御アプリケーション」を実行して、ECC・DMA部12及びHDDコントローラ14を制御する。
FC(ファイバーチャンネル)などの高速ネットワーク5経由で外部から供給された記録させるデータは、ECC・DMA部12でエラー訂正符号を生成し、そのエラー訂正符号を付加したデータを、キャッシュメモリ13を用いてストライピングして、HDDコントローラ14−1〜14−6を介してHDD15−1〜15−6に供給する。書き込みや読み出しのコマンドについても、高速ネットワーク5を介して供給される。
コマンド処理は、コマンドの処理内容を実際に処理する部分であり、テーブル検索、リソースの確保などを行い、高速ネットワーク側と通信を行う。
また、再構築設定に合わせて、再構築用のコマンドを発行し、設定と状況に合わせて再構築を実行する。
LBAマネージャでは、例えば、HDDにデータが書き込み出来ない状況が発生した場合に、そのことが通知されて、管理を行う。
モードページマネージャでは、HDDのエラーを集計して、各HDDの不良判断を行う。後述する不良判断処理は、ここで実行されることになる。ここでは、具体的にはエラー発生の頻度値と積算値とを集計する。頻度値は、各HDDに対して一定数のコマンドが発行される毎のエラー数であり、積算値は、該当するHDDを使用開始してからの累積のエラー数である。また、不良判断は、現在の頻度値と設定された閾値とを比較して、現在の頻度値が閾値を越えた場合に、不良であると判断する。但し後述するように本例の場合には、この閾値を可変設定するようにしてある。また、不良と判断された場合には、該当する不良HDDを、管理者に対して伝える処理が実行される。例えば表示などで不良と判断されたHDDを知らせる処理が行われる。
HDDマネージャでは、コマンドテーブルの監視、空いているHDDコントローラへの指令、HDDステータスの管理を行う。
HDDコントローラは、HDD実行部へのコマンドの発行を行う。コマンドに基づいた処理が、規定された時間内に行われているかを監視するタイムアウト監視についても行う。正常に終了した場合は、終了を返答して次のコマンド待ちになる。規定された時間内に処理が終了しないタイムアウトした場合には、タイムアウトを返送し、HDDステータスをRADIコントローラに返し、タイムアウトしたドライバの終了を待つ。さらにタイムアウトした場合はリセット処理に入り、終了時点でステータスを返し、次の待ちに入る。さらにだめな場合には、不良としてステータスを返し、次の待ちに入る。
実行部は、HDDドライバを呼び出す処理を実行する。
ステータスデーモンは、HDDの状態を監視する。ここでは、主として物理層の状態を監視する。HDDの着脱、物理層のエラーによる切断も反映させる。
この故障診断処理は、データ記録装置1が備える複数台のHDD1台ごとに行われるものである。
まず、HDDに対するデータの書き込み及び読み出しのコマンドが供給されると、そのコマンドが正常に処理されたか否か判断して、正常に処理されない場合に、エラーとする。正常に処理されない状態としては、データの読み出しや書き込みができない場合だけでなく、規定された時間内に処理されないタイムアウト時も含まれる。
エラー発生があると(ステップS11)、そのエラー発生の頻度値と積算値とをカウントアップさせる(ステップS12)。頻度値は、ここでは100アクセス当りのエラーの発生数である。そして、そのエラー発生回数の積算値が10000の倍数に達したか否か判断する(ステップS13)。
そして、ステップS13で積算値が10000の倍数に達してない場合と、ステップS14で閾値を変更した場合のいずれの場合でも、現在設定されている閾値とエラー発生回数の積算値とを比較して、故障判定を行う(ステップS15)。閾値を越えた場合、該当するHDDが故障と判断する。故障と判断すると、そのHDDの交換を告知する処理が行われる。
例えば、積算値÷1000=nとし、閾値÷2^nとしてもよい。(2^nは2のn乗)
或いは、閾値の設定テーブルを設けて、積算値が10000などの一定値を越えるごとに、その設定テーブルを参照して、新しい閾値を設定(又は新しい閾値を決めるための条件の値の設定)を行うようにしてもよい。
図7(a)は、アクセス回数の累計を横軸とし、100アクセス毎のエラー発生頻度を縦軸とした図である。この例では、エラー発生頻度ER1はほぼ一定で推移しているものとする。
この状況では、図7(b)に示すようにエラー発生数の積算値を縦軸とし、横軸をアクセス回数で見た場合には、累積のエラー発生数ET1の変化が、ほぼ直線的な変化である。
Claims (6)
- ハードディスクドライブの故障を診断する故障診断装置において、
前記ハードディスクドライブの書き込み又は読み出しのコマンドに対する応答のエラーを判断するコマンドエラー判断部と、
前記コマンドエラー判断部でエラーと判断した回数を累積するエラー回数累積部と、
前記コマンドエラー判断部でエラーと判断される頻度が閾値を超えることで、前記ハードディスクドライブの不良と判断すると共に、前記閾値を前記エラー回数累積部での累積回数に応じて可変設定する不良判定部とを備えたことを特徴とする
故障診断装置。 - 請求項1記載の故障診断装置において、
前記エラー回数累積部で累積されるエラー回数が予め決められた一定回数を超えるごとに、前記不良判定部で可変設定される頻度の閾値を減らす閾値設定部を更に備えることを特徴とする
故障診断装置。 - 請求項2記載の故障診断装置において、
前記閾値設定部は、前記一定回数を超えるごとに、頻度の閾値を半分に減らすことを特徴とする
故障診断装置。 - 請求項1記載の故障診断装置において、
前記コマンドエラー判断部は、コマンドに対するレスポンスが所定時間以上遅延したものを、エラーと判断することを特徴とする
故障診断装置。 - 請求項1記載の故障診断装置において、
前記コマンドエラー判断部は、コマンドにより読み出されたデータが不良であるものを、エラーと判断することを特徴とする
故障診断装置。 - ハードディスクドライブの故障を診断する故障診断方法において、
前記ハードディスクドライブの書き込み又は読み出しのコマンドに対する応答のエラーを判断するコマンドエラー判断処理と、
前記コマンドエラー判断処理でエラーと判断した回数を累積するエラー回数累積処理と、
前記コマンドエラー判断処理でエラーと判断される頻度が閾値を超えることで、前記ハードディスクドライブの不良と判断すると共に、前記閾値を前記エラー回数累積処理での累積回数に応じて可変設定する不良判定処理とを行うことを特徴とする
故障診断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008007156A JP4968078B2 (ja) | 2008-01-16 | 2008-01-16 | 故障診断装置及び故障診断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008007156A JP4968078B2 (ja) | 2008-01-16 | 2008-01-16 | 故障診断装置及び故障診断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009170034A true JP2009170034A (ja) | 2009-07-30 |
JP4968078B2 JP4968078B2 (ja) | 2012-07-04 |
Family
ID=40971040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008007156A Expired - Fee Related JP4968078B2 (ja) | 2008-01-16 | 2008-01-16 | 故障診断装置及び故障診断方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4968078B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011051258A (ja) * | 2009-09-02 | 2011-03-17 | Ricoh Co Ltd | 画像形成装置 |
US9459943B2 (en) | 2013-05-16 | 2016-10-04 | Fujitsu Limited | Fault isolation by counting abnormalities |
JP2017037405A (ja) * | 2015-08-07 | 2017-02-16 | 株式会社Jvcケンウッド | 故障予測装置、故障予測方法及び故障予測プログラム |
WO2023014448A1 (en) * | 2021-08-05 | 2023-02-09 | Microsoft Technology Licensing, Llc | Automated interoperational tracking in computing systems |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1011701A (ja) * | 1996-06-26 | 1998-01-16 | Toshiba Corp | 磁気ディスク装置及び同装置の故障予測方法 |
JPH11353819A (ja) * | 1998-06-08 | 1999-12-24 | Nec Software Hokkaido Ltd | ディスク装置およびディスク装置の予防保守方法 |
JP2001006273A (ja) * | 1999-06-18 | 2001-01-12 | Toshiba Tec Corp | Hddを搭載するデータ処理装置 |
JP2001014113A (ja) * | 1999-06-29 | 2001-01-19 | Nec Corp | ディスク装置故障検出システム |
JP2001265538A (ja) * | 2000-03-16 | 2001-09-28 | Matsushita Electric Ind Co Ltd | ディスク装置の故障を予測する故障予測装置、媒体、および情報集合体 |
JP2006048789A (ja) * | 2004-08-02 | 2006-02-16 | Hitachi Global Storage Technologies Netherlands Bv | 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置 |
JP2008084392A (ja) * | 2006-09-26 | 2008-04-10 | Nec Corp | 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法 |
-
2008
- 2008-01-16 JP JP2008007156A patent/JP4968078B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1011701A (ja) * | 1996-06-26 | 1998-01-16 | Toshiba Corp | 磁気ディスク装置及び同装置の故障予測方法 |
JPH11353819A (ja) * | 1998-06-08 | 1999-12-24 | Nec Software Hokkaido Ltd | ディスク装置およびディスク装置の予防保守方法 |
JP2001006273A (ja) * | 1999-06-18 | 2001-01-12 | Toshiba Tec Corp | Hddを搭載するデータ処理装置 |
JP2001014113A (ja) * | 1999-06-29 | 2001-01-19 | Nec Corp | ディスク装置故障検出システム |
JP2001265538A (ja) * | 2000-03-16 | 2001-09-28 | Matsushita Electric Ind Co Ltd | ディスク装置の故障を予測する故障予測装置、媒体、および情報集合体 |
JP2006048789A (ja) * | 2004-08-02 | 2006-02-16 | Hitachi Global Storage Technologies Netherlands Bv | 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置 |
JP2008084392A (ja) * | 2006-09-26 | 2008-04-10 | Nec Corp | 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011051258A (ja) * | 2009-09-02 | 2011-03-17 | Ricoh Co Ltd | 画像形成装置 |
US9459943B2 (en) | 2013-05-16 | 2016-10-04 | Fujitsu Limited | Fault isolation by counting abnormalities |
JP2017037405A (ja) * | 2015-08-07 | 2017-02-16 | 株式会社Jvcケンウッド | 故障予測装置、故障予測方法及び故障予測プログラム |
WO2023014448A1 (en) * | 2021-08-05 | 2023-02-09 | Microsoft Technology Licensing, Llc | Automated interoperational tracking in computing systems |
US11921603B2 (en) | 2021-08-05 | 2024-03-05 | Microsoft Technology Licensing, Llc | Automated interoperational tracking in computing systems |
Also Published As
Publication number | Publication date |
---|---|
JP4968078B2 (ja) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7577897B2 (en) | Data integrity inspection support method for disk devices, and data integrity inspection method for disk devices | |
US7281088B2 (en) | Disk array apparatus and disk array apparatus controlling method | |
JP5078235B2 (ja) | 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法 | |
JP4755510B2 (ja) | データ記録装置、及び、データ記録装置のホストデータ転送のパフォーマンスを評価する方法 | |
JP2005293594A (ja) | 管理された信頼性記憶システムと方法 | |
US20140223215A1 (en) | System and method for power management of storage resources | |
US8566637B1 (en) | Analyzing drive errors in data storage systems | |
JP4456626B2 (ja) | ディスクアレイ装置、ディスクアレイ装置制御プログラムおよびディスクアレイ装置制御方法 | |
JP4317436B2 (ja) | ディスクアレイシステム及びインターフェイス変換装置 | |
JP4852118B2 (ja) | ストレージ装置及び論理ディスク管理方法 | |
US20180024742A1 (en) | Storage media performance management | |
JP4968078B2 (ja) | 故障診断装置及び故障診断方法 | |
JP2000003255A (ja) | ディスクアレイ装置 | |
US8112583B2 (en) | Data recording for a hard drive in response to commands | |
JP4775843B2 (ja) | ストレージシステム及び記憶制御方法 | |
US7457990B2 (en) | Information processing apparatus and information processing recovery method | |
US20120011317A1 (en) | Disk array apparatus and disk array control method | |
JP5217452B2 (ja) | 情報処理装置及びシステム、並びに、記憶領域管理方法及びプログラム | |
US8811133B2 (en) | Writing system, writing device, and writing method | |
JP5823755B2 (ja) | 記憶装置、およびプログラム | |
JP2016057876A (ja) | 情報処理装置、入出力制御プログラム、及び入出力制御方法 | |
JP2004185477A (ja) | 光記憶媒体アレイ装置およびデータ転送方法 | |
JP2007323377A (ja) | 記録装置、管理データの書き込み方法および管理データの修復方法 | |
JP5585930B2 (ja) | ディスクアレイ装置、及びデータ制御方法 | |
JP2006244413A (ja) | データ記憶システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |