JP2880701B2

JP2880701B2 - ディスクサブシステム

Info

Publication number: JP2880701B2
Application number: JP9130883A
Authority: JP
Inventors: 洋岸
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-05-21
Filing date: 1997-05-21
Publication date: 1999-04-12
Anticipated expiration: 2017-05-21
Also published as: JPH10320131A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はディスクサブシステ
ム、特にサーバシステムやパーソナルコンピュータなど
のコンピュータに使用されるハードディスクドライブ
（以下、「ＨＤＤ」）の故障によるシステムダウンの未
然防止のために、ＨＤＤの故障の発生を予知し、アラー
ムの発生をする機能を有するディスクサブシステムに関
する。

【０００２】

【従来の技術】図１３は、従来のディスクサブシステム
のブロック構成図である。ディスクサブシステムは、一
般に実際にデータを記憶するＨＤＤ１と、ホストシステ
ム３からの命令を受けてＨＤＤ１に対してリード、ライ
ト、シーク等のコマンドを発行するコントローラ２とを
有する。

【０００３】コントローラ２において、コマンド発行回
路４は、ホストシステム３からの命令を受けてＨＤＤ１
にコマンドを発行するための回路である。インタフェー
ス回路５は、接続したＨＤＤ１との間で信号のやり取り
を行うための回路である。ライトデータバッファ６は、
インタフェース回路５を介してＨＤＤ１に送出するデー
タを一時的に保存するための記憶手段である。リードデ
ータバッファ７は、インタフェース回路５を介してＨＤ
Ｄ１から送られてきたデータを一時的に記録するための
記憶手段である。ステータスバッファ８は、インタフェ
ース回路５を介してＨＤＤ１から送られてきたステータ
スレジスタの内容を一時的に記録するための記憶手段で
ある。不揮発性のエラーメモリ９は、ＨＤＤ１からのロ
グ情報に含まれるエラー回数を記録する。不揮発性のデ
ータメモリ１０は、ＨＤＤ１からのログ情報に含まれる
データ転送量を記録するための記憶手段である。エラー
レート算出回路１１は、エラー回数とデータ転送量から
エラーレートを算出するための回路である。エラーレー
ト比較回路１２は、エラーレート算出回路１１が算出し
たエラーレートと、ＨＤＤ１の装置仕様や稼働実績に準
拠し交換対象基準として予め設定してあるエラーレート
値（スレッシュホールド値）とを比較するための回路で
ある。アラーム信号生成回路１３は、エラーレート比較
回路１２が比較した結果、既定のエラーレート値を越え
ている場合にアラーム信号を発生するための回路であ
る。アラーム通知回路１４は、アラーム信号生成回路１
３のアラーム信号に基づき表示や音出力等でアラームの
通知を行うための回路である。

【０００４】一方、ＨＤＤ１において、メモリ１５は、
ＨＤＤ１において発生したエラー発生回数、リード／ラ
イトデータ転送量を記録するための記憶手段である。制
御回路１６は、ＨＤＤ１の動作、すなわちデータを実際
に記憶する磁気円板１７に対してデータの書込み／読出
しを行うヘッド１８の動作制御を行うための回路であ
り、エラー検出回路１９、ライトデータ転送量カウンタ
２０、リードデータ転送量カウンタ２１、書込み回路２
２及び読出し回路２３を有している。このうち、エラー
検出回路１９は、ＨＤＤ１において発生したエラーを検
出するための回路である。書込み回路２２は、コントロ
ーラ２から送られてきたデータ（書込みデータ）の変調
及び増幅を行うための回路である。読出し回路２３は、
磁気円板１７から読み出したデータ（読出しデータ）の
増幅及び復調を行うための回路である。ライトデータ転
送量カウンタ２０は、磁気円板１７への書込みデータの
ビット（ライトデータビット）の数をカウントする。リ
ードデータ転送量カウンタ２１は、磁気円板１７からの
読出しデータのビット（リードデータビット）の数をカ
ウントする。そして、ステータスレジスタ２４は、ＨＤ
Ｄ１においてコントローラ２から送られてきたコマンド
の命令通りに実行できたかのステータスを一時保存する
ための記憶手段である。インタフェース回路２５は、接
続されたコントローラ２との間で信号のやり取りを行う
ための回路である。

【０００５】通常、ディスクサブシステムのコントロー
ラ２は、ホストシステムからの命令に基づきリード／ラ
イト／シーク等のコマンドをＨＤＤ１に発行する。例え
ば、ライトコマンド発行時、ＨＤＤ１は、インタフェー
ス回路２５を経由してコントローラ２から書込みデータ
を受け取り、書込み回路２２、ヘッド１８を介して磁気
円板１７に記憶する。しかし、ＨＤＤ１の計時変化、磨
耗、磁気円板１７やヘッド１８に塵埃が付着した等の原
因により磁気円板１７が傷ついたり、回転異常が発生し
たりして目的のアドレスへの位置決めができなかった
り、リード／ライトできないなどの障害が発生し、いず
れ故障に至る場合がある。これらの故障は、突然発生す
るのではなく事前にその兆候が現れることが一般的であ
る。従って、その兆候を常時監視することによって故障
の予知を行うことができる。

【０００６】次に、故障を予知してアラームを発生する
までの従来における動作を、指定アドレスからのデータ
読出しを例にして説明する。

【０００７】図１３において、コントローラ２は、ＨＤ
Ｄ１に対してインタフェース回路５，２５を介してリー
ドコマンドを発行する。ＨＤＤ１は、コントローラ２か
ら受け取ったリードコマンドで指定された転送量の読出
しデータを指定された磁気円板１７上のアドレスから読
み出す。

【０００８】そして、読出しデータは、ＨＤＤ１からコ
ントローラ２に転送されるが、このときデータ転送量が
リードデータ転送量カウンタ２１でカウントされ、メモ
リ１５に記録される。読出しデータは、インタフェース
回路２５，５を介してリードデータバッファ７に蓄えら
れる。このリードコマンドの実行の過程は、ＨＤＤ１の
エラー検出回路１９がエラーチェックを行い、エラーが
あった場合はリトライが行われる。このリトライにより
エラーが救済できない場合はエラー有りと、救済された
場合はエラー無と判断される。なお、コマンドの実行の
結果としては、エラーが発生することなく正常終了をコ
ントローラ２に返す場合、エラーが発生したもののリト
ライを行うことによって結果的にはエラーが救済できた
場合及びエラーが発生しリトライをしたもののリカバリ
ができず、結果としてエラーが救済できない場合があ
る。エラー検出回路１９によるエラーチェックの結果
は、ステータスとしてメモリ１５に記録されると共にス
テータスレジスタ２４に一時保持され、その後、コント
ローラ２に通知される。これによって、コントローラ２
は、リードコマンドによるデータの授受の完了後にその
ステータスを参照することによってリードコマンド実行
時のエラーの有無並びにエラーの内容を知ることができ
る。ここで、エラーが検出されると、コントローラ２
は、リードコマンドを再度発行したりする。

【０００９】ところで、コントローラ２は、定期的にＨ
ＤＤ１のメモリ１５からエラー回数及びデータ転送量を
ＨＤＤ１から読み出し、エラーメモリ９及びデータメモ
リ１０にそれぞれ記録する。エラー算出回路１１は、エ
ラーメモリ９に保持されているエラー回数が増加する度
にＨＤＤ１から読み出しているエラー回数及びデータ転
送量からエラーレート（＝エラー回数／データ転送量）
を算出し、エラーレート比較回路１２に通知する。エラ
ーレート比較回路１２は、エラーレート算出回路１１か
ら受け取った算出値と予め保持したスレッシュホールド
値とを比較する。

【００１０】図１４は、横軸をエラーレート算出回数、
縦軸を算出結果（エラーレート値）とし、エラーレート
とスレッシュホールド値との関係を示した図であるが、
エラーレート比較回路１２は、エラーレート算出回路１
１からエラーレートを受け取る度に行うエラーレートチ
ェックにおいてそのエラーレートがスレッシュホールド
値を越えたときにアラームを出すようにする。すなわ
ち、エラーレート算出回路１１の算出結果が予め設定さ
れたスレッシュホールド値より大きければＨＤＤ１は故
障する可能性が有りと判断し、その旨の信号をアラーム
信号生成回路１３に送出する。アラーム信号生成回路１
３は、当該信号を受け取ると、アラーム信号を発生す
る。アラーム通知回路１４は、アラーム信号を受け取る
と、所定のランプ表示をしたり、あるいはホストシステ
ムにアラーム信号を送出し、ＣＲＴ等に表示させたりす
ることができる。

【００１１】このようにして、従来の装置がＨＤＤ１に
発生する可能性のある故障を予知し、アラームを発生す
ると、管理者等は、ＨＤＤ１の故障前にＨＤＤ１の交換
を行っていた。なお、データ書込みにおいてもリードデ
ータ転送量カウンタ２１の代わりにライトドデータ転送
量カウンタ２０がカウントしたデータ転送量に基づき上
記と同様の処理を行うことによって故障の予知をするこ
とができる。

【００１２】

【発明が解決しようとする課題】しかしながら、従来の
ディスクサブシステムでは、実際のコマンド実行に基づ
き算出したエラーレートがスレッシュホールド値を越え
た場合にアラームを発生するように動作していたので、
一時的なノイズや一過性の振動、衝撃、温度変化等本来
的に故障とは無関係な原因によりエラーレートが一時的
に悪化するような場合にもエラーレートがスレッシュホ
ールド値を越えてしまい、無用なＨＤＤ交換が行われる
場合があった。すなわち、エラーレートがスレッシュホ
ールド値を越えたことのみで故障の予告を送出している
ため、一時的なノイズ等で誤判定されるという問題があ
った。

【００１３】本発明は以上のような問題を解決するため
になされたものであり、その目的は、一時的なノイズ、
一過性の振動、衝撃、温度変化等本来的に故障とは無関
係な原因に基づく誤判定を防止するディスクサブシステ
ムを提供することにある。

【００１４】

【課題を解決するための手段】以上のような目的を達成
するために、第１の発明に係るディスクサブシステム
は、データを記録するハードディスクドライブと、ホス
トシステムからの命令を受けて前記ハードディスクドラ
イブに対してディスクアクセスのためのコマンドを発行
するコントローラとを有し、前記コマンド実行中に前記
ハードディスクドライブが取得するエラー情報、データ
転送量等のログ情報に基づき前記ハードディスクドライ
ブの故障の兆候を検出し予知した故障発生の通知を行う
ディスクサブシステムにおいて、前記コントローラは、
前記ハードディスクドライブで発生しうる故障原因毎
に、故障に至るまでに発生しうるエラーの発生比率をモ
デル化したエラーパターンを予め保持する故障パターン
テーブルと、コマンドの発行に伴い収集されたログ情報
を記録するログ情報履歴記憶手段と、前記ログ情報履歴
記憶手段に保持されたログ情報に基づくエラー集計結果
が前記故障パターンテーブルに設定したいずれかのエラ
ーパターンに類似しているかどうかの判定を行う故障パ
ターン判定手段と、前記ログ情報履歴記憶手段に保持さ
れたログ情報に基づきエラーレートを算出するエラーレ
ート算出手段と、前記エラーレート算出手段が算出した
エラーレートと予め設定されたスレッシュホールド値と
の比較を行うエラーレート比較手段とを有し、比較した
前記エラー集計結果と前記エラーパターンが類似してい
ると判定され、かつ、算出したエラーレートが前記スレ
ッシュホールド値を越えた場合に前記ハードディスクド
ライブの故障の兆候有りと判断するものである。

【００１５】第２の発明に係るディスクサブシステム
は、第１の発明において、前記ハードディスクドライブ
は、受け取ったコマンドに基づきデータアクセスをした
結果として少なくともデータ転送量、エラー発生時のデ
ィスクアドレス、エラー内容及びリトライ回数を含めた
エラー発生回数をログ情報として収集する制御手段と、
収集したログ情報を一時記憶するログ情報記憶手段とを
有するものである。

【００１６】第３の発明に係るディスクサブシステム
は、第２の発明において、前記コントローラは、前記ハ
ードディスクドライブから送られてきたログ情報に基づ
き得られた、データ転送量、エラー内容毎のエラー発生
回数、ディスクアドレス毎のエラー内容、リトライ回数
及びコマンド実行回数をログ情報収集毎に前記ログ情報
履歴記憶手段に保持し、前記故障パターン判定手段は、
前記ログ情報履歴記憶手段に保持されたログ情報から得
られたエラー集計結果と前記故障パターンテーブルに設
定されたエラーパターンとを比較することによって類似
判断を行うものである。

【００１７】第４の発明に係るディスクサブシステム
は、第１の発明において、前記エラーレート算出手段
は、リトライ回数をデータ転送量で除算することによっ
てエラーレートを算出するものである。

【００１８】第５の発明に係るディスクサブシステム
は、第４の発明において、前記コントローラは、前記コ
マンドの実行時間を測定し、そのコマンド実行時間をロ
グ情報として前記ログ情報履歴記憶手段に記憶させる実
行時間測定手段と、前記ログ情報履歴記憶手段に保持さ
れているログ情報に基づき故障の兆候度合いを示す危険
度係数を算出する危険度係数算出手段とを有し、前記エ
ラーレート比較手段は、前記危険度係数を前記エラーレ
ートに乗じた結果と前記スレッシュホールド値との比較
を行うものである。

【００１９】第６の発明に係るディスクサブシステム
は、第５の発明において、前記危険度係数算出手段は、
現時点におけるログ情報に基づき算出した平均コマンド
実行時間を、前記ハードディスクドライブの使用開始時
点におけるログ情報に基づき算出した平均コマンド実行
時間で除算することによって危険度係数を算出するもの
である。

【００２０】第７の発明に係るディスクサブシステム
は、第２の発明において、前記コントローラは、所定の
コマンドを前記ハードディスクドライブに発行すること
によって前記ログ情報記憶手段に一時記憶されているロ
グ情報を収集するものである。

【００２１】

【発明の実施の形態】以下、図面に基づいて、本発明の
好適な実施の形態について説明する。なお、従来例と同
じ構成要素には同じ符号を付ける。

【００２２】図１は、本発明に係るディスクサブシステ
ムの一実施の形態を示したブロック構成図である。本実
施の形態におけるディスクサブシステムは、一般に実際
にデータを記憶するＨＤＤ３１と、ホストシステム３か
らの命令を受けてＨＤＤ３１に対してリード、ライト、
シーク等のコマンドを発行するコントローラ３２とを有
する。

【００２３】コントローラ３２において、コマンド発行
回路３３は、ホストシステム３からの命令を受けてＨＤ
Ｄ３１にコマンドを発行するための回路である。インタ
フェース回路５は、接続したＨＤＤ３１との間で信号の
やり取りを行うための回路である。ライトデータバッフ
ァ６は、インタフェース回路５を介してＨＤＤ３１に送
出するデータを一時的に保存するための記憶手段であ
る。リードデータバッファ７は、インタフェース回路５
を介してＨＤＤ３１から送られてきたデータを一時的に
記録するための記憶手段である。ステータスバッファ８
は、インタフェース回路５を介してＨＤＤ３１から送ら
れてきたステータスレジスタの内容を一時的に記録する
ための記憶手段である。不揮発性のエラーメモリ３４及
びデータメモリ３５は、コマンドの発行に伴いＨＤＤ３
１又はコントローラ３２で収集されたログ情報を記録す
るログ情報履歴記憶手段として設けられている。このう
ち、エラーメモリ３４は主にエラーに関するログ情報
を、データメモリ３５はそれ以外のログ情報やログ情報
の履歴を保持する。故障パターンテーブル３６は、ＨＤ
Ｄ３１で発生しうる故障原因毎に、故障に至るまでに発
生しうるエラーの発生比率をモデル化したエラーパター
ンを予め保持する。故障パターンテーブル３６の内容の
詳細は後述する。故障パターン判定回路３７は、故障パ
ターン判定手段として設けられ、ログ情報に基づくエラ
ー集計結果が故障パターンテーブル３６に設定したいず
れかのエラーパターンに類似しているかどうかの判定を
行う。エラーレート算出回路３８は、エラーレート算出
手段として設けられ、ログ情報に基づきエラーレートを
算出する。危険度係数設定回路３９は、危険度係数算出
手段として設けられ、データメモリ３５に保持されてい
るログ情報に基づき故障の兆候度合いを示す危険度係数
を算出する。エラーレート比較回路４０は、エラーレー
ト比較手段として設けられ、エラーレート算出回路３８
が算出したエラーレートと予め設定されたスレッシュホ
ールド値との比較を行う。このスレッシュホールド値
は、ＨＤＤ３１の装置仕様や稼働実績に準拠し交換対象
基準として予め設定してあるエラーレート値である。実
行時間測定回路４１は、実行時間測定手段として設けら
れ、各コマンドの実行時間を測定する。アラーム信号生
成回路１３は、エラーレート比較回路４０が比較した結
果、既定のエラーレート値を越えている場合にアラーム
信号を発生するための回路である。アラーム通知回路１
４は、アラーム信号生成回路１３のアラーム信号に基づ
き表示や音出力等でアラームの通知を行うための回路で
ある。

【００２４】一方、ＨＤＤ３１において、インタフェー
ス回路２５は、接続されたコントローラ３２との間で信
号のやり取りを行うための回路である。制御回路４２
は、ＨＤＤ３１の動作、すなわちデータを実際に記憶す
る磁気円板１７に対してデータの書込み／読出しを行う
ヘッド１８の動作制御を行うための回路である。ＨＤＤ
３１における制御手段として設けられた制御回路４２
は、内部にライトデータ転送量カウンタ２０、リードデ
ータ転送量カウンタ２１、コマンド回数カウンタ４３及
びリトライ回数カウンタ４４を搭載し、受け取ったコマ
ンドに基づきデータアクセスをした結果として少なくと
もデータ転送量、エラーが発生したディスクアドレス、
エラー内容及びリトライ回数を含めたエラー発生回数を
ログ情報として収集する。また、制御回路４２は、その
他にエラー検出回路１９、書込み回路２２及び読出し回
路２３を有している。このうち、エラー検出回路１９
は、ＨＤＤ３１において発生したエラーを検出するため
の回路である。書込み回路２２は、コントローラ３２か
ら送られてきたデータ（書込みデータ）の変調及び増幅
を行うための回路である。読出し回路２３は、磁気円板
１７から読み出したデータ（読出しデータ）の増幅及び
復調を行うための回路である。ライトデータ転送量カウ
ンタ２０は、磁気円板１７への書込みデータのビット
（ライトデータビット）の数をカウントするためのカウ
ンタである。リードデータ転送量カウンタ２１は、磁気
円板１７からの読出しデータのビット（リードデータビ
ット）の数をカウントするためのカウンタである。コマ
ンド回数カウンタ４３は、実行したコマンドの数をカウ
ントするためのカウンタである。リトライ回数カウンタ
４４は、磁気円板１７に対するデータアクセスが正常に
できなかった際に行うデータアクセスのリトライの回数
をカウントするためのカウンタである。また、メモリ４
５は、ログ情報記憶手段として設けられ、ＨＤＤ３１に
おいて発生したエラー発生回数、リード／ライトデータ
転送量など制御回路４２において収集されたログ情報を
記録する。そして、ステータスレジスタ２４は、ＨＤＤ
３１においてコントローラ３２から送られてきたコマン
ドの命令通りに実行できたかのステータスを一時保存す
るための記憶手段である。

【００２５】以上の構成を有する本実施の形態において
特徴的なことは、実際のコマンド実行に基づき算出した
エラーレートと予め設定したスレッシュホールド値との
比較処理に基づく故障予知を行うだけでなく、ＨＤＤ３
１が故障に至るまでに発生しうるエラーの発生比率をモ
デル化したエラーパターンを故障原因毎に予め保持して
おき、この各エラーパターンと収集したログ情報に基づ
き得られたエラー集計結果との比較処理を行い、エラー
集計結果がモデル化したエラーパターンと類似する場合
のみ故障の兆候の可能性有りと判断するようにしたこと
である。これにより、一時的なノイズ、一過性の振動、
衝撃、温度変化等本来的に故障の兆候とはいえない事象
によって誤った故障予知を行うことの防止をすることが
できる。

【００２６】次に、本実施の形態における動作について
ＨＤＤ３１からデータを読み出す場合を例にして図２及
び図３に示したフローチャートに基づき説明する。

【００２７】コントローラ３２において、ホストシステ
ム３からデータ読出し命令を受けると（ステップ１０
１）、コマンド発行回路４は、図４に示したフォーマッ
トのリードコマンドを生成し、インタフェース回路５を
介してＨＤＤ３１に送出する（ステップ１０２）。リー
ドコマンドは、読出し命令であることを識別するための
リードコマンドコード、読出しデータが格納されている
格納アドレス、読出しデータのデータ転送量及びその他
の情報で構成される。また、コマンド発行回路３３は、
コマンド発行と同時にその旨を実行時間測定回路４１に
通知し、実行時間の測定を開始させる（ステップ１０
３）。

【００２８】ＨＤＤ３１において、制御回路４２は、イ
ンタフェース回路２５を介してコントローラ３２からリ
ードコマンドを受け取ると（ステップ２０１）、コマン
ド回数カウンタ４３をカウントアップする（ステップ２
０２）。なお、コマンド回数カウンタ４３並びに他のカ
ウンタ２０，２１，４４は、ログ情報をコントローラ３
２に送出した時点でリセットされる。そして、ヘッド１
８を指定された格納アドレスに移動させて目的とするデ
ータを読み出して転送する。この読出し処理と並行して
リードデータ転送量カウンタ２１をカウントアップする
とともにメモリ４５に現在保持しているデータ転送量に
加算する（ステップ２０３）。

【００２９】更に、読出し処理中、エラー検出回路１９
は、データが磁気円板１７から正常に読み出されている
かの監視を行い、最終的に読出し処理が正常終了した場
合にステータスレジスタ２４に正常終了のステータスビ
ットをセットするとともにメモリ４５に保持したデータ
転送量をコントローラ３２に送る（ステップ２０４，２
０８）。エラー検出回路１９は、読出し処理中に何らか
のエラーを検出した場合、独自のリトライシーケンスに
基づき数回から数百回のリトライを行う（ステップ２０
４，２０５）。リトライを繰り返す間にデータを正常に
読み出せれば（ステップ２０６）、ステータスレジスタ
２４に正常終了のステータスビットをセットするととも
にメモリ４５に保持したデータ転送量をコントローラ３
２に送る（ステップ２０８）。このリトライは、リトラ
イ回数カウンタ４４でカウントされ、実行されたリトラ
イの回数がメモリ４５に保持される。また、リトライ回
数のカウントと並行して発生したエラーの内容（データ
エラー、ＩＤエラー、位置決めエラー等）及びエラー発
生アドレスもメモリ４５に記録される（ステップ２０
７）。一方、上記リトライシーケンスでエラーがリカバ
リできなかった場合は、アンリカバラブルエラーとして
ステータスレジスタ２４にエラービットをセットする
（ステップ２０９）。ステータスビットがステータスレ
ジスタ２４にセットされると、インタフェース回路２
５，５を介してコントローラ３２のステータスバッファ
８に送られることになる。

【００３０】以上のＨＤＤ３１におけるデータ読出し処
理において、１回のリードコマンドを受け付けたことに
より、コマンド実行回数、データ転送量及びエラー発生
の有無、並びにエラー発生時にはリトライ回数、エラー
内容、エラー発生アドレスがログ情報としてメモり４５
に記録されることになる。

【００３１】コントローラ３２は、ステータスバッファ
８にステータスがセットされると（ステップ１０４）、
実行時間測定回路４１によるコマンド実行時間の測定を
終了する（ステップ１０５）。そして、測定した実行時
間をデータメモリ３５に記録する（ステップ１０６）。
このように、コントローラ３２では、１回のリードコマ
ンド発行によりコマンドの実行時間をログ情報として記
録することになる。なお、正常終了時、ＨＤＤ３１から
送られてくる読出しデータは、リードデータバッファ７
に保存されることになる。また、異常終了時、コントロ
ーラ３２は、再度リードコマンドを発行してリカバリを
行うが、このリカバリ処理においても救済できない場合
は、アンコレクタブルエラーの発生としてシステムダウ
ンに至る。なお、その他の一般的なディスクシステムと
同等な処理については、本実施の形態の要旨ではないた
め説明を省略する。

【００３２】コントローラ３２は、上記データ読出し処
理によりＨＤＤ３１が収集したログ情報を任意のタイミ
ングでかつ定期的な処理を実行することで収集し、集計
処理を行う。このログ情報収集処理は、通常ディスクサ
ブシステムとして行うべき処理の性能低下につながらな
い時間帯あるいは当該処理の合間に行うようにする。例
えば、当該処理に支障を来さないと判断される時間に、
あるいはシステム負荷を常時監視して適当と思われる時
間に、所定のコマンド、例えばログリードと称するコマ
ンドを１日に１回発行することでＨＤＤ３１のメモリ４
５からログ情報を読み出すようにする。この読み出した
ログ情報のうちエラーに関する情報をエラーメモリ３４
に、それ以外の情報をデータメモリ３５にそれぞれ保存
する。この内訳を図５に示す。更に、図６、図７及び図
１１に例示した集計データを算出する。ここで、エラー
メモリ３４に保存されているログ情報の内容構成につい
て説明する。

【００３３】図６は、ＨＤＤ３１から収集したログ情報
に基づきエラー内容毎のエラー発生回数を集計した内容
例を示した図である。図６において、エラー内容とは、
ＨＤＤ３１において発生しうるエラーの種類であり、本
実施の形態では、リードエラー、ＩＤエラー、ライトエ
ラー、ノットレディを例示している。そして、１回のロ
グ情報収集に含まれているエラー内容をエラー内容毎に
分類する。図６の例では、１０００回のログ情報の収集
を行った履歴を示している。そして、「計」の欄がリト
ライ回数に相当する。図７は、ＨＤＤ３１から収集した
ログ情報に基づきＨＤＤ３１において発生したエラー内
容毎のエラー発生回数をアドレス毎に集計した内容例を
示した図である。なお、これらのエラー集計結果は、Ｈ
ＤＤ３１からのログ情報収集時に上記のように分類、集
計して記録するようにしてもよいし、エラー集計結果を
故障パターン判定回路３７が使用するときにエラーメモ
リ３４に記録された元データに基づき図６及び図７に示
したように分類、集計するようにしてもよい。

【００３４】図８は、本実施の形態において予め設定し
た故障パターンテーブル３６の内容例を示した図であ
る。このテーブル３６には、ＨＤＤ３１において発生し
うる故障の原因毎に、各エラーの発生比率及び各故障の
特徴が設定されている。本実施の形態では、故障の原因
（故障モード）として円板傷つき、位置ズレ及び回転異
常を例示した。

【００３５】次に、ログ情報が収集、集計された後に行
われる故障予知を行うための処理について図９に示した
フローチャートを用いて説明する。

【００３６】前述したように、ＨＤＤ３１の故障の原因
は、データエラー等のエラーが図８に示したような比率
で発生し、かつ特徴があると予め判明している。従っ
て、故障パターン判定回路３７は、故障パターンテーブ
ル３６に設定されたモデル化したエラーパターンと、実
際にコマンドを実行して収集したログ情報に基づき得ら
れたエラー集計結果とを比較し（ステップ３０１）、実
際に発生したエラーの比率がモデル化したいずれかのエ
ラーパターンと同等であり、かつそのエラー発生アドレ
スの分布が図８に示した特徴に合致するようであれば、
比較したエラー集計結果は上記エラーパターンに類似し
ている、すなわち実際に発生したエラー故障の兆候を示
すエラーであると判定する（ステップ３０２）。例え
ば、実際に発生したエラーの比率がモデル化した円板傷
つきのエラーパターンと同等であり、かつそのエラーの
発生箇所がＨＤＤ３１の特定のアドレスで頻発している
ようであれば、円板が傷ついたという故障が将来的に起
こるであろうと判断することができる。本実施の形態で
は、リトライで救えた場合もエラーとしてカウントし、
そのリトライ時のエラーを含むエラー発生回数を用いて
エラー比率を求めているので、故障に至る前の故障モー
ドを特定することができることになる。なお、エラー集
計結果とエラーパターンとの比較によりどの程度の差異
までを類似とするかという許容範囲を事前に設定してお
く必要があるが、これは設計事項の範囲内であるため説
明を省略する。なお、上記比較により類似でないと判断
した場合、ＨＤＤ３１において収集されたエラーは、一
時的なノイズ等により発生したものであると判定し、故
障予知の処理を終了する。

【００３７】故障パターン判定回路３７が故障の兆候有
りと判断すると、次に、エラーレート算出回路３８は、
ＨＤＤ３１から収集した１回分のログ情報に含まれるリ
トライ回数すなわちエラー内容毎のエラー発生回数の総
計とデータ転送量からエラーレートを算出する（ステッ
プ３０３）。これは、エラーメモリ３４に保存されたリ
トライ回数とデータメモリ３５に保存されたデータ転送
量により、エラーレート＝リトライ回数／データ転送量という式によって算出する。なお、エラーメモリ３４及
びデータメモリ３５には、収集したログ情報が順次保存
されており、時系列にその変化の遷移を見ることができ
る。このエラーレートの変化の遷移の例を図１０に示
す。

【００３８】次に、エラーレート比較回路４０は、予め
設定されたスレッシュホールド値と算出したエラーレー
トとを比較することによって故障の兆候の有無について
最終的な判断を行うが、ここでエラーレート比較回路４
０が使用する各種データについて説明する。

【００３９】図１１は、データメモリ３５に保存されて
いるコマンド実行時間に関する情報並びに算出された危
険度係数の内容例を示した図である。データメモリ３５
には、コマンド実行回数、総コマンド実行時間、平均コ
マンド実行時間及び危険度係数が上記ログリードコマン
ドが発行される間毎（ログ情報収集毎）に集計されてい
る。コマンド実行回数は、ＨＤＤ３１のコマンド回数カ
ウンタ４３によってカウントされた値である。総コマン
ド実行時間は、実行時間測定回路４１が測定した実行時
間をログ情報収集毎に集計した総時間である。この値
は、平均コマンド実行時間＝総コマンド実行時間／コマンド
実行回数で算出することができる。また、危険度係数は、危険度係数＝ｎ回目のログ情報収集時における平均コ
マンド実行時間／１回目のログ情報収集時における平均
コマンド実行時間で算出することができる。例えば、図１１において５回
目のログ情報収集時における危険度係数は、４４÷４２≒１．０４８となる。ここで、危険度係数とは、故障の兆候のないと
きに算出した最初（本実施の形態では１回目）の平均コ
マンド実行時間とＨＤＤ３１を使用し故障の至る兆候が
発生しうるｎ回目の平均コマンド実行時間との比であ
る。図１０に示したスレッシュホールド値は、機種共通
に用いられる値であるが、実際のＨＤＤ３１は、装置個
々に故障に至る余裕度が異なるため、個々の余裕度の相
違を実行時間の差で測定し、装置毎に的確な故障予知を
行うために危険度係数を設けた。例えば、ｎ回目の平均
コマンド実行時間が相対的に長くなっているとき、ＨＤ
Ｄ３１には劣化が始まっており、故障に至りやすい状態
になっていると考えられる。このとき、危険度係数は１
より比較的大きな値となる。一方、その比が１以下にな
るときなどは、エラーが発生していてもＨＤＤ３１の劣
化は始まっておらず、故障にはまだ至らないと考えるこ
とができる。なお、図１１に示した各データの集計、算
出等の処理は、各ログ情報収集時に自動的に行うように
してもよいし、これらのデータを使用するエラーレート
比較回路４０の動作時に集計等を行うようにしてもよ
い。また、本実施の形態においては、エラーレートの算
出の際に使用するエラー発生回数には、リトライ時のエ
ラーをも含まれているため、これを考慮して従来とは異
なるスレッシュホールド値を設定する必要がある。

【００４０】エラーレート比較回路４０は、エラーレー
ト算出回路３８がｎ回目のログ情報に基づき算出したエ
ラーレートとデータメモリ３５に保存されている図１１
に示したｎ回目の危険度係数とを乗じて新たなエラーレ
ートを算出する（ステップ３０４）。この結果の遷移の
例を図１２に示す。この図１２のように、危険度係数に
より乗じた後のエラーレートがスレッシュホールド値を
越えた場合（図１２におけるＡ回目）にその旨をアラー
ム信号生成回路１３に通知する（ステップ３０５）。本
実施の形態においては、エラーレートに危険度係数を乗
算するようにしたので、早期にスレッシュホールド値に
達することになる。

【００４１】アラーム信号生成回路１３は、エラーレー
トがスレッシュホールド値を越えた旨を受け取ると、ア
ラーム信号を生成し（ステップ３０６）、アラーム通知
回路１４は、アラーム信号を受け取ると、ホストシステ
ム３にアラーム信号を送出し、ＣＲＴ等に表示させたり
するなどの通知を行う（ステップ３０７）。

【００４２】以上のように、本実施の形態によれば、実
際にコマンドを実行して収集したログ情報により得たエ
ラー集計結果が故障の原因毎にモデル化したエラーパタ
ーンと類似するときのみエラーレートとスレッシュホー
ルド値との比較処理を行うようにしたので、ノイズ等の
一過性のエラーによって誤った故障予知をすることから
防止することができる。また、ＨＤＤ３１でカウントす
るエラー発生回数にリトライで救えた分も含めるように
したので、故障に至る前の故障モードを特定することが
できることになる。

【００４３】なお、本実施の形態では、上記構成により
上記のように動作することで故障予知を行うようにした
が、他の構成としても上記と同様の効果を奏することが
できる。例えば、ＨＤＤ３１によって発行されたコマン
ドの回数をカウントするようにしたが、コントローラ３
２側でカウントするようにしてもよい。

【００４４】また、本実施の形態では、ＳＣＳＩインタ
フェースの例で説明したが、ＡＴＡ、ＦＣ−ＡＬ、ＳＰ
Ａ、Ｐ１３９４等のインタフェースに適用したＨＤＤ３
１でも同様に動作させることができる。

【００４５】また、故障を予知した場合、ホストシステ
ム３へ通知するだけでなく、コントローラ３２又はＨＤ
Ｄ３１に所定のランプ表示をしたり、音出力をしたりす
るようにしてもよい。

【００４６】また、危険度係数を上記のように求めた
が、更に状況に応じて係数を乗算して重みづけをした
り、システム使用環境の特質に応じて他の式によって求
めるようにしてもよい。

【００４７】

【発明の効果】本発明によれば、ハードディスクドライ
ブが故障に至るまでに発生しうるエラーの発生比率をモ
デル化したエラーパターンを故障原因毎に予め保持して
おき、この各エラーパターンと収集したログ情報に基づ
き得られたエラー集計結果との比較処理を行い、エラー
集計結果がモデル化したエラーパターンと類似する場合
のみ故障の兆候の可能性有りと判断するようにしたの
で、一時的なノイズ、一過性の振動、衝撃、温度変化等
本来的に故障の兆候とはいえない事象によって誤った故
障予知を行うことを防止することができる。

【００４８】また、故障パターンテーブルに設定するエ
ラー発生比率を、リトライ時のエラーを含むエラー発生
回数を考慮して求めているので、故障に至る前の故障モ
ードを特定することができる。

【図面の簡単な説明】

【図１】本発明に係るディスクサブシステムの一実施
の形態を示したブロック構成図である。

【図２】本実施の形態におけるコントローラの動作を
示したフローチャートである。

【図３】本実施の形態におけるＨＤＤの動作を示した
フローチャートである。

【図４】本実施の形態におけるコントローラが送出す
るリードコマンドのフォーマット例を示した図である。

【図５】本実施の形態におけるログ情報履歴記憶手段
が保持するログ情報の内訳を示した図である。

【図６】本実施の形態においてＨＤＤから収集したロ
グ情報に基づきエラー内容毎のエラー発生回数を集計し
た内容例を示した図である。

【図７】本実施の形態においてＨＤＤで発生したエラ
ー内容毎のエラー発生回数をアドレス毎に集計した内容
例を示した図である。

【図８】本実施の形態において予め設定した故障パタ
ーンテーブルの内容例を示した図である。

【図９】本実施の形態における故障予知を行うための
処理を示したフローチャートである。

【図１０】本実施の形態において算出したエラーレー
トの遷移を示した図である。

【図１１】本実施の形態におけるデータメモリに保存
されているコマンド実行時間に関する情報並びに算出さ
れた危険度係数の内容例を示した図である。

【図１２】本実施の形態において危険度係数を乗算し
て新たに算出したエラーレートの遷移を示した図であ
る。

【図１３】従来のディスクサブシステムのブロック構
成図である。

【図１４】エラーレートとスレッシュホールド値との
関係を示した図である。

【符号の説明】

３ホストシステム、５，２５インタフェース回路、
６ライトデータバッファ、７リードデータバッフ
ァ、８ステータスバッファ、１３アラーム信号生成
回路、１４アラーム通知回路、１７磁気円板、１８
ヘッド、１９エラー検出回路、２０ライトデータ転
送量カウンタ、２１リードデータ転送量カウンタ、２
２書込み回路、２３読出し回路、２４ステータス
レジスタ、３１ハードディスクドライブ（ＨＤＤ）、
３２コントローラ、３３コマンド発行回路、３４
エラーメモリ、３５データメモリ、３６故障パター
ンテーブル、３７故障パターン判定回路、３８エラ
ーレート算出回路、３９危険度係数設定回路、４０エ
ラーレート比較回路、４１実行時間測定回路、４２
制御回路、４３コマンド回数カウンタ、４４リトラ
イ回数カウンタ、４５メモリ。

Claims

(57)【特許請求の範囲】

【請求項１】データを記録するハードディスクドライ
ブと、ホストシステムからの命令を受けて前記ハードディスク
ドライブに対してディスクアクセスのためのコマンドを
発行するコントローラと、を有し、前記コマンド実行中に前記ハードディスクドラ
イブが取得するエラー情報、データ転送量等のログ情報
に基づき前記ハードディスクドライブの故障の兆候を検
出し予知した故障発生の通知を行うディスクサブシステ
ムにおいて、前記コントローラは、前記ハードディスクドライブで発生しうる故障原因毎
に、故障に至るまでに発生しうるエラーの発生比率をモ
デル化したエラーパターンを予め保持する故障パターン
テーブルと、コマンドの発行に伴い収集されたログ情報を記録するロ
グ情報履歴記憶手段と、前記ログ情報履歴記憶手段に保持されたログ情報に基づ
くエラー集計結果が前記故障パターンテーブルに設定し
たいずれかのエラーパターンに類似しているかどうかの
判定を行う故障パターン判定手段と、前記ログ情報履歴記憶手段に保持されたログ情報に基づ
きエラーレートを算出するエラーレート算出手段と、前記エラーレート算出手段が算出したエラーレートと予
め設定されたスレッシュホールド値との比較を行うエラ
ーレート比較手段と、を有し、比較した前記エラー集計結果と前記エラーパタ
ーンが類似していると判定され、かつ、算出したエラー
レートが前記スレッシュホールド値を越えた場合に前記
ハードディスクドライブの故障の兆候有りと判断するこ
とを特徴とするディスクサブシステム。
【請求項２】前記ハードディスクドライブは、受け取
ったコマンドに基づきデータアクセスをした結果として
少なくともデータ転送量、エラー発生時のディスクアド
レス、エラー内容及びリトライ回数を含めたエラー発生
回数をログ情報として収集する制御手段と、収集したログ情報を一時記憶するログ情報記憶手段と、を有することを特徴とする請求項１記載のディスクサブ
システム。
【請求項３】前記コントローラは、前記ハードディス
クドライブから送られてきたログ情報に基づき得られ
た、データ転送量、エラー内容毎のエラー発生回数、デ
ィスクアドレス毎のエラー内容、リトライ回数及びコマ
ンド実行回数をログ情報収集毎に前記ログ情報履歴記憶
手段に保持し、前記故障パターン判定手段は、前記ログ情報履歴記憶手
段に保持されたログ情報から得られたエラー集計結果と
前記故障パターンテーブルに設定されたエラーパターン
とを比較することによって類似判断を行うことを特徴と
する請求項２記載のディスクサブシステム。
【請求項４】前記エラーレート算出手段は、リトライ
回数をデータ転送量で除算することによってエラーレー
トを算出することを特徴とする請求項１記載のディスク
サブシステム。
【請求項５】前記コントローラは、前記コマンドの実行時間を測定し、そのコマンド実行時
間をログ情報として前記ログ情報履歴記憶手段に記憶さ
せる実行時間測定手段と、前記ログ情報履歴記憶手段に保持されているログ情報に
基づき故障の兆候度合いを示す危険度係数を算出する危
険度係数算出手段と、を有し、前記エラーレート比較手段は、前記危険度係数を前記エ
ラーレートに乗じた結果と前記スレッシュホールド値と
の比較を行うことを特徴とする請求項４記載のディスク
サブシステム。
【請求項６】前記危険度係数算出手段は、現時点にお
けるログ情報に基づき算出した平均コマンド実行時間
を、前記ハードディスクドライブの使用開始時点におけ
るログ情報に基づき算出した平均コマンド実行時間で除
算することによって危険度係数を算出することを特徴と
する請求項５記載のディスクサブシステム。
【請求項７】前記コントローラは、所定のコマンドを
前記ハードディスクドライブに発行することによって前
記ログ情報記憶手段に一時記憶されているログ情報を収
集することを特徴とする請求項２記載のディスクサブシ
ステム。