JP2006048789A

JP2006048789A - 磁気ディスク装置の故障予測方法及びこれを用いた磁気ディスク装置

Info

Publication number: JP2006048789A
Application number: JP2004225465A
Authority: JP
Inventors: Toru Miyazaki; 徹宮崎; Akira Kojima; 昭小島; Takeshi Shikama; 健志鎌; Kunihiro Nunomura; 邦弘布村
Original assignee: Hitachi Global Storage Technologies Netherlands BV
Current assignee: HGST Netherlands BV
Priority date: 2004-08-02
Filing date: 2004-08-02
Publication date: 2006-02-16
Also published as: CN1770304A; US7369339B2; US20060034008A1; CN100583279C

Abstract

【課題】磁気ディスク装置から上位装置に対して、故障する旨の警告を正確に送出する。
【解決手段】磁気ヘッド毎に、単位時間当たりのエラー指標を断続的、連続的に格納し、格納した複数のエラー指標を更新し新たな指標（以下、部分積分エラーレート）が、所定の条件を満たせば異常、擬似異常と診断し、上位装置へ報告する。部分積分エラーレートは一定数のエラー指標の組から、ビットエラー数の総和をアクセス数の総和で除して得る。新たな単位時間当たりのエラー指標の格納毎、監視対象の古いエラー指標を捨て、新しいエラー指標を追加し、一定数のエラー指標から、新たな部分積分エラーレートを算出する。部分積分エラーレートが、第２の所定閾値を越えて増加時は、装置異常の可能性が高く異常を上位装置に報告する。部分積分エラーレートが第２の所定閾値を超えなければ、一時的増加であると判断、疑似異常を上位装置に報告する。
【選択図】図３

Description

本発明は、磁気ディスク装置の診断方法に係り、特に、故障の予測機能を持つ磁気ディスク装置に関する。

２４時間稼動を前提とした信頼性の高い磁気ディスク装置では、1日２４時間稼動し、３年乃至５年間、無事故であることを保証するものが多い。実際の運用では、システムを年に１〜２回休止し、定期的な保守・点検が為されるのが通常である。

このような磁気ディスク装置は、個々の性能が均質であり、磁気ディスク装置の新規搭載又は保守・交換後は、数千時間を経てもビットエラー数その他のエラー現象は多くない。例えば、１０ギガバイト分のデータをアクセスしても、数ビット以下のビットエラーが生じる程度である。

このため、従来技術では、一定期間、ビットエラー数その他のエラー指標を蓄積し、エラー指標の発生数がその期間内に所定の閾値を超えると上位装置に報告していた。また上位装置は予め設定された値、例えば、平均故障間隔ＭＴＢＦと、その一定期間とを比較して、磁気ディスク装置の交換時期を操作者に示すことで、不具合発生の予想に代えていた。

しかし磁気ディスク装置が搭載される環境は千差万別であり、物理的には周囲温度の変化や外乱振動により、スピンドルモータやアクチュエータが異常となったり、装置内外の電磁的雑音により、磁気ヘッド自体や伝送回路系統が異常を来すこともある。かかる場合に、ある時間に集中してビットエラーが発生する。
前者の異常現象は磁気ディスク装置の故障の前兆として、無視できないにもかかわらず、従来技術では察知できなかった。

即ち、従来の診断方法では、所定の時間が経過するまでに発生したエラー指標の数をそれぞれ累積し、所定時間の経過時に、累積されたそれぞれのエラー数が所定の閾値を超えたか否かの判断を行い、超えた場合にのみ異常であると診断していた。所定時間として平均故障間隔（ＭＴＢＦ）が採用されていた。
このため所定時間が経過する途中で、一時的にスピンドルモータやアクチュエータの異常が生じてエラー指標のうち特定のものの数値が増加しても、所定時間経過までに累積されるエラー指標の数値全体に占める割合が僅かであるため、異常とは診断されなかった。つまり、磁気ディスク装置の性能が相当、劣化しないと交換されない状況にあった。

特開平６−２１４８３５では、周辺機器毎に、エラー要因毎に、エラーの発生回数をメモリに累積記録し、これを定期的に中央処理装置に送信することで、中央処理装置が、送信されたエラー情報と、予め保持している周辺機器毎の劣化特性、稼働時間等の要因に基づいて、永久故障発生の時期を予測する、としている。予測方法の詳細は不明である。

特開平７−２４８９３７では、装置の交換時又は前回の診断時からの使用時間を計測し、各装置毎に定められている、平均故障時間その他の規定時間以上を経過すると、自己診断プログラムを実行することで、不要な自己診断を抑制している。

特開２００１-３０７４３５では、Ｓ／Ｎ比を劣化させてエラーレートを監視するというエラーテストを、転送データ量を累計し一定量毎に実施して、故障を予測する、としている。

特開平６−２１４８３５号特開平７−２４８９３７号特開２００１−３０７４３５号

従来の磁気ディスク装置は、上位装置に対して、故障する旨の警告を正確に送出することが困難であった。
監視対象のエラー指標に対し、閾値を設定し、これを超えた場合に警告（報告）を発するという単純な診断では、誤報が頻出するか、逆に、故障を発見し損なう。
監視を頻繁に行えば、扱う情報量の増加により、磁気ディスク装置に負担が掛かり過ぎる。他方、磁気ディスク装置の転送データ量を長期間にわたり累計して自己診断を行うと、故障の予知をし損なう。

磁気ディスク装置の転送データ量を累計し、一定の転送データ量毎に、自己診断を行う従来技術では、転送データのトラフィックが時間的に分散することから、故障の時期を正確には予想できない。

本発明は、長時間、エラー指標を累積する弊害（一時的な異常や、故障に至る前兆を見逃すこと）を除去することを目的とする。本発明では、磁気ヘッド毎に、単位時間当たりのエラー指標を断続的、連続的に格納し、格納した複数のエラー指標を監視対象として、更新して行く新たな第２のエラー指標（以下、部分積分エラーレートという。）を設け、第２のエラー指標が所定の条件を満たせば異常、擬似異常と診断し、上位装置へ報告する。

好ましい実施例では、単位時間として１時間の間に、一定のアクセス数又は一定の測定時間（数十秒程度）当たりのエラー指標を単位時間に対応させて格納する。これを単位時間毎に繰り返すことで、断続的、連続的に単位時間毎のエラー指標の推移を格納する。
エラー指標としては、磁気ディスク装置のビットエラー、リードエラー、ライトエラー、シークエラー、リアサイン回数、起動回数、起動タイムオーバー数、これらの発生割合を採用する。

部分積分エラーレートは、これら一定数（複数）のエラー指標の組の内容を用いて、例えば、ビットエラー数の総和をアクセス数の総和で除して得られた値とする。
部分積分エラーレートは、エラー指標の組の増加に伴い更新される。新たな単位時間当たりのエラー指標が格納される都度、監視対象のうち古いエラー指標が捨てられ、新しいエラー指標が追加されて、一定数の新しい監視対象のエラー指標の組から、新たな部分積分エラーレートが算出される。

エラー指標を格納する記憶素子は、例えば、１２８単位のエラー指標の組を格納できるキャッシュメモリとし、エラー指標の組を時間的に断続的、連続的に、サイクリックに格納する。１２９単位目から最初に格納した１単位目の記憶素子に上書きする。

エラー指標のうちアクセス数には、単位時間のうち現実にアクセスのあった所定のアクセス数をバイト単位で格納する。好ましい実施例では、１０ＧＢ（ギガバイト）を所定のアクセス数としている。また単位時間当たりに所定のアクセス数がないときは、単位時間のうち、これらより短い所定の測定時間内に現実に生じたアクセス数を、エラー指標のアクセス数とし、ビットエラーもその測定時間内に生じたものを用いる。

ビットエラーレートは、アクセスのあったデータのうち、どれだけのビットがエラーとなったかを、ビットエラーをアクセス数で除して算出し格納する。例えば、単位時間（１時間）のうちに１０ギガバイトのアクセス数があり、生じたビットエラー数が５であれば、ビットエラーレートは、５ビット÷（１０ｘ１０の９乗ｘ８ビット）＝６.２５ｘ１０のマイナス１１乗となる。
単位時間当たりビットエラーレートが確定次第、対応するテーブルに格納するとともに、エラー指標が第１の所定の閾値を超えるか否かの判定を行う。超えた場合には上位装置に報告する。

部分積分エラーレートに増加傾向があれば、つまり、第２の所定の閾値を越えるように増加したときは、磁気ディスク装置が故障に至る可能性が極めて高いので、異常であるとして上位装置に報告する。
部分積分エラーレートが更新前に比べて増加しても、第２の所定の閾値を超えなければ、部分積分エラーレートの一時的増加であると判断し、疑似異常として上位装置に報告する。
また、部分積分エラーレートが更新前に比べて減少したときは、減少前のレートから累積を開始し、更新の都度、部分積分エラーレートの累積値が、第２の閾値を越えるか判断する。超えたときは磁気ディスク装置に周期的な不具合が発生したとみなし、上位装置に周期的異常を報告する。超えないときは、累積を継続し、１２８単位時間分の累積を完了した時に、累積を終了し、累積値を初期値にリセットする。第２の閾値の代わりに第３の閾値を設定して、累積値を比較しても良い。
上位装置は、擬似異常の診断結果に対し、異常ではないと判断するアルゴリズムを稼動させることができる。このため誤報に対処する必要がなくなる。また上位装置は、周期的異常の診断結果に対し、磁気ディスク装置が故障には至らないものの、操作者に交換を要する旨の注意を喚起する。

部分積分エラーレートを用いることにより、一時的なビットエラーレートの増加を緩和して、誤報を防止しやすくできる。

単位時間のうち一部の時間を用いてエラー指標を格納するので、エラー指標の算出による、磁気ディスク装置本来の機能低下を防止しつつ、経時的に正確なエラー指標を格納できる。

第１の所定の閾値を越えるエラー指標を検出又は算出した場合に、上位装置へ報告し、上位装置における診断機能の判断材料を提供できる。第１の所定の閾値を超える場合にのみ、上位装置へ報告するので、上位装置が受け取る情報を精選できる。

部分積分エラーレートが、第２又は第３の所定の閾値を越えたことを検出した場合に、上位装置へその旨を報告（警告）するので、また、部分積分エラーレートの増加率を算出し、所定の閾値を越えた場合に上位装置へその旨を報告（警告）するので、従来技術では検出が困難であった、数時間のうちに不良に至る磁気ディスク装置を、磁気ディスク装置の性能を劣化することなく検出でき、致命的な故障を予測できる。
不具合の程度により、上位装置がかかる不具合に対応するための契機を与えることができる。例えば、致命的な故障を予測した場合には、磁気ディスク装置に格納されたデータを、他の磁気ディスク装置に格納し直すことで、上位装置が不具合に対応することを促すことができる。

所定の閾値を適宜、設定することで、上位装置へエラー指標を報告し蓄積し、これらのエラー指標を用いた一時的又は周期的な故障の予知又は現象の把握が行える。単位時間が１時間のときは、磁気ディスク装置の１日における環境変化による不具合の診断に便利となる。

本発明を適用した磁気ディスク装置を図４に示す。
図４は磁気ディスク装置のカバーを取り外した状態の平面図である。ガラス又はアルミを基材とする磁気ディスク媒体１は、スピンドルモータ２により回転可能にベース３に支持される。先端に磁気ヘッド４を有するキャリッジ５は他端にコイル６を設け、ボイスコイルモータ（以下、ＶＣＭという）８の磁界とコイル６に通電することで生じた磁界により、ピボット７を中心に揺動可能となるよう、ベース３に支持されている。

なお磁気ヘッド４に対する又は磁気ヘッド４からの信号は、図示しないヘッドアンプを介して、フレキシブルプリント配線ＦＰＣ１２により、ベース３の外部のプリント配線基板と連絡している。
プリント配線基板は、ＨＤＣ（ハードディスクコントローラ）、磁気ディスク装置外部と情報の入出力を制御する、インタフェース回路その他の制御回路、マイクロプロセッサを有している。またプリント配線基板は、ＳＲＡＭ、キャッシュメモリその他の記憶素子も搭載している。

次に本発明で適用可能なエラー指標を図１に示す。
磁気ディスク装置に搭載される磁気ヘッド毎に、リードエラーレート２、ライトエラーレート３、シークエラーレート４、リアサイン数５、起動回数６、起動タイムオーバー回数７その他エラー指標の累積値８を、ＳＲＡＭ１に保存する。

リード、ライト及びシークの各エラーレート１１は、アクセス数９、エラー数１０から算出し、これらのエラーレートがしきい値１２（第１の所定の閾値）を越えた場合に、上位装置へ報告する。
単位時間を１時間とした場合には、直近の１時間１３毎に、リード、ライト及びシークの各エラー数と各アクセス数を、エラー指標として、磁気ディスク装置のＳＲＡＭ１に一時保存する。この場合、単位時間として１時間の間に、一定のアクセス数（１０Ｇバイト）又は一定の測定時間（数十秒程度）当たりのエラー指標を格納する。１の単位時間に１組のエラー指標を格納する。こうして断続的、連続的にエラー指標の組を格納する。単位時間当たりのアクセス数９、エラー数１０、エラーレート１１その他から成るエラー指標の１組を、図１のＳＲＡＭ、左側に示す。

キャッシュ１４には、直近の1時間（単位時間）におけるエラー指標の内容が、第１２８のテーブル２０に格納される。ここで、エラー指標の内容は、リード、ライト及びシークのエラー数並びにアクセス数である。また、直近の２時間前から１時間前までの期間におけるエラー指標の内容は、第１２７のテーブル（図示せず）に格納されている。
同様にして、直近の１２６時間前から１２７時間までの期間におけるエラー指標の内容は、第２のテーブル１９に格納されている。また直近の１２７時間前から１２８時間までの期間におけるエラー指標の内容は、第１のテーブル１８に格納されている。

こうして時間の経過と共に、新たな所定のエラー指標の組１８〜２０が、断続的、連続的にキャッシュメモリ１４へ格納されて行く。単位時間当たりのエラー指標が確定次第、対応するテーブルに格納され、エラー指標が第１の閾値を越えるか否かの判定を磁気ディスク装置が行う。超えた場合には上位装置へ報告する。

部分積分エラーレートに増加傾向があれば、つまり、第２の所定の閾値を越えるように増加したときは、磁気ディスク装置が故障に至る可能性が極めて高いので、異常であるとして上位装置に報告する。
部分積分エラーレートが更新前に比べて増加しても、第２の所定の閾値を超えなければ、部分積分エラーレートの一時的増加であると判断し、疑似異常として上位装置に報告する。

エラー指標のうちリードエラーレート１５、ライトエラーレート１６、シークエラーレート１７は、それぞれ、単位時間内に算出し、格納する。
具体的には、リードのエラーレートについては、エラービット数をアクセスのあったデータのビット数で除して算出する。ライトエラーレート又はシークエラーレートは、それぞれ、エラー数をライト数又はシーク数で除して算出する。

単位時間は、適宜、変更が可能で、３０分毎でも良いし２時間毎でも良い。またテーブルの総数も用いるメモリ容量に応じて増減できる。
なお、キャッシュ１４に格納したエラー指標を、適宜、磁気ディスク媒体へ記録しても良い。より好ましくは、現実のアクセス数が多くない時間帯を、上位装置へ報告されたエラー指標から予め求めておき、この時間帯で、キャッシュ１４から磁気ディスク媒体へ記録しても良い。
また第１又は第２の閾値はテーブルに格納せずとも良い。

図２は、リード動作又はライト動作において、部分積分エラーレートを、格納されたエラー指標の内容から算出することを説明するための図である。図１におけるエラー数をビットエラー数と、エラーレートをビットエラーレートとしている。このように単位時間毎に、直近の１時間前までのエラー数とアクセス数が発生し、確定して来た場合を説明する。

単位時間のうち現実のアクセス数が１０ＧＢあって、その際のビットエラー数が２０００個であるときを、第１の所定の閾値として、このビットエラーレートを定める。即ち、第１の閾値は、２０００ビット÷（１０ｘ１０の９乗ｘ８ビット）＝２５００ｘ１０のマイナス１１乗となる。
図２のテーブル１からテーブル128に至るビットエラーレートが、この第１の閾値（２５００ｘ１０のマイナス１１乗）を超えていないか、それぞれ、テーブルの内容が確定次第、比較する。超えた場合には、その旨と、テーブルの内容その他エラー指標の全部又は一部を上位装置へ報告する。第１の閾値はこれより大きくても小さくても良く、適宜、設定可能である。

図３は、図２のエラー指標のうち、ビットエラーレートの時間推移と、部分積分エラーレートの時間推移とを示すグラフである。図２のテーブル１からテーブル１２８（途中省略）のビットエラーレート（縦軸は左のもの）を、丸印でプロットして示す。テーブル１２８でビットエラー数が６０へ増加したため、ビットエラーレートは急上昇している。従来の方法では閾値が１つであり、適切な閾値を定めるのが困難であった。
部分積分エラーレートは、これら丸印のプロット例えば５個を監視対象として選び、これらのビットエラー数の総和を、アクセス数の総和で除して得られた値（縦軸は右のもの）とし、×印でプロットして示す。テーブル１２８を含む部分積分エラーレートは１７.６ｘ１０のマイナス１１乗に増加している。

部分積分エラーレートは、エラー指標の組の増加に伴い更新され、新たな単位時間当たりのエラー指標が格納される都度、監視対象のうち古いエラー指標が捨てられ、新しいエラー指標が追加されて、本実施例では５個の新しい監視対象のビットエラーから、新たな部分積分エラーレートが算出される。
このため、テーブル１２８のビットエラー数６０が一時的な増加であった場合には、テーブル１２９（この例ではテーブル１に上書きされる）のビットエラー数が数ビットに戻るため、部分積分エラーレートの値は１７.６ｘ１０のマイナス１１乗の付近となる。
逆に、ビットエラー数が致命的な増加であれば、テーブル１２９のビットエラー数がテーブル１２８のそれと同様の６０付近かこれ以上の値となり、部分積分エラーレートが顕著に増加し、第２の閾値（例えば３０ｘ１０のマイナス１１乗）を越えることとなる。

単純化した例を挙げて、部分積分エラーレートを説明する。図２と同様なテーブルを考える。テーブル１からテーブル１２７まで、一律に、ビットエラー数が５、アクセス数が１０ＧＢ、ビットエラーレートが６.２５ｘ１０のマイナス１１乗であるとする。
テーブル１２８のみが、それぞれ、６０、１０ＧＢ、７.５ｘ１０のマイナス１０乗であるとする。

１０個のエラー指標の組を監視対象として選び、これらのビットエラー数の総和を、アクセス数の総和で除して、部分積分エラーレートとする。
テーブル１１８からテーブル１２７までの、連続する１０組のアクセス数の総和は１００ＧＢである。これら１０組のビットエラー数の総和は５０であり、例えば第２の閾値に相当するビットエラー数の１００を超えない。

この場合、テーブル１２８には、直近の単位時間（１時間）のうちに、周囲の環境の変化、一時的なスピンドルモータの振動、一時的な磁気ヘッドの読み出し能力の低下その他の不具合により、ビットエラーが６０個発生している。このとき１０個のエラー指標の組、テーブル１１９からテーブル１２８を監視対象とすると、アクセス数の総和１００ＧＢにつき、ビットエラーの総和は１０５個となり、第２の閾値を越えることとなるので、上位装置へ報告する。
長期間の累積値を監視対象とする従来の方法では、１２８単位時間の総和を採って、ビットエラーの総和を除していたため、１００ＧＢのアクセス数当たり１００個のビットエラーに相当する第２の閾値に届かず、上位装置へ報告することは無かった。

磁気ディスク装置を用いる電子機器において、磁気ディスク装置から確度の高い故障の予報が発せられるため、電子機器の信頼性向上に役立つ。

本発明で適用可能なエラー指標の説明図である。部分積分エラーレートを、格納されたエラー指標の内容から算出することを説明するための図である。図２のエラー指標のうち、ビットエラーレートの時間推移と、部分積分エラーレートの時間推移とを示すグラフである。本発明を適用した磁気ディスク装置の構成例を示す図である。

符号の説明

１３……直近の単位時間におけるエラー指標、
１４……磁気ディスク装置のキャッシュメモリ、
１８、１９、２０……キャッシュに設けられたエラー指標を格納するテーブル。

Claims

単位時間の開始後、終了までの間に、１の磁気ヘッドについて、一定のアクセス数毎又は一定の測定時間毎に、エラー指標を格納する第１のステップと、
第１のステップを複数回行い、格納した一定数のエラー指標の組を対象として、第２のエラー指標を算出する第２のステップと、
単位時間の開始後、終了までの間に、１の磁気ヘッドについて、一定のアクセス数毎又は一定の測定時間毎に、エラー指標を格納する第３のステップと、
第２のステップで算出の根拠とした、一定数のエラー指標の組のうち、時間的に最も古い組のエラー指標を捨て、第３のステップで得られた、１の組のエラー指標を加えた一定数のエラー指標の組を対象として、第２のエラー指標を更新する第４のステップと、
を有する磁気ディスク装置の故障予測方法。
請求項１記載の故障予測方法において、
第１のステップで格納したエラー指標、又は、第３のステップで格納したエラー指標が、第１の閾値を越えた場合に、当該エラー指標が第１の閾値を越えたことを意味する信号を、外部に送出する磁気ディスク装置の故障予測方法。
請求項１記載の故障予測方法において、
第２のステップで算出した第２のエラー指標、又は、第４のステップで更新した第２のエラー指標が、第２の閾値を越えた場合に、当該エラー指標が第２の閾値を越えたことを意味する信号を、外部に送出する磁気ディスク装置の故障予測方法。
請求項１記載の故障予測方法において、
エラー指標として、ビットエラー、リードエラー、ライトエラー、シークエラー、リアサイン回数、起動回数、又は、起動タイムオーバー数のうち一部又は全部を用いた磁気ディスク装置の故障予測方法。
単位時間の開始後、終了までの間に、１の磁気ヘッドについて、一定のアクセス数毎又は一定の測定時間毎に、エラー指標を格納する第１の機能と、
第１の機能を複数回実行し、格納した一定数のエラー指標の組を対象として、第２のエラー指標を算出する第２の機能と、
単位時間の開始後、終了までの間に、１の磁気ヘッドについて、一定のアクセス数毎又は一定の測定時間毎に、エラー指標を格納する第３の機能と、
第２の機能で算出の根拠とした、一定数のエラー指標の組のうち、時間的に最も古い組のエラー指標を捨て、第３の機能で得られた、１の組のエラー指標を加えた一定数のエラー指標の組を対象として、第２のエラー指標を更新する第４の機能と、を有する磁気ディスク装置。
請求項５記載の磁気ディスク装置において、
第１の機能で格納したエラー指標、又は、第３の機能で格納したエラー指標が、第１の閾値を越えた場合に、当該エラー指標が第１の閾値を越えたことを意味する信号を、外部に送出する磁気ディスク装置。
請求項５記載の磁気ディスク装置において、
第２の機能で算出した第２のエラー指標、又は、第４の機能で更新した第２のエラー指標が、第２の閾値を越えた場合に、当該エラー指標が第２の閾値を越えたことを意味する信号を、外部に送出する磁気ディスク装置。
請求項５記載の磁気ディスク装置において、
エラー指標として、ビットエラー、リードエラー、ライトエラー、シークエラー、リアサイン回数、起動回数、又は、起動タイムオーバー数のうち一部又は全部を用いた磁気ディスク装置。