JP2004227449A - Diagnostic device for trouble in disk array device - Google Patents
Diagnostic device for trouble in disk array device Download PDFInfo
- Publication number
- JP2004227449A JP2004227449A JP2003017092A JP2003017092A JP2004227449A JP 2004227449 A JP2004227449 A JP 2004227449A JP 2003017092 A JP2003017092 A JP 2003017092A JP 2003017092 A JP2003017092 A JP 2003017092A JP 2004227449 A JP2004227449 A JP 2004227449A
- Authority
- JP
- Japan
- Prior art keywords
- diagnostic
- disk
- error
- diagnostic processing
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明はディスクアレイ装置(RAID:Redundant Array of Inexpensive Disks)における障害の診断装置に係り、特にディスクアレイ装置のディスク障害状況を管理することにより、ディスクの故障の兆候を事前に検知すると共に、データの消失を事前に防止するディスクアレイ装置の障害の診断処理に関する。
【0002】
【従来の技術】
ディスクアレイ装置は複数台の単体ハードディスクで構成され、データグループは複数のハードディスクに亘って書き込み、読み出しが行われる。データの書き込み読出しは、消失データ修復用冗長データを付加して行われるので、1台の単体ディスクでエラーが発生しても修復用冗長データを用いて同じデータグループに属する他のディスクからデータを生成、回復することによりデータ読み出しが可能である。また2台のディスクでエラー発生している場合においても修復用冗長データを持つ最小アドレス単位内で、2台のディスクエラーが発生していない場合には、同様に他のディスクからデータを生成、回復してデータ読み出しが可能であり、高い信頼性を持つ。
【0003】
一方、単体ディスクにエラーが在る場合であってもディスクアレイ装置は修復用冗長データを使用し、表面的には障害状況が見えることなく動作するため、内部的なエラー発生情報は装置の外から確認することができない。内部的なエラー発生状況を把握するためにはディスクアレイ装置の保守員がディスクアレイ装置のログ情報を分析することが必要となって来る。
またディスクの初期不良、および長年の使用による部品劣化により複数のディスクで故障が発生する場合でも潜在的にエラーが進行していることがあり、将来的にデータが消失する危険性が生じる場合もある。
【0004】
ディスクアレイ装置に対する一般的な予防保守としては、保守員が定期的に保守する時のディスクアレイ装置のログ情報を参照し、ディスクのエラー発生状況から予防交換を必要するディスクの有無を判断しているのが実情である。しかし、次の定期保守を行うまでの間にディスクの故障が進行している場合もあり、保守員はこのような状況を知ることができない。最悪の場合には同じデータグループの属する2台のディスクでエラーが発生する可能性もあり、このような場合には修復用冗長データによるエラーの回復は不可能であるため、定期保守を実施するタイミングによっては、データ消失の危険性が生じる。
【0005】
ディスク装置のエラーの予防保守に関する技術としては、例えば特開平11−353819号公報(特許文献1)に開示されたものがある。この技術はディスクエラーの発生回数をカウンタに蓄え、そのエラー発生回数が閾値を超えた場合に警報を出すことでディスク故障を事前に検知し、データ消失を防ぐとしている。
【0006】
【特許文献1】
特開平11−353819号公報(第2−4頁、図2)
【0007】
【発明が解決しようとする課題】
しかしながら特開平11−353819号公報に記載の技術は、ディスクエラーの閾値による管理にすぎず、例えばRAIDにどのように適用されるのかについての示唆が無い。仮にRAIDに適用したとしても単体ディスクの故障を事前に検知する程度に示唆にすぎず、RAIDを構成する全ディスクのエラー状態を横断的にいかに把握して、いかに診断しようとするのかについては何ら言及されていない。
【0008】
本発明の目的は、ディスクアレイ装置におけるエラーの状況を把握し、かつ複数のディスクに亘るエラー発生によるデータ消失の危険性を事前に検知して、データ消失を防ぐことができるディスクアレイ装置における障害の診断装置を提供することにある。
本発明の他の目的は、ディスクアレイ装置を構成する単体ディスクのエラー診断、複数のディスク群のエラー診断、及びこれらを組み合わせた条件で診断を自動的に行うことにある。
【0009】
【課題を解決するための手段】
本発明は、複数の単体ディスクで構成されるある単体ディスク群に対して、消失データ修復用冗長データを付加してデータグループのデータを書き込み読出しするディスクアレイ装置を含むシステムにおいて、ディスクアレイ装置の各単体ディスクの動作履歴情報およびディスクアレイ装置の構成を示す構成情報を収集して記憶する記憶装置と、この記憶装置から読み出された各単体ディスクの動作履歴情報を解析して単体ディスク毎の診断処理を行う第一の診断処理手段と、記憶装置から読み出された構成情報からディスクアレイ装置を構成するデータグループに属する単体ディスク群を特定し、第一の診断処理手段の診断結果から単体ディスク群における障害の状況を分析して処理する第二の診断処理手段と、第一の診断処理手段による診断結果に関連する情報又は第二の診断処理手段による診断結果に関連する情報を表示する表示手段とを有して診断装置を構成するものである。
ここで上記動作履歴情報として、例えば単体ディスクのエラー内容、エラーアドレス、発生時間に関する情報を含み、構成情報として例えばデータグループに対応する単体ディスク群を構成する情報を含み、これら動作履歴情報及び構成情報はディスクアレイ装置から定期的に収集されて前記記憶装置に記憶される。上記第一の診断処理手段は、定期的に該動作履歴情報から各ディスクのエラー発生回数、エラー増加率、エラーアドレス分布を算出する。第二の診断処理手段は、第一の診断処理手段の処理結果に従い、複数のディスクにエラーが認められた場合に、同じ修復用冗長データを持つデータグループ内における障害の状態を算出することが好ましい。
また、ディスクのエラーの発生しやすい組み合わせ条件を予め格納しておく組み合わせ条件ファイルを有し、この組み合わせ条件に基づいて上記第一の診断処理手段の処理結果を照合する第三の診断処理手段を有する。第三の診断処理手段による診断の結果、組み合わせ条件によるエラーが判定された場合、診断結果に関連する情報を表示手段に可視的に表示することにより障害の予告を行う。
また、上記第二の診断処理手段において障害の分析結果から同じデータグループの属する複数のディスクに障害が認められた場合、複数ディスクの診断をバッチ処理で行うためのバッチ処理手段を有する。
本発明は、また上記第一、第二、及び第三の診断処理手段における診断処理を夫々第一乃至第三の診断処理モードと捉え、これらの診断処理モードを適宜含む診断方法であると言うことができる。
【0010】
【発明の実施の形態】
以下、本発明の実施例について図面により詳細に説明する。
図1はディスクアレイ装置(RAID)及びその診断装置の構成を示す図である。RAID10は通信回線30を介して診断装置20に接続されている。通信回線30は例えばLANの規格に準拠したインターフェースである。図示の例では説明の都合上、1台のRAID10が接続された例を示しているが、実際には複数台のRAIDが通信回線30に接続されていると考えてよい。従って診断装置20は複数台のRAIDの診断を行う。
【0011】
RAID10は、複数の単体ディスク群12及びコントローラ11を備えて構成される。複数の単体ディスク群12は、横方向がm台の単体ディスク群で、縦方向がn行からなる複数のディスク群(合計m×nの単体ディスク群)から構成される。データは修復用冗長データを含んでグループ単位で横方向m台の単体ディスク群に記録される。
【0012】
コントローラ11はメモリ13及び図示しない処理装置を有し、単体ディスク群12に対してデータの書き込み読出しの制御を行うと共に、単体ディスク群12をアクセスしてその状態情報を採取する。状態情報には、各ディスクに関する動作履歴情報13及びRAUDの構成情報14があり、これら採取された情報はメモリ13に一時的に格納される。
動作履歴情報13は、各ディスクへのアクセス時のエラー履歴情報としてエラー毎のエラー種別、エラー発生アドレス、発生時間に関する情報が含まれる。エラー種別とはハードウェアエラー、ディスク媒体エラー、インタフェースエラー等のエラーの種別を示す。エラーアドレスはエラーが発生した個所を特定するためのディスク上のアドレスを示す。発生時間はエラーが発生した時刻を示す。各ディスクにエラーが発生する度にこれらの情報を含む動作履歴情報がログ情報としてメモリ13に格納される。
動作履歴情報13は各RAIDの各単体ディスクから採取されるので、単体ディスクがm×n個存在する場合には、動作履歴情報13も各々単体ディスクに対応してメモリ13に記憶されることになる。
構成情報14はRAIDの装置構成に関する情報であり、RAIDレベル(データ格納のフォーマットを規定)、各RAIDを構成する単体ディスクの総数、データグループのサイズ(グループの記憶容量)即ち、データグループの先頭になっている単体ディスクのアドレス及びその幅(横方向のディスクの台数)、データグループの記憶容量(縦方向の深さ:Gバイト容量の如き)を示す情報が含まれる。RAIDレベルはグループデータ格納のフォーマットを規定する。
これらの情報14,15はRAIDの状態情報31として例えば24時間毎のような定期的に、各RAID10から通信回線30を介して診断装置20に送信される。
【0013】
次に診断装置20について説明する。
診断装置20は各RAID10から送信される動作履歴情報14や構成情報15に基づいてエラーの状況を診断すると共に、診断結果に従って、対象とするRAIDにエラー部位の診断、回復を行うための処置を発する機能を有する。
この診断装置20は例えばパーソナルコンピュータ或いは計算機であり、図示していないが、内部バスにプログラムを実行して診断データを処理する処理装置、プログラムやデータを格納するメモリ、RAIDの状態はその診断結果を表示する表示装置(図2の符号400)、保守員が診断のための指令や種々の情報を入力する入力装置、及びRAID10からの状態情報や診断結果の情報を格納するハードディスク(記憶装置)を具備して構成される。
【0014】
処理装置でプログラムが実行されて診断処理が行われる。診断処理には、単体ディスク毎のエラー診断処理21、複数ディスクのエラー診断処理22、組み合わせ条件チェック処理23が含まれる。単体ディスク毎のエラー診断処理21、複数ディスクのエラー診断処理22、組み合わせ条件チェック処理23の結果、診断装置20からは、対象とするRAID10の単体ディスク群12に関する故障の前兆のあるディスクの診断及び回復を行うためのバッチ処理の指令32が発せられる。指令32は回線30を通して対象とするRAID10に送信される。
【0015】
上記したように、通信回線30を介して定期的に受信された動作履歴情報14及び構成情報15は、各RAIDの各単体ディスクに対応してメモリ(図示せず)に格納される。そして処理装置はメモリに格納された動作履歴情報14を読出し、各ディスクに関して単位時間(例えば24時間)におけるエラー発生回数、エラーの増加率、エラーのアドレス分布を算出する。算出された結果は表示装置に表示される。
【0016】
また、診断装置20の処理装置は、単体ディスク毎に算出したこれらエラー発生回数、エラーの増加率、エラーのアドレス分布から、RAID内の同じ修復用冗長データを持つ同一データグループに関するエラー発生回数、エラーの増加率、エラーのアドレス分布を算出する。その算出結果から、同一データグループ内での障害発生のデータ消失の危険性がある単体ディスク群に関連した診断を行う。診断結果の状況は表示装置に表示される。これにより保守員は診断状況を知り、RAIDのデータグループ毎にデータ消失の危険性を了知できる。
【0017】
診断装置20はまた複数の単体ディスクに対する障害を検知した場合、診断装置内で当該ディスクの診断を行うためのバッチ処理を作成する機能を持ち、そのための指令32を対象とするRAID10に発する。
【0018】
図2は単体ディスク毎のエラー診断処理21の概略を示すフローチャートである。
通信回線30を経由して、定期的に自動的にRAID10から送信されるRAIDの状態情報(動作履歴情報14及び構成情報15)31は、診断装置20内のハードディスク装置(図示せず)の情報退避領域200に格納される(ステップ101)。状態情報31は24時間毎にRAIDから定期的に送信されてきて領域200に格納、蓄積されるので、数回分の状態情報が世代管理されることになる。この状態情報から各ディスクの動作履歴情報を抽出し、更にディスクエラーに関する情報を抽出する(ステップ102)。抽出した履歴情報14にはエラー種別、エラー発生アドレス、発生時間に関する情報が含まれているので、いずれのディスクのどのアドレスでどのようなエラーが何時に発生したかが判る。
【0019】
処理装置は情報退避領域から読み出した動作履歴情報14から、単位時間(例えば24時間)毎に、各ディスクにおけるエラー発生回数、エラーの増加率、エラーのアドレス分布を算出する。そしてその算出結果は結果ファイル300としてハードディスク装置に格納される。結果ファイル300には、これまでに分析した過去のエラー情報の分析結果が蓄積されている。結果ファイル300から従前の分析結果の情報を読み出し(ステップ103)、今回の算出したエラーの分析情報の結果と比較する(ステップ104)。突発的なエラー発生状況のみでなく、長期的に進行していくエラー状況についての確認を行い、その結果は結果ファイル300に記録され、併せて表示装置400に表示される。前回までの結果ファイルと、今回のディスクエラー情報に基づいて故障の前兆があるディスクの有無を診断する(ステップ105)。診断処理は各エラー内容の重大度により、ディスクのハード仕様に基づく重み付けを行っており、エラー種別により将来的に故障の可能性があるエラー増加率の上限値を個別に設定している。各ディスクについて前述のエラー増加率の上限値を超えたものがないかチェックする(ステップ106)。上限値を超えたものが無ければ診断処理を終了する(ステップ108)。
【0020】
一方、上限値を超えたディスクがあった場合は、表示装置400に上限値を超えたディスクの報告と警告表示をすることで、保守員に対して障害部位を事前に検知、通知することができる(ステップ107)。
【0021】
図3は複数ディスクのエラー診断処理22の概略を示すフローチャートである。
この処理は、単体ディスク毎のエラー診断処理21において複数ディスクのエラー発生が認められた場合に実行される(ステップ110)。これは図2に示した単体ディスク毎のエラーの診断処理21の結果から判り、複数ディスクに亘るエラーが認識されると、診断処理22が起動される。
情報退避領域200に格納されているRAIDの状態情報から装置の構成情報15が抽出される(ステップ111)。構成情報は同じ修復用冗長データを持つ論理的に同じデータグループに属する単体ディスク群を特定する情報を有しているので、既にエラーとなっている各ディスクに割り当てられているデータグループを分別できる。
【0022】
また、各ディスクに対する動作履歴情報14の示す各ディスクのエラーアドレス情報はディスク内の物理位置を示すアドレスと同一であるため、論理的ファイルイメージで考えた場合、エラーアドレスと構成情報に基づいてどこのファイルに割り当てられているデータグループのアドレスにエラーが発生しているかの算出が行なわれる(ステップ112)。即ち、障害が発生したディスク位置は、“シリンダアドレス”、“トラックアドレス”、“セクタアドレス”によって物理的に特定され、それは動作履歴情報に含まれて情報退避領域200に格納されている。一方、構成情報には、データグループのサイズ(グループの記憶容量)、使用ディスク数、RAIDレベル(データ格納のフォーマットを規定)が含まれる。構成情報に基づいて各データグループが単体ディスク群のどの範囲を使用しているかを判断することができるので、単体ディスク上で障害の発生した物理的位置がどこのデータグループに含まれるのかを知ることができる。
そして複数ディスクでのエラー発生状況の通知が行われる(ステップ113)。この場合、エラー情報としてエラー発生ディスクの位置と、エラー発生状況、及び上記ステップ112で算出した論理ファイルのエラーアドレス情報が報告される。
【0023】
次にバッチファイル作成処理が行われる(ステップ114)が、この処理は、データ消失の危険性を通知した時(ステップ113)に、診断装置20が作成する当該複数ディスク用の診断用のバッチ処理を作成する処理であり、作成されたバッチ処理は、ハードディスク装置内にバッチ処理ファイル500として格納される。
バッチ処理は、RAID10に接続される通信回線30のI/F規格に準拠したコマンドI/Fを使用して作成し、当該ディスクに対する全媒体面のリード検索用コマンドシーケンスを自動作成する。
【0024】
このバッチ処理32をそのRAID10対して実行することで、RAIDでは当該ディスクの全媒体面のリード検索が行われ、リード検索で検出したエラー部位については単体ディスクが一般的に持つリアサインブロック機能(当該エラーセクタ部を未使用とし、交替セクタにデータを貼りかえる機能)により複数ディスクに対するエラーアドレス部位の回復を行い、データ消失の可能性を排除し、データの保全性を保つ。
【0025】
バッチ処理の起動タイミングは、診断装置20の管理者が任意に設定可能であり、診断装置20は設定状況を判断し(ステップ115)、自動起動の設定が入力されていた場合は、通知直後にバッチ処理を自動的に起動する(ステップ116)。一方、手動起動の設定が入力されていた場合は通知時のバッチ処理は起動されず、バッチ処理の起動は、診断装置の管理者が手動で行う(ステップ118)。バッチ処理の実行結果は診断装置20がRAID10から状態情報31を読み出すことで内容確認を行う(ステップ117、119)。
【0026】
図4は組み合わせ条件チェック処理23の概略を示すフローチャートである。組み合わせ条件チェック処理23とは、ディスクのエラー条件の組み合せに基づくディスクのエラーを診断して事前に検知するための診断処理である。組み合わせ条件とは、エラーの内容とエラー発生の時間の組み合わせ、或いはエラーの内容とアドレスの組み合わせ、特定の条件とエラー発生のタイミングの組み合わせ、等を言う。これらの組み合わせによってRAIDを構成するハードディスク装置に特有のエラーが発生することが経験的にわかっている。このような組み合わせ条件を予め組み合わせ条件ファイル600として診断装置20のハードディスク装置内に格納しておく。
【0027】
組み合わせ条件チェック処理が起動されると、組み合わせ条件ファイル600から、特定の条件を伴うエラーのタイミングや、複数の条件を伴うエラーのタイミング等の組み合わせ条件が読み出される(ステップ121)。そして、結果ファイル300に格納されている単体ディスクの診断処理21(図2)と、組み合わせファイル600から読み出された組み合わせ条件との対比処理が行なわれる(ステップ122)。対比処理の結果、組み合わせ条件に基づく単体ディスクにエラーが在る旨が判定された場合(ステップ123)、診断装置20は、組み合わせ条件に基づく該当の単体ディスクにエラーが発生する旨の予告通知を行う(124)。予告通知は表示装置400に表示されることにより保守員に知らされる。一方、対比処理の結果、組み合わせ条件に基づく単体ディスクにエラーが無ければ、組み合わせ条件による診断チェック処理は終了する。
組み合わせ条件チェック処理23は、組み合わせファイル600に条件が登録されていればいつでも実行できるが、この処理も定期的に行う方が好ましい。そのため前述した単体ディスクのエラー診断処理21の実行時に定期的に行うか、又は複数ディスクエラー診断処理22の実行時に行うのが好ましい。
このようにRAIDを構成するハードディスクに関するエラー状況の組み合わせ条件に基づいて診断することにより、単体ディスクに対する例えばエラーの閾値のみによる診断の管理からは得られないようなエラーの状態が把握できる。これにより複数の単体ディスクから成るRAIDのエラー発生によるデータの消失の危険性を事前に察知できる。
【0028】
以上説明したように、上記実施例によれば、一定期間毎に収集した単体ディスクの動作履歴情報を、順次複数回にわたって診断装置の記憶装置に記憶しておき、それらの履歴情報及びRAIDの構成情報に従って診断することにより、単体ディスク毎の故障のみではなく、複数のディスクに亘って徐々にディスクの壊れが進行していく状況において長期的な障害の変動を障害増加率から、事前に察知できる。
【0029】
【発明の効果】
以上、説明したように、本発明によれば、ディスクアレイ装置を構成する単体ディスクのエラー診断だけでなく、複数のディスクに亘るエラー診断、及びこれらを組み合わせた条件での診断を行うことができる。これによりディスクのエラー状況を把握でき、複数のディスクに亘るエラーに起因するデータ消失の危険性を事前に察知でき、データ消失の予防が図れる。
【図面の簡単な説明】
【図1】本発明の一実施例によるRAID及びその障害の診断装置の概略構成を示すブロック図。
【図2】単体ディスク毎のエラー診断処理の概略を示すフローチャート。
【図3】複数ディスクのエラー診断処理の概略を示すフローチャート。
【図4】組み合わせ条件チェック処理の概略を示すフローチャート。
【符号の説明】
10…RAID 11…単体ディスク群
12…コントローラ 13…メモリ
14…各ディスクに対する動作履歴情報
15…RAIDの構成情報 20…診断装置
21…単体ディスク毎のエラー診断処理
22…複数ディスクのエラー診断処理
23…組み合わせ条件チェック処理 30…通信回線
31…RAID状態情報 32…バッチ処理指令。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a diagnostic device for a failure in a disk array device (RAID: Redundant Array of Inexpensive Disks), and in particular, manages a disk failure status of a disk array device to detect a sign of a disk failure in advance, and to detect data failure in advance. The present invention relates to a process for diagnosing a failure of a disk array device that prevents loss of the disk array in advance.
[0002]
[Prior art]
The disk array device is composed of a plurality of single hard disks, and data groups are written and read over a plurality of hard disks. Since writing and reading of data are performed by adding redundant data for lost data recovery, even if an error occurs in one single disk, data is read from another disk belonging to the same data group using the redundant data for recovery. Data can be read by generating and restoring. Even when an error has occurred in two disks, if no two disk errors have occurred within the minimum address unit having the redundant data for restoration, data is similarly generated from another disk. It can recover and read data, and has high reliability.
[0003]
On the other hand, even if there is an error in a single disk, the disk array device uses the redundant data for restoration and operates without any apparent failure status. Can not be confirmed from. In order to grasp the internal error occurrence situation, it becomes necessary for the maintenance staff of the disk array device to analyze the log information of the disk array device.
Even if multiple disks fail due to initial failure of the disk and deterioration of parts due to long-term use, errors may potentially be progressing and there is a risk that data may be lost in the future. is there.
[0004]
As general preventive maintenance for a disk array device, maintenance personnel refer to the log information of the disk array device when performing regular maintenance, and determine whether there is a disk that needs preventive replacement based on the disk error status. That is the fact. However, the failure of the disk may be progressing before the next periodic maintenance is performed, and the maintenance staff cannot know such a situation. In the worst case, an error may occur in two disks to which the same data group belongs. In such a case, it is impossible to recover the error by using the redundant data for repair, so the periodic maintenance is performed. Depending on the timing, there is a risk of data loss.
[0005]
As a technique relating to preventive maintenance of a disk device error, for example, there is a technique disclosed in Japanese Patent Application Laid-Open No. H11-353819 (Patent Document 1). According to this technology, the number of times of occurrence of a disk error is stored in a counter, and when the number of times of occurrence of the error exceeds a threshold value, an alarm is issued to detect a disk failure in advance and prevent data loss.
[0006]
[Patent Document 1]
JP-A-11-353819 (pages 2-4, FIG. 2)
[0007]
[Problems to be solved by the invention]
However, the technique described in Japanese Patent Application Laid-Open No. H11-353819 is merely a management based on a disk error threshold, and there is no suggestion on how to apply the technique to, for example, RAID. Even if it is applied to RAID, it is only a hint that the failure of a single disk is detected in advance, and there is no explanation about how to grasp the error state of all the disks constituting the RAID in a cross-sectional manner and how to diagnose it. Not mentioned.
[0008]
SUMMARY OF THE INVENTION An object of the present invention is to provide a disk array device that can prevent data loss by grasping the error situation in the disk array device and detecting in advance the danger of data loss due to the occurrence of an error in a plurality of disks. To provide a diagnostic device.
It is another object of the present invention to automatically perform error diagnosis of a single disk constituting a disk array device, error diagnosis of a plurality of disk groups, and a combination thereof.
[0009]
[Means for Solving the Problems]
The present invention is directed to a system including a disk array device that writes and reads data in a data group by adding redundant data for recovering lost data to a single disk group including a plurality of single disks. A storage device for collecting and storing the operation history information of each single disk and the configuration information indicating the configuration of the disk array device, and analyzing the operation history information of each single disk read from this storage device and analyzing each single disk A first diagnostic processing unit for performing a diagnostic process, a single disk group belonging to a data group configuring the disk array device is identified from the configuration information read from the storage device, and a single disk group is identified from a diagnosis result of the first diagnostic processing unit. A second diagnostic processing unit that analyzes and processes a failure situation in the disk group; and a first diagnostic processing unit. It constitutes a diagnostic apparatus and a display means for displaying information related to the diagnostic result of the information or the second diagnosis processing means associated with the cross-sectional results.
Here, the operation history information includes, for example, information regarding the error content, error address, and occurrence time of the single disk, and the configuration information includes, for example, information configuring a single disk group corresponding to the data group. Information is periodically collected from the disk array device and stored in the storage device. The first diagnostic processing means periodically calculates the number of error occurrences, the error increase rate, and the error address distribution of each disk from the operation history information. The second diagnostic processing means may calculate a failure state in the data group having the same repair redundant data when an error is detected in a plurality of disks according to the processing result of the first diagnostic processing means. preferable.
Also, a third diagnostic processing unit having a combination condition file in which a combination condition in which an error of the disk is likely to occur is stored in advance, and a processing result of the first diagnostic processing unit is collated based on the combination condition file. Have. When an error due to the combination condition is determined as a result of the diagnosis by the third diagnosis processing means, information relating to the diagnosis result is visually displayed on the display means to notify a failure.
Further, when the second diagnostic processing unit detects a failure in a plurality of disks belonging to the same data group based on the failure analysis result, the second diagnosis processing unit includes a batch processing unit for performing diagnosis of the plurality of disks by batch processing.
The present invention also considers the diagnostic processing in the first, second, and third diagnostic processing means as first to third diagnostic processing modes, respectively, and refers to a diagnostic method appropriately including these diagnostic processing modes. be able to.
[0010]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing a configuration of a disk array device (RAID) and its diagnostic device. The
[0011]
The
[0012]
The
The
Since the
The
These pieces of
[0013]
Next, the
The
The
[0014]
The program is executed by the processing device to perform the diagnostic processing. The diagnosis process includes an
[0015]
As described above, the
[0016]
Further, the processing device of the
[0017]
When detecting a failure in a plurality of single disks, the
[0018]
FIG. 2 is a flowchart showing an outline of the
The RAID status information (the
[0019]
From the
[0020]
On the other hand, if there is a disk exceeding the upper limit, a report of the disk exceeding the upper limit and a warning display are displayed on the
[0021]
FIG. 3 is a flowchart showing an outline of the
This processing is executed when an error has occurred in a plurality of disks in the
The
[0022]
In addition, since the error address information of each disk indicated by the
Then, a notification of an error occurrence status on a plurality of disks is made (step 113). In this case, as the error information, the position of the error disk, the error occurrence status, and the error address information of the logical file calculated in
[0023]
Next, a batch file creation process is performed (step 114). This process is performed when the risk of data loss is notified (step 113). Is created, and the created batch process is stored as a
The batch processing is created by using a command I / F conforming to the I / F standard of the
[0024]
By executing the
[0025]
The start timing of the batch processing can be arbitrarily set by the administrator of the
[0026]
FIG. 4 is a flowchart showing an outline of the combination condition check processing 23. The combination condition checking process 23 is a diagnosis process for diagnosing a disk error based on a combination of disk error conditions and detecting the error in advance. The combination condition refers to a combination of an error content and an error occurrence time, a combination of an error content and an address, a combination of a specific condition and an error occurrence timing, and the like. It has been empirically known that an error peculiar to the hard disk device constituting the RAID occurs due to the combination of these. Such a combination condition is stored in the hard disk device of the
[0027]
When the combination condition check process is started, combination conditions such as an error timing with a specific condition and an error timing with a plurality of conditions are read from the combination condition file 600 (step 121). Then, a comparison process is performed between the diagnosis process 21 (FIG. 2) for the single disk stored in the
The combination condition check processing 23 can be executed at any time as long as the conditions are registered in the
As described above, by performing the diagnosis based on the combination condition of the error status regarding the hard disks configuring the RAID, it is possible to grasp an error state that cannot be obtained from the management of the diagnosis for the single disk, for example, using only the error threshold. This makes it possible to detect in advance the danger of data loss due to the occurrence of a RAID error composed of a plurality of single disks.
[0028]
As described above, according to the above-described embodiment, the operation history information of a single disk collected at regular intervals is stored in the storage device of the diagnostic apparatus several times sequentially, and the history information and the RAID configuration are stored. By diagnosing according to the information, it is possible to detect in advance not only the failure of each single disk but also a long-term variation of the failure from the failure increase rate in a situation where the failure of the disk gradually progresses over a plurality of disks. .
[0029]
【The invention's effect】
As described above, according to the present invention, it is possible to perform not only the error diagnosis of the single disk constituting the disk array device, but also the error diagnosis over a plurality of disks, and the diagnosis under the condition combining these. . As a result, the error status of the disk can be grasped, the danger of data loss due to errors over a plurality of disks can be detected in advance, and data loss can be prevented.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of a RAID and a failure diagnosis apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart showing an outline of error diagnosis processing for each single disk.
FIG. 3 is a flowchart showing an outline of error diagnosis processing for a plurality of disks.
FIG. 4 is a flowchart showing an outline of a combination condition check process.
[Explanation of symbols]
DESCRIPTION OF
Claims (7)
ディスクアレイ装置の各単体ディスクの動作履歴情報およびディスクアレイ装置の構成を示す構成情報を収集して記憶する記憶装置と、
該記憶装置から読み出された各単体ディスクの動作履歴情報を解析して単体ディスク毎の診断処理を行う第一の診断処理手段と、
該記憶装置から読み出された構成情報からディスクアレイ装置を構成するデータグループに属する単体ディスク群を特定し、該第一の診断処理手段の診断結果から該単体ディスク群における障害の状況を分析して処理する第二の診断処理手段と、
該第一の診断処理手段による診断結果に関連する情報、又は該第二の診断処理手段による診断結果に関連する情報を表示する表示手段と、
を有することを特徴とする診断装置。In a system including a disk array apparatus that writes and reads data of a data group by adding redundant data for recovering lost data to a single disk group composed of a plurality of single disks,
A storage device for collecting and storing operation history information of each single disk of the disk array device and configuration information indicating the configuration of the disk array device;
First diagnostic processing means for analyzing the operation history information of each single disk read from the storage device and performing diagnostic processing for each single disk,
A single disk group belonging to a data group constituting the disk array device is specified from the configuration information read from the storage device, and a failure state in the single disk group is analyzed from a diagnosis result of the first diagnostic processing unit. Second diagnostic processing means for processing
Display means for displaying information related to the diagnosis result by the first diagnosis processing means, or information related to the diagnosis result by the second diagnosis processing means,
A diagnostic device comprising:
該第一の診断処理手段は、定期的に該動作履歴情報から各ディスクのエラー発生回数、エラー増加率、エラーアドレス分布を算出し、
該第二の診断処理手段は、該第一の診断処理手段の処理結果に従い、複数のディスクにエラーが認められた場合に、同じ修復用冗長データを持つデータグループ内における障害の状態を算出することを特徴とする診断装置。2. The operation history information according to claim 1, wherein the operation history information includes information on an error content, an error address, and an occurrence time of a single disk, and the configuration information includes information configuring a single disk group corresponding to a data group. And configuration information is periodically collected from the disk array device and stored in the storage device,
The first diagnostic processing means periodically calculates the number of error occurrences, the error increase rate, and the error address distribution of each disk from the operation history information,
The second diagnostic processing means calculates a failure state in a data group having the same redundant data for repair, when an error is detected in a plurality of disks, according to a processing result of the first diagnostic processing means. A diagnostic device characterized by the above-mentioned.
ディスクアレイ装置の各単体ディスクの動作履歴情報およびディスクアレイ装置の構成を示す構成情報を定期的に収集ステップと、
収集された各単体ディスクの動作履歴情報を解析して単体ディスク毎の診断処理を行う第一の診断処理モードと、
構成情報に基づきディスクアレイ装置を構成するデータグループに属する単体ディスク群を特定し、該第一の診断処理の結果から単体ディスク群における障害の状況を分析して処理する第二の診断処理モードと、
該第一の診断処理の結果に関連する情報又は該第二の診断処理の結果に関連する情報を可視的に表示して通知するステップと、
を有することを特徴とする診断方法。In a disk array device diagnostic processing method for writing and reading data of a data group by adding redundant data for recovering lost data to a single disk group composed of a plurality of single disks,
Periodically collecting operation history information of each single disk of the disk array device and configuration information indicating the configuration of the disk array device;
A first diagnostic processing mode for analyzing the collected operation history information of each single disk and performing diagnostic processing for each single disk,
A second diagnostic processing mode for identifying a single disk group belonging to a data group configuring the disk array device based on the configuration information and analyzing and processing a failure situation in the single disk group from the result of the first diagnostic processing; ,
Visually displaying and notifying information related to the result of the first diagnostic processing or information related to the result of the second diagnostic processing,
A diagnostic method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003017092A JP2004227449A (en) | 2003-01-27 | 2003-01-27 | Diagnostic device for trouble in disk array device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003017092A JP2004227449A (en) | 2003-01-27 | 2003-01-27 | Diagnostic device for trouble in disk array device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004227449A true JP2004227449A (en) | 2004-08-12 |
JP2004227449A5 JP2004227449A5 (en) | 2006-01-19 |
Family
ID=32904336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003017092A Pending JP2004227449A (en) | 2003-01-27 | 2003-01-27 | Diagnostic device for trouble in disk array device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004227449A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244447A (en) * | 2005-03-03 | 2006-09-14 | Seagate Technology Llc | Device and method for detecting and correcting obstacle tendency in data storage array |
JP2006338626A (en) * | 2005-06-06 | 2006-12-14 | Hitachi Ltd | Disk array device and its control method |
JP2007141185A (en) * | 2005-11-22 | 2007-06-07 | Hitachi Ltd | Method for managing error information for storage controller and storage controller device |
JP2007241837A (en) * | 2006-03-10 | 2007-09-20 | Nec Corp | Disk array control apparatus and fault diagnosis method |
JP2008097318A (en) * | 2006-10-12 | 2008-04-24 | Hitachi Ltd | Storage device |
JP2008171231A (en) * | 2007-01-12 | 2008-07-24 | Fujitsu Ltd | Array disk group maintenance management system, array disk group maintenance management device, array disk group maintenance management method, and array disk group maintenance management program |
JP2010066848A (en) * | 2008-09-09 | 2010-03-25 | Toshiba Storage Device Corp | Management method for storage device, storage device, and storage system |
JP2010170350A (en) * | 2009-01-23 | 2010-08-05 | Fujitsu Ltd | Virtual library apparatus, and method for diagnosing physical drive |
JP2010198263A (en) * | 2009-02-25 | 2010-09-09 | Fujitsu Ltd | Data diagnostic device, data diagnostic method, and data diagnostic program |
JP2012208625A (en) * | 2011-03-29 | 2012-10-25 | Fujitsu Ltd | Storage system and method for determining abnormality occurring part |
-
2003
- 2003-01-27 JP JP2003017092A patent/JP2004227449A/en active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244447A (en) * | 2005-03-03 | 2006-09-14 | Seagate Technology Llc | Device and method for detecting and correcting obstacle tendency in data storage array |
US7941693B2 (en) | 2005-06-06 | 2011-05-10 | Hitachi, Ltd. | Disk array apparatus and method for controlling the same |
JP2006338626A (en) * | 2005-06-06 | 2006-12-14 | Hitachi Ltd | Disk array device and its control method |
US8423818B2 (en) | 2005-06-06 | 2013-04-16 | Hitachi, Ltd. | Disk array apparatus and method for controlling the same |
JP4723290B2 (en) * | 2005-06-06 | 2011-07-13 | 株式会社日立製作所 | Disk array device and control method thereof |
JP2007141185A (en) * | 2005-11-22 | 2007-06-07 | Hitachi Ltd | Method for managing error information for storage controller and storage controller device |
JP2007241837A (en) * | 2006-03-10 | 2007-09-20 | Nec Corp | Disk array control apparatus and fault diagnosis method |
JP2008097318A (en) * | 2006-10-12 | 2008-04-24 | Hitachi Ltd | Storage device |
JP2008171231A (en) * | 2007-01-12 | 2008-07-24 | Fujitsu Ltd | Array disk group maintenance management system, array disk group maintenance management device, array disk group maintenance management method, and array disk group maintenance management program |
JP2010066848A (en) * | 2008-09-09 | 2010-03-25 | Toshiba Storage Device Corp | Management method for storage device, storage device, and storage system |
JP2010170350A (en) * | 2009-01-23 | 2010-08-05 | Fujitsu Ltd | Virtual library apparatus, and method for diagnosing physical drive |
JP2010198263A (en) * | 2009-02-25 | 2010-09-09 | Fujitsu Ltd | Data diagnostic device, data diagnostic method, and data diagnostic program |
JP2012208625A (en) * | 2011-03-29 | 2012-10-25 | Fujitsu Ltd | Storage system and method for determining abnormality occurring part |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7543178B2 (en) | Low cost RAID with seamless disk failure recovery | |
US10013321B1 (en) | Early raid rebuild to improve reliability | |
CN102880522B (en) | Hardware fault-oriented method and device for correcting faults in key files of system | |
US7917810B2 (en) | Method for detecting problematic disk drives and disk channels in a RAID memory system based on command processing latency | |
JP5768587B2 (en) | Storage system, storage control device, and storage control method | |
CN100353328C (en) | Apparatus, method and program for the control of storage | |
JP5078235B2 (en) | Method for maintaining track data integrity in a magnetic disk storage device | |
KR970066875A (en) | Data restoration method and storage system operation method | |
US20190138415A1 (en) | Method and system for diagnosing remaining lifetime of storages in data center | |
US20060174167A1 (en) | Self-creating maintenance database | |
CN100437804C (en) | Self_repair method and storage system | |
CN1655127A (en) | Medium scanning operation method and device for storage system | |
CN110187841A (en) | A kind of method, apparatus and storage server of system management memory disk | |
JP2004227449A (en) | Diagnostic device for trouble in disk array device | |
US7506224B2 (en) | Failure recovering method and recording apparatus | |
US9251016B2 (en) | Storage system, storage control method, and storage control program | |
JP2019036163A (en) | Storage control device and control program | |
CN108170375B (en) | Overrun protection method and device in distributed storage system | |
JP5849491B2 (en) | Disk control device, disk device abnormality detection method, and program | |
US7457990B2 (en) | Information processing apparatus and information processing recovery method | |
JP2006268502A (en) | Array controller, media error restoring method and program | |
JP2003263703A (en) | Magnetic disk drive and disk controller | |
JP7273669B2 (en) | Storage system and its control method | |
JP2001154929A (en) | Management method and system for substituting path system | |
JP2003263703A5 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051129 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20051129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081112 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090210 |