JP2017167729A

JP2017167729A - 監視装置、監視方法および監視プログラム

Info

Publication number: JP2017167729A
Application number: JP2016051067A
Authority: JP
Inventors: 良行桜井; Yoshiyuki Sakurai
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2017-09-21
Anticipated expiration: 2036-03-15
Also published as: JP6206525B2

Abstract

【課題】精度よくハードディスクの異常を検知する。【解決手段】監視装置は、第１記憶装置と第２記憶装置とに第１の間隔でＩ／Ｏ要求を送信し、第１記憶装置の応答時間である第１応答時間と、第２記憶装置の応答時間である第２応答時間とを計り、計測した第１応答時間と第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理を行い、閾値を変更する変更処理を行い、第１の値が閾値未満の場合、過去の判定処理の結果が所定の条件を満たすか否か判定し、第１の値が閾値以上の場合、第１の間隔よりも狭い第２の間隔で第１応答時間および第２応答時間を複数計り、第２の間隔で計った第１応答時間および第２応答時間に基づいて第１記憶装置に異常があるか否か判定し、過去の判定処理の結果が所定の条件を満たす場合または第１記憶装置に異常がない場合、閾値を変更する。【選択図】図１２

Description

本発明は、コンピュータシステムの異常を監視する技術に関する。

システムに含まれるハードディスクに異常が発生した場合、コントローラはハードディスクから受信した異常を示す信号をもとに、対象のハードディスクに対して切り離し等の処理を行い、残りの正常なハードディスクで動作を継続させることがある。

例えば特許文献１には、ＲＡＩＤ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｅｘｐｅｎｓｉｖｅＤｉｓｋｓ）グループを構成する複数のディスクの性能に関する情報を、同一グループ内のディスク間で相対的に比較し、比較結果に基づいて、異常があると疑われるディスクを特定する方法が記載されている。

また、特許文献２には、ハードディスクの性能を示す第１の指標と第１の閾値を比較し、比較結果に基づき、該第１の指標に基づいて算出された第２の指標値と、第２の閾値とを比較し、その比較結果に基づき、ハードディスクの性能低下を検知する方法が記載されている。

特開２００９−８６９７１号公報特開２０１２−１７８０１７号公報

特許文献１に関連する技術では、稼働率を一定値と比較して被疑ディスクとして検知している。しかしながら、同じシステムであっても、該システムにかかる負荷の状況等によって、その時点でのハードディスクに適した状況は変化する。したがって、特許文献１に関連する技術では、その時点においては、異常とみなせる状態のハードディスクを正常と判断してしまう可能性がある。また、正常とみなせる状態のハードディスクを異常と判断してしまう可能性もある。

特許文献２に関連する技術も、閾値が、その時点でのハードディスクの状況に適しているとは限らない。

本発明は、上記課題を鑑みたものであって、故障には至らなくても性能低下の原因となっているハードディスクを精度よく検知する監視システムを提供することを目的とする。

本発明の一形態に係る監視装置は、第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、前記第１記憶装置の応答時間である第１応答時間と、前記第２記憶装置の応答時間である第２応答時間とを計る処理手段と、計測した前記第１応答時間と前記第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理を行う判定手段と、前記閾値を変更する変更処理を行う変更手段と、を備え、前記判定手段は、前記第１の値が閾値未満の場合、過去の前記判定処理の結果が所定の条件を満たすか否か判定し、前記処理手段は、前記第１の値が閾値以上の場合、前記第１の間隔よりも狭い第２の間隔で前記第１応答時間および第２応答時間を複数計り、前記判定手段は、前記第２の間隔で計った前記第１応答時間および第２応答時間に基づいて前記第１記憶装置に異常があるか否か判定し、前記変更手段は、過去の前記判定処理の結果が所定の条件を満たす場合、または前記第１記憶装置に異常がない場合、前記閾値を変更する。

本発明の一形態に係る監視方法は、第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、前記第１記憶装置の応答時間である第１応答時間と、前記第２記憶装置の応答時間である第２応答時間とを計り、計測した前記第１応答時間と前記第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理を行い、前記第１の値が閾値未満の場合、過去の前記判定処理の結果が所定の条件を満たすか否か判定し、前記第１の値が閾値以上の場合、前記第１の間隔よりも狭い第２の間隔で前記第１応答時間および第２応答時間を複数計り、前記第２の間隔で計った前記第１応答時間および第２応答時間に基づいて前記第１記憶装置に異常があるか否か判定し、過去の前記判定処理の結果が所定の条件を満たす場合、または前記第１記憶装置に異常がない場合、前記閾値を変更する変更処理を行う。

本発明の一形態に係るプログラムは、第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、前記第１記憶装置の応答時間である第１応答時間と、前記第２記憶装置の応答時間である第２応答時間とを計る計時処理と、計測した前記第１応答時間と前記第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理と、前記閾値を変更する変更処理と、をコンピュータに実行させ、前記判定処理は、前記第１の値が閾値未満の場合、過去の前記判定処理の結果が所定の条件を満たすか否か判定し、前記計時処理は、前記第１の値が閾値以上の場合、前記第１の間隔よりも狭い第２の間隔で前記第１応答時間および第２応答時間を複数計り、前記判定処理は、前記第２の間隔で計った前記第１応答時間および第２応答時間に基づいて前記第１記憶装置に異常があるか否か判定し、前記変更処理は、過去の前記判定処理の結果が所定の条件を満たす場合、または前記第１記憶装置に異常がない場合、前記閾値を変更する。

精度よくハードディスクの異常を検知することができる。

本発明の第１実施形態に係る監視システムの構成の一例を示すブロック図である。第１間隔における応答時間の一例を示す図である。第２間隔における応答時間の一例を示す図である。本発明の第１実施形態に係る監視システムの動作の一例を示すフローチャートである。本発明の第１実施形態に係る監視システムが行う照合処理の一例を示すフローチャートである。第１変更処理の一例を示すフローチャートである。第２変更処理の一例を示すフローチャートである。本発明の第２実施形態に係る監視システムの構成の一例を示すブロック図である。測定回数テーブルの一例を示す図である。本発明の第２実施形態に係る監視システムが行う動作の一例を示すフローチャートである。本発明の第２実施形態に係る監視システムが行う照合処理の一例を示すフローチャートである。本発明の第３実施形態に係る監視装置の構成の一例を示すブロック図である。本発明の各実施形態に係る監視システムを実現する情報処理装置のハードウェア構成の一例を示すブロック図である。

以下、本発明の実施形態について図面を参照して詳細に説明する。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る監視システム１の構成の一例を示すブロック図である。図１において、監視システム１は、監視装置１０と、第１記憶装置２０と、第２記憶装置３０とを備える。

監視装置１０は、処理部１１と、記憶部１２と、判定部１３と、カウンタ部１４と、変更部１５とを備える。

処理部１１は、所定の間隔（以下、第１間隔）ごとに第１記憶装置２０と、第２記憶装置３０とにＩ／Ｏ要求を送信する。Ｉ／Ｏ要求は、処理部１１がＩ／Ｏ要求を送信してからＩ／Ｏ要求に対する応答を受信するまでの時間（以下、応答時間）を計るためのＩ／Ｏ要求である。そして、処理部１１は、応答時間を記憶装置ごとに計る。そして、処理部１１は、計った応答時間を記憶部１２に記憶させる。

図２は、第１間隔における応答時間の一例を示すテーブルである。図２に示すように、処理部１１は、応答時間を計った時間（以下、計測日時）と、各記憶装置の応答時間とをそれぞれ関連付けて記憶部１２に記憶させる。処理部１１は、第１間隔ごとに応答時間を計るため、応答時間を計る度に図２に示すテーブルを更新してもよいし、新たに行を追加してもよい。なお、図２に示す応答時間の数値は例示であり、この数値には限定されない。

また、処理部１１は、判定部１３からの通知に基づき、第１間隔よりも狭い所定の間隔（以下、第２間隔）ごとにＩ／Ｏ要求を第１記憶装置２０と、第２記憶装置３０とに所定の回数分送信し、応答時間を記憶装置ごとに計る。そして、処理部１１は、計った応答時間を記憶部１２に記憶させる。処理部１１は、より早期に記憶装置の異常を検出するために、第１間隔よりも狭い第２間隔でＩ／Ｏ要求を送信する。

そして、処理部１１は、第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっているか否か、つまり第１記憶装置２０と、第２記憶装置３０とがＲＡＩＤ１（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｅｘｐｅｎｓｉｖｅＤｉｓｋｓ１）の構成になっているか否かを判定する。

第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっている場合、処理部１１は、第１間隔における応答時間の計測が終了したことを示す通知を、判定部１３に送信する。一方で、第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっていない場合、処理部１１は、図示しない表示部にエラー表示をさせてもよい。

図３は、第２間隔における応答時間の一例を示すテーブルである。図３に示すように処理部１１は、応答時間を計った回数と、各記憶装置の応答時間とをそれぞれ関連付けて記憶部１２に記憶させる。

例えば、処理部１１は、第２間隔において応答時間を４回計るとする。この場合、処理部１１は、図３に示すように、応答時間を計った回数と、各記憶装置との各列にそれぞれ値を記憶させる。例えば、１回目の計測において、第１記憶装置２０の応答時間は「２１ｍｓ（ｍｓ：ミリ秒）」であり、第２記憶装置３０の応答時間は「７ｍｓ」である場合、処理部１１は、図３に示すテーブルの２行目の１列目に「１」と、２行目の２列目に「２１ｍｓ」と、２行目の３列目に「７ｍｓ」とを記憶させる。

また、処理部１１は４回の計測が終了すると、各記憶装置の応答時間の平均（以下、平均応答時間）を算出し、図３に示すように平均応答時間を記憶させる。そして、処理部１１は、各記憶装置の平均応答時間を記憶部１２に記憶させたことを示す通知を判定部１３に送信する。

また処理部１１は、第２間隔において所定の回数分応答時間を計るため、応答時間を計る度に図３に示すテーブルに新たに列を追加し、それぞれの項目に値を格納させる。また、処理部１１は、判定部１３から送信された判定結果に基づいて、図示しない表示部に、傾向記憶装置（後述）に異常がある旨のエラーを表示させる。

判定部１３は、処理部１１から、第１間隔における応答時間の計測が終了したことを示す通知を受信し、この通知を契機に、第１間隔における第１記憶装置２０の応答時間（第１応答時間とも呼ぶ）と、第２記憶装置３０の応答時間（第２応答時間とも呼ぶ）とを比較する。そして、判定部１３は、短い方の応答時間に対する長い方の応答時間の倍率（以下、第１倍率）を求め、第１倍率が閾値以上か否か判定する。第１倍率が閾値以上の場合、判定部１３は、応答時間が長い方の記憶装置を、異常傾向がある記憶装置（以下、傾向記憶装置）として特定する。そして、判定部１３は、傾向記憶装置を判定結果として処理部１１に通知する。なお、閾値は任意に設定することが可能である。また、閾値は、予め記憶部１２に記憶されても良い。また、判定部１３は、第１間隔における第１記憶装置２０の応答時間と、第２記憶装置３０の応答時間との差を求め、求めた差が閾値以上か否か判定してもよい。また、この場合、閾値には具体的な数値、例えば「３０ｍｓ」等の数値が設定されていてもよい。よって判定部１３は、第１記憶装置２０の応答時間と、第２記憶装置３０の応答時間との関係性を示す値（以下、第１の値）が、閾値以上か否か判定する。

具体的に図２に示すテーブルを確認すると、第１記憶装置２０の応答時間は「２５ｍｓ」であり、第２記憶装置３０の応答時間は「８ｍｓ」である。例えば閾値が「長い方の応答時間が、短い方の応答時間の３倍」であるとすると、第２記憶装置３０の応答時間は、第１記憶装置２０の応答時間の３倍以上となる。よって判定部１３は、第１記憶装置２０を傾向記憶装置として特定する。

そして、判定部１３は、処理部１１から各記憶装置の平均応答時間を記憶部１２に記憶させたことを示す通知を受信し、この通知を契機に、第２間隔において計った第１記憶装置２０の応答時間と、第２記憶装置３０の応答時間とを比較する。具体的に判定部１３は、所定の回数のすべての計測において傾向記憶装置の応答時間のほうが長いか否か判定する。また、判定部１３は、傾向記憶装置の平均応答時間の、もう一方の記憶装置の平均応答時間に対する倍率（以下、第２倍率）を求め、第２倍率が閾値以上か否か判定する。

図３に示すテーブルを確認すると、１回目の第１記憶装置２０の応答時間は「２１ｍｓ」であり、第２記憶装置３０の応答時間は「７ｍｓ」である。傾向記憶装置が第１記憶装置２０であるとすると、判定部１３は、傾向記憶装置の応答時間の方が長いと判定し、次に２回目の計測における傾向記憶装置の応答時間のほうが長いか否か判定する。

図３を参照すると、２〜４回目の計測において、すべて傾向記憶装置である第１記憶装置２０の応答時間のほうが、第２記憶装置３０の応答時間に比べ長い。そして、判定部１３は、傾向記憶装置の平均応答時間の、もう一方の記憶装置の平均応答時間に対する第２倍率を求め、第２倍率が閾値以上か否か判定する。

また、判定部１３は、傾向記憶装置の応答時間の中央値の、もう一方の記憶装置の応答時間の中央値に対する第２倍率を求め、第２倍率が閾値以上か否か判定してもよい。また、判定部１３は、傾向記憶装置の応答時間の最頻値のもう一方の記憶装置の応答時間の最頻値に対する第２倍率を求め、求めた第２倍率が閾値以上か否か判定してもよい。つまり、判定部１３は、第１記憶装置２０の平均応答時間と、第２記憶装置３０の平均応答時間との関係を示す値（以下、第２の値）が、閾値以上か否か判定する。

図３を参照すると、第１記憶装置２０の平均応答時間は「２２．５ｍｓ」であり、第２記憶装置３０の平均応答時間は「７ｍｓ」である。例えば閾値が「長い方の応答時間が、短い方の応答時間の３倍」であるとすると、求めた第２倍率は３倍以上である。よって、判定部１３は、傾向記憶装置である第１記憶装置２０に異常があると判定する。そして、判定部１３は、異常があるという判定結果を処理部１１に送信する。また、判定部１３は、傾向記憶装置に異常があると判定した後、その傾向記憶装置にＩ／Ｏ要求を送信しないようにしてもよい。

また判定部１３は、傾向記憶装置の応答時間のほうが短い計測があった場合と、第２倍率が閾値未満である場合とにおいて、傾向記憶装置に異常がないと判定し、傾向記憶装置に異常がない旨を処理部１１と、カウンタ部１４とに通知する。

また、判定部１３は、所定の期間内に、第１倍率が閾値以上であると判定したことがあるか否か判定する。

例えば、判定部１３は記憶部１２に第１間隔における第１記憶装置２０の応答時間と、第２記憶装置３０と応答時間とのうち、長い方の応答時間の、短い方の応答時間に対する第１倍率を求め、第１倍率が閾値以上であると判定したログを記憶させる。そして、判定部１３は、このログを参照し、所定の期間内に第１倍率が閾値以上であると判定したことがあるか否か判定してもよい。そして、判定部１３は、所定の期間内に第１倍率が閾値以上であると判定したことがない場合、所定の期間内に第１倍率が閾値以上であると判定したことがない旨を、変更部１５に通知する。

カウンタ部１４は、判定部１３からの通知に基づいて、カウンタをインクリメントする。

判定部１３からの所定の期間内に第１倍率が閾値以上であると判定したことがない旨の通知を契機に、変更部１５は、閾値を予め定められた値（以下、変更値）分小さくした場合、その小さくした閾値が、閾値の変更可能な範囲（以下、閾値範囲）の下限以上か否か判定する。小さくした閾値が、閾値範囲の下限以上の場合、変更部１５は、新たな閾値として小さくした閾値に更新する。つまり、判定部１３は、現在の閾値が大きすぎるため閾値を小さくする方向に調整する。その後、変更部１５は、カウンタ部１４のカウンタを初期化させる。

なお、変更部１５は、処理部１１及び判定部１３に新たな閾値を通知してもよい。所定の期間内とは、例えば、変更部１５が、過去に閾値を変更した時から今までの間でもよい。変更値は、例えば現在の閾値から何パーセント大きくまたは小さくする値が設定されていてもよい。

また、変更部はカウンタ部１４を監視する。そしてカウンタ部のカウンタが所定の値になったことを契機に、変更部１５は、閾値を変更値分大きくした場合、その大きくした閾値が、閾値範囲の上限以下か否か判定する。大きくした閾値が、閾値範囲の上限以下の場合、変更部１５は、新たな閾値として大きくした閾値に更新する。つまり、判定部１３は現在の閾値が小さすぎるため閾値を大きくする方法に調整する。その後、変更部１５は、カウンタ部１４のカウンタを初期化させる。

第１記憶装置２０と、第２記憶装置３０は、監視装置１０からのＩ／Ｏ要求に基づき、データを記憶する。

図４は、第１実施形態に係る監視システム１の動作の一例を示すフローチャートである。監視システム１は図４に示す動作を定期的に（つまり、第１間隔ごとに）行う。つまり、監視システム１は、図４に示す動作を実行後、該動作が終了する前に、第１間隔分の時間が経過すると、図４に示す動作を並行して実行してもよい。

まず、処理部１１は、第１間隔ごとに第１記憶装置２０と第２記憶装置３０とにＩ／Ｏ要求を送信する（ステップＳ１）。そして、処理部１１は、記憶装置ごとに応答時間を計り（ステップＳ２）、記憶部１２に記憶させる。処理部１１は、第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっているか否か判定する（ステップＳ３）。なお、ステップＳ３は、ステップＳ１の前に実行されてもよい。この場合、ステップＳ３にてＹＥＳの場合、処理はステップＳ１に進む。

第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっていない場合（ステップＳ３にてＮＯ）、処理は後述するステップＳ７に進む。

第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっている場合（ステップＳ３にてＹＥＳ）、処理部１１は、第１間隔における応答時間の計測が終了したことを、判定部１３に通知する。そして、判定部１３は処理部１１からの通知に基づいて、第１記憶装置２０の応答時間と、第２記憶装置３０の応答時間とのうち、短い方の応答時間に対する長い方の応答時間の第１倍率を求め、第１倍率が閾値以上か否かを判定する（ステップＳ４）。

第１倍率が閾値以上である場合（ステップＳ４にてＹＥＳ）、判定部１３は、応答時間が長い方の記憶装置を傾向記憶装置として特定し、そして、傾向記憶装置を判定結果として処理部１１に通知する。そして、照合処理（ステップＳ５）が行われる。照合処理の詳細は後述する。

第１倍率が閾値未満の場合（ステップＳ４にてＮＯ）、判定部１３は、所定の期間内に、第１倍率が閾値以上だと判定したことがあるか否か判定する（ステップＳ８）。所定の期間内に、第１倍率が閾値以上だと判定したことがない場合（ステップＳ８にてＮＯ）、処理は第１変更処理（ステップＳ９）に進む。第１変更処理の詳細は後述する。

所定の期間内に、第１倍率が閾値以上だと判定したことがある場合（ステップＳ８にてＹＥＳ）、処理は終了する。

ステップＳ５の終了後、処理部１１は、判定部１３から送信された判定結果が異常ありを示すか否か判定する（ステップＳ６）。

判定結果が異常ありの場合（ステップＳ６にてＹＥＳ）、処理部１１は、エラーを図示しない表示部に表示させる（ステップＳ７）。

判定結果が異常なしの場合（ステップＳ６にてＮＯ）、処理部１１は、カウンタ部１４がカウントした数が所定の値以上か否か判定する（ステップＳ１０）。

カウントした数が所定の値以上である場合（ステップＳ１０にてＹＥＳ）、処理は第２変更処理（ステップＳ１１）に進む。第２変更処理の詳細は後述する。

カウントした数が所定の値以上でない場合（ステップＳ１０にてＮＯ）、処理は終了する。

監視装置１０は、第１記憶装置及び第２記憶装置を監視し、第１の値と閾値とを比較する判定処理を行う。その判定処理の結果に基づき、監視装置１０は異常の傾向がある記憶装置（傾向記憶装置）を特定する。そして、傾向記憶装置の応答時間が、傾向記憶装置ではない記憶装置の応答時間より長い場合に、第２の値と閾値を比較し、異常がある記憶装置を特定する。なお、監視装置１０が監視する記憶装置は２台以上あればよい。

つまり、第１間隔における第１の値と閾値との比較は、第１記憶装置または第２記憶装置に異常の傾向があるか否かを判定するために行う。また、第２間隔における第２の値と閾値との比較は、異常の傾向がある記憶装置に異常があると確定するために行う。

また、監視装置１０は閾値を判定処理の結果に応じて自動で変更する。よって、監視装置１０は、精度よくハードディスクの異常を検知することができる。

図５は、本発明の第１実施形態に係る監視装置１０が行う照合処理の一例を示すフローチャートである。この照合処理は、傾向記憶装置の異常の傾向は、システム負荷等による偶発的なものなのか、または性能の低下による異常なのかを判定するために行う。

まず、処理部１１は、第２間隔ごとに、第１記憶装置２０と第２記憶装置３０とにＩ／Ｏ要求を送信する（ステップＳ２１）。そして、処理部１１は、記憶装置ごとに応答時間を計り（ステップＳ２２）、記憶部１２に記憶させる。処理部１１は、所定の回数分ステップＳ２１の処理と、ステップＳ２２の処理とを繰り返し実行する（ステップＳ２３）。

所定の回数分ステップＳ２１の処理と、ステップＳ２２の処理とが実行された場合（ステップＳ２３にてＹＥＳ）、処理部１１は、各記憶装置の平均応答時間を算出し（ステップＳ２４）、算出した平均応答時間を記憶部１２に記憶させる。そして、処理部１１は、各記憶装置の平均応答時間を記憶部１２に記憶させたことを判定部１３に通知する。

判定部１３は、該通知に基づいて、所定の回数のすべての計測において傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも長いか否か判定する（ステップＳ２５）。

傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも短い計測があった場合（ステップＳ２５にてＮＯ）、判定部１３は、傾向記憶装置の応答時間がもう一方の記憶装置の応答時間よりも短い旨をカウンタ部１４に通知する。そして、処理は後述のステップＳ２８に進む。

所定の回数のすべての計測において傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも長い場合（ステップＳ２５にてＹＥＳ）、判定部１３は、傾向記憶装置の平均応答時間のもう一方の記憶装置の平均応答時間に対する第２倍率を求め、第２倍率が閾値以上であるか否か判定する（ステップＳ２６）。

第２倍率が閾値以上である場合（ステップＳ２６にてＹＥＳ）、判定部１３は、傾向記憶装置は異常ありと判定し（ステップＳ２７）、傾向記憶装置は異常ありという判定結果を、処理部１１に送信する。そして、処理は図５に示すステップＳ６に進む。

第２倍率が閾値未満の場合（ステップＳ２６にてＮＯ）、判定部１３は、第２倍率が閾値未満である旨をカウンタ部１４に通知する。そしてカウンタ部１４は、カウンタをインクリメントする（ステップＳ２８）。そして、判定部１３は、傾向記憶装置は異常なしと判定し（ステップＳ２９）、傾向記憶装置は異常なしという判定結果を、処理部１１とに送信する。そして、処理は図５に示すステップＳ６に進む。なお、ステップＳ２８とステップＳ２９とは順不同である。

図６は、第１変更処理の一例を示すフローチャートである。図４のステップＳ４において、一定の期間閾値以上の判定がされていない場合、どちらの記憶装置も正常であるか、閾値の設定値が大きすぎるため、監視装置１０が性能低下を見逃している可能性もある。そのため、この第１変更処理は、閾値を小さくする方向で調整するために行われる。

まず変更部１５は、判定部１３からの通知を契機に、現在の閾値を変更値分小さくした場合、その小さくした閾値が、閾値範囲の下限以上か否か判定する（ステップＳ３１）。小さくした閾値が、閾値範囲の下限以上の場合（ステップＳ３１にてＹＥＳ）、変更部１５は、現在の閾値を新たな閾値として小さくした閾値に更新する（ステップＳ３２）。そして、変更部１５は、カウンタ部１４のカウンタを初期化させる（ステップＳ３３）。一方で小さくした閾値が、閾値範囲の下限未満の場合（ステップＳ３１にてＮＯ）、処理はステップＳ３３に進む。

図７は、第２変更処理の一例を示すフローチャートである。カウンタ部１４のカウント数が所定の値以上になる場合、例えば、システムの負荷等によって、傾向記憶装置に一時的に閾値以上の応答時間の遅延が発生しているが問題はない場合がある。したがって、閾値が小さすぎるため、監視装置１０は、システムの負荷等による遅延を異常と判定してしまっている可能性がある。そのため、第２変更処理は、閾値を大きくする方向に調整するために行われる。

変更部１５は、カウンタ部１４を監視し、カウンタ部１４のカウンタが所定の値以上になったことを契機に、閾値を変更値分大きくした場合、その大きくした閾値が、閾値範囲の上限以下か否か判定する（ステップＳ４１）。大きくした閾値が、閾値範囲の上限以下の場合、変更部１５は、現在の閾値を新たな閾値として大きくした閾値に更新する（ステップＳ４２）。そして、変更部１５は、カウンタ部１４のカウンタを初期化させる（ステップＳ４３）。一方で大きくした閾値が、閾値範囲の上限より大きい場合（ステップＳ４１にてＮＯ）、処理はステップＳ４３に進む。

監視装置１０は、第１間隔より狭い第２間隔において傾向記憶装置と、もう一方の記憶装置にＩ／Ｏ要求を複数送信し、それぞれの応答時間を計測する。そして、すべての計測において傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも長い場合、第２の値が閾値以上であるか否か判定する。このように、監視装置が第１間隔より狭い第２間隔において応答時間を計測し、判定を複数行うことで、検知した異常の精度が上がる。よって、監視装置１０は、精度よくハードディスクの異常を検知することができる。

また、監視装置１０は、閾値を判定部１３の判定処理の判定結果に応じて適切な値に自動で調整することができる。よって監視装置１０は、閾値が小さすぎることによる記憶装置の異常誤検出または閾値が大きすぎることによる記憶装置の異常の未検出を防ぐことができる。このように、監視装置１０によれば、精度よく異常を検出することができる。

また、ユーザが閾値の最初の値と、閾値範囲を決めるだけで、監視装置１０は、判定部１３の判定処理の判定結果に応じて適切な値に自動で調整する。そのため、ユーザが適宜閾値を設定する必要がなくなる。

（変形例）
また、本実施形態の変形例として、監視装置１０は、３台以上の記憶装置を監視してもよい。例えば、監視装置１０は、複数の記憶装置の応答時間を計る。そして、判定部１３は、その中で応答時間が最も長い記憶装置と、応答時間が最も短い記憶装置とについて、最も長い応答時間の、最も短い応答時間に対する第１倍率を求め、第１倍率が閾値以上か否か判定してもよい。

監視装置１０は、３台以上の記憶装置においてその中で応答時間が最も長い記憶装置と、応答時間が最も短い記憶装置とについて判定することで、精度よく異常を検知することができる。

＜第２実施形態＞
図８は、第２実施形態に係る監視システム２の構成の一例を示すブロック図である。監視システム２は、監視装置４０と、第１記憶装置２０と、第２記憶装置３０とを備える。なお、本実施形態の説明において参照する各図面において、他の実施形態と同様な構成は、同一の符号を付し、本実施形態において重複する説明は省略する（他実施形態においても同様）。

監視装置４０は、処理部４１と、記憶部１２と、判定部１３と、カウンタ部１４と、変更部１５と、回数決定部１６とを備える。

回数決定部１６は、判定部１３を監視し、判定部１３が傾向記憶装置を処理部４１に通知したことを検知し、閾値に応じて処理部４１が第２間隔においてＩ／Ｏ要求を第１記憶装置２０と、第２記憶装置３０とにＩ／Ｏ要求を送信する回数（測定回数）を決定する。そして、回数決定部１６は、測定回数を処理部４１に送信する。回数決定部１６は、例えば、閾値が小さくなればなるほどわずかな性能差で異常判定を行うことになるので、測定回数が少ないと負荷の影響等でハードディスクに問題がないのに異常判定されてしまう可能性が高くなる。よって、処理部４１は、閾値が小さくなるほど測定回数を増やして慎重にチェックしたほうが望ましい。そのため、回数決定部１６は、測定回数の値と、閾値の値とが反比例するように測定回数の値を算出し、算出した測定回数に決定してもよい。そして、回数決定部１６は、測定回数を記憶部１２に記憶させてもよい。

図９は、閾値と測定回数とが関連付けられた測定回数テーブルの一例を示す図である。図９に示す測定回数テーブルが予め記憶部１２に記憶されていてもよい。図９に示すテーブルを参照すると、閾値が「３倍」のとき、測定回数は「４回」である。回数決定部１６は、現時点の閾値を用いて、例えば図９に示すテーブルを参照し、測定回数を決定してもよい。なお、図４に示す閾値及び測定回数の数値は例示であり、この数値には限定されない。

処理部４１は、回数決定部１６から、測定回数を受信し、受信した測定回数に基づいて、第２間隔ごとに、第１記憶装置２０と第２記憶装置３０とにＩ／Ｏ要求を送信する。処理部４１は記憶部１２から測定回数を取得し、取得した測定回数に基づいて、第２間隔ごとに、第１記憶装置２０と第２記憶装置３０とにＩ／Ｏ要求を送信してもよい。そして、処理部４１は、記憶装置ごとに応答時間を計り、記憶部１２に記憶させる。また、処理部４１は、処理部１１の機能を含む。以下、監視システム２の動作を説明する。

図１０は、本発明の第２実施形態に係る監視システム２の動作の一例を示すフローチャートである。監視システム２は図１０に示す動作を定期的に行う。

まず、処理部４１は、第１間隔ごとに第１記憶装置２０と第２記憶装置３０とにＩ／Ｏ要求を送信する（ステップＳ６１）。そして、処理部４１は、記憶装置ごとに応答時間を計り（ステップＳ６２）、記憶部１２に記憶させる。処理部４１は、第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっているか否か判定する（ステップＳ６３）。

第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっていない場合（ステップＳ６３にてＮＯ）、処理は後述するステップＳ６７に進む。

第１記憶装置２０と、第２記憶装置３０とがミラーリング構成になっている場合（ステップＳ６３にてＹＥＳ）、処理部４１は、第１間隔における応答時間の計測が終了したことを、判定部１３に通知する。そして判定部１３は、処理部４１からの通知に基づいて第１記憶装置２０の応答時間と、第２記憶装置３０の応答時間とにおいて、長い方の応答時間の、短い方の応答時間に対する第１倍率を求め、第１倍率が閾値以上か否かを判定する（ステップＳ６４）。

第１倍率が閾値以上である場合（ステップＳ６４にてＹＥＳ）、判定部１３は、応答時間が長い方の記憶装置を傾向記憶装置として特定する。そして、判定部１３は、傾向記憶装置を処理部４１に通知する。そして、照合処理（ステップＳ６５）が行われる。照合処理の詳細は後述する。

第１倍率が閾値未満の場合（ステップＳ６４にてＮＯ）、判定部１３は、所定の期間内に、第１倍率が閾値以上だと判定したことがあるか否か判定する（ステップＳ６８）。所定の期間内に、第１倍率が閾値以上だと判定したことがない場合（ステップＳ６８にてＮＯ）、処理は第１変更処理（ステップＳ６９）に進む。ステップＳ６９の第１変更処理は、図４に示すステップＳ９の第１変更処理と同じであるため、説明を省略する。

所定の期間内に、第１倍率が閾値以上だと判定したことがある場合（ステップＳ６８にてＹＥＳ）、処理は終了する。

ステップＳ６５の終了後、処理部４１は、判定部１３から送信された判定結果が異常ありを示すか否か判定する（ステップＳ６６）。

判定結果が異常ありの場合（ステップＳ６６にてＹＥＳ）、処理部４１は、エラーを図示しない表示部に表示させる（ステップＳ６７）。

判定結果が異常なしの場合（ステップＳ６６にてＮＯ）、処理部４１は、カウンタ部１４がカウントした数が所定の値以上か否か判定する（ステップＳ７０）。

カウントした数が所定の値以上である場合（ステップＳ７０にてＹＥＳ）、処理は第２変更処理（ステップＳ７１）に進む。ステップＳ７１の第２変更処理は、図４に示すステップＳ１１の第２変更処理と同じであるため、説明を省略する。

カウントした数が所定の値以上でない場合（ステップＳ７０にてＮＯ）、処理は終了する。

監視装置４０は、第１の値と閾値とを比較する判定処理を行う。その判定処理の結果に基づき、監視装置４０は異常の傾向がある記憶装置（傾向記憶装置）を特定する。そして、傾向記憶装置の応答時間が、傾向記憶装置ではない記憶装置の応答時間より長い場合に、第２の値と閾値を比較し、異常がある記憶装置特定する。また、監視装置４０は閾値を判定処理の結果に応じて自動で変更する。よって、監視装置４０は、精度よくハードディスクの異常を検知することができる。

図１１は、本発明の第２実施形態に係る監視装置４０が行う照合処理の一例を示すフローチャートである。

まず、回数決定部１６は、判定部１３を監視し、判定部１３が傾向記憶装置を処理部４１に通知したことを検知し、閾値の値に応じて測定回数を決定する（ステップＳ８１）。そして、回数決定部１６は決定した測定回数を処理部４１に送信する。処理部４１は、回数決定部１６から測定回数を受信し、受信した測定回数分、第２間隔ごとに、第１記憶装置２０と第２記憶装置３０とにＩ／Ｏ要求を送信する（ステップＳ８２）。そして、処理部４１は、記憶装置ごとに応答時間を計り（ステップＳ８３）、記憶部１２に記憶させる。処理部４１は、回数決定部１６から受信した測定回数分、ステップＳ８２の処理と、ステップＳ８３の処理とを実行したか確認する（ステップＳ８４）。実行していない場合（ステップＳ８４にてＮＯ）、処理部４１は、上記回数分、ステップＳ８２と、ステップＳ８３とを繰り返し実行する（ステップＳ８４）。

測定回数分ステップＳ８２の処理と、ステップＳ８３の処理とが実行された場合（ステップＳ８４にてＹＥＳ）、処理部４１は、各記憶装置の平均応答時間を算出し（ステップＳ８５）、算出した平均応答時間を記憶部１２に記憶させる。そして、処理部４１は、各記憶装置の平均応答時間を記憶部１２に記憶させたことを判定部１３に通知する。

判定部１３は、該通知に基づいて、所定の回数のすべての計測において傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも長いか否か判定する（ステップＳ８６）。

傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも短い計測があった場合（ステップＳ８６にてＮＯ）、判定部１３は、傾向記憶装置の応答時間がもう一方の記憶装置の応答時間よりも短い旨をカウンタ部１４に通知する。そして、処理は後述のステップＳ８９に進む。

所定の回数のすべての計測において傾向記憶装置の応答時間が、もう一方の記憶装置の応答時間よりも長い場合（ステップＳ８６にてＹＥＳ）、判定部１３は、傾向記憶装置の平均応答時間の、もう一方の記憶装置の平均応答時間に対する第２倍率を求め、第２倍率が閾値以上であるか否か判定する（ステップＳ８７）。

第２倍率が閾値以上である場合（ステップＳ８７にてＹＥＳ）、判定部１３は、傾向記憶装置は異常ありと判定し（ステップＳ８８）、特定した記憶装置は異常ありという判定結果を、処理部４１に送信する。そして、処理は図１０に示すステップＳ６６に進む。

第２倍率が閾値未満の場合（ステップＳ８７にてＮＯ）、判定部１３は、第２倍率が閾値未満である旨をカウンタ部１４に通知する。そしてカウンタ部１４は、カウンタをインクリメントする（ステップＳ８９）。そして、判定部１３は、傾向記憶装置は異常なしと判定し（ステップＳ９０）、傾向記憶装置は異常なしという判定結果を、処理部４１とに送信する。そして、処理は図５に示すステップＳ６６に進む。なお、ステップＳ８９とステップＳ９０とは順不同である。

監視装置４０は、照合処理において傾向記憶装置と、もう一方の記憶装置との応答時間を測定する回数（測定回数）を閾値に応じて決定することができる。これによって、監視装置４０は測定回数が多すぎたり少なすぎたりすることなく、適切な回数に設定することができる。また、監視装置４０は、閾値に反比例するように測定回数を決定するため、閾値が小さい場合のシステムに掛かる負荷等による異常の誤検出をすることなく、精度よく異常を検出することができる。

＜第３実施形態＞
図１２は、本発明の第３実施形態に係る監視装置５０の構成の一例を示すブロック図である。

監視装置５０は、判定部５１と、処理部５２と、変更部５３とを備える。

処理部５２は、第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、第１記憶装置の応答時間である第１応答時間と、第２記憶装置の応答時間である第２応答時間とを計る。

判定部５１は、計測した第１応答時間と第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理を行う。

変更部５３は、閾値を変更する変更処理を行う。

判定部５１は、第１の値が閾値未満の場合、過去の判定処理の結果が所定の条件を満たすか否か判定する。

処理部５２は、第１の値が閾値以上の場合、第１の間隔よりも狭い第２の間隔で第１応答時間および第２応答時間を複数計る。

判定手段５１は、第２の間隔で計った第１応答時間および第２応答時間に基づいて第１記憶装置に異常があるか否か判定する。

変更部５３は、過去の判定処理の結果が所定の条件を満たす場合、または第１記憶装置に異常がない場合、閾値を変更する。

以上の動作によって、監視装置５０は、計測した応答時間と閾値とを比較する判定処理を行い、異常を検知する。さらにその閾値を判定処理の結果に応じて自動で変更するので、監視装置５０は、精度よくハードディスクの異常を検知することができる。

本発明の各実施形態において、各装置の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部又は全部は、例えば図１３に示すような情報処理装置９００とプログラムとの任意の組み合わせにより実現される。情報処理装置９００は、一例として、以下のような構成を含む。

・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
・ＲＡＭ９０３にロードされるプログラム９０４
・プログラム９０４を格納する記憶装置９０５
・記録媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インターフェース９０８
・データの入出力を行う入出力インターフェース９１０
・各構成要素を接続するバス９１１
各実施形態における各装置の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が取得して実行することで実現される。各装置の各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＡＭ９０３に格納されており、必要に応じてＣＰＵ９０１が読み出す。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個の情報処理装置９００とプログラムとの任意の組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つの情報処理装置９００とプログラムとの任意の組み合わせにより実現されてもよい。

また、各装置の各構成要素の一部又は全部は、その他の汎用または専用の回路、プロセッサ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。

各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１監視システム
２監視システム
１０監視装置
１１処理部
１２記憶部
１３判定部
１４カウンタ部
１５変更部
１６回数決定部
２０第１記憶装置
３０第２記憶装置
４０監視装置
４１処理部
５０監視装置
５１判定部
５２処理部
５３変更部
９００情報処理装置
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４プログラム
９０５記憶装置
９０６記録媒体
９０７ドライブ装置
９０８通信インターフェース
９０９通信ネットワーク
９１０入出力インターフェース
９１１バス

Claims

第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、前記第１記憶装置の応答時間である第１応答時間と、前記第２記憶装置の応答時間である第２応答時間とを計る処理手段と、
計測した前記第１応答時間と前記第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理を行う判定手段と、
前記閾値を変更する変更処理を行う変更手段と、を備え、
前記判定手段は、前記第１の値が閾値未満の場合、過去の前記判定処理の結果が所定の条件を満たすか否か判定し、
前記処理手段は、前記第１の値が閾値以上の場合、前記第１の間隔よりも狭い第２の間隔で前記第１応答時間および第２応答時間を複数計り、
前記判定手段は、前記第２の間隔で計った前記第１応答時間および第２応答時間に基づいて前記第１記憶装置に異常があるか否か判定し、
前記変更手段は、過去の前記判定処理の結果が所定の条件を満たす場合、または前記第１記憶装置に異常がない場合、前記閾値を変更する監視装置。
前記変更手段は、過去の前記判定処理の結果が所定の条件を満たす場合、前記第１記憶装置に異常があると判定されやすくなるように前記閾値を変更し、前記第１記憶装置に異常がない場合、前記第１記憶装置に異常がないと判定されやすくなるように前記閾値を変更する請求項１に記載の監視装置。
前記所定の条件は、前記変更手段が前記変更処理を行ってから所定の期間内の判定処理の結果に、前記第１の値が前記閾値以上であるという判定がないことである請求項１または２に記載の監視装置。
前記処理手段は、前記第２の間隔において前記第２応答時間を複数計り、
前記判定手段は、前記第２の間隔で計った複数の前記第１応答時間の夫々が、該第１応答時間と同じタイミングで計った第２応答時間より長いか否か判定し、前記第２の間隔で計った複数の前記第１応答時間の夫々が、該第１応答時間と同じタイミングで計った前記第２応答時間より長い場合、前記第２の間隔で計った前記第１応答時間の平均である第１平均応答時間と前記第２の間隔で計った前記第２応答時間の平均である第２平均応答時間との関係性を示す第２の値が、前記閾値以上か否か判定し、前記第２の値が前記閾値以上の場合、前記第１記憶装置に異常があると判定する請求項１から３のいずれか１項に記載の監視装置。
前記判定手段は、前記第２の値が前記閾値未満の場合、前記第１記憶装置に異常がないと判定する請求項４に記載の監視装置。
前記第１記憶装置に異常がない場合、カウントするカウンタを更に備え、
前記カウンタがカウントした回数が所定の回数に達した場合、前記変更手段は、前記第１記憶装置に異常がないと判定されやすくなるように前記閾値を変更する請求項５に記載の監視装置。
前記第１の値は、前記第２応答時間の前記第１応答時間に対する倍率であり、前記第２の値は、前記第２平均応答時間の前記第１平均応答時間に対する倍率である請求項４から６の何れか１項に記載の監視装置。
前記閾値に応じて、前記処理手段が前記第２の間隔において前記第１応答時間と、前記第２応答時間とを計る回数を決定する回数決定手段を更に備え、
前記処理手段は、前記第２の間隔で、前記第１応答時間および第２応答時間を、前記決定された回数分、計る請求項１から７の何れか１項に記載の監視装置。
第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、前記第１記憶装置の応答時間である第１応答時間と、前記第２記憶装置の応答時間である第２応答時間とを計り、
計測した前記第１応答時間と前記第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理を行い、
前記第１の値が閾値未満の場合、過去の前記判定処理の結果が所定の条件を満たすか否か判定し、
前記第１の値が閾値以上の場合、前記第１の間隔よりも狭い第２の間隔で前記第１応答時間および第２応答時間を複数計り、
前記第２の間隔で計った前記第１応答時間および第２応答時間に基づいて前記第１記憶装置に異常があるか否か判定し、
過去の前記判定処理の結果が所定の条件を満たす場合、または前記第１記憶装置に異常がない場合、前記閾値を変更する変更処理を行う監視方法。
第１記憶装置と、第２記憶装置とに第１の間隔でＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を送信し、前記第１記憶装置の応答時間である第１応答時間と、前記第２記憶装置の応答時間である第２応答時間とを計る計時処理と、
計測した前記第１応答時間と前記第２応答時間との関係性を示す第１の値が閾値以上か否か判定する判定処理と、
前記閾値を変更する変更処理と、をコンピュータに実行させ、
前記判定処理は、前記第１の値が閾値未満の場合、過去の前記判定処理の結果が所定の条件を満たすか否か判定し、
前記計時処理は、前記第１の値が閾値以上の場合、前記第１の間隔よりも狭い第２の間隔で前記第１応答時間および第２応答時間を複数計り、
前記判定処理は、前記第２の間隔で計った前記第１応答時間および第２応答時間に基づいて前記第１記憶装置に異常があるか否か判定し、
前記変更処理は、過去の前記判定処理の結果が所定の条件を満たす場合、または前記第１記憶装置に異常がない場合、前記閾値を変更するプログラム。