JP6721820B2

JP6721820B2 - 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置

Info

Publication number: JP6721820B2
Application number: JP2015160179A
Authority: JP
Inventors: 小林　賢司; 賢司小林; 松原　正純; 正純松原; 喜則坂本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2020-07-15
Anticipated expiration: 2035-08-14
Also published as: JP2017037600A; US10083072B2; US20170046213A1

Description

本発明は、異常対処決定プログラム、異常対処決定方法、及び、状態管理装置に関する。

ストレージシステムは、複数のディスク装置を搭載し、大容量のストレージとして動作する。情報処理装置は、ネットワーク等を介して、複数のディスク装置にアクセスする。

ストレージシステムの状態管理装置は、例えば、ディスク装置の故障の予兆を検知すると、信頼性（データの失われ難さ）を向上するために、ストレージ装置に対する特定の対処を行う。例えば、状態管理装置は、ディスク装置の故障の予兆を検知すると、他のディスク装置とのミラーリングを開始し、予兆が生じたディスク装置を切り離す。これにより、状態管理装置は、実際にディスク装置に故障が発生した場合に、記憶したデータが失われることを回避する。

複数のディスク装置を備えるシステムに関する技術は、例えば、特許文献１、２に記載される。

特開２００８−５２７５２号公報特開２００６−１６４３０４号公報

しかしながら、故障予兆はディスク装置の状態に即していない場合がある。したがって、故障の予兆の検知に応じて特定の対処を行う場合、対処が、ディスク装置の故障の要因とは異なる要因に対する対処である場合や、故障の状態が生じていないにも関わらず対処を行う場合がある。

実際の装置の状態に即していない対処を行うことにより、ディスク装置を交換する頻度が高くなり、コストが増加する。

１つの側面では、本発明は、装置に対する適切な対処を決定する異常対処決定プログラム、異常対処決定方法、及び、状態管理装置を提供することを目的とする。

第１の態様によれば、システムに含まれる複数の装置の、第１の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される前記状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、判定結果に基づいて、前記第１の装置に対する対処を決定する、ことを実行させる。

１つの側面では、装置に対する適切な対処を決定する。

本実施の形態におけるストレージシステムの一例を示す図である。比較例における、ディスク装置の故障予兆の検知に応じた、当該ディスク装置に対する対処の流れを説明するフローチャート図である。本実施の形態における状態管理装置の処理の流れを説明するフローチャート図である。本実施の形態における状態管理装置（情報処理装置）１００のハードウェア構成図である。図４に示した状態管理装置１００のソフトウェアブロックの構成図である。図４、図５で説明した状態情報テーブル１５０の一例を示す図である。図５で説明した状態監視モジュール１４１が取得する状態情報の一例を説明する図である。図４、図５で説明した状態・用途マッピング情報１６０の一例を示す図である。図４、図５で説明した、異常対処決定プログラム１４０の処理の流れを説明するフローチャート図である。図９のフローチャート図の処理の第１の例を説明する図である。図９のフローチャート図の処理の第２の例を説明する図である。図９のフローチャート図の処理の第３の例を説明する図である。図９のフローチャート図の処理の第４の例を説明する図である。図９のフローチャート図の工程Ｓ４１の処理の詳細を説明するフローチャート図である。値「ｔ有効算出時間」及び、値「ｔ取得時間」を説明する図である。別の実施の形態におけるストレージシステムの一例を示す図である。図１６に示す管理装置２００のハードウェア構成図の一例を示す図である。図１６に示すストレージシステムのソフトウェアブロック図の一例を示す図である。別の実施の形態における状態情報テーブル２５０の一例を示す図である。

以下、図面にしたがって本発明の実施の形態について説明する。ただし、本発明の技術的範囲はこれらの実施の形態に限定されず、特許請求の範囲に記載された事項とその均等物まで及ぶものである。

［ストレージシステム］
図１は、本実施の形態におけるストレージシステムの一例を示す図である。図１に示すように、ストレージシステムは、ディスク装置群１０５を搭載する。ディスク装置群１０５は、ディスク装置ｄｄ１〜ｄｄｎ（ディスク装置ｄｄともいう）を有する。また、各ディスク装置ｄｄは、ディスクインタフェース部１０４等を介して、ＣＰＵ（図１に図示せず）や他の情報処理装置（図１に図示せず）等と接続する。

例えば、図１に示すディスク装置群１０５は、例えば、ディスクアレイである。ディスクアレイは、複数のディスク装置ｄｄ１〜ｄｄｎを一台の大容量のディスク装置として使用する技術を示す。ディスクアレイのデータの管理方式に、例えば、ＲＡＩＤ（Redundant Arrays of Inexpensive Disks：ＲＡＩＤ）がある。ＲＡＩＤは、複数台のディスク装置ｄｄを組み合わせることにより、仮想的な一台のディスク装置として運用し、冗長性を向上させる技術を示す。

各ディスクアレイには、それぞれ異なる冗長度を設定可能である。冗長度には、例えば、ＲＡＩＤ０、ＲＡＩＤ１、ＲＡＩＤ３、ＲＡＩＤ５等がある。ＲＡＩＤ０は、データを分割して複数のディスク装置ｄｄに分散させて書き込む方式を示し、ストライピングと呼ばれる。ＲＡＩＤ０によると、データに冗長度はないものの、分散して記憶したデータに対して、並行してアクセスすることが可能になる。

ＲＡＩＤ１は、同一データを複数のディスク装置ｄｄに書き込む方式を示し、ミラーリングと呼ばれる。ＲＡＩＤ１は、同一のデータを複数のディスク装置ｄｄに保持させるため、データの冗長性がある。したがって、一方のディスク装置ｄｄに障害が発生した場合であっても、他方のディスク装置ｄｄに記憶されたデータを用いることが可能になる。

ＲＡＩＤ３、ＲＡＩＤ５は、ＲＡＩＤ１に対して、さらに冗長度が高い。ＲＡＩＤ３は、データを分割し複数のディスク装置ｄｄに書き込むとともに、分割したデータに基づいて生成されるパリティを、別のディスク装置ｄｄに記憶させる方式を示す。また、ＲＡＩＤ５は、データ及びパリティを、複数のディスク装置ｄｄに分散させて記憶させる方式を示す。

［比較例］
図２は、比較例における、ディスク装置の故障予兆の検知に応じた、当該ディスク装置に対する対処の流れを説明するフローチャート図である。

Ｓ１１：比較例における状態管理装置は、図１に示すようなディスク装置群のうち、あるディスク装置の異常情報（以下、故障の予兆ともいう）を検知する。状態管理装置は、例えば、予め定められた所定値と、各ディスク装置の値とに基づいて、故障の予兆を検知する。

具体的に、状態管理装置は、例えば、ディスク装置の累積稼働時間が、当該ディスク装置の仕様に応じて予め設定された寿命時間（所定値）に達した場合に、故障の予兆を検知する。または、状態管理装置は、例えば、ディスク装置のエラー回数が予め定めた所定値に達した場合に、故障の予兆を検知する。

Ｓ１２：状態管理装置は、故障予兆が検知されたディスク装置に対して、予め定められた固定的な対処を実行する。例えば、状態管理装置は、対処として、同一データを、故障予兆が検知されたディスク装置と別のディスク装置とに分散して書き込むミラーリングを開始した後、故障予兆が検知されたディスク装置を切り離す。別の形態では、状態管理装置は、対処として、故障予兆が検知されたディスク装置の用途を、バックアップ用に変更する。

このように、状態管理装置は、故障予兆を検知した場合に、予め定めた対処を行う。これにより、故障予兆が検知されたディスク装置に実際に故障が発生した際に、記憶されたデータが失われることを抑制し、データの信頼性（失われ難さ）を維持する。

しかしながら、故障予兆は、ディスク装置の状態に必ずしも即していない。例えば、累積稼働時間に基づいて故障予兆を検出した場合であっても、ディスク装置は正常に動作している場合がある。または、故障の予兆を検出した時点で、ディスク装置の状態が、想定よりも悪化している場合がある。

また、エラー回数に基づいて故障予兆を検知した場合であっても、エラーが軽微なエラーである場合、ディスク装置は正常に動作している場合がある。または、エラーが深刻なエラーである場合、故障の予兆が検出された時点で、ディスク装置の状態が想定よりも悪化している場合がある。

したがって、故障予兆の検出に応じて行う固定的な対処は、ディスク装置の状態に即していない場合があり、適切な対処ではない場合がある。適切ではない対処を行うことにより、ディスク装置の状態が正常に動作しているにも関わらず、ディスク装置が早期に交換の対象となる場合がある。または、ディスク装置の状態が悪化するケースや、ディスク装置の状態を改善できる可能性があるにも関わらず、改善できないケースがある。

このように、データの信頼性を向上するために、故障予兆の検知に応じて特定の対処を行うことによって、ディスク装置の交換頻度が高くなりコストが増加する場合がある。ディスク装置に対する適切な対処は、実際のディスク装置に状態に応じて異なる。したがって、故障予兆が検知された場合、ディスク装置の実際の状態に応じた対処が行われることが望ましい。

［本実施の形態の概要］
したがって、本実施の形態における状態管理装置は、システムに含まれる複数の装置（ディスク装置ｄｄ）の、第１の装置の異常情報の検知に応じて、複数の装置それぞれの状態に関する所定の項目の状態情報を取得する。そして、状態管理装置は、第１の装置の状態情報が、第１の装置以外の装置の状態情報から算出される状態情報の分布範囲から外れているか否かを、所定の項目ごとに判定し、判定結果に基づいて、第１の装置に対する対処を決定する。

システムは、例えば、図１に示すような、ストレージシステムを示す。状態情報は、ディスク装置ｄｄの状態に関する情報である。本実施の形態における所定の項目（項目ともいう）は、例えば、ディスク装置ｄｄに対するアクセス負荷、ディスク装置ｄｄの温度、ディスク装置ｄｄの異常部（不良セクタ）の数、ディスク装置ｄｄの稼働時間のいずれか、またはその組合せである。

なお、本実施の形態は、装置がディスク装置ｄｄである場合を例示するが、この例に限定されるものではない。装置は、情報処理装置、無線装置、工場等が備える機械装置等であってもよい。装置が、ディスク装置ｄｄとは異なる装置である場合、項目は、当該装置の状態に関する別の情報（ＣＰＵ使用率や、遅延情報等）であってもよい。

図３は、本実施の形態の状態管理装置の処理の流れを説明するフローチャート図である。

Ｓ２１：状態管理装置は、あるディスク装置ｄｄ（第１の装置）の異常情報（故障予兆）の検知に応じて、第１の装置を含む、複数のディスク装置ｄｄの項目ごとの状態情報を取得する。状態管理装置は、例えば、ディスク装置群１０５（図１）のディスク装置ｄｄ２の故障予兆の検知に応じて、ディスク装置ｄｄ１〜ｄｄｎの状態情報を取得する。

比較例と同様にして、状態管理装置は、例えば、寿命やエラー回数等に基づいて、故障予兆を検知する。状態管理装置は、例えば、ディスク装置ｄｄの稼働時間が、当該ディスク装置ｄｄの仕様に基づいて定められた寿命に達した場合に、故障予兆を検知する。または、状態管理装置は、例えば、ディスク装置ｄｄのエラー回数が、予め定めた所定値を超えた場合に故障予兆を検知する。

Ｓ２２：状態管理装置は、取得した、複数のディスク装置ｄｄの状態情報に基づいて、項目ごとに、第１のディスク装置ｄｄの状態情報が、第１のディスク装置以外のディスク装置ｄｄの状態情報から算出される状態情報の分布範囲から外れているかを判定する。つまり、状態管理装置は、ディスク装置ｄｄ２の状態情報が、ディスク装置ｄｄ１、ｄｄ３〜ｄｄｎの状態情報の分布範囲から外れているか否かを、項目ごとに判定する。

Ｓ２３：状態管理装置は、判定結果に基づいて、第１のディスク装置ｄｄ（ディスク装置ｄｄ２）に対する対処を決定する。例えば、状態管理装置は、ディスク装置ｄｄ２の状態情報の値が、ディスク装置ｄｄ１、ｄｄ３〜ｄｄｎの状態情報から算出される状態情報の分布範囲から外れている項目に基づいて、ディスク装置ｄｄ２に対する対処を決定する。または、外れている項目がない場合に、状態管理装置は、ディスク装置ｄｄ２に対する継続使用を示す対処を決定する。

このように、本実施の形態における状態管理装置は、故障の予兆に応じて、特定の固定的な対処を行うのではなく、他のディスク装置ｄｄとの状態情報の比較に基づいて、適切な対処を決定できる。これにより、状態管理装置は、故障予兆が実際のディスク装置ｄｄの状態に即していない場合であっても、ディスク装置ｄｄの状態に即した対処を決定できる。

したがって、状態管理装置は、実際に、ディスク装置ｄｄに異常な状態が生じている場合に、当該状態に応じた適切な対処を決定できる。これにより、状態管理装置は、ディスク装置ｄｄの状態の改善や、ディスク装置ｄｄの寿命悪化の抑制を実現できる。また、状態管理装置は、ディスク装置ｄｄに異常な状態が生じていない場合に、ディスク装置ｄｄに対する変更を行わず、継続利用を示す適切な対処を決定できる。

このように、ディスク装置ｄｄの用途を限定することを抑制できるため、状態管理装置は、データの信頼性を向上しながら、ディスク装置ｄｄの交換頻度を抑えることができる。したがって、状態管理装置は、データの信頼性を向上しながら、コストを抑制することができる。

また、ディスク装置ｄｄの各項目の状態情報の正常の分布範囲（基準値）は、例えば、ディスク装置ｄｄに対するアクセス頻度や、使用する業務や、環境等に応じて異なる。したがって、ディスク装置ｄｄの各項目について、状態情報の基準値を算出することは容易ではない。

これに対し、本実施の形態における状態管理装置は、故障予兆が検知されたディスク装置ｄｄの状態情報が、他のディスク装置ｄｄの状態情報から算出される状態情報の分布範囲から外れた値であるか否かを判定する。そして、状態管理装置は、判定結果に基づいて、故障予兆が検知されたディスク装置ｄｄに、異常な状態が生じているか否かを判定する。これにより、本実施の形態における状態管理装置は、ディスク装置ごとに、各項目の状態情報の基準値を設定することなく、簡易に、異常な状態を示す状態情報の項目を判定できる。

次に、図４にしたがって、本実施の形態における状態管理装置のハードウェア構成を、図５にしたがって、図４に示す状態管理装置のソフトウェアブロック図を説明する。

［状態管理装置１００のハードウェア構成］
図４は、本実施の形態における状態管理装置（情報処理装置）１００のハードウェア構成図である。状態管理装置１００は、例えば、ＣＰＵ（Central Processing Unit：ＣＰＵ）１０１、メインメモリ１１０や補助記憶装置１１１等を備えるメモリ１０２、通信インタフェース部１０３、ディスクインタフェース部１０４、ディスク装置群１０５を有する。各部は、バス１０６を介して相互に接続する。

ＣＰＵ１０１は、バス１０６を介してメモリ１０２等と接続するとともに、状態管理装置１００全体の制御を行う。通信インタフェース部１０３は、インターネット等を介して、他の機器（図示せず）と接続し、データの送受信を行う。

ディスク装置群１０５は、図１で示したように、複数のディスク装置ｄｄを有する。ディスクインタフェース部１０４は、ディスク装置群１０５と接続し、ディスク装置群１０５の各ディスク装置ｄｄの制御処理を行う。

図１で説明したとおり、ディスク装置群１０５は、ＲＡＩＤに基づく記憶領域を提供する。ディスクインタフェース部１０４は、例えば、ＣＰＵ１０１等から受け付けたコマンドに応答して、ディスク装置ｄｄへのデータの書き込みや、ディスク装置ｄｄに記憶されたデータの読み出しを行う。また、ディスクインタフェース部１０４は、ＣＰＵ１０１等から受け付けたコマンドに応答して、ディスク装置ｄｄに対する、ミラーリングやストライピング等のＲＡＩＤの設定、及び、切り離しやオフラインやオンライン等の制御を行う。

ＲＡＭ（Random Access Memory：ＲＡＭ）等を示すメインメモリ１１０は、ＣＰＵ１０１が処理を行うデータ等を記憶する。補助記憶装置１１１は、ＨＤＤ（Hard disk drive：ＨＤＤ）、不揮発性半導体メモリ等を示す。

補助記憶装置１１１は、ＣＰＵ１０１が実行するオペレーションシステムのプログラムを格納する領域（図示せず）や、ディスク装置ｄｄを使用するプログラムを格納する領域（図示せず）等を有する。また、補助記憶装置１１１は、ストレージ管理プログラム格納領域１３０、状態情報テーブル格納領域１５０、状態・用途マッピング情報格納領域１６０を有する。また、ストレージ管理プログラム格納領域１３０は、異常対処決定プログラム格納領域１４０を有する。

ストレージ管理プログラム格納領域１３０のストレージ管理プログラム（以下、ストレージ管理プログラム１３０と称する）は、ＣＰＵ１０１の実行によって、ディスク装置群１０５に対するアクセスの制御や、ＲＡＩＤの設定等のストレージ管理処理を実現する。

異常対処決定プログラム格納領域１４０の異常対処決定プログラム（以下、異常対処決定プログラム１４０と称する）は、ＣＰＵ１０１の実行によって、ディスク装置ｄｄの故障予兆の検知に応じて、当該ディスク装置ｄｄに対する対処の決定処理を実現する。

状態情報テーブル格納領域１５０の状態情報テーブル（以下、状態情報テーブル１５０と称する）は、異常対処決定プログラム１４０がアクセスするテーブルであって、複数のディスク装置ｄｄの状態情報を有する。状態情報テーブル１５０の詳細は、図６にしたがって後述する。

状態・用途マッピング情報格納領域１６０の状態・用途マッピング情報（以下、状態・用途マッピング情報１６０と称する）は、異常対処決定プログラム１４０が参照する情報であって、ディスク装置ｄｄの状態と用途の対応情報を有する。状態・用途マッピング情報１６０の詳細は、図８にしたがって後述する。

［状態管理装置１００のソフトウェアブロック］
図５は、図４に示した状態管理装置１００のソフトウェアブロックの構成図である。図５に示すように、ストレージ管理プログラム１３０は、異常対処決定プログラム１４０、データ処理モジュール１３１、構成管理モジュール１３２を有する。異常対処決定プログラム１４０は、状態監視モジュール１４１、用途選択モジュール１４２を有する。

状態監視モジュール１４１は、定期的に（例えば、１０分間隔）、各ディスク装置ｄｄの状態情報を取得し、状態情報テーブル１５０に記憶する。また、状態監視モジュール１４１は、例えば、各ディスク装置ｄｄの寿命やエラー回数等を保持し、故障予兆を検知する。そして、状態監視モジュール１４１は、故障予兆の検知に応じて、各ディスク装置ｄｄの状態情報を取得して状態情報テーブル１５０に記憶するとともに、用途選択モジュール１４２に故障予兆の発生を通知する。

用途選択モジュール１４２は、状態監視モジュール１４１から故障予兆の検知を示す通知を受信すると、状態情報テーブル１５０を参照する。そして、用途選択モジュール１４２は、故障予兆が検知されたディスク装置ｄｄの状態情報が、その他のディスク装置ｄｄの状態情報から算出される状態情報の分布範囲から外れているか否かを項目ごとに判定する。そして、用途選択モジュール１４２は、判定結果に基づいて、状態・用途マッピング情報１６０を参照し、故障予兆が検知されたディスク装置ｄｄに対する対処を決定し、構成管理モジュール１３２に対処の実行を依頼する。

データ処理モジュール１３１は、データのアクセスを指示するコマンドに応答して、ディスクインタフェース部１０４に、ディスク装置ｄｄに対するアクセス処理を指示する。アクセス処理は、例えば、ディスク装置ｄｄに対するデータの書き込み、及び、ディスク装置ｄｄからのデータの読み出しを示す。

また、構成管理モジュール１３２は、各ディスク装置ｄｄの構成に関する情報を管理する。ディスク装置ｄｄの構成に関する情報は、例えば、ＲＡＩＤの管理単位を示すグループ設定や、グループの冗長度の設定等の情報を示す。また、構成管理モジュール１３２は、用途選択モジュール１４２からの対処の依頼に応じて、対処（グループの冗長度の変更、バックアップ用への用途変更、切り離し、ニアラインへの変更等）を実行する。

［状態情報テーブル１５０］
図６は、図４、図５で説明した状態情報テーブル１５０の一例を示す図である。図６に示す状態情報テーブル１５０は、例えば、状態情報の項目として、項目「ディスクＩＤ（IDentify）」、項目「アクセス負荷（IO/sec）」、項目「不良セクタ数」、項目「温度（℃）」、項目「稼働時間（sec）」の情報を有する。ただし、項目は、図６に示す例に限定されるものではない。状態情報テーブル１５０は、他の状態情報の項目を有していてもよい。また、項目は、１つでも複数でもよい。

項目「ディスクＩＤ」は、ディスク装置ｄｄを識別する情報である。項目「アクセス負荷（IO/sec）」は、１秒当たりの、ディスク装置ｄｄに対するアクセス処理の量を示す。項目「不良セクタ数」は、ディスク装置ｄｄが有するセクタのうち、不良なセクタの数を示す。項目「温度（℃）」は、ディスク装置ｄｄの温度を示す。項目「稼働時間（sec）」は、ディスク装置ｄｄの稼働時間の累計時間を示す。

図６の例によると、ディスクＩＤが値「００１」のアクセス負荷は「６４２２（IO/sec）」であって、不良セクタ数は「３」、温度は「３２（℃）」、稼働時間は「３１５３６３２４（sec）」である。また、ディスクＩＤが値「００２」のアクセス負荷は「３５２４０（IO/sec）」であって、不良セクタ数は「２」、温度は「３３（℃）」、稼働時間は「３１５７７３２４（sec）」である。状態情報テーブル１５０は、他のディスクＩＤのディスク装置ｄｄについても同様にして、各項目の状態情報を有する。

図７は、図５で説明した状態監視モジュール１４１が取得する状態情報の一例を説明する図である。図５で前述したとおり、状態監視モジュール１４１は、例えば、１０分間隔ごとに、各ディスク装置ｄｄの状態情報を取得し、状態情報テーブル１５０に記憶する。図７は、時刻「2015-03-30 10:00:00」、及び、時刻「2015-03-30 10:10:00」の状態情報の一例を示す。このように、状態情報テーブル１５０は、時間間隔ごとの、図１に示す各ディスク装置ｄｄの状態情報を保持する。

［状態・用途マッピング情報１６０］
図８は、図４、図５で説明した状態・用途マッピング情報１６０の一例を示す図である。図８に示す状態・用途マッピング情報１６０は、例えば、外れ項目１〜Ｎの情報と用途との対応情報を有する。

図８に示す外れ項目は、故障予兆が検知されたディスク装置ｄｄの状態情報が、他のディスク装置ｄｄの状態情報から算出される状態情報の分布範囲から外れている項目を示す。また、図８に示す用途は、故障予兆が検知されたディスク装置ｄｄに対する対処方法を示す。

状態・用途マッピング情報１６０の１行目の情報によると、外れ項目「アクセス負荷」に対応する対処は、対処「アクセス負荷を下げる（ストライピング：２つのディスク装置）」である。

アクセス負荷が高い場合、例えば、故障予兆が検知されたディスク装置ｄｄにアクセスが集中している場合を示し、ディスク装置ｄｄの故障の要因になる場合がある。したがって、ディスク装置ｄｄに対するアクセスを、故障予兆が検知されたディスク装置ｄｄと他の１つのディスク装置ｄｄとに分散するストライピング（ＲＡＩＤ０）の設定を行うことによって、アクセス負荷を抑制可能になる。

状態・用途マッピング情報１６０の２行目の情報によると、外れ項目「不良セクタ数」に対応する対処は、対処「冗長度を上げる（ミラーリング）」である。不良セクタ数が多い場合、例えば、ディスク装置ｄｄに故障が生じる可能性が高い場合を示す。したがって、故障予兆が検知されたディスク装置ｄｄと他の１つの装置に対してミラーリング（ＲＡＩＤＤ１）の設定を行うことによって、データの冗長度を増加させることで、ディスク装置ｄｄの故障に備えることが可能になる。

同様にして、３行目の情報によると、外れ項目「温度」に対応する対処は、外れ項目「アクセス負荷」に対応する対処と同様にして、対処「アクセス負荷を下げる（ストライピング：２つのディスク装置）」である。また、４行目の情報によると、外れ項目「稼働時間」の対処は、対処「バックアップ」である。対処「バックアップ」は、故障予兆が検知されたディスク装置ｄｄの用途を、バックアップ用に変更することを示す。

状態・用途マッピング情報１６０の１１行目の情報によると、外れ項目「アクセス負荷」及び外れ項目「温度」に対応する対処は、対処「アクセス負荷を下げる（ストライピング：３つのディスク装置）」である。アクセス負荷に加えて温度が高い場合、アクセス負荷のみが高い場合（１行目）に対して、データを分散するディスク装置ｄｄをさらに増加させることにより、アクセス負荷をさらに抑制することが可能になる。これにより、温度の上昇を抑制することが可能になる。

また、状態・用途マッピング情報１６０の２０行目の情報によると、外れ項目がない場合の対処は、対処「継続利用」である。外れ項目がない場合、故障予兆が検知されたディスク装置ｄｄの状態情報に、異常な状態が生じていないことを示す。対処「継続利用」は、故障予兆が検知されたディスク装置ｄｄの用途や冗長度の設定等の変更を行うことなく、継続して使用することを示す。

さらに、状態・用途マッピング情報１６０の２１行目の情報によると、全て外れ項目である場合の対処は、対処「切り離し」である。全ての項目の状態情報が、他のディスク装置ｄｄの状態情報から算出される状態情報の分布範囲から外れている場合、ディスク装置ｄｄに既に故障が生じており、データが失われる可能性が高い場合を示す。したがって、故障予兆が検知されたディスク装置ｄｄを切り離すことによって、記憶されたデータを保護するとともに、他のディスク装置ｄｄへの故障の影響を抑制することが可能になる。

次に、図９にしたがって、図４、５で説明した異常対処決定プログラム１４０の処理の詳細を説明する。また、図１０〜図１３にしたがって、図９のフローチャートに示す処理の例を説明する。

［異常対処決定プログラム１４０の処理の流れ］
図９は、図４、図５で説明した、異常対処決定プログラム１４０の処理の流れを説明するフローチャート図である。

Ｓ３１：状態監視モジュール１４１は、故障予兆の検知に応じて、故障予兆が検知されたディスクＩＤを含む複数のディスク装置ｄｄの、各項目の状態情報を取得し、状態情報テーブル１５０（図６）に記憶する。例えば、ディスクＩＤ「０００２」のディスク装置ｄｄ２の故障予兆を検知した場合、状態監視モジュール１４１は、ディスクＩＤ「０００１」〜「０００Ｎ」のディスク装置ｄｄ１〜ｄｄｎの状態情報を取得し、状態情報テーブル１５０に記憶する。また、状態監視モジュール１４１は、故障予兆の検知を、用途選択モジュール１４２に通知する。

Ｓ３２：用途選択モジュール１４２は、通知に応答して、状態情報テーブル１５０（図６）を参照し、取得したディスク装置ｄｄ１〜ｄｄｎの状態情報に基づいて、項目ごとに検定統計量（外れ値ともいう）を算出する。外れ値は、故障予兆が検知されたディスク装置ｄｄ２の状態情報が、それ以外のディスク装置ｄｄ１、ｄｄ３〜ｄｄｎの状態情報から算出される状態情報の分布範囲から外れている度合いを示す。外れ値の算出処理の詳細は、図１０〜図１３にしたがって後述する。

Ｓ３３：用途選択モジュール１４２は、状態情報テーブル１５０（図６）に示した各項目のうち、検定統計量（外れ値）が最も大きい項目を特定する。

Ｓ３４：用途選択モジュール１４２は、工程Ｓ３３で特定した、最も大きい検定統計量（外れ値）が値「α」以上であるか否かを判定する。本実施の形態におけるα値は、値「４．０」である。ただし、α値はこの例に限定されるものではない。α値は、例えば、検証等にしたがって設定される。

Ｓ３５：検定統計量が値「α」以上である場合（Ｓ３４のＹｅｓ）、用途選択モジュール１４２は、特定した検定統計量が最も大きい項目と、その他の各項目と検定統計量を比較する。そして、用途選択モジュール１４２は、検定統計量が最も大きい項目と、検定統計量との差分が値「β」以内である項目を特定する。

本実施の形態例におけるβ値は、値「１．０」である。ただし、β値はこの例に限定されるものではない。β値は、α値と同様にして、例えば、検証等にしたがって設定される。

Ｓ３６：用途選択モジュール１４２は、工程Ｓ３５で特定した、差分が値「β」以内の項目が存在するか否かを判定する。

Ｓ３７：差分が値「β」以内の項目がない場合（Ｓ３６のＮｏ）、用途選択モジュール１４２は、外れ項目として、単体の項目を特定する。即ち、用途選択モジュール１４２は、外れ項目として、検定統計量が最も大きい項目を特定する。

Ｓ３８：差分が値「β」以内の項目がある場合（Ｓ３６のＹｅｓ）、用途選択モジュール１４２は、差分が値「β」以内の項目が一部の項目であるか否かを特定する。

Ｓ３９：差分が値「β」以内の項目が一部の項目である場合（Ｓ３８のＹｅｓ）、用途選択モジュール１４２は、外れ項目として複数の項目を特定する。即ち、用途選択モジュール１４２は、外れ項目として、検定統計量が最も大きい項目と、差分が値「β」以内の項目が一部の項目とを特定する。

このように、異常対処決定プログラム１４０は、第１の装置（故障予兆が検知されたディスク装置）の状態情報が、第１の装置以外の装置の状態情報から算出される状態情報の分布範囲から外れている度合いを示す、外れ値を所定の項目ごとに算出する。そして、異常対処決定プログラム１４０は、外れ値が、複数の項目のうち最大である第１の項目、及び、第１の項目との外れ値の差分が基準値（β値）以内の第２の項目を、外れていると判定する。

これにより、本実施の形態における異常対処決定プログラム１４０は、外れ値が複数の項目のうち最大の項目を選択することによって、異常な状態が最も顕著に表れている項目を特定できる。また、異常対処決定プログラム１４０は、外れ値が最も大きい項目との、外れ値の差分に基づいて、異常な状態が最も顕著に表れている項目と関連する他の項目を検出できる。

状態情報の正常な値範囲は、項目に応じて異なる。したがって、外れ値を判定するための閾値についても、項目ごとに異なる。したがって、外れ値が外れていることを示すか否かを判定するための閾値を、項目ごとに設定することは、工数を要し、容易ではない。

これに対し、本実施の形態における異常対処決定プログラム１４０は、項目間の外れ値の比較に基づいて、効率的に、状態情報に異常が表れている複数の項目を特定できる。これにより、異常対処決定プログラム１４０は、項目ごとに外れ値の閾値を設けることなく、簡易に、１つまたは複数の外れ項目を適切に判定できる。

Ｓ４０：差分が値「β」以内の項目が全ての項目である場合（Ｓ３８のＮｏ）、用途選択モジュール１４２は、外れ項目として、全ての項目を特定する。

Ｓ４１：一方、検定統計量が値「α」未満である場合（Ｓ３４のＮｏ）、即ち、いずれの項目の検定統計量も値「α」に満たない場合、用途選択モジュール１４２は、過去の所定期間の状態情報を判定する。具体的に、用途選択モジュール１４２は、故障予兆が検知されたときから所定期間遡った期間内の、過去の状態情報に基づいて外れ項目を特定する。

ディスク装置ｄｄの状態によっては、異常な状態が不定期に生じる場合がある。したがって、必ずしも、故障予兆が検知された際に、状態情報に異常な状態が表れているとは限らない。これに対し、本実施の形態における用途選択モジュール１４２は、異常情報（故障予兆）が検知されたときから所定期間遡った期間の、複数のディスク装置ｄｄそれぞれの状態情報を取得する。そして、用途選択モジュール１４２は、第１の装置（故障予兆が検知されたディスク装置ｄｄ）の状態情報が、第１の装置以外の装置の状態情報から算出される状態情報の分布範囲から外れているか否かを所定の項目ごとにさらに判定する。

これにより、異常対処決定プログラム１４０は、状態情報の異常が不定期に生じる場合であっても、過去の所定期間内の状態情報に基づくことにより、異常な状態が生じている項目を適切に判定できる。したがって、異常対処決定プログラム１４０は、ディスク装置ｄｄの状態に応じた適切な対処を決定できる。

または、図示していないが、検定統計量が値「α」未満である場合（Ｓ３４のＮｏ）、用途選択モジュール１４２は、外れ項目がない旨、判定してもよい。

Ｓ４２：用途選択モジュール１４２は、状態・用途マッピング情報１６０（図８）を参照し、判定結果に応じて対処を決定する。

このように、異常対処決定プログラム１４０は、故障予兆が検知されたディスク装置ｄｄの状態情報が、他のディスク装置ｄｄとの状態情報から算出される状態情報の分布範囲から外れているか否かを判定する。そして、異常対処決定プログラム１４０は、判定結果に基づいて、故障予兆が検知されたディスク装置ｄｄに対する適切な対処を決定できる。

具体的に、用途選択モジュール１４２は、故障予兆が検知されたディスク装置ｄｄの状態情報が、他のディスク装置ｄｄとの状態情報から算出される状態情報の分布範囲から外れている項目がある場合に、当該項目に対応する対処を決定する。これにより、用途選択モジュール１４２は、異常な状態が表れている、１つまたは複数の状態情報の項目に応じて、適切な対処を決定できる。

また、用途選択モジュール１４２は、当該外れている項目がない場合に、故障予兆が検知されたディスク装置ｄｄの継続使用を示す対処を決定する。これにより、用途選択モジュール１４２は、異常な状態が表れている状態情報の項目がない場合に、故障予兆が検知されたディスク装置ｄｄの変更を行わない、継続使用を示す対処を決定できる。

Ｓ４３：用途選択モジュール１４２は、決定した、冗長度の変更や用途の変更等の対処の実行を、構成管理モジュール１３２に依頼する。構成管理モジュール１３２は、依頼に応じて、ディスクインタフェース部１０４を介して、冗長度の変更や用途の変更等の対処を実現する。

また、本実施の形態において、システムに含まれる複数のディスク装置ｄｄは、正常時の状態情報から算出される状態情報の分布範囲が同一の装置である。したがって、故障予兆が検知されたディスク装置ｄｄの状態情報と、他のディスク装置ｄｄの状態情報とを比較することにより、故障予兆が検知されたディスク装置ｄｄに異常な状態が生じているか否かを、適切に判定可能になる。また、用途選択モジュール１４２は、状態情報を判定する基準値を項目ごとに設ける必要がない。

（第１の例）
図１０は、図９のフローチャート図の処理の第１の例を説明する図である。図１０は、故障予兆がディスクＩＤ「０００２」のディスク装置ｄｄ２で生じた場合を例示する。前述したとおり、用途選択モジュール１４２は、ディスクＩＤ「０００２」の状態情報が、ディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」の状態情報から算出される状態情報の分布範囲から外れている度合いを示す外れ値を項目ごとに算出する。

具体的に、用途選択モジュール１４２は、例えば、項目ごとに、式「（故障予兆が検知されたディスクＩＤの状態情報の値−状態情報の平均値）／状態情報の標準偏差」にしたがって外れ値（検定統計量）を算出する。状態情報の平均値は、ディスクＩＤ「０００１」〜「０００Ｎ」の状態情報の平均の値を示す。また、状態情報の標準偏差は、分散の平方根である。分散は、各ディスクＩＤの状態情報の値と平均値との差の二乗を、順次加算した値を、ディスクＩＤの数にしたがって除算した値を示す。

このように、用途選択モジュール１４２は、対象項目の状態情報の値の偏差を、標準偏差で除算した算出値を、外れ値として算出する。したがって、用途選択モジュール１４２は、対象の項目について、ディスクＩＤ「０００２」の状態情報の値が、他のディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」の状態情報の値の分布範囲から外れている度合いを算出できる。

これにより、異常対処決定プログラム１４０は、外れ値に基づいて、故障予兆が検知されたディスク装置ｄｄ２の各項目の状態情報に異常が生じているか否かを、簡易に判定できる。なお、外れ値の算出方法は、この例に限定されるものではない。用途選択モジュール１４２は、例えば、式「（故障予兆が検知されたディスクＩＤの状態情報の値−状態情報の平均値）」に基づいた外れ値を算出してもよい。

図１０は、項目「アクセス負荷」のみが、他のディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」の状態情報に基づいて算出された状態情報の分布範囲から、外れている場合を例示する。図１０の例によると、項目「アクセス負荷」の外れ値は、値「４．５２」である。つまり、ディスクＩＤ「０００２」のアクセス負荷の値「１２４４３」の、他のディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」のアクセス負荷の分布範囲から外れている度合いは、値「４．５２」である。

また、項目「不良セクタ数」の外れ値は値「０．４４」である。即ち、ディスクＩＤ「０００２」の不良セクタ数「２」の、他のディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」の不良セクタ数の分布範囲から外れている度合いは、値「０．４４」である。同様にして、項目「温度」の外れ値は値「０．７５」、項目「稼働時間」の外れ値は「０．７２」である。

したがって、用途選択モジュール１４２は、外れ値（検定統計量）が最も大きい項目として、項目「アクセス負荷」を特定する（図９のＳ３３）。また、項目「アクセス負荷」の外れ値「４．５２」は値「４．０（α値）」以上である（Ｓ３４のＹｅｓ）。したがって、用途選択モジュール１４２は、項目「アクセス負荷」との外れ値の差分が、値「１．０（β値）」以内である項目があるか否かを判定する（Ｓ３６）。

図１０の例において、項目「アクセス負荷」との外れ値の差分が、値「１．０」以内である項目は存在しない（Ｓ３６のＮｏ）。したがって、用途選択モジュール１４２は、外れ項目として、項目「アクセス負荷」のみを特定する（Ｓ３７）。そして、用途選択モジュール１４２は、状態・用途マッピング情報１６０（図８）を参照し、外れ項目「アクセス負荷」に対応する対処「アクセス負荷を下げる（ストライピング：２つのディスク装置）」を決定する（Ｓ４２）。

そして、用途選択モジュール１４２は、ディスク装置ｄｄ２に対するデータの書き込みを、ディスク装置ｄｄ２と他の１つのディスク装置ｄｄとに分散する制御を、構成管理モジュール１３２に依頼する（Ｓ４３）。これにより、ディスク装置ｄｄ２に対するアクセスが分散されることから、アクセス負荷を抑制することが可能になる。

このように、本実施の形態における異常対処決定プログラム１４０は、他のディスク装置ｄｄから、状態情報の分布範囲が外れている項目に対応して対処を適切に決定できる。したがって、異常対処決定プログラム１４０は、故障予兆が検出されたディスク装置ｄｄの状態に対応した適切な対処を決定できる。

（第２の例）
図１１は、図９のフローチャート図の処理の第２の例を説明する図である。図１１は、図１０の例と同様にして、故障予兆がディスクＩＤ「０００２」のディスク装置ｄｄ２で生じた場合を例示する。

図１１に示す状態情報は、図１０の例に示す状態情報に対して、項目「温度」の値が異なる。したがって、図１１の例によると、項目「アクセス負荷」、項目「不良セクタ数」、項目「稼働時間」の外れ値は、図１０の例と同様である。一方、項目「温度」の外れ値は、図１０の例と異なる値「４．１８」である。

図１１は、項目「アクセス負荷」と項目「温度」とが、他のディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」の状態情報から算出される状態情報の分布範囲から外れている場合を例示する。図１０の例と同様にして、用途選択モジュール１４２は、外れ値が最も大きい項目として、項目「アクセス負荷」を特定する（図９のＳ３３）。

また、図１１の例において、項目「温度」の外れ値と項目「アクセス負荷」との外れ値の差分は、値「１．０（β値）」以内である（Ｓ３６のＹｅｓ）。したがって、用途選択モジュール１４２は、外れ項目として、項目「アクセス負荷」、項目「温度」を特定する（Ｓ３９）。

このように、本実施の形態における異常対処決定プログラム１４０は、外れ値が最も大きい項目との外れ値の差分に基づくことにより、項目ごとに閾値を設けることなく、状態情報に異常が表れている複数の項目を特定できる。

また、図１１の例に示すように、β値をα値に対して小さな値に設定することにより、外れ値がα値に満たない項目を、外れ項目として特定可能になる。例えば、項目「温度」の外れ値が値「３．５」である場合、α値には満たないものの、項目「アクセス負荷」の外れ値との差分は、値「１．０（β値）」以内である。この場合、異常対処決定プログラム１４０は、項目「温度」を外れ項目として判定できる。

これにより、外れ値が最も大きい項目以外の他の、１つまたは複数の項目が、外れ度合いは顕著ではないものの異常な値を示す場合、当該他の項目を、外れ項目として判定可能になる。したがって、異常対処決定プログラム１４０は、故障予兆が検知されたディスク装置ｄｄ２の状態情報の項目のうち、異常な状態を示す複数の項目を適切に判定できる。

そして、用途選択モジュール１４２は、状態・用途マッピング情報１６０を参照し、項目「アクセス負荷」と項目「温度」の組合せに基づいて、ディスクＩＤ「０００２」に対する対処を決定する（Ｓ４２）。具体的に、用途選択モジュール１４２は、項目「アクセス負荷」と項目「温度」の組合せに対応する対処「アクセス負荷を下げる（ストライピング：３つのディスク装置）」を決定する。

図１１の例によると、ディスクＩＤ「０００２」は、項目「アクセス負荷」に加えて、項目「温度」の状態情報が、他のディスクＩＤ「０００１」、「０００３」〜「０００Ｎ」の分布範囲から外れている。図８で前述したとおり、さらに項目「温度」を外れ項目として特定した場合、図１０の例に対して、データを分散するディスク装置ｄｄが多い。

用途選択モジュール１４２は、ディスクＩＤ「０００２」のディスク装置ｄｄ２に対するデータの書き込みを、ディスク装置ｄｄ２と他の２つのディスク装置ｄｄとに分散する制御を、構成管理モジュール１３２に依頼する（Ｓ４３）。これにより、ディスク装置ｄｄ２に対するアクセスがさらに分散されることから、アクセス負荷をさらに抑制し温度の上昇を抑制することが可能になる。

このように、本実施の形態における異常対処決定プログラム１４０は、他のディスク装置ｄｄから、状態情報の分布範囲が外れている複数の項目に基づいて、適切に対処を決定できる。したがって、異常対処決定プログラム１４０は、故障予兆が検出されたディスク装置ｄｄの状態に対応したより適切な対処を決定できる。

（第３の例）
図１２は、図９のフローチャート図の処理の第３の例を説明する図である。図１２は、図１０の例と同様にして、故障予兆がディスクＩＤ「０００２」のディスク装置ｄｄ２で生じた場合を例示する。

図１２に示す状態情報は、図１０の例に示す状態情報に対して、項目「不良セクタ数」、項目「温度」、項目「稼働時間」の値が異なる。したがって、図１２の例によると、項目「アクセス負荷」の外れ値は、図１０の例と同様である。一方、項目「不良セクタ数」、項目「温度」、項目「稼働時間」の外れ値は、図１０の例と異なる。

図１２の例によると、項目「不良セクタ数」の外れ値は値「４．１３」、項目「温度」の外れ値は値「４．１８」、項目「稼働時間」の外れ値は値「３．５３」である。図１０の例と同様にして、用途選択モジュール１４２は、外れ値が最も大きい項目として、項目「アクセス負荷」を特定する（図９のＳ３３）。

また、図１２の例において、項目「不良セクタ数」、項目「温度」、項目「稼働時間」の外れ値と、項目「アクセス負荷」との外れ値の差分は、値「１．０」以内である（Ｓ３６のＹｅｓ）。したがって、用途選択モジュール１４２は、外れ項目として全ての項目を特定する（Ｓ４０）。

そして、用途選択モジュール１４２は、状態・用途マッピング情報１６０を参照し、外れ項目に基づいて、ディスクＩＤ「０００２」の対処「切り離し」を決定する（Ｓ４２）。全ての項目が外れ項目である場合、ディスクＩＤ「０００２」のディスク装置ｄｄに実際に故障が発生している可能性が高い。したがって、用途選択モジュール１４２は、ディスクＩＤ「０００２」の切り離し制御を、構成管理モジュール１３２に依頼する（Ｓ４３）。

これにより、ディスクＩＤ「０００２」のディスク装置ｄｄ２に記憶されたデータが失われることを回避するとともに、他のディスク装置ｄｄ１、ｄｄ３〜ｄｄｎに対する影響を抑えることが可能になる。このように、異常対処決定プログラム１４０は、故障予兆が検出されたディスク装置ｄｄの状態に対応した適切な対処を決定できる。

（第４の例）
図１３は、図９のフローチャート図の処理の第４の例を説明する図である。図１３は、図１０の例と同様にして、故障予兆がディスクＩＤ「０００２」のディスク装置ｄｄ２で生じた場合を例示する。

図１３に示す状態情報は、図１０の例に示す状態情報に対して項目「アクセス負荷」の値が異なり、項目「アクセス負荷」の外れ値が、図１０の例と異なる。図１３の例における、項目「アクセス負荷」の外れ値は値「１．８３」、項目「不良セクタ数」の外れ値は値「０．４４」、項目「温度」の外れ値は値「０．７５」、項目「稼働時間」の外れ値は値「０．７２」である。

図１０の例と同様にして、用途選択モジュール１４２は、外れ値が最も大きい項目として、項目「アクセス負荷」を特定する（図９のＳ３３）。ただし、項目「アクセス負荷」の外れ値「１．８３」は値「４．０」未満である（Ｓ３４のＮｏ）。

図９のフローチャート図で説明したとおり、用途選択モジュール１４２は、例えば、外れ項目がない旨、判定する。この場合、用途選択モジュール１４２は、状態・用途マッピング情報１６０を参照し、ディスクＩＤ「０００２」の対処として、対処「継続利用」を決定する（Ｓ４２）。そして、用途選択モジュール１４２は、例えば、ディスクＩＤ「０００２」の継続使用を、構成管理モジュール１３２に通知する（Ｓ４３）。

このように、本実施の形態における異常対処決定プログラム１４０は、故障予兆が検知された場合であっても、故障予兆が検知されたディスク装置ｄｄ２に実際に異常な状態が生じていない場合に、ディスク装置ｄｄ２を継続使用する旨の対処を決定できる。これにより、異常対処決定プログラム１４０は、故障予兆が検知された場合であっても、故障予兆が検出されたディスク装置ｄｄ２の実際の状態に対応した適切な対処を決定できる。これにより、ディスク装置ｄｄ２の交換頻度が減少し、コストの増加を抑えることが可能になる。

または、図９のフローチャート図で説明したとおり、用途選択モジュール１４２は、所定期間遡った期間の状態情報に基づいて、外れ項目を特定する（Ｓ４１）。工程Ｓ４１の処理は、図１４のフローチャート図にしたがって後述する。

［異常対処決定プログラム１４０の処理の流れ］
図１４は、図９のフローチャート図の工程Ｓ４１の処理の詳細を説明するフローチャート図である。図１４に示す工程Ｓ５５〜工程Ｓ６２の処理は、図９のフローチャート図における工程Ｓ３３〜工程Ｓ４０と同様である。

Ｓ５１：用途選択モジュール１４２は、値「Ｔ算出時刻」に、値「Ｔ故障予兆時刻」をセットする。即ち、用途選択モジュール１４２は、値「Ｔ算出時刻」に、故障予兆が検知された時刻をセットする。

Ｓ５２：用途選択モジュール１４２は、値「Ｔ算出時刻」に、値「Ｔ算出時刻」から値「ｔ取得時間」を減算した値をセットする。即ち、用途選択モジュール１４２は、値「Ｔ算出時刻」を、値「ｔ取得時間」分、デクリメントする。

Ｓ５３：用途選択モジュール１４２は、値「Ｔ故障予兆時刻」から値「Ｔ算出時刻」を減算した値が、値「ｔ有効算出時間」を超えたか否かを判定する。即ち、用途選択モジュール１４２は、値「Ｔ故障予兆時刻」と値「Ｔ算出時刻」との差が、「ｔ有効算出時間」に収まるか否かを判定する。

ここで、図１５にしたがって、値「ｔ有効算出時間」、及び、値「ｔ取得時間」を説明する。

（ｔ有効算出時間、ｔ取得時間）
図１５は、値「ｔ有効算出時間」及び、値「ｔ取得時間」を説明する図である。「ｔ取得時間」は、状態情報を取得する時間間隔を示す。本実施の形態における「ｔ取得時間」は、前述したとおり、１０分である。また、値「Ｔ算出時刻」は、値「Ｔ故障予兆時刻」を、値「ｔ取得時間」分、順次、デクリメントした値である。

また、「ｔ有効算出時間」は、故障予兆が検知された時刻「Ｔ故障予兆時刻」から遡って、状態情報の判定を行う対象の期間を示す。即ち、「ｔ有効算出時間」は、時刻「Ｔ故障予兆時刻」から遡って状態情報の判定を行うことが有効な期間を示す。図１４のフローチャート図に戻る。

Ｓ５４：値「ｔ有効算出時間」を超えていない場合（Ｓ５３のＮｏ）、用途選択モジュール１４２は、値「Ｔ算出時刻」の、全てのディスク装置ｄｄ１〜ｄｄｎの状態情報を取得し、状態情報テーブル１５０に記憶する。そして、用途選択モジュール１４２は、状態情報テーブル１５０を参照して、値「Ｔ算出時刻」のディスク装置ｄｄ１〜ｄｄｎの状態情報を取得し、項目ごとに検定統計量（外れ値）を算出する。

つまり、用途選択モジュール１４２は、値「Ｔ故障予兆時刻」との差が、「ｔ有効算出時間」に収まる時刻「Ｔ算出時刻」の状態情報に基づいて、項目ごとに検定統計量（外れ値）を算出する。一方、用途選択モジュール１４２は、値「Ｔ算出時刻」が、値「Ｔ故障予兆時刻」から「ｔ有効算出時間」を超えて遡った場合の値「Ｔ算出時刻」の状態情報を、判定の対象外とする。

Ｓ５５：工程Ｓ５４に続いて、用途選択モジュール１４２は、複数の項目のうち、工程Ｓ５４で算出した検定統計量が最も大きい項目を特定する。

Ｓ５６：用途選択モジュール１４２は、工程Ｓ５５で特定した、最も大きい検定統計量が値「α」以上であるか否かを判定する。検定統計量が値「α」未満である場合（Ｓ５６のＮｏ）、用途選択モジュール１４２は、工程Ｓ５２の処理に遷移する。

Ｓ５７：検定統計量が値「α」以上である場合（Ｓ５６のＹｅｓ）、用途選択モジュール１４２は、検定統計量が最も大きい項目と、その他の各項目と検定統計量を比較する。用途選択モジュール１４２は、検定統計量が最も大きい項目と、検定統計量との差分が値「β」以内である項目を特定する。

Ｓ５８：用途選択モジュール１４２は、差分が値「β」以内の項目があるか否かを判定する。

Ｓ５９：差分が値「β」以内の項目がない場合（Ｓ５８のＮｏ）、用途選択モジュール１４２は、外れ項目として、単体の項目を判定する。

Ｓ６０：差分が値「β」以内の項目がある場合（Ｓ５８のＹｅｓ）、用途選択モジュール１４２は、差分が値「β」以内の項目が一部の項目であるか否かを判定する。

Ｓ６１：差分が値「β」以内の項目が一部の項目である場合（Ｓ６０のＹｅｓ）、用途選択モジュール１４２は、外れ項目として、複数の項目を判定する。

Ｓ６２：一方、差分が値「β」以内の項目が全ての項目である場合（Ｓ６０のＮｏ）、用途選択モジュール１４２は、外れ項目として、全ての項目を判定する。

Ｓ６３：値「ｔ有効算出時間」を超えた場合（Ｓ５３のＹｅｓ）、用途選択モジュール１４２は、外れ項目なしとする。即ち、用途選択モジュール１４２は、外れ項目が存在しない旨、判定する。

このように、用途選択モジュール１４２は、故障予兆が検知された時刻「Ｔ故障予兆時刻」から遡って状態情報の判定を行うことが有効な期間の状態情報に基づくことによって、ディスク装置ｄｄの状態に応じたより適切な対処を決定できる。したがって、用途選択モジュール１４２は、状態情報の異常が不定期に生じる場合であっても、ディスク装置ｄｄの状態に応じた適切な対処を決定できる。

［別の実施の形態］
なお、上述した実施の形態は、単体のディスク装置群１０５における故障予兆の検知に対する対処の例を例示した。ただし、本実施の形態は、複数のディスク装置群に含まれるディスク装置ｄｄに対しても有効である。別の形態例におけるシステムは、それぞれ複数のディスク装置ｄｄを含む、複数のディスク装置群を有する。

正常時の状態情報から算出される状態情報の分布範囲が同一であるディスク装置群は、例えば、アクセス頻度や、実行する業務が同様である複数のディスク装置群を示す。この場合、複数のディスク装置群のディスク装置ｄｄを、故障予兆が検知されたディスク装置ｄｄと状態情報を比較する対象のディスク装置ｄｄとして統合可能である。これにより、比較対象のディスク装置ｄｄの数が増加し、状態情報の判定精度が向上する。

［別の形態例におけるストレージシステム］
図１６は、別の実施の形態におけるストレージシステムの一例を示す図である。図１６に示すストレージシステムは、管理装置２００と、２つのストレージ装置３００ａ、３００ｂとを有する。ストレージ装置３００ａ、３００ｂそれぞれは、ネットワーク１０等を介して管理装置２００と接続する。ストレージ装置３００ａはディスク装置群１０５ａを有し、ストレージ装置３００ｂはディスク装置群１０５ｂを有する。

管理装置２００は、各ディスク装置群１０５ａ、１０５ｂのディスク装置（ｄｄ１ａ〜ｄｄｎｂ、ディスク装置ｄｄともいう）の故障予兆の検知に応じて、故障予兆が検知されたディスク装置ｄｄに対する対処を決定し、ストレージ装置３００ａ、３００ｂに通知する。

図１６に示すように、複数のディスク装置群１０５ａ、１０５ｂにおける、ディスク装置ｄｄの総数が多い。したがって、異常対処決定プログラム１４０は、多数のディスク装置ｄｄとの状態情報の比較に基づくことにより、より高精度に、異常な状態を示す状態情報の項目を判定できる。

［管理装置２００のハードウェア構成］
図１７は、図１６に示す管理装置２００のハードウェア構成図の一例を示す図である。管理装置２００は、例えば、ＣＰＵ２０１、メインメモリ２１０や補助記憶装置２１１等を備えるメモリ２０２、通信インタフェース部２０３、外部インタフェース部２０４を有する。各部は、バス２０６を介して相互に接続する。

ＣＰＵ２０１は、バス２０６を介してメモリ２０２等と接続するとともに、管理装置２００全体の制御を行う。通信インタフェース部２０３は、インターネット等を介して、他の機器（図示せず）と接続し、データの送受信を行う。

ＲＡＭ等を示すメインメモリ２１０は、ＣＰＵ２０１が処理を行うデータ等を記憶する。補助記憶装置２１１は、ＨＤＤ、不揮発性半導体メモリ等を示す。補助記憶装置２１１は、ＣＰＵ２０１が実行するオペレーションシステムのプログラムを格納する領域（図示せず）等を有する。また、補助記憶装置２１１は、異常対処決定プログラム格納領域２４０、状態情報テーブル格納領域２５０、状態・用途マッピング情報格納領域２６０を有する。

異常対処決定プログラム格納領域２４０の異常対処決定プログラム（以下、異常対処決定プログラム２４０と称する）は、ＣＰＵ２０１の実行によって、ディスク装置ｄｄの故障予兆の検知に応じて、当該ディスク装置ｄｄに対する対処の決定処理を実現する。

状態情報テーブル格納領域２５０の状態情報テーブル（以下、状態情報テーブル２５０と称する）は、異常対処決定プログラム２４０がアクセスするテーブルであって、各ディスク装置群１５０ａ、１５０ｂのディスク装置ｄｄの状態情報を有する。状態情報テーブル２５０の詳細は、図１８にしたがって後述する。状態・用途マッピング情報格納領域２６０の状態・用途マッピング情報（以下、状態・用途マッピング情報２６０と称する）は、図８と同様である。

［ストレージシステムのソフトウェアブロック］
図１８は、図１６に示すストレージシステムのソフトウェアブロック図の一例を示す図である。ストレージ装置３００ａのストレージ管理プログラム３１０ａは、データ処理モジュール３１１ａ、状態監視モジュール３１２ａ、構成管理モジュール３１３ａを有する。また、ストレージ装置３００ｂのストレージ管理プログラム３１０ｂも同様のモジュールを有する。

データ処理モジュール３１１ａは、他の装置から送信された、データのアクセスを指示するコマンドに応答して、ディスクインタフェース部３０４ａに、ディスク装置ｄｄに対するアクセス処理を指示する。

状態監視モジュール３１２ａは、定期的に、ディスク装置群１０５ａの各ディスク装置ｄｄの状態情報を取得し、管理装置２００に送信する。また、状態監視モジュール３１２ａは、自ディスク装置ｄｄの故障予兆の検知に応じて、各ディスク装置ｄｄの状態情報を管理装置２００に送信するとともに、管理装置２００及びストレージ装置３００ｂに故障予兆の発生を通知する。また、状態監視モジュール３１２ａは、他方のストレージ装置３００ｂの故障予兆の検知の通知に応答して、各ディスク装置ｄｄの状態情報を管理装置２００に送信する。

また、構成管理モジュール３１３ａは、ディスク装置群１０５ａの各ディスク装置ｄｄの構成に関する情報を管理する。また、構成管理モジュール３１３ａは、管理装置２００から、故障予兆が検知されたディスク装置ｄｄに対する対処を受信し、ＲＡＩＤの冗長度の変更やディスク装置ｄｄの用途変更等の対処を実行する。

また、管理装置２００の異常対処決定プログラム２４０は、用途選択モジュール２４１を有する。用途選択モジュール２４１は、ストレージ装置３００ａ、３００ｂから故障予兆の検知を示す通知、及び、複数のディスク装置群１０５ａ、１０５ｂの各ディスク装置ｄｄの状態情報を受信すると、状態情報テーブル２５０に記憶する。

そして、用途選択モジュール２４１は、故障予兆が検知されたディスク装置ｄｄの状態情報が、複数のディスク装置群１０５ａ、１０５ｂのディスク装置ｄｄの状態情報から算出される状態情報の分布範囲から外れているか否かを項目ごとに判定する。また、用途選択モジュール２４１は、判定結果に基づいて、状態・用途マッピング情報２６０を参照し、故障予兆が検知されたディスク装置ｄｄに対する対処を決定する。

そして、用途選択モジュール２４１は、決定した対処を、故障予兆が検知されたディスクｄｄを有するストレージ装置３００ａ、３００ｂに通知する。

［状態情報テーブル２５０］
図１９は、別の実施の形態における状態情報テーブル２５０の一例を示す図である。図１９に示す状態情報テーブル２５０は、状態情報テーブル１５０（図６）の情報に加えて、ディスク装置群１０５ａ、１０５ｂを識別する装置ＩＤを有する。図１９に示すように、状態情報テーブル２５０は、複数のディスク装置群１０５ａ、１０５ｂの状態情報を有する。

図１７、図１８に示す、異常対処決定プログラム２４０の処理は、図９、図１４のフローチャート図に示したとおりである。即ち、異常対処決定プログラム２４０は、故障予兆が検知されたディスク装置の状態情報が、ディスク装置群１０５ａ、１０５ｂの、当該装置以外の装置の状態情報から算出される状態情報の分布範囲から、外れているか否かを判定する。これにより、比較対象のディスク装置ｄｄの数が増加し、状態情報の判定精度が向上する。

以上の実施の形態をまとめると、次の付記のとおりである。

（付記１）
システムに含まれる複数の装置の、第１の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、
前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、
判定結果に基づいて、前記第１の装置に対する対処を決定する、
ことを実行させることを特徴とする異常対処決定プログラム。

（付記２）
付記１において、
前記決定は、外れている前記所定の項目がある場合に、前記外れている所定の項目に対応する対処を決定する、
異常対処決定プログラム。

（付記３）
付記１または２において、
前記決定は、外れている前記所定の項目がない場合に、前記第１の装置の継続使用を示す対処を決定する、
異常対処決定プログラム。

（付記４）
付記１乃至３のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
異常対処決定プログラム。

（付記５）
付記１乃至４のいずれかにおいて、
前記判定は、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記所定の項目ごとに算出し、前記外れ値が、複数の前記項目のうち最大である第１の項目、及び、前記第１の項目との前記外れ値の差分が基準値以内の第２の項目を、外れていると判定する、
異常対処決定プログラム。

（付記６）
付記１乃至５のいずれかにおいて、
前記判定は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記所定の項目ごとにさらに判定する、
異常対処決定プログラム。

（付記７）
付記１乃至６のいずれかにおいて、
前記装置は、記憶装置である、
異常対処決定プログラム。

（付記８）
付記１乃至７のいずれかにおいて、
前記所定の項目は、前記装置に対するアクセス負荷、前記装置の温度、前記装置の異常部の数、前記装置の稼働時間のいずれか、またはその組合せである、
異常対処決定プログラム。

（付記９）
付記１乃至８のいずれかにおいて、
前記システムは、それぞれ前記複数の装置を含む、複数のディスク装置群を有する、
異常対処決定プログラム。

（付記１０）
システムに含まれる複数の装置の、第１の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、
前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、
判定結果に基づいて、前記第１の装置に対する対処を決定する、
異常対処決定方法。

（付記１１）
付記１０において、
前記決定は、外れている前記所定の項目がある場合に、前記外れている所定の項目に対応する対処を決定する、
異常対処決定方法。

（付記１２）
付記１０または１１において、
前記決定は、外れている前記所定の項目がない場合に、前記第１の装置の継続使用を示す対処を決定する、
異常対処決定方法。

（付記１３）
付記１０乃至１２のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
異常対処決定方法。

（付記１４）
付記１０乃至１３のいずれかにおいて、
前記判定は、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記所定の項目ごとに算出し、前記外れ値が、複数の前記項目のうち最大である第１の項目、及び、前記第１の項目との前記外れ値の差分が基準値以内の第２の項目を、外れていると判定する、
異常対処決定方法。

（付記１５）
付記１０乃至１４のいずれかにおいて、
前記判定は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記所定の項目ごとにさらに判定する、
異常対処決定方法。

（付記１６）
付記１０乃至１５のいずれかにおいて、
前記所定の項目は、前記装置に対するアクセス負荷、前記装置の温度、前記装置の異常部の数、前記装置の稼働時間のいずれか、またはその組合せである、
異常対処決定方法。

（付記１７）
システムに含まれる複数の装置の、第１の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、判定結果に基づいて、前記第１の装置に対する対処を決定する処理部と、
前記複数の装置の前記状態情報を記憶する記憶部と、
を有する状態管理装置。

（付記１８）
付記１７において、
前記処理部は、外れている前記所定の項目がある場合に、前記外れている所定の項目に対応する対処を決定する、
状態管理装置。

（付記１９）
付記１７または１８において、
前記処理部は、外れている前記所定の項目がない場合に、前記第１の装置の継続使用を示す対処を決定する、
状態管理装置。

（付記２０）
付記１７乃至１９のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
状態管理装置。

（付記２１）
付記１７乃至２０のいずれかにおいて、
前記処理部は、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記所定の項目ごとに算出し、前記外れ値が、複数の前記項目のうち最大である第１の項目、及び、前記第１の項目との前記外れ値の差分が基準値以内の第２の項目を、外れていると判定する、
状態管理装置。

（付記２２）
付記１７乃至２１のいずれかにおいて、
前記処理部は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記所定の項目ごとにさらに判定する、
状態管理装置。

（付記２３）
付記１７乃至２２のいずれかにおいて、
前記装置は、記憶装置である、
状態管理装置。

（付記２４）
付記１７乃至２３のいずれかにおいて、
前記所定の項目は、前記装置に対するアクセス負荷、前記装置の温度、前記装置の異常部の数、前記装置の稼働時間のいずれか、またはその組合せである、
状態管理装置。

（付記２５）
付記１７乃至２４のいずれかにおいて、
前記システムは、それぞれ前記複数の装置を含む、複数のディスク装置群を有する、
状態管理装置。

１００：状態管理装置、１０１：ＣＰＵ、１０２：メモリ、１１０：メインメモリ１１０、１１１：補助記憶装置、１０３：通信インタフェース部、１０４：ディスクインタフェース部１０４、１０５：ディスク装置群、ｄｄ：ディスク装置、１３０：ストレージ管理プログラム、１４０：異常対処決定プログラム、１５０：状態情報テーブル、１６０：状態・用途マッピング情報

Claims

システムに含まれる複数の装置のうちの第１の装置の稼働時間が定められた寿命時間に達した場合、または、前記第１の装置のエラー回数が所定の値を超えた場合、前記複数の装置それぞれの状態を示す複数の項目の数値である状態情報を取得し、
前記第１の装置の前記状態情報における前記複数の項目それぞれについて、数値が前記第１の装置以外の前記複数の装置の前記状態情報の数値に基づいて算出される状態情報の分布範囲から外れているか否かを判定し、
判定結果に基づいて、前記第１の装置について、前記複数の項目のうちのどの項目の数値が外れているかに応じて異なる動作制御変更を適用する、
ことを実行させることを特徴とする異常対処決定プログラム。
請求項１において、
前記適用において、外れている項目がない場合に、前記第１の装置の動作制御変更を行わない、
異常対処決定プログラム。
請求項１及び２のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
異常対処決定プログラム。
請求項１及び３のいずれかにおいて、
前記判定は、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記複数の項目それぞれについて算出し、前記外れ値が、前記複数の項目のうち最大であり、かつ所定の値以上である第１の項目、及び、前記第１の項目との前記外れ値の差分が基準値以内の第２の項目を、外れていると判定する、
異常対処決定プログラム。
請求項１、３、及び４のいずれかにおいて、
前記判定は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第１の装置の前記状態情報が、前記第１の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記複数の項目それぞれについてさらに判定する、
異常対処決定プログラム。
コンピュータが、
システムに含まれる複数の装置のうちの第１の装置の稼働時間が定められた寿命時間に達した場合、または、前記第１の装置のエラー回数が所定の値を超えた場合、前記複数の装置それぞれの状態を示す複数の項目の数値である状態情報を取得し、
前記第１の装置の前記状態情報における前記複数の項目それぞれについて、数値が前記第１の装置以外の前記複数の装置の前記状態情報の数値に基づいて算出される状態情報の分布範囲から外れているか否かを判定し、
判定結果に基づいて、前記第１の装置について、前記複数の項目のうちのどの項目の数値が外れているかに応じて異なる動作制御変更を適用する、
処理を実行する異常対処決定方法。
システムに含まれる複数の装置のうちの第１の装置の稼働時間が定められた寿命時間に達した場合、または、前記第１の装置のエラー回数が所定の値を超えた場合、前記複数の装置それぞれの状態を示す複数の項目の数値である状態情報を取得し、前記第１の装置の前記状態情報における前記複数の項目それぞれについて、数値が前記第１の装置以外の前記複数の装置の前記状態情報の数値に基づいて算出される状態情報の分布範囲から外れているか否かを判定し、判定結果に基づいて、前記第１の装置について、前記複数の項目のうちのどの項目の数値が外れているかに応じて異なる動作制御変更を適用する処理部と、
前記複数の装置の前記状態情報を記憶する記憶部と、
を有する状態管理装置。