JP6721820B2 - 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置 - Google Patents

異常対処決定プログラム、異常対処決定方法、及び、状態管理装置 Download PDF

Info

Publication number
JP6721820B2
JP6721820B2 JP2015160179A JP2015160179A JP6721820B2 JP 6721820 B2 JP6721820 B2 JP 6721820B2 JP 2015160179 A JP2015160179 A JP 2015160179A JP 2015160179 A JP2015160179 A JP 2015160179A JP 6721820 B2 JP6721820 B2 JP 6721820B2
Authority
JP
Japan
Prior art keywords
item
state information
disk
value
disk device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015160179A
Other languages
English (en)
Other versions
JP2017037600A (ja
Inventor
小林 賢司
賢司 小林
松原 正純
正純 松原
喜則 坂本
喜則 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015160179A priority Critical patent/JP6721820B2/ja
Priority to US15/205,502 priority patent/US10083072B2/en
Publication of JP2017037600A publication Critical patent/JP2017037600A/ja
Application granted granted Critical
Publication of JP6721820B2 publication Critical patent/JP6721820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Security & Cryptography (AREA)

Description

本発明は、異常対処決定プログラム、異常対処決定方法、及び、状態管理装置に関する。
ストレージシステムは、複数のディスク装置を搭載し、大容量のストレージとして動作する。情報処理装置は、ネットワーク等を介して、複数のディスク装置にアクセスする。
ストレージシステムの状態管理装置は、例えば、ディスク装置の故障の予兆を検知すると、信頼性(データの失われ難さ)を向上するために、ストレージ装置に対する特定の対処を行う。例えば、状態管理装置は、ディスク装置の故障の予兆を検知すると、他のディスク装置とのミラーリングを開始し、予兆が生じたディスク装置を切り離す。これにより、状態管理装置は、実際にディスク装置に故障が発生した場合に、記憶したデータが失われることを回避する。
複数のディスク装置を備えるシステムに関する技術は、例えば、特許文献1、2に記載される。
特開2008−52752号公報 特開2006−164304号公報
しかしながら、故障予兆はディスク装置の状態に即していない場合がある。したがって、故障の予兆の検知に応じて特定の対処を行う場合、対処が、ディスク装置の故障の要因とは異なる要因に対する対処である場合や、故障の状態が生じていないにも関わらず対処を行う場合がある。
実際の装置の状態に即していない対処を行うことにより、ディスク装置を交換する頻度が高くなり、コストが増加する。
1つの側面では、本発明は、装置に対する適切な対処を決定する異常対処決定プログラム、異常対処決定方法、及び、状態管理装置を提供することを目的とする。
第1の態様によれば、システムに含まれる複数の装置の、第1の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される前記状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、判定結果に基づいて、前記第1の装置に対する対処を決定する、ことを実行させる。
1つの側面では、装置に対する適切な対処を決定する。
本実施の形態におけるストレージシステムの一例を示す図である。 比較例における、ディスク装置の故障予兆の検知に応じた、当該ディスク装置に対する対処の流れを説明するフローチャート図である。 本実施の形態における状態管理装置の処理の流れを説明するフローチャート図である。 本実施の形態における状態管理装置(情報処理装置)100のハードウェア構成図である。 図4に示した状態管理装置100のソフトウェアブロックの構成図である。 図4、図5で説明した状態情報テーブル150の一例を示す図である。 図5で説明した状態監視モジュール141が取得する状態情報の一例を説明する図である。 図4、図5で説明した状態・用途マッピング情報160の一例を示す図である。 図4、図5で説明した、異常対処決定プログラム140の処理の流れを説明するフローチャート図である。 図9のフローチャート図の処理の第1の例を説明する図である。 図9のフローチャート図の処理の第2の例を説明する図である。 図9のフローチャート図の処理の第3の例を説明する図である。 図9のフローチャート図の処理の第4の例を説明する図である。 図9のフローチャート図の工程S41の処理の詳細を説明するフローチャート図である。 値「t有効算出時間」及び、値「t取得時間」を説明する図である。 別の実施の形態におけるストレージシステムの一例を示す図である。 図16に示す管理装置200のハードウェア構成図の一例を示す図である。 図16に示すストレージシステムのソフトウェアブロック図の一例を示す図である。 別の実施の形態における状態情報テーブル250の一例を示す図である。
以下、図面にしたがって本発明の実施の形態について説明する。ただし、本発明の技術的範囲はこれらの実施の形態に限定されず、特許請求の範囲に記載された事項とその均等物まで及ぶものである。
[ストレージシステム]
図1は、本実施の形態におけるストレージシステムの一例を示す図である。図1に示すように、ストレージシステムは、ディスク装置群105を搭載する。ディスク装置群105は、ディスク装置dd1〜ddn(ディスク装置ddともいう)を有する。また、各ディスク装置ddは、ディスクインタフェース部104等を介して、CPU(図1に図示せず)や他の情報処理装置(図1に図示せず)等と接続する。
例えば、図1に示すディスク装置群105は、例えば、ディスクアレイである。ディスクアレイは、複数のディスク装置dd1〜ddnを一台の大容量のディスク装置として使用する技術を示す。ディスクアレイのデータの管理方式に、例えば、RAID(Redundant Arrays of Inexpensive Disks:RAID)がある。RAIDは、複数台のディスク装置ddを組み合わせることにより、仮想的な一台のディスク装置として運用し、冗長性を向上させる技術を示す。
各ディスクアレイには、それぞれ異なる冗長度を設定可能である。冗長度には、例えば、RAID0、RAID1、RAID3、RAID5等がある。RAID0は、データを分割して複数のディスク装置ddに分散させて書き込む方式を示し、ストライピングと呼ばれる。RAID0によると、データに冗長度はないものの、分散して記憶したデータに対して、並行してアクセスすることが可能になる。
RAID1は、同一データを複数のディスク装置ddに書き込む方式を示し、ミラーリングと呼ばれる。RAID1は、同一のデータを複数のディスク装置ddに保持させるため、データの冗長性がある。したがって、一方のディスク装置ddに障害が発生した場合であっても、他方のディスク装置ddに記憶されたデータを用いることが可能になる。
RAID3、RAID5は、RAID1に対して、さらに冗長度が高い。RAID3は、データを分割し複数のディスク装置ddに書き込むとともに、分割したデータに基づいて生成されるパリティを、別のディスク装置ddに記憶させる方式を示す。また、RAID5は、データ及びパリティを、複数のディスク装置ddに分散させて記憶させる方式を示す。
[比較例]
図2は、比較例における、ディスク装置の故障予兆の検知に応じた、当該ディスク装置に対する対処の流れを説明するフローチャート図である。
S11:比較例における状態管理装置は、図1に示すようなディスク装置群のうち、あるディスク装置の異常情報(以下、故障の予兆ともいう)を検知する。状態管理装置は、例えば、予め定められた所定値と、各ディスク装置の値とに基づいて、故障の予兆を検知する。
具体的に、状態管理装置は、例えば、ディスク装置の累積稼働時間が、当該ディスク装置の仕様に応じて予め設定された寿命時間(所定値)に達した場合に、故障の予兆を検知する。または、状態管理装置は、例えば、ディスク装置のエラー回数が予め定めた所定値に達した場合に、故障の予兆を検知する。
S12:状態管理装置は、故障予兆が検知されたディスク装置に対して、予め定められた固定的な対処を実行する。例えば、状態管理装置は、対処として、同一データを、故障予兆が検知されたディスク装置と別のディスク装置とに分散して書き込むミラーリングを開始した後、故障予兆が検知されたディスク装置を切り離す。別の形態では、状態管理装置は、対処として、故障予兆が検知されたディスク装置の用途を、バックアップ用に変更する。
このように、状態管理装置は、故障予兆を検知した場合に、予め定めた対処を行う。これにより、故障予兆が検知されたディスク装置に実際に故障が発生した際に、記憶されたデータが失われることを抑制し、データの信頼性(失われ難さ)を維持する。
しかしながら、故障予兆は、ディスク装置の状態に必ずしも即していない。例えば、累積稼働時間に基づいて故障予兆を検出した場合であっても、ディスク装置は正常に動作している場合がある。または、故障の予兆を検出した時点で、ディスク装置の状態が、想定よりも悪化している場合がある。
また、エラー回数に基づいて故障予兆を検知した場合であっても、エラーが軽微なエラーである場合、ディスク装置は正常に動作している場合がある。または、エラーが深刻なエラーである場合、故障の予兆が検出された時点で、ディスク装置の状態が想定よりも悪化している場合がある。
したがって、故障予兆の検出に応じて行う固定的な対処は、ディスク装置の状態に即していない場合があり、適切な対処ではない場合がある。適切ではない対処を行うことにより、ディスク装置の状態が正常に動作しているにも関わらず、ディスク装置が早期に交換の対象となる場合がある。または、ディスク装置の状態が悪化するケースや、ディスク装置の状態を改善できる可能性があるにも関わらず、改善できないケースがある。
このように、データの信頼性を向上するために、故障予兆の検知に応じて特定の対処を行うことによって、ディスク装置の交換頻度が高くなりコストが増加する場合がある。ディスク装置に対する適切な対処は、実際のディスク装置に状態に応じて異なる。したがって、故障予兆が検知された場合、ディスク装置の実際の状態に応じた対処が行われることが望ましい。
[本実施の形態の概要]
したがって、本実施の形態における状態管理装置は、システムに含まれる複数の装置(ディスク装置dd)の、第1の装置の異常情報の検知に応じて、複数の装置それぞれの状態に関する所定の項目の状態情報を取得する。そして、状態管理装置は、第1の装置の状態情報が、第1の装置以外の装置の状態情報から算出される状態情報の分布範囲から外れているか否かを、所定の項目ごとに判定し、判定結果に基づいて、第1の装置に対する対処を決定する。
システムは、例えば、図1に示すような、ストレージシステムを示す。状態情報は、ディスク装置ddの状態に関する情報である。本実施の形態における所定の項目(項目ともいう)は、例えば、ディスク装置ddに対するアクセス負荷、ディスク装置ddの温度、ディスク装置ddの異常部(不良セクタ)の数、ディスク装置ddの稼働時間のいずれか、またはその組合せである。
なお、本実施の形態は、装置がディスク装置ddである場合を例示するが、この例に限定されるものではない。装置は、情報処理装置、無線装置、工場等が備える機械装置等であってもよい。装置が、ディスク装置ddとは異なる装置である場合、項目は、当該装置の状態に関する別の情報(CPU使用率や、遅延情報等)であってもよい。
図3は、本実施の形態の状態管理装置の処理の流れを説明するフローチャート図である。
S21:状態管理装置は、あるディスク装置dd(第1の装置)の異常情報(故障予兆)の検知に応じて、第1の装置を含む、複数のディスク装置ddの項目ごとの状態情報を取得する。状態管理装置は、例えば、ディスク装置群105(図1)のディスク装置dd2の故障予兆の検知に応じて、ディスク装置dd1〜ddnの状態情報を取得する。
比較例と同様にして、状態管理装置は、例えば、寿命やエラー回数等に基づいて、故障予兆を検知する。状態管理装置は、例えば、ディスク装置ddの稼働時間が、当該ディスク装置ddの仕様に基づいて定められた寿命に達した場合に、故障予兆を検知する。または、状態管理装置は、例えば、ディスク装置ddのエラー回数が、予め定めた所定値を超えた場合に故障予兆を検知する。
S22:状態管理装置は、取得した、複数のディスク装置ddの状態情報に基づいて、項目ごとに、第1のディスク装置ddの状態情報が、第1のディスク装置以外のディスク装置ddの状態情報から算出される状態情報の分布範囲から外れているかを判定する。つまり、状態管理装置は、ディスク装置dd2の状態情報が、ディスク装置dd1、dd3〜ddnの状態情報の分布範囲から外れているか否かを、項目ごとに判定する。
S23:状態管理装置は、判定結果に基づいて、第1のディスク装置dd(ディスク装置dd2)に対する対処を決定する。例えば、状態管理装置は、ディスク装置dd2の状態情報の値が、ディスク装置dd1、dd3〜ddnの状態情報から算出される状態情報の分布範囲から外れている項目に基づいて、ディスク装置dd2に対する対処を決定する。または、外れている項目がない場合に、状態管理装置は、ディスク装置dd2に対する継続使用を示す対処を決定する。
このように、本実施の形態における状態管理装置は、故障の予兆に応じて、特定の固定的な対処を行うのではなく、他のディスク装置ddとの状態情報の比較に基づいて、適切な対処を決定できる。これにより、状態管理装置は、故障予兆が実際のディスク装置ddの状態に即していない場合であっても、ディスク装置ddの状態に即した対処を決定できる。
したがって、状態管理装置は、実際に、ディスク装置ddに異常な状態が生じている場合に、当該状態に応じた適切な対処を決定できる。これにより、状態管理装置は、ディスク装置ddの状態の改善や、ディスク装置ddの寿命悪化の抑制を実現できる。また、状態管理装置は、ディスク装置ddに異常な状態が生じていない場合に、ディスク装置ddに対する変更を行わず、継続利用を示す適切な対処を決定できる。
このように、ディスク装置ddの用途を限定することを抑制できるため、状態管理装置は、データの信頼性を向上しながら、ディスク装置ddの交換頻度を抑えることができる。したがって、状態管理装置は、データの信頼性を向上しながら、コストを抑制することができる。
また、ディスク装置ddの各項目の状態情報の正常の分布範囲(基準値)は、例えば、ディスク装置ddに対するアクセス頻度や、使用する業務や、環境等に応じて異なる。したがって、ディスク装置ddの各項目について、状態情報の基準値を算出することは容易ではない。
これに対し、本実施の形態における状態管理装置は、故障予兆が検知されたディスク装置ddの状態情報が、他のディスク装置ddの状態情報から算出される状態情報の分布範囲から外れた値であるか否かを判定する。そして、状態管理装置は、判定結果に基づいて、故障予兆が検知されたディスク装置ddに、異常な状態が生じているか否かを判定する。これにより、本実施の形態における状態管理装置は、ディスク装置ごとに、各項目の状態情報の基準値を設定することなく、簡易に、異常な状態を示す状態情報の項目を判定できる。
次に、図4にしたがって、本実施の形態における状態管理装置のハードウェア構成を、図5にしたがって、図4に示す状態管理装置のソフトウェアブロック図を説明する。
[状態管理装置100のハードウェア構成]
図4は、本実施の形態における状態管理装置(情報処理装置)100のハードウェア構成図である。状態管理装置100は、例えば、CPU(Central Processing Unit:CPU)101、メインメモリ110や補助記憶装置111等を備えるメモリ102、通信インタフェース部103、ディスクインタフェース部104、ディスク装置群105を有する。各部は、バス106を介して相互に接続する。
CPU101は、バス106を介してメモリ102等と接続するとともに、状態管理装置100全体の制御を行う。通信インタフェース部103は、インターネット等を介して、他の機器(図示せず)と接続し、データの送受信を行う。
ディスク装置群105は、図1で示したように、複数のディスク装置ddを有する。ディスクインタフェース部104は、ディスク装置群105と接続し、ディスク装置群105の各ディスク装置ddの制御処理を行う。
図1で説明したとおり、ディスク装置群105は、RAIDに基づく記憶領域を提供する。ディスクインタフェース部104は、例えば、CPU101等から受け付けたコマンドに応答して、ディスク装置ddへのデータの書き込みや、ディスク装置ddに記憶されたデータの読み出しを行う。また、ディスクインタフェース部104は、CPU101等から受け付けたコマンドに応答して、ディスク装置ddに対する、ミラーリングやストライピング等のRAIDの設定、及び、切り離しやオフラインやオンライン等の制御を行う。
RAM(Random Access Memory:RAM)等を示すメインメモリ110は、CPU101が処理を行うデータ等を記憶する。補助記憶装置111は、HDD(Hard disk drive:HDD)、不揮発性半導体メモリ等を示す。
補助記憶装置111は、CPU101が実行するオペレーションシステムのプログラムを格納する領域(図示せず)や、ディスク装置ddを使用するプログラムを格納する領域(図示せず)等を有する。また、補助記憶装置111は、ストレージ管理プログラム格納領域130、状態情報テーブル格納領域150、状態・用途マッピング情報格納領域160を有する。また、ストレージ管理プログラム格納領域130は、異常対処決定プログラム格納領域140を有する。
ストレージ管理プログラム格納領域130のストレージ管理プログラム(以下、ストレージ管理プログラム130と称する)は、CPU101の実行によって、ディスク装置群105に対するアクセスの制御や、RAIDの設定等のストレージ管理処理を実現する。
異常対処決定プログラム格納領域140の異常対処決定プログラム(以下、異常対処決定プログラム140と称する)は、CPU101の実行によって、ディスク装置ddの故障予兆の検知に応じて、当該ディスク装置ddに対する対処の決定処理を実現する。
状態情報テーブル格納領域150の状態情報テーブル(以下、状態情報テーブル150と称する)は、異常対処決定プログラム140がアクセスするテーブルであって、複数のディスク装置ddの状態情報を有する。状態情報テーブル150の詳細は、図6にしたがって後述する。
状態・用途マッピング情報格納領域160の状態・用途マッピング情報(以下、状態・用途マッピング情報160と称する)は、異常対処決定プログラム140が参照する情報であって、ディスク装置ddの状態と用途の対応情報を有する。状態・用途マッピング情報160の詳細は、図8にしたがって後述する。
[状態管理装置100のソフトウェアブロック]
図5は、図4に示した状態管理装置100のソフトウェアブロックの構成図である。図5に示すように、ストレージ管理プログラム130は、異常対処決定プログラム140、データ処理モジュール131、構成管理モジュール132を有する。異常対処決定プログラム140は、状態監視モジュール141、用途選択モジュール142を有する。
状態監視モジュール141は、定期的に(例えば、10分間隔)、各ディスク装置ddの状態情報を取得し、状態情報テーブル150に記憶する。また、状態監視モジュール141は、例えば、各ディスク装置ddの寿命やエラー回数等を保持し、故障予兆を検知する。そして、状態監視モジュール141は、故障予兆の検知に応じて、各ディスク装置ddの状態情報を取得して状態情報テーブル150に記憶するとともに、用途選択モジュール142に故障予兆の発生を通知する。
用途選択モジュール142は、状態監視モジュール141から故障予兆の検知を示す通知を受信すると、状態情報テーブル150を参照する。そして、用途選択モジュール142は、故障予兆が検知されたディスク装置ddの状態情報が、その他のディスク装置ddの状態情報から算出される状態情報の分布範囲から外れているか否かを項目ごとに判定する。そして、用途選択モジュール142は、判定結果に基づいて、状態・用途マッピング情報160を参照し、故障予兆が検知されたディスク装置ddに対する対処を決定し、構成管理モジュール132に対処の実行を依頼する。
データ処理モジュール131は、データのアクセスを指示するコマンドに応答して、ディスクインタフェース部104に、ディスク装置ddに対するアクセス処理を指示する。アクセス処理は、例えば、ディスク装置ddに対するデータの書き込み、及び、ディスク装置ddからのデータの読み出しを示す。
また、構成管理モジュール132は、各ディスク装置ddの構成に関する情報を管理する。ディスク装置ddの構成に関する情報は、例えば、RAIDの管理単位を示すグループ設定や、グループの冗長度の設定等の情報を示す。また、構成管理モジュール132は、用途選択モジュール142からの対処の依頼に応じて、対処(グループの冗長度の変更、バックアップ用への用途変更、切り離し、ニアラインへの変更等)を実行する。
[状態情報テーブル150]
図6は、図4、図5で説明した状態情報テーブル150の一例を示す図である。図6に示す状態情報テーブル150は、例えば、状態情報の項目として、項目「ディスクID(IDentify)」、項目「アクセス負荷(IO/sec)」、項目「不良セクタ数」、項目「温度(℃)」、項目「稼働時間(sec)」の情報を有する。ただし、項目は、図6に示す例に限定されるものではない。状態情報テーブル150は、他の状態情報の項目を有していてもよい。また、項目は、1つでも複数でもよい。
項目「ディスクID」は、ディスク装置ddを識別する情報である。項目「アクセス負荷(IO/sec)」は、1秒当たりの、ディスク装置ddに対するアクセス処理の量を示す。項目「不良セクタ数」は、ディスク装置ddが有するセクタのうち、不良なセクタの数を示す。項目「温度(℃)」は、ディスク装置ddの温度を示す。項目「稼働時間(sec)」は、ディスク装置ddの稼働時間の累計時間を示す。
図6の例によると、ディスクIDが値「001」のアクセス負荷は「6422(IO/sec)」であって、不良セクタ数は「3」、温度は「32(℃)」、稼働時間は「31536324(sec)」である。また、ディスクIDが値「002」のアクセス負荷は「35240(IO/sec)」であって、不良セクタ数は「2」、温度は「33(℃)」、稼働時間は「31577324(sec)」である。状態情報テーブル150は、他のディスクIDのディスク装置ddについても同様にして、各項目の状態情報を有する。
図7は、図5で説明した状態監視モジュール141が取得する状態情報の一例を説明する図である。図5で前述したとおり、状態監視モジュール141は、例えば、10分間隔ごとに、各ディスク装置ddの状態情報を取得し、状態情報テーブル150に記憶する。図7は、時刻「2015-03-30 10:00:00」、及び、時刻「2015-03-30 10:10:00」の状態情報の一例を示す。このように、状態情報テーブル150は、時間間隔ごとの、図1に示す各ディスク装置ddの状態情報を保持する。
[状態・用途マッピング情報160]
図8は、図4、図5で説明した状態・用途マッピング情報160の一例を示す図である。図8に示す状態・用途マッピング情報160は、例えば、外れ項目1〜Nの情報と用途との対応情報を有する。
図8に示す外れ項目は、故障予兆が検知されたディスク装置ddの状態情報が、他のディスク装置ddの状態情報から算出される状態情報の分布範囲から外れている項目を示す。また、図8に示す用途は、故障予兆が検知されたディスク装置ddに対する対処方法を示す。
状態・用途マッピング情報160の1行目の情報によると、外れ項目「アクセス負荷」に対応する対処は、対処「アクセス負荷を下げる(ストライピング:2つのディスク装置)」である。
アクセス負荷が高い場合、例えば、故障予兆が検知されたディスク装置ddにアクセスが集中している場合を示し、ディスク装置ddの故障の要因になる場合がある。したがって、ディスク装置ddに対するアクセスを、故障予兆が検知されたディスク装置ddと他の1つのディスク装置ddとに分散するストライピング(RAID0)の設定を行うことによって、アクセス負荷を抑制可能になる。
状態・用途マッピング情報160の2行目の情報によると、外れ項目「不良セクタ数」に対応する対処は、対処「冗長度を上げる(ミラーリング)」である。不良セクタ数が多い場合、例えば、ディスク装置ddに故障が生じる可能性が高い場合を示す。したがって、故障予兆が検知されたディスク装置ddと他の1つの装置に対してミラーリング(RAIDD1)の設定を行うことによって、データの冗長度を増加させることで、ディスク装置ddの故障に備えることが可能になる。
同様にして、3行目の情報によると、外れ項目「温度」に対応する対処は、外れ項目「アクセス負荷」に対応する対処と同様にして、対処「アクセス負荷を下げる(ストライピング:2つのディスク装置)」である。また、4行目の情報によると、外れ項目「稼働時間」の対処は、対処「バックアップ」である。対処「バックアップ」は、故障予兆が検知されたディスク装置ddの用途を、バックアップ用に変更することを示す。
状態・用途マッピング情報160の11行目の情報によると、外れ項目「アクセス負荷」及び外れ項目「温度」に対応する対処は、対処「アクセス負荷を下げる(ストライピング:3つのディスク装置)」である。アクセス負荷に加えて温度が高い場合、アクセス負荷のみが高い場合(1行目)に対して、データを分散するディスク装置ddをさらに増加させることにより、アクセス負荷をさらに抑制することが可能になる。これにより、温度の上昇を抑制することが可能になる。
また、状態・用途マッピング情報160の20行目の情報によると、外れ項目がない場合の対処は、対処「継続利用」である。外れ項目がない場合、故障予兆が検知されたディスク装置ddの状態情報に、異常な状態が生じていないことを示す。対処「継続利用」は、故障予兆が検知されたディスク装置ddの用途や冗長度の設定等の変更を行うことなく、継続して使用することを示す。
さらに、状態・用途マッピング情報160の21行目の情報によると、全て外れ項目である場合の対処は、対処「切り離し」である。全ての項目の状態情報が、他のディスク装置ddの状態情報から算出される状態情報の分布範囲から外れている場合、ディスク装置ddに既に故障が生じており、データが失われる可能性が高い場合を示す。したがって、故障予兆が検知されたディスク装置ddを切り離すことによって、記憶されたデータを保護するとともに、他のディスク装置ddへの故障の影響を抑制することが可能になる。
次に、図9にしたがって、図4、5で説明した異常対処決定プログラム140の処理の詳細を説明する。また、図10〜図13にしたがって、図9のフローチャートに示す処理の例を説明する。
[異常対処決定プログラム140の処理の流れ]
図9は、図4、図5で説明した、異常対処決定プログラム140の処理の流れを説明するフローチャート図である。
S31:状態監視モジュール141は、故障予兆の検知に応じて、故障予兆が検知されたディスクIDを含む複数のディスク装置ddの、各項目の状態情報を取得し、状態情報テーブル150(図6)に記憶する。例えば、ディスクID「0002」のディスク装置dd2の故障予兆を検知した場合、状態監視モジュール141は、ディスクID「0001」〜「000N」のディスク装置dd1〜ddnの状態情報を取得し、状態情報テーブル150に記憶する。また、状態監視モジュール141は、故障予兆の検知を、用途選択モジュール142に通知する。
S32:用途選択モジュール142は、通知に応答して、状態情報テーブル150(図6)を参照し、取得したディスク装置dd1〜ddnの状態情報に基づいて、項目ごとに検定統計量(外れ値ともいう)を算出する。外れ値は、故障予兆が検知されたディスク装置dd2の状態情報が、それ以外のディスク装置dd1、dd3〜ddnの状態情報から算出される状態情報の分布範囲から外れている度合いを示す。外れ値の算出処理の詳細は、図10〜図13にしたがって後述する。
S33:用途選択モジュール142は、状態情報テーブル150(図6)に示した各項目のうち、検定統計量(外れ値)が最も大きい項目を特定する。
S34:用途選択モジュール142は、工程S33で特定した、最も大きい検定統計量(外れ値)が値「α」以上であるか否かを判定する。本実施の形態におけるα値は、値「4.0」である。ただし、α値はこの例に限定されるものではない。α値は、例えば、検証等にしたがって設定される。
S35:検定統計量が値「α」以上である場合(S34のYes)、用途選択モジュール142は、特定した検定統計量が最も大きい項目と、その他の各項目と検定統計量を比較する。そして、用途選択モジュール142は、検定統計量が最も大きい項目と、検定統計量との差分が値「β」以内である項目を特定する。
本実施の形態例におけるβ値は、値「1.0」である。ただし、β値はこの例に限定されるものではない。β値は、α値と同様にして、例えば、検証等にしたがって設定される。
S36:用途選択モジュール142は、工程S35で特定した、差分が値「β」以内の項目が存在するか否かを判定する。
S37:差分が値「β」以内の項目がない場合(S36のNo)、用途選択モジュール142は、外れ項目として、単体の項目を特定する。即ち、用途選択モジュール142は、外れ項目として、検定統計量が最も大きい項目を特定する。
S38:差分が値「β」以内の項目がある場合(S36のYes)、用途選択モジュール142は、差分が値「β」以内の項目が一部の項目であるか否かを特定する。
S39:差分が値「β」以内の項目が一部の項目である場合(S38のYes)、用途選択モジュール142は、外れ項目として複数の項目を特定する。即ち、用途選択モジュール142は、外れ項目として、検定統計量が最も大きい項目と、差分が値「β」以内の項目が一部の項目とを特定する。
このように、異常対処決定プログラム140は、第1の装置(故障予兆が検知されたディスク装置)の状態情報が、第1の装置以外の装置の状態情報から算出される状態情報の分布範囲から外れている度合いを示す、外れ値を所定の項目ごとに算出する。そして、異常対処決定プログラム140は、外れ値が、複数の項目のうち最大である第1の項目、及び、第1の項目との外れ値の差分が基準値(β値)以内の第2の項目を、外れていると判定する。
これにより、本実施の形態における異常対処決定プログラム140は、外れ値が複数の項目のうち最大の項目を選択することによって、異常な状態が最も顕著に表れている項目を特定できる。また、異常対処決定プログラム140は、外れ値が最も大きい項目との、外れ値の差分に基づいて、異常な状態が最も顕著に表れている項目と関連する他の項目を検出できる。
状態情報の正常な値範囲は、項目に応じて異なる。したがって、外れ値を判定するための閾値についても、項目ごとに異なる。したがって、外れ値が外れていることを示すか否かを判定するための閾値を、項目ごとに設定することは、工数を要し、容易ではない。
これに対し、本実施の形態における異常対処決定プログラム140は、項目間の外れ値の比較に基づいて、効率的に、状態情報に異常が表れている複数の項目を特定できる。これにより、異常対処決定プログラム140は、項目ごとに外れ値の閾値を設けることなく、簡易に、1つまたは複数の外れ項目を適切に判定できる。
S40:差分が値「β」以内の項目が全ての項目である場合(S38のNo)、用途選択モジュール142は、外れ項目として、全ての項目を特定する。
S41:一方、検定統計量が値「α」未満である場合(S34のNo)、即ち、いずれの項目の検定統計量も値「α」に満たない場合、用途選択モジュール142は、過去の所定期間の状態情報を判定する。具体的に、用途選択モジュール142は、故障予兆が検知されたときから所定期間遡った期間内の、過去の状態情報に基づいて外れ項目を特定する。
ディスク装置ddの状態によっては、異常な状態が不定期に生じる場合がある。したがって、必ずしも、故障予兆が検知された際に、状態情報に異常な状態が表れているとは限らない。これに対し、本実施の形態における用途選択モジュール142は、異常情報(故障予兆)が検知されたときから所定期間遡った期間の、複数のディスク装置ddそれぞれの状態情報を取得する。そして、用途選択モジュール142は、第1の装置(故障予兆が検知されたディスク装置dd)の状態情報が、第1の装置以外の装置の状態情報から算出される状態情報の分布範囲から外れているか否かを所定の項目ごとにさらに判定する。
これにより、異常対処決定プログラム140は、状態情報の異常が不定期に生じる場合であっても、過去の所定期間内の状態情報に基づくことにより、異常な状態が生じている項目を適切に判定できる。したがって、異常対処決定プログラム140は、ディスク装置ddの状態に応じた適切な対処を決定できる。
または、図示していないが、検定統計量が値「α」未満である場合(S34のNo)、用途選択モジュール142は、外れ項目がない旨、判定してもよい。
S42:用途選択モジュール142は、状態・用途マッピング情報160(図8)を参照し、判定結果に応じて対処を決定する。
このように、異常対処決定プログラム140は、故障予兆が検知されたディスク装置ddの状態情報が、他のディスク装置ddとの状態情報から算出される状態情報の分布範囲から外れているか否かを判定する。そして、異常対処決定プログラム140は、判定結果に基づいて、故障予兆が検知されたディスク装置ddに対する適切な対処を決定できる。
具体的に、用途選択モジュール142は、故障予兆が検知されたディスク装置ddの状態情報が、他のディスク装置ddとの状態情報から算出される状態情報の分布範囲から外れている項目がある場合に、当該項目に対応する対処を決定する。これにより、用途選択モジュール142は、異常な状態が表れている、1つまたは複数の状態情報の項目に応じて、適切な対処を決定できる。
また、用途選択モジュール142は、当該外れている項目がない場合に、故障予兆が検知されたディスク装置ddの継続使用を示す対処を決定する。これにより、用途選択モジュール142は、異常な状態が表れている状態情報の項目がない場合に、故障予兆が検知されたディスク装置ddの変更を行わない、継続使用を示す対処を決定できる。
S43:用途選択モジュール142は、決定した、冗長度の変更や用途の変更等の対処の実行を、構成管理モジュール132に依頼する。構成管理モジュール132は、依頼に応じて、ディスクインタフェース部104を介して、冗長度の変更や用途の変更等の対処を実現する。
また、本実施の形態において、システムに含まれる複数のディスク装置ddは、正常時の状態情報から算出される状態情報の分布範囲が同一の装置である。したがって、故障予兆が検知されたディスク装置ddの状態情報と、他のディスク装置ddの状態情報とを比較することにより、故障予兆が検知されたディスク装置ddに異常な状態が生じているか否かを、適切に判定可能になる。また、用途選択モジュール142は、状態情報を判定する基準値を項目ごとに設ける必要がない。
(第1の例)
図10は、図9のフローチャート図の処理の第1の例を説明する図である。図10は、故障予兆がディスクID「0002」のディスク装置dd2で生じた場合を例示する。前述したとおり、用途選択モジュール142は、ディスクID「0002」の状態情報が、ディスクID「0001」、「0003」〜「000N」の状態情報から算出される状態情報の分布範囲から外れている度合いを示す外れ値を項目ごとに算出する。
具体的に、用途選択モジュール142は、例えば、項目ごとに、式「(故障予兆が検知されたディスクIDの状態情報の値−状態情報の平均値)/状態情報の標準偏差」にしたがって外れ値(検定統計量)を算出する。状態情報の平均値は、ディスクID「0001」〜「000N」の状態情報の平均の値を示す。また、状態情報の標準偏差は、分散の平方根である。分散は、各ディスクIDの状態情報の値と平均値との差の二乗を、順次加算した値を、ディスクIDの数にしたがって除算した値を示す。
このように、用途選択モジュール142は、対象項目の状態情報の値の偏差を、標準偏差で除算した算出値を、外れ値として算出する。したがって、用途選択モジュール142は、対象の項目について、ディスクID「0002」の状態情報の値が、他のディスクID「0001」、「0003」〜「000N」の状態情報の値の分布範囲から外れている度合いを算出できる。
これにより、異常対処決定プログラム140は、外れ値に基づいて、故障予兆が検知されたディスク装置dd2の各項目の状態情報に異常が生じているか否かを、簡易に判定できる。なお、外れ値の算出方法は、この例に限定されるものではない。用途選択モジュール142は、例えば、式「(故障予兆が検知されたディスクIDの状態情報の値−状態情報の平均値)」に基づいた外れ値を算出してもよい。
図10は、項目「アクセス負荷」のみが、他のディスクID「0001」、「0003」〜「000N」の状態情報に基づいて算出された状態情報の分布範囲から、外れている場合を例示する。図10の例によると、項目「アクセス負荷」の外れ値は、値「4.52」である。つまり、ディスクID「0002」のアクセス負荷の値「12443」の、他のディスクID「0001」、「0003」〜「000N」のアクセス負荷の分布範囲から外れている度合いは、値「4.52」である。
また、項目「不良セクタ数」の外れ値は値「0.44」である。即ち、ディスクID「0002」の不良セクタ数「2」の、他のディスクID「0001」、「0003」〜「000N」の不良セクタ数の分布範囲から外れている度合いは、値「0.44」である。同様にして、項目「温度」の外れ値は値「0.75」、項目「稼働時間」の外れ値は「0.72」である。
したがって、用途選択モジュール142は、外れ値(検定統計量)が最も大きい項目として、項目「アクセス負荷」を特定する(図9のS33)。また、項目「アクセス負荷」の外れ値「4.52」は値「4.0(α値)」以上である(S34のYes)。したがって、用途選択モジュール142は、項目「アクセス負荷」との外れ値の差分が、値「1.0(β値)」以内である項目があるか否かを判定する(S36)。
図10の例において、項目「アクセス負荷」との外れ値の差分が、値「1.0」以内である項目は存在しない(S36のNo)。したがって、用途選択モジュール142は、外れ項目として、項目「アクセス負荷」のみを特定する(S37)。そして、用途選択モジュール142は、状態・用途マッピング情報160(図8)を参照し、外れ項目「アクセス負荷」に対応する対処「アクセス負荷を下げる(ストライピング:2つのディスク装置)」を決定する(S42)。
そして、用途選択モジュール142は、ディスク装置dd2に対するデータの書き込みを、ディスク装置dd2と他の1つのディスク装置ddとに分散する制御を、構成管理モジュール132に依頼する(S43)。これにより、ディスク装置dd2に対するアクセスが分散されることから、アクセス負荷を抑制することが可能になる。
このように、本実施の形態における異常対処決定プログラム140は、他のディスク装置ddから、状態情報の分布範囲が外れている項目に対応して対処を適切に決定できる。したがって、異常対処決定プログラム140は、故障予兆が検出されたディスク装置ddの状態に対応した適切な対処を決定できる。
(第2の例)
図11は、図9のフローチャート図の処理の第2の例を説明する図である。図11は、図10の例と同様にして、故障予兆がディスクID「0002」のディスク装置dd2で生じた場合を例示する。
図11に示す状態情報は、図10の例に示す状態情報に対して、項目「温度」の値が異なる。したがって、図11の例によると、項目「アクセス負荷」、項目「不良セクタ数」、項目「稼働時間」の外れ値は、図10の例と同様である。一方、項目「温度」の外れ値は、図10の例と異なる値「4.18」である。
図11は、項目「アクセス負荷」と項目「温度」とが、他のディスクID「0001」、「0003」〜「000N」の状態情報から算出される状態情報の分布範囲から外れている場合を例示する。図10の例と同様にして、用途選択モジュール142は、外れ値が最も大きい項目として、項目「アクセス負荷」を特定する(図9のS33)。
また、図11の例において、項目「温度」の外れ値と項目「アクセス負荷」との外れ値の差分は、値「1.0(β値)」以内である(S36のYes)。したがって、用途選択モジュール142は、外れ項目として、項目「アクセス負荷」、項目「温度」を特定する(S39)。
このように、本実施の形態における異常対処決定プログラム140は、外れ値が最も大きい項目との外れ値の差分に基づくことにより、項目ごとに閾値を設けることなく、状態情報に異常が表れている複数の項目を特定できる。
また、図11の例に示すように、β値をα値に対して小さな値に設定することにより、外れ値がα値に満たない項目を、外れ項目として特定可能になる。例えば、項目「温度」の外れ値が値「3.5」である場合、α値には満たないものの、項目「アクセス負荷」の外れ値との差分は、値「1.0(β値)」以内である。この場合、異常対処決定プログラム140は、項目「温度」を外れ項目として判定できる。
これにより、外れ値が最も大きい項目以外の他の、1つまたは複数の項目が、外れ度合いは顕著ではないものの異常な値を示す場合、当該他の項目を、外れ項目として判定可能になる。したがって、異常対処決定プログラム140は、故障予兆が検知されたディスク装置dd2の状態情報の項目のうち、異常な状態を示す複数の項目を適切に判定できる。
そして、用途選択モジュール142は、状態・用途マッピング情報160を参照し、項目「アクセス負荷」と項目「温度」の組合せに基づいて、ディスクID「0002」に対する対処を決定する(S42)。具体的に、用途選択モジュール142は、項目「アクセス負荷」と項目「温度」の組合せに対応する対処「アクセス負荷を下げる(ストライピング:3つのディスク装置)」を決定する。
図11の例によると、ディスクID「0002」は、項目「アクセス負荷」に加えて、項目「温度」の状態情報が、他のディスクID「0001」、「0003」〜「000N」の分布範囲から外れている。図8で前述したとおり、さらに項目「温度」を外れ項目として特定した場合、図10の例に対して、データを分散するディスク装置ddが多い。
用途選択モジュール142は、ディスクID「0002」のディスク装置dd2に対するデータの書き込みを、ディスク装置dd2と他の2つのディスク装置ddとに分散する制御を、構成管理モジュール132に依頼する(S43)。これにより、ディスク装置dd2に対するアクセスがさらに分散されることから、アクセス負荷をさらに抑制し温度の上昇を抑制することが可能になる。
このように、本実施の形態における異常対処決定プログラム140は、他のディスク装置ddから、状態情報の分布範囲が外れている複数の項目に基づいて、適切に対処を決定できる。したがって、異常対処決定プログラム140は、故障予兆が検出されたディスク装置ddの状態に対応したより適切な対処を決定できる。
(第3の例)
図12は、図9のフローチャート図の処理の第3の例を説明する図である。図12は、図10の例と同様にして、故障予兆がディスクID「0002」のディスク装置dd2で生じた場合を例示する。
図12に示す状態情報は、図10の例に示す状態情報に対して、項目「不良セクタ数」、項目「温度」、項目「稼働時間」の値が異なる。したがって、図12の例によると、項目「アクセス負荷」の外れ値は、図10の例と同様である。一方、項目「不良セクタ数」、項目「温度」、項目「稼働時間」の外れ値は、図10の例と異なる。
図12の例によると、項目「不良セクタ数」の外れ値は値「4.13」、項目「温度」の外れ値は値「4.18」、項目「稼働時間」の外れ値は値「3.53」である。図10の例と同様にして、用途選択モジュール142は、外れ値が最も大きい項目として、項目「アクセス負荷」を特定する(図9のS33)。
また、図12の例において、項目「不良セクタ数」、項目「温度」、項目「稼働時間」の外れ値と、項目「アクセス負荷」との外れ値の差分は、値「1.0」以内である(S36のYes)。したがって、用途選択モジュール142は、外れ項目として全ての項目を特定する(S40)。
そして、用途選択モジュール142は、状態・用途マッピング情報160を参照し、外れ項目に基づいて、ディスクID「0002」の対処「切り離し」を決定する(S42)。全ての項目が外れ項目である場合、ディスクID「0002」のディスク装置ddに実際に故障が発生している可能性が高い。したがって、用途選択モジュール142は、ディスクID「0002」の切り離し制御を、構成管理モジュール132に依頼する(S43)。
これにより、ディスクID「0002」のディスク装置dd2に記憶されたデータが失われることを回避するとともに、他のディスク装置dd1、dd3〜ddnに対する影響を抑えることが可能になる。このように、異常対処決定プログラム140は、故障予兆が検出されたディスク装置ddの状態に対応した適切な対処を決定できる。
(第4の例)
図13は、図9のフローチャート図の処理の第4の例を説明する図である。図13は、図10の例と同様にして、故障予兆がディスクID「0002」のディスク装置dd2で生じた場合を例示する。
図13に示す状態情報は、図10の例に示す状態情報に対して項目「アクセス負荷」の値が異なり、項目「アクセス負荷」の外れ値が、図10の例と異なる。図13の例における、項目「アクセス負荷」の外れ値は値「1.83」、項目「不良セクタ数」の外れ値は値「0.44」、項目「温度」の外れ値は値「0.75」、項目「稼働時間」の外れ値は値「0.72」である。
図10の例と同様にして、用途選択モジュール142は、外れ値が最も大きい項目として、項目「アクセス負荷」を特定する(図9のS33)。ただし、項目「アクセス負荷」の外れ値「1.83」は値「4.0」未満である(S34のNo)。
図9のフローチャート図で説明したとおり、用途選択モジュール142は、例えば、外れ項目がない旨、判定する。この場合、用途選択モジュール142は、状態・用途マッピング情報160を参照し、ディスクID「0002」の対処として、対処「継続利用」を決定する(S42)。そして、用途選択モジュール142は、例えば、ディスクID「0002」の継続使用を、構成管理モジュール132に通知する(S43)。
このように、本実施の形態における異常対処決定プログラム140は、故障予兆が検知された場合であっても、故障予兆が検知されたディスク装置dd2に実際に異常な状態が生じていない場合に、ディスク装置dd2を継続使用する旨の対処を決定できる。これにより、異常対処決定プログラム140は、故障予兆が検知された場合であっても、故障予兆が検出されたディスク装置dd2の実際の状態に対応した適切な対処を決定できる。これにより、ディスク装置dd2の交換頻度が減少し、コストの増加を抑えることが可能になる。
または、図9のフローチャート図で説明したとおり、用途選択モジュール142は、所定期間遡った期間の状態情報に基づいて、外れ項目を特定する(S41)。工程S41の処理は、図14のフローチャート図にしたがって後述する。
[異常対処決定プログラム140の処理の流れ]
図14は、図9のフローチャート図の工程S41の処理の詳細を説明するフローチャート図である。図14に示す工程S55〜工程S62の処理は、図9のフローチャート図における工程S33〜工程S40と同様である。
S51:用途選択モジュール142は、値「T算出時刻」に、値「T故障予兆時刻」をセットする。即ち、用途選択モジュール142は、値「T算出時刻」に、故障予兆が検知された時刻をセットする。
S52:用途選択モジュール142は、値「T算出時刻」に、値「T算出時刻」から値「t取得時間」を減算した値をセットする。即ち、用途選択モジュール142は、値「T算出時刻」を、値「t取得時間」分、デクリメントする。
S53:用途選択モジュール142は、値「T故障予兆時刻」から値「T算出時刻」を減算した値が、値「t有効算出時間」を超えたか否かを判定する。即ち、用途選択モジュール142は、値「T故障予兆時刻」と値「T算出時刻」との差が、「t有効算出時間」に収まるか否かを判定する。
ここで、図15にしたがって、値「t有効算出時間」、及び、値「t取得時間」を説明する。
(t有効算出時間、t取得時間)
図15は、値「t有効算出時間」及び、値「t取得時間」を説明する図である。「t取得時間」は、状態情報を取得する時間間隔を示す。本実施の形態における「t取得時間」は、前述したとおり、10分である。また、値「T算出時刻」は、値「T故障予兆時刻」を、値「t取得時間」分、順次、デクリメントした値である。
また、「t有効算出時間」は、故障予兆が検知された時刻「T故障予兆時刻」から遡って、状態情報の判定を行う対象の期間を示す。即ち、「t有効算出時間」は、時刻「T故障予兆時刻」から遡って状態情報の判定を行うことが有効な期間を示す。図14のフローチャート図に戻る。
S54:値「t有効算出時間」を超えていない場合(S53のNo)、用途選択モジュール142は、値「T算出時刻」の、全てのディスク装置dd1〜ddnの状態情報を取得し、状態情報テーブル150に記憶する。そして、用途選択モジュール142は、状態情報テーブル150を参照して、値「T算出時刻」のディスク装置dd1〜ddnの状態情報を取得し、項目ごとに検定統計量(外れ値)を算出する。
つまり、用途選択モジュール142は、値「T故障予兆時刻」との差が、「t有効算出時間」に収まる時刻「T算出時刻」の状態情報に基づいて、項目ごとに検定統計量(外れ値)を算出する。一方、用途選択モジュール142は、値「T算出時刻」が、値「T故障予兆時刻」から「t有効算出時間」を超えて遡った場合の値「T算出時刻」の状態情報を、判定の対象外とする。
S55:工程S54に続いて、用途選択モジュール142は、複数の項目のうち、工程S54で算出した検定統計量が最も大きい項目を特定する。
S56:用途選択モジュール142は、工程S55で特定した、最も大きい検定統計量が値「α」以上であるか否かを判定する。検定統計量が値「α」未満である場合(S56のNo)、用途選択モジュール142は、工程S52の処理に遷移する。
S57:検定統計量が値「α」以上である場合(S56のYes)、用途選択モジュール142は、検定統計量が最も大きい項目と、その他の各項目と検定統計量を比較する。用途選択モジュール142は、検定統計量が最も大きい項目と、検定統計量との差分が値「β」以内である項目を特定する。
S58:用途選択モジュール142は、差分が値「β」以内の項目があるか否かを判定する。
S59:差分が値「β」以内の項目がない場合(S58のNo)、用途選択モジュール142は、外れ項目として、単体の項目を判定する。
S60:差分が値「β」以内の項目がある場合(S58のYes)、用途選択モジュール142は、差分が値「β」以内の項目が一部の項目であるか否かを判定する。
S61:差分が値「β」以内の項目が一部の項目である場合(S60のYes)、用途選択モジュール142は、外れ項目として、複数の項目を判定する。
S62:一方、差分が値「β」以内の項目が全ての項目である場合(S60のNo)、用途選択モジュール142は、外れ項目として、全ての項目を判定する。
S63:値「t有効算出時間」を超えた場合(S53のYes)、用途選択モジュール142は、外れ項目なしとする。即ち、用途選択モジュール142は、外れ項目が存在しない旨、判定する。
このように、用途選択モジュール142は、故障予兆が検知された時刻「T故障予兆時刻」から遡って状態情報の判定を行うことが有効な期間の状態情報に基づくことによって、ディスク装置ddの状態に応じたより適切な対処を決定できる。したがって、用途選択モジュール142は、状態情報の異常が不定期に生じる場合であっても、ディスク装置ddの状態に応じた適切な対処を決定できる。
[別の実施の形態]
なお、上述した実施の形態は、単体のディスク装置群105における故障予兆の検知に対する対処の例を例示した。ただし、本実施の形態は、複数のディスク装置群に含まれるディスク装置ddに対しても有効である。別の形態例におけるシステムは、それぞれ複数のディスク装置ddを含む、複数のディスク装置群を有する。
正常時の状態情報から算出される状態情報の分布範囲が同一であるディスク装置群は、例えば、アクセス頻度や、実行する業務が同様である複数のディスク装置群を示す。この場合、複数のディスク装置群のディスク装置ddを、故障予兆が検知されたディスク装置ddと状態情報を比較する対象のディスク装置ddとして統合可能である。これにより、比較対象のディスク装置ddの数が増加し、状態情報の判定精度が向上する。
[別の形態例におけるストレージシステム]
図16は、別の実施の形態におけるストレージシステムの一例を示す図である。図16に示すストレージシステムは、管理装置200と、2つのストレージ装置300a、300bとを有する。ストレージ装置300a、300bそれぞれは、ネットワーク10等を介して管理装置200と接続する。ストレージ装置300aはディスク装置群105aを有し、ストレージ装置300bはディスク装置群105bを有する。
管理装置200は、各ディスク装置群105a、105bのディスク装置(dd1a〜ddnb、ディスク装置ddともいう)の故障予兆の検知に応じて、故障予兆が検知されたディスク装置ddに対する対処を決定し、ストレージ装置300a、300bに通知する。
図16に示すように、複数のディスク装置群105a、105bにおける、ディスク装置ddの総数が多い。したがって、異常対処決定プログラム140は、多数のディスク装置ddとの状態情報の比較に基づくことにより、より高精度に、異常な状態を示す状態情報の項目を判定できる。
[管理装置200のハードウェア構成]
図17は、図16に示す管理装置200のハードウェア構成図の一例を示す図である。管理装置200は、例えば、CPU201、メインメモリ210や補助記憶装置211等を備えるメモリ202、通信インタフェース部203、外部インタフェース部204を有する。各部は、バス206を介して相互に接続する。
CPU201は、バス206を介してメモリ202等と接続するとともに、管理装置200全体の制御を行う。通信インタフェース部203は、インターネット等を介して、他の機器(図示せず)と接続し、データの送受信を行う。
RAM等を示すメインメモリ210は、CPU201が処理を行うデータ等を記憶する。補助記憶装置211は、HDD、不揮発性半導体メモリ等を示す。補助記憶装置211は、CPU201が実行するオペレーションシステムのプログラムを格納する領域(図示せず)等を有する。また、補助記憶装置211は、異常対処決定プログラム格納領域240、状態情報テーブル格納領域250、状態・用途マッピング情報格納領域260を有する。
異常対処決定プログラム格納領域240の異常対処決定プログラム(以下、異常対処決定プログラム240と称する)は、CPU201の実行によって、ディスク装置ddの故障予兆の検知に応じて、当該ディスク装置ddに対する対処の決定処理を実現する。
状態情報テーブル格納領域250の状態情報テーブル(以下、状態情報テーブル250と称する)は、異常対処決定プログラム240がアクセスするテーブルであって、各ディスク装置群150a、150bのディスク装置ddの状態情報を有する。状態情報テーブル250の詳細は、図18にしたがって後述する。状態・用途マッピング情報格納領域260の状態・用途マッピング情報(以下、状態・用途マッピング情報260と称する)は、図8と同様である。
[ストレージシステムのソフトウェアブロック]
図18は、図16に示すストレージシステムのソフトウェアブロック図の一例を示す図である。ストレージ装置300aのストレージ管理プログラム310aは、データ処理モジュール311a、状態監視モジュール312a、構成管理モジュール313aを有する。また、ストレージ装置300bのストレージ管理プログラム310bも同様のモジュールを有する。
データ処理モジュール311aは、他の装置から送信された、データのアクセスを指示するコマンドに応答して、ディスクインタフェース部304aに、ディスク装置ddに対するアクセス処理を指示する。
状態監視モジュール312aは、定期的に、ディスク装置群105aの各ディスク装置ddの状態情報を取得し、管理装置200に送信する。また、状態監視モジュール312aは、自ディスク装置ddの故障予兆の検知に応じて、各ディスク装置ddの状態情報を管理装置200に送信するとともに、管理装置200及びストレージ装置300bに故障予兆の発生を通知する。また、状態監視モジュール312aは、他方のストレージ装置300bの故障予兆の検知の通知に応答して、各ディスク装置ddの状態情報を管理装置200に送信する。
また、構成管理モジュール313aは、ディスク装置群105aの各ディスク装置ddの構成に関する情報を管理する。また、構成管理モジュール313aは、管理装置200から、故障予兆が検知されたディスク装置ddに対する対処を受信し、RAIDの冗長度の変更やディスク装置ddの用途変更等の対処を実行する。
また、管理装置200の異常対処決定プログラム240は、用途選択モジュール241を有する。用途選択モジュール241は、ストレージ装置300a、300bから故障予兆の検知を示す通知、及び、複数のディスク装置群105a、105bの各ディスク装置ddの状態情報を受信すると、状態情報テーブル250に記憶する。
そして、用途選択モジュール241は、故障予兆が検知されたディスク装置ddの状態情報が、複数のディスク装置群105a、105bのディスク装置ddの状態情報から算出される状態情報の分布範囲から外れているか否かを項目ごとに判定する。また、用途選択モジュール241は、判定結果に基づいて、状態・用途マッピング情報260を参照し、故障予兆が検知されたディスク装置ddに対する対処を決定する。
そして、用途選択モジュール241は、決定した対処を、故障予兆が検知されたディスクddを有するストレージ装置300a、300bに通知する。
[状態情報テーブル250]
図19は、別の実施の形態における状態情報テーブル250の一例を示す図である。図19に示す状態情報テーブル250は、状態情報テーブル150(図6)の情報に加えて、ディスク装置群105a、105bを識別する装置IDを有する。図19に示すように、状態情報テーブル250は、複数のディスク装置群105a、105bの状態情報を有する。
図17、図18に示す、異常対処決定プログラム240の処理は、図9、図14のフローチャート図に示したとおりである。即ち、異常対処決定プログラム240は、故障予兆が検知されたディスク装置の状態情報が、ディスク装置群105a、105bの、当該装置以外の装置の状態情報から算出される状態情報の分布範囲から、外れているか否かを判定する。これにより、比較対象のディスク装置ddの数が増加し、状態情報の判定精度が向上する。
以上の実施の形態をまとめると、次の付記のとおりである。
(付記1)
システムに含まれる複数の装置の、第1の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、
前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、
判定結果に基づいて、前記第1の装置に対する対処を決定する、
ことを実行させることを特徴とする異常対処決定プログラム。
(付記2)
付記1において、
前記決定は、外れている前記所定の項目がある場合に、前記外れている所定の項目に対応する対処を決定する、
異常対処決定プログラム。
(付記3)
付記1または2において、
前記決定は、外れている前記所定の項目がない場合に、前記第1の装置の継続使用を示す対処を決定する、
異常対処決定プログラム。
(付記4)
付記1乃至3のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
異常対処決定プログラム。
(付記5)
付記1乃至4のいずれかにおいて、
前記判定は、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記所定の項目ごとに算出し、前記外れ値が、複数の前記項目のうち最大である第1の項目、及び、前記第1の項目との前記外れ値の差分が基準値以内の第2の項目を、外れていると判定する、
異常対処決定プログラム。
(付記6)
付記1乃至5のいずれかにおいて、
前記判定は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記所定の項目ごとにさらに判定する、
異常対処決定プログラム。
(付記7)
付記1乃至6のいずれかにおいて、
前記装置は、記憶装置である、
異常対処決定プログラム。
(付記8)
付記1乃至7のいずれかにおいて、
前記所定の項目は、前記装置に対するアクセス負荷、前記装置の温度、前記装置の異常部の数、前記装置の稼働時間のいずれか、またはその組合せである、
異常対処決定プログラム。
(付記9)
付記1乃至8のいずれかにおいて、
前記システムは、それぞれ前記複数の装置を含む、複数のディスク装置群を有する、
異常対処決定プログラム。
(付記10)
システムに含まれる複数の装置の、第1の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、
前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、
判定結果に基づいて、前記第1の装置に対する対処を決定する、
異常対処決定方法。
(付記11)
付記10において、
前記決定は、外れている前記所定の項目がある場合に、前記外れている所定の項目に対応する対処を決定する、
異常対処決定方法。
(付記12)
付記10または11において、
前記決定は、外れている前記所定の項目がない場合に、前記第1の装置の継続使用を示す対処を決定する、
異常対処決定方法。
(付記13)
付記10乃至12のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
異常対処決定方法。
(付記14)
付記10乃至13のいずれかにおいて、
前記判定は、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記所定の項目ごとに算出し、前記外れ値が、複数の前記項目のうち最大である第1の項目、及び、前記第1の項目との前記外れ値の差分が基準値以内の第2の項目を、外れていると判定する、
異常対処決定方法。
(付記15)
付記10乃至14のいずれかにおいて、
前記判定は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記所定の項目ごとにさらに判定する、
異常対処決定方法。
(付記16)
付記10乃至15のいずれかにおいて、
前記所定の項目は、前記装置に対するアクセス負荷、前記装置の温度、前記装置の異常部の数、前記装置の稼働時間のいずれか、またはその組合せである、
異常対処決定方法。
(付記17)
システムに含まれる複数の装置の、第1の前記装置の異常情報の検知に応じて、前記複数の装置それぞれの状態に関する所定の項目の状態情報を取得し、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から、外れているか否かを前記所定の項目ごとに判定し、判定結果に基づいて、前記第1の装置に対する対処を決定する処理部と、
前記複数の装置の前記状態情報を記憶する記憶部と、
を有する状態管理装置。
(付記18)
付記17において、
前記処理部は、外れている前記所定の項目がある場合に、前記外れている所定の項目に対応する対処を決定する、
状態管理装置。
(付記19)
付記17または18において、
前記処理部は、外れている前記所定の項目がない場合に、前記第1の装置の継続使用を示す対処を決定する、
状態管理装置。
(付記20)
付記17乃至19のいずれかにおいて、
前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
状態管理装置。
(付記21)
付記17乃至20のいずれかにおいて、
前記処理部は、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記所定の項目ごとに算出し、前記外れ値が、複数の前記項目のうち最大である第1の項目、及び、前記第1の項目との前記外れ値の差分が基準値以内の第2の項目を、外れていると判定する、
状態管理装置。
(付記22)
付記17乃至21のいずれかにおいて、
前記処理部は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記所定の項目ごとにさらに判定する、
状態管理装置。
(付記23)
付記17乃至22のいずれかにおいて、
前記装置は、記憶装置である、
状態管理装置。
(付記24)
付記17乃至23のいずれかにおいて、
前記所定の項目は、前記装置に対するアクセス負荷、前記装置の温度、前記装置の異常部の数、前記装置の稼働時間のいずれか、またはその組合せである、
状態管理装置。
(付記25)
付記17乃至24のいずれかにおいて、
前記システムは、それぞれ前記複数の装置を含む、複数のディスク装置群を有する、
状態管理装置。
100:状態管理装置、101:CPU、102:メモリ、110:メインメモリ110、111:補助記憶装置、103:通信インタフェース部、104:ディスクインタフェース部104、105:ディスク装置群、dd:ディスク装置、130:ストレージ管理プログラム、140:異常対処決定プログラム、150:状態情報テーブル、160:状態・用途マッピング情報

Claims (7)

  1. システムに含まれる複数の装置のうちの第1の装置の稼働時間が定められた寿命時間に達した場合、または、前記第1の装置のエラー回数が所定の値を超えた場合、前記複数の装置それぞれの状態を示す複数の項目の数値である状態情報を取得し、
    前記第1の装置の前記状態情報における前記複数の項目それぞれについて、数値が前記第1の装置以外の前記複数の装置の前記状態情報の数値に基づいて算出される状態情報の分布範囲から外れているか否かを判定し、
    判定結果に基づいて、前記第1の装置について、前記複数の項目のうちのどの項目の数値が外れているかに応じて異なる動作制御変更を適用する、
    ことを実行させることを特徴とする異常対処決定プログラム。
  2. 請求項1において、
    前記適用において、外れている項目がない場合に、前記第1の装置の動作制御変更を行わない、
    異常対処決定プログラム。
  3. 請求項1及び2のいずれかにおいて、
    前記システムに含まれる前記複数の装置は、正常時の前記状態情報から算出される状態情報の分布範囲が同一である、
    異常対処決定プログラム。
  4. 請求項1及び3のいずれかにおいて、
    前記判定は、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の前記分布範囲から外れている度合いを示す外れ値を前記複数の項目それぞれについて算出し、前記外れ値が、前記複数の項目のうち最大であり、かつ所定の値以上である第1の項目、及び、前記第1の項目との前記外れ値の差分が基準値以内の第2の項目を、外れていると判定する、
    異常対処決定プログラム。
  5. 請求項1、3、及び4のいずれかにおいて、
    前記判定は、異常情報が検知されたときから所定期間遡った期間の、前記複数の装置それぞれの前記状態情報を取得し、前記第1の装置の前記状態情報が、前記第1の装置以外の装置の前記状態情報から算出される状態情報の分布範囲から外れているか否かを前記複数の項目それぞれについてさらに判定する、
    異常対処決定プログラム。
  6. コンピュータが、
    システムに含まれる複数の装置のうちの第1の装置の稼働時間が定められた寿命時間に達した場合、または、前記第1の装置のエラー回数が所定の値を超えた場合、前記複数の装置それぞれの状態を示す複数の項目の数値である状態情報を取得し、
    前記第1の装置の前記状態情報における前記複数の項目それぞれについて、数値が前記第1の装置以外の前記複数の装置の前記状態情報の数値に基づいて算出される状態情報の分布範囲から外れているか否かを判定し、
    判定結果に基づいて、前記第1の装置について、前記複数の項目のうちのどの項目の数値が外れているかに応じて異なる動作制御変更を適用する、
    処理を実行する異常対処決定方法。
  7. システムに含まれる複数の装置のうちの第1の装置の稼働時間が定められた寿命時間に達した場合、または、前記第1の装置のエラー回数が所定の値を超えた場合、前記複数の装置それぞれの状態を示す複数の項目の数値である状態情報を取得し、前記第1の装置の前記状態情報における前記複数の項目それぞれについて、数値が前記第1の装置以外の前記複数の装置の前記状態情報の数値に基づいて算出される状態情報の分布範囲から外れているか否かを判定し、判定結果に基づいて、前記第1の装置について、前記複数の項目のうちのどの項目の数値が外れているかに応じて異なる動作制御変更を適用する処理部と、
    前記複数の装置の前記状態情報を記憶する記憶部と、
    を有する状態管理装置。
JP2015160179A 2015-08-14 2015-08-14 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置 Active JP6721820B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015160179A JP6721820B2 (ja) 2015-08-14 2015-08-14 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置
US15/205,502 US10083072B2 (en) 2015-08-14 2016-07-08 Abnormality handling determination program, method for abnormality handling determination, and administration device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015160179A JP6721820B2 (ja) 2015-08-14 2015-08-14 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置

Publications (2)

Publication Number Publication Date
JP2017037600A JP2017037600A (ja) 2017-02-16
JP6721820B2 true JP6721820B2 (ja) 2020-07-15

Family

ID=57995437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015160179A Active JP6721820B2 (ja) 2015-08-14 2015-08-14 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置

Country Status (2)

Country Link
US (1) US10083072B2 (ja)
JP (1) JP6721820B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094177A (zh) * 2021-04-21 2021-07-09 上海商汤科技开发有限公司 一种任务分发系统、方法、装置、计算机设备及存储介质
CN114111874B (zh) * 2021-11-11 2023-11-28 中国航发沈阳发动机研究所 一种双余度传感器故障诊断及重构方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034500A (ja) 1999-07-26 2001-02-09 Nec Corp マイクロコンピュータ故障診断装置およびマイクロコンピュータ故障診断方法
US7146521B1 (en) * 2002-08-21 2006-12-05 3Pardata, Inc. Preventing damage of storage devices and data loss in a data storage system
JP4651913B2 (ja) 2003-02-17 2011-03-16 株式会社日立製作所 記憶装置システム
JP2005100259A (ja) 2003-09-26 2005-04-14 Hitachi Ltd ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
JP2006164304A (ja) 2006-01-20 2006-06-22 Hitachi Ltd ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
WO2008146473A1 (ja) 2007-05-31 2008-12-04 Panasonic Corporation フォーマット装置
JP4685079B2 (ja) 2007-10-26 2011-05-18 株式会社日立製作所 記憶装置システム
JP5919788B2 (ja) * 2011-12-12 2016-05-18 株式会社リコー 画像形成装置、印刷システム、画像調整方法
IN2014DN05977A (ja) 2012-02-08 2015-06-26 Hitachi Ltd
JP2014211849A (ja) * 2013-04-22 2014-11-13 富士通株式会社 ストレージ制御装置、ストレージ装置、および制御プログラム
JP6068296B2 (ja) * 2013-08-29 2017-01-25 日本電信電話株式会社 制御装置、計算資源管理方法及び計算資源管理プログラム

Also Published As

Publication number Publication date
JP2017037600A (ja) 2017-02-16
US10083072B2 (en) 2018-09-25
US20170046213A1 (en) 2017-02-16

Similar Documents

Publication Publication Date Title
US9104790B2 (en) Arranging data handling in a computer-implemented system in accordance with reliability ratings based on reverse predictive failure analysis in response to changes
JP5887757B2 (ja) ストレージシステム、ストレージ制御装置およびストレージ制御方法
US7502905B2 (en) Storage control method, program and apparatus for accessing disk array
US20210124639A1 (en) Systems and methods for memory failure prevention, management, and mitigation
EP2703991B1 (en) Scalable storage protection
US8417989B2 (en) Method and system for extra redundancy in a raid system
US8495295B2 (en) Mass storage system and method of operating thereof
US10013321B1 (en) Early raid rebuild to improve reliability
US7409582B2 (en) Low cost raid with seamless disk failure recovery
JP5078235B2 (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
US11232848B2 (en) Memory module error tracking
US9766980B1 (en) RAID failure prevention
JP6721820B2 (ja) 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置
US9256490B2 (en) Storage apparatus, storage system, and data management method
JP5924819B2 (ja) データ保全処理装置及びデータ保全処理プログラム
EP2645250A2 (en) Storage system, storage apparatus, and data restoration method
US11113163B2 (en) Storage array drive recovery
US20110187404A1 (en) Method of detecting failure and monitoring apparatus
JP6481490B2 (ja) ストレージシステム、制御装置および制御プログラム
US20140244928A1 (en) Method and system to provide data protection to raid 0/ or degraded redundant virtual disk
US11422723B2 (en) Multi-storage device lifecycle management system
JP2006260446A (ja) ディスクアレイ装置
JP4605374B2 (ja) 記憶装置の試験方法及び装置
US20240028267A1 (en) Dynamic redundant array of independent disks (raid) transformation
WO2018193608A1 (ja) ストレージシステム、ストレージ装置の制御方法およびストレージ制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200601

R150 Certificate of patent or registration of utility model

Ref document number: 6721820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150