JP2019053486A - 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム - Google Patents

故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム Download PDF

Info

Publication number
JP2019053486A
JP2019053486A JP2017176812A JP2017176812A JP2019053486A JP 2019053486 A JP2019053486 A JP 2019053486A JP 2017176812 A JP2017176812 A JP 2017176812A JP 2017176812 A JP2017176812 A JP 2017176812A JP 2019053486 A JP2019053486 A JP 2019053486A
Authority
JP
Japan
Prior art keywords
timing
operation characteristic
storage device
access request
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017176812A
Other languages
English (en)
Inventor
孝 飯田
Takashi Iida
孝 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2017176812A priority Critical patent/JP2019053486A/ja
Priority to US16/644,546 priority patent/US20200264946A1/en
Priority to PCT/JP2018/033926 priority patent/WO2019054434A1/ja
Publication of JP2019053486A publication Critical patent/JP2019053486A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/18Error detection or correction; Testing, e.g. of drop-outs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

【課題】ストレージ装置が故障する前に、故障の予兆を高い精度で検出する。【解決手段】故障予兆検出装置40は、所定の第一のタイミング、及び、その第一のタイミングより後の第二のタイミングに、ストレージ装置50に対する検査用アクセスリクエストを発行する発行部41と、検査用アクセスリクエストに応じてストレージ装置50が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する収集部42と、第一のタイミングにおける動作特性を表す第一の動作特性情報と、第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する記憶部43と、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、ストレージ装置50の劣化状態を表す劣化情報を生成する生成部44と、を備える。【選択図】 図4

Description

本願発明は、ストレージ装置が故障する前に、故障の予兆を検知する技術に関する。
ストレージ装置は、その使用が開始された後、時間の経過とともに劣化が進み、劣化が進行することに応じて、障害が発生する可能性が高くなる。したがって、このようなストレージ装置を含むコンピュータシステムの可用性を高めるために、ストレージ装置において障害が発生する前に、ストレージ装置の劣化が進行する度合いに基づいて故障の予兆を検知することにより、障害の発生を回避する技術への期待が高まってきている。
このような技術に関連する技術として、特許文献1には、ディスク媒体と、そのディスク媒体に対し情報の書き込みあるいは読み出しを行う磁気ヘッドと、を備えるディスクドライブと、そのディスクドライブの障害予測を行う障害予測装置と、を有する磁気ディスク装置が開示されている。当該障害予測装置は、障害予兆診断のためのシークテストを行い、シークテストの結果とテスト実行時の稼働時間とをテスト結果格納部に格納する。当該障害予測装置は、障害予兆を判断するための障害予兆シーク時間を設定し、障害予兆基準時間格納部に格納する。当該障害予測装置は、テスト結果と稼働時間と障害予兆シーク時間とに基づいて、ディスク媒体の交換時期を予測する。
また、特許文献2には、ディスクに対する記録処理または読み出し処理を実行した結果に基づいて、ディスクに起因して発生する問題のレベルを示す指標値としてのリトライ率、エラーレート、またはレーザダイオード電流値を取得するディスク装置が開示されている。この装置は、リトライ率、エラーレート、またはレーザダイオード電流値と、予め設定されフラッシュメモリに記憶されているリトライ率の閾値、エラーレートの閾値、またはレーザダイオード電流値の閾値とを用いて、自装置の故障を予測する。
また、特許文献3には、リード/ライト要求に対する磁気ディスク装置からの応答に基づき、当該磁気ディスク装置における障害発生を事前に予測する障害発生予測システムが開示されている。このシステムは、システムクロックに基づき、リード/ ライト要求を出した時刻と、データを受け取った時刻との差分から、応答に要した応答時間を得る。そして、このシステムは、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定する。
特開2008-84392号公報 特開2007-294000号公報 特開2004-118397号公報
ストレージ装置において故障の予兆を検知する場合、一般的に、アクセスが行なわれた際のエラーレート、あるいはレイテンシ(応答時間)等を含む動作特性に関する所定の基準(閾値等)に基づいて、ストレージ装置の劣化度合いを判断している。しかしながら、ストレージ装置の動作特性には、その規格、仕様、性能等によって異なるとともに、個体間におけるばらつき(個体差)も存在する。したがって、動作特性に関する所定の(決められた)基準に基づいて、ストレージ装置の劣化度合いを判断する場合、故障の予兆を高い精度で検知することは困難である。特許文献1乃至3が示す技術は、このような課題を解決するのに、十分であるとは言えない。本願発明の主たる目的は、この問題を解決する故障予兆検出装置等を提供することである。
本願発明の一態様に係る故障予兆検出装置は、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行手段と、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集手段と、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶する記憶手段と、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成手段と、を備える。
上記目的を達成する他の見地において、本願発明の一態様に係る故障予兆検出方法は、情報処理装置によって、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行し、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集し、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶し、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する。
また、上記目的を達成する更なる見地において、本願発明の一態様に係る故障予兆検出プログラムは、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行処理と、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集処理と、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶する記憶処理と、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成処理と、をコンピュータに実行させるためのプログラムである。
更に、本願発明は、係る故障予兆検出プログラム(コンピュータプログラム)が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。
本願発明は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することを可能とする。
本願発明の第1の実施形態に係る故障予兆検出システム1の構成を概念的に示すブロック図である。 本願発明の第1の実施形態に係る故障予兆検出装置10が、ストレージ装置20の使用が開始されたときに、ストレージ装置20の動作特性情報を生成する動作を示すフローチャートである。 本願発明の第1の実施形態に係る故障予兆検出装置10が劣化情報を生成する動作を示すフローチャートである。 本願発明の第2の実施形態に係る故障予兆検出装置40の構成を概念的に示すブロック図である。 本願発明の各実施形態に係る故障予兆検出装置を実行可能な情報処理装置900の構成を示すブロック図である。
以下、本願発明の実施の形態について図面を参照して詳細に説明する。
<第1の実施形態>
図1は、本願発明の第1の実施の形態に係る故障予兆検出システム1の構成を概念的に示すブロック図である。故障予兆検出システム1は、大別して、ストレージ制御装置(ストレージコントローラ)100、ストレージ装置20、及び、上位装置(ホスト装置)30を有している。
上位装置30は、CPU(Central Processing Unit)及びメモリ等(不図示)を備えた、例えば図5を参照して後述する構成を有するサーバ装置等の情報処理装置であり、ストレージ装置20に格納されているデータにアクセスする。ストレージ制御装置100は、ストレージ装置20を制御する装置であり、上位装置30から受信した、ストレージ装置20に対するリクエストを処理する。ストレージ制御装置100は、また、ストレージ装置20において発生した障害に対して行なう障害処理を制御する。
ストレージ装置20は、記憶デバイスである4つの磁気ディスク21乃至24を有する。尚、ストレージ装置20が有する磁気ディスクの個数は、4つに限定されない。また、ストレージ装置20が備える記憶デバイスは磁気ディスクに限定されない。ストレージ装置20は、例えば、SSD(Solid State Drive)等の記憶デバイスを備えてもよい。
ストレージ装置20は、例えば、磁気ディスク21乃至23を、通常動作を行う現用系ディスクとして備え、磁気ディスク24を、障害が発生した磁気ディスクと切り換えて使用可能な待機系ディスクとして備えた、冗長構成を備えてもよい。そして、ストレージ装置20は、可用性を向上させるために、例えば、磁気ディスク21乃至23によりRAID(Redundant Arrays of Inexpensive Disks)5等のRAIDを構成してもよい。尚、RAIDは周知の技術であるので、本願では、その詳細な説明を省略する。
ストレージ制御装置100は、故障予兆検出装置10を有している。故障予兆検出装置10は、ストレージ装置20が備える磁気ディスク21乃至24に関する故障の予兆を検出するために、磁気ディスク21乃至24の動作特性に基づいて、その劣化状態を表す劣化情報を生成する機能を有する。
故障予兆検出装置10は、発行部11、収集部12、記憶部13、生成部14、監視部15、統計計算部16、及び、構成変更部17を備える。以降、本願では、故障予兆検出装置10が磁気ディスク21に対して行なう動作を説明するが、故障予兆検出装置10が磁気ディスク22乃至24に対して行なう動作も、磁気ディスク21に対して行なう動作と同様である。
発行部11は、磁気ディスク21の使用が開始されたとき(第一のタイミング)と、磁気ディスク21の使用が開始されたのちの第二のタイミングとにおいて、磁気ディスク21へのアクセスを行なう検査用アクセスリクエストを発行する。但し、第二のタイミングは、後述する監視部15によって示されるタイミングである。当該検査用アクセスリクエストは、上位装置30から発行されたアクセスリクエストではなく、磁気ディスク21の劣化状態を検査するために発行された、ダミーのアクセスリクエストである。
この検査用アクセスリクエストによって、故障予兆検出装置10は、磁気ディスク21に対して、例えば、下記のアクセスの少なくともいずれかを実行する。尚、下記のアクセスは一例であり、故障予兆検出装置10が実行するアクセスは、下記のアクセスに限定されない。故障予兆検出装置10は、磁気ディスク21がキャッシュを備える場合、磁気ディスク21の動作特性を正確に得るために、当該キャッシュを無効化した状態で、検査用アクセスリクエストを実行する。
(1)磁気ディスク21の最外周及び最内周のトラックをシークするアクセス、
(2)データ転送長が異なる複数のアクセス、
(3)磁気ヘッドの切り替えを伴うアクセス、
(4)シーケンシャル(リード及びライト)アクセス、
(5)ランダム(リード及びライト)アクセス。
但し、シーケンシャルアクセスは、磁気ディスク21における連続する記憶領域に対して、アドレス順にアクセスする動作である。またランダムアクセスは、磁気ディスク21におけるアドレスが異なる複数の記憶領域に対して、アドレス順に依存しないでアクセスする動作である。
発行部11は、後述する統計計算部16が、磁気ディスク21に関する動作特性に対して統計計算を行なうことができるようにするために、種別が等しいアクセスリクエストを、それぞれ複数回発行してもよい。
監視部15は、上位装置30からストレージ装置20に対するアクセスに関する負荷状況を監視する。監視部15は、その負荷状況が所定の条件を満たす第二のタイミングが到来したか否かを判定する。監視部15は、例えば、上位装置30からストレージ装置20に対するアクセスが発生していないこと、あるいは、当該アクセスに関する負荷が閾値以下であることを、当該所定の条件として使用してもよい。監視部15は、当該第二のタイミングが到来したと判定した場合、その判定結果を発行部11へ通知する。監視部15は、また、第二のタイミングであると判定する度に、判定結果を発行部11へ通知するようにしてもよい。
発行部11は、監視部15から第二のタイミングが到来したことを通知された場合、上述した通り、検査用アクセスリクエストを発行する。発行部11は、この際、磁気ディスク21において、上位装置30によって使用されていない記憶領域(未使用の記憶領域)を、検査用アクセスリクエストによってアクセスされる記憶領域として確保する。これは、検査用アクセスリクエストによるライトアクセスによって、上位装置30が使用する、磁気ディスク21に記憶されているデータが破壊されないようにするためである。
収集部12は、発行部11によって発行された検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する。収集部12は、動作特性を表す情報として、例えば、シーク時間と、回転待ち時間と、データ転送時間とのうちの少なくともいずれかを収集する。ただし、シーク時間は、磁気ディスク21の磁気ヘッドが、アクセス対象であるデータが格納されているトラックの位置まで移動するのに要する時間である。回転待ち時間は、アクセス対象であるデータが、磁気ヘッドの下に来るまでに要する時間である。データ転送時間は、アクセス対象であるデータの読み出しあるいは書き込みに要する時間である。尚、収集部12が収集する動作特性を表す情報は、上述した各時間に限定されない。
収集部12は、収集した動作特性を表す情報を、検査用アクセスリクエストと関連付けて、例えば記憶部13へ格納する。
統計計算部16は、発行部11が発行した複数回の種別が等しい検査用アクセスリクエストに関して、収集部12が収集した動作特性を表す情報に対して、統計計算を行なう。但し、統計計算とは、例えば平均値あるいは標準偏差等の統計情報を求める計算である。
統計計算部16は、磁気ディスク21の使用が開始されたとき(第一のタイミング)において、上述した統計計算を行なうことによって生成した、統計情報を含む動作特性を表す情報を、第一の動作特性情報として、記憶部13に格納する。統計計算部16は、上述した第二のタイミングにおいて、同様に統計計算を行なうことによって生成した、統計情報を含む動作特性を表す情報を、第二の動作特性情報として、記憶部13に格納する。但し、記憶部13は、電子メモリあるいは磁気ディスク等の記憶デバイスである。
生成部14は、統計計算部16によって記憶部13に格納された、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、磁気ディスク21の劣化状態(磁気ディスク21の使用が開始されたときから、上述した第二のタイミングに至るまでに、磁気ディスク21が劣化した度合い)を表す劣化情報を生成する。生成部14は、また、磁気ディスク21の劣化状態を表す値が閾値以上であるか否かを判定し、その劣化状態を表す値が閾値以上である場合、磁気ディスク21を予防交換することを推奨することを示す情報を、生成する劣化情報に含めるようにしてもよい。生成部14は、生成した劣化情報を、例えば、システム管理者が使用する上位装置30へ送信する。
構成変更部17は、ストレージ装置20が、例えば、RAIDを構成する複数の現用系(一次)ディスクと、待機系(二次)ディスクとを含む場合に、ストレージ装置20の構成を変更する機能を有する。例えば、ストレージ装置20が、現用系ディスクである磁気ディスク21乃至23によりRAID5を構成し、磁気ディスク24を待機系ディスクとして備える場合を考える。そして、生成部14により生成された劣化情報が、磁気ディスク21を予防交換することを推奨することを示していることとする。この場合、構成変更部17は、まず、磁気ディスク21に記憶されていたデータを、磁気ディスク24に複写する。構成変更部17は、この後、磁気ディスク21の代わりに、磁気ディスク24を組み込むように、RAID5の構成を変更する。構成変更部17は、ストレージ装置20におけるRAID5の構成を変更したことを、例えば、上位装置30へ通知する。
次に、図2及び図3のフローチャートを参照して、本実施形態に係る故障予兆検出装置10の動作(処理)について詳細に説明する。
図2は、本実施形態に係る故障予兆検出装置10が、ストレージ装置20の使用が開始されたとき(第一のタイミング)に、ストレージ装置20の動作特性情報を生成する動作を示すフローチャートである。
発行部11は、ストレージ装置20に対する検査用アクセスリクエストを発行する(ステップS101)。収集部12は、検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を収集する(ステップS102)。
統計計算部16は、収集部12により収集された動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、第一の動作特性情報を生成する(ステップS103)。統計計算部16は、生成した第一の動作特性情報を、記憶部13に格納し(ステップS104)、全体の処理は終了する。
図3は、本実施形態に係る故障予兆検出装置10が、ストレージ装置20に関する劣化情報を生成する動作を示すフローチャートである。
監視部15は、上位装置30からストレージ装置20に対するアクセスに関する負荷状況を監視する(ステップS201)。監視部15は、負荷状況が所定の条件を満たすか否か判定する(ステップS202)。当該負荷状況が所定の条件を満たさない場合、処理は、ステップS201へ戻る。当該負荷状況が所定の条件を満たす場合、発行部11は、検査用アクセスリクエストによってアクセスされる記憶領域を、ストレージ装置20の中に確保する(ステップS204)。
発行部11は、ストレージ装置20に対する検査用アクセスリクエストを発行する(ステップS205)。収集部12は、検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を収集する(ステップS206)。
統計計算部16は、動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、第二の動作特性情報を生成する(ステップS207)。統計計算部16は、生成した第二の動作特性情報を記憶部13に格納する(ステップS208)。
生成部14は、記憶部13に格納されている第一の動作特性情報と第二の動作特性情報との差分を求めることによって、劣化情報を生成する(ステップS209)。生成部14は、生成した劣化情報を上位装置30へ送信し(ステップS210)、全体の処理は終了する。
本実施形態に係る故障予兆検出装置10は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することができる。その理由は、故障予兆検出装置10は、所定の第一のタイミング、及び、その後の第二のタイミングに、ストレージ装置20に対する検査用アクセスリクエストを発行することによって、それらのタイミングにおけるストレージ装置20の動作特性情報を収集し、その動作特性情報に基づいて、ストレージ装置20に関する劣化情報を生成するからである。
以下に、本実施形態に係る故障予兆検出装置10によって実現される効果について、詳細に説明する。
ストレージ装置において故障の予兆を検知する場合、一般的に、アクセスが行なわれた際のエラーレート、あるいはレイテンシ等を含む動作特性に関する所定の基準(閾値等)に基づいて、ストレージ装置の劣化度合いを判断している。しかしながら、ストレージ装置の動作特性には、その規格、仕様、性能等によって異なるとともに、個体間におけるばらつき(個体差)も存在する。したがって、動作特性に関する所定の基準に基づいて、ストレージ装置の劣化度合いを判断する場合、故障の予兆を高い精度で検知することは困難である。
このような問題に対して、本実施形態に係る故障予兆検出装置10は、発行部11と、収集部12と、記憶部13と、生成部14と、を備え、例えば図1乃至図4を参照して上述した通り動作する。即ち、発行部11は、所定の第一のタイミング、及び、当該第一のタイミングより後の第二のタイミングに、ストレージ装置20に対する検査用アクセスリクエストを発行する。収集部12は、当該検査用アクセスリクエストに応じてストレージ装置20が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する。記憶部13は、第一のタイミングにおける動作特性を表す第一の動作特性情報と、第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する。そして、生成部14は、当該第一の動作特性情報と当該第二の動作特性情報との差分を求めることによって、ストレージ装置20の劣化状態を表す劣化情報を生成する。
即ち、故障予兆検出装置10が劣化情報を生成する際に使用する情報は、所定の第一のタイミングとその後の第二のタイミングとにおいて収集した動作特性を表す情報の差分(相対値)であり、あるタイミングにおける動作特性を表す情報が表す絶対値ではない。故障予兆検出装置10は、このような相対値を使用することによって、絶対値を使用する場合とは異なり、ストレージ装置ごとに異なる、規格、仕様、性能、あるいは、特性のばらつきなどを考慮した(相殺した)劣化情報を生成することができるので、ストレージ装置20が故障する前に、故障の予兆を高い精度で検出することができる。
また、上述した第一のタイミングは、例えば、ストレージ装置20の使用が開始されたときなどの、所定の(予め決められた)タイミングである。即ち、故障予兆検出装置10は、第一のタイミングが固定されている(劣化情報を生成する際の条件(環境)を均一とする)ことによって、ストレージ装置20が故障する前に、故障の予兆を高い精度で検出することができる。尚、第一のタイミングは、ストレージ装置20の使用が開始されたときに限定されない。第一のタイミングは、例えば、ストレージ装置20の使用が開始された後に所定の時間に亘って使用されたタイミングなどであってもよい。
また、本実施形態に係る監視部15は、上位装置30からストレージ装置20に対するアクセスに関する負荷状況を監視し、その負荷状況が所定の条件(当該アクセスに関する負荷が閾値以下であること等)を満たす第二のタイミングが到来したか否かを判定する。即ち、本実施形態に係る故障予兆検出装置10は、第二のタイミングにおいても、劣化情報を生成する際の条件(環境)を均一とすることによって、ストレージ装置20が故障する前に、故障の予兆を高い精度で検出することができる。
また、本実施形態に係る統計計算部16は、発行部11によって発行された複数回の種別が等しい検査用アクセスリクエストに関する動作特性を表す情報に関して統計計算(平均値等の計算)を行なうことによって、統計情報を含む、上述した第一及び第二の動作特性情報を生成する。これにより、本実施形態に係る故障予兆検出装置10は、ストレージ装置20が故障する前に、故障の予兆を、より高い精度で検出することができる。
また、本実施形態に係る発行部11は、ストレージ装置20における未使用の記憶領域を、発行する検査用アクセスリクエストによってアクセスされる記憶領域として、事前に確保する。これにより、本実施形態に係る故障予兆検出装置10は、検査用アクセスリクエストによるライトアクセスによって、上位装置30が使用する、磁気ディスク21に記憶されているデータが破壊されることを回避するので、故障の予兆の検出を、安全に行なうことができる。
さらに、本実施形態に係る故障予兆検出装置10は、RAIDを構成する現用系ディスクである磁気ディスク21乃至23と、待機系ディスクである磁気ディスク24とを含むストレージ装置20の構成を変更可能な構成変更部17を備える。構成変更部17は、例えば磁気ディスク21に関する劣化状態を示す値が閾値以上である場合、磁気ディスク21に記憶されていたデータを磁気ディスク24に複写したのち、磁気ディスク21の代わりに、磁気ディスク24を組み込むように、RAIDの構成を変更する。したがって、本実施形態に係る故障予兆検出装置10は、故障の予兆を検出した結果に基づいて、ストレージ装置20の可用性を高めることができる。
また、本実施形態に係る故障予兆検出装置10は、監視部15、統計計算部16、及び、構成変更部17のうちの少なくともいずれかを含まない、簡易な構成を備えてもよい。
<第2の実施形態>
図4は、本願発明の第2の実施形態に係る故障予兆検出装置40の構成を概念的に示すブロック図である。
実施形態に係る故障予兆検出装置40は、発行部41、収集部42、記憶部43、及び、生成部44を備えている。
発行部41は、所定の第一のタイミング、及び、当該第一のタイミングより後の第二のタイミングに、ストレージ装置50に対する検査用アクセスリクエストを発行する。
収集部42は、当該検査用アクセスリクエストに応じてストレージ装置50が動作したときの動作特性を表す情報を、当該検査用アクセスリクエストごとに収集する。
記憶部43は、当該第一のタイミングにおける動作特性を表す第一の動作特性情報と、当該第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する。
生成部44は、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、ストレージ装置50の劣化状態を表す劣化情報を生成する。
本実施形態に係る故障予兆検出装置40は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することができる。その理由は、故障予兆検出装置40は、所定の第一のタイミング、及び、その後の第二のタイミングに、ストレージ装置50に対する検査用アクセスリクエストを発行することによって、それらのタイミングにおけるストレージ装置50の動作特性情報を収集し、その動作特性情報に基づいて、ストレージ装置50に関する劣化情報を生成するからである。
<ハードウェア構成例>
上述した各実施形態において図1、及び、図4に示した故障予兆検出装置における各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、図1、及び、図4において、少なくとも、下記構成は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。
・発行部11、及び、41、
・収集部12、及び、42、
・記憶部13、及び、43における記憶制御機能、
・生成部14、及び、44、
・監視部15、
・統計計算部16、
・構成変更部17。
但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図5を参照して説明する。
図5は、本願発明の各実施形態に係る故障予兆検出装置を実行可能な情報処理装置900(コンピュータ)の構成を例示的に説明する図である。即ち、図5は、図1、及び、図4に示した故障予兆検出装置を実現可能なコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。
図5に示した情報処理装置900は、構成要素として下記を備えている。
・CPU(Central_Processing_Unit)901、
・ROM(Read_Only_Memory)902、
・RAM(Random_Access_Memory)903、
・ハードディスク(記憶装置)904、
・外部装置との通信インタフェース905、
・バス906(通信線)、
・CD−ROM(Compact_Disc_Read_Only_Memory)等の記録媒体907に格納されたデータを読み書き可能なリーダライタ908、
・入出力インタフェース909。
即ち、上記構成要素を備える情報処理装置900は、これらの構成がバス906を介して接続された一般的なコンピュータである。情報処理装置900は、CPU901を複数備える場合もあれば、マルチコアにより構成されたCPU901を備える場合もある。
そして、上述した実施形態を例に説明した本願発明は、図5に示した情報処理装置900に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図(図1、及び、図4)における上述した構成、或いはフローチャート(図2及び図3)の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのCPU901に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ(RAM903)、または、ROM902やハードディスク904等の不揮発性の記憶デバイスに格納すれば良い。
また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、CD−ROM等の各種記録媒体907を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体907によって構成されると捉えることができる。
以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
1 故障予兆検出システム
10 故障予兆検出装置
11 発行部
12 収集部
13 記憶部
14 生成部
15 監視部
16 統計計算部
17 構成変更部
100 ストレージ制御装置
20 ストレージ装置
21乃至24 磁気ディスク
30 上位装置
40 故障予兆検出装置
41 発行部
42 収集部
43 記憶部
44 生成部
50 ストレージ装置
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク(記憶装置)
905 通信インタフェース
906 バス
907 記録媒体
908 リーダライタ
909 入出力インタフェース

Claims (10)

  1. 所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行手段と、
    前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集手段と、
    前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶する記憶手段と、
    前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成手段と、
    を備える故障予兆検出装置。
  2. 上位装置から前記ストレージ装置に対するアクセスに関する負荷状況を監視し、前記負荷状況が所定の条件を満たす前記第二のタイミングが到来したか否かを判定する監視手段をさらに備える、
    請求項1に記載の故障予兆検出装置。
  3. 統計計算手段をさらに備え、
    前記発行手段は、種別が等しい前記検査用アクセスリクエストを複数回発行し、
    前記統計計算手段は、複数回の前記種別が等しい検査用アクセスリクエストに関する前記動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、前記第一及び第二の動作特性情報を生成する、
    請求項1または請求項2に記載の故障予兆検出装置。
  4. 前記発行手段は、磁気ディスクを有する前記ストレージ装置に対して、前記磁気ディスクの最外周と最内周のトラックをシークするアクセスと、データ転送長が異なる複数のアクセスと、磁気ヘッドの切り替えを伴うアクセスと、シーケンシャルアクセスと、ランダムアクセスと、のうちの少なくともいずれかを実行するための前記検査用アクセスリクエストを発行する、
    請求項1乃至請求項3のいずれか一項に記載の故障予兆検出装置。
  5. 前記収集手段は、シーク時間と、回転待ち時間と、データ転送時間とのうちの少なくともいずれかを含む前記動作特性を表す情報を収集する、
    請求項4に記載の故障予兆検出装置。
  6. 前記発行手段は、前記ストレージ装置の使用が開始されたときを前記第一のタイミングとして、前記ストレージ装置に対する検査用アクセスリクエストを発行する、
    請求項1乃至請求項5のいずれか一項に記載の故障予兆検出装置。
  7. 前記発行手段は、前記ストレージ装置における未使用の記憶領域を、発行する前記検査用アクセスリクエストによってアクセスされる記憶領域として確保する、
    請求項1乃至請求項6のいずれか一項に記載の故障予兆検出装置。
  8. RAID(Redundant Arrays of Inexpensive Disks)を構成する複数の現用系ディスクと、待機系ディスクとを含む前記ストレージ装置の構成を変更する構成変更手段をさらに備え、
    前記生成手段は、前記複数の現用系ディスクと前記待機系ディスクとの劣化状態を表す値が閾値以上であるか否かを示す前記劣化情報を生成し、
    前記構成変更手段は、前記劣化情報が、前記複数の現用系ディスクのうちの特定の現用系ディスクに関する前記劣化状態が閾値以上であることを示す場合、前記特定の現用系ディスクに記憶されていたデータを前記待機系ディスクに複写したのち、前記特定の現用系ディスクの代わりに、前記待機系ディスクを組み込むように、前記RAIDの構成を変更する、
    請求項1乃至請求項7のいずれか一項に記載の故障予兆検出装置。
  9. 情報処理装置によって、
    所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行し、
    前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集し、
    前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶し、
    前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する、
    故障予兆検出方法。
  10. 所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行処理と、
    前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集処理と、
    前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶する記憶処理と、
    前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成処理と、
    をコンピュータに実行させるための故障予兆検出プログラム。
JP2017176812A 2017-09-14 2017-09-14 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム Pending JP2019053486A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017176812A JP2019053486A (ja) 2017-09-14 2017-09-14 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム
US16/644,546 US20200264946A1 (en) 2017-09-14 2018-09-13 Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored
PCT/JP2018/033926 WO2019054434A1 (ja) 2017-09-14 2018-09-13 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017176812A JP2019053486A (ja) 2017-09-14 2017-09-14 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム

Publications (1)

Publication Number Publication Date
JP2019053486A true JP2019053486A (ja) 2019-04-04

Family

ID=65722804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017176812A Pending JP2019053486A (ja) 2017-09-14 2017-09-14 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム

Country Status (3)

Country Link
US (1) US20200264946A1 (ja)
JP (1) JP2019053486A (ja)
WO (1) WO2019054434A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7273669B2 (ja) * 2019-09-13 2023-05-15 株式会社日立製作所 ストレージシステム及びその制御方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322810A (ja) * 1999-05-07 2000-11-24 Toshiba Corp 磁気ディスク装置の診断方法及び診断装置
JP2007011687A (ja) * 2005-06-30 2007-01-18 Fujitsu Ltd ストレージシステム、ストレージ制御装置及びストレージ制御方法
JP2007335012A (ja) * 2006-06-15 2007-12-27 Fujitsu Ltd 制御装置および記憶装置
JP2008084392A (ja) * 2006-09-26 2008-04-10 Nec Corp 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法
JP2009175818A (ja) * 2008-01-22 2009-08-06 Hitachi Ltd 稼働監視によるシステム内のハードディスクを交替するディスク管理方式
JP2010157266A (ja) * 2010-04-09 2010-07-15 Toshiba Corp 情報処理装置、故障予兆判定方法及びプログラム
JP2010277638A (ja) * 2009-05-28 2010-12-09 Hitachi High-Technologies Corp 磁気ヘッドセトリング時間を考慮した最適なシーク時間測定方法およびこの測定方法を使用する検査装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322810A (ja) * 1999-05-07 2000-11-24 Toshiba Corp 磁気ディスク装置の診断方法及び診断装置
JP2007011687A (ja) * 2005-06-30 2007-01-18 Fujitsu Ltd ストレージシステム、ストレージ制御装置及びストレージ制御方法
JP2007335012A (ja) * 2006-06-15 2007-12-27 Fujitsu Ltd 制御装置および記憶装置
JP2008084392A (ja) * 2006-09-26 2008-04-10 Nec Corp 磁気ディスク装置、障害予測装置、磁気ディスク装置の障害予測方法
JP2009175818A (ja) * 2008-01-22 2009-08-06 Hitachi Ltd 稼働監視によるシステム内のハードディスクを交替するディスク管理方式
JP2010277638A (ja) * 2009-05-28 2010-12-09 Hitachi High-Technologies Corp 磁気ヘッドセトリング時間を考慮した最適なシーク時間測定方法およびこの測定方法を使用する検査装置
JP2010157266A (ja) * 2010-04-09 2010-07-15 Toshiba Corp 情報処理装置、故障予兆判定方法及びプログラム

Also Published As

Publication number Publication date
WO2019054434A1 (ja) 2019-03-21
US20200264946A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
US7434097B2 (en) Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US9317350B2 (en) Method and apparatus for faulty memory utilization
US20030212872A1 (en) Distributing workload evenly across storage media in a storage array
US9563552B2 (en) Storage control device and storage control method
JP2009151519A (ja) ストレージ管理装置、ストレージ管理プログラムおよびストレージシステム
US10078455B2 (en) Predicting solid state drive reliability
JP2005322399A (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
US20170017557A1 (en) Storage controlling device, storage controlling method, and non-transitory computer-readable recording medium
JP6369235B2 (ja) ストレージ制御装置およびストレージ制御プログラム
JP5583052B2 (ja) 故障予測・対策方法及びクライアントサーバシステム
WO2015114643A1 (en) Data storage system rebuild
JP2007035217A (ja) ディスク記憶装置のデータ退避処理方法及びディスク記憶システム
JP2008146141A (ja) ストレージシステムと記憶領域の選択方法並びにプログラム
JP2013196274A (ja) マルチノードストレージシステムのノード装置および処理速度管理方法
US9141172B1 (en) Method and apparatus to manage and control a power state of a device set based on availability requirements of corresponding logical addresses
JPWO2012049760A1 (ja) ストレージ制御装置における基準時間設定方法
CN113179665A (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
US7457990B2 (en) Information processing apparatus and information processing recovery method
JP2019053486A (ja) 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラム
US11113163B2 (en) Storage array drive recovery
JP5849491B2 (ja) ディスク制御装置、ディスク装置異常検出方法、及びプログラム
JP5949816B2 (ja) キャッシュ制御装置及びその制御方法、ストレージ装置、並びにコンピュータ・プログラム
US11481324B2 (en) Storage control device, storage medium and storage control method
JP2009020703A (ja) ストレージ装置、ストレージ管理装置、ストレージ管理方法、およびストレージ管理プログラム
JP4605374B2 (ja) 記憶装置の試験方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200714