JP2008198055A - ディスクアレイ障害処理システム、装置、方法、及びプログラム - Google Patents

ディスクアレイ障害処理システム、装置、方法、及びプログラム Download PDF

Info

Publication number
JP2008198055A
JP2008198055A JP2007034485A JP2007034485A JP2008198055A JP 2008198055 A JP2008198055 A JP 2008198055A JP 2007034485 A JP2007034485 A JP 2007034485A JP 2007034485 A JP2007034485 A JP 2007034485A JP 2008198055 A JP2008198055 A JP 2008198055A
Authority
JP
Japan
Prior art keywords
failure
work
disk array
unusable
array device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007034485A
Other languages
English (en)
Inventor
Katsuyoshi Watanabe
勝善 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007034485A priority Critical patent/JP2008198055A/ja
Publication of JP2008198055A publication Critical patent/JP2008198055A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】ディスクアレイ装置のコンポーネントに障害が発生した場合に、オペレータや作業者が故障したディスクアレイ装置内の部材を容易に特定できるようにする。
【解決手段】ディスクアレイ装置のコンポーネントに障害が発生すると、サーバ2(又はディスクアレイ装置1のコントローラ21)は、障害対応として実行すべきではない不可作業を特定する。そして、サーバ2やディスクアレイ装置1の表示部に、特定した「実施すべきでない作業」を表示する。さらに、サーバ2(又はコントローラ21)は、特定できる場合には、障害対応として実行すべき推奨作業を特定する。そして、サーバ2やディスクアレイ装置1の表示部に、特定した「実施すべき作業」を表示し、オペレータや作業者が障害コンポーネントの識別作業を容易に行えるようにする。
【選択図】図5

Description

本発明は、ディスクアレイ装置の障害処理を行うディスクアレイ障害処理システム、ディスクアレイ障害処理装置、ディスクアレイ障害処理方法、及びディスクアレイ障害処理プログラムに関する。また、本発明は、ディスクアレイ障害装置が備えるディスクアレイ装置に関する。
サーバを中心としたコンピュータシステムにおいて、ディスクアレイ装置が用いられることも多い。このようなディスクアレイ装置は、一般に、24時間連続して稼動させることを想定して設計されている。
ディスクアレイ装置は、複数のハードディスクドライブをはじめ、RAIDコントローラや電源ユニット、ファン、1枚又は複数枚のインタフェースボード等のコンポーネントを含む。また、それらのコンポーネントは通常冗長化されており、1つのコンポーネントが壊れてもディスクアレイ装置の稼動が停止しないように構成されている。また、故障したコンポーネントを交換することにより、正常な状態に戻り稼動が継続される。
ディスクアレイ装置内のコンポーネントが故障した場合、コンピュータシステムのオペレータや作業者は、通常、コンピュータシステム内のサーバに記録されるログや、ディスクアレイ装置のLEDの表示に基づいて、故障したコンポーネントを識別する。
また、ディスクアレイ装置にLCD等の表示部が搭載されている場合もある。この場合、ディスクアレイ装置はそれらの表示部にエラー内容を表示し、オペレータや作業者は、ディスクアレイ装置の表示部に表示される情報も考慮して障害内容を判断する。
上記のように、オペレータや作業者は、サーバのログや、ディスクアレイ装置のLED表示、LCD表示を確認することにより、コンポーネントが故障した場合に、ディスクアレイ装置の稼動を中断せずに、故障したコンポーネントを交換することが可能である。
例えば、特許文献1には、ディスクアレイ装置において何らかの障害が発生した場合に、対応するLEDを点灯させるように構成することが記載されている。また、例えば、特許文献2には、ディスクアレイ装置の障害が発生したときに障害情報を本体装置に通知するようにディスクアレイシステムを構成することが記載されている。
特開2004−103053号公報(段落0030−0033、図4) 特開2005−275813号公報(段落0035−0037、図2−3)
しかし、特許文献1等に記載されたディスクアレイ装置では、障害発生時にLED等を用いた表示がされるにすぎず、具体的にどのような対応を行うかについては、オペレータや作業者が表示内容を参考にして自分で判断しなければならない。この場合、オペレータや作業者が正常なコンポーネントと故障したコンポーネントとの識別を誤り、正常なコンポーネントを誤って交換してしまうと、ディスクアレイ装置の動作停止に陥る可能性もある。
また、特許文献2に記載されたディスクアレイシステムを用いたとしても、障害情報を本体装置(ディスクアレイ装置を管理するサーバ)に通知することができるにすぎない。そのため、障害発生時に、故障したコンポーネントをオペレータや作業者が特定することはできず、どのような障害対応を行えばよいかを判断することはできない。
ディスクアレイ装置のコンポーネントに障害が発生した場合、オペレータや作業者が障害内容を正しく判断し、故障したコンポーネントを正確に識別できれば問題はない。しかし、ディスクアレイ装置の構成や稼動状態にも依存するが、故障したコンポーネントを識別することが難しい場合もある。
故障したコンポーネントを識別する際に、誤った判断がなされ、正常なコンポーネントと故障したコンポーネントとを誤認し、誤って正常なコンポーネントを交換した場合等には、障害がさらに悪化してしまう。また、場合によっては、ディスクアレイ装置の稼動が停止してしまう。
例えば、ディスクアレイ装置にHDD(ハードディスクドライブ)を2台だけ実装し、RAID1と呼ばれる規格でアレイを構築したとする。このRAID1と呼ばれる企画で構成されたアレイでは、HDDが1台故障しても、データの消失等がなく、ディスクアレイ装置の稼動を継続できる。また、故障したHDDを正常なHDDと交換すれば、ディスクアレイ装置を元の状態に戻すことができる。
ここで、1台のハードディスクドライブが故障した時点では、故障したHDDを示すLEDと正常なHDDを示すLEDとが異なる表示状態となる。そのため、ある程度熟練したオペレータや作業者であれば、どちらのHDDが故障したかを識別できるようになっている。なお、一般に、ディスクアレイ装置において、通常、故障したHDDを示すLEDを橙色に点滅させ、正常なHDDを示すLEDを橙色に点灯させることが多い。また、ディスクアレイ装置を管理するサーバに、どのHDDが故障したかを示すログ情報も記録される。
ある一定レベルの知識をもったオペレータや作業者であれば、LEDの表示やログ情報から故障したHDDを識別し、正常なHDDと交換することができる。しかし、必ずしも、ディスクアレイ装置のLED表示やログ情報を適切に判断できる知識をもったオペレータや作業者が、ディスクアレイ装置の障害対応を行うとは限らない。十分な知識をもっていいないオペレータや作業者が障害対応を行わなければならない場合、LED表示等の判断を誤り、誤って正常なHDDを交換してしまう虞がある。
また、故障したコンポーネントのみを確実に識別できるように表示できれば、オペレータや作業者が誤認する可能性は少ないが、実際には、正常なコンポーネントであるにも関わらず、LEDに故障であるような表示がなされたりログ情報として記録されることもある。そのような場合には、オペレータや作業者が、LED表示やログ情報から故障したコンポーネントを特定することは難しく、交換対象のコンポーネントを誤認してしまう可能性がある。
本発明は、ディスクアレイ装置に障害が発生した場合に、オペレータや作業者が故障したコンポーネントを誤認してしまう事態を低減できるディスクアレイ障害処理システム、ディスクアレイ障害処理装置、ディスクアレイ装置、ディスクアレイ障害処理方法、及びディスクアレイ障害処理プログラムを提供することを目的とする。また、本発明は、ディスクアレイ装置に障害が発生した場合に、オペレータや作業者が誤った障害対応の作業を行ってしまうことを低減できるとともに、オペレータや作業者に対してどのような障害対応の作業を実施すべきかの判断を支援できるディスクアレイ障害処理システム、ディスクアレイ障害処理装置、ディスクアレイ装置、ディスクアレイ障害処理方法、及びディスクアレイ障害処理プログラムを提供することを目的とする。
本発明によるディスクアレイ障害処理システムは、ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムであって、ディスクアレイ装置の障害を検出する障害検出手段(例えば、コントローラ21によって実現される)と、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段(例えば、不可作業特定手段203によって実現される)と、不可作業特定手段が特定した不可作業を、ディスクアレイ装置を制御するサーバが備える表示装置(例えば、サーバ2が備えるディスプレイ装置等の表示装置)に表示する不可作業表示手段(例えば、作業内容表示手段207によって実現される)とを備えたことを特徴とする。
また、ディスクアレイ障害処理システムは、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定する推奨作業特定手段(例えば、推奨作業特定手段205によって実現される)と、推奨作業特定手段が特定した推奨作業を、ディスクアレイ装置を制御するサーバが備える表示装置(例えば、サーバ2が備えるディスプレイ装置等の表示装置)に表示する推奨作業表示手段(例えば、作業内容表示手段207によって実現される)とを備えたものであってもよい。
また、本発明によるディスクアレイ障害処理システムの他の態様は、ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムであって、ディスクアレイ装置を制御するサーバ(例えば、サーバ2)を備え、ディスクアレイ装置は、当該ディスクアレイ装置の障害を検出する障害検出手段(例えば、コントローラ21によって実現される)を含み、サーバは、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段(例えば、サーバ2の不可作業特定手段203によって実現される)と、不可作業特定手段が特定した不可作業を表示する不可作業表示手段(例えば、サーバ2の作業内容表示手段207によって実現される)とを含むことを特徴とする。
また、ディスクアレイ障害処理システムにおいて、サーバは、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定する推奨作業特定手段(例えば、サーバ2の推奨作業特定手段205によって実現される)と、推奨作業特定手段が特定した推奨作業を表示する推奨作業表示手段(例えば、サーバ2の作業内容表示手段207によって実現される)とを含むものであってもよい。
また、本発明によるディスクアレイ障害処理システムのさらに他の態様は、ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムであって、ディスクアレイ装置を制御するサーバ(例えば、サーバ2)を備え、ディスクアレイ装置は、当該ディスクアレイ装置の障害を検出する障害検出手段(例えば、コントローラ21によって実現される)と、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段(例えば、不可作業特定手段203をディスクアレイ装置1が備える場合における不可作業特定手段203によって実現される)とを含み、サーバは、不可作業特定手段が特定した不可作業を表示する不可作業表示手段(例えば、サーバ2の作業内容表示手段207によって実現される)を含むことを特徴とする。
また、ディスクアレイ障害処理システムにおいて、ディスクアレイ装置は、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定する推奨作業特定手段(例えば、推奨作業特定手段205をディスクアレイ装置1が備える場合における推奨作業特定手段205にによって実現される)を含み、サーバは、推奨作業特定手段が特定した推奨作業を表示する推奨作業表示手段(例えば、サーバ2の作業内容表示手段207によって実現される)を含むようにしてもよい。
また、ディスクアレイ障害処理システムにおいて、ディスクアレイ装置は、不可作業特定手段が特定した不可作業を表示する装置側不可作業表示手段(例えば、ディスクアレイ装置1が表示部26として備えるLCD)を含むようにしてもよい。
また、ディスクアレイ障害処理システムにおいて、ディスクアレイ装置は、推奨作業特定手段が特定した推奨作業を表示する装置側推奨作業表示手段(例えば、ディスクアレイ装置1が表示部26として備えるLCD)を含むようにしてもよい。
また、ディスクアレイ障害処理システムにおいて、障害検出手段は、ディスクアレイ装置の障害箇所を特定可能な障害情報(例えば、エラー情報)を出力し、不可作業を示す不可作業情報を障害情報に対応付けて記憶する不可作業対応情報記憶手段(例えば、不可作業対応テーブル204を記憶するサーバ2の記憶装置によって実現される)を備え、不可作業特定手段は、障害検出手段が出力する障害情報に対応する不可作業情報を不可作業対応情報記憶手段から抽出することによって、不可作業を特定するようにしてもよい。
また、ディスクアレイ障害処理システムにおいて、障害検出手段は、ディスクアレイ装置の障害箇所を特定可能な障害情報を出力し、推奨作業を示す推奨作業情報を障害情報に対応付けて記憶する推奨作業対応情報記憶手段(例えば、推奨作業対応テーブル206を記憶するサーバ2の記憶装置によって実現される)を備え、推奨作業特定手段は、障害検出手段が出力する障害情報に対応する推奨作業情報を不可作業対応情報記憶手段から抽出することによって、推奨作業を特定するようにしてもよい。
本発明によるディスクアレイ障害処理装置は、ディスクアレイ装置の障害を処理するディスクアレイ障害処理装置(例えば、サーバ2)であって、ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段(例えば、不可作業特定手段203によって実現される)と、不可作業特定手段が特定した不可作業を表示する不可作業表示手段(例えば、作業内容表示手段207によって実現される)とを備えたことを特徴とする。
本発明によるディスクアレイ装置は、ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムが備えるディスクアレイ装置(例えば、ディスクアレイ装置1)であって、当該ディスクアレイ装置の障害を検出する障害検出手段(例えば、コントローラ21によって実現される)と、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段(例えば、不可作業特定手段203をディスクアレイ装置1が備える場合における不可作業特定手段203によって実現される)と、不可作業特定手段が特定した不可作業を示す情報を、当該ディスクアレイ装置を制御するサーバに送信する不可作業送信手段(例えば、コントローラ21によって実現される)とを備えたことを特徴とする。
本発明によるディスクアレイ障害処理方法は、ディスクアレイ装置の障害を処理するディスクアレイ障害処理方法であって、ディスクアレイ装置の障害を検出するステップと、ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定するステップと、特定した不可作業を、ディスクアレイ装置を制御するサーバが備える表示装置に表示するステップとを含むことを特徴とする。
本発明によるディスクアレイ障害処理プログラムは、ディスクアレイ装置の障害を処理するためのディスクアレイ障害処理プログラムであって、コンピュータに、ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する処理と、特定した不可作業を表示する処理とを実行させるためのものである。
本発明では、ディスクアレイ装置に障害が発生した場合に、「実施すべきでない作業」をディスクアレイ装置に接続されたサーバに表示する。また、ディスクアレイ装置がLCD等の表示部を有する場合には、そのディスクアレイ装置の表示部にも「実施すべきでない作業」を表示する。「実施すべきでない作業」が分かれば、オペレータや作業者が、障害対応において誤った作業を行ってしまう事態を減らすことができる。さらに、障害要因が特定でき復旧させるための作業を人間の判断なしにディスクアレイ装置やサーバが割り出す(特定する)ことができれば、「実施すべき作業」をディスクアレイ装置に接続されたサーバに表示する。また、ディスクアレイ装置がLCD等の表示部を有する場合もじゃ。そのディスクアレイ装置の表示部にも「実施すべき作業」を表示する。
本発明によれば、ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定し、特定した不可作業をサーバが備える表示装置に表示する。従って、ディスクアレイ装置に障害が発生した場合に、オペレータや作業者が故障したコンポーネントを誤認してしまう事態を低減することができる。また、単にLED表示等を行うだけでなく、不可作業を特定して表示できるので、ディスクアレイ装置に障害が発生した場合に、オペレータや作業者が誤った障害対応の作業を行ってしまう事態を低減することができる。
また、本発明によれば、ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定し、特定した推奨作業をサーバが備える表示装置に表示するように構成すれば、単にLED表示等を行うだけでなく、推奨作業を特定して表示できるので、オペレータや作業者に対してどのような障害対応の作業を実施すべきかの判断を支援することができる。
以下、本発明の実施の形態を図面を参照して説明する。図1は、本発明によるディスクアレイ障害処理方法を用いたディスクアレイシステムの構成の一例を示す説明図である。図1に示すように、ディスクアレイシステムは、ディスクアレイ装置1と、サーバ2とを含む。なお、この実施の形態において、ディスクアレイ障害処理システムは、ディスクアレイシステムによって実現される。
サーバ2は、ディスクアレイ装置1を管理するための装置であり、具体的には、プログラムに従って動作するワークステーションやパーソナルコンピュータ等の情報処理装置によって実現される。図1に示すように、サーバ2は、ディスクアレイ装置1と接続するためのインタフェースボード3が実装されている。また、サーバ2は、ディスクアレイ装置1を管理/制御するための管理ソフトウェア4が搭載されている。なお、管理ソフトウェア4は、ディスクアレイ装置1に搭載されたハードディスクドライブのレイドの構築をはじめ、ディスクアレイ装置1の種々の設定を行うためのソフトウェアである。
また、図1に示すように、ディスクアレイ装置1とサーバ2とは、インタフェースケーブル5を介して接続される。具体的には、ディスクアレイ装置1は、インタフェースケーブル5を介して、サーバ2のインタフェースボード3に接続される。なお、インタフェースボード3は、具体的には、SCSIやファイバチャネル等のインタフェース規格を用いたボードである。
図2は、ディスクアレイ装置1の構成の一例を示すブロック図である。図2に示すように、ディスクアレイ装置1は、コントローラ21、インタフェース部A22、インタフェース部B23、ハードディスクドライブ24(HDD)、インタフェース部C25、表示部26、インタフェース部D27及び電源ユニット28を含む。
なお、図2では、1つのハードディスクドライブ24を示しているが、ディスクアレイ装置1は、複数のハードディスクドライブ24を含む。この実施の形態では、ディスクアレイ装置1は、4つのハードディスクドライブ24を含むものとする。以下、ディスクアレイ装置1が含む4つのハードディスクドライブ24を、それぞれHDD−a(装置IDが「a」)、HDD−b(装置IDが「b」)、HDD−c(装置IDが「c」)及びHDD−d(装置IDが「d」)とも表現する。なお、ディスクアレイ装置1は、4つのハードディスクドライブ24を含むものに限られない。例えば、ディスクアレイ装置1は、2つ又は3つのハードディスクドライブ24を含んでいてもよく、5以上のハードディスクドライブ24を含んでいてもよい。
コントローラ21は、ディスクアレイ装置1の心臓部であり、CPUやメモリ等が実装される。また、コントローラ21(具体的には、コントローラ21が搭載するCPU)は、メモリ等に記憶するプログラムに従って動作し、各ハードディスクドライブ24へのデータの読み書きをはじめ、種々の制御を行う機能を備える。また、コントローラ21は、インタフェース部A22及びインタフェースケーブル5を介して、サーバ2と通信を行う機能を備える。なお、インタフェース部A22は、例えば、SCSIやファイバチャネル等のインタフェース規格を用いたボードである。
また、コントローラ21は、インタフェース部B23を介して、各ハードディスクドライ24を制御する機能を備える。また、コントローラ21は、インタフェース部C25を介して、表示部26を用いた表示制御を行う機能を備える。さらに、コントローラ21は、インタフェース部D27を介して、電源ユニット28(ファン等を含む)の監視や制御を行う機能を備える。
また、コントローラ21は、ディスクアレイ装置1の障害を検出する機能を備える。具体的には、コントローラ21は、ハードディスクドライブ24や電源ユニット28の障害発生時に、ハードディスクドライブ24や電源ユニット28からエラー信号を入力する機能を備える。また、コントローラ21は、入力したエラー信号に基づいて、ディスクアレイ装置1の障害が発生したことを示すエラー情報を、インタフェース部A22及びインタフェースケーブル5を介してサーバ2に送信する機能を備える。なお、コントローラ21は、各インタフェース部23,27を介した制御状態に異常が生じたことに基づいて、ハードディスクドライブ24や電源ユニット28の障害が発生したことを検出してもよい。
また、コントローラ21は、コントローラ21自身の障害を検出する機能を備える。例えば、コントローラ21は、コントローラ21内の電圧降下等を検出すると、障害が発生したと判断する。また、コントローラ21は、コントローラ21自身の障害が発生したことを示すエラー情報を、インタフェース部A22及びインタフェースケーブル5を介してサーバ2に送信する機能を備える。
なお、コントローラ21は、障害が発生したコンポーネント(コントローラ21や、ハードディスクドライブ24、電源ユニット28)を特定可能なエラー情報をサーバ2に送信する。
ハードディスクドライブ24は、ハードディスクドライブ24自身の障害を検出する機能を備える。例えば、ハードディスクドライブ24は、ハードディスクドライブ24内の電圧降下等を検出すると、障害が発生したと判断する。また、ハードディスクドライブ24は、障害発生を検出すると、エラー信号をインタフェース部B23を介してコントローラ21に出力する機能を備える。
電源ユニット28は、電源ユニット28自身の障害を検出する機能を備える。例えば、電源ユニット28は、電源ユニット28内の電圧降下等を検出すると、障害が発生したと判断する。また、電源ユニット28は、障害発生を検出すると、エラー信号をインタフェース部D27を介してコントローラ21に出力する機能を備える。
表示部26は、具体的には、ディスクアレイ装置1のフロントベゼル等に搭載されているLED等の表示器である。なお、一般に、ディスクアレイ装置1は、表示部26としてLEDを搭載している場合が多いが、表示部26としてLCDを搭載していてもよい。
図3は、サーバ2の構成の一例を示す機能ブロック図である。図3に示すように、サーバ2は、エラー情報受信手段201、エラーログ記録手段202、不可作業判定手段203、不可作業対応テーブル204、推奨作業判定手段205、推奨作業対応テーブル206及び作業内容表示手段207を含む。
エラー情報受信手段201は、具体的には、プログラム(例えば、管理ソフトウェア4)に従って動作する情報処理装置のCPU及びインタフェースボード3によって実現される。エラー情報受信手段201は、ディスクアレイ装置1から、インタフェースケーブル5を介してエラー情報を受信する機能を備える。
エラーログ記録手段202は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。エラーログ記録手段202は、エラー情報受信手段201が受信したエラー情報をログ情報として記録する機能を備える。この場合、例えば、エラーログ記録手段202は、サーバ2が備える磁気ディスク装置等の記憶装置(図示せず)に、ログ情報を記憶させる。
不可作業特定手段203は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。不可作業特定手段203は、エラー情報受信手段201が受信したエラー情報と不可作業対応テーブル204とに基づいて、オペレータや作業者が行うべきではない作業(以下、不可作業ともいう)を特定する機能を備える。
不可作業対応テーブル204は、具体的には、サーバ2が備える磁気ディスク装置等の記憶装置(図示せず)に記憶される。不可作業対応テーブル204は、不可作業をエラー情報に対応付けて含む。例えば、不可作業対応テーブル204は、ディスクアレイ装置1のハードディスクドライブ24のうちHDD−aの障害を示すエラー情報に対応付けて、不可作業として、「コントローラの取り外し」、「電源の取り外し」、「HDD ID bの取り外し」、「HDD ID cの取り外し」及び「HDD ID dの取り外し」を含む。
推奨作業特定手段205は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。推奨作業特定手段205は、エラー情報受信手段201が受信したエラー情報と推奨作業対応テーブル206とに基づいて、オペレータや作業者が行うべき作業(以下、推奨作業ともいう)を特定する機能を備える。
推奨作業対応テーブル206は、具体的には、サーバ2が備える磁気ディスク装置等の記憶装置(図示せず)に記憶される。推奨作業対応テーブル206は、推奨作業をエラー情報に対応付けて含む。例えば、推奨作業対応テーブル206は、HDD−aの障害を示すエラー情報に対応付けて、推奨作業として「HDD ID aの交換」を含む。
作業内容表示手段207は、具体的には、プログラムに従って動作する情報処理装置のCPU及びディスプレイ装置等の表示装置によって実現される。作業内容表示手段207は、不可作業特定手段203が特定した不可作業を表示装置に表示する機能を備える。また、作業内容表示手段207は、推奨作業特定手段205が推奨作業を特定した場合には、不可作業とともに推奨作業を表示装置に表示する機能を備える。
なお、本実施の形態において、サーバ2の記憶装置(図示せず)は、ディスクアレイ装置1の障害を処理するための各種プログラムを記憶している。例えば、サーバ2の記憶装置は、コンピュータに、ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する処理と、特定した不可作業を表示する処理とを実行させるためのディスクアレイ障害処理プログラムを記憶している。
次に、動作について説明する。まず、ディスクアレイ装置1において障害が発生したときの障害対応手順の概要を説明する。図4は、本発明によるディスクアレイ障害処理方法を用いた場合の障害処理フローを示す流れ図である。図4に示すように、ディスクアレイ装置1の障害が発生すると(ステップS31)、サーバ2は、障害が発生したことを示すログ情報を登録する(ステップS32)。また、ディスクアレイ装置1がLEDやLCD等の表示部を搭載している場合には、障害に応じた表示がなされる。
次に、サーバ2の表示装置に「行うべきでない作業」が表示される。また、サーバ2が「行うべき作業」を判断できた場合には、サーバ2の表示装置に「行うべき作業」も表示される(ステップS33)。
次に、それら表示された情報に基づいて、オペレータや作業者は、ディスクアレイ装置1において障害が発生したコンポーネント(障害コンポーネント)を特定する(ステップS34)。そして、オペレータや作業者は、障害コンポーネントが分かれば、特定した障害コンポーネントを交換する(ステップS35)。また、障害コンポーネントを交換できれば、ディスクアレイ装置1を正常な稼動状態に復帰させることができる(ステップS36)。
次に、ディスクアレイ装置1及びサーバ2が実行する具体的な処理動作について説明する。図5は、ディスクアレイ装置1及びサーバ2が実行するディスクアレイ障害処理の一例を示す流れ図である。本実施の形態では、稼動中のディスクアレイ装置1において複数のハードディスクドライブ24(HDD)が搭載されており、各ハードディスクドライブ24のIDをそれぞれ「a」、「b」、「c」及び「d」とする。
以下、IDが「a」であるHDD−aが故障した場合を例に説明する。また、コントローラ21や電源ユニット28、HDD−a以外のHDD24は正常に動作しているものとし、これらの交換は必要ないものとする。
ディスクアレイ装置1のコントローラ21は、HDD−aの障害を検出すると(ステップS101)、HDD−aの障害発生を特定可能なエラー情報を、インタフェースケーブル5を介してサーバ2に送信する(ステップS102)。
サーバ2のエラー情報受信手段201は、ディスクアレイ装置1から、インタフェースケーブル5を介してエラー情報を受信する。すると、エラーログ記録手段202は、受信したエラー情報をログ情報として記録する(ステップS103)。この場合、エラーログ記録手段202は、サーバ2が備える磁気ディスク装置等の記憶装置(図示せず)にログ情報を記憶させる。
また、不可作業特定手段203は、受信したエラー情報と不可作業対応テーブル204とに基づいて、障害対応の作業としてオペレータや作業者が行うべきでない作業(不可作業)を特定する(ステップS104)。例えば、HDD−aの障害発生を特定可能なエラー情報を受信した場合、不可作業特定手段203は、不可作業対応テーブル204に含まれる不可作業のうち、HDD−aの障害発生を特定可能なエラー情報に対応する不可作業を抽出する。この場合、例えば、不可作業特定手段203は、不可作業対応テーブル204から、不可作業として、「コントローラの取り外し」、「電源の取り外し」、「HDD ID bの取り外し」、「HDD ID cの取り外し」及び「HDD ID dの取り外し」を抽出する。
また、推奨作業特定手段205は、受信したエラー情報と推奨作業対応テーブル206とに基づいて、障害対応の作業としてオペレータや作業者が行うべき作業(推奨作業)を特定する(ステップS105)。例えば、HDD−aの障害発生を特定可能なエラー情報を受信した場合、推奨作業特定手段205は、推奨作業対応テーブル206に含まれる推奨作業のうち、HDD−aの障害発生を特定可能なエラー情報に対応する推奨作業を抽出する。この場合、例えば、推奨作業特定手段205は、推奨作業対応テーブル206から、推奨作業として「HDD ID aの交換」を抽出する。なお、推奨作業特定手段205は、受信したエラー情報に対応する推奨作業が推奨作業対応テーブル206に含まれない場合には、推奨作業を特定不能と判断する。
そして、作業内容表示手段207は、不可作業特定手段203が特定した不可作業を、ディスプレイ装置等の表示装置に表示する(ステップS106)。また、作業内容表示手段207は、推奨作業特定手段205が推奨作業を特定できた場合には、不可作業とともに、推奨作業特定手段205が特定した推奨作業を表示装置に表示する。
なお、ディスクアレイ装置1がLCDを備える場合には、ディスクアレイ装置1のLCDにおいても不可作業や推奨作業を表示するようにしてもよい。この場合、例えば、サーバ2は、不可作業特定手段203が特定した不可作業や、推奨作業特定手段205が特定した推奨作業を示す情報を、インタフェースケーブル5を介してディスクアレイ装置1に送信する。そして、ディスクアレイ装置1は、受信した情報に基づいて、不可作業や推奨作業をLCDに表示する。
図6は、不可作業及び推奨作業の表示例を示す説明図である。HDD−aの障害が発生した場合、図6に示すように、サーバ2は、「実施すべきでない作業」として、コントローラ21や電源ユニット28、HDD−a以外のHDDの取り外しを示す内容を含む表示画面(ログ情報)を表示する。また、ディスクアレイ装置1がLCDを備える場合には、図6に示す不可作業がディスクアレイ装置1のLCDにも表示される。
単にLED表示等を行うだけでなく、「実施すべきでない作業」が表示されることによって、障害対応の作業として行うべきでない作業を容易に認識することができ、オペレータや作業者が誤った作業を行ってしまう事態を低減することができる。
また、推奨作業特定手段205が推奨作業を特定できた場合には、図6に示すように、サーバ2は、不可作業とともに、「実施すべき作業」としてIDが「a」であるHDDの交換をすべきである旨の表示画面を表示する。単にLED表示等を行うだけでなく、推奨作業が特定できた場合には、「実施すべき作業」として「HDD ID aの交換」等の表示がされることによって、障害対応の作業として行うべき作業を容易に認識することができ、オペレータや作業者が障害対応の作業を判断して実行することを支援できる。また、具体的な具体的な不可作業や推奨作業の内容を表示することによって、オペレータや作業者が、障害対応において判断ミスをしてしまう事態を減らすことができる。
なお、推奨作業特定手段205が推奨作業を特定できなかった場合には、サーバ2は、不可作業のみを示す表示画面を表示すればよい。この場合、例えば、サーバ2は、図7に示すように、「実施すべきでない作業」のみを含む表示画面をディスプレイ装置等の表示装置に表示する。例えば、ディスクアレイ装置1からエラー情報としてHDD−aの障害発生を示すエラー情報とともにコントローラ21の障害発生を示すエラー情報を受信した場合(複合エラーの場合)には、サーバ2は、HDD−aの交換によって直ちに障害を復旧できるとは限らない。この場合、サーバ2は、受信したエラー情報に基づいて不可作業のみを特定するようにし、図7に示すように、不可作業のみを表示するようにしてもよい。
また、例えば、ディスクアレイ装置1のコンポーネントのうち冗長化されていないコンポーネント(コントローラ21や電源ユニット28)の障害発生を示すエラー情報を受信した場合には、推奨作業を特定できないと判断して、不可作業のみを特定するようにしてもよい。
また、本実施の形態では、不可作業及び推奨作業をサーバ2が特定する場合を示したが、ディスクアレイ装置1が特定するようにしてもよい。この場合、例えば、ディスクアレイ装置1のコントローラ21は、障害処理を実行させるためのソフトウェアを搭載し、図3に示した不可作業特定手段203や不可作業対応テーブル204、推奨作業特定手段205、推奨作業対応テーブル206をディスクアレイ装置1が備えるようにすればよい。
不可作業及び推奨作業をディスクアレイ装置1側で特定する場合、ディスクアレイ装置1は、障害の発生を検出すると、図5に示したステップS104と同様の処理に従って不可作業を特定するとともに、ステップS105と同様の処理に従って推奨作業を特定する。また、ディスクアレイ装置1(具体的には、コントローラ21)は、特定した不可作業及び推奨作業を示す情報を、インタフェースケーブル5を介してサーバ2に送信する。そして、サーバ2は、受信した情報に基づいて、図6や図7と同様の表示態様に従って、不可作業や推奨作業を表示装置に表示する。また、ディスクアレイ装置1がLCDを備えている場合には、ディスクアレイ装置1は、特定した不可作業や推奨作業をLCDに表示するようにしてもよい。
以上のように、本実施の形態によれば、ディスクアレイ装置1は、ディスクアレイ装置1内のコンポーネントの障害を検出し、サーバ2にエラー情報を送信する。また、サーバ2は、受信したエラー情報に基づいて、障害対応の作業として実行すべきではない不可作業を特定する。そして、サーバ2は、特定した不可作業をディスプレイ装置等の表示装置に表示する。従って、ディスクアレイ装置に障害が発生した場合に、オペレータや作業者が故障したコンポーネントを誤認してしまう事態を低減することができる。
また、本実施の形態によれば、単にLED表示等を行うだけでなく、不可作業を特定して表示できるので、ディスクアレイ装置に障害が発生した場合に、オペレータや作業者が誤った障害対応の作業を行ってしまう事態を低減することができる。
また、本実施の形態によれば、サーバ2は、受信したエラー情報に基づいて、障害対応の作業として実行すべき推奨作業を特定する。そして、サーバ2は、特定した推奨作業をディスプレイ装置等の表示装置に表示する。そのため、単にLED表示等を行うだけでなく、推奨作業を特定して表示できるので、オペレータや作業者に対してどのような障害対応の作業を実施すべきかの判断を支援することができる。
本発明は、ディスクアレイ装置を用いたコンピュータシステムに適用できる。特に、ディスクアレイ装置において障害が発生した時に、オペレータや作業者が故障交換作業等の障害対応の作業を行うことを支援する用途に適用できる。
本発明によるディスクアレイ障害処理方法を用いたディスクアレイシステムの構成の一例を示す説明図である。 ディスクアレイ装置の構成の一例を示すブロック図である。 サーバの構成の一例を示す機能ブロック図である。 本発明によるディスクアレイ障害処理方法を用いた場合の障害処理フローを示す流れ図である。 ディスクアレイ装置及びサーバが実行するディスクアレイ障害処理の一例を示す流れ図である。 不可作業及び推奨作業の表示例を示す説明図である。 不可作業及び推奨作業の他の表示例を示す説明図である。
符号の説明
1 ディスクアレイ装置
2 サーバ
3 インタフェースボード
4 管理ソフトウェア
5 インタフェースケーブル
21 コントローラ
22 インタフェース部A
23 インタフェース部B
24 ハードディスクドライブ
25 インタフェース部C
26 表示部
27 インタフェース部D
28 電源ユニット
201 エラー情報受信手段
202 エラーログ記録手段
203 不可作業特定手段
204 不可作業対応テーブル
205 推奨作業特定手段
206 推奨作業対応テーブル
207 作業内容表示手段

Claims (14)

  1. ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムであって、
    前記ディスクアレイ装置の障害を検出する障害検出手段と、
    前記障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段と、
    前記不可作業特定手段が特定した不可作業を、前記ディスクアレイ装置を制御するサーバが備える表示装置に表示する不可作業表示手段とを
    備えたことを特徴とするディスクアレイ障害処理システム。
  2. 障害検出手段の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定する推奨作業特定手段と、
    前記推奨作業特定手段が特定した推奨作業を、ディスクアレイ装置を制御するサーバが備える表示装置に表示する推奨作業表示手段とを備えた
    請求項1記載のディスクアレイ障害処理システム。
  3. ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムであって、
    前記ディスクアレイ装置を制御するサーバを備え、
    前記ディスクアレイ装置は、当該ディスクアレイ装置の障害を検出する障害検出手段を含み、
    前記サーバは、
    前記障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段と、
    前記不可作業特定手段が特定した不可作業を表示する不可作業表示手段とを含む
    ことを特徴とするディスクアレイ障害処理システム。
  4. サーバは、
    障害検出手段の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定する推奨作業特定手段と、
    前記推奨作業特定手段が特定した推奨作業を表示する推奨作業表示手段とを含む
    請求項3記載のディスクアレイ障害処理システム。
  5. ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムであって、
    前記ディスクアレイ装置を制御するサーバを備え、
    前記ディスクアレイ装置は、
    当該ディスクアレイ装置の障害を検出する障害検出手段と、
    前記障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段とを含み、
    前記サーバは、前記不可作業特定手段が特定した不可作業を表示する不可作業表示手段を含む
    ことを特徴とするディスクアレイ障害処理システム。
  6. ディスクアレイ装置は、障害検出手段の検出結果に基づいて、障害対応の作業として実行すべき推奨作業を特定する推奨作業特定手段を含み、
    サーバは、前記推奨作業特定手段が特定した推奨作業を表示する推奨作業表示手段を含む
    請求項5記載のディスクアレイ障害処理システム。
  7. ディスクアレイ装置は、不可作業特定手段が特定した不可作業を表示する装置側不可作業表示手段を含む請求項1から請求項6のうちのいずれか1項に記載のディスクアレイ障害処理システム。
  8. ディスクアレイ装置は、推奨作業特定手段が特定した推奨作業を表示する装置側推奨作業表示手段を含む請求項1から請求項7のうちのいずれか1項に記載のディスクアレイ障害処理システム。
  9. 障害検出手段は、ディスクアレイ装置の障害箇所を特定可能な障害情報を出力し、
    不可作業を示す不可作業情報を前記障害情報に対応付けて記憶する不可作業対応情報記憶手段を備え、
    不可作業特定手段は、前記障害検出手段が出力する障害情報に対応する不可作業情報を前記不可作業対応情報記憶手段から抽出することによって、不可作業を特定する
    請求項1から請求項8のうちのいずれか1項に記載のディスクアレイ障害処理システム。
  10. 障害検出手段は、ディスクアレイ装置の障害箇所を特定可能な障害情報を出力し、
    推奨作業を示す推奨作業情報を前記障害情報に対応付けて記憶する推奨作業対応情報記憶手段を備え、
    推奨作業特定手段は、前記障害検出手段が出力する障害情報に対応する推奨作業情報を前記不可作業対応情報記憶手段から抽出することによって、推奨作業を特定する
    請求項1から請求項9のうちのいずれか1項に記載のディスクアレイ障害処理システム。
  11. ディスクアレイ装置の障害を処理するディスクアレイ障害処理装置であって、
    前記ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段と、
    前記不可作業特定手段が特定した不可作業を表示する不可作業表示手段とを
    備えたことを特徴とするディスクアレイ障害処理装置。
  12. ディスクアレイ装置の障害を処理するディスクアレイ障害処理システムが備えるディスクアレイ装置であって、
    当該ディスクアレイ装置の障害を検出する障害検出手段と、
    前記障害検出手段の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する不可作業特定手段と、
    前記不可作業特定手段が特定した不可作業を示す情報を、当該ディスクアレイ装置を制御するサーバに送信する不可作業送信手段とを
    備えたことを特徴とするディスクアレイ装置。
  13. ディスクアレイ装置の障害を処理するディスクアレイ障害処理方法であって、
    前記ディスクアレイ装置の障害を検出するステップと、
    前記ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定するステップと、
    特定した前記不可作業を、前記ディスクアレイ装置を制御するサーバが備える表示装置に表示するステップとを
    含むことを特徴とするディスクアレイ障害処理方法。
  14. ディスクアレイ装置の障害を処理するためのディスクアレイ障害処理プログラムであって、
    コンピュータに、
    前記ディスクアレイ装置の障害の検出結果に基づいて、障害対応の作業として実行すべきではない不可作業を特定する処理と、
    特定した前記不可作業を表示する処理とを
    実行させるためのディスクアレイ障害処理プログラム。
JP2007034485A 2007-02-15 2007-02-15 ディスクアレイ障害処理システム、装置、方法、及びプログラム Pending JP2008198055A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007034485A JP2008198055A (ja) 2007-02-15 2007-02-15 ディスクアレイ障害処理システム、装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007034485A JP2008198055A (ja) 2007-02-15 2007-02-15 ディスクアレイ障害処理システム、装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2008198055A true JP2008198055A (ja) 2008-08-28

Family

ID=39756920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007034485A Pending JP2008198055A (ja) 2007-02-15 2007-02-15 ディスクアレイ障害処理システム、装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2008198055A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003141A (ja) * 2009-06-22 2011-01-06 Nec Access Technica Ltd 通信装置および取り外し対象指定方法
JP2020170249A (ja) * 2019-04-01 2020-10-15 Necプラットフォームズ株式会社 保守支援システム、保守支援方法及び保守支援用コンピュータプログラム
JP2022000824A (ja) * 2019-12-09 2022-01-04 Necプラットフォームズ株式会社 サーバシステム、検出方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003141A (ja) * 2009-06-22 2011-01-06 Nec Access Technica Ltd 通信装置および取り外し対象指定方法
JP2020170249A (ja) * 2019-04-01 2020-10-15 Necプラットフォームズ株式会社 保守支援システム、保守支援方法及び保守支援用コンピュータプログラム
JP2022000824A (ja) * 2019-12-09 2022-01-04 Necプラットフォームズ株式会社 サーバシステム、検出方法及びプログラム

Similar Documents

Publication Publication Date Title
CN103955417A (zh) 一种电脑硬盘数据检测设备及方法
US7568122B2 (en) Method and apparatus for identifying a faulty component on a multiple component field replaceable unit
JP5052193B2 (ja) 記憶制御装置および記憶制御方法
TWI479309B (zh) 控制固態硬碟的裝置及方法
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
JP2007286937A (ja) ストレージ装置及びストレージ装置の電源障害管理方法
US20070220506A1 (en) Software update method, update management program and information processing apparatus
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
JP2008186296A (ja) ストレージシステム、ストレージ装置、ファームウェアの活性交換方法、ファームウェアの活性交換プログラム
JP2001209561A (ja) 異常処理方式及び異常処理方法
US20080282113A1 (en) Failure information management method and apparatus, failure detection method and apparatus, electronic apparatus, information processing apparatus and computer-readable storage medium
US8099634B2 (en) Autonomic component service state management for a multiple function component
JP4356634B2 (ja) 故障診断回路とこの故障診断回路を備えた情報処理装置、故障診断システム及び故障診断プログラム
JP4426939B2 (ja) ストレージ装置
JP2006235673A (ja) ディスクアレイ装置
JP2008198055A (ja) ディスクアレイ障害処理システム、装置、方法、及びプログラム
US20070234107A1 (en) Dynamic storage data protection
JP4500346B2 (ja) ストレージシステム
JP7057168B2 (ja) 故障検出装置および故障解析方法
US7533297B2 (en) Fault isolation in a microcontroller based computer
WO2008050455A1 (fr) Appareil de traitement d'anomalies de lignes d'adresses, procédé de traitement d'anomalies de lignes d'adresses, programme de traitement d'anomalies de lignes d'adresses, appareil de traitement d'informations et unité de commande de mémoire
US7996497B2 (en) Method of handling duplicate or invalid node controller IDs in a distributed service processor environment
JP2007018049A (ja) 記憶制御システム
JP4715552B2 (ja) 障害検出方式
US8156315B2 (en) Information processing apparatus and operation method of the same