JP2007249441A

JP2007249441A - 仮想化システム及び障害対処方法

Info

Publication number: JP2007249441A
Application number: JP2006070163A
Authority: JP
Inventors: Masayuki Furukawa; 正幸古川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-03-15
Filing date: 2006-03-15
Publication date: 2007-09-27
Also published as: US20070220376A1; EP1835402A2

Abstract

【課題】
保守作業の作業効率を向上させ得る仮想化システム及び障害対処方法を提案する。
【解決手段】
１又は複数のストレージ装置と、当該１又は複数のストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムにおいて、仮想化装置が、いずれかのストレージ装置に障害が発生したことを検出し、仮想化装置が、いずれかのストレージ装置に障害が発生したことを障害発生検出部が検出したことを契機として、当該ストレージ装置から障害の詳細情報でなる障害情報を採集するようにした。
【選択図】図１１

Description

本発明は、仮想化システム及び障害対処方法に関し、例えば複数のストレージ装置を備える記憶システムに適用して好適なものである。

近年、複数のストレージ装置をホスト装置に対して１つのストレージ装置に見せる仮想化技術が提唱されている。

かかる仮想化技術を採用した記憶システムでは、他のストレージ装置を仮想化するストレージ装置（以下、これを上位ストレージ装置と呼ぶ）がホスト装置との間の通信を行う。そして上位ストレージ装置は、仮想化したストレージ装置（以下、下位ストレージ装置と呼ぶ）に対するホスト装置からのデータ入出力要求を当該下位ストレージ装置に転送する。また、このデータ入出力要求を受信した下位ストレージ装置は、当該データ入出力要求に応じたデータ入出力処理を実行する。

このような仮想化技術によれば、異なるタイプの複数のストレージ装置を連携させて、これらストレージ装置が提供する記憶資源を有効利用でき、また新たなストレージ装置の増設をシステム全体に影響を及ぼすことなく行なうことができる（特許文献１参照）。
特開２００５−１０７６４５号公報

ところで、かかる仮想化技術に基づき構築された記憶システムにおいて、下位ストレージ装置は、ホスト装置からのデータ入出力要求に応じたデータ入出力処理時に障害が発生し、要求されたデータを読み書きできなかった場合、上位ストレージ装置を介してホスト装置に障害が発生した旨の通知（以下、これを障害発生通知と呼ぶ）を送信する。従って、上位ストレージ装置は、いずれかの下位ストレージ装置に障害が発生した場合には、当該下位ストレージ装置から送信されてくる障害発生通知に基づいて、その事実を認識することができる。

しかしながら、かかる従来の記憶システムでは、下位ストレージ装置に発生した障害の具体的な内容については、下位ストレージ装置からホスト装置には報告されない。このため、かかる従来の記憶システムでは、かかる下位ストレージ装置の障害に対処する際、保守員がその下位ストレージ装置の具体的な障害内容を直接その下位ストレージ装置から収集する必要があった。

この場合において、近年の情報化社会の発展に伴い、今後より一層と数多くのストレージ装置を用いて仮想化技術を導入した記憶システムが構築されることが予想される。そしてこのような記憶システムでは、同じタイミングで複数台の下位ストレージ装置に障害が発生する事態も考えられるため、保守作業の作業効率の観点からも、障害が発生した複数台の下位ストレージ装置の障害内容を一括して保守員が認識できるような仕組みの構築が望まれる。

本発明は以上の点を考慮してなされたもので、保守作業の作業効率を向上させ得る仮想化システム及び障害対処方法を提案しようとするものである。

かかる課題を解決するため本発明においては、１又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムであって、各上記ストレージ装置は、自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信し、前記仮想化装置は、前記ストレージ装置から送信される前記障害情報を記憶することを特徴とする。

この結果、この記憶システムでは、複数のストレージ装置に障害が発生した場合においても、これらストレージ装置の障害内容を仮想化装置から一括して取得することができ、その分、保守作業時の障害情報の収集作業を簡略化させることができる。

また本発明においては、１又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムにおける障害対処方法であって、各上記ストレージ装置が、自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信する第１のステップと、前記仮想化装置が、前記ストレージ装置から送信される前記障害情報を記憶する第２のステップとを備えることを特徴とする。

この結果、この障害対処方法によれば、複数のストレージ装置に障害が発生した場合においても、これらストレージ装置の障害内容を仮想化装置から一括して取得することができ、その分、保守作業時の障害情報の収集作業を簡略化させることができる。

本発明によれば、保守作業の作業効率を向上させ得る仮想化システム及び障害対処方法を実現できる。

以下図面について、本発明の一実施の形態を詳述する。

（１）本実施の形態による記憶システムの構成
図１において、１は全体として本実施の形態による記憶システムを示す。この記憶システム１では、上位装置としてのホスト装置２が第１のネットワーク３を介して上位ストレージ装置４に接続され、当該上位ストレージ装置４に第２のネットワーク５を介して複数の下位ストレージ装置６が接続されている。また上位ストレージ装置４及び各下位ストレージ装置６は、それぞれ第３のネットワーク７を介して自ストレージ装置のベンダのサービス拠点８に設置されたサーバ装置９と接続されている。

ホスト装置２は、ＣＰＵ（Central Processing Unit）やメモリ等の情報処理資源を備えたメインフレーム系のコンピュータ装置から構成される。メモリに格納された各種制御プログラムをＣＰＵが実行することにより、ホスト装置２全体として各種の制御処理を実行する。また、ホスト装置２は、キーボード、スイッチやポインティングデバイス、マイクロフォン等の情報入力装置（図示せず）と、モニタディスプレイやスピーカ等の情報出力装置（図示せず）とを備える。

第１及び第２のネットワーク３，５は、例えばＳＡＮ（Storage Area Network）、ＬＡＮ（Local Area Network）、インターネット、公衆回線又は専用回線などから構成される。これら第１又は第２ネットワーク３，５を介したホスト装置２及び上位ストレージ装置４間の通信や、上位ストレージ装置４及び下位ストレージ装置６間の通信は、例えば第１又は第２のネットワーク３，５がＳＡＮである場合にはファイバーチャネルプロトコルに従って行われ、第１又は第２のネットワーク３，５がＬＡＮである場合にはＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）プロトコルに従って行われる。

上位ストレージ装置４は、ホスト装置２に対して下位ストレージ装置６が提供する記憶領域を仮想化する機能を有するもので、図２に示すように、データを記憶する複数のディスクデバイス１０からなるディスクデバイス群１１と、ディスクデバイス群１１に対するデータの入出力を制御するコントローラ１２とを備えて構成される。

このうちディスクデバイス１０としては、例えばＳＣＳＩ（Small Computer System Interface）ディスク等の高価なディスク、又はＳＡＴＡ（Serial AT Attachment）ディスクや光ディスク等の安価なディスクが適用される。

各ディスクデバイス１０は、コントローラ１２によりＲＡＩＤ方式で運用される。１又は複数のディスクデバイス１０により提供される物理的な記憶領域上に、１又は複数の論理的なボリューム（以下、これを論理ボリュームと呼ぶ）ＶＯＬが設定される。そしてデータは、この論理ボリュームＶＯＬ内に所定大きさのブロック（以下、これを論理ブロックと呼ぶ）を単位として記憶される。

各論理ボリュームＶＯＬには、それぞれ固有の識別子（以下、これをＬＵ（Logical Unit number）と呼ぶ）が付与される。本実施の形態の場合、データの入出力は、このＬＵと、各論理ブロックにそれぞれ付与されるその論理ブロックに固有の番号（ＬＢＡ：Logical Block Address）とを組み合わせたものをアドレスとして、当該アドレスを指定して行われる。

一方、コントローラ１２は、複数のチャネルアダプタ１３、接続部１４、共有メモリ１５、キャッシュメモリ１６、複数のディスクアダプタ１７及び管理端末１８を備えて構成される。

各チャネルアダプタ１３は、それぞれマイクロプロセッサ、メモリ及び通信インタフェース等を備えたマイクロコンピュータシステムとして構成されており、それぞれ第１又は第２のネットワーク３，５に接続するためのポートを備える。チャネルアダプタ１３は、ホスト装置２から第１のネットワーク３を介して送信される各種コマンドを解釈して対応する処理を実行する。各チャネルアダプタ１３のポートには、それぞれを識別するためのネットワークアドレス（例えば、ＩＰアドレスやＷＷＮ）が割り当てられており、これにより各チャネルアダプタ１３がそれぞれ個別にＮＡＳ（Network Attached Storage）として振る舞うことができるようになされている。

接続部１４は、チャネルアダプタ１３、共有メモリ１５、キャッシュメモリ１６及びディスクアダプタ１７と接続されている。チャネルアダプタ１３、共有メモリ１５、キャッシュメモリ１６及びディスクアダプタ１７間でのデータやコマンドの授受は、この接続部１４を介して行われる。接続部１４は、例えば高速スイッチングによりデータ伝送を行う超高速クロスバススイッチなどのスイッチ又はバス等で構成される。

共有メモリ１５は、チャネルアダプタ１３及びディスクアダプタ１０により共有される記憶メモリである。共有メモリ１５は、例えば上位ストレージ装置４内に設定された各論理ボリュームＶＯＬの容量や、システム管理者により入力された各ディスクデバイス１０の性能（例えば平均シーク時間、平均回転待ち時間、ディスク回転数、アクセス速度及びデータバッファ容量）などの上位ストレージ装置４全体の構成に関するシステム構成情報を記憶するために利用される。また共有メモリ１５には、ＣＰＵ１９により継続的に収集される自ストレージ装置の稼働状況に関する情報、例えば自ストレージ装置のオン・オフ回数や、各ディスクデバイス１０の合計稼働時間及び連続稼働時間、各論理ボリュームＶＯＬに対するホスト装置２からのアクセスの合計回数及び間隔なども格納される。

キャッシュメモリ１６も、チャネルアダプタ１３及びディスクアダプタ１０により共有される記憶メモリである。このキャッシュメモリ１６には、主に上位ストレージ装置４に入出力するデータを一時的に記憶するために利用される。

各ディスクアダプタ１７は、マイクロプロセッサやメモリ等を備えたマイクロコンピュータシステムとして構成され、各ディスクデバイス１０との通信時におけるプロトコル制御を行うインタフェースとして機能する。これらディスクアダプタ１７は、例えばファイバーチャネルケーブルを介して対応するディスクデバイス１０と接続されており、ファイバーチャネルプロトコルに従ってこれらディスクデバイス１０との間のデータの授受を行う。

管理端末１８は、ＣＰＵ１９及びメモリ２０を備えたコンピュータ装置であり、例えばノート型のパーソナルコンピュータから構成される。後述の制御情報２１及び障害情報２２は、この管理端末１８のメモリ２０に保持される。管理端末１８は、ＬＡＮ２３を介して各チャネルアダプタ１３とそれぞれ接続され、ＬＡＮ２４を介して各ディスクアダプタ１７とそれぞれ接続されている。管理端末１８は、これらチャネルアダプタ１３及びディスクアダプタ１４を介して上位ストレージ装置４内の障害の有無を監視する。また管理端末１８は、これらチャネルアダプタ１３やディスクアダプタ１４を介して共有メモリ１５にアクセスし、システム構成情報等の必要な情報を取得し又は更新することができる。

下位ストレージ装置６は、図２において上位ストレージ装置４との対応部分に同一符号に『Ａ』を付して示したように、管理端末２５のメモリ２０Ａに保持される制御情報２６及び障害情報２７の構成を除いて上位ストレージ装置４と同様に構成されている。下位ストレージ装置６は、１つのチャネルアダプタ１３Ａが第２のネットワーク５を介して上位ストレージ装置４のいずれかのチャネルアダプタ１３と接続されており、この第２のネットワーク５を通じて必要なコマンドやデータを上位ストレージ装置４との間で送受し得るようになされている。

また下位ストレージ装置６の管理端末２５は、例えばインターネットからなる第３のネットワーク７を介して上位ストレージ装置４の管理端末１８と接続されており、この第３のネットワーク７を通じて当該上位ストレージ装置４の管理端末１８との間でコマンドや必要な情報を送受し得るようになされている。

サーバ装置９は、ホスト装置２と同様に、ＣＰＵやメモリ等の情報処理資源と、キーボード、スイッチやポインティングデバイス、マイクロフォン等の情報入力装置（図示せず）と、モニタディスプレイやスピーカ等の情報出力装置（図示せず）とを備えたメインフレーム系のコンピュータ装置である。メモリに格納された各種制御プログラムをＣＰＵが実行することにより、後述のように上位ストレージ装置４から送信される障害情報２２，２７の解析処理等を実行する。

（２）障害情報集約機能
（２−１）記憶システムにおける障害情報集約機能
次に、本実施の形態による記憶システム１に搭載された障害情報集約機能について説明する。

本実施の形態による記憶システム１は、いずれかの下位ストレージ装置６から上述の障害発生通知がホスト装置に送信された場合、その中継を行なう上位ストレージ装置４が当該障害発生通知に基づいてその下位ストレージ装置６に障害が発生したことを検出したことを契機として、当該上位ストレージ装置４が各下位ストレージ装置６から障害の詳細情報でなる障害情報２７を採集するようになされた点を特徴とする。これによりこの記憶システム１では、メンテナンスの際にシステム管理者が上位ストレージ装置４から当該上位ストレージ装置４が採集した障害情報２７を読み出すことによって、どの下位ストレージ装置６のどの部位にどのような障害が発生したかを直ちに認識できるようになされている。

このような障害情報集約機能を実現するため、上位ストレージ装置４の管理端末１８のメモリ２０には、上述の制御情報２１として、図３に示すように、障害情報採集プログラム３０、危険性ランク判定プログラム３１、ベンダ確認プログラム３２、障害情報作成プログラム３３、障害情報報告プログラム３４及び未使用ボリューム管理プログラム３５と、ベンダ情報管理テーブル３６、自ストレージ用未使用ボリューム管理テーブル３７及びシステム用未使用ボリューム管理テーブル３８とが格納されている。

このうち障害情報採集プログラム３０は、下位ストレージ装置６から障害情報２７（図２）を採集するためのプログラムである。上位ストレージ装置４は、必要時、この障害情報採集プログラム３０に基づいて下位ストレージ装置６に障害情報２７（図２）の作成及び作成した障害情報２７の自ストレージ装置への送信を要求する。

危険性ランク判定プログラム３１は、自ストレージ装置内の交換可能な各部位について、これらの部位にどの程度障害が発生するおそれがあるかを判定するためのプログラムである。上位ストレージ装置４は、障害下位ストレージ装置６の障害発生部位と同一の部位が自ストレージ装置４内又は記憶システム１内に存在する場合、この危険性ランク判定プログラムに従って、当該同一部位の稼働状況等に基づいて、当該同一部位に障害が発生するおそれの程度（以下、これを危険性ランクと呼ぶ）を判定する。

ベンダ確認プログラム３２は、各下位ストレージ装置６が作成した障害情報２７（図２）のうちの採集可能な情報を管理するためのプログラムである。後述のように、この記憶システム１では、下位ストレージ装置６に対して、当該下位ストレージ装置６が作成した障害情報２７（図２）の一部又は全部を上位ストレージ装置４に通知しないように設定することができる。そこで、上位ストレージ装置４は、このベンダ確認プログラム３２に基づいて、各下位ストレージ装置６について、障害情報２７のうちのどの詳細情報の通知が許可され、どの詳細情報の通知が不許可となっているかを、ベンダ情報管理テーブル３６を用いて管理する。

障害情報作成プログラム３３は、障害情報２２を作成するためのプログラムである。上位ストレージ装置４は、この障害情報作成プログラム３４に基づいて、上位ストレージ装置４及び記憶システム１全体についての障害情報２２（図２）を作成する。

障害情報報告プログラム３４は、作成した障害情報２２をシステム管理者に提示するためのプログラムである。上位ストレージ装置４は、作成した障害情報２２をこの障害情報報告プログラム３４に基づき、システム管理者からの要求に応じて、管理端末１８のディスプレイ（図示せず）に表示する。

さらに未使用ボリューム管理プログラム３５は、未使用の論理ボリューム（以下、これを単に未使用ボリュームと呼ぶ）ＶＯＬを管理するためのプログラムである。上位ストレージ装置４は、この未使用ボリューム管理プログラム３５に基づいて後述の自ストレージ未使用ボリューム管理テーブル３７及びシステム未使用ボリューム管理テーブル３８を作成し、これら自ストレージ未使用ボリューム管理テーブル３７及びシステム未使用ボリューム管理テーブル３８を用いて自ストレージ装置内及び記憶システム１内の未使用ボリュームを管理する。

ベンダ情報管理テーブル３６は、各下位ストレージ装置６において、その下位ストレージ装置６が作成する障害情報２７（図１）のうち、どの詳細情報が上位ストレージ装置４に対して通知可能に設定され、どの詳細情報が通知不可に設定されているかを管理するためのテーブルであり、図４に示すように、「下位ストレージ装置」フィールド４０、「ベンダ」フィールド４１及び「情報通知可否」フィールド４２から構成される。

このうち「下位ストレージ装置」フィールド４０には、上位ストレージ装置４に接続された各下位ストレージ装置６のＩＤ（識別子）が格納される。また「ベンダ」フィールド４１には、その下位ストレージ装置６のベンダが上位ストレージ装置４のベンダと同じであるか否かの情報（「同一」又は「否」）が格納される。

さらに「情報通知可否」フィールド４２には、障害情報２７を構成する各詳細情報にそれぞれ対応させて、複数の「障害情報」フィールド４２Ａ〜４２Ｅが設けられており、これら「障害情報」フィールド４２Ａ〜４２Ｅ内に、それぞれ対応する詳細情報の通知が許可又は不許可のいずれに設定されているかを表す情報（「可」又は「否」）が格納される。

この場合、障害情報２７の詳細情報としては、交換可能な部位であって、障害復旧のために交換すべき部位を表す交換部位情報（障害情報１）や、データ書込み時又はデータ読出し時といった障害発生時のシステム内部状況を表す障害発生時システム内部状況情報（障害情報２）、その下位ストレージ装置全体やデバイスごとの稼働時間、電源のオン・オフ回数、連続稼働時間、アクセス間隔及びアクセス回数などからなるシステム稼働情報（障害情報３）、その下位ストレージ装置の製造番号などのその他情報（障害情報４）、及び各交換可能な部位ごとの危険性ランクである危険性ランク情報（障害情報５）がある。

従って、例えば図４の例では、「Ａ」というＩＤの下位ストレージ装置６では、上位ストレージ装置４とベンダが同じであり、障害情報２７（図２）のうちの障害情報１から障害情報５までのすべてが上位ストレージ装置４に通知可能に設定されているのに対して、「Ｃ」という識別番号の下位ストレージ装置６では、上位ストレージ装置４とベンダが異なり、障害情報２７のうちの障害情報１のみが上位ストレージ装置４に通知可能に設定されていることが分かる。

なお、このベンダ情報管理テーブル３６における「下位ストレージ装置」フィールド４０や、「ベンダ」フィールド４１及び「情報通知可否」フィールド４２の各情報は、システム管理者により手入力で設定される。ただし、このような情報を予めベンダが下位ストレージ装置６に設定し、上位ストレージ装置４が所定のタイミングでこの情報を採集してベンダ情報管理テーブル３６を作成するようにしても良い。

自ストレージ未使用ボリューム管理テーブル３７は、自ストレージ装置内の未使用ボリュームＶＯＬを管理するためのテーブルであり、図５に示すように、「エントリ番号」フィールド５０、「未使用ボリューム管理番号」フィールド５１、「空き容量」フィールド５２、「平均シーク時間」フィールド５３、「平均回転待ち時間」フィールド５４、「ディスク回転数」フィールド５５、「アクセス速度」フィールド５６及び「データバッファ容量」フィールド５７から構成される。

このうち「エントリ番号」フィールド５０には、その未使用ボリュームＶＯＬの自ストレージ未使用ボリューム管理テーブル３７へのエントリ番号が格納される。また「未使用ボリューム管理番号」フィールド５１及び「空き容量」フィールド５２には、それぞれその未使用ボリュームＶＯＬの管理番号（ＬＵＮ）や容量が格納される。

さらに「平均シーク時間」フィールド５３、「平均回転待ち時間」フィールド５４、「ディスク回転数」フィールド５５、「アクセス速度」フィールド５６及び「データバッファ容量」フィールド５７には、それぞれその未使用ボリュームＶＯＬが設定された記憶領域を提供するディスクデバイス１０（図２）の平均シーク時間、平均回転待ち時間、１秒当たりのディスク回転数、アクセス速度及びデータバッファ容量が格納される。なお、これらディスクデバイス１０の性能に関する数値は、システム管理者等により予め上位ストレージ装置４に入力されたものである。

さらにシステム未使用ボリューム管理テーブル３８は、記憶システム１内に存在する未使用ボリュームＶＯＬを管理するためのテーブルである。このシステム未使用ボリューム管理テーブル３８は、図６に示すように、「エントリ番号」フィールド６０、「未使用ボリューム管理番号」フィールド６１、「空き容量」フィールド６２、「平均シーク時間」フィールド６３、「平均回転待ち時間」フィールド６４、「ディスク回転数」フィールド６５、「アクセス速度」フィールド６６及び「データバッファ容量」フィールド６７から構成される。

そして「未使用ボリューム管理番号」フィールド６１には、仮想ストレージシステム内の各未使用ボリュームＶＯＬについて、その未使用ボリュームＶＯＬが存在するストレージ装置（上位ストレージ装置４又は下位ストレージ装置６）の識別番号と、当該未使用ボリュームＶＯＬの管理番号（ＬＵＮ）とを組み合わせた管理番号が格納される。

また「エントリ番号」フィールド６０、「空き容量」フィールド６２、「平均シーク時間」フィールド６３、「平均回転待ち時間」フィールド６４、「ディスク回転数」フィールド６５、「アクセス速度」フィールド６６及び「データバッファ容量」フィールド６７には、自ストレージ未使用ボリューム管理テーブル３７における対応するフィールド５０，５２〜５７と同じデータが格納される。

一方、上述の障害情報集約機能に関連して各下位ストレージ装置６の管理端末２５（図２）のメモリ２０Ａ（図２）には、上述の制御情報２６（図２）として、図７に示すように、危険性ランク判定プログラム７０、ベンダ確認プログラム７１、障害情報作成プログラム７２、障害情報作成プログラム７３及び未使用ボリューム管理プログラム７４と、ベンダ情報管理テーブル７５及び自ストレージ未使用ボリューム管理テーブル７６とが格納されている。

この場合、危険性ランク判定プログラム７０が自ストレージ装置（下位ストレージ装置６）のみについての危険性ランクの判定処理を実行し、ベンダ確認プログラム７１が上位ストレージ装置４に報告可能な障害情報２７（図２）の構成要素のみを管理し、障害情報作成プログラム７２が自ストレージ装置についての障害情報のみを作成し、障害情報報告プログラム７３が上位ストレージ装置４に対して自ストレージ装置の障害情報を報告し、未使用ボリューム管理プログラム７４が自ストレージ装置内の未使用ボリュームＶＯＬのみを管理する点を除いて、いずれのプログラム７０〜７４も図３について上述した制御情報２１の対応するプログラム３１〜３５と同様の機能を有するものであるため、これらの説明は省略する。

ベンダ情報管理テーブル７５は、その下位ストレージ装置６が作成する障害情報２７のうち、上位ストレージ装置４に対してどの詳細情報が通知可能で、どの詳細情報が通知不可に設定されているかを管理するためのテーブルであり、図８に示すように、「上位ストレージ装置」フィールド８０、「ベンダ」フィールド８１及び「情報通知可否」フィールド８２から構成される。

このうち「上位ストレージ装置」フィールド８０には、上位ストレージ装置４のＩＤが格納される。また「ベンダ」フィールド８１には、自ストレージ装置のベンダが上位ストレージ装置４のベンダと同じであるか否かを表す情報（「同一」又は「否」）が格納される。

さらに「情報通知可否」フィールド８２には、上位用ベンダ情報管理テーブル３６（図４）と同様に、障害情報２７の各詳細情報にそれぞれ対応させて複数の「障害情報」フィールド８２Ａ〜８２Ｆが設けられており、これら「障害情報」フィールド８２Ａ〜８２Ｅ内に、それぞれ障害情報２２のうちの対応する詳細情報の通知が許可又は不許可のいずれに設定されているかを表す情報（「可」又は「否」）が格納される。

さらに「情報通知可否」フィールド８２には、「未使用ボリューム情報」フィールド８２Ｆも設けられており、この「未使用ボリューム情報」フィールド８２に、未使用ボリューム管理プログラム７４により管理されている自ストレージ装置内の未使用ボリュームＶＯＬについての情報（図５参照）が上位ストレージ装置４に通知可能又は通知不可（上位ストレージ装置４への通知が許可又は不許可）のいずれに設定されているかを表す情報（「可」又は「不可」）が格納される。

従って、例えば図８の例では、上位ストレージ装置４のＩＤは「Ｚ」であって、その下位ストレージ装置６とベンダが同じであり、その下位ストレージ装置６は、障害情報２７のうちの障害情報１から障害情報５までのすべて詳細情報が上位ストレージ装置４に通知可能に設定され、さらに未使用ボリュームＶＯＬに関する情報についても上位ストレージ装置４に通知可能に設定されていることが分かる。

なお、このベンダ情報管理テーブル７５における「上位ストレージ装置」フィールド８０や、「ベンダ」フィールド８１及び「情報通知可否」フィールド８２の各情報は、その下位ストレージ装置６の設置の際に当該下位ストレージ装置６のベンダにより設定される。

他方、上位ストレージ装置４の管理端末１８のメモリ２０（図２）には、上述の障害情報集約機能に関連して、図９に示すように、自ストレージ装置についての障害情報である自ストレージ障害情報９０と、記憶システム１全体についての障害情報であるシステム障害情報９１とからなる障害情報２２が保持される。

このうち自ストレージ障害情報９０は、自ストレージ装置に関する上述の交換部位情報９１Ａ、障害発生時システム内部状況情報９２Ａ、システム稼働状況情報９３Ａ及びその他情報９５Ａと、自ストレージ装置内の各交換可能な部位ごとの危険性ランク情報９６Ａとから構成される。

またシステム障害情報９１は、仮想ストレージシステム全体に関する交換部位情報９２Ｂ、障害発生時システム内部状況情報９２Ｂ、システム稼働状況情報９３Ｂ及びその他情報９５Ｂと、記憶システム１における各交換可能な部位ごとの危険性ランク情報９６Ａとから構成される。

これに対して、下位ストレージ装置６の管理端末２５（図２）のメモリ２０Ａ（図２）には、障害情報集約機能に関連して、図１０に示すように、自ストレージ装置に関する障害情報のみからなる障害情報２７が保持される。この障害情報２７は、図９について上述した自ストレージ障害情報９０と同様のものであるので、説明は省略する。

（２−２）障害情報集約処理
次に、上述の障害情報集約機能に関する上位ストレージ装置４及び各下位ストレージ装置６の具体的な処理内容について、ユーザが使用する論理ボリュームＶＯＬに障害が発生した場合を例に説明する。

図１１及び図１２は、かかる障害情報集約機能に関する上位ストレージ装置４及び下位ストレージ装置６の処理の流れを示している。

上位ストレージ装置４は、ホスト装置２からのデータ入出力要求を受信すると、これを対応する下位ストレージ装置６に転送する（ＳＰ１）。そして下位ストレージ装置６は、このデータ入出力要求を受信すると、これに応じたデータ入出力処理を実行する（ＳＰ２）。

このとき下位ストレージ装置２は、かかるデータ入出力処理を行なっている論理ボリュームＶＯＬに障害が発生すると（ＳＰ３）、通常のデータの送受経路を通じて、上述の障害発生通知を上位ストレージ装置４を介してホスト装置２に送信する（ＳＰ４）。またこのときこの下位ストレージ装置４の管理端末２５のＣＰＵ（以下、これを下位ＣＰＵと呼ぶ）１９Ａは、かかるホスト装置２への報告とは別に、上位ストレージ装置４の管理端末１８に障害が発生した旨を報告する（ＳＰ４）。

そしてかかる障害が発生した下位ストレージ装置（以下、これを障害下位ストレージ装置と呼ぶ）６の下位ＣＰＵ１９Ａは、この後、共有メモリ１５Ａ（図２）に格納された自ストレージ装置（障害下位ストレージ装置６）のシステム構成情報などに基づいて、図１０について上述した障害情報２７を作成する（ＳＰ６）。

続いて、障害下位ストレージ装置６の下位ＣＰＵ１９Ａは、ベンダ情報管理テーブル７５（図７）に基づいて、障害情報２７のうちのどの詳細情報（交換部位情報９２Ｃ、障害発生時システム内部状況情報９３Ｃ、システム稼働情報９４Ｃ又はその他情報９５Ｃ）が上位ストレージ装置４に対して通知可能に設定されているかを判断する（ＳＰ７）。そしてかかる下位ＣＰＵ１９Ａは、この判断結果に基づいて、ステップＳＰ７において作成した障害情報２７のうちの通知可能に設定されている詳細情報を上位ストレージ装置４に送信する（ＳＰ８）。

なお、上位ストレージ装置４の管理端末１８のＣＰＵ（以下、これを上位ＣＰＵと呼ぶ）１９は、下位ストレージ装置６からの障害発生通知を受信した場合であって、その後一定期間内にこの障害下位ストレージ装置６から障害情報２７が送信されてこなかったときには、ベンダ情報管理テーブル３６（図４）に基づいて、まず、その障害下位ストレージ装置６について通知可能に設定されている障害情報２７の詳細情報の種類を確認する。そして上位ＣＰＵ１９は、障害情報採集プログラム３０に基づいて、この後かかる障害下位ストレージ装置６に対し、通知可能に設定されている障害情報２７の詳細情報を転送すべき旨のコマンド（以下、これを障害情報送信要求コマンドと呼ぶ）を障害下位ストレージ装置６に送信する。このようにして、上位ＣＰＵ１９は、障害下位ストレージ装置の障害情報２７を採集する（ＳＰ５）。

一方、上位ＣＰＵ１９は、障害下位ストレージ装置６から送信された障害情報２７を受信すると、障害情報報告プログラム３４（図３）に従って、この障害情報２７を自ストレージ装置のベンダのサービス拠点８に設置されたサーバ装置９に送信する（ＳＰ９）。またかかるサーバ装置９は、かかる障害情報２７を受信すると、これを障害下位ストレージ装置６のベンダのサービス拠点８に設置されたサーバ装置９に転送する。これによりこの記憶システム１では、かかる障害下位ストレージ装置６のベンダがこの障害情報２７に基づいて、自己が製造販売した障害下位ストレージ装置６の障害内容を解析することができる。

続いて上位ＣＰＵ１９は、障害情報作成プログラム３３（図３）に従い、障害下位ストレージ装置６から与えられた障害情報２７に基づいて、図９について上述した障害情報２２のうちのシステム障害情報９１を作成する（ＳＰ１０）。この際、上位ＣＰＵ１９は、障害下位ストレージ装置６から採集することができなかった通知不可に設定されている障害情報２７の詳細情報については、システム管理者による保守の際に当該障害下位ストレージ装置６から直接取得すべき旨の情報をシステム障害情報９１に追加する（ＳＰ１０）。

また上位ＣＰＵ１９は、この後、障害が発生していない他の下位ストレージ装置（以下、これを未障害下位ストレージ装置と呼ぶ）６からも障害情報２７を採集するため、障害情報採集プログラム３０に従って、まず、各未障害下位ストレージ装置６について、ベンダ情報管理テーブル３６（図３）を参照し、その未障害下位ストレージ装置６について通知可能に設定されている障害情報２７（図１０）の詳細情報の種類をそれぞれ確認する。そして上位ＣＰＵ１９は、未障害下位ストレージ装置６ごとに、通知可能に設定されている障害情報２７の詳細情報を送信すべき旨の障害情報送信要求コマンドを送信する（ＳＰ１１）。

さらに上位ＣＰＵ１９は、この後、障害情報作成プログラム３３（図３）に従い、共有メモリ１５に格納されたその下位ストレージ装置６のシステム構成情報などに基づいて、図９について上述した障害情報２２のうちの自ストレージ障害情報９０を作成する（ＳＰ１２）。

一方、障害情報送信要求コマンドを受信した各未障害下位ストレージ装置６の下位ＣＰＵ１９Ａは、障害情報作成プログラム７２（図７）に従い、共有メモリ１５Ａ（図２）に格納された自ストレージ装置６のシステム構成情報などに基づいて、自ストレージ装置についての障害情報２７を作成する（ＳＰ１３）。

そして各未障害下位ストレージ装置６の下位ＣＰＵ１９Ａは、この後、障害情報報告プログラム７３（図７）に従い、自ストレージ装置のベンダ情報管理テーブル７５（図８）に基づいて、ステップＳ１３において作成した障害情報２７のうちの上位ストレージ装置４に通知可能に設定されている詳細情報の種類を確認し、これら通知可能に設定されている詳細情報のみを上位ストレージ装置６に送信する（ＳＰ１５）。

そして、未障害下位ストレージ装置６から送信されてきた障害情報２７を受信した上位ＣＰＵ１９は、これらの障害情報２７に基づいて、メモリ２０（図２）に保持している障害情報２２（図９）のうちのシステム障害情報９１（図９１）を更新する（ＳＰ１６）。これにより上位ストレージ装置４が記憶するシステム障害情報９１に記憶システム１全体の障害情報が集約されることとなる。

また上位ＣＰＵ１９は、この後、この更新したシステム障害情報９１を各下位ストレージ装置６（障害下位ストレージ装置６及び各未障害下位ストレージ装置６）に送信する（ＳＰ１７）。この際上位ＣＰＵ１９は、ベンダ情報管理テーブル３６（図４）を参照して、下位ストレージ装置６ごとに、システム障害情報９１のうち、その下位ストレージ装置６において上位ストレージ装置４に通知可能に設定されている障害情報２７の詳細情報のみを当該下位ストレージ装置６に送信する。

さらに上位ＣＰＵ１９は、この後、危険性ランク判定プログラム３１（図３）に従い、システム障害情報９１に基づいて、自ストレージ装置（上位ストレージ装置４）内の交換可能な部位であって、障害下位ストレージ装置６における障害発生部位（論理ボリュームＶＯＬ）と同一部位の危険性ランクを判定する（ＳＰ１８）。

同様に、かかる上位ストレージ装置４からのシステム障害情報９１を受信した各下位ストレージ装置６（障害下位ストレージ装置６又は未障害下位ストレージ装置６）の下位ＣＰＵ１９Ａも、危険性ランク判定プログラム７０（図７）に従い、このシステム障害情報９１に基づいて、自ストレージ装置内の交換可能な部位であって、障害下位ストレージ装置６の障害発生部位と同一部位の危険性ランクを判定する（ＳＰ１９，ＳＰ２２）。

続いて、これら下位ストレージ装置６の下位ＣＰＵ１９Ａは、障害情報報告プログラム７３（図７）に従い、メモリ２０Ａ（図２）に保持しているベンダ情報管理テーブル７５（図８）に基づいて、かかる危険性ランク付け処理により得られた自ストレージ装置の危険性ランクの情報（以下、これを単に危険性ランク情報と呼ぶ）が上位ストレージ装置４に通知可能に設定されているか否かを判断する（ＳＰ２０，ＳＰ２３）。そして、かかる下位ＣＰＵ１９Ａは、この判断において肯定結果を得た場合にのみ、この危険性ランク情報を上位ストレージ装置４に送信する（ＳＰ２１、ＳＰ２４）。

他方、上位ＣＰＵ１９は、これら下位ストレージ装置６からそれぞれ送信される危険性ランク情報を受信すると、これに応じて障害情報２２（図９）のうちのシステム障害情報９１を順次更新する（ＳＰ２５）。これにより記憶システム１内の上位ストレージ装置４及び各下位ストレージ装置６の危険性ランク情報が上位ストレージ装置４のシステム情報９１に集約されることとなる。

そして上位ＣＰＵ１９は、この後、危険性ランク判定プログラム３１（図３）に従い、最新のシステム障害情報９１に基づいて、障害の発生を予測する（ＳＰ２６）。具体的に、上位ＣＰＵ１９は、かかる最新のシステム障害情報９１に基づいて、いずれかの下位ストレージ装置６に、近いうちに障害が発生するおそれがあると考えられる論理ボリューム（以下、これを危険ボリュームと呼ぶ）ＶＯＬが存在するか否かを判断する（ＳＰ２６）。

そして上位ＣＰＵ１９は、この判断において肯定結果を得ると、未使用ボリューム管理プログラム３５（図３）に従い、その危険ボリュームＶＯＬの代替の論理ボリューム（以下、これを代替ボリュームと呼ぶ）ＶＯＬを、システム未使用ボリューム管理テーブル３８（図６）に登録されている未使用ボリュームＶＯＬの中から選択する（ＳＰ２７）。この際、上位ＣＰＵ１９は、代替ボリュームＶＯＬとして、危険ボリュームＶＯＬと同等の性能を有する未使用ボリュームＶＯＬを選択する。また上位ＣＰＵ１９は、これと併せて、記憶システム１内に上述の危険ボリュームＶＯＬを提供するディスクデバイス１０の交換が必要である旨の情報をシステム障害情報９１の危険性ランク情報９６Ｂ（図９）内に追加する（ＳＰ２７）。

そして上位ＣＰＵ１９は、かかる代替ボリュームＶＯＬを選択すると、その危険ボリュームＶＯＬが設けられた下位ストレージ装置２９に対して、当該危険ボリュームＶＯＬ内に格納されたデータを代替ボリュームＶＯＬに移動させるべき旨の指示（以下、これをデータ移行指示と呼ぶ）を与える（ＳＰ２８）。

かくして、このデータ移行指示を受けた下位ストレージ装置６の下位ＣＰＵ１９Ａは、この後、かかる危険ボリュームＶＯＬに格納されたデータを代替ボリュームＶＯＬに移行させ、ホスト装置２から危険ボリュームＶＯＬへのパスをこの代替ボリュームＶＯＬへのパスに切り替えるなどのボリュームの切替え処理を実行する（ＳＰ２９）。

一方、障害下位ストレージ装置６の下位ＣＰＵ１９Ａは、障害が発生した論理ボリューム（以下、これを障害ボリュームと呼ぶ）ＶＯＬを提供するディスクデバイス１０の交換が行われるなど、保守員等による障害ボリュームＶＯＬの復旧作業が完了すると、これを上位ストレージ装置４に報告する（ＳＰ３０）。

またステップＳＰ２９において代替ボリュームＶＯＬへのデータ移行を行った危険ボリュームＶＯＬを有していた下位ストレージ装置６の下位ＣＰＵ１９Ａは、危険ボリュームＶＯＬを提供するディスクデバイス１０の交換が行われると、これを上位ストレージ装置４に報告する（ＳＰ３１）。

そして上位ストレージ装置４の上位ＣＰＵ１９は、これらの報告を受信すると、その報告をしてきた下位ストレージ装置６（元の障害下位ストレージ装置６又は危険ボリュームＶＯＬを有していた未障害下位ストレージ装置６）に対して、障害ボリュームＶＯＬや危険ボリュームＶＯＬから代替ボリュームＶＯＬに退避させたデータを復旧後又は部品交換後の元の障害ボリュームＶＯＬ又は危険ボリュームＶＯＬに移行させるべき旨のデータ移行指示を送信する（ＳＰ３２）。

かくして、このデータ移行指示を受けた下位ストレージ装置の下位ＣＰＵは、この後、かかる代替ボリュームＶＯＬに格納されたデータを復旧後又は部品交換後の元の障害ボリュームＶＯＬ又は元の危険ボリュームＶＯＬに移行させ、ホスト装置２から代替ボリュームＶＯＬへのパスをこれら元の障害ボリュームＶＯＬ又は元の危険ボリュームＶＯＬへのパスに切り替えるなどのボリュームの切替え処理を実行する（ＳＰ３３，ＳＰ３４）。

（２−３）危険性ランク付け処理
図１３は、図１１及び図１２について上述した障害情報集約処理のステップＳＰ１８，ステップＳＰ１９，ステップＳＰ２２で上位ストレージ装置４及び各下位ストレージ装置６において行われる危険性ランク付け処理の処理内容を示すフローチャートである。上位ＣＰＵ１９及び下位ＣＰＵ１９Ａは、危険ランク判定プログラム３１，７０（図３，図７）に基づき、この図１３に示す危険ランク付け処理手順ＲＴ１に従って、かかる危険性ランク付け処理を実行する。

すなわち上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、まず、図１１及び図１２について上述した障害情報集約処理のステップＳＰ１６において更新し、又はステップＳＰ１７において上位ストレージ装置４から送信されてきたシステム障害情報９１（図９）と、自ストレージ装置内の共有メモリ１５，１５Ａに格納されたシステム構成情報とに基づいて、自ストレージ装置内に障害下位ストレージ装置６の障害発生部位と同一の部位を有し、かつその部位が障害発生部位と同じ形式のものであるか否かを判断する（ＳＰ４０）。

この例では、かかる障害発生部位が論理ボリュームＶＯＬ（具体的にはディスクデバイス１０）であるため、上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、自ストレージ装置内にディスクデバイス１０（同じ部位）が存在するか否かと、ディスクデバイス１０を有している場合に、そのディスクデバイス１０が、障害が発生したディスクデバイス１０と同じメーカの同じタイプ（同じ形式）のものであるか否かを判断することになる。

そして上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において否定結果を得ると、この危険性ランク付け処理を終了する。

これに対して上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において肯定結果を得ると、その自ストレージ装置内の障害発生部位と同一形式の同一部位（以下、これを危険性判定対象部位と呼ぶ）に対する危険ランクを「１」だけ増加させ（ＳＰ４１）、この後、障害情報２２，２７（図９，図１０）のうちのシステム稼動情報９４Ａ，９４Ｃに基づいて、その危険性判定対象部位のオン・オフ回数が障害発生部位のオン・オフ回数以上であるか否かを判断する（ＳＰ４２）。

そして上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において肯定結果を得ると、ステップＳＰ４４に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「１」だけ増加させた後に（ＳＰ４３）、障害情報２２，２７（図９，図１０）のうちのシステム稼動情報９４Ａ，９４Ｃ（図９，図１０）に基づいて、その危険性判定対象部位の稼働時間が障害発生部位の稼働時間以上であるか否かを判断する（ＳＰ４４）。

上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において肯定結果を得ると、ステップＳＰ４６に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「１」だけ増加させた後に（ＳＰ４５）、障害情報２２，２７（図９，図１０）のうちのシステム稼動情報９４Ａ，９４Ｃ（図９，図１０）に基づいて、その危険性判定対象部位の連続稼働時間が障害発生部位の連続稼働時間以上であるか否かを判断する（ＳＰ４６）。

上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において肯定結果を得ると、ステップＳＰ４８に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「１」だけ増加させた後に（ＳＰ４７）、障害情報２２，２７（図９，図１０）のうちのシステム稼動情報９４Ａ，９４Ｃ（図９，図１０）に基づいて、その危険性判定対象部位に対するホスト装置２からのアクセスの間隔が、障害発生部位に対するホスト装置２からのアクセスの間隔以下であるか否かを判断する（ＳＰ４８）。

上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において肯定結果を得ると、ステップＳＰ５０に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「１」だけ増加させた後に（ＳＰ４９）、障害情報２２，２７（図９，図１０）のうちのシステム稼動情報９４Ａ，９４Ｃ（図９，図１０）に基づいて、その危険性判定対象部位に対するホスト装置２からのアクセス回数が障害発生部位に対するホスト装置２からのアクセス回数以上であるか否かを判断する（ＳＰ５０）。

そして上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、この判断において肯定結果を得ると、この一連の危険ランク付け処理を終了し、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「１」だけ増加させた後に（ＳＰ５１）、この一連の危険ランク付け処理を終了する。

このようにして上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、自ストレージ装置内に存在する障害下位ストレージ装置６の障害発生部位と同じ形式の同一部位に対する危険性ランク付けを実行する。

なお、この実施の形態の場合、上位ＣＰＵ１９又は下位ＣＰＵ１９Ａは、ステップＳＰ４２の判断において、障害下位ストレージ装置６における障害発生部位に発生した障害が初期不良によるものである場合と区別するために、かかる障害発生部位のオン・オフ回数が予め定められた初期不良判定回数未満である場合には、このステップＳＰ４２における判断と、この判断に基づくステップＳＰ４３における危険性判定対象部位に対する危険ランクのカウントアップ処理とを省略する。この場合において、かかる初期不良判定回数は、この回数以内の障害は初期不良であると考えられる数値として、統計的に求めた数値である。

同様に、上位ＣＰＵ１９又は下位ＣＰＵ１９は、ステップＳＰ４４、ステップＳＰ４６、ステップＳＰ４８又はステップＳＰ５０の判断において、かかる障害発生部位の稼働時間、連続稼働時間、アクセス間隔又はアクセス回数が、これら稼働時間、連続稼働時間、アクセス間隔又はアクセス回数についてそれぞれ予め設定された閾値未満である場合には、そのステップＳＰ４４、ステップＳＰ４６、ステップＳＰ４８又はステップＳＰ５０における判断と、この判断に基づくステップＳＰ４４、ステップＳＰ４６、ステップＳＰ４８又はステップＳＰ５０における危険性判定対象部位に対する危険ランクのカウントアップ処理とを省略する。

このようにしてこの記憶システム１においては、初期不良による障害の発生を考慮して危険性判定対象部位に対する危険ランクを判定することで、かかる危険性判定対象部位に対する危険ランクを精度良く判定し得るようになされている。

（２−４）代替ボリューム選択処理
一方、図１４は、図１１及び図１２について上述した障害情報集約処理のステップＳＰ２７で上位ストレージ装置６において行われる危険ボリュームＶＯＬの代替となる代替ボリュームＶＯＬを選択する代替ボリューム選択処理の処理内容を示すフローチャートである。上位ＣＰＵ１９は、未使用ボリューム管理プログラム３５（図３）に基づき、この図１４に示す代替ボリューム選択処理手順に従って、かかる危険ボリュームＶＯＬと同等性能の代替ボリュームＶＯＬを選択する。

すなわち、上位ＣＰＵ１９は、まず、危険ボリュームＶＯＬを有する下位ストレージ装置６にアクセスして、共有メモリ１５（図２）に格納されているシステム構成情報に基づいて危険ボリュームＶＯＬの性能情報を取得する（ＳＰ６０）。具体的に、上位ＣＰＵ１９は、かかる下位ストレージ装置６の共有メモリ１５Ａ（図２）に格納されているシステム構成情報から、危険ボリュームＶＯＬの容量と、当該危険ボリュームＶＯＬを提供するディスクデバイス１０のアクセス速度、ディスク回転数、データバッファ容量、平均シーク時間及び平均シーク待ち時間とを、かかる性能情報として取得することになる。

そして上位ＣＰＵ１９は、この後、このようにして取得した危険ボリュームＶＯＬの性能情報と、システム未使用ボリューム管理テーブル３８（図６）とに基づいて、記憶システム１内に危険ボリュームＶＯＬの容量よりも容量の大きい未使用ボリュームＶＯＬが存在するか否か（ＳＰ６１）、危険ボリュームＶＯＬを提供するディスクデバイス１０のアクセス速度とほぼ同じアクセス速度のディスクデバイス１０が提供する未使用ボリュームＶＯＬが存在するか否か（ＳＰ６２）、危険ボリュームＶＯＬを提供するディスクデバイス１０のディスク回転数とほぼ同じディスク回転数のディスクデバイス１０が提供する未使用ボリュームＶＯＬが存在するか否か（ＳＰ６３）を順番に判断する。

また上位ＣＰＵ１９は、この後、危険ボリュームＶＯＬを提供するディスクデバイス１０のバッファ容量とほぼ同じバッファ容量を有するディスクデバイス１０が提供する未使用ボリュームＶＯＬが存在するか否か（ＳＰ６４）、危険ボリュームＶＯＬを提供するディスクデバイス１０の平均シーク時間とほぼ同じ平均シーク時間のディスクデバイス１０が提供する未使用ボリュームＶＯＬが存在するか否か（ＳＰ６５）、及び危険ボリュームＶＯＬを提供するディスクデバイス１０の平均シーク待ち時間とほぼ同じ平均シーク待ち時間のディスクデバイス１０が提供する未使用ボリュームＶＯＬが存在するか否か（ＳＰ６６）を順番に判断する。

そして上位ＣＰＵ１９は、これらステップＳＰ６１〜ステップＳＰ６６のいずれかの判断において否定結果を得ると、かかる危険ボリュームＶＯＬの代替となる代替ボリュームＶＯＬの選択を行なえなかった旨の警告を管理端末１８（図２）のディスプレイに表示させなどの所定のエラー処理を実行し（ＳＰ６７）、この後この代替ボリューム選択処理を終了する。

これに対して上位ＣＰＵ１９は、ステップＳＰ６１〜ステップＳＰ６６の判断においてすべて肯定結果を得ると、これらステップＳＰ６１〜ステップＳＰ６６の条件を満たす未使用ボリュームＶＯＬのうち、危険ボリュームＶＯＬの性能に最も近い性能の未使用ボリュームＶＯＬを代替ボリュームＶＯＬとして１つ選択し（ＳＰ６７）、この後この代替ボリューム選択処理を終了する。

このようにして、この記憶システム１では、危険ボリュームＶＯＬの代替ボリュームＶＯＬとして、当該危険ボリュームＶＯＬの性能に近い性能を有する未使用ボリュームＶＯＬを選択することで、危険ボリュームＶＯＬのデータを代替ボリュームＶＯＬに移動させたときや、代替ボリュームＶＯＬから部品交換後の元の危険ボリュームＶＯＬにデータを戻したときなどに、データの読み書き速度等に変化が生じるのを未然に防止し、これによりその代替ボリュームＶＯＬや部品交換後の元の危険ボリュームＶＯＬを使用するユーザに、かかるデータの移行が行われたことを意識させないようにすることができるようになされている。

なお、本実施の形態においては、ステップＳＰ６１〜ステップＳＰ６７における上述の『ほぼ同じ』の範囲として、例えば危険ボリュームＶＯＬを提供するディスクデバイス１０の対応する性能の±５〔％〕〜±１０〔％〕程度の範囲を適用しているが、かかる『ほぼ同じ』の範囲として、これ以外の範囲を適用するようにしても良い。

（３）本実施の形態の効果
以上のように本実施の形態による記憶システム１では、いずれかの下位ストレージ装置６からこの障害発生通知が発行された場合、その中継を行なう上位ストレージ装置４が当該障害発生通知を受信したことを契機として、当該上位ストレージ装置４が各下位ストレージ装置６から障害に関する各種情報でなる障害情報２７を採集するため、例えば複数のストレージ装置に障害が発生した場合においても、これらストレージ装置の障害内容を仮想化装置から一括して取得することができる。かくするにつき、この記憶システム１によれば、保守作業時の障害情報の収集作業を簡略化させることができ、かくして保守作業の作業効率を向上させることができる。

またこの記憶システム１では、いずれかの下位ストレージ装置６に障害が発生した場合に、その障害下位ストレージ装置６以外の他の未障害下位ストレージ装置６からも障害情報２７を採集し、採集した障害情報に基づいて障害の発生を予測し、予測結果に基づいて近いうちに障害が発生することが予想される危険ボリュームＶＯＬに格納されたデータを他の代替ボリュームＶＯＬに移行させるようにしているため、記憶システム１全体としての信頼性を向上させることができる。

（４）他の実施の形態
なお上述の実施の形態においては、下位ストレージ装置６が障害情報２７のうちのベンダにより予め許可された詳細情報のみを上位ストレージ装置４に送信するようにした場合について述べたが、本発明はこれに限らず、例えば少なくとも予め設定により上位ストレージ装置４への送信が許可されていない詳細情報については暗号化するなど、下位ストレージ装置６が障害情報２７の一部又は全部を暗号化して上位ストレージ装置４に送信するようにしても良い。

また上述の実施の形態においては、障害情報２２，２７の詳細情報として、交換部位情報９２Ａ〜９２Ｃ、障害発生時システム内部状況情報９３Ａ〜９３Ｃ、システム稼動情報９４Ａ〜９４Ｃ、その他情報９５Ａ〜９５Ｃ及び危険性ランク情報９６Ａ〜９６Ｃの５つの情報を適用するようにした場合について述べたが、本発明はこれに限らず、これらに加えて又は代えて他の情報を障害情報２２，２７の一部又は全部とするようにしても良い。

本実施の形態による記憶システムの構成を示すブロック図である。上位ストレージ装置及び下位ストレージ装置の構成を示すブロック図である。上位ストレージ装置用の制御情報の説明に供する概念図である。上位ストレージ装置用のベンダ情報管理テーブルを示す概念図である。自ストレージ用未使用ボリューム管理テーブルを示す概念図である。システム用未使用ボリューム管理テーブルを示す概念図である。下位ストレージ装置用の制御情報の説明に供する概念図である。下位ストレージ装置用のベンダ情報管理テーブルを示す概念図である。上位ストレージ装置用の障害情報の説明に供する概念図である。下位ストレージ装置用の障害情報の説明に供する概念図である。障害情報集約処理の説明に供するタイムチャートである。障害情報集約処理の説明に供するタイムチャートである。危険性ランク付け処理の説明に供するフローチャートである。代替ボリューム選択処理の説明に供するフローチャートである。

符号の説明

１……記憶システム、２……ホスト装置、４……上位ストレージ装置、６……下位ストレージ装置、１０……ディスクデバイス、１２……コントローラ、１８，２５……管理端末、１９，１９Ａ……ＣＰＵ、２０，２０Ａ……メモリ、２１，２６……制御情報、２２，２７……障害情報、３０……障害情報採集プログラム、３１，７０……危険性ランク判定プログラム、３２，７１……ベンダ確認プログラム、３３，７２……障害情報作成プログラム、３４，７３……障害情報報告プログラム、３５，７４……未使用ボリューム管理プログラム、３６，７５……ベンダ情報管理テーブル、３７，３８，７６……未使用ボリューム管理テーブル、９２Ａ〜９２Ｃ……交換部位情報、９３Ａ〜９３Ｃ……障害発生時システム内部状況情報、９４Ａ〜９４Ｃ……システム稼動情報、９５Ａ〜９５Ｃ……その他情報、９６Ａ〜９６Ｃ……危険性ランク情報。

Claims

１又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムであって、
各上記ストレージ装置は、
自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信し、
前記仮想化装置は、
前記ストレージ装置から送信される前記障害情報を記憶する
ことを特徴とする仮想化システム。
前記ストレージ装置は、
障害が発生したときに、所定の障害発生通知を前記仮想化装置を介して前記上位装置に通知した後に、前記障害情報を前記仮想装置に送信し、
前記仮想化装置は、
前記障害発生通知を中継後、当該ストレージ装置から前記障害情報が送信されてこなかったときに、当該ストレージ装置に前記障害情報の送信を要求する
ことを特徴とする請求項１に記載の仮想化システム。
前記ストレージ装置は、
前記障害情報のうちの予め設定により許可された情報のみを前記仮想化装置に送信する
ことを特徴とする請求項１に記載の仮想化システム。
前記ストレージ装置は、
前記障害情報のうちの少なくとも予め設定により許可されていない情報を暗号化して前記仮想化装置に送信する
ことを特徴とする請求項１に記載の仮想化システム。
前記仮想化装置は、
いずれかの前記ストレージ装置から送信された前記障害情報を受信したときには、他の各前記ストレージ装置から当該ストレージ装置の前記障害情報をそれぞれ採集する
ことを特徴とする請求項１に記載の仮想化システム。
前記仮想化装置は、
各前記ストレージ装置から送信される前記障害情報に基づいて、障害の発生を予測する
ことを特徴とする請求項１に記載の仮想化システム。
前記仮想化装置は、
前記障害の発生の予測結果に基づいて、障害が発生するおそれのある論理ボリュームでなる危険ボリュームに格納されたデータを、他の代替の論理ボリュームでなる代替ボリュームに移行させる
ことを特徴とする請求項６に記載の仮想化システム。
前記仮想化装置は
前記代替ボリュームとして、前記危険ボリュームと同等の性能を有する論理ボリュームを選択し、当該論理ボリュームに前記危険ボリュームのデータを移行させる
ことを特徴とする請求項７に記載の仮想化システム。
１又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムにおける障害対処方法であって、
各上記ストレージ装置が、自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信する第１のステップと、
前記仮想化装置が、前記ストレージ装置から送信される前記障害情報を記憶する第２のステップと
を備えることを特徴とする障害対処方法。
前記第１のステップにおいて、
前記ストレージ装置は、
障害が発生したときに、所定の障害発生通知を前記仮想化装置を介して前記上位装置に通知した後に、前記障害情報を前記仮想装置に送信し、
前記仮想化装置は、
前記障害発生通知を中継後、当該ストレージ装置から前記障害情報が送信されてこなかったときに、当該ストレージ装置に前記障害情報の送信を要求する
ことを特徴とする請求項９に記載の障害対処方法。
前記第１のステップにおいて、前記ストレージ装置は、
前記障害情報のうちの予め設定により許可された情報のみを前記仮想化装置に送信する
ことを特徴とする請求項９に記載の障害対処方法。
前記第１のステップにおいて、前記ストレージ装置は、
前記障害情報のうちの少なくとも予め設定により許可されていない情報を暗号化して前記仮想化装置に送信する
ことを特徴とする請求項９に記載の障害対処方法。
前記第２のステップにおいて、前記仮想化装置は、
いずれかの前記ストレージ装置から送信された前記障害情報を受信したときには、他の各前記ストレージ装置から当該ストレージ装置の前記障害情報をそれぞれ採集する
ことを特徴とする請求項９に記載の障害対処方法。
前記仮想化装置が、各前記ストレージ装置から送信される前記障害情報に基づいて、障害の発生を予測する第３のステップを備える
ことを特徴とする請求項９に記載の障害対処方法。
前記仮想化装置が、前記障害の発生の予測結果に基づいて、障害が発生するおそれのある論理ボリュームでなる危険ボリュームに格納されたデータを、他の代替の論理ボリュームでなる代替ボリュームに移行させる第４のステップを備える
ことを特徴とする請求項１４に記載の障害対処方法。
前記第４のステップにおいて、前記仮想化装置は、
前記代替ボリュームとして、前記危険ボリュームと同等の性能を有する論理ボリュームを選択し、当該論理ボリュームに前記危険ボリュームのデータを移行させる
ことを特徴とする請求項１５に記載の障害対処方法。