JP2007249441A - 仮想化システム及び障害対処方法 - Google Patents

仮想化システム及び障害対処方法 Download PDF

Info

Publication number
JP2007249441A
JP2007249441A JP2006070163A JP2006070163A JP2007249441A JP 2007249441 A JP2007249441 A JP 2007249441A JP 2006070163 A JP2006070163 A JP 2006070163A JP 2006070163 A JP2006070163 A JP 2006070163A JP 2007249441 A JP2007249441 A JP 2007249441A
Authority
JP
Japan
Prior art keywords
failure
information
virtualization
storage
failure information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006070163A
Other languages
English (en)
Inventor
Masayuki Furukawa
正幸 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006070163A priority Critical patent/JP2007249441A/ja
Priority to US11/439,950 priority patent/US20070220376A1/en
Priority to EP06255138A priority patent/EP1835402A2/en
Publication of JP2007249441A publication Critical patent/JP2007249441A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F2003/0697Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers device management, e.g. handlers, drivers, I/O schedulers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities

Abstract

【課題】
保守作業の作業効率を向上させ得る仮想化システム及び障害対処方法を提案する。
【解決手段】
1又は複数のストレージ装置と、当該1又は複数のストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムにおいて、仮想化装置が、いずれかのストレージ装置に障害が発生したことを検出し、仮想化装置が、いずれかのストレージ装置に障害が発生したことを障害発生検出部が検出したことを契機として、当該ストレージ装置から障害の詳細情報でなる障害情報を採集するようにした。
【選択図】図11

Description

本発明は、仮想化システム及び障害対処方法に関し、例えば複数のストレージ装置を備える記憶システムに適用して好適なものである。
近年、複数のストレージ装置をホスト装置に対して1つのストレージ装置に見せる仮想化技術が提唱されている。
かかる仮想化技術を採用した記憶システムでは、他のストレージ装置を仮想化するストレージ装置(以下、これを上位ストレージ装置と呼ぶ)がホスト装置との間の通信を行う。そして上位ストレージ装置は、仮想化したストレージ装置(以下、下位ストレージ装置と呼ぶ)に対するホスト装置からのデータ入出力要求を当該下位ストレージ装置に転送する。また、このデータ入出力要求を受信した下位ストレージ装置は、当該データ入出力要求に応じたデータ入出力処理を実行する。
このような仮想化技術によれば、異なるタイプの複数のストレージ装置を連携させて、これらストレージ装置が提供する記憶資源を有効利用でき、また新たなストレージ装置の増設をシステム全体に影響を及ぼすことなく行なうことができる(特許文献1参照)。
特開2005−107645号公報
ところで、かかる仮想化技術に基づき構築された記憶システムにおいて、下位ストレージ装置は、ホスト装置からのデータ入出力要求に応じたデータ入出力処理時に障害が発生し、要求されたデータを読み書きできなかった場合、上位ストレージ装置を介してホスト装置に障害が発生した旨の通知(以下、これを障害発生通知と呼ぶ)を送信する。従って、上位ストレージ装置は、いずれかの下位ストレージ装置に障害が発生した場合には、当該下位ストレージ装置から送信されてくる障害発生通知に基づいて、その事実を認識することができる。
しかしながら、かかる従来の記憶システムでは、下位ストレージ装置に発生した障害の具体的な内容については、下位ストレージ装置からホスト装置には報告されない。このため、かかる従来の記憶システムでは、かかる下位ストレージ装置の障害に対処する際、保守員がその下位ストレージ装置の具体的な障害内容を直接その下位ストレージ装置から収集する必要があった。
この場合において、近年の情報化社会の発展に伴い、今後より一層と数多くのストレージ装置を用いて仮想化技術を導入した記憶システムが構築されることが予想される。そしてこのような記憶システムでは、同じタイミングで複数台の下位ストレージ装置に障害が発生する事態も考えられるため、保守作業の作業効率の観点からも、障害が発生した複数台の下位ストレージ装置の障害内容を一括して保守員が認識できるような仕組みの構築が望まれる。
本発明は以上の点を考慮してなされたもので、保守作業の作業効率を向上させ得る仮想化システム及び障害対処方法を提案しようとするものである。
かかる課題を解決するため本発明においては、1又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムであって、各上記ストレージ装置は、自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信し、前記仮想化装置は、前記ストレージ装置から送信される前記障害情報を記憶することを特徴とする。
この結果、この記憶システムでは、複数のストレージ装置に障害が発生した場合においても、これらストレージ装置の障害内容を仮想化装置から一括して取得することができ、その分、保守作業時の障害情報の収集作業を簡略化させることができる。
また本発明においては、1又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムにおける障害対処方法であって、各上記ストレージ装置が、自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信する第1のステップと、前記仮想化装置が、前記ストレージ装置から送信される前記障害情報を記憶する第2のステップとを備えることを特徴とする。
この結果、この障害対処方法によれば、複数のストレージ装置に障害が発生した場合においても、これらストレージ装置の障害内容を仮想化装置から一括して取得することができ、その分、保守作業時の障害情報の収集作業を簡略化させることができる。
本発明によれば、保守作業の作業効率を向上させ得る仮想化システム及び障害対処方法を実現できる。
以下図面について、本発明の一実施の形態を詳述する。
(1)本実施の形態による記憶システムの構成
図1において、1は全体として本実施の形態による記憶システムを示す。この記憶システム1では、上位装置としてのホスト装置2が第1のネットワーク3を介して上位ストレージ装置4に接続され、当該上位ストレージ装置4に第2のネットワーク5を介して複数の下位ストレージ装置6が接続されている。また上位ストレージ装置4及び各下位ストレージ装置6は、それぞれ第3のネットワーク7を介して自ストレージ装置のベンダのサービス拠点8に設置されたサーバ装置9と接続されている。
ホスト装置2は、CPU(Central Processing Unit)やメモリ等の情報処理資源を備えたメインフレーム系のコンピュータ装置から構成される。メモリに格納された各種制御プログラムをCPUが実行することにより、ホスト装置2全体として各種の制御処理を実行する。また、ホスト装置2は、キーボード、スイッチやポインティングデバイス、マイクロフォン等の情報入力装置(図示せず)と、モニタディスプレイやスピーカ等の情報出力装置(図示せず)とを備える。
第1及び第2のネットワーク3,5は、例えばSAN(Storage Area Network)、LAN(Local Area Network)、インターネット、公衆回線又は専用回線などから構成される。これら第1又は第2ネットワーク3,5を介したホスト装置2及び上位ストレージ装置4間の通信や、上位ストレージ装置4及び下位ストレージ装置6間の通信は、例えば第1又は第2のネットワーク3,5がSANである場合にはファイバーチャネルプロトコルに従って行われ、第1又は第2のネットワーク3,5がLANである場合にはTCP/IP(Transmission Control Protocol/Internet Protocol)プロトコルに従って行われる。
上位ストレージ装置4は、ホスト装置2に対して下位ストレージ装置6が提供する記憶領域を仮想化する機能を有するもので、図2に示すように、データを記憶する複数のディスクデバイス10からなるディスクデバイス群11と、ディスクデバイス群11に対するデータの入出力を制御するコントローラ12とを備えて構成される。
このうちディスクデバイス10としては、例えばSCSI(Small Computer System Interface)ディスク等の高価なディスク、又はSATA(Serial AT Attachment)ディスクや光ディスク等の安価なディスクが適用される。
各ディスクデバイス10は、コントローラ12によりRAID方式で運用される。1又は複数のディスクデバイス10により提供される物理的な記憶領域上に、1又は複数の論理的なボリューム(以下、これを論理ボリュームと呼ぶ)VOLが設定される。そしてデータは、この論理ボリュームVOL内に所定大きさのブロック(以下、これを論理ブロックと呼ぶ)を単位として記憶される。
各論理ボリュームVOLには、それぞれ固有の識別子(以下、これをLU(Logical Unit number)と呼ぶ)が付与される。本実施の形態の場合、データの入出力は、このLUと、各論理ブロックにそれぞれ付与されるその論理ブロックに固有の番号(LBA:Logical Block Address)とを組み合わせたものをアドレスとして、当該アドレスを指定して行われる。
一方、コントローラ12は、複数のチャネルアダプタ13、接続部14、共有メモリ15、キャッシュメモリ16、複数のディスクアダプタ17及び管理端末18を備えて構成される。
各チャネルアダプタ13は、それぞれマイクロプロセッサ、メモリ及び通信インタフェース等を備えたマイクロコンピュータシステムとして構成されており、それぞれ第1又は第2のネットワーク3,5に接続するためのポートを備える。チャネルアダプタ13は、ホスト装置2から第1のネットワーク3を介して送信される各種コマンドを解釈して対応する処理を実行する。各チャネルアダプタ13のポートには、それぞれを識別するためのネットワークアドレス(例えば、IPアドレスやWWN)が割り当てられており、これにより各チャネルアダプタ13がそれぞれ個別にNAS(Network Attached Storage)として振る舞うことができるようになされている。
接続部14は、チャネルアダプタ13、共有メモリ15、キャッシュメモリ16及びディスクアダプタ17と接続されている。チャネルアダプタ13、共有メモリ15、キャッシュメモリ16及びディスクアダプタ17間でのデータやコマンドの授受は、この接続部14を介して行われる。接続部14は、例えば高速スイッチングによりデータ伝送を行う超高速クロスバススイッチなどのスイッチ又はバス等で構成される。
共有メモリ15は、チャネルアダプタ13及びディスクアダプタ10により共有される記憶メモリである。共有メモリ15は、例えば上位ストレージ装置4内に設定された各論理ボリュームVOLの容量や、システム管理者により入力された各ディスクデバイス10の性能(例えば平均シーク時間、平均回転待ち時間、ディスク回転数、アクセス速度及びデータバッファ容量)などの上位ストレージ装置4全体の構成に関するシステム構成情報を記憶するために利用される。また共有メモリ15には、CPU19により継続的に収集される自ストレージ装置の稼働状況に関する情報、例えば自ストレージ装置のオン・オフ回数や、各ディスクデバイス10の合計稼働時間及び連続稼働時間、各論理ボリュームVOLに対するホスト装置2からのアクセスの合計回数及び間隔なども格納される。
キャッシュメモリ16も、チャネルアダプタ13及びディスクアダプタ10により共有される記憶メモリである。このキャッシュメモリ16には、主に上位ストレージ装置4に入出力するデータを一時的に記憶するために利用される。
各ディスクアダプタ17は、マイクロプロセッサやメモリ等を備えたマイクロコンピュータシステムとして構成され、各ディスクデバイス10との通信時におけるプロトコル制御を行うインタフェースとして機能する。これらディスクアダプタ17は、例えばファイバーチャネルケーブルを介して対応するディスクデバイス10と接続されており、ファイバーチャネルプロトコルに従ってこれらディスクデバイス10との間のデータの授受を行う。
管理端末18は、CPU19及びメモリ20を備えたコンピュータ装置であり、例えばノート型のパーソナルコンピュータから構成される。後述の制御情報21及び障害情報22は、この管理端末18のメモリ20に保持される。管理端末18は、LAN23を介して各チャネルアダプタ13とそれぞれ接続され、LAN24を介して各ディスクアダプタ17とそれぞれ接続されている。管理端末18は、これらチャネルアダプタ13及びディスクアダプタ14を介して上位ストレージ装置4内の障害の有無を監視する。また管理端末18は、これらチャネルアダプタ13やディスクアダプタ14を介して共有メモリ15にアクセスし、システム構成情報等の必要な情報を取得し又は更新することができる。
下位ストレージ装置6は、図2において上位ストレージ装置4との対応部分に同一符号に『A』を付して示したように、管理端末25のメモリ20Aに保持される制御情報26及び障害情報27の構成を除いて上位ストレージ装置4と同様に構成されている。下位ストレージ装置6は、1つのチャネルアダプタ13Aが第2のネットワーク5を介して上位ストレージ装置4のいずれかのチャネルアダプタ13と接続されており、この第2のネットワーク5を通じて必要なコマンドやデータを上位ストレージ装置4との間で送受し得るようになされている。
また下位ストレージ装置6の管理端末25は、例えばインターネットからなる第3のネットワーク7を介して上位ストレージ装置4の管理端末18と接続されており、この第3のネットワーク7を通じて当該上位ストレージ装置4の管理端末18との間でコマンドや必要な情報を送受し得るようになされている。
サーバ装置9は、ホスト装置2と同様に、CPUやメモリ等の情報処理資源と、キーボード、スイッチやポインティングデバイス、マイクロフォン等の情報入力装置(図示せず)と、モニタディスプレイやスピーカ等の情報出力装置(図示せず)とを備えたメインフレーム系のコンピュータ装置である。メモリに格納された各種制御プログラムをCPUが実行することにより、後述のように上位ストレージ装置4から送信される障害情報22,27の解析処理等を実行する。
(2)障害情報集約機能
(2−1)記憶システムにおける障害情報集約機能
次に、本実施の形態による記憶システム1に搭載された障害情報集約機能について説明する。
本実施の形態による記憶システム1は、いずれかの下位ストレージ装置6から上述の障害発生通知がホスト装置に送信された場合、その中継を行なう上位ストレージ装置4が当該障害発生通知に基づいてその下位ストレージ装置6に障害が発生したことを検出したことを契機として、当該上位ストレージ装置4が各下位ストレージ装置6から障害の詳細情報でなる障害情報27を採集するようになされた点を特徴とする。これによりこの記憶システム1では、メンテナンスの際にシステム管理者が上位ストレージ装置4から当該上位ストレージ装置4が採集した障害情報27を読み出すことによって、どの下位ストレージ装置6のどの部位にどのような障害が発生したかを直ちに認識できるようになされている。
このような障害情報集約機能を実現するため、上位ストレージ装置4の管理端末18のメモリ20には、上述の制御情報21として、図3に示すように、障害情報採集プログラム30、危険性ランク判定プログラム31、ベンダ確認プログラム32、障害情報作成プログラム33、障害情報報告プログラム34及び未使用ボリューム管理プログラム35と、ベンダ情報管理テーブル36、自ストレージ用未使用ボリューム管理テーブル37及びシステム用未使用ボリューム管理テーブル38とが格納されている。
このうち障害情報採集プログラム30は、下位ストレージ装置6から障害情報27(図2)を採集するためのプログラムである。上位ストレージ装置4は、必要時、この障害情報採集プログラム30に基づいて下位ストレージ装置6に障害情報27(図2)の作成及び作成した障害情報27の自ストレージ装置への送信を要求する。
危険性ランク判定プログラム31は、自ストレージ装置内の交換可能な各部位について、これらの部位にどの程度障害が発生するおそれがあるかを判定するためのプログラムである。上位ストレージ装置4は、障害下位ストレージ装置6の障害発生部位と同一の部位が自ストレージ装置4内又は記憶システム1内に存在する場合、この危険性ランク判定プログラムに従って、当該同一部位の稼働状況等に基づいて、当該同一部位に障害が発生するおそれの程度(以下、これを危険性ランクと呼ぶ)を判定する。
ベンダ確認プログラム32は、各下位ストレージ装置6が作成した障害情報27(図2)のうちの採集可能な情報を管理するためのプログラムである。後述のように、この記憶システム1では、下位ストレージ装置6に対して、当該下位ストレージ装置6が作成した障害情報27(図2)の一部又は全部を上位ストレージ装置4に通知しないように設定することができる。そこで、上位ストレージ装置4は、このベンダ確認プログラム32に基づいて、各下位ストレージ装置6について、障害情報27のうちのどの詳細情報の通知が許可され、どの詳細情報の通知が不許可となっているかを、ベンダ情報管理テーブル36を用いて管理する。
障害情報作成プログラム33は、障害情報22を作成するためのプログラムである。上位ストレージ装置4は、この障害情報作成プログラム34に基づいて、上位ストレージ装置4及び記憶システム1全体についての障害情報22(図2)を作成する。
障害情報報告プログラム34は、作成した障害情報22をシステム管理者に提示するためのプログラムである。上位ストレージ装置4は、作成した障害情報22をこの障害情報報告プログラム34に基づき、システム管理者からの要求に応じて、管理端末18のディスプレイ(図示せず)に表示する。
さらに未使用ボリューム管理プログラム35は、未使用の論理ボリューム(以下、これを単に未使用ボリュームと呼ぶ)VOLを管理するためのプログラムである。上位ストレージ装置4は、この未使用ボリューム管理プログラム35に基づいて後述の自ストレージ未使用ボリューム管理テーブル37及びシステム未使用ボリューム管理テーブル38を作成し、これら自ストレージ未使用ボリューム管理テーブル37及びシステム未使用ボリューム管理テーブル38を用いて自ストレージ装置内及び記憶システム1内の未使用ボリュームを管理する。
ベンダ情報管理テーブル36は、各下位ストレージ装置6において、その下位ストレージ装置6が作成する障害情報27(図1)のうち、どの詳細情報が上位ストレージ装置4に対して通知可能に設定され、どの詳細情報が通知不可に設定されているかを管理するためのテーブルであり、図4に示すように、「下位ストレージ装置」フィールド40、「ベンダ」フィールド41及び「情報通知可否」フィールド42から構成される。
このうち「下位ストレージ装置」フィールド40には、上位ストレージ装置4に接続された各下位ストレージ装置6のID(識別子)が格納される。また「ベンダ」フィールド41には、その下位ストレージ装置6のベンダが上位ストレージ装置4のベンダと同じであるか否かの情報(「同一」又は「否」)が格納される。
さらに「情報通知可否」フィールド42には、障害情報27を構成する各詳細情報にそれぞれ対応させて、複数の「障害情報」フィールド42A〜42Eが設けられており、これら「障害情報」フィールド42A〜42E内に、それぞれ対応する詳細情報の通知が許可又は不許可のいずれに設定されているかを表す情報(「可」又は「否」)が格納される。
この場合、障害情報27の詳細情報としては、交換可能な部位であって、障害復旧のために交換すべき部位を表す交換部位情報(障害情報1)や、データ書込み時又はデータ読出し時といった障害発生時のシステム内部状況を表す障害発生時システム内部状況情報(障害情報2)、その下位ストレージ装置全体やデバイスごとの稼働時間、電源のオン・オフ回数、連続稼働時間、アクセス間隔及びアクセス回数などからなるシステム稼働情報(障害情報3)、その下位ストレージ装置の製造番号などのその他情報(障害情報4)、及び各交換可能な部位ごとの危険性ランクである危険性ランク情報(障害情報5)がある。
従って、例えば図4の例では、「A」というIDの下位ストレージ装置6では、上位ストレージ装置4とベンダが同じであり、障害情報27(図2)のうちの障害情報1から障害情報5までのすべてが上位ストレージ装置4に通知可能に設定されているのに対して、「C」という識別番号の下位ストレージ装置6では、上位ストレージ装置4とベンダが異なり、障害情報27のうちの障害情報1のみが上位ストレージ装置4に通知可能に設定されていることが分かる。
なお、このベンダ情報管理テーブル36における「下位ストレージ装置」フィールド40や、「ベンダ」フィールド41及び「情報通知可否」フィールド42の各情報は、システム管理者により手入力で設定される。ただし、このような情報を予めベンダが下位ストレージ装置6に設定し、上位ストレージ装置4が所定のタイミングでこの情報を採集してベンダ情報管理テーブル36を作成するようにしても良い。
自ストレージ未使用ボリューム管理テーブル37は、自ストレージ装置内の未使用ボリュームVOLを管理するためのテーブルであり、図5に示すように、「エントリ番号」フィールド50、「未使用ボリューム管理番号」フィールド51、「空き容量」フィールド52、「平均シーク時間」フィールド53、「平均回転待ち時間」フィールド54、「ディスク回転数」フィールド55、「アクセス速度」フィールド56及び「データバッファ容量」フィールド57から構成される。
このうち「エントリ番号」フィールド50には、その未使用ボリュームVOLの自ストレージ未使用ボリューム管理テーブル37へのエントリ番号が格納される。また「未使用ボリューム管理番号」フィールド51及び「空き容量」フィールド52には、それぞれその未使用ボリュームVOLの管理番号(LUN)や容量が格納される。
さらに「平均シーク時間」フィールド53、「平均回転待ち時間」フィールド54、「ディスク回転数」フィールド55、「アクセス速度」フィールド56及び「データバッファ容量」フィールド57には、それぞれその未使用ボリュームVOLが設定された記憶領域を提供するディスクデバイス10(図2)の平均シーク時間、平均回転待ち時間、1秒当たりのディスク回転数、アクセス速度及びデータバッファ容量が格納される。なお、これらディスクデバイス10の性能に関する数値は、システム管理者等により予め上位ストレージ装置4に入力されたものである。
さらにシステム未使用ボリューム管理テーブル38は、記憶システム1内に存在する未使用ボリュームVOLを管理するためのテーブルである。このシステム未使用ボリューム管理テーブル38は、図6に示すように、「エントリ番号」フィールド60、「未使用ボリューム管理番号」フィールド61、「空き容量」フィールド62、「平均シーク時間」フィールド63、「平均回転待ち時間」フィールド64、「ディスク回転数」フィールド65、「アクセス速度」フィールド66及び「データバッファ容量」フィールド67から構成される。
そして「未使用ボリューム管理番号」フィールド61には、仮想ストレージシステム内の各未使用ボリュームVOLについて、その未使用ボリュームVOLが存在するストレージ装置(上位ストレージ装置4又は下位ストレージ装置6)の識別番号と、当該未使用ボリュームVOLの管理番号(LUN)とを組み合わせた管理番号が格納される。
また「エントリ番号」フィールド60、「空き容量」フィールド62、「平均シーク時間」フィールド63、「平均回転待ち時間」フィールド64、「ディスク回転数」フィールド65、「アクセス速度」フィールド66及び「データバッファ容量」フィールド67には、自ストレージ未使用ボリューム管理テーブル37における対応するフィールド50,52〜57と同じデータが格納される。
一方、上述の障害情報集約機能に関連して各下位ストレージ装置6の管理端末25(図2)のメモリ20A(図2)には、上述の制御情報26(図2)として、図7に示すように、危険性ランク判定プログラム70、ベンダ確認プログラム71、障害情報作成プログラム72、障害情報作成プログラム73及び未使用ボリューム管理プログラム74と、ベンダ情報管理テーブル75及び自ストレージ未使用ボリューム管理テーブル76とが格納されている。
この場合、危険性ランク判定プログラム70が自ストレージ装置(下位ストレージ装置6)のみについての危険性ランクの判定処理を実行し、ベンダ確認プログラム71が上位ストレージ装置4に報告可能な障害情報27(図2)の構成要素のみを管理し、障害情報作成プログラム72が自ストレージ装置についての障害情報のみを作成し、障害情報報告プログラム73が上位ストレージ装置4に対して自ストレージ装置の障害情報を報告し、未使用ボリューム管理プログラム74が自ストレージ装置内の未使用ボリュームVOLのみを管理する点を除いて、いずれのプログラム70〜74も図3について上述した制御情報21の対応するプログラム31〜35と同様の機能を有するものであるため、これらの説明は省略する。
ベンダ情報管理テーブル75は、その下位ストレージ装置6が作成する障害情報27のうち、上位ストレージ装置4に対してどの詳細情報が通知可能で、どの詳細情報が通知不可に設定されているかを管理するためのテーブルであり、図8に示すように、「上位ストレージ装置」フィールド80、「ベンダ」フィールド81及び「情報通知可否」フィールド82から構成される。
このうち「上位ストレージ装置」フィールド80には、上位ストレージ装置4のIDが格納される。また「ベンダ」フィールド81には、自ストレージ装置のベンダが上位ストレージ装置4のベンダと同じであるか否かを表す情報(「同一」又は「否」)が格納される。
さらに「情報通知可否」フィールド82には、上位用ベンダ情報管理テーブル36(図4)と同様に、障害情報27の各詳細情報にそれぞれ対応させて複数の「障害情報」フィールド82A〜82Fが設けられており、これら「障害情報」フィールド82A〜82E内に、それぞれ障害情報22のうちの対応する詳細情報の通知が許可又は不許可のいずれに設定されているかを表す情報(「可」又は「否」)が格納される。
さらに「情報通知可否」フィールド82には、「未使用ボリューム情報」フィールド82Fも設けられており、この「未使用ボリューム情報」フィールド82に、未使用ボリューム管理プログラム74により管理されている自ストレージ装置内の未使用ボリュームVOLについての情報(図5参照)が上位ストレージ装置4に通知可能又は通知不可(上位ストレージ装置4への通知が許可又は不許可)のいずれに設定されているかを表す情報(「可」又は「不可」)が格納される。
従って、例えば図8の例では、上位ストレージ装置4のIDは「Z」であって、その下位ストレージ装置6とベンダが同じであり、その下位ストレージ装置6は、障害情報27のうちの障害情報1から障害情報5までのすべて詳細情報が上位ストレージ装置4に通知可能に設定され、さらに未使用ボリュームVOLに関する情報についても上位ストレージ装置4に通知可能に設定されていることが分かる。
なお、このベンダ情報管理テーブル75における「上位ストレージ装置」フィールド80や、「ベンダ」フィールド81及び「情報通知可否」フィールド82の各情報は、その下位ストレージ装置6の設置の際に当該下位ストレージ装置6のベンダにより設定される。
他方、上位ストレージ装置4の管理端末18のメモリ20(図2)には、上述の障害情報集約機能に関連して、図9に示すように、自ストレージ装置についての障害情報である自ストレージ障害情報90と、記憶システム1全体についての障害情報であるシステム障害情報91とからなる障害情報22が保持される。
このうち自ストレージ障害情報90は、自ストレージ装置に関する上述の交換部位情報91A、障害発生時システム内部状況情報92A、システム稼働状況情報93A及びその他情報95Aと、自ストレージ装置内の各交換可能な部位ごとの危険性ランク情報96Aとから構成される。
またシステム障害情報91は、仮想ストレージシステム全体に関する交換部位情報92B、障害発生時システム内部状況情報92B、システム稼働状況情報93B及びその他情報95Bと、記憶システム1における各交換可能な部位ごとの危険性ランク情報96Aとから構成される。
これに対して、下位ストレージ装置6の管理端末25(図2)のメモリ20A(図2)には、障害情報集約機能に関連して、図10に示すように、自ストレージ装置に関する障害情報のみからなる障害情報27が保持される。この障害情報27は、図9について上述した自ストレージ障害情報90と同様のものであるので、説明は省略する。
(2−2)障害情報集約処理
次に、上述の障害情報集約機能に関する上位ストレージ装置4及び各下位ストレージ装置6の具体的な処理内容について、ユーザが使用する論理ボリュームVOLに障害が発生した場合を例に説明する。
図11及び図12は、かかる障害情報集約機能に関する上位ストレージ装置4及び下位ストレージ装置6の処理の流れを示している。
上位ストレージ装置4は、ホスト装置2からのデータ入出力要求を受信すると、これを対応する下位ストレージ装置6に転送する(SP1)。そして下位ストレージ装置6は、このデータ入出力要求を受信すると、これに応じたデータ入出力処理を実行する(SP2)。
このとき下位ストレージ装置2は、かかるデータ入出力処理を行なっている論理ボリュームVOLに障害が発生すると(SP3)、通常のデータの送受経路を通じて、上述の障害発生通知を上位ストレージ装置4を介してホスト装置2に送信する(SP4)。またこのときこの下位ストレージ装置4の管理端末25のCPU(以下、これを下位CPUと呼ぶ)19Aは、かかるホスト装置2への報告とは別に、上位ストレージ装置4の管理端末18に障害が発生した旨を報告する(SP4)。
そしてかかる障害が発生した下位ストレージ装置(以下、これを障害下位ストレージ装置と呼ぶ)6の下位CPU19Aは、この後、共有メモリ15A(図2)に格納された自ストレージ装置(障害下位ストレージ装置6)のシステム構成情報などに基づいて、図10について上述した障害情報27を作成する(SP6)。
続いて、障害下位ストレージ装置6の下位CPU19Aは、ベンダ情報管理テーブル75(図7)に基づいて、障害情報27のうちのどの詳細情報(交換部位情報92C、障害発生時システム内部状況情報93C、システム稼働情報94C又はその他情報95C)が上位ストレージ装置4に対して通知可能に設定されているかを判断する(SP7)。そしてかかる下位CPU19Aは、この判断結果に基づいて、ステップSP7において作成した障害情報27のうちの通知可能に設定されている詳細情報を上位ストレージ装置4に送信する(SP8)。
なお、上位ストレージ装置4の管理端末18のCPU(以下、これを上位CPUと呼ぶ)19は、下位ストレージ装置6からの障害発生通知を受信した場合であって、その後一定期間内にこの障害下位ストレージ装置6から障害情報27が送信されてこなかったときには、ベンダ情報管理テーブル36(図4)に基づいて、まず、その障害下位ストレージ装置6について通知可能に設定されている障害情報27の詳細情報の種類を確認する。そして上位CPU19は、障害情報採集プログラム30に基づいて、この後かかる障害下位ストレージ装置6に対し、通知可能に設定されている障害情報27の詳細情報を転送すべき旨のコマンド(以下、これを障害情報送信要求コマンドと呼ぶ)を障害下位ストレージ装置6に送信する。このようにして、上位CPU19は、障害下位ストレージ装置の障害情報27を採集する(SP5)。
一方、上位CPU19は、障害下位ストレージ装置6から送信された障害情報27を受信すると、障害情報報告プログラム34(図3)に従って、この障害情報27を自ストレージ装置のベンダのサービス拠点8に設置されたサーバ装置9に送信する(SP9)。またかかるサーバ装置9は、かかる障害情報27を受信すると、これを障害下位ストレージ装置6のベンダのサービス拠点8に設置されたサーバ装置9に転送する。これによりこの記憶システム1では、かかる障害下位ストレージ装置6のベンダがこの障害情報27に基づいて、自己が製造販売した障害下位ストレージ装置6の障害内容を解析することができる。
続いて上位CPU19は、障害情報作成プログラム33(図3)に従い、障害下位ストレージ装置6から与えられた障害情報27に基づいて、図9について上述した障害情報22のうちのシステム障害情報91を作成する(SP10)。この際、上位CPU19は、障害下位ストレージ装置6から採集することができなかった通知不可に設定されている障害情報27の詳細情報については、システム管理者による保守の際に当該障害下位ストレージ装置6から直接取得すべき旨の情報をシステム障害情報91に追加する(SP10)。
また上位CPU19は、この後、障害が発生していない他の下位ストレージ装置(以下、これを未障害下位ストレージ装置と呼ぶ)6からも障害情報27を採集するため、障害情報採集プログラム30に従って、まず、各未障害下位ストレージ装置6について、ベンダ情報管理テーブル36(図3)を参照し、その未障害下位ストレージ装置6について通知可能に設定されている障害情報27(図10)の詳細情報の種類をそれぞれ確認する。そして上位CPU19は、未障害下位ストレージ装置6ごとに、通知可能に設定されている障害情報27の詳細情報を送信すべき旨の障害情報送信要求コマンドを送信する(SP11)。
さらに上位CPU19は、この後、障害情報作成プログラム33(図3)に従い、共有メモリ15に格納されたその下位ストレージ装置6のシステム構成情報などに基づいて、図9について上述した障害情報22のうちの自ストレージ障害情報90を作成する(SP12)。
一方、障害情報送信要求コマンドを受信した各未障害下位ストレージ装置6の下位CPU19Aは、障害情報作成プログラム72(図7)に従い、共有メモリ15A(図2)に格納された自ストレージ装置6のシステム構成情報などに基づいて、自ストレージ装置についての障害情報27を作成する(SP13)。
そして各未障害下位ストレージ装置6の下位CPU19Aは、この後、障害情報報告プログラム73(図7)に従い、自ストレージ装置のベンダ情報管理テーブル75(図8)に基づいて、ステップS13において作成した障害情報27のうちの上位ストレージ装置4に通知可能に設定されている詳細情報の種類を確認し、これら通知可能に設定されている詳細情報のみを上位ストレージ装置6に送信する(SP15)。
そして、未障害下位ストレージ装置6から送信されてきた障害情報27を受信した上位CPU19は、これらの障害情報27に基づいて、メモリ20(図2)に保持している障害情報22(図9)のうちのシステム障害情報91(図91)を更新する(SP16)。これにより上位ストレージ装置4が記憶するシステム障害情報91に記憶システム1全体の障害情報が集約されることとなる。
また上位CPU19は、この後、この更新したシステム障害情報91を各下位ストレージ装置6(障害下位ストレージ装置6及び各未障害下位ストレージ装置6)に送信する(SP17)。この際上位CPU19は、ベンダ情報管理テーブル36(図4)を参照して、下位ストレージ装置6ごとに、システム障害情報91のうち、その下位ストレージ装置6において上位ストレージ装置4に通知可能に設定されている障害情報27の詳細情報のみを当該下位ストレージ装置6に送信する。
さらに上位CPU19は、この後、危険性ランク判定プログラム31(図3)に従い、システム障害情報91に基づいて、自ストレージ装置(上位ストレージ装置4)内の交換可能な部位であって、障害下位ストレージ装置6における障害発生部位(論理ボリュームVOL)と同一部位の危険性ランクを判定する(SP18)。
同様に、かかる上位ストレージ装置4からのシステム障害情報91を受信した各下位ストレージ装置6(障害下位ストレージ装置6又は未障害下位ストレージ装置6)の下位CPU19Aも、危険性ランク判定プログラム70(図7)に従い、このシステム障害情報91に基づいて、自ストレージ装置内の交換可能な部位であって、障害下位ストレージ装置6の障害発生部位と同一部位の危険性ランクを判定する(SP19,SP22)。
続いて、これら下位ストレージ装置6の下位CPU19Aは、障害情報報告プログラム73(図7)に従い、メモリ20A(図2)に保持しているベンダ情報管理テーブル75(図8)に基づいて、かかる危険性ランク付け処理により得られた自ストレージ装置の危険性ランクの情報(以下、これを単に危険性ランク情報と呼ぶ)が上位ストレージ装置4に通知可能に設定されているか否かを判断する(SP20,SP23)。そして、かかる下位CPU19Aは、この判断において肯定結果を得た場合にのみ、この危険性ランク情報を上位ストレージ装置4に送信する(SP21、SP24)。
他方、上位CPU19は、これら下位ストレージ装置6からそれぞれ送信される危険性ランク情報を受信すると、これに応じて障害情報22(図9)のうちのシステム障害情報91を順次更新する(SP25)。これにより記憶システム1内の上位ストレージ装置4及び各下位ストレージ装置6の危険性ランク情報が上位ストレージ装置4のシステム情報91に集約されることとなる。
そして上位CPU19は、この後、危険性ランク判定プログラム31(図3)に従い、最新のシステム障害情報91に基づいて、障害の発生を予測する(SP26)。具体的に、上位CPU19は、かかる最新のシステム障害情報91に基づいて、いずれかの下位ストレージ装置6に、近いうちに障害が発生するおそれがあると考えられる論理ボリューム(以下、これを危険ボリュームと呼ぶ)VOLが存在するか否かを判断する(SP26)。
そして上位CPU19は、この判断において肯定結果を得ると、未使用ボリューム管理プログラム35(図3)に従い、その危険ボリュームVOLの代替の論理ボリューム(以下、これを代替ボリュームと呼ぶ)VOLを、システム未使用ボリューム管理テーブル38(図6)に登録されている未使用ボリュームVOLの中から選択する(SP27)。この際、上位CPU19は、代替ボリュームVOLとして、危険ボリュームVOLと同等の性能を有する未使用ボリュームVOLを選択する。また上位CPU19は、これと併せて、記憶システム1内に上述の危険ボリュームVOLを提供するディスクデバイス10の交換が必要である旨の情報をシステム障害情報91の危険性ランク情報96B(図9)内に追加する(SP27)。
そして上位CPU19は、かかる代替ボリュームVOLを選択すると、その危険ボリュームVOLが設けられた下位ストレージ装置29に対して、当該危険ボリュームVOL内に格納されたデータを代替ボリュームVOLに移動させるべき旨の指示(以下、これをデータ移行指示と呼ぶ)を与える(SP28)。
かくして、このデータ移行指示を受けた下位ストレージ装置6の下位CPU19Aは、この後、かかる危険ボリュームVOLに格納されたデータを代替ボリュームVOLに移行させ、ホスト装置2から危険ボリュームVOLへのパスをこの代替ボリュームVOLへのパスに切り替えるなどのボリュームの切替え処理を実行する(SP29)。
一方、障害下位ストレージ装置6の下位CPU19Aは、障害が発生した論理ボリューム(以下、これを障害ボリュームと呼ぶ)VOLを提供するディスクデバイス10の交換が行われるなど、保守員等による障害ボリュームVOLの復旧作業が完了すると、これを上位ストレージ装置4に報告する(SP30)。
またステップSP29において代替ボリュームVOLへのデータ移行を行った危険ボリュームVOLを有していた下位ストレージ装置6の下位CPU19Aは、危険ボリュームVOLを提供するディスクデバイス10の交換が行われると、これを上位ストレージ装置4に報告する(SP31)。
そして上位ストレージ装置4の上位CPU19は、これらの報告を受信すると、その報告をしてきた下位ストレージ装置6(元の障害下位ストレージ装置6又は危険ボリュームVOLを有していた未障害下位ストレージ装置6)に対して、障害ボリュームVOLや危険ボリュームVOLから代替ボリュームVOLに退避させたデータを復旧後又は部品交換後の元の障害ボリュームVOL又は危険ボリュームVOLに移行させるべき旨のデータ移行指示を送信する(SP32)。
かくして、このデータ移行指示を受けた下位ストレージ装置の下位CPUは、この後、かかる代替ボリュームVOLに格納されたデータを復旧後又は部品交換後の元の障害ボリュームVOL又は元の危険ボリュームVOLに移行させ、ホスト装置2から代替ボリュームVOLへのパスをこれら元の障害ボリュームVOL又は元の危険ボリュームVOLへのパスに切り替えるなどのボリュームの切替え処理を実行する(SP33,SP34)。
(2−3)危険性ランク付け処理
図13は、図11及び図12について上述した障害情報集約処理のステップSP18,ステップSP19,ステップSP22で上位ストレージ装置4及び各下位ストレージ装置6において行われる危険性ランク付け処理の処理内容を示すフローチャートである。上位CPU19及び下位CPU19Aは、危険ランク判定プログラム31,70(図3,図7)に基づき、この図13に示す危険ランク付け処理手順RT1に従って、かかる危険性ランク付け処理を実行する。
すなわち上位CPU19又は下位CPU19Aは、まず、図11及び図12について上述した障害情報集約処理のステップSP16において更新し、又はステップSP17において上位ストレージ装置4から送信されてきたシステム障害情報91(図9)と、自ストレージ装置内の共有メモリ15,15Aに格納されたシステム構成情報とに基づいて、自ストレージ装置内に障害下位ストレージ装置6の障害発生部位と同一の部位を有し、かつその部位が障害発生部位と同じ形式のものであるか否かを判断する(SP40)。
この例では、かかる障害発生部位が論理ボリュームVOL(具体的にはディスクデバイス10)であるため、上位CPU19又は下位CPU19Aは、自ストレージ装置内にディスクデバイス10(同じ部位)が存在するか否かと、ディスクデバイス10を有している場合に、そのディスクデバイス10が、障害が発生したディスクデバイス10と同じメーカの同じタイプ(同じ形式)のものであるか否かを判断することになる。
そして上位CPU19又は下位CPU19Aは、この判断において否定結果を得ると、この危険性ランク付け処理を終了する。
これに対して上位CPU19又は下位CPU19Aは、この判断において肯定結果を得ると、その自ストレージ装置内の障害発生部位と同一形式の同一部位(以下、これを危険性判定対象部位と呼ぶ)に対する危険ランクを「1」だけ増加させ(SP41)、この後、障害情報22,27(図9,図10)のうちのシステム稼動情報94A,94Cに基づいて、その危険性判定対象部位のオン・オフ回数が障害発生部位のオン・オフ回数以上であるか否かを判断する(SP42)。
そして上位CPU19又は下位CPU19Aは、この判断において肯定結果を得ると、ステップSP44に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「1」だけ増加させた後に(SP43)、障害情報22,27(図9,図10)のうちのシステム稼動情報94A,94C(図9,図10)に基づいて、その危険性判定対象部位の稼働時間が障害発生部位の稼働時間以上であるか否かを判断する(SP44)。
上位CPU19又は下位CPU19Aは、この判断において肯定結果を得ると、ステップSP46に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「1」だけ増加させた後に(SP45)、障害情報22,27(図9,図10)のうちのシステム稼動情報94A,94C(図9,図10)に基づいて、その危険性判定対象部位の連続稼働時間が障害発生部位の連続稼働時間以上であるか否かを判断する(SP46)。
上位CPU19又は下位CPU19Aは、この判断において肯定結果を得ると、ステップSP48に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「1」だけ増加させた後に(SP47)、障害情報22,27(図9,図10)のうちのシステム稼動情報94A,94C(図9,図10)に基づいて、その危険性判定対象部位に対するホスト装置2からのアクセスの間隔が、障害発生部位に対するホスト装置2からのアクセスの間隔以下であるか否かを判断する(SP48)。
上位CPU19又は下位CPU19Aは、この判断において肯定結果を得ると、ステップSP50に進み、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「1」だけ増加させた後に(SP49)、障害情報22,27(図9,図10)のうちのシステム稼動情報94A,94C(図9,図10)に基づいて、その危険性判定対象部位に対するホスト装置2からのアクセス回数が障害発生部位に対するホスト装置2からのアクセス回数以上であるか否かを判断する(SP50)。
そして上位CPU19又は下位CPU19Aは、この判断において肯定結果を得ると、この一連の危険ランク付け処理を終了し、これに対して否定結果を得ると、その危険性判定対象部位に対する危険ランクを「1」だけ増加させた後に(SP51)、この一連の危険ランク付け処理を終了する。
このようにして上位CPU19又は下位CPU19Aは、自ストレージ装置内に存在する障害下位ストレージ装置6の障害発生部位と同じ形式の同一部位に対する危険性ランク付けを実行する。
なお、この実施の形態の場合、上位CPU19又は下位CPU19Aは、ステップSP42の判断において、障害下位ストレージ装置6における障害発生部位に発生した障害が初期不良によるものである場合と区別するために、かかる障害発生部位のオン・オフ回数が予め定められた初期不良判定回数未満である場合には、このステップSP42における判断と、この判断に基づくステップSP43における危険性判定対象部位に対する危険ランクのカウントアップ処理とを省略する。この場合において、かかる初期不良判定回数は、この回数以内の障害は初期不良であると考えられる数値として、統計的に求めた数値である。
同様に、上位CPU19又は下位CPU19は、ステップSP44、ステップSP46、ステップSP48又はステップSP50の判断において、かかる障害発生部位の稼働時間、連続稼働時間、アクセス間隔又はアクセス回数が、これら稼働時間、連続稼働時間、アクセス間隔又はアクセス回数についてそれぞれ予め設定された閾値未満である場合には、そのステップSP44、ステップSP46、ステップSP48又はステップSP50における判断と、この判断に基づくステップSP44、ステップSP46、ステップSP48又はステップSP50における危険性判定対象部位に対する危険ランクのカウントアップ処理とを省略する。
このようにしてこの記憶システム1においては、初期不良による障害の発生を考慮して危険性判定対象部位に対する危険ランクを判定することで、かかる危険性判定対象部位に対する危険ランクを精度良く判定し得るようになされている。
(2−4)代替ボリューム選択処理
一方、図14は、図11及び図12について上述した障害情報集約処理のステップSP27で上位ストレージ装置6において行われる危険ボリュームVOLの代替となる代替ボリュームVOLを選択する代替ボリューム選択処理の処理内容を示すフローチャートである。上位CPU19は、未使用ボリューム管理プログラム35(図3)に基づき、この図14に示す代替ボリューム選択処理手順に従って、かかる危険ボリュームVOLと同等性能の代替ボリュームVOLを選択する。
すなわち、上位CPU19は、まず、危険ボリュームVOLを有する下位ストレージ装置6にアクセスして、共有メモリ15(図2)に格納されているシステム構成情報に基づいて危険ボリュームVOLの性能情報を取得する(SP60)。具体的に、上位CPU19は、かかる下位ストレージ装置6の共有メモリ15A(図2)に格納されているシステム構成情報から、危険ボリュームVOLの容量と、当該危険ボリュームVOLを提供するディスクデバイス10のアクセス速度、ディスク回転数、データバッファ容量、平均シーク時間及び平均シーク待ち時間とを、かかる性能情報として取得することになる。
そして上位CPU19は、この後、このようにして取得した危険ボリュームVOLの性能情報と、システム未使用ボリューム管理テーブル38(図6)とに基づいて、記憶システム1内に危険ボリュームVOLの容量よりも容量の大きい未使用ボリュームVOLが存在するか否か(SP61)、危険ボリュームVOLを提供するディスクデバイス10のアクセス速度とほぼ同じアクセス速度のディスクデバイス10が提供する未使用ボリュームVOLが存在するか否か(SP62)、危険ボリュームVOLを提供するディスクデバイス10のディスク回転数とほぼ同じディスク回転数のディスクデバイス10が提供する未使用ボリュームVOLが存在するか否か(SP63)を順番に判断する。
また上位CPU19は、この後、危険ボリュームVOLを提供するディスクデバイス10のバッファ容量とほぼ同じバッファ容量を有するディスクデバイス10が提供する未使用ボリュームVOLが存在するか否か(SP64)、危険ボリュームVOLを提供するディスクデバイス10の平均シーク時間とほぼ同じ平均シーク時間のディスクデバイス10が提供する未使用ボリュームVOLが存在するか否か(SP65)、及び危険ボリュームVOLを提供するディスクデバイス10の平均シーク待ち時間とほぼ同じ平均シーク待ち時間のディスクデバイス10が提供する未使用ボリュームVOLが存在するか否か(SP66)を順番に判断する。
そして上位CPU19は、これらステップSP61〜ステップSP66のいずれかの判断において否定結果を得ると、かかる危険ボリュームVOLの代替となる代替ボリュームVOLの選択を行なえなかった旨の警告を管理端末18(図2)のディスプレイに表示させなどの所定のエラー処理を実行し(SP67)、この後この代替ボリューム選択処理を終了する。
これに対して上位CPU19は、ステップSP61〜ステップSP66の判断においてすべて肯定結果を得ると、これらステップSP61〜ステップSP66の条件を満たす未使用ボリュームVOLのうち、危険ボリュームVOLの性能に最も近い性能の未使用ボリュームVOLを代替ボリュームVOLとして1つ選択し(SP67)、この後この代替ボリューム選択処理を終了する。
このようにして、この記憶システム1では、危険ボリュームVOLの代替ボリュームVOLとして、当該危険ボリュームVOLの性能に近い性能を有する未使用ボリュームVOLを選択することで、危険ボリュームVOLのデータを代替ボリュームVOLに移動させたときや、代替ボリュームVOLから部品交換後の元の危険ボリュームVOLにデータを戻したときなどに、データの読み書き速度等に変化が生じるのを未然に防止し、これによりその代替ボリュームVOLや部品交換後の元の危険ボリュームVOLを使用するユーザに、かかるデータの移行が行われたことを意識させないようにすることができるようになされている。
なお、本実施の形態においては、ステップSP61〜ステップSP67における上述の『ほぼ同じ』の範囲として、例えば危険ボリュームVOLを提供するディスクデバイス10の対応する性能の±5〔%〕〜±10〔%〕程度の範囲を適用しているが、かかる『ほぼ同じ』の範囲として、これ以外の範囲を適用するようにしても良い。
(3)本実施の形態の効果
以上のように本実施の形態による記憶システム1では、いずれかの下位ストレージ装置6からこの障害発生通知が発行された場合、その中継を行なう上位ストレージ装置4が当該障害発生通知を受信したことを契機として、当該上位ストレージ装置4が各下位ストレージ装置6から障害に関する各種情報でなる障害情報27を採集するため、例えば複数のストレージ装置に障害が発生した場合においても、これらストレージ装置の障害内容を仮想化装置から一括して取得することができる。かくするにつき、この記憶システム1によれば、保守作業時の障害情報の収集作業を簡略化させることができ、かくして保守作業の作業効率を向上させることができる。
またこの記憶システム1では、いずれかの下位ストレージ装置6に障害が発生した場合に、その障害下位ストレージ装置6以外の他の未障害下位ストレージ装置6からも障害情報27を採集し、採集した障害情報に基づいて障害の発生を予測し、予測結果に基づいて近いうちに障害が発生することが予想される危険ボリュームVOLに格納されたデータを他の代替ボリュームVOLに移行させるようにしているため、記憶システム1全体としての信頼性を向上させることができる。
(4)他の実施の形態
なお上述の実施の形態においては、下位ストレージ装置6が障害情報27のうちのベンダにより予め許可された詳細情報のみを上位ストレージ装置4に送信するようにした場合について述べたが、本発明はこれに限らず、例えば少なくとも予め設定により上位ストレージ装置4への送信が許可されていない詳細情報については暗号化するなど、下位ストレージ装置6が障害情報27の一部又は全部を暗号化して上位ストレージ装置4に送信するようにしても良い。
また上述の実施の形態においては、障害情報22,27の詳細情報として、交換部位情報92A〜92C、障害発生時システム内部状況情報93A〜93C、システム稼動情報94A〜94C、その他情報95A〜95C及び危険性ランク情報96A〜96Cの5つの情報を適用するようにした場合について述べたが、本発明はこれに限らず、これらに加えて又は代えて他の情報を障害情報22,27の一部又は全部とするようにしても良い。
本実施の形態による記憶システムの構成を示すブロック図である。 上位ストレージ装置及び下位ストレージ装置の構成を示すブロック図である。 上位ストレージ装置用の制御情報の説明に供する概念図である。 上位ストレージ装置用のベンダ情報管理テーブルを示す概念図である。 自ストレージ用未使用ボリューム管理テーブルを示す概念図である。 システム用未使用ボリューム管理テーブルを示す概念図である。 下位ストレージ装置用の制御情報の説明に供する概念図である。 下位ストレージ装置用のベンダ情報管理テーブルを示す概念図である。 上位ストレージ装置用の障害情報の説明に供する概念図である。 下位ストレージ装置用の障害情報の説明に供する概念図である。 障害情報集約処理の説明に供するタイムチャートである。 障害情報集約処理の説明に供するタイムチャートである。 危険性ランク付け処理の説明に供するフローチャートである。 代替ボリューム選択処理の説明に供するフローチャートである。
符号の説明
1……記憶システム、2……ホスト装置、4……上位ストレージ装置、6……下位ストレージ装置、10……ディスクデバイス、12……コントローラ、18,25……管理端末、19,19A……CPU、20,20A……メモリ、21,26……制御情報、22,27……障害情報、30……障害情報採集プログラム、31,70……危険性ランク判定プログラム、32,71……ベンダ確認プログラム、33,72……障害情報作成プログラム、34,73……障害情報報告プログラム、35,74……未使用ボリューム管理プログラム、36,75……ベンダ情報管理テーブル、37,38,76……未使用ボリューム管理テーブル、92A〜92C……交換部位情報、93A〜93C……障害発生時システム内部状況情報、94A〜94C……システム稼動情報、95A〜95C……その他情報、96A〜96C……危険性ランク情報。

Claims (16)

  1. 1又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムであって、
    各上記ストレージ装置は、
    自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信し、
    前記仮想化装置は、
    前記ストレージ装置から送信される前記障害情報を記憶する
    ことを特徴とする仮想化システム。
  2. 前記ストレージ装置は、
    障害が発生したときに、所定の障害発生通知を前記仮想化装置を介して前記上位装置に通知した後に、前記障害情報を前記仮想装置に送信し、
    前記仮想化装置は、
    前記障害発生通知を中継後、当該ストレージ装置から前記障害情報が送信されてこなかったときに、当該ストレージ装置に前記障害情報の送信を要求する
    ことを特徴とする請求項1に記載の仮想化システム。
  3. 前記ストレージ装置は、
    前記障害情報のうちの予め設定により許可された情報のみを前記仮想化装置に送信する
    ことを特徴とする請求項1に記載の仮想化システム。
  4. 前記ストレージ装置は、
    前記障害情報のうちの少なくとも予め設定により許可されていない情報を暗号化して前記仮想化装置に送信する
    ことを特徴とする請求項1に記載の仮想化システム。
  5. 前記仮想化装置は、
    いずれかの前記ストレージ装置から送信された前記障害情報を受信したときには、他の各前記ストレージ装置から当該ストレージ装置の前記障害情報をそれぞれ採集する
    ことを特徴とする請求項1に記載の仮想化システム。
  6. 前記仮想化装置は、
    各前記ストレージ装置から送信される前記障害情報に基づいて、障害の発生を予測する
    ことを特徴とする請求項1に記載の仮想化システム。
  7. 前記仮想化装置は、
    前記障害の発生の予測結果に基づいて、障害が発生するおそれのある論理ボリュームでなる危険ボリュームに格納されたデータを、他の代替の論理ボリュームでなる代替ボリュームに移行させる
    ことを特徴とする請求項6に記載の仮想化システム。
  8. 前記仮想化装置は
    前記代替ボリュームとして、前記危険ボリュームと同等の性能を有する論理ボリュームを選択し、当該論理ボリュームに前記危険ボリュームのデータを移行させる
    ことを特徴とする請求項7に記載の仮想化システム。
  9. 1又は複数のストレージ装置と、各前記ストレージ装置がそれぞれ提供する記憶領域を仮想化して上位装置に提示する仮想化装置とを有する仮想化システムにおける障害対処方法であって、
    各上記ストレージ装置が、自ストレージ装置に障害が発生したときに、当該障害の詳細情報でなる障害情報を前記仮想化装置に送信する第1のステップと、
    前記仮想化装置が、前記ストレージ装置から送信される前記障害情報を記憶する第2のステップと
    を備えることを特徴とする障害対処方法。
  10. 前記第1のステップにおいて、
    前記ストレージ装置は、
    障害が発生したときに、所定の障害発生通知を前記仮想化装置を介して前記上位装置に通知した後に、前記障害情報を前記仮想装置に送信し、
    前記仮想化装置は、
    前記障害発生通知を中継後、当該ストレージ装置から前記障害情報が送信されてこなかったときに、当該ストレージ装置に前記障害情報の送信を要求する
    ことを特徴とする請求項9に記載の障害対処方法。
  11. 前記第1のステップにおいて、前記ストレージ装置は、
    前記障害情報のうちの予め設定により許可された情報のみを前記仮想化装置に送信する
    ことを特徴とする請求項9に記載の障害対処方法。
  12. 前記第1のステップにおいて、前記ストレージ装置は、
    前記障害情報のうちの少なくとも予め設定により許可されていない情報を暗号化して前記仮想化装置に送信する
    ことを特徴とする請求項9に記載の障害対処方法。
  13. 前記第2のステップにおいて、前記仮想化装置は、
    いずれかの前記ストレージ装置から送信された前記障害情報を受信したときには、他の各前記ストレージ装置から当該ストレージ装置の前記障害情報をそれぞれ採集する
    ことを特徴とする請求項9に記載の障害対処方法。
  14. 前記仮想化装置が、各前記ストレージ装置から送信される前記障害情報に基づいて、障害の発生を予測する第3のステップを備える
    ことを特徴とする請求項9に記載の障害対処方法。
  15. 前記仮想化装置が、前記障害の発生の予測結果に基づいて、障害が発生するおそれのある論理ボリュームでなる危険ボリュームに格納されたデータを、他の代替の論理ボリュームでなる代替ボリュームに移行させる第4のステップを備える
    ことを特徴とする請求項14に記載の障害対処方法。
  16. 前記第4のステップにおいて、前記仮想化装置は、
    前記代替ボリュームとして、前記危険ボリュームと同等の性能を有する論理ボリュームを選択し、当該論理ボリュームに前記危険ボリュームのデータを移行させる
    ことを特徴とする請求項15に記載の障害対処方法。

JP2006070163A 2006-03-15 2006-03-15 仮想化システム及び障害対処方法 Withdrawn JP2007249441A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006070163A JP2007249441A (ja) 2006-03-15 2006-03-15 仮想化システム及び障害対処方法
US11/439,950 US20070220376A1 (en) 2006-03-15 2006-05-25 Virtualization system and failure correction method
EP06255138A EP1835402A2 (en) 2006-03-15 2006-10-05 Virtualization system and failure correction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006070163A JP2007249441A (ja) 2006-03-15 2006-03-15 仮想化システム及び障害対処方法

Publications (1)

Publication Number Publication Date
JP2007249441A true JP2007249441A (ja) 2007-09-27

Family

ID=38254952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006070163A Withdrawn JP2007249441A (ja) 2006-03-15 2006-03-15 仮想化システム及び障害対処方法

Country Status (3)

Country Link
US (1) US20070220376A1 (ja)
EP (1) EP1835402A2 (ja)
JP (1) JP2007249441A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962781B2 (en) 2008-06-17 2011-06-14 Fujitsu Limited Control method for information storage apparatus, information storage apparatus and computer readable information recording medium
WO2012101836A1 (ja) * 2011-01-26 2012-08-02 株式会社日立製作所 計算機システム、及びその管理方法、並びにプログラム
JP2016212513A (ja) * 2015-04-30 2016-12-15 富士通株式会社 ストレージシステム、制御装置および制御プログラム
JP2020113113A (ja) * 2019-01-15 2020-07-27 富士通株式会社 ストレージ装置およびデータ配置方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856488B2 (en) * 2007-03-30 2010-12-21 Hewlett-Packard Development Company, L.P. Electronic device profile migration
US9501305B2 (en) * 2008-04-23 2016-11-22 Inernational Business Machines Corporation System for virtualisation monitoring
US8588225B1 (en) * 2008-07-07 2013-11-19 Cisco Technology, Inc. Physical resource to virtual service network mapping in a template based end-to-end service provisioning
JP2010238124A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd データ管理プログラム、データ管理装置、およびデータ管理方法
JP5261577B2 (ja) * 2009-05-25 2013-08-14 株式会社日立製作所 ストレージ装置及びその制御方法
US9069730B2 (en) * 2009-06-29 2015-06-30 Hewlett-Packard Development Company, L. P. Coordinated reliability management of virtual machines in a virtualized system
US8688838B2 (en) * 2009-12-14 2014-04-01 Hewlett-Packard Development Company, L.P. Profile management systems
US9189308B2 (en) 2010-12-27 2015-11-17 Microsoft Technology Licensing, Llc Predicting, diagnosing, and recovering from application failures based on resource access patterns
JP5959733B2 (ja) * 2013-04-23 2016-08-02 株式会社日立製作所 ストレージシステムおよびストレージシステムの障害管理方法
US9336091B2 (en) * 2014-03-06 2016-05-10 International Business Machines Corporation Reliability enhancement in a distributed storage system
US10073725B2 (en) * 2016-02-11 2018-09-11 Micron Technology, Inc. Distributed input/output virtualization
CN111240871B (zh) * 2019-12-30 2023-07-18 潍柴动力股份有限公司 发动机故障报出方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7275100B2 (en) * 2001-01-12 2007-09-25 Hitachi, Ltd. Failure notification method and system using remote mirroring for clustering systems
JP4415610B2 (ja) * 2003-08-26 2010-02-17 株式会社日立製作所 系切替方法、レプリカ作成方法、及びディスク装置
JP4307202B2 (ja) * 2003-09-29 2009-08-05 株式会社日立製作所 記憶システム及び記憶制御装置
US7383462B2 (en) * 2004-07-02 2008-06-03 Hitachi, Ltd. Method and apparatus for encrypted remote copy for secure data backup and restoration
US20080256397A1 (en) * 2004-09-22 2008-10-16 Xyratex Technology Limited System and Method for Network Performance Monitoring and Predictive Failure Analysis
US20070079170A1 (en) * 2005-09-30 2007-04-05 Zimmer Vincent J Data migration in response to predicted disk failure

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962781B2 (en) 2008-06-17 2011-06-14 Fujitsu Limited Control method for information storage apparatus, information storage apparatus and computer readable information recording medium
WO2012101836A1 (ja) * 2011-01-26 2012-08-02 株式会社日立製作所 計算機システム、及びその管理方法、並びにプログラム
JP2012155544A (ja) * 2011-01-26 2012-08-16 Hitachi Ltd 計算機システム、及びその管理方法、並びにプログラム
US8812642B2 (en) 2011-01-26 2014-08-19 Hitachi, Ltd. Computer system, management method of the computer system, and program
US9201613B2 (en) 2011-01-26 2015-12-01 Hitachi, Ltd. Computer system, management method of the computer system, and program
JP2016212513A (ja) * 2015-04-30 2016-12-15 富士通株式会社 ストレージシステム、制御装置および制御プログラム
JP2020113113A (ja) * 2019-01-15 2020-07-27 富士通株式会社 ストレージ装置およびデータ配置方法
JP7319514B2 (ja) 2019-01-15 2023-08-02 富士通株式会社 ストレージ装置およびデータ配置方法

Also Published As

Publication number Publication date
US20070220376A1 (en) 2007-09-20
EP1835402A2 (en) 2007-09-19

Similar Documents

Publication Publication Date Title
JP2007249441A (ja) 仮想化システム及び障害対処方法
JP5121161B2 (ja) 記憶システム、パス管理方法及びパス管理装置
US7480780B2 (en) Highly available external storage system
US8825919B1 (en) Path performance data collection
CA2893286C (en) Data storage method and storage device
US8677067B2 (en) Storage system and method for controlling storage system
US7945748B2 (en) Data migration and copying in a storage system with dynamically expansible volumes
US8578121B2 (en) Computer system and control method of the same
JP2012505439A (ja) ストレージ装置及びその制御方法
US20120203988A1 (en) Storage system and virtualization method
US20070180168A1 (en) Storage system, data processing method and storage apparatus
JP2005326935A (ja) 仮想化ストレージを備える計算機システムの管理サーバおよび障害回避復旧方法
EP1837765A2 (en) Backup apparatus and backup method
US7984260B2 (en) Storage system provided with a plurality of controller modules
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
JP2011014088A (ja) 計算機装置及びパス管理方法
JP2008276596A (ja) 記憶装置を決定する方法及び計算機
WO2013098888A1 (en) Storage apparatus and method for controlling same
US9779120B1 (en) Native storage data collection using plug-ins that are independent from data sources
JP2004341994A (ja) プログラム、情報処理装置、及び情報処理装置の制御方法
US10241950B2 (en) Multipath I/O proxy device-specific module
JP2009294901A (ja) ストレージ装置及び障害復旧方法
JP4837495B2 (ja) 記憶システム及びデータ管理移行方法
JP2007065788A (ja) ディスクアレイ装置及びその制御方法並びにプログラム
EP1895398A2 (en) Storage system and data management setting method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090203

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090803