JP6212934B2 - ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法 - Google Patents

ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法 Download PDF

Info

Publication number
JP6212934B2
JP6212934B2 JP2013097648A JP2013097648A JP6212934B2 JP 6212934 B2 JP6212934 B2 JP 6212934B2 JP 2013097648 A JP2013097648 A JP 2013097648A JP 2013097648 A JP2013097648 A JP 2013097648A JP 6212934 B2 JP6212934 B2 JP 6212934B2
Authority
JP
Japan
Prior art keywords
storage
disk
storage device
raid
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013097648A
Other languages
English (en)
Other versions
JP2014219787A (ja
Inventor
荻原 一隆
一隆 荻原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013097648A priority Critical patent/JP6212934B2/ja
Priority to US14/208,145 priority patent/US9507664B2/en
Publication of JP2014219787A publication Critical patent/JP2014219787A/ja
Application granted granted Critical
Publication of JP6212934B2 publication Critical patent/JP6212934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk

Description

本発明は、ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法に関する。
複数のディスクでRAID(Redundant Arrays of Independent Disks)を構成してデータの可用性および信頼性を確保するストレージシステムが知られている。ストレージシステムでは、RAIDを構成するディスクの障害に備えて、複数のRAIDグループに共通のスペアディスクを用意したり、特定のRAIDグループに専用のスペアディスクを用意したりしてディスクの故障に備える。ストレージシステムは、ディスクの障害時にスペアディスクを交えたリビルド処理により、障害からの復旧をおこなう。
特開2009−187406号公報 特開2005−100259号公報
しかしながら、ストレージシステムは、所定数のディスクを収容可能な、ディスクボックスやディスクエンクロージャと呼ばれるストレージユニットを複数備えることで、多数のディスクをディスクプールとして管理する場合がある。
このようなストレージシステムは、信頼性を考慮してそれぞれ異なるストレージユニットのディスクによってRAIDを構成するが、ディスクの障害によりスペアディスクを交えたリビルド処理をおこなうと、RAIDを構成する複数のディスクが同一のストレージユニットに属することがある。このとき、ストレージユニット単位の障害が発生すると、ストレージシステムは、複数のディスクで同時に障害が発生することとなり、データロストするおそれがある。
1つの側面では、本発明は、ストレージユニット単位の障害によるデータロストを防止できるストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法を提供することを目的とする。
上記目的を達成するために、以下に示すような、ストレージシステムが提供される。ストレージシステムは、複数のストレージデバイスを有する複数のストレージユニットと、ストレージデバイスを管理する管理装置と、管理装置から割当を受けてストレージデバイスと接続可能な情報処理装置と、を備える。情報処理装置は、構成部と、検出部と、再構成部と、複製部と、を備える。構成部は、それぞれ異なるストレージユニットに属するストレージデバイスの割当を受けてグループを構成する。検出部は、グループを構成するストレージデバイスの障害を検出する。再構成部は、障害を検出したストレージデバイスを代替するストレージデバイスを、グループを構成するその余のストレージデバイスが属するストレージユニットから割当を受ける場合に、その余のストレージデバイスが属するストレージユニットのうちの第1のストレージユニットから第1のストレージデバイスの割当を受けてグループの再構成をおこなう。複製部は、その余のストレージデバイスが属するストレージユニットのうちの第2のストレージユニットから第2のストレージデバイスの割当を受けて、第2のストレージデバイスに第1のストレージデバイスを複製する。
1態様によれば、ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法において、ストレージユニット単位の障害によるデータロストを防止できる。
第1の実施形態のストレージシステムの構成の一例を示す図である。 第2の実施形態のストレージシステムの構成の一例を示す図である。 第2の実施形態のディスクエンクロージャの構成の一例を示す図である。 第2の実施形態のサーバのハードウェア構成の一例を示す図である。 第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。 第2の実施形態のRAID構成情報の一例を示す図である。 第2の実施形態の故障処理のフローチャートを示す図である。 第2の実施形態のディスク故障再構成処理のフローチャートを示す図である。 第2の実施形態のディスクエンクロージャ故障再構成処理のフローチャートを示す図である。 第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。 第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。 第2の実施形態のRAID構成情報の一例を示す図である。 第2の実施形態の復旧処理のフローチャートを示す図である。 第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。 第3の実施形態のディスクエンクロージャ故障再構成処理のフローチャートを示す図である。 第3の実施形態のディスクエンクロージャ故障再構成処理のフローチャートを示す図である。 第3の実施形態のサーバが構成するRAIDグループの一例を示す図である。 第3の実施形態のRAID構成情報の一例を示す図である。 第3の実施形態のサーバが構成するRAIDグループの一例を示す図である。
以下、実施の形態について、図面を参照しながら詳細に説明する。
[第1の実施形態]
まず、第1の実施形態のストレージシステムについて図1を用いて説明する。図1は、第1の実施形態のストレージシステムの構成の一例を示す図である。
ストレージシステム1は、管理装置2と、情報処理装置3と、複数のストレージユニット4を備える。図1に示すストレージシステム1は、4つのストレージユニット4(4a,4b,4c,4d)を備えるが、3または5以上のストレージユニット4を備えるものであってもよい。
ストレージユニット4は、複数のストレージデバイス5を有する。ストレージユニット4は、たとえば、ディスクボックスやディスクエンクロージャなどであり、複数のストレージデバイス5を収容する。ストレージユニット4は、収容する複数のストレージデバイス5の電源供給や冷却、所要のコントロールなどを担う。ストレージデバイス5は、データを格納可能なデバイスであり、たとえば、HDD(Hard Disk Drive)やSSD(Solid State Drive:フラッシュメモリドライブ)などである。
管理装置2は、ストレージシステム1におけるストレージ資源を管理し、情報処理装置3へのストレージデバイス5の割当を担う。管理装置2は、通信パス7を介してストレージユニット4と接続し、ストレージユニット4、およびストレージユニット4が収容するストレージデバイス5を管理する。また、管理装置2は、通信パス6を介して情報処理装置3と接続し、情報処理装置3とストレージデバイス5との接続を管理する。
情報処理装置3は、管理装置2からストレージ資源の割当を受けて、割当を受けたストレージ資源にデータを格納する。情報処理装置3は、通信パス8を介してストレージユニット4と接続し、割当を受けたストレージ資源、すなわち割当を受けたストレージデバイス5と接続する。
情報処理装置3は、構成部3aと、検出部3bと、再構成部3cと、複製部3dを備える。構成部3aは、それぞれ異なるストレージユニット4に属するストレージデバイス5の割当を受けてグループを構成する。グループは、たとえばRAIDグループであり、RAIDの1つにRAID5などがある。図1に示すRAIDグループの構成例では、ストレージデバイス5a,5b,5c,5dは、それぞれデータ「A」,「B」,「C」,「D」を格納してRAIDグループを構成する。ストレージデバイス5a,5b,5c,5dは、それぞれ、異なるストレージユニット4a,4b,4c,4dに属する。
このように、グループを構成するストレージデバイス5をそれぞれ異なるストレージユニット4から割り当てることで、ストレージシステム1は、グループを構成する複数のストレージデバイス5の同時故障によるデータロストの危険を低減する。
検出部3bは、グループを構成するストレージデバイス5の障害を検出する。検出部3bは、通信パス8を介して接続するストレージデバイス5の障害を検出することができる。また、検出部3bは、通信パス6を介して接続する管理装置2からの通知によりストレージデバイス5の障害を検出することができる。また、検出部3bは、管理装置2からの通知によりストレージデバイス5が属するストレージユニット4の障害を検出することができる。
再構成部3cは、検出部3bによるグループを構成するストレージデバイス5の障害検出により、障害を検出したストレージデバイス5をグループの構成から外す。再構成部3cは、あらたにストレージデバイス5の割当を受けてグループの再構成をおこなう。このとき、再構成部3cは、構成部3aがグループを構成したように、障害を検出していないストレージデバイス5とは異なるストレージユニット4からストレージデバイス5の割当を受けることが望ましい。しかしながら、再構成部3cは、ストレージ資源の状況によっては、障害を検出していないストレージデバイス5が属するストレージユニット4から割当を受けざるを得ない場合がある。このような場合に、再構成部3cは、障害を検出していないストレージデバイス5が属するストレージユニット4のうちの1つからストレージデバイス5の割当を受けてグループの再構成をおこなう。
図1に示すグループの構成例において、再構成部3cは、ストレージデバイス5aの障害検出を受けて、ストレージデバイス5bの属するストレージユニット4bからストレージデバイス5eを割り当てる。したがって、再構成部3cは、ストレージデバイス5aの障害検出後、ストレージデバイス5e,5b,5c,5dに、それぞれデータ「A1(A)」,「B」,「C」,「D」を格納してグループを再構成する。ストレージデバイス5e,5bは、ともにストレージユニット4bに属し、ストレージデバイス5c,5dは、それぞれ、ストレージユニット4c,4dに属する。このとき、ストレージユニット4bに障害が発生すると、ストレージデバイス5e,5bにも障害が発生してデータをロストするおそれがある。
複製部3dは、障害を検出していないストレージデバイス5が属するストレージユニット4のうち再構成部3cが割当を受けたストレージデバイス5が属するストレージユニット4と異なるストレージユニット4からストレージデバイス5の割当を受ける。複製部3dは、複製部3dが割当を受けたストレージデバイス5に、再構成部3cが割当を受けたストレージデバイス5を複製する。
図1に示すグループの構成例において、複製部3dは、ストレージデバイス5e,5bがともにストレージユニット4bに属することから、ストレージユニット4b以外のストレージユニット4からストレージデバイス5を割り当てる。この場合、複製部3dは、ストレージデバイス5cの属するストレージユニット4cからストレージデバイス5fを割り当てる。複製部3dは、ストレージデバイス5eをストレージデバイス5fに複製する。したがって、複製部3dは、ストレージデバイス5e,5fは、それぞれデータ「A1(A)」,「A2(A)」を格納してRAID1を構成する。
これにより、ストレージシステム1は、ストレージユニット4b,4c,4dのいずれに障害が発生しても、データをロストすることがない。また、ストレージシステム1は、RAID1による2重化機会を限定するため、グループ構成時に使用するストレージデバイス5の数を抑制できる。したがって、ストレージシステム1は、低コストにして耐障害性に優れるシステムを構築可能である。
[第2の実施形態]
次に、第2の実施形態のストレージシステムの構成について図2を用いて説明する。図2は、第2の実施形態のストレージシステムの構成の一例を示す図である。
ストレージシステム10は、リソースマネージャ11と、サーバ12と、複数のディスクエンクロージャ13を備える。ディスクエンクロージャ13は、ストレージ資源として複数のディスク15を収容する。なお、図2に示すディスクエンクロージャ13は、6つのディスク15を備えるが、2以上を備えるもの(たとえば、24)であればいくつであってもよい。ディスク15は、データを格納可能なストレージデバイスであり、たとえば、HDDやSSDなどである。
ディスクエンクロージャ13は、スイッチ14を備え、スイッチ14により外部機器(サーバ12)とディスク15との接続および切り離しをおこなう。スイッチ14は、リソースマネージャ11の制御対象であり、通信パス17によりリソースマネージャ11と接続する。
ストレージシステム10は、ディスクエンクロージャ13を一単位にしてストレージ資源の交換あるいは増減をおこなうことができる。なお、図2に示すストレージシステム10は、4つのディスクエンクロージャ13(13a,13b,13c,13d)を備えるが、3または5以上のディスクエンクロージャ13を備えるものであってもよい。
リソースマネージャ11は、ストレージシステム10におけるストレージ資源を管理する管理装置であり、サーバ12へのディスク15の割当を担う。リソースマネージャ11は、通信パス17を介してディスクエンクロージャ13と接続し、ディスクエンクロージャ13、およびディスクエンクロージャ13が収容するディスク15を管理する。また、リソースマネージャ11は、通信パス16を介してサーバ12と接続し、サーバ12とディスク15との接続を管理する。
リソースマネージャ11は、スイッチ14を制御し、サーバ12とディスク15との接続によりサーバ12へのディスク15の割当をおこなう。また、リソースマネージャ11は、スイッチ14を制御し、サーバ12とディスク15との接続解除(切り離し)によりサーバ12へのディスク15の割当解消をおこなう。なお、図2に示すストレージシステム10は、1つのリソースマネージャ11を備えるが、2以上のリソースマネージャ11を備えて冗長性確保あるいは負荷分散を図るものであってもよい。
サーバ12は、ストレージシステム10においてリソースマネージャ11からストレージ資源の割当を受ける情報処理装置である。サーバ12は、各ディスクエンクロージャ13が備えるスイッチ14と通信パス18を介して接続する。サーバ12は、スイッチ14を介して接続するディスク15の接続と接続解除を、ホットプラグ機能により認識できる。なお、図2に示すストレージシステム10は、3つのサーバ12(12a,12b,12c)を備えるが、任意の数のサーバ12を備えることができる。
サーバ12は、複数のディスクエンクロージャ13からそれぞれディスク15の割当を受けて、RAID(たとえば、RAID5)グループを構成する。サーバ12は、複数のRAIDグループを構成可能であり、それぞれのRAIDグループは識別情報によって区別される。このように、RAIDグループを構成するディスク15をそれぞれ異なるディスクエンクロージャ13から割り当てることで、ストレージシステム10は、RAIDグループを構成する複数のディスク15の同時故障によるデータロストの危険を低減する。
なお、複数のサーバ12と、複数のディスクエンクロージャ13を、通信パス18を介してそれぞれ接続するようにしたが、別途スイッチを設けて接続するようにしてもよい。
次に、第2の実施形態のディスクエンクロージャの構成について図3を用いて説明する。図3は、第2の実施形態のディスクエンクロージャの構成の一例を示す図である。
ディスクエンクロージャ13は、スイッチ14と、複数のディスク15と、コントローラ25と、電源部26と、冷却部27を備える。スイッチ14は、各ディスク15について外部機器との接続および切り離しをおこなう。冷却部27は、ディスク15、電源部26を含めてディスクエンクロージャ13の筺体内を冷却する。電源部26は、コントローラ25、冷却部27、スイッチ14、およびディスク15を含むディスクエンクロージャ13内の各機器に電力を供給する。
コントローラ25は、ディスクエンクロージャ13内の各機器を制御する。また、コントローラ25は、ディスクエンクロージャ13内の各機器の状態監視をおこない、ディスクエンクロージャ13内の各機器の故障、またはディスクエンクロージャ13全体としての故障を検出する。コントローラ25は、検出した故障をリソースマネージャ11に通知する。
次に、第2の実施形態のサーバのハードウェア構成について図4を用いて説明する。図4は、第2の実施形態のサーバのハードウェア構成の一例を示す図である。
サーバ12は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス106を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、たとえばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。またプロセッサ101は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。
RAM102は、サーバ12の主記憶装置として使用される。RAM102には、プロセッサ101に実行させるオペレーティングシステム(Operating System)のプログラムやファームウェア、アプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、プロセッサ101による処理に必要な各種データ(たとえば、システム制御の情報管理)が格納される。また、RAM102は、各種データの格納に用いるメモリと別体にキャッシュメモリを含むものであってもよい。
バス106に接続されている周辺機器としては、不揮発性メモリ103、入出力インタフェース104、および通信インタフェース105がある。
不揮発性メモリ103は、サーバ12の電源遮断時においても記憶内容を保持する。不揮発性メモリ103は、たとえば、EEPROM(Electrically Erasable Programmable Read-Only Memory)やフラッシュメモリなどの半導体記憶装置や、HDDなどである。また、不揮発性メモリ103は、サーバ12の補助記憶装置として使用される。不揮発性メモリ103には、オペレーティングシステムのプログラムやファームウェア、アプリケーションプログラム、および各種データが格納される。
入出力インタフェース104は、図示しない入出力装置と接続して入出力をおこなう。
通信インタフェース105は、通信パス16,18を形成するネットワークと接続することで、通信パス16,18を介して、リソースマネージャ11やディスクエンクロージャ13との間でデータの送受信をおこなう。
以上のようなハードウェア構成によって、第2の実施形態のサーバ12の処理機能を実現することができる。なお、サーバ12の他、リソースマネージャ11、コントローラ25、第1の実施形態に示した管理装置2、情報処理装置3、ストレージユニット4も、図4に示したサーバ12と同様のハードウェアにより実現することができる。
サーバ12は、たとえばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施形態の処理機能を実現する。サーバ12に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。たとえば、サーバ12に実行させるプログラムを不揮発性メモリ103に格納しておくことができる。プロセッサ101は、不揮発性メモリ103内のプログラムの少なくとも一部をRAM102にロードし、プログラムを実行する。またサーバ12に実行させるプログラムを、図示しない光ディスク、メモリ装置、メモリカードなどの可搬型記録媒体に記録しておくこともできる。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。メモリ装置は、入出力インタフェース104あるいは図示しない機器接続インタフェースとの通信機能を搭載した記録媒体である。たとえば、メモリ装置は、メモリリーダライタによりメモリカードへのデータの書き込み、またはメモリカードからのデータの読み出しをおこなうことができる。メモリカードは、カード型の記録媒体である。
可搬型記録媒体に格納されたプログラムは、たとえばプロセッサ101からの制御により、不揮発性メモリ103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
次に、第2の実施形態のサーバが構成するRAIDグループについて図5を用いて説明する。図5は、第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。
ディスクエンクロージャ13aは、複数のディスク15(「#A1」,「#A2」,「#A3」,・・・)を備える。ディスクエンクロージャ13bは、複数のディスク15(「#B1」,「#B2」,「#B3」,・・・)を備える。ディスクエンクロージャ13cは、複数のディスク15(「#C1」,「#C2」,「#C3」,・・・)を備える。ディスクエンクロージャ13dは、複数のディスク15(「#D1」,「#D2」,「#D3」,・・・)を備える。
サーバ12(たとえば、サーバ12a)は、ディスクエンクロージャ13a,13b,13c,13dからそれぞれディスク15(「#A1」,「#B1」,「#C1」,「#D1」)の割当を受けてRAIDグループ30(たとえば、RAID5)を構成する。
RAIDグループ30は、ディスク15(「#A1」,「#B1」,「#C1」,「#D1」)がそれぞれ異なるディスクエンクロージャ13に属する。そのため、サーバ12は、4つのディスクエンクロージャ13のうちの1つが故障しても、故障するディスク15が1つに限られる。したがって、サーバ12は、RAIDグループ30のデータへのアクセスを継続可能であり、またRAIDグループ30を再構成可能である。
次に、第2の実施形態のサーバが管理するRAID構成情報について図6を用いて説明する。図6は、第2の実施形態のRAID構成情報の一例を示す図である。
RAID構成情報50は、サーバ12(たとえば、サーバ12a)が管理するRAIDグループの構成を示す情報である。サーバ12は、たとえば、不揮発性メモリ103にRAID構成情報50を保持する。RAID構成情報50は、RAIDグループID(Identification)、ブロックNo.、ステータス、ディスクエンクロージャID、ディスクIDを含む。
RAIDグループIDは、サーバ12が管理するRAIDグループ30を識別するための情報である。RAID構成情報50に示すRAIDグループIDは、いずれも「#0001」であり、RAID構成情報50に示す情報は、同一のRAIDグループに属する情報である。
ブロックNo.は、RAIDグループ30を構成するディスク15に付したシリアル番号である。ステータスは、RAIDグループ30を構成するディスク15の状態を示す。通常時のステータスは、「物理」である。ディスクエンクロージャIDは、ストレージシステム10内でディスクエンクロージャ13を一意に識別可能な識別情報である。ディスクIDは、各ディスクエンクロージャ13内でディスク15を一意に識別可能な識別情報である。したがって、サーバ12は、ディスクエンクロージャIDとディスクIDとから、ストレージシステム10内でディスク15を一意に識別できる。
したがって、RAID構成情報50は、ブロックNo.「1」,「2」,「3」,「4」の4つのディスク15からRAIDグループID「#0001」のRAIDグループ30が構成されていることを示す。また、RAID構成情報50は、ステータス「物理」より、通常のRAIDグループが構成されていることを示す。また、RAID構成情報50は、ブロックNo.「1」のディスク15がディスクエンクロージャID「#A」、ディスクID「#1」であることを示す。同様に、RAID構成情報50は、ブロックNo.「2」のディスク15がディスクエンクロージャID「#B」、ディスクID「#1」であることを示す。同様に、RAID構成情報50は、ブロックNo.「3」のディスク15がディスクエンクロージャID「#C」、ディスクID「#1」であることを示す。同様に、RAID構成情報50は、ブロックNo.「4」のディスク15がディスクエンクロージャID「#D」、ディスクID「#1」であることを示す。
次に、第2の実施形態の故障処理について図7を用いて説明する。図7は、第2の実施形態の故障処理のフローチャートを示す図である。
故障処理は、ストレージ資源の故障を検出してRAIDの再構成をおこなう処理である。故障処理は、サーバ12が定期的に実行する処理である。
[ステップS11]サーバ12のプロセッサ101(制御部)は、ディスク故障情報を取得する。ディスク故障情報は、サーバ12に割当のあるディスク15の故障に関する情報である。プロセッサ101は、通信パス18を介して定期または不定期にディスク15の稼働状態を監視することによりディスク15の故障を検出してディスク故障情報を生成する。プロセッサ101は、ディスク15へのポーリングまたはディスク15からの通知により、ディスク15の稼働状態を監視することができる。
[ステップS12]制御部は、ディスクエンクロージャ故障情報を取得する。ディスクエンクロージャ故障情報は、リソースマネージャ11が管理するディスクエンクロージャ13の故障に関する情報である。リソースマネージャ11は、通信パス17を介して定期または不定期にディスクエンクロージャ13の稼働状態を監視することによりディスクエンクロージャ13の故障を検出してディスクエンクロージャ故障情報を生成する。リソースマネージャ11は、ディスクエンクロージャ13へのポーリングまたはディスクエンクロージャ13からの通知により、ディスクエンクロージャ13の稼働状態を監視することができる。なお、リソースマネージャ11は、ディスクエンクロージャ13を介して検出したディスク故障にもとづいてディスク故障情報を生成してサーバ12に通知するようにしてもよい。
[ステップS13]制御部は、ディスク故障情報およびディスクエンクロージャ故障情報からディスク15の故障の有無を判定する。制御部は、ディスク15の故障ありと判定した場合にステップS14にすすみ、ディスク15の故障なしと判定した場合に故障処理を終了する。
[ステップS14]制御部は、RAID構成情報を参照して故障したディスク15に関係するRAIDグループの有無を判定する。制御部は、故障したディスク15に関係するRAIDグループがある場合にステップS15にすすみ、故障したディスク15に関係するRAIDグループがない場合に故障処理を終了する。
[ステップS15]制御部は、故障したディスク15を構成要素とするRAIDグループの1つを特定する。
[ステップS16]制御部は、故障個所がディスク15かディスクエンクロージャ13かを判定する。制御部は、故障個所がディスク15の場合にステップS17にすすみ、故障個所がディスクエンクロージャ13の場合にステップS18にすすむ。
[ステップS17]制御部は、ディスク故障再構成処理を実行する。ディスク故障再構成処理は、ディスク15が故障した場合にRAIDの再構成をおこなう処理である。詳細は、図8を用いて後で説明する。
[ステップS18]制御部は、ディスクエンクロージャ故障再構成処理を実行する。ディスクエンクロージャ故障再構成処理は、ディスクエンクロージャ13が故障した場合にRAIDの再構成をおこなう処理である。詳細は、図9を用いて後で説明する。
[ステップS19]制御部は、ステップS15で特定したRAIDグループの他に、故障したディスク15を構成要素とするRAIDグループ、すなわち再構成対象のRAIDグループがまだあるか否かを判定する。制御部は、再構成対象のRAIDグループがあると判定した場合にステップS15にすすみ、再構成対象のRAIDグループがないと判定した場合に故障処理を終了する。
次に、第2の実施形態のディスク故障再構成処理について図8を用いて説明する。図8は、第2の実施形態のディスク故障再構成処理のフローチャートを示す図である。ディスク故障再構成処理は、故障処理のステップS17でサーバ12が実行する処理である。
[ステップS21]サーバ12のプロセッサ101(制御部)は、故障したディスク15が属するディスクエンクロージャ13(DE:Disk Enclosure)、すなわち故障ディスクのDEに空きディスクがあるか否かを判定する。制御部は、リソースマネージャ11に照会することにより、故障ディスクのDEに空きディスクがあるか否かを判定することができる。制御部は、故障ディスクのDEに空きディスクがある場合にステップS22にすすみ、故障ディスクのDEに空きディスクがない場合にステップS23にすすむ。
[ステップS22]制御部は、故障ディスクが属するディスクエンクロージャ13からディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS23]制御部は、RAIDグループを構成するディスクが属さないディスクエンクロージャ13(DE)、すなわちRAID構成外DEに空きディスクがあるか否かを判定する。制御部は、リソースマネージャ11に照会することにより、RAID構成外DEに空きディスクがあるか否かを判定することができる。制御部は、空きディスクがある場合にステップS24にすすみ、空きディスクがない場合にステップS25にすすむ。
[ステップS24]制御部は、RAID構成外DEから代替ディスクを獲得する。
[ステップS25]制御部は、RAIDグループを構成するディスクが属する2以上のディスクエンクロージャ13(DE)、すなわちRAID構成DEに空きディスクがあるか否かを判定する。制御部は、リソースマネージャ11に照会することにより、2以上のRAID構成DEに空きディスクがあるか否かを判定することができる。制御部は、2以上のRAID構成DEに空きディスクがない場合にステップS26にすすみ、2以上のRAID構成DEに空きディスクがある場合にステップS27にすすむ。
[ステップS26]制御部は、1つのRAID構成DEからディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS27]制御部は、2以上のRAID構成DEのうちの2つのRAID構成DEから1つずつディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS28]制御部は、獲得した代替ディスクを含めてRAID再構成(第1のリビルド処理)をおこなう。このとき、ステップS22,S24において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクがそれぞれ異なるディスクエンクロージャ13に属する。一方、ステップS26において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクが一部のディスクエンクロージャ13に重複して属する。そのため、このRAIDグループは、一部のディスクエンクロージャ13が故障した場合に、データロストのおそれがある。
[ステップS29]制御部は、獲得した代替ディスクを含めてRAID1併用RAID再構成(第2のリビルド処理)をおこなう。ステップS27において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクが一部のディスクエンクロージャ13に重複して属する。制御部は、2つの代替ディスクがそれぞれの複製となるようにして、RAIDグループを再構成する。RAIDグループの再構成については、後で図10から図12を用いてRAIDグループの再構成例を挙げて説明する。
[ステップS30]制御部は、RAID構成情報を更新してディスク故障再構成処理を終了する。
次に、第2の実施形態のディスクエンクロージャ故障再構成処理について図9を用いて説明する。図9は、第2の実施形態のディスクエンクロージャ故障再構成処理のフローチャートを示す図である。ディスクエンクロージャ故障再構成処理は、故障処理のステップS18でサーバ12が実行する処理である。
[ステップS31]サーバ12のプロセッサ101(制御部)は、RAIDグループを構成するディスクが属さないディスクエンクロージャ13(DE)、すなわちRAID構成外DEに空きディスクがあるか否かを判定する。制御部は、リソースマネージャ11に照会することにより、RAID構成外DEに空きディスクがあるか否かを判定することができる。制御部は、空きディスクがある場合にステップS32にすすみ、空きディスクがない場合にステップS33にすすむ。
[ステップS32]制御部は、RAID構成外DEから代替ディスクを獲得する。
[ステップS33]制御部は、RAIDグループを構成するディスクが属する2以上のディスクエンクロージャ13(DE)、すなわちRAID構成DEに空きディスクがあるか否かを判定する。制御部は、リソースマネージャ11に照会することにより、2以上のRAID構成DEに空きディスクがあるか否かを判定することができる。制御部は、2以上のRAID構成DEに空きディスクがない場合にステップS34にすすみ、2以上のRAID構成DEに空きディスクがある場合にステップS35にすすむ。
[ステップS34]制御部は、1つのRAID構成DEからディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS35]制御部は、2以上のRAID構成DEのうちの2つのRAID構成DEから1つずつディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS36]制御部は、獲得した代替ディスクを含めてRAID再構成(第1のリビルド処理)をおこなう。このとき、ステップS32において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクがそれぞれ異なるディスクエンクロージャ13に属する。一方、ステップS34において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクが一部のディスクエンクロージャ13に重複して属する。そのため、このRAIDグループは、一部のディスクエンクロージャ13が故障した場合に、データロストのおそれがある。
[ステップS37]制御部は、獲得した代替ディスクを含めてRAID1併用RAID再構成(第2のリビルド処理)をおこなう。ステップS35において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクが一部のディスクエンクロージャ13に重複して属する。制御部は、2つの代替ディスクがそれぞれの複製となるようにして、RAIDグループを再構成する。RAIDグループの再構成については、後で図10から図12を用いてRAIDグループの再構成例を挙げて説明する。
[ステップS38]制御部は、RAID構成情報を更新してディスクエンクロージャ故障再構成処理を終了する。
次に、第2の実施形態のRAID構成DEから代替ディスクを獲得する場合のRAID再構成について図10から図12を用いて説明する。まず、RAID構成DEの1つが故障して、代替ディスクを他のRAID構成DEから獲得しなければならない場合について図10を用いて説明する。図10は、第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。
ディスクエンクロージャ13aは、故障により、複数のディスク15(「#A1」,「#A2」,「#A3」,・・・)が故障した状態である。制御部は、ディスクエンクロージャ13aの故障検出により、他のディスクエンクロージャ13からディスク15「#A1」を代替するディスク15の割当を受ける。たとえば、ディスク故障再構成処理のステップS26、またはディスクエンクロージャ故障再構成処理のステップS34の場合、制御部は、ディスクエンクロージャ13bからディスク15「#B2」の割当を受ける。また、ディスク故障再構成処理のステップS27、またはディスクエンクロージャ故障再構成処理のステップS35の場合、制御部は、ディスク15「#B2」に加えて、ディスクエンクロージャ13cからディスク15「#C2」の割当を受ける。
制御部は、ディスクエンクロージャ13aのディスク15「#A1」に代えてディスクエンクロージャ13bのディスク15「#B2」を加えて、RAIDグループ30をRAIDグループ30aとして再構成する。
すなわち、制御部は、ディスクエンクロージャ13b,13c,13dからそれぞれディスク15(「#B2」,「#B1」,「#C1」,「#D1」)の割当を受けてRAIDグループ30をRAIDグループ30aとして再構成する。
RAIDグループ30aは、ディスク15(「#B2」,「#B1」)が同一のディスクエンクロージャ13bに属する。そのため、サーバ12は、ディスクエンクロージャ13bが故障するとデータロストするおそれのある状態である。したがって、ディスク故障再構成処理のステップS26、またはディスクエンクロージャ故障再構成処理のステップS34を経てRAID再構成をおこなった場合、サーバ12は、ディスクエンクロージャ13bが故障した場合にデータロストするおそれがある。
一方、サーバ12は、2つのRAID構成DEからそれぞれ代替ディスクを獲得できた場合は、データロストのおそれのないRAID再構成をおこなうことができる。2つのRAID構成DEからそれぞれ代替ディスクを獲得できた場合について図11を用いて説明する。図11は、第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。
制御部は、ディスク15「#B2」に加えて、ディスクエンクロージャ13cからディスク15「#C2」の割当を受けた場合、ディスク15「#B2」をディスク15「#C2」に複製する。すなわち、制御部は、ディスク15「#B2」とディスク15「#C2」とでRAID1を構成する。言い換えれば、制御部は、ディスクエンクロージャ13aのディスク15「#A1」を、ディスク15「#B2」とディスク15「#C2」とに置き換える。
これにより、制御部は、ディスクエンクロージャ13b,13c,13dからそれぞれディスク15(「#B2」,「#C2」,「#B1」,「#C1」,「#D1」)の割当を受けて、RAID1を併用してRAIDグループ30をRAIDグループ30bとして再構成する。
RAIDグループ30bは、ディスク15(「#B2」,「#B1」)が同一のディスクエンクロージャ13bに属し、ディスク15(「#C2」,「#C1」)が同一のディスクエンクロージャ13bに属する。しかしながら、ディスクエンクロージャ13b,13cのいずれか一方が故障しても、サーバ12は、RAIDグループ30に対してアクセス可能である。
したがって、ストレージシステム10は、ディスクエンクロージャ13(ストレージユニット単位)の障害によるデータロストを防止できる。また、ストレージシステム10は、通常時において、各ディスク15を2重化することを要しないから信頼性の向上とストレージ資源の効率的な利用とを両立することができる。
RAID1併用なしのRAID再構成をおこなった場合、ディスク15が2台存在しているディスクエンクロージャ13の故障でデータロストのおそれがある。このとき、ディスク故障率をfhdd、ディスクエンクロージャ故障率をfdeとすると、故障率は、fhdd×(fhdd+fde)となる。
一方、RAID1併用RAID再構成をおこなった場合、ディスク15が2台存在しているディスクエンクロージャ13の故障があってもデータロストのおそれがない。このとき、故障率は、fhdd×fhddとなり、RAID1併用なしのRAID再構成をおこなった場合と比較して故障率を低減できる。
次に、第2の実施形態のRAID1併用RAID再構成後のRAID構成情報について図12を用いて説明する。図12は、第2の実施形態のRAID構成情報の一例を示す図である。
RAID構成情報51は、RAID構成情報50をRAID1併用RAID再構成後に更新した情報である。
RAID構成情報51は、ブロックNo.「1」が2つと、ブロックNo.「2」,「3」,「4」が1つずつの合計5つのディスク15からRAIDグループID「#0001」のRAIDグループ30が構成されていることを示す。また、RAID構成情報51は、ステータス「RAID1」より、ブロックNo.「1」の2つのディスク15がRAID1を構成していることを示す。ステータス「RAID1」は、ディスク15が複製を有することを示す。すなわち、ステータス「RAID1」は、ディスク15が複製を有するか否かを判別可能な複製判別情報に相当する。
また、RAID構成情報51は、ブロックNo.「1」の1つのディスク15がディスクエンクロージャID「#B」、ディスクID「#2」であることを示す。また、RAID構成情報51は、ブロックNo.「1」のもう1つのディスク15がディスクエンクロージャID「#C」、ディスクID「#2」であることを示す。同様に、RAID構成情報51は、ブロックNo.「2」のディスク15がディスクエンクロージャID「#B」、ディスクID「#1」であることを示す。同様に、RAID構成情報51は、ブロックNo.「3」のディスク15がディスクエンクロージャID「#C」、ディスクID「#1」であることを示す。同様に、RAID構成情報51は、ブロックNo.「4」のディスク15がディスクエンクロージャID「#D」、ディスクID「#1」であることを示す。
次に、第2の実施形態の復旧処理について図13を用いて説明する。図13は、第2の実施形態の復旧処理のフローチャートを示す図である。復旧処理は、故障したディスク15や、故障したディスクエンクロージャ13の交換処理など、ストレージ資源のメンテナンスの終了を契機にしてサーバ12が実行する処理である。たとえば、復旧処理は、管理者による指示にもとづいて実行されるが、定期的に実行されるものであってもよい。
[ステップS41]サーバ12のプロセッサ101(制御部)は、復旧情報を取得する。復旧情報は、サーバ12に割当のあるディスク15、またはサーバ12に割当のあるディスク15が属するディスクエンクロージャ13の故障に関する情報である。プロセッサ101は、通信パス18を介して定期または不定期にディスク15の稼働状態を監視することによりディスク15の復旧を検出してディスク15に関する復旧情報を生成する。リソースマネージャ11は、通信パス17を介して定期または不定期にディスクエンクロージャ13の稼働状態を監視することによりディスクエンクロージャ13の復旧を検出してディスクエンクロージャに関する復旧情報を生成する。なお、リソースマネージャ11は、ディスクエンクロージャ13を介して検出したディスク15の復旧にもとづいてディスクに関する復旧情報を生成してサーバ12に通知するようにしてもよい。なお、ここでいう復旧は、故障したディスク15、または故障したディスクエンクロージャ13の交換であるが、ディスク15の割当可能な状態への移行という観点から、ディスク15またはディスクエンクロージャ13の追加を含むものであってもよい。
[ステップS42]制御部は、復旧したディスク15を割当可能なRAIDグループの有無を判定する。制御部は、復旧したディスク15を割当可能なRAIDグループがある場合にステップS43にすすみ、復旧したディスク15を割当可能なRAIDグループがない場合に復旧処理を終了する。
[ステップS43]制御部は、復旧したディスク15を割当可能なRAIDグループの1つを特定する。
[ステップS44]制御部は、1つのディスクエンクロージャ13(同一DE)に属するRAIDグループを構成するディスク(RAID構成ディスク)の有無を判定する。制御部は、同一DEに属するRAID構成ディスクがある場合にステップS45にすすみ、同一DEに属するRAID構成ディスクがない場合にステップS49にすすむ。
[ステップS45]制御部は、復旧情報とRAID構成情報とにもとづいて、特定したRAIDグループに属するディスクエンクロージャ13(RAID構成DE)から代替ディスクを獲得可能か否かを判定する。制御部は、RAID構成DEから代替ディスクを獲得できる場合にステップS46にすすみ、RAID構成DEから代替ディスクを獲得できない場合にステップS49にすすむ。
[ステップS46]制御部は、代替ディスクを獲得する。
[ステップS47]制御部は、同一DEに属するRAID構成ディスクについて代替ディスクとの間でRAID1化をおこなう。
[ステップS48]制御部は、RAID構成情報を更新してステップS49にすすむ。
[ステップS49]制御部は、復旧情報とRAID構成情報とにもとづいて、特定したRAIDグループに属さないディスクエンクロージャ13(RAID構成外DE)から代替ディスクを獲得可能か否かを判定する。制御部は、RAID構成外DEから代替ディスクを獲得できる場合にステップS50にすすみ、RAID構成外DEから代替ディスクを獲得できない場合にステップS42にすすむ。
[ステップS50]制御部は、RAID構成情報のステータスを参照して、特定したRAIDグループにRAID1があるか否かを判定する。制御部は、特定したRAIDグループにRAID1がある場合にステップS51にすすみ、特定したRAIDグループにRAID1がない場合にステップS42にすすむ。
[ステップS51]制御部は、RAID構成外DEからから代替ディスクを獲得する。
[ステップS52]制御部は、RAID1を構成していたディスク15から代替ディスクにコピーバック処理をおこなう。
[ステップS53]制御部は、RAID1を構成していたディスク15を解放する。
[ステップS54]制御部は、RAID構成情報を更新してステップS42にすすむ。
ここで、獲得ディスクへのコピーバックと、RAID1を構成していたディスク15の解放について図14を用いて説明する。図14は、第2の実施形態のサーバが構成するRAIDグループの一例を示す図である。
図11に示したRAIDグループ30bは、ディスクエンクロージャ13aが故障し、RAID1を併用してRAIDグループを構成している状態である。ここで、図14に示すようにディスクエンクロージャ13aが復旧した場合、制御部は、ディスクエンクロージャ13aのディスク15(たとえば、ディスク15「#A1」)を獲得する。制御部は、RAID1を構成していたディスク15「#B2」からディスク15「#A1」にコピーバック処理をおこなう。これにより、サーバ12は、RAIDグループ30cを再構成することができる。また、制御部は、RAID1を構成していたディスク15「#B2」,「#C2」を解放対象31として、リソースマネージャ11に解放依頼をおこない、サーバ12への割当から解放する。
したがって、ストレージシステム10は、ディスクエンクロージャ13(ストレージユニット単位)の復旧により、RAID1を併用していたRAIDグループを復旧することができる。
[第3の実施形態]
次に、第3の実施形態のディスクエンクロージャ故障再構成処理について図15、図16を用いて説明する。図15および図16は、第3の実施形態のディスクエンクロージャ故障再構成処理のフローチャートを示す図である。第3の実施形態のディスクエンクロージャ故障再構成処理は、RAID1を併用するRAIDグループを構成するディスクエンクロージャ13の故障に対応する。
[ステップS61]サーバ12のプロセッサ101(制御部)は、故障ディスクのステータスを確認する。制御部は、故障ディスクのステータスが「物理」である場合にステップS66にすすみ、故障ディスクのステータスが「RAID1」である場合にステップS62にすすむ。
[ステップS62]制御部は、RAIDグループを構成するディスクが属するディスクエンクロージャ13(RAID構成DE)のうち、RAID1を復元可能なディスクエンクロージャ13(DE)に空きディスクがあるか否かを判定する。RAID1を復元可能なディスクエンクロージャ13は、ステータスが「RAID1」のディスク15が属するディスクエンクロージャ13と異なるディスクエンクロージャ13である。制御部は、RAID1を復元可能なディスクエンクロージャ13(DE)に空きディスクがある場合にステップS63にすすみ、空きディスクがない場合にステップS74にすすむ。
[ステップS63]制御部は、RAID1を復元可能なディスクエンクロージャ13(DE)から代替ディスクを獲得する。
[ステップS64]制御部は、故障ディスクに代えて代替ディスクでRAID1を復元する。
[ステップS65]制御部は、RAID構成情報を更新してステップS74にすすむ。
[ステップS66]制御部は、RAIDグループを構成するディスクが属さないディスクエンクロージャ13(RAID構成外DE)に空きディスクがあるか否かを判定する。制御部は、RAID構成外DEに空きディスクがある場合にステップS67にすすみ、RAID構成外DEに空きディスクがない場合にステップS68にすすむ。
[ステップS67]制御部は、RAID構成外DEから代替ディスクを獲得する。
[ステップS68]制御部は、2以上のRAID構成DEに空きディスクがあるか否かを判定する。制御部は、2以上のRAID構成DEに空きディスクがない場合にステップS69にすすみ、2以上のRAID構成DEに空きディスクがある場合にステップS70にすすむ。
[ステップS69]制御部は、1つのRAID構成DEからディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS70]制御部は、2以上のRAID構成DEのうちの2つのRAID構成DEから1つずつディスク15の割当を受けて、代替ディスクを獲得する。
[ステップS71]制御部は、獲得した代替ディスクを含めてRAID再構成(第1のリビルド処理)をおこなう。このとき、ステップS67において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクがそれぞれ異なるディスクエンクロージャ13に属する。一方、ステップS69において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクが一部のディスクエンクロージャ13に重複して属する。そのため、このRAIDグループは、一部のディスクエンクロージャ13が故障した場合に、データロストのおそれがある。
[ステップS72]制御部は、獲得した代替ディスクを含めてRAID1併用RAID再構成(第2のリビルド処理)をおこなう。ステップS70において獲得した代替ディスクによりRAID再構成したRAIDグループは、RAIDグループを構成するディスクが一部のディスクエンクロージャ13に重複して属する。制御部は、2つの代替ディスクがそれぞれの複製となるようにして、RAIDグループを再構成する。
[ステップS73]制御部は、RAID構成情報を更新する。
[ステップS74]制御部は、すべての故障ディスクについて代替ディスクを獲得したか否かを判定する。制御部は、すべての故障ディスクについて代替ディスクを獲得していない場合にステップS61にすすみ、すべての故障ディスクについて代替ディスクを獲得した場合にディスクエンクロージャ故障再構成処理を終了する。
これにより、制御部は、故障ディスクのステータスが「RAID1」であっても、さらにRAID1を併用したRAIDグループを再構成することができる。したがって、ストレージシステム10は、ディスクエンクロージャ13(ストレージユニット単位)の繰り返しの障害があってもデータロストを防止できる。また、ストレージシステム10は、通常時において、各ディスク15を2重化することを要しないから信頼性の向上とストレージ資源の効率的な利用とを両立することができる。
次に、第3の実施形態のRAID構成DEから代替ディスクを獲得する場合のRAID再構成について図17および図18を用いて説明する。まず、RAID構成DEの1つが故障して、代替ディスクを他のRAID構成DEから獲得した図11に示すRAIDグループ30bの状態から、さらにRAID構成DEの1つが故障した場合について図17を用いて説明する。図17は、第3の実施形態のサーバが構成するRAIDグループの一例を示す図である。
ディスクエンクロージャ13bは、故障により、複数のディスク15(「#B1」,「#B2」,「#B3」,・・・)が故障した状態である。制御部は、ディスクエンクロージャ13bの故障検出により、他のディスクエンクロージャ13からディスク15(「#B1」,「#B2」)を代替するディスク15の割当を受ける。たとえば、ディスクエンクロージャ故障再構成処理のステップS67の場合、制御部は、ディスク15「#B1」を代替するため、ディスクエンクロージャ13c,13dからそれぞれディスク15「#C3」,「#D2」の割当を受ける。また、ディスクエンクロージャ故障再構成処理のステップS70の場合、制御部は、ディスク15「#B2」を代替するため、ディスクエンクロージャ13dからディスク15「#D3」の割当を受ける。
制御部は、ディスクエンクロージャ13bのディスク15「#B1」に代えてディスクエンクロージャ13cのディスク15「#C3」を加えて、RAIDグループ30を再構成する。
すなわち、制御部は、ディスクエンクロージャ13c,13dからそれぞれディスク15(「#C2」,「#C3」,「#C1」,「#D1」)の割当を受けてRAIDグループ30を再構成する。また、制御部は、ディスク15「#C2」をディスク15「#D3」に複製してRAID1を構成する。また、制御部は、ディスク15「#C3」をディスク15「#D2」に複製してRAID1を構成する。
これにより、制御部は、2組のRAID1を併用してRAIDグループ30dとしてRAIDグループ30を再構成する。
RAIDグループ30dは、ディスクエンクロージャ13c,13dのいずれか一方が故障しても、サーバ12がRAIDグループ30に対してアクセス可能である。
したがって、ストレージシステム10は、ディスクエンクロージャ13(ストレージユニット単位)の障害によるデータロストを防止できる。また、ストレージシステム10は、通常時において、各ディスク15を2重化することを要しないから信頼性の向上とストレージ資源の効率的な利用とを両立することができる。
また、故障ディスクのステータスが「RAID1」の場合に、制御部は、故障ディスクとペアになるステータスが「RAID1」のディスク15からデータを取得し、代替ディスクへの書き込みをおこなうことができる。また、故障ディスクとペアになるステータスが「RAID1」のディスク15をRAIDグループの再構成に利用することで、RAIDグループの再構成のためのデータリードタイムを短縮することができる。
次に、第3の実施形態のRAID1併用RAID再構成後のRAID構成情報について図18を用いて説明する。図18は、第3の実施形態のRAID構成情報の一例を示す図である。
RAID構成情報52は、2組のRAID1併用によるRAID再構成後にRAID構成情報51を更新した情報である。
RAID構成情報52は、ブロックNo.「1」,「2」が2つと、ブロックNo.「3」,「4」が1つずつの合計6つのディスク15からRAIDグループID「#0001」のRAIDグループ30が構成されていることを示す。また、RAID構成情報52は、ステータス「RAID1」より、ブロックNo.「1」の2つのディスク15がRAID1を構成し、ブロックNo.「2」の2つのディスク15がもう1つのRAID1を構成していることを示す。また、RAID構成情報52は、ブロックNo.「1」の1つのディスク15がディスクエンクロージャID「#C」、ディスクID「#2」であることを示す。また、RAID構成情報52は、ブロックNo.「1」のもう1つのディスク15がディスクエンクロージャID「#D」、ディスクID「#3」であることを示す。また、RAID構成情報52は、ブロックNo.「2」の1つのディスク15がディスクエンクロージャID「#C」、ディスクID「#3」であることを示す。また、RAID構成情報52は、ブロックNo.「2」のもう1つのディスク15がディスクエンクロージャID「#D」、ディスクID「#2」であることを示す。同様に、RAID構成情報52は、ブロックNo.「3」のディスク15がディスクエンクロージャID「#C」、ディスクID「#1」であることを示す。同様に、RAID構成情報52は、ブロックNo.「4」のディスク15がディスクエンクロージャID「#D」、ディスクID「#1」であることを示す。
ここで、獲得ディスクへのコピーバックと、RAID1を構成していたディスク15の解放について図19を用いて説明する。図19は、第3の実施形態のサーバが構成するRAIDグループの一例を示す図である。
図17に示したRAIDグループ30dは、ディスクエンクロージャ13a,13bが故障し、RAID1を併用してRAIDグループを構成している状態である。ここで、図19に示すようにディスクエンクロージャ13a,13bが復旧した場合、制御部は、ディスクエンクロージャ13a,13bからそれぞれディスク15(たとえば、ディスク15「#A1」,「#B1」)を獲得する。制御部は、RAID1を構成していたディスク15「#C2」からディスク15「#A1」にコピーバック処理をおこなう。また、制御部は、もう1つのRAID1を構成していたディスク15「#C3」からディスク15「#B1」にコピーバック処理をおこなう。これにより、サーバ12は、RAIDグループ30eを再構成することができる。また、制御部は、RAID1を構成していたディスク15「#C2」,「#C3」,「#D2」,「#D3」を解放対象32として、リソースマネージャ11に解放依頼をおこない、サーバ12への割当から解放する。
したがって、ストレージシステム10は、ディスクエンクロージャ13(ストレージユニット単位)の復旧により、RAID1を併用していたRAIDグループを復旧することができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、管理装置2、情報処理装置3、リソースマネージャ11、サーバ12が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
また、上記の処理機能の少なくとも一部を、DSP、ASIC、PLDなどの電子回路で実現することもできる。
1、10 ストレージシステム
2 管理装置
3 情報処理装置
3a 構成部
3b 検出部
3c 再構成部
3d 複製部
4,4a,4b,4c,4d ストレージユニット
5,5a,5b,5c,5d,5e,5f ストレージデバイス
6,7,8,16,17,18 通信パス
11 リソースマネージャ
12,12a,12b,12c サーバ
13,13a,13b,13c,13d ディスクエンクロージャ
14 スイッチ
15 ディスク
25 コントローラ
26 電源部
27 冷却部
101 プロセッサ
102 RAM
103 不揮発性メモリ
104 入出力インタフェース
105 通信インタフェース
106 バス

Claims (8)

  1. 複数のストレージデバイスを有する複数のストレージユニットと、前記ストレージデバイスを管理する管理装置と、前記管理装置から割当を受けて前記ストレージデバイスと接続可能な情報処理装置と、を備えるストレージシステムであって、
    前記情報処理装置は、
    それぞれ異なる前記ストレージユニットに属する前記ストレージデバイスの割当を受けて第1のグループを構成する第1の構成部と、
    前記第1のグループを構成するストレージデバイスの障害を検出する検出部と、
    障害を検出したストレージデバイスを代替するストレージデバイスを、前記第1のグループを構成するその余のストレージデバイスが属するストレージユニットから割当を受ける場合に、前記その余のストレージデバイスが属するストレージユニットのうちの第1のストレージユニットから第1のストレージデバイスの割当を受けて前記第1のグループの構成を前記その余のストレージデバイスと前記第1のストレージデバイスとが属する第2のグループに構成する第2の構成部と、
    前記その余のストレージデバイスが属するストレージユニットのうちの第2のストレージユニットから第2のストレージデバイスの割当を受けて、前記第2のストレージデバイスに前記第1のストレージデバイスを複製する複製部と、
    を備えることを特徴とするストレージシステム。
  2. 前記情報処理装置は、前記第2のグループを構成するストレージデバイスが属さないストレージユニットから第3のストレージデバイスの割当を受けて、前記第1のストレージデバイスまたは前記第2のストレージデバイスを前記第3のストレージデバイスに複製して前記第2のグループの構成を前記その余のストレージデバイスと前記第3のストレージデバイスとが属する第3のグループに構成する第3の構成部を備えることを特徴とする請求項1記載のストレージシステム。
  3. 前記情報処理装置は、前記第3のグループに構成した後、前記第1のストレージデバイスおよび前記第2のストレージデバイスの割当を解放することを特徴とする請求項2記載のストレージシステム。
  4. 前記情報処理装置は、前記第2のグループを構成するストレージデバイスを特定可能な管理情報を記憶する記憶部を有し、
    前記管理情報は、前記ストレージデバイスが複製を有するか否かを判別可能な複製判別情報を含む、
    ことを特徴とする請求項1記載のストレージシステム。
  5. 前記情報処理装置と前記ストレージユニットの接続と接続解除を切替可能なスイッチを備え、
    前記管理装置は、前記スイッチの接続と接続解除の切替を制御して、前記情報処理装置に前記ストレージデバイスを割り当てる、
    ことを特徴とする請求項1記載のストレージシステム。
  6. 前記管理装置は、前記ストレージユニットの障害を検出し、検出した前記ストレージユニットの障害を前記情報処理装置に通知することを特徴とする請求項1記載のストレージシステム。
  7. 複数のストレージデバイスを有する複数のストレージユニットを管理する管理装置と接続される情報処理装置の制御プログラムにおいて、
    前記情報処理装置に、
    それぞれ異なる前記ストレージユニットに属する前記ストレージデバイスの割当を受けて第1のグループを構成させ、
    前記第1のグループを構成するストレージデバイスの障害を検出させ、
    障害を検出したストレージデバイスを代替するストレージデバイスを、前記第1のグループを構成するその余のストレージデバイスが属するストレージユニットから割当を受ける場合に、前記その余のストレージデバイスが属するストレージユニットのうちの第1のストレージユニットから第1のストレージデバイスの割当を受けて前記第1のグループの構成を前記その余のストレージデバイスと前記第1のストレージデバイスとが属する第2のグループに構成せ、
    前記その余のストレージデバイスが属するストレージユニットのうちの第2のストレージユニットから第2のストレージデバイスの割当を受けて、前記第2のストレージデバイスに前記第1のストレージデバイスを複製させる、
    ことを特徴とする情報処理装置の制御プログラム。
  8. 複数のストレージデバイスを有する複数のストレージユニットと、前記ストレージデバイスを管理する管理装置と、前記管理装置から割当を受けて前記ストレージデバイスと接続可能な情報処理装置と、を備えるストレージシステムの制御方法において、
    前記情報処理装置が、
    それぞれ異なる前記ストレージユニットに属する前記ストレージデバイスの割当を受けて第1のグループを構成し、
    前記第1のグループを構成するストレージデバイスの障害を検出し、
    障害を検出したストレージデバイスを代替するストレージデバイスを、前記第1のグループを構成するその余のストレージデバイスが属するストレージユニットから割当を受ける場合に、前記その余のストレージデバイスが属するストレージユニットのうちの第1のストレージユニットから第1のストレージデバイスの割当を受けて前記第1のグループの構成を前記その余のストレージデバイスと前記第1のストレージデバイスとが属する第2のグループに構成
    前記その余のストレージデバイスが属するストレージユニットのうちの第2のストレージユニットから第2のストレージデバイスの割当を受けて、前記第2のストレージデバイスに前記第1のストレージデバイスを複製する、
    ことを特徴とするストレージシステムの制御方法。
JP2013097648A 2013-05-07 2013-05-07 ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法 Active JP6212934B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013097648A JP6212934B2 (ja) 2013-05-07 2013-05-07 ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法
US14/208,145 US9507664B2 (en) 2013-05-07 2014-03-13 Storage system including a plurality of storage units, a management device, and an information processing apparatus, and method for controlling the storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013097648A JP6212934B2 (ja) 2013-05-07 2013-05-07 ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法

Publications (2)

Publication Number Publication Date
JP2014219787A JP2014219787A (ja) 2014-11-20
JP6212934B2 true JP6212934B2 (ja) 2017-10-18

Family

ID=51865736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013097648A Active JP6212934B2 (ja) 2013-05-07 2013-05-07 ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法

Country Status (2)

Country Link
US (1) US9507664B2 (ja)
JP (1) JP6212934B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468484B (zh) * 2014-09-30 2020-07-28 伊姆西Ip控股有限责任公司 用于在存储系统中确定故障位置的方法和装置
JP2016157257A (ja) * 2015-02-24 2016-09-01 Necプラットフォームズ株式会社 ディスクアレイ装置およびその制御方法
JP6228347B2 (ja) * 2015-02-25 2017-11-08 株式会社日立製作所 ストレージ装置及び記憶デバイス
JP6472508B2 (ja) * 2015-04-06 2019-02-20 株式会社日立製作所 管理計算機およびリソース管理方法
US11288017B2 (en) 2017-02-23 2022-03-29 Smart IOPS, Inc. Devices, systems, and methods for storing data using distributed control
US11354247B2 (en) 2017-11-10 2022-06-07 Smart IOPS, Inc. Devices, systems, and methods for configuring a storage device with cache
US10394474B2 (en) * 2017-11-10 2019-08-27 Smart IOPS, Inc. Devices, systems, and methods for reconfiguring storage devices with applications
CN110058963B (zh) * 2018-01-18 2023-05-09 伊姆西Ip控股有限责任公司 用于管理存储系统的方法、设备和计算机程序产品
US10531592B1 (en) * 2018-07-19 2020-01-07 Quanta Computer Inc. Smart rack architecture for diskless computer system

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06230903A (ja) * 1993-01-31 1994-08-19 Hitachi Ltd ディスクアレイ装置の障害回復方法、およびディスクアレイ装置
JP2005100259A (ja) 2003-09-26 2005-04-14 Hitachi Ltd ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
JP4412989B2 (ja) * 2003-12-15 2010-02-10 株式会社日立製作所 複数の記憶システムを有するデータ処理システム
JP4426939B2 (ja) * 2004-03-11 2010-03-03 株式会社日立製作所 ストレージ装置
US7249277B2 (en) * 2004-03-11 2007-07-24 Hitachi, Ltd. Disk array including plural exchangeable magnetic disk unit
JP4476683B2 (ja) * 2004-04-28 2010-06-09 株式会社日立製作所 データ処理システム
US9043639B2 (en) * 2004-11-05 2015-05-26 Drobo, Inc. Dynamically expandable and contractible fault-tolerant storage system with virtual hot spare
JP2006227964A (ja) * 2005-02-18 2006-08-31 Fujitsu Ltd ストレージシステム、処理方法及びプログラム
JP5052193B2 (ja) * 2007-04-17 2012-10-17 株式会社日立製作所 記憶制御装置および記憶制御方法
JP4500346B2 (ja) * 2007-11-21 2010-07-14 富士通株式会社 ストレージシステム
JP4952605B2 (ja) * 2008-02-07 2012-06-13 日本電気株式会社 ディスクアレイ装置、データ切り戻し方法およびデータ切り戻しプログラム
JP2009252114A (ja) * 2008-04-09 2009-10-29 Hitachi Ltd ストレージシステム及びデータ退避方法
JP5252574B2 (ja) * 2009-04-21 2013-07-31 Necシステムテクノロジー株式会社 ディスクアレイ制御装置及び方法並びにプログラム
WO2012140692A1 (en) * 2011-04-12 2012-10-18 Hitachi, Ltd. Storage apparatus and method of controlling the same
JP2014056445A (ja) * 2012-09-12 2014-03-27 Fujitsu Ltd ストレージ装置、ストレージ制御プログラムおよびストレージ制御方法
WO2014091600A1 (ja) * 2012-12-13 2014-06-19 株式会社日立製作所 ストレージ装置及びストレージ装置移行方法

Also Published As

Publication number Publication date
JP2014219787A (ja) 2014-11-20
US20140337665A1 (en) 2014-11-13
US9507664B2 (en) 2016-11-29

Similar Documents

Publication Publication Date Title
JP6212934B2 (ja) ストレージシステム、情報処理装置の制御プログラム、およびストレージシステムの制御方法
US8234467B2 (en) Storage management device, storage system control device, storage medium storing storage management program, and storage system
JP4606455B2 (ja) ストレージ管理装置、ストレージ管理プログラムおよびストレージシステム
JP5158074B2 (ja) ストレージ管理プログラム、ストレージ管理方法、ストレージ管理装置およびストレージシステム
CN109857334B (zh) 存储系统及其控制方法
JP2010097385A (ja) データ管理プログラム、ストレージ装置診断プログラム、およびマルチノードストレージシステム
JP5412882B2 (ja) 論理ボリューム構成情報提供プログラム、論理ボリューム構成情報提供方法、および論理ボリューム構成情報提供装置
JP6850771B2 (ja) 情報処理システム、情報処理システムの管理方法及びプログラム
WO2011057885A1 (en) Method and apparatus for failover of redundant disk controllers
JP5218284B2 (ja) 仮想ディスク管理プログラム、ストレージ装置管理プログラム、マルチノードストレージシステム、および仮想ディスク管理方法
JP4979348B2 (ja) ストレージ・アレイ内でネットワーク・アドレスを割り当てるための装置および方法
CN104994168A (zh) 分布式存储方法及分布式存储系统
JP2007200299A (ja) データ記憶システムに配置された記憶アレイを再構成するための装置及び方法
JP6540334B2 (ja) システム、情報処理装置、および情報処理方法
JP4454299B2 (ja) ディスクアレイ装置及びディスクアレイ装置の保守方法
JP2010049637A (ja) 計算機システム、ストレージシステム及び構成管理方法
US7506201B2 (en) System and method of repair management for RAID arrays
US10719265B1 (en) Centralized, quorum-aware handling of device reservation requests in a storage system
CN116204137B (zh) 基于dpu的分布式存储系统、控制方法、装置及设备
JP5169993B2 (ja) データストレージシステム、データ領域管理方法
JP5348300B2 (ja) データ管理プログラム、およびマルチノードストレージシステム
US8578206B2 (en) Disk controller and disk control method
JP5773446B2 (ja) 記憶装置、冗長性回復方法、およびプログラム
JP3636163B2 (ja) 疎結合システムにおけるリカバリ方式及び排他制御装置
JP2010009476A (ja) コンピュータシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6212934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150