JP6213130B2 - ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法 - Google Patents

ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法 Download PDF

Info

Publication number
JP6213130B2
JP6213130B2 JP2013212336A JP2013212336A JP6213130B2 JP 6213130 B2 JP6213130 B2 JP 6213130B2 JP 2013212336 A JP2013212336 A JP 2013212336A JP 2013212336 A JP2013212336 A JP 2013212336A JP 6213130 B2 JP6213130 B2 JP 6213130B2
Authority
JP
Japan
Prior art keywords
storage
storage device
array
device array
storage devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013212336A
Other languages
English (en)
Other versions
JP2015075965A (ja
Inventor
櫻井 和子
和子 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013212336A priority Critical patent/JP6213130B2/ja
Priority to US14/458,558 priority patent/US9542273B2/en
Publication of JP2015075965A publication Critical patent/JP2015075965A/ja
Application granted granted Critical
Publication of JP6213130B2 publication Critical patent/JP6213130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operations
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1423Reconfiguring to eliminate the error by reconfiguration of paths
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operations
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operations
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2082Data synchronisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Description

本発明は、ストレージシステムの制御装置に関する。
ストレージシステムの構成要素として、情報を記憶する複数のディスク装置を格納するドライブエンクロージャ(Drive Enclosure(DE))がある。複数のディスク装置は、RAID(Redundant Array of Inexpensive Disks)グループを形成している。
DE上で障害が発生した場合、まずDE内のディスク装置、入出力モジュール(Input/Output Module(IOM)、電力供給ユニット(Power Supply Unit(PSU))等の活性交換可能なユニットを保守部品と交換する。活性交換とは、装置が動作している状態のまま、内部の部品を取り外して交換することをいう。ディスク装置、IOM、PSU等のユニットの交換後も、そのDEに障害が継続して発生した場合、故障の要因の1つとして、DE内のディスク受けコネクタ(ディスクスロット)が故障していることが考えられる。このような場合、IOM、PSU等は被疑箇所ではないと判断され、そのDEの交換を行う。DEの交換を行う場合、ストレージシステムの運用を止めるため、ストレージシステムの停止可能なタイミングを待つ必要がある。ストレージシステムを停止することが可能な状態となったら、ストレージシステムの電源を落としてシステム運用を停止する。交換対象のDEから、新しいDE(保守DE)へ元の順番通りにディスク装置を移設し、交換対象DEと保守DEを入れ替え、DE内に配設されているケーブルの接続も元に戻してDE交換が完了する。この後に、交換したディスク装置に対してデータの書き戻し処理等によりRAIDの再構築(リビルド)を実施する。
また、他の情報処理システムの保守技術として、以下のものがある。例えば、第1の技術として、半導体メモリを二重化することなく、半導体メモリを構成する任意の半導体メモリユニットの活線保守を行う技術がある。
第2の技術として、ディスクアレイシステムは、一つ以上のRAIDグループを提供する複数のデータディスクのうち何れかのデータディスクに障害が生じたことを検出する。すると、障害が生じたデータディスクと同一のRAIDグループに属する他のデータディスクを用いて何れかのスペアディスクにコレクションコピーを行う。障害が生じたデータディスクが交換用の新たなデータディスクに交換されると、ディスクアレイシステムは、スペアディスクをデータディスクとして管理変更し、データディスクをスペアディスクとして管理変更する。これにより、データ復旧時間を短縮する。
第3の技術として、次の技術がある。ディスクアレイを構成するディスク装置に故障ディスク装置が発生する。すると、復旧手段はホットスワップ機能により故障ディスク装置のデータを予備ディスク装置に復旧し、故障ディスク装置の代わりに予備ディスク装置を使用したディスクアレイ構成に変更する。故障ディスク装置が正常なディスク装置に交換される。すると、復旧手段は業務運用を停止させず且つディスクアレイの冗長状態を維持した状態で、予備ディスク装置のデータを交換ディスク装置に復旧し、予備ディスク装置の代わりに交換ディスク装置を使用したディスクアレイ構成に再度変更する。これにより、ホットスワップ機能を有するディスクアレイ装置において、信頼性を低下させることなくディスクアレイを構成するディスク装置の物理的な配置関係を常に一定に維持する。
特開平7−325674号号公報 特開2007−87039号公報 特開平11−184643号公報
複数のDEは、数珠繋ぎ状(カスケード状)に接続されているため、その中のいずれかをDEを交換する場合には通信ができなくなり、一旦システムの運用を停止することになる。そのため、顧客の業務に非常に大きな影響を与えてしまう恐れがある。またシステム停止可能なタイミングになるまでの期間は、交換対象DEを用いて運用を続けなければならず、RAIDシステムの冗長性を欠いた状態で運用することになる。この状態でDE内の別のディスクスロットが使用できなくなると、最悪の場合には、データ損失が発生する等の可能性がある。
本発明は、一側面として、筐体の交換が必要な障害が発生しても、交換対象の筐体を有効に活用して、システム運用を継続させる技術を提供する。
ストレージ制御装置は、複数の記憶装置を含む記憶装置アレイをそれぞれ収容する複数のストレージ装置であって該複数のストレージ装置の各々に収容されている記憶装置アレイをホスト装置からカスケード接続して該カスケード接続における上流側の該ホスト装置と下流側の記憶装置アレイとの間で授受されるデータの中継を行う中継部を各々が備えている該複数のストレージ装置の制御を行う。ストレージ制御装置は、検出部と、移行部と、接続制御部を含む。検出部は、複数のストレージ装置の各々に収容されている記憶装置アレイに含まれる複数の記憶装置のいずれかでの障害を検出する。移行部は、障害を検出した第1の記憶装置を含む第1の記憶装置アレイに含まれている全ての記憶装置のデータを、第1の記憶装置アレイとの間でカスケード接続がされている第2の記憶装置アレイに含まれている1または複数の記憶装置に移行する。接続制御部は、第1の記憶装置アレイが収容されているストレージ装置が備えている中継部による中継は継続し、第1の記憶装置アレイに含まれている全ての記憶装置の接続を切断する。
本発明の一側面によれば、筐体の交換が必要な障害が発生しても、交換対象の筐体を有効に活用して、システム運用を継続させることができる。
本実施形態におけるストレージシステムのブロック図を示す。 本実施形態におけるストレージシステムの一例である。 本実施形態におけるアクセス先変換テーブルの一例を示す。 本実施形態(実施例1)における、保守DE搭載前と搭載後のストレージシステムの筐体構成の一例を示す。 本実施形態(実施例1)における交換対象DEのIOMからディスク装置を論理的に切り離す場合について説明するための図である。 本実施形態(実施例1)におけるDE交換フロー(その1)を示す。 本実施形態(実施例1)におけるDE交換フロー(その2)を示す。 本実施形態(実施例1)におけるDE交換フロー(その3)を示す。 本実施形態(実施例1)を適用する場合と適用しない場合とのストレージシステム停止時間を説明するための図である。 本実施形態(実施例2)におけるケーブリングの一例を示す。 本実施形態(実施例2)におけるDE交換フローを示す。
上述したように、ストレージシステムの停止可能なタイミングの到来を待つ間、故障したディスクスロットが使えない場合でも、ホットスペアのディスク装置が準備されている場合、暫くはホットスペアのデータを用いてデータを冗長状態で運用可能である。しかし、さらに他のディスクも障害で使用できなくなった際にホットスペアが足りなくなる等の状況になった非冗長状態でも、システムの運用をしなければならなくなる恐れがある。
また、DE交換時は限られた時間の中でディスクの搭載位置を間違えないようにディスクを入れ替える必要があり、メンテナンス作業者に対する負荷が大きいものである。
本実施形態では、DE内の障害によりDEを筐体ごと交換する必要が発生した場合、装置を運用した状態でデータを保守DEに退避させ、顧客のシステムを停止せずにDE交換を実施する。ここで、DE交換が必要な場合とは、DE内のIOM、PSU等の活性交換可能なユニットには不具合がみられず、DE本体の部品(バックプレーン、筐体等)に問題があると判断した場合を想定している。DE交換が必要な場合の一例としてDE内のディスクスロットの故障等によって特定のディスクが使用できない等の障害が発生している状態を指す。なお、IOMの筐体間インターフェースには問題ない状態を想定している。
図1は、本実施形態におけるストレージシステムのブロック図を示す。ストレージシステムは、ストレージ制御装置1と複数の筐体5を含む。ストレージ制御装置1は、複数の筐体5に対してアクセス制御を行う。ストレージ制御装置1の一例として、コントローラモジュール(CM)13が挙げられる。複数の筐体5はそれぞれ、複数の記憶装置6を収容する。複数の筐体5は、カスケード接続されている。複数の筐体5のそれぞれの一例として、ディスクエンクロージャ(20)DEが挙げられる。複数の記憶装置6のそれぞれは、ディスク装置24が挙げられる。
ストレージ制御装置1は、検出部2、以降部3、接続制御部4、アクセス先変換テーブル8を含む。検出部2は、複数の筐体5のいずれかの筐体に含まれる記憶装置6の障害を検出する。検出部2の一例としては、CPU18が挙げられる。
移行部3は、障害を検出した第1の記憶装置6A1を収容する第1の筐体5Aに収容された全ての記憶装置6のデータを、第1の筐体5Aに直接的にまたは間接的にカスケード接続された第2の筐体5Bに収容された1または複数の記憶装置6Bに移行する。本明細書において、「移行」という表現には、復元(リビルド)または複製(コピー)、もしくは復元(リビルド)と複製(コピー)の組み合わせを含む。移行部3の一例としては、CPU18が挙げられる。
接続制御部4は、カスケード接続に用いられる第1の筐体5Aの中継部7の接続は継続し、第1の筐体5Aの全ての記憶装置6Aの接続を切断する。中継部7の一例として、SASエクスパンダ22が挙げられる。接続制御部4の一例としては、CPU18が挙げられる。
このように構成することにより、カスケード接続されたDE間でのネットワークが中断することがないので、ストレージシステムを停止することなく、定期点検時等の所定の時期まで冗長性を保って安定してシステム運用を継続させることができる。
接続制御部4は、前記第1の筐体5Aの全ての記憶装置6Aの接続の切断後、第1の筐体5Aに収容された全ての記憶装置6Aへのアクセスを第2の筐体5Bに収容された記憶装置6Bへのアクセスに変更する。ここで、接続の切断を行う場合、接続制御部4は、アクセス先変換テーブル8に格納された筐体または筐体内の記憶装置のアクセス先を、第1の筐体または第1の筐体内の各記憶装置6Aから、第2の筐体5Bまたは第2の筐体5B内の各記憶装置6Bへ変更する。
このように構成することにより、変更先の筐体または変更先の筐体の各記憶装置へアクセスすることができる。
第1の筐体5Aに直接的にまたは間接的に、第2の筐体5Bがカスケード接続された場合、移行部3は、第1の筐体5Aに収容された全ての記憶装置6Aのデータを、該第2の筐体5Bに収容された1または複数の記憶装置6Bに移行する。
このように構成することにより、第2の筐体5Bがカスケード接続された場合、移行部3は、自動で、第1の筐体5Aに収容された全ての記憶装置6Aのデータを、第2の筐体5Bに収容された1または複数の記憶装置6Bに移行することができる。ここで、移行の形態には、以下の3つのパターンがある。
1つ目の移行パターンとしては、移行部3は、復元部3−1、複製部3−2を含む。復元部3−1は、第1の筐体5Aのうちの第1の記憶装置6A1以外のRAIDグループを構築する記憶装置6Aのパリティデータに基づいて、次の復元を行う。すなわち、復元部3−1は、第2の筐体5Bに含まれる、第1の記憶装置6A1に対応する第2の記憶装置6B1に、第1の記憶装置6A1のデータを復元する。この場合、複製部3−2は、第1の筐体5Aのうちの第1の記憶装置6A1以外の各記憶装置6Aのデータを、第2の筐体5Bにおいて、対応する記憶装置6Bに複製する。
2つ目の移行パターンとしては、第1の筐体5Aに待機用の第3の記憶装置がある場合のパターンがある。この場合、復元部3−1は、第1の筐体5Aのうちの第1の記憶装置6A1以外のRAIDグループを構築する記憶装置6Aのパリティデータに基づいて第1の記憶装置6A1のデータを第3の記憶装置6A2に復元する。それから、復元部3−1は、第3の記憶装置から、第2の筐体5Bに含まれる、第3の記憶装置に対応する第4の記憶装置に対して、第1の記憶装置6A1のデータを複製する。
3つ目の移行パターンとしては、複製部3−2は、第1の筐体5Aに収容された全ての記憶装置6Aのデータを、第2の筐体5Bに収容された1または複数の記憶装置6Bに複製する。その複製後、復元部3−1は、第2の筐体5Bにおいて、第1の筐体5Aの第1の記憶装置6Aに対応する記憶装置以外の記憶装置のパリティデータに基づいて、第2の筐体5Bにおいて、第1の筐体5Aの第1の記憶装置6Aに対応する記憶装置に、第1の記憶装置6Aのデータを復元する。
このように構成することにより、障害対象ディスク装置と同じディスクエンクロージャに搭載されたその他のディスク装置から、新規搭載した保守ディスクエンクロージャ内の、対応するスロットのディスクデータを複製する。
図2は、本実施形態におけるストレージシステムの一例である。ストレージシステム11は、サーバ等のホスト10と接続されている。ストレージシステム11は、RAIDコントローラを有するコントローラエンクロージャ(CE)12と、複数のディスク装置24を搭載するドライブエンクロージャ(DE)20とを含む。DE20はそれぞれ同じ構成であり、同じスロット数を有する。
CE12は、コントローラモジュール(CM)13(13−0,13−1)を含む。CM13(13−0,13−1)は、ホスト10から送信されたデータをディスク装置24に書き込んだり、ホスト10からの要求に応じて、ディスク装置24からデータを読み出すためのコントローラモジュールであり、ディスク装置24の動作制御を行う。ここで、一方のCM13を0系CMと称し、CM0(13−0)で表す。他方のCMを1系CMと称し、CM1(13−1)で表す。
各CM13は、記憶装置14、チャネルアダプタ(Channel Adapter(CA))15、チップセット16、キャッシュ17、中央演算装置(Central Processing Unit(CPU))18、デバイスアダプタ(Device Adapter(DA))19を含む。記憶部14、CA15、チップセット16、キャッシュ17、CPU18、DA19は、内部バスを介して接続されている。
記憶装置14(14−0,14−1)は、例えば、SSD(Solid State Drive)、ハードディスクドライブまたは半導体メモリ装置であり、後述するアクセス変換テーブルや後述する処理を実行するプログラム等を格納する。CA15(15−0,15−1)は、ストレージシステム11と接続されているホスト10に対するインターフェース制御部である。チップセット16(16−0,16−1)は、CA15、CPU18、DA19を接続するためのスイッチ装置である。キャッシュ17(17−0,17−1)は、データを一時的に保持する記憶装置である。CPU18(18−0,18−1)は、CM13全体を制御する演算装置である。CPU18(18−0,18−1)は、記憶装置14から後述するプログラムを読み出すことにより、検出部2、移行部3、接続制御部4として機能する。CPU18−0とCPU18−1とは、通信線を介して、相互に通信し、一方のCM内のユニットが故障した場合に他方のCMへホスト10からのアクセスを迂回させる。DA19(19−0,19−1)は、DE20に対するインターフェース制御部である。
ここで、CM0に関する構成要素については、符号の末尾に「−0」を付与して表し、CM1に関する構成要素については、符号の末尾に「−1」を付与して表す。なお、CM0,CM1に共通する事項については、符号の末尾に「−0」または「−1」を付さないで説明する。
DE20は、入出力モジュール(IOM)21(21−0,21−1)、ミッドプレーン23、ディスク装置24(24a,24b,・・・24c,24d)を含む。
IOM21(21−0,21−1)は、DE20を統括的に制御するとともに、CM0,CM1とディスク装置24との間でデータを中継するスイッチ装置としての処理を実行する。このようなスイッチ装置の一例として、SASエクスパンダがある。SASは、Serial Attached SCSI(Small Computer System Interface)の略称である。
SASエクスパンダ22−0は、CM0(13−0)のDA19−0に接続され、SASエクスパンダ22−1は、CM1(13−1)のDA19−1に接続されている。また、IOM21−0,21−1は、他のDEのIOMと接続することも可能である。
ミッドプレーン23は、IOM0とディスク装置24間、またはIOM1とディスク装置24間を中継するボードである。
ディスク装置24(24a,24b,・・・24c,24d)は、データを記憶する大容量の複数の記憶装置であり、例えば、SSD(Solid State Drive)、ハードディスクドライブまたは半導体メモリ装置である。複数のディスク装置24のうちいずれかをホットスペアとして用いる場合、そのホットスペアを除いた、複数のディスク装置24は、RAIDグループを構成する。また、ホットスペアがない場合、全てのディスク装置24は、RAIDグループを構成する。
図3は、本実施形態におけるアクセス先変換テーブルの一例を示す。アクセス先変換テーブルは、CM13の記憶装置14に格納されている。アクセス先変換テーブルは、論理的なアクセス先を、物理的なアクセス先に変換するためのテーブルである。アクセス先変換テーブルは、「論理アクセス先」、「物理アクセス先」のデータ項目を含む。「論理アクセス先」には、DEの論理的な名称が格納される。「物理アクセス先」には、DEの物理的な名称が格納される。アクセス先のDE(またはDE内のディスク装置24)が変更された場合、「物理アクセス先」に変更後のディスク名が設定されるが、「論理アクセス先」は変更されない。これにより、CM13は、DE20へのアクセスについて、論理アクセス先でのみ管理しておけるので、物理的にアクセス先のDEが変更されても、CM13の動作に変更はない。図3(A)、図3(B)についての説明は、後述する。
以下では、本実施形態の実施例について説明する。
(実施例1)
実施例1では、CE12は、DE20内のディスク装置の故障等を検出した後に保守モード状態となる。この保守モード状態において、CM13が、新たなDE20の搭載を検出した場合、ホットスペアのディスク装置の有無に応じて、故障したディスク装置(対象ディスク装置)のデータ復元方法を判断する。
ケース1:ミッドプレーン23にホットスペア(ディスク装置)が搭載されている場合、CM13は、ホットスペアに復元された対象ディスク装置のデータを、新規搭載した保守DE内の、対象ディスク装置に対応する位置に搭載されたディスク装置24に復元する。
ケース2:ホットスペアがない場合、CM13は、対象ディスク装置以外のRAIDグループのディスク装置のパリティデータを用いて、対象ディスク装置のデータを、保守DE内の、対象ディスク装置に対応する位置に搭載されたディスク装置に復元する。CMは、交換対象DEに搭載された各ディスク装置(対象ディスク装置を除く)から、保守DE内の、交換対象DEに搭載された各ディスク装置(対象ディスク装置を除く)に対応する位置に搭載されたディスク装置へ、データをコピーする。
ケース3:なお、実施例1においては具体的な説明は省略するが、次のようにしてもよい。すなわち、CM13は、交換対象DEに搭載された全てのディスク装置(対象ディスク装置を除く)のデータを、保守DE内において対応するディスク装置にコピーする。これから、CM13は、コピーした保守DEのディスク装置のパリティデータを用いて、対象ディスク装置のデータを、保守DE内の、対象ディスク装置に対応する位置に搭載されたディスク装置に復元してもよい。
以下では、ケース1〜3の事象を「交換対象DEから保守DEへのデータの移行」と表現する。保守DEへのデータへの移行が完了した場合、CM13は、交換対象DEのIOMからディスク装置の接続を切り、ハードウェアの正常部分を使って運用を継続する。これにより、装置停止をせずに所定時期まで冗長性を保ってシステム運用を継続させることができる。
図4は、本実施形態(実施例1)における、保守DE搭載前と搭載後のストレージシステムの筐体構成の一例を示す。図4(A)は、保守DE搭載前のストレージシステム11の筐体構成例である。図4(A)の場合、ストレージシステム11の一例として、1筐体のCE12と、複数のDE20a,20b,20cとを含む。CE12と複数のDE20a,20b,20cは、SASケーブル等を用いた高速インターフェース(I/F)でカスケード接続されている。
図4(B)は、保守DE搭載後のストレージシステム11の筐体構成例である。図4(B)では、図4(A)に保守のために用いるDE4(保守DE)が、カスケード接続された末端のDE20cに、接続されている。したがって、通常のシステム運用においては、DE20a,20b,20cが稼働している。
図4(A)及び図4(B)の例では、CEとDE1との間に関しては、CM0(13−0)の出力ポートと、IOM0(21−01)の入力ポートが接続され、CM1(13−1)の出力ポートと、IOM1(21−11)の入力ポートが接続されている。DE1(20a)とDE2(20b)との間に関しては、IOM0(21−01)の出力ポートと、IOM0(21−02)の入力ポートが接続され、IOM1(21−11)の出力ポートと、IOM1(21−12)の入力ポートが接続されている。DE2(20b)とDE3(20c)との間に関しては、IOM0(21−02)の出力ポートと、IOM0(21−03)の入力ポートが接続され、IOM1(21−12)の出力ポートと、IOM1(21−13)の入力ポートが接続されている。
DE3(20c)と保守DE4(20d)との間に関しては、IOM0(21−03)の出力ポートと、IOM0(21−04)の入力ポートが接続され、IOM1(21−13)の出力ポートと、IOM1(21−14)の入力ポートが接続されている。
図4(A)及び図4(B)の例では、ストレージシステム11内のDEに障害が発生し、DEの交換が必要となった場合を想定する。ここで、障害発生前の、アクセス先変換テーブルは、図3(A)の状態であるとする。すなわち、論理アクセス先“A”に対応する物理アクセス先が“DE1”であるとする。論理アクセス先“B”に対応する物理アクセス先が“DE2”であるとする。論理アクセス先“C”に対応する物理アクセス先がDE3であるとする。DEに障害が発生し、DE交換が必要となった場合に、ストレージシステム11を稼動し続けた状態でカスケード構造の最下層のDE3(20c)に、保守のために用いるDE4(20d)を接続する。
図4(A)及び図4(B)の例では、DE交換が必要となったDEをDE2(20b)と仮定する。まず、CM13は、交換が必要となったDE2(20b)内のディスク装置のデータを、DE2(20b)を停止せずに保守DE20dへ移行する。このとき、CM13は、交換対象DEと保守DE間で、両方のDEのデータが完全に一致するまでデータのミラーリングを行うことにより、DE2(20b)のデータを保守DE(20d)へ複製する。ミラーリング中に、論理アクセス先Bに書き込みアクセスがあった場合、アクセス先変換テーブル8において、論理アクセス先Bに対応する物理アクセス先はDE2であるから、DE2に書き込みアクセスが生じる。この場合でも、ミラーリングにより、DE2(20b)に書き込まれたデータは、保守DE4(20d)に反映される。
データ移行完了後、交換対象DE2(20b)のIOMからディスク装置を論理的に切り離し、交換対象DE2の役割をカスケードDEに対するスイッチ機能(中継機能)のみとする。さらに、アクセス先変換テーブルの論理アクセス先Bに対応する物理アクセス先がDE2からDE4へ書き換えられる。
図5は、本実施形態(実施例1)における交換対象DEのIOMからディスク装置を論理的に切り離す場合について説明するための図である。交換対象DE2のIOMから全てのディスク装置を論理的に切り離した後、交換対象DE2は、上述の通り、カスケード状に接続されたDEに対するスイッチ装置、すなわち中継装置として機能する。このように構成することにより、ストレージシステムを停止せずにカスケード接続された各DEへのアクセスパスを末端側まで確保することができる。また、メンテナンス時に合わせて交換対象DEを回収できるようになる。
図6A、図6B及び図6Cは、本実施形態(実施例1)におけるDE交換フローを示す。以下では、DE内のミッドプレーン側のディスクスロットの故障により、DE(例えば図4のDE2(20b))内の特定のディスク装置のデータが読み取れなくなった場合、すなわちDE2に障害が発生した例について説明する。DE2(20b)内の特定のディスク装置のデータへの読み出しアクセスまたは書き込みアクセスにおいてエラーが発生した場合、DE2は、そのエラーが発生したことを示すエラーメッセージをCM13に通知する。CM13は、DE2からエラーメッセージを受信すると、DE内のディスク装置の異常を検知し、保守モードに移行する。それから、CM13、具体的には、CPU18は、本実施形態に係るプログラムを読み出して、検出部2、移行部3、接続制御部4として機能し、以下の処理を行う。
まず、CM13が、障害が発生したDE2(20b)にホットスペアが搭載されているかを判定する(S1)。ここでは、CM13のファームウェアがDE2(20b)に対して、ホットスペアが搭載されているかを確認するコマンドを送信する。
DE2(20b)は、そのコマンドを受信すると、ホットスペアが搭載されている場合には、ホットスペアが搭載されている旨を応答し、ホットスペアが搭載されていない場合には、ホットスペアが搭載されていない旨を応答する。CM13は、その応答結果に基づいて、DE2にホットスペアが搭載されているかを判定する。
DE2がホットスペアを搭載していない場合(S1でNo)、メンテナンス作業者は、データが読み取れなくなったディスク装置(以下、「対象ディスク装置」という)の交換を行う(S3)。
DE2がホットスペアを搭載している場合(S1でYes)、CM13は、DE2(20b)内の、対象ディスク装置以外のディスク装置に格納されたパリティデータを用いて、対象ディスク装置のデータをホットスペアに復元する(S2)。その後、メンテナンス作業者は、対象ディスク装置の交換を行う(S3)。
CM13は、対象ディスク装置の交換により、ディスク装置の不具合が解消したか否かを判定する(S4)。ディスク装置の不具合が解消しない場合とは、ディスク装置を交換したにもかかわらず、障害が復旧しなかったため、DEを交換する必要があると判明した場合を想定している。具体的には、各DEは、自身に搭載されているディスク装置にアクセスできない等のエラーが発生した場合、そのエラーが発生したことを示すエラーメッセージをCM13に通知する。CM13は、そのエラーメッセージを受信すると、DE内のディスク装置の異常を検知する。
対象ディスク装置の交換により、ディスク装置の不具合が解消した場合、すなわち、DE(20b)からCM13へエラーメッセージが通知されなかった場合(S4でYes)、CM13は、DE2にホットスペアが搭載されているかを判定する(S5)。DE2にホットスペアが搭載されているか否かの判定は、S1で説明したので省略する。
DE2にホットスペアが搭載されている場合(S5でYes)、CM13は、S3においてホットスペアに復元された対象ディスク装置のデータを交換後のディスク装置にコピーすることにより、交換後のディスク装置にデータを復元する(S6)。これにより、DE不具合の解消処理が完了する(S8)。
DE2にホットスペアが搭載されていない場合(S5でNo)、CM13は、DE2において、交換したディスク装置以外のディスク装置に格納されたパリティデータを用いて、交換後のディスク装置にデータを復元する(S7)。これにより、DE不具合の解消処理が完了する(S8)。
S4において、対象ディスク装置の交換により、ディスク装置の不具合が解消しなかった場合、すなわち、DE2(20b)からCM13へエラーメッセージが通知された場合(S4でNo)、メンテナンス作業者は、次の作業を行う。すなわち、メンテナンス作業者は、ストレージシステム11を形成するDEのうち、カスケードの末端に相当するDE3(20c)に対して、保守DE(20d)を接続する(S9)。
CM13は、新たに接続された保守DE(20d)を認識する(S10)。すると、CM13は、ストレージシステム11の状態がレディ(Ready)状態か否かを判定する(S11)。ストレージシステム11の状態がReady状態である場合(S11でYes)、DEの増設手順が行われる。
ストレージシステム11の状態がReady状態でない場合(S11でNo)、CM13は、DE2または保守DEにホットスペアが搭載されているかを判定する(S13)。DE2または保守DEにホットスペアが搭載されているか否かの判定は、S1で説明したので省略する。
DE2にホットスペアが搭載されている場合(S13でYes)、CM13はDE2の対象ディスク装置のデータを、ホットスペアから保守DE内の同じスロットのディスク装置にコピーする(S14)。
DE2にホットスペアが搭載されていない場合(S13でNo)、CM13はDE2において故障ディスク装置以外のディスク装置に格納されたパリティデータを用いて、保守DE内にて、故障ディスク装置と同じスロットのディスク装置に復元する(S15)。
その後、CM13は、交換対象DEの他ディスク装置のデータを、保守DEにて、同じスロットのディスク装置に複製する(S16)。
CM13は、交換対象DEと保守DEとの間で、データが一致しているかを判定する(S17)。交換対象DEと保守DEとの間で、データが一致していない場合(S17でNo)、CM13は、交換対象DEと保守DEとの間で、各ディスク装置24のミラーリングを行う。
交換対象DEと保守DEとの間で、データが一致している場合(S17でYes)、CM13は、アクセス先変更テーブルを更新すると共に、図5で説明したように、SASエクスパンダ22とディスク装置24との接続を論理的に切断する(S19)。すなわち、CM13のファームウェアは、アクセス先変換テーブル8の対象となる論理アクセス先に対応する物理アクセス先を、交換対象DEから保守DEへ書き換える。また、CM13は、SASエクスパンダ22において、ディスク装置24と接続している全ポートを使用不可にすることにより、SASエクスパンダ22とディスク装置24との接続を論理的に切断する。
この状態で、CM13は、システム運用を継続する。物理的にアクセスするDEの物理アドレスに変更があっても、論理アドレスには変更がない。CM13のCPU18は、論理アドレス先を用いて、DEへアクセス要求を行っているから、DEを切り替える前と同じ状態で論理アドレス先にアクセスすることができ、システム運用の変更は生じない。
なお、SASエクスパンダ22とディスク装置24との接続が論理的に切断されても、SASエクスパンダ22は有効に機能しているので、交換対象DEは中継装置として機能を継続する。これにより、装置停止をせずに所定時期まで冗長性を保ってシステム運用を継続させることができる。
その後、メンテナンス作業者は、装置の停止が可能か否か判定する(S20)。装置の停止が可能な場合(S20でYes)、装置停止可能なタイミングが到来したら(S21)、メンテナンス作業者は、ストレージシステム11の電源を落とす。ここで、装置停止可能なタイミングとは、例えば、年末年始等の顧客の長期休暇で、顧客の業務に影響を与えないタイミングをいう。装置の停止ができない場合(S20でNo)については、実施例2(図9)にて説明する。
メンテナンス作業者は交換対象DEを外し、その交換対象DEがあった位置に保守DEを接続する(S23)。メンテナンス作業者は、交換対象DEをラックから外す(S24)。メンテナンス作業者は、保守DEをラックに搭載する(S25)。メンテナンス作業者は、保守DEにケーブルを再接続する(S26)。これにより、保守DEの接続が完了する(S27)。
このように、例えば、DEにホットスペアを搭載していない場合、保守DEが接続された後、RAIDグループの残りのディスク装置を用いて保守DEの同スロットのディスク装置に、交換対象DE内の特定のディスク装置のデータを復旧する。復旧後、交換対象DE内の残りのディスク装置のデータも、保守DEのディスク装置へ複製する。ストレージシステム11を停止せずに複製を行う為、交換対象DEと保守DE間でデータのミラーリングを取り、両方のDEのデータが完全に一致した後、交換対象DEはディスク装置を切り離し、カスケードDEに対するスイッチ装置のみの役割とする。すなわち、交換対象DEは中継機能のみを有効にした状態にしておき、カスケード接続された複数のDEに対する中継器として機能させる。また、上述したように、CM13のファームフェアは、アクセス先変換テーブル8の対象となる論理アクセス先に対応する物理アクセス先を交換対象DEから保守DEへ書き換える。この状態で、CM13は、システム運用を継続する。物理的にアクセスするDEの変更があっても、アクセス先変換テーブル8の論理アドレスには変更がないので、CM13は、DEを切り替える前と同じ状態で論理アドレス先にアクセスすることができ、システム運用の変更は生じない。
本実施形態を用いることで、ストレージシステム11を停止することなくデータの移行(復元または複製/複製及び復元)が可能となる。また、RAIDの冗長性を欠いた状態での運用を最小限にできる。また、交換対象DEは電源を入れたまま稼動しておくことが可能なので、年末年始等の定期メンテナンス時などシステムを止められる際に回収する。データの移行(復元または複製/複製及び復元)を予め実施しているため、長時間のシステム停止をさせることなく、オペレータに負担をかけずにDE交換を完了することが可能である。
なお、移行のパターンとして、CM13は、さらに、交換対象DEに収容された全てのディスク装置24のデータを、保守DEに収容されたディスク装置に複製してもよい。
この場合、その複製後、CM13は、保守DEにおいて、交換対象DEの故障したディスク装置に対応するディスク装置以外のディスク装置のパリティデータに基づいて、次の処理を行っても良い。すなわち、CM13は、保守DEにおいて、交換対象DEの故障したディスク装置に対応するディスク装置に、その故障したディスク装置のデータを復元してもよい。
図7は、本実施形態(実施例1)を適用する場合と適用しない場合とのストレージシステム停止時間を説明するための図である。本実施形態を適用しない場合、ディスク装置の交換に20分、DE交換に10分、ケーブル再接続に20分、リビルド時間に100分、合計で150分かかる。ここで、リビルド時間は、例としてディスク装置の容量600[ギガバイト(GB)]、書き込み速度100[メガバイト(MB)/s]である時の見積時間であり、各種条件によってリビルド時間は変わる。
ディスク装置の寿命は、数年(例えば、5年)である。ディスク装置の寿命にあわせて保守DEに大量のデータ移行を行う長期保守時にも、本実施形態を用いることにより、効率的にDE交換を行える。加えて、装置停止中にディスク装置の移設もデータ移行もしなくてよくなる為、オペレータに対する負荷の軽減にも繋げられる。
保守DEの置き場所が無く早急にDEを交換したい場合でも、装置停止時間を短縮することができる。
(実施例2)
実施例2では、DEのラック搭載位置を問題にしなければ、さらに、次の操作を実施することで、ストレージシステムを停止せずに交換対象DEを回収可能である。ストレージシステム11において、CM−DE間、DE−DE間を接続するケーブルの内、片系を取り外し、保守DEを交換対象DEに置き換えた状態で再ケーブリングを実施する。この再ケーブリングが行われている間のシステム運用は、他系で継続されている。それから。データの経路を、再ケーブリングによって新たに接続された系に切り替える。残りの系のケーブルに対して同様に再ケーブリングを実施する。ケーブリング後に両系ともアクティブ‐アクティブ(両系動作)とする。その後、交換対象DEを回収する。
以下に、本実施例の詳細を説明する。
図8は、本実施形態(実施例2)におけるケーブリングの一例を示す。実施例1において、交換対象DEのデータを保守DEに移行した後、装置を停止することができない場合には、図8(A)のように、データ経路を、例えば1系に片寄し、0系のケーブルの接続を変更する。
図8(A)のケーブリングを説明すると、図4において、DE2を保守DEに置き換えると想定する。すると、DE1のIOM21−01のアウトポートに接続されているケーブルの反対側の末端を、DE2のIOM21−02のインポートから、保守DEのDE2のIOM21−04のインポートへ挿しかえる。
また、DE3のIOM21−03のインポートに接続されているケーブルの反対側の末端を、DE2のIOM21−02のアウトポートから、保守DEのIOM21−04のアウトポートへ挿しかえる。これにより、ケーブリングの状態が、図8(A)の状態になる。
ケーブリング形態を図8(A)に変更した後で、CM13が正常に、各DEのディスク装置にアクセスすることができるかを確認する。CM13が正常に、各DEのディスク装置にアクセスすることができると確認できた後、CM13はデータ経路を0系に片寄する。すなわち、CM13は0系側の、SASエクスパンダとケーブルを介して、各DEにアクセスする。図8(B)のように、再度1系のケーブルの接続を変更する。そして再度、CM13が正常に、各DEのディスク装置にアクセスすることができるかを確認する。確認後に0系及び1系ともアクティブ‐アクティブとする。
図9は、本実施形態(実施例2)におけるDE交換フローを示す。図9のフローは、図図6CのS20において、装置の停止ができない場合に行なわれる。
S20において、メンテナンス作業者は、保守可能なタイミングを待つ(S30)。保守可能なタイミングが到来したら、メンテナンス作業者は、ストレージシステム11の電源を落とさずに、活性保守でS31以降の手順を実施できる。
メンテナンス作業者は、ストレージシステム11において、片系のケーブルの接続を変更し、保守DEを交換対象DEに置き換えた状態で再ケーブリングを実施する(S31)。この間のシステム運用は、もう一方の系で継続されている。
その後、メンテナンス作業者は、CM13が正常に、各DEのディスク装置にアクセスすることができるかを確認する(S32)。CMが正常に、各DEのディスク装置にアクセスすることができると確認できた後、メンテナンス作業者は、他系のケーブル接続を変更する(S33)。メンテナンス作業者は、CM13が正常に各DEのディスク装置にアクセスすることができるかを確認する。メンテナンス作業者は、その確認後に0系及び1系ともアクティブ‐アクティブとする。その後、メンテナンス作業者は、交換対象DEを回収する。
本実施例2を用いることで、DEのラック搭載位置を問題にしなければ、装置停止せずに交換対象DEを回収可能となる。もし、DEのラック搭載位置を元の状態に戻したいならば、年末年始等の定期メンテナンス時などシステムを止められる際にDEのラック搭載位置を元の状態に戻すことができる。
なお、本実施形態は、以上に述べた実施の形態に限定されるものではなく、本実施形態の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。
1 ストレージ制御装置
2 検出部
3 移行部
3−1 復元部
3−2 複製部
4 接続制御部
5 筐体
5A 第1の筐体
5B 第2の筐体
6,6B,6B 記憶装置
6A1 第1の記憶装置
6A2 第3の記憶装置
6B1 第2の記憶装置
6B2 第4の記憶装置
7 中継部
8 アクセス先変換テーブル
10 ホスト
11 ストレージシステム
12 コントローラエンクロージャ(CE)
13(13−0,13−1) コントローラモジュール(CM)
14(14−0,14−1) 記憶装置
15(15−0,15−1) チャネルアダプタ
16(16−0,16−1) チップセット
17(17−0,17−1) キャッシュ
18(18−0,18−1) CPU
19(19−0,19−1) デバイスアダプタ(DA)
20 ドライブエンクロージャ(DE)
21(21−0,21−1) 入出力モジュール(IOM)
22 SASエクスパンダ
23 ミッドプレーン
24(24a,24b,・・・24c,24d) ディスク装置

Claims (9)

  1. 複数の記憶装置を含む記憶装置アレイをそれぞれ収容する複数のストレージ装置であって該複数のストレージ装置の各々に収容されている記憶装置アレイをホスト装置からカスケード接続して該カスケード接続における上流側の該ホスト装置と下流側の記憶装置アレイとの間で授受されるデータの中継を行う中継部を各々が備えている該複数のストレージ装置の制御を行うストレージ制御装置であって、
    前記複数のストレージ装置の各々に収容されている前記記憶装置アレイに含まれる前記複数の記憶装置のいずれかでの障害を検出する検出部と、
    障害を検出した第1の記憶装置を含む第1の記憶装置アレイに含まれている全ての記憶装置のデータを、前記第1の記憶装置アレイとの間で前記カスケード接続がされている第2の記憶装置アレイに含まれている1または複数の記憶装置に移行する移行部と、
    前記第1の記憶装置アレイが収容されているストレージ装置が備えている中継部による前記中継は継続し、前記第1の記憶装置アレイに含まれている全ての記憶装置の接続を切断する接続制御部と、
    を備えることを特徴とするストレージ制御装置。
  2. 前記接続制御部は、前記第1の記憶装置アレイに含まれている全ての記憶装置の接続の切断後、前記第1の記憶装置アレイに含まれている全ての記憶装置へのアクセスを前記第2の記憶装置アレイに含まれている記憶装置へのアクセスに変更する
    ことを特徴とする請求項1に記載のストレージ制御装置。
  3. 前記第1の記憶装置アレイとの間で前記第2の記憶装置アレイがカスケード接続された場合、前記移行部は、前記第1の記憶装置アレイに含まれている全ての記憶装置のデータを、該第2の記憶装置アレイに含まれている1または複数の記憶装置に移行する
    ことを特徴とする請求項1または2に記載のストレージ制御装置。
  4. 前記移行部は、
    前記第1の記憶装置アレイのうちの前記第1の記憶装置以外のRAIDグループを構築する記憶装置のパリティデータに基づいて、前記第2の記憶装置アレイに含まれる、前記第1の記憶装置に対応する第2の記憶装置に、該第1の記憶装置のデータを復元する復元部と、
    前記第1の記憶装置アレイのうちの前記第1の記憶装置以外の各記憶装置のデータを、前記第2の記憶装置アレイにおいて、対応する記憶装置に複製する複製部と、
    を備える請求項1〜3のうちいずれか1項に記載のストレージ制御装置。
  5. 前記第1の記憶装置アレイに待機用の第3の記憶装置がある場合に、前記復元部は、前記第1の記憶装置アレイのうちの前記第1の記憶装置以外の前記RAIDグループを構築する記憶装置のパリティデータに基づいて前記第1の記憶装置のデータを前記第3の記憶装置に復元し、前記第3の記憶装置から、前記第2の記憶装置アレイに含まれる、該第3の記憶装置に対応する第4の記憶装置に対して、前記第1の記憶装置のデータを複製する
    ことを特徴とする請求項4に記載のストレージ制御装置。
  6. 複数の記憶装置を含む記憶装置アレイをそれぞれ収容する複数のストレージ装置であって該複数のストレージ装置の各々に収容されている記憶装置アレイをホスト装置からカスケード接続して該カスケード接続における上流側の該ホスト装置と下流側の記憶装置アレイとの間で授受されるデータの中継を行う中継部を各々が備えている該複数のストレージ装置の制御を行うストレージ制御装置に、
    前記複数のストレージ装置の各々に収容されている前記記憶装置アレイに含まれる前記複数の記憶装置のいずれかでの障害を検出し、
    障害を検出した第1の記憶装置を含む第1の記憶装置アレイに含まれている全ての記憶装置のデータを前記第1の記憶装置アレイとの間でカスケード接続がされている第2の記憶装置アレイに含まれている1または複数の記憶装置に移行し、
    前記第1の記憶装置アレイが収容されているストレージ装置が備えている中継部による前記中継は継続し、前記第1の記憶装置アレイに含まれている全ての記憶装置の接続を切断する
    処理を実行させることを特徴とするストレージ制御プログラム。
  7. 前記第1の記憶装置アレイに含まれている全ての記憶装置の接続の切断後、ストレージ制御装置に、前記第1の記憶装置アレイに含まれている全ての記憶装置へのアクセスを前記第2の記憶装置アレイに含まれている記憶装置へのアクセスに変更する処理を実行させる
    ことを特徴とする請求項6に記載のストレージ制御プログラム。
  8. 複数の記憶装置を含む記憶装置アレイをそれぞれ収容する複数のストレージ装置であって該複数のストレージ装置の各々に収容されている記憶装置アレイをホスト装置からカスケード接続して該カスケード接続における上流側の該ホスト装置と下流側の記憶装置アレイとの間で授受されるデータの中継を行う中継部を各々が備えている該複数のストレージ装置の制御を行うストレージ制御装置により実行されるストレージ制御方法であって、
    前記ストレージ制御装置は、
    前記複数のストレージ装置の各々に収容されている前記記憶装置アレイに含まれる前記複数の記憶装置のいずれかでの障害を検出し、
    障害を検出した第1の記憶装置を含む第1の記憶装置アレイに含まれている全ての記憶装置のデータを前記第1の記憶装置アレイとの間で前記カスケード接続がされている第2の記憶装置アレイに含まれている1または複数の記憶装置に移行し、
    前記第1の記憶装置アレイが収容されているストレージ装置が備えている中継部による前記中継は継続し、前記第1の記憶装置アレイに含まれている全ての記憶装置の接続を切断する
    ことを特徴とするストレージ制御方法。
  9. 前記第1の記憶装置アレイに含まれている全ての記憶装置の接続の切断後、ストレージ制御装置は、前記第1の記憶装置アレイに含まれている全ての記憶装置へのアクセスを前記第2の記憶装置アレイに含まれている記憶装置へのアクセスに変更する
    ことを特徴とする請求項8に記載のストレージ制御方法。
JP2013212336A 2013-10-09 2013-10-09 ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法 Expired - Fee Related JP6213130B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013212336A JP6213130B2 (ja) 2013-10-09 2013-10-09 ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法
US14/458,558 US9542273B2 (en) 2013-10-09 2014-08-13 Storage control apparatus, storage control system, and storage control method for failure detection and configuration of cascaded storage cabinets

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013212336A JP6213130B2 (ja) 2013-10-09 2013-10-09 ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法

Publications (2)

Publication Number Publication Date
JP2015075965A JP2015075965A (ja) 2015-04-20
JP6213130B2 true JP6213130B2 (ja) 2017-10-18

Family

ID=52777948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013212336A Expired - Fee Related JP6213130B2 (ja) 2013-10-09 2013-10-09 ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法

Country Status (2)

Country Link
US (1) US9542273B2 (ja)
JP (1) JP6213130B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360119B2 (en) * 2015-10-06 2019-07-23 Netapp, Inc. Data recovery in a distributed storage system
KR102631351B1 (ko) * 2016-10-07 2024-01-31 삼성전자주식회사 피어-투 피어 통신을 수행할 수 있는 저장 장치와 이를 포함하는 데이터 저장 시스템
US10255134B2 (en) 2017-01-20 2019-04-09 Samsung Electronics Co., Ltd. Control plane method and apparatus for providing erasure code protection across multiple storage devices
JP2024172391A (ja) * 2023-05-31 2024-12-12 株式会社日立製作所 ストレージコントローラ及びストレージコントローラの制御方法

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4754397A (en) * 1985-02-15 1988-06-28 Tandem Computers Incorporated Fault tolerant modular subsystems for computers
JPH07325674A (ja) 1994-06-01 1995-12-12 Hitachi Ltd 半導体メモリの交換方法および半導体ディスクサブシステムの制御方法
US5608865A (en) * 1995-03-14 1997-03-04 Network Integrity, Inc. Stand-in Computer file server providing fast recovery from computer file server failures
US5768551A (en) * 1995-09-29 1998-06-16 Emc Corporation Inter connected loop channel for reducing electrical signal jitter
US6154853A (en) * 1997-03-26 2000-11-28 Emc Corporation Method and apparatus for dynamic sparing in a RAID storage system
JPH11184643A (ja) 1997-12-22 1999-07-09 Nec Corp ディスクアレイ装置の管理方法及びプログラムを記録した機械読み取り可能な記録媒体
US6223252B1 (en) * 1998-05-04 2001-04-24 International Business Machines Corporation Hot spare light weight mirror for raid system
US6182198B1 (en) * 1998-06-05 2001-01-30 International Business Machines Corporation Method and apparatus for providing a disc drive snapshot backup while allowing normal drive read, write, and buffering operations
US6530035B1 (en) * 1998-10-23 2003-03-04 Oracle Corporation Method and system for managing storage systems containing redundancy data
US6862609B2 (en) * 2001-03-07 2005-03-01 Canopy Group, Inc. Redundant storage for multiple processors in a ring network
US6874100B2 (en) * 2001-07-12 2005-03-29 Digi-Data Corporation Raid system with multiple controllers and proof against any single point of failure
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
GB2379046B (en) * 2001-08-24 2003-07-30 3Com Corp Storage disk failover and replacement system
US7111117B2 (en) * 2001-12-19 2006-09-19 Broadcom Corporation Expansion of RAID subsystems using spare space with immediate access to new space
US7039828B1 (en) * 2002-02-28 2006-05-02 Network Appliance, Inc. System and method for clustered failover without network support
US7024586B2 (en) * 2002-06-24 2006-04-04 Network Appliance, Inc. Using file system information in raid data reconstruction and migration
US7035972B2 (en) * 2002-09-03 2006-04-25 Copan Systems, Inc. Method and apparatus for power-efficient high-capacity scalable storage system
US7210004B2 (en) * 2003-06-26 2007-04-24 Copan Systems Method and system for background processing of data in a storage system
US7254741B1 (en) * 2002-09-27 2007-08-07 Emc Corporation Attaining high availability through a power system branch architecture
JP2004199551A (ja) * 2002-12-20 2004-07-15 Fujitsu Ltd ストレージシステム及び障害ストレージ装置の切り離し方法
US7447939B1 (en) * 2003-02-28 2008-11-04 Sun Microsystems, Inc. Systems and methods for performing quiescence in a storage virtualization environment
JP2004272527A (ja) * 2003-03-07 2004-09-30 Hitachi Ltd ディスクアレイ装置および障害回復制御方法
JP4322068B2 (ja) * 2003-03-07 2009-08-26 富士通株式会社 ストレージシステム及びそのデイスク負荷バランス制御方法
US7334064B2 (en) * 2003-04-23 2008-02-19 Dot Hill Systems Corporation Application server blade for embedded storage appliance
JP4426262B2 (ja) * 2003-11-26 2010-03-03 株式会社日立製作所 ディスクアレイ装置及びディスクアレイ装置の障害回避方法
JP4634049B2 (ja) * 2004-02-04 2011-02-16 株式会社日立製作所 ディスクアレイ装置における異常通知制御
JP4426939B2 (ja) * 2004-03-11 2010-03-03 株式会社日立製作所 ストレージ装置
US7249277B2 (en) * 2004-03-11 2007-07-24 Hitachi, Ltd. Disk array including plural exchangeable magnetic disk unit
US7421537B2 (en) * 2004-03-22 2008-09-02 Intel Corporation Migrating data between storage volumes
US20050228943A1 (en) * 2004-04-02 2005-10-13 Decenzo David P Multipath redundant storage system architecture and method
US7313721B2 (en) * 2004-06-21 2007-12-25 Dot Hill Systems Corporation Apparatus and method for performing a preemptive reconstruct of a fault-tolerant RAID array
US7533292B2 (en) * 2004-07-15 2009-05-12 International Business Machines Corporation Management method for spare disk drives in a raid system
JP2006113648A (ja) * 2004-10-12 2006-04-27 Hitachi Ltd ディスクアレイ装置
US8194534B2 (en) * 2005-02-28 2012-06-05 International Business Machines Corporation Blade server system with at least one rack-switch having multiple switches interconnected and configured for management and operation as a single virtual switch
JP4758666B2 (ja) * 2005-03-17 2011-08-31 株式会社日立製作所 記憶制御システム及び記憶制御方法
JP2007087039A (ja) 2005-09-21 2007-04-05 Hitachi Ltd ディスクアレイシステム及びその制御方法
JP4472617B2 (ja) * 2005-10-28 2010-06-02 富士通株式会社 Raidシステム、raidコントローラ及びそのリビルド/コピーバック処理方法
TWI287190B (en) * 2005-10-31 2007-09-21 Inventec Corp Stable storage method
US7418623B2 (en) * 2005-11-16 2008-08-26 International Business Machines Corporation Apparatus and method to reconfigure a storage array
US7496785B2 (en) * 2006-03-21 2009-02-24 International Business Machines Corporation Enclosure-based raid parity assist
US7516352B2 (en) * 2006-03-21 2009-04-07 International Business Machines Corporation Isolating a drive from disk array for diagnostic operations
US7565575B2 (en) * 2006-05-30 2009-07-21 Oracle International Corporation Selecting optimal repair strategy for mirrored files
JP4869123B2 (ja) * 2007-03-28 2012-02-08 株式会社日立製作所 ストレージシステム
US7941628B2 (en) * 2007-09-04 2011-05-10 International Business Machines Corporation Allocation of heterogeneous storage devices to spares and storage arrays
JP2009104343A (ja) * 2007-10-22 2009-05-14 Hitachi Computer Peripherals Co Ltd ディスク制御装置及びディスク制御装置の障害復旧方法
US8473779B2 (en) * 2008-02-29 2013-06-25 Assurance Software And Hardware Solutions, Llc Systems and methods for error correction and detection, isolation, and recovery of faults in a fail-in-place storage array
US8135906B2 (en) * 2008-05-15 2012-03-13 Lsi Corporation Online storage capacity expansion of a raid storage system
JP5531639B2 (ja) * 2010-01-19 2014-06-25 富士通株式会社 ストレージ装置および同装置の増設方法
US8381027B1 (en) * 2010-09-28 2013-02-19 Emc Corporation Determining alternate paths in faulted systems
US8417989B2 (en) * 2010-10-15 2013-04-09 Lsi Corporation Method and system for extra redundancy in a raid system
US9590838B2 (en) * 2010-11-09 2017-03-07 International Business Machines Corporation Transferring data of a dispersed storage network
US8719619B2 (en) * 2011-09-20 2014-05-06 International Business Machines Corporation Performance enhancement technique for raids under rebuild
US8935498B1 (en) * 2011-09-29 2015-01-13 Emc Corporation Splitter based hot migration
WO2013117002A1 (zh) * 2012-02-09 2013-08-15 华为技术有限公司 一种数据重建方法、装置和系统
JP5884606B2 (ja) * 2012-03-30 2016-03-15 富士通株式会社 ストレージ管理方法、システム、およびプログラム
US8930749B2 (en) * 2012-04-02 2015-01-06 International Business Machines Corporation Systems and methods for preventing data loss
US9116860B2 (en) * 2012-12-14 2015-08-25 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Cascading failover of blade servers in a data center
CN103970481B (zh) * 2013-01-29 2017-03-01 国际商业机器公司 重建存储器阵列的方法和装置
US9141495B2 (en) * 2013-03-12 2015-09-22 Dell Products, Lp Automatic failure recovery using snapshots and replicas
US9411523B2 (en) * 2013-07-03 2016-08-09 Globalfoundries Inc. Redundant array of independent disks (RAID) system backup management
US9772907B2 (en) * 2013-09-13 2017-09-26 Vmware, Inc. Incremental backups using retired snapshots
US9405628B2 (en) * 2013-09-23 2016-08-02 International Business Machines Corporation Data migration using multi-storage volume swap

Also Published As

Publication number Publication date
US20150100821A1 (en) 2015-04-09
US9542273B2 (en) 2017-01-10
JP2015075965A (ja) 2015-04-20

Similar Documents

Publication Publication Date Title
US9037786B2 (en) Storage system employing MRAM and array of solid state disks with integrated switch
US9411764B2 (en) Optimized redundant high availability SAS topology
JP5511960B2 (ja) 情報処理装置、及びデータの転送方法
US11573737B2 (en) Method and apparatus for performing disk management of all flash array server
WO2012112308A1 (en) Power failure management in components of storage area network
US11194678B2 (en) Method and apparatus for performing node information exchange management of all flash array server
JP2008108145A (ja) 計算機システム及びこれを用いたデータの管理方法
CN101923444A (zh) N路直接连接的任一控制器到任一控制器架构
US8886993B2 (en) Storage device replacement method, and storage sub-system adopting storage device replacement method
JP2007086972A (ja) ストレージシステム、二重化制御方法、及びプログラム
KR20110079710A (ko) 스토리지 에어리어 네트워크를 사용하여 컴퓨터 시스템을 복구하는 방법 및 시스템
JP6213130B2 (ja) ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法
JP2010049637A (ja) 計算機システム、ストレージシステム及び構成管理方法
US11409471B2 (en) Method and apparatus for performing data access management of all flash array server
JP2006227964A (ja) ストレージシステム、処理方法及びプログラム
JP2005055995A (ja) ストレージ制御方法、および、冗長化機能を有するサーバシステム
US8572336B2 (en) Storage control apparatus and storage control apparatus memory control method
JP2024007965A (ja) ストレージ装置、ストレージシステム、障害復旧方法、及びプログラム
US11074144B2 (en) Active firmware replacement in storage system and in storage controller, and computer-readable recording medium having stored therein program for active firmware replacement in controlling storage
US11366618B2 (en) All flash array server and control method thereof
US11809293B2 (en) Storage node failure detection based on register values for an all flash array server
RU233151U1 (ru) Устройство хранения данных
JP2006260141A (ja) 記憶システムの制御方法、記憶システム、記憶制御装置、記憶システムの制御プログラム、情報処理システム
US20250238335A1 (en) Storage system and failure handling method in storage system
US10977107B2 (en) Apparatus and method to control a storage device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6213130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees