JP6187150B2 - ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム - Google Patents

ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム Download PDF

Info

Publication number
JP6187150B2
JP6187150B2 JP2013222061A JP2013222061A JP6187150B2 JP 6187150 B2 JP6187150 B2 JP 6187150B2 JP 2013222061 A JP2013222061 A JP 2013222061A JP 2013222061 A JP2013222061 A JP 2013222061A JP 6187150 B2 JP6187150 B2 JP 6187150B2
Authority
JP
Japan
Prior art keywords
unit
control unit
control
path
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013222061A
Other languages
English (en)
Other versions
JP2015084144A (ja
Inventor
貴志 堀
貴志 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013222061A priority Critical patent/JP6187150B2/ja
Priority to US14/501,173 priority patent/US9507677B2/en
Publication of JP2015084144A publication Critical patent/JP2015084144A/ja
Application granted granted Critical
Publication of JP6187150B2 publication Critical patent/JP6187150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、ストレージ制御装置、ストレージ装置、及びストレージ制御プログラムに関する。
ストレージ装置は、例えばディスクアレイ装置によって構成される。ディスクアレイ装置では、複数のディスク(HDD (Hard Disk Drive)等)を組み合わせ仮想的な1台のディスク(RAID (Redundant Arrays of Inexpensive Drives)グループ)として管理するRAID技術が採用されている。RAID技術の採用により、ディスクに記憶したデータの消失等が防止される。また、RAID技術では、RAIDのレベル(RAID1〜6等)に応じ、各ディスクへのデータ配置と冗長性とが異なる。
RAID装置とは、RAID技術を利用したディスクアレイ装置のことをいう。RAID装置においては、データ保証の観点から、RAID装置を制御する制御部が冗長化されて、一対の制御部が搭載されている。なお、当該制御部は、Controller Module(以下CM)と呼ばれる。各CMは、ホスト装置からの入出力要求(I/O要求,コマンド)に従って、上述した複数のディスクを含むストレージユニットを制御する。
一対のCMは、通信路(データ伝送路)を通して相互に通信可能に接続されている。当該通信路としては、例えばPCIe(Peripheral Components Interconnect express)が用いられる。各CMには、前記通信路に接続され当該通信路による通信を制御するPCIeスイッチ(PCIeSW)が備えられる。ここでは、前記通信路と当該通信路の両端に接続されたPCIeSWとを含む、CM間を結ぶ経路をCM間経路と呼ぶ。なお、以下では、一対のCMをCM#0,CM#1と表記する場合がある。
一対のCMのうちの一方でPCIeSWで異常が発生した場合、もう一方の正常なCMは、異常の発生したPCIeSWを含む被疑CM(異常CM)を縮退させて切り離し、正常なCMのみによってRAID装置の運用が継続して実行される。
しかし、CM間経路上で異常が発生した場合、PCIeの特性上、当該異常が一対のCMのどちらで発生したかを正確に特定することは困難である。ただし、当該異常が一対のCMのうちどちらで発生した可能性が高いかを判断することはできるので、異常の発生した可能性の高い方のCMを被疑CMとして特定している。
このため、正常なCMを誤って被疑CMとして特定する可能性がある。ここで、実際にはCM#0のPCIeSWで異常が発生したにもかかわらず、正常なCM#1を被疑CMとして誤って特定した場合の動作について、図14の符号A1〜A8を参照しながら説明する。なお、図14は当該動作を説明するシーケンス図である。CM#0側で発生したCM間経路異常(符号A1参照)が、CM#1を被疑CMとして検出されると(符号A2参照)、正常なCM#1が縮退されてRAID装置から切り離され(符号A3参照)、切り離されたCM#1の保守が行なわれる(符号A4参照)。
一方、生き残ったCM#0は、PCIeSWに異常を残したままでRAID装置の運用を継続することになる。このとき、生き残ったCM#0のPCIeSWに異常が残っていても、生き残ったCM#0は、CM間経路を用いたCM間通信を行なわないため、RAID装置の運用に影響を与えることなく、一台だけで運用を継続することができる。
しかしながら、誤って特定された被疑CM#1の保守が行なわれ、保守後のCM#1がRAID装置に組み込まれ、CM間経路を用いたCM間通信が再開されると、CM#0に残っているPCIeSW異常のために再び通信異常が発生してしまう(符号A5参照)。したがって、再度、保守後のCM#1を誤って被疑CMとして特定し、保守後のCM#1が縮退されて切り離されてしまう(符号A6参照)。このように保守に失敗した場合、RAID装置の電源を落として、CM#0の保守交換を行なってから(符号A7参照)、RAID装置の電源を再投入することになる(符号A8参照)。
特開2008−59558号公報 特開2001−43026号公報
上述のように、正常なCMを誤って被疑CMとして特定した場合、RAID装置の電源を落としてCMの保守交換を行なう必要があるため、RAID装置(システム)の運用を停止しなければならないという課題がある。
一つの側面で、本発明は、異常の発生した被疑制御部を誤って特定した場合でも、運用を継続したまま被疑制御部の保守を行なえるようにすることを目的とする。
なお、前記目的に限らず、後述する発明を実施するための最良の形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の一つとして位置付けることができる。
本件のストレージ制御装置は、ホスト装置からの入出力要求に従ってストレージユニットを制御する第1制御部および第2制御部と、前記第1制御部と前記第2制御部の相互間を通信可能に接続する通信路と、を備える。前記第1制御部は、インタフェース部、第1検出部およびリセット制御部を有する。前記インタフェース部は、前記通信路に接続され、前記通信路による通信を制御する。前記第1検出部は、前記第1制御部の前記インタフェース部、前記第2制御部のインタフェース部および前記通信路を含む制御部間経路上での異常を検出する。前記リセット制御部は、前記第1検出部によって前記第2制御部側での異常を検出した場合、前記第2制御部を縮退させるとともに前記第1制御部の前記インタフェース部のリセットを行なう。
一実施形態によれば、異常の発生した被疑制御部を誤って特定した場合でも、運用を継続したまま被疑制御部の保守を行なうことができる。
第1実施形態としてのストレージ制御装置を含むストレージ装置(RAID装置)のハードウェア構成および機能構成を示すブロック図である。 図1に示すストレージ制御装置の動作を説明するフローチャートである。 図1に示すストレージ制御装置の動作(PCIeSWのリセットによる保守成功例)を説明するシーケンス図である。 第2実施形態としてのストレージ制御装置を含むストレージ装置(RAID装置)のハードウェア構成および機能構成を示すブロック図である。 図4に示すストレージ制御装置の動作を説明するフローチャートである。 ストレージ制御装置においてリセットに伴うリンク異常が発生した場合の動作(保守失敗例)を説明するシーケンス図である。 図4に示すストレージ制御装置の最大通信量取得動作、および、図4に示すストレージ制御装置においてリセットに伴うリンク異常が発生した場合の動作(保守成功例)を説明するシーケンス図である。 第3実施形態としてのストレージ制御装置を含むストレージ装置(RAID装置)のハードウェア構成および機能構成を示すブロック図である。 図8に示すストレージ制御装置の動作を説明するフローチャートである。 ストレージ制御装置においてリセットに伴うリンク異常が性能ネックとなって保守を行なえない場合の動作を説明するシーケンス図である。 図8に示すストレージ制御装置においてリセットに伴うリンク異常が性能ネックとなる場合の動作(保守成功例)を説明するシーケンス図である。 第3実施形態としてのストレージ制御装置の変形例を含むストレージ装置(RAID装置)のハードウェア構成および機能構成を示すブロック図である。 図12に示すストレージ制御装置の動作を説明するフローチャートである。 ストレージ制御装置において正常なCMを被疑CMとして誤って特定した場合の動作を説明するシーケンス図である
以下に、図面を参照し、本願の開示するストレージ制御装置、ストレージ装置、及びストレージ制御プログラムの実施形態について、詳細に説明する。ただし、以下に示す実施形態は、あくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能を含むことができる。そして、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔1〕第1実施形態の説明
まず、図1〜図3を参照しながら、第1実施形態について説明する。
〔1−1〕第1実施形態の構成
図1は、第1実施形態としてのストレージ制御装置10を含むストレージ装置(RAID装置)1のハードウェア構成および機能構成を示すブロック図である。
図1に示すストレージ装置1は、ストレージユニット20に格納された一以上の記憶装置(物理ディスク;図示略)を仮想化して、仮想ストレージ環境を形成する。そして、ストレージ装置1は、仮想ボリュームを、上位装置であるホスト装置2に提供する。
ストレージ装置1は、1以上(図1に示す例では1台)のホスト装置2に対して通信可能に接続されている。図1に示す例では、ホスト装置2における2つのポートが、それぞれストレージ装置1における一対のCA(Communication Adapter)30A,30Bに接続されている。
ホスト装置2は、例えば、サーバ機能を備えた情報処理装置であり、ストレージ装置1との間において、NAS(Network Attached Storage)やSAN(Storage Area Network)のコマンドを送受信する。ホスト装置2は、例えば、ストレージ装置1に対してNASにおけるリード/ライト等のディスクアクセスコマンドを送信することにより、ストレージ装置1が提供するボリュームにデータの書き込みや読み出しを行なう。
そして、ストレージ装置1は、ホスト装置2からボリュームに対して行なわれる入出力要求(例えば、リードコマンドやライトコマンド)に応じて、このボリュームに対応する実ストレージに対して、データの読み出しや書き込み等の処理を行なう。なお、ホスト装置2からの入出力要求のことをI/O要求もしくはI/OコマンドもしくはホストI/Oという場合がある。
ストレージ装置1は、図1に示すように、ストレージ制御装置10と、ストレージユニット20と、一対のCA30A,30Bとを備える。
CA30A,30Bは、ホスト装置2と通信可能に接続するネットワークアダプタで、例えば、LAN(Local Area Network)インタフェース,iSCSI(internet Small Computer System Interface)インタフェース,FC(Fibre Channel)インタフェースである。CA30A,30Bは、ホスト装置2から送信されたデータを受信したり、後述するCM11A,11Bから出力されるデータをホスト装置2に送信する。すなわち、CA30A,30Bは、ホスト装置2との間でのデータの入出力(I/O)を制御する。
ストレージユニット20は、1以上の記憶装置(物理ディスク)を搭載可能であり、当該1以上の記憶装置の記憶領域(実ボリューム,実ストレージ)を、ストレージ装置1に対して提供する。例えば、ストレージユニット20は、複数段のスロット(図示略)を備え、これらのスロットに、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の記憶装置を挿入することにより、実ボリューム容量を随時変更することができる。また、複数の記憶装置を用いてRAIDを構成することができる。
ストレージ制御装置10は、ホスト装置2からのI/O要求に従ってストレージユニット20を制御する、冗長化された一対のCM(制御部)11A,11Bと、これらのCM11A,11Bの相互間を通信可能に接続する通信路(データ伝送路)40と、を備える。つまり、一対のCM11A,11Bは、通信路40を通して相互に通信可能に接続されている。当該通信路40としては、例えばPCIeが用いられる。
一対のCM11A,11Bは、それぞれCA30A,30Bを介してホスト装置2と通信可能に接続され、I/O要求の受信やデータの送受信等を行なう。また、一対のCM11A,11Bには、1台のストレージユニット20が接続されており、ストレージユニット20には、CM11A,11Bのいずれからもアクセスして、データの書き込みや読み出しを行なうことができる。すなわち、ストレージユニット20に対して、CM11A,11Bのそれぞれを接続することにより、ストレージユニット20へのアクセス経路が冗長化されている。
また、ホスト装置2からCA30A経由でCM11Aへ発行されたI/O要求によるアクセス対象の論理ユニットがCM11Aによる管理対象である場合、当該I/O要求に応じたストレージユニット20に対する処理はCM11Aで実行される。一方、当該アクセス対象の論理ユニットがCM11Aによる管理対象でない場合、当該I/O要求は、通信路40を用いたCM間通信によってCM11AからCM11Bへ転送され、当該I/O要求に応じたストレージユニット20に対する処理がCM11Bで実行される。
同様に、ホスト装置2からCA30B経由でCM11Bへ発行されたI/O要求のアクセス対象の論理ユニットがCM11Bによる管理対象である場合、当該I/O要求に応じたストレージユニット20に対する処理はCM11Bで実行される。一方、当該アクセス対象の論理ユニットがCM11による管理対象でない場合、当該I/O要求は、通信路40を用いたCM間通信によってCM11BからCM11Aへ転送され、当該I/O要求に応じたストレージユニット20に対する処理がCM11Aで実行される。
なお、アクセス対象の論理ユニットがCM11Aまたは11Bによる管理対象であるか否かは、CM11Aまたは11Bに保存された論理ユニット情報に基づき判断される。論理ユニット情報は、CM11Aまたは11Bの管理対象の論理ユニットを特定する情報、例えばLUN(Logical Unit Number)で、CM11Aまたは11Bにおけるメモリ13(後述)に予め登録保存される。このようにメモリ13に保存されたLUNは、ホスト装置2によって発行されるI/O要求を受信するための情報として用いられる。つまり、CM11Aまたは11Bは、メモリ13に保存されたLUN宛のI/O要求をホスト装置2から受信して処理する。
CM11A,11Bは、ストレージ装置1を制御するコントローラで、ホスト装置2からCA30A,30B経由で受信したI/O要求(リード/ライト等のコマンド)に従って、ストレージユニット20のアクセス制御等、各種制御を行なう。CM11A,11Bは、互いにほぼ同様の構成を有している。以下、CMを示す符号としては、複数のCMのうち1つを特定する必要があるときには符号11A,11Bを用いるが、任意のCMを指すときには符号11を用いる。また、CM11AをCM#0と、CM11BをCM#1とそれぞれ表す場合がある。
CM11は、図1に示すように、CPU(Central Processing Unit)12,メモリ13,PCIeSW14,16およびディスク用インタフェース部15を有している。
メモリ13は、種々のデータやプログラムを一時的に格納する記憶装置で、図示しないメモリ領域とキャッシュ領域とを備える。キャッシュ領域は、ホスト装置2から受信したデータや、ホスト装置に対して送信するデータを一時的に格納する。メモリ領域は、CPU12がプログラムを実行する際にデータやプログラムを一時的に格納・展開するために用いられる。前述したLUNは、メモリ領域に保存される。
PCIeSW14は、PCIeの通信路40に接続され、通信路40による通信を制御するインタフェース部であり、CPU12と通信路40との間をつなぐブリッジとして機能する。通信路(PCIeSW間通信路)40は、CM11AのPCIeSW14とCM11BのPCIeSW14との間を通信可能に接続する。また、PCIeSW14とCPU12との間は、PCIeの通信路(CPU−PCIeSW間通信路)17によって通信可能に接続される。そして、本実施形態において、CM11AのCPU12とCM11BのCPU12とを結ぶ経路を、CM間経路(制御部間経路;CPU間経路)P1と呼ぶ。つまり、本実施形態のCM間経路P1は、CM11A側の通信路17およびPCIeSW14と、通信路40と、CM11B側の通信路17およびPCIeSW14とを含んでいる。
ディスク用インタフェース部(SASインタフェース部)15は、ストレージユニット20における記憶装置等と通信可能に接続する、例えばSAS(Serial Attached SCSI (Small Computer System Interface))インタフェースである。また、SASインタフェース部15は、SASの通信路50に接続され、通信路50による通信を制御するインタフェース部としても機能する。通信路(SASインタフェース部間通信路)50は、CM11AのSASインタフェース部15とCM11BのSASインタフェース部15との間を通信可能に接続する。
PCIeSW16は、CA30Aまたは30Bと、CPU12と、SASインタフェース部15との間をつなぐブリッジとして機能する。つまり、PCIeSW16を介して、CPU12とホスト装置2とストレージユニット20とが通信可能に接続される。つまり、CPU12による制御の下、PCIeSW16およびSASインタフェース部15を介してホスト装置2からのI/O要求に応じたデータの書き込みや読み出しが行なわれる。これにより、ストレージユニット20には、CM11A,11Bのいずれからもデータの書き込みや読み出しを行なうことができる。
CPU(処理部)12は、種々の制御や演算を行なう処理装置であり、マルチコアプロセッサ(マルチCPU)である。CPU12は、メモリ13等に格納されたOS(Operating System)やプログラムを実行することにより、種々の機能を実現する。
特に、第1実施形態のCPU12は、所定のストレージ制御プログラムを実行することで、後述する第1検出部12aおよびリセット制御部12bとして機能する。なお、図1において、第1検出部12aおよびリセット制御部12bは、CM11AのCPU12にのみ図示されているが、CM11BのCPU12にも備えられている。
第1検出部12aは、上述したCM間経路P1上での異常を検出する。前述した通り、PCIeを採用したCM間経路P1上で異常が発生した場合、PCIeの特性上、当該異常が一対のCM11A,11Bのどちらで発生したかを正確に特定することは難しい。しかし、当該異常が一対のCM11A,11Bのうちどちらで発生した可能性が高いかを判断することは可能である。したがって、第1検出部12aは、CM間経路P1上の異常を検出した場合、CM11A,11Bのうち、異常の発生した可能性の高い方のCMを被疑CM(異常CM)として特定・検出する。
リセット制御部12bは、第1検出部12aによって他CM(他制御部)側での異常を検出した場合、他CMを縮退させるとともに自CMのPCIeSW(インタフェース部)14のリセットを行なう。つまり、CM11Aのリセット制御部12bは、自CM11Aの第1検出部12aによって他CM11B側での異常を検出した場合、CM11AのCPU12からCM11BのCPU12へ、縮退を指示する信号を送信する。また、CM11Aのリセット制御部12bは、通信路17を通して、自CM11AのPCIeSW14にリセット信号を送信し、自CM11AのPCIeSW14のリセットを行なう。なお、CM11AからCM11Bへの縮退指示信号の送信は、例えば、CM11AとCM11Bとを通信可能に接続するシリアル通信路であるI2C(Inter-Integrated Circuit)信号線60を通して行なわれる。
以下では、CM11A(CM#0)がマスタ(主体)である場合の動作について説明するが、CM11B(CM#1)がマスタである場合も、CM11Aがマスタである場合と同様に動作することはいうまでもない。このため、CM11Bがマスタである場合の動作についての詳細な説明は省略する。また、以下では、PCIeSW14に対するリセットのことをPCIeSWリセットと呼ぶ場合がある。
〔1−2〕第1実施形態の動作
次に、図2に示すフローチャート(ステップS1〜S3)に従って、図1に示すストレージ制御装置10の動作について説明する。
CM11A(CM#0)の第1検出部12aは、ストレージ装置1の動作中、CM間経路P1上での異常の発生を監視する(ステップS1)。第1検出部12aは、CM間経路P1上の異常を検出し且つ他CM11B(CM#1)を異常の発生した可能性の高い被疑CM(異常CM)として特定した場合(ステップS1のYESルート)、リセット制御部12bが以下のように動作する。
つまり、CM#0のリセット制御部12bによって、CM#0(CPU12)からCM#1(CPU12)に対しI2C信号線60を介して縮退指示信号が送信される(ステップS2)。また、CM#0のリセット制御部12bによって、CPU12からCM#0のPCIeSW14に対し通信路17を介してリセット信号が送信される(ステップS3)。なお、ステップS2の処理およびステップS3の処理は、上述した順序とは逆の順序で実行されてもよいし、同時に実行されてもよい。
ここで、実際にはCM#0のPCIeSW14で異常が発生したにもかかわらず、正常なCM#1を被疑CM(異常CM)として誤って特定した場合の保守動作について、図2のステップS1〜S3と図3の符号A11〜A16とを参照しながら説明する。なお、図3は、図1に示すストレージ制御装置10の動作(PCIeSWリセットによる保守成功例)を説明するシーケンス図である。このとき、CM#0のPCIeSW14で発生した異常は、リセットによって解消可能な異常(例えば間欠故障,ソフトエラー)であるとする。
CM#0側で発生したCM間経路P1の異常(符号A11参照)が、CM#1を被疑CMとして検出されると(符号A12;ステップS1のYESルート参照)、CM#0からCM#1へ縮退指示信号が送信される(ステップS2参照)。CM#1で縮退指示信号を受信すると、CM#1は、縮退(停止)され、ストレージ装置1から切り離された後(符号A13参照)、被疑CM#1の保守が行なわれ、保守後のCM#1がストレージ装置1に組み込まれる(符号A14参照)。
一方、生き残ったCM#0において、異常を残したままのPCIeSW14は、自CM#0のCPU12からのリセット信号によってリセットされる(符号A15;ステップS3参照)。PCIeSW14で発生する異常の9割がたは、リセットによって解消可能な異常(間欠故障,ソフトエラー等)である。したがって、上述のようにPCIeSWリセットを行なうことで、PCIeSW14に残っている異常の9割がたは解消されることになる。
CM#1の縮退・保守およびCM#0のPCIeSWリセットを行なっている間、CM#0は、CM間通信を行なうことなく、単独でストレージ装置1の運用を継続する。そして、保守後のCM#1がストレージ制御装置10に組み込まれてCM間通信が再開され保守に成功すると(符号A16参照)、ストレージ制御装置10は、CM#0およびCM#1による通常運用に復帰する。
なお、CM#0のPCIeSWリセットおよびCM#1の保守を行なったにもかかわらずCM間通信を再開できず保守に失敗した場合、CM#0のPCIeSW14の異常が、リセットによって解消されずに残っているものと考えられる。したがって、この場合、ストレージ装置1の電源を落として、CM#0の保守交換を行なってから、ストレージ装置1の電源を再投入することになる。
〔1−3〕第1実施形態の効果
第1実施形態のストレージ制御装置10およびストレージ装置1によれば、一対のCM#0,#1のうちCM#1での異常が検出された場合、CM#1の縮退・保守が行なわれるとともに、CM#0のPCIeSWリセットが行なわれる。CM#0のPCIeSW14に間欠故障,ソフトエラー等の異常が残っている場合、PCIeSWリセットを行なうことで、その異常は解消される。
これにより、異常の発生した被疑CMを誤って特定した場合でも、ストレージ装置1の運用を継続したまま被疑CMの保守を行なうことができる。特に、PCIeSWリセットによってPCIeSW14の異常の多くが解消される。したがって、CM間経路P1上での異常の発生箇所の特定を誤ってストレージ装置1の運用停止を招く可能性を大幅に低くすることができる。
〔2〕第2実施形態の説明
次に、図4〜図7を参照しながら、第2実施形態について説明する。
〔2−1〕第2実施形態の構成
図4は、第2実施形態としてのストレージ制御装置10′を含むストレージ装置(RAID装置)1′のハードウェア構成および機能構成を示すブロック図である。なお、図4中、同一の符号は同一もしくは略同一の部分を示しているので、その詳細な説明は省略する。
図4に示すストレージ装置1′も、図1に示す第1実施形態のストレージ装置1とほぼ同様に構成されている。ただし、図1に示すストレージ装置1と図4に示すストレージ装置1′との相違点は、ストレージ制御装置10に代えてストレージ制御装置10′が備えられている点である。また、図1に示すストレージ制御装置10と図4に示すストレージ制御装置10′との相違点は、各CM11において、CPU12に代えてCPU12′が備えられている点である。
CPU(処理部)12′は、第1実施形態のCPU12と同様、種々の制御や演算を行なう処理装置であり、マルチコアプロセッサ(マルチCPU)である。CPU12′は、メモリ13等に格納されたOSやプログラムを実行することにより、種々の機能を実現する。
特に、第2実施形態のCPU12′は、所定のストレージ制御プログラムを実行することで、第1実施形態と同様の第1検出部12a,リセット制御部12bとして機能するのに加え、後述する第2検出部12c,判定部12d,取得部12e,算出部12fとして機能する。なお、図4において、符号12a〜12fで示す機能は、CM11AのCPU12′にのみ図示されているが、CM11BのCPU12′にも備えられている。
第2検出部12cは、上述したPCIeSWリセットに伴って発生する、CM間経路P1上における自CM11A側でのリンク異常を検出する。リンク異常は、第1実施形態で説明したようにCPU12′からPCIeSW14に対しリセット信号を出力してPCIeSWリセットを行なうことで、CPU12′とPCIeSW14との間の通信路17上で生じる。リンク異常の詳細については図6を参照しながら後述する。
取得部12eは、CM間経路P1における通常動作時の単位時間(例えば1秒)当たり通信量を取得する。取得部12eは、自CM11A(11B)の動作開始後の、CM間経路P1における単位時間当たりの通信量の最大値(最大通信量Cmax)を、通常動作時の単位時間当たり通信量として取得する。ここで、通信量は、一定時間(例えば1秒)に転送されるデータサイズ(byte)である。取得部12eによる最大通信量Cmaxの取得手順については、図5(ステップS11〜S14)を参照しながら後述する。
算出部12fは、第2検出部12cによってリンク異常を検出した場合、当該リンク異常の状況に基づき、当該リンク異常の発生した状態での、CM間経路P1におけるハードウェア的に転送可能な単位時間(例えば1秒)当たり通信量(理論値)C2を算出する。このとき、当該理論値C2は、リンク異常の生じた通信路17における通信状況、例えば経路幅(伝送レーンの本数)や転送速度に基づき、PCIeの規約に従って算出される。
判定部12dは、第2検出部12cによってリンク異常を検出した場合、当該リンク異常の状況に基づき、CM間経路P1によるCM間通信を用いた保守が可能か否かを判定する。特に、判定部12dは、算出部12fによって算出された、リンク異常発生状態での転送可能通信量C2と、取得部12eによって取得された最大通信量Cmaxとを比較することで、CM間通信を用いた保守の可否判断を行なう。
より具体的には、図5および図7を参照しながら後述するごとく、判定部12dは、転送可能通信量C2が最大通信量Cmaxを超える場合(C2>Cmax)、他CM11Bの保守が可能であると判定する。この場合、各CM11は、CM間経路P1を用いた他CM11Bの保守を行なう。一方、判定部12dは、転送可能通信量C2が最大通信量Cmax以下である場合(C2≦Cmax)、他CM11Bの保守が不可であると判定する。
〔2−2〕第2実施形態の動作
次に、図5に示すフローチャート(ステップS11〜S22)に従って、図4に示すストレージ制御装置10′の動作について説明する。
ストレージ装置1′が運用を開始すると、ストレージ制御装置10′において、単位時間(例えば1秒)が経過したか否かが判断されるとともに(ステップS11)、第1検出部12aによって、CM間経路P1上での異常の発生が監視される(ステップS15)。単位時間が経過していない場合(ステップS11のNOルート)、ステップS15の処理が実行される。
単位時間が経過した場合(ステップS11のYESルート)、各CM11における取得部12eは、最新の単位時間の間にCM間経路P1上を転送されたデータサイズを、通信量C1として算出する(ステップS12)。そして、取得部12eは、算出した最新の通信量C1と、メモリ13の前記メモリ領域に保存されている、以前に算出された最大の通信量Cmaxとを比較する(ステップS13)。
最新通信量C1が最大通信量以下である場合(C1≦Cmax;ステップS13のNOルート)、CPU12′はステップS11の処理に戻る。一方、最新通信量C1が最大通信量よりも大きい場合(C1>Cmax;ステップS13のYESルート)、取得部12eは、メモリ13の前記メモリ領域に保存されている、現在までの最大通信量Cmaxを最新通信量C1に書き換えてから(ステップS14)、ステップS15の処理に移行する。
取得部12eは、ステップS15で第1検出部12aがCM間経路P1上での異常の発生を検出するまで、ステップS11〜S14までの処理を繰り返す(ステップS15のNOルート)。これにより、取得部12eは、ストレージ装置1が運用を開始してから、第1検出部12aがCM間経路P1上での異常の発生を検出するまでの間における、CM間経路P1の最大通信量Cmaxを取得することができる。
一方、CM11A(CM#0)の第1検出部12aは、ストレージ装置1の動作中、CM間経路P1上での異常の発生を監視する(ステップS15)。第1検出部12aは、CM間経路P1上の異常を検出し且つ他CM11B(CM#1)を異常の発生した可能性の高い被疑CM(異常CM)として特定した場合(ステップS15のYESルート)、リセット制御部12bが、第1実施形態と同様、以下のように動作する。
つまり、CM#0のリセット制御部12bによって、CM#0(CPU12′)からCM#1(CPU12′)に対しI2C信号線60を介して縮退指示信号が送信される(ステップS16)。また、CM#0のリセット制御部12bによって、CPU12′からCM#0のPCIeSW14に対し通信路17を介してリセット信号が送信される(ステップS17)。なお、ステップS16の処理およびステップS17の処理は、上述した順序とは逆の順序で実行されてもよいし、同時に実行されてもよい。
この後、CM#0の第2検出部12cは、ステップS17でのPCIeSWリセットに伴う、CM間経路P1上における自CM#0側でのリンク異常の発生を監視する(ステップS18)。CM#0の第2検出部12cがリンク異常を検出した場合(ステップS18のYESルート)、算出部12fによって、当該リンク異常の発生した状態での、CM間経路P1における転送可能通信量(理論値)C2が算出される(ステップS19)。
そして、判定部12dは、算出部12fによって算出された転送可能通信量C2と、取得部12eによって取得された最大通信量Cmaxとを比較することで、CM間通信を用いた保守の可否判断を行なう(ステップS20)。判定部12dは、転送可能通信量C2が最大通信量Cmaxを超える場合(C2>Cmax;ステップS20のYESルート)、他CM#1の保守が可能であると判定する(ステップS21)。なお、CM#0の第2検出部12cがリンク異常を検出しなかった場合(ステップS18のNOルート)も、判定部12dは、他CM#1の保守が可能であると判定する(ステップS21)。このようにCM間通信を用いた保守が可能であると判定された場合、図7を参照しながら後述するごとく、各CM11は、CM間経路P1を用いた各CM11の保守を行なう。
一方、判定部12dは、転送可能通信量C2が最大通信量Cmax以下である場合(C2≦Cmax;ステップS20のNOルート)、他CM#1の保守が不可であると判定する(ステップS22)。この場合、ストレージ装置1の電源を落としてCM#0の保守が実行されるか、あるいは、後述する第3実施形態の手法による保守が実行される。第3実施形態の手法による保守を実行する場合、図5のステップS20のNOルートから図9のステップS23以降の処理へ移行する。
ここで、図6(符号A13〜A15およびA17〜A19)を参照しながら、PCIeSWリセットを行なうことに伴って発生するリンク異常、および、リンク異常によって被疑CMの保守ができなくなる理由について説明する。なお、図6は、ストレージ制御装置においてリセットに伴うリンク異常が発生した場合の動作(保守失敗例)を説明するシーケンス図である。また、図6の符号A13〜A15は、それぞれ図3の符号A13〜A15に対応している。
上述した第1実施形態では、CM#0側でのCM間経路P1の異常が検出されると、CM#1が縮退され(符号A13参照)、被疑CM#1が保守されるとともに(符号A14参照)、CM#0のPCIeSW14がCPU12′からのリセット信号によってリセットされる(符号A15参照)。このとき、PCIeSWリセットによってPCIeSW14の異常をかなりの確率で解消することができる。
しかし、PCIeSWリセットを行なうと、CPU12′とPCIeSW14との間の通信路17が、一旦、切断(リンクダウン)されてから再接続(リンクアップ)されることで、CM間経路P1に含まれる通信路17上でリンク異常が発生する場合がある。リンク異常は、CPU12′とPCIeSW14との間で所望の期待状態(所望の経路幅および転送速度)で安定的に通信を行なっている際に、当該通信の切断/接続を行なったことを契機にして発生する。リンク異常が発生した状態の通信路17は、全く通信を行なえない状態ではないが、経路幅や転送速度が所望の経路幅および転送速度よりも低下した状態(CM間経路P1の性能劣化)になっている。
CPU12′とPCIeSW14との間の通信路17ではPCIeが用いられている。PCIeは、通信路におけるリンク状態が所望の期待状態(所望の経路幅および転送速度)でない場合、つまり、例えば上述のごとく性能劣化した状態である場合、性能劣化した当該通信路による通信は許可しない仕様になっている。これは、リンク異常に伴うCM間経路P1の性能劣化によって、応答遅延やタイムアウトなどが発生する可能性があるからである。
このような仕様のため、PCIeSWリセットを行なうことで(符号A15参照)、CPU12′とPCIeSW14との間の通信路17上でリンク異常が発生すると(符号A17参照)、通信路17による通信が許可されなくなる。したがって、保守後のCM#1がストレージ装置1に組み込まれても(符号A14参照)、CM#0からCM#1へのデータ転送(CM間通信)を行なえず、CM#1のデータリカバリを行なってCM#1を復旧させることができない(符号A18参照)。このため、被疑CM#1の保守を行なうことができず、被疑CM#1の保守に失敗してしまう(符号A19参照)。保守に失敗した場合、被疑CM#1の保守を完了できないままCM#0の保守交換を行なうべく、ストレージ装置の運用を停止しなければならなくなる。
上述したように、PCIeSWリセットに伴いリンク異常が発生すると、PCIeの仕様のため(性能面での懸念があるため)、保守を行なえなくなっている。しかし、CM間経路P1(特に通信路17)がリンク異常の状態であっても、リンクダウン状態でない限り、通信路17を経由する通信を行なうことは可能である。ただし、リンク異常状態の通信路17による通信を行なうと、リンク異常による性能劣化(性能ネック)のために、応答遅延やタイムアウトなどの性能影響が出てしまう虞がある。したがって、性能影響が出ない程度の通信量をCM間経路P1(通信路17)に確保できることが分かれば、CM間経路P1(通信路17)を用いて問題なくデータ転送が可能になるので、保守を行なってもよい(保守可)と判断することができる。
そこで、第2実施形態では、ストレージ装置1′の運用開始後、取得部12eにより、CM間経路P1における通常動作中の最大通信量Cmaxが取得される。リンク異常の発生時には、算出部12fにより、リンク異常の発生した状態での、CM間経路P1におけるハードウェア的に転送可能な通信量C2が、リンク異常の生じた通信路17における経路幅や転送速度等に基づき、PCIeの規約に従って算出される。ストレージ装置1′が運用を開始してからリンク異常が発生するまでに、取得部12eにより取得された最大通信量Cmaxは、今後、CM間経路P1経由で行なわれる通信の最大通信量とみなすことが可能である。
したがって、C2>Cmaxの場合、性能影響が出ない程度の通信量をCM間経路P1に確保できるので、リンク異常が性能ネックとはならず、判定部12dは、被疑CM#1の保守が可能であると判断することができる。一方、C2≦Cmaxの場合、性能影響が出ない程度の通信量をCM間経路P1に確保できずリンク異常が性能ネックとなる可能性が有るため、被疑CM#1の保守が不可であると判断することができる。
ここで、第2実施形態の保守動作について、図5のステップS11〜S22と図7の符号A20〜A33とを参照しながら説明する。特に、ここでは、通常動作中の最大通信量を取得してから、CM間経路P1上の異常検出時に正常なCM#1を被疑CMとして誤って特定し、PCIeSWリセットを行ない、当該リセットに伴うリンク異常が発生した場合の保守動作が説明される。なお、図7は、図4に示すストレージ制御装置10′の最大通信量取得動作、および、図4に示すストレージ制御装置10′においてリセットに伴うリンク異常が発生した場合の動作(保守成功例)を説明するシーケンス図である。
ストレージ装置1′が運用を開始すると、CM#0,#1のそれぞれにおける取得部12eは、CM間経路P1における通常動作時の単位時間当たり通信量C1を取得する。そして、取得部12eは、運用開始後の通信量C1の最大値Cmaxを、通常動作時の単位時間当たり通信量として取得し保存する(符号A20〜A22;ステップS11〜S14参照)。
CM#0側で発生したCM間経路P1の異常(符号A23参照)が、CM#1を被疑CMとして検出されると(符号A24;ステップS15のYESルート参照)、CM#0からCM#1へ縮退指示信号が送信される(ステップS16参照)。CM#1で縮退指示信号を受信すると、CM#1は、縮退(停止)され、ストレージ装置1′から切り離された後(符号A25参照)、被疑CM#1の保守が行なわれ、保守後のCM#1がストレージ装置1′に組み込まれる(符号A26参照)。
一方、生き残ったCM#0において、異常を残したままのPCIeSW14は、自CM#0のCPU12′からのリセット信号によってリセットされる(符号A27;ステップS17参照)。PCIeSW14で発生する異常の9割がたは、リセットによって解消可能な異常(間欠故障,ソフトエラー等)である。したがって、上述のようにPCIeSWリセットを行なうことで、PCIeSW14に残っている異常の9割がたは解消されることになる。
この後、PCIeSWリセットに伴いCM間経路P1上における自CM#0側の通信路17上でリンク異常が発生すると(符号A28参照)、当該リンク異常がCM#0の第2検出部12cによって検出される(符号A29;ステップS18のYESルート参照)。リンク異常が検出されると、最大通信量Cmaxおよび転送可能通信量C2が取得され、上述したように、判定部12dによって、最大通信量Cmaxと転送可能通信量C2とが比較され、CM間経路P1を用いた保守の可/不可が判断される(符号A30;ステップS19,S20参照)。
判定部12dによって、CM間経路P1を用いた保守が可能であると判断されると(符号A31;ステップS21参照)、各CM11によって、CM間経路P1を用いた各CM11の保守が行なわれる。つまり、CM#0から保守後のCM#1へのデータ転送(CM間通信)によってCM#1のデータリカバリが行なわれ、CM#1が復旧される。このようにして、被疑CM#1の保守に成功すると(符号A32参照)、ストレージ制御装置10′は、CM#0およびCM#1による通常運用に復帰する。
なお、判定部12dによって、CM間経路P1を用いた保守が不可であると判断された場合(符号A33;ステップS22参照)、性能影響が出ない程度の通信量をCM間経路P1に確保できずリンク異常が性能ネックとなる可能性が有る。このため、ストレージ装置1′の電源を落としてCM#0の保守が実行されるか、あるいは、後述する第3実施形態の手法による保守が実行される。第3実施形態の手法による保守を実行する場合、図7の符号A33で示すステップから図11の符号A51で示すステップへ移行する。
〔2−3〕第2実施形態の効果
第2実施形態のストレージ制御装置10′およびストレージ装置1′によれば、第1実施形態のストレージ制御装置10およびストレージ装置1と同様の作用効果を得ることができる。
特に、第2実施形態のストレージ制御装置10′およびストレージ装置1′によれば、PCIeSWリセットに伴いリンク異常が発生しても、性能影響が出ない程度の通信量をCM間経路P1に確保できる場合にはCM間経路P1を用いた保守が行なわれる。これにより、PCIeSWリセットに伴いリンク異常が発生した場合でも、ストレージ装置1の運用を継続したまま被疑CMの保守を行なうことができる。また、ストレージ装置1′の運用を停止しないで保守可能になるケースが増えるため、保守手法が改善され、ストレージ装置1′の運用停止を招く可能性をより低くすることができる。
〔3〕第3実施形態の説明
次に、図8〜図11を参照しながら、第3実施形態について説明する。
〔3−1〕第3実施形態の構成
図8は、第3実施形態としてのストレージ制御装置10″を含むストレージ装置(RAID装置)1″のハードウェア構成および機能構成を示すブロック図である。なお、図8中、同一の符号は同一もしくは略同一の部分を示しているので、その詳細な説明は省略する。
図8に示すストレージ装置1″も、図4に示す第2実施形態のストレージ装置1′とほぼ同様に構成されている。ただし、図4に示すストレージ装置1′と図8に示すストレージ装置1″との相違点は、ストレージ制御装置10′に代えてストレージ制御装置10″が備えられている点である。また、図4に示すストレージ制御装置10′と図8に示すストレージ制御装置10″との相違点は、各CM11において、CPU12′に代えてCPU12″が備えられている点である。
CPU(処理部)12″は、第2実施形態のCPU12′と同様、種々の制御や演算を行なう処理装置であり、マルチコアプロセッサ(マルチCPU)である。CPU12″は、メモリ13等に格納されたOSやプログラムを実行することにより、種々の機能を実現する。
特に、第3実施形態のCPU12″は、所定のストレージ制御プログラムを実行することで、第2実施形態と同様の、符号12a〜12fで示す機能を果たすのに加え、後述する抑止部12gとして機能する。なお、図8において、符号12a〜12gで示す機能は、CM11AのCPU12″にのみ図示されているが、CM11BのCPU12″にも備えられている。
抑止部12gは、判定部12dによってCM間経路P1を用いた保守が不可であると判定した場合、CM間経路P1によるCM間通信を抑止する。このとき、抑止部12gは、ホスト装置2によって発行される全てのI/O要求を受信するための情報を、自CM#0から他CM#1へ移動させることにより、CM間経路P1によるCM間通信を抑止する。ここで、当該情報は、自CM#0のメモリ13(データ領域)に保持されている。また、当該情報は、例えば、自CM#0による管理対象の論理ユニットを特定する第1論理ユニット情報(第1LUN)と、他CM#1による管理対象の論理ユニットを特定する第2論理ユニット情報(第2LUN)との全てである。
〔3−2〕第3実施形態の動作
次に、図9に示すフローチャート(ステップS11〜S21およびS23〜S26)に従って、図8に示すストレージ制御装置10″の動作について説明する。なお、図9に示すステップS11〜S21の処理は、図5に示すステップS11〜S21の処理と同様であるので、その説明は省略する。ここでは、ステップS20のNOルートから図9のステップS23以降の処理について説明する。
判定部12dによって転送可能通信量C2が最大通信量Cmax以下であると判定された場合(C2≦Cmax;ステップS20のNOルート)、性能影響が出ない程度の通信量をCM間経路P1に確保できず、リンク異常が性能ネックとなる可能性が有る。この場合、CM#0は、被疑CM#1の保守が行なわれ保守後のCM#1がストレージ装置1″に組み込まれCM間疎通が完了するのを待機する(ステップS23のNOルート)。
CM間疎通が完了すると(ステップS23のYESルート)、CM#0は、ホスト装置2からのI/O要求の発行を一旦停止させる(ステップS24)。そして、CM#0の抑止部12gは、ホスト装置2によって発行される全てのI/O要求を受信するための前記情報(上述したLUNの全て)を、自CM#0から他CM#1へ移動させる(ステップS25)。
この後、CM#0は、ホスト装置2からのI/O要求の発行先をCM#1のみに固定する(ステップS26)。これにより、ホスト装置2からのI/O要求は、全て直接的にCM#1に対し発行されることになる。したがって、ホスト装置2からのI/O要求が、CM#0からCM間経路P1経由でCM#0へ転送されることがなくなり、CM間通信が抑止される。
ところで、上述した第2実施形態では、PCIeSWリセットに伴いリンク異常が発生した際、リンク異常が性能ネックとはならない場合、ストレージ装置1を停止することなく保守が可能になる。しかし、PCIeSWリセットに伴いリンク異常が発生した際、依然として、リンク異常が性能ネックとなって保守ができないケースが存在する。
リンク異常が性能ネックとなって保守ができなくなる理由は、データ量の多い、ホスト装置2からのI/O要求の処理が、CM間通信を利用して実行されるためである。したがって、リンク異常によって性能ネックが生じる場合、CM間通信を行なうことなくホスト装置2からのI/O要求の処理を実行させるようにすれば、リンク異常が性能ネックとなって保守ができないケースが解消される。
ここで、図10(符号A41〜A48)を参照しながら、ストレージ制御装置においてリセットに伴うリンク異常が性能ネックとなって保守を行なえない場合の動作について説明する。なお、図10は、当該動作を説明するシーケンス図である。また、図10では、図7の符号A26およびA33で示すステップを実行した後のCM#0,CM#1の動作が示されている。
第2実施形態で保守が不可であると判断された場合(図7の符号A33参照)、被疑CM#1の保守が行なわれた後(図7の符号A26参照)、CM#0からCM#1に対し組み込み実施の指示が行なわれる(符号A41参照)。組み込み実施指示を受けるとCM#1の組み込みが開始され(符号A42参照)、CM間の疎通が行なわれる(符号A43,A44参照)。
そして、現在の仕様では、CM間の疎通を完了すると(符号A45参照)、CM#0に保持されている、CM#1の管理下のLUN(第2LUN)が、CM#0から、組み込まれたCM#1へ転送・譲渡される(符号A46参照)。なお、第2LUNは、CM#1の縮退直前にCM#1からCM#0へ転送・譲渡されている。したがって、CM#1の縮退直前から符号A46で示す処理を実行するまでの間、CM#0には、CM#0の管理下のLUN(第1LUN)と第2LUNとの両方が保持されている。これにより、この間、CM#0は、CM間通信を行なうことなく、単独でストレージ装置1の運用を継続する。
第2LUNがCM#1で受信されて保存されると(符号A47参照)、CM#0に第1LUNが保存されるとともにCM#1に第2LUNが保存された状態となる。このため、第2LUNがCM#1に保存された時点で、I/O要求(ホストI/O)のCM間通信が開始されてしまう(符号A48参照)。
そこで、第3実施形態では、リンク異常によって性能ネックが生じる場合、CM間通信を行なうことなくホスト装置2からのI/O要求の処理を実行させるべく、CM間の疎通完了直後に、CM#0のLUNの全て(第1LUNおよび第2LUNの全て)をCM#0からCM#1へ移している。
以下、第3実施形態の保守動作について、図9のステップS20,S23〜S26と図11の符号A51〜A60とを参照しながら説明する。ただし、図11の符号A51〜A55で示す動作は、それぞれ図10の符号A41〜A45で示す動作と同様であるので、その説明は省略する。なお、図11は、図8に示すストレージ制御装置10″においてリセットに伴うリンク異常が性能ネックとなる場合の動作(保守成功例)を説明するシーケンス図である。
保守が不可であると判断された場合(図7の符号A33;ステップS20のNOルート参照)、CM#0は、CM間疎通が完了するのを待機する(ステップS23のNOルート参照)。保守後のCM#1についてCM間の疎通が完了すると(符号A51〜A55;ステップS23のYESルート参照)、CM#0は、ホスト装置2からのI/O要求の発行を一旦停止させる(符号A56;ステップS24参照)。
そして、CM#0の抑止部12gは、ホスト装置2によって発行される全てのI/O要求を受信するための情報(つまり第1LUNおよび第2LUNの全て)を、自CM#0から他CM#1へ移動・譲渡させる(符号A57参照)。このとき、前記情報は、上述した通り、リンク異常等の発生しているCM間経路P1を用いて自CM#0から他CM#1へ転送される。前記情報のデータ量は微々たるものであるため、リンク異常等の発生しているCM間経路P1であってもリンクダウンしていない限り、性能影響を生じさせることなく前記情報を自CM#0から他CM#1へ転送することができる。
この後、前記情報がCM#1で受信されて保存されると(符号A58参照)、CM#0は、ホスト装置2からのI/O要求の発行先をCM#1のみに固定する(符号A59;ステップS26参照)。これにより、ホスト装置2からのI/O要求は、全て直接的にCM#1に対し発行されることになる。
したがって、ホスト装置2からのI/O要求が、CM#0からCM間経路P1経由でCM#へ転送されることがなくなり、CM間通信が抑止される。このようにCM間通信を抑止した状態で、ホスト装置2から保守後のCM#1のデータリカバリが行なわれ、CM#1が復旧される。また、CM間通信を抑止した状態では、CM#0を縮退させストレージ装置1″から切り離すことができ、元々異常の発生していたCM#0の保守を行なうことが可能になる(符号A60参照)。
なお、CM#0およびCM#1の保守を全て完了すると、ホスト装置2からのI/O要求の発行先のCM#1固定が解除されるとともに、CM#0による管理対象の論理ユニットを特定する第1LUNがCM#1からCM#0へ移動される。これにより、ストレージ制御装置10″は、CM#0およびCM#1による通常運用に復帰する。
〔3−3〕第3実施形態の効果
第3実施形態のストレージ制御装置10″およびストレージ装置1″によれば、第1実施形態のストレージ制御装置10およびストレージ装置1や、第2実施形態のストレージ制御装置10′およびストレージ装置1′と同様の作用効果を得ることができる。
特に、第3実施形態のストレージ制御装置10″およびストレージ装置1″によれば、リンク異常によって性能ネックが生じる場合、CM間通信を行なうことなくホスト装置2からのI/O要求の処理を実行させることができる。したがって、上述したように、リンク異常が性能ネックとなって保守ができないケースが解消される。これにより、保守手法が改善され、ストレージ装置1″の運用停止を招く可能性をより低くすることができる。
〔4〕第3実施形態の変形例の説明
次に、図12および図13を参照しながら、第3実施形態の変形例について説明する。
〔4−1〕第3実施形態の変形例の構成
図12は、第3実施形態としてのストレージ制御装置10″の変形例を含むストレージ装置(RAID装置)1″のハードウェア構成および機能構成を示すブロック図である。なお、図12中、同一の符号は同一もしくは略同一の部分を示しているので、その詳細な説明は省略する。
図12に示すストレージ装置1″も、図8に示す第3実施形態のストレージ装置1″とほぼ同様に構成されている。ただし、図8に示すストレージ装置1″と図12に示すストレージ装置1″との相違点は、抑止部12gに代えて抑止部12g′が備えられている点である。また、第3実施形態の変形例におけるCPU12″も、所定のストレージ制御プログラムを実行することで、第3実施形態と同様の、符号12a〜12fで示す機能を果たすのに加え、後述する抑止部12g′として機能する。なお、図12において、符号12a〜12fおよび12g′で示す機能は、CM11AのCPU12″にのみ図示されているが、CM11BのCPU12″にも備えられている。
抑止部12g′は、第3実施形態の抑止部12gと同様、判定部12dによってCM間経路P1を用いた保守が不可であると判定した場合、CM間経路P1によるCM間通信を抑止する。このとき、抑止部12g′も、ホスト装置2によって発行される全てのI/O要求を受信するための情報(第1LUNおよび第2LUNの全て)を、自CM#0から他CM#1へ移動させることにより、CM間経路P1によるCM間通信を抑止する。
特に、抑止部12g′は、CM間経路P1がリンク異常の発生状態であるがリンクアップ状態である場合、CM間経路P1を通して、前記情報を自CM#0から他CM#1へ移動させる。第3実施形態においても説明した通り、前記情報のデータ量は微々たるものであるため、リンク異常等の発生しているCM間経路P1であってもリンクダウンしていない限り、性能影響を生じさせることなく前記情報を自CM#0から他CM#1へ転送することができる。
一方、抑止部12g′は、制御部間経路P1がリンクダウン状態である場合、CM間経路P1以外で、一対のCM11A,11Bの相互間を通信可能に接続するCM間経路P2を通して、前記情報を自CM#0から他CM#1へ移動させる。ここで、CM間経路P1以外のCM間経路(制御部間経路;CPU間経路)P2としては、例えば、SAS経路を含む経路が用いられる。より具体的に、図12に示すCM間経路P2は、CM#0側のCPU12″,PCIeSW16およびディスク用インタフェース部15と、SASの通信路50と、CM#1側のディスク用インタフェース部15,PCIeSW16およびCPU12″とを経由する。
〔4−2〕第3実施形態の変形例の動作
上述した第2実施形態および第3実施形態では、CM間経路P1がリンク異常であるが少なくともリンクアップ状態であるケースを想定し、リンク異常のCM間経路P1を用いて前記情報のCM間転送が行なわれている。しかし、CM間経路P1がリンクダウン状態である場合には、性能ネックの問題の前にCM間通信のための経路が無くなり、ホストI/Oを受信するための前記情報のCM間転送を行なえず、各CM11の保守が不可となってしまう。
本実施形態のストレージ装置1″において、CM間の経路としては、PCIeバスの通信路40を経由するCM間経路P1のほかに、SASの通信路50を経由するCM間経路P2がある。
そこで、第3実施形態の変形例では、CM間経路P1がリンクダウン状態である場合、前記情報の譲渡を行なう経路を、CM間経路P1からCM間経路P2に変更することで、前記情報のCM間転送を行ない、CM11の保守を可能にしている。
次に、図13に示すフローチャート(ステップS11〜S21およびS23〜S28)に従って、図13に示すストレージ制御装置10″の動作について説明する。なお、図13に示すステップS11〜S21の処理は、図5に示すステップS11〜S21の処理と同様であるので、その説明は省略する。ここでは、ステップS20のNOルートから図13のステップS23以降の処理について説明する。
判定部12dによって転送可能通信量C2が最大通信量Cmax以下であると判定された場合(C2≦Cmax;ステップS20のNOルート)、性能影響が出ない程度の通信量をCM間経路P1に確保できず、リンク異常が性能ネックとなる可能性が有る。この場合、CM#0は、被疑CM#1の保守が行なわれ保守後のCM#1がストレージ装置1″に組み込まれCM間疎通が完了するのを待機する(ステップS23のNOルート)。
CM間疎通が完了すると(ステップS23のYESルート)、CM#0は、ホスト装置2からのI/O要求の発行を一旦停止させる(ステップS24)。この後、CM#0の抑止部12g′は、CM間経路P1がリンクダウン状態か否かを判定する(ステップS27)。CM間経路P1がリンクダウン状態でない場合(ステップS27のNOルート)、つまりCM間経路P1がリンク異常であるがリンクアップ状態である場合、CM#0の抑止部12gは、前記情報を自CM#0から他CM#1へ移動させる(ステップS25)。
一方、CM間経路P1がリンクダウン状態である場合(ステップS27のYESルート)、CM#0の抑止部12g′は、CM間経路P2を通して、前記情報を自CM#0から他CM#1へ移動させる(ステップS28)。
この後、CM#0は、ホスト装置2からのI/O要求の発行先をCM#1のみに固定する(ステップS26)。これにより、ホスト装置2からのI/O要求は、全て直接的にCM#1に対し発行されることになる。したがって、ホスト装置2からのI/O要求が、CM#0からCM間経路P1経由でCM#へ転送されることがなくなり、CM間通信が抑止される。
〔4−3〕第3実施形態の変形例の効果
第3実施形態の変形例としてのストレージ制御装置10″およびストレージ装置1″によっても、第1〜第3実施形態のストレージ制御装置およびストレージ装置と同様の作用効果を得ることができる。
特に、図12に示すストレージ制御装置10″およびストレージ装置1″によれば、CM間経路P1がリンクダウン状態であっても、CM間経路P1に代えCM間経路P2を用いて、ホストI/Oを受信するための前記情報のCM間転送を行ない、各CM11の保守が可能になる。したがって、CM間経路P1がリンクダウン状態であるために保守ができないケースが解消される。これにより、保守手法が改善され、ストレージ装置1″の運用停止を招く可能性をさらに低くすることができる。
〔5〕その他
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
上述した第1検出部12a,リセット制御部12b,第2検出部12c,判定部12d,取得部12e,算出部12fおよび抑止部12gとしての機能を含む、ストレージ制御装置10,10′,10″の機能の全部もしくは一部は、コンピュータ(MPU(Micro-Processing Unit),CPU,各種端末を含む)が所定のプログラムを実行することによって実現されてもよい。
そのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RWなど),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD−RW,DVD+R,DVD+RWなど),ブルーレイディスク等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。
〔6〕付記
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
ホスト装置からの入出力要求に従ってストレージユニットを制御する一対の制御部と、
前記一対の制御部の相互間を通信可能に接続する通信路と、を備え、
前記一対の制御部のそれぞれは、
前記通信路に接続され、前記通信路による通信を制御するインタフェース部と、
前記一対の制御部のうちの自制御部の前記インタフェース部、前記一対の制御部のうちの他制御部の前記インタフェース部および前記通信路を含む制御部間経路上での異常を検出する第1検出部と、
前記第1検出部によって前記他制御部側での異常を検出した場合、前記他制御部を縮退させるとともに前記自制御部の前記インタフェース部のリセットを行なうリセット制御部と、を有するストレージ制御装置。
(付記2)
前記一対の制御部のそれぞれは、
前記リセットに伴って発生する、前記制御部間経路上における前記自制御部側でのリンク異常を検出する第2検出部と、
前記第2検出部によって前記リンク異常を検出した場合、前記リンク異常の状況に基づき、前記制御部間経路による制御部間通信を用いた保守が可能か否かを判定する判定部と、を有する、付記1に記載のストレージ制御装置。
(付記3)
前記一対の制御部のそれぞれは、
前記制御部間経路における通常動作時の単位時間当たり通信量を取得する取得部と、
前記リンク異常の状況に基づき、前記リンク異常の発生した状態での転送可能な単位時間当たり通信量を算出する算出部と、を有し、
前記判定部は、前記転送可能な単位時間当たり通信量が前記通常動作時の単位時間当たり通信量を超える場合、前記他制御部の保守が可能と判定する一方、前記転送可能な単位時間当たり通信量が前記通常動作時の単位時間当たり通信量以下である場合、前記他制御部の保守が不可と判定する、付記2に記載のストレージ制御装置。
(付記4)
前記取得部は、前記自制御部の動作開始後の、前記制御部間経路における単位時間当たり通信量の最大値を、前記通常動作時の単位時間当たり通信量として取得する、付記3に記載のストレージ制御装置。
(付記5)
前記一対の制御部のそれぞれは、前記判定部によって前記保守が可能と判定した場合、前記制御部間経路を用いた各制御部の保守を行なう、付記2〜付記4のいずれか一項に記載のストレージ制御装置。
(付記6)
前記一対の制御部のそれぞれは、
前記判定部によって前記保守が不可と判定した場合、前記制御部間経路による前記制御部間通信を抑止する抑止部を有する、付記2〜付記4のいずれか一項に記載のストレージ制御装置。
(付記7)
前記抑止部は、前記ホスト装置によって発行される入出力要求を受信するための情報を、前記自制御部から前記他制御部へ移動させることにより、前記制御部間経路による前記制御部間通信を抑止する、付記6に記載のストレージ制御装置。
(付記8)
前記ホスト装置によって発行される入出力要求を受信するための情報は、前記自制御部において保持される、前記自制御部による管理対象の論理ユニットを特定する第1論理ユニット情報と前記他制御部による管理対象の論理ユニットを特定する第2論理ユニット情報とである、付記7に記載のストレージ制御装置。
(付記9)
前記抑止部は、前記制御部間経路が前記リンク異常の発生状態であるがリンクアップ状態である場合、前記制御部間経路を通して、前記情報を前記自制御部から前記他制御部へ移動させる、付記7または付記8に記載のストレージ制御装置。
(付記10)
前記抑止部は、前記制御部間経路がリンクダウン状態である場合、前記制御部間経路以外で、前記一対の制御部の相互間を通信可能に接続する経路を通して、前記情報を前記自制御部から前記他制御部へ移動させる、付記7または付記8に記載のストレージ制御装置。
(付記11)
ストレージユニットと、
ホスト装置からの入出力要求に従って前記ストレージユニットを制御する一対の制御部と、
前記一対の制御部の相互間を通信可能に接続する通信路と、を備え、
前記一対の制御部のそれぞれは、
前記通信路に接続され、前記通信路による通信を制御するインタフェース部と、
前記一対の制御部のうちの自制御部の前記インタフェース部、前記一対の制御部のうちの他制御部の前記インタフェース部および前記通信路を含む制御部間経路上での異常を検出する第1検出部と、
前記第1検出部によって前記他制御部側での異常を検出した場合、前記他制御部を縮退させるとともに前記自制御部の前記インタフェース部のリセットを行なうリセット制御部と、を有するストレージ装置。
(付記12)
前記一対の制御部のそれぞれは、
前記リセットに伴って発生する、前記制御部間経路上における前記自制御部側でのリンク異常を検出する第2検出部と、
前記第2検出部によって前記リンク異常を検出した場合、前記リンク異常の状況に基づき、前記制御部間経路による制御部間通信を用いた保守が可能か否かを判定する判定部と、を有する、付記11に記載のストレージ装置。
(付記13)
前記一対の制御部のそれぞれは、
前記制御部間経路における通常動作時の単位時間当たり通信量を取得する取得部と、
前記リンク異常の状況に基づき、前記リンク異常の発生した状態での転送可能な単位時間当たり通信量を算出する算出部と、を有し、
前記判定部は、前記転送可能な単位時間当たり通信量が前記通常動作時の単位時間当たり通信量を超える場合、前記他制御部の保守が可能と判定する一方、前記転送可能な単位時間当たり通信量が前記通常動作時の単位時間当たり通信量以下である場合、前記他制御部の保守が不可と判定する、付記12に記載のストレージ装置。
(付記14)
前記取得部は、前記自制御部の動作開始後の、前記制御部間経路における単位時間当たり通信量の最大値を、前記通常動作時の単位時間当たり通信量として取得する、付記13に記載のストレージ装置。
(付記15)
前記一対の制御部のそれぞれは、前記判定部によって前記保守が可能と判定した場合、前記制御部間経路を用いた各制御部の保守を行なう、付記12〜付記14のいずれか一項に記載のストレージ装置。
(付記16)
前記一対の制御部のそれぞれは、
前記判定部によって前記保守が不可と判定した場合、前記制御部間経路による前記制御部間通信を抑止する抑止部を有する、付記12〜付記14のいずれか一項に記載のストレージ装置。
(付記17)
前記抑止部は、前記ホスト装置によって発行される入出力要求を受信するための情報を、前記自制御部から前記他制御部へ移動させることにより、前記制御部間経路による前記制御部間通信を抑止する、付記16に記載のストレージ装置。
(付記18)
前記ホスト装置によって発行される入出力要求を受信するための情報は、前記自制御部において保持される、前記自制御部による管理対象の論理ユニットを特定する第1論理ユニット情報と前記他制御部による管理対象の論理ユニットを特定する第2論理ユニット情報とである、付記17に記載のストレージ装置。
(付記19)
前記抑止部は、前記制御部間経路がリンクダウン状態である場合、前記制御部間経路以外で、前記一対の制御部の相互間を通信可能に接続する経路を通して、前記情報を前記自制御部から前記他制御部へ移動させる、付記17または付記18に記載のストレージ装置。
(付記20)
ホスト装置からの入出力要求に従ってストレージユニットを制御する一対の制御部と、前記一対の制御部の相互間を通信可能に接続する通信路と、前記一対の制御部のそれぞれにおいて前記通信路に接続され前記通信路による通信を制御するインタフェース部と、を備えるストレージ制御装置において、前記一対の制御部のそれぞれとして機能するコンピュータに、
前記一対の制御部のうちの自制御部の前記インタフェース部、前記一対の制御部のうちの他制御部の前記インタフェース部および前記通信路を含む制御部間経路上での異常を検出し、
前記他制御部側での異常を検出した場合、前記他制御部を縮退させるとともに前記自制御部の前記インタフェース部のリセットを行なう、
処理を実行させるストレージ制御プログラム。
1,1′,1″ ストレージ装置(RAID装置)
2 ホスト装置
10,10′,10″ ストレージ制御装置
11A 制御部(CM#0;自制御部,自CM)
11B 制御部(CM#1;他制御部,他CM)
12,12′,12″ CPU(処理部)
12a 第1検出部
12b リセット制御部
12c 第2検出部
12d 判定部
12e 取得部
12f 算出部
12g,12g′ 抑止部
13 メモリ
14 PCIeSW(インタフェース部)
15 ディスク用インタフェース部(SASインタフェース部)
16 PCIeSW
17 CPU−PCIeSW間通信路
20 ストレージユニット(ディスク)
30A,30B CA
40 PCIeSW間通信路
50 SASインタフェース部間通信路
60 I2C信号線(シリアル通信路)
P1 CM間経路(制御部間経路;CPU間経路)
P2 CM間経路P1以外のCM間経路(制御部間経路;CPU間経路)

Claims (8)

  1. ホスト装置からの入出力要求に従ってストレージユニットを制御する第1制御部および第2制御部と、
    前記第1制御部と前記第2制御部の相互間を通信可能に接続する通信路と、を備え、
    前記第1制御部は
    前記通信路に接続され、前記通信路による通信を制御するインタフェース部と、
    前記第1制御部の前記インタフェース部、前記第2制御部のインタフェース部および前記通信路を含む制御部間経路上での異常を検出する第1検出部と、
    前記第1検出部によって前記第2制御部側での異常を検出した場合、前記第2制御部を縮退させるとともに前記第1制御部の前記インタフェース部のリセットを行なうリセット制御部と、を有するストレージ制御装置。
  2. 前記第1制御部は
    前記リセットに伴って発生する、前記制御部間経路上における前記第1制御部側でのリンク異常を検出する第2検出部と
    前記制御部間経路における通常動作時の単位時間当たり通信量を取得する取得部と、
    前記リンク異常の状況に基づき、前記制御部間経路における、前記リンク異常の発生した状態での転送可能な単位時間当たり通信量の理論値を算出する算出部と
    前記転送可能な単位時間当たり通信量の理論値が前記通常動作時の単位時間当たり通信量を超える場合、前記第2制御部データ転送が可能と判定する一方、前記転送可能な単位時間当たり通信量の理論値が前記通常動作時の単位時間当たり通信量以下である場合、前記第2制御部データ転送が不可と判定する判定部と、を有する、請求項に記載のストレージ制御装置。
  3. 前記取得部は、前記第1制御部の動作開始後の、前記制御部間経路における単位時間当たり通信量の最大値を、前記通常動作時の単位時間当たり通信量として取得する、請求項に記載のストレージ制御装置。
  4. 前記第1制御部は、前記判定部によって前記第2制御部へのデータ転送が可能と判定した場合、前記制御部間経路を用いた前記第2制御部データ転送を行なう、請求項2または請求項に記載のストレージ制御装置。
  5. 前記第1制御部は
    前記第2制御部が縮退された後に保守された状態で、前記判定部によって前記第2制御部へのデータ転送が不可と判定した場合、前記ホスト装置によって発行される入出力要求を受信するための情報を、前記第1制御部から前記第2制御部へ移動させる、請求項2または請求項に記載のストレージ制御装置。
  6. 前記ホスト装置によって発行される入出力要求を受信するための情報は、前記第1制御部において保持される、前記第1制御部による管理対象の論理ユニットを特定する第1論理ユニット情報と前記第2制御部による管理対象の論理ユニットを特定する第2論理ユニット情報とである、請求項に記載のストレージ制御装置。
  7. ストレージユニットと、
    ホスト装置からの入出力要求に従って前記ストレージユニットを制御する第1制御部および第2制御部と、
    前記第1制御部と前記第2制御部の相互間を通信可能に接続する通信路と、を備え、
    前記第1制御部は
    前記通信路に接続され、前記通信路による通信を制御するインタフェース部と、
    前記第1制御部の前記インタフェース部、前記第2制御部のインタフェース部および前記通信路を含む制御部間経路上での異常を検出する第1検出部と、
    前記第1検出部によって前記第2制御部側での異常を検出した場合、前記第2制御部を縮退させるとともに前記第1制御部の前記インタフェース部のリセットを行なうリセット制御部と、を有するストレージ装置。
  8. ホスト装置からの入出力要求に従ってストレージユニットを制御する第1制御部および第2制御部と、前記第1制御部と前記第2制御部の相互間を通信可能に接続する通信路と、前記第1制御部において前記通信路に接続され前記通信路による通信を制御するインタフェース部と、を備えるストレージ制御装置において、前記第1制御部として機能するコンピュータに、
    前記第1制御部の前記インタフェース部、前記第2制御部のインタフェース部および前記通信路を含む制御部間経路上での異常を検出し、
    前記第2制御部側での異常を検出した場合、前記第2制御部を縮退させるとともに前記第1制御部の前記インタフェース部のリセットを行なう、
    処理を実行させるストレージ制御プログラム。
JP2013222061A 2013-10-25 2013-10-25 ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム Active JP6187150B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013222061A JP6187150B2 (ja) 2013-10-25 2013-10-25 ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム
US14/501,173 US9507677B2 (en) 2013-10-25 2014-09-30 Storage control device, storage apparatus, and computer-readable recording medium having storage control program stored therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013222061A JP6187150B2 (ja) 2013-10-25 2013-10-25 ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム

Publications (2)

Publication Number Publication Date
JP2015084144A JP2015084144A (ja) 2015-04-30
JP6187150B2 true JP6187150B2 (ja) 2017-08-30

Family

ID=52996856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013222061A Active JP6187150B2 (ja) 2013-10-25 2013-10-25 ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム

Country Status (2)

Country Link
US (1) US9507677B2 (ja)
JP (1) JP6187150B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6809063B2 (ja) * 2016-09-09 2021-01-06 富士通株式会社 アクセス制御装置、アクセス制御方法、およびアクセス制御プログラム
US10482050B2 (en) * 2016-11-09 2019-11-19 Qualcomm Incorporated Link role determination in a dual-mode Peripheral Component Interconnect express (PCIe) device
JP6620136B2 (ja) * 2017-10-24 2019-12-11 株式会社日立製作所 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法
US10884888B2 (en) * 2019-01-22 2021-01-05 International Business Machines Corporation Facilitating communication among storage controllers

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790775A (en) * 1995-10-23 1998-08-04 Digital Equipment Corporation Host transparent storage controller failover/failback of SCSI targets and associated units
JP3987241B2 (ja) 1999-07-29 2007-10-03 株式会社東芝 系間情報通信システム
US6643795B1 (en) * 2000-03-30 2003-11-04 Hewlett-Packard Development Company, L.P. Controller-based bi-directional remote copy system with storage site failover capability
US7111189B1 (en) * 2000-03-30 2006-09-19 Hewlett-Packard Development Company, L.P. Method for transaction log failover merging during asynchronous operations in a data storage network
US7886298B2 (en) * 2002-03-26 2011-02-08 Hewlett-Packard Development Company, L.P. Data transfer protocol for data replication between multiple pairs of storage controllers on a san fabric
US7536508B2 (en) * 2006-06-30 2009-05-19 Dot Hill Systems Corporation System and method for sharing SATA drives in active-active RAID controller system
US7444541B2 (en) 2006-06-30 2008-10-28 Seagate Technology Llc Failover and failback of write cache data in dual active controllers
US8463952B1 (en) * 2011-08-04 2013-06-11 Netapp, Inc. Device connections and methods thereof
US8909816B2 (en) * 2012-03-19 2014-12-09 Kaminario Technologies Ltd. Implementing a logical unit reset command in a distributed storage system

Also Published As

Publication number Publication date
US20150121129A1 (en) 2015-04-30
JP2015084144A (ja) 2015-04-30
US9507677B2 (en) 2016-11-29

Similar Documents

Publication Publication Date Title
US10191669B2 (en) Redundant SAS storage virtualization subsystem and system using the same and method therefor
US8402189B2 (en) Information processing apparatus and data transfer method
US9697087B2 (en) Storage controller to perform rebuilding while copying, and storage system, and control method thereof
US7779170B2 (en) Storage area network system
JP4744480B2 (ja) 仮想計算機システム
US10496566B2 (en) Method and apparatus for data recovering during a board replacement
JP6191346B2 (ja) ストレージ制御装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム
US20140173330A1 (en) Split Brain Detection and Recovery System
US20070271481A1 (en) Storage controller
US8667337B2 (en) Storage apparatus and method of controlling the same
JP2005326935A (ja) 仮想化ストレージを備える計算機システムの管理サーバおよび障害回避復旧方法
JP2007206766A (ja) データストレージシステム、データストレージ制御装置及びその障害箇所診断方法。
JP6307847B2 (ja) 情報処理装置,制御装置及び制御プログラム
JP2007128437A (ja) ディスクアレイ装置及びその経路障害検出方法
JP6187150B2 (ja) ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム
JP2017010390A (ja) ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法
JP2008112399A (ja) ストレージ仮想化スイッチおよびコンピュータシステム
JP2017091456A (ja) 制御装置、制御プログラムおよび制御方法
US20180101456A1 (en) Enclosure-encapsulated raid rebuild
US8095820B2 (en) Storage system and control methods for the same
US8381027B1 (en) Determining alternate paths in faulted systems
JP6244970B2 (ja) ストレージシステム、制御装置及び制御プログラム
US20160321123A1 (en) Storage system and control apparatus
JP5511546B2 (ja) フォールトトレラントの計算機システム、複数の物理サーバとストレージ装置とに接続されるスイッチ装置、及び、サーバ同期制御方法
JP5729043B2 (ja) ストレージ装置および制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170717

R150 Certificate of patent or registration of utility model

Ref document number: 6187150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150