JP6620136B2 - 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 - Google Patents

冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 Download PDF

Info

Publication number
JP6620136B2
JP6620136B2 JP2017205507A JP2017205507A JP6620136B2 JP 6620136 B2 JP6620136 B2 JP 6620136B2 JP 2017205507 A JP2017205507 A JP 2017205507A JP 2017205507 A JP2017205507 A JP 2017205507A JP 6620136 B2 JP6620136 B2 JP 6620136B2
Authority
JP
Japan
Prior art keywords
controller
controllers
information
failure
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017205507A
Other languages
English (en)
Other versions
JP2019079263A (ja
Inventor
直柔 岡村
直柔 岡村
正範 藤井
正範 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017205507A priority Critical patent/JP6620136B2/ja
Priority to US16/123,587 priority patent/US20190121561A1/en
Publication of JP2019079263A publication Critical patent/JP2019079263A/ja
Application granted granted Critical
Publication of JP6620136B2 publication Critical patent/JP6620136B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • G06F11/2092Techniques of failing over between control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices

Description

本発明は、冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法に関し、特に、複数のコントローラ同士がコントローラ間通信パスを介して接続された冗長系ストレージシステムに適用して好適なものである。
一般的に冗長系ストレージシステムは、いずれかのコントローラに障害が発生した場合、どちらのコントローラの障害が原因で全体に障害が生じているかについて判定できない状態に陥ることがある(以下「障害モード」という)。このような障害モードでは、決め打ちでどちらかのコントローラを閉塞せざるを得ない。その際、仮に、正常な一方のコントローラを誤って閉塞して取り外してしまった後に当該一方のコントローラを再度装着しても、他方のコントローラにおいてログの更新が進んでしまうため、両コントローラ間において同期ができずシステムが回復できない。このため、従来の冗長系ストレージシステムでは、最終的に、オフライン状態で、障害が発生している他方のコントローラを交換せざる得ない(以下「オフライン交換」という)ことがある(例えば特許文献1参照)。
また、冗長系ストレージシステムでは、複数のコントローラ間のコントローラ間通信パスが長くなるに連れて伝送路品質の確保のために、ローエンドモデルで採用されるドライバー回路が設けられることがある。
特開2015−84144号公報
しかしながら、従来の冗長系ストレーシステムでは、そのようなドライバー回路自体の故障がシステム全体の故障率(FIT率)を引き上げてしまうおそれがある。特に、高速伝送路のプロトコルを実装したデバイスを採用したドライバー回路は、論理回路の設計が必要であるとともに回路構成が複雑になりがちであるため不良発生率が高く、複数のコントローラ間における障害発生の一因となっている。このようなことから、上述したオフライン交換が必要となってしまい、静手無全体が停止するおそれがある。
本発明は以上の点を考慮してなされたもので、障害が発生した際に、複数のコントローラのうち閉塞すべきコントローラの判定精度を向上させる一方、閉塞すべきコントローラの判定が外れた場合でも再度コントローラを安全に交換可能とし、システム全体が停止するリスクを最小限に抑えた冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法を提案しようとするものである。
かかる課題を解決するため、本発明においては、複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおいて、前記複数のコントローラは、それぞれ、前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集部と、前記障害情報収集部によって収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有させる情報同期部と、前記情報同期部によって最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定部と、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御部と、前記複数のコントローラである第1のコントローラおよび第2のコントローラのうち前記閉塞判定部によって閉塞すべきと判定された前記第2のコントローラを交換すべき旨が通知されたことに応じて前記第2のコントローラが取り外され第3のコントローラが装着された旨の割込みを受信すると、前記第1のコントローラと前記第3のコントローラとの同期が成功したか否かを判定する判定部と、前記判定部によって前記第1のコントローラと前記第3のコントローラとの同期が成功しなかったと判定されたことに応じて前記第1のコントローラが取り外され前記第2のコントローラが再度装着された旨の割込みを受信すると、前記情報同期部に、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとを同期させる再同期指示部と、を備えることを特徴とする。
また、本発明においては、複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおける障害復旧方法において、前記複数のコントローラが、前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集ステップと、前記複数のコントローラが、前記障害情報収集ステップにおいて収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有する情報同期ステップと、前記情報同期ステップにおいて最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちの一方のコントローラが、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定ステップと、前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御ステップと、前記複数のコントローラである第1のコントローラおよび第2のコントローラのうち前記閉塞判定ステップによって閉塞すべきと判定された前記第2のコントローラを交換すべき旨が通知されたことに応じて前記第2のコントローラが取り外され第3のコントローラが装着された旨の割込みを受信すると、前記複数のコントローラのうちの一方のコントローラが、前記第1のコントローラと前記第3のコントローラとの同期が成功したか否かを判定する判定ステップと、前記判定ステップによって前記第1のコントローラと前記第3のコントローラとの同期が成功しなかったと判定されたことに応じて前記第1のコントローラが取り外され前記第2のコントローラが再度装着された旨の割込みを受信すると、前記複数のコントローラのうちの一方のコントローラが、前記情報同期ステップにおいて、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとを同期させる再同期指示ステップと、を有することを特徴とする。
本発明によれば、障害が発生した際に、複数のコントローラのうち閉塞すべきコントローラの判定精度を向上させる一方、閉塞すべきコントローラの判定が外れた場合でも再度コントローラを安全に交換可能とし、システム全体が停止するリスクを最小限に抑えることができる。
第1の実施の形態による冗長系ストレージシステムの概略構成を示すブロック図である。 図1に示すドライバー回路の構成例を示すブロック図である。 図1に示すコントローラ間通信パスのエラーログの一例を示す図である。 第1の実施の形態による障害復旧方法の一例を示すフローチャートである。 装置立ち上げ時における縮退リンクアップ処理の一例を示すシーケンスチャートである。 装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。 障害情報による不良コントローラ特定処理の一例を示すシーケンスチャートである。 閉職対象のコントローラを特定する処理の一例を示すシーケンスチャートである。
以下、図面について、本発明の一実施の形態について詳述する。
(1)第1の実施の形態
(1−1)第1の実施の形態による冗長系ストレージシステムの構成
図1は、第1の実施の形態による冗長系ストレージシステムの概略構成を示す。
第1の実施の形態による冗長系ストレージシステムは、第1のコントローラ100及び図示しない第1のストレージ装置、第2のコントローラ200及び図示しない第2のストレージ装置、並びにPC300を備える。第1のコントローラ100とPC300とはネットワーク400AによってLANカード130を介して接続されている一方、第2のコントローラ200とPC300とはネットワーク400BによってLANカード230を介して接続されている。
PC300は、保守員によって操作されるコンピュータであり、保守員の操作に応じて第1のコントローラ100及び第2のコントローラ200に対してデータの書き込み及び読み出し指示を出力する。
第1のコントローラ100は、PC300から受け取った指示に応じて第1のストレージ装置との間でデータの読み書きを制御する一方、第2のコントローラ200は、PC300から受け取った指示に応じて第2のストレージ装置との間でデータの読み書きを制御する。
第1のコントローラ100と第2のコントローラ200とは、複数のレーンにより構成されているコントローラ間通信パス500によって接続されており、このコントローラ間通信パス500を経由して、後述するように障害を表す障害情報及びシステム制御情報のような様々な情報を通信による交換することができる。
この冗長系ストレージシステムでは、第1のコントローラ100は第2のコントローラ200とほぼ同様な構成であり、第1のストレージ装置は第2のストレージ装置と同様な構成である。
即ち、第1のコントローラ100は、マイクロプログラム(以下「マイクロ」と省略する)110A、自系コントローラ間通信パスのエラーログ110B及び他系コントローラ間通信パス500のエラーログ110Cが記憶されているメモリ110と、エラーレジスタ120Aが設けられているプロセッサ120とを備え、一例としてさらに、エラーレジスタ140Aが設けられているドライバー回路140を備える。エラーレジスタ120Aは、例えば立ち上げ時及び周期的に、コントローラ間通信パス500における障害を表すエラー情報が格納される一方、エラーレジスタ140Aは、例えば立ち上げ時及び周期的に、ドライバー回路140の障害を表すエラー情報が格納される。
一方、第2のコントローラ200は、上述した第1のコントローラ100の各構成に対応しており、マイクロプログラム(以下「マイクロ」と省略する)210A、自系コントローラ間通信パス500のエラーログ210B及び他系コントローラ間通信パスのエラーログ210Cが記憶されているメモリ210と、エラーレジスタ220Aが設けられているプロセッサ220とを備え、障害の生じやすい部位の一例として、さらに、エラーレジスタ240Aが設けられているドライバー回路240を備える。なお、エラーレジスタ220Aはコントローラ間通信パスにおける障害を表すエラー情報を格納するために用いられる一方、エラーレジスタ240Aはドライバー回路240の障害を表すエラー情報を格納するために用いられる。以下、これらの同様の構成については、主として第1のコントローラ100について説明し、第2のコントローラ200については説明を省略する。
ドライバー回路140は、第1のコントローラ100と第2のコントローラ200との間において障害が生じうる部位の一例である。ドライバー回路140は、発生した障害に関する情報をエラーログとして記憶するエラーレジスタ140Aを備えている。
第1の実施の形態において第1のコントローラ100と第2のコントローラ200との間で障害が生じうるのは、一例として示したドライバー回路140に限られず、例えばコントローラ間通信パス500を構成する複数のレーンの少なくとも一部となる場合もありうる。第1の実施の形態は、障害が生じた場合でもこれら複数のレーンのうちの少なくとも一部のレーンが通信可能であれば成立する。
上述したようにプロセッサ120は、エラーレジスタ120Aを備えており、上述したドライバー回路140のエラーレジスタ140Aに記憶されたエラーログと同一のエラーログが書き込まれる。
メモリ110では、マイクロ110Aがプロセッサ120の制御によって動作している。このマイクロ110Aは、自らのコントローラ(第1のコントローラ100)において収集された、当該自らのコントローラと他方のコントローラ(第2のコントローラ200)との間における通信パスに生じた障害に関する情報をエラーログ110Bとしてメモリ110に記憶する。一方、このマイクロ110Aは、他方のコントローラ(第2のコントローラ200)において収集された、当該他方のコントローラと自らのコントローラ(第1のコントローラ100)との間における通信パスに生じた障害に関する情報をエラーログ110Cとしてメモリ110に記憶する。なお、第2のコントローラ200では、当然ながら上述した第1のコントローラ100に関する説明とは逆の構成となる。
図2は、図1に示すドライバー回路140の構成例を示す。ドライバー回路140は、プロセッサ通信パスレーンコントローラ40A、信号品質制御回路40B及び他系コントローラ通信パスレーンコントローラ40Cを備える。なお、「自系」とは、複数のコントローラ100,200のうちあるコントローラを基準とした場合に自ら側のコントローラを表し、「他系」とは、複数のコントローラ100,200のうちあるコントローラを基準とした場合に相手側のコントローラを表している。
他系コントローラ通信パスレーンコントローラ40Cは、自らのコントローラ(第1のコントローラ100)と他方のコントローラ(第2のコントローラ200)との間に存在するコントローラ間通信パス500を構成する複数のレーンを用いた通信を制御する。
プロセッサ通信パスレーンコントローラ40Aは、プロセッサ120との間で、上記通信パスを構成する複数のレーンを用いた通信を制御する。
信号品質制御回路40Bは、内部パスのいずれかの位置に設けられた回路であり、この内部パスを用いて交換される信号について誤り訂正を実施するなどして信号の品質を向上させる。
図3は、図1に示す自系コントローラ間通信パスエラーログ110B,210B及び他系コントローラ間通信パスエラーログ110C,210Cの一例を示す。なお、自系コントローラ間通信パスエラーログ110B,210B及び他系コントローラ間通信パスエラーログ110C,210Cは、互いに同様な構成であるため、以下、自系コントローラ間通信パスエラーログ110Bについて説明する。
自系コントローラ間通信パスのエラーログ110Bは、プロセッサエラー発生数10D、プロセッサエラーテーブル10E、ドライバー回路エラー発生数10F及びドライバー回路エラーテーブル10Gを備える。
プロセッサエラー発生数10Dは、プロセッサ120に発生したエラーの発生数を表している。なお、各障害を表すエラーは互いにエラー番号によって区別可能となっている。
プロセッサエラーテーブル10Eは、例えばプロセッサ120に関して、エラー番号ごとに、ある障害を表すエラーの発生時刻及び詳細情報を管理する。
ドライバー回路エラー発生数10Fは、ドライバー回路140において発生した障害を表すエラーの発生回数を表している。
ドライバー回路エラーテーブル10Gは、例えばドライバー回路140に関して、エラー番号ごとに、障害を表すエラーの発生時刻及び詳細情報を管理する。
(1−2)冗長系ストレージシステムにおける障害回復方法
(1−2−1)障害回復方法の概要
図4は、障害回復方法の一例を示す。なお、第1の実施の形態では、図面においてコントローラを「CTL」と省略して表し、例えば、第1のコントローラ100を「CTL1」とも図示する一方、第2のコントローラ200を「CTL2」とも図示する。
まず、冗長系ストレージシステムが起動される(ステップS1)。これにより、第1のコントローラ100及び第2のコントローラ200では、初期設定、マイクロ110A,210Aの起動処理などを含む装置立上処理を実行する(ステップS2)。なお、以下の説明では、第2のコントローラ200に特に言及する必要がない場合を除き、主として第1のコントローラ100について説明する。
続いて、第1のコントローラ100は、マイクロ110Aがプロセッサ120の制御によって障害情報を収集する障害情報監視同期処理を実行する(ステップS3)。この障害情報監視同期処理は、例えば2つの場面において実行される。1つは装置立ち上げ時に実行される場合であり(後述する立ち上げ時の場合)、もう1つは定常稼働中に定期的に実行される場合である。これらの場合における各シーケンスの詳細については後述する。
この障害情報監視同期処理では、マイクロ110Aがある障害を表すエラーに対応したエラー情報を採取してエラーレジスタ120Aに格納するとともに、この採取したエラー情報を自らのコントローラ(第1のコントローラ100)と他方のコントローラ(第2のコントローラ200)との間で同期する。
第1のコントローラ100では、プロセッサ120がエラーレジスタ120Aのエラー情報を参照し、このエラー情報に基づいて障害が発生しているか否かを判定する(ステップS4)。
マイクロ110Aは、プロセッサ120の制御によって、第1のコントローラ100と第2のコントローラ200との間においてコントローラ間通信パス500の断線障害であるか否かを判定する(ステップS5)。プロセッサ120は、コントローラ間通信パス500の断線障害でないと判定した場合には各種閉塞処理を実施する(ステップS6)。
一方、プロセッサ120は、コントローラ間通信パス500の断線障害であると判定した場合にはコントローラ間通信パス500の強制的な縮退稼働を実施する(ステップS7)。この強制的な縮退稼働では、マイクロ110Aが、プロセッサ120の制御によってコントローラ間通信パスを構成する複数のレーンのうち障害の影響を受けない通信可能なレーンのみを用いるよう縮退して稼働する。本実施の形態では、当該影響により使用しないレーンを「不良レーン」とも呼ぶことがある。なお、このステップS7〜後述するステップS13までは保守作業のためのマイクロ動作に相当する。
次にプロセッサ120は、マイクロ110Aに、縮退リンクアップが成功したか否かを判定させる。より具体的には、マイクロ110Aは、不良レーンの切り離しに成功したか否かを判定する(ステップS8)。マイクロ110Aは、不良レーンの切り離しに成功しなかった場合には、障害情報解析による不良コントローラを特定する(ステップS9)。なお、第1の実施の形態では、このように障害情報解析を実施する際に、後述するように障害情報の収集によって、閉塞コントローラを特定する精度を向上するための工夫がなされている。
一方、マイクロ110Aは、不良レーンの切り離しに成功した場合には、各コントローラ100,200のシステム制御情報を同期する(ステップS10)。
マイクロ110Aは、障害の発生上法に基づき、第1のコントローラ100または第2のコントローラ200を交換すべき旨の通知を保守員に対してPC300を経由して実施する(ステップS11)。この際、プロセッサ120は、直前のコントローラ交換により、本処理を実施する場合には直前に交換したコントローラとは別のコントローラを交換するようPC300を経由して保守員に対して通知する。
このような通知を受けた保守員は、任意のタイミングで、第1のコントローラ100または第2のコントローラ200を交換する(ステップS12)。
このようにコントローラ交換が実施された旨の割込みを受領すると、マイクロ110Aは、コントローラ間通信パス500の回復が成功したか否かを判定する(ステップS13)。このような判定を実施するのは、その後、コントローラ間通信パス500の強制縮退稼働によりコントローラ保守作業及びコントローラ回復作業を実施するためである。
マイクロ110Aは、コントローラ間通信パス500の回復に成功しなかったと判定した場合には前述したステップS7に戻ってこれから実行する一方、コントローラ間通信パス500の回復に成功したと判定した場合には冗長系ストレージシステムを正常に稼働させる(ステップS14)。
(1−2−2)閉塞コントローラの過誤特定に対する救済処理
図5(A)〜図5(H)は、それぞれ、閉塞すべきコントローラを誤って特定した場合における救済処理の一例を示すシーケンスチャートである。なお、以下の説明では、第1のコントローラ100のドライバー回路140に障害が発生したものと仮定する。
図5(A)に示すように、障害が発生すると、第1のコントローラ100と第2のコントローラ200との間ではレーンが強制的に縮退される。
図5(B)に示すように、閉塞すべきコントローラが第2のコントローラ200であると誤って特定されている(×印が付されたコントローラに対応)。
図5(C)に示すように、閉塞すべきコントローラとして第2のコントローラ200が取り外される。実際には、当該第2のコントローラ200には障害が発生していないため、後述する図5(H)を用いた説明において再度装着される。
図5(D)に示すように、新規コントローラとして第3のコントローラ200Aが装着される(1回目の交換)。なお、この第3のコントローラ200Aは、上述した第2のコントローラ200とほぼ同様に、第2のコントローラ200のドライバー回路240に相当するドライバー回路240Aと、第2のコントローラ200のプロセッサ220に相当するプロセッサ220Aとを備えている。
本例では、閉塞すべきコントローラが前述のように誤っているため、図5(E)に示すように、第3のコントローラ200Aが装着されても、障害が発生している第1のコントローラ100の影響により、第1のコントローラ100と第3のコントローラ200Aとの間では、縮退リンクアップによるコントローラ間のシステム制御情報を用いて同期することができず、システム回復が失敗に終わってしまうことになる。
以上のようなことから、次は逆に2回目のコントローラ交換を実施する。図5(F)に示すように、2回目のコントローラ交換として第1のコントローラ100を対象とする。すなわち、図5(G)に示すように、閉塞すべきコントローラとして第1のコントローラ100が取り外される。
これにより、このように取り外された第1のコントローラ100の代わりに、図5(H)に示すように、例えば、前述した第2のコントローラ200が装着されるようになる。
(1−2−3)装置立ち上げ時縮退リンクアップ
図6は、装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
ステップS1では、第1のコントローラ100においてはマイクロ110Aが第1のコントローラ100全体を立ち上げる一方(ステップS11)、第2のコントローラ200ではマイクロ210Aが第2のコントローラ200全体を立ち上げる(ステップS12)。
次のステップS2では、第1のコントローラ100と第2のコントローラ200との間においてコントローラ間同期情報を送受信している。具体的には、第1のコントローラ100では、マイクロ110Aが第2のコントローラ200に対してコントローラ間同期情報(システム制御情報、エラー情報に相当)を送信し(ステップS21)、第2のコントローラ200では、マイクロ210Aがこのコントローラ同期情報を受信する(ステップS22)。一方、第2のコントローラ200では、マイクロ210Aが第1のコントローラ100に対してコントローラ間同期情報を送信し(ステップS23)、第1のコントローラ100ではマイクロ110Aがこのコントローラ同期情報を受信する(ステップS24)。
さらにステップS2では、第1のコントローラ100ではマイクロ110Aがコントローラ間通信パス500にリンクアップする一方(ステップS25)、第2のコントローラ200ではマイクロ210Aがこのコントローラ間通信パス500にリンクアップする(ステップS26)。これにより、コントローラ間通信パス500についてリンクアップが完了する(ステップS27)。
図6に示すステップS3では、例えばコントローラ間通信パス500に通信エラーのような障害が第2のコントローラ200においてのみ検出された場合(ステップS31)、第1のコントローラ100では、マイクロ110Aが、エラー情報のポーリングを実施することにより(ステップS32)、プロセッサ120のエラーレジスタ120Aからエラー発生報告を受け取り(ステップS33)、このエラー発生報告に応じたエラー情報をコントローラ間通信パス500のエラーログとしてメモリ110に保存する(ステップS34)。
一方、ステップS3では、例えばレーン障害が発生した場合(ステップS35)、第1のコントローラ100のエラーレジスタ120A及び第2のコントローラ200のエラーレジスタ140Aに対して障害報告が指示される(ステップS36)。すると、この障害情報は、第1のコントローラ100のエラーレジスタ120Aからマイクロ110Aに対して送信される一方(ステップS37)、第2のコントローラ200のエラーレジスタ220Aからマイクロ210Aに対して送信される(ステップS38)。
ステップS4では、第1のコントローラ100ではマイクロ110Aが障害割込みを検出する一方(ステップS41)、第2のコントローラ200ではマイクロ210Aが障害割込みを検出する(ステップS42)。
次にステップS7では、ハードウェア的にまたはソフトウェア的に障害が発生している一部のレーンを切り離し(ステップS71)、縮退稼働が実施される(ステップS72)。
次に、第1のコントローラ100では、マイクロ110Aが第2のコントローラ200に対してエラー情報を送信し(ステップS73)、第2のコントローラ200ではマイクロ210Aがこのエラー情報を受信する(ステップS74)。一方、第2のコントローラ200では、マイクロ210Aが第1のコントローラ100に対してエラー情報を送信し(ステップS75)、第1のコントローラ100ではマイクロ110Aがこのエラー情報を受信する(ステップS76)。
これにより、レーン障害の前後の障害情報を保存することができるため、障害モードの解析に有効なデータを共有することができる。本例では、第1のコントローラ100で2回エラーが発生し、第2のコントローラ200のエラーではエラーが発生していない。これ以降に複数のコントローラ100,200間の通信パス障害が発生しても、決め打ちで一方のコントローラを閉塞する代わりに、エラー情報に基づいて合理的にどのコントローラを閉塞するべきかについて決定することができるようになる。
以上のように第1のコントローラ100及び第2のコントローラ200は、エラー情報を互いに交換し合い、装置立ち上げ時縮退リンクアップを完了する。
(1−2−4)装置稼働中縮退リンクアップ
図7は、装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
図7に示すステップS3では、例えばコントローラ間通信パス500に通信エラーのような障害が第1のコントローラ100においてのみ検出された場合(ステップS31)、第1のコントローラ100では、マイクロ110Aが、エラー情報のポーリングを実施することにより(ステップS32)、プロセッサ120のエラーレジスタ120Aからエラー発生報告を受け取り(ステップS33)、このエラー発生報告に応じたエラー情報をとしてメモリ110に保存する(ステップS34)。
続いて、図7に示すステップS3では、第2のコントローラ200ではマイクロ210Aがエラー情報のポーリングを実施することにより(ステップS39A)、プロセッサ220のエラーレジスタ220Aからエラー未発生報告を受け取る(ステップS39B)。
さらに、図7に示すステップS3では、例えばコントローラ間通信パス500に通信エラーのような障害が第2のコントローラ200においてのみ検出された場合(ステップS31)、第1のコントローラ100では、マイクロ110Aが、エラー情報のポーリングを実施することにより(ステップS32)、プロセッサ120のエラーレジスタ120Aからエラー発生報告を受け取り(ステップS33)、このエラー発生報告に応じたエラー情報をコントローラ間通信パス500のエラーログとしてメモリ110に保存する(ステップS34)。
一方、ステップS3では、例えばレーン障害が発生した場合(ステップS35)、第1のコントローラ100のエラーレジスタ120A及び第2のコントローラ200のエラーレジスタ220Aに対して障害報告がなされる(ステップS36A)。すると、この障害情報は、第1のコントローラ100のエラーレジスタ120Aからマイクロ110Aに対して送信される一方(ステップS37)、第2のコントローラ200のエラーレジスタ220Aからマイクロ210Aに対して送信される(ステップS38)。
ステップS4では、第1のコントローラ100ではマイクロ110Aが障害割込みを検出する一方(ステップS41)、第2のコントローラ200ではマイクロ210Aが障害割込みを検出する(ステップS42)。
次にステップS7では、ハードウェア的にまたはソフトウェア的に障害が発生している一部のレーンを切り離し(ステップS71)、縮退稼働が実施される(ステップS72)。
次に、第1のコントローラ100では、マイクロ110Aが第2のコントローラ200に対してエラー情報を送信し(ステップS73)、第2のコントローラ200ではマイクロ210Aがこのエラー情報を受信する(ステップS74)。一方、第2のコントローラ200では、マイクロ210Aが第1のコントローラ100に対してエラー情報を送信し(ステップS75)、第1のコントローラ100ではマイクロ110Aがこのエラー情報を受信する(ステップS76)。
以上のように第1のコントローラ100及び第2のコントローラ200は、エラー情報を互いに交換し合い、装置稼働中に縮退リンクアップを完了する。
以上説明したように第1の実施の形態によれば、閉塞すべきコントローラを誤って判定してしまった場合でも、冗長系ストレージシステムを停止することなくオンラインで、このコントローラを再度交換することができる。また、仮に上記縮退稼働が実施できない場合でも、装置稼働以降に発生した障害情報に基づき、閉塞すべきコントローラを合理的な判定により決めることができる。このようにすると、閉塞すべきコントローラを決め打ちで当たり所を付けて閉塞する場合に比べて、本来閉塞すべきであったコントローラを正確に特定する確率を向上することができる。
即ち、本実施の形態によれば、システムの可用性を損なうコントローラのいわゆるオフライン交換を回避することができる。また、コントローラ間通信パス500を構成する複数のレーンのバス縮退によりシステムの稼働を維持することにより、より多くの障害情報を収集することができるようになる。この結果、本実施の形態では、障害モードの解析の精度が向上し、コントローラのオフラインでの交換を実施する可能性を低減することができる。これは、特に、レーン障害が徐々に拡大しやすい、障害モードの場合には特に有効となる。
(2)第2の実施の形態
第2の実施の形態による冗長系ストレージシステムは、第1の実施の形態による冗長系ストレージシステムとほぼ同様の構成であり同様の動作を実行するため、以下では、両者の異なる点を中心として説明する。
(2−1)第2の実施の形態における特徴
第2の実施の形態による冗長系ストレージシステムでは、第1のコントローラ100及び第2のコントローラ200がそれぞれ不良コントローラ特定処理を実行する点が第1の実施の形態とは異なっている。以下具体的に説明する。
(2−2)不良コントローラ特定処理
図8は、障害情報を用いた不良コントローラ特定処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
コントローラ間通信パス500において通信が可能であるが通信エラーが発生すると(ステップS101)、第2のコントローラ200では、ドライバー回路240が通信エラーを検出し(ステップS102)、プロセッサ220が当該通信エラーを検出する(ステップS103)。
第2のコントローラ200では、マイクロ210Aがプロセッサエラーポーリングを周期的に実施しており(ステップS104)、プロセッサ220のエラーレジスタ220Aのエラービットを有効化する(ステップS105)。
第2のコントローラ200では、マイクロ210Aがエラー情報の検出及びエラークリアを実施し(ステップS106)、エラービットを無効化する(ステップS107)。
第2のコントローラ200では、マイクロ210Aがドライバー回路エラー情報ポーリングを周期的に実施し(ステップS108)、エラービットを有効化する(ステップS109)。
第2のコントローラ200では、マイクロ210Aがエラー情報の検出及びエラークリアを実施し(ステップS110)、エラービットを無効化する(ステップS111)。
続いて、第1のコントローラ100のマイクロ110Aと、第2のコントローラ200のマイクロ210Aとの間では、周期的に、エラー情報が同期される(ステップS121,S122)。
一方、部分的に通信が可能であるもののレーン障害が発生すると(ステップS201)、コントローラ間通信パス500では、レーンの縮退稼働が実施される(ステップS72)。
このレーン障害により、コントローラ間通信パス500と第2のコントローラ200との間に通信エラーが発生し(ステップS202)、第1のコントローラ100では、プロセッサ120がこの通信エラーを検出する(ステップS203)。これにより、レーン障害が発生した後のコントローラ障害情報も、解析情報として使用することができる。
一方、このレーン障害により、このコントローラ間通信パス500と第1のコントローラ100との間に通信エラーが発生し(ステップS202)、第2のコントローラ200では、プロセッサ220がこの通信エラーを検出する(ステップS204)。これにより、レーン障害が発生した後のコントローラ障害情報も、解析情報として使用することができる。
第1のコントローラ100では、プロセッサ120が、プロセッサエラー情報ポーリングを実施し(ステップS205)、プロセッサ120のエラーレジスタ120Aのエラービットを有効化する(ステップS206)。
続いて、第1のコントローラ100では、マイクロ110Aがエラー情報の検出及びエラークリアを実施し(ステップS207)、プロセッサ120のエラーレジスタ120Aのエラービットを無効化する(ステップS208)。
一方、第2のコントローラ200では、マイクロ210Aがプロセッサエラー情報ポーリングを実施し(ステップS209)、ドライバー回路240のエラーレジスタ220Aのエアービットを有効化する(ステップS210)。
さらに第2のコントローラ200では、マイクロ210Aがエラー情報の検出及びエラークリアを実施し(ステップS211)、エラービットを無効化する(ステップS212)。
続いて、第1のコントローラ100のマイクロ110Aと、第2のコントローラ200のマイクロ210Aとの間では、周期的に、コントローラ間通信パス500を経由してエラー情報が交換されることにより同期される(ステップS121,S122)。これにより、第1のコントローラ100と第2のコントローラ200との間では、障害が発生した後の情報も共有することができるようになる。
一方、コントローラ間通信パス500においてパス断線障害が発生して通信が不可能である場合(ステップS301)、第1のコントローラ100では、プロセッサ120が、周期的な検出処理を実行することによってこの障害を検出する一方(ステップS302)、第2のコントローラ200では、プロセッサ220が、周期的な検出処理を実行することによってこの障害を検出する(ステップS303)。
第1のコントローラ100では、プロセッサ120が、割込み処理においてレーン障害情報をマイクロ110Aに送信する(ステップS304)。これにより、マイクロ110Aは、パス障害を検出し(ステップS305)、最終同期のエラー情報に基づいて障害モードを解析する(ステップS306)。
一方、第2のコントローラ200では、プロセッサ220が、割込み処理においてレーン障害情報をマイクロ210Aに送信する(ステップS307)。これにより、マイクロ210Aは、パス障害を検出し(ステップS308)、最終同期のエラー情報に基づいて障害モードを解析する(ステップS309)。これにより、可能な限り多く収集したエラー情報に基づいて解析を実施することができる。
第1のコントローラ100では、マイクロ110Aが解析結果に応じて、閉塞すべきコントローラを決定するとともに、第2のコントローラ200との間で調停を実施する(ステップS310)。
一方、第2のコントローラ200では、マイクロ210Aが解析結果に応じて、閉塞すべきコントローラを決定するとともに、第1のコントローラ100との間で調停を実施する(ステップS311)。
以上のような調停の結果、上記解析結果に応じて、第1のコントローラ100が閉塞されたり(ステップS312)、第2のコントローラ200が閉塞される(ステップS313)。
以上説明したように第2の実施の形態によれば、不良コントローラ特定処理を実行することにより、従来は不可能であった、レーン障害が発生した後のコントローラ障害情報も解析情報として使用することができるばかりでなく、障害が発生した後の情報も共有することができ、さらには、従来は不可能であったが、可能な限り多く収集したエラー情報に基づいて解析を実施することができる。
(3)その他の実施形態
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。例えば、上記実施形態では、各種プログラムの処理をシーケンシャルに説明したが、特にこれにこだわるものではない。従って、処理結果に矛盾が生じない限り、処理の順序を入れ替え又は並行動作するように構成しても良い。また、上記実施形態における各処理ブロックを含むプログラムは、例えばコンピュータが読み取り可能な非一時的記憶媒体に格納されている形態であっても良い。
本発明は、複数のコントローラ同士がコントローラ間通信パスを構成する複数のレーンによって接続された冗長系ストレージシステム及びその障害復旧方法に広く適用することができる。
100……コントローラ、110……メモリ、110A……マイクロ、120……プロセッサ、140……ドライバー回路、210……メモリ、210A……マイクロ、220……プロセッサ、240…………ドライバー回路、200……コントローラ、300……PC、500……コントローラ間通信パス。

Claims (10)

  1. 複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおいて、
    前記複数のコントローラは、それぞれ、
    前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集部と、
    前記障害情報収集部によって収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有させる情報同期部と、
    前記情報同期部によって最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定部と、
    前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御部と、
    前記複数のコントローラである第1のコントローラおよび第2のコントローラのうち前記閉塞判定部によって閉塞すべきと判定された前記第2のコントローラを交換すべき旨が通知されたことに応じて前記第2のコントローラが取り外され第3のコントローラが装着された旨の割込みを受信すると、前記第1のコントローラと前記第3のコントローラとの同期が成功したか否かを判定する判定部と、
    前記判定部によって前記第1のコントローラと前記第3のコントローラとの同期が成功しなかったと判定されたことに応じて前記第1のコントローラが取り外され前記第2のコントローラが再度装着された旨の割込みを受信すると、前記情報同期部に、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとを同期させる再同期指示部と、
    を備えることを特徴とする冗長系ストレージシステム。
  2. 前記複数のコントローラは、それぞれ、
    前記障害情報収集部によって収集される自らの障害情報及び相手の障害情報と、及び、前記システム制御情報とを格納可能なメモリを備え、
    前記コントローラ間通信パスは、複数のレーンにより構成されており、
    前記縮退制御部は、
    前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施可能とし、前記情報同期部による前記自らの障害情報及び前記相手の障害情報の同期制御を許容する
    ことを特徴とする請求項1に記載の冗長系ストレージシステム。
  3. 前記コントローラ間通信パスは、複数のレーンにより構成されており、
    前記縮退制御部は、
    前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施する
    を備えることを特徴とする請求項1に記載の冗長系ストレージシステム。
  4. 前記複数のコントローラには、
    前記障害が発生しうる部位として、前記複数のコントローラ間における通信を実施するドライバー回路が設けられていることを特徴とする請求項1に記載の冗長系ストレージシステム。
  5. 前記再同期指示部は、
    前記縮退制御部による縮退制御中に前記通信可能な少なくとも一部のレーンを用いて前記最後に同期された最も直前のシステム制御情報を用いて、前記情報同期部に、再度装着された前記第2のコントローラと前記第3のコントローラとの間で同期させる
    ことを特徴とする請求項に記載の冗長系ストレージシステム。
  6. 複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおける障害復旧方法において、
    前記複数のコントローラが、前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集ステップと、
    前記複数のコントローラが、前記障害情報収集ステップにおいて収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有する情報同期ステップと、
    前記情報同期ステップにおいて最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちの一方のコントローラが、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定ステップと、
    前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御ステップと、
    前記複数のコントローラである第1のコントローラおよび第2のコントローラのうち前記閉塞判定ステップによって閉塞すべきと判定された前記第2のコントローラを交換すべき旨が通知されたことに応じて前記第2のコントローラが取り外され第3のコントローラが装着された旨の割込みを受信すると、前記複数のコントローラのうちの一方のコントローラが、前記第1のコントローラと前記第3のコントローラとの同期が成功したか否かを判定する判定ステップと、
    前記判定ステップによって前記第1のコントローラと前記第3のコントローラとの同期が成功しなかったと判定されたことに応じて前記第1のコントローラが取り外され前記第2のコントローラが再度装着された旨の割込みを受信すると、前記複数のコントローラのうちの一方のコントローラが、前記情報同期ステップにおいて、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとを同期させる再同期指示ステップと、
    を有することを特徴とする冗長系ストレージシステムにおける障害復旧方法。
  7. 前記複数のコントローラは、それぞれ、
    前記障害情報収集ステップにおいて収集される自らの障害情報及び相手の障害情報と、及び、前記システム制御情報とを格納可能なメモリを備え、
    前記コントローラ間通信パスは、複数のレーンにより構成されており、
    前記縮退制御ステップでは、
    前記複数のコントローラは、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施可能とし、前記情報同期ステップにおける前記自らの障害情報及び前記相手の障害情報の同期制御が許容される
    ことを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。
  8. 前記コントローラ間通信パスは、複数のレーンにより構成されており、
    前記縮退制御ステップでは、
    前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施する
    を備えることを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。
  9. 前記複数のコントローラには、
    前記障害が発生しうる部位として、前記複数のコントローラ間における通信を実施するドライバー回路が設けられていることを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。
  10. 前記再同期指示ステップでは、
    前記複数のコントローラのうちの一方のコントローラが、前記縮退制御ステップにおける縮退制御中に前記通信可能な少なくとも一部のレーンを用いて前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとの間で同期する
    ことを特徴とする請求項に記載の冗長系ストレージシステムにおける障害復旧方法。
JP2017205507A 2017-10-24 2017-10-24 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 Active JP6620136B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017205507A JP6620136B2 (ja) 2017-10-24 2017-10-24 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法
US16/123,587 US20190121561A1 (en) 2017-10-24 2018-09-06 Redundant storage system and failure recovery method in redundant storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017205507A JP6620136B2 (ja) 2017-10-24 2017-10-24 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法

Publications (2)

Publication Number Publication Date
JP2019079263A JP2019079263A (ja) 2019-05-23
JP6620136B2 true JP6620136B2 (ja) 2019-12-11

Family

ID=66169305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017205507A Active JP6620136B2 (ja) 2017-10-24 2017-10-24 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法

Country Status (2)

Country Link
US (1) US20190121561A1 (ja)
JP (1) JP6620136B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019142095A (ja) * 2018-02-20 2019-08-29 京セラドキュメントソリューションズ株式会社 画像形成装置
JP7367495B2 (ja) 2019-11-29 2023-10-24 富士通株式会社 情報処理装置および通信ケーブルログ情報採取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790775A (en) * 1995-10-23 1998-08-04 Digital Equipment Corporation Host transparent storage controller failover/failback of SCSI targets and associated units
JP6135114B2 (ja) * 2012-12-13 2017-05-31 富士通株式会社 ストレージ装置、エラー処理方法及びエラー処理プログラム
JP2014191401A (ja) * 2013-03-26 2014-10-06 Fujitsu Ltd 処理装置、制御プログラム、及び制御法
US9575855B2 (en) * 2013-09-06 2017-02-21 Hitachi, Ltd. Storage apparatus and failure location identifying method
JP6187150B2 (ja) * 2013-10-25 2017-08-30 富士通株式会社 ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム
JP6307847B2 (ja) * 2013-11-19 2018-04-11 富士通株式会社 情報処理装置,制御装置及び制御プログラム

Also Published As

Publication number Publication date
JP2019079263A (ja) 2019-05-23
US20190121561A1 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
JP4415610B2 (ja) 系切替方法、レプリカ作成方法、及びディスク装置
KR100566338B1 (ko) 폴트 톨러런트 컴퓨터 시스템, 그의 재동기화 방법 및 재동기화 프로그램이 기록된 컴퓨터 판독가능 기억매체
US6708285B2 (en) Redundant controller data storage system having system and method for handling controller resets
CA2016191C (en) Method for control data base updating of a redundant processor in a process control system
US6802023B2 (en) Redundant controller data storage system having hot insertion system and method
CN101207408B (zh) 一种用于主备倒换的综合故障检测装置和方法
US6754792B2 (en) Method and apparatus for resynchronizing paired volumes via communication line
US6484187B1 (en) Coordinating remote copy status changes across multiple logical sessions to maintain consistency
EP3285168B1 (en) Disaster tolerance method and apparatus in active-active cluster system
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
US7853767B2 (en) Dual writing device and its control method
JP6620136B2 (ja) 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法
CN112486740B (zh) 一种多控制器之间的主从关系确认方法、系统及相关装置
CN108243031B (zh) 一种双机热备的实现方法及装置
CN112199240A (zh) 一种节点故障时进行节点切换的方法及相关设备
JP5366184B2 (ja) データ記憶システム、データ記憶方法
US20150195167A1 (en) Availability device, storage area network system with availability device and methods for operation thereof
JP5278530B2 (ja) 情報処理装置、情報処理装置の制御方法、及び情報処理装置の制御プログラム
JP2004272318A (ja) 系切り替えシステムおよびその処理方法並びにその処理プログラム
JPH07183891A (ja) 計算機システム
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JP6852910B2 (ja) フォールトトレラント装置、障害復帰方法、およびプログラム
US8713359B1 (en) Autonomous primary-mirror synchronized reset
JPH0468449A (ja) システム監視装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191118

R150 Certificate of patent or registration of utility model

Ref document number: 6620136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150