JP6620136B2 - 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 - Google Patents
冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 Download PDFInfo
- Publication number
- JP6620136B2 JP6620136B2 JP2017205507A JP2017205507A JP6620136B2 JP 6620136 B2 JP6620136 B2 JP 6620136B2 JP 2017205507 A JP2017205507 A JP 2017205507A JP 2017205507 A JP2017205507 A JP 2017205507A JP 6620136 B2 JP6620136 B2 JP 6620136B2
- Authority
- JP
- Japan
- Prior art keywords
- controller
- controllers
- information
- failure
- storage system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
- G06F11/2092—Techniques of failing over between control units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0635—Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2005—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
Description
(1−1)第1の実施の形態による冗長系ストレージシステムの構成
図1は、第1の実施の形態による冗長系ストレージシステムの概略構成を示す。
第1の実施の形態による冗長系ストレージシステムは、第1のコントローラ100及び図示しない第1のストレージ装置、第2のコントローラ200及び図示しない第2のストレージ装置、並びにPC300を備える。第1のコントローラ100とPC300とはネットワーク400AによってLANカード130を介して接続されている一方、第2のコントローラ200とPC300とはネットワーク400BによってLANカード230を介して接続されている。
(1−2−1)障害回復方法の概要
図4は、障害回復方法の一例を示す。なお、第1の実施の形態では、図面においてコントローラを「CTL」と省略して表し、例えば、第1のコントローラ100を「CTL1」とも図示する一方、第2のコントローラ200を「CTL2」とも図示する。
図5(A)〜図5(H)は、それぞれ、閉塞すべきコントローラを誤って特定した場合における救済処理の一例を示すシーケンスチャートである。なお、以下の説明では、第1のコントローラ100のドライバー回路140に障害が発生したものと仮定する。
図6は、装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
図7は、装置稼働中における縮退リンクアップ処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
第2の実施の形態による冗長系ストレージシステムは、第1の実施の形態による冗長系ストレージシステムとほぼ同様の構成であり同様の動作を実行するため、以下では、両者の異なる点を中心として説明する。
第2の実施の形態による冗長系ストレージシステムでは、第1のコントローラ100及び第2のコントローラ200がそれぞれ不良コントローラ特定処理を実行する点が第1の実施の形態とは異なっている。以下具体的に説明する。
図8は、障害情報を用いた不良コントローラ特定処理の一例を示すシーケンスチャートである。なお、図示の符号において図4などに示す符号と同一である場合には、同様の処理であることを表している。
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。例えば、上記実施形態では、各種プログラムの処理をシーケンシャルに説明したが、特にこれにこだわるものではない。従って、処理結果に矛盾が生じない限り、処理の順序を入れ替え又は並行動作するように構成しても良い。また、上記実施形態における各処理ブロックを含むプログラムは、例えばコンピュータが読み取り可能な非一時的記憶媒体に格納されている形態であっても良い。
Claims (10)
- 複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおいて、
前記複数のコントローラは、それぞれ、
前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集部と、
前記障害情報収集部によって収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有させる情報同期部と、
前記情報同期部によって最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定部と、
前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御部と、
前記複数のコントローラである第1のコントローラおよび第2のコントローラのうち前記閉塞判定部によって閉塞すべきと判定された前記第2のコントローラを交換すべき旨が通知されたことに応じて前記第2のコントローラが取り外され第3のコントローラが装着された旨の割込みを受信すると、前記第1のコントローラと前記第3のコントローラとの同期が成功したか否かを判定する判定部と、
前記判定部によって前記第1のコントローラと前記第3のコントローラとの同期が成功しなかったと判定されたことに応じて前記第1のコントローラが取り外され前記第2のコントローラが再度装着された旨の割込みを受信すると、前記情報同期部に、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとを同期させる再同期指示部と、
を備えることを特徴とする冗長系ストレージシステム。 - 前記複数のコントローラは、それぞれ、
前記障害情報収集部によって収集される自らの障害情報及び相手の障害情報と、及び、前記システム制御情報とを格納可能なメモリを備え、
前記コントローラ間通信パスは、複数のレーンにより構成されており、
前記縮退制御部は、
前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施可能とし、前記情報同期部による前記自らの障害情報及び前記相手の障害情報の同期制御を許容する
ことを特徴とする請求項1に記載の冗長系ストレージシステム。 - 前記コントローラ間通信パスは、複数のレーンにより構成されており、
前記縮退制御部は、
前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施する
を備えることを特徴とする請求項1に記載の冗長系ストレージシステム。 - 前記複数のコントローラには、
前記障害が発生しうる部位として、前記複数のコントローラ間における通信を実施するドライバー回路が設けられていることを特徴とする請求項1に記載の冗長系ストレージシステム。 - 前記再同期指示部は、
前記縮退制御部による縮退制御中に前記通信可能な少なくとも一部のレーンを用いて前記最後に同期された最も直前のシステム制御情報を用いて、前記情報同期部に、再度装着された前記第2のコントローラと前記第3のコントローラとの間で同期させる
ことを特徴とする請求項3に記載の冗長系ストレージシステム。 - 複数のストレージ装置を各々制御する複数のコントローラを備え、前記複数のコントローラがコントローラ間通信パスを介して接続されている冗長系ストレージシステムにおける障害復旧方法において、
前記複数のコントローラが、前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で発生した障害に関する障害情報を収集する障害情報収集ステップと、
前記複数のコントローラが、前記障害情報収集ステップにおいて収集される障害情報及び前記複数のコントローラの制御に関するシステム制御情報を前記複数のコントローラ間で同期して共有する情報同期ステップと、
前記情報同期ステップにおいて最後に同期された障害情報に基づいて前記複数のコントローラまたは前記複数のコントローラ間のいずれかの部位で障害が発生していることが検出された場合、前記複数のコントローラのうちの一方のコントローラが、前記複数のコントローラのうちのどのコントローラを閉塞すべきかについて閉塞判定を実施する閉塞判定ステップと、
前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記コントローラ間通信パスの一部を用いて前記複数のコントローラ間における通信を縮退して実施する縮退制御ステップと、
前記複数のコントローラである第1のコントローラおよび第2のコントローラのうち前記閉塞判定ステップによって閉塞すべきと判定された前記第2のコントローラを交換すべき旨が通知されたことに応じて前記第2のコントローラが取り外され第3のコントローラが装着された旨の割込みを受信すると、前記複数のコントローラのうちの一方のコントローラが、前記第1のコントローラと前記第3のコントローラとの同期が成功したか否かを判定する判定ステップと、
前記判定ステップによって前記第1のコントローラと前記第3のコントローラとの同期が成功しなかったと判定されたことに応じて前記第1のコントローラが取り外され前記第2のコントローラが再度装着された旨の割込みを受信すると、前記複数のコントローラのうちの一方のコントローラが、前記情報同期ステップにおいて、前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとを同期させる再同期指示ステップと、
を有することを特徴とする冗長系ストレージシステムにおける障害復旧方法。 - 前記複数のコントローラは、それぞれ、
前記障害情報収集ステップにおいて収集される自らの障害情報及び相手の障害情報と、及び、前記システム制御情報とを格納可能なメモリを備え、
前記コントローラ間通信パスは、複数のレーンにより構成されており、
前記縮退制御ステップでは、
前記複数のコントローラは、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施可能とし、前記情報同期ステップにおける前記自らの障害情報及び前記相手の障害情報の同期制御が許容される
ことを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。 - 前記コントローラ間通信パスは、複数のレーンにより構成されており、
前記縮退制御ステップでは、
前記複数のコントローラが、前記複数のコントローラのうちの一方のコントローラを閉塞すべきと判定された際にも引き続き、前記複数のレーンのうち通信可能な少なくとも一部のレーンを用いて前記複数のコントローラ間における通信を縮退して実施する
を備えることを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。 - 前記複数のコントローラには、
前記障害が発生しうる部位として、前記複数のコントローラ間における通信を実施するドライバー回路が設けられていることを特徴とする請求項6に記載の冗長系ストレージシステムにおける障害復旧方法。 - 前記再同期指示ステップでは、
前記複数のコントローラのうちの一方のコントローラが、前記縮退制御ステップにおける縮退制御中に前記通信可能な少なくとも一部のレーンを用いて前記最後に同期された最も直前のシステム制御情報を用いて、再度装着された前記第2のコントローラと前記第3のコントローラとの間で同期する
ことを特徴とする請求項8に記載の冗長系ストレージシステムにおける障害復旧方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017205507A JP6620136B2 (ja) | 2017-10-24 | 2017-10-24 | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 |
US16/123,587 US20190121561A1 (en) | 2017-10-24 | 2018-09-06 | Redundant storage system and failure recovery method in redundant storage system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017205507A JP6620136B2 (ja) | 2017-10-24 | 2017-10-24 | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019079263A JP2019079263A (ja) | 2019-05-23 |
JP6620136B2 true JP6620136B2 (ja) | 2019-12-11 |
Family
ID=66169305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017205507A Active JP6620136B2 (ja) | 2017-10-24 | 2017-10-24 | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190121561A1 (ja) |
JP (1) | JP6620136B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019142095A (ja) * | 2018-02-20 | 2019-08-29 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
JP7367495B2 (ja) | 2019-11-29 | 2023-10-24 | 富士通株式会社 | 情報処理装置および通信ケーブルログ情報採取方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790775A (en) * | 1995-10-23 | 1998-08-04 | Digital Equipment Corporation | Host transparent storage controller failover/failback of SCSI targets and associated units |
JP6135114B2 (ja) * | 2012-12-13 | 2017-05-31 | 富士通株式会社 | ストレージ装置、エラー処理方法及びエラー処理プログラム |
JP2014191401A (ja) * | 2013-03-26 | 2014-10-06 | Fujitsu Ltd | 処理装置、制御プログラム、及び制御法 |
US9575855B2 (en) * | 2013-09-06 | 2017-02-21 | Hitachi, Ltd. | Storage apparatus and failure location identifying method |
JP6187150B2 (ja) * | 2013-10-25 | 2017-08-30 | 富士通株式会社 | ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム |
JP6307847B2 (ja) * | 2013-11-19 | 2018-04-11 | 富士通株式会社 | 情報処理装置,制御装置及び制御プログラム |
-
2017
- 2017-10-24 JP JP2017205507A patent/JP6620136B2/ja active Active
-
2018
- 2018-09-06 US US16/123,587 patent/US20190121561A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2019079263A (ja) | 2019-05-23 |
US20190121561A1 (en) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4415610B2 (ja) | 系切替方法、レプリカ作成方法、及びディスク装置 | |
KR100566338B1 (ko) | 폴트 톨러런트 컴퓨터 시스템, 그의 재동기화 방법 및 재동기화 프로그램이 기록된 컴퓨터 판독가능 기억매체 | |
US6708285B2 (en) | Redundant controller data storage system having system and method for handling controller resets | |
CA2016191C (en) | Method for control data base updating of a redundant processor in a process control system | |
US6802023B2 (en) | Redundant controller data storage system having hot insertion system and method | |
CN101207408B (zh) | 一种用于主备倒换的综合故障检测装置和方法 | |
US6754792B2 (en) | Method and apparatus for resynchronizing paired volumes via communication line | |
US6484187B1 (en) | Coordinating remote copy status changes across multiple logical sessions to maintain consistency | |
EP3285168B1 (en) | Disaster tolerance method and apparatus in active-active cluster system | |
US7787388B2 (en) | Method of and a system for autonomously identifying which node in a two-node system has failed | |
CN110807064B (zh) | Rac分布式数据库集群系统中的数据恢复装置 | |
US7853767B2 (en) | Dual writing device and its control method | |
JP6620136B2 (ja) | 冗長系ストレージシステム及び冗長系ストレージシステムにおける障害復旧方法 | |
CN112486740B (zh) | 一种多控制器之间的主从关系确认方法、系统及相关装置 | |
CN108243031B (zh) | 一种双机热备的实现方法及装置 | |
CN112199240A (zh) | 一种节点故障时进行节点切换的方法及相关设备 | |
JP5366184B2 (ja) | データ記憶システム、データ記憶方法 | |
US20150195167A1 (en) | Availability device, storage area network system with availability device and methods for operation thereof | |
JP5278530B2 (ja) | 情報処理装置、情報処理装置の制御方法、及び情報処理装置の制御プログラム | |
JP2004272318A (ja) | 系切り替えシステムおよびその処理方法並びにその処理プログラム | |
JPH07183891A (ja) | 計算機システム | |
JPH11120154A (ja) | コンピュータシステムにおけるアクセス制御装置および方法 | |
JP6852910B2 (ja) | フォールトトレラント装置、障害復帰方法、およびプログラム | |
US8713359B1 (en) | Autonomous primary-mirror synchronized reset | |
JPH0468449A (ja) | システム監視装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6620136 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |