JP7331027B2 - スケールアウト型ストレージシステム及び記憶制御方法 - Google Patents
スケールアウト型ストレージシステム及び記憶制御方法 Download PDFInfo
- Publication number
- JP7331027B2 JP7331027B2 JP2021025696A JP2021025696A JP7331027B2 JP 7331027 B2 JP7331027 B2 JP 7331027B2 JP 2021025696 A JP2021025696 A JP 2021025696A JP 2021025696 A JP2021025696 A JP 2021025696A JP 7331027 B2 JP7331027 B2 JP 7331027B2
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- node
- memory
- update
- redundancy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1435—Saving, restoring, recovering or retrying at system level using file system or storage system metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2056—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
- G06F11/2071—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
- G06F11/2076—Synchronous techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
Description
・当該冗長化グループに属する二つ以上の計算機ノードが、プライマリの計算機ノードであるプライマリノードと、セカンダリの計算機ノードであるセカンダリノードとを含み、プライマリノードからセカンダリノードへのフェイルオーバーが行われるようになっている。
・当該冗長化グループに関わり制御のためにアクセスされるデータであり当該プライマリノードのメモリにおけるメタデータが、記憶装置における異なる永続記憶デバイス間で冗長化される。
・プライマリノードのメモリとセカンダリノードのメモリ間でメタデータが冗長化される。
<実施形態1>
・「プライマリノード」は、当該冗長化グループにおいて保護されるメタデータの制御権を有するノード、例えば、メタデータの更新を行うことができるノードである。プライマリノードが、フェイルオーバー元のノードである。
・「セカンダリノード」は、当該冗長化グループにおいて一つ以上存在するノードであり、当該冗長化グループにおいて保護されるメタデータを基に行われるフェイルオーバーのフェイルオーバー先となり得るノードである。フェイルオーバー後、セカンダリノードがプライマリノードに昇格する。プライマリノードに昇格後のノードに障害が発生した場合、当該冗長化グループにおける残りのいずれかのセカンダリノードがフェイルオーバー先となるフェイルオーバーが行われてよい。
<実施形態2>
<実施形態3>
<実施形態4>
<実施形態5>
・当該冗長化グループに属する二つ以上のノード101が、プライマリのノードであるプライマリノード101Aと、セカンダリのノードであるセカンダリノード101Bとを含み、プライマリノード101Aからセカンダリノード101Bへのフェイルオーバーが行われるようになっている。
・メタデータ10A(当該冗長化グループに関わり制御のためにアクセスされるデータであり当該プライマリノードのメモリ102におけるメタデータ)がストレージボックス111における異なる永続記憶デバイス114A及び114B間で冗長化される。
・プライマリノード101Aのメモリ102とセカンダリノード101Bのメモリ102間でメタデータ10Aが冗長化される。
・ノード101Aが、当該ノード101Aのメモリにおける更新後メタデータ10A1(又は更新後メタデータの更新前メタデータとの差分)を永続記憶デバイス114A(第1の永続記憶デバイスの一例)を含む一つ以上の永続記憶デバイス114に基づく第1の記憶領域に格納するための第1のライト要求をストレージボックス111に送信する。ここで、「第1の記憶領域」は、例えば、永続記憶デバイス114A単体が提供する記憶領域でもよいし、永続記憶デバイス114Aを含む二つ以上の永続記憶デバイス114に基づく記憶領域(例えば、ボリューム、或いは、ボリュームに割り当てられる領域)でもよい。
・ノード101Aが、当該ノード101Aのメモリ102における更新後メタデータ10A1(又は更新後メタデータの更新前メタデータとの差分)をノード101Bのメモリ102に格納するための第2のライト要求を当該ノード101Bに送信する。
・ノード101Bが、当該ノード101Bのメモリ102における更新後メタデータ10A2(又は更新後メタデータの更新前メタデータとの差分)を永続記憶デバイス114B(第2の永続記憶デバイスの一例)を含む一つ以上の永続記憶デバイスに基づく第2の記憶領域に格納するための第3のライト要求をストレージボックス111に送信する。ここで、「第2の記憶領域」は、例えば、永続記憶デバイス114B単体が提供する記憶領域でもよいし、永続記憶デバイス114Bを含む二つ以上の永続記憶デバイス114に基づく記憶領域(例えば、ボリューム、或いは、ボリュームに割り当てられる領域)でもよい。
・ノード101Aが、当該ノード101Aのメモリ102における更新後メタデータ(又は更新後メタデータの更新前メタデータとの差分)の一つ以上のライト要求をストレージボックス111に送信することで、異なる永続記憶デバイス114A及び114B間での冗長化された更新後メタデータが格納される。
・ノード101Aが、当該ノード101Aのメモリ102におけるメタデータの更新に同期してノード101Bのメモリ102に更新後メタデータを反映する。
Claims (2)
- それぞれメモリ及びプロセッサを有する複数の計算機ノードと、
複数の永続記憶デバイスを有し前記複数の計算機ノードに接続された記憶装置と
を備え、
一つ又は複数の冗長化グループの各々について、
当該冗長化グループは、二つ以上の計算機ノードにおける二つ以上の制御プログラムが属するグループであり、
前記二つ以上の制御プログラムの各々について、メタデータは、当該制御プログラムが計算機ノードのプロセッサにより実行されることで行われる制御の際にアクセスされるデータであり、
当該冗長化グループに属する二つ以上の計算機ノードが、プライマリの計算機ノードであるプライマリノードと、セカンダリの計算機ノードであるセカンダリノードとを含み、
前記複数の計算機ノードのいずれかのノードに障害が生じた場合、当該計算機ノードがプライマリノードである一つ以上の冗長化グループの各々について、フェイルオーバー先のセカンダリノードのメモリに格納されており当該冗長化グループに関わるメタデータを基に、プライマリノードの制御プログラムからセカンダリノードの制御プログラムへのフェイルオーバーが行われ、
一つ又は複数の冗長化グループの各々について、下記(A)乃至(D)が行われる、
(A)当該冗長化グループに関わり制御のためにアクセスされるデータであり当該プライマリノードのメモリにおけるメタデータが前記記憶装置における異なる永続記憶デバイス間で冗長化される、
(B)プライマリノードのメモリとセカンダリノードのメモリ間でメタデータが冗長化される、
(C)プライマリノードのメタデータに対する更新要求に応答して、下記(c1)及び(c2)の処理により、前記記憶装置での更新後メタデータ冗長化と、メモリ間での更新後メタデータ冗長化が実現される、
(c1)プライマリノードが、当該プライマリノードのメモリにおける更新後メタデータ又は更新後メタデータの更新前メタデータとの差分の一つ以上のライト要求を前記記憶装置に送信することで、前記記憶装置における異なる永続記憶デバイス間での冗長化された更新後メタデータが格納される、
(c2)プライマリノードが、当該プライマリノードのメモリにおけるメタデータの更新に同期してセカンダリノードのメモリに更新後メタデータを反映する、
(D)プライマリノードが、前記一つ以上のライト要求の各々について完了応答を前記記憶装置から受信し、且つ、当該プライマリノードのメモリにおけるメタデータの更新に同期してセカンダリノードのメモリに更新後メタデータを反映した場合に、前記更新要求に対する完了応答を発行する、
スケールアウト型ストレージシステム。 - 複数の永続記憶デバイスを有する記憶装置に接続されそれぞれメモリ及びプロセッサを有する複数の計算機ノードにより行われる記憶制御方法であって、
一つ又は複数の冗長化グループの各々について、
当該冗長化グループは、二つ以上の計算機ノードにおける二つ以上の制御プログラムが属するグループであり、
前記二つ以上の制御プログラムの各々について、メタデータは、当該制御プログラムが計算機ノードのプロセッサにより実行されることで行われる制御の際にアクセスされるデータであり、
当該冗長化グループに属する二つ以上の計算機ノードが、プライマリの計算機ノードであるプライマリノードと、セカンダリの計算機ノードであるセカンダリノードとを含み、
前記複数の計算機ノードのいずれかのノードに障害が生じた場合、当該計算機ノードがプライマリノードである一つ以上の冗長化グループの各々について、フェイルオーバー先のセカンダリノードのメモリに格納されており当該冗長化グループに関わるメタデータを基に、プライマリノードの制御プログラムからセカンダリノードの制御プログラムへのフェイルオーバーが行われ、
前記記憶制御方法は、
前記一つ又は複数の冗長化グループの各々について、下記(A)乃至(D)を行う、
(A)当該冗長化グループに関わり制御のためにアクセスされるデータであり当該プライマリノードのメモリにおけるメタデータを前記記憶装置における異なる永続記憶デバイス間で冗長化する、
(B)プライマリノードのメモリとセカンダリノードのメモリ間でメタデータを冗長化する、
(C)プライマリノードのメタデータに対する更新要求に応答して、下記(c1)及び(c2)の処理により、前記記憶装置での更新後メタデータ冗長化と、メモリ間での更新後メタデータ冗長化が実現される、
(c1)プライマリノードが、当該プライマリノードのメモリにおける更新後メタデータ又は更新後メタデータの更新前メタデータとの差分の一つ以上のライト要求を前記記憶装置に送信することで、前記記憶装置における異なる永続記憶デバイス間での冗長化された更新後メタデータが格納される、及び、
(c2)プライマリノードが、当該プライマリノードのメモリにおけるメタデータの更新に同期してセカンダリノードのメモリに更新後メタデータを反映する、及び、
(D)プライマリノードが、前記一つ以上のライト要求の各々について完了応答を前記記憶装置から受信し、且つ、当該プライマリノードのメモリにおけるメタデータの更新に同期してセカンダリノードのメモリに更新後メタデータを反映した場合に、前記更新要求に対する完了応答を発行する、
記憶制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021025696A JP7331027B2 (ja) | 2021-02-19 | 2021-02-19 | スケールアウト型ストレージシステム及び記憶制御方法 |
US17/474,395 US11630734B2 (en) | 2021-02-19 | 2021-09-14 | Scale-out storage system and storage control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021025696A JP7331027B2 (ja) | 2021-02-19 | 2021-02-19 | スケールアウト型ストレージシステム及び記憶制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022127506A JP2022127506A (ja) | 2022-08-31 |
JP7331027B2 true JP7331027B2 (ja) | 2023-08-22 |
Family
ID=82900665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021025696A Active JP7331027B2 (ja) | 2021-02-19 | 2021-02-19 | スケールアウト型ストレージシステム及び記憶制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11630734B2 (ja) |
JP (1) | JP7331027B2 (ja) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003084917A (ja) | 2001-09-07 | 2003-03-20 | Hitachi Ltd | 遠隔ファイル共用方法、その装置及びシステム |
JP2003208362A (ja) | 2002-01-16 | 2003-07-25 | Hitachi Ltd | 記憶装置システム |
JP2005078453A (ja) | 2003-09-01 | 2005-03-24 | Hitachi Ltd | ストレージシステムの制御方法、ストレージシステム、及びストレージ装置 |
JP2005128861A (ja) | 2003-10-24 | 2005-05-19 | Hitachi Ltd | リモートサイト及び/又はローカルサイトのストレージシステム及びリモートサイトストレージシステムのファイル参照方法 |
JP2004227099A5 (ja) | 2003-01-20 | 2006-02-02 | ||
JP2007193451A (ja) | 2006-01-17 | 2007-08-02 | Hitachi Ltd | Nasシステム及びリモートコピー方法 |
JP2008009810A (ja) | 2006-06-30 | 2008-01-17 | Hitachi Ltd | 磁気ディスク装置 |
JP2008225643A (ja) | 2007-03-09 | 2008-09-25 | Nec Corp | サーバ間ミラーディスクコントローラ、拡張カード |
JP2009070143A (ja) | 2007-09-13 | 2009-04-02 | Hitachi Ltd | Nas装置の差分リモートバックアップにおけるデータ復旧方法及び計算機システム |
JP2020021277A (ja) | 2018-07-31 | 2020-02-06 | 株式会社日立製作所 | 情報処理システム、情報処理システムの管理方法及びプログラム |
JP2020101949A (ja) | 2018-12-20 | 2020-07-02 | 株式会社日立製作所 | ストレージシステム及びストレージシステム制御方法 |
JP2021012476A (ja) | 2019-07-04 | 2021-02-04 | 株式会社日立製作所 | 分散ストレージシステム、分散ストレージシステムの制御方法及び記憶媒体 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156973A1 (en) * | 2001-01-29 | 2002-10-24 | Ulrich Thomas R. | Enhanced disk array |
JP4255699B2 (ja) | 2003-01-20 | 2009-04-15 | 株式会社日立製作所 | 記憶デバイス制御装置の制御方法、及び記憶デバイス制御装置 |
JP6114397B2 (ja) | 2013-03-18 | 2017-04-12 | 株式会社日立製作所 | 複合型ストレージシステム及び記憶制御方法 |
JP6791834B2 (ja) | 2017-11-30 | 2020-11-25 | 株式会社日立製作所 | 記憶システム及び制御ソフトウェア配置方法 |
JP7006265B2 (ja) * | 2017-12-28 | 2022-01-24 | 富士通株式会社 | 情報処理装置,制御プログラムおよび情報処理方法 |
US20190278746A1 (en) * | 2018-03-08 | 2019-09-12 | infinite io, Inc. | Metadata call offloading in a networked, clustered, hybrid storage system |
-
2021
- 2021-02-19 JP JP2021025696A patent/JP7331027B2/ja active Active
- 2021-09-14 US US17/474,395 patent/US11630734B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003084917A (ja) | 2001-09-07 | 2003-03-20 | Hitachi Ltd | 遠隔ファイル共用方法、その装置及びシステム |
JP2003208362A (ja) | 2002-01-16 | 2003-07-25 | Hitachi Ltd | 記憶装置システム |
JP2004227099A5 (ja) | 2003-01-20 | 2006-02-02 | ||
JP2005078453A (ja) | 2003-09-01 | 2005-03-24 | Hitachi Ltd | ストレージシステムの制御方法、ストレージシステム、及びストレージ装置 |
JP2005128861A (ja) | 2003-10-24 | 2005-05-19 | Hitachi Ltd | リモートサイト及び/又はローカルサイトのストレージシステム及びリモートサイトストレージシステムのファイル参照方法 |
JP2007193451A (ja) | 2006-01-17 | 2007-08-02 | Hitachi Ltd | Nasシステム及びリモートコピー方法 |
JP2008009810A (ja) | 2006-06-30 | 2008-01-17 | Hitachi Ltd | 磁気ディスク装置 |
JP2008225643A (ja) | 2007-03-09 | 2008-09-25 | Nec Corp | サーバ間ミラーディスクコントローラ、拡張カード |
JP2009070143A (ja) | 2007-09-13 | 2009-04-02 | Hitachi Ltd | Nas装置の差分リモートバックアップにおけるデータ復旧方法及び計算機システム |
JP2020021277A (ja) | 2018-07-31 | 2020-02-06 | 株式会社日立製作所 | 情報処理システム、情報処理システムの管理方法及びプログラム |
JP2020101949A (ja) | 2018-12-20 | 2020-07-02 | 株式会社日立製作所 | ストレージシステム及びストレージシステム制御方法 |
JP2021012476A (ja) | 2019-07-04 | 2021-02-04 | 株式会社日立製作所 | 分散ストレージシステム、分散ストレージシステムの制御方法及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2022127506A (ja) | 2022-08-31 |
US20220269567A1 (en) | 2022-08-25 |
US11630734B2 (en) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5595530B2 (ja) | データ移行システム及びデータ移行方法 | |
US10359967B2 (en) | Computer system | |
US11301159B2 (en) | Storage system and data transfer method | |
JP5931196B2 (ja) | I/oノード及び複数の計算ノードに備えられたキャッシュメモリの制御方法 | |
US8375004B2 (en) | Asynchronous remote copy system and storage control method | |
US11086562B2 (en) | Computer system having data amount reduction function and storage control method | |
CN105009099A (zh) | 计算机系统及数据控制方法 | |
US20170083417A1 (en) | Storage device | |
JP7472341B2 (ja) | ストレージシステム及びストレージシステムの制御方法 | |
US10761764B1 (en) | Storage system and data transfer method | |
JP7113832B2 (ja) | 分散ストレージシステム及び分散記憶制御方法 | |
US10884924B2 (en) | Storage system and data writing control method | |
JP6824929B2 (ja) | 記憶制御システム及び記憶制御方法 | |
US20220334726A1 (en) | Distributed storage system and storage control method | |
JP7331027B2 (ja) | スケールアウト型ストレージシステム及び記憶制御方法 | |
CN111124257B (zh) | 用于管理独立盘冗余阵列的方法、设备和计算机程序产品 | |
US10846012B2 (en) | Storage system for minimizing required storage capacity during remote volume replication pair duplication | |
WO2018055686A1 (ja) | 情報処理システム | |
US11256586B2 (en) | Remote copy system and remote copy management method | |
US11836391B2 (en) | Distributed storage system and storage control method | |
JP7443404B2 (ja) | ストレージシステム | |
WO2016153497A1 (en) | Method and apparatus for remote copy between enterprise storage and commodity hardware based software storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230105 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7331027 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |