JP6720250B2 - ストレージシステム及び構成情報制御方法 - Google Patents
ストレージシステム及び構成情報制御方法 Download PDFInfo
- Publication number
- JP6720250B2 JP6720250B2 JP2018131897A JP2018131897A JP6720250B2 JP 6720250 B2 JP6720250 B2 JP 6720250B2 JP 2018131897 A JP2018131897 A JP 2018131897A JP 2018131897 A JP2018131897 A JP 2018131897A JP 6720250 B2 JP6720250 B2 JP 6720250B2
- Authority
- JP
- Japan
- Prior art keywords
- configuration information
- cluster
- sub
- node
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 132
- 230000008569 process Effects 0.000 claims description 105
- 238000012545 processing Methods 0.000 claims description 98
- 230000001360 synchronised effect Effects 0.000 claims description 16
- 101100533821 Arabidopsis thaliana FSD1 gene Proteins 0.000 description 41
- 101150018269 sodB gene Proteins 0.000 description 41
- 238000010586 diagram Methods 0.000 description 17
- 238000007726 management method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2097—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0617—Improving the reliability of storage systems in relation to availability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0632—Configuration or reconfiguration of storage systems by initialisation or re-initialisation of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
- G06F3/0685—Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/82—Solving problems relating to consistency
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Hardware Redundancy (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本発明の一実施の形態に係るストレージシステムの構成例を示すブロック図である。図1に示したストレージシステム100は、複数のノードを連結してクラスタを構築したスケールアウト型のストレージシステムである。ストレージシステム100を構成する各ノードは、役割に応じて、コントローラノード(Controller Node)110、コンピュートノード(Compute Node)120、またはストレージノード(Storage Node)130と呼ぶ。
次に、ノード(ストレージノード)130が保持する構成情報と、構成情報に関する機能構成について、より詳しく説明する。
以下では、本実施の形態に係るストレージシステム100において分割保持された構成情報を更新する際の処理について詳しく説明する。構成情報の更新は、様々なタイミングで発生し得る。具体的には例えば、通常稼働時のI/O実施や、ノード故障等に伴うフェイルオーバー等の際に、構成情報の更新が発生する。
これまでに説明したように、本実施の形態に係るストレージシステム100は、スケールアウト型のストレージシステムの個々のストレージノードにおいてI/O処理を行うプロセスをサブクラスタ構成とし、さらに、システムの構成情報のうち、メインクラスタ全体で共有が必要な構成情報(グローバル構成情報)を全ノードの共通領域(例えばSODB)に、サブクラスタが動作するために必要な構成情報(ローカル構成情報)をローカルなサブクラスタに、分割保持するよう構成している。さらに、構成情報更新処理で詳述したように、構成情報を更新した場合に、グローバル構成情報とローカル構成情報との整合性を維持できるようにしている。
20 ハードウェア(Hardware)
21 CPU
22 メモリ(インメモリ)
23 各種物理ポート
24 物理ディスク(SSD)
25 物理ディスク(HHD)
30 ミドルウェア・ソフトウェア(Middleware/Software)
31 SDS OS
32 OSS
33 仮想マシン
34 ハイパーバイザ(Hypervisor)
35 Linuxカーネル(Linux Kernel)
100 ストレージシステム
110 コントローラノード(Controller Node)
111 管理操作者
120 コンピュートノード(Compute Node)
130(130A,130B) ストレージノード(Storage Node)
131(131A,131B) クラスタコントローラ(Cluster Controller)
132(132A,132B) ノードコントローラ(Node Controller)
133(133A,133B) サブクラスタ(SubCluster)
134(134A,134B) サブクラスタ(SubCluster)
135(135A,135B) スケールアウトデータベース(SODB:Scale-out DB)
136(136A,136B) ローカル構成情報(Local Config. Data)
137(137A,137B) ローカル構成情報(Local Config. Data)
138(138A,138B) グローバル構成情報(Global Config. Data)
210 マネジメントネットワーク(Management Network)
220 コンピュートネットワーク(Compute Network)
Claims (6)
- 複数のノードを連結してクラスタを構築したスケールアウト型のストレージシステムであって、
前記複数のノードのうち少なくとも2以上のノードはそれぞれ、
前記クラスタの全体に跨る処理を制御するクラスタコントローラと、
自ノードに閉じた処理を制御するノードコントローラと、
自ノード内のI/O処理を実施するプロセスであって、自ノード内のプロセス間でサブクラスタを構成するとともに、他の前記ノードにおける稼働系/待機系の対応プロセスと同期する、複数のサブクラスタプロセスと、
前記クラスタの全体で共有される不揮発なデータストアと、
を備え、
前記データストアが、前記ストレージシステムの構成情報のうち、前記クラスタの全体で共有が必要な情報を含む構成情報をグローバル構成情報として保持し、
前記サブクラスタプロセスが、前記ストレージシステムの構成情報のうち、自サブクラスタプロセスが動作するために必要な構成情報をローカル構成情報として保持し、
稼働系の前記サブクラスタプロセスが、前記データストアにアクセスすることなく前記I/O処理を実施可能であり、
前記I/O処理を実施中の稼働系の前記サブクラスタプロセスを備える前記ノードが停止または稼働不可状態になった場合に、他の前記ノードの1つにおいて当該サブクラスタプロセスに対応する待機系の前記サブクラスタプロセスを稼働系に切り替え、
前記稼働系に切り替えられた前記サブクラスタプロセスは、自身が保持する前記ローカル構成情報を用いて前記I/O処理の実施を引き継ぐ
ことを特徴とするストレージシステム。 - 前記グローバル構成情報を更新する場合には、当該グローバル構成情報の更新とあわせて、複数の前記ローカル構成情報のうち、当該更新の内容に対応する情報を含む特定のローカル構成情報を更新する
ことを特徴とする請求項1に記載のストレージシステム。 - 前記グローバル構成情報には、前記複数のサブクラスタプロセスのそれぞれが稼働系であるか待機系であるかを識別可能な制御情報が含まれ、
前記グローバル構成情報の更新が要求された場合に、
前記クラスタコントローラが、前記グローバル構成情報を更新し、さらに、前記制御情報に基づいて、前記特定のローカル構成情報を保持する稼働系の前記サブクラスタプロセスを特定し、
前記特定されたサブクラスタプロセスを備える前記ノードの前記ノードコントローラが、前記特定のローカル構成情報を前記グローバル構成情報の更新内容で更新する
ことを特徴とする請求項2に記載のストレージシステム。 - 複数のノードを連結してクラスタが構築されたスケールアウト型のストレージシステムの構成情報を制御する構成情報制御方法であって、
前記ストレージシステムにおいて前記複数のノードのうち少なくとも2以上のノードはそれぞれ、
前記クラスタの全体に跨る処理を制御するクラスタコントローラと、
自ノードに閉じた処理を制御するノードコントローラと、
自ノード内のI/O処理を実施するプロセスであって、自ノード内のプロセス間でサブクラスタを構成するとともに、他の前記ノードにおける稼働系/待機系の対応プロセスと同期する、複数のサブクラスタプロセスと、
前記クラスタの全体で共有される不揮発なデータストアと、
を備え、
前記データストアが、前記ストレージシステムの構成情報のうち、前記クラスタの全体で共有が必要な情報を含む構成情報をグローバル構成情報として保持し、
前記サブクラスタプロセスが、前記ストレージシステムの構成情報のうち、自サブクラスタプロセスが動作するために必要な構成情報をローカル構成情報として保持し、
稼働系の前記サブクラスタプロセスが、前記データストアにアクセスすることなく前記I/O処理を実施可能とし、
前記I/O処理を実施中の稼働系の前記サブクラスタプロセスを備える前記ノードが停止または稼働不可状態になった場合に、他の前記ノードの1つにおいて当該サブクラスタプロセスに対応する待機系の前記サブクラスタプロセスを稼働系に切り替える切替ステップと、
前記切替ステップで前記稼働系に切り替えられた前記サブクラスタプロセスが、自身が保持する前記ローカル構成情報を用いて前記I/O処理の実施を引き継ぐ引継ステップと、を備える
ことを特徴とする構成情報制御方法。 - 前記グローバル構成情報を更新する場合には、当該グローバル構成情報の更新とあわせて、複数の前記ローカル構成情報のうち、当該更新の内容に対応する情報を含む特定のローカル構成情報を更新する
ことを特徴とする請求項4に記載の構成情報制御方法。 - 前記グローバル構成情報には、前記複数のサブクラスタプロセスのそれぞれが稼働系であるか待機系であるかを識別可能な制御情報が含まれ、
前記グローバル構成情報の更新が要求された場合に、
前記クラスタコントローラが、前記グローバル構成情報を更新するグローバル構成情報更新ステップと、
前記グローバル構成情報更新ステップとともに、前記クラスタコントローラが、前記制御情報に基づいて、前記特定のローカル構成情報を保持する稼働系の前記サブクラスタプロセスを特定するサブクラスタプロセス特定ステップと、
前記サブクラスタプロセス特定ステップによって特定されたサブクラスタプロセスを備える前記ノードの前記ノードコントローラが、前記特定のローカル構成情報を前記グローバル構成情報の更新内容で更新するグローバル構成情報更新ステップと、
をさらに備える
ことを特徴とする請求項5に記載の構成情報制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018131897A JP6720250B2 (ja) | 2018-07-11 | 2018-07-11 | ストレージシステム及び構成情報制御方法 |
US16/296,973 US10884881B2 (en) | 2018-07-11 | 2019-03-08 | Scale-out storage system and configuration information control method for implementing high-availability, high-speed failover |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018131897A JP6720250B2 (ja) | 2018-07-11 | 2018-07-11 | ストレージシステム及び構成情報制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020009336A JP2020009336A (ja) | 2020-01-16 |
JP6720250B2 true JP6720250B2 (ja) | 2020-07-08 |
Family
ID=69139459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018131897A Active JP6720250B2 (ja) | 2018-07-11 | 2018-07-11 | ストレージシステム及び構成情報制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10884881B2 (ja) |
JP (1) | JP6720250B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7380363B2 (ja) * | 2020-03-19 | 2023-11-15 | 富士通株式会社 | 構築管理装置、情報処理システム及び構築管理プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8316113B2 (en) * | 2008-12-19 | 2012-11-20 | Watchguard Technologies, Inc. | Cluster architecture and configuration for network security devices |
US9009121B2 (en) * | 2009-10-30 | 2015-04-14 | Oracle International Corporation | Bootstrapping server using configuration file stored in server-managed storage |
US8688642B2 (en) * | 2010-02-26 | 2014-04-01 | Symantec Corporation | Systems and methods for managing application availability |
US8539087B2 (en) * | 2010-03-12 | 2013-09-17 | Symantec Corporation | System and method to define, visualize and manage a composite service group in a high-availability disaster recovery environment |
US9448966B2 (en) * | 2013-04-26 | 2016-09-20 | Futurewei Technologies, Inc. | System and method for creating highly scalable high availability cluster in a massively parallel processing cluster of machines in a network |
US9507678B2 (en) | 2014-11-13 | 2016-11-29 | Netapp, Inc. | Non-disruptive controller replacement in a cross-cluster redundancy configuration |
US10067843B1 (en) * | 2016-12-01 | 2018-09-04 | Infinidat Ltd. | Synchronizing control nodes and a recovery from a failure of a primary control node of a storage system |
-
2018
- 2018-07-11 JP JP2018131897A patent/JP6720250B2/ja active Active
-
2019
- 2019-03-08 US US16/296,973 patent/US10884881B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020009336A (ja) | 2020-01-16 |
US20200019478A1 (en) | 2020-01-16 |
US10884881B2 (en) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729129B (zh) | 存储集群系统的配置修改方法、存储集群及计算机系统 | |
CN109857445B (zh) | 存储系统和控制软件配置方法 | |
US10725878B2 (en) | Storage apparatus, storage system, and control method of storage system for dynamically securing free space when a storage apparatus is disused | |
US20190310925A1 (en) | Information processing system and path management method | |
US8875134B1 (en) | Active/active storage and virtual machine mobility over asynchronous distances | |
US11068367B2 (en) | Storage system and storage system control method | |
US9454417B1 (en) | Increased distance of virtual machine mobility over asynchronous distances | |
US20060047926A1 (en) | Managing multiple snapshot copies of data | |
JP5718533B1 (ja) | ストレージシステムのデータ移行方法 | |
US8726083B1 (en) | Synchronized taking of snapshot memory images of virtual machines and storage snapshots | |
US20100036896A1 (en) | Computer System and Method of Managing Backup of Data | |
WO2019164942A1 (en) | Autonomous cell-based control plane for scalable virtualized computing | |
JP6663478B2 (ja) | データ移行方法及び計算機システム | |
US9875059B2 (en) | Storage system | |
CN111400285A (zh) | mySQL数据分片处理方法、装置、计算机设备和可读存储介质 | |
JP2020047215A (ja) | ストレージシステム及びストレージ制御方法 | |
US20220038526A1 (en) | Storage system, coordination method and program | |
JP6720250B2 (ja) | ストレージシステム及び構成情報制御方法 | |
US20190065064A1 (en) | Computer system and method for controlling storage apparatus | |
JP6227771B2 (ja) | 論理ボリュームを管理するためのシステム及び方法 | |
US8726067B1 (en) | Utilizing both application and storage networks for distributed storage over asynchronous distances | |
JP2021026375A (ja) | ストレージシステム | |
US11593034B2 (en) | Simulating stretched volume remote instance using a shadow volume on a local system | |
US11449398B2 (en) | Embedded container-based control plane for clustered environment | |
JP7179810B2 (ja) | クラスタシステム、クラスタシステムのフェイルオーバー制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6720250 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |