JP5476481B2 - ノード故障の対処 - Google Patents
ノード故障の対処 Download PDFInfo
- Publication number
- JP5476481B2 JP5476481B2 JP2012534703A JP2012534703A JP5476481B2 JP 5476481 B2 JP5476481 B2 JP 5476481B2 JP 2012534703 A JP2012534703 A JP 2012534703A JP 2012534703 A JP2012534703 A JP 2012534703A JP 5476481 B2 JP5476481 B2 JP 5476481B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- boot
- list
- volume
- storage subsystem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2056—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
- G06F11/2069—Management of state, configuration or failover
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1417—Boot up procedures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2046—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2056—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Hardware Redundancy (AREA)
Description
実施形態の以下の説明においては、本発明が実施され得る特定の実施形態を例示によって示す、本明細書の一部を形成する添付の図面を参照する。本発明の趣旨および範囲から逸脱することなく構造的変更が行なわれ得るため、他の実施形態が使用されてもよいことが理解されるべきである。
本明細書においては例示の目的のために本発明の特定の実施形態を説明したが、本発明の趣旨および範囲から逸脱することなくさまざまな修正が行なわれてもよいことが認識されるだろう。したがって、本発明の保護の範囲は以下の請求項およびその同等物のみによって制限される。
Claims (13)
- クラスタ・システムにおいて、1次記憶サブシステムの故障に対処するための方法であって、前記クラスタ・システムは管理ノード及び、前記管理ノードの外部にあり、且つ、各ノードと通信可能であるマネージャを備えており、前記クラスタ・システム内の各ノードは、2つ又はそれ以上のブート・ボリュームのリストを備えて構成されており、前記方法は、
各ノードそれぞれが、当該各ノードに対してローカルなフラッシュ・メモリに各ノードに対する前記ブート・ボリュームの前記リストを保存するステップであって、前記ブート・ボリューム・リストは、ノードと前記1次記憶サブシステムとの間の第1の論理パス、および前記ノードと2次記憶サブシステムとの間の第2の論理パスを含むものとして定義し、前記第1の論理パスは前記1次記憶サブシステム上のブート・ボリュームを指し、および前記第2の論理パスは前記2次記憶サブシステム上のブート・ボリュームを指す、前記保存するステップと、
前記1次記憶サブシステムの故障に応答して、前記管理ノードは、前記マネージャを使用して、前記各ノードそれぞれが、前記第1および第2の論理パスの役割を変更し、前記1次記憶サブシステムと通信する各ノードのアクセスを前記2次記憶サブシステムに切り替えるようにさせるステップと、
前記切り替えさせる間に非活動状態であった第3のノードのリブートの間に、前記第3のノードに関するブート・ボリュームを得るために前記第2の論理パスを使用するように前記第3のノードに指示することに応答して、前記管理ノードは、前記マネージャを使用して、前記各ノードそれぞれが、前記第3のノードにローカルな2つのブート・ボリュームのリスト中に前記第1および第2の論理パスの順序を変更するようにさせるステップと
を含む、前記方法。
- 前記切り替えさせる間に非活動状態であった前記第3のノードが、ローカル・フラッシュ・メモリ中のブート・ボリュームの前記リストを調べて、前記フラッシュ・メモリにおいて識別される前記第1の論理パスから当該第3のノードをブートするステップ
をさらに含む、請求項1に記載の方法。 - 任意のデータ・ボリュームにアクセスする前に、前記管理ノードは、前記マネージャを使用して、各ノードそれぞれが、ブート・ボリュームへの前記論理パスの識別およびデータ・ボリュームの場所を定めるために前記管理ノードを調べるようにさせるステップ
をさらに含む、請求項1又は2に記載の方法。 - 前記管理ノードは、前記マネージャを使用して、各ノードそれぞれが、前記リブートされたノードのフラッシュ・メモリにおけるブート・ボリュームへの論理パスのリストを修正して、前記第1および第2の論理パスの正確な順序を反映するようにさせるステップ
をさらに含む、請求項1〜3のいずれか一項に記載の方法。 - ノードに対するブート・ボリュームへの論理パスの誤ったリストに応答して、各ノードそれぞれが、論理パスの前記リストを訂正した後に当該ノードをリブートするステップ
をさらに含む、請求項1〜4のいずれか一項に記載の方法。 - 前記管理ノードは、前記マネージャを使用して、前記各ノードそれぞれが、前記クラスタ内の各活動ノードに対する前記第1および第2の論理パスの役割を変更するようにさせるステップ
をさらに含む、請求項1〜5のいずれか一項に記載の方法。 - 前記第3のノードが、前記第2の論理パスに割当てられたブート・ボリュームからブートするステップ
をさらに含む、請求項1に記載の方法。 - コンピュータ・システムであって、
管理ノードと、
少なくとも2つのノードであって、当該各ノードは関連するプロセッサおよびフラッシュ・メモリと通信し、前記各ノードは前記管理ノードと通信する、前記少なくとも2つのノードと、
1次記憶サブシステム及び2次記憶サブシステムと
前記管理ノードの外部にあり、且つ、前記各ノードと通信可能であるマネージャと
を備えており、
前記各ノードのフラッシュ・メモリは、2つ又はそれ以上のブート・ボリュームのリストを保存し、前記ブート・ボリューム・リストは、ノードと前記1次記憶サブシステムとの間の第1の論理パス、および前記ノードと2次記憶サブシステムとの間の第2の論理パスを含むものとして定義し、前記第1の論理パスは前記1次記憶サブシステム上のブート・ボリュームを指し、および前記第2の論理パスは前記2次記憶サブシステム上のブート・ボリュームを指し、
前記1次記憶サブシステムの故障に応答して、前記管理ノードは、クラスタ・システム内の前記マネージャを使用して、前記各ノードそれぞれが、前記第1および第2の論理パスの役割を変更し、前記1次記憶サブシステムと通信する各ノードのアクセスを前記2次記憶サブシステムに切り替えるようにさせ、
前記切り替えさせる間に非活動状態であった第3のノードのリブートの間に、前記第3のノードに関するブート・ボリュームを得るために前記第2の論理パスを使用するように前記第3のノードに指示することに応答して、前記管理ノードは、前記クラスタ・システム内のマネージャを使用して、前記各ノードそれぞれが、前記第3のノードにローカルな2つのブート・ボリュームのリスト中に前記第1および第2の論理パスの順序を変更するようにさせる、
前記システム。 - 前記切り替えさせる間に非活動状態であった前記第3のノードが、ローカル・フラッシュ・メモリ中のブート・ボリュームの前記リストを調べて、前記フラッシュ・メモリにおいて識別される前記第1の論理パスから当該第3のノードをブートするステップ
をさらに含む、請求項8に記載のシステム。 - 任意のデータ・ボリュームにアクセスする前に、前記管理ノードは、前記クラスタ・システム内のマネージャを使用して、各ノードそれぞれが、ブート・ボリュームへの前記論理パスの識別およびデータ・ボリュームの場所を定めるために前記管理ノードを調べるようにさせるステップ
をさらに含む、請求項8又は9に記載のシステム。 - 前記管理ノードは、前記クラスタ・システム内のマネージャを使用して、各ノードそれぞれが、前記リブートされたノードのフラッシュ・メモリにおけるブート・ボリュームへの論理パスのリストを修正して、前記第1および第2の論理パスの正確な順序を反映するようにさせる、請求項8〜10のいずれか一項に記載のシステム。
- ノードに対するブート・ボリュームへの論理パスの誤ったリストに応答して、各ノードそれぞれが、論理パスの前記リストを訂正した後に当該ノードをリブートする、請求項8〜11のいずれか一項に記載のシステム。
- 前記管理ノードは、前記クラスタ・システム内のマネージャを使用して、前記各ノードそれぞれが、前記クラスタ内の各活動ノードに対する前記第1および第2の論理パスの役割を変更するようにさせる、請求項8〜12のいずれか一項に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/605,758 US8161142B2 (en) | 2009-10-26 | 2009-10-26 | Addressing node failure during a hyperswap operation |
US12/605,758 | 2009-10-26 | ||
PCT/EP2010/065900 WO2011051164A1 (en) | 2009-10-26 | 2010-10-21 | Dynamic replica volume swap in a cluster |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013508839A JP2013508839A (ja) | 2013-03-07 |
JP2013508839A5 JP2013508839A5 (ja) | 2013-10-24 |
JP5476481B2 true JP5476481B2 (ja) | 2014-04-23 |
Family
ID=43530368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012534703A Expired - Fee Related JP5476481B2 (ja) | 2009-10-26 | 2010-10-21 | ノード故障の対処 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8161142B2 (ja) |
JP (1) | JP5476481B2 (ja) |
CN (1) | CN102597963B (ja) |
DE (1) | DE112010004140B4 (ja) |
GB (1) | GB2487003B (ja) |
WO (1) | WO2011051164A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8806268B2 (en) | 2011-09-29 | 2014-08-12 | International Business Machines Corporation | Communication of conditions at a primary storage controller to a host |
US8909985B2 (en) | 2012-07-12 | 2014-12-09 | International Business Machines Corporation | Multiple hyperswap replication sessions |
US9379939B2 (en) * | 2012-07-26 | 2016-06-28 | Verizon Patent And Licensing Inc. | Self troubleshooting home router |
CN102938705B (zh) * | 2012-09-25 | 2015-03-11 | 上海证券交易所 | 一种高可用多机备份路由表管理与切换方法 |
US9405628B2 (en) | 2013-09-23 | 2016-08-02 | International Business Machines Corporation | Data migration using multi-storage volume swap |
US9619331B2 (en) | 2014-01-18 | 2017-04-11 | International Business Machines Corporation | Storage unit replacement using point-in-time snap copy |
US9396014B2 (en) | 2014-02-27 | 2016-07-19 | International Business Machines Corporation | Data swap in virtual machine environment |
TWI595358B (zh) * | 2014-07-09 | 2017-08-11 | 宇瞻科技股份有限公司 | 邏輯磁區配置方法及具有其之非揮發性記憶裝置 |
CN110850956B (zh) * | 2019-10-28 | 2021-11-19 | 西安交通大学 | 一种基于数据覆盖集的分布式运算集群动态能耗管理方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69521101T2 (de) * | 1994-10-31 | 2001-10-18 | Ibm | Gemeinsam genutzte virtuelle Platten mit anwendungstransparenter Wiedergewinnung |
US5790775A (en) * | 1995-10-23 | 1998-08-04 | Digital Equipment Corporation | Host transparent storage controller failover/failback of SCSI targets and associated units |
US6292905B1 (en) * | 1997-05-13 | 2001-09-18 | Micron Technology, Inc. | Method for providing a fault tolerant network using distributed server processes to remap clustered network resources to other servers during server failure |
US6253209B1 (en) * | 1998-07-07 | 2001-06-26 | International Business Machines Corporation | Method for parallel, remote administration of mirrored and alternate volume groups in a distributed data processing system |
JP2000099360A (ja) * | 1998-09-24 | 2000-04-07 | Mitsubishi Electric Corp | 2重系システム |
US6578158B1 (en) * | 1999-10-28 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for providing a raid controller having transparent failover and failback |
US6754855B1 (en) * | 1999-12-01 | 2004-06-22 | Microsoft Corporation | Automated recovery of computer appliances |
US6601187B1 (en) * | 2000-03-31 | 2003-07-29 | Hewlett-Packard Development Company, L. P. | System for data replication using redundant pairs of storage controllers, fibre channel fabrics and links therebetween |
US6785838B2 (en) | 2001-02-13 | 2004-08-31 | Sun Microsystems, Inc. | Method and apparatus for recovering from failure of a mirrored boot device |
US20030028514A1 (en) | 2001-06-05 | 2003-02-06 | Lord Stephen Philip | Extended attribute caching in clustered filesystem |
US6738832B2 (en) * | 2001-06-29 | 2004-05-18 | International Business Machines Corporation | Methods and apparatus in a logging system for the adaptive logger replacement in order to receive pre-boot information |
US6912621B2 (en) * | 2002-04-17 | 2005-06-28 | International Business Machines Corporation | Method and apparatus for updating data in mass storage subsystem using emulated shared memory |
US7085956B2 (en) | 2002-04-29 | 2006-08-01 | International Business Machines Corporation | System and method for concurrent logical device swapping |
JP3737810B2 (ja) * | 2003-05-09 | 2006-01-25 | 株式会社東芝 | 計算機システム及び故障計算機代替制御プログラム |
JPWO2006043308A1 (ja) * | 2004-10-18 | 2008-05-22 | 富士通株式会社 | 運用管理プログラム、運用管理方法および運用管理装置 |
US7475204B2 (en) * | 2004-11-24 | 2009-01-06 | International Business Machines Corporation | Automatically managing the state of replicated data of a computing environment |
JP2006309439A (ja) * | 2005-04-27 | 2006-11-09 | Fujitsu Ltd | フレキシブルクラスタシステム |
US20070168711A1 (en) * | 2005-09-30 | 2007-07-19 | Chih-Wei Chen | Computer-clustering system failback control method and system |
US20070157016A1 (en) * | 2005-12-29 | 2007-07-05 | Dayan Richard A | Apparatus, system, and method for autonomously preserving high-availability network boot services |
JP4829670B2 (ja) * | 2006-04-28 | 2011-12-07 | 株式会社日立製作所 | San管理方法およびsan管理システム |
US20080059556A1 (en) * | 2006-08-31 | 2008-03-06 | Egenera, Inc. | Providing virtual machine technology as an embedded layer within a processing platform |
-
2009
- 2009-10-26 US US12/605,758 patent/US8161142B2/en not_active Expired - Fee Related
-
2010
- 2010-10-21 GB GB1204443.4A patent/GB2487003B/en active Active
- 2010-10-21 CN CN201080048479.6A patent/CN102597963B/zh not_active Expired - Fee Related
- 2010-10-21 WO PCT/EP2010/065900 patent/WO2011051164A1/en active Application Filing
- 2010-10-21 JP JP2012534703A patent/JP5476481B2/ja not_active Expired - Fee Related
- 2010-10-21 DE DE112010004140.7T patent/DE112010004140B4/de active Active
Also Published As
Publication number | Publication date |
---|---|
GB201204443D0 (en) | 2012-04-25 |
GB2487003A (en) | 2012-07-04 |
US20110099360A1 (en) | 2011-04-28 |
DE112010004140B4 (de) | 2020-08-27 |
WO2011051164A1 (en) | 2011-05-05 |
US8161142B2 (en) | 2012-04-17 |
GB2487003B (en) | 2015-10-14 |
JP2013508839A (ja) | 2013-03-07 |
DE112010004140T5 (de) | 2012-10-25 |
CN102597963B (zh) | 2015-09-16 |
CN102597963A (zh) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5476481B2 (ja) | ノード故障の対処 | |
US9671967B2 (en) | Method and system for implementing a distributed operations log | |
US8661457B2 (en) | Pipeline across isolated computing environments | |
US7992032B2 (en) | Cluster system and failover method for cluster system | |
JP4467624B2 (ja) | ソフトウェアアップデート管理プログラム、ソフトウェアアップデート管理装置、およびソフトウェアアップデート管理方法 | |
US8122212B2 (en) | Method and apparatus for logical volume management for virtual machine environment | |
US7203700B1 (en) | Online instance addition and deletion in a multi-instance computer system | |
JP2008293245A (ja) | フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法 | |
EP3218810A1 (en) | Virtual machine cluster backup | |
JP2008140198A (ja) | フェイルオーバ方法、およびその計算機システム。 | |
JP2008033933A (ja) | 同時物理プロセッサ再割り当て方法、システム、およびプログラム | |
US20060036832A1 (en) | Virtual computer system and firmware updating method in virtual computer system | |
JP2020035374A (ja) | 可用性のシステム、方法、およびプログラム | |
JP2001134454A (ja) | コンピューティング環境において構成要素を更新する方法、システムおよび製造品 | |
JP2013508839A5 (ja) | ||
US20240152286A1 (en) | Fast restart of large memory systems | |
JP2001022599A (ja) | フォールトトレラント・システム,フォールトトレラント処理方法およびフォールトトレラント制御用プログラム記録媒体 | |
US9952941B2 (en) | Elastic virtual multipath resource access using sequestered partitions | |
US10884881B2 (en) | Scale-out storage system and configuration information control method for implementing high-availability, high-speed failover | |
JP6429813B2 (ja) | 計算機システム | |
US11573869B2 (en) | Managing lifecycle of virtualization software running in a standalone host | |
JP5321658B2 (ja) | フェイルオーバ方法、およびその計算機システム。 | |
US20240069742A1 (en) | Chassis servicing and migration in a scale-up numa system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130703 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130813 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130813 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130813 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20130813 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130813 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20130917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131024 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131125 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131226 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131226 |
|
TRDD | Decision of grant or rejection written | ||
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140124 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20140124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140207 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |