JP2015056042A - クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム - Google Patents
クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム Download PDFInfo
- Publication number
- JP2015056042A JP2015056042A JP2013189298A JP2013189298A JP2015056042A JP 2015056042 A JP2015056042 A JP 2015056042A JP 2013189298 A JP2013189298 A JP 2013189298A JP 2013189298 A JP2013189298 A JP 2013189298A JP 2015056042 A JP2015056042 A JP 2015056042A
- Authority
- JP
- Japan
- Prior art keywords
- bus
- failure
- server
- cluster system
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000010365 information processing Effects 0.000 title claims description 5
- 238000001514 detection method Methods 0.000 claims abstract description 36
- 230000000903 blocking effect Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 1
- 235000013861 fat-free Nutrition 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2046—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/24—Handling requests for interconnection or transfer for access to input/output bus using interrupt
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
Abstract
Description
ディスクのアンマウントの場合は、処理に時間がかかり、書込み中のプロセスが存在する場合にはアンマウント処理が失敗する。
サーバ外のモジュールに接続するため接続時間がかかり、障害の種類によってはFCスイッチに接続できない、という問題がある。
HBA(Host Bus Adapter)カードのキャッシュに残っているI/O(入力/出力)データが書き込まれる可能性がある。また、アクセスを停止できたとしても、OSパニックを契機にフェイルオーバーを行うため、高速にフェイルオーバーができない。
BMCがHBAカードに対して、強制的にリセットを掛ける、あるいは電源供給を断つ方式の場合、BMCがビジーであった場合に、共有ディスクへのアクセスを停止するまでに時間がかかり、高速にフェイルオーバーができない。また、OS・ドライバに見えないタイミングで強制的にアクセスを停止させるため、OSパニックとなってしまい、フェイルオーバーに時間がかかってしまう。あるいは、BMCが停止していた場合は、共有ディスクへのアクセスを停止できない、フェイルオーバーもできないといった課題がある。
図2に示した本発明の一実施形態であるクラスタシステム1aは、相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバー機能を有する現用系サーバ100及び待機系サーバ600を有している。また、クラスタシステム1aは、当該現用系サーバ100及び待機系サーバ600にて共有可能なデータを記憶する共有ディスク700を備える。また、現用系サーバ100及び待機系サーバ600は、ハードウェア(HW)を制御するBMC(オンボード・サーバ管理チップ)と、共有ディスク700へのアクセスを行うディスク入出力装置400とを備える。さらに、クラスタシステム1aは、BIOSが提供するACPI(Advanced Configuration and Power Interface)機能であるACPI BIOS300とオペレーションシステム(OS)200を備える。ここで、BIOS(Basic Input/Output System)は、各サーバの基本的な入出力制御を行うモジュール群(=プログラム群)である。
図2及び図3を参照して、本実施形態の動作について詳細に説明をする。図3は、クラスタシステム1aの動作の流れを示した説明図である。なお、ディスク入出力装置400は、共有ディスク700へのアクセスを行うPCIe(PCI Express(登録商標))カードを備え、本システムではPCIeバス構造をとるものとする。図3を基に、本発明で提案するフェイルオーバーの流れを示す。なお、図3は、左から順に、クラスタソフトウェア220による処理、ACPI BIOS300による処理、PCIバスドライバ210による処理、そして、BMC50のファームウェアによる処理を並べて示している。
図2に示したクラスタシステム1aは次の効果を奏する。
第一の効果は、現用系サーバにおいて、BMCといった他制御装置に依らずにバス閉塞を瞬時に行うことで、共有ディスクへのアクセスを停止させ、共有データの保護を行える事にある。これは、本実施形態が、ACPI BIOS300が訂正不可能障害を意図的に起こすことでRoot Portのバス閉塞を行う機構を備えたことによる。
第二の効果は、バス閉塞を行った後、OS上のI/Oドライバの停止を行うことで、安全にシステム停止を行える点にある。これは、本実施形態が、ACPI BIOS300のNMI発行モジュール320に、I/Oドライバの停止処理の完了を待ち、NMI発行タイミングを調停する機構を設けたことによる。
そして、第三の効果は、クラスタソフトウェア220とBMC500双方からフェイルオーバーを通知することで、フェイルオーバー指示の冗長化を行える点にある。これは、本実施形態が、ACPI BIOS300のNMI発行モジュール320から、フェイルオーバー通知を行う機構を備えたことによる。
10、100 現用系サーバ
20、600 待機系サーバ
11、21 障害検出部
12、22 バス閉塞部
13、23 ディスク入出力部
30、700 共有ディスク
200 OS
210 PCIバスドライバ
220 クラスタソフトウェア
221 障害検出モジュール
223 バス閉塞要求モジュール
300 ACPI BIOS
310 バス閉塞モジュール
400 ディスク入出力装置
500 BMC
Claims (8)
- 現用系サーバと待機系サーバとが共有ディスクを利用して動作するクラスタシステムであって、前記各サーバが、
所定のバスを介して入出力されたデータを用いて前記共有ディスクへのアクセスを行うディスク入出力部と、
前記現用系サーバに障害が発生した場合にその障害を検出する障害検出部と、
前記障害検出部が前記障害を検出した場合に前記バスで訂正不可能障害を発生させるため訂正不可能障害発生要求を発行することで前記バスを閉塞させるバス閉塞部と
を備えることを特徴とするクラスタシステム。 - 前記各サーバがさらに、
前記バスに対するデータの入出力を制御するものであって、前記バスでの障害発生を通知するための障害割込信号が発行された場合に、前記バスに対するデータ入出力の制御動作を停止する入出力制御部と、
前記バス閉塞部が前記訂正不可能障害発生要求を発行した場合、前記入出力制御部の前記制御動作の停止を待って、前記現用系サーバを停止させるためのマスク不可割込信号を前記現用系サーバに対して発行する割込信号発行部と
を備えることを特徴とする請求項1に記載のクラスタシステム。 - 前記割込信号発行部が、前記マスク不可割込信号を発行する前に、前記現用系サーバから前記待機系サーバへのフェイルオーバーの通知を要求するフェイルオーバー通知要求信号を発行する
ことを特徴とする請求項2に記載のクラスタシステム。 - 前記各サーバがさらに、通信装置と、オンボード・サーバ管理チップとを備え、
前記各サーバの前記各通信装置を介して、前記バスの閉塞後に前記現用系サーバから前記待機系サーバへとフェイルオーバーが要求され、
前記各サーバの前記各オンボード・サーバ管理チップを介して、前記入出力制御部の停止後に前記現用系サーバから前記待機系サーバへとフェイルオーバーが通知される
ことを特徴とする請求項2または3に記載のクラスタシステム。 - 前記バス閉塞部を構成するプログラムが、前記各サーバの基本的な入出力制御を行うモジュール群に含まれている
ことを特徴とする請求項1から4のいずれか1項に記載のクラスタシステム。 - 現用系サーバと待機系サーバとが共有ディスクを利用して動作するクラスタシステムで用いられるサーバであって、
所定のバスを介して入出力されたデータを用いて前記共有ディスクへのアクセスを行うディスク入出力部と、
前記現用系サーバに障害が発生した場合にその障害を検出する障害検出部と、
前記障害検出部が前記障害を検出した場合に前記バスで訂正不可能障害を発生させるため訂正不可能障害発生要求を発行することで前記バスを閉塞させるバス閉塞部と
を備えることを特徴とする情報処理装置。 - 現用系サーバと待機系サーバとが共有ディスクを利用して動作するクラスタシステムの制御方法であって、前記各サーバが、
所定のバスを介して入出力されたデータを用いて前記共有ディスクへのアクセスを行うディスク入出力部と、
前記現用系サーバに障害が発生した場合にその障害を検出する障害検出部と、
バス閉塞部と
を備えていて、
前記バス閉塞部が、前記障害検出部が前記障害を検出した場合に前記バスで訂正不可能障害を発生させるため訂正不可能障害発生要求を発行することで前記バスを閉塞させる
ことを特徴とするクラスタシステムの制御方法。 - 現用系サーバと待機系サーバとが共有ディスクを利用して動作するクラスタシステムの制御プログラムであって、前記各サーバが、
所定のバスを介して入出力されたデータを用いて前記共有ディスクへのアクセスを行うディスク入出力部と、
前記現用系サーバに障害が発生した場合にその障害を検出する障害検出部と、
バス閉塞部と
を備えていて、
前記バス閉塞部が、前記障害検出部が前記障害を検出した場合に前記バスで訂正不可能障害を発生させるため訂正不可能障害発生要求を発行することで前記バスを閉塞させる過程を
コンピュータに実行させることを特徴とするクラスタシステムの制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013189298A JP5790723B2 (ja) | 2013-09-12 | 2013-09-12 | クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム |
US14/482,020 US9501372B2 (en) | 2013-09-12 | 2014-09-10 | Cluster system including closing a bus using an uncorrectable fault upon a fault detection in an active server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013189298A JP5790723B2 (ja) | 2013-09-12 | 2013-09-12 | クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015056042A true JP2015056042A (ja) | 2015-03-23 |
JP5790723B2 JP5790723B2 (ja) | 2015-10-07 |
Family
ID=52626748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013189298A Active JP5790723B2 (ja) | 2013-09-12 | 2013-09-12 | クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9501372B2 (ja) |
JP (1) | JP5790723B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9645901B2 (en) * | 2014-03-17 | 2017-05-09 | Primaryio, Inc. | Accelerating application write while maintaining high availability in shared storage clusters |
US10133488B2 (en) | 2014-03-17 | 2018-11-20 | Primaryio, Inc. | Apparatus and method for cache provisioning, configuration for optimal application performance |
US10146437B2 (en) | 2014-03-17 | 2018-12-04 | Primaryio, Inc. | Tier aware caching solution to increase application performance |
JP2016177642A (ja) * | 2015-03-20 | 2016-10-06 | 株式会社リコー | 情報処理装置、情報処理システム、プログラム及び画像処理システム |
US10089028B2 (en) * | 2016-05-27 | 2018-10-02 | Dell Products L.P. | Remote secure drive discovery and access |
US11403001B2 (en) * | 2020-04-30 | 2022-08-02 | EMC IP Holding Company, LLC | System and method for storage system node fencing |
US11836100B1 (en) * | 2022-06-16 | 2023-12-05 | Dell Products L.P. | Redundant baseboard management controller (BMC) system and method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348335A (ja) * | 2003-05-21 | 2004-12-09 | Nec System Technologies Ltd | 障害検出方法及び情報処理システム |
JP2006189963A (ja) * | 2004-12-28 | 2006-07-20 | Hitachi Ltd | ストレージアクセス制御方法、クラスタシステム、パス接続スイッチおよびストレージアクセス制御プログラム |
JP2009205428A (ja) * | 2008-02-27 | 2009-09-10 | Nec Saitama Ltd | 冗長構成の情報処理システム、ホストユニット切替え正常化方法、及びそのプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19939567B4 (de) * | 1999-08-20 | 2007-07-19 | Pilz Gmbh & Co. Kg | Vorrichtung zum Steuern von sicherheitskritischen Prozessen |
DE60318468T2 (de) * | 2002-10-07 | 2008-05-21 | Fujitsu Siemens Computers, Inc., Sunnyvale | Verfahren zur lösung von entscheidungslosigkeiten in einem cluster-rechnersystem |
JP4256693B2 (ja) | 2003-02-18 | 2009-04-22 | 株式会社日立製作所 | 計算機システム、i/oデバイス及びi/oデバイスの仮想共有方法 |
US7401254B2 (en) * | 2003-04-23 | 2008-07-15 | Dot Hill Systems Corporation | Apparatus and method for a server deterministically killing a redundant server integrated within the same network storage appliance chassis |
US7551552B2 (en) * | 2003-10-17 | 2009-06-23 | Microsoft Corporation | Method for providing guaranteed distributed failure notification |
JP4728896B2 (ja) * | 2006-07-13 | 2011-07-20 | エヌイーシーコンピュータテクノ株式会社 | コンピュータシステム |
JP4513852B2 (ja) * | 2007-11-07 | 2010-07-28 | 日本電気株式会社 | Pciバス障害リカバリ方法及びプログラム |
JP2012173752A (ja) | 2011-02-17 | 2012-09-10 | Nec Corp | クラスタシステム、データ記録方法、及びプログラム |
-
2013
- 2013-09-12 JP JP2013189298A patent/JP5790723B2/ja active Active
-
2014
- 2014-09-10 US US14/482,020 patent/US9501372B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348335A (ja) * | 2003-05-21 | 2004-12-09 | Nec System Technologies Ltd | 障害検出方法及び情報処理システム |
JP2006189963A (ja) * | 2004-12-28 | 2006-07-20 | Hitachi Ltd | ストレージアクセス制御方法、クラスタシステム、パス接続スイッチおよびストレージアクセス制御プログラム |
JP2009205428A (ja) * | 2008-02-27 | 2009-09-10 | Nec Saitama Ltd | 冗長構成の情報処理システム、ホストユニット切替え正常化方法、及びそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5790723B2 (ja) | 2015-10-07 |
US20150074448A1 (en) | 2015-03-12 |
US9501372B2 (en) | 2016-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5790723B2 (ja) | クラスタシステム、情報処理装置、クラスタシステムの制御方法及びプログラム | |
WO2020151722A1 (zh) | 故障处理方法、相关设备及计算机存储介质 | |
US8037364B2 (en) | Forced management module failover by BMC impeachment consensus | |
JP6098778B2 (ja) | 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム | |
US8775867B2 (en) | Method and system for using a standby server to improve redundancy in a dual-node data storage system | |
WO2017158666A1 (ja) | 計算機システム、計算機システムのエラー処理方法 | |
US10114688B2 (en) | System and method for peripheral bus device failure management | |
US20120266027A1 (en) | Storage apparatus and method of controlling the same | |
US9575855B2 (en) | Storage apparatus and failure location identifying method | |
US20160253285A1 (en) | Method And System of Synchronizing Processors To The Same Computational Point | |
US8683258B2 (en) | Fast I/O failure detection and cluster wide failover | |
JP3329986B2 (ja) | マルチプロセッサシステム | |
JP6540202B2 (ja) | 情報処理システム、制御装置および制御プログラム | |
US9665447B2 (en) | Fault-tolerant failsafe computer system using COTS components | |
JP4218538B2 (ja) | コンピュータシステム、バスコントローラ及びそれらに用いるバス障害処理方法 | |
CN109491842B (zh) | 用于故障安全计算系统的模块扩展的信号配对 | |
US20040123165A1 (en) | Peer power control | |
US8689059B2 (en) | System and method for handling system failure | |
US9645737B2 (en) | Information processing apparatus, control device, and control method | |
US11403001B2 (en) | System and method for storage system node fencing | |
US9311212B2 (en) | Task based voting for fault-tolerant fail safe computer systems | |
US20150089273A1 (en) | Computer system, control method for computer system and coupling module | |
Lee et al. | NCU-HA: A lightweight HA system for kernel-based virtual machine | |
JP2004013723A (ja) | 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法 | |
WO2016203565A1 (ja) | 計算機システムおよび制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5790723 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |