JP4106014B2 - 少なくとも1つの不揮発性データ記憶装置を含む複数ノード・データ処理システムにおける通信方法およびプログラム - Google Patents
少なくとも1つの不揮発性データ記憶装置を含む複数ノード・データ処理システムにおける通信方法およびプログラム Download PDFInfo
- Publication number
- JP4106014B2 JP4106014B2 JP2003417234A JP2003417234A JP4106014B2 JP 4106014 B2 JP4106014 B2 JP 4106014B2 JP 2003417234 A JP2003417234 A JP 2003417234A JP 2003417234 A JP2003417234 A JP 2003417234A JP 4106014 B2 JP4106014 B2 JP 4106014B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- disk
- write access
- data
- storage device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Description
前提として、「アダプタ」という用語は、本明細書中で使用する場合、ハードウェア・データ処理ノードを様々な形式の通信ネットワークまたは交換機に接続する通信装置を指すことに留意されたい。前述のpSeries製品では、あるノードから指定されたノードに、より詳細には、指定されたノードに接続されたアダプタの1つにメッセージを送信する役割を交換機またはネットワークが果たす。ノードが活性かどうか、および適切なアダプタが機能しているかどうかの判定は、特にそれが通信上の問題から発生するノード障害の現れ方に関連するため、高可用性分散クラスタ・データ処理システムの核心をなす。高可用性サービスを提供するには、システム中のどのノード、どのネットワーク、どのネットワーク・アダプタが機能しているかをクラスタ・システムが判定できなければならない。これらの構成要素のいずれかに障害が発生した場合には、それを検出し、その障害に関する情報をより高水準のソフトウェア・サブシステムに渡し、可能な場合は、クラスタ・ソフトウェアおよびアプリケーション・プログラムによって回復する必要がある。
(1)CPUまたはメモリ枯渇(あるいはその他の理由)のためにデーモンがブロックされて、活性メッセージが適時に送信されなくなる。
(2)活性メッセージがその宛先に到達することを妨げるネットワーク問題。
上記項目(2)のネットワーク問題が本発明の方法で扱う具体的な問題である。
複数ネットワークを使用すると、個々のネットワークおよびアダプタ内の障害の問題に対処がなされるように見えるが、IPサブシステムが単一点障害(Single Point of Failure)になるという懸念が依然として残る。IP通信に障害が発生した場合、1つまたは複数のノードが「分離」され、それらが故障しているものとして誤って検出される可能性がある。なお、IPサブシステムは、オペレーティング・システムのうちの、アプリケーション・プログラムとネットワークの間でIP情報パケットの流れを管理する部分であることに留意されたい。この不正確な検出の可能性があるために、クラスタはしばしば、活性情報を送信する際にIPに依拠しない通信媒体を使用する「非IPハートビート」に頼る。したがって「非IP」ネットワークを使用すると、クラスタ内のノード間で活性情報を伝達する際にIP通信に依存することによって生じる単一点障害が回避される。
(1)クラスタ内のすべてのノードにおいて接続を必要とし、その必要最低限が、1つのノードがクラスタ内の他の2つのノードに接続される「デイジー・チェーン」トポロジである。
(2)システムによっては、アダプタ・カード・スロットが不足しがちであり、クラスタ活性のためだけに余分に2つのスロットを必要とすることが望ましくないと見なされることがある。
3.1−トポロジ・サービスおよびネットワーク・インターフェース・モジュール
トポロジ・サービスは、稼動中で到達可能な1組のアダプタおよびノードを判定するために使用されるそのより高水準のアダプタ・メンバー構成プロトコルと、その低水準アダプタ専用通信との間の明確に定義されたインターフェースを有する。このインターフェースは、すべてのアダプタの込み入った処理が低水準のネットワーク・インターフェース・モジュール(NIM)によって取り扱われるように設計される。NIMは、活性判定ソフトウェア(たとえばトポロジ・サービス)と活性判定に使用される通信装置との間に介在するソフトウェア層である。この層が、分散システム・プロトコルを扱う活性判定ソフトウェアと共に実際のデータ転送を行う。そうした層が設けられている場合、トポロジ・サービスに新規のネットワーク・タイプのサポートを追加するには、そのアダプタ用の新規のNIMを追加するだけでよい。
−ローカル・アダプタへの接続(アダプタ専用を意味する)
−ローカル・アダプタとの切断
−メッセージの送信(所与の宛先にメッセージを送信する)
−活性メッセージの送信を開始する
−活性メッセージの送信を停止する
−活性メッセージの監視を開始する
−活性メッセージの監視を停止する
−NIM活性検査
−終了処理
−「connect」コマンドへの応答
−ローカル・アダプタの稼動/非稼動状態の提供
−リモート・アダプタの稼動/非稼動状態の提供
−着信メッセージ(リモート・ノードによって送信される)
−NIM活性検査への応答
共用ディスクを通信媒体として使用できるようにするには、ディスクの一部分を新規のディスクNIM専用に割り振る。ディスクのこの部分はディスクNIM専用であり、その下にあるオペレーティング・システムによる書込みアクセス用ではない。これは通常、(1)1つのディスク区画全体をそのディスクNIMだけのために割り振る、あるいは(2)特定のディスク・ブロックをオペレーティング・システムが使用しないようにしておくことを意味する。
本発明の方法を実行するに当たり、同じ共用ディスクを使用しているクラスタ・アプリケーションの性能を犠牲にしないようにするために、ディスク・アクセスの頻度を低減させるまたは最小限に抑える、あるいはその両方を行うことが望ましい。
(1)定常状態においては、読取り側はパケットが書き込まれた直後にそれを取り込む。これは、書込み側がパケットを書き込むための「空き」スペースを見つけるのに、通常はほぼ問題がないことを示唆する。
(2)ディスクNIMを介してリモート・ノードに送信する必要のあるパケットは通常小さい(数百バイト以下)。
(1)書込み側のデータ領域に使用可能なスペースがない場合、書込み側は読取り側の制御セクタ(最後に読み取られたメッセージの連続番号)を取り込むだけでよい。
(2)小さいパケットは、データ・セクタ内ではなく、書込み側の制御セクタに書き込まれる。この手順によってディスク・アクセスが1回省かれる。
また、書込み側から読取り側にパケットを伝達するために使用するプロトコルは、書込み側と読取り側の両方で(NIMにおける障害またはノード上でクラスタが停止されることが原因で)NIMプロセスが終了されないようにしなければならない。
NIMの一番最初の始動時には、NIMメッセージ交換用に予約されたディスク領域は初期設定されない。その結果、その時点では送信されたパケットに関する有効な情報がない。これは、有効な情報が使用可能であることを示す制御セクタ内で「マジック・ナンバ」を使用することによって解決される。本明細書中で使用する場合、「マジック・ナンバ」という用語は、その番号を含むメモリ/ディスク領域全体が特定のタイプのデータを含むことを示すようにあるメモリ/ディスク位置に書き込まれる大きい数を指す。「マジック・ナンバ」のサイズおよび値は、同じ位置に書き込まれる他の種類のデータが所与の数と同じ値をもつ可能性が極めて低くなるように選択される。最初のマシン始動時にはマジック・ナンバが設定されていないので、NIMは、その領域が初期設定されていないことを「知り」、次いで、それ自体で初期設定を行う。
−node-unique-number
−other-side-known flag
−"magic" number
−ループ
*{ローカルの「node-unique-number」,「unknown」,「magicnumber」}を書き込む
*ランダムな時間待機する
*セクタを読み取る
node-unique-number!=ローカルのnode-unique-numberになるまで
(これはローカル・ノードが、それがディスクに書き込んだものを読み取らなかったことを意味する)
−リモートのnode-unique-numberを取り込む。ローカルのnode-unique-numberとリモートのnode-unique-numberとを比較する。
ローカルの数値がリモートの数値より小さい場合、ローカルが「領域1」を使用し、そうでない場合は「領域2」を使用する。
−ループ
*{ローカルの「node-unique-number」,「known」,「magicnumber」}を書き込む
*ランダムな時間待機する
*セクタを読み取る
node-unique-number!=ローカルのnode-unique-numberかつ
other-side-known=knownになるまで
−ループ
*このループを通るのが2回目以降である場合
−任意の時間Y(>X)秒間待機する
*{ローカルの「node-unique-number」,「known」,「magicnumber」}を書き込む(I)
*セクタ(1)を読み取る(II)
*node-unique-number=ローカルのnode-unique-numberである場合
−X秒間待機する
−セクタ(2)を読み取る
node-unique-number=ローカルのnode-unique-numberになるまで
このアルゴリズムが適切かどうかは、各ノードが上記ステップ(I)とステップ(II)の間にかかる時間がX秒未満であることにかかっている。
102 ノード2
103 ノード3
104 ノード4
110 共用ディスク(不揮発性記憶装置)
111 制御/データ・セクタ
111a 読取り部分
111b 書込み部分
121 制御/データ・セクタ
112 データ・セクタ
113 データ・セクタ
115 最後に読み取られた連続番号
120 ディスクNIM
122 データ・セクタ
123 データ・セクタ
140 IP NIM
150 ネットワーク
201 トポロジ・サービス
201a RSCTトポロジ・サービス・デーモン
202 トポロジ・サービス
301 グループ・サービス
302 グループ・サービス
Claims (7)
- 少なくとも1つの不揮発性データ記憶装置を含む複数ノード・データ処理システムにおける通信方法であって、
第1のノードによる書込みアクセス用に予約された前記記憶装置の領域(以下この領域を「第1のノード用の書込みアクセス領域」と称する)が使用可能であることを前記第1のノードが判定するステップと、
前記複数ノードのうちの前記第1のノードから前記第1のノード用の前記書込みアクセス領域に、更新された連続番号を含む前記第1のノードに関する活性情報を転送するステップと、
前記第1のノード用の前記書込みアクセス領域に読取り専用でアクセスできる第2のノードが前記活性情報を取り込むステップと、
前記第2のノードから前記第2のノードによる書込みアクセス用に予約された前記記憶装置の領域(以下この領域を「第2のノード用の書込みアクセス領域」と称する)に、前記更新された連続番号を転送し、それによって、前記第1のノードが、前記第1のノード用の前記書込みアクセス領域を活性情報の転送に使用できるのが何時かを判定することができるようにするステップと、
前記第1のノードが生成する活性情報パケットに関連する連続番号に基づいて前記第1のノードが書込み連続番号を決定するステップと、
前記第2のノードによって読み取られる活性情報パケットに関連する最大または最小の連続番号に基づいて前記第2のノードが読取り連続番号を決定し、それによって前記第1のノードが、前記第1のノード用の前記書込みアクセス領域が使用可能であることを判定するステップと、
前記書込み連続番号を単調に変化させ、それを前記第1のノードに関する新規の活性情報と共に前記第1のノード用の前記書込みアクセス領域に、前記第1のノードが、転送するステップとを含む方法。 - 前記第1のノード用の前記書込みアクセス領域が、制御情報とデータの両方が書き込まれるセクタを含む、請求項1に記載の方法。
- 前記第1のノード用の前記書込みアクセス領域が、転送されるデータのための少なくとも1つの追加セクタをも含む、請求項2に記載の方法。
- 転送用活性情報のサイズが前記セクタに収まるように制限され、それによって、前記記憶装置へのアクセス動作の回数が低減される、請求項2に記載の方法。
- 前記判定するステップが、前記第1のノード用の前記書込みアクセス領域において活性情報の転送用スペースが使用可能か否かを判定することに限定され、それによって、そうした判定のための前記記憶装置へのアクセスが回避される、請求項1に記載の方法。
- 前記記憶装置へのアクセスが活性ネットワーク抽象化層によって処理される、請求項1に記載の方法。
- 請求項1〜6の何れか1つに記載の方法における各ステップの処理をコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/323,010 US7003645B2 (en) | 2002-12-18 | 2002-12-18 | Use of a storage medium as a communications network for liveness determination in a high-availability cluster |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004199682A JP2004199682A (ja) | 2004-07-15 |
JP4106014B2 true JP4106014B2 (ja) | 2008-06-25 |
Family
ID=32593089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003417234A Expired - Fee Related JP4106014B2 (ja) | 2002-12-18 | 2003-12-15 | 少なくとも1つの不揮発性データ記憶装置を含む複数ノード・データ処理システムにおける通信方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7003645B2 (ja) |
JP (1) | JP4106014B2 (ja) |
CN (1) | CN1278254C (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6995637B2 (ja) | 2018-01-16 | 2022-01-14 | 株式会社Fts | 燃料タンク |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1635545B1 (en) * | 2004-09-14 | 2013-04-10 | Sony Ericsson Mobile Communications AB | Method and system for transferring of digital rights protected content using USB or memory cards |
US7376805B2 (en) * | 2006-04-21 | 2008-05-20 | Hewlett-Packard Development Company, L.P. | Distributed storage array |
US7937610B2 (en) * | 2007-04-27 | 2011-05-03 | International Business Machines Corporation | Fast node failure detection via disk based last gasp mechanism |
JP5096799B2 (ja) * | 2007-05-29 | 2012-12-12 | 株式会社野村総合研究所 | クラスタシステム、計算機、および障害対処方法 |
US7783813B2 (en) * | 2007-06-14 | 2010-08-24 | International Business Machines Corporation | Multi-node configuration of processor cards connected via processor fabrics |
US10572188B2 (en) * | 2008-01-12 | 2020-02-25 | Hewlett Packard Enterprise Development Lp | Server-embedded distributed storage system |
GB2459433B (en) | 2008-03-07 | 2012-06-06 | Hewlett Packard Development Co | Distributed network connection policy management |
GB2458157B (en) * | 2008-03-07 | 2012-04-25 | Hewlett Packard Development Co | Virtual machine liveness check |
US20110231602A1 (en) * | 2010-03-19 | 2011-09-22 | Harold Woods | Non-disruptive disk ownership change in distributed storage systems |
US8755268B2 (en) | 2010-12-09 | 2014-06-17 | International Business Machines Corporation | Communicating information in an information handling system |
CN103297396B (zh) * | 2012-02-28 | 2016-05-18 | 国际商业机器公司 | 群集系统中管理故障转移的装置和方法 |
CN103905499B (zh) * | 2012-12-27 | 2017-03-22 | 深圳市金蝶天燕中间件股份有限公司 | 利用共享磁盘构建通信通道的方法和系统 |
CN103458045B (zh) * | 2013-09-13 | 2017-04-19 | 汉柏科技有限公司 | 分布式集群的动态部署方法和系统 |
US9372752B2 (en) * | 2013-12-27 | 2016-06-21 | Intel Corporation | Assisted coherent shared memory |
CN104394202B (zh) * | 2014-11-13 | 2018-01-05 | 西安交通大学 | 一种移动社会网络中的节点活跃度量化方法 |
US11119870B2 (en) | 2016-09-21 | 2021-09-14 | Nec Corporation | Calculator, cluster management system, method, and non-transitory computer readable medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695906A (ja) | 1992-09-17 | 1994-04-08 | Fujitsu Ltd | Scmpシステムおけるsvpのssu制御権の自動切り替え方法 |
US6304980B1 (en) * | 1996-03-13 | 2001-10-16 | International Business Machines Corporation | Peer-to-peer backup system with failure-triggered device switching honoring reservation of primary device |
US6151688A (en) | 1997-02-21 | 2000-11-21 | Novell, Inc. | Resource management in a clustered computer system |
US6735200B1 (en) * | 2000-03-21 | 2004-05-11 | International Business Machines Corporation | Method and apparatus for monitoring the availability of nodes in a communications network |
US6915391B2 (en) | 2000-12-15 | 2005-07-05 | International Business Machines Corporation | Support for single-node quorum in a two-node nodeset for a shared disk parallel file system |
US7051115B2 (en) * | 2001-04-19 | 2006-05-23 | Lenovo (Singapore) Pte. Ltd. | Method and apparatus for providing a single system image in a clustered environment |
-
2002
- 2002-12-18 US US10/323,010 patent/US7003645B2/en not_active Expired - Fee Related
-
2003
- 2003-11-21 CN CN200310113773.2A patent/CN1278254C/zh not_active Expired - Fee Related
- 2003-12-15 JP JP2003417234A patent/JP4106014B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6995637B2 (ja) | 2018-01-16 | 2022-01-14 | 株式会社Fts | 燃料タンク |
Also Published As
Publication number | Publication date |
---|---|
US7003645B2 (en) | 2006-02-21 |
CN1278254C (zh) | 2006-10-04 |
JP2004199682A (ja) | 2004-07-15 |
CN1508714A (zh) | 2004-06-30 |
US20040123050A1 (en) | 2004-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4106014B2 (ja) | 少なくとも1つの不揮発性データ記憶装置を含む複数ノード・データ処理システムにおける通信方法およびプログラム | |
US6678788B1 (en) | Data type and topological data categorization and ordering for a mass storage system | |
US6691209B1 (en) | Topological data categorization and formatting for a mass storage system | |
US6345368B1 (en) | Fault-tolerant access to storage arrays using active and quiescent storage controllers | |
US7627779B2 (en) | Multiple hierarichal/peer domain file server with domain based, cross domain cooperative fault handling mechanisms | |
US6594775B1 (en) | Fault handling monitor transparently using multiple technologies for fault handling in a multiple hierarchal/peer domain file server with domain centered, cross domain cooperative fault handling mechanisms | |
US7219260B1 (en) | Fault tolerant system shared system resource with state machine logging | |
US6865157B1 (en) | Fault tolerant shared system resource with communications passthrough providing high availability communications | |
US6578160B1 (en) | Fault tolerant, low latency system resource with high level logging of system resource transactions and cross-server mirrored high level logging of system resource transactions | |
US7272674B1 (en) | System and method for storage device active path coordination among hosts | |
US6883065B1 (en) | System and method for a redundant communication channel via storage area network back-end | |
KR100232247B1 (ko) | 클러스터화된 다중처리 시스템 및 시스템내 디스크 액세스 경로의 고장 회복 방법 | |
US7003688B1 (en) | System and method for a reserved memory area shared by all redundant storage controllers | |
US7069468B1 (en) | System and method for re-allocating storage area network resources | |
EP1776639B1 (en) | Disk mirror architecture for database appliance with locally balanced regeneration | |
US6968425B2 (en) | Computer systems, disk systems, and method for controlling disk cache | |
US7043663B1 (en) | System and method to monitor and isolate faults in a storage area network | |
US7127633B1 (en) | System and method to failover storage area network targets from one interface to another | |
US8498967B1 (en) | Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome | |
US7975006B2 (en) | Method and device for managing cluster membership by use of storage area network fabric | |
US20050283641A1 (en) | Apparatus, system, and method for verified fencing of a rogue node within a cluster | |
JP6476350B2 (ja) | コンピューティングノード間の切り替え動作を実行する方法、装置、及び媒体 | |
JP2007072571A (ja) | 計算機システム及び管理計算機ならびにアクセスパス管理方法 | |
US7937610B2 (en) | Fast node failure detection via disk based last gasp mechanism | |
US20030023808A1 (en) | Method and system for maintaining data coherency in a dual input/output adapter utilizing clustered adapters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080318 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080328 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
LAPS | Cancellation because of no payment of annual fees |