JP2005534081A - 共有ストレージを備えたマルチノード環境のためのシステムおよび方法 - Google Patents

共有ストレージを備えたマルチノード環境のためのシステムおよび方法 Download PDF

Info

Publication number
JP2005534081A
JP2005534081A JP2003531367A JP2003531367A JP2005534081A JP 2005534081 A JP2005534081 A JP 2005534081A JP 2003531367 A JP2003531367 A JP 2003531367A JP 2003531367 A JP2003531367 A JP 2003531367A JP 2005534081 A JP2005534081 A JP 2005534081A
Authority
JP
Japan
Prior art keywords
node
storage
operating system
membership group
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003531367A
Other languages
English (en)
Other versions
JP4249622B2 (ja
Inventor
カラハン・マイケル・ジェイ.
キャスパー・コレネ
キングズバリ・ブレント・エー.
クルーガー・フィル
ダブ・ケネス・エフ.
ロコップ・テレンス・エム.
スピッツァー・マイケル・ジェイ.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polyserve Inc
Original Assignee
Polyserve Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polyserve Inc filed Critical Polyserve Inc
Publication of JP2005534081A publication Critical patent/JP2005534081A/ja
Application granted granted Critical
Publication of JP4249622B2 publication Critical patent/JP4249622B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99938Concurrency, e.g. lock management in shared database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】
【解決手段】 マルチノード環境を提供するためのシステムおよび方法が開示される。システムおよび方法は、第1のオペレーティングシステム(300a)と関連付けられた第1のノード(306a)と、第2のオペレーティングシステムと関連付けられた第2のノードとを備える。第2のオペレーティングシステムは、第1のオペレーティングシステムから独立している。システムおよび方法は、さらに、ストレージと、第2のノードをストレージと接続する相互接続(304)と、を備える。第1のノードは、ストレージに直接アクセスし、第2のノードは、ストレージに直接アクセスする。

Description

本発明は、概して、コンピュータシステムに関する。特に、本発明は、ストレージなどのリソースを共有するコンピュータシステムに関する。
サーバは、通例、大きなウェブのサービスや制作に伴って用いられるような大きなアプリケーションおよびワークロードに用いられる。しばしば、唯一のサーバが、必要なアプリケーションを実行するのに十分な能力を持たない場合がある。多量のトラフィックに対応するために、ストレージエリアネットワーク(SAN)内のいくつかのストレージデバイスと共に、いくつかのサーバを用いることができる。システムが巨大化すると、アプリケーションは、しばしば、保守を実行するためにアクセスを遮断するのを回避するために重要である。
典型的なサーバ管理システムは、サーバおよび共有ストレージを管理する1つの管理制御ステーションを用いる。そのようなシステムに起こり得る問題は、保守を実行するためにストレージエリアネットワーク全体の停止を引き起こし得るシングルポイント障害が生じ得ることである。もう一つの問題は、通例、そのシステムへの変更が生じた場合に、サーバ間の動的な協調がないことである。
そのようなシステムは、通例、大きなメインフレームを用いる。メインフレームの問題は、非常に高価なことである。あるいは、システムは、比較的小型のコンピュータを用いてもよいが、この解決法では、通例、コンピュータ間に1つのオペレーティングシステムを備えた1つの大型のマシンであるかのように機能するよう、コンピュータを協調させるカスタマイズ・オペレーティングシステムとカスタマイズ・ハードウェアとが必要になる。カスタマイズ・ハードウェアを入手して維持するには、非常にコストが掛かる。
したがって、共有ストレージを備えたマルチノード環境のためのシステムおよび方法を低価格で提供することが必要である。本発明は、そのような要求に応えるものである。
本発明は、処理、装置、システム、コンピュータ読み取り可能なストレージ媒体などのコンピュータ読み取り可能な媒体、またはプログラム命令が光または電子通信回線を介して送信されるコンピュータネットワークを含む種々の態様で実施できることを理解されたい。開示された処理の工程の順序は、本発明の範囲内で変更してよいことに注意されたい。
以下では、本発明の原理を例示する添付の図面に沿って、本発明の1以上の好ましい実施形態の詳細な説明を行う。本発明は、それら実施形態に関連して説明されているが、どの実施形態にも限定されないことを理解されたい。逆に、本発明の範囲は、添付の請求項によってのみ限定され、本発明は、数多くの代替物、変形例、および均等物を含んでいる。本発明の十分な理解を促すよう、以下では、例として数多くの具体的な内容が説明されている。本発明は、それら具体的な内容の一部またはすべてがなくとも請求項に従って実施することができる。明確にするために、本発明に関連する技術分野において周知である技術事項については、本発明を不必要に不明瞭としないよう、詳細な説明を省略した。
図1は、従来のサーバシステムを示すブロック図である。この例では、コンピュータ100A−100Dが、ネットワーク102によってネットワーク接続されている。コンピュータ100A−100Dの各々は、ローカル接続された専用のストレージ104A−104Dを有する。ビジネスコンピューティングでは、通例、常に情報を共有することが求められるが、この種のシステムは、共有情報へのアクセスが遅いことがあり、また、非常に高価なカスタマイズ・ハードウェアを必要とする場合もある。
図2は、別の従来のシステムを示すブロック図である。この例では、種々のサーバ200A−200Dのすべてが、サーバ200A−200Dのすべてを網羅する単一のオペレーティングシステムを用いる。この種のシステムは、通例、カスタマイズ・ハードウェアを必要とするため、非常に高価なものになり得る。この種のシステムに関するもう一つの問題は、1つのコンピュータ200A−200Dに障害が生じた場合に、マルチサーバシステム全体を停止させる必要が生じ得ることである。したがって、各コンピュータは、標準的なコンピュータよりも信頼性の高い必要があり、さらにコストが上昇する。
したがって、カスタマイズ・ハードウェア要素を必要としないマルチノード環境のためのシステムおよび方法が求められている。本発明は、そのような要求に応えるものである。
図3は、本発明の一実施形態に従って、マルチノード環境のためのシステムを示すブロック図である。この例では、サーバ300A−300Dが、ネットワーク相互接続302を介して接続されている。ネットワーク相互接続302は、イーサネット(商標)、インフィニバンド(商標)ネットワーク、またはファイバチャネルネットワークなど、ホスト間通信が可能な任意のネットワークインフラストラクチャであってよい。サーバ300A−300Dは、さらに、データストレージ相互接続304に接続されている。データストレージ相互接続304は、共有ストレージ306A−306Dに接続されている。データストレージ相互接続304は、サーバ300A−300Dによる共有ストレージ306A−306Dへのアクセスを実現可能な任意の相互接続であってよい。データストレージ相互接続304の例としては、ブロケード3200ファイバチャネルスイッチなどのファイバチャネルスイッチが挙げられる。あるいは、データストレージネットワークは、iSCSIまたはその他のIPストレージネットワーク、インフィニバンド(商標)ネットワーク、または他の種類のホスト・ストレージ間ネットワークであってもよい。さらに、ネットワーク相互接続302およびデータストレージ相互接続304は、単一の相互接続で実現されてもよい。
サーバ300A−300Dは、任意のコンピュータであってよく、市販のコンピュータ、サーバ、または、それらの任意の均等物であることが好ましい。サーバ300A−300Dは、互いに独立したオペレーティングシステムをそれぞれ実行することができる。したがって、各サーバ300A−300Dは、異なるオペレーティングシステムを実行できるが、実行しなくてもよい。例えば、サーバ300AがMicrosoft Windowsを実行し、サーバ300BがLinuxを実行し、同時に、サーバ300CがUnixオペレーティングシステムを実行してもよい。サーバ300A−300Dが独立したオペレーティングシステムを実行することの利点は、マルチノードシステム全体が動的になることができる点である。例えば、サーバ300A−300Dの1つに障害が起きても、他のサーバ300A−300Dは動作し続ける。
共有ストレージ306A−306Dは、ハードディスク、コンパクトディスク、テープ、およびランダムアクセスメモリなど、任意のストレージデバイスでよい。ファイルシステムは、共有ストレージ上に構築された論理エンティティである。共有ストレージ306A−306Dは、通例、物理デバイスと考えられ、ファイルシステムは、通例、ストレージの一部にオーバーレイされた論理構造と考えられるが、ファイルシステムは、本明細書においては簡単のため、共有ストレージと呼ぶこともある。例えば、共有ストレージに障害があった場合には、ファイルシステムの一部や、1以上のファイルシステム、ファイルシステムのオーバーレイされた物理ストレージデバイスなどに障害があり得る。したがって、本明細書において、共有ストレージは、物理ストレージデバイスや、ファイルシステムの一部、ファイルシステム、複数のファイルシステム、それらの任意の組み合わせなどを意味する。
図4は、本発明の一実施形態に従って、別のシステムを示すブロック図である。この例では、システムは、シングルポイント障害を有していないことが好ましい。したがって、サーバ300A’−300D’は、複数のネットワーク相互接続302A−302Dと接続されている。図示するように、サーバ300A’−300D’は、さらに、複数のストレージ相互接続304A−304Bと接続されている。ストレージ相互接続304A−304Bは、複数のデータストレージ306A’−306D’にそれぞれ接続されている。
このように、システム内に冗長性が存在することで、複数の要素または接続のいずれかに障害が起きた場合でも、システム全体は動作を継続できる。
図3,図4に示す例において、サーバ300A’−300D’の数、ストレージ相互接続304A−304Bの数、およびデータストレージ306A’−306D’の数は、顧客が必要とする数で構成可能であり、システムによって物理的に制限されることはない。同様に、サーバ300A’−300D’によって用いられるオペレーティングシステムについても、顧客が必要とする数の独立したオペレーティングシステムとして構成することができる。
図5は、本発明の一実施形態に従って、サーバ300のソフトウェア要素を示すブロック図である。本発明の一実施形態では、図3の各サーバ300A−300Dは、これらのソフトウェア要素を備えている。
本実施例では、以下の要素が図示されている。
分散ロックマネージャ(DLM)500は、クラッシュ回復中のロック状態の管理を含めて、ファイルシステムイメージ306a−306dに対するマトリクス規模(matrix-wide)のロックを管理する。マトリクスファイルシステム504は、DLM500が管理するロックを用いて、マトリクス規模の相互排他とマトリクス規模のファイルシステム306a−306dのメタデータおよびデータキャッシュの一貫性とを実現する。DLM500は、分散対称ロックマネージャである。マトリクス内のすべてのサーバ上にDLM500のインスタンスが存在することが好ましい。すべてのインスタンスは、他のすべてのインスタンスと対等であり、インスタンス間には、マスタ/スレーブの関係はない。
ロックキャッシング層(LCL)502は、マトリクスファイルシステム504とアプリケーションレベルのDLM500とのインタフェースとなるオペレーティングシステムカーネル内の要素である。LCL502の目的は、以下の通りである。
1.分散ロックを取得する必要があるカーネル常駐クライアントからDLM500の詳細を隠す。
2.DLM500のロックをキャッシュに格納する(すなわち、クライアントがDLM500のロックへの参照すべてを解除した後に、DLM500のロックを保持することができる)。時に、カーネルの要素がマトリクス規模のロックを取得するためにアプリケーションレベルの処理(DLM500)と通信する必要性をなくす。
3.処理およびサーバの範囲の両方においてロックを取得する機能を提供する(処理のロックは、対応するDLM(500)のロックが保持されることを保証し、競合するモードでロックを取得しようとするローカル処理を除外するが、サーバのロックは、DLM(500)のロックが保持されることを保証するだけで、他のローカル処理を除外することはない)。
4.ロックに関連する特定のイベント(特にDLM500レベルのロックの取得および放棄)が発生した際に、クライアントが様々な種類のロックに対するコールアウトを定義することを可能にする。この機能は、キャッシュコヒーレンシ(一貫性)のために必要であり、コールアウトに従って、対応するDLM500の書き込みロックが格下げまたは解除された際に、変更されたキャッシュデータを永続ストレージにフラッシュしたり、DLM500の読み取りロックが解除された際に、キャッシュデータをパージしたりする。
LCL502は、ユーザレベルのDLM500からロック要求を行う唯一のカーネル要素である。LCL502は、カーネルクライアント間でDLM500のロックを分配し(partition)、この結果、1つのDLM500のロックは、各ノードすなわちLCL502自体に、最大で1つのカーネルクライアントを有する。各DLM500ロックは、LCL502の要求の結果であって、クライアントによるLCL502ロックの要求によって誘起されたものであり、各LCL502ロックは、DLM500ロックによって支援される。
マトリクスファイルシステム504は、マトリクスサーバの共有ファイルシステム要素である。マトリクスファイルシステム504は、複数のサーバが、読み取り/書き込みモードにおいて、物理的に共有されたストレージデバイス306a−306dに存在するファイルシステムに同時にマウントすることを可能にする。マトリクスファイルシステム504は、分散対称マトリクスファイルシステムである。すなわち、ファイルシステム活動を実行するために、ファイルシステム活動が通過しなければならないサーバは1つも存在しない。マトリクスファイルシステム504は、標準のローカルファイルシステムセマンティクスおよびインタフェースを、ファイルシステムのクライアントに提供する。
SAN(ストレージエリアネットワーク)メンバーシップサービス506は、グループメンバーシップサービスのインフラストラクチャを、マトリクスファイルシステム504に提供する。グループメンバーシップサービスのインフラストラクチャは、共有ファイルシステム306a−306dのファイルシステムメンバーシップの管理、正常性の監視、マウントおよびアンマウントの調整、クラッシュ回復の調整を含む。
マトリクスメンバーシップサービス508は、仮想ホスト管理、サービス監視、通知サービス、データ複製などを含む、ローカルなマトリクス型のマトリクスメンバーシップサポートを提供する。マトリクスファイルシステム504は、MMS508と直接的にインタフェース接続することはないが、SANメンバーシップサービス506とインタフェース接続し、SANメンバーシップサービス506がMMS508とインタフェース接続することで、ファイルシステム504にマトリクスグループサービスのインフラストラクチャが提供される。
共有ディスク監視プローブ510は、マトリクス内の様々な共有ストレージデバイスのメンバーシップを維持および監視する。また、マトリクス内の様々な共有ストレージデバイスに関するリースを、不正なサーバ(rogue server)の「スプリットブレイン」状態に対する保護として、取得および維持する。さらに、SMS506と通信して、デバイスメンバーシップの遷移の発生時に回復活動を調整する。
ファイルシステムモニタ512は、マトリクスサーバのユーザインタフェースによって準備されるマトリクス構成に従って、マトリクスファイルシステム504のマウントおよびアンマウントを開始するために、SANメンバーシップサービス508によって用いられる。
サービスモニタ514は、マトリクス内の各サーバにおける様々なサービスの状態(正常性および利用可能性)を追跡し、この結果、マトリクスサーバは、監視されているサービスの状態の遷移時に自動的な改善措置をとることができる。監視されるサービスは、HTTP、FTP、Telnet、SMTPなどを含む。改善措置は、同一サーバでのサービスの再始動や、他のサーバでのサービスのフェイルオーバおよび再始動を含む。
デバイスモニタ516は、マトリクス内の種々のストレージ関連デバイスの状態(正常性および利用可能性)を追跡し、この結果、マトリクスサーバは、監視されているデバイスの状態の遷移時に自動的な改善措置をとることができる。監視されるデバイスは、データストレージデバイス306a−306d(ストレージデバイスドライブ、半導体ストレージデバイス、RAMストレージデバイス、JOBD、RAID配列など)と、ストレージネットワークデバイス304’(ファイバチャネルスイッチ、インフィニバンドスイッチ、iSCSIスイッチなど)と、を含んでよい。改善措置は、マトリクスファイルシステム504の回復の開始、ストレージネットワークパスのフェイルオーバ、デバイスのリセットを含む。
アプリケーションモニタ518は、マトリクス内の各サーバにおける様々なアプリケーションの状態(正常性および利用可能性)を追跡し、この結果、マトリクスサーバは、監視されているアプリケーションの状態の遷移時に自動的な改善措置をとることができる。監視されるアプリケーションは、データベース、メールルータ、CRMアプリケーションなどを含んでよい。改善措置は、同一サーバでのアプリケーションの再始動や、他のサーバでのアプリケーションのフェイルオーバおよび再始動を含む。
通知エージェント520は、マトリクス内で特定のオブジェクトと関連するイベントとを追跡し、追跡されたイベントの発生時に、提供されたコマンドのスクリプトを実行する。
複製エージェント522は、すべてのファイルシステムのサブツリーの内容を監視し、複製元ツリーから複製先ツリーへの複製が済んでいないデータを定期的に複製する。複製は、共有ストレージに配置されていないサブツリーに用いられることが好ましい。
マトリクス通信サービス524は、DLM500と、マトリクスメンバーシップサービス508と、SANメンバーシップサービス506とに、ネットワーク通信のインフラストラクチャを提供する。マトリクスファイルシステム504は、MCS524を直接的に用いるのではなく、これらの他の要素を介して間接的に用いる。
ストレージ制御層(SCL)526は、マウント時にマトリクスファイルシステム504を識別するために用いられるマトリクス規模のデバイス識別を提供する。SCL526は、さらに、ストレージ構造の構成と、マトリクスファイルシステム504を含む共有ストレージデバイス306a−306dから不正なサーバを隔離する低レベル入出力デバイス隔離と、を管理する。SCL526は、さらに、マトリクスの他のサーバとの通信が途絶えた場合に、通常のデバイス操作中に自発的に仲裁して自らを隔離する機能を、マトリクス内のサーバに提供する。
ストレージ制御層526は、共有ストレージデバイス306a−306dの管理を担うマトリクスサーバのモジュールである。ここでの管理は、2つの主要な機能から成る。1つ目は、1組の共有ストレージデバイス306a−306dへのホストアクセスを使用可能/使用不可能とすることにより、ハードウェアSANレベルで入出力の隔離を実行する機能である。2つ目は、すべてのマトリクスストレージデバイス306a−306dに対して、グローバルな(マトリクス規模の)固有のデバイス名(すなわち「ラベル」)を生成し、マトリクス内のすべてのホストがそれらのグローバルなデバイス名にアクセスできることを保証する機能である。SCLモジュールは、さらに、UIにデバイス情報を提供するために必要なユーティリティとライブラリルーチンとを備える。
擬似ストレージドライバ(PSD)528は、下層のターゲットデバイスへのすべての参照がPSD階層化ドライバを通過しなければならないように、ターゲットストレージデバイス306a−306dを「隠す」階層化ドライバである。したがって、PSDは、デバイスを「隔離する」機能を提供し、再び隔離解除されるまで、ホストサーバから、下層のターゲットデバイスへのすべての入出力を遮断する。PSDは、さらに、アプリケーションレベルのインタフェースを提供して、マトリクス全体に渡ってストレージパーティションをロックする。また、PSDは、マトリクスサーバ内の共有ストレージにアクセスするすべてのサーバが、ある特定の共有デバイスにアクセスするために同じパスを用いることができるように、共通のマトリクス規模の「ハンドル」すなわちパスを提供する機能を有する。
図6は、本発明の一実施形態に従って、マルチノード環境のための方法を示すフローチャートである。この例では、第1のオペレーティングシステムが準備され(600)、さらに、第2のオペレーティングシステムが準備される(602)。第2のオペレーティングシステムは、第1のオペレーティングシステムから独立していることが好ましい。これらのオペレーティングシステムは、Linuxやその他のオペレーティングシステム、または、バージョンの異なるWindows(商標)、Unix(商標)、Linuxなど、同じオペレーティングシステムであってよいが、それぞれ、共用のOSではなく、別個のOSが実行される。さらに、ストレージが準備される(604)。次いで、第1のオペレーティングシステムとストレージとを結合すると共に、第2のオペレーティングシステムとストレージとを結合する相互接続が準備される(606)。次に、ストレージは、第1のオペレーティングシステムによって直接アクセスされ(608)、さらに、第2のオペレーティングシステムによって直接アクセスされる(610)。
図7A〜図7Cは、本発明の一実施形態に従って、マルチノード環境のための方法を示す他のフローチャートである。ここでは、以下の用語が用いられる。
ここでは、通信グループを形成する協調した1組の処理(プログラム)を、グループメンバーシップと呼ぶ。例えば、グループメンバーシップは、サーバ間で形成することができる。ここでは、ストレージエリアのメンバーシップを、SANメンバーシップと呼ぶ。SANメンバーシップは、ディスクやスイッチなど、ストレージエリアネットワークのリソースへの読み取り/書き込みを許可されて通信を行っているサーバのグループのことである。ここでは、SANに配置された単一のファイルシステムを積極的に用いる1組のサーバを、共有ストレージグループメンバーシップと呼ぶ。一例としては、ファイルシステムがユーザプログラムによってアクセス可能となるよう、ファイルシステムを「マウント」した1組のサーバが挙げられる。ファイルシステムおよびネットワークリソースを論理的な全体として積極的に共有する単一のクラスタを形成する1組のサーバを、クラスタメンバーシップと呼ぶ。
この例では、サーバのクラスタのメンバーシップが決定される(700)。前述したように、一例としてサーバを用いているが、任意のノード、コンピュータまたはプロセッサを用いてよい。ここで用いられているように、クラスタは、メンバーシップと関連付けられた任意の2以上のサーバ、コンピュータ、プロセッサ、または、それらの任意の組み合わせであってよい。
次いで、クラスタのメンバーシップが変更されたか否かが判断される(702)。時間0においては、メンバーシップの履歴がないため、メンバーシップへの変更はない。その後、ある時点で、メンバーシップは、例えば、サーバが接続を切られたり、新しいサーバが追加されたりした場合に変更される。利用されているサーバの数の変更に加えて、メンバーシップが変更されたか否かを判断する工程は、サーバに障害が生じた場合、サーバが追加された場合、クラスタから削除された場合にも対応できる。
クラスタメンバーシップが変更されていない場合(702)、各サーバは、他のサーバにメッセージを送信し、それらのメッセージを監視して、他のサーバがアクティブであるか否かを確認する(704)。次いで、すべてのサーバが応答するか否かが判断される(706)。クラスタ内のすべての他のサーバがメッセージに応答すると、ストレージエリアネットワーク(SAN)メンバーシップサービス(SMS)は、クラスタ内のアクティブなメンバを通知される(708)。しかしながら、クラスタ内のすべてのサーバが応答しない場合(706)には、メッセージ活動は遮断される(716)。メッセージ活動の遮断によって、メンバーシップ変更の合間における失効メッセージが回避される。メッセージ活動が遮断されると、クラスタのメンバーシップが、再び決定される(700)。
クラスタメンバーシップが変更された場合(702)、もはや新しいロックは許可されない(710)。次いで、このクラスタ内にアドミニストレータ(ADM)が存在するか否かが判断される(712)。このクラスタ内にアドミニストレータが存在しない場合には、クラスタのメンバの1つが、アドミニストレータとして選択される(714)。図5の例では、SANメンバーシップサービス(SMS)506が、アドミニストレータとして利用可能である。
図7Bにおいて、アドミニストレータは、このクラスタ内の他のサーバがストレージエリアメンバーシップの一部であることを確認する(720)。工程720は、すべてのサーバがクラスタの一部である場合と、クラスタ外のサーバが存在する場合の両方に対応する。
意図的であっても非意図的であっても、ストレージエリアネットワーク内で動作する別個のクラスタが存在してもよい。いずれの場合でも、サーバがソフトウェアの設定を間違うと、サーバは、有効なクラスタの知識なしに、共有ストレージに接続してアクセスを試みることがある。ノードがクラスタの外部に存在すると、アドミニストレータは、それらのサーバを除外(隔離)して、共有ストレージ上のデータの破壊を防止する。サーバは、ネットワーククラスタへのメンバーシップの取得に成功すると、共有ストレージへのアクセスを許可され、SANメンバーシップの一部となる。
次いで、クラスタの非メンバはすべて除外され、クラスタのメンバはすべて共有ストレージグループに対する許可を与えられる(722)。したがって、クラスタメンバーシップ外のサーバは、図5のディスク306A−306Dへのアクセスから除外される。
次いで、共有ストレージが1に設定される(724)。この共有ストレージグループのメンバに対して回復が必要か否かが、ADMによって判断される(726)。
この共有ストレージグループのメンバに対して回復が必要ない場合、最後の共有ストレージであるか否かが判別される(732)。最後の共有ストレージでない場合、その共有ストレージは、共有ストレージ+1に設定され(730)、次の共有ストレージは、その共有ストレージのメンバに対して回復が必要であるか否かをアドミニストレータに判断させることによって評価される(726)。しかしながら、この共有ストレージが、最後の共有ストレージである場合には、新しいロックの許可が、アクセス可能な共有ストレージに対して再開される(734)。
アドミニストレータが、この共有ストレージのメンバに対して回復が必要であると判断した場合(726)、この共有ストレージのどのメンバが回復を必要とするかが判断される(728)。例えば、各サーバのSANメンバーシップサービス(SMS)は、そのサーバが回復を必要とするか否かを分散ロックマネージャ(DLM)に通知することができる。
回復を必要とするサーバが分析される。この例では、回復を必要とするメンバのDLMは、1に設定される(750)。次いで、マトリクスファイルシステム(MFS)およびロックキャッシング層(LCL)によって共有ストレージにおけるジャーナル回復を始動させることのできるロックが回復される(752)。
次いで、回復が成功したか否かが判断される(754)。回復が成功した場合、このサーバが、回復を必要とする最後のサーバであるか否かが判断される(762)。このサーバが、回復を必要とする最後のサーバではなかった場合、DLMをDLM+1に設定することにより(764)、回復を必要とする次のサーバが分析される。そして、次のサーバに対してロックが回復される(752)。しかしながら、このサーバが、回復を必要とする最後のサーバであった場合には(762)、この共有ストレージが、分析を必要とする最後の共有ストレージであるか否かが判断される(図7Bの732)。
ロックの回復が成功しなかった場合には(図7Cの754)、障害のある共有ストレージは、エラーとしてマークされ(756)、人間のシステムオペレータに警報が送信される(758)。
そして、障害のある共有ストレージは隔離され、その共有ストレージへのアクセスが遮断される(760)。次いで、この共有ストレージが、分析を必要とする最後の共有ストレージであるか否かが判断される(図7Bの732)。
図8は、本発明の一実施形態に従って、共有ストレージからファイルを読み取るための方法を示すフローチャートである。クラスタ内のサーバのオペレーティングシステムが、ファイルの一部を読み取ることを要求する(800)。
共有ロック要求が提供される(802)。例えば、図5のマトリクスファイルシステム(MFS)504が、図5のロックキャッシング層(LCL)502に共有ロックを要求する。次いで、その要求が許可されるか否かが判断される(804)。共有ロック要求が許可されない場合には、共有ストレージの障害があるか否かが判断される(806)。
共有ストレージの障害がある場合、その共有ストレージは、必要に応じて隔離される(808)。しかしながら、共有ストレージの障害がない場合には、MFSが、LCLに共有ロックを要求する(802)。次いで、その共有ロック要求が許可されるか否かが判断される(804)。
共有ロック要求が許可されると(804)、サーバが、共有ストレージからオペレーティングシステムのバッファキャッシュに、要求されたファイルの断片を読み取ることができるか否かが判断される(810)。サーバが、ファイルをOSのバッファキャッシュに読み取ることができる場合、処理は終了する。しかしながら、サーバが、OSのバッファキャッシュへの読み取りを実行できない場合には、共有ロックは解除され、オペレーティングシステムまたはアプリケーションにエラーが返される(812)。そのようなエラーは、例えば、ディスクの障害や接続の障害が生じている場合に起こり得る。
図9A,図9Bは、本発明の一実施形態に従って、共有ストレージ内のファイルへ書き込むための方法を示すフローチャートである。
この例では、サーバのオペレーティングシステムが、ファイルの一部への書き込みを要求する(900)。図5のマトリクスファイルシステム(MFS)504が、ロックキャッシング層(LCL)に排他ロックを要求する(902)。次いで、その排他ロックの要求が許可されるか否かが判断される(904)。排他ロックの要求が許可されない場合、共有ストレージに障害があるか否かが判断される(920)。共有ストレージの障害がある場合、その共有ストレージは、必要に応じて隔離される(922)。しかしながら、共有ストレージの障害がない場合には(920)、再び、排他ロックの要求がなされる(902)。
排他ロックの要求が許可された場合には(904)、ローカルキャッシュ内に、そのファイルの要求された部分の安定したコピーが存在するか否かが判断される(906)。キャッシュ内に安定したコピーが存在する場合、そのファイル断片がローカルキャッシュ内で修正される(図9Bの934)。しかしながら、ローカルキャッシュ内に安定したコピーが存在しない場合には(906)、要求されたファイルの断片を、共有ストレージからオペレーティングシステムのローカルキャッシュに読み込み可能か否か判断される(930)。サーバが、ローカルキャッシュへのファイルの読み取りを実行できない場合、オペレーティングシステムまたはアプリケーションにエラーが返される(932)。しかしながら、ローカルキャッシュへのファイルの読み込みが成功した場合には、そのファイル断片は、ローカルキャッシュ内で修正される(934)。
次いで、この特定のファイルに対するロック要求が受信されたか否かが判断される(936)。このファイルに対するロック要求が受信され、そのファイルが修正済みである場合、修正済みのデータが、共有ストレージに書き込まれる(940)。次いで、サーバは、このファイルに関する排他ロックを解除する(938)。
このファイルに対するロック要求が受信されていない場合には(936)、オペレーティングシステムが、ローカルキャッシュのクリーニングを行っているか否かが判断される(942)。キャッシュがクリーニングされている場合、修正済みのデータは共有ストレージに書き込まれ(940)、他のサーバからの未処理の要求が存在しない限りは、すべてのロックが維持される。キャッシュがクリーニングされていない場合には、修正済みのファイルは、ローカルキャッシュ内に保持される(944)。他のサーバによって必要とされるまで、修正済みのファイルをローカルキャッシュに保持することにより、そのファイルを自身のローカルキャッシュに保持するサーバにとっては、そのファイルへのアクセスが速くなる。
図10A,図10Bは、本発明の一実施形態に従って、ディスクなどのストレージを共有するサーバのクラスタにノードを追加するための方法を示すフローチャートである。
この例では、クラスタ内にアドミニストレータ(ADM)が存在するか否かが判別される(1400)。クラスタは、共有ストレージなどの共有リソースを共有するよう協調する1組のサーバを含む。クラスタ内のサーバの内の1つは、クラスタを管理するためのアドミニストレータとして機能する。このクラスタ内にアドミニストレータが存在しない場合には、このサーバがアドミニストレータになることができるか否かが判断される(1408)。このサーバが、アドミニストレータになることができる場合には、データベースからデバイス情報を読み込み、新しいアドミニストレータとなる(1410)。
クラスタ内にアドミニストレータが存在する場合(1400)、または、このサーバが新しいアドミニストレータになることができない場合(1408)、そのサーバは、既存のアドミニストレータがクラスタにインポートされるよう要求する(1402)。このサーバがアドミニストレータになれない(1408)のは、例えば、このサーバが、アドミニストレータの存在しないことを確定して、アドミニストレータになろうとする間に、他のサーバがアドミニストレータになった場合である。
次いで、このサーバがクラスタにインポートされることが許可されるか否かが判断される(1404)。許可されない場合には、このサーバをクラスタに追加する処理は失敗となる(1412)。サーバの追加が失敗するのは、例えば、このサーバが正常ではない、または、このサーバのストレージエリアネットワーク世代番号がアドミニストレータの用いる世代番号と整合しないといった理由からである。
このサーバは、インポート可能である場合には(1404)、アドミニストレータからデバイス名を受信する(1406)。デバイス名としては、例えば、共有ストレージの名前などが挙げられる。
アドミニストレータは、物理ストレージエリアネットワークへのアクセスを、このサーバに対して許可する(図10Bの1410)。次いで、アドミニストレータは、ストレージエリアネットワーク(SAN)へのアクセスを、このサーバに許可するよう、物理ハードウェアに命令する(1412)。この時点で、このサーバは、SANへのアクセス権を得る(1414)。
図11A〜図11Cは、本発明の一実施形態に従って、サーバの障害に対処するための方法を示すフローチャートである。この例では、サーバまたはサーバとの通信に障害が生じたと判断される(1700)。次いで、アドミニストレータがまだ存在しているか否かが判断される(1702)。例えば、障害を起こしたサーバが、アドミニストレータであった可能性もある。アドミニストレータがまだ存在している場合、障害サーバは物理的に隔離される(1708)。障害サーバを物理的に隔離するには、例えば、障害サーバと関連するポートを使用不可にする。
次いで、ストレージエリアネットワーク世代番号が更新されてデータベースに格納される(1710)。その後、通常の動作が継続する(1712)。
もはやアドミニストレータが存在しない場合には(1702)、新しいアドミニストレータになるサーバが選定される(1704)。新しいアドミニストレータになるサーバを選択するには、いくつかの方法がある。一例としては、サーバの1つをランダムに選択する方法が挙げられる。次いで、選択されたサーバは、新しいアドミニストレータになるよう通知される(1706)。新しいアドミニストレータになるようサーバが選択されて通知されるためには、例えば、グループコーディネータが用いられる。
一実施形態では、グループコーディネータは、アルゴリズムを用いて、処理通信グループの形成中に選択される。該アルゴリズムは、グループのメンバーシップへの同意が必要とされることを除いて、サーバまたはノードのいずれとも通信せずにグループのコーディネータを一意的に識別することができる。例えば、メンバの内で最も低い番号のインターネットプロトコル(IP)アドレスを有するサーバが選択されてよい。次いで、コーディネータは、可能なアドミニストレータの選択など、サーバのグループに対してグローバルな決定を行うことができる。アドミニストレータとして選択されるサーバは、実際にアドミニストレータになることができる可能性の高いことが好ましい。グループコーディネータは、SANハードウェアを接続し得ると共にSANアドミニストレータになる試行を最近失敗していないノードを、アドミニストレータに設定するよう試みる。
次いで、選択されたサーバは、ストレージエリアネットワークのロックを取得するよう試みる(1720)。サーバがSANのロックを取得できない場合、アドミニストレータになる試行は失敗となる(1724)。SANロックの取得に成功した場合には(1720)、サーバは、メンバーシップデータベースからSAN世代番号を読み取るよう試みる(1722)。データベースは、共有ストレージ上のメンバーシップパーティションの1つに保持されてもよいし、SANロックと共存していてもよい。
サーバは、データベースからのSAN世代番号の読み取りに失敗した場合には(1722)、SANロックを解除し(1726)、アドミニストレータになる試行は失敗となる(1724)。そのサーバがアドミニストレータになることを失敗すると(1724)、グループコーディネータは、あるサーバに、新しいアドミニストレータになるよう通知する(図11Aの1706)。
サーバは、データベースからSAN世代番号を読み取ることができた場合には、SAN世代番号をインクリメントして、再びデータベースに格納する(1728)。そのサーバは、さらに、自身がアドミニストレータであることをグループコーディネータに通知する(1730)。グループコーディネータは、そのアドミニストレータ更新を受信する(1732)。次いで、このサーバが新しいアドミニストレータとなることが許可されるか否かが判断される(1750)。許可されない場合には、そのアドミニストレータ状況を取り消す旨のメッセージが、アドミニストレータになるよう試みている現行サーバに送信される(1752)。その後、グループコーディネータは、新しいアドミニストレータになるよう、他のサーバに通知する(図11Aの1706)。
このサーバが新しいアドミニストレータとして許可される場合には、そのアドミニストレータは、コミットするよう通知されて(1754)、コミットされる(1756)。次いで、コーディネータは、新しいアドミニストレータに関して、クラスタ内の他のサーバに通知する(1758)。
図12は、本発明の一実施形態に従って、共有ストレージの追加または削除を行うための方法を示すフローチャートである。この例では、ディスクなどの共有ストレージを追加または削除する旨の要求が、サーバからアドミニストレータに送信される(1600)。次いで、そのディスクは、命名データベースに追加または削除される(1602)。命名データベースは、すべてのサーバがアクセス可能な共有ストレージ上に保持されることが可能であり、すべてのサーバは、クラスタに加わる前に、命名データベースを知ることが可能である。命名データベースの場所の知識を持たないサーバは、SANアドミニストレータになる資格を持たないことが好ましい。
次いで、SAN世代番号がインクリメントされる(1604)。次いで、クラスタ内の各サーバは、SAN世代番号と、新しいディスクの追加または削除と、を通知される(1606)。クラスタ内のすべてのサーバが応答すると、新しいSAN世代番号は、データベースに書き込まれる(1608)。次いで、要求元のサーバは、ディスクの追加/削除が完了したことを通知される(1610)。
以上、理解しやすいように、ある程度詳細に本発明の説明を行ったが、添付の請求項の範囲内で、変更や変形を行ってよいことは明らかである。本発明の処理および装置を実施する多くの他の方法が存在することに注意されたい。 したがって、上記実施形態は、説明のためのものであって限定の意図はないと見なされ、本発明は、本明細書に記載された詳細に限定されず、添付の請求項の範囲および等価物の範囲内で変形可能である。
典型的なサーバシステムの一例を示すブロック図。 典型的なサーバシステムの別の例を示すブロック図。 本発明の一実施形態に従って、マルチノード環境のためのシステムを示すブロック図。 本発明の一実施形態に従って、別のシステムを示すブロック図。 本発明の一実施形態に従って、サーバ300のソフトウェア要素を示すブロック図。 本発明の一実施形態に従って、マルチノード環境のための方法を示すフローチャート。 本発明の一実施形態に従って、マルチノード環境のための方法を示す他のフローチャート。 本発明の一実施形態に従って、マルチノード環境のための方法を示す他のフローチャート。 本発明の一実施形態に従って、マルチノード環境のための方法を示す他のフローチャート。 本発明の一実施形態に従って、ファイルを読み取るための方法を示すフローチャート。 本発明の一実施形態に従って、ファイルへ書き込むための方法を示すフローチャート。 本発明の一実施形態に従って、ファイルへ書き込むための方法を示すフローチャート。 本発明の一実施形態に従って、ディスクなどのストレージを共有するサーバのクラスタにノードを追加するための方法を示すフローチャート。 本発明の一実施形態に従って、ディスクなどのストレージを共有するサーバのクラスタにノードを追加するための方法を示すフローチャート。 本発明の一実施形態に従って、サーバの障害に対処するための方法を示すフローチャート。 本発明の一実施形態に従って、サーバの障害に対処するための方法を示すフローチャート。 本発明の一実施形態に従って、サーバの障害に対処するための方法を示すフローチャート。 本発明の一実施形態に従って、共有ストレージの追加または除去を行うための方法を示すフローチャート。
符号の説明
100A−100D…コンピュータ
102…ネットワーク
104A−104D…ストレージ
200A−200D…サーバ
300A−300D…サーバ
300A’−300D’…サーバ
302…ネットワーク相互接続
302A−302D…ネットワーク相互接続
304…データストレージ相互接続
304’…ストレージネットワークデバイス
304A−304B…ストレージ相互接続
306A−306D…共有ストレージ
306a−306d…ストレージデバイス
306A’−306D’…データストレージ
500…分散ロックマネージャ
502…ロックキャッシング層
504…マトリクスファイルシステム
506…SANメンバーシップサービス
508…マトリクスメンバーシップサービス
510…共有ディスク監視プローブ
512…ファイルシステムモニタ
514…サービスモニタ
516…デバイスモニタ
518…アプリケーションモニタ
520…通知エージェント
522…複製エージェント
524…マトリクス通信サービス
526…ストレージ制御層
528…擬似ストレージドライバ

Claims (19)

  1. マルチノード環境のためのシステムであって、
    第1のオペレーティングシステムと関連付けられた第1のノードと、
    第2のオペレーティングシステムと関連付けられた第2のノードであって、前記第2のオペレーティングシステムは、前記第1のオペレーティングシステムから独立している、前記第2のノードと、
    ストレージと、
    前記第1のノードと前記ストレージとを結合すると共に、前記第2のノードと前記ストレージとを結合する相互接続と、
    を備え、
    前記第1のノードは、前記ストレージに直接アクセスし、前記第2のノードは、前記ストレージに直接アクセスする、システム。
  2. 請求項1に記載のシステムであって、
    前記第1のオペレーティングシステムは、前記第2のオペレーティングシステムと異なるオペレーティングシステムである、システム。
  3. 請求項1に記載のシステムであって、
    前記ストレージは、コヒーレントな共有ファイルストレージである、システム。
  4. 請求項1に記載のシステムであって、
    前記相互接続は、共有ディスク相互接続である、システム。
  5. 請求項1に記載のシステムであって、さらに、
    前記ストレージに直接アクセスするよう動的に追加される第3のノードを備える、システム。
  6. 請求項1に記載のシステムであって、
    前記第2のノードは、動的に分離され、もはや前記ストレージに直接アクセスしない、システム。
  7. 請求項1に記載のシステムであって、さらに、
    前記第1および第2のノードによって直接アクセス可能であるように動的に追加される第2のストレージを備える、システム。
  8. 請求項1に記載のシステムであって、さらに、
    第2のストレージを備え、
    前記第2のストレージは、前記第1および第2のノードによって直接アクセス可能であり、前記第2のストレージは、前記第1および第2のノードによって直接アクセス不可能となるように、前記第1および第2のノードから動的に分離される、システム。
  9. マルチノード環境のためのシステムであって、
    メンバーシップグループと関連付けられた第1のノードであって、第1のオペレーティングシステムと関連付けられた前記第1のノードと、
    前記メンバーシップグループと関連付けられた第2のノードであって、前記第2のノードは第2のオペレーティングシステムと関連付けられ、前記第2のオペレーティングシステムは前記第1のオペレーティングシステムから独立している、前記第2のノードと、
    前記第1および第2のノードと結合されたストレージであって、前記第1のノードおよび前記第2のノードによって直接アクセス可能である、前記ストレージと、
    を備え、
    前記第1のノードは、前記メンバーシップグループが変更されたか否かを判断するよう構成されている、システム。
  10. 請求項9に記載のシステムであって、
    前記第1のノードは、前記メンバーシップグループの前記変更に動的に対応する、システム。
  11. マルチノード環境を管理するための方法であって、
    第1のノードをメンバーシップグループと関連付ける工程であって、前記第1のノードは第1のオペレーティングシステムと関連付けられており、前記第1のノードはストレージに直接アクセスする、前記工程と、
    第2のノードを前記メンバーシップグループ関連付ける工程であって、前記第2のノードは第2のオペレーティングシステムと関連付けられており、前記第2のオペレーティングシステムは前記第1のオペレーティングシステムから独立しており、前記第2のノードは前記ストレージに直接アクセスする、前記工程と、
    前記メンバーシップグループが変更されたか否かを判断する工程と、
    前記メンバーシップグループの前記変更に動的に対応する工程と、
    を備える、方法。
  12. 請求項11に記載の方法であって、
    前記第1のオペレーティングシステムは、前記第2のオペレーティングシステムと異なるオペレーティングシステムである、方法。
  13. 請求項11に記載の方法であって、
    前記メンバーシップグループは、前記メンバーシップグループに第3のノードが追加されることによって変更される、方法。
  14. 請求項11に記載の方法であって、
    第3のノードは、前記メンバーシップグループに関連付けられており、
    前記メンバーシップグループは、前記メンバーシップグループから前記第3のノードが削除されることによって変更される、方法。
  15. 請求項11に記載の方法であって、さらに、
    前記メンバーシップグループが変更された場合に、回復を実行する必要があるか否かを判断する工程を備える、方法。
  16. 請求項11に記載の方法であって、さらに、
    前記メンバーシップグループが変更された場合に回復が必要であれば、ロックを回復する工程を備える、方法。
  17. 請求項11に記載の方法であって、さらに、
    前記メンバーシップグループが変更された場合に、新しいロックの許可を停止する工程を備える、方法。
  18. マルチノード環境と関連付けられるよう構成された第1のノードのためのシステムであって、
    第1のオペレーティングシステムと関連付けられるよう構成されたプロセッサであって、前記第1のオペレーティングシステムは、第2のノードの第2のオペレーティングシステムから独立しており、前記プロセッサは、さらに、メンバーシップグループが変更されたか否かを判断可能なよう構成されており、前記メンバーシップグループは、前記第1のノードおよび前記第2のノードと関連付けられており、前記プロセッサは、さらに、前記メンバーシップグループの前記変更に動的に対応可能なよう構成されている、前記プロセッサと、
    前記プロセッサに結合されたストレージであって、前記プロセッサによって直接アクセスされるよう構成されると共に、前記第2のノードによって直接アクセスされるよう構成されている前記ストレージと、
    を備える、システム。
  19. マルチノード環境と関連付けられるよう構成された第1のノードのためのコンピュータプログラム製品であって、コンピュータ読み取り可能な媒体において実現される前記コンピュータプログラム製品は、
    メンバーシップグループが変更されたか否かを判断するためのコンピュータ命令であって、前記メンバーシップグループは前記第1のノードおよび第2のノードと関連付けられており、前記第1のノードは第1のオペレーティングシステムと関連付けられ、前記第2のノードは第2のオペレーティングシステムと関連付けられており、前記第1のオペレーティングシステムは前記第2のオペレーティングシステムから独立している、前記コンピュータ命令と、
    前記メンバーシップグループの前記変更に動的に対応するためのコンピュータ命令と、
    ストレージに直接アクセスするためのコンピュータ命令であって、前記ストレージはさらに前記第2のノードによって直接アクセス可能である、前記コンピュータ命令と、
    を備える、コンピュータプログラム製品。
JP2003531367A 2001-09-21 2002-09-20 共有ストレージを備えたマルチノード環境のためのシステムおよび方法 Expired - Lifetime JP4249622B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US32424201P 2001-09-21 2001-09-21
US32419601P 2001-09-21 2001-09-21
US32422401P 2001-09-21 2001-09-21
US32422601P 2001-09-21 2001-09-21
US32419501P 2001-09-21 2001-09-21
US32424301P 2001-09-21 2001-09-21
US32478701P 2001-09-24 2001-09-24
US32719101P 2001-10-01 2001-10-01
PCT/US2002/029859 WO2003027903A1 (en) 2001-09-21 2002-09-20 A system and method for a multi-node environment with shared storage

Publications (2)

Publication Number Publication Date
JP2005534081A true JP2005534081A (ja) 2005-11-10
JP4249622B2 JP4249622B2 (ja) 2009-04-02

Family

ID=27575390

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003529357A Pending JP2005504369A (ja) 2001-09-21 2002-09-20 マルチノード環境の中でジャーナル処理を実現するためのシステムおよび方法
JP2003531367A Expired - Lifetime JP4249622B2 (ja) 2001-09-21 2002-09-20 共有ストレージを備えたマルチノード環境のためのシステムおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2003529357A Pending JP2005504369A (ja) 2001-09-21 2002-09-20 マルチノード環境の中でジャーナル処理を実現するためのシステムおよび方法

Country Status (7)

Country Link
US (8) US20040202013A1 (ja)
EP (2) EP1428149B1 (ja)
JP (2) JP2005504369A (ja)
CN (2) CN1302419C (ja)
AU (1) AU2002341784A1 (ja)
CA (2) CA2461015A1 (ja)
WO (5) WO2003025780A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309640A (ja) * 2005-05-02 2006-11-09 Hitachi Ltd 記憶制御システム及び記憶制御方法
WO2010041515A1 (ja) * 2008-10-06 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数のアプリケーションサーバにより共有データをアクセスするシステム
JP2012503249A (ja) * 2008-09-19 2012-02-02 マイクロソフト コーポレーション 永続予約を介する共有書込みアクセスのリソースアービトレーション
JP2016534432A (ja) * 2013-10-25 2016-11-04 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated バスロック及び変換索引バッファの無効化を行う方法及び装置
US10235077B2 (en) 2008-06-27 2019-03-19 Microsoft Technology Licensing, Llc Resource arbitration for shared-write access via persistent reservation

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412462B2 (en) * 2000-02-18 2008-08-12 Burnside Acquisition, Llc Data repository and method for promoting network storage of data
US6890968B2 (en) * 2001-05-16 2005-05-10 Kerr Corporation Prepolymerized filler in dental restorative composite
US8010558B2 (en) 2001-06-05 2011-08-30 Silicon Graphics International Relocation of metadata server with outstanding DMAPI requests
US7617292B2 (en) * 2001-06-05 2009-11-10 Silicon Graphics International Multi-class heterogeneous clients in a clustered filesystem
US20040139125A1 (en) 2001-06-05 2004-07-15 Roger Strassburg Snapshot copy of data volume during data access
US7640582B2 (en) 2003-04-16 2009-12-29 Silicon Graphics International Clustered filesystem for mix of trusted and untrusted nodes
US7571215B2 (en) * 2001-07-16 2009-08-04 Bea Systems, Inc. Data replication protocol
US7409420B2 (en) * 2001-07-16 2008-08-05 Bea Systems, Inc. Method and apparatus for session replication and failover
US7702791B2 (en) 2001-07-16 2010-04-20 Bea Systems, Inc. Hardware load-balancing apparatus for session replication
US6826601B2 (en) * 2001-09-06 2004-11-30 Bea Systems, Inc. Exactly one cache framework
US7113980B2 (en) 2001-09-06 2006-09-26 Bea Systems, Inc. Exactly once JMS communication
US20040202013A1 (en) * 2001-09-21 2004-10-14 Polyserve, Inc. System and method for collaborative caching in a multinode system
US7403996B2 (en) 2002-02-21 2008-07-22 Bea Systems, Inc. Systems and methods for migratable services
US7178050B2 (en) * 2002-02-22 2007-02-13 Bea Systems, Inc. System for highly available transaction recovery for transaction processing systems
US7096213B2 (en) * 2002-04-08 2006-08-22 Oracle International Corporation Persistent key-value repository with a pluggable architecture to abstract physical storage
WO2003092166A1 (en) * 2002-04-25 2003-11-06 Kashya Israel Ltd. An apparatus for continuous compression of large volumes of data
US20030220943A1 (en) * 2002-05-23 2003-11-27 International Business Machines Corporation Recovery of a single metadata controller failure in a storage area network environment
US7509645B2 (en) * 2002-10-17 2009-03-24 Intel Corporation Methods and apparatus for load balancing storage nodes in a distributed network attached storage system
AU2003267774A1 (en) * 2002-11-07 2004-06-07 Koninklijke Philips Electronics N.V. Record carrier having a main file system area and a virtual file system area
US7457906B2 (en) * 2003-01-21 2008-11-25 Nextio, Inc. Method and apparatus for shared I/O in a load/store fabric
US7613797B2 (en) * 2003-03-19 2009-11-03 Unisys Corporation Remote discovery and system architecture
GB0308923D0 (en) * 2003-04-17 2003-05-28 Ibm Low-overhead storage cluster configuration locking
US7409389B2 (en) * 2003-04-29 2008-08-05 International Business Machines Corporation Managing access to objects of a computing environment
US7376744B2 (en) * 2003-05-09 2008-05-20 Oracle International Corporation Using local locks for global synchronization in multi-node systems
US20040230894A1 (en) * 2003-05-16 2004-11-18 Dethe Elza Method and system for enabling collaborative authoring of hierarchical documents with versioning
CA2429375A1 (en) * 2003-05-22 2004-11-22 Cognos Incorporated Model action logging
EP1652040A4 (en) * 2003-07-11 2010-08-11 Computer Ass Think Inc DISTRIBUTED METHOD AND SYSTEM FOR MANAGING NETWORKED EQUIPMENT
US7739541B1 (en) 2003-07-25 2010-06-15 Symantec Operating Corporation System and method for resolving cluster partitions in out-of-band storage virtualization environments
US7356531B1 (en) * 2003-07-25 2008-04-08 Symantec Operating Corporation Network file system record lock recovery in a highly available environment
US8234517B2 (en) * 2003-08-01 2012-07-31 Oracle International Corporation Parallel recovery by non-failed nodes
US7584454B1 (en) * 2003-09-10 2009-09-01 Nextaxiom Technology, Inc. Semantic-based transactional support and recovery for nested composite software services
US20050091215A1 (en) * 2003-09-29 2005-04-28 Chandra Tushar D. Technique for provisioning storage for servers in an on-demand environment
US7581205B1 (en) 2003-09-30 2009-08-25 Nextaxiom Technology, Inc. System and method of implementing a customizable software platform
US7234073B1 (en) * 2003-09-30 2007-06-19 Emc Corporation System and methods for failover management of manageable entity agents
US8225282B1 (en) 2003-11-25 2012-07-17 Nextaxiom Technology, Inc. Semantic-based, service-oriented system and method of developing, programming and managing software modules and software solutions
US7376147B2 (en) * 2003-12-18 2008-05-20 Intel Corporation Adaptor supporting different protocols
US7155546B2 (en) * 2003-12-18 2006-12-26 Intel Corporation Multiple physical interfaces in a slot of a storage enclosure to support different storage interconnect architectures
US20050138154A1 (en) * 2003-12-18 2005-06-23 Intel Corporation Enclosure management device
US8700585B2 (en) * 2004-02-06 2014-04-15 Vmware, Inc. Optimistic locking method and system for committing transactions on a file system
US10776206B1 (en) * 2004-02-06 2020-09-15 Vmware, Inc. Distributed transaction system
US8543781B2 (en) * 2004-02-06 2013-09-24 Vmware, Inc. Hybrid locking using network and on-disk based schemes
US8560747B1 (en) 2007-02-16 2013-10-15 Vmware, Inc. Associating heartbeat data with access to shared resources of a computer system
US20110179082A1 (en) * 2004-02-06 2011-07-21 Vmware, Inc. Managing concurrent file system accesses by multiple servers using locks
US7849098B1 (en) 2004-02-06 2010-12-07 Vmware, Inc. Providing multiple concurrent access to a file system
JP4485256B2 (ja) * 2004-05-20 2010-06-16 株式会社日立製作所 記憶領域の管理方法及び管理システム
US8131674B2 (en) 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7962449B2 (en) * 2004-06-25 2011-06-14 Apple Inc. Trusted index structure in a network environment
US7730012B2 (en) 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US7386752B1 (en) * 2004-06-30 2008-06-10 Symantec Operating Corporation Using asset dependencies to identify the recovery set and optionally automate and/or optimize the recovery
US7769734B2 (en) * 2004-07-26 2010-08-03 International Business Machines Corporation Managing long-lived resource locks in a multi-system mail infrastructure
WO2006015536A1 (fr) * 2004-08-08 2006-02-16 Huawei Technologies Co. Ltd. Procede de notification d'une operation d'enregistrement
US20060041559A1 (en) * 2004-08-17 2006-02-23 International Business Machines Corporation Innovation for managing virtual storage area networks
US20060059269A1 (en) * 2004-09-13 2006-03-16 Chien Chen Transparent recovery of switch device
US7310711B2 (en) * 2004-10-29 2007-12-18 Hitachi Global Storage Technologies Netherlands B.V. Hard disk drive with support for atomic transactions
US7496701B2 (en) * 2004-11-18 2009-02-24 International Business Machines Corporation Managing virtual server control of computer support systems with heartbeat message
JP4462024B2 (ja) 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
US8495266B2 (en) * 2004-12-10 2013-07-23 Hewlett-Packard Development Company, L.P. Distributed lock
US20060242453A1 (en) * 2005-04-25 2006-10-26 Dell Products L.P. System and method for managing hung cluster nodes
US7506204B2 (en) * 2005-04-25 2009-03-17 Microsoft Corporation Dedicated connection to a database server for alternative failure recovery
US7631016B2 (en) * 2005-05-04 2009-12-08 Oracle International Corporation Providing the latest version of a data item from an N-replica set
US7356653B2 (en) * 2005-06-03 2008-04-08 International Business Machines Corporation Reader-initiated shared memory synchronization
US7437426B2 (en) * 2005-09-27 2008-10-14 Oracle International Corporation Detecting and correcting node misconfiguration of information about the location of shared storage resources
US7774565B2 (en) * 2005-12-21 2010-08-10 Emc Israel Development Center, Ltd. Methods and apparatus for point in time data access and recovery
US8060713B1 (en) 2005-12-21 2011-11-15 Emc (Benelux) B.V., S.A.R.L. Consolidating snapshots in a continuous data protection system using journaling
US7849361B2 (en) * 2005-12-22 2010-12-07 Emc Corporation Methods and apparatus for multiple point in time data access
US7836033B1 (en) * 2006-01-24 2010-11-16 Network Appliance, Inc. Method and apparatus for parallel updates to global state in a multi-processor system
US20070180287A1 (en) * 2006-01-31 2007-08-02 Dell Products L. P. System and method for managing node resets in a cluster
US7577867B2 (en) * 2006-02-17 2009-08-18 Emc Corporation Cross tagging to data for consistent recovery
US7552148B2 (en) * 2006-02-28 2009-06-23 Microsoft Corporation Shutdown recovery
US7899780B1 (en) * 2006-03-30 2011-03-01 Emc Corporation Methods and apparatus for structured partitioning of management information
CN100383750C (zh) * 2006-06-07 2008-04-23 中国科学院计算技术研究所 一种面向大规模计算系统的高可信日志系统实现方法
US7734960B2 (en) * 2006-08-14 2010-06-08 Hewlett-Packard Development Company, L.P. Method of managing nodes in computer cluster
US7886034B1 (en) * 2006-09-27 2011-02-08 Symantec Corporation Adaptive liveness management for robust and efficient peer-to-peer storage
US7627687B2 (en) * 2006-09-28 2009-12-01 Emc Israel Development Center, Ltd. Methods and apparatus for managing data flow in a continuous data replication system having journaling
US20080082533A1 (en) * 2006-09-28 2008-04-03 Tak Fung Wang Persistent locks/resources for concurrency control
US7627612B2 (en) * 2006-09-28 2009-12-01 Emc Israel Development Center, Ltd. Methods and apparatus for optimal journaling for continuous data replication
US8024521B2 (en) * 2007-03-13 2011-09-20 Sony Computer Entertainment Inc. Atomic operation on non-standard sized data using external cache
US7778986B2 (en) * 2007-08-29 2010-08-17 International Business Machines Corporation Securing transfer of ownership of a storage object from an unavailable owner node to another node
US7921272B2 (en) * 2007-10-05 2011-04-05 International Business Machines Corporation Monitoring patterns of processes accessing addresses in a storage device to determine access parameters to apply
US7856536B2 (en) * 2007-10-05 2010-12-21 International Business Machines Corporation Providing a process exclusive access to a page including a memory address to which a lock is granted to the process
US8055855B2 (en) * 2007-10-05 2011-11-08 International Business Machines Corporation Varying access parameters for processes to access memory addresses in response to detecting a condition related to a pattern of processes access to memory addresses
US7770064B2 (en) * 2007-10-05 2010-08-03 International Business Machines Corporation Recovery of application faults in a mirrored application environment
US7860836B1 (en) 2007-12-26 2010-12-28 Emc (Benelux) B.V., S.A.R.L. Method and apparatus to recover data in a continuous data protection environment using a journal
US7840536B1 (en) 2007-12-26 2010-11-23 Emc (Benelux) B.V., S.A.R.L. Methods and apparatus for dynamic journal expansion
US7958372B1 (en) 2007-12-26 2011-06-07 Emc (Benelux) B.V., S.A.R.L. Method and apparatus to convert a logical unit from a first encryption state to a second encryption state using a journal in a continuous data protection environment
US8041940B1 (en) 2007-12-26 2011-10-18 Emc Corporation Offloading encryption processing in a storage area network
US9178785B1 (en) 2008-01-24 2015-11-03 NextAxiom Technology, Inc Accounting for usage and usage-based pricing of runtime engine
US9501542B1 (en) 2008-03-11 2016-11-22 Emc Corporation Methods and apparatus for volume synchronization
US7719443B1 (en) 2008-06-27 2010-05-18 Emc Corporation Compressing data in a continuous data protection environment
US8108634B1 (en) 2008-06-27 2012-01-31 Emc B.V., S.A.R.L. Replicating a thin logical unit
US8060714B1 (en) 2008-09-26 2011-11-15 Emc (Benelux) B.V., S.A.R.L. Initializing volumes in a replication system
US7882286B1 (en) 2008-09-26 2011-02-01 EMC (Benelux)B.V., S.A.R.L. Synchronizing volumes for replication
US9098562B2 (en) * 2009-03-30 2015-08-04 The Boeing Company Computer architectures using shared storage
US8296358B2 (en) * 2009-05-14 2012-10-23 Hewlett-Packard Development Company, L.P. Method and system for journaling data updates in a distributed file system
US8055615B2 (en) * 2009-08-25 2011-11-08 Yahoo! Inc. Method for efficient storage node replacement
US20110055494A1 (en) * 2009-08-25 2011-03-03 Yahoo! Inc. Method for distributed direct object access storage
US9311319B2 (en) * 2009-08-27 2016-04-12 Hewlett Packard Enterprise Development Lp Method and system for administration of storage objects
US20110093745A1 (en) * 2009-10-20 2011-04-21 Aviad Zlotnick Systems and methods for implementing test applications for systems using locks
US8510334B2 (en) 2009-11-05 2013-08-13 Oracle International Corporation Lock manager on disk
US8392680B1 (en) 2010-03-30 2013-03-05 Emc International Company Accessing a volume in a distributed environment
US8103937B1 (en) * 2010-03-31 2012-01-24 Emc Corporation Cas command network replication
US20110276728A1 (en) * 2010-05-06 2011-11-10 Hitachi, Ltd. Method and apparatus for storage i/o path configuration
US8381014B2 (en) 2010-05-06 2013-02-19 International Business Machines Corporation Node controller first failure error management for a distributed system
US8332687B1 (en) 2010-06-23 2012-12-11 Emc Corporation Splitter used in a continuous data protection environment
US9098462B1 (en) 2010-09-14 2015-08-04 The Boeing Company Communications via shared memory
US8433869B1 (en) 2010-09-27 2013-04-30 Emc International Company Virtualized consistency group using an enhanced splitter
US8478955B1 (en) 2010-09-27 2013-07-02 Emc International Company Virtualized consistency group using more than one data protection appliance
US8694700B1 (en) 2010-09-29 2014-04-08 Emc Corporation Using I/O track information for continuous push with splitter for storage device
US8335771B1 (en) 2010-09-29 2012-12-18 Emc Corporation Storage array snapshots for logged access replication in a continuous data protection system
US8589732B2 (en) 2010-10-25 2013-11-19 Microsoft Corporation Consistent messaging with replication
US8335761B1 (en) 2010-12-02 2012-12-18 Emc International Company Replicating in a multi-copy environment
US8812916B2 (en) 2011-06-02 2014-08-19 International Business Machines Corporation Failure data management for a distributed computer system
US9256605B1 (en) 2011-08-03 2016-02-09 Emc Corporation Reading and writing to an unexposed device
US8973018B2 (en) 2011-08-23 2015-03-03 International Business Machines Corporation Configuring and relaying events from a storage controller to a host server
US8694724B1 (en) * 2011-09-06 2014-04-08 Emc Corporation Managing data storage by provisioning cache as a virtual device
US8898112B1 (en) 2011-09-07 2014-11-25 Emc Corporation Write signature command
US8560662B2 (en) * 2011-09-12 2013-10-15 Microsoft Corporation Locking system for cluster updates
US9170852B2 (en) 2012-02-02 2015-10-27 Microsoft Technology Licensing, Llc Self-updating functionality in a distributed system
US20130290385A1 (en) * 2012-04-30 2013-10-31 Charles B. Morrey, III Durably recording events for performing file system operations
US9223659B1 (en) 2012-06-28 2015-12-29 Emc International Company Generating and accessing a virtual volume snapshot in a continuous data protection system
US9218295B2 (en) * 2012-07-13 2015-12-22 Ca, Inc. Methods and systems for implementing time-locks
US9336094B1 (en) 2012-09-13 2016-05-10 Emc International Company Scaleout replication of an application
US10235145B1 (en) 2012-09-13 2019-03-19 Emc International Company Distributed scale-out replication
US9081840B2 (en) * 2012-09-21 2015-07-14 Citigroup Technology, Inc. Methods and systems for modeling a replication topology
US9383937B1 (en) 2013-03-14 2016-07-05 Emc Corporation Journal tiering in a continuous data protection system using deduplication-based storage
US9110914B1 (en) 2013-03-14 2015-08-18 Emc Corporation Continuous data protection using deduplication-based storage
US8996460B1 (en) 2013-03-14 2015-03-31 Emc Corporation Accessing an image in a continuous data protection using deduplication-based storage
US9696939B1 (en) 2013-03-14 2017-07-04 EMC IP Holding Company LLC Replicating data using deduplication-based arrays using network-based replication
US9081842B1 (en) 2013-03-15 2015-07-14 Emc Corporation Synchronous and asymmetric asynchronous active-active-active data access
US9152339B1 (en) 2013-03-15 2015-10-06 Emc Corporation Synchronization of asymmetric active-active, asynchronously-protected storage
US9244997B1 (en) 2013-03-15 2016-01-26 Emc Corporation Asymmetric active-active access of asynchronously-protected data storage
US9087112B1 (en) 2013-06-24 2015-07-21 Emc International Company Consistency across snapshot shipping and continuous replication
US9069709B1 (en) 2013-06-24 2015-06-30 Emc International Company Dynamic granularity in data replication
US9146878B1 (en) 2013-06-25 2015-09-29 Emc Corporation Storage recovery from total cache loss using journal-based replication
US9454485B2 (en) 2013-08-01 2016-09-27 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Sharing local cache from a failover node
US9367260B1 (en) 2013-12-13 2016-06-14 Emc Corporation Dynamic replication system
US9405765B1 (en) 2013-12-17 2016-08-02 Emc Corporation Replication of virtual machines
US9158630B1 (en) 2013-12-19 2015-10-13 Emc Corporation Testing integrity of replicated storage
US9372752B2 (en) * 2013-12-27 2016-06-21 Intel Corporation Assisted coherent shared memory
CN106104502B (zh) 2014-03-20 2019-03-22 慧与发展有限责任合伙企业 用于存储系统事务的系统、方法和介质
US9189339B1 (en) 2014-03-28 2015-11-17 Emc Corporation Replication of a virtual distributed volume with virtual machine granualarity
US9686206B2 (en) * 2014-04-29 2017-06-20 Silicon Graphics International Corp. Temporal based collaborative mutual exclusion control of a shared resource
US9497140B2 (en) 2014-05-14 2016-11-15 International Business Machines Corporation Autonomous multi-node network configuration and self-awareness through establishment of a switch port group
US9274718B1 (en) 2014-06-20 2016-03-01 Emc Corporation Migration in replication system
US10082980B1 (en) 2014-06-20 2018-09-25 EMC IP Holding Company LLC Migration of snapshot in replication system using a log
US9619543B1 (en) 2014-06-23 2017-04-11 EMC IP Holding Company LLC Replicating in virtual desktop infrastructure
US10237342B2 (en) * 2014-09-17 2019-03-19 Dh2I Company Coordinated and high availability storage access
US10324798B1 (en) 2014-09-25 2019-06-18 EMC IP Holding Company LLC Restoring active areas of a logical unit
US10437783B1 (en) 2014-09-25 2019-10-08 EMC IP Holding Company LLC Recover storage array using remote deduplication device
US10101943B1 (en) 2014-09-25 2018-10-16 EMC IP Holding Company LLC Realigning data in replication system
US9910621B1 (en) 2014-09-29 2018-03-06 EMC IP Holding Company LLC Backlogging I/O metadata utilizing counters to monitor write acknowledgements and no acknowledgements
US9529885B1 (en) 2014-09-29 2016-12-27 EMC IP Holding Company LLC Maintaining consistent point-in-time in asynchronous replication during virtual machine relocation
US10496487B1 (en) 2014-12-03 2019-12-03 EMC IP Holding Company LLC Storing snapshot changes with snapshots
US9600377B1 (en) 2014-12-03 2017-03-21 EMC IP Holding Company LLC Providing data protection using point-in-time images from multiple types of storage devices
US9405481B1 (en) 2014-12-17 2016-08-02 Emc Corporation Replicating using volume multiplexing with consistency group file
US9632881B1 (en) 2015-03-24 2017-04-25 EMC IP Holding Company LLC Replication of a virtual distributed volume
US10296419B1 (en) 2015-03-27 2019-05-21 EMC IP Holding Company LLC Accessing a virtual device using a kernel
US9411535B1 (en) 2015-03-27 2016-08-09 Emc Corporation Accessing multiple virtual devices
US9678680B1 (en) 2015-03-30 2017-06-13 EMC IP Holding Company LLC Forming a protection domain in a storage architecture
US10853181B1 (en) 2015-06-29 2020-12-01 EMC IP Holding Company LLC Backing up volumes using fragment files
US10496538B2 (en) * 2015-06-30 2019-12-03 Veritas Technologies Llc System, method and mechanism to efficiently coordinate cache sharing between cluster nodes operating on the same regions of a file or the file system blocks shared among multiple files
US10360236B2 (en) * 2015-09-25 2019-07-23 International Business Machines Corporation Replicating structured query language (SQL) in a heterogeneous replication environment
US10320702B2 (en) 2015-09-30 2019-06-11 Veritas Technologies, LLC Input/output fencing optimization
US9684576B1 (en) 2015-12-21 2017-06-20 EMC IP Holding Company LLC Replication using a virtual distributed volume
US10133874B1 (en) 2015-12-28 2018-11-20 EMC IP Holding Company LLC Performing snapshot replication on a storage system not configured to support snapshot replication
US10235196B1 (en) 2015-12-28 2019-03-19 EMC IP Holding Company LLC Virtual machine joining or separating
US10067837B1 (en) 2015-12-28 2018-09-04 EMC IP Holding Company LLC Continuous data protection with cloud resources
US10235087B1 (en) 2016-03-30 2019-03-19 EMC IP Holding Company LLC Distributing journal data over multiple journals
US10579282B1 (en) 2016-03-30 2020-03-03 EMC IP Holding Company LLC Distributed copy in multi-copy replication where offset and size of I/O requests to replication site is half offset and size of I/O request to production volume
US10152267B1 (en) 2016-03-30 2018-12-11 Emc Corporation Replication data pull
US10235060B1 (en) 2016-04-14 2019-03-19 EMC IP Holding Company, LLC Multilevel snapshot replication for hot and cold regions of a storage system
CN106055417B (zh) * 2016-06-02 2018-09-11 北京百度网讯科技有限公司 用于机器人操作系统的消息传输方法和装置
US10666569B1 (en) * 2016-09-23 2020-05-26 Amazon Technologies, Inc. Journal service with named clients
US10423459B1 (en) 2016-09-23 2019-09-24 Amazon Technologies, Inc. Resource manager
US10235090B1 (en) 2016-09-23 2019-03-19 EMC IP Holding Company LLC Validating replication copy consistency using a hash function in a storage system
US10146961B1 (en) 2016-09-23 2018-12-04 EMC IP Holding Company LLC Encrypting replication journals in a storage system
US10346366B1 (en) 2016-09-23 2019-07-09 Amazon Technologies, Inc. Management of a data processing pipeline
US10019194B1 (en) 2016-09-23 2018-07-10 EMC IP Holding Company LLC Eventually consistent synchronous data replication in a storage system
US10235091B1 (en) 2016-09-23 2019-03-19 EMC IP Holding Company LLC Full sweep disk synchronization in a storage system
US10805238B1 (en) 2016-09-23 2020-10-13 Amazon Technologies, Inc. Management of alternative resources
US10210073B1 (en) 2016-09-23 2019-02-19 EMC IP Holding Company, LLC Real time debugging of production replicated data with data obfuscation in a storage system
US10725915B1 (en) 2017-03-31 2020-07-28 Veritas Technologies Llc Methods and systems for maintaining cache coherency between caches of nodes in a clustered environment
US10459810B2 (en) 2017-07-06 2019-10-29 Oracle International Corporation Technique for higher availability in a multi-node system using replicated lock information to determine a set of data blocks for recovery
US11144493B1 (en) 2018-05-02 2021-10-12 Ecosense Lighting Inc. Composite interface circuit
CN109376014B (zh) * 2018-10-19 2021-07-02 郑州云海信息技术有限公司 一种分布式锁管理器实现方法和系统
US11880350B2 (en) * 2021-06-08 2024-01-23 International Business Machines Corporation Identifying resource lock ownership across a clustered computing environment

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0833857B2 (ja) * 1987-02-18 1996-03-29 株式会社日立製作所 システム間デ−タベ−ス共用システムジヤ−ナルマ−ジ方式
JP2667039B2 (ja) 1990-05-18 1997-10-22 株式会社東芝 データ管理システムおよびデータ管理方法
JPH0827755B2 (ja) * 1991-02-15 1996-03-21 インターナショナル・ビジネス・マシーンズ・コーポレイション データの単位を高速度でアクセスする方法
US5276872A (en) * 1991-06-25 1994-01-04 Digital Equipment Corporation Concurrency and recovery for index trees with nodal updates using multiple atomic actions by which the trees integrity is preserved during undesired system interruptions
US5438464A (en) * 1993-04-23 1995-08-01 Quantum Corporation Synchronization of multiple disk drive spindles
JP3023441B2 (ja) * 1993-11-16 2000-03-21 株式会社日立製作所 データベース分割管理方法および並列データベースシステム
DE4341877A1 (de) * 1993-12-08 1995-06-14 Siemens Ag Verfahren zur Koordination von Zugriffen mehrerer Prozesse auf eine gemeinsame Ressource
US5454108A (en) * 1994-01-26 1995-09-26 International Business Machines Corporation Distributed lock manager using a passive, state-full control-server
US5751992A (en) * 1994-09-23 1998-05-12 International Business Machines Corporation Computer program product for continuous destaging of changed data from a shared cache in a multisystem shared disk environment wherein castout interest is established in a hierarchical fashion
JP3516362B2 (ja) * 1995-03-01 2004-04-05 富士通株式会社 共有データ処理装置及び共有データ処理システム
US5699500A (en) * 1995-06-01 1997-12-16 Ncr Corporation Reliable datagram service provider for fast messaging in a clustered environment
US5594863A (en) * 1995-06-26 1997-01-14 Novell, Inc. Method and apparatus for network file recovery
US6356740B1 (en) * 1995-06-30 2002-03-12 Hughes Electronics Corporation Method and system of frequency stabilization in a mobile satellite communication system
JPH09114721A (ja) 1995-10-19 1997-05-02 Nec Corp ローカルエリアネットワークにおける装置共有方法および装置共有システム
US5678026A (en) * 1995-12-28 1997-10-14 Unisys Corporation Multi-processor data processing system with control for granting multiple storage locks in parallel and parallel lock priority and second level cache priority queues
US5850507A (en) * 1996-03-19 1998-12-15 Oracle Corporation Method and apparatus for improved transaction recovery
US6016505A (en) 1996-04-30 2000-01-18 International Business Machines Corporation Program product to effect barrier synchronization in a distributed computing environment
US6026426A (en) 1996-04-30 2000-02-15 International Business Machines Corporation Application programming interface unifying multiple mechanisms
US5920872A (en) * 1996-06-25 1999-07-06 Oracle Corporation Resource management using resource domains
US6044367A (en) * 1996-08-02 2000-03-28 Hewlett-Packard Company Distributed I/O store
US5875469A (en) * 1996-08-26 1999-02-23 International Business Machines Corporation Apparatus and method of snooping processors and look-aside caches
US6026474A (en) * 1996-11-22 2000-02-15 Mangosoft Corporation Shared client-side web caching using globally addressable memory
US5909540A (en) * 1996-11-22 1999-06-01 Mangosoft Corporation System and method for providing highly available data storage using globally addressable memory
US5987506A (en) * 1996-11-22 1999-11-16 Mangosoft Corporation Remote access and geographically distributed computers in a globally addressable storage environment
US5974250A (en) * 1996-12-13 1999-10-26 Compaq Computer Corp. System and method for secure information transmission over a network
US6108757A (en) * 1997-02-28 2000-08-22 Lucent Technologies Inc. Method for locking a shared resource in multiprocessor system
US5913227A (en) * 1997-03-24 1999-06-15 Emc Corporation Agent-implemented locking mechanism
FR2762418B1 (fr) * 1997-04-17 1999-06-11 Alsthom Cge Alcatel Procede de gestion d'une memoire partagee
US6237001B1 (en) * 1997-04-23 2001-05-22 Oracle Corporation Managing access to data in a distributed database environment
US6021508A (en) * 1997-07-11 2000-02-01 International Business Machines Corporation Parallel file system and method for independent metadata loggin
US5960446A (en) 1997-07-11 1999-09-28 International Business Machines Corporation Parallel file system and method with allocation map
US5953719A (en) * 1997-09-15 1999-09-14 International Business Machines Corporation Heterogeneous database system with dynamic commit procedure control
US6112281A (en) * 1997-10-07 2000-08-29 Oracle Corporation I/O forwarding in a cache coherent shared disk computer system
US6009466A (en) * 1997-10-31 1999-12-28 International Business Machines Corporation Network management system for enabling a user to configure a network of storage devices via a graphical user interface
US6108654A (en) 1997-10-31 2000-08-22 Oracle Corporation Method and system for locking resources in a computer system
JPH11143843A (ja) 1997-11-06 1999-05-28 Hitachi Ltd 複数ノード構成システムの稼働状態管理方法
US6199105B1 (en) * 1997-12-09 2001-03-06 Nec Corporation Recovery system for system coupling apparatuses, and recording medium recording recovery program
US6256740B1 (en) * 1998-02-06 2001-07-03 Ncr Corporation Name service for multinode system segmented into I/O and compute nodes, generating guid at I/O node and exporting guid to compute nodes via interconnect fabric
US6173293B1 (en) * 1998-03-13 2001-01-09 Digital Equipment Corporation Scalable distributed file system
US6163855A (en) 1998-04-17 2000-12-19 Microsoft Corporation Method and system for replicated and consistent modifications in a server cluster
US6438582B1 (en) * 1998-07-21 2002-08-20 International Business Machines Corporation Method and system for efficiently coordinating commit processing in a parallel or distributed database system
US6272491B1 (en) 1998-08-24 2001-08-07 Oracle Corporation Method and system for mastering locks in a multiple server database system
US6154512A (en) * 1998-11-19 2000-11-28 Nortel Networks Corporation Digital phase lock loop with control for enabling and disabling synchronization
US6178519B1 (en) * 1998-12-10 2001-01-23 Mci Worldcom, Inc. Cluster-wide database system
US6757277B1 (en) * 1999-01-26 2004-06-29 Siemens Information And Communication Networks, Inc. System and method for coding algorithm policy adjustment in telephony-over-LAN networks
US6226717B1 (en) * 1999-02-04 2001-05-01 Compaq Computer Corporation System and method for exclusive access to shared storage
US6269410B1 (en) * 1999-02-12 2001-07-31 Hewlett-Packard Co Method and apparatus for using system traces to characterize workloads in a data storage system
US6725392B1 (en) * 1999-03-03 2004-04-20 Adaptec, Inc. Controller fault recovery system for a distributed file system
AU4344900A (en) * 1999-04-12 2000-11-14 Rainfinity, Inc. Distributed server cluster for controlling network traffic
AU5273800A (en) * 1999-05-20 2000-12-12 Ivan Chung-Shung Hwang A method and apparatus for implementing a workgroup server array
US6421723B1 (en) 1999-06-11 2002-07-16 Dell Products L.P. Method and system for establishing a storage area network configuration
JP4057201B2 (ja) 1999-09-16 2008-03-05 富士通株式会社 異種計算機間高速データ交換方式およびエクステント抽出・変換プログラム記録媒体
US6598058B2 (en) * 1999-09-22 2003-07-22 International Business Machines Corporation Method and apparatus for cross-node sharing of cached dynamic SQL in a multiple relational database management system environment
US6865549B1 (en) * 1999-11-15 2005-03-08 Sun Microsystems, Inc. Method and apparatus for concurrency control in a policy-based management system
US6473819B1 (en) * 1999-12-17 2002-10-29 International Business Machines Corporation Scalable interruptible queue locks for shared-memory multiprocessor
US6618819B1 (en) * 1999-12-23 2003-09-09 Nortel Networks Limited Sparing system and method to accommodate equipment failures in critical systems
US6370625B1 (en) * 1999-12-29 2002-04-09 Intel Corporation Method and apparatus for lock synchronization in a microprocessor system
US7062648B2 (en) 2000-02-18 2006-06-13 Avamar Technologies, Inc. System and method for redundant array network storage
US6643748B1 (en) * 2000-04-20 2003-11-04 Microsoft Corporation Programmatic masking of storage units
US20030041138A1 (en) * 2000-05-02 2003-02-27 Sun Microsystems, Inc. Cluster membership monitor
US6530004B1 (en) * 2000-06-20 2003-03-04 International Business Machines Corporation Efficient fault-tolerant preservation of data integrity during dynamic RAID data migration
US7844513B2 (en) 2000-07-17 2010-11-30 Galactic Computing Corporation Bvi/Bc Method and system for operating a commissioned e-commerce service prover
US6944249B2 (en) 2000-08-17 2005-09-13 Broadcom Corporation Method and system for transmitting isochronous voice in a wireless network
US6665814B2 (en) * 2000-11-29 2003-12-16 International Business Machines Corporation Method and apparatus for providing serialization support for a computer system
US6976060B2 (en) * 2000-12-05 2005-12-13 Agami Sytems, Inc. Symmetric shared file storage system
US8219662B2 (en) 2000-12-06 2012-07-10 International Business Machines Corporation Redirecting data generated by network devices
US20040213239A1 (en) * 2000-12-15 2004-10-28 Lin Xinming A. Implementation of IP multicast on ATM network with EMCON links
US6804794B1 (en) * 2001-02-28 2004-10-12 Emc Corporation Error condition handling
US7130316B2 (en) 2001-04-11 2006-10-31 Ati Technologies, Inc. System for frame based audio synchronization and method thereof
US7107319B2 (en) * 2001-05-31 2006-09-12 Oracle Corporation Method and apparatus for reducing latency and message traffic during data and lock transfer in a multi-node system
US6708175B2 (en) * 2001-06-06 2004-03-16 International Business Machines Corporation Program support for disk fencing in a shared disk parallel file system across storage area network
US20040202013A1 (en) * 2001-09-21 2004-10-14 Polyserve, Inc. System and method for collaborative caching in a multinode system
US6871268B2 (en) * 2002-03-07 2005-03-22 International Business Machines Corporation Methods and systems for distributed caching in presence of updates and in accordance with holding times
US6862666B2 (en) * 2002-05-16 2005-03-01 Sun Microsystems, Inc. Hardware assisted lease-based access to memory

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309640A (ja) * 2005-05-02 2006-11-09 Hitachi Ltd 記憶制御システム及び記憶制御方法
JP4648751B2 (ja) * 2005-05-02 2011-03-09 株式会社日立製作所 記憶制御システム及び記憶制御方法
US10235077B2 (en) 2008-06-27 2019-03-19 Microsoft Technology Licensing, Llc Resource arbitration for shared-write access via persistent reservation
JP2012503249A (ja) * 2008-09-19 2012-02-02 マイクロソフト コーポレーション 永続予約を介する共有書込みアクセスのリソースアービトレーション
US9832267B2 (en) 2008-09-19 2017-11-28 Microsoft Technology Licensing, Llc Resource arbitration for shared-write access via persistent reservation
WO2010041515A1 (ja) * 2008-10-06 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数のアプリケーションサーバにより共有データをアクセスするシステム
JP5213077B2 (ja) * 2008-10-06 2013-06-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数のアプリケーションサーバにより共有データをアクセスするシステム
US8589438B2 (en) 2008-10-06 2013-11-19 International Business Machines Corporation System for accessing shared data using multiple application servers
US9031923B2 (en) 2008-10-06 2015-05-12 International Business Machines Corporation System for accessing shared data using multiple application servers
JP2016534432A (ja) * 2013-10-25 2016-11-04 アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated バスロック及び変換索引バッファの無効化を行う方法及び装置

Also Published As

Publication number Publication date
US20070033436A1 (en) 2007-02-08
CA2460833C (en) 2013-02-26
US20040202013A1 (en) 2004-10-14
US7467330B2 (en) 2008-12-16
US20030065686A1 (en) 2003-04-03
WO2003027853A1 (en) 2003-04-03
EP1428149A4 (en) 2007-04-04
EP1428149A1 (en) 2004-06-16
CN1302419C (zh) 2007-02-28
JP4249622B2 (ja) 2009-04-02
US7437386B2 (en) 2008-10-14
WO2003025780A8 (en) 2004-04-01
CA2461015A1 (en) 2003-04-03
EP1428149B1 (en) 2012-11-07
US20030065896A1 (en) 2003-04-03
WO2003025751A1 (en) 2003-03-27
CA2460833A1 (en) 2003-03-27
CN1589447A (zh) 2005-03-02
WO2003025780A9 (en) 2004-03-04
CN1320483C (zh) 2007-06-06
US20030079155A1 (en) 2003-04-24
US7266722B2 (en) 2007-09-04
US7240057B2 (en) 2007-07-03
US7111197B2 (en) 2006-09-19
CN1589448A (zh) 2005-03-02
US20030065672A1 (en) 2003-04-03
US20050015640A1 (en) 2005-01-20
WO2003025751A9 (en) 2004-05-06
WO2003025780A1 (en) 2003-03-27
WO2003025801A1 (en) 2003-03-27
JP2005504369A (ja) 2005-02-10
US7496646B2 (en) 2009-02-24
EP1428151A1 (en) 2004-06-16
AU2002341784A1 (en) 2003-04-01
US7149853B2 (en) 2006-12-12
US20030065760A1 (en) 2003-04-03
WO2003027903A1 (en) 2003-04-03
EP1428151A4 (en) 2007-08-01

Similar Documents

Publication Publication Date Title
JP4249622B2 (ja) 共有ストレージを備えたマルチノード環境のためのシステムおよび方法
EP1171817B1 (en) Data distribution in a server cluster
US7406473B1 (en) Distributed file system using disk servers, lock servers and file servers
US7870230B2 (en) Policy-based cluster quorum determination
US8560747B1 (en) Associating heartbeat data with access to shared resources of a computer system
US9880753B2 (en) Write requests in a distributed storage system
US7640582B2 (en) Clustered filesystem for mix of trusted and untrusted nodes
US9319282B2 (en) Discovering and monitoring server clusters
US20140025820A1 (en) Hybrid locking using network and on-disk based schemes
US20040068563A1 (en) Method, system, and program for managing locks enabling access to a shared resource
US9083724B2 (en) System iteratively reducing I/O requests during migration of virtual storage system
JP2002229837A (ja) 共有ディスク・パラレル・データ・ファイル内のデータに対するアクセスを制御する方法
JP2008517358A (ja) ストレージ管理を容易にするための装置、システム、および方法
US7865486B2 (en) Providing storage control in a network of storage controllers
US20050234916A1 (en) Method, apparatus and program storage device for providing control to a networked storage architecture
WO2003054711A9 (en) A system and method for management of a storage area network
JP2023541069A (ja) アクティブ-アクティブストレージシステムおよびそのデータ処理方法
JP2005128657A (ja) 高機能nウェイ共用記憶域コントローラ・システムにおけるメタデータ・ロック管理

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070723

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071120

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4249622

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term