JP2016522514A - オンライン・ホット・スタンバイ・データベースのためのレプリケーション方法、プログラム、および装置 - Google Patents

オンライン・ホット・スタンバイ・データベースのためのレプリケーション方法、プログラム、および装置 Download PDF

Info

Publication number
JP2016522514A
JP2016522514A JP2016520319A JP2016520319A JP2016522514A JP 2016522514 A JP2016522514 A JP 2016522514A JP 2016520319 A JP2016520319 A JP 2016520319A JP 2016520319 A JP2016520319 A JP 2016520319A JP 2016522514 A JP2016522514 A JP 2016522514A
Authority
JP
Japan
Prior art keywords
database
backup node
node
page
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016520319A
Other languages
English (en)
Other versions
JP6362685B2 (ja
Inventor
ラッティッカ、ヴィルホ、タパニ
リンドストロム、ジャン
ライホ、キョスティ
パルッキネン、ヤルモ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2016522514A publication Critical patent/JP2016522514A/ja
Application granted granted Critical
Publication of JP6362685B2 publication Critical patent/JP6362685B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Retry When Errors Occur (AREA)

Abstract

【課題】分散データベース環境においてオペレーショナル・プライマリ・ノードからバックアップ・ノードにデータベース・イメージをレプリケーションする方法。【解決手段】データベース構造および複数のデータベース・ページを含むプライマリ・ノードのチェックポイント・イメージを規定することと、バックアップ・ノードを初期化し、規定された構造を初期化されたバックアップ・ノードに保存することによって、バックアップ・ノードにレプリカ・データベースを作成することと、チェックポイント・イメージの各データベース・ページをバックアップ・ノードに保存するために送信することと、チェックポイント・イメージの作成を開始した後に、プライマリ・ノードにおける全てのトランザクションを保存し、バックアップ・ノードに送信するための対応するREDOトランザクションを作成することと、各REDOトランザクションによって操作される各データ・ページを識別することと、データベース・ページの送信と並列に、各作成されたREDOトランザクションを、対応するトランザクションが生じた順序でバックアップ・ノードに送信し、バックアップ・ノードが正しい順序でトランザクションをレプリケーションすることができるようにすることと、各識別されたデータベース・ページを、対応するREDOトランザクションよりも前にまたは実質的に同時にバックアップ・ノードに到達するように優先順位付けし、それによって対応するREDOトランザクションが、全てのデータベース・ページがバックアップ・ノードに保存されるのを待つことなく、識別されたデータベース・ページに対し動作することができるようにすることと、を含む。【選択図】図1

Description

本発明は、分散データベース環境においてオペレーショナル・プライマリ・ノードからデータベース・イメージをレプリケーション(replication)する方法、プログラム、および装置(replicator)に関する。
ホット・スタンバイ(HSB:hot-standby)データベースでは、トランザクションが2つのフェーズでコミットされ、それによって、トランザクションが適切にコミットされたと見なされる前に、プライマリ・ノードおよびバックアップ・ノードの双方が変化の確認応答に成功しなくてはならない。これは双方のノード内のデータベースが常に同じ状態を有することを確保する2フェーズ・コミット(2PC:two-phase commit)プロトコルである。2PCは、アトミック・コミットメント・プロトコル(ACP:atomic commitment protocol)であり、トランザクションをコミットするかまたはアボート(ロールバック(roll back))するかに関して分散アトミック・トランザクションに関与する全てのプロセスを協調させるための特殊なタイプのコンセンサス・プロトコルである。いくつかのHSBデータベースは、より緩和されたトランザクションを提供することによって、ユーザが一貫性と引き換えに性能を手に入れるためのオプションを提供する。そのようなトランザクションは、バックアップ・ノードがコミット中のトランザクションの全てのログ・レコードを受信したことを確認応答するとすぐに、プライマリ・ノードがコミットする、トゥー・セーフ・レシーブド(2SR:two-safe received)プロトコルにおいて規定されている。
プライマリ・ノードは、マスター・ノードとして知られている場合があり、バックアップ・ノードは、セカンダリ・ノード、スタンバイ・ノードまたはスレーブ・ノードとして知られている場合がある。通常、プライマリ・ノードは全てのトランザクションを受け入れる一方、バックアップ・ノードは読み出し専用トランザクションしか受け入れない。
バックアップ・ノードをプライマリ・ノードと同期させておく様々な方法が存在するが、この出願公開では、ログ・レプリケーション(ログ・シッピング・レプリケーションとしても知られる)が検討される。ログ・レプリケーションでは、プライマリ・ノードは各書き込みトランザクションを自身のデータベースおよびログ・レコードに記憶し、それによってログ・レコードはバックアップ・ノードに更にコピーされる。バックアップ・ノードは、ログ・レコードを受信すると、受信したログ・レコードごとにREDOトランザクションを実行する。REDOトランザクションは、参照されたトランザクションを繰り返す。
実施形態では、HSBデータベースは、高速データ・アクセスのためにメイン・メモリに記憶される。なぜなら、永続ストレージからの間接的なアクセスおよびより低速なアクセス速度と対照的に、メイン・メモリは、コンピュータ処理装置(CPU)によって直接アドレス指定されるためである。高速メモリ・アクセスは、特にHSBデータベースの特性であるわけではなく、ホット・スタンバイ機能をサポートすることができるインメモリ・データベースに適用される。ログ・レコードは通常、永続ストレージに記憶される。インメモリ・データベースは、データベースのチェックポイント・イメージ(スナップショットとしても知られる)を永続ストレージに定期的に(または要求に応じて)書き込むことによって、データに対する永続的な変更を保証する。チェックポイント・イメージ書き込みはチェックポイント・プロセスである。チェックポイント・イメージにおいて、データはデータベース・ページとして編成される。データベース・ページはストレージ内の連続データ・エリアであり、通常、サイズが単一または複数の記憶論理ブロックと等しい。単純にするために、データベース・ページのサイズがディスク・ブロックに等しいと仮定される。
インメモリ・データベースは、自身のアクティブ・データを揮発性メモリ内に維持する。インメモリ・データベースは、メモリのための内蔵管理部を備えることが一般的であり、この内蔵管理部は、オペレーティング・システムからのメモリの大部分を配分し、次に、これをインメモリ・データベースの使用に最も適した形で編成する。データが様々なサイズのメモリ・セグメントに記憶されることが仮定されるが、各メモリ・セグメントは、チェックポイント・イメージの作成のためのメモリ・ページ・サイズにデータを編成することを可能にする情報を含む。代替的に、データベースはメモリ内のメモリ・ページ・サイズに編成され得る。
HSBデータベースには、1つのプライマリ・ノードと、通常、1つのバックアップ・ノードとが存在するが、いくつかの変形形態は複数のバックアップ・ノードを有する。より複雑なシステムでは、パーティション(または「シャード(shards)」)において重複したデータベースを有することが可能であり、それによって、1つのパーティションはマスターと見なされ、他のパーティションはバックアップと見なされる。実施形態は、このパーティション化されたモデルにも適用される。ノードは、物理的に別個のコンピュータ装置、ラック内のカード、または単一のホスト・コンピュータ内の仮想マシンにおけるプロセスを意味し得る。時々、HSBデータベース、またはHSBデータベースを実行するコンピュータ・ノードはクラッシュする。そのようなクラッシュは、ノードのうちの1つのチェックポイント・イメージを乱し、乱されたノードに記憶されているデータベースをもはやリカバリーする(recover)ことができなくなる。クラッシュ中、別のノードが動作状態に留まっている場合、そのノードはプライマリ(既にプライマリでない場合)に切り替わることができ、トランザクションの実行を続ける。
プライマリ・ノードの故障後、或る時間が経つと、別のノードがバックアップ・ノードとして始動される。始動されたノードは、故障(およびリカバリー)したノードであってもよく、またはHSBデータベースにおいてバックアップ・ノードとして動作することが可能なスペア・ノードであってもよい。プライマリ・ノードが故障した場合、存在しないチェックポイント・イメージからバックアップ・ノードを始動する方法はない。プライマリ・ノードが起動し実行中であるときのみデータベース・コピーが可能である。始動されたバックアップ・ノードがディスク上に記憶されたデータベースを有しない場合、リストアすることができず、REDOトランザクション内に記憶されたトランザクションを処理することができない。したがって、始動されたバックアップ・ノードのためにデータのコピーが提供される必要があり、その後、チェックポイント・イメージが作成された時点の後にプライマリ・ノードのデータベースにおいて行われた全ての変更を含むログ・レコードが作成される。
故障の後にバックアップ・ノードが再起動されると、このバックアップ・ノードは破損したチェックポイント・イメージを有するかまたはチェックポイント・イメージを全く有しない場合がある。したがって、プライマリ・ノードをオフラインにすることなく、プライマリ・ノードからバックアップ・ノードに完全なチェックポイント・イメージをコピーする必要がある。バックアップ・ノードは、メタデータと、システム・テーブルと、最も近時のチェックポイント・イメージと、チェックポイント・イメージ作成が始動された時点から、プライマリ・データベースおよびバックアップ・データベースの双方の整合がとれた時点までに実行された書き込みトランザクションのREDOトランザクションとを必要とする。
バックアップ・ノードのデータベースを、プライマリ・ノードからのデータと同期させること(synchronizing)は、2つのフェーズ、すなわちコピー・フェーズおよびキャッチアップ・フェーズを含む。コピー・フェーズは、プライマリ・ノードにおけるデータベースをバックアップ・ノードにコピーすることを含む。キャッチアップ・フェーズはバックアップ・ノードにおいて、プライマリ・ノードにおいて既に実行され、コミットされたトランザクションに関するログ・レコードを実行することを含む。ノードのうちの1つが故障しているかまたはリカバリー中であるとき、この故障に起因してHSBデータベースの故障耐性が減少しているので、システムは脆弱フェーズにある。
既知のHSB同期解決策は、チェックポイント・イメージの反復バージョンを含む1つまたは複数のチェックポイント・イメージと、それに続く、最も近時のトランザクションによって作成されたログ・レコードとの完全なコピーを行う。
例えば、既知のHSB同期プロセスは、プライマリ・ノードにおけるプライマリ同期プロセス、すなわち、チェックポイント・イメージ(メタデータおよび実際のデータを含む)をプライマリ・ノードからバックアップ・ノードに送信することと、チェックポイント・イメージの作成中にアクティブであったREDOトランザクションを送信することと、同期中にプライマリ・ノードで実行されたREDOトランザクションを送信することとに分割することができる。対応するバックアップ同期プロセスは、対応するステップ、すなわち、チェックポイント・イメージ(メタデータおよび実際のデータを含む)を受信することと、チェックポイント・イメージの作成中にアクティブであったREDOトランザクションを受信することと、同期中にプライマリ・ノードで実行されたREDOトランザクションを受信することとに分割することができる。
コモディティー・ハードウェア上で実行されるインメモリ・データベースは、毎秒数十万個の別個の書き込みトランザクションを実行することができる。通常の状況下で、読み出し専用トランザクションは、プライマリ・ノードおよびバックアップ・ノードの双方で実行することができ、それによって負荷がプライマリ・ノードから部分的に分散される。他のノードが故障すると、残りのノードは自身の役割をプライマリに切り替えなくてはならない場合がある(既にプライマリでない場合)。プライマリ・ノードは即座に、全ての書き込みトランザクションおよび読み出し専用トランザクションの責任を負い、これによって実際には、プライマリ・ノードのアクティブなクライアント接続数が2倍になる場合がある。結果として、プライマリ・ノードのメモリ消費が著しく増大し、負荷のタイプおよび実施の詳細に依拠して、同時に実行されているトランザクション数の増大に起因して性能が低下する場合がある。
バックアップ・ノードがリカバリーを開始すると、プライマリ・ノードは、データベースの現在の状態のフレッシュなチェックポイント・イメージを作成する責任を負う。これはデータベース・シードにバックアップするためにコピーされる。チェックポイント・イメージの作成中にコミットされなかった全てのトランザクションは、プライマリ・ノードにおけるREDOトランザクションとして記録され、バックアップ・ノードに送信され、実行されなくてはならない。これがキャッチアップ・フェーズである。
プライマリ・ノードからバックアップ・ノードへチェックポイント・イメージをコピーし、バックアップ・ノードをプライマリ・ノードにキャッチアップさせることは、プライマリ・ノード・メモリが使い果たされる前に行われなくてはならない。プライマリ・ノード・メモリが使い果たされると、HSB同期プロセスが失敗するか、または代替的に、プライマリ・ノードのREDOトランザクションが、メモリ消費を減らすためにストレージに記憶されなくてはならない。永続ストレージREDOトランザクションは、永続ストレージ・ディスクから読み出される必要があり、これはデータを高速メモリから読み出すよりもはるかに低速である。
永続ストレージからREDOトランザクションにアクセスすることによって、キャッチアップ・フェーズが低速になる。低速なキャッチアップによって、結果としての故障のリスクが増大し、バックアップ・ノードが時間内にプライマリ・ノードにキャッチアップする全体能力が低下する。脆弱時間中の更なる故障は、HSBデータベースの観点から致命的となり得る。最初の故障後に、バックアップ・ノードがプライマリ・ノードにキャッチアップすることができない場合、将来的な致命的エラーのリスクが増大する。
したがって、キャッチアップ・フェーズは、更新頻度が高い場合、HSBデータベースの利用可能性に対する重大な脅威となり、このリスクを最小限にするためにHSB同期プロセスを可能な限り高速にすることが重要である。
本発明の第1の態様では、分散データベース環境においてオペレーショナル・プライマリ・ノードからデータベース・イメージをレプリケーションするためのレプリケータが提供される。このレプリケータは、データベース構造および複数のデータベース・ページを含むプライマリ・ノードのチェックポイント・イメージを規定するためのイメージ・エンジンと、バックアップ・ノードを初期化し、規定されたデータベース構造を初期化されたバックアップ・ノードに保存することによって、バックアップ・ノードにレプリカ・データベースを作成するためのコントローラと、チェックポイント・イメージの各データベース・ページを保存のためにバックアップ・ノードに送信するための伝送メカニズムと、チェックポイント・イメージの作成を開始した後に、プライマリ・ノードにおける全ての後続のトランザクションを保存し、それによって、バックアップ・ノードに送信するための対応するREDOトランザクションを作成するためのロガーと、各後続のトランザクションによって操作される各データ・ページを識別するためのページ識別子と、データベース・ページの送信と並列に、各作成されたREDOトランザクションを、対応するトランザクションが生じた順序でバックアップ・ノードに送信する並列伝送メカニズムであって、バックアップ・ノードが正しい順序でトランザクションをレプリケーションすることができるようにする、並列伝送メカニズムと、各識別されたデータベース・ページを、対応するREDOトランザクションよりも前にまたは実質的に同時にバックアップ・ノードに到達するように優先順位付けするためのページ・コントローラであって、それによって、対応するREDOトランザクションは、残りのデータベース・ページがバックアップ・ノードに保存されるのを待つことなく、識別されたデータベース・ページに対し動作することができる、ページ・コントローラと、を備える。
本発明の第2の態様によれば、分散データベース環境においてオペレーショナル・プライマリ・ノードからバックアップ・ノードにデータベース・イメージをレプリケーションするための方法が提供される。この方法は、データベース構造および複数のデータベース・ページを含むプライマリ・ノードのチェックポイント・イメージを規定することと、バックアップ・ノードを初期化し、規定されたデータベース構造を初期化されたバックアップ・ノードに保存することによって、バックアップ・ノードへのレプリカ・データベースの作成を開始することと、チェックポイント・イメージの各データベース・ページを保存のためにバックアップ・ノードに送信することと、チェックポイント・イメージの作成を開始した後に、プライマリ・ノードにおける全ての後続のトランザクションを保存し、バックアップ・ノードに送信するための対応するREDOトランザクションを作成することと、各REDOトランザクションによって操作される各データ・ページを識別することと、データベース・ページの送信と並列に、各作成されたREDOトランザクションを、対応するトランザクションが生じた順序でバックアップ・ノードに送信して、バックアップ・ノードが正しい順序でトランザクションをレプリケーションすることができるようにすることと、各識別されたデータベース・ページを、対応するREDOトランザクションよりも前にまたは実質的に同時にバックアップ・ノードに到達するように優先順位付けし、それによって、対応するREDOトランザクションが、全てのデータベース・ページがバックアップ・ノードに保存されるのを待つことなく、識別されたデータベース・ページに対して動作するようにすることと、を含む。
データベース構造が規定され、プライマリ・ノードから抽出されて、新たに作成されたバックアップ・ノードに、このバックアップ・ノードにおいて動作するREDOトランザクションの送信と並列に送信されることが提案される。新たに作成されたバックアップ・ノードは、データベース構造が到着すると、このデータベース構造をレプリケーションする。レプリケーション(同期としても知られる)は、空のデータベース構造(メタデータ、テーブルおよびインデックス)を作成することを含む。メタデータ構造のレプリケーションの直後に、バックアップ・ノードは、データベース・クライアントとの接続の確立を開始し、これらのデータベース・クライアントへのサービス提供を開始することができる。残りのデータ・ページはREDOトランザクションの実行と並列に送信される。データベース・ページとREDOトランザクションとのインターリーブは、バックアップ・ノードが、最も必要とされるデータを最初に受信するので有利である。
主要な利点は、プライマリ・ノードが中断なしでトランザクションを実行することができることであり、更に、バックアップ・ノードがメタデータを受信し処理すると、プライマリ・ノードがバックアップ・ノードへのREDOトランザクションの送信を開始することができることである。それに加えて、実施形態は、REDOトランザクションの送信と並列に、メイン・メモリからバックアップ・ノードへデータ・ページを送信することを可能にする。
実施形態は、シード・データベースがプライマリ・ノードからバックアップ・ノードにコピーされるのと同時にプライマリ・ノードからバックアップ・ノードにREDOトランザクションをレプリケーションすることが可能であることを認識している。換言すれば、HSB同期プロセスは、従来から、プライマリ・ノードのストレージからバックアップ・ノードへのフレッシュなチェックポイント・イメージの転送、それに続くキャッチアップ・フェーズを含む。キャッチアップ・フェーズの後になって初めてプライマリ・ノードからバックアップ・ノードへのログ・トランザクションを開始することが可能になる。
実施形態は、永続ディスク・ストレージを低速にする入/出力アクセスなしで、プライマリ・ノード・メイン・メモリからバックアップ・ノードへ直接チェックポイント・イメージをコピーすることを可能にする。実施形態は、HSB同期プロセス中にプライマリ・ノードからバックアップ・ノードへのアクティブなREDOトランザクションのレプリケーションを開始することも可能にする。結果として、永続ストレージ動作が存在しないので、チェックポイント・イメージ転送が高速になる。更に、チェックポイント・イメージ転送全体(すなわち、全てのデータ)について全てのアクティブなトランザクションがプライマリ・ノードにバッファリングされなくてはならない場合よりも、プライマリ・ノードにおけるメモリ消費がはるかに小さくなる。
結果として、データベース同期プロセスの持続時間は、ディスクまたはシステム性能ではなく、ネットワーク転送能力によって制限される。ネットワーク転送能力は、例えば、TCP/IPの代わりに専用ネットワーク・プロトコルを用いることによって増大させることができるので、ストレージ入/出力のボトルネックが取り除かれ、それによって、HSB同期プロセスが短縮化し、HSBデータベースの全体利用可能性が増大する。
トゥー・セーフ・レシーブド(2SR)プロトコル・トランザクションの観点で好ましい実施形態が説明されるが、他の実施形態は、ワン・セーフ・レシーブド(1SR:one-safe received)プロトコル・トランザクションを含む他のタイプのトランザクションを用い得る。1SRプロトコル・トランザクションでは、コミット要求がプライマリ・ノードからバックアップ・ノードに送信されとすぐにトランザクションがコミットする。
有利には、変更されたデータベース・ページは変更されていないデータベース・ページよりも優先される。必要とされる頻度がより低いページが共有リソースに対し競合しないように、最も要求されている(popular)データ(変更されたページまたはダーティページ)を可能な限り早く送信することが有利である。
より有利には、メイン・メモリ内のデータベース・ページは、永続ストレージにおいてデータベース・ページよりも優先される。メイン・メモリは、データがより高速にアクセスされ、転送時間が永続ストレージよりも短いので、優先される。メイン・メモリは通常、容量がより小さいがより高速なアクセス時間の揮発性メモリである。永続ストレージは通常、容量がより大きいがアクセス時間がより低速な永続ディスク・ドライブである。
更により有利には、本方法は、REDOトランザクションによって操作される2つ以上のデータ・ページを識別することと、作成されたREDOトランザクションの送信と並列に2つ以上のデータ・ページを送信することとを更に含む。
また更に有利には、プライマリ・ノードは全てのデータベース・ページが送信されたことをバックアップ・ノードに通知する。
好ましくは、バックアップ・ノードは、全てのデータベース・ページが受信されたことをプライマリ・ノードに通知する。
更に好ましくは、REDOトランザクションおよびデータベース・ページは、バックアップ・ノードに送信する前に送信バッファ内でインターリーブされる。
更により好ましくは、トランザクションは、プライマリ・ノードに対し連続負荷を課す。
実施形態は、クラスタ・データベース環境の外側で実行されるトランザクション・プロセスに対し、ノード故障中のデータベースの性能が、トランザクション・プロセスにとって実質的に下降ではなく実質的に一定にみえるような影響を有する。そのような影響は、実行中のコンピュータのマシンおよびシステム・レベルにおいて、ならびに任意の重複するアプリケーション・レベルよりも下において作用する。実施形態は、ノード故障中のコンピュータの速度の増加を実証する。
本発明の第3の態様では、クラスタ・データベース環境においてオペレーショナル・プライマリ・データベースをレプリケーションするためのコンピュータ・プログラム製品が提供される。このコンピュータ・プログラム製品は、コンピュータ可読プログラム・コードが具現化されたコンピュータ可読ストレージ媒体を備え、コンピュータ可読プログラム・コードは本方法の全てのステップを実行するように構成される。
コンピュータ・プログラム製品は、コンピュータ可読媒体、例えば、光ディスク、磁気ディスク、固体ドライブ等の有形媒体に固定されるか、またはモデムもしくは他のインターフェースデバイスを用いて、限定ではないが光通信線もしくはアナログ通信線を含む有形媒体を介して、もしくは限定ではないがマイクロ波、赤外線もしくは他の伝送技法を含む無線技法を非有形に用いてコンピュータ・システムに伝送可能な、一連のコンピュータ可読命令を含む。一連のコンピュータ可読命令は、本明細書において上記で説明した機能のうちの全てまたは一部を実現する。
当業者であれば、そのようなコンピュータ可読命令は、多くのコンピュータ・アーキテクチャまたはオペレーティング・システムと共に用いるために複数のプログラミング言語で書くことができることを認識するであろう。更に、そのような命令は、限定ではないが半導体、磁気、もしくは光を含む現在もしくは未来の任意のメモリ技術を用いて記憶することができるか、または、限定ではないが光、赤外線もしくはマイクロ波を含む現在もしくは未来の任意の通信技術を用いて送信することができる。そのようなコンピュータ・プログラム製品は、添付の印刷された文書もしくは、例えばシステムROMもしくは固定ディスク上でコンピュータ・システムに予めロードされた、電子文書を有するリムーバブル媒体、例えば市販ソフトウェアとして配信することができるか、またはネットワーク、例えばインターネットもしくはワールド・ワイド・ウェブを介してサーバまたは電子掲示板から配信することができることが予期される。
本発明の第4の態様では、コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムが提供される。このプログラムは、このプログラムがコンピュータ上で実行されると方法請求項の全てのステップを実行するためのソフトウェア・コード部分を備える。
本発明の第5の態様では、コンピュータ・システムにロードされ、コンピュータ・システムによって操作されると、このコンピュータ・システムが方法請求項の全てのステップを実行することを可能にする機能コンピュータ・データ構造を含む、好ましい実施形態のデータ・キャリアの態様が提供される。適切なデータ・キャリアは、固体メモリ、磁気ドライブまたは光ディスクとすることができる。データ伝送チャネルも同様に、全ての記載のストレージ媒体、および有線または無線の信号搬送媒体等の信号搬送媒体を含むことができる。
ここで、以下の図面を参照して、本発明の好ましい実施形態を例としてのみ説明する。
好ましい実施形態の展開図である。 好ましい実施形態のコンポーネント図である。 好ましい実施形態のプロセスの流れ図である。 好ましい実施形態のサブプロセスの流れ図である。 好ましい実施形態のサブプロセスの流れ図である。 好ましい実施形態のサブプロセスの流れ図である。 好ましい実施形態のサブプロセスの流れ図である。 好ましい実施形態の対応するバックアップ・ノード・プロセスの流れ図である。 並列コンピューティングの実施形態の展開図である。
図1を参照すると、ホット・スタンバイ・データベース・システム10における好ましい実施形態の展開が説明されている。ホット・スタンバイ・データベース・システム10は、多数の他の汎用または専用コンピューティング・システム環境または構成と共に動作可能である。ホット・スタンバイ・データベース・システム10と共に用いるのに適し得る既知のコンピューティング処理システム、環境または構成あるいはそれらの組合せの例は、限定ではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能な消費者電子機器、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのうちの任意のものを含む分散型クラウド・コンピューティング環境を含む。
ホット・スタンバイ・データベース・システム10は、コンピュータ・プロセッサによって実行されるプログラム・モジュール等のコンピュータ・システム実行可能な命令の一般的な文脈で説明され得る。通常、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ・タイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジックおよびデータ構造を含むことができる。ホット・スタンバイ・データベース・システム10は、分散型クラウド・コンピューティング環境において具現化することができ、分散型クラウド・コンピューティング環境では、タスクは通信ネットワークを通じてリンクされたリモート処理デバイスによって行われる。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモート双方のコンピュータ・システム・ストレージ媒体内に配置することができる。
ホット・スタンバイ・データベース・システム10は、汎用コンピュータ・サーバプライマリ・ノード12と、プライマリ・ノード12に直接取り付けられた1つまたは複数の入力デバイス14および出力デバイス16と、コンピュータ・サーバ・バックアップ・ノード12’と、少なくとも1つのスペア・ノード13とを備える。
ホット・スタンバイ・データベース・システム10はネットワーク20に接続される。ホット・スタンバイ・データベース・システム10は、入力デバイス14および出力デバイス16を用いてユーザ18と通信する。入力デバイス14は、キーボード、スキャナ、マウス、トラックボールまたは別のポインティング・デバイスのうちの1つまたは複数を含む。出力デバイス16は、ディスプレイまたはプリンタのうちの1つまたは複数を含む。ホット・スタンバイ・データベース・システム10は、ネットワーク20を介してネットワーク・デバイス(図示せず)と通信する。ネットワーク20は、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)またはインターネットとすることができる。
コンピュータ・サーバ・プライマリ・ノード12は、中央処理装置(CPU)22と、ネットワーク・アダプタ24と、デバイス・アダプタ26と、バス28と、メモリ30とを備える。
CPU22は、メモリ30からマシン命令をロードし、命令に応答してマシン動作を実行する。そのようなマシン動作は、レジスタ(図示せず)内の値をインクリメントまたはデクリメントすることと、メモリ30からレジスタにまたはその逆に値を転送することと、条件が真または偽である場合にメモリ内の異なるロケーションに分岐することと(条件付き分岐命令としても知られる)、2つの異なるレジスタ内の値を加算または減算することと、結果を別のレジスタ内にロードすることとを含む。通常のCPUは、多くの異なるマシン動作を実行することができる。マシン命令の組は、マシン・コード・プログラムと呼ばれる。マシン命令は、システムにおいて可能な抽象度の最も低い言語レベルであるマシン・コード言語で書かれる。高水準言語で書かれたコンピュータ・プログラムは、コンパイルされてマシン・コード・プログラムにされる必要があり、その後実行され得る。代替的に、仮想マシンまたはインタープリタ等のマシン・コード・プログラムは、マシン動作の観点で高水準言語を解釈実行することができる。
ネットワーク・アダプタ24は、プライマリ・ノード12と、バックアップ・ノードを含むネットワーク・デバイスとの間の通信を可能にするためにバス28およびネットワーク20に接続される。
デバイス・アダプタ26は、コンピュータ・サーバ12と、入力デバイス14および出力デバイス16との間の通信を可能にするためにバス28ならびに入力デバイス14および出力デバイス16に接続される。
バス28は、メイン・システム・コンポーネントを、メモリ30を含めて合わせてCPU22に結合する。バス28は、メモリ・バスまたはメモリ・コントローラと、周辺バスと、アクセラレイティッド・グラフィックス・ポートと、多岐にわたるバス・アーキテクチャのうちの任意のものを用いるプロセッサまたはローカル・バスとを含む、任意のいくつかのタイプのバス構造のうちの1つまたは複数を表す。例として、限定ではないが、そのようなアーキテクチャは、産業規格アーキテクチャ(ISA)バス、マイクロチャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バス、および周辺コンポーネント相互接続(PCI)バスを含む。
メモリ30は、揮発性メモリ32および不揮発性メモリまたは永続メモリ34の形態のコンピュータ・システム可読媒体を備える。揮発性メモリ32の例は、ランダム・アクセス・メモリ(RAM)36およびキャッシュ・メモリ38である。通常、揮発性メモリは、より高速であることに起因して用いられ、通常、不揮発性メモリは、データをより長く保持することに起因して用いられる。ホット・スタンバイ・データベース・システム10は、他の取外し可能または取外し不能あるいはその両方の、揮発性または不揮発性あるいはその両方のコンピュータ・システム・ストレージ媒体を更に備えることができる。単なる例として、永続メモリ34は、取外し不能な不揮発性の磁気媒体(図示しないが、通常、磁気ハードディスクまたはソリッドステート・ドライブである)に対し読み書きを行うために提供され得る。図示しないが、取外し可能な不揮発性ソリッドステート・メモリのための外部ポートと、コンパクト・ディスク(CD)、デジタル・ビデオ・ディスク(DVD)またはブルーレイ等の取外し可能な不揮発性光ディスクに対し読み書きを行うための光ディスク・ドライブとを含む更なるストレージ媒体が提供され得る。そのような例では、それぞれが1つまたは複数のデータ媒体インターフェースによってバス28に接続され得る。以下で更に示し説明するように、メモリ30は、本発明の実施形態の機能を実行するように構成されるプログラム・モジュールの組(例えば、プログラム・モジュールのうちの少なくとも1つ)を有する少なくとも1つのプログラム製品を含むことができる。
好ましい実施形態の機能を実行するように構成されるプログラム・モジュールの組は、データベース100Aおよびレプリケータ200Aを備える。バックアップ・ノード12’は、データベース100Bおよびレプリケータ200Bを備える。図示されないが、好ましい実施形態をサポートする更なるプログラム・モジュールは、ファームウェア、ブート・ストラップ・プログラム、オペレーティング・システムおよびサポート・アプリケーションを含む。オペレーティング・システム、サポート・アプリケーション、他のプログラム・モジュールおよびプログラム・データまたはそれらの何らかの組合せのそれぞれが、ネットワーキング環境の実装を含むことができる。
ホット・スタンバイ・データベース・システム10は、ネットワーク・アダプタ24を介して少なくとも1つのネットワーク20(ローカル・エリア・ネットワーク(LAN)、一般的な広域ネットワーク(WAN)、またはインターネットのような公衆ネットワークあるいはそれらの組合せ等)と通信する。ネットワーク・アダプタ24は、バス28を介してコンピュータ・サーバ12の他のコンポーネントと通信する。図示されていないが、ホット・スタンバイ・データベース・システム10と合わせて他のハードウェアまたはソフトウェアコンポーネントあるいはその両方が用いられ得ることを理解するべきである。限定ではないが、例は、マイクロコード、デバイス・ドライバ、冗長処理装置、外部ディスク・ドライブ・アレイ、独立ディスクの冗長アレイ(RAID)、テープ・ドライブおよびデータ・アーカイブ・ストレージ・システムを含む。
図2を参照すると、レプリケータ200(一般的なクラスのレプリケータ200Aおよび200B)は、以下のコンポーネント、すなわち、copyidインデックス202と、dirtyidインデックス204と、送信キュー206と、プライマリ方法300と、バックアップ・ノード方法500とを含む。
copyidインデックス202は、特定のチェックポイント・イメージについて既にバックアップ・ノードに送信されたデータベース・ページの参照を記憶するためのデータ構造である。
dirtyidインデックス204は、チェックポイント・イメージが定義されてから変更されたデータベース・ページの参照を記憶するためのデータ構造である。代替的に、チェックポイント・イメージの全てのデータベース・ページが、ディスクから変更されていないデータベース・ページを読み出すのではなく、メモリから読み出される場合、dirtyidインデックス204は、全てのデータベース・ページの識別子を含む。前者の場合、変更されていないデータベース・ページが変更されるときはいつでも、その識別子がdirtyidインデックス204に追加される。dirtyidインデックス204は、チェックポイント・イメージ作成が完了すると空にされる。後者の場合、dirtyidインデックス204は、データベースの全てのデータベース・ページ識別子を含む。
送信キュー206は、バックアップ・ノードに送信する前にデータベース・ページおよびREDOトランザクションを記憶するためのキューである。
プライマリ方法300は、プライマリ・ノードをレプリケーションするための方法であり、以下で図3および図4〜図7を参照して詳細に説明される。
バックアップ・ノード方法500は、プライマリ・ノードをレプリケーションするための対応するバックアップ・ノード・プロセスであり、図8を参照して以下で詳細に説明される。
図3を参照すると、プライマリ方法300は論理プロセス・ステップ301〜307を含む。
開始状況において、プライマリ方法300は、新たなバックアップ・ノードになる予定の別のノードが始動されると、トランザクションを実行する。新たなバックアップ・ノードは、破損したかまたは完全に欠落していることに起因して独自のデータベース・イメージを有しない。新たなバックアップ・ノードは、プライマリ・ノードと共通のデータベースを共有する必要がある。プライマリ方法300は、チェックポイント・イメージまたはスナップショットと呼ばれる、自身のデータベースの自己充足型の整合性のあるバージョンを作成する。インメモリ・データベースにおいて、メモリ内にチェックポイントが作成され、このメモリから、バックアップ・ノードに転送するためにチェックポイントがコピーされる。ディスクおよびメイン・メモリから、ページを並列に読み出すことができる。ダーティ・ページがメイン・メモリ内に存在する。なぜならこれらは最近変更されたためである。このため、これらのダーティ・ページは、ディスク上のページよりも早く再び変更される可能性がより高い。
プライマリ・ノードのcopyidインデックス202において発見されるデータベース・ページは、以下の状態、すなわち、BUFFERED(既に送信バッファに加えられており、既に発見され、バックアップ・ノードに送信されることが決定されているとき)、およびSENT(ページの実際の送信が行われたとき)のうちの1つを有する。
ステップ301は、新たなチェックポイント・イメージおよび新たなチェックポイント識別子を作成するためのものである。チェックポイント・カウンタがインクリメントされる。トランザクションによって生じる更新は、チェックポイント・イメージ作成中、データを失わない。更新トランザクションは、チェックポイント・イメージ作成中にコミットを行うことができる。以前のチェックポイント・イメージ・バージョンは、それらが永続ストレージに記憶されるまで維持される。
ステップ302は、データベースから、メタデータおよびシステム・テーブルを含む必要なデータベース構造を抽出し、これらをバックアップ・ノード12’に送信するためのものである。
ステップ303は、応答を待機するためのものである。メタデータの処理に成功し、バックアップ・ノード12’がデータおよびREDOトランザクションを受信する準備ができていることを通知する確認応答がバックアップ・ノード12’から到着する。
ステップ304は、REDOトランザクションおよびデータベース・ページの並列処理のためのものであり、図4〜図7の並列プロセス方法304’を参照して以下でより詳細に説明される。
ステップ305は、全てのデータベース・ページがバックアップ・ノードに送信された時を検出し、これ以上ページが送信されないことをバックアップ・ノードに通知するためのものである。
ステップ306は、全てのデータベース・ページがバックアップ・ノードによって受信され、リカバリーされたことを確認応答するためのものである。
ステップ307は、通常の手順に戻り、ローカル・コミット・プロトコルから分散コミット・プロトコルに切り替えるためのものである。
図4を参照すると、並列プロセス方法304’は、論理プロセス・ステップ304A1、304A2、304A3、304A4、304Fおよび方法304Bを含む。
ステップ304A1は、プロセスを、並列に実行される2つの別個のプロセス、すなわち、ステップ304A2において開始する、バックアップ・ノードにデータベース・ページを送信するための第1のプロセスと、方法304BにおいてREDOトランザクションを扱うための第2のプロセスとに分割するためのものである。
ステップ304A2は、チェックポイント・イメージ作成以降、データベース・ページがクリーンであるかまたはダーティであるか(変更されていないかまたは変更されているか)を判断するためのものである。dirtyidインデックス204が調べられる。データベース・ページがdirtyidインデックス204内にリストされていない場合、ページはクリーンであり、ステップ304A3に進む。そうでない場合、ページはダーティであり、ステップ304A4に進む。データベース・ページは、変更されたことに起因してdirtyidインデックス204内にリストされている場合、ダーティである。
ステップ304A3は、メイン・メモリまたはストレージからデータベース・ページを読み出すためのものである。双方のページが対応するので、整合性の観点からこれは問題でない。一方、好ましい実施形態では、データベース・ページは、アクセス時間がより高速であるので、オペレーショナル・メモリから読み出される。アクセスされるデータベース・ページは、バックアップ・ノードに転送するために送信キュー206に送信される。次に、ステップ304Fに進む。
ステップ304A4は、メイン・メモリからデータベース・ページを読み出すためのものである。これは単に、ページの最も新しいコピーが存在するのがメイン・メモリであることに起因する。次に、ステップ304Fに進む。
方法304Bは、バックアップ・ノードにREDOトランザクションを送信するためのものであり、図5に関して以下でより詳細に説明される。次に、ステップ304Fに進む。
ステップ304Fは、処理するべきデータベース・ページまたはREDOトランザクションがまだ存在するか否かを判断し、存在する場合、ステップ304A1に戻るためのものである。そうでない場合、ステップ305に進む。
図5を参照すると、方法304B(REDOトランザクションをバックアップ・ノードに送信する)は、論理プロセス・ステップ304B1〜304B9、方法304Cおよび方法304Dを含む。
ステップ304B1は、全てのREDOトランザクションについてループを定義し、それぞれのREDOトランザクションからデータベース・ページ識別子を抽出するためのものである。
ステップ304B2は、全てのページに対する全てのチェックを実行することによって、2つ以上のデータベース・ページでのREDOトランザクションを処理するためのものである。
ステップ304B3は、抽出されたページ識別子またはページ識別子を求めてcopyidインデックス202を探索して、データベース・ページがバックアップ・ノードに既に送信されたか否かを判断するためのものである。
ステップ304B4は、抽出されたページIDがcopyidインデックス202内になく、したがってまだバックアップ・ノードに送信されていない場合に、ステップ304B5に分岐するためのものである。そうではなく、抽出されたページIDがcopyidインデックス202内にある場合、ステップ304B9に進む。
ステップ304B5は、dirtyidインデックス204内の抽出されたページIDを探索して、チェックポイント後に変更されたか否かを知るためのものである。
ステップ304B6は、dirtyidインデックス204が抽出されたページIDを含む場合、ステップ304B7に分岐するためのものである。そうでない場合、プロセスは方法304Cに分岐する。
方法304Cは、copyidインデックス202内にも、dirtyidインデックス内にも発見されないページIDを処理し、終了時にステップ304Fに進むためのものである。方法304Cは、図6を参照して以下でより詳細に説明される。
ステップ304B7は、メイン・メモリからページを読み出すためのものである。
ステップ304B8は、読み出しページを、バックアップ・ノードに送信するために送信キュー206に追加するためのものである。
304Fは、更なるページまたはREDOトランザクションが存在する場合にステップ304A1にループ・バックすることとして上記で説明された。
ステップ304B9は、記録の状態を読み出して、方法304Dに進むためのものである。
方法304Dは、copyidインデックス202において発見されたデータベース・ページIDを処理し、終了時にステップ304Fに進むためのものである。方法304Dは、図7を参照して以下でより詳細に説明される。
図6を参照すると、方法304Cは、論理プロセス・ステップ304C1〜304C3、304E1および304E2を含む。
ステップ304C1は、抽出されたデータベース・ページがクリーンであり、最新のチェックポイント・イメージよりも前に作成されている場合、ステップ304C2に分岐するためのものである。そうでない場合、ステップ304C3に進む。
ステップ304C2は、オペレーショナル・メモリまたはストレージ・メモリからデータベース・ページを読み出すためのものである。次に、ステップ304E1に進む。
ステップ304E1は、REDOトランザクションを送信キュー206に追加するためのものである。次に、ステップ304E2に進む。
ステップ304E2は、copyidインデックス202にデータベース・ページ識別子を追加し、次にステップ304Fに進むためのものである。
ステップ304C3は、REDOトランザクションのみを送信キュー206に追加し、その後ステップ304Fに進むためのものである。
図7を参照すると、方法304Dは、論理プロセス・ステップ304D1〜304D3を含む。
ステップ304D1は、ページ状態が「キュー状態」である場合、ステップ304D2に分岐するためのものである。そうではなく、ページ状態が「送信済み」である場合、分岐はステップ304D3に進む。
ステップ304D2は、送信キュー206内のページのロケーションを探索して、REDOトランザクションを、送信キュー206内においてページのロケーションの後に挿入するためのものである。次に、ステップ304Fに進む。
ステップ304D3は、REDOトランザクションを、通常はキューに追加することなく、可能な限り早くバックアップ・ノードに送信するためのものである。
図8を参照すると、バックアップ・ノード方法500は、論理プロセス・ステップ501〜506(サブステップ503.1、503.2、503.3、504A1、504A2、504B1および504B2を含む)を含む。バックアップ・ノード方法500はプライマリ方法300を補うものである。
ステップ501は、プライマリ・ノードからメタデータを受信するためのものである。メタデータは、例えば、データベース構造と、データベース・スキーマを作成するのに必要な情報とを含み、バックアップ・ノードがデータベースを開くことを可能にする。
ステップ502は、メタデータを処理し、確認応答をプライマリ・ノードに返送するためのものであり、プライマリ・ノードは、プライマリ・ノード・チェックポイント・イメージと、プライマリ・ノードにおいて実行されるトランザクションに対応するREDOトランザクションとを受信する準備ができている。
ステップ503は、ページ・タイプがチェックポイント・イメージからのものである場合、ステップ503.1に分岐するためのものである。そうではなく、文書タイプがREDOトランザクションタイプである場合、ステップはステップ503.2に進む。バックアップ・ノードは、ページを受信すると、例えば、行、必要な情報、テーブルIDおよびトランザクションIDを抽出し、行を自身のローカル・データベースに挿入することによって、ページをリストアする。バックアップ・ノードはリストアした全てのページを、これらをインデックスに挿入することによって追跡する。
ステップ503.1は、テーブルID、トランザクションIDを抽出し、行およびインデックスを挿入してバックアップ・データベースを構築するためのものである。次に、ステップ505に進む。
ステップ503.2は、テーブルIDおよびトランザクションIDを抽出するためのものであり、次に、ステップ503.3に進む。
ステップ503.3は、ページがリストアされた場合に504B1に分岐し、ページがリストアされていない場合にステップ504A1に分岐するためのものである。
ステップ503A1は、ロックを用いてページがリストアされ得る場合にステップ503A2に分岐し、そうでない場合にステップ504B1に分岐するためのものである。
ステップ503A2は、全てのロックを取得し、それらが全て取得されるとステップ504B1に分岐するためのものである。ページがリストアされていない場合、実行は必要なロックが取得されるところまでしか進むことができない。実行は、対応するページがリストアされるまで待機する。リストアの実装形態がロックを用いる場合、REDOトランザクション動作は、ページのリストアが完了するまで、ロックを用いずに待機しなくてはならない。そうではなく、ページがリストアされた場合、REDOトランザクションは通常通り実行することができる。通常のHSB動作においてREDOトランザクションを並列に実行することが可能である場合、これは同期中にも可能である。
ステップ504B1は、REDOトランザクションの並列実行のためのものである。バックアップ・ノードは、REDOトランザクションを受信すると、そこから必要な情報(例えば、テーブルIDおよびトランザクションID)を抽出し、対応するページがリストアされているか否かをチェックする。
ステップ504B2は、プライマリ・ノードがバックアップ・ノードに、チェックポイントが完了したことを通知する場合、ステップ503に分岐するためのものである。そうではなく、通知がない場合、ステップ505に進む。
ステップ505は、ページIDを抽出し、確認応答するためのものである。バックアップ・ノードは、チェックポイントがプライマリによって完全に送信されたという通知を受信すると、この通知からページIDを抽出する。ページが完全にリストアされると、バックアップ・ノードは、プライマリ・ノードに、チェックポイント・イメージが受信されたことを確認応答する。
ステップ506は、ローカル・コミット・プロトコルから分散コミット・プロトコルに切り替えることによって通常の手順に戻るためのものである。
次に、本発明の更なる実施形態を説明する。
好ましい実施形態の論理プロセス・ステップの全てまたは一部が、代替的に、本方法の論理プロセス・ステップを実行するように構成された論理要素を含む1つまたは複数の論理装置において具現化され得ること、および、そのような論理要素が、ハードウェア・コンポーネント、ファームウェア・コンポーネントまたはそれらの組合せを含むことができることが当業者には明らかであろう。
好ましい実施形態の論理コンポーネントの全てまたは一部が、代替的に、本方法のステップを実行するための論理要素を含む論理装置において具現化され得ること、および、そのような論理要素が、例えば、プログラマブル論理アレイまたは特定用途向け集積回路における論理ゲート等のコンポーネントを含むことができることも当業者には等しく明らかであろう。そのような論理構成は、そのようなアレイまたは回路において、例えば、固定搬送媒体または伝送可能な搬送媒体を用いて記憶または伝送され得る仮想ハードウェア記述子言語を用いて、論理構造を一時的にまたは永続的に確立するための要素を可能にする際に更に具現化され得る。
更なる代替の実施形態では、本発明は、コンピュータ・インフラストラクチャに展開され、そこで実行されると、コンピュータ・システムに本方法の全てのステップを実行させるように動作可能なコンピュータ・プログラム・コードを展開するステップを含む、サービスを展開するコンピュータ実施方法の形態で実現することができる。
本方法および好ましい実施形態のコンポーネントは、代替的に、並列ソフトウェアを実行するための2つ以上のプロセッサを含む並列コンピューティング・システムにおいて完全にまたは部分的に具現化され得ることが理解されよう。
図9を参照すると、データベースを並列に処理するためのホット・スタンバイ・データベース・システムの並列な組を含む例示的な並列コンピューティングの実施形態10Pが説明されている。好ましい実施形態は、分散データベース環境における単一のプロセッサ・サーバにおける展開であるが、別の実施形態は、分散データベース環境における並列なプロセッサ・サーバにおいて実施され得る。並列なホット・スタンバイ・データベース・システム10Pは、並列プログラム・モジュール等の並列なコンピュータ・システム実行可能命令が並列コンピューティング・システム10Pによって実行される一般的な文脈において説明される。通常、並列プログラム・モジュールは、特定のタスクを実行するか、特定の抽象データ・タイプを実施する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造を含むことができる。並列ホット・スタンバイ・データベース・システム10Pは、並列コンピュータ・サーバ12Aおよび12Bを備える。直接接続またはネットワークが、並列コンピュータ・サーバ12Aおよび12B間のアクセスを提供する。
並列コンピュータ・サーバ12Aは、CPU22AA、CPU22ABと、ネットワーク・アダプタ24Aと、バス28Aおよびメモリ30Aとを備える。同様に、並列コンピュータ・サーバ12Bは、CPU22BA、CPU22BBと、ネットワーク・アダプタ24Bと、バス28Bおよびメモリ30Bとを備える。
バス28Aおよびバス28Bは、メモリ・バスまたはメモリ・コントローラと、周辺バスと、アクセラレイテッド・グラフィックス・ポートと、多岐にわたるバス・アーキテクチャのうちの任意のものを用いるプロセッサまたはローカル・バスとを含む、任意のいくつかのタイプのバス構造のうちの1つまたは複数を表す。
メモリ30Aおよび30Bは、揮発性メモリ32Aおよび32B(ランダム・アクセス・メモリおよびキャッシュ・メモリ(図示せず)等)の形態、ならびに不揮発性メモリまたは永続メモリ34Aおよび34Bの形態のコンピュータ・システム可読媒体を含む。
永続メモリ34Aは、少なくとも2つのデータベース100AAおよび100ABと、レプリケータ・モジュール200Aとを備える。実行中、レプリケータ・オブジェクト200AAおよび200ABと、対応するデータベース100AA’および100AB’は、揮発性メモリ32A内のそれぞれのメモリ空間33AAおよび33AB内でインスタンス化される。
同様に、永続メモリ34Bは、少なくとも2つのデータベース100BAおよび100BBと、レプリケータ・モジュール200Bとを備える。実行中、レプリケータ・オブジェクト200BAおよび200BBと、対応するデータベース100BA’および100BB’は、揮発性メモリ32B内のそれぞれのメモリ空間33BAおよび33BB内でインスタンス化される。
永続メモリ34Aおよび34Bはまた、対応するオペレーティング・システムと、1つまたは複数のアプリケーション・プログラムと、データベース管理システムと、他のプログラム・モジュールとを記憶する。オペレーティング・システム、1つもしくは複数のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データのそれぞれまたはそれらの何らかの組合せは、ネットワーキング環境の実施を含むことができる。レプリケータ・モジュール200Aおよび200Bは、並列環境において、実施形態の機能または方法あるいはその両方を実行するように提供される。
データベースおよびレプリケータ・モジュールは、並列な実施形態の自律的部分である。動作時に、これらの2つのタイプのモジュールが永続メモリ34Aおよび34Bから抽出され、揮発性メモリ32Aおよび34Bにロードされ、それによって、それらを別個に実行することができ、したがってそれぞれのCPU(CPU22AA、22AB、22BA、22BB)によって並列に実行することができる。
この例において、サーバあたり2つのCPUが示されているが、任意の数のCPUを用いて代替的な並列な実施形態を構築することができる。この例において、2つの別個のCPUが用いられるが、複数のコアを有する単一の処理装置を用いて代替的な実施形態を構築することができる。
この並列な実施形態では、CPUは物理的なCPUであるが、代替的な実施形態では、仮想的なCPUをシミュレートすることができる。仮想並列コンピューティングの実施形態では、コンピュータ・サーバは、仮想コンピューティング環境を備え、仮想並列処理装置を用いて仮想並列コンピューティングの実施形態を構築することができる。コンピュータ・サーバは、複数の仮想コアを備えた仮想処理装置を有する仮想コンピューティング環境を備える。
更なる実施形態は、実際の処理装置と、実際の処理装置コアと、仮想処理装置と、仮想並列処理コアとの任意の組合せを含むことができる。
当業者であれば、本発明の範囲から逸脱することなく、上記の例示的な実施形態に対し多くの改善および変更を行うことができることが明らかとなるであろう。

Claims (18)

  1. 分散データベース環境においてオペレーショナル・プライマリ・ノードからデータベース・イメージをレプリケーションするためのレプリケータであって、
    データベース構造および複数のデータベース・ページを含む前記プライマリ・ノードのチェックポイント・イメージを規定するためのイメージ・エンジンと、
    バックアップ・ノードを初期化し、前記規定されたデータベース構造を前記初期化されたバックアップ・ノードに保存することによって、バックアップ・ノードにレプリカ・データベースを作成するためのコントローラと、
    前記チェックポイント・イメージの各データベース・ページを保存のために前記バックアップ・ノードに送信するための伝送メカニズムと、
    チェックポイント・イメージの作成を開始した後に、前記プライマリ・ノードにおける各後続のトランザクションを保存し、それによって、前記バックアップ・ノードに送信するための対応するREDOトランザクションを作成するためのロガーと、
    各後続のトランザクションによって操作される各データ・ページを識別するためのページ識別子と、
    前記データベース・ページの前記送信と並列に、各作成されたREDOトランザクションを、対応するトランザクションが生じた順序で前記バックアップ・ノードに送信する並列伝送メカニズムであって、前記バックアップ・ノードが正しい順序で前記トランザクションをレプリケーションすることができるようにする、前記並列伝送メカニズムと、
    各識別されたデータベース・ページを、対応するREDOトランザクションよりも前にまたは実質的に同時に前記バックアップ・ノードに到達するように優先順位付けするためのページ・コントローラであって、それによって、前記対応するREDOトランザクションは、全てのデータベース・ページが前記バックアップ・ノードに保存されるのを待つことなく、前記識別されたデータベース・ページに対し動作することができる、前記ページ・コントローラと、
    を備える、レプリケータ。
  2. 変更されたデータベース・ページは、変更されていないデータベース・ページよりも優先される、請求項1に記載のレプリケータ。
  3. メイン・メモリ内のデータベース・ページは、永続ストレージ内のデータベース・ページよりも優先される、請求項1に記載のレプリケータ。
  4. REDOトランザクションによって操作される2つ以上のデータ・ページを識別することと、前記作成されたREDOトランザクションの前記送信と並列に前記2つ以上のデータ・ページを送信することと、
    を更に含む、請求項1に記載のレプリケータ。
  5. 前記プライマリ・ノードは、全てのデータベース・ページが送信されたことを前記バックアップ・ノードに通知する、請求項1に記載のレプリケータ。
  6. 前記バックアップ・ノードは、全てのデータベース・ページが受信されたことを前記プライマリ・ノードに通知する、請求項1に記載のレプリケータ。
  7. REDOトランザクションおよびデータベース・ページは、バックアップ・ノードに送信する前に送信バッファ内でインターリーブされる、請求項1に記載のレプリケータ。
  8. トランザクションは、前記プライマリ・ノードに対し連続負荷を課す、請求項1に記載のレプリケータ。
  9. 分散データベース環境においてオペレーショナル・プライマリ・ノードのデータベース・イメージをバックアップ・ノードにレプリケーションするための方法であって、
    データベース構造および複数のデータベース・ページを含む前記プライマリ・ノードのチェックポイント・イメージを規定することと、
    バックアップ・ノードを初期化し、前記規定されたデータベース構造を前記初期化されたバックアップ・ノードに保存することによって、バックアップ・ノードにレプリカ・データベースを作成することと、
    前記チェックポイント・イメージの各データベース・ページを保存のために前記バックアップ・ノードに送信することと、
    チェックポイント・イメージの作成を開始した後に、前記プライマリ・ノードにおける各後続のトランザクションを保存し、それによって、前記バックアップ・ノードに送信するための対応するREDOトランザクションを作成することと、
    各後続のトランザクションによって操作される各データ・ページを識別することと、
    前記データベース・ページの前記送信と並列に、各作成されたREDOトランザクションを、対応するトランザクションが生じた順序で前記バックアップ・ノードに送信し、前記バックアップ・ノードが正しい順序で前記トランザクションをレプリケーションすることができるようにすることと、
    各識別されたデータベース・ページを、対応するREDOトランザクションよりも前にまたは実質的に同時に前記バックアップ・ノードに到達するように優先順位付けし、それによって、前記対応するREDOトランザクションが、全てのデータベース・ページが前記バックアップ・ノードに保存されるのを待つことなく、前記識別されたデータベース・ページに対し動作することができるようにすることと、
    を含む、方法。
  10. 変更されたデータベース・ページは、変更されていないデータベース・ページよりも優先される、請求項9に記載の方法。
  11. メイン・メモリ内のデータベース・ページは、永続ストレージ内のデータベース・ページよりも優先される、請求項9に記載の方法。
  12. REDOトランザクションによって操作される2つ以上のデータ・ページを識別することと、前記作成されたREDOトランザクションの前記送信と並列に前記2つ以上のデータ・ページを送信することと、
    を更に含む、請求項9に記載の方法。
  13. 前記プライマリ・ノードは、全てのデータベース・ページが送信されたことを前記バックアップ・ノードに通知する、請求項9に記載の方法。
  14. 前記バックアップ・ノードは、全てのデータベース・ページが受信されたことを前記プライマリ・ノードに通知する、請求項9に記載の方法。
  15. REDOトランザクションおよびデータベース・ページは、バックアップ・ノードに送信する前に送信バッファ内でインターリーブされる、請求項9に記載の方法。
  16. トランザクションは、前記プライマリ・ノードに対し連続負荷を課す、請求項9に記載の方法。
  17. 分散データベース環境においてオペレーショナル・プライマリ・ノードからバックアップ・ノードにデータベース・イメージをレプリケーションするためのコンピュータ・プログラム製品であって、コンピュータ可読プログラム・コードが具現化されたコンピュータ可読ストレージ媒体を備え、前記コンピュータ可読プログラム・コードは請求項9から16のいずれか一項に記載の方法を実行するように構成される、コンピュータ・プログラム製品。
  18. コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されると、請求項9から16のいずれか一項に記載の方法を実行するためのソフトウェア・コード部分を備える、コンピュータ・プログラム。
JP2016520319A 2013-06-25 2014-03-18 オンライン・ホット・スタンバイ・データベースのためのレプリケーション方法、プログラム、および装置 Active JP6362685B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1311259.4 2013-06-25
GB1311259.4A GB2515501A (en) 2013-06-25 2013-06-25 Replication for on-line hot-standby database
PCT/EP2014/055431 WO2014206581A1 (en) 2013-06-25 2014-03-18 Replication for on-line hot-standby database

Publications (2)

Publication Number Publication Date
JP2016522514A true JP2016522514A (ja) 2016-07-28
JP6362685B2 JP6362685B2 (ja) 2018-07-25

Family

ID=48998901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016520319A Active JP6362685B2 (ja) 2013-06-25 2014-03-18 オンライン・ホット・スタンバイ・データベースのためのレプリケーション方法、プログラム、および装置

Country Status (6)

Country Link
US (1) US9798792B2 (ja)
JP (1) JP6362685B2 (ja)
CN (1) CN105339939B (ja)
DE (1) DE112014001873T5 (ja)
GB (2) GB2515501A (ja)
WO (1) WO2014206581A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2515501A (en) 2013-06-25 2014-12-31 Ibm Replication for on-line hot-standby database
US9842152B2 (en) * 2014-02-19 2017-12-12 Snowflake Computing, Inc. Transparent discovery of semi-structured data schema
US11671396B2 (en) 2015-03-20 2023-06-06 Royal Bank Of Canada System and methods for message redundancy
US20160321332A1 (en) * 2015-05-01 2016-11-03 Microsoft Technology Licensing, Llc Database scaling with isolation
US10261943B2 (en) 2015-05-01 2019-04-16 Microsoft Technology Licensing, Llc Securely moving data across boundaries
CN105227683B (zh) * 2015-11-11 2018-10-19 中国建设银行股份有限公司 一种ldap集群数据同步方法及系统
CN107122354B (zh) * 2016-02-24 2020-05-08 华为技术有限公司 事务执行方法、装置及系统
CN107665155B (zh) 2016-07-28 2021-07-09 华为技术有限公司 处理数据的方法和装置
CN106502835B (zh) * 2016-10-26 2018-10-16 中国银联股份有限公司 一种容灾备份方法及装置
US10769040B2 (en) * 2016-11-21 2020-09-08 Sap Se Logical equivalent replication with snapshot based fallback of database systems
US10795779B2 (en) * 2017-02-17 2020-10-06 Sap Se Asynchronous garbage collection in database redo log replay
US10481986B2 (en) * 2017-07-11 2019-11-19 Sap Se Automatic adoption of parallelized database garbage collection
US11157511B2 (en) * 2017-07-19 2021-10-26 Sap Se Physical replication of database
CN107368392A (zh) * 2017-07-25 2017-11-21 郑州云海信息技术有限公司 一种从数据库的重建方法、主数据库及从数据库
US11301332B2 (en) * 2017-07-31 2022-04-12 Honeywell International Inc. Automatic firmware upgrade of an embedded node
CN108446187B (zh) * 2018-03-07 2021-02-09 上海达梦数据库有限公司 数据备份方法及数据还原方法
CN110413210B (zh) * 2018-04-28 2023-05-30 伊姆西Ip控股有限责任公司 用于处理数据的方法、设备和计算机程序产品
US11196542B2 (en) 2018-08-29 2021-12-07 International Business Machines Corporation Checkpointing for increasing efficiency of a blockchain
US10901957B2 (en) * 2018-08-29 2021-01-26 International Business Machines Corporation Checkpointing for increasing efficiency of a blockchain
US11334439B2 (en) 2018-08-29 2022-05-17 International Business Machines Corporation Checkpointing for increasing efficiency of a blockchain
CN110874287B (zh) * 2018-08-31 2023-05-02 阿里巴巴集团控股有限公司 数据库中数据的备份及恢复方法、装置及电子设备
CN111198782A (zh) * 2018-11-16 2020-05-26 中国移动通信集团辽宁有限公司 数据重分布方法、装置、设备及存储介质
US10997204B2 (en) * 2018-12-21 2021-05-04 Elasticsearch B.V. Cross cluster replication
CN112015807A (zh) * 2019-05-31 2020-12-01 阿里巴巴集团控股有限公司 数据同步的处理方法、装置、电子设备及计算机存储介质
US11341159B2 (en) 2019-08-22 2022-05-24 International Business Machines Corporation In-stream data load in a replication environment
CN110825758B (zh) * 2019-10-31 2022-11-15 中国银联股份有限公司 一种交易处理的方法及装置
CN111400404A (zh) * 2020-03-18 2020-07-10 中国建设银行股份有限公司 一种节点初始化方法、装置、设备及存储介质
CN111443867B (zh) * 2020-03-24 2021-08-03 腾讯科技(深圳)有限公司 一种数据存储方法、装置、设备及存储介质
US11907260B2 (en) 2020-04-19 2024-02-20 International Business Machines Corporation Compare processing using replication log-injected compare records in a replication environment
CN113934745A (zh) * 2020-06-29 2022-01-14 中兴通讯股份有限公司 数据同步处理方法、电子设备以及存储介质
WO2022094895A1 (en) * 2020-11-05 2022-05-12 Alibaba Group Holding Limited Virtual data copy supporting garbage collection in distributed file systems
CN113961150B (zh) * 2021-10-29 2024-04-02 苏州浪潮智能科技有限公司 一种分布式持久性内存文件系统保持数据一致性的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048103A (ja) * 2004-07-30 2006-02-16 Hitachi Ltd ディザスタリカバリシステム、プログラム及びデータの複製方法
JP2008226227A (ja) * 2007-03-12 2008-09-25 Hitachi Ltd アプリケーション情報に基づくボリューム間の整合性を管理するためのシステムおよび方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5170480A (en) * 1989-09-25 1992-12-08 International Business Machines Corporation Concurrently applying redo records to backup database in a log sequence using single queue server per queue at a time
US5799322A (en) * 1995-01-24 1998-08-25 Tandem Computer, Inc. System and method for stopping updates at a specified timestamp in a remote duplicate database facility
US5799323A (en) * 1995-01-24 1998-08-25 Tandem Computers, Inc. Remote duplicate databased facility with triple contingency protection
SE510050C2 (sv) * 1997-07-21 1999-04-12 Ericsson Telefon Ab L M Metod för insamlande av logginformation vid förändring av databas
US5951695A (en) 1997-07-25 1999-09-14 Hewlett-Packard Company Fast database failover
US5884328A (en) * 1997-08-29 1999-03-16 Tandem Computers, Inc. System and method for sychronizing a large database and its replica
US20030142955A1 (en) * 1997-09-12 2003-07-31 Aki Hashizume Apparatus for correcting an abnormality of video signal of a video system, its method, and recording medium storing the method
US6732123B1 (en) * 1998-02-23 2004-05-04 International Business Machines Corporation Database recovery to any point in time in an online environment utilizing disaster recovery technology
US7260590B1 (en) * 2000-12-06 2007-08-21 Cisco Technology, Inc. Streamed database archival process with background synchronization
US7305421B2 (en) 2001-07-16 2007-12-04 Sap Ag Parallelized redo-only logging and recovery for highly available main memory database systems
US7039663B1 (en) * 2002-04-19 2006-05-02 Network Appliance, Inc. System and method for checkpointing and restarting an asynchronous transfer of data between a source and destination snapshot
US8121978B2 (en) * 2002-11-15 2012-02-21 Sybase, Inc. Database system providing improved methods for data replication
US8095511B2 (en) 2003-06-30 2012-01-10 Microsoft Corporation Database data recovery system and method
US8108429B2 (en) * 2004-05-07 2012-01-31 Quest Software, Inc. System for moving real-time data events across a plurality of devices in a network for simultaneous data protection, replication, and access services
US7587429B2 (en) 2004-05-24 2009-09-08 Solid Information Technology Oy Method for checkpointing a main-memory database
US7529783B2 (en) * 2004-12-22 2009-05-05 International Business Machines Corporation Log shipping data replication with parallel log writing and log shipping at the primary site
US7519859B2 (en) 2005-08-30 2009-04-14 International Business Machines Corporation Fault recovery for transaction server
US20070220059A1 (en) * 2006-03-20 2007-09-20 Manyi Lu Data processing node
US9098347B2 (en) * 2006-12-21 2015-08-04 Vmware Implementation of virtual machine operations using storage system functionality
US8300917B2 (en) * 2007-11-29 2012-10-30 Wells Fargo Bank N.A. Remote deposit capture for the gaming industry
US7974943B2 (en) 2008-10-30 2011-07-05 Hewlett-Packard Development Company, L.P. Building a synchronized target database
CN101741894B (zh) * 2008-11-26 2012-09-19 中国移动通信集团公司 一种分布式系统的升级方法、升级调度节点及系统
US9230002B2 (en) * 2009-01-30 2016-01-05 Oracle International Corporation High performant information sharing and replication for single-publisher and multiple-subscriber configuration
CN101594254B (zh) * 2009-06-30 2011-04-27 中国运载火箭技术研究院 一种基于代理技术的网格计算容错系统及方法
US8627135B2 (en) * 2010-08-14 2014-01-07 Teradata Us, Inc. Management of a distributed computing system through replication of write ahead logs
US8589361B2 (en) * 2010-08-30 2013-11-19 Oracle International Corporation Reduced disk space standby
US10430298B2 (en) 2010-10-28 2019-10-01 Microsoft Technology Licensing, Llc Versatile in-memory database recovery using logical log records
US8527546B2 (en) 2010-11-25 2013-09-03 International Business Machines Corporation Generating a checkpoint image for use with an in-memory database
US8868512B2 (en) 2011-01-14 2014-10-21 Sap Se Logging scheme for column-oriented in-memory databases
US9495398B2 (en) 2011-02-18 2016-11-15 International Business Machines Corporation Index for hybrid database
US9155320B2 (en) 2011-07-06 2015-10-13 International Business Machines Corporation Prefix-based leaf node storage for database system
GB2502098A (en) 2012-05-16 2013-11-20 Ibm Performance analysis of a hypothetical database
GB2515501A (en) 2013-06-25 2014-12-31 Ibm Replication for on-line hot-standby database
US9424261B2 (en) * 2014-04-02 2016-08-23 Oracle International Corporation Techniques to take clean database file snapshot in an online database

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048103A (ja) * 2004-07-30 2006-02-16 Hitachi Ltd ディザスタリカバリシステム、プログラム及びデータの複製方法
JP2008226227A (ja) * 2007-03-12 2008-09-25 Hitachi Ltd アプリケーション情報に基づくボリューム間の整合性を管理するためのシステムおよび方法

Also Published As

Publication number Publication date
WO2014206581A1 (en) 2014-12-31
GB2530958B (en) 2018-04-25
CN105339939B (zh) 2019-01-08
US20150339366A1 (en) 2015-11-26
GB2530958A (en) 2016-04-06
GB201601176D0 (en) 2016-03-09
GB201311259D0 (en) 2013-08-14
JP6362685B2 (ja) 2018-07-25
CN105339939A (zh) 2016-02-17
GB2515501A (en) 2014-12-31
US9798792B2 (en) 2017-10-24
DE112014001873T5 (de) 2016-01-07

Similar Documents

Publication Publication Date Title
JP6362685B2 (ja) オンライン・ホット・スタンバイ・データベースのためのレプリケーション方法、プログラム、および装置
JP7308323B2 (ja) 異種ターゲットに対して使用するために分散型データソースからの変更データをキャプチャするためのシステムおよび方法
US20230205786A1 (en) System and method for persistence and replication of changes to a data store
EP3401804B1 (en) Adaptive query routing in a replicated database environment
US10657008B2 (en) Managing a redundant computerized database using a replicated database cache
KR101833114B1 (ko) 분산 데이터베이스 시스템들을 위한 고속 장애 복구
US8132043B2 (en) Multistage system recovery framework
US8904225B2 (en) Stream data processing failure recovery method and device
KR20150129839A (ko) 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피
JPH0552972B2 (ja)
CN109871386A (zh) 非易失性存储器中的多版本并发控制(mvcc)
US11003550B2 (en) Methods and systems of operating a database management system DBMS in a strong consistency mode
WO2019109256A1 (zh) 一种日志管理方法、服务器和数据库系统
US10235256B2 (en) Systems and methods for highly-available file storage with fast online recovery
WO2022033269A1 (zh) 数据处理的方法、设备及系统
US11768809B2 (en) Managing incremental snapshots for fast leader node bring-up
US20210157684A1 (en) Scalable Low-Loss Disaster Recovery for Data Stores
US10866756B2 (en) Control device and computer readable recording medium storing control program
JP2013161398A (ja) データベースシステム、データベース管理方法、およびデータベース管理プログラム
Zhang et al. Dependency preserved raft for transactions
JP2006351040A (ja) ノード間共用ファイル制御方法
JP2006012142A (ja) 非ディスク永続メモリを利用したチェックポイント方法およびシステム
WO2024030167A1 (en) Increasing oltp throughput by improving the performance of logging using persistent memory storage
CN116820833A (zh) 崩溃恢复方法及装置
Shaw et al. RAC Architecture

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180626

R150 Certificate of patent or registration of utility model

Ref document number: 6362685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150