JP6514306B2 - バックアップシステムからのデータベースのストリーミング復元 - Google Patents

バックアップシステムからのデータベースのストリーミング復元 Download PDF

Info

Publication number
JP6514306B2
JP6514306B2 JP2017230136A JP2017230136A JP6514306B2 JP 6514306 B2 JP6514306 B2 JP 6514306B2 JP 2017230136 A JP2017230136 A JP 2017230136A JP 2017230136 A JP2017230136 A JP 2017230136A JP 6514306 B2 JP6514306 B2 JP 6514306B2
Authority
JP
Japan
Prior art keywords
data
copy
storage system
physical
key value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017230136A
Other languages
English (en)
Other versions
JP2018055710A (ja
Inventor
グプタ,アヌラグ・ウィンドラス
クレサ,ジャクブ
アガルワル,ディーパック
スルナ,アレクサンドラス
ジャイン,トゥシャー
フォング,ゼラニー
ステファニ,ステファノ
Original Assignee
アマゾン・テクノロジーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アマゾン・テクノロジーズ・インコーポレーテッド filed Critical アマゾン・テクノロジーズ・インコーポレーテッド
Publication of JP2018055710A publication Critical patent/JP2018055710A/ja
Application granted granted Critical
Publication of JP6514306B2 publication Critical patent/JP6514306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency

Description

分散記憶サービスは、1つ以上のコンピュータのクラスタ等の分散ハードウェアインフ
ラストラクチャにわたって実行する、複数の並行プロセスを含み得る。これらのプロセス
のうちの種々のプロセスは、クラスタ(複数可)の異なる物理的マシンおよび/または論
理(例えば、仮想)マシン上で実行している場合がある。記憶サービスにおいて、例えば
、異なる機械上のプロセス(例えば、ソフトウェアサーバ)は、それぞれ、プログラマチ
ックインターフェースをクライアントに公開し得、クライアントは、それを使用して、複
数の記憶リソースにわたって実現され得る記憶システムにアクセスし得る。記憶サービス
は、システムのそれぞれのデータアイテムの複数の複製をシステムに記憶し得、よって、
1つのサーバ上のデータアイテムに対する任意の変更は、1つ以上の他のサーバに伝搬さ
れなければならない。
ノードまたはディスクドライブの故障時には、故障したデバイス上のデータを復元しな
ければならない。データベースサービスを提供する多くの現在の記憶システムでは、シス
テムがクエリの受け付けおよび処理を再開できるようになる前に、データセット全体を(
例えば、バックアップまたはアーカイブから)復元しなければならない。増分バックアッ
プを行ういくつかのシステムにおいて、デバイスの故障後にシステムを復元することは、
(複数の増分バックアップ動作に対応する)複数の増分復元動作を行うことを含む。他の
記憶システムにおいて、デバイスの故障後にシステムを復元することは、システムの状態
を復元するために、トランザクションログを通して追跡することを含む。多数の記憶デバ
イスを含むデータウェアハウスシステムについて、1つまたは少数のデバイスに対して復
元動作を行うためにサービスを停止させなければならない時間量は、システムにおいてか
なりのコストを表し得る。
リモートキー値持続性記憶システムからストリーミング復元動作を行うための方法の一実施形態を例示するフロー図である。 いくつかの実施形態による、そのクライアントの観点からの分散データウェアハウスサービスの種々の構成要素を例示するブロック図である。 一実施形態による、分散データウェアハウスシステムの種々の構成要素を例示するブロック図である。 一実施形態による、分散データウェアハウスシステムのクラスタを例示するブロック図である。 一実施形態による、スーパーブロックデータ構造を例示するブロック図である。 一実施形態による、分散データウェアハウスシステムに記憶されたデータをバックアップするための、リモートキー値持続性記憶システムの使用を例示するブロック図である。 データブロックを分散データウェアハウスシステムに記憶するための方法の一実施形態を例示するフロー図である。 分散データウェアハウスシステムにおいてバックアップ動作を行うための方法の一実施形態を例示するフロー図である。 分散データウェアハウスシステムの故障を受けて、データブロックを再構築するための方法の一実施形態を例示するフロー図である。 分散データウェアハウスシステムの故障を受けて、データブロックを再構築するための方法の一実施形態を例示するフロー図である。 分散データウェアハウスシステムにおいてクエリ要求に応答するための方法の一実施形態を例示するフロー図である。 クエリに応じて、どのデータブロックのコピーを返すのかを決定するための方法の一実施形態を例示するフロー図である。 クエリを満たすために、リモートキー値持続性記憶システムからのデータブロックのバックアップコピーをパッチするための方法の一実施形態を例示するフロー図である。 優先順にリモートキー値持続性記憶システムから分散データウェアハウスシステムのデータブロックを復元するための方法の一実施形態を例示するフロー図である。 キー値持続性バックアップ記憶領域からデータブロックを復元する順序を決定するための方法の一実施形態を例示するフロー図である。 種々の実施形態による、分散データウェアハウスシステムおよび対応するキー値持続性バックアップ記憶システムの少なくとも一部分を実現するように構成されるコンピュータシステムを例示するブロック図である。
実施形態は、複数の実施形態および実例となる図面について一例として本明細書で説明
されるが、当業者は、実施形態が、説明される実施形態または図面に限定されないことを
認識するであろう。図面およびその詳細な説明は、実施形態を、開示される特定の形態に
限定することを意図するものではなく、逆に、添付の特許請求の範囲によって定義される
精神および趣旨の範囲内に含まれる全ての修正物、均等物、および代替物を対象とするこ
とを意図することを理解されたい。本明細書で使用される見出しは、編成目的のために過
ぎず、説明または特許請求の範囲を限定するために使用されることを意味していない。本
出願の全体を通して使用される「してもよい/し得る(may)」という用語は、義務的
な意味(すなわち、「〜しなければならない」という意味)ではなく、許容的な意味(す
なわち、「〜する可能性がある」という意味)で使用される。同様に、「含む(incl
ude)」、「含んでいる(including)」、および「含む(includes
)」という用語は、「含むが、それらに限定されない」ことを意味する。
本明細書で説明されるシステムは、いくつかの実施形態において、クライアント(例え
ば、加入者)が、クラウドコンピューティング環境でデータウェアハウスを構成、操作、
およびスケーリングするのを速く、簡単に、かつコスト効果的にするウェブサービスを実
現し得る。ウェブサービスは、時間のかかる管理作業を管理し得、加入者が自分自身の応
用および業務に集中することを可能にする。いくつかの実施形態において、データウェア
ハウスシステムは、高度にスケーラブルで拡張可能である、企業クラスのデータベースク
エリおよび管理システムであり得る。このシステムは、構造化データを通じた高速クエリ
能力を提供し得、種々のデータの読み込みおよびETL(抽出、変換、および読み込み)
ツールとの統合を提供し得、クラスで最高のビジネスインテリジェンス(BI)レポーテ
ィング、データマイニング、解析ツールとのつながりをクライアントに提供し得、また、
マルチテーブル結合、サブクエリ、および集約を含むもの等の、複雑な解析クエリを超高
速で実行するように最適化され得る。いくつかの実施形態において、クエリは、複数の物
理リソースにわたって分散され、並列化され得、データウェアハウスシステムは、必要に
応じて拡大または縮小され得る。いくつかの実施形態において、加入者は、自分が使用す
るリソースの料金を支払うだけでよい。データウェアハウスシステムは、異なる実施形態
において、種々のタイプおよび/または編成のデータベーススキーマによって効果的に機
能し得る。
いくつかの実施形態において、本明細書で説明される分散データウェアハウスシステム
は、超並列処理(MPP)の使用、および分割統治法を使用してコンパイルされたクエリ
を実行するコンピューティングノードをクラスタ化することによって、それらの性能およ
び高速計算能力の大部分を引き出し得る。いくつかの実施形態において、クラスタは、1
つ以上のノードを含み得、それぞれ、1つ以上のディスク、ソリッドステートデバイス、
またはクライアントに代わってデータブロックが記憶された他の永続記憶デバイスを含む
。いくつかの実施形態において、クライアント/加入者は、いくつかの方法で、例えばS
QLインターフェースを介してインタラクティブに、クエリをデータウェアハウスシステ
ムに提出し得る。他の実施形態において、外部アプリケーションおよびプログラムは、デ
ータウェアハウスシステムへのオープンデータベースコネクティビティ(ODBC)およ
び/またはJavaデータベースコネクティビティ(JDBC)ドライバインターフェー
スを使用して、クエリをデータウェアハウスシステムに提出し得る。
代表的な大型データベースシステムにおいて、バックアップからデータを復元するため
にかかる時間は、システムに対してかなりのコストを示し得る。例えば、多くの既存のシ
ステムでは、データベースシステムの故障を受けて、該システムを再起動することができ
るようになる前に、データセット全体を復元する必要がある。いくつかの実施形態におい
て、本明細書で説明されるデータウェアハウスシステムは、該データブロックがその増分
バックアップの一部としてバックアップされたか、以前の増分バックアップ動作の一部と
してバックアップされたかにかかわらず、データ(例えば、種々のデータベーステーブル
を構成するデータ)をリモートキー値記憶システムに増分的に(例えば、1度に1つの物
理データブロックを)バックアップし、そして、システムの全てのデータブロックのリス
トを各増分バックアップ動作の一部として記憶するように構成され得る。いくつかの実施
形態において、リモートキー値記憶システムは、バックアップ記憶専用であり得、一方で
、他の実施形態において、リモートキー値記憶システムは、様々なクライアントおよび/
またはクライアントアプリケーションのための汎用記憶領域を提供し得る。種々の実施形
態において、データウェアハウスシステム、汎用コンピューティングシステム、またはデ
ータをローカルにインメモリに(例えば、一時的に)記憶する別のタイプのサービスを提
供するコンピューティングシステムは、持続性を提供するために、1つ以上のデータのコ
ピーを、ディスク、ソリッドステート記憶デバイス、または別のタイプの永続性記憶媒体
を用いるリモートキー値記憶システムに書き込み得る。下でより詳細に説明されるように
、本明細書で説明されるデータウェアハウスシステムは、バックアップからデータセット
全体が復元されるのを待つことなく、故障を受けて、記憶システムの加入者に代わって(
例えば、データベースにおいて)、データを記憶するクラスタを再起動することを可能に
し得る(すなわち、クエリを受け付け、サービスすることを可能にする)。代わりに、任
意の消失または破損したデータブロックのバックアップコピーは、キーとしてデータブロ
ックの一意の識別子を使用して、それをリモートシステムにおいて直接アドレッシングす
ることによって、バックアップシステムからデータウェアハウスシステムのメモリにスト
リーミングされ得る。
本明細書での説明において、「データブロック」および「物理データブロック」という
用語は、これらの用語が現れる文脈に応じて、クライアント(例えば、ユーザ、クライア
ントアプリケーション、および/またはデータウェアハウスサービス加入者)に代わって
、分散データウェアハウスシステムおよび/またはリモートキー値持続性記憶システムに
個別の(または分離可能な)オブジェクトとして記憶される、データの一部分(またはブ
ロック)を指すために使用され得るか、または、分散データウェアハウスシステムの物理
ディスクに、分散ウェアハウスシステム(インメモリデータベースを実現するシステム)
のノード上のシステムメモリに、および/またはリモートキー値持続性バックアップ記憶
システムに記憶されるようなデータの一部分(またはブロック)を指すために使用され得
ることに留意されたい。いくつかの実施形態において、データは、システムのメモリアー
キテクチャに記憶されたデータの標準単位と同じサイズを有するデータブロックで記憶さ
れ得、メモリの「ページ」に対応し得る。他の実施形態において、データブロックは、メ
モリのページサイズと異なるサイズであり得る。
いくつかの実施形態において、本明細書で説明される分散データウェアハウスシステム
は、各データブロックの2つ以上のコピーを、システム(例えば、クラスタアーキテクチ
ャ全体にわたって)にローカルに記憶し得る。例えば、一実施形態では、各1MBの物理
データブロックの一次コピーが、クラスタのノードの1つのディスクに記憶され得、その
物理データブロックの1つ以上の二次コピー(複製)が、同じクラスタの別のノードの別
のディスクに記憶され得る。しかしながら、ディスク全体を1つの他のディスクに複製す
る(またはミラーリングする)のではなく、所与のディスクに記憶されたデータブロック
のいくつかのコピーが、所与のディスクに記憶された他のデータブロックのコピーと異な
るディスク上に分散され得る。分散データウェアハウスシステムはまた、持続性キー値記
憶領域を提供するリモートバックアップ記憶システムの別個のオブジェクト(すなわち、
値)として、各データブロックのコピーも記憶し得、また、システムのデータブロックの
リスト内の各データブロックのキーを記憶し得る。例えば、データウェアハウスシステム
(またはそのノード)に記憶された全てのデータブロックを列記するスーパーブロックデ
ータ構造は、複数のエントリを含み得、それぞれが個別のデータブロックに関するメタデ
ータを記憶し、各ブロックのメタデータは、リモートバックアップ記憶システムに記憶さ
れたデータブロックのコピーにアクセスするためのキーとしての役割を果たす一意の識別
子(ID)を含み得る。いくつかの実施形態において、分散データウェアハウスシステム
は、所与のクラスタの各データブロックの2つのコピー(例えば、一次コピーおよび二次
コピー)を記憶し、そして、リモートキー値持続性記憶システムの第3のコピーを記憶す
ることによって、非常に高い持続性の記憶領域をそのクライアント/加入者に提供し得る
いくつかの実施形態において、分散データウェアハウスのディスクまたはノードに故障
が発生したときに、故障のタイプおよび/または程度に応じて、クラスタ内の他のディス
クから消失または破損したデータブロックを復元することが可能である場合もあり、また
はそうでない場合もある。例えば、故障が、ディスクの故障またはノードの故障である場
合、消失または破損したデータブロックの複製を記憶するクラスタ内の他のディスクから
データブロックをコピーすることによって、消失または破損したデータブロックを復元す
ること(すなわち、クラスタ自体内に記憶されたデータからデータベースを迅速に再構築
すること)が可能であり得る。しかしながら、故障が、クラスタ全体の故障であるか、ま
たは故障後にクラスタ内から消失または破損したデータブロックを再構築することができ
ない別のタイプの故障である場合、分散データウェアハウスは、消失または破損したデー
タブロックを再構築するために、バックアップ記憶システムからデータを取り出すように
構成され得る。本明細書でより詳細に説明されるように、いくつかの実施形態において、
リモート記憶システムのデータブロックのコピーは、該コピーがリモート記憶システムか
ら取り出される(すなわち、ストリーミングされる)前またはその後にクエリ要求を満た
すためにアクセスされ得る。例えば、いくつかの実施形態において、分散データウェアハ
ウスシステムは、データセットがバックグラウンドで再構築されている間、クエリを受け
付け、処理し続ける(または、再起動する)ように構成され得る。換言すれば、故障を受
けて、本明細書で説明される分散データウェアハウスシステムは、データセット全体(ま
たは少なくとも、任意の受け取ったクエリによってターゲットにされたデータ)が復元さ
れるまで、または復元されない限り、要求に応じて、バックアップシステムからデータを
ストリーミングするように構成され得る。下でより詳細に説明されるように、いくつかの
実施形態において、データブロックは、分散データウェアハウスにおけるデータブロック
の最近のアクセス順もしくはアクセスの頻度順に、またはデータブロックが近い将来にア
クセスされる可能性順に、リモート記憶領域から復元され得る。
リモートキー値持続性記憶システムからストリーミング復元動作を行うための方法の一
実施形態は、図1のフロー図によって例示される。110で例示されるように、本実施例
において、本方法は、分散データウェアハウスシステムが、顧客(例えば、ユーザ、クラ
イアントアプリケーション、または記憶サービス加入者)に代わって、データブロックを
クラスタに記憶することを含み得る。本方法は、120にあるように、データウェアハウ
スシステムが、データブロックのコピーをリモートキー値持続性記憶領域に記憶すること
によってデータブロックをバックアップすることを含み得る。この実施例で例示されるよ
うに、データウェアハウスシステムの故障に応じて、本方法は、130にあるように、デ
ータウェアハウスシステムが、リモートキー持続性記憶領域から1つ以上のデータブロッ
クの復元を開始することを含み得る。本方法はまた、140にあるように、リモートキー
値持続性記憶領域から全てのターゲットにされたデータブロックが復元される前に、デー
タウェアハウスシステムが、顧客データに向けられたクエリ(例えば、読み出し要求およ
び/または書き込み要求)を受け付け、サービスすることも含み得る。換言すれば、分散
データウェアハウスシステムは、いくつかの以前のデータベースシステムにあるように、
データセット全体を復元することを必要とせずに、故障を受けて、クエリ要求の受け付け
およびサービスを開始すること、または継続することが可能であり得る。例えば、データ
ウェアハウスシステムのクラスタの一部分だけが故障した場合、クラスタは、中断するこ
となくクエリの受け付けおよびサービスを継続し得る。クラスタ全体が故障した(そして
、そのクラスタのノード上の全てのスーパーブロックに影響を及ぼした)場合、リモート
キー値持続性記憶領域でターゲットにされたデータにアクセスできるように、クラスタに
向けられたクエリを受け付け、および/またはサービスすることができるようになる前に
、スーパーブロックの1つ以上をシステムメモリに提供する必要があり得る。いくつかの
実施形態では、各スーパーブロックが、情報(すなわち、一次コピーとして特定のノード
に記憶されたデータブロックに関する情報)を記憶する特定のノード以外の、1つ以上の
ノード上にミラーリングされ得る。
いくつかの実施形態において、本明細書で説明される分散データウェアハウスシステム
は、データベーステーブルのための列記憶領域を用い得る。換言すれば、(従来のデータ
ベーススキームにあるように)列の行全体を各データブロックに記憶するのではなく、デ
ータベーステーブルからの列情報がディスク上のデータブロックに記憶され得る。いくつ
かの実施形態において、テーブルデータをそのような列様式で記憶することは、種々のク
エリに対する全体的なディスクI/O要件を低減させ得、また、解析クエリ性能を向上さ
せ得る。例えば、データベーステーブル情報を列様式で記憶することは、クエリを処理す
ることの一部としてデータベース動作を行うためにデータをメモリの中へ取り出すときに
(例えば、テーブルの全ての行に対する全ての列フィールド値を取り出すときに)行われ
るディスクI/O要求の数を低減させ得、また、クエリを処理するときにディスクから読
み込む必要があるデータの量を低減させ得る。その逆に、所与の数のディスクを要求する
場合、各データブロックがテーブルの行全体に記憶される場合よりも、はるかに多くの行
に対する列フィールド値が取り出され得る。いくつかの実施形態において、ディスク要件
は、列の記憶データ型に一致する圧縮方法を使用してさらに低減され得る。例えば、各ブ
ロックは、均一なデータ(すなわち、全て同じデータ型である列フィールド値)を含むの
で、ディスクの記憶および読み出し要件は、最適である圧縮方法を特定の列データ型に適
用することによってさらに低減され得る。いくつかの実施形態において、ディスク上の単
一の列のフィールド値だけを含むデータブロックを記憶するための空間の節約は、そのデ
ータを取り出し、次いでシステムメモリに記憶するときの(例えば、取り出したデータを
解析するときまたは別様には処理するときの)空間の節約となり得る。例えば、1度に1
つのまたは少数の列に対するアクセスおよび/または動作だけが必要であるデータベース
の動作の場合は、クエリを実行するために実際に必要である特定の列にデータを記憶する
データブロックだけが取り出され、メモリに記憶され得るので、従来の行に基づく記憶に
よるものよりも小さいメモリ空間が必要とされ得る。
種々の実施形態において、本明細書で説明される分散データウェアハウスシステムは、
様々なデータベース動作のための標準または特殊アプリケーションプログラミングインタ
ーフェース(API)をサポートし得る。例えば、APIは、データベースを作成する、
テーブルを作成する、テーブルを変更する、ユーザを作成する、ユーザを外す、1つ以上
の行をテーブルに挿入する、値をコピーする、テーブル内からデータを選択する(例えば
、テーブルにクエリを行う)、クエリを取り消すまたは中止するための動作、および/ま
たは他の動作をサポートし得る。
いくつかの実施形態において、本明細書で説明される分散データウェアハウスシステム
の各クラスタは、先頭ノードと、複数のコンピューティングノード(すなわち、クエリエ
ンジン等の非先頭ノード)とを含み得、それぞれがある量の記憶領域(例えば、複数のデ
ィスク)および/または処理能力を有する仮想マシンである。いくつかの実施形態におい
て、構成されると、クラスタは、ネットワークアドレスを通してクライアント/加入者に
よって直接見ることが可能で(そして、アクセス可能で)あり得る。換言すれば、クライ
アント/加入者は、(例えば、クエリを提出し、該クエリに対する応答を受け取るために
)クラスタに直接接続し得、また、クラスタの構成の設定および管理を除いて、クラスタ
にアクセスするために、ウェブサーバを経由する必要はない。いくつかの実施形態におい
て、各クラスタの先頭ノード(クライアント/加入者データを記憶し得ない)は、クラス
タのコンピューティングノードによって記憶されたデータに対して種々のタイプのクエリ
を行うためのクエリ計画(例えば、スキーマ情報および/またはメタデータを含む)を維
持し得る。先頭ノード内で、スケジューラプロセスは、実行のために、(例えば、プライ
ベートネットワーク通信ファブリックを介して)クエリタスクをコンピューティングノー
ドに送り得る。いくつかの実施形態において、先頭ノードはまた、クラスタの種々のノー
ドに記憶するために、入来データ(すなわち、書き込み要求に含まれるデータ)を分割す
る役割も果たし得る。例えば、先頭ノードは、受け取ったデータの異なる部分の一次コピ
ーが記憶されるノードを決定し得る。
いくつかの実施形態において、クライアントがクエリ(例えば、読み出し要求または書
き込み要求)を行うように要求したとき、または(例えば、クラスタの先頭ノードによっ
て)いくつかの他のタイプのデータベース動作を受け取ったときに、分散データウェアハ
ウスシステムは、新しいプロセスをスポーンして、クライアントのセッション情報を維持
し得、そのプロセスは、クライアントセッションが開いた状態を維持する限り維持され得
、そのクライアントは、クエリ要求を先頭ノードに送っている。要求された動作(SQL
クエリまたはいくつかの他のデータベース動作)は、クエリ実行計画を策定して、指定さ
れたクエリもしくはデータベース動作(すなわち、クエリを行うために必要である論理ス
テップ)を行う、もしくは実行するために、構文解析器および最適化器を通してルーティ
ングされ得る。次いで、クエリ計画は、実行エンジンにルーティングされ得、該実行エン
ジンは、先頭ノードおよび非先頭ノード(あるときには、本明細書でコンピューティング
ノードと称される)を実行してクエリを完了するクエリ実行コードを発生させ、コンパイ
ルする。いくつかの実施形態において、個別の実行計画ステップのそれぞれは、コンピュ
ーティングノードまたは先頭ノードによって行われる簡単な動作またはデータの処理を含
み得、中間結果を配信するために、先頭ノードおよびコンピューティングノードを接続す
る通信ネットワークが使用され得る。いくつかの実施形態において、分散データウェアハ
ウスシステムは、コンパイルされたクエリコードを並列に実行するために、複数のノード
スライスのそれぞれにおけるクエリプロセスを分離することによって、優れたクエリ実行
性能を達成し得る。加えて、分散データウェアハウスシステムは、中間結果を1つのクエ
リ計画ステップから次のステップに渡すために、最適化されたネットワーク通信、メモリ
、およびディスク管理の長所を利用し得、このことはまた、クエリの実行速度を上げるこ
とも補助し得る。いくつかの実施形態において、クエリの最後のセグメントは、要求され
たデータを返し得る。返されたセットが集約またはソートされる場合、コンピューティン
グノードは、それぞれ、中間結果のそれぞれの部分を先頭ノードに送り得、次いで、クエ
リの最終結果を要求元クライアント/加入者に送り返すことができるように、返されたデ
ータをマージし得る。
図2は、いくつかの実施形態による、そのクライアント(ユーザ、クライアントアプリ
ケーション、および/またはデータウェアハウスサービス加入者を含み得る)の観点から
の分散データウェアハウスサービスの種々の構成要素を例示するブロック図である。この
実施例において、クライアント212、222、および232のそれぞれは、仮想コンピ
ューティング環境200の1つ以上のクラスタ210、220、230、および240に
アクセスすることが可能である。図2で例示されるように、クラスタ210、220、2
30、および240のそれぞれは、そのようなクラスタへのアクセスを有するクライアン
ト212、222、および232の特定の1つに代わって、データが記憶され得る2つ以
上のノードを含む。本実施例で例示されるように、クライアント212、222、および
232は、例えば、クライアントがアクセスを有するクラスタの構成を設定し、管理する
ために、分散データウェアハウスサービスマネージャ202にアクセスすることが可能で
あり得るが、該クラスタが構成されると、クライアントは、(例えば、分散データウェア
ハウスサービスのサービスインターフェースを通過することなく)該クラスタに直接アク
セスすることが可能であり得る。
図3もまた、一実施形態による、そのいくつかが分散データウェアハウスシステムのク
ライアントに見えない場合がある、分散データウェアハウスシステムの種々の構成要素を
例示するブロック図である。本実施例で例示されるように、記憶クライアント350a〜
350nは、ネットワーク360を介して、分散データウェアハウスシステム380内の
分散データウェアハウスサービスマネージャ302ならびに/またはデータウェアハウス
クラスタ325および335にアクセスし得る(例えば、これらの構成要素は、ネットワ
ークアドレス可能で、記憶クライアント350a〜350nにアクセス可能であり得る)
。しかしながら、異なる実施形態において、本明細書で説明されるような、種々のバック
アップおよび復元動作を自動的に行ったときに、分散データウェアハウスシステム380
によって用いられ得る、キー値持続性バックアップ記憶領域370は、ネットワークアド
レス可能で、記憶クライアント350a〜350nにアクセス可能である場合もあり、ま
たはそうでない場合もある。例えば、いくつかの実施形態において、分散データウェアハ
ウスシステム380は、記憶クライアント350a〜350nに見えない様式で、(記憶
クライアント350a〜350nから受け取ったクエリを満たすために、分散データウェ
アハウスシステム380の現在利用できないデータブロックのバックアップコピーをパッ
チすることを含む)キー値持続性バックアップ記憶370に関わるこれらの動作および/
または他の動作を行い得る。
上で述べられるように、分散データウェアハウスシステムのクラスタは、単一の先頭ノ
ードサーバを含み得、該先頭ノードサーバは、種々のクライアントプログラム(例えば、
アプリケーション)および/または加入者(ユーザ)から要求を受け取り、次いで、該要
求を構文解析し、実行計画を策定して、関連するデータベース動作(複数可)を実行する
。より具体的には、先頭ノードは、複雑なクエリおよび結合の結果を取得するために必要
な一連のステップを策定する。いくつかの実施形態において、先頭ノードは、分散データ
ウェアハウスシステムとクライアント/加入者との間の通信、ならびに、データベース動
作を実行するように指示されるコンピューティングノードとの通信を管理し得る。例えば
、コンパイルされたコードは、クエリを行うために必要であるステップを実行するために
、先頭ノードによって種々のコンピューティングノードに配信され得、該クエリの中間結
果は、先頭ノードに送り返され得る。
いくつかの実施形態において、分散データウェアハウスシステムのクラスタはまた、1
つ以上のコンピューティングノードサーバを含み得、それぞれが、例えばサーバのマルチ
コアプロセッサの各コアに対して画定される、個別のクエリ処理「スライス」を含み得る
。コンピューティングノードは、実行計画のコンパイルされたコードを実行することによ
ってクエリの処理を行い得、また、最終的な集約のために、該クエリからの中間結果を先
頭ノードに送り返し得る。各コアまたはスライスは、コンピューティングノードサーバの
1つ以上に送られるクエリ(または他のデータベース動作)のための作業負荷の一部分を
処理するために、対応するノードサーバのメモリおよびディスク空間の一部分に割り当て
られ得る。いくつかの実施形態において、クラスタの相互接続ネットワークは、先頭ノー
ドとコンピューティングノードとの間でコンパイルされたコードおよびデータを交換する
ために、特殊ユーザデータグラムプロトコル(UDP)等の標準または特殊プロトコルを
使用して、プライベートネットワーク通信を提供し得る。
図4は、一実施形態による、分散データウェアハウスシステムのクラスタを例示するブ
ロック図である。本実施例で例示されるように、分散データウェアハウスクラスタ400
は、先頭ノード420と、コンピューティングノード430、440、および450とを
含み得、これらは、相互接続460を通じて互いに通信し得る。上で説明されるように、
先頭ノード420は、分散データウェアハウスクラスタ400上でクエリを実行するため
の1つ以上のクエリ計画425を発生させ、および/または維持し得る。本明細書で説明
されるように、分散データウェアハウスクラスタの各ノードは、クライアント(例えば、
ユーザ、クライアントアプリケーション、および/または分散データウェアハウスサービ
ス加入者)に代わって、データブロックが記憶され得る複数のディスクを含み得る。本実
施例において、コンピューティングノード430は、ディスク431〜438を含み、コ
ンピューティングノード440は、ディスク441〜448を含み、コンピューティング
ノード450は、ディスク451〜458を含む。いくつかの実施形態において、分散デ
ータウェアハウスクラスタの構成要素(またはそれが構成要素である分散データウェアハ
ウスシステム)は、様々な適用可能な負荷平衡技法のいずれかを使用して、負荷平衡をサ
ポートし得る。例えば、いくつかの実施形態において、先頭ノード420は、負荷平衡構
成要素(図示せず)を含み得る。
いくつかの実施形態において、クラスタのコンピューティングノードのそれぞれは、例
えば、コマンドを受け取り、データを送り返し、そして、コンパイルされたコードを個別
の(例えば、ノード上の各コアまたはスライスに対する)クエリプロセスにルーティング
するために、先頭ノードとの通信を管理する、ノードサーバのオペレーティングシステム
上で動作する1組のプロセスを実現する。いくつかの実施形態において、コンピューティ
ングノードのそれぞれは、スーパーブロックを含み、該スーパーブロックは、そのエント
リが情報(例えば、そのノードに記憶されたデータブロックのそれぞれに関するメタデー
タ(すなわち、1つのデータブロックあたり1つのエントリ))を記憶するデータ構造(
例えば、データのアレイ)である。いくつかの実施形態において、スーパーブロックデー
タ構造の各エントリは、それぞれのブロックの一意のIDを含み、その一意のIDは、リ
モートキー値持続性バックアップ記憶システムのそのデータブロックのコピーを取り出す
ために、キーとして使用され得る。いくつかの実施形態において、一意のIDは、データ
ブロックが分散データウェアハウスシステムに最初に書き込まれたときに、先頭ノードに
よって、またはコンピューティングノードによって発生され得る(そして、対応するエン
トリがスーパーブロックに作成され得る)。
種々の実施形態において、データブロックの一意のIDに加えて、分散データウェアハ
ウスシステムのクラスタの所与のノード上のスーパーブロックデータ構造の各エントリに
含まれるメタデータは、ブロックがバックアップされたかどうかの指示、(例えば、所与
の期間に、または特定のイベントの間に)アクセスされた回数の1つ以上のカウント、ノ
ード上のデータブロックの一次コピーの場所、クラスタの他のノード上のデータブロック
の1つ以上の二次コピーの場所、および/またはノードに記憶された一次コピーとクラス
タの他のノードに記憶された任意の二次コピーとの間のマッピング、のうちの1つ以上を
含み得る。例えば、各ノードは、クラスタによって記憶されたデータブロックのサブセッ
トの一次コピーを所有し得、さらに、その一次コピーがクラスタの別のノードによって所
有される1つ以上の他のデータブロックの二次コピーも記憶し得る(逆の場合も同じであ
る)。いくつかの実施形態において、各コンピューティングノード(または、より具体的
には、各ノード上のスーパーブロック)は、どの他のノードがその一次データブロックの
コピーの二次コピーを記憶するのかを知り得る。いくつかの実施形態において、データブ
ロックの一次コピーを所有する各ノードは、どの他のノードがそのデータブロックの1つ
以上の二次コピーを記憶するのかを決定するように構成され得、また、それらの他のノー
ドに対するその複製を開始し得る。いくつかの実施形態において、スーパーブロックまた
は先頭ノードは、クライアント/加入者に代わってデータベーステーブルに記憶されたデ
ータの範囲と、そのデータが記憶されるノード(複数可)との間のマッピングを維持し得
る。種々の実施形態において、データブロックの二次コピーは、データブロックの消失ま
たは破損したデータブロックの一次コピーを記憶するために使用され得、および/または
復元動作中(例えば、ターゲットデータブロックの一次コピーが復元される前、またはデ
ィスクもしくはノードの復元動作の完了前)にデータブロックをターゲットにするクエリ
を満たすために使用され得る。本明細書で説明される実施形態のいくつかは、データウェ
アハウスシステムに記憶された各データブロックの一次および二次コピーを含むが、他の
実施形態では、各データブロックの1つのコピーだけがデータウェアハウスシステムに記
憶され得るか、または複数の並列コピー(いずれも「一次」コピーとしての特別な役割を
有しない)がシステムの異なるノードに記憶され得ることに留意されたい。
図5は、一実施形態による、スーパーブロックデータ構造を例示するブロック図である
。本実施例において、スーパーブロック510は、複数のエントリ(例えば、エントリ5
20〜528)を含むアレイであり、それぞれがデータブロックに関するメタデータを記
憶する。本実施例において、アレイのエントリのそれぞれは、ブロックID、ブロックが
バックアップされたかどうかの指示、ブロックの一次コピーの場所の指示、クラスタに記
憶されたブロックの任意の二次コピーの場所の指示、および1つ以上のデータブロックア
クセスカウンタ(下でより詳細に説明される)を含む。例えば、エントリ520は、ブロ
ックID521と、バックアップ指示子522と、一次場所値523と、1つ以上のコピ
ー場所値524と、1つ以上のカウンタ525とを含む。同様に、エントリ530は、ブ
ロックID531と、バックアップ指示子532と、一次場所値533と、1つ以上のコ
ピー場所値534と、1つ以上のカウンタ535とを含み、エントリ540は、ブロック
ID541と、バックアップ指示子542と、一次場所値543と、1つ以上のコピー場
所値544と、1つ以上のカウンタ545とを含み、また、エントリ580は、ブロック
ID581と、バックアップ指示子582と、一次場所値583と、1つ以上のコピー場
所値584と、1つ以上のカウンタ585とを含む。
いくつかの実施形態において、分散データウェアハウスシステムに書き込まれ、リモー
トキー値持続性バックアップ記憶システムにバックアップされる全てのデータブロックは
、新しい一意のIDを有する新しいデータブロックとして書き込まれ得る。しかしながら
、他の実施形態は、記憶されたデータブロックの更新または修正をサポートし得ることに
留意されたい。そのような実施形態において、データブロックがバックアップされたかど
うかを追跡することに加えて、対応するスーパーブロックのエントリは、データブロック
がいつ更新されたのかを追跡し得る。そのような実施形態では、データブロックが更新さ
れると、スーパーブロックのそのエントリが、異なるバージョンのデータブロック(およ
びその複製)を指摘するように更新され得る。更新されたデータブロックのコピーがリモ
ートキー値持続性バックアップ記憶システムに書き込まれると、該コピーがデータブロッ
クの以前のコピーを上書きし得うるか、またはその後に、更新されたバージョンのデータ
ブロックにアクセスするようにそのキーが再度割り当てられ得る。
図6は、一実施形態による、分散データウェアハウスシステムに記憶されたデータをバ
ックアップするための、リモートキー値持続性記憶システムの使用を例示するブロック図
である。本実施例において、1つ以上のクライアントプロセス670は、データを分散デ
ータウェアハウスシステム660に記憶し得、キー値持続性バックアップ記憶システム6
25を利用し得る。キー値持続性バックアップ記憶インターフェース640のAPI64
1〜645は、あたかも分散データウェアハウスシステム660がキー値持続性バックア
ップ記憶システム625のクライアントであるかのように、バックアップデータストア6
20において提供されるキー値持続性バックアップ記憶システム625の機能を分散デー
タウェアハウスシステム660に公開し得る。例えば、分散データウェアハウスシステム
660は、分散データウェアハウスシステム660に維持されるデータに対するバックア
ップおよび復元動作を行うために、そのようなAPIを通してバックアップデータストア
620からデータをアップロードするかまたは取り出す等の機能を行い得る。図6で例示
されるように、キー値持続性バックアップ記憶システム625は、バックアップデータス
トア620のオブジェクト(オブジェクト635a〜635nとして示さる)として、デ
ータブロックを記憶し得る。上で述べられるように、キー値持続性バックアップ記憶シス
テム625のバックアップデータストア620に記憶されたオブジェクトのそれぞれは、
それぞれの一意のキーを使用して、分散データウェアハウスシステム660によって取り
出され得る。いくつかの実施形態において、キー値持続性バックアップ記憶システム62
5は、(例えば、種々のタイプの冗長スキームのアプリケーションを通して)高い持続性
を、記憶されたオブジェクトに提供し得る。
図6で例示される実施例において、分散データウェアハウスシステム660は、「オブ
ジェクトをプットする」API(641で示される)に従って、キー値持続性バックアッ
プ記憶システム625のバックアップデータストア620にデータブロックをバックアッ
プし得、また、対応する「オブジェクトキーを返す」API(642で示される)を通し
て、それらの動作の確認応答を受け取り得る。本実施例において、バックアップデータス
トア620のオブジェクトとして記憶されたデータブロックは、キー値持続性バックアッ
プ記憶システム625の「オブジェクトをゲットする」API(643で示される)に従
って、バックアップデータストア620から取り出され得、また、対応する「オブジェク
トデータを返す」API(644で示される)を通して、要求されたデータを受け取り得
る。いくつかの実施形態において、キー値持続性バックアップ記憶システム625は、分
散データウェアハウスシステム660によってバックアップデータストア620に記憶さ
れたオブジェクトデータが消失されたときに、「オブジェクト消失を通知する」API(
645で示される)を通して、分散データウェアハウスシステム660に通知し得る。他
の実施形態において、キー値持続性バックアップ記憶システム625によって提供される
APIは、記憶関連の動作または他の動作に対する応答を呼び出す、または受け取るため
の、より多い、より少ない、または異なるAPIを含み得る。例えば、いくつかの実施形
態において、キー値持続性バックアップ記憶システムのAPIは、入力パラメータとして
オブジェクトのキー(すなわち、一意のデータブロック識別子)を含む、「削除オブジェ
クト」APIを含み得る。そのような実施形態において、このAPIに従ってオブジェク
トを削除する要求を受け取ることに応じて、キー値持続性バックアップ記憶システム62
5は、(例えば、キーを使用して)バックアップデータストア620のオブジェクトの場
所を特定し得、また、バックアップデータストア620から該オブジェクトを削除し得る
種々の実施形態において、図6の分散データウェアハウスシステム660とキー値持続
性バックアップ記憶インターフェースAPI641〜645との間のAPIの呼び出しお
よび応答は、セキュアなプロキシ接続(すなわち、ゲートウェイ制御プレーンによって管
理される接続)を通じて行われ得るか、またはパブリックネットワークを通じて、もしく
は代替的に仮想プライベートネットワーク(VPN)接続等のプライベートチャネルを通
じて行われ得ることに留意されたい。キー値持続性バックアップ記憶システム625に対
するこれらのおよび他のAPIは、シンプルオブジェクトアクセスプロトコル(SOAP
)技術および表現可能な状態の転送(REST)技術が挙げられるが、それらに限定され
ない、異なる技術に従って実現され得る。換言すれば、キー値持続性バックアップ記憶シ
ステム625に対するAPIは、必ずしもそうであるとは限らないが、SOAP API
またはRESTful APIとして実現され得る。SOAPは、ウェブに基づくサービ
スの文脈で、情報を交換するためのプロトコルである。RESTは、分散ハイパーメディ
アシステムのためのアーキテクチャスタイルである。RESTful API(REST
fulウェブサービスとも称され得る)は、HTTPおよびREST技術を使用して実現
されるウェブサービスAPIである。本明細書で説明されるAPIは、いくつかの実施形
態において、キー値持続性バックアップ記憶システム625との統合をサポートするため
に、C、C++、Java、C#、およびPerlが挙げられるが、それらに限定されな
い、種々の言語のクライアントライブラリでラップされる。
上で述べられるように、いくつかの実施形態において、分散データウェアハウスシステ
ムは、各データブロックの単一の一次コピーを所与のクラスタの1つのノードの1つのデ
ィスクに記憶し得、また、各データブロックの1つ以上の他のローカルコピー(二次コピ
ー)を同じクラスタの他のノード(複数可)のそれぞれのディスク(複数可)に記憶し得
る。上で述べられるように、そのような二次コピーは、ディスク全体に基づいてデータを
ミラーリングするのではなく、ブロックに基づいて種々のディスクによって記憶されたデ
ータをミラーリングし得る。追加的なコピー(すなわち、バックアップコピー)は、リモ
ートキー値持続性記憶システム(すなわち、分散データウェアハウスシステムの一部では
ない、またはそのクラスタのいずれでもない記憶システム)に書き込まれ得る。このバッ
クアップコピーは、アクセスにより時間がかかり得るが、高持続性であり得る。
いくつかの実施形態において、そのデータブロックに影響を及ぼす故障が分散データウ
ェアハウスにあり、そのクラスタにおいて利用可能である情報からデータブロックを復元
するいかなる方法もない場合は、リモート記憶システムに記憶されたデータブロックのバ
ックアップコピーが、分散データウェアハウスシステムのシステムメモリにパッチされ(
または「故障させられ」)得る。換言すれば、データブロックのバックアップコピーは、
クラスタ内のいかなる一次または二次コピーも利用できないときに、リモートバックアッ
プ記憶領域から取り出され得る。例えば、分散データウェアハウスシステムは、フォアグ
ラウンドプロセスを使用して、要求に応じてバックアップシステムからデータブロックを
ストリーミングすることによって特定のデータブロックが関与した故障を受けて(すなわ
ち、データブロックがクエリに応答する必要がある場合)、特定のデータブロックに向け
られたクエリをサービスし続け得、一方で、バックグラウンドプロセスは、分散データウ
ェアハウスシステムのクラスタの種々のディスクおよびノード上のデータセットを完全に
再構築するために、(データブロックに基づいて)消失または破損したデータを復元する
ように機能する。
データブロックを分散データウェアハウスシステムに記憶するための方法の一実施形態
は、図7のフロー図によって例示される。710で例示されるように、本実施例において
、本方法は、新しいデータブロックを分散データウェアハウスシステムに書き込む要求を
受け取ることを含み得る。要求を受け取ることに応じて、本方法は、720にあるように
、データブロックの一意のIDを作成し、クラスタの1つのノード(例えば、データブロ
ックの一次コピーが記憶されたノード)のスーパーブロックデータ構造のデータブロック
の新しいエントリを作成することを含み得る。いくつかの実施形態において、データブロ
ックに対して作成される一意のIDは、該データブロックが作成されときに、スーパーブ
ロックデータ構造の新しいエントリを記憶し得、その後に、そのデータ構造のエントリへ
のインデックスとして、他の動作によって使用され得る。
本実施例で例示されるように、本方法は、730にあるように、データブロックの一次
コピーをクラスタのノード上の1つのディスクに書き込み、データブロックの1つ以上の
二次コピーをクラスタの(同じノード上の、または異なるノード上の)他のディスク(複
数可)に書き込むことを含み得る。本方法はまた、740にあるように、(データブロッ
クの一次および二次コピーの場所を示すために)スーパーブロックの対応するエントリを
更新し、クラスタのスーパーブロックをコミットすることも含み得る(いくつかの実施形
態では、クラスタ全体にわたってコミットを繰り返すこと、またはクラスタ全体にわたっ
てそこに記憶されたデータの全部または一部分を伝搬することを含み得る)。データブロ
ックの一次および二次コピーを記憶し、スーパーブロックデータ構造を更新することの後
のいくつかの時点で、本方法は、750にあるように、分散データウェアハウスシステム
に記憶されたスーパーブロック、データブロック、および1つ以上の他のデータブロック
のバックアップを開始することを含み得る。例えば、異なる実施形態において、バックア
ップ動作は、定期的に(例えば、所定のスケジュールで)、または種々の所定のトリガー
イベントもしくは条件に応じて(例えば、システムにおいて所定数の新しいブロックが作
成された後に、またはシステムにおいてスーパーブロックデータ構造が更新および/また
はコミットされた後にその都度)行われ得る。例示的なバックアップ動作は、種々の実施
形態に従って、下でさらに詳細に説明される。
上で述べられるように、本明細書で説明されるシステムは、クラスタに基づくアーキテ
クチャのブロックレベルの記憶を実現し得、また、ファイルに基づいてデータを管理する
のではなく、および/またはデータベーステーブルの行もしくは列の知識を使用するので
はなく、ブロックに基づいてデータをバックアップし、復元し得る(例えば、物理データ
ブロックに対応するユニットのデータをバックアップし、復元する)。いくつかの実施形
態において、コミットしたブロックだけが、リモートキー値持続性バックアップ記憶シス
テムにバックアップされ得る(すなわち、いかなるインフライトトランザクションも、バ
ックアップされるものに反映されない)ことに留意されたい。種々の実施形態において、
本明細書で説明されるリモートキー値バックアップ記憶システムは、高い持続性を、クラ
イアントに代わってデータウェアハウスシステムによって維持されるデータのバックアッ
プコピーに提供するために、複製、パリティ、消失訂正符号化、または別の誤り訂正技法
を用い得る。
いくつかの実施形態において、復元動作は、各データブロックがローカルの、ならびに
バックアップの記憶領域である場所を示すリストを使用して、データウェアハウスシステ
ムを即座に提供することによって開始され得る。最初に、ローカルリストは、空であり得
る。その後に、バックアップ記憶領域からデータウェアハウスシステムの中へデータブロ
ックを戻すようにストリーミングするために、バックグラウンドプロセスが呼び出され得
る。その間、フォアグラウンドプロセスは、処理クエリを開始(または継続)し得る。フ
ォアグラウンドプロセスが、バックアップからデータウェアハウスシステムにまだ戻され
ていないデータブロックのデータに対する要求を受けたとき、またはその場合、データブ
ロックは、必要に応じて、それ自体を「故障」させ得る。
分散データウェアハウスシステムにおいてバックアップ動作を行うための方法の一実施
形態は、図8のフロー図によって例示される。810で例示されるように、本実施例にお
いて、本方法は、ノードの最後にコミットしたスーパーブロックをリモートキー値持続性
記憶領域にバックアップすることを含み得る。いくつかの実施形態において、スーパーブ
ロックデータ構造は、単一のオブジェクトとしてリモートキー値持続性記憶領域にバック
アップするには大き過ぎる場合があり得、また、一群のオブジェクトとして記憶され得、
それぞれがスーパーブロックデータ構造のサブアレイを表し、またそれぞれが、それ自体
の一意の識別子(すなわち、キー)を有する。他の実施形態において、スーパーブロック
データ構造は、単一のオブジェクトとしてリモートキー値持続性記憶領域に記憶され得、
また、単一で一意の識別子(すなわち、キー)を有し得る。上で述べられるように、スー
パーブロックは、分散データウェアハウスシステムに記憶された各データブロックに対し
て、そのデータブロックがバックアップされたかどうかを示し得る。図8で例示されるよ
うに、本方法は、820にあるように、まだバックアップされてない、スーパーブロック
のエントリによって指摘されるデータブロックをバックアップすることを含み得る。例え
ば、このバックアップ動作中には、新しいデータブロックおよび/または最後に修正され
てからバックアップされていないデータブロックがバックアップのターゲットになり得る
バックアップするデータブロックがさらにある場合(830からの肯定出口で示される
)、本方法は、バックアップすべき各追加的なデータブロックに対して、820で例示さ
れる動作を繰り返すことを含み得る。これは、図8において830から820へのフィー
ドバックによって例示される。しかしながら、いかなるバックアップする追加的なデータ
ブロックもなくなると(830から否定出口として示される)、本方法は、840にある
ように、データブロックがバックアップされたことを反映するために、スーパーブロック
を更新することを含み得る。他の実施形態において、スーパーブロックデータ構造の個別
のエントリは、バックアップ動作によってターゲットにされた全てのデータブロックがバ
ックアップされた後ではなく、対応するデータブロックがバックアップされるとすぐに更
新され得ることに留意されたい。
いくつかの実施形態において、所与のクラスタの先頭ノードは、クラスタのノード全体
にわたって整合性を確実にするように、バックアップおよび/または復元プロセスを協調
させ得ることに留意されたい。例えば、いくつかの実施形態において、クラスタの全ての
ノードのスーパーブロックは、クラスタの全てのノードに対して更新が行われたかどうか
にかかわらず、クラスタに対して任意の更新がコミットされたときに、ロックステップで
バージョニングされ得る。換言すれば、クラスタの任意の更新動作のコミットは、クラス
タのノード上の全てのスーパーブロックのバージョン番号(または他のバージョン識別子
)の同じ値への更新を引き起こし得る。いくつかのそのような実施形態では、バックアッ
プ動作が開始されると、先頭ノードは、全てのノードが、同じバージョン識別子の値を有
するスーパーブロックをバックアップしていることを確実にするように構成され得、次い
で、ノード自体が、(スーパーブロックに記憶されたメタデータに従って)対応するデー
タブロックをバックアップし得る。同様に、完全クラスタ復元動作に関して、先頭ノード
は、全てのノードが、同じバージョン識別子の値(理想的には、ごく最近にコミットした
スーパーブロックのバージョン識別子の値)を有するスーパーブロックを復元することを
確実にするように構成され得、次いで、ノード自体が、(復元されたスーパーブロックに
記憶されたメタデータに従って)適切なデータブロックに対してストリーミング復元動作
を行い得る。しかしながら、いくつかの実施形態において、ごく最近にコミットしたスー
パーブロックのバージョン識別子の値を有するスーパーブロックが、ノードの1つ以上で
利用できない場合(例えば、スーパーブロックが消失または破損し、いかなる有効な/破
損していないミラーコピーが、クラスタまたはリモートバックアップ記憶領域において利
用できない場合)、先頭ノードは、全てのノードが、同じ以前のバージョン識別子の値を
有するスーパーブロックを復元することを確実にするように構成され得る(すなわち、先
頭ノードは、クラスタに記憶されたデータの以前の整合したスナップショットが復元され
ることを確実にし得る)。
分散データウェアハウスシステムの故障を受けて、データブロックを再構築するための
方法の一実施形態は、図9A〜9Bのフロー図によって例示される。910で例示される
ように、本実施例において、本方法は、分散データウェアハウスシステムが、顧客(例え
ば、ユーザ、クライアントアプリケーション、またはデータウェアハウスサービス加入者
)に代わって、データブロックをクラスタに記憶し、リモートキー値持続性記憶領域のデ
ータブロックをバックアップすることを含み得る。本実施例において、(915にあるよ
うに)データウェアハウスシステムの故障を検出した後に、本方法は、(920にあるよ
うに)所与のノード上の任意の消失した(または破損した)データブロックを、同じクラ
スタおよびメタデータ(例えば、所与のノードに記憶された所与のノードのスーパーブロ
ック)内に依然として記憶されている(または破損していない)データを使用して再構築
できるかどうかを判定することを含み得る。再構築できる場合、920からの肯定出口で
示され、本方法は、925にあるように、(例えば、所与のノード上の対応するスーパー
ブロックに記憶されたメタデータに従って、データブロックの二次コピーを取り出すこと
によって)クラスタ内に記憶されたデータおよびメタデータを使用して、所与のノード(
またはそのディスク)上の消失した(または破損した)データブロックを再構築すること
を含み得る。
本実施例で示されるように、消失した(または破損した)データブロックを、同じクラ
スタ内に依然として記憶されている(かつ、破損していない)データおよびメタデータを
使用して再構築することができない場合(920からの否定出口として示される)、本方
法は、930にあるように、関連するスーパーブロック(すなわち、所与のノード、また
はそのディスクのスーパーブロック)が無傷であるか(すなわち、消失または破損してい
ないか)どうかを判定することを含み得る。スーパーブロックが無傷である場合、930
からの肯定出口で示され、本方法は、935にあるように、所与のノード上のスーパーブ
ロックに記憶された情報を使用して、キー値記憶領域から消失した/破損したデータのバ
ックアップコピーを取り出すことを含み得る。所与のノードのスーパーブロックが所与の
ノード上で無傷でなく(930からの否定出口で示される)、そして、所与のノードのス
ーパーブロックのいかなるミラー(コピー)もクラスタ内で利用できず、かつ無傷である
(すなわち、破損していない)場合(940からの否定出口で示される)、本方法は、完
全クラスタ復元動作を開始することを含み得る。これは、図9Aにおいて図9Bへの接続
要素Aによって示される。一方で、所与のノードのスーパーブロックのミラー(コピー)
がクラスタ内で利用可能であり、かつ無傷である(すなわち、破損していない)場合(9
40からの肯定出口で示される)場合、本方法は、(945にあるように)ミラーからス
ーパーブロックを復元すること、および(950にあるように)所与のノードの全てのブ
ロックの復元動作を開始することを含み得る。
本実施例で例示されるように、バックアップから復元すべきデータを有するノードがさ
らにある場合(955からの肯定出口で示される)、本方法は、追加的なノードのそれぞ
れに対して、920〜955で例示される動作を繰り返すことを含み得る。これは、図9
Aにおいて955から920へのフィードバックによって例示される。いかなる復元すべ
きデータを有する追加的なノードもなくなったが、リモートキー値持続性バックアップ記
憶領域から全ての消失または破損したブロックを復元する前に、本方法は、960にある
ように、顧客データに向けられたクエリを受け付け、サービスすることを含み得る。
本実施例で例示されるように、所与のノードの無傷の(有効な)スーパーブロックがク
ラスタ内で見つからない場合(すなわち、所与のノードのスーパーブロックが破損してい
る場合)、本方法は、全クラスタに対する復元動作を開始することを含み得る。これは、
図9Bにおいて接続要素Aから開始することによって例示される。本実施例で例示される
ように、完全クラスタ復元動作は、(965にあるように)リモートキー値持続性記憶領
域から、クラスタの各ノードに対して、最後にコミットしたスーパーブロックを復元する
こと、そして、(970にあるように)各ノードに対して、復元されたスーパーブロック
のエントリによって指摘される全てのデータブロックに対して、リモートキー値持続性記
憶領域からのストリーミング復元動作を開始することを含み得る。先の実施例にあるよう
に、本方法は、(975にあるように)リモートキー値持続性記憶領域からクラスタの全
てのデータブロックを復元する前に、データウェアハウスシステムを、クエリを受け付け
、サービスするために利用できるようにする。
種々の実施形態において、本システムは、復元動作を開始し、そして、消失したデータ
ブロックに関する情報を記憶するスーパーブロックデータ構造を取り出した後の任意の時
点で(例えば、故障の検出を受けて、そのようなスーパーブロックデータ構造が無傷でな
い場合に)起動され得るか(すなわち、クライアントから受け取ったクエリ要求を処理す
るために利用できるようにされ得るか)、または本システムは、故障が検出されているに
もかかわらず(例えば、故障の検出を受けて、消失したデータブロックに関する情報を記
憶するスーパーブロックデータ構造が、無傷のままである場合に)起動したままであり得
ることに留意されたい。換言すれば、種々の実施形態において、本明細書で説明されるシ
ステムおよび方法は、リモートキー値持続性バックアップ記憶領域から全ての影響を及ぼ
されたデータブロックを復元する前に、システムの故障を受けて、分散データウェアハウ
スシステムが、それが記憶する顧客データに向けられたクエリを受け付け、サービスする
ことを可能にし得る。
いくつかの実施形態において、データウェアハウスシステムによって維持されるデータ
ブロックを読み出すときに、本システム自体は、データウェアハウスシステムのクラスタ
のディスクに記憶されたデータブロックのコピー(例えば、データブロックの一次または
二次コピー)の1つにアクセスしたかどうか、またはリモートバックアップ記憶システム
に記憶されたデータブロックのバックアップコピーにアクセスしたかどうかを自動的に判
定するように構成され得る。いくつかの実施形態において、この判定は、データブロック
が物理的または論理的破損に遭遇したかどうかを評価するために、クラスタのディスクか
らデータブロックが読み出されたときに整合性チェックを行うことを含み得る。例えば、
データブロックの一次コピーが破損した場合、データブロックは、その二次場所から読み
出され得る。二次コピーも利用できない場合(例えば、本明細書で説明されるものを含む
、様々な理由のいずれかに起因する)、クライアントがバックアップコピーの識別情報ま
たは場所を知ることを必要とせずに、かつ、任意の他のデータブロックの復元を必要とせ
ずに、ごく最近のバージョンのこの単一のデータブロックが、バックアップ記憶領域から
自動的に取り出され、そして、実行中のシステムにパッチされ得る。
分散データウェアハウスシステムのクエリ要求に応答するための方法の一実施形態は、
図10のフロー図によって例示される。1000で例示されるように、本実施例において
、本方法は、分散データウェアハウスシステムが、クライアントまたは加入者に代わって
所与のクラスタに記憶されたデータに向けられたクエリを受け取ることを含み得る。クエ
リを受け取ることに応じて、本方法は、1010にあるように、クエリによってターゲッ
トにされたデータのブロックに対して、所与のクラスタの先頭ノードが、データブロック
の一次コピーを現在記憶しているコンピューティングノードを決定することを含み得る。
データブロックの一次コピーを(例えば、クエリを少なくとも部分的に満たすために)利
用できる場合、1020からの肯定出口で示され、本方法は、1025にあるように、デ
ータブロックの一次コピーからターゲットデータを取得し、そして、該ターゲットデータ
を要求側に返すことを含み得る。
データブロックの一次コピーが利用できない場合(例えば、物理的もしくは論理的破損
、ソフトウェアのバグ、I/O経路におけるメモリの問題、ディスクの故障、ノードの故
障による、または破損もしくは故障を受けてまだ復元されていないことによる)、本方法
は、1030にあるように、一次コンピューティングノードまたは先頭ノードが、データ
ブロックの1つ以上の二次コピーを記憶するコンピューティングノード(複数可)を決定
することを含み得る。データブロックの二次コピーが利用できる場合(1040からの肯
定出口で示される)、本方法は、1045にあるように、データブロックの二次コピーか
らターゲットデータを取得し、そして、該ターゲットデータを要求側に返すことを含み得
る。データブロックの二次コピーが利用できない場合(1040からの否定出口で示され
る)、本方法は、1050にあるように、先頭ノードまたは一次コンピューティングノー
ドが、(例えば、データブロックが以前に記憶されたノードのスーパーブロックデータ構
造に記憶されたメタデータに基づいて)データブロックの一意のIDを決定し、ターゲッ
トデータを取り出すためにデータブロックに対する要求をリモートキー値持続性バックア
ップ記憶システムに送り、そして、ターゲットデータを要求側に返すことを含み得る。受
け取ったクエリによってターゲットにされたデータブロックがさらにある場合(1060
からの肯定出口で示される)、本方法は、それらの追加的なデータブロックに対して、1
010〜1050で例示される動作を繰り返すことを含み得る。これは、図10において
1060から1010へのフィードバックによって例示される。いかなる受け取ったクエ
リによってターゲットにされた追加的なデータブロックもなくなると、1060からの否
定出口で示され、1070にあるように、クエリ処理を完了する。クエリに応答するため
に、ターゲットにされたデータブロックの複数のコピーのうちのどれにアクセスするのか
を決定するための、図10で例示される動作は、分散データウェアハウスシステムにおい
て自動的に(例えば、ユーザの介入を伴わずに)行われ得ることに留意されたい。
クエリに応じて、どのデータブロックのコピーを返すのかを決定するための方法の一実
施形態は、図11のフロー図によって例示される。1110で例示されるように、本実施
例において、本方法は、クライアントが、クエリ要求をデータウェアハウスクラスタに送
ることを含み得る。クラスタを利用できない場合(1120からの否定出口で示される)
、本方法は、クエリを再度満たそうとする前に(図示せず)、1125にあるように、ク
ラスタの再構築を開始することを含み得る。例えば、本方法は、リモートキー値持続性バ
ックアップ記憶システムに記憶されたデータのバックアップコピーからクラスタ全体を復
元するためのバックグラウンドプロセスを開始することを含み得る。本明細書で説明され
るように、いくつかの実施形態では、クエリを再度満たそうとする前にクラスタ全体(さ
らには、ターゲットにされたデータブロック)が復元されるのを待つのではなく、クエリ
によってターゲットにされたデータブロックを取り出すフォアグラウンドプロセスによっ
て、リモートキー値持続性バックアップ記憶システムからターゲットにされたデータブロ
ックのバックアップコピーが取り出され得る。クラスタを利用できる場合(1120から
の肯定出口で示される)、本方法は、1130にあるように、クエリによってターゲット
にされたデータの1つのブロックに対して、先頭ノードが、データブロックの一次コピー
を記憶するコンピューティングノードを決定することを含み得る。データブロックの一次
コピーが無傷でない場合(例えば、消失したまたは破損した場合、1140からの否定出
口で示される)、本方法は、(1170にあるように)データブロックの二次コピーから
ターゲットデータを取得する試みを開始し、(見つかった場合)整合性チェックを取得し
たデータに適用し、そして/または二次コピーから一次データブロックのコピーの復元を
開始することを含み得る。
本実施例で例示されるように、ターゲットにされたデータの一次コピーが無傷で、かつ
破損していない場合(1140からの肯定出口で示される)、本方法は、1150にある
ように、データブロックの一次コピーからターゲットデータを取り出し、整合性チェック
を取得したデータに適用することを含み得る。取り出されたデータが整合性チェックを通
過した場合(1160からの肯定出口で示される)、本方法は、(1185にあるように
)ターゲットデータをクライアントに返すことを含み得る。
取り出したデータが整合性チェックを通過しなかった場合(1160からの否定出口で
示される)、本方法は、(1170にあるように)データブロックの二次コピーからター
ゲットデータを取得する試みを開始し、(見つかった場合)整合性チェックを取得したデ
ータに適用し、そして/または二次コピーから一次データブロックのコピーの復元を開始
することを含み得る。整合したデータブロックの二次コピーが見つかった場合(1180
からの肯定出口で示される)、本方法は、1185にあるように、ターゲットデータをク
ライアントに返すことを含み得る。いかなる整合したデータブロックの二次コピーも見つ
からなかった場合(1180からの否定出口で示される)、本方法は、1190にあるよ
うに、バックアップ記憶システム(例えば、リモートキー値持続性バックアップ記憶シス
テム)からデータブロックのコピーをパッチし、ターゲットデータをクライアントに返す
ことを含み得る。1130〜1190で例示される動作のそれぞれは、クエリによってタ
ーゲットにされたデータが記憶された任意の他のデータブロックに対して繰り返され得る
が(図示せず)、バックアップ記憶システムからクエリを満たすために必要であるデータ
を取り出すために、バックアップ記憶システムに記憶されたディスク、ノード、またはク
ラスタの全てのデータブロックを復元すること、さらには走査することが必要でない場合
があることに留意されたい。また、クエリに応じて、ターゲットにされたデータブロック
の複数のコピーのどれをクライアントに返すのかを決定するための、図11で例示される
動作は、分散データウェアハウスシステムにおいて自動的に(例えば、システム管理者ま
たは他のユーザによる介入を伴わずに)行われ得ることにも留意されたい。
クエリを満たすために、リモートキー値持続性記憶システムからのデータブロックのバ
ックアップコピーをパッチするための方法の一実施形態は、図12のフロー図によって例
示される。1210で例示されるように、本実施例において、本方法は、クライアントが
、所与のデータブロックをターゲットにするデータウェアハウスクラスタにクエリ要求を
送ることを含み得る。ターゲットデータブロックをクラスタ内で利用できる場合(122
0からの肯定出口で示される)、本方法は、1225にあるように、クラスタ内のノード
(例えば、ターゲットデータブロックの一次または二次コピーが記憶されたノード)から
ターゲットデータブロックを取得し、そして、ターゲットデータブロック(またはその要
求された部分)をクライアントに返すことを含み得る。様々な理由から(例えば、物理的
または論理的破損、ソフトウェアのバグ、I/O経路におけるメモリの問題、ディスクの
故障、ノードの故障、または任意の他の理由により)、ターゲットデータブロックをクラ
スタ内で利用できない場合(1220からの否定出口で示される)、本方法は、1230
にあるように、クエリを満たすために、リモートキー値持続性記憶システムからターゲッ
トデータブロックをシステムメモリに提供し(リモートキー値持続性記憶システムにおい
てそのアクセスキーとしての役割を果たす、一意のデータブロック識別子によってインデ
ックスを付けられる)、そして、ターゲットデータブロック(またはその要求された部分
)をクライアントに返すことを含み得る。換言すれば、ターゲットデータブロックは、デ
ータを走査するか、またはそのターゲットデータブロックよりも多い復元を行う必要なし
に、クエリ要求を満たすために、(ページフォールトを受けて用いられる様式に類似する
様式で)「故障させられ」得る。
本実施例で例示されるように、ターゲットデータブロックがシステムメモリに提供され
ると、本方法は、1240にあるように、ターゲットデータブロックの一次コピーをデー
タウェアハウスクラスタ内のノードに書き込み、そして、それに応じて、適切なメタデー
タを更新する(例えば、現在の状態および/またはノードのデータブロックの場所を反映
させるために、そのノードのスーパーブロックデータ構造のメタデータを更新する)こと
を含み得る。本方法はまた、1250にあるように、データウェアハウスクラスタ内の1
つ以上の他のノードに対するターゲットデータブロックの複製を開始し(換言すれば、一
次コピーが記憶されたノードを含み得、データブロックの1つ以上の二次コピーを作成し
)、そして、それに応じて、適切なメタデータを更新することも含み得る。種々の実施形
態において、復元されたデータブロックの一次および/または二次コピーのメタデータは
、(例えば、該一次および/または二次コピーが、破損したデータブロックのコピーが以
前に記憶されたディスクおよび/またはノードと同じか、または異なるディスクおよび/
またはノードに記憶されるかどうかに依存して)該一次および/または二次コピーが置き
換える破損したデータの一次および/または二次コピーのためのメタデータと同じか、ま
たは異なり得る。本実施例で例示されるように、いくつかの実施形態において、本方法は
、1260にあるように、以降の使用のために、復元動作および/またはそれ自体の復元
動作の指示(またはそれに関する他の情報)をトリガーしたシステムにおける任意の故障
の指示(またはそれに関する他の情報)をロギングすることを含み得る。例えば、いくつ
かの実施形態において、そのような情報(データウェアハウスクラスタにおいて利用でき
ない種々のデータブロックの整合し、かつ破損していないコピーをもたらす、他のそのよ
うな故障または状態/イベントに対してロギングされ得る)は、その後に、(例えば、そ
れが記録されたファイルまたはデータ構造で)故障解析、傾向解析、日常的なもしくは的
を絞った維持管理、または他の機能を行うときにアクセスされ得る。
他の実施形態において、ターゲットデータは、(1230にあるように)クエリを満た
すために、リモートキー値持続性記憶システムからシステムメモリに提供され、そして、
クライアントに返された後に、ターゲットデータは、ディスクに書き込まれるのではなく
破棄され得ることに留意されたい。いくつかのそのような実施形態において、消失または
破損したデータブロックの一次および二次コピーは、クエリを満たすために、バックアッ
プ記憶領域からデータブロックを取り出すフォアグラウンドプロセスによってではなく、
ディスク、ノード、またはクラスタに対するストリーミング復元動作を行うバックグラウ
ンドプロセスによってだけ、ディスクに書き込まれ得る。また、いくつかの実施形態にお
いて、クエリ要求が1つを超えるデータブロックのデータをターゲットにする場合、クエ
リ要求を満たすために必要な全てのデータの場所を特定し、返すために、図12で例示さ
れる動作が繰り返され得、リモートキー値持続性記憶システムから1つ以上の追加的なデ
ータブロックを「故障させる」こと、および/または(クエリ要求をサービスするフォア
グラウンドプロセスによるか、その後のバックグラウンドプロセスによるかにかかわらず
)データウェアハウスクラスタの該データブロックを復元することを含み得ることにも留
意されたい。下でより詳細に説明されるように、複数のデータブロックがバックグラウン
ドプロセスによってデータウェアハウスクラスタにおいて復元される実施形態において、
データブロックが復元される順序は、該データブロックが近い将来に再度アクセスされる
相対的な可能性に依存し得る。
上で述べられるように、いくつかの実施形態において、データブロックは、それらが近
い将来にアクセスされる可能性(または期待される可能性)を反映する順序で、リモート
記憶システムから復元され得る。異なる実施形態では、ストリーミング復元動作に対する
ブロックの優先順位付けに影響を及ぼす順序で種々のデータブロックの新しさおよび/ま
たは関連性を追跡するために、異なるスキームが使用され得る。いくつかの実施形態にお
いて、データブロックは、入来クエリを満たすために、必要に応じて、フォアグラウンド
プロセスがバックアップ記憶領域からデータブロックにストリーミングする間に、バック
グラウンドプロセスを使用して、そのように決定された優先順位付けに基づいて記憶され
得る。他のシステムにおいて、多くの(または大部分の)他のプロセスは、故障した(ま
たは破損した)ディスクまたはノードの全体が再構築されるまで、劣化した状態で動作さ
せなければならないことに留意されたい。いくつかの実施形態において、本明細書で説明
されるシステムは、復元動作中に、より正常な劣化を実現し得る。換言すれば、本明細書
で説明されるように、読み出しの優先順位付けがバックグラウンドプロセスによって行わ
れることは、該読み出しが(例えば、あまり頻繁にアクセスされなかったデータを再構築
する前に、より頻繁にアクセスされたデータを再構築することによって)復元プロセスに
よるシステム性能の認識される劣化を最小にするような方法で、該読み出しを順番付ける
ことを可能にし得る。
優先順にリモートキー値持続性記憶システムからデータブロックを復元するための方法
の一実施形態は、図13のフロー図によって例示される。1310で例示されるように、
本実施例において、本方法は、データウェアハウスシステムの1つ以上の構成要素の故障
(またはそれに関する故障)を検出することを含み得る。それに応じて、影響を及ぼされ
たデータ(例えば、データウェアハウスシステムに残存する影響を及ぼされていないデー
タから復元することができないデータ)を復元する動作が開始され得る。本実施例で例示
されるように、本方法は、1320にあるように、データブロックのそれぞれが近い将来
にアクセスされる相対的な可能性の判定に基づいて、キー値持続性バックアップ記憶領域
から、影響を及ぼされたデータブロックを復元する優先度を決定することを含み得る。下
でより詳細に説明されるように、影響を及ぼされたデータブロックを復元するための優先
順序を決定するために、種々の基準が適用され得、該基準としては、ごく最近にクエリの
ターゲットであったデータブロックが最初に復元されるような、ごく最近に書き込まれた
データブロックが最初に復元されるような、またはごく最近にバックアップされたデータ
ブロックが最初に復元されるような順序で、該影響を及ぼされたデータブロックを順番付
けすることが挙げられるが、それらに限定されない。
影響を及ぼされたデータブロックを復元する順序が決定されると、本方法は、1330
にあるように、(例えば、データウェアハウスシステムのシステムメモリの中へストリー
ミングする)キー値持続性バックアップ記憶領域から最も高い優先度のデータブロックを
取り出し、データウェアハウスシステムのデータブロックの一次コピーを書き込み、そし
て、(例えば、データブロックの1つ以上の二次コピーを作成するために)データウェア
ハウスシステムのデータブロックの複製を開始することを含み得る。一次および二次コピ
ーをディスクに書き込む前にデータブロックをシステムメモリの中へストリーミングする
ことは、データをクラスタのディスクから、またはバックアップ記憶領域から取り出さな
ければならないときよりも速く(例えば、より高速なメモリから)そのデータをターゲッ
トにするクエリに応答することを可能にし得ることに留意されたい)。復元すべきより多
くのデータブロックがある場合(1340からの肯定出口で示される)、本方法は、13
50にあるように、キー値持続性バックアップ記憶領域から次の最も高い優先度のデータ
ブロックを取り出し、データウェアハウスシステムの次の最も高い優先度のデータブロッ
クの一次コピーを書き込み、そして、次の最も高い優先度のデータブロックの複製を開始
することを含み得る。図13で例示されるように、1340および1350で例示される
動作は、この復元動作で復元すべき全てのデータブロック(例えば、検出された1つまた
は複数の故障によって影響を及ぼされた全てのデータブロック)が復元されるまで繰り返
され得る(1340からの否定出口で示される)。本方法はまた、1360にあるように
、(例えば、各ノードのスーパーブロックの)再構築された構成要素の適切なメタデータ
を更新することも含み得、そして、その時点で、1370にあるように、復元動作は、完
了され得る。他の実施形態において、スーパーブロックデータ構造の個々のエントリは、
再構築動作によってターゲットにされた全てのデータブロックが再構築された後ではなく
、対応するデータブロックが再構築されるとすぐに更新され得ることに留意されたい。
いくつかの実施形態において、リモートバックアップ記憶領域からストリーミング復元
を行うとき、データブロックを入来クエリによるアクセスの可能性と同調させるように、
データブロックの復元を順番付けすることにかなりの利点があり得る。いくつかの実施形
態において、データブロックは、分散データウェアハウスにおいてそれらがどれくらい最
近におよび/またはどれくらい頻繁にアクセスされたかに基づいて、復元の優先順位が付
けられ得る。例えば、大部分のクエリが先週の間に記憶されたデータにアクセスする、3
年の期間にわたって記憶したデータを含むデータウェアハウスにおいて、先週の間に記憶
されたデータブロックおよびそのようなデータブロックに関連するデータブロック(例え
ば、ファクトテーブルおよびファクトテーブルに結合される全てのディメンションテーブ
ルに対するデータ)を最初にシステムメモリに提供することは、システムが、データセッ
トの全てのデータを復元する前に、大部分のクエリに応答することを可能にし得る。本実
施例において、データセットに向けられた代表的なクエリの配信は、バックアップ記憶領
域からデータの1%未満が提供されると、効率的に行われ得る。
いくつかの実施形態において、時系列データを含むデータブロックは、最も新しいデー
タを記憶するデータブロックが最初に復元されるように優先順位が付けられ得る。いくつ
かの実施形態において、つい最近に作成された(または更新された)データを記憶するデ
ータブロックは、それらが記憶するデータのタイプにかかわらず、より古いデータを記憶
するデータブロックよりも優先され得る。他の実施形態において、システムにちょうど読
み込まれたテーブルが、他のテーブルデータを記憶するデータブロックよりも早くクエリ
またはソートされるという仮定の下で、復元動作は、ごく最近に読み込まれたデータベー
ステーブルを最初に表すデータブロックに優先順位を付け得る。さらに他の実施形態にお
いて、データブロックは、最近のクエリパターンの解析に基づく復元のために優先順位が
付けられ得る。例えば、データブロックのアクセスパターンに任意のスキューがある場合
、そのアクセスパターンは、バックアップ記憶領域からデータブロックを復元するときに
適用され得る。いくつかの実施形態において、最近実行したクエリがどのデータブロック
にアクセスしたのかを見出すために、および/または多数の以前のクエリのアクセスパタ
ーンの履歴を判定するために、最近実行したクエリが調査され得る。例えば、クエリ履歴
は、データウェアハウスシステムによって(例えば、ログまたはテーブルで)維持され得
、どのテーブルおよび/またはデータの列に最も頻繁にクエリが行われたのかを決定する
ために、その履歴の解析が行われ得る。最も頻繁にクエリが行われた列データを記憶する
データブロックは、復元の優先順位が付けられ得る。いくつかの実施形態において、復元
のためのデータブロックの優先順位付けは、現在の活動に基づく動的な優先順位付けによ
ってなされ得る。例えば、現在のクエリを満たすために、データがバックアップ記憶領域
からデータウェアハウスシステムの中へパッチされたとき、パッチされたデータブロック
と同じ列のデータを記憶する、任意の残りの復元すべきデータブロックの優先度が高くさ
れ得る。
いくつかの実施形態において、本明細書で説明されるスーパーブロックデータ構造は、
その値が、対応するデータブロックが所与の期間にアクセスされた回数を反映する、エン
トリあたり(すなわち、データブロックあたり)1つ以上のカウンタによって拡張され得
る。例えば、スーパーブロックデータ構造のそれぞれは、現在のアクセス期間カウンタと
、以前のアクセス期間カウンタとを含み得る。各データブロックのアクセスに対して、現
在のアクセス期間カウンタが更新され得る。随時(例えば、定期的に、またはバックアッ
プもしくは復元動作等の特定のイベントに応じて)、現在のアクセス期間カウンタのカウ
ント値は、以前のアクセス期間カウンタに移動され得(その以前の値を上書きする)、現
在のアクセス期間カウンタの値は、(例えば、ゼロの値に)リセットされ得る。いくつか
の実施形態において、新しいブロックが作製されると、それらのスーパーブロックデータ
構造は、平均または中間の現在のアクセス期間カウンタ値を含むように初期化され得、該
値は、(例えば、データのデータブロックに対して、該新しいブロックが不当にペナルテ
ィを課されないように)該新しいブロックがアクセスされる可能性がかなり高いことを示
す。他の実施形態において、新しいブロックの現在のアクセス期間カウンタ値は、デフォ
ルト値(例えば、最大カウンタ値の20%)に初期化され得る。いくつかの実施形態にお
いて、データブロックに対するソート動作は、全ての影響を及ぼされたデータブロックの
カウンタを初期値に、またはデフォルト値にリセットし得る。
本実施例において、復元動作のために、データブロックは、現在のアクセス期間カウン
タ値および以前のアクセス期間カウンタ値の和に基づいて(最も高い和から最も低い和に
)記憶され得る。別の実施例において、データブロックは、現在のアクセス期間カウンタ
値および以前のアクセス期間カウンタ値の加重平均または加重和(例えば、現在のアクセ
ス期間カウンタ値と、以前のアクセス期間カウンタ値との和の半分)に基づいてソートさ
れ得る。全般に、異なる実施形態において、データブロックは、それらの現在のアクセス
期間カウンタおよびそれらの以前のアクセス期間カウンタの値の論理的組み合わせおよび
/または数学的組み合わせを表す値に基づいてソートされ得る。
キー値持続性バックアップ記憶領域からデータブロックを復元する順序を決定するため
の方法の一実施形態は、図14のフロー図によって例示される。1410で例示されるよ
うに、本実施例において、本方法は、クライアントが、所与のデータブロックをターゲッ
トにするデータウェアハウスクラスタにクエリ要求を送ることを含み得る。本実施例で例
示されるように、本方法は、1420にあるように、データウェアハウスクラスタが、所
与のデータブロックがアクセスされたという事実を反映するために、要求を満たし、そし
て、所与のデータブロックと関連付けられる現在のアクセス期間カウンタを増加させるこ
とを含み得る。現在のアクセス期間(例えば、アクセスのカウントが現在のアクセス期間
カウンタによって取り込まれている現在の期間)がまだ期限切れになっていない場合(1
430からの否定出口で示される)、本方法は、(そのような他のデータブロックと関連
付けられる異なる現在のアクセス期間カウンタを使用して)所与のデータブロックおよび
/または1つ以上の他のデータブロックへのアクセスをカウントし続けることを含み得る
。これは、図14において1430の否定出口から1410へのフィードバックによって
例示される。現在のアクセス期間が期限切れである場合(または期限が切れたとき)(1
430からの肯定出口で示される)、本方法は、1440にあるように、現在のアクセス
期間カウンタ値を以前のアクセス期間にコピーし(例えば、カウンタの値を上書きし)、
そして、現在のアクセス期間カウンタの値をリセットするか、または初期値もしくはデフ
ォルト値にすることを含み得る。
本実施例で例示されるように、本方法は、何かが復元動作をトリガーするまで、または
トリガーしない限り、(そのような他のデータブロックと関連付けられる異なる現在のア
クセス期間カウンタを使用して)所与のデータブロックおよび/または1つ以上の他のデ
ータブロックへのアクセスをカウントし続けることを含み得る。これは、図14において
1450の否定出口から1410へのフィードバックによって例示される。いくつかの実
施形態において、復元動作は、ディスク、ノード、もしくはクラスタの故障を検出するこ
とに応じて、利用できない(または整合し、かつ破損していないコピーがクラスタにおい
て利用できない)データをターゲットにするクエリに応じて、またはクライアント(例え
ば、ユーザ、クライアントアプリケーション、または記憶サービスの加入者)からそのよ
うにする明示的な要求に応じてトリガーされ得ることに留意されたい。復元動作がトリガ
ーされると(1450からの肯定出口で示される)、本方法は、1460にあるように、
影響を及ぼされたデータブロックを復元する順序を決定するために、各影響を及ぼされた
データブロックに対して、現在のアクセス期間カウンタ値および以前のアクセス期間カウ
ンタ値を組み合わせることを含み得る。例えば、異なる実施形態において、(各データブ
ロックに対する)これらの2つのカウンタ値の和は、(例えば、アクセスカウントが取り
込まれた2つのごく最近の期間に、より多い回数アクセスされたデータブロックが、より
少ない回数アクセスされたデータブロックよりも早く復元されるように)データブロック
を復元するべき順序を決定するために使用され得る。
いくつかの実施形態において、本明細書で説明されるデータウェアハウスシステムは、
迅速な高速実行クエリが長期実行クエリ(例えば、ショートクエリバイアス)の後のクエ
リに引っ掛かり得ないように、クライアントが作業負荷の優先度を柔軟に管理することを
可能にし、また特に、作業負荷の分類を可能にする、作業負荷管理機構を実現し得る。い
くつかの実施形態において、データウェアハウスシステムは、クエリのクラス化のための
追加的な基準を提供するカスタマイズ可能なクエリサービスクラスを実現し得、高レベル
の作業負荷マネージャ構成要素は、クエリを管理し、それらをサービスクラスに割り当て
る。そのような実施形態において、各サービスクラスに対して、データウェアハウスシス
テムは、実行を待つクエリの優先順位付きリストを維持するクエリキューを提供し得る。
加えて、データウェアハウスシステムは、(コンピューティングノードプロセスが、クエ
リを動作させるために利用できる限り)同時に動作させることができる、プール内のクエ
リ数を画定するタスクプールを提供し得る。
いくつかの実施形態において、本明細書で説明されるデータウェアハウスシステムは、
データベースの大量のデータに対して動作する最も複雑なクエリの高速実行を提供するた
めに、超並列処理(MPP)インフラストラクチャを使用し得る。市販の標準サーバ要素
を使用すると、データウェアハウスシステムは、単に、より多くの(マルチコアプロセッ
サを有する)「コンピューティングノード」サーバを加えることによって性能を高めて、
より過酷な作業負荷を扱うために、ほぼ直線的なスケーラビリティを提供し得る。全ての
クエリ処理(最終的な結果の集約は除く)は、データ全体のより小さい部分に対して同じ
コンパイルされたクエリ「セグメント」を実行するノード毎の各コアを有するコンピュー
ティングノードによって行われ得る。
加えて、データウェアハウスシステムは、記憶要件を低減させ(それによって、ディス
クのI/Oも低減させ)、より多くのクエリのインメモリ処理を行うために、列指向のデ
ータの記憶および圧縮を使用し得る。完全に最適化され、コンパイルされたコードは、複
雑なクエリを「分割統治」し、実行速度を高める一方で、インタプリタを使用することの
オーバーヘッドも排除するために、データウェアハウスシステムのクラスタの全てのノー
ドにわたって配信され得る。
いくつかの実施形態において、本明細書で説明されるデータウェアハウスシステムは、
高効率のクエリ最適化器、ならびにMPP認識であり、同じくデータウェアハウスシステ
ムによって使用される列指向のデータ記憶を利用する、クエリ実行エンジンを提供し得る
。データウェアハウスシステムのクエリ最適化器は、マルチテーブル結合、サブクエリ、
および集約を含む複雑な解析クエリの処理に対するかなりの向上および拡張を伴う、クエ
リの実行にとって中心的な一群の再使用可能なソフトウェア構成要素および方法を提供し
得る。上で述べられるように、列記憶領域および適応圧縮の使用も、クエリを処理する際
に必要なデータ量を大幅に低減させ得、また、可能な場合はいつでも、インメモリを通し
て、クエリ実行速度およびキャッシュされたデータへのアクセスを飛躍的に向上させ得る
本明細書で説明される方法は、種々の実施形態において、ハードウェアおよびソフトウ
ェアの任意の組み合わせによって実現され得る。例えば、一実施形態において、本方法は
、プロセッサに連結されたコンピュータ読み出し可能な記憶媒体に記憶されたプログラム
命令を実行するプロセッサを含む、コンピュータシステムによって実現され得る。プログ
ラム命令は、本明細書で説明される機能(例えば、本明細書で説明されるデータウェアハ
ウスシステムおよび/またはリモートキー値持続性バックアップ記憶システムを実現する
種々のサーバおよび他の構成要素の機能)を実現するように構成され得る。
図15は、種々の実施形態による、分散データウェアハウスシステムおよび対応するキ
ー値持続性バックアップ記憶システムの少なくとも一部分を実現するように構成されるコ
ンピュータシステムを例示するブロック図である。例えば、コンピュータシステム150
0は、分散データウェアハウスシステムのクラスタの先頭ノード、分散データウェアハウ
スシステムのクラスタのコンピューティングノード、分散データウェアハウスサービスマ
ネージャ、キー値持続性バックアップ記憶システム(またはそのインターフェース)、ま
たは分散データウェアハウスシステムもしくは対応するキー値持続性バックアップ記憶シ
ステムの任意の他の構成要素を実現するように構成され得る。コンピュータシステム15
00は、パーソナルコンピュータシステム、デスクトップコンピュータ、ラップトップも
しくはノートブックコンピュータ、メインフレームコンピュータシステム、ハンドヘルド
コンピュータ、ワークステーション、ネットワークコンピュータ、消費者デバイス、アプ
リケーションサーバ、記憶デバイス、電話、携帯電話、または全般に、任意のタイプのコ
ンピューティングデバイスが挙げられるが、それらに限定されない、種々のタイプのデバ
イスのいずれかであり得る。
コンピュータシステム1500は、入力/出力(I/O)インターフェース1530を
介してシステムメモリ1520に連結される、1つ以上のプロセッサ1510を含む(該
プロセッサのいずれかは、複数のコアを含み得、該コアは、シングルまたはマルチスレッ
ドであり得る)。コンピュータシステム1500はさらに、I/Oインターフェース15
30に連結される、ネットワークインターフェース1540を含む。種々の実施形態にお
いて、コンピュータシステム1500は、1つのプロセッサ1510を含むユニプロセッ
サシステム、または複数(例えば、2つ、4つ、8つ、または別の適切な数)のプロセッ
サ1510を含むマルチプロセッサシステムであり得る。プロセッサ1510は、命令を
実行することができる任意の適切なプロセッサであり得る。例えば、種々の実施形態にお
いて、プロセッサ1510は、x86、PowerPC、SPARC、もしくはMIPS
ISA、または任意の他のISA等の、様々な命令セットアーキテクチャ(ISA)の
いずれかを実現する汎用または組み込みプロセッサであり得る。マルチプロセッサシステ
ムにおいて、プロセッサ1510のそれぞれは、一般に、必ずではないが、同じISAを
実現し得る。コンピュータシステム1500はまた、通信ネットワーク(例えば、インタ
ーネット、LAN等)を通じて、他のシステムおよび/または構成要素と通信するための
、1つ以上のネットワーク通信デバイス(例えば、ネットワークインターフェース154
0)も含む。例えば、システム1500上で実行するクライアントアプリケーションは、
単一のサーバ上で、または分散システムを実現する一群のサーバ上で実行するサーバアプ
リケーションと通信するために、ネットワークインターフェース1540を使用し得る。
別の実施例において、コンピュータシステム1500上で実行するサーバアプリケーショ
ンのインスタンスは、他のコンピュータシステム上で実現され得るサーバアプリケーショ
ンの他のインスタンスと通信するために、ネットワークインターフェース1540を使用
し得る。
例示される実施形態において、コンピュータシステム1500はまた、1つ以上の永続
記憶デバイス1560および/または1つ以上のI/Oデバイス1580も含む。種々の
実施形態において、永続記憶デバイス1560は、ディスクドライブ、テープドライブ、
ソリッドステートメモリ、他の大容量記憶デバイス、または任意の他の永続記憶デバイス
に対応し得る。コンピュータシステム1500(またはその上で動作する分散アプリケー
ションまたはオペレーティングシステム)は、所望に応じて、命令および/またはデータ
を永続記憶デバイス1560に記憶し得、また、必要に応じて、記憶された命令および/
またはデータを取り出し得る。
コンピュータシステム1500は、プロセッサ1510によってアクセス可能な命令お
よびデータを記憶するように構成される、1つ以上のシステムメモリ1520を含む。種
々の実施形態において、システムメモリ1520は、任意の適切なメモリ技術(例えば、
キャッシュ、スタティックランダムアクセスメモリ(SRAM)、DRAM、RDRAM
、EDO RAM、DDR10RAM、シンクロナスダイナミックRAM(SDRAM)
、Rambus RAM、EEPROM、不揮発性/フラッシュタイプメモリ、または任
意の他のタイプのメモリ、のうちの1つ以上)を使用して実現され得る。システムメモリ
1520は、本明細書で説明される方法および技法を実現するためにプロセッサ(複数可
)1510によって実行可能である、プログラム命令1525を含み得る。種々の実施形
態において、プログラム命令1525は、プラットフォームネイティブバイナリ、Jav
a(登録商標)バイトコード等の任意のインタプリタ型言語、またはC/C++、Jav
a(登録商標)等の任意の他の言語で、またはそれらの任意の組み合わせで符号化され得
る。例えば、例示される実施形態において、プログラム命令1525は、分散データウェ
アハウスシステムのクラスタの先頭ノード、分散データウェアハウスシステムのクラスタ
のコンピューティングノード、分散データウェアハウスサービスマネージャ、キー値持続
性バックアップ記憶システム(またはそのインターフェース)、または分散データウェア
ハウスシステムもしくは対応するキー値持続性バックアップ記憶システムの任意の他の構
成要素の機能を実現するために実行可能なプログラム命令を含む。いくつかの実施形態に
おいて、プログラム命令1525は、複数の別個のクライアント、サーバノード、および
/または他の構成要素を実現し得る。
いくつかの実施形態において、プログラム命令1525は、UNIX(登録商標)、L
INUX(登録商標)、Solaris(登録商標)、MacOS(登録商標)、Win
dows(登録商標)等の種々のオペレーティングシステムのいずれかであり得る、オペ
レーティングシステム(図示せず)を実現するために実行可能な命令を含み得る。プログ
ラム命令1525のいずれかまたは全ては、そこに命令を記憶した非一時的なコンピュー
タ読み出し可能な記憶媒体を含み得る、コンピュータプログラム製品またはソフトウェア
として提供され得、該命令は、種々の実施形態に従ってプロセスを行うようにコンピュー
タシステム(または他の電子デバイス)をプログラムするために使用され得る。非一時的
なコンピュータ読み出し可能な記憶媒体は、機械(例えば、コンピュータ)によって読み
出し可能な形態(例えば、ソフトウェア、処理アプリケーション)で情報を記憶するため
の、任意の機構を含むことができる。全般的に、非一時的なコンピュータアクセス可能な
媒体としては、I/Oインターフェース1530を介してコンピュータシステム1500
に連結される、磁気または光媒体等のコンピュータ読み出し可能な記憶媒体またはメモリ
媒体、例えば、ディスクまたはDVD/CD−ROMが挙げられ得る。非一時的なコンピ
ュータ読み出し可能な記憶媒体としてはまた、システムメモリ1520または別のタイプ
のメモリとしてコンピュータシステム1500のいくつかの実施形態に含まれ得る、RA
M(例えばSDRAM、DDR SDRAM、RDRAM、SRAM等)、ROM等の、
任意の揮発性または不揮発性媒体も挙げられ得る。他の実施形態において、プログラム命
令は、ネットワークインターフェース1540を介して実現され得るような、ネットワー
クおよび/または無線リンク等の通信媒体を介して伝達される、光、音響、または他の形
態の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号等)を使用して通信され得る
いくつかの実施形態において、システムメモリ1520は、本明細書で説明されるよう
に構成され得る、データストア1545を含み得る。種々の実施形態において、例えば、
スーパーブロックデータ構造、1つ以上のデータブロックアクセスカウンタ、クエリ履歴
、エラーログ、または本明細書で説明される方法を行う際に使用される他の情報等の、デ
ータウェアハウスシステムによって(例えば、先頭ノードまたはコンピューティングノー
ドに)記憶されるような、本明細書で説明される情報は、データストア1545もしくは
1つ以上のノードのシステムメモリ1520の別の部分、永続記憶領域1560、および
/または1つ以上のリモート記憶デバイス1570に記憶され得る。いくつかの実施形態
において、また、種々の時点で、システムメモリ1520(例えば、システムメモリ15
20内のデータストア1545)、永続記憶領域1560、および/またはリモート記憶
領域1570は、データブロックの一次コピー、データブロックの二次コピー(すなわち
、複製)、データブロックのバックアップコピー、データブロックおよび/もしくはそれ
らの状態と関連付けられるメタデータ、データベース構成情報、ならびに/または本明細
書で説明される方法および技法を実現する際に使用可能な任意の他の方法を記憶し得る。
一実施形態において、I/Oインターフェース1530は、ネットワークインターフェ
ース1540または他の周辺インターフェースを通すことを含む、システムのプロセッサ
1510、システムメモリ1520、および任意の周辺デバイスの間のI/Oトラフィッ
クを協調させるように構成され得る。いくつかの実施形態において、I/Oインターフェ
ース1530は、データ信号を1つの構成要素(例えば、システムメモリ1520)から
、別の構成要素(例えば、プロセッサ1510)による使用に適した形式に変換するため
に、任意の必要なプロトコル、タイミング、または他のデータ変換を行い得る。いくつか
の実施形態において、I/Oインターフェース1530は、例えば、周辺構成要素相互接
続(PCI)バス規格またはユニバーサルシリアルバス(USB)規格の変形物等の、種
々のタイプの周辺バスを通して取り付けられるデバイスのためのサポートを含み得る。い
くつかの実施形態において、例えば、I/Oインターフェース1530の機能は、ノース
ブリッジおよびサウスブリッジ等の、2つ以上の別個の構成要素に分割され得る。さらに
、いくつかの実施形態では、システムメモリ1520に対するインターフェース等のI/
Oインターフェース1530の機能の一部もしくは全部が、プロセッサ1510に直接組
み込まれ得る。
例えば、ネットワークインターフェース1540は、他のコンピュータシステム159
0(分散データウェアハウスシステムおよび/またはリモートキー値持続性記憶システム
の1つ以上のサーバノードおよび/またはクライアントを実現し得る)等の、ネットワー
クに取り付けられるコンピュータシステム1500と他のデバイスとの間でデータを交換
することを可能にするように構成され得る。加えて、ネットワークインターフェース15
40は、コンピュータシステム1500と、種々のI/Oデバイス1550および/また
はリモート記憶1570との間の通信を可能にするように構成され得る。入力/出力デバ
イス1550は、いくつかの実施形態において、1つ以上のディスプレイ端末、キーボー
ド、キーパッド、タッチパッド、走査デバイス、音声もしくは光学認識デバイス、または
1つ以上のコンピュータシステム1500によるデータの入力もしくは取り出しに適した
任意の他のデバイスを含み得る。複数の入力/出力デバイス1550は、コンピュータシ
ステム1500に存在し得、または、コンピュータシステム1500を含む分散システム
の種々のノード上に分散され得る。いくつかの実施形態において、類似する入力/出力デ
バイスは、コンピュータシステム1500と別個であり得、また、ネットワークインター
フェース1540を通じて等の、有線または無線接続を通して、コンピュータシステム1
500を含む分散システムの1つ以上のノードと相互作用し得る。ネットワークインター
フェース1540は、一般に、1つ以上の無線ネットワークプロトコル(例えば、Wi−
Fi/IEEE802.11または別の無線ネットワーク規格)をサポートし得る。しか
しながら、例えば、種々の実施形態において、ネットワークインターフェース1540は
、他のタイプのイーサネット(登録商標)ネットワーク等の、任意の適切な有線または無
線の一般データネットワークを介した通信をサポートし得る。加えて、ネットワークイン
ターフェース1540は、ファイバーチャネルSAN等のストレージエリアネットワーク
を介した、または任意の他の好適なタイプのネットワークおよび/もしくはプロトコルを
介した、アナログ音声ネットワークもしくはデジタルファイバー通信ネットワーク等の電
気通信/電話通信ネットワークを介した通信をサポートし得る。種々の実施形態において
、コンピュータシステム1500は、図15で示される構成要素よりも多い、少ない、ま
たはそれらと異なる構成要素(例えば、ディスプレイ、ビデオカード、オーディオカード
、周辺デバイス、ATMインターフェース、イーサネットインターフェース、フレームリ
レーインターフェース等の他のネットワークインターフェース)を含み得る。
本明細書で説明される分散システム実施形態のいずれか、またはそれらの構成要素のい
ずれかは、1つ以上のウェブサービスとして実現され得ることに留意されたい。例えば、
データウェアハウスシステム内の先頭ノードは、ウェブサービスとして、データ記憶サー
ビスおよび/またはデータベースサービスをクライアントに提示し得る。いくつかの実施
形態において、ウェブサービスは、ネットワークを通じて相互運用可能な機械対機械の相
互作用をサポートするように設計される、ソフトウェアおよび/またはハードウェアシス
テムによって実現され得る。ウェブサービスは、ウェブサービス記述言語(WSDL)等
の機械処理可能な形式で記述されるインターフェースを有する。他のシステムは、ウェブ
サービスのインターフェースの記述によって規定される様式で、ウェブサービスと相互作
用し得る。例えば、ウェブサービスは、他のシステムが呼び出し得る種々の動作を定義し
得、また、他のシステムが種々の動作を要求するときに合致すると予期され得る、特定の
アプリケーションプログラミングインターフェース(API)を定義し得る。
種々の実施形態において、ウェブサービスは、ウェブサービス要求と関連付けられるパ
ラメータおよび/またはデータを含むメッセージの使用を通して、要求または呼び出され
得る。そのようなメッセージは、拡張マークアップ言語(XML)等の特定のマークアッ
プ言語に従って書式が設定され得、および/またはシンプルオブジェクトアクセスプロト
コル(SOAP)等のプロトコルを使用してカプセル化され得る。ウェブサービス要求を
行うために、ウェブサービスクライアントは、該要求を含むメッセージを組み立て、そし
て、該メッセージを、ハイパーテキストトランスファープロトコル(HTTP)等のイン
ターネットに基づくアプリケーション層転送プロトコルを使用して、ウェブサービスに対
応するアドレス指定可能なエンドポイント(例えば、ユニフォームリソースロケータ(U
RL))に運搬し得る。
いくつかの実施形態において、ウェブサービスは、メッセージに基づく技法ではなく、
表現可能な状態の転送(「RESTful」)技法を使用して実現され得る。例えば、R
ESTful技法に従って実現されるウェブサービスは、SOAPメッセージ内にカプセ
ル化されるのではなく、PUT、GET、またはDELETE等のHTTP方法内に含ま
れるパラメータを通して呼び出される。
前述したものは、以下の付記を考慮してより良く理解され得る。
1.方法であって、1つ以上のコンピュータによって、1人以上のクライアントに代わ
って、データベーステーブルの列データを、分散データ記憶システムの複数の物理データ
ブロックに記憶することであって、分散データ記憶システムは、1つ以上のノードのクラ
スタを備え、それぞれが、物理データブロックが記憶される1つ以上のディスクを備え、
複数の物理データブロックのそれぞれは、それぞれの一意の識別子と関連付けられ、記憶
することと、複数の物理データブロックのそれぞれのコピーを、リモートキー値持続性バ
ックアップ記憶システムに記憶することであって、複数の物理データブロックのそれぞれ
に対して、それぞれの一意の識別子は、リモートキー値持続性バックアップ記憶システム
のデータブロックにアクセスするためのキーとしての役割を果たし、記憶することと、列
データが記憶された複数の物理データブロックの少なくとも1つに影響を及ぼす、分散デ
ータ記憶システムの故障を検出することと、検出することに応じて、リモートキー値持続
性バックアップ記憶システムから、複数の物理データブロックの少なくとも1つに記憶さ
れた列データの復元を自動的に開始することと、複数の物理データブロックの少なくとも
1つに記憶された全ての列データを復元する前に、データベーステーブルの列データに向
けられた1つ以上のクエリ要求を受け取ることと、1つ以上のクエリ要求を受け付け、サ
ービスすることであって、サービスすることは、列データの少なくともいくつかを含むリ
モートキー値持続性バックアップ記憶システムのデータブロックにアクセスするためのキ
ーとしてそれぞれの一意の識別子を使用して、リモートキー値持続性バックアップ記憶シ
ステムから、1つ以上のクエリ要求が向けられたデータベーステーブルの列データの少な
くともいくつかを取得することを含む、クエリ要求を受け付け、サービスすることと、を
行うことを含む、方法。
2.データベーステーブルの列データを該記憶することは、列データの一部分を、列デ
ータの一部分の一次コピーとして、所与のディスク上のそれぞれの物理データブロックに
記憶し、列データの一部分を、列データの一部分の1つ以上の二次コピーとして、所与の
ディスク以外の1つ以上のディスク上のそれぞれの物理データブロックに記憶することを
含む、付記1に記載の方法。
3.データベーステーブルの列データを該記憶することは、所与のノードのディスクに
記憶された物理データブロックのそれぞれの一意の識別子を、所与のノードに記憶された
物理データブロックに関する情報を記憶するスーパーブロックデータ構造のそれぞれのエ
ントリに記憶することを含む、付記1に記載の方法。
4.データベーステーブルの列データを該記憶することは、所与のノードのディスクに
記憶された物理データブロックのそれぞれが記憶される場所を示す情報を、所与のノード
に記憶された物理データブロックに関する情報を記憶するスーパーブロックデータ構造の
それぞれのエントリに記憶することを含む、付記1に記載の方法。
5.該サービスすることは、分散データ記憶システムのディスクから、1つ以上のクエ
リ要求が向けられたデータベーステーブルの列データの少なくともいくつかを取得するこ
とを含む、付記1に記載の方法。
6.方法であって、1つ以上のコンピュータによって、データを、1人以上のクライア
ントに代わって、データ記憶システムの1つ以上の物理データブロックに維持することで
あって、各物理データブロックは、一意の識別子と関連付けられる、維持することと、所
与の物理データブロックに記憶されたそれぞれのデータのコピーを、データ記憶システム
とは別のキー値記憶システムに記憶するために、バックアップ動作を行うことと、所与の
物理データブロックに記憶されたデータのそれぞれのコピーを記憶することに続いて、所
与の物理データブロックに記憶されたデータを、キー値記憶システムからデータ記憶シス
テムに復元し、一方で、1人以上のクライアントに代わって、維持されるデータに向けら
れたクエリを受け付け、サービスすることであって、復元することは、キー値記憶システ
ムのキーとして、所与の物理データブロックと関連付けられる一意の識別子を使用して、
キー値記憶システムのそれぞれのデータのコピーにアクセスすることを含み、サービスす
ることと、を行うことを含む、方法。
7.該復元することは、複数の物理データブロックに記憶されたデータを、キー値記憶
システムからデータ記憶システムに復元するための動作の一部として行われ、クエリを受
け付け、サービスすることは、複数の物理データブロックに記憶された全てのデータが復
元される前に行われる、付記6に記載の方法。
8.データベーステーブルのエントリを表すデータを受け取ることをさらに含み、デー
タを、データ記憶システムの1つ以上の物理データブロックに該維持することは、データ
ベーステーブルのデータの1つ以上の列を表すデータを、1つ以上の物理データブロック
のそれぞれに記憶することを含む、付記6に記載の方法。
9.復元することは、所与の物理データブロックに記憶されたデータがデータ記憶シス
テムに記憶される記憶デバイスの故障に応じて行われる、付記6に記載の方法。
10.該復元することは、所与の物理データブロックに記憶されたデータがデータ記憶
システムに記憶される記憶デバイスを備えるノードの故障に応じて行われる、付記6に記
載の方法。
11.該復元することは、所与の物理データブロックに記憶されたデータがデータ記憶
システムに記憶される記憶デバイスを備える1つ以上のノードのクラスタの故障に応じて
行われる、付記6に記載の方法。
12.該復元することは、1つ以上のクライアントの1つからの復元動作を行う明示的
な要求に応じて行われる、付記6に記載の方法。
13.データを、データ記憶システムの1つ以上の物理データブロックに該維持するこ
とは、1つ以上のノードのクラスタの特定のノード上に維持されるデータと、データが特
定のノード上の物理データブロックに記憶されるデータ記憶システムの場所との間のマッ
ピングを記憶し、データ構造を維持することを含み、データ構造は、特定のノード上に維
持され、データ構造の各エントリは、特定の物理データブロックのマッピング、および特
定の物理データブロックと関連付けられる一意の識別子を記憶し、また、本方法は、該復
元することの前に、ノードの故障またはノードのクラスタの故障に応じて、特定のノード
上のデータ構造を復元することを含む、付記6に記載の方法。
14.プログラム命令を記憶する非一時的なコンピュータ読み出し可能な記憶媒体であ
って、該命令は、1つ以上のコンピュータ上で実行されたときに、1つ以上のコンピュー
タに、1つ以上のデータブロックをデータウェアハウスシステムに記憶することと、デー
タウェアハウスシステムに記憶されたデータブロックに関する情報を記憶する1つ以上の
データブロックの1つ以上のデータブロックのそれぞれに対して、それぞれのエントリを
作成することであって、1つ以上のデータブロックに対するそれぞれのエントリのそれぞ
れは、データブロックの一意の識別子、およびデータブロックがまだバックアップされて
いないという指示を含み、作成することと、1つ以上のデータブロックを含む、データウ
ェアハウスシステムに記憶された複数のデータブロックのバックアップ動作を行うことで
あって、該行うことは、データ構造のバックアップコピーをリモートキー値記憶システム
に記憶することを含み、バックアップ動作を行うことと、データ構造の対応するエントリ
が、データブロックがまだバックアップされていないことを示す、データウェアハウスに
記憶された各データブロックに対して、データブロックのバックアップコピーをリモート
キー値記憶システムに記憶することと、データブロックがバックアップされたことを示す
ために、バックアップ動作によってバックアップされた各データブロックに対応するデー
タ構造のエントリを更新することと、を行わせる、非一時的なコンピュータ読み出し可能
な記憶媒体。
15.1つ以上のデータブロックをデータウェアハウスシステムに該記憶することは、
異なる記憶デバイス上の1つ以上のデータブロックのそれぞれの2つ以上のコピーを、デ
ータウェアハウスシステムに記憶することを含む、付記14に記載の非一時的なコンピュ
ータ読み出し可能な記憶媒体。
16.1つ以上のデータブロックをデータウェアハウスシステムに該記憶することは、
1つ以上のデータブロックのそれぞれの一意の識別子を発生させることを含む、付記14
に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
17.1つ以上のコンピュータ上で実行されたときに、プログラム命令はさらに、1つ
以上のコンピュータに、1つ以上のデータブロックの1つのデータに向けられたクエリを
受け取ることと、クエリを受け取ることに応じて、リモートキー値記憶システムのアクセ
スキーとして1つ以上のブロックの1つの一意の識別子を使用して、リモートキー値記憶
システムの1つ以上のデータブロックの1つのバックアップコピーにアクセスすることと
、を行わせる、付記14に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
18.コンピューティングシステムであって、それぞれが少なくとも1つのプロセッサ
およびメモリを備える、1つ以上のコンピューティングノードであって、集合的にデータ
ベースサービスを実現するように構成される、1つ以上のコンピューティングノードと、
リモートキー値記憶システムへのインターフェースと、を備え、データベースサービスは
、データベースサービスの1人以上の加入者に代わって、データを維持するように構成さ
れ、1つ以上のコンピューティングノードは、1人以上の加入者に代わって維持されるデ
ータを、1つ以上の記憶デバイス上の複数の物理データブロックに記憶するように構成さ
れ、複数の物理データブロックのそれぞれは、一意の識別子と関連付けられ、データベー
スサービスは、1人以上の加入者に代わって維持されるデータのバックアップ動作を行う
ように構成され、バックアップ動作を行うために、データベースサービスは、リモートキ
ー値記憶システムに、インターフェースを介して、リモートキー値記憶システムに記憶す
るための複数の物理データブロックのそれぞれのコピー、およびリモートキー値記憶シス
テムの複数の物理データブロックのコピーのアクセスキーとして使用される複数の物理デ
ータブロックのそれぞれと関連付けられる一意の識別子を送るように構成される、コンピ
ューティングシステム。
19.1つ以上のコンピューティングノードは、1つ以上のクエリマップ、および1人
以上の加入者に代わって維持されるデータと、データが1つ以上のコンピューティングノ
ード上のデータベースサービスによって記憶される場所との間のマッピングを維持するよ
うに構成され、先頭ノードを備える、付記18に記載のコンピューティングシステム。
20.バックアップ動作を行うことに続いて、データベースサービスは、復元動作を行
うように構成され、復元動作を行うために、データベースサービスは、リモートキー値記
憶システムから、インターフェースを介して、リモートキー値記憶システムの複数の物理
データブロックのコピーのアクセスキーとして、複数の物理データブロックのそれぞれと
関連付けられる一意の識別子を使用して、複数の物理データブロックのそれぞれのコピー
を取り出すように構成され、復元動作を行っている間に、データベースサービスはさらに
、1人以上の加入者に代わって維持されるデータに向けられたクエリ要求を受け付け、サ
ービスするように構成される、付記18に記載のコンピューティングシステム。
21.1人以上の加入者に代わって維持されるデータに向けられたクエリ要求をサービ
スするために、データベースサービスは、復元動作の完了前に、リモートキー値記憶シス
テムから、クエリ要求によってターゲットにされたデータの少なくともいくつかを取り出
すように構成される、付記20に記載のコンピューティングシステム。
22.リモートキー値記憶システムは、複製、パリティ、消失訂正符号化、または別の
誤り訂正技法を、リモートキー値記憶システムの物理データブロックのコピーに適用する
ように構成される、付記18に記載のコンピューティングシステム。
前述したものはまた、以下の付記を考慮してより良く理解され得る。
1.方法であって、1つ以上のコンピュータによって、1人以上のクライアントに代わ
って、データベーステーブルの列データを、分散データ記憶システムの複数の物理データ
ブロックに記憶することであって、分散データ記憶システムは、1つ以上のノードのクラ
スタを備え、それぞれが、物理データブロックが記憶される1つ以上のディスクを備え、
複数の物理データブロックのそれぞれは、それぞれの一意の識別子と関連付けられ、記憶
することと、複数の物理データブロックのそれぞれのコピーを、リモートキー値持続性バ
ックアップ記憶システムに記憶することであって、複数の物理データブロックのそれぞれ
に対して、それぞれの一意の識別子は、リモートキー値持続性バックアップ記憶システム
のデータブロックにアクセスするためのキーとしての役割を果たし、記憶することと、列
データが記憶された複数の物理データブロックの2つ以上に影響を及ぼし、分散データ記
憶システムの故障を検出することと、該検出することに応じて、2つ以上の物理データブ
ロックを自動的に復元することを含み、該復元することは、2つ以上の物理データブロッ
クのそれぞれが近い将来にアクセスされるという相対的な可能性に少なくとも部分的に基
づいて、2つ以上の物理データブロックを復元する優先順序を決定することと、リモート
キー値持続性バックアップ記憶システムから、最も高い優先度を有する2つ以上の物理デ
ータブロックの1つのコピーを取り出すことであって、キー値持続性バックアップ記憶シ
ステムの2つ以上の物理データブロックの1つのコピーにアクセスするためのキーとして
、2つ以上の物理データブロックの1つと関連付けられるそれぞれの一意の識別子を使用
することを含む、該取り出すことと、物理データブロックの取り出されたコピーの一次コ
ピーを、分散データ記憶システムの所与のノード上の所与のディスクに書き込むことと、
所与のディスク以外の分散データ記憶システムの1つ以上のディスク上の物理データブロ
ックの取り出されたコピーの複製を開始することと、を行うことを含む、方法。
2.2つ以上の物理データブロックを復元する優先順序を該決定することは、物理デー
タブロックをターゲットにする最近のアクセス数を示し、2つ以上の物理データブロック
のそれぞれと関連付けられるそれぞれのカウント値に少なくとも部分的に基づく、付記1
に記載の方法。
3.該復元することはさらに、2つ以上の物理データブロックの1つが復元されたこと
を示すために、所与のノードに記憶された物理データブロックに関する情報を記憶するス
ーパーブロックデータ構造のエントリを更新することを含む、付記1に記載の方法。
4.決定された優先順序で、リモートキー値持続性バックアップ記憶システムから、2
つ以上の物理データブロックの1つ以外の2つ以上の物理データブロックのそれぞれのコ
ピーを取り出すことと、2つ以上の物理データブロックの1つ以外の2つ以上の物理デー
タブロックの取り出されたコピーのそれぞれの一次コピーを、分散データ記憶システムの
ディスクに書き込むことと、その一次コピーが書き込まれたディスク以外の分散データ記
憶システムの1つ以上のディスク上の2つ以上の物理データブロックの1つ以外の2つ以
上の物理データブロックの取り出されたコピーのそれぞれの複製を開始することと、をさ
らに含む、付記1に記載の方法。
5.方法であって、1つ以上のコンピュータによって、データを、1人以上のクライア
ントに代わって、データ記憶システムの複数の物理データブロックに維持することであっ
て、各物理データブロックは、一意の識別子と関連付けられ、維持することと、データ記
憶システムとは別のキー値記憶システムに記憶された2つ以上の物理データブロックのコ
ピーから、データ記憶システムの複数の物理データブロックの2つ以上に記憶されたデー
タを復元する動作を開始することと、2つ以上の物理データブロックのそれぞれのデータ
が近い将来にアクセスされるという相対的な可能性の決定に少なくとも部分的に基づいて
、復元すべき最も高い優先度のデータブロックを決定することと、最も高い優先度のデー
タブロック以外の2つ以上の物理データブロックのコピーを復元する前に、キー値記憶シ
ステムから、最も高い優先度のデータブロックのコピーをデータ記憶システムに復元する
ことと、を行うこと含む、方法。
6.本方法はさらに、複数の物理データブロックの2つ以上に影響を及ぼす、データ記
憶システムの故障を検出することを含み、データを復元する動作を該開始することは、該
検出することに応じて行われる、付記5に記載の方法。
7.本方法はさらに、クライアントから、複数の物理データブロックの2つ以上を復元
する要求を受け取ることをさらに含み、データを復元する動作を該開始することは、該受
け取ることに応じて行われる、付記5に記載の方法。
8.データ記憶システムは、1人以上のクライアントに代わって、1つ以上のデータベ
ーステーブルの列データを複数の物理データブロックに記憶し、復元すべき最も高い優先
度のデータブロックを該決定することは、1つ以上のデータベーステーブルのうちのどれ
がデータ記憶システムの中へごく最近読み込まれたのかを決定することを含む、付記5に
記載の方法。
9.データ記憶システムは、1人以上のクライアントに代わって、1つ以上のデータベ
ーステーブルの列データを複数の物理データブロックに記憶し、復元すべき最も高い優先
度のデータブロックを該決定することは、1つ以上のデータベーステーブルまたはその列
のうちのどれが最近の期間で最も頻繁にクエリされたのかを決定することを含む、付記5
に記載の方法。
10.データ記憶システムは、1人以上のクライアントに代わって、1つ以上のデータ
ベーステーブルの列データを複数の物理データブロックに記憶し、復元すべき最も高い優
先度のデータブロックを該決定することは、データ記憶システムでもはや利用できない物
理データブロックをターゲットにするクエリ要求を受け取ることに応じて、キー値記憶シ
ステムから最近取り出された物理データブロックのコピーとして同じテーブルまたは列の
データを記憶する、物理データブロックを識別することを含む、付記5に記載の方法。
11.最も高い優先度のデータブロックのコピーを該復元することは、リモートキー値
記憶システムから最も高い優先度のデータブロックのコピーを取り出すことであって、キ
ー値記憶システムで最も高い優先度のデータブロックのコピーにアクセスするためのキー
として、最も高い優先度のデータブロックと関連付けられる一意の識別子を使用すること
を含み、該取り出すことと、最も高い優先度のデータブロックの取り出されたコピーの一
次コピーをデータ記憶システムの記憶デバイスに書き込むことと、を含む、付記5に記載
の方法。
12.該書き込むことの前に、最も高い優先度のデータブロックに維持されるデータを
ターゲットにするクエリを受け取ることと、クエリを満たすことであって、クエリは、最
も高い優先度のデータブロックの取り出されたコピーのデータの少なくとも一部分を返す
ことを含み、クエリを満たすことと、をさらに含む、付記11に記載の方法。
13.最も高い優先度のデータブロックのコピーを該復元することはさらに、一次コピ
ーが書き込まれた記憶デバイス以外のデータ記憶システムの1つ以上の記憶デバイスに対
する最も高い優先度のデータブロックの複製を開始することと、を含む、付記11に記載
の方法。
14.最も高い優先度のデータブロックのコピーを該復元することはさらに、最も高い
優先度のデータブロックに記憶されたデータを、キー値記憶システムからデータ記憶シス
テムに復元し、一方で、1人以上のクライアントに代わって、維持されるデータに向けら
れたクエリを受け付け、サービスすることを含む、付記5に記載の方法。
15.復元すべき最も高い優先度のデータブロックを該決定することは、複数の物理デ
ータブロックをターゲットにする以前のクエリによるアクセスの履歴パターンに少なくと
も部分的に基づく、付記5に記載の方法。
16.該復元することは、バックグラウンドプロセスによって行われ、本方法はさらに
、バックグラウンドプロセスが該復元することを行う間に、フォアグラウンドプロセスが
、1人以上のクライアントに代わって維持されるデータに向けられた1つ以上のクエリを
受け取ることと、フォアグラウンドプロセスが、1つ以上のクエリをサービスすることと
を含む、付記5に記載の方法。
17.本方法はさらに、データ記憶システムでもはや利用できない2つ以上の物理デー
タブロックで以前に維持されたデータをターゲットにするクエリを受け取ることを含み、
データを復元する動作を該開始することは、該受け取ることに応じて行われる、付記5に
記載の方法。
18.コンピューティングシステムであって、それぞれが少なくとも1つのプロセッサ
およびメモリを備える、1つ以上のコンピューティングノードであって、集合的にデータ
ベースサービスを実現するように構成される、1つ以上のコンピューティングノードと、
リモートキー値記憶システムへのインターフェースと、を備え、データベースサービスは
、データを、データベースサービスの1人以上の加入者に代わって、1つ以上の記憶デバ
イス上の複数の物理データブロックに記憶し、複数の物理データブロックのそれぞれが一
意の識別子と関連付けられ、1人以上の加入者に代わって記憶されたデータをバックアッ
プし、データをバックアップするために、データベースサービスが、リモートキー値記憶
システムに、インターフェースを介して、リモートキー値記憶システムに記憶するための
複数の物理データブロックのそれぞれのコピー、およびリモートキー値記憶システムの複
数の物理データブロックのコピーのアクセスキーとして使用される複数の物理データブロ
ックのそれぞれと関連付けられる一意の識別子を送るように構成され、複数の物理データ
ブロックの2つ以上に対する復元動作をトリガーする条件またはイベントを検出し、複数
の物理データブロックの2つ以上のそれぞれが近い将来にアクセスされるという相対的な
可能性に少なくとも部分的に基づいて、複数の物理データブロックの2つ以上を復元する
順序を決定し、そして、決定された順序で、複数の物理データブロックの2つ以上を復元
するように構成される、コンピューティングシステム。
19.複数の物理データブロックの2つ以上を復元する順序を決定するために、データ
ベースサービスは、複数の物理データブロックの2つ以上のそれぞれがどのくらい最近に
クエリのターゲットであったのかを決定するように構成される、付記18に記載のコンピ
ューティングシステム。
20.複数の物理データブロックの2つ以上を復元する順序を決定するために、データ
ベースサービスは、複数の物理データブロックの2つ以上のそれぞれがどのくらい最近に
書き込まれたのかを決定するように構成される、付記18に記載のコンピューティングシ
ステム。
21.複数の物理データブロックの2つ以上を復元する順序を決定するために、データ
ベースサービスは、複数の物理データブロックの2つ以上のそれぞれがどのくらい最近に
バックアップされたのかを決定するように構成される、付記18に記載のコンピューティ
ングシステム。
22.プログラム命令を記憶する非一時的なコンピュータ読み出し可能な記憶媒体であ
って、該命令は、1つ以上のコンピュータ上で実行されたときに、1つ以上のコンピュー
タに、データを、1人以上のクライアントに代わって、データ記憶システムの複数の物理
データブロックに維持することであって、各物理データブロックは、一意の識別子と関連
付けられ、維持することと、所定の期間中に、複数の物理データブロックの所与の1つの
データをターゲットにするクエリを受け取ることと、クエリをサービスすることであって
、複数の物理データブロックの所与の1つにアクセスすることを含み、クエリをサービス
することと、複数の物理データブロックの所与の1つと関連付けられるカウンタを増加さ
せることであって、カウンタの値は、複数の物理データブロックが所定の期間内にアクセ
スされた回数を示し、カウンタを増加させることと、複数の物理データブロックの所与の
1つを含む複数の物理データブロックの2つ以上を復元する動作を開始することと、複数
の物理データブロックの所与の1つと関連付けられるカウンタの値、および複数の物理デ
ータブロックの所与の1つ以外の複数の物理データブロックの2つ以上のそれぞれと関連
付けられるそれぞれのカウンタの値に少なくとも部分的に基づいて、複数の物理データブ
ロックの2つ以上を復元する順序を決定することと、を行わせることを含む、非一時的な
コンピュータ読み出し可能な記憶媒体。
23.複数の物理データブロックの2つ以上を復元する順序を該決定することはさらに
、複数の物理データブロックのそれぞれと関連付けられる別のそれぞれのカウンタの値に
依存し、複数の物理データブロックのそれぞれと関連付けられる他のそれぞれのカウンタ
の値は、物理データブロックが以前の所定の期間内に評価された回数を示す、付記22に
記載の非一時的なコンピュータ読み出し可能な記憶媒体。
24.複数の物理データブロックの2つ以上を復元する順序を該決定することは、複数
の物理データブロックの2つ以上のそれぞれと関連付けられ、それぞれのカウンタの値お
よび他のそれぞれのカウンタの値の論理的または数学的組み合わせを表す値を計算するこ
とを含む、付記23に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
前述のものはまた、以下の付記を考慮してより良く理解され得る。
1.方法であって、1つ以上のコンピュータによって、1人以上のクライアントに代わ
って、データベーステーブルの列データを、分散データ記憶システムの複数の物理データ
ブロックに記憶することであって、分散データ記憶システムは、1つ以上のノードのクラ
スタを備え、それぞれが、物理データブロックが記憶される1つ以上のディスクを備え、
複数の物理データブロックのそれぞれは、それぞれの一意の識別子と関連付けられ、列デ
ータを該記憶することは、列データの各部分の2つ以上のコピーを分散データ記憶システ
ムの異なる物理データブロックに記憶することを含み、記憶することと、複数の物理デー
タブロックのそれぞれのバックアップコピーをリモートキー値持続性バックアップ記憶シ
ステムに記憶することであって、複数の物理データブロックのそれぞれに対して、それぞ
れの一意の識別子が、リモートキー値持続性バックアップ記憶システムのデータブロック
にアクセスするためのキーとしての役割を果たし、記憶することと、クライアントから、
分散データ記憶システムに記憶された列データの一部分に向けられたクエリを受け取るこ
とと、該受け取ることに応じて、列データの一部分のコピーが記憶される分散データ記憶
システムの複数の物理データブロックの1つにアクセスすることと、整合性チェックを複
数の物理データブロックの1つに適用することと、該適用することに少なくとも部分的に
基づいて、複数の物理データブロックの1つのデータが、破損している、または複数の物
理データブロックの他のものと一致しないと判定することと、リモートキー値持続性バッ
クアップ記憶システムに記憶された複数の物理データブロックの1つのバックアップコピ
ーを自動的に取り出すことであって、リモートキー値持続性バックアップ記憶システムの
複数の物理データブロックの1つのバックアップコピーにアクセスするためのキーとして
、1つ以上のブロックの1つの一意の識別子を使用することを含む、該取り出すことと、
クエリを満たすことであって、複数の物理データブロックの1つの取り出されたバックア
ップコピーのデータの少なくとも一部分をクライアントに返すことを含む、該クエリを満
たすことと、を含む、方法。
2.列データを該記憶することは、列データの各部分の1つの一次コピーおよび1つ以
上の二次コピーを記憶することを含み、複数の物理データブロックの1つに該アクセスす
ることは、列データの一部分の一次コピーが記憶されるデータブロックが、破損している
か、または複数の物理データブロックの他のものと一致しないことに応じて、列データの
一部分の二次コピーが記憶されるデータブロックにアクセスすることを含む、付記1に記
載の方法。
3.複数の物理データブロックの1つのバックアップコピーを該取り出すことは、キー
値持続性バックアップ記憶システムから、複数の物理データブロックの1つのバックアッ
プコピーに記憶されたデータを、分散データ記憶システムのシステムメモリにコピーする
ことを含み、一方で、別個のバックグラウンドプロセスは、キー値持続性バックアップ記
憶システムから、物理データブロックの1つ以上のバックアップコピーを、分散データ記
憶システムのノードのクラスタの1つ以上のディスクにコピーする、付記1に記載の方法
4.複数の物理データブロックの1つのバックアップコピーを該取り出すことの後に、
分散データ記憶システムの複数の物理データブロックの1つを復元する動作を開始するこ
とをさらに含み、複数の物理データブロックの1つを復元することは、複数の物理データ
ブロックの1つのバックアップコピーの列データの一部分の1つの一次コピーおよび1つ
以上の二次コピーを、分散データ記憶システムのノードのクラスタの1つ以上のディスク
に記憶することを含む、付記1に記載の方法。
5.方法であって、1つ以上のコンピュータによって、データを、1人以上のクライア
ントに代わって、データ記憶システムの複数の物理データブロックに維持することと、デ
ータの一部分に向けられた読み出しまたは書き込み要求を受け取ることと、該受け取るこ
とに応じて、データの一部分の整合し、かつ破損していないコピーがデータ記憶システム
で利用できないと判定することと、データの一部分の整合し、かつ破損していないコピー
がデータ記憶システムで利用できないと判定することに応じて、データ記憶システムとは
別個で別のキー値記憶システムから、データの一部分のバックアップコピーを自動的に取
り出すことと、データの一部分の取り出されたバックアップコピーのデータを含む読み出
しまたは書き込み要求に対する応答を返すことと、を含む、方法。
6.該決定することは、データの一部分の一次コピーまたは二次コピーの場所を特定す
るために、1人以上のクライアントに代わって維持されるデータの各部分のそれぞれのコ
ピーが物理データブロックに記憶される1つ以上の場所を示す情報を格納するデータ構造
にアクセスすることを含む、付記5に記載の方法。
7.データの一部分の整合し、かつ破損していないコピーがデータ記憶システムで利用
可能でないと該判定することは、データの一部分のコピーが以前に破損し、まだ復元され
ていないと判定することを含む、付記5に記載の方法。
8.データの一部分の整合し、かつ破損していないコピーがデータ記憶システムで利用
可能でないと該判定することは、データの一部分のコピーが記憶されたノードまたはディ
スクが故障し、故障したノードまたはディスクに記憶されたデータがまだ復元されていな
いと判定することを含む、付記5に記載の方法。
9.該決定することは、整合性チェックを、データの一部分の一次コピーが記憶される
物理データブロックに適用することを含む、付記5に記載の方法。
10.該決定することは、該適用することに少なくとも部分的に基づいて、データの一
部分の一次コピーが破損している、または複数の物理データブロックの他のものと一致し
ないと判定することと、整合性チェックをデータの一部分の二次コピーが記憶される物理
データブロックに適用することと、を含む、付記9に記載の方法。
11.1人以上のクライアントに代わってデータがデータ記憶システムに維持される各
物理データブロックは、一意の識別子と関連付けられ、データの一部分のバックアップコ
ピーを自動的に取り出すことは、データの一部分がキー値記憶システムのデータ記憶シス
テムに記憶された物理データブロックのバックアップコピーにアクセスするためのキーと
して、データの一部分がデータ記憶システムに記憶された物理データブロックと関連付け
られるそれぞれの一意の識別子を使用することを含む、付記5に記載の方法。
12.読み出しまたは書き込み要求を該受け取る前に、1人以上のクライアントに代わ
ってデータがデータ記憶システムに維持される複数の物理データブロックの少なくともい
くつかをバックアップすることをさらに含み、該バックアップすることは、複数の物理デ
ータブロックの少なくともいくつかのそれぞれに対して、キー値記憶システムに、物理デ
ータブロックのコピー、およびリモートキー値記憶システムの物理データブロックのバッ
クアップコピーを取り出すためのアクセスキーとして使用される物理データブロックと関
連付けられる一意の識別子を送ることを含む、付記5に記載の方法。
13.1人以上のクライアントに代わってデータ記憶システムにデータが維持される複
数の物理データブロックのそれぞれに対して、データが最初に物理データブロックに書き
込まれたときに、物理データブロックと関連付けられる一意の識別子を発生させることを
さらに含む、付記5に記載の方法。
14.1人以上のクライアントに代わってデータ記憶システムに維持されるデータの別
の部分に向けられた別の読み出しまたは書き込み要求を受け取ることと、他の読み出しま
たは書き込み要求を受け取ることに応じて、データの他の部分の整合し、かつ破損してい
ないコピーがデータ記憶システムで利用できると判定することと、データの他の一部分の
整合し、かつ破損していないコピーがデータ記憶システムで利用できると判定することに
応じて、データ記憶システムのデータの他の部分の整合し、かつ破損していないコピーの
データを含む他の読み出しまたは書き込み要求に対する応答を返すことと、をさらに含む
、付記5に記載の方法。
15.1人以上のクライアントに代わってデータ記憶システムに維持されるデータの別
の部分に向けられた別の読み出しまたは書き込み要求を受け取ることと、他の読み出しま
たは書き込み要求を受け取ることに応じて、データ記憶システムのデータの他の部分の一
次コピーが整合し、かつ破損していないと判定することと、データ記憶システムのデータ
の他の部分の一次コピーが破損している、または複数の物理データブロックの他のものと
一致しないと判定することに応じて、データ記憶システムのデータの他の部分の二次コピ
ーにアクセスすることと、データ記憶システムのデータの他の部分の二次コピーが整合し
、かつ破損していないと判定することと、データ記憶システムのデータの他の部分の二次
コピーが整合し、かつ破損していないと判定することに応じて、データ記憶システムのデ
ータの他の部分の二次コピーのデータを含む他の読み出しまたは書き込み要求に対する応
答を返すことと、をさらに含む、付記5に記載の方法。
16.コンピューティングシステムであって、それぞれが少なくとも1つのプロセッサ
およびメモリを備える、1つ以上のコンピューティングノードであって、集合的にデータ
ベースサービスを実現するように構成される、1つ以上のコンピューティングノードと、
リモートキー値記憶システムへのインターフェースと、を備え、データベースサービスは
、1人以上の加入者に代わって、データを1つ以上の記憶デバイス上の複数の物理データ
ブロックのデータベースサービスに記憶し、複数の物理データブロックのそれぞれは、一
意の識別子と関連付けられ、1人以上の加入者に代わって記憶されたデータをバックアッ
プし、データをバックアップするために、データベースサービスは、リモートキー値記憶
システムに、インターフェースを介して、リモートキー値記憶システムに記憶するための
複数の物理データブロックのそれぞれのコピー、およびリモートキー値記憶システムの複
数の物理データブロックのバックアップコピーを取り出すためのアクセスキーとして使用
される複数の物理データブロックのそれぞれと関連付けられる一意の識別子を送るように
構成され、データの一部分に向けられたクエリを受け取り、該受け取ることに応じて、デ
ータの一部分の整合し、かつ破損していないコピーが、1つ以上のコンピューティングノ
ード上で利用できないと判定し、データの一部分の整合し、かつ破損していないコピーが
、1つ以上のコンピューティングノード上で利用できないと判定することに応じて、キー
値記憶システムの複数の物理データブロックの1つのバックアップコピーにアクセスする
ためのキーとして、データの一部分が1つ以上のコンピューティングノードに記憶された
複数の物理データブロックの1つの一意の識別子を使用して、キー値記憶システムからデ
ータの一部分のバックアップコピーを自動的に取り出し、データの一部分の取り出された
バックアップコピーのデータを含むクエリ応答を返すように構成される、コンピューティ
ングシステム。
17.データの一部分の整合し、かつ破損していないコピーが、1つ以上のコンピュー
ティングノード上で利用できないと判定することは、1つ以上のコンピューティングノー
ドのどれがデータの一部分の一次コピーを記憶するのかを決定することを含む、付記16
に記載のコンピューティングシステム。
18.データの一部分の整合し、かつ破損していないコピーが、1つ以上のコンピュー
ティングノード上で利用できないと判定することは、1つ以上のコンピューティングノー
ドのどれがデータの一部分の二次コピーを記憶するのかを決定することを含む、付記16
に記載のコンピューティングシステム。
19.プログラム命令を記憶する非一時的なコンピュータ読み出し可能な記憶媒体であ
って、該命令は、1つ以上のコンピュータ上で実行されたときに、1つ以上のコンピュー
タに、1つ以上のコンピューティングノードのクラスタに以前に記憶された複数のデータ
ブロックの所与の1つをターゲットにするクライアントから、クエリを受け取ることと、
所与のデータブロックの整合し、かつ破損していないコピーがクラスタで利用できないと
判定することと、所与のデータブロックの整合し、かつ破損していないコピーがクラスタ
で利用できないと判定することに応じて、所与のデータブロックを復元する動作を自動的
に開始することであって、該開始することは、キー値記憶システムから所与のデータブロ
ックのコピーを取り出すことを含み、所与のデータブロックのコピーは、所与のデータブ
ロックと関連付けられる一意の識別子によって、キー値記憶システムにおいてインデック
スを付けられ、開始することと、所与のデータブロックのコピーのデータの少なくとも一
部分をクライアントに返すことと、を含む、非一時的なコンピュータ読み出し可能な記憶
媒体。
20.1つ以上のコンピュータ上で実行されたときに、プログラム命令はさらに、1つ
以上のコンピュータに、キー値記憶システムから所与のデータブロックのコピーを該取り
出すことの後に、所与のデータブロックの一次コピーとして、所与のデータブロックの取
り出されたコピーのデータを2つ以上のコンピューティングノードの1つにコピーするこ
とを行わせる、付記19に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
21.1つ以上のコンピュータ上で実行されたときに、プログラム命令はさらに、1つ
以上のコンピュータに、キー値記憶システムから所与のデータブロックのコピーを該取り
出すことの後に、所与のデータブロックの二次コピーとして、所与のデータブロックの取
り出されたコピーのデータを2つ以上のコンピューティングノードの別の1つにコピーす
ることを行わせる、付記20に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
22.1つ以上のコンピュータ上で実行されたときに、プログラム命令はさらに、1つ
以上のコンピュータに、所与のデータブロックの一次コピーとして、所与のデータブロッ
クの取り出されたコピーのデータを2つ以上のコンピューティングノードの1つに該コピ
ーすることの後に、所与のデータブロックの一次コピーが2つ以上のコンピューティング
ノードの1つに書き込まれたことを示すために、2つ以上のコンピューティングノードの
1つに記憶された物理データブロックに関する情報を記憶するデータ構造を更新すること
を行わせる、付記20に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
23.復元動作を該自動的に開始することは、クラスタに記憶されたデータブロックを
ターゲットにするクエリ要求を受け取り、サービスするフォアグラウンドプロセスによっ
て行われ、1つ以上のコンピュータによって実行されたときに、プログラム命令はさらに
、1つ以上のコンピュータに、バックグラウンドプロセスとして、クラスタに以前に記憶
された複数のデータブロックの2つ以上の他のものに対する復元動作を開始することを行
わせる、付記19に記載の非一時的なコンピュータ読み出し可能な記憶媒体。
24.1つ以上のコンピュータ上で実行されたときに、プログラム命令はさらに、1つ
以上のコンピュータに、ファイルまたはデータ構造において、復元動作と関連付けられる
情報をロギングすることであって、該情報は、クラスタで利用できない所与のデータブロ
ックの整合し、かつ破損していないコピーをもたらした2つ以上のコンピューティングノ
ードの1つの故障の指示、復元動作の開始をトリガーした条件またはイベントの指示、ま
たは復元動作が行われなかったという指示を含む、ロギングすることと、該ロギングする
ことの後に、複数の復元動作と関連付けられる情報を取り出すために、ファイルまたはデ
ータ構造にアクセスすることと、故障解析動作、傾向解析動作、または維持動作の一部と
して複数の復元動作と関連付けられる情報を解析することと、を行わせる、付記19に記
載の非一時的なコンピュータ読み出し可能な記憶媒体。
図面で図示され、本明細書で説明される様々な方法は、例示的な方法の実施形態を表す
。それらの方法は、ソフトウェアで、ハードウェアで、またはそれらの組み合わせで人手
によって実現され得る。任意の方法の順序は、変更され得、また、種々の要素の追加、並
べ替え、組み合わせ、省略、修正等が行われ得る。
上述した実施形態は、かなり詳細に説明したが、上述の開示を完全に理解すれば、当業
者には数多くの変形例および修正例が明らかになってくるであろう。以下の特許請求の範
囲が、全てのそのような修正および変更を含むと解釈され、故に、上の説明が、限定的感
覚ではなく、例示的感覚であるとみなされることが意図される。

Claims (15)

  1. 方法であって、
    1つ以上のコンピュータによって、
    データを、1人以上のクライアントに代わって、データ記憶システムの複数の物理データブロックに維持することと、
    前記データの一部分にアクセスする要求を受け取ることと、
    前記受け取ることに応答して、
    前記データの前記一部分の破損していないコピーが前記データ記憶システムで利用できないと判定することと、
    前記データの前記一部分の前記破損していないコピーが前記データ記憶システムで利用できないと判定することに応じて、前記データ記憶システムとは別個であるキー値記憶システムから前記データの前記一部分のバックアップコピーを取り出すことであって、前記キー値記憶システムは、前記データ記憶システムとは異なるデータ記憶フォーマットを用いることと、
    前記データの前記一部分の破損しコピーを復元する動作中の前記要求に対する応答を返すことであって、前記応答は、前記データの前記一部分の前記取り出されたバックアップコピーを含むことと、
    を行うことを含む、方法。
  2. 前記定することの後に
    前記1人以上のクライアントに代わって維持される前記データの各部分のそれぞれのコピーが物理データブロック内のそこに記憶される1つ以上の記憶場所を示す情報を記憶するデータ構造にアクセスすることと、
    前記データ構造を用いて、前記データの前記一部分の一次コピーまたは二次コピーの少なくとも一方を特定することと、
    行うことをさらに含む、請求項1に記載の方法。
  3. 前記データの前記一部分の前記破損していないコピーが前記データ記憶システムで利用可能でないと判定することは、前記データの前記一部分のコピーが以前に破損し、およびまだ復元されていないと判定することを含む、請求項1に記載の方法。
  4. 前記データの前記一部分の前記破損していないコピーが前記データ記憶システムで利用可能でないと判定することは、前記データの前記一部分のコピーがそこに記憶されたノードまたはディスクが故障したこと、および前記ノードまたは前記ディスクに記憶された前記データがまだ復元されていないと判定することを含む、請求項1に記載の方法。
  5. 前記定することは、整合性チェックを、前記データの前記一部分の一次コピーが記憶される物理データブロックに適用することを含む、請求項1に記載の方法。
  6. 前記定することは、前記適用することに少なくとも部分的に基づいて、前記データの前記一部分の前記一次コピーが既に破損していると、または、一つ以上の他の物理データブロックと一致しないと判定することと、
    整合性チェックを、前記データの前記一部分の二次コピーが記憶されている物理データブロックに適用することと、
    をさらに含む、請求項5に記載の方法。
  7. データが維持される各物理データブロックが、一意の識別子と関連付けられ、
    前記データの前記一部分の前記バックアップコピーを取り出すことは、前記データの前記一部分が前記データ記憶システムに記憶された前記物理データブロックと関連付けられた前記各一意の識別子を、前記データの前記一部分が、前記キー値記憶システムの前記データ記憶システムに記憶された前記物理データブロックの前記バックアップコピーにアクセスするためのキーとして用いることを含む、請求項1に記載の方法。
  8. 前記要求を受け取る前に、1人以上のクライアントに代わって、前記データが前記データ記憶システムに維持される前記複数の物理データブロックのうちの少なくともいくつかをバックアップすることであって、前記バックアップすることが、前記複数の物理データブロックの少なくともいくつかの各々に対して、
    前記キー値記憶システムに、物理データブロックのコピーと、前記ー値記憶システムの前記物理データブロックのバックアップコピーを取り出すためのアクセスキーとして使用される前記物理データブロックと関連付けられる一意の識別子とを送ることを含むことをさらに含む、請求項1に記載の方法。
  9. 前記1人以上のクライアントに代わって、記データが前記データ記憶システムに維持される前記複数の物理データブロックの各々に対して、
    物理データブロックに関連付けられる一意の識別子を発生させることであって、前記一意の識別子は、データが前記物理データブロックに書き込まれたときに発生されることをさらに含む、請求項1に記載の方法。
  10. 前記1人以上のクライアントに代わって、前記データ記憶システムに維持される前記データの別の部分にアクセスする別の要求を受け取ることと、
    前記の要求を受け取ることに応答して、
    前記データの前記の部分の破損していないコピーが前記データ記憶システムで利用可能であると判定することと、
    前記データの前記の部分の前記破損していないコピーが前記データ記憶システムで利用可能であると判定することに応じて、前記の要求に対する応答を返すことであって、前記の要求に対する応答は、前記データ記憶システムの前記データの前記の部分の前記破損していないコピーを含むことと、
    をさらに含む、請求項1に記載の方法。
  11. 前記1人以上のクライアントに代わって、前記データ記憶システムに維持される前記データの別の部分にアクセスする別の要求を受け取ることと、
    前記の要求を受け取ることに応答して、
    前記データ記憶システムの前記データの前記の部分の一次コピーが破損されたか、または前記複数の物理データブロックのうちの他のブロックと一致しないと判定することに応じて、
    前記データ記憶システムの前記データの前記の部分の二次コピーにアクセスすることと、
    前記データ記憶システムの前記データの前記の部分の前記二次コピーが破損されると判定することに応じて、前記の要求に対する応答を返すことであって、前記の要求に対する前記応答が、前記データ記憶システムの前記データの前記の部分の前記二次コピーを含むことと、
    をさらに含む、請求項1に記載の方法。
  12. コンピューティングシステムであって、
    各々が、少なくとも一つのプロセッサおよびメモリを備える一つ以上のコンピューティングノードであって、前記一つ以上のコンピューティングノードは、集合的にデータベースサービスを実現するように構成される、一つ以上のコンピューティングノードと、
    リモートキー値記憶システムへのインターフェースと、
    を備え、前記データベースサービスは、
    前記データベースサービスへの1人以上の加入者に代わって、データを、一つ以上の記憶デバイス上の複数の物理データブロックに記憶するように構成され、前記複数の物理データブロックの各々は、一意の識別子と関連付けられ、前記リモートキー値記憶システムは、前記一つ以上の記憶デバイスとは異なるデータ記憶フォーマットを用い、
    前記1人以上の加入者に代わって記憶された前記データをバックアップするように構成され、前記データをバックアップするために、前記データベースサービスは、前記インターフェースを介して前記リモートキー値記憶システムに、前記リモートキー値記憶システムへの記憶のための前記複数の物理データブロックの各々のコピーを送るように構成され、前記複数の物理データブロックに関連付けられた前記一意の識別子は、前記リモートキー値記憶システムの前記複数の物理データブロックのバックアップコピーを取り出すためのアクセスキーであり、
    前記データの一部分に向けられたクエリを受け取るように構成され、
    前記受け取ることに応答して、
    前記データの前記一部分の破損していないコピーが前記一つ以上の記憶デバイス上で利用可能でないと判定するように構成され、
    前記データの前記一部分の前記破損していないコピーが前記一つ以上の記憶デバイス上で利用可能でないと判定することに応答して、前記データの前記一部分のバックアップコピーを、前記一つ以上の記憶デバイスとは異なるデータ記憶フォーマットを用いる前記リモートキー値記憶システムから取り出すように構成され、前記取り出すことは、前記複数の物理データブロックのための前記一意の識別子を、前記リモートキー値記憶システムの前記複数の物理データブロックのうちの一つの前記バックアップコピーにアクセスするためのキーとして使用し、
    前記データの前記一部分の破損したコピーを復元する動作中に、前記データの前記一部分の前記取り出したバックアップコピーを含むクエリ応答を返すように構成される、コンピューティングシステム。
  13. 前記データの前記一部分の前記破損していないコピーが前記一つ以上の記憶デバイス上で利用可能ではないと判定することは、前記一つ以上の記憶デバイスのうちのどれが、前記データの前記一部分の一次コピーを記憶するかを決定することを含む、請求項12に記載のコンピューティングシステム
  14. 前記データの前記一部分の前記破損していないコピーが前記一つ以上の記憶デバイス上で利用可能ではないと判定することは、前記一つ以上の記憶デバイスのうちのどれが、前記データの前記一部分の二次コピーを記憶するかを決定することを含む、請求項12に記載のコンピューティングシステム
  15. 1つ以上のコンピュータ上で実行される場合に、前記1つ以上のコンピュータに、
    クライアントからクエリを受け取ることであって、前記クエリが、コンピューティングノードのクラスタに以前に記憶された複数の物理データブロックのうちの一つのデータブロックをターゲットにすることと、
    前記データブロックの整合し、かつ破損していないコピーが前記クラスタで利用できないと判定することと、
    前記データブロックの前記整合し、かつ破損していないコピーが前記クラスタで利用できないと判定することに応答して、
    前記クラスタへの前記データブロックを復元する動作を、前記データブロックのコピーをキー値記憶システムから取り出すことによって開始することであって、前記クラスタは、前記キー値記憶システムとは異なるデータ記憶フォーマットをサポートし、前記データブロックの前記コピーは、前記データブロックに関連付けられた一意の識別子によって、前記キー値記憶システムにおいてインデックスを付けられることと、
    前記データブロックを復元する動作中に、前記データブロックの前記コピーの少なくとも一部分を前記クライアントに返すことと、
    を行わせるプログラム命令を記憶する非一時的なコンピュータ可読記憶媒体。
JP2017230136A 2012-11-26 2017-11-30 バックアップシステムからのデータベースのストリーミング復元 Active JP6514306B2 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201261730024P 2012-11-26 2012-11-26
US61/730,024 2012-11-26
US13/792,671 2013-03-11
US13/792,643 2013-03-11
US13/792,914 2013-03-11
US13/792,671 US9449039B2 (en) 2012-11-26 2013-03-11 Automatic repair of corrupted blocks in a database
US13/792,914 US9449040B2 (en) 2012-11-26 2013-03-11 Block restore ordering in a streaming restore system
US13/792,643 US9449038B2 (en) 2012-11-26 2013-03-11 Streaming restore of a database from a backup system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015544174A Division JP6254606B2 (ja) 2012-11-26 2013-11-25 バックアップシステムからのデータベースのストリーミング復元

Publications (2)

Publication Number Publication Date
JP2018055710A JP2018055710A (ja) 2018-04-05
JP6514306B2 true JP6514306B2 (ja) 2019-05-15

Family

ID=50774155

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2015544174A Active JP6254606B2 (ja) 2012-11-26 2013-11-25 バックアップシステムからのデータベースのストリーミング復元
JP2017230131A Active JP6412632B2 (ja) 2012-11-26 2017-11-30 バックアップシステムからのデータベースのストリーミング復元
JP2017230136A Active JP6514306B2 (ja) 2012-11-26 2017-11-30 バックアップシステムからのデータベースのストリーミング復元

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2015544174A Active JP6254606B2 (ja) 2012-11-26 2013-11-25 バックアップシステムからのデータベースのストリーミング復元
JP2017230131A Active JP6412632B2 (ja) 2012-11-26 2017-11-30 バックアップシステムからのデータベースのストリーミング復元

Country Status (8)

Country Link
US (5) US9449039B2 (ja)
EP (1) EP2923263B1 (ja)
JP (3) JP6254606B2 (ja)
CN (3) CN107844388B (ja)
AU (2) AU2013347798B2 (ja)
CA (1) CA2892852C (ja)
SG (2) SG10201610194QA (ja)
WO (1) WO2014082043A2 (ja)

Families Citing this family (209)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671265B2 (en) 2010-03-05 2014-03-11 Solidfire, Inc. Distributed data storage system providing de-duplication of data using block identifiers
US9838269B2 (en) 2011-12-27 2017-12-05 Netapp, Inc. Proportional quality of service based on client usage and system metrics
US9054992B2 (en) 2011-12-27 2015-06-09 Solidfire, Inc. Quality of service policy sets
US9449039B2 (en) 2012-11-26 2016-09-20 Amazon Technologies, Inc. Automatic repair of corrupted blocks in a database
US9268808B2 (en) 2012-12-31 2016-02-23 Facebook, Inc. Placement policy
US9753980B1 (en) 2013-02-25 2017-09-05 EMC IP Holding Company LLC M X N dispatching in large scale distributed system
US20140250078A1 (en) * 2013-03-01 2014-09-04 Storagecraft Technology Corporation Multiphase deduplication
US20140280667A1 (en) * 2013-03-14 2014-09-18 International Business Machines Corporation Scalable data transfer in and out of analytics clusters
US20140280435A1 (en) * 2013-03-14 2014-09-18 International Business Machines Corporation Scalable data transfer in and out of analytics clusters
US10552342B1 (en) * 2013-03-15 2020-02-04 EMC IP Holding Company LLC Application level coordination for automated multi-tiering system in a federated environment
US10592106B2 (en) * 2013-03-20 2020-03-17 Amazon Technologies, Inc. Replication target service
US9304814B2 (en) 2013-04-30 2016-04-05 International Business Machines Corporation Determine variable wait time in an asynchronous call-back system based on calculated average sub-queue wait time
US20160110261A1 (en) * 2013-05-07 2016-04-21 Axcient, Inc. Cloud storage using merkle trees
GB2514810A (en) * 2013-06-05 2014-12-10 Ibm Rebuilding data of a storage system
US8849764B1 (en) 2013-06-13 2014-09-30 DataGravity, Inc. System and method of data intelligent storage
US10089192B2 (en) * 2013-06-13 2018-10-02 Hytrust, Inc. Live restore for a data intelligent storage system
US10102079B2 (en) 2013-06-13 2018-10-16 Hytrust, Inc. Triggering discovery points based on change
US9053216B1 (en) 2013-08-09 2015-06-09 Datto, Inc. CPU register assisted virtual machine screenshot capture timing apparatuses, methods and systems
US9607036B2 (en) * 2013-08-21 2017-03-28 International Business Machines Corporation Managing a data set
US20150074084A1 (en) * 2013-09-12 2015-03-12 Neustar, Inc. Method and system for performing query processing in a key-value store
US10614047B1 (en) 2013-09-24 2020-04-07 EMC IP Holding Company LLC Proxy-based backup and restore of hyper-V cluster shared volumes (CSV)
US9264494B2 (en) 2013-10-21 2016-02-16 International Business Machines Corporation Automated data recovery from remote data object replicas
US9715520B1 (en) 2013-12-20 2017-07-25 Amazon Technologies, Inc. Validity map-based tracking of user data updates
US9665633B2 (en) 2014-02-19 2017-05-30 Snowflake Computing, Inc. Data management systems and methods
US20150244795A1 (en) 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
US9367253B2 (en) * 2014-03-13 2016-06-14 Vmware, Inc. Catastrophic data loss avoidance
US9569108B2 (en) * 2014-05-06 2017-02-14 International Business Machines Corporation Dataset replica migration
US9672165B1 (en) * 2014-05-21 2017-06-06 Veritas Technologies Llc Data management tier coupling primary storage and secondary storage
US9594636B2 (en) 2014-05-30 2017-03-14 Datto, Inc. Management of data replication and storage apparatuses, methods and systems
US10509769B1 (en) * 2014-06-12 2019-12-17 EMC IP Holding Company LLC Method to efficiently track I/O access history
US9798754B1 (en) * 2014-06-12 2017-10-24 EMC IP Holding Company LLC Method to efficiently track I/O access history using efficient memory data structures
US10002148B2 (en) 2014-07-22 2018-06-19 Oracle International Corporation Memory-aware joins based in a database cluster
US9875259B2 (en) * 2014-07-22 2018-01-23 Oracle International Corporation Distribution of an object in volatile memory across a multi-node cluster
US10133511B2 (en) 2014-09-12 2018-11-20 Netapp, Inc Optimized segment cleaning technique
US9057508B1 (en) 2014-10-22 2015-06-16 Codeshelf Modular hanging lasers to enable real-time control in a distribution center
CN105900093B (zh) * 2014-11-12 2018-02-02 华为技术有限公司 一种KeyValue数据库的数据表的更新方法与表数据更新装置
US9836229B2 (en) 2014-11-18 2017-12-05 Netapp, Inc. N-way merge technique for updating volume metadata in a storage I/O stack
US9684689B2 (en) * 2015-02-03 2017-06-20 Ca, Inc. Distributed parallel processing system having jobs processed by nodes based on authentication using unique identification of data
US20160246522A1 (en) * 2015-02-25 2016-08-25 Netapp, Inc. Exactly once semantics
KR102306823B1 (ko) * 2015-03-11 2021-09-29 삼성전자 주식회사 무선 통신 시스템에서 면허 도움 접속 기술 활용 시 기지국의 데이터 스케쥴링을 위한 장치 및 방법
US9327397B1 (en) 2015-04-09 2016-05-03 Codeshelf Telepresence based inventory pick and place operations through robotic arms affixed to each row of a shelf
US10740290B2 (en) * 2015-04-14 2020-08-11 Jetflow Technologies Systems and methods for key-value stores
US9397985B1 (en) 2015-04-14 2016-07-19 Manifold Technology, Inc. System and method for providing a cryptographic platform for exchanging information
US9262741B1 (en) 2015-04-28 2016-02-16 Codeshelf Continuous barcode tape based inventory location tracking
CN106293492B (zh) * 2015-05-14 2021-08-20 中兴通讯股份有限公司 一种存储管理方法及分布式文件系统
US10067974B2 (en) 2015-05-29 2018-09-04 Oracle International Corporation Loading and reloading an in-memory copy of a database object without blocking concurrent updates to the database object
US9582209B2 (en) * 2015-06-24 2017-02-28 Vmware, Inc. Efficient data deployment for a parallel data processing system
US10135924B2 (en) * 2015-06-26 2018-11-20 EMC IP Holding Company LLC Computing erasure metadata and data layout prior to storage using a processing platform
US10489248B1 (en) * 2015-06-30 2019-11-26 EMC IP Holding Company LLC Disaster recovery in a distributed file system
US10740005B1 (en) * 2015-09-29 2020-08-11 EMC IP Holding Company LLC Distributed file system deployment on a data storage system
US9979785B2 (en) * 2015-09-29 2018-05-22 Veritas Technologies Llc Systems and methods for restoring data from opaque data backup streams
US10496622B2 (en) * 2015-10-09 2019-12-03 Futurewei Technologies, Inc. System and method for real-time data warehouse
US10783160B2 (en) * 2015-10-09 2020-09-22 Futurewei Technologies, Inc. System and method for scalable distributed real-time data warehouse
CN105430052B (zh) * 2015-10-30 2018-09-07 浪潮(北京)电子信息产业有限公司 一种用于集群系统的仲裁方法和装置
WO2017136527A1 (en) * 2016-02-05 2017-08-10 Manifold Technology, Inc. Blockchain-enhanced database
US10929022B2 (en) 2016-04-25 2021-02-23 Netapp. Inc. Space savings reporting for storage system supporting snapshot and clones
JP7271059B2 (ja) 2016-04-28 2023-05-11 スノーフレーク インク. マルチクラスタウェアハウス
US10346387B2 (en) 2016-06-13 2019-07-09 Sap Se Replication of log-structured data
US10671572B2 (en) * 2016-06-14 2020-06-02 Sap Se Storage of log-structured data
CN106020739A (zh) * 2016-07-12 2016-10-12 乐视控股(北京)有限公司 用于分布式存储的数据存储方法及系统
KR102529696B1 (ko) * 2016-07-14 2023-05-10 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작 방법
CN106445730B (zh) * 2016-07-22 2019-12-03 平安科技(深圳)有限公司 一种提高虚拟机性能的方法和终端
CN106294009B (zh) * 2016-08-05 2019-09-10 北京小米支付技术有限公司 数据库归档方法及系统
US20180060133A1 (en) 2016-09-01 2018-03-01 Amazon Technologies, Inc. Event-driven resource pool management
US11068352B2 (en) * 2016-09-15 2021-07-20 Oracle International Corporation Automatic disaster recovery mechanism for file-based version control system using lightweight backups
US10642763B2 (en) 2016-09-20 2020-05-05 Netapp, Inc. Quality of service policy sets
US11599541B2 (en) 2016-09-26 2023-03-07 Splunk Inc. Determining records generated by a processing task of a query
US11604795B2 (en) 2016-09-26 2023-03-14 Splunk Inc. Distributing partial results from an external data system between worker nodes
US11243963B2 (en) 2016-09-26 2022-02-08 Splunk Inc. Distributing partial results to worker nodes from an external data system
US11663227B2 (en) 2016-09-26 2023-05-30 Splunk Inc. Generating a subquery for a distinct data intake and query system
US11232100B2 (en) 2016-09-26 2022-01-25 Splunk Inc. Resource allocation for multiple datasets
US11567993B1 (en) 2016-09-26 2023-01-31 Splunk Inc. Copying buckets from a remote shared storage system to memory associated with a search node for query execution
US20180089324A1 (en) 2016-09-26 2018-03-29 Splunk Inc. Dynamic resource allocation for real-time search
US11620336B1 (en) 2016-09-26 2023-04-04 Splunk Inc. Managing and storing buckets to a remote shared storage system based on a collective bucket size
US11126632B2 (en) 2016-09-26 2021-09-21 Splunk Inc. Subquery generation based on search configuration data from an external data system
US11106734B1 (en) 2016-09-26 2021-08-31 Splunk Inc. Query execution using containerized state-free search nodes in a containerized scalable environment
US11550847B1 (en) 2016-09-26 2023-01-10 Splunk Inc. Hashing bucket identifiers to identify search nodes for efficient query execution
US10984044B1 (en) * 2016-09-26 2021-04-20 Splunk Inc. Identifying buckets for query execution using a catalog of buckets stored in a remote shared storage system
US11321321B2 (en) 2016-09-26 2022-05-03 Splunk Inc. Record expansion and reduction based on a processing task in a data intake and query system
US11615104B2 (en) 2016-09-26 2023-03-28 Splunk Inc. Subquery generation based on a data ingest estimate of an external data system
US11294941B1 (en) 2016-09-26 2022-04-05 Splunk Inc. Message-based data ingestion to a data intake and query system
US10956415B2 (en) 2016-09-26 2021-03-23 Splunk Inc. Generating a subquery for an external data system using a configuration file
US11269939B1 (en) 2016-09-26 2022-03-08 Splunk Inc. Iterative message-based data processing including streaming analytics
US11003714B1 (en) * 2016-09-26 2021-05-11 Splunk Inc. Search node and bucket identification using a search node catalog and a data store catalog
US11281706B2 (en) 2016-09-26 2022-03-22 Splunk Inc. Multi-layer partition allocation for query execution
US11874691B1 (en) 2016-09-26 2024-01-16 Splunk Inc. Managing efficient query execution including mapping of buckets to search nodes
US11163758B2 (en) 2016-09-26 2021-11-02 Splunk Inc. External dataset capability compensation
US11860940B1 (en) * 2016-09-26 2024-01-02 Splunk Inc. Identifying buckets for query execution using a catalog of buckets
US11593377B2 (en) 2016-09-26 2023-02-28 Splunk Inc. Assigning processing tasks in a data intake and query system
US10726009B2 (en) 2016-09-26 2020-07-28 Splunk Inc. Query processing using query-resource usage and node utilization data
US11586627B2 (en) 2016-09-26 2023-02-21 Splunk Inc. Partitioning and reducing records at ingest of a worker node
US10353965B2 (en) 2016-09-26 2019-07-16 Splunk Inc. Data fabric service system architecture
US11461334B2 (en) 2016-09-26 2022-10-04 Splunk Inc. Data conditioning for dataset destination
US11416528B2 (en) 2016-09-26 2022-08-16 Splunk Inc. Query acceleration data store
US11023463B2 (en) 2016-09-26 2021-06-01 Splunk Inc. Converting and modifying a subquery for an external data system
US10776355B1 (en) * 2016-09-26 2020-09-15 Splunk Inc. Managing, storing, and caching query results and partial query results for combination with additional query results
US11580107B2 (en) 2016-09-26 2023-02-14 Splunk Inc. Bucket data distribution for exporting data to worker nodes
US10977260B2 (en) * 2016-09-26 2021-04-13 Splunk Inc. Task distribution in an execution node of a distributed execution environment
US10795884B2 (en) 2016-09-26 2020-10-06 Splunk Inc. Dynamic resource allocation for common storage query
US11314753B2 (en) 2016-09-26 2022-04-26 Splunk Inc. Execution of a query received from a data intake and query system
US11442935B2 (en) 2016-09-26 2022-09-13 Splunk Inc. Determining a record generation estimate of a processing task
US11562023B1 (en) 2016-09-26 2023-01-24 Splunk Inc. Merging buckets in a data intake and query system
US11222066B1 (en) 2016-09-26 2022-01-11 Splunk Inc. Processing data using containerized state-free indexing nodes in a containerized scalable environment
US11250056B1 (en) 2016-09-26 2022-02-15 Splunk Inc. Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system
KR102104417B1 (ko) * 2016-09-28 2020-04-24 한화테크윈 주식회사 데이터 분산 저장 방법 및 시스템
US10380137B2 (en) 2016-10-11 2019-08-13 International Business Machines Corporation Technology for extensible in-memory computing
CN106528341B (zh) * 2016-11-09 2019-07-30 上海新炬网络信息技术股份有限公司 基于Greenplum数据库的自动化容灾系统
CN108228678B (zh) * 2016-12-22 2020-10-16 华为技术有限公司 一种多副本数据恢复方法及装置
CN108268565B (zh) * 2017-01-04 2020-11-03 北京京东尚科信息技术有限公司 基于数据仓库处理用户浏览行为数据的方法及系统
CN106874133B (zh) 2017-01-17 2020-06-23 北京百度网讯科技有限公司 流式计算系统中计算节点的故障处理
US10255134B2 (en) * 2017-01-20 2019-04-09 Samsung Electronics Co., Ltd. Control plane method and apparatus for providing erasure code protection across multiple storage devices
US10423601B2 (en) * 2017-03-06 2019-09-24 Sap Se Splitting tables in a distributed database
EP3593242B1 (en) 2017-03-10 2024-04-24 Visa International Service Association Techniques for in-memory data searching
US11237913B2 (en) * 2018-04-27 2022-02-01 Acronis International Gmbh System and method for data classification during file backup
US10997216B1 (en) * 2017-04-18 2021-05-04 United Services Automobile Association (Usaa) Systems and methods for centralized database cluster management
US10180801B2 (en) * 2017-05-16 2019-01-15 Veritas Technologies Llc Systems and methods for load balancing backup data
US11921672B2 (en) 2017-07-31 2024-03-05 Splunk Inc. Query execution at a remote heterogeneous data store of a data fabric service
US10652361B2 (en) 2017-08-09 2020-05-12 Open Text Corporation Systems and methods for building and providing polymorphic REST services for heterogeneous repositories
US11086559B2 (en) * 2017-09-05 2021-08-10 International Business Machines Corporation Cloud based store and restore with copy services
US10671482B2 (en) * 2017-09-12 2020-06-02 Cohesity, Inc. Providing consistency in a distributed data store
CN110019294A (zh) * 2017-09-19 2019-07-16 北京国双科技有限公司 一种数据库查询脚本的生成方法、数据库查询方法及装置
CN109542665A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 掉电恢复方法、数据写入方法及装置
US10896182B2 (en) 2017-09-25 2021-01-19 Splunk Inc. Multi-partitioning determination for combination operations
US11151137B2 (en) 2017-09-25 2021-10-19 Splunk Inc. Multi-partition operation in combination operations
WO2019089601A1 (en) * 2017-10-31 2019-05-09 Ab Initio Technology Llc Managing a computing cluster interface
CN108011929B (zh) * 2017-11-14 2020-08-25 平安科技(深圳)有限公司 数据请求处理方法、装置、计算机设备和存储介质
CN108153492B (zh) * 2017-12-22 2021-09-14 联想(北京)有限公司 数据处理方法、系统和电子设备
CN108390771B (zh) * 2018-01-25 2021-04-16 中国银联股份有限公司 一种网络拓扑重建方法和装置
US10884876B2 (en) * 2018-02-27 2021-01-05 Veritas Technologies Llc Systems and methods for performing a database backup for repairless restore
US11334543B1 (en) 2018-04-30 2022-05-17 Splunk Inc. Scalable bucket merging for a data intake and query system
WO2019222958A1 (en) 2018-05-24 2019-11-28 Alibaba Group Holding Limited System and method for flash storage management using multiple open page stripes
CN110633168A (zh) * 2018-06-22 2019-12-31 北京东土科技股份有限公司 一种分布式存储系统的数据备份方法和系统
US11816043B2 (en) 2018-06-25 2023-11-14 Alibaba Group Holding Limited System and method for managing resources of a storage device and quantifying the cost of I/O requests
CN109165117B (zh) * 2018-06-29 2022-05-31 华为技术有限公司 数据处理的方法和系统
CN109144785B (zh) * 2018-08-27 2020-07-28 北京百度网讯科技有限公司 用于备份数据的方法和装置
CN109271384A (zh) * 2018-09-06 2019-01-25 语联网(武汉)信息技术有限公司 译员行为的大数据库及其建立方法、装置与电子设备
US11327929B2 (en) 2018-09-17 2022-05-10 Alibaba Group Holding Limited Method and system for reduced data movement compression using in-storage computing and a customized file system
CN109492001B (zh) * 2018-10-15 2021-10-01 四川巧夺天工信息安全智能设备有限公司 一种分类提取access数据库中碎片数据的方法
EP3899749A1 (en) * 2018-12-21 2021-10-27 Telefonaktiebolaget LM Ericsson (publ) Performing operations based on distributedly stored data
CN111385327B (zh) * 2018-12-28 2022-06-14 阿里巴巴集团控股有限公司 数据处理方法和系统
US11061735B2 (en) 2019-01-02 2021-07-13 Alibaba Group Holding Limited System and method for offloading computation to storage nodes in distributed system
CN111400301B (zh) * 2019-01-03 2023-06-27 阿里巴巴集团控股有限公司 一种数据查询方法、装置及设备
US10929432B2 (en) * 2019-01-23 2021-02-23 EMC IP Holding Company LLC System and method for intelligent data-load balancing for backups
US20200241780A1 (en) * 2019-01-29 2020-07-30 Dell Products L.P. Method and system for inline deduplication using accelerator pools
KR102067630B1 (ko) * 2019-02-01 2020-01-17 배용대 접근 제어 기반 데이터 분산 저장 시스템 및 방법
US11151267B2 (en) * 2019-02-25 2021-10-19 International Business Machines Corporation Move data and set storage key based on key function control
US11163770B2 (en) 2019-03-19 2021-11-02 Sigma Computing, Inc. Enabling editable tables on a cloud-based data warehouse
WO2020220216A1 (en) 2019-04-29 2020-11-05 Splunk Inc. Search time estimate in data intake and query system
US11715051B1 (en) 2019-04-30 2023-08-01 Splunk Inc. Service provider instance recommendations using machine-learned classifications and reconciliation
CN110188103A (zh) * 2019-05-27 2019-08-30 深圳乐信软件技术有限公司 数据对账方法、装置、设备和存储介质
CN110399249A (zh) * 2019-06-04 2019-11-01 腾讯科技(北京)有限公司 一种数据容灾方法及相关装置
US11163468B2 (en) * 2019-07-01 2021-11-02 EMC IP Holding Company LLC Metadata compression techniques
US10860223B1 (en) 2019-07-18 2020-12-08 Alibaba Group Holding Limited Method and system for enhancing a distributed storage system by decoupling computation and network tasks
US11617282B2 (en) 2019-10-01 2023-03-28 Alibaba Group Holding Limited System and method for reshaping power budget of cabinet to facilitate improved deployment density of servers
CN110908859B (zh) * 2019-10-17 2023-05-30 平安科技(深圳)有限公司 应用服务处理方法、装置、终端及存储介质
US11494380B2 (en) 2019-10-18 2022-11-08 Splunk Inc. Management of distributed computing framework components in a data fabric service system
CN112711376B (zh) * 2019-10-25 2022-12-23 北京金山云网络技术有限公司 对象存储系统中对象主副本文件的确定方法及装置
CN110989922B (zh) * 2019-10-28 2023-05-26 烽火通信科技股份有限公司 一种分布式数据存储方法及系统
CN111124755B (zh) * 2019-12-06 2023-08-15 中国联合网络通信集团有限公司 集群节点的故障恢复方法、装置、电子设备及存储介质
CN111240897B (zh) * 2020-01-07 2023-04-14 腾讯科技(深圳)有限公司 一种数据处理方法及相关设备
US11449455B2 (en) 2020-01-15 2022-09-20 Alibaba Group Holding Limited Method and system for facilitating a high-capacity object storage system with configuration agility and mixed deployment flexibility
US11922222B1 (en) 2020-01-30 2024-03-05 Splunk Inc. Generating a modified component for a data intake and query system using an isolated execution environment image
US11061910B1 (en) * 2020-01-31 2021-07-13 Ocient Holdings LLC Servicing concurrent queries via virtual segment recovery
US11379447B2 (en) 2020-02-06 2022-07-05 Alibaba Group Holding Limited Method and system for enhancing IOPS of a hard disk drive system based on storing metadata in host volatile memory and data in non-volatile memory using a shared controller
US11386111B1 (en) * 2020-02-11 2022-07-12 Massachusetts Mutual Life Insurance Company Systems, devices, and methods for data analytics
US11567840B2 (en) 2020-03-09 2023-01-31 Rubrik, Inc. Node level recovery for clustered databases
US11449386B2 (en) 2020-03-20 2022-09-20 Alibaba Group Holding Limited Method and system for optimizing persistent memory on data retention, endurance, and performance for host memory
US11169881B2 (en) * 2020-03-30 2021-11-09 Alibaba Group Holding Limited System and method for facilitating reduction of complexity and data movement in erasure coding merging on journal and data storage drive
CN111488245A (zh) * 2020-04-14 2020-08-04 深圳市小微学苑科技有限公司 分布式存储的高级管理方法及系统
US11301173B2 (en) 2020-04-20 2022-04-12 Alibaba Group Holding Limited Method and system for facilitating evaluation of data access frequency and allocation of storage device resources
US11385833B2 (en) 2020-04-20 2022-07-12 Alibaba Group Holding Limited Method and system for facilitating a light-weight garbage collection with a reduced utilization of resources
US11281575B2 (en) 2020-05-11 2022-03-22 Alibaba Group Holding Limited Method and system for facilitating data placement and control of physical addresses with multi-queue I/O blocks
US11494115B2 (en) 2020-05-13 2022-11-08 Alibaba Group Holding Limited System method for facilitating memory media as file storage device based on real-time hashing by performing integrity check with a cyclical redundancy check (CRC)
US11461262B2 (en) 2020-05-13 2022-10-04 Alibaba Group Holding Limited Method and system for facilitating a converged computation and storage node in a distributed storage system
US11556277B2 (en) 2020-05-19 2023-01-17 Alibaba Group Holding Limited System and method for facilitating improved performance in ordering key-value storage with input/output stack simplification
US11507499B2 (en) 2020-05-19 2022-11-22 Alibaba Group Holding Limited System and method for facilitating mitigation of read/write amplification in data compression
JP2021189569A (ja) * 2020-05-26 2021-12-13 富士通株式会社 データ更新プログラム、データ更新装置及びデータ更新方法
US11263132B2 (en) 2020-06-11 2022-03-01 Alibaba Group Holding Limited Method and system for facilitating log-structure data organization
CN111698330B (zh) * 2020-06-12 2022-06-21 北京金山云网络技术有限公司 存储集群的数据恢复方法、装置及服务器
CN111666179B (zh) * 2020-06-12 2023-03-28 重庆云海时代信息技术有限公司 一种多点数据容灾的智能复制系统及服务器
US11422931B2 (en) 2020-06-17 2022-08-23 Alibaba Group Holding Limited Method and system for facilitating a physically isolated storage unit for multi-tenancy virtualization
US11354200B2 (en) 2020-06-17 2022-06-07 Alibaba Group Holding Limited Method and system for facilitating data recovery and version rollback in a storage device
US11354233B2 (en) 2020-07-27 2022-06-07 Alibaba Group Holding Limited Method and system for facilitating fast crash recovery in a storage device
CN111930748B (zh) * 2020-08-07 2023-08-08 北京百度网讯科技有限公司 流式计算系统数据追踪方法、装置、设备以及存储介质
US11288634B1 (en) * 2020-08-20 2022-03-29 Progressive Casualty Insurance Company Resource management system
US10997559B1 (en) 2020-08-20 2021-05-04 Progressive Casualty Insurance Company Resource management system
US11829952B1 (en) * 2020-08-20 2023-11-28 Progressive Casualty Insurance Company Resource management system
US11372774B2 (en) 2020-08-24 2022-06-28 Alibaba Group Holding Limited Method and system for a solid state drive with on-chip memory integration
CN112084068A (zh) * 2020-09-15 2020-12-15 苏州律点信息科技有限公司 一种数据库远程备份方法、装置和云端服务器
CN112163625B (zh) * 2020-10-06 2021-06-25 西安石油大学 基于人工智能和云计算的大数据挖掘方法及云端服务中心
US11704313B1 (en) 2020-10-19 2023-07-18 Splunk Inc. Parallel branch operation using intermediary nodes
US11544294B2 (en) 2020-12-10 2023-01-03 Sap Se Distributing tables in a distributed database using consolidated grouping sources
US11487465B2 (en) 2020-12-11 2022-11-01 Alibaba Group Holding Limited Method and system for a local storage engine collaborating with a solid state drive controller
CN112487111A (zh) * 2020-12-16 2021-03-12 江苏苏宁云计算有限公司 基于kv数据库的数据表关联方法及装置
US11734115B2 (en) 2020-12-28 2023-08-22 Alibaba Group Holding Limited Method and system for facilitating write latency reduction in a queue depth of one scenario
US11416365B2 (en) 2020-12-30 2022-08-16 Alibaba Group Holding Limited Method and system for open NAND block detection and correction in an open-channel SSD
CN113419897B (zh) * 2021-01-19 2023-12-22 阿里巴巴集团控股有限公司 一种文件处理方法、装置、电子设备及其存储介质
CN114816227A (zh) * 2021-01-29 2022-07-29 伊姆西Ip控股有限责任公司 用于数据重建的方法、设备和程序产品
US11550762B2 (en) * 2021-02-24 2023-01-10 Sap Se Implementation of data access metrics for automated physical database design
US11726699B2 (en) 2021-03-30 2023-08-15 Alibaba Singapore Holding Private Limited Method and system for facilitating multi-stream sequential read performance improvement with reduced read amplification
US11461173B1 (en) 2021-04-21 2022-10-04 Alibaba Singapore Holding Private Limited Method and system for facilitating efficient data compression based on error correction code and reorganization of data placement
US11476874B1 (en) 2021-05-14 2022-10-18 Alibaba Singapore Holding Private Limited Method and system for facilitating a storage server with hybrid memory for journaling and data storage
CN113535474B (zh) * 2021-06-30 2022-11-11 重庆紫光华山智安科技有限公司 异构云存储集群故障自动修复的方法、系统、介质及终端
US11782921B2 (en) * 2021-11-08 2023-10-10 Google Llc Columnar cache query using hybrid query execution plan
US20230244569A1 (en) * 2022-01-28 2023-08-03 Pure Storage, Inc. Recover Corrupted Data Through Speculative Bitflip And Cross-Validation
US11847031B2 (en) 2022-03-04 2023-12-19 Insight Direct Usa, Inc. Database recovery and database recovery testing
US11797393B2 (en) 2022-03-23 2023-10-24 Bank Of America Corporation Table prioritization for data copy in a multi-environment setup
US11656955B1 (en) 2022-03-23 2023-05-23 Bank Of America Corporation Database table valuation
CN115357295B (zh) * 2022-10-21 2023-03-31 荣耀终端有限公司 系统回退方法、设备及存储介质

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555404A (en) * 1992-03-17 1996-09-10 Telenor As Continuously available database server having multiple groups of nodes with minimum intersecting sets of database fragment replicas
JP3991760B2 (ja) 2002-04-26 2007-10-17 株式会社日立製作所 データベース管理方法および装置およびその処理プログラム
US7844577B2 (en) 2002-07-15 2010-11-30 Symantec Corporation System and method for maintaining a backup storage system for a computer system
US7769722B1 (en) * 2006-12-08 2010-08-03 Emc Corporation Replication and restoration of multiple data storage object types in a data network
US7412460B2 (en) 2003-06-19 2008-08-12 International Business Machines Corporation DBMS backup without suspending updates and corresponding recovery using separately stored log and data files
US20050071391A1 (en) 2003-09-29 2005-03-31 International Business Machines Corporation High availability data replication set up using external backup and restore
US7366740B2 (en) 2004-05-03 2008-04-29 Microsoft Corporation Systems and methods for automatic maintenance and repair of enitites in a data model
US7814056B2 (en) 2004-05-21 2010-10-12 Computer Associates Think, Inc. Method and apparatus for data backup using data blocks
JP4575740B2 (ja) * 2004-09-30 2010-11-04 株式会社日本デジタル研究所 仮想サーバ
JP2006134217A (ja) 2004-11-09 2006-05-25 Fujitsu Ltd ライブラリシステム,仮想ライブラリ装置,及びキャッシュ復元方法
US7636741B2 (en) 2005-08-15 2009-12-22 Microsoft Corporation Online page restore from a database mirror
US7962709B2 (en) 2005-12-19 2011-06-14 Commvault Systems, Inc. Network redirector systems and methods for performing data replication
US8589574B1 (en) 2005-12-29 2013-11-19 Amazon Technologies, Inc. Dynamic application instance discovery and state management within a distributed system
US8065273B2 (en) 2006-05-10 2011-11-22 Emc Corporation Automated priority restores
JP4757825B2 (ja) * 2007-03-23 2011-08-24 中部日本電気ソフトウェア株式会社 ファイル管理装置、プログラム、コンピュータ読み取り可能な記録媒体
US8171487B2 (en) * 2007-05-02 2012-05-01 International Business Machines Corporation Method for processing work items of a workflow system
US8026180B2 (en) * 2007-07-12 2011-09-27 Micron Technology, Inc. Methods of modifying oxide spacers
CN101388759B (zh) * 2007-09-10 2011-07-13 中兴通讯股份有限公司 实现数据的异步复制到同步复制的转换方法和系统
US7913116B2 (en) * 2008-02-27 2011-03-22 Red Hat, Inc. Systems and methods for incremental restore
JP4579998B2 (ja) * 2008-03-31 2010-11-10 富士通株式会社 リストア管理プログラム、リストア管理方法およびリストア管理装置
JP5044475B2 (ja) * 2008-04-10 2012-10-10 日本電信電話株式会社 データベース自動修復装置及びその方法並びにデータベース自動修復プログラム
CN101626563B (zh) * 2008-07-08 2012-07-04 中国移动通信集团公司 一种通信网络中的数据存储系统及信息处理方法
US8275815B2 (en) * 2008-08-25 2012-09-25 International Business Machines Corporation Transactional processing for clustered file systems
JP5414223B2 (ja) * 2008-09-16 2014-02-12 株式会社日立ソリューションズ インターネットバックアップにおける転送データ管理システム
US9501368B2 (en) 2008-09-30 2016-11-22 Veritas Technologies Llc Backing up and restoring selected versioned objects from a monolithic database backup
US8769049B2 (en) * 2009-04-24 2014-07-01 Microsoft Corporation Intelligent tiers of backup data
US8200633B2 (en) 2009-08-07 2012-06-12 International Business Machines Corporation Database backup and restore with integrated index reorganization
CN102033889B (zh) * 2009-09-29 2012-08-22 熊凡凡 分布式数据库并行处理系统
US9152648B2 (en) * 2009-12-09 2015-10-06 Scality S.A. Probabilistic offload engine for distributed hierarchical object storage devices
WO2011087500A1 (en) * 2010-01-14 2011-07-21 Hewlett-Packard Development Company, L.P. Recovery procedure for a data storage system
US20110184915A1 (en) 2010-01-28 2011-07-28 Microsoft Corporation Cluster restore and rebuild
US8341457B2 (en) * 2010-03-11 2012-12-25 Lsi Corporation System and method for optimizing redundancy restoration in distributed data layout environments
US8856593B2 (en) * 2010-04-12 2014-10-07 Sandisk Enterprise Ip Llc Failure recovery using consensus replication in a distributed flash memory system
US8954385B2 (en) * 2010-06-28 2015-02-10 Sandisk Enterprise Ip Llc Efficient recovery of transactional data stores
US9697086B2 (en) * 2010-06-30 2017-07-04 EMC IP Holding Company LLC Data access during data recovery
US8433688B2 (en) 2010-11-04 2013-04-30 Bbs Technologies, Inc. Method and apparatus for performing a near-instantaneous restore of a database
US8548959B2 (en) 2010-11-29 2013-10-01 Ca, Inc. System and method for minimizing data recovery window
JPWO2012081165A1 (ja) * 2010-12-16 2014-05-22 日本電気株式会社 データベース管理装置及びデータベース管理方法
EP2469411B1 (en) * 2010-12-27 2013-05-29 Amplidata NV A distributed object storage system
US8635187B2 (en) 2011-01-07 2014-01-21 Symantec Corporation Method and system of performing incremental SQL server database backups
US8874505B2 (en) * 2011-01-11 2014-10-28 Hitachi, Ltd. Data replication and failure recovery method for distributed key-value store
CN102693169B (zh) 2011-03-25 2015-01-28 国际商业机器公司 在多租户环境下恢复租户数据的方法、设备和数据库系统
JP5445503B2 (ja) * 2011-03-31 2014-03-19 ブラザー工業株式会社 情報通信システム、情報通信方法
US20120284317A1 (en) * 2011-04-26 2012-11-08 Dalton Michael W Scalable Distributed Metadata File System using Key-Value Stores
US8849777B1 (en) * 2011-06-30 2014-09-30 Emc Corporation File deletion detection in key value databases for virtual backups
US8700683B2 (en) 2011-10-24 2014-04-15 Nokia Corporation Method and apparatus for providing a key-value based storage interface
CN102693324B (zh) * 2012-01-09 2015-03-18 西安电子科技大学 一种分布式数据库同步系统、同步方法和节点管理方法
CN102693312B (zh) * 2012-05-28 2014-05-28 清华大学 一种键值库数据存储中柔性事务管理方法
CN102737127B (zh) * 2012-06-20 2015-04-08 厦门大学 一种海量数据存储方法
US9449039B2 (en) 2012-11-26 2016-09-20 Amazon Technologies, Inc. Automatic repair of corrupted blocks in a database

Also Published As

Publication number Publication date
AU2013347798B2 (en) 2017-01-05
US11475038B2 (en) 2022-10-18
EP2923263B1 (en) 2019-10-23
US9449039B2 (en) 2016-09-20
US20140149357A1 (en) 2014-05-29
US9449038B2 (en) 2016-09-20
CN107844388A (zh) 2018-03-27
CN107908503A (zh) 2018-04-13
JP2016502193A (ja) 2016-01-21
JP6254606B2 (ja) 2017-12-27
JP6412632B2 (ja) 2018-10-24
US20180165340A1 (en) 2018-06-14
CA2892852C (en) 2021-10-26
CN104813276A (zh) 2015-07-29
CN107844388B (zh) 2021-12-07
US9892182B2 (en) 2018-02-13
CA2892852A1 (en) 2014-05-30
JP2018055709A (ja) 2018-04-05
JP2018055710A (ja) 2018-04-05
US20170004194A1 (en) 2017-01-05
US9449040B2 (en) 2016-09-20
SG11201504112UA (en) 2015-06-29
CN104813276B (zh) 2017-12-05
US20140149355A1 (en) 2014-05-29
SG10201610194QA (en) 2017-01-27
WO2014082043A3 (en) 2014-07-17
AU2017202257B2 (en) 2018-06-07
EP2923263A4 (en) 2016-06-29
US20140149356A1 (en) 2014-05-29
EP2923263A2 (en) 2015-09-30
AU2013347798A1 (en) 2015-06-18
WO2014082043A2 (en) 2014-05-30
AU2017202257A1 (en) 2017-04-27

Similar Documents

Publication Publication Date Title
JP6514306B2 (ja) バックアップシステムからのデータベースのストリーミング復元
US11068501B2 (en) Single phase transaction commits for distributed database transactions
US11422982B2 (en) Scaling stateful clusters while maintaining access
US11455217B2 (en) Transaction consistency query support for replicated data from recovery log to external data stores
US10216584B2 (en) Recovery log analytics with a big data management platform
US10067952B2 (en) Retrieving point-in-time copies of a source database for creating virtual databases
US10942814B2 (en) Method for discovering database backups for a centralized backup system
US11269731B1 (en) Continuous data protection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190411

R150 Certificate of patent or registration of utility model

Ref document number: 6514306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250