JP7410181B2

JP7410181B2 - ハイブリッド・インデックス作成方法、システム、プログラム

Info

Publication number: JP7410181B2
Application number: JP2021569234A
Authority: JP
Inventors: バーバー、ロナルド; ラマン、ビジャイシャンカー; シドル、リチャード、セフトン; ティアン、ユアンユアン; トーツン、ピナー; ルオ、チェン; シュトルム、アダム; グロスマン、ロネン; シュピルヘン、マシュー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-23
Filing date: 2020-05-15
Publication date: 2024-01-09
Anticipated expiration: 2040-05-15
Also published as: WO2020234719A1; DE112020000749T5; US20200372004A1; CN113874852A; US11182356B2; GB2599538A; GB202117963D0; JP2022534215A

Description

本発明は、一般に、コンピュータ技術に関連しており、より詳細には、マルチマスタ・ハイブリッド・トランザクション／分析処理システムにおける大規模データセットの発達のためのインデックス作成に関連している。

リアルタイム分析（例えば、リスク分析、オンライン推奨、および不正検出など）の需要は、新しいデータに対して高速な同時トランザクション（例えば、オンライン・トランザクション処理（ＯＬＴＰ：Online Transaction Processing ））および大規模な分析照会（例えば、オンライン分析処理（ＯＬＡＰ：Online Analytical Processing））の両方を処理するためのデータ管理システムを要求する。ＯＬＴＰアプリケーションは、高速にデータを取り込むことを容易にし、データをディスクまたは共有ストレージに持続させ、ＯＬＡＰアプリケーションは、新たに取り込まれたデータに対する、洞察を即座に導き出すための分析照会の同時の実行を容易にする。リアルタイム分析の必要性は、ハイブリッド・トランザクションおよび分析処理（ＨＴＡＰ：Hybrid Transactional and Analytical Processing）システムの出現を促した。ＨＴＡＰシステムは、単一のシステムにおいて、ＯＬＴＰおよびＯＬＡＰの両方の照会をサポートし、したがって、新たに取り込まれたデータに対するリアルタイム分析を可能にする。ＨＴＡＰシステムでは、高速トランザクション処理およびリアルタイム分析での効率的な点検索および範囲照会をサポートするために、きめの細かいインデックス作成が必須である。

本発明の１つまたは複数の実施形態によれば、コンピュータ実装方法が、第１のゾーンがトランザクション処理用に編成されたデータを有し、第２のゾーンが分析処理用に編成されたデータを有する、複数のゾーンのデータ・ストレージ・システムにハイブリッド・インデックスを作成することを含む。ハイブリッド・インデックスにおける各インデックス・エントリは、等価列をさらに含むインデックス・キーを少なくとも含む。インデックス・エントリは、インデックス・エントリに対応するデータが挿入された時間のタイムスタンプを示す開始タイムスタンプ列をさらに含む。インデックス・エントリは、階層型ストレージ内のインデックス・エントリの位置を示すタプル・シーケンス番号列をさらに含む。本方法は、ハイブリッド・インデックスに含められるインデックス・ランを構築することをさらに含む。インデックス・ランは、複数のインデックス・エントリを含む。インデックス・ランを構築することは、第１のゾーンからデータ・ブロックをスキャンすることによって、インデックス・ランに作成する列を決定することを含み、これらのデータ・ブロックはインデックス・ランに関連付けられる。インデックス・ランを構築することは、ハイブリッド・インデックスに含められるインデックス・エントリのタプル・シーケンス番号の値を計算することをさらに含む。タプル・シーケンス番号の値は、タプル・シーケンス番号列に格納される。インデックス・ランを構築することは、インデックス・ランに含められる列を使用して、既定の順序に従ってインデックス・エントリを並べ替えることをさらに含む。

１つまたは複数の例では、インデックス・ランを構築することは、インデックス・ランのヘッダーを作成することと、このヘッダーを指し示すようにインデックス・ラン・ポインタの値を設定することとをさらに含む。ヘッダーは、インデックス・ラン・ポインタの現在の値に設定されたポインタを含む。１つまたは複数の例では、インデックス・ラン内に格納されたデータ要素の概要が、ヘッダー内に格納される。さらに、１つまたは複数の例では、インデックス・ランを構築することは、インデックス・ランのオフセット配列を計算することを含む。オフセット配列は、ヘッダーに格納される。オフセット配列は、ハッシュ値の最上位ｎビットを、インデックス・ラン内のインデックス・エントリのオフセットにマッピングする。

１つまたは複数の例では、インデックス・エントリは、ソート列をインデックス・キーにさらに含む。

１つまたは複数の例では、各インデックス・ランにレベル番号が割り当てられ、レベル番号は、インデックス・ランを構築するために使用されるデータのソースを示す。１つまたは複数の例では、レベル番号は、インデックス・ランに関連付けられたデータが格納されるゾーンをさらに示し、このゾーンは、複数のゾーンのデータ・ストレージ・システム内の複数のゾーンのうちの１つである。１つまたは複数の例では、各レベルからの１つまたは複数のインデックス・ランを維持するために、分離したスレッドが割り当てられる。

さらに、本発明の１つまたは複数の実施形態によれば、コンピュータ実装方法は、第１のインデックス・ランおよび第２のインデックス・ランという２つのインデックス・ランを、階層型データ・ストレージを使用してデータが格納されるデータベース内でマージすることの要求の受信に応答して、第１のインデックス・ランからの列および第２のインデックス・ランからの列を含むための第３のインデックス・ランを作成することを含む。本方法は、マージ・ソートを使用して、第１のインデックス・ランからの列および第２のインデックス・ランからの列をグローバルに並べ替えることをさらに含む。本方法は、第３のインデックス・ランが非永続的レベルに属するということの決定に基づいて、第３のインデックス・ランをキャッシュ・ストレージのみに格納することをさらに含む。本方法は、第３のインデックス・ランが永続的レベルに属し、第３のインデックス・ランのレベル番号がパージ・レベルを下回るということの決定に基づいて、第３のインデックス・ランをキャッシュ・ストレージおよび共有ストレージに格納することをさらに含む。本方法は、第３のインデックス・ランが永続的レベルに属し、第３のインデックス・ランのレベル番号がパージ・レベル以上であるということの決定に基づいて、第３のインデックス・ランを共有ストレージのみに格納することをさらに含む。

１つまたは複数の例では、本方法は、データベース内のインデックス・ランのリストを更新することをさらに含む。リストを更新することは、第１のインデックス・ランのアドレスを指し示す第４のインデックス・ランのポインタを変更することであって、このポインタが第３のインデックス・ランのアドレスに変更される、変更することと、第１のインデックス・ランおよび第２のインデックス・ランを削除することとを含む。さらに、１つまたは複数の例では、第１のインデックス・ランおよび第２のインデックス・ランは、第１のインデックス・ランおよび第２のインデックス・ランが、永続的レベルに属するインデックス・ランにマージされた後に、削除される。

前述した特徴は、実装の種類の中でも特に、少なくともシステム、コンピュータ・プログラム製品、および機械によっても提供される。

その他の技術的特徴および利点が、本発明の技術によって実現される。本発明の実施形態および態様は、本明細書において詳細に説明され、請求される対象の一部と見なされる。さらに良く理解するために、詳細な説明および図面を参照すること。

本明細書に記載された専有権の詳細は、本明細書の最後にある特許請求の範囲において具体的に指摘され、明確に請求される。本発明の各実施形態の前述およびその他の特徴と長所は、添付の図面と併せて行われる以下の詳細な説明から明らかになる。

本発明の一実施形態に従ってクラウド・コンピューティング環境を示す図である。本発明の一実施形態に従って抽象モデル・レイヤを示す図である。ＨＴＡＰに基づくシステムにおけるデータ・ライフ・サイクルを示す図である。本発明の１つまたは複数の実施形態に従って、ハイブリッド・インデックスの代表的図を示す図である。本発明の１つまたは複数の実施形態に従って、一例示的なインデックス・ランを示す図である。本発明の１つまたは複数の実施形態に従って、インデックスの維持のための一例示的なランの割当てを示す図である。本発明の１つまたは複数の実施形態に従って、インデックス・ランを構築するための一例示的な方法のフローチャートを示す図である。本発明の１つまたは複数の実施形態に従って、インデックス・ランをパージするための一例示的な方法のフローチャートを示す図である。一例示的なシナリオにおいて、本発明の１つまたは複数の実施形態に従って、パージ動作の視覚的説明を示す図である。本発明の１つまたは複数の実施形態に従って、インデックス・マージ動作のための一例示的な方法のフローチャートを示す図である。一例示的なシナリオにおいて、本発明の１つまたは複数の実施形態に従って、インデックス・マージ動作の視覚的説明を示す図である。一例示的なシナリオにおいて、本発明の１つまたは複数の実施形態に従って、インデックス・マージ動作の視覚的説明を示す図である。本発明の１つまたは複数の実施形態に従って、インデックス発達動作を実行する一例示的な方法のフローチャートを示す図である。本発明の１つまたは複数の実施形態に従って、インデックの発達の一例示的なシナリオを示す図である。本発明の１つまたは複数の実施形態に従って、インデックス維持動作のための疑似コードを提供する図である。本発明の１つまたは複数の実施形態に従って、ラン・リストを回復する疑似コードを示す図である。本発明の１つまたは複数の実施形態に従って、単一のインデックス・ランに対して範囲スキャン照会を実行するための一例示的な方法のフローチャートを示す図である。

本明細書において示される図は、実例である。本発明の思想から逸脱することなく、本明細書に記載された図または動作の多くの変形が存在することが可能である。例えば、動作は異なる順序で実行されることが可能であり、あるいは動作は追加、削除、または変更されることが可能である。また、「結合される」という用語およびその変形は、２つの要素間に通信経路が存在することを表しており、それらの要素間に要素／接続が介在しない要素間の直接的接続を意味していない。これらのすべての変形は、本明細書の一部であると見なされる。

添付の図および開示された実施形態に関する以下の詳細な説明では、図に示されたさまざまな要素が、２桁または３桁の参照番号付きで提供されている。わずかな例外を除いて、各参照番号の左端の数字は、その要素が最初に示された図に対応している。

本明細書では、関連する図面を参照して、本発明のさまざまな実施形態が説明される。本発明の範囲を逸脱することなく、本発明の代替の実施形態が考案される。以下の説明および図面において、要素間のさまざまな接続および位置関係（例えば、上、下、隣接など）が示される。それらの接続または位置関係あるいはその両方は、特に規定されない限り、直接的または間接的であることができ、本発明はこの点において限定するよう意図されていない。したがって、各実体の結合は、直接的結合または間接的結合のいずれかを指すことができ、各実体間の位置関係は、直接的位置関係または間接的位置関係であることができる。さらに、本明細書に記載されたさまざまな作業および工程段階は、本明細書に詳細に記載されない追加の段階または機能を含んでいるさらに包括的な手順または工程に組み込まれる。

以下の定義および略称が、特許請求の範囲および本明細書の解釈に使用される。本明細書において使用されているように、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」、「含有する」、もしくは「含有している」という用語、またはこれらの任意のその他の変形は、非排他的包含をカバーするよう意図されている。例えば、要素のリストを含んでいる組成、混合、工程、方法、製品、または装置は、それらの要素のみに必ずしも限定されず、明示されていないか、またはそのような組成、混合、工程、方法、製品、または装置に固有の、その他の要素を含むことができる。

さらに、「例示的」という用語は、本明細書では「一例、一事例、または一実例としての役割を果たす」ことを意味するために使用される。「例示的」として本明細書に記載された任意の実施形態または設計は、必ずしも他の実施形態または設計よりも好ましいか、または有利であると解釈されるべきではない。「少なくとも１つ」および「１つまたは複数」という用語は、１以上の任意の整数（すなわち、１、２、３、４など）を含んでいると理解されてよい。「複数」という用語は、２以上の任意の整数（すなわち、２、３、４、５など）を含んでいると理解されてよい。「接続」という用語は、間接的「接続」および直接的「接続」の両方を含んでよい。

「約」、「実質的に」、「近似的に」、およびこれらの変形の用語は、本願書の出願時に使用できる機器に基づいて、特定の量の測定に関連付けられた誤差の程度を含むよう意図されている。例えば、「約」は、特定の値の±８％または５％、あるいは２％の範囲を含むことができる。

簡潔さの目的で、本発明の態様の作成および使用に関連する従来技術は、本明細書に詳細に記載されることもあれば、記載されないこともある。具体的には、本明細書に記載されたさまざまな技術的特徴を実装するためのコンピューティング・システムおよび特定のコンピュータ・プログラムのさまざまな態様は、よく知られている。したがって、簡潔さのために、多くの従来の実装に関する詳細は、本明細書では、既知のシステムまたは工程あるいはその両方の詳細を提供することなく、簡潔にのみ述べられるか、または全体的に省略される。

前述したように、ＨＴＡＰシステムは、単一のシステムにおいて、ＯＬＴＰおよびＯＬＡＰの両方の照会をサポートし、したがって、新たに取り込まれたデータに対するリアルタイム分析を可能にする。ＨＴＡＰシステムでは、高速トランザクション処理およびリアルタイム分析での効率的な点検索および範囲照会をサポートするために、きめの細かいインデックス作成が必須である。しかし、ＨＴＡＰシステムにおいて大量のデータのインデックスを作成することは、共有ストレージおよびデータの発達に直面する課題に少なくとも起因して、非常に困難である。

第一に、大規模なＨＴＡＰの場合、少なくとも、動作可能なワークロードに対する分析照会の干渉を防ぐことに関する制限のため、メモリのみの解決策は不十分である。その結果、ほとんどのＨＴＡＰシステムは、分散ファイル・システムを含む、高可用性フォールト・トレラント共有ストレージにデータを持続させる。しかし、これらの共有ストレージの選択肢のほとんどは、ランダム・アクセスおよびインプレース更新に適していない。例えば、ＨＤＦＳは、追加専用の動作のみをサポートして、ブロックレベルの転送を最適化し、オブジェクト・ストレージは、オブジェクト内のランダム・アクセスを許可せず、オブジェクトの更新を全く許可しない。共有ストレージに固有の特性に対応するために、インデックス操作（例えば、挿入、更新、および削除）は、インプレース更新を伴わない連続的Ｉ／Ｏを使用する必要がある。

さらに、インデックス検索のためにネットワークを介してリモートの共有ストレージにアクセスすることは、例えばＨＴＴＰを経由してＲＥＳＴＡＰＩを介してオブジェクト・ストレージにアクセスするため、コストがかかる。その結果、ＨＴＡＰでのインデックス作成方法は、分散クラスタ環境内のストレージ階層を、キャッシュに完全に利用しなければならない。特に、既存の解決策は、最新のハードウェアにおいて、大きいメモリおよび半導体ドライブ（ＳＳＤ：solid state drives）を利用することができる。しかし、ＨＴＡＰシステムにおける大規模なデータに起因して、あまり頻繁にアクセスされないエントリを共有ストレージに残したまま、インデックスの最も頻繁にアクセスされる部分のみがローカルにキャッシュされる。インデックス検索を容易にするために、効果的なキャッシュ・メカニズムを開発する必要がある。

さらに、データの発達に関しては、ＨＴＡＰシステムがトランザクション・ワークロードと分析ワークロードの両方を効率的にサポートする必要があるため、データは異なる編成で格納されることが多く、通常、ある編成は、より最近のデータに対するトランザクションに適しており、ある編成は、より古いデータに対する分析に適している。ここで「編成」とは、格納されたデータのセクションのことを指し、このセクションは時間に基づいて決定される。各セクションは、異なるデータ構造を使用して格納されてよい。そのような「編成」は、データが、古くなるにつれて、処理の結果に基づいて処理されて格納されるようになるため、使用される。例えば、最後の秒（または、任意のその他の期間）からのトランザクション・データは、分析照会に関してまだ完全に分析されていないことがあるが、トランザクション・データは、分析されて格納されるときに、そのような分析照会を実行するために編成される。本文書は、これらの時間的に分離されたデータを、データの異なる「ゾーン」と呼ぶ。システム内でデータが古くなるにつれて、データは、トランザクションに適したゾーンから分析に適したゾーンに発達する。あるゾーンから別のゾーンへのデータの発達は、データの異なるゾーンに関連付けられたスキーマに従ってデータを再編成することを含むことができる。１つまたは複数の例では、データの異なるゾーンは、ＲＡＭ、およびＳＳＤなどの、異なる種類のストレージ・デバイスに格納される。

そのようなゾーンは、種々の方法で実装される。例えば、本発明の１つまたは複数の実施形態では、疎結合されたＨＴＡＰの解決策は、動作可能なワークロードのための非リレーショナル・ストアを採用し、データを非リレーショナル・ストアから共有ストレージ上の列状形式のファイルに定期的にコピーし、分散データベース・エンジンがそれらのデータを効率的に照会できるようにする。１つまたは複数の例では、データは、読取りに対して最適化されたメイン・ストアおよび書込みに対して最適化されたデルタ・ストアに編成される。書込みは、行優先のデルタ・ストアに最初にバッファされ、分析照会を容易にするために列状のメイン・ストアにさらに変換される。

ＨＴＡＰを使用する１つまたは複数の例示的なシステムでは、トランザクションは、最初に書込みをトランザクション・ログに追加し、その後、このトランザクション・ログが列状のデータ・ブロックにグルーミングされる。グルーミングされたデータは、照会に最適なデータのバージョンおよびデータの分割を作成することによって、分析に適した編成に、さらに定期的に後でグルーミングされる。これらのＨＴＡＰシステムにおける異なるゾーンにわたるデータの発達は、絶えず進行し、インデックスを構築して維持することに、大きな課題をもたらす。

複数のゾーンのＨＴＡＰシステムでの既存のインデックス作成の解決策は、トランザクションに適したゾーンのみおよび疎結合されたＨＴＡＰの解決策でのインデックスをサポートするか、または異なるゾーンでの別々のインデックスをサポートする。

したがって、そのような技術的課題に対処するために、本発明の１つまたは複数の実施形態は、複数のバージョンおよび複数のゾーンのログ構造化マージに似た（ＬＳＭ（log-structured-merged）に似た）インデックスを提供する。そのようなインデックス作成は、リアルタイム分析などのために（特に、真のＨＴＡＰのシナリオでのトランザクションの一部である分析照会のために）、履歴データを効率的に照会するのを容易にする。その結果、履歴データは、そのようなインデックスの対象になる必要がある。さらに、異なるゾーンに別々のインデックスを含むことは、データの分割された見方を公開し、複数のゾーンにわたるインデックス照会結果を結合するための余分な作業を必要とする。特に、ＨＴＡＰデータの絶えず発達する性質に伴って、最終結果において重複するデータまたは欠落しているデータがないことが保証される必要がある。本明細書において本発明の１つまたは複数の実施形態によって説明されるインデックス作成は、ＨＴＡＰシステム内の異なるゾーンにわたって、一貫性のある統一されたインデックスを提供する。

本明細書における本発明の１つまたは複数の実施形態は、大規模なＨＴＡＰシステムとの関連において説明され、このＨＴＡＰシステムは、複雑な分析および列状データ処理を活用して、高速なトランザクションおよび分析を同時に可能にする。しかし、本発明の１つまたは複数の実施形態がそのような一実装に限定されないということ、および本明細書に記載された特徴が、異なる種類のＨＴＡＰシステムおよびデータ処理を使用する他の状況においても適用可能であるということが、理解される。

以下では、背景技術が簡単に説明され、その後、本発明の１つまたは複数の実施形態によって使用されるハイブリッド・インデックス作成の特定の特徴が説明される。本開示にはクラウド・コンピューティングの詳細な説明が含まれているが、本明細書において示された内容の実装は、クラウド・コンピューティング環境に限定されないということが、あらかじめ理解される。むしろ、本発明の実施形態は、現在既知であるか、または今後開発される任意のその他の種類のコンピューティング環境と組み合わせて実装できる。

クラウド・コンピューティングは、構成可能な計算リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス提供モデルであり、管理上の手間またはサービス・プロバイダとのやりとりを最小限に抑えて、これらのリソースを迅速にプロビジョニングおよび解放することができる。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つのデプロイメント・モデルを含むことができる。

特徴は、次のとおりである。
オンデマンドのセルフ・サービス：クラウドの利用者は、サーバの時間、およびネットワーク・ストレージなどの計算能力を一方的に、サービス・プロバイダとの人間的なやりとりを必要とせず、必要に応じて自動的にプロビジョニングすることができる。
幅広いネットワーク・アクセス：クラウドの能力は、ネットワークを経由して利用可能であり、標準的なメカニズムを使用してアクセスできるため、異種のシン・クライアントまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびパーソナル・デジタル・アシスタントなど）による利用を促進する。
リソース・プール：プロバイダの計算リソースは、プールされ、マルチテナント・モデルを使用して複数の利用者に提供される。種々の物理的および仮想的リソースが、要求に従って動的に割当ておよび再割当てされる。場所に依存しないという感覚があり、利用者は通常、提供されるリソースの正確な場所に関して管理することも知ることもないが、さらに高い抽象レベルでは、場所（例えば、国、州、またはデータセンター）を指定できる場合がある。
迅速な順応性：クラウドの能力は、迅速かつ柔軟に、場合によっては自動的にプロビジョニングされ、素早くスケールアウトし、迅速に解放されて素早くスケールインすることができる。プロビジョニングに使用できる能力は、利用者には、多くの場合、任意の量をいつでも無制限に購入できるように見える。
測定されるサービス：クラウド・システムは、計測機能を活用することによって、サービスの種類（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザのアカウント）に適した抽象レベルで、リソースの使用を自動的に制御および最適化する。リソースの使用量は監視、制御、および報告することができ、利用されるサービスのプロバイダと利用者の両方に透明性が提供される。

サービス・モデルは、次のとおりである。
ＳａａＳ（Software as a Service）：利用者に提供される能力は、クラウド・インフラストラクチャ上で稼働しているプロバイダのアプリケーションの利用である。それらのアプリケーションは、Ｗｅｂブラウザ（例えば、Ｗｅｂベースの電子メール）などのシン・クライアント・インターフェイスを介して、さまざまなクライアント・デバイスからアクセスできる。利用者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、またはさらに個々のアプリケーション機能を含む基盤になるクラウド・インフラストラクチャを、限定的なユーザ固有のアプリケーション構成設定を行う可能性を除き、管理することも制御することもない。
ＰａａＳ（Platform as a Service）：利用者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、利用者が作成または取得したアプリケーションをクラウド・インフラストラクチャにデプロイすることである。利用者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基盤になるクラウド・インフラストラクチャを管理することも制御することもないが、デプロイされたアプリケーション、および場合によってはアプリケーション・ホスティング環境の構成を制御している。
ＩａａＳ（Infrastructure as a Service）：利用者に提供される能力は、処理、ストレージ、ネットワーク、およびその他の基本的な計算リソースのプロビジョニングであり、ここでは、利用者は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをデプロイして実行できる。利用者は、基盤になるクラウド・インフラストラクチャを管理することも制御することもないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御しており、場合によっては、選択されたネットワーク・コンポーネント（例えば、ホスト・ファイアウォール）を限定的に制御している。

デプロイメント・モデルは、次のとおりである。
プライベート・クラウド：このクラウド・インフラストラクチャは、ある組織のためにのみ運用される。このクラウド・インフラストラクチャは、この組織またはサード・パーティによって管理することができ、オンプレミスまたはオフプレミスに存在することができる。
コミュニティ・クラウド：このクラウド・インフラストラクチャは、複数の組織によって共有され、関心事（例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスに関する考慮事項）を共有している特定のコミュニティをサポートする。このクラウド・インフラストラクチャは、これらの組織またはサード・パーティによって管理することができ、オンプレミスまたはオフプレミスに存在することができる。
パブリック・クラウド：このクラウド・インフラストラクチャは、一般ユーザまたは大規模な業界団体が使用できるようになっており、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：このクラウド・インフラストラクチャは、データとアプリケーションの移植を可能にする標準化された技術または独自の技術（例えば、クラウド間の負荷バランスを調整するためのクラウド・バースト）によって固有の実体を残したまま互いに結合された２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合である。
クラウド・コンピューティング環境は、ステートレス、疎結合、モジュール性、および意味的相互運用性に重点を置いたサービス指向の環境である。クラウド・コンピューティングの中心になるのは、相互接続されたノードのネットワークを備えるインフラストラクチャである。

ここで図１を参照すると、例示的なクラウド・コンピューティング環境５０が示されている。図示されているように、クラウド・コンピューティング環境５０は、クラウドの利用者によって使用されるローカル・コンピューティング・デバイス（例えば、ＰＤＡ（personal digital assistant）または携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはその組合せなど）が通信できる１つまたは複数のクラウド・コンピューティング・ノード１０を備える。ノード１０は、互いに通信し得る。ノード１０は、１つまたは複数のネットワーク内で、本明細書において前述されたようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、あるいはこれらの組合せなどに、物理的または仮想的にグループ化されてよい（図示されていない）。これによって、クラウド・コンピューティング環境５０は、クラウドの利用者がローカル・コンピューティング・デバイス上でリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはＳａａＳ、あるいはその組合せを提供できる。図１に示されたコンピューティング・デバイス５４Ａ～Ｎの種類は、例示のみが意図されており、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意の種類のネットワークまたはネットワーク・アドレス可能な接続（例えば、Ｗｅｂブラウザを使用した接続）あるいはその両方を経由して任意の種類のコンピュータ制御デバイスと通信することができると理解される。

ここで図２を参照すると、クラウド・コンピューティング環境５０（図１）によって提供される機能的抽象レイヤのセットが示されている。図２に示されたコンポーネント、レイヤ、および機能は、例示のみが意図されており、本発明の実施形態がこれらに限定されないということが、あらかじめ理解されるべきである。図示されているように、次のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェア・レイヤ６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例としては、メインフレーム６１、ＲＩＳＣ（Reduced Instruction Set Computer）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーク・コンポーネント６６が挙げられる。一部の実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

仮想化レイヤ７０は、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５などの仮想的実体を提供できる抽象レイヤを備える。

一例を挙げると、管理レイヤ８０は、以下で説明される機能を提供することができる。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを実行するために利用される計算リソースおよびその他のリソースの動的調達を行う。計測および価格設定８２は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡、およびそれらのリソースの利用に対する請求書の作成と送付を行う。一例を挙げると、それらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでよい。セキュリティは、クラウドの利用者およびタスクのＩＤ検証を行うと共に、データおよびその他のリソースの保護を行う。ユーザ・ポータル８３は、クラウド・コンピューティング環境へのアクセスを利用者およびシステム管理者に提供する。サービス・レベル管理８４は、必要なサービス・レベルを満たすように、クラウドの計算リソースの割当てと管理を行う。サービス水準合意（ＳＬＡ：Service Level Agreement）計画および実行８５は、今後の要求が予想されるクラウドの計算リソースの事前準備および調達を、ＳＬＡに従って行う。

ワークロード・レイヤ９０は、クラウド・コンピューティング環境で利用できる機能の例を示している。このレイヤから提供されてよいワークロードおよび機能の例としては、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想クラスルーム教育の配信９３、データ解析処理９４、トランザクション処理９５、およびソース・コード・バージョン管理９６が挙げられる。これらが単なる例であり、他の実施形態では、各レイヤが異なるサービスを含むことができるということが理解される。

１つまたは複数の例では、ＨＴＡＰシステムは、複数の疎結合されたプロセスを含むマルチマスタＨＴＡＰシステムとして実装されてよい。さらに、１つまたは複数の例では、新しいデータに対する弱い形態のスナップショット分離および同時分析照会（concurrent analytical queries）と共に、例えば、その効果へのアプリケーション・プログラミング・インターフェイスを使用して、高速トランザクションがサポートされる。

図３は、ＨＴＡＰに基づくシステムにおけるデータ・ライフ・サイクルを示している。図に示されており、さらに説明されるように、データは、ＨＴＡＰシステムであるシステム１００内の複数のゾーンにわたって発達する。システム１００は、複数のプロセッサを含むことができる処理ユニット１９０を含んでいる。１つまたは複数の例では、複数のプロセッサは、分散コンピューティング・システムの異なるコンピュータ・サーバの一部である。コンピュータ・サーバは、「ノード」とも呼ばれる。システム１００は、さまざまな種類の非一過性メモリ・デバイスも含んでいる。処理ユニット１９０によるメモリの使用は、メモリ・デバイスの種類に従って変化する。

システム１００内のテーブルは、ユーザによって提供されたシャーディング・キーを（主キーのサブセットとして）使用して「シャーディング」される。データベース・コンピューティングでは、「シャーディング」は、複数のデータベースにわたってデータをセグメント化することによって、データベースのスケーリングを容易にする技術である。テーブル・シャードが複数のノードに複製され、ここでは、１つの複製がシャード・リーダー（shard-leader）として機能するが、残りの複製はスレーブである。挿入されたレコードが、シャーディング・キーによって異なるシャードにルーティングされる。シャードのいずれかの複製が、データを取り込むことができる。

データの取込みの一部として、トランザクションは、最初に、書込みをメモリ内のトランザクション・ログ・バッファ１０１に追加する。システム１００内の各シャードは、リーダーの複製上で実行される指定されたグルーマーを有する。グルーマーは、処理ユニット１９０内のプロセッサのうちの１つまたは複数（特に、リーダーの複製に割り当てられたプロセッサ）によって実行されるプロセスである。

グルーマーは、時間的順序で、シャードの複製からのトランザクション・ログ・バッファ１０１からのトランザクション・ログを定期的に（例えば、毎秒、５秒ごと、などに）マージし、レコードごとに単調増加開始タイムスタンプ（開始ＴＳ）を設定し、列状形式のデータ・ファイル（ブロックとも呼ばれる）を共有ストレージ１６０ならびにローカル・キャッシュ１５５に作成する。共有ストレージ１６０は、一般に、アクセスがより遅く（待ち時間がより長く）、ローカル・キャッシュ１５５を使用する動機を与える。例えば、共有ストレージ１６０は、ハード・ディスク・ドライブ、磁気テープ、分散ファイル・システム、およびクラウド・ストレージなどであることができるが、ローカル・キャッシュ１５５は、半導体ドライブ、および不揮発性メモリ（ＮＶＭ：non-volatile memory）デバイスなどであることができる。ローカル・キャッシュ１５５は不揮発性にされているため、本発明の１つまたは複数の実施形態によって生成されたハイブリッド・インデックスのキャッシュされたコンポーネント１７２が永続的であることができる。ハイブリッド・インデックスは、グルーミングされたインデックス１７３および後でグルーミングされたインデックス１７４の組合せであり、キャッシュされたコンポーネント１７２は、ローカル・キャッシュ１５５にキャッシュされたハイブリッド・インデックスの一部である。キャッシュされたコンポーネント１７２を持続させることのさまざまな利点は、システム１００が故障して再起動する必要がある場合／ときに使用するために、キャッシュされたコンポーネント１７２がシステム１００で容易に使用可能になることを含む。キャッシュされたコンポーネント１７２をこの方法で持続させることによって、インデックス作成プロセスを再実行する必要がなくなる。

各グルーミングされたブロックは、グルーミングされたブロックＩＤと呼ばれる単調増加ＩＤによって、一意に識別される。システム１００内のトランザクションのコミット時間は、グルーミング時間に効果的に延期される。ポストグルーマー（post-groomer）と呼ばれる別の分離したプロセスが、グルーミングされたゾーン（１０３）内に存在する新たにグルーミングされたブロックに対して、後のグルーミング動作を定期的に（例えば、１０分ごと、１５分ごと、３０分ごとなどに）実行して、データをより分析に適するようにし、データをグルーミングされたゾーン（１０３）から編成された（または後でグルーミングされた）ゾーン（１０４）に移動して変換する。後のグルーミング動作は、グルーミングされたゾーン（１０３）からの新たにグルーミングされたデータに対して、バージョン管理のために更新されたレコードの終了タイムスタンプを設定すること、照会に対して最適化されたユーザによって定義されたパーティション・キー（通常は、シャーディング・キーと異なる）に基づいてデータを分割すること、および最新データに対する照会を容易にするために、最新バージョンを過去のバージョンから分離することなどの、一連のタスクを実行する。後のグルーミング動作は、単調に増加する後のグルーミング・シーケンス番号、この動作で発達させられたグルーミングされたゾーン（１０３）からのグルーミングされたブロックのＩＤの範囲、および後でグルーミングされたゾーン（１０４）内の生成されたブロックのリストを含んでいるファイル・リストを公開する。システム１００は、グルーミングされたゾーン（１０３）への高速な取込みをサポートするように、分離したグルーミングされたゾーン（１０３）および後でグルーミングされたゾーン（１０４）内でデータを編成する。一方、グルーミングされたゾーン（１０３）内のデータは、データの一部が、使用されていないデータを最適化するために計算リソースを使用するのを防ぐために必要とされるまで、そのデータの部分の最適化を遅延させる最適化方針を使用して、バックグラウンドでポストグルーマーによって分析照会に対して最適化される。

鮮度の要件に依って、照会は、後でグルーミングされたゾーン（１０４）内のデータおよびグルーミングされたゾーン（１０３）内のデータに一緒にアクセスする必要があることがある。しかし、トランザクション・ログ・バッファ（１０１）内のデータは、コミットされていないデータを含んでいるため、照会によってアクセスされない。点検索およびトランザクション処理を容易にするために、目標は、図１に示されているように、グルーミングされたゾーン（１０３）内のデータおよび後でグルーミングされたゾーン（１０４）内のデータの両方に対してインデックスを構築することである。

したがって、ハイブリッド・インデックスは、バックグラウンドでデータがあるゾーンから別のゾーンに継続的に発達するときに照会するための統一された見方を提供する。データがグルーミングされたゾーン（１０３）から後でグルーミングされたゾーン（１０４）に発達するときに、グルーミングされたインデックス１７３および後でグルーミングされたインデックス１７４を更新することによって、ハイブリッド・インデックスも更新される。ハイブリッド・インデックス（図３のブロック１７２、１７３、１７４の組合せ）は、ログ構造化マージ・ツリー（ＬＳＭツリー）に基づく。

ＬＳＭツリーに関する背景として、ＬＳＭツリーは、大量の取込みに対して最適化された永続的インデックス構造である。ランダムなＩ／Ｏを必要とする可能性があるエントリのインプレース更新の代わりに、ＬＳＭツリーのバッチは、データをメモリに挿入し、メモリが満杯であるときに、連続的Ｉ／Ｏを使用してデータをディスクにフラッシュする。各フラッシュ動作は、新しいランを作成する。ＬＳＭツリーのランは、変更不可能である。変更（挿入、更新、および削除）は、新しいエントリをメモリに挿入することによって処理される。挿入または更新は、同じキーを含む新しいエントリを単に挿入するが、削除は、キーが削除されたことを示すツームストーン・エントリを配置する。照会は、複数のランからの同一のキーを含むエントリを調整する必要があり、ここでは、より新しい（すなわち、より最近の）ランからのエントリは、より古いランからのエントリをオーバーライドする。「ラン」は、本明細書において使用されるとき、Ｂツリー、検索を誘導するためにメモリ内に格納されたページ・ポインタのリストを含む並べ替えられた配列、または任意のその他のそのようなデータ構造などを使用して、さまざまな方法で構造化される。

ランの数を少なく維持して、照会の性能を改善するために、ランは、定期的により大きいランにマージされる。一般に、実際に一般的に使用されるマージ・プロセスは、レベリングおよび階層化を含む。以下で簡単に説明するが、本発明の１つまたは複数の実施形態では、任意のその他のマージ・プロセスが使用され得るということが理解される。レベリングおよび階層化方式では、ランがレベルに編成され、ここでは、新しいランが最低のレベル０に追加され、複数のランが、徐々により高いレベルにマージされる。レベリング・ポリシーは、各レベルで１つのランのみに制限することによって、インデックス検索に対して最適化する。レベルＬでのランは、レベルＬ＋１でのランと直ちにマージされる。しかし、階層化ポリシーは、レベルＬにおいて多くてＮ個のランを許可し、これらのランは、レベルＬ＋１での新しいランに一緒にマージされ、検索コストを犠牲にして償却挿入コスト（amortized insert cost）を削減する。

既存の技術では、ＬＳＭに似たインデックス作成が使用されてきたが、複数のレベルのストレージ階層を使用してインデックスを作成し、データを発達させることの技術的課題は対処されておらず、それらの技術的課題が、本発明の１つまたは複数の実施形態によって対処されている。

図４は、本発明の１つまたは複数の実施形態に従って、ハイブリッド・インデックスの代表的図を示している。ハイブリッド・インデックス２００は、ラン２５０が複数のゾーン（１０３、１０４）にわたって各レベルに編成される、ＬＳＭに似たインデックスである。ハイブリッド・インデックス２００は、ハイブリッド・インデックス２００に含まれているデータの概要などのハイブリッド・インデックス２００のメタデータを含む、ヘッダー・ブロック４０２も含んでいる。さらに、インデックス・ラン２５０は、複数のレベル（例えば、レベル０～５）に編成される。１つまたは複数の例では、データの古さに依って、各レベルが存在しなくてよいということに注意するべきである。例えば、図４では、データがレベル０、レベル１、およびレベル６に編成されている。他の例では、インデックス・ラン２５０は、異なる数のレベル（例えば、０～４レベル）、または異なるレベル（レベル０、１、２、および３）、あるいはその両方に編成されてよい。データの取込みが、新しいインデックス・ラン２５０を作成する。各インデックス・ラン２５０は、並べ替えられた行（すなわち、インデックス・エントリ）のリストを含む。さらに説明されるように、リーダ（readers）に対して非ブロッキングであるバックグラウンドのインデックス維持動作を使用して、ハイブリッド・インデックス２００が維持される。インデックス維持動作は、次のレベルで新しいインデックス・ラン２５０を生成するマージ動作と、空間管理用のインデックスのパージおよびガベージ・コレクションと、データが発達した、またはあるゾーンから別のゾーンに更新された後に実行されるインデックス発達動作とを含む。

ハイブリッド・インデックス２００は、本明細書において説明されるように、単一のラン形式（２５０）および複数のラン構造で、それぞれ使用される。ここで、インデックス・ラン２５０（三角形で表されている）は、グルーミングされたブロックのグループからのデータのインデックス作成済みエントリを含んでいるインデックス作成済みファイルである。ブロックＩＤの範囲は、（図４で三角形として示されている）各インデックス・ラン内に示されている。

図４に示されているように、ハイブリッド・インデックス２００は複数のラン２５０を含むことができ、ここでは、レベル０～５（レベル２～５は図示されていない）がグルーミングされたゾーン１０３用に構成されているが、レベル６～９（レベル７～９は図示されていない）が後でグルーミングされたゾーン１０４用に構成されている。明確にするために、各ラン２５０は、対応するグルーミングされたブロックＩＤの範囲でラベル付けされている。この示された例では、２３～２４および２１～２２でラベル付けされたグルーミングされたランはレベル０に属するが、１６～２０および１１～１５でラベル付けされたランはレベル１に属する。６～１０および０～５でラベル付けされた後でグルーミングされたランは、レベル６に属する。

インデックス・ラン２５０は、インデックス・キーおよび０個以上のインクルード列２２０を含んでいる。インデックス・キー２１０は、０個以上の等価列２１２（等価述語に使用される）および０個以上のソート列２１４（範囲述語に使用される）を含む複合キーとして定義される。インクルード列２２０は、インデックスのみのアクセスを有効にすることによって、照会処理を容易にするために、インデックス・ラン２５０に含まれる列である。ハイブリッド・インデックス２００は、インデックス・キー２１０で指定される少なくとも１つの等価列２１２またはソート列２１４を含んでいる。

等価列２１２が指定された場合、インデックス照会を加速するために、等価列の値のハッシュ値もインデックス・ラン２５０に格納される。インデックス・ラン２５０は、このようにして、ハッシュと範囲インデックスの組合せになる。一例示的なモノのインターネット（ＩｏＴ：Internet of Things）アプリケーションでは、デバイスＩＤが等価列２１２にされるが、メッセージ番号（ｍｓｇ）がソート列２１４にされる。特殊な一事例として、等価列２１２を除外して、ハイブリッド・インデックス２００を範囲インデックスにする。上記の例では、取り込まれているレコードが、データ要素の中でも特に、少なくともデバイスＩＤ、ｍｓｇ、およびメッセージを含むことができる。

１つまたは複数の例では、インデックス・キーはテーブルの主キーであり、すなわち、ハイブリッド・インデックス２００は一次インデックスである。

インデックス・ランは、行のテーブルと論理的に見なされる。上記のインデックスの定義で指定された列に加えて、このテーブルは、開始ＴＳ列２３０およびタプル・シーケンス番号（ＴＳＮ：tuple sequence number）列２３５という２つの追加の列を含んでいる。開始ＴＳ列２３０は、レコードが挿入されるときのタイムスタンプを示す。システム１００内の開始ＴＳは、グルーミング動作によって生成される。ＴＳＮ列２３５は、インデックス作成済みのレコードの正確な位置を指定する。１つまたは複数の例では、システム１００内のＴＳＮは、６４ビット整数であることができ、ここでは、高位のビットがブロックＩＤを示すが、低位のビットがそのブロック内のレコード・オフセットを指定する。

それに応じて、インデックス・ラン内の各行は、ハッシュ列２２５、等価列２１２、ソート列２１４、開始ＴＳ２３０、インクルード列２２０、およびＴＳＮ２３５を含む。１つまたは複数の例では、インデックス・ラン内の行は、ハッシュ列２２５と、等価列２１２と、ソート列２１４と、開始ＴＳ２３０の降順とによって順序付けられる。

特殊な一事例として、等価列２１２が指定されない場合、ハッシュ列２２５がインデックス・ランから省略される。降順での開始ＴＳ列２３０は、より最近のバージョンのアクセスを容易にする。すべての順序付け列（すなわち、ハッシュ列２２５、等価列２１２、ソート列２１４、および開始ＴＳ２３０）は、インデックス照会を処理するときにメモリ比較動作を使用することによってキーを比較できるように、辞書順で比較可能な形式で格納される。

インデックス・ランは、ヘッダー・ブロックに加えて、１つまたは複数の固定濃度のデータ・ブロック（最後のデータ・ブロックを除く）として、物理的に格納される。ヘッダー・ブロックは、データ・ブロックの数、このランが属するマージ・レベル、およびこのランが対応するグルーミングされたブロックＩＤの範囲などの、インデックス・ランのメタデータ情報を含む。

インデックス照会中に無関係なランを取り除くために、本発明の１つまたは複数の実施形態では、概要がヘッダー・ブロックに格納される。この概要は、このランに格納された各キー列の範囲を含む。あるキー列の入力値が、概要によって指定された範囲と重複しない場合、インデックス照会によってランがスキップされる。

ハイブリッド・インデックス２００の定義において等価列２１２が指定された場合、ヘッダー・ブロックは、インデックス照会を容易にするための２^ｎ個の整数のオフセット配列を含む。オフセット配列は、ハッシュ値の最上位ｎビットの値をインデックス・ラン内のオフセットにマッピングする。インデックス照会を処理するときに、二分探索用のよりコンパクトな開始オフセットおよび終了オフセットを提供し、アクセスされるブロックの数を効果的に制限するために、オフセット配列が使用される。

図５は、本発明の１つまたは複数の実施形態に従って、一例示的なインデックス・ランを示している。示された例示的なシナリオでは、デバイスＩＤ（図５では「デバイス」としてラベル付けされている）が等価列２１２であり、ｍｓｇがソート列２１４であると考える。簡単にするために、インデックス・ラン内の他の列は示されておらず、ハッシュ値が１バイトのみを必要とすると仮定する。テーブルａは、このラン内のインデックス・エントリを示しており、ここでは、ハッシュ値が２進数形式で示されており、テーブルｂは、ハッシュ値の最上位３ビットと共にオフセット配列を示している。このインデックス・ラン２５０の物理的レイアウトがテーブルｃに示されており、ここでは、インデックス・ラン２５０は、１つのヘッダー・ブロック４０２および２つのデータ・ブロック５０４を含んでいる。

本発明の１つまたは複数の実施形態によれば、ハイブリッド・インデックス２００は、複数のレベルに編成された複数のランを含むことができる。下位のレベル（例えば、レベル０）でのランは、より最近のデータに対応し、ランの総数を制限するために、より高いレベルに定期的にマージされる。しかし、ＨＴＡＰシステム内のデータは、本明細書において説明されているように、通常、複数のゾーン（１０３、１０４）に編成され、データはあるゾーンから別のゾーンに徐々に発達する。ＨＴＡＰシステムにおけるそのような複数のゾーンのデータ編成を考慮するために、ハイブリッド・インデックス２００は、それに応じて、レベルを複数のゾーンに分離する。１つまたは複数の例では、ハイブリッド・インデックス２００は、２つのゾーン（グルーミングされたゾーン（１０３）用に１つおよび後でグルーミングされたゾーン（１０４）用に１つ）を含む。各ゾーン内で、ランは、自分の作成時間に基づいてリンク・リストに一緒に連結され、ここでは、ヘッダー４０２が最新のランを指し示す。ランは、同じゾーンのみにマージされる。すなわち、グルーミングされたゾーン１０３内のランを、後でグルーミングされたゾーン１０４内の新しいランにマージすることはできない。代わりに、ランは、システム内のデータが時間と共に発達するにつれて、インデックス発達動作を介して別のゾーンに定期的に発達する。インデックス維持動作（例えば、マージおよび発達）の詳細が、本明細書においてさらに説明される。

１つまたは複数の例では、下位のレベルのランが、通常小さく、頻繁にマージされるため、ユーザは、１つまたは複数の下位のレベルを非永続的として設定し、多すぎる小さいファイルを共有ストレージに書き込むのを防ぐことができる。非永続的レベルでのランは、メモリ１５０およびＳＳＤキャッシュ１５５内のみに存在するが、共有ストレージ１６０内で永続的にならず、これによってマージ性能を大幅に改善することができる。しかし、復元可能性のために、システムのクラッシュ／故障の後に、システムがインデックス・ランを再構築する必要がないように、レベル０を永続的として設定する必要がある。

図６は、本発明の１つまたは複数の実施形態に従って、インデックスの維持のための一例示的なランの割当てを示している。この例では、各ラン２５０が、ランが属しているレベルでラベル付けされている。インデックス維持によって引き起こされる同時のインデックス変更を最小限に抑えるために、各レベルが専用のインデックス維持スレッド６１０に割り当てられる。各スレッド６１０は、そのスレッド６１０に割り当てられたラン２５０のみに対して、インデックス維持動作を定期的に実行する。これによって、インデックス・ラン２５０が一度に１つのスレッド６１０のみによって変更され得ることを保証し、同時のインデックス変更間のロックおよび競合を最小限に抑える。インデックス維持動作は、インデックスの構築動作、パージ動作、マージ動作、および発達動作を含む。インデックス維持は、インデックス照会およびその他のインデックス変更と同時に実行される。インデックス照会の最大の同時性を実現するために、ロックの代わりに、アトミックなポインタの交換が使用される。すべてのインデックス維持動作は、各インデックス変更（すなわち、ポインタの交換）がインデックスの有効な状態をもたらすような動作である。その結果、インデックス照会は非ブロッキングであり、ロックを引き起こさない。

さらに、図６に示されているように、スレッド６１０の割当てが１つのラン２５０だけシフトされ、すなわち、レベルＬのスレッド６１０は、レベルＬでの最初のラン以外のすべてのランに加えて、レベルＬ＋１での最初のランを処理する。

図７は、本発明の１つまたは複数の実施形態に従って、インデックス・ランを構築するための一例示的な方法のフローチャートを示している。インデックス維持は、グルーミングされたデータがインデックスから照会され得るように、グルーミングされたゾーン１０３内のデータ・ブロックに対して新しいインデックス・ラン２５０を作成するインデックス構築動作を含む。７０２で、インデックス・ラン２５０を構築するために、グルーミングされたゾーン１０３内のグルーミングされたブロックがスキャンされ、どの列（すなわち、等価列２１２、ソート列２１４、およびインクルード列２２０）がインデックス・ラン２５０に含められるかを決定する。さらに、７０４で、ＴＳＮ２３５が計算される。その上さらに、７０６で、等価列２１２（もしあれば）のハッシュ値２２５が計算される。

さらに、７０８で、ハッシュ値２２５、ソート列２１４、等価列２１２の昇順、および開始ＴＳ２３０の降順に、インデックス・エントリが並べ替えられる。７０８で、並べ替えられたエントリが、インデックス・データ・ブロックに連続的に書き込まれる。さらに、オフセット配列５１０が実質的に同時に計算される。

７１０で、他の必要なフィールドと共にオフセット配列５１０を書き出すことを含めて、すべてのエントリが書き出された後に、ヘッダー・ブロック４０２が作成される。７１２で、作成されたヘッダー４０２を指し示すように新しいインデックス・ラン２５０を設定し、ヘッダー４０２を新しいインデックス・ラン２５０として再設定することによって、新しいインデックス・ラン２５０がグルーミングされたラン・リストに追加される。同時のリーダの正しさを保証するために、ポインタ交換の順序が重要であるということに注意する。

図８は、本発明の１つまたは複数の実施形態に従って、インデックス・ランをパージするための一例示的な方法のフローチャートを示している。インデックス維持は、キャッシュ空間を解放するために一部のインデックス・エントリをキャッシュ１５５から削除する、インデックス・パージ動作を含む。通常、大規模なＨＴＡＰシステムは、メモリ１５０、キャッシュ１５５、および共有ストレージ１６０と共に、多層ストレージ階層（図３）を含む。ＳＳＤであることができるキャッシュ１５５は、インデックス照会を加速するために、共有ストレージ１６０のキャッシュ層として機能する。一般に、インデックス・ラン２５０は、共有ストレージ１６０がバックアップに使用されるように、ＳＳＤキャッシュ１５５に収まる。しかし、ＳＳＤキャッシュ１５５が満杯である場合、インデックスのパージが、一部のインデックス・エントリをＳＳＤキャッシュ１５５から削除して、キャッシュ空間を解放する。１つまたは複数の例では、最近のデータは、より頻繁にアクセスされると仮定される。したがって、インデックス２００が増大するにつれて、古いラン（すなわち、高レベルでのラン）がＳＳＤキャッシュ１５５からパージされ、キャッシュ空間を解放する。

インデックス・パージ動作は、図６を参照して上で説明されたインデックス維持スレッド６１０によって処理される。ランが適切な順序でパージされる（すなわち、より古いランが最初にパージされる）のを保証するために、現在のパージ・レベルが追跡される。現在のパージ・レベルは、パージされたランとキャッシュされたランを分離する。言い換えると、パージ・レベルを超えるすべてのラン２５０がパージされるが、パージ・レベルを下回るすべてのラン２５０がキャッシュされる。

現在のパージ・レベルのスレッドのみが、インデックス・ラン２５０をパージすることを許可される。８０２、８０４で、ＳＳＤキャッシュ空間が満杯である場合、現在のパージ・レベルに関連付けられたこのスレッド６１０が、データ・ブロックをＳＳＤキャッシュ１５５から削除することによって、自分に割り当てられたラン２５０をパージする。割り当てられたすべてのランがパージされた場合、スレッド６１０はパージ・レベルをデクリメントし、所有権を次の下位のレベルのスレッドに移す（８０６）。

図９は、一例示的なシナリオにおいて、本発明の１つまたは複数の実施形態に従って、パージ動作の視覚的説明を示している。示されたシナリオでは、ブロックＩＤ０～１８および１９～３６のインデックス・ラン２５０が、キャッシュ１５５から削除され、それに応じて、共有ストレージ１６０のみに格納される。

これに対して、８０８で、ＳＳＤキャッシュ１５５が空き領域を含む場合、最近のラン２５０が（パージの逆方向に）ＳＳＤキャッシュ１５５に読み込まれ、インデックス照会を加速する。読込みの場合、現在のパージ・レベルに割り当てられたスレッド６１０が、データ・ブロックを共有ストレージ１６０からＳＳＤキャッシュ１５５にキャッシュすることによって、対応するラン２５０を現在のパージ・レベルから読み込む（８１０）。さらに、８１２、８１４で、割り当てられたすべてのランがキャッシュされたときに、スレッド６１０がパージ・レベルをインクリメントし、所有権を次の上位のレベルのスレッドに移す。

インデックス維持動作は、インデックスのマージをさらに含む。インデックス・ラン２５０は、ラン２５０の数を制限して照会の性能を改善するために定期的にマージされ、より大きいインデックス・ラン２５０を形成する。本明細書において前に述べたように、マージは、各レベルで１つのインデックス・ラン２５０のみに制限することによってインデックス照会に対して最適化するレベリング・ポリシーを使用して実行される。この場合、第１のインデックス・ラン２５０のサイズが既定のしきい値を超えたときに、レベルＬでの第１のインデックス・ラン２５０が、次のレベル（Ｌ＋１）での第２のインデックス・ラン２５０とマージされる。したがって、第１のインデックス・ラン２５０は、満杯になって次のレベルにマージされる前に、複数回マージされる。これに対して、階層化ポリシーは、各レベルで複数のインデックス・ラン２５０を許可することによって、書込みの増幅に対して最適化する。この場合、レベルＬでのインデックス・ランが、レベルＬ＋１での新しいインデックス・ランにマージされる。本発明の１つまたは複数の実施形態は、レベリング・マージ技術と階層化マージ技術を組み合わせるハイブリッド・マージを使用することによって、書込みの増幅と照会の性能との間のトレードオフのバランスを調整する。階層化ポリシーと同様に、本発明者らは、各レベルで複数のインデックス・ラン２５０を許可する。一方、レベリング・ポリシーと同様に、レベルＬでのランのマージは、レベルＬ＋１での新しいランを常に作成するとは限らない。レベルＬ＋１での最初のランが（構成可能なパラメータとして）十分に大きくない場合、このランは、レベルＬでのランと一緒にマージされる。そうでない場合、レベルＬでのランは、レベルＬ＋１での新しいランにマージされる。したがって、図６に示されているように、レベルＬのインデックス維持スレッドは、レベルＬでの最初のインデックス・ラン２５０以外のすべてのインデックス・ラン２５０に加えて、レベルＬ＋１での最初のインデックス・ラン２５０に対して責任を負い、これは１つのランのシフトの割当てを引き起こす。

図１０は、本発明の１つまたは複数の実施形態に従って、インデックス・マージ動作のための一例示的な方法のフローチャートを示している。最初に、この方法は、９０２で、マージされる第１のインデックス・ランおよび第２のインデックス・ランの列をスキャンすることによって、マージされたインデックス・ランになる新しいインデックス・ラン２５０に作成する列を決定することを含む。グルーミングされたゾーン１０３内のグルーミングされたブロックからインデックス・ラン２５０を作成することと比較した場合、マージ動作中に新しいインデックス・ラン２５０を形成することには、マージされている各インデックス・ラン内のエントリがすでに並べ替えられているという違いがある。したがって、マージの場合、９０４で、マージされている２つのインデックス・ラン２５０をグローバルに並べ替えるために、マージ・ソートを実行する必要がある。

新しいランの書込みのターゲットは、ハイブリッド・インデックス２００の現在のインデックスのパージ・レベルおよび非永続的レベルによって決まる。特に、９０６、９０８で、新しいラン２５０が非永続的レベルに属している場合、このランは、ＳＳＤキャッシュ１５５のみに書き込まれる。そうでなく、９０６、９１０、および９１２で、ランのマージされたレベルが現在のインデックスのパージ・レベルを下回っている場合、新しいインデックス・ラン２５０が、ＳＳＤキャッシュ１５５と共有ストレージ１６０の両方に書き込まれ、それによって、インデックスのマージ後のキャッシュ・ミスを緩和する。最後に、９０６、９１０、および９０８で、新しいインデックス・ラン２５０が永続的であり、現在のインデックスのパージ・レベルを超えている場合、このインデックス・ランは、共有ストレージ１６０のみに書き込まれる。

次に、新しいインデックス・ラン２５０が、ラン・リスト内のマージされたインデックス・ランを置き換える。特に、９１４で、新しいインデックス・ラン２５０は、最後にマージされたランによってもともと指し示されていたインデックス・ラン２５０を指し示すように設定され、その後、最初にマージされたランの前のインデックス・ランが、新しいインデックス・ラン２５０を指し示すように設定される。２つのポインタが読み取られて設定され、これらの動作がアトミックでなく、次のレベルのスレッドによってポインタが同時に変更される可能性があるため、ランの置換えの正しさを保証するように、ラン・リストに対するロックが必要である。しかし、ロックのオーバーヘッドは、発生する頻度が低い（例えば、毎秒または毎分発生する）インデックス維持動作のみに影響を与えるため、無視することができ、これらのロックは、どのインデックス照会もブロックしない。

さらに、９１６で、最後のリーダが存在するときに、マージされたラン２５０が削除される。しかし、非永続的レベルの前の第１のレベルでのインデックス・ランは、マージされた後に直ちに削除されることができない。これは、そうしないと、システムがクラッシュしたときに、インデックス・ランが失われる可能性があるからである。代わりにこれらのランは、非永続的レベルの後の第１のレベルにマージされた後にのみ、追跡されて削除される。例えば、非永続的レベルがレベル１～２として構成されたと仮定する。すなわち、レベル０でのランがレベル１にマージされた場合、復元可能性のために、それらのランは直ちに削除されることができない。システムは、これらのランを追跡し、これらのランが、共有ストレージ１６０上で再び永続的になるレベル３にマージされた場合にのみ、これらのランを削除する。

インデックス維持は、データがグルーミングされたゾーン１０３内のブロックから後でグルーミングされたゾーン１０４内のブロックに発達させられるときに、インデックスを発達させることも含む。前に説明したように、ポストグルーマーは、グルーミングされたゾーン１０３内のデータ・ブロックを後でグルーミングされたゾーン１０４に定期的に移動し、それらのデータ・ブロックに、廃止され、最終的に削除されるとしてマークを付ける。それに応じて、廃止されたグルーミングされたブロックが参照されなくなるように、インデックス・エントリも、グルーミングされたラン・リストから、後でグルーミングされたラン・リストに発達させられる必要がある。しかし、インデックスの発達は、少なくとも次の課題に起因して、困難である。

まず、１つまたは複数のＨＴＡＰシステムにおいて、別々のプロセスによってデータの発達が処理される。例えば、ポストグルーマーは、インデックス作成プロセスとは異なるノード上で実行される分離したプロセスである。したがって、１つの課題は、インデックス発達動作中の複数のプロセス間の通信および協調を最小限に抑えることである。さらに、インデックス発達動作自体が、複数の変更をインデックスに適用し（例えば、新しいランを後でグルーミングされたラン・リストに追加し、グルーミングされたラン・リスト内の古いランを除去し）、これが、インデックス照会で非ブロッキングを実現することに別の課題をもたらす。

図１３は、本発明の１つまたは複数の実施形態に従って、インデックス発達動作を実行する一例示的な方法のフローチャートを示している。別々のプロセスによって処理されているデータの発達に対処するために、本発明の１つまたは複数の実施形態におけるインデックス発達動作は、どのような協調もなく、インデックス作成プロセスによって非同期的に実行される。各後のグルーミング動作の後に、ポストグルーマーは、この動作の後のグルーミング・シーケンス番号（ＰＳＮ：post groom sequence number）を公開し、持続させる。ＰＳＮは、後のグルーミング手順の各ランを一意に識別するための増加するシーケンス番号である。その一方で、インデックス作成プロセスは、インデックスが作成された最大の後のグルーミング・シーケンス番号（すなわち、インデックス作成済みのＰＳＮ）を追跡し、最新のＰＳＮをポーリングし続ける。１００２、１０１０、および１０２０で、インデックス作成済みのＰＳＮがＰＳＮよりも小さい場合、インデックス作成プロセスは、インデックス作成済みのＰＳＮ＋１のインデックス発達動作を実行して、適切な順序でのインデックスの発達を保証し、動作が終了したときに、インデックス作成済みのＰＳＮをインクリメントする。後のグルーミング動作が、新しいデータを何も生成せずに、データをあるゾーンから別のゾーンに移動するだけであるため、非同期のインデックスの発達がインデックス照会に影響を与えないということに、注意するべきである。照会の場合、グルーミングされたゾーン１０３からのレコードにアクセスすること、または後でグルーミングされたゾーン１０４からのレコードにアクセスすることに、違いはない。

グルーミングされたラン・リスト内の古いランを除去し、インデックス照会で非ブロッキングを実現するために、本発明の１つまたは複数の実施形態は、インデックス発達動作を一連のアトミックな下位の動作に分解する。各下位の動作は、インデックスの状態のアトミックな変更である。すべての下位の動作が正しいインデックスの状態をもたらし、したがって、インデックス照会での非ブロッキングおよびロックなしを実現するということが、さらに保証される。例えば、特定の後のグルーミング・シーケンス番号のインデックス発達動作は、次のように実行される。まず、この後のグルーミング動作によって生成されたデータ・ブロックのインデックス・ラン２５０が構築され、その後、後でグルーミングされたラン・リストに追加される（１０１２）。ランのヘッダー・ブロックが、このランが対応するグルーミングされたブロックＩＤの範囲をまだ含んでいるということに、注意するべきである。次に、１０１４で、後でグルーミングされたラン・リスト内のランの対象になる最大のグルーミングされたブロックＩＤが更新される。この時点で、この更新された値以下である終了グルーミング・ブロックＩＤ（end groom block ID）を含むグルーミングされたラン・リスト内のすべてのランは、これらのラン内のエントリがすでに、後でグルーミングされたリストの対象になっているため、自動的に廃止され、インデックス照会によって無視される。最後に、１０１６で、各インデックス維持スレッドによって、グルーミングされたラン・リスト内の廃止されたランに対してガベージ・コレクションが実行される。１つまたは複数の例では、ガベージ・コレクションは、グルーミングされたリスト内のランの数が既定のしきい値を超えた後に実行される。他のインデックス維持動作を実行する前に、最初にスレッドが、廃止されたランをラン・リストから削除し、これらのランに対する他のインデックス維持動作との同時の変更を防ぐ。

上記の各ステップは、ハイブリッド・インデックス２００に対して１つの変更のみを行うため、アトミックである。上記のステップのうちの任意の２つの間で、ハイブリッド・インデックス２００は、重複するエントリを含んでいる可能性があり、すなわち、グルーミングされたランおよび後でグルーミングされたランの両方によって、同じバージョンを有するレコードにインデックスが作成されることがある。さらに、後のグルーミング動作によって利用されるグルーミングされたゾーン１０３内のグルーミングされたブロックが、インデックス・ラン２５０の境界に完全に一致しないことがあるため、インデックス発達動作の最後のステップの後でさえ、ハイブリッド・インデックス２００が重複をまだ含んでいる可能性がある。しかし、重複はインデックス照会にとって有害ではない。重複は、照合キーごとに１つのバージョンのみが返されることを保証するために、照会処理の動作中に削除されるが、重複を含んでいる残りの部分は破棄される。本明細書では、照会処理の詳細がさらに説明される。

図１１および図１２は、一例示的なシナリオにおいて、本発明の１つまたは複数の実施形態に従って、インデックス・マージ動作の視覚的説明を示している。ここで、マージされるインデックス・ラン２５０は、ブロックＩＤ６７～７０および７１～７２、ブロックＩＤ５５～６０および６１～６６、ならびにブロックＩＤ０～１８および１９～３６のインデックス・ランである。図１１は、マージされたインデックス・ラン２５０の作成を示している。図１２は、マージされたインデックス・ラン２５０が作成された後にアトミックなポインタの更新が実行される、マージ動作の第２の段階を示している。さらに、新たに作成されたインデックス・ランに現在マージされている前のインデックス・ランに対して、ガベージ・コレクションが実行される。図に示されているように、レベルのいずれかにおいて、マージ動作が実行されることができ、さらに、マージされたランが、マージされたインデックス・ランを作成するためにマージされたインデックス・ラン２５０と異なるレベルに割り当てられることができる。

図１４は、本発明の１つまたは複数の実施形態に従って、インデックの発達の一例示的なシナリオを示している。示された特定の例は、グルーミングされたブロック１１～１８が後でグルーミングされた後の、結果のインデックスを示しており、ここでは、元のインデックスが図４に示されている。ここで、新たに後でグルーミングされたデータに関して、ブロックＩＤ１１～１８の新しいインデックス・ラン１１１０が作成されている。ブロックＩＤ１１～１５のラン１２５０は、そのエントリが新しいインデックス・ラン１１１０の対象に完全になっているため、その後の照会によって無視される。インデックス維持スレッド６１０が次回起動するときに、インデックス維持スレッド６１０によって、ラン１２５０に対してさらにガベージ・コレクションが実行される。さらに、ブロックＩＤ１６～２０のインデックス・ラン２２５０が、新しいインデックス・ラン１１１０と重複するエントリをまだ含んでいるということに注意するべきである。これらの重複は、照会処理中に削除される。

図１５は、本発明の１つまたは複数の実施形態に従って、インデックス維持動作用の疑似コードを提供している。前に述べたように、インデックス維持スレッド６１０によってインデックス維持動作が実行され、各スレッドが、特定のレベルからのインデックス・ラン２５０のリストに割り当てられる。スレッド６１０は、最初に、割り当てられたインデックス・ラン２５０のいずれかが別のゾーンに発達した場合、割り当てられたインデックス・ラン２５０に対してガベージ・コレクションを実行する。その後、現在のパージ・レベルが割り当てられたレベルに等しい場合、スレッドは、現在のキャッシュ空間に基づいてインデックス・ランをパージするか、または読み込む。最後に、このレベルでのランの数が事前に定義されたしきい値を超えた場合、スレッド６１０は、割り当てられたインデックス・ラン２５０をマージする。

本発明の１つまたは複数の実施形態では、グルーミング動作または後のグルーミング動作の後の新しいインデックス・ランの構築は、インデックス維持スレッド６１０によって処理されない。代わりに、グルーミングされたゾーン１０３内のデータに対する新しいインデックス・ラン２５０の構築は、グルーマー・スレッドによって処理されるグルーミング動作の一部である。後でグルーミングされたゾーン１０４内のデータにインデックスを作成することは、新しい後のグルーミング動作が実行されているかどうかを確認するために最新のＰＳＮを定期的に読み取る、インデックス作成プロセスの専用のスレッドによって実行される。

本明細書において説明されているように、本発明の１つまたは複数の実施形態に従うハイブリッド・インデックス２００は、システムの故障などの場合に、インデックス作成を再び実行する必要なくシステムの効率的な回復を容易にする、永続的インデックスである。これは、非永続的レベルでのインデックス・ラン２５０を除くすべてのインデックス・ラン２５０が、共有ストレージ１６０内で安全に永続的になるためである。各インデックス・ラン２５０が構築されてハイブリッド・インデックス２００に追加された後に、グルーミングされた／後でグルーミングされたラン・リストの最大のグルーミングされたブロックＩＤが更新され、永続的になる。しかし、インデックス作成プロセスがクラッシュし、ローカル・ノード内のすべてのデータ構造を失う可能性がある。したがって、ハイブリッド・インデックス２００を回復するために、共有ストレージ１６０に格納されたインデックス・ラン２５０に基づいてラン・リストを再構築し、もしあれば、不要データおよび不完全なランを除去する必要がある。

図１６は、本発明の１つまたは複数の実施形態に従って、ラン・リストを回復する疑似コードを示している。この例では、関数ＲｅｃｏｖｅｒＲｕｎＬｉｓｔが、そのラン・リストの最大のグルーミングされたブロックＩＤ（ｍａｘＩＤ）および最小のグルーミングされたブロックＩＤ（ｍｉｎＩＤ）を入力として受け取る。この関数は、ｍａｘＩＤから開始し、終了ブロックＩＤがｍａｘＩＤである最高レベルでのランを検出する。次に、この関数は、ｍａｘＩＤをこのランの開始ブロックＩＤから１を引いた値として設定することによって、後方に検索する。このプロセスは、ｍａｘＩＤがｍｉｎＩＤ未満になるまで反復される。

２つのラン・リストを回復するために、適切なｍａｘＩＤおよびｍｉｎＩＤを使用してＲｅｃｏｖｅｒＲｕｎＬｉｓｔ関数が呼び出される。どちらのリストの場合も、ｍａｘＩＤは、永続的である対応する最大のグルーミングされたブロックＩＤとして設定される。しかし、グルーミングされたラン・リストのｍｉｎＩＤは、後でグルーミングされたラン・リストの最大のグルーミングされたブロックＩＤに１を加えた値として設定される。これは、この値を下回るすべてのインデックス・エントリが、後でグルーミングされたラン・リストにすでに発達させられているからである。一方、グルーミングされたブロックＩＤが０から開始すると仮定して、後でグルーミングされたラン・リストのｍｉｎＩＤは、単に０として設定される。２つのラン・リストが回復された後に、すべての使用されていないラン・ブロック・ファイルは、マージされたランまたは不完全なランのいずれかに対応するため、単に削除される。

ラン・リストが回復された後に、インデックスは、インデックス照会を処理する準備ができている。インデックス作成済みのＰＳＮが現在のＰＳＮ未満である場合、前に説明したように、インデックス作成済みのＰＳＮが最終的に追い付くまで、インデックス発達動作が非同期的に実行される。

この方法で作成されて維持されるハイブリッド・インデックス２００は、既存の技術と比較して、効率的な方法で照会を処理することを容易にし、本明細書において説明されているように、複数のゾーンの照会を容易にする。ハイブリッド・インデックス２００が複数のバージョンのインデックスであるため、照会は、照会タイムスタンプ（query timestamp）（照会ＴＳ）を指定する必要があり、照合キーごとの最新のバージョン（すなわち、開始ＴＳ≦照会ＴＳになるような最大の開始ＴＳ２３０を含むバージョン）のみが返される。

一般に、２種類のインデックス照会がサポートされる。１つ目は、すべての等価列２１２（もしあれば）の値およびソート列２１４の境界を指定し、各照合キーの最新のバージョンを返す、範囲スキャン照会である。２つ目は、インデックス・キー（すなわち、主キー）全体を指定し、多くても１つの一致するレコードが返される、点検索照会である。

インデックス照会を処理するために、ラン・リストを反復し、ランの概要をチェックすることによって、候補ランが最初に収集される。インデックス・ラン２５０は、照会で指定されたようなすべての列値が概要の列の範囲を満たす場合にのみ、候補と見なされる。すべてのインデックス・ラン２５０がＳＳＤキャッシュ１５５から読み取られるということにも注意する。照会がパージされたランにアクセスする必要がある場合、インデックス・ランが、最初にブロックごとに共有ストレージ１６０からＳＳＤキャッシュ１５５に転送され、すなわち、ラン・データ・ブロック４０２全体が同時に転送され、その後のアクセスを容易にする。照会が終了した後に、キャッシュされたデータ・ブロックが解放され、キャッシュの置換えの場合、さらに削除される。

図１７は、本発明の１つまたは複数の実施形態に従って、単一のインデックス・ランに対して範囲スキャン照会を実行するための一例示的な方法のフローチャートを示している。１４０２で、受信された照会に対して、単一のランの検索が、そのインデックス・ラン２５０内の照合キーごとに、最新のバージョンを返す。１４０８で、単一のラン内の第１の照合キーの位置が最初に特定される。インデックス・ラン２５０が並べ替えられた行のテーブルであるため、本発明の１つまたは複数の実施形態では、連結された下限（すなわち、ハッシュ値、等価列値、およびソート列値の下限）と共に、二分探索が使用される。１４０４、１４０６で、オフセット配列が使用可能である場合、ハッシュ値の最上位ｎビット（ｉとして示される）を計算し、オフセット配列内のｉ番目の値およびｉ＋１番目の値を取得することによって、初期検索範囲を絞り込むことができる。

第１の照合キーが決定された後に、連結された上限（すなわち、ハッシュ値、等価列値、およびソート列値の上限の連結）に達するまで、インデックス・エントリが反復される。１４１０で、反復中に、タイムスタンプ述語（timestamp predicate）（開始ＴＳ≦照会ＴＳ）を満たさないエントリが除去される。１４１２で、残りのエントリについて、インデックス・キーと、開始ＴＳの降順とでエントリが並べ替えられているため、キーごとに、最大の開始ＴＳを含むエントリが返される。

デバイスが等価列２１２であるが、ｍｓｇがソート列２１４である図５の例示的なランについて再び検討する。デバイス＝４、ｍｓｇの境界が［１，３］、照会ＴＳ＝１００である、範囲スキャン照会について考える。ここで、オフセット配列５１０から初期検索範囲（すなわち、２～６）を取得するために、ハッシュ（４）＝１００１０００１の最上位３ビット（すなわち、１００）が使用される。この例では、入力下限（１００１０００１、４、１）を使用する二分探索の後の第１の照合キーは、エントリ２である。次に、インデックス・エントリが、エントリ２から開始して反復される。エントリ２は、キー（４，１）の最新のバージョンであるため返され、一方、エントリ３は、エントリ２のより古いバージョンであるため、除去される。しかし、エントリ４は、その開始ＴＳ１０２が照会ＴＳを超えているため、除去される。この反復は、入力上限（１００１０００１、４、３）を超えているエントリ５で停止される。

したがって、単一ラン・インデックスを使用して、範囲スキャン照会で、一致するエントリが効率的に識別される。

複数ラン・インデックスの場合、前述したように一致するエントリを識別するために、各ランが独立してスキャンされる。さらに、各インデックス・ランを独立して検索した後に、照合キーごとに最新のバージョンのみが返されることを保証するように、複数のランから返された結果が調整される。例えば、２つの方法が調整に使用される。

第１のセットに基づく方法では、最新のインデックス・ラン２５０から最古のランまで連続的に検索が実行され、照会にすでに返されているキーに関してキーのセットが維持される。以前にキーが返されなかった（すなわち、セット内にない）場合、キーがセットに追加され、対応するエントリが照会に返され、そうでない場合、より新しいランからのより最近のバージョンがすでに返されているため、エントリが無視される。

代替として、優先度キューの方法では、複数のインデックス・ランが一緒に検索され、キーのグローバルな順序付けを維持するために、各インデックス・ラン２５０から返された結果が優先度キューに供給される。キーが順序付けられた後に、各キーの最新のバージョンが選択され、中間結果を記憶せずに残りのバージョンが破棄される。

点検索照会は、範囲スキャン照会の特殊な一事例と見なすことができ、ここでは、多くても１つのエントリが返されるように、主キー全体が指定される。特殊な最適化として、最新のランから最古のランまで連続的に検索が実行され、一致が検出された後に、早期に停止される。したがって、単一のランを検索するために使用される方法（図１７）が使用され、ソート列値の下限および上限が同じである。

大規模な一括した点検索の場合、すなわち、二次インデックスから一次インデックスへのアクセス経路として、各点検索を直接評価する代わりに、ハッシュ値２２５、等価列値２１２、およびソート列値２１４によって、最初に入力キーが並べ替えられる。さらに、各入力キーは、この入力がこれまで検出されたことがあるかどうかを示すブール値に関連付けられる。次に、並べ替えられた入力キーは、各ラン・ブロックが多くても１回アクセスされるように、すべてのブール値が真に設定されるまで、最新のランから最古のランまで一度に１つのランについて、各インデックス・ランに対して連続的に検索される。

したがって、本発明の１つまたは複数の実施形態は、ハイブリッド・インデックス構造によるＨＴＡＰシステムの性能の改善を促進する。本明細書に記載されたハイブリッド・インデックスは、回復／再起動が容易な分散された複数バージョン、複数ゾーンのログ構造化インデックスを提供する。インデックスの部分が、ストレージ階層内で移動するのが容易であり、素早い回復をさらに促進する。本明細書に記載されたインデックスの構造によれば、情報がメモリ内で保持されず、インデックスのレベルが、永続的または非永続的のいずれかになることができる。レベルが非永続的である場合、それらの内容は、前の最後の永続的レベルまたはコミットされたログから回復可能である。

さらに、本明細書に記載されたハイブリッド・インデックス構造は、分散された複数バージョンのログ構造化インデックスから、データの正しいバージョンを効率的に返すことを容易にする。大規模なハイブリッド・トランザクション／分析処理システムは、通常はトランザクション／挿入／更新／削除に適したゾーンであるデータ・ゾーン内のより最近のデータ、および分析／スキャンに適したゾーン内のより古いデータを含む、複数のゾーンにわたって、データを異なって編成する。分析に適したゾーンが複数存在することもある。システム内でデータが古くなるにつれて、データは、あるゾーンから別のゾーンに発達する。キー／タプルの正しいバージョンを検索して返すために、優先度キューが使用され、キーのグローバルな順序付けを維持するために、（同じデータ・ゾーンまたは異なるデータ・ゾーンのいずれかからの）複数のインデックス・ランが同時に検索される。キーが順序付けられた後に、各キーの最新のバージョンが選択されることができ、中間結果を記憶する必要なしに、残りのバージョンが破棄されることができる。

本発明の１つまたは複数の実施形態は、データの２つのゾーンを含むＨＴＡＰシステムを使用して説明されているが、本明細書に記載された特徴が、複数のゾーンのデータ編成を含む他のＨＴＡＰシステムをサポートするためにも使用され得るということに、注意するべきである。複数のゾーンをサポートするために、本明細書において提示されたような２つのゾーンの代わりに、ハイブリッド・インデックスが複数のラン・リストを使用して構造化され、複数のラン・リストの各々はデータの１つのゾーンに対応する。データがあるゾーンから別のゾーンに発達するときに、対応するインデックス・エントリも、インデックス発達動作を介して、あるラン・リストから別のラン・リストに発達させられる。

したがって、本発明の１つまたは複数の実施形態は、トランザクション処理と分析の両方に対して最適化され得るＬＳＭツリーを利用して回復可能なインデックス構造を取得する、回復可能な分散された複数バージョン、複数ゾーンのインデックスを容易にする。

本発明は、任意の可能な統合の技術的詳細レベルで、一システム、一方法、または一コンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を含むコンピュータ可読ストレージ媒体を含んでよい。

コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持および格納できる有形のデバイスであることができる。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組合せであってよいが、これらに限定されない。コンピュータ可読ストレージ媒体のさらに具体的な例の非網羅的リストは、ポータブル・フロッピー（Ｒ）・ディスク、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読取り専用メモリ（ＲＯＭ：read-only memory）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ：erasable programmable read-only memoryまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：static random access memory）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ：compact disc read-only memory）、デジタル・バーサタイル・ディスク（ＤＶＤ：digital versatile disk）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令が記録されている溝の中の隆起構造などの機械的にエンコードされるデバイス、およびこれらの任意の適切な組合せを含む。本明細書において使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が、電波またはその他の自由に伝搬する電磁波、導波管またはその他の送信媒体を通って伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、あるいはワイヤを介して送信される電気信号などの一過性の信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から各コンピューティング・デバイス／処理デバイスへ、またはネットワーク（例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組合せ）を介して外部コンピュータまたは外部ストレージ・デバイスへダウンロードされる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えてよい。各コンピューティング・デバイス／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティング・デバイス／処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：instruction-set-architecture）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、またはＣ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードまたはオブジェクト・コードのいずれかであってよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に実行すること、ユーザのコンピュータ上でスタンドアロン・ソフトウェア・パッケージとして部分的に実行すること、ユーザのコンピュータ上およびリモート・コンピュータ上でそれぞれ部分的に実行すること、あるいはリモート・コンピュータ上またはサーバ上で全体的に実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：local area network）または広域ネットワーク（ＷＡＮ：wide area network）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてよい。一部の実施形態では、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ：field-programmable gate arrays）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：programmable logic arrays）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路をカスタマイズするためのコンピュータ可読プログラム命令を実行し得る。

本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方に含まれるブロックの組合せが、コンピュータ可読プログラム命令によって実装され得るということが理解されるであろう。

これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読ストレージ媒体がフローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含む製品を備えるように、コンピュータ可読ストレージ媒体に格納され、コンピュータ、プログラム可能なデータ処理装置、または他のデバイス、あるいはその組合せに特定の方式で機能するように指示できるものであってもよい。

コンピュータ可読プログラム命令は、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスに読み込まれてもよく、それによって、一連の動作可能なステップを、コンピュータ上、その他のプログラム可能な装置上、またはコンピュータ実装プロセスを生成するその他のデバイス上で実行させる。

図内のフローチャートおよびブロック図は、本発明のさまざまな実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図内の各ブロックは、規定された論理機能を実装するための１つまたは複数の実行可能な命令を備える、命令のモジュール、セグメント、または部分を表してよい。一部の代替の実装では、ブロックに示された機能は、図に示された順序とは異なる順序で発生し得る。例えば、連続して示された２つのブロックは、実際には、含まれている機能に依って、実質的に同時に実行されるか、または場合によっては逆の順序で実行されてよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方に含まれるブロックの組合せは、規定された機能または動作を実行するか、あるいは専用ハードウェアとコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実装され得るということにも注意する。

本発明のさまざまな実施形態の説明は、例示の目的で提示されているが、網羅的であることは意図されておらず、開示された実施形態に限られない。記載された実施形態の範囲および思想から逸脱することなく多くの変更および変形が可能であることは、当業者にとって明らかであろう。本明細書で使用された用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改良を最も適切に説明するため、または当業者が本明細書に記載された実施形態を理解できるようにするために選択されている。

Claims

コンピュータの情報処理による方法であって、
第１のゾーンがトランザクション処理用に編成されたデータを含み、第２のゾーンが分析処理用に編成されたデータを含む、複数のゾーンを含んでいる複数のゾーンのデータ・ストレージ・システムにハイブリッド・インデックスを作成することであって、前記ハイブリッド・インデックス内の各インデックス・エントリが、少なくとも、
等価列を含んでいるインデックス・キーと、
前記インデックス・エントリに対応する前記データが挿入された時間のタイムスタンプを示す開始タイムスタンプ列と、
階層型ストレージ内の前記インデックス・エントリの位置を示すタプル・シーケンス番号列と
を含む、前記作成することと、
前記ハイブリッド・インデックスに含められるインデックス・ランを構築することであって、前記インデックス・ランが複数のインデックス・エントリを含み、前記インデックス・ランを構築することが、
前記第１のゾーンから、前記インデックス・ランに関連付けられるデータ・ブロックをスキャンすることによって、前記インデックス・ランに作成する列を決定することと、
前記ハイブリッド・インデックスに含められる前記インデックス・エントリのタプル・シーケンス番号の値を計算することであって、前記タプル・シーケンス番号の値が前記タプル・シーケンス番号列に格納される、前記計算することと、
前記インデックス・ランに含められる前記列を使用して、既定の順序に従って前記インデックス・エントリを並べ替えることと
を含む、前記構築することと
を含む、方法。
前記インデックス・ランを構築することが、
前記インデックス・ランのヘッダーを作成することであって、前記ヘッダーが、インデックス・ラン・ポインタの現在の値に設定されたポインタを含む、前記作成することと、
前記ヘッダーを指し示すように前記インデックス・ラン・ポインタの値を設定することと
をさらに含む、請求項１に記載の方法。
前記インデックス・ラン内に格納されたデータ要素の概要が前記ヘッダー内に格納される、請求項２に記載の方法。
前記インデックス・エントリがハッシュ列をさらに含み、前記インデックス・ランを構築することが、
前記等価列のハッシュ値を前記インデックス・エントリから計算すること
をさらに含み、前記ハッシュ値が前記ハッシュ列に格納される、請求項２に記載の方法。
前記インデックス・ランを構築することが、
前記インデックス・ランのオフセット配列を計算すること
をさらに含み、前記オフセット配列が前記ヘッダーに格納され、前記オフセット配列が、前記ハッシュ値の最上位ｎビットを前記インデックス・ラン内の前記インデックス・エントリのオフセットにマッピングする、請求項４に記載の方法。
前記インデックス・エントリがソート列を前記インデックス・キーにさらに含む、請求項１に記載の方法。
前記インデックス・ランにレベル番号が割り当てられ、前記レベル番号が、前記インデックス・ランを構築するために使用されるデータのソースを示す、請求項１に記載の方法。
前記レベル番号が、前記インデックス・ランに関連付けられた前記データが格納されるゾーンをさらに示し、前記ゾーンが、前記複数のゾーンのデータ・ストレージ・システム内の前記複数のゾーンのうちの１つである、請求項７に記載の方法。
各レベルからの１つまたは複数のインデックス・ランを維持するために、分離したスレッドを割り当てることをさらに含む、請求項７に記載の方法。
階層型データ・ストレージを含んでいるストレージ・システムと、
前記ストレージ・システムに結合された１つまたは複数の処理ノードと
を備えているシステムであって、前記１つまたは複数の処理ノードが、第１のゾーンがトランザクション処理用に編成されたデータを含み、第２のゾーンが分析処理用に編成されたデータを含む、複数のゾーンを含んでいる複数のゾーンのデータ・ストレージ・システムにハイブリッド・インデックスを作成して維持するように構成され、前記ハイブリッド・インデックス内の各インデックス・エントリが、少なくとも、
等価列を含んでいるインデックス・キーと、
前記インデックス・エントリに対応する前記データが挿入された時間のタイムスタンプを示す開始タイムスタンプ列と、
階層型ストレージ内の前記インデックス・エントリの位置を示すタプル・シーケンス番号列と
を含み、
前記１つまたは複数の処理ノードが、前記ハイブリッド・インデックスに含められるインデックス・ランを構築するように構成され、前記インデックス・ランが複数のインデックス・エントリを含み、前記インデックス・ランを構築することが、
前記第１のゾーンから、前記インデックス・ランに関連付けられるデータ・ブロックをスキャンすることによって、前記インデックス・ランに作成する列を決定することと、
前記ハイブリッド・インデックスに含められる前記インデックス・エントリのタプル・シーケンス番号の値を計算することであって、前記タプル・シーケンス番号の値が前記タプル・シーケンス番号列に格納される、前記計算することと、
前記インデックス・ランに含められる前記列を使用して、既定の順序に従って前記インデックス・エントリを並べ替えることと
を含む、システム。
前記インデックス・ランを構築することが、
前記インデックス・ランのヘッダーを作成することであって、前記ヘッダーが、インデックス・ラン・ポインタの現在の値に設定されたポインタを含む、前記作成することと、
前記ヘッダーを指し示すように前記インデックス・ラン・ポインタの値を設定することと
をさらに含む、請求項１０に記載のシステム。
前記インデックス・ラン内に格納されたデータ要素の概要が前記ヘッダー内に格納される、請求項１１に記載のシステム。
前記インデックス・エントリがハッシュ列をさらに含み、前記インデックス・ランを構築することが、
前記等価列のハッシュ値を前記インデックス・エントリから計算することであって、前記ハッシュ値が前記ハッシュ列に格納される、前記計算することと、
前記インデックス・ランのオフセット配列を計算することと
をさらに含み、前記オフセット配列が前記ヘッダーに格納され、前記オフセット配列が、前記ハッシュ値の最上位ｎビットを前記インデックス・ラン内の前記インデックス・エントリのオフセットにマッピングする、請求項１１に記載のシステム。
前記インデックス・ランにレベルが割り当てられ、レベル番号が、前記インデックス・ランを構築するために使用されるデータのソースを示し、前記レベル番号が、前記インデックス・ランに関連付けられた前記データが格納されるゾーンをさらに示し、前記ゾーンが、前記複数のゾーンのデータ・ストレージ・システム内の前記複数のゾーンのうちの１つである、請求項１０に記載のシステム。
請求項１～９の何れか１項に記載の方法をコンピュータに実行させる、コンピュータ・プログラム。
請求項１５に記載の前記コンピュータ・プログラムを、コンピュータ可読ストレージ媒体に記憶した、ストレージ媒体。
コンピュータの情報処理による方法であって、
第１のインデックス・ランおよび第２のインデックス・ランという２つのインデックス・ランを、階層型データ・ストレージを使用してデータが格納されるデータベース内でマージすることの要求の受信に応答して、
前記第１のインデックス・ランからの列および前記第２のインデックス・ランからの列を含むための第３のインデックス・ランを作成することと、
マージ・ソートを使用して、前記第１のインデックス・ランからの前記列および前記第２のインデックス・ランからの前記列をグローバルに並べ替えることと、
前記第３のインデックス・ランが非永続的レベルに属するということの決定に基づいて、前記第３のインデックス・ランをキャッシュ・ストレージのみに格納することと、
前記第３のインデックス・ランが永続的レベルに属し、前記第３のインデックス・ランのレベル番号がパージ・レベルを下回るということの決定に基づいて、前記第３のインデックス・ランを前記キャッシュ・ストレージおよび共有ストレージに格納することと、
前記第３のインデックス・ランが永続的レベルに属し、前記第３のインデックス・ランの前記レベル番号が前記パージ・レベル以上であるということの決定に基づいて、前記第３のインデックス・ランを前記共有ストレージのみに格納することと
を含む、方法。
前記データベース内のインデックス・ランのリストを更新すること
をさらに含み、前記更新することが、
前記第１のインデックス・ランのアドレスを指し示す第４のインデックス・ランのポインタを変更することであって、前記ポインタが前記第３のインデックス・ランのアドレスに変更される、前記変更することと、
前記第１のインデックス・ランおよび前記第２のインデックス・ランを削除することと
を含む、請求項１７に記載の方法。
前記第１のインデックス・ランおよび前記第２のインデックス・ランが、前記第１のインデックス・ランおよび前記第２のインデックス・ランが前記永続的レベルに属するインデックス・ランにマージされた後に、削除される、
請求項１８に記載の方法。
請求項１７～１９の何れか１項に記載の方法の各ステップをコンピュータ・ハードウェアによって実行する、システム。