JP5818394B2 - 大量データプラットフォームを操作するシステム及び方法 - Google Patents

大量データプラットフォームを操作するシステム及び方法 Download PDF

Info

Publication number
JP5818394B2
JP5818394B2 JP2014541254A JP2014541254A JP5818394B2 JP 5818394 B2 JP5818394 B2 JP 5818394B2 JP 2014541254 A JP2014541254 A JP 2014541254A JP 2014541254 A JP2014541254 A JP 2014541254A JP 5818394 B2 JP5818394 B2 JP 5818394B2
Authority
JP
Japan
Prior art keywords
data
storage system
query
client
client data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014541254A
Other languages
English (en)
Other versions
JP2015501976A (ja
Inventor
貞之 古橋
貞之 古橋
裕誠 芳川
裕誠 芳川
一樹 太田
一樹 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Treasure Data Inc
Original Assignee
Treasure Data Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Treasure Data Inc filed Critical Treasure Data Inc
Publication of JP2015501976A publication Critical patent/JP2015501976A/ja
Application granted granted Critical
Publication of JP5818394B2 publication Critical patent/JP5818394B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Description

[関連出願のクロスリファレンス]
本出願は、2011年11月10日に出願された米国暫定特許出願第61/558,395号の利益を請求する。この出願は、全体が参照により組み込まれている。
本出願は、一般的に、データ集約型分散システムフィールドに関し、特に、分散システムフィールドにおける大量データプラットフォームを操作する新規で有用なシステム及び方法に関する。
技術の開発は、取扱い可能なデータ量の増加をもたらした。このようなデータは、多くの有用なアプリケーションを有しており、多くの企業がそのデータを分析できるという利点がある。大規模データセットを扱うための特殊なシステムが開発されている。Hadoopは、MapReduceを利用する大規模データセット用に設計されたプラットフォームの一例である。しかしながら、ウェブサイトやアプリケーションの多くは、大量のデータをうまく利用できるものとはかけ離れたシステム基盤の上に構築されている。Hadoopなどのプラットフォームをうまく利用するには、システムを新しいプラットフォーム用に設計し直さなければならない。このような基盤の変更は時間がかかり、費用が高い。更に、大規模データセット用に設計されたプラットフォームは、専門性が高く知識に精通した者を必要とする。既存のウェブサイトやアプリケーションを開発している人々のほとんどは、このようなスキルを持っていない。したがって、大規模データ集約型分散システムのフィールドでは、データ集約型基盤と一体化する新規で有用なシステムと方法を作ることが求められている。本発明は、このような新規かつ有用なシステムと方法を提供する。
図1は、本発明の好ましい実施例のシステムを表す図である。 図2は、本発明の好ましい実施例のシステムの実装を示す例示的な図である。 図3は、クライアントのアプリケーションを一体化したデータエージェントの一例を詳細に示す図である。 図4は、リアルタイム及びアーカイブストレージに使用する列及び行フォーマットへのユーザデータの変換を示す図である。 図5は、コマンドラインインターフェースの例示的サンプルを示す図である。 図6は、本発明の好ましい実施例の方法を示す図である。 図7は、本発明の好ましい実施例のリアルタイムストレージシステムとアーカイブストレージシステムに協調的に問い合わせを行う変形例を示す図である。
本発明の好ましい実施例についての以下の記載は、本発明をこれらの好ましい実施例に限定しようとするものではなく、当業者に本発明を作成して使用できるようにするものである。
1.大量データプラットフォームの操作システム
図1に示すように本発明の好ましい実施例の大量データプラットフォームを操作するシステム100は、離散イベントチャネルと一体化したクライアントデータエージェント110と、遠隔分散型ストレージシステム120と、問い合わせ処理クラスタ130と、問い合わせインターフェース140を具える。遠隔分散ストレージシステムは、更に、リアルタイムストレージシステム122とアーカイブストレージシステム124を具える。このシステムは、あらゆる基盤にアプリケーションを構築できるように機能して、特殊かつ専門的な基盤のデータ処理能力から利益を得ている。このシステムは、クライアントのアプリケーションから独立して機能するので、大量のデータ処理の要求が、クライアントの単純なインターフェースに取り込まれる。このシステムは、好ましくは、分散した計算環境に配置した列ベースのアーカイブストレージシステム124とデータ集約型問い合わせ処理クラスタ130を使用して、拡張可能なシステム上で迅速なデータの相互作用を可能にしている。このシステムは、更に、マルチテナントサービスとして機能するように構成して、様々なクライアントがシステムを同時に使用できるようにしてもよい。様々なユーザのデータは、好ましくは安全に、他のユーザデータから隔離されたフォーマットで保管される。問い合わせ処理クラスタは、好ましくは、マルチテナント基盤のユーザが共用する。システム100は、テラバイト、ペタバイト、あるいはより大きなデータサイズで測定されるデータセットなど、大量のデータセットに使用するのに適している。このシステムは、アプリケーションを操作するときに周期的に直面する一般的な分散された組織化されていないデータを使用し、このような組織化されていないデータを大量のデータセットから組織化されたデータに変換するときに利点がある。関連する利点として、このシステムは、既存のアプリケーションとデータソースを、大量データプラットフォームから容易にかつ有機的に利益を享受させることができる。このことは、大量のデータ処理について考慮することなく設計された既存のアプリケーションとデータソースにも当てはまる。言い換えれば、このシステムによって、伝統的なアプリケーションが、非伝統的なデータマネージメントツールを必要とするデータの分析から利益を享受することができる。図2に示すように、このシステムは、好ましくは、Hadoopと、いくつかのベースコンポーネントについてのクラウドホスティングサービスを利用して構築できる。このシステムは、代替的に、適宜のコンポーネントを具えていてもよく、あるいは適宜の基盤に構築することもできる。
好ましい実施例のクライアントデータエージェント110は、クライアントのシステムと一体化して、データの小部分を遠隔分散ストレージシステムに通信するように機能する。イベントチャネル又はインターフェースによって、ウェブサイト、アプリケーション、サービス、又は適宜のネットワークプログラムがイベントデータを供給することができる。クライアントデータ(例えば、イベントデータ)は、好ましくは分散イベントデータである。分散イベントデータは、好ましくは、イベントの時間、イベントの種類、及び/又は、適宜の追加イベント特性に関連性がある。イベントチャネルは、データベースログ、アプリケーションログ、システムログ、センサデータストリーム、ウエブコンテンツ、あるいは適宜のデータソースである。通常は、アプリケーションが、アプリケーションのユーザの行為に応じてクライアントデータを生成し、クライアントデータは、その行為の情報を含んでいる。好ましくは、クライアントデータは、複数のキー値対としてフォーマットされている。一連のクライアントデータは、好ましくは、行フォーマットに組織化されている。代替的に、クライアントデータは、適宜のフォーマットを有していてもよい。クライアントデータエージェント110は、好ましくは、テータ集約型基盤へのゲートウエイを提供するデーモンである。クライアントデータエージェントは、好ましくはプラグインである。例えば、クライアントデータエージェントは、rubygemであってもよいが、代替的に、ウエブサービス、ライブラリィ、スクリプト、アプリケーションプログラミングインターフェース(API)、又はクライアントシステムへのインターフェースとストレージシステム120への通信チャネルを有する適宜のエージェントであってもよい。更に、データエージェントは、図3に示すように、アプリケーションの複数部分に一体化することもできる。クライアントデータエージェント110は、好ましくは、ネットワーキングインターフェースを具えており、ストレージシステム120と周期的に通信する。クライアントデータエージェントは、更に、ストレージシステム120と通信を行う前にイベントデータを圧縮するよう機能するデータコンプレッサ112を具えていてもよい。データコンプレッサ112は、好ましくは、データバイナリ直列化回路であり、好ましくはデータをMessagePackあるいは適宜のデータ交換フォーマットに変換する。MessagePackは、JSONのようなシンタックスを伴う小さくコンパクトなバイナリ直列化フォーマットである。更に、クライアントデータエージェント110は、クライアント、ユーザアカウント、あるいは遠隔ストレージシステムと通信するときはアプリケーションを認識するコンフィギュレーションを具えていてもよい。秘密鍵を用いてイベントデータを独自に認識し、イベントデータをマルチテナントシステムを使用している他のクライアントから区別するようにしてもよい。
クライアントデータエージェント110は、更に、プラグ可能なアーキテクチュアを具え、クライアントデータエージェント内で任意のデータソースを使用できるようにしてもよい。プラグ可能なアーキテクチュアは、好ましくは、入力プラグインインターフェースと、出力プラグインインターフェースを具える。入力プラグインインターフェースは、好ましくは、第3パーティのデベロッパあるいは適宜のエンティティからのプラグインを展開させて、適宜のソースからデータを引き出すように構成してもよい。例えば、入力プラグインは、特定のサイトからデータを引き出すように書き込むことができる。出力プラグインインターフェースは、好ましくは、第3パーティのデベロッパあるいは適宜のエンティティからのプラグインを展開させて、クライアントデータエージェントからのデータの出力をカスタマイズするように構成してもよい。出力プラグインは、データを転送し、データの送信をカスタマイズし、あるいはクライアントデータエージェント110の出力用にカスタマイズした機能を提供することができる。一実施例では、出力プラグインが、データユニット又は言語を変換できる。別の実施例では、出力プラグインを用いて、データを複数の宛先に送信することができる。
好ましい実施例の遠隔分散型ストレージシステム120は、イベントデータを記憶するよう機能する。分散型ストレージシステムに入ってくるイベントデータは、好ましくは分散しており(時間ベースのイベントで組織化されている)、実質的に組織化されていない。問い合わせ処理クラスタと組み合わせたストレージシステム120は、組織化された大量データの分析をシステムから出力させることができる。大量データは、テラバイトのデータ、ペタバイトのデータ、あるいは適宜のサイズより大きい特徴がある。一の例示的アプリケーションでは、大量データは、10億回のウエブクリックを記憶している1テラバイトのデータより大きいとの特徴があるが、代替的に、適宜のサイズのデータで特徴づけてもよい。ストレージシステムは、好ましくは、Amazon’s S3/EC2などの分散されたクラウドストレージシステムをホストとするものであるが、代替的に、適宜の基盤であってもよい。このデータは、好ましくは圧縮フォーマット(例えば、MessagePackフォーマット)で保存される。遠隔分散型ストレージシステムは、好ましくは、リアルタイム問い合わせと、大木バッチデータ問い合わせの両方のデータを記憶するように機能するが、代替的に、適宜の方法で、データを区分してグループ化してもよい。
遠隔分散型ストレージシステムは、好ましくは、リアルタイムストレージシステム122とアーカイブストレージシステム124を具える。遠隔分散型ストレージシステム120は、好ましくは、まず、クライアントデータエージェント110から送られてきた分散型データをリアルタイムストレージシステム122に記憶させて、時間的遅延の後、アーカイブストレージシステム124に記憶させるデータを、データコンバータが統合あるいは作成する。図4に示すように、リアルタイムストレージシステム122は、好ましくはクライアントデータを行データとして記憶して、アーカイブストレージシステム124は、好ましくは、どのデータを行データフォーマットで記憶する。データは、好ましくは、MapReduceのジョブを用いて統合してコラムスタイルに変換する。行ファイルフォーマットは、新しい行を付加する、新しいキーを加えるのが容易であるという利点があり、データの書き込みに適している。列ファイルフォーマットは、不要なキーと値をスキップさせることができるという利点があり、一貫性があるため、圧縮しやすく、アーカイブと読取に適している。列データフォーマットは、更に、アーカイブストレージシステムの大量データセットを問い合わせる際に、最適化と効率化を提供することができる。システムが、マルチテナントアプリケーション用に実装されている場合は、アカウント識別子に応じてデータを更に記憶することができる。このデータは、更に暗号化する、あるいは適宜に保全することができる。様々なユーザについてのデータは、好ましくは、他の認証されていないユーザアカウントからのアクセスから切り離しておく。
好ましい実施例の問い合わせ処理クラスタ130は、問い合わせインターフェースを通じて通信された問い合わせ指示をデータ処理方法に変換する。問い合わせ指示に従って、リアルタイムデータ及び/又はアーカイブデータを処理することができる。問い合わせ処理クラスタ130は、好ましくは、Amazon’s Elastic Compute Cloudなどの遠隔分散型計算基盤上に構成されている。問い合わせ処理クラスタ130は、好適に分散されたバーチャル又はフィジカルな複数の処理ユニットを適宜集めたおものでもよい。これらは同一場所に配置してもよいが、適宜のコンフィグレーションに配置してもよい。システムのマルチテナント実装においては、複数の異なるユーザアカウントからの問い合わせが、問い合わせ処理クラスタ130の共通リソース間に配置されていることが好ましい。問い合わせ処理クラスタ130は、Hadoopなどのデータ集約型処理クラスタであることが好ましい。データ集約型処理クラスタは、好ましくはデータマッピングと問い合わせデータの削減工程を実行するように構成されている。より好ましくは、問い合わせ処理クラスタ130は、MapReduce処理を実装したHadoopクラスタである。単一の問い合わせ処理モジュールは、好ましくは、リアルタイムストレージシステム122とアーカイブストレージシステム124に問い合わせを行う。より好ましくは、問い合わせ処理クラスタ130の問い合わせ処理モジュールが、共働かつ統合してリアルタイムストレージシステム122とアーカイブストレージシステム124に問い合わせを行って、リアルタイムデータとアーカイブデータを取り入れて統一されたまとまった問い合わせ結果を返信する。
代替の実施例では、問い合わせ処理クラスタ130が、リアルタイム問い合わせモジュールとバッチ問い合わせモジュールと具えている。リアルタイム問い合わせモジュールは、リアルタイムストレージシステムに問い合わせを行って、時間関連の分析を提供することが好ましい。リアルタイム問い合わせモジュールは、問い合わせを行うためにリアルタイムで最適化したHadoopベースを使用することができる。バッチ問い合わせモジュールは、アーカイブストレージシステム124に大量データの問い合わせを行うように機能する。バッチ問い合わせモジュールは、Hadoop基盤を用いて、大量データでの作業を容易にしている。アーカイブストレージシステムは、問い合わせ処理に効率のよいフォーマットで大量のデータを提供するよう最適化されている。
好ましい実施例の問い合わせインターフェース140は、保存したデータにユーザアクセスを提供するよう機能する。問い合わせインターフェース140は、好ましくは、ユーザが使用して、クライアントデータエージェント110によって捕捉されたデータに関する情報を得るのに使用される。問い合わせインターフェース140は、情報をリクエストするのに使用できるが、データベースやテーブルを作る、重要データを作る、問い合わせをスケジューリングする、データ用スキームを設定する、あるいは適宜の動作を行うなど、データの相互作用に使用することもできる。問い合わせインターフェースは、ユーザの動作を取り入れて、好ましくはそのデータを問い合わせ処理クラスタ130に通信する。一変形例では、問い合わせインターフェースが、コマンドラインインターフェースである。コマンドラインインターフェースは、好ましくは、ユーザが、関連するデータベース様の問い合わせコマンドを発行して、データと相互作用することができる。コマンドラインインターフェースは、好ましくは、バックエンド基盤が大幅に異なっていたとしても、MySQLなどの関連データベースと作用するインターフェースと同様になるようにモデル化されている。これは、データ集約型基盤(例えば、Hadoop)に深い知識がないユーザでも、図5に示すような良く知られたコマンドを用いてデータの制御及び相互作用を行うことができるように機能する。第2の変形例では、問い合わせインターフェース140が、ウエブコンソールインターフェースである。ウエブコンソールは、好ましくは、グラフィカルユーザインターフェースを提供するウエブサイト又はアプリケーションである。データの視覚化、分析レポート、及び適宜のデータ表示フォームは、このようなインターフェースの一部であってもよい。第3の変形例では、問い合わせインターフェース140が、第3者アプリケーションによって使用されているAPIである。第4の変形例では、問い合わせインターフェース140が、ビジネスインテリジェンスツールドライバであってもよい。例えば、Java Database Connectivity(JDBC)又は、Open Database Connectivity(ODBC)インターフェースは、Jasper Soft、Tableau,Excel、Pentaho、又は適宜のツールといった様々なビジネスインテリジェンスツールからアクセス可能である。上述の変形例のいずれか、あるいはその他の適宜の問い合わせインターフェースを、適宜組み合わせて使用することができる。
2.データ集約型基盤と一体化する方法
図6に示すように、好ましい実施例のデータ集約型基盤と一体化する方法には、離散したクライアントデータを読み出すステップS110と;遠隔ストレージシステムに離散したクライアントデータを保存するステップS120とを具え;このデータを保存するステップが、クライアントデータをリアルタイムストレージシステムに保存するステップS122と;列フォーマットのクライアントデータをアーカイブストレージシステムに保存するステップS124と;ユーザインターフェースを介してデータリクエストを受信するステップS130と;リアルタイムストレージシステムとアーカイブストレージシステムからのデータと選択的に更新するステップS140と;を具える。この方法は、いずれかの基盤に構築したアプリケーションが、大量データに特化した基盤のデータ処理能力から利益を受けられるように機能する。この方法は、好ましくは、列ベースで分散されたアーカイブストレージシステムとデータ集約型処理クラスタ(例えば、Hadoop)を利用して、迅速かつ拡張可能なデータ分析及びサービスを提供する。この方法は、広範囲にわたるクライアントタイプの非組織化された分散イベント記録を取り、このデータを問い合わせ可能に組織化されたデータに変換する。この方法は、大量データアプリケーション(例えば、テラバイトより大きいデータセット、又は、いくつかのケースではペタバイト)に好ましく使用される。この方法は、データ処理サービスプロバイダに好ましく利用される。サービスプロバイダは、好ましくは、マルチテナント環境で複数クライアントがこの基盤を利用できるようにする。この方法は、好ましくは上述のシステムに実装されるが、代替的に適宜のシステムにこの方法を実装するようにしてもよい。
ステップS110は、離散したクライアントデータを読み出すステップを具えており、クライアントアプリケーションからクライアントデータの小片を受信するよう機能する。離散したクライアントデータは、好ましくはプラグイン、ライブラリ、あるいはアプリケーションプログラミングインターフェースによって回収され、クライアントアプリケーションと一体化する。クライアントデータは、好ましくは、クライアントデータのパラメータに関連する時間スタンプを具えるイベントデータである。クライアントデータは、好ましくは、分散ストレージシステムで受信される。より好ましくは、データ輸入モジュールが、アプリケーションプログラミングインターフェース(API)を介してクライアントデータエージェントからデータを受信し、そのクライアントデータを適宜ストレージシステムに加える。クライアントアプリケーションと一体化したクライアントエージェントは、好ましくはデータソースからイベントを取り出し、より好ましくは、そのイベントはイベントが生じたときに取り出される。クライアントデータは、代替的に、適宜のデータフォームであってもよい。クライアントのアプリケーションは、このようなクライアントエージェントと、アプリケーションのシステムレベルを変更することなく、容易に一体化できることが好ましい。Ruby on Railsアプリケーションの場合は、データエージェントジェムを加えるステップと、スキームを特定するなど、いくつかの初期設定を実行するステップを具える。データエージェントは、したがって、適宜の情報を中継することができる。離散したクライアントデータを読み取るステップは、クライアントデータエージェントで、ログを読み取るステップ、アプリケーションの関連するデータベースを変換するステップ、イベント通知を受信するステップ、オンラインデータを読み取るステップ、センサデータを読み取るステップ、及び/又は、データを取得するための好適なアクションを実行するステップを具える。クライアントデータは、さらに、入力プラグインとインターフェースを取るようにしてもよい。入力プラグインは、適宜のフォームのデータを読み取るように構成されている。いくつかの場合、複数のソースを用いて、離散したクライアントデータを読み取っている。クライアントイベントデータは、保存するイベント又は対象を特徴づけている、キー値対データであることが好ましい。
更に、クライアントイベントデータを読み取るステップは、クライアントイベントデータを圧縮するステップを具えていてもよい。圧縮ステップは、好ましくは、イベントデータを直列化するステップを具え、このステップは、ヒトが読み取り可能なフォーマットから、JSONのようなフォーマットの読み取り可能なバイナリ直列化信号に変換するステップを具える。MessagePackライブラリは、一つの好適なデータ交換フォーマットである。データエージェントは、イベントデータをストレージシステムに通信する際に、データエージェントが更に通信をバッファに格納して、ストレージシステムのデータ輸入システムが過負荷にならないようにしてもよい。この方法は更に、動的クスキーマを可能にすることができる。動的スキーマは、データスキーマを機動的に設定できるように機能する。一つの利点は、クライアントデータのスキーマ情報が、データを加える間に不要であることである。一般的なスキーマは、デフォルトによってデータに適用することができる。データのスキーマは、データ問い合わせ要求とデータとの相互作用を介して更新され、連続的な問い合わせのパフォーマンスを強化することができる。
ステップS120は、離散したクライアントデータを遠隔ストレージシステムに保存するステップを具えており、アプリケーションからのデータを大量データに特化したシステムのストレージ基盤に転送するよう機能する。クライアントエージェントは、周期的にクライアントイベントデータをストレージシステムに通信することが好ましい。代替的に、クライアントエージェントは、連続的にクライアントイベントデータをストレージシステムに通信するようにしてもよい。上述したように、イベントデータは、通信用に圧縮フォーマットにしてもよい。ストレージシステムにイベントデータを保存するステップは、イベントデータを最適化した分析用に組織化できるようにするのが好ましい。クライアントデータは、時系列データとして保存するのが好ましい。このデータは、好ましくは、データ回収用、リアルタイムストレージシステムへの保存用、アーカイブストレージシステムへの保存用の時間スタンプ、あるいは適宜の時間スタンプを具えている。
二つの好ましいサブステップとして、クライアントイベントデータを保存するステップは、更に、クライアントイベントデータをリアルタイムストレージシステムに保存するステップS122と、列フォーマットのクライアントデータをアーカイブストレージシステムに保存するステップS124を具え、これらのステップがリアルタイムアプリケーションと、大量データアプリケーションに適したそれぞれのフォーマットのデータを保存するように機能する。ストレージシステムは、好ましくは最初にイベントデータをリアルタイムストレージシステムに保存する。好ましくは、時間的遅れの後に、データをリアルタイムストレージシステムからアーカイブストレージシステムに移動させる。これらの二つのサブストレージシステムに保存するステップにより、異なるアプリケーション用にデータをフォーマットすることができる。リアルタイムデータは、イベント全体を見るのにより多くの問い合わせがあるであろう。イベントデータは、好ましくは、そのデータに新しい行を加えるステップ、新しいキーを加えるステップを簡単にするとともに、好ましくは書き込みに適している。リアルタイムストレージに初めに保存するステップは、データが合わさるとき、あるいはアーカイブストレージに適した構造に変換されるときに、更に、バッファとして作用する。イベントデータは、好ましくは、MapReduceフォーマットに変換されて、アーカイブイベントデータをバッチ問い合わせに対してよりアクセスしやすくするよう機能するアーカイブストレージシステムに保存される。MapReduceフォーマットに変換するときに、イベントデータは、列フォーマットで保存することが好ましい。列フォーマットは、好ましくは、読取時に不要なキーと値をスキップさせる。列フォーマットは更に、改良された圧縮レートを有しており、アーカイブと読取に適している。MapReduceフォーマットへの変換は、ストレージシステム内で行われ、クライアントが難しい変換処理を実行することを緩和することが好ましい。
ステップS130は、ユーザインターフェースを介してデータリクエストを受信するステップを具え、ユーザ又はシステムの意図を表示する指示を取得するよう機能する。データリクエストは、好ましくは、インターフェースを介して取得され、次いで、Hadoopクラスタなどの問い合わせ処理クラスタに通信する。データリクエストは、好ましくは、コマンドラインインターフェース、ウエブコンソール、API、ビジネスインテリジェンスツールインターフェース、などのユーザインターフェースを介して、あるいは、適宜のメカニズムを介して通信される。好ましくは、データリクエストは、問い合わせリクエストであり、ストレージシステムからの対応する構成のデータの応答を要求する。代替的に、データリクエストは、データベースやテーブルを作成する、スキーマを設定する、データを相互に輸入する、あるいは適宜のアクションを実行するなどによって、保存したデータに変形を行うことを要求する指示であってもよい。一変形例では、データリクエストをコマンドラインインターフェースを介して受信し、このリクエストを更に、関連するデータベース様問い合わせコマンドフォーマットから、データストレージと問い合わせ処理クラスタに互換性のあるフォーマットに変換している。例えば、SQL様データベースコマンドは、Hadoopとの使用に適したMapReduceに変換することが好ましい。別の変形例では、データリクエストをビジネスインテリジェンスツールインターフェースを介して受信している。ビジネスインテリジェンスツールインターフェースは、好ましくは、Java Database Connectivity(JDBC)又はOpen Database Connectivity(ODBC)用のドライバである。このようなビジネスインテリジェンスツールインターフェースは、好ましくは、Jasper Soft、Tableau、Excel、Pentaho、あるいは適宜のツールといった様々なビジネスインテリジェンスツールからのデータアクセスと相互作用を可能にしている。
ステップS140は、リアルタイムストレージシステムとアーカイブストレージシステムからのデータと選択的に相互作用するステップを具え、データリクエストを実行するよう機能する。データ問い合わせ用に、問い合わせ処理クラスタは、リアルタイムストレージシステム及び/又はアーカイブストレージシステムに選択的に問合せをすることが好ましい。問い合わせがリアルタイム情報に関するものである時は、リアルタイムストレージシステムに問い合わせを行うことが好ましい。問い合わせがバッチ問い合わせである場合は、アーカイブストレージシステムに問い合わせる。アーカイブストレージシステムのデータは、列フォーマットで保存されているため、好ましくは、より早く、より効率よく処理される。好ましくは問い合わせのメカニズムによって、列データセット全体の問い合わせとは対照的に、データの部分を選択的に問い合わせることができる。例えば、列フォーマットとアーカイブデータの時系列コンフィグレーションを利用すると、クライアントイベントデータポイントの単一パラメータに関する問い合わせについてのレンジ取得操作を、行フォーマットに構成したこのデータを取り出すより、実質的に早く効率よく取り出すことができる。システムは、代替的に、列データセットをすべて選択する。問い合わせ処理クラスタは、更に、問い合わせリクエストを分析して、問い合わせがあったデータを制限することができる。このような問い合わせの管理は、パフォーマンスの改良を提供でき、好ましい。データリクエストがスキーマの設定である変形例では、問い合わせ処理クラスタが、特定したスキーマを用いてデータを認可することができるため好ましい。更に、問い合わせ処理クラスタは、ユーザに送達するために、データを解凍できる。例えば、データがMessagePackを用いて圧縮されている場合、データは好ましくはオリジナルフォーマットに変換される。さらに、データリクエストの結果あるいはサブ計算を将来のデータリクエスト用に得ることができる。この方法は、構成したデータを返送するステップを具えていてもよく、これは、データ問い合わせの結果を返送するよう機能する。データ結果は、好ましくは、データリクエストを作成するのに使用した問い合わせインターフェースを介して通信される。この結果は、情報画像、テーブルスタイルのデータとしてのテキストベースの結果概要、スプレッドシート、csv−データファイル、あるいは適宜のデータフォーマットで表すことができる。
データの問い合わせを行うに当たり、選択した相互作用が、好ましくは、リアルタイムストレージシステムとアーカイブストレージシステムに協力して問い合わせを行うステップを具え、これが、複数ストレージシステムに亘って問い合わせを分配し、単一のまとまった問い合わせ結果を引き出すように機能する。問い合わせ処理クラスタは、リアルタイムストレージシステムとアーカイブストレージシステムの様々なクライアントデータの時間スタンプを利用して、非冗長なクライアントデータを問い合わせる。クライアントデータがまとまっている、あるいはアーカイブストレージシステムに保存するよう構成されている場合は、マージステータス情報が、何のクライアントデータがアーカイブストレージシステムに加えられたのかを表示することが好ましい。マージステータス情報は、マージログ、最後のマージブロックの表示、あるいはリアルタイムストレージとアーカイブストレージの間のデータ冗長性を表示できる適宜のパラメータであってもよい。好ましくは、これがマージを完了した時間ブロック、マージの進捗状況、及び又はマージの待ち、のログである。問い合わせクラスタは、図7に示すように、スキップしたデータがその他のストレージシステムにおいて割合を占めるであろうと思われる場合、好ましくはマージステータス情報とクライアントデータの時間スタンプを用いて、リアルタイムストレージ又はアーカイブストレージのいずれかからのデータを適宜スキップする。
大体の実施例では、好ましくは、コンピュータで読み取り可能な指示を保存したコンピュータで読み取り可能な媒体に、上記方法を実装することが好ましい。この指示は、好ましくは、コンピュータで実行可能な要素で、この悪しくはデータエージェント、ストレージシステム、問い合わせ処理ユニット、及びインターフェースと一体化された要素によって実行される。コンピュータで読み取り可能な媒体は、RAMs、ROMs、フラッシュメモリ、EEPROMs、光デバイス(CD又はDVD)、ハードドライブ、フロッピィドライブ、又は適宜のデバイスなど、適宜のコンピュータで読み取り可能な媒体に記憶させることができる。コンピュータで実行可能な構成要素は、プロセッサであることが好ましいが、指示は適宜の専用ハードウエアデバイスで代替的にあるいは追加で実行することができる。
この分野の当業者は、上述の詳細な説明から、また図面及び請求の範囲から認識するように、特許請求の範囲に規定された本発明の範囲から外れることなく、変形及び変更を本発明の好適な実施例に行うことができる。

Claims (19)

  1. 大量データプラットフォームを動作させる方法において:
    当該方法が、コンピュータで読み取り可能な媒体に記憶された指示をコンピュータで実行可能な構成要素で実行することによって実施され、前記方法が、マルチテナントデータ分析プラットホームで、
    離散したクライアントデータであって、独自の識別子を介して前記マルチテナントデータ分析プラットホームのユーザアカウントに関連するクライアントデータ、を受信するステップと;
    ネットワークにアクセス可能な分散ストレージシステムに前記クライアントデータを保存するステップであって:
    行フォーマットで前記クライアントデータをリアルタイムストレージシステムに保存するステップと;
    前記クライアントデータを列ベースで分散したアーカイブストレージシステムに保存するステップであって、前記アーカイブデータストレージシステムに保存される前記クライアントデータが、前記クライアントデータに関連する前記ユーザアカウントに応じて分離される、ステップと;
    を具えるステップと;
    問い合わせインターフェースを介してデータ問い合わせを受信するステップと;
    データマッピング処理と削減処理に従って前記リアルタイムストレージシステムとアーカイブストレージシステムからの前記クライアントデータと選択的にインターフェースを取ることによって前記データ問い合わせを処理するステップと;
    を具えており、当該データ問い合わせを処理するステップが、
    前記リアルタイムストレージシステムとアーカイブストレージシステムに協調的に問い合わせを行うステップと、
    前記リアルタイムストレージシステムとアーカイブストレージシステムに亘って前記データ問い合わせを分散させて、単一のまとまった問い合わせ結果を引き出すステップと具えており、
    前記クライアントデータを列ベースで分散したアーカイブストレージシステムに保存するステップが、
    列フォーマットで前記アーカイブストレージシステムに前記クライアントデータを記憶するステップを具えており、
    前記アーカイブストレージシステムからの前記クライアントデータとインターフェースを取ることが、
    問い合わせ処理クラスタを用いることによって、前記マッピング処理と削減処理に前記データ問い合わせの少なくとも一部を変換するステップと、
    前記問い合わせ処理クラスタを用いることによって、前記マッピング処理と削減処理を実行するステップと、
    を具えることを特徴とする方法。
  2. 請求項1に記載の方法において、前記分散クライアントデータが動的スキーマで受信され保存されることを特徴とする方法。
  3. 請求項2に記載の方法において、前記データ問い合わせが、スキーマ定義を具え、前記クライアントデータと選択的にインターフェースを取るステップが、前記動的スキーマに前記スキーマ定義を適用するステップを具えることを特徴とする方法。
  4. 請求項1に記載の方法が更に、クライアントデータエージェントにおいて、クライアントデータを回収するステップと、前記データ分析プラットフォームに前記クライアントデータを転送するステップと、を具えることを特徴とする方法。
  5. 請求項4に記載の方法において、前記クライアントデータエージェントが、クライアントデータを回収するイベントチャネルに一体化されていることを特徴とする方法。
  6. 請求項5に記載の方法において、前記イベントチャネルが、システムログ、関連データベース、クラウドデータ、及びセンサデータからなるリストから選択されることを特徴とする方法。
  7. 請求項4に記載の方法が更に、前記クライアントデータエージェントにおいて、データを、前記データ分析プラットフォームに送信されたバイナリシリアル化データ交換にシリアル化するステップを具えることを特徴とする方法。
  8. 請求項4に記載の方法において、クライアントデータを回収するステップが、クライアントエージェントデータ入力プラグインを介して回収されることを特徴とする方法。
  9. 請求項1に記載の方法において、前記列ベースの分散アーカイブストレージシステムが、時系列順クライアントデータを保存し、クライアントデータと選択的にインターフェースを取るステップが、分散ストレージシステムからのデータを問い合わせるステップを具えることを特徴とする方法。
  10. 請求項1に記載の方法において、データ問合わせを受信するステップが、関連するデータベーススタイルの問い合わせを、大量データクラスタ問い合わせプロセスに変換するステップを具えることを特徴とする方法。
  11. 請求項1に記載の方法において、前記データ問い合わせを、インフォグラフィックスインターフェースを介して受信し、この方法が、前記選択的にインターフェースを取ったクライアントデータからインフォグラフィックを戻すステップを具えることを特徴とする方法。
  12. 請求項1に記載の方法において、データ問い合わせを受信するステップが、ビジネスインテリジェンスツールドライバを介して受信するステップを具え、この方法が、データ分析結果を前記ビジネスインテリジェンスツールドライバに戻すステップを具えることを特徴とする方法。
  13. 請求項1に記載の方法が更に、クライアントデータエージェントにおいて、クライアントデータを回収し、当該クライアントデータを前記データ分析プラットフォームに送信するステップを具え;前記列ベースの分散アーカイブストレージシステムが、動的スキーマを用いてクライアントデータを時系列順に保存し、クライアントデータと選択的にインターフェースを取るステップが、リアルタイムストレージシステムとアーカイブストレージシステムからまとまった問い合わせ結果を求めて、協調的にデータ問い合わせを行うステップを具えることを特徴とする方法。
  14. 請求項13に記載の方法において、分散ストレージシステムが一ペタバイト以上のデータを具えることを特徴とする方法。
  15. 請求項1に記載の方法において、前記マッピング処理及び削減処理が、MapReduce処理であることを特徴とする方法。
  16. 請求項1に記載の方法において、前記問い合わせ処理クラスタが、MapReduce処理を実行するよう構築され、前記マッピング処理及び削減処理が、MapReduce処理であることを特徴とする方法。
  17. 請求項1に記載の方法において、前記問い合わせ処理クラスタが、MapReduce処理を実行するよう構築されるHadoop対応クラスタを有しており、前記マッピング処理及び削減処理が、MapReduce処理であることを特徴とする方法。
  18. 請求項1に記載の方法において、前記問い合わせ結果が構造化データを有することを特徴とする方法。
  19. 大量データプラットフォームを動作させる方法において、
    当該方法が、コンピュータで読み取り可能な媒体に記憶された指示をコンピュータで実行可能な構成要素で実行することによって実施され、前記方法が、マルチテナントデータ分析プラットホームで、
    離散したクライアントデータであって、独自の識別子を介して前記マルチテナントデータ分析プラットホームのユーザアカウントに関連するクライアントデータ、を受信するステップと、
    リアルタイムストレージシステム及び列ベースの分散したアーカイブストレージシステムを有するネットワークにアクセス可能な分散ストレージシステムに前記クライアントデータを保存するステップであって、
    行フォーマットで前記リアルタイムストレージシステムに前記クライアントデータを保存するステップと、
    前記クライアントデータを列フォーマットで前記アーカイブストレージシステムに保存するステップであって、前記アーカイブデータストレージシステムに保存される前記クライアントデータが、前記クライアントデータに関連する前記ユーザアカウントに応じて分離される、ステップと、
    を具えるステップと、
    問い合わせインターフェースを介してデータ問い合わせを受信するステップと、
    前記リアルタイムストレージシステム及びアーカイブストレージシステムからの前記クライアントデータと選択的にインターフェースを取ることによって前記データ問い合わせを処理するステップであって、当該データ問い合わせを処理するステップが、前記リアルタイムストレージシステムとアーカイブストレージシステムに協調的に問い合わせを行うステップと、前記リアルタイムストレージシステムとアーカイブストレージシステムに亘って前記データ問い合わせを分散させて、単一のまとまった問い合わせ結果を引き出すステップと具えており、
    前記アーカイブストレージシステムからの前記クライアントデータとインターフェースを取ることが、
    問い合わせ処理クラスタを用いることによって、前記MapReduceマッピング処理とMapReduce削減処理に前記データ問い合わせを変換するステップと、
    前記問い合わせ処理クラスタを用いることによって、前記MapReduceマッピング処理とMapReduce削減処理を実行するステップと、
    を具えており、
    前記問い合わせ処理クラスタが、MapReduce処理を実行するよう構築されるHadoop対応クラスタを有することを特徴とする方法。
JP2014541254A 2011-11-10 2012-11-08 大量データプラットフォームを操作するシステム及び方法 Active JP5818394B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161558395P 2011-11-10 2011-11-10
US61/558,395 2011-11-10
PCT/US2012/064089 WO2013070873A1 (en) 2011-11-10 2012-11-08 System and method for operating a big-data platform

Publications (2)

Publication Number Publication Date
JP2015501976A JP2015501976A (ja) 2015-01-19
JP5818394B2 true JP5818394B2 (ja) 2015-11-18

Family

ID=48281607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014541254A Active JP5818394B2 (ja) 2011-11-10 2012-11-08 大量データプラットフォームを操作するシステム及び方法

Country Status (3)

Country Link
US (2) US20130124483A1 (ja)
JP (1) JP5818394B2 (ja)
WO (1) WO2013070873A1 (ja)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332365B2 (en) 2009-03-31 2012-12-11 Amazon Technologies, Inc. Cloning and recovery of data volumes
US9082127B2 (en) 2010-03-31 2015-07-14 Cloudera, Inc. Collecting and aggregating datasets for analysis
US9081888B2 (en) 2010-03-31 2015-07-14 Cloudera, Inc. Collecting and aggregating log data with fault tolerance
US8874526B2 (en) 2010-03-31 2014-10-28 Cloudera, Inc. Dynamically processing an event using an extensible data model
TW201322022A (zh) * 2011-11-24 2013-06-01 Alibaba Group Holding Ltd 分散式資料流處理方法及其系統
US9361263B1 (en) * 2011-12-21 2016-06-07 Emc Corporation Co-located clouds, vertically integrated clouds, and federated clouds
US8768927B2 (en) * 2011-12-22 2014-07-01 Sap Ag Hybrid database table stored as both row and column store
US9864817B2 (en) * 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
US9338008B1 (en) 2012-04-02 2016-05-10 Cloudera, Inc. System and method for secure release of secret information over a network
WO2014124671A1 (en) * 2013-02-14 2014-08-21 Nokia Solutions And Networks Oy Method of adapting operation of self-organizing network functions
US9418241B2 (en) * 2013-02-15 2016-08-16 Infosys Limited Unified platform for big data processing
US9342557B2 (en) 2013-03-13 2016-05-17 Cloudera, Inc. Low latency query engine for Apache Hadoop
US9811938B2 (en) 2013-03-14 2017-11-07 Business Objects Software Ltd. Methods, apparatus and system for analytics replay utilizing random sampling
US8996889B2 (en) 2013-03-29 2015-03-31 Dropbox, Inc. Portable computing device with methodologies for client-side analytic data collection
TWI506456B (zh) * 2013-05-23 2015-11-01 Chunghwa Telecom Co Ltd 基於Hadoop多叢集環境的工作分派系統及方法
US10078683B2 (en) 2013-07-02 2018-09-18 Jpmorgan Chase Bank, N.A. Big data centralized intelligence system
US20150032743A1 (en) * 2013-07-18 2015-01-29 CIMCON Software, Inc. Analyzing files using big data tools
US10133800B2 (en) 2013-09-11 2018-11-20 Microsoft Technology Licensing, Llc Processing datasets with a DBMS engine
US20150073958A1 (en) * 2013-09-12 2015-03-12 Bank Of America Corporation RESEARCH REPORT RECOMMENDATION ENGINE ("R+hu 3 +lE")
WO2015038224A1 (en) * 2013-09-13 2015-03-19 Nec Laboratories America, Inc. Systems and methods for tuning multi-store systems to speed up big data query workload
US9477731B2 (en) * 2013-10-01 2016-10-25 Cloudera, Inc. Background format optimization for enhanced SQL-like queries in Hadoop
US9794135B2 (en) 2013-11-11 2017-10-17 Amazon Technologies, Inc. Managed service for acquisition, storage and consumption of large-scale data streams
US9720989B2 (en) 2013-11-11 2017-08-01 Amazon Technologies, Inc. Dynamic partitioning techniques for data streams
US10635644B2 (en) 2013-11-11 2020-04-28 Amazon Technologies, Inc. Partition-based data stream processing framework
CA2930026C (en) * 2013-11-11 2020-06-16 Amazon Technologies, Inc. Data stream ingestion and persistence techniques
TWI544342B (zh) 2013-12-17 2016-08-01 緯創資通股份有限公司 伺服器品質驗證方法及其系統
WO2015125225A1 (ja) * 2014-02-19 2015-08-27 株式会社日立製作所 データ処理システム及びデータ処理方法
US10853536B1 (en) * 2014-12-11 2020-12-01 Imagars Llc Automatic requirement verification engine and analytics
US9785510B1 (en) 2014-05-09 2017-10-10 Amazon Technologies, Inc. Variable data replication for storage implementing data backup
US9892179B2 (en) 2014-05-21 2018-02-13 International Business Machines Corporation Managing queries in business intelligence platforms
US11080244B2 (en) 2014-05-28 2021-08-03 Hewlett Packard Enterprise Development Lp Inter-version mapping of distributed file systems
CN105205082A (zh) 2014-06-27 2015-12-30 国际商业机器公司 用于处理hdfs中的文件存储的方法和系统
CN104077398B (zh) * 2014-06-30 2017-09-22 中华电信股份有限公司 基于Hadoop多丛集环境的工作分派系统及方法
CN104112010B (zh) * 2014-07-16 2017-09-01 深圳国泰安教育技术股份有限公司 一种数据存储方法及装置
US11474874B2 (en) 2014-08-14 2022-10-18 Qubole, Inc. Systems and methods for auto-scaling a big data system
US9734021B1 (en) 2014-08-18 2017-08-15 Amazon Technologies, Inc. Visualizing restoration operation granularity for a database
CN104156465B (zh) * 2014-08-22 2018-07-20 金石易诚(北京)科技有限公司 一种实时网页同步及后台分布式数据存储系统
WO2016065198A1 (en) * 2014-10-22 2016-04-28 Qubole, Inc. High performance hadoop with new generation instances
US10046457B2 (en) 2014-10-31 2018-08-14 General Electric Company System and method for the creation and utilization of multi-agent dynamic situational awareness models
AU2015201361B2 (en) * 2014-11-14 2017-03-02 Tata Consultancy Services Limited A method and system for efficient performance prediction of structured query for big data
US10097659B1 (en) * 2014-12-16 2018-10-09 Amazon Technologies, Inc. High performance geographically distributed data storage, retrieval and update
US10459881B2 (en) 2015-02-27 2019-10-29 Podium Data, Inc. Data management platform using metadata repository
US10671565B2 (en) * 2015-04-24 2020-06-02 Quest Software Inc. Partitioning target data to improve data replication performance
US9658794B2 (en) 2015-05-08 2017-05-23 Sonicwall Inc. Two stage memory allocation using a cache
US11436667B2 (en) 2015-06-08 2022-09-06 Qubole, Inc. Pure-spot and dynamically rebalanced auto-scaling clusters
US10303786B2 (en) * 2015-08-05 2019-05-28 International Business Machines Corporation Retrieving and displaying data from a columnar database
US10496545B2 (en) * 2015-11-24 2019-12-03 Hewlett Packard Enterprise Development Lp Data caching in a large-scale processing environment
US9798762B2 (en) 2015-11-30 2017-10-24 International Business Machines Corporation Real time big data master data management
US10235780B2 (en) 2015-12-18 2019-03-19 Dropbox, Inc. Integrated data exploration, modeling and visualization
US10423493B1 (en) 2015-12-21 2019-09-24 Amazon Technologies, Inc. Scalable log-based continuous data protection for distributed databases
US10567500B1 (en) 2015-12-21 2020-02-18 Amazon Technologies, Inc. Continuous backup of data in a distributed data store
US10853182B1 (en) 2015-12-21 2020-12-01 Amazon Technologies, Inc. Scalable log-based secondary indexes for non-relational databases
US10067817B2 (en) 2016-05-25 2018-09-04 International Business Machines Corporation Equipment failure risk detection and prediction in industrial process
US11080207B2 (en) 2016-06-07 2021-08-03 Qubole, Inc. Caching framework for big-data engines in the cloud
WO2018043767A1 (ko) * 2016-08-30 2018-03-08 디포커스(주) 데이터 에이전트 컨테이너를 이용한 데이터 수집 방법 및 이의 시스템
US10606664B2 (en) 2016-09-07 2020-03-31 Qubole Inc. Heterogeneous auto-scaling big-data clusters in the cloud
US10614092B2 (en) 2017-01-24 2020-04-07 International Business Machines Corporation Optimizing data retrieval operation in big-data processing systems
CN107016128A (zh) * 2017-05-16 2017-08-04 郑州云海信息技术有限公司 一种数据处理方法及装置
US10733024B2 (en) 2017-05-24 2020-08-04 Qubole Inc. Task packing scheduling process for long running applications
CN107665233B (zh) * 2017-07-24 2020-07-31 深圳壹账通智能科技有限公司 数据库数据处理方法、装置、计算机设备和存储介质
US10754844B1 (en) 2017-09-27 2020-08-25 Amazon Technologies, Inc. Efficient database snapshot generation
US10990581B1 (en) 2017-09-27 2021-04-27 Amazon Technologies, Inc. Tracking a size of a database change log
US11182372B1 (en) 2017-11-08 2021-11-23 Amazon Technologies, Inc. Tracking database partition change log dependencies
US11042503B1 (en) 2017-11-22 2021-06-22 Amazon Technologies, Inc. Continuous data protection and restoration
US11269731B1 (en) 2017-11-22 2022-03-08 Amazon Technologies, Inc. Continuous data protection
CN107895046B (zh) * 2017-11-30 2021-02-23 广东奥飞数据科技股份有限公司 一种异构数据集成平台
CN109981698B (zh) * 2017-12-27 2022-03-04 博元森禾信息科技(北京)有限公司 基于元数据的数联网跨域数据访问标准化系统及方法
US11228489B2 (en) 2018-01-23 2022-01-18 Qubole, Inc. System and methods for auto-tuning big data workloads on cloud platforms
US10621049B1 (en) 2018-03-12 2020-04-14 Amazon Technologies, Inc. Consistent backups based on local node clock
US10719508B2 (en) * 2018-04-19 2020-07-21 Risk Management Solutions, Inc. Data storage system for providing low latency search query responses
US11070600B1 (en) 2018-07-16 2021-07-20 Amazon Technologies, Inc. Optimization techniques to support lagging readers at streaming data service
US10956246B1 (en) 2018-07-16 2021-03-23 Amazon Technologies, Inc. Isolated read channel management interfaces at streaming data service
US11075984B1 (en) 2018-07-16 2021-07-27 Amazon Technologies, Inc. Workload management at streaming data service supporting persistent connections for reads
US10855754B1 (en) 2018-07-16 2020-12-01 Amazon Technologies, Inc. Isolated read channel categories at streaming data service
US10798140B1 (en) 2018-07-16 2020-10-06 Amazon Technologies, Inc. Stream data record reads using push-mode persistent connections
US10768830B1 (en) 2018-07-16 2020-09-08 Amazon Technologies, Inc. Streaming data service with isolated read channels
US11126505B1 (en) 2018-08-10 2021-09-21 Amazon Technologies, Inc. Past-state backup generator and interface for database systems
CN109542871A (zh) * 2018-10-23 2019-03-29 高新兴科技集团股份有限公司 多源数据管理方法、系统和数据管理设备
US11120034B2 (en) * 2018-11-13 2021-09-14 Sap Se Automatic routing of connection requests in business intelligence (BI) tools
US11042454B1 (en) 2018-11-20 2021-06-22 Amazon Technologies, Inc. Restoration of a data source
CN111490999A (zh) * 2019-01-28 2020-08-04 上海菲碧文化传媒有限公司 一种基于Hadoop的大数据处理分析平台
US11704316B2 (en) 2019-05-31 2023-07-18 Qubole, Inc. Systems and methods for determining peak memory requirements in SQL processing engines with concurrent subtasks
US11144360B2 (en) 2019-05-31 2021-10-12 Qubole, Inc. System and method for scheduling and running interactive database queries with service level agreements in a multi-tenant processing system
US11061856B2 (en) 2019-07-03 2021-07-13 Bank Of America Corporation Data ingestion system
US11747978B2 (en) 2019-07-23 2023-09-05 International Business Machines Corporation Data compaction in distributed storage system
US11507622B2 (en) 2020-03-25 2022-11-22 The Toronto-Dominion Bank System and method for automatically managing storage resources of a big data platform
CN113515610B (zh) * 2021-06-21 2022-09-13 中盾创新数字科技(北京)有限公司 一种基于面向对象语言处理的档案管理方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5966126A (en) * 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US6081810A (en) * 1998-02-03 2000-06-27 Electronic Data Systems Corporation Report database system
US20060112123A1 (en) * 2004-11-24 2006-05-25 Macnica, Inc. Spreadsheet user-interfaced business data visualization and publishing system
US7783679B2 (en) * 2005-01-12 2010-08-24 Computer Associates Think, Inc. Efficient processing of time series data
US7877370B2 (en) * 2006-05-15 2011-01-25 Algebraix Data Corporation Systems and methods for data storage and retrieval using algebraic relations composed from query language statements
US8024329B1 (en) * 2006-06-01 2011-09-20 Monster Worldwide, Inc. Using inverted indexes for contextual personalized information retrieval
US8271429B2 (en) * 2006-09-11 2012-09-18 Wiredset Llc System and method for collecting and processing data
US20080208820A1 (en) * 2007-02-28 2008-08-28 Psydex Corporation Systems and methods for performing semantic analysis of information over time and space
US9626421B2 (en) * 2007-09-21 2017-04-18 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh ETL-less zero-redundancy system and method for reporting OLTP data
JP5198929B2 (ja) * 2008-04-25 2013-05-15 株式会社日立製作所 ストリームデータ処理方法及び計算機システム
US8239389B2 (en) * 2008-09-29 2012-08-07 International Business Machines Corporation Persisting external index data in a database
US7917463B2 (en) * 2008-10-10 2011-03-29 Business.Com, Inc. System and method for data warehousing and analytics on a distributed file system
JP4939568B2 (ja) * 2009-04-28 2012-05-30 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース間でデータを同期するための方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US20110004589A1 (en) * 2009-07-06 2011-01-06 Rockwell Automation Technologies, Inc. Diagnostics in a distributed directory system
US20110153603A1 (en) * 2009-12-17 2011-06-23 Yahoo! Inc. Time series storage for large-scale monitoring system
US8874600B2 (en) * 2010-01-30 2014-10-28 International Business Machines Corporation System and method for building a cloud aware massive data analytics solution background
JPWO2011111532A1 (ja) * 2010-03-10 2013-06-27 日本電気株式会社 データベースシステム
JP5464017B2 (ja) * 2010-04-01 2014-04-09 日本電気株式会社 分散メモリデータベースシステム、データベースサーバ、データ処理方法およびそのプログラム
US20120110004A1 (en) * 2010-11-03 2012-05-03 Microsoft Corporation Homomorphism lemma for efficiently querying databases
US8954967B2 (en) * 2011-05-31 2015-02-10 International Business Machines Corporation Adaptive parallel data processing
US9462040B2 (en) * 2011-12-07 2016-10-04 Cisco Technology, Inc. Network-based dynamic data management

Also Published As

Publication number Publication date
JP2015501976A (ja) 2015-01-19
WO2013070873A1 (en) 2013-05-16
US20160246824A1 (en) 2016-08-25
US9582528B2 (en) 2017-02-28
US20130124483A1 (en) 2013-05-16

Similar Documents

Publication Publication Date Title
JP5818394B2 (ja) 大量データプラットフォームを操作するシステム及び方法
JP7271734B2 (ja) 分散イベント処理システムにおけるデータシリアライズ
US10769148B1 (en) Relocating data sharing operations for query processing
CN109074377B (zh) 用于实时处理数据流的受管理功能执行
CN110032604B (zh) 数据存储装置、转译装置及数据库访问方法
KR101621137B1 (ko) 아파치 하둡을 위한 로우 레이턴시 쿼리 엔진
US8321450B2 (en) Standardized database connectivity support for an event processing server in an embedded context
KR20200106950A (ko) Sql 질의 플랜들을 최적화하기 위한 차원 콘텍스트 전파 기술들
US9582541B2 (en) Systems, methods, and computer program products to ingest, process, and output large data
CN109491989B (zh) 数据处理方法及装置、电子设备、存储介质
US11074261B1 (en) Format independent processing for distributed data
US9930113B2 (en) Data retrieval via a telecommunication network
US10990598B2 (en) Aggregating quantile metrics in multidimensional data sets
Ahuja et al. State of big data analysis in the cloud
CN113312376B (zh) 一种用于Nginx日志实时处理分析的方法及终端
CN104199978A (zh) 基于NoSQL实现元数据缓存与分析的系统及方法
Kuderu et al. Relational database to NoSQL conversion by schema migration and mapping
JP6262505B2 (ja) 分散型データ仮想化システム、クエリ処理方法及びクエリ処理プログラム
KR20100132752A (ko) 데이터베이스 분산을 통한 서비스 성능 향상을 위한 질의 데이터 분산 처리시스템
US11175905B2 (en) Optimizing uploads for an offline scenario by merging modification operations
CN107330089B (zh) 跨网络结构化数据收集系统
EP2990960A1 (en) Data retrieval via a telecommunication network
CN112612453A (zh) RESTful服务驱动的JS对象简谱数据互换平台
JP2016071837A (ja) データ仮想化装置及び大規模データ処理プログラム
CN112732704B (zh) 一种数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150928

R150 Certificate of patent or registration of utility model

Ref document number: 5818394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250