JP2012256324A - データ管理方法、および、複合型データ管理システム - Google Patents

データ管理方法、および、複合型データ管理システム Download PDF

Info

Publication number
JP2012256324A
JP2012256324A JP2012128578A JP2012128578A JP2012256324A JP 2012256324 A JP2012256324 A JP 2012256324A JP 2012128578 A JP2012128578 A JP 2012128578A JP 2012128578 A JP2012128578 A JP 2012128578A JP 2012256324 A JP2012256324 A JP 2012256324A
Authority
JP
Japan
Prior art keywords
data
storage unit
data storage
foreign
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012128578A
Other languages
English (en)
Inventor
Gary Hayato Ogasawara
ハヤト オガサワラ、ゲーリー
M Tso Michael
エム. ティーエスオー、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gemini Mobile Technologies Inc
Original Assignee
Gemini Mobile Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gemini Mobile Technologies Inc filed Critical Gemini Mobile Technologies Inc
Publication of JP2012256324A publication Critical patent/JP2012256324A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】様々なタイプの「巨大データ」を効率よく処理できる複合型データ管理システムを提供する。
【解決手段】複合型データ管理システム100は、二つ以上のデータ管理システムから構成され、外部のアプリケーションやユーザ110は、統一インタフェースを使用して複合型データ管理システムにアクセスする。外来データオブジェクトに対応する生データ170は、複数の予め定義された特徴(例えば、サイズやデータ型を含む)に基づいて、接続された複数のデータ管理システムのいずれかの記憶部130に保存されるように送られ、一方、外来データオブジェクトに対応するメタデータ160は、生データがどこに格納されるかに関係なく、特定のデータ記憶部120に格納される。
【選択図】図1B

Description

本発明は、概してデータ管理システムに関し、特に、大きくて様々なデータセットのより効率的な管理のための複合型データ管理システムに関する。
インターネットの登場によって、いくつかのデータ管理問題が解決された一方で、同時に、いくつかの新たなデータ管理問題が発生している。例えば、多くのインターネットアプリケーション(例えば電子商取引、電子メール、ソーシャルメディアアプリケーション)は、いわゆる「巨大データ」問題を生み出した。「巨大データ」問題は、データの巨大な量に起因している。巨大な量のデータの多くは、とても高速に、かつ、フォーマットや長さを大きく変えながら、生み出されている。一般に、「巨大データ」という用語は、データセットを指す。データセットは、大きくなりすぎて、許容範囲内の時間でデータの保存、管理、処理を行うために通常使用されているデータベース管理手段の能力を超えてしまう。そのようなデータセットでは、1つのデータセット内のすべてが、数十テラバイトから大きなペタバイトまでの範囲で変動しうる。このように、「巨大データ」は、莫大な数の潜在的に不定形のデータオブジェクトから構成される。それらのデータオブジェクトは、毎日生み出され、瞬時にアクセス可能でなければならず、さらに、もしかしたら長期間、高信頼性かつ安価で保存されなければならない。
分散処理型のストレージシステムとして、NoSQLと呼ばれるものや、「巨大データ」データベースが近年現れている。そのようなデータベース管理システムの例としては、HBase,Cassandra,MongoDB,Hibari(登録商標)等がある。そのようなデータベースは、従来のSQLデータベースの高機能を提供しない一方、比較的安価で高信頼性の手法で巨大データの格納や検索を非常に効率よく行う。そのようなNoSQLに基づくシステムは、また、容易にサイズ変更可能である。そのようなNoSQLに基づくシステムにおいて、異種サーバは、いつでもネットワーク接続されたサーバクラスタに追加されうる。サーバクラスタは、サービスのために壊れることなしで自動的に再バランスと分配が行われるデータによってフォローされる。
しかし、そのような高いパフォーマンスとスケーラビリティを達成するために、これらのNoSQLに基づいたシステムは、特定のデータタイプに対して最適化されなければならない。例えば、Cassandraは、多数の小さなデータイテムの高速書き込みを処理するように最適化されるが、多数の大きなデータイテムがそのデータベースに書き込まれるときは逆に相対的に低いパフォーマンスとなる。従来技術の解決手段で、非常に多くの異なるデータタイプに対して最適化するものはなかった。
1つの考えられる解決手段は、異なる複数のデータタイプに対して異なる複数の解決手段を配置することである。例えば、大きなデータをファイルシステムに格納し、一方、小さなデータオブジェクトをNoSQLデータベースに保存する。しかし、この手法では不充分である。なぜなら、維持すべきシステムやソフトウェアの数が増えるからである。異なる複数のデータベースにまたがる同時使用は難しい可能性が高い。また、大きなデータと小さなデータを持つことになるユーザに対する使用ポリシー(いくつかのバイト/秒の制限)の実行によって、リアルタイムで2つの異なるシステムの同時使用が必要となる。このアプローチが大きなスケールの「巨大データ」環境で機能するのかも疑わしい。このアプローチでは、また、「N」が増加するにつれて、N個のシステムに容易にスケール変更できない。なぜなら、管理や同時使用によるオーバーヘッドが増加するからである。
したがって、様々なタイプの「巨大データ」を効率よく処理できる複合型データ管理システムが望まれている。
本発明について開示および権利請求するのは、複合型データ管理システム、および、複合型データ管理システムによるデータ管理方法である。1つの実施形態において、複合型データ管理システムによるデータ管理方法は、多くのデータ記憶部を有しており、外部装置からの外来データオブジェクトに対する書き込みリクエストを受信したり、外来データオブジェクトが多くの所定の特徴のうちの1つ以上を有しているか否かを判定したりする。したがって、その方法では、多くのデータ記憶部のうちのどれが外来データオブジェクトに対して好ましいデータ記憶部であるのかを、多くの所定の特徴のうちの外来データオブジェクトが持っている1つ以上の特徴に基づいて決定したり、それに対応して、外来データオブジェクトの生データを保存のために特定した好ましいデータ記憶部に送信したりする。最後に、この方法では、外来データオブジェクトに関するメタデータを多くのデータ記憶部のうちの第1データ記憶部に格納するが、その際、多くのデータ記憶部のうちのどれが外来データオブジェクトの生データを持っている好ましいデータ記憶部であるかは関係ない。メタデータは、その好ましいデータ記憶部における対応するデータオブジェクトの生データを有する特定のメタデータ入力とリンクしている対応情報を含んでいる。
本発明の他の態様、特徴、技術については、以下の本発明の典型的な実施形態の記載を見ることによって当業者に明らかになるであろう。
本発明によれば、様々なタイプの「巨大データ」を効率よく処理できる。
本発明の原理に基づいた、大きくて様々なデータセットを管理するための2つの典型的な複合型データベース管理システムを示す。 本発明の原理に基づいた、大きくて様々なデータセットを管理するための複合型データベース管理システムを実行するための処理を示す。 小さなデータセットと大きなデータセットの両方をより効率的に格納および管理する複合型データベース管理システムを実行するための図2の処理の一例を示す。
<本発明の概要>
本発明は、概して、2つ以上の統合型データ管理システムから構成される複合型データ管理/保存システムに関する。メタデータは、少なくとも1つの付加的に接続されたデータ管理システム(例えばOSファイルシステムのような大きなデータ記憶部)内のデータを有する第1データ管理システム(例えばNoSQLデータベースのような小さなデータ記憶部)内のデータとリンクするために使用される。
前記メタデータのリンクによって、第1データ管理システムは、1つ以上の接続された付加的なデータ管理システムを有する配置されたシステム(例えば、分割、再生、移転(スケールアウトのケースで)、回復(故障からの復旧)、バックアップ等)におけるデータ管理のためのすべてのアルゴリズムを共有できる。したがって、それぞれの利益に影響する。なぜなら、異なるタイプの複数のデータ管理システムがそれぞれのタイプのシステムにおける異なる複数のデータ管理アルゴリズムを使用する複雑さなしで、あるタイプ/サイズのデータにおいて他のタイプ/サイズの場合よりもより効率的に処理するようになるからである。そのために、本発明の他の態様では、外来データオブジェクトの1つ以上の特徴を判定し、また、そのような特徴の存在に基づいて、外来データオブジェクトの元となっている生データを、そのようなデータの保存や管理のために最も適した、または、設計された、接続されたデータベース管理システムの1つに送信する。例えば、あるデータ記憶部は、特定のデータタイプに有効な付加的なインデックス/サーチの機能を含み、したがって、他のデータ記憶部よりも効率的な手法でそのようなデータを格納、管理できる。
外来データオブジェクトの生データが2つ以上のデータ記憶部に同時に格納されることは当然である。例えば、電子メールオブジェクトは、メール記憶や検索のために最適化された記憶部に格納され、同時に、インデックスやサーチのために最適化された他の記憶部に格納される。そのとき、そのようなデータに対応するメタデータは、そのような両方のデータ記憶部へのリンクを示す。
考えられるデータの特徴に関して、そのような特徴はデータオブジェクトのサイズおよび/またはタイプ(テキストデータに対するメディアデータ)を含む。付加的な特徴は、データオブジェクトに対するアクセスのパターンやQOS(クオリティ・オブ・サービス)に対応するアクセスパターン情報を含む(例えば、データオブジェクトが頻繁な変更に対してまれにアクセスや変更されるという事実や、外来データオブジェクトが異なる料金プランのユーザからのもので、遅い(安い)データ記憶部に格納されているという事実)。付加的なオブジェクトの特徴は、ローカルに対するリモートと同様(アプリケーションはこのデータオブジェクトが少なくとも1つのリモートデータセンタで複製されるべきであることを示す。)、さらに、強いまたは弱いコンシステンシー(すべての複製がアップデートされた後、または、いくつかの複製がアップデートされた後、返信のために書き込む。)を含む。
例えば、制限なしの例として、いくつかのデータベース(例えばMongoDB)は、特別な構造(例えばJavaScript(登録商標) Object Notation)を有するドキュメントの記憶部としてよりよく最適化される。そのようなデータベースは、好ましい構造でないデータを格納するとき、低効率なパフォーマンスとなる。そのような場合において、本発明によれば、そのようなデータベースは、データオブジェクトを受信し、それが好ましくない構造であることを認識し、そして、そのデータオブジェクトを、分離され接続されている、受信されたデータオブジェクトのタイプにとってより適したデータベースに送る。
本発明の他の態様によれば、外部ソース(アプリケーションやユーザ)は、単一のデータ記憶部とインタフェース接続できる。この第1データ記憶部または第1データ記憶部は、多くの接続されたデータ管理システムのうちの1つにおけるそのオブジェクトを形成する元となっている生データを選択的に格納している間、すべてのデータオブジェクトに対して同じメタデータ構造を用いる。この方式において、この第1データ記憶部(すべてのメタデータは、第1データ記憶部における記憶のために最も適したデータサイズなので、第1データ記憶部に格納されている)による管理機能は、分離されたそれぞれのデータ記憶部に自身の管理機能を信頼させるよりもむしろ、多くの付加的に接続されたデータ記憶部を管理するために使用される。多くの接続されたデータ記憶部は第1データ記憶部(ユーザ/アプリケーションがインタフェース接続する先の単一のデータ記憶部)の管理機能から外れることができるので、システムの全体的な複雑さは大きく減少する。
ここに使われているように、(原文において)「a」または「an」は、1または1以上をいう。「多くの」という用語は、2または3以上をいう。「他の」という用語は、2番目または3番目以降をいう。「含む」や「有する」という用語は、オープンエンドである(例えば、「含んでいる」)。「1つの実施形態」、「ある実施形態」、「実施形態」または類似した用語への本明細書を通しての言及は、実施形態に関連して記述される具体的な特徴、構造または特性が本発明の少なくとも1つの実施形態に含まれることを、意味する。このように、この明細書を通じていろいろな箇所におけるそのようなフレーズの現出は、同じ実施形態に必ずしもすべて言及しているわけではない。さらにまた、その具体的な特徴、構造または特性は、限定なしで、1つ以上の実施形態にあらゆる適切な方法で組み込まれてもよい。「または(あるいは)」という用語は、包括的な意味、または、単一あるいはあらゆる組み合わせとして解釈される。したがって、「A、BまたはC」は、「A」、「B」、「C」、「AとB」、「AとC」、「BとC」、「AとBとC」のいずれも意味する。要素の組合せ、機能、ステップまたは動作が何らかの方法で本質的に互いに相容れないときだけ、この定義に対する例外が発生する。
コンピュータ・プログラミングの技術に熟達した人の実践に合わせて、本発明は、コンピュータシステムまたは電子システム等によって実行する実施について以下、説明する。そのような実施は、「コンピュータによって実行される」と称される場合もある。象徴的に表現される実施が、他の信号処理と同様、プロセッサ(例えば中央演算処理装置)による記憶箇所(例えばシステム・メモリ)においてのデータ・ビットやデータ・ビットの維持を意味する電気信号の処理を含むことは言うまでもない。データ・ビットが維持される記憶箇所は、データ・ビットに対応する特定の電気特性、磁気特性、光学特性、または有機特性を有する物理的な箇所である。
ソフトウェアで実装されるとき、本発明の要素は、基本的に、必要なタスクを実行するコード部分である。コード部分は、コンピュータ・データ信号によって、プロセッサで読取り可能な媒体に保存されるか、送信される。「プロセッサで読取り可能な媒体」は、情報を格納することができるどんな媒体も含む。プロセッサで読取り可能な媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリまたは他の不揮発性メモリ、フロッピー(登録商標)・ディスク、CD−ROM、光ディスク、ハードディスク等を含む。
「サーバ」という用語は、電気的構成(例えば、プロセッサ、メモリ、ネットワーク・インタフェースなど)の機能的に関連するグループを意味する。電気的構成は、例えば、ネットワーク環境におけるコンピュータシステムである。ネットワーク環境は、ハードウェア構成とソフトウェア構成の両方を含むか、または、代わりに、実施時に特定の機能を実行するソフトウェア構成だけである。「サーバ」は、1つ以上の関連するデータベースを有する1つ以上のデータベース管理システムとさらに統合されてもよい。
「データベース管理システム」という用語は、プロセッサで読取り可能なメディアに格納されるデータレコード、ファイル、その他のデータオブジェクトの統合した集合体の作成、維持および使用を制御する1つ以上のコンピュータープログラムを意味する。データベース管理システムは、データの保存性や安全性を維持したり、同時発生アクセスを管理したり、データの回復や復旧をしたりするのと同様、格納されたデータにアクセスしたり処理したりするために、外部ソース(例えば、アプリケーション/ユーザ)によって使用できる。
<典型的なオンライン環境の概要>
図1Aは、本発明の1つ以上の態様を実施するように構成された複合型データ管理システム100の1つの実施形態を表す。図1Aの例において、システム100は、第1のデータベース管理システム(第1データ記憶部120。例えばNoSQLベースのデータベース・システム)にインタフェース接続されるように構成されたアプリケーション/ユーザ110の形における外部ソースからアクセス可能な1つ以上のサーバから構成される。さらに、第1データ記憶部120は、第2のデータベース管理システム(130。大きなデータブロック(例えば、Linux(登録商標) ext3、Linux ext4、Hadoop Distributed File Systemなど)の保管のために最適化されるファイルシステムから構成される。)と通信するように同じように構成される。複合型データ管理システム100は2つのデータ記憶部のみから構成されているが、N個の付加的なデータ記憶部が、第1データ記憶部120(例えば、図1Bを参照して以下に記載される典型的なシステムにおけるケース)に対して同様に接続されていてもよいのは当然である。いかなる場合でも、そのようなファイルシステムは、単純なブロック・データ記憶システム(例えばCDROM、DVD、磁気テープ・システムなど)と同様、配布、複製などのための基本的なデータ管理機能を有する任意のローカル・ファイルシステムである。
第1データ記憶部120は、データ分割、自動複製、増分バックアップ、ノード拡大、定数計算などのためのビルトイン機能を提供するように構成されている。第1データ記憶部120は、例えば、メモリキャッシュにおける書き込み前方ログを用いる効率的な書き込み/読み出しパスのおかげで、小さなデータサイズに対して高いパフォーマンスを提供できるようなNoSQL型データベースとして実装される。
発明の1つの態様は、特定の特徴(例えばデータオブジェクトのサイズまたはタイプ)を有するデータオブジェクトが、異なる種類のデータ記憶部(例えば大きな第2データ記憶部130)によってより効率的に保存および管理されるものと認められる。この方法では、本発明は、特定のデータオブジェクト(例えば、小さなデータオブジェクト)を第1データ記憶部120(例えば、NoSQL型データベース)に保管することによって、全体的なパフォーマンスを向上させる複合型データベース・ソリューションを提供する。その一方、本発明は、他のタイプのデータオブジェクト(例えば、大きなデータオブジェクト)の生データを第2データ記憶部130(例えば、ファイルシステム)に移す。
考慮対象となっているデータオブジェクトの特徴がオブジェクトのサイズであるとき、小さなデータオブジェクトと大きなデータオブジェクトとを区別する閾値が、少なくとも部分的には、特定のシステムハードウェアとワーク負担に依存していることは当然である。このように、閾値はシステム100のユーザ定義可能なプロパティである。例えば、ソーシャル・ネットワーキング・データを格納および管理するための典型的なデータベースは、1K〜10Kの範囲内でデータオブジェクトのために最適化される傾向がある。そのようなシステムについては、100Kより大きいデータオブジェクトは大きいと考えられる。同様に、電子メール・データのために最適化されるデータベースは、通常のケースとしてデータを1K〜100Kに保管する傾向がある。そのようなデータベースについては、1Mを超えるデータオブジェクトは、「大きい」と考えられる(例えば大きなファイル添付を伴う電子メール)。技術が進化するにつれ、これらの範囲は同様に進化すると予測される。しかし、特定のデータベースにおいて異種のデータを格納および管理しようとする問題は、おそらく継続する。
ある実施形態において、第1データ記憶部120は、さらに、特定の外来データ(例えば、アプリケーション/ユーザ110から)が予定された分配方法においてどのように保存されるのかを決定するように構成される。制限なしの例として、ルーティングレイヤ140はまず、所定の閾値と外来データオブジェクトのサイズとの比較に基づいて、外来データオブジェクトが第1データ記憶部120に保管されるべきか、あるいは、第2データ記憶部130から構成されるファイルシステムに保管されるべきかを特定する。ルーティングレイヤ140は、代理レイヤとして実装されるが、決定ロジックの多数の他の形、ソフトウェア、ハードウェアまたはその組合せの形で同様に実装されてもよい。
もし、ルーティングレイヤ140が、特定の外来データオブジェクトは1つ以上の特定の特徴であって第1データ記憶部120がそれのために望ましく構成されているものを有すると特定するなら(例えば、予め定義された閾値より小さい)、外来オブジェクトはローカルデータオブジェクト150とともに保管される。ある実施形態において、ローカルデータオブジェクト150のメタデータは、図1Aで示すように、メタデータ160として別々に格納される。一方、ある実施形態において、そのようなメタデータは、ローカルデータオブジェクト150のように元となっている生データと共に格納される。そのようなメタデータはローカルオブジェクトメタデータと称される場合がある。なぜなら、情報がローカルに(すなわち、第1データ記憶部に)保管されたオブジェクトと一致するからである。
しかし、もし、ルーティングレイヤ140が、特定の外来データオブジェクトは1つ以上の特定の特徴であって第2データ記憶部130がそれのためによりよく構成されるものを有すると判定するなら(例えば、予め定義された閾値より大きい)、外来オブジェクトの生データは第2データ記憶部130を通過し、生データ170として格納される。
その上、それにもかかわらず、生データが第2データ記憶部130(生データ170として)に格納されているそれぞれの外来データオブジェクトのメタデータは、メタデータ160として第1データ記憶部120に格納される。そのようなメタデータはリモートオブジェクト・メタデータと称される。なぜなら、情報が遠隔で(すなわち、第2データ記憶部で)保管されているオブジェクトと一致するからである。さらに、そのようなメタデータ160は、そのような大きなデータオブジェクトのための記述的情報を含み、さらに、特定のメタデータ入力とそれが関係する対応する生データ170を対応づける対応情報を含む。それぞれのメタデータ入力は、例えば、内容のタイプ、アクセス制御リストなどを含む。オブジェクトごとのメタデータのサイズは、好ましくは、例えば数百バイトのオーダ程度に小さくあるべきである。
上記のリモートオブジェクト・メタデータは、プレースホルダオブジェクトと称され、管理やアクセスの処理が第1データ記憶部120におけるそのリモートオブジェクト・メタデータを用いて実行されるとき、データ管理システム100は、どのデータ記憶部に入ったものでも対応する生データにおける対応する処理を自動的に行う。この方法では、第1データ記憶部120のデータ管理機能だけが使われる。しかし、第1データ記憶部120のデータ管理機能を利用することがパフォーマンスへの予想外の悪影響を生み出してしまう場合がある。例えば、第1データ記憶部120がすべてのアップデートをRAMとディスク・キャッシュ内のデータオブジェクトに書き込む場合、多くの大きいデータオブジェクトが書かれることになっているとき、RAMとディスク・キャッシュはすぐに一杯になるかもしれない。そのような場合、選択的に第1データ記憶部120のデータ管理機能を回避して、その代わりに問題の特定のデータ記憶部の対応する機能(すなわち、読み書き)を直接利用することは、本発明のさらなる特徴である。
図1Bを参照すると、アプリケーション/ユーザ110がインタフェース接続する第1データ記憶部120に加えて、多くのデータ記憶部1301−nによって構成される複合型データ管理システム100の他の例が、示されている。図1Aに関して上記で述べた説明の全ては、ここに取り入れられて、図1Bの例に適用できる。
上記の図1Aの例と同様に、第1データ記憶部120は、データ分割、自動複製、増分バックアップ、ノード拡大、定数計算などのためのビルトイン機能を提供するように構成されている。また、第1データ記憶部120は、小さなデータサイズに対して高いパフォーマンスを提供できるようなNoSQL型データベースとして実装される。
前記したように、第1データ記憶部120は、1つ以上の認識された特徴を有する外来データオブジェクトに基づいて、特定の外来データ(例えば、アプリケーション/ユーザ110から)がどのように格納されるべきかを判定するように構成される。そのように、ルーティングレイヤ140は、外来データオブジェクトの特定の特徴をまず判定するように構成される。ルーティングレイヤ140は、利用できるデータ記憶部のうちのどれが、外来オブジェクトに対する生データを格納するのに用いられるべきかを、特定する。前述のように、この特定は、利用できるデータ記憶部のうちのどれが、1つ以上の判定された特徴を有するデータを格納および管理するために最適な構成になっているかについて特定することに基づいて、なされる。
それに加えて、それから、外来データオブジェクトに対応するメタデータは、第1データ記憶部120に好ましく格納される。それは、多くのデータ記憶部(例えば、第1データ記憶部120とさらなる多くのデータ記憶部1301−n)のうちのどれが対応する生データを格納するのに過去に用いられたかに関係ない。
図1A、1Bは、本発明の原理に基づいた複合型データ管理システムを実施するための2つの典型的なシステム構成を表している。一方、他の既知または明らかなデザイン・バリエーションが等しく想像されて、本発明の範囲内であることは、当然である。
図2を参照すると、本発明の原理に基づいた、大きくて様々なデータセットを管理するための方法の1つの実施形態が示されている。特に、複合型データ管理システム(例えば、図1A、1Bのシステム100)が、外部ソース(例えば、図1A、1Bのアプリケーション/ユーザ110)から書き込みリクエストを受信したとき(例えば「PUT」オブジェクト処理の形で)、プロセス200はブロック210から始まる。そのようなオブジェクト処理がどのようなプロトコル(例えばS3またはHTTP)においてでも可能であることは当然である。
外来オブジェクトは、1つ以上の所定の特徴を有する。その1つ以上の所定の特徴は、オブジェクトがシステムによって書き込まれて保管される前に、検知または判定されたものである。そのために、プロセス200のブロック220で、外来データオブジェクトがN個の可能性のある予め定義された特徴のうちのどれを有するかについての判定が、なされる。ある実施形態において、予め定義された特徴の1つは、特定のサイズ範囲、データ型、アクセス/修正の頻度またはパターン、サービスの品質などである。
所定のN個の特徴のうちのどれが外来データに存在するかを判定すると、プロセス200はブロック230に進む。ブロック230では、多くの接続されたデータ記憶部(例えば、第1データ記憶部120、多くのデータ記憶部1301−nなど)のうちのどれが外来データオブジェクトの生データの記憶のために好ましいかについて特定される。ある実施形態において、この特定は、利用できるデータ記憶部のうちのどれがブロック220から判定された特徴を示しているデータを格納するためにより好適に構成される(最適化される)かについて特定することに基づいて、なされる。
プロセス200は引き続いてブロック240に進む。ブロック240では、外来データオブジェクトの生データが、特定された好ましい利用可能なデータ記憶部に送られる。それから、ブロック250では、外来データオブジェクトに対応したメタデータは、第1データ記憶部に格納される。ある実施形態において、外来データオブジェクトの生データが第1データ記憶部、または、他の利用可能なデータ記憶部のいずれかに保管されたかに関わらず、そのようなメタデータは、第1データ記憶部に格納される。そのようなメタデータは、特定のメタデータ入力と対応するデータオブジェクトの生データ(例えば、URL形式の位置情報、パス名、IDなど)を対応づけている対応情報を含む。その上、参照メタデータは、さらに、対応するデータオブジェクトにおけるデータタイプ(サイズ、名前、所有者、最後の変更された時刻、アクセス制御規則、アクセス統計など)の情報を含む。
図2を引き続き参照すると、プロセス200は引き続いてブロック260に進む。ブロック260では、以前に第1データ記憶部に格納された対応するメタデータに対する処理が試みられたことを検知すると、プロセスは、N番目のデータ記憶部に格納されている生データに処理を行う(読む、移動させる、削除する、修正するなど)。この方法では、様々なタイプの「巨大データ」は、より効率的に格納および管理される。
図3を参照すると、本発明の原理に基づいた、大きくて様々なデータセットを管理するための方法の特定の実施形態が示されている。具体的には、図3のプロセス300は、図2のプロセス200(予め定義された特徴が、小さなデータオブジェクトと大きなデータオブジェクトを機能的に区別するサイズ閾値である場合のプロセス)のより特別な例が示されている。例えば、1つ目の特徴は、0から閾値までのオブジェクトサイズ範囲として示される。一方、2つ目の特徴は、その閾値からシステムで課される最大値までのオブジェクトサイズ範囲として示される。
小さなデータを構成するものと大きなデータを構成するものを区別する概念がシステム固有またはアプリケーション固有であることは当然である。そのように、本発明は特定のデータサイズに基づかない。むしろ、必要なことのすべては、ユーザまたはシステムの定義可能な特徴(例えば、データが大きなデータか小さなデータかを区別するために用いられる閾値)である。
前記したプロセス200に類似し、プロセス300はブロック310から始まる。ブロック310では、複合型データ管理システム(例えば、図1A、1Bのシステム100)が、外部ソース(例えば、図1A、1Bのアプリケーション/ユーザ110)から「PUT」オブジェクト処理の形で書き込みリクエストを受信する。外来オブジェクトは、データベースに書き込まれる予定の外来オブジェクトの全体的なサイズを含む関連する内容長さのヘッダを有している。ルーティングレイヤ(例えば、図1A、1Bのルーティングレイヤ140)において、例えば、内容長さは、予め決められているユーザ定義可能な閾値と比較される(ブロック320)。もし、内容長さが閾値未満である(または同じである)ならば、プロセス300はブロック330に進む。ブロック330では、外来データオブジェクトは、小さなデータ記憶部に保管される。ある実施形態において、外来オブジェクトのメタデータは、小さなデータ記憶部に同様に格納される。
他方、もし、ブロック320で、内容長さが閾値を実際に上回ると判定されると、ブロック340で、より大きな外来ブジェクトのメタデータは、小さなデータ記憶部に格納される。一方、そのオブジェクトの元となっている生データは、大きなデータ記憶部に送られて格納される(ブロック350)。ブロック340で保存された大きなオブジェクトのメタデータが、元となっている生データが大きなデータ記憶部に実際格納されていることを示している対応情報を更に含んでいることは、さらに当然である。
大きなデータ記憶部への機能呼び出しは、ルーティングレイヤによって用いられる。ルーティングレイヤは、大きなデータ記憶部におけるどのノードに書き込まれるべきかを決定する。ある実施形態において、外来オブジェクトのための生データは、設定されたディレクトリにおける1つのファイルとして、大きなデータ記憶部に書き込まれる。しかし、複合型データベース・システムへのマルチパート・データ・アップロードの場合、各々のデータ部分が別々のファイルとして保存されることは当然である。閾値を変化させることは、新しい外来データオブジェクトリクエストに影響を与えるだけであり、すでに保存されたオブジェクトの位置に影響を与えない。
大きなデータ記憶部に関して、ファイルの数が比較的大きいために、大きなデータオブジェクトを1つのディレクトリに書き込むことを避けることが好ましい場合があるが、もちろん、閾値がどれくらい低く設定されたかに依存する。パフォーマンスを最大にするために、大きなデータ記憶部は、いくつかの定義済みのグループの各々のために1つ以上のグループ−レベル・サブディレクトリを含むトップレベル・ディレクトリで構成される。各々のグループ−レベル・ディレクトリの中で、1つ以上のさらなるユーザレベル・サブディレクトリが、登録ユーザごとに存在してもよい。各々のユーザレベル・サブディレクトリにおいて、間接的レイヤを用いて、各々の保存されたオブジェクトを指定するか、さもなければ特定する。例えば、考慮対象となっているオブジェクトのハッシュ値の2文字のプレフィックスが使われる。
「GET」オブジェクトリクエストが複合型データベース・システムによって受信された場合、プロキシレイヤは、まず、小さなデータ記憶部に格納されているリクエストされたオブジェクトのメタデータを検索して、検索されたメタデータは、リクエストされたオブジェクトが小さなデータ記憶部に実際格納されているか、あるいは、そのサイズが原因で大きなデータ記憶部に格納されているか、を示す。それから、リクエストされたオブジェクトは、特定されたデータ記憶部から読み出される。
「DELETE」オブジェクトリクエストが複合型データベース・システムによって受信された場合、プロキシレイヤは、まず、小さなデータ記憶部に格納されているリクエストされたオブジェクトのメタデータを検索するようにさらに構成される。また、検索されたメタデータは、オブジェクトが小さなデータ記憶部あるいは大きなデータ記憶部に格納されているか、を示す。それから、特定されたオブジェクトは、特定されたデータ記憶部から削除される。
ノードが追加あるいは削除されたとき、または、そのキー範囲が変わったとき、生データはあるノードから他のノードまで移動されなければならないのは当然である。少なくともいくつかのNoSQL型データベース・システムの場合、移動されるデータは、まず、対応するキー範囲によって確認され、その後、生データはソース・ノードから目的ノードまで送られる。移動される生データが大きなデータ記憶部(例えば、大きなデータ記憶部130)によって格納されている場合、小さなデータ記憶部(例えば、小さなデータ記憶部120)によって格納されている対応するメタデータは同じように読まれ、移動されたデータの新しい記憶部を反映するために更新される。
本発明はいろいろな実施形態に関連して記述されているが、本発明が更なる修正を許容可能であることは当然である。本出願は、一般に、本発明の原理に従い、また、本発明が関係する技術の範囲内で既知や慣習的な実行の範囲内での本発明からの変更を含む本発明のいかなるバリエーション、使用または適用もカバーしている。
100 システム
110 アプリケーション/ユーザ
120 第1データ記憶部
130 第2データ記憶部
140 ルーティングレイヤ
150 ローカルデータオブジェクト
160 メタデータ
170 生データ

Claims (24)

  1. 複数のデータ記憶部を有する複合型データ管理システムによるデータ管理方法であって、
    前記複合型データ管理システムは、
    外部ソースから外来データオブジェクトに関する書き込みリクエストを受信し、
    前記外来データオブジェクトが複数の予め定義された特徴のうちの1つ以上の特徴を有しているか否かを判定し、
    前記外来データオブジェクトが有していると判定された1つ以上の予め定義された特徴に基づいて、前記複数のデータ記憶部のうちのいずれが前記外来データオブジェクトにとって好ましいデータ記憶部であるのかを特定し、
    前記外来データオブジェクトの生データを格納するために前記特定した好ましいデータ記憶部に送信し、
    前記複数のデータ記憶部のいずれが前記外来データオブジェクトの生データを有する前記好ましいデータ記憶部であるかに関係なく、前記外来データオブジェクトに関するメタデータを前記複数のデータ記憶部のうちの第1データ記憶部に格納し、
    前記メタデータは、特定のメタデータ入力と前記好ましいデータ記憶部におけるその対応するデータオブジェクトの生データとを対応付ける対応情報を含んでいる
    ことを特徴とするデータ管理方法。
  2. 前記複合型データ管理システムは、さらに、
    前記第1データ記憶部に記憶された前記外来データオブジェクトに対応するメタデータによる処理が試みられたことを検知すると、前記好ましいデータ記憶部における前記外来データオブジェクトの生データを処理する
    ことを特徴とする請求項1に記載のデータ管理方法。
  3. 前記試みられた処理は、前記外来データオブジェクトの移動、削除、修正および複製のいずれかに合致する
    ことを特徴とする請求項2に記載のデータ管理方法。
  4. 前記複合型データ管理システムは、
    前記書き込みリクエストを受信する場合、
    外部のアプリケーションまたはユーザから、前記外来データオブジェクトに関する書き込みリクエストを受信し、
    前記書き込みリクエストは、「PUT」オブジェクト処理である
    ことを特徴とする請求項1に記載のデータ管理方法。
  5. 前記複数の予め定義された特徴は、予め定義されたデータオブジェクトサイズを含む
    ことを特徴とする請求項1に記載のデータ管理方法。
  6. 前記複数の予め定義された特徴は、予め定義されたデータタイプを含む
    ことを特徴とする請求項1に記載のデータ管理方法。
  7. 前記対応情報は、前記外来データオブジェクトの生データが格納されている前記好ましいデータ記憶部における位置を示す情報を含んでいる
    ことを特徴とする請求項1に記載のデータ管理方法。
  8. 前記複合型データ管理システムは、
    外部のアプリケーションまたはユーザから、以前に格納されたデータオブジェクトに関する読み出しリクエストを受信し、
    前記以前に格納されたデータオブジェクトに対応する前記第1データ記憶部において格納されているメタデータを検索し、その際、当該メタデータは、前記外来データオブジェクトの生データが格納されている前記好ましいデータ記憶部における位置を示しており、
    前記メタデータによって示されている前記位置から前記以前に格納されたデータオブジェクトを読み出す
    ことを特徴とする請求項1に記載のデータ管理方法。
  9. 前記複合型データ管理システムは、
    前記好ましいデータ記憶部に格納された前記外来データオブジェクトに対する処理のために前記第1データ記憶部のデータ管理機能を用いる
    ことを特徴とする請求項1に記載のデータ管理方法。
  10. 前記複合型データ管理システムは、
    前記第1データ記憶部における特定のデータ管理機能の使用が、前記複合型データ管理システムに対してネガティブなパフォーマンスの影響を有することを判定し、
    それに応じて、前記第1データ記憶部における前記特定のデータ管理機能を回避して、前記ネガティブなパフォーマンスの影響を回避するために前記好ましいデータ記憶部の対応するデータ管理機能を使用する
    ことを特徴とする請求項9に記載のデータ管理方法。
  11. 外部ソースを複数のデータ記憶部に接続するために構成される第1データ記憶部を含む前記複数のデータ記憶部と、
    前記複数のデータ記憶部と接続されており、
    前記外部ソースから外来データオブジェクトに関する書き込みリクエストを受信し、
    前記外来データオブジェクトが複数の予め定義された特徴のうちの1つ以上の特徴を有しているか否かを判定し、
    前記外来データオブジェクトが有していると判定された1つ以上の予め定義された特徴に基づいて、前記複数のデータ記憶部のうちのいずれが前記外来データオブジェクトにとって好ましいデータ記憶部であるのかを特定し、
    前記外来データオブジェクトの生データを格納するために前記特定した好ましいデータ記憶部に送信し、
    前記複数のデータ記憶部のいずれが前記外来データオブジェクトの生データを有する前記好ましいデータ記憶部であるかに関係なく、前記外来データオブジェクトに関するメタデータを前記複数のデータ記憶部のうちの前記第1データ記憶部に格納するルーティングレイヤと、を備え、
    前記メタデータは、特定のメタデータ入力と前記好ましいデータ記憶部におけるその対応するデータオブジェクトの生データとを対応付ける対応情報を含んでいる
    ことを特徴とする複合型データ管理システム。
  12. 前記複合型データ管理システムは、さらに、
    前記第1データ記憶部に記憶された前記外来データオブジェクトに対応するメタデータによる処理が試みられたことを検知すると、前記好ましいデータ記憶部における前記外来データオブジェクトの生データを処理するように構成される
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  13. 前記試みられた処理は、前記外来データオブジェクトの移動、削除、修正および複製のいずれかに合致する
    ことを特徴とする請求項12に記載の複合型データ管理システム。
  14. 前記外来データオブジェクトに関する書き込みリクエストは、「PUT」オブジェクト処理である
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  15. 前記複数の予め定義された特徴は、予め定義されたデータオブジェクトサイズを含む
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  16. 前記複数の予め定義された特徴は、予め定義されたデータタイプを含む
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  17. 前記対応情報は、前記外来データオブジェクトの生データが格納されている前記好ましいデータ記憶部における位置を示す情報を含んでいる
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  18. 前記複合型データ管理システムは、さらに、
    外部のアプリケーションまたはユーザから、以前に格納されたデータオブジェクトに関する読み出しリクエストを受信し、
    前記以前に格納されたデータオブジェクトに対応する前記第1データ記憶部において格納されているメタデータを検索し、その際、当該メタデータは、前記外来データオブジェクトの生データが格納されている前記好ましいデータ記憶部における位置を示しており、
    前記メタデータによって示されている前記位置から前記以前に格納されたデータオブジェクトを読み出す
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  19. 前記複合型データ管理システムは、
    前記好ましいデータ記憶部に格納された前記外来データオブジェクトに対する処理のために前記第1データ記憶部のデータ管理機能を用いる
    ことを特徴とする請求項11に記載の複合型データ管理システム。
  20. 前記複合型データ管理システムは、
    前記第1データ記憶部における特定のデータ管理機能の使用が、前記複合型データ管理システムに対してネガティブなパフォーマンスの影響を有することを判定し、
    それに応じて、前記第1データ記憶部における前記特定のデータ管理機能を回避して、前記ネガティブなパフォーマンスの影響を回避するために前記好ましいデータ記憶部の対応するデータ管理機能を使用するように構成されている
    ことを特徴とする請求項19に記載の複合型データ管理システム。
  21. 少なくとも第1データ記憶部と第2データ記憶部とを有する複合型データ管理システムによるデータ管理方法であって、
    前記複合型データ管理システムは、
    外部ソースから外来データオブジェクトに関する書き込みリクエストを受信し、
    前記外来データオブジェクトのオブジェクトサイズを判定し、
    前記オブジェクトサイズが予め定義された閾値未満のとき、前記外来データオブジェクトの生データを前記第1データ記憶部に格納し、その際、前記第1データ記憶部は、前記第2データ記憶部に比べて、小さなデータオブジェクトの格納および管理に適した構成となっており、
    前記オブジェクトサイズが前記予め定義された閾値以上のとき、前記外来データオブジェクトの生データを前記第2データ記憶部に格納し、その際、前記第2データ記憶部は、前記第1データ記憶部に比べて、大きなデータオブジェクトの格納および管理に適した構成となっており、
    前記外来データオブジェクトの生データが前記第1データ記憶部に格納されているか前記第2データ記憶部に格納されているかに関係なく、前記外来データオブジェクトに関するメタデータを前記複数のデータ記憶部のうちの前記第1データ記憶部に格納し、その際、前記メタデータは、特定のメタデータ入力と、前記第1データ記憶部および前記第2データ記憶部のいずれかに格納されているその対応する前記データオブジェクトの生データとを対応付ける対応情報を含んでいる
    ことを特徴とするデータ管理方法。
  22. 前記複合型データ管理システムは、
    前記書き込みリクエストを受信する場合、
    外部のアプリケーションまたはユーザから、前記外来データオブジェクトに関する書き込みリクエストを受信し、
    前記書き込みリクエストは、「PUT」オブジェクト処理である
    ことを特徴とする請求項21に記載のデータ管理方法。
  23. 前記対応情報は、前記外来データオブジェクトの生データが前記第1データ記憶部または前記第2データ記憶部のいずれに格納されているかを示す情報を含んでいる
    ことを特徴とする請求項21に記載のデータ管理方法。
  24. 前記複合型データ管理システムは、
    外部のアプリケーションまたはユーザから、以前に格納されたデータオブジェクトに関する読み出しリクエストを受信し、
    前記以前に格納されたデータオブジェクトに対応する前記第1データ記憶部において格納されているメタデータを検索し、その際、当該メタデータは、前記以前に格納されたデータオブジェクトの生データが前記第1データ記憶部または前記第2データ記憶部のいずれに格納されているかを示しており、
    前記メタデータによって示されている位置から前記格納されたデータオブジェクトを読み出す
    ことを特徴とする請求項21に記載のデータ管理方法。
JP2012128578A 2011-06-09 2012-06-06 データ管理方法、および、複合型データ管理システム Pending JP2012256324A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/156,502 2011-06-09
US13/156,502 US9396290B2 (en) 2011-06-09 2011-06-09 Hybrid data management system and method for managing large, varying datasets

Publications (1)

Publication Number Publication Date
JP2012256324A true JP2012256324A (ja) 2012-12-27

Family

ID=47294053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012128578A Pending JP2012256324A (ja) 2011-06-09 2012-06-06 データ管理方法、および、複合型データ管理システム

Country Status (4)

Country Link
US (2) US9396290B2 (ja)
EP (1) EP2718858A4 (ja)
JP (1) JP2012256324A (ja)
WO (1) WO2013106079A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015015559A1 (ja) * 2013-07-30 2015-02-05 株式会社日立製作所 検索システムおよび検索方法
US20230041672A1 (en) * 2012-08-22 2023-02-09 Bitvore Corp. Enterprise data processing

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9087154B1 (en) 2011-12-12 2015-07-21 Crashlytics, Inc. System and method for providing additional functionality to developer side application in an integrated development environment
US9703680B1 (en) 2011-12-12 2017-07-11 Google Inc. System and method for automatic software development kit configuration and distribution
US9262250B2 (en) 2011-12-12 2016-02-16 Crashlytics, Inc. System and method for data collection and analysis of information relating to mobile applications
US9747128B1 (en) * 2011-12-21 2017-08-29 EMC IP Holding Company LLC Worldwide distributed file system model
US9286303B1 (en) * 2011-12-22 2016-03-15 Emc Corporation Unified catalog service
US9489233B1 (en) * 2012-03-30 2016-11-08 EMC IP Holding Company, LLC Parallel modeling and execution framework for distributed computation and file system access
US9053117B2 (en) * 2012-04-11 2015-06-09 4Clicks Solutions, LLC Storing application data with a unique ID
US10044522B1 (en) * 2012-08-21 2018-08-07 Amazon Technologies Inc. Tree-oriented configuration management service
WO2014031618A2 (en) 2012-08-22 2014-02-27 Bitvore Corp. Data relationships storage platform
US9323767B2 (en) * 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system
WO2014133494A1 (en) * 2013-02-27 2014-09-04 Hitachi Data Systems Corporation Multiple collections of user-defined metadata for self-describing objects
US10078683B2 (en) 2013-07-02 2018-09-18 Jpmorgan Chase Bank, N.A. Big data centralized intelligence system
US9355118B2 (en) 2013-11-15 2016-05-31 International Business Machines Corporation System and method for intelligently categorizing data to delete specified amounts of data based on selected data characteristics
GB2524074A (en) 2014-03-14 2015-09-16 Ibm Processing data sets in a big data repository
CN105205082A (zh) * 2014-06-27 2015-12-30 国际商业机器公司 用于处理hdfs中的文件存储的方法和系统
US9767119B2 (en) 2014-12-31 2017-09-19 Netapp, Inc. System and method for monitoring hosts and storage devices in a storage system
US10127293B2 (en) 2015-03-30 2018-11-13 International Business Machines Corporation Collaborative data intelligence between data warehouse models and big data stores
US10318491B1 (en) 2015-03-31 2019-06-11 EMC IP Holding Company LLC Object metadata query with distributed processing systems
US11016946B1 (en) * 2015-03-31 2021-05-25 EMC IP Holding Company LLC Method and apparatus for processing object metadata
US9787772B2 (en) * 2015-05-19 2017-10-10 Netapp, Inc. Policy based alerts for networked storage systems
US10133759B1 (en) * 2015-09-15 2018-11-20 Amazon Technologies, Inc. System for determining storage or output of data objects
US10762069B2 (en) * 2015-09-30 2020-09-01 Pure Storage, Inc. Mechanism for a system where data and metadata are located closely together
US10423586B2 (en) 2016-03-17 2019-09-24 Wipro Limited Method and system for synchronization of relational database management system to non-structured query language database
US10671636B2 (en) * 2016-05-18 2020-06-02 Korea Electronics Technology Institute In-memory DB connection support type scheduling method and system for real-time big data analysis in distributed computing environment
US10572506B2 (en) * 2017-03-07 2020-02-25 Salesforce.Com, Inc. Synchronizing data stores for different size data objects
US10817203B1 (en) 2017-08-29 2020-10-27 Amazon Technologies, Inc. Client-configurable data tiering service
US11151081B1 (en) 2018-01-03 2021-10-19 Amazon Technologies, Inc. Data tiering service with cold tier indexing
US10579597B1 (en) 2018-01-09 2020-03-03 Amazon Technologies, Inc. Data-tiering service with multiple cold tier quality of service levels
US10592139B2 (en) * 2018-05-30 2020-03-17 EMC IP Holding Company LLC Embedded object data storage determined by object size information
CN109600440A (zh) * 2018-12-13 2019-04-09 国网河北省电力有限公司石家庄供电分公司 一种电力销售大数据处理方法
US11269688B2 (en) * 2018-12-18 2022-03-08 EMC IP Holding Company LLC Scaling distributed computing system resources based on load and trend
CN109885577B (zh) * 2019-03-11 2021-07-13 Oppo广东移动通信有限公司 数据处理方法、装置、终端及存储介质
US11221782B1 (en) 2019-03-27 2022-01-11 Amazon Technologies, Inc. Customizable progressive data-tiering service
US11494611B2 (en) 2019-07-31 2022-11-08 International Business Machines Corporation Metadata-based scientific data characterization driven by a knowledge database at scale
US11675513B2 (en) * 2021-08-16 2023-06-13 International Business Machines Corporation Selectively shearing data when manipulating data during record processing
US11513704B1 (en) 2021-08-16 2022-11-29 International Business Machines Corporation Selectively evicting data from internal memory during record processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005502121A (ja) * 2001-08-31 2005-01-20 アルキヴィオ・インコーポレーテッド 記憶ポリシに基づいてデータを記憶する技法
JP2009525534A (ja) * 2006-02-01 2009-07-09 マイクロソフト コーポレーション スケーラブルファイル複製およびウェブベースアクセス
JP2009537918A (ja) * 2006-05-23 2009-10-29 ノーリャン・ホールディング・コーポレイション 分散ストレージ
US20100332401A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud storage environment, including automatically selecting among multiple cloud storage sites

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324581B1 (en) 1999-03-03 2001-11-27 Emc Corporation File server system using file system storage, data movers, and an exchange of meta data among data movers for file locking and direct access to shared file systems
US7177883B2 (en) * 2004-07-15 2007-02-13 Hitachi, Ltd. Method and apparatus for hierarchical storage management based on data value and user interest
US8600948B2 (en) * 2005-09-15 2013-12-03 Emc Corporation Avoiding duplicative storage of managed content
US7716180B2 (en) * 2005-12-29 2010-05-11 Amazon Technologies, Inc. Distributed storage system with web services client interface
US20080021865A1 (en) 2006-07-20 2008-01-24 International Business Machines Corporation Method, system, and computer program product for dynamically determining data placement
US8701010B2 (en) * 2007-03-12 2014-04-15 Citrix Systems, Inc. Systems and methods of using the refresh button to determine freshness policy
US20100313044A1 (en) * 2009-06-03 2010-12-09 Microsoft Corporation Storage array power management through i/o redirection
US20110072489A1 (en) 2009-09-23 2011-03-24 Gilad Parann-Nissany Methods, devices, and media for securely utilizing a non-secured, distributed, virtualized network resource with applications to cloud-computing security and management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005502121A (ja) * 2001-08-31 2005-01-20 アルキヴィオ・インコーポレーテッド 記憶ポリシに基づいてデータを記憶する技法
JP2009525534A (ja) * 2006-02-01 2009-07-09 マイクロソフト コーポレーション スケーラブルファイル複製およびウェブベースアクセス
JP2009537918A (ja) * 2006-05-23 2009-10-29 ノーリャン・ホールディング・コーポレイション 分散ストレージ
US20100332401A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud storage environment, including automatically selecting among multiple cloud storage sites

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230041672A1 (en) * 2012-08-22 2023-02-09 Bitvore Corp. Enterprise data processing
WO2015015559A1 (ja) * 2013-07-30 2015-02-05 株式会社日立製作所 検索システムおよび検索方法
US10019483B2 (en) 2013-07-30 2018-07-10 Hitachi, Ltd. Search system and search method

Also Published As

Publication number Publication date
US20120317155A1 (en) 2012-12-13
EP2718858A4 (en) 2015-08-05
US9672267B2 (en) 2017-06-06
US9396290B2 (en) 2016-07-19
US20160292255A1 (en) 2016-10-06
WO2013106079A1 (en) 2013-07-18
EP2718858A1 (en) 2014-04-16

Similar Documents

Publication Publication Date Title
US9672267B2 (en) Hybrid data management system and method for managing large, varying datasets
US20200012568A1 (en) Scalable log-based continuous data protection for distributed databases
US9454533B2 (en) Reducing metadata in a write-anywhere storage system
US9110909B2 (en) File level hierarchical storage management system, method, and apparatus
US11954373B2 (en) Data structure storage and data management
US8510499B1 (en) Solid state drive caching using memory structures to determine a storage space replacement candidate
US8639669B1 (en) Method and apparatus for determining optimal chunk sizes of a deduplicated storage system
US9305072B2 (en) Information storage system and data replication method thereof
US9304966B2 (en) Providing local access to managed content
CN108255647B (zh) 一种samba服务器集群下的高速数据备份方法
US7783615B1 (en) Apparatus and method for building a file system index
US10585611B2 (en) Inline deduplication
US11029891B2 (en) Hybrid distributed storage system to dynamically modify storage overhead and improve access performance
JP2020510265A (ja) 複合集合体アーキテクチャー
CN103501319A (zh) 一种低延迟的面向小文件的分布式存储系统
US11016688B1 (en) Real-time localized data access in a distributed data storage system
EP3958139B1 (en) Method and system for creating files in a file system
US8200630B1 (en) Client data retrieval in a clustered computing network
US8997124B2 (en) Method for updating data in a distributed data storage system
JP6607044B2 (ja) サーバー装置、分散ファイルシステム、分散ファイルシステム制御方法、および、プログラム
US11055266B2 (en) Efficient key data store entry traversal and result generation
US10970335B2 (en) Access pattern-based distribution for distributed key-value stores
CN115291794A (zh) 一种数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150306

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170530