JP2012504814A - データセントリック検索の動的管理のためのシステムおよび方法 - Google Patents

データセントリック検索の動的管理のためのシステムおよび方法 Download PDF

Info

Publication number
JP2012504814A
JP2012504814A JP2011530032A JP2011530032A JP2012504814A JP 2012504814 A JP2012504814 A JP 2012504814A JP 2011530032 A JP2011530032 A JP 2011530032A JP 2011530032 A JP2011530032 A JP 2011530032A JP 2012504814 A JP2012504814 A JP 2012504814A
Authority
JP
Japan
Prior art keywords
data processing
data
memory location
domain specific
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011530032A
Other languages
English (en)
Inventor
デイビッド ブライアン ジャクソン
Original Assignee
アダプティブ コンピューティング エンタープライジズ インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アダプティブ コンピューティング エンタープライジズ インク filed Critical アダプティブ コンピューティング エンタープライジズ インク
Publication of JP2012504814A publication Critical patent/JP2012504814A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データセントリック検索を管理するための方法は、ドメイン検索に関する事象情報を受信することと、データベースの第1のメモリ位置にあるデータを特定することと、データを新しいメモリ位置に複製することと、他のドメイン検索の処理をメモリ位置の中で分散配置することと、を含む。処理の分散配置は、無作為に、連続的に、または他の方法で行われる。この方法は、メモリ位置で構成される拡張検索スペースを含み、縮小事象を特定し、検索スペースを圧縮し、複製データを除去することが可能である。この方法は、ドメイン検索と関連するネットワークセグメントにより多数の事象を構成する機能も含む。

Description

本出願は、以下の米国特許出願に関連している。2006年8月11日出願の出願番号第10/530,582号(代理人事件番号第010−0011A号)、2006年8月11日出願の出願番号第10/530,581号(代理人事件番号第010−0011B号)、2005年3月11日出願の出願番号第10/530,577号(代理人事件番号第010−0011C号)、2005年3月11日出願の出願番号第10/530,576号(代理人事件番号第010−0013号)、2005年8月19日出願の出願番号第11/208,138号(代理人事件番号第010−0011D号)、2006年12月18日出願の出願番号第11/629,940号(代理人事件番号第010−0011E号)、2008年2月19日出願の出願番号第12/033,386号(代理人事件番号第010−0011F−DIV号)、2005年6月17日出願の出願番号第11/155,090号(代理人事件番号第010−0011G号)、2005年6月17日出願の出願番号第11/155,347号(代理人事件番号第010−0012号)、2007年5月8日出願の出願番号第11/718,867号(代理人事件番号第010−0016号)、2005年6月17日出願の出願番号第11/155,091号(代理人事件番号第010−0018号)、2006年8月11日出願の出願番号第10/589,339号(代理人事件番号第010−0019号)、2006年3月16日出願の出願番号第11/276,852号(代理人事件番号第010−0025号)、2005年3月11日出願の出願番号第10/530,578号(代理人事件番号第010−0026号)、2005年3月11日出願の出願番号第10/530,580号(代理人事件番号第010−0028号)、2008年2月4日出願の出願番号第10/530,575号(代理人事件番号第010−0030号)、2005年8月26日出願の出願番号第11/207,438号(代理人事件番号第010−0035号)、2006年2月9日出願の出願番号第11/276,013号(代理人事件番号第010−0036号)、2006年3月16日出願の出願番号第11/276,853号(代理人事件番号第010−0038号)、2006年3月16日出願の出願番号第11/276,854号(代理人事件番号第010−0039号)、2006年3月16日出願の出願番号第11/276,855号(代理人事件番号第010−0040号)、2006年3月16日出願の出願番号第11/276,856号(代理人事件番号第010−0041号)、2006年4月7日出願の出願番号第11/279,007号(代理人事件番号第010−0043号)、2007年6月14日出願の出願番号第11/763,010号(代理人事件番号第010−0044号)、2006年12月26日出願の出願番号第11/616,156号(代理人事件番号第010−0045号)、2008年1月31日出願の出願番号第12/023,722号(代理人事件番号第010−0046号)、2008年7月24日出願の出願番号第12/179,142号(代理人事件番号第010−0047号)。各特許出願は、本出願より以前に出願された。これら出願の各々の内容は、その全体が参考として取り入れられている。
本発明は、検索、より詳しくはデータセントリック検索を処理するためのリソース管理に関連する。
データセントリック検索は、この15年間で普及するようになってきた。Yahoo、AltaVista、Ask.com、Googleなどの企業は、ワールドワイドウェブ上の検索サービスを提供することによって成長してきた。一般的にユーザは、ウェブページを訪れて、ウェブページのテキストボックスに検索語を入力することにより見つけたい項目を検索する。計算環境としてグリッドまたはクラスタの形で一緒にネットワーク接続された数百、数千、または数十万台もの個々のコンピュータを含む大規模データセンターにおいて、検索エンジンがこれらの問合せを処理する。検索エンジンは一般的に、検索データベースを多くのコンピュータの間で分散配置する。しかし、多数のインターネットユーザの関心を引く事象が発生した時には、この事象についての情報を求める要求が検索エンジンに短時間で押し掛ける。例えば、2008年北京オリンピックは、膨大な量のウェブ検索を引き起こす事象であったが、その大部分は実質的に同じであるか、非常に類似した要素を含んでいた。一般的な検索エンジンデータセンターでは、これは、要求の高い情報を含む1台のコンピュータまたは一定のコンピュータ集合が繰り返し問合せを受けることを意味する。このような類似の問合せは、同じドメイン内であると考えられる。このコンピュータまたはコンピュータ集合における突然の作業負荷の増加は、サービスの質の低下につながる。例えば、通常の条件下ではサーバが0.02秒で問合せに対応する場合、極端な負荷では同じサーバが問合せに対応するのに0.08秒以上かかる。
オリンピックは、検索の増加を多く招く予測可能な事象の例であるが、他の事象、例えばハリケーンや地震などの自然災害および政治的紛争などの非自然災害は、予測可能性が低い。オリンピックに関する検索は2週間以上にわたって広がり、検索量は徐々に増加するが、他の事象は、統計的にはわずかな数から検索全体のかなりの割合を占めるまで、短時間で急速に増加する。
多くの場合、これらの事象に起因する大量の検索は最高値検索(つまりユーザにとって最重要)であるが、時間的に集中していて要求が大量であるため、必要なデータを含む計算環境内の個々のサーバは、反応が最も遅くなる。最終的には、最重要の検索に最悪のサービスが提供されるという結果になる。
ここで用いられるデータ検索は、いかなる種類のデータ検索またはデータセントリック処理にも当てはまる。ウェブ検索は、データがGoogleの所有するインデックスデータであって、ウェブクローリングアルゴリズムを介してインターネット上で取得されるGoogle検索などの検索を含む。検索されるデータは、ドラッジレポートまたはCNNウェブサイトなど、同じウェブページに多数のユーザがアクセスするようなウェブページそのものでもよい。
したがって、当該技術分野で必要とされるのは、最も頻度の高い検索が即時対応されるように検索を管理する改良方法である。
本発明の付加的な特徴および長所は、以下に続く説明に提示され、一部は説明から明らかであるか発明の実施により習得される。発明の特徴および長所は、添付の請求項に詳しく指摘された手段および組合せによって実現および獲得される。本発明の以上および他の特徴は、以下の説明および添付の請求項からより完全な形で明らかになるか、ここに提示される発明の実施により習得される。
開示されるのは、データセントリック検索の動的管理のためのシステム、方法、およびコンピュータ読取可能な有形媒体である。この方法は、データベースに対するドメイン固有検索に関する事象関連の情報を受信し、ドメイン固有検索を受けて特定されるデータである、データベースの第1のメモリ位置にあるデータを特定し、少なくとも一つの新しいメモリ位置にデータを少なくとも1回複製し、多数のドメイン固有検索を少なくとも一つの新しいメモリ位置の中で分散配置することを含む。この方法はさらに、第1のメモリ位置と少なくとも一つの新しいメモリ位置との少なくとも一方の中で処理を分散配置する。システムは、無作為に、連続的に、または例えば地理的など他の戦略的方法で、多数のドメイン固有検索の処理を分散配置できる。応答時間を短縮するように、ある種の自動車または政治家候補について検索エンジンを介して提示される検索の数がある閾値に達すると、ここに開示されるステップをシステムが実施できる。データを複製した後で、応答時間を改善するため、システムは、同じドメインまたは話題についての追加検索を、追加したメモリ位置の中で分散配置する。
この方法は、第1のメモリ位置と少なくとも一つのメモリ位置とで構成される拡張した検索スペースの使用を任意で含む。この方法はさらに、ドメイン固有検索に関する減少事象を特定し、一つ以上のメモリ位置から複製データを除去するか、これらのメモリ位置へのアクセスを中断して少なくとも一つの残存するメモリ位置の中で処理を分散配置することにより、拡張した検索スペースを圧縮することを含む。この方法は、多数の事象をネットワークセグメントにより構成し、ドメイン固有検索と関連するネットワークセグメントを特定し、そして、特定されたネットワークセグメントに近接する少なくとも一つの新しいメモリ位置にデータを複製することを含む。この方法は、地理的距離、ネットワーク待機時間、中間ネットワークホップの数、温度、およびコストのうち一つ以上によって近接度を測定できる。Cluster Resources社のMOAB(登録商標)などの作業負荷マネージャ、またはPlatform Computing社のソフトウェアにより、この方法の全部または一部を実施または管理できる。
本発明の上記および他の長所および特徴が得られる方法を説明するため、添付図面に示された特定実施形態を参照して、上で簡単に説明された発明についてのより詳しい説明が行われる。これらの図面は発明の典型的実施形態を描いたものに過ぎず、そのため範囲を限定するものと考えられるべきではないことを理解したうえで、添付図面を用いてさらに明確および詳細に発明が記載および説明される。
本実施の形態におけるシステムの一例を示した図である。 第一の先行技術による検索管理アプローチを示した図である。 第二の先行技術による検索管理アプローチを示した図である。 本実施の形態における検索管理のためのシステムの一例を示した図である。 本実施の形態における方法の一例を示した図である。 本実施の形態における予測的検索管理のための方法の一例を示した図である。
以下では、発明の様々な実施形態が詳述される。特定の実行例について述べるが、例示目的のみで行われることを理解すべきである。関連技術分野の当業者は、発明の趣旨および範囲から離れることなく他の要素および構成が使用されてもよいことを認識するだろう。
図1を参照すると、典型的システムは、処理ユニット(CPU)120と、リードオンリメモリ(ROM)140およびランダムアクセスメモリ(RAM)150などのシステムメモリを含む様々なシステム要素を処理ユニット120に結合するシステムバス110とを含む汎用計算デバイス100を含む。他のシステムメモリ130の使用も可能である。一つ以上のCPU120を備える計算デバイス、または処理能力を高めるため一緒にネットワーク接続された計算デバイスのグループまたはクラスタにおいて本発明が機能することが理解できる。処理ユニット120は、ソフトウェアにより制御される汎用CPUを専用プロセッサとともに含む。Intel Xeon LV L7345プロセッサは、ソフトウェアにより制御される汎用CPUの例である。独立したコンピュータチップの設計に特定の機能が組み込まれてもよい。STMicroelectronics STA013プロセッサは、MP3オーディオファイルを解読する専用プロセッサの例である。言うまでもなく、処理ユニットは、汎用CPUおよびCPUを制御するように構成されたモジュールに加えて、実際のプロセッサ設計にソフトウェアが有効に組み込まれた専用プロセッサも含む。処理ユニットは本質的に、多数のコアまたはCPU、バス、メモリ制御装置、キャッシュなどを含む完全内蔵型の計算システムである。マルチコア処理ユニットは、対称性でも非対称性でもよい。
システムバス110は、メモリバスまたはメモリ制御装置、周辺装置のバス、そして多様なバスアーキテクチャのいずれかを用いるローカルバスを含む種々のタイプのバスの構造のいずれかで実現してもよい。ROM140その他に格納される基本入出力(BIOS)は、起動時などに計算デバイス100内の要素間で情報を伝達するのに役立つ基本ルーチンを提供する。計算デバイス100はさらに、ハードディスクドライブ160、磁気ディスクドライブ、光ディスクドライブ、テープドライブ、またはその他のような記憶デバイスを含む。記憶デバイス160は、ドライブインタフェースによりシステムバス110に接続されている。ドライブおよび関連のコンピュータ読取可能な媒体は、計算デバイス100のためのコンピュータ読取可能な命令、データ構造、プログラムモジュールおよび他のデータの不揮発性記憶装置となる。一面において、特定の機能を実施するハードウェアモジュールは、機能を実行するためCPU、バス、ディスプレイ、およびその他のような必要なハードウェア要素と関連するコンピュータ読取可能な有形媒体に格納されるソフトウェア要素を含む。基本的な要素は当該技術分野の当業者には周知であり、デバイスが小型、ハンドヘルド計算デバイス、デスクトップコンピュータ、またはコンピュータサーバであるかどうかなど、デバイスのタイプに応じて、適切な変形が考えられる。
ここに説明される典型的な実施形態ではハードディスクを採用しているが、磁気カセット、フラッシュメモリカード、デジタルバーサティルディスク、カートリッジ、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、ビットストリームを含むケーブルまたは無線信号、およびその他のように、コンピュータによるアクセスが可能なデータを格納できる他のタイプのコンピュータ読取可能媒体が典型的な動作環境で使用されてもよいことを、当該技術分野の当業者であれば理解するはずである。
ユーザが計算デバイス100と相互作用を行うことができるように、入力デバイス190は、会話用マイクロフォン、身振りまたは図形入力のためのタッチ感応スクリーン、キーボード、マウス、動作入力、音声、およびその他など、いくつかの入力機構を代表するものである。音声検索問合せの開始を示すため、提示者により入力が用いられてもよい。デバイス出力170は、当該技術分野の当業者に周知のいくつかの出力機構のうち一つ以上でもよい。いくつかの例では、マルチモードシステムによって、計算デバイス100と通信するための多数のタイプの入力をユーザが提供できる。通信インタフェース180は概して、ユーザ入力およびシステム出力を支配および管理する。発明は特定のハードウェア構成での機能に限定されるわけではなく、そのため改良型のハードウェアまたはファームウェアが開発されれば、基本的特徴が容易にこれと置き換えられる。
説明を明瞭にするため、例示的なシステム実施形態は、個々の機能ブロック(「プロセッサ」と記された機能ブロックを含む)を包含するものとして提示される。これらのブロックが表す機能は、共有又は専用のいずれかのハードウェアの使用によって提供されるが、このハードウェアというのは、ソフトウェアを実行できるハードウェアと、汎用プロセッサで実行されるソフトウェアの同等物として機能するように専用に構築されたプロセッサなどのハードウェアと、を限定的でなく含む。例えば、図1に提示された一つ以上のプロセッサの機能は、単一の共有プロセッサまたは多数のプロセッサにより提供される(「プロセッサ」の語の使用は、ソフトウェアの実行が可能なハードウェアのみを指すと解釈されるべきではない。)。例示的な実施形態は、マイクロプロセッサおよび/またはデジタル信号プロセッサ(DSP)ハードウェア、後述する動作を実施するソフトウェアを格納するリードオンリメモリ(ROM)、および結果を記憶するためのランダムアクセスメモリ(RAM)を包含する。超大型集積回路(VLSI)ハードウェアの実施形態が、汎用DSP回路と組み合わされたカスタムVLSI回路構成とともに提供されてもよい。
様々な実施形態の論理的動作は、(1)汎用コンピュータ内のプログラマブル回路で実行されるコンピュータ利用ステップ、動作、または手順のシーケンス、(2)専用プログラマブル回路で実行されるコンピュータ利用ステップ、動作、または手順のシーケンス、および/または(3)プログラマブル回路内で相互接続されたマシンモジュールまたはプログラムエンジン、として実行される。
この方法を実行するように構成されるいくつかの基本的システム要素を説明したので、先行技術によるいくつかの検索管理アプローチの開示に移る。図2は、第一の先行技術による検索管理アプローチを示した図である。キュー202は、CPUサイクル、メモリ、データベースアクセスおよびその他などのリソースを消費する計算環境に提示されるタスクまたはジョブを格納している。キュー202が一杯になると、MOAB Cluster Suite(登録商標)またはCluster Resources社またはPlatform社の他のソフトウェアを例として含む作業負荷マネージャ204などのソフトウェアが、キュー202から計算環境206へタスク/ジョブを割り当てる。データセントリック検索の状況では、多数のコンピュータの大規模データセットの多様な部分を計算環境206が含有する。一面において、作業負荷マネージャは、計算環境206へのタスク/ジョブ(検索要求など)の知的な計画および配置、知的な負荷分散、そして参考として取り入れられている様々な出願に開示されている他の作業負荷管理タスクおよび性能などのタスクを実施する。このようなソフトウェアは、検索要求(ジョブ)に対応するため任意のタイミングおよびリソースを特定し、サービス水準合意または他の基準を満たしながら計算環境206の利用を最大限にするために、キューから特定の計算リソース208へジョブを写像する。リソースの消費のための計算環境へのジョブの挿入を管理することばかりでなく、データセントリック状況において、大量検索または性能を低下させる他の事象に対応する計算環境の能力を向上させるようにこの環境を管理することまで、作業負荷マネージャ204の性能がどのように拡張されるかを、本開示では説明する。
図3は、第二の先行技術による検索管理アプローチ300を示した図である。この第二の先行技術では、検索など一連の処理または要求302を受理して、プロセッサスペースまたは作業負荷による処理の均衡化の代わりに、これらの要求への回答と関連するメモリスペース304を写像する。このアプローチは基本的に、広い検索スペースの検索を助けるため、多数の計算サーバにわたって、またそのディスクまたはメモリ306にわたって均等に、および/または戦略的に、広い検索スペース304を分割する。データ記憶装置およびキャッシュを備える多数の計算システムをシステムが有する旧来のモデルに代わって、このアプローチは、データセントリックなデータ集中方法での高速データアクセスを可能にするオンプロセッサキャッシュにすべてが含まれるかもしれない多数のデータスペースの同等物を有効に使用する。この先行技術アプローチは、ディスクサイズ、メモリサイズ、またはデータサイズにより、メモリスペース304のノード306の間でデータを静的に分散させる。このアプローチは、入力要求302により必要とされるデータセットの全部または一部を偶然にも有する適切な計算サーバまたはノード306に入力要求302を写像する変換層308を含む。検索または処理が入力されるたびに、システムは、変換層308を通してメモリスペース304の正しいサーバ集合体306にこれを写像する。メモリ内でのデータの高速アクセスが可能であり、変換層の処理面は比較的軽量であるため、これは本来、良好なモデルである。しかし、この先行技術アプローチは、特定の処理セットでの予想外の増加への対応に適しておらず、調整もされない。言い換えると、多数のユーザが同じドメインまたはテーマのデータを検索し始めた場合には、この先行技術アプローチでは、検索に対応するための計算環境への需要増大に対して適切に対処されないのである。
さて、ここに開示される発明に開示内容を移す。開示されるアプローチは、作業負荷管理ソフトウェアの性能により改良を行う。開示されるアプローチは、計算環境を管理し、事象を監視し、メモリなどのリソースを保存し、トリガを起動し、必要とされる基準に従って環境内でのリソースの利用を最大限にするという、作業負荷管理ソフトウェアの性能を利用する。以前の作業負荷管理ソフトウェアは、環境に分散されるジョブの全体的な管理を中心としていたが、本開示では、データセントリック検索と、この状況での計算環境の管理方法とにこの使用が拡張される。図4は、検索を管理するための本実施の形態400のシステムの一例を示した図である。作業負荷マネージャ402(または他のソフトウェア/ハードウェア、または環境内でのリソースの使用を管理する他の機構)は、少なくとも部分的にシステムを管理する。システムが処理または検索404を受理すると、変換層406が、入力処理または検索をメモリスペース408の適切なリソースに写像する。一例では、ウェブページについてのデータを収集してこれをデータベース408に格納するウェブクローリングアルゴリズムを検索エンジンが有する。ユーザが検索エンジンなどで語または語句を検索する際には、検索語に適合するウェブサイトにユーザが誘導されるように、データベース408の適切なデータが配置される。類似の検索の増加が発生すると、同じノード、メモリ、ノードセット412が大量の処理を扱っているかこのデータにヒットしているという情報を作業負荷マネージャ402が受理する。サービス水準合意(SLA)、キュー内のタスク数、毎秒ヒット率、平均応答時間などの閾値に基づいて、または他のデータに基づいて、大量の処理の判断をシステムが行う。閾値は、多様なデータセントリック検索ごとに異なってもよい。例えばシステムは、他より重要な一つの検索カテゴリを検討できる。この場合、システムは、重要カテゴリへの対応をより良くするため、低い閾値、例えば0.5秒でなく0.2秒の平均応答時間を、より重要なカテゴリに割り当てる。カテゴリは動的でもよい。例えば、最も人気のある検索に対して最良の対応をするため、最新の事象に関する検索は、SLAを介して最短応答時間を持つように割り当てられる。一例を挙げると、二人の大統領候補についての検索が討論会の翌日に0.2秒より長い応答時間を持つ場合には、ここに開示されるアプローチを起動するようにシステムが閾値を変更できる。これに関して、特定のドメインにおける検索を要求している多数のユーザの体験を改善するため、このドメインでの検索の応答時間をシステムが改善することが可能である。
特徴412は、メモリスペース408、または計算デバイスのグリッドまたはクラスタにわたって分散されたメモリ位置に記憶されたデータを表す。同じドメイン内での検索を受けて特定の位置またはいくつかのメモリ位置のデータが何度もアクセスされる時には、特徴412は「ホットデータ」として参照される。閾値事象に達すると、拡張検索スペース410を作成するために、作業負荷マネージャ402が、利用可能であるか、あるいは必要性の低いメモリ位置410へホットデータ412を知的にコピーする。ここに開示されるプロセスおよびステップのいずれかを管理するため、作業負荷マネージャ402は、予約、起動、準備、または取り入れられている出願に提示された性能のいずれかを使用する。作業負荷マネージャ402は、環境408の制御について充分な情報を持っており、参考として取り入れられる多様な法則を用いて、環境408におけるリソースの利用を制御422,424する。作業負荷マネージャ402はまた、原メモリ位置412および/または拡張検索スペース410にわたって類似のデータセントリック処理418,420を分散配置するように変換層406を調節できる。作業負荷マネージャ402は、変換層の利用以外にも他の機構を用いて、付加的なドメイン内検索の分散を管理できる。これに関して、図4には、メモリ位置412のデータにアクセスすることにより計算環境により応答される最初の検索グループ414が示されている。新しいメモリ位置410にデータが複製された後は、元のメモリ位置412、新しいメモリ位置410、またはその両方にアクセスすることにより、同じドメイン内での付加的検索を作業負荷マネージャ402が管理できる。
データが複製されて検索が分散された後、ドメイン固有検索と関連する事象をシステムが監視し、事象が発生するか閾値を越えた場合に、システムは、圧縮または縮小事象の後で提示された検索がデータベースの検索スペースにより処理されるように拡張検索スペースを縮小し、一つ以上のメモリ位置から複製データを除去するか一つ以上のメモリ位置へのアクセスを中断し、少なくとも一つの残存メモリ位置の間で処理を分散配置するようにアルゴリズムを調節する。言い換えると、類似の処理の増加が沈静化すると、作業負荷マネージャ402は、拡張検索スペース410でのデータコピーを縮小または消去するか、このデータを格納するメモリスペースへのアクセスを中断する。この縮小は、徐々に、または一気に行われる。システムは、重要性または使用頻度の表示とともにデータコピーを拡張検索スペースに残す。処理および検索の傾向が変移するにつれて、作業負荷マネージャ402は、現在、拡張検索スペースにあるデータよりも至急のホットデータ412を特定して、これに置き換える。一面において、メモリスペース408に示された多様なボックスは、同じ物理コンピュータの一部でよい。例えばシステムは、RAM、ハードドライブ、フラッシュメモリ、リムーバブル媒体、そして多数のプロセッサコアを備えるコンピュータでは各コアの個々のキャッシュを、別々のメモリ位置と考える。
作業負荷マネージャ402は、検索を管理するための多様なアプローチも使用できる。やはり、検索データは、検索エンジン−インデックスデータ、ダイレクトウェブサイトデータ、または音声処理または天気予報その他などの種類の分析に使用される親会社データベースなど他のデータでよいことに注目される。システムは、キャッシュ、ハードドライブ、テープドライブ、RAM、光学ドライブ、今後開発されるメモリデバイスなど他のデータ記憶装置にデータを分散配置する。上記のように、環境408の中のデータは、ウェブクローラから取得されるデータであってウェブサイト自体の中のデータではない。別の例では、データはウェブサイトデータそのものである。ある場合には、ウェブサイトはストリーミングビデオを含む。この状況では、同じウェブサイトに多数のユーザがアクセスするなど、事象閾値に達した場合に、システムは、ウェブサイトデータ全体の一部を新しい位置に複製して、検索分散アルゴリズムは検索を追加位置に写像する。メモリスペース410へのデータの複製を開始してから、多様なメモリ位置の間でのドメイン内検索の分散を管理するのに、システムジョブまたはトリガが使用される。作業負荷マネージャ402は、新しいメモリ位置410と関連するリソースの予約を開始する。他のネットワークリソースも予約されて、問合せへの対応に使用されなければならない。こうして、CPU、帯域幅、データプレステージングおよびポストステージングジョブなどがすべて、ここに開示されるステップを達成するのに利用される。一例では、多数の静止部分ではなくウェブサイトの映像部分のみをシステムが複製する。こうして、ユーザがURLを入力するかウェブサイトにアクセスする時に、オリジナルサーバと、単数または複数のオリジナルサーバのみでは充分な性能水準で処理できない特別な要求に対応するため映像を格納している動的保存サーバの一つのいずれかから送られた映像が流れる。
上記のように、上述した法則は、ローカルエリアネットワーク検索または他のタイプの検索など、ウェブ検索以外のデータセントリック検索にも適用される。この法則は、ウェブ管理など、検索以外のデータセントリック処理にまで拡張される。例えば、ウェブ管理サービスを販売するため、GoDaddy.comなどのウェブ管理プロバイダは、大規模なクラスタ、グリッド、またはクラウドコンピュータを維持管理している。管理コンピュータのリソースを完全またはほぼ完全に利用するのに充分な情報量を有しているウェブサイトは少数であるのに対して、大部分のウェブサイトの情報量は散在的、散発的であり、実際には他の顧客との共有マシンで処理される。時には、CNN.comまたはSlashdot.orgなどの人気ウェブサイトは小規模ウェブサイトへのリンクを貼って、混雑していないサーバに大量のウェブ情報量を迂回させ、すべての要求をサーバが処理できないようにする急増加にリソースが対応することはない。ウェブ管理プロバイダは、ウェブサイトのウェブ利用容量を動的に拡大して通常のコンピュータグループよりも大きくするように、上述した法則を適用するサービスを提供できる。この場合の事象は、閾値を越える毎秒あたりのHTTP要求数、または特定ウェブサーバへのネットワーク情報量、または閾値を越えるアドレスの量である。システムは、ウェブサイトを複製して、複製データの新しいメモリ位置のために新しいIPアドレスの数を確定する。別のIPアドレスへのURLの切換えを達成するための機構の一例は、多数の人が特定のURLを要求すると、オリジナルIPアドレスと、複製された単数または複数のウェブサイトの新しいIPアドレスのうち少なくとも一つの間で確定したIPアドレスをDNSサーバが分散させるように、作業負荷マネージャ402、またはここに記すアルゴリズムに従ってDNSサーバのIPアドレスをローテーションさせる他の機構を含む。事象が沈静化する(cnn.comを要求する人が減少する)と、システムは、動的に拡張された複製ウェブサイトのグループを圧縮して、元のサイズおよび元のメモリにする。新しいIPアドレスを備える各複製ウェブサイトが圧縮されるか、利用可能対象から除外されると、アルゴリズムはもはやこのIPアドレスをDNSサーバへ挿入しない。圧縮が続くと、元のIPアドレスのみがDNSサーバに残り、このURLについての今後の要求は元のウェブサーバによって対応される。この方式においてウェブ管理者は、このようなサービスについて毎月定額料金を請求し、保険に似た方法で多数の顧客の間でコスト拡大を分散させるか、このような拡大と関連する実際のコストに基づいてウェブ管理者が請求を行う。当該技術分野の当業者には明らかである他の変形および用途が存在する。
図5は、本実施形態における方法の一例を示した図である。方法を実行するように構成されたシステムについて方法実施形態を記す。システムは、作業負荷マネージャその他などの要素、コンピュータのクラスタまたはグリッド、オンデマンドセンタ、クラウド計算環境その他などの一つ以上の計算環境、作業負荷マネージャと一つ以上の計算環境とを接続するネットワーク、一つの位置または多数の位置に分散された検索関連情報のデータベース、関連のソフトウェア、および他の必要な要素を含む。システムは、データベース(502)に対するドメイン固有検索に関する事象と関連する情報を受け取る。一例を挙げると、インターネット検索エンジンは、検索インデックスからの情報を検索することにより検索エンジンが対応する数千の検索問合せを一秒ごとに受理する。この場合の事象は、毎秒あたりの特定ドメイン内での検索問合せの数である。検索インデックスは一般的には大規模な分散データベースであるが、単一の位置に存在可能である。検索エンジンは、検索要求のログを維持している。どの検索語または検索語の組合せが最高のヒット率を有する、つまり最も注目されているかを判断するため、検索エンジンは検索語によってログを分類する。システムは、適合している閾値を特定するため、ヒット率、または環境と関連する他のパラメータを何らかの方法で監視する。システムは、ログの全部または一部を、データベースに対する検索のヒット率と関連する情報として受理する。大量の検索に加えて、SLAに関するトリガは、特定カテゴリの検索語についての最低水準のサービス、またはある時間量以上で完了する検索(0.7秒以上かかる“Donald Trump”についての検索問合せなど)を示す。事象はまた、ヒット率と関連していなくてもよい。エネルギー消費量と、温度と、海流事象、天候事象、政府の決定、経済事象、その他など環境の検索以外の事象とに関連していてもよい。
ドメイン固有検索は、所望するサービス品質に応じて多層の検索を含む。例えば、ドメイン固有検索の例は“Hurricane Katrina”である。若干の付加的な検索語が取り入れられてもよいが、このドメインの検索の大多数は“Hurricane Katrina”の語を含む。多層でのドメイン固有検索の別の例は、Saint Patrik's Dayである。ドメインは広く、シャムロック、グリーン、レプレホーン(小妖精)、金のつぼ、3月17日、アイルランド、ピンチ、パレードなどの検索語を含む。システムは、これらの検索語のすべてとその変形とをドメイン固有検索に含める。「事象」の他の例は、低い反応時間、ドメイン固有メモリ位置での高温、帯域幅の問題、または閾値に達する要因の組合せを含む。
システムは、ドメイン固有検索を受けて特定されるデータである、データベースの第1のメモリ位置にあるデータを特定する(504)。システムは、多数の方法での検索を受けてデータを特定してもよい。例えば、最も注目された上位25件の検索、または毎秒750件以上ヒットした検索と関連するデータを特定する。一般的に、一つのメモリ位置、または事実上一つの位置と呼ばれる限定数のメモリ位置に、データが格納される。メモリ位置は例えば、プロセッサキャッシュ、RAM、ソリッドステートドライブ、内部および外部ハードドライブ、および/または他の媒体を含む。クラスタの一つのノードにおいて、データは、ハードディスク、RAM、プロセッサキャッシュに同時に存在できる。特定されたデータは、多くの検索の対象である「ホットデータ」である。
システムは、少なくとも一つの新しいメモリ位置にデータを少なくとも一回複製する(506)。この例として、最近発表されたスポーツカーについてのドメイン固有検索と関連するデータを検討する。このスポーツカーについてのヒット率が上昇するにつれて、システムは、スポーツカーについてのデータを他のコンピュータまたはノードの新しいメモリ位置に複製する。単一のノードが0.25秒で検索要求に対応するという一つのシナリオでは、各ノードが1秒毎に処理する検索要求が4件以下となるように、システムはデータを充分なノードに複製する。入力された検索が所望のサービス閾値を越える場合には、システムはこれに応じて新しいメモリ位置を予約できる。サービス応答時間は、新しいメモリ位置の数を選択する時の多くの要因のうちの一つに過ぎない。他の要因は、位置、コスト、複製時間、有効マシン、競合的なドメイン固有検索、サービス水準合意(SLA)、グリーンコンピューティング、エネルギー消費量、エネルギー効率などを含む。新しいメモリ位置の数を選択するための他の分散シナリオが存在する。
システムは、多数の、または付加的なドメイン固有検索の処理を、少なくとも一つの新しいメモリ位置の間で分散配置する(508)。このタスクを実施するためのアルゴリズムの例は、図3および4に示された変換層308,406とほぼ類似しているが、主な相違は、類似のデータセントリック処理の増加に応じるため、作業負荷マネージャが知的または動的にアルゴリズムを更新できることである。データが多数の位置にあると、システムはアルゴリズムを適用して多数の位置にわたって検索を分散配置する。システムはすべてのメモリ位置の間で検索の処理を無作為に分散配置するか、連続的に、または他の基準に基づいてこれらを分散配置する。より高度なアルゴリズムの実行例では、最低の負荷、最短の待機時間、最も効率的な処理、最低の温度、最低の処理費用を持つメモリ位置、あるいは他のネットワークおよび/またはメモリ位置特徴に、検索の処理が分散配置される。アルゴリズムは、時刻、サービス品質制約、競合的なドメイン固有検索、コスト、その他に基づいて変更可能である。
検索の数が高いままであると、システムは拡張検索スペースを維持し、拡張検索スペースの少なくとも一部と元の検索スペースとの間での検索の分散を継続する。いずれ、特定ドメインにおける検索の要求が減少するか、他の何らかの事象が拡張検索スペースの必要性に影響する。メモリ位置の数または検索スペースを圧縮するため、システムは任意で、ドメイン固有検索に関する縮小事象を特定し(510)、拡張検索スペースより狭いが少なくとも一つのメモリ位置を有する縮小検索スペースのデータによってキーデータについての検索が処理されるように、拡張検索スペースを圧縮する(512)。スポーツカーの例では、1ガロン当たり最高3マイルを達成したことを製造者が発表した後でスポーツカーについての話題が静まった場合には、スポーツカーについての検索が急激に減少すると仮定する。検索数がある閾値を下回ると、システムは、新しいメモリ位置の全部または一部のデータを消去するか、分散時にこれらのメモリ位置をもはや含まないようにアルゴリズムを制御することにより、拡張検索スペースを圧縮する。システムは一つのステップで、または一連のステップで徐々にこれを行う。第1のメモリ位置は、すべての新しいメモリ位置の親として作用して圧縮可能ではないが、一面では、少なくとも一つの位置がまだキーデータを含む限り、拡張検索スペースの圧縮は元のメモリ位置の保存に限定されない。例えばシステムは、アドレス0x0012にある元のメモリ位置を、各々が異なるコンピュータにある0x0A29,0xC3F0、0x82D2のメモリ位置へ複製する。元のメモリ位置であっても、システムは0x0012を最初に圧縮することができる。作業負荷マネージャは、最初に圧縮するのに最適なのはどのメモリ位置かを知的に判断できる。これは、時間(つまり人々が起きているような時間ゾーン)または地理的条件などに基づく。システムは、いずれかのメモリ位置を何らかの順序で除去することにより拡張検索スペースを圧縮する。
一変形例において、システムは、ネットワークセグメントによりヒット率を構成し、キーデータについての検索と関連するネットワークセグメントを特定し、特定されたネットワークセグメントに近接する少なくとも一つのメモリ位置にキーデータを複製する。システムは、地理的距離、ネットワーク待機時間、中間ネットワークホップの数、コスト、および/または他の要因によって近接度を測定できる。例えば、キーデータがGreen Bay Packersに関するものであって大部分の検索がWisconsinからのものである場合には、計算環境とキーネットワークセグメントとしてのWisconsinとの間のネットワーク接続をシステムが特定する。システムは、Green Bay Packersに関するキーデータを、キーネットワークセグメントのできるだけ近くに複製する。例えば、計算環境がWisconsinのノードを含まない場合、システムは、Chicagoおよび/またはMinneapolisのメモリ位置にキーデータを複製して、SLAに従って短い応答時間を提供する性能または他の要件を可能にするようにノードおよびネットワーク経路のメモリ準備を管理する。または、例えばWisconsinについての待機時間が最短であるネットワーク経路がDes Moinesからである場合に、システムは、Des Moinesのメモリ位置および準備ノードおよび他のネットワークリソースに、類似の方法でキーデータを複製できる。
図6は、データセントリック検索環境において検索スペースを予測的に拡張するための方法の一例を示した図である。データベースの検索スペースで処理される特定ドメインに固有の検索語句または検索の使用増加予想に関連する情報を受信し(602)、ドメイン固有検索を受けて特定されるデータである、データベースに少なくとも一つのメモリ位置を有する検索スペース内のデータを特定し(604)、検索スペース内のデータを少なくとも一つの新しいメモリ位置に複製することにより検索スペースを拡張し(606)、多数の、または付加的なドメイン固有検索を拡張検索スペースの間で分散配置する(608)ことにより、システムは検索スペースを予測的に拡張する。言い換えると、データの複製の後に受理された検索が、その後、元の検索スペースも含むことが好ましい新たな拡張検索スペースの間で少なくとも分散配置される。検索語句の使用増加予想に関する情報は、夏の新作映画のリストを編集することや、各新作映画についてのインターネット検索の増加予想に対応することと同じように単純である。複製されるメモリ位置の数は、例えば各映画の試写会および予想興行数と相関する。10人が立候補の指名で争っている選挙の場合には、指名の前の週には10人の各々についての検索スペースをシステムが予測的に拡張する。
ドメイン固有データを特定する方法の一例は、特別な管理用検索フィールドによるものである。検索されたデータがホットデータと特定されて、ここに開示されているように即座に複製されるように、管理者はグーグル検索フィールドを有する。次に管理者は、オリンピックに注目して“Michael Phelps 400M video”とタイピングし、そのため応答性データがホットデータと特定されて適宜処理される。これは、上記のように手動で行われても自動化されてもよい。
新しいウェブサイトデータに基づく予測が用いられてもよい。例えば、ウェブクローリングアルゴリズムにより、ウェブサイトとこれから得られるデータとを分析できる。特定ドメイン内で特定される新ウェブサイトが最近、展開または構築されたものである場合には、これらのウェブサイトに対する予測検索を管理するため、上記の特別インデックスデータを準備するようにシステムが作用する。別の例において、システムはブログを分析して、牽引力を持っている話題または語を特定し、これらの話題または語についての付加的な検索のための準備を予測的に行う。
キーデータの検索が周期的であることが多い。周期的な検索は、日、週、月、年、または他の期間で発生する。例えば、サンタクロースについての検索は例年12月中に増加し、ニュースの検索は平日の朝の時間に毎日増加し、周期ゼミについての検索は様々な地域で13年または17年ごとに増加する。これらの周期的検索に対応するため、システムはさらに、受理した情報を日時で配列されたログに格納し、このログに基づいて増加予想スケジュールを予測し、予測スケジュールに基づいて検索スペースを拡張する。
上記のように、検索されるデータはいかなるデータでもよい。一面において、データは、クロールまたはインデックスウェブサイトから得られるインデックスデータである。別の面では、データはウェブサイトそのものである。この場合にシステムは、応答時間またはあるウェブサイトのヒット率などの事象を特定し、この特定URLについての要求が少なくとも一つの新しいメモリ位置に分散配置されるようにウェウサイトそのものを動的に複製する。例えばこれらのリソースの予約を変更(つまり圧縮または短縮)することで他の作業負荷に利用可能にすることにより、圧縮が行われる。例えばウェブサイト上で流れている映像表示についての要求が多すぎて、要求を管理するのに付加的サーバが必要である場合に、これは有益である。この場合には、データが新しいメモリ位置にコピーされるばかりでなく、付加的なサーバ、CPU、帯域幅、その他が準備される、および/または、検索/要求を管理するように配分される。作業負荷マネージャは、取り入れられている出願の様々な原理に従って、これらの準備/リソース予約および配分の要件すべてを計算環境内で処理および管理できる。例えば、マネージャは、適切なオペレーティングシステム(つまりMicrosoft Windows(登録商標)からLinux(登録商標)まで)をノードに再準備することを一組のCPUに予約し、データをキャッシュにコピーし、新しいノードからユーザによる付加的検索要求まで映像データのストリーミングを開始するという起動ジョブを開始する。
上述した計算環境は、ユーティリティ計算と、クラスタ、グリッド、クラウド計算環境と、オンデマンドセンターと、サーバファームと、その他である。本開示の作業負荷マネージャは、いかなるタイプの計算環境においてもデータの検索を管理するように構成される。そのため、データが、ウェブにクロールされるインデックスデータか、ウェブサイトデータそのものか、または他のタイプのデータベースであっても、ここに開示される法則は、このようなデータベースに対する問合せまたは検索の検索時間およびサービス応答を向上させる。
本発明の範囲内の実施形態は、コンピュータ実行可能な命令またはこれに記憶されたデータ構造を伝えるか有するコンピュータ読取可能媒体も含む。このようなコンピュータ読取可能媒体は、上記の専用プロセッサの機能的設計を含む汎用または専用コンピュータによりアクセスされる何らかの有効媒体である。限定的ではないが、例を挙げると、このようなコンピュータ読取可能媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいはコンピュータ実行可能な命令、データ構造、プロセッサチップ設計の形の所望のプログラムコード手段を伝達または格納するのに使用される他の媒体を包含する。ネットワークまたは(有線、無線、その組合せのいずれかの)別の通信接続により、コンピュータへ情報が伝達または提供される時には、コンピュータは当然、この接続をコンピュータ読取媒体と認識する。ゆえに、このような接続をコンピュータ読取媒体と呼ぶのは当然である。上記の組合せも、コンピュータ読取媒体の範囲に含まれるべきである。
コンピュータ実行可能命令は、例えば、汎用コンピュータ、専用コンピュータ、専用処理デバイスにある種の機能または機能グループを実施させる命令およびデータを含む。コンピュータ実行可能命令は、独立型またはネットワーク環境のコンピュータにより実行されるプログラムモジュールも含む。概して、プログラムモジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、そして特定のタスクを実施するか特定の抽象的なタイプのデータを実行する専用プロセッサなどの設計に固有の機能を含む。データ構造と関連するコンピュータ実行可能命令と、プログラムモジュールとは、ここに開示される方法のステップを実行するためのプログラムコード手段の例を表す。このような実行可能な命令または関連のデータ構造の特定の順序は、このようなステップに記載される機能を実行するための対応の作用の例を表す。
パーソナルコンピュータ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサ利用の、またはプログラマブルな家電製品、ネットワークPC、マイクロコンピュータ、メインフレームコンピュータ、およびその他を含む多くのタイプのコンピュータシステム構成を備えるネットワーク計算環境において、本発明の他の実施形態が実施されてもよいことを、当該技術分野の当業者は理解するであろう。通信ネットワークを通して(有線リンク、無線リンク、またはその組合せのいずれかにより)リンクされるローカルまたはリモート処理デバイスによってタスクが実施される分散型計算環境において実施形態が実施されてもよい。分散型計算環境では、ローカルとリモートの両方のメモリ記憶デバイスにプログラムモジュールが配置されてもよい。
上述した様々な実施形態は単なる例示として提示されたもので、発明を限定すると解釈されるべきではない。例えば、その原理は、インターネットまたは内部ネットワークにおけるテキスト、イメージ、音声、映画の検索に適用される。イメージ、会話、音声、映像、マルチモード検索などの検索に適用されるように上記の原理が変形されてもよいことを、当該技術分野の当業者は認識するだろう。パーソナルコンピュータにおいてプロセッサコアの数が増えてその関連キャッシュが増加するにつれて、単一のデスクトップコンピュータにも同じ原理が適用される。当該技術分野の当業者は、ここに図示および説明した実施形態の例および用途に従うことなく、また本発明の趣旨および範囲から逸脱することなく、本発明に行われる様々な変形および変更を容易に認識できるだろう。

Claims (23)

  1. データセントリックデータ処理の動的管理方法であって、
    データベースに対するドメイン固有データ処理に関する事象の関連情報を受信するステップと、
    前記データベースの第1のメモリ位置にあるデータであって前記ドメイン固有データ処理を受けて特定されるデータを特定するステップと、
    少なくとも一つの新しいメモリ位置に前記データを少なくとも1回複製するステップと、
    多数のドメイン固有データ処理を前記少なくとも一つの新しいメモリ位置の中で分散配置するステップと、
    を包含する方法。
  2. 前記分散配置は、多数のドメイン固有データ処理を前記第1のメモリ位置の中でさらに分散配置する、請求項1の方法。
  3. 前記分散配置は、多数のドメイン固有データ処理をさらに無作為に分散配置する、請求項1の方法。
  4. 前記分散配置は、多数のドメイン固有データ処理をさらに連続的に分散配置する、請求項1の方法。
  5. 前記第1のメモリ位置と少なくとも一つのメモリ位置とが拡張データ処理スペースを包含し、さらに、
    前記ドメイン固有データ処理に関する縮小事象を特定するステップと、
    一つ以上のメモリ位置へのアクセスを中断して、前記縮小事象の後のドメイン固有データ処理を残りの少なくとも一つのメモリ位置の中で分散配置することにより、前記拡張データ処理スペースを圧縮するステップと、
    を包含する方法。
  6. さらに、
    多数の事象をネットワークセグメントによって構成するステップと、
    ドメイン固有データ処理と関連するネットワークセグメントを特定するステップと、
    特定された前記ネットワークセグメントに近接する少なくとも一つの新しいメモリ位置に前記データを複製するステップと、
    を包含する方法である、請求項1の方法。
  7. 地理的距離、ネットワーク待機時間、中間ネットワークホップの数、温度、およびコストのうち一つ以上によって近接度が測定される、請求項6の方法。
  8. 作業負荷マネージャにより管理される方法である、請求項1の方法。
  9. データセントリックデータ処理環境におけるデータ処理スペースの予測的拡張方法であって、
    データベースに対するドメイン固有データ処理に関する予想事象の関連情報を受信するステップと、
    前記データベースに少なくとも一つのメモリ位置を有する前記データ処理スペース内のデータであって前記ドメイン固有データ処理を受けて特定されるデータを特定するステップと、
    前記データ処理スペース内のデータを少なくとも一つの新しいメモリ位置に複製することにより、前記データ処理スペースを拡張するステップと、
    多数のドメイン固有データ処理を少なくとも前記拡張データ処理の中で分散配置するステップと、
    を包含する方法。
  10. さらに、
    前記ドメイン固有データ処理と関連する縮小事象を監視するステップと、
    特定された縮小事象に基づいて、前記縮小事象の後で提示されたデータ処理が少なくとも一つの残存するメモリ位置によって処理されるように、前記拡張データ処理スペースを圧縮するステップと、
    を包含する方法である、請求項9の方法。
  11. さらに、
    受理した情報を日時によって配列されたログに格納するステップと、
    前記ログに基づいて予想事象のスケジュールを予測するステップと、
    前記予測スケジュールに基づいて、前記予想事象に先立って、前記データ処理スペースを拡張し、ドメイン固有データ処理を前記拡張データ処理スペースの中で分散配置するステップと、
    を包含する方法である、請求項9の方法。
  12. さらに、
    ドメイン固有データ処理に関する前記予想事象に関連するネットワークセグメントを特定するステップと、
    特定された前記ネットワークセグメントに近接する少なくとも一つの新しいメモリ位置に前記データを複製するステップと、
    を包含する方法である、請求項9の方法。
  13. 地理的距離、ネットワーク待機時間、中間ネットワークホップの数、温度、およびコストのうち一つ以上によって近接度が測定される、請求項12の方法。
  14. 作業負荷マネージャにより処理される方法である、請求項9の方法。
  15. データセントリックデータ処理の動的管理システムであって、
    データベースに対するドメイン固有データ処理に関する事象の関連情報を受信するように構成されたモジュールと、
    前記データベースの第1のメモリ位置にあるデータを特定するように構成されたモジュールであって、前記データは、前記ドメイン固有データ処理を受けて特定されるデータである、モジュールと、
    少なくとも一つの新しいメモリ位置に前記データを少なくとも1回複製するように構成されたモジュールと、
    多数のドメイン固有データ処理を前記少なくとも一つの新しいメモリ位置の中で分散配置するように構成されたモジュールと、
    を有するシステム。
  16. 分散配置するように構成された前記モジュールは、前記第1のメモリ位置の中で処理をさらに分散配置する、請求項15のシステム。
  17. 前記第1のメモリ位置と少なくとも一つのメモリ位置とが拡張データ処理スペースを包含し、さらに、
    前記ドメイン固有データ処理に関する縮小事象を特定するように構成されたモジュールと、
    一つ以上のメモリ位置へのアクセスを中断して、少なくとも一つの残存するメモリ位置の中で処理を分散配置することにより、前記拡張データ処理スペースを圧縮するように構成されたモジュールと、
    を包含するシステムである、請求項15のシステム。
  18. 作業負荷マネージャモジュールにより管理されるシステムである、請求項15のシステム。
  19. データセントリックデータ処理を動的管理するための命令を有するコンピュータプログラムを格納するコンピュータ読取可能な記録媒体であって、前記命令は、
    データベースに対するドメイン固有データ処理に関する事象の関連情報を受理するステップと、
    前記データベースの第1のメモリ位置にあるデータであって前記ドメイン固有データ処理を受けて特定されるデータを特定するステップと、
    少なくとも一つの新しいメモリ位置に前記データを少なくとも1回複製するステップと、
    多数のドメイン固有データ処理を前記少なくとも一つの新しいメモリ位置の中で分散配置するステップと、
    を包含する、コンピュータ読取可能な記録媒体。
  20. 前記命令は、作業負荷マネージャによって管理される、請求項19のコンピュータ読取可能な記録媒体。
  21. 前記ドメイン固有データ処理は、さらにドメイン固有検索を包含する、請求項1の方法。
  22. 前記データセントリックデータ処理は、さらにドメイン固有検索を包含する、請求項15のシステム。
  23. 前記ドメイン固有データ処理は、さらにドメイン固有検索を包含する、請求項19のコンピュータ読取可能な記録媒体。
JP2011530032A 2008-10-03 2008-10-03 データセントリック検索の動的管理のためのシステムおよび方法 Pending JP2012504814A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2008/078745 WO2010039151A1 (en) 2008-10-03 2008-10-03 System and method for dynamically managing data centric searches

Publications (1)

Publication Number Publication Date
JP2012504814A true JP2012504814A (ja) 2012-02-23

Family

ID=42073760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011530032A Pending JP2012504814A (ja) 2008-10-03 2008-10-03 データセントリック検索の動的管理のためのシステムおよび方法

Country Status (5)

Country Link
EP (1) EP2350872A4 (ja)
JP (1) JP2012504814A (ja)
CN (1) CN102209964A (ja)
CA (1) CA2738881C (ja)
WO (1) WO2010039151A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157240B2 (en) * 2015-10-01 2018-12-18 Ebay Inc. Systems and methods to generate a concept graph
US11748206B2 (en) 2019-08-28 2023-09-05 International Business Machines Corporation Data recovery modification based on performance data exhibited by a network of data centers and data recovery requirement
US11054998B1 (en) * 2019-12-12 2021-07-06 Facebook, Inc. High bandwidth memory system with distributed request broadcasting masters

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073651A (ja) * 2000-06-13 2002-03-12 Canon Inc データ管理システム、サーバ、データ管理方法
JP2005338893A (ja) * 2004-05-24 2005-12-08 Hitachi Ltd データ処理システムおよびディスクアクセス制御方法並びにその処理プログラム
US6996551B2 (en) * 2000-12-18 2006-02-07 International Business Machines Corporation Apparata, articles and methods for discovering partially periodic event patterns
JP2006146951A (ja) * 2005-12-28 2006-06-08 Nec Corp コンテンツ動的ミラーリングシステム
US7171415B2 (en) * 2001-05-04 2007-01-30 Sun Microsystems, Inc. Distributed information discovery through searching selected registered information providers
US7243100B2 (en) * 2003-07-30 2007-07-10 International Business Machines Corporation Methods and apparatus for mining attribute associations
US7403942B1 (en) * 2003-02-04 2008-07-22 Seisint, Inc. Method and system for processing data records
JP2008186141A (ja) * 2007-01-29 2008-08-14 Hitachi Ltd データ管理方法、データ管理プログラム、データ管理システム、および、構成管理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990552B2 (en) * 2002-10-31 2006-01-24 Mosaid Technologies, Inc. Sorting method and apparatus using a CAM
US20050192937A1 (en) * 2004-02-26 2005-09-01 International Business Machines Corporation Dynamic query optimization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073651A (ja) * 2000-06-13 2002-03-12 Canon Inc データ管理システム、サーバ、データ管理方法
US6996551B2 (en) * 2000-12-18 2006-02-07 International Business Machines Corporation Apparata, articles and methods for discovering partially periodic event patterns
US7171415B2 (en) * 2001-05-04 2007-01-30 Sun Microsystems, Inc. Distributed information discovery through searching selected registered information providers
US7403942B1 (en) * 2003-02-04 2008-07-22 Seisint, Inc. Method and system for processing data records
US7243100B2 (en) * 2003-07-30 2007-07-10 International Business Machines Corporation Methods and apparatus for mining attribute associations
JP2005338893A (ja) * 2004-05-24 2005-12-08 Hitachi Ltd データ処理システムおよびディスクアクセス制御方法並びにその処理プログラム
JP2006146951A (ja) * 2005-12-28 2006-06-08 Nec Corp コンテンツ動的ミラーリングシステム
JP2008186141A (ja) * 2007-01-29 2008-08-14 Hitachi Ltd データ管理方法、データ管理プログラム、データ管理システム、および、構成管理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNH200200261001; 高梨 勝也: 'インターネットビジネスに対応する情報システムの運用管理' 日立評論 平成12年9月 増刊号 , 20000901, p.2-6, 日立評論社 *
CSNJ199900003001; 高田 智規 外2名: 'アクセス予測を用いたビデオサーバの負荷分散制御' 第58回(平成11年前期)全国大会 講演論文集(3) , 19990309, 3-245 〜 3-246, 社団法人情報処理学会 *
JPN6013052539; 高田 智規 外2名: 'アクセス予測を用いたビデオサーバの負荷分散制御' 第58回(平成11年前期)全国大会 講演論文集(3) , 19990309, 3-245 〜 3-246, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
CA2738881A1 (en) 2010-04-08
CA2738881C (en) 2014-07-15
EP2350872A1 (en) 2011-08-03
EP2350872A4 (en) 2013-07-03
WO2010039151A1 (en) 2010-04-08
CN102209964A (zh) 2011-10-05

Similar Documents

Publication Publication Date Title
US8949213B2 (en) System and method for dynamically managing data centric searches
Mansouri Adaptive data replication strategy in cloud computing for performance improvement
Khanli et al. PHFS: A dynamic replication method, to decrease access latency in the multi-tier data grid
EP3069228B1 (en) Partition-based data stream processing framework
Chang et al. Job scheduling and data replication on data grids
Rao et al. Performance issues of heterogeneous hadoop clusters in cloud computing
US20150134797A1 (en) Managed service for acquisition, storage and consumption of large-scale data streams
US20150135255A1 (en) Client-configurable security options for data streams
US10616134B1 (en) Prioritizing resource hosts for resource placement
US20080301316A1 (en) Method, Apparatus And Computer Program Product For Discovering And Prioritizing Patterns Of Component Usage In A Virtual Application Container For Enhancing Prefetching
CN103595780A (zh) 基于消重的云计算资源调度方法
Zhang et al. Improving Hadoop service provisioning in a geographically distributed cloud
Chen et al. E2FS: an elastic storage system for cloud computing
JP2012069056A (ja) クラウドサービス再配置システムと方法およびプログラム
Du et al. Scientific workflows in IoT environments: a data placement strategy based on heterogeneous edge-cloud computing
Mansouri et al. Hierarchical data replication strategy to improve performance in cloud computing
Limam et al. Data replication strategy with satisfaction of availability, performance and tenant budget requirements
Mansouri QDR: a QoS-aware data replication algorithm for Data Grids considering security factors
Ying et al. A performance optimization strategy based on degree of parallelism and allocation fitness
JP2012504814A (ja) データセントリック検索の動的管理のためのシステムおよび方法
Rahman et al. Replica selection in grid environment: a data-mining approach
Chen et al. Data prefetching and eviction mechanisms of in-memory storage systems based on scheduling for big data processing
Elghirani et al. Intelligent scheduling and replication in datagrids: a synergistic approach
Soosai et al. Dynamic replica replacement strategy in data grid
Liu et al. An efficient job scheduling for MapReduce clusters

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140207

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140217

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140425