JP2002544598A - 二次元線形スケーラブル・パラレル・アーキテクチャを有する検索エンジン - Google Patents
二次元線形スケーラブル・パラレル・アーキテクチャを有する検索エンジンInfo
- Publication number
- JP2002544598A JP2002544598A JP2000616545A JP2000616545A JP2002544598A JP 2002544598 A JP2002544598 A JP 2002544598A JP 2000616545 A JP2000616545 A JP 2000616545A JP 2000616545 A JP2000616545 A JP 2000616545A JP 2002544598 A JP2002544598 A JP 2002544598A
- Authority
- JP
- Japan
- Prior art keywords
- search
- nodes
- node
- search engine
- dispatch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
- Y10S707/956—Hierarchical
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
- Error Detection And Correction (AREA)
- Image Processing (AREA)
Abstract
Description
ラレル・アーキテクチャを有する検索エンジンに関するものである。文書は複数
のパーティションd1、d2...dnに分割することができる。一群の文書Dは
テキストフィルタシステムにおいて前処理され、前処理された文書群Dpはパー
ティションdp1、dp2...dpnに対応する。文書群DからインデックスIを生
成することが可能であり、あらかじめ前処理されたパーティションdp1、dp2.
..dpnごとに対応のインデックスi1、i2...inが得られる。前処理され
たパーティションdpkと対応のインデックスikの両方を含むパーティション依
存のデータセットdpkを用いて、文書群Dのパーティションdが検索される。た
だしl≦k≦nとする。検索エンジンはネットワーク内で接続される一連のノー
ドを含むデータ処理ユニットを有する。
、検索用に強力なコンピュータを使用する。しかし、検索はパーティショニング
可能な(partitionable)データ処理問題であり、この事実は検索
問題を多くの特定のクエリーに分割するときに利用可能であり、ネットワークで
並列接続された相当数のプロセッサ上で各クエリーを同時処理することができる
。特に、検索は2進パーティショニング可能なデータ処理問題と見なすことがで
きるから、例えば、米国特許No.4860201(Stolfo & al)
および国際特許出願PCT/N099/00308で開示され、引用により本出
願に包含され本出願人に帰属するマルチプロセッサ・アーキテクチャを構築する
ために2進木ネットワークが使用される。本出願人は正規テキスト文書で検索す
るための独占(proprietary)技術を開発した。i.a.これらの技
術は、引用により本出願に包含され本出願人に帰属する国際特許出願PCT/N
099/00233に記述されている検索システムおよび検索方法に基づいてい
る。検索システムは、本発明による検索エンジンに使用可能な効率的なコア検索
アルゴリズムに基づいている。
た、トラフィック負荷の増加、すなわち検索システムによって毎秒処理されるク
エリー数の増加に対処することが益々重要になってきた。これは、プロセッサレ
ベルで多数のクエリーを同時処理する能力とは別に、望ましくは二次元線形スケ
ーラビリティ、つまりデータ量と、性能すなわち非常に多数の量のクエリーを毎
秒処理する能力とに関する線形スケーラビリティを考慮したアーキテクチャで検
索エンジンを実現する必要性を意味する。ワールドワイドウエブの発達によりイ
ンターネット上の文書数およびユーザ数が共に著しいスピードで増加している状
況では、検索エンジンのアーキテクチャにおけるスケーラビリティ問題は非常に
重要になるだろう。
程度のスケーリングが可能であるが、ほとんどの場合、データ量あるいはデータ
トラフィックの増加にしたがって検索エンジンシステム費用が増加するような手
段が用いられる。システムコストがデータ量またはトラフィックの2乗に比例す
るようなことが頻繁に起こり、その場合、データ量が2倍になると費用は4倍に
なる。さらに、現状では主要なインターネット検索エンジンはすべて、非常に高
価なサーバ技術に基づいており、演算能力を酷使するようなアプローチ(bru
te computing force−approach)が使われてサーバ
のターンアラウンドが長くなるなどの欠点が伴うことが多く、フォールトトレラ
ンス用に特別なハードウェアが要求される。システム費用は、例えば検索エンジ
ン・ソリューションの実施に要するハードウェア量あるいはシステムに掛かる実
際の費用として算出することができる。
率的かつ高速に検索できるように、検索エンジンにマルチレベルのデータと機能
的平行性を施すことである。
ンジンを実現するパラレルアーキテクチャーを提供することである。
表される性能との両方において、直線的にスケーラブルなパラレルアーキテクチ
ャーを提供することである。
れる。この検索エンジンの特徴は、第1ノード群がa個のディスパッチノードを
含み、第2ノード群がb個の検索ノードを含み、第3ノード群がg個のインデッ
クスノードを含み、任意の第4ノード群がe個のアクイジションノードを含み、
ネットワーク内においてディスパッチノードがマルチレベル構成で接続され、ネ
ットワーク内において検索ノードがディスパッチノードとインデックスノードの
間に並列接続される複数列にグループ分けされ、検索クエリーおよび検索応答を
処理するようにディスパッチノードが構成され、すべての検索ノードに更に検索
クエリーが送られ、アクイジションノードが存在しない場合にはディスパッチノ
ードに検索応答が返され、検索応答がそこで最終検索結果にまとめられ、各検索
ノードが検索ソフトウェアを保持するように構成され、少なくともいくつかの検
索ノードに、更に少なくとも1つの検索プロセッサモジュールが含まれ、検索ソ
フトウェアにインデックスiを定常的に供給すると共に、検索プロセッサモジュ
ールを含むノードにパーティション依存データセットdp,kを随意に供給するよ
うにインデックスノードが構成され、アクイジションノードが存在する場合、そ
れらはディスパッチノードと同様にネットワーク内においてマルチレベル構成で
接続され、検索クエリーに対する応答を収集してその最終結果を出力することに
よりディスパッチノードのタスクを軽減するように構成され、二次元線形スケー
リングがそれぞれ、パーティションdの増設によるデータ量スケーリングと、1
つ以上のパーティションdの複製による性能スケーリングとによって実行される
ことである。
ジションノードのマルチレベル構成が階層状木構造で構成され、随意アクイジシ
ョンノードのマルチレベル構成がディスパッチノードのマルチレベル構成の鏡像
であり、階層状木構造が2進木構造であることがそれぞれ好ましい。
れることが望ましい。
専用検索プロセッサモジュールが含まれ、それぞれの専用検索プロセッサモジュ
ールは、複数の検索クエリーを並列処理する1つ以上の専用プロセッサチップを
用いて実現される。これに関連して、検索プロセッサモジュール内で専用検索プ
ロセッサチップがy個のプロセッサグループに分けて設けられ、各プロセッサグ
ループにはz個の検索プロセッサチップが含まれ、各プロセッサグループがそれ
ぞれに割当てられたメモリからデータを受け取るように接続される。
索ノードグループまたは列の増設によって実行されることが好ましい。これに関
連して、パーティション数の増設には、それに対応するディスパッチノードの増
設が伴うことが好ましく、場合によってはアクイジションノードの増設、あるい
は随意インデックスノードの増設を伴うこともある。
製が各グループまたは列の検索ノードの増設によって実行されることが好ましい
。
ークステーションによって個別のノード群がそれぞれ形成されることが好ましい
。
する説明を行う。
下に述べるように、本発明による検索エンジンは異なるレベルにおけるパラレル
関係を用いる。
ョンd1、d2...dnに分割することができる。例えば、ここに引用として包
含される本出願人による国際特許出願No.PCT/N099/00344で開
示されたパターンマッチングチップ(PMC)のような専用ハードウェアを実装
したハードウェアテキストフィルタリングシステムで処理できるように、各文書
集合D、または文書集合のパーティションdを前処理することができる。前処理
された文書集合はDpで表され、それに対応する前処理文書集合パーティション
dpはdp1、dp2...dpnで表される。
を必要とする。このインデックスはIで表され、文書集合パーティションdp1、
dp2、...dpnに対応するインデックスはi1、i2、...inで表される。
ィション要求またはパーティション依存のデータセットと呼ばれる。ソフトウェ
アのみのシステム(SWシステム)の場合、データセットはインデックスikで
あり、ハードウェア(SW/HWシステム)を含むシステムの場合、データセッ
トには、対応するインデックスikをもつ前処理済み文書集合パーティションdp ,k も含まれる。ただし、1≦k≦nとする。
表すと、*(D)→*(d1、...dn)→*(dp1、...dpn)→dpkとなる
。ただし、*(D)は入力Dに対する演算、*(d1、...dn)はd1、...
dnに対するフィルタ動作、例えばインデックシング(indexing)であ
り、dpkはパーティション依存のデータセットであり、SWシステムの場合は単
にインデックスikとなる。ただし、1≦k≦nとする。
ションのクラスタ上に設けられる。図示されていないが、このワークステーショ
ンは検索システム(検索サーバ)のサーバを構成する。ワークステーションは検
索サーバのノードを構成する。これらノードは、発明にしたがって以下のように
構成され、互いに異なるタスクを実行する。
るが、SW/HW検索エンジンでは、ハードウェアベースの検索をサポートする
ために、一部のワークステーションに専用の検索処理ハードウェアを物理的に設
ける必要がある。その場合も、検索ノードソフトウェアを分散させることは可能
である。また、SW/HW検索エンジンの一部の検索ノードを、ソフトウェアの
みを含むものとして1つ以上のワークステーション上に任意に分散させることが
可能である。
ノードは、応答、すなわちクエリーに対する検索結果を収集するアクイジッショ
ンノードとして構成することもできる。アクイジションモードのディスパッチノ
ードは応答を受けると、検索結果を最終結果にまとめる。
と、ハードウェア検索用の複数の上記PMCモジュールとを有する。
つ。インデックスノード は、PMCモジュールのために生データのフィルタ処理と前処理も行う。
能であり、その場合は当然、ディスパッチノード はアクイジションタスクから開放される。
チノードの場合と同様の構成でアクイジションノード が設けられ、ディスパッチノードのアクイジションタスクは開放される。
いが、1つ以上のタイプのノードを使用することは可能である。言い換えれば、
ワークステーションのクラスタ上に異なるタイプのノードを分散させることが可
能である。その場合、図1および図2に示されるアーキテクチャはクラスタ全体
によって構成され、したがって、これらの図はワークステーションも、インター
コネクトバスも示してない。
要部である検索ノードから始める。
フトウェア検索エンジンSWの他に、任意に複数のPMCモジュールMを有する
。以下に詳細に説明するとおり、検索ノード のデータセットはインデックスノード で生成される。
MCモジュールMを設けることができる。図4に示されるように、各PMCモジ
ュールMには、z個のPMCからなるy個のグループGが含まれ、各グループG
は単一のメモリチップRAMからデータを受け取る。モジュールMは一般的に個
別の回路基板である。図5で図式的に示されるように、各チップPMCはq個の
同時クエリーを処理することができる。
ができる。メモリモジュールからパターンマッチングチップPMCへ毎秒tyバ
イトを送ることができると仮定すれば、与えられた時間tでPMCが完全に検索
し得るデータ量はTcバイト、すなわちTc=min{tc,ty}tである。
らなるy個のグループGを含むモジュールMに配置され、各グループGはメモリ
サイズTcの単一のメモリチップRAMからデータを受け取る。このモジュール
で検索可能なデータ総量は、zq個の異なるクエリーのときTy=Tcである。
索せず、同時発生クエリー数はzqであるから、これらのPMCモジュールMは
Tr=Ty・x=min{tc,ty}txyに等しいデータ量を完全に検索する
ことができる。
で表すことができる。 ただし、Trはノードの総データ量を表す。これで、検索ノードの性能を算出す
ることができる。
値は、実行時(ランタイム)に統計モデルにより動的に更新される。
成する。したがって、検索ノード に適切なインデックスソフトウェアを持たせれば、検索ノード にインデックスノード を組み入れることができる。ハードウェアは生データの全体集合をスキャニング
することを基本とするが、インデックスノード において何らかの前処理およびフィルタリングを生データに施すことができる。
いくつかの一般的な考察を行うことができる。
ローエンドシステムでは、例えば通常の100Mbitファストイーサネット(
登録商標)でトラフィックを処理する。
とができる。
トラフィックの特徴は、中程度以下のデータ量と高頻度である。
日あたり1バッチ)である。
が、この文脈において重要なことではない。
り、ここで簡単に2つの次元、すなわちデータ量と性能の各次元においてスケー
リングすることができる。
こと、言い換えれば、検索ノード のグループまたは列Sを増やすことによって達成される。また、インデックスノ
ード およびディスパッチノード は、より多くのデータセットパーティションdを取り扱うために必要に応じて増
設することができる。
テクチャにおける性能スケーリングを行うことができる。システム性能をスケー
リングするためにデータセットパーティションの複製を使用する場合、それぞれ
の検索ノード は検索ノードグループSの一部分である。したがって、検索ノード はグループ にまとめられる。ここでスケーリングファクタをhsで表すと、ν=s/hsとな
る。図8に示されるように、グループ には検索ノード が含まれる。
ry data distribution tree)の一部におけるノード
としてのディスパッチノード の構成を示す図7から分かるように、アーキテクチャがディスパッチノード のいくつかのレベルλを用いて解決する。2進データ分配木は容易に線形のスケ
ーラビリティに対処できる。同様の2進データ分配木は本出願人による上記国際
特許出願PCT/N099/00344で既に明らかにされており、そこにはパ
ターンマッチングチップPMCの実用構成が開示されている。正規の2進木にお
けるディスパッチノード の数は、もちろん各レベルλについて である。ただし、λ=1、2、3とする。木構造において、ディスパッチルート
ノードは第1レベルにあり、与えられたレベルλを含めてそのレベルまでの合計
ディスパッチノード数は である。ディスパッチノード がアクイジションノードとしても使用される場合、すなわち、検索ノードから戻
った応答を集める機能をディスパッチノードに持たせた場合、検索結果はディス
パッチノードでまとめられ、ディスパッチルートノードからクエリーに対する最
終的な応答が出力される。しかし、データ収集木すなわちデータアクイジション
ノード木のアクイジションルートノード上でクエリーの最終的な結果を収集、出
力するアクイジションノード を含み、検索ノードに接続される別のデータ収集木を用いて本発明の検索エンジ
ンを構成しても不都合はない。アクイジションノード木はディスパッチノード木
の鏡像と考えることができる。
、ここに記述される二次元スケーリングの原則にしたがって図8に示される。デ
ィスパッチノード は検索エンジンのフロントエンドを構成し、クエリーを検索ノード に送り、インデックス付きデータの検索が実際に行われる検索ノードから検索結
果を受け取る。図9に示されるように専用のアクイジションノード を使用する場合は、もちろん、そのアクイジションノードに検索結果が返される
が、使用しない場合は図8と同様になる。ディスパッチノード を図9で示される木構造で構成する場合、検索エンジンのバックエンドとしての
アクイジションノードネットワークはディスパッチノードネットワークの鏡像を
形成する。インデックス(スパイダリング「spidering」)ノード もまた、検索エンジンのバックエンドを構成し、例えばインターネットからデー
タを収集して、検索可能なカタログを生成するためにデータにインデックスをつ
ける。検索ノード あるいは検索ノードグループSを水平に加えることによって、検索エンジンはデ
ータ量の直線的スケーリングを行い、追加の各検索ノードまたは検索ノードグル
ープは互いに異なるデータを保持する。検索エンジンに対する典型的な容量パラ
メータは、非限定インスタンス(non−limiting instance
)として以下のように与えられる。1つの検索ノード による1日あたりの典型的な処理量は、5,000,000文書のカタログで8
,000,000ページビュー(page views)である。スケーラブル
な検索エンジンの場合、一般に各検索ノード は特有のインデックスをつけた5,000,000文書を保持することが可能で
あり、これは20,0000,000文書のカタログを維持するために1行あた
り40の検索ノードで十分であることを意味する。性能スケーリング、すなわち
トラフィック容量を増すためには、単一の行またはグループSにおける検索ノー
ドに同じデータが含まれるように、より多くの検索ノード に同じデータを供給する必要がある。そうすれば、10個の検索ノード を含むグループまたは列Sで、1日あたりの80,000,000ページビュー
の処理が可能であり、40列で1日あたりの処理量は合計3,200,000,
000ページビューになる。
ジンに関するもう一つの重要な特長は、すべての検索ノード で各クエリーが並列に実行されるためクエリー応答時間が本質的にカタログサイ
ズに依存しないこと、そして、本質的にアーキテクチャに障害許容性が備わって
いて、個々のノードの障害がシステム障害とはならず、障害復帰までの一時的な
性能低下だけで済むことである。
量の増加に従って検索費用が指数関数的に増加し、中程度以下の量で検索エンジ
ンの最大容量に達するが、これとは全く対照的に、本発明による検索エンジンで
は原則として、データ量およびトラフィック量の無制限線形スケーラビリティが
可能になる。本発明による検索エンジンでは、費用は高々容量増加に従って直線
的に変化し、実際の費用は、SW検索ノードだけの付加による容量増加か、ある
いはSW/HW検索ノードも付加したための容量増加かに依存する。本発明によ
る検索エンジンの利点は、標準的な市販の低価格PCを用いて実際の各ノードが
実現可能であり、入手可能であれば、例えばSunやAlphaコンピュータ等
の高価なUNIX(登録商標)ベースのサーバを利用することも可能である。
す概要図。
グの原理で示す概要図。
の原理で示す概要図。
は、それに対応するディスパッチノード の増設と、場合によってはアクイジションノード数 や随意のインデックスノード の増設が伴うことを特徴とする請求項1記載の検索エンジン。
個別のノードセット がそれぞれ設けられることを特徴とする請求項1記載の検索エンジン。
れる。この検索エンジンの特徴は、第1ノード群がa個のディスパッチノードを
含み、第2ノード群がb個の検索ノードを含み、第3ノード群がg個のインデッ
クスノードを含み、任意の第4ノード群がe個のアクイジションノードを含み、
ネットワーク内においてディスパッチノードがマルチレベル構成で接続され、ネ
ットワーク内において検索ノードがディスパッチノードとインデックスノードの
間に並列接続される複数列にグループ分けされ、検索クエリーおよび検索応答を
処理するようにディスパッチノードが構成され、すべての検索ノードに更に検索
クエリーが送られ、アクイジションノードが存在しない場合にはディスパッチノ
ードに検索応答が返され、検索応答がそこで最終検索結果にまとめられ、各検索
ノードが検索ソフトウェアを保持するように構成され、検索ソフトウェアにイン
デックスiを定常的に供給すると共に、検索プロセッサモジュールを含むノード
にパーティション依存データセットdp,kを随意に供給するようにインデックス
ノードが構成され、アクイジションノードが存在する場合、それらはディスパッ
チノードと同様にネットワーク内においてマルチレベル構成で接続され、検索ク
エリーに対する応答を収集してその最終結果を出力することによりディスパッチ
ノードのタスクを軽減するように構成され、データ量のスケーリングを行うため に検索ノード列の数νがパーティションdの数nに応じてスケーリングされ、性 能スケーリングを行うために各検索ノード列における検索ノード数が推定トラフ ィック負荷または予測トラフィック負荷に応じてスケーリングされ、それにより 、パーティション依存データセットdp,kの1つを保持する単一の検索ノードと
、同等のパーティション依存データセットdp,kを保持する検索ノード列におけ
る全検索ノードとによって、あらゆる場合に文書集合Dの検索が行われる。
ノードの増設が伴うことが好ましく、場合によってはアクイジションノードの増
設、あるいは随意インデックスノードの増設を伴うこともある。
Claims (11)
- 【請求項1】 テキスト文書の集合Dを検索するための二次元線形スケーラ
ブル・パラレル・アーキテクチャを有する検索エンジンであって、文書を複数の
パーティションd1、d2、...dnに分割することが可能であり、文書集合D
をテキストフィルタシステムで前処理して前処理文書集合Dpに前処理パーティ
ションdp1、dp2...dpnを対応させ、文書集合DからインデックスIを生成
して以前に前処理されたパーティションdp1、dp2、...dpnのそれぞれに対
応するインデックスi1、i2、...inを得ることが可能であり、前処理パー
ティションdpkとその対応インデックスikの両方を含むパーティション依存デ
ータセットdp、kを用いて文書集合Dのパーティションdの検索が実行され(l
≦k≦n)、ネットワークで接続された複数群のノード(N)を形成するデータ
処理ユニットを含む検索エンジンにおいて、 第1ノード群がa個のディスパッチノード を含み、第2ノード群がb個の検索ノード を含み、第3ノード群がg個のインデックスノード を含み、任意の第4ノード群がe個のアクイジションノード を含み、 ネットワーク内においてディスパッチノード がマルチレベル構成で接続され、 ネットワーク内において検索ノード がディスパッチノード とインデックスノード の間に並列接続されるν個の列(S)にグループ分けされ、 検索クエリーおよび検索応答を処理するようにディスパッチノード が構成され、すべての検索ノード に更に検索クエリーが送られ、アクイジションノード が存在しない場合にはディスパッチノード に検索応答が返され、検索応答がそこで最終検索結果にまとめられ、 各検索ノード が検索ソフトウェアを保持するように構成され、 少なくともいくつかの検索ノード に、更に少なくとも1つの検索プロセッサモジュール(M)が含まれ、 検索ソフトウェアにインデックスiを定常的に供給すると共に、検索プロセッ
サモジュールを含むノード にパーティション依存データセットdp,kを随意に供給するようにインデックス
ノード が構成され、 アクイジションノード が存在する場合、それらはディスパッチノード と同様にネットワーク内においてマルチレベル構成で接続され、検索クエリーに
対する応答を収集してその最終結果を出力することによりディスパッチノードの
タスクを軽減するように構成され、 二次元線形スケーリングがそれぞれ、パーティションdの増設によるデータ量
スケーリングと、1つ以上のパーティションdの複製による性能スケーリングと
によって実行されることを特徴とする前記検索エンジン。 - 【請求項2】 ネットワークにおけるディスパッチノード および随意アクイジションノード のマルチレベル構成が階層状木構造で構成されることを特徴とする請求項1記載
の検索エンジン。 - 【請求項3】 随意アクイジションノード のマルチレベル構成がディスパッチノード のマルチレベル構成の鏡像であることを特徴とする請求項2記載の検索エンジン
。 - 【請求項4】 階層状木構造が2進木構造であることを特徴とする請求項2
記載の検索エンジン。 - 【請求項5】 各検索ノード に検索ソフトウェアモジュール(SW)が含まれることを特徴とする請求項1記
載の検索エンジン。 - 【請求項6】 少なくともいくつかの検索ノード に少なくとも1つの専用検索プロセッサモジュール(M)が含まれ、それぞれq
個の検索クエリーを並列処理するための1つ以上の専用検索プロセッサチップ(
PMC)を用いて専用検索プロセッサモジュール(M)が実現されることを特徴
とする請求項5記載の検索エンジン。 - 【請求項7】 検索プロセッサモジュール(M)内で専用検索プロセッサチ
ップ(PMC)がy個のプロセッサグループ(G)に分けて設けられ、各プロセ
ッサグループ(G)にはz個の検索プロセッサチップ(PMC)が含まれ、各プ
ロセッサグループ(G)がそれぞれに割当てられたメモリ(RAM)からデータ
を受け取るように接続されることを特徴とする請求項6記載の検索エンジン。 - 【請求項8】 データ量スケーリング時におけるパーティションdの増設が
検索ノードグループまたは列(S)の増設によって実行されることを特徴とする
請求項1記載の検索エンジン。 - 【請求項9】 データ量スケーリング時におけるパーティションdの増設に
は、それに対応するディスパッチノード の増設と、場合よってはアクイジションノード数 や随意のインデックスノード の増設が伴うことを特徴とする請求項1記載の検索エンジン。 - 【請求項10】 性能スケーリング時における1つ以上のパーティションd
の複製が各グループまたは各列(S)における検索ノード の増設によって実行されることを特徴とする請求項1記載の検索エンジン。 - 【請求項11】 データ通信網で接続された1つ以上のワークステーション
に個別のノードセット がそれぞれ設けられることを特徴とする請求項1記載の検索エンジン。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO992269A NO992269D0 (no) | 1999-05-10 | 1999-05-10 | S°kemotor med todimensjonalt skalerbart, parallell arkitektur |
NO19992269 | 1999-05-10 | ||
PCT/NO2000/000155 WO2000068834A1 (en) | 1999-05-10 | 2000-05-10 | A search engine with two-dimensional linearly scalable parallel architecture |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002544598A true JP2002544598A (ja) | 2002-12-24 |
JP3586429B2 JP3586429B2 (ja) | 2004-11-10 |
Family
ID=19903319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000616545A Expired - Lifetime JP3586429B2 (ja) | 1999-05-10 | 2000-05-10 | 二次元線形スケーラブル・パラレル・アーキテクチャを有する検索エンジン |
Country Status (15)
Country | Link |
---|---|
US (1) | US7330857B1 (ja) |
EP (1) | EP1208465B1 (ja) |
JP (1) | JP3586429B2 (ja) |
KR (1) | KR100457830B1 (ja) |
CN (2) | CN100394424C (ja) |
AT (1) | ATE439639T1 (ja) |
AU (1) | AU761169B2 (ja) |
BR (1) | BR0010427B8 (ja) |
CA (1) | CA2373453C (ja) |
CZ (1) | CZ20014002A3 (ja) |
DE (1) | DE60042745D1 (ja) |
HK (1) | HK1047178A1 (ja) |
NO (1) | NO992269D0 (ja) |
RU (1) | RU2226713C2 (ja) |
WO (1) | WO2000068834A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007529791A (ja) * | 2003-11-10 | 2007-10-25 | オーバーチュア サービシズ インコーポレイテッド | 階層式にインデックスを記憶するサーチエンジン |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7359951B2 (en) * | 2000-08-08 | 2008-04-15 | Aol Llc, A Delaware Limited Liability Company | Displaying search results |
NO315887B1 (no) | 2001-01-04 | 2003-11-03 | Fast Search & Transfer As | Fremgangsmater ved overforing og soking av videoinformasjon |
US7379983B2 (en) | 2003-06-25 | 2008-05-27 | International Business Machines Corporation | Merging scalable nodes into single-partition merged system using service processors of nodes |
US7672930B2 (en) * | 2005-04-05 | 2010-03-02 | Wal-Mart Stores, Inc. | System and methods for facilitating a linear grid database with data organization by dimension |
CN101369268B (zh) * | 2007-08-15 | 2011-08-24 | 北京书生国际信息技术有限公司 | 一种文档库系统中文档数据的存储方法 |
US9015197B2 (en) | 2006-08-07 | 2015-04-21 | Oracle International Corporation | Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system |
US7725470B2 (en) * | 2006-08-07 | 2010-05-25 | Bea Systems, Inc. | Distributed query search using partition nodes |
US20080033925A1 (en) * | 2006-08-07 | 2008-02-07 | Bea Systems, Inc. | Distributed search analysis |
US8321376B2 (en) * | 2007-03-29 | 2012-11-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Address resolving database |
WO2009078729A1 (en) * | 2007-12-14 | 2009-06-25 | Fast Search & Transfer As | A method for improving search engine efficiency |
KR101009444B1 (ko) * | 2008-01-29 | 2011-01-19 | 김운현 | 연속 가공형 앵글 헤드 |
US20090254523A1 (en) * | 2008-04-04 | 2009-10-08 | Yahoo! Inc. | Hybrid term and document-based indexing for search query resolution |
US8825646B1 (en) * | 2008-08-08 | 2014-09-02 | Google Inc. | Scalable system for determining short paths within web link network |
US8392394B1 (en) * | 2010-05-04 | 2013-03-05 | Google Inc. | Merging search results |
EP2423830A1 (de) | 2010-08-25 | 2012-02-29 | Omikron Data Quality GmbH | Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine |
US9195745B2 (en) | 2010-11-22 | 2015-11-24 | Microsoft Technology Licensing, Llc | Dynamic query master agent for query execution |
US9424351B2 (en) | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
US8478704B2 (en) | 2010-11-22 | 2013-07-02 | Microsoft Corporation | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components |
US9342582B2 (en) | 2010-11-22 | 2016-05-17 | Microsoft Technology Licensing, Llc | Selection of atoms for search engine retrieval |
US8713024B2 (en) | 2010-11-22 | 2014-04-29 | Microsoft Corporation | Efficient forward ranking in a search engine |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
US8620907B2 (en) | 2010-11-22 | 2013-12-31 | Microsoft Corporation | Matching funnel for large document index |
CN102436513B (zh) * | 2012-01-18 | 2014-11-05 | 中国电子科技集团公司第十五研究所 | 分布式检索方法和系统 |
US20150120844A1 (en) * | 2013-10-31 | 2015-04-30 | International Business Machines Corporation | Hierarchical response-enabled notification system |
US10120938B2 (en) * | 2015-08-01 | 2018-11-06 | MapScallion LLC | Systems and methods for automating the transmission of partitionable search results from a search engine |
US10380207B2 (en) * | 2015-11-10 | 2019-08-13 | International Business Machines Corporation | Ordering search results based on a knowledge level of a user performing the search |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860201A (en) * | 1986-09-02 | 1989-08-22 | The Trustees Of Columbia University In The City Of New York | Binary tree parallel processor |
JPH06500655A (ja) * | 1990-10-03 | 1994-01-20 | スィンキング マシンズ コーポレーション | 並列コンピュータ・システム |
US5701459A (en) * | 1993-01-13 | 1997-12-23 | Novell, Inc. | Method and apparatus for rapid full text index creation |
JP3266351B2 (ja) * | 1993-01-20 | 2002-03-18 | 株式会社日立製作所 | データベース管理システムおよび問合せの処理方法 |
US7599910B1 (en) * | 1993-11-16 | 2009-10-06 | Hitachi, Ltd. | Method and system of database divisional management for parallel database system |
US5742806A (en) * | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
US5694593A (en) * | 1994-10-05 | 1997-12-02 | Northeastern University | Distributed computer database system and method |
JP3865775B2 (ja) * | 1995-04-11 | 2007-01-10 | キネテック インコーポレイテッド | データ処理システムにおけるデータの識別 |
CA2150745C (en) * | 1995-06-01 | 2001-05-01 | Chaitanya K. Baru | Method and apparatus for implementing partial declustering in a parallel database system |
US5960194A (en) * | 1995-09-11 | 1999-09-28 | International Business Machines Corporation | Method for generating a multi-tiered index for partitioned data |
JP2888188B2 (ja) * | 1996-03-12 | 1999-05-10 | 松下電器産業株式会社 | 情報検索装置 |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
US6112198A (en) * | 1997-06-30 | 2000-08-29 | International Business Machines Corporation | Optimization of data repartitioning during parallel query optimization |
US6549519B1 (en) * | 1998-01-23 | 2003-04-15 | Alcatel Internetworking (Pe), Inc. | Network switching device with pipelined search engines |
JP3564999B2 (ja) * | 1998-03-17 | 2004-09-15 | 松下電器産業株式会社 | 情報検索装置 |
JP2000010980A (ja) * | 1998-06-24 | 2000-01-14 | Nec Corp | データベース検索システム、データベース検索方法、および記録媒体 |
JP3774324B2 (ja) * | 1998-08-03 | 2006-05-10 | 株式会社日立製作所 | ソート処理システムおよびソート処理の方法 |
US6370527B1 (en) * | 1998-12-29 | 2002-04-09 | At&T Corp. | Method and apparatus for searching distributed networks using a plurality of search devices |
-
1999
- 1999-05-10 NO NO992269A patent/NO992269D0/no unknown
-
2000
- 2000-05-10 CA CA002373453A patent/CA2373453C/en not_active Expired - Lifetime
- 2000-05-10 AT AT00923028T patent/ATE439639T1/de not_active IP Right Cessation
- 2000-05-10 JP JP2000616545A patent/JP3586429B2/ja not_active Expired - Lifetime
- 2000-05-10 EP EP00923028A patent/EP1208465B1/en not_active Expired - Lifetime
- 2000-05-10 BR BRPI0010427-2A patent/BR0010427B8/pt not_active IP Right Cessation
- 2000-05-10 WO PCT/NO2000/000155 patent/WO2000068834A1/en not_active Application Discontinuation
- 2000-05-10 CZ CZ20014002A patent/CZ20014002A3/cs unknown
- 2000-05-10 AU AU43214/00A patent/AU761169B2/en not_active Expired
- 2000-05-10 CN CNB2004100368058A patent/CN100394424C/zh not_active Expired - Lifetime
- 2000-05-10 RU RU2001133092/09A patent/RU2226713C2/ru not_active IP Right Cessation
- 2000-05-10 CN CNB008101248A patent/CN1153162C/zh not_active Expired - Lifetime
- 2000-05-10 KR KR10-2001-7014313A patent/KR100457830B1/ko active IP Right Grant
- 2000-05-10 US US09/743,268 patent/US7330857B1/en not_active Expired - Lifetime
- 2000-05-10 DE DE60042745T patent/DE60042745D1/de not_active Expired - Lifetime
-
2002
- 2002-12-03 HK HK02108789.6A patent/HK1047178A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007529791A (ja) * | 2003-11-10 | 2007-10-25 | オーバーチュア サービシズ インコーポレイテッド | 階層式にインデックスを記憶するサーチエンジン |
JP4699379B2 (ja) * | 2003-11-10 | 2011-06-08 | ヤフー! インコーポレイテッド | 階層式にインデックスを記憶するサーチエンジン |
Also Published As
Publication number | Publication date |
---|---|
ATE439639T1 (de) | 2009-08-15 |
KR20020006715A (ko) | 2002-01-24 |
JP3586429B2 (ja) | 2004-11-10 |
KR100457830B1 (ko) | 2004-11-18 |
DE60042745D1 (de) | 2009-09-24 |
AU4321400A (en) | 2000-11-21 |
CZ20014002A3 (cs) | 2002-04-17 |
US7330857B1 (en) | 2008-02-12 |
HK1047178A1 (zh) | 2003-02-07 |
CN1652108A (zh) | 2005-08-10 |
AU761169B2 (en) | 2003-05-29 |
CA2373453C (en) | 2005-08-16 |
EP1208465B1 (en) | 2009-08-12 |
BR0010427B8 (pt) | 2013-02-19 |
EP1208465A1 (en) | 2002-05-29 |
CA2373453A1 (en) | 2000-11-16 |
BR0010427B1 (pt) | 2013-01-08 |
CN100394424C (zh) | 2008-06-11 |
NO992269D0 (no) | 1999-05-10 |
RU2226713C2 (ru) | 2004-04-10 |
WO2000068834A1 (en) | 2000-11-16 |
CN1153162C (zh) | 2004-06-09 |
CN1360701A (zh) | 2002-07-24 |
BR0010427A (pt) | 2002-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002544598A (ja) | 二次元線形スケーラブル・パラレル・アーキテクチャを有する検索エンジン | |
JP3064469B2 (ja) | Cad部品管理システム | |
JP4777972B2 (ja) | 無共有型並列データベースシステム及びデータベース管理方法 | |
US6983322B1 (en) | System for discrete parallel processing of queries and updates | |
TW200921432A (en) | Query execution and optimization utilizing a combining network in a parallel computer system | |
JP2002527827A (ja) | ディジタル処理装置 | |
JaJa et al. | The block distributed memory model | |
JPH11161683A (ja) | 情報検索方法,情報検索システムおよび同システム用検索管理装置 | |
Comin et al. | Efficient parallel construction of suffix trees for genomes larger than main memory | |
Bar-Noy et al. | Multiple message broadcasting in the postal model | |
Rajasekaran et al. | Parallel algorithms for relational coarsest partition problems | |
Bader | An improved, randomized algorithm for parallel selection with an experimental study | |
JP4620593B2 (ja) | 情報処理システムおよび情報処理方法 | |
Gupta et al. | CrawlPart: Creating crawl partitions in parallel crawlers | |
Choi et al. | Distributed object space cluster architecture for search engines | |
MacFarlane et al. | Parallel computing in information retrieval–an updated review | |
Castillo et al. | Optimisation of multilayer perceptrons using a distributed evolutionary algorithm with SOAP | |
Jiang et al. | OMEGA: an order-preserving SubMatrix mining, indexing and search tool | |
Campbell | On the implementation of an asymmetric hyperspace in linear memory: implementing tuple spaces | |
Brest et al. | A sorting algorithm on a PC cluster | |
Arora et al. | WCRC: An ANSI SPARC Machine Architecture for Data Base Management. | |
WO2009078729A1 (en) | A method for improving search engine efficiency | |
Chung et al. | Information retrieval on an SCI-based PC cluster | |
Bonuccelli et al. | VLSI mesh of trees for data base processing | |
Alqrainy et al. | DAS: Distributed analytics system for Arabic search engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040806 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3586429 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080813 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080813 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090813 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100813 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110813 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110813 Year of fee payment: 7 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110813 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120813 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |