JP2001312504A - Method and system to extract knowledge - Google Patents

Method and system to extract knowledge

Info

Publication number
JP2001312504A
JP2001312504A JP2000123630A JP2000123630A JP2001312504A JP 2001312504 A JP2001312504 A JP 2001312504A JP 2000123630 A JP2000123630 A JP 2000123630A JP 2000123630 A JP2000123630 A JP 2000123630A JP 2001312504 A JP2001312504 A JP 2001312504A
Authority
JP
Japan
Prior art keywords
node
subquery
feature
index
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000123630A
Other languages
Japanese (ja)
Inventor
P Bakurausukii Kenneth
ケネス・ピー・バクラウスキー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jarg Corp
Original Assignee
Jarg Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jarg Corp filed Critical Jarg Corp
Priority to JP2000123630A priority Critical patent/JP2001312504A/en
Publication of JP2001312504A publication Critical patent/JP2001312504A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data warehouse that can include an indexed database and also can store data on information stored in an external database. SOLUTION: The information extracting system that processes querys for extracting information from the database is provided with a mechanism that finds characteristics and fragments of the characteristics within the indexed database, an evaluation mechanism that evaluates repeatedly sub-querys using the characteristics and the fragment of the characteristics being found after recognizing the multi-level sub-queries being included in the query, and a mechanism that gathers the results of the repeated evaluations for the query and the sub-query succeeding the calculation of the total result of the query and also stores the results in a memory.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明が属する技術分野】本出願は、共に出願され同一
譲受人に譲渡された予備出願であるKenneth
P. Baclawskiの「知識抽出システム及びそ
の方法」と題する1998年7月28日付米国特許予備
出願第60/094,350号と、Kenneth
P. Baclawskiの「分散オブジェクト検索シ
ステム及びその方法」と題する1998年7月24日付
米国特許予備出願第60/094,110号との2つの
出願に関連する。上記出願の開示は参照により本明細書
に含まれる。本出願は又、共に出願され同一譲受人に譲
渡された特許出願であるKenneth P. Bac
lawskiの「オブジェクト検索を実行するための分
散コンピュータ・データベース・システム及びその方
法」と題する米国特許出願第xxx,xxx号にも関連
し、上記出願の開示は参照により本明細書に含まれる。
BACKGROUND OF THE INVENTION This application is a preliminary application, Kenneth, filed together and assigned to the same assignee.
P. US Patent Application Serial No. 60 / 094,350, July 28, 1998, entitled "Knowledge Extraction System and Method" by Bacrawski;
P. It is related to two applications, U.S. Patent Application Serial No. 60 / 094,110, July 24, 1998, entitled "Distributed Object Retrieval System and Method" by Bacrawski. The disclosure of the above application is incorporated herein by reference. This application is also related to patent application Kenneth P.K., filed together and assigned to the same assignee. Bac
Lawski also relates to US Patent Application No. xxx, xxx entitled "Distributed Computer Database System and Method for Performing Object Search", the disclosure of which is incorporated herein by reference.

【0002】本発明はコンピュータ・データベース・シ
ステムに関し、更に詳しくは分散コンピュータ・データ
ベース・システムに関する。
[0002] The present invention relates to computer database systems, and more particularly, to distributed computer database systems.

【0003】[0003]

【従来の技術】企業は顧客、製品、運営、業務活動につ
いて大量のデータをルーチン業務として収集している。
このデータに潜んでいる見識はマーケティング、運営コ
ストや戦略的意志決定に寄与し得るものである。例え
ば、1つの製品を購入する顧客と別の製品を購入する顧
客との間に強い相関が見られる場合、製品の一方だけを
購入した顧客は他方の製品を購入する可能性の高い見込
み客である。
2. Description of the Related Art Enterprises collect large amounts of data on customers, products, operations, and business activities as routine work.
The insights hidden in this data can contribute to marketing, operating costs and strategic decisions. For example, if there is a strong correlation between a customer who buys one product and a customer who buys another product, a customer who buys only one of the products is a prospect who is likely to buy the other product is there.

【0004】データの分析処理は主としてデータの相関
やその他のパターンを抽出する統計的手法を用いて行な
われている。この種の処理は、データ・マイニング(d
ata mining)、知識の発見(knowled
ge discovery)、また知識の抽出(kno
wledge extraction)等と様々に呼ば
れて来た。大量のデータからの特定パターン又は特定の
種類のパターンの検索はパターンの問い合わせ(pat
tern query)と呼ばれるだろう。
[0004] Data analysis processing is mainly performed by using a statistical method for extracting data correlation and other patterns. This type of processing is called data mining (d
data mining, knowledge discovery (known)
Ge discovery) and knowledge extraction (kno)
wredge extraction). Searching for a specific pattern or a specific type of pattern from a large amount of data is performed by querying a pattern (pat
will be referred to as a turn query.

【0005】大企業では大抵多数のデータベースを保持
しており、その多くがトランザクション型データベース
である。これらのデータベースの要件はデータ・マイニ
ングの要件と相反することが多い。トランザクション型
データベース(transactional data
base)はリアルタイムで動作する小さなトランザク
ションを用いて更新される。一方、データ・マイニング
はリアルタイムで行なう必要がない大きなパターン・ク
エリ(パターンの問い合わせ)を使用する。この相反を
解決するため、データ・ウェアハウス(data wa
rehouse)と呼ばれる集中資源へ各種の供給源か
らのデータをダウンロードするのが今日では一般化して
いる。
[0005] Large companies usually have a large number of databases, many of which are transactional databases. The requirements of these databases often conflict with the requirements of data mining. Transactional database (transactional data)
base) is updated with a small transaction operating in real time. On the other hand, data mining uses a large pattern query that does not need to be performed in real time. In order to resolve this conflict, the data warehouse (data wa)
It is now common to download data from various sources into a centralized resource called the house.

【0006】各種の、時には異種の供給源からのデータ
をダウンロードして集中化するには複数のタスクが必要
である。データを供給源から抽出し、共通の統合データ
・モデルに変換し、誤っているデータ又は不正確なデー
タを排除するか訂正して清浄化し、全てのデータが格納
されて更に別のデータベースを構成する中央ウェアハウ
スへ統合する必要がある。更に、全てのビジネス実体の
全ての事例(インスタンス)、例えば顧客、製品、又は
従業員等が正しく識別(特定)されたことを確認する必
要がある。これは参照上の統一性(referenti
al integrity)の問題として知られてい
る。これらの全てのタスク(作業)は、特に僅かに違う
方法でビジネス実体を識別するデータベースからデータ
をダウンロードしようとする場合に、参照上の統一性を
確保しながら行うことは困難である。現行技術ではデー
タ・マイニングから独立した活動としてデータをデータ
・ウェアハウスへダウンロードしている。大量の研究文
献や多くの商用製品が存在するデータ・マイニングとは
対照的に、データ・ウェアハウス化は強力な理論的基盤
に欠け、優れた商用製品はほとんどない。
[0006] Downloading and centralizing data from various, and sometimes disparate, sources requires multiple tasks. Extract data from sources, convert it to a common integrated data model, eliminate or correct erroneous or incorrect data and clean it up, all data is stored to form yet another database Need to be integrated into a central warehouse. In addition, it is necessary to confirm that all instances of all business entities, such as customers, products, or employees, have been correctly identified. This is referred to as reference uniformity.
It is known as the problem of al integrity. All of these tasks are difficult to perform while ensuring uniformity of reference, especially when trying to download data from a database that identifies business entities in a slightly different way. Current technology downloads data to data warehouses as an activity independent of data mining. In contrast to data mining, which has a large body of research literature and many commercial products, data warehousing lacks a strong theoretical foundation and few good commercial products.

【0007】データ・ウェアハウスは多種多様なデータ
源を統合するので、データ・ウェアハウスのための統合
されたデータ・モデル並びに各データ源からデータを抽
出、変換、清浄化するデータ・マッピングを指定するこ
とが必要である。この技術分野では、オブジェクト指向
データ・モデル等のリッチな(情報量の多い)データ・
モデルの方が、もっと制約のあるデータ・モデル、例え
ばリレーショナル・モデル等のデータ・モデルより、こ
のような統合データ・モデルを定義し、データ・マッピ
ングを定義するのに一層適していることが公知となって
いる。しかし、大半のデータ・ウェアハウスではリレー
ショナル・モデル等のフラットなレコード構造を採用し
ている。リレーショナル・データベースは非常に限定さ
れたデータ構造を持っているので、もっと複雑なデータ
構造を合成するのは難しく誤りを犯し易い。リレーショ
ナル・データベースへの格納にはあまり適していない種
類のデータの幾つかを挙げると、一般に文字データ、と
くにハイパーテキスト文書、画像、サウンド、マルチメ
ディア・オブジェクト、及び複数の値を持つ属性があ
る。リレーショナル・データベースは非常に多数の潜在
的属性を備え、その内の幾つかだけが任意のレコードで
使用されるような場合のレコードを表現するのにもあま
り適していない。
Because the data warehouse integrates a wide variety of data sources, it specifies an integrated data model for the data warehouse and a data mapping that extracts, transforms, and cleans data from each data source. It is necessary to. In this technical field, rich (information-rich) data such as object-oriented data models
It is known that models are more suitable for defining such integrated data models and defining data mappings than more restrictive data models, for example, data models such as relational models. It has become. However, most data warehouses use a flat record structure, such as a relational model. Because relational databases have very limited data structures, synthesizing more complex data structures is difficult and error prone. Some of the types of data that are not well suited for storage in relational databases include character data, especially hypertext documents, images, sounds, multimedia objects, and attributes with multiple values. Relational databases have a very large number of potential attributes, and are not well-suited for representing records where only some are used in any given record.

【0008】オブジェクト・データベースはデータ・オ
ブジェクト又は情報オブジェクトの集合体で構成される
のが一般的である。各々の情報オブジェクトはオブジェ
クト識別子(OID)で一義的に識別される。各情報オ
ブジェクトは特徴を備えることができ、幾つかの特徴は
関連する値を持つことができる。情報オブジェクトは他
の情報オブジェクトを含んだり参照することもできる。
[0008] An object database is generally composed of a collection of data objects or information objects. Each information object is uniquely identified by an object identifier (OID). Each information object can have features, and some features can have associated values. An information object can contain or reference another information object.

【0009】ウェアハウス化データベースを含むデータ
ベース内の情報検索を支援するため、インデックス(i
ndex)と呼ばれる特殊な検索構造が使用される。大
型データベースは格納されたデータへのポインタを維持
するために対応する大きなインデックス構造を必要とす
る。このようなインデックス構造はデータベース自体よ
り大きくなることがある。現行技術では各属性又は各特
徴(feature)について別個のインデックスが必
要である。この技術を拡張して単一のインデックス構造
の中の少数の属性又は特徴をインデックス化することも
できるが、数百又は数千の属性が存在する場合にはこの
技術はうまく機能しない。更に、インデックス構造の維
持に関連して相当なオーバヘッドが存在する。これによ
りインデックス化できる属性又は特徴の個数が制限され
るので、サポートされるものは注意深く選択する必要が
ある。トランザクション型データベース(transa
ctional database)では、普通は作業
負荷が良く理解されているので、データベース性能を最
適化するようにインデックスを選択することが可能であ
る。データ・ウェアハウスでは一般に良く定義された作
業負荷がないので、どの属性をインデックス化するか選
択するのが大幅に難しい。
To support information retrieval in a database including a warehouse database, an index (i
A special search structure called ndx) is used. Large databases require a corresponding large index structure to maintain pointers to stored data. Such an index structure can be larger than the database itself. The state of the art requires a separate index for each attribute or feature. Although this technique can be extended to index a small number of attributes or features in a single index structure, this technique does not work well when there are hundreds or thousands of attributes. Further, there is considerable overhead associated with maintaining the index structure. Since this limits the number of attributes or features that can be indexed, those that are supported must be carefully selected. Transactional database (transa
In the contextual database, the workload is usually well understood, so that the index can be selected to optimize database performance. Choosing which attributes to index is much more difficult because data warehouses generally do not have a well-defined workload.

【0010】前述の概念に関しての更なる情報は、以下
の出版物を参照することで得ることができる。
Further information on the above concepts can be obtained by reference to the following publications:

【00011】1. L. Aiello, J. D
oyle, and S. Shapiro, edi
tors. Proc. Fifth Intern.
Conf. on Principles of K
nowledge Representation a
nd Reasoning. Morgan Kauf
man Publishers, San Mate
o, CA, 1996. 2. K. Baclawski. Distribu
ted computer database sys
tem and method, December
1997. United States Paten
t No. 5,694,593. Assigned
to Northeastern Universi
ty, Boston, MA.(分散コンピュータ・
データベース・システム及びその方法、1997年12
月、米国特許第5,694,593号、米国マサチュー
セッツ州ボストンのノースイースタン大学に譲渡) 3. A. Del Bimbo, editor.
The NinthInternational Co
nference on Image Analysi
s and Processing, volume
1311.Springer, September
1997. 4. N. Fridman Noy. Knowle
dge Representation for In
telligent InformationRetr
ieval in Experimental Sci
ences.PhD thesis, College
of Computer Science, Nor
theastern University, Bos
ton, MA, 1997. 5. M. Hurwicz. Take your
data to the cleaners. Byt
e Magazine, January 1997. 6. Y. Ohta. Knowledge−Bas
ed Interpretation of Outd
oor Natural Color Scenes.
Pitman, Boston, MA, 198
5. 7. A. Tversky. Features o
f similarity. Psychologic
al review, 84(4):327−352,
July 1977. 8. S. Weiss and N. Indurk
hya. Predictive Data Mini
ng: A Practical Guide. Mo
rgan Kaufmann Publishers,
Inc.,San Francisco, CA,
1998. 9. J. −L. Weldon and A. J
och. Datawarehouse buildi
ng blocks. Byte Magazine,
January 1997.
[00011] L. Aiello, J .; D
oyle, and S.M. Shapiro, edi
tors. Proc. Fifth Intern.
Conf. on Principles of K
nowrepresentation a
nd Reasoning. Morgan Kauf
man Publishers, San Mate
o, CA, 1996. 2. K. Bacrawski. Distribu
ted computer database sys
tem and method, Decmber
1997. United States Pattern
t No. 5,694,593. Assigned
to Northeastern Universi
ty, Boston, MA. (Distributed computer /
Database system and method, December 1997
Monthly, U.S. Pat. No. 5,694,593, transferred to Northeastern University, Boston, Mass., USA). A. Del Bimbo, editor.
The Nth International Co
nreference on Image Analysis
s and Processing, volume
1311. Springer, September
1997. 4. N. Fridman Noy. Knowle
dge Representation for In
tellent InformationRetr
ieval in Experimental Sci
encodes. PhD thesis, College
of Computer Science, Nor
theastern University, Bos
ton, MA, 1997. 5. M. Hurwicks. Take your
data to the cleaners. Byt
e Magazine, January 1997. 6. Y. Ohta. Knowledge-Bas
ed Interpretation of Outd
or Natural Color Scenes.
Pitman, Boston, MA, 198
5. 7. A. Tversky. Features o
f similarity. Psychological
al review, 84 (4): 327-352,
July 1977. 8. S. Weiss and N.W. Indurk
hya. Predictive Data Mini
ng: A Practical Guide. Mo
rgan Kaufmann Publishers,
Inc. , San Francisco, CA,
1998. 9. J. -L. Weldon and A. J
och. Datawarehouse buildi
ng blocks. Byte Magazine,
January 1997.

【0012】[0012]

【発明が解決しようとする課題】「発明の背景」で参照
した出版物の開示は参照により本明細書に含まれる。現
行システムでの性能及びその他の問題並びに制限を克服
するようなデータ・ウェアハウス化及びデータ・マイニ
ング用のシステムの改良版を提供することが望まれる。
The disclosures of the publications referred to in the Background of the Invention are hereby incorporated by reference. It would be desirable to provide an improved version of a system for data warehousing and data mining that overcomes the performance and other problems and limitations of current systems.

【0013】[0013]

【課題を解決するための手段】本発明はデータ・ウェア
ハウス化とデータ・マイニングという2つの活動を統合
することにより、データ・ウェアハウス化の基盤とサポ
ートを改善する。術語「知識抽出」は本明細書において
データ・ウェアハウス化活動とデータ・マイニング活動
の統合を指す意味で使用する。
SUMMARY OF THE INVENTION The present invention improves the data warehousing infrastructure and support by integrating the two activities of data warehousing and data mining. The term "knowledge extraction" is used herein to refer to the integration of data warehousing and data mining activities.

【0014】本発明は、例えばデータ・ウェアハウスか
ら情報を取り出すためのクエリ(query:問い合わ
せ、又は、リクエスト)を含むユーザからのクエリを処
理するための情報取出装置及びその方法に関する。本装
置は、インデックス・データベース内の複数の特徴(f
eature)及び特徴フラグメントを見付け出す(又
は、その存在する場所を特定する)ための機構、クエリ
に含まれる複数のレベルの複数のサブクエリ(sub−
query)を識別(特定)し、この見付け出された特
徴及び特徴フラグメントの各々を用いてサブクエリを反
復的(又は、回帰的)に評価するための評価機構、及び
クエリの全体に対して評価(計算)した結果が得られた
後に続いてなされたクエリ及びサブクエリの反復的(回
帰的)な評価の複数の結果を収集し格納するための機構
を含む。
[0014] The present invention relates to an information retrieval apparatus and method for processing a query from a user including a query (query) for retrieving information from a data warehouse. The apparatus may include a plurality of features (f) in the index database.
mechanisms for finding (or locating) feature fragments and sub-queries at multiple levels included in the query.
query) and an evaluation mechanism for iteratively (or recursively) evaluating a subquery using each of the found features and feature fragments, and an evaluation ( A mechanism for collecting and storing a plurality of results of an iterative (recursive) evaluation of subsequent queries and subqueries after the calculated results are obtained.

【0015】本明細書で使用している「評価」は、クエ
リへの応答が生成されるプロセスであって、このクエリ
に記載された基準に一致する情報、情報ロケーション指
定子(情報格納場所の指定子)又はその情報に関するデ
ータを取り出すことで特徴付けられる。反復的評価はク
エリ評価の一種で、サブクエリと呼ばれる新しいクエリ
がクエリから生成され評価される。このように生成され
たサブクエリはクエリ・ツリー(query tre
e)のノードと見なされ、最初のクエリはベース・ノー
ドと見なされ、各サブクエリは、これが生成されたとき
の祖先クエリ(predecessor)との関連性に
よって定義されたレベルであって、対応するレベルをツ
リー内部に有している。サブクエリの全部、即ち祖先ク
エリと子クエリは反復的に評価され、その結果が収集、
格納され、クエリへの応答の形でユーザに提供される。
[0015] As used herein, "evaluation" is the process by which a response to a query is generated. Information that matches the criteria described in the query, an information location specifier (the location of the information storage location). Specifier) or data about the information. Iterative evaluation is a type of query evaluation in which a new query, called a subquery, is generated from the query and evaluated. The subquery generated in this way is a query tree (query tree).
e), the first query is considered the base node, and each subquery is a level defined by its relevance to the predecessor at the time it was generated, the corresponding level In the tree. All of the subqueries, the ancestor and child queries, are evaluated iteratively and the results are collected,
Stored and provided to the user in response to a query.

【0016】本発明は、従来の取出しシステムにおい
て、データ・ウェアハウス内に、多様な外部データベー
スにあるデータの新規で独立した集中レプリカ(集中複
成物)を提供する必要性をなくすことができる。本発明
はデータが陳腐化する、又はウェアハウス化のための複
製中にエラーが発生しやすいといった従来システムにお
けるこうしたデータの複製の問題を回避できる。その代
わりに、データ・ウェアハウスはインデックス・データ
ベースを内包でき、これが外部データベースに格納され
ている情報に関するデータ、例えばこれらのデータベー
ス内部のデータについての情報ロケーション指定子、リ
レーションに関する情報や統計などを提供するエントリ
を格納する。本発明は強固で汎用性の高いインデックス
・システムも提供できる。本発明のインデックスは例え
ば多数の潜在的属性を有しながらもその幾つかだけが特
定のレコードで使用される散発的レコードのインデック
ス化をサポートする。本発明はまた、例えば実質的に均
一なデータ構造の中の非常に多数の属性のインデックス
化をサポートするので、高性能を実現するのに必要とさ
れる作業負荷特性の決定が極めて容易になる。
The present invention eliminates the need in a conventional retrieval system to provide a new, independent, centralized replica of data in various external databases in a data warehouse. . The present invention avoids such data replication problems in conventional systems, such as data becoming stale or errors prone to occur during replication for warehousing. Instead, the data warehouse can contain an index database, which provides data on information stored in external databases, such as information location specifiers on data inside these databases, information and statistics on relations, etc. Store the entry to be made. The present invention can also provide a robust and versatile index system. The index of the present invention supports the indexing of sporadic records that have a large number of potential attributes, but only some of which are used in a particular record. The invention also supports the indexing of a very large number of attributes, for example in a substantially uniform data structure, which makes it very easy to determine the workload characteristics required to achieve high performance. .

【0017】さらに詳しく説明すると、本発明の1つの
態様によれば、分散コンピュータ・データベース・シス
テムは、ネットワークで相互接続されて1つのデータ・
ウェアハウス兼データ・マイニング・エンジンを構成す
るようになったシステムであって、1台以上のフロント
エンド・コンピュータと1台以上のコンピュータ・ノー
ドとを含み、このシステムは、画像、サウンド・ストリ
ーム、ビデオ・ストリームを含むオブジェクトやプレー
ンテキスト及び構造化テキストをインデックス化する。
外部データベースからのオブジェクトは、ウェアハウス
・ノード(warehousing node)と呼ば
れるノードによりネットワークからダウンロードされ
る。ウェアハウス・ノードは、オブジェクトから幾つか
の特徴(オブジェクトから抽出された特徴をオブジェク
ト特徴と言う。)を抽出し、抽出した特徴を多数の特徴
フラグメントにフラグメント化し、これらの特徴フラグ
メントをハッシュ(hash)する。ハッシュされた特
徴フラグメントの各々は、ネットワーク上にあってイン
デックス・ノードと呼ばれる1つのノードへ送信され
る。ハッシュされた特徴フラグメントを受信するネット
ワーク上の各ノードは、オブジェクトのハッシュされた
特徴フラグメントを使用してインデックス・データベー
スの対応する区画部分で検索を実行する。ローカル・デ
ータベースの検索結果はウェアハウス・ノードにより収
集される。ウェアハウス・ノードは、これらの結果を使
用してオブジェクトがデータ・ウェアハウス内ですでに
インデックス化されているかどうか判定する。ウェアハ
ウス・ノードは、オブジェクトから特徴を抽出し、この
特徴をフラグメント化し、これらの特徴フラグメントを
ハッシュする。ハッシュされた特徴フラグメントの各々
はネットワーク上の1つのノードへ送信される。ハッシ
ュされた特徴フラグメントを受信するネットワーク上の
各ノードは、オブジェクトのハッシュされた特徴フラグ
メントを使用してインデックス・データベースの対応す
る区画部分にこの特徴を格納する。
More specifically, according to one aspect of the present invention, a distributed computer database system is interconnected by a network to provide a single data database.
A system adapted to form a warehouse and data mining engine, comprising one or more front-end computers and one or more computer nodes, the system comprising an image, a sound stream, Index objects, including video streams, plain text and structured text.
Objects from external databases are downloaded from the network by nodes called warehouse nodes. The warehouse node extracts some features from the object (the features extracted from the object are called object features), fragments the extracted features into a number of feature fragments, and hashes these feature fragments. ). Each of the hashed feature fragments is sent to one node on the network, called the index node. Each node on the network that receives the hashed feature fragment performs a search in the corresponding partition of the index database using the hashed feature fragment of the object. Local database search results are collected by warehouse nodes. The warehouse node uses these results to determine if the object has already been indexed in the data warehouse. The warehouse node extracts features from the object, fragments the features, and hashes these feature fragments. Each of the hashed feature fragments is sent to one node on the network. Each node on the network receiving the hashed feature fragment stores the feature in the corresponding partition of the index database using the hashed feature fragment of the object.

【0018】クエリは、例えばパターン・クエリ(パタ
ーンを対象とするクエリ)であり得る。パターン・クエ
リはデータ内のパターンの検索である。ユーザからのパ
ターン・クエリは、フロントエンド・コンピュータの1
つへ送信され、このコンピュータがデータ・マイニング
・エンジンのホーム・ノードと呼ばれるインデックス・
ノードの1つへこのパターン・クエリを転送する。この
ホーム・ノードは、パターン・クエリを1つ以上のサブ
クエリに分解し、各サブクエリはメモリに格納され、か
つ、オブジェクト特徴(オブジェクトに関する特徴)と
メソッド、例えば計算、を実装するコンピュータで実行
可能なプログラムとを含む。この計算は別のサブクエリ
に関係することがある。ホーム・ノードは、サブクエリ
特徴の各々を1つ以上のサブクエリ特徴フラグメントに
フラグメント化し、この特徴フラグメントをハッシュす
る。サブクエリ特徴フラグメントの各々は、ハッシュさ
れた特徴フラグメントに従ってネットワーク上の1つの
ノードへ送信される。サブクエリを受信するネットワー
ク上の各ノードは、サブクエリのハッシュされた特徴フ
ラグメントを用いてインデックス・データベースの対応
する区画部分に対して検索を実行し、アクセスされたデ
ータがサブクエリの計算により使用される。サブクエリ
の計算が別のサブクエリを含む場合(これはゼロ又は1
つ以上のサブクエリを含むことがある)、この別のサブ
クエリが反復的に評価され、この反復的評価で得られた
データがサブクエリの計算により使用される。ローカル
インデックス・データベースの検索結果と全ての反復的
評価の結果がホーム・ノードにより収集される。パター
ン・クエリの結果がホーム・ノードにより判定されユー
ザに返される。
The query can be, for example, a pattern query (a query for a pattern). Pattern queries are searches for patterns in the data. The pattern query from the user is sent to one of the front-end computers.
To the index node called the home node of the data mining engine.
Forward this pattern query to one of the nodes. The home node decomposes the pattern query into one or more sub-queries, each sub-query stored in memory and computer-executable implementing object features (features about the object) and methods, such as computations. Including programs. This calculation may involve another subquery. The home node fragments each of the subquery features into one or more subquery feature fragments and hashes the feature fragments. Each of the subquery feature fragments is sent to one node on the network according to the hashed feature fragments. Each node on the network that receives the subquery performs a search on the corresponding partition portion of the index database using the hashed feature fragments of the subquery, and the accessed data is used by the subquery calculation. If the calculation of the subquery includes another subquery (this can be zero or one)
(Which may include one or more subqueries), the other subquery is iteratively evaluated, and the data obtained from this iterative evaluation is used in the subquery calculation. The search results of the local index database and the results of all iterative evaluations are collected by the home node. The result of the pattern query is determined by the home node and returned to the user.

【0019】本発明の別の1つの態様においては、分散
コンピュータ・データベース・システムは、ネットワー
クで相互接続されて1つの知識抽出エンジンとして機能
するように構成されたシステムであって、1台以上のフ
ロントエンド・コンピュータと1台以上のコンピュータ
・ノードとを含み、当該システムは、データ・ウェアハ
ウス活動とデータ・マイニング活動の両方をサポートす
る。
In another aspect of the invention, a distributed computer database system is a system interconnected by a network and configured to function as a knowledge extraction engine, wherein the system comprises one or more computers. Including a front-end computer and one or more computer nodes, the system supports both data warehousing and data mining activities.

【0020】最初にデータ・ウェアハウス活動(データ
をウェアハウスの中に格納する活動)を考察する。別の
データベースからウェアハウスへオブジェクトをダウン
ロードするのはウェアハウス・ノードにより行なわれ
る。別のデータベースからダウンロードされたオブジェ
クトについては、ウェアハウス・ノードは、更に別のデ
ータベースからのダウンロードによりオブジェクトがデ
ータ・ウェアハウスにすでに表現されているかどうかを
最初に判定する。これに当てはまる場合、ウェアハウス
・ノードはオブジェクトの1つ以上の特徴を抽出し、オ
ブジェクト特徴の各々を複数の特徴フラグメントにフラ
グメント化し、これらの特徴フラグメントの各々をハッ
シュする。ハッシュされた特徴フラグメントの各々の一
部は、ウェアハウス・ノードがネットワーク上のインデ
ックス・ノードへハッシュされたオブジェクト特徴を送
信するときのアドレシング・インデックス(adres
sing index)としてウェアハウス・ノードに
より使用される。ハッシュされたオブジェクト特徴フラ
グメントを受信するネットワーク上の各インデックス・
ノードは、ハッシュされたオブジェクト特徴フラグメン
トを用いて対応するインデックス・データベースに対し
て検索を実行する。ハッシュされたオブジェクト特徴に
対応するデータを発見したノードは、この特徴フラグメ
ントを保有するウェアハウス・オブジェクトのOID
(object indetifier)を返す。この
ようなOIDがウェアハウス・ノードにより収集され類
似性関数が計算される。この類似性関数はオブジェクト
がすでにデータ・ウェアハウスに格納されているかどう
かを判定するために使用される。オブジェクトがデータ
・ウェアハウスに表現されていると判定された場合、ウ
ェアハウス・オブジェクトのOIDはダウンロードされ
たオブジェクト用に使用される。すでに表現されている
のではない場合、そのオブジェクト用にユニーク(一義
的に特定される)なOIDが選択される。ウェアハウス
・ノードはオブジェクトの特徴を抽出し、この特徴をフ
ラグメント化し、これらの特徴フラグメントをハッシュ
する。ハッシュされた特徴フラグメントの各々の一部
は、データ・ウェアハウスに特徴が格納されているネッ
トワーク上のインデックス・ノードへハッシュしたオブ
ジェクト特徴フラグメントをウェアハウス・ノードが送
信するときのアドレシング・インデックスとしてウェア
ハウス・ノードにより使用される。
Consider first the data warehouse activity (the activity of storing data in the warehouse). Downloading objects from another database to the warehouse is performed by the warehouse node. For objects downloaded from another database, the warehouse node first determines whether the object has already been represented in the data warehouse by downloading from yet another database. If so, the warehouse node extracts one or more features of the object, fragments each of the object features into a plurality of feature fragments, and hashes each of these feature fragments. A portion of each of the hashed feature fragments is used as an addressing index (adres) when the warehouse node sends the hashed object feature to an index node on the network.
Used by the warehouse node as a sing index. Each index on the network that receives the hashed object feature fragment
The node performs a search against the corresponding index database using the hashed object feature fragments. The node that finds the data corresponding to the hashed object feature is the OID of the warehouse object that holds this feature fragment.
(Object identifier) is returned. Such OIDs are collected by the warehouse node and a similarity function is calculated. This similarity function is used to determine if the object is already stored in the data warehouse. If it is determined that the object is represented in the data warehouse, the OID of the warehouse object is used for the downloaded object. If not, a unique (uniquely specified) OID is selected for the object. The warehouse node extracts the features of the object, fragments the features, and hashes these feature fragments. A portion of each of the hashed feature fragments is used as an addressing index when the warehouse node sends the hashed object feature fragments to an index node on the network where the features are stored in the data warehouse. Used by house nodes.

【0021】次にデータ・マイニング活動を考察する。
データ内のパターンの検索をする等、クエリを評価した
いユーザはフロントエンド・コンピュータの1つへクエ
リを送信し、このコンピュータは次にネットワークのイ
ンデックス・ノードの1つへこのクエリを転送する。こ
のクエリを受信するノードはデータ・ウェアハウスのホ
ーム・ノードと呼ばれ、このクエリを1つ以上のサブク
エリに分解する。1つのサブクエリは、特徴と、計算等
のメソッドを実装するコンピュータで実行可能なプログ
ラムとを含み、これはさらに別のサブクエリを含むこと
ができる。ホーム・ノードはこれらを格納し、各サブク
エリの特徴を1つまたはそれ以上のサブクエリ特徴フラ
グメントへフラグメント化し、サブクエリの特徴フラグ
メントの各々をハッシュする。ハッシュされた特徴フラ
グメントの各々の一部は、ネットワーク上のノードへホ
ーム・ノードがサブクエリを送信するときのアドレシン
グ・インデックスとしてホーム・ノードにより使用され
る。サブクエリを受信するネットワーク上の各インデッ
クス・ノードは、ハッシュされたサブクエリ特徴を使用
して対応するインデックス・データベースに対して検索
を実行する。ハッシュされたサブクエリ特徴フラグメン
トに対応するデータを発見したノードは、そのサブクエ
リの中で指定された計算を実行する。この計算が別のサ
ブクエリを何も含まない場合、この計算結果がホーム・
ノードへ返される。この計算が別のサブクエリを含む場
合、ノードはこの計算に含まれているサブクエリに関し
てホーム・ノードの役割を担う。さらに詳しく説明する
と、ノードは、含まれているサブクエリの特徴フラグメ
ントをハッシュしてこのサブクエリを他のノードへ送信
する。計算が完了し最終結果が当初のホーム・ノードへ
返されるまでこのプロセスが反復的に継続する。計算結
果を受け取ると、ホーム・ノードは、当初のパターン・
クエリで指定されたデータ集合の残りの全てを実行し
て、フロントエンド・ノードへこの情報を送信する。フ
ロントエンド・ノードはユーザへの応答をフォーマット
化し、このフォーマット化された応答をユーザへ送信す
る。
Next, consider the data mining activity.
A user who wants to evaluate a query, such as searching for a pattern in the data, sends the query to one of the front-end computers, which then forwards the query to one of the index nodes of the network. The node that receives this query is called the data warehouse home node and breaks it down into one or more subqueries. One subquery includes features and a computer-executable program that implements methods such as calculations, which can include additional subqueries. The home node stores them, fragments the features of each subquery into one or more subquery feature fragments, and hashes each of the subquery feature fragments. A portion of each of the hashed feature fragments is used by the home node as an addressing index when the home node sends a subquery to a node on the network. Each index node on the network receiving the subquery performs a search against the corresponding index database using the hashed subquery features. The node that finds the data corresponding to the hashed subquery feature fragment performs the computation specified in the subquery. If this calculation contains no other subqueries, the result of this calculation is
Returned to node. If the calculation involves another subquery, the node assumes the role of the home node for the subquery included in the calculation. More specifically, the node hashes the feature fragments of the included subquery and sends the subquery to other nodes. This process continues iteratively until the calculations are completed and the final result is returned to the original home node. Upon receiving the calculation result, the home node returns the original pattern
Execute the rest of the data set specified in the query and send this information to the front-end node. The front end node formats the response to the user and sends the formatted response to the user.

【0022】[0022]

【発明の実施の形態】全体概要図としての図1を参照す
ると、本発明による分散コンピュータ・データベース・
システムの1つの実施例100は、例えばネットワーク
106経由でフロントエンド・コンピュータ104と通
信するユーザ・コンピュータ102を含む。別の方法で
は、フロントエンド・コンピュータ104はユーザ・コ
ンピュータであっても良い。フロントエンド・コンピュ
ータ104は、更に1つのデータ・ウェアハウス兼デー
タ・マイニング・エンジンと通信し、これはローカル・
エリア・ネットワーク110で相互接続された1つ以上
のコンピュータ・ノード106、108を含む。個々の
コンピュータ・ノード106、108は、ローカル・デ
ィスク112を含むか、又は、これの代わりに又はこれ
に加えて、ネットワーク・ディスク・サーバ(図示して
いない)からデータを取得できる。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Referring to FIG. 1 for a general schematic diagram, a distributed computer database
One embodiment 100 of the system includes a user computer 102 communicating with a front-end computer 104, for example, via a network 106. Alternatively, front-end computer 104 may be a user computer. The front-end computer 104 also communicates with one data warehouse and data mining engine, which is
It includes one or more computer nodes 106, 108 interconnected by an area network 110. Individual computer nodes 106, 108 may include local disk 112 or, alternatively or additionally, obtain data from a network disk server (not shown).

【0023】データ・ウェアハウスのコンピュータ・ノ
ード106、108にはインデックス・ノード106や
ウェアハウス・ノード108を含む幾つかの種類があ
る。データ・ウェアハウスのノード106、108は独
立したコンピュータを表わさなくとも良い。1つの実施
例においては、データ・ウェアハウスはインデックス・
ノード106とウェアハウス・ノード108との全ての
役割を担う単一のコンピュータとして実現される。別の
実施例においては、データ・ウェアハウスはインデック
ス・ノード106とウェアハウス・ノード108との各
々について別々のコンピュータとして実現される。本発
明の範囲及び精神に納まるものとして多くの変化が可能
であることは当業者には認識されよう。
There are several types of data warehouse computer nodes 106, 108, including index nodes 106 and warehouse nodes 108. The data warehouse nodes 106, 108 need not represent independent computers. In one embodiment, the data warehouse is an index warehouse.
It is implemented as a single computer that performs all the roles of node 106 and warehouse node 108. In another embodiment, the data warehouse is implemented as a separate computer for each of index node 106 and warehouse node 108. One skilled in the art will recognize that many variations are possible that fall within the scope and spirit of the invention.

【0024】まずオブジェクトをダウンロードする例示
的な方法200を考察し、また図2を参照すると、1つ
の実施例においてオブジェクトは1つまたはそれ以上の
ウェアハウス・ノード108により外部データベース2
01からダウンロードされる(ステップ201)。例え
ば別のデータベースからの前回のダウンロードにより、
オブジェクトがすでにデータ・ウェアハウス内に表現さ
れている場合、ウェアハウス・ノード108はデータ・
ウェアハウスの統合データ・モデルで指定されるよう
に、オブジェクトを識別する目的でオブジェクトから多
数の特徴を抽出する。例えば、人は雇用者「ID」、ア
カウント番号、名前、住所、電話番号、電子メール・ア
ドレス等により、又はこれらのうちの幾つかの組合せに
より、識別することができる。
Consider first an exemplary method 200 for downloading an object, and referring to FIG. 2, in one embodiment, the object is stored in an external database 2 by one or more warehouse nodes 108.
01 (step 201). For example, from a previous download from another database,
If the object is already represented in the data warehouse, the warehouse node 108
Extracting a number of features from an object for the purpose of identifying the object, as specified in the warehouse's integrated data model. For example, a person may be identified by an employer "ID", account number, name, address, telephone number, email address, etc., or some combination thereof.

【0025】各種の特徴抽出技術を使用できる。トラン
ザクション(取引)の日付等のリレーショナル属性値で
は、考えられる値は連続して重複しない範囲の集合に分
割できる。この方法でフィールド値を分割することを仕
切り(discretization)と呼ぶ。実際の
値はインデックス・エントリにも含まれ得る。
Various feature extraction techniques can be used. With relational attribute values, such as transaction dates, possible values can be divided into a set of non-overlapping ranges in a row. Dividing the field values in this manner is called discretionization. The actual value may also be included in the index entry.

【0026】構造化された文書を解析(分解)してデー
タ構造を作成し、ついでこのデータ構造をフラグメント
と呼ばれる(おそらくは重複する)部分構造へ分割する
ことにより、特徴が構造化された文書から抽出される。
サブクエリに関連するフラグメント(fragmen
t)はデータベース内の一致するフラグメントを発見す
るために使用されるので、これはプローブと呼ばれる。
By parsing (decomposing) the structured document to create a data structure, and then dividing this data structure into (possibly overlapping) substructures called fragments, the features are converted from the structured document. Is extracted.
Fragment related to subquery (fragmen
This is called a probe because t) is used to find a matching fragment in the database.

【0027】非構造化文書から抽出された特徴は相互に
関連する部分構造の集合を含むデータ構造に構成され、
これが構造化文書の場合と同様に、(おそらくは重複す
る)コンポーネント部分構造(component s
ubstructures)へ分割され、これらのコン
ポーネント部分構造が非構造化文書のフラグメントであ
る。
The features extracted from the unstructured document are organized into a data structure containing a set of interrelated substructures,
As is the case with structured documents, component s (possibly duplicates)
substructures), and these component substructures are unstructured document fragments.

【0028】サウンド、画像、ビデオ・ストリーム等の
メディア用に、例えば画像ではエッジ検出アルゴリズ
ム、セグメンテーション・アルゴリズムやオブジェクト
分類アルゴリズム等、多種多様な特徴抽出アルゴリズム
が開発されている。フーリエ変換やウェーブレット変換
(wavelet transformation)並
びに多くのフィルタリング・アルゴリズム(フィルター
用アルゴリズム)も画像やサウンドから特徴を抽出する
のに使用される。特徴は手動手段又は半自動手段により
オブジェクトに追加することもできる。このような追加
された特徴は注釈又はメタデータ(meta−dat
a)として呼称される。注釈がリレーショナル・データ
ベース・レコードか、構造化文書か、又は非構造化文書
かによって、前述した技術の1つを用いてこの注釈から
特徴が抽出される。ある特徴がこれに関連した値を有し
ている場合、これらの値は仕切られる。また特徴の間の
関連性を指定することができる。例えば、1つの特徴は
別の特徴に含まれたり、別の特徴に隣接することがあ
る。統合データ・モデルは特徴抽出アルゴリズム並びに
特徴の構造を指定する。
A wide variety of feature extraction algorithms have been developed for media such as sound, images, video streams, etc., such as edge detection algorithms, segmentation algorithms and object classification algorithms for images. Fourier transforms and wavelet transforms as well as many filtering algorithms are also used to extract features from images and sounds. Features can also be added to objects by manual or semi-automatic means. Such added features may be annotations or metadata (meta-data
a). Depending on whether the annotation is a relational database record, a structured document, or an unstructured document, features are extracted from the annotation using one of the techniques described above. If a feature has a value associated with it, these values are partitioned. You can also specify the relevance between features. For example, one feature may be included in or adjacent to another feature. The integrated data model specifies the feature extraction algorithm as well as the structure of the feature.

【0029】ウェアハウス・ノード108は、予め定め
られたハッシュ関数を使用してオブジェクトの各特徴フ
ラグメントをエンコード(encode)する。システ
ム内のデータは、ローカル・データベースのデータへの
インデックスを生成するためのこのハッシュ関数を使用
して予め様々なインデックス・ノードにローカルに格納
されいる。つまり同じハッシュ関数を使用して、データ
・ストレージ(データ格納用)のインデックスを生成
し、かつ、オブジェクトに対するハッシュされたプロー
ブを生成することで、データを格納するときにデータ・
ウェアハウスのインデックス・ノード106全体に均一
にデータが分散されることを保証する。
The warehouse node 108 encodes each feature fragment of the object using a predetermined hash function. The data in the system is previously stored locally at various index nodes using this hash function to generate an index to the data in the local database. In other words, the same hash function is used to generate an index for data storage (for storing data), and by generating a hashed probe for the object, the data is stored when the data is stored.
Ensures that data is evenly distributed across the index nodes 106 of the warehouse.

【0030】1つの実施例においては、ハッシュ関数を
使用することにより得られるハッシュ値は第1の部分を
有し、これはデータを格納するために送信しようとする
先(送信先)のインデックス・ノード又はプローブとし
て特徴フラグメントを送信しようとする先のインデック
ス・ノードを識別するために用いられる。ハッシュ値は
ローカル・インデックス値である第2の部分も有し、こ
れはデータを格納しようとする場合又はインデックス・
ノードからデータを取り出そうとする場合のメモリ内の
ロケーション(格納場所)を決定するために用いられ
る。つまり、ハッシュされたオブジェクト特徴フラグメ
ントは、ハッシュ値の第1の部分で決定されるように、
データ・ウェアハウスの特定のインデックス・ノード1
06へプローブとして分散される(ステップ202)。
In one embodiment, the hash value obtained by using the hash function has a first part, which is the index of the destination to which the data is to be stored (the destination). Used to identify the index node to which the feature fragment will be sent as a node or probe. The hash value also has a second part, which is the local index value, which is used when storing data or when
It is used to determine a location (storage location) in memory when data is to be retrieved from a node. That is, the hashed object feature fragment is determined by the first part of the hash value,
Specific index node 1 in the data warehouse
06 are distributed as probes (step 202).

【0031】そのインデックス・ノード106へデータ
が最初に格納されたときに使われたハッシュされた特徴
フラグメントとそのインデックス・ノードのプローブと
が一致するようなインデックス・ノード106は、要求
された情報のハッシュされた特徴フラグメントに一致す
るOIDをウェアハウス・ノード108へ送信する(ス
テップ203)ことにより、取り出しメッセージに応答
する。つまり、ハッシュされたプローブとハッシュされ
た特徴フラグメントのローカル・ハッシュ・テーブルと
の間で一致したものは全て、最初にオブジェクト特徴フ
ラグメントをハッシュしたウェアハウス・ノード108
へ返されるか又はそこに収集される。
The index node 106, such that the hashed feature fragment used when the data was initially stored in the index node 106 and the index node's probe match, will Respond to the retrieval message by sending the OID that matches the hashed feature fragment to warehouse node 108 (step 203). That is, any match between the hashed probe and the local hash table of the hashed feature fragments is the warehouse node 108 that first hashed the object feature fragment.
Returned to or collected there.

【0032】ウェアハウス・ノード108は、次に、O
IDの1つがウェアハウスの中に格納しようとするオブ
ジェクトと同じオブジェクトを表わしているかどうか判
定する。この判定は、ウェアハウスの中に格納しようと
するオブジェクトとOIDが返されたオブジェクトの間
の類似性の度合をウェアハウス・ノードが比較すること
により行なう。1つの実施例においては、類似性の尺度
はオブジェクトに共通の特徴と、OIDが返されたオブ
ジェクトの特徴ではなくウェアハウスの中に格納しよう
とするオブジェクトの特徴とによって判定される。
The warehouse node 108 then
It is determined whether one of the IDs represents the same object as the object to be stored in the warehouse. This determination is made by the warehouse node comparing the degree of similarity between the object to be stored in the warehouse and the object whose OID has been returned. In one embodiment, the measure of similarity is determined by features common to the objects and features of the object that is to be stored in the warehouse, rather than features of the object for which the OID was returned.

【0033】この類似性の尺度は、上記で参照したTv
erskyの特徴コントラスト・モデル(Featur
e Contrast Model)に基づくことがで
きる。第1項により類似性の値に正の数が加えられ、第
2項により負の数が加えられる。さらに、第2項は予め
定められた定数で掛け算されて、第2の組の特徴が第1
の組の特徴より類似性について影響が少なくなるように
してある。
The measure of this similarity is the Tv referenced above.
ersky feature contrast model (Featur
e Contrast Model). The first term adds a positive number to the similarity value, and the second term adds a negative number. Further, the second term is multiplied by a predetermined constant so that the second set of features is
The effect on the similarity is less than the characteristics of the set.

【0034】オブジェクトがデータ・ウェアハウスの中
において表現されていると判定された場合、そのオブジ
ェクトについてOIDはすでに利用可能である。すでに
表現されているのではない場合、そのオブジェクトにつ
いてユニークなOIDが選択される。
If it is determined that the object is represented in the data warehouse, the OID is already available for that object. If not, a unique OID is selected for the object.

【0035】ウェアハウス・ノード108は次に、デー
タ・ウェアハウスの統合データ・モデルに従ってオブジ
ェクトの特徴の全部を抽出する。特徴抽出技術について
は前述した。ウェアハウス・ノード108は各特徴を特
徴フラグメントにフラグメント化(分割化)し、前述し
たように予め定められたハッシュ関数を使用してオブジ
ェクトの各特徴フラグメントをエンコードする。1つの
実施例においては、ハッシュ関数を用いて得られたハッ
シュ値はデータを送信して格納しよう(ステップ20
4)とする先(格納先)のインデックス・ノードを識別
するために用いる第1の部分と、データをインデックス
・ノードのどこに格納する(ステップ205)かを決定
するために使用されるローカル・インデックス値である
第2の部分とを有する。
The warehouse node 108 then extracts all of the object's features according to the data warehouse's integrated data model. The feature extraction technology has been described above. The warehouse node 108 fragments (divides) each feature into feature fragments and encodes each feature fragment of the object using a predetermined hash function as described above. In one embodiment, the hash value obtained using the hash function will be transmitted and stored (step 20).
4) A first part used to identify the index node to which the data is to be stored (storage destination), and a local index used to determine where to store the data (step 205) in the index node. A second part that is a value.

【0036】次に、クエリを処理する例示的な方法30
0を考察し、また図3を参照すると、ユーザがユーザ・
コンピュータ102からクエリを送信する(ステップ3
01)1つの実施例においては、フロントエンド・コン
ピュータ104がクエリを受信する。フロントエンド・
コンピュータ104はユーザ・コンピュータ102との
接続の確立を担当してユーザがオブジェクトを送信しま
た適切なフォーマットで応答を受信できるようにする。
フロントエンド・コンピュータ104は又、何らかの認
証機能及び管理機能も担当する。1つの実施例において
は、フロントエンド・コンピュータ104はHTTPプ
ロトコルを用いてユーザ・コンピュータ102と通信す
るWorldWideWebサーバである。
Next, an exemplary method 30 for processing a query 30
0, and with reference to FIG.
A query is transmitted from the computer 102 (step 3
01) In one embodiment, the front-end computer 104 receives the query. front end·
Computer 104 is responsible for establishing a connection with user computer 102 so that the user can send objects and receive responses in an appropriate format.
Front-end computer 104 is also responsible for some authentication and management functions. In one embodiment, front-end computer 104 is a World Wide Web server that communicates with user computer 102 using the HTTP protocol.

【0037】クエリが受け入れ可能であることを確認し
た後、フロントエンド・コンピュータ104はデータ・
ウェアハウスの要件(スペック)にクエリを適合させる
のに必要とされる全ての再フォーマット化を実行する。
フロントエンド・コンピュータ104はデータ・ウェア
ハウスのインデックス・ノード106の1つへクエリを
送信し(ステップ302)、このインデックス・ノード
がそのクエリについてのデータ・ウェアハウスのホーム
・ノード107として定義される。
After confirming that the query is acceptable, the front-end computer 104 sends the data
Perform any reformatting needed to adapt the query to the requirements of the warehouse.
The front-end computer 104 sends a query to one of the data warehouse index nodes 106 (step 302), which is defined as the data warehouse home node 107 for the query. .

【0038】ホーム・ノード107はクエリを複数(1
つ又はそれ以上)のサブクエリに分解する。各サブクエ
リは1つの特徴を有し、コンピュータで実行可能な方法
例えば計算を指定する。この計算は、サブクエリがどの
ようなアクションを行なうかを決定する。もっとも一般
的な計算はデータ・ウェアハウスに格納されている情報
を集計する統計関数である。この計算には一致を受け入
れるのに必要な最低の強度などの類似性基準や、平均又
は標準偏差等の統計計算を含められる。この計算は別の
サブクエリを含むことができる。
The home node 107 sends a plurality of queries (1
(Or more). Each subquery has one characteristic and specifies a computer-executable method, such as a calculation. This calculation determines what action the subquery will take. The most common calculations are statistical functions that aggregate information stored in a data warehouse. This calculation can include similarity measures, such as the lowest strength required to accept a match, and statistical calculations, such as the mean or standard deviation. This calculation can include another subquery.

【0039】各サブクエリについて、ホーム・ノード1
07はサブクエリ特徴をサブクエリ特徴フラグメントへ
フラグメント化し、前述したように予め定められたハッ
シュ関数を用いて特徴フラグメントをエンコードする。
ハッシュされた特徴フラグメント及びサブクエリは、ホ
ーム・ノードにより前述したハッシュされた特徴フラグ
メントを用いてインデックス・ノードへ送信される(ス
テップ303)。
For each subquery, home node 1
07 fragments the subquery features into subquery feature fragments and encodes the feature fragments using a predetermined hash function as described above.
The hashed feature fragments and subqueries are sent by the home node to the index node using the hashed feature fragments described above (step 303).

【0040】インデックス・ノード106は、そのイン
デックス・ノードにデータを最初に格納したときの使用
したインデックス特徴フラグメントとハッシュされた特
徴フラグメントとが一致すると、ハッシュされた特徴フ
ラグメントに一致するデータであってインデックス項目
のローカル・ハッシュ・テーブルの中にあるデータを取
り出し、サブクエリの中で指定された計算を実行するこ
とでサブクエリに応答する。この計算が何らかの別のサ
ブクエリを含む場合、インデックス・ノードはコンポー
ネント・サブクエリと呼ばれ前述のように処理される新
規クエリについてのホーム・ノードとして機能する(ス
テップ304)。例えば、サブクエリは先月器具を購入
した各顧客に相関する他の製品の売上を見付けるために
使用し得る。この計算が別のサブクエリを含むか含まな
いかにかかわらず、インデックス・ノードはこれが受信
したサブクエリのホーム・ノード107へ計算結果を返
す(ステップ305)。
If the index feature fragment used when the data is first stored in the index node matches the hashed feature fragment, the index node 106 determines that the data matches the hashed feature fragment. Retrieves the data in the local hash table of index entries and responds to the subquery by performing the calculations specified in the subquery. If the calculation involves any other subqueries, the index node is called a component subquery and serves as the home node for the new query processed as described above (step 304). For example, a subquery may be used to find sales of other products that correlate to each customer who purchased the equipment last month. Regardless of whether this calculation includes another subquery or not, the index node returns the result of the calculation to the home node 107 of the subquery it received (step 305).

【0041】当初のクエリのサブクエリ全部の結果を受
信すると、ホーム・ノード107は何らかのデータ集
計、例えば当初のクエリにより指定された平均又は標準
偏差の計算等を実行し、得られた情報をユーザに返す。
1つの実施例においては、返された情報はフロントエン
ド・コンピュータ104へ送信され(ステップ30
6)、このコンピュータが応答を適切にフォーマット化
してから、ユーザへ応答を送信する(ステップ30
7)。別の実施例においては、返すべき情報は、例えば
フロントエンド・コンピュータ104の介在なしにネッ
トワーク105を経由してユーザ・コンピュータ102
へ直接送信される。
Upon receiving the results of all the subqueries of the original query, the home node 107 performs some sort of data aggregation, for example, calculating the average or standard deviation specified by the original query, and sends the obtained information to the user. return.
In one embodiment, the returned information is sent to front-end computer 104 (step 30).
6) The computer formats the response appropriately and then sends the response to the user (step 30).
7). In another embodiment, the information to be returned may include user computer 102 via network 105 without, for example, front-end computer 104.
Sent directly to.

【0042】次に、好適実施例において使用されるメッ
セージ・フォーマットを考察し、図4aを参照すると、
ウェアハウス・メッセージの例示的なフォーマットは4
つのフィールドを含む。これらは、ヘッダ402、オブ
ジェクト識別子(QID)403、ハッシュされたオブ
ジェクト・フラグメント(HOF)404、及び、値4
05である。ヘッダ・フィールド402はこのメッセー
ジがウェアハウス・メッセージであることを指定し、宛
先インデックス・ノードも指定する。宛先インデックス
・ノードはハッシュされたオブジェクト・フラグメント
の第1の部分で決定される。OIDフィールド403
は、オブジェクト形式指定子(オブジェクト・タイプ指
定子)とオブジェクト識別子を含む。HOFフィールド
404は、フラグメント形式指定子(フラグメント・タ
イプ指定子)とハッシュ・モジュール(図5参照)によ
って作成されたハッシュされたオブジェクト・フラグメ
ントの第2の部分とを含む。値フィールド405はフラ
グメントに関連するオプションの値を含む。フラグメン
ト形式指定子はウェアハウス・メッセージが値フィール
ド405を含むかどうか判定し、ウェアハウス・メッセ
ージが値フィールドを含む場合にはフラグメント形式指
定子が値フィールドのサイズを判定する。
Consider now the message format used in the preferred embodiment, and referring to FIG.
An exemplary format for a warehouse message is 4
Contains two fields. These include a header 402, an object identifier (QID) 403, a hashed object fragment (HOF) 404, and a value 4
05. Header field 402 specifies that this message is a warehouse message, and also specifies the destination index node. The destination index node is determined on the first part of the hashed object fragment. OID field 403
Contains an object type specifier (object type specifier) and an object identifier. HOF field 404 includes a fragment type specifier (fragment type specifier) and a second portion of the hashed object fragment created by the hash module (see FIG. 5). Value field 405 contains the value of the option associated with the fragment. The fragment format specifier determines whether the warehouse message includes a value field 405, and if the warehouse message includes a value field, the fragment format specifier determines the size of the value field.

【0043】図4bを参照すると、ウェアハウス応答メ
ッセージの例示的なフォーマットは2つの部分を含む。
これらは、識別子と値である。識別子の部分は4つのフ
ィールドを有する。ヘッダ406、OID1 407、
OID2 408、及び、重み409である。ヘッダ・
フィールド406は、このメッセージがウェアハウス応
答メッセージであることを指定し、宛先ウェアハウス・
ノードも指定する。宛先ウェアハウス・ノードは、対応
するウェアハウス・メッセージを受信したときの受信先
のウェアハウス・ノードである。2つのOIDフィール
ド407、408は、オブジェクト形式指定子とオブジ
ェクト識別子とを含む。第1のOIDフィールド407
は対応するウェアハウス・メッセージのOIDフィール
ド403と同じである。第2のOIDフィールド408
はそれまでにインデックス化されたオブジェクトを識別
する。重みフィールド409はOID1407で識別さ
れたオブジェクトに関連するオプションの重みを含む。
OID1のオブジェクト形式指定子は、ウェアハウス応
答メッセージが重みフィールドを含むかどうか判定し、
ウェアハウス応答メッセージが重みフィールドを含む場
合にはOID1のオブジェクト形式指定子がフィールド
のサイズを判定する。ウェアハウス応答メッセージの値
部分は、OID2 408によって識別されるオブジェ
クトに関連するデータを含むための複数のフィールド4
10を含む。値の部分の構造とサイズはOID2のオブ
ジェクト形式指定子によって決定される。
Referring to FIG. 4b, an exemplary format of a warehouse response message includes two parts.
These are identifiers and values. The identifier part has four fields. Header 406, OID1 407,
OID2 408 and weight 409. header·
Field 406 specifies that this message is a warehouse response message and the destination warehouse
Also specify the node. The destination warehouse node is the warehouse node to which the corresponding warehouse message was received. The two OID fields 407, 408 contain an object type specifier and an object identifier. First OID field 407
Is the same as the OID field 403 of the corresponding warehouse message. Second OID field 408
Identifies the object that has been indexed so far. Weight field 409 contains an optional weight associated with the object identified by OID 1407.
The object type specifier of OID1 determines whether the warehouse response message includes a weight field,
If the warehouse response message includes a weight field, the OID1 object type specifier determines the size of the field. The value portion of the warehouse response message contains a plurality of fields 4 to contain data related to the object identified by OID2 408.
10 inclusive. The structure and size of the value part are determined by the OID2 object format specifier.

【0044】図4cを参照すると、挿入メッセージの例
示的なフォーマットは4つのフィールドを有する。これ
らは、ヘッダ411、OID412、HOF413、及
び、値414である。ヘッダ・フィールド414は、そ
のメッセージが挿入メッセージであることを指定し、宛
先インデックス・ノードも指定する。宛先インデックス
・ノードは、ハッシュされたオブジェクト・フラグメン
トの第1の部分で判定される。OIDフィールド412
はオブジェクト形式指定子とオブジェクト識別子とを含
む。HOFフィールド413は、フラグメント形式指定
子とハッシュ・モジュールによって作成されたハッシュ
されたオブジェクト・フラグメントの第2の部分とを含
む(図5参照)。値フィールド414はフラグメントに
関連するオプションの値を含む。フラグメント形式指定
子は、挿入メッセージが値フィールド414を含むかど
うか判定し、挿入メッセージが値フィールドを含む場合
にはフラグメント形式指定子が値フィールドのサイズを
判定する。
Referring to FIG. 4c, an exemplary format of the insert message has four fields. These are a header 411, an OID 412, a HOF 413, and a value 414. Header field 414 specifies that the message is an insert message, and also specifies the destination index node. The destination index node is determined on the first part of the hashed object fragment. OID field 412
Contains an object type specifier and an object identifier. The HOF field 413 contains the fragment type specifier and the second part of the hashed object fragment created by the hash module (see FIG. 5). Value field 414 contains the value of the option associated with the fragment. The fragment format specifier determines whether the insert message includes a value field 414, and if the insert message includes a value field, the fragment format specifier determines the size of the value field.

【0045】図4dを参照すると、サブクエリ・メッセ
ージの例示的なフォーマットは2つの部分を有する。こ
れらは、識別子とサブクエリである。識別子部分は4つ
のフィールドがある。ヘッダ415、サブクエリ識別子
(QSID)416、ハッシュされたクエリ・フラグメ
ント(HQF)417、及び、値418である。ヘッダ
・フィールド415は、このメッセージがサブクエリ・
メッセージであることを指定し、又、宛先インデックス
・ノードも指定する。宛先インデックス・ノードはハッ
シュされたクエリ・フラグメントの第1の部分で判定さ
れる。QSIDフィールド416はクエリ形式指定子と
サブクエリ識別子とを含む。HQFフィールド417
は、フラグメント形式指定子とハッシュ・モジュール
(図5参照)によって作成されたハッシュされたサブク
エリ・フラグメントの第2の部分を含む。値フィールド
418はフラグメントに関連するオプションの値を含
む。フラグメント形式指定子は、サブクエリ・メッセー
ジが値フィールド418を含むかどうか判定し、サブク
エリ・メッセージが値フィールドを含む場合にはフラグ
メント形式指定子が値フィールドのサイズを判定する。
サブクエリ・メッセージのサブクエリ部分は複数のサブ
クエリを含む。サブクエリを有していないサブクエリ・
メッセージは単純サブクエリ・メッセージと呼ばれる。
Referring to FIG. 4d, an exemplary format of a subquery message has two parts. These are the identifier and the subquery. The identifier part has four fields. A header 415, a subquery identifier (QSID) 416, a hashed query fragment (HQF) 417, and a value 418. Header field 415 indicates that this message is a subquery
Specifies that this is a message, and also specifies the destination index node. The destination index node is determined on the first part of the hashed query fragment. QSID field 416 contains a query type specifier and a subquery identifier. HQF field 417
Contains a fragment type specifier and a second part of the hashed subquery fragment created by the hash module (see FIG. 5). Value field 418 contains the value of the option associated with the fragment. The fragment format specifier determines whether the subquery message includes a value field 418, and if the subquery message includes a value field, the fragment format specifier determines the size of the value field.
The subquery portion of the subquery message includes a plurality of subqueries. Subqueries without subqueries
The message is called a simple subquery message.

【0046】図4eを参照すると、サブクエリ応答メッ
セージの例示的な実施例は2つの部分である識別子と値
を有する。識別子部分は2つのフィールド、ヘッダ42
0とQSID421を有する。ヘッダ・フィールド42
0はこのメッセージがサブクエリ応答メッセージである
ことを指定し、又宛先インデックス・ノードも指定す
る。宛先インデックス・ノードは対応するサブクエリ・
メッセージを受信したときの受信先のインデックス・ノ
ードと同じである。QSIDフィールド421はクエリ
形式指定子とサブクエリ識別子とを含む。サブクエリ応
答メッセージの値部分はサブクエリの結果データを入れ
るための多数のフィールド422を有する。値部分の構
造はクエリ形式指定子によって指定される。
Referring to FIG. 4e, an exemplary embodiment of a subquery response message has two parts, an identifier and a value. The identifier part consists of two fields, header 42
0 and QSID421. Header field 42
0 specifies that this message is a subquery response message, and also specifies the destination index node. The destination index node is the corresponding subquery
It is the same as the receiving index node when the message is received. QSID field 421 contains a query type specifier and a subquery identifier. The value portion of the subquery response message has a number of fields 422 for containing the result data of the subquery. The structure of the value part is specified by the query format specifier.

【0047】分散コンピュータ・データベース・システ
ムの各ノードは、後述し又図5及び図6に図示するよう
に、ノード間でのメッセージの送信と受信を担当する通
信モジュールを含む。メッセージの送信には、(1)通
信媒体を介して送信する前にメッセージをキュー(qu
e)に入れること、(2)通信媒体を介して実際に送信
すること、(3)メッセージ形式(メッセージ・タイ
プ)で決定されたモジュールによりメッセージが受信さ
れたときにメッセージを処理するタスクをキューに入れ
ること、が必要である。メッセージ形式は受信モジュー
ルへ発行されるコマンド(命令)を決定する。コマンド
はメッセージがモジュールにより処理されることになる
手段を決定する。メッセージの送信先となる宛先ノード
は各メッセージのヘッダ・フィールドで指定される。別
のノードからメッセージを受信したときは、メッセージ
の形式(タイプ)はどのモジュールがそのメッセージを
処理するかを決定する。メッセージ形式は各メッセージ
のヘッダ・フィールドにおいて指定される。ホーム・ノ
ードの通信モジュールは複数のフロントエンド・ノード
との通信も担当する。1つのフロントエンド・ノードは
ホーム・ノードへクエリを送信し、このホーム・ノード
は、例えばグラフやフォーマット済みテーブル等の結果
をフロントエンド・ノードへ送信する。
Each node of the distributed computer database system includes a communication module responsible for sending and receiving messages between the nodes, as described below and shown in FIGS. To send a message, (1) queue the message (qu) before sending it over the communication medium.
e), (2) the actual transmission via the communication medium, (3) the task of processing the message when the message is received by a module determined by the message type (message type). Is necessary. The message format determines the command issued to the receiving module. Commands determine the means by which messages will be processed by the module. The destination node to which the message is sent is specified in the header field of each message. When a message is received from another node, the type of the message determines which module processes the message. The message format is specified in the header field of each message. The home node's communication module is also responsible for communicating with multiple front-end nodes. One front-end node sends a query to the home node, which sends results, such as graphs and formatted tables, to the front-end node.

【0048】前述のノードの例示的実施例を考察し、ま
た図5を参照すると、ウェアハウス化を行うノード(ウ
ェアハウス・ノード)500は外部データベースをスキ
ャンして知識抽出エンジンによるウェアハウス内への収
容(ウェアハウス化)とインデックス化のためにオブジ
ェクトをダウンロードするダウンローダ(ダウンロード
部)502を有することができる。各ウェアハウス・ノ
ード500は種類がことなるダウンローダ502を有す
ることがある。例えば1つの種類のダウンローダは標準
SQLプロトコル、例えばODBCやリレーショナル・
データベースを提供する業者が定義した専用プロトコル
等を使用してリレーショナル・データベースからデータ
をダウンロードできる。この場合のダウンロードは1つ
またはそれ以上のSQLクエリ(SQLプロトコルによ
るクエリ)を用いて行なう。別の例では、ダウンローダ
は記事配給元(syndicators)からインター
ネットを介して内容を取得するためにネゴシエーション
(交渉のための交信)を行なう情報コンテンツ交換(I
CE:Information and Conten
t Exchange)加入者であり得る。これは新聞
記事配信等の時間に敏感な内容を取得する上で好適な機
構である。ダウンローダ502はオブジェクトを特徴抽
出部504へ送信する。
Considering the exemplary embodiment of the node described above, and referring to FIG. 5, the warehousing node (warehouse node) 500 scans an external database into the warehouse by the knowledge extraction engine. A downloader (download unit) 502 that downloads objects for housing (warehouse conversion) and indexing can be provided. Each warehouse node 500 may have a different type of downloader 502. For example, one type of downloader is a standard SQL protocol, such as ODBC or relational.
Data can be downloaded from a relational database using a proprietary protocol or the like defined by the database provider. Downloading in this case is performed using one or more SQL queries (query according to the SQL protocol). In another example, the downloader may negotiate to obtain content from the article syndicators via the Internet to exchange information content (I).
CE: Information and Content
t Exchange) may be a subscriber. This is a suitable mechanism for acquiring time-sensitive contents such as newspaper article distribution. The downloader 502 transmits the object to the feature extraction unit 504.

【0049】特徴抽出部504はオブジェクトから特徴
を抽出する。オブジェクトがリレーショナル・データベ
ースの1つのレコードの場合、特徴抽出はインデックス
化されるフィールドの選択、フィールドの再フォーマッ
ト化、誤っていると判定されたデータの排除又は訂正等
のステップを含む。画像についての特徴抽出はエッジ検
出、画像オブジェクトの識別、画像オブジェクト間の関
連性の決定により行なわれる。別の実施例においては、
画像についての特徴抽出はフーリエ変換又はウェーブレ
ット変換を計算することで行なう。フーリエ変換又はウ
ェーブレット変換の各々は1つの抽出された特徴を構成
する。特徴は複数の挿入メッセージを用いてインデック
スされる。
The feature extraction unit 504 extracts features from objects. If the object is a single record in a relational database, feature extraction includes steps such as selecting the fields to be indexed, reformatting the fields, eliminating or correcting data determined to be incorrect. Image feature extraction is performed by edge detection, image object identification, and determination of relevance between image objects. In another embodiment,
Feature extraction for an image is performed by calculating a Fourier transform or a wavelet transform. Each of the Fourier transforms or wavelet transforms constitutes one extracted feature. Features are indexed using multiple insertion messages.

【0050】特徴抽出部504は外部データベースの各
オブジェクト識別子を知識抽出エンジンのオブジェクト
識別子へもマップする。各外部データベースはオブジェ
クト識別子を割り当てるそれ自体の機構を有することが
あり、同じオブジェクトに対する特徴が別々のオブジェ
クト識別子が付けられて各外部データベースに格納され
ていることがある。例えば、1つの外部データベースは
社会保険番号を使用することがある。別の外部データベ
ースは被雇用者識別子を使用することがある。外部オブ
ジェクト識別子からのマッピングは複数のウェアハウス
・メッセージを使用して実現する。
The feature extractor 504 maps each object identifier of the external database to the object identifier of the knowledge extraction engine. Each external database may have its own mechanism for assigning object identifiers, and features for the same object may be stored in each external database with a different object identifier. For example, one external database may use social security numbers. Another external database may use employee identifiers. Mapping from external object identifiers is achieved using multiple warehouse messages.

【0051】フラグメンタ506は各特徴に含まれたフ
ラグメントを計算する。各フラグメントは特徴の中の関
連するコンポーネントの有限個の組を含む。1つの実施
例においては、特徴のフラグメントは特徴を定義するデ
ータ構造における各々の属性と各々の関連性を含む。リ
レーショナル・データベース・レコードの形のオブジェ
クトでは、特徴は特徴抽出部504によって選択され、
再フォーマット化され、かつ訂正された属性である。こ
のフラグメントはハッシュ・モジュールへ転送される。
The fragmentor 506 calculates a fragment included in each feature. Each fragment contains a finite set of related components in the feature. In one embodiment, the feature fragment includes each attribute and each association in the data structure defining the feature. For objects in the form of relational database records, features are selected by the feature extractor 504,
The reformatted and corrected attributes. This fragment is forwarded to the hash module.

【0052】ハッシュ・モジュール508はフラグメン
トのハッシュ関数を計算する。1つの実施例において
は、ハッシュ関数はIETF(Internet En
gineering Task Force)のネット
ワーク作業部会が1990年10月に発行し、インター
ネット上で又はマサチューセッツ工科大学計算機科学ラ
ボラトリ(MIT Laboratory for C
omputer Science, Cambridg
e, MA, USA)のR. Rivestから入手
可能なRFC(Request For Commen
t)1186仕様に記載されているMD4メッセージダ
イジェスト用アルゴリズムである。ハッシュ・モジュー
ル508は、フラグメントの目的がオブジェクト識別子
のマッピングを実現することなのか又はオブジェクトの
特徴をインデックス化することなのかによって、それぞ
れ、ウェアハウス・メッセージ又は挿入メッセージのど
ちらかを通信モジュール510へ転送する。
The hash module 508 calculates a hash function for the fragment. In one embodiment, the hash function is an IETF (Internet Ent
published by the Networking Working Group of the G. Gingering Task Force in October 1990, on the Internet or at the Massachusetts Institute of Technology Computer Science Laboratory (MIT Laboratory for C).
Omputer Science, Cambridge
e, MA, USA). RFC (Request For Comment) available from Rivest
t) MD4 message digest algorithm described in the 1186 specification. The hash module 508 sends either the warehouse message or the insert message to the communication module 510, depending on whether the purpose of the fragment is to implement a mapping of the object identifier or to index the features of the object, respectively. Forward.

【0053】類似性コンパレータ(類似性計算部)51
2は通信モジュール510からウェアハウス応答メッセ
ージを受信して挿入メッセージを作成し、このメッセー
ジが通信モジュール510へ転送される。類似性コンパ
レータ512は識別子がマップされているオブジェクト
についてのウェアハウスからの応答を全部を収集する。
応答内の各オブジェクトについて、類似性コンパレータ
512は検索で返された各オブジェクト識別子の関連性
を判定する。関連性のこの判定は、ウェアハウス・ノー
ドにより識別子がマッピングされているオブジェクトと
OIDが返されたオブジェクトとの間の類似性の度合を
比較することで行なう。1つの実施例においては、クエ
リとオブジェクトとの間の類似性の尺度はコサイン尺度
(cosine measure)であり、式COS
(v、w)で与えられる。ここでベクトルvがクエリを
表わし、ベクトルwがオブジェクトを表わしている。こ
れらのベクトルは各フラグメントが空間の1つの次元を
表わすような空間内に存在する。適合するOIDが見付
かった場合には、そのOIDはマップされたオブジェク
ト識別子として使用され、そのOIDは特徴抽出部50
4へ転送される。適合するOIDが見付からなかった場
合には、新規のオブジェクト識別子が選択されて、それ
が特徴抽出部504へ転送される。
Similarity comparator (similarity calculator) 51
2 receives the warehouse response message from communication module 510 and creates an insert message, which is forwarded to communication module 510. The similarity comparator 512 collects all responses from the warehouse for the object to which the identifier is mapped.
For each object in the response, the similarity comparator 512 determines the relevancy of each object identifier returned in the search. This determination of relevancy is made by comparing the degree of similarity between the object to which the identifier is mapped by the warehouse node and the object whose OID is returned. In one embodiment, the measure of similarity between the query and the object is a cosine measure, and the expression COS
(V, w). Here, the vector v represents a query, and the vector w represents an object. These vectors lie in space such that each fragment represents one dimension of space. If a matching OID is found, the OID is used as a mapped object identifier and the OID is
4 is transferred. If no matching OID is found, a new object identifier is selected and transferred to the feature extraction unit 504.

【0054】ここで図6を参照すると、インデックス・
ノード600はフラグメント・テーブル・モジュール6
02を有することができ、このフラグメント・テーブル
・モジュールがウェアハウス・メッセージ、挿入メッセ
ージ、単純サブクエリ・メッセージを通信モジュール6
04から受信する。ウェアハウス・メッセージの場合、
フラグメント・テーブル・モジュール602はHOFフ
ィールドのハッシュ値を用いてローカル・ハッシュ・テ
ーブル603の中の1つの値(1つのエントリ)を取り
出す。HOFフィールド内の形式指定子このとローカル
・ハッシュ・テーブルの中のこのエントリはフラグメン
ト・コンパレータ(フラグメント間の類似性を測るコン
ポーネント)606へ転送される。単純サブクエリ・メ
ッセージの場合、フラグメント・テーブル・モジュール
602はハッシュされたクエリ・フラグメントフィール
ド内のハッシュ値を用いてローカル・ハッシュ・テーブ
ル603のエントリを取り出す。ローカル・ハッシュ・
テーブル603のエントリはサブクエリ応答メッセージ
を用いてクエリ・プロセッサ608へ返される。挿入メ
ッセージの場合、フラグメント・テーブル・モジュール
602は挿入メッセージのOIDフィールド及び値フィ
ールドをローカル・ハッシュ・テーブル603のエント
リへ追加することでローカル・ハッシュ・テーブル60
3のエントリを変更する。
Referring now to FIG.
Node 600 is a fragment table module 6
02, and this fragment table module sends warehouse messages, insert messages, simple subquery messages to the communication module 6
04. For warehouse messages,
The fragment table module 602 retrieves one value (one entry) in the local hash table 603 using the hash value of the HOF field. This type specifier in the HOF field and this entry in the local hash table are forwarded to the fragment comparator 606, a component that measures similarity between fragments. For simple subquery messages, the fragment table module 602 retrieves an entry in the local hash table 603 using the hash value in the hashed query fragment field. Local hash
Entries in table 603 are returned to query processor 608 using a subquery response message. In the case of an insert message, the fragment table module 602 adds the OID and value fields of the insert message to entries in the local hash table
Change entry 3

【0055】フラグメント・コンパレータ606はフラ
グメント・テーブル・モジュール602からエントリを
受信する。比較関数はフラグメント・テーブル・モジュ
ール602から移転されたHOF形式指定子によって判
定される。比較関数を用いてフラグメント・テーブル・
モジュール602から移転されたエントリ内にあるOI
Dフィールド及び値フィールドの関連性を決定する。1
つの実施例において、比較関数は類似性重みを決定し、
もっとも大きな類似性重みを有するOIDが関連性を有
していると見なされる。関連性を有するOIDとその類
似性重みはウェアハウス応答メッセージを使用して通信
モジュール604へ移転される。
The fragment comparator 606 receives an entry from the fragment table module 602. The comparison function is determined by the HOF type specifier transferred from the fragment table module 602. Fragment table using comparison function
OI in entry transferred from module 602
Determine the relevance of the D and value fields. 1
In one embodiment, the comparison function determines a similarity weight,
The OID with the highest similarity weight is considered relevant. Relevant OIDs and their similarity weights are transferred to communication module 604 using a warehouse response message.

【0056】クエリ・パーサ(クエリ分解部)612は
メモリ613に格納されているクエリ計算ツリー(qu
ery computatuion tree)にクエ
リを分解(解析)するが、この計算ツリーは、複数のノ
ードとその相互の関連性との観点でもって指定されるデ
ータ構造である。クエリ計算ツリーのノードは内部ノー
ド又はリーフノードのどちらかである。内部ノードは1
つ以上の子ノードを有するノードである。内部ノードは
子ノードの結果をどのように組み合わせるべきかを指定
する。例えば、結果は加算されるか又は平均化されるこ
とがあり、又は標準偏差値の計算に使用されることがあ
る。リーフノードはその先に子ノードをいつも有してい
ないノードである。リーフノードは定数値又は単純なサ
ブクエリ・ノードのいずれかである。サブクエリ・ノー
ドは複数のコンポーネント・サブクエリ(compon
ent sub−query)を有することができる。
各コンポーネント・サブクエリも対応するクエリ計算ツ
リーを使用して指定される。クエリ計算ツリーはクエリ
・プロセッサ608へ移転される。
The query parser (query decomposing unit) 612 stores the query calculation tree (qu) stored in the memory 613.
The query is decomposed (analyzed) into an erroneous computation tree, and the computation tree is a data structure specified in terms of a plurality of nodes and their mutual relations. The nodes of the query computation tree are either internal nodes or leaf nodes. Internal node is 1
A node that has one or more child nodes. Internal nodes specify how to combine the results of the child nodes. For example, the results may be added or averaged, or used to calculate a standard deviation value. Leaf nodes are nodes that do not always have child nodes beyond them. Leaf nodes are either constant values or simple subquery nodes. The subquery node is composed of multiple component subqueries (compon
ent sub-query).
Each component subquery is also specified using a corresponding query computation tree. The query computation tree is transferred to the query processor 608.

【0057】クエリ・プロセッサ608はクエリ処理の
管理を担当する。クエリ・パーサからクエリ計算ツリー
を受信すると、このプロセッサはクエリ識別子(QI
D)をクエリへ割り当て、サブクエリを指定するリーフ
ノードの各々にサブクエリ識別子(SQID)を割り当
てる。コンポーネント・サブクエリを有していないサブ
クエリは単純サブクエリと呼ばれる。サブクエリは指定
されたインデックス・ノードへ通信モジュール604を
用いてサブクエリ・メッセージを送信することで処理さ
れる。指定された宛先インデックス・ノードにあるクエ
リ・プロセッサ608は、単純サブクエリ・メッセージ
をフラグメント・テーブル・モジュール602へ移転す
ることでサブクエリ・メッセージを処理し、モジュール
602はサブクエリ応答メッセージでもって応答する。
クエリ・プロセッサ608は次にもともとサブクエリ・
メッセージを送信したインデックス・ノードへこのサブ
クエリ応答メッセージを送信する。その結果、クエリ・
プロセッサ608はサブクエリ・メッセージとサブクエ
リ応答メッセージとの両方を送信し、かつ受信する。サ
ブクエリ応答メッセージが受信されると、クエリ計算ツ
リーの中で指定された処理が実行される。サブクエリが
コンポーネント・サブクエリを有する場合、このサブク
エリは追加サブクエリ(別のサブクエリ)の処理が必要
となる。クエリ全体(これらの全部のサブクエリと、
「ネストされたサブクエリ」と呼ばれるこれらのサブク
エリ等を含む)が計算されると、その結果がフォーマッ
トされ、このクエリを受信したときのフロントエンドへ
送信される。例えば、この結果はグラフ又はテーブルと
して与えられることがある。従って、クエリの各々又は
ネストされたサブクエリの各々がツリー内部の1つのレ
ベルに関連しているので、クエリ・プロセッサ608は
このツリー内部の全てのレベルのクエリの処理を担当す
る。
The query processor 608 is responsible for managing query processing. Upon receiving the query computation tree from the query parser, the processor determines the query identifier (QI
D) is assigned to the query, and a subquery identifier (SQID) is assigned to each of the leaf nodes specifying the subquery. A subquery without a component subquery is called a simple subquery. The subquery is processed by sending a subquery message using the communication module 604 to the designated index node. The query processor 608 at the designated destination index node processes the subquery message by transferring the simple subquery message to the fragment table module 602, which responds with a subquery response message.
Query processor 608 then uses the subquery
Send this subquery response message to the index node that sent the message. As a result, the query
Processor 608 sends and receives both subquery messages and subquery response messages. When the subquery response message is received, the processing specified in the query calculation tree is performed. If the subquery has a component subquery, this subquery requires the processing of an additional subquery (another subquery). The entire query (all of these subqueries,
Once these queries (including these subqueries called "nested subqueries") are computed, the results are formatted and sent to the front end when this query was received. For example, the result may be provided as a graph or table. Thus, since each of the queries or each of the nested subqueries is associated with one level within the tree, query processor 608 is responsible for processing all levels of queries within this tree.

【0058】図7は、例示的なコンピュータ・システム
800を使って従来のシステム・アーキテクチャを示し
たものである。ユーザ・コンピュータ、フロントエンド
・コンピュータ、及び、インデックス・ノードやウェア
ハウス・ノードを含むコンピュータ・ノードの各々は、
コンピュータ・システム800のインスタンスとして実
装できる。図7の例示的なコンピュータ・システムは説
明目的のみで議論するものであって、本発明の制限と見
なされるべきものではない。以下の説明では特定のコン
ピュータ・システムを記述する際に共通に使用される術
語を参照することがあるが、ここで説明する概念は図7
に図示してあるシステムとは異なるアーキテクチャを有
するシステムを含め、他のコンピュータ・システムにも
等しく当てはまる。
FIG. 7 illustrates a conventional system architecture using an exemplary computer system 800. Each of the user computer, front-end computer, and computer nodes, including index nodes and warehouse nodes,
It can be implemented as an instance of computer system 800. The exemplary computer system of FIG. 7 is discussed for illustrative purposes only, and should not be considered a limitation of the present invention. In the description that follows, reference may be made to terms commonly used when describing a particular computer system, but the concept described herein is illustrated in FIG.
This applies equally to other computer systems, including systems having a different architecture than the system shown in FIG.

【0059】コンピュータ・システム800は、従来の
マイクロプロセッサを含むことがある中央演算処理ユニ
ット(CPU)805、情報の一時的記憶のためのラン
ダム・アクセス・メモリ(RAM)810、情報の永久
記憶のためのリード・オンリー・メモリ(ROM)81
5を含む。メモリ・コントローラ820はシステムRA
M810を制御するために設けてある。バス・コントロ
ーラ825はバス830を制御するために設けてあり、
割り込みコントローラ835は他のシステム・コンポー
ネントからの各種割り込み信号を受信し処理するために
使用される。
Computer system 800 includes a central processing unit (CPU) 805, which may include a conventional microprocessor, a random access memory (RAM) 810 for temporary storage of information, and a permanent storage of information. -Only memory (ROM) 81 for
5 is included. The memory controller 820 controls the system RA
It is provided to control M810. A bus controller 825 is provided for controlling the bus 830,
Interrupt controller 835 is used to receive and process various interrupt signals from other system components.

【0060】大容量記憶はディスケット842、CD−
ROM847、又はハードディスク852によって提供
される。データとソフトウェアはクライアント・コンピ
ュータ800との間でリムーバブル(着脱可能)媒体例
えばディスケット842やCD−ROM847などを介
して交換できる。ディスケット842はコントローラ8
40によりバス830へ接続されているディスケットド
ライブ装置841に挿入できる。同様に、CD−ROM
847はコントローラ845でバス830へ接続されて
いるCD−ROMドライブ装置846へ挿入できる。最
後に、ハードディスク852は固定ディスクドライブ装
置851の一部であり、コントローラ850によりバス
830へ接続されている。
The mass storage is a diskette 842, CD-
Provided by the ROM 847 or the hard disk 852. Data and software can be exchanged with the client computer 800 via a removable (removable) medium, such as a diskette 842 or a CD-ROM 847. Diskette 842 is the controller 8
40 can be inserted into the diskette drive 841 connected to the bus 830. Similarly, CD-ROM
847 can be inserted into a CD-ROM drive 846 connected to the bus 830 by a controller 845. Finally, the hard disk 852 is a part of the fixed disk drive 851, and is connected to the bus 830 by the controller 850.

【0061】コンピュータ・システム800へのユーザ
入力は多数の装置により提供できる。例えば、キーボー
ド856やマウス857はキーボード及びマウス・コン
トローラ855によりバス830へ接続される。オーデ
ィオ・トランスデューサ896はマイクロホンとスピー
カの両方として機能するもので、オーディオ・コントロ
ーラ897によりバス830へ接続される。その他の入
力装置、例えばペンおよび/またはタブレットや、音声
入力用マイクロホン等、がバス803及び適当なコント
ローラを介してクライアント・コンピュータ800へ接
続できることは当業者には明白なはずである。DMAコ
ントローラ860はシステムRAM810へのダイレク
ト・メモリ・アクセスを実行するために設けてある。視
覚表示はビデオ・コントローラ865により生成され、
これがビデオ・ディスプレイ870を制御する。コンピ
ュータ・システム800はクライアント・コンピュータ
800をバス891経由でネットワーク895へ相互接
続できるようにするネットワーク・アダプタ890も含
む。ネットワーク895はローカル・エリア・ネットワ
ーク(LAN)、広域ネットワーク(WAN)、または
インターネットで、多数のネットワーク装置を相互接続
する汎用通信回線を使用する。
[0061] User input to computer system 800 can be provided by a number of devices. For example, a keyboard 856 and a mouse 857 are connected to the bus 830 by a keyboard and mouse controller 855. The audio transducer 896 functions as both a microphone and a speaker, and is connected to the bus 830 by the audio controller 897. It should be apparent to those skilled in the art that other input devices, such as pens and / or tablets, voice input microphones, etc., can be connected to client computer 800 via bus 803 and a suitable controller. DMA controller 860 is provided to perform direct memory access to system RAM 810. The visual display is generated by the video controller 865,
This controls the video display 870. Computer system 800 also includes a network adapter 890 that allows client computer 800 to be interconnected to network 895 via bus 891. Network 895 may be a local area network (LAN), a wide area network (WAN), or the Internet, using general-purpose communication lines that interconnect a number of network devices.

【0062】コンピュータ・システム800は一般にオ
ペレーティング・システム・ソフトウェアによって制御
調整される。コンピュータ・システム制御機能の中で
も、オペレーティング・システムはシステム資源の割り
当てを制御し、プロセス・スケジューリング、メモリ管
理、ネットワーキング及びI/Oサービス等のタスクを
実行する。
Computer system 800 is generally controlled and coordinated by operating system software. Among the computer system control functions, the operating system controls the allocation of system resources and performs tasks such as process scheduling, memory management, networking and I / O services.

【0063】前述した実施態様のコンポーネントのソフ
トウェアでの実装は、コンピュータで読み取り可能な媒
体例えば図7のディスケット842、CD−ROM84
7、ROM815、は固定ディスク852等の有形媒体
上に固定されるか又は媒体891上でネットワーク89
5に接続された通信アダプタ890等のモデム又はその
他のインタフェース装置経由で通信可能なコンピュータ
命令及びルーチンを含むことができる。媒体891は光
通信回線又はハードワイヤ通信回線等を含みこれに限定
されない有形媒体とするか、又はマイクロ波、赤外線等
を含みこれに限定されない無線技術又はその他の通信技
術のいずれかで実装される。これはまたインターネット
でも良い。送信された場合、ソフトウェア・コンポーネ
ントは搬送波に埋め込まれたデジタル信号の形をとるこ
とができる。コンピュータに対する一連の命令は本発明
に関して本明細書で前述した機能の全部又は一部を実現
する。このようなコンピュータに対する命令が多くのコ
ンピュータ・アーキテクチャ又はオペレーティング・シ
ステムで使用される多数のプログラミング言語で書ける
ことは当業者には理解されよう。更に、こうした命令は
半導体メモリ装置、磁気メモリ装置、光メモリ装置又は
その他のメモリ装置を含みこれに限定されない現在又は
将来の何らかのメモリ技術を用いて記憶したり、光通
信、赤外線通信、マイクロ波通信又はその他の送信技術
を含みこれに限定されない現在又は将来の何らかの通信
技術を用いて送信することができる。このようなコンピ
ュータ・プログラム製品は例えばシュリンクラップした
ソフトウェア等印刷文書又は電子文書を添付したリムー
バブル媒体として配布したり、例えばシステムROM又
は固定ディスク上でコンピュータ・システムに導入済み
としたり、又は例えばインターネットやウェブ等のネッ
トワーク上のサーバ又は電子掲示板から配布したりする
ことができる。
The software implementation of the components of the embodiments described above can be implemented on a computer readable medium, such as diskette 842, CD-ROM 84 in FIG.
7, the ROM 815 is fixed on a tangible medium such as a fixed disk 852, or a network 89
5 may include computer instructions and routines that can be communicated via a modem or other interface device, such as a communication adapter 890. The medium 891 may be a tangible medium including, but not limited to, an optical communication line or a hard-wired communication line, or may be implemented with any wireless or other communication technology including, but not limited to, microwaves, infrared, etc. . This can also be the Internet. When transmitted, the software component may take the form of a digital signal embedded in a carrier. The series of instructions to the computer implements all or part of the functions described herein above in connection with the present invention. Those skilled in the art will appreciate that the instructions for such a computer may be written in many programming languages used in many computer architectures or operating systems. Further, such instructions may be stored using any current or future memory technology, including but not limited to semiconductor memory devices, magnetic memory devices, optical memory devices, or other memory devices, optical communication, infrared communication, microwave communication or The transmission may be made using any current or future communication technology, including but not limited to other transmission technologies. Such computer program products may be distributed, for example, as removable media with attached printed or electronic documents, such as shrink-wrapped software, installed on computer systems on, for example, a system ROM or fixed disk, or may be installed on the Internet, It can be distributed from a server on a network such as the web or an electronic bulletin board.

【0064】[0064]

【発明の効果】本発明の代表的な実施態様を開示した
が、本発明の精神及び範囲から逸脱することなく本発明
の利点の幾つかを実現し得るような各種の変化及び変更
を成し得ることは当業者には明らかであろう。同一機能
を実行する他のコンポーネントを適宜置き換え得ること
は当業者には明らかであろう。更に、本発明の方法は適
当な処理装置命令を用いて全てソフトウェアによる実装
として、又はハードウェア論理とソフトウェア論理の組
合せを使用して同一の結果を実現するハイブリッド実装
としてのいずれかで実現することができる。更に、メモ
リのサイズ、特定の機能を実現するために使用される論
理および/または命令の特定の構成、並びに発明の概念
に対するその他の変更等の態様は、添付の請求項により
包含されることを意図している。従って本発明は請求項
の範囲により示されるとおりにのみ制限されるものとし
て解釈されるべきものである。
Having described representative embodiments of the present invention, various changes and modifications can be made to achieve some of the advantages of the present invention without departing from the spirit and scope of the invention. Obtaining will be apparent to those skilled in the art. It will be apparent to those skilled in the art that other components that perform the same function may be replaced as appropriate. Further, the method of the present invention may be implemented either entirely as a software implementation using appropriate processor instructions, or as a hybrid implementation that achieves the same result using a combination of hardware and software logic. Can be. Furthermore, aspects such as the size of the memory, the particular organization of the logic and / or instructions used to implement a particular function, and other changes to the inventive concept are intended to be covered by the appended claims. Intended. Accordingly, the invention is to be construed as limited only as indicated by the appended claims.

【図面の簡単な説明】[Brief description of the drawings]

【図1】図1は、本発明による分散コンピュータ・デー
タベース・システムの1つの実施例のブロック図であ
る。
FIG. 1 is a block diagram of one embodiment of a distributed computer database system according to the present invention.

【図2】図2は、フローチャートの形での図1の分散コ
ンピュータ・データベース・システムのブロック図であ
って、この図には別の供給源から本発明の1つの実施例
によるデータ・ウェアハウスへ情報をダウンロードする
方法が示されている。
FIG. 2 is a block diagram of the distributed computer database system of FIG. 1 in the form of a flowchart, which illustrates data warehouses from another source according to one embodiment of the present invention. It shows how to download information to.

【図3】図3は、フローチャートの形での図1の分散コ
ンピュータ・データベース・システムのブロック図であ
って、この図は本発明の実施例によるクエリへの応答方
法を示す。
FIG. 3 is a block diagram of the distributed computer database system of FIG. 1 in the form of a flowchart, which illustrates a method of responding to a query according to an embodiment of the present invention.

【図4】図4aから図4eは各々、図1〜図3の実施例
に関連して使用されるウェアハウス・メッセージ、ウェ
アハウス応答メッセージ、挿入メッセージ、サブクエリ
・メッセージ、サブクエリ応答メッセージのフォーマッ
トを示すブロック図である。
FIGS. 4a to 4e respectively illustrate the format of a warehouse message, a warehouse response message, an insert message, a subquery message, a subquery response message used in connection with the embodiment of FIGS. It is a block diagram shown.

【図5】図5は、本発明の1つの実施例による図1、図
2、図3のホーム・ノードの代表的な1つのブロック図
である。
FIG. 5 is a representative block diagram of the home node of FIGS. 1, 2 and 3 according to one embodiment of the present invention.

【図6】図6は、本発明の1つの実施例による図1、図
2、図3のインデックス・ノードの代表的な1つのブロ
ック図である。
FIG. 6 is a representative block diagram of the index nodes of FIGS. 1, 2 and 3 according to one embodiment of the present invention.

【図7】図7は、ユーザ・コンピュータ、インデックス
・ノード、ウェアハウス・ノードの各々の例示的実施例
によるコンピュータ・システムのブロック図である。
FIG. 7 is a block diagram of a computer system according to an exemplary embodiment of each of a user computer, an index node, and a warehouse node.

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】 複数のインデックス・ノードと複数のウ
ェアハウス・ノードがネットワークにより接続された分
散コンピュータ・データベース・システムにおいて、ク
エリを用いる知識抽出に資するような方法でオブジェク
ト又はオブジェクトのロケーションをウェアハウスの中
に格納する方法であって、該方法が、 A)ウェアハウス・ノードが、別のデータベースからダ
ウンロードしたオブジェクトから第1のグループの複数
の特徴を抽出するステップと、 B)前記抽出したオブジェクト特徴の各々を複数のオブ
ジェクト特徴フラグメントにフラグメント化するステッ
プと、 C)前記ウェアハウス・ノードが前記第1のグループの
複数のオブジェクト特徴の前記オブジェクト特徴フラグ
メントの各々をハッシュするステップであって、前記ハ
ッシュされたオブジェクト特徴フラグメントの各々が第
1の部分と第2の部分とを有することを特徴とするステ
ップと、 D)前記ウェアハウス・ノードが、前記第1のグループ
の複数の特徴フラグメントの前記ハッシュされたオブジ
ェクト特徴フラグメントの各々を前記ハッシュされたオ
ブジェクト特徴の各々の前記第1の部分で示された前記
複数のインデックス・ノードの対応するものへ送信する
ステップと、 E)前記インデックス・ノードが、前記インデックス・
ノード上に配置されたローカル・ハッシュ・テーブルに
従ってデータにアクセスするために、前記対応するハッ
シュされたオブジェクト特徴フラグメントの前記第2の
部分を用いるステップと、 F)前記対応するハッシュされたオブジェクト特徴フラ
グメントに従ってデータにアクセスする前記インデック
ス・ノードの各々が、前記アクセスしたデータに対応す
る複数のオブジェクト識別子を前記ウェアハウス・ノー
ドへ返すステップと、 G)前記ウェアハウス・ノードが、前記複数のオブジェ
クト識別子からのオブジェクト識別子を前記オブジェク
トに割り当てるか、又は、未だ使用されていないオブジ
ェクト識別子を前記オブジェクトに割り当てるかを判断
するステップと、 H)前記ウェアハウス・ノードが、前記判断に従って前
記オブジェクトにオブジェクト識別子を割り当てるステ
ップと、 I)前記ウェアハウス・ノードが、前記オブジェクトか
ら第2のグループの複数の特徴を抽出するステップと、 J)前記抽出された第2のグループの複数のオブジェク
ト特徴の各々を複数のオブジェクト特徴フラグメントに
フラグメント化するステップと、 K)前記ウェアハウス・ノードが前記第2のグループの
複数のオブジェクト特徴の前記オブジェクト特徴フラグ
メントの各々をハッシュするステップであって、前記ハ
ッシュされたオブジェクト特徴フラグメントが第1の部
分と第2の部分とを有することを特徴とするステップ
と、 L)前記ウェアハウス・ノードが、前記ハッシュされた
オブジェクト特徴フラグメントの各々の前記第1の部分
で示された前記複数のインデックス・ノードの対応する
ものに前記第2のグループの複数のオブジェクト特徴フ
ラグメントの前記ハッシュされたオブジェクト特徴フラ
グメントの各々を送信するステップと、 M)前記インデックス・ノードが、前記インデックス・
ノードに配置されたローカル・ハッシュ・テーブルに従
ってデータを格納するために、前記対応するハッシュさ
れたオブジェクト特徴フラグメントの前記第2の部分を
用いるステップとを含むことを特徴とする方法。
1. In a distributed computer database system in which a plurality of index nodes and a plurality of warehouse nodes are connected by a network, an object or a location of an object is warehoused in a manner conducive to knowledge extraction using a query. Wherein the method comprises: A) a warehouse node extracting a plurality of features of a first group from an object downloaded from another database; and B) the extracted object. Fragmenting each of the features into a plurality of object feature fragments; C) the warehouse node hashing each of the object feature fragments of the first group of the plurality of object features; D) wherein each of the hashed object feature fragments has a first portion and a second portion; and D) the warehouse node comprises a plurality of feature fragments of the first group. Transmitting each of the hashed object feature fragments to a corresponding one of the plurality of index nodes indicated in the first portion of each of the hashed object features; and E) the index node comprises: , The index
Using the second portion of the corresponding hashed object feature fragment to access data according to a local hash table located on the node; and F) the corresponding hashed object feature fragment. G) returning to the warehouse node a plurality of object identifiers corresponding to the accessed data; and G) the warehouse node from the plurality of object identifiers Determining whether to assign the object identifier of the object to the object or to assign an object identifier that is not yet used to the object; H) the warehouse node according to the determination, Assigning an object identifier to the object; I) the warehouse node extracting a second group of features from the object; J) a plurality of object features of the extracted second group. Fragmenting each of the object features into a plurality of object feature fragments; K) the warehouse node hashing each of the object feature fragments of the second group of the plurality of object features, wherein the hashing comprises: And L) wherein the warehouse node determines that the first portion of each of the hashed object feature fragments comprises: a first portion of each of the hashed object feature fragments; The plurality of indexes indicated by Transmitting the scan nodes to corresponding ones of each of said hashed object features fragments of the plurality of objects, wherein a fragment of said second group, M) said index node, the index
Using the second portion of the corresponding hashed object feature fragment to store data according to a local hash table located at the node.
【請求項2】 前記ウェアハウス・ノードが、更に、前
記第1のグループの複数のオブジェクト識別子を返すス
テップの後に、前記アクセスされたデータと前記オブジ
ェクトとの間の類似性の尺度を判定するステップを含む
ことを特徴とする請求項1に記載の方法。
2. The warehouse node further determines a measure of similarity between the accessed data and the object after returning a plurality of object identifiers of the first group. The method of claim 1, comprising:
【請求項3】 前記類似性の尺度は、前記アクセスされ
たデータと前記オブジェクトの双方が保有する特徴に基
づいて、かつ、前記オブジェクトだけが保有する特徴に
基づいて類似性関数により判断されることを特徴とする
請求項2に記載の方法。
3. The similarity measure is determined by a similarity function based on features possessed by both the accessed data and the object and based on features owned only by the object. The method according to claim 2, characterized in that:
【請求項4】 複数のインデックス・ノードがネットワ
ークにより接続された分散コンピュータ・データベース
・システムにおいてクエリを用いるデータ・マイニング
の方法であって、該方法が、 A)前記複数のインデックス・ノードの第1のものを選
択するステップであって、これをクエリのホーム・ノー
ドと称することを特徴とするステップと、 B)前記ホーム・ノードがユーザによるクエリから複数
のサブクエリを抽出するステップであって、前記サブク
エリの各々はサブクエリ特徴と複数のサブクエリと計算
仕様とを含むことを特徴とするステップと、 C)前記サブクエリ特徴の各々を複数のサブクエリ特徴
フラグメントにフラグメント化するステップと、 D)前記ホーム・ノードが前記サブクエリ特徴フラグメ
ントの各々の前記サブクエリ特徴フラグメントの各々を
ハッシュするステップであって、前記ハッシュされたサ
ブクエリ特徴フラグメントの各々が第1の部分と第2の
部分とを有することを特徴とするステップと、 E)前記ホーム・ノードが、前記ハッシュされたサブク
エリ特徴フラグメントを、前記ハッシュされたサブクエ
リ特徴フラグメントの各々の前記第1の部分で示された
前記複数のインデックス・ノードの対応するものへ送信
するステップと、 F)前記インデックス・ノードが、前記インデックス・
ノード上に配置されたローカル・ハッシュ・テーブルに
従いデータにアクセスするために、前記ハッシュされた
サブクエリ特徴フラグメントの各々の前記第2の部分を
用いるステップと、 G)前記インデックス・ノードが前記ホーム・ノードに
より送信された前記対応するサブクエリに含まれた前記
複数のサブクエリの各サブクエリを反復的に評価するス
テップであって、前記インデックス・ノードが前記複数
のサブクエリの前記サブクエリのホーム・ノードとして
機能することを特徴とするステップと、 H)前記インデックス・ノードが、前記アクセスされた
データと前記ホーム・ノードにより送信された前記対応
するサブクエリに含まれた前記複数のサブクエリの前記
サブクエリの各々の前記反復的評価により判定された情
報とに従って、前記ホーム・ノードにより送信された前
記対応するサブクエリの前記計算仕様に従い情報を計算
するステップと、 I)前記インデックス・ノードの各々が、前記ホーム・
ノードへ前記情報を返すステップとを含むことを特徴と
する方法。
4. A method of data mining using queries in a distributed computer database system in which a plurality of index nodes are connected by a network, the method comprising: A) a first of the plurality of index nodes. And B) extracting a plurality of sub-queries from a query by a user, wherein the home node extracts a plurality of sub-queries from a query by a user. C) fragmenting each of the subquery features into a plurality of subquery feature fragments; D) the home node. Each of the subqueries includes a subquery feature, a plurality of subqueries, and a calculation specification. Is the said each of the subquery feature fragments Hashing each of the subquery feature fragments, wherein each of the hashed subquery feature fragments has a first portion and a second portion; and E) the home node Transmitting the hashed subquery feature fragments to a corresponding one of the plurality of index nodes indicated in the first portion of each of the hashed subquery feature fragments; The node has the index
Using said second portion of each of said hashed subquery feature fragments to access data according to a local hash table located on a node; and G) said index node is said home node. Iteratively evaluating each subquery of said plurality of subqueries contained in said corresponding subquery sent by said index node, said index node serving as a home node of said subquery of said plurality of subqueries H) the index node comprises: the iterative search of each of the subqueries of the plurality of subqueries included in the accessed data and the corresponding subqueries sent by the home node. According to the information determined by the evaluation , Calculating the information in accordance with the calculated specifications subquery said corresponding transmitted by the home node, I) each of said index nodes, the home
Returning the information to a node.
【請求項5】 前記サブクエリを前記クエリから抽出す
るステップの前に、前記ユーザからの前記クエリを前記
ホーム・ノードで受信するステップを更に含むことを特
徴とする請求項4に記載の方法。
5. The method of claim 4, further comprising, before the step of extracting the subquery from the query, receiving the query from the user at the home node.
【請求項6】 情報オブジェクト又は情報オブジェクト
のロケーションをウェアハウスの中に格納するための分
散コンピュータ・データベース・システムであって、 A)複数のウェアハウス・ノードと複数のインデックス
・ノードを含むシステムであって、前記複数のウェアハ
ウス・ノードと前記複数のインデックス・ノードとがネ
ットワークにより接続されていることを特徴とし、 B)前記ウェアハウス・ノードの各々は、オブジェクト
をダウンロードしたときに、前記オブジェクトから第1
のグループの複数の特徴を抽出し、前記オブジェクト特
徴の各々をオブジェクト特徴フラグメントにフラグメン
ト化し、前記オブジェクト特徴フラグメントの各々をハ
ッシュして第1の部分と第2の部分とを有するハッシュ
されたオブジェクト特徴フラグメントとし、前記ハッシ
ュされたオブジェクト特徴フラグメントの前記第1の部
分で示された前記複数のインデックス・ノードの対応す
るものへ前記ハッシュされたオブジェクト特徴フラグメ
ントの各々を送信することを特徴とし、 C)前記インデックス・ノードの各々が、前記ハッシュ
されたオブジェクト特徴フラグメントの前記第2の部分
を用いて、前記インデックス・ノードに配置されたロー
カル・ハッシュ・テーブルに従いデータにアクセスし、
前記アクセスされたデータに対応する複数のオブジェク
ト識別子を前記ウェアハウス・ノードへ返すことを特徴
とし、 D)前記ウェアハウス・ノードが、前記複数のオブジェ
クト識別子の前記オブジェクト識別子の1つ又は未だ使
用されていないオブジェクト識別子のいずれかを前記オ
ブジェクトに割り当て、前記オブジェクトから第2のグ
ループの複数の特徴を抽出し、前記第2のグループの複
数の特徴の前記抽出された特徴の各々を複数のオブジェ
クト特徴フラグメントにフラグメント化し、前記第2の
グループの複数のオブジェクト特徴の前記オブジェクト
特徴フラグメントの各々をハッシュして第1の部分と第
2の部分とを有するハッシュされたオブジェクト特徴と
し、前記ハッシュされたオブジェクト特徴フラグメント
の前記第1の部分で示された前記複数のインデックス・
ノードの対応するものへ前記ハッシュされたオブジェク
ト特徴フラグメントの各々を送信することを特徴とし、 E)前記インデックス・ノードの各々が、前記ハッシュ
されたオブジェクト特徴フラグメントの前記第2の部分
を使用して、前記インデックス・ノード上に配置された
ローカル・ハッシュ・テーブルに従いオブジェクト又は
オブジェクトのロケーションを格納することを特徴とす
る分散コンピュータ・データベース・システム。
6. A distributed computer database system for storing information objects or locations of information objects in a warehouse, the system comprising: A) a plurality of warehouse nodes and a plurality of index nodes. Wherein the plurality of warehouse nodes and the plurality of index nodes are connected by a network, and B) each of the warehouse nodes, when downloading an object, From first
Extracting a plurality of features of a group of the object features, fragmenting each of the object features into an object feature fragment, hashing each of the object feature fragments, and hashing the object feature having a first portion and a second portion. Transmitting each of said hashed object feature fragments to a corresponding one of said plurality of index nodes indicated in said first portion of said hashed object feature fragments; C) Each of the index nodes uses the second portion of the hashed object feature fragment to access data according to a local hash table located at the index node;
Returning a plurality of object identifiers corresponding to the accessed data to the warehouse node; and D) the warehouse node uses one of the object identifiers of the plurality of object identifiers or is still in use. Assigning any of the unidentified object identifiers to the object, extracting a second group of features from the object, and assigning each of the extracted features of the second group of features to a plurality of object features. Fragmenting into a fragment, hashing each of said object feature fragments of said plurality of object features of said second group into a hashed object feature having a first part and a second part, said hashed object The first of the feature fragments The plurality of indexes indicated by the part
Sending each of said hashed object feature fragments to a corresponding one of the nodes; E) each of said index nodes using said second portion of said hashed object feature fragment Storing an object or an object location according to a local hash table located on said index node.
【請求項7】 前記ウェアハウス・ノードは前記オブジ
ェクトへオブジェクト識別子を割り当てるときに使用す
るための類似性尺度であって、前記アクセスされたデー
タと前記オブジェクトとの間の類似性尺度を判定するこ
とを特徴とする請求項6に記載の分散コンピュータ・デ
ータベース・システム。
7. The warehouse node determines a similarity measure for use in assigning an object identifier to the object, the similarity measure between the accessed data and the object. 7. The distributed computer database system according to claim 6, wherein:
【請求項8】 前記ウェアハウス・ノードは、前記アク
セスされたデータと前記オブジェクトとの双方により保
有された特徴と前記オブジェクトにより保有された特徴
により決定された類似性関数を用いて類似性を測定する
ことを特徴とする請求項7に記載の方法。
8. The warehouse node measures similarity using a feature held by both the accessed data and the object and a similarity function determined by the feature held by the object. The method of claim 7, wherein
【請求項9】 データ・マイニング・ツールを有し、ユ
ーザからのクエリを処理するための分散コンピュータ・
データベース・システムであって、 A)ネットワークにより接続された複数のインデックス
・ノードを含み、 B)前記インデックス・ノードの各々であって前記クエ
リのホーム・ノードと称されたノードは、ユーザからの
クエリを受信すると、前記クエリから複数のサブクエリ
と前記サブクエリの各々から複数のサブクエリ特徴とを
抽出し、前記サブクエリ特徴の各々を複数のサブクエリ
特徴フラグメントにフラグメント化し、前記複数のサブ
クエリの前記サブクエリ特徴をハッシュして第1の部分
と第2の部分を有するハッシュされたサブクエリ特徴と
し、前記ハッシュされたサブクエリ特徴フラグメントの
前記第1の部分で示された前記多数のインデックス・ノ
ードの対応するものへ前記ハッシュされたサブクエリ特
徴フラグメントの各々を送信することを特徴とし、 C)さらに、前記インデックス・ノードの各々は、前記
ハッシュされたサブクエリ特徴フラグメントの前記第2
の部分を用いて、前記インデックス・ノード上に配置さ
れたローカル・ハッシュ・テーブルに従ってデータにア
クセスし、前記対応するサブクエリに含まれた各サブク
エリを反復的に評価し、前記アクセスされたデータと前
記反復的評価で決定された情報とに従って情報を計算
し、前記情報を前記ホーム・ノードへ返すことを特徴と
する分散コンピュータ・データベース・システム。
9. A distributed computer having a data mining tool for processing queries from users.
A database system comprising: A) a plurality of index nodes connected by a network; and B) each of said index nodes, referred to as a home node of said query, comprising a query from a user. Receiving a plurality of subqueries from the query and a plurality of subquery features from each of the subqueries, fragmenting each of the subquery features into a plurality of subquery feature fragments, and hashing the subquery features of the plurality of subqueries. Into a hashed subquery feature having a first portion and a second portion, and hashing the hashed subquery feature fragment to a corresponding one of the plurality of index nodes indicated in the first portion of the fragment. Of the subquery feature fragment Characterized by transmitting the s, C) In addition, each of the index node, the second of said hashed subqueries feature fragment
Accessing data according to a local hash table located on the index node, iteratively evaluating each subquery included in the corresponding subquery, using the accessed data and the A distributed computer database system comprising: calculating information according to information determined by iterative evaluation; and returning the information to the home node.
【請求項10】 ウェアハウス化とデータ・マイニング
のための分散コンピュータ・データベース・システムで
あって、 A)複数のウェアハウス・ノードと複数のインデックス
・ノードとを含み、前記複数のウェアハウス・ノードと
前記複数のインデックス・ノードとはネットワークによ
り接続されていることを特徴とし、 B)前記ウェアハウス・ノードの各々は、ダウンロード
・コマンドを受信すると、前記ダウンロード・コマンド
に応答して予め定められたタスクをキューに入れること
を特徴とし、 C)キューに入れられたダウンロード・タスクは、ダウ
ンロード・コマンドに応答して、前記ダウンロード・コ
マンドによりダウンロードされたオブジェクトから第1
のグループの複数の特徴を抽出し、前記オブジェクト特
徴の各々を複数のオブジェクト特徴フラグメントにフラ
グメント化し、前記第1のグループの複数のオブジェク
ト特徴の前記オブジェクト特徴フラグメントの各々をハ
ッシュして第1の部分と第2の部分とを有するハッシュ
されたオブジェクト特徴フラグメントとし、前記ハッシ
ュされたオブジェクト特徴フラグメントの各々を含む取
り出しメッセージを、前記ハッシュされたオブジェクト
特徴フラグメントの前記第1の部分で示された前記複数
のインデックス・ノードの対応するものへ送信すること
を特徴とし、 D)前記インデックス・ノードは、前記取り出しメッセ
ージを受信すると、前記ハッシュされたオブジェクト特
徴フラグメントの前記第2の部分を使用して前記インデ
ックス・ノード上に配置されたローカル・ハッシュ・テ
ーブルに従ってデータにアクセスし、前記アクセスした
データに対応する複数のオブジェクト識別子を返すメッ
セージを前記ウェアハウス・ノードへ送信することを特
徴とし、 E)前記ウェアハウス・ノードは、前記複数のインデッ
クス・ノードからの前記複数のオブジェクト識別子を受
信すると、前記複数のオブジェクト識別子の前記オブジ
ェクト識別子の1つ又は未だ使用されていないオブジェ
クト識別子のいずれかを前記オブジェクトに割り当て、
前記オブジェクトから第2のグループの複数の特徴を抽
出し、前記第2のグループの複数のオブジェクト特徴の
前記オブジェクト特徴の各々を複数のオブジェクト特徴
フラグメントにフラグメント化し、前記第2のグループ
の複数のオブジェクト特徴フラグメントの前記オブジェ
クト特徴フラグメントの各々をハッシュして第1の部分
と第2の部分とを有するハッシュされたオブジェクト特
徴フラグメントとし、前記ハッシュされたオブジェクト
特徴フラグメントの前記第1の部分によって示された前
記複数のインデックス・ノードの対応するものへ前記ハ
ッシュされたオブジェクト特徴フラグメントの各々を含
む挿入メッセージを送信することを特徴とし、 F)前記インデックス・ノードは、前記挿入メッセージ
を受信すると、前記ハッシュされたオブジェクト特徴フ
ラグメントの前記第2の部分を使用して、前記インデッ
クス・ノード上に配置されたローカル・ハッシュ・テー
ブルに従いデータを格納することを特徴とする分散コン
ピュータ・データベース・システム。
10. A distributed computer database system for warehousing and data mining, comprising: A) a plurality of warehouse nodes and a plurality of index nodes, wherein the plurality of warehouse nodes. And the plurality of index nodes are connected by a network. B) Each of the warehouse nodes, upon receiving the download command, responds to the download command by a predetermined one. C) queuing the task, C) queuing the download task in response to the download command, a first task from the object downloaded by the download command.
Extracting a plurality of features of the group of the first group, fragmenting each of the object features into a plurality of object feature fragments, hashing each of the object feature fragments of the plurality of object features of the first group to form a first portion And a retrieval message including each of the hashed object feature fragments as a hashed object feature fragment having a second portion and a second portion indicated by the first portion of the hashed object feature fragment. D) the index node, upon receiving the retrieval message, using the second portion of the hashed object feature fragment to transmit the index to the corresponding one of the index nodes. E) accessing the data according to a local hash table located on the warehouse node, and transmitting a message returning a plurality of object identifiers corresponding to the accessed data to the warehouse node; The warehouse node, upon receiving the plurality of object identifiers from the plurality of index nodes, assigns either one of the object identifiers of the plurality of object identifiers or an unused object identifier to the object. allocation,
Extracting a plurality of features of a second group from the object, fragmenting each of the object features of the plurality of object features of the second group into a plurality of object feature fragments, Hashing each of the object feature fragments of the feature fragment into a hashed object feature fragment having a first portion and a second portion, indicated by the first portion of the hashed object feature fragment Transmitting an insert message including each of the hashed object feature fragments to a corresponding one of the plurality of index nodes; F) the index node, upon receiving the insert message, Using the second portion of the stored object feature fragment to store data according to a local hash table located on the index node.
【請求項11】 前記前記ウェアハウス・ノードは、前
記オブジェクトへオブジェクト識別子を割り当てるとき
に使用するための類似性尺度であって、前記アクセスさ
れたデータと前記オブジェクトとの間の類似性尺度を判
定することを特徴とする請求項10に記載の分散コンピ
ュータ・データベース・システム。
11. The warehouse node determines a similarity measure for use in assigning an object identifier to the object, the similarity measure between the accessed data and the object. The distributed computer database system according to claim 10, wherein:
【請求項12】 前記ウェアハウス・ノードは、前記ア
クセスされたデータと前記オブジェクトとの双方が保有
する特徴と、前記オブジェクトにより保有された特徴と
により決定された類似性関数を用いて類似性を測定する
ことを特徴とする請求項11に記載の方法。
12. The warehouse node determines similarity using a similarity function determined by a feature held by both the accessed data and the object and a feature held by the object. The method according to claim 11, wherein the measurement is performed.
【請求項13】 データ・マイニング・ツールを有し、
ユーザからのクエリを処理するための分散コンピュータ
・データベース・システムであって、 A)ネットワークにより接続された複数のインデックス
・ノードを含み、 B)前記インデックス・ノードの各々は、ユーザからコ
マンドを受信すると、前記インデックス・ノードが前記
コマンドのホーム・ノードと称され、前記コマンドに応
答して予め定められたタスクをキューに入れることを特
徴とし、 C)キューに入れられたクエリ・タスクは、前記ユーザ
からのクエリ・コマンドに応答して、前記クエリ・コマ
ンドに含まれたクエリから複数のサブクエリを抽出し、
かつ、前記抽出されたサブクエリの各々から複数のサブ
クエリ特徴を抽出し、前記サブクエリ特徴の各々を複数
のサブクエリ特徴フラグメントにフラグメント化し、前
記サブクエリ特徴フラグメントの各々をハッシュして第
1の部分と第2の部分とを有するハッシュされたサブク
エリ特徴フラグメントとし、前記ハッシュされたサブク
エリ特徴フラグメントの前記第1の部分によって示され
た前記複数のインデックス・ノードの対応するものへ前
記ハッシュされたサブクエリ特徴フラグメントの各々を
含むサブクエリ・メッセージを送信することを特徴と
し、 D)前記インデックス・ノードは、前記サブクエリ・メ
ッセージを受信すると、前記ハッシュされたサブクエリ
特徴フラグメントの前記第2の部分を使用して、前記イ
ンデックス・ノード上に配置されたローカル・ハッシュ
・テーブルに従ってデータにアクセスし、前記対応する
サブクエリに含まれた各サブクエリを反復的に評価し、
前記アクセスされたデータと前記反復的評価で決定され
た情報とに従って情報を計算し、前記情報を返すメッセ
ージを前記ホーム・ノードへ送信することを特徴とする
分散コンピュータ・データベース・システム。
13. Having a data mining tool,
A distributed computer database system for processing a query from a user, comprising: A) a plurality of index nodes connected by a network; B) each of said index nodes receiving a command from a user. The index node is referred to as the home node of the command and queues a predetermined task in response to the command; C) the queued query task is Extracting a plurality of subqueries from the query contained in the query command in response to the query command from
Extracting a plurality of subquery features from each of the extracted subqueries; fragmenting each of the subquery features into a plurality of subquery feature fragments; hashing each of the subquery feature fragments to form a first portion and a second portion. Each of the hashed subquery feature fragments to a corresponding one of the plurality of index nodes indicated by the first portion of the hashed subquery feature fragment D) the index node, upon receiving the subquery message, uses the second portion of the hashed subquery feature fragment to transmit the index query message. No Accessing data according to a local hash table located on the code, iteratively evaluating each subquery included in the corresponding subquery,
A distributed computer database system, comprising: calculating information according to the accessed data and the information determined by the iterative evaluation; and transmitting a message returning the information to the home node.
【請求項14】 前記クエリ・メッセージは、前記ユー
ザからの前記クエリ・コマンドに含まれたクエリに応答
して前記インデックス・ノードからの予め定められたデ
ータを要求することを特徴とする請求項13に記載の方
法。
14. The query message according to claim 13, wherein the query message requests predetermined data from the index node in response to a query included in the query command from the user. The method described in.
【請求項15】 データベースからの情報取り出しのた
めのクエリを処理する情報取り出し装置であって、 A)インデックスの中に複数の特徴と特徴フラグメント
を見付け出すための機構と、 B)前記見付け出す機構と結合されて、前記クエリに含
まれる複数のレベルの複数のサブクエリを識別し、前記
見付け出された特徴及び特徴フラグメントの各々を用い
て前記サブクエリを反復的に評価するための評価機構
と、 C)前記評価機構と結合された機構であって、前記クエ
リの全体に対して計算した結果が得られた後に前記クエ
リとサブクエリの反復的評価の複数の結果を収集し、か
つ、メモリに格納するための機構とを含むことを特徴と
する情報取り出し装置。
15. An information retrieval apparatus for processing a query for retrieving information from a database, comprising: A) a mechanism for finding a plurality of features and feature fragments in an index; and B) a mechanism for finding the information. An evaluation mechanism for identifying a plurality of levels of subqueries included in the query and iteratively evaluating the subquery using each of the found features and feature fragments; C A) a mechanism coupled to the evaluation mechanism, wherein a plurality of results of the iterative evaluation of the query and the subquery are collected after a result calculated for the entire query is obtained and stored in a memory; And a mechanism for extracting the information.
【請求項16】 データベースから情報を取り出すため
のクエリを処理するための方法であって、 A)インデックスの中に複数の特徴と特徴フラグメント
とを見付け出し、 B)前記クエリに含まれる複数レベルの複数のサブクエ
リを識別して前記見付け出された特徴及び特徴フラグメ
ントの各々を用いて前記サブクエリを反復的に評価し、 C)前記クエリの全体に対して計算した結果が得られた
後に前記クエリ及びサブクエリの反復的評価の複数の結
果を収集し格納することを含むことを特徴とする方法。
16. A method for processing a query for retrieving information from a database, the method comprising: A) finding a plurality of features and feature fragments in an index; and B) finding a plurality of levels of the query. Identifying a plurality of subqueries and iteratively evaluating the subqueries using each of the found features and feature fragments; and C) obtaining the calculated results for the entire query and A method comprising collecting and storing a plurality of results of an iterative evaluation of a subquery.
【請求項17】 データベースから情報を取り出すため
のクエリを処理するコンピュータ・プログラム製品であ
って、前記コンピュータ・プログラム製品はコンピュー
タで読み取り可能な媒体上に実現されたコンピュータで
実行可能なプログラムを含み、前記コンピュータで実行
可能なプログラムは、 A)インデックスの中に複数の特徴及び特徴フラグメン
トを見付け出すための第1のコード部分と、 B)前記クエリに含まれる複数レベルの複数のサブクエ
リを識別して前記見付け出された特徴及び特徴フラグメ
ントの各々を用いて前記サブクエリを反復的に評価する
ための第2のコード部分と、 C)前記クエリの全体に対して計算した結果が得られた
後に前記クエリ及びサブクエリの反復的評価の複数の結
果を収集し格納するための第3のコード部分とを含むこ
とを特徴とするコンピュータ・プログラム製品。
17. A computer program product for processing a query for retrieving information from a database, the computer program product including a computer executable program embodied on a computer readable medium, The computer-executable program comprises: A) a first code portion for finding a plurality of features and feature fragments in an index; and B) identifying a plurality of levels of sub-queries included in the query. A second code portion for iteratively evaluating the sub-query using each of the found features and feature fragments; and C) the query after the results computed for the entire query are obtained. And a third for collecting and storing multiple results of the iterative evaluation of the subquery. A computer program product comprising a code part.
JP2000123630A 2000-04-25 2000-04-25 Method and system to extract knowledge Pending JP2001312504A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000123630A JP2001312504A (en) 2000-04-25 2000-04-25 Method and system to extract knowledge

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000123630A JP2001312504A (en) 2000-04-25 2000-04-25 Method and system to extract knowledge

Publications (1)

Publication Number Publication Date
JP2001312504A true JP2001312504A (en) 2001-11-09

Family

ID=18633904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000123630A Pending JP2001312504A (en) 2000-04-25 2000-04-25 Method and system to extract knowledge

Country Status (1)

Country Link
JP (1) JP2001312504A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509294A (en) * 2013-01-07 2016-03-24 フェイスブック,インク. System and method for a distributed database query engine

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329093A (en) * 1995-05-30 1996-12-13 Toshiba Corp Distributed directory system and knowledge information changing method
US5694593A (en) * 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694593A (en) * 1994-10-05 1997-12-02 Northeastern University Distributed computer database system and method
JPH08329093A (en) * 1995-05-30 1996-12-13 Toshiba Corp Distributed directory system and knowledge information changing method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509294A (en) * 2013-01-07 2016-03-24 フェイスブック,インク. System and method for a distributed database query engine
US10210221B2 (en) 2013-01-07 2019-02-19 Facebook, Inc. System and method for distributed database query engines
US10698913B2 (en) 2013-01-07 2020-06-30 Facebook, Inc. System and methods for distributed database query engines
US11347761B1 (en) 2013-01-07 2022-05-31 Meta Platforms, Inc. System and methods for distributed database query engines

Similar Documents

Publication Publication Date Title
US6470333B1 (en) Knowledge extraction system and method
TWI710919B (en) Data storage device, translation device and data inventory acquisition method
US6792416B2 (en) Managing results of federated searches across heterogeneous datastores with a federated result set cursor object
Dasu et al. Mining database structure; or, how to build a data quality browser
JP4814570B2 (en) Resistant to ambiguous duplication
US6505191B1 (en) Distributed computer database system and method employing hypertext linkage analysis
Gravano et al. Text joins in an RDBMS for web data integration
US8463739B2 (en) Systems and methods for generating multi-population statistical measures using middleware
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
US20070174304A1 (en) Querying social networks
WO2020087082A1 (en) Trace and span sampling and analysis for instrumented software
CN109947796B (en) Caching method for query intermediate result set of distributed database system
JP2001109758A (en) Virtual table interface, and system and method for processing inquiry using this interface
EP1860603A2 (en) Efficient calculation of sets of distinct result
US11709831B2 (en) Cost-based query optimization for array fields in database systems
CN112765282A (en) Data online analysis processing method, device, equipment and storage medium
CN111723161A (en) Data processing method, device and equipment
US7925617B2 (en) Efficiency in processing queries directed to static data sets
JP4031947B2 (en) Query optimization processing device, query optimization processing method, program for causing computer to execute the method, and recording medium storing program
CN107291875B (en) Metadata organization management method and system based on metadata graph
JP2001312504A (en) Method and system to extract knowledge
GB2368666A (en) Knowledge extraction system and method
RU2680743C1 (en) Method of preserving and changing reference and initial records in an information data management system
Owrang et al. Discovering implicit knowledge from data warehouses
JP6562478B2 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101026