JP4074564B2 - コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 - Google Patents

コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 Download PDF

Info

Publication number
JP4074564B2
JP4074564B2 JP2003282690A JP2003282690A JP4074564B2 JP 4074564 B2 JP4074564 B2 JP 4074564B2 JP 2003282690 A JP2003282690 A JP 2003282690A JP 2003282690 A JP2003282690 A JP 2003282690A JP 4074564 B2 JP4074564 B2 JP 4074564B2
Authority
JP
Japan
Prior art keywords
vector
matrix
data
dimension reduction
normal basis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003282690A
Other languages
English (en)
Other versions
JP2005050197A (ja
Inventor
メイ 小林
マイケル・エドワード・フール
雅樹 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2003282690A priority Critical patent/JP4074564B2/ja
Priority to US10/896,191 priority patent/US20050027678A1/en
Publication of JP2005050197A publication Critical patent/JP2005050197A/ja
Application granted granted Critical
Publication of JP4074564B2 publication Critical patent/JP4074564B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明は、大規模データベースからの情報取得に関し、より詳細には、高い効率で、データベースに格納された文書などのデータに依存した次元削減を可能とし、かつコンピュータ・ハードウエアの省資源化を可能とするコンピュータ実行可能な次元削減方法、コンピュータをして該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した情報検索エンジンに関する。
近年のめざましい計算機環境の発達と共に、インターネットやイントラネットを介する大規模データから必要とする知識情報を発見すること、いわゆる情報検索、クラスタリング、データ・マイニングといった技術の重要性がますます高まっている。大規模文書データのコーパスが与えられたとき、これに対する情報検索やクラスタリング(文書分類)を効率よく、かつ高精度に行うことを可能とする方法は、ネットワークの拡大と共に蓄積されるデータがますます増大するデータベースにおける知識検索技術において、多大な貢献を与えるものと考えられる。
情報検索についてまず考えると、種々のモデルが提案されており、例えば、いわゆるQuery-by-Terms方式の情報検索が想定される。また、クエリーと完全に一致する表現を含む文書を検索する場合は、全文検索型のモデルが適切となるものと考えられる(非特許文献1)。一方、情報検索でも、類似検索とか概念検索の場合には、いわゆるQuery-by-Exampleが想定されるし、同じモデルが同時にクラスタリングに適用できるのであれば、内容検索型のモデルを採用することが有効である。どのモデルについても、共通して使用することができる解析的に使用しやすいモデルとして、ベクトル空間モデルが有効である(非特許文献2)。以下、本発明において参照または使用することができる従来技術について概説する。
(1)ベクトル空間モデル
ベクトル空間モデル(Vector Space Model: VSM)は、文書コーパスに含まれる各文書をキーワードの集合のベクトルでモデル化する。このモデル化に際して適用されるキーワードの重み付け方法には、キーワードが含まれるかどうかを、1ビットで表現する単純なブーリアン法や、キーワードの文書内および全文書での出現頻度に基づく、TF-IDF法などが知られている(非特許文献2)。VSMでは、文書数をM、キーワード数をNとして、文書コーパスを、M×Nの数値行列である、いわゆる文書−キーワード行列として表現することができる(非特許文献3)。
(2)次元削減技術
より検索効率を高めるために、通常では、上述した文書コーパスのM×N行列(以下、Aとして参照する。)のうち、キーワード・ベクトルの次元をNよりも遙かに小さな次元kへと削減することが行われている、このための方法としては、Deerwesterら(非特許文献4)により提案された潜在的意味インデキシング法(Latent Semantic Indexing; LSI法)および本発明者ら(非特許文献5、非特許文献1、非特許文献6、非特許文献7、非特許文献8)などにより提案された共分散行列法(Covariance Matrix Method; COV法)を挙げることができる。
LSI法では、与えられた通常では矩形の行列Aを特異値分解し、特異値の大きな順からk個の特異ベクトルを選択して次元削減を実行させる。また、COV法では、行列Aから共分散行列Cを生成する。共分散行列Cは、N×Nの対称行列として与えられ、固有値分解を使用して容易に、かつ高精度に計算を行うことができる。この場合でも次元削減は、固有ベクトルの値の大きなものから順にk個を選択することにより、次元削減が行われることになる。このCOV法では、共分散行列C自体がすでにキーワード間の相関をある程度反映しているので、相関度合いの高いデータが比較的クラスターを形成させやすい、という特徴を有している。
また、これ以外にも、膨大な数値行列の次元削減を行う方法としては、ランダム・プロジェクション法(以下RP法として参照する。)を挙げることができる。RP法(非特許文献9、非特許文献10)は、本来VLSIの設計や、画像のノイズ除去などの分野において使用されてきた技術であり、N×k次元のランダム行列Rをまず生成させ、行列Aに対して右から乗算させることにより次元削減を実行する。この場合、膨大な数値行列の特異値分解や、固有値分解を実行する必要がないので、次元削減計算は必然的に高速化し、かつコンピュータ・ハードウエア資源の容量も小さくすることができる。しかしながら、RP法は、データベース内に蓄積されたデータに無関係にランダム行列Rを生成させてしまうので、文書内のクラスター分布を反映できないという問題がある。すなわち、次元削減行列Aが、クラスターの大小を反映しないものとなる可能性が著しく高いことになる。
多くの場合、それほど高度専用化されていない検索エンジンを使用しても、主要クラスターは検索できる。加えて、主要クラスターではない存在割合が小さなデータのクラスター(以下、マイナー・クラスターとして参照する。)の方が、情報検索を行う者が興味を持つ対象とされることも多い。この点で言えば、RP法は、高速かつ省資源での計算を可能とするものの、生成された次元削減のデータは、文書データを参照しないで次元削減するため、文書内のクラスター分布情報を捨て去っており、主要クラスターもマイナー・クラスターも共に分布に応じて検出できることに対して何ら保証を与えない、という不都合があった。このため、RP法は、キーワード検索を行うには使用することができるものの、意味解析や類似検索に代表される情報検索を行う場合には、充分な情報を与えることができないという不都合があった。
北研二、津田和彦、獅子堀正幹、情報検索アルゴリズム、共立出版社、2002年 Richard K. Below, Findings Out About, Cambridge University Press, Cambridge, UK, 2000. G. Salton and M. Mcgill, Introduction to Modern Information Retrieval, McGraw-Hill, 1983. Scott Deerwester, et. al., "Indexing by Latent Semantic Analysis", Journal of the American Society for Information Science, Vol. 41, (6), 391-407, 1990. 青野雅樹、小林メイ、"ベクトル空間モデルに基づく次元削減による大規模文書データの検索と可視化"、情報処理学会、マルチメディアと分散処理研究会、2002-DPS-108, pp.79-84, June, 2002. 佐々木稔、北研二、"ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削減"、自然言語処理、第8巻、第1号、pp.5-19, 2001. Mei Kobayashi, Masaki Aono,"Covariance matrix analysis for mining major and minor clusters", 5-th International Congress on Industrial and Applied Mathematics(ICIAM), Sydney, Australia, p.188, July 2003. K. V. Mardia, J. T. Kent and J. M. Bibby, Multivariate Analysis, Academic Press, London, 1979. Dimitris Achilioptas, "Database-friendly Random Projections", In Proc. ACM Symposium on the Principles of Database Systems, pp.274-281. 2001. Ella Bingham and Heikki Mannila, "Random projections in dimensionality reduction:Applications to image and text data", Proc. ACM SIGKDD, pp. 245-250, San Francisco, CA, USA, 2001.
これまで、精度および高速性、省資源性を同時に満足することが可能な情報取得に適用する方法、次元削減装置、次元削減装置を含む検索エンジン、およびコンピュータ・プログラムが存在せず、精度および高速性、省資源性を同時に満足することが可能な情報取得を可能とさせる方法、そのための検索エンジン、およびコンピュータ・プログラムが必要とされていた。
本発明は、上述した従来技術の不都合に鑑みてなされたものであり、本発明は、従来技術の不都合(inconvenience)が、データベースに蓄積されたデータのサイズに依存することなく、k次元の次元削減のために使用する基底ベクトルをランダムに生成できることに着目した。そこで、本発明者らは、より大規模なデータベースに蓄積されたデータから、データ内部に潜在するクラスター分布を保持しつつデータ・ベクトルのランダム化を行うことができれば、高速かつ高効率に主要およびマイナー・クラスターの情報の検索精度を保つことができ、かつ、信頼性の高い知識取得を可能とすることができる、という着想に基づき本発明を完成させたのである。
より具体的には、本発明は、データベースに格納されたデータからM×Nの数値行列を作成させた後、M個のデータ・ベクトルをランダムにシャッフルさせる。その後、M個のデータについて、概ね均等な個数のベクトルからなるk個のチャンクを与える。1つのチャンクに含まれるベクトルについて、それらの要素の非正規基底ベクトルを算出し、これをチャンクの数kだけ繰り返し、k個の非正規基底ベクトルを生成させる。
文書数M、キーワード総数Nの文書―キーワード数値行列Aに対して、チャンク内の文書ベクトルを平均化して生成されたk個の非正規基底ベクトルは、直交化処理が行われ、k x N次元のランダム平均(Random Average: RAV)行列を与える。このランダム平均行列RAVは、次元がN x kの転置行列tRAVとして数値行列Aに対して乗算されて、キーワード次元が削減されたM x k次元の次元削減行列A’を生成する。本発明の検索エンジンは、ユーザにより入力される検索クエリーからクエリー・ベクトルを算出し、生成された次元削減行列A’との内積を算出する。内積の値は、クエリー・ベクトルと文書の間の類似度に対応するので、大きな順にソーティングされ、トップ10、トップ100などのランキングの値と共に検索結果として、コンピュータ装置に格納される。
本発明は、大規模な数値行列に対して固有値計算や特異値計算を実行させることなく、データベースに格納されたデータ・ベクトルに基づいたランダム平均行列RAVを生成することができる。このため、計算速度および処理装置の能力、メモリ容量などを含む計算効率を、著しく改善することができる。加えて、ランダム平均行列RAVは、データベースに格納された文書といったデータに基づいて計算されるので、データベース内の文書の自動分類や、類似検索およびクラスタリングなどの計算にも適用することが可能となる。
すなわち、コンピュータにより数値行列を次元削減して、情報を提供するための次元削減方法であって、
データベースに格納されたデータ・ベクトルをランダムに選択してシャッフル情報を生成し、メモリに格納させるステップと、
前記シャッフル情報を使用して直交化された基底ベクトルにより前記数値行列の次元削減を実行させるステップと
を含む次元削減方法が提供される。
本発明の前記シャッフル情報の生成は、ランダムに選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させるステップと、シャッフル・ベクトルを生成するステップとを含み、前記次元削減を実行させるステップは、前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられたチャンクごとに平均値を算出して非正規基底ベクトルを生成し、メモリに格納させるステップと、
非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、ランダム平均行列としてメモリに格納させるステップと、
前記ランダム平均行列を、前記データ・ベクトルに乗算して次元削減された次元削減行列、または次元削減するためのインデックス・データを生成し、格納部に格納させるステップとを含むことができる。本発明では、前記チャンクの数が、基底ベクトルの数に対応することができる。本発明では、前記平均値を算出するステップは、前記データ・ベクトルの要素を、データ・ベクトルの数(M)と基底ベクトル数(k)とから、floor(M/k)で与えられるごとに平均するステップを含むことができる。
本発明によれば、コンピュータにより数値行列を次元削減して、次元削減行列、または次元削減のためのインデックス・データとする方法を実行させるコンピュータ実行可能なプログラムであって、該プログラムは、コンピュータに対して、
データベースに格納されたデータ・ベクトルをランダムに選択してシャッフル情報を生成し、メモリに格納させるステップと、
前記シャッフル情報を使用して直交化された正規基底ベクトルにより前記数値行列の次元削減を実行させるステップと
を実行させる、プログラムが提供される。
本発明によれば、コンピュータにより数値行列を次元削減して、次元削減行列、または次元削減するためのインデックス・データとする次元削減装置であって、前記装置は、
データベースに格納されたデータ・ベクトルをランダムに選択してシャッフル情報を生成しメモリに読み込ませ、前記シャッフル情報を使用して、直交化された正規基底ベクトルを生成させてランダム平均行列を生成し、前記ランダム平均行列を使用して次元削減行列、または次元削減するためのインデックス・データを生成して格納させる処理部
を含む次元削減装置が提供される。
本発明の次元削減装置の前記処理部は、前記シャッフル情報を、ランダムに選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させて、シャッフル・ベクトルとして生成させるシャッフル・ベクトル生成部と、前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられたチャンクごとに平均値を算出して非正規基底ベクトルを生成し、格納する非正規基底ベクトル生成部とを含むことができる。
本発明の前記処理部は、非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、ランダム平均行列を生成するランダム平均行列生成部と、
前記ランダム平均行列を読み出して、前記データ・ベクトルに乗算して次元削減された次元削減行列、または次元削減するためのインデックス・データを生成して、格納する次元削減データ格納部と
を含むことができる。
本発明によれば、コンピュータにより情報を提供するための検索エンジンであって、前記検索エンジンは、
データベースに格納されたデータ・ベクトルをランダムに選択してシャッフル情報を生成し、メモリに読み込ませ、前記シャッフル情報を使用して、直交化された正規基底ベクトルを生成させてランダム平均行列を生成し、前記ランダム平均行列を使用して次元削減行列を生成して格納させる処理部と、
クエリー・ベクトルを生成して格納するクエリー・ベクトル格納部と、
前記次元削減行列と前記クエリー・ベクトルとの内積を計算する内積算出部と、
前記計算された内積のスコアを格納する検索結果格納部と、
を含む検索エンジンが提供できる。
本発明における前記処理部は、前記シャッフル情報を、ランダムに選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させて、シャッフル・ベクトルとして生成させるシャッフル・ベクトル生成部と、前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられたチャンクごとに平均値を算出して非正規基底ベクトルを生成し、格納する非正規基底ベクトル生成部とを含むことができる。
本発明においては、前記処理部は、非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、ランダム平均行列を生成するランダム平均行列生成部と、
前記ランダム平均行列を読み出して、前記データ・ベクトルに乗算して次元削減された次元削減行列、または次元削減するためのインデックス・データを生成して、格納する次元削減データ格納部と
を含むことができる。
本発明の好ましい実施の形態では、前記データ・ベクトルは、文書をキーワードを使用して数値化した数ベクトルを含むことができる。
以下、本発明を図面に示した具体的な実施の形態をもって説明するが、本発明は、図面に示した実施の形態に限定されるものではない。図1には、本発明においてデータベース内に格納された文書から文書−キーワード行列を生成する際の処理を概略的に示した図である。図1(a)が、文書データベースの構成を示し、図1(b)が文書−キーワード行列である。図1に示されるように、データベースの例えば文書データ“DOC”は、文書整理番号や、データベースに固有の識別値を伴っており、識別値により適切に呼出を行うことができる構成とされている。また、図1(a)に示された文書データは、通常では、見出し語や、タイトルが付されており、これらのキーワードがキーワード・リストを参照して、上述したVSM法や、TF-IDF法により数値化される。
この結果、図1(b)に示されるように、文書データに対しては、例えばそのタイトル、見出し語などが数値化された要素からなる数ベクトルが生成される。以下、このベクトルをデータ・ベクトルとして参照する。なお、本発明は、文書データだけではなく、テキストを含むいかなるデータに対しても適用することができる。このデータ・ベクトルは、例えばデータベースの適切な領域に、または別に構成されたデータベースに格納され、文書−キーワード行列として格納されている。図1に示された文書−キーワード行列は、データ・ベクトル数は、文書データと同数のMであり、キーワード数はNとされている。
図1(a)に示されるように、データ・ベクトルにも、対応する文書データと同一のまたは参照可能に関連づけられた識別値“Id”が付されている。図1(b)に示した文書−キーワード行列にも、説明している実施の形態では、同一の識別値が付されている。この識別値は、多くの場合、ニュース記事や、論説などでは、当該文書データがデータベースに登録された時系列順または発生した時系列順に識別値“Id”が付されることが多い。このため、識別値とデータ・ベクトルに含まれるキーワードとの間には、例えば地震、天候などの場合のように所定の地域や日時のデータ・ベクトルが文書−キーワード行列の列方向の特定領域に集中している可能性もある。
本発明においては、このような場合、特定の基底ベクトルがデータの格納履歴や発生履歴に依存することになる。そこで、本発明においては、図1に示される文書−キーワード行列を構成するデータ・ベクトルを、列方向に対してランダムにシャッフル(shuffle)させ、シャッフル情報を作成し、データベースやメモリといった記憶手段に格納させ、後の処理において参照させる。シャッフルされた情報を使用することによりデータベース内における履歴が基底ベクトルの算出に影響を与えないようにすると共に、各基底ベクトルに潜在的に含まれる主要クラスター、メディアム・クラスター、マイナー・クラスターの分布を概ね均等に配分させることが可能となる。すなわち、クラスターの分布に忠実な次元削減手法を与えることが可能となる。
図2には、本発明においてデータ・ベクトルをランダムにシャッフルする方法の好適な実施の形態を概略的に示す。本発明においては、データ・ベクトルをランダムにシャッフルさせる手法は、データ・ベクトルをランダムに並べ替えて、行列を陽に生成させて使用することもできるし、文書の識別値や、データベースにおけるデータ識別値などをランダムに配列したシャッフル・ベクトルとして生成することもできる。本発明においては、シャッフル情報とは、データ・ベクトルをランダムに並べ替えた行列データまたはデータ・ベクトルをランダムに並べ替え、さらにデータ・ベクトルを参照させるためにのみ使用する情報を意味する。本発明においては、シャッフル情報として、文書−キーワード行列のM×Nの要素を含むシャッフル情報を使用する方法を排除するわけではないものの、本発明のより好適な実施の形態では、ハードウエア資源の省力化および計算効率を考慮して、図2に示すようにデータ・ベクトルの数Mに対応したメモリ・アドレスを確保するだけで生成させることができるシャッフル・ベクトルを使用することが望ましい。シャッフルの方法は、種々の方法を使用することができるが、例えばM個の1次元配列Bを用意して、データ・ベクトルの識別値“Id”を整数1,…,Mに対応させてB[i]=i (1 <= i <= M)で初期化する。そして、区間[1,M]からランダムに1個の整数を選択して、これをSとしたとき、B[M]とB[S]を交換する。次に、区間[1,M-1]からランダムに1個の整数を選択して、これをまたSとし、B[M-1]とB[S]を交換する。このように区間を狭めながらB[1]まで同様の処理を繰り返すことで、ランダムな整数配列Bが得られる。これをシャッフル・ベクトルとして利用することができる。
計算処理において、シャッフル・ベクトルを参照する場合には、シャッフル・ベクトルを先頭または最後尾から順に読み出し、該当するデータ・ベクトルを参照して、その要素に対して後述する平均化処理を実行させることができる。また、本発明においては、シャッフル・ベクトルの要素には、概ね所定数ごとのチャンクが設定されており、シャッフル・ベクトルの参照は、チャンクに割り当てられたデータ・ベクトルの数ごとに行われる。このチャンク数は、本発明において基底ベクトルの数kに対応する。
図3には、本発明のランダム平均行列RAVを生成するための本質的な処理の好適な実施の経緯のフローチャートを示す。
図3に示されるように、本発明のランダム平均行列の生成方法は、ステップS10において、文書−キーワード行列にアクセスして、ランダムにデータ・ベクトルの識別値などを取得する。ステップS12において、読み出された識別値を、RAMといった適切な記憶装置により形成されたメモリに格納させてゆき、シャッフル・ベクトルとして保持させる。ステップS14では、シャッフル・ベクトルのデータ数Mに対して、例えばfloor(M/k)でチャンクを定義して、所望する基底ベクトルの数のチャンクへと割り当てる。この場合、各チャンクの数は、概ね等しくなるようにすることが、各基底ベクトルの重みを均等化させる点では好ましいものの、本発明においては、各チャンクに含まれるデータの数およびチャンクごとの数の一致性には、特に制限はない。
ステップS16では、チャンクごとに、データ・ベクトルの要素を読み出し、適切なメモリにおいて積算して、平均値を算出する。この処理をキーワード数N分繰り返し実行させ、チャンクごとに非正規基底ベクトル(non-normalized basis vector) di (1 <= i <= k)を算出させ、メモリに格納する。ステップS18では、格納された非正規基底ベクトルdiを読み出して、直交化処理を実行させ、基底ベクトルb1,…,bkを算出して、適切なメモリに格納させる。
さらにステップS20では、計算された基底ベクトルbiを読み出して、適切なメモリに順に配置させて、k x N 次元のランダム平均行列RAVとして格納させる。RAVは、このようにデータ・ベクトルをチャンクごとに参照し平均化するというプロセスを施しているため、統計的に見れば、主要クラスターからマイナー・クラスターの比率が得られる基底ベクトルの中に概ね元の文書−キーワード行列に含まれる比率と同等の割合で反映されることになる。
このため、本発明において次元削減した場合、主要クラスターからマイナー・クラスターまでの検出性は、著しく低下することがない。また、ステップS18の直交化処理は、例えば、モディファイド・グラム・シュミット(MGS)法を使用して逐次的に直交化することができる。
図4には、図3に説明した処理を、より具体的にベクトル要素についての演算処理を用いて示した図である。図4において、floor(M/k)は、所定のチャンクに含まれるベクトルの数であり、“floor()”は、括弧内の値の小数点以下を切り捨てる演算子を表す。si j (1 <= i <= k, 1 <= j <= N)は、所定のチャンク内に含まれるベクトルのj番目の要素の総和を表す。図4に示すブロックB20では、データ行列を読み込み、乱数発生手段を使用して、シャッフル・ベクトルを生成させ、そのシーケンスにより指定されるデータ・ベクトルをπ(p) ( 1 <= p <= M)として表現している。
ブロックB22では、与えられたシャッフル・ベクトルに対して、floor(M/k)個ごとにチャンクを割り当て、データ・ベクトルのj番目の要素の平均を算出させる。図4のブロックB22に示されたaπ(p),jは、π(p)番目のデータ・ベクトルのj番目の要素を示す。ブロックB22で要素の平均が完了した時点で、非正規基底ベクトルが生成される。この非正規基底ベクトルdiは、適切なメモリに格納される。
ブロックB24におけるMGS法では、特定の実施の形態において最初の時点で少なくとも3つの非正規基底ベクトルが蓄積されるまで算出された非正規基底ベクトルの数をカウントする。ブロックB24では、所定数の非正規基底ベクトルが蓄積した時点で、MGS法を適用して非正規基底ベクトルdiを直交化させ、正規基底ベクトル (normalized basis vector)を算出して、メモリに格納させる。その後、ブロックB26では、i=i+floor(M/k)として、処理チャンクをインクリメントさせ、ブロックB22での非正規基底ベクトルの計算およびブロックB24での逐次的な直交化を再度実行させ、最終的にすべてのチャンクに対応するk個の正規基底ベクトルを生成した時点で処理を終了させる。
なお、チャンク数kは、データ数に応じてシステムが適切に自動設定することもできるし、ユーザが基底ベクトルの数をシステムに対して入力させることで設定することもでき、ユーザの希望または装置の環境に応じて適宜選択することができる。
図5には、本発明において生成される基底ベクトルにおける主要クラスターとマイナー・クラスターの貢献度、およびRP法により与えられる基底ベクトルにおける主要クラスターおよびマイナー・クラスターの貢献度を概略的に示した図である。図5(a)が、本発明のRAV法により生成される基底ベクトルにおける貢献度を示し、図5(b)が、RP法により生成される基底ベクトルの貢献度を示す。図5(a)に示されるように、本発明の基底ベクトルは、概ね統計的に、元のデータ・ベクトル中に潜在的に含まれる割合とほぼ同等な割合で主要クラスターからマイナー・クラスターまでの要素が含まれることがわかる。
一方で、本発明のRAV法では、主要クラスターからマイナー・クラスターまでのデータを漏れなく基底ベクトルの決定時に使用している。このため、どの基底ベクトルにおいても各クラスターの要素が、統計的に含まれていることが保証されるので、高速な次元削減にもかかわらず、データ・マイニングや類似検索などに適用することが可能な次元削減行列、あるいは次元削減のためのインデックス・データを与えることができる。本発明において、インデックス・データとは、次元削減に必要とされるデータ・ベクトルおよび対応するRAVを処理において適切に呼び出すための複数の識別値セットを意味し、インデックス・データを使用して内積計算処理が呼出された場合に、オンザフライで、次元削減されたデータ・ベクトルを生成するためのデータを意味する。
一方、図5(b)に示したRP法の場合には、基底ベクトルは、本質的にデータ・ベクトルに依存せずに生成され、特に現実的な実装時には、マイナー・クラスターが誇張されて主要クラスターが埋没してしまうデータ・ベクトルや、逆に主要クラスター情報しか含まれないようなデータ・ベクトルを生成する可能性がある。このため、キーワード検索での精度は低く、実用的なデータ・マイニングや類似検索などの分野への適用ができない。
図6は、本発明の検索データ構造を使用する検索エンジンの実行する処理を示したフローチャートである。本発明の検索エンジンは、ステップS30において、検索クエリーを受信し、適切なバッファ・メモリに格納させる。検索クエリーの入力は、ユーザがキーボードから直接入力することもできるし、本発明の別の態様においては、ネットワークを経由して送信される検索クエリー・データを含むHTTPリクエストに代表されるウェブサービス・プロトコル・リクエストとすることができる。その後ステップS32では、入力された検索クエリーを、検索エンジンに格納したキーワード・リストを使用して数値化処理して、バッファ・メモリといった適切なメモリに格納する。
ステップS34では、本発明のRAV法により生成される次元削減行列に含まれる次元削減されたデータ・ベクトルまたはインデックス・データとして参照される次元削減データをバッファ・メモリに読み出して、検索クエリーとの内積を計算させる。ステップS36では、生成されたスコアを、適切なメモリに作成したハッシュ・テーブルにデータ・ベクトルの識別値と対応させて格納させる。ステップS38では、スコアの大きな順に結果をソーティングして、検索結果として例えば、ディスプレイ・スクリーン上に表示させる。このとき表示のさせ方としては、種々の方法を使用することができ、例えばグラフィカル・ユーザ・インタフェースを使用してグラフィカルに表示させることもできるし、検索されたデータ・ベクトルを、識別値を使用してハイパーリンクさせた、ハイパー・テキスト・マークアップ・ランゲージ(HTML)や拡張マークアップ・ランゲージ(XML)などとしてスクリーン表示させることもできる。
図7は、本発明のRAV法を使用した検索エンジンの概略的な構成を示した図である。図7に示した検索エンジン10は、概ねコンピュータ装置12と、コンピュータ装置12により管理されたデータベース14と、コンピュータ装置12に対して入出力を可能とする入出力装置16と、表示スクリーンを含んだ表示装置18とを含んで構成されている。検索エンジン10は、ユーザからの検索クエリーを受け取ると、検索エンジン10の適切な記憶領域に格納された次元削減行列からデータ・ベクトルを読み出すかまたは次元削減のためのインデックス・データを読み出して検索を実行させ、その結果を、表示スクリーンに数値データまたはグラフィカル・ユーザ・インタフェースを使用して表示させる。本発明においては、検索エンジン10は、cgiシステムまたはウェブ・ソフトウエアとして構成させることもでき、この場合には、検索クエリーは、ネットワーク26を介して遠隔的に配置されたユーザ・コンピュータから送信されることができる。
図8には、本発明の検索エンジンにおいて使用することができるコンピュータ装置12のハードウエア構成を示した図である。コンピュータ装置12には、概ねメモリ20と、中央処理装置(CPU)22と、入出力制御装置24と、ネットワークを介して検索サービスを提供する場合には、ネットワーク26からの検索要求を処理するための外部通信装置28とを含んで構成されている。メモリ20、中央処理装置22、入出力制御装置24、外部通信装置28は、それぞれ内部バス30を介して相互接続されていて、データの伝送を行うことが可能とされている。また、コンピュータ装置12は、スタンドアローンのシステムとして実装することもできるし、本発明の別の実施の形態では、コンピュータ12を、インターネットといったネットワーク26に接続して、検索サービスを提供するサーバとして構成させることもできる。
コンピュータ装置12が、スタンドアローンの検索エンジンとして使用される場合には、ユーザは、キーボードや、マウスといった入出力装置16を使用して、所定のグラフィカル・ユーザ・インタフェース(GUI)を使用して検索クエリーの入力を行う。検索クエリーを受け取ると、コンピュータ装置12は、検索クエリーからクエリー・ベクトルを生成して、次元削減行列のデータ・ベクトルとの内積を計算させることにより、検索を実行させる。
また、コンピュータ装置12がサーバとして提供される場合には、コンピュータ12は、ネットワーク26を介して検索を要求するHTTPリクエストを受け取り、外部通信装置28などのバッファ・メモリに一旦格納させる。その後、検索のためのアプリケーションを起動または呼出し、続いてユーザから送信される検索クエリーから、クエリー・ベクトルを生成させる。さらにクエリー・ベクトルを使用して、図6に示した処理を実行させて、検索結果を生成させ、メモリ20に格納する。格納された検索結果は、外部通信装置28を介してネットワークへとHTTPレスポンスとしてユーザに返される。
図9は、本発明において、RAV法を実行するためにコンピュータ装置12にソフトウエア的またはハードウエア的に構成される機能ブロックおよびコンピュータ装置12が外部制御を行う機能ブロックを示した図である。図9に示されるように、コンピュータ装置12には、RAV処理部32と、ランダム平均行列格納部34と、次元削減データ格納部36と、内積算出部38と、クエリー・ベクトル格納部40と、検索結果格納部42とが機能的に構成または接続されている。
RAV処理部32の機能を説明すると、RAV処理部32は、図示しないデータベースのデータに関連したシャッフル情報として、シャッフル・ベクトルを生成させ、本発明に従い基底ベクトルを算出させている。算出された基底ベクトルは、ランダム平均行列格納部34へと送られて、ランダム平均行列RAVの所定のフォーマットで格納されている。さらに、ランダム平均行列RAVと、文書−キーワード行列を乗算させて、次元削減行列ARAVが算出される。このARAV行列は、検索クエリーが直接内積計算される対象とするべく、例えばハードディスクといった記憶装置として構成されて次元削減データ格納部36に格納される。
また、本発明においては、次元削減行列ARAVを陽に作成しておくのではなく、インデックス・データとして文書−キーワード行列の識別値と基底ベクトルに対応するランダム平均行列RAVの所定の列ベクトル識別値とをペアとしたデータとして、次元削減データとして次元削減データ格納部36に格納させておくこともできる。一方で、クエリー・ベクトル格納部40に格納されたクエリー・ベクトルおよび次元削減データ格納部36から次元削減されたデータ・ベクトルまたはインデックス・データは、それぞれ内積算出部38へと読み出されて内積計算が実行され、計算された内積スコアは、検索結果格納部42へと格納される。なお、インデックス・データを使用する場合には、内積算出部38は、インデックス・データから直接次元削減されたデータ・ベクトルをオンザフライで作成させ、内積計算に使用することができる。また、本発明においては、図9において、内積算出部38の入力側であって、次元削減データ格納部の下流側に相当する機能的部位に、次元削減ベクトル生成部を設けておき、生成された次元削減ベクトルを内積算出部38の入力とすることができる。
また図9には、本発明のRAV処理部32が含む機能ブロックも同時に示されている。図9に示されるように、RAV処理部32は、シャッフル・ベクトル生成部44と、非正規基底ベクトル生成部46と、直交化処理部48とを含んで構成されている。シャッフル・ベクトル生成部44は、データベース14からデータ・ベクトルまたはデータ・ベクトルの識別値を読み出して、データ・ベクトルをランダムに配列するためのシャッフル情報であるシャッフル・ベクトルを生成し、バッファ・メモリなどの適切なメモリに格納させる。非正規基底ベクトル生成部46は、シャッフル・ベクトルを参照してチャンクごとにデータ・ベクトルの各数値要素を平均させることにより、非正規基底ベクトルを算出させ、算出された非正規基底ベクトルをメモリに格納させている。直交処理部48は、メモリに格納された非正規基底ベクトルを読み出して、本発明の特定の実施の形態ではMGS法を使用して直交化処理を実行させ、生成された正規基底ベクトルb1,…,bkを、ランダム平均行列格納部34へと適切な形式の行列(配列データ)として格納させている。
その後、上述したように次元削減行列を算出させ、クエリー・ベクトルとの内積を計算させ検索結果を格納させ、ユーザへと適切な形式で検索結果を表示させる。
本発明の上述した機能ブロックは、コンピュータが実行可能なプログラムをコンピュータ装置に読み取らせ、実行させることによりソフトウェア・ブロックとして構成することができる。コンピュータが実行可能なプログラムは、種々のプログラミング言語を使用して記述することができ、例えばC言語、C++言語、FORTRAN、JAVA(登録商標)を使用して記述することができる。
以下、本発明について具体的に実施例をもってより詳細に説明する。
(実験例1)
従来法との比較検討
(1)実験に使用したデータベース
実験に使用したデータベースは、データサイズが、332,918文書、で、キーワードを、56,300とし、次元削減は、300次元まで行った。
(2)実験に使用したハードウエア環境
コンピュータ装置としては、CPUをPentinum4、1.7GHZ、オペレーティング・システムをWindows(登録商標)XPとした、IntelliStation(IBM社製)を使用した。
(3)計算時間
上述した条件の下でRAV法およびCOV法の計算時間を比較した。その結果を表1に示す。
Figure 0004074564
表1に示されるように、本発明のRAV法は、COV法の約30倍程度高速化されていることが示された。また、計算時間のスケーラビリティについては、RAV法については、Mに比例するのみであったが、COV法では、概ねキーワード数(N)の3乗に比例した計算時間が必要であった。すなわち、RAV法は、従来の次元削減法に比較して、計算時間に対するスケーラビリティに優れると言う結果が得られた。
(4)精度
本発明のRAV法の精度を、検索された文書のうちトップ10、トップ20のドキュメントがdf=49、29のごく少ないクエリー・キーワードを含むか否かの尺度を使用して検討した。その結果、df=49のキーワードに対してはトップ10では、100%、トップ20では、75%以上の精度(precision値)が得られた。なお、精度(precision値)および後述する再現度(recall値)は、下記式(1)により与えられる。
Figure 0004074564
(実験例2)
(1)RAV法とRP法の比較検討
同一のクエリーについて、Text Research Collection Volume 5, April 1997, http://trec.nist.gov/に規定される手法を使用し、再現度-精度曲線(recall−precision curve)を本発明のRAV法およびRP法により計算させた。この際、RP法における次元削減行列Rは、下記式(2)により与えた。
Figure 0004074564
(2)結果
RAV法と、RP法について得られた代表的な結果を図10に示す。図10に示されるように、本発明のRAV法は、RP法による値よりも概ね高い精度(precision値)を与えていることが示される。また計算時間の点に関して言えば、RP法の方が僅かに速いと言う結果が得られたものの、本発明のRAV法においても5〜10分程度の時間で計算が終了し、充分な高速性が保たれていた。これは、基底ベクトルの直交化処理を行う処理が本発明では含まれるためであると考えられる。
(実験例3)
コンピュータ資源消費性
同一の条件下で計算機実験を行い、ランタイムでのメモリ消費量を比較した。下記表1に、それぞれの方法と、メモリ消費量との実測データを示す。
Figure 0004074564
表2に示されるように、本発明の方法は、大規模な特異値分解または固有値分解を実行させないので、コンピュータ装置に実装される記憶空間を著しく低下させることができる。また、RP法と比較しても、ランタイムにおける記憶空間の必要量が低減されており、良好な結果が得られた。
(実験例4)
マイナー・クラスター検出性
(1)実験内容
本発明のRAV法と、RP法とを、マイナー・クラスターの検出性の観点から比較するための実験を、実験例2と同様のデータベースおよび条件を使用して行った。次元削減処理は、300次元とし、検索クエリーは、マイナー・クラスターに含まれることが確認されているquery1=<Michael Jordan, basketball>およびquery2=<McEnroe, tennis>を使用し、上位のドキュメントのうち検索クエリーquery1、query2を含むものの存在割合を、RAV法およびRP法について比較した。
(2)実験結果
得られた実験結果を下記表3に示す。
Figure 0004074564
上記表3にも示されるように、RAV法は、RP法に比較してもマイナー・クラスターを高い精度で良好に検出することができることが示された。
上述したように、本発明によれば、高い効率で、かつコンピュータ資源の浪費を防止すると共に、主要クラスターから、マイナー・クラスターまで安定した検出精度を示す情報取得を可能とする。
本発明において、データベース内に格納された文書から文書−キーワード行列を生成する際の処理を概略的に示した図。 本発明においてデータ・ベクトルをランダムにシャッフルする方法を概略的に示した図。 本発明のランダム平均行列を生成するための本質的な処理の好適な実施の形態のフローチャートを示した図。 図3に説明した処理を、より具体的にベクトル要素についての演算処理を用いて示した図。 本発明において生成される基底ベクトルにおける主要クラスターとマイナー・クラスターの貢献度、およびRP法により与えられる基底ベクトルにおける主要クラスターおよびマイナー・クラスターの貢献度を概略的に示した図。 本発明の検索データ構造を使用する検索エンジンの実行する処理を示したフローチャート。 本発明のRAV法を使用した検索エンジンの概略的な構成を示した図。 本発明の検索エンジンにおいて使用することができるコンピュータ装置のハードウエア構成を示した図。 RAV法を実行するためにコンピュータ装置12にソフトウエア的またはハードウエア的に構成される機能ブロックおよびコンピュータ装置12が外部制御を行う機能ブロックを示した図。 RAV法と、RP法について得られた代表的な結果を示した図。
符号の説明
10…検索エンジン、12…コンピュータ装置、14…データベース、16…入出力装置、18…表示装置、20…メモリ、22…中央処理装置、24…入出力制御装置、26…ネットワーク、28…外部通信装置、32…RAV処理部、34…ランダム平均行列格納部、36…次元削減データ格納部、38…内積算出部、40…クエリー・ベクトル格納部、42…検索結果格納部、44…シャッフル・ベクトル生成部、46…非正規基底ベクトル生成部、48…直交処理部

Claims (9)

  1. 数値行列を次元削減して、次元削減行列、または次元削減のためのインデックス・データとする、コンピュータが実行する次元削減方法であって、
    データベースに格納され、前記数値行列を構成するデータ・ベクトルをランダムに選択して、選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させて、該識別値が要素として配列され、該要素に対してチャンクが割り当てられたシャッフル・ベクトルを生成するステップと、
    前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられた前記チャンクごとに平均値を算出して非正規基底ベクトルを生成し、メモリに格納させるステップと、
    前記非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、各前記チャンクの前記正規基底ベクトルにより与えられるランダム平均行列をメモリに格納させるステップと、
    前記ランダム平均行列を、前記データ・ベクトルに乗算して、前記数値行列が次元削減された前記次元削減行列、または前記データ・ベクトルの識別値および前記ランダム平均行列の列ベクトルの識別値をペアとした前記インデックス・データを生成し、格納部に格納させるステップと
    を含む次元削減方法。
  2. チャンクの数と、正規基底ベクトルの数とが同数である、請求項1に記載の方法。
  3. 前記平均値を算出するステップは、前記データ・ベクトルの要素を、データ・ベクトルの数(M)と基底ベクトル数(k)とから、floor(M/k)で与えられるごとに平均するステップを含む、請求項1に記載の方法。
  4. コンピュータにより数値行列を次元削減して、次元削減行列、または次元削減のためのインデックス・データとする方法を実行させるコンピュータ実行可能なプログラムであって、該プログラムは、コンピュータに対して、
    データベースに格納され、前記数値行列を構成するデータ・ベクトルをランダムに選択して、選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させて、該識別値が要素として配列され、該要素に対してチャンクが割り当てられたシャッフル・ベクトルを生成させるステップと、
    前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられた前記チャンクごとに平均値を算出して非正規基底ベクトルを生成し、メモリに格納させるステップと、
    前記非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、各前記チャンクの前記正規基底ベクトルにより与えられるランダム平均行列をメモリに格納させるステップと、
    前記ランダム平均行列を、前記データ・ベクトルに乗算して、前記数値行列が次元削減された前記次元削減行列、または前記データ・ベクトルの識別値および前記ランダム平均行列の列ベクトルの識別値をペアとした前記インデックス・データを生成し、格納部に格納させるステップと
    を実行させる、プログラム。
  5. チャンクの数と、正規基底ベクトルの数とが同数である、請求項4に記載のプログラム。
  6. 前記平均値を算出するステップは、前記データ・ベクトルの要素を、データ・ベクトルの数(M)と基底ベクトル数(k)とから、floor(M/k)で与えられるごとに平均するステップを含む、請求項4に記載のプログラム。
  7. コンピュータにより数値行列を次元削減して、次元削減行列、または次元削減するためのインデックス・データとする次元削減装置であって、前記装置は、
    データベースに格納され、前記数値行列を構成するデータ・ベクトルをランダムに選択して、選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させて、該識別値が要素として配列され、該要素に対してチャンクが割り当てられたシャッフル・ベクトルを生成させるシャッフル・ベクトル生成部と、
    前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられた前記チャンクごとに平均値を算出して非正規基底ベクトルを生成し、格納する非正規基底ベクトル生成部と、
    前記非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、各前記チャンクの前記正規基底ベクトルにより与えられるランダム平均行列を生成するランダム平均行列生成部と、
    前記ランダム平均行列を読み出して、前記データ・ベクトルに乗算して、前記数値行列が次元削減された前記次元削減行列、または前記データ・ベクトルの識別値および前記ランダム平均行列の列ベクトルの識別値をペアとした前記インデックス・データを生成して、格納する次元削減データ格納部と
    を含む次元削減装置。
  8. コンピュータにより情報を提供するための検索エンジン装置であって、前記検索エンジン装置は、
    データベースに格納され、数値行列を構成するデータ・ベクトルをランダムに選択して、選択された前記データ・ベクトルの識別値をメモリに選択された順に格納させて、該識別値が要素として配列され、該要素に対してチャンクが割り当てられたシャッフル・ベクトルを生成させるシャッフル・ベクトル生成部と、
    前記シャッフル・ベクトルにより指定された前記データ・ベクトルの数値要素をデータベースから読み出して、割り当てられた前記チャンクごとに平均値を算出して非正規基底ベクトルを生成し、格納する非正規基底ベクトル生成部と、
    前記非正規基底ベクトルを直交化させて正規基底ベクトルを生成させ、各前記チャンクの前記正規基底ベクトルにより与えられるランダム平均行列を生成するランダム平均行列生成部と、
    前記ランダム平均行列を読み出して、前記データ・ベクトルに乗算して、前記数値行列が次元削減された次元削減行列、または前記次元削減行列を得るためのインデックス・データであって、前記データ・ベクトルの識別値および前記ランダム平均行列の列ベクトルの識別値をペアとした前記インデックス・データを生成して、格納する次元削減データ格納部と、
    クエリー・ベクトルを生成して格納するクエリー・ベクトル格納部と、
    前記次元削減行列と前記クエリー・ベクトルとの内積を計算する内積算出部と、
    前記計算された内積のスコアを格納する検索結果格納部と、
    を含む検索エンジン装置。
  9. 前記データ・ベクトルは、文書をキーワードを使用して数値化した数ベクトルを含む、請求項8に記載の検索エンジン装置。
JP2003282690A 2003-07-30 2003-07-30 コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 Expired - Fee Related JP4074564B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003282690A JP4074564B2 (ja) 2003-07-30 2003-07-30 コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
US10/896,191 US20050027678A1 (en) 2003-07-30 2004-07-21 Computer executable dimension reduction and retrieval engine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003282690A JP4074564B2 (ja) 2003-07-30 2003-07-30 コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置

Publications (2)

Publication Number Publication Date
JP2005050197A JP2005050197A (ja) 2005-02-24
JP4074564B2 true JP4074564B2 (ja) 2008-04-09

Family

ID=34101020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003282690A Expired - Fee Related JP4074564B2 (ja) 2003-07-30 2003-07-30 コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置

Country Status (2)

Country Link
US (1) US20050027678A1 (ja)
JP (1) JP4074564B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100903599B1 (ko) * 2007-11-22 2009-06-18 한국전자통신연구원 내적을 이용한 암호화된 데이터 검색 방법 및 이를 위한단말 장치와 서버
JP2009230169A (ja) * 2008-03-19 2009-10-08 Mitsubishi Electric Corp パラメータ決定支援装置
JP2010267019A (ja) 2009-05-13 2010-11-25 Internatl Business Mach Corp <Ibm> 文書作成を支援する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP5601121B2 (ja) * 2010-09-27 2014-10-08 カシオ計算機株式会社 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP5601123B2 (ja) * 2010-09-28 2014-10-08 カシオ計算機株式会社 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
CN103890763B (zh) * 2011-10-26 2017-09-12 国际商业机器公司 信息处理装置、数据存取方法以及计算机可读存储介质
EP2709306B1 (en) * 2012-09-14 2019-03-06 Alcatel Lucent Method and system to perform secure boolean search over encrypted documents
US20140280178A1 (en) * 2013-03-15 2014-09-18 Citizennet Inc. Systems and Methods for Labeling Sets of Objects
CN104156402B (zh) * 2014-07-24 2017-06-13 中国软件与技术服务股份有限公司 一种基于聚类的常态模式提取方法及系统
CN104142986B (zh) * 2014-07-24 2017-08-04 中国软件与技术服务股份有限公司 一种基于聚类的大数据态势分析预警方法及系统
US9454494B2 (en) * 2014-08-01 2016-09-27 Honeywell International Inc. Encrypting a communication from a device
US9438412B2 (en) * 2014-12-23 2016-09-06 Palo Alto Research Center Incorporated Computer-implemented system and method for multi-party data function computing using discriminative dimensionality-reducing mappings
WO2017125930A1 (en) * 2016-01-19 2017-07-27 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Searchable symmetric encryption with enhanced locality via balanced allocations
CN106326335A (zh) * 2016-07-22 2017-01-11 浪潮集团有限公司 一种基于显著属性选择的大数据归类方法
US11461360B2 (en) * 2018-03-30 2022-10-04 AVAST Software s.r.o. Efficiently initializing distributed clustering on large data sets
CN109885578B (zh) * 2019-03-12 2021-08-13 西北工业大学 数据处理方法、装置、设备及存储介质
EP4191434A1 (en) * 2019-04-19 2023-06-07 Fujitsu Limited Identification method, generation method, dimensional compression method, display method, and information processing device

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134537A (en) * 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6560597B1 (en) * 2000-03-21 2003-05-06 International Business Machines Corporation Concept decomposition using clustering
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6922715B2 (en) * 2000-05-08 2005-07-26 International Business Machines Corporation Computer implemented method and program for estimation of characteristic values of matrixes using statistical sampling
JP3672234B2 (ja) * 2000-06-12 2005-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US7024400B2 (en) * 2001-05-08 2006-04-04 Sunflare Co., Ltd. Differential LSI space-based probabilistic document classifier
JP3845553B2 (ja) * 2001-05-25 2006-11-15 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースにおけるドキュメントのリトリーブ・ランク付けを実行するコンピュータ・システム、およびプログラム
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US20030204399A1 (en) * 2002-04-25 2003-10-30 Wolf Peter P. Key word and key phrase based speech recognizer for information retrieval systems
US7421418B2 (en) * 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently

Also Published As

Publication number Publication date
JP2005050197A (ja) 2005-02-24
US20050027678A1 (en) 2005-02-03

Similar Documents

Publication Publication Date Title
JP4074564B2 (ja) コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
Tombros et al. The effectiveness of query-specific hierarchic clustering in information retrieval
Roshdi et al. Information retrieval techniques and applications
US6286018B1 (en) Method and apparatus for finding a set of documents relevant to a focus set using citation analysis and spreading activation techniques
Lin et al. PubMed related articles: a probabilistic topic-based model for content similarity
US6587848B1 (en) Methods and apparatus for performing an affinity based similarity search
Yagoubi et al. Massively distributed time series indexing and querying
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
US20050210006A1 (en) Field weighting in text searching
Oren Re-examining tf. idf based information retrieval with genetic programming
JP2004213675A (ja) 構造化ドキュメントの検索
Wolfram The symbiotic relationship between information retrieval and informetrics
JPWO2014050002A1 (ja) クエリ類似度評価システム、評価方法、及びプログラム
JP2010128677A (ja) テキスト要約装置、その方法およびプログラム
Yoon et al. BitCube: clustering and statistical analysis for XML documents
Khalid et al. A multi-objective approach to determining the usefulness of papers in academic search
CN111143400A (zh) 一种全栈式检索方法、系统、引擎及电子设备
Deng et al. Information re-finding by context: A brain memory inspired approach
Pannu et al. A comparison of information retrieval models
Hmedeh et al. Content-based publish/subscribe system for web syndication
Fan et al. Genetic-based approaches in ranking function discovery and optimization in information retrieval—a framework
Deshmukh et al. A literature survey on latent semantic indexing
Hristidis et al. Relevance-based retrieval on hidden-web text databases without ranking support
Hristidis et al. Ranked queries over sources with boolean query interfaces without ranking support
Kuo On word prediction methods

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20071016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees