JP3672234B2 - データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体 - Google Patents

データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体 Download PDF

Info

Publication number
JP3672234B2
JP3672234B2 JP2000175848A JP2000175848A JP3672234B2 JP 3672234 B2 JP3672234 B2 JP 3672234B2 JP 2000175848 A JP2000175848 A JP 2000175848A JP 2000175848 A JP2000175848 A JP 2000175848A JP 3672234 B2 JP3672234 B2 JP 3672234B2
Authority
JP
Japan
Prior art keywords
matrix
document
covariance matrix
dimension
covariance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000175848A
Other languages
English (en)
Other versions
JP2002024268A (ja
Inventor
メイ 小林
ロイック・マラシィー
光 寒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000175848A priority Critical patent/JP3672234B2/ja
Priority to US09/879,756 priority patent/US6678690B2/en
Publication of JP2002024268A publication Critical patent/JP2002024268A/ja
Application granted granted Critical
Publication of JP3672234B2 publication Critical patent/JP3672234B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、大きなデータベースにおけるドキュメントのリトリーブおよび/またはランク付け、すなわちドキュメントのリトリーブ、またはドキュメントのランク付け、またはドキュメントのリトリーブおよびランク付けに関し、より詳細にはきわめて大きなデータベースにおけるドキュメントのリトリーブおよびランク付けを、共分散マトリックスを用いてドキュメント・マトリックスの次元低下により行う方法、コンピュータ・システムおよび該方法を実施するためのソースコードが記録された記録媒体に関する。
【0002】
【従来の技術】
近年におけるデータベース・システムは、ニュースデータ、顧客情報、在庫データなどの膨大な量のデータをますます取り扱うようになってきている。このようなデータベースのユーザは、充分な精度をもって迅速、かつ効果的に所望する情報を検索することが、ますます困難となっている。したがって、適時、かつ精度よく、さらには安価に大きなデータベースから新たなトピックスおよび/または新たな事項を検出することは、在庫管理、先物取引やオプション取引、世界中に多数のレポーターを配置することなしにレポータへと迅速に指令を行うニュース代理店、成功を収めるためには競合者についての主要、かつ新しい情報を知ることが必要なインターネットや、他の速いペースの行動に基づくビジネスといった、多くのタイプのビジネスに対し、きわめて価値ある情報を与えることになる。
【0003】
従来ではデータベースの検索者は、検索をモニタするために別の要員を雇用する必要があるので、多くのデータベースにおける新規な事項の検出および追跡は、コストが高く、労力を要し、時間を浪費する作業となっている。
【0004】
検索エンジンにおける検出および追跡方法は、近年ではデータベース内のデータをクラスタ化するためにベクトル・モデルを用いている。この従来の方法は、概ねデータベース内のデータに対応したベクトルq(kwd1, kwd2,. . ., kwdN)を形成するものである。このベクトルqは、kwd1, kwd2,. . ., kwdNといったデータに付されたアトリビュートの数に等しい次元を有するベクトルとして定義される。最も通常の場合には、アトリビュートは、単独のキーワード、フレーズ、人の名前、地名などとされる。通常では数学的にベクトルqを形成するため、バイナリ・モデルが用いられ、このバイナリ・モデルにおいては、データがkwd1を含まない場合には、kwd1を0に置換し、データがkwd1を含む場合にはkwd1を1へと置換する。ある場合には重み付け因子をバイナリ・モデルと組み合わせて、検索の精度が向上されている。このような重み付け因子としては、例えばデータ中におけるキーワードの出現回数を挙げることができる。
【0005】
図1には、上述したベクトルから構成されるドキュメント・マトリックスDの対角化のための典型的な方法を示す。このマトリックスDは、n×nの対称的な正のマトリックスであるものとする。図1に示されるように、n×nマトリックスDは、マトリックスDのサイズに応じて、2つの代表的な対角化方法により対角化することができる。n×nマトリックスDにおいてnが比較的小さな場合には、典型的に用いられる方法は、ハウスホルダー・2重対角化法であり、マトリックスDは、図1(a)に示すような2重対角化形態へと変換され、ついで2重化された要素をゼロへと掃き出しを行い、マトリックスDの固有ベクトルからなるマトリックスVを得る。
【0006】
図1(b)には、対角化の別の方法が示されている。図1(b)に示す対角化法は、n×nマトリックスDにおけるnが、大きいかまたは中程度の場合に有効である。この対角化プロセスは、まず、図1(b)に示すようにLanczos3重対角化を行い、ついでStrumシーケンス化を行って固有値、λ、λ...、λを決定する。ここで、“r”は、次元が低下されたドキュメント・マトリックスのランクを表す。このプロセスは、ついで逆イタレーションを行い、図1(b)に示されるように予め見出されている固有値に伴う1番目の固有ベクトルを決定する。
【0007】
データベースのサイズが、ドキュメント・マトリックスDの固有ベクトルの算出を完了させるため、正確ではあるが労力を要する方法の適用を依然として許容することができる限り、従来の方法は、データベース内のドキュメントをリトリーブし、ランク付けを行うためにきわめて有効である。しかしながら、きわめて大きなデータベースにおいては、ドキュメントのリトリーブやランク付けに要する計算時間は、多くの場合、検索エンジンのユーザにとっては長すぎることになりがちである。また、計算を完了させるためのCPU性能やメモリ容量といった資源についても限りがある。
【0008】
したがって、低コストで自動的な方法により、許容可能な計算時間できわめて大きなデータベースにおけるドキュメントを安定的にリトリーブし、かつ安定的にランク付けするための新規な方法を含んだシステムを提供することが必要とされている。
【0009】
<先行技術の開示>
いくつかの統計的な手法が、ベクトル空間モデルに基づいた情報リトリーブのためのアルゴリズムを用いて提案されてきている(例えば、Baeza-Yates, R., Riberio-Neo, B., “モダン・インフォメーション・リトリーブ(Modern Information Retrieval)”, Addition-Wesley, NY, 1999年、およびManning, C., Shutze, N., 統計的な自然言語処理の原理(“Foundations of Statistical Natural Language Processing)”, MIT Press, Cambridge, MA, 1999を参照されたい。)。
【0010】
Salton, G.,等は、“スマート・リトリーブ・システム−自動化ドキュメント処理における実験(The SMART Retrieval System-Experiments in Automatic Document Processing)”, Prentice-Hall, Englewood Cliffs, NJ, 1971年において、ベクトル空間モデルを総説している。彼らは、ベクトルを用いてドキュメントをモデル化しており、ベクトルの各座標軸がベクトルのアトリビュート、例えばキーワードを表すものとされている。ベクトルのバイナリ・モデルにおいては、座標軸は、ドキュメントに当該アトリビュートが含まれていれば1の値とされ、当該アトリビュートがドキュメントに含まれていなければ0とされる。より高度化されたドキュメント・ベクトル・モデルでは、タイトル、セクションヘッダ、要約における出現回数および位置といったキーワードに対する重み付けが考慮される。
【0011】
クエリーはまた、ドキュメントについて説明したと同一の方法により、ベクトルとしてモデル化される。所定のユーザ入力クエリーに対して、特定のドキュメントの信頼度は、クエリーと、ドキュメント・ベクトルとのそれぞれの間の“距離”を決定することにより算出される。数多くの異なったノルムをクエリー・ベクトルとドキュメント・ベクトルとの間の“距離”計算するために用いることができるが、内積から得られるクエリー・ベクトルとドキュメント・ベクトルとの間の角度が、これらの間の距離を決定するため、最も普通に用いられるものである。
【0012】
Deerwester等に付与された米国特許第4,839,853号、名称“ラテント・セマンティック構造を用いたコンピュータ情報リトリーブ(Computer information retrieval using latent semantic structure)”、およびDeerwester等、“ラテント・セマンティック・アナリシスによるインデキシング(Indexing by latent semantic analysis)”, Journal of American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407においては、データベースからドキュメントをリトリーブするためのユニークな方法が開示されている。開示された手順は、おおよそ以下のようなものである。
【0013】
ステップ1:ドキュメントおよびそれらのアトリビュートのベクトル空間モデル化
ラテント・セマンティック・インデキシング(LSI)においては、ドキュメントは、Saltonのベクトル空間モデルと同一の方法においてベクトル化されることにより、モデル化される。LSI法においては、クエリーとデータベースのドキュメントとの間の関係は、要素がmn (i, j)により表されるm×n行列MNすなわち、
【0014】
【数7】
Figure 0003672234
により表される。すなわち、マトリックスMNの列は、データベースにおけるドキュメントそれぞれを表すベクトルである。
【0015】
ステップ2:固有値分解によるランク付け問題の次元低下
LSI法の次のステップでは、固有値分解、すなわちマトリックスMNのSVD(Singular Value Decomposition)を実行する。マトリックスMNにおけるノイズは、k番目に大きな固有値σ、i=1,2,3,...,k,...から変更マトリックスAを形成することにより低減され、これらの対応する固有ベクトルは、下記式から得られる。
【0016】
【数8】
Figure 0003672234
上式中、Σは、σである対角要素が単調に減少する、対角化されたマトリックスである。マトリックスUおよびVは、マトリックスMNのk番目に大きな固有値に対応する右側と左側の固有ベクトルの列を含むマトリックスである。
【0017】
ステップ3:クエリー処理
LSI法に基づいた情報リトリーブにおけるクエリーの処理は、さらに2つのステップ、(1)クエリー射影ステップおよびそれに続いた(2)適合化ステップを含む。クエリー射影ステップでは、入力されたクエリーは、マトリックスUにより次元が低減されたクエリー−ドキュメント空間における擬ドキュメントへとマップされ、その後ランクが低減された固有値マトリックスΣからの対応する固有値σにより重み付けされる。このプロセスは、数学的には以下のように記述される。
【0018】
【数9】
Figure 0003672234
上式中、qは、元のクエリー・ベクトルであり、hat{q}は、擬ドキュメント・ベクトルであり、qは、qの転置ベクトルであり、{−1}は、逆数演算子である。第2のステップでは、擬ドキュメント・ベクトルhat{q}と、次元が低減されたドキュメント空間V とは同様に、多くの類似する方法のいずれか1つを用いることによって算出される。
【0019】
上述したように、ドキュメントをリトリーブし、ランク付けを行うため、多くの従来方法が存在するものの、本発明者等は、これまで充分な精度で効果的に、かつ迅速にきわめて大きなデータベースにおけるドキュメントのリトリーブ及びランク付けを行うための新規な方法を検討してきた。
【0020】
【発明が解決しようとする課題】
本発明は、最も大きな固有値を有する共分散マトリックスKの固有ベクトルは、最も主要な特徴に対応し、共分散マトリックスの2番目に大きな固有値の固有ベクトルが、2番目に主要な特徴に対応するということを見出すことによりなされたものである。したがって、共分散マトリックスの所定の小さなセットを、ドキュメント・マトリックスDの次元低下のために用いることが有効である。
【0021】
本発明においては、ユーザの入力したクエリーに適合させるため、ドキュメント・マトリックスDの次元を以下のように低減させる。
(1)共分散マトリックスKのj番目に大きな固有値と、それらに対応する固有ベクトルv(Dj)をまず算出し、
【0022】
【数10】
Figure 0003672234
(2)j番目に大きなDの固有値に対応するk個の固有ベクトルにより展開されたドキュメントd(i)のk次元のサブスペースを算出し
【0023】
【数11】
Figure 0003672234
(上記式中、iおよびjは、それぞれドキュメントおよび固有ベクトルの引数であり、cは、対応する係数である。)、
(3)j番目に大きな固有値に対応する固有ベクトルにより規定されるk次元のサブスペースにユーザ入力クエリーを射影し、
(4)これらの間の距離を算出することにより、ユーザ入力クエリーとドキュメントとの、それぞれの間の信頼度のランク付けを行うことによるものである。
【0024】
【課題を解決するための手段】
すなわち、本発明の第1の構成によれば、アトリビュート・データを含むドキュメントが加えられるデータベースにおける前記ドキュメントをリトリーブおよび/またはランク付けをするための方法が提供される。この方法は、
前記アトリビュート・データから導かれる数値要素を含むドキュメント・マトリックスを前記ドキュメントから形成するステップと、
前記ドキュメント・マトリックスから共分散マトリックスを形成するステップと、
前記共分散マトリックスを下記式
【0025】
【数12】
Figure 0003672234
(上記式中、Kは、共分散マトリックスであり、Vは、固有ベクトルからなるマトリックスであり、Σは、対角マトリックスであり、Vは、前記マトリックスVの転置マトリックスを示す。)にしたがって固有値分解するステップと、
前記マトリックスVに含まれると共に最大の固有値に対応する固有ベクトルを含む所定数の固有ベクトルを用いて前記マトリックスVの次元を低下させるステップと、
次元が低下されたマトリックスVを用いて前記ドキュメント・マトリックスの次元を低下させるステップと、
前記次元低下されたドキュメント・マトリックスとクエリー・ベクトルとの内積を計算させることにより、前記データベースの前記ドキュメントをリトリーブおよび/またはランク付けするステップとを含む。
【0026】
本発明の第1の構成においては、前記アトリビュート・データは、少なくとも1つのキーワードおよび/またはタイムスタンプを含むことができる。
【0027】
本発明の第1の構成では、前記共分散マトリックスは、下記式
【0028】
【数13】
Figure 0003672234
(上記式中、Kは、共分散マトリックスであり、Bは、能率マトリックスであり、Xbarは、平均ベクトルであり、Xbar は、平均ベクトルXbarの転置ベクトルを示す。)により算出することができる。
【0029】
本発明の第1の構成では、前記所定数は、前記共分散マトリックスの固有ベクトルの総数の15〜25%とすることが好ましい。
【0030】
本発明の第1の構成においては、さらに、所定の計算時間に応じて前記ドキュメント・マトリックスを直接用いる次元低下から、前記共分散マトリックスを用いる次元低下へと切り換えるステップを含み、前記共分散マトリックスを用いる前記次元低下が、前記ドキュメント・マトリックスの固有ベクトルを用いる前記ドキュメント・マトリックスの前記次元低下が前記所定の計算時間内に終了しない場合に実行されることが好ましい。
【0031】
本発明の第2の構成によれば、アトリビュート・データを含むドキュメントが加えられるデータベースにおける前記ドキュメントをリトリーブおよび/またはランク付けをするためのコンピュータ・システムが提供される。このコンピュータシステムは、
前記アトリビュート・データから導かれる数値要素を含むドキュメント・マトリックスを前記ドキュメントから形成する手段と、
前記ドキュメント・マトリックスから共分散マトリックスを形成する手段と、
前記共分散マトリックスを下記式
【0032】
【数14】
Figure 0003672234
(上記式中、Kは、共分散マトリックスであり、Vは、固有ベクトルからなるマトリックスであり、Σは、対角マトリックスであり、Vは、前記マトリックスVの転置マトリックスを示す。)にしたがって固有値分解する手段と、
前記マトリックスVに含まれると共に最大の固有値に対応する固有ベクトルを含む所定数の固有ベクトルを用いて前記マトリックスVの次元を低下させる手段と、
次元が低下されたマトリックスVを用いて前記ドキュメント・マトリックスの次元を低下させる手段と、
前記次元低下されたドキュメント・マトリックスとクエリー・ベクトルとの内積を計算させることにより、前記データベースの前記ドキュメントをリトリーブおよび/またはランク付けする手段とを含む。
【0033】
本発明の第2の構成においては、前記アトリビュート・データは、少なくとも1つのキーワードおよび/またはタイムスタンプを含むことができる。
【0034】
本発明の第2の構成においては、前記共分散マトリックスは、下記式
【0035】
【数15】
Figure 0003672234
(上記式中、Kは、共分散マトリックスであり、Bは、能率マトリックスであり、Xbarは、平均ベクトルであり、Xbar は、平均ベクトルXbarの転置ベクトルを示す。)で算出することができる。
【0036】
本発明の第2の構成においては、前記所定数は、前記共分散マトリックスの固有ベクトルの総数の15〜25%とすることができる。
【0037】
本発明の第2の構成においては、さらに、所定の計算時間に応じて前記ドキュメント・マトリックスを直接用いる次元低下から、前記共分散マトリックスを用いる次元低下へと切り換える手段を含み、前記共分散マトリックスを用いる前記次元低下が、前記ドキュメント・マトリックスから算出される固有ベクトルを用いる前記ドキュメント・マトリックスの前記次元低下が前記所定の計算時間内に終了しない場合に実行することが好ましい。
【0038】
本発明の第3の構成においては、アトリビュート・データを含むドキュメントが加えられるデータベースにおける前記ドキュメントをリトリーブおよび/またはランク付けをするための方法を実行するためのコンピュータ可読なコンピュータ・プログラムを含む記録媒体が提供される。該記録媒体は、
前記アトリビュート・データから導かれる数値要素を含むドキュメント・マトリックスを前記ドキュメントから形成するステップと、
前記ドキュメント・マトリックスから共分散マトリックスを形成し、
前記共分散マトリックスを下記式
【0039】
【数16】
Figure 0003672234
(上記式中、Kは、共分散マトリックスであり、Vは、固有ベクトルからなるマトリックスであり、Σは、対角マトリックスであり、Vは、前記マトリックスVの転置マトリックスを示す。)にしたがって固有値分解し、
前記マトリックスVに含まれると共に最大の固有値に対応する固有ベクトルを含む所定数の固有ベクトルを用いて前記マトリックスVの次元を低下させ、
次元が低下されたマトリックスVを用いて前記ドキュメント・マトリックスの次元を低下させ、
前記次元低下されたドキュメント・マトリックスとクエリー・ベクトルとの内積を計算させることにより、前記データベースの前記ドキュメントをリトリーブおよび/またはランク付けするステップとを含む前記ドキュメントのリトリーブおよび/またはランク付けをするための方法を実行するためのコンピュータ可読なコンピュータ・プログラムを含む。
【0040】
本発明の第3の構成においては、前記アトリビュート・データは、少なくとも1つのキーワードおよび/またはタイムスタンプを含んでいてもよい。
【0041】
本発明の第3の構成においては、前記共分散マトリックスは、下記式
【0042】
【数17】
Figure 0003672234
(上記式中、Kは、共分散マトリックスであり、Bは、能率マトリックスであり、Xbarは、平均ベクトルであり、Xbar は、平均ベクトルXbarの転置ベクトルを示す。)により算出することができる。
【0043】
本発明の第3の構成においては、前記所定数は、前記共分散マトリックスの固有ベクトルの総数の15〜25%とすることができる。
【0044】
本発明の製3の構成においては、さらに、所定の計算時間に応じて前記ドキュメント・マトリックスを直接用いる次元低下から、前記共分散マトリックスを用いる次元低下へと切り換え、前記共分散マトリックスを用いる前記次元低下が、前記ドキュメント・マトリックスから算出される固有ベクトルを用いる前記ドキュメント・マトリックスの前記次元低下が前記所定の計算時間内に終了しない場合に実行することが好ましい。
【0045】
【発明の実施の形態】
以下、本発明を図面に示した態様をもって説明するが、本発明は、後述する態様に制限されるものではない。
【0046】
1. ドキュメントのリトリーブおよびランキングの概略的手順
図2は、本発明の方法を概略的に示したフローチャートである。本発明の方法は、ステップ201から開始し、ステップ202へと進んでドキュメント・マトリックスD(m×nマトリックス)を、ドキュメントに含まれたキーワードから形成する。時間、日付、月、年、およびこれらのいかなる組み合わせにおいて、タイムスタンプを同時に用いることも可能である。
【0047】
この方法は、その後ステップ203へと進んでドキュメント・ベクトルの平均ベクトルXbarを算出する。さらにこの方法は、ステップ204へと進んで能率マトリックスB=D・D/nを算出する。ここで、Bは、能率マトリックスであり、Dは、ドキュメント・マトリックスDの転置マトリックスである。ついで、本発明の方法は、ステップ205に進み、下記式を用いて共分散マトリックスKを算出する。
【0048】
【数18】
Figure 0003672234
上式中、Xbar は、平均ベクトルXbarの転置ベクトルを示す。
【0049】
本発明の方法は、その後ステップ206へと進んで、共分散マトリックスKの固有値分解を下記式に示すように実行する。
【0050】
【数19】
Figure 0003672234
上式中、共分散マトリックスKのランク、すなわちrank(K)は、rである。
【0051】
本発明の方法は、ステップ207へと進んで、大きな方から15〜25%の固有値に対応する固有ベクトルの所定数kを含ませて、次元の低下したマトリックスVを形成することにより、マトリックスVの次元を減少させる。本発明の方法は、その後ステップ208へと進んで次元の低下したマトリックスVを用いてドキュメント・マトリックスの次元を低下させ、ステップ209に示されているDoc/Kwdクエリー検索、新規事項検出、追跡といったクエリー・ベクトルについて、リトリーブおよびランク付けを行うために用いられるドキュメント・サブスペースである、次元が低下したドキュメント・マトリックスを形成する。以下、本発明の本質的なステップについて、詳細に説明する。
【0052】
2.ドキュメントマトリックスの形成
図3は、ドキュメント・マトリックスDを例示した図である。マトリックスDは、ドキュメント1(doc 1)からドキュメントn(doc n)までの行から構成されており、各行は、特定のドキュメントに含まれるキーワード(kwd1,..., kwdn)から得られた要素を含んでいる。ドキュメントの数およびキーワードの数は、本発明においては制限されるものではなく、ドキュメントおよびデータベースのサイズに依存する。図3においては、ドキュメント・マトリックスDの要素は、数値1により示されているが、他の正の実数は、ドキュメント・マトリックスDを形成するために重み付け因子を用いる場合には用いることができる。
【0053】
図4には、ドキュメント・マトリックスを形成する実際の手順を示す。図4(a)では、ドキュメントがSGMLフォーマットにおいて記述されているものとしている。本発明の方法は、ドキュメントに基づいて、リトリーブおよびランク付けを行うためのキーワードを発生させ、その後ドキュメントのフォーマットを、本発明の方法において好適に用いることができる図4(b)に示すような別のフォーマットへと変換する。ドキュメントのフォーマットは、SGMLに限定されるものではなく、別のフォーマットであっても本発明においては用いることができる。
【0054】
図4(a)を用いて、アトリビュートの発生手順を説明する。例えば、アトリビュートは、キーワードとすることができる。キーワード発生は、以下のようにして行うことができる。
(1)キャピタル文字の単語を抽出する、
(2)順序付けする、
(3)出現回数を算出する、
(4)n>Maxまたはn<Minであれば単語を削除する、
(5)単独の単語(例えばThe、A、And、Thereなど)を除去する、
などである。
【0055】
ここで、Maxは、キーワードあたりの所定の最大出現回数であり、Minは、キーワードあたりの所定の最小出現回数である。(4)に示した手順は、精度を向上させるために多くの場合に有効である。上述の手順を実行する順序については実質的な制限はなく、上述した手順の順序は、用いるシステムの条件、プログラミングの便宜を考慮して決定することができる。上述した手順は、キーワード発生手順の1つの例を示したにすぎず、多くの別の手順も本発明において用いることができる。
【0056】
キーワードを発生させ、SGMLフォーマットを変換した後に構成されたのが、図3に示したドキュメント・マトリックスである。バイナリ・モデルを用い、重み付け因子および/または関数を用いない場合のドキュメント・ベクトル/マトリックスを形成させるための疑似コードを以下に示す。
【0057】
REM:No Weighting factor and/or function
If kwd (j) appears in doc (i)
Then M (i, j) = 1
Otherwise M (i, j) = 0
同時にタイムスタンプを用いる場合には、タイムスタンプについても同様の手順を適用することができる。
【0058】
本発明は、ドキュメント・マトリックスDを形成する場合に、重み付け因子および/または重み付け関数をキーワードおよびタイムスタンプの双方について用いることができる。キーワードWについての重み付け因子および/または重み付け関数としては、ドキュメントにおけるキーワードの出現回数、ドキュメントにおけるキーワードの位置、キーワードがキャピタルで記載されているか否か、を挙げることができるが、これらに制限されるものではない。タイムスタンプについての重み付け因子および/または重み付け関数Wは、また本発明によればキーワードと同様に時間/日付スタンプを得る場合にも適用することができる。
【0059】
3.共分散マトリックスの形成とVの次元減少
共分散マトリックスの形成は、図5に示すように平均ベクトルXbarを算出するステップ502と、能率マトリックスを算出するステップ503と、共分散マトリックスを算出するステップ504といった概ね3つのステップを含んでいる。図6は、図5に示した手順の詳細を示す。平均ベクトルXbarは、図6(a)に示すようにドキュメント・マトリックスDの転置マトリックスの各行の要素を加算し、ドキュメント数、すなわちnにより要素の和を除算することにより得られる。平均ベクトルXbarの構成を図6(b)に示す。ドキュメント・マトリックスの転置マトリックスDは、n×m要素を含み、Xbarは、Aの同一の行における要素の平均値から構成される列ベクトルを1列だけから構成される。
【0060】
ステップ503においては、能率マトリックスBを、下記式により算出する。
【0061】
【数20】
Figure 0003672234
上式中、Dは、ドキュメント・マトリックスであり、Dは、その転置マトリックスである。ついで、この手順では、ステップ504において共分散マトリックスKを、平均ベクトルXbarおよび能率マトリックスBから算出する。
【0062】
【数21】
Figure 0003672234
得られる共分散マトリックスKは、m×mの正の行列として構成され、その後、その固有値分解が、従来の方法により直接的に算出される。固有値分解後の共分散マトリックスKの構造が、図7(a)に示されており、共分散マトリックスKは、下記式により表される。
【0063】
【数22】
Figure 0003672234
上式中、Vは、固有値から構成されるマトリックスであり、Σは、対角マトリックスであり、Vは、マトリックスVの転置マトリックスである。図7においては、固有ベクトルが破線で示されている。
【0064】
マトリックスVの次元低下は、図7(b)に示されているように、最大の固有値に対応する固有ベクトルを含むように、固有値の所定数kを選択して、k×mマトリックスVを形成することにより行われる。本発明によれば、固有ベクトルの選択は、最も大きな固有値に対応する固有ベクトルが含まれる限り、種々の方法により行うことができる。kの数値については実質的な制限はないが、整数値kは、固有ベクトルの総数の約15〜25%に設定することが、データベース内のドキュメントのリトリーブおよびランク付けを顕著に改善するためには好ましい。整数値が小さすぎると、検索精度が低下し、整数値が大きすぎると、本発明の効果が損なわれる可能性があるためである。
【0065】
4.ドキュメント・マトリックスの次元低下
ついで本発明の方法は、マトリックスVを用いてドキュメント・マトリックスの次元低下を実行する。ドキュメント・マトリックスの次元低下を図8に示す。ドキュメント・マトリックスDの次元を低減させたマトリックスhatDは、ドキュメント・マトリックスDと、マトリックスVの転置マトリックスとを、図8(a)に示すように単に乗算するだけで得られる。また、図8(b)に示すように、次元低下を行ったマトリックスhatDに対して、k×k要素の重み付けマトリックスを用いて、ある種の重み付けを行うことも可能である。このようにして算出されたマトリックスhatDは、図8(b)に示すようにk×nの要素を含み、キーワードに対して比較的特有の特徴を含んでいる。したがって、データベースにおけるドキュメントのリトリーブおよびランク付けは、検索エンジンのユーザにより入力されるクエリーに対して著しく向上することになる。
【0066】
図9は、きわめて大きなデータベースにおけるドキュメントのリトリーブおよびランキングを行うための別の態様を示した図である。図9に示した態様においては、長時間の計算時間を要し、膨大なハードウエア資源を要求する直接的な次元低下方法をドキュメント・マトリックスDに対して適用する従来法から、次元低下方法を切り換えるものである。図9に示した態様においては、次元低下に要する時間を判断するためのステップ904が与えられていて、対象とされているデータベースにおけるドキュメントに対し、本発明の次元低下が適切であるか否かを判断する。
【0067】
図9に示されるように、本発明の第2の態様はステップ901から開始し、ステップ902へと進んでバイナリ・モデルを用いてドキュメント・マトリックスを発生させる。本発明の方法は、さらにステップ903へと進んで、ドキュメント・マトリックスを直接用いる従来の次元低下を実行する。この第2の態様においては、タイマといった好適な手段によりステップ904においてドキュメント・マトリックスの次元低下の計算時間を測定している。計算時間が所定の時間Tを超える場合(No)には、本発明の方法は、ステップ905へと分岐して、本発明の方法へと次元低下の方法を切り換え、さらにステップ906へと進んで、KWD/クエリー検索などを実行する。この判断がYesである場合には、この方法は、ステップ906へと進んでKWD/クエリー検索などを実行させて検索結果を与える構成とされている。
【0068】
5.コンピュータシステム
図10を参照すると、本発明のコンピュータ・システムの代表的な態様が示されている。本発明のコンピュータ・システムは、スタンド・アローンのコンピュータ・システム、いかなる従来のプロトコルを用いてLAN/WANを介して通信を行うクライアント・サーバ・システム、またはインターネット・インフラベースを通して通信を行うコンピュータ・システムとすることができる。図10においては、本発明に有効な代表的なコンピュータ・システムを、クライアント・サーバ・システムを用いて示している。
【0069】
図10に示したコンピュータ・システムは、少なくとも1台のホスト・コンピュータと、サーバ・コンピュータとを含んでいる。クライアント・コンピュータと、サーバ・ホスト・コンピュータとは、通信プロトコルTCP/IPを介して通信されている。しかしながら、本発明においては別のいかなる通信プロトコルであっても用いることができる。図10において説明するように、クライアント・コンピュータは、サーバ・ホスト・コンピュータへとリクエストを送信し、サーバ・ホスト・コンピュータにおいてサーバ・ホスト・コンピュータの記憶手段内に記録されているドキュメントのリトリーブおよび/またはランク付けを行なう。
【0070】
このサーバ・ホスト・コンピュータは、クライアント・コンピュータからのリクエストに応じてデータベース内のリトリーブおよび/またはランク付けを行なう。リトリーブおよび/またはランク付けの結果は、その後クライアント・コンピュータにより、サーバ・スタッブを介してサーバ・ホスト・コンピュータからダウンロードされて、クライアント・コンピュータのユーザにより用いられることになる。図10においては、サーバ・ホスト・コンピュータは、ウエッブ・サーバとして記載しているが、これに限定されるものではなく、いかなる別のタイプのサーバ・ホストであっても、コンピュータ・システムが上述した機能を提供することができる限り、本発明において用いることができる。以下、本発明をさらに実施例をもって説明するが、後述する実施例は、本発明を制限するものではない。
【0071】
【実施例】
本発明の方法を、:http://www.research.qtt.com/lewisからの、20,000を超える記事を利用することができるロイター21578ニュース・データベースを用いて試験を行った。データベース内のドキュメントを、本発明の方法によりリトリーブを行った。キーワード・リストを、キーワードのいかなる位置にでもキャピタル文字を含む単語を検索することにより発生させた。本発明者等は、説明する実施例においては簡単なキーワード・モデルを用いたが、別の方法により発生される、さらによいモデルまたはキーワードセットがあり得る。しかしながら、後述するように、上述した簡単なモデルでも、データベース内のドキュメントのリトリーブおよびランク付けにおいて、良好な結果が得られた。キーワード発生においては、精度を向上させるべく、頻出する単語や希にしか出現しない単語をキーワード・リストから排除した。
【0072】
実験は、各クエリーにつき、互いに異なる2つのセットについて本発明の方法に従いリトリーブおよびランク付けを行うもの(実施例)と、LSI(ラテント・セマンテック・インデキシング)法によりリトリーブおよびランク付けを行うもの(比較例)として行った。上述した異なる2つのセットを以下に示す。
【0073】
セット1;大きなロイターのデータベースから83記事(ドキュメント)を含むミニ−データベースを構成して、本発明の方法を検討した。このミニ−データベースは、入力したクエリーによりリトリーブされるドキュメントを知ることができるだけ、充分に小さいものである。
セット2;本発明の方法を検討するためにロイター−21578データベースを完全に使用した。
上述の83ドキュメントを含むサンプルデータベースを表1に示す。
【0074】
【表1】
Figure 0003672234
Figure 0003672234
Figure 0003672234
(実施例1) セット1を使用:
実施例1においては、本発明による方法と、LSIによる方法とを比較した。検討を行うデータセットは、ロイター−21578ニュースデータベースから構成した小データベースとした。この実験を、152次元空間から開始して、双方の方法において30次元空間にまで次減数を減少させて行った。
【0075】
この実験では、データベースに含まれる所定のドキュメントの1つを、リトリーブおよびランク付けのためのクエリーとして入力した。ドキュメントをリトリーブするために入力したクエリーは、したがって、各表にリストされる第1番目の結果に対応している。各クエリーについて、比較例であるLSI法により得られた結果を最初に示し、ついで実施例として、共分散マトリックスを用いる本発明の方法により得られた結果を示す。リトリーブされたドキュメントの前に配置された符号“XXX”は、入力したクエリーに対して関連性のないドキュメントであることを示す。この結果は、次の順序に並べられたセットとしてリストしてある。エラーの表示;リトリーブされたドキュメントの順番;信頼度;ドキュメントの日付;ドキュメントNo.;ドキュメントのタイトルである。結果を、精度についてのコメントと共に表2から表6に示す。
【0076】
第2のクエリーを用いた実験においては、2つのドキュメントが本発明の方法によりエラーとしてリトリーブされたが、表3に示されるように、かっこ内に表示した信頼度は、明確なたち下がりを示している。したがって、さらによいキーワード・セットを用いることによって上述のエラーは排除できるものと考えられる。表4に示す第3のクエリーを用いた実験においては、ドキュメント4,7,11は、上位ランクとしてリトリーブされている。ドキュメント4,7,11は、ニュージーランドにおいて発生した地震に関連するものである。本発明の方法は、ニュージーランドにおける地震以外の別のドキュメントともにグループ化されているが、LSI法と比較すれば、それらのランク付けと共に、より高い相対的信頼度(かっこ内に示す)が与えられているのが示されている。表6に示した実験においては、マクダネル製の飛行機と別のドキュメントの間は、本発明の方法では高い信頼度をもって明確に規定されたギャップを与えているが、表6に示された比較例では、信頼度のコリレーションがよくないために、互いに交錯した結果が得られているのが示されている。
(実施例2):セット2を使用
実施例2においては、データベースを除いてドキュメントをリトリーブおよびランク付けするために同一の実験的手法を用いた。実施例2で用いたデータベースは、ロイター−21578ニュース・データベースに含まれる全セットである。7100のキーワードをドキュメント“19870304 1534 leaf disease hits sri lanka rubber”に含まれる単語から選択した。この結果を表7〜表10に示す。各実験について入力したクエリーは、対応する表のそれぞれ第1番目にリストされたものである。
【0077】
表7に示されるように、LSI法を用いた比較例では、バヒア・ココアについて関連する1つのドキュメントを見出しているが、本発明の方法は、バヒア・ココアに関連する2ドキュメントをリトリーブしている。本発明の方法は、さらにココアに関連した別のドキュメントを発見することに成功している。
【0078】
【表2】
Figure 0003672234
【0079】
【表3】
Figure 0003672234
【0080】
【表4】
Figure 0003672234
【0081】
【表5】
Figure 0003672234
【0082】
【表6】
Figure 0003672234
【0083】
【表7】
Figure 0003672234
【0084】
【表8】
Figure 0003672234
【0085】
【表9】
Figure 0003672234
【0086】
【表10】
Figure 0003672234
表2から表10に示すように、本発明の方法は、いくらかのエラーは観測されたものの、LSI法により得られた結果よりもドキュメントのリトリーブおよびランク付けに対して良好な結果を示している。したがって、本発明は、新規、かつ効果的なデータベースの検索及び追跡方法に加え、リトリーブおよびランキング方法を提供することができる。本発明の方法はまた、ドキュメント・マトリックスの次元低下を、データベースへの新規なドキュメントの追加にそれほど依存しない大きな方から15〜25%に対応するi番目の固有ベクトルしか用いずに行うため、データベースに対する新たなドキュメントの追加に対して安定である。このため、一度共分散マトリックスを形成すると、検索結果の精度が維持できる限り、労力を要し、時間のかかる固有値分解を、検索を行うたびに行わずに多数の検索を実行できるため、性能を著しく改善することを可能とする。
【0087】
これまで、本発明を特定の態様をもって説明を行ってきた。しかしながら、当業者によれば、本発明の範囲を逸脱することなく、種々の除外、変更、及び他の態様が可能であることは理解できよう。
【0088】
本発明は、これまでリトリーブおよびランク付けのための方法について詳細に説明してきたが、本発明はまた、本発明で説明した方法を実行するためのシステム、方法自体、本発明の方法を実行するためのプログラムが記録された、例えば光学的、磁気的、電気−磁気的記録媒体といったプログラム製品をも含むものである。
【図面の簡単な説明】
【図1】マトリックスを対角化させるための従来の方法を示した図。
【図2】本発明の方法を示したフローチャート。
【図3】ドキュメント・マトリックスの構成を示した図。
【図4】ドキュメント・マトリックスの形成及びそのフォーマット化を示した図。
【図5】共分散マトリックスを算出するためのフローチャート。
【図6】ドキュメント・マトリックスの転置マトリックスおよび平均ベクトルの構成を示した図。
【図7】共分散マトリックスを用いる次元低下手順を示した概略図。
【図8】本発明による共分散マトリックスを用いる次元低下手順の詳細を示した図。
【図9】本発明の方法の別の態様を示した図。
【図10】本発明のコンピュータ・システムを例示した図。

Claims (15)

  1. アトリビュート・データを含むドキュメントが加えられるデータベースにおける前記ドキュメントをリトリーブおよびランク付けするための方法であって、該方法は、
    コンピュータが前記アトリビュート・データから導かれる数値要素を含むドキュメント・マトリックスを前記ドキュメントから形成するステップと、
    コンピュータが前記ドキュメント・マトリックスから共分散マトリックスを形成するステップと、
    コンピュータが前記共分散マトリックスから下記式
    Figure 0003672234
    (上記式中、Kは、共分散マトリックスであり、Vは、固有ベクトルからなるマトリックスであり、Σは、対角マトリックスであり、Vは、前記マトリックスVの転置マトリックスを示す。)にしたがって固有値分解したデータ構造を生成するステップと、
    コンピュータが前記マトリックスVに含まれると共に最大の固有値に対応する固有ベクトルを含む所定数の固有ベクトルを用いて前記マトリックスVの次元を低下するステップと、
    コンピュータが次元が低下されたマトリックスVを用いて前記ドキュメント・マトリックスのキーワード次元を低下するステップと、
    コンピュータが前記キーワード次元が低下されたドキュメント・マトリックスとクエリー・ベクトルとの内積を計算させることにより、前記データベースの前記ドキュメントをリトリーブおよびランク付けするステップとを実行する、前記ドキュメントをリトリーブおよびランク付けするための方法。
  2. 前記アトリビュート・データは、少なくとも1つのキーワードおよび/またはタイムスタンプを含む、請求項1に記載の方法。
  3. 前記共分散マトリックスは、下記式
    Figure 0003672234
    (上記式中、Kは、共分散マトリックスであり、Bは、能率マトリックスであり、Xbarは、平均ベクトルであり、Xbar は、平均ベクトルXbarの転置ベクトルを示す。)により算出される、請求項1に記載の方法。
  4. 前記所定数は、前記共分散マトリックスの固有ベクトルの総数の15〜25%である、請求項1に記載の方法。
  5. さらに、コンピュータが所定の計算時間に応じて前記ドキュメント・マトリックスを直接用いる次元低下から、前記共分散マトリックスを用いる次元低下へと切り換えるステップを含み、前記共分散マトリックスを用いる前記次元低下が、前記ドキュメント・マトリックスの固有ベクトルを用いる前記ドキュメント・マトリックスの前記次元低下が前記所定の計算時間内に終了しない場合に実行される、請求項1に記載の方法。
  6. アトリビュート・データを含むドキュメントが加えられるデータベースにおける前記ドキュメントをリトリーブおよびランク付けするためのコンピュータ・システムであって、前記コンピュータ・システムは、
    前記アトリビュート・データから導かれる数値要素を含むドキュメント・マトリックスを前記ドキュメントから形成する手段と、
    前記ドキュメント・マトリックスから共分散マトリックスを形成する手段と、
    前記共分散マトリックスから下記式
    Figure 0003672234
    (上記式中、Kは、共分散マトリックスであり、Vは、固有ベクトルからなるマトリックスであり、Σは、対角マトリックスであり、Vは、前記マトリックスVの転置マトリックスを示す。)にしたがって固有値分解したデータ構造を生成する手段と、
    前記マトリックスVに含まれると共に最大の固有値に対応する固有ベクトルを含む所定数の固有ベクトルを用いて前記マトリックスVの次元を低下させる手段と、
    次元が低下されたマトリックスVを用いて前記ドキュメント・マトリックスのキーワード次元を低下させる手段と、
    前記キーワード次元の低下されたドキュメント・マトリックスとクエリー・ベクトルとの内積を計算させることにより、前記データベースの前記ドキュメントをリトリーブおよびランク付けする手段とを含む、前記ドキュメントをリトリーブおよびランク付けするためのコンピュータ・システム。
  7. 前記アトリビュート・データは、少なくとも1つのキーワードおよび/またはタイムスタンプを含む、請求項6に記載のコンピュータ・システム。
  8. 前記共分散マトリックスは、下記式
    Figure 0003672234
    (上記式中、Kは、共分散マトリックスであり、Bは、能率マトリックスであり、Xbarは、平均ベクトルであり、Xbar は、マトリックスXbarの転置マトリックスを示す。)で算出される、請求項6に記載のコンピュータ・システム。
  9. 前記所定数は、前記共分散マトリックスの固有ベクトルの総数の15〜25%である、請求項6に記載のコンピュータ・システム。
  10. さらに、所定の計算時間に応じて前記ドキュメント・マトリックスを直接用いる次元低下から、前記共分散マトリックスを用いる次元低下へと切り換える手段を含み、前記共分散マトリックスを用いる前記次元低下が、前記ドキュメント・マトリックスから算出される固有ベクトルを用いる前記ドキュメント・マトリックスの前記次元低下が前記所定の計算時間内に終了しない場合に実行される、請求項6に記載のコンピュータ・システム。
  11. アトリビュート・データを含むドキュメントが加えられるデータベースにおける前記ドキュメントをリトリーブおよびランク付けするための方法を実行するためのコンピュータ実行可能なコンピュータ・プログラムを含むコンピュータ可読な記録媒体であって、該記録媒体は、コンピュータに対し、
    前記アトリビュート・データから導かれる数値要素を含むドキュメント・マトリックスを前記ドキュメントから形成し、
    前記ドキュメント・マトリックスから共分散マトリックスを形成し、
    前記共分散マトリックスから下記式
    Figure 0003672234
    (上記式中、Kは、共分散マトリックスであり、Vは、固有ベクトルからなるマトリックスであり、Σは、対角行列であり、Vは、前記マトリックスVの転置マトリックスを示す。)にしたがって固有値分解されたデータ構造を生成し、
    前記マトリックスVに含まれると共に最大の固有値に対応する固有ベクトルを含む所定数の固有ベクトルを用いて前記マトリックスVの次元を低下し、
    次元が低下されたマトリックスVを用いて前記ドキュメント・マトリックスのキーワード次元を低下し、
    前記キーワード次元の低下されたドキュメント・マトリックスとクエリー・ベクトルとの内積を計算させることにより、前記データベースの前記ドキュメントをリトリーブおよびランク付けすること含むを前記ドキュメントのリトリーブおよびランク付けする処理を実行させるコンピュータ可読なコンピュータ・プログラムを含む、記録媒体。
  12. 前記アトリビュート・データは、少なくとも1つのキーワードおよび/またはタイムスタンプを含む、請求項11に記載の記録媒体。
  13. 前記共分散マトリックスは、下記式
    Figure 0003672234
    (上記式中、Kは、共分散マトリックスであり、Bは、能率マトリックスであり、Xbarは、平均ベクトルであり、Xbar は、平均ベクトルXbarの転置ベクトルを示す。)により算出される、請求項11に記載の記録媒体。
  14. 前記所定数は、前記共分散マトリックスの固有ベクトルの総数の15〜25%である、請求項11に記載の記録媒体。
  15. さらに、所定の計算時間に応じて前記ドキュメント・マトリックスを直接用いる次元低下から、前記共分散マトリックスを用いる次元低下へと切り換えさせ、前記共分散マトリックスを用いる前記次元低下が、前記ドキュメント・マトリックスから算出される固有ベクトルを用いる前記ドキュメント・マトリックスの前記次元低下が前記所定の計算時間内に終了しない場合に実行される、請求項11に記載の記録媒体。
JP2000175848A 2000-06-12 2000-06-12 データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体 Expired - Lifetime JP3672234B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000175848A JP3672234B2 (ja) 2000-06-12 2000-06-12 データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体
US09/879,756 US6678690B2 (en) 2000-06-12 2001-06-12 Retrieving and ranking of documents from database description

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000175848A JP3672234B2 (ja) 2000-06-12 2000-06-12 データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2002024268A JP2002024268A (ja) 2002-01-25
JP3672234B2 true JP3672234B2 (ja) 2005-07-20

Family

ID=18677658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000175848A Expired - Lifetime JP3672234B2 (ja) 2000-06-12 2000-06-12 データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体

Country Status (2)

Country Link
US (1) US6678690B2 (ja)
JP (1) JP3672234B2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701305B1 (en) 1999-06-09 2004-03-02 The Boeing Company Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US7194461B2 (en) * 2001-03-02 2007-03-20 Hewlett-Packard Development Company, L.P. Document and information retrieval method and apparatus
US6985908B2 (en) * 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US7287064B1 (en) * 2001-11-20 2007-10-23 Sprint Spectrum L.P. Method and system for determining an internet user's interest level
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US7587381B1 (en) * 2002-01-25 2009-09-08 Sphere Source, Inc. Method for extracting a compact representation of the topical content of an electronic text
US20030187898A1 (en) * 2002-03-29 2003-10-02 Fujitsu Limited Parallel processing method of an eigenvalue problem for a shared-memory type scalar parallel computer
US7249312B2 (en) * 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
US20040163044A1 (en) * 2003-02-14 2004-08-19 Nahava Inc. Method and apparatus for information factoring
US7783617B2 (en) * 2003-04-16 2010-08-24 Yahoo! Inc. Personals advertisement affinities in a networked computer system
US6873996B2 (en) * 2003-04-16 2005-03-29 Yahoo! Inc. Affinity analysis method and article of manufacture
JP4074564B2 (ja) * 2003-07-30 2008-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
US8676830B2 (en) * 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US8914383B1 (en) 2004-04-06 2014-12-16 Monster Worldwide, Inc. System and method for providing job recommendations
US7739142B2 (en) * 2004-05-17 2010-06-15 Yahoo! Inc. System and method for providing automobile marketing research information
US7383262B2 (en) * 2004-06-29 2008-06-03 Microsoft Corporation Ranking database query results using probabilistic models from information retrieval
WO2006099289A2 (en) * 2005-03-11 2006-09-21 Yahoo! Inc. System and method for listing administration
US20060206517A1 (en) * 2005-03-11 2006-09-14 Yahoo! Inc. System and method for listing administration
US8433713B2 (en) 2005-05-23 2013-04-30 Monster Worldwide, Inc. Intelligent job matching system and method
US8527510B2 (en) * 2005-05-23 2013-09-03 Monster Worldwide, Inc. Intelligent job matching system and method
US8375067B2 (en) * 2005-05-23 2013-02-12 Monster Worldwide, Inc. Intelligent job matching system and method including negative filtration
US8122034B2 (en) * 2005-06-30 2012-02-21 Veveo, Inc. Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count
US7747618B2 (en) * 2005-09-08 2010-06-29 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
US8099674B2 (en) 2005-09-09 2012-01-17 Tableau Software Llc Computer systems and methods for automatically viewing multidimensional databases
US7676463B2 (en) * 2005-11-15 2010-03-09 Kroll Ontrack, Inc. Information exploration systems and method
WO2007064375A2 (en) * 2005-11-30 2007-06-07 Selective, Inc. Selective latent semantic indexing method for information retrieval applications
US8195657B1 (en) 2006-01-09 2012-06-05 Monster Worldwide, Inc. Apparatuses, systems and methods for data entry correlation
US8600931B1 (en) 2006-03-31 2013-12-03 Monster Worldwide, Inc. Apparatuses, methods and systems for automated online data submission
US20070288308A1 (en) * 2006-05-25 2007-12-13 Yahoo Inc. Method and system for providing job listing affinity
JP4550074B2 (ja) 2007-01-23 2010-09-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 不均質な情報源からの情報トラッキングのためのシステム、方法およびコンピュータ実行可能プログラム
US8244551B1 (en) 2008-04-21 2012-08-14 Monster Worldwide, Inc. Apparatuses, methods and systems for advancement path candidate cloning
US20100011009A1 (en) * 2008-07-08 2010-01-14 Caterpillar Inc. System and method for monitoring document conformance
JP2010020241A (ja) 2008-07-14 2010-01-28 Sony Corp 表示装置、表示装置の駆動方法、駆動用集積回路、駆動用集積回路による駆動方法及び信号処理方法
US20100082356A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. System and method for recommending personalized career paths
US20120321202A1 (en) 2011-06-20 2012-12-20 Michael Benjamin Selkowe Fertik Identifying information related to a particular entity from electronic sources, using dimensional reduction and quantum clustering
US8832655B2 (en) 2011-09-29 2014-09-09 Accenture Global Services Limited Systems and methods for finding project-related information by clustering applications into related concept categories
US8886651B1 (en) 2011-12-22 2014-11-11 Reputation.Com, Inc. Thematic clustering
US10636041B1 (en) 2012-03-05 2020-04-28 Reputation.Com, Inc. Enterprise reputation evaluation
US8494973B1 (en) 2012-03-05 2013-07-23 Reputation.Com, Inc. Targeting review placement
US8918312B1 (en) 2012-06-29 2014-12-23 Reputation.Com, Inc. Assigning sentiment to themes
US20140108086A1 (en) * 2012-10-15 2014-04-17 Fluor Technologies Corporation Project categorization and assessment through multivariate analysis
US8805699B1 (en) 2012-12-21 2014-08-12 Reputation.Com, Inc. Reputation report with score
US8744866B1 (en) 2012-12-21 2014-06-03 Reputation.Com, Inc. Reputation report with recommendation
US8925099B1 (en) 2013-03-14 2014-12-30 Reputation.Com, Inc. Privacy scoring
US9201929B1 (en) * 2013-08-09 2015-12-01 Google, Inc. Ranking a search result document based on data usage to load the search result document
US20170330153A1 (en) 2014-05-13 2017-11-16 Monster Worldwide, Inc. Search Extraction Matching, Draw Attention-Fit Modality, Application Morphing, and Informed Apply Apparatuses, Methods and Systems
CN108134668B (zh) * 2017-12-27 2022-03-04 数安时代科技股份有限公司 点积协议处理方法、计算机设备及存储介质
US12026728B2 (en) * 2018-08-06 2024-07-02 Walmart Apollo, Llc Systems and methods for identifying and using micro-intents
CN110334746A (zh) * 2019-06-12 2019-10-15 腾讯科技(深圳)有限公司 一种图像检测方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
DE69031866T2 (de) * 1990-03-30 1998-06-18 Koninkl Philips Electronics Nv Verfahren und Anordnung zur Signalverarbeitung durch die Eigenvektortransformation
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
US5805742A (en) * 1995-08-16 1998-09-08 Trw Inc. Object detection system with minimum-spanning gradient filter for scene clutter suppression
US6345109B1 (en) * 1996-12-05 2002-02-05 Matsushita Electric Industrial Co., Ltd. Face recognition-matching system effective to images obtained in different imaging conditions
JPH11175534A (ja) * 1997-12-08 1999-07-02 Hitachi Ltd 画像検索方法およびその装置およびこれを利用した検索サービス
JP3483113B2 (ja) * 1998-05-29 2004-01-06 日本電信電話株式会社 時系列画像検索方法、装置、および時系列画像検索プログラムを記録した記録媒体
US6233495B1 (en) * 1998-06-12 2001-05-15 Abb Automation, Inc. Methods for modeling two-dimensional responses of cross-machine direction actuators in sheet-forming processes
JP2000112944A (ja) * 1998-09-30 2000-04-21 Canon Inc データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体

Also Published As

Publication number Publication date
JP2002024268A (ja) 2002-01-25
US6678690B2 (en) 2004-01-13
US20020032682A1 (en) 2002-03-14

Similar Documents

Publication Publication Date Title
JP3672234B2 (ja) データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体
JP3870043B2 (ja) 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ
JP3845553B2 (ja) データベースにおけるドキュメントのリトリーブ・ランク付けを実行するコンピュータ・システム、およびプログラム
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
US7644102B2 (en) Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US8589371B2 (en) Learning retrieval functions incorporating query differentiation for information retrieval
JP3562572B2 (ja) データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
US9031935B2 (en) Search system, search method, and program
US9477729B2 (en) Domain based keyword search
JP2009282957A (ja) 文書処理装置および文書処理方法
JP2003256477A (ja) ランダムサンプル階層構造を用いた情報処理
JP3953295B2 (ja) 情報検索システム、情報検索方法、情報検索を実行させるためのプログラムおよび情報検索を実行させるためのプログラムが記録された記録媒体
US20060271532A1 (en) Matching pursuit approach to sparse Gaussian process regression
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Ikeda et al. Automatically Linking News Articles to Blog Entries.
JP2002073681A (ja) 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
JP2004310561A (ja) 情報検索方法、情報検索システム及び検索サーバ
Baillie et al. A multi-collection latent topic model for federated search
Rani Importance of information retrieval
Roberts Information Retrieval for question answering
Scicchitano A Comparative Study and Analysis of Query Performance Prediction Algorithms to Improve their Reproducibility
Faridi et al. Trends and issues in modern information retrieval
Sobh MSSE: Med-Scale Search Engine Local Development and Distributed Deployment
Minkov et al. A graphical framework for contextual search and name disambiguation in email

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050405

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20050405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050415

R150 Certificate of patent or registration of utility model

Ref document number: 3672234

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term