JP2005519396A

JP2005519396A - 情報検索要求に応じて検索結果を提供する方法及び装置

Info

Publication number: JP2005519396A
Application number: JP2003573567A
Authority: JP
Inventors: スリニヴァスヴィアールグッタ; ヴァサンスフィロミン; ミロスラヴトラヤコヴィク
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-03-07
Filing date: 2003-02-19
Publication date: 2005-06-30
Also published as: WO2003075181A2; WO2003075181A3; KR20040091095A; CN1639712A; US6910037B2; US20030172063A1; AU2003206064A1; EP1485823A2

Abstract

検索の結果（即ち電子文書）を得るためのシステム及び方法であって、検索結果文書が互いにどれだけ関連しているかを定量化するために前記検索結果文書に含まれるタームのＴＦＩＤＦを利用して、前記定量化された関係に基づいて検索結果を組織化するシステム及び方法が開示される。かようなシステム及び方法を用いて、検索結果文書間の関係が閲覧者に明らかとなるように検索結果文書が表示されることができる。

Description

本発明は電子文書の検索に関し、より詳細には、検索結果中の電子文書間の関係を決定するため前記検索結果を処理するシステム及び方法に関する。

（パーソナルコンピュータ（ＰＣ）、パーソナル・ディジタル・アシスタント（ＰＤＡ）、携帯電話等のような）インターネット利用可能なコンピュータ装置の一般的な用途は、「ウェブ検索」の実行である。典型的にユーザは、前記コンピュータ装置上でウェブブラウザプログラムを実行し、インターネットを介してリモートのサーバにおけるサーチエンジンにアクセスするために前記ウェブブラウザを利用する。サーチエンジン用のユーザインタフェースはしばしば、ユーザがキーワード又は一連のキーワードを入力することができるテキストボックスを持つウェブページである。これらキーワードが入力されると、サーチエンジンは該キーワードに関連するウェブページのリストを準備する。通常、サーチエンジンは実際にインターネットを検索せず、インデクスデータベースを検索する。インデクスデータベースには、インターネット上のウェブページに対応するファイルが管理されている。幾つかの場合において、インデクスデータベースは実際のウェブページ、又はウェブページの圧縮されたバージョンから成る。

関連するウェブページのリストが生成されると、サーチエンジン用のユーザインタフェースは、ユーザに前記リストを提示する。図１は、サーチエンジンの結果を表示するための典型的なウェブページのユーザインタフェース１００を示す。図１において前記結果は「リンク」１５０として提示され、ユーザがコンピュータ装置のカーソルを用いて前記リンクを選択（「クリック」又は「ダブルクリック」）したときに他のウェブページに直接ジャンプすることを可能とするハイパーテキストの形態である。リンク１５０は典型的に関連度の降順であり、ここではウェブページＡ１５１が最も関連するウェブページである。

しかしながら、互いに最も強く関連するリンクは、しばしば関連する文書のリストにおいて離れた場所に出現する。例えば、ウェブページＡ１５１とウェブページＢ１５９とは、実際には同一のウェブサイトからのものである場合がある。しかしながら、これらのページは前記リストにおいて離れて出現しているため、ユーザは、これらのウェブページが（勿論検索キーワードを除いて）関連のないものであるという考えに誤って導かれ得る。加えて、これらウェブページが離れて出現し、コンピュータ装置には限られた量の表示スペースしかないため、他の関連するウェブページが前記表示スペースの外に押し出され、かくしてユーザに提示されない。更に、例えばウェブページＨ１５７及ウェブページＩ１５３のような同一の概念に強く関連するウェブページは、ユーザにとってはウェブページＨ１５７とウェブページＩ１５３とが共にグルーピングされて表示されるとより効果的で便利であるにもかかわらず、互いから離され得る。

それ故、繰り返しを回避すると共に閲覧者により多くの情報を提供するために、互いに強く関連するアイテムが共にグルーピングされるように検索結果を表示するシステム及び方法に対するニーズが存在する。

本発明の一目的は、検索結果のリストにおいて類似するアイテムの繰り返しを回避することにある。

本発明の他の目的は、閲覧者が検索結果リスト中のアイテム間にどんなアイテムがあるかがわかるように、検索クエリの結果において強く関連するアイテムを共にグルーピングすることにある。

本発明の更に他の目的は、閲覧者が検索結果リスト中のどのアイテムが相互に関連しているかがわかり、閲覧者がより多くの検索結果を見ることができるように、コンピュータ装置における検索結果の表示において、強く関連するアイテムを共にグルーピングすることにある。

これらの及び他の目的は、検索の結果（即ち電子文書）を取得し、検索結果文書が互いに対しどれだけ関連するかを定量化するために該検索結果文書中に含まれるターム（term）のＴＦＩＤＦを利用し、当該定量化された関連に基づいて検索結果を組織化するシステム及び方法を提供する本発明によって達成される。かようなシステム及び方法を利用して、検索結果文書間の関係が閲覧者に明白となるように検索結果文書が表示されることができる。

本発明の他の目的及び特徴は、添付する図と共に考察される以下の詳細な説明から明らかとなるであろう。しかしながら、図は単に説明の目的のためにデザインされたものであって、添付する請求項に参照が為されるべき本発明の限定の定義としてデザインされたものではないことは理解されるべきである。更に図は必ずしも定縮尺で描かれておらず、示唆されていない限りは、図は単にここで説明される構造及び手順を概念的に示すためのものであることは理解されるべきである。

図において、同様の参照番号は同様の要素を表す。

本発明の好適な実施例におけるステップの概要が、図２のフロー図に示される。検索結果アイテムを処理するためのシステム及び方法であって、検索を実行するためのシステム及び方法ではないため、検索を実行するステップは図２に示されていない。検索結果を生成するいずれのとり得る方法も、本発明と共に利用されることができる。図２のステップ２１０において、各検索結果アイテムにおける幾つかの又は全てのタームのＴＦＩＤＦ（Term Frequency/Inverse Document Frequency）が算出される。ＴＦＩＤＦの定義は以下に与えられる。次いでステップ２２０において、ＴＦＩＤＦ値に基づいた検索結果アイテム間の類似度が決定される。最後にステップ２３０において、ステップ２２０の前記決定された類似度に従って、前記検索結果アイテムが組織化される。

ここでは、「電子文書」（又は時折「文書」）という語は、検索結果アイテムを表すために利用される。電子文書は電子フォーマットで保存され電子装置によって「読み取られる」ことが可能である、何らかのタイプのファイルである。電子文書は写真又はオーディオトラックであっても良く、そのため本文脈において「読み取り」とは、電子装置が該電子文書中のマテリアルを人間によって知覚可能なフォーマットに変換することを意味する。電子文書の「ターム」とは、電子装置によって電子文書から構文解析により取り出されることが可能なデータの個々のビットである。

例えば、上述の背景において、電子文書はウェブページ、又はより詳細にはＨＴＭＬ（HyperText Markup Language）ファイルである。ＨＴＭＬは、単なるテキストではなく、他のウェブページへのリンク及び他のリソースへのポインタを提供する「ハイパーテキスト」を含む。ＨＴＭＬは、文書がどのようにフォーマットされるべきかを記述するため、「マークアップ」言語である。換言すれば、ＨＴＭＬは何を表示すべきか及びどのように表示するべきかをウェブブラウザに示す。全てのウェブページはＨＴＭＬ（又は他の同様のマークアップ言語）のバージョンで書かれているが、ユーザはＨＴＭＬを見ることはなく、ＨＴＭＬ命令の結果のみを見る。例えばウェブページ中のＨＴＭＬはウェブブラウザに対し、特定の場所に保存された特定の写真を取得し、前記ウェブページの左下の隅に前記写真を表示するように命令し得る。一方ユーザは、前記左下の隅に前記写真を見るのみである。ＨＴＭＬ命令は、<body bgcolor=”#ffffff”>のような「タグ」の形式である。本発明については、ＨＴＭＬ電子文書の「ターム」は、ウェブページ、ＨＴＭＬタグ、及びＨＴＭＬタグ内の全ての要素のいずれに出現するテキストの語をも含む。

更に本発明は、例えばインターネットのサーチエンジンのインデクスデータベース中のウェブページ、ＭＰ３プレイヤ中のオーディオファイル、又はユーザのコンピュータ装置に接続されたデータベース中のレコードのいずれであるかにかかわらず、電子文書のいずれの集合にも適用される。

ＴＦＩＤＦ（Term Frequency/Inverse Document Frequency）は、特定の電子文書中に或るタームが何度出現するかの、文書の全体集合中に当該タームを持つ電子文書が幾つあるかに対する比である。分母（文書頻度（Document Frequency）、ＤＦ）はまた、前記特定のタームが文書の全体集合に何度出現するかであっても良い。どちらの場合でも、分母（ＤＦ）の機能は、該タームが前記全体集合中の文書間をどれだけ良く特徴付けることを助けるかを示すことである。例えば、「antidisestablishmentarianism」のような特定のタームが３つの文書のみに出現する場合、当該タームのＤＦは３に等しくなる。「the」のような他のタームは300,000文書に出現するかも知れず、該タームのＤＦは300,000である。かくしてＤＦはＴＦＩＤＦの分母であるから、「antidisestablishmentarianism」のＴＦＩＤＦは「the」のＴＦＩＤＦよりもかなり大きくなる。このようにして、ＴＦＩＤＦは文書間の特徴付けにおいて最も有用なタームを選択するのに有用である。

文書ｘ中の語ｗ_ｉについてＴＦＩＤＦの数学的な定義は、
ＩＦＩＤＦ_ｘ（ｗ_ｉ）＝ｆ_ｔ ^ｘ（ｗ_ｉ）／ｆ_ｄ（ｗ_ｉ）
である。ここで、
ｆ_ｔ ^ｘ（ｗ_ｉ）＝ＴＦ、即ち文書ｘ中の語ｗ_ｉの頻度
ｆ_ｄ（ｗ_ｉ）＝ＤＦ、即ち全体集合に渡る語ｗ_ｉの文書頻度
である。

文書の全体集合は、特定の実施例のニーズに従って変更されても良い。

図２におけるステップ２１０は、図３に示すように更に分解されることができる。ステップ３１０（以下に説明する本方法においてとり得る２つの位置を指す破線を伴う、破線から成るボックスにおいて表される）において、個々の語又はタームの全体の頻度ｆ_ｄが決定される。

ステップ３１０：ＤＦ_Ｇ（ｗ_ｉ）＝ｆ_ｄ（ｗ_ｉ）＝文書の集合Ｇ中の、タームｗ_ｉが出現する文書の数

点線３１３は、全体の頻度ｆ_ｄが所定の量である場合のステップ３１０の位置を示す。この場合ステップ３１０は、残りのステップが何度実行されるかにかかわらず、システムの初期化時に１度のみ実行されても良い。文書の全体集合Ｇとして働くであろうものの決定においてかなりの範囲がある。例えば、インターネットのサーチエンジンを用いて動作する場合、全体集合Ｇはインデクスデータベースにおけるインデクス文書の集合たり得る。全てのウェブページ中の全てのワード及び／又はタームについてのＤＦ_Ｇが算出され、これらのＤＦ値は後の利用のために保存される。当該算出は、いずれかの特定の検索が実行される前に実行されても良い。他の例として、統計的な確率の辞書が利用されても良い。ここで前記辞書中の各タームは、全体集合Ｇ中のいずれもの単一の文書に出現する関連する確率を持つ。全体集合Ｇがインターネットである場合、前記辞書はウェブページの統計的なサンプリングに基づくものであっても良い。全体集合Ｇが医学テキストデータベースである場合、前記辞書は、前記医学テキストデータベース中の、語ｗ_ｉを持つ文書の正確な総数であっても良い。これらの値は、コンテンツが変化すると共に、常に更新されても良い（即ちステップ３１０が繰り返されても良い。）。

点線３１５は、実際の検索結果を文書の全体集合Ｇとして利用して、全体の頻度ｆ_ｄが決定される場合の、ステップ３１０の位置を示す。換言すれば、特定の検索クエリが実行され検索結果が生成された（即ちステップ３２０）後に、前記検索結果中の文書が、これら文書中のタームの全体の頻度ｆ_ｄを算出するために利用される。

全体の頻度が前記検索の前に決定されるか後に決定されるかにかかわらず、図３における次のステップはステップ３３０であり、ここで各検索結果文書中の各語のターム頻度が算出される。前記検索結果中にＮ個の文書があると仮定する。従って、Ｎ個の文書のそれぞれにおける各語ｗ_ｘのターム頻度ｆ_ｔは以下のように算出される：

ステップ３３０：ＴＦ_ｋ（ｗ_ｉ）＝ｆ_ｔ ^ｋ（ｗ_ｉ）＝文書ｋにタームｗ_ｉが出現する回数
ここでｋ＝１、２、・・・、Ｎである。

他の実施例においてはこの値は、文書中の語の数によってこの量を割ることによって正規化されても良い。ステップ３３０の後、Ｎ個の文書のそれぞれにおける各語ｗ_ｉのＴＦＩＤＦが算出される。

ステップ３４０：ＴＦＩＤＦ_ｋ（ｗ_ｉ）＝ｆ_ｔ ^ｋ（ｗ_ｉ）／ｆ_ｄ（ｗ_ｉ）
ここでｋ＝１、２、・・・、Ｎである。

ステップ３４０の後、各文書中の各語がＴＦＩＤＦ値を持つことは必ずしも真ではない。例えば、ウェブページのサーチエンジンのインデクスデータベースの繰り返しのサンプリングを利用することにより個々のタームの全体の頻度ｆ_ｄが予め算出されている場合、個々の検索結果中の特定の語が全体の頻度ｆ_ｄを与えられていない可能性がある。他の例として、このことは個々のタームの全体の頻度ｆ_ｄが、語を英語で出現する該語の統計的な確率に関連づける辞書からダウンロードされる場合に起こり得る。これらの場合には、検索結果文書中のｆ_ｄを持たない語は無視されても良く、又は全体の頻度ｆ_ｄは全体集合として検索結果を利用して算出されても良い。これらの語についてのｆ_ｄが、文書の全体集合として検索結果文書の集合を利用して算出されても良い（即ちステップ３１０がステップ３２０の後である）他の実施例においては、全ての又は殆ど全ての文書に出現する語は、ほんの少しの特徴付け能力しか持たないとして破棄されても良い。

図２に戻ると、ステップ２１０における前記検索結果文書中の幾つかの又は全ての語のＴＤＩＤＦの算出の後、ステップ２２０においてＴＦＩＤＦ値に基づいて検索結果アイテム間の類似度が決定される。本発明の好適な実施例においては、図４に示されるようにステップ２２０は２つのステップを有する。図４におけるステップ４１０において、前記検索結果文書はベクトルフォーマットに変換され、ステップ４２０において、ステップ４１０において生成されたベクトル要素が対応する文書間の類似度合いを算出するために利用される。

図５は、図４におけるステップ４１０の変換処理の概念的な説明図である。文書Ｄ５１０は、特定の順序で、語ｗ_１、ｗ_３、ｗ_７、ｗ_１５、ｗ_１６等から成る。このことはまた、集合Ｄ５２０として表現され得る。ベクトルフォーマットに変換されるとき、前記語は各語についてのＴＦＩＤＦベクトルによって置き換えられ、かくしてベクトル要素Ｄに帰着する。ステップ４１０において各文書がベクトルフォーマットとなると、ステップ４２０において文書間の類似度（例えばベクトル距離）が測定されることができる。

幾つかの場合においては、ステップ４１０において、前記文書中の全ての語でなく特定の語のみを、ＴＦＩＤＦベクトルフォーマットに変換することが望ましい。このベクトルの削減は、前記文書が後に比較されるときに、より少ない記憶量及びより少ない計算量に帰着する。しかしながら、どの語が変換されどの語が変換されないかが決定される必要がある。図６は、図４の変換ステップ４１０においてベクトルとなる語の数を削減するための方法の例である。ステップ６１０において、各語について全体のＴＦＩＤＦ_Ｏ（全ての検索結果文書にわたるＴＦＩＤＦ）が算出される：

ステップ６１０：

この式は全てのＮ個の検索結果文書にわたって、各語ｗ_ｉについて全てのＴＦＩＤＦ値を加算する。次いでステップ６２０において、最も高いＴＦＩＤＦ_Ｏを持つ所定の数Ｍ個の語が選択される。Ｍは１からＮまでのいずれの数値的な量であっても良い。Ｍが１である場合、ステップ４２０において算出される類似度は、１語又は１タームに基づくものとなる。好ましくはＭは、文書間で多くの数のベクトルが比較されるが、「the」や「an」のような語はその比較的低いＴＦＩＤＦ_Ｏ値のために比較から除外されるように選択される。選択の他の方法がステップ６２０において利用されても良い。例えば、どの語が選択されるかを決定するために閾値のＴＦＩＤＦ_Ｏが利用されても良い。このことは、選択される語の数が検索毎に変化することを意味するが、関連性のレベルは一定のままとなる。

図４に戻ると、ステップ４２０においてベクトル要素間の類似度（即ち距離）を決定するための多くの方法がある。本分野において良く知られた類似度の尺度は例えば、ダイス（Dice）係数及びコサイン（Cosine）係数を含む。コサイン係数は、２つのベクトル間の内積を表し、ベクトル間の角度を測定する。好適な実施例において、前記角度は、両方のベクトルが対応する語に関する、２つの文書間の相対的な近さを表す。例えば、語「インターネット」が文書Ｄ１においてベクトルを、及び文書Ｄ２においてベクトルを持つ場合、これら２つのベクトル間の小さな角度は、これら２つのベクトル及び該ベクトルが表す文書Ｄ１及びＤ２が密接に関連することを示す。類似度測定の多くの例は、R. O. Duda、P. E. Hart及びD. G. Storkによる「Pattern Classification」（John Wiley & Sons, 2000年）にあり、参照によって本明細書に組み込まれたものとする。

図２に戻ると、ステップ２３０において前記検索結果アイテムは決定された類似度に従って組織化される。本発明の好適な実施例においては、図７に示されるようにステップ２３０は２つのステップを有する。図７におけるステップ７１０において、前記検索結果文書は、ステップ２２０において算出された類似度合いに基づく標準的なクラスタリング方法を利用して、共にグルーピング即ち「クラスタリング」される。このことは、ある程度密接に関連する文書から成るクラスタを生成する。クラスタリング方法は本分野において良く知られている。好適な実施例は、ｋステップクラスタリングを利用する。ｋステップクラスタリングは、データ点を、平方和基準が最小化されるようにデータ点の共通の要素を持たないサブセットにクラスタリングするアルゴリズムである。ｋステップクラスタリングは以下の特性を持つ。（ａ）各クラスタが、該クラスタ中の全てのデータ点の中央位置である中心を持つ。（ｂ）各データ点が、最も近いものがクラスタの中心であるような該クラスタ中にある。多くのクラスタリング方法の例が、William B. Frakes及びRicardo Baeza-Yate（編集）の「Information Retrieval: Data structures & Algorithms」（Prentice Hill、1992年）における論説であるEdie Rasmussenによる「Clustering Algorithms」において見出される。本文献は参照によって本明細書に組み込まれたものとする。ステップ７２０において、各クラスタの重心が、該文書のクラスタの「代表」文書として選択される。ベクトル要素から成るクラスタの重心の決定もまた本分野において良く知られており、重心の算出の例は「Pattern Classification」において見出される。本文献は上述の参照によって本明細書に組み込まれたものである。

図８は、図７の２ステップ組織化処理の概念的な説明図である。図８におけるボックス８００は、ベクトル空間の一部の表現である。図８においては２次元として示されているが、該ベクトル空間はＭ次元であり、ここでＭは文書間で比較される語の数である。ベクトル要素Ａ８５１、Ｂ８５９、Ｈ８５７及びＩ８５３は、異なる文書を示す。図７の２ステップ処理において、Ａ８５１、Ｂ８５９、Ｑ及びＸから成るクラスタを囲む線８１０、並びにＨ９５７、Ｉ９５３、Ｐ及びＭから成るクラスタを囲む線８２０によって示されるように、類似する文書（即ちベクトル空間中で互いに近接するベクトル要素）は最初に互いにグルーピングされる。クラスタ中に何があるかの決定は閾値（例えば、同一のクラスタ中の最も遠いベクトル要素からの最大距離、クラスタのとり得る重心からの最大距離等）を含んでも良い。次に、各クラスタの重心が決定される。図８においては、文書Ａ８５１が第１のクラスタの重心であり、文書Ｈ８５７が第２のクラスタの重心である。検索結果中の文書の数に依存して、クラスタの層即ちクラスタ中のサブクラスタやサブクラスタ中のサブサブクラスタ等を持つことも可能である。

図２は、本発明の好適な実施例による方法の概要を与えた。図３乃至８は及び付随する説明は、図２におけるステップを実施化する特定の手段を探求した。ここで図９は、本発明の好適な実施例を実施化するための特定のステップの例の完全なシーケンスを示す。

図９は、本発明の好適な実施例によるステップのシーケンスの例のフロー図である。ステップ９１０において、文書の全体集合中の全ての又は幾つかのタームの文書頻度が決定される。該ステップは、特定の検索が為される前又は為された後に実行されても良い。検索が実行され検索結果が返された後、ステップ９２０において、前記検索結果を構成する電子文書中の幾つかの又は全てのタームのターム頻度が決定される。ステップ９２０がステップ９１０の後に行なわれることも可能である。ステップ９２０からのターム頻度と、ステップ９１０からの文書頻度との両方を持つことにより、ステップ９３０において、前記検索結果文書中の幾つかの又は全てのタームのＴＦＩＤＦが決定される。

ステップ９４０において、各検索結果文書がＴＦＩＤＦベクトル要素に変換される。ステップ９５０において、検索結果文書間の類似度合いが、該検索結果文書の対応するＴＦＩＤＦベクトル要素を利用して算出される。ステップ９６０において、前記類似度合いを利用して、対応するベクトル要素をクラスタリングすることにより、前記検索結果文書が共にクラスタにグルーピングされる。最後にステップ９７０において、対応するベクトル要素クラスタの重心を選択することにより、各クラスタから代表文書が選択される。

図１０は、本発明の好適な実施例による方法のステップを実行した後の、サーチエンジンの結果を表示するウェブページのインタフェース１０００の例を示す。図８において組織化された検索結果の幾つかのリンクが、図１０のウェブページに表示される。前記検索結果は、幾分階層的なフォーマット（２レベルのみ、即ち前記重心及び前記クラスタ中の残りの他の文書）で提示される。前記ウェブページが開かれたとき、各クラスタの重心のみが示されるリンクである。各重心は左側にボックスの「＋」を持ち、「＋」がクリックされると、前記重心の下に次のレベルのリンクが示される。図１０においては、重心リンクＡ１０５１及びＨ１０５７の隣の「＋」ボックスがクリックされており、そのため各重心リンクの下に次の階層の文書が示されている。前記次の階層の文書は、関連度の降順に示される。かくして、重心文書Ａ８５１についてのリンク１０５１の下には、文書Ｂについてのリンク１０５９、文書Ｑについてのリンク、及び文書Ｘについてのリンクがリスト表示される。

図１とは異なり、図１０に示されたような本発明の好適な実施例は、強く関連する文書を共にグルーピングする。このことは、ユーザにとって検索結果が関連するカテゴリにどのように分解されるかを理解することを非常に容易にする。例えば、ユーザがキーワード「mason」を用いて検索を実行した場合、検索結果は一方が石工（masons）及び石工職（masonry）、及び他方がフリーメーソン（freemasonry）となるような、２つの基本カテゴリに分かれ得る。先行技術においては、両方のカテゴリからの結果が織り交ぜられ、ユーザにとってはユーザの焦点を所望のカテゴリに狭めることを困難にしていた。本発明の好適な実施例を用いれば、ユーザは２つのカテゴリ「石工／石工職」と「フリーメーソン」とに既に分けられた結果を受け取るであろう。

上述の種々の好適な実施例の説明は、本発明の幾つかの利点を示す。タームのＴＦＩＤＦを利用することによって、本発明は文書の特徴付けにおいてタームがどれだけ効果的であるかを考慮に入れる。検索結果間の関係に基づいて前記検索結果をクラスタに組織化することは、ユーザが文書間の関連を即時に確かめることを支援する。

本発明の好適な実施例におけるパラメータの多くが、ユーザによって設定されても良い。ユーザが本方法においてどのタームが使用されるかを決定しても良い。例えば、検索結果がＨＴＭＬ文書の形をとる場合、ユーザは本方法において写真タグだけが利用されることを指示し、従って該検索結果の写真に従ってクラスタリングされる文書に帰着しても良い。ユーザは全体の頻度を決定するための異なる全体集合を決定しても良い。例えば、本発明の実施例が１以上の辞書から所定のｆ_ｄ値を利用した場合、ユーザは検索に依存して利用するための異なる辞書（即ち、検索結果の殆どが医学の記事である場合には医学辞書、前記結果が法律の記事である場合には法律辞書等）を選択しても良い。ユーザはまた利用され得る異なる閾値を決定しても良い。例えばユーザは、最大の距離を決定することにより、クラスタのサイズを指示しても良い。他の例として、ユーザは類似度測定ステップにおいて幾つのベクトルが比較されるかについての値Ｍを選択しても良い。このようにして、ユーザは必要とされる算出の量を限定しより早く結果を取得したり、又は算出の量を増やしより詳細に区別された結果を取得したりすることができる。

本発明の好適な実施例に適用されたような本発明の基本的な新規な特徴が示され、説明され及び指摘されたが、説明された方法及び示された装置の形態及び詳細並びにこれらの動作において、種々の省略及び代替並びに変更が本発明の精神から逸脱することなく当業者によって為されても良いことは理解されるであろう。例えば、略同一の方法で同一の結果を達成する略同一の機能を実行する要素及び／又は方法ステップの全ての組み合わせは、本発明の範囲内であることが明らかに意図されている。更に、本発明のいずれの開示された形態又は実施例と共に示され及び／又は説明された構造及び／又は要素及び／又は方法ステップも、一般的な設計選択の事項として、他のいずれの開示された若しくは説明された若しくは提案された形態又は実施例において組み込まれても良いことは認識されるべきである。それ故、ここに添付された請求項の範囲により示されるように限定されることのみが意図されている。

検索の結果を示すサーチエンジン用の従来のウェブページのユーザインタフェースを示す。本発明の好適な実施例におけるステップの概要を示すフロー図である。本発明の実施例による図２のステップ２１０を実行するための方法の例を示すフロー図である。本発明の実施例による図２のステップ２２０を実行するための方法の例を示すフロー図である。本発明の好適な実施例による図４におけるステップ４１０の変換処理の概念的な図である。本発明の好適な実施例による図４におけるステップ４１０の変換処理においてベクトルとなるワードの数を減少させる方法の例を示すフロー図である。本発明の実施例による図２のステップ２３０を実行する方法の例を示すフロー図である。本発明の好適な実施例による図７の組織化処理の概念的な説明図である。本発明の好適な実施例による検索結果を処理する方法の例のフロー図である。本発明の好適な実施例による検索の結果を示すサーチエンジン用のウェブページのユーザインタフェースを示す。

Claims

検索結果を処理する方法であって、前記検索結果はタームから成る電子文書である方法において、前記方法は、
前記検索結果における各電子文書中の各タームについてＴＦＩＤＦを決定するステップを有し、ここで前記ＴＦＩＤＦとは文書頻度によって除算されたターム頻度であり、前記ターム頻度とは文書中の特定のタームの頻度であり、前記文書頻度とは文書の全体集合にわたる特定の前記タームの頻度であり、前記方法は更に、
前記決定されたＴＦＩＤＦに基づく、前記検索結果中の電子文書間の類似度を決定するステップと、
前記決定された類似度に従って前記検索結果を組織化するステップと、
を有することを特徴とする方法。
前記文書頻度は、前記電子文書の全体集合において特定のタームが出現する回数、又は電子文書の全体の集合における前記特定のタームが出現する電子文書の数のいずれか１つであることを特徴とする、請求項１に記載の方法。
各電子文書中の各タームについてＴＦＩＤＦを決定する前記ステップが、
前記電子文書の全体集合において特定のタームが出現する回数、及び前記電子文書の全体集合における前記特定のタームが出現する電子文書の数のいずれか１つを決定するステップと、
各タームが特定の電子文書に含まれる回数を決定するステップと、
第１のステップの結果によって第２のステップの結果を除算することにより、前記検索結果における各特定の電子文書中の各タームについて前記ＴＦＩＤＦを決定するステップと、
を有することを特徴とする、請求項１に記載の方法。
前記検索結果中の電子文書間の前記類似度を決定するステップが、
前記検索結果中の各電子文書をベクトルフォーマットに変換するステップであって、これにより各電子文書について対応するベクトル要素が生成され、ここで前記決定されたＴＦＩＤＦ値はベクトルであるステップと、
前記対応するベクトル要素間の類似度を算出するステップと、
を有することを特徴とする、請求項１に記載の方法。
前記決定された類似度に従って前記検索結果を組織化するステップが、
前記検索結果中の前記電子文書を、該電子文書の対応するベクトル要素をクラスタリングすることによりクラスタリングするために、前記算出された類似度を利用するステップであって、これにより少なくとも１つのクラスタが形成されるステップと、
各前記クラスタ中の重心ベクトル要素を選択することにより、前記少なくとも１つのクラスタのそれぞれについて代表電子文書を選択するステップと、
を有することを特徴とする請求項４に記載の方法。
前記文書頻度を決定するステップが、検索が実行される前及び検索が実行された後のいずれか１つにおいて実行されることを特徴とする、請求項３に記載の方法。
前記文書頻度を決定するステップが、前記検索が実行される前に実行され、前記電子文書の全体集合は、サーチエンジンのインデクスデータベース中のインデクスファイルの集合であることを特徴とする、請求項３に記載の方法。
前記文書頻度を決定するステップが、前記検索が実行された後に実行され、前記文書頻度は、タームについての統計的な確率を含む辞書から取得されることを特徴とする、請求項３に記載の方法。
文書頻度を決定するステップが、前記検索が実行された後に実行され、前記文書の全体集合は前記検索結果であることを特徴とする、請求項３に記載の方法。
前記ＴＦＩＤＦを決定するステップにおいて決定されたＴＦＩＤＦは、前記特定の電子文書の長さによって各前記決定されたＴＦＩＤＦを除算することにより正規化されることを特徴とする、請求項１に記載の方法。
前記類似度を算出するステップは、ダイス係数及びコサイン係数のうちの１つを利用して実行されることを特徴とする、請求項１に記載の方法。
前記算出された類似度を利用して前記クラスタリングするステップにおいて生成された少なくとも１つのクラスタのうちの少なくとも１つのクラスタ内でサブクラスタを生成するステップと、
前記生成されたサブクラスタ中の重心ベクトル要素を選択することにより、前記生成されたサブクラスタの代表電子文書を選択するステップと、
を更に有することを特徴とする、請求項４に記載の方法。
前記検索結果中の電子文書の階層を提示することにより前記検索結果の概要を表示するステップを更に有し、ここで前記階層は、前記代表文書から成る第１のレベルと前記クラスタ中の残りの文書から成る第２のレベルとを有することを特徴とする、請求項５に記載の方法。
前記検索結果中の各電子文書をベクトルフォーマットに変換するステップが、
前記ＴＦＩＤＦが決定された前記タームのそれぞれについて全体のＴＦＩＤＦを算出するステップを有し、ここで特定のタームについての全体のＴＦＩＤＦとは、前記検索結果の前記電子文書中の前記特定のタームについての全てのＴＦＩＤＦの合計であり、更に前記変換するステップが、
前記全体のＴＦＩＤＦに基づいて前記全体のＴＦＩＤＦを持つタームの数Ｍを選択するステップを有し、ここでＭは前記全体のＴＦＩＤＦを持つタームの総数以下であり、更に前記変換するステップが、
前記検索結果中の各電子文書をベクトルフォーマットに変換するステップを有し、ここで前記選択されたＭ個のタームの前記決定されたＴＦＩＤＦ値のみがベクトルとして利用されることを特徴とする、請求項５に記載の方法。
前記全体のＴＦＩＤＦに基づいて前記全体のＴＦＩＤＦ値を持つタームの数Ｍを選択するステップが、
数Ｍを選択するステップと、
最も高い前記全体のＴＦＩＤＦ値を持つＭ個のタームを選択するステップと、
を有することを特徴とする、請求項１４に記載の方法。
前記全体のＴＦＩＤＦに基づいて前記全体のＴＦＩＤＦ値を持つタームの数Ｍを選択するステップが、
タームについての最小の前記全体のＴＦＩＤＦを選択するステップと、
前記最小の前記全体のＴＦＩＤＦ値を超える前記全体のＴＦＩＤＦ値を持つタームを選択するステップとを有し、ここでＭは前記最小の前記全体のＴＦＩＤＦ値を超える前記全体のＴＦＩＤＦ値を持つタームの数であることを特徴とする、請求項１４に記載の方法。
検索結果を処理するシステムであって、前記検索結果はタームから成る電子文書であるシステムにおいて、前記システムは、
前記電子文書の全体集合中の幾つかの又は全てのタームの文書頻度を決定する手段を有し、ここで前記文書頻度とは前記文書の全体集合にわたるタームの頻度であり、前記システムは更に、
前記検索結果中の各文書中の幾つかの又は全てのタームのターム頻度を決定する手段を有し、ここで前記ターム頻度とは特定の電子文書にタームが出現する回数であり、前記システムは更に、
前記検索結果中の各特定の電子文書中の幾つかの又は全てのタームについて、各特定のタームの文書頻度によって前記各特定のタームのターム頻度を除算することによりＴＦＩＤＦを決定する手段と、
前記検索結果中の各電子文書をベクトルフォーマットに変換する手段であって、これにより前記各電子文書について対応するベクトル要素が生成される手段とを有し、ここで前記決定されたＴＦＩＤＦ値はベクトルであり、前記システムは更に、
前記対応するベクトル要素間の類似度を算出する手段と、
前記検索結果中の前記電子文書を該電子文書の対応するベクトル要素をクラスタリングすることによりクラスタリングするために前記算出された類似度を利用する手段であって、これにより少なくとも１つのクラスタが形成される手段と、
各クラスタ中の重心ベクトル要素を選択することにより前記少なくとも１つのクラスタのそれぞれについての代表電子文書を選択する手段と、
を有することを特徴とするシステム。