JP2005519396A - 情報検索要求に応じて検索結果を提供する方法及び装置 - Google Patents
情報検索要求に応じて検索結果を提供する方法及び装置 Download PDFInfo
- Publication number
- JP2005519396A JP2005519396A JP2003573567A JP2003573567A JP2005519396A JP 2005519396 A JP2005519396 A JP 2005519396A JP 2003573567 A JP2003573567 A JP 2003573567A JP 2003573567 A JP2003573567 A JP 2003573567A JP 2005519396 A JP2005519396 A JP 2005519396A
- Authority
- JP
- Japan
- Prior art keywords
- tfidf
- document
- term
- search
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
検索の結果(即ち電子文書)を得るためのシステム及び方法であって、検索結果文書が互いにどれだけ関連しているかを定量化するために前記検索結果文書に含まれるタームのTFIDFを利用して、前記定量化された関係に基づいて検索結果を組織化するシステム及び方法が開示される。かようなシステム及び方法を用いて、検索結果文書間の関係が閲覧者に明らかとなるように検索結果文書が表示されることができる。
Description
本発明は電子文書の検索に関し、より詳細には、検索結果中の電子文書間の関係を決定するため前記検索結果を処理するシステム及び方法に関する。
(パーソナルコンピュータ(PC)、パーソナル・ディジタル・アシスタント(PDA)、携帯電話等のような)インターネット利用可能なコンピュータ装置の一般的な用途は、「ウェブ検索」の実行である。典型的にユーザは、前記コンピュータ装置上でウェブブラウザプログラムを実行し、インターネットを介してリモートのサーバにおけるサーチエンジンにアクセスするために前記ウェブブラウザを利用する。サーチエンジン用のユーザインタフェースはしばしば、ユーザがキーワード又は一連のキーワードを入力することができるテキストボックスを持つウェブページである。これらキーワードが入力されると、サーチエンジンは該キーワードに関連するウェブページのリストを準備する。通常、サーチエンジンは実際にインターネットを検索せず、インデクスデータベースを検索する。インデクスデータベースには、インターネット上のウェブページに対応するファイルが管理されている。幾つかの場合において、インデクスデータベースは実際のウェブページ、又はウェブページの圧縮されたバージョンから成る。
関連するウェブページのリストが生成されると、サーチエンジン用のユーザインタフェースは、ユーザに前記リストを提示する。図1は、サーチエンジンの結果を表示するための典型的なウェブページのユーザインタフェース100を示す。図1において前記結果は「リンク」150として提示され、ユーザがコンピュータ装置のカーソルを用いて前記リンクを選択(「クリック」又は「ダブルクリック」)したときに他のウェブページに直接ジャンプすることを可能とするハイパーテキストの形態である。リンク150は典型的に関連度の降順であり、ここではウェブページA151が最も関連するウェブページである。
しかしながら、互いに最も強く関連するリンクは、しばしば関連する文書のリストにおいて離れた場所に出現する。例えば、ウェブページA151とウェブページB159とは、実際には同一のウェブサイトからのものである場合がある。しかしながら、これらのページは前記リストにおいて離れて出現しているため、ユーザは、これらのウェブページが(勿論検索キーワードを除いて)関連のないものであるという考えに誤って導かれ得る。加えて、これらウェブページが離れて出現し、コンピュータ装置には限られた量の表示スペースしかないため、他の関連するウェブページが前記表示スペースの外に押し出され、かくしてユーザに提示されない。更に、例えばウェブページH157及ウェブページI153のような同一の概念に強く関連するウェブページは、ユーザにとってはウェブページH157とウェブページI153とが共にグルーピングされて表示されるとより効果的で便利であるにもかかわらず、互いから離され得る。
それ故、繰り返しを回避すると共に閲覧者により多くの情報を提供するために、互いに強く関連するアイテムが共にグルーピングされるように検索結果を表示するシステム及び方法に対するニーズが存在する。
本発明の一目的は、検索結果のリストにおいて類似するアイテムの繰り返しを回避することにある。
本発明の他の目的は、閲覧者が検索結果リスト中のアイテム間にどんなアイテムがあるかがわかるように、検索クエリの結果において強く関連するアイテムを共にグルーピングすることにある。
本発明の更に他の目的は、閲覧者が検索結果リスト中のどのアイテムが相互に関連しているかがわかり、閲覧者がより多くの検索結果を見ることができるように、コンピュータ装置における検索結果の表示において、強く関連するアイテムを共にグルーピングすることにある。
これらの及び他の目的は、検索の結果(即ち電子文書)を取得し、検索結果文書が互いに対しどれだけ関連するかを定量化するために該検索結果文書中に含まれるターム(term)のTFIDFを利用し、当該定量化された関連に基づいて検索結果を組織化するシステム及び方法を提供する本発明によって達成される。かようなシステム及び方法を利用して、検索結果文書間の関係が閲覧者に明白となるように検索結果文書が表示されることができる。
本発明の他の目的及び特徴は、添付する図と共に考察される以下の詳細な説明から明らかとなるであろう。しかしながら、図は単に説明の目的のためにデザインされたものであって、添付する請求項に参照が為されるべき本発明の限定の定義としてデザインされたものではないことは理解されるべきである。更に図は必ずしも定縮尺で描かれておらず、示唆されていない限りは、図は単にここで説明される構造及び手順を概念的に示すためのものであることは理解されるべきである。
図において、同様の参照番号は同様の要素を表す。
本発明の好適な実施例におけるステップの概要が、図2のフロー図に示される。検索結果アイテムを処理するためのシステム及び方法であって、検索を実行するためのシステム及び方法ではないため、検索を実行するステップは図2に示されていない。検索結果を生成するいずれのとり得る方法も、本発明と共に利用されることができる。図2のステップ210において、各検索結果アイテムにおける幾つかの又は全てのタームのTFIDF(Term Frequency/Inverse Document Frequency)が算出される。TFIDFの定義は以下に与えられる。次いでステップ220において、TFIDF値に基づいた検索結果アイテム間の類似度が決定される。最後にステップ230において、ステップ220の前記決定された類似度に従って、前記検索結果アイテムが組織化される。
ここでは、「電子文書」(又は時折「文書」)という語は、検索結果アイテムを表すために利用される。電子文書は電子フォーマットで保存され電子装置によって「読み取られる」ことが可能である、何らかのタイプのファイルである。電子文書は写真又はオーディオトラックであっても良く、そのため本文脈において「読み取り」とは、電子装置が該電子文書中のマテリアルを人間によって知覚可能なフォーマットに変換することを意味する。電子文書の「ターム」とは、電子装置によって電子文書から構文解析により取り出されることが可能なデータの個々のビットである。
例えば、上述の背景において、電子文書はウェブページ、又はより詳細にはHTML(HyperText Markup Language)ファイルである。HTMLは、単なるテキストではなく、他のウェブページへのリンク及び他のリソースへのポインタを提供する「ハイパーテキスト」を含む。HTMLは、文書がどのようにフォーマットされるべきかを記述するため、「マークアップ」言語である。換言すれば、HTMLは何を表示すべきか及びどのように表示するべきかをウェブブラウザに示す。全てのウェブページはHTML(又は他の同様のマークアップ言語)のバージョンで書かれているが、ユーザはHTMLを見ることはなく、HTML命令の結果のみを見る。例えばウェブページ中のHTMLはウェブブラウザに対し、特定の場所に保存された特定の写真を取得し、前記ウェブページの左下の隅に前記写真を表示するように命令し得る。一方ユーザは、前記左下の隅に前記写真を見るのみである。HTML命令は、<body bgcolor=”#ffffff”>のような「タグ」の形式である。本発明については、HTML電子文書の「ターム」は、ウェブページ、HTMLタグ、及びHTMLタグ内の全ての要素のいずれに出現するテキストの語をも含む。
更に本発明は、例えばインターネットのサーチエンジンのインデクスデータベース中のウェブページ、MP3プレイヤ中のオーディオファイル、又はユーザのコンピュータ装置に接続されたデータベース中のレコードのいずれであるかにかかわらず、電子文書のいずれの集合にも適用される。
TFIDF(Term Frequency/Inverse Document Frequency)は、特定の電子文書中に或るタームが何度出現するかの、文書の全体集合中に当該タームを持つ電子文書が幾つあるかに対する比である。分母(文書頻度(Document Frequency)、DF)はまた、前記特定のタームが文書の全体集合に何度出現するかであっても良い。どちらの場合でも、分母(DF)の機能は、該タームが前記全体集合中の文書間をどれだけ良く特徴付けることを助けるかを示すことである。例えば、「antidisestablishmentarianism」のような特定のタームが3つの文書のみに出現する場合、当該タームのDFは3に等しくなる。「the」のような他のタームは300,000文書に出現するかも知れず、該タームのDFは300,000である。かくしてDFはTFIDFの分母であるから、「antidisestablishmentarianism」のTFIDFは「the」のTFIDFよりもかなり大きくなる。このようにして、TFIDFは文書間の特徴付けにおいて最も有用なタームを選択するのに有用である。
文書x中の語wiについてTFIDFの数学的な定義は、
IFIDFx(wi)=ft x(wi)/fd(wi)
である。ここで、
ft x(wi)=TF、即ち文書x中の語wiの頻度
fd(wi)=DF、即ち全体集合に渡る語wiの文書頻度
である。
IFIDFx(wi)=ft x(wi)/fd(wi)
である。ここで、
ft x(wi)=TF、即ち文書x中の語wiの頻度
fd(wi)=DF、即ち全体集合に渡る語wiの文書頻度
である。
文書の全体集合は、特定の実施例のニーズに従って変更されても良い。
図2におけるステップ210は、図3に示すように更に分解されることができる。ステップ310(以下に説明する本方法においてとり得る2つの位置を指す破線を伴う、破線から成るボックスにおいて表される)において、個々の語又はタームの全体の頻度fdが決定される。
ステップ310: DFG(wi)=fd(wi)=文書の集合G中の、タームwiが出現する文書の数
点線313は、全体の頻度fdが所定の量である場合のステップ310の位置を示す。この場合ステップ310は、残りのステップが何度実行されるかにかかわらず、システムの初期化時に1度のみ実行されても良い。文書の全体集合Gとして働くであろうものの決定においてかなりの範囲がある。例えば、インターネットのサーチエンジンを用いて動作する場合、全体集合Gはインデクスデータベースにおけるインデクス文書の集合たり得る。全てのウェブページ中の全てのワード及び/又はタームについてのDFGが算出され、これらのDF値は後の利用のために保存される。当該算出は、いずれかの特定の検索が実行される前に実行されても良い。他の例として、統計的な確率の辞書が利用されても良い。ここで前記辞書中の各タームは、全体集合G中のいずれもの単一の文書に出現する関連する確率を持つ。全体集合Gがインターネットである場合、前記辞書はウェブページの統計的なサンプリングに基づくものであっても良い。全体集合Gが医学テキストデータベースである場合、前記辞書は、前記医学テキストデータベース中の、語wiを持つ文書の正確な総数であっても良い。これらの値は、コンテンツが変化すると共に、常に更新されても良い(即ちステップ310が繰り返されても良い。)。
点線315は、実際の検索結果を文書の全体集合Gとして利用して、全体の頻度fdが決定される場合の、ステップ310の位置を示す。換言すれば、特定の検索クエリが実行され検索結果が生成された(即ちステップ320)後に、前記検索結果中の文書が、これら文書中のタームの全体の頻度fdを算出するために利用される。
全体の頻度が前記検索の前に決定されるか後に決定されるかにかかわらず、図3における次のステップはステップ330であり、ここで各検索結果文書中の各語のターム頻度が算出される。前記検索結果中にN個の文書があると仮定する。従って、N個の文書のそれぞれにおける各語wxのターム頻度ftは以下のように算出される:
ステップ330: TFk(wi)=ft k(wi)=文書kにタームwiが出現する回数
ここでk=1、2、・・・、Nである。
ここでk=1、2、・・・、Nである。
他の実施例においてはこの値は、文書中の語の数によってこの量を割ることによって正規化されても良い。ステップ330の後、N個の文書のそれぞれにおける各語wiのTFIDFが算出される。
ステップ340: TFIDFk(wi)=ft k(wi)/fd(wi)
ここでk=1、2、・・・、Nである。
ここでk=1、2、・・・、Nである。
ステップ340の後、各文書中の各語がTFIDF値を持つことは必ずしも真ではない。例えば、ウェブページのサーチエンジンのインデクスデータベースの繰り返しのサンプリングを利用することにより個々のタームの全体の頻度fdが予め算出されている場合、個々の検索結果中の特定の語が全体の頻度fdを与えられていない可能性がある。他の例として、このことは個々のタームの全体の頻度fdが、語を英語で出現する該語の統計的な確率に関連づける辞書からダウンロードされる場合に起こり得る。これらの場合には、検索結果文書中のfdを持たない語は無視されても良く、又は全体の頻度fdは全体集合として検索結果を利用して算出されても良い。これらの語についてのfdが、文書の全体集合として検索結果文書の集合を利用して算出されても良い(即ちステップ310がステップ320の後である)他の実施例においては、全ての又は殆ど全ての文書に出現する語は、ほんの少しの特徴付け能力しか持たないとして破棄されても良い。
図2に戻ると、ステップ210における前記検索結果文書中の幾つかの又は全ての語のTDIDFの算出の後、ステップ220においてTFIDF値に基づいて検索結果アイテム間の類似度が決定される。本発明の好適な実施例においては、図4に示されるようにステップ220は2つのステップを有する。図4におけるステップ410において、前記検索結果文書はベクトルフォーマットに変換され、ステップ420において、ステップ410において生成されたベクトル要素が対応する文書間の類似度合いを算出するために利用される。
図5は、図4におけるステップ410の変換処理の概念的な説明図である。文書D510は、特定の順序で、語w1、w3、w7、w15、w16等から成る。このことはまた、集合D520として表現され得る。ベクトルフォーマットに変換されるとき、前記語は各語についてのTFIDFベクトルによって置き換えられ、かくしてベクトル要素Dに帰着する。ステップ410において各文書がベクトルフォーマットとなると、ステップ420において文書間の類似度(例えばベクトル距離)が測定されることができる。
幾つかの場合においては、ステップ410において、前記文書中の全ての語でなく特定の語のみを、TFIDFベクトルフォーマットに変換することが望ましい。このベクトルの削減は、前記文書が後に比較されるときに、より少ない記憶量及びより少ない計算量に帰着する。しかしながら、どの語が変換されどの語が変換されないかが決定される必要がある。図6は、図4の変換ステップ410においてベクトルとなる語の数を削減するための方法の例である。ステップ610において、各語について全体のTFIDFO(全ての検索結果文書にわたるTFIDF)が算出される:
この式は全てのN個の検索結果文書にわたって、各語wiについて全てのTFIDF値を加算する。次いでステップ620において、最も高いTFIDFOを持つ所定の数M個の語が選択される。Mは1からNまでのいずれの数値的な量であっても良い。Mが1である場合、ステップ420において算出される類似度は、1語又は1タームに基づくものとなる。好ましくはMは、文書間で多くの数のベクトルが比較されるが、「the」や「an」のような語はその比較的低いTFIDFO値のために比較から除外されるように選択される。選択の他の方法がステップ620において利用されても良い。例えば、どの語が選択されるかを決定するために閾値のTFIDFOが利用されても良い。このことは、選択される語の数が検索毎に変化することを意味するが、関連性のレベルは一定のままとなる。
図4に戻ると、ステップ420においてベクトル要素間の類似度(即ち距離)を決定するための多くの方法がある。本分野において良く知られた類似度の尺度は例えば、ダイス(Dice)係数及びコサイン(Cosine)係数を含む。コサイン係数は、2つのベクトル間の内積を表し、ベクトル間の角度を測定する。好適な実施例において、前記角度は、両方のベクトルが対応する語に関する、2つの文書間の相対的な近さを表す。例えば、語「インターネット」が文書D1においてベクトルを、及び文書D2においてベクトルを持つ場合、これら2つのベクトル間の小さな角度は、これら2つのベクトル及び該ベクトルが表す文書D1及びD2が密接に関連することを示す。類似度測定の多くの例は、R. O. Duda、P. E. Hart及びD. G. Storkによる「Pattern Classification」(John Wiley & Sons, 2000年)にあり、参照によって本明細書に組み込まれたものとする。
図2に戻ると、ステップ230において前記検索結果アイテムは決定された類似度に従って組織化される。本発明の好適な実施例においては、図7に示されるようにステップ230は2つのステップを有する。図7におけるステップ710において、前記検索結果文書は、ステップ220において算出された類似度合いに基づく標準的なクラスタリング方法を利用して、共にグルーピング即ち「クラスタリング」される。このことは、ある程度密接に関連する文書から成るクラスタを生成する。クラスタリング方法は本分野において良く知られている。好適な実施例は、kステップクラスタリングを利用する。kステップクラスタリングは、データ点を、平方和基準が最小化されるようにデータ点の共通の要素を持たないサブセットにクラスタリングするアルゴリズムである。kステップクラスタリングは以下の特性を持つ。(a)各クラスタが、該クラスタ中の全てのデータ点の中央位置である中心を持つ。(b)各データ点が、最も近いものがクラスタの中心であるような該クラスタ中にある。多くのクラスタリング方法の例が、William B. Frakes及びRicardo Baeza-Yate(編集)の「Information Retrieval: Data structures & Algorithms」(Prentice Hill、1992年)における論説であるEdie Rasmussenによる「Clustering Algorithms」において見出される。本文献は参照によって本明細書に組み込まれたものとする。ステップ720において、各クラスタの重心が、該文書のクラスタの「代表」文書として選択される。ベクトル要素から成るクラスタの重心の決定もまた本分野において良く知られており、重心の算出の例は「Pattern Classification」において見出される。本文献は上述の参照によって本明細書に組み込まれたものである。
図8は、図7の2ステップ組織化処理の概念的な説明図である。図8におけるボックス800は、ベクトル空間の一部の表現である。図8においては2次元として示されているが、該ベクトル空間はM次元であり、ここでMは文書間で比較される語の数である。ベクトル要素A851、B859、H857及びI853は、異なる文書を示す。図7の2ステップ処理において、A851、B859、Q及びXから成るクラスタを囲む線810、並びにH957、I953、P及びMから成るクラスタを囲む線820によって示されるように、類似する文書(即ちベクトル空間中で互いに近接するベクトル要素)は最初に互いにグルーピングされる。クラスタ中に何があるかの決定は閾値(例えば、同一のクラスタ中の最も遠いベクトル要素からの最大距離、クラスタのとり得る重心からの最大距離等)を含んでも良い。次に、各クラスタの重心が決定される。図8においては、文書A851が第1のクラスタの重心であり、文書H857が第2のクラスタの重心である。検索結果中の文書の数に依存して、クラスタの層即ちクラスタ中のサブクラスタやサブクラスタ中のサブサブクラスタ等を持つことも可能である。
図2は、本発明の好適な実施例による方法の概要を与えた。図3乃至8は及び付随する説明は、図2におけるステップを実施化する特定の手段を探求した。ここで図9は、本発明の好適な実施例を実施化するための特定のステップの例の完全なシーケンスを示す。
図9は、本発明の好適な実施例によるステップのシーケンスの例のフロー図である。ステップ910において、文書の全体集合中の全ての又は幾つかのタームの文書頻度が決定される。該ステップは、特定の検索が為される前又は為された後に実行されても良い。検索が実行され検索結果が返された後、ステップ920において、前記検索結果を構成する電子文書中の幾つかの又は全てのタームのターム頻度が決定される。ステップ920がステップ910の後に行なわれることも可能である。ステップ920からのターム頻度と、ステップ910からの文書頻度との両方を持つことにより、ステップ930において、前記検索結果文書中の幾つかの又は全てのタームのTFIDFが決定される。
ステップ940において、各検索結果文書がTFIDFベクトル要素に変換される。ステップ950において、検索結果文書間の類似度合いが、該検索結果文書の対応するTFIDFベクトル要素を利用して算出される。ステップ960において、前記類似度合いを利用して、対応するベクトル要素をクラスタリングすることにより、前記検索結果文書が共にクラスタにグルーピングされる。最後にステップ970において、対応するベクトル要素クラスタの重心を選択することにより、各クラスタから代表文書が選択される。
図10は、本発明の好適な実施例による方法のステップを実行した後の、サーチエンジンの結果を表示するウェブページのインタフェース1000の例を示す。図8において組織化された検索結果の幾つかのリンクが、図10のウェブページに表示される。前記検索結果は、幾分階層的なフォーマット(2レベルのみ、即ち前記重心及び前記クラスタ中の残りの他の文書)で提示される。前記ウェブページが開かれたとき、各クラスタの重心のみが示されるリンクである。各重心は左側にボックスの「+」を持ち、「+」がクリックされると、前記重心の下に次のレベルのリンクが示される。図10においては、重心リンクA1051及びH1057の隣の「+」ボックスがクリックされており、そのため各重心リンクの下に次の階層の文書が示されている。前記次の階層の文書は、関連度の降順に示される。かくして、重心文書A851についてのリンク1051の下には、文書Bについてのリンク1059、文書Qについてのリンク、及び文書Xについてのリンクがリスト表示される。
図1とは異なり、図10に示されたような本発明の好適な実施例は、強く関連する文書を共にグルーピングする。このことは、ユーザにとって検索結果が関連するカテゴリにどのように分解されるかを理解することを非常に容易にする。例えば、ユーザがキーワード「mason」を用いて検索を実行した場合、検索結果は一方が石工(masons)及び石工職(masonry)、及び他方がフリーメーソン(freemasonry)となるような、2つの基本カテゴリに分かれ得る。先行技術においては、両方のカテゴリからの結果が織り交ぜられ、ユーザにとってはユーザの焦点を所望のカテゴリに狭めることを困難にしていた。本発明の好適な実施例を用いれば、ユーザは2つのカテゴリ「石工/石工職」と「フリーメーソン」とに既に分けられた結果を受け取るであろう。
上述の種々の好適な実施例の説明は、本発明の幾つかの利点を示す。タームのTFIDFを利用することによって、本発明は文書の特徴付けにおいてタームがどれだけ効果的であるかを考慮に入れる。検索結果間の関係に基づいて前記検索結果をクラスタに組織化することは、ユーザが文書間の関連を即時に確かめることを支援する。
本発明の好適な実施例におけるパラメータの多くが、ユーザによって設定されても良い。ユーザが本方法においてどのタームが使用されるかを決定しても良い。例えば、検索結果がHTML文書の形をとる場合、ユーザは本方法において写真タグだけが利用されることを指示し、従って該検索結果の写真に従ってクラスタリングされる文書に帰着しても良い。ユーザは全体の頻度を決定するための異なる全体集合を決定しても良い。例えば、本発明の実施例が1以上の辞書から所定のfd値を利用した場合、ユーザは検索に依存して利用するための異なる辞書(即ち、検索結果の殆どが医学の記事である場合には医学辞書、前記結果が法律の記事である場合には法律辞書等)を選択しても良い。ユーザはまた利用され得る異なる閾値を決定しても良い。例えばユーザは、最大の距離を決定することにより、クラスタのサイズを指示しても良い。他の例として、ユーザは類似度測定ステップにおいて幾つのベクトルが比較されるかについての値Mを選択しても良い。このようにして、ユーザは必要とされる算出の量を限定しより早く結果を取得したり、又は算出の量を増やしより詳細に区別された結果を取得したりすることができる。
本発明の好適な実施例に適用されたような本発明の基本的な新規な特徴が示され、説明され及び指摘されたが、説明された方法及び示された装置の形態及び詳細並びにこれらの動作において、種々の省略及び代替並びに変更が本発明の精神から逸脱することなく当業者によって為されても良いことは理解されるであろう。例えば、略同一の方法で同一の結果を達成する略同一の機能を実行する要素及び/又は方法ステップの全ての組み合わせは、本発明の範囲内であることが明らかに意図されている。更に、本発明のいずれの開示された形態又は実施例と共に示され及び/又は説明された構造及び/又は要素及び/又は方法ステップも、一般的な設計選択の事項として、他のいずれの開示された若しくは説明された若しくは提案された形態又は実施例において組み込まれても良いことは認識されるべきである。それ故、ここに添付された請求項の範囲により示されるように限定されることのみが意図されている。
Claims (17)
- 検索結果を処理する方法であって、前記検索結果はタームから成る電子文書である方法において、前記方法は、
前記検索結果における各電子文書中の各タームについてTFIDFを決定するステップを有し、ここで前記TFIDFとは文書頻度によって除算されたターム頻度であり、前記ターム頻度とは文書中の特定のタームの頻度であり、前記文書頻度とは文書の全体集合にわたる特定の前記タームの頻度であり、前記方法は更に、
前記決定されたTFIDFに基づく、前記検索結果中の電子文書間の類似度を決定するステップと、
前記決定された類似度に従って前記検索結果を組織化するステップと、
を有することを特徴とする方法。 - 前記文書頻度は、前記電子文書の全体集合において特定のタームが出現する回数、又は電子文書の全体の集合における前記特定のタームが出現する電子文書の数のいずれか1つであることを特徴とする、請求項1に記載の方法。
- 各電子文書中の各タームについてTFIDFを決定する前記ステップが、
前記電子文書の全体集合において特定のタームが出現する回数、及び前記電子文書の全体集合における前記特定のタームが出現する電子文書の数のいずれか1つを決定するステップと、
各タームが特定の電子文書に含まれる回数を決定するステップと、
第1のステップの結果によって第2のステップの結果を除算することにより、前記検索結果における各特定の電子文書中の各タームについて前記TFIDFを決定するステップと、
を有することを特徴とする、請求項1に記載の方法。 - 前記検索結果中の電子文書間の前記類似度を決定するステップが、
前記検索結果中の各電子文書をベクトルフォーマットに変換するステップであって、これにより各電子文書について対応するベクトル要素が生成され、ここで前記決定されたTFIDF値はベクトルであるステップと、
前記対応するベクトル要素間の類似度を算出するステップと、
を有することを特徴とする、請求項1に記載の方法。 - 前記決定された類似度に従って前記検索結果を組織化するステップが、
前記検索結果中の前記電子文書を、該電子文書の対応するベクトル要素をクラスタリングすることによりクラスタリングするために、前記算出された類似度を利用するステップであって、これにより少なくとも1つのクラスタが形成されるステップと、
各前記クラスタ中の重心ベクトル要素を選択することにより、前記少なくとも1つのクラスタのそれぞれについて代表電子文書を選択するステップと、
を有することを特徴とする請求項4に記載の方法。 - 前記文書頻度を決定するステップが、検索が実行される前及び検索が実行された後のいずれか1つにおいて実行されることを特徴とする、請求項3に記載の方法。
- 前記文書頻度を決定するステップが、前記検索が実行される前に実行され、前記電子文書の全体集合は、サーチエンジンのインデクスデータベース中のインデクスファイルの集合であることを特徴とする、請求項3に記載の方法。
- 前記文書頻度を決定するステップが、前記検索が実行された後に実行され、前記文書頻度は、タームについての統計的な確率を含む辞書から取得されることを特徴とする、請求項3に記載の方法。
- 文書頻度を決定するステップが、前記検索が実行された後に実行され、前記文書の全体集合は前記検索結果であることを特徴とする、請求項3に記載の方法。
- 前記TFIDFを決定するステップにおいて決定されたTFIDFは、前記特定の電子文書の長さによって各前記決定されたTFIDFを除算することにより正規化されることを特徴とする、請求項1に記載の方法。
- 前記類似度を算出するステップは、ダイス係数及びコサイン係数のうちの1つを利用して実行されることを特徴とする、請求項1に記載の方法。
- 前記算出された類似度を利用して前記クラスタリングするステップにおいて生成された少なくとも1つのクラスタのうちの少なくとも1つのクラスタ内でサブクラスタを生成するステップと、
前記生成されたサブクラスタ中の重心ベクトル要素を選択することにより、前記生成されたサブクラスタの代表電子文書を選択するステップと、
を更に有することを特徴とする、請求項4に記載の方法。 - 前記検索結果中の電子文書の階層を提示することにより前記検索結果の概要を表示するステップを更に有し、ここで前記階層は、前記代表文書から成る第1のレベルと前記クラスタ中の残りの文書から成る第2のレベルとを有することを特徴とする、請求項5に記載の方法。
- 前記検索結果中の各電子文書をベクトルフォーマットに変換するステップが、
前記TFIDFが決定された前記タームのそれぞれについて全体のTFIDFを算出するステップを有し、ここで特定のタームについての全体のTFIDFとは、前記検索結果の前記電子文書中の前記特定のタームについての全てのTFIDFの合計であり、更に前記変換するステップが、
前記全体のTFIDFに基づいて前記全体のTFIDFを持つタームの数Mを選択するステップを有し、ここでMは前記全体のTFIDFを持つタームの総数以下であり、更に前記変換するステップが、
前記検索結果中の各電子文書をベクトルフォーマットに変換するステップを有し、ここで前記選択されたM個のタームの前記決定されたTFIDF値のみがベクトルとして利用されることを特徴とする、請求項5に記載の方法。 - 前記全体のTFIDFに基づいて前記全体のTFIDF値を持つタームの数Mを選択するステップが、
数Mを選択するステップと、
最も高い前記全体のTFIDF値を持つM個のタームを選択するステップと、
を有することを特徴とする、請求項14に記載の方法。 - 前記全体のTFIDFに基づいて前記全体のTFIDF値を持つタームの数Mを選択するステップが、
タームについての最小の前記全体のTFIDFを選択するステップと、
前記最小の前記全体のTFIDF値を超える前記全体のTFIDF値を持つタームを選択するステップとを有し、ここでMは前記最小の前記全体のTFIDF値を超える前記全体のTFIDF値を持つタームの数であることを特徴とする、請求項14に記載の方法。 - 検索結果を処理するシステムであって、前記検索結果はタームから成る電子文書であるシステムにおいて、前記システムは、
前記電子文書の全体集合中の幾つかの又は全てのタームの文書頻度を決定する手段を有し、ここで前記文書頻度とは前記文書の全体集合にわたるタームの頻度であり、前記システムは更に、
前記検索結果中の各文書中の幾つかの又は全てのタームのターム頻度を決定する手段を有し、ここで前記ターム頻度とは特定の電子文書にタームが出現する回数であり、前記システムは更に、
前記検索結果中の各特定の電子文書中の幾つかの又は全てのタームについて、各特定のタームの文書頻度によって前記各特定のタームのターム頻度を除算することによりTFIDFを決定する手段と、
前記検索結果中の各電子文書をベクトルフォーマットに変換する手段であって、これにより前記各電子文書について対応するベクトル要素が生成される手段とを有し、ここで前記決定されたTFIDF値はベクトルであり、前記システムは更に、
前記対応するベクトル要素間の類似度を算出する手段と、
前記検索結果中の前記電子文書を該電子文書の対応するベクトル要素をクラスタリングすることによりクラスタリングするために前記算出された類似度を利用する手段であって、これにより少なくとも1つのクラスタが形成される手段と、
各クラスタ中の重心ベクトル要素を選択することにより前記少なくとも1つのクラスタのそれぞれについての代表電子文書を選択する手段と、
を有することを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/093,329 US6910037B2 (en) | 2002-03-07 | 2002-03-07 | Method and apparatus for providing search results in response to an information search request |
PCT/IB2003/000721 WO2003075181A2 (en) | 2002-03-07 | 2003-02-19 | A method and apparatus for providing search results in response to an information search request |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005519396A true JP2005519396A (ja) | 2005-06-30 |
Family
ID=27787962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003573567A Pending JP2005519396A (ja) | 2002-03-07 | 2003-02-19 | 情報検索要求に応じて検索結果を提供する方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6910037B2 (ja) |
EP (1) | EP1485823A2 (ja) |
JP (1) | JP2005519396A (ja) |
KR (1) | KR20040091095A (ja) |
CN (1) | CN1639712A (ja) |
AU (1) | AU2003206064A1 (ja) |
WO (1) | WO2003075181A2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241635A (ja) * | 2006-03-08 | 2007-09-20 | Nec Corp | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム |
JP2008511081A (ja) * | 2004-08-23 | 2008-04-10 | トムソン グローバル リソーシーズ | 重複する文書の検出および表示機能 |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
JP2011520193A (ja) * | 2008-05-15 | 2011-07-14 | ヤフー! インコーポレイテッド | 最もクリックされた次オブジェクトを有する検索結果 |
JP2017068862A (ja) * | 2016-12-06 | 2017-04-06 | 株式会社Jvcケンウッド | 情報処理装置、情報処理方法、及び情報処理プログラム |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3452558B2 (ja) * | 2001-09-25 | 2003-09-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム |
US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
US8561069B2 (en) * | 2002-12-19 | 2013-10-15 | Fujitsu Limited | Task computing |
US7870134B2 (en) * | 2003-08-28 | 2011-01-11 | Newvectors Llc | Agent-based clustering of abstract similar documents |
US8117280B2 (en) * | 2003-12-12 | 2012-02-14 | Fujitsu Limited | Task computing |
CN1922605A (zh) | 2003-12-26 | 2007-02-28 | 松下电器产业株式会社 | 辞典制作装置以及辞典制作方法 |
JP2005250693A (ja) * | 2004-03-02 | 2005-09-15 | Tsubasa System Co Ltd | 文字情報分類プログラム |
JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
EP1759289A4 (en) * | 2004-04-28 | 2008-08-20 | Fujitsu Ltd | SEMANTIC TASK DATA PROCESSING |
US7392474B2 (en) * | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
US8065336B2 (en) * | 2004-12-20 | 2011-11-22 | Fujitsu Limited | Data semanticizer |
US8015065B2 (en) * | 2005-10-28 | 2011-09-06 | Yahoo! Inc. | Systems and methods for assigning monetary values to search terms |
US7769751B1 (en) * | 2006-01-17 | 2010-08-03 | Google Inc. | Method and apparatus for classifying documents based on user inputs |
US8972872B2 (en) * | 2006-03-27 | 2015-03-03 | Fujitsu Limited | Building computing applications based upon metadata |
US7558787B2 (en) * | 2006-07-05 | 2009-07-07 | Yahoo! Inc. | Automatic relevance and variety checking for web and vertical search engines |
US7933904B2 (en) * | 2007-04-10 | 2011-04-26 | Nelson Cliff | File search engine and computerized method of tagging files with vectors |
US8019742B1 (en) | 2007-05-31 | 2011-09-13 | Google Inc. | Identifying related queries |
US8005643B2 (en) * | 2007-06-26 | 2011-08-23 | Endeca Technologies, Inc. | System and method for measuring the quality of document sets |
US8935249B2 (en) | 2007-06-26 | 2015-01-13 | Oracle Otc Subsidiary Llc | Visualization of concepts within a collection of information |
KR20090033728A (ko) * | 2007-10-01 | 2009-04-06 | 삼성전자주식회사 | 컨텐트 요약 정보 제공 방법 및 그 장치 |
US9317593B2 (en) * | 2007-10-05 | 2016-04-19 | Fujitsu Limited | Modeling topics using statistical distributions |
US8166052B2 (en) * | 2007-10-22 | 2012-04-24 | Samsung Electronics Co., Ltd. | Situation recognition for recommendation using merge-split approach |
US8019782B2 (en) * | 2007-10-22 | 2011-09-13 | Samsung Electronics Co., Ltd. | Situation-aware recommendation using limited cluster sizes |
US8171035B2 (en) | 2007-10-22 | 2012-05-01 | Samsung Electronics Co., Ltd. | Situation-aware recommendation using correlation |
US20090119281A1 (en) * | 2007-11-03 | 2009-05-07 | Andrew Chien-Chung Wang | Granular knowledge based search engine |
US7720870B2 (en) * | 2007-12-18 | 2010-05-18 | Yahoo! Inc. | Method and system for quantifying the quality of search results based on cohesion |
US10664889B2 (en) * | 2008-04-01 | 2020-05-26 | Certona Corporation | System and method for combining and optimizing business strategies |
JP5234405B2 (ja) * | 2008-04-24 | 2013-07-10 | アイシン・エィ・ダブリュ株式会社 | 検索装置及び検索プログラム |
US20090313228A1 (en) * | 2008-06-13 | 2009-12-17 | Roopnath Grandhi | Method and system for clustering |
US9183323B1 (en) | 2008-06-27 | 2015-11-10 | Google Inc. | Suggesting alternative query phrases in query results |
US8095545B2 (en) * | 2008-10-14 | 2012-01-10 | Yahoo! Inc. | System and methodology for a multi-site search engine |
TW201027375A (en) * | 2008-10-20 | 2010-07-16 | Ibm | Search system, search method and program |
US8161054B2 (en) * | 2009-04-03 | 2012-04-17 | International Business Machines Corporation | Dynamic paging model |
US9836448B2 (en) * | 2009-04-30 | 2017-12-05 | Conversant Wireless Licensing S.A R.L. | Text editing |
US20110015921A1 (en) * | 2009-07-17 | 2011-01-20 | Minerva Advisory Services, Llc | System and method for using lingual hierarchy, connotation and weight of authority |
CN102053992B (zh) * | 2009-11-10 | 2014-12-10 | 阿里巴巴集团控股有限公司 | 聚类方法和系统 |
US8849785B1 (en) * | 2010-01-15 | 2014-09-30 | Google Inc. | Search query reformulation using result term occurrence count |
TWI490711B (zh) * | 2010-02-11 | 2015-07-01 | Alibaba Group Holding Ltd | Clustering methods and systems |
JP2012027846A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、情報表示方法及びコンピュータプログラム |
CN102073718B (zh) * | 2011-01-10 | 2013-01-30 | 清华大学 | 一种对概率数据库查询结果予以解释与擦改的系统及方法 |
JP5740228B2 (ja) * | 2011-07-01 | 2015-06-24 | Kddi株式会社 | 代表的なコメント抽出方法およびプログラム |
EP2693346A1 (en) * | 2012-07-30 | 2014-02-05 | ExB Asset Management GmbH | Resource efficient document search |
US20140280088A1 (en) * | 2013-03-15 | 2014-09-18 | Luminoso Technologies, Inc. | Combined term and vector proximity text search |
US10061796B2 (en) * | 2014-03-11 | 2018-08-28 | Google Llc | Native application content verification |
CN110019785B (zh) * | 2017-09-29 | 2022-03-01 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11213000A (ja) * | 1998-01-29 | 1999-08-06 | Nippon Telegr & Teleph Corp <Ntt> | インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体 |
US6038561A (en) * | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US5924090A (en) * | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
US6081805A (en) * | 1997-09-10 | 2000-06-27 | Netscape Communications Corporation | Pass-through architecture via hash techniques to remove duplicate query results |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6418429B1 (en) * | 1998-10-21 | 2002-07-09 | Apple Computer, Inc. | Portable browsing interface for information retrieval |
US6360227B1 (en) * | 1999-01-29 | 2002-03-19 | International Business Machines Corporation | System and method for generating taxonomies with applications to content-based recommendations |
-
2002
- 2002-03-07 US US10/093,329 patent/US6910037B2/en not_active Expired - Lifetime
-
2003
- 2003-02-19 EP EP03702948A patent/EP1485823A2/en not_active Ceased
- 2003-02-19 KR KR10-2004-7013755A patent/KR20040091095A/ko not_active Application Discontinuation
- 2003-02-19 AU AU2003206064A patent/AU2003206064A1/en not_active Abandoned
- 2003-02-19 WO PCT/IB2003/000721 patent/WO2003075181A2/en active Application Filing
- 2003-02-19 JP JP2003573567A patent/JP2005519396A/ja active Pending
- 2003-02-19 CN CNA038052806A patent/CN1639712A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038561A (en) * | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
JPH11213000A (ja) * | 1998-01-29 | 1999-08-06 | Nippon Telegr & Teleph Corp <Ntt> | インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体 |
Non-Patent Citations (3)
Title |
---|
林良彦 他: "WWW上の検索サービスの技術動向", 情報処理, vol. 第39巻 第9号, JPN6009003104, 15 September 1998 (1998-09-15), JP, pages 861 - 865, ISSN: 0001234402 * |
江口浩二 他: "漸次的に拡張されたクエリを用いた適応的文書クラスタリング法", 電子情報通信学会論文誌, vol. 第J82-D-I巻 第1号, JPN6009003102, 25 January 1999 (1999-01-25), JP, pages 140 - 149, ISSN: 0001234400 * |
野口進祐 他: "学術論文の引用関係に基づく特徴量の抽出手法", 情報処理学会研究報告, vol. 第99巻 第56号, JPN6009003103, 16 July 1999 (1999-07-16), JP, pages 65 - 69, ISSN: 0001234401 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008511081A (ja) * | 2004-08-23 | 2008-04-10 | トムソン グローバル リソーシーズ | 重複する文書の検出および表示機能 |
JP4919515B2 (ja) * | 2004-08-23 | 2012-04-18 | トムソン ルーターズ グローバル リソーシーズ | 重複する文書の検出および表示機能 |
JP2007241635A (ja) * | 2006-03-08 | 2007-09-20 | Nec Corp | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム |
JP2011520193A (ja) * | 2008-05-15 | 2011-07-14 | ヤフー! インコーポレイテッド | 最もクリックされた次オブジェクトを有する検索結果 |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
JP2017068862A (ja) * | 2016-12-06 | 2017-04-06 | 株式会社Jvcケンウッド | 情報処理装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2003075181A2 (en) | 2003-09-12 |
WO2003075181A3 (en) | 2004-03-25 |
KR20040091095A (ko) | 2004-10-27 |
CN1639712A (zh) | 2005-07-13 |
US6910037B2 (en) | 2005-06-21 |
US20030172063A1 (en) | 2003-09-11 |
AU2003206064A1 (en) | 2003-09-16 |
EP1485823A2 (en) | 2004-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005519396A (ja) | 情報検索要求に応じて検索結果を提供する方法及び装置 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US7225181B2 (en) | Document searching apparatus, method thereof, and record medium thereof | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US9251786B2 (en) | Method, medium and apparatus for providing mobile voice web service | |
US8849787B2 (en) | Two stage search | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
US20020099730A1 (en) | Automatic text classification system | |
US20110191374A1 (en) | Joint Embedding for Item Association | |
EP1154358A2 (en) | Automatic text classification system | |
KR101873873B1 (ko) | 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법 | |
JP7252914B2 (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
WO2002054287A2 (en) | Multi-query data visualization | |
JP2004094806A (ja) | 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム | |
JP2006524869A (ja) | ドキュメントの関連性ファンクションをマシン学習する方法及び装置 | |
WO2005022413A1 (en) | Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy | |
KR101502671B1 (ko) | 상관된 정보의 온라인 분석 및 디스플레이 | |
JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
CN112070550A (zh) | 基于搜索平台的关键词确定方法、装置、设备及存储介质 | |
KR101441219B1 (ko) | 정보 엔터티들의 자동 연관 | |
CN111651675B (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
CN109902152B (zh) | 用于检索信息的方法和装置 | |
CN116881406B (zh) | 一种多模态智能文件检索方法及系统 | |
JP2007164633A (ja) | コンテンツ検索方法及び装置及びプログラム | |
US11468078B2 (en) | Hierarchical data searching using tensor searching, fuzzy searching, and Bayesian networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090709 |