JP4774081B2 - Document search system, document search method, and program - Google Patents
Document search system, document search method, and program Download PDFInfo
- Publication number
- JP4774081B2 JP4774081B2 JP2008153372A JP2008153372A JP4774081B2 JP 4774081 B2 JP4774081 B2 JP 4774081B2 JP 2008153372 A JP2008153372 A JP 2008153372A JP 2008153372 A JP2008153372 A JP 2008153372A JP 4774081 B2 JP4774081 B2 JP 4774081B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- group
- search system
- maximum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 239000000284 extract Substances 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書検索システム、文書検索方法、及びプログラムに関する。 The present invention relates to a document search system, a document search method, and a program.
インターネット上に公開されている文書を探すサーチエンジンに代表されるように、キーワードに応じた文書の検索処理が広く行われているが、検索対象となる文書の量が増大していることから、検索結果を効率的に絞り込むことが求められている。例えば、特許文献1には、あるユーザの入力した検索条件と同一の検索条件を過去に行った他のユーザが有益であると判断した検索結果を優先的に表示する技術が提案されている。
しかしながら、あるユーザが入力したキーワードが膨大な文書にヒットした場合、膨大な文書は様々なカテゴリに分類することが可能であり、他のユーザが同じキーワードを用いていたからといって、他のユーザが有益であると判断した文書のカテゴリが、キーワードを入力したユーザが意図したカテゴリと一致するとは限らない。また、ユーザが膨大な検索結果を絞り込むために、追加のキーワードを入力しようとしても、新たなキーワードに想到することができないことも多い。 However, if a keyword entered by a certain user hits a huge document, the huge document can be classified into various categories, and because other users use the same keyword, The category of the document that is determined to be useful does not necessarily match the category intended by the user who entered the keyword. In addition, when a user tries to input an additional keyword in order to narrow down an enormous number of search results, it is often impossible to come up with a new keyword.
本発明は、このような背景を鑑みてなされたものであり、文書の検索処理において効率的に絞込みを行うことのできる、文書検索システム、文書検索方法及びプログラムを提供することを目的とする。 The present invention has been made in view of such a background, and an object of the present invention is to provide a document search system, a document search method, and a program capable of efficiently narrowing down a document search process.
上記課題を解決するための本発明の主たる発明は、文書を検索するシステムであって、キーワードの入力を受け付けるキーワード入力部と、前記キーワードに対応する文書を検索する文書検索部と、検索結果の文書を、前記文書に含まれる単語に基づいて複数のグループに分類するグループ分類部と、前記グループのうち属する文書の数が最も多い最大グループを表す最大グループ名を、前記最大グループに属する文書に含まれる単語に基づいて決定する最大グループ名決定部と、前記最大グループ名がユーザの意図に合致するか否かを示す選択情報の入力を受け付ける絞込み選択部と、前記選択情報が前記意図に合致することを示す場合、前記最大グループに属する文書の一覧を表示し、前記選択情報が前記意図に合致しないことを示す場合、前記検索結果に含まれる文書のうち前記最大グループに属さないものの一覧を表示する検索結果表示部と、を備えることとする。 A main invention of the present invention for solving the above problems is a system for searching for a document, in which a keyword input unit that receives an input of a keyword, a document search unit that searches for a document corresponding to the keyword, a search result A group classification unit that classifies a document into a plurality of groups based on words included in the document, and a maximum group name that represents a maximum group that has the largest number of documents belonging to the group is assigned to the document that belongs to the maximum group. A maximum group name determination unit that is determined based on words included; a narrowing selection unit that receives input of selection information indicating whether the maximum group name matches a user's intention; and the selection information matches the intention. Display a list of documents belonging to the maximum group and indicate that the selection information does not match the intention. , And it and a search result display unit for displaying a list of those not belonging to the largest group among the documents included in the search results.
本発明の文書検索システムによれば、ユーザの選択に応じて、最大グループに属する文書、又は属さない文書のいずれかに検索結果を絞り込んで行くことができる。したがって、ユーザは、新たにキーワードを追加することなく、システムからの問いかけに二者択一で応じるだけで、検索結果を容易に絞り込むことができる。 According to the document search system of the present invention, the search result can be narrowed down to a document belonging to the maximum group or a document not belonging to the maximum group according to the user's selection. Therefore, the user can narrow down the search results easily by only answering questions from the system without adding a new keyword.
また、前記選択情報が前記意図に合致することを示す場合、前記最大グループに属する文書を前記検索結果とし、前記選択情報が前記意図に合致しないことを示す場合、前記検索結果に含まれる文書のうち前記最大グループに属さないものを前記検索結果として、前記グループ分類部が前記検索結果に含まれる文書をグループに分類し、前記最大グループ名決定部が前記最大グループ名を決定し、前記選択画面情報送信部が前記選択画面情報を送信し、前記選択情報受信部が前記選択情報を受信し、前記検索結果送信部が前記一覧を表示する情報を送信するようにしてもよい。 In addition, when the selection information indicates that it matches the intention, a document belonging to the maximum group is used as the search result, and when the selection information indicates that it does not match the intention, a document included in the search result Of these, the group that does not belong to the maximum group is used as the search result, the group classification unit classifies the documents included in the search result, the maximum group name determination unit determines the maximum group name, and the selection screen An information transmission unit may transmit the selection screen information, the selection information reception unit may receive the selection information, and the search result transmission unit may transmit information for displaying the list.
また、本発明の文書検索システムは、前記検索結果の文書から、LSI手法により前記文書についての特徴語を抽出し、抽出した前記特徴語を前記文書に含まれる単語として決定する特徴語抽出部を備えるようにしてもよい。 Further, the document search system of the present invention includes a feature word extraction unit that extracts a feature word for the document from the search result document by an LSI technique and determines the extracted feature word as a word included in the document. You may make it prepare.
また、前記グループ分類部は、前記文書に含まれる単語のクラスタリングにより、前記文書を複数のグループに分類するようにしてもよい。 The group classification unit may classify the document into a plurality of groups by clustering words included in the document.
また、前記グループ分類部は、前記文書に含まれる単語に、TF−IDFによる重み付けを行い、重み付けされた単語をクラスタリングにより分類するようにしてもよい。 The group classification unit may weight the words included in the document by TF-IDF and classify the weighted words by clustering.
また、前記グループ分類部は、異なる複数の手法により複数のクラスタリングを行うようにしてもよい。この場合、複数の視点から絞込みを行うことが可能となる。 Further, the group classification unit may perform a plurality of clustering by a plurality of different methods. In this case, it is possible to narrow down from a plurality of viewpoints.
また、前記最大グループ名決定部は、前記最大グループに属する文書に含まれる各単語の頻度を算出し、前記頻度の一番高い単語を前記最大グループ名として決定するようにしてもよい。 The maximum group name determination unit may calculate the frequency of each word included in the document belonging to the maximum group, and determine the word with the highest frequency as the maximum group name.
また、本発明の文書検索システムは、グループを示すグループ名に対応付けて、前記グループに関連する単語を記憶するカテゴリデータベースを備え、前記最大グループ名決定部は、前記最大グループに属する文書に含まれる複数の単語を抽出し、前記カテゴリデータベースに記憶されている前記グループ名のそれぞれについて、前記関連する単語のうち、前記文書から抽出した単語に含まれているものの数をカウントし、前記カウントした数が最も多い前記グループ名を前記最大グループ名として決定するようにしてもよい。 The document search system of the present invention includes a category database that stores words related to the group in association with a group name indicating a group, and the maximum group name determination unit is included in the document belonging to the maximum group. A plurality of words extracted, and for each of the group names stored in the category database, the number of words included in the word extracted from the document among the related words is counted, and the counted The group name having the largest number may be determined as the maximum group name.
また、本発明の文書検索システムは、ツリー構造のノードとして単語を記憶するカテゴリデータベースを備え、前記最大グループ名決定部は、前記最大グループに属する文書に含まれる複数の単語を抽出し、前記カテゴリデータベースから、前記抽出した単語が全て子孫として含まれている前記ノードのうち最も階層が深いものを取得し、取得した前記ノードを前記最大グループ名として決定するようにしてもよい。 The document search system of the present invention includes a category database that stores words as nodes in a tree structure, and the maximum group name determination unit extracts a plurality of words included in a document belonging to the maximum group, and the category A node having the deepest hierarchy among the nodes in which all the extracted words are included as descendants may be acquired from a database, and the acquired node may be determined as the maximum group name.
また、前記最大グループ名決定部は、前記文書から抽出した単語にTF−IDFによる重み付けを行い、前記ノードのうち、重みが所定値以上である前記文書から抽出した単語の全てが子孫として含まれているものを前記最大グループ名として決定するようにしてもよい。 The maximum group name determination unit weights words extracted from the document using TF-IDF, and all of the words extracted from the document having a weight equal to or greater than a predetermined value among the nodes are included as descendants. May be determined as the maximum group name.
また、前記グループ分類部は、前記検索結果の文書のうち、所定数の文書についてのみ、複数のグループに分類するようにしてもよい。 The group classification unit may classify only a predetermined number of documents among the search result documents into a plurality of groups.
また、本発明の文書検索システムは、前記キーワードに対応付けて、前記文書、及び、前記文書の特徴語を記憶するインデックス記憶部を備え、前記文書検索部は、前記キーワードに対応する前記文書及び前記特徴語を前記インデックス記憶部から取得し、前記グループ分類部は、前記特徴語に基づいて前記文書を複数のグループに分類するようにしてもよい。 In addition, the document search system of the present invention includes an index storage unit that stores the document and a feature word of the document in association with the keyword, and the document search unit includes the document corresponding to the keyword and The feature words may be acquired from the index storage unit, and the group classification unit may classify the documents into a plurality of groups based on the feature words.
また、本発明の文書検索システムは、前記文書ごとに、前記文書が属するカテゴリを1つ以上記憶するカテゴリデータベースを備え、前記グループ分類部は、前記検索結果の文書を、対応する前記カテゴリに基づいて複数のグループに分類するようにしてもよい。 In addition, the document search system of the present invention includes a category database that stores one or more categories to which the document belongs for each document, and the group classification unit selects the search result document based on the corresponding category. May be classified into a plurality of groups.
また、本発明の文書検索システムは、前記文書ごとに、前記文書が属するカテゴリを記憶するカテゴリデータベースと、前記選択情報が前記意図に合致することを示す場合に、前記最大グループに含まれる前記文書が属する前記カテゴリの一覧を表示するカテゴリ表示部と、前記カテゴリの入力を受け付けるカテゴリ入力部と、前記最大グループに含まれる前記文書のうち、前記入力されたカテゴリに属するものの一覧を表示する絞込み表示部と、を備えるようにしてもよい。 In addition, the document search system of the present invention includes a category database that stores a category to which the document belongs and a document included in the maximum group when the selection information indicates that the document matches the intention. A category display section that displays a list of the categories to which the document belongs, a category input section that receives input of the categories, and a narrowed display that displays a list of documents belonging to the input category among the documents included in the maximum group May be provided.
その他本願が開示する課題やその解決方法については、発明の実施形態の欄及び図面により明らかにされる。 Other problems and solutions to be disclosed by the present application will be made clear by the embodiments of the invention and the drawings.
本発明によれば、文書の検索処理において効率的に絞込みを行うことができる。 According to the present invention, it is possible to narrow down efficiently in a document search process.
以下、本発明の一実施形態に係る文書検索システムについて説明する。本実施形態の文書検索システムは、キーワードに応じて文書を検索し、ユーザに二者択一の問合わせを行いながら大量の検索結果を絞り込んで行くものである。なお、本実施形態では、文書そのものの検索ではなく、クローラにより回収した文書の単語や要約を含むインデックス情報を検索するようにしている。 Hereinafter, a document search system according to an embodiment of the present invention will be described. The document search system according to the present embodiment searches for documents according to keywords, and narrows down a large number of search results while making an alternative inquiry to the user. In this embodiment, instead of searching for the document itself, index information including words and summaries of the document collected by the crawler is searched.
==システム構成==
図1は、本実施形態の文書検索システムの全体構成を示す図である。同図に示すように、本実施形態の文書検索システムは、ユーザ端末10と検索サーバ20とを含んで構成され、ユーザ端末10と検索サーバ20とは通信ネットワーク30を介して接続される。なお、ユーザ端末10及び検索サーバ20は複数含まれていてもよい。
== System configuration ==
FIG. 1 is a diagram showing the overall configuration of the document search system of this embodiment. As shown in the figure, the document search system of this embodiment includes a
通信ネットワーク30は、例えば、インターネットやLAN(Local Area Network)などであり、光ファイバーやイーサネット(登録商標)、電話回線網、無線通信網などにより構築される。本実施形態では、ユーザ端末10と検索サーバ20とはHTTP(HyperText Transfer Protocol)により通信を行っているものとする。
The
ユーザ端末10は、ユーザが利用するコンピュータである。ユーザ端末10は、例えば、パーソナルコンピュータや携帯電話、PDA(Personal Digital Assistance)などである。本実施形態では、ユーザ端末10においてWebページを閲覧するブラウザが動作しており、ユーザは、ユーザ端末10で動作するブラウザを操作して、キーワードをHTTPのリクエストとして検索サーバに送信するものとする。なお、以下の説明では、文書を検索するためのキーワードを含むHTTPのリクエストをクエリという。
The
検索サーバ20は、文書を検索するコンピュータであり、例えば、パーソナルコンピュータやワークステーションなどである。本実施形態では、検索サーバ20は、インターネットのサーチエンジンを想定している。検索サーバ20は、Webページ(文書)を提供する他のサーバ(不図示)にアクセスして、文書の要約を生成するとともに、文書のインデックスを生成しておき、キーワードに対応する文書を示すURL(Uniform Resource Locator)と要約とをユーザに提示する。
The
==ハードウェア==
図2は、検索サーバ20のハードウェア構成を示す図である。同図に示すように、検索サーバ20は、CPU201、メモリ202、記憶装置203、通信インタフェース204、入力装置205、出力装置206を備えている。記憶装置203は、各種のデータやプログラムを記憶する、例えば、ハードディスクやフラッシュメモリ、CD−ROMドライブなどである。CPU201は、記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより各種の機能を実現する。通信インタフェース204は、通信ネットワーク30に接続するためのインタフェースであり、例えば、イーサネット(登録商標)に接続するためのアダプタや、電話回線網に接続するためのモデム、無線通信網に接続するための無線通信器などである。入力装置205はデータの入力を受け付ける、例えばキーボードやマウス、タッチパネル、マイクロフォンなどである。出力装置206はデータを出力する、例えばディスプレイやプリンタ、スピーカなどである。
== Hardware ==
FIG. 2 is a diagram illustrating a hardware configuration of the
なお、検索サーバ20のハードウェア構成は一般的なパーソナルコンピュータやワークステーションのものを想定している。また、ユーザ端末10のハードウェア構成も検索サーバ20と同様のものである。
Note that the hardware configuration of the
==ソフトウェア==
図3は、検索サーバ20のソフトウェア構成を示す図である。同図に示すように、検索サーバ20は、クエリ受信部211、検索実行部212、検索結果生成部213、クラスタリング分析部214、最大クラスタ決定部215、カテゴリ決定部216、提案情報生成部217、検索結果送信部218、選択情報受信部219及びクローラ処理部220の各機能部と、インデックスデータベース251及びカテゴリデータベース252の各記憶部とを備えている。
== Software ==
FIG. 3 is a diagram illustrating a software configuration of the
なお、クエリ受信部211、検索実行部212、検索結果生成部213、クラスタリング分析部214、最大クラスタ決定部215、カテゴリ決定部216、提案情報生成部217、検索結果送信部218、選択情報受信部219及びクローラ処理部220は、検索サーバ20が備えるCPU201が記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより実現される。また、インデックスデータベース251及びカテゴリデータベース252は、メモリ202や記憶装置203が提供する記憶領域として実現される。
The
インデックスデータベース251は、検索対象となる文書のURLと、その文書の要約とを含む情報(以下、インデックス情報という。)を記憶する。インデックスデータベース251に記憶されるインデックス情報の構成例を図4に示す。同図に示すように、インデックス情報には、インデックス情報を識別するID(以下、インデックスIDという。)、文書のURL、文書のタイトル、文書の要約、及び文書を特徴づける単語(以下、特徴語という。)が含まれる。本実施形態では、検索サーバ20は、ユーザが入力したキーワードが要約に含まれるインデックス情報を検索することで、文書の検索処理を行うものとする。
The
クローラ処理部220は、通信ネットワーク30に接続されている各種のコンピュータが公開している文書を取得していき、取得した文書から特徴語を抽出する。特徴語の抽出は、例えば、一般的な形態素解析により文書から抽出した単語のうち、出現頻度の高い順に所定数のものを特徴語とすることができる。クローラ処理部220は、取得した文書を示すURLと、文書に含まれているタイトルと、文書の要約と、特徴語とを含むインデックス情報を作成する。文書のタイトルは、文書の属性として設定されているタイトルであり、例えば、HTMLで記述された文書の場合、TITLEタグの内容とし、テキストデータの場合、1行目のテキストとすることができる。文書の要約は、例えば、文書から、特徴語の前後のテキストデータを抽出したものとすることができる。クローラ処理部220は、インデックスデータベース251に登録する。クローラ処理部220は、いわゆるクローラ、スパイダー、ロボット、インデクサなどと呼ばれるものである。なお、クローラ処理部220がインデックス情報を作成する処理には、一般的なクローラによるデータベースの作成処理を用いることができる。クローラ処理部220は、定期的にインデックス情報を生成してインデックスデータベース251に登録し続けているものとする。
The
なお、文書の特徴語の抽出には、LSI(Latent Semantic Indexing;潜在意味インデクシング)手法を用いることができる。この場合、クローラ処理部220は、文書に含まれる語句を行とし、各文書を列とし、文書中に含まれる語句の頻度を要素とする行列Aを生成し、この行列Aを、特位置分解(SVD;Singular Value Decomposition)により3つの行列U、S、Vに分解する。ここで、A=U×S×Vとなる。Sは対角行列であり、クローラ処理部220は、Sの要素(特徴成分)を大きい方から所定数のみを取り出し、次元を圧縮して行例S’を生成し、A’=U×S’×Vにより行列A’を算出する。これにより、A’ではノイズが排除され、特徴語句がより強調されたものになる。クローラ処理部220は、A’の各列の文書について、要素が所定の閾値より大きい行の単語を特徴語として決定することができる(特徴語抽出部)。
It should be noted that an LSI (Latent Semantic Indexing) technique can be used for extracting feature words of a document. In this case, the
カテゴリデータベース252は、カテゴリごとに、そのカテゴリに属する単語を管理する。図5は、カテゴリデータベース252の構成例を示す図である。同図に示すように、本実施形態のカテゴリデータベース252は、各単語をツリー構造で管理し、各単語はそれぞれカテゴリの名称となり、カテゴリに含まれる単語は、カテゴリの子孫になるようにツリー構造が構成される。
The
なお、本実施形態では、説明を簡単にするため、ツリー構造の中に単語は重複せずに登録されているものとするが、ツリー構造に同じ単語が複数含まれるようにすることもできる。例えば同じ単語が異なるカテゴリに属する場合などには、その単語をそれぞれのカテゴリの子孫に含めるようにする。 In this embodiment, for simplicity of explanation, it is assumed that words are registered without overlapping in the tree structure, but a plurality of the same words may be included in the tree structure. For example, when the same word belongs to different categories, the word is included in the descendants of each category.
また、カテゴリデータベース252の構造は、図5のようなツリー構造に限るものではなく、カテゴリと単語とが対応付けられていればよい。例えば、カテゴリと、そのカテゴリに属する単語とを対応付けて表形式で管理するようにしてもよい。また、本実施形態では、カテゴリデータベース252には、上位の階層に行くほど上位概念の単語となるように、予め管理者により登録されているものとする。
Further, the structure of the
クエリ受信部211は、ユーザ端末10から送信されるクエリを受信する。
検索実行部212は、クエリに含まれているキーワードに対応する文書を検索する。具体的には、検索実行部212は、クエリに含まれるキーワードが特徴語として含まれるインデックス情報(以下、キーワード検索結果という。)をインデックスデータベース251から取得する。
The
The
検索結果生成部213は、キーワード検索結果に含まれるインデックス情報の要約の一覧を表示するための画面データ(以下、検索結果画面という。)を生成する。本実施形態では、検索結果生成部213が生成する検索結果画面は、HTML(HyperText Markup Language)で記述されるものとし、検索結果生成部213は、各インデックス情報のタイトルにURLへのリンクを付けたものと要約との一覧を記述するものとする。なお、検索結果生成部213が生成する検索結果画面の生成処理には、一般的な検索エンジンによる検索結果を表示する画面の生成処理を採用することができる。
The search
クラスタリング分析部214は、キーワード検索結果に含まれるインデックス情報のクラスタリング分析処理を行い、インデックス情報をクラスタに分類する。例えば、クラスタリング分析部214は、各特徴語について、TF−IDF(Term Frequency - Inverse Document Frequency)により求められる指標値(以下、TFIDF値という。)を算出する。クラスタリング分析部214は、各文書についてTFIDF値が大きい順に所定数(例えば、1〜5個)の特徴語を選択し、選択した特徴語のTFIDF値からベクトル値を生成する。クラスタリング分析部214は、キーワード検索結果に含まれる全ての2つのインデックス情報の組合せのそれぞれについて、ベクトル値の内積値を類似度として算出し、ベクトル値の距離が近いものをクラスタとして分類する。なお、クラスタリング分析部214は、一般的なクラスタリング分析の手法により、インデックス情報をクラスタに分類することができる。クラスタリング分析部214は、分類したクラスタごとに、クラスタに含まれるインデックス情報のインデックスIDをメモリ202に記憶する。クラスタリング分析部214は、例えば、図6に示すテーブル253に、クラスタの識別情報(以下、クラスタIDという。)に対応付けて、インデックスIDのリストを記憶するようにすることができる。
The
最大クラスタ決定部215は、クラスタリング分析部214が分類したクラスタのうち、分類されたインデックス情報の数が最も多いもの(以下、最大クラスタという。)を決定する。
The maximum
カテゴリ決定部216は、最大クラスタに分類されたインデックス情報の要約に含まれる単語に基づいて、最大クラスタの名称(以下、最大カテゴリ名という。)を決定する。本実施形態では、カテゴリ決定部216は、カテゴリデータベース252に記憶されているツリー構造から、最大クラスタに分類されたインデックス情報の要約に含まれる単語が全て子孫に含まれているノードのうち、最も階層が深いものを最大カテゴリ名として決定する。なお、カテゴリ決定部216による最大カテゴリ名の決定処理の詳細については後述する。
The
提案情報生成部217は、最大カテゴリ名がユーザの意図に合致するか否かを問い合わせるための画面データ(以下、提案画面という。)を生成する。本実施形態では、提案情報生成部217は、「知りたいのは『最大カテゴリ名』ですか?」というメッセージとともに、「はい」のボタンと「いいえ」とのボタンを表示する画面をHTMLで記述したものを提案画面として生成するものとする。 The proposal information generation unit 217 generates screen data (hereinafter referred to as a proposal screen) for inquiring whether or not the maximum category name matches the user's intention. In the present embodiment, the proposal information generation unit 217 describes a screen that displays a “Yes” button and a “No” button in HTML together with a message “What do you want to know is“ maximum category name ”?” The generated screen is generated as a proposal screen.
検索結果送信部218は、検索結果画面と提案画面とをユーザ端末10に送信する。
選択情報受信部219は、ユーザ端末10において提案画面が表示され、「はい」または「いいえ」のいずれかの選択がなされたことを示す情報(以下、選択情報という。)をユーザ端末10から受信する。
The search
The selection
==処理==
以下、本実施形態の文書検索システムにおける処理の流れを図7〜12を参照して説明する。図7は、文書検索システムにおける文書検索処理全体の流れを説明する図であり、図8は、文書検索処理においてユーザ端末10に表示される画面例を示す図である。
== Processing ==
Hereinafter, the flow of processing in the document search system of this embodiment will be described with reference to FIGS. FIG. 7 is a diagram for explaining the overall flow of the document search process in the document search system, and FIG. 8 is a diagram showing an example of a screen displayed on the
まずユーザ端末10は、図8に示す画面40を表示する。画面40は、キーワードの入力欄411を備えている。
ユーザ端末10は、検索ボタン412が押下されると、入力欄411に入力されたキーワードを含むクエリを検索サーバに送信する(図7、S401)。
First, the
When the
検索サーバ20のクエリ受信部211は、ユーザ端末10からクエリを受信し、検索実行部212は、検索結果画面の作成処理を行う(S402)。検索結果画面の作成処理の流れを図9に示す。検索実行部212は、クエリからキーワードを抽出し(S501)、抽出したキーワードが特徴語として含まれているインデックス情報をインデックスデータベース251から読み出して、キーワード検索結果とする(S502)。検索結果生成部213は、キーワード検索結果に含まれているインデックス情報のURLへのリンクをつけたタイトルと、要約とを一覧にしたリストをHTMLで記述して検索結果画面を生成する(S503)。
The
検索サーバ20は、検索結果画面を生成した後、提案画面の作成処理を行う(S403)。提案画面の作成処理の流れを図10に示す。
After generating the search result screen, the
クラスタリング分析部214は、キーワード検索結果に含まれるインデックス情報のクラスタリング処理を行う(S521)。クラスタリングには、上述したように、インデックス情報に含まれている各特徴語についてTFIDF値を作成し、高いものから順に所定数個のTFIDF値によるベクトル値を算出し、キーワード検索結果に含まれる2つのインデックス情報の各組についてベクトル値の内積を算出し、距離が近いものをクラスタとして分類する一般的なクラスタ分析処理を用いることができる。クラスタリング分析部214は、図6に示すテーブル253を空の状態で作成し、クラスタリング処理により分類されたクラスタごとに、属するインデックス情報のインデックスIDのリストを図6のテーブル253に登録する(S522)。最大クラスタ決定部215は、クラスタリング分析部214により分類されたクラスタのうち、属しているインデックス情報の数が最も多いものを最大クラスタとして決定する(S523)。カテゴリ決定部217は、後述する図11の最大カテゴリ名の決定処理により最大カテゴリ名を決定し(S524)、「知りたいのは『最大カテゴリ名』ですか?」というメッセージと、「はい」のボタンと「いいえ」のボタンを表示するためのHTMLタグとを記述した提案情報を生成する(S525)。
The
カテゴリ決定部216による最大カテゴリ名の決定処理を図11に示す。
カテゴリ決定部216は、まず変数nに0を設定する(S541)。カテゴリ決定部216は、最大クラスタに属しているインデックス情報を取得する。カテゴリ決定部216は、例えば、最大クラスタのクラスタIDに対応するインデックスIDをテーブル256から取得し、取得したインデックスIDに対応するインデックス情報をインデックスデータベース251から読み出す。カテゴリ決定部216は、読み出したインデックス情報に含まれている特徴語のうち、カテゴリデータベース252に登録されているものを抽出し、抽出した特徴語のリストを変数CLとする(S542)。カテゴリ決定部216は、各特徴語についてのカウンタを0に設定する(S543)。
The maximum category name determination process by the
The
カテゴリ決定部216は、nをインクリメントし(S544)、変数PLにCLに含まれる特徴語を設定する(S545)。カテゴリ決定部216は、特徴語のn階層祖先のノードをカテゴリデータベース252から取得し(S546)、取得したノードをCLとして(S547)、CL中の各ノードについてカウンタをインクリメントする(S548)。カテゴリ決定部216は、CLに含まれるノードの数が1でなければ(S549:NO)、ステップS544からの処理を繰り返す。
The
CLに含まれるノードの数が1であった場合(S549:YES)、カテゴリ決定部216は、CLに含まれているノードがツリー構造のルートであれば(S550:YES)、PLに含まれているノードの中で、カウンタが最も大きいノードを最大カテゴリ名とし(S551)、CLに含まれているノードがルートでなければ(S550:NO)、CLに含まれているノードを最大カテゴリ名として決定する(S552)。
When the number of nodes included in the CL is 1 (S549: YES), the
以上のようにして、カテゴリ決定部216は、最大クラスタに属するインデックス情報に含まれる全特徴語が子孫として含まれているノードのうち、最も階層が深いものを最大カテゴリ名として決定し、そのようなノードがルート以外に存在しない場合には、ルート直下の階層のノードのうち、その子孫のノードのうち、最大クラスタに属するインデックス情報の要約に含まれている数が最も多いものを最大カテゴリ名として決定することができる。このようにして最大カテゴリ名を決定することにより、最大クラスタに含まれる単語を包含する上位概念の単語をもって最大クラスタを表現することができる。したがって、ユーザが最大クラスタとして分類された文書がどのようなものであるのかを容易に判断することが可能となる。
As described above, the
以上のようにして、最大カテゴリ名が決定され、提案情報画面が作成されると、検索サーバ20の検索結果装置部218は、提案情報画面と検索結果画面とを含む画面データをユーザ端末10に送信する(S404)。この画面データに基づきユーザ端末10では、図8の画面42のような画面が表示される。画面42は、ユーザが意図していた検索の対象が最大カテゴリ名を含むか否かを問い合わせるメッセージ(図8の例では、「知りたいのは『動物キャラクタ』ですか?」が表示されている。)の表示欄421とともに、「はい」を選択するためのボタン422及び「いいえ」を選択するためのボタン423が表示される。また、画面42の表示欄424には、キーワード検索結果の一覧(検索結果画面)が表示される。ユーザは画面42において、ボタン422又はボタン423を押下することで、最大カテゴリ名がユーザの検索の意図に合致するか否かを選択する(S405)。
As described above, when the maximum category name is determined and the proposal information screen is created, the search
ユーザがボタン422又はボタン423を押下すると、ユーザ端末10は押下されたボタンに応じて、「はい」又は「いいえ」を示す選択情報を検索サーバ20に送信する(S406)。
When the user presses the
検索サーバ20の選択情報受信部219は、ユーザ端末10から送信される選択情報を受信すると、検索結果の更新処理を行う(S407)。図12は検索結果の更新処理の流れを示す図である。
選択情報受信部219は、選択情報が「はい」である場合(S561:YES)、最大クラスタのクラスタIDに対応するインデックスIDをテーブル253から読み出し、読み出したインデックスIDに対応するインデックス情報をキーワード検索結果とする(S562)。
一方、選択情報が「いいえ」である場合(S561:NO)、選択情報受信部219は、最大クラスタのクラスタID以外のクラスタIDに対応するインデックスIDをテーブル253から読み出し、読み出したインデックスIDに対応するインデックス情報をキーワード検索結果とする(S563)。
Upon receiving the selection information transmitted from the
When the selection information is “Yes” (S561: YES), the selection
On the other hand, when the selection information is “No” (S561: NO), the selection
検索結果生成部213は、キーワード検索結果に含まれているインデックス情報のURLへのリンクをつけたタイトルと、要約とを一覧にしたリストをHTMLで記述して検索結果画面を生成する(S564)。
次に、検索サーバ20は、図10に示す提案情報画面の作成処理を行い、提案情報画面を作成する(S565)。
検索結果が更新されると、検索サーバ20は、提案画面及び検索結果画面を含む画面データユーザ端末10に送信すべく、図7のステップS404からの処理を繰り返す。
The search
Next, the
When the search result is updated, the
検索結果の更新処理が行われた後には、図8の画面43のような画面がユーザ端末10に表示される。画面43は、画面42と同様の構成であり、絞り込まれた検索結果をクラスタリングにより複数のクラスタに分類した結果の最大クラスタの最大カテゴリ名が表示欄421に表示されるとともに、絞り込まれた検索結果の一覧が表示欄424に表示される。
After the search result update process is performed, a screen such as a
以上説明したように、本実施形態の文書検索システムによれば、検索サーバ20からユーザに対して絞込みの提案を行うことができる。したがって、ユーザは、キーワードを追加したり、検索条件を変更したりと積極的に検索を進めることなく、検索サーバ20からの提案に対して「はい」又は「いいえ」を単に選択するだけで、容易に検索結果を絞り込んでいくことができる。一般に、1つめのキーワードが思い浮かんだとしても、2つめのキーワードを追加することが困難であることが多いが、本実施形態の文書検索システムによれば、ユーザは新たなキーワードを考える必要がなくなるので便利である。
As described above, according to the document search system of this embodiment, the
また、本実施形態の文書検索システムでは、最大クラスタに分類されたインデックス情報の要約に含まれる単語の上位概念を最大カテゴリ名としてユーザに提示することができる。したがって、ユーザは最大クラスタに分類された文書がどのような文書であるのかを容易に把握することができる。 Further, in the document search system of the present embodiment, the high-level concept of words included in the summary of index information classified into the maximum cluster can be presented to the user as the maximum category name. Therefore, the user can easily grasp what kind of document is classified into the largest cluster.
また、本実施形態の文書検索システムによれば、ユーザからの選択に応じて、最大クラスタに分類されたインデックス情報、またはそれ以外のクラスタに分類されたインデックス情報を対象として再度クラスタリングが行われる。例えば、キーワードを追加したり、新たな検索条件を指定したりする場合には、新たな検索の結果には、別の新たな文書が含まれるようになることもあるが、本実施形態のように、検索結果をクラスタリングして絞り込んでいくことにより、確実に検索結果を絞り込むことができる。 Also, according to the document search system of the present embodiment, clustering is performed again for the index information classified into the maximum cluster or the index information classified into other clusters according to the selection from the user. For example, when a keyword is added or a new search condition is specified, another new document may be included in the result of the new search, as in the present embodiment. Further, by narrowing down the search results by clustering, the search results can be surely narrowed down.
なお、本実施形態の文書検索システムでは、インデックス情報に予め特徴語が含まれているものとしたが、これに限らず、例えば、タイトルや要約に含まれている単語を抽出してクラスタリング処理を行うようにしてもよい。 In the document search system according to the present embodiment, it is assumed that the feature word is included in the index information in advance. However, the present invention is not limited to this. You may make it perform.
また、本実施形態の文書検索システムでは、インデックス情報を検索するものとしたが、文書を直接検索するようにしてもよい。この場合、インデックスデータベース251に代えて、文書を管理する文書データベースを採用し、文書に含まれる単語を検索するようにすることができる。
In the document search system of this embodiment, the index information is searched. However, the document may be directly searched. In this case, instead of the
また、インデックスデータベース251は、URLと特徴語のみを管理しておき、クエリに含まれるキーワードにマッチするインデックス情報を検索し、その度にURLが示す文書を取得して、取得した文書に含まれる単語を抽出して要約を作成するようにしてもよい。
In addition, the
また、本実施形態では、クエリに含まれるキーワードにマッチした全てのインデックス情報を対象としてクラスタリングを行うものとしたが、例えば、100件や1000件など所定数のインデックス情報のみを対象としてクラスタリングを行うようにしてもよい。 In the present embodiment, clustering is performed for all index information that matches the keywords included in the query. For example, clustering is performed only for a predetermined number of index information such as 100 or 1000. You may do it.
また、本実施形態では、特徴語を用いてクラスタリングを行うようにしたが、例えば、各文書が複数のカテゴリに所属するように予め各文書をカテゴリ分けしておき、そのカテゴリを用いてクラスタリングを行うようにしてもよい。この場合、インデックス情報には、特徴語に加えてカテゴリ名も含まれるようにし、カテゴリデータベース252は、カテゴリの名称を管理しておき、クエリに含まれるキーワードにマッチしたインデックス情報に含まれるカテゴリを用いてクラスタリングする。有限数のカテゴリを用いてクラスタリングを行うことにより、次元を少なくすることが可能となる。例えば、カテゴリの種類が1000種類であれば、クラスタリングの計算に用いる次元も1000で済むことになる。
In this embodiment, clustering is performed using feature words. For example, each document is categorized in advance so that each document belongs to a plurality of categories, and clustering is performed using the categories. You may make it perform. In this case, the index information includes the category name in addition to the feature word, and the
また、予め文書をカテゴリ分けしておく場合には、さらにカテゴリで検索結果を絞り込むようにしてもよい。この場合、例えば、検索サーバ20は、最大クラスタに含まれる文書をカテゴリごとにカウントし、属する文書の数が多い順に所定数のカテゴリを選択するための画面データをユーザ端末10に送信するカテゴリ選択画面送信部と、ユーザ端末10から選択されたカテゴリを受信するカテゴリ入力部と、最大クラスタに含まれる文書のうち、選択されたカテゴリに属するものの一覧のみを表示するための画面データ(以下、絞込み結果画面という。)を生成する絞込み結果生成部とを備え、検索結果送信部218は、絞込み結果画面をユーザ端末10に送信するようにする。このように、最大クラスタに含まれる文書を、文書のカテゴリによって、容易に絞込みを行うようにすることができる。
In addition, when documents are classified into categories in advance, the search results may be further narrowed down by category. In this case, for example, the
また、本実施形態では、クラスタリングは1回のみ行うようにしたが、これに限らず、例えば、複数の距離関数を用いるなど、異なる手法により複数回のクラスタリングを行い、全ての手法により生成されたクラスタ全てのうち、最も属する文書の数が大きいクラスタを最大クラスタとするようにする。これにより、様々な視点から検索結果を絞り込むことが可能となる。 In the present embodiment, the clustering is performed only once. However, the present invention is not limited to this. For example, the clustering is performed a plurality of times by different methods such as using a plurality of distance functions. Among all the clusters, a cluster having the largest number of documents belonging to the largest cluster is set as the maximum cluster. This makes it possible to narrow down search results from various viewpoints.
また、本実施形態では、カテゴリ決定部216は、最大クラスタに分類されたインデックス情報の要約に含まれる全ての単語が子孫に含まれるノードのうち、最も深い階層のものを最大カテゴリ名とするようにしたが、これに限らず、例えば、カテゴリ決定部216は、最大クラスタに分類されたインデックス情報の要約に含まれる単語の出現頻度を算出し、出現頻度の最も多い単語を最大カテゴリ名と決定するようにしてもよい。また、カテゴリ決定部216は、最大クラスタに分類されたインデックス情報の要約に含まれる各単語のTFIDF値を算出し、TFIDF値が最も高い単語を最大カテゴリ名として決定するようにしてもよいし、TFIDF値が高い順に所定数個の単語を含む最大カテゴリ名を生成するようにしてもよい。
In the present embodiment, the
また、本実施形態では、カテゴリデータベース252は、単語をツリー構造で管理するものとしたが、カテゴリ名に対応付けて、そのカテゴリに属する単語を記憶するようにしてもよい。この場合、クラスタリング分析部214は、各インデックス情報について、カテゴリデータベース252に登録されているカテゴリ名ごとに、要約に含まれている単語の数をカウントし、カウント数が最も多かったカテゴリ名をインデックス情報のカテゴリ名とし、同じカテゴリ名のインデックス情報をクラスタとして分類することができる。また、カテゴリ決定部216は、そのカテゴリ名を最大カテゴリ名として決定することができる。
In the present embodiment, the
以上、本実施形態について説明したが、上記実施形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物も含まれる。 Although the present embodiment has been described above, the above embodiment is intended to facilitate understanding of the present invention and is not intended to limit the present invention. The present invention can be changed and improved without departing from the gist thereof, and the present invention includes equivalents thereof.
例えば、本実施形態の文書検索システムは検索サーバ20のみで構成することもできる。この場合、検索サーバ20は、キーボードやマウス等の入力装置205からキーワードの入力を受け付けて検索を行い、ディスプレイ等の出力装置206に検索結果を出力すればよい。この構成は、例えばパーソナルコンピュータ内に大量の文書が蓄積されている場合に有用である。
For example, the document search system of the present embodiment can be configured with only the
10 ユーザ端末
20 検索サーバ
30 通信ネットワーク
211 クエリ受信部
212 検索実行部
213 検索結果生成部
214 クラスタリング分析部
215 最大クラスタ決定部
216 カテゴリ決定部
217 報生成部
217 提案情報生成部
218 検索結果送信部
219 選択情報受信部
220 クローラ処理部
251 インデックスデータベース
252 カテゴリデータベース
253 テーブル
DESCRIPTION OF
Claims (16)
キーワードの入力を受け付けるキーワード入力部と、
前記キーワードに対応する文書を検索する文書検索部と、
検索結果の文書を、前記文書に含まれる単語に基づいて複数のグループに分類するグループ分類部と、
前記グループのうち属する文書の数が最も多い最大グループを表す最大グループ名を、前記最大グループに属する文書に含まれる単語に基づいて決定する最大グループ名決定部と、
前記最大グループ名がユーザの意図に合致するか否かを示す選択情報の入力を受け付ける絞込み選択部と、
前記選択情報が前記意図に合致することを示す場合、前記最大グループに属する文書の一覧を表示し、前記選択情報が前記意図に合致しないことを示す場合、前記検索結果に含まれる文書のうち前記最大グループに属さないものの一覧を表示する検索結果表示部と、
を備えることを特徴とする文書検索システム。 A system for retrieving documents,
A keyword input unit that accepts keyword input;
A document search unit for searching for a document corresponding to the keyword;
A group classification unit for classifying the search result documents into a plurality of groups based on words included in the document;
A maximum group name determining unit that determines a maximum group name representing a maximum group having the largest number of documents belonging to the group based on words included in the documents belonging to the maximum group;
A refinement selection unit that receives input of selection information indicating whether or not the maximum group name matches a user's intention;
When the selection information indicates that it matches the intention, a list of documents belonging to the maximum group is displayed, and when the selection information indicates that the intention does not match the intention, the documents included in the search result A search result display section that displays a list of items that do not belong to the maximum group,
A document retrieval system comprising:
前記選択情報が前記意図に合致することを示す場合、前記最大グループに属する文書を前記検索結果とし、前記選択情報が前記意図に合致しないことを示す場合、前記検索結果に含まれる文書のうち前記最大グループに属さないものを前記検索結果として、前記グループ分類部が前記検索結果に含まれる文書をグループに分類し、前記最大グループ名決定部が前記最大グループ名を決定し、前記選択画面情報送信部が前記選択画面情報を送信し、前記選択情報受信部が前記選択情報を受信し、前記検索結果送信部が前記一覧を表示する情報を送信すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
When the selection information indicates that it matches the intention, a document belonging to the largest group is used as the search result. When the selection information indicates that it does not match the intention, the document included in the search result The group classification unit classifies documents included in the search result into groups, and the maximum group name determination unit determines the maximum group name, and the selection screen information is transmitted. The selection screen information is transmitted, the selection information reception unit receives the selection information, and the search result transmission unit transmits information for displaying the list,
Document search system characterized by
前記検索結果の文書から、LSI手法により前記文書についての特徴語を抽出し、抽出した前記特徴語を前記文書に含まれる単語として決定する特徴語抽出部を備えること、
を特徴とする文書検索システム。 The document search system according to claim 1,
A feature word extraction unit that extracts a feature word for the document from the search result document by an LSI technique and determines the extracted feature word as a word included in the document;
Document search system characterized by
前記グループ分類部は、前記文書に含まれる単語のクラスタリングにより、前記文書を複数のグループに分類すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
The group classification unit classifies the document into a plurality of groups by clustering words included in the document;
Document search system characterized by
前記グループ分類部は、前記文書に含まれる単語に、TF−IDFによる重み付けを行い、重み付けされた単語をクラスタリングにより分類すること、
を特徴とする文書検索システム。 The document search system according to claim 4,
The group classification unit weights words included in the document by TF-IDF and classifies the weighted words by clustering;
Document search system characterized by
前記グループ分類部は、異なる複数の手法により複数のクラスタリングを行うこと、
を特徴とする文書検索システム。 The document search system according to claim 4,
The group classification unit performs a plurality of clustering by a plurality of different methods;
Document search system characterized by
前記最大グループ名決定部は、前記最大グループに属する文書に含まれる各単語の頻度を算出し、前記頻度の一番高い単語を前記最大グループ名として決定すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
The maximum group name determination unit calculates the frequency of each word included in the document belonging to the maximum group, and determines the word with the highest frequency as the maximum group name;
Document search system characterized by
グループを示すグループ名に対応付けて、前記グループに関連する単語を記憶するカテゴリデータベースを備え、
前記最大グループ名決定部は、前記最大グループに属する文書に含まれる複数の単語を抽出し、前記カテゴリデータベースに記憶されている前記グループ名のそれぞれについて、前記関連する単語のうち、前記文書から抽出した単語に含まれているものの数をカウントし、前記カウントした数が最も多い前記グループ名を前記最大グループ名として決定すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
A category database that stores words related to the group in association with the group name indicating the group,
The maximum group name determination unit extracts a plurality of words included in a document belonging to the maximum group, and extracts from the document among the related words for each of the group names stored in the category database. Counting the number of words included in the selected word, and determining the group name with the largest number as the maximum group name,
Document search system characterized by
ツリー構造のノードとして単語を記憶するカテゴリデータベースを備え、
前記最大グループ名決定部は、前記最大グループに属する文書に含まれる複数の単語を抽出し、前記カテゴリデータベースから、前記抽出した単語が全て子孫として含まれている前記ノードのうち最も階層が深いものを取得し、取得した前記ノードを前記最大グループ名として決定すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
A category database that stores words as nodes in a tree structure
The maximum group name determination unit extracts a plurality of words included in a document belonging to the maximum group, and has the deepest hierarchy among the nodes in which all the extracted words are included as descendants from the category database. And determining the acquired node as the maximum group name;
Document search system characterized by
前記最大グループ名決定部は、前記文書から抽出した単語にTF−IDFによる重み付けを行い、前記ノードのうち、重みが所定値以上である前記文書から抽出した単語の全てが子孫として含まれているものを前記最大グループ名として決定すること、
を特徴とする文書検索システム。 The document search system according to claim 9,
The maximum group name determination unit weights words extracted from the document by TF-IDF, and among the nodes, all words extracted from the document having a weight equal to or greater than a predetermined value are included as descendants. Determining one as said maximum group name;
Document search system characterized by
前記グループ分類部は、前記検索結果の文書のうち、所定数の文書についてのみ、複数のグループに分類すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
The group classification unit classifies only a predetermined number of documents among the search result documents into a plurality of groups;
Document search system characterized by
前記キーワードに対応付けて、前記文書、及び、前記文書の特徴語を記憶するインデックス記憶部を備え、
前記文書検索部は、前記キーワードに対応する前記文書及び前記特徴語を前記インデックス記憶部から取得し、
前記グループ分類部は、前記特徴語に基づいて前記文書を複数のグループに分類すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
An index storage unit that stores the document and feature words of the document in association with the keyword;
The document search unit acquires the document and the feature word corresponding to the keyword from the index storage unit,
The group classification unit classifies the documents into a plurality of groups based on the feature words;
Document search system characterized by
前記文書ごとに、前記文書が属するカテゴリを1つ以上記憶するカテゴリデータベースを備え、
前記グループ分類部は、前記検索結果の文書を、対応する前記カテゴリに基づいて複数のグループに分類すること、
を特徴とする文書検索システム。 The document search system according to claim 1,
A category database for storing one or more categories to which the document belongs for each document;
The group classification unit classifies the search result documents into a plurality of groups based on the corresponding category;
Document search system characterized by
前記文書ごとに、前記文書が属するカテゴリを記憶するカテゴリデータベースと、
前記選択情報が前記意図に合致することを示す場合に、前記最大グループに含まれる前記文書が属する前記カテゴリの一覧を表示するカテゴリ表示部と、
前記カテゴリの入力を受け付けるカテゴリ入力部と、
前記最大グループに含まれる前記文書のうち、前記入力されたカテゴリに属するものの一覧を表示する絞込み表示部と、
を備えることを特徴とする文書検索システム。 The document search system according to claim 1,
A category database storing a category to which the document belongs for each document;
A category display unit for displaying a list of the categories to which the document included in the maximum group belongs, when the selection information indicates that the intention is matched;
A category input unit that receives input of the category;
A refinement display unit for displaying a list of documents belonging to the input category among the documents included in the maximum group;
A document retrieval system comprising:
コンピュータが、
キーワードの入力を受け付けるステップと、
前記キーワードに対応する文書を検索するステップと、
検索結果の文書を、前記文書に含まれる単語に基づいて複数のグループに分類するステップと、
前記グループのうち属する文書の数が最も多い最大グループを表す最大グループ名を、前記最大グループに属する文書に含まれる単語に基づいて決定するステップと、
前記最大グループ名がユーザの意図に合致するか否かを示す選択情報の入力を受け付けるステップと、
前記選択情報が前記意図に合致することを示す場合、前記最大グループに属する文書の一覧を表示し、前記選択情報が前記意図に合致しないことを示す場合、前記検索結果に含まれる文書のうち前記最大グループに属さないものの一覧を表示するステップと、
を実行することを特徴とする文書検索方法。 A method for searching documents,
Computer
Receiving a keyword input;
Searching for a document corresponding to the keyword;
Classifying the search result documents into a plurality of groups based on words contained in the documents;
Determining a maximum group name representing a maximum group having the largest number of documents belonging to the group based on words included in documents belonging to the maximum group;
Receiving input of selection information indicating whether or not the maximum group name matches a user's intention;
When the selection information indicates that it matches the intention, a list of documents belonging to the maximum group is displayed, and when the selection information indicates that the intention does not match the intention, the documents included in the search result Displaying a list of items not belonging to the largest group;
The document retrieval method characterized by performing.
コンピュータに、
キーワードの入力を受け付けるステップと、
前記キーワードに対応する文書を検索するステップと、
検索結果の文書を、前記文書に含まれる単語に基づいて複数のグループに分類するステップと、
前記グループのうち属する文書の数が最も多い最大グループを表す最大グループ名を、前記最大グループに属する文書に含まれる単語に基づいて決定するステップと、
前記最大グループ名がユーザの意図に合致するか否かを示す選択情報の入力を受け付けるステップと、
前記選択情報が前記意図に合致することを示す場合、前記最大グループに属する文書の一覧を表示し、前記選択情報が前記意図に合致しないことを示す場合、前記検索結果に含まれる文書のうち前記最大グループに属さないものの一覧を表示するステップと、
を実行させるためのプログラム。 A program for searching documents,
On the computer,
Receiving a keyword input;
Searching for a document corresponding to the keyword;
Classifying the search result documents into a plurality of groups based on words contained in the documents;
Determining a maximum group name representing a maximum group having the largest number of documents belonging to the group based on words included in documents belonging to the maximum group;
Receiving input of selection information indicating whether or not the maximum group name matches a user's intention;
When the selection information indicates that it matches the intention, a list of documents belonging to the maximum group is displayed, and when the selection information indicates that the intention does not match the intention, the documents included in the search result Displaying a list of items not belonging to the largest group;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008153372A JP4774081B2 (en) | 2008-06-11 | 2008-06-11 | Document search system, document search method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008153372A JP4774081B2 (en) | 2008-06-11 | 2008-06-11 | Document search system, document search method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009301221A JP2009301221A (en) | 2009-12-24 |
JP4774081B2 true JP4774081B2 (en) | 2011-09-14 |
Family
ID=41548061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008153372A Active JP4774081B2 (en) | 2008-06-11 | 2008-06-11 | Document search system, document search method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4774081B2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5284990B2 (en) | 2010-01-08 | 2013-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Processing method for time series analysis of keywords, processing system and computer program |
JP2012138027A (en) * | 2010-12-27 | 2012-07-19 | Toshiba Corp | Information retrieval system, retrieval keyword presentation method, and program |
US10437837B2 (en) * | 2015-10-09 | 2019-10-08 | Fujitsu Limited | Generating descriptive topic labels |
JP6764262B2 (en) * | 2016-06-10 | 2020-09-30 | 三菱重工業株式会社 | Index information generator, index information generation method and index information generation program |
KR102088435B1 (en) * | 2017-09-29 | 2020-03-12 | 인하대학교 산학협력단 | Effective retrieval apparatus based on diversity index of retrieval result and method thereof |
KR102067728B1 (en) * | 2017-09-29 | 2020-01-17 | 인하대학교 산학협력단 | Diversity index generation apparatus of retrieval result for effective patent retrieval and method thereof |
JP7147380B2 (en) * | 2018-08-31 | 2022-10-05 | 富士通株式会社 | Type estimation method, information processing device and type estimation program |
JP7085499B2 (en) * | 2019-01-23 | 2022-06-16 | 株式会社日立製作所 | Text data collection device and method |
JP7464814B2 (en) * | 2019-10-31 | 2024-04-10 | キヤノンマーケティングジャパン株式会社 | Information processing device, control method, and program |
-
2008
- 2008-06-11 JP JP2008153372A patent/JP4774081B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009301221A (en) | 2009-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4774081B2 (en) | Document search system, document search method, and program | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
JP5431727B2 (en) | Relevance determination method, information collection method, object organization method, and search system | |
JP4160578B2 (en) | Schema matching method and system for web databases | |
US7672943B2 (en) | Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling | |
EP2321745B1 (en) | Providing posts to discussion threads in response to a search query | |
TWI479339B (en) | System, computer-readable storage medium and device for subject-based vitality | |
US20090100015A1 (en) | Web-based workspace for enhancing internet search experience | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
US20150206070A1 (en) | Context based co-operative learning system and method for representing thematic relationships | |
CN103177075A (en) | Knowledge-based entity detection and disambiguation | |
JP5556711B2 (en) | Category classification processing apparatus, category classification processing method, category classification processing program recording medium, category classification processing system | |
Prajapati | A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining | |
Kumar et al. | LEARNING-based focused WEB crawler | |
CN101661490A (en) | Search engine, client thereof and method for searching page | |
Mehdi et al. | Discovering domain-specific public SPARQL endpoints: a life-sciences use-case | |
WO2014206186A1 (en) | Method and device for generating entry information | |
Goel et al. | Search engine evaluation based on page level keywords | |
Shaffi et al. | Weighted PageRank algorithm search engine ranking model for web pages | |
JP5661708B2 (en) | Advertisement bidding system, document retrieval system, advertisement bidding method, document retrieval method, and program | |
JP7042720B2 (en) | Information processing equipment, information processing methods, and programs | |
Wetzker et al. | Understanding the user: Personomy translation for tag recommendation | |
Ganguly et al. | A review of focused web crawling strategies | |
JP2010282403A (en) | Document retrieval method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110624 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4774081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |