JP2008071198A - Document retrieval device, document retrieval method, document retrieval program and storage medium - Google Patents
Document retrieval device, document retrieval method, document retrieval program and storage medium Download PDFInfo
- Publication number
- JP2008071198A JP2008071198A JP2006250049A JP2006250049A JP2008071198A JP 2008071198 A JP2008071198 A JP 2008071198A JP 2006250049 A JP2006250049 A JP 2006250049A JP 2006250049 A JP2006250049 A JP 2006250049A JP 2008071198 A JP2008071198 A JP 2008071198A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- search
- seed
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体に関し、特に、入力された検索条件に基づいて所定の文書の集合よりその検索条件に適合する文書を検索する文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体に関する。 The present invention relates to a document search device, a document search method, a document search program, and a recording medium, and in particular, a document search device that searches a set of documents that match a search condition based on an input search condition, The present invention relates to a document search method, a document search program, and a recording medium.
文書検索の分野において、検索結果がユーザ(検索者)の検索要求に合致しているか否かは重要な評価基準の一つである。従来、検索要求に指定された検索語に基づいて検索要求に合致する度合い(以下、「適合度」という。)を文書毎に求め、適合度が大きい順に検索結果を出力する文書検索装置が提案されている(例えば、特許文献1)。 In the field of document search, whether or not the search result matches the search request of the user (searcher) is one of important evaluation criteria. 2. Description of the Related Art Conventionally, a document search apparatus that obtains a degree of matching with a search request (hereinafter referred to as “fitness”) for each document based on a search term specified in the search request and outputs a search result in descending order of suitability has been proposed. (For example, Patent Document 1).
また、高い品質の検索結果を得るために、利用者が検索要求に指定した検索語だけでなく関連する語も検索語として追加する手法(以下、「関連語拡張」という。)が存在する。関連語拡張により追加される検索語(以下、「拡張語」という。)の選択方法に対しても、様々な提案がされている。 In addition, in order to obtain a high-quality search result, there is a technique (hereinafter referred to as “related word expansion”) in which not only a search term specified by a user but also a related term is added as a search term. Various proposals have been made for a method of selecting a search term (hereinafter referred to as “extended word”) added by expansion of related terms.
例えば、適合性フィードバックという手法が知られており、この手法は、まず利用者が指定した検索語による検索(一次検索)の結果を利用者に提示し、結果として提示された文書を適合文書(利用者が所望とする文書)と非適合文書とに分類させる。その後、その結果を得て適合文書に含まれる語から選択された拡張語による検索(二次検索)の結果を最終的な結果として出力させる。以下、拡張語を選択するために用いられる文書を「シード文書」と呼ぶ。 For example, a method called relevance feedback is known. This method first presents the result of a search (primary search) with a search term designated by the user to the user, and the document presented as a result is a relevant document ( Documents desired by the user) and non-conforming documents. After that, the result is obtained, and the result of the search (secondary search) using the expanded word selected from the words included in the matching document is output as the final result. Hereinafter, a document used for selecting an extended word is referred to as a “seed document”.
また、適合性フィードバックが利用者に強いる負担を軽減するため、擬似適合性フィードバックという手法がある。これは、一次検索の結果の上位に位置付けられた文書をシード文書として拡張語を得るというものである。 In addition, there is a technique called pseudo-compatibility feedback in order to reduce the burden imposed on the user by conformity feedback. In this method, an extended word is obtained by using a document positioned higher in the result of the primary search as a seed document.
しかし、上述のような従来の適合性フィードバックや擬似適合性フィードバックでは、シード文書が検索対象の文書群(一次検索の結果)から選択されるので、拡張語の選択が一次検索の結果に制限されてしまい、最終的な検索結果の質を低下させてしまう場合がある。 However, in the conventional relevance feedback and pseudo relevance feedback as described above, since the seed document is selected from the document group to be searched (the result of the primary search), the selection of extended words is limited to the result of the primary search. This may reduce the quality of the final search result.
この欠点を補う手法はいくつか提案されており、例えば、特許文献2では、二次検索の適合度計算に一次検索の適合度計算の結果をフィードバックさせることで一次検索結果の質が悪い場合でも最終検索結果の質への悪影響を軽減させている。
Several methods have been proposed to compensate for this drawback. For example, in
また、特許文献3では、一次検索の結果得られたシード文書を著者や日付等の書誌事項に基づいて複数のグループに分割し、多様な観点から拡張語を選出することで最終検索結果の質を向上させている。
In
また一方で、単語毎に関連する語を予め登録しておき、その対応関係を元に関連語拡張を行う手法も提案されている。例えば、特許文献4では、共起語データベースという形で関連する語を登録しておく手法が提案されている。
しかしながら、特許文献2および特許文献3における文書検索装置は、シード文書の選択に際し一次検索の影響を大きく受けてしまうことに変わりはない。また、特許文献4に記載の文書検索装置は、拡張語の対応関係を予め登録しておく必要があるので、対応関係のメンテナンスが必要となり、用語が次々と追加されるような分野には適用が困難であるという問題がある。
However, the document search apparatuses in
本発明は、上記の点に鑑みてなされたものであって、シード文書や拡張語の選択に余計な制限を設けることなく、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and is a document search that can output an appropriate search result in response to a search request without providing an extra restriction on the selection of a seed document or an extended word. An object is to provide an apparatus, a document search method, a document search program, and a recording medium.
上述の目的を達成するために、第一の発明に係る文書検索装置は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索装置であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、前記シード文書取得手段により取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得手段と、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出手段と、前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、を有することを特徴とする。 In order to achieve the above object, a document search device according to a first invention is a document search device that searches a document from a predetermined document database based on an input search condition, and acquires an input seed document. A seed document acquisition unit that acquires a seed document based on a character string for use; a related document acquisition unit that acquires another document used by a user of the seed document acquired by the seed document acquisition unit; and A word extracting unit that extracts a word related to the search condition from the seed document and the related document, and a search unit that searches the document based on the search condition and the word extracted by the word extracting unit. Features.
また、第二の発明は、第一の発明に係る文書検索装置であって、前記関連文書は、前記シード文書の利用者が利用した他の文書の他に、前記シード文書の借用者が借りた他の文書、前記シード文書の購入者が購入した他の文書または前記シード文書の閲覧者が閲覧した他の文書を含むことを特徴とする。 A second invention is a document search apparatus according to the first invention, wherein the related document is borrowed by a borrower of the seed document in addition to other documents used by a user of the seed document. And other documents purchased by a purchaser of the seed document or other documents browsed by a viewer of the seed document.
また、第三の発明に係る文書検索装置は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索装置であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、前記シード文書取得手段が取得した前記シード文書から前記検索条件に関連する単語を抽出する単語抽出手段と、前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、を有し、前記単語抽出手段は、各単語と所定のキーワードとの間の距離に基づいて各単語の該所定のキーワードに対する関連度を決定し、該関連度が高い順に所定数の単語を抽出することを特徴とする。 A document search device according to a third aspect of the invention is a document search device that searches a document from a predetermined document database based on an input search condition, and is based on an input seed document acquisition character string. Seed document acquisition means for acquiring a document; word extraction means for extracting a word related to the search condition from the seed document acquired by the seed document acquisition means; the search condition and the word extracted by the word extraction means; Search means for searching for a document based on the word, and the word extraction means determines the degree of relevance of each word to the predetermined keyword based on the distance between each word and the predetermined keyword, A predetermined number of words are extracted in descending order of relevance.
また、第四の発明は、第三の発明に係る文書検索装置であって、前記単語抽出手段は、各単語と前記所定のキーワードとの間の距離に加え、各単語の出現頻度もしくは各単語を含むシード文書の数に基づいて各単語の前記キーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出することを特徴とする。 Further, a fourth invention is a document search device according to the third invention, wherein the word extracting means includes the appearance frequency of each word or each word in addition to the distance between each word and the predetermined keyword. The degree of relevance of each word to the keyword is determined based on the number of seed documents including, and a predetermined number of words are extracted in descending order of the degree of relevance.
また、第五の発明は、第三または第四の発明に係る文書検索装置であって、単語と前記所定のキーワードとの間の距離が大きくなるに従って減少する関連度の減少率を設定させる減少率設定手段を有することを特徴とする。 Further, the fifth invention is a document search device according to the third or fourth invention, wherein a reduction rate for setting a reduction rate of the degree of association that decreases as the distance between a word and the predetermined keyword increases. It has a rate setting means.
また、第六の発明は、第五の発明に係る文書検索装置であって、前記減少率は、文毎に変化することを特徴とする。 The sixth invention is a document retrieval apparatus according to the fifth invention, wherein the reduction rate changes for each sentence.
また、第七の発明に係る文書検索方法は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索方法であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有することを特徴とする。 A document search method according to a seventh aspect of the invention is a document search method for searching a document from a predetermined document database based on an input search condition, wherein the seed search is performed based on an input seed document acquisition character string. A seed document acquisition step for acquiring a document, a related document acquisition step for acquiring another document used by a user of the seed document acquired in the seed document acquisition step as a related document, and the seed document and the related document. The method includes a word extraction step for extracting a word related to the search condition, and a search step for searching for a document based on the search condition and the word extracted in the word extraction step.
また、第八の発明に係る文書検索方法は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索方法であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、前記単語抽出ステップは、単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出することを特徴とする。 A document search method according to an eighth aspect of the present invention is a document search method for searching a document from a predetermined document database based on an input search condition, wherein the seed search is based on an input seed document acquisition character string. A seed document acquisition step for acquiring a document; a word extraction step for extracting a word related to the search condition from the seed document acquired in the seed document acquisition step; and a search condition and the word extraction step extracted A search step for searching for a document based on a word, wherein the word extraction step determines a degree of relevance of the word to the predetermined keyword based on a distance between the word and the predetermined keyword, A predetermined number of words are extracted in descending order of the degree of association.
また、第九の発明に係る文書検索プログラムは、入力された検索条件に基づいて所定の文書データベースからの文書の検索をコンピュータに実行させる文書検索プログラムであって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップとを有することを特徴とする。 A document search program according to the ninth invention is a document search program for causing a computer to search a document from a predetermined document database based on an input search condition, wherein the input seed document acquisition character A seed document acquisition step for acquiring a seed document based on a column; a related document acquisition step for acquiring another document used by a user of the seed document acquired in the seed document acquisition step; and the seed document And a word extraction step for extracting a word related to the search condition from the related document, and a search step for searching for a document based on the search condition and the word extracted in the word extraction step. To do.
また、第十の発明に係る文書検索プログラムは、入力された検索条件に基づいて所定の文書データベースからの文書の検索をコンピュータに実行させる文書検索プログラムであって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、前記単語抽出ステップは、単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出することを特徴とする。 A document search program according to a tenth invention is a document search program for causing a computer to search for a document from a predetermined document database based on an input search condition, wherein the input seed document acquisition character is A seed document acquisition step of acquiring a seed document based on a column; a word extraction step of extracting a word related to the search condition from the seed document acquired in the seed document acquisition step; the search condition and the word extraction A search step for searching for a document based on the word extracted in the step, wherein the word extraction step relates the word to the predetermined keyword based on a distance between the word and the predetermined keyword. The degree is determined, and a predetermined number of words are extracted in descending order of the degree of association.
また、第十一の発明に係る記録媒体は、第九または第十の発明に係る文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。 The recording medium according to the eleventh invention is a computer-readable recording medium recording the document search program according to the ninth or tenth invention.
本発明によれば、シード文書や拡張語の選択に余計な制限を設けることなく、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体を提供することができる。 According to the present invention, a document search apparatus, a document search method, a document search program, and a record capable of outputting an appropriate search result in response to a search request without placing an extra restriction on the selection of seed documents and extended words A medium can be provided.
以下、図面に基づいて本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の実施の形態における文書検索装置の機能構成例を示す図である。図1において、文書検索装置10は、検索要求入力部11、シード文書取得部12、拡張語抽出部13、文書検索部14および文書データベース15から構成される。
FIG. 1 is a diagram illustrating a functional configuration example of a document search apparatus according to an embodiment of the present invention. In FIG. 1, the
検索要求入力部11は、検索要求入力画面を表示させ、所望とする文書を検索するための検索語、検索文字列、検索式等を入力させて検索条件を取得するための手段である。 The search request input unit 11 is a means for displaying a search request input screen and acquiring a search condition by inputting a search word, a search character string, a search expression, and the like for searching for a desired document.
また、検索要求入力部11は、所望とする文書の内容を表す単語、文字列または文章等をユーザに入力させてシード文書を取得するためのシード文書取得用文字列(単語、複合語または文章等である。)を取得する。 Further, the search request input unit 11 is a seed document acquisition character string (word, compound word, or sentence) for acquiring a seed document by allowing a user to input a word, a character string, or a sentence representing the content of a desired document. Etc.).
図2は、検索要求入力画面の表示例を示す図であり、検索要求入力画面110は、検索条件入力領域111、シード文書取得用文字列入力領域112、シード数入力領域113および検索ボタン114から構成される。
FIG. 2 is a diagram showing a display example of the search request input screen. The search
検索条件入力領域111は、検索条件を入力させるためのテキストボックスであり、シード文書取得用文字列入力領域112は、シード文書取得用文字列またはそれを含む文章を入力させるためのテキストボックスである。
The search condition input area 111 is a text box for inputting a search condition, and the seed document acquisition character
シード文書取得用文字列入力領域112には、例えば、話し言葉のような自然文が入力されてもよく、その場合、検索要求入力部11は、入力された自然文から形態素解析等によりシード文書取得用文字列を抽出する。
For example, a natural sentence such as spoken language may be input to the seed document acquisition character
また、シード文書取得文字列入力領域112には、検索条件入力領域111に入力された検索条件に基づく検索結果(文書群)の中から関連度の最も高い文字列(例えば、検索された文書の中で出現頻度が最も高い文字列)が自動的に抽出されたうえで入力されてもよく、検索結果(文書群)の中からユーザが任意に選択した文字列が入力されてもよい。
In the seed document acquisition character
シード数入力領域113は、シード文書取得用文字列によって取得するシード文書の最大数を入力させるためのテキストボックスであり、例えば、シード文書の最大数に「10」が入力された場合、シード文書取得用文字列に基づいて検索された文書が100件であってもシード文書取得用文字列の出現頻度等に基づいて100件のうちの10件のみをシード文書とする。
The seed
検索ボタン114は、文書の検索を開始させるためのボタンであり、検索ボタン114が押下されるとシード文書取得用文字列に基づいてシード文書が抽出され、シード文書から拡張語が抽出され、検索条件と拡張語に基づいて文書が検索される。
The
シード文書取得部12は、検索要求入力部11が取得したシード文書取得用文字列に基づいてシード文書を取得するための手段である。
The seed
また、シード文書取得部12は、検索要求入力部11が取得したシード文書取得用文字列に基づいて一次的な検索を行い、その一次的な検索によって得られた文書の利用者が利用した他の文書を関連文書として取得する。
In addition, the seed
関連文書をシード文書に加えてシード文書の数を増大させ、シード文書から抽出される拡張語をより適切なものとするためであり、また、シード文書の利用者は、シード文書と内容が類似する文書を利用している可能性が高いからである。 In order to increase the number of seed documents by adding related documents to the seed documents, and to make the extended words extracted from the seed documents more appropriate, the users of the seed documents are similar in content to the seed documents. This is because there is a high possibility that the document to be used is used.
拡張語抽出部13は、シード文書を構成する単語から拡張語を所定数選択するための手段であり、シード文書および関連文書を構成する単語から拡張語を所定数選択するようにしてもよい。
The extended
拡張語抽出部13は、例えば、形態素解析によりシード文書に含まれるすべての単語を抽出し、各単語のシード文書における出現頻度を算出し、出現頻度の高い順に所定数(例えば、5個)の単語を拡張語として抽出する。
The extended
文書検索部14は、検索条件と拡張語抽出部13で抽出された拡張語とに基づいて文書データベース15に蓄積されている文書の集合(以下、「被検索文書」という。)の中から適合する文書を検索して検索結果の一覧を利用者に提示するための手段であり、例えば、検索条件および拡張語の双方を含む文書を検索してもよく、検索条件または拡張語のいずれかを含む文書を検索してもよい。
The
また、文書検索部14は、拡張語のすべてを含む文書を検索してもよく、所定数(例えば、3個)以上の拡張語を含む文書を検索してもよい。
Further, the
文書データベース15は、被検索文書を蓄積したデータベースである。
The
なお、文書検索装置10は、一台のコンピュータで構成されてもよく、クライアント・サーバ型等を採用して複数台のコンピュータで構成されてもよい。後者の場合、例えば、検索要求入力部11がクライアントに実装され、シード文書取得部12、拡張語抽出部13、文書検索部14および文書データベース15がサーバに実装されるようにしてもよい。
The
図3は、本発明の実施の形態における文書検索装置10のハードウェア構成例を示す図である。図3の文書検索装置10は、ドライブ装置100、補助記憶装置102、メモリ装置103、演算処理装置104、表示装置105および入力装置106から構成される。
FIG. 3 is a diagram illustrating a hardware configuration example of the
ドライブ装置100は、記録媒体101に記録されたプログラム等を読み出すための装置である。
The
記録媒体101は、各種データを記録するための持ち運び可能な記録媒体であり、例えば、CD−ROMやDVD―ROM等がある。
The
補助記憶装置102は、文書検索装置10において各種処理を実行するためのプログラムを記憶するための不揮発性記録媒体であり、例えば、ハードディスクがある。文書検索装置10は、プログラムを記録した記録媒体101がドライブ装置100にセットされると、ドライブ装置100の記録媒体101からそのプログラムを読み出して補助記憶装置102にインストールする。
The
メモリ装置103は、文書検索装置10において各種処理を実行するためのプログラムをロードするための揮発性記録媒体であり、例えば、RAM(Random Access Memory)がある。文書検索装置10は、プログラムの起動命令があった場合、補助記憶装置102からプログラムを読み出してメモリ装置103にロードする。
The
演算処理装置104は、メモリ装置103にロードされたプログラムを逐次実行させるための装置である。
The
表示装置105は、プログラムによるGUI(Graphical User Interface)等を表示するための装置であり、入力装置106は、キーボードおよびマウス等で構成され、様々な操作指示を受け付けるための装置である。
The
次に、図4を参照しながら、文書検索装置10における処理手順について説明する。図4は、第一の実施の形態における文書検索装置10による文書検索処理を説明するためのフローチャートである。
Next, a processing procedure in the
最初に、検索要求入力部11は、検索要求入力画面110を表示装置105に表示させ、利用者に検索要求を入力させる(ステップS101)。
First, the search request input unit 11 displays the search
検索条件、シード文書取得用文字列もしくはそれを含む文章、および、シード文書の最大数等が入力され、検索ボタン114がクリックされると、シード文書取得部12は、シード文書取得用文字列入力領域112に入力された文章を形態素解析により単語に分割する(ステップS102)。
When a search condition, a character string for acquiring a seed document or a sentence including the same, a maximum number of seed documents, and the like are input, and the
次に、シード文書取得部12は、単語毎に被検索文書における出現頻度を算出する(ステップS103)。
Next, the seed
次に、シード文書取得部12は、出現頻度の最も高い単語を選択し(ステップS104)、選択された単語と検索条件入力領域111に入力された検索条件とシード文書の最大数とに基づいて文書データベース15に対する検索要求を示す命令文を生成する(ステップS105)。なお、シード文書取得部12は、出現頻度の高い順に複数の単語を選択してもよい。
Next, the seed
検索要求を示す命令文は、公知のSQL(Structured Query Language)構文またはその拡張構文で記述され、例えば、以下のような副問い合せを用いた拡張構文とする。 The command statement indicating the search request is described in a well-known SQL (Structured Query Language) syntax or its extended syntax, and is, for example, an extended syntax using the following subquery.
select タイトル from ドキュメント where 本文 contains '環境保護'expand from (select タイトル from ドキュメント where 文書ID in (select 文書ID from 文書ID履歴 where 利用者ID in (select 第一利用者ID from 利用者ID履歴 where 文書ID in (select 文書ID from ドキュメント where 本文 contains '温暖化' limit 10))))
なお、以下は、上述の命令文を説明のため複数の部分に分割したものである。
select title from document where body contains 'environmental protection' expand from (select title from document where document ID in (select document ID from document ID history where user ID in (select first user ID from user ID history where document ID in (select document ID from document where text contains 'warming' limit 10))))
In the following, the above-described command sentence is divided into a plurality of parts for explanation.
select タイトル from ドキュメント where 本文 contains '環境保護' ・・・(1)
expand from・・・(2)
(select タイトル from ドキュメント where 文書ID in ・・・(3)
(select 文書ID from 文書ID履歴 where 利用者ID in ・・・(4)
(select 第一利用者ID from 利用者ID履歴 where 文書ID in ・・・(5)
(select 文書ID from ドキュメント where 本文 contains '温暖化' limit 10))))・・・(6)
(1)の部分は、文書データベース15に定義されているドキュメントテーブルに対する検索命令であり、より詳しくは、「ドキュメントテーブルにおいて文書の本文に'環境保護'という語を含む文書のタイトルを抽出せよ。」という命令を意味する。
select Title from Document where Text contains 'Environmental protection' (1)
expand from ... (2)
(select title from document where document ID in (3)
(select document ID from document ID history where user ID in (4)
(select first user ID from user ID history where document ID in (5)
(select document ID from document where text contains 'warming' limit 10))))) (6)
The part (1) is a search command for a document table defined in the
「ドキュメントテーブル」は、文書IDで特定される文書に関する各種データを体系的に構成したテーブルであり、例えば、図4(A)に示すように、文書ID、タイトル、著者、出版社、翻訳者等のフィールドを有する。 The “document table” is a table that systematically forms various data related to the document specified by the document ID. For example, as shown in FIG. 4A, the document ID, title, author, publisher, translator Etc. fields.
また、「文書ID」とは、文書データベース15に格納された文書を特定するための識別子であり、例えば、数字、記号、文字列等で表現され、ドキュメントテーブル、利用者ID履歴テーブルおよび文書ID履歴テーブルに共通する項目として用いられる。
The “document ID” is an identifier for specifying a document stored in the
「利用者ID履歴テーブル」は、利用者の履歴を文書毎に記録したテーブルであり、例えば、文書データベース15に格納され、図4(B)に示すように、文書ID、第一利用者ID、第二利用者ID等のフィールドを有する。
The “user ID history table” is a table in which the user history is recorded for each document. For example, the user ID history table is stored in the
また、利用者ID履歴テーブルは、各文書を利用した利用者の履歴を時系列で記録するテーブルであって、例えば、図書館の貸し出し履歴の管理、書店の販売履歴の管理、ウェブサイトの閲覧履歴の管理等に利用される。 The user ID history table is a table for recording the history of users who used each document in time series. For example, the management of library rental history, the management of bookstore sales history, the browsing history of websites, etc. It is used for management etc.
「利用者ID」とは、利用者を特定するための識別子であり、例えば、数字、記号、文字列等で表現され、利用者ID履歴テーブルおよび文書ID履歴テーブルにおけるフィールドとして用いられる。「利用者」とは、文書を利用した者であり、例えば、文書検索装置10が図書館に導入された場合における文書(書籍)の借用者、文書検索装置10が書店に導入された場合における文書(書籍)の購入者、文書検索装置10がウェブサイトに導入された場合における文書(コンテンツ)の閲覧者等を含む。
The “user ID” is an identifier for specifying a user, and is represented by, for example, a number, a symbol, a character string, etc., and is used as a field in the user ID history table and the document ID history table. A “user” is a person who uses a document, for example, a borrower of a document (book) when the
また、第一利用者IDは、対応する文書を利用した直近の利用者の識別子であり、第二利用者IDは、第一利用者IDが示す利用者の前に文書を利用した利用者の識別子である。 The first user ID is the identifier of the most recent user who used the corresponding document, and the second user ID is the user who used the document before the user indicated by the first user ID. It is an identifier.
「文書ID履歴テーブル」とは、各利用者が利用した文書の履歴を利用者毎に記録したテーブルであり、例えば、文書データベース15に格納され、図4(C)に示すように、利用者ID、第一文書ID、第二文書ID等のフィールドを有する。
The “document ID history table” is a table in which the history of documents used by each user is recorded for each user. For example, the document ID history table is stored in the
また、文書ID履歴テーブルは、各利用者が利用した文書の履歴を時系列で記録するテーブルであって、例えば、利用者ID履歴テーブルと同様、図書館の貸し出し履歴の管理、書店の販売履歴の管理、ウェブサイトの閲覧履歴の管理等に利用される。 The document ID history table is a table that records the history of documents used by each user in time series. For example, as with the user ID history table, the management of library rental history and the sales history of bookstores are recorded. Used for management, management of website browsing history, etc.
また、第一文書IDは、対応する利用者が利用した直近の文書の識別子であり、第二文書IDは、対応する利用者が利用した第一文書IDで示す文書の前に利用した文書の識別子である。 The first document ID is an identifier of the latest document used by the corresponding user, and the second document ID is the document used before the document indicated by the first document ID used by the corresponding user. It is an identifier.
また、「expand from」という記述(2)に続く副問い合せにおける最も外側のselect文(3)は、より多くのシード文書を取得するための検索命令であり、より詳しくは、「ドキュメントテーブルにおいて文書IDの値が(4)の検索結果の値に一致するレコードのタイトルを抽出せよ。」という命令を意味する。 The outermost select statement (3) in the subquery following the description (2) “expand from” is a search command for acquiring more seed documents. This means a command “extract the title of the record whose ID value matches the search result value of (4)”.
なお、「expand from X」は、「Xで示される文書群から所定数の拡張語を抽出せよ。」という命令を意味する。 Note that “expand from X” means an instruction “extract a predetermined number of expansion words from the document group indicated by X”.
また、二番目に外側のselect文(4)は、「文書ID履歴テーブルにおいて利用者IDの値が(5)の検索結果の値に一致するレコードの文書IDを抽出せよ。」という命令を意味する。 The second outer select statement (4) means an instruction “extract the document ID of a record whose user ID value matches the search result value of (5) in the document ID history table”. To do.
また、三番目に外側のselect文(5)は、「利用者ID履歴テーブルにおいて文書IDの値が(6)の検索結果の値に一致するレコードの第一利用者IDを抽出せよ。」という命令を意味する。 The third outer select statement (5) says, “Extract the first user ID of a record whose document ID value matches the search result value of (6) in the user ID history table”. Means an instruction.
また、最も内側のselect文(6)は、「ドキュメントテーブルにおいて文書の本文に'温暖化'という語を含むレコードの上位10件の文書IDを検索せよ。」という命令を意味する。上位10件を定める順位は、例えば、各文書における「温暖化」の出現頻度に基づいて決定される。 The innermost select statement (6) means an instruction “search the top 10 document IDs of records including the word“ warming ”in the document body in the document table”. The ranking for determining the top 10 cases is determined based on, for example, the appearance frequency of “warming” in each document.
なお、「温暖化」という単語は、シード文書取得用文字列より抽出された単語であり、「limit 10」は、取得するシード文書の最大数を示す。また、「環境保護」は、検索条件として入力された検索語である。 The word “warming” is a word extracted from the character string for seed document acquisition, and “limit 10” indicates the maximum number of seed documents to be acquired. “Environmental protection” is a search term input as a search condition.
すなわち、上記のSQL構文は、(6)において検索されたシード文書を利用した利用者の第一利用者ID(直近の利用者IDを意味する。)を(5)において検索し、(5)において検索された第一利用者IDを有する利用者が利用したシード文書以外の文書の文書IDを(4)において検索し、さらに、(4)において検索された文書IDが示す文書を(3)において関連文書として抽出し、(3)において抽出された関連文書から所定数の拡張語を(2)において抽出し、(2)において抽出された拡張語または検索語「環境保護」を本文に含む文書のタイトルを抽出せよ。」を意味することとなる。 That is, the above SQL syntax searches for the first user ID (meaning the latest user ID) of the user who used the seed document searched in (6) in (5), and (5) The document ID of the document other than the seed document used by the user having the first user ID searched for in (4) is searched for in (4), and the document indicated by the document ID searched in (4) is (3) In step (2), a predetermined number of extended words are extracted from the related document extracted in (3), and the expanded word or the search term “environmental protection” extracted in (2) is included in the text. Extract the document title. "".
文書検索装置10は、例えば、図5(A)のドキュメントテーブルから文書の本文に'温暖化'という語を含むレコードの文書IDの値2を取得し、利用者ID履歴テーブルを参照して文書IDの値2に対応する利用者IDの履歴を取得する(図5(B)の場合、第一利用者ID=3を取得する。)。
For example, the
その後、文書検索装置10は、文書ID履歴テーブルを参照して利用者IDの値3に対応する文書IDの履歴を取得する(図5(C)の場合、第一文書ID=2、第二文書ID=4、第三文書ID=5を取得する。)。
Thereafter, the
その後、文書検索装置10は、文書IDの値が2、4または5の文書を関連文書として抽出し、シード文書およびこれら関連文書から拡張語を抽出し、さらに、抽出された拡張語または検索語「環境保護」を本文に含む文書を検索する。
Thereafter, the
なお、文書検索装置10は、第一文書IDで示される文書のみを関連文書としてもよく、履歴にあるすべての文書を関連文書としてもよい。
Note that the
これによって、(6)において検索されたシード文書のみを拡張語抽出の対象とする場合に比べ、より多くの文書を拡張語抽出の対象とすることができ、抽出される拡張語をより適切なものとすることができる。 As a result, compared to the case where only the seed document searched in (6) is the target of extended word extraction, more documents can be the target of extended word extraction, and the extracted extended words are more appropriate. Can be.
なお、上述の命令文をユーザ(検索者)に明示的に入力させてもよい。但し、検索要求入力画面110のようなGUIを提供することによりシステム側が自動的に命令文を作成する方が、SQLに不慣れな利用者に対する利便性という観点からも望ましい。
Note that the above-described command sentence may be explicitly input by the user (searcher). However, it is desirable from the viewpoint of convenience for users unfamiliar with SQL that the system automatically creates a command sentence by providing a GUI such as the search
続いて、再度図4を参照すると、シード文書取得部12は、生成した命令文に基づいて文書データベース15よりシード文書を実際に取得する(ステップS106)。すなわち、シード文書取得部12は、上述の(6)の命令を文書データベース15に対して実行することで、「温暖化」というキーワードを含む文書のうちの上位10件をシード文書として取得する。
Subsequently, referring to FIG. 4 again, the seed
続いて、シード文書取得部12は、命令文(5)に基づいて各シード文書の第一利用者IDを取得する(ステップS107)。
Subsequently, the seed
その後、シード文書取得部12は、命令文(3)および(4)に基づいて第一利用者IDが示す利用者が利用したシード文書以外の文書を関連文書として取得する(ステップS108)。
Thereafter, the seed
すなわち、シード文書取得部12は、上述の(3)乃至(5)の命令を文書データベース15に対して実行することで、「温暖化」というキーワードを含む文書のうちの上位10件のシード文書の利用者が利用した他の文書を関連文書として取得する。
That is, the seed
上述のように、文書検索装置10は、シード文書取得用文字列により抽出したシード文書の利用者(借用者、購入者または閲覧者等をいう。)の利用者IDに基づいてシード文書を利用した利用者が利用(借用、購入または閲覧等を含む。)した他の文書の文書IDを抽出し、それら文書IDで示される文書を関連文書として取得する。
As described above, the
続いて、拡張語抽出部13は、シード文書取得部12によって取得されたシード文書および関連文書から拡張語の選択と抽出を行う。
Subsequently, the extended
すなわち、拡張語抽出部13は、シード文書および関連文書を単語に分割し(ステップS109)、単語毎に文書頻度を算出する(ステップS110)。ここで、単語に対する「文書頻度」とは、単語を含むシード文書または関連文書の数をいい、例えば、全シード文書数に対する割合で表され、シード文書と関連文書の合計が50件であって、ある単語がそのうちの25件に含まれる場合、文書頻度は0.5(50%)となる。
That is, the extended
さらに、拡張語抽出部13は、文書頻度が高い順に所定数の単語を選択し、選択された単語を拡張語として抽出する(ステップS111)。なお、文書頻度の代わりに出現頻度(シード文書における単語の出現数)が用いられてもよい。
Further, the extended
また、シード文書および関連文書の単語への分割は、空白で区切られた単位を用いてもよいし、公知の形態素解析を用いてもよい。或いは、単純に一定の文字数で区切ったものを用いてもよい。 In addition, the seed document and the related document may be divided into words by using units separated by white space or by using known morphological analysis. Or you may use what was simply divided by a fixed number of characters.
また、拡張語抽出部13は、拡張語とするには不適切な単語を予め登録しておき、それら単語を拡張語として抽出しないといった仕組みを実装するようにしてもよい。
Further, the extended
また、拡張語抽出部13は、拡張語として抽出する単語の個数を固定値としてもよく、検索要求入力部11によりGUI等を介してユーザ(検索者)に指定させるようにしてもよい。
Further, the extended
続いて、文書検索部14は、検索要求入力画面110において入力された検索条件(検索語)と拡張語抽出部13により抽出された拡張語の全部または一部とを含む文書を文書データベース15における文書の集合の中から検索し(ステップS112)、検索結果を利用者に提示する。かかる処理は、例えば、特開2003−281181号公報に記載されている方法を用いてもよい。
Subsequently, the
また、文書検索部14は、検索語または拡張語の全部もしくは一部を含む文書を検索するようにしてもよい。
Further, the
上述のように、第一の実施の形態における文書検索装置10は、ユーザ(検索者)によって指定された文字列(シード文書取得用文字列)に基づいて拡張語を選択するので、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
As described above, the
また、第一の実施の形態における文書検索装置10は、シード文書取得用文字列を検索条件の入力と共に入力させることができるため、ユーザ(検索者)による一回の入力操作で簡便に高品質の検索結果を提供することができる。
In addition, since the
また、第一の実施の形態における文書検索装置10は、ユーザ(検索者)が指定したシード文書取得用文字列に基づいて検索される文書と利用者が共通する文書をシード文書に加えるため、拡張語を抽出するための集合(シード文書の母数)を大きくすることができ、より多くの文書の中から厳選された拡張語に基づいてユーザ(検索者)の期待に添った検索結果を提供することができる。
In addition, the
次に、第二の実施の形態について説明する。第二の実施の形態では、拡張語抽出部13が単語とキーワードとの間の距離に基づいて各単語のキーワードに対する関連度を決定し、関連度の高い単語を拡張語として抽出する点に特徴を有する。
Next, a second embodiment will be described. The second embodiment is characterized in that the extended
なお、第二の実施の形態において、文書検索装置10の機能構成およびハードウェア構成は、それぞれ図1および図2に示されたものと同様とする。
In the second embodiment, the functional configuration and hardware configuration of the
図6は、第二の実施の形態における文書検索装置10による文書検索処理を説明するためのフローチャートであり、ステップS201乃至ステップS206が図4のフローチャートで説明した処理の流れと共通する。
FIG. 6 is a flowchart for explaining the document search process by the
ステップS201乃至ステップS206の処理によりシード文書を取得すると、拡張語抽出部13は、シード文書を形態素解析等により単語に分割し(ステップS207)、各単語とキーワードとの間の距離(例えば、ある単語が同じ文書内に複数存在する場合には、キーワードとの間の最短距離とする。)を取得する(ステップS208)。
When the seed document is acquired by the processing from step S201 to step S206, the extended
キーワードは、検索条件入力領域111に入力された検索語「環境保護」であってもよく、シード文書取得用文字列から選択した単語(例えば、「地球」、「温暖化」等をいう。)であってもよい。 The keyword may be the search term “environmental protection” input to the search condition input area 111, and is a word selected from the seed document acquisition character string (for example, “earth”, “warming”, etc.). It may be.
ここで、「距離」とは、各単語とキーワードとの間の文字数、単語数、文章数等で表現される間隔であり、距離が小さいほど各単語とキーワードとの間の関連度は高いものとされる。 Here, “distance” is an interval expressed by the number of characters, the number of words, the number of sentences, etc. between each word and the keyword, and the smaller the distance, the higher the degree of association between each word and the keyword. It is said.
拡張語抽出部13は、単語毎に文書頻度または出現頻度(シード文書における各単語の出現数)を算出し、文書頻度または出現頻度が高い順に所定数の単語を拡張語として抽出するが、さらに、各単語とキーワードとの間の距離に基づいて重み係数を導出し、文書頻度または出現頻度に重み係数を乗じて各単語とキーワードとの間の関連度(関連度=重み係数×文書頻度または出現頻度)を決定する(ステップS209)。
The extended
拡張語抽出部13は、重み係数を0以上1以下の範囲で表し、キーワード自体の場合を1とし(距離が0の状態をいう。)、距離が大きくなるほど0に近づけ、所定距離以上の場合を0とする。なお、重み係数の算出方法は後述する。
The extended
また、拡張語抽出部13は、文書頻度または出現頻度を0以上1以下の範囲(例えば、文書頻度の場合には、各単語が含まれる文書数をシード文書数で除した値とする。)で表す。
Further, the extended
なお、拡張語抽出部13は、文書頻度または出現頻度に重み係数を加えた値を2で除して関連度を算出するようにしてもよい。
The extended
さらに、拡張語抽出部13は、各単語の出現頻度や文書頻度を考慮せず、重み係数をそのまま関連度(関連度=重み係数×1)としてもよい。被検索文書や単語の性質により出現頻度や文書頻度が意味をなさない場合にも(例えば、被検索文書が特定の分野に偏っていたり、単語がどのような分野でも一般的に使用されるものであったりする場合をいう。)、適切な関連度を算出できるようにするためである。
Furthermore, the extended
このように、文書検索装置10は、単語とキーワードとの間の距離に基づく関連度(0以上1以下の値)と文書頻度または出現頻度に基づく関連度(0以上1以下の値)とから最終的な関連度を導出して拡張語を抽出するので、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
As described above, the
拡張語抽出部13により各単語のキーワードに対する関連度を決定して拡張語を抽出する場合、文書検索装置10は、例えば、検索要求を示す命令文を以下のような副問い合せを用いた拡張構文とする。
When the extended
select タイトル from ドキュメント where 本文 contains '環境保護' expand from (select タイトル from ドキュメント where 本文 contains '温暖化' limit 10) distance factor 0.2
なお、以下は、上述の命令文を説明のため複数の部分に分割したものである。
select title from document where text contains 'environmental protection' expand from (select title from document where text contains 'warming' limit 10) distance factor 0.2
In the following, the above-described command sentence is divided into a plurality of parts for explanation.
select タイトル from ドキュメント where 本文 contains '環境保護' ・・・(7)
expand from・・・(8)
(select タイトル from ドキュメント where 本文 contains '温暖化' limit 10) ・・・(9)
distance factor 0.2・・・(10)
(7)の部分は、文書データベース15に定義されているドキュメントテーブルに対する検索命令であり、より詳しくは、「ドキュメントテーブルにおいて文書の本文に'環境保護'という語を含むレコードのタイトルを抽出せよ。」という命令を意味する。
select Title from Document where Text contains 'Environmental protection' (7)
expand from ... (8)
(select title from document where text contains 'warming' limit 10) (9)
distance factor 0.2 (10)
The part (7) is a search command for the document table defined in the
また、expand fromという記述(8)に続く副問い合せにおけるselect文(9)は、より多くのシード文書を取得するための検索命令である。より詳しくは、ドキュメントテーブルにおいて文書の本文に「温暖化」という語を含むレコードの上位10件のタイトルを抽出せよ。」という命令を意味する。 Further, the select statement (9) in the sub-query following the description “expand from” (8) is a search command for acquiring more seed documents. More specifically, extract the top 10 titles of records that contain the word “warming” in the body of the document in the document table. "Means the command.
また、(10)の部分は、(9)において検索されるシード文書における各単語とキーワード(例えば、文字列「温暖化」)との間の距離(文字数または単語数)に基づいて関連度を算出するための命令であり、値「0.2」は、各単語とキーワードとの間の距離が大きくなるに従って減少する重み係数の減少率を意味する。 The part (10) indicates the degree of association based on the distance (number of characters or number of words) between each word in the seed document searched in (9) and a keyword (for example, the character string “warming”). This is a command for calculation, and the value “0.2” means a decreasing rate of the weighting coefficient that decreases as the distance between each word and the keyword increases.
重み係数は、例えば、「重み係数=1÷((距離−1)^減少率)」または「重み係数=1−減少率×距離」(この場合、重み係数の最小値は0とする。)で示される数式を用いて算出される。何れの数式においても、減少率が大きい程、重み係数の低下が急激となる。 For example, the weighting factor is “weighting factor = 1 ÷ ((distance−1) ^ decrease rate)” or “weighting factor = 1−decrease rate × distance” (in this case, the minimum value of the weighting factor is 0). It is calculated using the mathematical formula shown by In any formula, the weight factor decreases more rapidly as the decrease rate is larger.
なお、減少率は、固定値であってもよく、検索要求入力画面110において値が直接入力されるようにしてもよく、或いは、「High」、「Middle」、「Low」の3段階のラジオボタンにより選択されるようにしてもよい。「High」、「Middle」、「Low」の何れかのラジオボタンが選択された場合、減少率は、例えば、それぞれ0.8、0.5、0.2となる。
Note that the reduction rate may be a fixed value, or a value may be directly input on the search
このように、文書検索装置10は、減少率を指定する簡単な方法を提供することにより、各単語のキーワードに対する関連度が拡張語の抽出に及ぼす影響度を調整できるようにし、検索結果の傾向(質)を調整する場合におけるユーザ(検索者)の利便性を向上させることができる。
As described above, the
また、文書検索装置10は、文(センテンス)毎に減少率を変化させるようにし、単語を含む文がキーワードを含む文から遠ざかるにつれて文毎に所定割合(例えば、10%)刻みで減少率を低減させるようにしてもよい(例えば、減少率が0.2%、0.18%、0.162%・・・のように文毎に減少する。)。この場合、所定割合は、「distance factor」の第二引数として設定されてもよく、その場合、(9)の部分は、例えば、減少率を0.2%、所定割合を10%とすると「distance factor 0.2, 10」のように記述される。
Further, the
また、文書検索装置10は、例えば、単語を含む文がキーワードを含む文と同じである場合に重み係数を1とし、単語を含む文がキーワードを含む文から遠ざかるにつれて重み係数を所定の割合で0に近づけ、単語を含む文がキーワードを含む文から所定の文数以上離れた場合に重み係数を0とする。
For example, the
このように、文書検索装置10は、キーワードとの間の距離は大きいがキーワードを含む文と同じ文に含まれる単語が、キーワードとの間の距離は小さいがキーワードを含む文と異なる文に含まれる単語よりも、キーワードに対する関連度が低くなってしまうのを防止し、適切な関連度を設定して適切な拡張語を抽出することにより、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
As described above, the
続いて、再度図6を参照すると、拡張語抽出部13は、関連度(重み係数×文書頻度)の高い順に単語を拡張語として抽出し(ステップS210)、その後、文書検索装置10は、検索条件入力領域111に入力された検索条件(検索語)と拡張語抽出部13により抽出された拡張語の全部または一部とを含む文書を文書データベース15における文書の集合の中から検索し(ステップS211)、検索結果を利用者に提示する。
Subsequently, referring to FIG. 6 again, the extended
上述のように、第二の実施の形態における文書検索装置10は、シード文書に含まれる単語とキーワードとの間の距離に基づいて単語のキーワードに対する関連度を決定し拡張語を抽出するので、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
As described above, the
なお、第二の実施の形態における文書検索装置10は、シード文書の利用者が利用した他の文書を関連文書として抽出し、シード文書または関連文書に含まれる単語とキーワードとの間の距離に基づいて単語のキーワードに対する関連度を決定し拡張語を抽出するようにしてもよい。
Note that the
以上、本発明の実施例について詳述したが、本発明は、上述のような特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形または変更を加えることができる。 As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to the above specific embodiment, In the range of the summary of this invention described in the claim, Various modifications or changes can be made.
例えば、上述の実施例では、拡張語抽出部13が関連度の高い順に所定数の単語を拡張語として抽出するが、関連度が所定値以上の単語を全て拡張語として抽出するようにしてもよい。
For example, in the above-described embodiment, the expanded
また、上述の実施例では、シード文書取得部12によりシード文書の利用者が利用した他の文書の全部または一部を関連文書として取得するが、シード文書の利用者が所定期間内に利用した文書のみを関連文書として取得するようにしてもよい。利用日が時間的に離れている場合、シード文書との関連性が低くなると考えられるからである。
In the above-described embodiment, the seed
また、第二の実施例では、拡張語抽出部13が各単語とキーワードとの間の最短距離(最小値)に基づいて関連度を算出するが、平均距離(平均値)、最長距離(最大値)、中間距離(中間値)に基づいて関連度を算出するようにしてもよい。
In the second embodiment, the extended
10 文書検索装置
11 検索要求入力部
12 シード文書取得部
13 拡張語抽出部
14 文書検索部
15 文書データベース
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 表示装置
106 入力装置
110 検索要求入力画面
111 検索条件入力領域
112 シード文書取得用文字列入力領域
113 シード数入力領域
114 検索ボタン
DESCRIPTION OF
Claims (11)
入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、
前記シード文書取得手段により取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得手段と、
前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出手段と、
前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、
を有することを特徴とする文書検索装置。 A document search device for searching a document from a predetermined document database based on an input search condition,
Seed document acquisition means for acquiring a seed document based on the input seed document acquisition character string;
Related document acquisition means for acquiring other documents used by the user of the seed document acquired by the seed document acquisition means as related documents;
Word extraction means for extracting words related to the search condition from the seed document and the related document;
Search means for searching for a document based on the search condition and the word extracted by the word extraction means;
A document search apparatus characterized by comprising:
ことを特徴とする請求項1に記載の文書検索装置。 The related document includes, in addition to other documents used by a user of the seed document, other documents borrowed by a borrower of the seed document, other documents purchased by a purchaser of the seed document, or the seed document Including other documents viewed by
The document search apparatus according to claim 1.
入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、
前記シード文書取得手段が取得した前記シード文書から前記検索条件に関連する単語を抽出する単語抽出手段と、
前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、を有し、
前記単語抽出手段は、各単語と所定のキーワードとの間の距離に基づいて各単語の該所定のキーワードに対する関連度を決定し、該関連度が高い順に所定数の単語を抽出する、
ことを特徴とする文書検索装置。 A document search device for searching a document from a predetermined document database based on an input search condition,
Seed document acquisition means for acquiring a seed document based on the input seed document acquisition character string;
A word extracting unit that extracts a word related to the search condition from the seed document acquired by the seed document acquiring unit;
Search means for searching for a document based on the search condition and the word extracted by the word extraction means,
The word extraction means determines a degree of association of each word with respect to the predetermined keyword based on a distance between each word and the predetermined keyword, and extracts a predetermined number of words in descending order of the degree of association;
A document search apparatus characterized by that.
ことを特徴とする請求項3に記載の文書検索装置。 The word extraction means determines the relevance of each word to the keyword based on the frequency of appearance of each word or the number of seed documents including each word, in addition to the distance between each word and the predetermined keyword, Extracting a predetermined number of words in descending order of the degree of association;
The document search apparatus according to claim 3.
を有することを特徴とする請求項3または4に記載の文書検索装置。 A decrease rate setting means for setting a decrease rate of the degree of association that decreases as the distance between the word and the predetermined keyword increases;
5. The document search apparatus according to claim 3, further comprising:
ことを特徴とする請求項5に記載の文書検索装置。 The rate of decrease varies from sentence to sentence,
The document search apparatus according to claim 5, wherein:
入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、
前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、
を有することを特徴とする文書検索方法。 A document search method for searching a document from a predetermined document database based on an input search condition,
A seed document acquisition step of acquiring a seed document based on the input seed document acquisition character string;
A related document acquisition step of acquiring, as a related document, another document used by a user of the seed document acquired in the seed document acquisition step;
A word extracting step of extracting a word related to the search condition from the seed document and the related document;
A search step for searching for a document based on the search condition and the word extracted in the word extraction step;
A document search method characterized by comprising:
入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、
前記単語抽出ステップは、単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出する、
ことを特徴とする文書検索方法。 A document search method for searching a document from a predetermined document database based on an input search condition,
A seed document acquisition step of acquiring a seed document based on the input seed document acquisition character string;
A word extraction step of extracting a word related to the search condition from the seed document acquired in the seed document acquisition step;
A search step for searching for a document based on the search condition and the word extracted in the word extraction step,
The word extraction step determines a degree of association of the word with the predetermined keyword based on a distance between the word and the predetermined keyword, and extracts a predetermined number of words in descending order of the degree of association.
A document search method characterized by the above.
入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、
前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、
を有することを特徴とする文書検索プログラム。 A document search program for causing a computer to search for a document from a predetermined document database based on an input search condition,
A seed document acquisition step of acquiring a seed document based on the input seed document acquisition character string;
A related document acquisition step of acquiring, as a related document, another document used by a user of the seed document acquired in the seed document acquisition step;
A word extracting step of extracting a word related to the search condition from the seed document and the related document;
A search step for searching for a document based on the search condition and the word extracted in the word extraction step;
A document search program characterized by comprising:
入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、
前記単語抽出ステップは、単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出する、
ことを特徴とする文書検索プログラム。 A document search program for causing a computer to search for a document from a predetermined document database based on an input search condition,
A seed document acquisition step of acquiring a seed document based on the input seed document acquisition character string;
A word extraction step of extracting a word related to the search condition from the seed document acquired in the seed document acquisition step;
A search step for searching for a document based on the search condition and the word extracted in the word extraction step,
The word extraction step determines a degree of association of the word with the predetermined keyword based on a distance between the word and the predetermined keyword, and extracts a predetermined number of words in descending order of the degree of association.
A document search program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006250049A JP4933869B2 (en) | 2006-09-14 | 2006-09-14 | Document search apparatus, document search method, document search program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006250049A JP4933869B2 (en) | 2006-09-14 | 2006-09-14 | Document search apparatus, document search method, document search program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008071198A true JP2008071198A (en) | 2008-03-27 |
JP4933869B2 JP4933869B2 (en) | 2012-05-16 |
Family
ID=39292715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006250049A Expired - Fee Related JP4933869B2 (en) | 2006-09-14 | 2006-09-14 | Document search apparatus, document search method, document search program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4933869B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010055373A (en) * | 2008-08-28 | 2010-03-11 | Sky Co Ltd | Note evaluation device or note evaluation program |
CN110895556A (en) * | 2018-09-13 | 2020-03-20 | 深圳市蓝灯鱼智能科技有限公司 | Text retrieval method and device, storage medium and electronic device |
WO2020153206A1 (en) * | 2019-01-23 | 2020-07-30 | 株式会社日立製作所 | Device and method for collecting text data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054882A (en) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | Synonym retrieval device, method, program and storage medium |
JP2005135113A (en) * | 2003-10-29 | 2005-05-26 | Sony Corp | Electronic equipment, related word extracting method, and program |
JP2005242401A (en) * | 2004-02-24 | 2005-09-08 | Fujitsu Ltd | Document retrieval program and document retrieval method |
WO2006046390A1 (en) * | 2004-10-29 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | Information search device |
-
2006
- 2006-09-14 JP JP2006250049A patent/JP4933869B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054882A (en) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | Synonym retrieval device, method, program and storage medium |
JP2005135113A (en) * | 2003-10-29 | 2005-05-26 | Sony Corp | Electronic equipment, related word extracting method, and program |
JP2005242401A (en) * | 2004-02-24 | 2005-09-08 | Fujitsu Ltd | Document retrieval program and document retrieval method |
WO2006046390A1 (en) * | 2004-10-29 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | Information search device |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010055373A (en) * | 2008-08-28 | 2010-03-11 | Sky Co Ltd | Note evaluation device or note evaluation program |
CN110895556A (en) * | 2018-09-13 | 2020-03-20 | 深圳市蓝灯鱼智能科技有限公司 | Text retrieval method and device, storage medium and electronic device |
CN110895556B (en) * | 2018-09-13 | 2023-07-28 | 北京蓝灯鱼智能科技有限公司 | Text retrieval method and device, storage medium and electronic device |
WO2020153206A1 (en) * | 2019-01-23 | 2020-07-30 | 株式会社日立製作所 | Device and method for collecting text data |
JP2020119254A (en) * | 2019-01-23 | 2020-08-06 | 株式会社日立製作所 | Text data collection device and method |
JP7085499B2 (en) | 2019-01-23 | 2022-06-16 | 株式会社日立製作所 | Text data collection device and method |
Also Published As
Publication number | Publication date |
---|---|
JP4933869B2 (en) | 2012-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6266080B2 (en) | Method and system for evaluating matching between content item and image based on similarity score | |
US8739061B1 (en) | Method and apparatus for output of search results | |
US8126883B2 (en) | Method and system for re-ranking search results | |
CA2917471C (en) | Retrieval of attribute values based upon identified entities | |
US9846744B2 (en) | Media discovery and playlist generation | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US8332391B1 (en) | Method and apparatus for automatically identifying compounds | |
US9652558B2 (en) | Lexicon based systems and methods for intelligent media search | |
US20090083230A1 (en) | Apparatus and method for supporting information searches | |
US20180189297A1 (en) | Search Query Generation Using Query Segments and Semantic Suggestions | |
JP2003132060A (en) | Retrieval support device, retrieval support method and program thereof | |
US8782049B2 (en) | Keyword presenting device | |
JP4825544B2 (en) | Document search apparatus, document search method, document search program, and recording medium | |
TW200805095A (en) | Data product search using related concepts | |
JP2010128677A (en) | Text summarization apparatus, method therefor, and program | |
JP2004341753A (en) | Retrieval support device, retrieval support method and program | |
JP4933869B2 (en) | Document search apparatus, document search method, document search program, and recording medium | |
US8082240B2 (en) | System for retrieving information units | |
EP2017752A1 (en) | Information processing apparatus, information processing method and program | |
KR101140724B1 (en) | Method and system of configuring user profile based on a concept network and personalized query expansion system using the same | |
JPH11296537A (en) | Information retrieval system, information providing device, information retrieval terminal device, information retrieving method, and storage medium | |
WO2018084226A1 (en) | Document search method and device | |
WO2017134760A1 (en) | Information search method, information search device and information search system | |
WO2013015811A1 (en) | Search query generation using query segments and semantic suggestions | |
KR101421819B1 (en) | Method for providing keyword search result using balloon in an online environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4933869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |