JP2002259385A - Device, method and program for retrieving document and recording medium - Google Patents

Device, method and program for retrieving document and recording medium

Info

Publication number
JP2002259385A
JP2002259385A JP2001054539A JP2001054539A JP2002259385A JP 2002259385 A JP2002259385 A JP 2002259385A JP 2001054539 A JP2001054539 A JP 2001054539A JP 2001054539 A JP2001054539 A JP 2001054539A JP 2002259385 A JP2002259385 A JP 2002259385A
Authority
JP
Japan
Prior art keywords
document
documents
word
search
conforming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001054539A
Other languages
Japanese (ja)
Other versions
JP4049543B2 (en
Inventor
Yasutsugu Ogawa
泰嗣 小川
Hiroko Mano
博子 真野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001054539A priority Critical patent/JP4049543B2/en
Publication of JP2002259385A publication Critical patent/JP2002259385A/en
Application granted granted Critical
Publication of JP4049543B2 publication Critical patent/JP4049543B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a document retrieving device capable of expanding retrieval conditions even when an n-gram index is used. SOLUTION: To a retrieval condition 10 to become a retrieval character string inputted from a user by a retrieval condition input part 21, a document ranking part 22 selects the set of suited documents out of a document file 23a in a document database 23. A word extracting part 24 extracts a word in the suited document by morpheme analysis or the like. A word ranking part 25 selects a word in the suited document corresponding to the degree of relation by an n-gram index 23b of the document database 23 and prepares new retrieval conditions by adding such words to the original retrieval conditions as words related to the retrieval conditions. On such new retrieval conditions, a suited document 30 is selected out of the document database 23 by the document ranking part 22 again and outputted by a document output part 26.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書検索装置、文
書検索方法、文書検索プログラム、及びその記録媒体に
関し、より詳細には、与えられた検索条件に対して適合
する文書を選択する検索を行い、適合文書から抽出し
た、検索条件に関連した単語或いは索引単位によって検
索条件を拡張し、拡張した検索条件で再検索する文書検
索装置、文書検索方法、文書検索プログラム、及びその
プログラムを記録したコンピュータ読み取り可能な記録
媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search apparatus, a document search method, a document search program, and a recording medium for the same. A document search device, a document search method, a document search program, and a program for retrieving a search condition based on a word or an index unit related to the search condition extracted from a suitable document and performing re-search based on the expanded search condition. The present invention relates to a computer-readable recording medium.

【0002】[0002]

【従来の技術】文書検索装置において、ユーザが入力し
た検索条件に適合する文書を探し出すために、検索条件
中の各単語に重みをあたえ、それに基づいて検索対象の
各文書の検索条件に対する適合の度合を求めるという方
法が一般に行われている。
2. Description of the Related Art In a document search apparatus, in order to search for a document that satisfies a search condition input by a user, each word in the search condition is given a weight, and based on the weight, each document to be searched is matched with the search condition. A method of obtaining a degree is generally used.

【0003】単語の重みの計算式には、例えば、本出願
人による特願平11−314442号明細書(以下、従
来技術1と呼ぶ)に記載の計算式がある。この計算式
は、Dを検索対象文書数(総文書数と呼ぶ)、dを各単
語の出現する文書数(文書頻度と呼ぶ)、k′を確率
推定に基づく調整パラメータ(0より大きい実数)とし
て、下式(1)で表される。
A formula for calculating the weight of a word is, for example, a formula described in Japanese Patent Application No. 11-314442 (hereinafter, referred to as prior art 1) by the present applicant. In this formula, D is the number of documents to be searched (referred to as the total number of documents), d is the number of documents in which each word appears (referred to as the document frequency), and k 4 ′ is an adjustment parameter (real number greater than 0) based on probability estimation. ) Is represented by the following equation (1).

【0004】[0004]

【数1】 (Equation 1)

【0005】各単語の重みが定まったら、各文書が各単
語をどのくらい含んでいるかをもとに各文書の文書適合
度を計算する。この文書適合度は、tfを文書あたりの
単語の出現数(文書内頻度と呼ぶ)、kを調整パラメ
ータとして、以下の計算式(2)で求める。
When the weight of each word is determined, the document relevance of each document is calculated based on how much each word contains each word. This document adaptation degree (referred to as document in frequency) number of occurrences of words per document tf, the k 1 as the adjustment parameter is calculated by the following equation (2).

【0006】[0006]

【数2】 (Equation 2)

【0007】さらに、ユーザが入力した検索条件を用い
て検索した後、適合する文書中に出現する単語から入力
検索条件に関連する単語を選出、元の検索条件に追加
し、再度検索することでユーザの求めるものに近いもの
がより得られやすくなることも知られている。このよう
にして関連語を追加した場合、再検索時の重みづけに
は、例えば、適合文書、非適合文書の中での出現頻度な
どのフィードバック情報を利用し、以下の計算式(3)
で求める。
Further, after searching using the search condition input by the user, a word related to the input search condition is selected from words appearing in a matching document, added to the original search condition, and searched again. It is also known that something closer to what the user wants is more likely to be obtained. When related words are added in this manner, feedback information such as the frequency of occurrence in conforming documents and non-conforming documents is used for weighting at the time of re-searching, and the following formula (3) is used.
Ask for.

【0008】[0008]

【数3】 (Equation 3)

【0009】なお、上式(3)において、Rは適合文書
数、rは適合文書集合の中で単語の出現する文書数、S
は非適合文書数、sは非適合文書集合の中で単語の出現
する文書数、k5,k6は調整パラメータである。
In the above equation (3), R is the number of conforming documents, r is the number of documents in which a word appears in the conforming document set, and S is
Is the number of non-conforming documents, s is the number of documents in which a word appears in the non-conforming document set, and k 5 and k 6 are adjustment parameters.

【0010】また、検索条件関連語を選出するには、適
合する文書から選出すべき関連語を選択するための関連
度評価値TSVは、例えば、適合文書及び非適合文書で
の文書内頻度などのフィードバック情報を利用して、
α,βを調整パラメータとして、以下の計算式(4)で
求める。
In order to select a search condition related word, a relevance evaluation value TSV for selecting a related word to be selected from a matching document is, for example, a frequency in a document between a matching document and a non-matching document. Use the feedback information from
Using α and β as adjustment parameters, it is obtained by the following equation (4).

【0011】[0011]

【数4】 (Equation 4)

【0012】一方、日本語文書を対象に検索を行う場
合、検索のための索引をどのように作成するかが問題と
なる。すなわち、英語では単語を索引単位として索引を
作成するのが一般的であるが、日本語では英語のように
スペース/カンマ/ピリオドなどによって単語が区切ら
れていない。そこで、英語同様に単語を索引単位とする
ためには形態素解析等を導入し単語を切り出す必要があ
るが、解析誤りや辞書整備の問題がある。そこで、n−
gram(n文字の連続)を索引単位とする方法(以下
n−gram索引と呼ぶ)が使用される。この方法とし
ては、例えば当出願人により先に提案された文書検索装
置、文書検索装置及び記録媒体(以下、従来技術2と呼
ぶ)が挙げられる。
On the other hand, when searching for Japanese documents, how to create an index for searching becomes a problem. That is, in English, it is common to create an index using words as index units, but in Japanese, words are not separated by spaces / commas / periods as in English. Therefore, in order to use words as index units as in English, it is necessary to introduce a morphological analysis or the like to cut out words, but there are problems with analysis errors and dictionary maintenance. Then, n-
A method using a gram (a sequence of n characters) as an index unit (hereinafter referred to as an n-gram index) is used. As this method, for example, a document search device, a document search device, and a recording medium (hereinafter, referred to as Conventional Technique 2) previously proposed by the present applicant can be cited.

【0013】[0013]

【発明が解決しようとする課題】しかしながら、n−g
ram索引を使用した場合には、文書検索装置に単語切
り出し手段がないため、上で述べたように単純には検索
条件拡張を適用できないという問題がある。
However, ng
When the ram index is used, there is a problem that the search condition expansion cannot be simply applied as described above because the document search device does not have a word extracting means.

【0014】本発明、上述のごとき実情に鑑みてなされ
たものであり、n−gram索引を使用した場合にも検
索条件拡張を可能とした文書検索装置、文書検索方法、
文書検索プログラム、及びそのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体を提供することをそ
の目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above situation, and has a document search apparatus and a document search method capable of expanding search conditions even when an n-gram index is used.
It is an object of the present invention to provide a document search program and a computer-readable recording medium on which the program is recorded.

【0015】本発明は、また、検索条件拡張において単
語を単位とするとTSVなどの計算に時間がかかるとい
った問題を解消するために、近似的に計算した頻度を使
用する文書検索装置、文書検索方法、文書検索プログラ
ム、及びそのプログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することを他の目的とする。
According to the present invention, a document search apparatus and a document search method using approximate calculated frequencies are used to solve the problem that it takes a long time to calculate a TSV or the like when words are used as a unit in expansion of search conditions. Another object of the present invention is to provide a document search program, and a computer-readable recording medium storing the program.

【0016】本発明は、さらに、検索条件拡張において
拡張する要素を単語ではなくn−gramとすること
で、検索条件拡張を可能とする文書検索装置、文書検索
方法、文書検索プログラム、及びそのプログラムを記録
したコンピュータ読み取り可能な記録媒体を提供するこ
とをその目的とする。
The present invention further provides a document search apparatus, a document search method, a document search program, and a document search program capable of expanding search conditions by using n-grams instead of words as elements to be expanded in search condition expansion. It is an object of the present invention to provide a computer-readable recording medium on which is recorded.

【0017】[0017]

【課題を解決するための手段】請求項1の発明は、ユー
ザが登録した文書を格納し、検索用に、n個の連続され
る文字から構成される文字組であるn−gramを索引
単位とするn−gram索引を含む文書データベース
と、ユーザから検索条件を得る検索条件入力部と、検索
条件にしたがって文書をランキングする文書ランキング
部と、該文書ランキング部が出力する適合文書/非適合
文書から単語を抽出する単語抽出部と、適合文書中の単
語の適合文書/非適合文書/登録文書の統計情報を利用
して単語をランキングし、さらにランキングされた単語
の一部或いは全部をユーザの検索条件に追加して新たな
検索条件を作成する単語ランキング部と、文書を出力す
る文書出力部と、を有することを特徴としたものであ
る。
According to the first aspect of the present invention, a document registered by a user is stored, and an n-gram, which is a character set composed of n consecutive characters, is stored in an index unit for retrieval. A document database including an n-gram index, a search condition input unit for obtaining a search condition from a user, a document ranking unit for ranking documents according to the search condition, and a conforming / non-conforming document output by the document ranking unit Words are extracted using a word extraction unit that extracts words from a document, and statistical information of the matching documents / non-matching documents / registered documents in the matching documents, and a part or all of the ranked words is used by the user. It is characterized by having a word ranking section for creating a new search condition in addition to a search condition, and a document output section for outputting a document.

【0018】請求項2の発明は、請求項1の発明におい
て、単語を選出する際に、該単語の、前記登録文書にお
ける出現数である文書頻度を、該単語を構成するn−g
ramを含む文書数で代用することを特徴としたもので
ある。
According to a second aspect of the present invention, in the first aspect of the invention, when a word is selected, a document frequency, which is the number of appearances of the word in the registered document, is determined by ng which constitutes the word.
This is characterized in that the number of documents including ram is substituted.

【0019】請求項3の発明は、請求項1の発明におい
て、単語を選出する際に、該単語の、前記登録文書にお
ける出現数である文書頻度を、該単語を構成するn−g
ramの文書数の最小値で代用することを特徴としたも
のである。
According to a third aspect of the present invention, in the first aspect of the invention, when a word is selected, a document frequency, which is the number of occurrences of the word in the registered document, is determined by ng which constitutes the word.
This is characterized in that the minimum value of the number of documents of ram is substituted.

【0020】請求項4の発明は、ユーザが登録した文書
を格納し、検索用に、n個の連続される文字から構成さ
れる文字組であるn−gramを索引単位とするn−g
ram索引を含む文書データベースと、ユーザから検索
条件を得る検索条件入力部と、検索条件にしたがって文
書をランキングする文書ランキング部と、適合文書中の
n−gramの適合文書/非適合文書/登録文書の統計
情報を利用してn−gramをランキングし、さらにラ
ンキングされたn−gramの一部或いは全部をユーザ
の検索条件に追加して新たな検索条件を作成する索引単
位ランキング部と、文書を出力する文書出力部と、を有
することを特徴としたものである。
According to a fourth aspect of the present invention, a document registered by a user is stored, and for search, ng is used as an index unit with n-gram which is a character set composed of n consecutive characters.
a document database including a ram index, a search condition input unit for obtaining a search condition from a user, a document ranking unit for ranking documents according to the search condition, and n-gram conforming documents / non-conforming documents / registered documents in the conforming documents An index unit ranking unit that ranks n-grams using the statistical information of, and adds a part or all of the ranked n-grams to the search condition of the user to create a new search condition; And a document output unit for outputting.

【0021】請求項5の発明は、ユーザが登録した文書
を格納し、検索用に、n個の連続される文字から構成さ
れる文字組であるn−gramを索引単位とするn−g
ram索引を含む文書データベースにより、ユーザから
得た検索条件にしたがって文書をランキングし、適合文
書及び非適合文書に分類し、該ランキングによって分類
された適合文書/非適合文書から単語を抽出し、適合文
書中の単語の適合文書/非適合文書/登録文書の統計情
報を利用して単語をランキングし、さらに該ランキング
された単語の一部或いは全部をユーザの検索条件に追加
して新たな検索条件を作成し、前記文書データベースに
より該作成した新たな検索条件にしたがって文書をラン
キングし、適合文書を出力することを特徴としたもので
ある。
According to a fifth aspect of the present invention, a document registered by a user is stored, and for search, ng is used as an index unit with n-gram being a character set composed of n consecutive characters.
A document database including a ram index ranks documents according to search conditions obtained from a user, classifies the documents into conforming documents and non-conforming documents, extracts words from conforming documents / non-conforming documents classified according to the ranking, and performs matching. A word is ranked using statistical information of a conforming document / non-conforming document / registered document of a word, and a part or all of the ranked word is added to a user's search condition to create a new search condition. Is generated, and the documents are ranked according to the new search condition created by the document database, and a conforming document is output.

【0022】請求項6の発明は、請求項5の発明におい
て、単語を選出する際に、該単語の、前記登録文書にお
ける出現数である文書頻度を、該単語を構成するn−g
ramを含む文書数で代用することを特徴としたもので
ある。
According to a sixth aspect of the present invention, in the fifth aspect of the invention, when a word is selected, a document frequency, which is the number of occurrences of the word in the registered document, is determined by using ng constituting the word.
This is characterized in that the number of documents including ram is substituted.

【0023】請求項7の発明は、請求項5の発明におい
て、単語を選出する際に、該単語の、前記登録文書にお
ける出現数である文書頻度を、該単語を構成するn−g
ramの文書数の最小値で代用することを特徴としたも
のである。
According to a seventh aspect of the present invention, in the fifth aspect of the invention, when a word is selected, a document frequency, which is the number of occurrences of the word in the registered document, is determined by ng which constitutes the word.
This is characterized in that the minimum value of the number of documents of ram is substituted.

【0024】請求項8の発明は、ユーザが登録した文書
を格納し、検索用に、n個の連続される文字から構成さ
れる文字組であるn−gramを索引単位とするn−g
ram索引を含む文書データベースにより、ユーザから
得た検索条件にしたがって文書をランキングし、適合文
書及び非適合文書に分類し、適合文書中のn−gram
の適合文書/非適合文書/登録文書の統計情報を利用し
てn−gramをランキングし、さらに該ランキングさ
れたn−gramの一部或いは全部をユーザの検索条件
に追加して新たな検索条件を作成し、前記文書データベ
ースにより該作成された新たな検索条件にしたがって文
書をランキングし、適合文書を出力する文書出力部と、
を有することを特徴としたものである。
According to an eighth aspect of the present invention, a document registered by a user is stored, and for retrieval, ng is used as an index unit with n-gram, which is a character set composed of n consecutive characters.
A document database including a ram index ranks documents according to search conditions obtained from the user, classifies the documents into conforming documents and non-conforming documents, and selects n-grams in the conforming documents.
N-grams are ranked using statistical information of conforming documents / non-conforming documents / registered documents, and a part or all of the ranked n-grams is added to the user's search condition to create a new search condition. And a document output unit that ranks documents according to the new search conditions created by the document database and outputs conforming documents.
Which is characterized by having

【0025】請求項9の発明は、請求項5乃至8のいず
れか1記載の文書検索方法を実行させるための文書検索
プログラムであることを特徴としたものである。
According to a ninth aspect of the present invention, there is provided a document search program for executing the document search method according to any one of the fifth to eighth aspects.

【0026】請求項10の発明は、請求項9記載の文書
検索プログラムを記録したコンピュータ読み取り可能な
記憶媒体であることを特徴としたものである。
According to a tenth aspect of the present invention, there is provided a computer-readable storage medium storing the document search program according to the ninth aspect.

【0027】[0027]

【発明の実施の形態】図1は、本発明の一実施形態にか
かわる文書検索装置の構成を示すブロック図である。本
実施形態にかかわる文書検索装置20は、検索条件入力
部21、文書ランキング部22、単語抽出部24、単語
ランキング部25、文書出力部26及び文書データベー
ス23より構成される。文書データベース23は、文書
そのものを記録する文書ファイル23aと検索に使用す
るn−gram索引23bから構成される。検索条件入
力部21では、ユーザがキーボード等により、検索文字
列となる検索条件10を入力できる。文書ランキング部
22は、検索条件入力部21で入力された検索条件10
に適合する文書(適合文書)の集合を、文書データベー
ス23の文書ファイル23aからn−gram索引を参
照しながら選定する。単語抽出部24は適合文書中の単
語を形態素解析等によって抽出する。単語ランキング部
25は、文書データベース23のn−gram索引23
bを参照して、適合文書中の単語の適合文書/非適合文
書/登録文書の統計情報を利用して単語をランキング
し、すなわち適合文書中の単語を関連度に応じて選出
し、それらを検索条件関連語として元の検索条件に追加
した新しい検索条件を作成する。この新しい検索条件の
もと、文書ランキング部22にて文書データベース23
から再度適合文書30を選出する。文書出力部26は、
選出した適合文書30を出力する。
FIG. 1 is a block diagram showing the configuration of a document search apparatus according to an embodiment of the present invention. The document search device 20 according to the present embodiment includes a search condition input unit 21, a document ranking unit 22, a word extraction unit 24, a word ranking unit 25, a document output unit 26, and a document database 23. The document database 23 includes a document file 23a for recording the document itself and an n-gram index 23b used for searching. In the search condition input unit 21, the user can input the search condition 10 that becomes a search character string using a keyboard or the like. The document ranking unit 22 retrieves the search condition 10 input by the search condition input unit 21.
Is selected from the document file 23a of the document database 23 with reference to the n-gram index. The word extracting unit 24 extracts words in the matching document by morphological analysis or the like. The word ranking unit 25 is an n-gram index 23 of the document database 23.
b, the words are ranked using the statistical information of the conforming document / non-conforming document / registered document of the word in the conforming document, that is, the words in the conforming document are selected according to the degree of relevance, and the words are selected. Create a new search condition that is added to the original search condition as a search condition related term. Under the new search conditions, the document ranking unit 22 generates a document database 23
, The matching document 30 is selected again. The document output unit 26
The selected conforming document 30 is output.

【0028】文書登録は、図1には示されていない文書
入力部によって文書データベースが更新されることによ
り行われる。すなわち、文書が文書ファイルに追加さ
れ、文書内容に応じてn−gram索引の内容も更新さ
れる。
Document registration is performed by updating a document database by a document input unit not shown in FIG. That is, the document is added to the document file, and the content of the n-gram index is updated according to the content of the document.

【0029】図2は、本発明の一実施形態にかかわる文
書検索装置の動作を説明するためのフロー図である。図
1の文書検索装置における文書検索処理は、図2のフロ
ーにしたがって行われる。ユーザによって検索条件入力
部21から検索条件10が入力されると(ステップS
1)、文書ランキング部22は検索条件10中の単語を
重みづけして、文書をランキングし、適合文書を選出す
る(ステップS2)。次に、単語抽出部24によりそれ
らの適合文書から単語を切り出す(ステップS3)。そ
して単語ランキング部25により、適合文書中の単語を
ランキングし、重みづけし、関連語を選出し、新しい検
索条件を作成する(ステップS4)。ここで作成した新
検索条件に基づいて文書ランキング部22により再度文
書をランキングし(ステップS5)、その適合文書30
を出力する(ステップS6)。なお、ステップS2,S
5において行うn−gram索引を用いた文書ランキン
グは従来技術2の方法を用いればよい。ただし、ステッ
プS5では単語の重みはステップS4で計算済みなの
で、単語重みの計算を行う必要はない。ステップS3の
単語切り出しは形態素解析によって文書を単語に切れば
よい。以下、ステップS4を詳しく説明する。
FIG. 2 is a flowchart for explaining the operation of the document search apparatus according to one embodiment of the present invention. The document search processing in the document search device of FIG. 1 is performed according to the flow of FIG. When the user inputs the search condition 10 from the search condition input unit 21 (Step S)
1) The document ranking unit 22 weights the words in the search condition 10, ranks the documents, and selects a suitable document (step S2). Next, words are cut out from the matching documents by the word extracting unit 24 (step S3). The word ranking unit 25 ranks and weights the words in the conforming document, selects related words, and creates a new search condition (step S4). The documents are ranked again by the document ranking unit 22 based on the new search conditions created here (step S5), and the matching documents 30
Is output (step S6). Steps S2 and S
Document ranking using the n-gram index performed in step 5 may use the method of the related art 2. However, in step S5, the weight of the word has already been calculated in step S4, so that it is not necessary to calculate the word weight. The word extraction in step S3 may be performed by cutting the document into words by morphological analysis. Hereinafter, step S4 will be described in detail.

【0030】図3は、本発明にかかわる文書検索処理に
おけるn−gram索引の参照方法を説明するための図
である。ステップS4では、適合文書中のすべての単語
について、n−gram索引23bを参照しながら、適
合文書及び非適合文書での出現状況、すなわちフィード
バック情報を反映させて、それぞれの単語の重みを求め
る。さらに、単語ランキング部は、この重みとフィード
バック情報から適合文書中の各単語について、検索条件
との関連度TSVを求める。以下、計算式は上述の従来
技術1に記載のものを使用する。さらに、図3に示すよ
うに、n−gram索引の索引単位の長さはn=2と
し、適合文書は2つ、非適合文書はなし、「雨林」と
「アマゾン」は1つの適合文書にのみ含まれており出現
回数はそれぞれ3回と2回であり、総文書数は1000
であるとする。ここで、これらの単語の重みとTSVの
計算を説明する。
FIG. 3 is a diagram for explaining a method of referring to an n-gram index in a document search process according to the present invention. In step S4, with respect to all the words in the conforming document, the appearance status of the conforming document and the non-conforming document, that is, the feedback information is reflected while referring to the n-gram index 23b, and the weight of each word is obtained. Further, the word ranking unit obtains the relevance TSV of each word in the matching document from the weight and the feedback information with respect to the search condition. Hereinafter, the calculation formulas used in the above-described prior art 1 are used. Further, as shown in FIG. 3, the length of the index unit of the n-gram index is n = 2, there are two conforming documents, there is no non-conforming document, and “rainforest” and “Amazon” are in only one conforming document. Included and the number of appearances is 3 and 2, respectively, and the total number of documents is 1000
And Here, the weight of these words and the calculation of the TSV will be described.

【0031】まず、「雨林」に関して以下の値が得られ
る。D=1000,d=50,R=2,r=1,S=
0,s=0,tf=3このうち、「雨林」は索引単位と
一致するので、dはn−gram索引の「雨林」の文書
頻度を読み出すことで得られる。上記値を式(3)に当
てはめれば重みが、さらに重みを式(4)に当てはめれ
ばTSVが計算できる。調整パラメータ(k1,k4′,
5,k6,α,β)がすべて1とすると、重みは2.9
9、TSVは2.24となる。
First, the following values are obtained for "rainforest". D = 1000, d = 50, R = 2, r = 1, S =
0, s = 0, tf = 3 Of these, since “rainforest” matches the index unit, d can be obtained by reading the document frequency of “rainforest” in the n-gram index. The weight can be calculated by applying the above value to equation (3), and the TSV can be calculated by applying the weight to equation (4). Adjustment parameters (k 1 , k 4 ′,
If k 5 , k 6 , α, β) are all 1, the weight is 2.9.
9. TSV is 2.24.

【0032】一方、「アマゾン」に関しては以下の値が
得られる。D=1000,d=75,R=2,r=1,
S=0,s=0,tf=2ここで面倒なのはdの取得
で、「雨林」とは異なり「アマゾン」は複数の索引単位
に分割されるので、n−gram索引からは直接得られ
ない。「アマ」「ゾン」の出現情報(文書ID,文書内
頻度,文書内出現位置)を用いて、「アマゾン」が出現
した文書数を求める必要がある。そのためには、「ア
マ」「ゾン」が両方出現し、かつその文書内出現位置が
2文字ずれている文書を特定する。図3の例であれば、
ID=1の文書は両者が2文字はなれて出現しているの
で「アマゾン」を含み、ID=2は両者が出現している
が文書内出現位置がばらばらなので「アマゾン」を含ま
ないと判断できる。このような処理を続けることで、d
を求めることができる。重みとTSVの計算は「雨林」
と同じで、重みは2.57、TSVは1.72となる。
On the other hand, the following values are obtained for "Amazon". D = 1000, d = 75, R = 2, r = 1,
S = 0, s = 0, tf = 2 What is troublesome here is acquisition of d. Unlike “rainforest”, “Amazon” is divided into a plurality of index units, and cannot be directly obtained from the n-gram index. . It is necessary to determine the number of documents in which “Amazon” has appeared using the appearance information (document ID, frequency in document, occurrence position in document) of “Amazon” and “Zon”. For this purpose, a document in which both “ama” and “zon” appear and whose appearance position in the document is shifted by two characters is specified. In the example of FIG.
The document with ID = 1 includes "Amazon" because both appear two characters apart, and it can be determined that ID = 2 does not include "Amazon" since both appear but the locations in the document are different. . By continuing such processing, d
Can be requested. Calculation of weight and TSV is "rain forest"
The weight is 2.57 and the TSV is 1.72.

【0033】ステップS4の最後では、TSVの高い単
語を選択して、それを入力された検索条件に追加して新
検索条件を生成する。入力された検索条件が「熱帯」で
あり、その重みが4.21であったとする。この場合、
新検索条件は、#ORをOR演算子、#WEIGHTを
重みを指定する演算子として、以下のようになる。
At the end of step S4, a word having a high TSV is selected and added to the input search condition to generate a new search condition. It is assumed that the input search condition is “tropical” and its weight is 4.21. in this case,
The new search condition is as follows, using #OR as an OR operator and #WEIGHT as an operator to specify a weight.

【0034】#OR(#WEIGHT[4.21](熱
帯),#WEIGHT[2.99](雨林),#WEI
GHT[2.57](アマゾン))
#OR (#WEIGHT [4.21] (tropical), #WEIGHT [2.99] (rainforest), #WEI
GHT [2.57] (Amazon)

【0035】上述の実施形態においては、文書頻度dを
もとめるのに文書内出現位置の検査が必要であり、処理
に時間がかかる。そこで、本発明の他の実施形態として
は、ステップS4において複数の索引単位に分割される
単語については、dを求める際に文書内出現位置の検査
を行わず、索引単位を含む文書数で代用するようにす
る。
In the above-described embodiment, it is necessary to check the appearance position in the document in order to obtain the document frequency d, and it takes a long time for the processing. Therefore, as another embodiment of the present invention, for a word divided into a plurality of index units in step S4, the appearance position in the document is not checked when d is obtained, and the number of documents including the index unit is substituted. To do it.

【0036】例えば、「アマゾン」については、ID=
2の文書は「アマ」「ゾン」の出現しているので、文書
内出現位置を無視して「アマゾン」を含むと判定する。
この処理を続けることでdを求める。
For example, for “Amazon”, ID =
In the document No. 2, "amazon" and "zon" appear, so that it is determined that "amazon" is included ignoring the appearance position in the document.
By continuing this processing, d is obtained.

【0037】本発明の他の実施形態においては、上述の
ステップS4の処理を変更した実施形態における文書検
索処理をさらに高速化する方法として、ステップS4で
複数の索引単位に分割される単語については、dを求め
る際に索引単位の文書頻度の最小値で代用するようにす
る。
In another embodiment of the present invention, as a method for further accelerating the document search processing in the embodiment in which the processing in step S4 described above is changed, a word divided into a plurality of index units in step S4 is used. , D is substituted by the minimum value of the document frequency for each index.

【0038】例えば、「アマゾン」については、「ア
マ」の文書頻度200と「ゾン」の文書頻度100の最
小値である100をdとする。
For example, as for "Amazon", d which is the minimum value of the document frequency 200 of "Amazon" and the document frequency 100 of "zon" is d.

【0039】図4は、本発明の他の実施形態にかかわる
文書検索装置の構成を示すブロック図である。本実施形
態にかかわる文書検索装置20′は、図1で説明した実
施形態の文書検索装置20と比較して単語抽出部24が
ないこと、単語ランキング部25が索引単位ランキング
部27に変わった点が異なる。
FIG. 4 is a block diagram showing a configuration of a document search apparatus according to another embodiment of the present invention. The document search device 20 ′ according to the present embodiment is different from the document search device 20 of the embodiment described with reference to FIG. 1 in that the word extraction unit 24 is not provided, and the word ranking unit 25 is replaced with an index unit ranking unit 27. Are different.

【0040】すなわち、文書検索装置20′は、検索条
件入力部21、文書ランキング部22、索引単位ランキ
ング部27、文書出力部26及び文書データベース23
より構成される。文書データベース23は、文書そのも
のを記録する文書ファイル23aと検索に使用するn−
gram索引23bから構成される。検索条件入力部2
1では、ユーザがキーボード等により、検索文字列とな
る検索条件10を入力できる。文書ランキング部22
は、検索条件入力部21で入力された検索条件10に適
合する文書(適合文書)の集合を、文書データベース2
3の文書ファイル23aからn−gram索引を参照し
ながら選定する。索引単位ランキング部27は、文書デ
ータベース23のn−gram索引23bにより、適合
文書中のn−gramの適合文書/非適合文書/登録文
書の統計情報を利用してn−gramをランキングし、
すなわち適合文書中の索引単位をランキング、重みづけ
し、関連する索引単位を選出し、新しい検索条件を作成
する。この新しい検索条件のもと、文書ランキング部2
2にて文書データベース23から再度適合文書30′を
選出する。文書出力部26は、選出した適合文書30′
を出力する。また、文書登録は、図4には示されていな
い文書入力部によって文書データベースが更新されるこ
とにより行われる。すなわち、文書が文書ファイルに追
加され、文書内容に応じてn−gram索引の内容も更
新される。
That is, the document search device 20 'includes a search condition input unit 21, a document ranking unit 22, an index unit ranking unit 27, a document output unit 26, and a document database 23.
It is composed of The document database 23 includes a document file 23a for recording the document itself and n-
It is composed of a gram index 23b. Search condition input part 2
In 1, the user can input a search condition 10 that becomes a search character string by using a keyboard or the like. Document ranking section 22
Stores a set of documents (conforming documents) meeting the search condition 10 input by the search condition input unit 21 into the document database 2
3 with reference to the n-gram index from the document file 23a. The index unit ranking unit 27 ranks the n-grams by using the statistical information of the conforming / non-conforming / registered documents of the n-gram in the conforming document by the n-gram index 23b of the document database 23,
That is, the index units in the conforming document are ranked and weighted, related index units are selected, and a new search condition is created. Under this new search condition, the document ranking section 2
In step 2, a suitable document 30 'is selected again from the document database 23. The document output unit 26 outputs the selected conforming document 30 ′
Is output. The document registration is performed by updating the document database by a document input unit not shown in FIG. That is, the document is added to the document file, and the content of the n-gram index is updated according to the content of the document.

【0041】図5は、本発明の他の実施形態にかかわる
文書検索装置の動作を説明するためのフロー図である。
図4の文書検索装置における文書検索処理は、図5のフ
ローにしたがって行われる。図2で説明した処理と比較
すると、図2のステップS3の単語抽出がないことと、
ステップS13(図2のステップS4と対応する)の動
作が異なる。すなわち、ユーザによって検索条件入力部
21から検索条件10が入力されると(ステップS1
1)、文書ランキング部22は検索条件10中の単語を
重みづけして、文書をランキングし、適合文書を選出す
る(ステップS12)。次に、索引単位ランキング部2
7により、適合文書中の索引単位をランキングし、重み
づけし、関連する索引単位を選出し、新しい検索条件を
作成する(ステップS13)。ここで作成した新検索条
件に基づいて文書ランキング部22により再度文書をラ
ンキングし(ステップS14)、その適合文書30′を
出力する(ステップS15)。なお、ステップS12,
S14において行うn−gram索引を用いた文書ラン
キングは従来技術2の方法を用いればよい。以下、ステ
ップS13を詳しく説明する。
FIG. 5 is a flow chart for explaining the operation of the document search apparatus according to another embodiment of the present invention.
The document search processing in the document search device of FIG. 4 is performed according to the flow of FIG. Compared to the processing described in FIG. 2, there is no word extraction in step S3 in FIG.
The operation in step S13 (corresponding to step S4 in FIG. 2) is different. That is, when the user inputs the search condition 10 from the search condition input unit 21 (step S1).
1) The document ranking unit 22 weights the words in the search condition 10, ranks the documents, and selects a suitable document (step S12). Next, the index unit ranking unit 2
7, the index units in the conforming document are ranked, weighted, related index units are selected, and a new search condition is created (step S13). The documents are ranked again by the document ranking unit 22 based on the new search condition created here (step S14), and the matching document 30 'is output (step S15). Step S12,
The document ranking using the n-gram index performed in S14 may use the method of the related art 2. Hereinafter, step S13 will be described in detail.

【0042】ステップS13では、適合文書中のすべて
の索引単位について、n−gram索引を参照しなが
ら、適合文書及び非適合文書での出現状況、すなわちフ
ィードバック情報を反映させて、それぞれの索引単位
(=n−gram)の重みを求める。さらに、索引単位
ランキング部27は、この重みとフィードバック情報か
ら適合文書中の各索引単位について、検索条件との関連
度TSVを求める。
In step S13, with respect to all index units in the conforming document, the appearance state in the conforming document and the non-conforming document, that is, the feedback information is reflected while referring to the n-gram index, and each index unit ( = N-gram). Further, the index unit ranking unit 27 obtains the relevance TSV with the search condition for each index unit in the relevant document from the weight and the feedback information.

【0043】図1で説明した実施形態との相違は、ラン
キングの対象が索引単位にかわったことである。したが
って、図1の実施形態と同じく「雨林」はランキング対
象になるが、「アマゾン」はランキング対象とはならず
そこに含まれる「アマ」「マゾ」「ゾン」が対象とあ
る。索引単位の重み、TSVの計算は、図1の実施形態
における「雨林」の場合と全く同様に行えばよい。
The difference from the embodiment described with reference to FIG. 1 is that the ranking target is changed to the index unit. Therefore, similarly to the embodiment of FIG. 1, “rainforest” is a ranking target, but “Amazon” is not a ranking target but “ama”, “maso”, and “zon” included therein. The weight of the index unit and the calculation of the TSV may be performed in exactly the same manner as in the case of “rainforest” in the embodiment of FIG.

【0044】本実施形態によれば、新検索条件を作成す
る際に重み、TSVを計算するのは全て索引単位となる
ため、文書頻度は単純にn−gramの文書頻度フィー
ルドを読み出すだけで得られるため、検索条件作成が高
速になる。
According to this embodiment, when creating a new search condition, the weight and TSV are all calculated on an index basis, so that the document frequency can be obtained by simply reading out the n-gram document frequency field. As a result, the creation of the search condition becomes faster.

【0045】以上、本発明の各実施形態を文書検索装置
として説明してきたが、文書検索装置の動作としても説
明したように、本発明は文書検索方法としての形態も取
り得ることはいうまでもない。さらに、本発明は、コン
ピュータに文書検索方法を実行させるための文書検索プ
ログラムとしての形態も、その文書検索プログラムを記
録したコンピュータ読み取り可能な記録媒体としての形
態も取り得る。
As described above, each embodiment of the present invention has been described as a document search apparatus. However, as has been described as the operation of the document search apparatus, it goes without saying that the present invention can take the form of a document search method. Absent. Furthermore, the present invention may take the form of a document search program for causing a computer to execute a document search method, or a form of a computer-readable recording medium on which the document search program is recorded.

【0046】[0046]

【発明の効果】本発明によれば、単語抽出部(単語切り
出し部)を設けることでn−gram索引を用いた場合
でも検索条件拡張を行うことができるようになる。
According to the present invention, by providing a word extracting unit (word extracting unit), search conditions can be extended even when an n-gram index is used.

【0047】本発明によれば、近似的に計算した頻度を
使用することにより、候補単語の重み、TSV計算が単
純になり、検索条件拡張が高速化される。
According to the present invention, by using the frequency calculated approximately, the weight of the candidate word and the TSV calculation are simplified, and the expansion of the search condition is accelerated.

【0048】本発明によれば、検索条件拡張において拡
張する要素を単語ではなくn−gramとすることで、
単語抽出部がなくともさらに高速化した検索条件拡張が
可能となる。
According to the present invention, the elements to be expanded in the search condition expansion are not words but n-grams,
Even without a word extraction unit, search conditions can be extended at a higher speed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一実施形態にかかわる文書検索装置
の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a document search device according to an embodiment of the present invention.

【図2】 本発明の一実施形態にかかわる文書検索装置
の動作を説明するためのフロー図である。
FIG. 2 is a flowchart illustrating an operation of the document search device according to the embodiment of the present invention.

【図3】 本発明にかかわる文書検索処理におけるn−
gram索引の参照方法を説明するための図である。
FIG. 3 is a diagram illustrating n- in a document search process according to the present invention.
FIG. 7 is a diagram for explaining a method of referring to a gram index.

【図4】 本発明の他の実施形態にかかわる文書検索装
置の構成を示すブロック図である。
FIG. 4 is a block diagram illustrating a configuration of a document search device according to another embodiment of the present invention.

【図5】 本発明の他の実施形態にかかわる文書検索装
置の動作を説明するためのフロー図である。
FIG. 5 is a flowchart for explaining the operation of a document search device according to another embodiment of the present invention.

【符号の説明】[Explanation of symbols]

10…検索条件、20,20′…文書検索装置、21…
検索条件入力部、22…文書ランキング部、23…文書
データベース、23a…文書ファイル、23b…n−g
ram索引、24…単語抽出部、25…単語ランキング
部、26…文書出力部、27…索引単位ランキング部、
30,30′…適合文書。
10 ... search conditions, 20, 20 '... document search device, 21 ...
Search condition input unit, 22: document ranking unit, 23: document database, 23a: document file, 23b: ng
ram index, 24: word extraction unit, 25: word ranking unit, 26: document output unit, 27: index unit ranking unit,
30, 30 ': Relevant document.

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 ユーザが登録した文書を格納し、検索用
に、n個の連続される文字から構成される文字組である
n−gramを索引単位とするn−gram索引を含む
文書データベースと、ユーザから検索条件を得る検索条
件入力部と、検索条件にしたがって文書をランキングす
る文書ランキング部と、該文書ランキング部が出力する
適合文書/非適合文書から単語を抽出する単語抽出部
と、適合文書中の単語の適合文書/非適合文書/登録文
書の統計情報を利用して単語をランキングし、さらにラ
ンキングされた単語の一部或いは全部をユーザの検索条
件に追加して新たな検索条件を作成する単語ランキング
部と、文書を出力する文書出力部と、を有することを特
徴とする文書検索装置。
1. A document database that stores a document registered by a user and includes an n-gram index for searching, the index unit being n-gram, which is a character set composed of n consecutive characters. A search condition input unit that obtains search conditions from a user, a document ranking unit that ranks documents according to the search conditions, a word extraction unit that extracts words from matching documents / non-matching documents output by the document ranking unit, The words are ranked using the statistical information of the conforming document / non-conforming document / registered document of the word, and a part or all of the ranked word is added to the user's search condition to create a new search condition. A document search device comprising: a word ranking section to be created; and a document output section to output a document.
【請求項2】 請求項1記載の文書検索装置において、
単語を選出する際に、該単語の、前記登録文書における
出現数である文書頻度を、該単語を構成するn−gra
mを含む文書数で代用することを特徴とする文書検索装
置。
2. The document search device according to claim 1, wherein
When selecting a word, the document frequency, which is the number of occurrences of the word in the registered document, is determined by the n-gra that constitutes the word.
A document search apparatus characterized in that the number of documents including m is substituted.
【請求項3】 請求項1記載の文書検索装置において、
単語を選出する際に、該単語の、前記登録文書における
出現数である文書頻度を、該単語を構成するn−gra
mの文書数の最小値で代用することを特徴とする文書検
索装置。
3. The document search device according to claim 1, wherein
When selecting a word, the document frequency, which is the number of occurrences of the word in the registered document, is determined by the n-gra that constitutes the word.
A document search apparatus characterized in that the minimum number of documents of m is substituted.
【請求項4】 ユーザが登録した文書を格納し、検索用
に、n個の連続される文字から構成される文字組である
n−gramを索引単位とするn−gram索引を含む
文書データベースと、ユーザから検索条件を得る検索条
件入力部と、検索条件にしたがって文書をランキングす
る文書ランキング部と、適合文書中のn−gramの適
合文書/非適合文書/登録文書の統計情報を利用してn
−gramをランキングし、さらにランキングされたn
−gramの一部或いは全部をユーザの検索条件に追加
して新たな検索条件を作成する索引単位ランキング部
と、文書を出力する文書出力部と、を有することを特徴
とする文書検索装置。
4. A document database which stores a document registered by a user and includes an n-gram index for searching, the index unit being n-gram which is a character set composed of n consecutive characters. A search condition input unit that obtains search conditions from a user, a document ranking unit that ranks documents according to the search conditions, and statistical information of n-gram conforming documents / non-conforming documents / registered documents in the conforming documents. n
-Ranking the gram and further ranked n
A document search device, comprising: an index unit ranking unit that creates a new search condition by adding a part or all of a gram to a user search condition; and a document output unit that outputs a document.
【請求項5】 ユーザが登録した文書を格納し、検索用
に、n個の連続される文字から構成される文字組である
n−gramを索引単位とするn−gram索引を含む
文書データベースにより、ユーザから得た検索条件にし
たがって文書をランキングし、適合文書及び非適合文書
に分類し、該ランキングによって分類された適合文書/
非適合文書から単語を抽出し、適合文書中の単語の適合
文書/非適合文書/登録文書の統計情報を利用して単語
をランキングし、さらに該ランキングされた単語の一部
或いは全部をユーザの検索条件に追加して新たな検索条
件を作成し、前記文書データベースにより該作成した新
たな検索条件にしたがって文書をランキングし、適合文
書を出力することを特徴とする文書検索方法。
5. A document database which stores a document registered by a user and includes an n-gram index for searching, which is an n-gram index unit, which is a character set composed of n consecutive characters. , Ranking documents according to search conditions obtained from the user, classifying them into conforming documents and non-conforming documents,
A word is extracted from a non-conforming document, words are ranked using statistical information of the conforming document / non-conforming document / registered document of the word in the conforming document, and a part or all of the ranked word is used by the user. A document search method, wherein a new search condition is created in addition to the search condition, documents are ranked according to the created new search condition by the document database, and a matching document is output.
【請求項6】 請求項5記載の文書検索方法において、
単語を選出する際に、該単語の、前記登録文書における
出現数である文書頻度を、該単語を構成するn−gra
mを含む文書数で代用することを特徴とする文書検索方
法。
6. The document search method according to claim 5, wherein
When selecting a word, the document frequency, which is the number of occurrences of the word in the registered document, is determined by the n-gra that constitutes the word.
A document search method, wherein the number of documents including m is substituted.
【請求項7】 請求項5記載の文書検索方法において、
単語を選出する際に、該単語の、前記登録文書における
出現数である文書頻度を、該単語を構成するn−gra
mの文書数の最小値で代用することを特徴とする文書検
索方法。
7. The document search method according to claim 5, wherein
When selecting a word, the document frequency, which is the number of occurrences of the word in the registered document, is determined by the n-gra that constitutes the word.
A document search method characterized by substituting the minimum value of m documents.
【請求項8】 ユーザが登録した文書を格納し、検索用
に、n個の連続される文字から構成される文字組である
n−gramを索引単位とするn−gram索引を含む
文書データベースにより、ユーザから得た検索条件にし
たがって文書をランキングし、適合文書及び非適合文書
に分類し、適合文書中のn−gramの適合文書/非適
合文書/登録文書の統計情報を利用してn−gramを
ランキングし、さらに該ランキングされたn−gram
の一部或いは全部をユーザの検索条件に追加して新たな
検索条件を作成し、前記文書データベースにより該作成
された新たな検索条件にしたがって文書をランキング
し、適合文書を出力する文書出力部と、を有することを
特徴とする文書検索方法。
8. A document database which stores a document registered by a user and includes a n-gram index for searching, which is an n-gram index unit, which is a character set composed of n consecutive characters. The documents are ranked according to search conditions obtained from the user, classified into conforming documents and non-conforming documents, and n-gram conforming documents / non-conforming documents / n-grams in the conforming documents are used by using statistical information of the conforming documents / non-conforming documents / registered documents. rank the gram, and further rank the ranked n-gram
A document output unit for creating a new search condition by adding a part or the whole of the search condition to the user's search condition, ranking documents according to the created new search condition by the document database, and outputting a compatible document; , A document search method.
【請求項9】 請求項5乃至8のいずれか1記載の文書
検索方法を実行させるための文書検索プログラム。
9. A document search program for executing the document search method according to claim 5. Description:
【請求項10】 請求項9記載の文書検索プログラムを
記録したコンピュータ読み取り可能な記憶媒体。
10. A computer-readable storage medium on which the document search program according to claim 9 is recorded.
JP2001054539A 2001-02-28 2001-02-28 Document search device, document search program, recording medium Expired - Fee Related JP4049543B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001054539A JP4049543B2 (en) 2001-02-28 2001-02-28 Document search device, document search program, recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001054539A JP4049543B2 (en) 2001-02-28 2001-02-28 Document search device, document search program, recording medium

Publications (2)

Publication Number Publication Date
JP2002259385A true JP2002259385A (en) 2002-09-13
JP4049543B2 JP4049543B2 (en) 2008-02-20

Family

ID=18914857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001054539A Expired - Fee Related JP4049543B2 (en) 2001-02-28 2001-02-28 Document search device, document search program, recording medium

Country Status (1)

Country Link
JP (1) JP4049543B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011078A (en) * 2003-06-19 2005-01-13 Patolis Corp Similar word retrieval device and method, its program, recording medium with its program recorded and information retreival system
JP2007316788A (en) * 2006-05-24 2007-12-06 Sky Kk Document retrieval method and document retrieval device
KR101084786B1 (en) 2003-03-25 2011-11-21 마이크로소프트 코포레이션 Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101084786B1 (en) 2003-03-25 2011-11-21 마이크로소프트 코포레이션 Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
JP2005011078A (en) * 2003-06-19 2005-01-13 Patolis Corp Similar word retrieval device and method, its program, recording medium with its program recorded and information retreival system
JP4486324B2 (en) * 2003-06-19 2010-06-23 ヤフー株式会社 Similar word search device, method, program, and information search system
JP2007316788A (en) * 2006-05-24 2007-12-06 Sky Kk Document retrieval method and document retrieval device
JP4513781B2 (en) * 2006-05-24 2010-07-28 Sky株式会社 Document search method and document search apparatus

Also Published As

Publication number Publication date
JP4049543B2 (en) 2008-02-20

Similar Documents

Publication Publication Date Title
JP4746439B2 (en) Document search server and document search method
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
JPH11203294A (en) Information retrieving system, device and method and recording medium
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JP2000200281A (en) Device and method for information retrieval and recording medium where information retrieval program is recorded
JP2006099428A (en) Document summary preparation system, method, and program
JP2006215717A (en) System, method, and program for information retrieval
JPH10334106A (en) Relative word display device and medium where program for relative word display is recorded
JP4179858B2 (en) Document search apparatus, document search method, program, and recording medium
JP2006178599A (en) Document retrieval device and method
JPH1145274A (en) Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method
JPH1145257A (en) Web document retrieval supporting device and computer readable recording medium recorded with program for functioning computer as the device
JP2004054882A (en) Synonym retrieval device, method, program and storage medium
JP2002259385A (en) Device, method and program for retrieving document and recording medium
JP2010097239A (en) Dictionary creation device, dictionary creation method, and dictionary creation program
JP2004192374A (en) Document search system, program and recording medium
JP3862059B2 (en) Search expression expansion method and search system
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
JP4671212B2 (en) Document search apparatus, document search method, program, and recording medium
KR20220041337A (en) Graph generation system of updating a search word from thesaurus and extracting core documents and method thereof
JP2003345824A (en) Device, method, and program for document retrieval
JP3162907B2 (en) Document data retrieval device
JPH10334105A (en) Relative word display device and medium where program for relative word display is recorded
JP2002117043A (en) Device and method for document retrieval, and recording medium with recorded program for implementing the same method
JP4074687B2 (en) Summary sentence creation support system and computer-readable recording medium recording a program for causing a computer to function as the system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071127

R150 Certificate of patent or registration of utility model

Ref document number: 4049543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees