JP2000112990A - Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium - Google Patents

Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium

Info

Publication number
JP2000112990A
JP2000112990A JP10300316A JP30031698A JP2000112990A JP 2000112990 A JP2000112990 A JP 2000112990A JP 10300316 A JP10300316 A JP 10300316A JP 30031698 A JP30031698 A JP 30031698A JP 2000112990 A JP2000112990 A JP 2000112990A
Authority
JP
Japan
Prior art keywords
effective word
word
effective
search key
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10300316A
Other languages
Japanese (ja)
Inventor
Noriko Otani
紀子 大谷
Shiro Ito
史朗 伊藤
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP10300316A priority Critical patent/JP2000112990A/en
Publication of JP2000112990A publication Critical patent/JP2000112990A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a text retrieval device and a text retrieval method which can easily re-retrieval matching a retrieval object document and a retrieval result document. SOLUTION: A block 104 extracts an effective word which becomes a candidate for an additional retrieval key from a retrieval object document, counts an appearance frequency in each document and prepares an effective word candidate list. Then, a block 107 refers to the effective word candidate list and prepares an effective word list. Furthermore, a block 109 deletes a word which is not an effective word from a document frequency of the effective word candidate held in a block 105 and prepares the document frequency of the effective word. A block 114 prepares an additional retrieval key candidate list from the one which corresponds to a document of the retrieval result out of the document frequency of the held effective word. A block 116 refers to the additional retrieval key candidate list and calculates an evaluation value for each additional retrieval key candidate. Then, the one whose-obtained evaluation value is high is presented as an additional retrieval key.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、検索対象文書から
検索キーに対応した文書を提示するテキスト検索装置及
びテキスト検索方法と、テキストにおける有効語の文書
別頻度を作成する有効語頻度作成装置及び有効語頻度作
成方法並びに記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a text search apparatus and a text search method for presenting a document corresponding to a search key from a search target document, an effective word frequency creation apparatus for creating an effective word frequency in a text, and a text search method. The present invention relates to an effective word frequency creation method and a recording medium.

【0002】[0002]

【従来の技術】一般に、テキスト検索装置では、検索対
象文書から与えられた検索キーを含む文書を検索結果と
して提示する。
2. Description of the Related Art In general, a text search apparatus presents a document including a search key given from a search target document as a search result.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来の装置では、大量に得られた検索結果を絞り込む場合
や、関連する情報をさらに集めたい場合には、適切な検
索キーを追加して検索をやり直さなくてはならないとい
う問題があった。
However, in the above-described conventional apparatus, when narrowing down a large number of search results or when further collecting related information is desired, an appropriate search key is added to execute the search. There was a problem that I had to start over.

【0004】そこで、検索キーに関連する語を追加検索
キーとして提示し、再検索を容易にすることが考えられ
る。しかし、あらかじめ用意された辞書から検索キーの
関連語を選択するのでは、辞書にない検索キーに対応で
きなかったり、関連語を追加しても結果があまり変わら
なかったりする。また、関連語は検索対象文書によって
も異なり、検索対象文書に合わせて追加検索キーの候補
を決める必要がある。すなわち、再検索は、検索対象文
書と検索結果文書に適合して行う必要があるが、従来で
はこれを容易に行う手法がなかった。
Therefore, it is conceivable to present a word related to the search key as an additional search key to facilitate re-search. However, if a related word of a search key is selected from a dictionary prepared in advance, a search key not included in the dictionary cannot be used, or the result does not change much even if a related word is added. Further, the related word differs depending on the search target document, and it is necessary to determine an additional search key candidate according to the search target document. That is, the re-search needs to be performed in conformity with the search target document and the search result document, but there has been no method for easily performing this in the past.

【0005】本発明は上記従来の問題点に鑑み、検索対
象文書と検索結果文書に適合した再検索が容易に行なえ
るテキスト検索装置及びテキスト検索方法を提供するこ
とを目的とする。また、テキストにおける有効語の文書
別頻度を簡易かつ的確に作成する有効語頻度作成装置及
び有効語頻度作成方法並びに記録媒体を提供することを
目的とする。
The present invention has been made in consideration of the above-described conventional problems, and has as its object to provide a text search device and a text search method that can easily perform a re-search that matches a search target document and a search result document. It is another object of the present invention to provide an effective word frequency creation device, an effective word frequency creation method, and a recording medium for easily and accurately creating effective document frequencies of a text.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するため
に第1の発明は、被検索テキストに対してインデックス
を作成するインデックス作成手段と、前記被検索テキス
トから有効語候補を抽出し、各文書における出現頻度を
カウントして有効語候補リストを作成する有効語候補抽
出手段と、前記有効語候補抽出手段により抽出された有
効語候補の出現頻度を文書別に保持する有効語候補頻度
保持手段と、前記有効語候補リストを参照して、各有効
語候補の評価値を算出し、評価値の高い有効語候補を有
効語として、有効語リストを作成する有効語選定手段
と、前記有効語リストを参照し、前記有効語候補頻度保
持手段に保持された有効語候補の文書別頻度から有効語
でない語を削除して、有効語の文書別頻度を作成する有
効語頻度作成手段と、前記インデックスにより、検索文
字列に一致する文字列を検索する検索手段と、前記有効
語頻度保持手段に保持された有効語の文書別頻度のう
ち、前記検索手段の検索結果の文書に相当するものか
ら、追加検索キー候補リストを作成する追加検索キー候
補リスト作成手段と、前記追加検索キー候補リストを参
照して、各追加検索キー候補の評価値を算出する追加検
索キー選定手段と、前記追加検索キー選定手段により求
めた評価値が高いものを追加検索キーとして出力する追
加検索キー提示手段とを備えたものである。
According to a first aspect of the present invention, there is provided an index creating means for creating an index for a text to be searched, and extraction of valid word candidates from the text to be searched. Valid word candidate extracting means for generating a valid word candidate list by counting the frequency of appearance in a document; and valid word candidate frequency holding means for holding the frequency of occurrence of the valid word candidates extracted by the valid word candidate extracting means for each document An effective word selection means for calculating an evaluation value of each effective word candidate with reference to the effective word candidate list and creating an effective word list by using an effective word candidate having a high evaluation value as an effective word; An effective word frequency creating means for creating a document-specific effective word frequency by deleting non-effective words from the document-specific frequencies of the effective word candidates held by the effective word candidate frequency holding means. A search unit that searches for a character string that matches the search character string based on the index, and a document frequency corresponding to a search result of the search unit among document-specific frequencies of effective words held in the effective word frequency holding unit An additional search key candidate list creating means for creating an additional search key candidate list; an additional search key selecting means for calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list; An additional search key presenting means for outputting, as an additional search key, one having a high evaluation value obtained by the search key selecting means.

【0007】第2の発明では、被検索テキストを保持す
る被検索テキスト保持手段と、前記被検索テキスト保持
手段に保持されている被検索テキストに対して、インデ
ックスを作成するインデックス作成手段と、前記インデ
ックス作成手段で作成したインデックスを保持するイン
デックス保持手段と、前記被検索テキスト保持手段に保
持されている被検索テキストから有効語候補を抽出し、
各文書における出現頻度をカウントして有効語候補リス
トを作成する有効語候補抽出手段と、前記有効語候補抽
出手段により抽出された有効語候補の出現頻度を文書別
に保持する有効語候補頻度保持手段と、前記有効語候補
抽出手段により作成された有効語候補リストを保持する
有効語候補リスト保持手段と、前記有効語候補リスト保
持手段に保持された有効語候補リストを参照して、各有
効語候補の評価値を算出し、評価値の高い有効語候補を
有効語として有効語リストを作成する有効語選定手段
と、前記有効語選定手段により作成された有効語リスト
を保持する有効語リスト保持手段と、前記有効語リスト
保持手段に保持された有効語リストを参照し、上記有効
語候補頻度保持手段に保持された有効語候補の文書別頻
度から有効語でない語を削除して、有効語の文書別頻度
を作成する有効語頻度作成手段と、前記有効語頻度作成
手段により作成された有効語の文書別頻度を保持する有
効語頻度保持手段と、検索を行なう文字列を保持する検
索キー保持手段と、前記インデックス保持手段に保持さ
れているインデックスを用いて、前記検索キー保持手段
に保持されている検索文字列に一致する文字列を検索す
る検索手段と、前記検索手段により検索された検索結果
を保持する検索結果保持手段と、前記有効語頻度保持手
段に保持された有効語の文書別頻度のうち、前記検索結
果保持手段に保持された検索結果の文書に相当するもの
から、追加検索キー候補リストを作成する追加検索キー
候補リスト作成手段と、前記追加検索キー候補リスト作
成手段により作成された追加検索キー候補リストを保持
する追加検索キー候補リスト保持手段と、前記追加検索
キー候補リスト保持手段に保持された追加検索キー候補
リストを参照して、各追加検索キー候補の評価値を算出
する追加検索キー選定手段と、前記追加検索キー選定手
段により求めた評価値が高いものを追加検索キーとして
保持する追加検索キー保持手段と、追加検索キー保持手
段に保持された追加検索キーを出力する追加検索キー提
示手段とを備えたものである。
According to a second aspect of the present invention, there is provided a searched text holding means for holding a searched text, an index creating means for creating an index for the searched text held in the searched text holding means, Index holding means for holding the index created by the index creation means, and extract valid word candidates from the searched text held in the searched text holding means,
Valid word candidate extracting means for counting the frequency of appearance in each document to create a valid word candidate list, and valid word candidate frequency holding means for holding the frequency of appearance of the valid word candidates extracted by the valid word candidate extracting means for each document A valid word candidate list holding unit that holds the valid word candidate list created by the valid word candidate extraction unit; and a valid word candidate list held by the valid word candidate list holding unit. An effective word selection unit that calculates an evaluation value of a candidate and creates an effective word list by using an effective word candidate having a high evaluation value as an effective word, and an effective word list holding unit that holds the effective word list created by the effective word selection unit. Means and the effective word list held in the effective word list holding means, and the effective word candidate held in the effective word candidate frequency holding means is not a valid word from the frequency of each document. , A valid word frequency generating unit for generating a valid frequency of each document, a valid word frequency retaining unit for storing the valid frequency of each valid document generated by the valid word frequency generating unit, and performing a search. A search key holding unit that holds a character string, and a search unit that searches for a character string that matches the search character string held by the search key holding unit by using an index held by the index holding unit; A search result holding unit that holds the search result searched by the search unit; and a document of the search result held by the search result holding unit, among the document frequencies of the effective words held by the effective word frequency holding unit. An additional search key candidate list creating means for creating an additional search key candidate list, and an additional search key created by the additional search key candidate list creating means. Additional search key candidate list holding means for holding a supplementary list, and an additional search key for calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list held in the additional search key candidate list holding means Selection means, additional search key holding means for holding a high evaluation value obtained by the additional search key selection means as an additional search key, and additional search key for outputting the additional search key held by the additional search key holding means Presentation means.

【0008】第3の発明では、テキストから有効語候補
を抽出し、各文書における出現頻度をカウントして有効
語候補リストを作成する有効語候補抽出手段と、前記有
効候補抽出手段により抽出された有効語候補の出現頻度
を文書別に保持する有効語候補頻度保持手段と、前記有
効語候補リストを参照して各有効語候補の評価値を算出
し、評価値の高い有効語候補を有効語として有効語リス
トを作成する有効語選定手段と、前記有効語リストを参
照し、前記有効語候補頻度保持手段に保持された有効語
候補の文書別頻度から有効語でない語を削除して、有効
語の文書別頻度を作成する有効語頻度作成手段とを備え
たものである。
In the third invention, an effective word candidate extracting means for extracting an effective word candidate from a text, counting the frequency of appearance in each document to create an effective word candidate list, and extracting the effective word candidate by the effective candidate extracting means. An effective word candidate frequency holding unit that holds the frequency of occurrence of effective word candidates for each document; and an evaluation value of each effective word candidate is calculated by referring to the effective word candidate list, and an effective word candidate having a high evaluation value is regarded as an effective word. An effective word selecting unit for creating an effective word list, and referring to the effective word list, deleting a non-effective word from the document frequency of the effective word candidates held in the effective word candidate frequency holding unit, And an effective word frequency creating means for creating the document-specific frequency.

【0009】第4の発明では、被検索テキストに対して
インデックスを作成するインデックス作成手段と、前記
インデックスにより、検索文字列に一致する文字列を検
索する検索手段と、第3の発明の有効語頻度作成装置に
よって作成された有効語の文書別頻度のうち、前記検索
手段の検索結果の文書に相当するものから、追加検索キ
ー候補リストを作成する追加検索キー候補リスト作成手
段と、前記追加検索キー候補リストを参照して、各追加
検索キー候補の評価値を算出する追加検索キー選定手段
と、前記追加検索キー選定手段により求めた評価値が高
いものを追加検索キーとして出力する追加検索キー提示
手段とを備えたものである。
According to a fourth aspect of the present invention, there is provided an index creating means for creating an index for a searched text, a searching means for searching a character string matching a search character string by the index, An additional search key candidate list creating unit for creating an additional search key candidate list from a document frequency of the effective word created by the frequency creating device, which corresponds to a document of a search result of the search unit; An additional search key selecting means for calculating an evaluation value of each additional search key candidate with reference to the key candidate list, and an additional search key for outputting a high evaluation value obtained by the additional search key selecting means as an additional search key Presentation means.

【0010】第5の発明では、被検索テキストに対して
インデックスを作成するインデックス作成行程と、前記
被検索テキストから有効語候補を抽出し、各文書におけ
る出現頻度をカウントして有効語候補リストを作成する
有効語候補抽出行程と、前記有効語候補抽出行程により
抽出された有効語候補の出現頻度を文書別に保持する有
効語候補頻度保持行程と、前記有効語候補リストを参照
して、各有効語候補の評価値を算出し、評価値の高い有
効語候補を有効語として、有効語リストを作成する有効
語選定行程と、前記有効語リストを参照し、前記有効語
候補頻度保持行程で保持された有効語候補の文書別頻度
から有効語でない語を削除して、有効語の文書別頻度を
作成する有効語頻度作成行程と、前記インデックスによ
り、検索文字列に一致する文字列を検索する検索行程
と、前記有効語頻度保持行程で保持された有効語の文書
別頻度のうち、前記検索行程の検索結果の文書に相当す
るものから、追加検索キー候補リストを作成する追加検
索キー候補リスト作成行程と、前記追加検索キー候補リ
ストを参照して、各追加検索キー候補の評価値を算出す
る追加検索キー選定行程と、前記追加検索キー選定行程
により求めた評価値が高いものを追加検索キーとして出
力する追加検索キー提示行程とを実行するものである。
In the fifth invention, an index creation process for creating an index for the searched text, extracting valid word candidates from the searched text, counting the frequency of appearance in each document, and generating a valid word candidate list. An effective word candidate extraction process to be created, an effective word candidate frequency holding process for retaining the frequency of appearance of the effective word candidates extracted by the effective word candidate extraction process for each document, and each effective word candidate list with reference to the effective word candidate list. The evaluation value of the word candidate is calculated, and the effective word candidate having a high evaluation value is regarded as an effective word, and an effective word selection process for creating an effective word list, and the effective word candidate frequency is referred to and held in the effective word candidate frequency holding process. The effective word frequency creation process of creating an effective word document frequency by deleting words that are not effective words from the effective word candidate document-by-document frequencies, From the search process of searching for a matching character string and the document-specific frequencies of effective words held in the effective word frequency holding process, an additional search key candidate list is created from those corresponding to the documents of the search results of the search process. An additional search key candidate list creation process to be created, an additional search key selection process for calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list, and an evaluation obtained by the additional search key selection process And an additional search key presenting step of outputting a higher value as an additional search key.

【0011】第6の発明では、被検索テキストを保持す
る被検索テキスト保持行程と、前記被検索テキスト保持
行程で保持されている被検索テキストに対して、インデ
ックスを作成するインデックス作成行程と、前記インデ
ックス作成行程で作成したインデックスを保持するイン
デックス保持行程と、前記被検索テキスト保持行程で保
持されている被検索テキストから有効語候補を抽出し、
各文書における出現頻度をカウントして有効語候補リス
トを作成する有効語候補抽出行程と、前記有効語候補抽
出行程により抽出された有効語候補の出現頻度を文書別
に保持する有効語候補頻度保持行程と、前記有効語候補
抽出行程により作成された有効語候補リストを保持する
有効語候補リスト保持行程と、前記有効語候補リスト保
持行程で保持された有効語候補リストを参照して、各有
効語候補の評価値を算出し、評価値の高い有効語候補を
有効語として有効語リストを作成する有効語選定行程
と、前記有効語選定行程により作成された有効語リスト
を保持する有効語リスト保持行程と、前記有効語リスト
保持行程で保持された有効語リストを参照し、上記有効
語候補頻度保持行程で保持された有効語候補の文書別頻
度から有効語でない語を削除して、有効語の文書別頻度
を作成する有効語頻度作成行程と、前記有効語頻度作成
行程により作成された有効語の文書別頻度を保持する有
効語頻度保持行程と、検索を行なう文字列を保持する検
索キー保持行程と、前記インデックス保持行程で保持さ
れているインデックスを用いて、前記検索キー保持行程
で保持されている検索文字列に一致する文字列を検索す
る検索行程と、前記検索行程により検索された検索結果
を保持する検索結果保持行程と、前記有効語頻度保持行
程で保持された有効語の文書別頻度のうち、前記検索結
果保持行程で保持された検索結果の文書に相当するもの
から、追加検索キー候補リストを作成する追加検索キー
候補リスト作成行程と、前記追加検索キー候補リスト作
成行程により作成された追加検索キー候補リストを保持
する追加検索キー候補リスト保持行程と、前記追加検索
キー候補リスト保持行程で保持された追加検索キー候補
リストを参照して、各追加検索キー候補の評価値を算出
する追加検索キー選定行程と、前記追加検索キー選定行
程により求めた評価値が高いものを追加検索キーとして
保持する追加検索キー保持行程と、追加検索キー保持行
程で保持された追加検索キーを出力する追加検索キー提
示行程とを実行するものである。
In a sixth aspect of the present invention, a search target text holding step for holding a search target text; an index creation step for creating an index for the search target text held in the search target text holding step; An index holding step for holding an index created in the index creation step, and extracting valid word candidates from the searched text held in the searched text holding step,
An effective word candidate extraction step of counting the appearance frequency in each document to create an effective word candidate list, and an effective word candidate frequency holding step of retaining the appearance frequency of the effective word candidates extracted by the effective word candidate extraction step for each document A valid word candidate list holding step for holding the valid word candidate list created by the valid word candidate extraction step; and a valid word candidate list held in the valid word candidate list holding step, each valid word An effective word selection step of calculating an evaluation value of a candidate and creating an effective word list using effective word candidates having a high evaluation value as effective words, and holding an effective word list holding the effective word list created by the effective word selection step The valid word list held in the valid word list holding step and the valid word candidate frequency held in the valid word candidate frequency holding step. , A valid word frequency generating step of generating a valid word frequency for each document, a valid word frequency retaining step of storing the valid word frequency generated by the valid word frequency generating step, and a search. A search key holding step of holding a character string, and a search step of searching for a character string that matches the search character string held in the search key holding step, using an index held in the index holding step; Among the search result holding step for holding the search result searched by the search step and the document-specific frequency of the effective words held in the effective word frequency holding step, the document of the search result held in the search result holding step An additional search key candidate list creation process for creating an additional search key candidate list, and an additional search key created by the additional search key candidate list creation process. An additional search key candidate list holding step for holding a supplementary list, and an additional search key for calculating an evaluation value of each additional search key candidate by referring to the additional search key candidate list held in the additional search key candidate list holding step A selection step, an additional search key holding step for holding, as an additional search key, those having a high evaluation value obtained by the additional search key selection step, and an additional search key for outputting the additional search key held in the additional search key holding step And a presentation process.

【0012】第7の発明では、テキストから有効語候補
を抽出し、各文書における出現頻度をカウントして有効
語候補リストを作成する有効語候補抽出行程と、前記有
効候補抽出行程により抽出された有効語候補の出現頻度
を文書別に保持する有効語候補頻度保持行程と、前記有
効語候補リストを参照して、各有効語候補の評価値を算
出し、評価値の高い有効語候補を有効語として、有効語
リストを作成する有効語選定行程と、前記有効語リスト
を参照し、前記有効語候補頻度保持行程で保持された有
効語候補の文書別頻度から有効語でない語を削除して、
有効語の文書別頻度を作成する有効語頻度作成行程とを
実行するものである。
In the seventh invention, an effective word candidate extraction process for extracting an effective word candidate from a text, counting the frequency of appearance in each document to create an effective word candidate list, and extracting the effective word candidate list by the effective candidate extraction process. An effective word candidate frequency holding step of retaining the appearance frequency of effective word candidates for each document, and referring to the effective word candidate list, calculating an evaluation value of each effective word candidate. As an effective word selection process for creating an effective word list, and referring to the effective word list, deleting words that are not effective words from the document-specific frequencies of the effective word candidates held in the effective word candidate frequency holding process,
And an effective word frequency creation step of creating an effective word frequency for each document.

【0013】第8の発明では、被検索テキストに対して
インデックスを作成するインデックス作成行程と、前記
インデックスにより、検索文字列に一致する文字列を検
索する検索行程と、上記第7の発明の有効語頻度作成方
法によって作成された有効語の文書別頻度のうち、前記
検索行程の検索結果の文書に相当するものから、追加検
索キー候補リストを作成する追加検索キー候補リスト作
成行程と、前記追加検索キー候補リストを参照して、各
追加検索キー候補の評価値を算出する追加検索キー選定
行程と、前記追加検索キー選定行程により求めた評価値
が高いものを追加検索キーとして出力する追加検索キー
提示行程とを実行するものである。
According to an eighth aspect of the present invention, there is provided an index creation step of creating an index for a text to be searched, a search step of searching a character string matching a search character string by the index, An additional search key candidate list creation step of creating an additional search key candidate list from the document frequency of valid words created by the word frequency creation method, which corresponds to the document of the search result of the search step; An additional search key selection process for calculating an evaluation value of each additional search key candidate with reference to the search key candidate list, and an additional search for outputting, as an additional search key, the one with the higher evaluation value obtained by the additional search key selection process And a key presentation process.

【0014】第9の発明は、被検索テキストに対してイ
ンデックスを作成するインデックス作成行程と、前記被
検索テキストから有効語候補を抽出し、各文書における
出現頻度をカウントして有効語候補リストを作成する有
効語候補抽出行程と、前記有効語候補抽出行程により抽
出された有効語候補の出現頻度を文書別に保持する有効
語候補頻度保持行程と、前記有効語候補リストを参照し
て、各有効語候補の評価値を算出し、評価値の高い有効
語候補を有効語として、有効語リストを作成する有効語
選定行程と、前記有効語リストを参照し、前記有効語候
補頻度保持行程で保持された有効語候補の文書別頻度か
ら有効語でない語を削除して、有効語の文書別頻度を作
成する有効語頻度作成行程と、前記インデックスによ
り、検索文字列に一致する文字列を検索する検索行程
と、前記有効語頻度保持行程で保持された有効語の文書
別頻度のうち、前記検索行程の検索結果の文書に相当す
るものから、追加検索キー候補リストを作成する追加検
索キー候補リスト作成行程と、前記追加検索キー候補リ
ストを参照して、各追加検索キー候補の評価値を算出す
る追加検索キー選定行程と、前記追加検索キー選定行程
により求めた評価値が高いものを追加検索キーとして出
力する追加検索キー提示行程とを含むプログラムを格納
したものである。
According to a ninth aspect of the present invention, there is provided an index creation step for creating an index for a searched text, extracting valid word candidates from the searched text, counting the frequency of appearance in each document, and creating a valid word candidate list. An effective word candidate extraction process to be created, an effective word candidate frequency holding process for retaining the frequency of appearance of the effective word candidates extracted by the effective word candidate extraction process for each document, and each effective word candidate list with reference to the effective word candidate list. The evaluation value of the word candidate is calculated, and the effective word candidate having a high evaluation value is regarded as an effective word, and an effective word selection process for creating an effective word list, and the effective word candidate reference frequency is stored in the effective word candidate frequency holding process. An effective word frequency creation step of creating an effective word document frequency by deleting non-effective words from the effective word candidate document frequencies thus obtained, An additional search key candidate list from a search process for searching for a character string to be searched and a frequency of each valid word held in the effective word frequency holding process corresponding to a document of a search result of the search process. An additional search key candidate list creating process, an additional search key selection process for calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list, and an evaluation value obtained by the additional search key selection process And an additional search key presenting step of outputting a search result having a high score as an additional search key.

【0015】第10の発明は、被検索テキストを保持す
る被検索テキスト保持行程と、前記被検索テキスト保持
行程で保持されている被検索テキストに対して、インデ
ックスを作成するインデックス作成行程と、前記インデ
ックス作成行程で作成したインデックスを保持するイン
デックス保持行程と、前記被検索テキスト保持行程で保
持されている被検索テキストから有効語候補を抽出し、
各文書における出現頻度をカウントして有効語候補リス
トを作成する有効語候補抽出行程と、前記有効語候補抽
出行程により抽出された有効語候補の出現頻度を文書別
に保持する有効語候補頻度保持行程と、前記有効語候補
抽出行程により作成された有効語候補リストを保持する
有効語候補リスト保持行程と、前記有効語候補リスト保
持行程で保持された有効語候補リストを参照して、各有
効語候補の評価値を算出し、評価値の高い有効語候補を
有効語として有効語リストを作成する有効語選定行程
と、前記有効語選定行程により作成された有効語リスト
を保持する有効語リスト保持行程と、前記有効語リスト
保持行程で保持された有効語リストを参照し、上記有効
語候補頻度保持行程で保持された有効語候補の文書別頻
度から有効語でない語を削除して、有効語の文書別頻度
を作成する有効語頻度作成行程と、前記有効語頻度作成
行程により作成された有効語の文書別頻度を保持する有
効語頻度保持行程と、検索を行なう文字列を保持する検
索キー保持行程と、前記インデックス保持行程で保持さ
れているインデックスを用いて、前記検索キー保持行程
で保持されている検索文字列に一致する文字列を検索す
る検索行程と、前記検索行程により検索された検索結果
を保持する検索結果保持行程と、前記有効語頻度保持行
程で保持された有効語の文書別頻度のうち、前記検索結
果保持行程で保持された検索結果の文書に相当するもの
から、追加検索キー候補リストを作成する追加検索キー
候補リスト作成行程と、前記追加検索キー候補リスト作
成行程により作成された追加検索キー候補リストを保持
する追加検索キー候補リスト保持行程と、前記追加検索
キー候補リスト保持行程で保持された追加検索キー候補
リストを参照して、各追加検索キー候補の評価値を算出
する追加検索キー選定行程と、前記追加検索キー選定行
程により求めた評価値が高いものを追加検索キーとして
保持する追加検索キー保持行程と、追加検索キー保持行
程で保持された追加検索キーを出力する追加検索キー提
示行程とを含むプログラムを格納したものである。
[0015] A tenth aspect of the present invention is a search target text holding step for holding a search target text, an index creation step for creating an index for the search target text held in the search target text holding step, and An index holding step for holding an index created in the index creation step, and extracting valid word candidates from the searched text held in the searched text holding step,
An effective word candidate extraction step of counting the appearance frequency in each document to create an effective word candidate list, and an effective word candidate frequency holding step of retaining the appearance frequency of the effective word candidates extracted by the effective word candidate extraction step for each document A valid word candidate list holding step for holding the valid word candidate list created by the valid word candidate extraction step; and a valid word candidate list held in the valid word candidate list holding step, each valid word An effective word selection step of calculating an evaluation value of a candidate and creating an effective word list using effective word candidates having a high evaluation value as effective words, and holding an effective word list holding the effective word list created by the effective word selection step The valid word list held in the valid word list holding step and the valid word candidate frequency held in the valid word candidate frequency holding step. , A valid word frequency generating step of generating a valid word frequency for each document, a valid word frequency retaining step of storing the valid word frequency generated by the valid word frequency generating step, and a search. A search key holding step of holding a character string, and a search step of searching for a character string that matches the search character string held in the search key holding step, using an index held in the index holding step; Among the search result holding step for holding the search result searched by the search step and the document-specific frequency of the effective words held in the effective word frequency holding step, the document of the search result held in the search result holding step An additional search key candidate list creation process for creating an additional search key candidate list, and an additional search key created by the additional search key candidate list creation process. An additional search key candidate list holding step for holding a supplementary list, and an additional search key for calculating an evaluation value of each additional search key candidate by referring to the additional search key candidate list held in the additional search key candidate list holding step A selection step, an additional search key holding step for holding, as an additional search key, those having a high evaluation value obtained by the additional search key selection step, and an additional search key for outputting the additional search key held in the additional search key holding step A program including a presentation process is stored.

【0016】第11の発明は、テキストから有効語候補
を抽出し、各文書における出現頻度をカウントして有効
語候補リストを作成する有効語候補抽出行程と、前記有
効候補抽出行程により抽出された有効語候補の出現頻度
を文書別に保持する有効語候補頻度保持行程と、前記有
効語候補リストを参照して、各有効語候補の評価値を算
出し、評価値の高い有効語候補を有効語として、有効語
リストを作成する有効語選定行程と、前記有効語リスト
を参照し、前記有効語候補頻度保持行程で保持された有
効語候補の文書別頻度から有効語でない語を削除して、
有効語の文書別頻度を作成する有効語頻度作成行程とを
含むプログラムを格納したものである。
According to an eleventh aspect of the present invention, an effective word candidate extracting step for extracting an effective word candidate from a text, counting the frequency of occurrence in each document to create an effective word candidate list, and extracting the effective word candidate list. An effective word candidate frequency holding step of retaining the appearance frequency of effective word candidates for each document, and referring to the effective word candidate list, calculating an evaluation value of each effective word candidate. As an effective word selection process for creating an effective word list, and referring to the effective word list, deleting words that are not effective words from the document-specific frequencies of the effective word candidates held in the effective word candidate frequency holding process,
A program including an effective word frequency creation process for creating effective word frequencies for each document is stored.

【0017】第12の発明は、被検索テキストに対して
インデックスを作成するインデックス作成行程と、前記
インデックスにより、検索文字列に一致する文字列を検
索する検索行程と、上記第11の発明の記録媒体中の有
効語頻度作成行程によって作成された有効語の文書別頻
度のうち、前記検索行程の検索結果の文書に相当するも
のから、追加検索キー候補リストを作成する追加検索キ
ー候補リスト作成行程と、前記追加検索キー候補リスト
を参照して、各追加検索キー候補の評価値を算出する追
加検索キー選定行程と、前記追加検索キー選定行程によ
り求めた評価値が高いものを追加検索キーとして出力す
る追加検索キー提示行程とを含むプログラムを格納した
ものである。
According to a twelfth aspect, an index creation step of creating an index for a searched text, a search step of searching a character string matching a search character string by the index, and a record of the eleventh invention An additional search key candidate list creating process for creating an additional search key candidate list from the document-specific frequencies of the effective words created by the effective word frequency creating process in the medium from those corresponding to the search result documents of the search process And an additional search key selecting step of calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list, and a high evaluation value obtained by the additional search key selecting step as an additional search key. A program including an additional search key presentation process to be output is stored.

【0018】[0018]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0019】[第1実施形態]図1は、本発明の第1実
施形態のテキスト検索装置の機能構成を示すブロック図
である。
[First Embodiment] FIG. 1 is a block diagram showing a functional configuration of a text search apparatus according to a first embodiment of the present invention.

【0020】同図において、101は、被検索テキスト
を保持する被検索テキスト保持部である。102は、被
検索テキスト保持部101に保持されている被検索テキ
ストに対して、検索を高速に行なうためのインデックス
を作成するインデックス作成部である。103は、イン
デックス作成部102で作成したインデックスを保持す
るインデックス保持部である。104は、被検索テキス
ト保持部101に保持されている被検索テキストから有
効語候補を抽出し、各文書における出現頻度をカウント
して有効語候補リストを作成する有効語候補抽出部であ
る。有効語候補抽出部104は、被検索テキストを形態
素解析し、その結果、名詞と解析された文字列を有効語
候補とする。105は、有効語候補抽出部104により
抽出された有効語候補の出現頻度を文書別に保持する有
効語候補頻度保持部である。106は、有効語候補抽出
部104により作成された有効語候補リストを保持する
有効語候補リスト保持部である。有効語候補リストは、
有効語候補ごとに各文書における出現頻度を保持してい
る。有効語候補リストの例を図2に示す。
In FIG. 1, reference numeral 101 denotes a search target text holding unit for holding a search target text. An index creation unit 102 creates an index for performing a high-speed search on the search target text held in the search target text holding unit 101. An index holding unit 103 holds the index created by the index creating unit 102. Reference numeral 104 denotes an effective word candidate extraction unit that extracts valid word candidates from the searched text stored in the searched text storage unit 101, counts the frequency of appearance in each document, and creates an effective word candidate list. The valid word candidate extraction unit 104 performs a morphological analysis on the searched text, and as a result, sets a character string analyzed as a noun as a valid word candidate. Reference numeral 105 denotes an effective word candidate frequency holding unit that holds the appearance frequency of the effective word candidate extracted by the effective word candidate extraction unit 104 for each document. Reference numeral 106 denotes a valid word candidate list holding unit that holds the valid word candidate list created by the valid word candidate extraction unit 104. The valid word candidate list is
The appearance frequency in each document is held for each valid word candidate. FIG. 2 shows an example of the valid word candidate list.

【0021】107は有効語選定部であり、有効語候補
リスト保持部106に保持された有効語候補リストを参
照して各有効語候補の評価値を算出し、評価値の高い有
効語候補を有効語として有効語リストを作成する。有効
語リストの例を図3に示す。評価値は、各有効語候補の
重要度を示す値である。各文書を特徴付ける語が重要な
ので、検索対象文書内における各語の局在度を評価値に
反映させるべきであるが、局在度そのものを評価値にす
ると、ある文書にたまたま一度出現した語の評価値が高
くなってしまう。そこで、ある程度の出現頻度があり、
かつ局在度の高い語を有効語とするために、出現頻度と
局在度の積を評価値とする。
Reference numeral 107 denotes an effective word selection unit which calculates an evaluation value of each effective word candidate with reference to the effective word candidate list held in the effective word candidate list holding unit 106, and selects an effective word candidate having a high evaluation value. Create a valid word list as valid words. FIG. 3 shows an example of the valid word list. The evaluation value is a value indicating the importance of each valid word candidate. Since the words that characterize each document are important, the localization degree of each word in the search target document should be reflected in the evaluation value.However, if the localization degree itself is used as the evaluation value, the word The evaluation value increases. So, there is a certain appearance frequency,
In addition, in order to use a word having a high localization degree as an effective word, the product of the appearance frequency and the localization degree is used as an evaluation value.

【0022】有効語候補Wiを含む文書数をMとする
と、Wiの評価値E(Wi)は次の式により求められ
る。
Assuming that the number of documents including the valid word candidate Wi is M, the Wi evaluation value E (Wi) is obtained by the following equation.

【0023】[0023]

【数1】 108は、有効語選定部107により作成された有効語
リストを保持する有効語リスト保持部である。109は
有効語頻度作成部であり、有効語リスト保持部108に
保持された有効語リストを参照し、有効語候補頻度保持
部105に保持された有効語候補の文書別頻度から有効
語でない語を削除して、有効語の文書別頻度を作成す
る。
(Equation 1) Reference numeral 108 denotes a valid word list holding unit that holds the valid word list created by the valid word selecting unit 107. Reference numeral 109 denotes an effective word frequency creation unit which refers to the effective word list held in the effective word list holding unit 108 and determines a word which is not an effective word from the document frequency of the effective word candidates held in the effective word candidate frequency holding unit 105. To create a document frequency of valid words.

【0024】110は、有効語頻度作成部109により
作成された有効語の文書別頻度を保持する有効語頻度保
持部である。111は、検索を行なう文字列を保持する
検索キー保持部である。112は検索部であり、インデ
ックス保持部103に保持されているインデックスを用
いて、検索キー保持部111に保持されている検索文字
列に一致する文字列を検索する。113は、検索部11
2により検索された検索結果を保持する検索結果保持部
である。
Reference numeral 110 denotes an effective word frequency holding unit that holds the frequency of each effective word created by the effective word frequency creating unit 109 for each document. A search key holding unit 111 holds a character string to be searched. A search unit 112 searches for a character string that matches the search character string stored in the search key storage unit 111 using the index stored in the index storage unit 103. 113 is the search unit 11
2 is a search result holding unit that holds the search results searched by the search unit 2.

【0025】114は追加検索キー候補リスト作成部で
あり、有効語頻度保持部110に保持された有効語の文
書別頻度のうち、検索結果保持部113に保持された検
索結果の文書に相当するものから、追加検索キー候補リ
ストを作成する。追加検索キー候補リストは、有効語候
補リストと同様の構造で表現できる。115は、追加検
索キー候補リスト作成部114により作成された追加検
索キー候補リストを保持する追加検索キー候補リスト保
持部である。
Reference numeral 114 denotes an additional search key candidate list creation unit, which corresponds to the document of the search result held in the search result holding unit 113 among the document-specific frequencies of the effective words held in the effective word frequency holding unit 110. Create an additional search key candidate list from the items. The additional search key candidate list can be represented by the same structure as the valid word candidate list. Reference numeral 115 denotes an additional search key candidate list holding unit that holds the additional search key candidate list created by the additional search key candidate list creation unit 114.

【0026】116は追加検索キー選定部であり、追加
検索キー候補リスト保持部115に保持された追加検索
キー候補リストを参照して、各追加検索キー候補の評価
値を算出する。評価値は、各追加検索キー候補の再検索
における有効度を示す値である。検索結果を絞り込むた
めに再検索を行なうには、検索結果文書において局在度
の高い語が有用と考えられるので、追加検索キー候補W
を含む検索結果文書数をMとしたとき、Wiの評価値E
(Wi)は次の式により求められる。
An additional search key selection unit 116 refers to the additional search key candidate list held in the additional search key candidate list holding unit 115 and calculates an evaluation value of each additional search key candidate. The evaluation value is a value indicating the degree of effectiveness in re-searching each additional search key candidate. In order to perform a re-search in order to narrow down the search results, a word having a high localization in the search result document is considered to be useful.
Where M is the number of search result documents that include
(Wi) is obtained by the following equation.

【0027】[0027]

【数2】 117は、追加検索キー選定部116により求めた評価
値が高いものを追加検索キーとして保持する追加検索キ
ー保持部である。
(Equation 2) Reference numeral 117 denotes an additional search key holding unit that holds, as an additional search key, one having a high evaluation value obtained by the additional search key selection unit 116.

【0028】図4は、本実施形態に係るテキスト検索装
置のハードウェア構成を示す図である。
FIG. 4 is a diagram showing a hardware configuration of the text search device according to the present embodiment.

【0029】同図において、201は、後述する制御手
順を実現するプログラムを保持するROMである。20
2はRAMであり、被検索テキスト保持部101、有効
語候補頻度保持部105、有効語候補リスト保持部10
6、有効語リスト保持部108、検索キー保持部11
1、検索結果保持部113、追加検索キー候補リスト保
持部115、及び追加検索キー保持部117と、上記プ
ログラムの動作に必要な記憶領域とを提供する。
In FIG. 1, reference numeral 201 denotes a ROM for holding a program for implementing a control procedure described later. 20
Reference numeral 2 denotes a RAM, a search target text holding unit 101, a valid word candidate frequency holding unit 105, and a valid word candidate list holding unit 10.
6. Effective word list holding unit 108, search key holding unit 11
1. It provides a search result holding unit 113, an additional search key candidate list holding unit 115, an additional search key holding unit 117, and a storage area necessary for the operation of the program.

【0030】203は、ROM201に保持されている
プログラムに従って処理を行なう中央処理装置である。
204はディスク装置であり、インデックス保持部10
3、有効語頻度保持部110を実現する。205はバス
であり、上記の各構成を接続し、各構成間におけるデー
タの授受を可能とする。
Reference numeral 203 denotes a central processing unit which performs processing according to a program stored in the ROM 201.
Reference numeral 204 denotes a disk device, and the index holding unit 10
3. The effective word frequency holding unit 110 is realized. Reference numeral 205 denotes a bus that connects the above-described components and enables data transmission and reception between the components.

【0031】次に、本装置の動作を説明する。Next, the operation of the present apparatus will be described.

【0032】本実施形態の処理は、インデックス作成フ
ェーズと検索フェーズとに大きく分かれる。以下、図5
のフローチャートを参照して、本実施形態のテキスト検
索装置におけるインデックス作成フェーズの手順を説明
する。
The processing of this embodiment is largely divided into an index creation phase and a search phase. Hereinafter, FIG.
The procedure of the index creation phase in the text search device of the present embodiment will be described with reference to the flowchart of FIG.

【0033】ステップS301では、カウンタiの初期
化を行なう。カウンタiは、処理の対象となっている被
検索テキストの文書番号を示すもので、これを0に初期
化する。そしてステップS302に移る。ステップS3
02では、カウンタiが被検索テキストの文書数に達し
たか否かを判定して、達した場合はステツプS308に
移る。達していない場合は、ステップS303に移る。
In step S301, a counter i is initialized. The counter i indicates the document number of the search target text to be processed, and is initialized to zero. Then, control goes to a step S302. Step S3
In 02, it is determined whether or not the counter i has reached the number of documents of the text to be searched, and if it has, the flow proceeds to step S308. If not reached, the process moves to step S303.

【0034】ステップS303では、文書番号iの被検
索テキストのインデックスを作成する。そしてステップ
S304に移る。ステップS304では、文書番号iの
被検索テキストから、有効語候補となる文字列とその文
書内出現頻度を抽出する。そしてステップS305に移
る。ステップS305では、文書番号iの被検索テキス
トに出現する有効語候補とその頻度を保存する。そして
ステッブS306に移る。ステップS306では、文書
番号iの被検索テキストの有効語候補に関する情報によ
り、有効語候補リストを更新する。そしてステップS3
07に移る。
In step S303, an index of the searched text of document number i is created. Then, control goes to a step S304. In step S304, a character string that is a valid word candidate and its occurrence frequency in the document are extracted from the searched text of the document number i. Then, control goes to a step S305. In step S305, valid word candidates appearing in the searched text of document number i and their frequencies are stored. Then, control goes to a step S306. In step S306, the valid word candidate list is updated with the information on the valid word candidates of the searched text of document number i. And step S3
Move to 07.

【0035】ステップS307では、カウンタiの値を
1増やす。そしてステップS302に戻る。ステップS
308では、各有効語候補の評価値を算出する。そして
ステップS309に移る。
In step S307, the value of the counter i is increased by one. Then, the process returns to step S302. Step S
At 308, an evaluation value of each valid word candidate is calculated. Then, control goes to a step S309.

【0036】ステップS309では、ステップS308
で求めた評価値の高いもの、例えば、評価値が所定値以
上のものを有効語とし、有効語リストを作成する。そし
てステップS310に移る。ステップS310では、ス
テップS305で文書ごとに保存した有効語候補とその
頻度から、有効語でないものを削除し、有効語とその頻
度として保存する。そしてインデックス作成フェーズを
終了する。
In step S309, step S308
A valid word having a high evaluation value obtained in the above step, for example, a word whose evaluation value is equal to or more than a predetermined value is defined as a valid word, and a valid word list is created. Then, control goes to a step S310. In step S310, non-valid words are deleted from the valid word candidates and their frequencies stored for each document in step S305, and are stored as valid words and their frequencies. Then, the index creation phase ends.

【0037】次に、図6のフローチャートを参照して、
本実施形態における検索フェーズの概要を説明する。
Next, referring to the flowchart of FIG.
An outline of the search phase in the present embodiment will be described.

【0038】ステップS401では、検索キーを含む文
書を検索する。そしてステップS402に移る。ステッ
プS402では、カウンタiの初期化を行なう。カウン
タiは、ステップS401で得られた検索結果の結果番
号を示すもので、これを0に初期化する。そしてステッ
プS403に移る。ステップS403では、カウンタi
が検索結果数に達したか否かを判定して、達した場合は
ステップS406に移る。達していない場合はステップ
S404に移る。
In step S401, a document containing a search key is searched. Then, control goes to a step S402. In step S402, the counter i is initialized. The counter i indicates the result number of the search result obtained in step S401, and is initialized to zero. Then, control goes to a step S403. In step S403, the counter i
It is determined whether or not has reached the number of search results. If it has, the process proceeds to step S406. If not reached, the process moves to step S404.

【0039】ステップS404では、i番目の検索結果
文書の有効語とその出現頻度を追加検索キー候補リスト
に追加する。そしてステップS405に移る。ステップ
S405では、カウンタiの値を1増やす。そしてステ
ップS403に戻る。ステップS406では、各追加検
索キー候補の評価値を算出する。そしてステップS40
7に移る。ステップS407では、ステップS406で
求めた評価値の高いものを追加検索キーとする。そして
検索フェーズを終了する。
In step S404, the valid word of the i-th search result document and its appearance frequency are added to the additional search key candidate list. Then, control goes to a step S405. In step S405, the value of the counter i is increased by one. Then, the process returns to step S403. In step S406, the evaluation value of each additional search key candidate is calculated. And step S40
Move to 7. In step S407, the one with the higher evaluation value obtained in step S406 is used as an additional search key. Then, the search phase ends.

【0040】以上に述べたように、検索対象文書から追
加検索キーの候補となる有効語を抽出し、検索結果文書
における有効語の出現状況を反映した追加検索キーを提
示することで、検索対象文書と検索結果文書に適合した
再検索が容易に行なえるテキスト検索装置を実現するこ
とができる。
As described above, an effective word serving as a candidate for an additional search key is extracted from the search target document, and an additional search key reflecting the appearance of the effective word in the search result document is presented, thereby obtaining the search target. It is possible to realize a text search device that can easily perform a re-search corresponding to a document and a search result document.

【0041】[第2実施形態]上記第1実施形態におい
ては、インデックス作成フェーズと検索フェーズを同一
装置で行なう場合について説明したが、これに限定され
るものではない。例えば、インデックス作成フェーズだ
けを行なう装置であってもよい。図7はこの場合を示す
本発明の第2実施形態の基本的な機能構成を示すブロッ
ク図である。
[Second Embodiment] In the first embodiment, the case where the index creation phase and the search phase are performed by the same device has been described. However, the present invention is not limited to this. For example, a device that performs only the index creation phase may be used. FIG. 7 is a block diagram showing a basic functional configuration of the second embodiment of the present invention showing this case.

【0042】図7において、701は、被検索テキスト
を保持する被検索テキスト保持部である。702は、被
検索テキスト保持部701に保持されている被検索テキ
ストに対して、検索を高速に行なうためのインデックス
を作成するインデックス作成部である。703は、イン
デックス作成部702で作成したインデックスを保持す
るインデックス保持部である。704は有効語候補抽出
部であり、被検索テキスト保持部701に保持されてい
る被検索テキストから有効語候補を抽出し、各文書にお
ける出現頻度をカウントして有効語候補リストを作成す
る。705は、有効語候補頻度保持部であり、有効語候
補抽出部704により抽出された有効語候補の出現頻度
を文書別に保持する。
In FIG. 7, reference numeral 701 denotes a search target text holding unit for holding a search target text. Reference numeral 702 denotes an index creation unit that creates an index for performing a high-speed search on the search target text stored in the search target text storage unit 701. An index holding unit 703 holds the index created by the index creating unit 702. Reference numeral 704 denotes a valid word candidate extracting unit that extracts valid word candidates from the searched text stored in the searched text holding unit 701, counts the frequency of appearance in each document, and creates a valid word candidate list. Reference numeral 705 denotes a valid word candidate frequency holding unit, which holds the frequency of appearance of the valid word candidates extracted by the valid word candidate extraction unit 704 for each document.

【0043】706は有効語候補リスト保持部であり、
有効語候補抽出部704により作成された有効語候補リ
ストを保持する。707は有効語選定部であり、有効語
候補リスト保持部706に保持された有効語候補リスト
を参照して、各有効語候補の評価値を算出し、評価値の
高い有効語候補を有効語として、有効語リストを作成す
る。
Reference numeral 706 denotes a valid word candidate list holding unit.
The valid word candidate list created by the valid word candidate extraction unit 704 is held. Reference numeral 707 denotes an effective word selection unit which refers to the effective word candidate list held in the effective word candidate list holding unit 706, calculates an evaluation value of each effective word candidate, and assigns an effective word candidate having a high evaluation value to an effective word candidate. To create a valid word list.

【0044】708は有効語リスト保持部であり、有効
語選定部707により作成された有効語リストを保持す
る。709は有効語頻度作成部であり、有効語リスト保
持部708に保持された有効語リストを参照し、有効語
語候補頻度保持部705に保持された有効語候補の文書
別頻度から有効語でない語を削除して、有効語の文書別
頻度を作成する。710は有効語頻度保持部であり、有
効語頻度作成部709により作成された有効語の文書別
頻度を保持する。
Reference numeral 708 denotes a valid word list holding unit, which holds the valid word list created by the valid word selecting unit 707. Reference numeral 709 denotes an effective word frequency creating unit which refers to the effective word list held in the effective word list holding unit 708 and determines that the effective word candidate is not an effective word based on the document frequency of the effective word candidates held in the effective word candidate frequency holding unit 705. Delete words and create a document frequency of valid words. Reference numeral 710 denotes a valid word frequency holding unit that holds the frequency of each valid word for each document created by the valid word frequency creating unit 709.

【0045】インデックス保持部703に保持されたイ
ンデックスと有効語頻度保持部710に保持された有効
語の文書別頻度は、通信回線を通したり、可搬記録媒体
によって他の装置に移されて検索が行なわれる。
The index stored in the index storage unit 703 and the frequency of each valid word stored in the valid word frequency storage unit 710 for each document are retrieved through a communication line or transferred to another apparatus by a portable recording medium. Is performed.

【0046】[第3実施形態]上述のようにして提供さ
れたインデックスと有効語の文書別頻度を用いて検索を
行なう装置であってもよい。図8はこの場合を示す本発
明の第3実施形態の基本的な機能構成を示すブロック図
である。
[Third Embodiment] An apparatus for performing a search using the index provided as described above and the document-specific frequency of effective words may be used. FIG. 8 is a block diagram showing a basic functional configuration of the third embodiment of the present invention showing this case.

【0047】図8において、801は、図7に示す装置
で作成されたインデックスを保持するインデックス保持
部である。802は、検索を行なう文字列を保持する検
索キー保持部である。803は検索部であり、インデッ
クス保持部801に保持されているインデックスを用い
て、検索キー保持部802に保持されている検索文字列
に一致する文字列を検索する。
In FIG. 8, reference numeral 801 denotes an index holding unit for holding an index created by the apparatus shown in FIG. A search key holding unit 802 holds a character string to be searched. A search unit 803 searches for a character string that matches the search character string stored in the search key storage unit 802, using the index stored in the index storage unit 801.

【0048】804は、検索部803により検索された
検索結果を保持する検索結果保持部である。805は、
図7に示す装置で作成された有効語の文書別頻度を保持
する有効語頻度保持部である。806は追加検索キー候
補リスト作成部であり、有効語頻度保持部805に保持
された有効語の文書別頻度のうち、検索結果保持部80
4に保持された検索結果の文書に相当するものから、追
加検索キー候補リストを作成する。
A search result holding unit 804 holds the search result searched by the search unit 803. 805 is
This is an effective word frequency holding unit that holds the effective frequency of each effective word created by the apparatus shown in FIG. Reference numeral 806 denotes an additional search key candidate list creation unit which stores the search result holding unit 80 out of the document-specific frequencies of the effective words held in the effective word frequency holding unit 805.
Then, an additional search key candidate list is created from those corresponding to the documents of the search results held in No. 4.

【0049】807は、追加検索キー候補リスト作成部
806により作成された追加検索キー候補リストを保持
する迫加検索キー候補リスト保持部である。808は追
加検索キー選定部であり、追加検索キー候補リスト保持
部807に保持された追加検索キー候補リストを参照し
て、各追加検索キー候補の評価値を算出する。809は
追加検索キー保持部であり、追加検索キー選定部808
により求めた評価値が高いものを追加検索キーとして保
持する。
Reference numeral 807 denotes an additional search key candidate list holding unit that holds the additional search key candidate list created by the additional search key candidate list creation unit 806. An additional search key selection unit 808 refers to the additional search key candidate list held in the additional search key candidate list holding unit 807 and calculates an evaluation value of each additional search key candidate. Reference numeral 809 denotes an additional search key holding unit, and an additional search key selection unit 808
Are stored as additional search keys.

【0050】インデックス保持部801と有効語頻度保
持部805には、上記第1実施形態の手順で作成された
インデックスと有効語頻度が、通信回線或いは可搬記録
媒体等を介して提供され、保持される。
The index holding unit 801 and the effective word frequency holding unit 805 are provided with the index and the effective word frequency created by the procedure of the first embodiment via a communication line or a portable recording medium, etc. Is done.

【0051】なお、本発明は図示の実施形態に限定され
ず種々の変形が可能である。例えば、その変形例として
は次のようなものがある。
The present invention is not limited to the illustrated embodiment, but can be variously modified. For example, there are the following modifications.

【0052】(1)上記第1実施形態では、検索結果を
絞り込むために再検索を行なうものとして、追加検索キ
ー候補の評価値を求めるよう説明したが、これに限定さ
れるものでなく、以下の式により評価値を求め、検索条
件を緩めて検索結果を増やすための再検索を行なう場合
の追加検索キーを提示してもよい。
(1) In the first embodiment, the re-search is performed to narrow the search results, and the evaluation value of the additional search key candidate has been described. However, the present invention is not limited to this. An evaluation value may be obtained by the following formula, and an additional search key for re-searching to relax the search condition and increase the search result may be presented.

【0053】[0053]

【数3】 これは、検索結果文書に満遍なく出現する語は検索キー
との関連が深く、関連する語を検索条件に加えることで
関連する文書を検索できるという考えに基づいている。
(Equation 3) This is based on the idea that words appearing evenly in the search result document are closely related to the search key, and the related document can be searched by adding the related word to the search condition.

【0054】(2)ユーザが再検索意図を指定すること
により、上記第1実施形態と上記変形例(1)の評価値
計算法を切り替えることもできる。
(2) It is also possible to switch the evaluation value calculation method between the first embodiment and the modification (1) by designating a re-search intention by the user.

【0055】(3)上記第1実施形態と上記変形例
(1)の両方の評価値計算法による追加検索キーを再検
索意図別に提示することもできる。
(3) An additional search key by the evaluation value calculation method in both the first embodiment and the modification (1) can be presented for each re-search intention.

【0056】(4)上記第1実施形態では、ある程度の
頻度で出現する語を有効語や追加検索キーにするため
に、評価値に出現頻度を掛けているが、出現頻度を引数
とした単調増加関数の値を掛けても良い。
(4) In the first embodiment, the evaluation value is multiplied by the appearance frequency in order to use the word appearing at a certain frequency as an effective word or an additional search key. The value of the increasing function may be multiplied.

【0057】(5)上記第1実施形態では、各語の出現
確率のエントロピーを1から減じた値を局在度としてい
るが、これに限定されるものではなく、他の演算により
局在度を求めてもよい。
(5) In the first embodiment, the value obtained by subtracting the entropy of the appearance probability of each word from 1 is used as the localization degree. However, the present invention is not limited to this. May be required.

【0058】(6)上記第1実施形態では、ステップS
303でインデックス作成を行ない、その後に追加検索
キーのための処理を行なうよう説明しているが、これに
限定されるものではなく、ステップS306の後にイン
デックス作成を行なうようにしてもよい。
(6) In the first embodiment, step S
It has been described that an index is created in 303 and then a process for an additional search key is performed. However, the present invention is not limited to this, and an index may be created after step S306.

【0059】(7)上記第1実施形態では、必ず追加検
索キーを提示するよう説明しているが、これに限定され
るものではなく、追加検索キーを提示するかしないかを
ユーザが指定するようにしてもよい。
(7) In the above-described first embodiment, the explanation has been made so as to always present the additional search key. However, the present invention is not limited to this. The user specifies whether to present the additional search key. You may do so.

【0060】(8)上記第1実施形態では、形態素解析
により有効語候補を抽出するよう説明しているが、これ
に限定されるものではなく、文字種の違いによって切り
出した文字列を有効語候補としてもよい。
(8) In the first embodiment, a description has been given of extracting valid word candidates by morphological analysis. However, the present invention is not limited to this. A character string cut out according to a difference in character type is used as a valid word candidate. It may be.

【0061】(9)上記第1実施形態では、名詞を有効
語候補として抽出するよう説明しているが、これに限定
されるものではなく、他の品詞の文字列や、複合語をも
有効語候補として抽出してもよい。
(9) In the first embodiment, a description has been given of extracting a noun as a valid word candidate. However, the present invention is not limited to this, and character strings of other parts of speech and compound words are also valid. It may be extracted as a word candidate.

【0062】(10)上記第1実施形態においては、被
検索テキスト保持部101、有効語候補頻度保持部10
5、有効語候補リスト保持部106、有効語リスト保持
部108、検索キー保持部111、検索結果保持部11
3、追加検索キー候補リスト保持部115、追加検索キ
ー保持部117をRAMで、インデックス保持部10
3、有効語頻度保持部110をディスク装置で実現する
場合について説明したが、これに限定されるものではな
く、任意の記憶媒体を用いて実現してもよい。
(10) In the first embodiment, the search target text storage unit 101 and the valid word candidate frequency storage unit 10
5, valid word candidate list holding unit 106, valid word list holding unit 108, search key holding unit 111, search result holding unit 11
3. The additional search key candidate list holding unit 115 and the additional search key holding unit 117 are RAM, and the index holding unit 10
3. A description has been given of a case where the effective word frequency holding unit 110 is realized by a disk device, but the present invention is not limited to this, and may be realized by using an arbitrary storage medium.

【0063】(11)上記第1実施形態においては、各
部を同一の計算機上で構成する場合について説明した
が、これに限定されるものではなく、ネットワーク上に
分散した計算機や処理装置などに分かれて各部を構成し
てもよい。
(11) In the above-described first embodiment, the case where each unit is configured on the same computer has been described. However, the present invention is not limited to this, and is divided into computers and processing devices distributed on a network. Each of the components may be configured.

【0064】(12)上記第1実施形態においては、プ
ログラムをROMに保持する場合について説明したが、
これに限定されるものではなく、任意の記憶媒体を用い
て実現してもよい。また、同様の動作をする回路で実現
してもよい。
(12) In the first embodiment, the case where the program is stored in the ROM has been described.
The present invention is not limited to this, and may be realized using an arbitrary storage medium. Further, it may be realized by a circuit that performs the same operation.

【0065】(13)本発明は、複数の機器から構成さ
れるシステムに適用しても、1つの機器からなる装置に
適用してもよい。前述した実施形態の機能を実現するソ
フトウェアのプログラムコードを記録した記録媒体を、
システム或いは装置に供給し、そのシステム或いは装置
のコンピュータ(またはCPUやMPU)が記録媒体に
格納されたプログラムコードを読み出し実行することに
よっても、達成されることは言うまでもない。この場
合、記録媒体から読み出されたプログラムコード自体が
前述した実施形態の機能を実現することになり、そのプ
ログラムコードを記録した記録媒体は本発明を構成する
ことになる。
(13) The present invention may be applied to a system composed of a plurality of devices or an apparatus composed of one device. A recording medium on which a program code of software for realizing the functions of the above-described embodiments is recorded,
It is needless to say that the present invention is also achieved by supplying the program or the program code stored in the recording medium to a computer or CPU (MPU or MPU) of the system or the apparatus. In this case, the program code itself read from the recording medium implements the functions of the above-described embodiment, and the recording medium on which the program code is recorded constitutes the present invention.

【0066】(14)プログラムコードを供給するため
の記録媒体としては、例えば、フロッピーディスク(登
録商標)、ハードディスク、光ディスク、光磁気ディス
ク、CD−ROM、CD−R、磁気テープ、不揮発性の
メモリカード、ROMなどを用いることができる。
(14) As a recording medium for supplying a program code, for example, a floppy disk (registered trademark), hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, magnetic tape, non-volatile memory A card, a ROM, or the like can be used.

【0067】(15)コンピュータが読み出したプログ
ラムコードを実行することにより、前述した実施形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼働しているOSなど
が実際の処理の一部または全部を行ない、その処理によ
って前述した実施形態の機能が実現される場合も含まれ
ることは言うまでもない。
(15) When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also an OS or the like running on the computer operates based on the instruction of the program code. It goes without saying that a case where some or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing is also included.

【0068】(16)記録媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張ボー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書き込まれた後、そのプログラムコードの指
示に基づき、その機能拡張ボードや機能拡張ユニットに
備わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることは言うまでもない。
(16) After the program code read from the recording medium is written into the memory provided on the function expansion board inserted into the computer or the function expansion unit connected to the computer, the program code is read based on the instructions of the program code. Needless to say, the CPU included in the function expansion board or the function expansion unit may perform part or all of the actual processing, and the processing may realize the functions of the above-described embodiments.

【0069】[0069]

【発明の効果】以上詳述したように、第1、第2及び第
4の発明であるテキスト検索装置によれば、検索対象文
書と検索結果文書に適合した再検索を容易に行なうこと
が可能になる。
As described in detail above, according to the text search apparatus of the first, second and fourth inventions, it is possible to easily perform a re-search suitable for the search target document and the search result document. become.

【0070】第5、第6及び第8の発明であるテキスト
検索方法によれば、上記第1、第2及び第4の発明と同
等の効果を奏する。
According to the text search methods of the fifth, sixth and eighth inventions, the same effects as those of the first, second and fourth inventions can be obtained.

【0071】第9、第10及び第12の発明であるコン
ピュータ読み取り可能な記録媒体によれば、コンピュー
タによりプログラムを読み出して実行することにより上
記第1、第2及び第4の発明と同等の効果を奏する。
According to the computer-readable recording medium of the ninth, tenth and twelfth inventions, the same effects as those of the first, second and fourth inventions can be obtained by reading and executing a program by a computer. To play.

【0072】第3の発明である有効語頻度作成装置によ
れば、テキストにおける有効語の文書別頻度を簡易かつ
的確に作成することが可能になる。
According to the valid word frequency generating apparatus of the third invention, it is possible to easily and accurately generate the frequency of valid words for each document in a text.

【0073】第7の発明である有効語頻度作成方法によ
れば、上記第3の発明と同等の効果を奏する。
According to the valid word frequency generation method of the seventh invention, the same effects as those of the third invention can be obtained.

【0074】第11の発明であるコンピュータ読み取り
可能な記録媒体によれば、コンピュータによりプログラ
ムを読み出して実行することにより上記第3の発明と同
等の効果を奏する。
According to the computer-readable recording medium of the eleventh aspect, the same effects as those of the third aspect can be obtained by reading and executing a program by a computer.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態のテキスト検索装置の機
能構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a functional configuration of a text search device according to a first embodiment of the present invention.

【図2】有効語族補リストの例を示す図である。FIG. 2 is a diagram showing an example of a valid family complement list.

【図3】有効語リストの例を示す図である。FIG. 3 is a diagram showing an example of a valid word list.

【図4】実施形態に係るテキスト検索装置のハードウェ
ア構成を示す図である。
FIG. 4 is a diagram illustrating a hardware configuration of the text search device according to the embodiment.

【図5】第1実施形態におけるインデックス作成フェー
ズの概要を示すフローチャートである。
FIG. 5 is a flowchart illustrating an outline of an index creation phase in the first embodiment.

【図6】第1実施形態における検索フェーズの概要を示
すフローチャートである。
FIG. 6 is a flowchart illustrating an outline of a search phase in the first embodiment.

【図7】本発明の第2実施形態の基本的な機能構成を示
すブロック図である。
FIG. 7 is a block diagram showing a basic functional configuration of a second embodiment of the present invention.

【図8】本発明の第3実施形態の基本的な機能構成を示
すブロック図である。
FIG. 8 is a block diagram showing a basic functional configuration of a third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

101 被検索テキスト保持部 102 インデックス作成部 103 インデックス保持部 104 有効語候補抽出部 105 有効語候補頻度保持部 106 有効語候補リスト保持部 107 有効語選定部 108 有効語リスト保持部 109 有効語頻度作成部 110 有効語頻度保持部 111 検索キー保持部 112 検索部 113 検索結果保持部 114 追加検索キー候補リスト作成部 115 追加検索キー候補リスト保持部 116 追加検索キー選定部 117 追加検索キー保持部 Reference Signs List 101 Searched text holding unit 102 Index creation unit 103 Index holding unit 104 Valid word candidate extraction unit 105 Valid word candidate frequency holding unit 106 Valid word candidate list holding unit 107 Valid word selection unit 108 Valid word list holding unit 109 Valid word frequency creation Unit 110 valid word frequency holding unit 111 search key holding unit 112 search unit 113 search result holding unit 114 additional search key candidate list creation unit 115 additional search key candidate list holding unit 116 additional search key selection unit 117 additional search key holding unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 Fターム(参考) 5B075 ND03 NK02 NK14 NK31 PP12 PP22 PQ27 PQ38 PR04  ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Takaya Ueda 3- 30-2 Shimomaruko, Ota-ku, Tokyo Inside Canon Inc. (72) Inventor Yuji Ikeda 3- 30-2 Shimomaruko, Ota-ku, Tokyo Canon Incorporated F term (reference) 5B075 ND03 NK02 NK14 NK31 PP12 PP22 PQ27 PQ38 PR04

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 被検索テキストに対してインデックスを
作成するインデックス作成手段と、 前記被検索テキストから有効語候補を抽出し、各文書に
おける出現頻度をカウントして有効語候補リストを作成
する有効語候補抽出手段と、 前記有効語候補抽出手段により抽出された有効語候補の
出現頻度を文書別に保持する有効語候補頻度保持手段
と、 前記有効語候補リストを参照して、各有効語候補の評価
値を算出し、評価値の高い有効語候補を有効語として、
有効語リストを作成する有効語選定手段と、 前記有効語リストを参照し、前記有効語候補頻度保持手
段に保持された有効語候補の文書別頻度から有効語でな
い語を削除して、有効語の文書別頻度を作成する有効語
頻度作成手段と、 前記インデックスにより、検索文字列に一致する文字列
を検索する検索手段と、 前記有効語頻度保持手段に保持された有効語の文書別頻
度のうち、前記検索手段の検索結果の文書に相当するも
のから、追加検索キー候補リストを作成する追加検索キ
ー候補リスト作成手段と、 前記追加検索キー候補リストを参照して、各追加検索キ
ー候補の評価値を算出する追加検索キー選定手段と、 前記追加検索キー選定手段により求めた評価値が高いも
のを追加検索キーとして出力する追加検索キー提示手段
とを備えたことを特徴とするテキスト検索装置。
1. An index creating means for creating an index for a searched text, an effective word candidate for extracting an effective word candidate from the searched text, counting an appearance frequency in each document, and creating an effective word candidate list. Candidate extraction means, effective word candidate frequency holding means for holding the appearance frequency of the effective word candidates extracted by the effective word candidate extraction means for each document, and evaluation of each effective word candidate with reference to the effective word candidate list Calculate the effective word candidate with the highest evaluation value as the effective word,
An effective word selecting means for creating an effective word list, and referring to the effective word list, deleting a non-effective word from the document frequency of the effective word candidates held in the effective word candidate frequency holding means, Effective word frequency creating means for creating a document-specific frequency of; a search means for searching for a character string that matches a search character string by the index; and a document-specific frequency of effective words held in the effective word frequency holding means. An additional search key candidate list creating unit that creates an additional search key candidate list from a document corresponding to the search result of the search unit; and An additional search key selecting means for calculating an evaluation value; and an additional search key presenting means for outputting, as an additional search key, one having a high evaluation value obtained by the additional search key selecting means. Text retrieval apparatus according to claim.
【請求項2】 被検索テキストを保持する被検索テキス
ト保持手段と、 前記被検索テキスト保持手段に保持されている被検索テ
キストに対して、インデックスを作成するインデックス
作成手段と、 前記インデックス作成手段で作成したインデックスを保
持するインデックス保持手段と、 前記被検索テキスト保持手段に保持されている被検索テ
キストから有効語候補を抽出し、各文書における出現頻
度をカウントして有効語候補リストを作成する有効語候
補抽出手段と、 前記有効語候補抽出手段により抽出された有効語候補の
出現頻度を文書別に保持する有効語候補頻度保持手段
と、 前記有効語候補抽出手段により作成された有効語候補リ
ストを保持する有効語候補リスト保持手段と、 前記有効語候補リスト保持手段に保持された有効語候補
リストを参照して、各有効語候補の評価値を算出し、評
価値の高い有効語候補を有効語として有効語リストを作
成する有効語選定手段と、 前記有効語選定手段により作成された有効語リストを保
持する有効語リスト保持手段と、 前記有効語リスト保持手段に保持された有効語リストを
参照し、上記有効語候補頻度保持手段に保持された有効
語候補の文書別頻度から有効語でない語を削除して、有
効語の文書別頻度を作成する有効語頻度作成手段と、 前記有効語頻度作成手段により作成された有効語の文書
別頻度を保持する有効語頻度保持手段と、 検索を行なう文字列を保持する検索キー保持手段と、 前記インデックス保持手段に保持されているインデック
スを用いて、前記検索キー保持手段に保持されている検
索文字列に一致する文字列を検索する検索手段と、 前記検索手段により検索された検索結果を保持する検索
結果保持手段と、 前記有効語頻度保持手段に保持された有効語の文書別頻
度のうち、前記検索結果保持手段に保持された検索結果
の文書に相当するものから、追加検索キー候補リストを
作成する追加検索キー候補リスト作成手段と、 前記追加検索キー候補リスト作成手段により作成された
追加検索キー候補リストを保持する追加検索キー候補リ
スト保持手段と、 前記追加検索キー候補リスト保持手段に保持された追加
検索キー候補リストを参照して、各追加検索キー候補の
評価値を算出する追加検索キー選定手段と、 前記追加検索キー選定手段により求めた評価値が高いも
のを追加検索キーとして保持する追加検索キー保持手段
と、 追加検索キー保持手段に保持された追加検索キーを出力
する追加検索キー提示手段とを備えたことを特徴とする
テキスト検索装置。
2. A search target text holding unit that holds a search target text; an index creation unit that creates an index for the search target text held by the search target text holding unit; An index holding unit that holds the created index; and an effective word extraction unit that extracts valid word candidates from the searched text stored in the searched text holding unit, counts the frequency of appearance in each document, and creates a valid word candidate list. A word candidate extraction unit, an effective word candidate frequency holding unit that holds, for each document, an appearance frequency of an effective word candidate extracted by the effective word candidate extraction unit, and an effective word candidate list created by the effective word candidate extraction unit. Valid word candidate list holding means for holding, and valid word candidates held in the valid word candidate list holding means An effective word selecting unit that calculates an evaluation value of each effective word candidate with reference to the list and creates an effective word list using effective word candidates having a high evaluation value as effective words, and an effective word created by the effective word selecting unit. A valid word list holding unit for holding a word list, and referring to the valid word list held in the valid word list holding unit, the effective words are determined based on the document frequency of the valid word candidates held in the effective word candidate frequency holding unit. Effective word frequency creating means for creating effective document frequency by deleting non-words, effective word frequency holding means for holding effective document frequency of effective words created by the effective word frequency creating means, Search key holding means for holding a character string for performing, and a character string matching the search character string held in the search key holding means, using the index held in the index holding means Search means for searching; search result holding means for holding search results searched by the search means; and document frequency of effective words held in the effective word frequency holding means, held in the search result holding means. An additional search key candidate list creating unit that creates an additional search key candidate list from a document corresponding to the retrieved search result, and an additional unit that holds the additional search key candidate list created by the additional search key candidate list creating unit. Search key candidate list holding means; additional search key selection means for calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list held in the additional search key candidate list holding means; An additional search key holding means for holding a high evaluation value obtained by the search key selecting means as an additional search key; A text search device comprising: an additional search key presenting means for outputting a held additional search key.
【請求項3】 テキストから有効語候補を抽出し、各文
書における出現頻度をカウントして有効語候補リストを
作成する有効語候補抽出手段と、 前記有効候補抽出手段により抽出された有効語候補の出
現頻度を文書別に保持する有効語候補頻度保持手段と、 前記有効語候補リストを参照して各有効語候補の評価値
を算出し、評価値の高い有効語候補を有効語として有効
語リストを作成する有効語選定手段と、 前記有効語リストを参照し、前記有効語候補頻度保持手
段に保持された有効語候補の文書別頻度から有効語でな
い語を削除して、有効語の文書別頻度を作成する有効語
頻度作成手段とを備えたことを特徴とする有効語頻度作
成装置。
3. An effective word candidate extracting means for extracting an effective word candidate from a text, counting the frequency of appearance in each document to create an effective word candidate list, and an effective word candidate extracted by the effective candidate extracting means. An effective word candidate frequency holding unit that holds an appearance frequency for each document; and an evaluation value of each effective word candidate is calculated with reference to the effective word candidate list, and an effective word list having a high evaluation value as an effective word is used as an effective word list. A valid word selecting unit to be created, referring to the valid word list, deleting a non-valid word from the document frequency of valid word candidates held in the valid word candidate frequency holding unit, And a valid word frequency generating means for generating a valid word frequency.
【請求項4】 被検索テキストに対してインデックスを
作成するインデックス作成手段と、 前記インデックスにより、検索文字列に一致する文字列
を検索する検索手段と、 請求項3記載の有効語頻度作成装置によって作成された
有効語の文書別頻度のうち、前記検索手段の検索結果の
文書に相当するものから、追加検索キー候補リストを作
成する追加検索キー候補リスト作成手段と、 前記追加検索キー候補リストを参照して、各追加検索キ
ー候補の評価値を算出する追加検索キー選定手段と、 前記追加検索キー選定手段により求めた評価値が高いも
のを追加検索キーとして出力する追加検索キー提示手段
とを備えたことを特徴とするテキスト検索装置。
4. An effective word frequency creating apparatus according to claim 3, wherein: an index creating means for creating an index for the searched text; and a searching means for searching for a character string matching the search character string by using the index. An additional search key candidate list creating unit that creates an additional search key candidate list from a document corresponding to the search result document of the search unit among the created effective word-by-document frequencies; An additional search key selecting means for calculating an evaluation value of each additional search key candidate, and an additional search key presenting means for outputting a high evaluation value obtained by the additional search key selecting means as an additional search key. A text search device, comprising:
【請求項5】 被検索テキストに対してインデックスを
作成するインデックス作成行程と、 前記被検索テキストから有効語候補を抽出し、各文書に
おける出現頻度をカウントして有効語候補リストを作成
する有効語候補抽出行程と、 前記有効語候補抽出行程により抽出された有効語候補の
出現頻度を文書別に保持する有効語候補頻度保持行程
と、 前記有効語候補リストを参照して、各有効語候補の評価
値を算出し、評価値の高い有効語候補を有効語として、
有効語リストを作成する有効語選定行程と、 前記有効語リストを参照し、前記有効語候補頻度保持行
程で保持された有効語候補の文書別頻度から有効語でな
い語を削除して、有効語の文書別頻度を作成する有効語
頻度作成行程と、 前記インデックスにより、検索文字列に一致する文字列
を検索する検索行程と、 前記有効語頻度保持行程で保持された有効語の文書別頻
度のうち、前記検索行程の検索結果の文書に相当するも
のから、追加検索キー候補リストを作成する追加検索キ
ー候補リスト作成行程と、 前記追加検索キー候補リストを参照して、各追加検索キ
ー候補の評価値を算出する追加検索キー選定行程と、 前記追加検索キー選定行程により求めた評価値が高いも
のを追加検索キーとして出力する追加検索キー提示行程
とを実行することを特徴とするテキスト検索方法。
5. An index creation step for creating an index for a searched text, an effective word candidate for extracting an effective word candidate from the searched text, counting the frequency of appearance in each document, and creating an effective word candidate list. A candidate extraction process, an effective word candidate frequency holding process for retaining the appearance frequency of the effective word candidates extracted by the effective word candidate extraction process for each document, and an evaluation of each effective word candidate with reference to the effective word candidate list Calculate the effective word candidate with the highest evaluation value as the effective word,
An effective word selection process for creating an effective word list, and referring to the effective word list, deleting a non-effective word from the document-specific frequencies of the effective word candidates held in the effective word candidate frequency holding process, An effective word frequency creating process for creating a document-specific frequency of the document, a search process of searching for a character string that matches a search character string by the index, and a document-specific frequency of an effective word held in the effective word frequency holding process. An additional search key candidate list creation step of creating an additional search key candidate list from a document corresponding to a search result document of the search step, and referring to the additional search key candidate list, An additional search key selecting step of calculating an evaluation value; and an additional search key presenting step of outputting, as an additional search key, one having a high evaluation value obtained by the additional search key selecting step. Text search method, wherein the door.
【請求項6】 被検索テキストを保持する被検索テキス
ト保持行程と、 前記被検索テキスト保持行程で保持されている被検索テ
キストに対して、インデックスを作成するインデックス
作成行程と、 前記インデックス作成行程で作成したインデックスを保
持するインデックス保持行程と、 前記被検索テキスト保持行程で保持されている被検索テ
キストから有効語候補を抽出し、各文書における出現頻
度をカウントして有効語候補リストを作成する有効語候
補抽出行程と、 前記有効語候補抽出行程により抽出された有効語候補の
出現頻度を文書別に保持する有効語候補頻度保持行程
と、 前記有効語候補抽出行程により作成された有効語候補リ
ストを保持する有効語候補リスト保持行程と、 前記有効語候補リスト保持行程で保持された有効語候補
リストを参照して、各有効語候補の評価値を算出し、評
価値の高い有効語候補を有効語として有効語リストを作
成する有効語選定行程と、 前記有効語選定行程により作成された有効語リストを保
持する有効語リスト保持行程と、 前記有効語リスト保持行程で保持された有効語リストを
参照し、上記有効語候補頻度保持行程で保持された有効
語候補の文書別頻度から有効語でない語を削除して、有
効語の文書別頻度を作成する有効語頻度作成行程と、 前記有効語頻度作成行程により作成された有効語の文書
別頻度を保持する有効語頻度保持行程と、 検索を行なう文字列を保持する検索キー保持行程と、 前記インデックス保持行程で保持されているインデック
スを用いて、前記検索キー保持行程で保持されている検
索文字列に一致する文字列を検索する検索行程と、 前記検索行程により検索された検索結果を保持する検索
結果保持行程と、 前記有効語頻度保持行程で保持された有効語の文書別頻
度のうち、前記検索結果保持行程で保持された検索結果
の文書に相当するものから、追加検索キー候補リストを
作成する追加検索キー候補リスト作成行程と、 前記追加検索キー候補リスト作成行程により作成された
追加検索キー候補リストを保持する追加検索キー候補リ
スト保持行程と、 前記追加検索キー候補リスト保持行程で保持された追加
検索キー候補リストを参照して、各追加検索キー候補の
評価値を算出する追加検索キー選定行程と、 前記追加検索キー選定行程により求めた評価値が高いも
のを追加検索キーとして保持する追加検索キー保持行程
と、 追加検索キー保持行程で保持された追加検索キーを出力
する追加検索キー提示行程とを実行することを特徴とす
るテキスト検索方法。
6. A search target text holding process for holding a search target text, an index creation process for creating an index for the search target text held in the search target text holding process, and an index creation process. An index holding process for holding the created index, and an effective word candidate for extracting valid word candidates from the searched text held in the searched text holding process, counting the frequency of appearance in each document, and creating a valid word candidate list A word candidate extraction process, an effective word candidate frequency holding process for retaining the appearance frequency of the effective word candidates extracted by the effective word candidate extraction process for each document, and an effective word candidate list created by the effective word candidate extraction process. Valid word candidate list holding process to be held, and valid word candidates held in the valid word candidate list holding process Referring to the list, an evaluation value of each effective word candidate is calculated, and an effective word selection process of creating an effective word list using effective word candidates having a high evaluation value as effective words, and an effective word created by the effective word selection process A valid word list holding process for holding the word list, and referring to the valid word list held in the valid word list holding process, the valid words from the document frequency of the valid word candidates held in the valid word candidate frequency holding process. A valid word frequency creating step of creating a document-specific frequency of valid words by deleting non-words; a valid word frequency holding step of retaining the document-specific frequency of valid words created by the valid word frequency creating step; A search key holding step for holding a character string to be performed, and a character string that matches the search character string held in the search key holding step using the index held in the index holding step A search step for searching; a search result holding step for holding a search result searched for in the search step; and a document frequency of valid words held in the valid word frequency holding step, held in the search result holding step. An additional search key candidate list creation process for creating an additional search key candidate list from a document corresponding to the searched search result, and an addition for retaining the additional search key candidate list created by the additional search key candidate list creation process. A search key candidate list holding step; an additional search key selection step of calculating an evaluation value of each additional search key candidate with reference to the additional search key candidate list held in the additional search key candidate list holding step; An additional search key holding process that holds, as an additional search key, the one with the higher evaluation value obtained by the search key selection process, and an additional search key holding process. And performing an additional search key presenting step of outputting the held additional search key.
【請求項7】 テキストから有効語候補を抽出し、各文
書における出現頻度をカウントして有効語候補リストを
作成する有効語候補抽出行程と、 前記有効候補抽出行程により抽出された有効語候補の出
現頻度を文書別に保持する有効語候補頻度保持行程と、 前記有効語候補リストを参照して、各有効語候補の評価
値を算出し、評価値の高い有効語候補を有効語として、
有効語リストを作成する有効語選定行程と、 前記有効語リストを参照し、前記有効語候補頻度保持行
程で保持された有効語候補の文書別頻度から有効語でな
い語を削除して、有効語の文書別頻度を作成する有効語
頻度作成行程とを実行することを特徴とする有効語頻度
作成方法。
7. An effective word candidate extraction step of extracting effective word candidates from a text, counting the frequency of appearance in each document to create an effective word candidate list, and an effective word candidate extraction step extracted by the effective candidate extraction step. An effective word candidate frequency holding step of retaining the appearance frequency for each document, and referring to the effective word candidate list, calculating an evaluation value of each effective word candidate, and setting an effective word candidate having a high evaluation value as an effective word,
An effective word selection process for creating an effective word list, and referring to the effective word list, deleting a non-effective word from the document-specific frequencies of the effective word candidates held in the effective word candidate frequency holding process, And generating an effective word frequency for each document.
【請求項8】 被検索テキストに対してインデックスを
作成するインデックス作成行程と、 前記インデックスにより、検索文字列に一致する文字列
を検索する検索行程と、 請求項7記載の有効語頻度作成方法によって作成された
有効語の文書別頻度のうち、前記検索行程の検索結果の
文書に相当するものから、追加検索キー候補リストを作
成する追加検索キー候補リスト作成行程と、 前記追加検索キー候補リストを参照して、各追加検索キ
ー候補の評価値を算出する追加検索キー選定行程と、 前記追加検索キー選定行程により求めた評価値が高いも
のを追加検索キーとして出力する追加検索キー提示行程
とを実行することを特徴とするテキスト検索方法。
8. An effective word frequency creation method according to claim 7, wherein: an index creation step of creating an index for the searched text; and a search step of searching a character string matching the search character string by the index. An additional search key candidate list creation step of creating an additional search key candidate list from a document corresponding to the search result document of the search step among the created valid word-by-document frequencies; An additional search key selecting step of calculating an evaluation value of each additional search key candidate, and an additional search key presenting step of outputting a higher evaluation value obtained by the additional search key selecting step as an additional search key. A text search method characterized by performing.
【請求項9】 被検索テキストに対してインデックスを
作成するインデックス作成行程と、 前記被検索テキストから有効語候補を抽出し、各文書に
おける出現頻度をカウントして有効語候補リストを作成
する有効語候補抽出行程と、 前記有効語候補抽出行程により抽出された有効語候補の
出現頻度を文書別に保持する有効語候補頻度保持行程
と、 前記有効語候補リストを参照して、各有効語候補の評価
値を算出し、評価値の高い有効語候補を有効語として、
有効語リストを作成する有効語選定行程と、 前記有効語リストを参照し、前記有効語候補頻度保持行
程で保持された有効語候補の文書別頻度から有効語でな
い語を削除して、有効語の文書別頻度を作成する有効語
頻度作成行程と、 前記インデックスにより、検索文字列に一致する文字列
を検索する検索行程と、 前記有効語頻度保持行程で保持された有効語の文書別頻
度のうち、前記検索行程の検索結果の文書に相当するも
のから、追加検索キー候補リストを作成する追加検索キ
ー候補リスト作成行程と、 前記追加検索キー候補リストを参照して、各追加検索キ
ー候補の評価値を算出する追加検索キー選定行程と、 前記追加検索キー選定行程により求めた評価値が高いも
のを追加検索キーとして出力する追加検索キー提示行程
とを含むプログラムを格納したことを特徴とするコンピ
ュータ読み取り可能な記録媒体。
9. An index creation process for creating an index for a searched text, an effective word candidate for extracting an effective word candidate from the searched text, counting the frequency of appearance in each document, and creating an effective word candidate list A candidate extraction process, an effective word candidate frequency holding process for retaining the appearance frequency of the effective word candidates extracted by the effective word candidate extraction process for each document, and an evaluation of each effective word candidate with reference to the effective word candidate list Calculate the value and use the valid word candidate with the highest evaluation value as the valid word,
An effective word selection process for creating an effective word list, and referring to the effective word list, deleting a non-effective word from the document frequency of the effective word candidates held in the effective word candidate frequency holding process, An effective word frequency creation process for creating a document-specific frequency of the document; a search process for searching for a character string that matches the search character string by the index; An additional search key candidate list creation step of creating an additional search key candidate list from a document corresponding to the search result of the search step, and referring to the additional search key candidate list, A professional search process that includes an additional search key selection process for calculating an evaluation value, and an additional search key presentation process for outputting, as an additional search key, one having a high evaluation value obtained by the additional search key selection process. A computer-readable recording medium characterized by storing a ram.
【請求項10】 被検索テキストを保持する被検索テキ
スト保持行程と、 前記被検索テキスト保持行程で保持されている被検索テ
キストに対して、インデックスを作成するインデックス
作成行程と、 前記インデックス作成行程で作成したインデックスを保
持するインデックス保持行程と、 前記被検索テキスト保持行程で保持されている被検索テ
キストから有効語候補を抽出し、各文書における出現頻
度をカウントして有効語候補リストを作成する有効語候
補抽出行程と、 前記有効語候補抽出行程により抽出された有効語候補の
出現頻度を文書別に保持する有効語候補頻度保持行程
と、 前記有効語候補抽出行程により作成された有効語候補リ
ストを保持する有効語候補リスト保持行程と、 前記有効語候補リスト保持行程で保持された有効語候補
リストを参照して、各有効語候補の評価値を算出し、評
価値の高い有効語候補を有効語として有効語リストを作
成する有効語選定行程と、 前記有効語選定行程により作成された有効語リストを保
持する有効語リスト保持行程と、 前記有効語リスト保持行程で保持された有効語リストを
参照し、上記有効語候補頻度保持行程で保持された有効
語候補の文書別頻度から有効語でない語を削除して、有
効語の文書別頻度を作成する有効語頻度作成行程と、 前記有効語頻度作成行程により作成された有効語の文書
別頻度を保持する有効語頻度保持行程と、 検索を行なう文字列を保持する検索キー保持行程と、 前記インデックス保持行程で保持されているインデック
スを用いて、前記検索キー保持行程で保持されている検
索文字列に一致する文字列を検索する検索行程と、 前記検索行程により検索された検索結果を保持する検索
結果保持行程と、 前記有効語頻度保持行程で保持された有効語の文書別頻
度のうち、前記検索結果保持行程で保持された検索結果
の文書に相当するものから、追加検索キー候補リストを
作成する追加検索キー候補リスト作成行程と、 前記追加検索キー候補リスト作成行程により作成された
追加検索キー候補リストを保持する追加検索キー候補リ
スト保持行程と、 前記追加検索キー候補リスト保持行程で保持された追加
検索キー候補リストを参照して、各追加検索キー候補の
評価値を算出する追加検索キー選定行程と、 前記追加検索キー選定行程により求めた評価値が高いも
のを追加検索キーとして保持する追加検索キー保持行程
と、 追加検索キー保持行程で保持された追加検索キーを出力
する追加検索キー提示行程とを含むプログラムを格納し
たことを特徴とするコンピュータ読み取り可能な記録媒
体。
10. A search target text holding process for storing a search target text, an index creation process for creating an index for the search target text held in the search target text holding process, and an index creation process. An index holding process for holding the created index, and an effective word candidate for extracting valid word candidates from the searched text held in the searched text holding process, counting the frequency of appearance in each document, and creating a valid word candidate list A word candidate extraction process, an effective word candidate frequency holding process for retaining the appearance frequency of the effective word candidates extracted by the effective word candidate extraction process for each document, and an effective word candidate list created by the effective word candidate extraction process. Valid word candidate list holding process to be held, and valid words held in the valid word candidate list holding process An effective word selection process of calculating an evaluation value of each effective word candidate with reference to the supplementary list and creating an effective word list with effective word candidates having a high evaluation value as effective words, The valid word list holding process for holding the valid word list and the valid word list held in the valid word list holding process are referred to, and the valid word candidate frequency held in the valid word candidate frequency holding process is determined based on the document frequency. An effective word frequency creation step of deleting a non-word word and creating a document-specific frequency of an effective word; and an effective word frequency holding step of retaining the document-specific frequency of the effective word created by the effective word frequency creation step, A search key holding step for holding a character string to be searched, and a character that matches the search character string held in the search key holding step using the index held in the index holding step A search step of searching for, a search result holding step of holding a search result searched by the search step, and a document-specific frequency of effective words held in the effective word frequency holding step. An additional search key candidate list creation process for creating an additional search key candidate list from documents corresponding to the held search result documents, and an additional search key candidate list created by the additional search key candidate list creation process An additional search key candidate list holding step; an additional search key selecting step of calculating an evaluation value of each additional search key candidate by referring to the additional search key candidate list held in the additional search key candidate list holding step; An additional search key holding process that holds, as an additional search key, those with a high evaluation value obtained by the additional search key selection process, and an additional search key holding process A computer-readable recording medium storing a program including an additional search key presenting step of outputting a stored additional search key.
【請求項11】 テキストから有効語候補を抽出し、各
文書における出現頻度をカウントして有効語候補リスト
を作成する有効語候補抽出行程と、 前記有効候補抽出行程により抽出された有効語候補の出
現頻度を文書別に保持する有効語候補頻度保持行程と、 前記有効語候補リストを参照して、各有効語候補の評価
値を算出し、評価値の高い有効語候補を有効語として、
有効語リストを作成する有効語選定行程と、 前記有効語リストを参照し、前記有効語候補頻度保持行
程で保持された有効語候補の文書別頻度から有効語でな
い語を削除して、有効語の文書別頻度を作成する有効語
頻度作成行程とを含むプログラムを格納したことを特徴
とするコンピュータ読み取り可能な記録媒体。
11. An effective word candidate extraction process for extracting effective word candidates from text, counting the frequency of appearance in each document to create an effective word candidate list, and an effective word candidate extraction process extracted from the effective candidate extraction process. An effective word candidate frequency holding step of retaining the appearance frequency for each document, and referring to the effective word candidate list, calculating an evaluation value of each effective word candidate, and setting an effective word candidate having a high evaluation value as an effective word,
An effective word selection process for creating an effective word list, and referring to the effective word list, deleting a non-effective word from the document-specific frequencies of the effective word candidates held in the effective word candidate frequency holding process, A computer-readable recording medium storing a program including an effective word frequency creating step of creating a document-specific frequency.
【請求項12】 被検索テキストに対してインデックス
を作成するインデックス作成行程と、 前記インデックスにより、検索文字列に一致する文字列
を検索する検索行程と、 請求項11記載の記録媒体中の有効語頻度作成行程によ
って作成された有効語の文書別頻度のうち、前記検索行
程の検索結果の文書に相当するものから、追加検索キー
候補リストを作成する追加検索キー候補リスト作成行程
と、 前記追加検索キー候補リストを参照して、各追加検索キ
ー候補の評価値を算出する追加検索キー選定行程と、 前記追加検索キー選定行程により求めた評価値が高いも
のを追加検索キーとして出力する追加検索キー提示行程
とを含むプログラムを格納したことを特徴とするコンピ
ュータ読み取り可能な記録媒体。
12. An effective word in a recording medium according to claim 11, wherein: an index creation step of creating an index for the searched text; and a search step of searching for a character string matching the search character string by the index. An additional search key candidate list creation step of creating an additional search key candidate list from a document equivalent of the search result of the search step among the document frequencies of the effective words created by the frequency creation step; An additional search key selection step for calculating an evaluation value of each additional search key candidate with reference to the key candidate list; and an additional search key for outputting, as an additional search key, a high evaluation value obtained by the additional search key selection step A computer-readable recording medium storing a program including a presentation step.
JP10300316A 1998-10-08 1998-10-08 Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium Pending JP2000112990A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10300316A JP2000112990A (en) 1998-10-08 1998-10-08 Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10300316A JP2000112990A (en) 1998-10-08 1998-10-08 Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium

Publications (1)

Publication Number Publication Date
JP2000112990A true JP2000112990A (en) 2000-04-21

Family

ID=17883323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10300316A Pending JP2000112990A (en) 1998-10-08 1998-10-08 Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium

Country Status (1)

Country Link
JP (1) JP2000112990A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725424B1 (en) 1999-03-31 2010-05-25 Verizon Laboratories Inc. Use of generalized term frequency scores in information retrieval systems
US8015173B2 (en) 2000-05-08 2011-09-06 Google Inc. Techniques for web site integration
US8244795B2 (en) 1999-07-30 2012-08-14 Verizon Laboratories Inc. Page aggregation for web sites
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) * 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725424B1 (en) 1999-03-31 2010-05-25 Verizon Laboratories Inc. Use of generalized term frequency scores in information retrieval systems
US8095533B1 (en) 1999-03-31 2012-01-10 Apple Inc. Automatic index term augmentation in document retrieval
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) * 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US8244795B2 (en) 1999-07-30 2012-08-14 Verizon Laboratories Inc. Page aggregation for web sites
US8015173B2 (en) 2000-05-08 2011-09-06 Google Inc. Techniques for web site integration
US8756212B2 (en) 2000-05-08 2014-06-17 Google Inc. Techniques for web site integration
US8862565B1 (en) 2000-05-08 2014-10-14 Google Inc. Techniques for web site integration

Similar Documents

Publication Publication Date Title
JPH1145241A (en) Japanese syllabary-chinese character conversion system and computer-readable recording medium where programs making computer function as means of same system is recorded
US7752216B2 (en) Retrieval apparatus, retrieval method and retrieval program
JP2006072744A (en) Document processor, control method therefor, program and storage medium
JP2006178599A (en) Document retrieval device and method
JPH11259515A (en) Similar document retrieval device and method and recording medium recording similar document retrieval program
JP2000112990A (en) Text retrieval device, effective word frequency preparation device, text retrieval method, effective word frequency preparation method and recording medium
JPH11213008A (en) Device and method for retrieving text and device and method for grouping url
JP5285491B2 (en) Information retrieval system, method and program, index creation system, method and program,
JPH10307835A (en) Information processor and its method
JP3862059B2 (en) Search expression expansion method and search system
JP4091586B2 (en) Structured document management system, index construction method and program
JP2002132789A (en) Document retrieving method
JP2002108888A (en) Device and method for extracting keyword of digital contents and computer readable recording medium
JP2001092831A (en) Device and method for document retrieval
JP2002117043A (en) Device and method for document retrieval, and recording medium with recorded program for implementing the same method
JPH11259487A (en) Similar document retrieving device, similar document retrieving method and storage medium recorded with program for retrieving similar document
JP2004152041A (en) Program, recording medium and apparatus for extracting key phrase
JP2002259426A (en) Similar document retrieval device, similar document retrieval method, recording medium with similar document retrieval program recorded thereon and similar document retrieval program
JP3436109B2 (en) Related search formula search device and computer-readable recording medium storing related search formula search program
JP2000076254A (en) Keyword extraction device, similar document retrieval device using the same, keyword extraction method and record medium
JP2003228578A (en) Method and device for retrieving information, and control program for device for retrieving information
JP2008203997A (en) Document retrieval device and program
JP2007149022A (en) Device, method and program for extracting document feature
JP2004318328A (en) Information retrieval method
JP4135467B2 (en) Information processing apparatus, system, and program