JPH10334106A - Relative word display device and medium where program for relative word display is recorded - Google Patents

Relative word display device and medium where program for relative word display is recorded

Info

Publication number
JPH10334106A
JPH10334106A JP9137301A JP13730197A JPH10334106A JP H10334106 A JPH10334106 A JP H10334106A JP 9137301 A JP9137301 A JP 9137301A JP 13730197 A JP13730197 A JP 13730197A JP H10334106 A JPH10334106 A JP H10334106A
Authority
JP
Japan
Prior art keywords
word
related word
document
search
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9137301A
Other languages
Japanese (ja)
Other versions
JP3427674B2 (en
Inventor
Hiroshi Masuichi
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP13730197A priority Critical patent/JP3427674B2/en
Publication of JPH10334106A publication Critical patent/JPH10334106A/en
Application granted granted Critical
Publication of JP3427674B2 publication Critical patent/JP3427674B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To show relative words that can effectively reduce retrieval omissions and narrow down retrieval results. SOLUTION: A retrieval condition accepting means 2 accepts a retrieval condition 'S'. A document retrieving means 3 acquires a document set 'X' meeting the retrieval condition that the retrieval condition accepting means 2 has accepted from a document storage means 1. A relative word calculating means 4 obtains a relative word set 'Wn' by regarding words having high relativity to the retrieval condition as relative words. An appearance frequency calculating means 5 calculates the appearance frequency 'R(Wn)' of each relative word in the relative word set in the document set. A relative word selecting means 6 selects a relative word by using a calculation expression including the number 'N' of documents in the document set and the appearance frequency of each relative word as variables. A relative word display means 7 displays the relative word selected by the relative word selecting means 6.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は関連語提示装置及び
関連語提示用プログラムを記録した媒体に関し、特に検
索条件に関連する単語を提示する関連語提示装置及びコ
ンピュータに検索条件に関連する単語を提示させるため
の関連語提示用プログラムを記録した媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a related-word presenting apparatus and a medium storing a related-word presenting program. The present invention relates to a medium recording a related word presentation program for presentation.

【0002】[0002]

【従来の技術】膨大な量の文書を対象とする検索システ
ムでは、一般にキーワードによる検索方法が用いられて
いる。検索条件として任意のキーワード(検索語)を検
索システムに入力すると、文書内容に検索語を含む全て
の文書が検索結果として得られる。この方式による検索
は、全文検索と呼ばれている。また、各文書に対して検
索用のキーワードを予め付加しておき、入力された検索
語と一致するキーワードが付加された文書を検索結果と
する方式も広く用いられている。
2. Description of the Related Art In a search system for an enormous amount of documents, a search method using a keyword is generally used. When an arbitrary keyword (search term) is input as a search condition into the search system, all documents including the search term in the document content are obtained as search results. The search by this method is called a full-text search. A method is also widely used in which a keyword for search is added to each document in advance, and a document to which a keyword matching the input search word is added is used as a search result.

【0003】このような検索システムで検索結果として
得られるのは、ユーザによって入力された検索後と完全
に一致する語を含んでいる文書か、あるいは、ユーザが
入力したキーワードと完全に一致する語が検索用のキー
ワードとして付加されている文書のみである。そのた
め、検索語とキーワード間の完全一致が要求されると、
必ずしもユーザが求める全ての文書を網羅的に得られる
とはいえない。
[0003] A search result obtained by such a search system is a document containing a word completely matching the search entered by the user, or a word completely matching the keyword entered by the user. Is only the document to which is added as a search keyword. Therefore, if an exact match between a search term and a keyword is required,
It cannot be said that all the documents required by the user can be obtained comprehensively.

【0004】そこで、「特開平2−297290号公
報」において提案されているように、検索漏れを防ぐた
めに、関連語辞書を用いることにより検索語の関連語を
ユーザに提示し、より検索意図に合致する検索式の作成
を促す方式が用いられている。
Therefore, as proposed in Japanese Unexamined Patent Publication No. 2-297290, in order to prevent search omission, a related word of a search word is presented to a user by using a related word dictionary, and the search intention is further improved. A method is used to prompt creation of a matching search formula.

【0005】例えば、ユーザが入力した検索語が「SG
ML」の場合、関連語辞書から「SGML」の関連語と
して「HTML」「ODA」「構造化文書」等を取得
し、ユーザに提示する。提示された関連語の中からユー
ザが適切であると判断した関連語を「SGML」と論理
和演算子で接続することによって、検索漏れの軽減を図
る。このように、検索式に対して、提示された関連語の
いくつかを論理和演算子で接続することによって、検索
漏れを防ぐことが可能となる。
[0005] For example, if the search term entered by the user is "SG
In the case of “ML”, “HTML”, “ODA”, “structured document”, etc. are acquired as related words of “SGML” from the related word dictionary, and presented to the user. The search term is reduced by connecting a related word determined to be appropriate by the user from the presented related words to “SGML” by using a logical sum operator. In this way, by connecting some of the presented related words to the search expression by using a logical sum operator, it is possible to prevent search omission.

【0006】また、提示された関連語は、検索漏れの軽
減を目的とする以外に、検索結果の絞り込みを補助する
ためにも用いることもできる。すなわち、検索結果とし
て得られる文書数が多すぎる場合に、検索式に対して、
提示された関連語のいくつかを論理積演算子で接続する
ことによって、適切な絞り込みが可能となる。
[0006] In addition to the purpose of reducing the omission of retrieval, the presented related words can also be used to assist in narrowing down retrieval results. That is, if the number of documents obtained as a search result is too large,
Appropriate refinement is possible by connecting some of the suggested related words with a logical AND operator.

【0007】このように、ユーザは、検索結果の数の多
少により、検索漏れを防ぐのか検索結果の絞り込みを行
うのかを判断し、適切な関連語を選択して検索式に接続
していく。
As described above, the user determines whether to prevent search omission or to narrow down search results depending on the number of search results, selects appropriate related words, and connects them to the search formula.

【0008】[0008]

【発明が解決しようとする課題】ところで、検索漏れを
防ぐ場合と、検索結果の絞り込みを行う場合とでは、検
索式に接続すべき関連語が異なってくる。そのため、ユ
ーザが提示を望む関連語も異なる。一般に、検索結果が
少ない場合には、検索漏れを防ぐために、広範かつ詳細
な関連語の提示が望まれる。これに対し、検索結果が多
い場合には、検索結果を絞り込むことに重点が置かれ、
広範あるいは詳細な関連語よりも、検索結果を適切な量
に絞り込むことが可能となる関連語の提示が望まれる。
By the way, the related words to be connected to the search formula differ between the case where the search is omitted and the case where the search result is narrowed down. Therefore, related words that the user wants to present are also different. In general, when there are few search results, it is desirable to provide extensive and detailed related words in order to prevent search omissions. On the other hand, when there are many search results, the focus is on narrowing the search results,
It is desirable to present related words that can narrow down search results to an appropriate amount, rather than broad or detailed related words.

【0009】しかし、上記の従来技術では、検索結果の
多少に関係なく常に固定的に設定された関連語が提示さ
れるため、どの関連語を検索式に接続すべきかを的確に
判断することができない。すなわち、検索漏れの軽減と
検索結果の絞り込みの両目的を効果的に達成する検索式
を作成するのが簡単ではなかった。
However, in the above-mentioned prior art, fixed related words are always presented irrespective of the search result, so that it is possible to accurately determine which related words should be connected to the search formula. Can not. That is, it has not been easy to create a search formula that effectively achieves both the purpose of reducing search omissions and narrowing down search results.

【0010】本発明はこのような点に鑑みてなされたも
のであり、検索漏れの軽減と検索結果の絞り込みの両目
的を効果的に達成できるような関連語を提示する関連語
提示装置を提供することを目的とする。
The present invention has been made in view of the above points, and provides a related word presentation device that presents related words that can effectively achieve both the purpose of reducing search omissions and narrowing down search results. The purpose is to do.

【0011】また、本発明の他の目的は、検索漏れの軽
減と検索結果の絞り込みの両目的を効果的に達成できる
ような関連語の提示をコンピュータに行わせるための関
連語提示用プログラムを記録した媒体を提供することで
ある。
Another object of the present invention is to provide a related word presentation program for causing a computer to present related words that can effectively achieve both the purpose of reducing search omissions and narrowing down search results. To provide a recorded medium.

【0012】[0012]

【課題を解決するための手段】本発明では上記課題を解
決するために、検索条件に関連する単語を提示する関連
語提示装置において、複数の文書を格納する文書格納手
段と、入力された検索条件を受け取る検索条件受取手段
と、前記検索条件受取手段が受け取った検索条件に適合
する文書集合を前記文書格納手段から取得する文書検索
手段と、前記検索条件受取手段が受け取った検索条件に
関連性の高い単語を関連語として、関連語集合を取得す
る関連語計算手段と、前記文書検索手段から得られた文
書集合の中で、前記関連語計算手段が取得した関連語集
合中の各関連語を含んでいる文書の数である出現数
を、、関連語ごとに計算する出現数計算手段と、前記文
書検索手段が取得した文書集合の文書数と、前記出現数
計算手段から得られた各関連語の出現数とを変数とする
計算式を用いて、表示すべき関連語を選択する関連語選
定手段と、前記関連語選定手段が選択した関連語を表示
装置に表示する関連語表示手段と、を有することを特徴
とする関連語提示装置が提供される。
According to the present invention, in order to solve the above-mentioned problems, in a related word presentation device for presenting a word related to a search condition, a document storage means for storing a plurality of documents, Search condition receiving means for receiving a condition, document search means for obtaining from the document storage means a set of documents that meet the search condition received by the search condition receiving means, and relevance to the search condition received by the search condition receiving means. Related word calculating means for obtaining a set of related words, using words having a high degree as related words, and, in the document set obtained from the document searching means, each related word in the related word set obtained by the related word calculating means. The number of occurrences, which is the number of documents containing the word, is calculated from the number of occurrences calculating unit for each related word, the number of documents in the document set obtained by the document search unit, and the number of occurrences obtained from the number of occurrences calculating unit. A related word selecting means for selecting a related word to be displayed using a calculation formula with the number of occurrences of the related word as a variable, and a related word displaying means for displaying the related word selected by the related word selecting means on a display device And a related word presentation device characterized by having the following.

【0013】この関連語提示装置によれば、検索条件が
入力されると、その検索条件が検索条件受取手段で受け
取られる。すると、文書検索手段が、検索条件受取手段
が受け取った検索条件に適合する文書集合を文書格納手
段から取得する。さらに、関連語計算手段が、検索条件
受取手段が受け取った検索条件に関連性の高い単語を関
連語として、関連語集合を取得する。すると、出現数計
算手段により、関連語計算手段が取得した関連語集合中
の各関連語の、文書検索手段から得られた文書集合中で
の出現数が計算される。そして、関連語選定手段によ
り、文書検索手段が取得した文書集合の文書数と、出現
数計算手段から得られた各関連語の出現数とを変数とす
る計算式を用いて、表示すべき関連語が選択される。選
択された関連語は、関連語表示手段により、表示装置に
表示される。
According to this related word presentation device, when a search condition is input, the search condition is received by the search condition receiving means. Then, the document search means obtains from the document storage means a set of documents that meet the search condition received by the search condition receiving means. Further, the related word calculation means acquires a set of related words using words highly relevant to the search condition received by the search condition receiving means as related words. Then, the number-of-appearance calculation means calculates the number of appearances of each related word in the related word set obtained by the related word calculation means in the document set obtained by the document search means. Then, the related word selection means uses a calculation formula with the number of documents in the document set obtained by the document search means and the number of occurrences of each related word obtained from the number of appearance calculation means as variables, to display the relation to be displayed. The word is selected. The selected related word is displayed on the display device by the related word display means.

【0014】これにより、文書検索手段が取得した文書
集合の文書数と、出現数計算手段から得られた各関連語
の出現数とに応じて、表示される関連語を絞り込むこと
ができる。
Thus, the related words to be displayed can be narrowed down according to the number of documents in the document set obtained by the document search means and the number of appearances of each related word obtained from the appearance number calculation means.

【0015】また、検索条件に関連する単語の提示をコ
ンピュータに行わせるための関連語提示用プログラムを
記録した媒体において、複数の文書を格納する文書格納
手段、入力された検索条件を受け取る検索条件受取手
段、前記検索条件受取手段が受け取った検索条件に適合
する文書集合を前記文書格納手段から取得する文書検索
手段、前記検索条件受取手段が受け取った検索条件に関
連性の高い単語を関連語として、関連語集合を取得する
関連語計算手段、前記文書検索手段から得られた文書集
合の中で、前記関連語計算手段が取得した関連語集合中
の各関連語を含んでいる文書の数である出現数を、関連
語ごとに計算する出現数計算手段、前記文書検索手段が
取得した文書集合の文書数と、前記出現数計算手段から
得られた各関連語の出現数とを変数とする計算式を用い
て、表示すべき関連語を選択する関連語選定手段、前記
関連語選定手段が選択した関連語を表示装置に表示する
関連語表示手段、としてコンピュータを機能させるため
の関連語提示用プログラムを記録した媒体が提供され
る。
[0015] Further, in a medium storing a related word presentation program for causing a computer to present a word related to a search condition, a document storage means for storing a plurality of documents, a search condition for receiving the input search condition Receiving means, a document search means for obtaining from the document storage means a set of documents that meet the search condition received by the search condition receiving means, and a word highly relevant to the search condition received by the search condition receiving means as a related word A related word calculation means for obtaining a set of related words, in a document set obtained from the document search means, the number of documents containing each related word in the set of related words obtained by the related word calculation means. A certain number of occurrences, the number of occurrences calculating means for each related word, the number of documents in the document set obtained by the document searching means, and the number of occurrences of each related word obtained from the number of occurrences calculating means A computer is used as a related word selecting means for selecting a related word to be displayed using a calculation formula with the current number as a variable, and a related word displaying means for displaying the related word selected by the related word selecting means on a display device. There is provided a medium recording a related word presentation program for causing the program to function.

【0016】この媒体に記録された関連語提示用プログ
ラムをコンピュータに実行させれば、複数の文書を格納
する文書格納手段と、入力された検索条件を受け取る検
索条件受取手段と、検索条件受取手段が受け取った検索
条件に適合する文書集合を前記文書格納手段から取得す
る文書検索手段と、検索条件受取手段が受け取った検索
条件に関連性の高い単語を関連語として、関連語集合を
取得する関連語計算手段と、関連語計算手段が取得した
関連語集合中の各関連語の、文書検索手段から得られた
文書集合中での出現数を計算する出現数計算手段と、文
書検索手段が取得した文書集合の文書数と、出現数計算
手段から得られた各関連語の出現数とを変数とする計算
式を用いて、表示すべき関連語を選択する関連語選定手
段と、関連語選定手段が選択した関連語を表示装置に表
示する関連語表示手段と、がコンピュータによって実現
される。
When the computer executes the related word presentation program recorded on the medium, a document storage means for storing a plurality of documents, a search condition receiving means for receiving input search conditions, and a search condition receiving means A document retrieval unit that acquires a set of documents that match the search condition received from the document storage unit, and a related word that acquires a set of related words using words highly relevant to the search condition received by the search condition reception unit as related words. Word calculation means, occurrence number calculation means for calculating the number of occurrences of each related word in the related word set obtained by the related word calculation means in the document set obtained by the document search means, and document search means obtaining Related word selecting means for selecting related words to be displayed, using a calculation formula in which the number of documents in the set of documents obtained and the number of appearances of each related word obtained from the number of occurrence calculating means are variables, and related word selection A related word display means for displaying the related words stage selected on the display device, but is realized by a computer.

【0017】[0017]

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の第1の原理構成
図である。文書格納手段1は、複数の文書を格納する。
検索条件受取手段2は、キーボードなどを用いてユーザ
が入力した検索条件「S」を受け取る。文書検索手段3
は、検索条件受取手段2が受け取った検索条件「S」に
適合する文書集合「X」を文書格納手段1から取得す
る。関連語計算手段4は、検索条件受取手段2が受け取
った検索条件「S」に関連性の高い単語を関連語とし
て、関連語集合「Wn」を取得する。例えば、関連語辞
書を用いて、検索条件に含まれる単語の関連語を抽出し
て関連語集合とする。出現数計算手段5は、関連語計算
手段4から得られた関連語集合「Wn」中の各関連語
の、文書検索手段3が取得した文書集合中での出現数
「R(Wn)」を計算する。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a first principle configuration diagram of the present invention. The document storage unit 1 stores a plurality of documents.
The search condition receiving means 2 receives a search condition "S" input by a user using a keyboard or the like. Document search means 3
Obtains from the document storage unit 1 a document set “X” that matches the search condition “S” received by the search condition receiving unit 2. The related word calculation means 4 acquires a related word set “Wn” using words having high relevance to the search condition “S” received by the search condition receiving means 2 as related words. For example, using a related word dictionary, related words of words included in the search condition are extracted and set as a related word set. The number-of-appearance calculation means 5 calculates the number of appearances “R (Wn)” of each related word in the related word set “Wn” obtained from the related word calculation means 4 in the document set acquired by the document search means 3. calculate.

【0018】関連語選定手段6は、文書検索手段3から
得られた文書集合の文書数「N」と、出現数計算手段5
から得られた各関連語の出現数「R(Wn)」とを変数
とする計算式を用いて、表示すべき関連語を選択する。
例えば、文書検索手段3が取得した文書集合の文書数の
増加に従い値が段階的に増加する下限値G1(N)を定
めるとともに、文書検索手段3が取得した文書集合の文
書数の増加に従い値が段階的に減少する上限値G2
(N)を定める。そして、出現数が下限値以上、上限値
以下である関連語が選択されるような計算式を用いて、
表示すべき関連語を選択する。
The related word selecting means 6 includes the number of documents “N” of the document set obtained from the document searching means 3 and the number-of-occurrence calculating means 5
The related words to be displayed are selected using a calculation formula using the number of appearances of each related word “R (Wn)” obtained from the above as a variable.
For example, a lower limit value G1 (N), whose value increases stepwise as the number of documents in the document set acquired by the document search means 3 increases, is determined. The upper limit G2 at which the value gradually decreases
(N) is defined. Then, using a calculation formula such that a related word whose number of appearances is equal to or greater than the lower limit and equal to or less than the upper limit is selected,
Select related words to be displayed.

【0019】関連語表示手段7は、関連語選定手段6が
選択した関連語を表示装置に表示する。このような構成
の関連語提示装置によれば、検索漏れの軽減と検索結果
の絞り込みの両目的に有効な関連語が表示装置に表示さ
れる。すなわち、検索結果Nが多い場合には、検索結果
中で出現数の多い関連語が提示される。これは、検索結
果を徐々に絞り込む際に有効な関連語提示となる。
The related word display means 7 displays the related word selected by the related word selecting means 6 on a display device. According to the related word presentation device having such a configuration, related words effective for both purposes of reducing search omission and narrowing down search results are displayed on the display device. That is, when there are many search results N, related words having a large number of appearances in the search results are presented. This becomes an effective related word presentation when the search result is gradually narrowed down.

【0020】また、検索結果Nが少数の場合には、出現
数の少ない関連語が提示される。これは、検索漏れの軽
減を目的として検索式に論理和接続する際に有効な、よ
り広範な関連語提示となる。
When the number of search results N is small, related words with a small number of appearances are presented. This results in a wider range of related word presentations that are effective when performing a logical sum connection with a search expression for the purpose of reducing search omissions.

【0021】図2は、本発明の第2の原理構成図であ
る。この図に示した構成の図1の構成との大きな相違
は、関連語計算処理と出現数計算処理との処理順序が逆
になっている点である。それに伴って、出現数の計算対
象が関連語集合であったのが、文書集合に含まれる単語
集合(関連語計算処理の実行前であるため)になってい
る。ただし、この図の説明では、関連語集合と同じ記号
「Wn」で文書集合に含まれる単語の集合を示す。
FIG. 2 is a block diagram showing a second principle of the present invention. The major difference between the configuration shown in this figure and the configuration in FIG. 1 is that the processing order of the related word calculation processing and the appearance number calculation processing is reversed. Accordingly, the target of calculation of the number of occurrences is the related word set, which is the word set included in the document set (before the related word calculation processing is executed). However, in the description of this figure, a set of words included in the document set is indicated by the same symbol “Wn” as the related word set.

【0022】文書格納手段11は、複数の文書を格納す
る。検索条件受取手段12は、入力された検索条件
「S」を受け取る。文書検索手段13は、検索条件受取
手段12が受け取った検索条件に適合する文書集合
「X」を文書格納手段11から取得する。出現数計算手
段14は、文書検索手段13が取得した文書集合中に存
在する全ての単語の集合を「Wn」とし、各単語の文書
集合中での出現数「R(Wn)」を計算する。
The document storage means 11 stores a plurality of documents. The search condition receiving means 12 receives the input search condition "S". The document search unit 13 acquires from the document storage unit 11 a document set “X” that matches the search condition received by the search condition receiving unit 12. The number-of-appearance calculating means 14 sets a set of all words existing in the document set obtained by the document searching means 13 as “Wn”, and calculates the number of appearances “R (Wn)” of each word in the document set. .

【0023】関連語候補選定手段15は、文書検索手段
13が取得した文書集合の文書数「N」と、出現数計算
手段14から得られた各単語の出現数「R(Wn)」と
を変数とする計算式を用いて、表示すべき関連語候補を
選択する。
The related word candidate selecting means 15 calculates the number of documents “N” of the document set obtained by the document searching means 13 and the number of appearances “R (Wn)” of each word obtained from the number of occurrence calculating means 14. Using a calculation formula as a variable, a related word candidate to be displayed is selected.

【0024】関連語計算手段16は、以下の手順で関連
語候補の中から関連語を抽出する。まず、文書検索手段
13が取得した文書の数である第1の値と、文書検索手
段13が取得した文書の中で、各関連語候補を含んでい
る文書の数である関連語候補ごとの第2の値と、文書格
納手段11に格納されている文書の中で、各関連語候補
を含んでいる文書の数である関連語候補ごとの第3の値
とを取得する。次に、第1の値と第3の値との積あるい
は和である第4の値を関連語候補ごとに計算し、第2の
値と第4の値との比率に基づいて、検索条件受取手段1
2が受け取った検索条件と各関連語候補との間の関連度
を計算する。そして、関連度の高い関連語候補を関連語
として抽出する。関連度を計算するための計算式には、
後述する拡張相互情報量、拡張Dice−coeffi
cientおよび拡張t−scoreを用いることがで
きる。
The related word calculating means 16 extracts related words from related word candidates in the following procedure. First, a first value which is the number of documents obtained by the document search means 13 and a value of each related word candidate which is the number of documents including each related word candidate in the documents obtained by the document search means 13. A second value and a third value for each related word candidate that is the number of documents including each related word candidate among the documents stored in the document storage unit 11 are obtained. Next, a fourth value which is a product or a sum of the first value and the third value is calculated for each related word candidate, and a search condition is calculated based on a ratio of the second value to the fourth value. Receiving means 1
2 calculates the degree of relevance between the received search condition and each related word candidate. Then, related word candidates having a high degree of relevance are extracted as related words. The formula for calculating relevance is:
Extended mutual information, extended Dice-coeff
client and extended t-score can be used.

【0025】関連語表示手段17は、関連語計算手段1
6が抽出した関連語を表示装置に表示する。このような
関連語提示装置によれば、関連度を計算する前に関連語
候補の選定を行っているため、関連度計算が不要な関連
語に対しての関連度計算処理を省略することが可能とな
る。したがって、複雑な関連度計算を行う場合であって
も、文書の絞り込み等に有効な関連語の表示を高速に行
うことができる。
The related word display means 17 is a related word calculating means 1
The related words extracted by 6 are displayed on the display device. According to such a related-word presentation device, related-word candidates are selected before calculating the related-degree. Therefore, it is possible to omit the related-degree calculating process for related words that do not require the related-degree calculation. It becomes possible. Therefore, even when performing a complicated relevance calculation, it is possible to display related words effective for narrowing down documents at high speed.

【0026】図3は、本発明の第3の原理構成図であ
る。この関連語提示装置は、文書格納手段21、検索条
件受取手段22、文書検索手段23、出現数計算手段2
4、関連語候補選定手段25、関連語計算手段26、関
連語対出現数計算手段27、関連語間関連度計算手段2
8、及び関連語表示手段29を有している。ここで、文
書格納手段21、検索条件受取手段22、文書検索手段
23、出現数計算手段24、関連語候補選定手段25、
関連語計算手段26については、図2に示した同名の構
成要素と同じ機能を有しているため説明省略し、他の構
成要素について以下に説明する。
FIG. 3 is a block diagram showing the third principle of the present invention. This related word presentation device includes a document storage unit 21, a search condition receiving unit 22, a document search unit 23, and an appearance number calculation unit 2.
4. Related word candidate selecting means 25, related word calculating means 26, related word pair appearance number calculating means 27, related word related degree calculating means 2
8 and related word display means 29. Here, the document storage means 21, the search condition receiving means 22, the document search means 23, the number-of-appearance calculation means 24, the related word candidate selection means 25,
The related word calculating means 26 has the same function as the component of the same name shown in FIG. 2 and therefore will not be described, and the other components will be described below.

【0027】関連語対出現数計算手段27は、任意の関
連語が指定されると、指定された特定関連語と、関連語
計算手段26から得られた関連語集合中の他の関連語と
の同時出現数を、文書検索手段23が取得した文書集合
を対象に計算する。
When an arbitrary related word is specified, the related word pair appearance number calculating means 27 determines the specified specific related word and another related word in the related word set obtained from the related word calculating means 26. Is calculated for the document set acquired by the document search means 23.

【0028】関連語間関連度計算手段28は、出現数計
算手段24から得られた各関連語の出現数と、関連語対
出現数計算手段27から得られた特定関連語と他の関連
語との間の同時出現数とを変数とする計算式に基づいて
関連語間関連度を計算し、特定関連語に対して関連語間
関連度の高い関連語を抽出する。
The related word interrelationship calculating means 28 calculates the number of occurrences of each related word obtained from the number of occurrence calculating means 24, the specific related word obtained from the related word pair appearance number calculating means 27, and other related words. Then, the related word relevance is calculated based on a calculation formula using the number of simultaneous appearances between and as variables, and related words having a high related word relevance with respect to the specific related word are extracted.

【0029】関連語表示手段29は、関連語計算手段2
6が抽出した関連語を表示装置に表示するとともに、関
連語間関連度計算手段28が抽出した関連語をも表示装
置に表示する。
The related word display means 29 is a related word calculating means 2
6 displays the related words extracted on the display device, and also displays the related words extracted by the related word relevance calculating means 28 on the display device.

【0030】このような関連語提示装置により、ユーザ
は、任意の関連語を指定すれば、その関連語と一定の関
係にある別の関連語を知ることができ、検索式に対して
論理演算子で接続すべき関連語を容易に選択できる。
With such a related word presentation device, a user can specify another related word and know another related word having a certain relationship with the related word. The related words to be connected by the child can be easily selected.

【0031】なお、この図の構成は、図2の構成に、関
連語対出現数計算手段と関連語間関連度計算手段とを追
加し、関連語表示手段の機能を追加したものであるが、
同様の手段及び機能を、図1の構成に追加することも可
能である。
The configuration shown in FIG. 3 is obtained by adding related word pair occurrence number calculating means and related word interrelation degree calculating means to the structure shown in FIG. 2 and adding a function of related word display means. ,
Similar means and functions can be added to the configuration of FIG.

【0032】また、上記の各原理構成の構成要素の機能
は、各処理機能の命令が記述されたプログラムをコンピ
ュータで実行することにより実現できる。その場合、プ
ログラムは、コンピュータで読み取り可能な記録媒体に
格納しておく。記録媒体としては、半導体記憶装置や、
磁気記録装置、あるいは光ディスク等を用いることがで
きる。
The functions of the constituent elements of the above-described respective principle configurations can be realized by executing a program in which instructions of the respective processing functions are described by a computer. In this case, the program is stored in a computer-readable recording medium. As a recording medium, a semiconductor storage device,
A magnetic recording device, an optical disk, or the like can be used.

【0033】ところで、本発明の関連語計算手段では、
本来単語間の類似度として用いる統計量である相互情報
量、Dice−coefficientおよびt−sc
oreを拡張することによって、検索式と単語の間の類
似度を計算し、類似度の高いものを関連語とすることが
できる。相互情報量、Dice−coefficien
tおよびt−scoreを単語間の類似度計算に用いた
例として、「春野,山崎:辞書と統計を用いた対訳アラ
イメント,情報処理学会自然言語処理研究会研究報告,
96−NL−112,pp.23−30(199
6)」、「大森,堤,中西:統計情報を用いた対訳単語
辞書の作成,言語処理学会第2回年次大会発表論文集,
pp.49−52(1996)」等を挙げることができ
る。
By the way, in the related word calculating means of the present invention,
Mutual information, Dice-coefficient and t-sc, which are statistic values originally used as similarities between words
By expanding ore, the similarity between a search expression and a word can be calculated, and a word having a high similarity can be used as a related word. Mutual information, Dice-coefficien
Examples of using t and t-score to calculate similarity between words include “Haruno, Yamazaki: Bilingual Alignment Using Dictionaries and Statistics, IPSJ SIG Technical Report,
96-NL-112, pp. 23-30 (199
6) ”,“ Omori, Tsutsumi, Nakanishi: Creating a bilingual word dictionary using statistical information, Proceedings of the 2nd Annual Meeting of the Association for Language Processing,
pp. 49-52 (1996) ".

【0034】以下に、相互情報量などを本願発明に適用
するための拡張方法について説明する。単語word1
とword2の間の相互情報量(MI)は、
An extension method for applying the mutual information and the like to the present invention will be described below. Word word1
The mutual information (MI) between and word2 is

【0035】[0035]

【数1】 (Equation 1)

【0036】と定義される。ただし、全検索対象文書数
をM、word1とword2を共に含む文書数をa、
word1のみを含む文書数をb、word2のみを含
む文書数をcとした場合、
Is defined as Here, the number of documents to be searched is M, the number of documents including both word1 and word2 is a,
If the number of documents containing only word1 is b and the number of documents containing only word2 is c,

【0037】[0037]

【数2】 (Equation 2)

【0038】[0038]

【数3】 (Equation 3)

【0039】[0039]

【数4】 (Equation 4)

【0040】である。これに対して本発明では、検索式
Sと単語wordの間の相互情報量(MI0 )を、
Is as follows. On the other hand, in the present invention, the mutual information (MI 0 ) between the search expression S and the word word is calculated as

【0041】[0041]

【数5】 (Equation 5)

【0042】と定義する。ただし、全検索対象文書数を
M、wordを含みかつ検索式Sから得られる文書の数
をa0 、検索式Sから得られる文書のうちwordを含
まない文書の数をb0 、wordを含む文書のうち検索
式Sから得られる文書を除いた文書の数をc0 とした場
合、
Is defined as However, the total number of documents to be searched includes M and word, and the number of documents obtained from the search formula S includes a 0 , and the number of documents obtained from the search formula S that do not include the word includes b 0 and word. When the number of documents excluding the documents obtained from the search formula S is c 0 ,

【0043】[0043]

【数6】 (Equation 6)

【0044】[0044]

【数7】 (Equation 7)

【0045】[0045]

【数8】 (Equation 8)

【0046】である。ここで、「a0 +b0 」が図2の
説明における「第1の値」に相当し、「a0 」が「第2
の値」に相当し、「a0 +c0 」が「第3の値」に相当
する。したがって、式(5)は、
Is as follows. Here, “a 0 + b 0 ” corresponds to “first value” in the description of FIG. 2, and “a 0 ” corresponds to “second value”.
And “a 0 + c 0 ” corresponds to the “third value”. Therefore, equation (5) becomes

【0047】[0047]

【数9】 (Equation 9)

【0048】とすることにより、全検索対象文書数M、
「第1の値」、「第2の値」及び「第3の値」を変数と
する計算式となる。相互情報量と同様に単語間の類似度
を求める統計量として、Dice−coefficie
ntおよびt−scoreを挙げることができる。Di
ce−coefficient(DC)およびt−sc
ore(TS)は、
Thus, the total number of documents to be searched M,
It is a calculation formula using “first value”, “second value”, and “third value” as variables. Dice-coefficie is a statistic for calculating the similarity between words in the same manner as the mutual information.
nt and t-score can be mentioned. Di
ce-coefficient (DC) and t-sc
ore (TS)

【0049】[0049]

【数10】 (Equation 10)

【0050】[0050]

【数11】 [Equation 11]

【0051】と定義される。これらについても、相互情
報量と同様に、検索式と単語の間の類似度計算するため
に以下のような拡張を施すことが可能である。
Is defined as For these, similarly to the mutual information amount, the following extension can be applied in order to calculate the similarity between the search formula and the word.

【0052】[0052]

【数12】 (Equation 12)

【0053】[0053]

【数13】 (Equation 13)

【0054】MI0 (S,word),DC0 (S,wor
d),TS0 (S,word)のいずれも、その値が大きい
ほど検索式Sと単語wordの間に高い類似性があるこ
とを意味する。以後、MI0 (S,word)を「拡張相互
情報量」、DC0 (S,word)を「拡張DC」、TS0
(S,word)を「拡張TS」と呼ぶこととする。なお、
相互情報量と同様に、拡張DCと拡張TSとをそれぞ
れ、
MI 0 (S, word), DC 0 (S, wor
Both d) and TS 0 (S, word) mean that the greater the value, the higher the similarity between the search formula S and the word word. Thereafter, MI 0 (S, word) is “extended mutual information”, DC 0 (S, word) is “extended DC”, TS 0
(S, word) is called an “extended TS”. In addition,
Like the mutual information, the extended DC and the extended TS are respectively

【0055】[0055]

【数14】 [Equation 14]

【0056】[0056]

【数15】 (Equation 15)

【0057】と表すことができる。式(14)から分か
るように、拡張DCを求める際には、全検索対象文書数
Mは不要である。次に、本発明の関連語提示装置の実施
の形態を具体的に説明する。
Can be expressed as follows. As can be seen from Expression (14), when obtaining the extended DC, the total number M of documents to be searched is unnecessary. Next, an embodiment of the related word presentation device of the present invention will be specifically described.

【0058】図4は、本発明の実施の形態の構成を示す
ブロック図である。これは、図3に示した構成に基づい
た実施の形態である。文書格納手段31は、電子化され
た検索対象文書の内容を形態素解析手段32によって付
加される文書識別子と対にして格納する記憶装置であ
る。
FIG. 4 is a block diagram showing the configuration of the embodiment of the present invention. This is an embodiment based on the configuration shown in FIG. The document storage unit 31 is a storage device that stores the contents of the digitized search target document in pair with the document identifier added by the morphological analysis unit 32.

【0059】形態素解析手段32は、文書格納手段31
に格納されている各文書に文書識別子を付加した上で、
各文書に形態素解析処理を施して自立語(キーワードと
なるべき語)を抽出し、対応する文書識別子と対にして
格納する。
The morphological analysis means 32 includes the document storage means 31
After adding a document identifier to each document stored in
Each document is subjected to morphological analysis processing to extract independent words (words to be keywords) and store them in pairs with corresponding document identifiers.

【0060】索引構造生成手段33は、形態素解析手段
32での形態素解析処理結果を基に、索引構造として、
単語−単語識別子リスト34a、単語識別子−文書識別
子リスト34b、文書識別子−単語識別子リスト34c
を作成する。
The index structure generating means 33 generates an index structure based on the result of the morphological analysis processing by the morphological analyzing means 32.
Word-word identifier list 34a, word identifier-document identifier list 34b, document identifier-word identifier list 34c
Create

【0061】索引構造格納手段34は、索引構造生成手
段33によって作成された単語−単語識別子リスト34
a、単語識別子−文書識別子リスト34b、文書識別子
−単語識別子リスト34cを格納する記憶装置である。
The index structure storing means 34 stores the word-word identifier list 34 created by the index structure generating means 33.
a, a storage device for storing a word identifier-document identifier list 34b and a document identifier-word identifier list 34c.

【0062】単語−単語識別子リスト34aは、単語文
字列とその単語を特定するための単語識別子の対応関係
を記述したリストである。単語識別子−文書識別子リス
ト34bは、各単語識別子について、その単語識別子で
示される単語文字列を含む文書の文書識別子の集合を記
述したリストである。
The word-word identifier list 34a is a list describing the correspondence between word character strings and word identifiers for specifying the word. The word identifier-document identifier list 34b is a list that describes, for each word identifier, a set of document identifiers of documents that include the word character string indicated by the word identifier.

【0063】文書識別子−単語識別子リスト34cは、
各文書識別子について、その文書識別子で示される文書
に含まれる単語の単語識別子の集合を記述したリストで
ある。
The document identifier-word identifier list 34c is
For each document identifier, a list describing a set of word identifiers of words included in the document indicated by the document identifier.

【0064】検索条件受取手段41は、単語を論理和演
算子あるいは論理積演算子で接続することによって構成
される検索条件(検索式)の入力を、キーボードなどの
入力装置から受け付けるユーザインタフェースである。
The search condition receiving means 41 is a user interface for receiving, from an input device such as a keyboard, an input of a search condition (search expression) formed by connecting words by a logical sum operator or a logical product operator. .

【0065】文書検索手段42は、検索条件受取手段4
1に入力された検索条件に適合する全ての文書の文書識
別子を、単語−単語識別子リスト34a及び単語識別子
−文書識別子リスト34bを参照して取得し、取得した
文書識別子集合を保存する。また、関連語候補選定手段
45に対しては、保存した文書識別子集合中の識別子数
を渡す。関連語計算手段46に対しては、保存した文書
識別子集合中の識別子数を渡すと共に、関連語計算手段
46から与えられる単語識別子に対応する単語を含む文
書の総数を渡す。関連語対出現数計算手段47に対して
は、関連語対出現数計算手段47から与えられる単語識
別子対を含む文書であり、かつ、保存した文書識別子集
合に含まれる文書の総数を渡す。
The document search means 42 is a search condition receiving means 4
The document identifiers of all the documents that match the search condition input in 1 are acquired with reference to the word-word identifier list 34a and the word identifier-document identifier list 34b, and the acquired document identifier set is stored. Further, the number of identifiers in the stored document identifier set is passed to the related word candidate selecting means 45. To the related word calculating means 46, the number of identifiers in the stored document identifier set and the total number of documents including the word corresponding to the word identifier given from the related word calculating means 46 are passed. The total number of documents that include the word identifier pair given from the related word pair appearance number calculation means 47 and are included in the stored document identifier set is passed to the related word pair appearance number calculation means 47.

【0066】文書内単語検索手段43は、文書検索手段
42から得られる検索条件に適合する文書集合の各文書
に含まれる単語の識別子集合を、文書識別子−単語識別
子リスト34cを参照して取得し、それらを連接して1
つの単語識別子集合とする。
The in-document word search means 43 obtains an identifier set of words contained in each document of the document set meeting the search condition obtained from the document search means 42 with reference to the document identifier-word identifier list 34c. , Connect them and 1
One word identifier set.

【0067】単語出現数計算手段44は、文書内単語検
索手段43から得られた単語識別子集合中での各単語識
別子の出現数を計算し、単語識別子と出現数とを対にし
てリストを作成する。
The word appearance number calculation means 44 calculates the number of occurrences of each word identifier in the set of word identifiers obtained from the word search means 43 in the document, and creates a list by pairing the word identifiers and the number of occurrences. I do.

【0068】関連語候補選定手段45は、単語出現数計
算手段44から得られた各単語識別子に対応する出現数
と、文書検索手段42から得られた検索条件に適合する
文書識別子の総数とから、関連語の候補となる単語識別
子を計算する。
The related word candidate selection means 45 calculates the number of occurrences corresponding to each word identifier obtained from the word occurrence number calculation means 44 and the total number of document identifiers which meet the search conditions obtained from the document search means 42. , Calculate word identifiers that are candidates for related words.

【0069】関連語計算手段46は、関連語候補選定手
段45によって計算された関連語の候補となる各単語識
別子に対応する出現数と、文書検索手段42から得られ
た検索条件に適合する文書識別子の総数と、文書検索手
段42から得られた単語識別子に対応する単語を含む文
書数の3つの値を基に、検索条件受取手段41に入力さ
れた検索条件と関連語候補選定手段45によって計算さ
れた各関連語候補単語との間の拡張相互情報量を計算す
る。そして、予め定められた閾値よりも大きい拡張相互
情報量を持つ関連語候補単語を関連語とする。
The related word calculating means 46 calculates the number of occurrences corresponding to each word identifier which is a candidate of the related word calculated by the related word candidate selecting means 45 and the document which matches the search condition obtained from the document searching means 42. Based on three values of the total number of identifiers and the number of documents including the word corresponding to the word identifier obtained from the document search means 42, the search condition input to the search condition receiving means 41 and the related word candidate selecting means 45 The extended mutual information between each of the calculated related word candidate words is calculated. Then, a related word candidate word having an expanded mutual information amount larger than a predetermined threshold value is set as a related word.

【0070】関連語対出現数計算手段47は、関連語計
算手段46から各関連語の出現数を取得し、さらに、検
索条件受取手段41に入力された検索条件に適合する文
書集合の中で、任意の2つの関連語の対を同時に含む文
書数を、文書検索手段42から取得する。
The related word pair appearance number calculating means 47 obtains the number of occurrences of each related word from the related word calculating means 46, and further obtains a document set matching the search condition input to the search condition receiving means 41. , The number of documents containing any two related word pairs at the same time is acquired from the document search means 42.

【0071】関連語間関連度計算手段48は、関連語対
出現数計算手段47から得られる検索条件に適合する文
書集合での、各関連語の出現数と各関連語対を含む文書
数を基に、関連語間の関連度(関連性)を計算する。
The related word relevance calculating means 48 calculates the number of occurrences of each related word and the number of documents including each related word pair in a document set which meets the search condition obtained from the related word pair occurrence number calculating means 47. Based on this, the degree of relevance (relevance) between related words is calculated.

【0072】関連語表示手段49は、関連語計算手段4
6で計算された各関連語を、関連語間関連度計算手段4
8によって計算された関連語間関連度に従って出力する
ユーザインタフェースである。
The related word display means 49 is provided for the related word calculating means 4.
Each related word calculated in step 6 is converted into a related word relevance calculating means 4
8 is a user interface that outputs in accordance with the related word relevance calculated by step 8.

【0073】検索結果表示手段50は、文書検索手段4
2から得られる検索条件受取手段41に入力された検索
条件に適合する文書集合を、文書格納手段31を参照し
て出力するユーザインタフェースである。
The search result display means 50 is provided for the document search means 4
This is a user interface that outputs a document set that matches the search condition input to the search condition receiving unit 41 obtained from the document storage unit 2 with reference to the document storage unit 31.

【0074】なお、上記の各構成要素の有している機能
は、コンピュータが所定のプログラムモジュールを実行
することによって実現される機能である。そして、これ
らを実現するためのコンピュータプログラムは、半導体
メモリや磁気記録媒体などの記録媒体に記録されてい
る。ただし、文書格納手段31と索引構造格納手段34
とは、実際のHDD(ハードディスク装置)などの記憶
装置を制御することにより実現される機能である。
The functions of the above-described components are realized by a computer executing a predetermined program module. A computer program for realizing the above is recorded on a recording medium such as a semiconductor memory or a magnetic recording medium. However, the document storage means 31 and the index structure storage means 34
Is a function realized by controlling a storage device such as an actual HDD (hard disk device).

【0075】また、図4の関連語提示装置の各構成要素
は、図3の構成要素に対して次のような関係にある。文
書格納手段31及び索引構造格納手段34が文書格納手
段21に対応する。検索条件受取手段41が検索条件受
取手段22に対応する。文書検索手段42が文書検索手
段23に対応する。文書内単語検索手段43及び単語出
現数計算手段44が出現数計算手段24に対応する。関
連語候補選定手段45が関連語候補選定手段25に対応
する。関連語計算手段46が関連語計算手段26に対応
する。関連語対出現数計算手段47が関連語対出現数計
算手段27に対応する。関連語間関連度計算手段48が
関連語間関連度計算手段28に対応する。関連語表示手
段49が関連語表示手段29に対応する。
Each component of the related word presentation device of FIG. 4 has the following relationship with the component of FIG. The document storage means 31 and the index structure storage means 34 correspond to the document storage means 21. The search condition receiving means 41 corresponds to the search condition receiving means 22. The document search means 42 corresponds to the document search means 23. The in-document word search means 43 and the word appearance number calculation means 44 correspond to the appearance number calculation means 24. The related word candidate selecting means 45 corresponds to the related word candidate selecting means 25. The related word calculating means 46 corresponds to the related word calculating means 26. The related word pair appearance number calculation means 47 corresponds to the related word pair appearance number calculation means 27. The related word relevance calculating means 48 corresponds to the related word relevance calculating means 28. The related word display means 49 corresponds to the related word display means 29.

【0076】ここで、本実施の形態では関連文書検索を
行う前に、予め索引構造の生成処理を実行しておく必要
がある。そこで、まず索引構造の生成処理について説明
する。
Here, in this embodiment, it is necessary to execute an index structure generating process before searching for a related document. Therefore, first, a process of generating an index structure will be described.

【0077】索引構造の生成処理の前提として、形態素
解析結果リストが生成されていなければならない。図5
は、形態素解析手段32に格納される形態素解析結果リ
スト32aの例を示す図である。形態素解析手段32
は、文書格納手段31に格納されている各検索対象文書
に識別子を割当てた上で、それぞれの文書に形態素解析
処理を施して自立語を抽出し、対応する文書識別子と対
にして格納する。ただし、同一文書中から同一の自立語
が複数回抽出された場合は、2回目以降の抽出結果を無
視し、一つの文書識別子に対応する自立語が重複するこ
とはないものとする。
As a precondition for the index structure generation processing, a morphological analysis result list must be generated. FIG.
FIG. 4 is a diagram showing an example of a morphological analysis result list 32a stored in the morphological analysis means 32. Morphological analysis means 32
Assigns an identifier to each document to be searched stored in the document storage means 31, performs morphological analysis processing on each document, extracts an independent word, and stores the independent word as a pair with the corresponding document identifier. However, when the same independent word is extracted a plurality of times from the same document, the second and subsequent extraction results are ignored, and the independent word corresponding to one document identifier does not overlap.

【0078】この形態素解析結果リスト32aを基に、
索引構造生成手段33が各種索引構造を生成する。図6
〜図8に索引構造生成手段33により作成され、索引構
造格納手段34に格納される索引構造の例を示す。なお
図6〜図8中のデータは、図5のデータに基づいて作成
された例となっている。
Based on the morphological analysis result list 32a,
The index structure generating means 33 generates various index structures. FIG.
8 to 8 show examples of index structures created by the index structure generating means 33 and stored in the index structure storing means 34. FIG. Note that the data in FIGS. 6 to 8 is an example created based on the data in FIG.

【0079】図6は、単語−単語識別子リストの例を示
す図である。単語−単語識別子リスト34aには、抽出
された単語と、その単語に割り当てられた識別子とが組
となって格納されている。
FIG. 6 is a diagram showing an example of a word-word identifier list. The word-word identifier list 34a stores a pair of the extracted word and the identifier assigned to the word.

【0080】図7は、単語識別子−文書識別子リストの
例を示す図である。単語識別子−文書識別子リスト34
bには、単語識別子と、その単語識別子が割り当てられ
ている単語を含む文書の識別子(文書識別子)が組とな
って格納されている。
FIG. 7 is a diagram showing an example of a word identifier-document identifier list. Word identifier-document identifier list 34
In b, a word identifier and an identifier (document identifier) of a document including the word to which the word identifier is assigned are stored as a set.

【0081】図8は、文書識別子−単語識別子リストの
例を示す図である。文書識別子−単語識別子リスト34
cには、文書識別子と、その文書識別子が割り当てられ
ている文書に含まれる単語の単語識別子とが組となって
格納されている。
FIG. 8 is a diagram showing an example of a document identifier-word identifier list. Document identifier-word identifier list 34
In c, a document identifier and a word identifier of a word included in the document to which the document identifier is assigned are stored as a set.

【0082】索引構造生成手段33による索引構造の生
成アルゴリズムは以下の通りである。図9は、索引構造
の生成アルゴリズムを示すフローチャートである。 [S1]単語−単語識別子リスト34aの生成処理 形態素解析手段32に格納されている形態素解析結果リ
スト中の全単語を、重複なく、かつ、単語文字列の持つ
値の順にソートしたリストを作成する。各単語に対し
て、リストの先頭から順に1で始まる自然数を単語識別
子として割当てる。 [S2]文書識別子−単語識別子リスト34cの生成処
理 形態素解析手段32に格納されている形態素解析結果リ
スト中の各単語をステップS1で割当てた単語識別子で
置き換え、各文書識別子ごとに対応する単語識別子を小
さい値順にソートする。 [S3]単語識別子−文書識別子リスト34bの生成処
理 単語識別子を1から順に並べ、各単語識別子に対応する
単語が含まれる文書の文書識別子を、ステップS2で作
成した文書識別子−単語識別子リスト34cを参照して
抽出し、単語識別子と対にして格納する。
The algorithm for generating the index structure by the index structure generating means 33 is as follows. FIG. 9 is a flowchart showing an algorithm for generating an index structure. [S1] Generation of Word-Word Identifier List 34a A list is created in which all words in the morphological analysis result list stored in the morphological analysis unit 32 are sorted without duplication and in the order of the values of the word character strings. . For each word, a natural number starting with 1 from the top of the list is assigned as a word identifier. [S2] Generation processing of the document identifier-word identifier list 34c Each word in the morphological analysis result list stored in the morphological analysis unit 32 is replaced with the word identifier assigned in step S1, and a corresponding word identifier for each document identifier Are sorted in ascending order. [S3] Generation process of the word identifier-document identifier list 34b The word identifiers are arranged in order from 1, and the document identifier of the document including the word corresponding to each word identifier is determined by the document identifier-word identifier list 34c created in step S2. It extracts by reference, and stores it as a pair with a word identifier.

【0083】以上のアルゴリズムにより、索引構造が生
成される。索引構造の生成処理が行われた後、検索条件
受取手段41は検索式の入力が可能となる。そして、利
用者がキーボードなどの入力装置を用いて所望の検索式
を入力し、検索開始の指令を行うと、関連語の提示処理
が開始される。
An index structure is generated by the above algorithm. After the generation of the index structure is performed, the search condition receiving means 41 can input a search formula. Then, when the user inputs a desired search formula using an input device such as a keyboard and issues a search start instruction, the related word presentation process is started.

【0084】図10、図11に、検索条件受取手段41
に入力された検索式から関連文書を求めるためのアルゴ
リズムを示す。図10は、本発明の処理手順を示すフロ
ーチャートの前半であり、図11は、本発明の処理手順
を示すフローチャートの後半である。以下、図10、図
11の各ステップについて説明する。なお、以下の説明
において、単語−単語識別子リスト34aをL1、単語
識別子−文書識別子リスト34bをL2、文書識別子−
単語識別子リスト34cをL3と記述する。 [S11]検索条件受取手段41が、単語を論理積演算
子あるいは論理和演算子で結合した検索式を受け取る。
この検索式をSと呼ぶことにする。 [S12]文書検索手段42が、Sに適合する文書の文
書識別子を、L1およびL2を参照して取得する。得ら
れた文書識別子集合をXと呼び、集合Xの要素数をNと
する。 [S13]ステップS12においてN=0であればステ
ップS14へ進み、そうでなければステップS15へ進
む。 [S14]関連語表示手段49が、Sの関連文書がない
旨の表示を行い、終了する。 [S15]文書内単語検索手段43が、Xに属する各文
書識別子に対応する全ての単語識別子を、L3を参照し
て取得する。取得した単語識別子の集合をYとする。 [S16]単語出現数計算手段44が、Yに属する単語
識別子の重複を取り除き、各単語識別子の重複回数を記
録する。重複の取り除かれた単語識別子集合を新たにY
とし、Yの要素Wn(n=1,2,・・・,P)の重複
回数をR(Wn)とする。ただし、PはYの要素数とす
る。 [S17]関連語候補選定手段45が、G1(N)≦R
(Wn)≦G2(N)を満たさないWnをYの要素から
取り除き、得られた集合を新たにYとし、Yの要素Wn
(n=1,2,・・,P)の重複回数をR(Wn)とす
る。ただし、Pを新たにYの要素数とする。ここで、G
1(x)はxについての増加(階段)関数、G2(x)
はxについての減少(階段)関数である。
FIGS. 10 and 11 show search condition receiving means 41.
2 shows an algorithm for obtaining a related document from the search formula input in FIG. FIG. 10 is the first half of a flowchart showing the processing procedure of the present invention, and FIG. 11 is the second half of the flowchart showing the processing procedure of the present invention. Hereinafter, each step of FIGS. 10 and 11 will be described. In the following description, the word-word identifier list 34a is L1, the word identifier-document identifier list 34b is L2, and the document identifier-
The word identifier list 34c is described as L3. [S11] The search condition receiving means 41 receives a search expression in which words are combined by a logical AND operator or a logical OR operator.
This search formula is called S. [S12] The document search means 42 acquires the document identifier of the document conforming to S with reference to L1 and L2. The obtained document identifier set is called X, and the number of elements of the set X is N. [S13] If N = 0 in step S12, the process proceeds to step S14; otherwise, the process proceeds to step S15. [S14] The related word display means 49 displays that there is no related document of S, and ends. [S15] The intra-document word search means 43 acquires all word identifiers corresponding to each document identifier belonging to X with reference to L3. A set of acquired word identifiers is Y. [S16] The word appearance number calculation means 44 removes duplication of word identifiers belonging to Y and records the number of duplications of each word identifier. A new word identifier set with duplicates removed
, And the number of duplications of the element Wn of Y (n = 1, 2,..., P) is R (Wn). Here, P is the number of elements of Y. [S17] The related word candidate selection unit 45 determines that G1 (N) ≦ R
Wn that does not satisfy (Wn) ≦ G2 (N) is removed from the elements of Y, and the obtained set is newly defined as Y, and the element Wn of Y
The number of duplications of (n = 1, 2,..., P) is R (Wn). Here, P is newly set as the number of elements of Y. Where G
1 (x) is an increasing (step) function for x, G2 (x)
Is the decreasing (step) function for x.

【0085】例えば、G1(x)とG2(x)とを以下
のような関数とすることができる。
For example, G1 (x) and G2 (x) can be functions as follows.

【0086】[0086]

【数16】G1(x)=[(20×n−19≦x≦20
×n)を満たす自然数n]
G1 (x) = [(20 × n−19 ≦ x ≦ 20)
× n), a natural number satisfying n)

【0087】[0087]

【数17】 [Equation 17]

【0088】[S18]文書検索手段42が、Yに属す
る全単語識別子Wn(n=1,2,・・・,P)に関し
て、Wnに対応する文書識別子の総数をL2から取得す
る。そして、Yの要素Wnに対応する文書識別子数をF
(Wn)とする。 [S19]関連語計算手段46が、Yに属する単語識別
子Wn(n=1,2,・・・,P)について、全検索対
象文書数をMとして、
[S18] The document search means 42 acquires the total number of document identifiers corresponding to Wn for all word identifiers Wn (n = 1, 2,..., P) belonging to Y from L2. Then, the number of document identifiers corresponding to the element Wn of Y is
(Wn). [S19] The related word calculation unit 46 sets the number of all search target documents to M for the word identifier Wn (n = 1, 2,..., P) belonging to Y,

【0089】[0089]

【数18】 (Equation 18)

【0090】[0090]

【数19】 prob(Wn)=F(Wn)/M・・・・(19) を計算し、これらの値をWnと組にしてリストとする。
また、
[Mathematical formula-see original document] prob (Wn) = F (Wn) / M (19) is calculated, and these values are combined with Wn to form a list.
Also,

【0091】[0091]

【数20】prob(S)=N/M・・・・(20) を計算する。 [S20]関連語計算手段46が、Yに属する各単語識
別子Wn(n=1,2,・・・,P)について、式
(5)に従って、拡張相互情報量MI0 (S,Wn)を
計算する。 [S21]予め設定された閾値Tに関して、T≦MI0
(S,Wn)を満たすWn(n=1,2,3・・・,
P)が存在すればステップS22へ、存在しなければス
テップS23へ進む。 [S22]関連語表示手段49が、T≦MI0 (S,W
n)を満たすWn(n=1,2,3・・・,P)に対応
する単語をMI0 (S,Wn)の値が大きいものから順
にSの関連語として出力し、終了する。 [S23]関連語表示手段49が、Sの関連文書がない
旨の表示を行い、終了する。
Calculate prob (S) = N / M (20) [S20] The related word calculating means 46 calculates the extended mutual information MI 0 (S, Wn) for each of the word identifiers Wn (n = 1, 2,..., P) belonging to Y in accordance with equation (5). calculate. [S21] With respect to a preset threshold T, T ≦ MI 0
Wn satisfying (S, Wn) (n = 1, 2, 3,...,
If P) exists, the process proceeds to step S22; otherwise, the process proceeds to step S23. [S22] The related word display means 49 determines that T ≦ MI 0 (S, W
n), the words corresponding to Wn (n = 1, 2, 3,..., P) are output as related words of S in ascending order of the value of MI 0 (S, Wn), and the process ends. [S23] The related word display means 49 displays that there is no related document of S, and ends.

【0092】以上の処理により、検索式から関連語を得
ることが可能となる。しかも、ステップS17によっ
て、検索式Sに適合する文書(検索結果)が多い場合に
は、検索結果中で出現数の多い単語を基に関連語計算を
行うことになり、検索結果を徐々に絞り込む際に有効な
関連語の提示が可能となる。なお、極端に出現数が多い
単語はありふれた単語であるため関連語として提示する
には不適切であるとして除外されている。ステップS1
7の式の中のG2は、このような極端に出現数の高い単
語を取り除くための関数である。
With the above processing, it is possible to obtain a related word from the retrieval formula. In addition, in step S17, if there are many documents (search results) that match the search formula S, the related words are calculated based on words having a large number of occurrences in the search results, and the search results are gradually narrowed down. In this case, it is possible to present effective related words. It should be noted that a word having an extremely large number of appearances is a common word and is excluded as inappropriate for presentation as a related word. Step S1
G2 in the equation (7) is a function for removing such an extremely high-frequency word.

【0093】また、検索結果が少ない場合には、出現数
の少ない単語を含めて関連語の計算を行うことにより、
検索漏れを軽減することを目的として検索式に論理和接
続するための関連語を、より広い範囲で提示することが
可能となる。
When the number of search results is small, related words are calculated by including words having a small number of occurrences.
It is possible to present, in a wider range, related words for performing a logical sum connection with a search expression for the purpose of reducing search omission.

【0094】関連語対出現数計算手段47及び関連語間
関連度計算手段48による関連語間関連度(関連語間の
関係)を求めるアルゴリズムは以下の通りである。図1
2は、関連語間関連度の算出手順を示すフローチャート
である。 [S31]上記のステップS11〜S23までの処理に
より得られたSの関連語集合をZとし、Zの要素をVm
(m=,2,3・・・ Q)とする。ただし、QはZの要素
数とする。 [S32]関連語対出現数計算手段47が、任意の2つ
の関連語の対(Vm1,Vm2)(m1=1,2,…,
Q,m2=1,2,…,Q,m1≠m2)に関して、V
m1とVm2を同時に含む文書であり、かつステップS
12で得られたXに対応する文書集合に属する文書の総
数(=R2(Vm1,Vm2))を取得する。 [S33]関連語間関連度計算手段48が、Vm(m=
1,2,…,Q)に関して、upper(Vm),lo
wer(Vm),equivalent(Vm),si
milar(Vm)を求める。ここで、upper(V
m),lower(Vm),equivalent(V
m),similar(Vm)はそれぞれ以下の条件を
満たすVn(n=1,2,…,Q)を要素とするZの部
分集合である。 upper(Vm):Tu1≦R(Vn)/R(V
m),Tu2≦R2(Vm,Vn)/R(Vm) lower(Vm):Tl1≦R(Vm)/R(V
n),Tl2≦R2(Vm,Vn)/R(Vm) equivalent(Vm):Tr1≦R(Vn)/
R(Vm)≦Tr2,R2(Vm,Vn)/R(Vm)
≦Tr3 similar(Vm):Ts1≦R(Vn)/R(V
m)≦Ts2,Ts3≦R2(Vm,Vn)/R(V
m) ただし、Tu1,Tu2(≦1),Tl1,Tl2(≦
1),Tr1,Tr2(≧Tr1),Tr3,Ts1,
Ts2(≧Ts1),Ts3は予め設定された定数であ
る。
The algorithm for calculating the related word relevance (relation between related words) by the related word pair appearance number calculating means 47 and the related word relevance calculating means 48 is as follows. FIG.
2 is a flowchart showing a procedure for calculating the degree of association between related words. [S31] Let Z be the related word set of S obtained by the above processing of steps S11 to S23, and let V be the element of Z
(M =, 2, 3,... Q). Here, Q is the number of elements of Z. [S32] The related word pair appearance number calculating means 47 calculates an arbitrary two related word pairs (Vm1, Vm2) (m1 = 1, 2,...,
Q, m2 = 1, 2,..., Q, m1 ≠ m2),
a document containing both m1 and Vm2 at the same time and step S
Then, the total number of documents (= R2 (Vm1, Vm2)) belonging to the document set corresponding to X obtained in step 12 is acquired. [S33] The related word relevance calculating means 48 calculates Vm (m = m
1, 2,..., Q), upper (Vm), lo
lower (Vm), equivalent (Vm), si
Calculate milar (Vm). Here, upper (V
m), lower (Vm), equivalent (V
m) and similar (Vm) are subsets of Z whose elements are Vn (n = 1, 2,..., Q) satisfying the following conditions. upper (Vm): Tu1 ≦ R (Vn) / R (V
m), Tu2 ≦ R2 (Vm, Vn) / R (Vm) lower (Vm): T11 ≦ R (Vm) / R (V
n), Tl2 ≦ R2 (Vm, Vn) / R (Vm) equivalent (Vm): Tr1 ≦ R (Vn) /
R (Vm) ≦ Tr2, R2 (Vm, Vn) / R (Vm)
≦ Tr3 similar (Vm): Ts1 ≦ R (Vn) / R (V
m) ≦ Ts2, Ts3 ≦ R2 (Vm, Vn) / R (V
m) where Tu1, Tu2 (≦ 1), T11, T12 (≦
1), Tr1, Tr2 (≧ Tr1), Tr3, Ts1,
Ts2 (≧ Ts1) and Ts3 are preset constants.

【0095】例えば、以下のような定数を設定する。 Tu1=Tl1=4 Tu2=Tl2=Tr1=Ts1=Ts3=0.9 Tr2=Ts2=1.1 Tr3=0.1 上記の各式は、次のような意味を持っている。For example, the following constants are set. Tu1 = Tl1 = 4 Tu2 = Tl2 = Tr1 = Ts1 = Ts3 = 0.9 Tr2 = Ts2 = 1.1 Tr3 = 0.1 The above expressions have the following meanings.

【0096】upper(Vm)は、Vmを含む文書よ
りも多量の文書に含まれており、且つ、Vmを含む文書
のほとんどに含まれた関連語である。lower(V
m)は、Vmを含む文書よりも少量の文書にしか含まれ
ておらず、且つ、その関連語を含む文書のほとんどにV
mも含まれているような関連語である。
The upper (Vm) is included in a larger number of documents than the document containing Vm, and is a related word contained in most of the documents containing Vm. lower (V
m) is included in only a smaller number of documents than the document containing Vm, and V
It is a related word that also includes m.

【0097】equivalent(Vm)は、Vmと
同程度の数の文書に含まれており、且つ、Vmと同じ文
書に含まれることはほとんど無いような関連語である。
similar(Vm)は、Vmと同程度の数の文書に
含まれており、且つ、Vmを含む文書のほとんどに含ま
れている関連語である。
Equivalent (Vm) is a related word that is included in the same number of documents as Vm and hardly included in the same document as Vm.
Similar (Vm) is a related word that is included in the same number of documents as Vm and is included in almost all documents including Vm.

【0098】図13は、関連語VnとVmとの関係を概
念的に示す図である。なお、各文書集合は、全て検索式
Sに適合する文書集合Xに含まれている。(A)は、e
quivalent(Vm)に含まれる関連語Vnを含
む文書集合61と、関連語Vmを含む文書集合71との
関係を示している。この図のように、関連語Vnを含む
文書集合61と関連語Vmを含む文書集合71とは、ほ
とんど同じ量の文書を有している。そして、両方の文書
集合に含まれる文書の数は、微量である(若しくは全く
ない)。
FIG. 13 is a diagram conceptually showing the relationship between related words Vn and Vm. Note that each document set is all included in a document set X that meets the search formula S. (A) is e
The relationship between the document set 61 including the related word Vn included in the qualient (Vm) and the document set 71 including the related word Vm is shown. As shown in this figure, the document set 61 including the related word Vn and the document set 71 including the related word Vm have almost the same amount of documents. The number of documents included in both document sets is very small (or not at all).

【0099】(B)は、similar(Vm)に含ま
れる関連語Vnを含む文書集合62と、関連語Vmを含
む文書集合72との関係を示している。この図のよう
に、関連語Vnを含む文書集合62と関連語Vmを含む
文書集合72とは、ほとんど同じ量の文書を有してい
る。そして、一方の関連語を含む文書のほとんどが他方
の関連語を含んでいる。
(B) shows the relationship between a document set 62 containing related words Vn included in similar (Vm) and a document set 72 containing related words Vm. As shown in this figure, the document set 62 including the related word Vn and the document set 72 including the related word Vm have almost the same amount of documents. Most of the documents containing one related word include the other related word.

【0100】(C)は、upper(Vm)に含まれる
関連語Vnを含む文書集合63と、関連語Vmを含む文
書集合73との関係を示している。この図のように、関
連語Vmを含む文書集合73のほとんどが、関連語Vn
を含む文書集合63にも含まれている。しかも、関連語
Vnを含む文書集合63の方が、多量の文書を有してい
る。
(C) shows the relationship between the document set 63 including the related word Vn included in the upper (Vm) and the document set 73 including the related word Vm. As shown in this figure, most of the document set 73 including the related word Vm is associated with the related word Vn.
Are included in the document set 63 including In addition, the document set 63 including the related word Vn has a larger number of documents.

【0101】(D)は、lower(Vm)に含まれる
関連語Vnを含む文書集合64と、関連語Vmを含む文
書集合74との関係を示している。この図のように、関
連語Vnを含む文書集合64のほとんどが、関連語Vm
を含む文書集合74にも含まれている。しかも、関連語
Vnを含む文書集合74の方が、多量の文書を有してい
る。
(D) shows the relationship between the document set 64 including the related word Vn included in the lower (Vm) and the document set 74 including the related word Vm. As shown in this figure, most of the document set 64 including the related word Vn is associated with the related word Vm.
Is included in the document set 74 including Moreover, the document set 74 including the related word Vn has a larger number of documents.

【0102】これらの関係を関連語と共にユーザに提示
すれば、検索結果が多い場合に絞り込みを行うための関
連語を、ユーザがより適切に選択できる。。次に、上記
のように分類された関連語をユーザに提示する場合のユ
ーザインタフェースについて説明する。
If these relationships are presented to the user together with related words, the user can more appropriately select related words for narrowing down when there are many search results. . Next, a user interface in a case where the related words classified as described above are presented to the user will be described.

【0103】図14は、関連語検索画面を示す図であ
る。この関連語検索画面80は、3つのサブウィンドウ
81〜83に分かれている。サブウィンドウ81は、検
索式入力用のウィンドウであり、テキスト入力フィール
ド81aと、検索ボタン81bとが設けられている。ユ
ーザは、キーボードなどの入力装置を用いて、テキスト
入力フィールド81aに検索式を入力し、検索ボタン8
1bを押下することにより、検索指令を入力できる。こ
のサブウィンドウ81によって検索条件受取手段41に
対応する機能が提供される。
FIG. 14 is a diagram showing a related word search screen. The related word search screen 80 is divided into three sub-windows 81 to 83. The subwindow 81 is a window for inputting a search expression, and is provided with a text input field 81a and a search button 81b. The user inputs a search expression into the text input field 81a using an input device such as a keyboard,
By pressing 1b, a search command can be input. The sub window 81 provides a function corresponding to the search condition receiving means 41.

【0104】サブウィンドウ82には、関連語表示フィ
ールド82aと関連語関係表示フィールド82bとが設
けられている。関連語表示フィールド82aには、テキ
スト入力フィールド81aに入力された検索式に関連す
る関連語が表示される。関連語関係表示フィールド82
bには、関連語表示フィールド82a内の選択された関
連語に対して、所定の関係を有する関連語が表示され
る。
The sub window 82 has a related word display field 82a and a related word relation display field 82b. In the related word display field 82a, related words related to the search formula input in the text input field 81a are displayed. Related word relation display field 82
In b, a related word having a predetermined relationship with the selected related word in the related word display field 82a is displayed.

【0105】サブウィンドウ83は、検索結果表示用の
ウィンドウである。このサブウィンドウ83には、テキ
スト入力フィールド81aに入力された検索式に適合す
る文書情報が表示される。
The sub window 83 is a window for displaying a search result. In this sub-window 83, document information matching the search formula entered in the text input field 81a is displayed.

【0106】このようなユーザインターフェースによ
り、文書の検索を行うユーザは、まずキーボードなどの
入力装置を用いて、テキスト入力フィールド81aに検
索式を入力し、検索ボタン81bを押下する。すると、
検索条件受取手段41によって、検索式が関連文書検索
装置で受け取られる。すると、ステップS11〜S23
の処理が実行される。その処理の結果得られた関連語
が、サブウィンドウ82中の関連語表示フィールド82
aに表示される。また、サブウィンドウ83には、ステ
ップS12で得られた文書識別子集合Xに対応する文書
集合の文書情報が表示される。
A user who searches for a document using such a user interface first inputs a search expression into the text input field 81a using an input device such as a keyboard, and presses a search button 81b. Then
The search formula is received by the related document search device by the search condition receiving means 41. Then, steps S11 to S23
Is performed. The related word obtained as a result of the processing is displayed in the related word display field 82 in the sub window 82.
a. Further, in the sub-window 83, the document information of the document set corresponding to the document identifier set X obtained in step S12 is displayed.

【0107】関連語フィールド82aに表示された関連
語の1つを選択することにより、ステップS21〜S2
3の処理が行われる。その結果、指定された関連語のu
pper(Vm),lower(Vm),equiva
lent(Vm),similar(Vm)に属する関
連語が得られる。これらの関連語は、関連語関係表示フ
ィールド82bに表示される。
By selecting one of the related words displayed in the related word field 82a, steps S21 to S2 are performed.
Step 3 is performed. As a result, the specified related word u
upper (Vm), lower (Vm), equiva
Related words belonging to lent (Vm) and similar (Vm) are obtained. These related words are displayed in the related word relation display field 82b.

【0108】図15は、「飛行機」を検索式として入力
した場合の表示例を示す図である。テキスト入力フィー
ルド81aには、入力された検索式「飛行機」が表示さ
れている。関連語表示フィールド82aには、「飛行
機」から得られた関連語が表示されている。サブウィン
ドウ83には、「飛行機」を含む文書の文書情報が表示
されている。
FIG. 15 is a diagram showing a display example when "airplane" is input as a search formula. In the text input field 81a, the input search expression "airplane" is displayed. In the related word display field 82a, related words obtained from "airplane" are displayed. In the sub-window 83, document information of a document including "airplane" is displayed.

【0109】この例では、検索結果が多いため、ステッ
プS17の処理によって検索結果中の出現数が高い単語
を関連語の候補として関連語計算が行われる。したがっ
て、表示された関連語を用いて絞り込みを行った場合
(元の検索式に論理積演算子で接続した場合)でも、過
度の絞り込みとはならず、検索漏れの極端な増大を防止
できる。
In this example, since there are many search results, the related word calculation is performed by the process of step S17 with the words having a high number of appearances in the search results as related word candidates. Therefore, even when the search is performed using the displayed related words (when the search is connected to the original search expression using a logical product operator), the search is not performed excessively, and an excessive increase in search omission can be prevented.

【0110】図16は、関連語「主翼」を指定した場合
の表示例を示す図である。ユーザが、関連語表示フィー
ルド82aの中の「主翼」をマウスカーソルで指定する
と、関連語関係表示フィールド82bには、「主翼」と
の間に所定の関係(upper,lower,equi
valent,similar)を有する関連語が表示
される。ユーザは、これらの関係を参照しながら、絞り
込みを行うための検索式を作成する。これにより、適切
な検索式を作成できる。
FIG. 16 is a diagram showing a display example when the related word “main wing” is specified. When the user designates “main wing” in the related word display field 82a with a mouse cursor, a related relation (upper, lower, equi) with “main wing” is displayed in the related word relation display field 82b.
related words having the value (valent, similar) are displayed. The user creates a search formula for narrowing down while referring to these relationships. Thereby, an appropriate search formula can be created.

【0111】図17は、「(戦闘機andコックピット
andミサイル)」を検索式として入力した場合の表示
例を示す図である。テキスト入力フィールド81aに
は、入力された検索式「(戦闘機andコックピットa
ndミサイル)」が表示されている。関連語表示フィー
ルド82aには、「(戦闘機andコックピットand
ミサイル)」から得られた関連語が表示されている。サ
ブウィンドウ83には、「戦闘機」、「コックピッ
ト」、「ミサイル」の全てを含む文書の文書情報が表示
されている。
FIG. 17 is a diagram showing a display example when "(fighter and cockpit and missile)" is input as a search expression. In the text input field 81a, the entered search expression "(fighter and cockpit a
nd missile) "is displayed. In the related term display field 82a, "(fighter and cockpit and
Missile) "is displayed. The sub window 83 displays document information of a document including all of “fighters”, “cockpits”, and “missiles”.

【0112】この場合、検索結果が少ないため、ステッ
プS17の処理によって、検索結果中の出現頻度が少な
い単語も含めて関連語計算が行われる。したがって、詳
細な関連語が表示されることになり、ユーザが必要と思
われる関連語を検索式に追加(論理和演算子で接続)す
ることによって、ノイズ(検索目的に合致しない文書)
の少ない検索結果を得ることが可能となる。
In this case, since the search result is small, the related word calculation is performed by the processing in step S17 including the word having a low appearance frequency in the search result. Therefore, detailed related words are displayed, and noise (a document that does not match the purpose of the search) can be generated by adding related words that the user thinks necessary to the search expression (connecting with a logical sum operator).
It is possible to obtain a search result with less number.

【0113】[0113]

【発明の効果】以上説明したように本発明の関連語提示
装置では、文書検索手段が取得した文書集合の文書数
と、出現数計算手段から得られた各関連語の出現数とを
変数とする計算式を用いて、表示すべき関連語を選択す
るようにしたため、検索条件に適合する文書の多少や、
関連語の出現頻度に応じて表示される関連語を変えるこ
とができる。そのため、検索結果の絞り込みに有効な関
連語を選択的に提示することが可能となり、ユーザは、
検索漏れの軽減と検索結果の絞り込みの両目的を効果的
に達成できる。
As described above, in the related word presentation device of the present invention, the number of documents in the document set obtained by the document search means and the number of appearances of each related word obtained from the number of appearance calculation means are used as variables. Because the related words to be displayed are selected by using the calculation formula, some documents that match the search conditions,
The displayed related word can be changed according to the appearance frequency of the related word. As a result, it is possible to selectively present relevant terms that are effective in narrowing down search results,
Both objectives of reducing search omissions and narrowing search results can be effectively achieved.

【0114】また、本発明の関連語提示用プログラムを
記録した媒体は、記録された関連語提示用プログラムを
コンピュータで実行することにより、そのコンピュータ
は、文書検索手段が取得した文書集合の文書数と、出現
数計算手段から得られた各関連語の出現数とを変数とす
る計算式を用いて、関連語を選択的に表示できるように
なる。その結果、検索結果の絞り込みに有効な関連語の
提示を、コンピュータに行わせることが可能となる。
Further, the medium storing the related-word presenting program of the present invention executes the recorded related-word presenting program on a computer. The related words can be selectively displayed by using a calculation formula that uses, as variables, the number of occurrences of each related word obtained from the appearance number calculation means. As a result, it is possible to cause the computer to present relevant words effective for narrowing down the search results.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の原理構成図である。FIG. 1 is a first principle configuration diagram of the present invention.

【図2】本発明の第2の原理構成図である。FIG. 2 is a second principle configuration diagram of the present invention.

【図3】本発明の第3の原理構成図である。FIG. 3 is a third principle configuration diagram of the present invention.

【図4】本発明の実施の形態の構成を示すブロック図で
ある。
FIG. 4 is a block diagram showing a configuration of an embodiment of the present invention.

【図5】形態素解析手段に格納される形態素解析結果リ
ストの例を示す図である。
FIG. 5 is a diagram showing an example of a morphological analysis result list stored in a morphological analysis unit.

【図6】単語−単語識別子リストの例を示す図である。FIG. 6 is a diagram showing an example of a word-word identifier list.

【図7】単語識別子−文書識別子リストの例を示す図で
ある。
FIG. 7 is a diagram illustrating an example of a word identifier-document identifier list.

【図8】文書識別子−単語識別子リストの例を示す図で
ある。
FIG. 8 is a diagram illustrating an example of a document identifier-word identifier list.

【図9】索引構造の生成アルゴリズムを示すフローチャ
ートである。
FIG. 9 is a flowchart illustrating an algorithm for generating an index structure.

【図10】本発明の処理手順を示すフローチャートの前
半であり
FIG. 10 is the first half of a flowchart showing the processing procedure of the present invention.

【図11】本発明の処理手順を示すフローチャートの後
半である。
FIG. 11 is the second half of a flowchart showing the processing procedure of the present invention.

【図12】関連語間関連度の算出手順を示すフローチャ
ートである。
FIG. 12 is a flowchart showing a procedure for calculating the degree of association between related words.

【図13】関連語VnとVmとの関係を概念的に示す図
である。(A)はequivalent(Vm)に含ま
れる関連語Vnを含む文書集合と関連語Vmを含む文書
集合との関係を示している。(B)はsimilar
(Vm)に含まれる関連語Vnを含む文書集合と関連語
Vmを含む文書集合との関係を示している。(C)はu
pper(Vm)に含まれる関連語Vnを含む文書集合
と関連語Vmを含む文書集合との関係を示している。
(D)はlower(Vm)に含まれる関連語Vnを含
む文書集合と関連語Vmを含む文書集合との関係を示し
ている。
FIG. 13 is a diagram conceptually showing a relationship between related words Vn and Vm. (A) shows a relationship between a document set including the related word Vn included in the equivalent (Vm) and a document set including the related word Vm. (B) is similar
The relationship between the document set including the related word Vn included in (Vm) and the document set including the related word Vm is shown. (C) is u
The relationship between the document set including the related word Vn and the document set including the related word Vm included in the pupper (Vm) is shown.
(D) shows a relationship between a document set including the related word Vn included in lower (Vm) and a document set including the related word Vm.

【図14】関連語検索画面を示す図である。FIG. 14 is a diagram showing a related word search screen.

【図15】「飛行機」を検索式として入力した場合の表
示例を示す図である。
FIG. 15 is a diagram illustrating a display example when “airplane” is input as a search expression.

【図16】関連語「主翼」を指定した場合の表示例を示
す図である。
FIG. 16 is a diagram illustrating a display example when a related term “main wing” is designated.

【図17】「(戦闘機andコックピットandミサイ
ル)」を検索式として入力した場合の表示例を示す図で
ある。
FIG. 17 is a diagram showing a display example when “(fighter and cockpit and missile)” is input as a search expression.

【符号の説明】[Explanation of symbols]

1 文書格納手段 2 検索条件受取手段 3 文書検索手段 4 関連語計算手段 5 出現数計算手段 6 関連語選定手段 7 関連語表示手段 1 Document storage means 2 Search condition receiving means 3 Document search means 4 Related word calculation means 5 Appearance count calculation means 6 Related word selection means 7 Related word display means

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 検索条件に関連する単語を提示する関連
語提示装置において、 複数の文書を格納する文書格納手段と、 入力された検索条件を受け取る検索条件受取手段と、 前記検索条件受取手段が受け取った検索条件に適合する
文書集合を前記文書格納手段から取得する文書検索手段
と、 前記検索条件受取手段が受け取った検索条件に関連性の
高い単語を関連語として、関連語集合を取得する関連語
計算手段と、 前記文書検索手段から得られた文書集合の中で、前記関
連語計算手段が取得した関連語集合中の各関連語を含ん
でいる文書の数である出現数を、関連語ごとに計算する
出現数計算手段と、 前記文書検索手段が取得した文書集合の文書数と、前記
出現数計算手段から得られた各関連語の出現数とを変数
とする計算式を用いて、表示すべき関連語を選択する関
連語選定手段と、 前記関連語選定手段が選択した関連語を表示装置に表示
する関連語表示手段と、 を有することを特徴とする関連語提示装置。
1. A related word presentation device for presenting a word related to a search condition, comprising: a document storage unit for storing a plurality of documents; a search condition receiving unit for receiving input search conditions; A document search unit that obtains a document set that meets the received search condition from the document storage unit; and a related word set that obtains a related word set using words highly relevant to the search condition received by the search condition reception unit as related words. Word calculation means, in a document set obtained from the document search means, the number of occurrences which is the number of documents containing each related word in the related word set obtained by the related word calculation means, Number of occurrences calculating means to calculate for each, the number of documents of the document set obtained by the document search means, using a calculation formula with the number of occurrences of each related word obtained from the number of occurrences calculation means as a variable, display A related word presentation device, comprising: related word selection means for selecting a related word to be used; and related word display means for displaying the related word selected by the related word selection means on a display device.
【請求項2】 前記関連語選定手段は、前記文書検索手
段が取得した文書集合の文書数の増加に従い値が段階的
に増加する下限値を定め、出現数が下限値以上である関
連語が選択されるような計算式を用いて、表示すべき関
連語を選択することを特徴とする請求項1記載の関連語
提示装置。
2. The related word selecting means determines a lower limit value at which the value increases stepwise as the number of documents in the document set acquired by the document search means increases. The related word presentation device according to claim 1, wherein the related word to be displayed is selected using a calculation formula to be selected.
【請求項3】 前記関連語選定手段は、前記文書検索手
段が取得した文書集合の文書数の増加に従い値が段階的
に減少する上限値を定め、出現数が上限値以下である関
連語が選択されるような計算式を用いて、表示すべき関
連語を選択することを特徴とする請求項1記載の関連語
提示装置。
3. The related word selecting means determines an upper limit value whose value decreases stepwise as the number of documents in the document set acquired by the document search means increases. The related word presentation device according to claim 1, wherein the related word to be displayed is selected using a calculation formula to be selected.
【請求項4】 任意の関連語が指定されると、指定され
た特定関連語と、前記関連語計算手段から得られた関連
語集合中の他の関連語との同時出現数を、前記文書検索
手段が取得した文書集合を対象に計算する関連語対出現
数計算手段と、 前記出現数計算手段から得られた各関連語の出現数と、
前記関連語対出現数計算手段から得られた特定関連語と
他の関連語との間の同時出現数とを変数とする計算式に
基づいて関連語間関連度を計算し、特定関連語との間の
関連語間関連度の高い関連語を抽出する関連語間関連度
計算手段と、をさらに有し、 前記関連度表示手段は、前記関連語計算手段が抽出した
関連語を表示装置に表示するとともに、前記関連語間関
連度計算手段が抽出した関連語をも表示装置に表示す
る、 ことを特徴とする請求項1記載の関連語提示装置。
4. When an arbitrary related word is specified, the number of simultaneous occurrences of the specified specific related word and other related words in the related word set obtained from the related word calculating means is calculated by the document A related word pair occurrence count calculating unit that calculates the document set acquired by the search unit as a target, and an appearance count of each related word obtained from the occurrence count calculation unit,
Calculate the related word interrelationship based on a calculation formula with the number of simultaneous occurrences between the specific related word and the other related words obtained from the related word pair appearance number calculating means as a variable, and And a related word relevance calculating means for extracting a related word having a high related word relevance between the related words. The related degree displaying means displays a related word extracted by the related word calculating means on a display device. The related word presentation device according to claim 1, wherein the related word extracted by the related word relevance calculating means is displayed on the display device while being displayed.
【請求項5】 検索条件に関連する単語を提示する関連
語提示装置において、複数の文書を格納する文書格納手
段と、 入力された検索条件を受け取る検索条件受取手段と、 前記検索条件受取手段が受け取った検索条件に適合する
文書集合を前記文書格納手段から取得する文書検索手段
と、 前記文書検索手段が取得した文書集合中に存在する各単
語を含んでいる文書の数である出現数を、単語ごとに計
算する出現数計算手段と、 前記文書検索手段が取得した文書集合の文書数と、前記
出現数計算手段から得られた各単語の出現数とを変数と
する計算式を用いて、関連語候補を選択する関連語候補
選定手段と、 前記文書検索手段が取得した文書の数である第1の値
と、前記出現数計算手段が取得した関連語候補ごとの出
現数である第2の値と、前記文書格納手段に格納されて
いる文書の中で、各関連語候補を含んでいる文書の数で
ある関連語候補ごとの第3の値とを取得し、第1の値と
第3の値との積あるいは和である第4の値を関連語候補
ごとに計算し、第2の値と第4の値との比率に基づい
て、前記検索条件受取手段が受け取った検索条件と各関
連語候補との間の関連度を計算し、関連度の高い関連語
候補を関連語として抽出する関連語計算手段と、 前記関連語計算手段が抽出した関連語を表示装置に表示
する関連語表示手段と、 を有することを特徴とする関連語提示装置。
5. A related word presentation device for presenting a word related to a search condition, a document storage unit for storing a plurality of documents, a search condition receiving unit for receiving input search conditions, and the search condition receiving unit. A document search unit that obtains a document set that meets the received search condition from the document storage unit; and the number of occurrences that is the number of documents containing each word present in the document set obtained by the document search unit, Using an appearance number calculation unit that calculates for each word, a number of documents of the document set obtained by the document search unit, and a calculation formula using the number of appearances of each word obtained from the occurrence number calculation unit as variables, A related word candidate selecting unit that selects a related word candidate; a first value that is the number of documents obtained by the document searching unit; and a second value that is the number of occurrences of each related word candidate obtained by the occurrence number calculating unit. And the value of A third value for each related word candidate, which is the number of documents including each related word candidate, among the documents stored in the document storage means, is obtained, and the first value and the third value are obtained. A fourth value, which is a product or a sum of the above, is calculated for each related word candidate, and the search condition received by the search condition receiving means and each related word Related word calculation means for calculating the degree of relevance between candidates and extracting a related word candidate having a high degree of relevance as a related word, and related word display means for displaying the related word extracted by the related word calculation means on a display device And a related word presentation device, characterized by having:
【請求項6】 前記関連語候補選定手段は、前記文書検
索手段が取得した文書集合の文書数の増加に従い値が段
階的に増加する下限値を定め、出現数が下限値以上であ
る関連語が選択されるような計算式を用いて、表示すべ
き関連語を選択することを特徴とする請求項5記載の関
連語提示装置。
6. The related word candidate selecting means determines a lower limit value at which the value increases stepwise as the number of documents in the document set obtained by the document searching means increases, and the related word whose appearance number is equal to or more than the lower limit value The related-word presentation device according to claim 5, wherein the related-word to be displayed is selected using a calculation formula for selecting the related-word.
【請求項7】 前記関連語候補選定手段は、前記文書検
索手段が取得した文書集合の文書数の増加に従い値が段
階的に減少する上限値を定め、出現数が上限値以下であ
る関連語が選択されるような計算式を用いて、表示すべ
き関連語を選択することを特徴とする請求項5記載の関
連語提示装置。
7. The related word candidate selecting means determines an upper limit value whose value decreases stepwise as the number of documents in the document set obtained by the document searching means increases, and a related word whose number of appearances is equal to or less than the upper limit value. The related-word presentation device according to claim 5, wherein the related-word to be displayed is selected using a calculation formula for selecting the related-word.
【請求項8】 前記関連語計算手段は、前記文書格納手
段に格納されている全ての文書の数をMとし、第1の値
をα、関連語候補ごとの第2の値をβ、関連語候補ごと
の第3の値をγとした場合に、以下の計算式、 拡張相互情報量=log2 {(Mβ)/(αγ)} で求められる拡張相互情報量の値を、前記検索条件受取
手段が受け取った検索条件と各関連語候補との間の関連
度とすることを特徴とする請求項5記載の関連語提示装
置。
8. The related word calculation means sets the number of all documents stored in the document storage means to M, a first value to α, a second value to each related word candidate to β, When the third value for each word candidate is γ, the value of the extended mutual information obtained by the following formula, extended mutual information = log 2 {(Mβ) / (αγ)}, is used as the search condition. 6. The related-word presenting apparatus according to claim 5, wherein the degree of relevance between the search condition received by the receiving unit and each related-word candidate is set.
【請求項9】 前記関連語計算手段は、前記文書格納手
段に格納されている全ての文書の数をMとし、第1の値
をα、関連語候補ごとの第2の値をβ、関連語候補ごと
の第3の値をγとした場合に、 拡張TS(t-score) =M{( Mβ−αγ)/(αγ)} で求められる拡張TSの値を、前記検索条件受取手段が
受け取った検索条件と各関連語候補との間の関連度とす
ることを特徴とする請求項5記載の関連語提示装置。
9. The related word calculation means sets the number of all documents stored in the document storage means to M, sets a first value to α, sets a second value for each related word candidate to β, When the third value for each word candidate is γ, the search condition receiving means obtains the value of the extended TS obtained by the following equation: extended TS (t-score) = M {(Mβ−αγ) / (αγ)} 6. The related-word presentation device according to claim 5, wherein the degree of relevance is between the received search condition and each related-word candidate.
【請求項10】 前記関連語計算手段は、第1の値を
α、関連語候補ごとの第2の値をβ、関連語候補ごとの
第3の値をγとした場合に、以下の計算式、 拡張DC(Dice-coefficent) =2β/( α+γ) で求められる拡張DCの値を、前記検索条件受取手段が
受け取った検索条件と各関連語候補との間の関連度とす
ることを特徴とする請求項5記載の関連語提示装置。
10. The related word calculating means calculates the following value when the first value is α, the second value for each related word candidate is β, and the third value for each related word candidate is γ: The extended DC (Dice-coefficent) = 2β / (α + γ) value is used as the degree of association between the search condition received by the search condition receiving means and each related word candidate. The related word presentation device according to claim 5, wherein
【請求項11】 任意の関連語が指定されると、指定さ
れた特定関連語と、前記関連語計算手段から得られた関
連語集合中の他の関連語との同時出現数を、前記文書検
索手段が取得した文書集合を対象に計算する関連語対出
現数計算手段と、 前記出現数計算手段から得られた各関連語の出現数と、
前記関連語対出現数計算手段から得られた特定関連語と
他の関連語との間の同時出現数とを変数とする計算式に
基づいて関連語間関連度を計算し、特定関連語との間の
関連語間関連度の高い関連語を抽出する関連語間関連度
計算手段と、をさらに有し、 前記関連度表示手段は、前記関連語計算手段が抽出した
関連語を表示装置に表示するとともに、前記関連語間関
連度計算手段が抽出した関連語をも表示装置に表示す
る、 ことを特徴とする請求項5記載の関連語提示装置。
11. When an arbitrary related word is specified, the number of simultaneous occurrences of the specified specific related word and another related word in the related word set obtained from the related word calculating means is calculated by the document A related word pair occurrence count calculating unit that calculates the document set acquired by the search unit as a target, and an appearance count of each related word obtained from the occurrence count calculation unit,
Calculate the related word interrelationship based on a calculation formula with the number of simultaneous occurrences between the specific related word and the other related words obtained from the related word pair appearance number calculating means as a variable, and And a related word relevance calculating means for extracting a related word having a high degree of related word relevance between the related words. The related word presentation device according to claim 5, wherein the related word extracted by the related word relevance calculation means is also displayed on the display device.
【請求項12】 検索条件に関連する単語の提示をコン
ピュータに行わせるための関連語提示用プログラムを記
録した媒体において、 複数の文書を格納する文書格納手段、 入力された検索条件を受け取る検索条件受取手段、 前記検索条件受取手段が受け取った検索条件に適合する
文書集合を前記文書格納手段から取得する文書検索手
段、 前記検索条件受取手段が受け取った検索条件に関連性の
高い単語を関連語として、関連語集合を取得する関連語
計算手段、 前記文書検索手段から得られた文書集合の中で、前記関
連語計算手段が取得した関連語集合中の各関連語を含ん
でいる文書の数である出現数を、関連語ごとに計算する
出現数計算手段、 前記文書検索手段が取得した文書集合の文書数と、前記
出現数計算手段から得られた各関連語の出現数とを変数
とする計算式を用いて、表示すべき関連語を選択する関
連語選定手段、 前記関連語選定手段が選択した関連語を表示装置に表示
する関連語表示手段、としてコンピュータを機能させる
ための関連語提示用プログラムを記録した媒体。
12. A medium storing a related word presentation program for causing a computer to present a word related to a search condition, a document storage means for storing a plurality of documents, a search condition for receiving the inputted search condition. Receiving means; a document searching means for obtaining, from the document storing means, a set of documents which match the search conditions received by the search condition receiving means; words having high relevance to the search conditions received by the search condition receiving means as related words A related word calculation means for obtaining a set of related words, in the document set obtained from the document search means, the number of documents containing each related word in the set of related words obtained by the related word calculation means An occurrence count calculating means for calculating a certain number of occurrences for each related word, the number of documents in a document set obtained by the document search means, and A computer as a related word selecting means for selecting a related word to be displayed by using a calculation formula with the number of appearances as a variable, and a related word displaying means for displaying the related word selected by the related word selecting means on a display device. A medium on which a related word presentation program for functioning is recorded.
【請求項13】 検索条件に関連する単語の提示をコン
ピュータに行わせるための関連語提示用プログラムを記
録した媒体において、 複数の文書を格納する文書格納手段、 入力された検索条件を受け取る検索条件受取手段、 前記検索条件受取手段が受け取った検索条件に適合する
文書集合を前記文書格納手段から取得する文書検索手
段、 前記文書検索手段が取得した文書集合中に存在する各単
語を含んでいる文書の数である出現数を、単語ごとに計
算する出現数計算手段と、 前記文書検索手段が取得した文書集合の文書数と、前記
出現数計算手段から得られた各単語の出現数とを変数と
する計算式を用いて、関連語候補を選択する関連語候補
選定手段、 前記文書検索手段が取得した文書の数である第1の値
と、前記出現数計算手段が取得した関連語候補ごとの出
現数である第2の値と、前記文書格納手段に格納されて
いる文書の中で、各関連語候補を含んでいる文書の数で
ある関連語候補ごとの第3の値とを取得し、第1の値と
第3の値との積あるいは和である第4の値を関連語候補
ごとに計算し、第2の値と第4の値との比率に基づい
て、前記検索条件受取手段が受け取った検索条件と各関
連語候補との間の関連度を計算し、関連度の高い関連語
候補を関連語として抽出する関連語計算手段、 前記関連語計算手段が抽出した関連語を表示装置に表示
する関連語表示手段、としてコンピュータを機能させる
ための関連語提示用プログラムを記録した媒体。
13. A medium storing a related word presentation program for causing a computer to present a word related to a search condition, a document storage means for storing a plurality of documents, a search condition for receiving the inputted search condition. Receiving means; a document searching means for obtaining, from the document storing means, a document set meeting the search condition received by the search condition receiving means; a document containing each word present in the document set obtained by the document searching means. The number of appearances, which is the number of occurrences, is calculated for each word, the number of documents in the document set obtained by the document search means, and the number of occurrences of each word obtained from the number of occurrences are variable. A related word candidate selecting unit that selects a related word candidate, a first value that is the number of documents acquired by the document search unit, and an occurrence number calculation unit that acquires A second value, which is the number of occurrences of each related word candidate, and a third value, which is the number of documents containing each related word candidate, among the documents stored in the document storage means. Is calculated, and a fourth value which is a product or a sum of the first value and the third value is calculated for each related word candidate, and based on a ratio between the second value and the fourth value. Related word calculating means for calculating the degree of relevance between the search condition received by the search condition receiving means and each related word candidate, and extracting related word candidates having a high degree of relevance as related words, And a related-word displaying means for displaying the related-words extracted by the computer on a display device, and a medium storing a related-word presenting program for causing a computer to function.
JP13730197A 1997-05-27 1997-05-27 Related word presentation device and medium recording related word presentation program Expired - Fee Related JP3427674B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13730197A JP3427674B2 (en) 1997-05-27 1997-05-27 Related word presentation device and medium recording related word presentation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13730197A JP3427674B2 (en) 1997-05-27 1997-05-27 Related word presentation device and medium recording related word presentation program

Publications (2)

Publication Number Publication Date
JPH10334106A true JPH10334106A (en) 1998-12-18
JP3427674B2 JP3427674B2 (en) 2003-07-22

Family

ID=15195494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13730197A Expired - Fee Related JP3427674B2 (en) 1997-05-27 1997-05-27 Related word presentation device and medium recording related word presentation program

Country Status (1)

Country Link
JP (1) JP3427674B2 (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231569A (en) * 1999-02-09 2000-08-22 Just Syst Corp Internet information retrieving device, internet information retrieving method and computer readable recording medium with program making computer execute method recorded therein
JP2000242654A (en) * 1999-02-18 2000-09-08 Just Syst Corp Information processor, information processing method and computer readable storage medium recorded with program for making computer execute the method
JP2002024266A (en) * 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> Method and device for retrieving equivalent and recording medium with recorded equivalent retrieving program
JP2002117043A (en) * 2000-10-11 2002-04-19 Ricoh Co Ltd Device and method for document retrieval, and recording medium with recorded program for implementing the same method
JP2003058566A (en) * 2001-08-20 2003-02-28 Ricoh Co Ltd Device and method for retrieving document, program and computer readable storage medium
JP2004164662A (en) * 2003-12-24 2004-06-10 Just Syst Corp Search device, search method, and information recording medium
JP2006039811A (en) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd Document management program, document management method and document management device
JP2006113683A (en) * 2004-10-12 2006-04-27 Patolis Corp Apparatus and method for supporting document retrieval, document retrieval apparatus, programs therefor and recording medium with these programs recorded thereon
JP2008065417A (en) * 2006-09-05 2008-03-21 Hottolink Inc Associative word group retrieval device and system, and content match type advertisement system
WO2009019830A1 (en) * 2007-08-03 2009-02-12 Panasonic Corporation Related word presentation device
JP2009139987A (en) * 2007-12-03 2009-06-25 Nec Corp Retrieval system, retrieval server, retrieval program, and retrieval method
JP2010191962A (en) * 2009-02-13 2010-09-02 Fujitsu Ltd Efficient computation of ontology affinity matrix
US8161043B2 (en) 2008-02-20 2012-04-17 Panasonic Corporation Interactive program search apparatus
JP2012203569A (en) * 2011-03-24 2012-10-22 Casio Comput Co Ltd Generation method and generation device of synonym list, retrieval method and retrieval device using synonym list and computer program
JP2013054558A (en) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> Information extraction device, information extraction method and information extraction program
JP2020102231A (en) * 2017-06-01 2020-07-02 株式会社インタラクティブソリューションズ Display device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165892A (en) * 1991-12-13 1993-07-02 Fujitsu Ltd Information retrieval device
JPH06282587A (en) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The Automatic classifying method and device for document and dictionary preparing method and device for classification
JPH0756948A (en) * 1993-08-09 1995-03-03 Fuji Xerox Co Ltd Information retrieval device
JPH0944525A (en) * 1995-07-31 1997-02-14 Fujitsu Ltd Data retrieval device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165892A (en) * 1991-12-13 1993-07-02 Fujitsu Ltd Information retrieval device
JPH06282587A (en) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The Automatic classifying method and device for document and dictionary preparing method and device for classification
JPH0756948A (en) * 1993-08-09 1995-03-03 Fuji Xerox Co Ltd Information retrieval device
JPH0944525A (en) * 1995-07-31 1997-02-14 Fujitsu Ltd Data retrieval device

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231569A (en) * 1999-02-09 2000-08-22 Just Syst Corp Internet information retrieving device, internet information retrieving method and computer readable recording medium with program making computer execute method recorded therein
JP2000242654A (en) * 1999-02-18 2000-09-08 Just Syst Corp Information processor, information processing method and computer readable storage medium recorded with program for making computer execute the method
JP2002024266A (en) * 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> Method and device for retrieving equivalent and recording medium with recorded equivalent retrieving program
JP2002117043A (en) * 2000-10-11 2002-04-19 Ricoh Co Ltd Device and method for document retrieval, and recording medium with recorded program for implementing the same method
JP2003058566A (en) * 2001-08-20 2003-02-28 Ricoh Co Ltd Device and method for retrieving document, program and computer readable storage medium
JP2004164662A (en) * 2003-12-24 2004-06-10 Just Syst Corp Search device, search method, and information recording medium
JP2006039811A (en) * 2004-07-26 2006-02-09 Fuji Xerox Co Ltd Document management program, document management method and document management device
JP4525224B2 (en) * 2004-07-26 2010-08-18 富士ゼロックス株式会社 Document management program, document management method, and document management apparatus
JP2006113683A (en) * 2004-10-12 2006-04-27 Patolis Corp Apparatus and method for supporting document retrieval, document retrieval apparatus, programs therefor and recording medium with these programs recorded thereon
JP2008065417A (en) * 2006-09-05 2008-03-21 Hottolink Inc Associative word group retrieval device and system, and content match type advertisement system
WO2009019830A1 (en) * 2007-08-03 2009-02-12 Panasonic Corporation Related word presentation device
JPWO2009019830A1 (en) * 2007-08-03 2010-10-28 パナソニック株式会社 Related word presentation device
JP4464463B2 (en) * 2007-08-03 2010-05-19 パナソニック株式会社 Related word presentation device
US8504357B2 (en) 2007-08-03 2013-08-06 Panasonic Corporation Related word presentation device
JP2009139987A (en) * 2007-12-03 2009-06-25 Nec Corp Retrieval system, retrieval server, retrieval program, and retrieval method
US8161043B2 (en) 2008-02-20 2012-04-17 Panasonic Corporation Interactive program search apparatus
JP2010191962A (en) * 2009-02-13 2010-09-02 Fujitsu Ltd Efficient computation of ontology affinity matrix
JP2012203569A (en) * 2011-03-24 2012-10-22 Casio Comput Co Ltd Generation method and generation device of synonym list, retrieval method and retrieval device using synonym list and computer program
US8572082B2 (en) 2011-03-24 2013-10-29 Casio Computer Co., Ltd Method and device for generating a similar meaning term list and search method and device using the similar meaning term list
JP2013054558A (en) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> Information extraction device, information extraction method and information extraction program
JP2020102231A (en) * 2017-06-01 2020-07-02 株式会社インタラクティブソリューションズ Display device

Also Published As

Publication number Publication date
JP3427674B2 (en) 2003-07-22

Similar Documents

Publication Publication Date Title
JP3114703B2 (en) Bilingual sentence search device
JP3691844B2 (en) Document processing method
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7054860B2 (en) Method and system for retrieving a document and computer readable storage medium
JP3427674B2 (en) Related word presentation device and medium recording related word presentation program
JP3173411B2 (en) Related document search device and recording medium storing related document search program
JP4426894B2 (en) Document search method, document search program, and document search apparatus for executing the same
JP2005135113A (en) Electronic equipment, related word extracting method, and program
JP4935243B2 (en) Search program, information search device, and information search method
JPH1145274A (en) Extension method for key word using co-occurrence between words and computer readable recording medium recording program for making computer execute respective processes of the method
JPH11296552A (en) Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded
JP3385913B2 (en) Related word presentation device and medium recording related word presentation program
JP2005122665A (en) Electronic equipment apparatus, method for updating related word database, and program
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
JP2003108571A (en) Document summary device, control method of document summary device, control program of document summary device and recording medium
JPH11102372A (en) Document summarizing device and computer-readable recording medium
JP3436109B2 (en) Related search formula search device and computer-readable recording medium storing related search formula search program
JP4085568B2 (en) Text mining method, text mining apparatus, and computer-readable storage medium
JPH09185632A (en) Method and device for retrieving/editing information
JP2002342373A (en) Method, device and program for retrieving document and, recording medium with the program recorded thereon
JPH08137895A (en) Similar document retrieval system
JP2002259385A (en) Device, method and program for retrieving document and recording medium
JP2000090110A (en) Full-text retrieval method, device therefor and recording medium recorded with full-text retrieving program
JPH09305626A (en) Retrieval document preparing device, retrieval document storage media, device and method for retrieving document
JP2004318328A (en) Information retrieval method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130516

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees