JPH0944523A - Relative word display device - Google Patents
Relative word display deviceInfo
- Publication number
- JPH0944523A JPH0944523A JP7210194A JP21019495A JPH0944523A JP H0944523 A JPH0944523 A JP H0944523A JP 7210194 A JP7210194 A JP 7210194A JP 21019495 A JP21019495 A JP 21019495A JP H0944523 A JPH0944523 A JP H0944523A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- keyword
- unit
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、関連語提示装置に
関し、特に、指定された語と関係が強い語(関連語)を
抽出して提示する関連語提示装置に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a related word presenting apparatus, and more particularly to a related word presenting apparatus for extracting and presenting a word (related word) having a strong relationship with a designated word.
【0002】[0002]
【従来の技術】近年において、関連語,連想語,共起語
などと呼ばれる「ある語と関係が強い語」が、自然言語
処理や情報検索の技術分野において幅広く利用されるよ
うになっている。以降の説明では、特に、このような
「ある語と関係が強い語」を関連語として上記の意味で
用いる。2. Description of the Related Art In recent years, "words having a strong relationship with a certain word" called related words, associative words, and co-occurrence words have been widely used in the technical fields of natural language processing and information retrieval. . In the following description, in particular, such a "word having a strong relationship with a certain word" is used as a related word in the above meaning.
【0003】従来、この種の関連語を検索に利用するも
のとして、特開平2−56068号公報に記載の「関連
語の連鎖検索方式」の提案が知られており、また、関連
語を索引付けに利用するものとして、特開平3−122
768号公報に記載の「索引付け支援装置」の提案が知
られている。これらの提案の装置においては、関連語を
得るために、関連語辞書やシソーラス辞書などの辞書を
利用する。Conventionally, as a method of utilizing this kind of related word for searching, a proposal of "a related word chain search method" described in Japanese Patent Laid-Open No. 2-56068 is known, and the related word is indexed. Japanese Patent Application Laid-Open No. 3-122
A proposal of "indexing support device" described in Japanese Patent No. 768 is known. In these proposed devices, a dictionary such as a related word dictionary or a thesaurus dictionary is used to obtain a related word.
【0004】このような関連語を利用するための辞書を
作成する方法としては、これまで、第1の方法として、
人手による手作業で辞書を作成する方法と、第2の方法
として、テキストの中から共起頻度(同時に出現する頻
度)を利用して辞書を作成する方法との2つの方法が利
用されている。As a method of creating a dictionary for using such related words, the first method has been as follows.
Two methods are used: a method of manually creating a dictionary by hand, and a second method of creating a dictionary by using co-occurrence frequency (frequency of simultaneous appearance) from text. .
【0005】上記の第2の方法に分類されるような方法
として、例えば、共起頻度を利用して抽出する方法を利
用するものとして、特開平6−274541号公報に記
載の「文献検索システム」,特開平7−28823号公
報に記載の「共起語抽出方法およびその装置」,特開平
7−36883号公報に記載の「共起辞書作成装置」な
どの提案が見られる。As a method classified into the above-mentioned second method, for example, a method of utilizing the co-occurrence frequency for extraction, there is disclosed in Japanese Patent Laid-Open No. 6-274541. , "Co-occurrence word extraction method and its device" described in JP-A-7-28823, and "Co-occurrence dictionary creation device" described in JP-A-7-36883.
【0006】[0006]
【発明が解決しようとする課題】しかしながら、辞書を
人手により作成するという上記従来の第1の方法では、 (1)辞書の作成に膨大なコストがかかり、作成者によ
っては偏りがでる。 (2)辞書のための大量の記憶容量を必要とする。 (3)見出し語が限定され、語数を増やすと、更に容量
が増える。 という問題がある。However, in the above-mentioned first conventional method of manually creating the dictionary, (1) it takes a huge cost to create the dictionary, and it is biased depending on the creator. (2) It requires a large storage capacity for the dictionary. (3) The headwords are limited, and the capacity further increases as the number of words increases. There is a problem.
【0007】また、テキストの中から共起頻度を利用し
て辞書を作成する上記第2の方法では、上記の(1)の
問題は解決されるが、上記の(2)および(3)の問題
は解決されずに、別の問題として、 (4)辞書の内容となる関連語の抽出精度が低い。 という問題も生じる。In the second method of creating a dictionary from the text by utilizing the co-occurrence frequency, the problem of (1) above is solved, but the problems of (2) and (3) above are solved. The problem is not solved, and as another problem, (4) the extraction accuracy of the related words that are the contents of the dictionary is low. The problem also arises.
【0008】つまり、検索対象の文書中に含まれる複合
語に対しては、共起頻度をカウントする単位が考慮され
ておらず、その単位が不適切であるため、共起頻度が適
切にカウントされなかったり、冗長な情報が増えて、抽
出精度が低くなるという問題があった。In other words, the unit of counting the co-occurrence frequency is not taken into consideration for the compound word included in the document to be searched, and the unit is inappropriate, so the co-occurrence frequency is properly counted. There is a problem that the extraction accuracy becomes low due to not being performed or redundant information increasing.
【0009】一般的に、共起頻度をカウントする単位
は、形態素単位,複合語全体,または形態素の組
合せのいずれかを単位とするが、その場合、それぞれに
応じて、カウントされる数が異なってくる。例えば、
「特許電子出願」という複合語に対して、第1の場合と
して、形態素単位で、共起頻度をカウントすると、こ
の場合には「特許」,「電子」,「出願」の3つの形態
素の単位に分解されるので、それに従って共起頻度がカ
ウントされる。この場合には、共起頻度は適切にカウン
トされるものの、形態素の単位では、その意味が解かり
にくい場合が多い。Generally, the unit for counting the co-occurrence frequency is either a morpheme unit, the entire compound word, or a combination of morphemes, but in that case, the counted number differs depending on each unit. Come on. For example,
For the compound word "patented electronic application", if the co-occurrence frequency is counted in the morpheme unit as the first case, in this case, the unit of three morphemes of "patent", "electronic", and "application" The co-occurrence frequency is counted accordingly. In this case, although the co-occurrence frequency is properly counted, it is often difficult to understand the meaning in units of morphemes.
【0010】また、第2の場合として、複合語全体を
単位に共起頻度をカウントすると、「特許電子出願」で
頻度がカウントされ、その意味は解かりやすくなるが、
この場合には、カウントされた複合語は、「特許」,
「特許出願」などの関連のある語とは、別の語して扱わ
れることになる。このため、共起頻度が適切にカウント
されないということになりかねない。In the second case, if the co-occurrence frequency is counted in units of the entire compound word, the frequency is counted in "patented electronic application", and its meaning is easy to understand.
In this case, the counted compound word is "patent",
Related words such as “patent application” will be treated as different words. Therefore, the co-occurrence frequency may not be properly counted.
【0011】また、第3の場合の形態素の組合せによ
って、その共起頻度をカウントすると、この場合には、
各々の形態素の組合せから「特許」,「電子」,「出
願」,「特許電子」,「電子出願」,「特許電子出願」
で、その共起頻度をカウントすることになるので、意味
が解かりやすく、頻度も適切にカウントされるが、形態
素の数が多くなると、その組合せの数が非常に多くなる
ので、容量が非常に大きくなる。また、複合語を構成し
ている形態素の頻度が、常に当該複合語の頻度以上とな
るので、形態素の情報が残って、冗長になるという欠点
がある。When the co-occurrence frequency is counted by the combination of morphemes in the third case, in this case,
From each combination of morphemes, "patent", "electronic", "application", "electronic patent", "electronic application", "electronic patent application"
Since the co-occurrence frequency is counted, the meaning is easy to understand and the frequency is properly counted.However, when the number of morphemes increases, the number of combinations increases, so the capacity is very large. Grows to. Further, since the frequency of the morphemes forming the compound word is always higher than the frequency of the compound word, there is a drawback that the information of the morphemes remains and becomes redundant.
【0012】本発明は、このような問題点を解決するた
めになされたものであり、本発明の目的は、関連語辞書
を用いずに、キーワードが指定されると、その場でテキ
スト情報から高速に関連語を抽出でき、しかも、関連語
の抽出精度を改善した関連語提示装置を提供することに
ある。The present invention has been made to solve such a problem, and an object of the present invention is to use a text information on the spot when a keyword is specified without using a related word dictionary. Another object of the present invention is to provide a related word presentation device capable of extracting related words at high speed and improving the extraction accuracy of the related words.
【0013】[0013]
【課題を解決するための手段】上記のような目的を達成
するため、本発明の第1の特徴とする関連語提示装置
は、文書のテキストから関連語を抽出して提示する関連
語提示装置であって、前記テキストを記憶する記憶手段
と、キーワードを受け付けるキーワード入力手段と、前
記キーワード入力手段で入力されたキーワードにより前
記記憶手段の内容を検索し、キーワードと前記テキスト
の所定の範囲で共起した語を抽出する検索処理手段と、
前記検索処理手段で抽出された名詞を前記テキストでの
出現頻度と共に頻度テーブルに登録する共起語登録手段
と、前記頻度テーブルのデータから代表語を出現頻度に
基づいて選択する代表語選択手段と、前記代表語選択手
段で選択された代表語から不要語を削除する不要語削除
手段と、前記不要語削除手段で不要語が削除された代表
語を表示する表示手段とを備えることを特徴とする。In order to achieve the above-mentioned object, a related word presenting apparatus, which is a first feature of the present invention, is a related word presenting apparatus for extracting and presenting related words from a text of a document. The content of the storage means is searched by the storage means for storing the text, the keyword input means for receiving the keyword, and the keyword input by the keyword input means, and the keyword and the text are shared within a predetermined range. Search processing means for extracting the raised word,
Co-occurrence word registration means for registering the noun extracted by the search processing means in the frequency table together with the appearance frequency in the text, and representative word selection means for selecting a representative word from the data in the frequency table based on the appearance frequency. And a display unit for displaying a representative word in which unnecessary words are deleted by the unnecessary word deleting unit, and an unnecessary word deleting unit for deleting unnecessary words from the representative word selected by the representative word selecting unit. To do.
【0014】また、本発明の第2の特徴とする関連語提
示装置は、文書のテキストから関連語を抽出して提示す
る関連語提示装置であって、テキストを形態素解析した
解析情報を記憶する解析情報記憶部(1:図1)と、キ
ーワードを受け付け形態素解析を行うキーワード入力部
(2:図1)と、前記キーワード入力部で形態素解析さ
れたキーワードにより前記解析情報記憶部の解析情報を
検索し、キーワードと前記テキストの所定範囲で共起し
た名詞を抽出する検索処理部(3:図1)と、前記検索
処理部で抽出された名詞を前記テキストでの出現頻度と
共に頻度テーブルに登録する共起語登録部(4:図1)
と、前記頻度テーブルのデータから代表語を出現頻度に
基づいて選択する代表語選択部(6:図1)と、前記代
表語選択部で選択された代表語から事前に指定した不要
語を削除する不要語削除部(7:図1)と、不要語が削
除された代表語を表示する表示部(8:図1)とを備え
ることを特徴とする。A second aspect of the present invention is a related word presentation device that extracts a related word from a text of a document and presents it, and stores analysis information obtained by morphological analysis of the text. An analysis information storage unit (1: FIG. 1), a keyword input unit (2: FIG. 1) that accepts a keyword and performs morpheme analysis, and analysis information in the analysis information storage unit by a keyword morphologically analyzed by the keyword input unit. A search processing unit (3: FIG. 1) for searching and extracting a noun co-occurring in a predetermined range of the keyword and the text, and the noun extracted by the search processing unit are registered in a frequency table together with the appearance frequency in the text. Co-occurrence word registration unit (4: Figure 1)
And a representative word selection unit (6: FIG. 1) that selects a representative word from the data of the frequency table based on the appearance frequency, and deletes unnecessary words specified in advance from the representative word selected by the representative word selection unit. And a display unit (8: FIG. 1) for displaying a representative word in which unnecessary words are deleted.
【0015】また、本発明の第3の特徴とする関連語提
示装置は、文書のテキストから関連語を抽出して提示す
る関連語提示装置であって、前記文書のテキストを記憶
するテキスト記憶部(71:図7)と、キーワードを受
け付け形態素解析を行うキーワード入力部(2:図7)
と、キーワードによりテキスト記憶部のテキストを検索
し、検索結果の形態素解析を行い、キーワードと共起し
た名詞を抽出する検索解析部(72:図7)と、抽出さ
れた名詞を頻度と共に頻度テーブルに登録する共起語登
録部(4:図7)と、頻度テーブルのデータから代表語
を選択する代表語選択部(6:図7)と、選択された代
表語から事前に指定した不要語を削除する不要語削除部
(7:図7)と、不要語が削除された代表語を表示する
表示部(8:図7)とを備えることを特徴とする。A third aspect of the present invention is a related word presentation device that extracts a related word from a text of a document and presents it, and a text storage unit that stores the text of the document. (71: FIG. 7) and a keyword input unit that accepts a keyword and performs morphological analysis (2: FIG. 7)
And a search analysis unit (72: FIG. 7) for searching the text in the text storage unit by the keyword, performing a morphological analysis of the search result, and extracting a noun co-occurring with the keyword, and a frequency table for the extracted noun together with the frequency. The co-occurrence word registration unit (4: FIG. 7) registered in the table, the representative word selection unit (6: FIG. 7) selecting a representative word from the data of the frequency table, and the unnecessary word specified in advance from the selected representative word. And a display unit (8: FIG. 7) for displaying a representative word in which the unnecessary words are deleted.
【0016】また、本発明の第4の特徴とする関連語提
示装置は、上記の構成の関連語提示装置において、前記
共起語登録部は、出現頻度を頻度テーブルに登録する場
合、出現頻度テーブルに、抽出した名詞の形態素と該名
詞の元の複合語とを対応づけて登録し、代表語選択部
は、頻度テーブルに登録された頻度に応じて形態素と元
の複合語のデータから代表語を選択することを特徴とす
る。また、好ましくは、関連語提示装置(請求項2乃至
4に対応するもの)は、前記解析情報記憶部が記憶する
解析情報は、テキストを形態素ごとに分割する分割記号
を当該テキストに付加した情報である。A fourth aspect of the present invention is a related word presenting apparatus having the above-mentioned configuration, wherein the co-occurrence word registration unit registers the appearance frequency in a frequency table. The extracted morpheme of the noun and the original compound word of the noun are registered in the table in association with each other, and the representative word selection unit selects a representative from the data of the morpheme and the original compound word according to the frequency registered in the frequency table. Characterized by selecting a word. Further, preferably, in the related word presentation device (corresponding to claims 2 to 4), the analysis information stored in the analysis information storage unit is information in which a division symbol for dividing a text into morphemes is added to the text. Is.
【0017】このような特徴を有する本発明の関連語提
示装置においては、第1の特徴として、解析情報記憶部
が、テキストを形態素解析した解析情報を記憶してお
り、キーワード入力部が、キーワードを受け付け形態素
解析を行うと、検索処理部が、キーワードにより解析情
報記憶部の解析情報を検索し、キーワードと共起した名
詞を抽出する。このようにして抽出された名詞に対し
て、共起語登録部において、抽出された名詞を頻度とと
もに頻度テーブルに登録する。次に、代表語選択部が、
頻度テーブルのデータから代表語を選択する。不要語削
除部は、選択された代表語から、例えば代表語として意
味のない事前に指定した不要語を削除し、表示部が、不
要語が削除された代表語を表示する。このようにして、
本発明の関連語提示装置によれば、キーワードが指定さ
れると、文書のテキストの解析情報からその関連語を抽
出して提示することができる。キーワードの検索では、
具体的に、例えば、文字列検索(grepなど)、インデッ
クスによる検索(インデックスは形態素でも複合語単位
でもよい)などを利用できる。また、共起した語の抽出
は、解析を行う必要があるが、これは、形態素解析を行
うことにより対応できる。また、字種による分割を行っ
てもよい。In the related word presentation device of the present invention having such characteristics, as a first characteristic, the analysis information storage unit stores the analysis information obtained by morphologically analyzing the text, and the keyword input unit uses the keyword. When the morphological analysis is accepted, the search processing unit searches the analysis information in the analysis information storage unit by the keyword and extracts the noun co-occurring with the keyword. With respect to the thus extracted noun, the co-occurrence word registration unit registers the extracted noun together with the frequency in the frequency table. Next, the representative word selection section
Select a representative word from the data in the frequency table. The unnecessary word deleting unit deletes, for example, an unnecessary word previously designated as meaningless from the selected representative word, and the display unit displays the representative word from which the unnecessary word is deleted. In this way,
According to the related word presentation device of the present invention, when a keyword is designated, the related word can be extracted and presented from the analysis information of the text of the document. In keyword search,
Specifically, for example, a character string search (grep or the like), a search by an index (the index may be a morpheme or a compound word unit), and the like can be used. Further, extraction of co-occurring words requires analysis, which can be dealt with by performing morphological analysis. Moreover, you may divide by a character type.
【0018】このような本発明の関連語提示装置によれ
ば、テキストを解析した形態素の情報から、キーワード
と共起する頻度を利用して、関連語を抽出するので、関
連語辞書などの辞書を必要とせずに、高速に関連語を抽
出できる。また、辞書を利用する場合は、キーワードが
辞書の見出し語に限定されるが、本発明では、関連語を
抽出する対象は、テキストの解析情報として情報が保持
されているので、大量の情報を含み、柔軟にキーワード
を決定できる。また、関連語を抽出する対象のテキスト
の解析情報を変更することにより、その分野における関
連語を得ることができる。また、辞書によるキーワード
の限定が解消される。According to the related word presenting apparatus of the present invention as described above, since the related words are extracted from the information of the morpheme obtained by analyzing the text by utilizing the frequency of co-occurrence with the keyword, a dictionary such as a related word dictionary. Related words can be extracted at high speed without the need for. Further, when using a dictionary, the keywords are limited to the entry words of the dictionary, but in the present invention, since the target of extracting the related word is the information stored as the text analysis information, a large amount of information is stored. Including, you can flexibly determine the keyword. Moreover, the related word in the field can be obtained by changing the analysis information of the text from which the related word is extracted. In addition, the limitation of keywords in the dictionary is eliminated.
【0019】また、本発明の関連語提示装置において
は、第2の特徴として、共起語登録部が、頻度を頻度テ
ーブルに登録する場合、抽出した名詞の形態素と元の複
合語を対応づけて頻度テーブルに登録し、代表語選択部
は、頻度テーブルに登録された頻度に応じて形態素と元
の複合語のデータから代表語を選択する。そして、不要
語削除部により、関連語として無意味な事前に指定した
不要語の削除を行う。このため、冗長な情報や関連語抽
出のノイズとなるゴミ情報を排除でき、精度よく関連語
を抽出できる。また、これにより、関連語の精度が改善
できる。In the related word presentation device of the present invention, as a second feature, when the co-occurrence word registration unit registers the frequency in the frequency table, the extracted noun morpheme and the original compound word are associated with each other. And the representative word selection unit selects a representative word from the data of the morpheme and the original compound word according to the frequency registered in the frequency table. Then, the unnecessary word deleting unit deletes a previously specified unnecessary word meaningless as a related word. Therefore, redundant information and dust information that causes noise in extracting related words can be eliminated, and related words can be accurately extracted. Moreover, this can improve the accuracy of the related words.
【0020】また、第3の特徴として、本発明の関連語
提示装置においては、解析情報記憶部が記憶する解析情
報は、テキストをあらかじめ形態素解析し、そのテキス
トの文字列を形態素ごとに分割する分割記号を当該テキ
ストに付加した情報であるので、元のテキストの2割程
度しか容量は増加せず、分割記号を除くと元のテキスト
が再現できる。このため、他の検索システムと結合する
場合には、検索対象のテキストと共通化できるという利
点がある。As a third feature, in the related word presentation device of the present invention, the analysis information stored in the analysis information storage unit is subjected to morpheme analysis of text in advance, and the character string of the text is divided for each morpheme. Since the information is a division symbol added to the text, the capacity increases only about 20% of the original text, and the original text can be reproduced without the division symbol. Therefore, when it is combined with another search system, there is an advantage that it can be shared with the search target text.
【0021】このため、本発明の関連語提示装置は、テ
キスト情報からその場で関連語を抽出するので、従来の
関連語用の辞書を利用する方法に比較して、辞書を構築
するコストが不要であり、辞書のための容量が不要であ
り、更には辞書に比ベて、より柔軟にキーワードを決定
できるという利点がある。また、テキストの内容を変更
することにより、そのテキストの分野における関連語を
得ることができる。Therefore, the related word presenting apparatus of the present invention extracts the related words on the spot from the text information, so that the cost of constructing the dictionary is lower than that of the conventional method using the related word dictionary. It is unnecessary, does not require a capacity for the dictionary, and has an advantage that the keyword can be determined more flexibly as compared with the dictionary. Further, by changing the content of the text, it is possible to obtain a related word in the field of the text.
【0022】また、本発明の関連語提示装置において
は、第4の特徴として、テキスト記憶部が、文書のテキ
スト情報を記憶しており、キーワード入力部が、キーワ
ードを受け付け形態素解析を行うと、検索解析部が、キ
ーワードによりテキスト記憶部のテキスト情報を検索
し、検索結果の形態素解析を行い、そのキーワード共起
した名詞を抽出する。As a fourth feature of the related word presentation device of the present invention, the text storage unit stores the text information of the document, and when the keyword input unit receives a keyword and performs morphological analysis, The search analysis unit searches the text information in the text storage unit by the keyword, performs the morphological analysis of the search result, and extracts the noun co-occurring with the keyword.
【0023】このようにして抽出された名詞に対して、
共起語登録部において、抽出された名詞を頻度とともに
頻度テーブルに登録し、次に、代表語選択部が頻度テー
ブルのデータから代表語を選択する。不要語削除部は、
選択された代表語から、例えば代表語として意味のない
事前に指定した不要語を削除し、表示部は、不要語が削
除された代表語を表示する。これにより、本発明の関連
語提示装置によれば、直接に文書のテキストから、関連
語を抽出し提示しているので、テキスト記憶部に記憶さ
せる文書のテキスト情報を容易に変更でき、例えば、異
なる分野のテキスト情報に変更することにより、そこか
ら容易にその分野の関連語を得ることができる。For the noun thus extracted,
The co-occurrence word registration unit registers the extracted noun in the frequency table together with the frequency, and then the representative word selection unit selects a representative word from the data in the frequency table. The unnecessary word deletion part is
From the selected representative word, for example, an unnecessary word previously designated as meaningless as a representative word is deleted, and the display unit displays the representative word from which the unnecessary word is deleted. Thus, according to the related word presentation device of the present invention, since the related word is directly extracted from the text of the document and presented, it is possible to easily change the text information of the document stored in the text storage unit. By changing to text information of a different field, the related word of the field can be easily obtained from it.
【0024】[0024]
【発明の実施の形態】以下、本発明の実施する場合の形
態について、図面を参照して具体的に説明する。図1
は、本発明の第1の実施例にかかる関連語提示装置の構
成を示すブロック図である。図1において、1は解析情
報記憶部、2はキーワード入力部、3は検索処理部、4
は共起語登録部、5は頻度テーブル、6は代表語選択
部、7は不要語削除部、8は表示部である。また、10
は入力されるキーワード、11は出力された関連語を示
している。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be specifically described below with reference to the drawings. FIG.
FIG. 1 is a block diagram showing a configuration of a related word presentation device according to a first exemplary embodiment of the present invention. In FIG. 1, 1 is an analysis information storage unit, 2 is a keyword input unit, 3 is a search processing unit, 4
Is a co-occurrence word registration unit, 5 is a frequency table, 6 is a representative word selection unit, 7 is an unnecessary word deletion unit, and 8 is a display unit. Also, 10
Indicates an input keyword, and 11 indicates an output related word.
【0025】ユーザは、関連語を提示したい場合、予め
その検索対象とする文書のテキストに対して形態素解析
を行い、解析情報を解析情報記憶部1に記憶しておく。
したがって、解析情報記憶部1に記憶されている解析情
報は、後述するように、例えば、対象となる文書のテキ
ストを形態素解析し、解析された各々の形態素の間に分
割記号を挿入した情報となっている。When the user wants to present the related words, the user performs morphological analysis on the text of the document to be searched in advance and stores the analysis information in the analysis information storage unit 1.
Therefore, as will be described later, the analysis information stored in the analysis information storage unit 1 is, for example, information obtained by morphologically analyzing the text of the target document and inserting a division symbol between each analyzed morpheme. Has become.
【0026】ユーザが、検索するキーワード(単語)1
0をキーワード入力部1から入力すると、キーワード入
力部2がキーワード10を得て、キーワードの形態素解
析を行い、その解析結果の形態素情報を検索処理部3に
送出する。検索処理部3は、キーワードの形態素情報を
得ると、解析情報記憶部1に記憶されているテキストの
解析情報を検索して、キーワードと共起した名詞を抽出
し、抽出した名詞の情報を共起語登録部4に送出する。
共起の範囲は、文,節,項目,文書など考えられるが、
ここでは、文として説明する。すなわち、キーワードと
一文内で共起した名詞(キーワードが出現する文に含ま
れる名詞)を抽出して、共起語登録部4に送出する。A keyword (word) to be searched by the user 1
When 0 is input from the keyword input unit 1, the keyword input unit 2 obtains the keyword 10, performs morphological analysis of the keyword, and sends the morphological information of the analysis result to the search processing unit 3. When the search processing unit 3 obtains the morpheme information of the keyword, the search processing unit 3 searches the analysis information of the text stored in the analysis information storage unit 1, extracts the noun that co-occurs with the keyword, and shares the extracted noun information. It is sent to the word registration unit 4.
The range of co-occurrence can be sentences, sections, items, documents, etc.,
Here, it explains as a sentence. That is, a noun that co-occurs with the keyword in one sentence (a noun included in the sentence in which the keyword appears) is extracted and sent to the co-occurrence word registration unit 4.
【0027】共起語登録部4は、検索処理部3から抽出
された名詞の情報によって、キーワードと共起している
該当の名詞の情報を得ると、頻度テーブル5を参照し
て、それぞれの名詞に関して、名詞を頻度と共に頻度テ
ーブル5に登録する。つまり、新たな名詞は登録し、こ
れまでに現われた名詞は頻度を更新して、頻度テーブル
5に登録する。このようにして、頻度テーブル5には名
詞と共にその頻度が登録される。When the co-occurrence word registration unit 4 obtains the information of the corresponding noun co-occurring with the keyword from the information of the noun extracted from the search processing unit 3, the co-occurrence word registration unit 4 refers to the frequency table 5, Regarding the noun, the noun is registered in the frequency table 5 together with the frequency. That is, new nouns are registered, nouns that have appeared so far are updated in frequency, and registered in the frequency table 5. In this way, the frequency is registered in the frequency table 5 together with the noun.
【0028】代表語選択部6は、頻度テーブル5に登録
された頻度の情報を参照し、後述する所定のアルゴリズ
ムで関連語として表示する代表語を選択し、選択された
代表語の情報を不要語削除部7に送出する。不要語削除
部7では、代表語として意味のない不要語が事前に指定
してあり、代表語の情報を得ると、不要語削除部7が、
その不要語を代表語の情報から削除し、結果情報を表示
部8に送出する。表示部8では、不要語が削除された結
果の代表語の情報を得ると、その代表語の情報を当該キ
ーワードの関連語としてユーザに提示する。The representative word selecting unit 6 refers to the frequency information registered in the frequency table 5, selects a representative word to be displayed as a related word by a predetermined algorithm described later, and does not need information on the selected representative word. It is sent to the word deletion unit 7. In the unnecessary word deleting unit 7, a meaningless unnecessary word is designated in advance as a representative word, and when the information of the representative word is obtained, the unnecessary word deleting unit 7
The unnecessary word is deleted from the information of the representative word, and the result information is sent to the display unit 8. When the display unit 8 obtains the information of the representative word resulting from the unnecessary word deletion, the information of the representative word is presented to the user as a related word of the keyword.
【0029】次に、具体的なテキストおよびキーワード
(文章と単語の例)を用いて、本実施例の関連語提示装
置により、検索対象のテキストの解析情報から、キーワ
ードを指定して、キーワードと共起した名詞を頻度テー
ブルに登録し、頻度テーブルの情報から関連語を抽出し
提示するまでの処理例について説明する。Next, using a specific text and a keyword (an example of a sentence and a word), the related word presentation device of the present embodiment specifies a keyword from the analysis information of the text to be searched, and sets the keyword as a keyword. An example of processing of registering a co-occurring noun in the frequency table, extracting related words from the information in the frequency table, and presenting the related words will be described.
【0030】図2は解析情報記憶部に記憶される解析情
報の例を説明する図である。図2に示すように、キーワ
ードから、関連語を求める検索対象のデータとなる解析
情報は、文書データのテキストデータ20に対して、形
態素解析処理21を行い、形態素の単位に解析された解
析情報22とする。解析情報22は、テキストが形態素
解析された各々の形態素の間に分割記号(「/」)を挿
入して作成した情報となっている。FIG. 2 is a diagram for explaining an example of analysis information stored in the analysis information storage section. As shown in FIG. 2, analysis information which is data to be searched for a related word from a keyword is morphological analysis processing 21 performed on text data 20 of document data, and analysis information is analyzed in units of morphemes. 22. The analysis information 22 is information created by inserting a division symbol (“/”) between each morpheme obtained by morpheme analysis of text.
【0031】つまり、解析情報記憶部に記憶される解析
情報22は、テキストの文が形態素解析されて、形態素
の単位に分割されている。ここでの形態素解析の解析レ
ベルは、少なくとも文を各々の形態素が区別される状態
に解析されていればよいので、図2の例文に示すよう
に、『ワープロ(ワードプロセッサ)の仮名漢字変換で
は…』という文では、形態素解析が行われた結果、
『「ワープロ」,「(」,「ワードプロセッ
サ」,「)」,「の」,「仮名」,「漢字」,「変
換」,「で」,「は」,…』のように、それぞれの形態
素の単位に分割され、分割記号「/」を用いて、『ワー
プロ/(/ワードプロセッサ/)/の/仮名/漢字/変
換/で/は/…』と表される。つまり、形態素の単位が
識別できるような状態の情報となって記憶される。な
お、形態素解析した結果の形態素の単位を示すための分
割記号「/」は、品詞に対応してそれぞれに用いる記号
を変えれば、そのまま品詞情報を得ることもできる。That is, in the analysis information 22 stored in the analysis information storage unit, a text sentence is morphologically analyzed and divided into morpheme units. The analysis level of the morpheme analysis here is that at least the sentence is analyzed so that each morpheme is distinguished, so as shown in the example sentence of FIG. 2, in the kana-kanji conversion of a word processor (word processor) ... ”, The result of morphological analysis,
Each morpheme, such as "Word processor", "(", "word processor", ")", "no", "kana", "kanji", "conversion", "de", "ha", ... " It is divided into units of and is expressed as "word processor / (/ word processor /) / no / kana / kanji / conversion / de / wa / ..." Using the division symbol "/". That is, it is stored as information of a state in which the unit of morpheme can be identified. The division symbol “/” for indicating the unit of the morpheme obtained as a result of the morpheme analysis can be obtained as it is by changing the symbol used for each part of speech.
【0032】また、解析情報の容量については、ここで
はテキストを形態素解析したものに分割記号を付加して
いるので、元のテキストの2割程度増加しているが、分
割記号を除くと元のテキストが再現できる。このため、
検索システムと結合する場合に、容易に検索対象テキス
トを共通化できる利点がある。また、ここでの関連語を
求める検索処理において、頻度のカウントは、名詞のみ
を対象にしているので、名詞以外の語は解析情報に登録
しないようにすることによって、解析情報の容量を元の
テキスト容量より小容量化することもできる。Regarding the capacity of the analysis information, since the division symbol is added to the morphologically analyzed text here, it is increased by about 20% of the original text. The text can be reproduced. For this reason,
When combined with a search system, there is an advantage that search target texts can be easily shared. In addition, in the search processing for searching for related words here, the frequency count targets only nouns. Therefore, by not registering words other than nouns in analysis information, the capacity of analysis information is It can be smaller than the text capacity.
【0033】図3は、検索処理部により解析情報の中で
キーワードと1文内で共起する名詞を求める処理を説明
する図である。この場合、ユーザがキーワード「ワード
プロセッサ」を入力すると、キーワード「ワードプロセ
ッサ」が形態素解析された結果の解析情報「ワードプロ
セッサ」23に対して、解析情報22の中でキーワード
と1文内で共起する名詞を求める検索処理31を行う。FIG. 3 is a diagram for explaining a process of obtaining a noun co-occurring in a sentence with a keyword in the analysis information by the search processing unit. In this case, when the user inputs the keyword "word processor", the noun that co-occurs with the keyword in the analysis information 22 in the one sentence with respect to the analysis information "word processor" 23 that is the result of morphological analysis of the keyword "word processor". A search process 31 for searching for is performed.
【0034】検索処理31では、キーワードの解析情報
「ワードプロセッサ」23により、解析情報22を検索
して、1文内で共起している名詞を抽出する。すなわ
ち、インデックステーブル33によりキーワードの解析
情報「ワードプロセッサ」23を含んでいる文を検索
し、その文の中の名詞を全て抽出する。この例では、
「ワードプロセッサ」が出現する文32に含まれている
名詞が抽出され、その抽出された名詞の情報(ワープ
ロ,仮名/漢字/変換)が、次の共起語登録部(4:図
1)に送出される。In the search processing 31, the analysis information 22 is searched by the keyword analysis information "word processor" 23, and the noun co-occurring in one sentence is extracted. That is, the index table 33 is searched for a sentence including the keyword analysis information "word processor" 23, and all nouns in the sentence are extracted. In this example,
The noun included in the sentence 32 in which the word processor appears is extracted, and the information (word processor, kana / kanji / conversion) of the extracted noun is stored in the next co-occurrence word registration unit (4: FIG. 1). Sent out.
【0035】ここでの共起している名詞の抽出処理で
は、語(形態素)と出現位置の情報を格納したインデッ
クステーブル33を用いて、出現位置の情報を得るよう
にしているので、キーワードの解析情報を含む文から、
その文の中の名詞を高速に検索することができる。な
お、キーワードが複合語であり、複数の形態素に分割さ
れる場合には、各形態素を含む文の積集合を取るこによ
り、高速に検索することができる。In the process of extracting the co-occurring noun, the information of the appearance position is obtained by using the index table 33 storing the information of the word (morpheme) and the appearance position. From the sentence containing analysis information,
The noun in the sentence can be searched at high speed. When the keyword is a compound word and is divided into a plurality of morphemes, a product set including sentences of each morpheme is taken to perform a high-speed search.
【0036】図4は、頻度テーブルに共起した名詞を登
録する処理を説明する図である。頻度テーブルには、キ
ーワードと1文内で共起した名詞が頻度と共に登録され
る。ここでの頻度テーブルのデータ構造は、図4に示す
ように、名詞の形態素が格納された形態素テーブル41
が、頻度情報の付加された複合語テーブル42とリンク
ポインタにより結合された構造となっており、抽出され
た名詞の形態素と当該形態素が切り出された元の複合語
とが対応づけられて、その頻度と共に登録されている。FIG. 4 is a diagram for explaining the process of registering co-occurring nouns in the frequency table. In the frequency table, a keyword and a noun that co-occurs in one sentence are registered together with the frequency. The data structure of the frequency table here is, as shown in FIG. 4, a morpheme table 41 storing morphemes of nouns.
Has a structure in which the compound word table 42 to which frequency information is added is linked by a link pointer, and the morpheme of the extracted noun and the original compound word from which the morpheme is cut out are associated with each other, and It is registered with the frequency.
【0037】この場合、図4に示すように、1段目の形
態素テーブル41に、形態素と2段目へのポインタ(元
の複合語の情報へのポインタ)を記憶し、2段目の複合
語テーブル42に元の複合語42aと頻度情報42bを
格納している。2段目の複合語テーブル42の複合語の
頻度情報の合計が1段目の形態素テーブル41の形態素
の頻度になる。例えば、名詞「ワープロ」の場合、1段
目の形態素テーブル41に「ワープロ」を登録し、更
に、これをポイントする2段目の複合語テーブル42に
当該名詞「ワープロ」を登録し、その頻度情報を加算す
る。既に登録されている場合には頻度情報のみを加算す
る。In this case, as shown in FIG. 4, a morpheme and a pointer to the second row (pointer to the information of the original compound word) are stored in the morpheme table 41 in the first row, and the morpheme in the second row is stored. The word table 42 stores the original compound word 42a and the frequency information 42b. The sum of the frequency information of the compound words in the second-stage compound word table 42 is the morpheme frequency in the first-stage morpheme table 41. For example, in the case of the noun "word processor", "word processor" is registered in the first stage morpheme table 41, and further, the noun "word processor" is registered in the second stage compound word table 42 pointing to this, and the frequency Add information. If already registered, only frequency information is added.
【0038】また、ここに登録する名詞が複合語である
場合、例えば、名詞「仮名/漢字/変換」の場合、1段
目の形態素テーブル41に「仮名」,「漢字」,および
「変換」を登録し、それぞれの形態素からポイントされ
る2段目の複合語テーブル42には、元の複合語の「仮
名漢字変換」を登録し、頻度情報を加算する。When the noun registered here is a compound word, for example, the noun "kana / kanji / conversion", "kana", "kanji", and "conversion" are stored in the first morpheme table 41. Is registered, the original compound word “Kana-Kanji conversion” is registered in the second-stage compound word table 42 pointed by each morpheme, and the frequency information is added.
【0039】前述したように、代表語選択部(6:図
1)は、頻度テーブル(図4)へ共起した名詞の登録が
終了すると、頻度テーブルの情報から代表語の選択を行
う。この場合の代表語の選択のアルゴリズムは、例え
ば、頻度テーブルの1段目の形態素テーブル41の形態
素1個とそれの指す2段目の複合語テーブル42のグル
ープから代表語を1個選択し、複合語(複合語テーブル
42の名詞)の最大の頻度が形態素(形態素テーブル4
1の名詞)の(1/2)以上の時、複合語(複合語テー
ブル42の名詞)を代表語とし、それ以外は形態素(形
態素テーブル41の名詞)を代表語とする。As described above, the representative word selection unit (6: FIG. 1) selects a representative word from the information in the frequency table when the registration of the co-occurring noun in the frequency table (FIG. 4) is completed. The algorithm for selecting the representative word in this case is, for example, selecting one representative word from a group of one morpheme in the first morpheme table 41 of the frequency table and the second stage compound word table 42 pointed to by the morpheme. The maximum frequency of a compound word (noun in the compound word table 42) is the morpheme (morpheme table 4
When (1/2) of 1 noun) or more, the compound word (noun of the compound word table 42) is used as a representative word, and the other words are morphemes (noun of the morpheme table 41) as a representative word.
【0040】具体例で説明すると、この例では、「ワー
プロ」のグループは、1段目の形態素テーブル41の形
態素「ワープロ」の頻度が“8(=7+1)”、2段目
の複合語テーブル42の複合語「ワープロ」の頻度が
“7”であり、この2段目の頻度が、1段目の頻度の
(1/2)以上となるので、2段目の複合語「ワープ
ロ」が代表語となる。Explaining in a concrete example, in this example, the frequency of the word processor “word processor” in the “word processor” group is “8 (= 7 + 1)” in the first morpheme table 41, and the compound word table in the second row. The frequency of the compound word "word processor" of 42 is "7", and the frequency of this second step is (1/2) or more of the frequency of the first step. Therefore, the compound word "word processor" of the second step is Become a representative language.
【0041】また、「変換」のグループにおいては、1
段目の形態素テーブル41の形態素「変換」の頻度が
“7(=4+3)”、2段目の複合語テーブル42の複
合語「仮名漢字変換」の頻度が“3”であり、この2段
目の頻度が、1段目の頻度の(1/2)未満なので、1
段目の形態素「変換」が代表語となる。In the "conversion" group, 1
The frequency of the morpheme “conversion” in the second morpheme table 41 is “7 (= 4 + 3)”, and the frequency of the compound word “kana-kanji conversion” in the second stage compound word table 42 is “3”. Since the eye frequency is less than (1/2) of the first stage frequency, 1
The morpheme "conversion" in the second row is the representative word.
【0042】また、同じく、「仮名」のグループにおい
ては、1段目の形態素テーブル41の形態素「仮名」の
頻度が“5(=3+2)”、2段目の複合語テーブル4
2の「仮名漢字変換」の頻度が“3”であり、この2段
目の頻度が、1段目の頻度の(1/2)以上となるの
で、2段目の複合語「仮名漢字変換」が代表語となる。Similarly, in the "kana" group, the frequency of the morpheme "kana" in the morpheme table 41 in the first row is "5 (= 3 + 2)" and the compound word table 4 in the second row.
The frequency of "Kana-Kanji conversion" in 2 is "3", and the frequency of the second stage is (1/2) or more of the frequency of the first stage. Is the representative word.
【0043】このようにして、各グループで代表語を決
め、重複を除いた結果を代表語(ワープロ、変換、仮名
漢字変換)として不要語削除部(7:図1)に伝達す
る。不要語削除部では、前述のように、代表語として意
味のない不要語が事前に指定してあり、代表語を得る
と、その不要語を代表語から削除する。In this way, a representative word is determined in each group, and the result of eliminating duplication is transmitted to the unnecessary word deleting unit (7: FIG. 1) as a representative word (word processor, conversion, kana-kanji conversion). As described above, the unnecessary word deleting unit has previously designated a meaningless unnecessary word as a representative word, and when the representative word is obtained, the unnecessary word is deleted from the representative word.
【0044】図5は、不要語削除部で用いる不要語リス
トテーブルの一例を示す図である。不要語削除部には、
その語自身が意味を持たない単語、および、複合語の要
素としては重要であるが、その語単独では重要でない単
語を不要語として、事前に指定しておく。例えば、「変
換」は単独では重要ではないが、複合語の「仮名漢字変
換」の中では重要である。このような不要語は、図5に
示すように、不要語リストテーブル50として、予じめ
分類されて指定されている。FIG. 5 is a diagram showing an example of an unnecessary word list table used by the unnecessary word deleting unit. In the unnecessary word deletion part,
A word that has no meaning in itself and a word that is important as an element of a compound word but is not important by itself is designated as an unnecessary word in advance. For example, “conversion” is not important by itself, but it is important in the compound word “kana-kanji conversion”. Such unnecessary words are preliminarily classified and designated as the unnecessary word list table 50 as shown in FIG.
【0045】この実施例では、不要語削除部が、図5に
示すように、不要語リストテーブル50として、予め不
要語を記憶しているので、代表語選択部から、代表語
(ワープロ、変換、仮名漢字変換)を得ると、不要語リ
ストテーブル50に記憶された不要語と一致する代表語
を削除する。すなわち、この例では「変換」の語を削除
する。この結果、代表語(ワープロ、変換、仮名漢字変
換)から「変換」が不要語として削除され、その結果の
代表語(ワープロ、仮名漢字変換)が表示部に伝達さ
れ、これが、キーワード「ワードプロセッサ」の関連語
として表示される。このとき、語数が多い場合は、一定
語数(例えば10語)を表示するようにしてもよい。In this embodiment, since the unnecessary word deleting unit stores unnecessary words in advance as the unnecessary word list table 50 as shown in FIG. 5, the representative word selecting unit selects the representative words (word processor, conversion). , Kana-Kanji conversion), the representative word that matches the unnecessary word stored in the unnecessary word list table 50 is deleted. That is, in this example, the word "conversion" is deleted. As a result, “conversion” is deleted from the representative word (word processor, conversion, kana-kanji conversion) as an unnecessary word, and the resulting representative word (word processor, kana-kanji conversion) is transmitted to the display unit, which is the keyword “word processor”. It is displayed as a related word of. At this time, if the number of words is large, a fixed number of words (for example, 10 words) may be displayed.
【0046】図6は、本発明の第1の実施例の関連語提
示装置の全体の動作の一連の処理の流れを示すブロック
図である。図6を参照して説明する。ユーザが、例え
ば、関連語を求めるキーワード「ワードプロセッサ」6
1をキーワード入力部2から入力すると、キーワード入
力部2は、キーワード「ワードプロセッサ」61の形態
素解析を行い、その解析結果の形態素情報「ワードプロ
セッサ」62を検索処理部3に送出する。検索処理部3
は、形態素情報「ワードプロセッサ」62を得ると、解
析情報記憶部1に記憶されているテキストの解析情報6
3を検索し、キーワードの形態素情報「ワードプロセッ
サ」62と1文内で共起した名詞(「ワードプロセッ
サ」が出現する文に含まれている名詞)をテキストの解
析情報63から抽出し、抽出した名詞情報「ワープロ,
仮名/漢字/変換」64を共起語登録部4に送出する。FIG. 6 is a block diagram showing the flow of a series of processes of the overall operation of the related word presentation device according to the first embodiment of the present invention. This will be described with reference to FIG. For example, the keyword "word processor" for which the user requests a related word 6
When 1 is input from the keyword input unit 2, the keyword input unit 2 performs a morpheme analysis of the keyword “word processor” 61 and sends the morpheme information “word processor” 62 of the analysis result to the search processing unit 3. Search processing unit 3
When the morpheme information “word processor” 62 is obtained, the text analysis information 6 stored in the analysis information storage unit 1
3 is extracted, a noun that co-occurs with the keyword morpheme information "word processor" 62 in one sentence (a noun included in the sentence in which "word processor" appears) is extracted from the text analysis information 63, and the extracted noun is extracted. Information "Word Processor,
The kana / kanji / conversion ”64 is sent to the co-occurrence word registration unit 4.
【0047】共起語登録部4は、検索処理部3からキー
ワードと共起した名詞情報「ワープロ,仮名/漢字/変
換」64を得ると、形態素と対応づけて頻度と共に頻度
テーブル5に登録する。このようにして、頻度テーブル
5には名詞情報と共に頻度情報65が登録される。When the co-occurrence word registration unit 4 obtains the noun information “word processor, kana / kanji / conversion” 64 co-occurring with the keyword from the search processing unit 3, the co-occurrence word registration unit 4 registers it in the frequency table 5 together with the frequency in association with the morpheme. . In this way, the frequency information 65 is registered in the frequency table 5 together with the noun information.
【0048】代表語選択部6は、頻度テーブル5に登録
された頻度情報65を参照し、代表語を選択し、代表語
情報「ワープロ,変換,仮名漢字変換」66を不要語削
除部7に送出する。不要語削除部7は、代表語情報「ワ
ープロ,変換,仮名漢字変換」66から、事前に指定し
ておいた不要語を削除し、その結果情報「ワープロ,仮
名漢字変換」67を表示部8に送出する。表示部8で
は、不要語が削除された代表語情報「ワープロ,仮名漢
字変換」67を得ると、その結果情報を関連語「ワープ
ロ,仮名漢字変換」68として、ユーザに提示する。The representative word selecting unit 6 refers to the frequency information 65 registered in the frequency table 5, selects a representative word, and sets the representative word information “word processor, conversion, kana-kanji conversion” 66 to the unnecessary word deleting unit 7. Send out. The unnecessary word deletion unit 7 deletes unnecessary words that have been designated in advance from the representative word information “word processor, conversion, kana-kanji conversion” 66, and the result information “word processor, kana-kanji conversion” 67 is displayed on the display part 8 Send to. When the display unit 8 obtains the representative word information "word processor, kana-kanji conversion" 67 in which unnecessary words are deleted, the result information is presented to the user as the related word "word processor, kana-kanji conversion" 68.
【0049】このような処理の流れにより、この第1の
実施例の関連語提示装置では、キーワードを入力すれ
ば、その関連語が提示される。つまり、この処理の流れ
から明らかなように、この実施例の関連語提示装置によ
れば、その場でテキストの解析情報から直接に関連語を
抽出できる。このため、辞書を利用する方法と比較する
と、関連語にかかる辞書(例えば共起語辞書など)を作
成するコストが不要であり、辞書のメモリ容量が不要と
なる。このため、文書検索システムに利用する場合に
は、辞書を予じめ用意する方法に比べて、より柔軟にキ
ーワードを決定できるという利点を有する。また、この
実施例の関連語提示装置において、解析情報記憶部1に
記憶する解析情報を、分野の異なる文書の解析情報に変
更することにより、その分野における関連語を容易に得
ることができる。With the flow of such processing, in the related word presentation device of the first embodiment, when a keyword is input, the related word is presented. That is, as is apparent from the flow of this process, the related word presentation device of this embodiment can directly extract the related words from the text analysis information on the spot. Therefore, as compared with the method using a dictionary, the cost of creating a dictionary (for example, a co-occurrence word dictionary) relating to related words is unnecessary, and the memory capacity of the dictionary is unnecessary. Therefore, when used in a document retrieval system, there is an advantage that the keyword can be determined more flexibly as compared with the method of preparing a dictionary in advance. In the related word presentation device of this embodiment, the related information in the field can be easily obtained by changing the analysis information stored in the analysis information storage unit 1 into the analysis information of documents in different fields.
【0050】その場合、例えば、この実施例の関連語提
示装置の処理の中で、分野の異なる文書のテキストから
直接にその解析情報を生成し、それを利用できるように
すれば、容易に異なる分野における関連語を得ることが
できるように変形できる。このような変形例の関連語提
示装置を、第2の実施例として説明する。In this case, for example, in the processing of the related word presentation device of this embodiment, if the analysis information is directly generated from the texts of documents in different fields and the analysis information can be used, the difference can be easily obtained. It can be modified so that related words in the field can be obtained. A related word presentation device of such a modified example will be described as a second embodiment.
【0051】図7は、本発明の第2の実施例にかかる関
連語提示装置の構成を示すブロック図である。図7にお
いて、2はキーワード入力部、4は共起語登録部、5は
頻度テーブル、6は代表語選択部、7は不要語削除部、
8は表示部、10は入力されるキーワード、11は提示
された関連語である。71はテキスト記憶部、72は検
索解析部である。これらの要素の内、キーワード入力部
2,共起語登録部4,頻度テーブル5,代表語選択部
6,不要語削除部7,および表示部8は、第1の実施例
の関連語提示装置(図1)と同じものであり、それぞれ
同じ参照番号により示している。この第2の実施例の関
連語提示装置では、解析情報記憶部(1:図1)に替え
て、テキスト記憶部71が設けられており、また、検索
処理部(3:図1)に替えて、検索解析部72が設けら
れている。FIG. 7 is a block diagram showing the configuration of a related word presentation device according to the second embodiment of the present invention. In FIG. 7, 2 is a keyword input unit, 4 is a co-occurrence word registration unit, 5 is a frequency table, 6 is a representative word selection unit, 7 is an unnecessary word deletion unit,
Reference numeral 8 is a display unit, 10 is a keyword to be input, and 11 is a presented related word. Reference numeral 71 is a text storage unit, and 72 is a search analysis unit. Among these elements, the keyword input unit 2, the co-occurrence word registration unit 4, the frequency table 5, the representative word selection unit 6, the unnecessary word deletion unit 7, and the display unit 8 are the related word presentation device of the first embodiment. (FIG. 1), each designated by the same reference numeral. In the related word presentation device of the second embodiment, a text storage unit 71 is provided in place of the analysis information storage unit (1: FIG. 1), and a search processing unit (3: FIG. 1) is provided. Thus, a search analysis unit 72 is provided.
【0052】このような構成の第2の実施例の関連語提
示装置の動作の基本的な処理の流れは、第1の実施例の
関連語提示装置の動作と同様なので、詳細な説明は省略
し、異なる部分についてのみ説明する。第2の実施例の
関連語提示装置において、テキスト記憶部71は、関連
語の検索の対象とする文書のテキスト情報を、形態素解
析を行っていない状態で記憶しており、検索解析部72
において、キーワードにより、テキスト記憶部71の検
索処理を行い、キーワードを含む文を形態素解析し、形
態素ごとに分割されたテキストの解析情報として、つま
り、名詞を抽出するための情報として利用する。Since the basic processing flow of the operation of the related word presentation device of the second embodiment having such a configuration is the same as the operation of the related word presentation device of the first embodiment, detailed description will be omitted. However, only different parts will be described. In the related word presentation device according to the second embodiment, the text storage unit 71 stores the text information of the document to be searched for the related words in a state in which the morphological analysis is not performed, and the search analysis unit 72.
In, a search process of the text storage unit 71 is performed with a keyword, a sentence including the keyword is morpheme-analyzed, and is used as analysis information of a text divided for each morpheme, that is, as information for extracting a noun.
【0053】その場合、テキスト情報に対して、まず、
キーワードにより検索処理を行い、その後、1文内で共
起する名詞を抽出するために対象とされた文についての
み、形態素解析の処理を行う。In that case, for the text information, first,
The search process is performed using the keyword, and then the morphological analysis process is performed only on the sentence targeted for extracting the noun co-occurring in one sentence.
【0054】検索解析部72は、前述のように、テキス
ト記憶部71に記憶されているテキスト情報に対して、
キーワードによる検索を行い、キーワードを含む文のテ
キスト情報に対して、その場で形態素解析を行うように
する。このため、関連語を抽出するためのソース情報を
容易に変更できる。As described above, the search analysis section 72 uses the text information stored in the text storage section 71 as follows.
The keyword search is performed, and the morphological analysis is performed on the spot for the text information of the sentence including the keyword. Therefore, the source information for extracting the related word can be easily changed.
【0055】つまり、第1の実施例の関連語提示装置
が、予めテキストを形態素解析しておいた解析情報を利
用して、キーワードによる検索を行うのに対し、第2の
実施例の関連語提示装置では、テキスト情報に対して直
接にキーワードによる検索を行い、キーワードを含んで
いる文を得て、得られた文に対して、その場で形態素解
析を行い、その文の中の名詞を抽出するようにしてい
る。このため、関連語を抽出するためのテキスト情報を
容易に変更でき、分野によってはキーワードと共起する
頻度も異なるので、その異なる任意のテキスト情報が利
用できる。In other words, the related word presentation device of the first embodiment uses the analysis information obtained by performing morpheme analysis of the text in advance to search by the keyword, while the related word presentation device of the second embodiment does. In the presentation device, the text information is directly searched by a keyword, a sentence including the keyword is obtained, morphological analysis is performed on the obtained sentence on the spot, and a noun in the sentence is extracted. I try to extract it. For this reason, the text information for extracting the related words can be easily changed, and the frequency of co-occurrence with the keyword also differs depending on the field, and thus different arbitrary text information can be used.
【0056】図8は、本発明の第2の実施例の関連語提
示装置の全体の動作の一連の処理の流れを示すブロック
図である。第1の実施例の関連語提示装置の場合と同様
に、ここでの処理の流れを、ユーザがキーワードとして
「ワードプロセッサ」を入力した場合の動作例により説
明する。図8を参照すると、ユーザが、例えば、関連語
を求めるキーワード「ワードプロセッサ」81をキーワ
ード入力部2から入力すると、キーワード入力部2は、
キーワード「ワードプロセッサ」81の形態素解析を行
い、キーワードの形態素情報「ワードプロセッサ」82
を検索解析部72に送出する。検索解析部72では、キ
ーワードの形態素情報「ワードプロセッサ」82を得る
と、テキスト記憶部71に記憶されているテキスト情報
83を検索して、キーワードの形態素情報「ワードプロ
セッサ」82を含んでいる文を得ると、得られた文「ワ
ープロ(ワードプロセッサ)の仮名漢字変換では…」に
対して形態素解析を行い、その文の中のキーワード「ワ
ードプロセッサ」以外の名詞情報「ワープロ,仮名/漢
字/変換」84を抽出し、共起語登録部4に送出する。FIG. 8 is a block diagram showing the flow of a series of processes of the overall operation of the related word presentation device according to the second embodiment of the present invention. Similar to the case of the related word presentation device of the first embodiment, the flow of processing here will be described by an operation example when the user inputs “word processor” as a keyword. Referring to FIG. 8, when the user inputs a keyword “word processor” 81 for which a related word is requested from the keyword input unit 2, the keyword input unit 2 is
Morphological analysis of the keyword “word processor” 81 is performed, and morphological information of the keyword “word processor” 82
Is sent to the search analysis unit 72. Upon obtaining the keyword morpheme information “word processor” 82, the search analysis unit 72 searches the text information 83 stored in the text storage unit 71 to obtain a sentence including the keyword morpheme information “word processor” 82. Then, morphological analysis is performed on the obtained sentence “word processor (word processor) kana-kanji conversion ...”, and noun information “word processor, kana / kanji / conversion” 84 other than the keyword “word processor” 84 in the sentence is obtained. It is extracted and sent to the co-occurrence word registration unit 4.
【0057】共起語登録部4は、検索解析部72からキ
ーワードと1文内で共起した名詞情報「ワープロ,仮名
/漢字/変換」84を得ると、形態素と元の複合語を対
応づけて頻度と共に頻度テーブル5に登録する。このよ
うにして、頻度テーブル5には名詞情報と共に頻度情報
85が登録される。When the co-occurrence word registration unit 4 obtains the keyword and the noun information "word processor, kana / kanji / conversion" 84 that co-occurs in one sentence from the search analysis unit 72, the morpheme and the original compound word are associated with each other. The frequency table 5 together with the frequency. In this way, the frequency information 85 is registered in the frequency table 5 together with the noun information.
【0058】代表語選択部6は、頻度テーブル5に登録
された頻度情報85を参照し、代表語を選択し、代表語
の情報「ワープロ,変換,仮名漢字変換」86を不要語
削除部7に送出する。不要語削除部7は、代表語情報
「ワープロ,変換,仮名漢字変換」86から、事前に指
定しておいた不要語を削除し、その結果情報「ワープ
ロ,仮名漢字変換」87を表示部8に送出する。表示部
8では、不要語が削除された代表語情報「ワープロ,仮
名漢字変換」87を得ると、その結果情報を関連語「ワ
ープロ,仮名漢字変換」88として、ユーザに提示す
る。The representative word selecting unit 6 refers to the frequency information 85 registered in the frequency table 5, selects a representative word, and sets the representative word information “word processor, conversion, kana-kanji conversion” 86 to the unnecessary word deleting unit 7 Send to. The unnecessary word deletion unit 7 deletes unnecessary words that have been designated in advance from the representative word information “word processor, conversion, kana-kanji conversion” 86, and the result information “word processor, kana-kanji conversion” 87 is displayed on the display unit 8 Send to. When the display unit 8 obtains the representative word information “word processor, kana-kanji conversion” 87 from which unnecessary words are deleted, the result information is presented to the user as the related word “word processor, kana-kanji conversion” 88.
【0059】このような処理の流れにより、第2の実施
例の関連語提示装置においては、キーワードを入力すれ
ば、その場で検索対象のテキストの中のキーワードを含
んだ文の形態素解析を行い、その関連語が提示される。
この処理の流れから明らかなように、第2の実施例のテ
キスト記憶部71は、検索の対象とする文書のテキスト
を記憶している記憶部であるので、他の検索システムと
共用でき、テキスト記憶部71のテキストに対する検索
方法では、前述したように、インデックステーブルに検
索キーと位置情報を登録しておくインデックス検索方式
や、直接にテキストをサーチするフルテキストサーチ方
式などの一般的な検索方式がそのまま利用できる。With the above processing flow, in the related word presentation device of the second embodiment, if a keyword is input, morphological analysis of a sentence containing the keyword in the text to be searched is performed on the spot. , Related words are presented.
As is clear from the flow of this processing, the text storage unit 71 of the second embodiment is a storage unit that stores the text of the document to be searched, so it can be shared with other search systems, and the text can be shared. As the search method for the text in the storage unit 71, as described above, a general search method such as an index search method in which a search key and position information are registered in the index table or a full-text search method in which text is directly searched. Can be used as is.
【0060】また、第2の実施例の関連語提示装置にお
いては、キーワードの形態素からテキストに対して検索
を行い、その場で形態素解析を行うので、予めテキスト
を形態素解析しておいた解析情報に対して検索を行う第
1の実施例に比ベて、処理時間は増加するものの、テキ
ストを予め解析情報にしておく必要がなく、テキストを
容易に交換できる。このため、他の検索システムとの融
合も容易である。In the related word presentation device of the second embodiment, the text is searched from the morpheme of the keyword and the morpheme analysis is performed on the spot. Although the processing time is increased as compared with the first embodiment in which the text is searched for, the text does not need to be previously analyzed information and the text can be easily exchanged. Therefore, integration with other search systems is easy.
【0061】次に、第3の実施例として、検索システム
との融合を行った変形例の関連語提示装置について説明
する。第3の実施例の関連語提示装置は、更に、テキス
ト検索機構を追加し、解析情報と検索対象テキストを共
通化した構成とする。このような構成によると、ユーザ
は検索したいキーワードが明確でないとき、関連語提示
装置により提示された関連語から目的のキーワードを捜
して、検索することができる。Next, as a third embodiment, a related word presentation device of a modified example which is integrated with the search system will be described. The related word presentation device of the third exemplary embodiment further has a configuration in which a text search mechanism is added and analysis information and search target text are made common. With such a configuration, when the keyword to be searched is not clear, the user can search for and search for the target keyword from the related words presented by the related word presentation device.
【0062】図9は、本発明の第3の実施例の関連語提
示装置の構成を示すブロック図である。図9において、
1は解析情報記憶部、2はキーワード入力部、3は検索
処理部、4は共起語登録部、5は頻度テーブル、6は代
表語選択部、7は不要語削除部、8は表示部である。1
0は入力されるキーワード、11は提示された関連語で
ある。また、90は提示された関連語から選んだキーワ
ード、91は検索キーワード入力部、92はテキスト検
索部、93は検索結果表示部、94は検索結果である。
これら要素の内、解析情報記憶部1,キーワード入力部
2,検索処理部3,共起語登録部4,頻度テーブル5,
代表語選択部6,不要語削除部7,および表示部8は、
第1の実施例の関連語提示装置(図1)と同じものであ
り、それぞれ同じ参照番号により示している。ここでの
第3の実施例の関連語提示装置においては、第1の実施
例の関連語提示装置(図1)の構成に加えて、検索キー
ワード入力部91,テキスト検索部92,および検索結
果表示部93が設けられている。すなわち、第1の実施
例にテキスト検索機構が追加されたものである。FIG. 9 is a block diagram showing the configuration of the related word presentation device according to the third embodiment of the present invention. In FIG.
1 is an analysis information storage unit, 2 is a keyword input unit, 3 is a search processing unit, 4 is a co-occurrence word registration unit, 5 is a frequency table, 6 is a representative word selection unit, 7 is an unnecessary word deletion unit, and 8 is a display unit. Is. 1
0 is a keyword to be input, and 11 is a presented related word. Further, 90 is a keyword selected from the presented related words, 91 is a search keyword input section, 92 is a text search section, 93 is a search result display section, and 94 is a search result.
Among these elements, analysis information storage unit 1, keyword input unit 2, search processing unit 3, co-occurrence word registration unit 4, frequency table 5,
The representative word selection unit 6, the unnecessary word deletion unit 7, and the display unit 8 are
It is the same as the related word presentation device (FIG. 1) of the first embodiment, and is indicated by the same reference numeral. In the related word presentation device of the third embodiment here, in addition to the configuration of the related word presentation device of the first embodiment (FIG. 1), a search keyword input unit 91, a text search unit 92, and a search result. A display unit 93 is provided. That is, the text search mechanism is added to the first embodiment.
【0063】ユーザが、キーワード10をキーワード入
力部2から入力すると、第1の実施例の関連語提示装置
と同様な処理が行われて、表示部8からそのキーワード
に対する関連語11を得られる。ユーザは、表示部8に
提示された関連語11を参考にして、新たなキーワード
90を決定し、検索を行うために、検索キーワード入力
部91からキーワード90を入力する。または、元のキ
ーワード10に得られた関連語11をマージして、新た
なキーワード90として検索を行ってもよい。When the user inputs the keyword 10 from the keyword input unit 2, the same processing as that performed by the related word presentation device of the first embodiment is performed, and the related word 11 for the keyword can be obtained from the display unit 8. The user refers to the related word 11 presented on the display unit 8 to determine a new keyword 90, and inputs the keyword 90 from the search keyword input unit 91 to perform a search. Alternatively, the obtained related word 11 may be merged with the original keyword 10 to search as a new keyword 90.
【0064】検索キーワード入力部91は、キーワード
(単語)90を得ると、形態素解析を行い、その情報を
テキスト検索部92に送出する。テキスト検索部92
は、検索キーワード入力部91からのキーワードの解析
情報を得ると。解析情報記憶部1を検索して、得られた
解析情報の文から、分割記号を除き、テキスト情報のみ
を検索結果表示部93に送出する。検索結果表示部93
は、得られたテキスト情報を検索結果94として表示す
る。Upon obtaining the keyword (word) 90, the search keyword input unit 91 performs morphological analysis and sends the information to the text search unit 92. Text search unit 92
When the keyword analysis information is obtained from the search keyword input unit 91. The analysis information storage unit 1 is searched, and only the text information is sent to the search result display unit 93 from the sentence of the obtained analysis information excluding the division symbols. Search result display section 93
Displays the obtained text information as a search result 94.
【0065】このように、第3の実施例の関連語提示装
置によれば、解析情報と検索対象テキストを共通化し
て、関連語提示装置を検索システムと融合できる。この
ための追加する機構としては、テキスト検索機構だけで
よい。なお、図9に示す第3の実施例の関連語提示装置
においては、処理の流れを明確に示すため、検索キーワ
ード入力部91および検索結果表示部93を別途に設け
る構成として説明しているが、これらは、それぞれにキ
ーワード入力部2および表示部8の一部の機能を共通に
利用するようにして、いずれかの機能部を省略しても良
いことは明らかである。次に、このような変形を行った
関連語提示装置の構成例について、第4の実施例として
説明する。As described above, according to the related word presentation device of the third embodiment, the related information presentation device can be integrated with the search system by sharing the analysis information and the search target text. The text search mechanism is the only additional mechanism for this purpose. In the related word presentation device of the third embodiment shown in FIG. 9, the search keyword input unit 91 and the search result display unit 93 are separately provided in order to clearly show the flow of processing. It is obvious that any of these functional units may be omitted by commonly using a part of the functions of the keyword input unit 2 and the display unit 8. Next, a configuration example of the related word presentation device that has undergone such a modification will be described as a fourth embodiment.
【0066】図10は、本発明の第4の実施例の関連語
提示装置の構成を示すブロック図である。図10におい
て、1は解析情報記憶部、2はキーワード入力部、3は
検索処理部、4は共起語登録部、5は頻度テーブル、6
は代表語選択部、7は不要語削除部、10は入力される
キーワード、95はテキスト検索部、96は検索結果表
示部、97は検索結果である。これら要素の内、解析情
報記憶部1,キーワード入力部2,検索処理部3,共起
語登録部4,頻度テーブル5,代表語選択部6,および
不要語削除部7は、第1の実施例の関連語提示装置(図
1)の要素と同じものであり、それぞれ同じ参照番号に
より示している。また、この第4の実施例の関連語提示
装置の構成におけるテキスト検索部95,検索結果表示
部96,および、検索結果97は、第3の実施例の関連
語提示装置の構成におけるテキスト検索部92,検索結
果表示部93,および検索結果94と、それぞれに対応
しており、同様のものである。FIG. 10 is a block diagram showing the configuration of the related word presentation device according to the fourth embodiment of the present invention. In FIG. 10, 1 is an analysis information storage unit, 2 is a keyword input unit, 3 is a search processing unit, 4 is a co-occurrence word registration unit, 5 is a frequency table, and 6
Is a representative word selection unit, 7 is an unnecessary word deletion unit, 10 is a keyword to be input, 95 is a text search unit, 96 is a search result display unit, and 97 is a search result. Among these elements, the analysis information storage unit 1, the keyword input unit 2, the search processing unit 3, the co-occurrence word registration unit 4, the frequency table 5, the representative word selection unit 6, and the unnecessary word deletion unit 7 are the first embodiment. The elements are the same as those of the related word presentation device (FIG. 1) in the example, and are respectively denoted by the same reference numerals. The text search unit 95, the search result display unit 96, and the search result 97 in the configuration of the related word presentation device of the fourth embodiment are the text search unit in the configuration of the related word presentation device of the third embodiment. A search result display unit 92, a search result display unit 93, and a search result 94 correspond to each other and are similar.
【0067】つまり、第4の実施例の関連語提示装置に
おいては、第3の実施例の関連語提示装置(図9)の構
成から、表示部8および検索キーワード入力部91が除
かれており、テキスト検索部95(92)が、不要語削
除部7から直接に検索キーワードの情報を得るように構
成されている。つまり、テキスト検索部95に入力され
る検索キーワードは、第3の実施例の関連語提示装置
(図9)の構成のように、一旦、ユーザに関連語として
表示され、その中からユーザが任意に選択するような操
作プロセスを経ずに、本発明の関連語提示装置の処理工
程によって得られた関連語とキーワード情報がマージさ
れ新たなキーワードとなり、直接にテキスト検索部95
に入力され、テキスト検索部95が解析情報記憶部1の
解析情報に対して、検索を行うように構成されている。That is, in the related word presentation device of the fourth embodiment, the display unit 8 and the search keyword input unit 91 are removed from the configuration of the related word presentation device of the third embodiment (FIG. 9). The text search unit 95 (92) is configured to obtain the search keyword information directly from the unnecessary word deletion unit 7. In other words, the search keyword input to the text search unit 95 is once displayed as a related word to the user as in the configuration of the related word presentation device (FIG. 9) of the third embodiment, and the user arbitrarily selects from the related words. The related word and the keyword information obtained by the processing step of the related word presenting apparatus of the present invention are merged into a new keyword without the operation process of selecting the text search unit 95 directly.
The text search unit 95 is configured to search the analysis information in the analysis information storage unit 1.
【0068】図10を参照して、この第4の実施例の関
連語提示装置における処理の流れを説明する。ユーザ
が、キーワード10をキーワード入力部2から入力する
と、第1の実施例の関連語提示装置と同様な処理が行わ
れて、不要語削除部7から最終的にそのキーワードに対
する関連語の情報が得られるので、不要語削除部7から
直接に、関連語情報をテキスト検索部95に送出する。
テキスト検索部95は、関連語の情報を得ると、キーワ
ード10とマージして新たなキーワード情報として、解
析情報記憶部1を検索し、得られた解析情報の文から分
割記号を除き、テキスト情報として検索結果表示部96
に送出する。検索結果表示部96は、検索結果97とし
てテキスト情報を表示する。The flow of processing in the related word presentation device of the fourth embodiment will be described with reference to FIG. When the user inputs the keyword 10 from the keyword input unit 2, the same processing as that performed by the related word presenting apparatus of the first embodiment is performed, and the unnecessary word deleting unit 7 finally obtains information about the related word for the keyword. Since it is obtained, the unnecessary word deleting unit 7 directly sends the related word information to the text searching unit 95.
When the text search unit 95 obtains the information of the related word, the text search unit 95 searches the analysis information storage unit 1 as new keyword information by merging with the keyword 10, removes the division symbol from the obtained analysis information sentence, and extracts the text information. As search result display section 96
To send to. The search result display unit 96 displays text information as the search result 97.
【0069】このように、第4の実施例の関連語提示装
置によれば、解析情報と検索対象テキストを共通化し
て、関連語提示装置が検索システムと融合され、機能的
に重複する要素が省略されている。これにより、検索シ
ステムとしては、キーワードでは、検索できない関連項
目でも検索でき、再現率が向上する。ユーザは、検索し
たい内容(キーワード)が明確でなく、更に適切なキー
ワードを入力できない場合であっても、1つのキーワー
ドを入力するだけで、入力されたキーワードの関連語か
ら目的とする検索の操作を行うことができる。As described above, according to the related word presentation device of the fourth embodiment, the related information presentation device is integrated with the search system by sharing the analysis information and the search target text, and the functionally overlapping elements are provided. Omitted. As a result, the search system can search for related items that cannot be searched with a keyword, and the recall is improved. Even if the user does not know what to search for (keyword) and cannot input a more appropriate keyword, he / she only needs to input one keyword to perform the target search operation from the related words of the input keyword. It can be performed.
【0070】第3,第4の実施例では、第1の実施例に
テキスト検索機構を追加したが、同様に第2の実施例に
テキスト検索機構を追加してもよい。In the third and fourth embodiments, the text search mechanism is added to the first embodiment, but similarly, the text search mechanism may be added to the second embodiment.
【0071】[0071]
【発明の効果】以上、説明したように、本発明の関連語
提示装置によれば、テキストを解析した形態素の情報か
ら共起頻度を利用して、その場で関連語を抽出するの
で、共起語辞書などの辞書を必要とせず、高速に関連語
を抽出できる。また、辞書を利用する場合、関連語が抽
出される語は、キーワードが辞書の見出し語に限定され
るが、本発明では関連語を抽出する対象は、テキストの
形式で情報が保持されているので、大量の情報を含み、
柔軟にキーワードを決定できる。また、関連語を抽出す
る対象のテキストを変更することにより、その分野にお
ける関連語を得ることができるという効果がある。As described above, according to the related word presentation device of the present invention, the related words are extracted on the spot using the co-occurrence frequency from the information of the morpheme obtained by analyzing the text. Related words can be extracted at high speed without the need for a dictionary such as an origination dictionary. Further, when a dictionary is used, the keywords from which the related words are extracted are limited to the headwords of the dictionary, but in the present invention, the target for extracting the related words holds information in the form of text. So it contains a lot of information,
You can flexibly determine keywords. Further, there is an effect that the related word in the field can be obtained by changing the text of the target for extracting the related word.
【図1】 図1は本発明の第1の実施例にかかる関連語
提示装置の構成を示すブロック図、FIG. 1 is a block diagram showing a configuration of a related word presentation device according to a first embodiment of the present invention,
【図2】 図2は解析情報記憶部に記憶される解析情報
の例を説明する図、FIG. 2 is a diagram illustrating an example of analysis information stored in an analysis information storage unit,
【図3】 図3は検索処理部により解析情報の中でキー
ワードと共起する名詞を求める処理を説明する図、FIG. 3 is a diagram illustrating a process of obtaining a noun co-occurring with a keyword in the analysis information by the search processing unit,
【図4】 図4は頻度テーブルに対して共起した名詞を
登録する処理を説明する図、FIG. 4 is a diagram illustrating a process of registering a co-occurring noun in a frequency table,
【図5】 図5は不要語削除部で用いる不要語リストテ
ーブルの一例を示す図、FIG. 5 is a diagram showing an example of an unnecessary word list table used by an unnecessary word deleting unit;
【図6】 図6は本発明の第1の実施例の関連語提示装
置の全体の動作の一連の処理の流れを示すブロック図、FIG. 6 is a block diagram showing the flow of a series of processes of the overall operation of the related word presentation device according to the first embodiment of the present invention;
【図7】 図7は本発明の第2の実施例にかかる関連語
提示装置の構成を示すブロック図、FIG. 7 is a block diagram showing a configuration of a related word presentation device according to a second embodiment of the present invention,
【図8】 図8は本発明の第2の実施例の関連語提示装
置の全体の動作の一連の処理の流れを示すブロック図、FIG. 8 is a block diagram showing the flow of a series of processes of the overall operation of the related word presentation device according to the second embodiment of the present invention;
【図9】 図9は本発明の第3の実施例の関連語提示装
置の構成を示すブロック図、FIG. 9 is a block diagram showing a configuration of a related word presentation device according to a third embodiment of the present invention,
【図10】 図10は本発明の第4の実施例の関連語提
示装置の構成を示すブロック図である。FIG. 10 is a block diagram showing a configuration of a related word presentation device according to a fourth exemplary embodiment of the present invention.
1…解析情報記憶部、2…キーワード入力部、3…検索
処理部、4…共起語登録部、5…頻度テーブル、6…代
表語選択部、7…不要語削除部、8…表示部、10…入
力されるキーワード、11…出力された関連語、20…
テキストデータ、21…形態素解析処理、22…解析情
報、23…キーワードの形態素情報、31…検索処理、
32…解析情報の1文、33…インデックテーブル、4
1…形態素テーブル、42…複合語テーブル、50…不
要語リストテーブル、71…テキスト記憶部、72…検
索解析部、90…キーワード、91…検索キーワード入
力部、92…テキスト検索部、93…検索結果表示部、
94…検索結果、95…テキスト検索部、96…検索結
果表示部、97…検索結果。1 ... Analysis information storage unit, 2 ... Keyword input unit, 3 ... Search processing unit, 4 ... Co-occurrence word registration unit, 5 ... Frequency table, 6 ... Representative word selection unit, 7 ... Unnecessary word deletion unit, 8 ... Display unit 10 ... Input keyword, 11 ... Output related word, 20 ...
Text data, 21 ... Morphological analysis processing, 22 ... Analysis information, 23 ... Keyword morphological information, 31 ... Search processing,
32 ... 1 sentence of analysis information, 33 ... Index table, 4
1 ... Morphological table, 42 ... Compound word table, 50 ... Unnecessary word list table, 71 ... Text storage section, 72 ... Search analysis section, 90 ... Keywords, 91 ... Search keyword input section, 92 ... Text search section, 93 ... Search Result display,
94 ... Search result, 95 ... Text search section, 96 ... Search result display section, 97 ... Search result.
Claims (4)
示する関連語提示装置であって、 前記テキストを記憶する記憶手段と、 キーワードを受け付けるキーワード入力手段と、 前記キーワード入力手段で入力されたキーワードにより
前記記憶手段の内容を検索し、キーワードと前記テキス
トの所定の範囲で共起した語を抽出する検索処理手段
と、 前記検索処理手段で抽出された名詞を前記テキストでの
出現頻度と共に頻度テーブルに登録する共起語登録手段
と、 前記頻度テーブルのデータから代表語を出現頻度に基づ
いて選択する代表語選択手段と、 前記代表語選択手段で選択された代表語から不要語を削
除する不要語削除手段と、 前記不要語削除手段で不要語が削除された代表語を表示
する表示手段とを備えることを特徴とする関連語提示装
置。1. A related word presentation device for extracting a related word from a text of a document and presenting the related word, the storage means storing the text, a keyword input means for receiving a keyword, and a keyword input means for inputting the keyword. A search processing unit that searches the contents of the storage unit by a keyword and extracts a word that co-occurs in a predetermined range of the keyword and the text; and a noun extracted by the search processing unit together with the frequency of appearance in the text. Co-occurrence word registering means for registering in the table, representative word selecting means for selecting a representative word from the data of the frequency table based on the appearance frequency, and deleting unnecessary words from the representative word selected by the representative word selecting means. A related word characterized by comprising unnecessary word deleting means and display means for displaying a representative word from which unnecessary words are deleted by the unnecessary word deleting means. Display devices.
示する関連語提示装置であって、 テキストを形態素解析した解析情報を記憶する解析情報
記憶部と、 キーワードを受け付け形態素解析を行うキーワード入力
部と、 前記キーワード入力部で形態素解析されたキーワードに
より前記解析情報記憶部の解析情報を検索し、キーワー
ドと前記テキストの所定範囲で共起した名詞を抽出する
検索処理部と、 前記検索処理部で抽出された名詞を前記テキストでの出
現頻度と共に頻度テーブルに登録する共起語登録部と、 前記頻度テーブルのデータから代表語を出現頻度に基づ
いて選択する代表語選択部と、 前記代表語選択部で選択された代表語から事前に指定し
た不要語を削除する不要語削除部と、 不要語が削除された代表語を表示する表示部とを備える
ことを特徴とする関連語提示装置。2. A related word presentation device for extracting a related word from a text of a document and presenting the related word, wherein an analysis information storage section for storing analysis information obtained by performing a morpheme analysis of the text, and a keyword input for accepting a keyword and performing a morpheme analysis. Unit, a search processing unit that searches the analysis information in the analysis information storage unit by a keyword morphologically analyzed by the keyword input unit, and extracts a noun co-occurring in a predetermined range of the keyword and the text; A co-occurrence word registration unit that registers the noun extracted in step 1 in the frequency table together with the appearance frequency in the text, a representative word selection unit that selects a representative word from the data in the frequency table based on the appearance frequency, and the representative word An unnecessary word deletion unit that deletes unnecessary words that have been specified in advance from the representative words selected in the selection unit, and a display unit that displays the representative words from which unnecessary words have been deleted Related word presentation device, characterized in that it comprises a.
示する関連語提示装置であって、 前記文書のテキストを記憶するテキスト記憶部と、 キーワードを受け付け形態素解析を行うキーワード入力
部と、 キーワードによりテキスト記憶部のテキストを検索し、
検索結果の形態素解析を行い、キーワードと共起した名
詞を抽出する検索解析部と、 抽出された名詞を頻度と共に頻度テーブルに登録する共
起語登録部と、 頻度テーブルのデータから代表語を選択する代表語選択
部と、 選択された代表語から事前に指定した不要語を削除する
不要語削除部と、 不要語が削除された代表語を表示する表示部とを備える
ことを特徴とする関連語提示装置。3. A related word presentation device for extracting a related word from a text of a document and presenting the related word, wherein a text storage unit for storing the text of the document, a keyword input unit for receiving a keyword and performing a morphological analysis, and a keyword Search the text in the text storage area with
A morphological analysis of the search results is performed to extract nouns that co-occur with the keyword, a co-occurrence word registration unit that registers the extracted nouns in the frequency table together with the frequency, and a representative word is selected from the data in the frequency table. Related word selection unit, an unnecessary word deletion unit that deletes unnecessary words specified in advance from the selected representative word, and a display unit that displays a representative word from which unnecessary words have been deleted. Word presentation device.
示装置において、 前記共起語登録部は、出現頻度を頻度テーブルに登録す
る場合、出現頻度テーブルに、抽出した名詞の形態素と
該名詞の元の複合語とを対応づけて登録し、 代表語選択部は、頻度テーブルに登録された頻度に応じ
て形態素と元の複合語のデータから代表語を選択するこ
とを特徴とする関連語提示装置。4. The related word presentation device according to claim 2, wherein the co-occurrence word registration unit registers the extracted noun morpheme and the morpheme in the appearance frequency table when the appearance frequency is registered in the frequency table. A relation characterized by registering the original compound word of the noun in association with each other, and the representative word selecting unit selecting the representative word from the data of the morpheme and the original compound word according to the frequency registered in the frequency table. Word presentation device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7210194A JPH0944523A (en) | 1995-07-27 | 1995-07-27 | Relative word display device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7210194A JPH0944523A (en) | 1995-07-27 | 1995-07-27 | Relative word display device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0944523A true JPH0944523A (en) | 1997-02-14 |
Family
ID=16585349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7210194A Pending JPH0944523A (en) | 1995-07-27 | 1995-07-27 | Relative word display device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0944523A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203311A (en) * | 1998-01-13 | 1999-07-30 | Fujitsu Ltd | Device for extracting related word and method therefor and computer readable recording medium for recording related word extraction program |
JP2002117043A (en) * | 2000-10-11 | 2002-04-19 | Ricoh Co Ltd | Device and method for document retrieval, and recording medium with recorded program for implementing the same method |
JP2002297651A (en) * | 2001-03-30 | 2002-10-11 | Nec Corp | Method and system for information retrieval, and program |
JP2004164662A (en) * | 2003-12-24 | 2004-06-10 | Just Syst Corp | Search device, search method, and information recording medium |
JP2004280259A (en) * | 2003-03-13 | 2004-10-07 | National Institute Of Information & Communication Technology | Search device |
JP2007018068A (en) * | 2005-07-05 | 2007-01-25 | Toshiba Corp | Device, method, and program for retrieving information |
JP2007328713A (en) * | 2006-06-09 | 2007-12-20 | Fuji Xerox Co Ltd | Related term display device, searching device, method thereof, and program thereof |
JP2015118676A (en) * | 2013-12-20 | 2015-06-25 | 三菱電機株式会社 | Guide term extraction device, design item extraction system, and guide term extraction method |
JP2016170816A (en) * | 2005-02-28 | 2016-09-23 | サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー | Search method and search system |
JP2017062716A (en) * | 2015-09-25 | 2017-03-30 | 富士通株式会社 | Calibration support device, calibration support method and calibration support program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63136224A (en) * | 1986-11-28 | 1988-06-08 | Nippon Telegr & Teleph Corp <Ntt> | Automatic key word extracting device |
JPH05189487A (en) * | 1991-08-16 | 1993-07-30 | Xerox Corp | Method and apparatus for searching conversational database |
JPH0756948A (en) * | 1993-08-09 | 1995-03-03 | Fuji Xerox Co Ltd | Information retrieval device |
JPH0793345A (en) * | 1993-09-20 | 1995-04-07 | Toshiba Corp | Document retrieval device |
-
1995
- 1995-07-27 JP JP7210194A patent/JPH0944523A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63136224A (en) * | 1986-11-28 | 1988-06-08 | Nippon Telegr & Teleph Corp <Ntt> | Automatic key word extracting device |
JPH05189487A (en) * | 1991-08-16 | 1993-07-30 | Xerox Corp | Method and apparatus for searching conversational database |
JPH0756948A (en) * | 1993-08-09 | 1995-03-03 | Fuji Xerox Co Ltd | Information retrieval device |
JPH0793345A (en) * | 1993-09-20 | 1995-04-07 | Toshiba Corp | Document retrieval device |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203311A (en) * | 1998-01-13 | 1999-07-30 | Fujitsu Ltd | Device for extracting related word and method therefor and computer readable recording medium for recording related word extraction program |
JP2002117043A (en) * | 2000-10-11 | 2002-04-19 | Ricoh Co Ltd | Device and method for document retrieval, and recording medium with recorded program for implementing the same method |
JP2002297651A (en) * | 2001-03-30 | 2002-10-11 | Nec Corp | Method and system for information retrieval, and program |
JP2004280259A (en) * | 2003-03-13 | 2004-10-07 | National Institute Of Information & Communication Technology | Search device |
JP2004164662A (en) * | 2003-12-24 | 2004-06-10 | Just Syst Corp | Search device, search method, and information recording medium |
US11341144B2 (en) | 2005-02-28 | 2022-05-24 | Pinterest, Inc. | Methods of and systems for searching by incorporating user-entered information |
US11977554B2 (en) | 2005-02-28 | 2024-05-07 | Pinterest, Inc. | Methods of and systems for searching by incorporating user-entered information |
JP2016170816A (en) * | 2005-02-28 | 2016-09-23 | サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー | Search method and search system |
US11693864B2 (en) | 2005-02-28 | 2023-07-04 | Pinterest, Inc. | Methods of and systems for searching by incorporating user-entered information |
US10311068B2 (en) | 2005-02-28 | 2019-06-04 | Pinterest, Inc. | Methods of and systems for searching by incorporating user-entered information |
JP2007018068A (en) * | 2005-07-05 | 2007-01-25 | Toshiba Corp | Device, method, and program for retrieving information |
JP2007328713A (en) * | 2006-06-09 | 2007-12-20 | Fuji Xerox Co Ltd | Related term display device, searching device, method thereof, and program thereof |
JP2015118676A (en) * | 2013-12-20 | 2015-06-25 | 三菱電機株式会社 | Guide term extraction device, design item extraction system, and guide term extraction method |
JP2017062716A (en) * | 2015-09-25 | 2017-03-30 | 富士通株式会社 | Calibration support device, calibration support method and calibration support program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6055528A (en) | Method for cross-linguistic document retrieval | |
JP5740029B2 (en) | System and method for improving interactive search queries | |
US7783644B1 (en) | Query-independent entity importance in books | |
US6904429B2 (en) | Information retrieval apparatus and information retrieval method | |
US7516125B2 (en) | Processor for fast contextual searching | |
US5940624A (en) | Text management system | |
US8135717B2 (en) | Processor for fast contextual matching | |
US20050203900A1 (en) | Associative retrieval system and associative retrieval method | |
JPH11120203A (en) | Method for combining data base and device for retrieving document from data base | |
JPH0484271A (en) | Intra-information retrieval device | |
JPH0944523A (en) | Relative word display device | |
JPH0628403A (en) | Document retrieving device | |
US5682543A (en) | Dictionary editing apparatus | |
JP2002183175A (en) | Text mining method | |
JP2519121B2 (en) | Information retrieval device | |
JPH09101969A (en) | Method and device for retrieving all sentences by using suitable feedback | |
JP3578618B2 (en) | Document splitting device | |
JPH0991297A (en) | Method and device for character string retrieval | |
JP3710463B2 (en) | Translation support dictionary device | |
JPH10340271A (en) | Document abstract preparation device, and storage medium where document abstract generation program is recorded | |
AU668073B2 (en) | A text management system | |
JP2004280323A (en) | Question document summarization device, question response search device, and question document summarization program | |
JPH0785040A (en) | Inscription nonuniformity detecting method and kana/ kanji converting method | |
JPH08249341A (en) | Document storage and retrieval device for document data base | |
JP2003263458A (en) | Method and device for analyzing text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040420 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040621 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041005 |