JP3464055B2 - Keyword extraction device - Google Patents

Keyword extraction device

Info

Publication number
JP3464055B2
JP3464055B2 JP23457594A JP23457594A JP3464055B2 JP 3464055 B2 JP3464055 B2 JP 3464055B2 JP 23457594 A JP23457594 A JP 23457594A JP 23457594 A JP23457594 A JP 23457594A JP 3464055 B2 JP3464055 B2 JP 3464055B2
Authority
JP
Japan
Prior art keywords
keyword
candidate
candidates
degree
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23457594A
Other languages
Japanese (ja)
Other versions
JPH0895982A (en
Inventor
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP23457594A priority Critical patent/JP3464055B2/en
Publication of JPH0895982A publication Critical patent/JPH0895982A/en
Application granted granted Critical
Publication of JP3464055B2 publication Critical patent/JP3464055B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書からキーワードを
抽出するキーワード抽出装置に関し、文書登録装置、文
書検索装置等に応用できる。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a keyword extracting device for extracting a keyword from a document, and can be applied to a document registering device, a document searching device and the like.

【0002】[0002]

【従来の技術】文書中からキーワードを抽出すること
は、文書の検索や分類のために重要な技術である。通
常、文書中からキーワードを抽出するためには、形態素
解析技術により、単語分割し、品詞付けを行い、そのう
ちの特定の品詞(特に名詞)の単語についてそのキーワ
ードとするか否かを評価する。これは、対象分野での専
門用語であることからその単語のキーワード性に着目し
て抽出する方法(特開昭62−287337号)、ある
いは複合語のキーワードを抽出する場合には、その複合
語を構成する単語のキーワード性や複合語構成上の役割
に基づき判定する方法(「短単位キーワードに基づくテ
キストデータベースシステム」;小川 他;情報処理学
会 データベース研究会90-6, 1992.9.11、46〜47ペー
ジ)がある。しかしながら、こうした判定に用いる情報
は、基本的にはそれらの情報を辞書に格納することを前
提とするが、こうした情報を設定・保守することは容易
ではない。そこで、こうしたキーワードのための情報を
必要とせずに、キーワード候補を文字種により判別する
方法(特開昭64−28770号)や、単語の長さとそ
の使用頻度に基づいてキーワード性を計算する抽出装置
(特開昭63−244259号)が提案されている。
2. Description of the Related Art Extracting a keyword from a document is an important technique for searching and classifying a document. Usually, in order to extract a keyword from a document, words are divided and part-of-speech is applied by a morphological analysis technique, and it is evaluated whether or not a word having a specific part-of-speech (particularly noun) is used as the keyword. Since this is a technical term in the target field, a method of extracting by paying attention to the keyword property of the word (Japanese Patent Laid-Open No. 62-287337) or a compound word when extracting a keyword of the compound word Judgment Method Based on Keyword Characters of Words Constituting Words and Roles in Compound Word Construction (“text database system based on short unit keywords”; Page 47). However, information to be used for such determination, the basically assumed to store the information in the dictionary, the easy to configure and maintenance of such information
Not . Therefore, a method for discriminating keyword candidates by character type without the need for information for such keywords (Japanese Patent Laid-Open No. 64-28770) or an extraction device for calculating keyword characteristics based on the length of a word and its frequency of use (JP-A-63-244259) has been proposed.

【0003】[0003]

【発明が解決しようとする課題】キーワードがその文書
の重要な部分を特徴付けるものであると考えると、その
ような特徴を現すものとして専門性・特殊性が高い単語
程その特徴を現し易いといえる。また、複数の単語が複
合した複合語は、こうした専門性・特殊性を現し易いと
いえる。このような観点から、本発明の目的は、従来の
課題を解決するためキーワード候補の単語の複合度を用
いることにより、辞書にキーワードのための情報をもつ
のを回避しつつ、より的確なキーワード性の評価を行う
キーワード抽出装置を提供することを目的とする。さら
にまた、形態素解析系を用いず、簡易にキーワード候補
を抽出する場合、キーワード候補の長さから単語の複合
度を簡易に得て、全体として、キーワードの評価を簡易
に行うキーワード抽出装置を提供することを目的とす
る。さらにまた、従来単語の出現頻度を考慮したキーワ
ード候補の評価には、同一の単語候補については、それ
ぞれ計数されるが、類似の単語が出現する場合は、それ
ぞれ別個に計数されるため、各々の出現頻度は小さくな
ってしまうという欠点があった。このように本発明で
は、キーワード候補間に類似性がある場合に、その類似
度により双方のキーワード候補の頻度を仮に高めること
で、キーワード性の評価を改善するキーワード抽出装置
を提供することを目的とする。さらにまた、キーワード
間の類似性は、通常類義語辞書等が必要になり、その開
発・保守が容易ではないため、キーワード候補間の類似
性を文字列の重複度で代替することで、キーワード間の
類似性を簡易に判断するキーワード抽出装置を提供する
ことを目的とする。さらにまた、本発明で得られたキー
ワード性の評価の高い順にキーワード(候補)を並べて
表示することにより、文書の特徴を的確に表示するキー
ワード抽出装置を提供することを目的とする。
Considering that a keyword characterizes an important part of the document, it can be said that a word having a higher degree of specialization / speciality as such characteristic is more likely to exhibit the characteristic. . Further, it can be said that a compound word in which a plurality of words are compounded is likely to show such specialization and peculiarity. From such a viewpoint, the object of the present invention is to use the degree of complexity of the words of the keyword candidates in order to solve the conventional problems, thereby avoiding having information for the keywords in the dictionary, and more accurate keywords. An object of the present invention is to provide a keyword extraction device that evaluates sex. Furthermore, when a keyword candidate is easily extracted without using a morphological analysis system, a keyword extraction device that easily obtains the degree of word complexity from the length of the keyword candidate and easily evaluates the keyword as a whole is provided. The purpose is to do. Furthermore, in the conventional evaluation of keyword candidates considering the appearance frequency of words, the same word candidates are counted respectively, but when similar words appear, they are counted separately, so There was a drawback that the appearance frequency would be small. As described above, in the present invention, when there is similarity between keyword candidates, it is an object to provide a keyword extraction device that improves the evaluation of keyword property by temporarily increasing the frequency of both keyword candidates based on the similarity. And Furthermore, since similarity between keywords usually requires a synonym dictionary, etc., and its development and maintenance are not easy. Therefore, by substituting the similarity between keyword candidates by the degree of duplication of character strings, It is an object of the present invention to provide a keyword extracting device that easily determines similarity. Furthermore, another object of the present invention is to provide a keyword extracting device that accurately displays the characteristics of a document by displaying keywords (candidates) arranged in the descending order of the keyword evaluation obtained by the present invention.

【0004】[0004]

【課題を解決するための手段】請求項1記載の発明で
は、電子化された文書に対し、キーワード候補を抽出す
キーワード候補抽出手段と、抽出されたキーワード
候補を評価するキーワード候補評価手段とを有するキー
ワード抽出装置において、前記キーワード候補評価手段
前記文書中における前記キーワード候補の出現頻度
と、前記キーワード候補を構成する単語の複合度とに基
づいて求めた評価値によってキーワード候補を評価する
ことを特徴とする。
The [Summary of invention of claim 1 wherein, with respect to electronic documents, to extract keywords candidate
And keyword candidate extraction unit that, in the keyword extracting device and a keyword candidate evaluating means for evaluating the keyword candidates said extraction, wherein the keyword candidate evaluating means frequency of occurrence of the keyword candidate during the document
And the degree of compounding of the words that form the keyword candidates.
It is characterized in that the keyword candidates are evaluated based on the evaluation value obtained based on the above.

【0005】請求項2の発明では、請求項1のキーワー
ド抽出装置において、キーワード候補抽出手段は電子化
文書の文字種の並びにより抽出し、キーワード候補評価
手段は、前記キーワード候補を構成する単語の複合度を
キーワード候補の文字列の種類と長さに応じて評価する
ことを特徴とする。
According to a second aspect of the present invention, in the keyword extracting device of the first aspect, the keyword candidate extracting means extracts the character types of the electronic document according to the arrangement, and the keyword candidate evaluating means combines the words constituting the keyword candidates. The feature is that the degree is evaluated according to the type and length of the character string of the keyword candidate.

【0006】請求項3の発明は、請求項1あるいは請求
項2のキーワード抽出装置において、キーワード候補抽
出手段は、各キーワード候補ごとの出現頻度を計数し、
キーワード候補評価手段は、当該電子化文書中での出現
頻度にも応じてキーワード候補を評価し、キーワード候
補の出現頻度を他のキーワード候補との類似度とその頻
度により調整するようにしたことを特徴とする。
According to a third aspect of the invention, in the keyword extracting device according to the first or second aspect, the keyword candidate extracting means counts the appearance frequency of each keyword candidate,
The keyword candidate evaluation means evaluates the keyword candidates in accordance with the frequency of appearance in the electronic document, and adjusts the frequency of appearance of the keyword candidates according to the degree of similarity with other keyword candidates and the frequency thereof. Characterize.

【0007】請求項4の発明は、請求項3のキーワード
抽出装置において、キーワード候補評価手段は、キーワ
ード候補間の類似度の代わりにキーワード候補の文字列
の文字の重複度を用いることを特徴とする。
According to a fourth aspect of the present invention, in the keyword extracting device according to the third aspect, the keyword candidate evaluation means uses the degree of overlap of characters of the character string of the keyword candidate instead of the similarity between the keyword candidates. To do.

【0008】請求項5の発明は、請求項1乃至請求項4
のキーワード抽出装置において、抽出されたキーワード
をキーワード候補評価手段による評価が高い順に並べて
表示する手段を付加したことを特徴とする。
The invention of claim 5 is the first to fourth aspects of the invention.
In the keyword extraction device, the means for displaying the extracted keywords arranged in order from the highest evaluation by the keyword candidate evaluation means is added.

【0009】[0009]

【作用】本発明は、入力またはすでにファイルとして存
在する電子化された文書に対し、キーワード候補抽出手
段によって、この電子化文書の文字種の並びによりキー
ワード候補を抽出するとともに、各キーワード候補ごと
の出現頻度をも計数する。次に、キーワード候補評価手
段によって、そのキーワード候補の単語の文字列の種類
と長さに応じて複合度を求めるとともに、他のキーワー
ド候補との類似度とその頻度により調整した当該キーワ
ード候補の出現頻度を求めてキーワード候補を評価す
る。または、キーワード候補間の類似度の代わりにキー
ワード候補の文字列の文字の重複度を用いて評価する。
このようにして抽出されたキーワード候補をキーワード
候補評価手段による評価が高い順に並べて表示すること
により、文書内容の特性を容易に認識できる。
According to the present invention, the keyword candidates are extracted by the keyword candidate extraction means from the digitized document that has already been input or already existed as a file, and the keyword candidates are extracted and the appearance of each keyword candidate appears. Frequency is also counted. Next, the keyword candidate evaluation means obtains the degree of complexity according to the type and length of the character string of the word of the keyword candidate, and the appearance of the keyword candidate adjusted by the degree of similarity with other keyword candidates and its frequency. Evaluate keyword candidates for frequency. Alternatively, instead of the similarity between the keyword candidates, the degree of overlap of characters in the character string of the keyword candidates is used for evaluation.
By displaying the keyword candidates extracted in this way in order from the highest evaluation by the keyword candidate evaluation means, the characteristics of the document contents can be easily recognized.

【0010】本発明は、単語の複合度による専門性・特
殊性を加えることで、辞書にキーワードのための情報を
もつのを回避しつつ、より的確なキーワード性の評価を
行うことができる。また、形態素解析系を用いないの
で、キーワードの抽出が簡易且つスピードが速く行え
る。また、類似したキーワード候補の出現頻度を共に高
めることによって、単独では出現頻度が小さくとも類似
性のあるキーワード候補のキーワード性を高めることが
でき、その評価を改善することができる。
According to the present invention, it is possible to perform a more accurate evaluation of the keyword property while avoiding having the information for the keyword in the dictionary by adding the specialty / specificity depending on the degree of compounding of the word. Moreover, since a morphological analysis system is not used, keyword extraction can be performed easily and quickly. In addition, by increasing the appearance frequencies of similar keyword candidates together, it is possible to improve the keyword property of a keyword candidate that is similar even if the appearance frequency is small by itself, and improve its evaluation.

【0011】[0011]

【実施例】本発明の一実施例を図1乃至図8に基づいて
詳細に説明する。図1は本発明のキーワード抽出装置を
説明するための構成図である。図1において、電子化文
書1は、外部から入力されたファイルまたはすでにファ
イルとして存在している電子化された文書である。キー
ワード候補抽出手段2は、この電子化文書の文字種の並
びによりキーワード候補を抽出する。出現頻度計数手段
5は、その抽出された各キーワード候補ごとの出現頻度
を計数する。単語複合度評価手段6は、そのキーワード
候補の単語の文字列の種類と長さに応じて複合度を求め
る。出現頻度評価手段7は、他のキーワード候補との類
似度とその頻度により調整した当該キーワード候補の出
現頻度を求めるか、または、キーワード候補間の類似度
の代わりにキーワード候補の文字列の文字の重複度を用
いて求める場合もある。キーワード候補評価手段3は、
単語複合度評価手段6及び出現頻度評価手段7よって求
められた複合度及び出現頻度に応じてキーワード候補を
評価する。キーワード候補表示手段4は、このようにし
て抽出されたキーワード候補をキーワード候補評価手段
3による評価が高い順に並べて表示する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described in detail with reference to FIGS. FIG. 1 is a block diagram for explaining the keyword extracting device of the present invention. In FIG. 1, a computerized document 1 is a file input from the outside or a computerized document that already exists as a file. The keyword candidate extraction means 2 extracts keyword candidates from the character type list of this electronic document. The appearance frequency counting means 5 counts the appearance frequency of each of the extracted keyword candidates. The word complexity evaluation means 6 calculates the complexity according to the type and length of the character string of the keyword candidate word. The appearance frequency evaluation unit 7 obtains the appearance frequency of the keyword candidate adjusted based on the similarity with other keyword candidates and the frequency thereof, or instead of the similarity between keyword candidates, In some cases, the degree of overlap is used for the calculation. The keyword candidate evaluation means 3 is
The keyword candidates are evaluated according to the degree of complexity and the appearance frequency obtained by the word degree of complexity evaluation unit 6 and the appearance frequency evaluation unit 7. The keyword candidate display means 4 displays the keyword candidates extracted in this way in order from the highest evaluation by the keyword candidate evaluation means 3.

【0012】本実施例では、図2で示すような内容を持
った電子化文書を例にとって説明することにする。この
電子化文書をキーワード候補抽出手段2によりキーワー
ド候補を抽出し、出現頻度計数手段5により出現頻度を
カウントし、それらを出現頻度別に示したものを図3に
示す。出現頻度は各リスト頭の'[ ]'内に示してある。
尚、キーワード候補は、漢字やカタカナ、英数字の同一
文字種の文字の並びで検出したり、単語分割及び品詞付
与を行う形態素解析系を使ったり、既存の方法を使って
抽出すれば良い。
In this embodiment, an electronic document having the contents shown in FIG. 2 will be described as an example. FIG. 3 shows the computerized document in which the keyword candidates are extracted by the keyword candidate extraction means 2, the appearance frequencies are counted by the appearance frequency counting means 5, and the appearance frequencies are shown for each appearance frequency. The frequency of occurrence is shown in the '[]' at the beginning of each list.
It should be noted that the keyword candidates may be detected by an arrangement of characters of the same character type such as kanji, katakana, and alphanumeric characters, a morphological analysis system that performs word division and part-of-speech assignment, or may be extracted using an existing method.

【0013】(1)請求項1の発明 一般に、漢字複合語は、複数の単語に分割することがで
きる。例えば、「輸出貿易管理令」なる複合語は、「輸
出」、「貿易」、「管理令」の各単語に分割できる。
尚、単語によっては、接頭辞(語)、接尾辞(語)を分
割することができる。上記の「管理令」は単語基「管
理」と接尾語「令」に分割できる。ここで分割点を表す
記号を次ぎのように定める。 「|」により単語の分割点、 「.」により接頭辞(語)、接尾辞(語)と単語基の分
割点 「輸出貿易管理令」は「輸出|貿易|管理.令」 と表される。こうした分割は、形態素解析系の結果とし
て得られる。キーワード候補抽出を文字種により抽出し
た場合は、各キーワード候補に対して、接頭辞(語)、
接尾辞(語)を含む単語辞書により容易に分割すること
ができる。このように抽出されたキーワード候補に、本
発明では、単語複合度評価手段6により単語の複合度を
キーワード性の評価を加える。即ち、「輸出貿易管理
令」の複合度は3、「輸出規制」の複合度は2とする。
図4に、このように単語の複合度別に抽出された各キー
ワード候補を接頭辞(語)、接尾辞(語)及び単語へ分
割したものを示す。各リスト頭の'[ ]'内の数字は単語
の複合度を表している。
(1) Invention of Claim 1 In general, a kanji compound word can be divided into a plurality of words. For example, the compound word "Export Trade Control Order" can be divided into the words "Export", "Trade", and "Control Order".
Depending on the word, the prefix (word) and the suffix (word) can be divided. The above "management order" can be divided into a word group "management" and a suffix "order". Here, the symbols representing the dividing points are defined as follows. The division point of the word by "|", the prefix (word) by ".", The division point of the suffix (word) and the word base "Export Trade Control Order" is expressed as "Export | Trade | Control. Order" . Such a division is obtained as a result of the morphological analysis system. When extracting keyword candidates by character type, prefix (word),
It can be easily divided by a word dictionary including suffixes (words). In the present invention, the word complexity is evaluated by the word complexity evaluation means 6 to the keyword candidates thus extracted. That is, the degree of complexity of the "Export Trade Control Ordinance" is 3, and the degree of complexity of "Export Control" is 2.
FIG. 4 shows each of the keyword candidates extracted according to the degree of compounding of the word, divided into a prefix (word), a suffix (word) and a word. The number in '[]' at the beginning of each list indicates the degree of word complexity.

【0014】単語の複合度をキーワード性の評価に加え
る方法はいろいろあるが、ここでは文書での出現頻度と
合わせて評価するとして、例えば、両者の積をもってキ
ーワード性を表わす指標値とし、図5に示す表を得る。
ここで各リスト頭の'[ ]'内の数字はキーワード性の指
標値を表している。'{ }'内の各数字は、出現頻度と単
語の複合度をそれぞれ示している。尚、出現頻度は、キ
ーワード候補の抽出時に行えばよい。例えば、閾値を最
大の指標値の1/2以上とすれば、次の10語がキーワ
ードとして採用される。 [6]:{3,2}:輸出規制 [4]:{2,2}:工業製品 {2,2}:特定地域 {1,4}:対共産圏輸出統制委員会 [3]:{3,1}:イラク {3,1}:輸出 {1,3}:朝鮮民主主義共和国 {1,3}:主要先進七カ国 {1,3}:輸出貿易管理令 {1,3}:通常兵器関連
There are various methods of adding the degree of word complexity to the evaluation of keyword property. Here, it is assumed that evaluation is performed together with the frequency of appearance in a document. For example, the product of the two is used as an index value indicating the keyword property, and FIG. The table shown in is obtained.
Here, the number in "[]" at the head of each list represents the index value of keyword property. Each number in '{}' represents the frequency of occurrence and the degree of word complexity. The appearance frequency may be set when the keyword candidates are extracted. For example, if the threshold is set to 1/2 or more of the maximum index value, the next 10 words are adopted as keywords. [6]: {3,2}: Export restrictions [4]: {2,2}: Industrial products {2,2}: Specific areas {1,4}: Export control committee for communist areas [3]: { 3,1}: Iraq {3,1}: Export {1,3}: Democratic Republic of Korea {1,3}: Seven major advanced countries {1,3}: Export trade control order {1,3}: Normal Weapons related

【0015】(2)請求項2の発明 本請求項2の発明は、単語複合度評価手段6における単
語の複合度を形態素解析系あるいは単語辞書を用いずに
簡易的に求めるようにしたものである。一般の漢字複合
語は、2文字の単語に、場合によってはそれに1文字の
接頭辞あるいは接尾辞の付加した単語の連接から構成さ
れることが知られている(「国語漢字の記憶と日本語文
の自動分割」;長尾 他;情報処理 Vol.19 No.6, 197
8、518〜520ページ)。そこで、キーワード候補の漢字
文字列の長さと単語の複合度を例えば次のように近似す
ることができる。 --------------------------------------------------------------- 漢字文字数: 1〜3 4〜5 6〜8 9〜11 12〜14 ・・・ 単語複合度: 1 2 3 4 5 ・・・ --------------------------------------------------------------- カタカナ、英数字の文字列については、「コンピュータ
・グラフィックス」のように単語の切れ目(中点、斜線
や空白等の区切り)が入っているものとして、この切れ
目によって複合度を測るものとする。ただし、このよう
な切れ目を挿入しない場合もあるので、7、8文字を単
位に1単語に対応させるようなことも必要になる場合も
ある。いずれにしても、文字列の文字種に応じて、その
長さに単語の複合度の近似値とを対応させる。尚、近似
値は、上のように整数でなくとも、長さLに対してL/
3にように実数としてもよい。図6に、上に示した基準
による近似複合度別のキーワード候補を示す。図4と比
較してわかるように、「朝鮮民主主義共和国」の複合度
が1つ大きくなった以外に相違はない。従って、出現頻
度と単語の近似複合度との積をキーワード性の評価値と
した場合でも、ほとんど変わらない結果を得ることがで
きる。
(2) Invention of Claim 2 The invention of Claim 2 is such that the degree of word complexity in the word degree-of-complexity evaluation means 6 is simply determined without using a morphological analysis system or word dictionary. is there. It is known that a general kanji compound word consists of a concatenation of two-letter words , sometimes with a one-letter prefix or suffix added to it (see “Kanji Kanji Memory and Japanese Sentences”). Automatic division of information ”; Nagao et al .; Information processing Vol.19 No.6, 197
8, pages 518-520). Therefore, the length of the Kanji character string of the keyword candidate and the degree of compounding of the word can be approximated as follows, for example. -------------------------------------------------- ------------- Number of Kanji characters: 1-3 4-5 6-8 9-11 12-14 ・ ・ ・ Word complexity: 1 2 3 4 5 ・ ・ ・ ---- -------------------------------------------------- --------- For katakana and alphanumeric character strings, it is assumed that there are word breaks (delimiters such as midpoints, diagonal lines and spaces) as in "Computer Graphics". The degree of compositeness shall be measured by the break. However, since such a break may not be inserted in some cases, it may be necessary to correspond to one word in units of 7 or 8 characters. In any case, the length is made to correspond to the approximate value of the degree of compounding of the word, depending on the character type of the character string. Note that the approximate value is L / L for the length L, even if it is not an integer as above.
It may be a real number such as 3. FIG. 6 shows keyword candidates according to the approximate complexity based on the above criteria. As can be seen by comparing with Figure 4, there is no difference except that the compositeness of the "Democratic Republic of Korea" has increased by one. Therefore, even when the product of the appearance frequency and the approximate degree of complexity of the word is used as the evaluation value of the keyword property, it is possible to obtain a result that hardly changes.

【0016】(3)請求項3及び請求項4の発明 これまでの説明の出現頻度計数手段5では、「加工機
械」と「工作機械」や「輸出規制」と「輸出管理令」の
ように類似したキーワード候補であっても、独立に出現
頻度を計数する。しかし、このように類似の用語が出現
するということは、お互いに表現上で強め合っており、
キーワード性も高まっていると考えることができる。そ
こで、出現頻度評価手段7では、2つのキーワード候補
間に類似度を定め、出現したキーワード候補の値に応じ
て、他の類似キーワード候補の出現頻度をも増加させ、
そのキーワード性を高めるようにする。例えば、2つの
キーワード候補A、Bに対し、類似度をα(A,B)と
定めるとする。ここでα(A,B)の値は、0〜1の間
の値をとるものとする。また、キーワード候補A、Bの
出現頻度をそれぞれF(A)、F(B)とする。出現頻
度を増加させる方法は、例えば、相手の出現頻度と類似
度の積をとり、 Aに対しては F(B)×α(A,B) Bに対しては F(A)×α(A,B) を増加させる。この増加は、自身を除く全てのキーワー
ド候補との間で行うので、キーワード候補の集合をKと
すれば、Aの増加分は、 ΣF(X)×α(A,X)(ここで、X∈K、X≠A) となる。これに自身の出現頻度を加えて、変更された出
現頻度(以下、「疑似出現頻度」と呼ぶ)する。α
(A,A)=1であるので、疑似出現頻度は、次のよう
になる。 ΣF(X)×α(A,X) X∈K
(3) Inventions of Claims 3 and 4 In the appearance frequency counting means 5 of the above description, the "processing machine" and "machine tool" or "export control" and "export control order" are used. Even for similar keyword candidates, the frequency of appearance is counted independently. However, the appearance of similar terms in this way reinforces each other in terms of expression,
It can be considered that the keyword nature is also increasing. Therefore, the appearance frequency evaluation unit 7 determines the degree of similarity between the two keyword candidates and increases the appearance frequency of other similar keyword candidates according to the value of the keyword candidate that appears.
Try to enhance the keyword. For example, it is assumed that the similarity is set to α (A, B) for the two keyword candidates A and B. Here, the value of α (A, B) takes a value between 0 and 1. Also, the appearance frequencies of the keyword candidates A and B are F (A) and F (B), respectively. As a method of increasing the appearance frequency, for example, the product of the appearance frequency of the opponent and the similarity is taken, and F (B) × α (A, B) for A is F (A) × α ( A, B) is increased. Since this increase is performed with all the keyword candidates other than itself, if the set of keyword candidates is K, the increase amount of A is ΣF (X) × α (A, X) (where X ΕK, X ≠ A). The appearance frequency of itself is added to this, and the changed appearance frequency (hereinafter, referred to as “pseudo appearance frequency”). α
Since (A, A) = 1, the pseudo appearance frequency is as follows. ΣF (X) × α (A, X) X ∈ K

【0017】類似度の定め方としては様々あり、例えば
分類語彙表で与えられたコードの差による方法等が考え
られる。ただし、この方法は、分類語彙表コードを単語
辞書に設定すること等が必要になる。本発明ではこのよ
うな特別な情報を持たないで簡易的に類似度を計算する
ために、類似度を単語の文字列間で文字列の重複度で代
えて利用する。重複度としては、例えば、双方のキーワ
ード候補の文字列に共通する部分文字列の割合で代え
る。即ち、2つのキーワード候補A、Bに対し、各々の
文字列長をlen(A)、len(B)とし、共通文字
列長をLen(A,B)とすれば、次のような共通文字
列部分の割合を重複度とすることができる。 2×Len(A,B)/(len(A)+len
(B)) 例えば、「輸出規制」(4文字列)と「輸出貿易管理
令」(7文字列)では、2文字列「輸出」が共通してい
るので、重複度は、2×2/(4+7)となる。出現頻
度の増加分(相手側の出現頻度との積)は、次のように
なる。 「輸出規制」[3]への「輸出貿易管理令」[1]による増加
寄与分:+1×4/11=0.36 「輸出貿易管理令」[1]への「輸出規制」[3]による増加
寄与分:+3×4/11=1.09 「輸出規制」に関する、類似度が0を超える他のキーワ
ード候補としては、「輸出」、「規制対象」、「規制品
目」、「規制品」があり、「輸出貿易管理令」を含めた
各々の出現頻度の増加寄与分は、次のようになる。 「輸出規制」[3]への 「対共産圏輸出統制委員会」[1] による寄与増加分:+1×6/15=0.40 「輸出」[3] による増加寄与分:+3×4/6 =2.00 「輸出貿易管理令」[1] による増加寄与分:+1×4/11=0.36 「規制対象」[1] による増加寄与分:+1×4/8 =0.50 「規制品目」[1] による増加寄与分:+1×4/8 =0.50 「規制品」[1] による増加寄与分:+1×4/7 =0.57 これらの増加寄与分の合計は 4.33 であり、「輸出規
制」のもともとの出現頻度3を加えて、疑似出現頻度は
7.33 になる。対象文書に適用した結果として、各キー
ワード候補の疑似出現頻度を図7に示した。重複して出
現しなかった国名等の候補が相対的に順位を落とし、
「輸出」を含む候補が順位を上げている。尚、ここで
は、「輸出規制」に対して、「禁輸措置」や「経済制
裁」のように1文字だけの重複(「輸」、「制」)につ
いては除外した。これは、2文字以上の重複の場合は、
類似性のある可能性が高いが、1文字の場合は、類似性
が必ずしもあるとは限らないことが多いからである。こ
のようにして求めた指標値をキーワード候補評価手段3
は、この疑似出現頻度と(2)で求めた近似複合度との
積によってキーワード性の指標値を計算(図8のように
なる)し、上記の(1)で説明したような適切な閾値を
設定してキーワード候補の中から選択し、キーワードと
して採用する。
There are various methods of determining the degree of similarity, and for example, a method based on the difference between the codes given in the classification vocabulary table can be considered. However, this method requires setting the classification vocabulary table code in the word dictionary. In the present invention, in order to calculate the similarity simply without having such special information, the similarity is used instead of the degree of overlap of character strings between character strings of words. As the degree of overlap, for example, the ratio of the partial character strings that are common to both keyword candidate character strings is used. That is, if the character string lengths of the two keyword candidates A and B are len (A) and len (B) and the common character string length is Len (A, B), the following common characters are obtained. The proportion of the row portion can be the degree of overlap. 2 × Len (A, B) / (len (A) + len
(B)) For example, the “export control” (4 character string) and the “export trade control order” (7 character string) have the same 2 character string “export”, so the degree of overlap is 2 × 2 / It becomes (4 + 7). The increase in the appearance frequency (the product with the appearance frequency of the other party) is as follows. Contribution to the “Export Control” [3] by the “Export Trade Control Order” [1]: + 1 × 4/11 = 0.36 According to the “Export Control” [3] to the “Export Trade Control Order” [1] Contribution to increase: + 3 × 4/11 = 1.09 Other keywords related to “export control” with a degree of similarity over 0 are “export”, “regulated object”, “regulated item”, and “regulated item”. Yes, the contributions to the increase in the frequency of each occurrence, including the “Export Trade Control Order”, are as follows. Contribution to “Export Control” [3] by “Export Control Committee for Communist Areas” [1]: + 1 × 6/15 = 0.40 Contribution to “Export” [3]: + 3 × 4 / 6 = 2.00 Contribution to increase by “Export Trade Control Ordinance” [1]: + 1 × 4/11 = 0.36 Contribution to increase by “Regulation target” [1]: + 1 × 4/8 = 0.50 “Regulated item” [ 1] increase contribution: +1 × 4/8 = 0.50 “Regulated products” Increase contribution by [1]: +1 × 4/7 = 0.57 The total of these increase contributions is 4.33. The original appearance frequency of 3 is added, and the pseudo appearance frequency is
It will be 7.33. FIG. 7 shows the pseudo appearance frequency of each keyword candidate as a result of applying it to the target document. Candidates such as country names that did not appear in duplicate dropped relative rank,
Candidates including "exports" are on the rise. Note that here, with respect to "export restrictions", duplicates of only one character ("import", "limit") such as "embargo" and "economic sanction" are excluded. This is a duplication of two or more characters,
This is because there is a high possibility that there is similarity, but in the case of one character, there is often not always similarity. The index value thus obtained is used as the keyword candidate evaluation means 3
Calculates the index value of the keyword property by the product of this pseudo appearance frequency and the approximate composite degree obtained in (2) (as in FIG. 8), and sets the appropriate threshold value as described in (1) above. Is set and selected from the keyword candidates and adopted as the keyword.

【0018】(4)請求項5の発明 キーワード候補表示手段4は、上述のようにして得たキ
ーワード候補の評価結果をキーワード性指標値の大きい
順に表示する。(例えば、図6、図8のように表示す
る。)このように表示することによって、文書内容の特
性を示し、その特徴を的確に表示することができる。
(4) The invention keyword candidate display means 4 of claim 5 displays the evaluation results of the keyword candidates obtained as described above in descending order of the keyword index value. (For example, it is displayed as shown in FIGS. 6 and 8.) By displaying in this way, it is possible to show the characteristics of the document contents and to accurately display the characteristics.

【0019】[0019]

【発明の効果】以上の説明から明らかなように、請求項
1に記載された発明によると、単語の複合度による専門
性・特殊性を加えることで、辞書にキーワードのための
情報をもつのを回避しつつ、より的確なキーワード性の
評価を行うことができる。
As is apparent from the above description, according to the invention described in claim 1, by adding the specialization / specificity depending on the degree of complexity of words, the dictionary has information for keywords. While avoiding, it is possible to more accurately evaluate the keyword property.

【0020】請求項2に記載された発明によると、形態
素解析系を用いずに文字種により単語の抽出を行い、そ
の単語の複合度を単語の文字種と長さにより簡易的に求
めるので、キーワードの抽出が簡易且つスピードが速く
行える。
According to the second aspect of the present invention, a word is extracted by a character type without using a morphological analysis system, and the degree of complexity of the word is simply determined by the character type and length of the word. Extraction is simple and fast.

【0021】請求項3に記載された発明によると、類似
したキーワード候補の出現頻度を共に高めることによっ
て、単独では出現頻度が小さくとも類似性のあるキーワ
ード候補のキーワード性を高めることができ、
According to the invention described in claim 3, by increasing the appearance frequency of similar keyword candidates together, it is possible to enhance the keyword property of the keyword candidates that are similar even if the appearance frequency is small,

【0022】請求項4に記載された発明によると、類義
語辞書等を必要とせず、キーワード候補間の類似性を文
字列の重複によって簡易に求めることができる。
According to the invention described in claim 4, the similarity between keyword candidates can be easily obtained by duplication of character strings without requiring a synonym dictionary or the like.

【0023】請求項5に記載された発明によると、キー
ワード性の順にキーワードを表示することにより、文書
内容の特性を容易に認識できる。
According to the invention described in claim 5, by displaying the keywords in the order of the keyword property, the characteristics of the document contents can be easily recognized.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の1実施例におけるキーワード抽出装
置の構成図である。
FIG. 1 is a configuration diagram of a keyword extracting device according to an embodiment of the present invention.

【図2】 本発明の実施例を説明するための電子化文書
の内容である。
FIG. 2 is a content of a digitized document for explaining an embodiment of the present invention.

【図3】 実施例の電子化文書における出現頻度別のキ
ーワード候補を示す図である。
FIG. 3 is a diagram showing keyword candidates for each appearance frequency in an electronic document according to an embodiment.

【図4】 実施例の電子化文書における複合度別のキー
ワード候補(分割マーク付き)を示す図である。
FIG. 4 is a diagram showing keyword candidates (with division marks) for each degree of complexity in the digitized document of the embodiment.

【図5】 実施例の電子化文書における出現頻度と単語
複合語の積によるキーワード候補の評価例を示すための
図である。
FIG. 5 is a diagram showing an example of evaluation of keyword candidates based on a product of an appearance frequency and a word compound word in the electronic document according to the embodiment.

【図6】 実施例の電子化文書における近似複合度別の
キーワード候補を示すための図である。
FIG. 6 is a diagram showing keyword candidates for each approximate complexity degree in the electronic document according to the embodiment.

【図7】 実施例の電子化文書における文字列重複度に
よる疑似出現頻度を示す図である。
FIG. 7 is a diagram showing a pseudo appearance frequency according to a character string duplication degree in an electronic document according to an embodiment.

【図8】 実施例の電子化文書における疑似出現頻度と
近似複合語の積によるキーワード候補の評価例を示す図
である。
FIG. 8 is a diagram showing an example of evaluation of a keyword candidate based on a product of a pseudo appearance frequency and an approximate compound word in a digitized document according to the embodiment.

【符号の説明】[Explanation of symbols]

1 …… 電子化文書、 2 …… キーワード候補抽出手段、 3 …… キーワード抽出評価手段、 4 …… キーワード候補表示手段、 5 …… 出現頻度計数手段、 6 …… 単語複合度評価手段、 7 …… 出現頻度評価手段。 1 …… Electronic document, 2 …… Keyword candidate extraction means, 3 …… Keyword extraction evaluation means, 4 …… Keyword candidate display means, 5 ... appearance frequency counting means, 6 ... Word complexity evaluation means, 7: Appearance frequency evaluation means.

フロントページの続き (56)参考文献 特開 平1−217623(JP,A) 特開 昭64−28770(JP,A) 特開 昭63−244259(JP,A) 特開 昭63−254522(JP,A) 特開 昭60−33665(JP,A) 特開 平3−116375(JP,A) 特開 平3−116377(JP,A) 特開 昭63−201824(JP,A) 特開 平3−125264(JP,A) 特開 平3−127176(JP,A) 特開 平3−286372(JP,A) 特開 平5−257982(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)Continuation of front page (56) Reference JP-A 1-217623 (JP, A) JP-A 64-28770 (JP, A) JP-A 63-244259 (JP, A) JP-A 63-254522 (JP , A) JP 60-33665 (JP, A) JP 3-116375 (JP, A) JP 3-116377 (JP, A) JP 63-201824 (JP, A) JP 3-125264 (JP, A) JP-A-3-127176 (JP, A) JP-A-3-286372 (JP, A) JP-A-5-257982 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/30 JISST file (JOIS)

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 電子化された文書に対し、キーワード候
補を抽出するキーワード候補抽出手段と、該抽出された
キーワード候補を評価するキーワード候補評価手段とを
有するキーワード抽出装置において、前記キーワード候
補評価手段は前記文書中における前記キーワード候補の
出現頻度と、前記キーワード候補を構成する単語の複合
度とに基づいて求めた評価値によってキーワード候補を
評価することを特徴とするキーワード抽出装置。
1. A keyword extraction device having keyword candidate extraction means for extracting keyword candidates from a computerized document, and keyword candidate evaluation means for evaluating the extracted keyword candidates. Is the keyword candidate in the document
Combination of appearance frequency and words that make up the keyword candidates
A keyword extracting device characterized in that a keyword candidate is evaluated by an evaluation value obtained based on the degree .
【請求項2】 前記キーワード候補抽出手段は、当該電
子化文書の文字種の並びにより抽出し、前記キーワード
候補評価手段は、前記キーワード候補を構成する単語の
複合度をキーワード候補の文字列の種類と長さに応じて
評価することを特徴とする請求項1記載のキーワード抽
出装置。
2. The keyword candidate extraction means extracts the character types of the digitized document, and the keyword candidate evaluation means determines the degree of complexity of the words constituting the keyword candidates as the type of the character string of the keyword candidates. The keyword extraction device according to claim 1, wherein the keyword extraction device evaluates according to the length.
【請求項3】 前記キーワード候補抽出手段は、各キー
ワード候補ごとの出現頻度を計数し、前記キーワード候
補評価手段は、当該電子化文書中での出現頻度にも応じ
てキーワード候補を評価し、キーワード候補の出現頻度
を他のキーワード候補との類似度とその頻度により調整
するようにしたことを特徴とする請求項1あるいは請求
項2記載のキーワード抽出装置。
3. The keyword candidate extraction means counts the appearance frequency of each keyword candidate, and the keyword candidate evaluation means evaluates the keyword candidate according to the appearance frequency in the digitized document, and the keyword candidate The keyword extraction device according to claim 1 or 2, wherein the appearance frequency of the candidate is adjusted according to the degree of similarity with other keyword candidates and the frequency thereof.
【請求項4】 前記キーワード候補評価手段は、キーワ
ード候補間の類似度の代わりにキーワード候補の文字列
の文字の重複度を用いることを特徴とする請求項3記載
のキーワード抽出装置。
4. The keyword extraction device according to claim 3, wherein the keyword candidate evaluation means uses the degree of overlap of characters in the character string of the keyword candidates instead of the similarity between the keyword candidates.
【請求項5】 キーワード抽出装置により抽出されたキ
ーワードを前記キーワード候補評価手段による評価が高
い順に並べて表示する手段を付加したことを特徴とする
請求項1乃至請求項4記載のキーワード抽出装置。
5. The keyword extracting device according to claim 1, further comprising a device for displaying the keywords extracted by the keyword extracting device in a descending order of evaluation by the keyword candidate evaluating device.
JP23457594A 1994-09-29 1994-09-29 Keyword extraction device Expired - Fee Related JP3464055B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23457594A JP3464055B2 (en) 1994-09-29 1994-09-29 Keyword extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23457594A JP3464055B2 (en) 1994-09-29 1994-09-29 Keyword extraction device

Publications (2)

Publication Number Publication Date
JPH0895982A JPH0895982A (en) 1996-04-12
JP3464055B2 true JP3464055B2 (en) 2003-11-05

Family

ID=16973168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23457594A Expired - Fee Related JP3464055B2 (en) 1994-09-29 1994-09-29 Keyword extraction device

Country Status (1)

Country Link
JP (1) JP3464055B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3618931B2 (en) * 1996-11-05 2005-02-09 有限会社特許情報出版 Word processing system and word processing method
JP3622503B2 (en) 1998-05-29 2005-02-23 株式会社日立製作所 Feature character string extraction method and apparatus, similar document search method and apparatus using the same, storage medium storing feature character string extraction program, and storage medium storing similar document search program
US20100169930A1 (en) * 2008-12-25 2010-07-01 Samsung Electronics Co., Ltd. Broadcasting receiver and method of searching for keyword of broadcasting receiver

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH067385B2 (en) * 1983-08-03 1994-01-26 株式会社日立製作所 Automatic keyword extraction method
JPS63201824A (en) * 1987-02-18 1988-08-19 Hitachi Ltd Retrieving keyword selecting system
JPS63244259A (en) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd Keyword extractor
JPS63254522A (en) * 1987-04-10 1988-10-21 Matsushita Electric Ind Co Ltd Key word extracting device
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector
JPH01217623A (en) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> Automatic key word generating device
JP2828692B2 (en) * 1989-09-29 1998-11-25 株式会社リコー Information retrieval device
JP2872706B2 (en) * 1989-09-29 1999-03-24 株式会社リコー Information retrieval device
JP2812511B2 (en) * 1989-10-09 1998-10-22 株式会社リコー Keyword extraction device
JPH03127176A (en) * 1989-10-12 1991-05-30 Ricoh Co Ltd Keyword extractor
JP2883153B2 (en) * 1990-04-02 1999-04-19 株式会社リコー Keyword extraction device
JPH05257982A (en) * 1992-02-14 1993-10-08 Nippon Telegr & Teleph Corp <Ntt> Character string recognizing method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval
US9916397B2 (en) 2014-02-25 2018-03-13 International Business Machines Corporation Pattern matching based character string retrieval
US9946812B2 (en) 2014-02-25 2018-04-17 International Business Machines Corporation Pattern matching based character string retrieval
US10007740B2 (en) 2014-02-25 2018-06-26 International Business Machines Corporation Pattern matching based character string retrieval
US10176274B2 (en) 2014-02-25 2019-01-08 International Business Machines Corporation Pattern matching based character string retrieval

Also Published As

Publication number Publication date
JPH0895982A (en) 1996-04-12

Similar Documents

Publication Publication Date Title
JP3160201B2 (en) Information retrieval method and information retrieval device
JP5259876B2 (en) Information processing apparatus, information processing method, and recording medium recording information processing program
AU2005203239B2 (en) Phrase-based indexing in an information retrieval system
JP2832988B2 (en) Data retrieval system
US8355902B1 (en) Semantic unit recognition
US20070073683A1 (en) System and method for question answering document retrieval
US20020052901A1 (en) Automatic correlation method for generating summaries for text documents
US20080228485A1 (en) Aural similarity measuring system for text
KR20010015368A (en) A method of retrieving data and a data retrieving apparatus
JPH096799A (en) Document sorting device and document retrieving device
JPH03172966A (en) Similar document retrieving device
CN111506727B (en) Text content category acquisition method, apparatus, computer device and storage medium
JP2003281186A (en) Example base retrieval method and retrieval system for determining similarity
JP2669601B2 (en) Information retrieval method and system
JP2002132811A (en) Method and system for answering question and recording medium with recorded question answering program
Xu et al. Using SVM to extract acronyms from text
JP2009193219A (en) Indexing apparatus, method thereof, program, and recording medium
JP3464055B2 (en) Keyword extraction device
JP2000163437A (en) Method and device for classifying document and recording medium where document classifying program is recorded
JP3360617B2 (en) Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program
JP4009937B2 (en) Document search device, document search program, and medium storing document search program
JP4525433B2 (en) Document aggregation device and program
US20180005300A1 (en) Information presentation device, information presentation method, and computer program product
JPH06208588A (en) Document retrieving system
JP4281899B2 (en) Question document summarizing device, question answering search device, question document summarizing program

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees