JPH07230468A - Method and device for automatically extracting keyword - Google Patents

Method and device for automatically extracting keyword

Info

Publication number
JPH07230468A
JPH07230468A JP6020971A JP2097194A JPH07230468A JP H07230468 A JPH07230468 A JP H07230468A JP 6020971 A JP6020971 A JP 6020971A JP 2097194 A JP2097194 A JP 2097194A JP H07230468 A JPH07230468 A JP H07230468A
Authority
JP
Japan
Prior art keywords
character string
character
morphological analysis
keyword
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6020971A
Other languages
Japanese (ja)
Other versions
JP3398729B2 (en
Inventor
Koji Morino
幸司 森野
益樹 ▲高▼梨
Masuki Takanashi
Takehiko Aoyanagi
毅彦 青柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP02097194A priority Critical patent/JP3398729B2/en
Publication of JPH07230468A publication Critical patent/JPH07230468A/en
Application granted granted Critical
Publication of JP3398729B2 publication Critical patent/JP3398729B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To improve the quality or keywords and the retrieval precision of an information retrieval system. CONSTITUTION:A character string 6 is divided into character string elements (KANJI (Chinese character) character strings, KATAKANA (square form of Japanese syllabary) character strings, numeric character strings, etc.,) each of which consists of continuous characters of the same character type to generate a character string element list 7, and character strings such as numeric character strings and KATAKANA character strings which are not subjected to morpheme analysis out of these character string elements are substituted with alternative characters * or the like having corresponding grammatical information to generate a text for morpheme analysis, and this text is subjected to morpheme analysis to generate a morpheme analysis list a where at least KANJI character strings out of character string elements are divided into morphemes again. A keyword list 9 which consists or nouns or the like in character string elements and morphemes and compound words of nouns which are adjacent based on prescribed grammatical relations of nouns or the like is generated based on grammatical information in the morpheme analysis list 8.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、テキスト(入力文)の
キーワードを求めるに際し、その中の所定の文字種部
分、例えば漢字文字列のみの形態素解析を実行するよう
にしたキーワード自動抽出装置およびキーワード自動抽
出方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a keyword automatic extraction device and a keyword for executing a morphological analysis of only a predetermined character type portion of a text (input sentence), for example, a kanji character string, when obtaining a keyword of the text (input sentence). It relates to an automatic extraction method.

【0002】一般に、大量の文書を対象とする情報検索
システムなどではあらかじめ作成された辞書を参照する
ことにより文書(入力文)を形態素に分割し、これらの
形態素や形態素同士の連語の中で名詞にあたるものなど
をキーワードとして自動抽出することが実行されてお
り、本発明は、このようなキーワードの品質を高めたい
という要請に応えるものである。
In general, in an information retrieval system for a large number of documents, a document (input sentence) is divided into morphemes by referring to a dictionary created in advance, and nouns are formed among these morphemes and morphemes. Automatic extraction of matching keywords and the like has been carried out, and the present invention responds to the demand for improving the quality of such keywords.

【0003】なお、本明細書で用いる「形態素」とは辞
書に登録されている1単語のことであって必ずしも「文
章を構成している有意の最少単位」ではなく例えば慣用
表現、接頭語、接尾語、活用語尾、複合動詞や連語など
も含み、また「文字」は数字や記号などを含むものであ
る。
The term "morpheme" used in the present specification means one word registered in a dictionary, and is not necessarily "the smallest significant unit constituting a sentence", for example, an idiomatic expression, a prefix, Suffixes, inflectional endings, compound verbs, collocations, etc. are also included, and "letter" includes numbers and symbols.

【0004】[0004]

【従来の技術】従来のキーワード自動抽出では入力文を
構成する文字列の全体に形態素解析を実行し、この形態
素解析により得られる形態素やそれらの連語の中からキ
ーワードを抽出している。
2. Description of the Related Art In the conventional automatic keyword extraction, a morpheme analysis is performed on the entire character string constituting an input sentence, and keywords are extracted from the morphemes obtained by this morpheme analysis and their collocations.

【0005】形態素解析は日本語解析の一般的手法であ
り、この解析では、 ・辞書引き ・隣接チェック ・最尤評価 といった一連の処理が実行される。
Morphological analysis is a general method of Japanese analysis. In this analysis, a series of processes such as: dictionary lookup, adjacency check, and maximum likelihood evaluation are executed.

【0006】ここで、「辞書引き」とは、あらかじめ用
意した辞書を参照して処理対象の文字列の先頭の表記を
持つ形態素、さらには後ろに続く一字を順次追加した表
記を持つ形態素をすべて求めていく処理である。
Here, the "dictionary lookup" refers to a morpheme that has a notation at the beginning of a character string to be processed by referring to a dictionary prepared in advance, and a morpheme that has a notation in which a succeeding character is sequentially added. This is a process that seeks all.

【0007】例えば、図10(a) で示すように、「私は
東京で花瓶を買った。」という入力分の「私」と「は」
の二つの形態素が解析された状態では、先ず次の処理対
象文字列である「東京で花瓶を買った。」の先頭の
「東」の表記を持つ文字部分を、続いてその後ろの一字
を追加した「東京」の表記を持つ文字部分をそれぞれ辞
書から引き、さらにはその後ろの一字を追加した「東京
で」の表記を持つ文字部分を辞書から引こうとする。
For example, as shown in FIG. 10 (a), "I" and "ha" for the input "I bought a vase in Tokyo."
In the state in which the two morphemes are analyzed, first, the character part having the notation of "east" at the beginning of the next processing target character string "I bought a vase in Tokyo." The character part with the notation of "Tokyo" added is subtracted from the dictionary, and the character part with the addition of the character "Tokyo de" is added from the dictionary.

【0008】そして、以上の辞書引きは「東京で」の表
記を持つ文字部分が辞書から引けない、すなわち辞書に
登録されていないことにより終了して「東」と「東京」
の二つの文字部分が形態素候補としてリストアップされ
る〔図10(b) 参照〕。なお、辞書には、このリストア
ップからも分かるように各形態素の文法属性、左右それ
ぞれの隣接情報や頻度なども登録されている。
The above dictionary lookup ends because the character portion having the notation "in Tokyo" cannot be retrieved from the dictionary, that is, it is not registered in the dictionary, and ends in "east" and "Tokyo".
The two character portions of are listed as morpheme candidates [see FIG. 10 (b)]. As can be seen from this list, the dictionary also registers grammatical attributes of each morpheme, left and right adjacent information, frequency, and the like.

【0009】次に、これらの「東」と「東京」の形態素
候補のいずれか一つを選択することになるが、このとき
の選択手法として前記の「隣接チェック」や「最尤評
価」が用いられる。
Next, any one of these "east" and "Tokyo" morpheme candidates will be selected. At this time, the above-mentioned "adjacent check" and "maximum likelihood evaluation" are selected. Used.

【0010】隣接チェックは、形態素候補のそれぞれと
その直前の解析済形態素「は」との隣接が認められるか
どうかを両者の隣接情報(解析済形態素「は」の右隣接
情報と形態素候補の左隣接情報)に基づいて判断する処
理である。
The adjacency check determines whether adjacency between each of the morpheme candidates and the immediately preceding analyzed morpheme "ha" is recognized (adjacent information of the analyzed morpheme "ha" and left of the morpheme candidate). This is a process of making a determination based on (adjacent information).

【0011】すなわち、「は」の右隣接情報である「格
助詞」と、「東」の左隣接情報である「名詞」および
「東京」の左隣接情報である「名詞」のそれぞれとの隣
接可否が隣接マトリックス〔図10(c) 参照〕を参照す
ることにより判断される。
That is, the adjacency of "case particle" which is the right adjacency information of "ha" and "noun" which is the left adjacency information of "east" and "noun" which is the left adjacency information of "Tokyo". Whether or not it is possible is judged by referring to the adjacency matrix [see FIG. 10 (c)].

【0012】なお、隣接マトリックスは、右隣接情報の
行と左隣接情報の列とで選択されるマトリックス要素の
値によって両者の隣接が認められるかどうかを示すもの
で、図示の場合、隣接する可能性があれば「1」の値
が、隣接する可能性がなければ「0」の値がそれぞれ設
定されている。
The adjacency matrix indicates whether adjacency between the two is admitted depending on the value of the matrix element selected by the row of the right adjacency information and the column of the left adjacency information. A value of "1" is set if there is a possibility, and a value of "0" is set if there is no possibility of being adjacent.

【0013】この隣接チェックによれば、「東」および
「東京」はともにその直前の解析済形態素である「は」
と隣接可能であり、両者のいずれを選択するかの決定に
は次の最尤評価が必要となる。
According to this adjacency check, both “East” and “Tokyo” are the analyzed morphemes “ha” immediately before that.
The following maximum likelihood evaluation is required to determine which of the two is to be selected.

【0014】すなわち、形態素候補のそれぞれにつきそ
の語長と頻度に基づいて評価値を計算し、最も高い評価
値を持つものが「は」に続く形態素として選ばれる。な
お、評価値は語長が長い程、また頻度が大きい程高くな
るもので、この場合には「東京」の評価値の方が「東」
のそれよりも高い。
That is, an evaluation value is calculated for each morpheme candidate based on its word length and frequency, and the one having the highest evaluation value is selected as the morpheme following "ha". The evaluation value increases as the word length increases and the frequency increases. In this case, the evaluation value for "Tokyo" is "east".
Higher than that.

【0015】この最尤評価により「東京」を次の形態素
として選択し、その後は次の文字列である「で花瓶を買
った。」の形態素解析を順次実行して最終的には図10
(e)に示すような形態素リストを求め、この中の所定の
文法属性(例えば名詞)を持つ形態素やこれらの連語を
入力文のキーワードとして抽出している。
According to this maximum likelihood evaluation, "Tokyo" is selected as the next morpheme, and then the morpheme analysis of the next character string "I bought a vase." Is sequentially executed, and finally, FIG.
A morpheme list as shown in (e) is obtained, and morphemes having a predetermined grammatical attribute (for example, a noun) or their collocations are extracted as keywords of the input sentence.

【0016】[0016]

【発明が解決しようとする課題】このように、従来のキ
ーワード抽出の手法では入力文の文字列全体に形態素解
析を実行する、すなわちその文字列を辞書に登録されて
いる形態素で区切っていくため、カタカナ文字列や数字
文字列の一部や、漢字文字列中の接頭語および接尾語な
どが不適切なキーワードとして抽出されてしまうという
問題点があった。
As described above, in the conventional keyword extraction method, morphological analysis is performed on the entire character string of the input sentence, that is, the character string is divided by the morphemes registered in the dictionary. However, there is a problem that a part of a katakana character string or a numeric character string, a prefix and a suffix in a kanji character string are extracted as inappropriate keywords.

【0017】この不適切なキーワード抽出例としては、 ・「リストラ」のカタカナ文字列から「リス」のキーワ
ードを抽出すること ・「金融再緩和」の漢字文字列から「再」のキーワード
を抽出すること ・「一九九四」の数字文字列から「九九(掛け算のく
く)」のキーワードを抽出すること などが挙げられる。
Examples of this inappropriate keyword extraction include: -extracting the keyword "squirrel" from the katakana character string of "restructuring" -extracting the keyword "re" from the kanji character string of "financial re-easing" This includes, for example, extracting the keyword “multiplication table” from the numeric character string “1994”.

【0018】そこで、本発明では、入力文の文字列を先
ず連続した同一の文字種からなる文字列要素(漢字文字
列、カタカナ文字列および数字列など)に分割し、その
中の少なくとも漢字文字列を形態素解析して形態素に再
分割し、その他の例えばカタカナ文字列や数字列につい
ては形態素解析を実行せずに、その後、これらの文字列
要素や形態素の中から連語を含むかたちのキーワードを
所定のルールで選択することにより、キーワードの品質
および情報検索システムの検索精度を高めることを目的
とする。
Therefore, in the present invention, the character string of the input sentence is first divided into consecutive character string elements (Kanji character string, Katakana character string, number string, etc.) of the same character type, and at least the Kanji character string among them is divided. Is morphologically analyzed and subdivided into morphemes.For example, without performing morphological analysis for other Katakana character strings or number strings, after that, a keyword including a compound word is specified from these character string elements and morphemes. The purpose is to improve the quality of keywords and the search accuracy of the information search system by selecting the rules.

【0019】[0019]

【課題を解決するための手段】図1は本発明の原理説明
図である。図1において、 1は、CPUやメモリなどからなるプロセッサ 2は、キーワード抽出に関する全体の制御を行う主制御
部 3は、入力された文字列を連続した同一の文字種からな
る文字列要素に分割し、さらには形態素解析しない文字
列要素、例えば数字文字列、カタカナ文字列、英字文字
列などについてはその文法情報をともなった記号に置き
換える文字種区分け部 4は、この文字列要素の中の少なくとも漢字文字列を含
む特定の文字種を形態素に再分割する形態素解析部 5は、所定のルールに従って文字列要素および単語やこ
れらの連語の中から入力文のキーワードを選択するキー
ワード抽出部 6は、キーワード抽出対象の文字列(テキスト) 7は、文字種区分け部3の処理結果である文字列要素リ
スト 8は、形態素解析部4の処理結果である形態素解析リス
ト 9は、キーワード抽出部5の処理結果であるキーワード
リスト をそれぞれ示している。
FIG. 1 is a diagram for explaining the principle of the present invention. In FIG. 1, 1 is a processor including a CPU and a memory, 2 is a main control unit that performs overall control related to keyword extraction, and 3 is a main control unit that divides an input character string into continuous character string elements of the same character type. Furthermore, for character string elements that are not subjected to morpheme analysis, for example, for numeric character strings, katakana character strings, alphabetic character strings, etc., the character type classification unit 4 that replaces with a symbol accompanied by the grammatical information is used. A morpheme analysis unit 5 that subdivides a specific character type including a string into morphemes is a keyword extraction unit 6 that selects a keyword of an input sentence from character string elements and words or their collocations according to a predetermined rule. The character string (text) 7 is a processing result of the character type classification unit 3, and the character string element list 8 is a processing of the morphological analysis unit 4. Morphological analysis list 9 is a fruit shows a keyword list as the processing result of the keyword extracting unit 5, respectively.

【0020】なお、図1は、テキスト中の漢字文字列と
ひらがな文字列のみを形態素解析の対象とする場合につ
いて記したものであり、このときのキーワード抽出の処
理手順は次のようになる(図2参照)。
FIG. 1 shows a case in which only the Kanji character string and the Hiragana character string in the text are subjected to the morphological analysis. The processing procedure of the keyword extraction at this time is as follows ( See FIG. 2).

【0021】テキスト中の文字列(一九九四年の業務
方針として・・・人件費削減によりcostdownを
図る。)を、各文字のコードに基づいて ・カタカナ ・数字 ・英字/記号 ・漢字 ・ひらがな の文字種ごとの連続した文字列要素に分けて文字列要素
リスト7を作成し、これをワーク領域に格納する。 カタカナ文字列および英字/記号文字列を一般名詞の
代替文字「*」で、数字文字列を数詞の代替文字「*」
でそれぞれ置き換え、また漢字文字列およびひらがな文
字列はそのまま残す。なお、この代替文字に置き換えた
文字列要素についてはそれぞれの原文内での位置と文字
列要素長とを置き換えテーブルに格納する。 カタカナ文字列、英字/記号文字列および数字文字列
を代替文字で置換した後の新テキストを形態素解析して
形態素解析リスト8を作成し、これをワーク領域に格納
する。なお、形態素解析リスト8の全体は図3で示され
る。 この形態素解析リスト8から名詞(一般名詞、固有名
詞、サ変名詞など)を文法情報とする表記を抽出してキ
ーワードリスト9を作成し、これをワーク領域に格納す
る。なお、サ変名詞とは例えば「開発する」の「開発」
などである。 この形態素解析リスト8の表記の中で ・名詞+名詞 ・名詞接頭語+名詞 ・名詞+名詞接尾語 ・数詞+数詞接尾語 ・数詞+名詞 などの所定のルールにしたがう連語を抽出してキーワー
ドリスト9を作成し、これをワーク領域に格納する。な
お、このルールの「数詞+名詞」に相当する連語は例え
ば「100」+「デ−タ」の「100デ−タ」である。
The character strings in the text (as a business policy in 1994 ... costdown by reducing personnel costs) are based on the code of each character: Katakana, numbers, letters / symbols, Kanji The character string element list 7 is created by dividing the character string elements into consecutive character string elements for each character type of hiragana and stored in the work area. Katakana character strings and alphabetic / symbol character strings are the alternative character "*" for general nouns, and numeric character strings are the alternative character "*" for numeric characters.
Replace each with, and leave the kanji character string and hiragana character string as they are. For the character string element replaced with this substitute character, the position in the original text and the character string element length are stored in the replacement table. Morphological analysis is performed on the new text after replacing the katakana character string, the alphabet / symbol character string, and the numeric character string with alternative characters to create a morpheme analysis list 8, and this is stored in the work area. The entire morphological analysis list 8 is shown in FIG. From the morphological analysis list 8, notations having nouns (general nouns, proper nouns, sahen nouns, etc.) as grammatical information are extracted to create a keyword list 9, which is stored in the work area. Note that the sahenun is, for example, "develop" in "develop"
And so on. In the notation of this morphological analysis list 8, nouns + nouns, noun prefixes + nouns, nouns + noun suffixes, numerical + noun suffixes, numerical nouns, etc. 9 is created and stored in the work area. The collocation corresponding to "numerical + noun" in this rule is, for example, "100" + "data", "100 data".

【0022】[0022]

【作用】本発明は、このように、キーワード抽出対象の
テキストを先ず文字種ごとの文字列要素に分割し、続い
て漢字文字列を含む特定の文字列要素の形態素解析を実
行し、このときの文字列要素、形態素およびこれらの連
語の中から所定のルールにしたがってキーワードを選択
することにより、キーワードの品質および情報検索シス
テムの検索精度を高めるようにしたものである。
As described above, according to the present invention, the text to be extracted as a keyword is first divided into character string elements for each character type, and then morphological analysis of a specific character string element including a Kanji character string is executed. By selecting a keyword from a character string element, a morpheme and a collocation thereof according to a predetermined rule, the quality of the keyword and the search accuracy of the information search system are improved.

【0023】本発明で用いる形態素解析とは、漢字文字
列などを、辞書に登録されている形態素に分割していく
だけのことを必要条件とするものであり、この分割に際
して従来の形態素解析のように隣接チェックや最尤評価
の手法を利用するかどうかは任意である。なお、(辞書
に登録されている)各形態素の隣接情報や頻度なども形
態素解析リスト8に記すようにしてもよい。
The morphological analysis used in the present invention requires that the Kanji character string or the like is simply divided into morphemes registered in the dictionary. Whether or not to use the method of adjacency check or maximum likelihood evaluation is arbitrary. It should be noted that the morpheme analysis list 8 may also include adjacency information and frequency of each morpheme (registered in the dictionary).

【0024】また、図1で示したようにひらがな文字列
についても形態素解析するかどうか、さらには漢字以外
のどの文字種について形態素解析しないかどうかは任意
であり、図1のように漢字文字列とひらがな文字列とを
形態素解析する場合にはもともと漢字で記述される名詞
などをひらがなで記したテキストからも本来のキーワー
ドを選択することができる。
Further, as shown in FIG. 1, whether or not to perform morpheme analysis on a hiragana character string and whether or not to perform morpheme analysis on any character type other than kanji is arbitrary. As shown in FIG. When performing a morphological analysis on a Hiragana character string, the original keyword can be selected from the text in which the noun originally written in Kanji is written in Hiragana.

【0025】また、カタカナ文字列および英字文字列に
「する」の語尾があるときには、文字種区分け部3でこ
れらを代替文字「*」に置き換えるときの文法情報とし
ては「サ変名詞」が選ばれる。
When the katakana character string and the alphabetic character string have the ending "suru", "sahen noun" is selected as the grammatical information when the character type classifying unit 3 replaces these with the alternative character "*".

【0026】また、文字種区分け部3においてカタカナ
文字列、英字文字列や数字文字列を文法情報をともなっ
た代替文字「*」で置き換えることなしに、単にその部
分に各文字列を示すコードを設定しておき、形態素解析
部4が、カタカナ文字列および英字文字列のコードつい
ては名詞と判断し、数字文字列のコードについては数詞
と判断するようにしてもよい。
Further, in the character type classification unit 3, without replacing the Katakana character string, the alphabetic character string or the numeric character string with the substitute character "*" accompanied by the grammatical information, a code indicating each character string is simply set in that portion. Alternatively, the morphological analysis unit 4 may determine that the codes of the katakana character string and the alphabetic character string are nouns, and the codes of the numeric character strings are numeric.

【0027】また、前記の連語抽出ルールに合致してい
る文字列要素、例えば「業務方針」自体の抽出手法とし
ては、 ・文字列要素である「業務方針」をワーク領域からその
まま選択する ・形態素である「業務」および「方針」の連語として選
択する のいずれを用いてもよい。そして、前者の場合には文字
種区分け部3で漢字文字列にその文法情報として「名
詞」を付与しておけばよい。
Further, as a method of extracting a character string element that matches the above-mentioned collocation extraction rule, for example, "business policy" itself, select the character string element "business policy" from the work area as it is. Whichever is selected as a collocation of “business” and “policy”. In the former case, the character type classification unit 3 may add a "noun" to the kanji character string as its grammatical information.

【0028】また、連語作成ルールはいわゆる再帰的で
あって、例えば「平成」、「六」、「年度」の形態素が
ある場合、先ず「六」の数詞と「年度」の数詞接尾語と
からなる「六年度」の連語(名詞)が作成され、続いて
「平成」の名詞とこれとの連語である「平成六年度」が
作成されることになる。前記の「組織再編成」のキーワ
ードも同じような処理で抽出される。
The collocation rule is so-called recursive. For example, when there are morphemes "Heisei", "Six", and "FY", first, the number of "Six" and the suffix of "FY" are added. The "6th year" collocation (noun) is created, followed by the "Heisei" noun and the conjunctive word "1994". The keyword of “organizational reorganization” is extracted by the same process.

【0029】[0029]

【実施例】図4〜図9を参照して本発明の実施例を説明
する。図4は、文書ファイル11に格納されている一つの
文書12からテキスト13を抽出する様子を示す説明図であ
り、この抽出処理では文書12の文頭、文中の空白を詰
め、また改行コードの前後での文のつながりを意識して
いる。
Embodiments of the present invention will be described with reference to FIGS. FIG. 4 is an explanatory diagram showing how the text 13 is extracted from one document 12 stored in the document file 11. In this extraction process, the beginning of the document 12 and the spaces in the sentence are padded, and before and after the line feed code. I am aware of the connection of sentences in.

【0030】これによりキーワード抽出処理を実行する
上でのテキスト13の不要な空白部がなくなるため、テキ
スト13に対する文字種区分けや形態素解析などのキーワ
ード抽出処理を効率的に行うことができる。
As a result, an unnecessary blank portion of the text 13 in executing the keyword extraction process is eliminated, so that the keyword extraction process such as character type classification and morphological analysis for the text 13 can be efficiently performed.

【0031】図5は、テキスト13から形態素解析用テキ
スト14を編集する様子を示す説明図であり、この編集処
理では編集ルールファイル15を参照することにより、テ
キスト13を数字文字列、漢字文字列、英字/記号文字
列、ひらがな文字列およびカタカナ文字列の各文字列要
素に分割している。
FIG. 5 is an explanatory diagram showing how the morphological analysis text 14 is edited from the text 13. In this editing process, the text 13 is converted into numeric character strings and kanji character strings by referring to the editing rule file 15. , Character / symbol character string, hiragana character string, and katakana character string.

【0032】すなわち、 ・「一九九四年度の開発計画」の1文は「一九九四/年
度/の/開発計画」に ・「FAIRSーSVは以下の機能を有している」の1
文は「FAIRSーSV/は/以下/の/機能/を/有
/している」に それぞれ分割され、この中の「一九九四」や「FAIR
SーSV」の各文字列要素は以後の処理では形態素解析
されることのない一つの数字、英字/記号として取り扱
われる。
That is, one sentence of "development plan for 1994 year" is "1994 / year / no / development plan"-"FAILS-SV has the following functions" 1
The sentence is divided into "FAIRS-SV / ha / below / of / function / with / with / without", and "1994" and "FAIR"
Each character string element of "S-SV" is treated as one number and alphabet / symbol that are not subjected to morphological analysis in the subsequent processing.

【0033】図6は、形態素解析用テキスト14から形態
素解析リスト16を作成する様子を示す説明図であり、こ
の作成処理では形態素解析用辞書ファイル17を参照する
ことにより、形態素解析リスト16の漢字やひらがなの部
分を形態素に分割している。図示の形態素解析リストは
「一九九四/年度/の/開発計画」の1文に対するもの
である。
FIG. 6 is an explanatory diagram showing how the morphological analysis list 16 is created from the morphological analysis text 14, and in this creating process, the Kanji of the morphological analysis list 16 is referred to by referring to the morphological analysis dictionary file 17. The hiragana part is divided into morphemes. The illustrated morphological analysis list is for one sentence of "1994 / year / no / development plan".

【0034】図7は、形態素解析リスト16からキーワー
ドリスト18を作成する様子を示す説明図であり、この作
成処理ではキーワード化ルールファイル19を参照するこ
とにより、文法情報が名詞(一般名詞、サ変名詞、固有
名詞など)である「開発」および「計画」と、前記の連
語作成ルールに該当する「一九九四年度」および「開発
計画」とを抽出している。図示のキーワードリストは
「一九九四/年度/の/開発計画」の1文に対するもの
である。
FIG. 7 is an explanatory diagram showing how the keyword list 18 is created from the morphological analysis list 16. In this creating process, the grammar information is referred to as a noun (general noun, sa “Development” and “plan” which are nouns, proper nouns, etc.) and “1992 fiscal year” and “development plan” that correspond to the above-mentioned compound word creation rule are extracted. The illustrated keyword list is for one sentence of "1994 / year / no / development plan".

【0035】図8は、文書ファイルから文書を取り出し
てそのキーワードを抽出する手順を示す説明図であり、
当該手順は次のようになっている。 (1) 文書ファイル11からキーワード抽出処理対象の文書
12をすべて読み込んで、次のステップに進む。 (2) 最初の文書のテキスト13を抽出して、次のステップ
に進む(図4参照)。 (3) テキスト13を形態素解析用テキスト14に編集して、
次のステップに進む(図5参照)。 (4) この形態素解析用テキスト14の最初の1文を取り出
して、次のステップに進む。 (5) この1文を形態素に分割した形態素解析リスト16を
作成して、次のステップに進む(図6参照)。 (6) この形態素解析リスト16から、文法情報が名詞とな
っているものを抽出して、次のステップに進む。 (7) この形態素解析リスト16から、前記連語抽出ルール
(名詞+名詞、数詞+数詞接尾語など)を満足する連語
の部分を抽出して、次のステップに進む。 (8) ステップ(6) および(7) で求めた形態素や連語をフ
ァイルに格納し、次のステップに進む。 (9) 例えば文終了コードの有無により、形態素解析用テ
キスト14のすべての文についてのキーワード抽出処理が
終了したかどうかを判断し、「YES 」の場合はステップ
(11)に進み、「NO」の場合は次のステップに進む。 (10)形態素解析用テキスト14の次の1文を取り出して、
ステップ(5) に戻る。 (11)例えばキーワード抽出処理を実行した文書数をカウ
ントすることにより、ステップ(1) で読み込んだすべて
の文書12についてのキーワード抽出処理が終了したかど
うかを判断し、「YES 」の場合はステップ(13)に進み、
「NO」の場合は次のステップに進む。 (12)次の文書のテキスト13を抽出して、ステップ(3) に
戻る。 (13)ファイルに格納されているキーワードを出力する
(図7参照)。
FIG. 8 is an explanatory diagram showing a procedure for extracting a document from a document file and extracting its keyword.
The procedure is as follows. (1) Documents subject to keyword extraction processing from the document file 11
Read all 12 and go to the next step. (2) Extract the text 13 of the first document and proceed to the next step (see FIG. 4). (3) Edit the text 13 into the text 14 for morphological analysis,
Proceed to the next step (see FIG. 5). (4) The first sentence of the morphological analysis text 14 is taken out, and the process proceeds to the next step. (5) A morphological analysis list 16 is created by dividing this one sentence into morphemes, and the process proceeds to the next step (see FIG. 6). (6) From the morphological analysis list 16, the grammatical information having a noun is extracted, and the process proceeds to the next step. (7) From this morphological analysis list 16, the part of the collocation that satisfies the collocation extraction rule (noun + noun, number + numerical suffix, etc.) is extracted, and the process proceeds to the next step. (8) Store the morphemes and collocations found in steps (6) and (7) in a file and proceed to the next step. (9) For example, it is determined whether or not the keyword extraction processing has been completed for all the sentences of the morphological analysis text 14 based on the presence or absence of a sentence end code.
Proceed to (11), and if "NO", proceed to the next step. (10) Take out the next sentence from the morphological analysis text 14,
Return to step (5). (11) For example, by counting the number of documents for which the keyword extraction processing has been executed, it is determined whether or not the keyword extraction processing has been completed for all the documents 12 read in step (1), and if YES, the step Go to (13)
If "NO", proceed to the next step. (12) Extract the text 13 of the next document and return to step (3). (13) Output the keywords stored in the file (see FIG. 7).

【0036】[0036]

【発明の効果】本発明は、このように、テキスト中の、
形態素解析により不適切なキーワードが抽出される程度
の高い文字列要素(数字文字列、カタカナ文字列や英字
文字列など)については形態素解析しないでそのままと
し、かつこのときの文字列要素や、形態素解析される漢
字文字列などの形態素から特定のもの(名詞や特定のル
ールに合致した連語)をキーワードとして抽出するよう
にしているため、キーワードの品質および情報検索シス
テムの検索精度を高めることができる。
As described above, according to the present invention, in the text,
Character string elements (numerical character strings, katakana character strings, alphabetic character strings, etc.) that have a high degree of extraction of inappropriate keywords by morphological analysis are left as they are without morphological analysis, and the character string elements and morpheme It is possible to improve the quality of keywords and the search accuracy of the information retrieval system by extracting specific ones (nouns and collocations that match certain rules) as keywords from morphemes such as Kanji character strings to be analyzed. .

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の、原理説明図である。FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】本発明の、キーワード抽出処理の手順の一例を
示す説明図である。
FIG. 2 is an explanatory diagram showing an example of a procedure of keyword extraction processing according to the present invention.

【図3】本発明の、図1の形態素解析リストの全体を示
す説明図である。
FIG. 3 is an explanatory diagram showing the entire morphological analysis list of FIG. 1 according to the present invention.

【図4】本発明の、文書からテキストを抽出する様子を
示す説明図である。
FIG. 4 is an explanatory diagram showing how text is extracted from a document according to the present invention.

【図5】本発明の、テキストから形態素解析用テキスト
を編集する様子を示す説明図である。
FIG. 5 is an explanatory diagram showing a state of editing a morphological analysis text from text according to the present invention.

【図6】本発明の、形態素解析用テキストから形態素解
析リストを作成する様子を示す説明図である。
FIG. 6 is an explanatory diagram showing a state in which a morphological analysis list is created from a morphological analysis text according to the present invention.

【図7】本発明の、形態素解析用リストからキーワード
リストを作成する様子を示す説明図である。
FIG. 7 is an explanatory diagram showing how a keyword list is created from a morphological analysis list according to the present invention.

【図8】本発明の、文書ファイルから文書を取り出して
そのキーワードを抽出する手順を示す説明図(その1)
である。
FIG. 8 is an explanatory diagram showing a procedure of extracting a document from a document file and extracting a keyword thereof according to the present invention (No. 1).
Is.

【図9】本発明の、文書ファイルから文書を取り出して
そのキーワードを抽出する手順を示す説明図(その2)
である。
FIG. 9 is an explanatory view showing a procedure of extracting a document from a document file and extracting a keyword thereof according to the present invention (No. 2).
Is.

【図10】一般的な、形態素解析を示す説明図である。FIG. 10 is an explanatory diagram showing a general morphological analysis.

【符号の説明】[Explanation of symbols]

図1において、 1・・・プロセッサ 2・・・主制御部 3・・・文字種区分け部 4・・・形態素解析部 5・・・キーワード抽出部 6・・・キーワード抽出対象の文字列(テキスト) 7・・・文字列要素リスト 8・・・形態素解析リスト 9・・・キーワードリスト In FIG. 1, 1 ... Processor 2 ... Main control unit 3 ... Character type classification unit 4 ... Morphological analysis unit 5 ... Keyword extraction unit 6 ... Keyword extraction target character string (text) 7: Character string element list 8: Morphological analysis list 9: Keyword list

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 文字列の中の特定の文字種についてだけ
の形態素解析を実行することにより当該文字列のキーワ
ードを求めるようにしたキーワード自動抽出装置であっ
て、 前記文字列を、連続した同一の文字種からなる文字列要
素に分割する文字種区分け部と、 前記形態素解析を実行して前記文字列要素の中の少なく
とも漢字文字列を形態素に分割する形態素解析部と、 前記文字列要素および前記形態素それぞれの文法情報に
もとづいて、これらの中の名詞などの所定のものと、も
ともと名詞同士などの所定の文法関係により隣接してい
たこれらの連語とを、前記キーワードとして選択するキ
ーワード抽出部とを備えたことを特徴とするキーワード
自動抽出装置。
1. A keyword automatic extraction device configured to obtain a keyword of a character string by executing a morphological analysis only on a specific character type in the character string, wherein A character type division unit that divides into character string elements consisting of character types, a morpheme analysis unit that executes the morpheme analysis to divide at least a Kanji character string in the character string elements into morphemes, the character string element and the morpheme, respectively. Based on the grammatical information of the above, a keyword extracting unit for selecting a predetermined one such as a noun and these collocations that were originally adjacent due to a predetermined grammatical relationship such as nouns as the keyword. An automatic keyword extraction device characterized in that
【請求項2】 前記文字種区分け部は、数字文字列やカ
タカナ文字列などのように前記形態素解析が行われない
文字列要素を、これに対応する文法情報を持った代替文
字で置き換えたかたちの形態素解析用テキストを作成
し、 前記形態素解析部は、この形態素解析用テキストに対し
て前記形態素解析を実行するようにしたことを特徴とす
る請求項1記載のキーワード自動抽出装置。
2. The character type classification unit replaces a character string element, such as a numeric character string or a Katakana character string, which is not subjected to the morphological analysis, with an alternative character having corresponding grammatical information. The automatic keyword extraction device according to claim 1, wherein a morphological analysis text is created, and the morphological analysis unit is configured to execute the morphological analysis on the morphological analysis text.
【請求項3】 文字列の中の特定の文字種についてだけ
の形態素解析を実行することにより当該文字列のキーワ
ードを求めるようにしたキーワード自動抽出方法であっ
て、 先ず、前記文字列を、連続した同一の文字種からなる文
字列要素に分割し、 次に、前記形態素解析を実行して前記文字列要素の中の
少なくとも漢字文字列を形態素に分割し、 次に、前記文字列要素および前記形態素それぞれの文法
情報にもとづいて、これらの中の名詞などの所定のもの
と、もともと名詞同士などの所定の文法関係により隣接
していたこれらの連語とを、前記キーワードとして選択
するようにしたことを特徴とするキーワード自動抽出方
法。
3. A keyword automatic extraction method for obtaining a keyword of a character string by executing a morphological analysis only for a specific character type in the character string, wherein the character string is continuously Divide into character string elements having the same character type, then execute the morphological analysis to divide at least the Chinese character string in the character string elements into morphemes, and then divide the character string elements and the morphemes, respectively. Based on the grammatical information of the above, a predetermined one such as a noun or the like, and those compound words which are originally adjacent to each other due to a predetermined grammatical relationship such as nouns are selected as the keyword. Automatic keyword extraction method.
【請求項4】 前記文字列要素の中で数字文字列やカタ
カナ文字列などのように前記形態素解析が行われない部
分を、これに対応する文法情報を持った代替文字で置き
換えたかたちの形態素解析用テキストを作成し、 この形態素解析用テキストに対して前記形態素解析を実
行するようにしたことを特徴とする請求項3記載のキー
ワード自動抽出方法。
4. A morpheme in which a portion of the character string element that is not subjected to the morphological analysis, such as a numeric character string or a katakana character string, is replaced with a substitute character having corresponding grammatical information. 4. The automatic keyword extraction method according to claim 3, wherein an analysis text is created and the morphological analysis is performed on the morphological analysis text.
JP02097194A 1994-02-18 1994-02-18 Automatic keyword extraction device and automatic keyword extraction method Expired - Fee Related JP3398729B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02097194A JP3398729B2 (en) 1994-02-18 1994-02-18 Automatic keyword extraction device and automatic keyword extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02097194A JP3398729B2 (en) 1994-02-18 1994-02-18 Automatic keyword extraction device and automatic keyword extraction method

Publications (2)

Publication Number Publication Date
JPH07230468A true JPH07230468A (en) 1995-08-29
JP3398729B2 JP3398729B2 (en) 2003-04-21

Family

ID=12042058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02097194A Expired - Fee Related JP3398729B2 (en) 1994-02-18 1994-02-18 Automatic keyword extraction device and automatic keyword extraction method

Country Status (1)

Country Link
JP (1) JP3398729B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153051A (en) * 1995-11-29 1997-06-10 Hitachi Ltd Similar document retrieval method
JPH1011460A (en) * 1996-06-26 1998-01-16 Nec Corp Key word extraction device
JPH1153384A (en) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JPH11272701A (en) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd Information extraction device
JP2010191710A (en) * 2009-02-18 2010-09-02 Yahoo Japan Corp Genre determination dictionary creation device, and genre determination device and method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105465A (en) * 1989-09-19 1991-05-02 Nec Corp Compound word extraction device
JPH0535794A (en) * 1991-07-25 1993-02-12 Toshiba Corp Generating retrieval keyword for knowledge data base

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105465A (en) * 1989-09-19 1991-05-02 Nec Corp Compound word extraction device
JPH0535794A (en) * 1991-07-25 1993-02-12 Toshiba Corp Generating retrieval keyword for knowledge data base

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153051A (en) * 1995-11-29 1997-06-10 Hitachi Ltd Similar document retrieval method
JPH1011460A (en) * 1996-06-26 1998-01-16 Nec Corp Key word extraction device
JPH1153384A (en) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JPH11272701A (en) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd Information extraction device
JP2010191710A (en) * 2009-02-18 2010-09-02 Yahoo Japan Corp Genre determination dictionary creation device, and genre determination device and method

Also Published As

Publication number Publication date
JP3398729B2 (en) 2003-04-21

Similar Documents

Publication Publication Date Title
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
JPH0724056B2 (en) Computer-based morphological text analysis method
WO1998008169A1 (en) Method and apparatus for breaking words in a stream of text
JPH0823864B2 (en) Heading judgment method
JPH06325076A (en) Method for dividing input text in word
JP3398729B2 (en) Automatic keyword extraction device and automatic keyword extraction method
JP2828692B2 (en) Information retrieval device
JP2536633B2 (en) Compound word extraction device
JP3531222B2 (en) Similar character string search device
JPS61248160A (en) Document information registering system
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JP2704945B2 (en) Duplicate expression processing device
JP3508312B2 (en) Keyword extraction device
JP2575947B2 (en) Phrase extraction device
JPH0785040A (en) Inscription nonuniformity detecting method and kana/ kanji converting method
JP2570784B2 (en) Document reader post-processing device
JPH0612453A (en) Unknown word extracting and registering device
JP3241854B2 (en) Automatic word spelling correction device
KR20240070873A (en) Shopping mall review data analysis method and shopping mall review data analysis device
JPH0232467A (en) Machine translation system
JPH03278176A (en) Processor for extracting term peculiar to japanese sentence
JPH0830627A (en) Keyword extracting system
JP3139624B2 (en) Morphological analyzer

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021217

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110221

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees