JP3348872B2 - Japanese morphological analyzer - Google Patents
Japanese morphological analyzerInfo
- Publication number
- JP3348872B2 JP3348872B2 JP12685192A JP12685192A JP3348872B2 JP 3348872 B2 JP3348872 B2 JP 3348872B2 JP 12685192 A JP12685192 A JP 12685192A JP 12685192 A JP12685192 A JP 12685192A JP 3348872 B2 JP3348872 B2 JP 3348872B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- speech
- morphological
- dictionary
- japanese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】[0001]
【技術分野】本発明は、日本語形態素解析装置に関し、
より詳細には、日本語の形態素解析装置あるいは構文解
析装置に関する。例えば、日本語文書を対象にした以下
の部分、すなわち、(1)検索システムにおけるキーワ
ード抽出、(2)文書作成システムにおける言語統計情
報抽出、(3)校正支援システムにおける校正情報抽
出、(4)索引語の抽出、(5)日本語音声合成システ
ムの日本語文形態素解析部に適用されるものである。TECHNICAL FIELD The present invention relates to a Japanese morphological solution 析装 location,
And more particularly, to a morpheme solution 析装 location or syntax analysis apparatus of the Japanese. For example, the following parts for Japanese documents: (1) keyword extraction in a retrieval system, (2) language statistical information extraction in a document creation system, (3) proofreading information extraction in a proofreading support system, (4) Index word extraction, (5) applied to the Japanese sentence morphological analyzer of the Japanese speech synthesis system.
【0002】[0002]
【従来技術】形態素辞書及び隣接形態素品詞接続表を備
え、かな漢字混じり日本語文を対象に、形態素辞書に基
づき形態素文字列を切り出し、その文字列に形態素品詞
候補を付与し、隣接形態素品詞接続表に基づき隣接する
形態素品詞を検査することにより、形態素列に分解する
日本語形態素解析方式は公知技術である。例えば、
「図解自然言語処理」(野口正一 外1名 "形態素を
処理する" P23〜34)や、特開昭56−17467号
公報に記載されている。2. Description of the Related Art A morpheme dictionary and an adjacent morpheme part-of-speech connection table are provided. A morpheme character string is cut out based on the morphological dictionary for Japanese sentences mixed with kana-kanji characters, and a morpheme part-of-speech candidate is assigned to the character string. A Japanese morphological analysis method for decomposing a morpheme string by examining adjacent morpheme parts of speech based on a known technique is known. For example,
"Illustrated natural language processing" (Shoichi Noguchi et al., "Processing morphemes" P23-34) and JP-A-56-17467.
【0003】たとえば、次の日本語文、「彼は広いアメ
リカを彼女を求めて旅行した。」を形態素解析するため
には、少なくとも形態素解析辞書に図5のような形態素
が登録され、さらに図6のような隣接形態素品詞接続表
があれば、図7のような形態素解析結果を得ることがで
きる(以下、簡単のために、従来の形態素解析方式のう
ち最も簡便な最長一致法をベースに説明するが、二文節
最長一致法等のより精度の高い優先選択法を排除するも
のではない)。すなわち、対象日本語文の先頭から形態
素辞書の中にある形態素文字列と一致するもののうち、
文字列長が最長の形態素文字列をその形態素品詞ととも
に切り出すとともに、隣接する形態素品詞の接続可能性
を隣接形態素接続表により検査しながら、接続可能な形
態素の並びとして分割するものである。なお、たとえ
ば、「メッセージを届けること」の「こと」が、「形式
名詞」か命令を示す「終助詞」かを確定できないような
場合もあり、ただ一通りの形態素解析結果が得られるも
のではない。For example, in order to perform a morphological analysis of the following Japanese sentence, "He traveled to the wide United States in search of her," a morpheme as shown in FIG. 5 is registered in at least a morphological analysis dictionary. If there is an adjacent morpheme part-of-speech connection table as shown in FIG. 7, a morphological analysis result as shown in FIG. 7 can be obtained (hereinafter, for the sake of simplicity, description will be made based on the simplest longest matching method among conventional morphological analysis methods) However, this does not preclude a more accurate priority selection method such as the two-phrase longest match method). In other words, of those that match the morpheme string in the morpheme dictionary from the beginning of the target Japanese sentence,
The morpheme character string having the longest character string length is cut out together with the morpheme part of speech, and the morpheme part of speech is divided into a list of connectable morphemes while checking the connection possibility of the adjacent morpheme speech. In addition, for example, in some cases, it is not possible to determine whether the "thing" of "delivering a message" is a "form noun" or a "final particle" indicating an instruction. Absent.
【0004】形態素解析では、原則として、形態素辞書
に対象とする日本語文に含まれる形態素(単語)のすべ
てをもつことを前提としている。従って、通常は辞書に
は数万語以上の形態素をもつことが求められる。しか
し、実際には辞書にない形態素がしばしば現れるため、
それによる解析失敗を救済するために、未登録語処理と
呼ばれる処理が必要になる。例えば、特開昭63−6
6672号公報,特開昭63−163962号公報に
記載されている。また、未知分野の日本語文書を対象と
すると多くの未登録語が生じるため、さらに数千語から
数万語の専門用語辞書を用意しなくてはならない。The morphological analysis is based on the premise that the morphological dictionary has all morphemes (words) included in the target Japanese sentence. Therefore, a dictionary is usually required to have morphemes of tens of thousands of words or more. However, morphemes that are not actually in the dictionary often appear,
In order to remedy the analysis failure due to this, a process called unregistered word processing is required. For example, JP-A-63-6
6672 and JP-A-63-163962. In addition, since many unregistered words occur when a Japanese document in an unknown field is targeted, a technical term dictionary of several thousand to several tens of thousands of words must be prepared.
【0005】日本語形態素解析技術自体は高いレベルに
あるが、上述したように、大きな容量の辞書が必要なた
め、ディスク容量の限られたノート型パーソナルコンピ
ュータ等に搭載する困難がある。また、未知分野の文書
に対しては、あらかじめ新規語を登録する作業が生じ、
本技術の利用を阻害する要因になっている。一方、漢字
かな混じりで記述された日本語文を見るに例外は少なく
ないが、一般的には、ひらがなは助詞や助動詞あるいは
活用語尾である一方、漢字やカタカナからなる文字列
は、名詞,サ変動詞や形容詞の語幹等になることが知ら
れており、未登録処理においてはこの性質が利用されて
いる。前記公知文献のP33,,に記載されている。Although the Japanese morphological analysis technology itself is at a high level, as described above, since a dictionary having a large capacity is required, it is difficult to mount the technique on a notebook personal computer having a limited disk capacity. In addition, for documents in unknown fields, work to register new words in advance occurs.
This is a factor that hinders the use of this technology. On the other hand, Japanese sentences written with kanji and kana are not a few exceptions, but in general, hiragana is a particle, an auxiliary verb, or an inflected ending, while a character string consisting of kanji or katakana is a noun, And the stem of adjectives are known, and this property is used in unregistered processing. It is described in P33 ,, of the known document.
【0006】[0006]
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、漢字かな混じりの日本語文のサブセットに対
し、大きなサイズの辞書なしに形態素解析を行う装置を
提供すること、また、前記サブセットを拡張する装置を
提供すること、また、精度を向上する装置を提供するこ
と、また、得られた形態素解析結果から単語の並びを得
る装置を提供することを特徴としてなされたものであ
る。An object of the present invention is to provide an apparatus for performing a morphological analysis on a subset of Japanese sentences mixed with kanji and kana without a large-size dictionary. to provide a device that extends, also possible to provide a device to improve the accuracy, or one in which that you provide a device for obtaining a sequence of words from the morphological analysis results obtained was made as the feature .
【0007】[0007]
【構成】本発明は、上記目的を達成するために、(1)
漢字かな混じりの日本語文を形態素列に分解する日本語
形態素解析装置において、ひらがな文字列だけからなる
非自立語の形態素とその形態素品詞を少なくとも記憶し
た形態素辞書と、隣接する形態素品詞が接続可能である
か否かを記憶する隣接形態素品詞接続表と、漢字かな混
じりの日本語文のサブセットを入力する入力手段と、こ
の入力文を同一の文字種からなる文字列を切り出す切り
出し手段と、この切り出した文字列がひらがなの場合に
は、前記形態素辞書と最長一致法によりマッチングさ
せ、合致した形態素とその形態素品詞を形態素品詞候補
とし、一方、切り出した文字列が非ひらがなである場合
には、この文字列の文字種ごとに複数の特定の形態素品
詞候補を付与する形態素品詞候補付与手段と、前記隣接
形態素品詞接続表を参照して、これらの形態素品詞候補
の接続性を検査する接続性検査手段とを備え、前記入力
文の形態素解析結果を、前記接続性検査手段で接続が可
能であると判断された形態素列とすること、更には、
(2)前記(1)において、前記形態素辞書は、更に、
ひらがな文字列だけで表記することの多い自立語の形態
素と、漢字あるいはカタカナ等の同一文字種だけからな
る文字列からなり、前記特定の形態素品詞候補以外の形
態素品詞を有する形態素と、漢字文字列の後にひらがな
文字列が連なる形態素とにそれぞれ形態素品詞を対応さ
せて記憶したこと、更には、(3)前記(1)又は
(2)において、前記形態素辞書は、この形態素辞書に
記憶されていない非ひらがなの同一文字種だけからなる
文字列の形態素のうち、使用数が少ない形態素品詞の形
態素も記憶し、前記形態素品詞候補付与手段は、前記切
り出した文字列が非ひらがなである場合に付与する特定
の形態素品詞候補から、前記使用数が少ない形態素品詞
を除外すること、更には、(4)前記(1)、(2)又
は(3)において、漢字文字列の末尾に付きうる漢字文
字列からなる形態素を記憶する接尾辞辞書を有し、前記
切り出し手段は、同一文字種からなる文字列を切り出す
際、この文字列の末尾が前記接尾辞辞書に記憶された形
態素とマッチングした場合、この文字列からマッチング
した形態素の文字列を切り落とすようにしたこと、更に
は、(5)前記(1)、(2)、(3)又は(4)にお
いて、前記形態素辞書は、複数の形態素の並んだ複合形
態素と、それらの形態素順に形態素品詞の並びを対応さ
せて記憶し、前記接続性検査手段は、前記複合形態素と
隣接する形態素との接続性を検査する場合、前記隣接形
態素品詞接続表の参照を、前の形態素に対しては前記複
合形態素の並びの最左の形態素に対する形態素品詞とに
より行い、後の形態素に対しては前記複合形態素の並び
の最右の形態素に対する形態素品詞により行うこと、更
には、(6)形態素品詞の並びをまとめて形態素品詞へ
置き換えて単語を導出する単語構成規則と、前記
(1)、(2)、(3)、(4)又は(5)によって分
割された形態素の並びをこの単語構成規則に適用させて
単語を導出する単語生成手段を備えたことを特徴とした
ものである。以下、本発明の実施例に基づいて説明す
る。To achieve the above object, the present invention provides (1)
Japanese decompose the Japanese statement of kanji and kana in the morpheme string
The morphological analyzer stores at least a morpheme of a non-independent word consisting of only a hiragana character string and its morpheme part of speech.
Morpheme dictionary and adjacent morpheme parts of speech can be connected
Morphological part-of-speech connection table that stores
An input means for inputting a subset of the Japanese sentence;
Cuts out a character string of the same character type from the input sentence
Output means and when this cut out character string is Hiragana
Matches the morphological dictionary with the longest match method.
Morphemes and their morpheme parts of speech
And, on the other hand, if the extracted character string is non-hiragana
A morpheme part-of-speech candidate assigning means for assigning a plurality of specific morpheme part-of-speech candidates for each character type of the character string;
Referring to the morpheme part-of-speech connection table, these morpheme part-of-speech candidates
Connectivity checking means for checking connectivity of the
The morphological analysis result of the sentence can be connected by the connectivity checking means.
Morpheme sequence determined to be functional, and
(2) In the above (1), the morphological dictionary further includes:
A morpheme of an independent word that is often described only by a hiragana character string , and a morpheme having a morpheme part of speech other than the specific morpheme part of speech candidate, which is composed of a character string composed of only the same character type such as kanji or katakana, and a kanji character string Morphological parts of speech correspond to morphemes followed by hiragana character strings.
Allowed to be stored, further, (3) in (1) or (2), the morpheme dictionary, this morpheme dictionary
Of the morphemes of the character string consisting only of the same non-Hiragana character type that is not stored, the morpheme part-of-speech form that is rarely used
The morpheme is also stored, and the morpheme part of speech candidate assigning means
From the specific morpheme part-of-speech candidates to be given when the extracted character string is a non-hiragana,
Be excluded, further, (4) the (1), and (2)
Have the suffix dictionary for storing fraud and mitigating risk morphemes consisting of kanji character string that can be attached to the end of the Kanji character string (3), the
The extracting unit extracts a character string having the same character type.
When, if the end of the string is matched with the stored form <br/> Taimoto the suffix dictionary, matching this string
Morphemes of it has to cut off the string, further, (5) the (1), (2), (3) or (4) to be had you <br/>, the morpheme dictionary, a plurality of morphemes And the arrangement of morpheme parts of speech in the order of those morphemes
Was stored in the connection checking means, when checking the connection with the morpheme adjacent to the composite morphemes, the adjacent shaped
References Taimoto part of speech connection table, the arrangement of the composite morpheme for the previous morpheme performed by the morpheme part of speech for the leftmost morpheme arrangement of the multi <br/> case morphemes for morphemes after of and TURMERIC line by the morphological part of speech for the top-right of the morpheme, and further, to the morphological part of speech together a sequence of (6) morpheme part of speech
The word composition rule that derives a word by replacing, and the above (1) , (2), (3), (4) or (5 )
Apply the sequence of split morphemes to this word composition rule
It is characterized by having a word generation means for deriving words
Things . Hereinafter, a description will be given based on examples of the present invention.
【0008】まず、実施例1について説明する。本発明
は、従来技術の箇所で示した従来の形態素解析方法に対
し、形態素辞書はひらがな文字列だけからなる非自立語
の形態素だけをもち、 彼 名詞 広 形容詞:語幹(広い) アメリカ 名詞 求め 下一段動詞:語幹(求める) 旅行 サ変動詞:語幹 といった漢字あるいはカタカナ文字列を形態素辞書に持
たずに、これらの文字列に対しては、「名詞」,「形容
詞:語幹」,「形容動詞:語幹」,「五段動詞:語幹」,
「上一段動詞:語基」,「下一段動詞:語基」,「サ変動
詞:語幹」等を形態素品詞候補として与え、形態素解析
を行う方法である。[0008] First, a description will be given in Example 1. In the present invention, in contrast to the conventional morphological analysis method described in the section of the prior art, the morphological dictionary has only morphemes of non-independent words consisting only of hiragana character strings, and his noun broad adjective: stem (wide) American noun One-stage verb: stem (seek) Travel Sa variant: stem Without a kanji or katakana character string such as in the morphological dictionary, for these strings, "noun", "adjective: stem", "adjective verb: stem" , "Godan Verb: Stem",
In this method, morpheme analysis is performed by giving "upper verb: base", "lower verb: base", "sa varistor: stem", etc. as morpheme part-of-speech candidates.
【0009】なお、カタカナ文字列に対しては、「五段
動詞:語幹」,「上一段動詞:語基」,「下一段動詞:語
基」等は設定する必要がないので、文字種によって与え
る形態素品詞候補は異なる。本例文の範囲では、結果と
して「求」の形態素品詞となる「下一段動詞:語基」を
導入するとともに、「め」に次の形態素品詞を追加す
る。 め マ行下一段動詞:送,マ行下一段動詞:未然形語
尾,マ行下一段動詞:連用形語尾 さらに、隣接形態素品詞接続表において、「マ行下一段
動詞:送」等は、「下一段動詞:語基」から続き、この
うち「マ行下一段動詞:送」は、「下一段動詞:連体形
語尾」,「下一段動詞:終止形語尾」等へ接続可能とす
る。これにより、図1のような形態素解析結果を得る。Note that, for katakana character strings, "five-step verb: stem", "upper-step verb: base", "lower-step verb: base", etc. do not need to be set, and are given according to the character type. The morpheme part of speech candidates are different. In the range of this example sentence, "lower one-stage verb: base" which results in a morpheme part of "request" is introduced, and the next morpheme part of speech is added to "me". The one-step verb of Ma-line lower: Send, the one-step verb of Ma-line lower: Indefinite ending, the one-step verb of Ma-line lower: Conjunctive ending In addition, in the adjacent morpheme part-of-speech connection table, "Ma-line lower-stage verb: Sent" etc. Following "single-stage verb: base", "ma-line-lower-stage verb: sent" can be connected to "lower-stage-verb: adnominal-type ending", "lower-stage-verb: final-type ending", and the like. Thereby, a morphological analysis result as shown in FIG. 1 is obtained.
【0010】なお、本発明の形態素解析方法では、漢字
文字列あるいはカタカナ文字列を単位に切り出すため、
上に示したように、「下一段動詞:語幹」は、漢字部分
の「下一段動詞:語基」とひらがなの送り部「□行下一
段動詞:送」,「□行下一段動詞:未然形語尾」,「□行
下一段動詞:連用形語尾」(□:ア,カ,ガ等)に分け
る。上一段動詞についても同様に扱う。また、形容詞
「美しい」の語幹「美し」,形容動詞「静かだ」の語幹
「静か」も次のように分割して扱うものとする。 ・「美し」:「シク活用形容詞:語基」(「美」)+「シク活用
形容詞:送」(「し」) ・「静か」:「カダ活用形容動詞:語基」(「静」)+「カダ活
用形容動詞:送」(「か」)In the morphological analysis method of the present invention, a kanji character string or a katakana character string is cut out as a unit.
As shown above, "lower one-step verb: stem" is composed of "lower one-step verb: base" in the kanji part and the sending part of Hiragana "□ line lower one-step verb: send", "□ lower line one-step verb: unprepared. Infinitive endings "and" □ line lower verb: continuous use endings "(□: a, ka, mo, etc.). The same applies to the upper verb. In addition, the stem "beautiful" of the adjective "beautiful" and the stem "quiet" of the adjective "quiet" are treated as follows.・ "Beauty": "Shiku utilization adjective: base"("Beauty") + "Shiku utilization adjective: send"("shi") ・ "Quiet": "Kada utilization adjective: base"("static") ) + "Kada Utilization Adjective: Send"("ka")
【0011】図2は、本発明による日本語形態素解析方
法の処理フローを示す図である。なお、英字文字列や記
号文字列あるいは数字文字列及び読点「、」や句
点「。」等については、文字種ごとの処理で扱うものと
する。step1 :対象文字列(S:Sentence)を抽出する。step2 :Sの先頭文字列がひらがなか非ひらがなかを判
断する。step3 :前記step2において、ひらがなであれば、形態
素辞書により最長一致ひらがな文字列の形態素の切り出
しを行い、同形態素品詞候補の設定を行う。step4 :前記step2において、非ひらがなであれば、同
一文字種文字列の切り出しを行う。step5 :次に、文字種ごとの形態素品詞候補の設定を行
う。step6 :前の形態素の形態素品詞候補との接続検査によ
る品詞候補の削除を行う。step7 :切り出しの残り文字列を抽出する。step8 :該文字列が空であるかどうかを判断する。空で
なければ前記step2に戻り、空であれば終了する。FIG. 2 is a diagram showing a processing flow of the Japanese morphological analysis method according to the present invention. It should be noted that alphabetic character strings, symbol character strings or numeric character strings, and reading marks “,”, punctuation marks “.”, And the like are handled by processing for each character type. step 1 : Extract a target character string (S: Sentence). step 2 : Determine whether the first character string of S is a hiragana or a non-hiragana. step3 : In step 2, if Hiragana is used, the morpheme of the longest matching Hiragana character string is cut out using a morpheme dictionary, and the same morpheme part of speech is set. step 4 : In step 2, if non-hiragana, a character string of the same character type is cut out. step 5 : Next, morpheme part-of-speech candidates are set for each character type. step6 : Delete the part of speech candidate by checking the connection between the previous morpheme and the morpheme part of speech candidate. step7 : Extract the remaining character string of the cutout. step 8 : Determine whether the character string is empty. If it is not empty, the process returns to step 2, and if it is empty, the process ends.
【0012】本発明の形態素解析方法では、次のような
形態素を扱っていない。 ・ひらがな文字列だけで表記される名詞,動詞等の形態
素 ・接続詞,副詞等の形態素 ・漢字文字列の後にひらがな文字列が連なる形態素 また、次の形態素品詞の曖昧さを解消できない。 ・「名詞」+「格助詞(に)」と「形容動詞:語幹」+
「形容動詞:連用形語尾」(に) ・「五段動詞:語幹」+「サ行五段動詞:連用形語尾」
(し)と「サ変動詞:語幹」+「サ行動詞:連用形語
尾」(し)と ・ほか 等の欠点を有するが、漢字かな混じり日本語文の一定の
範囲のサブセットに対し、大きな辞書を必要とせずに形
態素解析結果を出すことができる。なお、本発明では、
同一文字種の形態素が連なった複合語は、当然分割する
ことができず、1形態素として扱われる。こうした複合
語の多くは、名詞がつらなったものがほとんどで、たと
えば「形態素」と「解析」が連なった「形態素解析」等
があるが、二つの名詞の結合度が高いと捕らえること
で、1語と扱うことが必ずしも不当とはならない。The morpheme analysis method of the present invention does not handle the following morphemes. Morphemes such as nouns and verbs expressed only in hiragana character strings; morphemes such as connectives and adverbs; morphemes in which a hiragana character string continues after a kanji character string. Also, the ambiguity of the following morpheme part of speech cannot be resolved.・ "Noun" + "case particle (ni)" and "adjective verb: stem" +
"Adjective verb: Conjunctive ending" (Ni) ・ "Godan verb: Stem" + "Sa line 5-dan verb: Conjunctive ending"
(Shi) and "Sa variant: Stem" + "Sa behavioral verb: Conjunctive ending" (Shi), etc. Despite the shortcomings, etc., a large dictionary is required for a certain range of subsets of Japanese sentences mixed with Kanji and Kana. Morphological analysis results In the present invention,
Compound words in which morphemes of the same character type are linked cannot be divided, and are treated as one morpheme. Most of these compound words are composed of nouns, for example, "morphological analysis" in which "morpheme" and "analysis" are linked. Treating it as one word is not necessarily unjust.
【0013】次に、実施例2について説明する。本実施
例2は、前記の形態素解析方式において扱っていなかっ
た、次の形態素を形態素辞書にもつことによって扱える
漢字かな混じり日本語文のサブセットの範囲を拡張する
ものである。 (1)ひらがな文字列だけからなる自立語の形態素 (2)漢字あるいはカタカナ等の同一文字種だけからな
る文字列からなり、前記の特定の形態素品詞候補以外の
形態素品詞を有する形態素 (3)漢字文字列の後にひらがな文字列が連なる形態素[0013] Next, a description will be given in Example 2. The second embodiment extends the range of a subset of Japanese sentences mixed with kanji and kana that can be handled by having the next morpheme in the morpheme dictionary, which is not handled in the morphological analysis method. (1) A morpheme of an independent word consisting only of a hiragana character string (2) A morpheme consisting of a character string consisting only of the same character type such as kanji or katakana and having a morpheme part of speech other than the specific morpheme part of speech candidate (3) Kanji characters A morpheme consisting of a sequence of hiragana characters
【0014】前記(1)は、「ひらがな」(名詞)や
「ある」(五段動詞)等、ひらがなで表記することが多
い名詞,動詞,形容詞,形容動詞をいう。また、実施例
1で扱わなかったその他の自立語である。連体詞「あ
る」,接続詞「そして」,副詞「ゆっくり」等も加え
る。前記(2)は、普通の名詞とは扱いの異なる副詞名
詞「昨日」や形式名詞「間」、あるいは前記(1)の後
者と同様に、実施例1で扱わなかったその他の自立語で
ある、副詞「何故」,「万一」等をいう。前記(3)
は、並列詞「及び」,名詞「互い」,副詞「万が一」あ
るいは五段動詞「浮かぶ」の語幹「浮か」のように、漢
字+ひらがな からなるものをいう。以上の拡張によ
り、扱える漢字かな混じり日本語文のサブセットの範囲
が拡張されるのは明らかである。The above (1) refers to nouns, verbs, adjectives, and adjectives that are often described in hiragana, such as "hiragana" (noun) and "aru" (five-step verb). Further, these are other independent words not dealt with in the first embodiment. Add the adverb "aru", the conjunction "and", and the adverb "slow". The above (2) is an adverb noun “yesterday” or a formal noun “between” which is treated differently from ordinary nouns, or other independent words not treated in the first embodiment, as in the latter of the above (1). , Adverbs “why”, “in the unlikely event” and the like. The above (3)
Is composed of kanji and hiragana, such as the parallel verb "and", the noun "mutual", the adverb "mayichi" or the stem "floating" of the five-stage verb "floating". It is clear that the above expansion extends the range of the subset of Japanese sentences that can be handled with kanji and kana.
【0015】図3は、本発明による日本語形態素解析方
法の実施例2の処理フローを示す図である。step1 :対象文字列(S)を抽出する。step2 :拡張辞書による最長一致文字列の形態素の切り
出しを行い、同形態素品詞候補の設定を行う。step3 :切り出しが成功か失敗かを判断する。成功であ
れば前記step8へ進む。 step4 :前記step3において、失敗であればSの先頭文
字列がひらがなか非ひらがなかを判断する。step5 :前記step4において、ひらがなであれば、ひら
がな付属語辞書及びひらがな自立語辞書による最長一致
ひらがな文字列の形態素の切り出しを行い、同形態素品
詞候補の設定を行う。step6 :前記step4において、非ひらがなであれば同一
文字種文字列の切り出しを行う。step7 :文字種ごとの形態素品詞候補の設定を行う。step8 :前の形態素の形態素品詞候補との接続検査によ
る品詞候補の削除を行う。step9 :切り出し後の残り文字列を抽出する。step10 :該文字列が空であるかどうかを判断する。空で
なければ前記step2に戻り、空であれば終了する。 ここでは、実施例1の形態素辞書をひらがな付属語辞
書,前記(1)の形態素を含む辞書をひらがな自立語辞
書、前記(2),(3)の形態素を含む辞書を拡張辞書
と呼ぶが、必ずしも別の辞書とする必要はない。FIG. 3 shows a Japanese morphological analysis method according to the present invention.
It is a figure showing the processing flow of Example 2 of the method.step1 : Extract the target character string (S).step2 : Cut morpheme of longest matching character string by extended dictionary
Then, the same morpheme part-of-speech candidate is set.step3 : Judge whether the extraction is successful or unsuccessful. Success
If so, the process proceeds to step 8. step4 : In step 3 above, if unsuccessful, the first sentence of S
Judge whether the character string is Hiragana or non-Hiragana.step5 : In step 4 above, if hiragana, hiragana
Longest match with the Kanagawa dictionary and the Hiragana independent dictionary
Cut out the morpheme of the Hiragana character string, and
Set the candidate words.step6 : Same if non-Hiragana in step 4
Extracts character string.step7 : Set morpheme part of speech candidates for each character type.step8 : By checking the connection between the previous morpheme and the morpheme part-of-speech candidate
Delete part-of-speech candidates.step9 : Extract the remaining character string after clipping.step10 : Determine whether the character string is empty. In the sky
If not, the process returns to step 2; if empty, the process ends. Here, the morphological dictionary of Example 1 is
, Hiragana independence dictionary containing the morpheme of (1)
Dictionary containing the morphemes of (2) and (3)
However, it is not always necessary to use another dictionary.
【0016】図3に示した処理では、実施例1の文字列
の先頭がひらがなか否かで分岐するひらがな文字列ある
いは非ひらがな文字列の処理の前に、拡張辞書による形
態素切り出し処理が加わり、この処理の失敗時だけに従
来の処理を行う。また、ひらがな文字列の処理では、ひ
らがな付属語辞書とひらがな自立語辞書の双方を検索
し、双方のうちの最長の形態素を採用する。双方が同じ
長さであれば、双方のマージした結果を設定するものと
する。In the processing shown in FIG. 3, before the processing of the hiragana character string or the non-hiragana character string that branches depending on whether the beginning of the character string in the first embodiment is a hiragana character or not, a morpheme extraction process using an extended dictionary is added. Conventional processing is performed only when this processing fails. In the processing of the Hiragana character string, both the Hiragana attached word dictionary and the Hiragana independent word dictionary are searched, and the longest morpheme of both is adopted. If both are the same length, the merged result of both is set.
【0017】次に、実施例3について説明する。前記ま
での形態素解析方法では、漢字列あるいはカタカナ列
(実施例2では、拡張辞書にない漢字列あるいはカタカ
ナ列)に、可能な形態素品詞候補を割り当てていたが、
本実施例3では、前記形態素品詞である形態素の数を考
慮に入れて、数の少ない形態素品詞の形態素を拡張辞書
に登録するとともに、その形態素品詞候補を処理効率と
精度の向上を図る。前記までの形態素解析方法では、た
とえば漢字列(実施例2では、拡張辞書にない漢字列)
に対しては、「名詞」,「形容詞:語幹」,「形容動詞:
語幹」,「五段動詞:語幹」,「上一段動詞:語基」,
「下一段動詞:語基」,「サ変動詞:語幹」等を一律に
設定していた。[0017] Next, a description will be given in Example 3. In the morphological analysis method described above, possible morpheme part-of-speech candidates are assigned to kanji strings or katakana strings (in the second embodiment, kanji strings or katakana strings that are not in the extended dictionary).
In the third embodiment, taking into account the number of morphemes that are the morpheme POS, the morpheme of the morpheme POS having a small number is registered in the extension dictionary, and the processing efficiency and accuracy of the morpheme POS are improved. In the above morphological analysis method, for example, a kanji string (in the second embodiment, a kanji string not in the extended dictionary)
For "noun", "adjective: stem", "adjective verb:
Stem, "5-stage verb: stem", "Upper-stage verb: base",
"Lower verb: base", "variable verb: stem", etc. were set uniformly.
【0018】しかし、たとえば、「サ変動詞:語幹」や
「形容動詞:語幹」は、通常、「調査」や「完全」のよ
うに漢語を起源にするため、1漢字のものは極めて少な
い。この性質を利用し、1漢字列に対しては、「サ変動
詞:語幹」や「形容動詞:語幹」を形態素品詞候補とし
て割り当てない代わりに、1漢字の「サ変動詞:語幹」
や「形容動詞:語幹」を拡張辞書に登録する。これらの
例としては、「愛(する)」や「楽(だ)」等がある
が、その総数は極めて少ないので、辞書のサイズにはほ
とんど影響しない。However, for example, "sa variant: stem" and "adjective verb: stem" usually originate from a Chinese word such as "survey" or "perfect", so that there are very few one-kanji characters. By utilizing this property, for one kanji string, instead of assigning “sa var: stem” or “adjective verb: stem” as a morpheme part-of-speech candidate, one kanji “sa var: stem”
And "adjective verb: stem" in the extended dictionary. Examples of these are “love” and “easy”, but since the total number is extremely small, the size of the dictionary is hardly affected.
【0019】この他、「上一段動詞」も、「五段動詞」
や「下一段動詞」の数と比べるとかなり少ないことが知
れているので、「上一段動詞:語幹」を拡張辞書に登録
し、漢字列に対する形態素品詞候補からはずすことも妥
当であると考えられる。すなわち、上記のような処置に
より、辞書のサイズは多少大きくなるが、設定される形
態素品詞候補が削滅され、効率が向上するとともに、登
録された形態素の解析の精度も向上することが期待でき
る。なお、処理フローにおいては、図3のstep7「文字
種ごとの形態素品詞候補の設定」が上記に基づいて変更
される。[0019] In addition, the "one-step verb" and the "five-step verb"
It is known that the number of "Upper one-step verbs" is considerably smaller than the number of "Lower one-step verbs", so it is reasonable to register "Upper one-step verbs: stem" in the extended dictionary and remove them from morpheme part-of-speech candidates for Kanji strings. . That is, although the size of the dictionary is slightly increased by the above-described processing, the set morpheme part-of-speech candidates are eliminated, and the efficiency is improved, and the accuracy of the analysis of the registered morphemes can be expected to be improved. . Note that, in the processing flow, step 7 “setting of morpheme part-of-speech candidate for each character type” in FIG. 3 is changed based on the above.
【0020】次に、実施例4について説明する。本発明
の形態素解析方法では、原理的に同一文字種の形態素が
連なった複合語が分割できないが、実施例1の最後に述
べたように、必ずしも不当ではない。しかし、「解析
時」や「徹底的」のように、一般的な名詞の連続でない
場合は、これを分割することが望まれる。分割できれ
ば、前者は副詞名詞、後者は形容動詞として認識でき、
形態素解析結果として文法的な価値のある結果とするこ
とができる。本実施例では、前記の「時」や「的」のよ
うに、接尾辞的に形態素に付く形態素が同一文字種(こ
の場合は漢字)からなる形態素に付いた場合、これらを
分割する形態素解析方法を提供する。すなわち、拡張辞
書とは別に、これらの形態素の表記とその文字列長を持
った接尾辞辞書をもち、図3の処理フロー中のstep6
「同一文字種文字列の切り出し」の後で、切り出した文
字列の末尾に接尾辞辞書にある形態素をもつか否かを検
査し、例えば、切り出し文字列の末尾から一致した接尾
辞を切り落とすことで実現する。これにより、次のルー
プで切り落とされた文字列が先頭になって、拡張辞書に
よって優先的に切り出される。[0020] Next, a description will be given in Example 4. In the morphological analysis method of the present invention, a compound word in which morphemes of the same character type are connected cannot be divided in principle, but as described at the end of the first embodiment, this is not necessarily unreasonable. However, when a general noun is not continuous, such as "at the time of analysis" or "thorough", it is desirable to divide the noun. If divided, the former can be recognized as an adverb noun and the latter as an adjective verb,
The morphological analysis result can be a grammatically valuable result. In the present embodiment, when a morpheme suffixed to a morpheme is attached to a morpheme of the same character type (in this case, a kanji character), such as “time” or “target”, a morphological analysis method of dividing these is used. I will provide a. That is, in addition to the extended dictionary, a suffix dictionary having these morpheme expressions and their character string lengths is provided.
After `` cutting out a character string of the same character type '', check whether the suffix dictionary has a morpheme at the end of the cut-out character string, for example, by cutting off the matching suffix from the end of the cut-out character string. Realize. As a result, the character string cut off in the next loop comes first, and is preferentially cut out by the extended dictionary.
【0021】次に、実施例5について説明する。本実施
例5は、最長一致の戦略による形態素解析方法に限った
場合に効果のある方法である。一般に、本方法は同一文
字列の連なった複合語を扱わないので、単純な最長一致
法に対して、二文節最長一致法の効果は必ずしも大きく
はない。しかし、たとえば、次の2字ひらがな文字列は
各々2字と1字づつの2通りの場合があり、単純に最長
一致法をとると後者が落ちる場合が生じる。 ・のに:接続助詞,準体助詞(の)+格助詞(に) ・ので:接続助詞,準体助詞(の)+格助詞(で) ・より:格助詞,ラ行五段動詞(よる):語幹+ラ行五段
動詞:連用形語尾 ・なら:助動詞(だ):仮定形,ラ行五段動詞(なる):語
幹+ラ行五段動詞:未然形語尾[0021] Next, a description will be given in Example 5. The fifth embodiment is a method that is effective when limited to the morphological analysis method based on the longest match strategy. In general, this method does not handle consecutive compound words of the same character string, so that the effect of the two-phrase longest-match method is not necessarily large compared to the simple longest-match method. However, for example, the next two-character hiragana character string may be of two types, two characters and one character, respectively, and the simplest longest matching method may cause the latter to drop.・ Noni: Conjunctive particle, quasi-body particle (no) + case particle (ni) ・ So: Conjunctive particle, quasi-body particle (no) + case particle (de) ・ More: case particle, la line five-step verb ): Stem + La line five-stage verb: Conjunctive ending ・ Nara: Auxiliary verb (da): Hypothetical form, La line five-stage verb (Naru): Stem + La line five-stage verb: Unfinished ending
【0022】本発明は、後者のように形態素の並びの文
字列を形態素品詞の並びとして登録可能とし、さらに、
その前方あるいは後方の形態素の形態素品詞との接続検
査を形態素品詞の並びの最左あるいは最右の形態素品詞
とによって行い、最終的にこの並びが確定した場合は、
この並びに従って分割することで、本形態素解析方法で
生じる最長一致による欠点を補う。具体的には、各形態
素辞書(ひらがな付属語辞書,ひらがな自立語辞書,拡
張辞書)において、たとえば、次のように形態素品詞と
文字数の組の並びを設定することを許す。 ・より:ラ行五段動詞(よる):語幹{1}+ラ行五段動
詞:連用形語尾{1}この前方の形態素とは「ラ行五段動
詞(よる):語幹」、後方の形態素とは「ラ行五段動詞:
連用形語尾」により接続検査を行い、これが確定された
際には{}内に示された文字数により分割し、 ・よ:ラ行五段動詞(よる):語幹 ・り:ラ行五段動詞:連用形語尾 とする。これらの処理は、図3の処理フロー中のstep8
「前の形態素の形態素品詞候補との接続検査による品詞
候補の削除」の中で行えばよい。According to the present invention, a character string having a morpheme sequence can be registered as a morpheme part-of-speech sequence as in the latter case.
A connection check with the morpheme part of speech of the front or back morpheme is performed by the leftmost or rightmost morpheme part of the row of the morpheme part of speech, and when this row is finally determined,
Dividing according to this arrangement compensates for the defect caused by the longest match that occurs in this morphological analysis method. Specifically, in each of the morphological dictionaries (Hiragana attached word dictionary, Hiragana independent word dictionary, extended dictionary), for example, it is allowed to set the arrangement of the set of the morpheme part of speech and the number of characters as follows.・ More: La line five-stage verb (by): stem {1} + La line five-stage verb: Conjunctive ending {1} The preceding morpheme is "La line five-stage verb (by): stem", the back morpheme What is "La five-step verb:
A connection check is performed using the continuation form ending, and when this is determined, it is divided according to the number of characters shown in {}. ・ Yo: La line five-stage verb (Yo): stem ・ Ri: La line five-stage verb: It is a continuation form ending. These processes are performed in step 8 in the process flow of FIG.
This may be performed in “deletion of part-of-speech candidate by checking connection of previous morpheme with morpheme part-of-speech candidate”.
【0023】次に、実施例1でも述べた「メッセージを
届けること」の「こと」が「形式名詞」か命令を示す
「終助詞」かは、従来の形態素解析方法及び本発明の形
態素解析方法でも形態素品詞の曖昧さを必ず解消できる
とは限らない。前記の例は、本方法の如何に関わらず発
生する問題であるが、加えて本発明の方法では充分な形
態素辞書を用いていないため、充分な辞書を備えた場合
より形態素品詞の曖昧さ解消能力が劣ることが考えられ
る。本実施例は、形態素解析本来の曖昧さ解消不能な問
題及び不十分な辞書に起因する本方法の曖昧さ解消能力
の不足を補うために、形態素解析の結果に曖昧さが残る
場合に、利用者に問い合せを行うことにより精度を得
る。処理の一例としては、図3に示す対象文全体の処理
が終了した後、順次形態素結果を検査し、形態素品詞が
複数残っているものがあればその旨メッセージを出し
て、残る形態素品詞候補のどれかの選択を求め、その入
力に応じて形態素品詞を確定すればよい。 Next, said even real Example 1 "thing" and "to deliver the message" Do "Format nouns" or indicating a command "final particle", the morphological analysis of conventional morphological analysis methods and the present invention Even with the method, the ambiguity of morpheme parts of speech cannot always be resolved. The above example is a problem that occurs regardless of the method, but in addition, since the method of the present invention does not use a sufficient morphological dictionary, the ambiguity of morpheme part-of-speech is reduced compared to a case where a sufficient dictionary is provided. Poor ability is considered. This embodiment is used in the case where ambiguity remains in the result of morphological analysis, in order to compensate for the problem of ambiguity that cannot be resolved by the original morphological analysis and the lack of ambiguity of the method due to an insufficient dictionary. Get accuracy by inquiring the person. As an example of the processing, after the processing of the entire target sentence shown in FIG. 3 is completed, the morpheme result is sequentially inspected, and if there is a plurality of morpheme part-of-speech, a message to that effect is issued, and the remaining morpheme part-of-speech candidates are One of the selections may be requested, and the morpheme part of speech may be determined according to the input.
【0024】次に、上述の利用者への問い合せを、精度
を余り下げることなく回避するための二つの方法を示
す。一つは、しばしば残る曖昧さの組み合せのうち、一
方が正しい頻度がかなり高い場合、利用者に問い合せる
ことなく自動的にそれを選択するようにする。これは、
この組み合せとその選択側(及び必要に応じて前後の状
況)を記述した規則をもち、利用者への問い合せの直前
にその規則によって処理すればよい。たとえば、次のよ
うな規則が考えられる。 ・のに:a:<接続助詞>,b:<準体助詞(の)+格助詞(に)>→a(-1:<>,+1:<>) この規則は、形態素「のに」の形態素品詞候補として上
のa,b二つが残っていたら、その前後(-1,+1)の形態
素に関わらず、aの接続助詞を選択することを示す。Next, two methods for avoiding the above-mentioned inquiry to the user without significantly lowering the accuracy will be described. One is that if one of the frequently remaining combinations of ambiguity is fairly frequent, it will be automatically selected without asking the user. this is,
A rule describing this combination and its selection side (and the situation before and after it as necessary) may be processed according to the rule immediately before the inquiry to the user. For example, the following rule can be considered.・ Noni: a: <conjunctive particle>, b: <quasi-morphic particle (no) + case particle (ni)> → a (-1: <>, + 1: <>) Indicates that if the above two a and b remain as morpheme part-of-speech candidates, the connective particle of a is selected irrespective of the morpheme before and after (-1, + 1).
【0025】もう一つは、もし本発明の形態素解析の結
果を利用するアプリケーションが特定の曖昧さの組み合
せを解消しなくても不都合が生じない場合に、その曖昧
さ解消自体を回避する。たとえば、「っ」は「タ行」,
「ラ行」,「ワ行」の「五段動詞:連用形音便語尾」で
あるが、「買った」等は「買う」が「ワ行五段動詞」で
あると、辞書にない限りどの行かは確定できない。しか
し、この曖昧さは、単に「動詞」+「助動詞(た)」が検
出できればよい場合は、必ずしも確定する必要がなく、
従って、問い合せを回避しても不都合がない。これも前
記と同様な規則を記述し、利用者への問い合せの直前に
その規則によって処理すればよい。たとえば、次のよう
な規則が考えられる。 ・つ:a:<タ行五段動詞:連用形音便語尾>,b:<ラ行
五段動詞:連用形音便語尾>,c:<ワ行五段動詞:連用形
音便語尾>(-1:<>,+1:<>) この規則は、形態素「っ」の形態素品詞候補として上の
a,b,c三つが残っていたら、その前後(-1,+1)の形
態素に関わらず、利用者への形態素品詞の問合せを回避
することを示す。Another is to avoid the ambiguity resolution itself if the application using the result of the morphological analysis of the present invention does not cause a problem even if the specific ambiguity combination is not resolved. For example, "tsu" means "ta line",
"La row" and "wa row" are "five-step verbs: concatenated suffix endings", but "bought" means that "buy" is a "wa row five-step verb" unless it is in the dictionary. It is not possible to decide whether to go. However, this ambiguity does not necessarily need to be determined if it is only necessary to detect "verb" + "auxiliary verb (ta)".
Therefore, there is no inconvenience even if the inquiry is avoided. In this case, the same rule as described above may be described, and the rule may be processed just before the inquiry to the user. For example, the following rule can be considered.・ T: a: <Ta quintuple verb: Conjunctive spelling ending>, b: <La quintuple verb: Conjunctive suffix ending>, c: <W : <>, + 1: <>) This rule specifies that if the above three a, b, and c remain as morpheme part-of-speech candidates for the morpheme "tsu", regardless of the morpheme before and after (-1, + 1) This indicates that the inquiry of the morpheme part of speech to the user is avoided.
【0026】次に、前記までの形態素解析方式において
得られた形態素の並びを単語の並び(図4参照)にする
方式を説明する。たとえば、次のような単語構成を行
う。 美:シク活用形容詞:語基→美しく:形容詞(美しい):連用形 し:シク活用形容詞:送 く:形容詞:連用形語尾 これは、次のような単語構成規則を設定し、適用するこ
とで得る。 シク活用形容詞:語基+シク活用形容詞:送→形容詞:語幹 形容詞:語幹+形容詞:X形語尾→形容詞(1い):X形[0026] Next, a method for a sequence of morphemes obtained in the morphological analysis method before Symbol to words line (see FIG. 4). For example, the following word composition is performed. Beauty: Shiku conjugation adjective: base → beautiful: adjective (beautiful): conjunctive form c: shiku conjugative adjective: send: adjective: conjunctive ending This is obtained by setting and applying the following word composition rules. Shiku inflection adjectives: base + sikh inflection adjectives: sent → adjective: stem Adjective: stem + adjective: X-type ending → adjective (1): X-form
【0027】上記規則の左辺は、形態素(単語)の品詞
を「+」により区切って並べてあり、右辺はこれらに置
き代わるべき形態素(単語)品詞を示す。左辺の並びが
形態素の並びに一致したら、その範囲の形態素について
表記が接合され、品詞が右辺のものに置き代わる。な
お、上記の第2の規則では変数を用いる。左辺のXは、
形態素品詞とマッチングがとられて値を得、右辺のXに
設定される。また、右辺の1は左辺の第1項の形態素の
表記の値がとられる。以下、2,3…は左辺の第2,3…
項の形態素の表記の値となる。On the left side of the above rule, the parts of speech of morphemes (words) are arranged by separating them with "+", and on the right side, morpheme (word) parts of speech to be replaced with them. If the arrangement of the left side matches the morpheme sequence, the notations are joined for the morphemes in the range, and the part of speech replaces that of the right side. In the second rule, variables are used. X on the left side is
The value is obtained by matching with the morpheme part of speech, and set to X on the right side. Also, the value of the notation of the morpheme of the first term on the left side is taken as 1 on the right side. In the following, 2,3 ... is the second 2,3 ... on the left side
This is the value of the term morpheme notation.
【0028】前記の 「美:シク活用形容詞:語基」+「し:シク活用形容
詞:送」+「く:形容詞連用形語尾」は、第1の規則の
適用により、 「美し:形容詞:語幹」+「く:形容詞:連用形語尾」
となり、次いで第2の規則の適用により、 「美しく:形容詞(美しい):連用形」となる。なお、
第2の規則適用においては、Xは「連用」、1は「美
し」という値となっている。この他、 X:連用形+名詞→名詞という規則を設定すれば、たと
えば「切れ目」といった派生語を1つの単語として認識
することも可能となる。The above-mentioned “Beauty: adjective adjective: base” + “shi: adjective adjective: send” + “ku: adjective conjunctive ending” is obtained by applying the first rule to “beautiful: adjective: stem”. + "Ku: adjective: conjunctive ending"
Then, by applying the second rule, it becomes "beautiful: adjective (beautiful): continuous form". In addition,
In the application of the second rule, X has a value of “continuous use” and 1 has a value of “beautiful”. In addition, if a rule of X: continuous form + noun → noun is set, it is possible to recognize a derivative word such as “cut” as one word.
【0029】本発明の日本語形態素解析装置は、前記ま
での形態素解析方法に、日本語文を入力する入力手段と
結果を出力する出力手段を設けることで実現する。な
お、日本文の入力手段としては、日本語文書ファイルか
ら文を切り出したり、対話的に日本語文を入力するなど
複数の入力方法があるが、これらのいずれかに限定する
ものではないし、複数を備えることも妨げない。また、
結果の出力手段についても、その形式,出力媒体につい
ては特に規定しない。The Japanese morphological analyzer according to the present invention is realized by providing the input unit for inputting a Japanese sentence and the output unit for outputting a result in the morphological analysis method described above. There are a plurality of input methods for inputting Japanese sentences, such as cutting out sentences from a Japanese document file and interactively inputting Japanese sentences. However, the input method is not limited to any of these. It does not prevent you from preparing. Also,
The format and output medium of the result output means are not specified.
【0030】[0030]
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)漢字かな混じり日本語の大きなサブセットに対
し、大きなハードディスク容量や人手のかかる未知語登
録を避け、低コストで、極めて小さなサイズの辞書で従
来の文字列レベルの処理を形態素解析レベルの処理にレ
ベルアップすることができる。これにより、ハードディ
スク容量の限られたノート型パーソナルコンピュータ上
で形態素解析結果を利用するアプリケーションの実現が
容易になる。また、大量の未知分野の文書の形態素解析
を必要とする場合にも、未知語登録といった作業を行う
ことなく形態素解析結果を利用することが可能となる。
更に、辞書に登録されていない活用語の原形や派生語を
抽出することもでき、単語の収集も可能になる。As apparent from the above description, the present invention has the following effects. (1) with respect to a large subset of the kanji and kana Japanese, unknown words registered consuming large hard disk capacity and manpower
Avoid the record, at a low cost, follow in a very small size of the dictionary
From the existing string level processing to morphological analysis level processing
Can be raised up . This facilitates the realization of an application using the morphological analysis result on a notebook personal computer with a limited hard disk capacity. Further, even when morphological analysis of a large number of documents in unknown fields is required, it is possible to use the morphological analysis result without performing an operation such as registering unknown words.
Furthermore, it is possible to extract the original form and derivative words of the inflected words that are not registered in the dictionary, and it is possible to collect words.
【図1】 本発明による日本語形態素解析方法に基づく
形態素解析結果を示す図である。FIG. 1 is a diagram showing a morphological analysis result based on a Japanese morphological analysis method according to the present invention.
【図2】 本発明の実施例1の処理フローを示す図であ
る。FIG. 2 is a diagram illustrating a processing flow according to the first embodiment of the present invention.
【図3】 本発明の実施例2の処理フローを示す図であ
る。FIG. 3 is a diagram illustrating a processing flow according to a second embodiment of the present invention.
【図4】 本発明の形態素解析結果を示す図である。FIG. 4 is a diagram showing a morphological analysis result of the present invention.
【図5】 従来の形態素解析辞書(一部)を示す図であ
る。FIG. 5 is a diagram showing a conventional morphological analysis dictionary (part).
【図6】 従来の隣接形態素品詞接続表(一部)を示す
図である。FIG. 6 is a diagram showing a conventional adjacent morpheme part-of-speech connection table (part).
【図7】 従来の形態素解析結果を示す図である。FIG. 7 is a diagram showing a conventional morphological analysis result.
Claims (6)
分解する日本語形態素解析装置において、ひらがな文字
列だけからなる非自立語の形態素とその形態素品詞を少
なくとも記憶した形態素辞書と、隣接する形態素品詞が
接続可能であるか否かを記憶する隣接形態素品詞接続表
と、漢字かな混じりの日本語文のサブセットを入力する
入力手段と、この入力文を同一の文字種からなる文字列
を切り出す切り出し手段と、この切り出した文字列がひ
らがなの場合には、前記形態素辞書と最長一致法により
マッチングさせ、合致した形態素とその形態素品詞を形
態素品詞候補とし、一方、切り出した文字列が非ひらが
なである場合には、この文字列の文字種ごとに複数の特
定の形態素品詞候補を付与する形態素品詞候補付与手段
と、前記隣接形態素品詞接続表を参照して、これらの形
態素品詞候補の接続性を検査する接続性検査手段とを備
え、前記入力文の形態素解析結果を、前記接続性検査手
段で接続が可能であると判断された形態素列とすること
を特徴とする日本語形態素解析装置。The Japanese statement of claim: 1. A kanji and kana in the morpheme string
In the Japanese morphological analyzer that decomposes, the number of non-independent word morphemes consisting only of Hiragana character strings and their morpheme parts of speech are reduced.
At least the stored morpheme dictionary and the adjacent morpheme part of speech
Adjacent morpheme part-of-speech connection table that stores whether connection is possible
And a subset of Japanese sentence mixed with Kanji and Kana
A character string consisting of the same character type as the input means and this input sentence
And the extracted character string
In the case of Chinese characters, the morphological dictionary and the longest match method are used.
Match and form matched morphemes and their morpheme parts of speech
As a part-of-speech participant, the extracted character string is
In this case, the morpheme part-of-speech candidate assigning means assigns a plurality of specific morpheme part-of-speech candidates for each character type of the character string.
With reference to the adjacent morpheme part-of-speech connection table,
A connectivity checking means for checking the connectivity of POS candidates
The morphological analysis result of the input sentence is
Japanese morphological analysis apparatus characterized by a morpheme string is determined to be able to connect in stages.
おいて、前記形態素辞書は、更に、ひらがな文字列だけ
で表記することの多い自立語の形態素と、漢字あるいは
カタカナ等の同一文字種だけからなる文字列からなり、
前記特定の形態素品詞候補以外の形態素品詞を有する形
態素と、漢字文字列の後にひらがな文字列が連なる形態
素とにそれぞれ形態素品詞を対応させて記憶したことを
特徴とする日本語形態素解析装置。2. The Japanese morphological analyzer according to claim 1,
In addition , the morphological dictionary further includes only hiragana character strings.
It consists of a morpheme of an independent word that is often written as, and a character string consisting of only the same character type such as kanji or katakana,
The specific morpheme having a morphological part of speech other than morphological word class candidates, hiragana strings continuous morpheme and each lish morphological analyzer day you characterized by storing in correspondence a morphological part of speech after a kanji character string.
装置において、前記形態素辞書は、この形態素辞書に記
憶されていない非ひらがなの同一文字種だけからなる文
字列の形態素のうち、使用数が少ない形態素品詞の形態
素も記憶し、前記形態素品詞候補付与手段は、前記切り
出した文字列が非ひらがなである場合に付与する特定の
形態素品詞候補から、前記使用数が少ない形態素品詞を
除外することを特徴とする日本語形態素解析装置。3. The Japanese morphological analysis according to claim 1 or 2.
In the apparatus, the morphological dictionary is stored in the morphological dictionary.
Of 憶that is not a string of only the same character type of non hiragana morphemes, the number used is small morphological parts of speech in the form
The morpheme part-of-speech candidate assigning means,
From a particular morpheme word class candidates provided when out string is a non Hiragana, the number of used small morphological parts of speech
Lish morphological analyzer day it said the exclusion.
解析装置において、漢字文字列の末尾に付きうる漢字文
字列からなる形態素を記憶する接尾辞辞書を有し、前記
切り出し手段は、同一文字種からなる文字列を切り出す
際、この文字列の末尾が前記接尾辞辞書に記憶された形
態素とマッチングした場合、この文字列からマッチング
した形態素の文字列を切り落とすようにしたことを特徴
とする日本語形態素解析装置。4. A Japanese morpheme according to claim 1, 2 or 3.
In analyzing apparatus, has a suffix dictionary for storing a morpheme composed of kanji character string that can be attached to the end of the kanji character string, wherein
The extracting unit extracts a character string having the same character type.
When, if the end of the string is matched with the stored form <br/> Taimoto the suffix dictionary, matching this string
The lish morphological analyzer day it said that you have to cut off the morpheme string.
素解析装置において、前記形態素辞書は、複数の形態素
の並んだ複合形態素と、それらの形態素順に形態素品詞
の並びを対応させて記憶し、前記接続性検査手段は、前
記複合形態素と隣接する形態素との接続性を検査する場
合、前記隣接形態素品詞接続表の参照を、前の形態素に
対しては前記複合形態素の並びの最左の形態素に対する
形態素品詞とにより行い、後の形態素に対しては前記複
合形態素の並びの最右の形態素に対する形態素品詞によ
り行うことを特徴とする日本形態素解析装置。5. The Japanese form according to claim 1, 2, 3 or 4
In the morphological analyzer, the morphological dictionary includes a compound morpheme in which a plurality of morphemes are arranged, and a morpheme part of speech in the order of the morphemes.
If storing the sequence of in correspondence, the connection checking means for checking the connection with the morpheme adjacent to the composite morpheme
If the double is a reference to the adjacent morphemes part of speech connection table for the previous morpheme performed by the morpheme part of speech for the leftmost morpheme arrangement of the composite morphemes for morphemes after
If morpheme line TURMERIC and the morphological analyzer day said by the morphological part of speech for the top-right of the morpheme sequence.
へ置き換えて単語を導出する単語構成規則と、請求項
1、2、3、4又は5記載の日本語形態素解析装置によ
って分割された形態素の並びをこの単語構成規則に適用
させて単語を導出する単語生成手段を備えたことを特徴
とする日本語形態素解析装置。 6. A summary of the sequence of form Taimoto part of speech morphological part of speech
And a Japanese morphological analyzer according to claim 1, 2, 3, 4, or 5 .
Apply the morpheme sequence divided by
A word generating means for deriving words by causing
Japanese morphological analyzer .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12685192A JP3348872B2 (en) | 1992-04-20 | 1992-04-20 | Japanese morphological analyzer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12685192A JP3348872B2 (en) | 1992-04-20 | 1992-04-20 | Japanese morphological analyzer |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05298353A JPH05298353A (en) | 1993-11-12 |
JP3348872B2 true JP3348872B2 (en) | 2002-11-20 |
Family
ID=14945427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12685192A Expired - Fee Related JP3348872B2 (en) | 1992-04-20 | 1992-04-20 | Japanese morphological analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3348872B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003085182A (en) * | 2001-09-11 | 2003-03-20 | Seiko Instruments Inc | Electronic dictionary |
JP4971732B2 (en) * | 2006-09-13 | 2012-07-11 | C2cube株式会社 | Natural language processing apparatus and program |
-
1992
- 1992-04-20 JP JP12685192A patent/JP3348872B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH05298353A (en) | 1993-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
KR100453227B1 (en) | Similar sentence retrieval method for translation aid | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
US6654717B2 (en) | Multi-language document search and retrieval system | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
JPH1153384A (en) | Device and method for keyword extraction and computer readable storage medium storing keyword extraction program | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US7398210B2 (en) | System and method for performing analysis on word variants | |
JPH10312382A (en) | Similar example translation system | |
JP3348872B2 (en) | Japanese morphological analyzer | |
JPH0944523A (en) | Relative word display device | |
JP2003323425A (en) | Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program | |
JP2006004366A (en) | Machine translation system and computer program for it | |
Bast et al. | Tokenization Repair in the Presence of Spelling Errors | |
JPH10177575A (en) | Device and method for extracting word and phrase and information storing medium | |
JP2001357065A (en) | Method and device for retrieving similar sentence and recording medium having similar sentence retrieval program recorded thereon | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs | |
Ji et al. | Phonetic name matching for cross-lingual spoken sentence retrieval | |
JP3508312B2 (en) | Keyword extraction device | |
JPH0561902A (en) | Mechanical translation system | |
JPS63109572A (en) | Derivative processing system | |
JP2002297587A (en) | Data creating method for language analysis, method therefor and program utilized for the method | |
JPS63192130A (en) | Automatic key word extracting device | |
Wu | Using a Chunk-based Dependency Parser to Mine Compound Words from Tweets | |
Trujillo et al. | Translator’s workbench and translation aids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080913 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080913 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090913 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090913 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100913 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110913 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |