JP3369127B2 - Morphological analyzer - Google Patents

Morphological analyzer

Info

Publication number
JP3369127B2
JP3369127B2 JP22141299A JP22141299A JP3369127B2 JP 3369127 B2 JP3369127 B2 JP 3369127B2 JP 22141299 A JP22141299 A JP 22141299A JP 22141299 A JP22141299 A JP 22141299A JP 3369127 B2 JP3369127 B2 JP 3369127B2
Authority
JP
Japan
Prior art keywords
word
probability
speech
unknown
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP22141299A
Other languages
Japanese (ja)
Other versions
JP2001051996A (en
Inventor
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP22141299A priority Critical patent/JP3369127B2/en
Publication of JP2001051996A publication Critical patent/JP2001051996A/en
Application granted granted Critical
Publication of JP3369127B2 publication Critical patent/JP3369127B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、形態素解析方法及
び装置及び形態素解析プログラムを格納した記憶媒体に
係り、特に、日本語テキストの単語分割及び品詞付与を
行う日本語形態素解析技術において、日本語の単語を構
成する文字種類及び、その変化の特徴を用いることによ
り未知語の同定及び品詞推定を高い精度を行うための形
態素解析方法及び装置及び形態素解析プログラムを格納
した記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a morpheme analysis method and apparatus and a storage medium storing a morpheme analysis program, and more particularly to a Japanese morpheme analysis technique for performing word segmentation and part-of-speech addition of Japanese text. The present invention relates to a morpheme analysis method and apparatus for performing high accuracy in unknown word identification and part-of-speech estimation by using the type of characters that make up a word and its change characteristics, and a storage medium storing a morpheme analysis program.

【0002】[0002]

【従来の技術】従来の日本語形態素解析技術は、発見的
優先規則に基づく方法(最長一致法や最小文節数法)、
及び接続コストに基づく方法(接続コスト最小法)が主
流である。発見的優先規則に基づく方法は、最長一致や
最小文節数など発見的優先規則(heuristics)を用いて
形態素解析候補の順位付けを行う。この方法は、順位付
けの根拠が不明確であり、解析精度が低いという問題が
ある。これに対して接続コストに基づく方法は、接続コ
ストを適切に設定できれば、高い解析精度が得られる。
しかし、接続コストを設定するための方法論が存在せ
ず、試行錯誤によりコストを決定しなければならないと
いう問題点がある。
2. Description of the Related Art Conventional Japanese morphological analysis techniques are based on heuristic priority rules (longest match method and minimum bunsetsu method),
And the method based on the connection cost (the method with the minimum connection cost) is the mainstream. The method based on the heuristic priority rule ranks the morphological analysis candidates using heuristics such as longest match and minimum clause number. This method has a problem that the basis of ranking is unclear and the analysis accuracy is low. On the other hand, the method based on the connection cost can obtain high analysis accuracy if the connection cost can be set appropriately.
However, there is no method for setting the connection cost, and the cost must be decided by trial and error.

【0003】そこで近年では、大量のテキストデータか
ら学習した統計的言語モデルから得られる確率の対数値
を接続コストとして使用する方法が主流になりつつあ
る。これにより、形態素解析候補の優先度の理論的根拠
が明確になり、かつ、実験的にも高い精度が得られる
(永田:「前向きDP後ろ向きA* アルゴリズムを用い
た確率的日本語形態素解析」情報処理学会研究報告94-N
L-101-10, pp.73-80,1994)。
Therefore, in recent years, a method of using a logarithmic value of probability obtained from a statistical language model learned from a large amount of text data as a connection cost is becoming mainstream. As a result, the rationale for the priority of morphological analysis candidates is clarified, and a high degree of accuracy is obtained experimentally (Nagata: "Probabilistic Japanese morphological analysis using forward DP backward A * algorithm" information IPSJ Research Report 94-N
L-101-10, pp.73-80, 1994).

【0004】一般に、日本語形態素解析に使用する統計
的言語モデルは、他の形態素解析プログラムまたは、人
手により単語分割と品詞付与が行われた日本語テキスト
における単語の出現頻度から求める。この際に、学習テ
キストに出現しなかった単語が入力テキストに出現した
場合、どのようにして確率を割り当てるかが重要な問題
になる。
Generally, the statistical language model used for Japanese morphological analysis is obtained from another morphological analysis program or the frequency of appearance of words in a Japanese text in which word segmentation and part-of-speech assignment are performed manually. At this time, when a word that does not appear in the learning text appears in the input text, how to assign the probability becomes an important issue.

【0005】ある単語が未知語であるという事象を<U
NK>で表すことにすると、単語w i が長さkの文字列
1 ,…,ck から構成され、それが未知語である確率
P(wi <UNK>)は、一般性を失うことなく、未知
語が長さkである確率P(k|<UNK>)と、長さk
の未知語の表記がc1 ,…,ck である確率P(c1
…,ck |k,<UNK>)の積で表せる。
The phenomenon that a word is unknown is <U
NK> represents the word w iIs a character string of length k
c1, ..., ckProbability that it is an unknown word
P (wi<UNK>), without loss of generality, unknown
Word is the length k probability P | and (k <UNK>), length k
The unknown word is c1, ..., ckProbability P (c1
…, Ck| K, can be expressed as the product of <UNK>).

【0006】P(wi |<UNK>=P(c1 ,…,c
k |<UNK>)=P(k|<UNK>)P(c1
…,ck |k,<UNK>) (1)以下では、前者
を単語長確率、後者を単語表記確率と呼ぶ。英語の場
合、Brown らにより次式の未知語モデルが提案されてい
る(Brown etal, "An Estimate of an Upper Bound for
the Entropy of English", Computational Linguistic
s, Vol.12, No.1, pp31-40,1992)。
[0006] P (w i | <UNK> = P (c 1, ..., c
k | <UNK>) = P (k | <UNK>) P (c 1,
..., c k | k, a <UNK>) (1) below, the words the former length probability, called latter as word notation probability. In the case of English, Brown et al. Have proposed an unknown word model of the following equation (Brown et al, "An Estimate of an Upper Bound for
the Entropy of English ", Computational Linguistic
s, Vol.12, No.1, pp31-40, 1992).

【0007】[0007]

【数1】 [Equation 1]

【0008】ここでλは、学習テキスト中の平均単語
長、pは、ASCII文字集合に含まれる文字数の逆数
である。即ち、Brown92 の未知語モデルでは、単語の長
さ分布は平均単語長λをパラメータとするポワソン分布
に従い、すべての文字が等確率で出現すると仮定してい
る。Brown92 のモデルは、長さ0の単語に確率を割り当
てるという問題、及び、文字の出現分布を反映していな
いという問題がある。そこで、次式のような日本語未知
語モデルを提案している(永田:「文字類似度と統計的
言語モデルを用いた日本語文字認識誤り訂正法」、電子
情報通信学会論文誌D−II,Vol.J81-D-11,No.11, p
p.1-12,1998,(以下、“永田98”と記す))。
Here, λ is the average word length in the learning text, and p is the reciprocal of the number of characters included in the ASCII character set. That is, in the Brown 92 unknown word model, it is assumed that the word length distribution follows a Poisson distribution with the average word length λ as a parameter, and all characters appear with equal probability. The Brown92 model has a problem of assigning a probability to a word of length 0 and a problem of not reflecting the occurrence distribution of characters. Therefore, a Japanese unknown word model such as the following formula is proposed (Nagata: "Japanese character recognition error correction method using character similarity and statistical language model", IEICE Transactions D-II. , Vol.J81-D-11, No.11, p
p.1-12,1998, (hereinafter referred to as "Nagata 98").

【0009】[0009]

【数2】 [Equation 2]

【0010】ここで、<bow>と<eow>は、それ
ぞれ単語の先頭と末尾を表す。即ち、上記“永田98”の
未知語モデルは、単語長分布の下限を0から1に移動す
ることにより長さ0の単語の確率を割り当てるという問
題を解決し、単語表記確率を文字「bigram」の積で近似
することにより文字の出現分布を反映できるようにして
いる。
Here, <bow> and <eow> represent the beginning and end of a word, respectively. That is, the unknown word model of "Nagata 98" solves the problem of assigning the probability of a word of length 0 by moving the lower limit of the word length distribution from 0 to 1, and the word writing probability is set to the character "bigram". By approximating by the product of, the appearance distribution of characters can be reflected.

【0011】[0011]

【発明が解決しようとする課題】しかしながら、上記
“永田98”の未知語モデルには、長い未知語、特に音訳
された外来語が辞書中の単語とそれ以外に分割された
り、複数の未知語として同定される現象、即ち、過分割
が発生しやすいという問題がある。例えば、「ペンシル
バニア」という単語が辞書に登録されておらず、「ペ
ン」という単語が辞書に登録されている場合、接頭辞
「ペン」が辞書中の単語と偶然一致したために「ペンシ
ルバニア」と「シルバニア」に分解されるといった現象
が生じる。これは、日本語全体の平均単語長が2文字程
度であるのに対して、カタカナ表記される外来語の平均
単語長が4文字程度であることに起因する。
However, in the unknown word model of "Nagata 98" described above, long unknown words, especially transliterated foreign words, are divided into words in the dictionary and other words, and a plurality of unknown words are divided. There is a problem in that over-division easily occurs. For example, if the word "Pennsylvania" is not registered in the dictionary and the word "pen" is registered in the dictionary, the prefix "pen" happens to match a word in the dictionary, so "Pennsylvania" and "Pennsylvania" The phenomenon that it is decomposed into "Sylvania" occurs. This is because the average word length of the entire Japanese word is about 2 characters, whereas the average word length of the foreign words written in katakana is about 4 characters.

【0012】また、“永田98 ”の未知語モデルは、単
語分割(未知語の同定)のためのモデルであり、未知語
の品詞を考慮していないという問題点がある。これは、
この未知語モデルが文字認識の誤り訂正で使用すること
を前提として設計されているためであるが、音声合成や
情報検索のための形態素解析では、未知語の品詞を推定
することが必要である。
Further, the unknown word model of "Nagata 98" is a model for word division (identification of unknown word), and there is a problem that the part of speech of the unknown word is not taken into consideration. this is,
This is because this unknown word model is designed on the assumption that it will be used for error correction in character recognition, but in morphological analysis for speech synthesis and information retrieval, it is necessary to estimate the part of speech of the unknown word. .

【0013】本発明は、上記の点に鑑みなされたもの
で、従来の統計的言語モデルを用いた日本語形態素解析
における未知語の過分割の問題を解決し、さらに、未知
語の品詞を推定することが可能な形態素解析方法及び装
置及び形態素解析プログラムを格納した記憶媒体を提供
することを目的とする。
The present invention has been made in view of the above points, solves the problem of over-division of unknown words in Japanese morphological analysis using a conventional statistical language model, and further estimates the part of speech of unknown words. It is an object of the present invention to provide a morphological analysis method and device capable of performing, and a storage medium storing a morphological analysis program.

【0014】[0014]

【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明は、日本語の形態素解
析を行う形態素解析方法において、入力テキストの部分
文字列と照合する単語をデータベース上の単語辞書から
検索して単語候補として生成し(ステップ1)、単語辞
書と照合しない入力テキストの部分文字列から未知語で
ある可能性のあるものを、単語を構成する文字の種類及
びその変化に基づいて単語タイプが定義された単語タイ
プ定義テーブルを参照し、単語タイプのいずれかに任意
の文字列を分類し、分類された単語タイプ毎に未知語候
補として同定し(ステップ2) 品詞別の単語タイプ出
現頻度が定義されている単語タイプ頻度テーブルを参照
し、品詞別に単語タイプ出現確率を求め、品詞及び単語
タイプ別の平均単語長が定義されている平均単語長テー
ブルを参照し、平均単語長をポワソン分布で近似するこ
とにより、品詞及び単語タイプ別に任意の長さの単語長
確率を求め、品詞及び単語タイプ別の文字ngram 頻度が
定義されている文字ngram 頻度テーブルを参照して、品
詞及び単語タイプ及び単語長別に任意の文字列の単語表
記確率を求める未知語モデルを用いて未知語候補の品詞
別単語出現確率を推定し(ステップ3)、動的計画法に
より、単語候補及び未知語候補のすべての組み合わせに
ついて、単語ngram 頻度テーブルを参照して求めた単語
ngram 確率、及び品詞別単語出現確率を用いて同時確率
が最大となる単語列を求める(ステップ4)。
FIG. 1 is a diagram for explaining the principle of the present invention. This onset Ming, the morphological analysis method for performing morphological analysis of Japanese, searching for words that match the substring of the input text from the word dictionary in the database to generate a word candidates (step 1), the word dictionary
Unknown character from the substring of the input text that does not match the calligraphy
What is possible is the type of characters that make up the word and the
Word types whose word types are defined based on
Refer to the table definition table and specify any of the word types
Classifies the character strings of and the unknown words for each classified word type
It was identified as a complement (step 2) , and the word type was output for each part of speech.
See word type frequency table where the current frequency is defined
Then, the word type appearance probability is calculated for each part of speech, and the part of speech and word
Average word length table that defines the average word length for each type
Bulls to approximate the average word length by Poisson distribution.
Depending on the part of speech and word type, the word length can be any length
Probability is calculated and character ngram frequency by part of speech and word type is
Refer to the defined character ngram frequency table and
Word table of arbitrary character strings according to words and word types and word lengths
Part-of-speech of an unknown word candidate using an unknown word model for finding probabilities
Estimate another word appearance probability (step 3) and apply it to dynamic programming
To all combinations of word candidates and unknown word candidates
About the word obtained by referring to the word ngram frequency table
Simultaneous probability using ngram probability and word appearance probability by part of speech
The word string that maximizes is obtained (step 4).

【0015】本発明は、単語表記確率を求める際に、
字ngram 頻度テーブルを参照して、より低次の品詞及び
単語列の文字ngram頻度、及び、同次または、より低次
の品詞及び単語の違いを考慮しない文字ngram 頻度か
ら、品詞及び単語タイプ別の文字ngram 確率を線形補間
法により求める方法、または、文字ngram 頻度から求め
られた単語表記確率を同じ長さのすべての文字列に割り
当てられた単語表記確率の和で正規化する方法のいずれ
かを用いる
[0015] The present onset Ming, at the time of obtaining the word notation probability, statement
Refer to the character ngram frequency table to determine the lower part of speech and
Character ngram frequency of word string and homogeneity or lower
Ngram frequency without considering the part of speech and word difference
, Linearly interpolating character ngram probabilities by part-of-speech and word type
Method, or from character ngram frequency
Divide the given word notation probability into all strings of the same length.
Any of the methods to normalize with the sum of assigned word notation probabilities
Use or .

【0016】図2は、本発明の原理構成図である。 本発
明は、日本語の形態素解析を行う形態素解析装置であっ
て、 入力テキストの部分文字列と照合する単語を単語辞
書から検索して単語候補として生成する単語辞書照合手
段1と、 単語を構成する文字の種類及びその変化に基づ
いて単語タイプが定義された単語タイプ定義テーブルを
参照して、単語タイプのいずれか任意の文字列を分類
し、分類された単語タイプを判定する単語タイプ判定手
段6と、品詞別の単語タイプ出現頻度が定義されている
単語タイプ頻度テーブルを参照して、品詞別に単語タイ
プ出現確率を求める単語タイプ確率推定手段7と、単語
品詞及び単語タイプ別の平均単語長が定義されている平
均単語長テーブルを参照し、平均単語長をポワソン分布
で近似することにより、品詞及び単語タイプ別に任意の
長さの単語長確率を求める単語長確率推定手段8と、品
詞及び単語タイプ別の文字ngram 頻度が定義されている
文字ngram 頻度テーブルを参照して、品詞及び単語タイ
プ及び単語長別に任意の文字列の単語表記確率を求める
単語表記確率推定手段9と、からなる未知語モデルと、
未知語モデルの単語タイプ判定手段6を用いて、単語辞
書照合手段1において、単語辞書と照合しない入力テキ
ストの部分文字列から未知語である可能性があるものを
未知語候補として選択する未知語候補同定手段2と、
知語モデルの単語タイプ確率推定手段7、単語長確率推
定手段8、単語表記確率推定手段9を用いて未知語候補
の品詞単語出現確率を推定する未知語候補確率推定手段
3と、 単語辞書照合手段1により求められた単語候補、
及び、未知語候補同定手段2により得られた未知語候補
のすべての組み合わせについて、単語ngram 頻度が定義
されている単語ngram 頻度テーブルを参照して求められ
た単語ngram 確率及び、未知語候補確率推定手段3によ
り求められた品詞別単語出現確率を用いて、同時確率が
最大となる単語列を求める最適単語列探索手段4とを有
する。
FIG . 2 is a block diagram showing the principle of the present invention. Starting
Akira is a morphological analyzer that analyzes Japanese morphemes.
To match the substring of the input text with the word
Word dictionary collation hand that searches from a book and generates it as a word candidate
Based on column 1 and the type of characters that make up a word and their variations
The word type definition table that defines the word type
Browse and classify any string of word type
A word type determination hand that determines the classified word type
Level 6 and word type appearance frequency for each part of speech are defined
Refer to the word type frequency table to see the word type by part of speech.
A word type probability estimating means 7 for obtaining the appearance probability, and a word
The average word length for each part of speech and word type is defined.
Poisson distribution of average word length with reference to uniform word length table
By approximating with
A word length probability estimating means 8 for obtaining a word length probability of a length,
Character ngram frequency by lyric and word type is defined
Refer to the character ngram frequency table to identify the part of speech and word
Find the word notation probability of an arbitrary character string by group and word length
An unknown word model consisting of word notation probability estimation means 9;
Using the word type determination means 6 of the unknown word model,
The input collating means 1 does not collate with the word dictionary.
From the substring of the string that may be an unknown word
The unknown word candidate identifying means 2 for selecting the unknown word candidates, non
Word type probability estimator 7 of the word model, word length probability estimation
Unknown word candidates using the definition means 8 and the word notation probability estimation means 9.
Unknown word candidate probability estimation means for estimating the part-of-speech word appearance probability of
3 and the word candidates obtained by the word dictionary matching means 1,
And an unknown word candidate obtained by the unknown word candidate identifying means 2.
The word ngram frequency is defined for all combinations of
Is found by referring to the ngram frequency table
The estimated word ngram probability and unknown word candidate probability estimation means 3
By using the word appearance probability of each part of speech obtained by
And an optimum word string search means 4 for finding the maximum word string.
To do.

【0017】本発明は、単語表記確率推定手段9におい
文字ngram 頻度テーブルを参照して、より低次の品
詞及び単語列の文字ngram頻度、及び、同次または、よ
り低次の品詞及び単語の違いを考慮しない文字ngram 頻
度から、品詞及び単語タイプ別の文字ngram 確率を線形
補間法により求める方法、または、文字ngram 頻度から
求められた単語表記確率を同じ長さのすべての文字列に
割り当てられた単語表記確率の和で正規化する方法のい
ずれかを用いる
The present invention resides in the word notation probability estimation means 9.
And refer to the character ngram frequency table
Character ngram frequency of words and word strings and the same or
Character ngram frequency that does not consider the difference of low-order parts of speech and words
From the degree, the character ngram probability for each part of speech and word type is linearly calculated.
Interpolation method or character ngram frequency
Find the word probabilities found in all strings of the same length
How to normalize by the sum of assigned word notation probabilities
Use the difference .

【0018】本発明は、日本語の形態素解析を行う形態
素解析プログラムを格納した記憶媒体であって、 入力テ
キストの部分文字列と照合する単語をデータベース上の
単語辞書から検索して単語候補として生成する単語辞書
照合ステップと、 単語辞書と照合しない入力テキストの
部分文字列から未知語である可能性のあるものを、単語
を構成する文字の種類及びその変化に基づいて単語タイ
プが定義された単語タイプ定義テーブルを参照し、単語
タイプのいずれかに任意の文字列を分類し、分類された
単語タイプ毎に未知語候補として同定する未知語候補同
定ステップと、 品詞別の単語タイプ出現頻度が定義され
ている単語タイプ頻度テーブルを参照し、品詞別に単語
タイプ出現確率を求め、品詞及び単語タイプ別の平均単
語長が定義されている平均単語長テーブルを参照し、平
均単語長をポワソン分布で近似することにより、品詞及
び単語タイプ別に任意の長さの単語長確率を求め、品詞
及び単語タイプ別の文字ngram 頻度が定義されている文
字ngram 頻度テーブルを参照して、品詞及び単語タイプ
及び単語長別に任意の文字列の単語表記確率を求める未
知語モデルを用いて、未知語候補の品詞別単語出現確率
を推定する未知語候補確率推定ステップと、 動的計画法
により、単語候補及び未知語候補のすべての組み合わせ
について、単語ngram 頻度テーブルを参照して求めた品
詞別単語出現確率を用いて、同時確率が最大となる単語
列を求める最適単語列探索ステップとからなる。
The present invention is a form for performing morphological analysis of Japanese.
A storage medium storing a prime analysis program, input Te
Words in the database that match substrings of kist
A word dictionary that is searched as a word candidate and generated as a word candidate
Matching steps and input text that does not match the word dictionary
Words that may be unknown words from substrings
Based on the type of characters that make up the word and its variation
Refer to the word type definition table in which the
Classified any string into one of the types and classified
Unknown word candidates identified for each word type as unknown word candidates
Constant steps and word type frequency by part of speech are defined.
Refer to the word type frequency table that has
The type appearance probability is calculated, and the average unit for each part of speech and word type is calculated.
Refer to the average word length table that defines the word length, and
By approximating the uniform word length by Poisson distribution,
And the word length probability of any length for each word type
And sentences with defined character ngram frequencies by word type
Part-of-speech and word type by referring to the character ngram frequency table
And the word notation probability of an arbitrary character string is calculated for each word length.
Probability of word occurrence by part-of-speech of an unknown word candidate by using an intelligent word model
And an unknown word candidate probability estimation step of estimating, dynamic programming
Allows all combinations of word candidates and unknown word candidates
About the word ngram frequency table
The word with the highest joint probability using the word appearance probability
An optimal word string search step for obtaining a string.

【0019】本発明は、単語表記確率推定ステップにお
いて、 文字ngram 頻度テーブルを参照して、より低次の
品詞及び単語列の文字ngram頻度、及び、同次または、
より低次の品詞及び単語の違いを考慮しない文字ngram
頻度から、品詞及び単語タイプ別の文字ngram 確率を線
形補間法により求める方法、または、文字ngram 頻度か
ら求められた単語表記確率を同じ長さのすべての文字列
に割り当てられた単語表記確率の和で正規化する方法の
いずれかを用いる。
The present invention includes a word notation probability estimation step.
And refer to the character ngram frequency table for lower order
Part-of-speech and character string ngram frequency and the same or
Character ngram that does not consider lower part-of-speech and word differences
Character ngram probability by part of speech and word type is plotted from frequency
Shape interpolation method or character ngram frequency
The word notation probability obtained from all strings of the same length
Of the method of normalizing the sum of the word notation probabilities assigned to
Use either one.

【0020】[0020]

【0021】[0021]

【0022】[0022]

【0023】[0023]

【0024】[0024]

【0025】[0025]

【発明の実施の形態】図3は、本発明の日本語形態素解
析装置に構成を示す。同図に示す日本語形態素解析装置
は、単語照合部1、未知語候補同定部2、未知語候補確
率推定部3、最適単語列探索部4、単語辞書5、単語タ
イプ判定部6、単語タイプ確率推定部7、単語長確率推
定部8、単語表記確率推定部9、単語bigram確率推定部
10、単語タイプ定義テーブル11、単語タイプ頻度テ
ーブル12、平均単語長テーブル13、文字bigram頻度
テーブル14、単語bigram頻度テーブル15、単語辞書
作成部16、単語タイプ頻度計算部17、平均単語長計
算部18、文字bigram計算部19、単語bigram計算部2
0より構成される。
FIG. 3 shows the configuration of a Japanese morphological analyzer according to the present invention. The Japanese morphological analyzer shown in FIG. 1 includes a word matching unit 1, an unknown word candidate identifying unit 2, an unknown word candidate probability estimating unit 3, an optimum word string searching unit 4, a word dictionary 5, a word type determining unit 6, and a word type. Probability estimation unit 7, word length probability estimation unit 8, word notation probability estimation unit 9, word bigram probability estimation unit 10, word type definition table 11, word type frequency table 12, average word length table 13, character bigram frequency table 14, Word bigram frequency table 15, word dictionary creation unit 16, word type frequency calculation unit 17, average word length calculation unit 18, character bigram calculation unit 19, word bigram calculation unit 2
It consists of zero.

【0026】なお、単語分割モデルとして前述の特許請
求の範囲では、ngram を用いているが、以下の説明で
は、単語bigramを用いて説明するが、これに限定される
ものではない。上記の構成のうち、単語照合部1、未知
語候補同定部2、未知語候補確率推定部3、最適単語列
探索部4、単語タイプ判定部6、単語タイプ確率推定部
7、単語長確率推定部8、単語表記確率推定部9、単語
bigram確率推定部10は、入力テキストを形態素解析す
るためのものである。
Although ngram is used as the word segmentation model in the above claims, the following description will be made using the word bigram, but the invention is not limited to this. Of the above configuration, the word collation unit 1, the unknown word candidate identification unit 2, the unknown word candidate probability estimation unit 3, the optimum word string search unit 4, the word type determination unit 6, the word type probability estimation unit 7, the word length probability estimation. Part 8, word notation probability estimation part 9, word
The bigram probability estimation unit 10 is for morphological analysis of the input text.

【0027】また、単語辞書5、単語タイプ定義テーブ
ル11、単語タイプ頻度テーブル12、平均単語長テー
ブル13、文字bigram頻度テーブル14、単語bigram頻
度テーブル15は、形態素解析で使用する統計的言語モ
デルである。また、単語辞書作成部16、単語タイプ頻
度計算部17、平均単語長計算部18、文字bigram計算
部19、及び単語bigram計算部20は、学習テキストか
ら統計的言語モデルのパラメータを推定する。
The word dictionary 5, the word type definition table 11, the word type frequency table 12, the average word length table 13, the character bigram frequency table 14, and the word bigram frequency table 15 are statistical language models used in morphological analysis. is there. Further, the word dictionary creation unit 16, the word type frequency calculation unit 17, the average word length calculation unit 18, the character bigram calculation unit 19, and the word bigram calculation unit 20 estimate the parameters of the statistical language model from the learning text.

【0028】上記の構成において、入力テキストを形態
素解析する際には、まず、単語辞書照合部1が入力テキ
ストの部分文字列と照合する単語を単語辞書5から検索
する。次に、未知語候補同定部2が、単語辞書5と照合
しなかった入力テキストの部分文字列の中から未知語と
なりうるものを未知語候補として選択する。単語タイプ
判定部6は、単語タイプ定義テーブル11に基づいて未
知語候補の単語タイプを決定する。未知語候補確率推定
部3は、単語タイプ確率推定部7により求められた品詞
別単語タイプ確率、単語長確率推定部8により求めた品
詞及び単語タイプ別単語長確率、単語表記確率推定部9
より求めた品詞及び単語タイプ及び単語長別単語表記確
率から未知語の品詞別単語出現確率を求める。この際、
単語タイプ確率推定部7、単語長確率推定部8、単語表
記確率推定部9は、それぞれ、単語タイプ頻度テーブル
12、平均単語長テーブル13、文字bigram頻度テーブ
ル14を使用する。
In the above structure, when performing morphological analysis on the input text, first, the word dictionary matching unit 1 searches the word dictionary 5 for a word that matches the partial character string of the input text. Next, the unknown word candidate identification unit 2 selects, as an unknown word candidate, one that can be an unknown word from the partial character strings of the input text that are not matched with the word dictionary 5. The word type determination unit 6 determines the word type of the unknown word candidate based on the word type definition table 11. The unknown word candidate probability estimation unit 3 includes a part-of-speech word type probability obtained by the word type probability estimation unit 7, a part-of-speech and word type-dependent word length probability obtained by the word length probability estimation unit 8, and a word writing probability estimation unit 9
The part-of-speech word appearance probability of the unknown word is obtained from the obtained part-of-speech, word type, and word length-specific word notation probability. On this occasion,
The word type probability estimation unit 7, the word length probability estimation unit 8, and the word notation probability estimation unit 9 use the word type frequency table 12, the average word length table 13, and the character bigram frequency table 14, respectively.

【0029】最適単語列探索部4は、単語辞書照合部1
により得られた単語候補、及び、未知御候補同定部2に
より得られた未知語候補のすべての組み合わせについ
て、単語bigram頻度テーブル15を用いて単語bigram確
率推定部10により求めた単語bigram確率、及び、未知
語候補確率推定部3により求めた未知語の品詞別単語出
現確率を用いて、同時確率が最大となる単語列を求め、
これを形態素解析結果として出力する。なお、単語bigr
am確率推定部10において、単語bigram頻度テーブル1
5を用いているが、単語分割モデルとして単語ngram
等、種々の単語に基づく言語モデルを使用することが可
能である。
The optimum word string searching unit 4 is a word dictionary matching unit 1.
The word bigram probabilities obtained by the word bigram probability estimation part 10 using the word bigram frequency table 15 for all combinations of the word candidates obtained by the above and the unknown word candidates obtained by the unknown candidate identification part 2, and , Using the word appearance probability by part of speech of the unknown word obtained by the unknown word candidate probability estimation unit 3, the word string having the maximum joint probability is obtained,
This is output as a morphological analysis result. Note that the word bigr
In the am probability estimation unit 10, the word bigram frequency table 1
5 is used, but the word ngram is used as a word segmentation model.
It is possible to use language models based on various words, such as.

【0030】学習テキストから統計的言語モデルのパラ
メーを推定する際には、単語辞書作成部16、単語タイ
プ頻度計算部17、平均単語長計算部18、文字bigram
計算部19、単語bigram計算部20がそれぞれ、単語辞
書5、単語タイプ定義11、単語タイプ頻度テーブル1
2、平均単語長テーブル13、文字bigram頻度テーブル
14、単語bigram頻度テーブル15にパラメータを格納
する。
When estimating the parameters of the statistical language model from the learning text, the word dictionary creating unit 16, the word type frequency calculating unit 17, the average word length calculating unit 18, the character bigram.
The calculation unit 19 and the word bigram calculation unit 20 respectively include a word dictionary 5, a word type definition 11, and a word type frequency table 1.
2. The parameters are stored in the average word length table 13, the character bigram frequency table 14, and the word bigram frequency table 15.

【0031】次に、上記の構成における動作を説明す
る。図4は、本発明の形態素解析処理を説明するための
フローチャートである。 ステップ101) テキストを単語辞書照合部1に入力
する。 ステップ102) 単語辞書照合部1は、入力テキスト
の部分文字列と照合する単語を単語辞書5から検索す
る。
Next, the operation of the above configuration will be described. FIG. 4 is a flow chart for explaining the morphological analysis processing of the present invention. Step 101) Input the text into the word dictionary matching unit 1. Step 102) The word dictionary matching unit 1 searches the word dictionary 5 for a word that matches the partial character string of the input text.

【0032】ステップ103) 未知語候補同定部2
が、単語辞書5と照合しなかった入力テキストの部分文
字列の中から未知語となり得る単語を未知語候補として
選択する。 ステップ104) 単語タイプ判定部6は、単語タイプ
定義テーブル11を参照して、ステップ103で選択さ
れた未知語候補の単語タイプを決定する。
Step 103) Unknown word candidate identifying section 2
However, a word that can be an unknown word is selected as an unknown word candidate from the partial character strings of the input text that are not matched with the word dictionary 5. Step 104) The word type determination unit 6 refers to the word type definition table 11 and determines the word type of the unknown word candidate selected in step 103.

【0033】ステップ105) 単語タイプ確率推定部
7は、単語タイプ頻度テーブル12を参照して品詞別単
語タイプ確率を推定し、未知語候補確率推定部3に渡
す。 ステップ106) 単語長確率推定部8は、平均単語長
テーブル13を参照して品詞及び単語タイプ別単語長確
率を推定し、未知語候補確率推定部3に渡す。 ステップ107) 単語表記確率推定部9は、文字bigr
am頻度テーブル14を参照して品詞及び、単語タイプ及
び、単語長別単語表記確率を推定し、未知語候補確率推
定部3に渡す。
Step 105) The word type probability estimating unit 7 estimates the word type probability by part of speech by referring to the word type frequency table 12, and sends it to the unknown word candidate probability estimating unit 3. Step 106) The word length probability estimation unit 8 refers to the average word length table 13 to estimate the word length probability by part of speech and word type, and passes it to the unknown word candidate probability estimation unit 3. Step 107) The word notation probability estimation unit 9 uses the character bigr
The part-of-speech, the word type, and the word notation probability by word length are estimated with reference to the am frequency table 14, and are passed to the unknown word candidate probability estimation unit 3.

【0034】ステップ108) 未知語候補確率推定部
3は、単語タイプ確率推定部7から取得した品詞別単語
タイプ確率、単語長確率推定部8から取得した品詞及び
単語タイプ別単語長確率、単語表記確率推定部9から取
得した品詞及び単語タイプ及び単語長別単語表記確率か
ら未知語の品詞別単語出現確率を求める。 ステップ109) 単語bigram確率推定部10は、単語
bigram頻度テーブル15を用いて単語bigram確率を求
め、最適単語列探索部4において、単語辞書照合部1に
より得られた単語候補、及び未知語候補同定部2から取
得した未知語候補のすべての組み合わせについて、単語
bigram確率推定部10より求めた単語bigram確率と、未
知語候補確率推定部3により求めた未知語の品詞別単語
出現確率を用いて、同時確率が最大となる単語列を求
め、これを形態素解析結果として出力する。
Step 108) The unknown word candidate probability estimation unit 3 uses the part-of-speech word type probability acquired from the word type probability estimation unit 7, the part-of-speech and word type-specific word length probability acquired from the word length probability estimation unit 8, and the word notation. The part-of-speech-specific word appearance probability of the unknown word is obtained from the part-of-speech, word type, and word length-specific word notation probability acquired from the probability estimation unit 9. Step 109) The word bigram probability estimation unit 10 uses the word
The word bigram probability is calculated using the bigram frequency table 15, and in the optimum word string search unit 4, all combinations of word candidates obtained by the word dictionary matching unit 1 and unknown word candidates acquired from the unknown word candidate identifying unit 2 About the word
Using the word bigram probability obtained by the bigram probability estimation unit 10 and the word appearance probability by part of speech of the unknown word obtained by the unknown word candidate probability estimation unit 3, a word string having the maximum joint probability is obtained, and this is subjected to morphological analysis. Output as a result.

【0035】[0035]

【実施例】以下、図面と共に本発明の実施例を説明す
る。以下では、図4の入力テキストを形態素解析する手
順に従って、図3の構成に基づいて、単語辞書5及び単
語辞書照合法、単語タイプの定義及び未知語候補同定
法、未知語候補の品詞別出現確率推定法、単語bigram確
率推定法及び最適単語列探索法の順に説明する。
Embodiments of the present invention will be described below with reference to the drawings. In the following, the word dictionary 5 and the word dictionary matching method, the definition of the word type and the unknown word candidate identification method, and the appearance of the unknown word candidate by part-of-speech based on the configuration of FIG. The probability estimation method, the word bigram probability estimation method, and the optimum word string search method will be described in this order.

【0036】なお、以下の説明では、学習テキストは、
予め人手または、他の形態素解析プログラムにより単語
分割及び品詞付与が行われているものとする。 (1) 単語辞書5及び単語辞書照合処理:単語辞書作
成部16は、学習テキストにおいて出現頻度がある閾値
を越える単語のリストから単語辞書5を作成する。ここ
で、単語は表記及び品詞から構成されると定義し、同じ
表記でも品詞が異なれば別の単語と考える。本実施例で
は、出現頻度の閾値を1とする。
In the following description, the learning text is
It is assumed that word division and part-of-speech assignment have been performed in advance by a human or another morphological analysis program. (1) Word dictionary 5 and word dictionary matching process: The word dictionary creating unit 16 creates the word dictionary 5 from a list of words in which the appearance frequency exceeds a certain threshold in the learning text. Here, a word is defined to be composed of a notation and a part of speech, and even if the same notation has a different part of speech, it is considered as a different word. In the present embodiment, the threshold of the appearance frequency is 1.

【0037】単語辞書照合部1は、入力テキストの部分
文字列と一致する単語辞書中の単語を列挙する。そのた
めに、単語辞書5には文字列の共通接頭辞を併合した
“トライ”と呼ばれるデータ構造を使用する。 (2) 単語タイプの定義及び未知語候補同定処理:現
代の日本語の正書法では、句読点などの記号以外に少な
くとも5つの文字の種類(漢字、ひらがな、カタカナ、
アルファベット、アラビア数字)が使用されている。漢
字は中国系の外来語(漢語)、及び、中国語と意味的に
等しい日本語の表記に(送り仮名を伴って)使用され
る。ひらがなは助詞や活用語尾などの機能語の表記に使
用され、カタカナは西欧系の外来語の発音表記に使用さ
れる。アルファベットは西欧系の単語や頭文字の表記に
使用され、アラビア数字は数の表記に使用される。
The word dictionary matching unit 1 enumerates the words in the word dictionary that match the partial character strings of the input text. For this purpose, the word dictionary 5 uses a data structure called "try" that merges common prefixes of character strings. (2) Word type definition and unknown word candidate identification processing: In modern Japanese orthography, at least five character types (Kanji, Hiragana, Katakana,
Alphabet, Arabic numerals) are used. Kanji is used for Chinese foreign words (Chinese) and Japanese notation (with sending kana) that is semantically equivalent to Chinese. Hiragana is used for notation of functional words such as postpositions and inflection endings, and katakana is used for phonetic notation of foreign words in Western Europe. The alphabet is used to represent Western European words and acronyms, and the Arabic numeral is used to represent numbers.

【0038】EDRコーパスにおける出現頻度1の単語
について、単語を構成する文字の種類及びその変化につ
いて調べた結果を図5に示す。EDRコーパスは、新
聞、雑誌、教科書などを収集した日本語の代表的なテキ
ストコーパスである。一般に、学習テキストに一度しか
出現しない単語の性質は、未知語の性質の近いと言われ
ている。同図によれば、一つの文字種で構成される単語
(漢字、カタカナ、ひらがな、数字、アルファベット)
が全体の約65%を占めていることがわかる。
FIG. 5 shows the results of an examination of the types of characters that make up words and their changes for words with an appearance frequency of 1 in the EDR corpus. The EDR corpus is a typical Japanese text corpus that collects newspapers, magazines, textbooks, and the like. Generally, it is said that the properties of words that appear only once in a learning text are close to the properties of unknown words. According to the figure, words consisting of one character type (Kanji, Katakana, Hiragana, numbers, alphabets)
It can be seen that occupies about 65% of the total.

【0039】また、2つ以上の字種で構成される単語の
うち「形態素」即ち、「これ以上分割すると意味をもた
なくなる最小の言語要素」となりうるのは、「漢字−ひ
らがな」または、「ひらがな−漢字」というパターンだ
けである。前者は、「極ま(る)」のような漢字と送り
仮名の組み合わせ、後者は「えい(嬰)児」のような難
しい漢字をひらがなで表記した単語に対応する。
Further, among words composed of two or more character types, "morpheme", that is, "minimum linguistic element having no meaning when further divided" is "Kanji-Hiragana" or The only pattern is "Hiragana-Kanji". The former corresponds to a combination of kanji such as "ru" and futana, and the latter corresponds to a word in hiragana that represents difficult kanji such as "ei".

【0040】そこで、本実施例では、日本語の正書法に
おいて、単語を構成する文字の種類及びその変化のパタ
ーンに基づいて複数の単語タイプを設定し、これを単語
タイプ定義11にバッカス記法(Backus Naur Form, BN
F )で記述する。図6は、本発明の一実施例の単語タイ
プの定義を示す。同図は、日本語の未知語を9種類の単
語タイプに分類した場合の例を示す。ここで、[…]
は、文字集合中の任意の1文字と照合することを表す。
2つの文字の間に、“−”を書くことで文字範囲を表
す。文字コードには、JIS−X−0208を仮定して
いる。“*”は0回以上の繰り返し、“+”は1回以上
の繰り返しを表す。
Therefore, in this embodiment, in the Japanese orthography, a plurality of word types are set on the basis of the types of characters forming a word and the patterns of their changes, and these are set in the word type definition 11 using Backus notation. Naur Form, BN
F). FIG. 6 shows a word type definition according to one embodiment of the present invention. This figure shows an example in which Japanese unknown words are classified into nine word types. here,[…]
Indicates matching with any one character in the character set.
A character range is indicated by writing "-" between two characters. JIS-X-0208 is assumed for the character code. “*” Represents 0 or more repetitions, and “+” represents one or more repetitions.

【0041】<sym>,<num>,<alpha
>,<hira>,<kara>,<kan>は、それ
ぞれ記号列、数字列、アルファベット列、ひらがな列、
カタカナ列、漢字列という一つの字種から構成される文
字列を表す。<kan−hira>、<hira−ka
n>は、それぞれ漢字列−ひらがな列、ひがな列−漢
字列という2つの字種から構成される文字列を表す。そ
して、これら以外の複数の字種から構成される文字列は
すべて<misc>とする。
<Sym>, <num>, <alpha>
>, <Hira>, <kara>, and <kan> are a symbol string, a number string, an alphabet string, and a hiragana string, respectively.
Represents a character string that consists of one character type, the Katakana string and the Kanji string. <Kan-hira>, <hira-ka
n> are each kanji string - Hiragana Gana column, hiragana strings - representing the character string composed of two character types that kanji string. A character string composed of a plurality of character types other than these is all set to <misc>.

【0042】なお、図6は、単語タイプ定義11の一例
であり、単語タイプの定義は必要に応じて自由に変更で
きる。単語タイプ判定部6は、単語タイプ定義11に基
づいて、任意の文字列を単語とみなした際の単語タイプ
を求める。未知語候補同定部2は、単語辞書5と照合し
なかった入力テキストの部分文字列を取り出し、単語と
成りえない部分文字列(例えば、句読点を内部に含むも
のなど)を取り除いた、単語タイプ判定部6により単語
タイプを判定して未知語候補を作成する。
FIG. 6 shows an example of the word type definition 11, and the word type definition can be freely changed as needed. The word type determination unit 6 obtains a word type when an arbitrary character string is regarded as a word based on the word type definition 11. The unknown word candidate identifying unit 2 extracts a partial character string of the input text that has not been matched with the word dictionary 5 and removes a partial character string that cannot be a word (for example, one that includes punctuation marks inside). The determination unit 6 determines the word type and creates an unknown word candidate.

【0043】(3) 未知語候補の品詞別出現確率推定
法:未知語の品詞がtである事象を<U−t>で表すこ
とにすると、未知語の品詞別出現確率、即ち、文字列c
1 ,…,ck から構成される未知語がtである確率P
(c1 ,…,ck |<U−t>)は、まず単語タイプを
選び、次に長さを選び、最後に表記を決定するという過
程を考えれば、一般性を失うことなく以下のような確率
の積に分解できる。
(3) Part-of-Speech Appearance Probability Estimation Method of Unknown Word Candidate: If an event in which the part-of-speech of an unknown word is t is represented by <Ut>, the appearance probability of the unknown word by part-of-speech, that is, a character string. c
The probability P that an unknown word composed of 1 , ..., C k is t
(C 1 , ..., c k | <Ut>) is the following without loss of generality, considering the process of first selecting the word type, then the length, and finally the notation. It can be decomposed into the product of probabilities.

【0044】 P(c1 …ck |<U−t>)= P(<WT>|<U−t>)P(k|<WT>,<U−t>) P(c1 …ck |k,<WT>,<U−t>) (5) 未知語候補確率推定部3は、式(5)を用いて、未知語
候補の品詞別単語出現確率を推定する。
P (c 1 ... C k | <U-t>) = P (<WT> | <U-t>) P (k | <WT>, <U-t>) P (c 1 ... c k | k, <WT>, <Ut>) (5) The unknown word candidate probability estimation unit 3 estimates the word appearance probability by part-of-speech of the unknown word candidate using Expression (5).

【0045】式(5)の右辺の第1項は、学習テキスト
における関連する事象の相対頻度から求める。
The first term on the right side of the equation (5) is obtained from the relative frequency of related events in the learning text.

【0046】[0046]

【数3】 [Equation 3]

【0047】ここで、C(・)は、学習テキストにおけ
る事象の頻度を表す。従って、単語タイプ頻度計算部1
7は、学習テキストにおける単語タイプと品詞の組の頻
度C(<WT>,<U−t>)及び品詞の頻度C(<U
−t>)を計算し、単語タイプ頻度テーブル12に格納
する。また、単語タイプ確率推定部7は、式(6)を用
いて品詞別単語タイプ確率を推定する。
Here, C (·) represents the frequency of events in the learning text. Therefore, the word type frequency calculator 1
7 is the frequency C (<WT>, <Ut>) of the combination of the word type and the part of speech in the learning text and the frequency C (<U of the part of speech).
-T>) is calculated and stored in the word type frequency table 12. Further, the word type probability estimation unit 7 estimates the word type probability by part of speech using the formula (6).

【0048】式(5)の右辺の第2項は、単語タイプが
<WT>かつ品詞が<U−t>である単語の平均単語長
The second term on the right side of the equation (5) is the average word length of the words whose word type is <WT> and whose part of speech is <Ut>.

【0049】[0049]

【数4】 [Equation 4]

【0050】をパラメータとするポワソン分布で近似す
る。
It is approximated by a Poisson distribution using as a parameter.

【0051】[0051]

【数5】 [Equation 5]

【0052】従って、平均単語長計算部18は、学習テ
キストにおいて単語タイプが<WT>かつ、品詞が<U
−t>である単語の平均単語長
Therefore, the average word length calculation unit 18 determines that the word type is <WT> and the part of speech is <U in the learning text.
-Average word length of words with t>

【0053】[0053]

【数6】 [Equation 6]

【0054】を計算し、平均単語長テーブル13に格納
する。また、単語長確率推定部8は、式(7)を用いて
単語タイプ及び品詞別の単語長確率を推定する。式
(5)の右辺の第3項は、文字bigram確率の積で文字列
の出現確率を近似し、これに長さを限定するための補正
を加えるという方法で求める。まず、Pb (c1 ,…,
k |<WT>,<U−t>)を以下のように定義す
る。これは、単語タイプ及び品詞別の文字bigram確率の
積で、単語タイプ及び品詞別の単語表記確率を近似した
ものに相当する。
Is calculated and stored in the average word length table 13. Further, the word length probability estimation unit 8 estimates the word length probability for each word type and part of speech using Expression (7). The third term on the right side of the equation (5) is obtained by a method of approximating the appearance probability of the character string by the product of the character bigram probabilities and adding a correction for limiting the length to this. First, P b (c 1 , ...,
c k | <WT>, <Ut>) is defined as follows. This is a product of the character bigram probabilities for each word type and part of speech, and corresponds to an approximation of the word notation probabilities for each word type and part of speech.

【0055】[0055]

【数7】 [Equation 7]

【0056】次に、Pb (k|<WT>,<U−t>)
を以下のように定義する。これは、単語タイプ及び品詞
別に長さkの単語が出現する確率を、単語タイプ及び品
詞別の文字unigram モデルで近似したものに相当する。
Next, P b (k | <WT>, <Ut>)
Is defined as follows. This corresponds to the probability that a word of length k appears for each word type and part of speech approximated by a character unigram model for each word type and part of speech.

【0057】[0057]

【数8】 Pb(k|<WT>, <U-t>)〜(1-P<eow>|<WT>,<U-t>))k-1P(<eow>|<WT>,<U-t>) (9)[Equation 8] P b (k | <WT>, <Ut>) to (1-P <eow> | <WT>, <Ut>)) k-1 P ( <eow> | <WT>, <Ut >) (9)

【0058】上式では、長さkの単語が出現する事象の
確率は、語末記号<eow>以外がk−1回出現した後
に語末記号が出現する事象の確率に等しいという関係を
用いている。さて、式(5)の右辺の第3項、即ち、単
語タイプ及び品詞及び長さ別の単語表記確率P(c1
k |k,<WT>,<U−t>)は、式(8)に定義
した単語タイプ及び品詞別の単語表記確率Pb (c1
k |k,<WT>,<U−t>)と、式(9)に定義
した単語及び品詞の長さkの単語の出現確率Pb (k|
<WT>,<U−t>)の比で近似することができる。
In the above equation, the probability of an event in which a word of length k appears is equal to the probability of an event in which a word end symbol appears after k-1 times other than the word end symbol <eow> appears. . Now, the third term on the right side of the equation (5), that is, word notation probability P (c 1 ...
c k | k, <WT>, <Ut>) is the word notation probability P b (c 1 ...) for each word type and part of speech defined in Expression (8).
c k | k, <WT>, <Ut>), and the occurrence probability P b (k | of the word defined in Expression (9) and the word having the part-of-speech length k.
It can be approximated by the ratio of <WT>, <Ut>).

【0059】[0059]

【数9】 [Equation 9]

【0060】ここで、式(8)の計算に必要な単語タイ
プ及び品詞別の文字bigram確率P(ci |ci-1 ,<W
T>,<U−t>)の推定法が問題になる。基本的に
は、学習テキストの対応する事象の相対頻度f(ci
i-1 ,<WT>,<U−t>)から推定すればよい。
Here, the character bigram probability P (c i | c i−1 , <W for each word type and part of speech necessary for the calculation of the equation (8).
T>, <U-t>) estimation method becomes a problem. Basically, the relative frequency f (c i |
It may be estimated from c i-1 , <WT>, <Ut>).

【0061】[0061]

【数10】 [Equation 10]

【0062】しかし、日本語は文字が3000種類以上
あるので、文字bigramを単語タイプ及び品詞で分割する
とデータ不足の問題が生じる。そこで、次式に示す線形
補間法により単語タイプ及び品詞別の文字bigram確率を
求める。
However, since there are more than 3000 types of characters in Japanese, dividing the character bigram by word type and part of speech causes a problem of insufficient data. Therefore, the character bigram probability for each word type and part of speech is obtained by the linear interpolation method shown in the following equation.

【0063】[0063]

【数11】 [Equation 11]

【0064】ここで、αi は、α1 +α2 +α3 +α4
+α5 =1を満足する重みであり、線形補間法により自
動的に決定できる。f(ci ,<WT>,<U−t>)
及びf(ci |ci-1 ,<WT>,<U−t>)は、単
語タイプ及び品詞別の文字unigram 及び文字bigramの相
対頻度を表す。f(ci )及びf(ci |ci-1 )は、
文字unigram 及び文字bigramの相対頻度である。Vは、
学習テキストの異なり文字数である。
Here, α i is α 1 + α 2 + α 3 + α 4
The weight satisfies + α 5 = 1 and can be automatically determined by the linear interpolation method. f (c i, <WT> , <U-t>)
And f (c i | c i-1 , <WT>, <Ut>) represent the relative frequency of the character unigram and the character bigram for each word type and part of speech. f (c i ) and f (c i | c i-1 ) are
It is the relative frequency of character unigram and character bigram. V is
It is the number of different characters in the learning text.

【0065】従って、文字bigram頻度計算部19は、式
(12)の計算に必要な文字unigram 頻度及び文字bigr
am頻度を学習データから計算する。また、単語表記確率
推定部9は、式(8)、式(9)、式(10)、式(1
2)を用いて単語タイプ及び品詞及び長さ別の単語表記
確率を推定する。図7は、本発明の品詞及び単語タイプ
別の文字bigramの例である。
Therefore, the character bigram frequency calculation unit 19 calculates the character unigram frequency and the character bigr required for the calculation of the equation (12).
Calculate am frequency from training data. Further, the word notation probability estimation unit 9 uses the formula (8), the formula (9), the formula (10), and the formula (1
2) is used to estimate word writing probabilities by word type, part of speech, and length. FIG. 7 is an example of a character bigram according to part of speech and word type of the present invention.

【0066】文字bigramは未知語の品詞を推定する鍵と
なる情報を含んでいる。例えば、図7において、最初の
例は語末が長音記号「ー」であるカタカナ列は名詞であ
る可能性が高いことを表し、三番目の列は語末が「的」
である漢字列は形容動詞である可能性が高いことを表し
ている。 (4) 単語bigram確率推定処理及び最適単語列探索処
理:文字列C=c1 …cm から構成される入力文が、単
語列W=w1 …wn に分割されるとするとき、数学的に
は、日本語の形態素解析は単語列の条件付き確率P(W
|C)を最大化する単語列W’を求める問題と定義でき
る。ここで、文字列Cはすべての単語分割に共通なので
P(W)を最大化する単語列を求めればよい。なお、P
(W)(単語分割モデル)は、単語ngram やクラスに基
づくngram 等、単語に基づく言語モデルであれば使用可
能である。以下の例では、単語bigramを用いて説明す
る。
The character bigram contains key information for estimating the part of speech of an unknown word. For example, in FIG. 7, the first example indicates that the katakana sequence with the long syllabary "-" at the end is likely to be a noun, and the third sequence has the end with "target".
It means that the Kanji string that is is likely to be an adjective verb. (4) Word bigram probability estimation process and optimum word string search process: When an input sentence composed of character strings C = c 1 ... C m is divided into word strings W = w 1 ... W n , mathematics In particular, Japanese morphological analysis requires conditional probability P (W
It can be defined as a problem for finding a word string W ′ that maximizes | C). Here, since the character string C is common to all word divisions, a word string that maximizes P (W) may be obtained. Note that P
(W) (word segmentation model) can be used as long as it is a language model based on words, such as a word ngram or a class-based ngram. The following example will be described using the word bigram.

【0067】 W’=argmaxW P(W|C) =argmaxW P(W) (13) 本実施例では、P(W)を次式のような単語bigramモデ
ルで近似する。
W ′ = argmax WP (W | C) = argmax WP (W) (13) In the present embodiment, P (W) is approximated by a word bigram model such as the following equation.

【0068】[0068]

【数12】 [Equation 12]

【0069】ここで、<bos>及び<eos>は文頭
及び文末を表す特殊記号である。基本的には、単語bigr
am確率は学習テキストにおける対応する事象の相対確率
f(wi |wi-1 )から求めることができる。
Here, <bos> and <eos> are special symbols representing the beginning and end of a sentence. Basically, the word bigr
The am probability can be obtained from the relative probability f (w i | w i-1 ) of the corresponding event in the learning text.

【0070】[0070]

【数13】 [Equation 13]

【0071】但し、本実施例では、未知語の品詞を推定
するために、通常の単語bigramモデルを以下のように拡
張する。未知語の品詞がtである事象を<U−t>とい
う記号で表すことにすると、単語wi が品詞tの未知語
である場合、単語wi-1 の次に品詞tの未知語が出現す
る確率P(<U−t>|wi-1 )と、品詞tの未知語の
表記がwi である確率P(wi |<U−t>)の積で、
単語bigram確率P(w i |wi-1 )を近似する。
However, in this embodiment, the part of speech of the unknown word is estimated.
In order to do this, expand the normal word bigram model as follows.
To stretch. An event in which the part of speech of an unknown word is t is called <Ut>
If you choose to represent it with a sign, the word wiIs an unknown word whose part of speech is t
, Then the word wi-1An unknown word of part of speech t appears next to
Probability P (<Ut> | wi-1) And an unknown word of part of speech t
The notation is wiProbability P (wi| <U−t>) product,
Word bigram probability P (w i| Wi-1) Is approximated.

【0072】[0072]

【数14】 [Equation 14]

【0073】P(<U−t>|wi-1 )は、学習テキス
トにおいて、出現頻度が閾値以下の単語をその品詞tに
対応する未知語記号<U−t>に置換した後の相対頻度
から求める。本実施例では、出現頻度の閾値を1に設定
している。P(wi |<U−t>)は、前節で説明した
未知語候補確率推定部3により求める。従って、単語bi
gram頻度推定部20は、出現頻度が閾値以下の単語をそ
の品詞tに対応する未知語記号<U−t>に置換した学
習テキストにおける単語bigram頻度を求め、単語bigram
頻度テーブル15に格納する。また、単語bigram確率推
定部10は、wi が既知語の場合は式(15)を用いて
単語bigram確率を求め、wi が未知語の場合には式(1
6)を用いて単語bigram確率を求める。
P (<Ut> | w i-1 ) is a relative value after replacing a word whose appearance frequency is less than or equal to a threshold value in the learning text with the unknown word symbol <Ut> corresponding to the part of speech t. Calculate from frequency. In the present embodiment, the appearance frequency threshold is set to 1. P (w i | <Ut>) is obtained by the unknown word candidate probability estimation unit 3 described in the previous section. Therefore, the word bi
The gram frequency estimation unit 20 obtains the word bigram frequency in the learning text in which words whose appearance frequency is less than or equal to the threshold value are replaced with the unknown word symbol <Ut> corresponding to the part of speech t, and the word bigram frequency is calculated.
Stored in the frequency table 15. Further, the word bigram probability estimation unit 10, if w i is the known word sought word bigram probability using equation (15), the formula when w i is the unknown words (1
6) is used to find the word bigram probability.

【0074】そして、最適単語列探索部4は、単語照合
部1が生成した単語候補、及び、未知語候補同定部2が
生成した未知語候補のすべての組み合わせの中から、式
(14)の同時確率を最大にする単語列を動的計画法を
用いて求める。さらに、本実施例では、A* 探索を用い
て確率が大きい順番に任意個の形態素解析候補を求めら
れるようにしている。
Then, the optimum word string searching unit 4 selects from among all combinations of the word candidates generated by the word matching unit 1 and the unknown word candidates generated by the unknown word candidate identifying unit 2 as shown in Expression (14). The word string that maximizes the joint probability is obtained using dynamic programming. Furthermore, in the present embodiment, an A * search is used to obtain an arbitrary number of morphological analysis candidates in descending order of probability.

【0075】図8は、本発明の一実施例の品詞別未知語
記号を含む単語bigramの例である。品詞別の未知語記号
を導入することにより、単語bigramは未知語が出現する
文脈に関する重要な情報を担うようになる。例えば、図
8において、最初の例は「の」の直後には名詞が出現す
る可能性が高いことを表し、二番目は「し」の直前には
動詞(サ変動詞)が出現する可能性が高いことを表して
いる。
FIG. 8 is an example of a word bigram including a part-of-speech unknown word symbol according to an embodiment of the present invention. By introducing unknown word symbols for each part of speech, the word bigram will carry important information about the context in which the unknown word appears. For example, in FIG. 8, the first example indicates that a noun is likely to appear immediately after "no", and the second example is that a verb (sa verb) may appear immediately before "shi". It is high.

【0076】以下に具体的な処理例を示す。ここでは、
『ペンシルバニア大学はENIACの50周年を祝う』
という入力文において、「ペンシルバニア」及び「EN
IAC」が未知語と仮定する。
A specific processing example is shown below. here,
"The University of Pennsylvania Celebrates 50th Anniversary of ENIAC"
"Pennsylvania" and "EN
Assume "IAC" is an unknown word.

【0077】図9は、本発明の一実施例の未知語候補の
生成及び最適単語列探索例である。同図において、「ペ
ンシルバニア大学はENIACの50周年を祝う」とい
う文の文字位置4(「ペンシル」と「バニア」の間)に
おける最適単語列探索の様子を示す。最適単語列探索で
は、ある文字位置で終わるすべての単語候補とその文字
位置から始まるすべての単語候補の組み合わせの確率を
計算する。
FIG. 9 shows an example of unknown word candidate generation and optimum word string search according to an embodiment of the present invention. In the figure, the state of the optimum word string search at character position 4 (between "Pencil" and "Vania") of the sentence "The University of Pennsylvania celebrates 50th anniversary of ENIAC" is shown. In the optimum word string search, the probabilities of combinations of all word candidates ending at a character position and all word candidates starting at that character position are calculated.

【0078】文字位置4の前後では、「ペンシル」とう
部分文字列が単語辞書5と照合し、単語候補が生成され
ている。単語辞書5と照合しなかった部分文字列は未知
語候補となり、単語タイプ定義テーブル11に基づいて
単語タイプが決定され、未知語モデルに基づいて品詞別
単語出現確率が求められる。例えば、「バニア」は単語
タイプが<kana>(カタカナだけから構成される)
の名詞(<U−名詞>)の未知語候補であり、「バニア
大学」は単語タイプが,<misc>(その他)の名詞
の未知語候補である。
Before and after the character position 4, the partial character string “pencil” is collated with the word dictionary 5 to generate word candidates. The partial character string that is not matched with the word dictionary 5 becomes an unknown word candidate, the word type is determined based on the word type definition table 11, and the word appearance probability by part of speech is obtained based on the unknown word model. For example, the word type of "vania" is <kana> (consisting only of katakana).
Is a noun (<U-noun>) unknown word candidate, and “Vania University” is a noun unknown word candidate with a word type of <misc> (other).

【0079】この図では、説明を簡単にするため、未知
語の品詞が名詞(<U−名詞>)の場合だけを表示して
いる。実際には、本実施例では、各部分文字列に対して
すべての品詞別単語出現確率を計算し、上位5つの品詞
のみを未知語候補として生成している。図10は、本発
明の一実施例の形態素解析結果の例を示す。同図におい
て、「ペンシルバニア大学はENIACの50周年を祝
う」という文の上位3個の形態素解析候補を示す。第1
候補では、「ペンシルバニア」及び「ENIAC」がそ
れれお単語タイプ<kana>及び<alpha>の未
知語として同定され、品詞はどちらも名詞<U−名詞>
と推定されている。第2候補及び第3候補は、それぞ
れ、単語タイプ<misc>の「バニア大学」、単語タ
イプ<kana>の「バニア」が未知語(名詞)として
同定されている点が異なっている。
In this figure, only the case where the part of speech of the unknown word is a noun (<U-noun>) is shown for the sake of simplicity. In the present embodiment, in practice, all the part-of-speech word appearance probabilities are calculated for each partial character string, and only the top five parts-of-speech are generated as unknown word candidates. FIG. 10 shows an example of a morphological analysis result according to an embodiment of the present invention. In the figure, the top three morphological analysis candidates of the sentence "The University of Pennsylvania celebrates the 50th anniversary of ENIAC" are shown. First
In the candidates, "Pennsylvania" and "ENIAC" are identified as unknown words of the word types <kana> and <alpha>, and the parts of speech are both nouns <U-noun>.
It is estimated that The second candidate and the third candidate are different in that "Bania University" of the word type <misc> and "Bania" of the word type <kana> are identified as unknown words (nouns), respectively.

【0080】上記のように、日本語の漢字、ひらがな、
カタカナなどの文字集合とその変化に基づいて単語を分
類することにより、日本語の単語をよりよくモデル化す
ることが可能となる。また、上記の実施例では、図3の
構成に基づいて説明したが、図3の構成要素をプログラ
ムとして構築し、形態素解析装置として利用されるコン
ピュータに接続されるディスク装置や、フロッピー(登
録商標)ディスク、CD−ROM等の可搬記憶媒体に格
納しておき、本発明を実施する際にインストールするこ
とにより、容易に本発明を実現できる。
As described above, Japanese kanji, hiragana,
By classifying words based on the character set such as katakana and its variation, it becomes possible to better model Japanese words. Although the above embodiment has been described based on the configuration of FIG. 3, a disk device or a floppy (registered trademark) connected to a computer used as a morphological analyzer is constructed by building the components of FIG. 3 as a program. The present invention can be easily realized by storing it in a portable storage medium such as a disk or a CD-ROM and installing it when carrying out the present invention.

【0081】[0081]

【発明の効果】上述のように、本発明によれば、単語を
構成する文字の種類とその変化に基づいて単語タイプを
定義し、単語タイプごとに未知語候補の品詞別単語出現
確率を推定し、この未知語の品詞別単語出現確率及び品
詞別未知語記号を含む単語ngram 確率を利用して同時確
率が最大となる単語列を求めるので、未知語の過分割を
防止し、かつ未知語の品詞を推定すること可能な形態
素解析処理を実現することができる。
As described above, according to the present invention, a word type is defined on the basis of the types of characters that make up a word and its change, and the word appearance probability of each word category of an unknown word candidate is estimated for each word type. However, since the word sequence that maximizes the joint probability is obtained by using the word occurrence probability by part of speech of this unknown word and the word ngram probability that includes the unknown word symbol by part of speech, it is possible to prevent the unknown word from being overdivided and It is possible to realize a morphological analysis process capable of estimating the part of speech of.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明の日本語形態素解析装置の構成図であ
る。
FIG. 3 is a block diagram of a Japanese morphological analyzer of the present invention.

【図4】本発明の形態素解析処理を説明するためのフロ
ーチャートである。
FIG. 4 is a flowchart for explaining a morphological analysis process of the present invention.

【図5】本発明の一実施例のEDRコーパスにおける単
語を構成する文字の種類とその変化を示す図である。
FIG. 5 is a diagram showing types of characters constituting a word and changes thereof in the EDR corpus according to the exemplary embodiment of the present invention.

【図6】本発明の一実施例の単語タイプの定義である。FIG. 6 is a definition of a word type according to an embodiment of the present invention.

【図7】本発明の一実施例の品詞及び単語タイプ別の文
字bigramの例である。
FIG. 7 is an example of a character bigram for each part of speech and word type according to an embodiment of the present invention.

【図8】本発明の一実施例の品詞別未知語記号を含む単
語bigramの例である。
FIG. 8 is an example of a word bigram including an unknown word symbol for each part of speech according to an embodiment of the present invention.

【図9】本発明の一実施例の未知語候補の生成及び最適
単語列探索の例である。
FIG. 9 is an example of generation of an unknown word candidate and optimum word string search according to an embodiment of the present invention.

【図10】本発明の一実施例の形態素解析結果の例であ
る。
FIG. 10 is an example of a morphological analysis result according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 単語辞書照合手段、単語辞書照合部 2 未知語候補同定手段、未知語候補同定部 3 未知語候補確率推定手段、未知語候補確率推定部 4 最適単語列探索手段、最適単語列探索部 5 単語辞書 6 単語タイプ判定手段、単語タイプ判定部 7 単語タイプ確率推定手段、単語タイプ確率推定部 8 単語長確率推定手段、単語長確率推定部 9 単語表記確率推定手段、単語表示確率推定部 10 単語bigram確率推定部 11 単語タイプ定義テーブル 12 単語タイプ頻度テーブル 13 平均単語長テーブル 14 文字bigram頻度テーブル 15 単語bigram頻度テーブル 16 単語辞書作成部 17 単語タイプ確率推定部 18 平均単語長計算部 19 文字bigram頻度計算部 20 単語bigram頻度計算部 1 word dictionary matching means, word dictionary matching unit 2 Unknown word candidate identification means, unknown word candidate identification unit 3 Unknown word candidate probability estimation means, unknown word candidate probability estimation unit 4 Optimal word string search means, optimal word string search unit 5 word dictionary 6 word type determination means, word type determination unit 7 Word type probability estimation means, word type probability estimation unit 8 Word Length Probability Estimating Means, Word Length Probability Estimating Unit 9 word notation probability estimation means, word display probability estimation unit 10-word bigram probability estimator 11 Word type definition table 12 word type frequency table 13 Average word length table 14-character bigram frequency table 15-word bigram frequency table 16 word dictionary creation section 17 Word Type Probability Estimator 18 Average word length calculator 19-character bigram frequency calculator 20 word bigram frequency calculator

フロントページの続き (56)参考文献 特開 平9−288673(JP,A) 特開 平8−315078(JP,A) 永田昌明,単語頻度の期待値に基づく 未知語の自動収集,情報処理学会研究報 告,日本,1996年11月19日,Vol. 96,No.114,p.13−p.20 永田昌明,文字類似度と統計的言語モ デルを用いた日本語文字認識誤り定性 法,電子情報通信学会論文誌,日本, 1998年11月25日,Vol.J81−D−I I,No.11,p.2624−p.2634 (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28 G06K 9/72 Continuation of the front page (56) References JP-A-9-288673 (JP, A) JP-A-8-315078 (JP, A) Masaaki Nagata, Automatic collection of unknown words based on expected word frequency, Information Processing Society of Japan Research Report, Japan, November 19, 1996, Vol. 96, No. 114, p. 13-p. 20 Masaaki Nagata, Japanese Character Recognition Error Qualitative Method Using Character Similarity and Statistical Language Model, IEICE Transactions, Japan, November 25, 1998, Vol. J81-D-I I, No. 11, p. 2624-p. 2634 (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 17/21-17/28 G06K 9/72

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 日本語の形態素解析を行う形態素解析装
置であって、 入力テキストの部分文字列と照合する単語を単語辞書か
ら検索して単語候補として生成する単語辞書照合手段
と、 単語を構成する文字の種類及びその変化に基づいて単語
タイプが定義された単語タイプ定義テーブルを参照し
て、単語タイプのいずれか任意の文字列を分類し、分類
された単語タイプを判定する単語タイプ判定手段と、品
詞別の単語タイプ出現頻度が定義されている単語タイプ
頻度テーブルを参照して、品詞別に単語タイプ出現確率
を求める単語タイプ確率確定手段と、単語品詞及び単語
タイプ別の平均単語長が定義されている平均単語長テー
ブルを参照し、平均単語長をポワソン分布で近似するこ
とにより、品詞及び単語タイプ別に任意の長さの単語長
確率を求める単語長確率推定手段と、品詞及び単語タイ
プ別の文字ngram頻度が定義されている文字ngram頻度を
参照して、品詞及び単語タイプ及び単語長別に任意の文
字列の単語表記確率を求める単語表記確率推定手段と、
からなる未知語モデルと、 前記未知語モデルの前記単語タイプ判定手段を用いて、
前記単語辞書照合手段において、前記単語辞書と照合し
ない入力テキストの部分文字列から未知語である可能性
があるものを未知語候補として選択する未知語候補同定
手段と、 前記未知語モデルの前記単語タイプ判定手段、単語長確
率推定手段、単語表記確率推定手段を用いて未知語候補
の品詞単語出現確率を推定する未知語候補確率推定手段
と、 前記単語辞書照合手段により求められた前記単語候補、
及び、前記未知語候補照合手段により求められた前記未
知語候補のすべての組み合わせについて、単語ngram頻
度が定義されている単語ngram頻度テーブルを参照して
求められた単語ngram確率及び、前記未知語候補確率推
定手段により求められた前記品詞別単語出現確率を用い
て同時確率が最大となる単語列を求める最適単語列探索
手段とを有することを特徴とする形態素解析装置。
1. A morphological analyzer for performing morphological analysis of Japanese, comprising: a word dictionary matching means for searching a word dictionary for a word to be matched with a partial character string of input text and generating it as a word candidate; A word type determination unit that classifies any character string of any of the word types and refers to the word type definition table in which the word type is defined based on the type of character And the word type frequency table in which the word type appearance frequency is defined for each part of speech, the word type probability determining means for determining the word type appearance probability for each part of speech, and the average word length for each word part of speech and word type are defined. The average word length table is referenced, and the average word length is approximated by the Poisson distribution to determine the word length probability of an arbitrary length for each part of speech and word type. A word notation for determining a word notation probability of an arbitrary character string by part of speech, word type, and word length by referring to a word ngram frequency for which a word ngram frequency for each part of speech and word type is defined Probability estimation means,
An unknown word model consisting of, using the word type determination means of the unknown word model,
In the word dictionary matching unit, an unknown word candidate identifying unit that selects, as an unknown word candidate, a potentially unknown word from a partial character string of the input text that is not matched with the word dictionary, and the word of the unknown word model. An unknown word candidate probability estimating means for estimating a part-of-speech word appearance probability of an unknown word candidate using a type determining means, a word length probability estimating means, and a word notation probability estimating means, and the word candidate obtained by the word dictionary matching means,
And, for all combinations of the unknown word candidates obtained by the unknown word candidate matching means, the word ngram probability obtained by referring to the word ngram frequency table in which the word ngram frequency is defined, and the unknown word candidate A morpheme analysis apparatus comprising: an optimum word string search unit that finds a word string having a maximum joint probability using the part-of-speech word appearance probability obtained by the probability estimation unit.
【請求項2】 前記単語表記確率推定手段は前記文字ng
ram頻度テーブルを参照して、より低次の品詞及び単語
列の文字ngram頻度、及び、同次または、より低次の品
詞及び単語の違いを考慮しない文字ngram頻度から、品
詞及び単語タイプ別の文字ngram確率を線形補間法によ
り求める方法、 または、文字ngram頻度から求められた単語表記確率を
同じ長さのすべての文字列に割り当てられた単語表
率の和で正規化する方法のいすれかを用いる請求項
載の形態素解析装置。
2. The word notation probability estimation means is the character ng.
By referring to the ram frequency table, character ngram frequencies of lower-order parts of speech and word strings and character ngram frequencies that do not consider differences between homogeneous or lower-order parts of speech and words the method obtains the character ngram probability by linear interpolation or normalized word notation probabilities obtained from the character ngram frequency by the sum of all words notation assigned to a string probability <br/> rate of the same length, The morphological analysis apparatus according to claim 1, wherein any one of the following methods is used.
JP22141299A 1999-08-04 1999-08-04 Morphological analyzer Expired - Lifetime JP3369127B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22141299A JP3369127B2 (en) 1999-08-04 1999-08-04 Morphological analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22141299A JP3369127B2 (en) 1999-08-04 1999-08-04 Morphological analyzer

Publications (2)

Publication Number Publication Date
JP2001051996A JP2001051996A (en) 2001-02-23
JP3369127B2 true JP3369127B2 (en) 2003-01-20

Family

ID=16766342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22141299A Expired - Lifetime JP3369127B2 (en) 1999-08-04 1999-08-04 Morphological analyzer

Country Status (1)

Country Link
JP (1) JP3369127B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5048001B2 (en) * 2009-02-18 2012-10-17 ヤフー株式会社 Concatenated cost adjustment apparatus, method, and program
WO2020241039A1 (en) * 2019-05-30 2020-12-03 ソニー株式会社 Information processing device, information processing method, and program
JP2021162917A (en) * 2020-03-30 2021-10-11 ソニーグループ株式会社 Information processing apparatus and information processing method
CN112069812B (en) * 2020-08-28 2024-05-03 喜大(上海)网络科技有限公司 Word segmentation method, device, equipment and computer storage medium
CN112765309B (en) * 2020-11-16 2023-02-24 武汉理工大学 System and method for constructing and inquiring main wave probability dictionary based on statistics

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
永田昌明,単語頻度の期待値に基づく未知語の自動収集,情報処理学会研究報告,日本,1996年11月19日,Vol.96,No.114,p.13−p.20
永田昌明,文字類似度と統計的言語モデルを用いた日本語文字認識誤り定性法,電子情報通信学会論文誌,日本,1998年11月25日,Vol.J81−D−II,No.11,p.2624−p.2634

Also Published As

Publication number Publication date
JP2001051996A (en) 2001-02-23

Similar Documents

Publication Publication Date Title
JP4413349B2 (en) Sample text based language identification method and computer system
CN108304375B (en) Information identification method and equipment, storage medium and terminal thereof
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (en) Similar document search device
US4903206A (en) Spelling error correcting system
US20080228463A1 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
JP2013117978A (en) Generating method for typing candidate for improvement in typing efficiency
RU2006114696A (en) SYSTEMS AND METHODS FOR SEARCH USING QUESTIONS WRITTEN IN THE LANGUAGE AND / OR A SET OF SYMBOLS DIFFERENT FROM THOSE FOR TARGET PAGES
WO2000062193A1 (en) System for chinese tokenization and named entity recognition
JP2001034623A (en) Information retrievel method and information reteraval device
EP0907924A1 (en) Identification of words in japanese text by a computer system
CA2523992C (en) Automatic segmentation of texts comprising chunks without separators
JP2011227688A (en) Method and device for extracting relation between two entities in text corpus
CN111104803B (en) Semantic understanding processing method, device, equipment and readable storage medium
JP3765799B2 (en) Natural language processing apparatus, natural language processing method, and natural language processing program
JP3992348B2 (en) Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus
Patil et al. Issues and challenges in marathi named entity recognition
JP2006065387A (en) Text sentence search device, method, and program
JP5097802B2 (en) Japanese automatic recommendation system and method using romaji conversion
JP3369127B2 (en) Morphological analyzer
CN111767733A (en) Document security classification discrimination method based on statistical word segmentation
JP2002503849A (en) Word segmentation method in Kanji sentences
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
JP3975825B2 (en) Character recognition error correction method, apparatus and program
JP3952964B2 (en) Reading information determination method, apparatus and program

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R151 Written notification of patent or utility model registration

Ref document number: 3369127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071115

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081115

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091115

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101115

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101115

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111115

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111115

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121115

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121115

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131115

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term