JPH10240736A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH10240736A
JPH10240736A JP9054174A JP5417497A JPH10240736A JP H10240736 A JPH10240736 A JP H10240736A JP 9054174 A JP9054174 A JP 9054174A JP 5417497 A JP5417497 A JP 5417497A JP H10240736 A JPH10240736 A JP H10240736A
Authority
JP
Japan
Prior art keywords
word
unregistered
statistical information
registered
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9054174A
Other languages
English (en)
Inventor
Hiroshi Yamada
洋志 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9054174A priority Critical patent/JPH10240736A/ja
Publication of JPH10240736A publication Critical patent/JPH10240736A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】未登録語を含むテキストの解析精度を上げる形
態素解析装置の提供。 【解決手段】入力手段1から入力された文字列は、形態
素解析手段2によって、単語に分割される。統計情報格
納手段5には未登録語である可能性の高い単語の並びが
登録され、登録する情報としては単語の表記、単語の品
詞、単語長、字種がある。未登録語推定手段7は、形態
素解析手段2の結果と、統計情報格納手段5に登録され
ているデータとを比較して、未登録語と推定できる箇所
及び範囲を検出する。その際、未登録語として検出され
るのは、形態素解析手段2によって解析失敗情報の付加
されている箇所に限らない。検出された箇所について
は、解析結果の単語区切り、品詞などを修正して出力手
段8で最終的な解析結果として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、形態素解析装置に
関し、特に、未登録語を含むテキストを解析できるよう
にした形態素解析装置に関する。
【0002】
【従来の技術】日本語のテキストを単語に分割する形態
素解析装置では、単語の表記と品詞を登録した単語辞
書、品詞間の接続の可否を登録した品詞接続表を使用す
るのが一般的である。
【0003】固有名詞やカタカナ語を含めた単語数は莫
大であり、且つ、新しい単語も生じているため、単語辞
書にすべての単語を登録しておくことは、実際上不可能
である。このため、形態素解析装置では、単語辞書に登
録されていない単語(これを「未登録語」という)が含
まれているテキストの処理を規定しておく必要がある。
【0004】従来の形態素解析装置では、単語辞書の検
索、あるいは品詞接続で失敗した箇所を対象にして、未
登録語の処理を行っている。すなわち、入力テキストの
一部が単語辞書中のどの単語とも一致しない場合や、単
語検索はできても、前後の単語との品詞接続が失敗した
場合に、未登録語の処理が必要になる。その際、未登録
語の一部が切り出されて、見かけ上、解析できる場合が
ある。そこで、解析に失敗した箇所が未登録語の一部分
である場合を考慮して、未登録語全体の範囲を推定する
処理を行う。
【0005】未登録語の範囲を推定するための従来方法
としては、同一の文字種(漢字、カタカナなど)が連続
する部分を単語とする方法がある。例えば特開昭63−
95573号公報、特開昭63−95574号公報、あ
るいは文献(「未登録語を含む日本語文の形態素解
析」、吉村ほか、情報処理学会論文誌Vol.30、N
o.3、pp.294−301)等の記載が参照され
る。因みに、上記特開昭63−95573号公報には、
漢字かな混じりの日本語文の形態素解析における未知語
処理に際して、未知語は自立語であると前提することに
より、「ひらがな列」の未知語を的確に決定できるよう
にした未知語処理方法が提案されている。また、上記特
開昭63−95574号公報には、解析対象文字列の先
頭文字から2字以上漢字が連続しており、解析対象文字
列の直前の文字が漢字であった場合には先行単語の解析
に戻ることにより、より正確な解析を行い未知語処理回
数を減らすようにした形態素解析方法が提案されてい
る。
【0006】また助詞や活用語尾になりやすいひらがな
を指標とする方法として、例えば特開平1−22006
7号公報、特開平2−41560号公報の記載が参照さ
れる。上記特開平1−220067号公報には、形態素
解析に行き詰まった文字位置を中心に入力文から部分文
字列を切り出し、この部分文字列から助詞に注目してひ
らがな未登録語を抽出することにより長いひらがなの未
登録語も精度よく抽出可能とした方式が、また上記特開
平2−41560号公報には、活用語尾、付属語等のひ
らがな文字列を解析し、未登録語を自立語部分とする文
節を抽出することにより、単語辞書に収容されていない
未登録語を含む文章が入力文として与えられた時にも形
態素解析を続行できるようにした未登録語処理方式が提
案されている。
【0007】
【発明が解決しようとする課題】上記したように、従来
の形態素解析装置では、単語辞書検索の失敗、あるい
は、前後の単語との品詞接続の失敗箇所を対象として、
未登録語処理を行っている。
【0008】しかし、未登録語が誤った区切り方をされ
て、見掛け上解析に成功することがあり、この場合、未
登録語処理を行うことができない。たとえば、「赤峰」
という人名が未登録語であったとしても、「赤」と
「峰」という2語が単語辞書に登録されていれば、2語
からなる複合語として解析される。このため、未登録語
処理が行われず、解析を誤ったままになる、という問題
点を有している。
【0009】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、未登録語が登録
後の組み合わせに分割されて見かけ上解析に成功した箇
所についても未登録語処理の対象とすることができ、そ
の結果未登録語を含むテキストの解析精度を向上する形
態素解析装置を提供することにある。
【0010】
【課題を解決するための手段】前記目的を達成するた
め、本発明の形態素解析装置は、日本語文字列を入力す
る入力手段と、単語に関する情報を登録した単語辞書
と、品詞の接続の可否を登録する品詞接続表と、前記単
語辞書と前記品詞接続表を使用して前記入力手段から入
力した文字列を解析する形態素解析手段と、日本語テキ
ストの解析結果から抽出した統計情報を登録する統計情
報格納手段と、前記形態素解析手段の出力と前記統計情
報格納手段に登録している統計情報を参照して未登録語
である可能性の高い範囲を検出する未登録語推定手段
と、形態素解析結果を出力する出力手段を備えることを
特徴とする。
【0011】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい実施の形態におい
て、単語に関する情報を登録した単語辞書(図1の3)
と、品詞の接続の可否を登録する品詞接続表(図1の
4)と、を参照して、入力手段(図1の1)から入力し
た文字列を解析する形態素解析手段(図1の2)と、解
析結果中に出現する単語の並び及び該単語の並びが未登
録語である頻度もしくは確率等の統計情報を格納した統
計情報格納手段(図1の5)と、統計情報格納手段に格
納されている情報を参照して、形態素解析手段の解析結
果から未登録語を推定し、更に未登録語として推定した
文字列が実際に単語辞書中に未登録であるかを確認し、
未登録である場合、解析結果を修正する未登録語推定手
段(図1の7)と、形態素解析結果を出力する出力手段
(図1の8)を備え、未登録語推定手段(図1の7)
は、しきい値記憶手段(図1の6)に記憶されたしきい
値と統計情報とを比較して、統計情報格納手段に格納さ
れている情報を使用するか否かを決定する。
【0012】また、本発明は、好ましい実施の形態にお
いて、単語に関する情報を登録した単語辞書(図9の
3)と品詞の接続の可否を登録する品詞接続表(図9の
4)とを参照して入力手段(図9の1)から入力した文
字列を解析する形態素解析手段(図9の2)と、未登録
後を含まない場合の解析結果中に出現する単語の並び及
び該単語の並びの出現頻度もしくは確率情報を格納した
統計情報格納手段(図9の95)と、統計情報格納手段
に格納されている情報を参照して前記形態素解析手段の
解析結果から未登録語を推定し、更に未登録語として推
定した文字列が実際に前記単語辞書に未登録であるかを
確認し、未登録である場合前記解析結果を修正する未登
録語推定手段(図9の97)と、形態素解析結果を出力
する出力手段(図1の8)を備え、未登録語推定手段
(図1の97)は、しきい値記憶手段(図1の6)に記
憶されたしきい値と統計情報とを比較して、未登録語と
みなすかどうかの判定を行う。
【0013】このように本発明の実施の形態によれば、
未登録語が登録後の組み合わせに分割されて見かけ上解
析に成功した箇所も、未登録語処理の対象とすることが
でき、その結果、解析精度を向上する。なお、形態素解
析手段、未登録語推定手段等はコンピュータ等情報処理
装置上に実装されるプログラム及びデータで実現するこ
とができる。
【0014】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について図面を参照し
て以下に説明する。
【0015】図1は、本発明の形態素解析装置の一実施
例の構成を示すブロック図である。
【0016】図1を参照して、本実施例は、入力手段
1、形態素解析手段2、単語辞書3、品詞接続表4、統
計情報格納手段5、しきい値記憶手段6、未登録語推定
手段7、及び、出力手段8を備えて構成されている。
【0017】このうち、入力手段1は、文書中のテキス
トを入力する手段である。形態素解析手段2は、単語辞
書3および品詞接続表4を参照して、入力手段1から入
力されたテキストを単語に分割する。単語辞書3は、単
語の表記と品詞を記憶する。品詞接続表4は、2品詞の
組み合わせについて、隣接の可否を記憶する。統計情報
格納手段5は、解析結果中に出現する単語の組み合わせ
について、頻度あるいは確率を格納する。
【0018】図2は、統計情報格納手段5の内容の一例
を示す図である。図2を参照して、A欄は、登録されて
いる情報の番号であり、B欄には、単語の並びが、単語
の字種と単語の長さを対として記述される。B欄におい
て、左括弧及び右括弧でくくられているのが、1単語分
の情報で、初めに単語の字種、続いて単語の長さを示し
ている。またC欄は、B欄に記述されている単語の並び
が出現したときに、その並びが未登録語である確率を格
納している。
【0019】図2を参照して、No.2のデータの例で
は、単語の並びを示す欄には、「(漢字、1)(漢字、
1)(漢字、1)」が格納されており、これは、長さが
1の漢字単語が3語連続した場合に、その3語が未登録
語である確率が0.8であることを示している。
【0020】統計情報格納手段5に登録する内容は、上
記した字種、単語長には限定されない。また、長さや品
詞の情報を複数持たせることもできる。
【0021】図3は、統計情報格納手段5の内容の別の
例を示す図である。図3を参照して、A欄は、登録され
ている情報の番号である。B欄には、単語の並びが、単
語の字種と、単語の長さ、品詞で記述される。B欄にお
いて、左括弧及び右括弧でくくられているのが1単語分
の情報であり、初めに単語の字種、続いて単語の長さ、
単語の品詞が記述される。C欄は、B欄に記述されてい
る単語の並びが出現したときに、その並びが未登録語で
ある確率を格納している。
【0022】図3において、単語並び欄における、記号
“/”は複数の情報のいずれか、また“−”は数値の範
囲、“*”は任意の値を許すことを示している。
【0023】図3を参照すると、No.1のデータの例
では、長さが2で字種が漢字の名詞が2語連続した場合
に、その2語が未登録語である確率が0.12であるこ
とを示しており、No.2のデータの例では、長さが1
で字種が漢字の名詞が2語連続し、その後に、長さが1
で字種が漢字で、品詞が名詞または接尾(すなわち名詞
/接尾)である単語がある場合に、その3語が未登録語
である確率が0.78であることを示している。また、
No.3のデータの例では、長さが1から3(長さ1−
3)で字種がカタカナの名詞の後に、長さが2で字種が
カタカナで品詞は任意の単語(品詞が*)がある場合
に、その2語が未登録語である確率が0.63であるこ
とを示している。
【0024】統計情報格納手段5に登録する内容に、未
登録語の前後、あるいはその一方の単語の情報を含める
こともできる。
【0025】図4は、統計情報格納手段5の内容の別の
例を示す図である。図4を参照して、A欄、B欄は、図
2のA欄(登録されている情報の番号)、B欄(単語の
並びを、単語の字種と単語の長さを対として記述する)
と同様である。D欄は、B欄の前の単語列の情報を記述
し、E欄は後の単語の情報を記述する。C欄は、D欄、
B欄、E欄に合致する単語の並びがあるときにB欄で記
述する部分が未登録語である確率を記述する。その際、
D欄、E欄に対応する単語が未登録語かどうかは考慮し
ない。
【0026】図4を参照して、No.1のデータの例で
は、長さが1の漢字単語が3語連続し、その前後に長さ
1のひらがな単語がある場合、3語の漢字単語が未登録
語である確率が0.8であることを示している。なお、
D欄、E欄で“*”が記述してあるのは、任意の単語列
を示す。例えば図4を参照して、No.2のデータの例
では、長さが2のカタカナ単語が2語連続し、その後に
長さ1の漢字単語がある場合、2語のカタカナ単語が未
登録語である確率が0.68であることを示している。
【0027】統計情報格納手段5に登録する内容に、単
語の字種だけでなく表記そのものを記述するようにして
もよい。図5は、統計情報格納手段5の内容の別の例を
示す図である。図5を参照して、A欄、B欄、C欄、D
欄、E欄は、図4のそれぞれの対応する欄と同様であ
る。ただし、単語情報として単語表記を使用でき、引用
符でくくって記述している。
【0028】図5を参照して、No.1のデータの例で
は、長さが1の漢字単語が3語連続し、その前に長さ1
のひらがな単語があり、後に“を”または“の”がある
場合、3語の漢字単語が未登録語である確率が0.8で
あることを示している。
【0029】また、単語表記の一部分を使用することも
できる。例えば未登録語の直前の単語については最後の
文字だけ、直後の単語については先頭の文字だけを使用
することが考えられる。
【0030】再び図1を参照して、しきい値記憶手段6
は、統計情報格納手段5に登録されている個々の情報の
うち、解析に使用する情報を決定するためのしきい値を
記憶する。
【0031】未登録語推定手段7は、統計情報格納手段
5を使用して、形態素解析手段2の解析結果から未登録
語を推定して、解析結果を修正する。未登録語推定手段
7は、統計情報格納手段5に登録されている情報を使用
するかどうかを決めるために、しきい値記憶手段6を参
照する。また、未登録語と推定した文字列が、実際に未
登録語であるか否かを確認するために、単語辞書3を参
照する。
【0032】図6は、本実施例における未登録語推定手
段7の動作を説明するための流れ図である。図6を参照
して、未登録語推定手段7の動作について説明する。
【0033】解析結果の末尾であるか否かを判定し(ス
テップ61)、最後まで処理したならば終了する(ステ
ップ61のYes分岐)。
【0034】解析結果の未処理部分の先頭部分を、統計
情報格納手段5で検索する(ステップ62)。検索の際
に、解析結果は、統計情報格納手段5に登録されている
情報に合わせ、字種や単語長の情報に変換する。統計情
報格納手段5に登録されていない場合には(ステップ7
2の「なし」分岐)、処理対象を先頭の次の単語にして
検索を繰り返す(ステップ66)。
【0035】統計情報格納手段5から検索したデータの
確率を、しきい値記憶手段7に記憶されているしきい値
と比較する(ステップ63)。この確率がしきい値より
も小さい場合には(ステップ63の「NG」分岐)、処
理対象を先頭の次の単語を対象にして検索を繰り返す
(ステップ66)。
【0036】確率としきい値の比較判定で確率がしきい
値以上である場合(ステップ63の「OK」分岐)、統
計情報格納手段5に登録されていた情報の未登録語部分
と対応する単語列の表記が単語辞書3に登録されている
かどうかを調べる(ステップ64)。単語辞書3に登録
されている場合には(ステップ64の「登録」分岐)、
未登録語ではないので、処理対象を先頭の次の単語を対
象にして検索を繰り返す(ステップ66)。
【0037】単語辞書3に登録されていない場合には
(ステップ64の「未登録」分岐)、解析結果のうち統
計情報格納手段5に登録されていた情報の未登録語部分
と対応する単語列を未登録語に変更する(ステップ6
5)。
【0038】再び図1を参照して、出力手段8は、未登
録語推定手段5で修正した形態素解析結果を出力する。
【0039】以下では、具体例として、「会議はハルビ
ンで開催する。」という日本語テキストの例を用いて、
本実施例の動作を説明する。
【0040】統計情報格納手段5には、図2に示した情
報が登録されているものとする。また、単語辞書3に
は、「ハルビン」という単語は登録されておらず、しき
い値記憶手段6には、しきい値として0.75が記憶さ
れているものとする。
【0041】(a)入力手段1から上記の「会議はハル
ビンで開催する。」というテキストが入力される。
【0042】(b)形態素解析手段2によってテキスト
は単語に分割される。分割結果の例を図7に示す。図7
では、解析結果として、単語の表記と、品詞を示してい
る。すなわち、「会議」(名詞)、「は」(助詞)、
「ハル」(人名)、「ビン」(名詞)、「で」(助
詞)、「開催」(サ変名詞)、「する」(サ変語尾)、
「。」(記号)、と分割されている。「ハルビン」が単
語辞書3に登録されていないため、「ハル」と「ビン」
の2語として解析されている。
【0043】(c)解析結果が未登録語推定手段7に渡
され、未登録語の推定が行われる。
【0044】(d)解析結果の先頭部分を統計情報格納
手段5から検索する(図6のステップ62)。解析結果
の先頭部分を、統計情報格納手段5に登録されている字
種と単語長の形式に合わせて直すと、(漢字、2)、
(ひらがな、1)、(カタカナ、2)、(カタカナ、
2)、…、という並びになり、これは統計情報格納手段
5に登録されていない。
【0045】(e)2番目の単語から始まる、(ひらが
な、1)、(カタカナ、2)、(カタカナ、2)、(ひ
らがな、1)、…、という並び(「はハルビンで…」)
を統計情報格納手段5で検索するが、これも登録されて
いないため、検索位置を3単語目からに変更する。
【0046】(f)(カタカナ、2)、(カタカナ、
2)、(ひらがな、1)、(漢字、2)、…、という並
び(「ハルビンで開催…」)を、統計情報格納手段5で
検索する。図2のNo.3のデータが、先頭部分に一致
する。
【0047】(g)図2のNo.3のデータの確率0.
8と、しきい値記憶手段7に記憶されているしきい値
0.75と、を比較する(図6のステップ63)。この
場合、データの確率の方が大きいので次の処理に進む。
【0048】(h)登録されていたデータ(カタカナ、
2)(カタカナ、2)に対応する単語の表記「ハルビ
ン」が単語辞書3に登録されているかどうかを調べる
(図6のステップ64)。この例では単語辞書3に登録
されていない。
【0049】(i)このため解析結果を修正する。この
修正結果を図8に示す。解析結果を修正した結果、図8
に示すように「ハル」と「ビン」とがひとつの未登録語
となっている。すなわち、「ハルビン」はその品詞とし
て未登録語とされている。
【0050】(j)残りの解析結果についても同様に統
計情報格納手段5の検索を行う。この例では、一致する
データが検索されない。
【0051】(k)解析結果の最後まで処理したら、未
登録語推定手段7の処理を終了する(図6のステップ6
1)。
【0052】(l)修正された解析結果が出力手段8に
渡される。
【0053】以上のようにして、最初は分割を誤ってい
た未登録語の「ハルビン」がひとつの単語として解析さ
れる。
【0054】以上の本実施例の動作の説明では、統計情
報格納手段5として、図2に示す形式を用いたが、他の
形式の場合にも同様に実行できる。また、未登録語の品
詞として「未登録語」を与えたが、前後の文字列を基に
品詞を推定する技術が知られており、この技術を本実施
例に適用してもよいことは勿論である。
【0055】以上の実施例では、統計情報格納手段5に
登録する統計情報として、登録する単語列が未知語であ
る条件付き確率を使用しているが、以下のような情報を
使用することもできる。
【0056】(1)統計情報を調べたテキストにおい
て、登録する単語列が未登録語として出現した回数。
【0057】(2)上記回数をテキスト中の単語数で割
ったもの(テキスト全体での出現確率)。
【0058】また統計情報格納手段5に格納するデータ
を、確率あるいは出現回数で予め制限することもでき
る。登録する情報の信頼性を高めるため、確率と出現回
数の両方が一定以上のものを登録することもできる。
【0059】字種の区分について、上記実施例で示した
ほかに、数字、漢数字、英字、句読点などを区別するこ
とも考えられる。
【0060】ひとつの単語で複数の字種を含む場合に
は、(1)数の多いもので代表させる、(2)先頭また
は末尾の文字の字種を用いる、(3)字種の優先順位を
決めておく、(4)それぞれの字種で統計情報を検索し
数値の大きいもの(あるいは小さいもの)を優先する、
などの方法が考えられる。
【0061】次に本発明の第2の実施例について図面を
参照して説明する。
【0062】図9は、本発明の形態素解析装置の第2の
実施例の構成を示すブロック図である。
【0063】図9を参照して、入力手段1、形態素解析
手段2、単語辞書3、品詞接続表4、しきい値記憶手段
6、出力手段8は、図1に示した前記実施例と同じであ
るため、その説明を省略する。
【0064】統計情報格納手段95は、未登録語を含ま
ない場合の解析結果中に出現する単語の組み合わせにつ
いて、頻度あるいは確率を格納する。
【0065】図10は、統計情報格納手段95の内容の
一例を示す図である。図10を参照して、A欄は登録さ
れている情報の番号である。B欄は解析結果に出現した
単語の並びを単語の字種と単語の長さで記述する。左括
弧及び右括弧でくくられているのが1単語分の情報であ
り、初めに単語の字種、続いて単語の長さを記述してい
る。C欄は記述される単語の並びの出現確率を記述して
あり、頻繁に出現する単語の並びほど確率が大きくな
る。
【0066】図10を参照して、No.2のデータの例
では、統計情報を獲得するのに使用したテキスト中での
連続する2単語の延べ数に占める、長さが1の漢字単語
が2語連続した場合の数の割合が0.0006であるこ
とを示している。図10の例では、2単語の組み合わせ
について確率が登録されているが、他の語数の組み合わ
せについても登録できる。
【0067】なお、統計情報格納手段95において、単
語の情報として、品詞や単語の表記を利用することもで
きるのは、前記第1の実施例と同様である。
【0068】未登録語推定手段97は、統計情報格納手
段95を利用して、形態素解析手段2の解析結果から未
登録語を推定して、解析結果を修正する。未登録語推定
手段97は、解析結果に含まれる単語の並びのうち出現
確率の小さなものを未登録語と推定する。未登録語と見
なすかどうかの判定に、しきい値記憶手段6を参照す
る。また、未登録語と推定した文字列が実際に未登録語
であるかどうかを確認するために単語辞書3を参照す
る。
【0069】図11は、本発明の第2の実施例における
未登録語推定手段97の動作を説明するための流れ図で
ある。図11を参照して、未登録語推定手段7の動作に
ついて説明する。
【0070】解析結果の末尾であるか判定し(ステップ
111)、最後まで処理したならば終了する(ステップ
111のYes分岐)。
【0071】解析結果の未処理部分の先頭部分を統計情
報格納手段95で検索する(ステップ112)。検索の
際に、解析結果は統計情報格納手段95に登録されてい
る情報に合わせ、字種や単語長の情報に変換する。統計
情報格納手段95に登録されていない場合には(ステッ
プ112の「なし」分岐)、ステップ114の単語辞書
3の参照に進む。
【0072】統計情報格納手段95に登録されている場
合には(ステップ112の「あり」分岐)、統計情報格
納手段95から検索したデータの確率をしきい値記憶手
段7に記憶されているしきい値と比較する(ステップ1
13)。
【0073】比較の結果、確率がしきい値よりも大きい
場合には(ステップ113のNG)、処理対象を先頭の
次の単語を対象にして検索を繰り返す(ステップ11
6)。
【0074】比較の結果、確率がしきい値以下の場合に
は(ステップ113の「OK」分岐)、統計情報格納手
段95に登録されている情報に対応する単語列の表記が
単語辞書3に登録されているか否かを調べる(ステップ
114)。
【0075】単語辞書3に登録されている場合には(ス
テップ114の「登録」分岐)、未登録語ではないの
で、処理対象を先頭の次の単語を対象にして検索を繰り
返す(ステップ116)。
【0076】単語辞書3に登録されていない場合には
(ステップ114の「未登録」分岐)解析結果のうち統
計情報格納手段95に登録されていた情報と対応する単
語列を未登録語に変更する(ステップ115)。
【0077】以下では、「会議はハルビンで開催す
る。」という日本語テキストの例を用いて本実施例の動
作を説明する。統計情報格納手段95には、図10に示
した情報が登録されているものとする。また、単語辞書
には、「ハルビン」という単語は登録されておらず、し
きい値記憶手段6にはしきい値として0.005が記憶
されているものとする。
【0078】(a)入力手段1から上記のテキストが入
力される。
【0079】(b)形態素解析手段2によってテキスト
は単語に分割される。分割結果の例を図7に示す。
【0080】(c)解析結果が未登録語推定手段97に
渡され、未登録語の推定が行われる。
【0081】(d)解析結果の先頭部分を統計情報格納
手段95から検索する(ステップ112)。検索結果の
先頭部分を統計情報格納手段95に登録されている字種
と単語長の形式に合わせて直すと、(漢字、2)、(ひ
らがな、1)、(カタカナ、2)、(カタカナ、2)、
…、という並びになる。(漢字、2)、(ひらがな、
1)という並びが、図10のNo.1のデータにマッチ
し、確率が0.01になる。
【0082】(e)図10のNo.1のデータの確率
0.01としきい値記憶手段7に記憶されているしきい
値0.005とを比較する(ステップ113)。データ
の確率の方が大きいので、次の単語の処理に進む(ステ
ップ116)。
【0083】(f)3番目の単語から始まる「ハル」、
「ビン」の処理の時に、(カタカナ、2)、(カタカ
ナ、2)という並びが、図10のNo.3のデータにマ
ッチし、確率が0.0006になる。
【0084】(g)データの確率0.0006としきい
値記憶手段7に記憶されている値0.005を比較す
る。データの確率の方が小さいので次の処理に進む。
【0085】(h)登録されていたデータ(カタカナ、
2)、(カタカナ、2)に対応する単語の表記「ハルビ
ン」が単語辞書3に登録されているか否かを調べる(ス
テップ114)。この例では登録されていない。
【0086】(i)解析結果を修正する。修正結果は、
図8に示すようになる。「ハル」と「ビン」がひとつの
未登録語となっている。
【0087】(j)残りの解析結果についても同様に統
計情報格納手段95の検索を行う。この例では、しきい
値より小さな確率を持つデータは検索されない。
【0088】(k)解析結果の最後まで処理したら未登
録語推定手段97の処理を終了する(ステップ11
1)。
【0089】(l)修正された解析結果が出力手段8に
渡される。
【0090】以上のように、最初は分割を誤っていた未
登録語の「ハルビン」がひとつの単語として解析され
る。本実施例では、しきい値記憶手段6には、単一の数
値を記憶しているが、単語数に応じて別の値を使用する
こともできる。図12に、複数のしきい値を記憶するし
きい値記憶手段6の例を示す。すなわち、図12を参照
して、単語数に応じて異なるしきい値が設定されてい
る。
【0091】
【発明の効果】以上説明したように、本発明の形態素解
析装置によれば、未登録語が登録後の組み合わせに分割
されて見かけ上解析に成功した箇所も、未登録語処理の
対象とすることができ、その結果、解析精度を向上す
る、という効果を奏する。
【0092】また、本発明の形態素解析装置によれば、
使用する統計情報を選別するしきい値を変更すること
で、未登録語の漏れを減らす、あるいは未登録語の検出
精度を高めるかを選択することができる、という効果も
有する。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の一実施例における統計情報格納手段5
の内容の一例を示す図である。
【図3】本発明の一実施例における統計情報格納手段5
の内容の第2の例を示す図である。
【図4】本発明の一実施例における統計情報格納手段5
の内容の第3の例を示す図である。
【図5】本発明の一実施例における統計情報格納手段5
の内容の第4の例を示す図である。
【図6】本発明の一実施例における未登録語推定手段7
の動作を説明するための流れ図である。
【図7】本発明の一実施例を説明するための図であり、
形態素解析手段2の解析結果の例を示す図である。
【図8】本発明の一実施例を説明するための図であり、
未登録語推定手段7によって修正された解析結果の例を
示す図である。
【図9】本発明の第2の実施例の構成を示すブロック図
である。
【図10】本発明の第2の実施例における統計情報格納
手段95の内容の一例を示す図である。
【図11】本発明の第2の実施例における未登録語推定
手段97の動作を説明するための流れ図である。
【図12】本発明の実施例におけるしきい値記憶手段6
の変形例を示す図である。
【符号の説明】
1 入力手段 2 形態素解析手段 3 単語辞書 4 品詞接続表 5、95 統計情報格納手段 6 しきい値記憶手段 7、97 未登録語推定手段 8 出力手段

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】文字列を入力する入力手段と、 単語に関する情報を登録した単語辞書と、 品詞の接続の可否を登録する品詞接続表と、 前記単語辞書と前記品詞接続表とを参照して前記入力手
    段から入力した文字列を解析する形態素解析手段と、 文字列の解析結果から抽出した統計情報を登録する統計
    情報格納手段と、 前記形態素解析手段の出力と前記統計情報格納手段に登
    録されている統計情報とを参照して未登録語である可能
    性の高い範囲を検出する未登録語推定手段と、 形態素解析結果を出力する出力手段と、 を備えたことを特徴とする形態素解析装置。
  2. 【請求項2】前記統計情報格納手段が、未登録語を含ま
    ない文書の解析結果から抽出した統計情報を登録し、 前記未登録語推定手段が、前記形態素解析手段の解析結
    果から前記統計情報格納手段に登録されていない組み合
    わせを未登録語として抽出する、 ことを特徴とする請求項1記載の形態素解析装置。
  3. 【請求項3】前記統計情報格納手段が、未登録語を含む
    文書の解析結果から抽出した統計情報を登録し、 前記未登録語推定手段が、前記形態素解析手段の解析結
    果から前記統計情報格納手段に登録されている組み合わ
    せを未登録語として抽出する、 ことを特徴とする請求項1記載の形態素解析装置。
  4. 【請求項4】前記統計情報格納手段に登録される統計情
    報が、単語の長さおよび字種の並びから取り出した情報
    を含む、 ことを特徴とする請求項2又は3記載の形態素解析装
    置。
  5. 【請求項5】前記統計情報格納手段に登録される統計情
    報が、単語の長さ、字種、および品詞の並びから取り出
    した情報を含む、 ことを特徴とする請求項2又は3記載の形態素解析装
    置。
  6. 【請求項6】前記統計情報格納手段に登録される統計情
    報が、単語の表記、長さ、字種、および品詞の並びから
    取り出した情報を含む、 ことを特徴とする請求項2又は3記載の形態素解析装
    置。
  7. 【請求項7】単語に関する情報を登録した単語辞書と品
    詞の接続の可否を登録する品詞接続表とを参照して入力
    した文字列を解析する形態素解析手段と、 単語の並び、及び、該単語の並びが未登録語である頻度
    もしくは確率などの統計情報を格納した統計情報格納手
    段と、 前記統計情報格納手段に格納されている情報を参照して
    前記形態素解析手段の解析結果から未登録語を推定し、
    更に未登録語として推定した文字列が実際に前記単語辞
    書に未登録であるかを確認し、未登録である場合には前
    記形態素解析手段の解析結果を修正する未登録語推定手
    段と、 を含むことを特徴とする形態素解析装置。
  8. 【請求項8】単語に関する情報を登録した単語辞書と品
    詞の接続の可否を登録する品詞接続表とを参照して入力
    した文字列を解析する形態素解析手段と、 未登録後を含まない場合の文字列中に出現する単語の並
    び、及び、該単語の並びの出現頻度もしくは確率などの
    統計情報を格納した統計情報格納手段と、 前記統計情報格納手段に格納されている情報を参照して
    前記形態素解析手段の解析結果から未登録語を推定し、
    更に未登録語として推定した文字列が実際に前記単語辞
    書に未登録であるかを確認し、未登録である場合には前
    記形態素解析手段の解析結果を修正する未登録語推定手
    段と、 を含むことを特徴とする形態素解析装置。
  9. 【請求項9】前記未登録語推定手段が、前記統計情報格
    納手段に格納されている単語の並びが入力文字列の解析
    結果と照合した際、前記単語の並びの統計情報を予め定
    めたしきい値として比較して未登録語の推定を行うこと
    を特徴とする請求項7又は8記載の形態素解析装置。
  10. 【請求項10】単語に関する情報を登録した単語辞書と
    品詞の接続の可否を登録する品詞接続表とを参照して入
    力した文字列を解析する形態素解析処理と、 単語の並び及び該単語の並びが未登録語である頻度もし
    くは確率情報を格納した統計情報格納手段に格納されて
    いる情報を参照して、前記形態素解析処理の解析結果か
    ら未登録語を推定し、更に未登録語として推定した文字
    列が実際に前記単語辞書に未登録であるかを確認し、未
    登録である場合には、前記形態素解析処理による解析結
    果を修正して形態素解析結果を出力する処理と、 の上記各処理を情報処理装置で実行させるプログラムを
    記録した記録媒体。
  11. 【請求項11】単語に関する情報を登録した単語辞書と
    品詞の接続の可否を登録する品詞接続表とを参照して入
    力した文字列を解析する形態素解析処理と、 未登録後を含まない場合の文字列中に出現する単語の並
    び及び該単語の並びの出現頻度もしくは確率情報を格納
    した統計情報格納手段に格納されている情報を参照し
    て、前記形態素解析処理の解析結果から未登録語を推定
    し、更に未登録語として推定した文字列が実際に前記単
    語辞書に未登録であるかを確認し、未登録である場合に
    は、前記形態素解析処理による解析結果を修正して形態
    素解析結果を出力する処理と、 の上記各処理を情報処理装置で実行させるプログラムを
    記録した記録媒体。
JP9054174A 1997-02-21 1997-02-21 形態素解析装置 Pending JPH10240736A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9054174A JPH10240736A (ja) 1997-02-21 1997-02-21 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9054174A JPH10240736A (ja) 1997-02-21 1997-02-21 形態素解析装置

Publications (1)

Publication Number Publication Date
JPH10240736A true JPH10240736A (ja) 1998-09-11

Family

ID=12963191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9054174A Pending JPH10240736A (ja) 1997-02-21 1997-02-21 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH10240736A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232891A (ja) * 2010-04-26 2011-11-17 Toshiba Corp 言語解析プログラム
JP2015197697A (ja) * 2014-03-31 2015-11-09 カシオ計算機株式会社 文字入力装置、文字入力方法、及び文字入力プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721196A (ja) * 1993-06-15 1995-01-24 N T T Data Tsushin Kk 固有名詞特定方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721196A (ja) * 1993-06-15 1995-01-24 N T T Data Tsushin Kk 固有名詞特定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011232891A (ja) * 2010-04-26 2011-11-17 Toshiba Corp 言語解析プログラム
JP2015197697A (ja) * 2014-03-31 2015-11-09 カシオ計算機株式会社 文字入力装置、文字入力方法、及び文字入力プログラム

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JPH06301722A (ja) 形態素解析装置及びキーワード抽出装置
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH10240736A (ja) 形態素解析装置
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH10232863A (ja) かな漢字変換装置および方法、並びに記録媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH09146952A (ja) 形態素解析装置
JP3932912B2 (ja) 文字列整形装置、方法及びプログラム
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
KR0123403B1 (ko) 한·영 자동 전환 방법
JPH0765130A (ja) 文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP2951486B2 (ja) 漢字変換装置
JPH0546612A (ja) 文章誤り検出装置
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JP2838850B2 (ja) 仮名漢字変換装置
JPH10207889A (ja) 文書校正装置
JPH10301597A (ja) 音声認識装置
JPH0757059A (ja) 文字認識装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010306