JP3139624B2

JP3139624B2 - 形態素解析装置

Info

Publication number: JP3139624B2
Application number: JP02095619A
Authority: JP
Inventors: 詔今郷
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-04-11
Filing date: 1990-04-11
Publication date: 2001-03-05
Anticipated expiration: 2016-03-05
Also published as: JPH03292565A

Description

【発明の詳細な説明】技術分野本発明は、形態素解析装置に関し、より詳細には、日
本語のように単語の境界が明示されない言葉の文章を対
象として形態素解析を行なう場合に、単語を認定する際
の曖昧さを解消するようにした形態素解析装置に関す
る。例えば、機械翻訳システムや音声合成システムの前
処理部分、あるいは光学的文字認識装置（OCR）の誤認
識訂正部やキーワード自動抽出システムに適用されるも
のである。

従来技術自然言語文を計算機で処理する場合には、まず文章を
単語単位に分割し、辞書から対応する文法情報を検索す
る必要がある。この文章がどのような単語から構成され
ているのかを解析する処理を形態素解析と呼んでいる。

機械翻訳などでの日本語の文章を計算機で処理する場
合には、まず文を単語単位に分割する必要がある。これ
は日本文に限らず、英文のように単語が空白によって区
切られない表記法を採る言語の文すべてに当てはまる。

本発明に係る従来技術を記載した公知文献としては
「日本文音声出力システムの言語処理」（NTT研究実用
化報告第35巻第２号,P.157−167,1986年）がある。

この文献には、漢字仮名混じり文を対象とした場合の
従来の形態素解析方式について説明されている。なお、
文が仮名のみからなる場合（仮名漢字変換を行なう場
合）の処理も基本的には同じである。この従来の形態素
解析方式は以下の手順によるものである。

与えられた文字列に出現している可能性のある単語を
すべて単語辞書から検索し、文法情報を付与する。この
とき、文字列全体を一度に処理するのではなく、句読点
や字種変化点などに基づいて分割された部分文字列を対
象にしてもよい。

与えられた文字列全体をカバーする互いに文法的に接
続可能な単語列をすべて求める。接続可能かどうかは、
前記で単語辞書から得た文法情報を使って判定する。

複数の単語列が得られた場合、何らかの基準により単
語列を１つだけに決定する。

ところで、ある文字列をカバーする互いに文法的に接
続可能な単語列は一般に複数存在する。従って、どのよ
うにして複数の単語列からただ１つの正しい単語列を解
として決定すればよいかが問題となる。そのために従来
一般的に使われているのが、自立語の数が最少の単語列
や、単語数が最少の単語列を選択するという方法であ
る。

例えば“現代理科を”という文字列を解析する場合
“現／代理／科／を”“現代／理科／を”という２種類
の候補単語列がある（‘/'は単語の境界を表す）。単語
数が最少の単語列を選択すれば正しく“現代／理科／
を”という単語列に決定することができる。しかしこの
ような単純な方法では正しく決定できない場合も多い。

例えば、“畜産物価格安定法を”という文字列を考え
る。ここから多くの候補単語列が得られるが、単語数が
最少の単語列は“畜産／物価／格安／定法／を”で、正
解の“畜産／物／価格／安定／法／を”という単語列を
解として得ることができない。

これを解決するために以下の方法が提案されている。
（１）意味情報を使った簡易係り受け解析を行なう方
法。文献としては日本文音声出力システムの言語処理」
（NTT研究実用化報告第35巻第２号,P.157−167,1986
年）がある。（２）単語あるいは文字の連続確率を利用
する方法。文献としては、「統計的手法を用いた漢字複
合語の短単位分割」（情報処理学会自然言語処理,48
−2,1985年）がある。（３）ある単語と共起頻度の高い
単語のリストを利用する方法。文献としては「単語共起
頻度を利用した形態素解析」（情報処理学会自然言語
処理,69−5,1988年）がある。

前記（１）の方法では意味情報をあらかじめ各単語に
付与しておかねばならず、辞書の作成に膨大な手間がか
かる。また必要な意味情報は文書の対象分野によって異
なるため、多くの分野の文書に１つの辞書で対応するの
が困難であるという問題もある。前記（２）や（３）の
方法では、確率や共起頻度を算出するのに用いたテキス
トと異なる分野の文書を対象とすると解析精度が低下す
る恐れがある。

目的本発明は、上述のごとき実情に鑑みてなされたもの
で、対象とする文書で曖昧さなく認定できる単語を利用
して、あらかじめ特殊な辞書情報を作成しておく必要が
なく、どのような分野の文章でも高精度に正しい単語列
を決定することができる形態素解析装置を提供すること
を目的としてなされたものである。

構成本発明は、上記目的を達成するために、（１）単語の
表記と該表記に対応する文法情報とを保持する単語辞書
と、与えられた文字列に含まれる可能性のある単語を前
記単語辞書から検索する単語辞書検索手段と、互いに文
法的に接続可能な単語列を作成する候補単語列作成手段
と、該候補単語列作成手段からの複数の候補単語列から
１つの単語列を解として決定する単語列決定手段とから
成る形態素解析装置において、同一文書において曖昧さ
なく決定された単語を保持する優先単語保持手段を有
し、前記単語列決定手段が、該優先単語保持手段からの
最も多くの優先単語を含む候補単語列を解として決定す
ることを特徴としたものである。以下、本発明の実施例
に基づいて説明する。

第１図は、本発明による形態素解析装置の一実施例を
説明するための構成図で、図中、１は単語辞書、２は単
語辞書検索手段、３は候補単語列作成手段、４は優先単
語保持手段、５は単語列決定手段である。

単語辞書１は、単語の表記をキーとして、その単語の
品詞を検索できるようにした辞書である。同じ表記でも
複数の品詞に対応する場合もある。単語辞書の内容の例
を第２図に示す。例えば第２図から、‘格安’という表
記の形容動詞語幹が存在することが解る。一般的に使用
される単語を網羅しておく必要があるため、少なくとも
数万語程度の単語を収録しておかねばならない。

単語辞書検索手段２は、与えられた文字列に含まれる
可能性のある単語をすべて単語辞書から検索する。与え
られた文字列の文字数をｎ、先頭からｉ番目の文字をC_i
とすると、文字列は次のように表現できる。

C₁C₂…C_n ここで、１≦ｉ≦ｎを満たすすべてのｉについて、 C_iC_i+1…C_1+k,ただしｉ＋ｋ≦ｎという文字列と一致する、単語辞書に登録されているす
べての単語とそれに対応する文法情報を検索しておく。

例えば、“畜産物価格安定法を”という文字列が与え
られた場合、第２図に明示してあるすべての単語を検索
する必要がある。

候補単語列作成手段３は、検索された単語から、与え
られた文字列全体をカバーする互いに文法的に接続可能
なすべての候補単語列を作成する。ある２つの単語が互
いに文法的に接続可能かどうかは、その２つの単語の品
詞と、第３図に示すような接続行列表を使用する。左側
（前側）の単語の品詞と右側（後側）の単語の品詞をキ
ーとしてこの表を調べれば、その単語同士が文法的に接
続可能か接続不可能かが判定できる。

例えば、“畜産物価格安定法を”という文字列が与え
られた場合、第２図に明示してある単語が検索された場
合、第３図の接続行列表を使って、次の５種類の候補単
語列が得られる。

“畜産／物価／格安／定法／を” “畜産／物価／格／安定／法／を” “畜産／物価／格／安／定法／を” “畜産／物／価格／安定／法／を” “畜産／物／価格／安／定法／を” 優先単語保持手段とは、対象とする文書内で、すでに
形態素解析が終了している部分で、ただ１つの候補単語
しかなかった部分に対応する単語を保持しておく手段で
ある。ただし、保持するのは、自立語と接辞のみとす
る。

例えば対象とする文書に、“安定供給が”という部分
があり、その部分がすでに形態素解析されていたとす
る。この部分を解析する際、“安定／供給／が”という
ただ１つの候補単語列しか得られなかったとすると、こ
の候補列に含まれる自立語である‘安定’と‘供給’と
いう２つの単語を優先単語として保持しておく。また、
“価格”という部分があり、それに対して“価格／を”
というただ１つの候補単語列しか得られなかった場合、
‘価格’という単語も優先単語として保持する。

単語列決定手段５は、複数の候補単語列から正解とな
る単語列をただ１つ決定する。ここでの処理は次の３段
階に分かれている。

それぞれの候補単語について、何種類の優先単語（優
先単語保持手段に保持されている単語）を含むかを計数
する。

最も多種類の優先単語を含む候補単語列以外を棄却す
る。

複数の候補単語列が残ったら、従来と同様に自立語数
の少ない候補列を解として決定する。候補単語列がただ
１つだけ残った場合は、その単語列を解として決定す
る。

もし、候補単語列として前述した５種類が得られてい
て、優先単語として優先単語保持手段４の説明でふれた
‘安定’‘供給’‘価格’の３語が保持されているとす
ると、２種類の優先単語を含む “畜産／物／価格／安定／法／を” という単語列を解として正しく決定することができる。

上記の処理は、１つの文書中で同じ単語が何回も使わ
れる傾向があるという考え方に基づいている。

第４図は、本発明による形態素解析装置の動作処理の
フローチャートである。以下、各ステップに従って順に
説明する。

まず対象とする文章は字種の変化点を基準にいくつか
の部分文字列に分割し、それぞれの部分文字列を先頭か
ら順に処理していく。

step1;本処理の部分文字列があるかどうか判断する。未
処理の部分文字列がなければ終了する。

step2;未処理の部分文字列があれば、部分文字列に含ま
れる可能性のある単語をすべて単語辞書から検索する。

step3;次に部分文字列全体をカバーする互いに文法的に
接続可能な候補単語列をすべて求める。

step4;候補単語列が複数あるかどうか判断する。

step5,step6;前記step4で候補単語列が複数なければ、
すなわち候補単語列がただ１つしか求まらなかった場
合、その単語列を解析結果として決定すると共に、その
単語列に含まれている自立語・接辞を優先単語として保
持しておく。

step7;前記step4で候補単語列が複数求まった場合、そ
れぞれの候補単語列について、優先単語と一致する単語
が何種類あるかを求める。

step8;最も多くの種類の優先単語を含む候補単語列を解
析結果として確定する。

効果以上の説明から明らかなように、本発明によると、対
象とする文書で曖昧さなく認定できる単語を利用して、
あらかじめ特殊な辞書情報（データ）を作成しておく必
要がなく、どのような分野の文章でも正しい単語列を高
精度に決定することができる。

【図面の簡単な説明】

第１図は、本発明による形態素解析装置の一実施例を説
明するための構成図、第２図は、単語辞書の例を示す
図、第３図は、候補単語列作成手段で用いる接続行列表
の例を示す図、第４図は、本発明による形態素解析装置
の動作処理のフローチャートである。１……単語辞書、２……単語辞書検索手段、３……候補
単語列作成手段、４……優先単語保持手段、５……単語
列決定手段。

Claims

(57)【特許請求の範囲】

【請求項１】単語の表記と該表記に対応する文法情報と
を保持する単語辞書と、与えられた文字列に含まれる可
能性のある単語を前記単語辞書から検索する単語辞書検
索手段と、互いに文法的に接続可能な単語列を作成する
候補単語列作成手段と、該候補単語列作成手段からの複
数の候補単語列から１つの単語列を解として決定する単
語列決定手段とから成る形態素解析装置において、同一
文書において曖昧さなく決定された単語を保持する優先
単語保持手段を優し、前記単語列決定手段が、該優先単
語保持手段からの最も多くの優先単語を含む候補単語列
を解として決定することを特徴とする形態素解析装置。