JP3139624B2 - 形態素解析装置 - Google Patents
形態素解析装置Info
- Publication number
- JP3139624B2 JP3139624B2 JP02095619A JP9561990A JP3139624B2 JP 3139624 B2 JP3139624 B2 JP 3139624B2 JP 02095619 A JP02095619 A JP 02095619A JP 9561990 A JP9561990 A JP 9561990A JP 3139624 B2 JP3139624 B2 JP 3139624B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- string
- words
- candidate
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
【発明の詳細な説明】 技術分野 本発明は、形態素解析装置に関し、より詳細には、日
本語のように単語の境界が明示されない言葉の文章を対
象として形態素解析を行なう場合に、単語を認定する際
の曖昧さを解消するようにした形態素解析装置に関す
る。例えば、機械翻訳システムや音声合成システムの前
処理部分、あるいは光学的文字認識装置(OCR)の誤認
識訂正部やキーワード自動抽出システムに適用されるも
のである。
本語のように単語の境界が明示されない言葉の文章を対
象として形態素解析を行なう場合に、単語を認定する際
の曖昧さを解消するようにした形態素解析装置に関す
る。例えば、機械翻訳システムや音声合成システムの前
処理部分、あるいは光学的文字認識装置(OCR)の誤認
識訂正部やキーワード自動抽出システムに適用されるも
のである。
従来技術 自然言語文を計算機で処理する場合には、まず文章を
単語単位に分割し、辞書から対応する文法情報を検索す
る必要がある。この文章がどのような単語から構成され
ているのかを解析する処理を形態素解析と呼んでいる。
単語単位に分割し、辞書から対応する文法情報を検索す
る必要がある。この文章がどのような単語から構成され
ているのかを解析する処理を形態素解析と呼んでいる。
機械翻訳などでの日本語の文章を計算機で処理する場
合には、まず文を単語単位に分割する必要がある。これ
は日本文に限らず、英文のように単語が空白によって区
切られない表記法を採る言語の文すべてに当てはまる。
合には、まず文を単語単位に分割する必要がある。これ
は日本文に限らず、英文のように単語が空白によって区
切られない表記法を採る言語の文すべてに当てはまる。
本発明に係る従来技術を記載した公知文献としては
「日本文音声出力システムの言語処理」(NTT研究実用
化報告第35巻第2号,P.157−167,1986年)がある。
「日本文音声出力システムの言語処理」(NTT研究実用
化報告第35巻第2号,P.157−167,1986年)がある。
この文献には、漢字仮名混じり文を対象とした場合の
従来の形態素解析方式について説明されている。なお、
文が仮名のみからなる場合(仮名漢字変換を行なう場
合)の処理も基本的には同じである。この従来の形態素
解析方式は以下の手順によるものである。
従来の形態素解析方式について説明されている。なお、
文が仮名のみからなる場合(仮名漢字変換を行なう場
合)の処理も基本的には同じである。この従来の形態素
解析方式は以下の手順によるものである。
与えられた文字列に出現している可能性のある単語を
すべて単語辞書から検索し、文法情報を付与する。この
とき、文字列全体を一度に処理するのではなく、句読点
や字種変化点などに基づいて分割された部分文字列を対
象にしてもよい。
すべて単語辞書から検索し、文法情報を付与する。この
とき、文字列全体を一度に処理するのではなく、句読点
や字種変化点などに基づいて分割された部分文字列を対
象にしてもよい。
与えられた文字列全体をカバーする互いに文法的に接
続可能な単語列をすべて求める。接続可能かどうかは、
前記で単語辞書から得た文法情報を使って判定する。
続可能な単語列をすべて求める。接続可能かどうかは、
前記で単語辞書から得た文法情報を使って判定する。
複数の単語列が得られた場合、何らかの基準により単
語列を1つだけに決定する。
語列を1つだけに決定する。
ところで、ある文字列をカバーする互いに文法的に接
続可能な単語列は一般に複数存在する。従って、どのよ
うにして複数の単語列からただ1つの正しい単語列を解
として決定すればよいかが問題となる。そのために従来
一般的に使われているのが、自立語の数が最少の単語列
や、単語数が最少の単語列を選択するという方法であ
る。
続可能な単語列は一般に複数存在する。従って、どのよ
うにして複数の単語列からただ1つの正しい単語列を解
として決定すればよいかが問題となる。そのために従来
一般的に使われているのが、自立語の数が最少の単語列
や、単語数が最少の単語列を選択するという方法であ
る。
例えば“現代理科を”という文字列を解析する場合
“現/代理/科/を”“現代/理科/を”という2種類
の候補単語列がある(‘/'は単語の境界を表す)。単語
数が最少の単語列を選択すれば正しく“現代/理科/
を”という単語列に決定することができる。しかしこの
ような単純な方法では正しく決定できない場合も多い。
“現/代理/科/を”“現代/理科/を”という2種類
の候補単語列がある(‘/'は単語の境界を表す)。単語
数が最少の単語列を選択すれば正しく“現代/理科/
を”という単語列に決定することができる。しかしこの
ような単純な方法では正しく決定できない場合も多い。
例えば、“畜産物価格安定法を”という文字列を考え
る。ここから多くの候補単語列が得られるが、単語数が
最少の単語列は“畜産/物価/格安/定法/を”で、正
解の“畜産/物/価格/安定/法/を”という単語列を
解として得ることができない。
る。ここから多くの候補単語列が得られるが、単語数が
最少の単語列は“畜産/物価/格安/定法/を”で、正
解の“畜産/物/価格/安定/法/を”という単語列を
解として得ることができない。
これを解決するために以下の方法が提案されている。
(1)意味情報を使った簡易係り受け解析を行なう方
法。文献としては日本文音声出力システムの言語処理」
(NTT研究実用化報告第35巻第2号,P.157−167,1986
年)がある。(2)単語あるいは文字の連続確率を利用
する方法。文献としては、「統計的手法を用いた漢字複
合語の短単位分割」(情報処理学会 自然言語処理,48
−2,1985年)がある。(3)ある単語と共起頻度の高い
単語のリストを利用する方法。文献としては「単語共起
頻度を利用した形態素解析」(情報処理学会 自然言語
処理,69−5,1988年)がある。
(1)意味情報を使った簡易係り受け解析を行なう方
法。文献としては日本文音声出力システムの言語処理」
(NTT研究実用化報告第35巻第2号,P.157−167,1986
年)がある。(2)単語あるいは文字の連続確率を利用
する方法。文献としては、「統計的手法を用いた漢字複
合語の短単位分割」(情報処理学会 自然言語処理,48
−2,1985年)がある。(3)ある単語と共起頻度の高い
単語のリストを利用する方法。文献としては「単語共起
頻度を利用した形態素解析」(情報処理学会 自然言語
処理,69−5,1988年)がある。
前記(1)の方法では意味情報をあらかじめ各単語に
付与しておかねばならず、辞書の作成に膨大な手間がか
かる。また必要な意味情報は文書の対象分野によって異
なるため、多くの分野の文書に1つの辞書で対応するの
が困難であるという問題もある。前記(2)や(3)の
方法では、確率や共起頻度を算出するのに用いたテキス
トと異なる分野の文書を対象とすると解析精度が低下す
る恐れがある。
付与しておかねばならず、辞書の作成に膨大な手間がか
かる。また必要な意味情報は文書の対象分野によって異
なるため、多くの分野の文書に1つの辞書で対応するの
が困難であるという問題もある。前記(2)や(3)の
方法では、確率や共起頻度を算出するのに用いたテキス
トと異なる分野の文書を対象とすると解析精度が低下す
る恐れがある。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、対象とする文書で曖昧さなく認定できる単語を利用
して、あらかじめ特殊な辞書情報を作成しておく必要が
なく、どのような分野の文章でも高精度に正しい単語列
を決定することができる形態素解析装置を提供すること
を目的としてなされたものである。
で、対象とする文書で曖昧さなく認定できる単語を利用
して、あらかじめ特殊な辞書情報を作成しておく必要が
なく、どのような分野の文章でも高精度に正しい単語列
を決定することができる形態素解析装置を提供すること
を目的としてなされたものである。
構成 本発明は、上記目的を達成するために、(1)単語の
表記と該表記に対応する文法情報とを保持する単語辞書
と、与えられた文字列に含まれる可能性のある単語を前
記単語辞書から検索する単語辞書検索手段と、互いに文
法的に接続可能な単語列を作成する候補単語列作成手段
と、該候補単語列作成手段からの複数の候補単語列から
1つの単語列を解として決定する単語列決定手段とから
成る形態素解析装置において、同一文書において曖昧さ
なく決定された単語を保持する優先単語保持手段を有
し、前記単語列決定手段が、該優先単語保持手段からの
最も多くの優先単語を含む候補単語列を解として決定す
ることを特徴としたものである。以下、本発明の実施例
に基づいて説明する。
表記と該表記に対応する文法情報とを保持する単語辞書
と、与えられた文字列に含まれる可能性のある単語を前
記単語辞書から検索する単語辞書検索手段と、互いに文
法的に接続可能な単語列を作成する候補単語列作成手段
と、該候補単語列作成手段からの複数の候補単語列から
1つの単語列を解として決定する単語列決定手段とから
成る形態素解析装置において、同一文書において曖昧さ
なく決定された単語を保持する優先単語保持手段を有
し、前記単語列決定手段が、該優先単語保持手段からの
最も多くの優先単語を含む候補単語列を解として決定す
ることを特徴としたものである。以下、本発明の実施例
に基づいて説明する。
第1図は、本発明による形態素解析装置の一実施例を
説明するための構成図で、図中、1は単語辞書、2は単
語辞書検索手段、3は候補単語列作成手段、4は優先単
語保持手段、5は単語列決定手段である。
説明するための構成図で、図中、1は単語辞書、2は単
語辞書検索手段、3は候補単語列作成手段、4は優先単
語保持手段、5は単語列決定手段である。
単語辞書1は、単語の表記をキーとして、その単語の
品詞を検索できるようにした辞書である。同じ表記でも
複数の品詞に対応する場合もある。単語辞書の内容の例
を第2図に示す。例えば第2図から、‘格安’という表
記の形容動詞語幹が存在することが解る。一般的に使用
される単語を網羅しておく必要があるため、少なくとも
数万語程度の単語を収録しておかねばならない。
品詞を検索できるようにした辞書である。同じ表記でも
複数の品詞に対応する場合もある。単語辞書の内容の例
を第2図に示す。例えば第2図から、‘格安’という表
記の形容動詞語幹が存在することが解る。一般的に使用
される単語を網羅しておく必要があるため、少なくとも
数万語程度の単語を収録しておかねばならない。
単語辞書検索手段2は、与えられた文字列に含まれる
可能性のある単語をすべて単語辞書から検索する。与え
られた文字列の文字数をn、先頭からi番目の文字をCi
とすると、文字列は次のように表現できる。
可能性のある単語をすべて単語辞書から検索する。与え
られた文字列の文字数をn、先頭からi番目の文字をCi
とすると、文字列は次のように表現できる。
C1C2…Cn ここで、1≦i≦nを満たすすべてのiについて、 CiCi+1…C1+k,ただしi+k≦n という文字列と一致する、単語辞書に登録されているす
べての単語とそれに対応する文法情報を検索しておく。
べての単語とそれに対応する文法情報を検索しておく。
例えば、“畜産物価格安定法を”という文字列が与え
られた場合、第2図に明示してあるすべての単語を検索
する必要がある。
られた場合、第2図に明示してあるすべての単語を検索
する必要がある。
候補単語列作成手段3は、検索された単語から、与え
られた文字列全体をカバーする互いに文法的に接続可能
なすべての候補単語列を作成する。ある2つの単語が互
いに文法的に接続可能かどうかは、その2つの単語の品
詞と、第3図に示すような接続行列表を使用する。左側
(前側)の単語の品詞と右側(後側)の単語の品詞をキ
ーとしてこの表を調べれば、その単語同士が文法的に接
続可能か接続不可能かが判定できる。
られた文字列全体をカバーする互いに文法的に接続可能
なすべての候補単語列を作成する。ある2つの単語が互
いに文法的に接続可能かどうかは、その2つの単語の品
詞と、第3図に示すような接続行列表を使用する。左側
(前側)の単語の品詞と右側(後側)の単語の品詞をキ
ーとしてこの表を調べれば、その単語同士が文法的に接
続可能か接続不可能かが判定できる。
例えば、“畜産物価格安定法を”という文字列が与え
られた場合、第2図に明示してある単語が検索された場
合、第3図の接続行列表を使って、次の5種類の候補単
語列が得られる。
られた場合、第2図に明示してある単語が検索された場
合、第3図の接続行列表を使って、次の5種類の候補単
語列が得られる。
“畜産/物価/格安/定法/を” “畜産/物価/格/安定/法/を” “畜産/物価/格/安/定法/を” “畜産/物/価格/安定/法/を” “畜産/物/価格/安/定法/を” 優先単語保持手段とは、対象とする文書内で、すでに
形態素解析が終了している部分で、ただ1つの候補単語
しかなかった部分に対応する単語を保持しておく手段で
ある。ただし、保持するのは、自立語と接辞のみとす
る。
形態素解析が終了している部分で、ただ1つの候補単語
しかなかった部分に対応する単語を保持しておく手段で
ある。ただし、保持するのは、自立語と接辞のみとす
る。
例えば対象とする文書に、“安定供給が”という部分
があり、その部分がすでに形態素解析されていたとす
る。この部分を解析する際、“安定/供給/が”という
ただ1つの候補単語列しか得られなかったとすると、こ
の候補列に含まれる自立語である‘安定’と‘供給’と
いう2つの単語を優先単語として保持しておく。また、
“価格”という部分があり、それに対して“価格/を”
というただ1つの候補単語列しか得られなかった場合、
‘価格’という単語も優先単語として保持する。
があり、その部分がすでに形態素解析されていたとす
る。この部分を解析する際、“安定/供給/が”という
ただ1つの候補単語列しか得られなかったとすると、こ
の候補列に含まれる自立語である‘安定’と‘供給’と
いう2つの単語を優先単語として保持しておく。また、
“価格”という部分があり、それに対して“価格/を”
というただ1つの候補単語列しか得られなかった場合、
‘価格’という単語も優先単語として保持する。
単語列決定手段5は、複数の候補単語列から正解とな
る単語列をただ1つ決定する。ここでの処理は次の3段
階に分かれている。
る単語列をただ1つ決定する。ここでの処理は次の3段
階に分かれている。
それぞれの候補単語について、何種類の優先単語(優
先単語保持手段に保持されている単語)を含むかを計数
する。
先単語保持手段に保持されている単語)を含むかを計数
する。
最も多種類の優先単語を含む候補単語列以外を棄却す
る。
る。
複数の候補単語列が残ったら、従来と同様に自立語数
の少ない候補列を解として決定する。候補単語列がただ
1つだけ残った場合は、その単語列を解として決定す
る。
の少ない候補列を解として決定する。候補単語列がただ
1つだけ残った場合は、その単語列を解として決定す
る。
もし、候補単語列として前述した5種類が得られてい
て、優先単語として優先単語保持手段4の説明でふれた
‘安定’‘供給’‘価格’の3語が保持されているとす
ると、2種類の優先単語を含む “畜産/物/価格/安定/法/を” という単語列を解として正しく決定することができる。
て、優先単語として優先単語保持手段4の説明でふれた
‘安定’‘供給’‘価格’の3語が保持されているとす
ると、2種類の優先単語を含む “畜産/物/価格/安定/法/を” という単語列を解として正しく決定することができる。
上記の処理は、1つの文書中で同じ単語が何回も使わ
れる傾向があるという考え方に基づいている。
れる傾向があるという考え方に基づいている。
第4図は、本発明による形態素解析装置の動作処理の
フローチャートである。以下、各ステップに従って順に
説明する。
フローチャートである。以下、各ステップに従って順に
説明する。
まず対象とする文章は字種の変化点を基準にいくつか
の部分文字列に分割し、それぞれの部分文字列を先頭か
ら順に処理していく。
の部分文字列に分割し、それぞれの部分文字列を先頭か
ら順に処理していく。
step1;本処理の部分文字列があるかどうか判断する。未
処理の部分文字列がなければ終了する。
処理の部分文字列がなければ終了する。
step2;未処理の部分文字列があれば、部分文字列に含ま
れる可能性のある単語をすべて単語辞書から検索する。
れる可能性のある単語をすべて単語辞書から検索する。
step3;次に部分文字列全体をカバーする互いに文法的に
接続可能な候補単語列をすべて求める。
接続可能な候補単語列をすべて求める。
step4;候補単語列が複数あるかどうか判断する。
step5,step6;前記step4で候補単語列が複数なければ、
すなわち候補単語列がただ1つしか求まらなかった場
合、その単語列を解析結果として決定すると共に、その
単語列に含まれている自立語・接辞を優先単語として保
持しておく。
すなわち候補単語列がただ1つしか求まらなかった場
合、その単語列を解析結果として決定すると共に、その
単語列に含まれている自立語・接辞を優先単語として保
持しておく。
step7;前記step4で候補単語列が複数求まった場合、そ
れぞれの候補単語列について、優先単語と一致する単語
が何種類あるかを求める。
れぞれの候補単語列について、優先単語と一致する単語
が何種類あるかを求める。
step8;最も多くの種類の優先単語を含む候補単語列を解
析結果として確定する。
析結果として確定する。
効果 以上の説明から明らかなように、本発明によると、対
象とする文書で曖昧さなく認定できる単語を利用して、
あらかじめ特殊な辞書情報(データ)を作成しておく必
要がなく、どのような分野の文章でも正しい単語列を高
精度に決定することができる。
象とする文書で曖昧さなく認定できる単語を利用して、
あらかじめ特殊な辞書情報(データ)を作成しておく必
要がなく、どのような分野の文章でも正しい単語列を高
精度に決定することができる。
第1図は、本発明による形態素解析装置の一実施例を説
明するための構成図、第2図は、単語辞書の例を示す
図、第3図は、候補単語列作成手段で用いる接続行列表
の例を示す図、第4図は、本発明による形態素解析装置
の動作処理のフローチャートである。 1……単語辞書、2……単語辞書検索手段、3……候補
単語列作成手段、4……優先単語保持手段、5……単語
列決定手段。
明するための構成図、第2図は、単語辞書の例を示す
図、第3図は、候補単語列作成手段で用いる接続行列表
の例を示す図、第4図は、本発明による形態素解析装置
の動作処理のフローチャートである。 1……単語辞書、2……単語辞書検索手段、3……候補
単語列作成手段、4……優先単語保持手段、5……単語
列決定手段。
Claims (1)
- 【請求項1】単語の表記と該表記に対応する文法情報と
を保持する単語辞書と、与えられた文字列に含まれる可
能性のある単語を前記単語辞書から検索する単語辞書検
索手段と、互いに文法的に接続可能な単語列を作成する
候補単語列作成手段と、該候補単語列作成手段からの複
数の候補単語列から1つの単語列を解として決定する単
語列決定手段とから成る形態素解析装置において、同一
文書において曖昧さなく決定された単語を保持する優先
単語保持手段を優し、前記単語列決定手段が、該優先単
語保持手段からの最も多くの優先単語を含む候補単語列
を解として決定することを特徴とする形態素解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02095619A JP3139624B2 (ja) | 1990-04-11 | 1990-04-11 | 形態素解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02095619A JP3139624B2 (ja) | 1990-04-11 | 1990-04-11 | 形態素解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03292565A JPH03292565A (ja) | 1991-12-24 |
JP3139624B2 true JP3139624B2 (ja) | 2001-03-05 |
Family
ID=14142563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02095619A Expired - Fee Related JP3139624B2 (ja) | 1990-04-11 | 1990-04-11 | 形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3139624B2 (ja) |
-
1990
- 1990-04-11 JP JP02095619A patent/JP3139624B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH03292565A (ja) | 1991-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US8660834B2 (en) | User input classification | |
US6816830B1 (en) | Finite state data structures with paths representing paired strings of tags and tag combinations | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
US7676358B2 (en) | System and method for the recognition of organic chemical names in text documents | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
Patil et al. | Issues and challenges in marathi named entity recognition | |
CN113076748A (zh) | 弹幕敏感词的处理方法、装置、设备及存储介质 | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
Pal et al. | Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
WO2003003241A1 (en) | Predictive cascading algorithm for multi-parser architecture | |
JP3139624B2 (ja) | 形態素解析装置 | |
JP3531222B2 (ja) | 類似文字列検索装置 | |
Doermann et al. | Translation lexicon acquisition from bilingual dictionaries | |
Islam et al. | A generalized approach to word segmentation using maximum length descending frequency and entropy rate | |
JP2004280316A (ja) | 分野判定装置及び言語処理装置 | |
JPH10301956A (ja) | キーセンテンス抽出方式及び抄録方式及び文書表示方式 | |
KR102338949B1 (ko) | 기술문서 번역 지원 시스템 | |
JP3939264B2 (ja) | 形態素解析装置 | |
JP3508312B2 (ja) | キーワード抽出装置 | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |