JPH04326160A - 形態素解析装置 - Google Patents
形態素解析装置Info
- Publication number
- JPH04326160A JPH04326160A JP3124962A JP12496291A JPH04326160A JP H04326160 A JPH04326160 A JP H04326160A JP 3124962 A JP3124962 A JP 3124962A JP 12496291 A JP12496291 A JP 12496291A JP H04326160 A JPH04326160 A JP H04326160A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- words
- parts
- word
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 58
- 230000000877 morphologic effect Effects 0.000 claims description 47
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 14
- 238000011156 evaluation Methods 0.000 abstract description 13
- 239000002245 particle Substances 0.000 description 29
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【技術分野】本発明は、形態素解析方式に関し、より詳
細には、言語処理装置における形態素解析方式に関する
。
細には、言語処理装置における形態素解析方式に関する
。
【0002】
【従来技術】文を解析して単語とその品詞を認識するも
のとして形態素解析がある。一般的な手法として以下の
ものがある。■辞書検索をする。■品詞や活用形をもと
に単語間の接続を検査する。■接続可能な単語列を抽出
し、解析候補とする。■各候補の評価値を算出し、解を
選択する。これは、一語ごとに解を決定していくものと
、ある区間内の単語列に対して行なうものとがある。 接続可能な単語列(単語)から妥当なものを選択する評
価値、評価方法としてはいくつか知られている。例えば
、「日本語情報処理」(長尾真監修 コロナ社昭62.
5.30発行 P.98〜P.112)に記載されてい
る。
のとして形態素解析がある。一般的な手法として以下の
ものがある。■辞書検索をする。■品詞や活用形をもと
に単語間の接続を検査する。■接続可能な単語列を抽出
し、解析候補とする。■各候補の評価値を算出し、解を
選択する。これは、一語ごとに解を決定していくものと
、ある区間内の単語列に対して行なうものとがある。 接続可能な単語列(単語)から妥当なものを選択する評
価値、評価方法としてはいくつか知られている。例えば
、「日本語情報処理」(長尾真監修 コロナ社昭62.
5.30発行 P.98〜P.112)に記載されてい
る。
【0003】すなわち、最長一致法は、一語ごとに解を
決定していく場合に、候補単語の中から単語の長さの最
も長いものを優先的に解としていくもので、単語に限ら
ず文節の長いものをとる場合もある。途中で解析不能に
なった場合はバックトラックして次に長いものを解とす
る。文節数最少法は、文節数の最も少ない解析から優先
して選択するもので、文節に限らず特定の範囲での単語
列の単語の数の少ないものを選択するものである。これ
らの他に単語の接続の可否に着目したものとして、単語
間の連接の確率を統計的に算出することにより単語分割
を行なう方法もある。例えば、「統計的手法による漢字
複合語の自動分割」(武田浩一 外1名 情報処理学会
論文誌 vol.28〜No.9Sep.1987)に
記載されている。
決定していく場合に、候補単語の中から単語の長さの最
も長いものを優先的に解としていくもので、単語に限ら
ず文節の長いものをとる場合もある。途中で解析不能に
なった場合はバックトラックして次に長いものを解とす
る。文節数最少法は、文節数の最も少ない解析から優先
して選択するもので、文節に限らず特定の範囲での単語
列の単語の数の少ないものを選択するものである。これ
らの他に単語の接続の可否に着目したものとして、単語
間の連接の確率を統計的に算出することにより単語分割
を行なう方法もある。例えば、「統計的手法による漢字
複合語の自動分割」(武田浩一 外1名 情報処理学会
論文誌 vol.28〜No.9Sep.1987)に
記載されている。
【0004】上記の評価方法は単語の並びの尤もらしさ
を単語の長さや文節数の少なさでとらえているので、品
詞の並びやすさや文の構造とは直接の関係づけがない。 したがって、文として妥当でない品詞の並びを選ぶこと
もありうる。例えば、 例) 本を読むことに決めた。 は以下の解析候補を得ることができる。 [候補1] 区切り:本^を|読む|こと^に|決め^た品詞列:名
詞 格助詞 動詞 形式名詞 格助詞 動詞助動詞 [候補2] 区切り:本^を|読む|ことに|決め^た品詞列:名詞
格助詞 動詞 副詞 動詞 助動詞
を単語の長さや文節数の少なさでとらえているので、品
詞の並びやすさや文の構造とは直接の関係づけがない。 したがって、文として妥当でない品詞の並びを選ぶこと
もありうる。例えば、 例) 本を読むことに決めた。 は以下の解析候補を得ることができる。 [候補1] 区切り:本^を|読む|こと^に|決め^た品詞列:名
詞 格助詞 動詞 形式名詞 格助詞 動詞助動詞 [候補2] 区切り:本^を|読む|ことに|決め^た品詞列:名詞
格助詞 動詞 副詞 動詞 助動詞
【0005】問題
となるのは「読むことに」のところである。正解は候補
1であるが、文節数最少法では同点(分割数では候補2
を選択)、最長一致法でも候補2をその評価方法により
選択してしまう。形態素解析は2語の間の連接関係だけ
で処理できるものであるが、以上のような文内の品詞並
びや構造を考慮しない評価方法では品詞の並びとして不
自然なものも選択する恐れがある。 また、統計的な手法によるものでは、連接の確率を出す
ため、かなり大量のデータが必要になる。品詞情報を使
わない場合は精度の良い値を得るにはなおさら大量のデ
ータが必要になる。
となるのは「読むことに」のところである。正解は候補
1であるが、文節数最少法では同点(分割数では候補2
を選択)、最長一致法でも候補2をその評価方法により
選択してしまう。形態素解析は2語の間の連接関係だけ
で処理できるものであるが、以上のような文内の品詞並
びや構造を考慮しない評価方法では品詞の並びとして不
自然なものも選択する恐れがある。 また、統計的な手法によるものでは、連接の確率を出す
ため、かなり大量のデータが必要になる。品詞情報を使
わない場合は精度の良い値を得るにはなおさら大量のデ
ータが必要になる。
【0006】また、形態素解析では単語の品詞をもとに
接続を検査して、正しい品詞を得るものであるが、この
品詞の設定には接続の現象をどのように反映させるかが
、解析の精度と関わっている。学校文法に近い品詞の枠
組みを用いた場合、だいたいの現象は処理できるものの
、逸脱する現象もかなりある。例えば、形容動詞「安全
」は「旅の安全を祈る」などのように直後に格助詞が接
続して名詞同様の働きをすることがある(「岩波国語辞
典」第3版 品詞概説の説明箇所)。
接続を検査して、正しい品詞を得るものであるが、この
品詞の設定には接続の現象をどのように反映させるかが
、解析の精度と関わっている。学校文法に近い品詞の枠
組みを用いた場合、だいたいの現象は処理できるものの
、逸脱する現象もかなりある。例えば、形容動詞「安全
」は「旅の安全を祈る」などのように直後に格助詞が接
続して名詞同様の働きをすることがある(「岩波国語辞
典」第3版 品詞概説の説明箇所)。
【0007】このような語は
■二品詞(名詞と形容動詞)にエントリをもつ■二品詞
の性質をもった品詞をたて、その品詞をあてるといった
方法で辞書で扱われることが多い。しかし、前記■の方
法では語の本質的な意味や機能は同じであるのに、別品
詞にたてることで単語数が増え、管理が難しくなる。ま
た、前記■の方法では単語数を少なくすることができる
反面、後ろに続く語でその文脈における機能・用法がど
ちらかを決めることができる環境でも、決めることがで
きず、後続の処理(構文解析など)で再処理する必要が
ある。
の性質をもった品詞をたて、その品詞をあてるといった
方法で辞書で扱われることが多い。しかし、前記■の方
法では語の本質的な意味や機能は同じであるのに、別品
詞にたてることで単語数が増え、管理が難しくなる。ま
た、前記■の方法では単語数を少なくすることができる
反面、後ろに続く語でその文脈における機能・用法がど
ちらかを決めることができる環境でも、決めることがで
きず、後続の処理(構文解析など)で再処理する必要が
ある。
【0008】例えば、「昨年」は
例) 昨年を思い出す。(名詞)
例) 昨年こちらに越してきた。(副詞)と名詞と副
詞の機能を持つので副詞的名詞という品詞があてられる
(「日英科学技術文献の速報システムに関する研究『日
−英科学技術用語辞書データベースの開発に関する報告
書』昭和60年度科学技術推奨調整賞 61.3日本
科学技術情報センター外」)。しかし、この場合、文に
おける機能(特に構文的な)は後ろに続く語で決めるこ
とができるのにどちらの場合も副詞的名詞という品詞に
なる。上記のように、一語が複数品詞の性質を持つ可能
性がある場合、複数品詞でも語のもともとの性質は同じ
であり、現れた文によってその文における機能はひとつ
にきまる。したがって、もともとの性質を保持しつつ、
後接の語によってその文における機能を決定することが
のぞましい。
詞の機能を持つので副詞的名詞という品詞があてられる
(「日英科学技術文献の速報システムに関する研究『日
−英科学技術用語辞書データベースの開発に関する報告
書』昭和60年度科学技術推奨調整賞 61.3日本
科学技術情報センター外」)。しかし、この場合、文に
おける機能(特に構文的な)は後ろに続く語で決めるこ
とができるのにどちらの場合も副詞的名詞という品詞に
なる。上記のように、一語が複数品詞の性質を持つ可能
性がある場合、複数品詞でも語のもともとの性質は同じ
であり、現れた文によってその文における機能はひとつ
にきまる。したがって、もともとの性質を保持しつつ、
後接の語によってその文における機能を決定することが
のぞましい。
【0009】また、例えば、副詞は単独で何も下接語を
とらずに他の語に接続するが、中には直後に格助詞「の
」をとって名詞に続くものがある。 例)一層の努力を要する。 この現象は、副詞すべてに共通するものではなく、副詞
の中でもごく一部に該当するものである(「岩波国語辞
典」品詞概説の説明箇所)。形態素解析において設定し
た品詞の枠組みを逸脱するこのような現象がある場合、
誤解析となる。このような現象を扱うためには、逸脱す
る現象を有する語を別詞として、新たに品詞を立てると
いう方法がとられる。
とらずに他の語に接続するが、中には直後に格助詞「の
」をとって名詞に続くものがある。 例)一層の努力を要する。 この現象は、副詞すべてに共通するものではなく、副詞
の中でもごく一部に該当するものである(「岩波国語辞
典」品詞概説の説明箇所)。形態素解析において設定し
た品詞の枠組みを逸脱するこのような現象がある場合、
誤解析となる。このような現象を扱うためには、逸脱す
る現象を有する語を別詞として、新たに品詞を立てると
いう方法がとられる。
【0010】しかし、この場合、各現象について別品詞
をたてていくと現象数の組み合せの数の品詞がふえ、人
手での管理や品詞付けが非常に難しくなる。一品詞内に
複数の接続情報をもつものがあるが(「日英科学技術文
献の速報システムに関する研究『日−英科学技術用語辞
書データベースの開発に関する報告書』」昭和60年度
科学技術推奨調整賞 61.3日本科学技術情報セン
ター外」)、あらかじめ接続パターンを決め、語に接続
パターンを付与する必要がある。接続パタンの設定は前
述のとおり現象の数の組み合せだけあるので煩雑で難し
くなる。上記のように、例えば副詞に格助詞「の」が接
続する現象は、その現象によって語の副詞としての性質
は変わらず、接続についての例外現象である。したがっ
て、副詞という品詞のまま接続の例外に対応する方法が
望ましいし、その場合も現象毎に品詞立てをして人手で
管理することは先の理由からも望ましくない。
をたてていくと現象数の組み合せの数の品詞がふえ、人
手での管理や品詞付けが非常に難しくなる。一品詞内に
複数の接続情報をもつものがあるが(「日英科学技術文
献の速報システムに関する研究『日−英科学技術用語辞
書データベースの開発に関する報告書』」昭和60年度
科学技術推奨調整賞 61.3日本科学技術情報セン
ター外」)、あらかじめ接続パターンを決め、語に接続
パターンを付与する必要がある。接続パタンの設定は前
述のとおり現象の数の組み合せだけあるので煩雑で難し
くなる。上記のように、例えば副詞に格助詞「の」が接
続する現象は、その現象によって語の副詞としての性質
は変わらず、接続についての例外現象である。したがっ
て、副詞という品詞のまま接続の例外に対応する方法が
望ましいし、その場合も現象毎に品詞立てをして人手で
管理することは先の理由からも望ましくない。
【0011】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、文として自然な単語の並びや構造を考慮した接
続の値を用いることで正しい単語列を得るようにしたこ
と、また、形態素解析において複数の品詞の可能性のあ
る語について、複数の品詞に別の単語として登録するこ
となく、複数の品詞の性質のもつ新たな品詞分類をたて
ることなく、もともとの品詞を保持しつつ、文の環境に
応じてその文での品詞を決定すること、また、形態素解
析において語の接続を検定する際の品詞の枠組みについ
て、その枠組みを逸脱する現象を品詞分類を煩雑にする
ことなく扱うようにした形態素解析方式を提供すること
を目的としたものである。
もので、文として自然な単語の並びや構造を考慮した接
続の値を用いることで正しい単語列を得るようにしたこ
と、また、形態素解析において複数の品詞の可能性のあ
る語について、複数の品詞に別の単語として登録するこ
となく、複数の品詞の性質のもつ新たな品詞分類をたて
ることなく、もともとの品詞を保持しつつ、文の環境に
応じてその文での品詞を決定すること、また、形態素解
析において語の接続を検定する際の品詞の枠組みについ
て、その枠組みを逸脱する現象を品詞分類を煩雑にする
ことなく扱うようにした形態素解析方式を提供すること
を目的としたものである。
【0012】
【構成】本発明は、上記目的を達成するために、(1)
単語辞書と、単語間の接続の可否を記述した接続表とを
用いて、文の単語と、該単語の品詞を認定する形態素解
析方式において、前記接続表は、単語間の構文的関係を
単語間の接続の値としたものを用いること、更には、(
2)前記接続表の構文的関係による接続の値は、単語を
構成するレベルとしたこと、更には、(3)文を候補単
語に分割し、該候補単語のうち接続の値が最大となるも
のを最良の候補単語として選定するようにしたこと、或
いは、(4)表記と品詞とからなる単語辞書と、品詞間
の接続の可否を記述した接続表を用いて文の単語と品詞
を認定する形態素解析方式において、前記単語辞書は複
数の品詞の性質をもつ単語について、表記ととりうる複
数の品詞とを持つこと、更には、(5)前記(4)にお
いて、前記複数の品詞をとりうる語について、その接続
検定時にとりうる品詞の接続可否情報をとりうる各品詞
から生成したものを用いること、或いは、(6)単語辞
書と、単語間の接続の可否を記述した接続表とを用いて
、文の単語と該単語の品詞を認定する形態素解析方式に
おいて、前記単語辞書は、表記と品詞と素性とを記述し
たものであること、更には、(7)前記(6)において
、前記表記と品詞と素性とを記述した単語辞書において
、素性をその語が本来有する接続表の値と異なる値をも
つ語、品詞、品詞のグループとして記述すること、更に
は、(8)前記(6)において、前記接続表に素性をも
とに品詞を細分類したものを用いることを特徴としたも
のである。以下、本発明の実施例に基づいて説明する。
単語辞書と、単語間の接続の可否を記述した接続表とを
用いて、文の単語と、該単語の品詞を認定する形態素解
析方式において、前記接続表は、単語間の構文的関係を
単語間の接続の値としたものを用いること、更には、(
2)前記接続表の構文的関係による接続の値は、単語を
構成するレベルとしたこと、更には、(3)文を候補単
語に分割し、該候補単語のうち接続の値が最大となるも
のを最良の候補単語として選定するようにしたこと、或
いは、(4)表記と品詞とからなる単語辞書と、品詞間
の接続の可否を記述した接続表を用いて文の単語と品詞
を認定する形態素解析方式において、前記単語辞書は複
数の品詞の性質をもつ単語について、表記ととりうる複
数の品詞とを持つこと、更には、(5)前記(4)にお
いて、前記複数の品詞をとりうる語について、その接続
検定時にとりうる品詞の接続可否情報をとりうる各品詞
から生成したものを用いること、或いは、(6)単語辞
書と、単語間の接続の可否を記述した接続表とを用いて
、文の単語と該単語の品詞を認定する形態素解析方式に
おいて、前記単語辞書は、表記と品詞と素性とを記述し
たものであること、更には、(7)前記(6)において
、前記表記と品詞と素性とを記述した単語辞書において
、素性をその語が本来有する接続表の値と異なる値をも
つ語、品詞、品詞のグループとして記述すること、更に
は、(8)前記(6)において、前記接続表に素性をも
とに品詞を細分類したものを用いることを特徴としたも
のである。以下、本発明の実施例に基づいて説明する。
【0013】図1は、本発明による形態素解析方式の一
実施例を説明するための構成図で、図中、1は単語辞書
、2は接続表、3は形態素解析処理部である。単語辞書
1と、単語間の接続の可否を記述した接続表2と、文の
単語と該単語の品詞を認定する形態素解析処理部3とか
ら構成されている。前記接続表2は、単語間の構文的関
係を単語間の接続の値としたものを用いている。該接続
表2の構文的関係による接続の値は、単語を構成するレ
ベルに基づいている。また、対象となる文を候補単語に
分割し、分割された候補単語のうち接続の値が最大とな
るものを最良の候補単語として選定するように構成され
ている。
実施例を説明するための構成図で、図中、1は単語辞書
、2は接続表、3は形態素解析処理部である。単語辞書
1と、単語間の接続の可否を記述した接続表2と、文の
単語と該単語の品詞を認定する形態素解析処理部3とか
ら構成されている。前記接続表2は、単語間の構文的関
係を単語間の接続の値としたものを用いている。該接続
表2の構文的関係による接続の値は、単語を構成するレ
ベルに基づいている。また、対象となる文を候補単語に
分割し、分割された候補単語のうち接続の値が最大とな
るものを最良の候補単語として選定するように構成され
ている。
【0014】図2は、単語辞書の例である。単語の表記
と品詞とからなっている。品詞にもとづき接続を検査す
る。この品詞で接続表をひく。図3は、接続表の例であ
る。2次元のマトリクスになっており、縦から横へ(列
から行へ)接続のパタンが記述してある。品詞でひく。 接続のパタンは可否だけでなく、単語間の関係を記述す
る。例では「d」は接続しない意であり、「g」は語構
成レベルの関係、「t」は連体修飾する関係、「y」は
連用修飾する関係、「r」はそれ以外の単なる隣接の関
係である。このパタンをもとに接続の値を算出する。
と品詞とからなっている。品詞にもとづき接続を検査す
る。この品詞で接続表をひく。図3は、接続表の例であ
る。2次元のマトリクスになっており、縦から横へ(列
から行へ)接続のパタンが記述してある。品詞でひく。 接続のパタンは可否だけでなく、単語間の関係を記述す
る。例では「d」は接続しない意であり、「g」は語構
成レベルの関係、「t」は連体修飾する関係、「y」は
連用修飾する関係、「r」はそれ以外の単なる隣接の関
係である。このパタンをもとに接続の値を算出する。
【0015】図4は、本発明による形態素解析方式の処
理を説明するためのフローチャートである。以下、各ス
テップに従って順に説明する。なお、以下の処理を一語
ごとあるいは、一区間ごとに行なう。 step1:文頭から単語辞書を用いて単語を検索する
。 step2:各単語に対して候補単語どうしが接続可能
であるかどうかを接続表を用いて検索する。接続が不可
能なものを候補単語から削除する。 step3:残った候補単語が複数ある場合、評価値を
計算する。本発明ではこの評価値において接続表のパタ
ンをもとに評価値を算出する。パタンはgtyrdの順
で語を構成するレベルが小さく(プリミティブ)、語と
語の結び付きも密接であるので、この順に評価値が高く
なる。例えば、gは1、dは0である。各候補単語と直
前の単語との接続を計算する。 step4:単語の中で最も評価値の高いものを解と決
定する。
理を説明するためのフローチャートである。以下、各ス
テップに従って順に説明する。なお、以下の処理を一語
ごとあるいは、一区間ごとに行なう。 step1:文頭から単語辞書を用いて単語を検索する
。 step2:各単語に対して候補単語どうしが接続可能
であるかどうかを接続表を用いて検索する。接続が不可
能なものを候補単語から削除する。 step3:残った候補単語が複数ある場合、評価値を
計算する。本発明ではこの評価値において接続表のパタ
ンをもとに評価値を算出する。パタンはgtyrdの順
で語を構成するレベルが小さく(プリミティブ)、語と
語の結び付きも密接であるので、この順に評価値が高く
なる。例えば、gは1、dは0である。各候補単語と直
前の単語との接続を計算する。 step4:単語の中で最も評価値の高いものを解と決
定する。
【0016】以下に、本発明の形態素解析方式による形
態素解析の具体例を説明する。 例) 本を読むことに決めた。 [候補1] 区切り:本^を|読む|こと^に|決め^た品詞列:名
詞 格助詞 動詞 形式名詞 格助詞 動詞助動詞 パタン: g y t
g y g[候補2] 区切り:本^を|読む|ことに|決め^た品詞列:名詞
格助詞 動詞 副詞 動詞 助動詞パタン:
g y r y g単語検索と接
続検定ののつ上記2候補が得られる。2候補の違いは「
読むことに」である。評価値では候補1がパタン「t」
、候補2がパタン「r」である。パタンの値はgが1、
tが0.8、yが0.6、rが0.4なので、「読む」
「こと」「ことに」の関係を調べると、「読む」と「こ
と」は動詞と形式名詞なので「t」で0.8、「読む」
と「ことに」は動詞と副詞なので「r」で0.4である
。候補1のほうが高く、形式名詞「こと」が選択される
。
態素解析の具体例を説明する。 例) 本を読むことに決めた。 [候補1] 区切り:本^を|読む|こと^に|決め^た品詞列:名
詞 格助詞 動詞 形式名詞 格助詞 動詞助動詞 パタン: g y t
g y g[候補2] 区切り:本^を|読む|ことに|決め^た品詞列:名詞
格助詞 動詞 副詞 動詞 助動詞パタン:
g y r y g単語検索と接
続検定ののつ上記2候補が得られる。2候補の違いは「
読むことに」である。評価値では候補1がパタン「t」
、候補2がパタン「r」である。パタンの値はgが1、
tが0.8、yが0.6、rが0.4なので、「読む」
「こと」「ことに」の関係を調べると、「読む」と「こ
と」は動詞と形式名詞なので「t」で0.8、「読む」
と「ことに」は動詞と副詞なので「r」で0.4である
。候補1のほうが高く、形式名詞「こと」が選択される
。
【0017】図5は、本発明による形態素解析方式の他
の実施例を示す図で、図中、11は単語辞書、12はソ
ース接続表、13は形態素解析処理部である。表記と品
詞とからなる単語辞書11と、品詞間の接続の可否を記
述したソース接続表12と、文の単語と品詞を認定する
形態素解析処理部13とから構成されている。前記単語
辞書は、複数の品詞の性質をもつ単語について表記とと
りうる複数の品詞とを有している。
の実施例を示す図で、図中、11は単語辞書、12はソ
ース接続表、13は形態素解析処理部である。表記と品
詞とからなる単語辞書11と、品詞間の接続の可否を記
述したソース接続表12と、文の単語と品詞を認定する
形態素解析処理部13とから構成されている。前記単語
辞書は、複数の品詞の性質をもつ単語について表記とと
りうる複数の品詞とを有している。
【0018】図6は単語辞書の他の例である。単語の表
記と品詞と転成品詞とからなる。品詞に基づき単語間の
接続を検査する。転成品詞は、従来では複数品詞に該当
した語について、もともとの品詞(あるいは使用される
率の高い品詞)以外の、ある条件のときにそうと判断さ
れる品詞である。例えば、「安全」では品詞は形容動詞
であり、後ろに特定の語(例えば格助詞)が続くときだ
け文において名詞と機能する。「安全」は実行時には形
容動詞と形容動詞「転成:名詞」の2品詞をもつことに
なる。
記と品詞と転成品詞とからなる。品詞に基づき単語間の
接続を検査する。転成品詞は、従来では複数品詞に該当
した語について、もともとの品詞(あるいは使用される
率の高い品詞)以外の、ある条件のときにそうと判断さ
れる品詞である。例えば、「安全」では品詞は形容動詞
であり、後ろに特定の語(例えば格助詞)が続くときだ
け文において名詞と機能する。「安全」は実行時には形
容動詞と形容動詞「転成:名詞」の2品詞をもつことに
なる。
【0019】図7はソース接続表の例である。行と列が
品詞名のマトリクスで、交点には品詞間の接続の有無が
記述してある(ここでは接続可能が1、接続しないもの
は0)。縦軸には前接の品詞を、横軸には後接の品詞を
書く。ここでの品詞は単語辞書の品詞のところに記述さ
れているものである。図8は実行接続表の例である。図
3のソース接続表をもとに転成品詞の記述のある語につ
いて、その語の品詞の接続と転成品詞(単語辞書に転成
品詞として記述されている品詞)の接続とから転成品詞
の接続を生成する。転成品詞の接続は前接が品詞と転成
品詞の行を比較して、転成品詞だけに1のたっているも
のを1とし、その例外を0としたものである。 もとの品詞 0011転成先品
詞 0101転成による新品詞
0100両方の共通部分を廃した、転成先
にだけ1のたつものに1をたてたものになる。これは、
ある特定の語がうしろに続いたときにだけその転成品詞
になるという意味である。例えば、形容動詞「安全」は
後ろに格助詞が続いたときのみ名詞となる。
品詞名のマトリクスで、交点には品詞間の接続の有無が
記述してある(ここでは接続可能が1、接続しないもの
は0)。縦軸には前接の品詞を、横軸には後接の品詞を
書く。ここでの品詞は単語辞書の品詞のところに記述さ
れているものである。図8は実行接続表の例である。図
3のソース接続表をもとに転成品詞の記述のある語につ
いて、その語の品詞の接続と転成品詞(単語辞書に転成
品詞として記述されている品詞)の接続とから転成品詞
の接続を生成する。転成品詞の接続は前接が品詞と転成
品詞の行を比較して、転成品詞だけに1のたっているも
のを1とし、その例外を0としたものである。 もとの品詞 0011転成先品
詞 0101転成による新品詞
0100両方の共通部分を廃した、転成先
にだけ1のたつものに1をたてたものになる。これは、
ある特定の語がうしろに続いたときにだけその転成品詞
になるという意味である。例えば、形容動詞「安全」は
後ろに格助詞が続いたときのみ名詞となる。
【0020】図9は、本発明による形態素解析方式の処
理を説明するためのフローチャートである。以下、各ス
テップに従って順に説明する。 step1:まず、単語辞書・ソース接続表を読み込む
。 step2:次に単語辞書の転成品詞にもとづき転成品
詞の接続行を生成し、加え、実行接続表とする。ここま
でが実際に対象文を解析する前に行なう処理である。 step3:次に対象文をよみこみ、文頭から単語辞書
を用いて単語を検索する。 step4:各単語に対して候補単語同士が接続可能で
あるかどうかを実行接続表を用いて検査する。接続が不
可能なものを候補単語から削除する。 step5:接続可能なものを候補単語又は解として決
定する。
理を説明するためのフローチャートである。以下、各ス
テップに従って順に説明する。 step1:まず、単語辞書・ソース接続表を読み込む
。 step2:次に単語辞書の転成品詞にもとづき転成品
詞の接続行を生成し、加え、実行接続表とする。ここま
でが実際に対象文を解析する前に行なう処理である。 step3:次に対象文をよみこみ、文頭から単語辞書
を用いて単語を検索する。 step4:各単語に対して候補単語同士が接続可能で
あるかどうかを実行接続表を用いて検査する。接続が不
可能なものを候補単語から削除する。 step5:接続可能なものを候補単語又は解として決
定する。
【0021】以下に、本発明の形態素解析方式による形
態素解析の他の具体例を説明する。 例) 安定を祈る。 単語辞書とソース接続表を読み込む。転成品詞の付いて
いる品詞について実行接続表にはソース接続表に加えて
、転成品詞の接続を生成して加える。例えば、転成品詞
の形容動詞[転成:名詞]を生成する。この接続は、前
接が形容動詞の行と名詞の行を取りだして比較し、共通
部分を廃して名詞だけに1のたっている箇所を1とした
ものになる。「安全」は単語辞書により品詞は、形容動
詞と形容動詞[転成:名詞]とが抽出される。接続検定
で直後が格助詞[を]であり、実行接続表により、形容
動詞[転成:名詞]だけが接続するので解析結果として
形容動詞[転成:名詞]、格助詞[を]の並びを得る(
「安全」の解析結果として用途によっては転成後の品詞
名(名詞)だけを出すことも可能である。)。
態素解析の他の具体例を説明する。 例) 安定を祈る。 単語辞書とソース接続表を読み込む。転成品詞の付いて
いる品詞について実行接続表にはソース接続表に加えて
、転成品詞の接続を生成して加える。例えば、転成品詞
の形容動詞[転成:名詞]を生成する。この接続は、前
接が形容動詞の行と名詞の行を取りだして比較し、共通
部分を廃して名詞だけに1のたっている箇所を1とした
ものになる。「安全」は単語辞書により品詞は、形容動
詞と形容動詞[転成:名詞]とが抽出される。接続検定
で直後が格助詞[を]であり、実行接続表により、形容
動詞[転成:名詞]だけが接続するので解析結果として
形容動詞[転成:名詞]、格助詞[を]の並びを得る(
「安全」の解析結果として用途によっては転成後の品詞
名(名詞)だけを出すことも可能である。)。
【0022】次に、本発明による形態素解析方式の更に
他の実施例について説明する。構成図は図5と同様であ
る。単語辞書11と、単語間の接続の可否を記述した接
続表12と、文の単語と該単語の品詞を認定する形態素
解析処理部13とから構成されている。前記単語辞書は
、表記と品詞と素性とを記述したものである。また、素
性を品詞、品詞のグループとして記述されている。
他の実施例について説明する。構成図は図5と同様であ
る。単語辞書11と、単語間の接続の可否を記述した接
続表12と、文の単語と該単語の品詞を認定する形態素
解析処理部13とから構成されている。前記単語辞書は
、表記と品詞と素性とを記述したものである。また、素
性を品詞、品詞のグループとして記述されている。
【0023】図10は単語辞書の更に他の例である。単
語の表記と品詞と素性とからなる。品詞に基づき単語間
の接続を検査する。素性は、例えば各単語に記述された
品詞の有する接続の性質に含まれない現象を記述するも
のである。素性には接続する(または接続しない)品詞
名、接続する(または接続しない)品詞名のグループな
どを書く。実行時には素性の付いて品詞は<品詞+素性
>という別品詞となる。例えば副詞「一層」の品詞名は
「副詞+格助詞[の]」となり、これにもとづいて接続
検定を行なう。
語の表記と品詞と素性とからなる。品詞に基づき単語間
の接続を検査する。素性は、例えば各単語に記述された
品詞の有する接続の性質に含まれない現象を記述するも
のである。素性には接続する(または接続しない)品詞
名、接続する(または接続しない)品詞名のグループな
どを書く。実行時には素性の付いて品詞は<品詞+素性
>という別品詞となる。例えば副詞「一層」の品詞名は
「副詞+格助詞[の]」となり、これにもとづいて接続
検定を行なう。
【0024】図11はソース接続表の例である。行と列
が品詞名のマトリクスで、交点には品詞間の接続有無が
記述してある(ここでは接続可能が1、接続しないもの
は0)。縦軸には前接の品詞を、横軸には接続の品詞を
書く。ここでの品詞は単語辞書の品詞のところに記述さ
れているものである。図12は実行接続表の例である。 図7のソース接続表をもとに各品詞ごとに素性付与され
たものを実行時には品詞として展開する。例えば、副詞
「一層」に素性「格助詞[の]」が付いていた場合、例
外接続として格助詞「の」が付くとして、実行接続表で
は副詞で格助詞「の」につながる品詞を生成する(副詞
+格助詞「の」)。この品詞の接続の値は前接が副詞で
ある行をとりだし、後接が格助詞「の」の値を接続可能
な値(ここでは1)に書き換えたものにする。接続の例
外処理を実行時の辞書での細分類品詞生成にするので、
処理が可能で、人手による分類作業を必要としない。
が品詞名のマトリクスで、交点には品詞間の接続有無が
記述してある(ここでは接続可能が1、接続しないもの
は0)。縦軸には前接の品詞を、横軸には接続の品詞を
書く。ここでの品詞は単語辞書の品詞のところに記述さ
れているものである。図12は実行接続表の例である。 図7のソース接続表をもとに各品詞ごとに素性付与され
たものを実行時には品詞として展開する。例えば、副詞
「一層」に素性「格助詞[の]」が付いていた場合、例
外接続として格助詞「の」が付くとして、実行接続表で
は副詞で格助詞「の」につながる品詞を生成する(副詞
+格助詞「の」)。この品詞の接続の値は前接が副詞で
ある行をとりだし、後接が格助詞「の」の値を接続可能
な値(ここでは1)に書き換えたものにする。接続の例
外処理を実行時の辞書での細分類品詞生成にするので、
処理が可能で、人手による分類作業を必要としない。
【0025】図13は、本発明による形態素解析方式の
処理を説明するためのフローチャートである。以下、各
ステップに従って順に説明する。 step1:まず、単語辞書・ソース接続表を読み込む
。 step2:次に単語辞書の素性に基づき各品詞の細分
類をつくり、実行接続表を作成する。 ここまでが実際に対象文を解析する前に行なう処理であ
る。 step3:次に対象文をよみこみ、文頭から単語辞書
を用いて単語を検索する。 step4:各単語に対して候補単語同士が接続可能で
あるかどうかを実行接続表を用いて検査する。接続が不
可能なものを候補単語から削除する。 step5:接続可能な語を候補単語又は解として決定
する。
処理を説明するためのフローチャートである。以下、各
ステップに従って順に説明する。 step1:まず、単語辞書・ソース接続表を読み込む
。 step2:次に単語辞書の素性に基づき各品詞の細分
類をつくり、実行接続表を作成する。 ここまでが実際に対象文を解析する前に行なう処理であ
る。 step3:次に対象文をよみこみ、文頭から単語辞書
を用いて単語を検索する。 step4:各単語に対して候補単語同士が接続可能で
あるかどうかを実行接続表を用いて検査する。接続が不
可能なものを候補単語から削除する。 step5:接続可能な語を候補単語又は解として決定
する。
【0026】以下に、本発明の形態素解析方式による形
態素解析の更に他の具体例を説明する。 [具体例] 例) 一層の努力を要する。 単語辞書とソース接続表を読み込む。素性の付いている
品詞について実行接続表にはソース接続表に加えて、素
性に基づき展開して品詞の接続を加える。例えば、副詞
には、素性格助詞「の」が付いているので、副詞+格助
詞[の]という品詞を生成する。この品詞の後接にはも
との品詞である副詞の接続の格助詞「の」の接続の値を
0から1(接続不可から接続不能)に書き換えたものを
実行接続表に加える。
態素解析の更に他の具体例を説明する。 [具体例] 例) 一層の努力を要する。 単語辞書とソース接続表を読み込む。素性の付いている
品詞について実行接続表にはソース接続表に加えて、素
性に基づき展開して品詞の接続を加える。例えば、副詞
には、素性格助詞「の」が付いているので、副詞+格助
詞[の]という品詞を生成する。この品詞の後接にはも
との品詞である副詞の接続の格助詞「の」の接続の値を
0から1(接続不可から接続不能)に書き換えたものを
実行接続表に加える。
【0027】上記の文を解析すると、「一層」は単語辞
書により品詞「副詞+格助詞[の]」であり、直後には
「の」があり、候補単語は格助詞「の」、準体助詞「の
」がある。接続検定で副詞+格助詞[の]と格助詞「の
」だけが接続するので、副詞+格助詞[の]、格助詞「
の」という単語列を得る(「一層」の解析結果として用
途によってはもとの品詞名(副詞)だけを出すことも可
能である。)。
書により品詞「副詞+格助詞[の]」であり、直後には
「の」があり、候補単語は格助詞「の」、準体助詞「の
」がある。接続検定で副詞+格助詞[の]と格助詞「の
」だけが接続するので、副詞+格助詞[の]、格助詞「
の」という単語列を得る(「一層」の解析結果として用
途によってはもとの品詞名(副詞)だけを出すことも可
能である。)。
【0028】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)単語間の接続可否を記述した接続表に単語間の文
法的関係を記述することにより、文の構造、単語間の関
係を考慮した評価値をあたえることができ、より高精度
の形態素解析をおこなうことができる。 (2)複数の品詞の性質をもつ語について単語辞書に複
数エントリを持つ必要がないので、辞書の管理が簡便に
なる。また、複数品詞の性質を持つ品詞を新たにたてな
いので、難しい品詞設定をすることなく、接続する単語
によって当該文環境での品詞を決定することができる。 さらに、実行時に自動的に複数品詞の接続を生成するの
で、人手で新たな品詞の接続を記述する必要がない。 (3)品詞以外に素性を設定することにより、品詞とい
う枠組みで扱うことのできない語特有の接続を扱うこと
ができ、精度のよい形態素解析を行なうことができる。 特に素性に品詞の接続の性質から逸脱した現象を設定す
ることで、品詞を細分類せずに扱うことができる。また
、人手で管理する単語辞書や接続表では素性として表現
し、実行時には(人手によらない部分)で品詞の細分類
に展開することで辞書の管理がしやすくなる。
と、以下のような効果がある。 (1)単語間の接続可否を記述した接続表に単語間の文
法的関係を記述することにより、文の構造、単語間の関
係を考慮した評価値をあたえることができ、より高精度
の形態素解析をおこなうことができる。 (2)複数の品詞の性質をもつ語について単語辞書に複
数エントリを持つ必要がないので、辞書の管理が簡便に
なる。また、複数品詞の性質を持つ品詞を新たにたてな
いので、難しい品詞設定をすることなく、接続する単語
によって当該文環境での品詞を決定することができる。 さらに、実行時に自動的に複数品詞の接続を生成するの
で、人手で新たな品詞の接続を記述する必要がない。 (3)品詞以外に素性を設定することにより、品詞とい
う枠組みで扱うことのできない語特有の接続を扱うこと
ができ、精度のよい形態素解析を行なうことができる。 特に素性に品詞の接続の性質から逸脱した現象を設定す
ることで、品詞を細分類せずに扱うことができる。また
、人手で管理する単語辞書や接続表では素性として表現
し、実行時には(人手によらない部分)で品詞の細分類
に展開することで辞書の管理がしやすくなる。
【図1】 本発明による形態素解析方式の一実施例を
説明するための構成図である。
説明するための構成図である。
【図2】 単語辞書の例を示す図である。
【図3】 接続表を示す図である。
【図4】 本発明による形態素解析方式の処理を説明
するためのフローチャートである。
するためのフローチャートである。
【図5】 本発明による形態素解析方式の他の実施例
を説明するための構成図である。
を説明するための構成図である。
【図6】 単語辞書の他の例を示す図である。
【図7】 ソース接続表の例を示す図である。
【図8】 実行接続表の例を示す図である。
【図9】 形態素解析の他のフローチャートである。
【図10】 単語辞書の更に他の例を示す図である。
【図11】 ソース接続表の他の例を示す図である。
【図12】 実行接続表の他の例を示す図である。
【図13】 形態素解析の更に他のフローチャートで
ある。
ある。
1…単語辞書、2…接続表、3…形態素解析処理部。
Claims (8)
- 【請求項1】 単語辞書と、単語間の接続の可否を記
述した接続表とを用いて、文の単語と、該単語の品詞を
認定する形態素解析方式において、前記接続表は、単語
間の構文的関係を単語間の接続の値としたものを用いる
ことを特徴とする形態素解析方式。 - 【請求項2】 前記接続表の構文的関係による接続の
値は、単語を構成するレベルとしたことを特徴とする請
求項1記載の形態素解析方式。 - 【請求項3】 文を候補単語に分割し、該候補単語の
うち接続の値が最大となるものを最良の候補単語として
選定するようにしたことを特徴とする請求項1記載の形
態素解析方式。 - 【請求項4】 表記と品詞とからなる単語辞書と、品
詞間の接続の可否を記述した接続表を用いて文の単語と
品詞を認定する形態素解析方式において、前記単語辞書
は複数の品詞の性質をもつ単語について、表記ととりう
る複数の品詞とを持つことを特徴とする形態素解析方式
。 - 【請求項5】 前記複数の品詞をとりうる語について
、その接続検定時にとりうる品詞の接続可否情報をとり
うる各品詞から生成したものを用いることを特徴とする
請求項4記載の形態素解析方式。 - 【請求項6】 単語辞書と、単語間の接続の可否を記
述した接続表とを用いて、文の単語と該単語の品詞を認
定する形態素解析方式において、前記単語辞書は、表記
と品詞と素性とを記述したものであることを特徴とする
形態素解析方式。 - 【請求項7】 前記表記と品詞と素性とを記述した単
語辞書において、素性をその語が本来有する接続表の値
と異なる値をもつ語、品詞、品詞のグループとして記述
することを特徴とする請求項6記載の形態素解析方式。 - 【請求項8】 前記接続表に素性をもとに品詞を細分
類したものを用いることを特徴とする請求項6記載の形
態素解析方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3124962A JPH04326160A (ja) | 1991-04-25 | 1991-04-25 | 形態素解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3124962A JPH04326160A (ja) | 1991-04-25 | 1991-04-25 | 形態素解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04326160A true JPH04326160A (ja) | 1992-11-16 |
Family
ID=14898532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3124962A Pending JPH04326160A (ja) | 1991-04-25 | 1991-04-25 | 形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04326160A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097533A (ja) * | 2011-10-31 | 2013-05-20 | Fujitsu Ltd | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
-
1991
- 1991-04-25 JP JP3124962A patent/JPH04326160A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097533A (ja) * | 2011-10-31 | 2013-05-20 | Fujitsu Ltd | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al‐Sughaiyer et al. | Arabic morphological analysis techniques: A comprehensive survey | |
US5541838A (en) | Translation machine having capability of registering idioms | |
JPH0351020B2 (ja) | ||
JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
KR100481598B1 (ko) | 복합 형태소 분석 장치 및 방법 | |
Beniamine et al. | Opening the romance verbal inflection dataset 2.0: A CLDF lexicon | |
Vasiu et al. | Enhancing tokenization by embedding romanian language specific morphology | |
Amri et al. | Amazigh POS tagging using TreeTagger: a language independant model | |
Yeshambel et al. | Evaluation of corpora, resources and tools for Amharic information retrieval | |
Hrytsiv et al. | Corpus Technologies in Translation Studies: Fiction as Document. | |
JPH04326160A (ja) | 形態素解析装置 | |
JP3136973B2 (ja) | 言語解析システムおよび方法 | |
Oudah et al. | Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition | |
Mesfar | Morphological grammars for standard Arabic tokenization | |
JP2902343B2 (ja) | 言語解析システムおよび方法 | |
Paramonov et al. | Phonetic string matching for languages with cyrillic alphabet | |
JPH07244665A (ja) | 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置 | |
Tnaji et al. | A light Arabic POS Tagger using a hybrid approach | |
Abera et al. | Information extraction model for afan oromo news text | |
Rauker Koch et al. | Automation of the conversion of natural language to formalized node of knowledge record | |
JPH0561902A (ja) | 機械翻訳システム | |
Bounoua et al. | Formalization of the Arabic grammatical category (Va) using the NooJ platform | |
JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 | |
JP3358100B2 (ja) | 日本語質問メッセージ解析方法及び装置 | |
Prakapenka et al. | Creation of a Legal Domain Corpus for the Belarusian Module in NooJ: Texts, Dictionaries, Grammars |