JP3058511B2

JP3058511B2 - 中国語文解析方法および中国語文解析装置

Info

Publication number: JP3058511B2
Application number: JP4174514A
Authority: JP
Inventors: 嘉慧徐; 彦一歐陽
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1992-07-01
Filing date: 1992-07-01
Publication date: 2000-07-04
Anticipated expiration: 2015-07-04
Also published as: JPH0619961A; TW226446B

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、中国語文を解析する中
国語文解析方法および中国語文解析装置に関するもので
ある。

【０００２】

【従来の技術】コンピュータにより中国語を理解するに
は、優れた中国語文パーサが必要である。つまり、中国
語文を解析するには、形態素（ｍｏｒｐｈｏｌｏｇｙ）
や構文（ｓｙｎｔａｘ）や意味（ｓｅｍａｎｔｉｃｓ）
や語用（ｐｒａｇｍａｔｉｃｓ）などによる異なった中
国語文の現象を扱わなければならず、これらの言語現象
は解析に際して多大なあいまい性が発生する原因となっ
ているので、パーサにより逐一解決しなければならな
い。したがって、中国語文解析装置を開発するには、先
ず単語抽出、品詞、構文次分類及び意味などによる多義
性を解決する必要がある。例えば、“大学生活很有趣”
という文は、以下の５通りの構造に分けられる可能性が
ある。

【０００３】（１）大‥学‥生‥活‥很‥有‥趣。（２）大‥学生‥活‥很‥有趣。（３）大‥学‥生活‥很‥有趣。（４）大学生‥活‥很‥有趣。（５）大学生活‥很‥有趣。

【０００４】入力された音節列や文字列でも単語間の切
れ目のないべた書きである中国語文に対して、パーサ
は、先ず音節列や文字列を意味のある単語毎に分けてか
ら、形態素、構文、意味の解析を行わなければならな
い。言い換えれば、パーサの主な作業は、図２８のよう
に、入力された中国語文を単語毎に区切って、各ノード
が各単語を持つ解析木を生成することである。上記の七
つの文字から構成された文は、少なくとも五つの単語の
切り出し方がある。異なる単語の切り出し方により、品
詞、構文次分類、意味などによる多義も異なってくる。
上記（１）の切り出し方によれば、第６字目の文字
「有」は、動詞である上に、アスペクト素性も持ってい
る。動詞としては「所有」という意味を表わし、アスペ
クトとしては「完成」という意味を表わす。また、動詞
としては他動詞（ｔｒａｎｓｉｔｉｖｅｖｅｒｂ）、自
動詞（ｉｎｔｒａｎｓｉｔｉｖｅｖｅｒｂ）のいずれ
にもなり得る。上記（２）および（５）の切り出し方に
よれば、「有」が次の文字の「趣」と結合して二音節の
単語になるので、上記（１）のような多義性がない。上
記の説明から判るように、適当でない単語の抽出は多義
性問題を莫大に増やす可能性があるので、形態素、構
文、意味の解析による単語の切り出しはパージングの手
がかりであるといえる。単語の切り出しはパージングの
第一歩である上に、これからの構文解析や意味解析など
のパージングにも大切な影響を与える。

【０００５】従って、中国語の単語の多義性問題を解決
するために、研究者たちは、単語を如何に有効に抽出す
るかに重点を置いている。この課題を解決するために、
従来の中国語文解析装置は、例えばＹｅｈ，Ｌｅｅ，＆
Ｔｓａｉが１９９０Ｉｎｔｅｒｎａｔｉｏｎａｌ
ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＰｒ
ｏｃｅｓｓｉｎｇｏｆＣｈｉｎｅｓｅａｎｄＯ
ｒｉｅｎｔａｌＬａｎｇｕａｇｅｓの論文集（Ｐ２７
〜Ｐ３２，１９９０年４月）により提案した“Ｕｎｉｆ
ｉｃａｔｉｏｎ−ＢａｓｅｄＷｏｒｄＩｄｅｎｔｉ
ｆｉｃａｔｉｏｎｆｏｒＭａｎｄａｒｉｎＣｈｉ
ｎｅｓｅＳｅｎｔｅｎｃｅｓ”のように、統合（ｕｎ
ｉｆｉｃａｔｉｏｎ）型パーサにより、多義性解決規則
（ａｍｂｉｇｕｉｔｙｒｅｓｏｌｕｔｉｏｎｒｕｌ
ｅｓ）を提供して、中国語文の単語の抽出問題を解決し
ようとしている。これは、単語を抽出する処理に際し
て、構文及び意味の解析を同時に行うという統合処理方
法を採用しており、不適当な単語の切り出しを避けるこ
とができる。

【０００６】この従来の中国語文解析装置は、図２９の
ように、入力部３１と、図式作成部３２と、単語検索部
３３と、単語抽出多義性処理部３４と、図式解析部３５
と、出力部３６と、辞書３７と、単語規則部３８と、多
義性解決規則部３９と、構文規則部４０と、意味規則部
４１とを備えている。入力部３１は、キーボードなどか
らなり、使用者が入力部１に解析しようとする中国語文
の各文字を入力すると、図式作成部３２が、入力部３１
に入力された中国語文を図式に変換する。すなわち、入
力された文にｎ個の文字があれば、図式作成部３２がｎ
＋１個の位置を生成する。上記“大学生活很有趣”とい
う例によれば、図式作成部３２が下記のように８個の位
置を生成する。

【０００７】＊大＊学＊生＊活＊很＊有＊趣＊次に単語検索部３３が、辞書３７および単語規則部３８
を参照して、統合手段により、入力された文から単語に
なる可能性のある組を検出する。もし、文字が一音節の
単語であり、また隣接の文字と結合して二音節以上の単
語になり得れば、単語の切り出しの多義性の問題が出て
くる。上記の例において、「大」は一音節の形容詞であ
るが、第２番目の文字の「学」と結合して二音節の名詞
「大学」という単語になり得るし、また第３番目の
「生」とも結合して三音節の名詞「大学生」という単語
になり得るし、さらには第４番目の「活」とも結合して
四音節の名詞「大学生活」という複合名詞にもなり得
る。この多義性の問題については、単語抽出多義性処理
部３４が、多義性解決規則部３９を参照しながら解決す
る。多義性解決規則部３９には図３０に示すような規則
が格納されており、五つ以下の文字を処理することがで
きる。この規則はＬＨＳとＲＨＳとから構成されてお
り、多義性のある文字列をＬＨＳで表示する。結合制限
（ａｓｓｏｃｉａｔｉｖｅｃｏｎｓｔｒａｉｎｔｓ）
により多義性のある文字列をＡ、Ａ’、Ｍ、Ｍ’の四種
類に分ける。隣接の文字と結合して二音節の単語になる
文字はＡとＡ’とに分類され、そのうち入力された文字
列の最後の文字をＡ’として表わす。独立可能な文字は
ＭとＭ’とに分類され、そのうち入力された文字列の最
後の文字をＭ’として表す。従って「大学生活」は第３
０番目規則のＭＭＭＭ’により表わされる。またＲＨＳ
は、多義性のある文字列ＬＨＳに対する単語の抽出結果
を表わす。上記のＭＭＭＭ’という構造には、抽出の結
果としてのＲＨＳが図示のように５種類あり、そのうち
｛２２｝は、第１番目の「大」が第２番目の「学」と
結合し、そして第３番目の「生」が第４番目の「活」と
結合して、それぞれ二文字単語「大学」、「生活」にな
る形式を表わす。

【０００８】次に図式解析部３５が、単語抽出多義性処
理部３４により得られた単語抽出の全ての結果に基づい
て、構文規則部４０及び意味規則部４１に記憶されてい
る情報を参照しながら、構文及び意味の解析を行う。単
語抽出の結果が前に解析された一部の結果を統合するこ
とができる場合は、新しい解析木を生成する。連結でき
ない場合は、単語抽出の結果を削除する。次に出力部３
６が、図式解析部３５により解析された解析木を出力す
る。以上の手順により解析が行われ、機械翻訳や言語処
理などに利用できるようになる。

【０００９】

【発明が解決しようとする課題】上記従来の中国語文解
析装置は、多義性解決規則及び統合方法により単語の切
り出しの多義性を解決しようとする。すなわち多義性を
解決する鍵である多義性解決規則部３９が、ただ単語の
情報だけにより、入力された文字が一音節の単語である
か多音節の単語であるかを判断する。ところが中国語
は、一音節の単語である文字が、ほとんど隣接の文字と
結合して二音節以上の単語になり得る。例えば「晩」と
いう字は、形容詞としては一音節の単語であるが、「晩
上」という単語の「晩」は一音節の単語と見なすことが
できない。このため、中国語文の単語を抽出するには、
隣接の文字とも一緒に検索しなければ、「晩」だけによ
り一音節の単語であるか否かを判断することができな
い。つまり、ある文字が四文字の単語の第１番目を占め
ている場合は、後の三文字も同時に検索しなければなら
ない。従って上記従来の中国語文解析装置では、上記一
音節の単語及び多音節の単語に対する多義性問題を良好
に解決できないという問題があった。また、単語抽出多
義性処理部３４で得られた全ての単語抽出結果に対して
図式解析部３５により構文及び意味の解析を行わなけれ
ば、不適格な単語抽出結果を削除できない。すなわち、
解析された解析木を文脈情報として利用しないため、予
め不適当な単語抽出結果を減らすことができないという
問題もあった。さらには、単語の切り出しの多義性の問
題を解析処理で一緒に解決しているが、単語抽出に際し
ては単語情報しか利用しないので、文字が一音節の単語
であるか否かを判断し難い。

【００１０】本発明はかかる事情に鑑みて成されたもの
であり、単語をより正確に抽出でき、しかも多義性問題
を良好に解決できる中国語文解析方法および中国語文解
析装置を提供することを目的とする。

【００１１】

【課題を解決するための手段】請求項１の発明は、中国
語の各単語の形態素と構文と意味とからなる単語要素情
報を木構造で記憶している辞書と、子解析木を記憶する
子解析木記憶部とを用いて、前記子解析木記憶部から音
節数が一番多い子解析木を取り出し、その子解析木に基
づいて、入力された中国語文字列から次の未処理の音節
を選び出す子解析木／音節選択ステップと、前記辞書に
記憶されている単語の使用頻度と文脈情報と長辞優先法
則とに基づいて適当な単語と品詞と構文次分類と意味と
を抽出する単語多義性処理ステップと、前記辞書に記憶
されている単語情報と予め記憶している構文および意味
の文法規則とに基づいて、前記子解析木／音節選択部に
より選び出された音節数が一番多い子解析木及び未処理
の音節について構文解析及び意味解析を行い、多義性問
題があれば前記単語多義性処理ステップで処理させ、よ
り大きい子解析木を生成して前記子解析木記憶部に格納
するかあるいは出力する解析ステップとを実行すること
を特徴としている。

【００１２】請求項２の発明は、中国語の各単語の形態
素と構文と意味とからなる単語要素情報を木構造で記憶
している辞書と、子解析木を記憶する子解析木記憶部
と、この子解析木記憶部から音節数が一番多い子解析木
を取り出し、その子解析木に基づいて、入力された中国
語文字列から次の未処理の音節を選び出す子解析木／音
節選択部と、前記辞書に記憶されている単語の使用頻度
と文脈情報と長辞優先法則とに基づいて適当な単語と品
詞と構文次分類と意味とを抽出する単語多義性処理部
と、前記辞書に記憶されている単語情報と予め記憶して
いる構文および意味の文法規則とに基づいて、前記子解
析木／音節選択部により選び出された音節数が一番多い
子解析木及び未処理の音節について構文解析及び意味解
析を行い、多義性問題があれば前記単語多義性処理部に
処理させ、より大きい子解析木を生成して前記子解析木
記憶部に格納するかあるいは出力する解析部とを備えた
ことを特徴としている。

【００１３】

【作用】請求項１の発明においては、子解析木／音節選
択ステップで、子解析木記憶部から音節数が一番多い子
解析木を取り出し、その子解析木に基づいて、入力され
た中国語文字列から次の未処理の音節を選び出し、単語
多義性処理ステップで、辞書に記憶されている単語の使
用頻度と文脈情報と長辞優先法則とに基づいて適当な単
語と品詞と構文次分類と意味とを抽出し、解析ステップ
で、辞書に記憶されている単語情報と予め記憶している
構文および意味の文法規則とに基づいて、子解析木／音
節選択部により選び出された音節数が一番多い子解析木
及び未処理の音節について構文解析及び意味解析を行
い、多義性問題があれば単語多義性処理ステップで処理
させ、より大きい子解析木を生成して子解析木記憶部に
格納するかあるいは出力する。

【００１４】請求項２の発明において、辞書は、中国語
の各単語の形態素と構文と意味とからなる単語要素情報
を木構造で記憶している。子解析木記憶部は、子解析木
を記憶する。子解析木／音節選択部は、子解析木記憶部
から音節数が一番多い子解析木を取り出し、その子解析
木に基づいて、入力された中国語文字列から次の未処理
の音節を選び出す。単語多義性処理部は、辞書に記憶さ
れている単語の使用頻度と文脈情報と長辞優先法則とに
基づいて適当な単語と品詞と構文次分類と意味とを抽出
する。解析部は、辞書に記憶されている単語情報と予め
記憶している構文および意味の文法規則とに基づいて、
子解析木／音節選択部により選び出された音節数が一番
多い子解析木及び未処理の音節について構文解析及び意
味解析を行い、多義性問題があれば単語多義性処理部に
処理させ、より大きい子解析木を生成して子解析木記憶
部に格納するかあるいは出力する。

【００１５】

【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図１は本発明の一実施例における中国語文解
析装置の構成図で、この中国語文解析装置は、入力部１
と、音節処理部２と、子解析木／音節選択部３と、子解
析木記憶部４と、解析部５と、単語多義性処理部６と、
辞書７と、文法部８と、出力部９とを備えている。入力
部１は、キーボードなどからなり、使用者が解析しよう
とする中国語文の読みを入力するためのものである。音
節処理部２は、入力部１から入力された読み列を文字毎
に分けて、それぞれの音節をリストの形で子解析木／音
節選択部３に渡す。子解析木／音節選択部３は、音節処
理部２により解析された音節がより多い子解析木を子解
析木記憶部４から選び出す。選び出された子解析木に関
する情報が、文脈情報として後の解析部５による解析の
参考になる。さらに子解析木／音節選択部３は、入力さ
れた読み列における次の未処理の音節を選び出す。子解
析木記憶部４は、子解析木を記憶している。解析部５
は、辞書７を検索して、子解析木／音節選択部３により
選び出された音節に対応する単語木（ｗｏｒｄｔｒｅ
ｅ）を取り出す。ここで、一つの音節が一音節単語にも
なり得るし、隣接の音節と結合して複合単語にもなり得
る場合は、単語抽出の多義性問題が生じる。この場合、
解析部５は、子解析木／音節選択部３により選ばれた子
解析木と音節とを単語多義性処理部６に渡し、より適当
な単語を単語多義性処理部６から受け取って、解析処理
を行う。すなわち解析部５は、先ず辞書７に記憶されて
いる単語情報に基づいて、選ばれた単語の品詞、構文次
分類及び意味に多義性があるか否かをチェックする。い
ずれについても多義性がなければ、文法部８に記憶され
ている構文及び意味規則に基づいて解析する。いずれか
について多義性があれば、単語多義性処理部６に渡し、
次の適当な単語を選び、上記の解析処理を繰り返す。そ
して解析部５は、単語多義性処理部６による処理結果と
元の子解析木とに対して、辞書７及び文法部８からの情
報に基づいて構文解析及び意味解析を行う。解析が成功
すれば、その音節を元の子解析木と結合させてより大き
な子解析木にし、子解析木記憶部４に格納する。解析が
失敗すれば、単語多義性処理部６による処理結果を削除
する。実際に解析が成功しても、一つ以上の文法に適す
る解析結果を確保するため、単語多義性処理部６に戻
り、もう一つの結果を取り出して解析を行うようにす
る。全ての入力音節列が解析された後、文法が正しく、
且つ意味のある解析結果を結合して完全な解析木に構成
し、出力部９を介して出力する。単語多義性処理部６
は、辞書７に記憶されている文脈情報（ｃｏｎｔｅｘｔ
ｕａｌｉｎｆｏｒｍａｔｉｏｎ）及び使用頻度（ｆｒ
ｅｑｕｅｎｃｙｏｆｕｓａｇｅ）に基づいて、長辞
優先法則（ＭａｘｉｍａｌＭａｔｃｈｉｎｇ）を利用
し、適当な単語、品詞、構文次分類及び意味を解析部５
に渡す。

【００１６】図２は、子解析木記憶部４に記憶されてい
る子解析木のデータ構造の説明図で、ＲＩＧＨＴフィー
ルドには、文法に適する子解析木及び後の解析に他の単
語と結び付ける情報が記憶されている。Ｓ−ＩＮＤＥＸ
フィールドには、直前に解析された音節数が記憶されて
いる。ＰＲＥ−ＨＥＡＤフィールドには、子解析木の主
要語（ｈｅａｄ）の前のすべての修飾語の品詞が記憶さ
れている。ＰＯＳＴ−ＨＥＡＤフィールドには、後の解
析に主要語と結合できる品詞の集合が記憶されている。
ＤＥ−ＥＸＩＳＴフィールドには、「的」という字の有
無が記憶されている。Ｅ−ＥＸＩＳＴフィールドには、
主語繰り上げの情報が記憶されている。ＰＲＥ−Ｎ−Ｆ
フィールドには、子解析木の名詞の意味素性値が記憶さ
れている。ＰＯＳＴ−Ｎ−Ｆフィールドには、後の解析
に期待する名詞の意味素性値が記憶されている。ＰＲＥ
−ＳＹＭＢＯＬフィールドには解析されている単語の期
待する主要語の品詞が記憶されている。

【００１７】図３は辞書７に記憶されている単語木の構
造の説明図で、形態素、構文及び意味の三種類の情報は
互いに関連している。つまり、形態素の情報には構文の
情報が含まれ、構文の情報には意味の情報が含まれてい
るという関係がある。音節及びその声調がＰｈｏｎｅに
記憶されている。あるＰｈｏｎｅから始まる一音節及び
多音節の全ての単語を一つの単語木にして、各単語の情
報を別々に記憶している。言い換えれば、単語木は、あ
る音節から始まる一音節単語及び多音節単語の集合であ
る。多音節単語について、第１音節以外の音節がＣ−Ｐ
ｈｏｎｅに記憶されている。多音節単語に対応する文字
列及び使用頻度がそれぞれＣ−Ｗｏｒｄ、Ｆｒｅｑに記
憶されている。形態素がＬｅｘに記憶されている。Ｌｅ
ｘはＣａｔとＳＹＮとを有しており、品詞がＣａｔに記
憶されており、構文の情報がＳＹＮに記憶されている。
ＳＹＮは、Ｓｕｂｊ−Ｒａｉｓｅ（主語繰り上げ）と、
Ｃｏｎｔ（複合動詞、動詞が対応するアーギュメントと
分離されているか否かの情報）と、Ｍｏｖｅ（移動）
と、Ｄｅ（「的」の有無）と、Ｑｓｔ（疑問）と、Ｐｒ
ｏ（空代名詞）と、Ｐｏｓｉｔ（位置）と、Ｓｕｂｃａ
ｔ（構文次分類）と、ＳＥＭとを有している。ＳＥＭ
は、Ｉｎｈ＿Ｆ（単語の本意）と、Ｎｕｍ（単複数）
と、Ｃｏｕｎｔ（数えられる）と、Ｄｅｆ（指定性）
と、Ａｒｇ（アーギュメント）とを有している。Ａｒｇ
は、Ａｒｇ＿Ｐｗｒｄ（対応する格助詞）と、Ａｒｇ−
Ｌｗｒｄ（対応する方向詞）と、Ａｒｇ−ＣＬｗｒｄ
（対応する数量詞）と、Ｃａｓｅ（格）と、Ｆｅａｔｕ
ｒｅ（素性）とを有している。

【００１８】図４はＬＩＳＰ言語で辞書７に記憶されて
いる「笑」という字の単語情報の構造の説明図で、図示
のように、「笑」は１つ以上のＬＥＸ、ＳＹＮ、ＳＥＭ
の情報を有している。図５は文法部８に記憶されている
中国語構文規則のデータ構造の説明図で、Ｃｈｏｍｓｋ
ｙ氏が提唱しているｃｏｎｔｅｘｔ−ｆｒｅｅＸ−Ｂ
ａｒの理論により中国語の構文規則を表したものであ
る。Ｒ０は単語のＢａｒ２の情報を記憶している。図中
の数字「２」は、Ｂａｒ２である修飾語の構文規則を表
示している。Ｒ１，‥は単語のＢａｒ１の情報を記憶し
ている。図中の数字「１」は、Ｂａｒ１である構文次分
類の構文規則を表示している。

【００１９】図６はＬＩＳＰ言語で文法部８に記憶され
ている動詞の構文規則の構造の説明図である。図７は文
法部８に記憶されている名詞および動詞の意味素性値の
データ構造の説明図で、子素性がＦ１に記憶されてお
り、親素性がＦ２に記憶されている。Ｆ１の意味がＦ２
に含められる。１つのＦ１及びＦ２の意味素性値の組み
合わせは１つの意味規則である。中国語の意味規則は、
名詞、動詞を主な対象として設定されたものである。名
詞及び動詞の意味は素性（ｆｅａｔｕｒｅ）で表わすこ
とができるし、全ての素性が図８および図９のように関
連関係を持っている。

【００２０】次に上記中国語文解析装置の動作につい
て、図１０〜図１５のフローチャートを参照しながら説
明する。使用者が入力部１を用いて解析すべき中国語文
を入力すると（ステップＳ１）、音節処理部２が、入力
された中国語文の連続している音節列を文字毎に分ける
（ステップＳ２）。この分割された音節列をＩとする。
次に子解析木／音節選択部３が、第１番目の子解析木を
Ｓ”として子解析木記憶部４に格納する（ステップＳ
３）。次に子解析木／音節選択部３が、子解析木記憶部
４に子解析木が記憶されているか否かを判断する（ステ
ップＳ４）。子解析木が記憶されていなければ、出力部
９が、解析結果をまとめて解析された解析木を出力し
（ステップＳ５）、処理を完了する。ステップＳ４にお
いて子解析木記憶部４に子解析木が記憶されていると判
断すれば、子解析木／音節選択部３が、解析された音節
数が一番多い子解析木ＳＴ１を子解析木記憶部４から取
り出す（ステップＳ６）。次に子解析木／音節選択部３
が、選び出した子解析木ＳＴ１の次の未処理の文字の音
節Ｓ１を音節列Ｉから取り出す（ステップＳ７）。次に
解析部５が、その音節Ｓ１に対応する単語木ＷＴを辞書
７から取り出す（ステップＳ８）。次に解析部５が、そ
の単語木ＷＴには単語の抽出による多義性があるか否か
を判断する（ステップＳ９）。多義性があれば、解析部
５が、全ての単語を単語抽出多義性集合Ａとする（ステ
ップＳ１０）。次に単語多義性処理部６が、より適当な
単語Ｗを選び出す（ステップＳ１１）。次に解析部５
が、その単語Ｗの品詞には多義性があるか否かを判断す
る（ステップＳ１２）。品詞多義性があれば、解析部５
が、その単語の全ての品詞を品詞多義性集合ＣＡＴＳと
する（ステップＳ１３）。次に単語多義性処理部６が、
その品詞多義性集合ＣＡＴＳに基づいて、より適当な品
詞Ｃを取り出す（ステップＳ１４）。次に解析部５が、
文法部８からその単語Ｗに対応する構文規則を取り出す
（ステップＳ１５）。次に解析部５が、取り出した構文
規則をチェックして、解析されている子解析木ＳＴ１と
結合できる構文条件を満たすか否か判断する（ステップ
Ｓ１６）。構文条件を満たせば、解析部５が、その品詞
Ｃを有する単語Ｗには構文次分類多義性があるか否かを
判断する（ステップＳ１７）。構文次分類多義性があれ
ば、解析部５が、その品詞Ｃを有する単語Ｗの全ての構
文次分類を構文次分類多義性集合ＳＹＮＳとする（ステ
ップＳ１８）。次に単語多義性処理部６が、より適当な
構文次分類Ｓを取り出す（ステップＳ１９）。次に解析
部５が、文法部８からその品詞Ｃを有する単語Ｗに対応
する構文規則を取り出す（ステップＳ２０）。次に解析
部５が、取り出された構文規則をチェックして、解析さ
れている子解析木ＳＴ１と結合できる構文条件を満たす
か否か判断する（ステップＳ２１）。結合できれば、解
析部５が、構文次分類Ｓを有する単語Ｗには意味多義性
があるか否か判断する（ステップＳ２２）。意味多義性
があれば、解析部５が、その構文次分類Ｓを有する単語
Ｗの全ての意味を意味多義性集合ＳＥＭＳとする（ステ
ップＳ２３）。次に単語多義性処理部６が、より適当な
意味Ｍを取り出す（ステップＳ２４）。次に解析部５
が、文法部８からその構文次分類Ｓを有する単語Ｗに対
応する意味規則を取り出す（ステップＳ２５）。次に解
析部５が、取り出された意味規則をチェックし、解析さ
れている子解析木ＳＴ１と結合できる意味条件を満たす
か否か判断する（ステップＳ２６）。結合できなけれ
ば、解析部５が、意味多義性集合ＳＥＭＳに他の意味が
あるか否かを判断する（ステップＳ２７）。他の意味が
なければ、解析部５が、構文次分類多義性集合ＳＹＮＳ
にまだ処理していないデータがあるか否か判断する（ス
テップＳ２８）。まだ処理していないデータがなけれ
ば、解析部５が、品詞多義性集合ＣＡＴＳにまだ処理し
ていないデータがあるか否か判断する（ステップＳ２
９）。まだ処理していないデータがなければ、解析部５
が、単語抽出多義性集合ＷＴにまだ処理していないデー
タがあるか否か判断する（ステップＳ３０）。まだ処理
していないデータがなければ、ステップＳ４に戻る。

【００２１】ステップＳ９において単語抽出多義性がな
いと判断すれば、ステップＳ１２に進む。ステップＳ１
２において品詞多義性がないと判断すれば、ステップＳ
１５に進む。ステップＳ１６において解析されている子
解析木ＳＴ１と結合できる構文条件を満たさないと判断
すれば、ステップＳ２９に進む。ステップＳ１７におい
て構文次分類多義性がないと判断すれば、ステップＳ２
０に進む。ステップＳ２１において解析されている子解
析木ＳＴ１と結合できる構文条件を満たさないと判断す
れば、ステップＳ２８に進む。ステップＳ２２において
意味多義性がないと判断すれば、ステップＳ２５に進
む。ステップＳ２６において解析されている子解析木Ｓ
Ｔ１と結合できる意味条件を満たすと判断すれば、解析
部５が、文末であるか否かを判断し（ステップＳ３
１）、文末であれば、子解析木ＳＴ１を単語Ｗと結合
し、解析が終わった完全な子解析木を子解析木記憶部４
に格納する（ステップＳ３２）。文末でなければ、解析
部５が、子解析木ＳＴ１を単語Ｗと結合し、この新しい
子解析木を子解析木記憶部４に格納する（ステップＳ３
３）。ステップＳ３２あるいはステップＳ３３の後、解
析部５が、単語木ＷＴにいずれかの多義性があるか否か
を判断する（ステップＳ３４）。多義性があれば、ステ
ップＳ２７に戻る。多義性がなければ、ステップＳ４に
戻る。ステップＳ２７において他の意味があると判断す
れば、ステップＳ２４に戻る。ステップＳ２８において
構文次分類多義性集合ＳＹＮＳにまだ処理していないデ
ータがあると判断すれば、ステップＳ１９に戻る。ステ
ップＳ２９において品詞多義性集合ＣＡＴＳにまだ処理
していないデータがあると判断すれば、ステップＳ１４
に戻る。ステップＳ３０において単語抽出多義性集合Ｗ
Ｔにまだ処理していないデータがあると判断すれば、ス
テップＳ１１に戻る。

【００２２】次に単語多義性処理部６の動作の詳細につ
いて、図１６のフローチャートを参照しながら説明す
る。先ず選び出された子解析木ＳＴ１が文脈情報に基づ
いて文脈に合わないか否かを判断する（ステップＳ４
１）。文脈に合わなければ、制限条件により、適当では
ない単語を単語抽出多義性集合Ａから削除する（ステッ
プＳ４２）。次に、文脈の制限条件に合う単語が単語抽
出多義性集合Ａにおいて単一すなわち１つであるか否か
を判断する（ステップＳ４３）。１つであれば、その単
語抽出多義性集合Ａすなわち単語を解析部５に渡し（ス
テップＳ４４）、動作を終了する。ステップＳ４１にお
いて選び出された子解析木ＳＴ１が文脈情報に基づいて
文脈に合うと判断した場合、およびステップＳ４３にお
いて文脈の制限条件に合う単語が１つでないと判断した
場合、単語抽出多義性集合Ａに単語木ＷＴがあるか否か
を判断する（ステップＳ４５）。単語木ＷＴがあれば、
長辞優先法則に基づいて単語抽出多義性集合Ａから音節
が一番多い単語を選び出してＡとする（ステップＳ４
６）。次に、単語抽出多義性集合Ａの要素が単一すなわ
ち１つの解析中間結果であるか否かを判断する（ステッ
プＳ４７）。単一の解析中間結果でなければ、単語抽出
多義性集合Ａから使用頻度が一番高い単語を選び出し、
解析部５に渡して動作を終了する。ステップＳ４５にお
いて単語抽出多義性集合Ａに単語木ＷＴがないと判断す
れば、ステップＳ４７に進む。ステップＳ４７において
１つの解析中間結果であると判断すれば、ステップＳ４
４に進む。

【００２３】次に上記中国語文解析装置の具体的な動作
を、「大学生活很有趣」という中国語文を解析する例に
ついて説明する。入力部１に中国語音節列［ｄａ４ｘｕ
ｅ２ｓｈｅｎｇ１ｈｕｏ２ｈｅｎ３ｙｏｕ３ｑｕ４］が
入力されると、音節処理部２がその中国語音節列を文字
毎に分け、［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ
２ｈｅｎ３ｙｏｕ３ｑｕ４］のように７つの一音
節の列が得られる。これにより子解析木／音節選択部３
が、子解析木記憶部４から図１７のような初期の子解析
木Ｓ”を取り出すと共に、第１番目の音節［ｄａ４］を
選び出す。これにより解析部５が、辞書７から図１８の
ような［ｄａ４］の単語木を選び出し、ＷＴで表示す
る。以上の処理動作は図１０および図１１のステップＳ
１からステップＳ８に相当する。そして解析部５がその
単語木ＷＴには単語抽出多義性があると判断すると（図
１１のステップＳ９）、全ての形態素を単語抽出多義性
集合Ａにする（図１１のステップＳ１０）。これにより
単語多義性処理部６が、単語抽出多義性について処理を
行う（図１１のステップＳ１１）。すなわち、初期の子
解析木ＳＴ１には文脈情報に制限されていないと判断す
ると（図１６のステップＳ４１）、長辞優先法則を利用
して［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２］「大学生
活」という一番長い単語を取り出す（図１６のステップ
Ｓ４５，Ｓ４６）。解析部５は、図１１，１２，１３の
ステップＳ１２，Ｓ１７，Ｓ２２において、その単語に
は品詞、構文次分類及び意味による多義性がないと判断
するので、文法部８から「大学生活」に適する名詞接続
規則、意味規則を取り出し（図１２および図１３のステ
ップＳ１５，Ｓ２０，Ｓ２５）、図１９および図２０の
ような子解析木を建てる。図１９は子解析木を木構造で
表したものであり、図２０は子解析木をＬＩＳＰにより
表したものである。次に解析部５が、図１５のステップ
Ｓ３１の判断を行い、［ｄａ４］は文末に置いていない
ので、図２０のような形で、この子解析を子解析木記憶
部４に格納する（図１５のステップＳ３３）。そして、
この単語木にはまだ単語抽出多義性があると判断すると
（図１５のステップＳ３４）、単語多義性処理部６が、
［ｄａ４ｘｕｅ２ｓｈｅｎｇ１］「大学生」、［ｄａ４
ｘｕｅ２］「大学」、［ｄａ４］「大」という順に処理
し、処理した子解析木を子解析木記憶部４に格納する
（図１１のステップＳ１１）。これにより解析部５が、
子解析木記憶部４から解析された音節が一番多い図２０
のような子解析木を取り出す（図１２のステップＳ１
６）。この子解析木を文脈情報とする。ここまで、既
に、４つの音節を処理した。次に解析部５が、未処理の
音節［ｈｅｎ３］を取り出す。辞書７に基づいて、［ｈ
ｅｎ３］に対応する単語は図２１のように「很」と
「狠」とがあることを知る。従って、単語多義性処理部
６が、図２０のような子解析木の文脈情報に基づいて判
断する（図１６のステップＳ４１）。「很」と「狠」と
の双方が「大学生活」の文脈情報に合っているので、図
１６のステップＳ４２では削除しないが、図１３のステ
ップＳ２６の意味解析によると、「狠」は生き物の主語
（ａｎｉｍａｔｅｓｕｂｊｅｃｔ）が必要で、「大学
生活」は無生物（ｉｎａｎｉｍａｔｅ）であるので、両
方の意味が合わない。したがって、「很」は単一の解析
中間結果になる。図１１のステップＳ１２において
「很」が程度語（ｄｅｇｒｅｅｗｏｒｄ）であるとい
う情報だけを獲得するが、図１２のステップＳ１７によ
れば、「很」には述語形容詞（ｐｒｅｄｉｃａｔｉｖｅ
ａｄｊｅｃｔｉｖｅ）修飾語及び動詞修飾語という２
つの構文次分類の役割を持っていることを検出するの
で、単語多義性処理部６により処理しなければならな
い。従って、図１６のステップＳ４１〜Ｓ４６までの判
断により両方とも文脈情報に適するので、図１６のステ
ップＳ４８により先ず使用頻度がより高い構文次分類で
ある述語形容詞を選び出し、解析部５に渡す。述語形容
詞に対する解析を終えてから、また次の構文次分類の動
詞修飾語を対象として処理する。解析部５は文法部８か
ら程度語の構文規則を取り出して、元の解析木と結合
し、図２２および図２３のような子解析木を子解析木記
憶部４に格納する。まだ未処理の音節があるので、続い
て図１０のステップＳ４の処理に戻り、子解析木記憶部
４から図２２のような子解析木を取り出す（ステップＳ
６）。そして、図１０のステップＳ７において第６番目
の未解析音節［ｙｏｕ３］を選択する。すると、解析部
５は、図１６のように［ｙｏｕ３］に対応する単語木の
情報に基づいて、［ｙｏｕ３］には単語抽出多義性があ
ることを判断すると、単語多義性処理部６に渡し多義性
を処理するようになる。図２２に示す解析木の文脈情報
に合うのは述語形容詞だけであるので、図１６のステッ
プＳ４２において、［ｙｏｕ３］に対応する単語木から
「有趣」という単語を選び出し、解析部５に渡す。次に
構文解析及び意味解析を行うことにより、図２４のよう
な子解析木が得られる。図１５のステップＳ３１におい
て既に文末であると判断した後、解析部５は、図２５の
ような完全な解析木を建てることができるようになる。
子解析木記憶部４にはまだ図２３のような子解析木があ
るので（ステップＳ２８）、図１２のステップＳ１９に
よりこの子解析木を取り出して、図２６の［ｙｏｕ３］
に対応する単語情報に基づいて、文脈情報に合うのは一
音節単語「有」という動詞であることを判断する。そう
解析すると、最後の音節［ｑｕ４］は一音節単語にな
る。図２７に示されている［ｑｕ４］の単語情報による
と、その単語木には品詞が動詞しかないので、構文上
「有」と合わないため、この解析結果を除去する。ま
た、図１４のステップＳ３０により、子解析木記憶部４
にはまだ［ｄａ４ｘｕｅ２ｓｈｅｎｇ１］「大学生」、
［ｄａ４ｘｕｅ２］「大学」、［ｄａ４］「大」という
子解析木があるので、図１１のステップＳ１１に戻り、
順番に上記の動作を行い、そして構文解析と意味解析と
を行うと、これらの子解析木は後の単語の構文あるいは
意味と合わないから、これらの解析結果を削除する。最
後に、図２５に示す子解析木だけが構文も意味も合うの
で、これを出力部９に出力する。

【００２４】このように、中国語の各単語の形態素と構
文と意味とからなる単語要素情報を木構造で記憶してい
る辞書７と、子解析木を記憶する子解析木記憶部４と、
子解析木記憶部４から音節数が一番多い子解析木を取り
出し、その子解析木に基づいて、入力された中国語文字
列から次の未処理の音節を選び出す子解析木／音節選択
部３と、辞書７に記憶されている単語の使用頻度と文脈
情報と長辞優先法則とに基づいて適当な単語と品詞と構
文次分類と意味とを抽出する単語多義性処理部６と、辞
書７に記憶されている単語情報と文法部８に記憶されて
いる構文および意味の文法規則とに基づいて、子解析木
／音節選択部３により選び出された音節数が一番多い子
解析木及び未処理の音節について構文解析及び意味解析
を行い、多義性問題があれば単語多義性処理部６に処理
させ、より大きい子解析木を生成して子解析木記憶部４
に格納するかあるいは出力部９を介して出力する解析部
５とを備えたので、一音節単語と多音節単語との単語抽
出多義性問題を解決できる。また、文法や文脈情報や長
辞優先法則や使用頻度などの情報を利用するので、処理
中に不適当な解析結果を早期に削除できる。また、品詞
や構文次分類や意味による多義性も考慮するので、品質
のよい解析結果を得ることができる。

【００２５】なお、本発明は上記の具体的な構成に限定
されるものではなく、例えば、辞書７に主語や受け身な
どの機能情報をも記憶させておき、処理に際してこれら
の機能情報を利用するように構成してもよい。

【００２６】

【発明の効果】以上説明したように本発明によれば、子
解析木記憶部から音節数が一番多い子解析木を取り出
し、その子解析木に基づいて、入力された中国語文字列
から次の未処理の音節を選び出し、辞書に記憶されてい
る単語の使用頻度と文脈情報と長辞優先法則とに基づい
て適当な単語と品詞と構文次分類と意味とを抽出し、辞
書に記憶されている単語情報と予め記憶している構文お
よび意味の文法規則とに基づいて、子解析木／音節選択
部により選び出された音節数が一番多い子解析木及び未
処理の音節について構文解析及び意味解析を行い、多義
性問題があれば単語多義性処理を行い、より大きい子解
析木を生成して子解析木記憶部に格納するかあるいは出
力するので、単語抽出規則を利用しても解決できない一
音節単語と多音節単語との単語抽出多義性問題を解決す
ることができる。また、文法や文脈情報や長辞優先法則
や使用頻度などの情報を利用するので、処理中に不適当
な解析結果を早期に削除できる。また、品詞や構文次分
類や意味による多義性も考慮するので、品質のよい解析
結果を得ることができる。

【００２７】すなわち、具体的には下記の効果がある。（１）単語抽出に際して、従来の単語抽出規則などのよ
うな特別な処理が不要である。（２）単語抽出による多義性を、形態素や構文や意味の
単語情報と、構文や意味規則の文法情報とにより解決で
きる。

【００２８】（３）単語抽出処理に際して前処理する必
要がなくなり、構文解析及び意味解析と一緒に解析部で
解析することができる。更に、品詞、構文次分類、意味
などによる多義性問題を一緒に解決するため、解析の正
確率が向上する。（４）単語情報及び文法に、文脈情報、長辞優先法則、
使用頻度の三つの制限情報を加えて解析の参照にするこ
とにより、各種類の多義性を解決することができる。

【００２９】（５）解析処理に際して多義性による全て
の可能性が合理であるか否かをチェックすることによ
り、文法及び意味に適する解析結果を全て出力できる。

【図面の簡単な説明】

【図１】本発明の一実施例における中国語文解析装置の
構成図である。

【図２】子解析木記憶部のデータ構造の説明図である。

【図３】辞書に記憶されている単語木のデータ構造の説
明図である。

【図４】辞書に記憶されている「笑」という字の単語木
のデータ構造の説明図である。

【図５】文法部に記憶されている文法規則のデータ構造
の説明図である。

【図６】文法部に記憶されている動詞のデータ構造をＬ
ＩＳＰ言語で表した説明図である。

【図７】文法部に記憶されている名詞及び動詞の意味素
性値のデータ構造の説明図である。

【図８】文法部に記憶されている名詞の意味素性値の木
構造のデータ構造の説明図である。

【図９】文法部に記憶されている動詞の意味素性値の木
構造のデータ構造の説明図である。

【図１０】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。

【図１１】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。

【図１２】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。

【図１３】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。

【図１４】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。

【図１５】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。

【図１６】単語多義性処理部の動作を説明するフローチ
ャートである。

【図１７】子解析木記憶部に記憶される初期子解析木の
説明図である。

【図１８】辞書に記憶されている音節［ｄａ４］に対応
する単語木のデータ構造をＬＩＳＰ言語で表した説明図
である。

【図１９】［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２］の
解析により生成された子解析木の木構造の説明図であ
る。

【図２０】［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２］の
解析により生成された子解析木をＬＩＳＰ言語で表した
説明図である。

【図２１】辞書に記憶されている音節［ｈｅｎ３］に対
応する単語木のデータ構造をＬＩＳＰ言語で表した説明
図である。

【図２２】［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２ｈｅ
ｎ３］の解析により生成された子解析木の木構造の説明
図である。

【図２３】［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２ｈｅ
ｎ３］の解析により生成された子解析木の木構造の説明
図である。

【図２４】［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２ｈｅ
ｎ３ｙｏｕ３ｑｕ４］の解析により生成された子解析木
の木構造の説明図である。

【図２５】［ｄａ４ｘｕｅ２ｓｈｅｎｇ１ｈｕｏ２ｈｅ
ｎ３ｙｏｕ３ｑｕ４］の解析により得られた完全な子解
析木の木構造の説明図である。

【図２６】辞書に記憶されている音節［ｙｏｕ３］に対
応する単語木のデータ構造をＬＩＳＰ言語で表した説明
図である。

【図２７】辞書に記憶されている音節［ｑｕ４］に対応
する単語木のデータ構造をＬＩＳＰ言語で表した説明図
である。

【図２８】一般的な解析木の説明図である。

【図２９】従来の中国語文解析装置の構成図である。

【図３０】多義性解決規則部に記憶されている規則の説
明図である。

【符号の説明】

３子解析木／音節選択部４子解析木記憶部５解析部６単語多義性処理部７辞書

───────────────────────────────────────────────────── フロントページの続き (72)発明者歐陽彦一台湾タイ・ペイ・シ・ター・アン・チー・10628・レン・アイ・ル・サン・トォアン・136・ハオ・10・ロウスン・シャ・ティエン・チ・チ・シュー・カイ・ファー・クゥー・フェン・ユウ・シエン・コン・スー内 (56)参考文献特開平１−185766（ＪＰ，Ａ) 特開平３−171366（ＪＰ，Ａ) 特開昭61−204771（ＪＰ，Ａ) 特開平１−287771（ＪＰ，Ａ) 笵莉馨、外３名，”中日機械翻訳における構文構造の特徴に着目した訳文の生成”，電子情報通信学会技術研究報告, 電子通信情報学会，1991年10月24日，第 91巻，第298号，ｐ．25−32（ＰＲＵ91 −65，ＮＬＣ91−30) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/27 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】中国語の各単語の形態素と構文と意味と
からなる単語要素情報を木構造で記憶している辞書と、
子解析木を記憶する子解析木記憶部とを用いて、前記子解析木記憶部から音節数が一番多い子解析木を取
り出し、その子解析木に基づいて、入力された中国語文
字列から次の未処理の音節を選び出す子解析木／音節選
択ステップと、前記辞書に記憶されている単語の使用頻度と文脈情報と
長辞優先法則とに基づいて適当な単語と品詞と構文次分
類と意味とを抽出する単語多義性処理ステップと、前記辞書に記憶されている単語情報と予め記憶している
構文および意味の文法規則とに基づいて、前記子解析木
／音節選択部により選び出された音節数が一番多い子解
析木及び未処理の音節について構文解析及び意味解析を
行い、多義性問題があれば前記単語多義性処理ステップ
で処理させ、より大きい子解析木を生成して前記子解析
木記憶部に格納するかあるいは出力する解析ステップと
を実行することを特徴とする中国語文解析方法。
【請求項２】中国語の各単語の形態素と構文と意味と
からなる単語要素情報を木構造で記憶している辞書と、子解析木を記憶する子解析木記憶部と、前記子解析木記憶部から音節数が一番多い子解析木を取
り出し、その子解析木に基づいて、入力された中国語文
字列から次の未処理の音節を選び出す子解析木／音節選
択部と、前記辞書に記憶されている単語の使用頻度と文脈情報と
長辞優先法則とに基づいて適当な単語と品詞と構文次分
類と意味とを抽出する単語多義性処理部と、前記辞書に記憶されている単語情報と予め記憶している
構文および意味の文法規則とに基づいて、前記子解析木
／音節選択部により選び出された音節数が一番多い子解
析木及び未処理の音節について構文解析及び意味解析を
行い、多義性問題があれば前記単語多義性処理部に処理
させ、より大きい子解析木を生成して前記子解析木記憶
部に格納するかあるいは出力する解析部とを備えたこと
を特徴とする中国語文解析装置。