JP3058511B2 - 中国語文解析方法および中国語文解析装置 - Google Patents

中国語文解析方法および中国語文解析装置

Info

Publication number
JP3058511B2
JP3058511B2 JP4174514A JP17451492A JP3058511B2 JP 3058511 B2 JP3058511 B2 JP 3058511B2 JP 4174514 A JP4174514 A JP 4174514A JP 17451492 A JP17451492 A JP 17451492A JP 3058511 B2 JP3058511 B2 JP 3058511B2
Authority
JP
Japan
Prior art keywords
word
child
parse tree
analysis
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4174514A
Other languages
English (en)
Other versions
JPH0619961A (ja
Inventor
嘉慧 徐
彦一 歐陽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP4174514A priority Critical patent/JP3058511B2/ja
Priority to TW81106766A priority patent/TW226446B/zh
Publication of JPH0619961A publication Critical patent/JPH0619961A/ja
Application granted granted Critical
Publication of JP3058511B2 publication Critical patent/JP3058511B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、中国語文を解析する中
国語文解析方法および中国語文解析装置に関するもので
ある。
【0002】
【従来の技術】コンピュータにより中国語を理解するに
は、優れた中国語文パーサが必要である。つまり、中国
語文を解析するには、形態素(morphology)
や構文(syntax)や意味(semantics)
や語用(pragmatics)などによる異なった中
国語文の現象を扱わなければならず、これらの言語現象
は解析に際して多大なあいまい性が発生する原因となっ
ているので、パーサにより逐一解決しなければならな
い。したがって、中国語文解析装置を開発するには、先
ず単語抽出、品詞、構文次分類及び意味などによる多義
性を解決する必要がある。例えば、“大学生活很有趣”
という文は、以下の5通りの構造に分けられる可能性が
ある。
【0003】(1)大‥学‥生‥活‥很‥有‥趣。 (2)大‥学生‥活‥很‥有趣。 (3)大‥学‥生活‥很‥有趣。 (4)大学生‥活‥很‥有趣。 (5)大学生活‥很‥有趣。
【0004】入力された音節列や文字列でも単語間の切
れ目のないべた書きである中国語文に対して、パーサ
は、先ず音節列や文字列を意味のある単語毎に分けてか
ら、形態素、構文、意味の解析を行わなければならな
い。言い換えれば、パーサの主な作業は、図28のよう
に、入力された中国語文を単語毎に区切って、各ノード
が各単語を持つ解析木を生成することである。上記の七
つの文字から構成された文は、少なくとも五つの単語の
切り出し方がある。異なる単語の切り出し方により、品
詞、構文次分類、意味などによる多義も異なってくる。
上記(1)の切り出し方によれば、第6字目の文字
「有」は、動詞である上に、アスペクト素性も持ってい
る。動詞としては「所有」という意味を表わし、アスペ
クトとしては「完成」という意味を表わす。また、動詞
としては他動詞(transitiveverb)、自
動詞(intransitive verb)のいずれ
にもなり得る。上記(2)および(5)の切り出し方に
よれば、「有」が次の文字の「趣」と結合して二音節の
単語になるので、上記(1)のような多義性がない。上
記の説明から判るように、適当でない単語の抽出は多義
性問題を莫大に増やす可能性があるので、形態素、構
文、意味の解析による単語の切り出しはパージングの手
がかりであるといえる。単語の切り出しはパージングの
第一歩である上に、これからの構文解析や意味解析など
のパージングにも大切な影響を与える。
【0005】従って、中国語の単語の多義性問題を解決
するために、研究者たちは、単語を如何に有効に抽出す
るかに重点を置いている。この課題を解決するために、
従来の中国語文解析装置は、例えばYeh,Lee,&
Tsaiが1990 International
Conference on Computer Pr
ocessing of Chinese and O
riental Languagesの論文集(P27
〜P32,1990年4月)により提案した“Unif
ication−Based Word Identi
fication for Mandarin Chi
nese Sentences”のように、統合(un
ification)型パーサにより、多義性解決規則
(ambiguity resolution rul
es)を提供して、中国語文の単語の抽出問題を解決し
ようとしている。これは、単語を抽出する処理に際し
て、構文及び意味の解析を同時に行うという統合処理方
法を採用しており、不適当な単語の切り出しを避けるこ
とができる。
【0006】この従来の中国語文解析装置は、図29の
ように、入力部31と、図式作成部32と、単語検索部
33と、単語抽出多義性処理部34と、図式解析部35
と、出力部36と、辞書37と、単語規則部38と、多
義性解決規則部39と、構文規則部40と、意味規則部
41とを備えている。入力部31は、キーボードなどか
らなり、使用者が入力部1に解析しようとする中国語文
の各文字を入力すると、図式作成部32が、入力部31
に入力された中国語文を図式に変換する。すなわち、入
力された文にn個の文字があれば、図式作成部32がn
+1個の位置を生成する。上記“大学生活很有趣”とい
う例によれば、図式作成部32が下記のように8個の位
置を生成する。
【0007】*大*学*生*活*很*有*趣* 次に単語検索部33が、辞書37および単語規則部38
を参照して、統合手段により、入力された文から単語に
なる可能性のある組を検出する。もし、文字が一音節の
単語であり、また隣接の文字と結合して二音節以上の単
語になり得れば、単語の切り出しの多義性の問題が出て
くる。上記の例において、「大」は一音節の形容詞であ
るが、第2番目の文字の「学」と結合して二音節の名詞
「大学」という単語になり得るし、また第3番目の
「生」とも結合して三音節の名詞「大学生」という単語
になり得るし、さらには第4番目の「活」とも結合して
四音節の名詞「大学生活」という複合名詞にもなり得
る。この多義性の問題については、単語抽出多義性処理
部34が、多義性解決規則部39を参照しながら解決す
る。多義性解決規則部39には図30に示すような規則
が格納されており、五つ以下の文字を処理することがで
きる。この規則はLHSとRHSとから構成されてお
り、多義性のある文字列をLHSで表示する。結合制限
(associative constraints)
により多義性のある文字列をA、A’、M、M’の四種
類に分ける。隣接の文字と結合して二音節の単語になる
文字はAとA’とに分類され、そのうち入力された文字
列の最後の文字をA’として表わす。独立可能な文字は
MとM’とに分類され、そのうち入力された文字列の最
後の文字をM’として表す。従って「大学生活」は第3
0番目規則のMMMM’により表わされる。またRHS
は、多義性のある文字列LHSに対する単語の抽出結果
を表わす。上記のMMMM’という構造には、抽出の結
果としてのRHSが図示のように5種類あり、そのうち
{2 2}は、第1番目の「大」が第2番目の「学」と
結合し、そして第3番目の「生」が第4番目の「活」と
結合して、それぞれ二文字単語「大学」、「生活」にな
る形式を表わす。
【0008】次に図式解析部35が、単語抽出多義性処
理部34により得られた単語抽出の全ての結果に基づい
て、構文規則部40及び意味規則部41に記憶されてい
る情報を参照しながら、構文及び意味の解析を行う。単
語抽出の結果が前に解析された一部の結果を統合するこ
とができる場合は、新しい解析木を生成する。連結でき
ない場合は、単語抽出の結果を削除する。次に出力部3
6が、図式解析部35により解析された解析木を出力す
る。以上の手順により解析が行われ、機械翻訳や言語処
理などに利用できるようになる。
【0009】
【発明が解決しようとする課題】上記従来の中国語文解
析装置は、多義性解決規則及び統合方法により単語の切
り出しの多義性を解決しようとする。すなわち多義性を
解決する鍵である多義性解決規則部39が、ただ単語の
情報だけにより、入力された文字が一音節の単語である
か多音節の単語であるかを判断する。ところが中国語
は、一音節の単語である文字が、ほとんど隣接の文字と
結合して二音節以上の単語になり得る。例えば「晩」と
いう字は、形容詞としては一音節の単語であるが、「晩
上」という単語の「晩」は一音節の単語と見なすことが
できない。このため、中国語文の単語を抽出するには、
隣接の文字とも一緒に検索しなければ、「晩」だけによ
り一音節の単語であるか否かを判断することができな
い。つまり、ある文字が四文字の単語の第1番目を占め
ている場合は、後の三文字も同時に検索しなければなら
ない。従って上記従来の中国語文解析装置では、上記一
音節の単語及び多音節の単語に対する多義性問題を良好
に解決できないという問題があった。また、単語抽出多
義性処理部34で得られた全ての単語抽出結果に対して
図式解析部35により構文及び意味の解析を行わなけれ
ば、不適格な単語抽出結果を削除できない。すなわち、
解析された解析木を文脈情報として利用しないため、予
め不適当な単語抽出結果を減らすことができないという
問題もあった。さらには、単語の切り出しの多義性の問
題を解析処理で一緒に解決しているが、単語抽出に際し
ては単語情報しか利用しないので、文字が一音節の単語
であるか否かを判断し難い。
【0010】本発明はかかる事情に鑑みて成されたもの
であり、単語をより正確に抽出でき、しかも多義性問題
を良好に解決できる中国語文解析方法および中国語文解
析装置を提供することを目的とする。
【0011】
【課題を解決するための手段】請求項1の発明は、中国
語の各単語の形態素と構文と意味とからなる単語要素情
報を木構造で記憶している辞書と、子解析木を記憶する
子解析木記憶部とを用いて、前記子解析木記憶部から音
節数が一番多い子解析木を取り出し、その子解析木に基
づいて、入力された中国語文字列から次の未処理の音節
を選び出す子解析木/音節選択ステップと、前記辞書に
記憶されている単語の使用頻度と文脈情報と長辞優先法
則とに基づいて適当な単語と品詞と構文次分類と意味と
を抽出する単語多義性処理ステップと、前記辞書に記憶
されている単語情報と予め記憶している構文および意味
の文法規則とに基づいて、前記子解析木/音節選択部に
より選び出された音節数が一番多い子解析木及び未処理
の音節について構文解析及び意味解析を行い、多義性問
題があれば前記単語多義性処理ステップで処理させ、よ
り大きい子解析木を生成して前記子解析木記憶部に格納
するかあるいは出力する解析ステップとを実行すること
を特徴としている。
【0012】請求項2の発明は、中国語の各単語の形態
素と構文と意味とからなる単語要素情報を木構造で記憶
している辞書と、子解析木を記憶する子解析木記憶部
と、この子解析木記憶部から音節数が一番多い子解析木
を取り出し、その子解析木に基づいて、入力された中国
語文字列から次の未処理の音節を選び出す子解析木/音
節選択部と、前記辞書に記憶されている単語の使用頻度
と文脈情報と長辞優先法則とに基づいて適当な単語と品
詞と構文次分類と意味とを抽出する単語多義性処理部
と、前記辞書に記憶されている単語情報と予め記憶して
いる構文および意味の文法規則とに基づいて、前記子解
析木/音節選択部により選び出された音節数が一番多い
子解析木及び未処理の音節について構文解析及び意味解
析を行い、多義性問題があれば前記単語多義性処理部に
処理させ、より大きい子解析木を生成して前記子解析木
記憶部に格納するかあるいは出力する解析部とを備えた
ことを特徴としている。
【0013】
【作用】請求項1の発明においては、子解析木/音節選
択ステップで、子解析木記憶部から音節数が一番多い子
解析木を取り出し、その子解析木に基づいて、入力され
た中国語文字列から次の未処理の音節を選び出し、単語
多義性処理ステップで、辞書に記憶されている単語の使
用頻度と文脈情報と長辞優先法則とに基づいて適当な単
語と品詞と構文次分類と意味とを抽出し、解析ステップ
で、辞書に記憶されている単語情報と予め記憶している
構文および意味の文法規則とに基づいて、子解析木/音
節選択部により選び出された音節数が一番多い子解析木
及び未処理の音節について構文解析及び意味解析を行
い、多義性問題があれば単語多義性処理ステップで処理
させ、より大きい子解析木を生成して子解析木記憶部に
格納するかあるいは出力する。
【0014】請求項2の発明において、辞書は、中国語
の各単語の形態素と構文と意味とからなる単語要素情報
を木構造で記憶している。子解析木記憶部は、子解析木
を記憶する。子解析木/音節選択部は、子解析木記憶部
から音節数が一番多い子解析木を取り出し、その子解析
木に基づいて、入力された中国語文字列から次の未処理
の音節を選び出す。単語多義性処理部は、辞書に記憶さ
れている単語の使用頻度と文脈情報と長辞優先法則とに
基づいて適当な単語と品詞と構文次分類と意味とを抽出
する。解析部は、辞書に記憶されている単語情報と予め
記憶している構文および意味の文法規則とに基づいて、
子解析木/音節選択部により選び出された音節数が一番
多い子解析木及び未処理の音節について構文解析及び意
味解析を行い、多義性問題があれば単語多義性処理部に
処理させ、より大きい子解析木を生成して子解析木記憶
部に格納するかあるいは出力する。
【0015】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図1は本発明の一実施例における中国語文解
析装置の構成図で、この中国語文解析装置は、入力部1
と、音節処理部2と、子解析木/音節選択部3と、子解
析木記憶部4と、解析部5と、単語多義性処理部6と、
辞書7と、文法部8と、出力部9とを備えている。入力
部1は、キーボードなどからなり、使用者が解析しよう
とする中国語文の読みを入力するためのものである。音
節処理部2は、入力部1から入力された読み列を文字毎
に分けて、それぞれの音節をリストの形で子解析木/音
節選択部3に渡す。子解析木/音節選択部3は、音節処
理部2により解析された音節がより多い子解析木を子解
析木記憶部4から選び出す。選び出された子解析木に関
する情報が、文脈情報として後の解析部5による解析の
参考になる。さらに子解析木/音節選択部3は、入力さ
れた読み列における次の未処理の音節を選び出す。子解
析木記憶部4は、子解析木を記憶している。解析部5
は、辞書7を検索して、子解析木/音節選択部3により
選び出された音節に対応する単語木(word tre
e)を取り出す。ここで、一つの音節が一音節単語にも
なり得るし、隣接の音節と結合して複合単語にもなり得
る場合は、単語抽出の多義性問題が生じる。この場合、
解析部5は、子解析木/音節選択部3により選ばれた子
解析木と音節とを単語多義性処理部6に渡し、より適当
な単語を単語多義性処理部6から受け取って、解析処理
を行う。すなわち解析部5は、先ず辞書7に記憶されて
いる単語情報に基づいて、選ばれた単語の品詞、構文次
分類及び意味に多義性があるか否かをチェックする。い
ずれについても多義性がなければ、文法部8に記憶され
ている構文及び意味規則に基づいて解析する。いずれか
について多義性があれば、単語多義性処理部6に渡し、
次の適当な単語を選び、上記の解析処理を繰り返す。そ
して解析部5は、単語多義性処理部6による処理結果と
元の子解析木とに対して、辞書7及び文法部8からの情
報に基づいて構文解析及び意味解析を行う。解析が成功
すれば、その音節を元の子解析木と結合させてより大き
な子解析木にし、子解析木記憶部4に格納する。解析が
失敗すれば、単語多義性処理部6による処理結果を削除
する。実際に解析が成功しても、一つ以上の文法に適す
る解析結果を確保するため、単語多義性処理部6に戻
り、もう一つの結果を取り出して解析を行うようにす
る。全ての入力音節列が解析された後、文法が正しく、
且つ意味のある解析結果を結合して完全な解析木に構成
し、出力部9を介して出力する。単語多義性処理部6
は、辞書7に記憶されている文脈情報(context
ual information)及び使用頻度(fr
equency of usage)に基づいて、長辞
優先法則(Maximal Matching)を利用
し、適当な単語、品詞、構文次分類及び意味を解析部5
に渡す。
【0016】図2は、子解析木記憶部4に記憶されてい
る子解析木のデータ構造の説明図で、RIGHTフィー
ルドには、文法に適する子解析木及び後の解析に他の単
語と結び付ける情報が記憶されている。S−INDEX
フィールドには、直前に解析された音節数が記憶されて
いる。PRE−HEADフィールドには、子解析木の主
要語(head)の前のすべての修飾語の品詞が記憶さ
れている。POST−HEADフィールドには、後の解
析に主要語と結合できる品詞の集合が記憶されている。
DE−EXISTフィールドには、「的」という字の有
無が記憶されている。E−EXISTフィールドには、
主語繰り上げの情報が記憶されている。PRE−N−F
フィールドには、子解析木の名詞の意味素性値が記憶さ
れている。POST−N−Fフィールドには、後の解析
に期待する名詞の意味素性値が記憶されている。PRE
−SYMBOLフィールドには解析されている単語の期
待する主要語の品詞が記憶されている。
【0017】図3は辞書7に記憶されている単語木の構
造の説明図で、形態素、構文及び意味の三種類の情報は
互いに関連している。つまり、形態素の情報には構文の
情報が含まれ、構文の情報には意味の情報が含まれてい
るという関係がある。音節及びその声調がPhoneに
記憶されている。あるPhoneから始まる一音節及び
多音節の全ての単語を一つの単語木にして、各単語の情
報を別々に記憶している。言い換えれば、単語木は、あ
る音節から始まる一音節単語及び多音節単語の集合であ
る。多音節単語について、第1音節以外の音節がC−P
honeに記憶されている。多音節単語に対応する文字
列及び使用頻度がそれぞれC−Word、Freqに記
憶されている。形態素がLexに記憶されている。Le
xはCatとSYNとを有しており、品詞がCatに記
憶されており、構文の情報がSYNに記憶されている。
SYNは、Subj−Raise(主語繰り上げ)と、
Cont(複合動詞、動詞が対応するアーギュメントと
分離されているか否かの情報)と、Move(移動)
と、De(「的」の有無)と、Qst(疑問)と、Pr
o(空代名詞)と、Posit(位置)と、Subca
t(構文次分類)と、SEMとを有している。SEM
は、Inh_F(単語の本意)と、Num(単複数)
と、Count(数えられる)と、Def(指定性)
と、Arg(アーギュメント)とを有している。Arg
は、Arg_Pwrd(対応する格助詞)と、Arg−
Lwrd(対応する方向詞)と、Arg−CLwrd
(対応する数量詞)と、Case(格)と、Featu
re(素性)とを有している。
【0018】図4はLISP言語で辞書7に記憶されて
いる「笑」という字の単語情報の構造の説明図で、図示
のように、「笑」は1つ以上のLEX、SYN、SEM
の情報を有している。図5は文法部8に記憶されている
中国語構文規則のデータ構造の説明図で、Chomsk
y氏が提唱しているcontext−free X−B
arの理論により中国語の構文規則を表したものであ
る。R0は単語のBar2の情報を記憶している。図中
の数字「2」は、Bar2である修飾語の構文規則を表
示している。R1,‥は単語のBar1の情報を記憶し
ている。図中の数字「1」は、Bar1である構文次分
類の構文規則を表示している。
【0019】図6はLISP言語で文法部8に記憶され
ている動詞の構文規則の構造の説明図である。図7は文
法部8に記憶されている名詞および動詞の意味素性値の
データ構造の説明図で、子素性がF1に記憶されてお
り、親素性がF2に記憶されている。F1の意味がF2
に含められる。1つのF1及びF2の意味素性値の組み
合わせは1つの意味規則である。中国語の意味規則は、
名詞、動詞を主な対象として設定されたものである。名
詞及び動詞の意味は素性(feature)で表わすこ
とができるし、全ての素性が図8および図9のように関
連関係を持っている。
【0020】次に上記中国語文解析装置の動作につい
て、図10〜図15のフローチャートを参照しながら説
明する。使用者が入力部1を用いて解析すべき中国語文
を入力すると(ステップS1)、音節処理部2が、入力
された中国語文の連続している音節列を文字毎に分ける
(ステップS2)。この分割された音節列をIとする。
次に子解析木/音節選択部3が、第1番目の子解析木を
S”として子解析木記憶部4に格納する(ステップS
3)。次に子解析木/音節選択部3が、子解析木記憶部
4に子解析木が記憶されているか否かを判断する(ステ
ップS4)。子解析木が記憶されていなければ、出力部
9が、解析結果をまとめて解析された解析木を出力し
(ステップS5)、処理を完了する。ステップS4にお
いて子解析木記憶部4に子解析木が記憶されていると判
断すれば、子解析木/音節選択部3が、解析された音節
数が一番多い子解析木ST1を子解析木記憶部4から取
り出す(ステップS6)。次に子解析木/音節選択部3
が、選び出した子解析木ST1の次の未処理の文字の音
節S1を音節列Iから取り出す(ステップS7)。次に
解析部5が、その音節S1に対応する単語木WTを辞書
7から取り出す(ステップS8)。次に解析部5が、そ
の単語木WTには単語の抽出による多義性があるか否か
を判断する(ステップS9)。多義性があれば、解析部
5が、全ての単語を単語抽出多義性集合Aとする(ステ
ップS10)。次に単語多義性処理部6が、より適当な
単語Wを選び出す(ステップS11)。次に解析部5
が、その単語Wの品詞には多義性があるか否かを判断す
る(ステップS12)。品詞多義性があれば、解析部5
が、その単語の全ての品詞を品詞多義性集合CATSと
する(ステップS13)。次に単語多義性処理部6が、
その品詞多義性集合CATSに基づいて、より適当な品
詞Cを取り出す(ステップS14)。次に解析部5が、
文法部8からその単語Wに対応する構文規則を取り出す
(ステップS15)。次に解析部5が、取り出した構文
規則をチェックして、解析されている子解析木ST1と
結合できる構文条件を満たすか否か判断する(ステップ
S16)。構文条件を満たせば、解析部5が、その品詞
Cを有する単語Wには構文次分類多義性があるか否かを
判断する(ステップS17)。構文次分類多義性があれ
ば、解析部5が、その品詞Cを有する単語Wの全ての構
文次分類を構文次分類多義性集合SYNSとする(ステ
ップS18)。次に単語多義性処理部6が、より適当な
構文次分類Sを取り出す(ステップS19)。次に解析
部5が、文法部8からその品詞Cを有する単語Wに対応
する構文規則を取り出す(ステップS20)。次に解析
部5が、取り出された構文規則をチェックして、解析さ
れている子解析木ST1と結合できる構文条件を満たす
か否か判断する(ステップS21)。結合できれば、解
析部5が、構文次分類Sを有する単語Wには意味多義性
があるか否か判断する(ステップS22)。意味多義性
があれば、解析部5が、その構文次分類Sを有する単語
Wの全ての意味を意味多義性集合SEMSとする(ステ
ップS23)。次に単語多義性処理部6が、より適当な
意味Mを取り出す(ステップS24)。次に解析部5
が、文法部8からその構文次分類Sを有する単語Wに対
応する意味規則を取り出す(ステップS25)。次に解
析部5が、取り出された意味規則をチェックし、解析さ
れている子解析木ST1と結合できる意味条件を満たす
か否か判断する(ステップS26)。結合できなけれ
ば、解析部5が、意味多義性集合SEMSに他の意味が
あるか否かを判断する(ステップS27)。他の意味が
なければ、解析部5が、構文次分類多義性集合SYNS
にまだ処理していないデータがあるか否か判断する(ス
テップS28)。まだ処理していないデータがなけれ
ば、解析部5が、品詞多義性集合CATSにまだ処理し
ていないデータがあるか否か判断する(ステップS2
9)。まだ処理していないデータがなければ、解析部5
が、単語抽出多義性集合WTにまだ処理していないデー
タがあるか否か判断する(ステップS30)。まだ処理
していないデータがなければ、ステップS4に戻る。
【0021】ステップS9において単語抽出多義性がな
いと判断すれば、ステップS12に進む。ステップS1
2において品詞多義性がないと判断すれば、ステップS
15に進む。ステップS16において解析されている子
解析木ST1と結合できる構文条件を満たさないと判断
すれば、ステップS29に進む。ステップS17におい
て構文次分類多義性がないと判断すれば、ステップS2
0に進む。ステップS21において解析されている子解
析木ST1と結合できる構文条件を満たさないと判断す
れば、ステップS28に進む。ステップS22において
意味多義性がないと判断すれば、ステップS25に進
む。ステップS26において解析されている子解析木S
T1と結合できる意味条件を満たすと判断すれば、解析
部5が、文末であるか否かを判断し(ステップS3
1)、文末であれば、子解析木ST1を単語Wと結合
し、解析が終わった完全な子解析木を子解析木記憶部4
に格納する(ステップS32)。文末でなければ、解析
部5が、子解析木ST1を単語Wと結合し、この新しい
子解析木を子解析木記憶部4に格納する(ステップS3
3)。ステップS32あるいはステップS33の後、解
析部5が、単語木WTにいずれかの多義性があるか否か
を判断する(ステップS34)。多義性があれば、ステ
ップS27に戻る。多義性がなければ、ステップS4に
戻る。ステップS27において他の意味があると判断す
れば、ステップS24に戻る。ステップS28において
構文次分類多義性集合SYNSにまだ処理していないデ
ータがあると判断すれば、ステップS19に戻る。ステ
ップS29において品詞多義性集合CATSにまだ処理
していないデータがあると判断すれば、ステップS14
に戻る。ステップS30において単語抽出多義性集合W
Tにまだ処理していないデータがあると判断すれば、ス
テップS11に戻る。
【0022】次に単語多義性処理部6の動作の詳細につ
いて、図16のフローチャートを参照しながら説明す
る。先ず選び出された子解析木ST1が文脈情報に基づ
いて文脈に合わないか否かを判断する(ステップS4
1)。文脈に合わなければ、制限条件により、適当では
ない単語を単語抽出多義性集合Aから削除する(ステッ
プS42)。次に、文脈の制限条件に合う単語が単語抽
出多義性集合Aにおいて単一すなわち1つであるか否か
を判断する(ステップS43)。1つであれば、その単
語抽出多義性集合Aすなわち単語を解析部5に渡し(ス
テップS44)、動作を終了する。ステップS41にお
いて選び出された子解析木ST1が文脈情報に基づいて
文脈に合うと判断した場合、およびステップS43にお
いて文脈の制限条件に合う単語が1つでないと判断した
場合、単語抽出多義性集合Aに単語木WTがあるか否か
を判断する(ステップS45)。単語木WTがあれば、
長辞優先法則に基づいて単語抽出多義性集合Aから音節
が一番多い単語を選び出してAとする(ステップS4
6)。次に、単語抽出多義性集合Aの要素が単一すなわ
ち1つの解析中間結果であるか否かを判断する(ステッ
プS47)。単一の解析中間結果でなければ、単語抽出
多義性集合Aから使用頻度が一番高い単語を選び出し、
解析部5に渡して動作を終了する。ステップS45にお
いて単語抽出多義性集合Aに単語木WTがないと判断す
れば、ステップS47に進む。ステップS47において
1つの解析中間結果であると判断すれば、ステップS4
4に進む。
【0023】次に上記中国語文解析装置の具体的な動作
を、「大学生活很有趣」という中国語文を解析する例に
ついて説明する。入力部1に中国語音節列[da4xu
e2sheng1huo2hen3you3qu4]が
入力されると、音節処理部2がその中国語音節列を文字
毎に分け、[da4 xue2 sheng1 huo
2 hen3 you3 qu4]のように7つの一音
節の列が得られる。これにより子解析木/音節選択部3
が、子解析木記憶部4から図17のような初期の子解析
木S”を取り出すと共に、第1番目の音節[da4]を
選び出す。これにより解析部5が、辞書7から図18の
ような[da4]の単語木を選び出し、WTで表示す
る。以上の処理動作は図10および図11のステップS
1からステップS8に相当する。そして解析部5がその
単語木WTには単語抽出多義性があると判断すると(図
11のステップS9)、全ての形態素を単語抽出多義性
集合Aにする(図11のステップS10)。これにより
単語多義性処理部6が、単語抽出多義性について処理を
行う(図11のステップS11)。すなわち、初期の子
解析木ST1には文脈情報に制限されていないと判断す
ると(図16のステップS41)、長辞優先法則を利用
して[da4xue2sheng1huo2]「大学生
活」という一番長い単語を取り出す(図16のステップ
S45,S46)。解析部5は、図11,12,13の
ステップS12,S17,S22において、その単語に
は品詞、構文次分類及び意味による多義性がないと判断
するので、文法部8から「大学生活」に適する名詞接続
規則、意味規則を取り出し(図12および図13のステ
ップS15,S20,S25)、図19および図20の
ような子解析木を建てる。図19は子解析木を木構造で
表したものであり、図20は子解析木をLISPにより
表したものである。次に解析部5が、図15のステップ
S31の判断を行い、[da4]は文末に置いていない
ので、図20のような形で、この子解析を子解析木記憶
部4に格納する(図15のステップS33)。そして、
この単語木にはまだ単語抽出多義性があると判断すると
(図15のステップS34)、単語多義性処理部6が、
[da4xue2sheng1]「大学生」、[da4
xue2]「大学」、[da4]「大」という順に処理
し、処理した子解析木を子解析木記憶部4に格納する
(図11のステップS11)。これにより解析部5が、
子解析木記憶部4から解析された音節が一番多い図20
のような子解析木を取り出す(図12のステップS1
6)。この子解析木を文脈情報とする。ここまで、既
に、4つの音節を処理した。次に解析部5が、未処理の
音節[hen3]を取り出す。辞書7に基づいて、[h
en3]に対応する単語は図21のように「很」と
「狠」とがあることを知る。従って、単語多義性処理部
6が、図20のような子解析木の文脈情報に基づいて判
断する(図16のステップS41)。「很」と「狠」と
の双方が「大学生活」の文脈情報に合っているので、図
16のステップS42では削除しないが、図13のステ
ップS26の意味解析によると、「狠」は生き物の主語
(animate subject)が必要で、「大学
生活」は無生物(inanimate)であるので、両
方の意味が合わない。したがって、「很」は単一の解析
中間結果になる。図11のステップS12において
「很」が程度語(degree word)であるとい
う情報だけを獲得するが、図12のステップS17によ
れば、「很」には述語形容詞(predicative
adjective)修飾語及び動詞修飾語という2
つの構文次分類の役割を持っていることを検出するの
で、単語多義性処理部6により処理しなければならな
い。従って、図16のステップS41〜S46までの判
断により両方とも文脈情報に適するので、図16のステ
ップS48により先ず使用頻度がより高い構文次分類で
ある述語形容詞を選び出し、解析部5に渡す。述語形容
詞に対する解析を終えてから、また次の構文次分類の動
詞修飾語を対象として処理する。解析部5は文法部8か
ら程度語の構文規則を取り出して、元の解析木と結合
し、図22および図23のような子解析木を子解析木記
憶部4に格納する。まだ未処理の音節があるので、続い
て図10のステップS4の処理に戻り、子解析木記憶部
4から図22のような子解析木を取り出す(ステップS
6)。そして、図10のステップS7において第6番目
の未解析音節[you3]を選択する。すると、解析部
5は、図16のように[you3]に対応する単語木の
情報に基づいて、[you3]には単語抽出多義性があ
ることを判断すると、単語多義性処理部6に渡し多義性
を処理するようになる。図22に示す解析木の文脈情報
に合うのは述語形容詞だけであるので、図16のステッ
プS42において、[you3]に対応する単語木から
「有趣」という単語を選び出し、解析部5に渡す。次に
構文解析及び意味解析を行うことにより、図24のよう
な子解析木が得られる。図15のステップS31におい
て既に文末であると判断した後、解析部5は、図25の
ような完全な解析木を建てることができるようになる。
子解析木記憶部4にはまだ図23のような子解析木があ
るので(ステップS28)、図12のステップS19に
よりこの子解析木を取り出して、図26の[you3]
に対応する単語情報に基づいて、文脈情報に合うのは一
音節単語「有」という動詞であることを判断する。そう
解析すると、最後の音節[qu4]は一音節単語にな
る。図27に示されている[qu4]の単語情報による
と、その単語木には品詞が動詞しかないので、構文上
「有」と合わないため、この解析結果を除去する。ま
た、図14のステップS30により、子解析木記憶部4
にはまだ[da4xue2sheng1]「大学生」、
[da4xue2]「大学」、[da4]「大」という
子解析木があるので、図11のステップS11に戻り、
順番に上記の動作を行い、そして構文解析と意味解析と
を行うと、これらの子解析木は後の単語の構文あるいは
意味と合わないから、これらの解析結果を削除する。最
後に、図25に示す子解析木だけが構文も意味も合うの
で、これを出力部9に出力する。
【0024】このように、中国語の各単語の形態素と構
文と意味とからなる単語要素情報を木構造で記憶してい
る辞書7と、子解析木を記憶する子解析木記憶部4と、
子解析木記憶部4から音節数が一番多い子解析木を取り
出し、その子解析木に基づいて、入力された中国語文字
列から次の未処理の音節を選び出す子解析木/音節選択
部3と、辞書7に記憶されている単語の使用頻度と文脈
情報と長辞優先法則とに基づいて適当な単語と品詞と構
文次分類と意味とを抽出する単語多義性処理部6と、辞
書7に記憶されている単語情報と文法部8に記憶されて
いる構文および意味の文法規則とに基づいて、子解析木
/音節選択部3により選び出された音節数が一番多い子
解析木及び未処理の音節について構文解析及び意味解析
を行い、多義性問題があれば単語多義性処理部6に処理
させ、より大きい子解析木を生成して子解析木記憶部4
に格納するかあるいは出力部9を介して出力する解析部
5とを備えたので、一音節単語と多音節単語との単語抽
出多義性問題を解決できる。また、文法や文脈情報や長
辞優先法則や使用頻度などの情報を利用するので、処理
中に不適当な解析結果を早期に削除できる。また、品詞
や構文次分類や意味による多義性も考慮するので、品質
のよい解析結果を得ることができる。
【0025】なお、本発明は上記の具体的な構成に限定
されるものではなく、例えば、辞書7に主語や受け身な
どの機能情報をも記憶させておき、処理に際してこれら
の機能情報を利用するように構成してもよい。
【0026】
【発明の効果】以上説明したように本発明によれば、子
解析木記憶部から音節数が一番多い子解析木を取り出
し、その子解析木に基づいて、入力された中国語文字列
から次の未処理の音節を選び出し、辞書に記憶されてい
る単語の使用頻度と文脈情報と長辞優先法則とに基づい
て適当な単語と品詞と構文次分類と意味とを抽出し、辞
書に記憶されている単語情報と予め記憶している構文お
よび意味の文法規則とに基づいて、子解析木/音節選択
部により選び出された音節数が一番多い子解析木及び未
処理の音節について構文解析及び意味解析を行い、多義
性問題があれば単語多義性処理を行い、より大きい子解
析木を生成して子解析木記憶部に格納するかあるいは出
力するので、単語抽出規則を利用しても解決できない一
音節単語と多音節単語との単語抽出多義性問題を解決す
ることができる。また、文法や文脈情報や長辞優先法則
や使用頻度などの情報を利用するので、処理中に不適当
な解析結果を早期に削除できる。また、品詞や構文次分
類や意味による多義性も考慮するので、品質のよい解析
結果を得ることができる。
【0027】すなわち、具体的には下記の効果がある。 (1)単語抽出に際して、従来の単語抽出規則などのよ
うな特別な処理が不要である。 (2)単語抽出による多義性を、形態素や構文や意味の
単語情報と、構文や意味規則の文法情報とにより解決で
きる。
【0028】(3)単語抽出処理に際して前処理する必
要がなくなり、構文解析及び意味解析と一緒に解析部で
解析することができる。更に、品詞、構文次分類、意味
などによる多義性問題を一緒に解決するため、解析の正
確率が向上する。 (4)単語情報及び文法に、文脈情報、長辞優先法則、
使用頻度の三つの制限情報を加えて解析の参照にするこ
とにより、各種類の多義性を解決することができる。
【0029】(5)解析処理に際して多義性による全て
の可能性が合理であるか否かをチェックすることによ
り、文法及び意味に適する解析結果を全て出力できる。
【図面の簡単な説明】
【図1】本発明の一実施例における中国語文解析装置の
構成図である。
【図2】子解析木記憶部のデータ構造の説明図である。
【図3】辞書に記憶されている単語木のデータ構造の説
明図である。
【図4】辞書に記憶されている「笑」という字の単語木
のデータ構造の説明図である。
【図5】文法部に記憶されている文法規則のデータ構造
の説明図である。
【図6】文法部に記憶されている動詞のデータ構造をL
ISP言語で表した説明図である。
【図7】文法部に記憶されている名詞及び動詞の意味素
性値のデータ構造の説明図である。
【図8】文法部に記憶されている名詞の意味素性値の木
構造のデータ構造の説明図である。
【図9】文法部に記憶されている動詞の意味素性値の木
構造のデータ構造の説明図である。
【図10】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。
【図11】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。
【図12】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。
【図13】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。
【図14】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。
【図15】本発明の一実施例における中国語文解析装置
の動作を説明するフローチャートである。
【図16】単語多義性処理部の動作を説明するフローチ
ャートである。
【図17】子解析木記憶部に記憶される初期子解析木の
説明図である。
【図18】辞書に記憶されている音節[da4]に対応
する単語木のデータ構造をLISP言語で表した説明図
である。
【図19】[da4xue2sheng1huo2]の
解析により生成された子解析木の木構造の説明図であ
る。
【図20】[da4xue2sheng1huo2]の
解析により生成された子解析木をLISP言語で表した
説明図である。
【図21】辞書に記憶されている音節[hen3]に対
応する単語木のデータ構造をLISP言語で表した説明
図である。
【図22】[da4xue2sheng1huo2he
n3]の解析により生成された子解析木の木構造の説明
図である。
【図23】[da4xue2sheng1huo2he
n3]の解析により生成された子解析木の木構造の説明
図である。
【図24】[da4xue2sheng1huo2he
n3you3qu4]の解析により生成された子解析木
の木構造の説明図である。
【図25】[da4xue2sheng1huo2he
n3you3qu4]の解析により得られた完全な子解
析木の木構造の説明図である。
【図26】辞書に記憶されている音節[you3]に対
応する単語木のデータ構造をLISP言語で表した説明
図である。
【図27】辞書に記憶されている音節[qu4]に対応
する単語木のデータ構造をLISP言語で表した説明図
である。
【図28】一般的な解析木の説明図である。
【図29】従来の中国語文解析装置の構成図である。
【図30】多義性解決規則部に記憶されている規則の説
明図である。
【符号の説明】
3 子解析木/音節選択部 4 子解析木記憶部 5 解析部 6 単語多義性処理部 7 辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 歐陽 彦一 台湾タイ・ペイ・シ・ター・アン・チ ー・10628・レン・アイ・ル・サン・ト ォアン・136・ハオ・10・ロウ スン・ シャ・ティエン・チ・チ・シュー・カ イ・ファー・クゥー・フェン・ユウ・シ エン・コン・スー内 (56)参考文献 特開 平1−185766(JP,A) 特開 平3−171366(JP,A) 特開 昭61−204771(JP,A) 特開 平1−287771(JP,A) 笵莉馨、外3名,”中日機械翻訳にお ける構文構造の特徴に着目した訳文の生 成”,電子情報通信学会技術研究報告, 電子通信情報学会,1991年10月24日,第 91巻,第298号,p.25−32(PRU91 −65,NLC91−30) (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 中国語の各単語の形態素と構文と意味と
    からなる単語要素情報を木構造で記憶している辞書と、
    子解析木を記憶する子解析木記憶部とを用いて、 前記子解析木記憶部から音節数が一番多い子解析木を取
    り出し、その子解析木に基づいて、入力された中国語文
    字列から次の未処理の音節を選び出す子解析木/音節選
    択ステップと、 前記辞書に記憶されている単語の使用頻度と文脈情報と
    長辞優先法則とに基づいて適当な単語と品詞と構文次分
    類と意味とを抽出する単語多義性処理ステップと、 前記辞書に記憶されている単語情報と予め記憶している
    構文および意味の文法規則とに基づいて、前記子解析木
    /音節選択部により選び出された音節数が一番多い子解
    析木及び未処理の音節について構文解析及び意味解析を
    行い、多義性問題があれば前記単語多義性処理ステップ
    で処理させ、より大きい子解析木を生成して前記子解析
    木記憶部に格納するかあるいは出力する解析ステップと
    を実行することを特徴とする中国語文解析方法。
  2. 【請求項2】 中国語の各単語の形態素と構文と意味と
    からなる単語要素情報を木構造で記憶している辞書と、 子解析木を記憶する子解析木記憶部と、 前記子解析木記憶部から音節数が一番多い子解析木を取
    り出し、その子解析木に基づいて、入力された中国語文
    字列から次の未処理の音節を選び出す子解析木/音節選
    択部と、 前記辞書に記憶されている単語の使用頻度と文脈情報と
    長辞優先法則とに基づいて適当な単語と品詞と構文次分
    類と意味とを抽出する単語多義性処理部と、 前記辞書に記憶されている単語情報と予め記憶している
    構文および意味の文法規則とに基づいて、前記子解析木
    /音節選択部により選び出された音節数が一番多い子解
    析木及び未処理の音節について構文解析及び意味解析を
    行い、多義性問題があれば前記単語多義性処理部に処理
    させ、より大きい子解析木を生成して前記子解析木記憶
    部に格納するかあるいは出力する解析部とを備えたこと
    を特徴とする中国語文解析装置。
JP4174514A 1992-07-01 1992-07-01 中国語文解析方法および中国語文解析装置 Expired - Fee Related JP3058511B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4174514A JP3058511B2 (ja) 1992-07-01 1992-07-01 中国語文解析方法および中国語文解析装置
TW81106766A TW226446B (en) 1992-07-01 1992-08-27 Parser for chinese

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4174514A JP3058511B2 (ja) 1992-07-01 1992-07-01 中国語文解析方法および中国語文解析装置

Publications (2)

Publication Number Publication Date
JPH0619961A JPH0619961A (ja) 1994-01-28
JP3058511B2 true JP3058511B2 (ja) 2000-07-04

Family

ID=15979845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4174514A Expired - Fee Related JP3058511B2 (ja) 1992-07-01 1992-07-01 中国語文解析方法および中国語文解析装置

Country Status (2)

Country Link
JP (1) JP3058511B2 (ja)
TW (1) TW226446B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI476606B (zh) * 2009-06-30 2015-03-11 Alibaba Group Holding Ltd A Method and System of Partition Selection for Word - free Text Markers
FR2969371B1 (fr) 2010-12-15 2013-01-04 Commissariat Energie Atomique Dispositif generateur d?ions a resonance cyclotronique electronique

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
笵莉馨、外3名,"中日機械翻訳における構文構造の特徴に着目した訳文の生成",電子情報通信学会技術研究報告,電子通信情報学会,1991年10月24日,第91巻,第298号,p.25−32(PRU91−65,NLC91−30)

Also Published As

Publication number Publication date
TW226446B (en) 1994-07-11
JPH0619961A (ja) 1994-01-28

Similar Documents

Publication Publication Date Title
US6778949B2 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US20060036429A1 (en) Left-corner chart parsing
CN115062609B (zh) 一种汉语增强依存句法的方法及装置
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
JP3058511B2 (ja) 中国語文解析方法および中国語文解析装置
WO1997048058A1 (en) Automated translation of annotated text
WO1997048058A9 (en) Automated translation of annotated text
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
Petasis et al. A greek morphological lexicon and its exploitation by a greek controlled language checker
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Gasser A dependency grammar for Amharic
JP2007164462A (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
Tajalli et al. Developing an Informal-Formal Persian Corpus
JP2005157823A (ja) 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム
JPS60215282A (ja) 自然言語解析構文方式及び装置
JP4114580B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR100371135B1 (ko) 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2006190226A (ja) 用言自動換言装置、用言換言方法及び用言換言処理プログラム
JP4036172B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Murthy Parsing Telugu in the UCSG formalism
JP4071657B2 (ja) テキスト処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees