JP3293619B2 - 日本語構文解析システム - Google Patents
日本語構文解析システムInfo
- Publication number
- JP3293619B2 JP3293619B2 JP31522890A JP31522890A JP3293619B2 JP 3293619 B2 JP3293619 B2 JP 3293619B2 JP 31522890 A JP31522890 A JP 31522890A JP 31522890 A JP31522890 A JP 31522890A JP 3293619 B2 JP3293619 B2 JP 3293619B2
- Authority
- JP
- Japan
- Prior art keywords
- japanese
- sentence
- particle
- parse tree
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
る日本語構文解析システムに関する。
単語に分割し、各単語がもつ品詞等の文法情報や他の単
語からの係りの可能性を判定する為の意味制約情報等を
手がかりに、句構造や係り受け関係が抽出されている。
にできること等に鑑み、係り受け関係の解析を文節ごと
ではなく単語ごとに行うこととして構文解析処理につい
ての説明をする。また、係り受け関係の解析を単語ごと
に行うことに付随して、“単語が単語に係る”という様
に、“係る”、“係り”、“係り受け関係”等の意味を
拡張して用いる。
詞に属する語は互いの係りに対する強い意味的制約をも
つため、それぞれの単語辞書項目内に、自分への係りが
可能な相手方の単語の意味の範囲を定義しておくことが
できる。従ってこれらの品詞に属する単語間の係り受け
関係の判定は、上記単語辞書を参照し各単語自体の意味
制約に基づいて判定する方法で行える場合が多い。
の間の係りに対して意味的な制約をもたず、任意の名詞
からの係りを許し、又、自分の係り先についても、直接
自分自身と相手方の間の意味制約関係によって規定する
とは出来ない。従って、これらの助詞に関する係り受け
関係の判定や句構造の抽出は助詞そのものではなく、助
詞をはさんで存在する名詞と名詞(連体助詞の場合)、
名詞と動詞(格助詞の場合)の間の意味制約関係に注目
して行われる。
自分の後方に初めて現れる述語に係る資格があっても、
そこには係らない場合がしばしば見られる語句に関して
は、そうした意味制約関係だけでは正確な解析を行うこ
とは難しい。
る述語と述語の間の意味制約関係すら、意味素性の様な
簡便な意味データで記述することが不可能となる。
連結された複数の従属節や連体修飾節を含む複文におい
ては、上記接続助詞や主格助詞等の係り受け関係を判定
するための有効な解析手段がなく、正しい解析を行うこ
とができない(ここで、連体修飾節とは名詞を連体修飾
する節をいい、連体修飾節と被修飾名詞との間の格関係
に応じて主格連体修飾節、目的格連体修飾節等がある。
また、複文とは従属節を含む文をいい、従属節には主語
をもたないものも含めるものとする)。従って、予め複
文を人手を介して短く分解したり、接続助詞や格助詞の
係り先を人が指定する等の処理を行う必要があり、この
点が日本語の自動解析の妨げとなっている。
用して、命題間や格成分一述語間の可能な論理関係や修
飾関係あるいは過去の事例を知識として蓄えておき、こ
れを利用して上記接続助詞や主格助詞等に関する係り受
け関係を判定する方法が検討されている。しかしなが
ら、こうした知識ベースや事例ベースは通常極めて大規
模なものとなり、それに従って、知識の利用法等も容易
ではなくなる為、実用化されるまでには、多くの困難が
予想される。
では、複文になると接続助詞や格助詞の正確な係り受け
関係の解析ができず、この為人手を介して複文を短く切
ったり、接続助詞や格助詞の係りを人が指定する等の処
理が必要であるという問題点があった。
理関係等を蓄える方法でも、それらが極めて大規模とな
ること等から実用的でないという欠点があった。
を人手を介することなく効率的に自動解析することので
きる日本語構文解析システムを提供することを目的とす
る。
を施された日本語文を入力し、該日本語文の係り受け構
造を判定する構文解析処理を行う日本語構文解析システ
ムにおいて、上記形態素解析処理により分割して得られ
た単語を2語づつ取り出して、上記形態素解析処理によ
り得られた該単語の構文情報及び意味情報のみを利用し
所定の解析規則に従って該単語間の係り受け関係を判定
し、該単語間に係り受けが成立すると判断した場合に該
単語間の係り受け関係を示す解析木を作成し、該解析木
をスタックに格納する局所的構文解析部と、上記局所的
構文解析部によって作成された係り受け関係を示す解析
木が表す日本語文が、 接続助詞で連結された2つ以上の従属節を有する複
文、 接続助詞の後方に連体修飾節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
方に連体修飾節以外の複数の節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
方に連体修飾節を有する複文の4つのパターンの何れか
に該当するか否かを判定する判定手段と、 上記判定手段によって該当すると判定された複文に対
し前記局所的構文解析部で係ると判断された単語間の係
り受け関係のうち接続助詞および名詞に続く“は”、
“が”、“には”、“では”の係り先の正当性につい
て、該単語の構文情報と意味情報に加えて上記日本語文
の構造的特徴を利用し所定の解析規則に従って判定し、
上記局所的構文解析部において作成された解析木を修正
するとともに、該修正された解析木をスタックに格納す
る大域構文解析部とを備えることを特徴とする。
て、大域的構文解析部が、接続助詞で連結された2つ以
上の従属節を有する日本語文に対し、接続助詞の種類、
又は各述語に対する主語の共通性に基づいて上記日本語
文における接続助詞の係り先を判定し、上記局所的構文
解析部において作成された解析木を修正することを特徴
とする。
明において、大域的構文解析部が、接続助詞の後方に連
体修飾節を有する日本語に対し、接続助詞の種類、連体
修飾節の種類、注目する述語に係る格助詞の種類、上記
連体修飾節による被修飾名詞の共通性、又は各述語に対
する主語の共通性に基づいて上記日本語文における接続
助詞の係り先を判定し、上記局所的構文解析部において
作成された解析木を修正することを特徴とする。
発明において、大域的構文解析部が、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節以外の複文の節を有する日本語文に対し、上記名詞に
続く助詞の種類、接続助詞の種類、又は各述語に対する
主語の共通性に基づいて上記日本語文における上記
“は”、“が”、“には”、“では”の係り先を判定
し、上記局所的構文解析部において作成された解析木を
修正することを特徴とする。
発明において、大域的構文解析部が、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節を有する日本語文に対し、上記名詞に続く助詞の種
類、上記連体修飾節の種類、又は各述語に対する主語の
共通性に基づいて上記日本語文における上記“は”、
“が”、“には”、“では”の係り先を判定し、上記局
所的構文解析部において作成された解析木を修正するこ
とを特徴とする。
説明する。
ブロック図を示す。
と、データ格納部として日本語辞書部11及び品詞マトリ
ックステーブル21とを有してなる。そして、形態素解析
部1によって形態素解析のなされた日本語文を入力して
構文解析を行う。
分割し、該単語に単語の持つ文法情報及び意味情報を付
加する形態素解析処理を行う。
構文解析部4からなる。
た各単語の文法情報及び意味情報を利用し解析規則に従
って単語相互の係り受け関係を判定し、単語間の係り受
け関係を表す解析木を作成する構文解析処理を行う。
成する場合に上記解析木を解析し、単語の文法情報と意
味情報、及び日本語複文の構造的特徴に基づく所定の解
析規則に従って上記日本語複文の接続助詞及び名詞に続
く“は”、“が”、“には”、“では”の係り先の正当
性を判定し、必要に応じて上記解析木を修正する。
単独で現れるもの(“が”など)、副助詞単独で現れる
が、格関係の意味も担うもの(“このケーキは、おいし
い”における“は”など)、格助詞の後に副助詞を伴う
もの(“には”など)を総称して格助詞と呼ぶ。また、
主格助詞は上記格助詞のうち主格の意味を担う“は”
“が”を指す。
の係り先の正当性を判定するための解析規則には、各述
語が係る接続助詞相互の意味関係に基づく規則、接続助
詞と連体修飾節との間に存在する、係り受け関係に関す
る規則、格助詞“は”、“が”、“には”、“では”と
連体修飾節との間に存在する、係り受け関係に関する規
則、各述語の主語共通性に関する規則がある(これらを
日本語の構造的特徴というものとする) なお本実施例では、日本語複文のうち、接続助詞で
連結された2つ以上の従属節を有する複文、接続助詞
の後方に連体修飾節を有する複文、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節以外の複数の節を有する複文、名詞に続く“は”、
“が”、“には”、“では”の後方に連体修飾節を有す
る複文の4種類を大域的構文解析の対象とする。すなわ
ち、局所的構文解析部3により作成された部分解析木に
より示される日本語文が上記4つのパターンのいずれか
に該当する場合に、大域的構文解析部4が、各パターン
の複文ごとに特定された解析処理により上記部分解析木
の分析、修正を行う。以下に上記日本語複文の4つのパ
ターンを模式的に示す。ただし以下では、簡便のため、
述語に加え、それに後接する助動詞もしくは助動詞相当
語句を含めて述語と称する。
詳しく説明する。
食事が出されると、ペロッと食べてしまった。”という
日本語複文を解析処理する場合について説明する。本例
文は、上述した日本語複文のパターンのうち第1パター
ンに該当する。
のように分解される。
が/出される/と/ペロッと/食べてしまった。/ ここで、“出される”、“食べてしまった”、“悪か
った”等は本来複数の形態素から成る表現であるが、議
論に関係ないため、簡便に一形態素として扱い、動詞、
形容詞、述語等と略記する。
素解析処理は、最長一致法等の従来用いられている方法
をそのまま用いることができる。
如く各単語の品詞、意味素性、格等の文法情報及び意味
情報が登録されている。但し、形態素解析に必要な形態
情報は省略してある。分割された各単語には、形態素解
析処理により上記日本語辞書部11からその単語の文法情
報及び意味情報が付加され、次の局所的構文解析部3の
構文解析処理に渡される。以下では、この構文解析処理
を係り受け解析に基づいて行う場合を説明する。
記分割して得た単語を2語づつ取り出して係り受けの判
別を行う。この係り受けの判別は、係られる語と係る語
の品詞の組み合わせに応じて解析規則を記述した第3図
に示すような品詞マトリックステーブル21に基づいて行
う。即ち、取り出した2つの単語相互の組み合わせに対
応する規則を品詞マトリックステーブル21から取り出し
係り受けが成立するかどうかを判別する。上記品詞マト
リックステーブル21には、係りが可能な品詞の組合せご
とに、各品詞に対応する単語間の係り受けの可否を判定
するための規則が規定されている。なお、2つの単語
は、文頭から順に選択するものとする。これは、日本語
においては、原則として文の後方にある語が前方にある
語に係ることはないことによる。
について第4図(a)に示すような部分解析木を作成す
る。以上の処理はバッファ41内にて行う。
31に格納していく。例えば、上記“彼”と“は”では、
係りが成立して、“彼−は”という部分解析木が作られ
たので、第4図(b)のようにスタック31に入れる。次
に、“は”と“丈夫な”に着目すると、係りが成立しな
いので、“丈夫な”は第4図(c)のようにスタック31
に格納される。このスタック31には、後入れ先出し型の
スタックが用いられている。以下同様にして係りが成立
する単語の組ごとに部分解析木を作成して第4図(d)
乃至第5図(m)に示すようにスタック31に入れる。
は”、“では”の係り先の正当性は、局所的構文解析部
3による解析の後、大域的構文解析部4による解析を経
て最終的な判断がなされる。例えば、第5図(g)にお
いて単語に付加された情報のみを利用する局所的構文解
析によれば、接続助詞“て”と動詞“出される”との間
では係りが成立し、第5図(h)のような部分解析木を
作成する。
“食べてしまった”にかける際、“と”以下の部分解析
木及び“食べてしまった”の文構造は、併せて上述した
日本語複文のパターンのうち第1のパターンに該当し、
日本語文の構造的特徴を利用した大域的構文解析部4に
よる解析処理がなされる。
った”とに着目して係りが判断される。この場合、接続
助詞“て”と“と”の間に存在する、係り受けに関する
性質により、“て”の係り先は動詞“持っている”“出
される”“食べてしまった”の主語の共通性に依存し、
“て”は共通の主語を持つ、より後方の動詞に係る。そ
こで、動詞“持っている”、“出される”、“食べてし
まった”の各々の主語を比較すると、“持っている”と
“食べてしまった”では共に“彼”が主語となる。そこ
で、接続助詞“て”と動詞“出される”の係りを切断
し、“て”以下の部分解析木をスタック31に入れる。
と、局所的構文解析部3に処理がもどり、“と”を“食
べてしまった”にかける。この結果第6図(a)のよう
な部分解析木が作成される。
部分解析木を“食べてしまった”にかけて第6図(b)
のような解析木を作成する。以上で本例文についての解
析処理を終了する。
41内の部分解析木のうち“彼−は−持っている−て−出
される”という部分に着目すると、これは上述した日本
語複文の第3パターンに該当する。同様に、第6図
(a)のバッファ41内の部分解析木のうち“食事−が−
出される−と−食べてしまった”という部分、及び第6
図(b)のバッファ41内の解析木のうち“彼−は−持っ
ている−て−食べてしまった”という部分もそれぞれ日
本語複文の第3パターンに該当する。
的構文解析部4による解析処理により必要に応じて修正
される。しかしながら、第3パターンの日本語複文の解
析処理は後述するので(第5、第6解析処理例を参
照)、ここでは説明を省略する。
上げると、それをすぐに売ってしまった。”という日本
語複文を解析処理する場合について説明する。本例文も
第1解析処理例と同様に第1のパターンの日本語複文に
該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。
を省略し、ここでは部分解析木が第7図(a)のように
作成された後の処理について説明する。
パターンのうち第1のパターンに該当し、大域的構文解
析部4による解析処理がなされる。
った”とに着目して係り受け関係が判断される。この場
合、接続助詞“て”と“と”の間に存在する、係り受け
に関する性質により“て”の係り先は述語における主語
の共通性に依存し、“て”は共通の主語を持つ、より後
方の述語に係る。そこで、動詞“買われる”、“上げ
る”、“売ってしまった”の各々の主語を比較すると、
“買われる”と“上げる”の主語は共に“自社株”をと
ることができる。これに対して“売ってしまった”は自
社株”を主語にとることができない。そこで“て”の係
り先は“上げる”でよいと判定し、係りをそのままにし
ておく。
てしまった”にかけられ第7図(c)のような解析木を
作成し、本例文についての解析処理を終了する。
“て”の係り先に着目して比較すると、各例文は同一の
文型を有しながら、接続助詞“て”の係る動詞の位置が
異なっている。このような場合でも本実施例の日本語構
文解析システムによれば節又は句の係り受け構造を正し
く判断することができる。
を受け取った。”という日本語複文を解析処理する場合
について説明する。本例文は上述した日本語複文のパタ
ーンのうち第2のパターンに該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第8図(a)
のように作成された後の処理について説明する。
パターンのうち第2のパターンに該当し、大域的構文解
析部4による解析処理がなされる。ここでは格助詞
“を”動詞“受け取った”にかける際、接続助詞“て”
が“注文した”と“受け取った”の何れに係るかを判断
する。
修飾節(連体修飾節と被修飾名詞との間の格関係が目的
格である連体修飾節)であること、及び“て”に係る動
詞“行く”に“は”が係っていることを根拠として、接
続助詞“て”は“注文した”に係ることができないとい
う結論を得る。
語に係ろうとしている従属節に主語が存在している場合
には、その接続助詞は、主格の連体修飾節には係りにく
いと判断し、主格以外の連体修飾節の場合には、他の規
則によって、係りが決定されると判断する。また、その
従属節の主格助詞が“は”である場合には、接続助詞
“て”は、連体修飾節内には係れないと判断する。主格
助詞が“は”ではない時には、他の規則によって係り決
定されると判断する。
解析木のうち“て”と“行く”とを切離し、“て”以下
の部分解析木をスタック31に入れる。そして、局所的構
文解析部3の処理により“を”を動詞“受け取った”に
かけて第8図(b)に示すような部分解析木を作成す
る。
解析木を“受け取った”にかけ、第8図(c)のような
解析木を作成し、本例文についての解析処理を終了す
る。
が失くした。”という日本語複文を解析処理する場合に
ついて説明する。本例文は第3処理例と同様に第2のパ
ターンの日本語複文に該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第9図(a)
のように作成された後の処理について説明する。
パターンのうち第2のパターンに該当し、大域的構文解
析部4による解析処理がなされる。ここでは格助詞
“を”動詞“失くした”にかける際、接続助詞“て”が
動作“買った”と“失くした”の何れに係るかを判断す
る。
修飾節であること、及び“て”に係る動詞“行く”に
“は”が係っていないことから、“て”が“買った”と
“失くした”の何れに係るか判定できない。そのため、
さらに連体修飾節による被修飾名詞の共有性、各動詞
“行く”“買った”“失くした”の主語の共通性を順次
検査する。
着目する連体修飾節より文頭側にあって接続助詞を介し
て連体修飾節内へ係ろうとする従属節が、その同じ名詞
を修飾する形で連体修飾節を構成出来るか否かを言う。
そして、構成出来る時、連体修飾節による被修飾名詞を
共有すると言う。この従属節は接続助詞を介して、連体
修飾節内の述語に係ろうとするものと、運用中止法の様
に、表層上接続助詞を伴わずに係ろうとするものに分け
られる。後者の場合も同様に考える。
詞“て”は、連体修飾節内の述語に係れると判断し、共
有されなければ、“て”の係りは主語の共通性によって
決定されると判断する。
共有できない(即ち“彼が丸善に行く本”とい運文は成
立たない)ため、“て”の係り先の判断は各動詞の主語
の共通性に依存し、“て”は共通の主語を持つ、より後
方の動詞に係る。
と“買った”の主語は“彼が”で共通し、“失くした”
には既に“私が”が主語として係っていることから“彼
が”は係ることができず一致しない。これより、“て”
は“買った”に係り、“失くした”には係らないことが
わかるので、“て”を“買った”にかけたままにしてお
く。
し、本例文についての解析処理を終了する。
“て”に着目して比較すると、各例文は同一の文型を有
しながら、接続助詞“て”の係る動詞の位置が異なって
いる。このような場合でも本実施例の日本語構文解析シ
ステムによれば節又は句の係り受け構造を正しく判断す
ることができる。
た。”という日本語複文を解析処理する場合について説
明する。本例文は上述した日本語複文のパターンのうち
第3のパターンに該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第10図(a)
のように作成された後の処理について説明する。
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは接続助詞“が”を動詞“落ちた”に
かける際、主格助詞“は”が“尽くした”と“落ちた”
の何れに係るかを判断する。
と接続助詞“が”の組合せ、動詞“尽くした”と“落ち
た”の主語の共通性を順次検査する。この場合、“は”
と“が”の組合せのみでは、“は”が“が”の前の動詞
に係るのかあるいは“が”を越えてその後ろの動詞に係
るのか決定することができないので、“は”の係り先の
判断は各動詞の主語の共通性に依存し、“は”は共通の
主語をもつ、より後方の動詞に係る。
においては、“は”は常にその接続助詞に前接する述語
には係れないと判断する。それ以外の場合には、“は”
の係りは、主語の共通性によって決定されると判断す
る。
た”も“落ちた”も共に“彼”を主語とすることがわか
る。そこで“彼は”と“尽くした”とを切離す。
解析部3の処理にもどり、“彼は”を“落ちた”にかけ
変える。但し、“彼は”が“尽くした”に係っていたこ
とは解析木中記憶しておく。
た”にかけて第10図(b)のような解析木を作成し、本
例文についての解析処理を終了する。
かった。”という日本語複文を解析処理する場合につい
て説明する。本例文は第5処理例と同様に第3のパター
ンの日本語複文に該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第11図(a)
のように作成された後の処理について説明する。
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは、“尽くしたが”における接続助詞
“が”を形容詞“悪かった”にかける際、主格助詞
“は”が“尽くした”と“悪かった”の何れに係るかを
判断する。
と接続助詞“が”の組併せ、動詞“尽くした”と“悪か
った”の主語の共通性を順次検査する。この場合、
“は”と“が”の組合せのみでは、“は”が“が”の前
の動詞に係るのかあるいは“が”を越えてその後ろの形
容詞に係るのか決定することができないので、“は”の
係り先の判断は各述語の主語の共通性に依存し“は”は
共通の主語を持つ、より後方の述語に係る。
た”の主語が“彼”であるのに対し、“悪かった”には
既に“運”が主語として係っているため“彼”は主語と
なることができず、各述語の主語が一致しない。そこで
“彼は”は“尽くした”にかけたままにして大域的構文
解析部4の処理を終える。
ける“が”を“悪かった”にかけて第11図(b)のよう
な解析木を作成し、本例文についての解析処理を終了す
る。
“が”に着目して比較すると、各例文は同一の文型を有
しながら、主格助詞“は”の係る動詞の位置が異なって
いる。このような場合でも本実施例の日本語構文解析シ
ステムによれば節又は組の係り受け構造を正しく判断す
ることができる。
を今日再び更新した。”という日本語複文を解析処理す
る場合について説明する。本例文は上述した日本語複文
のパターンのうち第4パターンに該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第12図(a)
のように作成された後の処理について説明する。
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは格助詞“を”を動詞“更新した”に
かける際、主格助詞“が”が“付けた”と“更新した”
の何れに係るかを判断する。
と連体修飾節との間に存在する、係り受け関係に関する
性質(連体修飾節を越えて、その後の述語に係るか否か
等)、動詞“付けた”と“更新した”の主語の共通性を
順次検査する。ここでは、連体修飾節が“が”の係れな
い主格連体修飾節(連体修飾節とその被修飾名詞との間
の格関係が主格である連体修飾節)でないことから、
“が”の係り先の判断は各動詞の主語の共通性に依存
し、“が”は共通の主語を持つ、より後方の動詞に係
る。
た”も“更新した”も共に“A社株”を主語とすること
がわかり、そこで“A社株が”と、“付けた”とを切離
す。
解析部3の処理にもどり、“A社株が”を“更新した”
にかけ変える。但し、“A社株が”が“付けた”に係っ
ていたことは解析木中に記憶しておく。
た”にかけて第12図(b)のような解析木を作成し、本
例文についての解析処理を終了する。
株が抜いた。”という日本語複文を解析処理する場合に
ついて説明する。本例文は第7処理例と同様に第4のパ
ターンの日本語複文に該当する。
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第13図(a)
のように作成された後の処理について説明する。
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは格助詞“を”を動詞“抜いた”にか
ける際、“A社株が”における主格助詞“が”が“付け
た”と“抜いた”の何れに係るかを判断する。
連体修飾節の間に存在する、係り受け関係に関する性質
(連体修飾節を越えて、その後の述語に係るか否か
等)、動詞“付けた”と“抜いた”の主語の共通性を順
次検査する。ここでは、連体修飾節が“が”の係れない
主格連体修飾節でないことから、“A社株が”における
“が”の係り先の判断は各動詞の主語の共通性に依存
し、“が”は共通の主語を持つ、より後方の動詞に係
る。
た”の主語が“A社株”であるのに対し、“抜いた”に
は既に“B社株”が主語として係っているため“A社
株”は主語となることができず、各動詞の主語が一致し
ない。そこで“A社株が”は“付けた”にかけたままに
して大域的構文解析部4の処理を終える。
た”にかけて第13図(b)のような解析木を作成し、本
例文についての解析処理を終了する。
“が”に着目して比較すると、格例文は同一の文型を有
しながら、主格助詞“は”の係る動詞の位置が異なって
いる。このような場合でも本実施例の日本語構文解析シ
ステムによれば節又は句の係り受け構造を正しく判断す
ることができる。
挙げて本実施例による解析処理について説明したが、大
域的構文解析部4の処理における解析規則は上記説明し
たものに限らず助詞の種類や日本語文の構造等に応じて
種々の規則を設けることができる。
造的特徴等に基づく解析規則を用意することが必要とな
ることは言うまでもない。
によれば、係り受け関係を表わす解析木を分析し、所定
の解析規則に従って上記接続助詞及び名詞に続く
“は”、“が”、“には”、“では”の係り先の正当性
を判定し、必要に応じて上記解析木を修正する大域的構
文解析部を備えたことにより、日本語複文の係り受け構
造を自動的に解析することができる。また、これによ
り、これまでのように人手を介して複文を単文に分解す
るといった処理にかかる手間が低減される。
報、及び日本語複文の構造的特徴に基づく解析規則に従
って、接続助詞及び格助詞の係り先の正当性を判定する
ことにより、知識ベースに述語間の可能な論理関係を蓄
える場合等に比べて効率よく正確な日本語文の解析処理
を行うことができるという効果がある。
接続助詞で連結された2つ以上の従属節を有する複
文、接続助詞の後方に連体修飾節を有する複文、名
詞に続く“は”、“が”、“には”、“では”の後方に
連体修飾節以外の複数の節を有する複文、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節を有する複文の4つのパターンに該当するものについ
て、該日本語文の構造的特徴に基づいて各接続助詞及び
“は”、“が”、“には”、“では”の係り先を判定す
ることにより、係り受け関係が自明な日本語複文等に対
しては大域的構文解析部が起動せず、更に効率よく、か
つ正確に日本語文の解析処理を行うことができるという
効果がある。
示す機能ブロック図、 第2図は日本語辞書部の内容を示す図、 第3図は品詞マトリックステーブルの内容を示す図、 第4図乃至第13図は本実施例による日本語文の解析処理
を示す図である。 1:形態素解析部 2:解析処理部 3:局所的構文解析部 4:大域的構文解析部 11:日本語辞書部 21:品詞マトリックステーブル
Claims (5)
- 【請求項1】形態素解析処理を施された日本語文を入力
し、該日本語文の係り受け構造を判定する構文解析処理
を行う日本語構文解析システムにおいて、 上記形態素解析処理により分割して得られた単語を2語
づつ取り出して、上記形態素解析処理により得られた該
単語の構文情報及び意味情報のみを利用し所定の解析規
則に従って該単語間の係り受け関係を判定し、該単語間
に係り受けが成立すると判断した場合に該単語間の係り
受け関係を示す解析木を作成し、該解析木をスタックに
格納する局所的構文解析部と、 上記局所的構文解析部によって作成された係り受け関係
を示す解析木が表す日本語文が、 接続助詞で連結された2つ以上の従属節を有する複
文、 接続助詞の後方に連体修飾節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
方に連体修飾節以外の複数の節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
方に連体修飾節を有する複文、 の4つのパターンの何れかに該当するか否かを判定する
判定手段と、 上記判定手段によって該当すると判定された複文に対
し、前記局所的構文解析部で係ると判定された単語間の
係り受け関係のうち接続助詞および名詞に続く“は”、
“が”、“には”、“では”の係り先の正当性につい
て、該単語の構文情報と意味情報に加えて上記日本語文
の構造的特徴を利用し所定の解析規則に従って判定し、
上記局所的構文解析部において作成された解析木を修正
するとともに、該修正された解析木をスタックに格納す
る大域構文解析部とを備えることを特徴とする日本語構
文解析システム。 - 【請求項2】大域的構文解析部が、接続助詞で連結され
た2つ以上の従属節を有する日本語文に対し、接続助詞
の種類、又は各述語に対する主語の共通性に基づいて上
記日本語文における接続助詞の係り先を判定し、上記局
所的構文解析部において作成された解析木を修正するこ
とを特徴とする請求項1に記載の日本語構文解析システ
ム。 - 【請求項3】大域的構文解析部が、接続助詞の後方に連
体修飾節を有する日本語に対し、接続助詞の種類、連体
修飾節の種類、注目する述語に係る格助詞の種類、上記
連体修飾節による被修飾名詞の共通性、又は各述語に対
する主語の共通性に基づいて上記日本語文における接続
助詞の係り先を判定し、上記局所的構文解析部において
作成された解析木を修正することを特徴とする請求項第
1項又は第2項に記載の日本語構文解析システム。 - 【請求項4】大域的構文解析部が、名詞に続く“は”、
“が”、“には”、“では”の後方に連体修飾節以外の
複文の節を有する日本語文に対し、上記名詞に続く助詞
の種類、接続助詞の種類、又は各述語に対する主語の共
通性に基づいて上記日本語文における上記“は”、
“が”、“には”、“では”の係り先を判定し、上記局
所的構文解析部において作成された解析木を修正するこ
とを特徴とする請求項1ないし第3項に記載の日本語構
文解析システム。 - 【請求項5】大域的構文解析部が、名詞に続く“は”、
“が”、“には”、“では”の後方に連体修飾節を有す
る日本語文に対し、上記名詞に続く助詞の種類、上記連
体修飾節の種類、又は各述語に対する主語の共通性に基
づいて上記日本語文における上記“は”、“が”、“に
は”、“では”の係り先を判定し、上記局所的構文解析
部において作成された解析木を修正することを特徴とす
る請求項第1項ないし第4項に記載の日本語構文解析シ
ステム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31522890A JP3293619B2 (ja) | 1990-08-20 | 1990-11-20 | 日本語構文解析システム |
EP91914616A EP0547222A1 (en) | 1990-08-20 | 1991-08-20 | System for syntax analysis of japanese language |
CA 2070406 CA2070406A1 (en) | 1990-08-20 | 1991-08-20 | System for syntax analysis of japanese language |
PCT/JP1991/001108 WO1992003796A1 (fr) | 1990-08-20 | 1991-08-20 | Systeme d'analyse syntaxique du japonais |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21856190 | 1990-08-20 | ||
JP24939590 | 1990-09-19 | ||
JP2-218561 | 1990-10-15 | ||
JP2-275770 | 1990-10-15 | ||
JP27577090 | 1990-10-15 | ||
JP2-249395 | 1990-10-15 | ||
JP31522890A JP3293619B2 (ja) | 1990-08-20 | 1990-11-20 | 日本語構文解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04211867A JPH04211867A (ja) | 1992-08-03 |
JP3293619B2 true JP3293619B2 (ja) | 2002-06-17 |
Family
ID=27476869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31522890A Expired - Lifetime JP3293619B2 (ja) | 1990-08-20 | 1990-11-20 | 日本語構文解析システム |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0547222A1 (ja) |
JP (1) | JP3293619B2 (ja) |
WO (1) | WO1992003796A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
JP2001505330A (ja) * | 1996-08-22 | 2001-04-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | テキストストリーム中の単語の切れ目を与える方法及び装置 |
US7672829B2 (en) | 1997-03-04 | 2010-03-02 | Hiroshi Ishikura | Pivot translation method and system |
JP3912431B2 (ja) * | 1997-03-04 | 2007-05-09 | 博 石倉 | 言語解析システムおよび方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS584479A (ja) * | 1981-06-30 | 1983-01-11 | Fujitsu Ltd | 日本語文解析システム |
JPS58169290A (ja) * | 1982-03-31 | 1983-10-05 | Fujitsu Ltd | 自然言語解析方式 |
JPS60157659A (ja) * | 1984-01-27 | 1985-08-17 | Hitachi Ltd | 日本語解析方式 |
JPS60193074A (ja) * | 1984-03-14 | 1985-10-01 | Ricoh Co Ltd | 日本語解析装置 |
JP2960936B2 (ja) * | 1987-07-13 | 1999-10-12 | 日本電信電話株式会社 | 係り受け解析装置 |
JPS6466777A (en) * | 1987-09-08 | 1989-03-13 | Sharp Kk | Mechanical translation device |
JPH02165378A (ja) * | 1988-12-20 | 1990-06-26 | Csk Corp | 機械翻訳システム |
-
1990
- 1990-11-20 JP JP31522890A patent/JP3293619B2/ja not_active Expired - Lifetime
-
1991
- 1991-08-20 EP EP91914616A patent/EP0547222A1/en not_active Withdrawn
- 1991-08-20 WO PCT/JP1991/001108 patent/WO1992003796A1/ja not_active Application Discontinuation
Non-Patent Citations (3)
Title |
---|
情報処理、Vol.26、No.10、p.1203〜1213(1985) |
電子技術総合研究所研究報告、第784号、第22頁(1978) |
電子技術総合研究所研究報告、第871号、第50〜70頁(1986) |
Also Published As
Publication number | Publication date |
---|---|
JPH04211867A (ja) | 1992-08-03 |
WO1992003796A1 (fr) | 1992-03-05 |
EP0547222A1 (en) | 1993-06-23 |
EP0547222A4 (en) | 1993-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gaizauskas et al. | University of Sheffield: Description of the LaSIE system as used for MUC-6 | |
EP0953192B1 (en) | Natural language parser with dictionary-based part-of-speech probabilities | |
US6965857B1 (en) | Method and apparatus for deriving information from written text | |
JP3266246B2 (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
EP1351158A1 (en) | Machine translation | |
US5297040A (en) | Molecular natural language processing system | |
JP2001523019A (ja) | テキストの本文の談話構造の自動認識 | |
WO2001096980A2 (en) | Method and system for text analysis | |
JPH0242572A (ja) | 共起関係辞書生成保守方法 | |
US20040243394A1 (en) | Natural language processing apparatus, natural language processing method, and natural language processing program | |
JP3293619B2 (ja) | 日本語構文解析システム | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
US7921126B2 (en) | Patent summarization systems and methods | |
Kashket | Parsing a free-word order language: Warlpiri | |
US20020133331A1 (en) | Correcting incomplete negation errors in French language text | |
JP3251032B2 (ja) | 日本語解析装置 | |
JP2003108583A (ja) | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 | |
KR100371135B1 (ko) | 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법 | |
JP4103311B2 (ja) | 自然言語処理装置及び方法 | |
JP3222173B2 (ja) | 日本語構文解析システム | |
JPH0795323B2 (ja) | 自然言語処理装置 | |
JP3339006B2 (ja) | 機械翻訳装置における並列名詞句処理装置 | |
JP3358100B2 (ja) | 日本語質問メッセージ解析方法及び装置 | |
JP2954592B2 (ja) | 言語解析装置 | |
Yerimbetova et al. | Estimation of the degree of similarity of sentences in a natural language based on using the Link Grammar Parser program system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080405 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090405 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100405 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100405 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110405 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110405 Year of fee payment: 9 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110405 Year of fee payment: 9 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110405 Year of fee payment: 9 |