JP3293619B2 - 日本語構文解析システム - Google Patents

日本語構文解析システム

Info

Publication number
JP3293619B2
JP3293619B2 JP31522890A JP31522890A JP3293619B2 JP 3293619 B2 JP3293619 B2 JP 3293619B2 JP 31522890 A JP31522890 A JP 31522890A JP 31522890 A JP31522890 A JP 31522890A JP 3293619 B2 JP3293619 B2 JP 3293619B2
Authority
JP
Japan
Prior art keywords
japanese
sentence
particle
parse tree
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP31522890A
Other languages
English (en)
Other versions
JPH04211867A (ja
Inventor
朗 高木
留美 渡辺
伸二 吉原
Original Assignee
株式会社シーエスケイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社シーエスケイ filed Critical 株式会社シーエスケイ
Priority to JP31522890A priority Critical patent/JP3293619B2/ja
Priority to EP91914616A priority patent/EP0547222A1/en
Priority to CA 2070406 priority patent/CA2070406A1/en
Priority to PCT/JP1991/001108 priority patent/WO1992003796A1/ja
Publication of JPH04211867A publication Critical patent/JPH04211867A/ja
Application granted granted Critical
Publication of JP3293619B2 publication Critical patent/JP3293619B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、日本語文の係り受け構造を機械的に解析す
る日本語構文解析システムに関する。
[従来の技術] 従来、日本語文の構文解析を行う場合、該日本語文を
単語に分割し、各単語がもつ品詞等の文法情報や他の単
語からの係りの可能性を判定する為の意味制約情報等を
手がかりに、句構造や係り受け関係が抽出されている。
なお、以下では、構文解析の制御アルゴリズムを簡単
にできること等に鑑み、係り受け関係の解析を文節ごと
ではなく単語ごとに行うこととして構文解析処理につい
ての説明をする。また、係り受け関係の解析を単語ごと
に行うことに付随して、“単語が単語に係る”という様
に、“係る”、“係り”、“係り受け関係”等の意味を
拡張して用いる。
ところで、一般に名詞、形容詞、動詞、副詞などの品
詞に属する語は互いの係りに対する強い意味的制約をも
つため、それぞれの単語辞書項目内に、自分への係りが
可能な相手方の単語の意味の範囲を定義しておくことが
できる。従ってこれらの品詞に属する単語間の係り受け
関係の判定は、上記単語辞書を参照し各単語自体の意味
制約に基づいて判定する方法で行える場合が多い。
一方、連体助詞や格助詞の場合、それ自身、他の語と
の間の係りに対して意味的な制約をもたず、任意の名詞
からの係りを許し、又、自分の係り先についても、直接
自分自身と相手方の間の意味制約関係によって規定する
とは出来ない。従って、これらの助詞に関する係り受け
関係の判定や句構造の抽出は助詞そのものではなく、助
詞をはさんで存在する名詞と名詞(連体助詞の場合)、
名詞と動詞(格助詞の場合)の間の意味制約関係に注目
して行われる。
しかしながら、例えば主格助詞の様に、複文において
自分の後方に初めて現れる述語に係る資格があっても、
そこには係らない場合がしばしば見られる語句に関して
は、そうした意味制約関係だけでは正確な解析を行うこ
とは難しい。
更に、接続助詞の場合になると、それを挟んで存在す
る述語と述語の間の意味制約関係すら、意味素性の様な
簡便な意味データで記述することが不可能となる。
この為、現在の解析技術では、例えば文中に接続詞で
連結された複数の従属節や連体修飾節を含む複文におい
ては、上記接続助詞や主格助詞等の係り受け関係を判定
するための有効な解析手段がなく、正しい解析を行うこ
とができない(ここで、連体修飾節とは名詞を連体修飾
する節をいい、連体修飾節と被修飾名詞との間の格関係
に応じて主格連体修飾節、目的格連体修飾節等がある。
また、複文とは従属節を含む文をいい、従属節には主語
をもたないものも含めるものとする)。従って、予め複
文を人手を介して短く分解したり、接続助詞や格助詞の
係り先を人が指定する等の処理を行う必要があり、この
点が日本語の自動解析の妨げとなっている。
こうしたことから現在、知識ベースや事例ベースを利
用して、命題間や格成分一述語間の可能な論理関係や修
飾関係あるいは過去の事例を知識として蓄えておき、こ
れを利用して上記接続助詞や主格助詞等に関する係り受
け関係を判定する方法が検討されている。しかしなが
ら、こうした知識ベースや事例ベースは通常極めて大規
模なものとなり、それに従って、知識の利用法等も容易
ではなくなる為、実用化されるまでには、多くの困難が
予想される。
[発明が解決しようとする課題] 上述したように、従来行われている日本語の解析方法
では、複文になると接続助詞や格助詞の正確な係り受け
関係の解析ができず、この為人手を介して複文を短く切
ったり、接続助詞や格助詞の係りを人が指定する等の処
理が必要であるという問題点があった。
また、知識ベースや事例ベースを利用して命題間の論
理関係等を蓄える方法でも、それらが極めて大規模とな
ること等から実用的でないという欠点があった。
[課題を解決するための手段] 本発明は、上記従来技術の課題を解決し、日本語複文
を人手を介することなく効率的に自動解析することので
きる日本語構文解析システムを提供することを目的とす
る。
かかる目的を達成するため本発明は、形態素解析処理
を施された日本語文を入力し、該日本語文の係り受け構
造を判定する構文解析処理を行う日本語構文解析システ
ムにおいて、上記形態素解析処理により分割して得られ
た単語を2語づつ取り出して、上記形態素解析処理によ
り得られた該単語の構文情報及び意味情報のみを利用し
所定の解析規則に従って該単語間の係り受け関係を判定
し、該単語間に係り受けが成立すると判断した場合に該
単語間の係り受け関係を示す解析木を作成し、該解析木
をスタックに格納する局所的構文解析部と、上記局所的
構文解析部によって作成された係り受け関係を示す解析
木が表す日本語文が、 接続助詞で連結された2つ以上の従属節を有する複
文、 接続助詞の後方に連体修飾節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
方に連体修飾節以外の複数の節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
方に連体修飾節を有する複文の4つのパターンの何れか
に該当するか否かを判定する判定手段と、 上記判定手段によって該当すると判定された複文に対
し前記局所的構文解析部で係ると判断された単語間の係
り受け関係のうち接続助詞および名詞に続く“は”、
“が”、“には”、“では”の係り先の正当性につい
て、該単語の構文情報と意味情報に加えて上記日本語文
の構造的特徴を利用し所定の解析規則に従って判定し、
上記局所的構文解析部において作成された解析木を修正
するとともに、該修正された解析木をスタックに格納す
る大域構文解析部とを備えることを特徴とする。
第2項に記載の発明は、第1項に記載の発明におい
て、大域的構文解析部が、接続助詞で連結された2つ以
上の従属節を有する日本語文に対し、接続助詞の種類、
又は各述語に対する主語の共通性に基づいて上記日本語
文における接続助詞の係り先を判定し、上記局所的構文
解析部において作成された解析木を修正することを特徴
とする。
第3項に記載の発明は、第1項又は第2項に記載の発
明において、大域的構文解析部が、接続助詞の後方に連
体修飾節を有する日本語に対し、接続助詞の種類、連体
修飾節の種類、注目する述語に係る格助詞の種類、上記
連体修飾節による被修飾名詞の共通性、又は各述語に対
する主語の共通性に基づいて上記日本語文における接続
助詞の係り先を判定し、上記局所的構文解析部において
作成された解析木を修正することを特徴とする。
第4項に記載の発明は、第1項ないし第3項に記載の
発明において、大域的構文解析部が、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節以外の複文の節を有する日本語文に対し、上記名詞に
続く助詞の種類、接続助詞の種類、又は各述語に対する
主語の共通性に基づいて上記日本語文における上記
“は”、“が”、“には”、“では”の係り先を判定
し、上記局所的構文解析部において作成された解析木を
修正することを特徴とする。
第5項に記載の発明は、第1項ないし第4項に記載の
発明において、大域的構文解析部が、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節を有する日本語文に対し、上記名詞に続く助詞の種
類、上記連体修飾節の種類、又は各述語に対する主語の
共通性に基づいて上記日本語文における上記“は”、
“が”、“には”、“では”の係り先を判定し、上記局
所的構文解析部において作成された解析木を修正するこ
とを特徴とする。
[実施例] 以下、本発明の実施例について図面を参照して詳細に
説明する。
第1図に本発明による日本語構文解析システムの機能
ブロック図を示す。
本実施例の日本語構文解析システムは、解析処理部2
と、データ格納部として日本語辞書部11及び品詞マトリ
ックステーブル21とを有してなる。そして、形態素解析
部1によって形態素解析のなされた日本語文を入力して
構文解析を行う。
上記形態素解析部1は、入力された日本語文を単語に
分割し、該単語に単語の持つ文法情報及び意味情報を付
加する形態素解析処理を行う。
上記解析処理部2は、局所的構文解析部3と、大域的
構文解析部4からなる。
局所的構文解析部3は、上記形態素解析により得られ
た各単語の文法情報及び意味情報を利用し解析規則に従
って単語相互の係り受け関係を判定し、単語間の係り受
け関係を表す解析木を作成する構文解析処理を行う。
大域的構文解析部4は、解析する日本語文が複文を構
成する場合に上記解析木を解析し、単語の文法情報と意
味情報、及び日本語複文の構造的特徴に基づく所定の解
析規則に従って上記日本語複文の接続助詞及び名詞に続
く“は”、“が”、“には”、“では”の係り先の正当
性を判定し、必要に応じて上記解析木を修正する。
尚、本実施例では煩雑さを避けるため、以下、格助詞
単独で現れるもの(“が”など)、副助詞単独で現れる
が、格関係の意味も担うもの(“このケーキは、おいし
い”における“は”など)、格助詞の後に副助詞を伴う
もの(“には”など)を総称して格助詞と呼ぶ。また、
主格助詞は上記格助詞のうち主格の意味を担う“は”
“が”を指す。
上記接続助詞及び主格助詞及び“には”、“では”等
の係り先の正当性を判定するための解析規則には、各述
語が係る接続助詞相互の意味関係に基づく規則、接続助
詞と連体修飾節との間に存在する、係り受け関係に関す
る規則、格助詞“は”、“が”、“には”、“では”と
連体修飾節との間に存在する、係り受け関係に関する規
則、各述語の主語共通性に関する規則がある(これらを
日本語の構造的特徴というものとする) なお本実施例では、日本語複文のうち、接続助詞で
連結された2つ以上の従属節を有する複文、接続助詞
の後方に連体修飾節を有する複文、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節以外の複数の節を有する複文、名詞に続く“は”、
“が”、“には”、“では”の後方に連体修飾節を有す
る複文の4種類を大域的構文解析の対象とする。すなわ
ち、局所的構文解析部3により作成された部分解析木に
より示される日本語文が上記4つのパターンのいずれか
に該当する場合に、大域的構文解析部4が、各パターン
の複文ごとに特定された解析処理により上記部分解析木
の分析、修正を行う。以下に上記日本語複文の4つのパ
ターンを模式的に示す。ただし以下では、簡便のため、
述語に加え、それに後接する助動詞もしくは助動詞相当
語句を含めて述語と称する。
次に、具体的な解析処理例を数例挙げて各処理内容を
詳しく説明する。
(第1解析処理例) 第1の処理例では、“彼は丈夫な胃袋を持っていて、
食事が出されると、ペロッと食べてしまった。”という
日本語複文を解析処理する場合について説明する。本例
文は、上述した日本語複文のパターンのうち第1パター
ンに該当する。
本例文は、形態素解析部1の形態素解析処理により次
のように分解される。
彼/は/丈夫な/胃袋/を/持っている/て/食事/
が/出される/と/ペロッと/食べてしまった。/ ここで、“出される”、“食べてしまった”、“悪か
った”等は本来複数の形態素から成る表現であるが、議
論に関係ないため、簡便に一形態素として扱い、動詞、
形容詞、述語等と略記する。
また、本実施例において、形態素解析部1による形態
素解析処理は、最長一致法等の従来用いられている方法
をそのまま用いることができる。
ここで、本装置の日本語辞書部11には、第2図に示す
如く各単語の品詞、意味素性、格等の文法情報及び意味
情報が登録されている。但し、形態素解析に必要な形態
情報は省略してある。分割された各単語には、形態素解
析処理により上記日本語辞書部11からその単語の文法情
報及び意味情報が付加され、次の局所的構文解析部3の
構文解析処理に渡される。以下では、この構文解析処理
を係り受け解析に基づいて行う場合を説明する。
局所的構文解析部3の構文解析処理は、まず第1に上
記分割して得た単語を2語づつ取り出して係り受けの判
別を行う。この係り受けの判別は、係られる語と係る語
の品詞の組み合わせに応じて解析規則を記述した第3図
に示すような品詞マトリックステーブル21に基づいて行
う。即ち、取り出した2つの単語相互の組み合わせに対
応する規則を品詞マトリックステーブル21から取り出し
係り受けが成立するかどうかを判別する。上記品詞マト
リックステーブル21には、係りが可能な品詞の組合せご
とに、各品詞に対応する単語間の係り受けの可否を判定
するための規則が規定されている。なお、2つの単語
は、文頭から順に選択するものとする。これは、日本語
においては、原則として文の後方にある語が前方にある
語に係ることはないことによる。
構文解析処理では、第2に係りが成立した2つの単語
について第4図(a)に示すような部分解析木を作成す
る。以上の処理はバッファ41内にて行う。
そして、第3に作成された部分解析木を順次スタック
31に格納していく。例えば、上記“彼”と“は”では、
係りが成立して、“彼−は”という部分解析木が作られ
たので、第4図(b)のようにスタック31に入れる。次
に、“は”と“丈夫な”に着目すると、係りが成立しな
いので、“丈夫な”は第4図(c)のようにスタック31
に格納される。このスタック31には、後入れ先出し型の
スタックが用いられている。以下同様にして係りが成立
する単語の組ごとに部分解析木を作成して第4図(d)
乃至第5図(m)に示すようにスタック31に入れる。
ここで、接続助詞及び格助詞“は”、“が”、“に
は”、“では”の係り先の正当性は、局所的構文解析部
3による解析の後、大域的構文解析部4による解析を経
て最終的な判断がなされる。例えば、第5図(g)にお
いて単語に付加された情報のみを利用する局所的構文解
析によれば、接続助詞“て”と動詞“出される”との間
では係りが成立し、第5図(h)のような部分解析木を
作成する。
一方、第5図(m)において接続助詞“と”を動詞
“食べてしまった”にかける際、“と”以下の部分解析
木及び“食べてしまった”の文構造は、併せて上述した
日本語複文のパターンのうち第1のパターンに該当し、
日本語文の構造的特徴を利用した大域的構文解析部4に
よる解析処理がなされる。
ここでは接続助詞“て”、“と”と動詞“食べてしま
った”とに着目して係りが判断される。この場合、接続
助詞“て”と“と”の間に存在する、係り受けに関する
性質により、“て”の係り先は動詞“持っている”“出
される”“食べてしまった”の主語の共通性に依存し、
“て”は共通の主語を持つ、より後方の動詞に係る。そ
こで、動詞“持っている”、“出される”、“食べてし
まった”の各々の主語を比較すると、“持っている”と
“食べてしまった”では共に“彼”が主語となる。そこ
で、接続助詞“て”と動詞“出される”の係りを切断
し、“て”以下の部分解析木をスタック31に入れる。
以上のような大域的構文解析部4の処理が終了する
と、局所的構文解析部3に処理がもどり、“と”を“食
べてしまった”にかける。この結果第6図(a)のよう
な部分解析木が作成される。
最後に、局所的構文解析により接続助詞“て”以下の
部分解析木を“食べてしまった”にかけて第6図(b)
のような解析木を作成する。以上で本例文についての解
析処理を終了する。
なお、上記解析例において、第5図(h)のバッファ
41内の部分解析木のうち“彼−は−持っている−て−出
される”という部分に着目すると、これは上述した日本
語複文の第3パターンに該当する。同様に、第6図
(a)のバッファ41内の部分解析木のうち“食事−が−
出される−と−食べてしまった”という部分、及び第6
図(b)のバッファ41内の解析木のうち“彼−は−持っ
ている−て−食べてしまった”という部分もそれぞれ日
本語複文の第3パターンに該当する。
したがって、格助詞“は”、“が”の係り先は、大域
的構文解析部4による解析処理により必要に応じて修正
される。しかしながら、第3パターンの日本語複文の解
析処理は後述するので(第5、第6解析処理例を参
照)、ここでは説明を省略する。
(第2解析処理例) 第2の処理例では、“彼は、自社株が買われて、値を
上げると、それをすぐに売ってしまった。”という日本
語複文を解析処理する場合について説明する。本例文も
第1解析処理例と同様に第1のパターンの日本語複文に
該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。
以上の処理動作は第1解析処理例と同様なので、説明
を省略し、ここでは部分解析木が第7図(a)のように
作成された後の処理について説明する。
図示の部分解析木に示される文は上述の日本語複文の
パターンのうち第1のパターンに該当し、大域的構文解
析部4による解析処理がなされる。
ここでは接続助詞“て”、“と”と動詞“売ってしま
った”とに着目して係り受け関係が判断される。この場
合、接続助詞“て”と“と”の間に存在する、係り受け
に関する性質により“て”の係り先は述語における主語
の共通性に依存し、“て”は共通の主語を持つ、より後
方の述語に係る。そこで、動詞“買われる”、“上げ
る”、“売ってしまった”の各々の主語を比較すると、
“買われる”と“上げる”の主語は共に“自社株”をと
ることができる。これに対して“売ってしまった”は自
社株”を主語にとることができない。そこで“て”の係
り先は“上げる”でよいと判定し、係りをそのままにし
ておく。
最後に、局所的構文解析処理により“彼は”が“売っ
てしまった”にかけられ第7図(c)のような解析木を
作成し、本例文についての解析処理を終了する。
ここで、第1解析処理例と第2解析処理例を接続助詞
“て”の係り先に着目して比較すると、各例文は同一の
文型を有しながら、接続助詞“て”の係る動詞の位置が
異なっている。このような場合でも本実施例の日本語構
文解析システムによれば節又は句の係り受け構造を正し
く判断することができる。
(第3解析処理例) 第3の処理例では、“彼は本屋に行って、注文した本
を受け取った。”という日本語複文を解析処理する場合
について説明する。本例文は上述した日本語複文のパタ
ーンのうち第2のパターンに該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第8図(a)
のように作成された後の処理について説明する。
図示の部分解析木に示される文は上述の日本語複文の
パターンのうち第2のパターンに該当し、大域的構文解
析部4による解析処理がなされる。ここでは格助詞
“を”動詞“受け取った”にかける際、接続助詞“て”
が“注文した”と“受け取った”の何れに係るかを判断
する。
まず、名詞“本”を修飾する連体修飾節が目的格連体
修飾節(連体修飾節と被修飾名詞との間の格関係が目的
格である連体修飾節)であること、及び“て”に係る動
詞“行く”に“は”が係っていることを根拠として、接
続助詞“て”は“注文した”に係ることができないとい
う結論を得る。
ちなみに、接続助詞“て”を介して連体修飾節内の述
語に係ろうとしている従属節に主語が存在している場合
には、その接続助詞は、主格の連体修飾節には係りにく
いと判断し、主格以外の連体修飾節の場合には、他の規
則によって、係りが決定されると判断する。また、その
従属節の主格助詞が“は”である場合には、接続助詞
“て”は、連体修飾節内には係れないと判断する。主格
助詞が“は”ではない時には、他の規則によって係り決
定されると判断する。
以上に基づいてスタック31の格助詞“を”に係る部分
解析木のうち“て”と“行く”とを切離し、“て”以下
の部分解析木をスタック31に入れる。そして、局所的構
文解析部3の処理により“を”を動詞“受け取った”に
かけて第8図(b)に示すような部分解析木を作成す
る。
最後に、局所的構文解析処理により“て”以下の部分
解析木を“受け取った”にかけ、第8図(c)のような
解析木を作成し、本例文についての解析処理を終了す
る。
(第4解析処理例) 第4の処理例では、“彼が丸善に行って買った本を私
が失くした。”という日本語複文を解析処理する場合に
ついて説明する。本例文は第3処理例と同様に第2のパ
ターンの日本語複文に該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第9図(a)
のように作成された後の処理について説明する。
図示の部分解析木に示される文は上述の日本語複文の
パターンのうち第2のパターンに該当し、大域的構文解
析部4による解析処理がなされる。ここでは格助詞
“を”動詞“失くした”にかける際、接続助詞“て”が
動作“買った”と“失くした”の何れに係るかを判断す
る。
まず、名詞“本”を修飾する連体修飾節が目的格連体
修飾節であること、及び“て”に係る動詞“行く”に
“は”が係っていないことから、“て”が“買った”と
“失くした”の何れに係るか判定できない。そのため、
さらに連体修飾節による被修飾名詞の共有性、各動詞
“行く”“買った”“失くした”の主語の共通性を順次
検査する。
ここで、連体修飾節による被修飾名詞の共有性とは、
着目する連体修飾節より文頭側にあって接続助詞を介し
て連体修飾節内へ係ろうとする従属節が、その同じ名詞
を修飾する形で連体修飾節を構成出来るか否かを言う。
そして、構成出来る時、連体修飾節による被修飾名詞を
共有すると言う。この従属節は接続助詞を介して、連体
修飾節内の述語に係ろうとするものと、運用中止法の様
に、表層上接続助詞を伴わずに係ろうとするものに分け
られる。後者の場合も同様に考える。
連体修飾節による被修飾名詞が共有されれば、接続助
詞“て”は、連体修飾節内の述語に係れると判断し、共
有されなければ、“て”の係りは主語の共通性によって
決定されると判断する。
したがって、ここでは連体修飾節による被修飾名詞を
共有できない(即ち“彼が丸善に行く本”とい運文は成
立たない)ため、“て”の係り先の判断は各動詞の主語
の共通性に依存し、“て”は共通の主語を持つ、より後
方の動詞に係る。
各動詞の主語の共通性について検査すると、“行く”
と“買った”の主語は“彼が”で共通し、“失くした”
には既に“私が”が主語として係っていることから“彼
が”は係ることができず一致しない。これより、“て”
は“買った”に係り、“失くした”には係らないことが
わかるので、“て”を“買った”にかけたままにしてお
く。
以上の処理により第9図(b)のような解析木を作成
し、本例文についての解析処理を終了する。
ここで、第3解析処理例と第4解析処理例を接続助詞
“て”に着目して比較すると、各例文は同一の文型を有
しながら、接続助詞“て”の係る動詞の位置が異なって
いる。このような場合でも本実施例の日本語構文解析シ
ステムによれば節又は句の係り受け構造を正しく判断す
ることができる。
(第5解析処理例) 第5処理例では“彼は全力を尽くしたが、試験に落ち
た。”という日本語複文を解析処理する場合について説
明する。本例文は上述した日本語複文のパターンのうち
第3のパターンに該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第10図(a)
のように作成された後の処理について説明する。
図示の部分解析木に示される文は第3パターンの日本
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは接続助詞“が”を動詞“落ちた”に
かける際、主格助詞“は”が“尽くした”と“落ちた”
の何れに係るかを判断する。
この係り受け関係を判断するために、主格助詞“は”
と接続助詞“が”の組合せ、動詞“尽くした”と“落ち
た”の主語の共通性を順次検査する。この場合、“は”
と“が”の組合せのみでは、“は”が“が”の前の動詞
に係るのかあるいは“が”を越えてその後ろの動詞に係
るのか決定することができないので、“は”の係り先の
判断は各動詞の主語の共通性に依存し、“は”は共通の
主語をもつ、より後方の動詞に係る。
ちなみに、格助詞“は”とある種の接続助詞の組合せ
においては、“は”は常にその接続助詞に前接する述語
には係れないと判断する。それ以外の場合には、“は”
の係りは、主語の共通性によって決定されると判断す
る。
各動詞の主語の共通性について検査すると、“尽くし
た”も“落ちた”も共に“彼”を主語とすることがわか
る。そこで“彼は”と“尽くした”とを切離す。
以上で大域的構文解析部4の処理を終え、局所的構文
解析部3の処理にもどり、“彼は”を“落ちた”にかけ
変える。但し、“彼は”が“尽くした”に係っていたこ
とは解析木中記憶しておく。
最後に、局所的構文解析処理により、“が”を“落ち
た”にかけて第10図(b)のような解析木を作成し、本
例文についての解析処理を終了する。
(第6解析処理例) 第6の処理例では、“彼は全力を尽くしたが、運が悪
かった。”という日本語複文を解析処理する場合につい
て説明する。本例文は第5処理例と同様に第3のパター
ンの日本語複文に該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第11図(a)
のように作成された後の処理について説明する。
図示の部分解析木に示される文は第3パターンの日本
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは、“尽くしたが”における接続助詞
“が”を形容詞“悪かった”にかける際、主格助詞
“は”が“尽くした”と“悪かった”の何れに係るかを
判断する。
この係り受け関係を判断するために、主格助詞“は”
と接続助詞“が”の組併せ、動詞“尽くした”と“悪か
った”の主語の共通性を順次検査する。この場合、
“は”と“が”の組合せのみでは、“は”が“が”の前
の動詞に係るのかあるいは“が”を越えてその後ろの形
容詞に係るのか決定することができないので、“は”の
係り先の判断は各述語の主語の共通性に依存し“は”は
共通の主語を持つ、より後方の述語に係る。
各述語の主語の共通性について検査すると、“尽くし
た”の主語が“彼”であるのに対し、“悪かった”には
既に“運”が主語として係っているため“彼”は主語と
なることができず、各述語の主語が一致しない。そこで
“彼は”は“尽くした”にかけたままにして大域的構文
解析部4の処理を終える。
最後に局所的構文解析部3により“尽くしたが”にお
ける“が”を“悪かった”にかけて第11図(b)のよう
な解析木を作成し、本例文についての解析処理を終了す
る。
ここで、第5解析処理例と第6解析処理例を主格助詞
“が”に着目して比較すると、各例文は同一の文型を有
しながら、主格助詞“は”の係る動詞の位置が異なって
いる。このような場合でも本実施例の日本語構文解析シ
ステムによれば節又は組の係り受け構造を正しく判断す
ることができる。
(第7解析処理例) 第7の処理例では、“A社株が昨日付けた年初来高値
を今日再び更新した。”という日本語複文を解析処理す
る場合について説明する。本例文は上述した日本語複文
のパターンのうち第4パターンに該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第12図(a)
のように作成された後の処理について説明する。
図示の部分解析木に示される文は第4パターンの日本
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは格助詞“を”を動詞“更新した”に
かける際、主格助詞“が”が“付けた”と“更新した”
の何れに係るかを判断する。
この係り受け関係を判断するために、主格助詞“が”
と連体修飾節との間に存在する、係り受け関係に関する
性質(連体修飾節を越えて、その後の述語に係るか否か
等)、動詞“付けた”と“更新した”の主語の共通性を
順次検査する。ここでは、連体修飾節が“が”の係れな
い主格連体修飾節(連体修飾節とその被修飾名詞との間
の格関係が主格である連体修飾節)でないことから、
“が”の係り先の判断は各動詞の主語の共通性に依存
し、“が”は共通の主語を持つ、より後方の動詞に係
る。
各動詞の主語の共通性について検査すると、“付け
た”も“更新した”も共に“A社株”を主語とすること
がわかり、そこで“A社株が”と、“付けた”とを切離
す。
以上で大域的構文解析部4の処理を終え、局所的構文
解析部3の処理にもどり、“A社株が”を“更新した”
にかけ変える。但し、“A社株が”が“付けた”に係っ
ていたことは解析木中に記憶しておく。
最後に局所的構文解析処理により“を”を“更新し
た”にかけて第12図(b)のような解析木を作成し、本
例文についての解析処理を終了する。
(第8解析処理例) 第8の処理例では、“A社株が昨日付けた高値をB社
株が抜いた。”という日本語複文を解析処理する場合に
ついて説明する。本例文は第7処理例と同様に第4のパ
ターンの日本語複文に該当する。
まず、形態素解析部1の形態素解析処理により上記例
文が単語ごとに分解され、各単語について局所的構文解
析部3により係り受け関係の判定及び部分解析木の作成
が行われる。以上の処理動作は第1解析処理例と同様な
ので説明を省略し、ここでは部分解析木が第13図(a)
のように作成された後の処理について説明する。
図示の部分解析木に示される文は第4パターンの日本
語複文に該当し、大域的構文解析部4による解析処理が
なされる。ここでは格助詞“を”を動詞“抜いた”にか
ける際、“A社株が”における主格助詞“が”が“付け
た”と“抜いた”の何れに係るかを判断する。
この係り受け関係を判断するために主格助詞“が”と
連体修飾節の間に存在する、係り受け関係に関する性質
(連体修飾節を越えて、その後の述語に係るか否か
等)、動詞“付けた”と“抜いた”の主語の共通性を順
次検査する。ここでは、連体修飾節が“が”の係れない
主格連体修飾節でないことから、“A社株が”における
“が”の係り先の判断は各動詞の主語の共通性に依存
し、“が”は共通の主語を持つ、より後方の動詞に係
る。
各動詞の主語の共通性について検査すると、“付け
た”の主語が“A社株”であるのに対し、“抜いた”に
は既に“B社株”が主語として係っているため“A社
株”は主語となることができず、各動詞の主語が一致し
ない。そこで“A社株が”は“付けた”にかけたままに
して大域的構文解析部4の処理を終える。
最後に局所的構文解析処理部3により“を”を“抜い
た”にかけて第13図(b)のような解析木を作成し、本
例文についての解析処理を終了する。
ここで、第7解析処理例と第8解析処理例を主格助詞
“が”に着目して比較すると、格例文は同一の文型を有
しながら、主格助詞“は”の係る動詞の位置が異なって
いる。このような場合でも本実施例の日本語構文解析シ
ステムによれば節又は句の係り受け構造を正しく判断す
ることができる。
以上、日本語複文の4パターンごとに2つずつ例文を
挙げて本実施例による解析処理について説明したが、大
域的構文解析部4の処理における解析規則は上記説明し
たものに限らず助詞の種類や日本語文の構造等に応じて
種々の規則を設けることができる。
この場合、解析対象となる日本語文に対応してその構
造的特徴等に基づく解析規則を用意することが必要とな
ることは言うまでもない。
[発明の効果] 上記説明したように本発明の日本語構文解析システム
によれば、係り受け関係を表わす解析木を分析し、所定
の解析規則に従って上記接続助詞及び名詞に続く
“は”、“が”、“には”、“では”の係り先の正当性
を判定し、必要に応じて上記解析木を修正する大域的構
文解析部を備えたことにより、日本語複文の係り受け構
造を自動的に解析することができる。また、これによ
り、これまでのように人手を介して複文を単文に分解す
るといった処理にかかる手間が低減される。
また、帯域的構文解析部は、単語の構文情報と意味情
報、及び日本語複文の構造的特徴に基づく解析規則に従
って、接続助詞及び格助詞の係り先の正当性を判定する
ことにより、知識ベースに述語間の可能な論理関係を蓄
える場合等に比べて効率よく正確な日本語文の解析処理
を行うことができるという効果がある。
さらに第2項の発明においては、日本語複文のうち、
接続助詞で連結された2つ以上の従属節を有する複
文、接続助詞の後方に連体修飾節を有する複文、名
詞に続く“は”、“が”、“には”、“では”の後方に
連体修飾節以外の複数の節を有する複文、名詞に続く
“は”、“が”、“には”、“では”の後方に連体修飾
節を有する複文の4つのパターンに該当するものについ
て、該日本語文の構造的特徴に基づいて各接続助詞及び
“は”、“が”、“には”、“では”の係り先を判定す
ることにより、係り受け関係が自明な日本語複文等に対
しては大域的構文解析部が起動せず、更に効率よく、か
つ正確に日本語文の解析処理を行うことができるという
効果がある。
【図面の簡単な説明】
第1図は本発明の日本語構文解析システムの一実施例を
示す機能ブロック図、 第2図は日本語辞書部の内容を示す図、 第3図は品詞マトリックステーブルの内容を示す図、 第4図乃至第13図は本実施例による日本語文の解析処理
を示す図である。 1:形態素解析部 2:解析処理部 3:局所的構文解析部 4:大域的構文解析部 11:日本語辞書部 21:品詞マトリックステーブル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 吉原 伸二 東京都新宿区西新宿2丁目6番1号 株 式会社シーエスケイ内 (56)参考文献 情報処理、Vol.26、No.10、 p.1203〜1213(1985) 電子技術総合研究所研究報告、第784 号、第22頁(1978) 電子技術総合研究所研究報告、第871 号、第50〜70頁(1986)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】形態素解析処理を施された日本語文を入力
    し、該日本語文の係り受け構造を判定する構文解析処理
    を行う日本語構文解析システムにおいて、 上記形態素解析処理により分割して得られた単語を2語
    づつ取り出して、上記形態素解析処理により得られた該
    単語の構文情報及び意味情報のみを利用し所定の解析規
    則に従って該単語間の係り受け関係を判定し、該単語間
    に係り受けが成立すると判断した場合に該単語間の係り
    受け関係を示す解析木を作成し、該解析木をスタックに
    格納する局所的構文解析部と、 上記局所的構文解析部によって作成された係り受け関係
    を示す解析木が表す日本語文が、 接続助詞で連結された2つ以上の従属節を有する複
    文、 接続助詞の後方に連体修飾節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
    方に連体修飾節以外の複数の節を有する複文、 名詞に続く“は”、“が”、“には”、“では”の後
    方に連体修飾節を有する複文、 の4つのパターンの何れかに該当するか否かを判定する
    判定手段と、 上記判定手段によって該当すると判定された複文に対
    し、前記局所的構文解析部で係ると判定された単語間の
    係り受け関係のうち接続助詞および名詞に続く“は”、
    “が”、“には”、“では”の係り先の正当性につい
    て、該単語の構文情報と意味情報に加えて上記日本語文
    の構造的特徴を利用し所定の解析規則に従って判定し、
    上記局所的構文解析部において作成された解析木を修正
    するとともに、該修正された解析木をスタックに格納す
    る大域構文解析部とを備えることを特徴とする日本語構
    文解析システム。
  2. 【請求項2】大域的構文解析部が、接続助詞で連結され
    た2つ以上の従属節を有する日本語文に対し、接続助詞
    の種類、又は各述語に対する主語の共通性に基づいて上
    記日本語文における接続助詞の係り先を判定し、上記局
    所的構文解析部において作成された解析木を修正するこ
    とを特徴とする請求項1に記載の日本語構文解析システ
    ム。
  3. 【請求項3】大域的構文解析部が、接続助詞の後方に連
    体修飾節を有する日本語に対し、接続助詞の種類、連体
    修飾節の種類、注目する述語に係る格助詞の種類、上記
    連体修飾節による被修飾名詞の共通性、又は各述語に対
    する主語の共通性に基づいて上記日本語文における接続
    助詞の係り先を判定し、上記局所的構文解析部において
    作成された解析木を修正することを特徴とする請求項第
    1項又は第2項に記載の日本語構文解析システム。
  4. 【請求項4】大域的構文解析部が、名詞に続く“は”、
    “が”、“には”、“では”の後方に連体修飾節以外の
    複文の節を有する日本語文に対し、上記名詞に続く助詞
    の種類、接続助詞の種類、又は各述語に対する主語の共
    通性に基づいて上記日本語文における上記“は”、
    “が”、“には”、“では”の係り先を判定し、上記局
    所的構文解析部において作成された解析木を修正するこ
    とを特徴とする請求項1ないし第3項に記載の日本語構
    文解析システム。
  5. 【請求項5】大域的構文解析部が、名詞に続く“は”、
    “が”、“には”、“では”の後方に連体修飾節を有す
    る日本語文に対し、上記名詞に続く助詞の種類、上記連
    体修飾節の種類、又は各述語に対する主語の共通性に基
    づいて上記日本語文における上記“は”、“が”、“に
    は”、“では”の係り先を判定し、上記局所的構文解析
    部において作成された解析木を修正することを特徴とす
    る請求項第1項ないし第4項に記載の日本語構文解析シ
    ステム。
JP31522890A 1990-08-20 1990-11-20 日本語構文解析システム Expired - Lifetime JP3293619B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP31522890A JP3293619B2 (ja) 1990-08-20 1990-11-20 日本語構文解析システム
EP91914616A EP0547222A1 (en) 1990-08-20 1991-08-20 System for syntax analysis of japanese language
CA 2070406 CA2070406A1 (en) 1990-08-20 1991-08-20 System for syntax analysis of japanese language
PCT/JP1991/001108 WO1992003796A1 (fr) 1990-08-20 1991-08-20 Systeme d'analyse syntaxique du japonais

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP21856190 1990-08-20
JP24939590 1990-09-19
JP2-218561 1990-10-15
JP2-275770 1990-10-15
JP27577090 1990-10-15
JP2-249395 1990-10-15
JP31522890A JP3293619B2 (ja) 1990-08-20 1990-11-20 日本語構文解析システム

Publications (2)

Publication Number Publication Date
JPH04211867A JPH04211867A (ja) 1992-08-03
JP3293619B2 true JP3293619B2 (ja) 2002-06-17

Family

ID=27476869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31522890A Expired - Lifetime JP3293619B2 (ja) 1990-08-20 1990-11-20 日本語構文解析システム

Country Status (3)

Country Link
EP (1) EP0547222A1 (ja)
JP (1) JP3293619B2 (ja)
WO (1) WO1992003796A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置
US7672829B2 (en) 1997-03-04 2010-03-02 Hiroshi Ishikura Pivot translation method and system
JP3912431B2 (ja) * 1997-03-04 2007-05-09 博 石倉 言語解析システムおよび方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS584479A (ja) * 1981-06-30 1983-01-11 Fujitsu Ltd 日本語文解析システム
JPS58169290A (ja) * 1982-03-31 1983-10-05 Fujitsu Ltd 自然言語解析方式
JPS60157659A (ja) * 1984-01-27 1985-08-17 Hitachi Ltd 日本語解析方式
JPS60193074A (ja) * 1984-03-14 1985-10-01 Ricoh Co Ltd 日本語解析装置
JP2960936B2 (ja) * 1987-07-13 1999-10-12 日本電信電話株式会社 係り受け解析装置
JPS6466777A (en) * 1987-09-08 1989-03-13 Sharp Kk Mechanical translation device
JPH02165378A (ja) * 1988-12-20 1990-06-26 Csk Corp 機械翻訳システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
情報処理、Vol.26、No.10、p.1203〜1213(1985)
電子技術総合研究所研究報告、第784号、第22頁(1978)
電子技術総合研究所研究報告、第871号、第50〜70頁(1986)

Also Published As

Publication number Publication date
JPH04211867A (ja) 1992-08-03
WO1992003796A1 (fr) 1992-03-05
EP0547222A1 (en) 1993-06-23
EP0547222A4 (en) 1993-04-26

Similar Documents

Publication Publication Date Title
Gaizauskas et al. University of Sheffield: Description of the LaSIE system as used for MUC-6
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
US6965857B1 (en) Method and apparatus for deriving information from written text
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
EP1351158A1 (en) Machine translation
US5297040A (en) Molecular natural language processing system
JP2001523019A (ja) テキストの本文の談話構造の自動認識
WO2001096980A2 (en) Method and system for text analysis
JPH0242572A (ja) 共起関係辞書生成保守方法
US20040243394A1 (en) Natural language processing apparatus, natural language processing method, and natural language processing program
JP3293619B2 (ja) 日本語構文解析システム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
US7921126B2 (en) Patent summarization systems and methods
Kashket Parsing a free-word order language: Warlpiri
US20020133331A1 (en) Correcting incomplete negation errors in French language text
JP3251032B2 (ja) 日本語解析装置
JP2003108583A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
KR100371135B1 (ko) 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법
JP4103311B2 (ja) 自然言語処理装置及び方法
JP3222173B2 (ja) 日本語構文解析システム
JPH0795323B2 (ja) 自然言語処理装置
JP3339006B2 (ja) 機械翻訳装置における並列名詞句処理装置
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JP2954592B2 (ja) 言語解析装置
Yerimbetova et al. Estimation of the degree of similarity of sentences in a natural language based on using the Link Grammar Parser program system

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080405

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090405

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100405

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100405

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110405

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110405

Year of fee payment: 9

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110405

Year of fee payment: 9

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110405

Year of fee payment: 9