JP3324910B2

JP3324910B2 - 日本語解析装置

Info

Publication number: JP3324910B2
Application number: JP20433295A
Authority: JP
Inventors: 裕子野沢
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1995-08-10
Filing date: 1995-08-10
Publication date: 2002-09-17
Anticipated expiration: 2015-08-10
Also published as: JPH0950434A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語解析に関
し、特に並列句の解析に関するものである。

【０００２】

【従来の技術】従来、この種の日本語解析方法は、日本
語を入力して英語等に翻訳する機械翻訳装置や、ワープ
ロ等で入力した文章を推敲する際の推敲支援装置等に応
用されている。この日本語解析方法には木構造を作りな
がら解析を進めるものがあり、特に埋め込み構造を含む
並列句を解析する場合には以下のようにしていた。即
ち、助詞「と」や接続詞「及び」等の並列句を構成する
語（並列句形成語）を挟んで連続する埋め込み構造を抽
出し、この並列句形成語を挟んだ前後の語句を並列関係
として捉えていた。

【０００３】

【発明が解決しようとする課題】しかしながらこの方法
によれば、簡単な日本語文の解析は可能になるものの、
次に示すような複雑な日本語文に対しては対応が困難に
なる場合がある。例えば「財布を落とした人と拾った財
布を警察に届けた人」という日本語文を解析すると、並
列句形成語である「と」の前後にある語句の「落とした
人」と「拾った財布」とが並列関係と認定されて解析さ
れてしまい、正しく解析されないのである。本来は、
「落とした人」と「届けた人」とが並列に認定されるべ
きである。

【０００４】この原因としては、基本的に日本語文の前
方から順に解析が行われることが挙げられる。つまり、
「財布を落とした人」について、並列句を構成する
「と」があるので並列の相手を探すとき、後方の「拾っ
た財布」との関係を見ることはできても、更に後方にあ
る「警察に届けた人」との関係については考慮されない
のである。さらに、一度並列関係を決定するとそれを覆
すことがない。即ち、「警察に届けた人」を解析すると
きには、「財布を落とした人」は既に解析処理済みで、
文中の役割が決定しているので、ここで改めて「財布を
落とした人」と「警察に届けた人」との関係を調べるこ
とはないのである。

【０００５】つまり、上記のような日本語解析方法で
は、並列構造とされる句は、「と」や「及び」等の語の
前後に決められており、実際には更に後方にある名詞句
と並列である場合、間違った結果を提示することにな
る。

【０００６】本発明は、上述した問題点を解決するため
になされたものであり、一旦並列句として解析処理が終
わった部分についても、更に後方に並列句候補となる埋
め込み構造があったら、先行詞や用言などを利用して木
構造の類似度を調べ、その結果、より類似していると判
断された句と並列関係にすることにより、より精度の高
い解析結果を得ることを目的とする。

【０００７】

【課題を解決するための手段】この目的を達成するため
に本発明の日本語解析装置は、日本語文を入力する入力
手段と、入力手段により入力された日本語文を記憶する
記憶手段と、日本語の単語とその意味と品詞からなる単
語情報と文法ルールとを記憶した辞書とを備え、前記記
憶手段に記憶された日本語文を、前記辞書の情報を参照
しつつ形態素解析し、先頭から順に構文解析を行なう日
本語解析装置であって、前記構文解析において、前記記
憶手段に記憶された日本語文の中に、並列句を構成する
接続詞や助詞等の並列句形成語の後ろに、「用言の連体
形＋名詞句」なる構造の埋め込み文が複数続くか否かを
判別する第１の判別手段と、「用言の連体形＋名詞句」
なる構造の埋め込み文が複数続く場合、前記並列句形成
語の直前の木構造と、前記並列句形成語の後ろの複数の
埋め込み文の木構造を判別する第２の判別手段と、前記
第２の判別手段により判別された前記並列句形成語の後
ろの複数の埋め込み文の木構造の各々と、前記並列句形
成語の直前の木構造との類似度を演算する演算手段と、
前記演算手段により演算された類似度に基づいて、前記
並列句形成語の直前の木構造に対して最も類似する前記
並列句形成語の後の木構造を選択する選択手段と、前記
選択手段により選択された木構造の埋め込み文を、前記
並列句形成語の直前の木構造に対する並列句と設定する
手段とを有する。

【０００８】このため、並列句形成語の直前の埋め込み
文と直後の埋め込み文とが常に並列句と認定してしまう
従来の方法に対し、並列句形成語の後の埋め込み文の中
から適切な埋め込み文が並列句として認定されるので、
日本語の構造解析の精度を向上することができるのであ
る。

【０００９】

【発明の実施の形態】以下、本発明を日本語から英語に
変換する機械翻訳装置に組み込まれる日本語解析装置と
して具体化した実施の形態を図面を参照して説明する。

【００１０】図１は実施の形態の構成を示すブロック図
である。まず図１を参照して全体の構成を説明する。

【００１１】解析の対象となる日本語文や指示を入力す
るための入力装置としてのキーボード等の入力装置１０
とＣＲＴ等の表示装置３０は、装置全体を制御するため
の中央処理装置（ＣＰＵ）２０に接続されている。

【００１２】記憶手段としてのＲＡＭ４０はＣＰＵ２０
に接続され、解析の対象として入力装置１０より与えら
れた日本語文を記憶するための入力文字列バッファ領域
４０ａと、翻訳結果の英語文を記憶するための出力文字
列バッファ領域４０ｂと、その他の作業をするためのワ
ーク領域４０ｃを格納している。

【００１３】辞書や文法ルールを格納するＲＯＭ５０は
ＣＰＵ２０と接続されている。辞書５０ａには図４に示
すように各単語の品詞や意味などの情報が記憶されてい
る。文法ルール５０ｂには与えられた日本語文を辞書の
情報を参照しながら解析する処理が記述されており、そ
の特徴的な一解析処理例を図２のフローチャートに示
す。

【００１４】また同じＲＯＭ５０には、入力装置１０か
ら文字や実行命令を取り込んだり、表示装置３０に処理
結果を表示したり、入力された日本語文に対し文法ルー
ルを起動させる等の動作をＣＰＵにさせるプログラム５
０ｃが格納されている。入力装置１０から入力された日
本語文は、ＣＰＵ２０を通してＲＡＭ４０内の入力文字
列バッファ領域４０ａに記憶されると共に、表示装置３
０に表示される。そして入力文字列バッファ領域４０ａ
に記憶された日本語文は、入力装置１０から日本語解析
実行命令があれば、ＲＯＭ５０内の文法ルールに従って
ＣＰＵ２０によって処理され、解析される。

【００１５】本実施の形態の日本語解析装置を組み込ん
だ機械翻訳装置では、入力装置１０から入力された解析
の対象となる日本語文は、辞書５０ａに記憶された各語
の活用や接続情報などに基づいて形態素解析され、名
詞、助詞、動詞といった品詞毎に分割される。そして隣
り合う名詞と助詞や、動詞と助動詞等がまとめられて文
節単位にされ、その後、各文節間の関係が文法ルール５
０ｂによって調べられ、構文解析が進められる。日本語
の解析が終了すると単語毎に日本語を英語に変換する変
換処理、変換処理結果である英語の単語列を文法的に正
しく並べ変え、数素性や時制等の情報も合わせて最終的
に英語文を生成する生成処理を経て、表示装置３０に表
示される。尚、日本語解析の処理を除く部分について
は、公知であるのでさらなる詳細な説明は省略する。

【００１６】次に、本発明の実施の形態として、入力装
置から入力された日本語文の構造解析処理について説明
する。この日本語文は、並列句を形成する接続詞や助詞
等の並列句形成語の後ろに、埋め込み文が複数続くもの
として説明する。また、この日本語文は、かな漢字混じ
り文の形で外部記憶装置から読み込まれたものであって
も良いし、キーボードから入力されたかな文字列からか
な漢字変換により作成されたものであっても良い。

【００１７】ここで、図２，図３は、並列句を構成する
接続詞や助詞の後ろに埋め込み文構造が複数続く場合の
解析処理の流れを示すフローチャートであり、図４は解
析処理に必要な辞書５０ａに格納された情報を模式的に
示した図である。ここで、与えられた日本語文が「財布
を落とした人と拾った財布を警察に届けた人」であると
する。この時、「落とした人と」の「と」が並列句形成
語としての助詞であり、「財布を落とした人」、「拾っ
た財布」、「警察に届けた人」がそれぞれ「用言の連体
形＋名詞」という埋め込み文構造となっている。この日
本語文の解析過程を図２，図３のフローチャートに基づ
いて説明する。

【００１８】与えられた日本語文は、公知の手法によ
り、まず形態素解析され、文節単位にまとめられた結
果、「財布を／落とす（連体形・過去）／人と／拾う
（連体形・過去）／財布を／警察に／届ける（連体形・
過去）／人」となり、これをもとにして解析処理が行わ
れるが、この日本語解析処理では、予め用意された多く
の文法ルールに基づいて、基本的に前から順に処理が行
われる（Ｓ１）。従って、まず「財布を」と「落とす」
の関係を調べるために「落とす」の辞書情報を参照する
と、図４に示されるように「落とす」は「を」を格に取
るので、「財布を」は「落とす」の格として解析され
る。

【００１９】次に「落とす」は連体形であり、直後に名
詞「人」があるので、埋め込み文構造であることがわか
る（Ｓ２：ＹＥＳ）。そこで「人」を先行詞とする第１
の埋め込み文の木構造を作る（Ｓ４）。図５（ａ）は、
この時の「財布を落とした人」の部分の解析結果である
木構造を模式的に示した図である。この木構造の模式図
では、下のノードが上のノードを修飾する関係にある。
したがって図５（ａ）では、「財布」が「落とす」の格
として「落とす」の下に位置し、「落とす」は「人」を
連体修飾するとして「人」の下に位置する。このよう
に、名詞を連体修飾する用言が名詞の下に位置する木構
造を埋め込み文の木構造であり、連体修飾を受ける名
詞、即ち「人」がこの埋め込み文構造の先行詞である。

【００２０】ここで、ステップＳ２において、入力文を
最後まで解析しても「用言の連体形」＋「名詞句」の組
合せがない時（Ｓ２：ＮＯ）は、別処理（Ｓ３）を行っ
てからこのルーチンを抜ける。

【００２１】ステップＳ４において第１の埋め込み文の
木構造が形成された後、ＣＰＵは後続の文節の解析を再
スタートする（Ｓ５）。

【００２２】その結果、「人と」の「と」が並列句を構
成する並列句形成語であると判断されると（Ｓ７：ＹＥ
Ｓ）、その後方から並列の相手を決定する必要がある。

【００２３】更に後続部分の解析が続くと（Ｓ９）、
「拾う」は連体形であり、直後に名詞「財布」があるの
で、埋め込み文構造であることがわかる（Ｓ１１：ＹＥ
Ｓ）。そこで「財布」を先行詞とする第２の埋め込み文
の木構造を作る（Ｓ１３）。図５（ｂ）は、この時の
「拾った財布」の解析結果である木構造を模式的に示し
た図である。そして、先ほど「人と」の「と」が並列句
を構成すると判断されているので、これまでの２つの埋
め込み文の先行詞を並列関係と設定する（Ｓ１５）。図
５（ｃ）は、この時の、並列関係にした解析結果である
木構造を模式的に示した図である。この並列関係の認定
までが従来の部分であり、「人」と「財布」とが並列関
係として認定されたまま構造解析が行われていたのであ
る。

【００２４】更に後続部分の解析が続き（Ｓ１７）、
「財布を届ける」の構造を調べると、図４に示されるよ
うに「届ける」は「を」を格に取るので、「財布を」は
「届ける」の格となる。そして「届ける」は連体形であ
り、直後に名詞「人」があるので、埋め込み文構造であ
ることがわかる（Ｓ１９：ＹＥＳ）。そこで「人」を先
行詞とする第３の埋め込み文の木構造を作る（Ｓ２
１）。図５（ｄ）はこの時の「財布を届けた人」の部分
の解析結果である木構造を、模式的に示した図である。

【００２５】しかしながら、図５（ｂ）の先行詞である
「財布」と、図５（ｄ）の用言の格である「財布」は同
じものを指しており、既に図５（ｃ）で示すような並列
句構造が作られているので、日本語文全体の解析結果で
ある木構造は図５（ｅ）に示すようなものとなる。図５
（ｅ）に示されるように、「人と」と並列構造を作った
「財布」は、更に続く第３の埋め込み文構造の一部であ
り、上方に「人」という先行詞が存在する。この時、
「人と」と正しく並列関係にある先行詞が「財布」では
なく、「人」である可能性が生じる。

【００２６】ここで文法ルールにおいて、木構造が図５
（ｅ）のように、第１の埋め込み文の先行詞との並列句
として解析した第２の埋め込み文の先行詞が、更に後方
にある第３の埋め込み文構造の一部であり、その先行詞
が木構造上で上方にある時、それぞれの先行詞以下の木
構造を比較する。つまり、並列句形成語である「と」の
直前の第１の埋め込み文構造と、並列句形成語の後ろの
第２、第３の埋め込み文構造とを比較し、その結果、よ
り類似度の高い埋め込み文構造を並列句の関係とする。
即ち、図５（ａ）の木構造と図５（ｂ）の木構造との比
較（Ｓ２３）、及び、図５（ａ）の木構造と図５（ｄ）
の木構造との比較（Ｓ２５）が行われる。この比較のた
めに、前記文法ルールには類似度の計算法として、１：
先行詞の見出し語が同じならば２点加算、２：用言の見
出し語が同じならば２点加算、３：先行詞の見出し語が
異なっても意味素性に共通の値を持つならば１点加算、
という演算ルールを設けており、見出し語の異同は図４
に示す辞書情報を使って判断される。

【００２７】これらの計算法をもとに、図５（ｅ）の木
構造を解析すると、まず、図５（ａ）の木構造と図５
（ｂ）の木構造との比較においては、この２つの木構造
は先行詞の見出し語が異なり、用言の見出し語もまた異
なっている。図４に示されるように、先行詞の意味素性
にも共通の値がない。従って、類似度は０点となる。次
に図５（ａ）の木構造と図５（ｄ）の木構造との比較を
行うと、この２つの木構造は、先行詞の見出しが同じで
用言の見出しは異なるので、類似度は２点となる。

【００２８】尚、先行詞の見出しが異なっても意味素性
に共通の値を持つというのは、図４の「人」と「警察
官」のように意味素性情報に「人間」という共通の値を
持つときのことを言う。

【００２９】この計算結果から、類似度の高い方の木構
造を並列関係と設定するのである。この場合は、図５
（ｄ）即ち「財布を届けた人」の方が図５（ｂ）「拾っ
た財布」よりも、図５（ａ）「財布を落とした人」との
類似度が高いので（Ｓ２７：ＹＥＳ）、「財布を落とし
た人」と「拾った財布」を並列関係としているこれまで
の図５（ｅ）に示す解析結果の木構造を破棄して、改め
て「財布を落とした人」と「財布を届けた人」とを並列
関係とする木構造を作成する（Ｓ２９）。この時の木構
造を図５（ｆ）に模式的に示す。

【００３０】入力文が、「財布を落とした人と拾った財
布を警察に届けた人が偶然出会った。」の様に、更に後
続部がある時、これ以降の解析処理は、この作り直され
た木構造をもとにして行われる（Ｓ３１）。

【００３１】この解析結果は、本実施の形態の翻訳装置
における次の段階である変換処理へ送られたり、必要に
応じて表示装置３０に表示されたりする。

【００３２】尚、前記実施の形態では、並列句形成語の
前も埋め込み文構造であり、類似度計算に用言の見出し
語の比較を加えたが、先行詞だけを比較することもでき
る。つまり、並列句形成語の前は、例えば「警察官と、
拾った財布を警察に届けた人」という日本語文のよう
に、用言がなくてもかまわない。この時の木構造を図６
（ａ）示す。この場合、前記実施の形態における第１の
木構造が図６（ｂ）、第２の木構造が図６（ｃ）、第３
の木構造が図６（ｄ）となる。これらの木構造につい
て、用言の比較時には、図６（ｂ）のように第１の木構
造には用言が存在しないので、当然見出し語が同じであ
るという演算結果は得られず、０点である。先行詞の比
較時に「警察官」と「財布」、「警察官」と「人」とを
それぞれ見出し語と意味素性を使って類似度を計算す
る。その結果から正しい並列構造を作ることもできる。

【００３３】以上詳述したように、図２におけるＳ７か
らＳ１９の処理が本発明の並列句形成語の後ろに複数の
埋め込み文が続くかを判別する処理に対応し、Ｓ２１の
処理が本発明の並列句形成語の前と後ろの複数の埋め込
み文の木構造を判別する処理に対応している。また、Ｓ
２３からＳ２７の処理が本発明の並列句形成語の直前の
木構造に最も類似するものを選択する処理に対応し、Ｓ
２９の処理が選択された木構造を、並列句形成語の直前
の木構造に対する並列句と設定して構造解析を行う処理
に対応している。

【００３４】

【発明の効果】以上説明したことから明かなように、本
発明の日本語解析装置では、一旦並列構造として処理を
終えた木構造について、その後、別の並列候補があれば
木構造の類似度を計算し、その結果によってはこれまで
の木構造を破棄して新しい並列構造を持つ木構造を作る
ことにより、より精度の高い解析結果を得ることができ
る。

【図面の簡単な説明】

【図１】本発明の実施の形態の構成を示すブロック図で
ある。

【図２】本発明の実施の形態の処理の流れを示すフロー
チャートである。

【図３】本発明の実施の形態の処理の流れを示すフロー
チャートである。

【図４】本発明の実施の形態の辞書情報を模式的に示し
た図である。

【図５】本発明の実施の形態の各段階の木構造を模式的
に示した図である。

【図６】本発明の実施の形態の各段階の他の例の木構造
を模式的に示した図である。

【符号の説明】

１０入力装置２０ＣＰＵ３０表示装置４０ＲＡＭ４０ａ入力文字列バッファ領域４０ｂ出力文字列バッファ領域４０ｃワーク領域５０ＲＯＭ５０ａ辞書５０ｂ文法ルール５０ｃプログラム

Claims

(57)【特許請求の範囲】

【請求項１】日本語文を入力する入力手段と、入力手段により入力された日本語文を記憶する記憶手段
と、日本語の単語とその意味と品詞からなる単語情報と文法
ルールとを記憶した辞書とを備え、前記記憶手段に記憶された日本語文を、前記辞書の情報
を参照しつつ形態素解析し、先頭から順に構文解析を行
なう日本語解析装置であって、前記構文解析において、前記記憶手段に記憶された日本
語文の中に、並列句を構成する接続詞や助詞等の並列句
形成語の後ろに、「用言の連体形＋名詞句」なる構造の
埋め込み文が複数続くか否かを判別する第１の判別手段
と、「用言の連体形＋名詞句」なる構造の埋め込み文が複数
続く場合、前記並列句形成語の直前の木構造と、前記並
列句形成語の後ろの複数の埋め込み文の木構造を判別す
る第２の判別手段と、前記第２の判別手段により判別された前記並列句形成語
の後ろの複数の埋め込み文の木構造の各々と、前記並列
句形成語の直前の木構造との類似度を演算する演算手段
と、前記演算手段により演算された類似度に基づいて、前記
並列句形成語の直前の木構造に対して最も類似する前記
並列句形成語の後の木構造を選択する選択手段と、前記選択手段により選択された木構造の埋め込み文を、
前記並列句形成語の直前の木構造に対する並列句と設定
する手段とを有することを特徴とする日本語解析装置。