JP3324910B2 - 日本語解析装置 - Google Patents
日本語解析装置Info
- Publication number
- JP3324910B2 JP3324910B2 JP20433295A JP20433295A JP3324910B2 JP 3324910 B2 JP3324910 B2 JP 3324910B2 JP 20433295 A JP20433295 A JP 20433295A JP 20433295 A JP20433295 A JP 20433295A JP 3324910 B2 JP3324910 B2 JP 3324910B2
- Authority
- JP
- Japan
- Prior art keywords
- tree structure
- parallel
- japanese
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、日本語解析に関
し、特に並列句の解析に関するものである。
し、特に並列句の解析に関するものである。
【0002】
【従来の技術】従来、この種の日本語解析方法は、日本
語を入力して英語等に翻訳する機械翻訳装置や、ワープ
ロ等で入力した文章を推敲する際の推敲支援装置等に応
用されている。この日本語解析方法には木構造を作りな
がら解析を進めるものがあり、特に埋め込み構造を含む
並列句を解析する場合には以下のようにしていた。即
ち、助詞「と」や接続詞「及び」等の並列句を構成する
語(並列句形成語)を挟んで連続する埋め込み構造を抽
出し、この並列句形成語を挟んだ前後の語句を並列関係
として捉えていた。
語を入力して英語等に翻訳する機械翻訳装置や、ワープ
ロ等で入力した文章を推敲する際の推敲支援装置等に応
用されている。この日本語解析方法には木構造を作りな
がら解析を進めるものがあり、特に埋め込み構造を含む
並列句を解析する場合には以下のようにしていた。即
ち、助詞「と」や接続詞「及び」等の並列句を構成する
語(並列句形成語)を挟んで連続する埋め込み構造を抽
出し、この並列句形成語を挟んだ前後の語句を並列関係
として捉えていた。
【0003】
【発明が解決しようとする課題】しかしながらこの方法
によれば、簡単な日本語文の解析は可能になるものの、
次に示すような複雑な日本語文に対しては対応が困難に
なる場合がある。例えば「財布を落とした人と拾った財
布を警察に届けた人」という日本語文を解析すると、並
列句形成語である「と」の前後にある語句の「落とした
人」と「拾った財布」とが並列関係と認定されて解析さ
れてしまい、正しく解析されないのである。本来は、
「落とした人」と「届けた人」とが並列に認定されるべ
きである。
によれば、簡単な日本語文の解析は可能になるものの、
次に示すような複雑な日本語文に対しては対応が困難に
なる場合がある。例えば「財布を落とした人と拾った財
布を警察に届けた人」という日本語文を解析すると、並
列句形成語である「と」の前後にある語句の「落とした
人」と「拾った財布」とが並列関係と認定されて解析さ
れてしまい、正しく解析されないのである。本来は、
「落とした人」と「届けた人」とが並列に認定されるべ
きである。
【0004】この原因としては、基本的に日本語文の前
方から順に解析が行われることが挙げられる。つまり、
「財布を落とした人」について、並列句を構成する
「と」があるので並列の相手を探すとき、後方の「拾っ
た財布」との関係を見ることはできても、更に後方にあ
る「警察に届けた人」との関係については考慮されない
のである。さらに、一度並列関係を決定するとそれを覆
すことがない。即ち、「警察に届けた人」を解析すると
きには、「財布を落とした人」は既に解析処理済みで、
文中の役割が決定しているので、ここで改めて「財布を
落とした人」と「警察に届けた人」との関係を調べるこ
とはないのである。
方から順に解析が行われることが挙げられる。つまり、
「財布を落とした人」について、並列句を構成する
「と」があるので並列の相手を探すとき、後方の「拾っ
た財布」との関係を見ることはできても、更に後方にあ
る「警察に届けた人」との関係については考慮されない
のである。さらに、一度並列関係を決定するとそれを覆
すことがない。即ち、「警察に届けた人」を解析すると
きには、「財布を落とした人」は既に解析処理済みで、
文中の役割が決定しているので、ここで改めて「財布を
落とした人」と「警察に届けた人」との関係を調べるこ
とはないのである。
【0005】つまり、上記のような日本語解析方法で
は、並列構造とされる句は、「と」や「及び」等の語の
前後に決められており、実際には更に後方にある名詞句
と並列である場合、間違った結果を提示することにな
る。
は、並列構造とされる句は、「と」や「及び」等の語の
前後に決められており、実際には更に後方にある名詞句
と並列である場合、間違った結果を提示することにな
る。
【0006】本発明は、上述した問題点を解決するため
になされたものであり、一旦並列句として解析処理が終
わった部分についても、更に後方に並列句候補となる埋
め込み構造があったら、先行詞や用言などを利用して木
構造の類似度を調べ、その結果、より類似していると判
断された句と並列関係にすることにより、より精度の高
い解析結果を得ることを目的とする。
になされたものであり、一旦並列句として解析処理が終
わった部分についても、更に後方に並列句候補となる埋
め込み構造があったら、先行詞や用言などを利用して木
構造の類似度を調べ、その結果、より類似していると判
断された句と並列関係にすることにより、より精度の高
い解析結果を得ることを目的とする。
【0007】
【課題を解決するための手段】この目的を達成するため
に本発明の日本語解析装置は、 日本語文を入力する入力
手段と、 入力手段により入力された日本語文を記憶する
記憶手段と、 日本語の単語とその意味と品詞からなる単
語情報と文法ルールとを記憶した辞書とを備え、 前記記
憶手段に記憶された日本語文を、前記辞書の情報を参照
しつつ形態素解析し、先頭から順に構文解析を行なう日
本語解析装置であって、 前記構文解析において、前記記
憶手段に記憶された日本語文の中に、並列句を構成する
接続詞や助詞等の並列句形成語の後ろに、「用言の連体
形+名詞句」なる構造の埋め込み文が複数続くか否かを
判別する第1の判別手段と、 「用言の連体形+名詞句」
なる構造の埋め込み文が複数続く場合、前記並列句形成
語の直前の木構造と、前記並列句形成語の後ろの複数の
埋め込み文の木構造を判別する第2の判別手段と、 前記
第2の判別手段により判別された前記並列句形成語の後
ろの複数の埋め込み文の木構造の各々と、前記並列句形
成語の直前の木構造との類似度を演算する演算手段と、
前記演算手段により演算された類似度に基づいて、前記
並列句形成語の直前の木構造に対して最も類似する前記
並列句形成語の後の木構造を選択する選択手段と、 前記
選択手段により選択された木構造の埋め込み文を、前記
並列句形成語の直前の木構造に対する並列句と設定する
手段と を有する。
に本発明の日本語解析装置は、 日本語文を入力する入力
手段と、 入力手段により入力された日本語文を記憶する
記憶手段と、 日本語の単語とその意味と品詞からなる単
語情報と文法ルールとを記憶した辞書とを備え、 前記記
憶手段に記憶された日本語文を、前記辞書の情報を参照
しつつ形態素解析し、先頭から順に構文解析を行なう日
本語解析装置であって、 前記構文解析において、前記記
憶手段に記憶された日本語文の中に、並列句を構成する
接続詞や助詞等の並列句形成語の後ろに、「用言の連体
形+名詞句」なる構造の埋め込み文が複数続くか否かを
判別する第1の判別手段と、 「用言の連体形+名詞句」
なる構造の埋め込み文が複数続く場合、前記並列句形成
語の直前の木構造と、前記並列句形成語の後ろの複数の
埋め込み文の木構造を判別する第2の判別手段と、 前記
第2の判別手段により判別された前記並列句形成語の後
ろの複数の埋め込み文の木構造の各々と、前記並列句形
成語の直前の木構造との類似度を演算する演算手段と、
前記演算手段により演算された類似度に基づいて、前記
並列句形成語の直前の木構造に対して最も類似する前記
並列句形成語の後の木構造を選択する選択手段と、 前記
選択手段により選択された木構造の埋め込み文を、前記
並列句形成語の直前の木構造に対する並列句と設定する
手段と を有する。
【0008】このため、並列句形成語の直前の埋め込み
文と直後の埋め込み文とが常に並列句と認定してしまう
従来の方法に対し、並列句形成語の後の埋め込み文の中
から適切な埋め込み文が並列句として認定されるので、
日本語の構造解析の精度を向上することができるのであ
る。
文と直後の埋め込み文とが常に並列句と認定してしまう
従来の方法に対し、並列句形成語の後の埋め込み文の中
から適切な埋め込み文が並列句として認定されるので、
日本語の構造解析の精度を向上することができるのであ
る。
【0009】
【発明の実施の形態】以下、本発明を日本語から英語に
変換する機械翻訳装置に組み込まれる日本語解析装置と
して具体化した実施の形態を図面を参照して説明する。
変換する機械翻訳装置に組み込まれる日本語解析装置と
して具体化した実施の形態を図面を参照して説明する。
【0010】図1は実施の形態の構成を示すブロック図
である。まず図1を参照して全体の構成を説明する。
である。まず図1を参照して全体の構成を説明する。
【0011】解析の対象となる日本語文や指示を入力す
るための入力装置としてのキーボード等の入力装置10
とCRT等の表示装置30は、装置全体を制御するため
の中央処理装置(CPU)20に接続されている。
るための入力装置としてのキーボード等の入力装置10
とCRT等の表示装置30は、装置全体を制御するため
の中央処理装置(CPU)20に接続されている。
【0012】記憶手段としてのRAM40はCPU20
に接続され、解析の対象として入力装置10より与えら
れた日本語文を記憶するための入力文字列バッファ領域
40aと、翻訳結果の英語文を記憶するための出力文字
列バッファ領域40bと、その他の作業をするためのワ
ーク領域40cを格納している。
に接続され、解析の対象として入力装置10より与えら
れた日本語文を記憶するための入力文字列バッファ領域
40aと、翻訳結果の英語文を記憶するための出力文字
列バッファ領域40bと、その他の作業をするためのワ
ーク領域40cを格納している。
【0013】辞書や文法ルールを格納するROM50は
CPU20と接続されている。辞書50aには図4に示
すように各単語の品詞や意味などの情報が記憶されてい
る。文法ルール50bには与えられた日本語文を辞書の
情報を参照しながら解析する処理が記述されており、そ
の特徴的な一解析処理例を図2のフローチャートに示
す。
CPU20と接続されている。辞書50aには図4に示
すように各単語の品詞や意味などの情報が記憶されてい
る。文法ルール50bには与えられた日本語文を辞書の
情報を参照しながら解析する処理が記述されており、そ
の特徴的な一解析処理例を図2のフローチャートに示
す。
【0014】また同じROM50には、入力装置10か
ら文字や実行命令を取り込んだり、表示装置30に処理
結果を表示したり、入力された日本語文に対し文法ルー
ルを起動させる等の動作をCPUにさせるプログラム5
0cが格納されている。入力装置10から入力された日
本語文は、CPU20を通してRAM40内の入力文字
列バッファ領域40aに記憶されると共に、表示装置3
0に表示される。そして入力文字列バッファ領域40a
に記憶された日本語文は、入力装置10から日本語解析
実行命令があれば、ROM50内の文法ルールに従って
CPU20によって処理され、解析される。
ら文字や実行命令を取り込んだり、表示装置30に処理
結果を表示したり、入力された日本語文に対し文法ルー
ルを起動させる等の動作をCPUにさせるプログラム5
0cが格納されている。入力装置10から入力された日
本語文は、CPU20を通してRAM40内の入力文字
列バッファ領域40aに記憶されると共に、表示装置3
0に表示される。そして入力文字列バッファ領域40a
に記憶された日本語文は、入力装置10から日本語解析
実行命令があれば、ROM50内の文法ルールに従って
CPU20によって処理され、解析される。
【0015】本実施の形態の日本語解析装置を組み込ん
だ機械翻訳装置では、入力装置10から入力された解析
の対象となる日本語文は、辞書50aに記憶された各語
の活用や接続情報などに基づいて形態素解析され、名
詞、助詞、動詞といった品詞毎に分割される。そして隣
り合う名詞と助詞や、動詞と助動詞等がまとめられて文
節単位にされ、その後、各文節間の関係が文法ルール5
0bによって調べられ、構文解析が進められる。日本語
の解析が終了すると単語毎に日本語を英語に変換する変
換処理、変換処理結果である英語の単語列を文法的に正
しく並べ変え、数素性や時制等の情報も合わせて最終的
に英語文を生成する生成処理を経て、表示装置30に表
示される。尚、日本語解析の処理を除く部分について
は、公知であるのでさらなる詳細な説明は省略する。
だ機械翻訳装置では、入力装置10から入力された解析
の対象となる日本語文は、辞書50aに記憶された各語
の活用や接続情報などに基づいて形態素解析され、名
詞、助詞、動詞といった品詞毎に分割される。そして隣
り合う名詞と助詞や、動詞と助動詞等がまとめられて文
節単位にされ、その後、各文節間の関係が文法ルール5
0bによって調べられ、構文解析が進められる。日本語
の解析が終了すると単語毎に日本語を英語に変換する変
換処理、変換処理結果である英語の単語列を文法的に正
しく並べ変え、数素性や時制等の情報も合わせて最終的
に英語文を生成する生成処理を経て、表示装置30に表
示される。尚、日本語解析の処理を除く部分について
は、公知であるのでさらなる詳細な説明は省略する。
【0016】次に、本発明の実施の形態として、入力装
置から入力された日本語文の構造解析処理について説明
する。この日本語文は、並列句を形成する接続詞や助詞
等の並列句形成語の後ろに、埋め込み文が複数続くもの
として説明する。また、この日本語文は、かな漢字混じ
り文の形で外部記憶装置から読み込まれたものであって
も良いし、キーボードから入力されたかな文字列からか
な漢字変換により作成されたものであっても良い。
置から入力された日本語文の構造解析処理について説明
する。この日本語文は、並列句を形成する接続詞や助詞
等の並列句形成語の後ろに、埋め込み文が複数続くもの
として説明する。また、この日本語文は、かな漢字混じ
り文の形で外部記憶装置から読み込まれたものであって
も良いし、キーボードから入力されたかな文字列からか
な漢字変換により作成されたものであっても良い。
【0017】ここで、図2,図3は、並列句を構成する
接続詞や助詞の後ろに埋め込み文構造が複数続く場合の
解析処理の流れを示すフローチャートであり、図4は解
析処理に必要な辞書50aに格納された情報を模式的に
示した図である。ここで、与えられた日本語文が「財布
を落とした人と拾った財布を警察に届けた人」であると
する。この時、「落とした人と」の「と」が並列句形成
語としての助詞であり、「財布を落とした人」、「拾っ
た財布」、「警察に届けた人」がそれぞれ「用言の連体
形+名詞」という埋め込み文構造となっている。この日
本語文の解析過程を図2,図3のフローチャートに基づ
いて説明する。
接続詞や助詞の後ろに埋め込み文構造が複数続く場合の
解析処理の流れを示すフローチャートであり、図4は解
析処理に必要な辞書50aに格納された情報を模式的に
示した図である。ここで、与えられた日本語文が「財布
を落とした人と拾った財布を警察に届けた人」であると
する。この時、「落とした人と」の「と」が並列句形成
語としての助詞であり、「財布を落とした人」、「拾っ
た財布」、「警察に届けた人」がそれぞれ「用言の連体
形+名詞」という埋め込み文構造となっている。この日
本語文の解析過程を図2,図3のフローチャートに基づ
いて説明する。
【0018】与えられた日本語文は、公知の手法によ
り、まず形態素解析され、文節単位にまとめられた結
果、「財布を/落とす(連体形・過去)/人と/拾う
(連体形・過去)/財布を/警察に/届ける(連体形・
過去)/人」となり、これをもとにして解析処理が行わ
れるが、この日本語解析処理では、予め用意された多く
の文法ルールに基づいて、基本的に前から順に処理が行
われる(S1)。従って、まず「財布を」と「落とす」
の関係を調べるために「落とす」の辞書情報を参照する
と、図4に示されるように「落とす」は「を」を格に取
るので、「財布を」は「落とす」の格として解析され
る。
り、まず形態素解析され、文節単位にまとめられた結
果、「財布を/落とす(連体形・過去)/人と/拾う
(連体形・過去)/財布を/警察に/届ける(連体形・
過去)/人」となり、これをもとにして解析処理が行わ
れるが、この日本語解析処理では、予め用意された多く
の文法ルールに基づいて、基本的に前から順に処理が行
われる(S1)。従って、まず「財布を」と「落とす」
の関係を調べるために「落とす」の辞書情報を参照する
と、図4に示されるように「落とす」は「を」を格に取
るので、「財布を」は「落とす」の格として解析され
る。
【0019】次に「落とす」は連体形であり、直後に名
詞「人」があるので、埋め込み文構造であることがわか
る(S2:YES)。そこで「人」を先行詞とする第1
の埋め込み文の木構造を作る(S4)。図5(a)は、
この時の「財布を落とした人」の部分の解析結果である
木構造を模式的に示した図である。この木構造の模式図
では、下のノードが上のノードを修飾する関係にある。
したがって図5(a)では、「財布」が「落とす」の格
として「落とす」の下に位置し、「落とす」は「人」を
連体修飾するとして「人」の下に位置する。このよう
に、名詞を連体修飾する用言が名詞の下に位置する木構
造を埋め込み文の木構造であり、連体修飾を受ける名
詞、即ち「人」がこの埋め込み文構造の先行詞である。
詞「人」があるので、埋め込み文構造であることがわか
る(S2:YES)。そこで「人」を先行詞とする第1
の埋め込み文の木構造を作る(S4)。図5(a)は、
この時の「財布を落とした人」の部分の解析結果である
木構造を模式的に示した図である。この木構造の模式図
では、下のノードが上のノードを修飾する関係にある。
したがって図5(a)では、「財布」が「落とす」の格
として「落とす」の下に位置し、「落とす」は「人」を
連体修飾するとして「人」の下に位置する。このよう
に、名詞を連体修飾する用言が名詞の下に位置する木構
造を埋め込み文の木構造であり、連体修飾を受ける名
詞、即ち「人」がこの埋め込み文構造の先行詞である。
【0020】ここで、ステップS2において、入力文を
最後まで解析しても「用言の連体形」+「名詞句」の組
合せがない時(S2:NO)は、別処理(S3)を行っ
てからこのルーチンを抜ける。
最後まで解析しても「用言の連体形」+「名詞句」の組
合せがない時(S2:NO)は、別処理(S3)を行っ
てからこのルーチンを抜ける。
【0021】ステップS4において第1の埋め込み文の
木構造が形成された後、CPUは後続の文節の解析を再
スタートする(S5)。
木構造が形成された後、CPUは後続の文節の解析を再
スタートする(S5)。
【0022】その結果、「人と」の「と」が並列句を構
成する並列句形成語であると判断されると(S7:YE
S)、その後方から並列の相手を決定する必要がある。
成する並列句形成語であると判断されると(S7:YE
S)、その後方から並列の相手を決定する必要がある。
【0023】更に後続部分の解析が続くと(S9)、
「拾う」は連体形であり、直後に名詞「財布」があるの
で、埋め込み文構造であることがわかる(S11:YE
S)。そこで「財布」を先行詞とする第2の埋め込み文
の木構造を作る(S13)。図5(b)は、この時の
「拾った財布」の解析結果である木構造を模式的に示し
た図である。そして、先ほど「人と」の「と」が並列句
を構成すると判断されているので、これまでの2つの埋
め込み文の先行詞を並列関係と設定する(S15)。図
5(c)は、この時の、並列関係にした解析結果である
木構造を模式的に示した図である。この並列関係の認定
までが従来の部分であり、「人」と「財布」とが並列関
係として認定されたまま構造解析が行われていたのであ
る。
「拾う」は連体形であり、直後に名詞「財布」があるの
で、埋め込み文構造であることがわかる(S11:YE
S)。そこで「財布」を先行詞とする第2の埋め込み文
の木構造を作る(S13)。図5(b)は、この時の
「拾った財布」の解析結果である木構造を模式的に示し
た図である。そして、先ほど「人と」の「と」が並列句
を構成すると判断されているので、これまでの2つの埋
め込み文の先行詞を並列関係と設定する(S15)。図
5(c)は、この時の、並列関係にした解析結果である
木構造を模式的に示した図である。この並列関係の認定
までが従来の部分であり、「人」と「財布」とが並列関
係として認定されたまま構造解析が行われていたのであ
る。
【0024】更に後続部分の解析が続き(S17)、
「財布を届ける」の構造を調べると、図4に示されるよ
うに「届ける」は「を」を格に取るので、「財布を」は
「届ける」の格となる。そして「届ける」は連体形であ
り、直後に名詞「人」があるので、埋め込み文構造であ
ることがわかる(S19:YES)。そこで「人」を先
行詞とする第3の埋め込み文の木構造を作る(S2
1)。図5(d)はこの時の「財布を届けた人」の部分
の解析結果である木構造を、模式的に示した図である。
「財布を届ける」の構造を調べると、図4に示されるよ
うに「届ける」は「を」を格に取るので、「財布を」は
「届ける」の格となる。そして「届ける」は連体形であ
り、直後に名詞「人」があるので、埋め込み文構造であ
ることがわかる(S19:YES)。そこで「人」を先
行詞とする第3の埋め込み文の木構造を作る(S2
1)。図5(d)はこの時の「財布を届けた人」の部分
の解析結果である木構造を、模式的に示した図である。
【0025】しかしながら、図5(b)の先行詞である
「財布」と、図5(d)の用言の格である「財布」は同
じものを指しており、既に図5(c)で示すような並列
句構造が作られているので、日本語文全体の解析結果で
ある木構造は図5(e)に示すようなものとなる。図5
(e)に示されるように、「人と」と並列構造を作った
「財布」は、更に続く第3の埋め込み文構造の一部であ
り、上方に「人」という先行詞が存在する。この時、
「人と」と正しく並列関係にある先行詞が「財布」では
なく、「人」である可能性が生じる。
「財布」と、図5(d)の用言の格である「財布」は同
じものを指しており、既に図5(c)で示すような並列
句構造が作られているので、日本語文全体の解析結果で
ある木構造は図5(e)に示すようなものとなる。図5
(e)に示されるように、「人と」と並列構造を作った
「財布」は、更に続く第3の埋め込み文構造の一部であ
り、上方に「人」という先行詞が存在する。この時、
「人と」と正しく並列関係にある先行詞が「財布」では
なく、「人」である可能性が生じる。
【0026】ここで文法ルールにおいて、木構造が図5
(e)のように、第1の埋め込み文の先行詞との並列句
として解析した第2の埋め込み文の先行詞が、更に後方
にある第3の埋め込み文構造の一部であり、その先行詞
が木構造上で上方にある時、それぞれの先行詞以下の木
構造を比較する。つまり、並列句形成語である「と」の
直前の第1の埋め込み文構造と、並列句形成語の後ろの
第2、第3の埋め込み文構造とを比較し、その結果、よ
り類似度の高い埋め込み文構造を並列句の関係とする。
即ち、図5(a)の木構造と図5(b)の木構造との比
較(S23)、及び、図5(a)の木構造と図5(d)
の木構造との比較(S25)が行われる。この比較のた
めに、前記文法ルールには類似度の計算法として、1:
先行詞の見出し語が同じならば2点加算、2:用言の見
出し語が同じならば2点加算、3:先行詞の見出し語が
異なっても意味素性に共通の値を持つならば1点加算、
という演算ルールを設けており、見出し語の異同は図4
に示す辞書情報を使って判断される。
(e)のように、第1の埋め込み文の先行詞との並列句
として解析した第2の埋め込み文の先行詞が、更に後方
にある第3の埋め込み文構造の一部であり、その先行詞
が木構造上で上方にある時、それぞれの先行詞以下の木
構造を比較する。つまり、並列句形成語である「と」の
直前の第1の埋め込み文構造と、並列句形成語の後ろの
第2、第3の埋め込み文構造とを比較し、その結果、よ
り類似度の高い埋め込み文構造を並列句の関係とする。
即ち、図5(a)の木構造と図5(b)の木構造との比
較(S23)、及び、図5(a)の木構造と図5(d)
の木構造との比較(S25)が行われる。この比較のた
めに、前記文法ルールには類似度の計算法として、1:
先行詞の見出し語が同じならば2点加算、2:用言の見
出し語が同じならば2点加算、3:先行詞の見出し語が
異なっても意味素性に共通の値を持つならば1点加算、
という演算ルールを設けており、見出し語の異同は図4
に示す辞書情報を使って判断される。
【0027】これらの計算法をもとに、図5(e)の木
構造を解析すると、まず、図5(a)の木構造と図5
(b)の木構造との比較においては、この2つの木構造
は先行詞の見出し語が異なり、用言の見出し語もまた異
なっている。図4に示されるように、先行詞の意味素性
にも共通の値がない。従って、類似度は0点となる。次
に図5(a)の木構造と図5(d)の木構造との比較を
行うと、この2つの木構造は、先行詞の見出しが同じで
用言の見出しは異なるので、類似度は2点となる。
構造を解析すると、まず、図5(a)の木構造と図5
(b)の木構造との比較においては、この2つの木構造
は先行詞の見出し語が異なり、用言の見出し語もまた異
なっている。図4に示されるように、先行詞の意味素性
にも共通の値がない。従って、類似度は0点となる。次
に図5(a)の木構造と図5(d)の木構造との比較を
行うと、この2つの木構造は、先行詞の見出しが同じで
用言の見出しは異なるので、類似度は2点となる。
【0028】尚、先行詞の見出しが異なっても意味素性
に共通の値を持つというのは、図4の「人」と「警察
官」のように意味素性情報に「人間」という共通の値を
持つときのことを言う。
に共通の値を持つというのは、図4の「人」と「警察
官」のように意味素性情報に「人間」という共通の値を
持つときのことを言う。
【0029】この計算結果から、類似度の高い方の木構
造を並列関係と設定するのである。この場合は、図5
(d)即ち「財布を届けた人」の方が図5(b)「拾っ
た財布」よりも、図5(a)「財布を落とした人」との
類似度が高いので(S27:YES)、「財布を落とし
た人」と「拾った財布」を並列関係としているこれまで
の図5(e)に示す解析結果の木構造を破棄して、改め
て「財布を落とした人」と「財布を届けた人」とを並列
関係とする木構造を作成する(S29)。この時の木構
造を図5(f)に模式的に示す。
造を並列関係と設定するのである。この場合は、図5
(d)即ち「財布を届けた人」の方が図5(b)「拾っ
た財布」よりも、図5(a)「財布を落とした人」との
類似度が高いので(S27:YES)、「財布を落とし
た人」と「拾った財布」を並列関係としているこれまで
の図5(e)に示す解析結果の木構造を破棄して、改め
て「財布を落とした人」と「財布を届けた人」とを並列
関係とする木構造を作成する(S29)。この時の木構
造を図5(f)に模式的に示す。
【0030】入力文が、「財布を落とした人と拾った財
布を警察に届けた人が偶然出会った。」の様に、更に後
続部がある時、これ以降の解析処理は、この作り直され
た木構造をもとにして行われる(S31)。
布を警察に届けた人が偶然出会った。」の様に、更に後
続部がある時、これ以降の解析処理は、この作り直され
た木構造をもとにして行われる(S31)。
【0031】この解析結果は、本実施の形態の翻訳装置
における次の段階である変換処理へ送られたり、必要に
応じて表示装置30に表示されたりする。
における次の段階である変換処理へ送られたり、必要に
応じて表示装置30に表示されたりする。
【0032】尚、前記実施の形態では、並列句形成語の
前も埋め込み文構造であり、類似度計算に用言の見出し
語の比較を加えたが、先行詞だけを比較することもでき
る。つまり、並列句形成語の前は、例えば「警察官と、
拾った財布を警察に届けた人」という日本語文のよう
に、用言がなくてもかまわない。この時の木構造を図6
(a)示す。この場合、前記実施の形態における第1の
木構造が図6(b)、第2の木構造が図6(c)、第3
の木構造が図6(d)となる。これらの木構造につい
て、用言の比較時には、図6(b)のように第1の木構
造には用言が存在しないので、当然見出し語が同じであ
るという演算結果は得られず、0点である。先行詞の比
較時に「警察官」と「財布」、「警察官」と「人」とを
それぞれ見出し語と意味素性を使って類似度を計算す
る。その結果から正しい並列構造を作ることもできる。
前も埋め込み文構造であり、類似度計算に用言の見出し
語の比較を加えたが、先行詞だけを比較することもでき
る。つまり、並列句形成語の前は、例えば「警察官と、
拾った財布を警察に届けた人」という日本語文のよう
に、用言がなくてもかまわない。この時の木構造を図6
(a)示す。この場合、前記実施の形態における第1の
木構造が図6(b)、第2の木構造が図6(c)、第3
の木構造が図6(d)となる。これらの木構造につい
て、用言の比較時には、図6(b)のように第1の木構
造には用言が存在しないので、当然見出し語が同じであ
るという演算結果は得られず、0点である。先行詞の比
較時に「警察官」と「財布」、「警察官」と「人」とを
それぞれ見出し語と意味素性を使って類似度を計算す
る。その結果から正しい並列構造を作ることもできる。
【0033】以上詳述したように、図2におけるS7か
らS19の処理が本発明の並列句形成語の後ろに複数の
埋め込み文が続くかを判別する処理に対応し、S21の
処理が本発明の並列句形成語の前と後ろの複数の埋め込
み文の木構造を判別する処理に対応している。また、S
23からS27の処理が本発明の並列句形成語の直前の
木構造に最も類似するものを選択する処理に対応し、S
29の処理が選択された木構造を、並列句形成語の直前
の木構造に対する並列句と設定して構造解析を行う処理
に対応している。
らS19の処理が本発明の並列句形成語の後ろに複数の
埋め込み文が続くかを判別する処理に対応し、S21の
処理が本発明の並列句形成語の前と後ろの複数の埋め込
み文の木構造を判別する処理に対応している。また、S
23からS27の処理が本発明の並列句形成語の直前の
木構造に最も類似するものを選択する処理に対応し、S
29の処理が選択された木構造を、並列句形成語の直前
の木構造に対する並列句と設定して構造解析を行う処理
に対応している。
【0034】
【発明の効果】以上説明したことから明かなように、本
発明の日本語解析装置では、一旦並列構造として処理を
終えた木構造について、その後、別の並列候補があれば
木構造の類似度を計算し、その結果によってはこれまで
の木構造を破棄して新しい並列構造を持つ木構造を作る
ことにより、より精度の高い解析結果を得ることができ
る。
発明の日本語解析装置では、一旦並列構造として処理を
終えた木構造について、その後、別の並列候補があれば
木構造の類似度を計算し、その結果によってはこれまで
の木構造を破棄して新しい並列構造を持つ木構造を作る
ことにより、より精度の高い解析結果を得ることができ
る。
【図1】本発明の実施の形態の構成を示すブロック図で
ある。
ある。
【図2】本発明の実施の形態の処理の流れを示すフロー
チャートである。
チャートである。
【図3】本発明の実施の形態の処理の流れを示すフロー
チャートである。
チャートである。
【図4】本発明の実施の形態の辞書情報を模式的に示し
た図である。
た図である。
【図5】本発明の実施の形態の各段階の木構造を模式的
に示した図である。
に示した図である。
【図6】本発明の実施の形態の各段階の他の例の木構造
を模式的に示した図である。
を模式的に示した図である。
10 入力装置 20 CPU 30 表示装置 40 RAM 40a 入力文字列バッファ領域 40b 出力文字列バッファ領域 40c ワーク領域 50 ROM 50a 辞書 50b 文法ルール 50c プログラム
Claims (1)
- 【請求項1】 日本語文を入力する入力手段と、 入力手段により入力された日本語文を記憶する記憶手段
と、 日本語の単語とその意味と品詞からなる単語情報と文法
ルールとを記憶した辞書とを備え、 前記記憶手段に記憶された日本語文を、前記辞書の情報
を参照しつつ形態素解析し、先頭から順に構文解析を行
なう日本語解析装置であって、 前記構文解析において、前記記憶手段に記憶された日本
語文の中に、並列句を構成する接続詞や助詞等の並列句
形成語の後ろに、「用言の連体形+名詞句」なる構造の
埋め込み文が複数続くか否かを判別する第1の判別手段
と、 「用言の連体形+名詞句」なる構造の埋め込み文が複数
続く場合、前記並列句形成語の直前の木構造と、前記並
列句形成語の後ろの複数の埋め込み文の木構造を判別す
る第2の判別手段と、 前記第2の判別手段により判別された前記並列句形成語
の後ろの複数の埋め込み文の木構造の各々と、前記並列
句形成語の直前の木構造との類似度を演算する演算手段
と、 前記演算手段により演算された類似度に基づいて、前記
並列句形成語の直前の木構造に対して最も類似する前記
並列句形成語の後の木構造を選択する選択手段と、 前記選択手段により選択された木構造の埋め込み文を、
前記並列句形成語の直前の木構造に対する並列句と設定
する手段とを有することを特徴とする日本語解析装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20433295A JP3324910B2 (ja) | 1995-08-10 | 1995-08-10 | 日本語解析装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20433295A JP3324910B2 (ja) | 1995-08-10 | 1995-08-10 | 日本語解析装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0950434A JPH0950434A (ja) | 1997-02-18 |
| JP3324910B2 true JP3324910B2 (ja) | 2002-09-17 |
Family
ID=16488751
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP20433295A Expired - Fee Related JP3324910B2 (ja) | 1995-08-10 | 1995-08-10 | 日本語解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3324910B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103034627B (zh) * | 2011-10-09 | 2016-05-25 | 北京百度网讯科技有限公司 | 计算句子相似度的方法和装置以及机器翻译的方法和装置 |
| JP6663881B2 (ja) * | 2017-04-13 | 2020-03-13 | 日本電信電話株式会社 | 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム |
-
1995
- 1995-08-10 JP JP20433295A patent/JP3324910B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0950434A (ja) | 1997-02-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0180888B1 (en) | Method and apparatus for natural language processing | |
| JP3531468B2 (ja) | 文書処理装置及び方法 | |
| US5745602A (en) | Automatic method of selecting multi-word key phrases from a document | |
| JPH0756957A (ja) | ユーザへの情報提供方法 | |
| JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
| JP3324910B2 (ja) | 日本語解析装置 | |
| US7548857B2 (en) | Method for natural voice recognition based on a generative transformation/phrase structure grammar | |
| JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
| JPS6180362A (ja) | 翻訳装置 | |
| JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
| JPH08161354A (ja) | 文書検索装置 | |
| JPH11338863A (ja) | 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 | |
| JPH11282839A (ja) | 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH0320866A (ja) | テキストベース検索方式 | |
| JP2719453B2 (ja) | 機械翻訳装置 | |
| JPH01114976A (ja) | 文書処理装置の辞書構造 | |
| JPH0749872A (ja) | キーワード自動抽出方式 | |
| JP3043038B2 (ja) | 言語表現の特徴判定装置 | |
| JPH01185766A (ja) | かな漢字変換装置 | |
| JPH07105213A (ja) | 言語処理装置 | |
| JPH0869466A (ja) | 自然言語解析装置 | |
| JPH0687239B2 (ja) | 文字処理装置 | |
| JPH1011450A (ja) | 概念属性値辞書および自然言語処理装置 | |
| JPH0619961A (ja) | 中国語文解析方法および中国語文解析装置 | |
| JPH09212507A (ja) | 文字処理装置と文字列の解析方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |