JPH07230461A

JPH07230461A - 構文解析装置及び機械翻訳装置

Info

Publication number: JPH07230461A
Application number: JP6031086A
Authority: JP
Inventors: Ayako Oono; 亜矢子大野; Takashi Katooka; 隆加登岡; Yoshihisa Oguro; 慶久大黒; Anuiru Fuirisu; アンウイルフイリス
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-12-24
Filing date: 1994-03-01
Publication date: 1995-08-29

Abstract

(57)【要約】【目的】隣接可能な品詞対について句の分割可能性を
示すマッピングデータベースを用いて、入力文の構造を
高速に解析する。【構成】入力部１は、対象言語の文の単語列と対応す
る品詞列を入力として受け付ける。句分割部３では、入
力品詞列の各連接品詞対についてマッピングデータベー
スを検索し、対応する句分割情報を記憶する。構造解析
部４では、句分割部３で記憶した句分割情報を基に入力
文の単語列を句にまとめあげる。出力部５は文書造解析
部４で解析した文の構造を出力する機構である。制御部
６は入力部１とマッピングデータベース２と句分割部３
と文構造解析部４と出力部５の各部間の連絡やデータの
受け渡しを制御する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、構文解析装置及び機械
翻訳装置に関し、より詳細には、自然言語処理技術にお
ける文の構造を解析する構文解析装置及び原文の部分に
ついて目的言語の訳を生成する機械翻訳装置に関する。
例えば、キーワード検索や要約，大量のコーパスからの
データ抽出など、高速で頑強な簡易構文解析処理を必要
とする処理あるいは機械翻訳など、本格的な構文解析処
理の前処理に適用されるものであり、また、要求に応じ
て部分訳を表示して外国語の読解を支援する装置に適用
されるものである。

【０００２】

【従来の技術】従来、自然言語の構文解析は、例文１が
入力として与えられた時、例文１ Late Jurassic sedimentation was strongly controlle
d by maximumsubsidence along the same trough axis. その構文を、図１７のような句や節の上位下位関係を示
す木構造として解析することを目的とし、言語モデルと
しては文脈自由文法が主に用いられている。

【０００３】ところで、文を図１７のような構造へ解析
するには、句同士の修飾関係を決定しなければならない
が、自然言語の現象は非常に多岐多様にわたっており、
修飾先の候補決定には、様々な多義性を解消することが
必要である。例えば、上記の例文１の構造を解析するた
めには、前置詞句“along the same trough axis”が直
前の名詞句“maximum subsidence”を修飾するのか、そ
れとも動詞句“was strongly controlled”を修飾する
のかを判別しなければならない。この判別は、文脈自由
文法だけでは不可能で、意味情報や確率値を導入した複
雑な処理が必要となっている。

【０００４】従来の構文解析方式について記載した公知
文献としては、例えば、特開平２−２５４５６５号公
報のものがある。この公報のものは、新しく連接確率を
導入し、語の優先度を併用することで、構文解析効率の
向上を図るために、形態素解析部での解析対象テキスト
の辞書引きの後に、各々の語が持つ品詞を、それぞれの
間の連接確率の積を計算することにより、最も連接確率
の高くなる組み合わせを満たすものに限定して、複数の
品詞を持つ語が解析されるときの多品詞語の多義性を解
消してから構文解析を行うものである。

【０００５】また、従来の機械翻訳装置について記載し
た公知文献としては、例えば、特開昭６１−２５５４
６８号公報がある。この公報のものは、入力原文に対す
る完全あるいは部分的な翻訳結果を短時間に得て、翻訳
処理効率の向上を図るために、入力原文に対する翻訳処
理経過時間を計測し、この翻訳処理経過時間が所定の設
定時間に達した時点で前記入力原文に対する翻訳結果が
求められていないとき、前記入力原文に対する処理を変
更するものである。すなわち、処理時間が所定の時間を
越えた時、部分翻訳を行なうものである。

【０００６】また、特開昭６２−２５６０８０号公報
のものは、翻訳対象文に対して部分的に翻訳可能な部分
を当該部分の構文要素と共に明示し、部分翻訳を有限回
繰り返し適用して、最終的に全文の訳を得る手段を具備
することにより、限られた計算機資源のもとで任意の入
力文を翻訳することを可能とするものである。すなわ
ち、一文の部分とその構文要素を指定して翻訳するもの
である。

【０００７】また、特開昭６３−８８６４号公報のも
のは、入力単語列全体では構文解析に失敗した場合、入
力単語列の一部分毎に解析した部分木を変換、生成過程
に出力し、部分的な翻訳文が得られる機能を有するもの
である。すなわち、解析失敗時に部分木の変換生成を行
なうものである。

【０００８】また、特開昭６３−２７１６５７号公報
のものは、入力原文の解析を進めつつ適切妥当な位置で
入力原文の分割を行い、かつその原文中の分割個所を記
憶していき、分割単位何の翻訳処理を行った結果を配列
し、最終的に単位毎の分割表示をする際に原文中におけ
る分割個所を記憶した内容をもとに、原文をも分割個所
を明瞭にした表示を行い、両方の分割単位間の対応づけ
をわかりやすくするというものである。すなわち、原文
の部分と部分翻訳結果とを対応させて表示するものであ
る。

【０００９】また、特開昭６４−７８３７３号公報の
ものは、翻訳結果の出力モードとして原文の訳文を表示
する通常モードとは別に、原文の単語毎または句毎の部
分訳を表示する部分訳モードを持たせたものである。す
なわち、単語毎または句毎の部分や句を表示する部分訳
モードを有するものである。

【００１０】

【発明が解決しようとする課題】前述のように、従来の
構文解析装置において、どんなに複雑な処理を導入して
も、多様な言語現象における構文的多義性を完全に解消
することはできないのが現状で、このような構文的多義
性の解消を目指して複雑な処理を導入することにより、
従来の構文解析装置は非常に複雑で扱いづらく、管理も
しにくいものとなっている。

【００１１】前述したように、図１７のような構造へ解
析するには、句同士の修飾関係を決定しなければならな
いが、このような修飾関係の決定を行わずとも、図２の
ように、句のまとまりが解析されていれば、様々な応用
が可能である。むしろ、構文解析結果を利用する応用処
理系では、複雑な構造解析装置よりも処理系の負担が軽
く、高速で頑強な簡易構文解析装置が必要とされている
ことが多い。しかしながら、これまでの構文解析装置に
おいては、前述のような構文的多義性をいかに精度良く
解消するかといった観点が強調され、処理レベルを図２
のような句への分割までとして高速・頑強であることを
目的とした構文解析装置は提案されていない。

【００１２】また、従来、原言語の文を入力とし、その
構文構造を文法規則と辞書を用いて解析し、解析された
構造を目的言語の文へ変換生成する機械翻訳装置が提案
・実用化されている。しかし、現在の技術では翻訳処理
の完全な自動化は不可能である。そのため、所定時間内
に解析処理が成功しなかった場合（文献）や入力文の
構造解析に失敗した場合（文献）などには、入力文の
部分毎に目的言語の訳を生成し、表示する手段がとられ
ている。さらに、解析失敗時など以外でも、はじめから
入力文を部分翻訳処理にかけるモードを選択できる翻訳
装置も提案されている（文献）。

【００１３】このように、現在の技術では完全な機械翻
訳は不可能なため、一文の全体ではなく部分を翻訳する
部分翻訳は、機械翻訳装置に不可欠な機能となってい
る。ところで、一文のどの部分を翻訳するのかを決定す
る具体的な方法としては、利用者が部分とその構文要素
を指定する（文献）。文脈自由文法で途中まで解析で
きた部分木を用いる（文献）などの手段が提案されて
いる。しかし、これらの手段では、大量の文を翻訳して
みたい場合や、利用者が原言語にあまり詳しくない場合
には、利用者による部分の指定は期待できない。また、
文脈自由文法を用いては高速に処理できないといった欠
点があった。

【００１４】本発明は、このような実情に鑑みてなされ
たもので、隣接可能な品詞対である連接品詞バイグラム
について、句の分割可能性を示すマッピングデータベー
スを用いて、入力文の構造を解析する高速・頑強で軽量
な構文解析装置を提供すること、また、原言語の文を部
分翻訳用の部分へ高速に分割することのできる機械翻訳
装置を提供することを目的としている。

【００１５】

【課題を解決するための手段】本発明は、上記目的を達
成するために、（１）自然言語の文を構成する単語列お
よび各単語の品詞の入力を受け付ける入力部と、当該言
語で隣接可能な品詞対である連接品詞バイグラムについ
て句の分割の可能性を示す句分割情報を保持するマッピ
ングデータベースと、入力となる品詞列の連接品詞対毎
に前記マッピングデータベースを検索し、該当する句分
割情報を記憶する句分割部と、該句分割部で記憶された
句分割情報に基づき入力文を構成する句を認識・同定す
る文構造解析部と、該文構造解析部により認識・同定さ
れた入力文の構造を出力する出力部とを備えたこと、更
には、（２）前記マッピングデータデースが、句分割情
報として当該バイグラムで終了する句の種類を示す終点
情報、および当該バイグラムで開始する句の種類を示す
始点情報の二種類の情報を保持し、前記句分割部が、マ
ッピングデータベースから検索された句分割情報の内、
終点情報を当該品詞対を構成する第一単語に、始点情報
を当該品詞対の第二単語に関連づけて記憶すること、更
には、（３）前記（２）において、前記マッピングデー
タベースが、各連接品詞バイグラムについて複数の句分
割情報と、それぞれの句分割情報の尤度を保持するこ
と、更には、（４）前記（３）において、前記マッピン
グデータベースが、句分割情報の尤度として確率値を保
持すること、更には、（５）前記（２）において、前記
文構造解析部が、前記句分割部で記憶された句分割情報
の内、同じ種類の句の始点情報と終点情報との対応づけ
を行なうことにより、入力文を構成する句を認識・同定
し、その結果を当該入力文の構造として記憶すること、
更には、（６）前記（５）において、前記句認識部が、
前記句分割部で記憶された句分割情報の内、ある句の始
点情報と対応する終点情報を発見できない場合におい
て、後続する別の句の始点情報の直前を当該句の終点と
みなして句を認識・同定すること、更には、（７）前記
（５）において、前記句認識部が、前記句分割部で記憶
された句分割情報の内、ある句の終点情報と対応する始
点情報を発見できない場合において、先行する別の句の
終点の直後を当該句の始点とみなして句を認識・同定す
ること、更には、（８）前記（３）において、前記句認
識部が、前記句分割部で記憶された複数の句分割情報の
内、最も尤度の高くなる組み合わせを基に句を認識・同
定すること、或いは、（９）自然言語の文の入力を受け
付ける入力部と、当該言語で隣接可能な品詞対である連
接品詞バイグラムについて句の分割の可能性を示す句分
割情報を保持するマッピングデータベースと、入力文を
単語列に分割し、各単語に品詞を付与する形態素解析部
と、該形態素解析部で付与された品詞を基に連接品詞対
毎に前記マッピングデータベースを検索し、該当する句
分割情報を記憶する句分割部と、該句分割部で記憶され
た句分割情報に基づき入力文を構成する句を認識・同定
する文構造解析部と、該文構造解析部により認識・同定
された入力文の構造を出力する出力部とを備えたこと、
或いは、（１０）自然言語の文を構成する単語列の入力
を受け付ける入力部と、当該言語で隣接可能な品詞対で
ある連接品詞バイグラムについて句の分割の可能性を示
す句分割情報を保持するマッピングデータベースと、入
力となる単語列に品詞を付与する形態素解析部と、該形
態素解析部で付与された品詞を基に入力文の各連接品詞
対毎に前記マッピングデータベースを検索し、該当する
句分割情報を記憶する句分割部と、該句分割部で記憶さ
れた句分割情報に基づき入力文を構成する句を認識・同
定する文構造解析部と、該文構造解析部により認識・同
定された入力文の構造を基に句同士の修飾関係を決定
し、入力文の構文構造として記憶する修飾関係解析部
と、該修飾関係解析部により決定された入力文の構文構
造を出力する出力部とを備えたこと、更には、（１１）
前記（１）,（９）又は（１０）において、前記句分割
部が、特定の品詞をスキップした連接品詞対についてマ
ッピングデータベースを検索すること、或いは、（１
２）原言語の入力文を受け付ける入力部と、原言語で隣
接可能な品詞対である連接品詞バイグラムについて句の
分割の可能性を示す句分割情報を保持するマッピングデ
ータベースと、入力文を単語列に分割して各単語に品詞
を付与する形態素解析部と、該形態素解析部で付与され
た品詞を基に入力文の各連接品詞対毎に前記マッピング
データベースを検索し、該当する句分割情報を記憶する
句分割部と、該句分割部で記憶された句分割情報に基づ
き入力文を構成する句を認識・同定する句同定部と、前
記句同定部により認識・同定された入力文の各句を目的
言語に変換生成する変換生成部と、該変換生成部により
生成された目的言語の句を原言語の句と対応付けて出力
する出力部とを備えたこと、或いは、（１３）原言語の
入力文を受け付ける入力部と、利用者の要求を受け付け
る要求受付部と、原言語で隣接可能な品詞対である連接
品詞バイグラムについて句の分割の可能性を示す句分割
情報を保持するマッピングデータベースと、入力文を単
語列に分割して各単語に品詞を付与する形態素解析部
と、該形態素解析部で付与された品詞を基に入力文の各
連接品詞対毎に前記マッピングデータベースを検索し、
該当する句分割情報を記憶する句分割部と、該句分割部
で記憶された句分割情報に基づき入力文を構成する句を
認識・同定する句同定部と、前記要求受付部により指定
された文または部分を目的言語に変換生成する変換生成
部と、原言語の文を表示し、要求があった時に指定の文
またはその部分の部分訳を表示する出力部とを備え、前
記形態素解析部と句分割部と句同定部は、前記出力部に
より原文が表示されている間にバックグラウンドで動作
することを特徴としたものである。

【００１６】

【作用】入力部により自然言語の文を構成する単語列お
よび各単語の品詞の入力を受け付け、マッピングデータ
ベースにより当該言語で隣接可能な品詞対（連接品詞バ
イグラム）について、句の分割の可能性を示す句分割情
報を保持する。句分割部では、入力となる品詞列の連接
品詞対毎に前記マッピングデータベースを検索し、該当
する句分割情報を記憶し、文構造解析部により前記句分
割部で記憶された句分割情報に基づき、入力文を構成す
る句を認識・同定する。出力部は、前記文構造解析部に
より認識・同定された入力文の構造を出力する。このよ
うに、連接品詞バイグラムについて、句の分割可能性を
示すマッピングデータベースを用いて自然言語文の構造
を解析するため、高速でかつ計算量の負担も非常に少く
なり、様々な応用系に構文解析装置を組み込み、文構造
解析結果を利用した処理を行うことが可能になる。

【００１７】また、形態素解析部では、入力となる単語
列に品詞を付与し、句分割部では、前記形態素解析部で
付与された品詞を基に入力文の各連接品詞対毎に前記マ
ッピングデータベースを検索し、該当する句分割情報を
記憶する。文構造解析部により、前記句分割部で記憶さ
れた句分割情報に基づき入力文を構成する句を認識・同
定し、修飾関係解析部は、前記文構造解析部により認識
・同定された入力文の構造を基に句同士の修飾関係を決
定し、入力文の構文構造として記憶する。出力部は、前
記修飾関係解析部により決定された入力文の構文構造を
出力する。このように、連接品詞バイグラムについて、
句の分割可能性を示すマッピングデータベースを用いて
自然言語文の基本構造を解析した上で、句同士の修飾関
係を決定するため、処理の見通しがよい装置とすること
ができる。

【００１８】さらに、入力部により原言語の文を入力と
して受け付け、マッピングデータベースにより原言語で
連接可能な品詞バイグラムについて句分割情報を保持す
る。形態素解析部では、入力文を単語に分割し、各単語
の品詞を決定する。句分割部では、形態素解析部で付与
された品詞列の各連接品詞対についてマッピングデータ
ベースを検索し、対応する句分割情報を記憶する。句同
定部では、句分割部で記憶した句分割情報を基に、入力
文の単語列を句にまとめあげ、各句を記憶する。変換生
成部は、句同定部で認識同定された各句毎に、あるいは
利用者により指定のあった部分又は文の句について、目
的言語の訳を生成して記憶する。出力部は原文および変
換生成部で生成した目的言語の訳を表示する。要求受付
部は、利用者が翻訳結果を見たい文は部分の指定を受け
付ける。このようにして、句分割情報のマッピングデー
タベースを利用して部分翻訳用の句を分割することによ
り、高速に部分翻訳処理を行なうことができる。また、
句分割手法は処理負担が非常に軽いので、バックグラウ
ンドで予め句分割処理を行なっておくことが可能で、利
用者が外国語の文書を読む流れを妨げずに要求に応じて
迅速に部分訳を表示することができる。

【００１９】

【実施例】実施例について、図面を参照して以下に説明
する。図１は、本発明による構文解析装置の一実施例を
説明するための構成図で、図中、１は入力部、２はマッ
ピングデータベース、３は句分割部、４は文構造解析
部、５は出力部、６は制御部、７は形態素解析部、８は
修飾関係解析部である。

【００２０】以下、実施例１（請求項１,２,５,６,７,
１１）について説明する。なお、以下の説明では英語を
例にとるが、本発明の対象言語は英語に限るものではな
い。入力部１は、対象言語の文の単語列と対応する品詞
列を入力として受け付ける。句分割部３では、入力品詞
列の各連接品詞対についてマッピングデータベース２を
検索し、対応する句分割情報を記憶する。文構造解析部
４では、句分割部３で記憶した句分割情報を基に入力文
の単語列を句にまとめあげる。出力部５は、文構造解析
部４で解析した文の構造を出力する機構である。制御部
６は、入力部１〜出力部５の各部間の連絡やデータの受
け渡しを制御する。

【００２１】すなわち、入力部１は、自然言語の文を構
成する単語列および各単語の品詞の入力を受け付ける。
マッピングデータベース２は、当該言語で隣接可能な品
詞対（連接品詞バイグラム）について、句の分割の可能
性を示す句分割情報を保持する。句分割部３は、入力と
なる品詞列の連接品詞対毎に前記マッピングデータベー
ス２を検索し、該当する句分割情報を記憶する。文構造
解析部４は、前記句分割部３で記憶された句分割情報に
基づき入力文を構成する句を認識・同定する。出力部５
は、前記文構造解析部４により認識・同定された入力文
の構造を出力する。

【００２２】図３は、マッピングデータベースの内容例
を示す図である。対象言語で隣接可能な品詞対につい
て、句分割の可否を示す句分割情報が対応づけられてお
り、連接品詞バイグラムをキーとして、当該バイグラム
で終了する句の有無とその種類，および開始する句の有
無とその種類の情報を検索することができる。

【００２３】次に、前述の例文１を例にとり、本実施例
１の構文解析装置の動作について説明する。入力部まず、入力部１が、図４（ａ）単語、図４（ｂ）品詞に
示す情報を、例えばファイルから読み込むなどして入力
として受け付ける。句分割部続いて、入力は句分割部３に渡される。該句分割部３は
入力のうち、図４（ｂ）の品詞列の先頭から連続する品
詞対をキーにマッピングデータベース２を検索し、その
結果を記憶する。すなわち、「文頭・形容詞」をキーと
すると、終点情報として句の終了はないこと、および始
点情報として名詞句が開始するという句分割情報を得る
ことができる。そこで、終点情報をバイグラムの一番目
の単語（この場合は文頭“−”）に関連づけ、始点情報
をバイグラムの第二番目の単語である形容詞“Late”に
関連づけて記憶する。次の連接品詞対として「形容詞・
形容詞」をキーに句分割情報を検索し、同様にして「形
容詞・名詞」,「名詞・be動詞」…について句分割情報
を得、該当する単語に関連づけて記憶する。

【００２４】（ｉ）．副詞のスキップところで、英語においては、副詞や接続詞などの一部の
品詞を含むバイグラムでは、句の終了・開始の可能性が
決定できない。そこで、請求項１１では、これらの品詞
を除いた品詞対についてマッピングデータベースを検索
することを提案している。例文１では、「be動詞・副
詞」,「副詞・過去分詞」の代わりに「be動詞・過去分
詞」というバイグラムをキーにマッピングデータベース
を検索すると、この品詞対では句の終点および始点はな
いという情報を得ることができる。図４（ｃ）始点、図
４（ｄ）終点は、このようにして記憶された句分割情報
を示したものである。

【００２５】文構造解析部句分割部３で検索された句分割情報を基に、同じ種類の
句の始点情報と終点情報の対応をとることで、入力部を
構成する句を認識・同定する。図１の例では、第一単語
“Late”における名詞句の始点に対して、第三単語“se
dimentation”の名詞句の終点が対応し、第四単語“wa
s”の動詞句の始点には第五単語“controlled”の動詞
句の終点がといった具合に対応づけを行い、図４（ｅ）
のような文構造を認識・同定し、例文１の文構造として
記憶する。しかしながら、句の始点情報と終点情報の対
応づけは、常にこの例のようにうまくいくとは限らな
い。

【００２６】（ｉ）．終点の欠如例えば、以下の例文２を考える。例文２ The extent is greater for those using shorter wave
lengths. 図５（ａ）〜（ｄ）は、この入力文の単語列と品詞列お
よび句分割部により記憶された句分割情報を示したもの
である。

【００２７】文頭から第四単語“greater”までは、図
５（ｅ）に示す通り、句の始点と終点の対応づけは単純
に行える。しかし、第六単語“those”における名詞句
の始点には、対応する名詞句の終点がない。このような
場合の対応策として、請求項６では、対応する終点がな
い始点情報に後続する別の句の始点情報の直前を終点と
することを提案している。したがって、例文２では、
“those”における名詞句の始点に後続する別の句の始
点として第七単語“using”における動詞句の始点があ
り、この直前、すなわち“those”を当該名詞句の終点
とみなし、図５（ｅ）に示すように、“those”一単語
で名詞句を構成するものと認識・同定することができ
る。

【００２８】（ii）．始点の欠如次に、以下の例文３を考える。例文３ Gradients in radiating fluid layers are studied. 図６（ａ）〜（ｄ）は、入力単語列と品詞列および句分
割部により記憶された句分割情報を示したものである。

【００２９】この入力文では、第五単語“layers”にお
ける名詞句の終点に対応する始点がない。このような場
合の対応策として、請求項７では、対応する始点がない
終点情報に先行する別の句の終点情報の直後を始点とす
ることを提案している。すなわち、例文３では、“laye
rs”における名詞句の終点に先行する別の句の終点とし
て第三単語“radiating”における動詞句の終点情報が
あるので、この直後の単語“fluid”を名詞句の始点と
みなし、図６（ｅ）に示すように、“fluid”から“lay
ers”までを名詞句として認識・同定する。出力部続いて、出力部５が文構造解析部４で記憶された文構造
をファイルや次の処理部などへ出力する。

【００３０】次に、実施例２（請求項３,４,８）につい
て説明する。図１に示す構文解析装置の構成のうち、入
力部１，マッピングデータベース２，句分割部３，文構
造解析部４，出力部５，制御機構６は、前述の説明と同
じである。図７は、マッピングデータベースの内容例を
示す図である。実施例１における図３に示すマッピング
データベースと同様、連接品詞バイグラムをキーとし
て、当該バイグラムで終了する句の有無とその種類、お
よび開始する句の有無とその種類の情報を検索すること
ができる。バイグラムに対応する終点情報あるいは始点
情報が複数ある場合、それぞれの句分割情報の尤度がつ
けられており、バイグラムをキーとして、複数の句分割
情報とその尤度を検索することができる。本実施例で
は、尤度として確率値を用いている。

【００３１】以下の例文４を例にとり、本実施例２の構
文解析装置の動作について説明する。例文４ Going concerns John but not Mary. 例文５ Going concerns have little to worry about.入力部まず、入力部１が図８（ａ）,（ｂ）と図９（ａ）,
（ｂ）に示す情報を入力として受け付ける。

【００３２】句分割部続いて、入力は句分割部３に渡される。該句分割部３
は、入力のうち図９（ｂ）の品詞列の先頭から連続する
品詞対をキーにマッピングデータベース２を検索し、そ
の結果を記憶する。すなわち、「文頭・現在分詞」をキ
ーとすると、終点情報として句の終了はないこと、およ
び始点情報として名詞句または動詞句が開始する可能性
があることと、それぞれの句が開始する確率値という句
分割情報を得ることができる。そこで、終点情報をバイ
グラムの一番目の単語（この場合は文頭“−”）に関連
づけ、始点情報をバイグラムの第二番目の単語である現
在分詞“Going”に関連づけて記憶する。次の連接品詞
対として「現在分詞・名詞０」をキーに句分割情報を検
索し、同様にして「名詞０・助動詞」,「助動詞・名詞
１」…について句分割情報を得、該当する単語に関連づ
けて記憶する。図８（ｃ）,（ｄ）と図９（ｃ）,（ｄ）
は、このようにして記憶された句分割情報を示したもの
である。

【００３３】文構造解析部句分割部３で検索された句分割情報のうち、最も尤度の
高い始点情報と終点情報の組み合わせを基に、同じ種類
の句の始点情報と終点情報の対応をとることで、句を認
識・同定する。図８（ｃ）,（ｄ）と図９（ｃ）,（ｄ）
で最高尤度情報を太字で示した。この句分割情報を基
に、実施例１の説明と同様に行って、句の始点と終点の
対応づけで文を構成する句を認識・同定することができ
る。しかしながら、句の始点情報と終点情報の対応づけ
は得られない場合もある。例えば、図９の動詞句では、
始点と終点両方があり、動詞句として認識ができる。一
方、“Going”の場合には、始点が曖昧だが、名詞句の
終点と対応づけることで、対応・認識・同定ができる。出力部これ以降の動作は、実施例１における句分割部の動作お
よびそれ以降の動作と同様である。

【００３４】次に、実施例３（請求項９）について説明
する。入力部１は、対象言語の文を入力として受け付け
る。マッピングデータベース２は、対象言語で連接可能
な品詞バイグラムについて句分割情報を保持する。形態
素解析部７では、入力文を単語に分割し各単語の品詞を
決定する。句分割部３では、形態素解析部７で付与され
た品詞列の各連接品詞対についてマッピングデータベー
ス２を検索し、対応する句分割情報を記憶する。文構造
解析部４では、句分割部３で記憶した句分割情報を基
に、入力文の単語列を句にまとめあげる。出力部５は、
文構造解析部４で解析した文の構造をファイルや次の処
理部へ出力する機構である。制御部６は、入力部１〜出
力部５および形態素解析部７の各部間の連絡やデータの
受け渡しを制御する。

【００３５】すなわち、入力部１は、自然言語の文の入
力を受け付ける。マッピングデータベース２は、当該言
語で隣接可能な品詞対（連接品詞バイグラム）につい
て、句の分割の可能性を示す句分割情報を保持する。形
態素解析部７は、入力文を単語列に分割し、各単語に品
詞を付与する。句分割部３は、前記形態素解析部７で付
与された品詞を基に、連接品詞対毎に前記マッピングデ
ータベース２を検索し、該当する句分割情報を記憶す
る。文構造解析部４は、前記句分割部３で記憶された句
分割情報に基づき、入力文を構成する句を認識・同定す
る。出力部５は、前記文構造解析部４により認識・同定
された入力文の構造を出力する。

【００３６】上記の例文１を例に本実施例３の構文解析
装置の動作について説明する。入力部まず、入力部１が例文１の文字列をファイルから読み込
むなどして、入力として受け付ける。形態素解析部続いて、形態素解析部７が入力部で受け付けた入力を単
語列に分解し、各単語に品詞を付与する。複数の品詞の
可能性を持つ単語の多義性を解消して品詞を付与する方
法としては、既存の様々な手法があるが、どれを用いて
もよい。例えば、前述した特開平２−２５４５６５号公
報に提案されている方式を用いて、入力文を図４
（ａ）,（ｂ）に示すような単語と品詞の列に解析す
る。句分割部形態素解析部７により解析された単語列と品詞列は、句
分割部３に渡される。これ以降の動作は、実施例１にお
ける句分割部の動作およびそれ以降の動作と同様であ
る。

【００３７】次に、実施例４（請求項１０）について説
明する。入力部１は、対象言語の文を入力として受け付
ける。マッピングデータベース２は、対象言語で連接可
能な品詞バイグラムについて句分割情報を保持する。形
態素解析部７では、入力文を単語に分割し、各単語の品
詞を決定する。句分割部３では、形態素解析部７で付与
された品詞列の各連接品詞対について、マッピングデー
タベース２を検索し、対応する句分割情報を記憶する。
文構造解析部４では、句分割部３で記憶した句分割情報
を基に入力文の単語列を句にまとめあげる。修飾関係解
析部８は、文構造解析部４で解析された文構造を基に、
句同士の係り受け関係を決定する。出力部５は、修飾関
係解析部８で解析した文の構造をファイルや次の処理部
などへ出力する機構である。制御部６は入力部１〜出力
部５および形態素解析部７、修飾関係解析部８の各部間
の連絡やデータの受け渡しを制御する。

【００３８】すなわち、入力部１は、自然言語の文を構
成する単語列の入力を受け付ける。マッピングデータベ
ース２は、当該言語で隣接可能な品詞対（連接品詞バイ
グラム）について、句の分割の可能性を示す句分割情報
を保持する。形態素解析部７は、入力となる単語列に品
詞を付与する。句分割部３は、前記形態素解析部７で付
与された品詞を基に入力文の各連接品詞対毎に前記マッ
ピングデータベース２を検索し、該当する句分割情報を
記憶する。文構造解析部４は、前記句分割部３で記憶さ
れた句分割情報に基づき、入力文を構成する句を認識・
同定する。修飾関係解析部８は、前記文構造解析部４に
より認識・同定された入力文の構造を基に句同士の修飾
関係を決定し、入力文の構文構造として記憶する。出力
部５は、前記修飾関係解析部８により決定された入力文
の構文構造を出力する。

【００３９】上記の例文１を例に、本実施例４の構文解
析装置の動作について説明する。入力部，句分割部，文構造解析部入力部１で単語と品詞列が受け付けられ、句分割部３に
おいて、マッピングデータベース２が検索され、文構造
解析部４において、文の構造が認識・同定されるまで
は、実施例１と同じ動作である。すなわち、例文１を入
力とすれば、図４（ｅ）のような文構造が記憶される。修飾関係解析部図４（ｅ）に示す文構造は、修飾関係解析部８に渡さ
れ、句と句の間の修飾関係が決定される。修飾関係の決
定には、既存の句を構成する単語の意味情報を用いた共
起分析や、単語同士の結び付きの強さを統計値として用
いて修飾先を決定する手法などを用いて、図１７に示し
た修飾関係を解析する。出力部続いて、出力部５が修飾関係解析部８までの解析結果を
ファイルや次の処理装置などへ出力する。

【００４０】図１０は、本発明による機械翻訳装置の一
実施例を説明するための構成図で、図中、１１は入力
部、１２はマッピングデータベース、１３は形態素解析
部、１４は句分割部、１５は句同定部、１６は変換生成
部、１７は出力部、１８は要求受付部である。

【００４１】入力部１１は、原言語の文を入力として受
け付ける。マッピングデータベース１２は、原言語で連
接可能な品詞バイグラムについて句分割情報を保持す
る。形態素解析部１３では、入力文を単語に分割し、各
単語の品詞を決定する。句分割部１４では、前記形態素
解析部１３で付与された品詞列の各連接品詞対について
マッピングデータベース１２を検索し、対応する句分割
情報を記憶する。句同定部１５では、前記句分割部１４
で記憶した句分割情報を基に入力文の単語列を句にまと
めあげ、各句を記憶する。変換生成部１６は、前記句同
定部１５で認識同定された各句毎に、あるいは利用者に
より指定のあった部分または文の句について、目的言語
の訳を生成して記憶する。出力部１７は、原文および変
換生成部１６で生成した目的言語の訳を表示する機構で
ある。要求受付部１８は、利用者が翻訳結果を見たい文
または部分の指定を受け付ける。

【００４２】まず、下記の英語文を入力文の例にとり、
実施例５（請求項１２）の機械翻訳装置の動作について
説明する。例文６ Automatic part of speech annotation is an a
rea of naturallanguage processing where statistica
l techniques have beenmore successful than rule-ba
ssed ones. まず、入力部１１で入力文が受け付けられる。続いて、
句分割部１４において、マッピングデータベース１２が
検索され、句同定部１５において句が認識・同定されて
記憶される。図１１は、記憶された句の例を示した図で
ある。次に、変換生成部１６は、各句毎に目的言語の訳
を生成する。生成された訳文は、図１２のように原文の
句と共に記憶される。出力部１７は、前記変換生成部１
６により得られた目的言語の訳を各句と対応づけて表示
する。たとえば、図１３のように表示することができ
る。

【００４３】次に、実施例６（請求項１３）の機械翻訳
装置の動作について説明する。まず、入力部１１で原文
が受け付けられる。出力部１７は、その原文を図１４の
ように表示し、利用者はそれを読む。その間にバックグ
ラウンドで、句分割部１４、および句同定部１５におい
て句が認識・同定され、記憶される。利用者は原文を読
みながら、訳を見たい文や部分の指定と部分訳表示指示
を要求受付部１８を通じて行う。図１５は、利用者が指
定した部分を強調表示した所を示したものである。変換
部生成部１６は、指定された部分または文の各句毎に目
的言語の訳を生成する。出力部１７は、前記変換生成部
１６により得られた目的言語の訳を図１６のように各句
と対応づけて表示する。

【００４４】

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。（１）請求項１〜９，１１に対応する効果：本発明の構
文解析装置は、連接品詞バイグラムについて、句の分割
可能性を示すマッピングデータベースを用いて自然言語
文の構造を解析するため、高速でかつ計算量の負担も非
常に少ない。これにより、様々な応用系に構文解析装置
を組み込み、文構造解析結果を利用した処理を行うこと
が可能になる。また、機械翻訳などにおける本格的な構
文解析装置の前段階として用いれば、本格的な構文解析
装置の処理負担を軽減することができる。（２）請求項１０に対応する効果：連接品詞バイグラム
について、句の分割可能性を示すマッピングデータベー
スを用いて、自然言語文の基本構造を解析した上で、句
同士の修飾関係を決定するため、処理の見通しがよい装
置とすることができる。（３）請求項１２に対応する効果：句分割情報のマッピ
ングデータベースを利用して部分翻訳用の句を分割する
ことにより、高速に部分翻訳処理を行なうことができ
る。（４）請求項１３に対応する効果：本発明で用いた句分
割手段は処理負担が非常に軽いので、バックグランドで
予め句分割処理を行なっておくことが可能で、利用者が
外国語の文書を読む流れを妨げずに要求に応じて迅速に
部分訳を表示することができる。

【図面の簡単な説明】

【図１】本発明による構文解析装置の一実施例を説明
するための構成図である。

【図２】本発明による構文解析装置における木構造を
示す図である。

【図３】本発明におけるマッピングデータベース（そ
の１）の内容例を示す図である。

【図４】本発明における句分割情報例（その１）を示
す図である。

【図５】本発明における句分割情報例（その２）を示
す図である。

【図６】本発明における句分割情報例（その３）を示
す図である。

【図７】本発明におけるマッピングデータベース（そ
の２）の内容例を示す図である。

【図８】本発明における句分割情報例（その４）を示
す図である。

【図９】本発明における句分割情報例（その５）を示
す図である。

【図１０】本発明における機械翻訳装置の一実施例を
説明するための構成図である。

【図１１】本発明における記憶された句の例を示す図
である。

【図１２】本発明における生成された訳文を示す図で
ある。

【図１３】本発明における目的言語訳の表示例（その
１）を示す図である。

【図１４】本発明における原文の表示例を示す図であ
る。

【図１５】本発明における利用者による部分翻訳指定
時の強調表示例を示す図である。

【図１６】本発明における目的言語訳の表示例（その
２）を示す図である。

【図１７】従来の構文解析装置における木構造を示す
図である。

【符号の説明】

１…入力部、２…マッピングデータベース、３…句分割
部、４…文構造解析部、５…出力部、６…制御部、７…
形態素解析部、８…修飾関係解析部、１１…入力部、１
２…マッピングデータベース、１３…形態素解析部、１
４…句分割部、１５…句同定部、１６…変換生成部、１
７…出力部、１８…要求受付部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者フイリスアンウイル東京都大田区中馬込１丁目３番６号株式会社リコー内

Claims

【特許請求の範囲】

【請求項１】自然言語の文を構成する単語列および各
単語の品詞の入力を受け付ける入力部と、当該言語で隣
接可能な品詞対である連接品詞バイグラムについて句の
分割の可能性を示す句分割情報を保持するマッピングデ
ータベースと、入力となる品詞列の連接品詞対毎に前記
マッピングデータベースを検索し、該当する句分割情報
を記憶する句分割部と、該句分割部で記憶された句分割
情報に基づき入力文を構成する句を認識・同定する文構
造解析部と、該文構造解析部により認識・同定された入
力文の構造を出力する出力部とを備えたことを特徴とす
る構文解析装置。
【請求項２】前記マッピングデータデースが、句分割
情報として当該バイグラムで終了する句の種類を示す終
点情報、および当該バイグラムで開始する句の種類を示
す始点情報の二種類の情報を保持し、前記句分割部が、
マッピングデータベースから検索された句分割情報の
内、終点情報を当該品詞対を構成する第一単語に、始点
情報を当該品詞対の第二単語に関連づけて記憶すること
を特徴とする請求項１記載の構文解析装置。
【請求項３】前記マッピングデータベースが、各連接
品詞バイグラムについて複数の句分割情報と、それぞれ
の句分割情報の尤度を保持することを特徴とする請求項
２記載の構文解析装置。
【請求項４】前記マッピングデータベースが、句分割
情報の尤度として確率値を保持することを特徴とする請
求項３記載の構文解析装置。
【請求項５】前記文構造解析部が、前記句分割部で記
憶された句分割情報の内、同じ種類の句の始点情報と終
点情報との対応づけを行なうことにより、入力文を構成
する句を認識・同定し、その結果を当該入力文の構造と
して記憶することを特徴とする請求項２記載の構文解析
装置。
【請求項６】前記句認識部が、前記句分割部で記憶さ
れた句分割情報の内、ある句の始点情報と対応する終点
情報を発見できない場合において、後続する別の句の始
点情報の直前を当該句の終点とみなして句を認識・同定
することを特徴とする請求項５記載の構文解析装置。
【請求項７】前記句認識部が、前記句分割部で記憶さ
れた句分割情報の内、ある句の終点情報と対応する始点
情報を発見できない場合において、先行する別の句の終
点の直後を当該句の始点とみなして句を認識・同定する
ことを特徴とする請求項５記載の構文解析装置。
【請求項８】前記句認識部が、前記句分割部で記憶さ
れた複数の句分割情報の内、最も尤度の高くなる組み合
わせを基に句を認識・同定することを特徴とする請求項
３記載の構文解析装置。
【請求項９】自然言語の文の入力を受け付ける入力部
と、当該言語で隣接可能な品詞対である連接品詞バイグ
ラムについて句の分割の可能性を示す句分割情報を保持
するマッピングデータベースと、入力文を単語列に分割
し、各単語に品詞を付与する形態素解析部と、該形態素
解析部で付与された品詞を基に連接品詞対毎に前記マッ
ピングデータベースを検索し、該当する句分割情報を記
憶する句分割部と、該句分割部で記憶された句分割情報
に基づき入力文を構成する句を認識・同定する文構造解
析部と、該文構造解析部により認識・同定された入力文
の構造を出力する出力部とを備えたことを特徴とする構
文解析装置。
【請求項１０】自然言語の文を構成する単語列の入力
を受け付ける入力部と、当該言語で隣接可能な品詞対で
ある連接品詞バイグラムについて句の分割の可能性を示
す句分割情報を保持するマッピングデータベースと、入
力となる単語列に品詞を付与する形態素解析部と、該形
態素解析部で付与された品詞を基に入力文の各連接品詞
対毎に前記マッピングデータベースを検索し、該当する
句分割情報を記憶する句分割部と、該句分割部で記憶さ
れた句分割情報に基づき入力文を構成する句を認識・同
定する文構造解析部と、該文構造解析部により認識・同
定された入力文の構造を基に句同士の修飾関係を決定
し、入力文の構文構造として記憶する修飾関係解析部
と、該修飾関係解析部により決定された入力文の構文構
造を出力する出力部とを備えたことを特徴とする構文解
析装置。
【請求項１１】前記句分割部が、特定の品詞をスキッ
プした連接品詞対についてマッピングデータベースを検
索することを特徴とする請求項１，９又は１０記載の構
文解析装置。
【請求項１２】原言語の入力文を受け付ける入力部
と、原言語で隣接可能な品詞対である連接品詞バイグラ
ムについて句の分割の可能性を示す句分割情報を保持す
るマッピングデータベースと、入力文を単語列に分割し
て各単語に品詞を付与する形態素解析部と、該形態素解
析部で付与された品詞を基に入力文の各連接品詞対毎に
前記マッピングデータベースを検索し、該当する句分割
情報を記憶する句分割部と、該句分割部で記憶された句
分割情報に基づき入力文を構成する句を認識・同定する
句同定部と、前記句同定部により認識・同定された入力
文の各句を目的言語に変換生成する変換生成部と、該変
換生成部により生成された目的言語の句を原言語の句と
対応付けて出力する出力部とを備えたことを特徴とする
機械翻訳装置。
【請求項１３】原言語の入力文を受け付ける入力部
と、利用者の要求を受け付ける要求受付部と、原言語で
隣接可能な品詞対である連接品詞バイグラムについて句
の分割の可能性を示す句分割情報を保持するマッピング
データベースと、入力文を単語列に分割して各単語に品
詞を付与する形態素解析部と、該形態素解析部で付与さ
れた品詞を基に入力文の各連接品詞対毎に前記マッピン
グデータベースを検索し、該当する句分割情報を記憶す
る句分割部と、該句分割部で記憶された句分割情報に基
づき入力文を構成する句を認識・同定する句同定部と、
前記要求受付部により指定された文または部分を目的言
語に変換生成する変換生成部と、原言語の文を表示し、
要求があった時に指定の文またはその部分の部分訳を表
示する出力部とを備え、前記形態素解析部と句分割部と
句同定部は、前記出力部により原文が表示されている間
にバックグラウンドで動作することを特徴とする機械翻
訳装置。