JPH07230461A - 構文解析装置及び機械翻訳装置 - Google Patents

構文解析装置及び機械翻訳装置

Info

Publication number
JPH07230461A
JPH07230461A JP6031086A JP3108694A JPH07230461A JP H07230461 A JPH07230461 A JP H07230461A JP 6031086 A JP6031086 A JP 6031086A JP 3108694 A JP3108694 A JP 3108694A JP H07230461 A JPH07230461 A JP H07230461A
Authority
JP
Japan
Prior art keywords
phrase
unit
sentence
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6031086A
Other languages
English (en)
Inventor
Ayako Oono
亜矢子 大野
Takashi Katooka
隆 加登岡
Yoshihisa Oguro
慶久 大黒
Anuiru Fuirisu
アンウイル フイリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6031086A priority Critical patent/JPH07230461A/ja
Publication of JPH07230461A publication Critical patent/JPH07230461A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 隣接可能な品詞対について句の分割可能性を
示すマッピングデータベースを用いて、入力文の構造を
高速に解析する。 【構成】 入力部1は、対象言語の文の単語列と対応す
る品詞列を入力として受け付ける。句分割部3では、入
力品詞列の各連接品詞対についてマッピングデータベー
スを検索し、対応する句分割情報を記憶する。構造解析
部4では、句分割部3で記憶した句分割情報を基に入力
文の単語列を句にまとめあげる。出力部5は文書造解析
部4で解析した文の構造を出力する機構である。制御部
6は入力部1とマッピングデータベース2と句分割部3
と文構造解析部4と出力部5の各部間の連絡やデータの
受け渡しを制御する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、構文解析装置及び機械
翻訳装置に関し、より詳細には、自然言語処理技術にお
ける文の構造を解析する構文解析装置及び原文の部分に
ついて目的言語の訳を生成する機械翻訳装置に関する。
例えば、キーワード検索や要約,大量のコーパスからの
データ抽出など、高速で頑強な簡易構文解析処理を必要
とする処理あるいは機械翻訳など、本格的な構文解析処
理の前処理に適用されるものであり、また、要求に応じ
て部分訳を表示して外国語の読解を支援する装置に適用
されるものである。
【0002】
【従来の技術】従来、自然言語の構文解析は、例文1が
入力として与えられた時、 例文1 Late Jurassic sedimentation was strongly controlle
d by maximumsubsidence along the same trough axis. その構文を、図17のような句や節の上位下位関係を示
す木構造として解析することを目的とし、言語モデルと
しては文脈自由文法が主に用いられている。
【0003】ところで、文を図17のような構造へ解析
するには、句同士の修飾関係を決定しなければならない
が、自然言語の現象は非常に多岐多様にわたっており、
修飾先の候補決定には、様々な多義性を解消することが
必要である。例えば、上記の例文1の構造を解析するた
めには、前置詞句“along the same trough axis”が直
前の名詞句“maximum subsidence”を修飾するのか、そ
れとも動詞句“was strongly controlled”を修飾する
のかを判別しなければならない。この判別は、文脈自由
文法だけでは不可能で、意味情報や確率値を導入した複
雑な処理が必要となっている。
【0004】従来の構文解析方式について記載した公知
文献としては、例えば、特開平2−254565号公
報のものがある。この公報のものは、新しく連接確率を
導入し、語の優先度を併用することで、構文解析効率の
向上を図るために、形態素解析部での解析対象テキスト
の辞書引きの後に、各々の語が持つ品詞を、それぞれの
間の連接確率の積を計算することにより、最も連接確率
の高くなる組み合わせを満たすものに限定して、複数の
品詞を持つ語が解析されるときの多品詞語の多義性を解
消してから構文解析を行うものである。
【0005】また、従来の機械翻訳装置について記載し
た公知文献としては、例えば、特開昭61−2554
68号公報がある。この公報のものは、入力原文に対す
る完全あるいは部分的な翻訳結果を短時間に得て、翻訳
処理効率の向上を図るために、入力原文に対する翻訳処
理経過時間を計測し、この翻訳処理経過時間が所定の設
定時間に達した時点で前記入力原文に対する翻訳結果が
求められていないとき、前記入力原文に対する処理を変
更するものである。すなわち、処理時間が所定の時間を
越えた時、部分翻訳を行なうものである。
【0006】また、特開昭62−256080号公報
のものは、翻訳対象文に対して部分的に翻訳可能な部分
を当該部分の構文要素と共に明示し、部分翻訳を有限回
繰り返し適用して、最終的に全文の訳を得る手段を具備
することにより、限られた計算機資源のもとで任意の入
力文を翻訳することを可能とするものである。すなわ
ち、一文の部分とその構文要素を指定して翻訳するもの
である。
【0007】また、特開昭63−8864号公報のも
のは、入力単語列全体では構文解析に失敗した場合、入
力単語列の一部分毎に解析した部分木を変換、生成過程
に出力し、部分的な翻訳文が得られる機能を有するもの
である。すなわち、解析失敗時に部分木の変換生成を行
なうものである。
【0008】また、特開昭63−271657号公報
のものは、入力原文の解析を進めつつ適切妥当な位置で
入力原文の分割を行い、かつその原文中の分割個所を記
憶していき、分割単位何の翻訳処理を行った結果を配列
し、最終的に単位毎の分割表示をする際に原文中におけ
る分割個所を記憶した内容をもとに、原文をも分割個所
を明瞭にした表示を行い、両方の分割単位間の対応づけ
をわかりやすくするというものである。すなわち、原文
の部分と部分翻訳結果とを対応させて表示するものであ
る。
【0009】また、特開昭64−78373号公報の
ものは、翻訳結果の出力モードとして原文の訳文を表示
する通常モードとは別に、原文の単語毎または句毎の部
分訳を表示する部分訳モードを持たせたものである。す
なわち、単語毎または句毎の部分や句を表示する部分訳
モードを有するものである。
【0010】
【発明が解決しようとする課題】前述のように、従来の
構文解析装置において、どんなに複雑な処理を導入して
も、多様な言語現象における構文的多義性を完全に解消
することはできないのが現状で、このような構文的多義
性の解消を目指して複雑な処理を導入することにより、
従来の構文解析装置は非常に複雑で扱いづらく、管理も
しにくいものとなっている。
【0011】前述したように、図17のような構造へ解
析するには、句同士の修飾関係を決定しなければならな
いが、このような修飾関係の決定を行わずとも、図2の
ように、句のまとまりが解析されていれば、様々な応用
が可能である。むしろ、構文解析結果を利用する応用処
理系では、複雑な構造解析装置よりも処理系の負担が軽
く、高速で頑強な簡易構文解析装置が必要とされている
ことが多い。しかしながら、これまでの構文解析装置に
おいては、前述のような構文的多義性をいかに精度良く
解消するかといった観点が強調され、処理レベルを図2
のような句への分割までとして高速・頑強であることを
目的とした構文解析装置は提案されていない。
【0012】また、従来、原言語の文を入力とし、その
構文構造を文法規則と辞書を用いて解析し、解析された
構造を目的言語の文へ変換生成する機械翻訳装置が提案
・実用化されている。しかし、現在の技術では翻訳処理
の完全な自動化は不可能である。そのため、所定時間内
に解析処理が成功しなかった場合(文献)や入力文の
構造解析に失敗した場合(文献)などには、入力文の
部分毎に目的言語の訳を生成し、表示する手段がとられ
ている。さらに、解析失敗時など以外でも、はじめから
入力文を部分翻訳処理にかけるモードを選択できる翻訳
装置も提案されている(文献)。
【0013】このように、現在の技術では完全な機械翻
訳は不可能なため、一文の全体ではなく部分を翻訳する
部分翻訳は、機械翻訳装置に不可欠な機能となってい
る。ところで、一文のどの部分を翻訳するのかを決定す
る具体的な方法としては、利用者が部分とその構文要素
を指定する(文献)。文脈自由文法で途中まで解析で
きた部分木を用いる(文献)などの手段が提案されて
いる。しかし、これらの手段では、大量の文を翻訳して
みたい場合や、利用者が原言語にあまり詳しくない場合
には、利用者による部分の指定は期待できない。また、
文脈自由文法を用いては高速に処理できないといった欠
点があった。
【0014】本発明は、このような実情に鑑みてなされ
たもので、隣接可能な品詞対である連接品詞バイグラム
について、句の分割可能性を示すマッピングデータベー
スを用いて、入力文の構造を解析する高速・頑強で軽量
な構文解析装置を提供すること、また、原言語の文を部
分翻訳用の部分へ高速に分割することのできる機械翻訳
装置を提供することを目的としている。
【0015】
【課題を解決するための手段】本発明は、上記目的を達
成するために、(1)自然言語の文を構成する単語列お
よび各単語の品詞の入力を受け付ける入力部と、当該言
語で隣接可能な品詞対である連接品詞バイグラムについ
て句の分割の可能性を示す句分割情報を保持するマッピ
ングデータベースと、入力となる品詞列の連接品詞対毎
に前記マッピングデータベースを検索し、該当する句分
割情報を記憶する句分割部と、該句分割部で記憶された
句分割情報に基づき入力文を構成する句を認識・同定す
る文構造解析部と、該文構造解析部により認識・同定さ
れた入力文の構造を出力する出力部とを備えたこと、更
には、(2)前記マッピングデータデースが、句分割情
報として当該バイグラムで終了する句の種類を示す終点
情報、および当該バイグラムで開始する句の種類を示す
始点情報の二種類の情報を保持し、前記句分割部が、マ
ッピングデータベースから検索された句分割情報の内、
終点情報を当該品詞対を構成する第一単語に、始点情報
を当該品詞対の第二単語に関連づけて記憶すること、更
には、(3)前記(2)において、前記マッピングデー
タベースが、各連接品詞バイグラムについて複数の句分
割情報と、それぞれの句分割情報の尤度を保持するこ
と、更には、(4)前記(3)において、前記マッピン
グデータベースが、句分割情報の尤度として確率値を保
持すること、更には、(5)前記(2)において、前記
文構造解析部が、前記句分割部で記憶された句分割情報
の内、同じ種類の句の始点情報と終点情報との対応づけ
を行なうことにより、入力文を構成する句を認識・同定
し、その結果を当該入力文の構造として記憶すること、
更には、(6)前記(5)において、前記句認識部が、
前記句分割部で記憶された句分割情報の内、ある句の始
点情報と対応する終点情報を発見できない場合におい
て、後続する別の句の始点情報の直前を当該句の終点と
みなして句を認識・同定すること、更には、(7)前記
(5)において、前記句認識部が、前記句分割部で記憶
された句分割情報の内、ある句の終点情報と対応する始
点情報を発見できない場合において、先行する別の句の
終点の直後を当該句の始点とみなして句を認識・同定す
ること、更には、(8)前記(3)において、前記句認
識部が、前記句分割部で記憶された複数の句分割情報の
内、最も尤度の高くなる組み合わせを基に句を認識・同
定すること、或いは、(9)自然言語の文の入力を受け
付ける入力部と、当該言語で隣接可能な品詞対である連
接品詞バイグラムについて句の分割の可能性を示す句分
割情報を保持するマッピングデータベースと、入力文を
単語列に分割し、各単語に品詞を付与する形態素解析部
と、該形態素解析部で付与された品詞を基に連接品詞対
毎に前記マッピングデータベースを検索し、該当する句
分割情報を記憶する句分割部と、該句分割部で記憶され
た句分割情報に基づき入力文を構成する句を認識・同定
する文構造解析部と、該文構造解析部により認識・同定
された入力文の構造を出力する出力部とを備えたこと、
或いは、(10)自然言語の文を構成する単語列の入力
を受け付ける入力部と、当該言語で隣接可能な品詞対で
ある連接品詞バイグラムについて句の分割の可能性を示
す句分割情報を保持するマッピングデータベースと、入
力となる単語列に品詞を付与する形態素解析部と、該形
態素解析部で付与された品詞を基に入力文の各連接品詞
対毎に前記マッピングデータベースを検索し、該当する
句分割情報を記憶する句分割部と、該句分割部で記憶さ
れた句分割情報に基づき入力文を構成する句を認識・同
定する文構造解析部と、該文構造解析部により認識・同
定された入力文の構造を基に句同士の修飾関係を決定
し、入力文の構文構造として記憶する修飾関係解析部
と、該修飾関係解析部により決定された入力文の構文構
造を出力する出力部とを備えたこと、更には、(11)
前記(1),(9)又は(10)において、前記句分割
部が、特定の品詞をスキップした連接品詞対についてマ
ッピングデータベースを検索すること、或いは、(1
2)原言語の入力文を受け付ける入力部と、原言語で隣
接可能な品詞対である連接品詞バイグラムについて句の
分割の可能性を示す句分割情報を保持するマッピングデ
ータベースと、入力文を単語列に分割して各単語に品詞
を付与する形態素解析部と、該形態素解析部で付与され
た品詞を基に入力文の各連接品詞対毎に前記マッピング
データベースを検索し、該当する句分割情報を記憶する
句分割部と、該句分割部で記憶された句分割情報に基づ
き入力文を構成する句を認識・同定する句同定部と、前
記句同定部により認識・同定された入力文の各句を目的
言語に変換生成する変換生成部と、該変換生成部により
生成された目的言語の句を原言語の句と対応付けて出力
する出力部とを備えたこと、或いは、(13)原言語の
入力文を受け付ける入力部と、利用者の要求を受け付け
る要求受付部と、原言語で隣接可能な品詞対である連接
品詞バイグラムについて句の分割の可能性を示す句分割
情報を保持するマッピングデータベースと、入力文を単
語列に分割して各単語に品詞を付与する形態素解析部
と、該形態素解析部で付与された品詞を基に入力文の各
連接品詞対毎に前記マッピングデータベースを検索し、
該当する句分割情報を記憶する句分割部と、該句分割部
で記憶された句分割情報に基づき入力文を構成する句を
認識・同定する句同定部と、前記要求受付部により指定
された文または部分を目的言語に変換生成する変換生成
部と、原言語の文を表示し、要求があった時に指定の文
またはその部分の部分訳を表示する出力部とを備え、前
記形態素解析部と句分割部と句同定部は、前記出力部に
より原文が表示されている間にバックグラウンドで動作
することを特徴としたものである。
【0016】
【作用】入力部により自然言語の文を構成する単語列お
よび各単語の品詞の入力を受け付け、マッピングデータ
ベースにより当該言語で隣接可能な品詞対(連接品詞バ
イグラム)について、句の分割の可能性を示す句分割情
報を保持する。句分割部では、入力となる品詞列の連接
品詞対毎に前記マッピングデータベースを検索し、該当
する句分割情報を記憶し、文構造解析部により前記句分
割部で記憶された句分割情報に基づき、入力文を構成す
る句を認識・同定する。出力部は、前記文構造解析部に
より認識・同定された入力文の構造を出力する。このよ
うに、連接品詞バイグラムについて、句の分割可能性を
示すマッピングデータベースを用いて自然言語文の構造
を解析するため、高速でかつ計算量の負担も非常に少く
なり、様々な応用系に構文解析装置を組み込み、文構造
解析結果を利用した処理を行うことが可能になる。
【0017】また、形態素解析部では、入力となる単語
列に品詞を付与し、句分割部では、前記形態素解析部で
付与された品詞を基に入力文の各連接品詞対毎に前記マ
ッピングデータベースを検索し、該当する句分割情報を
記憶する。文構造解析部により、前記句分割部で記憶さ
れた句分割情報に基づき入力文を構成する句を認識・同
定し、修飾関係解析部は、前記文構造解析部により認識
・同定された入力文の構造を基に句同士の修飾関係を決
定し、入力文の構文構造として記憶する。出力部は、前
記修飾関係解析部により決定された入力文の構文構造を
出力する。このように、連接品詞バイグラムについて、
句の分割可能性を示すマッピングデータベースを用いて
自然言語文の基本構造を解析した上で、句同士の修飾関
係を決定するため、処理の見通しがよい装置とすること
ができる。
【0018】さらに、入力部により原言語の文を入力と
して受け付け、マッピングデータベースにより原言語で
連接可能な品詞バイグラムについて句分割情報を保持す
る。形態素解析部では、入力文を単語に分割し、各単語
の品詞を決定する。句分割部では、形態素解析部で付与
された品詞列の各連接品詞対についてマッピングデータ
ベースを検索し、対応する句分割情報を記憶する。句同
定部では、句分割部で記憶した句分割情報を基に、入力
文の単語列を句にまとめあげ、各句を記憶する。変換生
成部は、句同定部で認識同定された各句毎に、あるいは
利用者により指定のあった部分又は文の句について、目
的言語の訳を生成して記憶する。出力部は原文および変
換生成部で生成した目的言語の訳を表示する。要求受付
部は、利用者が翻訳結果を見たい文は部分の指定を受け
付ける。このようにして、句分割情報のマッピングデー
タベースを利用して部分翻訳用の句を分割することによ
り、高速に部分翻訳処理を行なうことができる。また、
句分割手法は処理負担が非常に軽いので、バックグラウ
ンドで予め句分割処理を行なっておくことが可能で、利
用者が外国語の文書を読む流れを妨げずに要求に応じて
迅速に部分訳を表示することができる。
【0019】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による構文解析装置の一実施例を
説明するための構成図で、図中、1は入力部、2はマッ
ピングデータベース、3は句分割部、4は文構造解析
部、5は出力部、6は制御部、7は形態素解析部、8は
修飾関係解析部である。
【0020】以下、実施例1(請求項1,2,5,6,7,
11)について説明する。なお、以下の説明では英語を
例にとるが、本発明の対象言語は英語に限るものではな
い。入力部1は、対象言語の文の単語列と対応する品詞
列を入力として受け付ける。句分割部3では、入力品詞
列の各連接品詞対についてマッピングデータベース2を
検索し、対応する句分割情報を記憶する。文構造解析部
4では、句分割部3で記憶した句分割情報を基に入力文
の単語列を句にまとめあげる。出力部5は、文構造解析
部4で解析した文の構造を出力する機構である。制御部
6は、入力部1〜出力部5の各部間の連絡やデータの受
け渡しを制御する。
【0021】すなわち、入力部1は、自然言語の文を構
成する単語列および各単語の品詞の入力を受け付ける。
マッピングデータベース2は、当該言語で隣接可能な品
詞対(連接品詞バイグラム)について、句の分割の可能
性を示す句分割情報を保持する。句分割部3は、入力と
なる品詞列の連接品詞対毎に前記マッピングデータベー
ス2を検索し、該当する句分割情報を記憶する。文構造
解析部4は、前記句分割部3で記憶された句分割情報に
基づき入力文を構成する句を認識・同定する。出力部5
は、前記文構造解析部4により認識・同定された入力文
の構造を出力する。
【0022】図3は、マッピングデータベースの内容例
を示す図である。対象言語で隣接可能な品詞対につい
て、句分割の可否を示す句分割情報が対応づけられてお
り、連接品詞バイグラムをキーとして、当該バイグラム
で終了する句の有無とその種類,および開始する句の有
無とその種類の情報を検索することができる。
【0023】次に、前述の例文1を例にとり、本実施例
1の構文解析装置の動作について説明する。入力部 まず、入力部1が、図4(a)単語、図4(b)品詞に
示す情報を、例えばファイルから読み込むなどして入力
として受け付ける。句分割部 続いて、入力は句分割部3に渡される。該句分割部3は
入力のうち、図4(b)の品詞列の先頭から連続する品
詞対をキーにマッピングデータベース2を検索し、その
結果を記憶する。すなわち、「文頭・形容詞」をキーと
すると、終点情報として句の終了はないこと、および始
点情報として名詞句が開始するという句分割情報を得る
ことができる。そこで、終点情報をバイグラムの一番目
の単語(この場合は文頭“−”)に関連づけ、始点情報
をバイグラムの第二番目の単語である形容詞“Late”に
関連づけて記憶する。次の連接品詞対として「形容詞・
形容詞」をキーに句分割情報を検索し、同様にして「形
容詞・名詞」,「名詞・be動詞」…について句分割情報
を得、該当する単語に関連づけて記憶する。
【0024】(i).副詞のスキップ ところで、英語においては、副詞や接続詞などの一部の
品詞を含むバイグラムでは、句の終了・開始の可能性が
決定できない。そこで、請求項11では、これらの品詞
を除いた品詞対についてマッピングデータベースを検索
することを提案している。例文1では、「be動詞・副
詞」,「副詞・過去分詞」の代わりに「be動詞・過去分
詞」というバイグラムをキーにマッピングデータベース
を検索すると、この品詞対では句の終点および始点はな
いという情報を得ることができる。図4(c)始点、図
4(d)終点は、このようにして記憶された句分割情報
を示したものである。
【0025】文構造解析部 句分割部3で検索された句分割情報を基に、同じ種類の
句の始点情報と終点情報の対応をとることで、入力部を
構成する句を認識・同定する。図1の例では、第一単語
“Late”における名詞句の始点に対して、第三単語“se
dimentation”の名詞句の終点が対応し、第四単語“wa
s”の動詞句の始点には第五単語“controlled”の動詞
句の終点がといった具合に対応づけを行い、図4(e)
のような文構造を認識・同定し、例文1の文構造として
記憶する。しかしながら、句の始点情報と終点情報の対
応づけは、常にこの例のようにうまくいくとは限らな
い。
【0026】(i).終点の欠如 例えば、以下の例文2を考える。 例文2 The extent is greater for those using shorter wave
lengths. 図5(a)〜(d)は、この入力文の単語列と品詞列お
よび句分割部により記憶された句分割情報を示したもの
である。
【0027】文頭から第四単語“greater”までは、図
5(e)に示す通り、句の始点と終点の対応づけは単純
に行える。しかし、第六単語“those”における名詞句
の始点には、対応する名詞句の終点がない。このような
場合の対応策として、請求項6では、対応する終点がな
い始点情報に後続する別の句の始点情報の直前を終点と
することを提案している。したがって、例文2では、
“those”における名詞句の始点に後続する別の句の始
点として第七単語“using”における動詞句の始点があ
り、この直前、すなわち“those”を当該名詞句の終点
とみなし、図5(e)に示すように、“those”一単語
で名詞句を構成するものと認識・同定することができ
る。
【0028】(ii).始点の欠如 次に、以下の例文3を考える。 例文3 Gradients in radiating fluid layers are studied. 図6(a)〜(d)は、入力単語列と品詞列および句分
割部により記憶された句分割情報を示したものである。
【0029】この入力文では、第五単語“layers”にお
ける名詞句の終点に対応する始点がない。このような場
合の対応策として、請求項7では、対応する始点がない
終点情報に先行する別の句の終点情報の直後を始点とす
ることを提案している。すなわち、例文3では、“laye
rs”における名詞句の終点に先行する別の句の終点とし
て第三単語“radiating”における動詞句の終点情報が
あるので、この直後の単語“fluid”を名詞句の始点と
みなし、図6(e)に示すように、“fluid”から“lay
ers”までを名詞句として認識・同定する。出力部 続いて、出力部5が文構造解析部4で記憶された文構造
をファイルや次の処理部などへ出力する。
【0030】次に、実施例2(請求項3,4,8)につい
て説明する。図1に示す構文解析装置の構成のうち、入
力部1,マッピングデータベース2,句分割部3,文構
造解析部4,出力部5,制御機構6は、前述の説明と同
じである。図7は、マッピングデータベースの内容例を
示す図である。実施例1における図3に示すマッピング
データベースと同様、連接品詞バイグラムをキーとし
て、当該バイグラムで終了する句の有無とその種類、お
よび開始する句の有無とその種類の情報を検索すること
ができる。バイグラムに対応する終点情報あるいは始点
情報が複数ある場合、それぞれの句分割情報の尤度がつ
けられており、バイグラムをキーとして、複数の句分割
情報とその尤度を検索することができる。本実施例で
は、尤度として確率値を用いている。
【0031】以下の例文4を例にとり、本実施例2の構
文解析装置の動作について説明する。 例文4 Going concerns John but not Mary. 例文5 Going concerns have little to worry about.入力部 まず、入力部1が図8(a),(b)と図9(a),
(b)に示す情報を入力として受け付ける。
【0032】句分割部 続いて、入力は句分割部3に渡される。該句分割部3
は、入力のうち図9(b)の品詞列の先頭から連続する
品詞対をキーにマッピングデータベース2を検索し、そ
の結果を記憶する。すなわち、「文頭・現在分詞」をキ
ーとすると、終点情報として句の終了はないこと、およ
び始点情報として名詞句または動詞句が開始する可能性
があることと、それぞれの句が開始する確率値という句
分割情報を得ることができる。そこで、終点情報をバイ
グラムの一番目の単語(この場合は文頭“−”)に関連
づけ、始点情報をバイグラムの第二番目の単語である現
在分詞“Going”に関連づけて記憶する。次の連接品詞
対として「現在分詞・名詞0」をキーに句分割情報を検
索し、同様にして「名詞0・助動詞」,「助動詞・名詞
1」…について句分割情報を得、該当する単語に関連づ
けて記憶する。図8(c),(d)と図9(c),(d)
は、このようにして記憶された句分割情報を示したもの
である。
【0033】文構造解析部 句分割部3で検索された句分割情報のうち、最も尤度の
高い始点情報と終点情報の組み合わせを基に、同じ種類
の句の始点情報と終点情報の対応をとることで、句を認
識・同定する。図8(c),(d)と図9(c),(d)
で最高尤度情報を太字で示した。この句分割情報を基
に、実施例1の説明と同様に行って、句の始点と終点の
対応づけで文を構成する句を認識・同定することができ
る。しかしながら、句の始点情報と終点情報の対応づけ
は得られない場合もある。例えば、図9の動詞句では、
始点と終点両方があり、動詞句として認識ができる。一
方、“Going”の場合には、始点が曖昧だが、名詞句の
終点と対応づけることで、対応・認識・同定ができる。出力部 これ以降の動作は、実施例1における句分割部の動作お
よびそれ以降の動作と同様である。
【0034】次に、実施例3(請求項9)について説明
する。入力部1は、対象言語の文を入力として受け付け
る。マッピングデータベース2は、対象言語で連接可能
な品詞バイグラムについて句分割情報を保持する。形態
素解析部7では、入力文を単語に分割し各単語の品詞を
決定する。句分割部3では、形態素解析部7で付与され
た品詞列の各連接品詞対についてマッピングデータベー
ス2を検索し、対応する句分割情報を記憶する。文構造
解析部4では、句分割部3で記憶した句分割情報を基
に、入力文の単語列を句にまとめあげる。出力部5は、
文構造解析部4で解析した文の構造をファイルや次の処
理部へ出力する機構である。制御部6は、入力部1〜出
力部5および形態素解析部7の各部間の連絡やデータの
受け渡しを制御する。
【0035】すなわち、入力部1は、自然言語の文の入
力を受け付ける。マッピングデータベース2は、当該言
語で隣接可能な品詞対(連接品詞バイグラム)につい
て、句の分割の可能性を示す句分割情報を保持する。形
態素解析部7は、入力文を単語列に分割し、各単語に品
詞を付与する。句分割部3は、前記形態素解析部7で付
与された品詞を基に、連接品詞対毎に前記マッピングデ
ータベース2を検索し、該当する句分割情報を記憶す
る。文構造解析部4は、前記句分割部3で記憶された句
分割情報に基づき、入力文を構成する句を認識・同定す
る。出力部5は、前記文構造解析部4により認識・同定
された入力文の構造を出力する。
【0036】上記の例文1を例に本実施例3の構文解析
装置の動作について説明する。入力部 まず、入力部1が例文1の文字列をファイルから読み込
むなどして、入力として受け付ける。形態素解析部 続いて、形態素解析部7が入力部で受け付けた入力を単
語列に分解し、各単語に品詞を付与する。複数の品詞の
可能性を持つ単語の多義性を解消して品詞を付与する方
法としては、既存の様々な手法があるが、どれを用いて
もよい。例えば、前述した特開平2−254565号公
報に提案されている方式を用いて、入力文を図4
(a),(b)に示すような単語と品詞の列に解析す
る。句分割部 形態素解析部7により解析された単語列と品詞列は、句
分割部3に渡される。これ以降の動作は、実施例1にお
ける句分割部の動作およびそれ以降の動作と同様であ
る。
【0037】次に、実施例4(請求項10)について説
明する。入力部1は、対象言語の文を入力として受け付
ける。マッピングデータベース2は、対象言語で連接可
能な品詞バイグラムについて句分割情報を保持する。形
態素解析部7では、入力文を単語に分割し、各単語の品
詞を決定する。句分割部3では、形態素解析部7で付与
された品詞列の各連接品詞対について、マッピングデー
タベース2を検索し、対応する句分割情報を記憶する。
文構造解析部4では、句分割部3で記憶した句分割情報
を基に入力文の単語列を句にまとめあげる。修飾関係解
析部8は、文構造解析部4で解析された文構造を基に、
句同士の係り受け関係を決定する。出力部5は、修飾関
係解析部8で解析した文の構造をファイルや次の処理部
などへ出力する機構である。制御部6は入力部1〜出力
部5および形態素解析部7、修飾関係解析部8の各部間
の連絡やデータの受け渡しを制御する。
【0038】すなわち、入力部1は、自然言語の文を構
成する単語列の入力を受け付ける。マッピングデータベ
ース2は、当該言語で隣接可能な品詞対(連接品詞バイ
グラム)について、句の分割の可能性を示す句分割情報
を保持する。形態素解析部7は、入力となる単語列に品
詞を付与する。句分割部3は、前記形態素解析部7で付
与された品詞を基に入力文の各連接品詞対毎に前記マッ
ピングデータベース2を検索し、該当する句分割情報を
記憶する。文構造解析部4は、前記句分割部3で記憶さ
れた句分割情報に基づき、入力文を構成する句を認識・
同定する。修飾関係解析部8は、前記文構造解析部4に
より認識・同定された入力文の構造を基に句同士の修飾
関係を決定し、入力文の構文構造として記憶する。出力
部5は、前記修飾関係解析部8により決定された入力文
の構文構造を出力する。
【0039】上記の例文1を例に、本実施例4の構文解
析装置の動作について説明する。入力部,句分割部,文構造解析部 入力部1で単語と品詞列が受け付けられ、句分割部3に
おいて、マッピングデータベース2が検索され、文構造
解析部4において、文の構造が認識・同定されるまで
は、実施例1と同じ動作である。すなわち、例文1を入
力とすれば、図4(e)のような文構造が記憶される。修飾関係解析部 図4(e)に示す文構造は、修飾関係解析部8に渡さ
れ、句と句の間の修飾関係が決定される。修飾関係の決
定には、既存の句を構成する単語の意味情報を用いた共
起分析や、単語同士の結び付きの強さを統計値として用
いて修飾先を決定する手法などを用いて、図17に示し
た修飾関係を解析する。出力部 続いて、出力部5が修飾関係解析部8までの解析結果を
ファイルや次の処理装置などへ出力する。
【0040】図10は、本発明による機械翻訳装置の一
実施例を説明するための構成図で、図中、11は入力
部、12はマッピングデータベース、13は形態素解析
部、14は句分割部、15は句同定部、16は変換生成
部、17は出力部、18は要求受付部である。
【0041】入力部11は、原言語の文を入力として受
け付ける。マッピングデータベース12は、原言語で連
接可能な品詞バイグラムについて句分割情報を保持す
る。形態素解析部13では、入力文を単語に分割し、各
単語の品詞を決定する。句分割部14では、前記形態素
解析部13で付与された品詞列の各連接品詞対について
マッピングデータベース12を検索し、対応する句分割
情報を記憶する。句同定部15では、前記句分割部14
で記憶した句分割情報を基に入力文の単語列を句にまと
めあげ、各句を記憶する。変換生成部16は、前記句同
定部15で認識同定された各句毎に、あるいは利用者に
より指定のあった部分または文の句について、目的言語
の訳を生成して記憶する。出力部17は、原文および変
換生成部16で生成した目的言語の訳を表示する機構で
ある。要求受付部18は、利用者が翻訳結果を見たい文
または部分の指定を受け付ける。
【0042】まず、下記の英語文を入力文の例にとり、
実施例5(請求項12)の機械翻訳装置の動作について
説明する。 例文6 Automatic part of speech annotation is an a
rea of naturallanguage processing where statistica
l techniques have beenmore successful than rule-ba
ssed ones. まず、入力部11で入力文が受け付けられる。続いて、
句分割部14において、マッピングデータベース12が
検索され、句同定部15において句が認識・同定されて
記憶される。図11は、記憶された句の例を示した図で
ある。次に、変換生成部16は、各句毎に目的言語の訳
を生成する。生成された訳文は、図12のように原文の
句と共に記憶される。出力部17は、前記変換生成部1
6により得られた目的言語の訳を各句と対応づけて表示
する。たとえば、図13のように表示することができ
る。
【0043】次に、実施例6(請求項13)の機械翻訳
装置の動作について説明する。まず、入力部11で原文
が受け付けられる。出力部17は、その原文を図14の
ように表示し、利用者はそれを読む。その間にバックグ
ラウンドで、句分割部14、および句同定部15におい
て句が認識・同定され、記憶される。利用者は原文を読
みながら、訳を見たい文や部分の指定と部分訳表示指示
を要求受付部18を通じて行う。図15は、利用者が指
定した部分を強調表示した所を示したものである。変換
部生成部16は、指定された部分または文の各句毎に目
的言語の訳を生成する。出力部17は、前記変換生成部
16により得られた目的言語の訳を図16のように各句
と対応づけて表示する。
【0044】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)請求項1〜9,11に対応する効果:本発明の構
文解析装置は、連接品詞バイグラムについて、句の分割
可能性を示すマッピングデータベースを用いて自然言語
文の構造を解析するため、高速でかつ計算量の負担も非
常に少ない。これにより、様々な応用系に構文解析装置
を組み込み、文構造解析結果を利用した処理を行うこと
が可能になる。また、機械翻訳などにおける本格的な構
文解析装置の前段階として用いれば、本格的な構文解析
装置の処理負担を軽減することができる。 (2)請求項10に対応する効果:連接品詞バイグラム
について、句の分割可能性を示すマッピングデータベー
スを用いて、自然言語文の基本構造を解析した上で、句
同士の修飾関係を決定するため、処理の見通しがよい装
置とすることができる。 (3)請求項12に対応する効果:句分割情報のマッピ
ングデータベースを利用して部分翻訳用の句を分割する
ことにより、高速に部分翻訳処理を行なうことができ
る。 (4)請求項13に対応する効果:本発明で用いた句分
割手段は処理負担が非常に軽いので、バックグランドで
予め句分割処理を行なっておくことが可能で、利用者が
外国語の文書を読む流れを妨げずに要求に応じて迅速に
部分訳を表示することができる。
【図面の簡単な説明】
【図1】 本発明による構文解析装置の一実施例を説明
するための構成図である。
【図2】 本発明による構文解析装置における木構造を
示す図である。
【図3】 本発明におけるマッピングデータベース(そ
の1)の内容例を示す図である。
【図4】 本発明における句分割情報例(その1)を示
す図である。
【図5】 本発明における句分割情報例(その2)を示
す図である。
【図6】 本発明における句分割情報例(その3)を示
す図である。
【図7】 本発明におけるマッピングデータベース(そ
の2)の内容例を示す図である。
【図8】 本発明における句分割情報例(その4)を示
す図である。
【図9】 本発明における句分割情報例(その5)を示
す図である。
【図10】 本発明における機械翻訳装置の一実施例を
説明するための構成図である。
【図11】 本発明における記憶された句の例を示す図
である。
【図12】 本発明における生成された訳文を示す図で
ある。
【図13】 本発明における目的言語訳の表示例(その
1)を示す図である。
【図14】 本発明における原文の表示例を示す図であ
る。
【図15】 本発明における利用者による部分翻訳指定
時の強調表示例を示す図である。
【図16】 本発明における目的言語訳の表示例(その
2)を示す図である。
【図17】 従来の構文解析装置における木構造を示す
図である。
【符号の説明】
1…入力部、2…マッピングデータベース、3…句分割
部、4…文構造解析部、5…出力部、6…制御部、7…
形態素解析部、8…修飾関係解析部、11…入力部、1
2…マッピングデータベース、13…形態素解析部、1
4…句分割部、15…句同定部、16…変換生成部、1
7…出力部、18…要求受付部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フイリス アンウイル 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 自然言語の文を構成する単語列および各
    単語の品詞の入力を受け付ける入力部と、当該言語で隣
    接可能な品詞対である連接品詞バイグラムについて句の
    分割の可能性を示す句分割情報を保持するマッピングデ
    ータベースと、入力となる品詞列の連接品詞対毎に前記
    マッピングデータベースを検索し、該当する句分割情報
    を記憶する句分割部と、該句分割部で記憶された句分割
    情報に基づき入力文を構成する句を認識・同定する文構
    造解析部と、該文構造解析部により認識・同定された入
    力文の構造を出力する出力部とを備えたことを特徴とす
    る構文解析装置。
  2. 【請求項2】 前記マッピングデータデースが、句分割
    情報として当該バイグラムで終了する句の種類を示す終
    点情報、および当該バイグラムで開始する句の種類を示
    す始点情報の二種類の情報を保持し、前記句分割部が、
    マッピングデータベースから検索された句分割情報の
    内、終点情報を当該品詞対を構成する第一単語に、始点
    情報を当該品詞対の第二単語に関連づけて記憶すること
    を特徴とする請求項1記載の構文解析装置。
  3. 【請求項3】 前記マッピングデータベースが、各連接
    品詞バイグラムについて複数の句分割情報と、それぞれ
    の句分割情報の尤度を保持することを特徴とする請求項
    2記載の構文解析装置。
  4. 【請求項4】 前記マッピングデータベースが、句分割
    情報の尤度として確率値を保持することを特徴とする請
    求項3記載の構文解析装置。
  5. 【請求項5】 前記文構造解析部が、前記句分割部で記
    憶された句分割情報の内、同じ種類の句の始点情報と終
    点情報との対応づけを行なうことにより、入力文を構成
    する句を認識・同定し、その結果を当該入力文の構造と
    して記憶することを特徴とする請求項2記載の構文解析
    装置。
  6. 【請求項6】 前記句認識部が、前記句分割部で記憶さ
    れた句分割情報の内、ある句の始点情報と対応する終点
    情報を発見できない場合において、後続する別の句の始
    点情報の直前を当該句の終点とみなして句を認識・同定
    することを特徴とする請求項5記載の構文解析装置。
  7. 【請求項7】 前記句認識部が、前記句分割部で記憶さ
    れた句分割情報の内、ある句の終点情報と対応する始点
    情報を発見できない場合において、先行する別の句の終
    点の直後を当該句の始点とみなして句を認識・同定する
    ことを特徴とする請求項5記載の構文解析装置。
  8. 【請求項8】 前記句認識部が、前記句分割部で記憶さ
    れた複数の句分割情報の内、最も尤度の高くなる組み合
    わせを基に句を認識・同定することを特徴とする請求項
    3記載の構文解析装置。
  9. 【請求項9】 自然言語の文の入力を受け付ける入力部
    と、当該言語で隣接可能な品詞対である連接品詞バイグ
    ラムについて句の分割の可能性を示す句分割情報を保持
    するマッピングデータベースと、入力文を単語列に分割
    し、各単語に品詞を付与する形態素解析部と、該形態素
    解析部で付与された品詞を基に連接品詞対毎に前記マッ
    ピングデータベースを検索し、該当する句分割情報を記
    憶する句分割部と、該句分割部で記憶された句分割情報
    に基づき入力文を構成する句を認識・同定する文構造解
    析部と、該文構造解析部により認識・同定された入力文
    の構造を出力する出力部とを備えたことを特徴とする構
    文解析装置。
  10. 【請求項10】 自然言語の文を構成する単語列の入力
    を受け付ける入力部と、当該言語で隣接可能な品詞対で
    ある連接品詞バイグラムについて句の分割の可能性を示
    す句分割情報を保持するマッピングデータベースと、入
    力となる単語列に品詞を付与する形態素解析部と、該形
    態素解析部で付与された品詞を基に入力文の各連接品詞
    対毎に前記マッピングデータベースを検索し、該当する
    句分割情報を記憶する句分割部と、該句分割部で記憶さ
    れた句分割情報に基づき入力文を構成する句を認識・同
    定する文構造解析部と、該文構造解析部により認識・同
    定された入力文の構造を基に句同士の修飾関係を決定
    し、入力文の構文構造として記憶する修飾関係解析部
    と、該修飾関係解析部により決定された入力文の構文構
    造を出力する出力部とを備えたことを特徴とする構文解
    析装置。
  11. 【請求項11】 前記句分割部が、特定の品詞をスキッ
    プした連接品詞対についてマッピングデータベースを検
    索することを特徴とする請求項1,9又は10記載の構
    文解析装置。
  12. 【請求項12】 原言語の入力文を受け付ける入力部
    と、原言語で隣接可能な品詞対である連接品詞バイグラ
    ムについて句の分割の可能性を示す句分割情報を保持す
    るマッピングデータベースと、入力文を単語列に分割し
    て各単語に品詞を付与する形態素解析部と、該形態素解
    析部で付与された品詞を基に入力文の各連接品詞対毎に
    前記マッピングデータベースを検索し、該当する句分割
    情報を記憶する句分割部と、該句分割部で記憶された句
    分割情報に基づき入力文を構成する句を認識・同定する
    句同定部と、前記句同定部により認識・同定された入力
    文の各句を目的言語に変換生成する変換生成部と、該変
    換生成部により生成された目的言語の句を原言語の句と
    対応付けて出力する出力部とを備えたことを特徴とする
    機械翻訳装置。
  13. 【請求項13】 原言語の入力文を受け付ける入力部
    と、利用者の要求を受け付ける要求受付部と、原言語で
    隣接可能な品詞対である連接品詞バイグラムについて句
    の分割の可能性を示す句分割情報を保持するマッピング
    データベースと、入力文を単語列に分割して各単語に品
    詞を付与する形態素解析部と、該形態素解析部で付与さ
    れた品詞を基に入力文の各連接品詞対毎に前記マッピン
    グデータベースを検索し、該当する句分割情報を記憶す
    る句分割部と、該句分割部で記憶された句分割情報に基
    づき入力文を構成する句を認識・同定する句同定部と、
    前記要求受付部により指定された文または部分を目的言
    語に変換生成する変換生成部と、原言語の文を表示し、
    要求があった時に指定の文またはその部分の部分訳を表
    示する出力部とを備え、前記形態素解析部と句分割部と
    句同定部は、前記出力部により原文が表示されている間
    にバックグラウンドで動作することを特徴とする機械翻
    訳装置。
JP6031086A 1993-12-24 1994-03-01 構文解析装置及び機械翻訳装置 Pending JPH07230461A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6031086A JPH07230461A (ja) 1993-12-24 1994-03-01 構文解析装置及び機械翻訳装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-325647 1993-12-24
JP32564793 1993-12-24
JP6031086A JPH07230461A (ja) 1993-12-24 1994-03-01 構文解析装置及び機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH07230461A true JPH07230461A (ja) 1995-08-29

Family

ID=26369541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6031086A Pending JPH07230461A (ja) 1993-12-24 1994-03-01 構文解析装置及び機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH07230461A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747946B2 (en) 2015-07-24 2020-08-18 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747946B2 (en) 2015-07-24 2020-08-18 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method

Similar Documents

Publication Publication Date Title
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
KR900005899B1 (ko) 문장작성장치
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
US20040167771A1 (en) Method and system for reducing lexical ambiguity
GB2211639A (en) Machine translation
JP2815714B2 (ja) 翻訳装置
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
JP2002503849A (ja) 漢字文における単語区分方法
JP2632806B2 (ja) 言語解析装置
JPH07230461A (ja) 構文解析装置及び機械翻訳装置
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
WO2009139240A1 (ja) 情報処理装置および情報処理方法ならびに記録媒体
JPH1074207A (ja) 情報検索装置及び情報検索方法
JP2719453B2 (ja) 機械翻訳装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JPH05225232A (ja) テキスト自動前編集装置
JPH0320866A (ja) テキストベース検索方式
JPH0816910B2 (ja) 言語解析装置
JPH0827803B2 (ja) テキストベース検索方法
JPH01126767A (ja) 辞書参照装置
JP2608384B2 (ja) 機械翻訳装置及びその方法
KR19990079824A (ko) 하이픈으로 연결된 복합어 처리에 적합한 형태소 해석장치와 방법 및 그 장치를 구비한 언어 번역장치
JPH11250056A (ja) 形態素解析装置及び解析実行時データ作成装置
JPH0844746A (ja) 翻訳変換学習装置