JP3692711B2 - 機械翻訳装置 - Google Patents
機械翻訳装置 Download PDFInfo
- Publication number
- JP3692711B2 JP3692711B2 JP15348497A JP15348497A JP3692711B2 JP 3692711 B2 JP3692711 B2 JP 3692711B2 JP 15348497 A JP15348497 A JP 15348497A JP 15348497 A JP15348497 A JP 15348497A JP 3692711 B2 JP3692711 B2 JP 3692711B2
- Authority
- JP
- Japan
- Prior art keywords
- headword
- dictionary
- particle
- information
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、第一言語の原文を第二言語に翻訳する機械翻訳装置に関するものである。
【0002】
【従来の技術】
従来、この種の機械翻訳装置においては、一般的に複数種類の辞書が用意されており、翻訳処理においては、その翻訳しようとするテキストに応じて最もふさわしい辞書を使用するように構成されている。ここで、用意されている辞書の種類としては、例えば、広い範囲の語句が一般的な訳語や語法で登録されており、機械翻訳装置が予め保有している基本辞書と、ある特定の分野でのみ使用される語句や訳語などが登録されている専門辞書と、ユーザが独自に編集することができるユーザ辞書などがある。
【0003】
機械による翻訳処理に限らず、人手による翻訳処理においても、様々な種類の辞書を利用する必要があり、用例の豊富な一般の学習用辞書、専門用語の対訳が並んでいる専門分野の辞書、専門書、雑誌、論文などを用いる場合もある。また、実際の翻訳処理では、これらの市販されているものだけでは十分でなく、翻訳処理を行う者の知識や、独自に集めた用語集などが併用される。この状況は機械による翻訳処理でも同様である。
【0004】
実際の翻訳文中には、個々のユーザが独自に用いる用語や言い回しがかなりの割合で含まれているため、システム側で予め用意してある前記基本辞書、専門辞書だけでは不十分であり、未登録語が多数存在してしまう。また、基本辞書、専門辞書に登録されている語句であっても、その訳語がユーザに最もふさわしいものあるとは限らず、特定のユーザが使う決まり文句や独特の表現、慣用句を文字通り訳してしまうため意味が通らない訳文や、不自然な訳文が生成されてしまうことがあった。このような訳文が多ければ多いほど、ユーザは膨大な後編集を行わなければならない。従って、ユーザが自由に編集できるユーザ辞書は、自然な翻訳結果を得るためには不可欠である。
【0005】
ところが、ユーザは機械翻訳装置の内部に詳しいわけではないため、必ずしも適切なユーザ辞書が作れないという問題がある。即ち、ユーザは、注目している部分の翻訳のことのみを考えて見出し語の登録を行う傾向にあるが、その見出し語を登録したために前記注目している部分以外の翻訳が不適切になるという副作用が発生することがある。
【0006】
そこで、従来の機械翻訳装置では、このような弊害を誘発しないように、ユーザ辞書へ登録できる品詞を名詞のみ、或いは動詞や形容詞など自立語のみに制限していた。
【0007】
また、特開平7−85059号公報においては、翻訳処理に悪影響を及ぼすような辞書登録に対し警告を出す辞書検査装置が開示されている。
【0008】
【発明が解決しようとする課題】
しかしながら、前述したように辞書登録に制限ばかり設けることは、初心者のユーザであればともかく、機械翻訳装置を自在に使いこなしているユーザにとってはとても歯がゆい状況になっている。即ち、自立語の編集だけでなく、機能語と呼ばれる助詞や助動詞の中でも自由度が高い連語を使うことができれば文章がより自然になるのにも拘わらず、そのような品詞は形態素解析で不適切な結果が生じるという危険を伴うという理由でユーザに開放されていなかった。
【0009】
本発明は、上述した問題点を解決するためになされたものであり、ユーザ辞書に機能語を登録することを可能にし、且つ、その登録による翻訳処理における副作用を抑え、精度の高い翻訳結果を得ることができる機械翻訳装置を提供することを目的としている。
【0010】
【課題を解決するための手段】
この目的を達成するために、本発明の請求項1に記載の機械翻訳装置は、第一言語の見出し語と、品詞と、前記各見出し語に対応する第二言語の訳語と、形態素解析処理に必要な接続情報を含む翻訳処理に用いられる各種の辞書登録情報とから構成され、記憶装置に格納された辞書と、その辞書に対して前記第一言語の見出し語等の情報を追加、修正、削除する辞書編集手段と、入力された前記第一言語の原文について前記辞書に登録された見出し語を検索することにより形態素解析を行う形態素解析手段と、その形態素解析手段による形態素解析結果に対して構文解析を行う構文解析手段とを備え、前記第一言語の原文を前記第二言語に翻訳するようにしたものを対象として、特に、前記辞書編集手段が、前記辞書へ登録しようとする見出し語のユーザによって入力された品詞が助詞であるか否かを判定する助詞判定手段と、その助詞判定手段が助詞であると判断した場合に、前記形態素解析手段により前記見出し語の形態素解析を行って複数の要素に分割する見出し語分割手段と、その見出し語分割手段により分割された複数の要素の各々を見出し語として前記辞書に登録するとともに、前記見出し語分割手段により分割する前の原見出し語の要素であることを示す要素見出し語情報を前記各要素の辞書登録情報として付加する登録手段とを備えている。
【0011】
従って、助詞判定手段は辞書へ登録しようとする見出し語のユーザによって入力された品詞が助詞であるか否かを判定し、見出し語分割手段は前記助詞判定手段が助詞であると判断した場合に、形態素解析手段により前記見出し語の形態素解析を行って複数の要素に分割し、登録手段は前記見出し語分割手段により分割された複数の要素の各々を見出し語として前記辞書に登録するとともに、前記見出し語分割手段により分割する前の原見出し語の要素であることを示す要素見出し語情報を前記各要素の辞書登録情報として付加する。
【0012】
また、請求項2に記載の機械翻訳装置は、前記見出し語分割手段は、前記登録しようとする見出し語の直前に仮の名詞を接続して形態素解析を行うように構成されている。
【0013】
従って、見出し語分割手段が、前記登録しようとする見出し語の直前に仮の名詞を接続して形態素解析を行って複数の要素に分割する。
【0014】
また、請求項3に記載の機械翻訳装置は、前記構文解析手段は、入力された原文の前記形態素解析手段による形態素解析結果内に、前記要素見出し語情報を有する見出し語が存在するか否かを判定する要素見出し語判定手段と、その要素見出し語判定手段により前記見出し語が存在すると判定された場合に、前記要素見出し語情報を有する複数の見出し語が前記原文中において助詞として使われているか否かを判断する品詞判断手段と、その品詞判断手段により助詞として使われていると判断された場合に、前記要素見出し語情報を有する複数の見出し語を前記原見出し語に置換する置換手段とを備えている。
【0015】
従って、要素見出し語判定手段は、入力された原文の前記形態素解析手段による形態素解析結果内に、前記要素見出し語情報を有する見出し語が存在するか否かを判定し、品詞判断手段は、前記要素見出し語判定手段により前記見出し語が存在すると判定された場合に、前記要素見出し語情報を有する複数の見出し語が前記原文中において助詞として使われているか否かを判断し、置換手段は、前記品詞判断手段により助詞として使われていると判断された場合に、前記要素見出し語情報を有する複数の見出し語を前記原見出し語に置換する。
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【0022】
【発明の実施の形態】
以下、本発明の機械翻訳装置を具体化した実施の形態について図面を参照して説明する。尚、本実施の形態では、日本語を第一言語とし、英語を第二言語とする機械翻訳装置において、ユーザがユーザ辞書に助詞を登録することができるようにした例を説明する。
【0023】
まず、本実施形態の機械翻訳装置の概略構成のブロック図を図1に示す。
【0024】
図1に示すように、本実施形態の機械翻訳装置は、翻訳対象となる日本語の原文や各種操作指示等を入力するためのキーボード等から成る入力部2と、翻訳処理に利用される各種辞書が格納され、ハードディスクや光ディスク等から成る外部記憶装置4と、入力された日本語の原文や翻訳結果である英語の訳文等を表示するためのCRT等から成る表示部6と、その表示部6に表示するデータを制御する表示制御部7と、翻訳結果である英語の訳文等を印刷して出力するためのレーザープリンタ等から成る印刷部8と、前記入力部2や外部翻訳装置4から入力されるデータに基づいて翻訳処理を行い、その翻訳結果を表示部6に表示したり、印刷部8から出力する等の制御を行う制御部10とから構成されている。
【0025】
前記入力部2には、文字を入力するための文字キー、各種処理を起動するための入力文編集キー、翻訳実行キー、辞書編集キー、出力文編集キー、終了キー、及び印字実行キーといった各種機能キー、入力文や出力文の編集、表示部6に表示されている画面操作等に使用するカーソルキー、挿入キー、削除キー、確定キー、及び次候補選択キー等が設けられている。
【0026】
また、前記外部記憶装置4には、翻訳処理に利用される基本辞書12とユーザ辞書14が格納されている。このユーザ辞書14が、本発明の辞書を構成している。
【0027】
機械翻訳装置が利用する辞書としては、機械翻訳装置が予め保有している基本辞書、専門分野毎に編集された専門辞書、及びユーザが独自に構築するユーザ辞書がある。専門辞書、ユーザ辞書は利用しても、利用しなくてもよい。もし専門辞書を利用する際には、外部記憶装置4内に格納される。また、専門辞書は、各種専門分野毎に、ユーザ辞書は、例えば、ユーザ毎や利用分野毎にそれぞれ複数個の辞書が同時に存在可能に構成されていてもよい。本実施形態では、これらの利用については特に明言しない。
【0028】
図2に、前述した基本辞書のデータ構成の一例を示す。個々の辞書登録情報は、それぞれ見出し語30と、各見出し語の品詞32と、各見出し語に対する訳語34と前後の接続情報や意味情報等を含む様々な辞書情報36とから構成されている。
【0029】
図3に、前述したユーザ辞書のデータ構成の一例を示す。個々の辞書登録情報は、それぞれ見出し語40と、各見出し語の品詞42と、各見出し語に対する訳語44と、前後の接続情報や意味情報等を含む様々な辞書情報46とから構成されている。
【0030】
次に、前記制御部10は、CPU18、ROM20、RAM22、入出力ポート24、及びこれら各部を結ぶバスライン26を備えた周知のマイクロコンピュータにより構成されている。そして、制御部10においては、ROM20に格納されたプログラムによって各種処理が実行される。例えば、前記入力部2から入力された日本語の原文を英語に翻訳すると共に、原文や翻訳文の編集等を行う翻訳・編集処理、また、翻訳時に利用するユーザ辞書を構築するための辞書編集処理等が実行される。
【0031】
また、前記ROM20には、後述する翻訳処理において使用される各種情報が格納されている。
【0032】
前記RAM22には、入力部から入力される日本語の原文、及び翻訳・編集処理により翻訳、編集された英語の訳文、及びユーザ辞書14の辞書登録情報が格納される。
【0033】
続いて、制御部10が実行する翻訳・編集処理について図4〜図6に示すフローチャートに従って説明する。
【0034】
図4に示すように、翻訳・編集処理が実行されると、まず、ステップ110(以下、ステップをSと略記する。他のステップも同様)において、ユーザにより入力部2の文字キー等が操作され、翻訳対象となる日本語の原文が入力されるのを待つ。ここで、原文の入力は、既に作成されている原文のファイルを読み込むように構成してもよい。そして、日本語の原文(以下、入力文)が入力されると、S120に進み、この入力文を、表示部6の所定のエリアに表示する。
【0035】
次に、S130では、入力部2に設けられた入力文編集キーが操作されたか否かを判断し、操作されていなければ(S130:N)、S150に移行する。また、入力文編集キーが操作されていれば(S130:Y)、S140に移行し、入力文編集処理を実行する。尚、入力文編集処理が実行されると、ユーザは表示部6の所定のエリアに表示された入力文を、入力部2に設けられたカーソルキー、削除キー、挿入キー及び文字キー等を使用して直接修正することが可能となる。S150では、入力部2に設けられた翻訳実行キーが操作されたか否かを判断し、操作されていなければ(S150:N)、S190に移行し、また、翻訳実行キーが操作されていれば(S150:Y)、S160に移行し、日本語の入力文を英語の訳文(以下、出力文とする)に翻訳する翻訳処理を実行し、続くS170において、翻訳処理により得られた出力文を入力文と対にしてRAM22に格納すると共に、S180において、表示部6に設けられた所定のエリアにそれぞれ入力文と出力文とを表示する。
【0036】
尚、翻訳処理は、入力文全部を一括して実行しても良いし、文章単位で範囲を指定し、指定された範囲の文章のみについて実行するようにしてもよい。
【0037】
S190では、入力部2に設けられた辞書編集キーが操作されたか否かを判断し、操作されていなければ(S190:N)、S210に移行する。また、辞書編集キーが操作されていれば(S190:Y)、S200に移行し、辞書編集処理を実行する。尚、辞書編集処理が実行されると、ユーザはユーザ辞書14に登録されている情報の内容を修正したり、削除したり、新たに必要な語句を登録することが可能となる。また、S200の処理が、本発明の辞書編集手段として機能している。
【0038】
S210では、入力部2に設けられた出力文編集キーが操作されたか否かを判断し、操作されていなければ(S210:N)、S230に移行する。また、出力文編集キーが操作されていれば(S210:Y)、S220に移行し、出力文編集処理を実行する。尚、出力文編集処理が実行されると、ユーザは先のS160において翻訳処理が実行されることにより表示部6の所定のエリアに表示される出力文(英語の訳文)を、S140の入力文編集処理と同様に、入力部2に設けられたカーソルキー、削除キー、挿入キー及び文字キー等を使用して、直接修正することが可能となる。
【0039】
S230では、入力部2に設けられた終了キーが操作されたか否かを判断し、操作されていなければ(S230:N)、S240に移行し、例えば、翻訳された出力文を印刷部8に出力し印刷させる印刷実行キー等、その他のキー操作を検出すると共に、操作されたキーに応じた処理を実行する。
【0040】
そして、先のS140、S180、S200、S220、S240が処理された後は、S130に戻り、同様の処理を繰り返し実行する。
【0041】
また、S230にて、終了キーが操作されたと判断されると(S230:Y)、本処理を終了する。
【0042】
このように翻訳・編集処理においては、日本語の原文が入力された後、入力部2に設けられた各種キーの操作に従って、入力文の編集処理、翻訳処理、辞書編集処理、及び出力文編集処理といった各種処理が実行される。そして、もし、翻訳実行キーを操作し翻訳処理を実行したが、得られた出力文(英語の訳文)が不正確であったり不自然であったりする場合には、入力文編集キーを操作して入力文編集処理を実行し、入力文である日本語の原文を再編集した後、またはユーザ辞書編集キーを操作してユーザ辞書を編集した後、再度、翻訳実行キーを操作して再翻訳させるか、あるいは出力文編集キーを操作して出力文編集処理を実行し、出力文である英語の訳文を直接編集する。
【0043】
このような処理を繰り返すことにより、ユーザが求める翻訳結果を得ることができれば、印刷キーを操作して、翻訳結果を印刷部8から出力したり、テキストデータとしてRAM22や外部記憶装置4に保存し、その後、終了キーを操作して、処理を終了する。
【0044】
次に、図4に示すフローチャート中のS200の辞書編集処理の詳細について、図5に示すフローチャートに従って説明する。
【0045】
まず、S510では、ユーザが編集したい見出し語とその品詞が入力されたか否かを判断する。入力されていれば(S510:Y)、S520に移行する。S520では、入力された見出し語と品詞のペアが、既にユーザ辞書14に登録されているか否かを判断する。既に登録されていれば(S520:Y)、S540に移行する。S540では、ユーザ辞書内のデータを再編集して、S550へ移行する。まだ登録されていなければ(S520:N)、S530へ移行する。S530では、新規に辞書情報を編集してS550へ移行する。S550では、編集された辞書情報が登録されるか否かを判断する。登録されるならば(S550:Y)、S560へ移行する。S560では、ユーザによって入力された見出し語の品詞が助詞であるか否かを判断する。尚、S560の処理が、本発明の助詞判定手段として機能している。
【0046】
助詞であれば(S560:Y)、見出し語分割処理S570へ移行する。見出し語分割処理S570では、入力された見出し語の前にダミーの名詞(仮の名詞)を付けて、形態素解析処理S250を行い、S580へ移行する。これは、助詞により差はあるが、基本的に助詞は名詞に続くので、それを想定して形態素解析結果を得るためである。尚、S570の処理が、本発明の見出し語分割手段として機能している。
【0047】
S580では、見出し語分割処理S570の結果検索された個々の分割された要素(以下、要素見出し語と称する)を新たな見出し語とし、且つ、各要素の直後は、それぞれ次の要素見出し語しか検索されないような接続情報とする。一番最後の要素見出し語の後方接続は、その語が本来持っている接続情報とする。全ての要素見出し語の辞書情報に分割フラグを立て、分割前の原見出し語と品詞とを辞書情報として格納し、S590へ移行する。尚、S580の処理が、本発明の登録手段として機能しており、分割フラグ及び原見出し語が、要素見出し語情報に相当している。
【0048】
ここで、図3は、助詞「に係わる」をユーザ辞書に登録した場合の個々の要素に分割された見出し語の例を示している。
【0049】
また、入力された見出し語の品詞が助詞でない時(S560:N)、S590へ移行する。
【0050】
S590では、編集された情報をユーザ辞書14へ格納し、S510へ移行して次の見出し語の編集に備える。
【0051】
S550で登録されないならば(S550:N)、辞書情報を破棄し、S510へ移行する。
【0052】
S510において、見出し語と品詞とが入力されなかった時(S510:N)、この処理を終了する。
【0053】
次に、図4に示すフローチャート中のS160において実行され、入力文(日本語の原文)から出力文(英語の訳文)に翻訳する翻訳処理について、図6に示すフローチャートに従って説明する。
【0054】
まず、S250では、形態素解析処理内の予め定められた判断規則と基本辞書12、ユーザ辞書14内の接続情報とを用いて、入力文を構成する単語について各辞書を検索し、見出し語が検索できたものに対して、訳語、品詞、といった検索情報を形態素解析結果に付与する形態素解析処理を実行する。ここでは同じ文字列に対してはユーザ辞書14が優先される。もし、専門辞書を利用する場合は、ユーザ辞書の次に優先される。ユーザ辞書14になかった時、基本辞書12が検索される。この時、ユーザ辞書の助詞は、その接続情報により、各要素が連続して全て検索された時のみ検索される。このS250の処理が、本発明の形態素解析手段として機能している。
【0055】
S260では、S250における形態素解析処理の結果を受け取り、ROM20に格納されている予め定められた解析文法を用いて、日本語の構造を解析する解析処理を実行する。この時、S400の判定処理に移行し、形態素解析結果に辞書編集処理S200の見出し語分割手段により分割された見出しであることを示す分割フラグが付与されている箇所を処理しながら日本語の解析処理を実行する。尚、S260の処理が、本発明の構文解析手段として、S400の処理が、要素見出し語判定手段としてそれぞれ機能している。
【0056】
続くS270では、ROM20に格納されている予め定められた変換文法を用いて、解析処理により解析された日本語の構造を英語の構造に変換すると共に、個々の単語を英語に置き換える変換処理を実行する。続くS280では、ROM20に格納されている予め定められた生成文法を用いて、変換処理により変換された英語の構造から英語の語順を決定したり、英語に特有の冠詞を生成したり、入力文に存在しなくても出力文には必須の主語を補充したり、テンス、アスペクト、人称及び数素性等を処理し、英語の単語列から成る出力文を生成する生成処理を実行する。そして、S290では、ROM20に格納されている予め定められた形態素生成規則を用いて、S280の生成処理により生成された英語の単語列に対して、名詞の複数形、動詞の過去、過去分詞等の活用形を生成して、出力文を得る形態素生成処理を実行して翻訳処理を終了する。
【0057】
次に、図6中のS400において実行される処理の詳細について、図7に示すフローチャートに従って説明する。
【0058】
まず、S410において、入力文中に分割フラグが立っている見出し語、即ち、要素見出し語が存在するか否かを検出する。存在していれば(S410:Y)、S420へ移行する。S420では、要素見出し語が連体修飾の助詞か否かを検出する。連体修飾の助詞か否かの情報は、前記辞書情報46の中に格納されている。連体修飾の助詞であれば(S420:Y)、S430へ移行する。S430では、検出された要素見出し語に動詞を含み、かつ、最右に出現している要素見出し語の右側が文末か、句点か、若しくは助動詞であるかの何れかに該当するか否かを検出する。即ち、これらに該当する場合は、前記各要素見出し語を助詞としてまとめるよりも動詞とした方が適切である確率が高いからである。尚、S420及びS430の処理が、本発明の品詞判断手段として機能している。そして、文末か、句点か、助動詞ではない場合は(S430:N)、S440へ移行する。
【0059】
また、S420で要素見出し語が連体修飾をしている助詞ではない場合、前後判断処理S450へ移行する。S450では、検出された要素見出し語が連用修飾の助詞か否かを検出する。連用修飾の助詞か否かの情報は、辞書情報46の中に格納されている。連用修飾の助詞であれば(S450:Y)、S460へ移行する。S460では、検出された要素見出し語に動詞を含み、かつ、最右に出現している要素見出し語の右側が助動詞か、若しくは動詞「下さる」であるかの何れかに該当するか否かを検出する。即ち、これらに該当する場合は、前記各要素見出し語を助詞としてまとめるよりも動詞とした方が適切である確率が高いからである。この右側が助動詞か、若しくは「下さる」であるかの何れにも該当しない場合(S460:N)、見出し語復活処理S440へ移行する。
【0060】
見出し語復活処理S440では、前記複数の要素見出し語を最左の要素のみを残して削除し、残った見出し語を辞書情報に記憶された原見出し語に置換して、S480へ移行する。即ち、これ以降あたかも形態素解析処理S250で助詞が引けたのと同様の処理を行うことができるようにするためである。尚、S440の処理が、本発明の置換手段として機能している。
【0061】
S430で文末か句点か助動詞であった場合(S430:Y)と、S450で助動詞、若しくは「下さる」であった場合(S460:Y)、S470へ移行する。S470では、要素見出し語の情報を全て破棄し、ユーザが登録した助詞の情報がなかった状態に戻して、S480へ移行する。
【0062】
また、S450で連用修飾の助詞でなかった場合(S450:N)、S480へ移行する。
【0063】
S480では、分割フラグをNILにして、S410へ戻る。
【0064】
S410で、分割フラグの立っている箇所が検出されなかった場合(S410:N)、S400の処理を終了し、翻訳処理S260を続行する。
【0065】
ここで、S400においてなされる処理について、例文を挙げて説明する。
【0066】
例えば、入力文が「彼女に係わる問題」である場合は以下のように処理される。
【0067】
ユーザ辞書14に何も登録されていない場合、まず、ユーザにより入力部2から翻訳処理S160が実行される。翻訳処理S160内の形態素解析処理S250において得られる形態素解析結果は、「彼女(名詞)/に(助詞)/係わる(動詞)/問題(名詞)」である。これについて、解析処理S260以下が実行される。この時の翻訳処理S160が出力する文章は、”The problem
which involves her”である。これは通常の埋め込み文(動詞が名詞を修飾している文章)である。これを、助詞「に係わる=on」で登録しようとする。
【0068】
辞書編集処理S200のS510において、見出し語「に係わる」と品詞「助詞」とが入力される。これは未登録なのでS530の新規作成に移行し、「連体修飾」などの他の辞書情報が付与される。品詞が助詞であるので(S560:Y)、前方に仮の名詞をつけて形態素解析を行い「に(助詞)/係わる(動詞)」を得る。そして、分割した要素「に」,「係わる」を新たな見出し語としてユーザ辞書14へ登録すると共に、原見出し語「に係わる」の情報と分割フラグとを辞書情報として付加する。図3は、このようにして、「に」及び「係わる」が登録された状態を表している。
【0069】
ユーザにより、再度、入力部2から翻訳処理S160が実行される。
【0070】
この時、形態素解析処理S250において得られる形態素解析結果は、「彼女(名詞)/に(助詞)/係わる(動詞)/問題(名詞)」であり、前回と同一である。しかし、「に」と「係わる」の情報には「に係わる」でまとまって助詞になる情報が付与されている。解析処理S260の処理S410において、「に」に分割フラグが立っていることが判定され(S410:Y)、次に、連体修飾である助詞であると判定される(S420:Y)。次の、S430の処理で、最右の要素見出し語「係わる」の右側が文末でも句点でも助動詞でもないので(S430:N)、見出し語復活処理S440で、「に係わる(助詞)」に置き換えられ、「に」と「係わる」は破棄される。この後、解析処理S260は続行され、最終的に出力文”The problem on her”が生成される。このように、ユーザ辞書を登録する前よりもだいぶ英語らしいすっきりした英文を得ることができる。
【0071】
次に、入力文が「彼女はこの問題に係わるだろう。」であった場合の処理を示す。
【0072】
この時、形態素解析処理S250において得られる形態素解析結果は、「彼女(名詞)/は(助詞)/この(連体詞)/問題(名詞)/に(助詞)/係わる(動詞)/だ(助動詞)」である。S400におけるS410〜S430までの処理は、前記例と同じである。S430で、最右の要素見出し語「係わる」の右側が助動詞「だ」であるため(S430:Y)、見出し語復活処理S440ではなくS470へ移行し、「に係わる」の助詞の情報が破棄される。この後解析処理S260は続行され、最終的に正しい出力文”She will involve the problem.”が生成される。
【0073】
尚、本発明は以上詳述した実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において、種々の変更を加えることができる。
【0074】
例えば、前記実施の形態においては、助詞を登録する場合の実施の形態について説明したが、助動詞など他の機能語を登録できるように拡張することも可能である。
【0075】
また、助詞の前後の状況を厳しくしたり、緩くしたりすることでさらに柔軟に対応することができる。また、ユーザにその設定を解放することで、更に使いやすいユーザ辞書環境を持った機械翻訳装置を提供することが可能であり、より精度の高い翻訳結果を得ることができる。
【0076】
また、前記実施の形態では、入力された原文を形態素解析した結果をそのまま使用して、要素見出し語が存在するか否かを判断するように構成したが、形態素解析結果に対して構文解析を行うことにより得られる構文解析木を使用して判断を行うように構成してもよい。
【0077】
また、前記実施の形態では日本語を第一言語とし、英語を第二言語とした場合を示したが、他の言語に適用することも可能であることはいうまでもない。
【0078】
更に、前記実施の形態では、辞書編集ステップと、形態素解析ステップと、構文解析ステップと、助詞判定ステップと、見出し語分割ステップと、登録ステップと、要素見出し語判定ステップと、品詞判断ステップと、置換ステップとからなる機械翻訳プログラムがROMに予め格納されたものであるが、本発明は必ずしもこれに限定されるものではない。例えば、これらのプログラムをフレキシブルディスクやCD−ROMなどに格納したものを読み取り装置により読み取って動作させることもできる。また、有線もしくは無線回線を使用して外部情報処理装置からプログラムを読み込んで動作させることもできる。この場合、前記フレキシブルディスクやCD−ROMや、外部情報処理装置の当該プログラムを格納したメモリが本発明の記録媒体を構成することとなる。
【0079】
【発明の効果】
以上説明したことから明らかなように、本発明の請求項1に記載の機械翻訳装置は、前記辞書編集手段が、前記辞書へ登録しようとする見出し語のユーザによって入力された品詞が助詞であるか否かを判定する助詞判定手段と、その助詞判定手段が助詞であると判断した場合に、前記形態素解析手段により前記見出し語の形態素解析を行って複数の要素に分割する見出し語分割手段と、その見出し語分割手段により分割された複数の要素の各々を見出し語として前記辞書に登録するとともに、前記見出し語分割手段により分割する前の原見出し語の要素であることを示す要素見出し語情報を前記各要素の辞書登録情報として付加する登録手段とを備えているので、従来の機械翻訳装置ではユーザによる辞書登録が禁止されていた助詞についても、ユーザが辞書登録をすることができ、その結果として、最終的に精度の高い自然な翻訳結果を得ることができ、翻訳後の後編集の手間を軽減することができる。
【0080】
また、請求項2に記載の機械翻訳装置は、前記見出し語分割手段は、前記登録しようとする見出し語の直前に仮の名詞を接続して形態素解析を行うように構成されているので、助詞を正確に形態素分析し、各要素を見出し語として登録することができ、翻訳処理において副作用が生じることがない。
【0081】
また、請求項3に記載の機械翻訳装置は、前記構文解析手段は、入力された原文の前記形態素解析手段による形態素解析結果内に、前記要素見出し語情報を有する見出し語が存在するか否かを判定する要素見出し語判定手段と、その要素見出し語判定手段により前記見出し語が存在すると判定された場合に、前記要素見出し語情報を有する複数の見出し語が前記原文中において助詞として使われているか否かを判断する品詞判断手段と、その品詞判断手段により助詞として使われていると判断された場合に、前記要素見出し語情報を有する複数の見出し語を前記原見出し語に置換する置換手段とを備えているので、機能語が使われている状況を正確に判断して、必要な場合にのみユーザにより辞書登録された機能語に置換することができ、その結果として、最終的に精度の高い自然な翻訳結果を得ることができ、翻訳後の後編集の手間を軽減することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態の機械翻訳装置の全体構成を示すブロック図である。
【図2】 基本辞書のデータ構成を説明する説明図である。
【図3】 ユーザ辞書のデータ構成を説明する説明図である。
【図4】 機械翻訳装置の全体の動作を表わすフローチャートである。
【図5】 辞書編集処理の流れを表わすフローチャートである。
【図6】 翻訳処理の流れを表わすフローチャートである。
【図7】 要素見出し語判定処理の流れを表わすフローチャートである。
【符号の説明】
4 外部記憶装置
10 制御部
18 CPU
20 ROM
22 RAM
40 見出し語
42 品詞
44 訳語
46 辞書情報
Claims (3)
- 第一言語の見出し語と、品詞と、前記各見出し語に対応する第二言語の訳語と、形態素解析処理に必要な接続情報を含む翻訳処理に用いられる各種の辞書登録情報とから構成され、記憶装置に格納された辞書と、その辞書に対して前記第一言語の見出し語等の情報を追加、修正、削除する辞書編集手段と、入力された前記第一言語の原文について前記辞書に登録された見出し語を検索することにより形態素解析を行う形態素解析手段と、その形態素解析手段による形態素解析結果に対して構文解析を行う構文解析手段とを備え、前記第一言語の原文を前記第二言語に翻訳するようにした機械翻訳装置において、
前記辞書編集手段は、
前記辞書へ登録しようとする見出し語のユーザによって入力された品詞が助詞であるか否かを判定する助詞判定手段と、
その助詞判定手段が助詞であると判断した場合に、前記形態素解析手段により前記見出し語の形態素解析を行って複数の要素に分割する見出し語分割手段と、
その見出し語分割手段により分割された複数の要素の各々を見出し語として前記辞書に登録するとともに、前記見出し語分割手段により分割する前の原見出し語の要素であることを示す要素見出し語情報を前記各要素の辞書登録情報として付加する登録手段と
を備えたことを特徴とする機械翻訳装置。 - 前記見出し語分割手段は、前記登録しようとする見出し語の直前に仮の名詞を接続して形態素解析を行うように構成されたことを特徴とする請求項1に記載の機械翻訳装置。
- 前記構文解析手段は、
入力された原文の前記形態素解析手段による形態素解析結果内に、前記要素見出し語情報を有する見出し語が存在するか否かを判定する要素見出し語判定手段と、
その要素見出し語判定手段により前記見出し語が存在すると判定された場合に、前記要素見出し語情報を有する複数の見出し語が前記原文中において助詞として使われているか否かを判断する品詞判断手段と、
その品詞判断手段により助詞として使われていると判断された場合に、前記要素見出し語情報を有する複数の見出し語を前記原見出し語に置換する置換手段と
を備えたことを特徴とする請求項1若しくは2に記載の機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15348497A JP3692711B2 (ja) | 1997-06-11 | 1997-06-11 | 機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15348497A JP3692711B2 (ja) | 1997-06-11 | 1997-06-11 | 機械翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH113336A JPH113336A (ja) | 1999-01-06 |
JP3692711B2 true JP3692711B2 (ja) | 2005-09-07 |
Family
ID=15563590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15348497A Expired - Fee Related JP3692711B2 (ja) | 1997-06-11 | 1997-06-11 | 機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3692711B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5387166B2 (ja) * | 2009-06-26 | 2014-01-15 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
-
1997
- 1997-06-11 JP JP15348497A patent/JP3692711B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH113336A (ja) | 1999-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5010486A (en) | System and method for language translation including replacement of a selected word for future translation | |
JPH09259127A (ja) | 翻訳装置 | |
JPH096787A (ja) | 訳振り機械翻訳装置 | |
JP2000259635A (ja) | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 | |
JPH11328166A (ja) | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3692711B2 (ja) | 機械翻訳装置 | |
JPS62271057A (ja) | 翻訳装置における辞書登録方式 | |
JP3147947B2 (ja) | 機械翻訳装置 | |
JP3999771B2 (ja) | 翻訳支援プログラム、翻訳支援装置、翻訳支援方法 | |
JPH0721187A (ja) | 機械翻訳装置 | |
JP2000029882A (ja) | 要約文作成装置 | |
JP3313810B2 (ja) | アスペクト処理装置 | |
JPH07200605A (ja) | 翻訳装置 | |
JPS63136265A (ja) | 機械翻訳装置 | |
JP2002183134A (ja) | 翻訳装置 | |
JPH1173413A (ja) | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3353873B2 (ja) | 機械翻訳装置 | |
JPH10340264A (ja) | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH05314172A (ja) | 機械翻訳装置 | |
JPH0773185A (ja) | 機械翻訳装置及び方法 | |
JPH10171804A (ja) | 機械翻訳装置 | |
JPH11328176A (ja) | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH1063660A (ja) | 機械翻訳装置 | |
JPH11282846A (ja) | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002041516A (ja) | 機械翻訳装置、機械翻訳方法及び機械翻訳プログラムを記憶したコンピュータ読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040428 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040625 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040625 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050222 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050613 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |