JP4845921B2

JP4845921B2 - 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Info

Publication number: JP4845921B2
Application number: JP2008105609A
Authority: JP
Inventors: 陽子小▲高▼
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2008-04-15
Filing date: 2008-04-15
Publication date: 2011-12-28
Anticipated expiration: 2028-04-15
Also published as: JP2009258887A

Description

本発明は、第１言語の原文を第２言語の訳文に翻訳する、機械翻訳プログラム及び機械翻訳方法に関する。

例えば、中国語を日本語に翻訳する中日翻訳では、第１言語である中国語の原文中のある一塊の言葉を翻訳するとき、その言葉全体で辞書には登録されていなくても、その言葉を短く区切って、より小さい一塊として辞書引きを試み、最終的には漢字一文字ずつになるまでこれを繰り返していく。これは、中国語は表意文字で記述される言語であり、漢字一文字としても辞書の見出し語になり得る場合がほとんどであるためである。

このことから、第１言語の原文が表意文字である場合には、一文字ごとに区切っていけば未知語になることはほとんどあり得ない。従って、ある一塊の言葉が辞書に登録されていない場合には、その言葉を細かく区切って辞書引きをし、辞書引きをした訳語をつなぎ合わせて日本語の文字列を作り、訳文として出力するようにしている。

通常の構文解析では失敗するような慣用表現は、慣用構文として予め翻訳知識に記憶させておき、原文として中国語文が入力されると、まず構文解析を行い、慣用構文に該当するものがあれば置き換えて出力し、構文解析された単語ごとに翻訳辞書を調べて日本語単語に置き換え、品詞を基にした日本語文法の語順ルールに従ってこれらを並べ替え、日本語文を生成し出力するようにしたものがある（例えば、特許文献１参照）。
特開平５−２６６０６９号公報

しかし、特許文献１のものでは、辞書引きして得られた日本語の言葉を連結する際に文法的に誤りでなければそれを採用しているので、意味が通じる訳文にはなっていないことがある。

すなわち、翻訳辞書に登録されていない一塊の言葉を含む文を翻訳するとき、原語がより細かく分割されて辞書引きされることから、それらの訳語の組み合わせが無数に上り、その中から一つを選んで訳文としたときに、本来の意味とはかけ離れた訳文が出来上がることが少なからずある。そのような例を例１、２に示す。

（例１）

（例２）

これらの訳文は原文の意味を表現しているとは言えず、翻訳結果としては不十分である。このように、一塊の言葉を含む文を翻訳するとき、表意文字だからといって、より細かく分割して辞書引きし、辞書引きをした訳語をつなぎ合わせて日本語の文字列を作っても、結果として、読み手に原文の意味を正しく伝えることができない場合がある。

本発明の目的は、原文の翻訳の際に原文とは異なる意味を表す訳文が生成されてしまうことを抑制できる機械翻訳装置、機械翻訳プログラム及び機械翻訳方法を提供することである。

本発明の機械翻訳装置は、機械翻訳プログラム、第１言語の語句とそれに対応する第２言語の語句とを対にしてデータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第１言語の語句の訳語候補の点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記記憶装置に予め記憶され第２言語の単語が記載された文書情報を集積した存在検索単語データベースと；入力装置から入力された第１言語の原文の形態素解析を行い、原文を語句ごとに分割し、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在するときは第２言語の訳語に置き換え訳語候補とし、存在しないときは第１言語の原語表記の未知語を訳語候補とした訳文を出力する翻訳辞書検索部と；前記翻訳辞書検索部で得られた訳文中の訳語候補に対して、前記機械翻訳知識データベースを参照して前記訳語候補の点数を求め、前記存在検索単語データベースを参照して前記存在検索単語データベースに存在する訳語候補の個数に応じて予め定められた点数を求め、これら訳語候補の点数の合計点数が予め定めた点数以上のときは合格と判定し、予め定めた点数未満のときは不合格と判定する訳語候補検証部と；前記訳語候補検証部で不合格となった訳文について、原文の分割位置及び分割した語句の訳語を解析情報として第１言語の原文に付加し、既に付加した解析情報と異なる解析情報が更新される限りその解析情報を付加した第１言語の原文を前記翻訳辞書検索部に出力して前記翻訳辞書検索部に再解析を指示する再解析指示部と；前記訳語候補検証部で合格と判断された訳文または前記再解析指示部による前記翻訳辞書検索部への再解析の指示がないときの訳文を出力装置に出力する出力処理部とを備え；前記翻訳辞書検索部は、前記再解析指示部から解析情報が付加された第１言語の原文を取り込んだときは、第１言語の原文を形態素解析する際にその解析情報の分割位置と異なる位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前記翻訳辞書に存在するときは第２言語の訳語に置き換え訳語候補とするとともに存在しないときは第１言語の原語表記の未知語を訳語候補とした訳文を出力することを特徴とする。

本発明によれば、翻訳辞書から得た第２言語の文に含まれる訳語候補を予め定めた点数を基に正しい訳語である確からしさを検証し、その結果がある一定の基準に達しないときには第１言語の原文を解析し直し、再度翻訳し直した第２言語の語句についても確からしさを調べるので、第２言語の言葉としてあまり確からしくないものを訳語から排除することができる。これにより、原文の意味により近い訳文を生成することができる。

図１は本発明の実施の形態に係わる機械翻訳装置の機能ブロック図、図２は本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図である。

図２において、機械翻訳装置１１は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置１２のプロセッサ１３において実行されることにより実現される。

演算制御装置１２は機械翻訳に関する各種演算を行うものであり、演算制御装置１２はプロセッサ１３とメモリ１４とを有し、メモリ１４には翻訳に関する機械翻訳プログラム１５が記憶され、プロセッサ１３により処理が実行される際には作業エリア１６が用いられる。演算制御装置１２の演算結果等は出力装置１７である表示装置１８に表示出力され、また、通信制御装置１９を介して通信ネットワークに出力される。

入力装置２０は演算制御装置１２に情報を入力するものであり、例えば、マウス２１、キーボード２２、ディスクドライブ２３、通信制御装置１９から構成され、例えば、マウス２１やキーボード２２は表示装置１８を介して演算制御装置１２に各種指令を入力し、キーボード２２、ディスクドライブ２３、通信制御装置１９は翻訳対象の文書を入力する。

すなわち、ディスクドライブ２３は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置１９は機械翻訳装置１１をインターネットやＬＡＮなどの通信ネットワークに接続するものである。通信制御装置１９はＬＡＮカードやモデムなどの装置であり、通信制御装置１９を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置１２に送受信される。さらに、演算制御装置１２の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ（ＨＤＤ）２４が設けられている。機械翻訳プログラム１５はハードディスクドライブ（ＨＤＤ）２４に記憶するようにしてもよい。

次に、図１に示す演算制御装置１２内の各機能ブロックは、上述の機械翻訳プログラム１５を構成する各プログラムに対応する。すなわち、プロセッサ１３が機械翻訳プログラム１５を構成する各プログラムを実行することで、演算制御装置１２は、各機能ブロックとして機能することとなる。また、記憶装置２５の各ブロックは、演算制御装置１２内のメモリ１４及びハードディスクドライブ２４の記憶領域に対応する。

以下の説明では、第１言語は中国語であり第２言語は日本語であり、中国語の原文を日本語の訳文に翻訳する場合について説明する。入力処理部２６は、入力装置２０から入力された第１言語の原文を取り込むものであり、入力処理部２６から取り込まれた中国語の原文は翻訳辞書検索部２７に入力される。

翻訳辞書検索部２７は、取り込んだ第１言語の原文の形態素解析を行って原文を語句ごとに分割し、記憶装置２５の翻訳辞書２８または機械翻訳知識データベース２９を参照し、分割した語句が翻訳辞書２８に存在するときは第２言語の訳語に置き換え訳語候補とし、存在しないときは第１言語の原語表記の未知語を訳語候補とした訳文を出力するものである。翻訳辞書２８には、第１言語の語句とそれに対応する第２言語の語句とが対となった原語訳語が記憶されている。第１言語の語句とそれに対応する第２言語の語句との対は、１対１及び１対複数の双方を含む。また、機械翻訳知識データベース２９には、翻訳に必要な知識・規則及び第１言語の語句の分野情報並びにその分野情報における第２言語の訳語候補の点数が蓄積されている。また、翻訳に必要な知識・規則として、第２言語の構文規則等も蓄積されている。

翻訳辞書検索部２７が行う処理には、原文を語句ごとに分割し、それを訳語に置き換えるまでの処理が含まれる。分割されたこれらの原語を訳語に置き換えるときに原語訳語間の翻訳辞書２８が使用される。すなわち、この翻訳辞書２８の中に原語と同じものを見出しとする情報があるかどうか検索し、同じものが発見されればその情報を使って翻訳し訳語の候補を得る。

このとき、必要があれば機械翻訳知識データベース２９を使用する。機械翻訳知識データベース２９には、語句の綴りだけでなく、意味、品詞、分野、共起など、様々な種類の膨大な量の情報が蓄積されており、特に、分野情報についてはその分野で使用される訳語の頻度に基づき訳語候補ごとに点数が蓄積されている。

翻訳辞書検索部２７で得られた訳文は訳語候補検証部３０に入力される。訳語候補検証部３０は翻訳辞書検索部２７で辞書引きして得た訳語は適切かどうかを検証するものであり、翻訳辞書検索部２７で得られた訳文中の訳語候補に対して、機械翻訳知識データベース２９の第１言語の語句の分野情報を参照してその訳語候補の分野情報の点数を求め、また、存在検索単語データベース３１を参照して存在検索単語データベース３１に存在する訳語候補の個数に応じて予め定められた存在個数の点数を求め、これらの合計点数を演算する。

存在検索単語データベース３１には、第２言語の単語が記載された文書情報が集積されている。例えば、原語訳語の対となった翻訳辞書２８とは異なる言語対の翻訳辞書、新聞記事や雑誌記事を集積したデータ、辞典、辞書、ブログ等、訳語の単語が多く蓄積されたデータなら何でもよい。語の意味や用法がわからなくてもよく、その綴りの単語が存在するかどうかを調べるためだけに使用するものである。存在検索単語データベース３１に存在する各々の単語について、その個数に応じて予め点数を付けておく。例えば、単語の数がｎ個のときはｎ点あるいはｎ／１０点というふうに予め単語の個数に応じて点数を付けておく。この点数は点数データ記憶部３２に記憶されている。

訳語候補検証部３０は訳語候補の存在個数の点数を求める際には、存在検索単語データベース３１に存在する訳語候補の個数を調べ、点数データ記憶部３２を参照し、その個数に応じた点数を求める。そして、分野情報の点数と存在個数の点数との合計点数を求める。訳語候補の合計点数が予め定めた点数以上のときは、その訳語候補は合格（適切）と判定し、予め定めた点数未満のときは不合格（不適切）と判定する。この判定結果は合否判定結果記憶部３３に記憶される。そして、不合格の訳語候補があるときは訳文も不合格と判定する。一方、不合格の訳語候補がないときは、訳文は合格であると判定する。訳語候補検証部３０で合格と判定されたときは、その訳文は出力処理部３４を介して出力装置１７に訳文として出力される。

訳語候補検証部３０で不合格と判定されたときは、その訳文は再解析指示部３５に入力される。再解析指示部３５は、訳文を得るときに原文分を分割したときの分割位置及び分割した語句の訳語を解析情報として第１言語の原文に付加し、異なる解析情報が更新される限り、その解析情報を付加した第１言語の原文を翻訳辞書検索部２７に出力して、翻訳辞書検索部２７に再解析を指示するものである。

翻訳辞書検索部２７は、再解析指示部３５から再解析が指示され、再解析指示部３５から解析情報が付加された第１言語の原文を取り込んだときは、第１言語の原文を形態素解析する際に、その解析情報の分割位置と異なる位置で原文を語句ごとに分割する。そして、翻訳辞書２８または機械翻訳知識データベース２９を参照して、分割した語句が翻訳辞書２８に存在するときは、第２言語の訳語に置き換え訳語候補とする。一方、存在しないときは第１言語の原語表記の未知語を訳語候補とした訳文を出力する。

訳語候補検証部３０は翻訳辞書検索部２７で再度辞書引きして得た訳語は適切かどうかを検証する。そして、不合格の訳語候補があるときは、再解析指示部３５は解析情報（分割位置及び分割した語句の訳語）を更新し、分割位置が異なるすべての態様まで（異なる解析情報が更新されなくなるまで）繰り返し翻訳辞書検索部２７を起動する。つまり、合格とならない場合には、分割位置を変えたすべての態様について再解析する。

このように、訳語候補検証部３０において、辞書引きして得た訳語は適切か、あるいは未知語になっていないか検証を行い、合格すれば出力処理部３４へ至り訳文として出力される。一方、不合格となれば、現在の(合格にはならなかった)解析情報とともに翻訳辞書検索部２７へ戻り、別の位置で分割または別の訳語候補を採用するように、分割位置を変えたすべての態様について最後までやり直す。このとき、語句の分割位置は同じでも、各語の訳語が別の語句になればよい。これは、翻訳辞書２８には一つの言語に対して複数の訳語がある場合があるからである。

そして、出力処理部３４は、訳語候補検証部３０で合格と判断された訳文、または再解析指示部３５による翻訳辞書検索部２７への再解析の指示がなくなったときの訳文（分割位置を変えたすべての態様について再解析したが不合格の訳文）を出力装置１７に出力する。

図３は、図１に示した訳語候補検証部３０及び再解析指示部３５の処理内容の実施例１を示すフローチャートである。訳語候補検証部３０は、翻訳辞書検索部２７から訳文を入力すると（Ｓ１）、訳文に含まれる訳語候補の総数Ｎをセットするとともに訳語候補変数ｎに１をセットする（Ｓ２）。そして、ｎ（ｎ＝１）番目の訳語候補について機械翻訳知識データベース２９の分野情報を参照し、分野情報の点数を取得し（Ｓ３）、存在検索単語データベース３１を参照し存在個数の点数を取得する（Ｓ４）。そして、ｎ（ｎ＝１）番目の訳語候補について分野情報の点数と存在個数の点数との合計点数を求め（Ｓ５）、ｎ（ｎ＝１）番目の訳語候補の合計点数が予め定めた点数以上であるかどうかを判定して合格かどうかを判定する（Ｓ６）。

合格と判定されたときは、ｎ（ｎ＝１）番目の訳語候補は合格であることを合否判定結果記憶部３３に記憶する（Ｓ７）。一方、不合格と判定されたときは、ｎ（ｎ＝１）番目の訳語候補は不合格であることを合否判定結果記憶部３３に記憶し（Ｓ８）、その訳語候補の原文における分割位置及び分割した語句の訳語を解析情報として原文に付加する（Ｓ９）。

次に、訳語候補変数ｎに１を加算し（Ｓ１０）、ｎ（ｎ＝２）番目の訳語候補が訳文に含まれる訳語候補の総数Ｎより大きいかどうかを判定し（Ｓ１１）、大きくないときは次のｎ（ｎ＝２）番目の訳語候補について、ステップＳ３〜ステップＳ９の処理を行う。ステップＳ１１の判定で、ｎ番目の訳語候補が訳文に含まれる訳語候補の総数Ｎより大きいと判定されたときは、訳文に含まれる訳語候補のすべてについて、ステップＳ３〜ステップＳ９の処理を完了したときであるので、訳文に含まれるすべての訳語候補が合格か否かを判定する（Ｓ１２）。そして、合格と判定されたときは、訳語候補検証部３０は出力処理部３４を起動し（Ｓ１３）、これにより、その訳文は出力処理部３４を介して出力装置１７に訳文として出力される。

一方、合格と判定されたときは、再解析指示部３５は不合格と判定された訳文の原文に付加された解析情報が異なる解析情報に更新されているかどうかを判定し（Ｓ１４）。解析情報が異なる解析情報に更新されているときは翻訳辞書検索部２７を再起動し（Ｓ１５）、新たな分割位置での解析を行う。解析情報が異なる解析情報に更新されていないときは、分割位置が異なるすべての態様について翻訳辞書検索部２７が再起動されたことになるので、そのときの訳文（分割位置を変えたすべての態様について再解析したが不合格の訳文）を出力装置１７に出力する。

以上の説明では、訳語候補検証部３０は、入力された訳文に含まれる訳語の候補が適切かどうかについて点数を付けて検証し、これらを検証するとき、下記のルール（１）、（２）を適用した。

（１）翻訳前原語の分野情報から、その分野の単語がもつ傾向を調べ、訳語として適切かどうかの判断に利用する。例えば、役所の名前やある特定の学問分野で使われる言葉には、ある特徴をもつものが多いので、分野情報に応じて訳語に点数を付けておく。

（２）存在検索単語データベース３１を検索し、この中で見つかったものの得点（点数）を上げる。

これに対して、同じ品詞が複数語連続して現れた場合（訳文において、同じ品詞の訳語候補同士が隣り合っている場合）は、各語だけでなく、それらを連結した語も必ず検証の対象にし、検索結果に重み付けをし、連結した語の検索結果の比重を高くするようにしてもよい。例えば、下記のルール（３−１）、（３−２）を適用するようにしてもよい。

（３−１）同じ品詞が複数語連続したとき、同じ品詞が複数語連続した連結語のうち最も長い連結語が存在検索単語データベース３１に存在しなければ必ず不合格とする。

（３−２）同じ品詞が複数語連続したとき、存在検索単語データベース３１を検索し、この中で訳語が見つかったときは点数を上げる。点数は点数データ記憶部３２に予め記憶しておく。

図４は、図１に示した訳語候補検証部３０及び再解析指示部３５の処理内容の実施例２を示すフローチャートである。この実施例２は、図３に示した実施例１に対し、同じ品詞が複数語連続して現れた場合の処理（ステップＳ１’〜ステップＳ８’）を追加したものであり、ルール（３−１）を採用した場合を示している。図３と同一ステップには同一符号を付し重複する説明は省略する。

訳語候補検証部３０は、翻訳辞書検索部２７から訳文を入力すると（Ｓ１）、訳文に含まれる訳語候補の総数Ｎ及び訳語候補変数ｎに１をセットする（Ｓ２）。ｎ（ｎ＝１）番目以降の訳語候補は同じ品詞の語が連続しているかどうかを判定する（Ｓ１’）。同じ品詞の語が連続しているときは、同じ品詞の語が連続する語数ｍを求め（Ｓ２’）、連続する同じ品詞の語を連結する（Ｓ３’）。そして、連結語は存在検索単語データベース３１に存在するかどうかを判定し（Ｓ４’）、存在する場合には、その訳語候補は合格であることを合否判定結果記憶部３３に記憶する（Ｓ５’）。そして、訳語候補変数ｎにｍを加算し（Ｓ６’）、ｎ（ｎ＝１＋ｍ）番目の訳語候補が訳文に含まれる訳語候補の総数Ｎより大きいかどうかを判定し（Ｓ７’）、大きくないときはステップＳ１’に戻る。ステップＳ１’の判定で、同じ品詞の語が連続していないと判定されたときは、訳語候補変数ｎに２を加算し（Ｓ７’）に進む。ステップＳ１’の判定で同じ品詞の語が連続していないときは、訳語候補変数ｎに１を加算し（Ｓ８’）、ステップＳ７’に進む。

このステップＳ１’〜ステップＳ８’の処理により、同じ品詞が複数語連続して現れた場合に、それらを連結した語も検証の対象にする。そのような例を例３、４に示す。

（例３）

このとき、「画」、「本」、「館」、「画本」、「本館」、「画本館」をキーに存在検索単語データベース３１を調べる。いま、「画本館」以外の「画」、「本」、「館」、「画本」、「本館」は存在検索単語データベース３１に存在し、「画本館」は存在しないとすると、ルール（３−１）の場合には、最も多くの語が連結された「画本館」が存在しないため、結果的には不合格となる。また、ルール（３−１）の場合には、得点が０となり、図４のステップＳ５での合計点数が低く抑えられる。

（例４）

このとき、「図書」、「館」、「図書館」をキーに存在検索単語データベース３１を調べる。存在検索単語データベース３１に、「図書」、「館」、「図書館」のすべてが存在しているとき、ルール（３−１）の場合には、最も多くの語が連結された「図書館」が存在するので合格となる。また、ルール（３−２）の場合には、「図書」、「館」、「図書館」のすべてが存在するので高得点となる。

訳語候補をキーに存在検索単語データベース３１を調べるときに、多くの出典の文書に頻繁に出現するものは高い得点を与え、逆に原文と同じ分野の文書を多く調べても一度しか出現しなかったものには低い得点しか与えないなど、確からしさを数値で表す。そして、合格の組合せが複数得られた場合には点数を大きい方を選択するようにする。これにより、最終的にどれを選択すべきか判断する際の助けになる。逆に、全ての解析結果について検証しても一つも合格とならなかった場合には、たとえ不合格でも得点が最高のものを合格とし、これを採用することにしてもよい。

前述の（例１）の場合、翻訳辞書検索部２７による形態素解析によって、「斯雷博」、「ターネイ」、「克」が得られた。訳語候補検証部３０では、「斯雷博」、「ターネイ」、「克」を連結した「斯雷博ターネイ克」について存在検索単語データベース３１を調べる。存在検索単語データベース３１に「斯雷博ターネイ克」が存在しないとすると、「斯雷博」、「ターネイ」、「克」の分割情報と訳語情報とを解析情報として、翻訳辞書検索部２７に形態素解析をやり直すように指示が出される。

いま、翻訳候補が合格とならない場合には中国語の漢字を表音文字として日本語の仮名に置き換えるという実装になっているとする。この場合、繰り返し翻訳辞書検索部２７で解析を行って、いずれの訳語候補も存在検索単語データベース３１から検索できないときには、最終的に中国語の漢字を表音文字として日本語の仮名に置き換えられる。

こうして再度、存在検索単語データベース３１を調べたとき、もし、ここにテニスに関するニュース記事が登録されており、これに「スレボトニク」が含まれているとすると、「斯雷博特尼克」は人名の「カタリーナ・スレボトニク」であると判断され、高得点が与えられ、結果として正しく訳出されることになる。

以上の説明では、辞書引きして得られた訳語候補が意味的に正しいかどうかを検証する例を示したが、それに加えて、構文上も正しいかどうかを判定するようにしてもよい。図５は、図１に示した訳語候補検証部３０及び再解析指示部３５の処理内容の実施例３を示すフローチャートである。この実施例３は、図３に示した実施例１に対し、構文上も正しいかどうかを判定する処理（ステップＳ１６、Ｓ１７）を追加して設けたものである。図３と同一ステップには同一符号を付し重複する説明は省略する。

図５に示すように、訳語候補検証部３０は、ステップＳ１２の判定で訳語候補がすべて合格の場合には、構文上も正しいかどうかを判定する（Ｓ１６）。構文上も正しいかどうかの判定は、訳語候補の品詞の配列を判定し、品詞の配列が構文上あり得ない訳文であるときは不合格とする。例えば、品詞として動詞が続くこと、あるいは連体修飾語の後に接続詞がくることなどは構文上正しくない。

そこで、文を合成した結果、構文上あり得ない訳が得られたときは、再解析指示部３５は、その訳文について、訳語の品詞の配列を解析情報として第１言語の原文に付加し（Ｓ１７）、その解析情報を付加した第１言語の原文を翻訳辞書検索部２７に出力して再解析を指示する。翻訳辞書検索部２７は、再解析指示部３５から解析情報が付加された第１言語の原文を取り込んだときは、第１言語の原文を形態素解析する際に原語を一つずつ翻訳辞書２８から辞書引きし、辞書引きした原語を連結して得られた連結語に対して翻訳辞書２８または機械翻訳知識データベース２９を参照して辞書引きとデータベース検索を行う。そして、連結語が翻訳辞書２８に存在するときは第２言語の訳語に置き換えて訳語候補とし、存在しないときは第１言語の原語表記の未知語を訳語候補とした訳文を出力する。

このように、辞書引きした原語を一つずつ連結しながら再度辞書引きとデータベース検索とを行い、合成した訳が構文上許されるかどうかを検証することを繰り返す。こうすることで、翻訳そのものが構文エラーとなることを防ぐことができる。

以上の説明では、中日翻訳について説明したが、他の言語対の翻訳装置にも応用することができる。例えば、原語が表音文字であるハングル文字となる韓日翻訳の場合にも、本発明の実施の形態を適用できる。

図６は、図１に示した訳語候補検証部３０及び再解析指示部３５の処理内容の実施例４を示すフローチャートである。この実施例４は、図３に示した実施例１に対し、ステップＳ８、Ｓ９、Ｓ１２、Ｓ１４、Ｓ１５に代えて、ステップＳ１８〜Ｓ２１を設け、表音文字に対して適用できるようにしたものである。図３と同一ステップには同一符号を付し重複する説明は省略する。

表音文字であるハングル文字の第１言語についても、ステップＳ１〜Ｓ５の処理を行い翻訳する。この場合、第１言語の原語表記の未知語の訳語候補はステップＳ６で不合格となる。不合格となった場合には、その訳語候補を日本語の仮名に置き換える（Ｓ１８）。そして、存在検索データベース３１に存在するかどうかを判定し（Ｓ１９）、存在する場合は、その訳語候補を採用する（Ｓ２０）。存在しない場合は仮名をそのまま採用する（Ｓ２１）。

いま、ハングル文字の

を翻訳する場合を考える。韓日翻訳辞書を引いても登録語が見つからなかったとき、ハングル文字は表音文字であるため機械的に日本語の仮名に置き換えることができる。そうして得た訳語候補は韓国語の発音をそのまま表現したものであり、日本語に同じ発音をもつ言葉が存在するとは限らない。そこで、存在検索単語データベース３１を調べる。そしてそれが見つかれば、かなり高い確率で日本語にも存在すると言うことができる。

を機械的に日本語の仮名に置き換えると「メルセデスベンツ」であり、もしデータベースに自動車に関する文書が登録されているとすれば、正しく車種の一つ「メルセデスベンツ」あると判断することができる。

本発明の実施の形態によれば、翻訳辞書検索部２７で翻訳辞書２８や機械翻訳知識データベース２９を参照して第２言語の訳文を求め、訳語候補検証部３０でその翻訳辞書２８から得た第２言語の文に含まれる訳語候補を予め定めた点数を基に正しい訳語である確からしさを検証するので、第２言語の言葉としてあまり確からしくないものを訳語から排除することができる。訳語候補検証部３０での検証の際には、存在検索単語データベース３１に蓄積された情報を使用して、訳語候補間の優先度を決めるので、より確かな訳語を選択できる。また、訳語候補検証部３０で検証した結果がある一定の基準に達しないときには第１言語の原文を解析し直し、再度翻訳し直した第２言語の語句についても確からしさを調べるので、原文の意味により近い訳文を生成することができる。

本発明の実施の形態に係わる機械翻訳装置の機能ブロック図。本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図。図１に示した訳語候補検証部及び再解析指示部の処理内容の実施例１を示すフローチャート。図１に示した訳語候補検証部及び再解析指示部の処理内容の実施例２を示すフローチャート。図１に示した訳語候補検証部及び再解析指示部の処理内容の実施例３を示すフローチャート。図１に示した訳語候補検証部及び再解析指示部の処理内容の実施例４を示すフローチャート。

符号の説明

１１…機械翻訳装置、１２…演算制御装置、１３…プロセッサ、１４…メモリ、１５…機械翻訳プログラム、１６…作業エリア、１７…出力装置、１８…表示装置、１９…通信制御装置、２０…入力装置、２１…マウス、２２…キーボード、２３…ディスクドライブ、２４…ハードディスクドライブ、２５…記憶装置、２６…入力処理部、２７…翻訳辞書検索部、２８…翻訳辞書、２９…機械翻訳知識データベース、３０…訳語候補検証部、３１…存在検索単語データベース、３２…点数データ記憶部、３３…合否判定結果記憶部、３４…出力処理部、３５…再解析指示部

Claims

機械翻訳プログラム、第１言語の語句とそれに対応する第２言語の語句とを対にしてデ
ータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第１言語の語句の訳語候補の
点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラ
ムを演算実行する演算制御装置とを備えた機械翻訳装置において、
前記記憶装置に予め記憶され第２言語の単語が記載された文書情報を集積した存在検索
単語データベースと；
入力装置から入力された第１言語の原文の形態素解析を行い、原文を語句ごとに分割し
、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在するときは第２言語の訳語
に置き換え訳語候補とし、存在しないときは第１言語の原語表記の未知語を訳語候補とし
た訳文を出力する翻訳辞書検索部と；
前記翻訳辞書検索部で得られた訳文中の訳語候補に対して、前記機械翻訳知識データベ
ースを参照して前記訳語候補の点数を求め、前記存在検索単語データベースを参照して前
記存在検索単語データベースに存在する訳語候補の個数に応じて予め定められた点数を求
め、これら訳語候補の点数の合計点数が予め定めた点数以上のときは合格と判定し、予め
定めた点数未満のときは不合格と判定する訳語候補検証部と；
前記訳語候補検証部で不合格となった訳文について、原文の分割位置及び分割した語句
の訳語を解析情報として第１言語の原文に付加し、既に付加した解析情報と異なる解析情
報が更新される限りその解析情報を付加した第１言語の原文を前記翻訳辞書検索部に出力
して前記翻訳辞書検索部に再解析を指示する再解析指示部と；
前記訳語候補検証部で合格と判断された訳文または前記再解析指示部による前記翻訳辞
書検索部への再解析の指示がないときの訳文を出力装置に出力する出力処理部とを備え；
前記翻訳辞書検索部は、前記再解析指示部から解析情報が付加された第１言語の原文を
取り込んだときは、第１言語の原文を形態素解析する際にその解析情報の分割位置と異な
る位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前記翻訳辞
書に存在するときは第２言語の訳語に置き換え訳語候補とするとともに存在しないときは
第１言語の原語表記の未知語を訳語候補とした訳文を出力することを特徴とする機械翻訳
装置。
前記訳語候補検証部は、前記翻訳辞書検索部で得られた訳語候補に対して、同じ品詞が
複数語連続しているときは連続する語を連結した連結語が前記存在検索単語データベース
に存在するか否かを判定し、存在するときは合格とし、存在しないときは不合格とするこ
とを特徴とする請求項１記載の機械翻訳装置。
機械翻訳プログラム、第１言語の語句とそれに対応する第２言語の語句とを対にしてデ
ータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第１言語の語句の訳語候補の
点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラ
ムを演算実行する演算制御装置とを備えたコンピュータに用いられ、前記記憶装置に予め
記憶され第２言語の単語が記載された文書情報を集積した存在検索単語データベースを格
納しておき、
前記コンピュータに、入力装置から入力された第１言語の原文の形態素解析を行い、原
文を語句ごとに分割し、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在する
ときは第２言語の訳語に置き換え訳語候補とし、存在しないときは第１言語の原語表記の
未知語を訳語候補とした訳文を出力する機能と；
得られた訳文中の訳語候補に対して、前記機械翻訳知識データベースを参照して前記訳
語候補の点数を求め、前記存在検索単語データベースを参照して前記存在検索単語データ
ベースに存在する訳語候補の個数に応じて予め定められた点数を求め、これら訳語候補の
点数の合計点数が予め定めた点数以上のときは合格と判定し、予め定めた点数未満のとき
は不合格と判定する機能と、
不合格となった訳文について、原文の分割位置及び分割した語句の訳語を解析情報とし
て第１言語の原文に付加し、既に付加した解析情報と異なる解析情報が更新される限りそ
の解析情報を付加した第１言語の原文の再解析を指示する機能と；
再解析が指示された第１言語の原文を形態素解析する際に付加された解析情報の分割位
置と異なる位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前
記翻訳辞書に存在するときは第２言語の訳語に置き換え訳語候補とするとともに存在しな
いときは第１言語の原語表記の未知語を訳語候補とした訳文を出力する機能と；
合格と判断された訳文または再解析の指示がないときの訳文を出力装置に出力する機能
と；を実現させるための機械翻訳プログラム。
機械翻訳プログラム、第１言語の語句とそれに対応する第２言語の語句とを対にしてデ
ータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第１言語の語句の訳語候補の
点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラ
ムを演算実行する演算制御装置とを備え、機械翻訳を行う機械翻訳方法において、
前記記憶装置に予め記憶され第２言語の単語が記載された文書情報を集積した存在検索
単語データベースを格納しておくステップと；
入力装置から入力された第１言語の原文の形態素解析を行い、原文を語句ごとに分割し
、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在するときは第２言語の訳語
に置き換え訳語候補とし、存在しないときは第１言語の原語表記の未知語を訳語候補とし
た訳文を出力するステップと；
得られた訳文中の訳語候補に対して、前記機械翻訳知識データベースを参照して前記訳
語候補の点数を求め、前記存在検索単語データベースを参照して前記存在検索単語データ
ベースに存在する訳語候補の個数に応じて予め定められた点数を求め、これら訳語候補の
点数の合計点数が予め定めた点数以上のときは合格と判定し、予め定めた点数未満のとき
は不合格と判定するステップと；
不合格となった訳文について、原文の分割位置及び分割した語句の訳語を解析情報とし
て第１言語の原文に付加し、既に付加した解析情報と異なる解析情報が更新される限りそ
の解析情報を付加した第１言語の原文の再解析を指示するステップと；
再解析が指示された第１言語の原文を形態素解析する際に付加された解析情報の分割位
置と異なる位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前
記翻訳辞書に存在するときは第２言語の訳語に置き換え訳語候補とするとともに存在しな
いときは第１言語の原語表記の未知語を訳語候補とした訳文を出力するステップと；
合格と判断された訳文または再解析の指示がないときの訳文を出力装置に出力するステ
ップとを備えたことを特徴とする機械翻訳方法。