JP5525529B2

JP5525529B2 - 機械翻訳装置および翻訳プログラム

Info

Publication number: JP5525529B2
Application number: JP2011525684A
Authority: JP
Inventors: 明熊野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-08-04
Filing date: 2009-08-04
Publication date: 2014-06-18
Anticipated expiration: 2029-08-04
Also published as: JPWO2011016078A1; US8655641B2; WO2011016078A1; US20120136647A1

Description

この発明は、機械翻訳装置および翻訳プログラムに関する。

近年、自然言語処理技術の向上により、異なる言語間の翻訳を行う機械翻訳ソフトが開発され、利用されている。

このような機械翻訳ソフトをコンピュータにインストールした機械翻訳装置が提供される。その機械翻訳装置では、専門用語辞書を含む大規模な辞書データを用いて翻訳を行っている。専門用語辞書を含む大規模辞書データは、原文に含まれる多くの用語・複合語に対して適切な訳語を与える。そして、翻訳文書の全体における訳語の統一性を保証するものである。

また、機械翻訳装置には、専門用語辞書の他にも、ユーザが登録することができるユーザ辞書を備えるものがある。ユーザ辞書は、システム辞書に収録されていない用語を正しく翻訳するために利用される。従って、システム辞書には専門用語に相当する用語を登録することが多い。

一方、機械翻訳ソフトの訳文の非流暢性をカバーするために、翻訳メモリ辞書を利用する翻訳システムが、利用可能になっている。この翻訳メモリ辞書は、システムやユーザが好ましいと判断した文単位で、対訳用として利用される。例えば、学会発表の論文や、特許出願用の明細書などで、比較的多く使われている文章とその訳文を翻訳メモリ辞書に登録しておく。このような翻訳メモリ辞書を参照・利用して翻訳することにより、専門的な表現の多い原文であっても、１文全体で自然な訳文を出力できるようにしている。一般的には、翻訳メモリ辞書に数万文の訳文が予め登録された機械翻訳ソフトが販売されている。

しかしながら、専門用語辞書やユーザ辞書（以下、専門用語辞書等と称する）と、翻訳メモリ辞書とは、それぞれ独立に開発されることが多い。そのため、専門用語辞書等と翻訳メモリ辞書では、矛盾するデータが存在する場合がある。

例えば、翻訳装置の日英翻訳用の専門用語辞書等に、例えば図２２（ａ）のように、用語「音声認識装置」に対し訳語「speech recognition equipment」が登録されているとする。よって、この専門用語辞書等を利用すると、翻訳する原文中に「音声認識装置」という用語が出現すれば、「speech recognition equipment」と翻訳される。

同じ翻訳装置の翻訳メモリ辞書に、図２２（ｂ）に示す原文（Ｊ１）と訳文（Ｅ１）のような対訳が登録されているとする。この翻訳メモリ辞書を利用すると、翻訳する原文（Ｊ１）と一致すれば、訳文（Ｅ１）が出力される。しかしながら、原文（Ｊ１）の用語「音声認識装置」に対し、訳文（Ｅ１）では「voice recognizing unit」と訳されていることが分かる。

この専門用語辞書等とこの翻訳メモリ辞書を用いて翻訳を行うと、原文（Ｊ１）に一致した文章については翻訳メモリ辞書が参照される。その結果、用語「音声認識装置」に対して訳語「voice recognizing unit」が出力される。また、原文（Ｊ１）に一致しない文章では、用語「音声認識装置」が出現すると専門用語辞書等が参照される。その結果、用語「音声認識装置」に対して訳語「speech recognition equipment」が出力される。従って、一文書中に出現する用語「音声認識装置」に対して、訳語「speech recognition equipment」と訳語「voice recognizing unit」の２つの訳語が出力されることになる。このため、機械翻訳装置の特長である、訳語の統一性が損なわれてしまうと言う欠点があった。

出願人は、翻訳結果の整合性をとるための一つの解決手段として、第１単語に対応する第２単語をキャッシュメモリから取得し、取得した第２単語で第１単語を変換した第２単語を置換する規則翻訳部を有する機械翻訳装置を発明している（特許文献１を参照）。しかしながら、特許文献１では、専門用語辞書等と翻訳メモリ辞書の訳語の整合性を取るものではない。

特開２００８−１７６５３６号公報

本発明は、上記欠点を解決するためになされたものであって、専門用語辞書等と翻訳メモリ辞書を併用しても、文書全体の訳語の統一性を損なわない機械翻訳装置および翻訳プログラムを提供することを目的とする。

上記目的を達成するために、本発明の機械翻訳装置は、第１言語の用語と第２言語の訳語とを記憶する基本語辞書および専門用語辞書と、第１言語の原文文章と第２言語の訳文データとを記憶する翻訳メモリ辞書と、前記第１言語の入力原文データを前記基本語辞書および前記専門用語辞書との照合によって前記第２言語に翻訳すると共に、前記入力原文データを前記翻訳メモリ辞書との照合によって前記第２言語に翻訳する翻訳処理部と、前記入力原文データの単語の中で前記専門用語辞書と照合した単語とそれに対応する訳語を対にした訳語データを記憶する第１テーブルと、前記入力原文データの文章の中で前記翻訳メモリ辞書と照合した原文文章の用語とそれに対応する訳文データ中の訳語との関係を示す用語対応データを記憶する第２テーブルと、前記第２テーブルに記憶した前記用語対応データと前記第１テーブルに記憶した前記訳語データとを比較照合し、不整合な訳語の有無を検出した場合、対話不整合データを生成する不整合検査部と、前記不整合検査部で生成した前記対話不整合データを出力し、前記対話不整合データで示される前記不整合な訳語の中から前記専門用語辞書から得た訳語又は前記翻訳メモリ辞書から得た訳語のどちらかをユーザに選択させる選択部と、前記選択部により選択された訳語に従って前記専門用語辞書から得た訳文又は前記翻訳メモリ辞書から得た訳文の前記不整合な訳語を統一するように修正する修正部と、を備えたことを特徴とする。

また、本発明の機械翻訳プログラムは、第１言語の用語と第２言語の訳語とを記憶する基本語辞書および専門用語辞書と、第１言語の原文文章と第２言語の訳文データとを記憶する翻訳メモリ辞書と、前記入力原文データの単語の中で前記専門用語辞書と照合した単語とそれに対応する訳語を対にした訳語データを記憶する第１テーブルと、前記入力原文データの文章の中で前記翻訳メモリ辞書と照合した原文文章の用語とそれに対応する訳文データ中の訳語との関係を示す用語対応データを記憶する第２テーブルと、前記第１言語の入力原文データを前記基本語辞書および前記専門用語辞書との照合によって前記第２言語の訳文データを作成すると共に、前記翻訳メモリ辞書との照合によって前記第２言語の訳文データを作成する翻訳処理部と、を有する機械翻訳装置の翻訳プログラムであって、前記第２テーブルに記憶した前記用語対応データと前記第１テーブルに記憶した前記訳語データとを比較照合し、不整合な訳語の有無を検出する機能と、前記不整合な訳語を検出した場合、対話不整合データを生成して、ユーザによって認識可能に出力する機能と、前記対話不整合データで示される前記不整合な訳語の中から前記専門用語辞書から得た訳語又は前記翻訳メモリ辞書から得た訳語のどちらかをユーザに選択させる機能と、前記選択された訳語に従って前記専門用語辞書から得た訳文又は前記翻訳メモリ辞書から得た訳文の前記不整合な訳語を統一するように修正する機能と、を備えたことを特徴とする。

本発明によれば、専門用語辞書等と翻訳メモリ辞書を併用しても、文書全体の訳語の統一性を損なうことなく、訳語を統一して正しい翻訳を行うことができる。従って、ユーザによる訳語の修正作業を削減することができる。

本発明の第１の実施形態に係る機械翻訳装置を示すブロック図。第１の実施形態の専門用語辞書の例を示す図。第１の実施形態の翻訳メモリ辞書の例を示す図。第１の実施形態の用語対応データの例を示す図。第１の実施形態の対訳不整合データの例を示す図。第１の実施形態の処理手順を示したフローチャート。第１の実施形態の不整合検査結果の出力例を示す図。本発明の第２の実施形態に係る機械翻訳装置を示すブロック図。第２の実施形態の原文と訳文の例を示す図。第２の実施形態の訳語不整合データの出力例を示す図。第２の実施形態の翻訳メモリ辞書を使った訳文を修正する例を示す図。第２の実施形態の翻訳メモリ辞書を使った訳文を修正する他の例を示す図。第２の実施形態の翻訳メモリ辞書を使った訳文の修正・確認を示す図。第２の実施形態の専門用語辞書を使った訳文を修正する第３の例を示す図。第２の実施形態の専門用語辞書を使った訳文を修正する第４の例を示す図。第２の実施形態の専門用語辞書を使った訳文の修正・確認を示す図。第２の実施形態の訳語修正の他の処理手順を示したフローチャート。本発明の第４の実施形態に係る機械翻訳装置を示すブロック図。第４の実施形態に係る修正後の翻訳メモリ辞書を示す図。第４の実施形態に係る修正後の専門用語辞書を示す図。訳語不整合チェックを設定するための画面。専門用語辞書と翻訳メモリ辞書を用いた対応不整合が発生する辞書の一例を示す図。

以下に、本発明の実施形態に係る機械翻訳装置および翻訳プログラムを詳細に説明する。

（第１の実施形態）
第１の実施形態の機械翻訳装置および翻訳プログラムでは、翻訳メモリ辞書との照合により得られた対訳文から訳語の対応情報を取得して、翻訳された用語についての原文と訳語の用語対応データを作成する。そして、最初の基本語辞書を用いた翻訳時に同時に利用される専門用語辞書等の訳語データと、翻訳メモリ辞書との照合により得られた前記用語対応データとの対訳不整合データを検査して出力するものである。なお、本発明の翻訳プログラムをインストールした機械翻訳装置としては、パーソナルコンピュータ、デスクトップコンピュータ、ＰＤＡ等、いずれのものでも良い。

以下の説明では、翻訳の原文を第１言語とし、翻訳したい目的言語を第２言語とする。ここでは、第１言語として日本語、第２言語として英語を用いた場合の例について説明する。しかしながら、第１言語および第２言語の組み合わせはこれに限るものではなく、フランス語、ドイツ語、イタリア語、中国語、韓国語等、あらゆる言語の組み合わせについて適用することができる。

図１は、第１の実施形態の機械翻訳装置のブロック図である。機械翻訳装置１００は、第１言語文書入力部１１０と、翻訳辞書検索・形態素解析部１２０と、翻訳メモリ辞書検索部１３０と、解析・変換・生成部１４０と、第２言語文書出力部１５０を有する。これらの処理部によって翻訳処理が実行される。本実施形態では、更に、アライメント抽出部１６０と、対訳不整合検査部１７０と、不整合検査出力部１８０を備えている。これらの処理部によって、翻訳に利用された専門用語辞書と翻訳メモリ辞書との対訳不整合データを検査して、その結果を出力するものである。

また、本実施形態では、翻訳処理時に照合される辞書として、基本語辞書２００、専門用語辞書２１０、翻訳メモリ辞書２２０、解析・変換・生成辞書２３０が設けられている。また、各種の作業データを記憶するものとして、解析・変換・生成部１４０によって作成された第２言語訳文文書データ（以下、単に訳文データと称する）を記憶する第２言語訳文文書データファイル３００（以下、単に訳文データファイル３００と称する）が設けられている。また、入力原文と専用用語辞書２１０との照合によって得られた訳語データを記憶する訳語データテーブル３１０が設けられている。

また、入力原文と翻訳メモリ辞書２２０との照合によって得られた訳文データを記憶する訳文データテーブル３２０が設けられている。また、アライメント抽出部１６０が訳文データから作成した用語対応データを記憶する用語対応データテーブル３３０が設けられている。更に、対訳不整合検査部１７０によって作成された対訳不整合データを記憶する対応不整合データテーブル３４０が設けられている。これらのテーブルは、機械翻訳装置の主記憶装置の作業領域に割り当てられる。また、機械翻訳装置の外部メモリの作業領域に割り当てても良い。

第１言語文書入力部１１０は、翻訳対象である第１言語の原文テキストデータを入力する装置である。この第１言語文書入力部１１０は、例えば、キーボード、ＯＣＲ、イメージスキャナ、原文記憶メモリなど、計算機の一般的な入力装置で構成される。

翻訳辞書検索・形態素解析部１２０は、第１言語文書入力部１１０から送られてくる原文テキストデータに対して、基本語辞書２００および専門用語辞書２１０を使って単語辞書を検索した後に、形態素解析処理を行う。この辞書検索・形態素解析手法は、既存の技術を用いて実現して良い。翻訳辞書検索・形態素解析部１２０は、形態素解析結果を解析・変換・生成部１４０に出力する。また、翻訳辞書検索・形態素解析部１２０は、原文テキストデータの単語の中で専門用語辞書２１０と照合した単語とその訳語を対にして、訳語データテーブル３１０に記憶する。

翻訳メモリ辞書検索部１３０は、第１言語文書入力部１１０から送られてくる原文テキストデータに対して、翻訳メモリ辞書２２０の検索処理を行う。この検索手法は、既存の技術を用いて実現して良い。翻訳メモリ辞書検索部１３０は、翻訳メモリ辞書２２０の検索により原文テキストデータと一致する原文文章があった場合、その訳文データを解析・変換・生成部１４０へ出力する。また、翻訳メモリ辞書検索部１３０は、一致した文章データとその訳文データを訳文データテーブル３２０に記憶する。

解析・変換・生成部１４０は、翻訳辞書検索・形態素解析部１２０および翻訳メモリ辞書検索部１３０からの出力データを受けて、第１言語での構文解析処理、第１言語から第２言語への変換処理、第２言語の生成処理を行う。翻訳メモリ辞書検索部１３０からの出力結果によっては、構文解析処理、変換処理は省略する場合がある。いずれの場合も、構文解析処理技術、変換処理技術、および訳語生成処理技術は、既存の技術を用いて実現して良い。解析・変換・生成部１４０は、第２言語に生成した訳文データを訳文データファイル３００に記憶する。

第２言語文書出力部１５０は、訳文データファイル３００に記憶される訳文データを読み出して、ユーザに提供するために出力する。この第２言語文書出力部１５０は、例えば、ＣＲＴ、液晶ディスプレイ、プリンタなどの一般的な出力装置で構成される。

次に、アライメント抽出部１６０は、訳文データテーブル３２０に記憶されている一致した原文文章とその訳文データとを解析し、一致した原文文章中の用語と訳文データ中の訳語との対応関係を抽出する。この対応関係の抽出手法は、既存の技術を用いて実現して良い。アライメント抽出部１６０は、抽出できた用語・訳語対を用語対応データとして用語対応データテーブル３３０に記憶する。

対訳不整合検査部１７０は、訳語データを記憶する訳語データテーブル３１０の内容と用語対応データテーブル３３０の内容とを照合し、同じ第１言語の用語に対して異なる第２言語の訳語が存在すると、その結果を対訳不整合データとして対訳不整合データテーブル３４０に記憶する。

不整合検査出力部１８０は、対訳不整合データテーブル３４０に記憶される対訳不整合データを出力する装置である。この不整合検査出力部１８０は、例えばＣＲＴ、液晶ディスプレイ、プリンタなどの一般的な出力装置で構成される。勿論、不整合検査出力部１８０と第２言語文書出力部１５０を兼用しても良い。

図２は、訳語データテーブル３１０に記憶される訳語データの一例を示したものである。訳語データは、例えば「専門辞書用語、訳語、専門辞書名」から構成される。「専門辞書用語」は、第１言語の原文テキストデータ中で専門用語辞書２１０と照合した単語又は用語である。「訳語」は、専門用語辞書２１０との照合によって得られた訳語（第２言語）である。「専門辞書名」は、その専門用語辞書２１０の照合した辞書名を示す。

図２の例では、専門用語辞書２１０と照合した単語「機械翻訳システム」に対し、その訳語「machine translation system」と、その辞書名「情報」が記憶されている。同様に、単語「音声翻訳装置」に対し、その訳語「speech recognition equipment」と、その辞書名「情報」が記憶されている。

図３は、訳文データテーブル３２０に記憶される訳文データの一例を示したものである。訳文データは、例えば「原文、訳文、メモリ辞書名、対訳ＩＤ」から構成される。そして、「原文」は、原文テキストデータ中で翻訳メモリ辞書２２０と照合して一致した場合の原文文章そのものである。「訳文」は、翻訳メモリ辞書２２０から得られた一致した原文文章に対応する訳文である。「メモリ辞書名」は、翻訳メモリ辞書２２０の辞書名である。「対訳ＩＤ」は、訳文データに付された重複しない番号である。「対訳ＩＤ」は、以降で利用しない場合は持つ必要がない。

図３では、原文文章「図１は、音声認識装置の認識処理の流れを示すフローチャートである。」に対し、訳文データ「Fig. 1 shows a flow chart of the recognition process in the voice recognizing unit.」の例が記載されている。この場合、メモリ辞書名としては「特許」が設定され、また対訳ＩＤとして「＃３７」が設定されている。

図４は、用語対応データテーブル３３０に記憶される用語対応データの一例を示したものである。用語対応データは、例えば「用語、訳語およびメモリ辞書名」から構成される。「用語と訳語」は、アライメント抽出部１６０によって訳文データテーブル３２０の「原文」から抽出された用語であり、「訳文」から抽出された対応する訳語である。「メモリ辞書名」は、用語対応データテーブル３３０の訳文に記憶される翻訳メモリ辞書２２０の辞書名である。アライメント抽出部１６０によって生成された用語対応データは、用語対応データテーブル３３０に記憶される。

図４では、図３に示した訳文データテーブル３２０の「原文」と「訳文」から抽出した対
応訳語データとして、用語「音声認識装置」とその訳語「voice recognizing unit」と、
用語「認識処理」とその訳語「recognition process」と、用語「フローチャート」とそ
の訳語「flow chart」が例示されている。「メモリ辞書名」は、３用語とも同じ「特許
」である。

図５は、対訳不整合データテーブル３４０に記憶される対訳不整合データの一例を示したものである。図５（ａ），（ｂ）ともに、対訳不整合データは、例えば「用語、専門用語辞書の訳語、専門用語辞書名、翻訳メモリ辞書の訳語、翻訳メモリ辞書名」から構成される。「用語」は、訳語データテーブル３１０に記憶される訳語データ（図２を参照）と、用語対応データテーブル３３０に記憶される用語対応データ（図４を参照）との共通する用語である。図５では、「音声認識装置」が共通する用語となる。

「専門用語辞書の訳語」は、訳語データテーブル３１０から得られた「用語」に対応する訳語である。「専門用語辞書名」は、訳語データテーブル３１０から得られた「用語」に対応する専門辞書名である。「翻訳メモリ辞書の訳語」は、用語対応データテーブル３３０から得られた「用語」に対応する訳語である。「翻訳メモリ辞書名」は、用語対応データテーブル３３０から得られた翻訳メモリ辞書名である。つまり、用語対応データの基となる翻訳メモリ辞書２２０の「用語」に対応する翻訳メモリ辞書名である。

図５（ａ）では、共通する用語「音声認識装置」に対応して専門用語辞書２１０との照合により得られた訳語「speech recognition equipment」と、その専門辞書名「情報」と、翻訳メモリ辞書２２０との照合によって得られた用語対応データからの訳語「voice recognizing unit」と、そのメモリ辞書名「特許」とを示している。

図５（ｂ）では、図５（ａ）に「翻訳メモリ辞書の対訳ＩＤ」を更に含むものである。この「翻訳メモリ辞書の対訳ＩＤ」は、翻訳メモリ辞書２２０との照合によって一致した原文文章に対応して付与された重複しない対訳ＩＤである。この場合、図３の対話ＩＤと同じＩＤ情報「＃３７」が設定されている。

次に、本実施形態の動作を説明する。○
図６は、本実施形態の機械翻訳装置の処理過程を示したフローチャートである。ここでは、以下の動作を実行する翻訳プログラムが、予め機械翻訳装置にインストールされているとして説明する。

翻訳辞書検索・形態素解析部１２０は、第１言語文書入力部１１０からの原文テキストデータを受けて、基本語辞書２００、専門用語辞書２１０を使って単語辞書を検索した後に（ステップＳ１０）、形態素解析処理を行う（ステップＳ２０）。そして、翻訳辞書検索・形態素解析部１２０は、形態素解析結果を解析・変換・生成部１４０に出力する。ステップＳ１０で、翻訳辞書検索・形態素解析部１２０は、原文テキストデータの単語の中で専門用語辞書２１０と照合した単語とその訳語を対にした訳語データ（図２を参照）を、訳語データテーブル３１０に記憶する。

また、翻訳メモリ辞書検索部１３０は、第１言語文書入力部１１０から送られてくる原文テキストデータに対して、翻訳メモリ辞書２２０の検索処理を行う（ステップＳ３０）。また、翻訳メモリ辞書検索部１３０は、原文テキストデータの文章中で翻訳メモリ辞書２２０との照合で一致した原文文章とそれに対応する訳文データ（図３を参照）を、訳文データテーブル３２０に記憶する。翻訳メモリ辞書２２０との照合で一致した原文文章がなければ、翻訳メモリ辞書検索部１３０からは何も出力されない。

解析・変換・生成部１４０は、翻訳辞書検索・形態素解析部１２０および翻訳メモリ辞書検索部１３０からの出力データを受けて、第１言語での構文解析処理（ステップＳ４０）、第１言語から第２言語への変換処理（ステップＳ５０）、第２言語の生成処理（ステップＳ６０）を行う。解析・変換・生成部１４０は、第２言語に生成した訳文データを訳文データファイル３００に記憶する（ステップＳ７０）。

第２言語文書出力部１５０は、訳文データファイル３００に記憶される訳文データを読み出して、ユーザに提供するために出力する（ステップＳ８０）。

以上の翻訳処理が終了すると、対訳不整合検査部１７０は訳語データテーブル３１０に記憶されている訳語データの内容を調べる（ステップＳ１００）。照合した訳語が無ければ、処理を終了する。

また、アライメント抽出部１６０は、訳文データテーブル３２０に記憶されている一致した原文文章とその訳文データとを解析し、原文文章中の用語と訳文データ中の訳語との対応関係を抽出する（ステップＳ１１０）。対応関係が抽出されなければ、処理を終了する。アライメント抽出部１６０は、抽出できた用語・訳語対を用語対応データ（図４を参照）として用語対応データテーブル３３０に記憶する。

次に、対訳不整合検査部１７０は、訳語データテーブル３１０に記憶される訳語データと用語対応データテーブル３３０に記憶された用語対応データとを比較照合し、同じ第１言語の用語に対するもので訳語が異なるものが存在するか否かを調べる。そして、対訳不整合検査部１７０は、同じ第１言語の用語に対するもので訳語が異なるものがあれば、対応不整合データ（図５を参照）を生成して、対訳不整合データテーブル３４０に記憶する（ステップＳ１２０）。対訳不整合データが無ければ、処理を終了する。そして、不整合検査出力部１８０は、対訳不整合データファイル３４０に記憶された対話不整合データをユーザに出力する（ステップＳ１３０）。

図７は、不整合検査出力部１８０による対訳不整合データの出力例である。即ち、図５の対応不整合データに基づいて、用語「音声認識装置」に対し専門用語辞書２１０との照合で「speech recognition equipment」が出力され、翻訳メモリ辞書２２０との照合で「voice recognizing unit」が出力されたことが表示されている。

図７（ａ）では、図５（ａ）に示した用語「音声認識装置」、専門用語辞書からの訳語「speech recognition equipment」、専門辞書名「情報」、翻訳メモリ辞書からの訳語「voice recognizing unit」、翻訳メモリ辞書名「特許」が順に表示して実現している。これにより、ユーザは、第２言語文書出力部１５０から出力される訳文データに、訳語の不整合なものがあることが認識できるようになる。

図７（ｂ）では、図５（ｂ）に示した「翻訳メモリ辞書の対訳ＩＤ」を利用して、図３の訳文データから「原文」と「訳文」を取り出して、それぞれを下段に表示することで実現している。

このように、本実施形態に係る機械翻訳装置及び翻訳プログラムでは、翻訳に使用している専門用語辞書と翻訳メモリ辞書によって訳語の統一がとれない用語に関する情報を簡単に検知する可能となる。ユーザは、この情報をもとに、専門用語辞書の訳語を変更するか、翻訳メモリ辞書の対訳データを修正して改めて翻訳することにとって、訳語の統一の取れた訳文を得ることができる。

（第２の実施形態）
図８は、第２の実施形態に係る機械翻訳装置を示すブロック図である。この機械翻訳装置は、第１言語文書入力部１１０と、翻訳辞書検索・形態素解析部１２０と、翻訳メモリ辞書検索部１３０と、解析・変換・生成部１４０と、第２言語文書出力部１５０に加えて、アライメント抽出部１６０と、対訳不整合検査部１７０と、原文訳文データファイル４００と、不整合用語選択部４１０と、訳語修正部４２０を備えている。第１言語文書入力部１１０〜対訳不整合検査部１７０の各構成は、図１に示したものと同じである。

不整合用語選択部４１０は、図１に示した不整合検査出力部１８０の機能に加えて、対訳不整合データで示された異なる訳語の中から、ユーザがいずれかを選択することを可能にするものである。不整合用語選択部４１０は、例えばＣＲＴ、液晶ディスプレイ、プリンタなどの一般的な出力装置と、キーボード、マウスなどの一般的な入力装置で構成される。勿論、不整合用語選択部４１０と第２言語文書出力部１５０を兼用しても良い。

また、訳語修正部４２０は、不整合用語選択部４１０におけるユーザの選択結果に応じて、原文訳文データファイル４００に記憶される訳文データを修正するものである。勿論、不整合用語選択部４１０と、第２言語文書出力部１５０と、訳語修正部４２０の機能を１つの装置で実現しても良い。

原文訳文データファイル４００は、第１言語の原文テキストデータ、第２言語の訳文データに加えて、専門用語辞書２１０と照合した全用語データと対応する全訳語データ、翻訳メモリ辞書２２０との照合により得られた用語対応データを記憶している。

図９は、第２の実施形態における原文訳文データファイル４００の一例を示したものである。原文訳文データファイル４００は、例えば「番号、原文（第１言語）、および訳文（第２言語）」から構成される。

「原文」は、専門用語辞書２１０、または翻訳メモリ辞書２２０を使って翻訳した第１言語の原文を示すものである。そして、専門用語辞書２１０と照合した用語には＜tech id =n name＝辞書名＞の情報が付与されている。また、翻訳メモリ辞書２２０から抽出した用語部分には＜mem id=m name＝辞書名＞の情報が付与されている。ここで、n，mは、文中の用語を区別する番号である。nameに続く辞書名は、専門用語辞書名および翻訳メモリ辞書名である。図９の例では、文番号46，79の原文は、図３の原文テキストデータと一部異なる箇所が存在するが、翻訳メモリ辞書２２０との照合処理では、一部の差異の置換えが可能である。したがって、訳文も差異部分を入れ替えたものを出力することができる。

また、図９の「訳文」は、原文に対応する第２言語の訳文データを示すものである。原文に＜tech id=n name=辞書名＞および＜mem id=m name=辞書名＞の情報を付与した用語の訳文にも、同じ情報が付与されている。「訳文」では、専門用語辞書名および翻訳メモリ辞書名は原文と共通するため、省略することができる。

図１０は、第２の実施形態の不整合用語選択部４１０の出力例である。ここでは、図５に示した対訳不整合データに基づいて表示したものである。つまり、図１０は、図７（ｂ）に示した対訳不整合データの出力画面に、ユーザによる辞書選択用のボタンが設けられている。これにより、表示された用語に対する訳語として、専門用語辞書２１０の訳語を使用するか、翻訳メモリ辞書２２０の訳語を使用するか、ユーザが選択することができる。例えば、選択ボタン４５０により専門用語辞書の訳語を使用すると指定して「確認」ボタンを押すと、その用語「音声認識装置」とともに、選択結果が訳語修正部４２０に送られる。

訳語修正部４２０は、原文訳文データファイル４００の中から、用語「音声認識装置」に一致する全データを検索し、対応する訳語が選択結果と異なる場合に、その訳語を選択した辞書の訳語に置換する。

例えば、図１０で専門用語辞書２１０の訳語を使用すると指示した場合、図９の文番号18，24の訳文データは修正する必要はない。一方、文番号46，79の訳文データに対して、訳語修正部４２０は「voice recognizing unit」を「speech recognition equipment」に置換する処理を施す。

逆に、図１０で翻訳メモリ辞書２２０の訳語を使用すると指示した場合、図９の文番号46，79の訳文データは修正する必要はない。一方、文番号18，24の訳文データに対して、訳語修正部４２０は「speech recognition equipment 」を「voice recognizing unit」に置換する処理を施す。

この様に、第２の実施形態によれば、訳語修正部４２０によりユーザの指定した辞書（専門用語辞書又は翻訳メモリ辞書）の訳語に従い訳文データの修正を行うことができる。

次に、図１１〜図１６は、図１０での辞書選択によって訳文データを修正および確認する操作画面を示したものである。

図１１は、図１０で専門用語辞書２１０の訳語を使用すると指示した時に、翻訳メモリ辞書２２０を用いて翻訳された訳文データの修正を確認する表示例である。即ち、訳語修正部４２０の画面に、翻訳メモリ辞書２２０との照合で一致した原文文章とその訳文データを示すとともに、その翻訳メモリ辞書２２０が適用されて翻訳された最初の訳文が表示されている。ここでは、文番号46の原文文章と訳文データを示している。そして、用語「音声認識装置」の訳語は、専門用語辞書２１０を用いた訳語「speech recognition equipment」に置き換えられている。この場合、修正処理された用語とその訳語にはアンダーラインが付与されて、ユーザが確認し易い画面が提供されている。アンダーライン以外に、色づけ、網掛け等の表示でも構わない。ここでボタン［次へ→］を指示すると、翻訳メモリ辞書２２０の同じ原文文章が適用された次の訳文データが表示される。

図１２は、図１１でボタン［次へ→］を指示した結果の表示例である。ここでは、文番号79の原文文章と訳文データを示している。同様に、用語「音声認識装置」の訳語は、専門用語辞書２１０を用いた訳語「speech recognition equipment」に置き換えられている。ここで、ボタン［←前へ］が指示されると、同じ翻訳メモリ辞書が適用された１つ前の訳文データが表示される。この場合は、図１１の表示画面に戻る。

図１１又は図１２の表示画面で、ボタン［確認］が指示されると、訳文データが修正され、図１３の確認画面を経て、元の表示画面に戻る。この場合、ボタン［確認］で一括修正が行われるように設計されている。一括確認の場合、修正対象の訳文データに対し一括して修正が行われる。また、図１１又は図１２の表示画面で、ボタン［取消］が指示されると、訳文データの修正が取り消され、図１０の表示画面に戻る。

図１４は、図１０で翻訳メモリ辞書２２０の訳語を使用すると指示した時に、専門用語辞書２１０の訳語を使った訳文データの修正を確認する表示例である。即ち、訳語修正部４２０の画面に、専門用語辞書２１０の対訳データを示すとともに、その専門用語辞書２１０が適用されて翻訳された最初の訳文が表示されている。ここでは、文番号18の原文文章と訳文データを表示している。そして、用語「音声認識装置」の訳語は、翻訳メモリ辞書２２０を用いた訳語「voice recognizing unit」に置き換えられている。この場合、修正処理された用語とその訳語にはアンダーラインが付与されて、ユーザが確認し易い画面が提供されている。ここでボタン［次へ→］が指示されると、専門用語辞書２１０の同じ訳語が適用された次の訳文データが表示される。

図１５は、図１４でボタン［次へ→］を指示した結果の表示例である。ここでは、文番号24の原文文章と訳文データを示している。同様に、用語「音声認識装置」の訳語は、翻訳メモリ辞書２２０を用いた訳語「voice recognizing unit」に置き換えられている。ここでボタン［←前へ］が指示されると、同じ専門用語辞書２１０の訳語が適用された1つ前の訳文データが表示される。この場合は、図１４の表示画面に戻る。

図１４又は図１５の表示画面で、ボタン［確認］が指示されると、訳文データが修正され、図１６の確認画面を経て、元の画面表示に戻る。この場合、一括修正が行われるように設計されている。また、図１４又は図１５の表示画面で、ボタン［取消］が指示されると、訳文データの修正が取り消され、図１０の表示画面に戻る。

図１７は、第２の実施形態における辞書選択後の他の修正処理を示すフローチャートである。上述の通り、図１０の対訳不整合データの検出に基づく辞書選択において、専門用語辞書２１０の訳語を使用するとした場合に、図１１および図１２の処理工程を経て翻訳メモリ辞書２２０のデータを修正していた。また、翻訳メモリ辞書２２０の訳語を使用するとした場合に、図１４および図１５の処理工程を経て専門用語辞書２１０の訳語を修正するとした。図１７では、個々の訳文データによって適用したい訳語を選択する場合の、処理を示すものである。

まず、対訳不整合データの検出に基づき、図１０の操作画面より、専門用語辞書２１０の訳語を使用するか、翻訳メモリ辞書２２０の訳語を使用するかをユーザが選択して指示する（ステップＳ２００）。専門用語辞書２１０の訳語を使用すると指示した場合は、ステップＳ２１０へ進む。また、翻訳メモリ辞書２２０の訳語を使用すると指示した場合は、ステップＳ２５０へ進む。

専門用語辞書２１０の訳語を使用すると指示した場合は、対訳不整合データに基づいて翻訳メモリ辞書２２０を適用した訳文データの中から修正すべき訳文データを１つ取り出して、例えば図１１のように表示する（ステップＳ２１０）。ユーザは、その表示内容を判断して、図１１の画面からボタン［確認］、又はボタン［取消］を指示する（ステップＳ２２０）。ボタン［確認］が指示されれば、翻訳メモリ辞書による訳文データを修正する（ステップＳ２３０）。一方、ボタン［取消］が指示されれば、翻訳メモリ辞書による訳文データの修正は行われない。次に、対訳不整合データに同じ修正を行う訳文データが有るか否かを判断し（ステップＳ２４０）、有ればステップＳ２１０に戻り、同じ修正処理を繰返し実行する。修正対象の対訳データが無くなれば、処理を終了する。

翻訳メモリ辞書２２０の訳語を使用すると指示した場合は、専門用語辞書の修正すべき訳語を取り出して、その訳語に修正する（ステップＳ２５０）。次に、対訳不整合データに基づいて専門用語辞書の前記訳語の修正に伴って修正すべき訳文データを取り出して、例えば図１４のように表示する（ステップＳ２６０）。ユーザは、その表示内容を判断して、図１４の画面からボタン［確認］、又はボタン［取消］を指示する（ステップＳ２７０）。ボタン［確認］が指示されれば、何も処理されずステップＳ２９０に進む。一方、ボタン［取消］が指示されれば、修正前の訳文データと原文文章との対を翻訳メモリ辞書２２０に登録する（ステップＳ２８０）。次に、対訳不整合データに同じ対訳データが有るか否かを判断し（ステップＳ２９０）、有ればステップＳ２５０に戻り、同じ確認処理を繰返し実行する。修正対象の対訳データが無くなれば、処理を終了する。

このように、個々の訳文データによって逐次適用したい訳語を選択して、対応することができる。また、翻訳メモリ辞書２２０の訳語を使用すると指示した場合は、専門用語辞書２１０の該当する訳語を修正することで、一括して訳語の修正が可能となる。よって、訳語の修正処理が簡単に行うことができる。また、ボタン［取消］の操作によって、元の訳語を使用した訳文データを翻訳メモリ辞書２２０に登録することができる。

（第３の実施形態）
第３の実施例は、第２の実施形態の一部を変更したものである。第２の実施形態では、不整合検査・修正のために原文訳文データファイル４００を持つ構成としたが、第３の実施形態では図１の訳文データファイル３００を採用するものである。そして、第３の実施形態では、図８の不整合用語選択部４１０の選択結果に応じて、翻訳処理を再実行する方式とする。

即ち、図１０の辞書選択で専門用語辞書２１０の訳語を使用すると指示した場合、翻訳メモリ辞書２２０の使用が抑制される。そして、再翻訳の過程では、対訳不整合データの内容を参照し、文書全体にわたる用語「音声認識装置」に対して、使用可能な専門用語辞書２１０による訳語「speech recognition equipment」で翻訳出力されることになる。つまり、翻訳メモリ辞書２２０による訳語「voice recognizing unit」は出力されないようになる。

一方、図１０の辞書選択で翻訳メモリ辞書２２０の訳語を使用すると指示した場合、専門用語辞書２１０の使用が抑制される。そして、再翻訳の過程では、対訳不整合データの内容を参照し、文書全体にわたる用語「音声認識装置」に対して、使用可能な翻訳メモリ辞書２２０による訳語「voice recognizing unit」で翻訳出力されることになる。つまり、専門用語辞書２１０による訳語「speech recognition equipment」は出力されないようになる。

（第４の実施形態）
第４の実施形態は、第２の実施形態の一部を変更したものである。第２の実施形態では、訳語不整合データを修正するために原文訳文データを原文訳文データファイル４００に保持したが、第４の実施形態ではその必要はない。その代わり、図８の不整合用語選択部４１０の選択結果に応じて、専門用語辞書２１０又は翻訳メモリ辞書２２０の訳語又は訳文データを修正し、翻訳処理を再実行するものである。

図１８は、第４の実施形態にかかる機械翻訳装置を示すブロック図である。第８図と異なる部分は、訳語修正部を２つに分けて、訳語修正部（Ａ）４２０Ａと、訳語修正部（Ｂ）４２０Ｂを設けたところである。また、訳文データファイル３００を図１と同じ構成としている。そして、訳語修正部４２０Ａは、専門用語辞書２１０の訳語の修正を行う。また、訳語修正部４２０Ｂは、翻訳メモリ辞書２２０の訳文データの修正を行う。

即ち、対訳不整合データの検出に伴い、不整合用語選択部４１０で翻訳メモリ辞書２２０の訳語を使用することが選択されると、訳語修正部４２０Ａは、対訳不整合データの内容をもとに専門用語辞書２１０の訳語を修正する。一方、不整合用語選択部４１０で専門用語辞書２１０の訳語を使用することが選択されると、訳語修正部４２０Ｂは、対訳不整合データの内容をもとに翻訳メモリ辞書２２０の訳文データを修正する。

そして、専門用語辞書２１０又は翻訳メモリ辞書２２０の内容を修正した後、改めて第１言語の原文テキストデータを入力して、翻訳辞書検索・形態素解析部１２０、翻訳メモリ辞書検索部１３０、解析・変換・生成部１４０の処理を経て、新たな訳文データを出力する。

図１９は、訳語修正部４２０Ｂの修正による原文と訳文データを示している。不整合用語選択部４１０で専門用語辞書２１０の訳語を使用することが選択された場合、再翻訳の前に、対訳不整合データの内容を参照し、翻訳メモリ辞書２２０との照合により得られた用語「音声認識装置」の訳語を全て「speech recognition equipment」に修正する。

図２０は、訳語修正部４２０Ａの修正による原文と訳語を示している。不整合用語選択部４１０で翻訳メモリ辞書２２０を使用することが選択された場合、対訳不整合データの内容を参照し、専門用語辞書２１０との照合により得られた用語「音声認識装置」の訳語を「voice recognizing unit」に修正する。上述した修正を行った後に、翻訳処理を再実行することにより、訳語の統一が実現できる。

図２１は、翻訳開始時に、これまで述べた訳語の不整合データの検査を行うか否かを選択する画面例である。ここで「する」を選択すれば訳語の不整合を検査するが、「しない」を選択すれば訳語の不整合を検査しない。

よって、実施形態の発明によれば、専門用語辞書等と翻訳メモリ辞書を併用しても、文書全体の訳語の統一性を損なうことなく、訳語を統一して正しい翻訳を行うことができる。従って、ユーザによる訳語の修正作業が少することができる。

以上のように、本発明に係る機械翻訳装置および翻訳プログラムは、開発過程やデータの性質の異なる専門用語辞書と翻訳メモリ辞書を併用して翻訳する際、専門用語の訳語が統一されない不具合を、簡単に回避することができる。

１１０‥第１言語文書入力部
１２０‥翻訳辞書検索・形態素解析部
１３０‥翻訳メモリ辞書検索部
１４０‥解析・変換・生成部
１５０‥第２言語文書出力部
１６０‥アライメント抽出部
１７０‥対訳不整合検査部
１８０‥不整合検査出力部
２００‥基本語辞書
２１０‥専門用語辞書
２２０‥翻訳メモリ辞書
２３０‥解析・変換・生成辞書
３００‥訳文データファイル
３１０‥訳語データテーブル
３２０‥訳文データテーブル
３３０‥用語対応データテーブル
３４０‥対応不整合データテーブル
４００‥原文訳文データファイル
４１０‥不整合用語選択部
４２０‥訳語修正部
４２０Ａ‥訳語修正部Ａ
４２０Ｂ‥訳語修正部Ｂ

Claims

第１言語の用語と第２言語の訳語とを記憶する基本語辞書および専門用語辞書と、
第１言語の原文文章と第２言語の訳文データとを記憶する翻訳メモリ辞書と、
前記第１言語の入力原文データを前記基本語辞書および前記専門用語辞書との照合によ
って前記第２言語に翻訳すると共に、前記入力原文データを前記翻訳メモリ辞書との照合
によって前記第２言語に翻訳する翻訳処理部と、
前記入力原文データの単語の中で前記専門用語辞書と照合した単語とそれに対応する訳
語を対にした訳語データを記憶する第１テーブルと、
前記入力原文データの文章の中で前記翻訳メモリ辞書と照合し、かつ、アライメント抽
出された原文文章の用語とそれに対応する訳文データ中の訳語との関係を示す用語対応デ
ータを記憶する第２テーブルと、
前記第２テーブルに記憶した前記用語対応データと前記第１テーブルに記憶した前記訳
語データとを比較照合し、不整合な訳語を検出した場合、対話不整合データを生成する不
整合検査部と、
前記不整合検査部で生成した前記対話不整合データを出力し、前記対話不整合データで
示される前記不整合な訳語の中から前記専門用語辞書から得た訳語又は前記翻訳メモリ辞
書から得た訳語のどちらかをユーザに選択させる選択部と、
前記選択部により選択された訳語に従って前記専門用語辞書から得た訳文又は前記翻訳
メモリ辞書から得た訳文の前記不整合な訳語を統一するように修正する修正部と、
を備えたことを特徴とする機械翻訳装置。
前記選択部により選択された訳語に従って前記翻訳メモリ辞書又は前記専門用語辞書の
使用を抑制して、前記選択された訳語の基となる前記専門用語辞書又は前記翻訳メモリ辞
書を用いて翻訳処理を再実行することを特徴とする請求項１に記載の機械翻訳装置。
前記修正部により修正された前記専門用語辞書又は修正された前記翻訳メモリ辞書を用
いて翻訳を再実行することを特徴とする請求項１に記載の機械翻訳装置。
第１言語の用語と第２言語の訳語とを記憶する基本語辞書および専門用語辞書と、
第１言語の原文文章と第２言語の訳文データとを記憶する翻訳メモリ辞書と、
前記入力原文データの単語の中で前記専門用語辞書と照合した単語とそれに対応する訳
語を対にした訳語データを記憶する第１テーブルと、
前記入力原文データの文章の中で前記翻訳メモリ辞書と照合し、かつ、アライメント抽
出された原文文章の用語とそれに対応する訳文データ中の訳語との関係を示す用語対応デ
ータを記憶する第２テーブルと、
前記第１言語の入力原文データを前記基本語辞書および前記専門用語辞書との照合によ
って前記第２言語の訳文データを作成すると共に、前記翻訳メモリ辞書との照合によって
前記第２言語の訳文データを作成する翻訳処理部と、
を有する機械翻訳装置の翻訳プログラムであって、
前記第２テーブルに記憶した前記用語対応データと前記第１テーブルに記憶した前記訳
語データとを比較照合し、不整合な訳語を検出する機能と、
前記不整合な訳語を検出した場合、対話不整合データを生成して、ユーザによって認識
可能に出力する機能と、
前記対話不整合データで示される前記不整合な訳語の中から前記専門用語辞書から得た
訳語又は前記翻訳メモリ辞書から得た訳語のどちらかをユーザに選択させる機能と、
前記選択された訳語に従って前記専門用語辞書から得た訳文又は前記翻訳メモリ辞書か
ら得た訳文の前記不整合な訳語を統一するように修正する機能と、
を備えたことを特徴とする翻訳プログラム。
前記選択された訳語に従って前記翻訳メモリ辞書又は前記専門用語辞書の使用を抑制し
て、前記選択された訳語の基となる前記専門用語辞書又は前記翻訳メモリ辞書を用いて翻
訳処理を再実行する機能、又は
前記修正部により修正された前記専門用語辞書又は修正された前記翻訳メモリ辞書を用
いて翻訳処理を再実行する機能と、
を備えたことを特徴とする請求項４に記載の翻訳プログラム。