JP6221339B2

JP6221339B2 - 翻訳装置及び翻訳方法

Info

Publication number: JP6221339B2
Application number: JP2013102268A
Authority: JP
Inventors: 育昌鄭; 友樹長瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-05-14
Filing date: 2013-05-14
Publication date: 2017-11-01
Anticipated expiration: 2033-05-14
Also published as: JP2014222456A

Description

本発明は、例えば、第１の言語で表された文を第２の言語の文に翻訳する翻訳装置及び翻訳方法に関する。

各種のソフトウェアが国際的に流通するようになり、ソフトウェアで利用されるメッセージなど、様々な文章を多言語化する要望がある。例えば、ホテルまたは航空券の予約サイトなど、複数の言語圏での利用が想定されるWebアプリケーションでは、ユーザは、一般に、ユーザの母国語でそのアプリケーションを利用する。そのため、Webアプリケーションの表示メッセージは、複数の言語の中から選択された言語で表示できることが好ましい。したがって、その表示メッセージは、例えば、特定の言語で作成された後、他の様々な言語に翻訳される。そのような多言語への翻訳を手作業で行うと非常にコストが掛かってしまう。そこで、特定の言語で書かれた文を他の言語に自動的に翻訳するための技術が提案されている（例えば、特許文献１及び２を参照）。

例えば、特許文献１に開示された翻訳メモリ翻訳装置は、例文対訳辞書を参照し、入力文と完全に一致する第１言語の例文を検索し、一致する例文が検索されないとき、入力文と第１言語の例文との差分に基づき入力文に類似する第１言語の例文候補を選択する。その際、この翻訳メモリ翻訳装置は、入力文を形態素解析した上で、例文との差分を行う。そしてこの翻訳メモリ翻訳装置は、例文候補の対訳となる第２言語の例文の中から差分に対応する文字列を識別し、入力文と第２言語の例文の対応関係を求め、識別された文字列を差分に基づき変換することで入力文の第２言語の訳文を生成する。

また、特許文献２に開示された通訳装置は、翻訳知識データベースを用いて文字列を目的言語に翻訳する。この通訳装置は、通訳方向の切り替えの有無に応じて、文字列及び翻訳結果の少なくとも一方の信頼度を評価し、文字列及び翻訳結果の少なくとも一方と信頼度を対応付けて記憶する。そしてこの通訳装置は、所定の信頼度に対応付けられた翻訳結果による翻訳知識データベースを更新する。ここで翻訳知識データベースは、原言語及び目的言語の語彙辞書、文法規則、両言語間の構造変換規則、両言語間の語彙の対応関係を示す訳語辞書、意味的に等価な両言語による文や表現の対である訳語対などの集合である。

特開２００９−２８９２１９号公報特開２０１０−１８６３３９号公報

上記のように、特許文献１及び２の何れにおいても、入力された文を翻訳するために、言語の構造に基づいて入力された文を解析することが行われる。しかしながら、言語によっては、そのような解析を行うために必要な技術または情報、例えば、形態素解析の手法及びその形態素解析に利用される辞書が存在せず、上記の特許文献に記載の技術が適用できないことがある。

そこで本明細書は、一つの側面として、入力された文に対して言語の構造に基づく解析を行わずにその入力された文を対象言語に翻訳できる翻訳装置を提供することを目的とする。

一つの実施形態によれば、翻訳装置が提供される。この翻訳装置は、第１の言語で表記された文のテキストデータを取得する入力部と、複数の用例のそれぞれについて、第１の言語の表記と第２の言語の表記とが登録された翻訳用例コーパスを記憶する記憶部と、複数の用例の第１の言語の表記のうち、取得された文と少なくとも部分一致する用例を検索対象用例として抽出する順方向検索部と、取得された文に含まれる複数の文字列のそれぞれごとに、検索対象用例のうちの少なくとも二つの第１の言語の表記間で最も長く、かつその文字列を含む第１の共通部分を求め、第１の共通部分を含む、検索対象用例の第２の言語の表記間の最も長い第２の共通部分を第２の言語の用語訳として抽出する最長共通部抽出部と、用語訳ごとに、複数の用例のうち、第２の言語の表記にその用語訳を含む用例を逆引き用例として抽出する逆方向検索部と、用語訳ごとに、逆引き用例に対応する第１の言語の表記間で最も長い共通部分をその用語訳に対応する第１言語の用語とし、その用語と対応する用語訳の組を対訳とする対訳生成部と、対訳を参照することにより、取得された文に含まれる各用語を、その用語に対応する用語訳に置換することで取得された文の第２の言語による訳文を生成する置換部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された翻訳装置は、入力された文に対して言語の構造に基づく解析を行わずにその入力された文を対象言語に翻訳できる。

第１の実施形態による翻訳装置の概略構成図である。翻訳用例コーパスの一例を示す図である。第１の実施形態による翻訳装置が有する処理部の機能ブロック図である。翻訳用例コーパスから抽出される用例の日本語表記及び対応する中国語表記の一覧を含むテーブルを示す図である。日本語表記と中国語表記の最長共通部分の一例を示す図である。最長共通部分抽出処理の動作フローチャートである。図２に示された翻訳用例コーパスに登録されている用例のうち、図５に示された中国語の最長共通部分である用語訳「監視器」を含む用例の一覧と、用語訳「網路」を含む用例の一覧を含むテーブルを示す図である。翻訳処理の動作フローチャートである。翻訳用例コーパスの他の一例を示す図である。用語訳「網路」を含む用例の一覧を示す図である。第２の実施形態による対訳生成処理の動作フローチャートである。

以下、図を参照しつつ、第１の実施形態による翻訳装置について説明する。
この翻訳装置は、複数の用例のそれぞれに対する、二つ以上の言語による表記が登録された翻訳用例コーパスを用いることにより、入力された文の構造を、形態素解析などを用いて解析することなくその文を翻訳する。そのために、この翻訳装置は、翻訳用例コーパスに登録された、入力された文の言語（以下、便宜上、第１言語と呼ぶ）と同じ言語の表記の用例の中から、入力された文の少なくとも一部と一致する用例を抽出する。この翻訳装置は、抽出された用例のうちの少なくとも二つについての共通部分が最長となる用例についての翻訳対象言語（以下、便宜上第２言語と呼ぶ）の表記の中で、最も長い共通部分を用語訳として抽出する。そしてこの翻訳装置は、その用語訳を含む第２言語表記の用例を翻訳用例コーパスから選択し、その選択された用例の第１言語表記の中で最も長い共通部分を、その用語訳に対応する第１言語の用語とする。そしてこの翻訳装置は、用語と用語訳とを対訳として、入力された文を用語ごとにその用語訳で置き換えることにより、入力された文を第２言語に翻訳する。
なお、以下の実施形態では、第１言語は日本語、第２言語は中国語とする。

図１は、第１の実施形態による翻訳装置の概略構成図である。本実施形態では、翻訳装置１は、入力部２と、記憶部３と、処理部４と、出力部５とを有する。

入力部２は、第１言語で表記された入力文のテキストデータを取得する。そのために、入力部２は、例えば、キーボードを有する。また、入力部２は、入力文のテキストデータを通信ネットワークを介して翻訳装置１と接続された他の機器から取得してもよい。この場合、入力部２は、翻訳装置１を通信ネットワークに接続するためのインターフェース回路を有する。なお、入力文のテキストデータは、どのようなファイル形式で表されていていもよい。
入力部２は、入力文のテキストデータを処理部４へ渡す。

記憶部３は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部３は、処理部４で用いられる各種コンピュータプログラム、及び翻訳処理に用いられる翻訳用例コーパスといった各種のデータを記憶する。

図２は、翻訳用例コーパスの一例を示す図である。翻訳用例コーパス２００の左側の列の各欄には、用例の日本語表記が登録されており、一方、右側の列の各欄には、その左隣に隣接する用例の日本語の表記と同じ意味の中国語の表記が登録されている。例えば、翻訳用例コーパス２００には、用例「マルチモニター」についての日本語表記「マルチモニター」と中国語表記「多重監視器」が登録されている。なお、翻訳用例コーパスは、例えば、多言語化対応済みのオペレーションシステム、WebアプリケーションまたはWebサイトから、各言語によって表示されたメッセージを収集して翻訳用例コーパスに登録することによって生成できる。

出力部５は、処理部４から受け取った翻訳文のテキストデータを表示装置（図示せず）へ出力する。そのために、出力部５は、例えば、表示装置を翻訳装置１と接続するためのビデオインターフェース回路を有する。
あるいは、出力部５は、翻訳文のテキストデータを、通信ネットワークを介して翻訳装置１と接続された他の装置へ出力してもよい。この場合、出力部５は、通信ネットワークに翻訳装置１を接続するためのインターフェース回路を有する。なお、入力部２も通信ネットワークを介して入力文のテキストデータを取得する場合、入力部２と出力部５は一体化されていてもよい。

処理部４は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部４は、第１の言語で表記された入力文を第２の言語に翻訳する。
図３は、処理部４の機能ブロック図である。処理部４は、順方向検索部１１と、最長共通部抽出部１２と、逆方向検索部１３と、対訳生成部１４と、置換部１５とを有する。
処理部４が有するこれらの各部は、例えば、処理部４が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部４が有するこれらの各部は、その各部の機能を実現する一つの集積回路として翻訳装置１に実装されてもよい。

順方向検索部１１は、記憶部３に記憶された翻訳用例コーパスに登録された複数の用例の中から、その用例の第１言語表記の少なくとも一部が、翻訳対象である入力文の少なくとも一部と一致する用例を抽出する。

その際、第１言語が日本語または中国語のように、文字単位で表される言語である場合には、順方向検索部１１は、入力文と所定の文字数以上一致する用例を抽出することが好ましい。所定の文字数は、例えば、２または３に設定される。このように、一致する文字数の下限を設定することで、順方向検索部１１は、抽出される用例の数を抑制できる。

また、第１言語が英語またはドイツ語のように、単語単位で空白により区切られる言語である場合には、順方向検索部１１は、入力文と空白で区切られた少なくとも一つの単語が一致する用例を抽出することが好ましい。このように、少なくとも単語単位で一致する用例のみを抽出することで、順方向検索部１１は、抽出される用例の数を抑制できる。

さらに、第１言語が英語またはドイツ語のように、単語に活用形がある場合、順方向検索部１１は、第１言語表記中に入力文中の単語と活用形のみが異なる単語が含まれる用例がある場合、その用例を抽出してもよい。これにより、例えば、入力文中に単数形の単語「monitor」が含まれていれば、第１言語表記に「monitors」といった複数形の単語を含む用例も抽出されることになる。このように、順方向検索部１１は、活用形による語尾の相違といった、辞書を利用しなくても分かる程度の言語の知識を利用することで、用例の抽出をより適切に実行できる。

図４は、入力文が日本語で表記された「ネットワークモニター」である場合に、図２に示された翻訳用例コーパス２００から抽出される用例の日本語表記及び対応する中国語表記の一覧を含むテーブルを示す図である。この例では、テーブル４００には、入力された文のうちの「ネットワーク」の部分と部分一致する日本語表記を持つ用例と、「モニター」の部分と部分一致する日本語表記を持つ用例が含まれる。

順方向検索部１１は、入力文の少なくとも一部と少なくとも部分一致する用例の第１言語による表記を対応する第２言語による表記とともに記憶部３に記憶する。なお、以下では、便宜上、順方向検索部１１により抽出された用例を検索対象用例と呼ぶ。

最長共通部抽出部１２は、入力文に含まれる複数の文字列のそれぞれごとに、検索対象用例のうちの少なくとも二つについてその文字列を含む第１言語表記の最も長い共通部分を求める。そして最長共通部抽出部１２は、その最も長い共通部分を持つ用例についての第２言語表記中の最も長い共通部分をそれぞれ用語訳として抽出する。

再度図４を参照すると、文字列「モニター」に関して、用例の日本語表記で最長となる共通部分は「モニター」であり、中国語表記で最長となる共通部分は「監視器」である。一方、文字列「ネットワーク」に関して、用例の日本語表記で最長となる共通部分は「ネットワークモ」であり、中国語表記で最長となる共通部分は「網路」である。
したがって、図５のテーブル５００に示されるように、入力文「ネットワークモニター」に対して、図２に示された翻訳用例コーパスの中から二つの最長共通部分の組が求められる。一つは、第１言語（日本語）の最長共通部分「モニター」と第２言語（中国語）の最長共通部分「監視器」の組であり、もう一つは、第１言語の最長共通部分「ネットワークモ」と第２言語の最長共通部分「網路」の組である。

図６は、最長共通部抽出部１２により実行される、最長共通部抽出処理の動作フローチャートである。最長共通部抽出部１２は、先ず、着目する用例を示す番号K、Lを、それぞれ、1、2に初期化するとともに、順方向検索部１１により抽出された用例の総数をSmaxとする（ステップＳ１０１）。最長共通部抽出部１２は、K番目の用例とL番目の用例の第１言語表記の最も長い共通する文字列(Longest common string, LCS)及び第２言語表記のLCSを抽出する（ステップＳ１０２）。最長共通部抽出部１２は、第１言語のLCS及び第２言語のLCSの少なくとも一方が空文字列か否か判定する（ステップＳ１０３）。第１言語のLCSと第２言語のLCSがともに空文字列でない場合（ステップＳ１０３−Ｎｏ）、最長共通部抽出部１２は、第１言語のLCS及び第２言語のLCSが、それぞれ、既に抽出されている最長共通部分の候補を含むか否か判定する（ステップＳ１０４）。第１言語のLCS及び第２言語のLCSが、既に抽出されている最長共通部分の候補を含む場合（ステップＳ１０４−Ｙｅｓ）、最長共通部抽出部１２は、最長共通部分の候補を更新する。すなわち、最長共通部抽出部１２は、K番目の用例とL番目の用例の第１言語表記のLCS及び第２言語表記のLCSを、それぞれ、最長共通部分の候補として記憶部３に記憶する（ステップＳ１０５）。

ステップＳ１０４にて、第１言語のLCS及び第２言語のLCSの何れかが、既に抽出されている最長共通部分の候補を含まない場合（ステップＳ１０４−Ｎｏ）、最長共通部抽出部１２は、着目する用例の番号Lを1インクリメントする（ステップＳ１０６）。またステップＳ１０５の後も、最長共通部抽出部１２は、着目する用例の番号Lを1インクリメントする（ステップＳ１０６）。あるいはまた、ステップＳ１０３にて、第１言語のLCSまたは第２言語のLCSが空文字列である場合も（ステップＳ１０３−Ｙｅｓ）、最長共通部抽出部１２は、着目する用例の番号Lを1インクリメントする（ステップＳ１０６）。
その後、最長共通部抽出部１２は、番号Lが、抽出された用例の総数Smaxよりも大きいか否か判定する（ステップＳ１０７）。番号Lが用例の総数Smax以下であれば（ステップＳ１０７−Ｎｏ）、最長共通部抽出部１２は、ステップＳ１０２以降の処理を繰り返す。一方、番号Lが用例の総数Smaxより大きければ（ステップＳ１０７−Ｙｅｓ）、最長共通部抽出部１２は、着目する用例の番号Kを1インクリメントするとともに、番号Lを(K+1)に設定する（ステップＳ１０８）。

その後、最長共通部抽出部１２は、番号Kが、抽出された用例の総数Smax以上か否か判定する（ステップＳ１０９）。番号Kが用例の総数Smax未満であれば（ステップＳ１０９−Ｎｏ）、最長共通部抽出部１２は、ステップＳ１０２以降の処理を繰り返す。一方、番号Kが用例の総数Smax以上であれば（ステップＳ１０９−Ｙｅｓ）、最長共通部抽出部１２は、第１言語及び第２言語のそれぞれについて、現時点の最長共通部分の候補を、最長共通部分とする（ステップＳ１１０）。そして最長共通部抽出部１２は、最長共通部抽出処理を終了する。

なお、最長共通部抽出部１２は、入力文に含まれる文字列のうちで、第１言語の最長共通部分に含まれない文字列がある場合には、第１言語表記がその文字列を含む用例について上記の最長共通部抽出処理を実行する。そして最長共通部抽出部１２は、最終的に、入力文に含まれる全ての文字列について、その文字列を含む第１言語表記の最長共通部分と対応する第２言語表記の最長共通部分を求める。

逆方向検索部１３は、第２言語の最長共通部分のそれぞれを用語訳として、その用語訳を第２言語表記中に含む用例を翻訳用例コーパスから抽出する。

図７に示されたテーブル７００は、図２に示された翻訳用例コーパス２００に登録されている用例のうち、図５に示された第２言語の最長共通部分である用語訳「監視器」を含む用例の一覧と、用語訳「網路」を含む用例の一覧を示す。テーブル７００において左側の列の各欄には、用語訳を含む用例の第２言語表記が記され、右側の列の各欄には、左隣に隣接する第２言語表記に対応する用例の第１言語が記される。またテーブル７００において、上２行が用語訳「監視器」に対応し、下３行が用語訳「網路」に対応する。

逆方向検索部１３は、用語訳を含む用例の第１言語表記及び対応する第２言語表記を、その用語訳とともに記憶部３に記憶する。

対訳生成部１４は、用語訳ごとに、第２言語表記がその用語訳を含む用例の第１言語表記のうちの最長の共通部分を、その用語訳に対応する第１言語表記の用語とする。そして対訳生成部１４は、第１言語表記の用語と、対応する第２言語表記の用語訳とを対訳とする。

例えば、再度図７を参照すると、用語訳「監視器」を第２言語表記中に含む二つの用例の第１言語表記の最長共通部分は「モニター」である。そこで、対訳生成部１４は、用語「モニター」と用語訳「監視器」とを対訳とする。一方、用語訳「網路」を第２言語表記中に含む三つの用例の第１言語表記の最長共通部分は「ネットワーク」である。そこで、対訳生成部１４は、用語「ネットワーク」と用語訳「網路」とを対訳とする。
対訳生成部１４は、対訳となる用語と用語訳の組み合わせを記憶部３に記憶する。

置換部１５は、記憶部３に記憶された対訳を参照することにより、入力文を用語単位に分割し、用語ごとに、その用語に対応する第２言語の用語訳に置換する。さらに置換部１５は、用語訳の並びを様々に変化させて複数の用語訳の配列を作成する。そして置換部１５は、用語訳の配列ごとに、例えば、第２言語についての言語モデルに基づいて、その配列の確からしさを表す評価値を算出する。置換部１５は、言語モデルとして、例えば、Ｎグラムモデル、隠れマルコフモデルまたは最大エントロピーモデルを用いることができる。
置換部１５は、用語訳の配列のうち、最も確からしい評価値を持つ用語訳の配列を、入力文に対する第２言語の訳文とする。そして置換部１５は、得られた訳文のテキストデータを出力部５を介して出力する。

例えば、上記の例では、入力文「ネットワークモニター」のうちの用語「ネットワーク」が用語訳「網路」で置換され、用語「モニター」が用語訳「監視器」で置換される。そして、その用語訳の配列「網路監視器」と「監視器網路」それぞれの評価値を比較すると、「網路監視器」の評価値の方が確からしい値となる。したがって、置換部１５は、入力文「ネットワークモニター」の訳文として、「網路監視器」を出力する。

図８は、翻訳装置１の処理部４により実行される、翻訳処理の動作フローチャートである。処理部４は、入力部２を介して翻訳対象の文が入力される度に、以下の動作フローチャートに従って翻訳処理を実行する。

処理部４の順方向検索部１１は、翻訳用例コーパスに登録された、複数の用例の中から、入力文中に含まれる文字列と第１言語表記の少なくとも一部の文字列が一致する用例を抽出する（ステップＳ２０１）。処理部４の最長共通部抽出部１２は、入力文に含まれる文字列ごとに、抽出された２以上の用例間での第１言語表記のその文字列を含む最長共通部分を求める。そして最長共通部抽出部１２は、第１言語表記にその最長共通部分を持つ用例の第２言語表記間の最長共通部分を抽出する（ステップＳ２０２）。

最長共通部分が抽出されると、処理部４の逆方向検索部１３は、第２言語表記の最長共通部分のそれぞれを用語訳として、用語訳ごとに、その用語訳を第２言語表記中に含む用例を翻訳用例コーパスから抽出する（ステップＳ２０３）。処理部４の対訳生成部１４は、用語訳ごとに、第２言語表記がその用語訳を含む用例の第１言語表記のうちの最長共通部分を、その用語訳に対応する第１言語の用語とする（ステップＳ２０４）。そして対訳生成部１４は、第１言語の用語と、対応する第２言語の用語訳との組を対訳とする（ステップＳ２０５）。

処理部４の置換部１５は、対訳を参照することにより、入力された文を用語単位に分割し、用語ごとに、その用語に対応する第２言語の用語訳に置換する（ステップＳ２０６）。さらに置換部１５は、その置換により得られた用語訳の集合に含まれる用語訳を一列に並べた用語訳の配列ごとに評価値を算出し、最も確からしい評価値を持つ用語訳の配列を、入力文の第２言語の訳文とする（ステップＳ２０７）。
そして処理部４は翻訳処理を終了する。

以上に説明してきたように、この翻訳装置は、翻訳対象の入力文の構造を解析せずに、翻訳用例コーパスのみを用いてその入力文を第１の言語から第２の言語に翻訳できる。そのため、この翻訳装置は、入力文が文の構造を解析するために必要な情報または技術がない言語で記載されていても、その入力文を他の言語に翻訳できる。

次に、第２の実施形態による翻訳装置について説明する。第２の実施形態による翻訳装置は、用例の三つ以上の言語による表記が登録された翻訳用例コーパスを使用する。そしてこの翻訳装置は、入力された文が表記された第１言語と翻訳対象の第２言語間のその入力文に含まれる用語の対訳を生成する際に、翻訳用例コーパスに登録された第３言語の表記も参照する。
第２の実施形態による翻訳装置は、第１の実施形態による翻訳装置と比較して、利用される翻訳用例コーパスと、処理部により実行される処理の一部が異なる。そこで以下では、翻訳用例コーパス及び処理部について説明する。

なお、以下では、第１言語を日本語、第２言語を中国語、第３言語を英語とする。しかし、第１言語〜第３言語は、それぞれ、どの言語であってもよい。

図９は、第２の実施形態による翻訳装置で使用される翻訳用例コーパスの他の一例を示す図である。翻訳用例コーパス９００には、用例ごとに、日本語表記と、中国語表記と、英語表記とが登録されている。なお、翻訳用例コーパスには、用例ごとに、４種類以上の言語の表記が登録されていてもよい。

第２の実施形態による翻訳装置の処理部は、第１の実施形態による翻訳装置の処理部と比較して、対訳生成部１４の処理が異なる。そこで以下では、対訳生成部１４及びその関連部分について説明する。

対訳生成部１４は、第２言語表記が用語訳を含む用例についての第１言語表記のうちの最長共通部分が、その用語訳に対応する第１言語の用語として適切でないことを示す不適切条件を満たすか否か判定する。例えば、その最長共通部分が、翻訳対象の入力文に含まれていない場合、対訳生成部１４は、その最長共通部分は、不適切条件を満たすと判定する。また、最長共通部分が記号のみを含む場合、あるいは、最長共通部分が１文字しか含まない場合も、対訳生成部１４は、その最長共通部分は不適切条件を満たすと判定してもよい。

例えば、翻訳対象の文として「ネットワークモニター」が入力され、対訳を生成するために、図９に示した翻訳用例コーパス９００が用いられるとする。この場合、順方向検索により、第１の実施形態と同様に、第１言語表記の最長共通部分「ネットワークモ」に対応する第２言語表記の最長共通部分「網路」が得られる。そこで、逆方向検索部１３は、翻訳用例コーパス９００に含まれる用例のうち、第２言語表記に「網路」を含む用例を抽出する。

図１０に示されたテーブル１０００は、この例において抽出された、用語訳「網路」を含む用例の一覧を示す。この例では、「網路」を含む用例の第１言語表記の最長共通部分は記号「ー」となる。そのため、第１言語表記の最長共通部分「ー」は不適切条件を満たし、対訳生成部１４は、その最長共通部分「ー」を、用語訳「網路」に対応する用語として不適切と判定する。

第１言語表記の最長共通部分が不適切条件を満たす場合、対訳生成部１４は、第２言語表記中に用語訳を持つ翻訳用例コーパスに登録された用例のうちで少なくとも二つの用例の第３言語表記の最長共通部分を検索用のキーワードとして抽出する。対訳生成部１４は、第３言語表記中にそのキーワードを含む用例を選択する。対訳生成部１４は、選択した用例の第１言語表記の最長共通部分を求める。そして対訳生成部１４は、その最長共通部分を、第２言語の用語訳に対応する第１言語の用語とする。

例えば、図１０に示されたテーブル１０００を参照すると、第２言語表記が用語訳「網路」を含む用例のうちで、２以上の用例間での第３言語の最長共通部分は「network」となる。第３言語表記にキーワード「network」が含まれる用例には、「オンラインゲーム」が含まれなくなるので、その用例に対する第１言語の最長共通部分は「ネットワーク」となる。したがって、対訳生成部１４は、第２言語の用語訳「網路」に対する第１言語の用語を「ネットワーク」とする。

図１１は、第２の実施形態による翻訳装置の対訳生成部１４による対訳生成処理の動作フローチャートである。
対訳生成部１４は、翻訳用例コーパスに登録された用例のうち、第２言語表記が用語訳を含む用例の第１言語表記のうちの最長共通部分を、その用語訳に対応する第１言語の用語の候補とする（ステップＳ３０１）。対訳生成部１４は、その用語の候補が不適切条件を満たすか否か判定する（ステップＳ３０２）。

用語の候補が不適切条件を満たさない場合（ステップＳ３０２−Ｎｏ）、対訳生成部１４は、その用語の候補を第２言語の用語訳に対応する第１言語の用語として対訳を生成する（ステップＳ３０３）。

一方、用語の候補が不適切条件を満たす場合（ステップＳ３０２−Ｙｅｓ）、対訳生成部１４は、第２言語表記中に用語訳を持つ翻訳用例コーパスに登録された用例のうちで少なくとも二つの用例の第３言語表記の最長共通部分を抽出する（ステップＳ３０４）。そして対訳生成部１４は、その最長共通部分をキーワードとする。対訳生成部１４は、第３言語表記中にそのキーワードを含む用例を選択する（ステップＳ３０５）。対訳生成部１４は、選択した用例の第１言語表記の最長共通部分を求める（ステップＳ３０６）。そして対訳生成部１４は、その最長共通部分を、第２言語の用語訳に対応する第１言語の用語として対訳を生成する（ステップＳ３０７）。
ステップＳ３０３またはＳ３０７の後、対訳生成部１４は、対訳生成処理を終了する。

なお、対訳生成部１４は、第３言語を利用して求められた第１言語の最長共通部分についても、不適切条件を満たすか否か判定してもよい。この場合には、対訳生成部１４は、第１言語及び第２言語と異なり、かつ、翻訳用例コーパスに登録された他の言語のキーワードを用いて得られた用例の第１言語表記の最長共通部分が不適切条件を満たさなくなるまで、上記の処理を繰り返してもよい。

この実施形態によれば、翻訳装置は、翻訳用例コーパスに登録された用例の３種類以上の言語表記のそれぞれについて共通な部分を探すことで第１言語と第２言語間の対訳を生成するので、その対訳の精度を向上できる。

なお、変形例によれば、第１の実施形態による翻訳装置も、第２の実施形態による翻訳装置が利用するような、三つ以上の言語表記が登録された翻訳用例コーパスを使用してもよい。
また他の変形例によれば、各実施形態による翻訳装置は、対訳が求められる度にその対訳に含まれる第１言語の用語を入力文から除いた残りの文字列についてステップＳ２０２〜Ｓ２０６の処理を行って、入力文に含まれる全ての用語について対訳を求めてもよい。

さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１翻訳装置
２入力部
３記憶部
４処理部
５出力部
１１順方向検索部
１２最長共通部抽出部
１３逆方向検索部
１４対訳生成部
１５置換部

Claims

第１の言語で表記された文のテキストデータを取得する入力部と、
複数の用例のそれぞれについて、少なくとも前記第１の言語の表記と第２の言語の表記とが登録された翻訳用例コーパスを記憶する記憶部と、
前記複数の用例の前記第１の言語の表記のうち、前記文に含まれる所定数の文字単位または単語単位の何れかの文字列を含む用例を検索対象用例として抽出する順方向検索部と、
前記検索対象用例に含まれる前記文字列のそれぞれごとに、前記検索対象用例のうちの少なくとも二つの前記第１の言語の表記間で最も長く、かつ前記文字列を含む第１の共通部分を求め、当該第１の共通部分を含む、前記検索対象用例の前記第２の言語の表記間の最も長い第２の共通部分を前記第２の言語の用語訳として抽出する最長共通部抽出部と、
前記用語訳ごとに、前記複数の用例のうち、前記第２の言語の表記に当該用語訳を含む用例を逆引き用例として抽出する逆方向検索部と、
前記用語訳ごとに、前記逆引き用例に対応する前記第１の言語の表記間で最も長い共通部分を当該用語訳に対応する前記第１の言語の用語とし、当該用語と当該用語訳の組を対訳とする対訳生成部と、
前記対訳を参照することにより、前記文に含まれる前記対訳が求められた第１の言語の用語のそれぞれを、当該用語に対応する前記用語訳に置換することで前記文の前記第２の言語による訳文を生成する置換部と、
を有する翻訳装置。
前記翻訳用例コーパスには、前記複数の用例のそれぞれについての第３の言語の表記がさらに登録されており、
前記対訳生成部は、前記用語訳ごとに、当該用語訳の前記逆引き用例の前記第１の言語の表記間の最も長い共通部分を当該用語訳に対応する前記第１言語の用語の候補とし、当該用語の候補が所定の不適切条件を満たす場合、前記逆引き用例のうちの少なくとも二つの前記第３の言語の表記間の最も長い共通部分をキーワードとし、前記複数の用例のうち、前記第３の言語の表記が前記キーワードを含む用例の前記第１の言語の表記間で最も長い共通部分を前記用語とする、請求項１に記載の翻訳装置。
前記置換部は、前記用語訳の配列ごとに当該配列の確からしさを表す評価値を前記第２の言語についての言語モデルに基づいて算出し、最も確からしい評価値に対応する前記用語訳の配列を前記訳文とする、請求項１または２に記載の翻訳装置。
第１の言語で表記された文のテキストデータを取得し、
処理部が、記憶部に記憶された、複数の用例のそれぞれについて、少なくとも前記第１の言語の表記と第２の言語の表記とが登録された翻訳用例コーパスに登録された前記複数の用例の前記第１の言語の表記のうち、前記文に含まれる所定数の文字単位または単語単位の何れかの文字列を含む用例を検索対象用例として抽出し、
前記処理部が、前記検索対象用例に含まれる前記文字列のそれぞれごとに、前記検索対象用例のうちの少なくとも二つの前記第１の言語の表記間で最も長く、かつ前記文字列を含む第１の共通部分を求め、当該第１の共通部分を含む、前記検索対象用例の前記第２の言語の表記間の最も長い第２の共通部分を前記第２の言語の用語訳として抽出し、
前記処理部が、前記用語訳ごとに、前記複数の用例のうち、前記第２の言語の表記に当該用語訳を含む用例を逆引き用例として抽出し、
前記処理部が、前記用語訳ごとに、前記逆引き用例に対応する前記第１の言語の表記間で最も長い共通部分を当該用語訳に対応する前記第１の言語の用語とし、当該用語と当該用語訳の組を対訳とし、
前記処理部が、前記対訳を参照することにより、前記文に含まれる前記対訳が求められた第１の言語の用語のそれぞれを、当該用語に対応する前記用語訳に置換することで前記文の前記第２の言語による訳文を生成する、
ことを含む翻訳方法。