JP2009064051A

JP2009064051A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2009064051A
Application number: JP2007228588A
Authority: JP
Inventors: Yoshiyuki Yasuda; 圭志安田; Zuikyo Cho; 瑞強張; Hiroshi Yamamoto; 博史山本; Eiichiro Sumida; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-09-04
Filing date: 2007-09-04
Publication date: 2009-03-26

Abstract

【課題】翻訳性能を劣化させることなく学習コーパスを小規模化することができる情報処理装置を提供する。
【解決手段】所望のタスクに一致したドメインの、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成されたインドメイン言語モデルが記憶される言語モデル記憶部１３と、所望のタスクと異なるドメインの対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部１４と、インドメイン言語モデルを用いて、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する類似情報をそれぞれ算出する類似情報算出部１５と、類似情報を用いて、インドメイン対訳コーパスと類似性の高い複数の対訳文をアウトオブドメイン対訳コーパスから選択する選択部１６とを備える。
【選択図】図１

Description

本発明は、アウトオブドメインの対訳コーパスから、所望のタスクのための複数の対訳文を選択する情報処理装置等に関する。

コーパスベース音声翻訳システムの構築において、高性能のシステムを構築するためには、対象とするタスクやドメインに一致した大規模なコーパスが必要となる。特に、機械翻訳において統計翻訳の枠組みを用いる場合には、所望のタスクに一致したドメインの対訳コーパス（インドメインコーパス）が必要となる。しかしながら、音声翻訳で扱われる、話し言葉を対象とした対訳コーパスは整備・収集のためのコストが高く、大規模化が困難であるという状況がある。このような状況においては、翻訳システムの性能向上のために、比較的収集が容易である新聞記事などの所望のタスクと異なるドメインのコーパス（アウトオブドメインコーパス）を代用する方法が有効である。一方、統計翻訳においてアウトオブドメインコーパスを用いる場合には、インドメインコーパスを用いる場合と比較し、コーパス量あたりの訳質改善が小さいため、一定の性能を実現するためには、非常に大規模な対訳コーパスが必要となる。そしてそれに伴い、モデル学習にかかる計算量が増大し、得られるモデルも肥大するという問題が生じる。

なお、関連する技術として、大規模な言語コーパスの中から、所望のタスクと異なるデータや、雑音的なデータを除去することにより、得られるモデルの性能を担保しつつ、モデルの生成で用いられるコーパスの量を減らすことができる技術が知られている（例えば、非特許文献１、非特許文献２参照）。
安田圭志、山本博史、隅田英一郎、「クラスタリングを用いた言語モデル学習データの選択手法」、言語処理学会第１３回年次大会（ＮＬＰ２００７）論文集、ＰＢ１−５，ｐ．２０２−２０５、２００７年３月 Yajuan Lu, Jin Huang and Qun Liu、「Improving Statistical Machine Translation Performance by Training Data Selection and Optimization」、Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 343-350, Prague, June 2007

翻訳モデルの性能を担保しながら、翻訳モデルの生成で用いられるコーパスの量を減らす際に、より性能のよい翻訳モデルを、より小規模な学習コーパスから生成することが求められている。

本発明は、上記事情を考慮してなされたものであり、翻訳性能を劣化させることなく学習コーパスを小規模化することができる情報処理装置等を提供することを目的とする。

上記目的を達成するため、本発明による情報処理装置は、所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部と、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部と、前記インドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部と、を備えたものである。

このような構成により、翻訳性能を劣化させることなく、翻訳モデルの生成で用いるコーパスを小規模化することができる。すなわち、翻訳モデルの生成で用いるコーパスとして、インドメイン対訳コーパスと、そのインドメイン対訳コーパスと類似性の高い対訳文の集合とを得ることができる。その結果、翻訳モデルを生成する処理負荷を軽減することができ、翻訳モデル自体も小規模化することができる。翻訳モデルが小規模化することによって、その翻訳モデルを用いた機械翻訳の処理負荷も軽減することができる。

また、本発明による情報処理装置では、前記類似情報算出部は、前記インドメイン言語モデルを用いて、前記アウトオブドメイン対訳コーパスに含まれる文のエントロピーを求めることによって類似情報を算出してもよい。

このような構成により、エントロピーや、それと同等のものであるパープレキシティーを用いて、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスに含まれる各対訳文との類似情報を適切に算出することができうる。

また、本発明による情報処理装置では、前記インドメイン言語モデルは、原言語の言語モデルと目的言語の言語モデルとの少なくとも一方を含むものであり、前記類似情報算出部は、前記アウトオブドメイン対訳コーパスに含まれる文のうち、前記インドメイン言語モデルに含まれる言語モデルと同じ言語の文と、前記インドメイン言語モデルとを用いて前記類似情報を算出してもよい。

このような構成により、原言語の言語モデルと、アウトオブドメイン対訳コーパスの原言語の文とを用いて類似情報を算出したり、目的言語の言語モデルと、アウトオブドメイン対訳コーパスの目的言語の文とを用いて類似情報を算出したり、原言語及び目的言語の言語モデルと、アウトオブドメイン対訳コーパスの原言語及び目的言語の文とを用いて類似情報を算出したりすることができうる。

また、本発明による情報処理装置では、前記インドメイン対訳コーパスが記憶されるインドメイン対訳コーパス記憶部と、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、前記言語モデル記憶部に蓄積する言語モデル生成部と、をさらに備えてもよい。
このような構成により、情報処理装置において、インドメイン対訳コーパスからインドメイン言語モデルを生成することができる。

また、本発明による情報処理装置では、前記インドメイン対訳コーパスから生成された翻訳モデルであるインドメイン翻訳モデルが記憶されるインドメイン翻訳モデル記憶部と、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、前記インドメイン翻訳モデル記憶部に蓄積するインドメイン翻訳モデル生成部と、前記アウトオブドメイン対訳コーパスの少なくとも一部の対訳文から生成された翻訳モデルであるアウトオブドメイン翻訳モデルが記憶されるアウトオブドメイン翻訳モデル記憶部と、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、前記アウトオブドメイン翻訳モデル記憶部に蓄積するアウトオブドメイン翻訳モデル生成部と、前記インドメイン翻訳モデルと前記アウトオブドメイン翻訳モデルとが線形補間された翻訳モデルである線形補間翻訳モデルが記憶される線形補間翻訳モデル記憶部と、前記インドメイン翻訳モデル記憶部で記憶されているインドメイン翻訳モデルと、前記アウトオブドメイン翻訳モデル記憶部で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、前記線形補間翻訳モデル記憶部に蓄積する線形補間部と、をさらに備えてもよい。

このような構成により、情報処理装置において、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とを用いた翻訳モデルである線形補間翻訳モデルの生成を行うことができる。小規模であるが、適切に選択された学習コーパスを用いて翻訳モデルを生成するため、小規模であり、かつ、性能のよい線形補間翻訳モデルを生成することができうる。また、インドメイン対訳コーパスから生成されたインドメイン翻訳モデルと、アウトオブドメイン対訳コーパスから選択された複数の対訳文から生成されたアウトオブドメイン対訳コーパスとを適切な重み付けで線形補間して線形補間翻訳モデルを生成することにより、より性能のよい翻訳モデルを得ることが可能となりうる。

また、本発明による情報処理装置では、前記線形補間翻訳モデル記憶部で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えてもよい。
このような構成により、機械翻訳部によって、線形補間翻訳モデルを用いた機械翻訳を行うことができる。

また、本発明による情報処理装置では、翻訳モデルが記憶される翻訳モデル記憶部と、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、前記翻訳モデル記憶部に蓄積する翻訳モデル生成部と、をさらに備えてもよい。

このような構成により、情報処理装置において、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とを用いた翻訳モデルの生成を行うことができる。小規模であるが、適切に選択された学習コーパスを用いて翻訳モデルを生成するため、小規模であり、かつ、性能のよい翻訳モデルを生成することができうる。

また、本発明による情報処理装置では、前記翻訳モデル記憶部で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えてもよい。
このような構成により、機械翻訳部によって、翻訳モデルを用いた機械翻訳を行うことができる。

本発明による情報処理装置等によれば、翻訳モデルの学習に用いる対訳文を取捨選択することによって、翻訳性能を劣化させることなく学習コーパスを小規模化することができる情報処理装置等を提供することを目的とする。

以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による情報処理装置について、図面を参照しながら説明する。本実地の形態による情報処理装置は、アウトオブドメインの対訳コーパスから、翻訳モデルの学習で用いる、インドメインの対訳コーパスと類似性の高い対訳文を選択するものである。

図１は、本実施の形態による情報処理装置１の構成を示すブロック図である。本実施の形態による情報処理装置１は、インドメイン対訳コーパス記憶部１１と、言語モデル生成部１２と、言語モデル記憶部１３と、アウトオブドメイン対訳コーパス記憶部１４と、類似情報算出部１５と、選択部１６と、インドメイン翻訳モデル生成部１７と、インドメイン翻訳モデル記憶部１８と、アウトオブドメイン翻訳モデル生成部１９と、アウトオブドメイン翻訳モデル記憶部２０と、線形補間部２１と、線形補間翻訳モデル記憶部２２と、機械翻訳部２３とを備える。

インドメイン対訳コーパス記憶部１１では、インドメイン対訳コーパスが記憶される。インドメイン対訳コーパスとは、所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスである。所望のタスクとは、例えば、旅行会話の統計翻訳や、ビジネス会話の統計翻訳、テレビやラジオ等のニュースの統計翻訳、新聞の記事の統計翻訳等である。したがって、例えば、所望のタスクが旅行会話の統計翻訳である場合には、その旅行会話に関する対訳コーパスがインドメイン対訳コーパスとなる。なお、背景技術においては、インドメイン対訳コーパスが、音声翻訳のドメインのコーパスである場合について説明したが、インドメイン対訳コーパスは、音声翻訳のドメインのコーパスであってもよく、あるいは、そうでなくてもよい。

インドメイン対訳コーパス記憶部１１にインドメイン対訳コーパスが記憶される過程は問わない。例えば、記録媒体を介してインドメイン対訳コーパスがインドメイン対訳コーパス記憶部１１で記憶されるようになってもよく、通信回線等を介して送信されたインドメイン対訳コーパスがインドメイン対訳コーパス記憶部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたインドメイン対訳コーパスがインドメイン対訳コーパス記憶部１１で記憶されるようになってもよい。インドメイン対訳コーパス記憶部１１での記憶は、外部のストレージデバイス等から読み出したインドメイン対訳コーパスのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。インドメイン対訳コーパス記憶部１１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

言語モデル生成部１２は、インドメイン対訳コーパス記憶部１１で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、言語モデル記憶部１３に蓄積する。言語モデルとは、確率的言語モデルであり、例えば、Ｎグラムモデルであってもよく、その他のモデルであってもよい。なお、Ｎグラムモデルとは、文中のある単語の発生が直前の（Ｎ−１）単語にのみ依存すると考えるモデルであり、単語の生成確率をマルコフモデルで近似したモデルである。

インドメイン言語モデルは、原言語の言語モデルと目的言語の言語モデルとの少なくとも一方を含むものである。すなわち、インドメイン言語モデルは、インドメイン対訳コーパスに含まれる原言語のコーパスのみを用いて生成されたものであってもよく、インドメイン対訳コーパスに含まれる目的言語のコーパスのみを用いて生成されたものであってもよく、あるいは、インドメイン対訳コーパスに含まれる原言語と目的言語との両方のコーパス（すなわち、インドメイン対訳コーパスの全体）を用いて生成されたものであってもよい。なお、言語モデルを生成する方法としては、公知の方法を用いることができ、その詳細な説明を省略する。

言語モデル記憶部１３では、インドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される。言語モデル記憶部１３での記憶は、インドメイン言語モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。言語モデル記憶部１３は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

アウトオブドメイン対訳コーパス記憶部１４では、アウトオブドメイン対訳コーパスが記憶される。アウトオブドメイン対訳コーパスとは、所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスである。例えば、所望のタスクが旅行会話の統計翻訳である場合には、新聞記事の対訳コーパス等がアウトオブドメイン対訳コーパスとなりうる。一般に、アウトオブドメイン対訳コーパスは、インドメイン対訳コーパスに比べて大規模なコーパスである。

アウトオブドメイン対訳コーパス記憶部１４にアウトオブドメイン対訳コーパスが記憶される過程は問わない。例えば、記録媒体を介してアウトオブドメイン対訳コーパスがアウトオブドメイン対訳コーパス記憶部１４で記憶されるようになってもよく、通信回線等を介して送信されたアウトオブドメイン対訳コーパスがアウトオブドメイン対訳コーパス記憶部１４で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたアウトオブドメイン対訳コーパスがアウトオブドメイン対訳コーパス記憶部１４で記憶されるようになってもよい。アウトオブドメイン対訳コーパス記憶部１４での記憶は、外部のストレージデバイス等から読み出したアウトオブドメイン対訳コーパスのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。アウトオブドメイン対訳コーパス記憶部１４は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

類似情報算出部１５は、言語モデル記憶部１３で記憶されているインドメイン言語モデルを用いて、そのインドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、アウトオブドメイン対訳コーパス記憶部１４で記憶されているアウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する。すなわち、類似情報算出部１５によって、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する値がそれぞれ算出されることになる。

類似情報は、両コーパスの類似性を知ることができる情報であれば、その内容を問わない。例えば、類似情報の示す値の大きい方が類似性の高くてもよく、あるいは、その逆であってもよい。類似情報は、例えば、エントロピーであってもよく、パープレキシティーであってもよく、その他の情報であってもよい。エントロピーやパープレキシティー等、及びそれらの算出方法はすでに公知であるため、詳細な説明を省略する。なお、類似情報がエントロピーやパープレキシティーである場合に、類似情報の示す値の小さい方が、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスの対訳文との類似性が高いことになる。

類似情報がエントロピーやパープレキシティーである場合には、類似情報算出部１５は、インドメイン言語モデルを用いて、アウトオブドメイン対訳コーパスに含まれる文のエントロピーを求めることによって類似情報を算出してもよい。エントロピーをＨとした場合に、パープレキシティーは、２＾Ｈとなる。このように、エントロピーとパープレキシティーは、実質的に同等のものである。本実施の形態では、類似情報算出部１５は、類似情報としてパープレキシティーを算出する場合について説明する。なお、言語モデルＭにおける単語列ｗ_１ ^Ｎ＝ｗ_１ｗ_２…ｗ_Ｎの生成確率をＰ_Ｍ（ｗ_１ ^Ｎ）とすると、エントロピーＨと、パープレキシティーＰＰとは、次式のようになる。

類似情報算出部１５は、アウトオブドメイン対訳コーパスに含まれる文のうち、インドメイン言語モデルに含まれる言語モデルと同じ言語の文と、インドメイン言語モデルとを用いて類似情報を算出する。例えば、インドメイン言語モデルが原言語の言語モデルである場合には、類似情報算出部１５は、その原言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる原言語の文との類似性に関する類似情報を算出してもよい。また、例えば、インドメイン言語モデルが目的言語の言語モデルである場合には、類似情報算出部１５は、その目的言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる目的言語の文との類似性に関する類似情報を算出してもよい。また、例えば、インドメイン言語モデルが、原言語の言語モデルと目的言語の言語モデルとを含む場合には、類似情報算出部１５は、その原言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる原言語の文との類似性に関する類似情報を算出すると共に、その目的言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる目的言語の文との類似性に関する類似情報を算出してもよい。

ここで、エントロピー、パープレキシティーの算出方法について簡単に説明する。アウトオブドメイン対訳コーパスに含まれる目的言語の文をＳ_ｅとし、その文Ｓ_ｅに含まれる単語数をｎｅとし、インドメイン言語モデルのうち、目的言語の言語モデルにおける単語列Ｓ_ｅの生成確率をＰ_ｅ（Ｓ_ｅ）とすると、目的言語側のパープレキシティーＰＰ_ｅは次式のようになる。目的言語側のパープレキシティーのみを用いて類似情報を算出する場合には、この目的言語側のパープレキシティーＰＰ_ｅが類似情報となりうる。
目的言語側のパープレキシティー：ＰＰ_ｅ＝Ｐ_ｅ（Ｓ_ｅ）^{−１／ｎｅ}

また、アウトオブドメイン対訳コーパスに含まれる原言語の文をＳ_ｆとし、その文Ｓ_ｆに含まれる単語数をｎ_ｆとし、インドメイン言語モデルのうち、原言語の言語モデルにおける単語列Ｓ_ｆの生成確率をＰ_ｆ（Ｓ_ｆ）とすると、原言語側のパープレキシティーＰＰ_ｆは次式のようになる。原言語側のパープレキシティーのみを用いて類似情報を算出する場合には、この原言語側のパープレキシティーＰＰ_ｆが類似情報となりうる。
原言語側のパープレキシティー：ＰＰ_ｆ＝Ｐ_ｆ（Ｓ_ｆ）^{−１／ｎｆ}

なお、目的言語側のパープレキシティーと、原言語側のパープレキシティーとの両方を用いて類似情報を算出する場合には、次式によって平均パープレキシティーＰＰ_ｅ＋ｆを算出し、その平均パープレキシティーＰＰ_ｅ＋ｆが類似情報となってもよい。
平均パープレキシティー：ＰＰ_ｅ＋ｆ＝（ＰＰ_ｅ×ＰＰ_ｆ）^１／２
また、エントロピーＨ＝ｌｏｇ_２（ＰＰ）となる。ただし、ＰＰは、用いる言語モデルに応じて、ＰＰ_ｅ、ＰＰ_ｆ、ＰＰ_ｅ＋ｆとなりうる。

選択部１６は、類似情報算出部１５によって算出された類似情報を用いて、インドメイン対訳コーパスと類似性の高い複数の対訳文をアウトオブドメイン対訳コーパスから選択する。この選択では、例えば、インドメイン対訳コーパスと類似性の高いものから順に、あらかじめ決められている個数の対訳文を選択してもよく（例えば、１万個の対訳文を選択すると決められているような場合）、あらかじめ決められている割合の対訳文を選択してもよく（例えば、アウトオブドメイン対訳コーパスの５割の対訳文を選択すると決められているような場合）、あるいは、あらかじめ決められている類似性の値（しきい値）よりも高い類似性を有する対訳文を選択してもよい。選択部１６が対訳文を選択するとは、例えば、選択した対訳文を識別する情報を所定の記録媒体等に蓄積することであってもよく、あるいは、その選択した対訳文に対応付けてフラグ等を設定することであってもよい。

インドメイン翻訳モデル生成部１７は、インドメイン対訳コーパス記憶部１１で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、インドメイン翻訳モデル記憶部１８に蓄積する。翻訳モデルとは、例えば、互いに対応する、原言語の単語やフレーズと目的言語の単語やフレーズとの組と、その組に対応する確率とを対応付けて有する情報である。翻訳モデルはすでに公知であり、その詳細な説明を省略する。また、翻訳モデルの生成方法としては、公知の方法を用いることができ、その詳細な説明を省略する。

インドメイン翻訳モデル記憶部１８では、インドメイン対訳コーパスから生成された翻訳モデルであるインドメイン翻訳モデルが記憶される。インドメイン翻訳モデル記憶部１８での記憶は、インドメイン翻訳モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。インドメイン翻訳モデル記憶部１８は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

アウトオブドメイン翻訳モデル生成部１９は、アウトオブドメイン対訳コーパス記憶部１４で記憶されているアウトオブドメイン対訳コーパスから選択部１６が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、アウトオブドメイン翻訳モデル記憶部２０に蓄積する。

アウトオブドメイン翻訳モデル記憶部２０では、アウトオブドメイン対訳コーパスの少なくとも一部の対訳文から生成された翻訳モデルであるアウトオブドメイン翻訳モデルが記憶される。アウトオブドメイン翻訳モデル記憶部２０での記憶は、アウトオブドメイン翻訳モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。アウトオブドメイン翻訳モデル記憶部２０は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

線形補間部２１は、インドメイン翻訳モデル記憶部１８で記憶されているインドメイン翻訳モデルと、アウトオブドメイン翻訳モデル記憶部２０で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、線形補間翻訳モデル記憶部２２に蓄積する。例えば、インドメイン翻訳モデルにおいて、原言語の単語Ａを目的言語の単語Ｂに翻訳する確率がＰ１であり、アウトオブドメイン翻訳モデルにおいて、原言語の単語Ａを目的言語の単語Ｂに翻訳する確率がＰ２であり、インドメイン翻訳モデルに対する線形補間の重みが（１−μ_ｏｕｔ）であり、アウトオブドメイン翻訳モデルに対する線形補間の重みがμ_ｏｕｔである場合には、線形補間後の原言語の単語Ａを目的言語の単語Ｂに翻訳する確率Ｐは、次式のようになる。
Ｐ＝（１−μ_ｏｕｔ）Ｐ１＋μ_ｏｕｔＰ２

なお、線形補間において用いられる重みを示す情報が、図示しない記録媒体において記憶されており、線形補間部２１は、その重みを示す情報を読み出して、線形補間の際に用いてもよい。

線形補間翻訳モデル記憶部２２では、インドメイン翻訳モデルとアウトオブドメイン翻訳モデルとが線形補間された翻訳モデルである線形補間翻訳モデルが記憶される。線形補間翻訳モデル記憶部２２での記憶は、線形補間翻訳モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。線形補間翻訳モデル記憶部２２は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

機械翻訳部２３は、線形補間翻訳モデル記憶部２２で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う。機械翻訳部２３は、原言語の文書データを受け付ける受付手段や、機械翻訳後の目的言語の文書データを出力する出力手段を備えていてもよい。機械翻訳部２３による機械翻訳の方法としては、公知のものを用いることができ、その詳細な説明を省略する。

なお、インドメイン対訳コーパス記憶部１１と、言語モデル記憶部１３と、アウトオブドメイン対訳コーパス記憶部１４と、インドメイン翻訳モデル記憶部１８と、アウトオブドメイン翻訳モデル記憶部２０と、線形補間翻訳モデル記憶部２２との任意の２以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、インドメイン対訳コーパスを記憶している領域がインドメイン対訳コーパス記憶部１１となり、インドメイン言語モデルを記憶している領域が言語モデル記憶部１３となる。

次に、本実施の形態による情報処理装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）言語モデル生成部１２は、インドメイン対訳コーパス記憶部１１で記憶されているインドメイン対訳コーパスを用いて、言語モデルを生成し、その生成した言語モデルを言語モデル記憶部１３に蓄積する。なお、この言語モデルの生成の際に、前述のように、言語モデル生成部１２は、インドメイン対訳コーパスの原言語の部分を用いて原言語の言語モデルを生成してもよく、インドメイン対訳コーパスの目的言語の部分を用いて目的言語の言語モデルを生成してもよく、インドメイン対訳コーパスの全体を用いて原言語の言語モデルと目的言語の言語モデルとを生成してもよい。

（ステップＳ１０２）類似情報算出部１５は、カウンタｉを１に設定する。
（ステップＳ１０３）類似情報算出部１５は、言語モデル記憶部１３で記憶されているインドメイン言語モデルを用いて、アウトオブドメイン対訳コーパス記憶部１４で記憶されているアウトオブドメイン対訳コーパスのｉ番目の対訳文に関する類似情報を算出する。この類似情報は、前述のように、原言語において算出されてもよく、目的言語において算出されてもよく、原言語と目的言語の両方において算出されてもよい。

（ステップＳ１０４）類似情報算出部１５は、算出した類似情報を一時的に所定の記録媒体に記憶する。この記憶の際に、類似情報算出部１５は、ｉ番目の対訳文を識別する情報に対応付けて記憶してもよく、ｉ番目の対訳文そのものに対応付けて記憶してもよい。

（ステップＳ１０５）類似情報算出部１５は、カウンタｉを１だけインクリメントする。
（ステップＳ１０６）類似情報算出部１５は、アウトオブドメイン対訳コーパスにｉ番目の対訳文が存在するかどうか判断する。そして、存在する場合には、ステップＳ１０３に戻り、そうでない場合には、ステップＳ１０７に進む。

（ステップＳ１０７）選択部１６は、ステップＳ１０４で一時記憶された類似情報を用いて、インドメイン対訳コーパスと類似性の高い複数の対訳文を選択する。

（ステップＳ１０８）インドメイン翻訳モデル生成部１７は、インドメイン対訳コーパス記憶部１１で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、その生成したインドメイン翻訳モデルをインドメイン翻訳モデル記憶部１８に蓄積する。

（ステップＳ１０９）アウトオブドメイン翻訳モデル生成部１９は、アウトオブドメイン対訳コーパス記憶部１４で記憶されているアウトオブドメイン対訳コーパスから選択部１６が選択した複数の対訳文を用いて、アウトオブドメイン翻訳モデルを生成し、その生成したアウトオブドメイン翻訳モデルをアウトオブドメイン翻訳モデル記憶部２０に蓄積する。

（ステップＳ１１０）線形補間部２１は、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとを線形補間し、その線形補間した線形補間翻訳モデルを線形補間翻訳モデル記憶部２２に蓄積する。

なお、図２のフローチャートには含まれていないが、機械翻訳部２３は、線形補間翻訳モデル記憶部２２で記憶されている線形補間翻訳モデルを用いて、機械翻訳を行うものとする。

また、図２のフローチャートにおいて、処理の順序にはある程度の任意性がある。例えば、ステップＳ１０８の処理は、ステップＳ１１０の処理よりも以前に実行されるのであれば、ステップＳ１０１よりも以前の段階からステップＳ１１０の直前の段階までのいずれの段階で実行されてもよい。

次に、本実施の形態による情報処理装置１の動作について、具体例を用いて説明する。この具体例において用いたインドメイン対訳コーパスと、アウトオブドメイン対訳コーパスとについては、図３で示されるとおりである。この具体例において、ＩＷＳＬＴ２００６（http://www.slc.atr.jp/IWSLT2006/）の評価キャンペーンの中英方向の評価トラックにおけるデータを用いた。インドメイン対訳コーパス記憶部１１では、ＩＷＳＬＴより提供された旅行会話基本表現集（ＡＴＲ−ＢＴＥＣ：Basic Travel Expressions Corpus）の一部が記憶されている。また、アウトオブドメイン対訳コーパス記憶部１４では、ＬＤＣコーパスが記憶されている。

また、この具体例では、後述するＢＬＥＵやＮＩＳＴのスコアを算出するために用いるテストセットとしては、５００文の中国語文と、正解訳であるリファレンスとして、中国語文１文につき，英語文８文が整備されたものを用いた。
また、この具体例では、インドメイン言語モデルとして、グッド・チューリング法（次の文献参照）を用いた３−ｇｒａｍの言語モデルを用いるものとする。

文献：I. J. Good、「The population frequencies of species and the estimation of population parameters」、Biometrika, pp.40(3), 237-264、1953

また、この具体例において、モデル学習前の前処理として、まずChampollion（次の文献１参照）を用いて文アライメントを行い、次にAchilles（次の文献２参照）を用いて中国語の形態素解析を行った。最後に、中英双方の文から句読点を除去し、英語は全て小文字に統一した。そのように前処理されたデータを用い、Pharaohツールキット（次の文献３参照）により翻訳モデルの学習を行った。

文献１：X Ma、「Champollion: A Robust Parallel Text Sentence Aligner」、In Proc. of international conference on Language Resources and Evaluation(LREC)、pp. 489-492、2006

文献２：R. Zhang, G. Kikui, and E. Sumita、「Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation」、Proc. of the North American Chapter of the Association for Computational Linguistics(NAACL), Short Paper:pp.193-196、2006

文献３：P. Koehn, F. J. Och, and D. Marcu、「Statistical Phrase-Based Translation」、Proc. of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL),pp.127-133、2003

まず、言語モデル生成部１２は、インドメイン対訳コーパス記憶部１１で記憶されているインドメイン対訳コーパスから、目的言語の部分を読み出し、目的言語のインドメイン言語モデルを生成して、言語モデル記憶部１３に蓄積する（ステップＳ１０１）。

次に、類似情報算出部１５は、言語モデル記憶部１３で記憶されているインドメイン言語モデルを用いて、アウトオブドメイン対訳コーパス記憶部１４で記憶されている１番目の対訳文に含まれる目的言語の文のパープレキシティーを算出する（ステップＳ１０２，Ｓ１０３）。そして、その算出したパープレキシティーをアウトオブドメイン対訳コーパス記憶部１４で記憶されている１番目の対訳文に対応付けて蓄積する（ステップＳ１０４）。類似情報算出部１５は、このような処理を、２番目以降の対訳文についても同様に行う（ステップＳ１０３〜Ｓ１０６）。

その後、選択部１６は、類似情報算出部１５によって算出されたパープレキシティーの小さい対訳文から順番に、所定の個数、例えば、１．２Ｍ個の対訳文を選択する（ステップＳ１０７）。この選択において、例えば、選択部１６は、全対訳文をパープレキシティーの昇順にソートし、パープレキシティーが最小の対訳文から所定の個数、例えば、１．２Ｍ個の対訳文を選択してもよい。

次に、インドメイン翻訳モデル生成部１７は、インドメイン対訳コーパスからインドメイン翻訳モデルを生成して、インドメイン翻訳モデル記憶部１８に蓄積する（ステップＳ１０８）。また、アウトオブドメイン翻訳モデル生成部１９は、アウトオブドメイン対訳コーパスから選択部１６によって選択された所定の個数の対訳文を用いて、アウトオブドメイン翻訳モデルを生成して、アウトオブドメイン翻訳モデル記憶部２０に蓄積する（ステップＳ１０９）。

その後、線形補間部２１は、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとを線形補間して、線形補間翻訳モデル記憶部２２に蓄積する（ステップＳ１１０）。この線形補間の際に用いる重みについては、後述する。
次に、機械翻訳部２３による機械翻訳について簡単に説明する。

機械翻訳部２３による機械翻訳として、統計翻訳を用いることができる。この具体例では、その統計翻訳の枠組みとして、ログリニアモデルを用いた。ログリニアモデルでは、原言語の単語列ｆと、目的言語文の単語列ｅとの関係を次式のように表す。

式（１）の分母を定数として近似することにより、翻訳結果は次式のようになる。

なお、ここでは、機械翻訳部２３がログリニアモデルを用いる場合について説明したが、機械翻訳部２３は、ログリニアモデル以外の方法を用いてもよいことは言うまでもない。
機械翻訳部２３による統計翻訳における素性関数として、この具体例では、次の８種類の関数を用いた。なお、括弧内の数字は各素性関数に対する重みである。

１．原言語から目的言語方向のフレーズ単位の翻訳確率値（０．２）
２．目的言語から原言語方向のフレーズ単位の翻訳確率値（０．２）
３．原言語から目的言語方向の単語の翻訳確率値（０．２）
４．目的言語から原言語方向の単語の翻訳確率値（０．２）
５．フレーズペナルティー（０．２）
６．単語ペナルティー（−１．０）
７．語順モデル（Ｄｉｓｔｏｒｔｉｏｎｗｅｉｇｈｔ）（０．５）
８．目的言語の言語モデル確率値（０．５）

通常の統計翻訳の学習においては、開発セットを用いてＭＥＲＴ（ＭｉｎｉｍｕｍＥｒｒｏｒＲａｔｅＴｒａｉｎｉｎｇ）を行うことにより各素性に対する最適な重みを決定する。しかしながら、ＭＥＲＴの処理において、乱数を用いていることから、ＭＥＲＴによる性能向上は安定しているとは言えない。したがって、この具体例では、ＭＥＲＴによる訳質向上の影響を除去し、翻訳モデルの優劣の訳質への影響のみを評価することを目的とし、各モデルに対してＭＥＲＴを適用せず、全ての実験において上記の同じ重みを用いた。

なお、線形補間部２１によるインドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとの統合の際には、前述の素性関数１〜４に対して次式を適用した。
ｈ（ｅ、ｆ）＝μ_ｏｕｔｈ_ｏｕｔ（ｅ、ｆ）＋（１−μ_ｏｕｔ）ｈ_ｉｎ（ｅ、ｆ）

ここで、ｈ_ｉｎ（ｅ、ｆ）はインドメイン翻訳モデルの素性関数であり、ｈ_ｏｕｔ（ｅ、ｆ）はアウトオブドメイン翻訳モデルの素性関数である。またμ_ｏｕｔは、ｈ_ｏｕｔ（ｅ、ｆ）に対する重みである。このμ_ｏｕｔが、前述の線形補間の際に用いる重みである。

最後に、その生成された線形補間翻訳モデルの評価について説明する。図４と図５に実験結果を示す。横軸はアウトオブドメイン翻訳モデルへの重み（前述のμ_ｏｕｔ）であり、縦軸は訳質の自動評価値を示す。図４において、訳質の自動評価値はＢＬＥＵスコアであり、図５において、訳質の自動評価値はＮＩＳＴスコアである。図４，図５における太い破線は、ベースラインのシステムでの性能である。このベースラインは、インドメイン対訳コーパスと、全てのアウトオブドメイン対訳コーパスとをデータレベルで混合し、線形補間を用いることなく、１つの翻訳モデルを学習した結果である。また，図４，図５における５つのシンボルは、アウトオブドメイン対訳コーパスから選択した対訳文のコーパスサイズ（対訳文の数）を表している。また、ここでの対訳文の選択には、前述のように、目的言語側の情報のみを用いている。

図４を見ると、データサイズが１．２Ｍであり、重みが０．７である場合に、ＢＬＥＵスコアが最も高くなっている。次に、図５を見ると、ベースラインによるアウトオブドメインデータの利用では、ＮＩＳＴスコアの改善が得られていない。また、各データサイズにおける最適重みも、図４の場合と異なっている。しかしながら、データサイズが１．２Ｍの場合に最も高いスコアが得られるという点では、図４の結果と一致している。

これまでの結果は、目的言語側の情報のみを用いて対訳文の選択を行った場合の結果である。ここで、図６に、目的言語の言語モデル、原言語の言語モデル、両者の言語モデルのそれぞれにより対訳文の選択を行った結果を示す。図６において、１行目はインドメイン対訳コーパスのみを用いた結果である。２行目はベースラインの結果（線形補間は行っていない）である。３行目は対訳文の選択を行わず、線形補間のみを用いた結果である。

図６から、目的言語の言語モデルを用いた場合が最も性能が高く、線形補間のみを用いた場合よりも高いスコアとなっていることがわかる。一方、原言語のみの言語モデルを用いた場合や、原言語と目的言語の両方の言語モデルを用いた場合には、目的言語の言語モデルのみを用いた場合よりも性能が劣るものの、ベースラインからの性能改善は大きいと言える。

図７は、選択した対訳文の数が１．２Ｍの場合と、ベースラインの場合との翻訳モデルのサイズを示す図である。この翻訳モデルのサイズは、Pharaohツールキットによる学習で得られたフレーズテーブルのファイルを解凍した状態でのファイルサイズである。図７で示されるように、本実施の形態による方法を用いることで、翻訳モデルのサイズを半分にまで縮小できることがわかる。

これらの結果から、本実施の形態による翻訳モデルの生成方法では、翻訳モデルの学習に用いるコーパスのサイズを４８％にまで縮小させることができた。また、その縮小されたコーパスにより得られた翻訳モデルのサイズは、本実施の形態による方法を適用しない場合の５０％のサイズとなった。このように、本実施の形態による情報処理装置１では、学習するコーパスのサイズも、学習結果のモデルのサイズも小さくすることができる。その結果、学習にかかる時間を短縮することができ、また、翻訳モデルの大きさを小さくできたことにより、機械翻訳時の処理を高速化することが可能となる。

また、本実施の形態による手法では，学習データや翻訳モデルのサイズ縮小だけでなく、ＢＬＥＵスコアで１．７６％の改善（線形補間で１．６１％、対訳文の選択で０．１５％の改善）が得られることが示された。

図４〜図６の結果から、線形補間部２１では、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとの重みの比が０．４：０．６〜０．２：０．８の範囲（すなわち、前述のμ_ｏｕｔが０．６〜０．８の範囲）の重みを用いる場合に評価が高くなっているが、この重みの値は、インドメイン対訳コーパスやアウトオブドメイン対訳コーパスに依存する。したがって、最適な重みの値は、インドメイン対訳コーパスやアウトオブドメイン対訳コーパスごとに算出したものを用いるようにしてもよい。

なお、前述の非特許文献２の方法によれば、２８％の翻訳モデルのサイズの縮小（２．４１Ｇバイトのモデルが１．７４Ｇバイトのモデルとなった）と、ＢＬＥＵスコアで１％の改善（ＢＬＥＵスコアが２３．６３％から２４．６３％となった）とが得られている。もちろん、実験系の相違があるため、非特許文献２の結果と、本実施の形態による実験結果とをそのまま比較することはできないが、それでも、本実施の形態による実験結果の方が、ＢＬＥＵスコアでの改善、翻訳モデルのサイズの縮小の双方において非特許文献２の結果よりも勝っているため、本実施の形態による方法の方が、非特許文献２の方法よりも優れている可能性が高いと考えられる。

また、前述の非特許文献１の方法を翻訳モデルの生成に応用したものと、本実施の形態による方法とを比較した場合に、前述の非特許文献１では、アウトオブドメイン対訳コーパスのサブコーパスと、インドメイン対訳コーパスとの類似情報を算出するのに対して、本実施の形態では、アウトオブドメイン対訳コーパスの各対訳文と、インドメイン対訳コーパスとの類似情報を算出するため、類似情報の算出をより細かく行うことができ、その結果、より精度の高い対訳文の選択を行うことができ、より性能のよい翻訳モデルを得ることができると推察することができる。さらにまた、非特許文献１の方法では、アウトオブドメイン対訳コーパスをサブコーパスに分割する処理を行うが、この処理は非常に負荷の高いものであり、本実施の形態による方法では、その処理を行わなくてよいため、処理負荷が軽減されることになる。また、非特許文献１の方法では、アウトオブドメイン対訳コーパスをサブコーパスに分割したすべてのサブコーパスについて言語モデルを生成しなければならないため、実質的にアウトオブドメイン対訳コーパスの全体に対して言語モデルを生成するのと同程度の処理を行わなければならないが、本実施の形態による方法によれば、アウトオブドメイン対訳コーパスよりも格段に規模の小さいインドメイン対訳コーパスについてのみ言語モデルを生成するため、言語モデルの生成に必要な処理が本実施の形態の方が少なくなるというメリットもある。

以上のように、本実施の形態による情報処理装置１によれば、類似情報を用いて翻訳モデルの学習に用いる対訳文を選択することによって、翻訳性能を劣化させることなく、学習コーパスを小規模化することができる。その結果、翻訳モデルを生成する処理負担を軽減することができる。また、機械翻訳に用いる翻訳モデルを小規模化することができ、機械翻訳の処理に要する処理負担も軽減することができる。また、実験の結果、翻訳モデルを学習する際の学習コーパスを小規模化したとしても、翻訳モデルの性能を十分担保することができており、さらに、大規模なコーパスを用いた場合よりも、性能を改善できうることがわかった。

なお、本実施の形態では、情報処理装置１が機械翻訳部２３を備える構成について説明したが、情報処理装置１は、機械翻訳部２３を備えていなくてもよい。その場合に、情報処理装置１は、線形補間翻訳モデルを、機械翻訳を行う他の装置等に出力する出力部（図示せず）をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

また、本実施の形態では、図１で示されるように、情報処理装置１がインドメイン翻訳モデル、アウトオブドメイン翻訳モデル、線形補間翻訳モデルの生成、蓄積の処理も行う場合について説明したが、情報処理装置１は、対訳文の選択までの処理を行うものであり、インドメイン翻訳モデル、アウトオブドメイン翻訳モデル、線形補間翻訳モデルの生成、蓄積の処理は、他の装置において行われてもよい。その場合には、情報処理装置１は、インドメイン翻訳モデル生成部１７、インドメイン翻訳モデル記憶部１８、アウトオブドメイン翻訳モデル生成部１９、アウトオブドメイン翻訳モデル記憶部２０、線形補間部２１、線形補間翻訳モデル記憶部２２を備えなくてもよい。情報処理装置１が対訳文の選択までの処理を行うものである場合に、情報処理装置１は、その選択された対訳文から構成される部分コーパスや、その選択された対訳文を識別可能な情報を出力する出力部（図示せず）をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

（実施の形態２）
本発明の実施の形態２による情報処理装置について、図面を参照しながら説明する。本実地の形態による情報処理装置は、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とから翻訳モデルを生成するものである。

図８は、本実施の形態による情報処理装置３の構成を示すブロック図である。本実施の形態による情報処理装置３は、インドメイン対訳コーパス記憶部１１と、言語モデル生成部１２と、言語モデル記憶部１３と、アウトオブドメイン対訳コーパス記憶部１４と、類似情報算出部１５と、選択部１６と、翻訳モデル生成部３１と、翻訳モデル記憶部３２と、機械翻訳部３３とを備える。なお、翻訳モデル生成部３１、翻訳モデル記憶部３２、機械翻訳部３３以外の構成及び動作は、実施の形態１と同様であり、その説明を省略する。

翻訳モデル生成部３１は、インドメイン対訳コーパス記憶部１１で記憶されているインドメイン対訳コーパスと、アウトオブドメイン対訳コーパス記憶部１４で記憶されているアウトオブドメイン対訳コーパスから選択部１６が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、翻訳モデル記憶部３２に蓄積する。なお、翻訳モデル生成部３１は、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とをあわせたコーパスをまず構成した後に、翻訳モデルを生成してもよく、あるいは、インドメイン対訳コーパス記憶部１１と、アウトオブドメイン対訳コーパス記憶部１４とを参照しながら、翻訳モデルを生成してもよい。なお、翻訳モデルを生成する方法としては、公知の方法を用いることができ、その詳細な説明を省略する。

翻訳モデル記憶部３２では、翻訳モデルが記憶される。この翻訳モデルは、翻訳モデル生成部３１が生成したものである。翻訳モデル記憶部３２での記憶は、翻訳モデルのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。翻訳モデル記憶部３２は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

機械翻訳部３３は、翻訳モデル記憶部３２で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う。機械翻訳部３３は、実施の形態１の機械翻訳部２３と同様のものであり、その説明を省略する。
なお、翻訳モデル記憶部３２も、他の１以上の記憶部と同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。

次に、本実施の形態による情報処理装置３の動作について、図９のフローチャートを用いて説明する。なお、図９のフローチャートにおいて、ステップＳ２０１以外の処理は、実施の形態１の図２のフローチャートと同様であり、その説明を省略する。

（ステップＳ２０１）翻訳モデル生成部３１は、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択部１６が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、翻訳モデル記憶部３２に蓄積する。

なお、本実施の形態による情報処理装置３の動作の具体例は、機械翻訳で用いる翻訳モデルを、線形補間によって生成するのではなく、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとから直接生成する以外は、実施の形態１の具体例と同様であり、その説明を省略する。

以上のように、本実施の形態による情報処理装置３によれば、実施の形態１と同様に、類似情報を用いて翻訳モデルの学習に用いる対訳文を選択することによって、翻訳性能を劣化させることなく、学習コーパスを小規模化することができる。また、本実施の形態でも、対訳文の選択を行うことによって、翻訳モデルの性能が改善すると考えられる。例えば、実施の形態１で説明した実験結果によれば、対訳文の選択によって、ＢＬＥＵスコアが０．１５％だけ改善すると考えられる。

なお、本実施の形態では、情報処理装置３が機械翻訳部３３を備える構成について説明したが、情報処理装置３は、機械翻訳部３３を備えていなくてもよい。その場合に、情報処理装置３は、翻訳モデルを、機械翻訳を行う他の装置に出力する出力部（図示せず）をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

また、本実施の形態では、図８で示されるように、情報処理装置３が翻訳モデルの生成、蓄積の処理も行う場合について説明したが、情報処理装置３は、対訳文の選択までの処理を行うものであり、翻訳モデルの生成、蓄積の処理は、他の装置において行われてもよい。その場合には、情報処理装置３は、翻訳モデル生成部３１や翻訳モデル記憶部３２を備えなくてもよい。情報処理装置３が対訳文の選択までの処理を行うものである場合に、情報処理装置３は、その選択された対訳文から構成される部分コーパスや、その選択された対訳文を識別可能な情報を出力する出力部（図示せず）をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、上記各実施の形態では、情報処理装置１，３がインドメイン言語モデルの生成、蓄積の処理も行う場合について説明したが、情報処理装置１，３は、インドメイン言語モデルの生成を行わなくてもよい。情報処理装置１，３がインドメイン言語モデルの生成を行わない場合には、例えば、別の装置で生成されたインドメイン言語モデルが言語モデル記憶部１３に蓄積されるものとする。また、情報処理装置１，３がインドメイン言語モデルの生成を行わない場合には、情報処理装置１，３は、インドメイン対訳コーパス記憶部１１や言語モデル生成部１２を備えなくてもよい。

また、上記各実施の形態において、インドメイン対訳コーパス、アウトオブドメイン対訳コーパス、インドメイン言語モデル、インドメイン翻訳モデル、アウトオブドメイン翻訳モデル、線形補間翻訳モデル等は、本来は、インドメイン対訳コーパスの情報、アウトオブドメイン対訳コーパスの情報等と記載すべきであるが、単に、インドメイン対訳コーパス、アウトオブドメイン対訳コーパス等と記載した。

また、上記各実施の形態では、情報処理装置がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記各実施の形態において、情報処理装置に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部で記憶されているインドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部として機能させるためのものである。

また、このプログラムにおいて、コンピュータを、前記インドメイン対訳コーパスが記憶されるインドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、前記言語モデル記憶部に蓄積する言語モデル生成部としてさらに機能させてもよい。

また、このプログラムにおいて、コンピュータを、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、インドメイン翻訳モデル記憶部に蓄積するインドメイン翻訳モデル生成部と、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、アウトオブドメイン翻訳モデル記憶部に蓄積するアウトオブドメイン翻訳モデル生成部と、前記インドメイン翻訳モデル記憶部で記憶されているインドメイン翻訳モデルと、前記アウトオブドメイン翻訳モデル記憶部で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、線形補間翻訳モデル記憶部に蓄積する線形補間部としてさらに機能させてもよい。

また、このプログラムにおいて、コンピュータを、前記線形補間翻訳モデル記憶部で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部としてさらに機能させてもよい。

また、このプログラムにおいて、コンピュータを、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、翻訳モデル記憶部に蓄積する翻訳モデル生成部としてさらに機能させてもよい。

また、このプログラムにおいて、コンピュータを、前記翻訳モデル記憶部で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部としてさらに機能させてもよい。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、各構成要素におけるハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１０は、上記プログラムを実行して、上記各実施の形態による情報処理装置を実現するコンピュータの外観の一例を示す模式図である。上記各実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。

図１０において、コンピュータシステム１００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ１０５、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１０６を含むコンピュータ１０１と、キーボード１０２と、マウス１０３と、モニタ１０４とを備える。

図１１は、コンピュータシステムを示す図である。図１１において、コンピュータ１０１は、ＣＤ−ＲＯＭドライブ１０５、ＦＤドライブ１０６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２と、ＣＰＵ１１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク１１４と、ＣＰＵ１１１、ＲＯＭ１１２等を相互に接続するバス１１５とを備える。なお、コンピュータ１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム１００に、上記各実施の形態による情報処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１２１、またはＦＤ１２２に記憶されて、ＣＤ−ＲＯＭドライブ１０５、またはＦＤドライブ１０６に挿入され、ハードディスク１１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１０１に送信され、ハードディスク１１４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１２１やＦＤ１２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ１０１に、上記各実施の形態による情報処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム１００がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による情報処理装置等によれば、翻訳モデルの学習に用いる対訳文を選択することによって、翻訳性能を劣化させることなく、学習コーパスを小規模化することができるという効果が得られ、例えば、大きなコーパスから、そのコーパスよりも小さなコーパスを生成する装置等として有用である。

本発明の実施の形態１による情報処理装置の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態で用いる対訳コーパスの一例について説明するための図同実施の形態におけるＢＬＥＵスコアの一例を示す図同実施の形態におけるＮＩＳＴスコアの一例を示す図同実施の形態における対訳文の選択で用いる言語モデルに関する対比について説明するための図同実施の形態におけるフレーズテーブルのサイズについて説明するための図本発明の実施の形態２による情報処理装置の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャートコンピュータシステムの外観一例を示す模式図コンピュータシステムの構成の一例を示す図

符号の説明

１、３情報処理装置
１１インドメイン対訳コーパス記憶部
１２言語モデル生成部
１３言語モデル記憶部
１４アウトオブドメイン対訳コーパス記憶部
１５類似情報算出部
１６選択部
１７インドメイン翻訳モデル生成部
１８インドメイン翻訳モデル記憶部
１９アウトオブドメイン翻訳モデル生成部
２０アウトオブドメイン翻訳モデル記憶部
２１線形補間部
２２線形補間翻訳モデル記憶部
２３、３３機械翻訳部
３１翻訳モデル生成部
３２翻訳モデル記憶部

Claims

所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部と、
前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部と、
前記インドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、
前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部と、を備えた情報処理装置。
前記類似情報算出部は、前記インドメイン言語モデルを用いて、前記アウトオブドメイン対訳コーパスに含まれる文のエントロピーを求めることによって類似情報を算出する、請求項１記載の情報処理装置。
前記インドメイン言語モデルは、原言語の言語モデルと目的言語の言語モデルとの少なくとも一方を含むものであり、
前記類似情報算出部は、前記アウトオブドメイン対訳コーパスに含まれる文のうち、前記該インドメイン言語モデルに含まれる言語モデルと同じ言語の文と、前記インドメイン言語モデルとを用いて前記類似情報を算出する、請求項１または請求項２記載の情報処理装置。
前記インドメイン対訳コーパスが記憶されるインドメイン対訳コーパス記憶部と、
前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、前記言語モデル記憶部に蓄積する言語モデル生成部と、をさらに備えた、請求項１から請求項３のいずれか記載の情報処理装置。
前記インドメイン対訳コーパスから生成された翻訳モデルであるインドメイン翻訳モデルが記憶されるインドメイン翻訳モデル記憶部と、
前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、前記インドメイン翻訳モデル記憶部に蓄積するインドメイン翻訳モデル生成部と、
前記アウトオブドメイン対訳コーパスの少なくとも一部の対訳文から生成された翻訳モデルであるアウトオブドメイン翻訳モデルが記憶されるアウトオブドメイン翻訳モデル記憶部と、
前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、前記アウトオブドメイン翻訳モデル記憶部に蓄積するアウトオブドメイン翻訳モデル生成部と、
前記インドメイン翻訳モデルと前記アウトオブドメイン翻訳モデルとが線形補間された翻訳モデルである線形補間翻訳モデルが記憶される線形補間翻訳モデル記憶部と、
前記インドメイン翻訳モデル記憶部で記憶されているインドメイン翻訳モデルと、前記アウトオブドメイン翻訳モデル記憶部で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、前記線形補間翻訳モデル記憶部に蓄積する線形補間部と、をさらに備えた請求項４記載の情報処理装置。
前記線形補間翻訳モデル記憶部で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えた、請求項５記載の情報処理装置。
翻訳モデルが記憶される翻訳モデル記憶部と、
前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、前記翻訳モデル記憶部に蓄積する翻訳モデル生成部と、をさらに備えた請求項４記載の情報処理装置。
前記翻訳モデル記憶部で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えた、請求項７記載の情報処理装置。
所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部と、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部と、類似情報算出部と、選択部とを用いて処理される情報処理方法であって、
前記類似情報算出部が、前記インドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出ステップと、
前記選択部が、前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択ステップと、を備えた情報処理方法。
コンピュータを、
所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部で記憶されているインドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、
前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部として機能させるためのプログラム。