JP2009064051A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2009064051A
JP2009064051A JP2007228588A JP2007228588A JP2009064051A JP 2009064051 A JP2009064051 A JP 2009064051A JP 2007228588 A JP2007228588 A JP 2007228588A JP 2007228588 A JP2007228588 A JP 2007228588A JP 2009064051 A JP2009064051 A JP 2009064051A
Authority
JP
Japan
Prior art keywords
domain
corpus
translation
model
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007228588A
Other languages
English (en)
Inventor
Yoshiyuki Yasuda
圭志 安田
Zuikyo Cho
瑞強 張
Hiroshi Yamamoto
博史 山本
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007228588A priority Critical patent/JP2009064051A/ja
Publication of JP2009064051A publication Critical patent/JP2009064051A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】翻訳性能を劣化させることなく学習コーパスを小規模化することができる情報処理装置を提供する。
【解決手段】所望のタスクに一致したドメインの、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成されたインドメイン言語モデルが記憶される言語モデル記憶部13と、所望のタスクと異なるドメインの対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部14と、インドメイン言語モデルを用いて、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する類似情報をそれぞれ算出する類似情報算出部15と、類似情報を用いて、インドメイン対訳コーパスと類似性の高い複数の対訳文をアウトオブドメイン対訳コーパスから選択する選択部16とを備える。
【選択図】図1

Description

本発明は、アウトオブドメインの対訳コーパスから、所望のタスクのための複数の対訳文を選択する情報処理装置等に関する。
コーパスベース音声翻訳システムの構築において、高性能のシステムを構築するためには、対象とするタスクやドメインに一致した大規模なコーパスが必要となる。特に、機械翻訳において統計翻訳の枠組みを用いる場合には、所望のタスクに一致したドメインの対訳コーパス(インドメインコーパス)が必要となる。しかしながら、音声翻訳で扱われる、話し言葉を対象とした対訳コーパスは整備・収集のためのコストが高く、大規模化が困難であるという状況がある。このような状況においては、翻訳システムの性能向上のために、比較的収集が容易である新聞記事などの所望のタスクと異なるドメインのコーパス(アウトオブドメインコーパス)を代用する方法が有効である。一方、統計翻訳においてアウトオブドメインコーパスを用いる場合には、インドメインコーパスを用いる場合と比較し、コーパス量あたりの訳質改善が小さいため、一定の性能を実現するためには、非常に大規模な対訳コーパスが必要となる。そしてそれに伴い、モデル学習にかかる計算量が増大し、得られるモデルも肥大するという問題が生じる。
なお、関連する技術として、大規模な言語コーパスの中から、所望のタスクと異なるデータや、雑音的なデータを除去することにより、得られるモデルの性能を担保しつつ、モデルの生成で用いられるコーパスの量を減らすことができる技術が知られている(例えば、非特許文献1、非特許文献2参照)。
安田圭志、山本博史、隅田英一郎、「クラスタリングを用いた言語モデル学習データの選択手法」、言語処理学会第13回年次大会(NLP2007)論文集、PB1−5,p.202−205、2007年3月 Yajuan Lu, Jin Huang and Qun Liu、「Improving Statistical Machine Translation Performance by Training Data Selection and Optimization」、Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 343-350, Prague, June 2007
翻訳モデルの性能を担保しながら、翻訳モデルの生成で用いられるコーパスの量を減らす際に、より性能のよい翻訳モデルを、より小規模な学習コーパスから生成することが求められている。
本発明は、上記事情を考慮してなされたものであり、翻訳性能を劣化させることなく学習コーパスを小規模化することができる情報処理装置等を提供することを目的とする。
上記目的を達成するため、本発明による情報処理装置は、所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部と、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部と、前記インドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部と、を備えたものである。
このような構成により、翻訳性能を劣化させることなく、翻訳モデルの生成で用いるコーパスを小規模化することができる。すなわち、翻訳モデルの生成で用いるコーパスとして、インドメイン対訳コーパスと、そのインドメイン対訳コーパスと類似性の高い対訳文の集合とを得ることができる。その結果、翻訳モデルを生成する処理負荷を軽減することができ、翻訳モデル自体も小規模化することができる。翻訳モデルが小規模化することによって、その翻訳モデルを用いた機械翻訳の処理負荷も軽減することができる。
また、本発明による情報処理装置では、前記類似情報算出部は、前記インドメイン言語モデルを用いて、前記アウトオブドメイン対訳コーパスに含まれる文のエントロピーを求めることによって類似情報を算出してもよい。
このような構成により、エントロピーや、それと同等のものであるパープレキシティーを用いて、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスに含まれる各対訳文との類似情報を適切に算出することができうる。
また、本発明による情報処理装置では、前記インドメイン言語モデルは、原言語の言語モデルと目的言語の言語モデルとの少なくとも一方を含むものであり、前記類似情報算出部は、前記アウトオブドメイン対訳コーパスに含まれる文のうち、前記インドメイン言語モデルに含まれる言語モデルと同じ言語の文と、前記インドメイン言語モデルとを用いて前記類似情報を算出してもよい。
このような構成により、原言語の言語モデルと、アウトオブドメイン対訳コーパスの原言語の文とを用いて類似情報を算出したり、目的言語の言語モデルと、アウトオブドメイン対訳コーパスの目的言語の文とを用いて類似情報を算出したり、原言語及び目的言語の言語モデルと、アウトオブドメイン対訳コーパスの原言語及び目的言語の文とを用いて類似情報を算出したりすることができうる。
また、本発明による情報処理装置では、前記インドメイン対訳コーパスが記憶されるインドメイン対訳コーパス記憶部と、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、前記言語モデル記憶部に蓄積する言語モデル生成部と、をさらに備えてもよい。
このような構成により、情報処理装置において、インドメイン対訳コーパスからインドメイン言語モデルを生成することができる。
また、本発明による情報処理装置では、前記インドメイン対訳コーパスから生成された翻訳モデルであるインドメイン翻訳モデルが記憶されるインドメイン翻訳モデル記憶部と、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、前記インドメイン翻訳モデル記憶部に蓄積するインドメイン翻訳モデル生成部と、前記アウトオブドメイン対訳コーパスの少なくとも一部の対訳文から生成された翻訳モデルであるアウトオブドメイン翻訳モデルが記憶されるアウトオブドメイン翻訳モデル記憶部と、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、前記アウトオブドメイン翻訳モデル記憶部に蓄積するアウトオブドメイン翻訳モデル生成部と、前記インドメイン翻訳モデルと前記アウトオブドメイン翻訳モデルとが線形補間された翻訳モデルである線形補間翻訳モデルが記憶される線形補間翻訳モデル記憶部と、前記インドメイン翻訳モデル記憶部で記憶されているインドメイン翻訳モデルと、前記アウトオブドメイン翻訳モデル記憶部で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、前記線形補間翻訳モデル記憶部に蓄積する線形補間部と、をさらに備えてもよい。
このような構成により、情報処理装置において、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とを用いた翻訳モデルである線形補間翻訳モデルの生成を行うことができる。小規模であるが、適切に選択された学習コーパスを用いて翻訳モデルを生成するため、小規模であり、かつ、性能のよい線形補間翻訳モデルを生成することができうる。また、インドメイン対訳コーパスから生成されたインドメイン翻訳モデルと、アウトオブドメイン対訳コーパスから選択された複数の対訳文から生成されたアウトオブドメイン対訳コーパスとを適切な重み付けで線形補間して線形補間翻訳モデルを生成することにより、より性能のよい翻訳モデルを得ることが可能となりうる。
また、本発明による情報処理装置では、前記線形補間翻訳モデル記憶部で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えてもよい。
このような構成により、機械翻訳部によって、線形補間翻訳モデルを用いた機械翻訳を行うことができる。
また、本発明による情報処理装置では、翻訳モデルが記憶される翻訳モデル記憶部と、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、前記翻訳モデル記憶部に蓄積する翻訳モデル生成部と、をさらに備えてもよい。
このような構成により、情報処理装置において、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とを用いた翻訳モデルの生成を行うことができる。小規模であるが、適切に選択された学習コーパスを用いて翻訳モデルを生成するため、小規模であり、かつ、性能のよい翻訳モデルを生成することができうる。
また、本発明による情報処理装置では、前記翻訳モデル記憶部で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えてもよい。
このような構成により、機械翻訳部によって、翻訳モデルを用いた機械翻訳を行うことができる。
本発明による情報処理装置等によれば、翻訳モデルの学習に用いる対訳文を取捨選択することによって、翻訳性能を劣化させることなく学習コーパスを小規模化することができる情報処理装置等を提供することを目的とする。
以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による情報処理装置について、図面を参照しながら説明する。本実地の形態による情報処理装置は、アウトオブドメインの対訳コーパスから、翻訳モデルの学習で用いる、インドメインの対訳コーパスと類似性の高い対訳文を選択するものである。
図1は、本実施の形態による情報処理装置1の構成を示すブロック図である。本実施の形態による情報処理装置1は、インドメイン対訳コーパス記憶部11と、言語モデル生成部12と、言語モデル記憶部13と、アウトオブドメイン対訳コーパス記憶部14と、類似情報算出部15と、選択部16と、インドメイン翻訳モデル生成部17と、インドメイン翻訳モデル記憶部18と、アウトオブドメイン翻訳モデル生成部19と、アウトオブドメイン翻訳モデル記憶部20と、線形補間部21と、線形補間翻訳モデル記憶部22と、機械翻訳部23とを備える。
インドメイン対訳コーパス記憶部11では、インドメイン対訳コーパスが記憶される。インドメイン対訳コーパスとは、所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスである。所望のタスクとは、例えば、旅行会話の統計翻訳や、ビジネス会話の統計翻訳、テレビやラジオ等のニュースの統計翻訳、新聞の記事の統計翻訳等である。したがって、例えば、所望のタスクが旅行会話の統計翻訳である場合には、その旅行会話に関する対訳コーパスがインドメイン対訳コーパスとなる。なお、背景技術においては、インドメイン対訳コーパスが、音声翻訳のドメインのコーパスである場合について説明したが、インドメイン対訳コーパスは、音声翻訳のドメインのコーパスであってもよく、あるいは、そうでなくてもよい。
インドメイン対訳コーパス記憶部11にインドメイン対訳コーパスが記憶される過程は問わない。例えば、記録媒体を介してインドメイン対訳コーパスがインドメイン対訳コーパス記憶部11で記憶されるようになってもよく、通信回線等を介して送信されたインドメイン対訳コーパスがインドメイン対訳コーパス記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたインドメイン対訳コーパスがインドメイン対訳コーパス記憶部11で記憶されるようになってもよい。インドメイン対訳コーパス記憶部11での記憶は、外部のストレージデバイス等から読み出したインドメイン対訳コーパスのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。インドメイン対訳コーパス記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
言語モデル生成部12は、インドメイン対訳コーパス記憶部11で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、言語モデル記憶部13に蓄積する。言語モデルとは、確率的言語モデルであり、例えば、Nグラムモデルであってもよく、その他のモデルであってもよい。なお、Nグラムモデルとは、文中のある単語の発生が直前の(N−1)単語にのみ依存すると考えるモデルであり、単語の生成確率をマルコフモデルで近似したモデルである。
インドメイン言語モデルは、原言語の言語モデルと目的言語の言語モデルとの少なくとも一方を含むものである。すなわち、インドメイン言語モデルは、インドメイン対訳コーパスに含まれる原言語のコーパスのみを用いて生成されたものであってもよく、インドメイン対訳コーパスに含まれる目的言語のコーパスのみを用いて生成されたものであってもよく、あるいは、インドメイン対訳コーパスに含まれる原言語と目的言語との両方のコーパス(すなわち、インドメイン対訳コーパスの全体)を用いて生成されたものであってもよい。なお、言語モデルを生成する方法としては、公知の方法を用いることができ、その詳細な説明を省略する。
言語モデル記憶部13では、インドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される。言語モデル記憶部13での記憶は、インドメイン言語モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。言語モデル記憶部13は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
アウトオブドメイン対訳コーパス記憶部14では、アウトオブドメイン対訳コーパスが記憶される。アウトオブドメイン対訳コーパスとは、所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスである。例えば、所望のタスクが旅行会話の統計翻訳である場合には、新聞記事の対訳コーパス等がアウトオブドメイン対訳コーパスとなりうる。一般に、アウトオブドメイン対訳コーパスは、インドメイン対訳コーパスに比べて大規模なコーパスである。
アウトオブドメイン対訳コーパス記憶部14にアウトオブドメイン対訳コーパスが記憶される過程は問わない。例えば、記録媒体を介してアウトオブドメイン対訳コーパスがアウトオブドメイン対訳コーパス記憶部14で記憶されるようになってもよく、通信回線等を介して送信されたアウトオブドメイン対訳コーパスがアウトオブドメイン対訳コーパス記憶部14で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたアウトオブドメイン対訳コーパスがアウトオブドメイン対訳コーパス記憶部14で記憶されるようになってもよい。アウトオブドメイン対訳コーパス記憶部14での記憶は、外部のストレージデバイス等から読み出したアウトオブドメイン対訳コーパスのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。アウトオブドメイン対訳コーパス記憶部14は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
類似情報算出部15は、言語モデル記憶部13で記憶されているインドメイン言語モデルを用いて、そのインドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、アウトオブドメイン対訳コーパス記憶部14で記憶されているアウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する。すなわち、類似情報算出部15によって、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する値がそれぞれ算出されることになる。
類似情報は、両コーパスの類似性を知ることができる情報であれば、その内容を問わない。例えば、類似情報の示す値の大きい方が類似性の高くてもよく、あるいは、その逆であってもよい。類似情報は、例えば、エントロピーであってもよく、パープレキシティーであってもよく、その他の情報であってもよい。エントロピーやパープレキシティー等、及びそれらの算出方法はすでに公知であるため、詳細な説明を省略する。なお、類似情報がエントロピーやパープレキシティーである場合に、類似情報の示す値の小さい方が、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスの対訳文との類似性が高いことになる。
類似情報がエントロピーやパープレキシティーである場合には、類似情報算出部15は、インドメイン言語モデルを用いて、アウトオブドメイン対訳コーパスに含まれる文のエントロピーを求めることによって類似情報を算出してもよい。エントロピーをHとした場合に、パープレキシティーは、2^Hとなる。このように、エントロピーとパープレキシティーは、実質的に同等のものである。本実施の形態では、類似情報算出部15は、類似情報としてパープレキシティーを算出する場合について説明する。なお、言語モデルMにおける単語列w =w…wの生成確率をP(w )とすると、エントロピーHと、パープレキシティーPPとは、次式のようになる。
Figure 2009064051
類似情報算出部15は、アウトオブドメイン対訳コーパスに含まれる文のうち、インドメイン言語モデルに含まれる言語モデルと同じ言語の文と、インドメイン言語モデルとを用いて類似情報を算出する。例えば、インドメイン言語モデルが原言語の言語モデルである場合には、類似情報算出部15は、その原言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる原言語の文との類似性に関する類似情報を算出してもよい。また、例えば、インドメイン言語モデルが目的言語の言語モデルである場合には、類似情報算出部15は、その目的言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる目的言語の文との類似性に関する類似情報を算出してもよい。また、例えば、インドメイン言語モデルが、原言語の言語モデルと目的言語の言語モデルとを含む場合には、類似情報算出部15は、その原言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる原言語の文との類似性に関する類似情報を算出すると共に、その目的言語の言語モデルと、アウトオブドメイン対訳コーパスに含まれる目的言語の文との類似性に関する類似情報を算出してもよい。
ここで、エントロピー、パープレキシティーの算出方法について簡単に説明する。アウトオブドメイン対訳コーパスに含まれる目的言語の文をSとし、その文Sに含まれる単語数をneとし、インドメイン言語モデルのうち、目的言語の言語モデルにおける単語列Sの生成確率をP(S)とすると、目的言語側のパープレキシティーPPは次式のようになる。目的言語側のパープレキシティーのみを用いて類似情報を算出する場合には、この目的言語側のパープレキシティーPPが類似情報となりうる。
目的言語側のパープレキシティー:PP=P(S−1/ne
また、アウトオブドメイン対訳コーパスに含まれる原言語の文をSとし、その文Sに含まれる単語数をnとし、インドメイン言語モデルのうち、原言語の言語モデルにおける単語列Sの生成確率をP(S)とすると、原言語側のパープレキシティーPPは次式のようになる。原言語側のパープレキシティーのみを用いて類似情報を算出する場合には、この原言語側のパープレキシティーPPが類似情報となりうる。
原言語側のパープレキシティー:PP=P(S−1/nf
なお、目的言語側のパープレキシティーと、原言語側のパープレキシティーとの両方を用いて類似情報を算出する場合には、次式によって平均パープレキシティーPPe+fを算出し、その平均パープレキシティーPPe+fが類似情報となってもよい。
平均パープレキシティー:PPe+f=(PP×PP1/2
また、エントロピーH=log(PP)となる。ただし、PPは、用いる言語モデルに応じて、PP、PP、PPe+fとなりうる。
選択部16は、類似情報算出部15によって算出された類似情報を用いて、インドメイン対訳コーパスと類似性の高い複数の対訳文をアウトオブドメイン対訳コーパスから選択する。この選択では、例えば、インドメイン対訳コーパスと類似性の高いものから順に、あらかじめ決められている個数の対訳文を選択してもよく(例えば、1万個の対訳文を選択すると決められているような場合)、あらかじめ決められている割合の対訳文を選択してもよく(例えば、アウトオブドメイン対訳コーパスの5割の対訳文を選択すると決められているような場合)、あるいは、あらかじめ決められている類似性の値(しきい値)よりも高い類似性を有する対訳文を選択してもよい。選択部16が対訳文を選択するとは、例えば、選択した対訳文を識別する情報を所定の記録媒体等に蓄積することであってもよく、あるいは、その選択した対訳文に対応付けてフラグ等を設定することであってもよい。
インドメイン翻訳モデル生成部17は、インドメイン対訳コーパス記憶部11で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、インドメイン翻訳モデル記憶部18に蓄積する。翻訳モデルとは、例えば、互いに対応する、原言語の単語やフレーズと目的言語の単語やフレーズとの組と、その組に対応する確率とを対応付けて有する情報である。翻訳モデルはすでに公知であり、その詳細な説明を省略する。また、翻訳モデルの生成方法としては、公知の方法を用いることができ、その詳細な説明を省略する。
インドメイン翻訳モデル記憶部18では、インドメイン対訳コーパスから生成された翻訳モデルであるインドメイン翻訳モデルが記憶される。インドメイン翻訳モデル記憶部18での記憶は、インドメイン翻訳モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。インドメイン翻訳モデル記憶部18は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
アウトオブドメイン翻訳モデル生成部19は、アウトオブドメイン対訳コーパス記憶部14で記憶されているアウトオブドメイン対訳コーパスから選択部16が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、アウトオブドメイン翻訳モデル記憶部20に蓄積する。
アウトオブドメイン翻訳モデル記憶部20では、アウトオブドメイン対訳コーパスの少なくとも一部の対訳文から生成された翻訳モデルであるアウトオブドメイン翻訳モデルが記憶される。アウトオブドメイン翻訳モデル記憶部20での記憶は、アウトオブドメイン翻訳モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。アウトオブドメイン翻訳モデル記憶部20は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
線形補間部21は、インドメイン翻訳モデル記憶部18で記憶されているインドメイン翻訳モデルと、アウトオブドメイン翻訳モデル記憶部20で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、線形補間翻訳モデル記憶部22に蓄積する。例えば、インドメイン翻訳モデルにおいて、原言語の単語Aを目的言語の単語Bに翻訳する確率がP1であり、アウトオブドメイン翻訳モデルにおいて、原言語の単語Aを目的言語の単語Bに翻訳する確率がP2であり、インドメイン翻訳モデルに対する線形補間の重みが(1−μout)であり、アウトオブドメイン翻訳モデルに対する線形補間の重みがμoutである場合には、線形補間後の原言語の単語Aを目的言語の単語Bに翻訳する確率Pは、次式のようになる。
P=(1−μout)P1+μoutP2
なお、線形補間において用いられる重みを示す情報が、図示しない記録媒体において記憶されており、線形補間部21は、その重みを示す情報を読み出して、線形補間の際に用いてもよい。
線形補間翻訳モデル記憶部22では、インドメイン翻訳モデルとアウトオブドメイン翻訳モデルとが線形補間された翻訳モデルである線形補間翻訳モデルが記憶される。線形補間翻訳モデル記憶部22での記憶は、線形補間翻訳モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。線形補間翻訳モデル記憶部22は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
機械翻訳部23は、線形補間翻訳モデル記憶部22で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う。機械翻訳部23は、原言語の文書データを受け付ける受付手段や、機械翻訳後の目的言語の文書データを出力する出力手段を備えていてもよい。機械翻訳部23による機械翻訳の方法としては、公知のものを用いることができ、その詳細な説明を省略する。
なお、インドメイン対訳コーパス記憶部11と、言語モデル記憶部13と、アウトオブドメイン対訳コーパス記憶部14と、インドメイン翻訳モデル記憶部18と、アウトオブドメイン翻訳モデル記憶部20と、線形補間翻訳モデル記憶部22との任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、インドメイン対訳コーパスを記憶している領域がインドメイン対訳コーパス記憶部11となり、インドメイン言語モデルを記憶している領域が言語モデル記憶部13となる。
次に、本実施の形態による情報処理装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)言語モデル生成部12は、インドメイン対訳コーパス記憶部11で記憶されているインドメイン対訳コーパスを用いて、言語モデルを生成し、その生成した言語モデルを言語モデル記憶部13に蓄積する。なお、この言語モデルの生成の際に、前述のように、言語モデル生成部12は、インドメイン対訳コーパスの原言語の部分を用いて原言語の言語モデルを生成してもよく、インドメイン対訳コーパスの目的言語の部分を用いて目的言語の言語モデルを生成してもよく、インドメイン対訳コーパスの全体を用いて原言語の言語モデルと目的言語の言語モデルとを生成してもよい。
(ステップS102)類似情報算出部15は、カウンタiを1に設定する。
(ステップS103)類似情報算出部15は、言語モデル記憶部13で記憶されているインドメイン言語モデルを用いて、アウトオブドメイン対訳コーパス記憶部14で記憶されているアウトオブドメイン対訳コーパスのi番目の対訳文に関する類似情報を算出する。この類似情報は、前述のように、原言語において算出されてもよく、目的言語において算出されてもよく、原言語と目的言語の両方において算出されてもよい。
(ステップS104)類似情報算出部15は、算出した類似情報を一時的に所定の記録媒体に記憶する。この記憶の際に、類似情報算出部15は、i番目の対訳文を識別する情報に対応付けて記憶してもよく、i番目の対訳文そのものに対応付けて記憶してもよい。
(ステップS105)類似情報算出部15は、カウンタiを1だけインクリメントする。
(ステップS106)類似情報算出部15は、アウトオブドメイン対訳コーパスにi番目の対訳文が存在するかどうか判断する。そして、存在する場合には、ステップS103に戻り、そうでない場合には、ステップS107に進む。
(ステップS107)選択部16は、ステップS104で一時記憶された類似情報を用いて、インドメイン対訳コーパスと類似性の高い複数の対訳文を選択する。
(ステップS108)インドメイン翻訳モデル生成部17は、インドメイン対訳コーパス記憶部11で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、その生成したインドメイン翻訳モデルをインドメイン翻訳モデル記憶部18に蓄積する。
(ステップS109)アウトオブドメイン翻訳モデル生成部19は、アウトオブドメイン対訳コーパス記憶部14で記憶されているアウトオブドメイン対訳コーパスから選択部16が選択した複数の対訳文を用いて、アウトオブドメイン翻訳モデルを生成し、その生成したアウトオブドメイン翻訳モデルをアウトオブドメイン翻訳モデル記憶部20に蓄積する。
(ステップS110)線形補間部21は、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとを線形補間し、その線形補間した線形補間翻訳モデルを線形補間翻訳モデル記憶部22に蓄積する。
なお、図2のフローチャートには含まれていないが、機械翻訳部23は、線形補間翻訳モデル記憶部22で記憶されている線形補間翻訳モデルを用いて、機械翻訳を行うものとする。
また、図2のフローチャートにおいて、処理の順序にはある程度の任意性がある。例えば、ステップS108の処理は、ステップS110の処理よりも以前に実行されるのであれば、ステップS101よりも以前の段階からステップS110の直前の段階までのいずれの段階で実行されてもよい。
次に、本実施の形態による情報処理装置1の動作について、具体例を用いて説明する。この具体例において用いたインドメイン対訳コーパスと、アウトオブドメイン対訳コーパスとについては、図3で示されるとおりである。この具体例において、IWSLT 2006(http://www.slc.atr.jp/IWSLT2006/)の評価キャンペーンの中英方向の評価トラックにおけるデータを用いた。インドメイン対訳コーパス記憶部11では、IWSLTより提供された旅行会話基本表現集(ATR−BTEC:Basic Travel Expressions Corpus)の一部が記憶されている。また、アウトオブドメイン対訳コーパス記憶部14では、LDCコーパスが記憶されている。
また、この具体例では、後述するBLEUやNISTのスコアを算出するために用いるテストセットとしては、500文の中国語文と、正解訳であるリファレンスとして、中国語文1文につき,英語文8文が整備されたものを用いた。
また、この具体例では、インドメイン言語モデルとして、グッド・チューリング法(次の文献参照)を用いた3−gramの言語モデルを用いるものとする。
文献:I. J. Good、「The population frequencies of species and the estimation of population parameters」、Biometrika, pp.40(3), 237-264、1953
また、この具体例において、モデル学習前の前処理として、まずChampollion(次の文献1参照)を用いて文アライメントを行い、次にAchilles(次の文献2参照)を用いて中国語の形態素解析を行った。最後に、中英双方の文から句読点を除去し、英語は全て小文字に統一した。そのように前処理されたデータを用い、Pharaohツールキット(次の文献3参照)により翻訳モデルの学習を行った。
文献1:X Ma、「Champollion: A Robust Parallel Text Sentence Aligner」、In Proc. of international conference on Language Resources and Evaluation(LREC)、pp. 489-492、2006
文献2:R. Zhang, G. Kikui, and E. Sumita、「Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation」、Proc. of the North American Chapter of the Association for Computational Linguistics(NAACL), Short Paper:pp.193-196、2006
文献3:P. Koehn, F. J. Och, and D. Marcu、「Statistical Phrase-Based Translation」、Proc. of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL),pp.127-133、2003
まず、言語モデル生成部12は、インドメイン対訳コーパス記憶部11で記憶されているインドメイン対訳コーパスから、目的言語の部分を読み出し、目的言語のインドメイン言語モデルを生成して、言語モデル記憶部13に蓄積する(ステップS101)。
次に、類似情報算出部15は、言語モデル記憶部13で記憶されているインドメイン言語モデルを用いて、アウトオブドメイン対訳コーパス記憶部14で記憶されている1番目の対訳文に含まれる目的言語の文のパープレキシティーを算出する(ステップS102,S103)。そして、その算出したパープレキシティーをアウトオブドメイン対訳コーパス記憶部14で記憶されている1番目の対訳文に対応付けて蓄積する(ステップS104)。類似情報算出部15は、このような処理を、2番目以降の対訳文についても同様に行う(ステップS103〜S106)。
その後、選択部16は、類似情報算出部15によって算出されたパープレキシティーの小さい対訳文から順番に、所定の個数、例えば、1.2M個の対訳文を選択する(ステップS107)。この選択において、例えば、選択部16は、全対訳文をパープレキシティーの昇順にソートし、パープレキシティーが最小の対訳文から所定の個数、例えば、1.2M個の対訳文を選択してもよい。
次に、インドメイン翻訳モデル生成部17は、インドメイン対訳コーパスからインドメイン翻訳モデルを生成して、インドメイン翻訳モデル記憶部18に蓄積する(ステップS108)。また、アウトオブドメイン翻訳モデル生成部19は、アウトオブドメイン対訳コーパスから選択部16によって選択された所定の個数の対訳文を用いて、アウトオブドメイン翻訳モデルを生成して、アウトオブドメイン翻訳モデル記憶部20に蓄積する(ステップS109)。
その後、線形補間部21は、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとを線形補間して、線形補間翻訳モデル記憶部22に蓄積する(ステップS110)。この線形補間の際に用いる重みについては、後述する。
次に、機械翻訳部23による機械翻訳について簡単に説明する。
機械翻訳部23による機械翻訳として、統計翻訳を用いることができる。この具体例では、その統計翻訳の枠組みとして、ログリニアモデルを用いた。ログリニアモデルでは、原言語の単語列fと、目的言語文の単語列eとの関係を次式のように表す。
Figure 2009064051
式(1)の分母を定数として近似することにより、翻訳結果は次式のようになる。
Figure 2009064051
なお、ここでは、機械翻訳部23がログリニアモデルを用いる場合について説明したが、機械翻訳部23は、ログリニアモデル以外の方法を用いてもよいことは言うまでもない。
機械翻訳部23による統計翻訳における素性関数として、この具体例では、次の8種類の関数を用いた。なお、括弧内の数字は各素性関数に対する重みである。
1.原言語から目的言語方向のフレーズ単位の翻訳確率値 (0.2)
2.目的言語から原言語方向のフレーズ単位の翻訳確率値 (0.2)
3.原言語から目的言語方向の単語の翻訳確率値 (0.2)
4.目的言語から原言語方向の単語の翻訳確率値 (0.2)
5.フレーズペナルティー (0.2)
6.単語ペナルティー (−1.0)
7.語順モデル(Distortion weight) (0.5)
8.目的言語の言語モデル確率値 (0.5)
通常の統計翻訳の学習においては、開発セットを用いてMERT(Minimum Error Rate Training)を行うことにより各素性に対する最適な重みを決定する。しかしながら、MERTの処理において、乱数を用いていることから、MERTによる性能向上は安定しているとは言えない。したがって、この具体例では、MERTによる訳質向上の影響を除去し、翻訳モデルの優劣の訳質への影響のみを評価することを目的とし、各モデルに対してMERTを適用せず、全ての実験において上記の同じ重みを用いた。
なお、線形補間部21によるインドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとの統合の際には、前述の素性関数1〜4に対して次式を適用した。
h(e、f)=μoutout(e、f)+(1−μout)hin(e、f)
ここで、hin(e、f)はインドメイン翻訳モデルの素性関数であり、hout(e、f)はアウトオブドメイン翻訳モデルの素性関数である。またμoutは、hout(e、f)に対する重みである。このμoutが、前述の線形補間の際に用いる重みである。
最後に、その生成された線形補間翻訳モデルの評価について説明する。図4と図5に実験結果を示す。横軸はアウトオブドメイン翻訳モデルへの重み(前述のμout)であり、縦軸は訳質の自動評価値を示す。図4において、訳質の自動評価値はBLEUスコアであり、図5において、訳質の自動評価値はNISTスコアである。図4,図5における太い破線は、ベースラインのシステムでの性能である。このベースラインは、インドメイン対訳コーパスと、全てのアウトオブドメイン対訳コーパスとをデータレベルで混合し、線形補間を用いることなく、1つの翻訳モデルを学習した結果である。また,図4,図5における5つのシンボルは、アウトオブドメイン対訳コーパスから選択した対訳文のコーパスサイズ(対訳文の数)を表している。また、ここでの対訳文の選択には、前述のように、目的言語側の情報のみを用いている。
図4を見ると、データサイズが1.2Mであり、重みが0.7である場合に、BLEUスコアが最も高くなっている。次に、図5を見ると、ベースラインによるアウトオブドメインデータの利用では、NISTスコアの改善が得られていない。また、各データサイズにおける最適重みも、図4の場合と異なっている。しかしながら、データサイズが1.2Mの場合に最も高いスコアが得られるという点では、図4の結果と一致している。
これまでの結果は、目的言語側の情報のみを用いて対訳文の選択を行った場合の結果である。ここで、図6に、目的言語の言語モデル、原言語の言語モデル、両者の言語モデルのそれぞれにより対訳文の選択を行った結果を示す。図6において、1行目はインドメイン対訳コーパスのみを用いた結果である。2行目はベースラインの結果(線形補間は行っていない)である。3行目は対訳文の選択を行わず、線形補間のみを用いた結果である。
図6から、目的言語の言語モデルを用いた場合が最も性能が高く、線形補間のみを用いた場合よりも高いスコアとなっていることがわかる。一方、原言語のみの言語モデルを用いた場合や、原言語と目的言語の両方の言語モデルを用いた場合には、目的言語の言語モデルのみを用いた場合よりも性能が劣るものの、ベースラインからの性能改善は大きいと言える。
図7は、選択した対訳文の数が1.2Mの場合と、ベースラインの場合との翻訳モデルのサイズを示す図である。この翻訳モデルのサイズは、Pharaohツールキットによる学習で得られたフレーズテーブルのファイルを解凍した状態でのファイルサイズである。図7で示されるように、本実施の形態による方法を用いることで、翻訳モデルのサイズを半分にまで縮小できることがわかる。
これらの結果から、本実施の形態による翻訳モデルの生成方法では、翻訳モデルの学習に用いるコーパスのサイズを48%にまで縮小させることができた。また、その縮小されたコーパスにより得られた翻訳モデルのサイズは、本実施の形態による方法を適用しない場合の50%のサイズとなった。このように、本実施の形態による情報処理装置1では、学習するコーパスのサイズも、学習結果のモデルのサイズも小さくすることができる。その結果、学習にかかる時間を短縮することができ、また、翻訳モデルの大きさを小さくできたことにより、機械翻訳時の処理を高速化することが可能となる。
また、本実施の形態による手法では,学習データや翻訳モデルのサイズ縮小だけでなく、BLEUスコアで1.76%の改善(線形補間で1.61%、対訳文の選択で0.15%の改善)が得られることが示された。
図4〜図6の結果から、線形補間部21では、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとの重みの比が0.4:0.6〜0.2:0.8の範囲(すなわち、前述のμoutが0.6〜0.8の範囲)の重みを用いる場合に評価が高くなっているが、この重みの値は、インドメイン対訳コーパスやアウトオブドメイン対訳コーパスに依存する。したがって、最適な重みの値は、インドメイン対訳コーパスやアウトオブドメイン対訳コーパスごとに算出したものを用いるようにしてもよい。
なお、前述の非特許文献2の方法によれば、28%の翻訳モデルのサイズの縮小(2.41Gバイトのモデルが1.74Gバイトのモデルとなった)と、BLEUスコアで1%の改善(BLEUスコアが23.63%から24.63%となった)とが得られている。もちろん、実験系の相違があるため、非特許文献2の結果と、本実施の形態による実験結果とをそのまま比較することはできないが、それでも、本実施の形態による実験結果の方が、BLEUスコアでの改善、翻訳モデルのサイズの縮小の双方において非特許文献2の結果よりも勝っているため、本実施の形態による方法の方が、非特許文献2の方法よりも優れている可能性が高いと考えられる。
また、前述の非特許文献1の方法を翻訳モデルの生成に応用したものと、本実施の形態による方法とを比較した場合に、前述の非特許文献1では、アウトオブドメイン対訳コーパスのサブコーパスと、インドメイン対訳コーパスとの類似情報を算出するのに対して、本実施の形態では、アウトオブドメイン対訳コーパスの各対訳文と、インドメイン対訳コーパスとの類似情報を算出するため、類似情報の算出をより細かく行うことができ、その結果、より精度の高い対訳文の選択を行うことができ、より性能のよい翻訳モデルを得ることができると推察することができる。さらにまた、非特許文献1の方法では、アウトオブドメイン対訳コーパスをサブコーパスに分割する処理を行うが、この処理は非常に負荷の高いものであり、本実施の形態による方法では、その処理を行わなくてよいため、処理負荷が軽減されることになる。また、非特許文献1の方法では、アウトオブドメイン対訳コーパスをサブコーパスに分割したすべてのサブコーパスについて言語モデルを生成しなければならないため、実質的にアウトオブドメイン対訳コーパスの全体に対して言語モデルを生成するのと同程度の処理を行わなければならないが、本実施の形態による方法によれば、アウトオブドメイン対訳コーパスよりも格段に規模の小さいインドメイン対訳コーパスについてのみ言語モデルを生成するため、言語モデルの生成に必要な処理が本実施の形態の方が少なくなるというメリットもある。
以上のように、本実施の形態による情報処理装置1によれば、類似情報を用いて翻訳モデルの学習に用いる対訳文を選択することによって、翻訳性能を劣化させることなく、学習コーパスを小規模化することができる。その結果、翻訳モデルを生成する処理負担を軽減することができる。また、機械翻訳に用いる翻訳モデルを小規模化することができ、機械翻訳の処理に要する処理負担も軽減することができる。また、実験の結果、翻訳モデルを学習する際の学習コーパスを小規模化したとしても、翻訳モデルの性能を十分担保することができており、さらに、大規模なコーパスを用いた場合よりも、性能を改善できうることがわかった。
なお、本実施の形態では、情報処理装置1が機械翻訳部23を備える構成について説明したが、情報処理装置1は、機械翻訳部23を備えていなくてもよい。その場合に、情報処理装置1は、線形補間翻訳モデルを、機械翻訳を行う他の装置等に出力する出力部(図示せず)をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
また、本実施の形態では、図1で示されるように、情報処理装置1がインドメイン翻訳モデル、アウトオブドメイン翻訳モデル、線形補間翻訳モデルの生成、蓄積の処理も行う場合について説明したが、情報処理装置1は、対訳文の選択までの処理を行うものであり、インドメイン翻訳モデル、アウトオブドメイン翻訳モデル、線形補間翻訳モデルの生成、蓄積の処理は、他の装置において行われてもよい。その場合には、情報処理装置1は、インドメイン翻訳モデル生成部17、インドメイン翻訳モデル記憶部18、アウトオブドメイン翻訳モデル生成部19、アウトオブドメイン翻訳モデル記憶部20、線形補間部21、線形補間翻訳モデル記憶部22を備えなくてもよい。情報処理装置1が対訳文の選択までの処理を行うものである場合に、情報処理装置1は、その選択された対訳文から構成される部分コーパスや、その選択された対訳文を識別可能な情報を出力する出力部(図示せず)をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
(実施の形態2)
本発明の実施の形態2による情報処理装置について、図面を参照しながら説明する。本実地の形態による情報処理装置は、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とから翻訳モデルを生成するものである。
図8は、本実施の形態による情報処理装置3の構成を示すブロック図である。本実施の形態による情報処理装置3は、インドメイン対訳コーパス記憶部11と、言語モデル生成部12と、言語モデル記憶部13と、アウトオブドメイン対訳コーパス記憶部14と、類似情報算出部15と、選択部16と、翻訳モデル生成部31と、翻訳モデル記憶部32と、機械翻訳部33とを備える。なお、翻訳モデル生成部31、翻訳モデル記憶部32、機械翻訳部33以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。
翻訳モデル生成部31は、インドメイン対訳コーパス記憶部11で記憶されているインドメイン対訳コーパスと、アウトオブドメイン対訳コーパス記憶部14で記憶されているアウトオブドメイン対訳コーパスから選択部16が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、翻訳モデル記憶部32に蓄積する。なお、翻訳モデル生成部31は、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択された複数の対訳文とをあわせたコーパスをまず構成した後に、翻訳モデルを生成してもよく、あるいは、インドメイン対訳コーパス記憶部11と、アウトオブドメイン対訳コーパス記憶部14とを参照しながら、翻訳モデルを生成してもよい。なお、翻訳モデルを生成する方法としては、公知の方法を用いることができ、その詳細な説明を省略する。
翻訳モデル記憶部32では、翻訳モデルが記憶される。この翻訳モデルは、翻訳モデル生成部31が生成したものである。翻訳モデル記憶部32での記憶は、翻訳モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。翻訳モデル記憶部32は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
機械翻訳部33は、翻訳モデル記憶部32で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う。機械翻訳部33は、実施の形態1の機械翻訳部23と同様のものであり、その説明を省略する。
なお、翻訳モデル記憶部32も、他の1以上の記憶部と同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。
次に、本実施の形態による情報処理装置3の動作について、図9のフローチャートを用いて説明する。なお、図9のフローチャートにおいて、ステップS201以外の処理は、実施の形態1の図2のフローチャートと同様であり、その説明を省略する。
(ステップS201)翻訳モデル生成部31は、インドメイン対訳コーパスと、アウトオブドメイン対訳コーパスから選択部16が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、翻訳モデル記憶部32に蓄積する。
なお、本実施の形態による情報処理装置3の動作の具体例は、機械翻訳で用いる翻訳モデルを、線形補間によって生成するのではなく、インドメイン翻訳モデルと、アウトオブドメイン翻訳モデルとから直接生成する以外は、実施の形態1の具体例と同様であり、その説明を省略する。
以上のように、本実施の形態による情報処理装置3によれば、実施の形態1と同様に、類似情報を用いて翻訳モデルの学習に用いる対訳文を選択することによって、翻訳性能を劣化させることなく、学習コーパスを小規模化することができる。また、本実施の形態でも、対訳文の選択を行うことによって、翻訳モデルの性能が改善すると考えられる。例えば、実施の形態1で説明した実験結果によれば、対訳文の選択によって、BLEUスコアが0.15%だけ改善すると考えられる。
なお、本実施の形態では、情報処理装置3が機械翻訳部33を備える構成について説明したが、情報処理装置3は、機械翻訳部33を備えていなくてもよい。その場合に、情報処理装置3は、翻訳モデルを、機械翻訳を行う他の装置に出力する出力部(図示せず)をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
また、本実施の形態では、図8で示されるように、情報処理装置3が翻訳モデルの生成、蓄積の処理も行う場合について説明したが、情報処理装置3は、対訳文の選択までの処理を行うものであり、翻訳モデルの生成、蓄積の処理は、他の装置において行われてもよい。その場合には、情報処理装置3は、翻訳モデル生成部31や翻訳モデル記憶部32を備えなくてもよい。情報処理装置3が対訳文の選択までの処理を行うものである場合に、情報処理装置3は、その選択された対訳文から構成される部分コーパスや、その選択された対訳文を識別可能な情報を出力する出力部(図示せず)をさらに備えてもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
なお、上記各実施の形態では、情報処理装置1,3がインドメイン言語モデルの生成、蓄積の処理も行う場合について説明したが、情報処理装置1,3は、インドメイン言語モデルの生成を行わなくてもよい。情報処理装置1,3がインドメイン言語モデルの生成を行わない場合には、例えば、別の装置で生成されたインドメイン言語モデルが言語モデル記憶部13に蓄積されるものとする。また、情報処理装置1,3がインドメイン言語モデルの生成を行わない場合には、情報処理装置1,3は、インドメイン対訳コーパス記憶部11や言語モデル生成部12を備えなくてもよい。
また、上記各実施の形態において、インドメイン対訳コーパス、アウトオブドメイン対訳コーパス、インドメイン言語モデル、インドメイン翻訳モデル、アウトオブドメイン翻訳モデル、線形補間翻訳モデル等は、本来は、インドメイン対訳コーパスの情報、アウトオブドメイン対訳コーパスの情報等と記載すべきであるが、単に、インドメイン対訳コーパス、アウトオブドメイン対訳コーパス等と記載した。
また、上記各実施の形態では、情報処理装置がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、情報処理装置に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部で記憶されているインドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部として機能させるためのものである。
また、このプログラムにおいて、コンピュータを、前記インドメイン対訳コーパスが記憶されるインドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、前記言語モデル記憶部に蓄積する言語モデル生成部としてさらに機能させてもよい。
また、このプログラムにおいて、コンピュータを、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、インドメイン翻訳モデル記憶部に蓄積するインドメイン翻訳モデル生成部と、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、アウトオブドメイン翻訳モデル記憶部に蓄積するアウトオブドメイン翻訳モデル生成部と、前記インドメイン翻訳モデル記憶部で記憶されているインドメイン翻訳モデルと、前記アウトオブドメイン翻訳モデル記憶部で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、線形補間翻訳モデル記憶部に蓄積する線形補間部としてさらに機能させてもよい。
また、このプログラムにおいて、コンピュータを、前記線形補間翻訳モデル記憶部で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部としてさらに機能させてもよい。
また、このプログラムにおいて、コンピュータを、前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、翻訳モデル記憶部に蓄積する翻訳モデル生成部としてさらに機能させてもよい。
また、このプログラムにおいて、コンピュータを、前記翻訳モデル記憶部で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部としてさらに機能させてもよい。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、各構成要素におけるハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図10は、上記プログラムを実行して、上記各実施の形態による情報処理装置を実現するコンピュータの外観の一例を示す模式図である。上記各実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
図10において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
図11は、コンピュータシステムを示す図である。図11において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム100に、上記各実施の形態による情報処理装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ101に、上記各実施の形態による情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による情報処理装置等によれば、翻訳モデルの学習に用いる対訳文を選択することによって、翻訳性能を劣化させることなく、学習コーパスを小規模化することができるという効果が得られ、例えば、大きなコーパスから、そのコーパスよりも小さなコーパスを生成する装置等として有用である。
本発明の実施の形態1による情報処理装置の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態で用いる対訳コーパスの一例について説明するための図 同実施の形態におけるBLEUスコアの一例を示す図 同実施の形態におけるNISTスコアの一例を示す図 同実施の形態における対訳文の選択で用いる言語モデルに関する対比について説明するための図 同実施の形態におけるフレーズテーブルのサイズについて説明するための図 本発明の実施の形態2による情報処理装置の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート コンピュータシステムの外観一例を示す模式図 コンピュータシステムの構成の一例を示す図
符号の説明
1、3 情報処理装置
11 インドメイン対訳コーパス記憶部
12 言語モデル生成部
13 言語モデル記憶部
14 アウトオブドメイン対訳コーパス記憶部
15 類似情報算出部
16 選択部
17 インドメイン翻訳モデル生成部
18 インドメイン翻訳モデル記憶部
19 アウトオブドメイン翻訳モデル生成部
20 アウトオブドメイン翻訳モデル記憶部
21 線形補間部
22 線形補間翻訳モデル記憶部
23、33 機械翻訳部
31 翻訳モデル生成部
32 翻訳モデル記憶部

Claims (10)

  1. 所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部と、
    前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部と、
    前記インドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、
    前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部と、を備えた情報処理装置。
  2. 前記類似情報算出部は、前記インドメイン言語モデルを用いて、前記アウトオブドメイン対訳コーパスに含まれる文のエントロピーを求めることによって類似情報を算出する、請求項1記載の情報処理装置。
  3. 前記インドメイン言語モデルは、原言語の言語モデルと目的言語の言語モデルとの少なくとも一方を含むものであり、
    前記類似情報算出部は、前記アウトオブドメイン対訳コーパスに含まれる文のうち、前記該インドメイン言語モデルに含まれる言語モデルと同じ言語の文と、前記インドメイン言語モデルとを用いて前記類似情報を算出する、請求項1または請求項2記載の情報処理装置。
  4. 前記インドメイン対訳コーパスが記憶されるインドメイン対訳コーパス記憶部と、
    前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン言語モデルを生成して、前記言語モデル記憶部に蓄積する言語モデル生成部と、をさらに備えた、請求項1から請求項3のいずれか記載の情報処理装置。
  5. 前記インドメイン対訳コーパスから生成された翻訳モデルであるインドメイン翻訳モデルが記憶されるインドメイン翻訳モデル記憶部と、
    前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスからインドメイン翻訳モデルを生成し、前記インドメイン翻訳モデル記憶部に蓄積するインドメイン翻訳モデル生成部と、
    前記アウトオブドメイン対訳コーパスの少なくとも一部の対訳文から生成された翻訳モデルであるアウトオブドメイン翻訳モデルが記憶されるアウトオブドメイン翻訳モデル記憶部と、
    前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文を用いてアウトオブドメイン翻訳モデルを生成し、前記アウトオブドメイン翻訳モデル記憶部に蓄積するアウトオブドメイン翻訳モデル生成部と、
    前記インドメイン翻訳モデルと前記アウトオブドメイン翻訳モデルとが線形補間された翻訳モデルである線形補間翻訳モデルが記憶される線形補間翻訳モデル記憶部と、
    前記インドメイン翻訳モデル記憶部で記憶されているインドメイン翻訳モデルと、前記アウトオブドメイン翻訳モデル記憶部で記憶されているアウトオブドメイン翻訳モデルとを線形補間し、前記線形補間翻訳モデル記憶部に蓄積する線形補間部と、をさらに備えた請求項4記載の情報処理装置。
  6. 前記線形補間翻訳モデル記憶部で記憶されている線形補間翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えた、請求項5記載の情報処理装置。
  7. 翻訳モデルが記憶される翻訳モデル記憶部と、
    前記インドメイン対訳コーパス記憶部で記憶されているインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスから前記選択部が選択した複数の対訳文とをあわせたコーパスから翻訳モデルを生成し、前記翻訳モデル記憶部に蓄積する翻訳モデル生成部と、をさらに備えた請求項4記載の情報処理装置。
  8. 前記翻訳モデル記憶部で記憶されている翻訳モデルを用いて、原言語から目的言語への機械翻訳を行う機械翻訳部をさらに備えた、請求項7記載の情報処理装置。
  9. 所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部と、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部と、類似情報算出部と、選択部とを用いて処理される情報処理方法であって、
    前記類似情報算出部が、前記インドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記アウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出ステップと、
    前記選択部が、前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択ステップと、を備えた情報処理方法。
  10. コンピュータを、
    所望のタスクに一致したドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるインドメイン対訳コーパスから生成された言語モデルであるインドメイン言語モデルが記憶される言語モデル記憶部で記憶されているインドメイン言語モデルを用いて、当該インドメイン言語モデルの生成で用いられたインドメイン対訳コーパスと、前記所望のタスクと異なるドメインのコーパスであり、原言語の文と目的言語の文とを対応付けた対訳文を複数有するコーパスであるアウトオブドメイン対訳コーパスが記憶されるアウトオブドメイン対訳コーパス記憶部で記憶されているアウトオブドメイン対訳コーパスに含まれる各文との類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部と、
    前記類似情報を用いて、前記インドメイン対訳コーパスと類似性の高い複数の対訳文を前記アウトオブドメイン対訳コーパスから選択する選択部として機能させるためのプログラム。
JP2007228588A 2007-09-04 2007-09-04 情報処理装置、情報処理方法、及びプログラム Pending JP2009064051A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007228588A JP2009064051A (ja) 2007-09-04 2007-09-04 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007228588A JP2009064051A (ja) 2007-09-04 2007-09-04 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2009064051A true JP2009064051A (ja) 2009-03-26

Family

ID=40558612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007228588A Pending JP2009064051A (ja) 2007-09-04 2007-09-04 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2009064051A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087796A (ja) * 2013-10-28 2015-05-07 株式会社Nttドコモ 質問分野判定装置及び質問分野判定方法
JP2017049917A (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、およびプログラム
JP2018173846A (ja) * 2017-03-31 2018-11-08 株式会社Kddi総合研究所 ユーザ属性に応じて言語モデルを選択する言語処理装置、プログラム及び方法
CN110889295A (zh) * 2019-09-12 2020-03-17 华为技术有限公司 机器翻译模型、伪专业平行语料的确定方法、系统及设备
JP2021096807A (ja) * 2019-12-13 2021-06-24 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. 機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
JP7472421B2 (ja) 2021-11-16 2024-04-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087796A (ja) * 2013-10-28 2015-05-07 株式会社Nttドコモ 質問分野判定装置及び質問分野判定方法
JP2017049917A (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、およびプログラム
WO2017038996A1 (ja) * 2015-09-04 2017-03-09 国立研究開発法人情報通信研究機構 単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、および記録媒体
JP2018173846A (ja) * 2017-03-31 2018-11-08 株式会社Kddi総合研究所 ユーザ属性に応じて言語モデルを選択する言語処理装置、プログラム及び方法
CN110889295A (zh) * 2019-09-12 2020-03-17 华为技术有限公司 机器翻译模型、伪专业平行语料的确定方法、系统及设备
CN110889295B (zh) * 2019-09-12 2021-10-01 华为技术有限公司 机器翻译模型、伪专业平行语料的确定方法、系统及设备
JP2021096807A (ja) * 2019-12-13 2021-06-24 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. 機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体
JP7112445B2 (ja) 2019-12-13 2022-08-03 北京小米智能科技有限公司 機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体
US11507888B2 (en) 2019-12-13 2022-11-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Training method and device for machine translation model and storage medium
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
JP7472421B2 (ja) 2021-11-16 2024-04-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体

Similar Documents

Publication Publication Date Title
KR101623891B1 (ko) 기계 번역을 위한 파라미터들의 최적화
US7797148B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
JP4762103B2 (ja) 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置
US9176936B2 (en) Transliteration pair matching
Wang et al. A beam-search decoder for normalization of social media text with application to machine translation
WO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2009064051A (ja) 情報処理装置、情報処理方法、及びプログラム
US20120262461A1 (en) System and Method for the Normalization of Text
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
US20230223009A1 (en) Language-agnostic Multilingual Modeling Using Effective Script Normalization
US20110218796A1 (en) Transliteration using indicator and hybrid generative features
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
JP5319141B2 (ja) 言語モデルの枝刈り方法及び装置
CN110472241B (zh) 生成去冗余信息句向量的方法及相关设备
JP5791097B2 (ja) 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP6478382B2 (ja) 翻訳装置
CN115860009A (zh) 一种引入辅助样本进行对比学习的句子嵌入方法及系统
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
JP4340024B2 (ja) 統計的言語モデル生成装置および統計的言語モデル生成プログラム
US20110071835A1 (en) Small footprint text-to-speech engine
Hasan et al. Reranking translation hypotheses using structural properties
JP6192098B2 (ja) 対訳フレーズ学習装置、統計的機械翻訳装置、対訳フレーズ学習方法、およびプログラム