JP6946842B2

JP6946842B2 - モデル学習装置、変換装置、方法、及びプログラム

Info

Publication number: JP6946842B2
Application number: JP2017156514A
Authority: JP
Inventors: 永田　昌明; 昌明永田; 峻輔竹野; 和英山本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2021-10-13
Anticipated expiration: 2037-08-14
Also published as: JP2019036093A

Description

本発明は、モデル学習装置、変換装置、方法、及びプログラムに係り、特に、入力された入力文を出力文に変換するためのモデル学習装置、変換装置、方法、及びプログラムに関する。

ニューラルネットを用いたニューラル機械翻訳システムが出力する文をユーザが制御することは難しい。入力単語やニューラルネットの内部状態は、500次元から1000次元程度の実数ベクトルで表現されるので、ユーザが内容を理解し、操作できるような記号がシステムの内部には全く存在しない。機械翻訳を実現するニューラルネット（確率モデル）は、原言語文（入力文,入力単語列）と目的言語文（出力文,出力単語列）の対だけから学習される。これをend-to-end 学習という。End-to-end学習を行うニューラル機械翻訳システムは完全なブラックボックスであり、開発者が誤りの原因を分析したり、ユーザが出力を思い通りに変更することは非常に困難である。

［アテンション付きエンコーダデコーダモデル］
まず現在のニューラル機械翻訳の主流である、アテンション付きエンコーダデコーダモデル（attention-based encoder-decoder model,注意付き符号器復号器モデル）について説明する（非特許文献１、非特許文献５参照）。

入力系列を

、モデルパラメタをθとするとき、エンコーダデコーダモデルは、出力系列

の尤度を（１）式のように定式化する。

・・・（１）

ここで、＜ｊは、ｊ以前の全ての単語を考慮することを意味する。

エンコーダ（encoder,符号器）は、非線形変換により入力系列xを内部状態系列（hidden states,隠れ層の状態）

に写像するリカレントニューラルネットワーク（recurrent neural network）である。デコーダ（decoder,復号器）は、出力系列ｙを文頭から一つずつ予測するリカレントニューラルネットワークである。エンコーダデコーダモデルは、確率的勾配降下法（stochastic gradient descent, SGD）を使って以下（２）式のように対訳データＤの条件付き尤度を最大化するように学習される。

・・・（２）

アテンション付きエンコーダデコーダモデルは、アテンション層（attention layer）と呼ばれるフィードフォワードニューラルネットワーク（feed-forward neural network）を持つエンコーダデコーダモデルである。アテンション層は、直前の目的言語の単語ｙ_ｊ−１から次の単語ｙ_ｊを予測する際に使用する、エンコーダの各内部状態ｈ_ｉ（すなわち原言語の各単語ｘ_ｉ）に対する重みを、直前のデコーダの内部状態とエンコーダの各内部状態に基づいて計算する。

以上がアテンション付きエンコーダデコーダモデルについての説明である。

次に、機械翻訳で考慮される各種の手法についてそれぞれ説明する。

［付加制約］
Sennrichらは、英語からドイツ語への翻訳において目的言語文の丁寧さを制御する方法として付加制約（side constraints）を提案した（非特許文献６）。この方法では、目的言語文におけるラテン語のTuのような親称（familiar）とラテン語のVosのような敬称（polite）の使用を区別するT-Vタグ（T-V distinction tag）を、原言語文の末尾に付加する。

付加制約は、目的言語文が満たすべき特徴を表現する特別な記号（special token）を原言語文の文末に付与することにより、ユーザが生成される目的言語文を制御する一般的な方法と考えることができる。

翻訳モデルを訓練（training,学習）する際には、付加制約は、原言語文と目的言語文の対から何らかの方法で自動的に抽出される。翻訳を実行（test）する際には、ユーザが付加制約を指定する必要がある。入力文（目的言語文）から付加制約を自動的に求める一般的な方法は存在せず、付加制約ごとに個別に問題を解決しなければならない。

Johnsonらは、一対多の多言語翻訳モデルを学習する際に生成すべき目的言語を指定する方法として付加制約を用いている（非特許文献２参照）。これは以下の例のように、目的言語であるスペイン語を表す特別な記号を、原言語の先頭に付加する。

ただし非特許文献２では、以下の例のように翻訳モデルを学習する際には原言語文を反転させているので、実際には特別な記号は原言語側の末尾に付加されている。

［接頭辞制約付きデコーディング］

Webkerらは、エンコーダデコーダモデルに基づくニューラル機械翻訳において、ユーザが指定した接頭辞（prefix）と出力文の接頭辞が一致するという制約の下で出力文を生成する接頭辞制約付きデコーディング（prefix-constrained decoding）を提案している（非特許文献８参照）。彼らはこれを対話的機械翻訳（interactive machine translation）に用いている。

接頭辞制約付きデコーディングの実装は非常に簡単であり、デコーダが次の単語を予測する際に、デコーダが予測した直前の単語を無視して、代わりに接頭辞中の対応する位置の単語を入力に用いるだけである。接頭辞が終了したら、通常のビーム探索（beam search）によるデコーディングに戻る。すなわち、直前の単語として最も確率が高かった単語候補を次の単語の予測に使用する。

［双方向デコーディング］
一般に、ニューラル機械翻訳では、目的言語側を生成する際に、文頭から文末方向（左から右,left-to-right）に生成した結果と文末から文頭方向（右から左,right-to-left）に生成した結果が異なる。この性質を利用して、翻訳精度の向上を図ることを双方向デコーディング（bidirectional decoding）と呼ぶ。

Liuらは、ニューラル翻訳において目的言語側を生成する際に、左から右に生成した結果と右から左に生成した結果が一致するような文候補を近似的に探索することにより翻訳精度が向上すると報告している（非特許文献４参照）。彼らはこれを目的言語双方向ニューラル機械翻訳（Target-bidirectional Neural Machine Translation）と呼んでいる。

非特許文献４の方法は、具体的には、目的言語文を左から右に生成する翻訳モデルと右から左へ生成する翻訳モデルを学習し、それぞれの翻訳モデルを用いてビーム探索によりk-best文候補を作成し、両者の共通集合となる文候補の中から、二つの翻訳モデルが与える確率の積が最大となる文候補を選ぶ。

非特許文献４の方法では、双方向デコーディングを実現するために、二つの翻訳モデルを用意し、通常のデコーディングに加えて、二つの翻訳結果が一致する候補を探索する手段を用意する必要がある。

［領域適応］
一般に翻訳対象となる領域（domain）の対訳データを大量に用意できない場合、翻訳対象とは異なる領域の対訳データを利用して翻訳精度の向上を図る。これを領域適応（domain adaptation）と呼ぶ。

Kobusらは、情報通信、文学、医療、ニュース、国会議事録、観光などの異なる領域（domain）から構成される対訳データにおいて、原言語文が所属する領域を領域タグ（domain tag）で表現して付加制約として原言語の文末に付加し、すべての領域の対訳データから一つの翻訳モデルを学習し、テスト時には原言語文が所属する領域を自動推定して領域タグを付加することにより、翻訳精度が向上すると報告している（非特許文献３参照）。

入力文（目的言語文）から付加制約を自動的に求める一般的な方法は存在しないので、非特許文献３では、TF-IDFに基づく特徴量を利用した分類器を作成し、原言語文が所属する領域を自動的に決定している。

［ゼロ代名詞の英語への翻訳］
日本語や中国語のように文脈から了解可能な主語を省略するpro-drop 言語から、英語のような主語が必須である（主語の省略を許さない）non-pro-drop言語への翻訳では、原言語文において省略された主語や目的語を検出し、これに対応する主語や目的語を目的言語文で生成する必要がある。

省略された主語や目的語のことをゼロ代名詞（zero pronoun）と呼ぶ。

Wangらは、中国語から英語への翻訳において、対訳データから自動作成した単語対応と原言語（中国語）の言語モデルを用いて、英語において明示されている代名詞から、中国語において省略されている代名詞の種類と位置を推定する手法を提案し、この手法を用いて訓練データとテストデータにおける原言語（中国語）のゼロ代名詞を推定（補完）した後にニューラル翻訳を行うことにより翻訳精度が向上すると報告している（非特許文献７参照）。

非特許文献７の手法では、（主語人称代名詞, 我, him）（目的語人称代名詞,他,him）のように、ゼロ代名詞の種類、そのゼロ代名詞と等価な原言語の代名詞、そのゼロ代名詞に対応する目的言語の代名詞の組から構成されるリストを予め与えなければならない。

また彼らの手法は、原言語におけるゼロ代名詞の推定と原言語から目的言語への翻訳を独立した２つの課題として扱っている。

［欠落語（目的言語不対応語）の同定］
竹野らは、日本語や中国語におけるゼロ代名詞を英語の代名詞へ翻訳する問題を包含し一般化した課題として、欠落語（missing word）の予測を定義し、対訳データから求めた単語翻訳確率を用いて欠落語を同定する方法を提案している（非特許文献９）。非特許文献９では、互いに翻訳になっている文の対が与えられた際に、相手の言語には対応する単語が存在しない単語を不対応語（unaligned word）と呼び、特に目的言語文に存在する不対応語を欠落語（missing word）と呼んでいる。

図１は、日本語と英語の翻訳における不対応語の例である。一般に、「が」、「を」、「に」などの日本語の格助詞や「a」、「an」、「the」などの英語の冠詞は相手の言語に対応する単語が存在しない。このような二つの言語間の文法機能の違いだけでなく、一つの言語の特定の言語現象や構文が原因となって生じる不対応語もある。例えば日本語のゼロ代名詞（省略された主語や目的語）、英語の虚辞（expletive）、すなわち、there 構文のthere、疑問文のdo、形式主語のitなどである。

目的言語文に存在する不対応語は、それを生成するための単語が原言語文に明示的に存在しないので、機械翻訳において正しく翻訳（生成）することが非常に難しい。非特許文献９ではこれらを欠落語と呼んでいるが、言語学的な観点では、これらは必ずしも原言語文において欠落している要素ではないので、ここではこれらを目的言語不対応語（unaligned target word）と呼ぶことにする。

非特許文献９では、以下のようにして目的言語不対応語を同定している。原言語をf、目的言語をe、空単語（empty word）をNULLとするとき、まずGiza++等の自動単語対応付けソフトウェアを用いて対訳データから単語翻訳確率p（e|f）とp（f|e）を求める。次に原言語fの単語NULLが目的言語eの単語wに対応する度合いを表すスコアS_u（w）を以下（３）式のように定義し、このスコアが大きな順に上位n個の単語のリストを目的言語不対応語のリストとする。

・・・（３）

次に、各対訳文対において、単語対応付けソフトウェアを用いて目的言語文において原言語文に対応する単語が存在しない単語を求め、これらの単語のうち、上記で定めた目的言語不対応語の候補リストに含まれているものを、この対訳文対における目的言語不対応語とする。

非特許文献９では、目的言語不対応語を原言語文中の適切な位置へ投射した「オラクル入力文」を作成し、オラクル入力文と目的言語文の対から学習した翻訳モデルを用いてオラクル入力文を翻訳すると、翻訳精度が大きく向上することを示した。ただし、これは目的言語文（翻訳の正解）を見ながら原言語文（入力文）に目的言語不対応語を追加しているので、目的言語不対応語の扱いを工夫すれば、翻訳精度を向上できる余地があることを示しているものである。実際の翻訳では、原言語文の情報だけから目的言語不対応語を予測する必要がある。

Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR-2015, 2015. Melvin Johnson, Mike Schuster, Quoc V Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Viegas, Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean.Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation.arXiv preprint arXiv:1611.04558, 2016. Catherine Kobus, Josep Maria Crego, and Jean Senellart. Domain control for neural machine translation. arXiv preprint arXiv:1612.06140, 2016. Lemao Liu, Masao Utiyama, Andrew Finch, and Eiichiro Sumita. Agreement on targetbidirectional neural machine translation. In Proceedings of the NAACL-HLT, pp. 411-416, 2016. Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attentionbased neural machine translation. In EMNLP-2015, 2015. Rico Sennrich, Barry Haddow, and Alexandra Birch. Controlling Politeness in Neural Machine Translation via Side Constraints. In Proceedings of NAACL-HLT-2016, pp. 35-40, 2016. Longyue Wang, Zhaopeng Tu, Xiaojun Zhang, Hang Li, Andy Way, and Qun Liu. A Novel Approach to Dropped Pronoun Translation. In Proceedings of the NAACL-2016, pp. 983-993,2016. Joern Wuebker, Spence Green, John DeNero, Sasa Hasan, and Minh-Thang Luong. Models and Inference for Prefix-Constrained Machine Translation. In Proceedings of the ACL-2016, pp. 66-5, 2016. 竹野峻輔, 永田昌明, 山本和英. 単語対応を利用した欠落語の投射による機械翻訳向きのオラクル入力文の生成. 信学技法vol. 116, no. 379, NLC2016-38, pp., pp. 135-140, 2016.

上記において挙げた各種の手法については、双方向デコーディング、領域適応、及びゼロ代名詞の翻訳を一般化した問題を例にした目的言語不対応語の生成において、次のような課題が考えられる。

双方向デコーディングに関しては、「左から右」および「右から左」の二つの翻訳モデルを用意し、通常のデコーディングに加えて、二つデコーディング方向の翻訳結果が一致する候補を探索する手段を用意することが煩雑であるという課題がある。

領域適応に関しては、原言語文が所属する領域を自動的に同定する手段を別途用意することが煩雑であるという課題がある。

目的言語不対応語の生成に関しては、原言語文の情報だけから目的言語不対応語の予測翻訳精度を改善できる余地があることは分かっているが、原言語文の情報だけから目的言語不対応語を予測する方法が知られていないという課題がある。

本発明は、上記問題点を解決するために成されたものであり、入力文から、入力文と出力文との組に関する特徴の予測と、出力文の生成とを同時に行うためのモデルを学習できるモデル学習装置、方法、及びプログラムを提供することを目的とする。

また、入力文から、入力文と出力文との組に関する特徴の予測と、出力文の生成とを同時に行うことができる変換装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係るモデル学習装置は、入力文と、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列を接頭辞として先頭に付加された前記出力文とに基づいて、前記入力文を、前記接頭辞が先頭に付加された前記出力文に変換するための変換モデルを学習するモデル学習部、を含んで構成されている。

また、第２の発明に係るモデル学習装置は、入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列から構成される接頭辞と、前記出力文とに基づいて、前記出力文に対して、前記接頭辞に応じて定められた処理を実行した処理結果の先頭に、前記接頭辞を付加する文作成部と、前記入力文と、前記文作成部により前記接頭辞が先頭に付加された前記出力文の前記処理結果とに基づいて、前記入力文を、前記接頭辞が先頭に付加された前記出力文の前記処理結果に変換するための変換モデルを学習するモデル学習部と、を含んで構成されている。

また、第３の発明に係る変換装置は、予め学習された、入力文を、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列が接頭辞として先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換する変換部を含み、前記変換部は、前記入力文の単語系列を内部状態系列に変換するエンコーダと、前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対する内部状態の重み付き和を出力するアテンション層と、前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップ（時刻）の各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップで予測として出力された単語とを入力とするデコーダとを備える。

また、第４の発明に係る変換装置は、入力文と、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号からなる接頭辞とを入力とし、予め学習された、入力文を、前記接頭辞が先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換する変換部を含み、前記変換部は、前記入力文の単語系列を内部状態系列に変換するエンコーダと、前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対応する内部状態の重み付き和を出力するアテンション層と、前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップ（時刻）の各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップの予測として出力された単語とを入力とするデコーダとを備え、前記一つ前のステップで予測として出力された単語が、入力された接頭辞の対応する記号と異なる場合、前記入力された接頭辞の対応する記号を、前記一つ前のステップで予測として出力された単語の代わりとする。

本発明のモデル学習装置、方法、及びプログラムによれば、入力文と、入力文と出力文との組に関する特徴を表す情報である長さ１以上の接頭辞が先頭に付加された出力文とに基づいて、入力文を、接頭辞が先頭に付加された出力文に変換するための変換モデルを学習することにより、入力文から、入力文と出力文との組に関する特徴の予測と、出力文の生成とを同時に行うためのモデルを学習できる、という効果が得られる。

本発明の変換装置、方法、及びプログラムによれば、予め学習された、入力文を、入力文と出力文との組に関する特徴を表す情報である長さ１以上の接頭辞が先頭に付加された出力文に変換する変換モデルを用いて、入力文を接頭辞が先頭に付加された出力文に変換することにより、入力文から、入力文と出力文との組に関する特徴の予測と、出力文の生成とを同時に行うことができる、という効果が得られる。

日本語と英語の翻訳における不対応語の例を示す図である。本発明の第１の実施の形態に係るモデル学習装置の構成を示すブロック図である。学習される変換モデルの模式図の一例を示す図である。本発明の第１の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。本発明の第１の実施の形態に係る変換装置の構成を示すブロック図である。本発明の第１の実施の形態に係る変換装置における変換処理ルーチンを示すフローチャートである。本発明の第２の実施の形態に係るモデル学習装置の構成を示すブロック図である。本発明の第２の実施の形態に係る変換装置の構成を示すブロック図である。変換処理において、予測された単語が、入力された接頭辞の対応する記号と異なる場合の一例を示す図である。本発明の第２の実施の形態に係る変換装置における変換処理ルーチンを示すフローチャートである。本発明の第３の実施の形態に係る変換モデル学習装置の構成を示すブロック図である。本発明の第３の実施の形態に係る接頭辞作成部の構成を示すブロック図である。本発明の第３の実施の形態に係る変換装置における接頭辞作成処理ルーチンを示すフローチャートである。本発明の第３の実施の形態に係る変換装置の構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る原理＞

まず、本発明の実施の形態における原理を説明する。

本発明の実施の形態では、接頭辞制約の予測（prefix constraints prediction）、及び接頭辞制約付きデコーディング（prefix-constraint decoding）という汎用的な枠組みを提案する。さらに、この枠組みを用いて、領域適応、双方向デコーディング、及び目的言語不対応語の生成を実現する方法について、各実施形態において説明する。

［接頭辞制約の予測］
付加制約（side constraints）が原言語の文末に特別な記号を付加するのに対して、本発明の実施の形態では、特別な記号列を目的言語の先頭に付加することを提案する。これを接頭辞制約（prefix constraints）と呼ぶ。接頭辞制約の予測は、言い換えれば、原言語文から、特別な記号列を目的言語文の接頭辞（prefix）とする拡張された目的言語文への翻訳である。

原言語文ｘと目的言語文ｙの対から求めた特徴を記号で表現した系列を

とし、拡張された目的言語文を

とする。エンコーダデコーダモデルの（１）式を以下（４）式のように拡張する。

・・・（４）

（４）式は、デコーダが接頭辞ｃを生成した後に、目的言語文ｙを生成することを表す。

また、目的関数は以下（５）式のように拡張する。

・・・（５）

このようにして、元のアテンション付きエンコーダデコーダモデルのネットワークは何も変更せずに、特徴を表現する記号列を目的言語の先頭に接頭辞として付加するだけで、原言語文から、記号列の予測と目的言語文の生成を同時に行うことができるようになる。

［接頭辞制約の指定］

本発明の実施の形態では、接頭辞制約をユーザが外部から指定することも可能である。具体的には、特徴を表現する記号列を接頭辞とする接頭辞制約付きデコーディング（非特許文献８参照）を行う。これにより、言語文と接頭辞を入力とし、接頭辞を指定しながら、目的言語文へ翻訳する。

上記の手法により、原言語と目的言語の対に関する特徴を記号または記号列で表現し、この記号列の予測と目的言語文の生成を同時に行う枠組みを提供することができる。また、ユーザがこの記号列を指定し、その制約の下で目的言語文を生成する枠組みを提供することが可能である。この記号は、原言語と目的言語の対に関する特徴を表現するものであれば何でもよい。この記号の体系を適切に設計することにより、特定の問題に関して翻訳精度を向上させたり、ユーザが記号を指定することにより異なる目的言語文を生成することができる。

以下、双方向デコーディング、領域適応、及び目的言語不対応語の生成に対して、本実施の形態の手法を適用した場合について、第１〜第３の実施の形態においてそれぞれ説明する。

＜本発明の第１の実施の形態に係るモデル学習装置の構成＞

本発明の第１の実施の形態に係るモデル学習装置の構成について説明する。第１の実施の形態では、双方向デコーディングに、接頭辞制約の予測の手法を適用した場合を例に説明する。

図２に示すように、本発明の第１の実施の形態に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図２に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、原言語文と目的言語文とが互いに翻訳になっている対訳データを受け付ける。

演算部２０は、原言語文抽出部３０と、目的言語文抽出部３２と、接頭辞作成部３４と、文作成部３６と、変換モデル学習部３８と、変換モデル４０とを含んで構成されている。

原言語文抽出部３０は、入力部１０で受け付けた対訳データから原言語文を文ごとに抽出する。

目的言語文抽出部３２は、入力部１０で受け付けた対訳データから目的言語文を文ごとに抽出する。

接頭辞作成部３４は、入力部１０で受け付けた対訳データの原言語文と目的言語文との組について、原言語文と目的言語文との組に関する特徴を表す情報である長さ１以上の記号の列を接頭辞として作成する。本実施の形態では、双方向デコーディングに関する特徴を接頭辞として作成する。例えば、対訳データの原言語文と目的言語文との組の各々について、目的言語文を左から右（left-to-right）に生成することを表す、#L2Rというシャープ付きのタグを接頭辞として作成する。また、対訳データの原言語文と目的言語文との組の各々について、右から左（right-to-left）に生成することを表す、#R2Lというシャープ付きのタグを接頭辞として作成する。なお、接頭辞は、目的言語文に含まれる語彙と重ならず、特徴に対応するように一意に定まる記号であれば何でもよい。また、接頭辞の長さとは、接頭辞に含まれる記号の数であり、本実施の形態では長さは１（固定長）である。

文作成部３６は、接頭辞作成部３４で作成した接頭辞と、目的言語文抽出部３２で抽出した目的言語文とに基づいて、目的言語文に、接頭辞を付加する。具体的には、対訳データの原言語文と目的言語文との組の各々について、当該目的言語文の先頭に、#L2Rという接頭辞を付加したものと、当該目的言語文の先頭に、#R2Lという接頭辞を付加したものとを作成する。このとき、文作成部３６は、#R2Lという接頭辞を付加する際には、目的言語文に対して、#R2Lという接頭辞に応じて定められた処理を実行した処理結果として得られた目的言語文の先頭に、接頭辞を付加する。本実施の形態では、#R2Lという接頭辞に応じて定められた処理は、右から左（right-to-left）に生成する場合を考慮して目的言語文を反転する処理である。

原言語文「京都が好きです」に対応する目的言語文、及び処理結果として得られた目的言語文に接頭辞を付加すると以下のようになる。

このように、単語の並び方向が異なる二つの目的言語文を作成し、異なる生成方向を接頭辞として付加する。

変換モデル学習部３８は、原言語文抽出部３０で抽出された原言語文と、文作成部３６により接頭辞が先頭に付加された目的言語文、及び接頭辞が先頭に付加された処理結果により得られた目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための変換モデル４０を学習する。本実施の形態では、目的言語文の単語を予測する生成方向の順序を示すタグが接頭辞として付加された目的言語文を用いて、変換モデル４０を学習する。

ここで、変換モデル学習部３８によってパラメタが学習され、そのパラメタが変換モデル４０に保持される、「アテンション付きエンコーダデコーダモデル」と呼ばれるニューラルネットワークの模式図を図３に示す。図３に示すようにアテンション付きエンコーダデコーダモデルは、ＲＮＮ（Recurrent neural network）によるエンコーダと、ＦＦＮＮ（Feedforward Neural Network）を用いたアテンション層と、ＲＮＮによるデコーダとから構成される。エンコーダは、文頭から文末方向へ単語を入力するＲＮＮと文末から文頭方向へ単語を入力するＲＮＮの両方の内部状態を連結したものを入力文の各単語の内部状態とする双方向ＲＮＮを使用する。図３は、原言語文、及び目的言語文ともにＲＮＮを順序方向に展開した状態を表している。また、エンコーダは単方向のＲＮＮでもよい。エンコーダとデコーダは多層化(stacking)したＲＮＮでもよい。

ＲＮＮでは、ある状態ｔにおける内部状態ｈ_ｔは、状態ｔにおける入力ｘ_ｔと直前の状態ｔ−１における内部状態ｈ_ｔ−１に基づいて決定される。なお、本発明の実施の形態で用いるＲＮＮは、ＬＳＴＭ(Long Short Term Memory)やＧＲＵ(Gated Recurrent Unit)など同等の機能を持つ他のニューラルネットで代用してもよい。

エンコーダは、原言語文の単語系列を内部状態系列に変換する。アテンション層は、原言語文の各単語に対応するエンコーダの内部状態とデコーダの一つ前のステップの内部状態に基づいてエンコーダの内部状態に対する重みを計算し、エンコーダの各単語に対応する内部状態の重み付き和を出力するＦＦＮＮ（図示省略）である。デコーダは、接頭辞が先頭に付加された目的言語文を先頭から一単語ずつ予測するデコーダであって、デコーダのステップの各々において、アテンション層からの出力と、一つ前のステップの内部状態と、一つ前のステップで予測として出力された単語とを入力とする。

＜本発明の第１の実施の形態に係るモデル学習装置の作用＞

次に、本発明の第１の実施の形態に係るモデル学習装置１００の作用について説明する。入力部１０において対訳データを受け付けると、モデル学習装置１００は、図４に示すモデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０で受け付けた対訳データから原言語文を文ごとに抽出する。

次に、ステップＳ１０２では、入力部１０で受け付けた対訳データから目的言語文を文ごとに抽出する。

次に、ステップＳ１０４では、入力部１０で受け付けた対訳データの原言語文と目的言語文との組の各々について、原言語文と目的言語文との組に関する特徴を表す情報である長さ１以上の記号の列を接頭辞として作成する。

次に、ステップＳ１０６では、ステップＳ１０４で作成した接頭辞と、ステップＳ１０２で抽出した目的言語文とに基づいて、目的言語文に、接頭辞を付加する。また、目的言語文に対して、接頭辞に応じて定められた処理を実行した処理結果として得られた目的言語文の先頭に、接頭辞を付加する。

次に、ステップＳ１０８では、ステップＳ１００で抽出された原言語文と、ステップＳ１０６により接頭辞が先頭に付加された目的言語文、及び接頭辞が先頭に付加された処理結果により得られた目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための変換モデル４０を学習して処理を終了する。

以上説明したように、第１の実施の形態に係るモデル学習装置によれば、原言語文と、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞が先頭に付加された目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に変換するための変換モデルを学習することにより、原言語文から、原言語文と目的言語文との組に関する特徴を表す接頭辞の予測と、目的言語文の生成とを同時行うためのモデルを学習できる。

＜本発明の第１の実施の形態に係る変換装置の構成＞

次に、本発明の第１の実施の形態に係る変換装置の構成について説明する。図５に示すように、本発明の第１の実施の形態に係る変換装置２００は、ＣＰＵと、ＲＡＭと、後述する変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この変換装置２００は、機能的には図５に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、翻訳対象の原言語文を受け付ける。

演算部２２０は、変換部２３０と、整形部２３２と、変換モデル２４０とを含んで構成されている。

変換モデル２４０は、上記変換モデル学習装置１００で学習された、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための学習済みニューラルネットのパラメタを保持している。

変換部２３０は、変換モデル２４０を用いて、入力部２１０で受け付けた原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する。変換部２３０は、ＲＮＮによるエンコーダと、ＦＦＮＮを用いたアテンション層と、ＲＮＮによるデコーダから構成される。エンコーダは、原言語文の単語系列を内部状態系列に変換する。アテンション層は、原言語文の各単語に対応するエンコーダの内部状態とデコーダの一つ前のステップの内部状態に基づいてエンコーダの内部状態に対する重みを計算し、エンコーダの各単語に対応する内部状態の重み付き和を出力するＦＦＮＮである。デコーダは、接頭辞が先頭に付加された目的言語文を先頭から一単語ずつ予測するデコーダであって、デコーダのステップの各々において、アテンション層からの出力と、一つ前のステップの内部状態と、一つ前のステップで予測として出力された単語とを入力とする。

翻訳を実行する際には、変換モデル２４０に基づいて、入力された原言語文に対して、まず#L2R（左から右）または#R2L（右から左）という目的言語文の単語を予測する生成方向の順序を示すタグが接頭辞として予測される。次に、接頭辞が#L2Rの場合は、変換モデル２４０に基づいて、当該接頭辞の後に、目的言語文が左から右に生成され、接頭辞が#R2Lの場合は、変換モデル２４０に基づいて、当該接頭辞の後に、目的言語文が右から左に生成される。最終的には、ビーム探索により最も確率が高い拡張された目的言語文候補が選択されるので、入力文に応じた適切なデコーディング方向の選択が実現される。

整形部２３２は、変換部２３０により出力された、接頭辞が先頭に付加された目的言語文に基づいて、当該接頭辞に応じて定められた処理を、当該目的言語文に対して行い、最終的に得られた目的言語文を出力部２５０に出力する。本実施形態では、接頭辞に応じて定められた処理としては、例えば、出力された接頭辞が#R2Lであれば、目的言語文を反転する処理を行う。接頭辞が#L2Rであれば処理は行わずにそのまま目的言語文を出力する。

＜本発明の第１の実施の形態に係る変換装置の作用＞

次に、本発明の第１の実施の形態に係る変換装置２００の作用について説明する。入力部２１０において翻訳対象の原言語文を受け付けると、変換装置２００は、図６に示す変換処理ルーチンを実行する。

まず、ステップＳ２００では、変換モデル２４０を用いて、入力部２１０で受け付けた原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する。

次に、ステップＳ２０２では、変換部２３０により出力された、接頭辞が先頭に付加された目的言語文に基づいて、当該接頭辞に応じて定められた処理を、当該目的言語文に対して行い、最終的に得られた目的言語文を出力部２５０に出力して処理を終了する。

以上説明したように、第１の実施の形態に係る変換装置によれば、予め学習された、原言語文を、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞が先頭に付加された目的言語文に翻訳する変換モデルを用いて、原言語文を接頭辞が先頭に付加された目的言語文に変換することにより、原言語文から、原言語文と目的言語文との組に関する特徴の予測と、目的言語文の生成とを同時に行うことができる。

＜本発明の第２の実施の形態に係るモデル学習装置の構成＞

本発明の第２の実施の形態に係るモデル学習装置の構成について説明する。第２の実施の形態では、領域適応に、接頭辞制約の予測、及び接頭辞制約の指定の手法を適用した場合を例に説明する。なお、第１の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

図７に示すように、本発明の第２の実施の形態に係るモデル学習装置３００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置３００は、機能的には図７に示すように入力部３１０と、演算部３２０とを備えている。

入力部３１０は、原言語文と目的言語文とが対になっている対訳データを受け付ける。

演算部３２０は、原言語文抽出部３０と、目的言語文抽出部３２と、接頭辞作成部３３４と、文作成部３３６と、変換モデル学習部３３８と、変換モデル３４０とを含んで構成されている。

接頭辞作成部３３４は、入力部３１０で受け付けた対訳データの原言語文と目的言語文との組について、原言語文と目的言語文との組に関する特徴を表す情報である長さ１以上の記号の列を接頭辞として作成する。本実施の形態では、領域適応に関する特徴を接頭辞として作成する。領域は、ニュース、旅行会話、ウィキペディアなど対訳データが所属する領域であり、対訳データに付与されている領域情報や対訳データのデータベース名から、当該領域を表すタグを接頭辞として作成する。例えば、旅行記事であれば#IWSLT、京都に関するウィキペディア記事であれば#KFTT、ロイター社のニュース記事であれば#REUTERS、というシャープ付きのタグを接頭辞として作成する。

文作成部３３６は、接頭辞作成部３３４で作成した接頭辞と、目的言語文抽出部３２で抽出した目的言語文とに基づいて、目的言語文の先頭に、接頭辞を付加する。なお、上記第１の実施の形態で説明した、目的言語文の単語を予測する生成方向の順序を示すタグも付加している場合には、接頭辞に応じて定められた処理として、目的言語文を反転する処理を更に行うようにする。

原言語文に対応する目的言語文の先頭に接頭辞を付加すると以下のようになる。

変換モデル学習部３３８は、原言語文抽出部３０で抽出された原言語文と、文作成部３３６により接頭辞が先頭に付加された目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための変換モデル３４０を学習する。本実施の形態では、領域を表すタグが接頭辞として付加された目的言語文を用いて、変換モデル３４０を学習する。

第２の実施の形態の他の構成については、第１の実施の形態と同様であるため、詳細な説明を省略する。

なお、第２の実施の形態に係る作用については、接頭辞に応じて定められた処理を実行した処理結果として得られた目的言語文を用いない点以外は、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係るモデル学習装置によれば、原言語文と、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞が先頭に付加された目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に変換するための変換モデルを学習することにより、原言語文から、原言語文と目的言語文との組に関する特徴を表す接頭辞の予測と、目的言語文の生成とを同時行うためのモデルを学習できる。

＜本発明の第２の実施の形態に係る変換装置の構成＞

次に、本発明の第２の実施の形態に係る変換装置の構成について説明する。図８に示すように、本発明の第２の実施の形態に係る変換装置４００は、ＣＰＵと、ＲＡＭと、後述する変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この変換装置４００は、機能的には図８に示すように入力部４１０と、演算部４２０と、出力部４５０とを備えている。

入力部４１０は、接頭辞を予測する場合には翻訳対象の原言語文を、接頭辞を指定する場合には翻訳対象の原言語文と、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞とを受け付ける。

演算部４２０は、変換部４３０と、整形部４３２と、変換モデル４４０とを含んで構成されている。

変換モデル４４０は、上記変換モデル学習装置３００で学習された、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための学習済みニューラルネットのパラメタを保持している。

変換部４３０は、入力部４１０で受け付けた、原言語文と、接頭辞とを入力とし、変換モデル４４０を用いて、入力部４１０で受け付けた原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する。変換部４３０の構成については第１の実施の形態の変換部２３０と同様である。

翻訳を実行する際には、変換モデル４４０に基づいて、入力された原言語文に対して、まず領域タグが接頭辞として予測され、接頭辞の後に、目的言語文が生成される。翻訳対象となる入力文の領域が予め分かっている場合には、入力文と領域タグを入力とし、接頭辞制約付きデコーディングにより領域を指定することも可能である。このとき、予測された単語と、入力された接頭辞とが異なる場合に、入力された接頭辞が採用され、入力された接頭辞の後に、目的言語文が生成される。これは、予測誤りが生じることは避けられないため、必ずしも期待する接頭辞が出力されない場合を想定した処理である。また領域タグを指定することにより、指定された領域（例えば#KFTTのような書き言葉）の特徴を反映した、入力文から予測される領域（例えば#IWSLTのような話し言葉）の語彙や文体とは異なる語彙や文体をデコーダに生成させる効果もある。

例えば、図９に示すように、デコーダのあるステップの入力において、一つ前のステップで予測として出力された単語（図９では＃ＩＷＳＬＴ）が、接頭辞であり、かつ、入力された接頭辞（図９では＃ＫＦＴＴ）と異なる場合がある。この場合、入力された接頭辞を、一つ前のステップで予測として出力された単語の代わりとする。これにより入力された接頭辞に応じた目的言語文を生成することができる。

そして、ビーム探索により最も確率が高い目的言語文候補が出力される。

整形部４３２は、変換部４３０により出力された、接頭辞が先頭に付加された目的言語文に基づいて、当該接頭辞に応じて定められた処理を、当該目的言語文に対して行い、最終的に得られた目的言語文を出力部４５０に出力する。本実施形態では、領域タグを示す接頭辞を除く処理を行ってもよい。

＜本発明の第２の実施の形態に係る変換装置の作用＞

次に、本発明の第２の実施の形態に係る変換装置４００の作用について説明する。入力部４１０において翻訳対象の原言語文、及び原言語文と目的言語文との組に関する特徴を表す情報である接頭辞を受け付けると、変換装置４００は、図１０に示す変換処理ルーチンを実行する。領域タグを示す接頭辞を入力するかどうかはユーザが選ぶことができる。

まず、ステップＳ４００では、入力部４１０で受け付けた、原言語文と、接頭辞とを入力とし、変換モデル２４０を用いて、入力部４１０で受け付けた原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する。

次に、ステップＳ４０２では、変換部４３０により出力された、接頭辞が先頭に付加された目的言語文に基づいて、当該接頭辞に応じて定められた処理を、当該目的言語文に対して行い、最終的に得られた目的言語文を出力部４５０に出力して処理を終了する。

以上説明したように、第２の実施の形態に係る変換装置によれば、原言語文と、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞とを入力とし、予め学習された、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する変換モデルを用いて、原言語文を接頭辞が先頭に付加された目的言語文に変換することにより、接頭辞が指定されていない場合には、原言語文から、原言語文と目的言語文との組に関する特徴の予測と、目的言語文の生成とを同時に行うことができる。また接頭辞が指定されている場合には、指定された接頭辞に応じた目的言語文を生成することができる。

＜本発明の第３の実施の形態に係るモデル学習装置の構成＞

本発明の第３の実施の形態に係るモデル学習装置の構成について説明する。第３の実施の形態では、目的言語不対応語の生成に、接頭辞制約の予測、及び接頭辞制約の指定の手法を適用した場合を例に説明する。なお、第１及び第２の実施の形態と同様となる箇所については同一符号を付して説明を省略する。

図１１に示すように、本発明の第３の実施の形態に係るモデル学習装置５００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置５００は、機能的には図１１に示すように入力部５１０と、演算部５２０とを備えている。

入力部５１０は、原言語文と目的言語文とが対になっている対訳データを受け付ける。

演算部５２０は、原言語文抽出部３０と、目的言語文抽出部３２と、接頭辞作成部５３４と、文作成部５３６と、変換モデル学習部５３８と、変換モデル５４０とを含んで構成されている。

接頭辞作成部５３４は、入力部５１０で受け付けた対訳データの原言語文と目的言語文との組について、原言語文と目的言語文との組に関する特徴を表す情報を表現する一つ以上の記号からなる接頭辞を作成する。本実施の形態では、目的言語不対応語に関する特徴を接頭辞として作成する。目的言語不対応語に関する接頭辞の例としては、次のＬＥＸとＣＯＵＮＴが挙げられる。そこで、これらの例に対応する、原言語文と目的言語文との組の接頭辞を作成する。ＬＥＸでは、目的言語不対応語の系列を接頭辞として付加する。ＣＯＵＮＴでは、目的言語不対応語の数を接頭辞として付加する。

接頭辞作成部５３４の具体的な構成を図１２に示す。

接頭辞作成部５３４は、単語対応部５５０と、単語翻訳確率計算部５５２と、目的言語不対応語候補リスト作成部５５４と、目的言語不対応語抽出部５５６と、目的言語不対応語接頭辞作成部５５８とを含んで構成されている。

単語対応部５５０は、対訳データの原言語文と目的言語文との各組について単語対応を求める。

単語翻訳確率計算部５５２は、単語対応部５５０で求めた各組の単語対応から、原言語文の単語と目的言語文の単語との間の単語翻訳確率を計算する。

目的言語不対応語候補リスト作成部５５４は、単語翻訳確率計算部５５２で求めた単語翻訳確率から、原言語文に対応する単語がない、目的言語文の単語である目的言語不対応語の候補リストを作成する。例えば、（３）式のスコアが大きな順に上位n個の単語のリストを目的言語不対応語の候補リストとする。

目的言語不対応語抽出部５５６は、各組について、単語対応部５５０で求めた単語対応と、目的言語不対応語候補リスト作成部５５４で作成した候補リストとに基づいて、目的言語不対応語を求める。

目的言語不対応語接頭辞作成部５５８は、各組について、目的言語不対応語抽出部５５６で抽出した目的言語不対応語から長さ１以上の記号の列からなる接頭辞を作成する。ここで、接頭辞の長さとは、接頭辞に含まれる記号（例えば、「#we」、「#you」などのそれぞれが記号に対応）の数である。本実施の形態では長さは可変長である。

接頭辞作成部５３４は、以上の各部の処理により、対訳データの原言語文と目的言語文との各組について接頭辞を作成する。

文作成部５３６は、対訳データの原言語文と目的言語文との各組について、接頭辞作成部５３４で作成した接頭辞と、目的言語文抽出部３２で抽出した目的言語文とに基づいて、目的言語文の先頭に、接頭辞を付加する。

以下の例では、ＬＥＸを用いた接頭辞を付加した目的言語文において、目的言語不対応語を下線で示している。接頭辞中の各目的言語不対応語には、目的言語の語彙と区別するために先頭にシャープを付けている。これは目的言語不対応語の候補リストの要素を一意に特定できる記号であれば何でもよい。接頭辞が可変長になるので、接頭辞と目的言語文を区別する記号として、さらに「#GO」を付加する。可変長の接頭辞と目的言語文を区分する記号は、目的言語の語彙および可変長の接頭辞の語彙（本実施形態では目的言語不対応語の候補リストの要素）と重ならない記号であれば何でもよい。

ＣＯＵＮＴを用いた接頭辞では、目的言語不対応語の数を接頭辞として目的言語文の先頭に付加する。以下の例では目的言語不対応語の数を“[”と“]”で囲って、接頭辞と目的言語文を区別している。これは特に数字を含む記号である必要はなく、目的言語不対応語の数を一意に特定できる記号であれば何でもよい。

変換モデル学習部５３８は、原言語文抽出部３０で抽出された原言語文と、文作成部５３６により接頭辞が先頭に付加された目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための変換モデル５４０を学習する。本実施の形態では、目的言語不対応語に関するタグが接頭辞として付加された目的言語文を用いて、変換モデル５４０を学習する。

第３の実施の形態の他の構成については、第２の実施の形態と同様であるため、詳細な説明を省略する。

＜本発明の第３の実施の形態に係る変換モデル学習装置の作用＞

第３の実施の形態に係る作用については、変換モデル学習処理ルーチンは、接頭辞に応じて定められた処理を実行した処理結果として得られた目的言語文を用いない点以外は、第１の実施の形態と同様であるため説明を省略する。第３の実施形態では、接頭辞作成処理ルーチンの作用の詳細について説明する。

図１３に示すように、ステップＳ５００では、対訳データの原言語文と目的言語文との各組について単語対応を求める。

ステップＳ５０２では、ステップＳ５００で求めた各組の単語対応から単語翻訳確率を計算する。

ステップＳ５０４では、ステップＳ５０２で求めた単語翻訳確率から、目的言語不対応語の候補リストを作成する。

ステップＳ５０６では、各組について、ステップＳ５００で求めた単語対応と、ステップＳ５０４で作成した候補リストとに基づいて、目的言語不対応語を求める。

ステップＳ５０８では、各組について、ステップＳ５０６で抽出した目的言語不対応語から接頭辞を作成する。

以上説明したように、第３の実施の形態に係るモデル学習装置によれば、対訳データから原言語文と目的言語文との組に関する特徴を表す情報である接頭辞を作成し、原言語文と、接頭辞が先頭に付加された目的言語文とに基づいて、原言語文を、接頭辞が先頭に付加された目的言語文に変換するための変換モデルを学習することにより、接頭辞と、目的言語文とを予測するためのモデルを同時に学習できる。

＜本発明の第３の実施の形態に係る変換装置の構成＞

次に、本発明の第３の実施の形態に係る変換装置の構成について説明する。図１４に示すように、本発明の第３の実施の形態に係る変換装置６００は、ＣＰＵと、ＲＡＭと、後述する変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この変換装置６００は、機能的には図１４に示すように入力部６１０と、演算部６２０と、出力部６５０とを備えている。

入力部６１０は、接頭辞を予測する場合には翻訳対象の原言語文を、接頭辞を指定する場合には原言語文と、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞とを受け付ける。接頭辞は、例えば、「LEX」や「COUNT」などの目的言語不対応語に関する特徴である。

演算部６２０は、変換部６３０と、整形部６３２と、変換モデル６４０とを含んで構成されている。

変換モデル６４０は、上記変換モデル学習装置５００で学習された、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳するための学習済みニューラルネットのパラメタを保持している。

変換部６３０は、入力部６１０で受け付けた、原言語文と、接頭辞を指定する場合には接頭辞とを入力とし、変換モデル６４０を用いて、入力部６１０で受け付けた原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する。変換部６３０の構成については第１の実施の形態の変換部２３０と同様である。

翻訳を実行する際には、変換モデル６４０に基づいて、入力された原言語文に対して、まず目的言語不対応に関する特徴を表現する接頭辞が予測され、接頭辞の後に、目的言語文が生成される。接頭辞を指定する場合には、予測された単語と、それに対応する入力された接頭辞中の記号とが異なる場合に、入力された接頭辞中の記号が次のステップの入力として採用され、入力された接頭辞の後に、目的言語文が生成される。そして、ビーム探索により最も確率が高い目的言語文候補が出力される。

整形部６３２は、変換部６３０により出力された、接頭辞が先頭に付加された目的言語文に基づいて、当該接頭辞に応じて定められた処理を、当該目的言語文に対して行い、最終的に得られた目的言語文を出力部６５０に出力する。具体的には本実施形態では、目的言語不対応に関するタグに応じて、目的言語文に、入力文に対応する単語が存在しない単語が出力文に生成されたことを示す予め定められた文字列を付与するようにしてもよい。また、目的言語不対応に関するタグを示す接頭辞を除く処理を行ってもよい。

なお、第３の実施の形態に係る変換装置の作用については、第２の実施の形態と同様であるため、説明を省略する。

以上説明したように、第３の実施の形態に係る変換装置によれば、原言語文と、原言語文と目的言語文との組に関する特徴を表す情報である接頭辞とを入力とし、予め学習された、原言語文を、接頭辞が先頭に付加された目的言語文に翻訳する変換モデルを用いて、原言語文を接頭辞が先頭に付加された目的言語文に変換することにより、原言語文から、原言語文と目的言語文との組に関する特徴の予測と、目的言語文の生成とを同時に行うことができる。

［実験結果］

上記第１の実施の形態の双方向デコーディング、及び第２の実施の形態の領域適応の実験において用いた対訳データを以下の表１に示す。

双方向デコーディングと領域適応に関する実験では、一般に入手可能な５つの対訳コーパスを用いた。それらは、IWSLT-2005（旅行会話）、KFTT（京都に関するWikipedia記事）、Global Voices（社会問題に関するブログ記事）、Reuters（ロイター社のニュース記事)、Tatoeba（集合知による例文収集サイト）である。表１には各対訳コーパスの文数、及び平均単語長を示している。

目的言語不対応語の生成に関する実験では、日本語のゼロ代名詞を多く含む話し言葉データであるIWSLT-2005を用いた。IWSLT-2005は約２万文しかないので、より信頼性が高い実験を行うために、さらに二つの話し言葉コーパスを追加した。一つはストレートワード社から販売されている日常会話フレーズ集である「大音泉日英対訳データベース」で、50,709文（英語431,258単語、日本語471,677単語）ある。もう一つはハルピン工業大学が北京オリンピック向けに開発した音声翻訳用の日英対訳データで、62,727文（英語635,809単語、日本語796,200単語）ある。ここではIWSLT-2005と大音泉と北京オリンピックデータを合わせたものをIWSLT-2005+EXTRAと呼ぶことにする。

翻訳の前処理としては、日本語は形態素解析器MeCabとUniDic辞書を使って形態素解析した。

英語は統計翻訳ソフトウェアmosesに付属する字句解析ソフトウェア（tokenize.perl）と小文字化ソフトウェア（lowercase.perl）を用いた。

ニューラル機械翻訳には、アテンション付きエンコーダデコーダ（非特許文献５参照）を実装したオープンソースの翻訳ツールであるseq2seq-attnを使用した。翻訳精度は、最も標準的な自動翻訳尺度であるBLEUで評価した。

［第１の実施の形態の実験結果］

双方向デコーディングに関し、IWSLT、KFTT、REUTERSの３つの対訳コーパスに関して、順方向(左から右) に翻訳した場合、逆方向(右から左) に翻訳した場合、従来手法である目的言語双方向法（非特許文献４参照）で翻訳した場合、提案手法である接頭辞制約を用いたデコーディング方向の予測で翻訳した場合の翻訳精度BLEUの値を表２に示す。

一方向だけのデコーディングである順方向および逆方向に比べて、提案法はデコーディング方向を予測することにより、従来手法である目的言語双方向法と同程度または同程度以上に翻訳精度が改善されている。第１の実施の形態で説明した提案手法は従来手法に比べて、変換モデルが一つであり、アテンション付きエンコーダデコーダモデルをそのまま利用できるという利点がある。

［第２の実施の形態の実験結果］

領域適応に関し、領域が異なる５つの対訳コーパスについて、以下の４つの場合について翻訳精度を評価した。

（１）単独：各対訳コーパスだけを使って変換モデルを作成し、同じ対訳コーパスのテスト文で翻訳精度を評価した。
（２）全体：５つの対訳コーパスを単純に一つにまとめて変換モデルを作成し、各対訳コーパスのテスト文で翻訳精度を評価した。
（３）領域予測：各対訳コーパスにおいて、対訳コーパス名を領域タグとし、付与したものを一つにまとめて変換モデルを作成し、各対訳コーパスのテスト文で翻訳精度を評価（接頭辞制約予測）した。
（４）領域指定：変換モデルとテスト文は分野予測の場合と同じである。デコーディングの際に正解の領域（対訳コーパス名）を与えて翻訳（接頭辞制約付きデコーディング）を行った。

実験結果を表３に示す。

「単独」と「全体」を比べると、最も対訳データの数が多いKFTT は翻訳精度が低下し、それ以外の４つの対訳コーパスは翻訳精度が向上している。これに比べて「領域予測」すなわち接頭辞制約予測を適用した場合、すべての対訳コーパスで翻訳精度が向上している。

原言語文から領域タグを予測する「領域予測」と、外部から領域タグの正解を与える「領域指定」を比較すると、領域指定の方が少し翻訳精度が高いがほとんど差はない。従って、原言語文から領域タグを予測するのはニューラルネットにとって易しい問題であり、領域タグを正しく予測することにより翻訳精度が向上していることが分かる。

従来手法である付加制約を用いた領域適応では、原言語文から付加制約(すなわち領域タグ)を予測する手段を別途用意しなければならないが、提案手法は、アテンション付きエンコーダデコーダモデルの中で、接頭辞（領域タグ）の予測と目的言語文の生成が同時に行われるという利点がある。

表４に領域タグにより翻訳結果が変わる例を示す。

従来のアテンション付きエンコーダデコーダにおいてビーム探索により得られる上位候補は、ほとんど違いがない。それに比べて接頭辞制約を外部から指定して接頭辞制約付きデコーディングを行った場合には、大きく異なる翻訳結果が得られる。

［第３の実施の形態の実験結果］

目的言語不対応語の翻訳に関し、IWSLT-2005の日英翻訳において、（３）式のスコアに基づいて上位５０個の目的言語不対応語の候補リストを求めた結果を表５に示す。

ｉ，ｙｏｕ，ｉｔなどのゼロ代名詞に対応する英語の代名詞、ａ，ｔｈｅなどの冠詞、ｔａｋｅ，ｇｅｔ，ｍａｋｅなどの軽動詞（日本語の「する」のようなあまり意味を持っていない動詞）、ｄｏ，ｄｏｅｓなどの虚辞が自動的に抽出できていることが分かる。

接頭辞制約を予測する場合、上位１０語の候補リストを用いてＣＯＵＮＴを接頭辞とした場合に、ベースライン（接頭辞なし）に比べて翻訳精度が約１ポイント向上している。これは接頭辞制約の予測と目的言語文の生成を同時に行うことにより翻訳精度を向上できることを示している。接頭辞制約を外部から与える場合、上位１０語の候補リストを用いてＣＯＵＮＴを接頭辞とした場合に、ベースラインに比べて翻訳精度が約３ポイント向上し、上位５０語の候補リストを用いてＬＥＸを接頭辞とした場合に、ベースラインに比べて翻訳精度が１０ポイント以上向上する。これはユーザが外部から接頭辞制約を与えることにより、大幅に翻訳精度を向上できることを示している。

以上、本発明の実施の形態に係る手法では、原言語文と目的言語文の対に関する特徴を記号列で表現し、この記号列を目的言語文に接頭辞として付加する。原言語文と接頭辞付き目的言語文の対から変換モデルを学習し、入力された原言語文に対して、接頭辞の予測と目的言語文の生成を同時に行うことにより、翻訳精度が向上する。また本発明の実施の形態に係る手法では、ユーザが接頭辞を外部から指定することが可能であり、指定された接頭辞(特徴)に応じた目的言語文が生成される。接頭辞制約の予測、及び指定は、ニューラル機械翻訳において原言語文と目的言語文の対に関する任意の特徴を明示的に予測することにより翻訳精度を向上させ、出力される目的言語文の特徴をユーザが制御するための一般的な枠組みとして使うことができる。

また、実験により、本発明の各実施の形態における、双方向デコーディング、領域適応、及び目的言語不対応語の生成について、その実現例を示した。

双方向デコーディングに関しては、「左から右」および「右から左」というデコーディング方向を表すタグを接頭辞として付加し、目的言語文の生成に関する制約とすることにより、ベースラインとなるニューラル機械翻訳方式に変更を加えることなく双方向デコーディングを実現して翻訳精度を向上することができる。

領域適応に関しては、領域タグを接頭辞として付加し、目的言語文の生成に関する制約とすることにより、原言語文が所属する領域の予測と目的言語文の生成を同時に行うことができ、原言語文が所属する領域を同定する手段を別途用意する必要なく、翻訳精度を向上することができる。

目的言語不対応語の生成に関しては、目的言語不対応語の表記のリストまたは目的言語不対応語の数を接頭辞として付加し、目的言語文の生成に関する制約とすることにより、原言語文の情報だけから目的言語不対応語またはそれに関連する情報を予測する手段を実現し、かつ、翻訳精度を向上することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した各実施の形態では、双方向デコーディング、領域適応、及び目的言語不対応語の生成をそれぞれ分けて説明したが、これらを組み合わせて実施してもよい。その場合には、複数の接頭辞を目的言語文に付加して、変換モデルを学習すればよい。

また、原言語文と目的言語文との組の対訳データについて、接頭辞を付加した目的言語文に翻訳するための変換モデルを学習する場合について説明したが、これに限定されるものではない。例えば、ユーザとシステムとの対話システムに適用し、ユーザ発話を入力文とし、システム発話を、出力文として、ユーザ発話から、接頭辞を付加したシステム発話に変換するための変換モデルを学習するようにしてもよい。

１０入力部
２０、２２０、３２０、４２０、５２０、６２０演算部
３０原言語文抽出部
３２目的言語文抽出部
３４、３３４、５３４接頭辞作成部
３６、３３６、５３６文作成部
３８、３３８、５３８変換モデル学習部
４０、２４０、３４０、４４０、５４０、６４０変換モデル
２３０、４３０、６３０変換部
２３２、４３２、６３２整形部
２５０、４５０、６５０出力部
５５０単語対応部
５５２単語翻訳確率計算部
５５４目的言語不対応語候補リスト作成部
５５６目的言語不対応語抽出部
５５８目的言語不対応語接頭辞作成部

Claims

入力文と、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列を接頭辞として先頭に付加された前記出力文とに基づいて、前記入力文を、前記接頭辞が先頭に付加された前記出力文に変換するための変換モデルを学習するモデル学習部
を含むモデル学習装置。
前記入力文と前記出力文との組について、前記接頭辞を作成する接頭辞作成部を更に含み、
前記モデル学習部は、前記入力文と、前記接頭辞作成部によって作成された前記接頭辞が先頭に付加された前記出力文とに基づいて、前記変換モデルを学習する請求項１に記載のモデル学習装置。
入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列から構成される接頭辞と、前記出力文とに基づいて、前記出力文に対して、前記接頭辞に応じて定められた処理を実行した処理結果の先頭に、前記接頭辞を付加する文作成部と、
前記入力文と、前記文作成部により前記接頭辞が先頭に付加された前記出力文の前記処理結果とに基づいて、前記入力文を、前記接頭辞が先頭に付加された前記出力文の前記処理結果に変換するための変換モデルを学習するモデル学習部と、
を含むモデル学習装置。
前記変換モデルの学習において、前記変換は、前記入力文の単語系列を内部状態系列に変換するエンコーダと、
前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対応するエンコーダの内部状態に対する重み付き和を出力するアテンション層と、
前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップの各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップで予測として出力された単語とを入力とするデコーダとを用いて行うことを特徴とする請求項１〜３のいずれか１項に記載のモデル学習装置。
前記接頭辞は、前記入力文と前記出力文との組に関する特徴を表す情報を一つ以上含み、異なる接頭辞は、異なる前記特徴を表す情報を含むことを特徴とする請求項１〜４のいずれか１項に記載のモデル学習装置。
前記接頭辞が付加された前記出力文において、前記接頭辞と前記出力文とは、識別子によって区分される請求項１〜５のいずれか１項に記載のモデル学習装置。
前記入力文を原言語文とし、前記出力文を目的言語文として、
前記変換モデルは、前記原言語文を、前記接頭辞が先頭に付加された前記目的言語文に変換するためのものである請求項１〜６の何れか１項に記載のモデル学習装置。
予め学習された、入力文を、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列が接頭辞として先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換する変換部
を含む変換装置。
予め学習された、入力文を、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列が接頭辞として先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換する変換部を含み、
前記変換部は、
前記入力文の単語系列を内部状態系列に変換するエンコーダと、
前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対応する内部状態の重み付き和を出力するアテンション層と、
前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップの各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップで予測として出力された単語とを入力とするデコーダとを備える変換装置。
入力文と、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号からなる接頭辞とを入力とし、予め学習された、入力文を、前記接頭辞が先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換する変換部を含み、
前記変換部は、
前記入力文の単語系列を内部状態系列に変換するエンコーダと、
前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対応する内部状態の重み付き和を出力するアテンション層と、
前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップの各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップで予測として出力された単語とを入力とするデコーダとを備え、
前記一つ前のステップで予測として出力された単語が、入力された接頭辞の対応する記号と異なる場合、前記入力された接頭辞の対応する記号を、前記一つ前のステップで予測として出力された単語の代わりとする
変換装置。
前記変換部により出力された前記接頭辞に応じて定められた処理を、前記変換部により出力された出力文に対して行う整形部を更に備える請求項８〜１０の何れか１項に記載の変換装置。
前記変換部は、前記接頭辞と前記出力文とは、識別子によって区分されるように、前記入力文を一つ以上の記号からなる接頭辞が先頭に付加された出力文に変換する請求項８〜１１の何れか１項に記載の変換装置。
前記接頭辞は、
デコーダによる前記出力文の単語を予測する順序の方向、前記出力文が所属する領域、前記入力文に対応する単語がない、前記出力文の単語である不対応語に関する特徴に関する情報、前記不対応語の表記の列、及び前記不対応語の数の少なくとも１つである請求項８〜１２の何れか１項に記載の変換装置。
前記入力文を原言語文とし、前記出力文を目的言語文として、
前記変換モデルは、前記原言語文を、前記接頭辞が先頭に付加された前記目的言語文に変換するためのものであり、
前記変換部は、前記原言語文を、前記接頭辞が先頭に付加された目的言語文に変換する請求項８〜１３の何れか1項に記載の変換装置。
モデル学習部が、入力文と、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列が接頭辞として先頭に付加された前記出力文とに基づいて、前記入力文を、前記接頭辞が先頭に付加された前記出力文に変換するための変換モデルを学習するステップ
を含むモデル学習方法。
文作成部が、入力文と出力文との組に関する特徴を表す情報である一つ以上の接頭辞と、前記出力文とに基づいて、前記出力文に対して、前記接頭辞に応じて定められた処理を実行した処理結果の先頭に、前記接頭辞を付加するステップと、
モデル学習部が、前記入力文と、前記文作成部により前記接頭辞が先頭に付加された前記出力文の前記処理結果とに基づいて、前記入力文を、前記接頭辞が先頭に付加された前記出力文の前記処理結果に変換するための変換モデルを学習するステップと、
を含むモデル学習方法。
変換部が、予め学習された、入力文を、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列が接頭辞として先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換するステップ
を含む変換方法。
変換部が、予め学習された、入力文を、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号の列が接頭辞として先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換するステップを含み、
前記変換部は、
前記入力文の単語系列を内部状態系列に変換するエンコーダと、
前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対応する内部状態の重み付き和を出力するアテンション層と、
前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップの各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップで予測として出力された単語とを入力とするデコーダとを備える変換方法。
変換部が、入力文と、前記入力文と出力文との組に関する特徴を表す情報である一つ以上の記号からなる接頭辞とを入力とし、予め学習された、入力文を、前記接頭辞が先頭に付加された前記出力文に変換する変換モデルを用いて、前記入力文を前記接頭辞が先頭に付加された出力文に変換するステップを含み、
前記変換部は、
前記入力文の単語系列を内部状態系列に変換するエンコーダと、
前記入力文の各単語に対する重みを計算し、前記エンコーダの各単語に対応する内部状態の重み付き和を出力するアテンション層と、
前記接頭辞が先頭に付加された前記出力文を先頭から一単語ずつ予測するデコーダであって、前記デコーダが単語を予測するステップの各々において、前記アテンション層からの出力と、一つ前のステップのデコーダの内部状態と、一つ前のステップで予測として出力された単語とを入力とするデコーダとを備え、
前記一つ前のステップで予測として出力された単語が、入力された接頭辞の対応する記号と異なる場合、前記入力された接頭辞の対応する記号を、前記一つ前のステップで予測として出力された単語の代わりとする
変換方法。
コンピュータを、請求項１〜請求項７のいずれか１項に記載のモデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項８〜１４のいずれか１項に記載の変換装置の各部として機能させるためのプログラム。