JP7357291B2

JP7357291B2 - 翻訳装置、翻訳方法及びプログラム

Info

Publication number: JP7357291B2
Application number: JP2020122380A
Authority: JP
Inventors: 昌明永田; 頌平飯田; 武仁宇津呂
Original assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-10-06
Anticipated expiration: 2040-07-16
Also published as: JP2022018928A

Description

特許法第３０条第２項適用２０１９年７月１７日開催の知能機能システム専攻セミナーにて公開２０１９年７月２８日に国際会議ＡＣＬ２０１９（Ｔｈｅ５７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ）のウェブサイト（ｈｔｔｐ：／／ｗｗｗ．ａｃｌ２０１９．ｏｒｇ／ＥＮ／ｉｎｄｅｘ．ｘｈｔｍｌ）（ｈｔｔｐｓ：／／ｓｉｔｅｓ．ｇｏｏｇｌｅ．ｃｏｍ／ｖｉｅｗ／ａｃｌ１９ｓｔｕｄｅｎｔｒｅｓｅａｒｃｈｗｏｒｋｓｈｏｐ／）にて公開２０１９年１２月２０日開催の２０１９年度第５回ＡＡＭＴ／Ｊａｐｉｏ特許翻訳研究会にて公開２０２０年２月５日開催の筑波大学大学院システム情報工学研究科知能機能システム専攻修士論文発表会にて公開２０２０年３月２５日にＡＡＭＴ／Ｊａｐｉｏ特許翻訳研究会のウェブサイト（ｈｔｔｐ：／／ａａｍｔｊａｐｉｏ．ｃｏｍ／ｉｎｄｅｘ．ｈｔｍｌ）にて公開

本発明は、翻訳装置、翻訳方法及びプログラムに関する。

コンピュータを用いて、ある言語を別の言語へ変換することを機械翻訳という。近年では、ニューラルネットワークを用いた機械翻訳であるニューラル機械翻訳（ＮＭＴ：Neural Machine Translation）の研究が盛んに行われており、それまで主流だった統計的機械翻訳（ＳＭＴ：Statistical Machine Translation）の性能を大きく上回って、機械翻訳の主流となっている。

初期のニューラル機械翻訳では再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）を利用したエンコーダデコーダモデル（符号器復号器モデル、encoder-decoder model）が用いられていたが、現在では、注意機構（Attention）と順伝播型ニューラルネットワーク（Feed-forward Neural Network）を組み合わせてエンコーダを並列化したTransformerがニューラル機械翻訳の主流となっている。

Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. Layer normalization. arXiv:1607.06450, 2016. Toan Q. Nguyen and Julian Salazar. Transformers without tears: Improving the normalization of self-attention. In Proceedings of the IWSLT-2019, 2019.

しかしながら、Transformerは学習率が高い場合やバッチサイズが小さい場合に、学習が不安定になるという問題がある。なお、この問題に対する解決策としてPRENORMと呼ばれる方法が知られているが、PRENORMは学習を安定化させることができる一方で翻訳精度が低下してしまう。

本発明の一実施形態は、上記の点に鑑みてなされたもので、翻訳精度を低下させることなく、学習率が高い場合やバッチサイズが小さい場合にも安定して学習を行うことを目的とする。

上記目的を達成するため、一実施形態に係る翻訳装置は、原言語の入力文を入力する入力部と、Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも１つのマルチヘッド注意機構を、前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に所定の注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、前記入力文を目的言語の出力文に翻訳する翻訳部と、を有することを特徴とする。

翻訳精度を低下させることなく、学習率が高い場合やバッチサイズが小さい場合にも安定して学習を行うことができる。

Transformerの概要を説明するための図である。マルチヘッド注意とマルチホップ注意の比較例を説明するための図である。 Transformerのエンコーダに対してマルチホップ注意を導入した例を説明するための図である。本実施形態に係る翻訳装置の全体構成の一例を示す図である。本実施形態に係る学習処理の流れの一例を示すフローチャートである。本実施形態に係る翻訳処理の流れの一例を示すフローチャートである。本実施形態に係る翻訳装置のハードウェア構成の一例を示す図である。汎化誤差の学習曲線を示す図（その１）である。汎化誤差の学習曲線を示す図（その２）である。

以下、本発明の一実施形態について説明する。本実施形態では、従来のTransformerの注意機構の全部又は一部を改良することで、従来のTransformerと同等以上の翻訳精度を持ち、かつ、学習率が高い場合やバッチサイズが小さい場合にも安定して学習を行うことが可能な翻訳モデルと、この翻訳モデルにより翻訳を行う翻訳装置１０について説明する。

＜準備＞
本実施形態に係る翻訳モデルを説明する前に、いくつかの従来技術について説明する。

≪Transformerによるニューラル機械翻訳≫
・エンコーダデコーダモデル
ニューラル機械翻訳は、エンコーダデコーダモデルに基づいて、原言語文から目的言語文への変換を実現する。

エンコーダは、ニューラルネットワークを用いた非線形変換を表す関数encoderにより、長さ｜Ｘ｜の原言語文Ｘ＝ｘ_{１：｜Ｘ｜}＝ｘ_１，・・・，ｘ_｜Ｘ｜を、長さ｜Ｘ｜の内部状態の系列ｓ_{１：｜Ｘ｜}＝ｓ_１，・・・，ｓ_｜Ｘ｜に変換する。すなわち、ｓ_{１：｜Ｘ｜}＝encoder（ｘ_{１：｜Ｘ｜}）と変換する。ここで、各単語（つまり、各ｘ_ｉ（ただし、ｉ＝１，・・・，｜Ｘ｜））に対応する内部状態の次元数をｄ_{ｍｏｄｅｌ}とすれば、ｓ_{１：｜Ｘ｜}は｜Ｘ｜×ｄ_{ｍｏｄｅｌ}の行列である。

デコーダは、エンコーダの出力ｓ_{１：｜Ｘ｜}と目的言語文の文頭からｊ番目の直前までの単語列ｙ_＜ｊを入力として、ニューラルネットワークを用いた非線形変換を表す関数decoderにより、目的言語文のｊ番目の単語ｙ_ｊを文頭から１つずつ生成する。すなわち、ｙ_ｊ＝decoder（ｓ_{１：｜Ｘ｜}，ｙ_＜ｊ）により単語ｙ_ｊを生成する。ここで、デコーダが長さ｜Ｙ｜の目的言語文Ｙ＝ｙ_{１：｜Ｙ｜}＝ｙ_１，・・・，ｙ_｜Ｙ｜を生成するとき、デコーダの内部状態の系列をｔ_{１：｜Ｙ｜}＝ｔ_１，・・・，ｔ_｜Ｙ｜と表現する。各単語に対応する内部状態の次元数をｄ_{ｍｏｄｅｌ}とすれば、ｔ_{１：｜Ｙ｜}は｜Ｙ｜×ｄ_{ｍｏｄｅｌ}の行列である。

・Transformerの概要
初期のニューラル機械翻訳ではエンコーダ及びデコーダのニューラルネットワークとして再帰型ニューラルネットワークを用いていた。また、エンコーダデコーダモデルは、注意機構（以下、単に「注意」ともいう。）を導入することにより、翻訳精度が大きく向上することが知られている。注意機構とは、デコーダにおいて目的言語文の各単語を生成する際に、エンコーダの内部状態に対する重みを変えることで原言語文のどの単語の情報を利用するかを決定する仕組みである。

現在では、注意機構と順伝播型ニューラルネットワークを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるTransformerがニューラル機械翻訳の主流となっている。Transformerは、図１に示すように、注意機構（図１では「マルチヘッド注意」及び「マスク付きマルチヘッド注意」）と全結合順伝播型ニューラルネットワーク（図１では「全結合層」）との組み合わせを積み重ねる（stack）ことによってエンコーダ及びデコーダを構成するモデルである。ＲＮＮは内部状態が過去の内部状態に依存して決まるという自己回帰性のために本質的に並列化が難しいのに対して、Transformerは、少なくとも学習時にはエンコーダとデコーダの計算を並列化することができる。なお、推論時には、Transformerのデコーダも単語を文頭から１つずつ生成するため並列化できない。

Transformerのエンコーダは、マルチヘッド注意（multi-head attention）及び位置ごと（position-wise）の全結合順伝播型ニューラルネットワーク（fully connected feed-forward neural network、図１では「全結合層」）の２つの下位層（sublayer）が含まれる１つの層をＮ回積み重ねる。通常はＮ＝６である。２つの下位層のそれぞれで残差接続（residual connection）と層正規化（layer normalization）とを行う。したがって、下位層（マルチヘッド注意又は全結合層）への入力をｘ、下位層を表す関数をSublayerとすると、残差接続及び層正規化を行った後の下位層の出力は、LayerNorm（ｘ＋Sublayer（ｘ））となる。このような残差接続のためにすべての下位層及び埋め込みの出力の次元数はｄ_{ｍｏｄｅｌ}に統一されている。通常はｄ_{ｍｏｄｅｌ}＝５１２である。

Transformerのデコーダは、エンコーダと同様の２つの下位層に加えて、エンコーダの出力に対するマルチヘッド注意を実行する３つ目の下位層（図１のデコーダ中で真ん中付近に記載されている「マルチヘッド注意」）が含まれる１つの層をＮ回積み重ねる。ただし、１つの層内の最初のマルチヘッド注意には、現在出力する単語を計算している位置よりも後の位置を参照しないようにマスクをかける（したがって、図１では、当該マルチヘッド注意を「マスク付きマルチヘッド注意」と表記している。）。通常はＮ＝６である。、また、エンコーダと同様に、各下位層のそれぞれで残差接続と層正規化とを行う。

Transformerのエンコーダ及びデコーダにおいて、原言語文又は目的言語文のいずれか一方を対象として計算される注意は自己注意（self-attention）と呼ばれる。一方で、Transformerのデコーダにおいて、原言語文と目的言語文の間で計算される注意は、自己注意と区別するために原言語目的言語注意（source-target attention）又はクロス注意（cross attention）と呼ばれる。図１では、エンコーダのマルチヘッド注意とデコーダのマスク付きマルチヘッド注意は自己注意、デコーダのマルチヘッド注意はクロス注意である。

なお、Transformerの詳細については、例えば、参考文献１「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.」等を参照されたい。また、残差接続の詳細については、例えば、参考文献２「Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. In Proceedings of the CVPR-2016, pp. 770-778, 2016」等を参照されたい。層正規化については、例えば、上記の非特許文献１等を参照されたい。

・縮小付き内積注意
注意は、１つのクエリ（query）とキー-値ペア（key-value pair）の集合を出力に写像する関数とみなせる。ここで、クエリ、キー、値、出力はすべてベクトルである。出力は値の重み付き和として計算され、それぞれの値に対する重みはクエリとキーの適合度（compatibility）により決まる。

Transformerは注意として縮小付き内積注意（scaled dot-product attention）を用いる。縮小付き内積注意は、

に対して、以下の式のように定義される。

すなわち、クエリとすべてのキーの内積を計算して、

で割り、値に対する重みを得るためにソフトマックスを適用する。ここで、ｌ_ｑはクエリの長さ、ｌ_ｋはキーの長さ、ｄ_ｋはクエリとキーの次元数、ｄ_ｖは値の次元数である。なお、内積を

でスケールするのは、次元数ｄ_ｋが大きくなると内積の値が大きくなり、ソフトマックスに関する勾配が非常に小さくなると想定されるためである。

・マルチヘッド注意
Transformerでは、ｄ_{ｍｏｄｅｌ}次元のクエリ、キー、値について１つの注意を計算する代わりに、学習された重みを使ってクエリ、キー、値をそれぞれｄ_ｋ、ｄ_ｋ、ｄ_ｖ次元に線形射影（linearly project）することをｈ回繰り返し、射影されたクエリ、キー、値を使ってｈ個の注意を並列に計算する。そして、得られたｈ個のｄ_ｖ次元の注意を連結（concatenate）し、線形射影したものを出力する。この仕組みはマルチヘッド注意と呼ばれ、１つの注意を計算する仕組みはヘッド（head）と呼ばれる。マルチヘッド注意は、異なる表現の異なる位置の情報をモデルが同時に注視（attend）することを可能にする。

改めて、

に対して、マルチヘッド注意を以下の式のように定義する。

ここで、

は学習によって決まる射影の重みである。例えば、各単語の内部状態の次元数ｄ_{ｍｏｄｅｌ}＝５１２、ヘッド数ｈ＝８のとき、ｄ_ｋ＝ｄ_ｖ＝ｄ_{ｍｏｄｅｌ}／ｈ＝６４となる。

Transformerでは、３つの異なる方法でマルチヘッド注意を使用する。デコーダのクロス注意では、クエリはデコーダの直前の層の出力から得られ、キーと値はエンコーダの出力から得られる。これにより、デコーダのすべての位置で入力文のすべての位置を注視できる。また、エンコーダの自己注意では、すべてのクエリ、キー、値がエンコーダの直前の層の出力から得られる。これにより、エンコーダのすべての位置でエンコーダの直前の層のすべての位置を注視できる。また、デコーダの自己注意では、デコーダのすべての位置でデコーダの文頭からその位置までのすべての位置を注視できる。このデコーダの自己回帰性を実装するために、縮小付き内積注意の中で、参照してはいけない位置（つまり、現在の位置よりも文末側の位置）に対応するソフトマックスの入力をマスクする（－∞にする）。

・位置ごとの全結合順伝播型ニューラルネットワーク
エンコーダとデコーダの各層は、各位置で同一の全結合順伝播型ニューラルネットワークを含む。これは、ReLU活性化関数と２つの線形変換から構成される。すなわち、全結合順伝播型ニューラルネットワークが表す関数をFFNとすれば、FFN（ｘ）＝ｍａｘ（０，ｘＷ_１＋ｂ_１）Ｗ_２＋ｂ_２である。なお、Ｗ_１及びｂ_１は１つ目の線形変換のパラメータ（重み及びバイアス）、Ｗ_２及びｂ_２は２つ目の線形変換のパラメータである。

上記の線形変換は異なる位置でも同じパラメータを用いるが、層ごとに違うパラメータを持つ。また、入力と出力の次元はｄ_{ｍｏｄｅｌ}＝５１２、中間層の次元はｄ_ｆｆ＝２０４８である。

・単語埋め込みと位置埋め込み
入力トークン及び出力トークン（つまり、それぞれ入力文及び出力文のトークン列）は、学習により求めた単語埋め込み行列によりｄ_{ｍｏｄｅｌ}次元のベクトルに変換する。また、デコーダの出力は、学習により求めた線形変換とソフトマックスにより次のトークンの確率に変換する。入力トークンに対する単語埋め込み行列、出力トークンに対する単語埋め込み行列、ソフトマックスの前の線形変換は同じ重み行列を用いる。単語埋め込み層（図１では「入力埋め込み層」及び「出力埋め込み層」）では、この重みに対して

をかけたものを用いる。

また、単語埋め込み層の出力には、エンコードとデコーダの層の積み重ねの前に位置埋め込み（positional encoding）が加えられる。位置埋め込みはｄ_{ｍｏｄｅｌ}次元のベクトルである。Transformerでは、異なる周波数のsin関数とcos関数を用いて以下のような位置埋め込みを使用する。

ここで、posは位置、ｉは次元である。位置埋め込みの各次元は１つの正弦曲線に対応する。波長は２πから１００００・２πまでの等比数列になっている。任意のオフセットＫに対してＰＥ_{ｐｏｓ＋Ｋ}がＰＥ_ｐｏｓの線形関数で表現できるので、注意を相対位置で学習するのが容易になることが想定されている。

≪Transformerの学習の安定化≫
Transformerは学習が不安定になりやすく、バッチサイズや学習率等のハイパーパラメータの調整が難しいことが知られている。このことの詳細については、例えば、参考文献３「Martin Popel and Ondrej Bojar. Training tips for the transformer model. In The Prague Bulletin of Mathematical Linguistics, No. 110, pp. 43-70, 2018.」等を参照されたい。

Transformerの学習が不安定になる理由の１つは、残差接続が使われる割合が大きくなりすぎて発振するせいだと言われている。Transformerでは下位層Sublayer（ｘ）と残差ｘとを加えてから層正規化LayerNormを行うPOSTNORMと呼ばれる方法を使っているが、これに対して、下位層の直前に層正規化LayerNormを行うPRENORMと呼ばれる方法が上記の非特許文献２に提案されている。このPRENORMは確かに学習が安定化するが、翻訳精度が低下するという問題がある。また、残差接続によって生じる不安定さを抑制するために、モデルの初期値を適応的に抑制するAdmin（Adaptive model initialization）という方法も知られている。なお、Adminの詳細については、例えば、参考文献４「Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, and Jiawei Han. Understanding the difficulty of training transformers. arXiv:2004.08249, 2020.」等を参照されたい。

≪マルチホップ注意と階層的注意≫
メモリネットワークを用いた質問応答では、質問文と文脈の間で注意を計算し、この計算によって得られた注意と文脈の間で再度注意を計算することを繰り返すことで、より回答に近い洗練された注意を得るマルチホップ注意（multi-hop attention）が参考文献５「Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In Proceedings of NeurIPS-2015, 2015.」で提案されている。この参考文献５では、注意の計算を３回繰り返すマルチホップ注意が提案されている。

また、画像とテキストを入力として翻訳を実行するマルチモーダル翻訳のように、複数の入力に対してそれぞれのエンコーダから得られる情報を統合する方法として、異なる入力系列に対する注意に対して注意を計算する階層的注意（hierarchical attention）が参考文献６「Jindrich Libovicky and Jindrich Helcl. Attention strategies for multi-source sequence-to-sequence learning. In Proceedings of the ACL-2017, pp. 196-202, 2017.」で提案されている。

＜本実施形態に係る翻訳モデルの構成＞
次に、本実施形態で提案する翻訳モデルの構成について説明する。本実施形態に係る翻訳モデルはTransformerと基本的な構成は同じであるが、マルチヘッド注意を統合する際に上記の数６のように単純に連結するのではなく、階層的注意のように各ヘッドの出力に対して注意の計算を行って統合する。この仕組みは注意を２回計算することになり、かつ、このヘッドに対する注意は繰り返し適用することが可能であるため、上記の参考文献５の用語を使用し、本実施形態でも「マルチホップ注意」と呼ぶことにする。以降、「マルチホップ注意」と表記した場合は、本実施形態で提案するマルチホップ注意のことを指すものとする。なお、本実施形態で提案するマルチホップ注意の詳細については後述する。

ここで、Transformerにおいてマルチヘッド注意が使用されている箇所は、エンコーダの自己注意、デコーダの自己注意、デコーダのクロス注意の３つに大別できる。つまり、例えば、エンコーダ及びデコーダの層の総数がＮ'層である場合、３×Ｎ'箇所にマルチヘッド注意が用いられている。これらの３×Ｎ'箇所のマルチヘッド注意の全部又は一部をマルチホップ注意に置き換えることで、本実施形態に係る翻訳モデルが構成される。

このように、本実施形態に係る翻訳モデルはTransformerのマルチヘッド注意の全部又は一部をマルチホップ注意に置き換えたモデルである。以降、「翻訳モデル」と表記した場合は、Transformerのマルチヘッド注意の全部又は一部をマルチホップ注意に置き換えたモデルのことを指すものとする。なお、どの層のマルチヘッド注意をマルチホップ注意に置き換えるか等は、例えば、開発用データにおける翻訳精度等に基づいて実験的に決定することが望ましい。

≪マルチホップ注意≫
本実施形態に係るマルチホップ注意について説明する。まず、従来のマルチヘッド注意とマルチホップ注意の比較例を図２に示す。図２の左図が従来のマルチヘッド注意、右図がマルチホップ注意である。図２に示すように、マルチホップ注意は、マルチヘッド注意に対して多層パーセプトロン注意とゲーティング機構を導入したものである。以降では、縮小付き内積注意を一次ホップ、多層パーセプトロン注意及びゲーティング機構を二次ホップと呼ぶことにする。ただし、二次ホップには、必ずしも多層パーセプトロン注意を用いる必要はなく、例えば、縮小付き内積注意が用いられてもよい。

このように、本実施形態に係るマルチホップ注意は、従来のTransformerのマルチヘッド注意の出力に対して更に注意を適用するものである。これにより、パラメータの更新値が極端な値にならないように正規化することが可能となる。また、エンコーダやデコーダの層を増やすのではなく、その下位層である注意機構の適用回数を増やすことにより、少ないパラメータ数の増加でモデルの表現能力を高めることが可能となる。

また、一例として、従来のTransformerのエンコーダに対してマルチホップ注意を導入した場合のエンコーダを図３に示す。図３に示す例では、Transformerのエンコーダのマルチヘッド注意をマルチホップ注意に置き換えた場合を示している。なお、上述したように、これは一例であって、Transformerのデコーダのマルチヘッド注意をマルチホップ注意に置き換えることも可能である。

マルチホップ注意は、縮小付き内積注意により計算されたｉ番目のヘッドの値Ａ_ｉと、ｉ番目のヘッドのために線形射影されたクエリＱ_ｉの間で以下の式のような多層パーセプトロン注意ｅ_ｉを計算する。

次に、ゲーティング機構では、多層パーセプトロン注意ｅ_ｉをソフトマックスにより正規化したβ_ｉを用いて、ヘッドの値Ａ_ｉをゲーティングしたＡ_ｉ´を得る。すなわち、ゲーティング機構では以下の式によりＡ_ｉ´を得る。

最後に、Ａ_ｉ´を連結して線形変換することによりマルチホップ注意の値を得る。すなわち、以下の式によりマルチホップ注意の値を得る。

ここで、ｖ_ｂ、Ｗ_ｂ、Ｕ_ｂ、Ｕ_ｃ、Ｗ´^Ｏは学習によって決まるパラメータである。

なお、上記の数１１のソフトマックスによる正規化は、ヘッドだけでなく、同じバッチの中のすべての文に対して行われてもよい。バッチとは、１ステップの学習で複数文を並列に処理する単位を指し、ニューラル機械翻訳ではおよそ数十文がまとめて処理される。１つのバッチがｓ個の文から構成され、ｍ番目の文のｉ番目のヘッドの値をｅ_ｍ，ｉとすると、ヘッドと同じバッチの中のすべての文との両方に対するソフトマックスによる正規化は以下のように表せる。

バッチサイズを小さくすると、バッチごとの勾配に偏りが生じることにより学習がうまくいかなくなると考えられるため、バッチとヘッドの両方をソフトマックスにより正規化することで学習がより安定すると考えられる。

＜翻訳装置１０の全体構成＞
次に、本実施形態に係る翻訳装置１０の全体構成について、図４を参照しながら説明する。図４は、本実施形態に係る翻訳装置１０の全体構成の一例を示す図である。

図４に示すように、本実施形態に係る翻訳装置１０は、翻訳モデル学習部１０１と、翻訳実行部１０２とを有する。

翻訳モデル学習部１０１は、学習用データである対訳データを入力として、翻訳モデルのパラメータを学習及び出力する。なお、対訳データとは、原言語文と、目的言語に関する当該原言語文の対訳文とで構成されるデータのことであり、対訳コーパス等が用いられる。また、学習対象のパラメータは、従来のTransformerの学習対象パラメータと、上述したパラメータｖ_ｂ、Ｗ_ｂ、Ｕ_ｂ、Ｕ_ｃ、Ｗ´^Ｏである。

翻訳実行部１０２は翻訳モデルにより実現され、翻訳対象の原言語文である入力文を入力として、翻訳モデル学習部１０１によって学習されたパラメータを用いて、当該原言語文を目的言語文に翻訳（変換）し、この目的言語文を出力文として出力する。

なお、本実施形態に係る翻訳装置１０には、学習処理により翻訳モデルのパラメータを学習する学習フェーズと、翻訳処理により入力文を出力文に変換（翻訳）する推論フェーズとが存在する。図４に示す例では翻訳装置１０が翻訳モデル学習部１０１及び翻訳実行部１０２の両方を有している場合を示しているが、これは一例であって、例えば、学習フェーズにおける翻訳装置１０は翻訳実行部１０２を有していなくてもよく、推論フェーズにおける翻訳装置１０は翻訳モデル学習部１０１を有していなくてもよい。また、学習フェーズにおける翻訳装置１０は「学習装置」等と称されてもよい。更に、「学習」との用語の代わりに、「訓練」との用語が用いられてもよい。

＜学習処理の流れ＞
次に、本実施形態に係る学習処理の流れについて、図５を参照しながら説明する。図５は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。

まず、翻訳モデル学習部１０１は、学習用データとして対訳データを入力する（ステップＳ１０１）。

次に、翻訳モデル学習部１０１は、上記のステップＳ１０１で入力した対訳データを用いて、翻訳モデルのパラメータを学習する（ステップＳ１０２）。なお、パラメータの学習に用いる最適化手法としては任意の最適化手法を用いることが可能であるが、例えば、Adam等を用いればよい。

そして、翻訳モデル学習部１０１は、上記のステップＳ１０２で学習した翻訳モデルのパラメータを所定の出力先（例えば、記憶装置やディスプレイ、通信ネットワークを介して接続される他の装置等）に出力する（ステップＳ１０３）。これにより、翻訳モデルのパラメータが学習及び出力される。

＜翻訳処理の流れ＞
次に、本実施形態に係る翻訳処理の流れについて、図６を参照しながら説明する。図６は、本実施形態に係る翻訳処理の流れの一例を示すフローチャートである。

まず、翻訳実行部１０２は、翻訳対象の原言語文である入力文を入力する（ステップＳ２０１）。

次に、翻訳実行部１０２は、学習済みの翻訳モデルのパラメータを用いて、上記のステップＳ２０１で入力した入力文を、目的言語の出力文に翻訳（変換）する（ステップＳ２０２）。

そして、翻訳実行部１０２は、上記のステップＳ２０２で得られた出力文を所定の出力先（例えば、記憶装置やディスプレイ、通信ネットワークを介して接続される他の装置等）に出力する（ステップＳ２０３）。これにより、学習済みの翻訳モデルによって入力文が出力文に翻訳及び出力される。

＜翻訳装置１０のハードウェア構成＞
次に、本実施形態に係る翻訳装置１０のハードウェア構成について、図７を参照しながら説明する。図７は、本実施形態に係る翻訳装置１０のハードウェア構成の一例を示す図である。

図７に示すように、本実施形態に係る翻訳装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、翻訳装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。翻訳装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、翻訳装置１０が有する各機能部（翻訳モデル学習部１０１及び翻訳実行部１０２）を実現する１以上のプログラムが格納されていてもよい。また、記録媒体２０３ａには、対訳データや翻訳モデルのパラメータ等が格納されていてもよい。なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、翻訳装置１０を通信ネットワークに接続するためのインタフェースである。なお、翻訳装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。また、対訳データや学習済みの翻訳モデルのパラメータ等は、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。翻訳装置１０が有する各機能部は、例えば、メモリ装置２０６に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。対訳データや翻訳モデルのパラメータ等は、例えば、メモリ装置２０６に格納される。

本実施形態に係る翻訳装置１０は、図７に示すハードウェア構成を有することにより、上述した学習処理や翻訳処理を実現することができる。なお、図７に示すハードウェア構成は一例であって、翻訳装置１０は、他のハードウェア構成を有していてもよい。例えば、翻訳装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

＜評価実験＞
次に、本実施形態に係る翻訳装置１０を評価するために行った実験及びその結果について説明する。

≪実験データ≫
本実験では、IWSLT2017英独翻訳タスク及びWMT17英独翻訳タスクの対訳コーパスに加え、科学技術論文コーパスAsian Scientific Paper Except Corpus（ASPEC）及びOpenSubtitles2018の日英対訳コーパスを用いた翻訳実験を行った。なお、IWSLT2017の詳細については、例えば、参考文献７「IWSLT Evaluation 2017，インターネット＜ＵＲＬ：https://sites.google.com/site/iwsltevaluation2017/＞」等を参照されたい。また、WMT17の詳細については、例えば、参考文献８「Translation Task - ACL 2017 Second Conference on Machine Translation，インターネット＜ＵＲＬ：http://www.statmt.org/wmt17/translation-task.html＞」等を参照されたい。ASPECの詳細については、例えば、参考文献９「Toshiaki Nakazawa, Manabu Yaguchi, Kiyotaka Uchimoto, Masao Utiyama, Eiichiro Sumita, Sadao Kurohashi, and Hitoshi Isahara. Aspec: Asian scientific paper excerpt corpus. In Proceedings of the LREC-2016, pp. 2204-2208, 2016.」等を参照されたい。

IWSLT2017の訓練用データ及び検証用データはそれぞれおよそ２０万文対及び９０００文対であった。また、WMT17の訓練用データはおよそ５９０万文対であり、検証用データにはnewstest2014及びnewstest2017を用いた。ASPECでは訓練用データとして与えられた３００万件のうち、アライメントスコアが上位の１００万件を用いた。開発用データはおよそ１８００文対であり、また検証用データとして３５９６文対を使用した。OpenSubtitles2018では約２００万文対のデータが得られたので、その１０％にあたる約２０万文対を除外し、更にその中から１万文対を検証用データとして使用した。

本実験で使用したデータのデータ数を以下の表１にまとめる。

ここで、de→enは独英翻訳、en→deは英独翻訳、en→jaは英日翻訳を表す。

また、英語文・ドイツ語文ではMoses Tokenizer、日本語文ではMeCabによるトークン化処理を行った後、サブワードを用いて、原言語側と目的言語側あわせて３２０００語を共通語彙とした。なお、Moses Tokenizerの詳細については、例えば、参考文献１０「Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the ACL-2007, pp. 177-180, 2007.」等を参照されたい。また、MeCabの詳細については、例えば、参考文献１１「mecab Yet Another Part-of-Speech and Morphological Analyzer，インターネット＜ＵＲＬ：http://taku910.github.io/mecab/＞」等を参照されたい。サブワードの詳細については、例えば、参考文献１２「Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of the ACL-2016, pp. 1715-1725, 2016.」等を参照されたい。

≪実験設定≫
本実験では、fairseqのTransformerをベースラインとし、本実施形態に係る翻訳装置１０の翻訳モデル（以下、「提案手法」という。）もfairseqを使って実装した。翻訳精度の評価には自動評価手法BLEUを用い、有意差の判定にはmtevalツールを用いブートストラップ法によって検定を行った。訓練はAdamによる最適化を行い、埋め込み層は５１２次元とし、各隠れ層は２０４８次元、ヘッド数は８とし、エンコーダ及びデコーダはそれぞれ６層とした。また、IWSLT2017においては１００エポック、WMT17、ASPEC及びOpenSubtitles2018においては２０エポックの学習を実施した。更に、本実験では、NVIDIA（登録商標）製のグラフィックスカードであるGEFORCE（登録商標） RTX 2080 Tiを１枚使用した。

なお、fairseqの詳細については、例えば、参考文献１３「Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli. fairseq: A fast, extensible toolkit for sequence modeling. In Proceedings of the NAACL-2019 (Demonstrations), pp. 48-53, 2019.」等を参照されたい。また、BLEUの詳細については、例えば、参考文献１４「Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the ACL-2002, pp. 311-318, 2002.」等を参照されたい。mtevalツールの詳細については、例えば、参考文献１５「GitHub - odashi-mteval Collection of Evaluation Metrics and Algorithms for Machine Translation，インターネット＜ＵＲＬ：https://github.com/odashi/mteval＞」等を参照されたい。

≪翻訳精度≫
提案手法とベースラインの翻訳精度を以下の表２に示す。

エンコーダとデコーダの各層は６層であり、バッチサイズは４０９６である。なお、予備実験に基づき、提案手法では、IWSLT2017独英翻訳タスクにおいては、エンコーダの１層目に二次ホップを用い、学習率を０．０００５とした。また、WMT17では６層目に、ASPEC及びOpenSubtitles2018では５層目と６層目に二次ホップを用い、学習率を０．０００３とした。

上記の表２に示されるように、すべてのデータセットの実験において提案手法はベースラインを上回り、特に、IWSLT2017、WMT17及びOpenSubtitles2018ではBLEUスコアを有意に改善した（IWSLT2017のde→enではｐ≦０．０１、IWSLT2017のen→de、WMT17及びOpenSubtitles2018ではｐ≦０．０５）。なお、ASPECで有意差がなかった理由は、アライメントスコアの高い文のみが訓練に用いられており、データの偏りがある場合に安定するといった提案手法の特徴が活かされなかったためであると考えられる。

≪バッチサイズ≫
バッチサイズが小さい場合においても提案手法が安定して収束することを示すために、デフォルトのバッチサイズ４０９６を基準として、半分の２０４８、更に半分の１０２４の設定でベースライン及び翻訳モデルを訓練した。このときの翻訳精度を以下の表３に示す。

なお、上記の表３では学習率を０．０００３とした場合の翻訳精度（BLEUスコア）と訓練時に占有されたメモリサイズ（ＭｉＢ）が１つのセル内に表記されている（「翻訳精度／メモリサイズ」である。）。

全体的に少ないバッチサイズにおいて、ベースラインは性能（翻訳精度）が悪化する傾向があり、一方で提案手法は安定した性能が認められる。特に、最小規模のコーパスであるIWSLT2017に着目すると、バッチサイズが２０４８の場合にはある程度ベースラインの学習ができていたものが、バッチサイズが１０２４の場合には全く収束しなくなっていることがわかり、この差が学習の成否を分けていると考えられる。また、訓練時に占有されたメモリサイズを確認してみると、ベースライン及び提案手法ともに、バッチサイズが２０４８のときに約２８００Ｍｉｂ、バッチサイズが１０２４のときに約２１００Ｍｉｂとなっている。提案手法は限られたメモリサイズの場合でも訓練に成功しているため、およそ２５％のメモリサイズを節約していると言える。一般的にニューラル機械翻訳ではパラメータ数を増やすことによってモデルの性能を向上させることができる一方、増えたパラメータを載せるためのＧＰＵメモリを確保する必要があり、更に収束まで時間が掛かるという問題がある。上記の表３によると、提案手法はベースラインに新たなモジュールであるマルチホップ注意機構を加えているものの、そのパラメータ増加数は極めて僅かであり、メモリサイズ及び収束速度に対する悪影響が無いものだと考えられる。

また、上記の表３において、ベースラインはIWSLT2017やWMT17においてバッチサイズを小さくしたときの翻訳精度の下がり幅が非常に大きい。ASPECやOpenSubtitles2018ではバッチサイズが小さい場合におけるベースラインと提案手法の差があまり目立たないものとなっているが、上記の表１によるとIWSLT2017は訓練用データセットのサイズが最も少ない約２０万文対しかなく、また、WMT17は最も多い約５９０万文対もあることから、提案手法はデータセットのサイズが非常に小さい場合においてより効果を発揮すると考えられる。

≪収束速度≫
IWSLT2017独英翻訳タスクにおける汎化誤差の学習曲線を図８及び図９に示す。図８は学習曲線の全体、図９は汎化誤差が３．８００～４．０００の範囲で拡大した学習曲線である。図８及び図９に示されるように、提案手法は、ベースラインよりも早期に収束する傾向があることがわかる。

≪PRENORMとの比較≫
従来のTransformerでは残差接続の後で層正規化を行う（POSTNORM）が、上記の非特許文献２には残差接続の前で層正規化を行うPRENORMと呼ばれる方法が記載されている。上述したように、このPRENORMはTransformerの訓練を安定化できることが示されている。そこで、IWSLT2017独英翻訳タスクにおいて、様々なバッチサイズ及び学習率の下で翻訳精度（BLEUスコア）に関して提案手法と比較する実験を行った。その結果を以下の表４及び表５に示す。

上記の表５に示されるように、大きい学習率ではベースラインの学習がうまくいかないのに対して、提案手法及びPRENORMではともに安定して収束していることがわかる。また、PRENORMよりも提案手法の方が、翻訳精度が高いことがわかる。

学習率が大きい場合又はバッチサイズが小さい場合にはパラメータの更新値の変化が大きく、ベースラインでは不安定になる。これに対して、提案手法は、パラメータの更新値の変動を抑えることができるためと考えられる。また、これだけでなく、提案手法は、マルチヘッド注意に対する注意を導入することによってPRENORMよりもモデルの表現能力が向上しているためであるとも考えられる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１０翻訳装置
１０１翻訳モデル学習部
１０２翻訳実行部
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置

Claims

原言語の入力文を入力する入力部と、
Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも１つのマルチヘッド注意機構を、前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に多層パーセプトロン注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、前記入力文を目的言語の出力文に翻訳する翻訳部と、
を有し、
前記マルチホップ注意機構では、
前記多層パーセプトロン注意機構の出力をソフトマックス関数により正規化し、前記正規化された出力を用いて前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力をゲーティングし、前記ゲーティングにより得られた値を連結及び線形変換する、ことを特徴とする翻訳装置。
前記正規化された出力は、
前記多層パーセプトロン注意機構の出力をヘッド単位でソフトマックス関数により正規化した値、又は、前記多層パーセプトロン注意機構の出力をヘッド及びバッチ単位でソフトマックス関数により正規化した値のいずれかである、ことを特徴する請求項１に記載の翻訳装置。
原言語の入力文を入力する入力手順と、
Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも１つのマルチヘッド注意機構を、前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に多層パーセプトロン注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、前記入力文を目的言語の出力文に翻訳する翻訳手順と、
をコンピュータが実行し、
前記マルチホップ注意機構では、
前記多層パーセプトロン注意機構の出力をソフトマックス関数により正規化し、前記正規化された出力を用いて前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力をゲーティングし、前記ゲーティングにより得られた値を連結及び線形変換する、ことを特徴とする翻訳方法。
コンピュータを、請求項１又は２に記載の翻訳装置として機能させるプログラム。