JP2022018928A - 翻訳装置、翻訳方法及びプログラム - Google Patents

翻訳装置、翻訳方法及びプログラム Download PDF

Info

Publication number
JP2022018928A
JP2022018928A JP2020122380A JP2020122380A JP2022018928A JP 2022018928 A JP2022018928 A JP 2022018928A JP 2020122380 A JP2020122380 A JP 2020122380A JP 2020122380 A JP2020122380 A JP 2020122380A JP 2022018928 A JP2022018928 A JP 2022018928A
Authority
JP
Japan
Prior art keywords
translation
attention mechanism
attention
output
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020122380A
Other languages
English (en)
Other versions
JP7357291B2 (ja
Inventor
昌明 永田
Masaaki Nagata
頌平 飯田
Shohei Iida
武仁 宇津呂
Takehito Utsuro
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tsukuba NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020122380A priority Critical patent/JP7357291B2/ja
Publication of JP2022018928A publication Critical patent/JP2022018928A/ja
Application granted granted Critical
Publication of JP7357291B2 publication Critical patent/JP7357291B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】翻訳精度を低下させることなく、学習率が高い場合やバッチサイズが小さい場合にも安定して学習ができる翻訳装置、方法およびプログラムを提供する。【解決手段】翻訳装置は、原言語の入力文を入力する入力部と、Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも1つのマルチヘッド注意機構を、マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に所定の注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、入力文を目的言語の出力文に翻訳する翻訳部と、を有する。【選択図】図2

Description

特許法第30条第2項適用申請有り 2019年7月17日開催の知能機能システム専攻セミナーにて公開 2019年7月28日に国際会議ACL2019(The 57th Annual Meeting of the Association for Computational Linguistics)のウェブサイト(http://www.acl2019.org/EN/index.xhtml)(https://sites.google.com/view/acl19studentresearchworkshop/)にて公開 2019年12月20日開催の2019年度 第5回 AAMT/Japio特許翻訳研究会にて公開 2020年2月5日開催の筑波大学大学院 システム情報工学研究科 知能機能システム専攻 修士論文発表会にて公開 2020年3月25日にAAMT/Japio特許翻訳研究会のウェブサイト(http://aamtjapio.com/index.html)にて公開
本発明は、翻訳装置、翻訳方法及びプログラムに関する。
コンピュータを用いて、ある言語を別の言語へ変換することを機械翻訳という。近年では、ニューラルネットワークを用いた機械翻訳であるニューラル機械翻訳(NMT:Neural Machine Translation)の研究が盛んに行われており、それまで主流だった統計的機械翻訳(SMT:Statistical Machine Translation)の性能を大きく上回って、機械翻訳の主流となっている。
初期のニューラル機械翻訳では再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を利用したエンコーダデコーダモデル(符号器復号器モデル、encoder-decoder model)が用いられていたが、現在では、注意機構(Attention)と順伝播型ニューラルネットワーク(Feed-forward Neural Network)を組み合わせてエンコーダを並列化したTransformerがニューラル機械翻訳の主流となっている。
Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. Layer normalization. arXiv:1607.06450, 2016. Toan Q. Nguyen and Julian Salazar. Transformers without tears: Improving the normalization of self-attention. In Proceedings of the IWSLT-2019, 2019.
しかしながら、Transformerは学習率が高い場合やバッチサイズが小さい場合に、学習が不安定になるという問題がある。なお、この問題に対する解決策としてPRENORMと呼ばれる方法が知られているが、PRENORMは学習を安定化させることができる一方で翻訳精度が低下してしまう。
本発明の一実施形態は、上記の点に鑑みてなされたもので、翻訳精度を低下させることなく、学習率が高い場合やバッチサイズが小さい場合にも安定して学習を行うことを目的とする。
上記目的を達成するため、一実施形態に係る翻訳装置は、原言語の入力文を入力する入力部と、Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも1つのマルチヘッド注意機構を、前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に所定の注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、前記入力文を目的言語の出力文に翻訳する翻訳部と、を有することを特徴とする。
翻訳精度を低下させることなく、学習率が高い場合やバッチサイズが小さい場合にも安定して学習を行うことができる。
Transformerの概要を説明するための図である。 マルチヘッド注意とマルチホップ注意の比較例を説明するための図である。 Transformerのエンコーダに対してマルチホップ注意を導入した例を説明するための図である。 本実施形態に係る翻訳装置の全体構成の一例を示す図である。 本実施形態に係る学習処理の流れの一例を示すフローチャートである。 本実施形態に係る翻訳処理の流れの一例を示すフローチャートである。 本実施形態に係る翻訳装置のハードウェア構成の一例を示す図である。 汎化誤差の学習曲線を示す図(その1)である。 汎化誤差の学習曲線を示す図(その2)である。
以下、本発明の一実施形態について説明する。本実施形態では、従来のTransformerの注意機構の全部又は一部を改良することで、従来のTransformerと同等以上の翻訳精度を持ち、かつ、学習率が高い場合やバッチサイズが小さい場合にも安定して学習を行うことが可能な翻訳モデルと、この翻訳モデルにより翻訳を行う翻訳装置10について説明する。
<準備>
本実施形態に係る翻訳モデルを説明する前に、いくつかの従来技術について説明する。
≪Transformerによるニューラル機械翻訳≫
・エンコーダデコーダモデル
ニューラル機械翻訳は、エンコーダデコーダモデルに基づいて、原言語文から目的言語文への変換を実現する。
エンコーダは、ニューラルネットワークを用いた非線形変換を表す関数encoderにより、長さ|X|の原言語文X=x1:|X|=x,・・・,x|X|を、長さ|X|の内部状態の系列s1:|X|=s,・・・,s|X|に変換する。すなわち、s1:|X|=encoder(x1:|X|)と変換する。ここで、各単語(つまり、各x(ただし、i=1,・・・,|X|))に対応する内部状態の次元数をdmodelとすれば、s1:|X|は|X|×dmodelの行列である。
デコーダは、エンコーダの出力s1:|X|と目的言語文の文頭からj番目の直前までの単語列y<jを入力として、ニューラルネットワークを用いた非線形変換を表す関数decoderにより、目的言語文のj番目の単語yを文頭から1つずつ生成する。すなわち、y=decoder(s1:|X|,y<j)により単語yを生成する。ここで、デコーダが長さ|Y|の目的言語文Y=y1:|Y|=y,・・・,y|Y|を生成するとき、デコーダの内部状態の系列をt1:|Y|=t,・・・,t|Y|と表現する。各単語に対応する内部状態の次元数をdmodelとすれば、t1:|Y|は|Y|×dmodelの行列である。
・Transformerの概要
初期のニューラル機械翻訳ではエンコーダ及びデコーダのニューラルネットワークとして再帰型ニューラルネットワークを用いていた。また、エンコーダデコーダモデルは、注意機構(以下、単に「注意」ともいう。)を導入することにより、翻訳精度が大きく向上することが知られている。注意機構とは、デコーダにおいて目的言語文の各単語を生成する際に、エンコーダの内部状態に対する重みを変えることで原言語文のどの単語の情報を利用するかを決定する仕組みである。
現在では、注意機構と順伝播型ニューラルネットワークを組み合わせてエンコーダを並列化したエンコーダデコーダモデルであるTransformerがニューラル機械翻訳の主流となっている。Transformerは、図1に示すように、注意機構(図1では「マルチヘッド注意」及び「マスク付きマルチヘッド注意」)と全結合順伝播型ニューラルネットワーク(図1では「全結合層」)との組み合わせを積み重ねる(stack)ことによってエンコーダ及びデコーダを構成するモデルである。RNNは内部状態が過去の内部状態に依存して決まるという自己回帰性のために本質的に並列化が難しいのに対して、Transformerは、少なくとも学習時にはエンコーダとデコーダの計算を並列化することができる。なお、推論時には、Transformerのデコーダも単語を文頭から1つずつ生成するため並列化できない。
Transformerのエンコーダは、マルチヘッド注意(multi-head attention)及び位置ごと(position-wise)の全結合順伝播型ニューラルネットワーク(fully connected feed-forward neural network、図1では「全結合層」)の2つの下位層(sublayer)が含まれる1つの層をN回積み重ねる。通常はN=6である。2つの下位層のそれぞれで残差接続(residual connection)と層正規化(layer normalization)とを行う。したがって、下位層(マルチヘッド注意又は全結合層)への入力をx、下位層を表す関数をSublayerとすると、残差接続及び層正規化を行った後の下位層の出力は、LayerNorm(x+Sublayer(x))となる。このような残差接続のためにすべての下位層及び埋め込みの出力の次元数はdmodelに統一されている。通常はdmodel=512である。
Transformerのデコーダは、エンコーダと同様の2つの下位層に加えて、エンコーダの出力に対するマルチヘッド注意を実行する3つ目の下位層(図1のデコーダ中で真ん中付近に記載されている「マルチヘッド注意」)が含まれる1つの層をN回積み重ねる。ただし、1つの層内の最初のマルチヘッド注意には、現在出力する単語を計算している位置よりも後の位置を参照しないようにマスクをかける(したがって、図1では、当該マルチヘッド注意を「マスク付きマルチヘッド注意」と表記している。)。通常はN=6である。、また、エンコーダと同様に、各下位層のそれぞれで残差接続と層正規化とを行う。
Transformerのエンコーダ及びデコーダにおいて、原言語文又は目的言語文のいずれか一方を対象として計算される注意は自己注意(self-attention)と呼ばれる。一方で、Transformerのデコーダにおいて、原言語文と目的言語文の間で計算される注意は、自己注意と区別するために原言語目的言語注意(source-target attention)又はクロス注意(cross attention)と呼ばれる。図1では、エンコーダのマルチヘッド注意とデコーダのマスク付きマルチヘッド注意は自己注意、デコーダのマルチヘッド注意はクロス注意である。
なお、Transformerの詳細については、例えば、参考文献1「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.」等を参照されたい。また、残差接続の詳細については、例えば、参考文献2「Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. In Proceedings of the CVPR-2016, pp. 770-778, 2016」等を参照されたい。層正規化については、例えば、上記の非特許文献1等を参照されたい。
・縮小付き内積注意
注意は、1つのクエリ(query)とキー-値ペア(key-value pair)の集合を出力に写像する関数とみなせる。ここで、クエリ、キー、値、出力はすべてベクトルである。出力は値の重み付き和として計算され、それぞれの値に対する重みはクエリとキーの適合度(compatibility)により決まる。
Transformerは注意として縮小付き内積注意(scaled dot-product attention)を用いる。縮小付き内積注意は、
Figure 2022018928000002
に対して、以下の式のように定義される。
Figure 2022018928000003
すなわち、クエリとすべてのキーの内積を計算して、
Figure 2022018928000004
で割り、値に対する重みを得るためにソフトマックスを適用する。ここで、lはクエリの長さ、lはキーの長さ、dはクエリとキーの次元数、dは値の次元数である。なお、内積を
Figure 2022018928000005
でスケールするのは、次元数dが大きくなると内積の値が大きくなり、ソフトマックスに関する勾配が非常に小さくなると想定されるためである。
・マルチヘッド注意
Transformerでは、dmodel次元のクエリ、キー、値について1つの注意を計算する代わりに、学習された重みを使ってクエリ、キー、値をそれぞれd、d、d次元に線形射影(linearly project)することをh回繰り返し、射影されたクエリ、キー、値を使ってh個の注意を並列に計算する。そして、得られたh個のd次元の注意を連結(concatenate)し、線形射影したものを出力する。この仕組みはマルチヘッド注意と呼ばれ、1つの注意を計算する仕組みはヘッド(head)と呼ばれる。マルチヘッド注意は、異なる表現の異なる位置の情報をモデルが同時に注視(attend)することを可能にする。
改めて、
Figure 2022018928000006
に対して、マルチヘッド注意を以下の式のように定義する。
Figure 2022018928000007
ここで、
Figure 2022018928000008
は学習によって決まる射影の重みである。例えば、各単語の内部状態の次元数dmodel=512、ヘッド数h=8のとき、d=d=dmodel/h=64となる。
Transformerでは、3つの異なる方法でマルチヘッド注意を使用する。デコーダのクロス注意では、クエリはデコーダの直前の層の出力から得られ、キーと値はエンコーダの出力から得られる。これにより、デコーダのすべての位置で入力文のすべての位置を注視できる。また、エンコーダの自己注意では、すべてのクエリ、キー、値がエンコーダの直前の層の出力から得られる。これにより、エンコーダのすべての位置でエンコーダの直前の層のすべての位置を注視できる。また、デコーダの自己注意では、デコーダのすべての位置でデコーダの文頭からその位置までのすべての位置を注視できる。このデコーダの自己回帰性を実装するために、縮小付き内積注意の中で、参照してはいけない位置(つまり、現在の位置よりも文末側の位置)に対応するソフトマックスの入力をマスクする(-∞にする)。
・位置ごとの全結合順伝播型ニューラルネットワーク
エンコーダとデコーダの各層は、各位置で同一の全結合順伝播型ニューラルネットワークを含む。これは、ReLU活性化関数と2つの線形変換から構成される。すなわち、全結合順伝播型ニューラルネットワークが表す関数をFFNとすれば、FFN(x)=max(0,xW+b)W+bである。なお、W及びbは1つ目の線形変換のパラメータ(重み及びバイアス)、W及びbは2つ目の線形変換のパラメータである。
上記の線形変換は異なる位置でも同じパラメータを用いるが、層ごとに違うパラメータを持つ。また、入力と出力の次元はdmodel=512、中間層の次元はdff=2048である。
・単語埋め込みと位置埋め込み
入力トークン及び出力トークン(つまり、それぞれ入力文及び出力文のトークン列)は、学習により求めた単語埋め込み行列によりdmodel次元のベクトルに変換する。また、デコーダの出力は、学習により求めた線形変換とソフトマックスにより次のトークンの確率に変換する。入力トークンに対する単語埋め込み行列、出力トークンに対する単語埋め込み行列、ソフトマックスの前の線形変換は同じ重み行列を用いる。単語埋め込み層(図1では「入力埋め込み層」及び「出力埋め込み層」)では、この重みに対して
Figure 2022018928000009
をかけたものを用いる。
また、単語埋め込み層の出力には、エンコードとデコーダの層の積み重ねの前に位置埋め込み(positional encoding)が加えられる。位置埋め込みはdmodel次元のベクトルである。Transformerでは、異なる周波数のsin関数とcos関数を用いて以下のような位置埋め込みを使用する。
Figure 2022018928000010
ここで、posは位置、iは次元である。位置埋め込みの各次元は1つの正弦曲線に対応する。波長は2πから10000・2πまでの等比数列になっている。任意のオフセットKに対してPEpos+KがPEposの線形関数で表現できるので、注意を相対位置で学習するのが容易になることが想定されている。
≪Transformerの学習の安定化≫
Transformerは学習が不安定になりやすく、バッチサイズや学習率等のハイパーパラメータの調整が難しいことが知られている。このことの詳細については、例えば、参考文献3「Martin Popel and Ondrej Bojar. Training tips for the transformer model. In The Prague Bulletin of Mathematical Linguistics, No. 110, pp. 43-70, 2018.」等を参照されたい。
Transformerの学習が不安定になる理由の1つは、残差接続が使われる割合が大きくなりすぎて発振するせいだと言われている。Transformerでは下位層Sublayer(x)と残差xとを加えてから層正規化LayerNormを行うPOSTNORMと呼ばれる方法を使っているが、これに対して、下位層の直前に層正規化LayerNormを行うPRENORMと呼ばれる方法が上記の非特許文献2に提案されている。このPRENORMは確かに学習が安定化するが、翻訳精度が低下するという問題がある。また、残差接続によって生じる不安定さを抑制するために、モデルの初期値を適応的に抑制するAdmin(Adaptive model initialization)という方法も知られている。なお、Adminの詳細については、例えば、参考文献4「Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, and Jiawei Han. Understanding the difficulty of training transformers. arXiv:2004.08249, 2020.」等を参照されたい。
≪マルチホップ注意と階層的注意≫
メモリネットワークを用いた質問応答では、質問文と文脈の間で注意を計算し、この計算によって得られた注意と文脈の間で再度注意を計算することを繰り返すことで、より回答に近い洗練された注意を得るマルチホップ注意(multi-hop attention)が参考文献5「Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In Proceedings of NeurIPS-2015, 2015.」で提案されている。この参考文献5では、注意の計算を3回繰り返すマルチホップ注意が提案されている。
また、画像とテキストを入力として翻訳を実行するマルチモーダル翻訳のように、複数の入力に対してそれぞれのエンコーダから得られる情報を統合する方法として、異なる入力系列に対する注意に対して注意を計算する階層的注意(hierarchical attention)が参考文献6「Jindrich Libovicky and Jindrich Helcl. Attention strategies for multi-source sequence-to-sequence learning. In Proceedings of the ACL-2017, pp. 196-202, 2017.」で提案されている。
<本実施形態に係る翻訳モデルの構成>
次に、本実施形態で提案する翻訳モデルの構成について説明する。本実施形態に係る翻訳モデルはTransformerと基本的な構成は同じであるが、マルチヘッド注意を統合する際に上記の数6のように単純に連結するのではなく、階層的注意のように各ヘッドの出力に対して注意の計算を行って統合する。この仕組みは注意を2回計算することになり、かつ、このヘッドに対する注意は繰り返し適用することが可能であるため、上記の参考文献5の用語を使用し、本実施形態でも「マルチホップ注意」と呼ぶことにする。以降、「マルチホップ注意」と表記した場合は、本実施形態で提案するマルチホップ注意のことを指すものとする。なお、本実施形態で提案するマルチホップ注意の詳細については後述する。
ここで、Transformerにおいてマルチヘッド注意が使用されている箇所は、エンコーダの自己注意、デコーダの自己注意、デコーダのクロス注意の3つに大別できる。つまり、例えば、エンコーダ及びデコーダの層の総数がN'層である場合、3×N'箇所にマルチヘッド注意が用いられている。これらの3×N'箇所のマルチヘッド注意の全部又は一部をマルチホップ注意に置き換えることで、本実施形態に係る翻訳モデルが構成される。
このように、本実施形態に係る翻訳モデルはTransformerのマルチヘッド注意の全部又は一部をマルチホップ注意に置き換えたモデルである。以降、「翻訳モデル」と表記した場合は、Transformerのマルチヘッド注意の全部又は一部をマルチホップ注意に置き換えたモデルのことを指すものとする。なお、どの層のマルチヘッド注意をマルチホップ注意に置き換えるか等は、例えば、開発用データにおける翻訳精度等に基づいて実験的に決定することが望ましい。
≪マルチホップ注意≫
本実施形態に係るマルチホップ注意について説明する。まず、従来のマルチヘッド注意とマルチホップ注意の比較例を図2に示す。図2の左図が従来のマルチヘッド注意、右図がマルチホップ注意である。図2に示すように、マルチホップ注意は、マルチヘッド注意に対して多層パーセプトロン注意とゲーティング機構を導入したものである。以降では、縮小付き内積注意を一次ホップ、多層パーセプトロン注意及びゲーティング機構を二次ホップと呼ぶことにする。ただし、二次ホップには、必ずしも多層パーセプトロン注意を用いる必要はなく、例えば、縮小付き内積注意が用いられてもよい。
このように、本実施形態に係るマルチホップ注意は、従来のTransformerのマルチヘッド注意の出力に対して更に注意を適用するものである。これにより、パラメータの更新値が極端な値にならないように正規化することが可能となる。また、エンコーダやデコーダの層を増やすのではなく、その下位層である注意機構の適用回数を増やすことにより、少ないパラメータ数の増加でモデルの表現能力を高めることが可能となる。
また、一例として、従来のTransformerのエンコーダに対してマルチホップ注意を導入した場合のエンコーダを図3に示す。図3に示す例では、Transformerのエンコーダのマルチヘッド注意をマルチホップ注意に置き換えた場合を示している。なお、上述したように、これは一例であって、Transformerのデコーダのマルチヘッド注意をマルチホップ注意に置き換えることも可能である。
マルチホップ注意は、縮小付き内積注意により計算されたi番目のヘッドの値Aと、i番目のヘッドのために線形射影されたクエリQの間で以下の式のような多層パーセプトロン注意eを計算する。
Figure 2022018928000011
次に、ゲーティング機構では、多層パーセプトロン注意eをソフトマックスにより正規化したβを用いて、ヘッドの値AをゲーティングしたA´を得る。すなわち、ゲーティング機構では以下の式によりA´を得る。
Figure 2022018928000012
最後に、A´を連結して線形変換することによりマルチホップ注意の値を得る。すなわち、以下の式によりマルチホップ注意の値を得る。
Figure 2022018928000013
ここで、v、W、U、U、W´は学習によって決まるパラメータである。
なお、上記の数11のソフトマックスによる正規化は、ヘッドだけでなく、同じバッチの中のすべての文に対して行われてもよい。バッチとは、1ステップの学習で複数文を並列に処理する単位を指し、ニューラル機械翻訳ではおよそ数十文がまとめて処理される。1つのバッチがs個の文から構成され、m番目の文のi番目のヘッドの値をem,iとすると、ヘッドと同じバッチの中のすべての文との両方に対するソフトマックスによる正規化は以下のように表せる。
Figure 2022018928000014
バッチサイズを小さくすると、バッチごとの勾配に偏りが生じることにより学習がうまくいかなくなると考えられるため、バッチとヘッドの両方をソフトマックスにより正規化することで学習がより安定すると考えられる。
<翻訳装置10の全体構成>
次に、本実施形態に係る翻訳装置10の全体構成について、図4を参照しながら説明する。図4は、本実施形態に係る翻訳装置10の全体構成の一例を示す図である。
図4に示すように、本実施形態に係る翻訳装置10は、翻訳モデル学習部101と、翻訳実行部102とを有する。
翻訳モデル学習部101は、学習用データである対訳データを入力として、翻訳モデルのパラメータを学習及び出力する。なお、対訳データとは、原言語文と、目的言語に関する当該原言語文の対訳文とで構成されるデータのことであり、対訳コーパス等が用いられる。また、学習対象のパラメータは、従来のTransformerの学習対象パラメータと、上述したパラメータv、W、U、U、W´である。
翻訳実行部102は翻訳モデルにより実現され、翻訳対象の原言語文である入力文を入力として、翻訳モデル学習部101によって学習されたパラメータを用いて、当該原言語文を目的言語文に翻訳(変換)し、この目的言語文を出力文として出力する。
なお、本実施形態に係る翻訳装置10には、学習処理により翻訳モデルのパラメータを学習する学習フェーズと、翻訳処理により入力文を出力文に変換(翻訳)する推論フェーズとが存在する。図4に示す例では翻訳装置10が翻訳モデル学習部101及び翻訳実行部102の両方を有している場合を示しているが、これは一例であって、例えば、学習フェーズにおける翻訳装置10は翻訳実行部102を有していなくてもよく、推論フェーズにおける翻訳装置10は翻訳モデル学習部101を有していなくてもよい。また、学習フェーズにおける翻訳装置10は「学習装置」等と称されてもよい。更に、「学習」との用語の代わりに、「訓練」との用語が用いられてもよい。
<学習処理の流れ>
次に、本実施形態に係る学習処理の流れについて、図5を参照しながら説明する。図5は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。
まず、翻訳モデル学習部101は、学習用データとして対訳データを入力する(ステップS101)。
次に、翻訳モデル学習部101は、上記のステップS101で入力した対訳データを用いて、翻訳モデルのパラメータを学習する(ステップS102)。なお、パラメータの学習に用いる最適化手法としては任意の最適化手法を用いることが可能であるが、例えば、Adam等を用いればよい。
そして、翻訳モデル学習部101は、上記のステップS102で学習した翻訳モデルのパラメータを所定の出力先(例えば、記憶装置やディスプレイ、通信ネットワークを介して接続される他の装置等)に出力する(ステップS103)。これにより、翻訳モデルのパラメータが学習及び出力される。
<翻訳処理の流れ>
次に、本実施形態に係る翻訳処理の流れについて、図6を参照しながら説明する。図6は、本実施形態に係る翻訳処理の流れの一例を示すフローチャートである。
まず、翻訳実行部102は、翻訳対象の原言語文である入力文を入力する(ステップS201)。
次に、翻訳実行部102は、学習済みの翻訳モデルのパラメータを用いて、上記のステップS201で入力した入力文を、目的言語の出力文に翻訳(変換)する(ステップS202)。
そして、翻訳実行部102は、上記のステップS202で得られた出力文を所定の出力先(例えば、記憶装置やディスプレイ、通信ネットワークを介して接続される他の装置等)に出力する(ステップS203)。これにより、学習済みの翻訳モデルによって入力文が出力文に翻訳及び出力される。
<翻訳装置10のハードウェア構成>
次に、本実施形態に係る翻訳装置10のハードウェア構成について、図7を参照しながら説明する。図7は、本実施形態に係る翻訳装置10のハードウェア構成の一例を示す図である。
図7に示すように、本実施形態に係る翻訳装置10は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、プロセッサ205と、メモリ装置206とを有する。これら各ハードウェアは、それぞれがバス207を介して通信可能に接続されている。
入力装置201は、例えば、キーボードやマウス、タッチパネル等である。表示装置202は、例えば、ディスプレイ等である。なお、翻訳装置10は、入力装置201及び表示装置202のうちの少なくとも一方を有していなくてもよい。
外部I/F203は、記録媒体203a等の外部装置とのインタフェースである。翻訳装置10は、外部I/F203を介して、記録媒体203aの読み取りや書き込み等を行うことができる。記録媒体203aには、例えば、翻訳装置10が有する各機能部(翻訳モデル学習部101及び翻訳実行部102)を実現する1以上のプログラムが格納されていてもよい。また、記録媒体203aには、対訳データや翻訳モデルのパラメータ等が格納されていてもよい。なお、記録媒体203aには、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
通信I/F204は、翻訳装置10を通信ネットワークに接続するためのインタフェースである。なお、翻訳装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。また、対訳データや学習済みの翻訳モデルのパラメータ等は、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
プロセッサ205は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。翻訳装置10が有する各機能部は、例えば、メモリ装置206に格納されている1以上のプログラムがプロセッサ205に実行させる処理により実現される。
メモリ装置206は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。対訳データや翻訳モデルのパラメータ等は、例えば、メモリ装置206に格納される。
本実施形態に係る翻訳装置10は、図7に示すハードウェア構成を有することにより、上述した学習処理や翻訳処理を実現することができる。なお、図7に示すハードウェア構成は一例であって、翻訳装置10は、他のハードウェア構成を有していてもよい。例えば、翻訳装置10は、複数のプロセッサ205を有していてもよいし、複数のメモリ装置206を有していてもよい。
<評価実験>
次に、本実施形態に係る翻訳装置10を評価するために行った実験及びその結果について説明する。
≪実験データ≫
本実験では、IWSLT2017英独翻訳タスク及びWMT17英独翻訳タスクの対訳コーパスに加え、科学技術論文コーパスAsian Scientific Paper Except Corpus(ASPEC)及びOpenSubtitles2018の日英対訳コーパスを用いた翻訳実験を行った。なお、IWSLT2017の詳細については、例えば、参考文献7「IWSLT Evaluation 2017,インターネット<URL:https://sites.google.com/site/iwsltevaluation2017/>」等を参照されたい。また、WMT17の詳細については、例えば、参考文献8「Translation Task - ACL 2017 Second Conference on Machine Translation,インターネット<URL:http://www.statmt.org/wmt17/translation-task.html>」等を参照されたい。ASPECの詳細については、例えば、参考文献9「Toshiaki Nakazawa, Manabu Yaguchi, Kiyotaka Uchimoto, Masao Utiyama, Eiichiro Sumita, Sadao Kurohashi, and Hitoshi Isahara. Aspec: Asian scientific paper excerpt corpus. In Proceedings of the LREC-2016, pp. 2204-2208, 2016.」等を参照されたい。
IWSLT2017の訓練用データ及び検証用データはそれぞれおよそ20万文対及び9000文対であった。また、WMT17の訓練用データはおよそ590万文対であり、検証用データにはnewstest2014及びnewstest2017を用いた。ASPECでは訓練用データとして与えられた300万件のうち、アライメントスコアが上位の100万件を用いた。開発用データはおよそ1800文対であり、また検証用データとして3596文対を使用した。OpenSubtitles2018では約200万文対のデータが得られたので、その10%にあたる約20万文対を除外し、更にその中から1万文対を検証用データとして使用した。
本実験で使用したデータのデータ数を以下の表1にまとめる。
Figure 2022018928000015
ここで、de→enは独英翻訳、en→deは英独翻訳、en→jaは英日翻訳を表す。
また、英語文・ドイツ語文ではMoses Tokenizer、日本語文ではMeCabによるトークン化処理を行った後、サブワードを用いて、原言語側と目的言語側あわせて32000語を共通語彙とした。なお、Moses Tokenizerの詳細については、例えば、参考文献10「Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the ACL-2007, pp. 177-180, 2007.」等を参照されたい。また、MeCabの詳細については、例えば、参考文献11「mecab Yet Another Part-of-Speech and Morphological Analyzer,インターネット<URL:http://taku910.github.io/mecab/>」等を参照されたい。サブワードの詳細については、例えば、参考文献12「Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of the ACL-2016, pp. 1715-1725, 2016.」等を参照されたい。
≪実験設定≫
本実験では、fairseqのTransformerをベースラインとし、本実施形態に係る翻訳装置10の翻訳モデル(以下、「提案手法」という。)もfairseqを使って実装した。翻訳精度の評価には自動評価手法BLEUを用い、有意差の判定にはmtevalツールを用いブートストラップ法によって検定を行った。訓練はAdamによる最適化を行い、埋め込み層は512次元とし、各隠れ層は2048次元、ヘッド数は8とし、エンコーダ及びデコーダはそれぞれ6層とした。また、IWSLT2017においては100エポック、WMT17、ASPEC及びOpenSubtitles2018においては20エポックの学習を実施した。更に、本実験では、NVIDIA(登録商標)製のグラフィックスカードであるGEFORCE(登録商標) RTX 2080 Tiを1枚使用した。
なお、fairseqの詳細については、例えば、参考文献13「Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli. fairseq: A fast, extensible toolkit for sequence modeling. In Proceedings of the NAACL-2019 (Demonstrations), pp. 48-53, 2019.」等を参照されたい。また、BLEUの詳細については、例えば、参考文献14「Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the ACL-2002, pp. 311-318, 2002.」等を参照されたい。mtevalツールの詳細については、例えば、参考文献15「GitHub - odashi-mteval Collection of Evaluation Metrics and Algorithms for Machine Translation,インターネット<URL:https://github.com/odashi/mteval>」等を参照されたい。
≪翻訳精度≫
提案手法とベースラインの翻訳精度を以下の表2に示す。
Figure 2022018928000016
エンコーダとデコーダの各層は6層であり、バッチサイズは4096である。なお、予備実験に基づき、提案手法では、IWSLT2017独英翻訳タスクにおいては、エンコーダの1層目に二次ホップを用い、学習率を0.0005とした。また、WMT17では6層目に、ASPEC及びOpenSubtitles2018では5層目と6層目に二次ホップを用い、学習率を0.0003とした。
上記の表2に示されるように、すべてのデータセットの実験において提案手法はベースラインを上回り、特に、IWSLT2017、WMT17及びOpenSubtitles2018ではBLEUスコアを有意に改善した(IWSLT2017のde→enではp≦0.01、IWSLT2017のen→de、WMT17及びOpenSubtitles2018ではp≦0.05)。なお、ASPECで有意差がなかった理由は、アライメントスコアの高い文のみが訓練に用いられており、データの偏りがある場合に安定するといった提案手法の特徴が活かされなかったためであると考えられる。
≪バッチサイズ≫
バッチサイズが小さい場合においても提案手法が安定して収束することを示すために、デフォルトのバッチサイズ4096を基準として、半分の2048、更に半分の1024の設定でベースライン及び翻訳モデルを訓練した。このときの翻訳精度を以下の表3に示す。
Figure 2022018928000017
なお、上記の表3では学習率を0.0003とした場合の翻訳精度(BLEUスコア)と訓練時に占有されたメモリサイズ(MiB)が1つのセル内に表記されている(「翻訳精度/メモリサイズ」である。)。
全体的に少ないバッチサイズにおいて、ベースラインは性能(翻訳精度)が悪化する傾向があり、一方で提案手法は安定した性能が認められる。特に、最小規模のコーパスであるIWSLT2017に着目すると、バッチサイズが2048の場合にはある程度ベースラインの学習ができていたものが、バッチサイズが1024の場合には全く収束しなくなっていることがわかり、この差が学習の成否を分けていると考えられる。また、訓練時に占有されたメモリサイズを確認してみると、ベースライン及び提案手法ともに、バッチサイズが2048のときに約2800Mib、バッチサイズが1024のときに約2100Mibとなっている。提案手法は限られたメモリサイズの場合でも訓練に成功しているため、およそ25%のメモリサイズを節約していると言える。一般的にニューラル機械翻訳ではパラメータ数を増やすことによってモデルの性能を向上させることができる一方、増えたパラメータを載せるためのGPUメモリを確保する必要があり、更に収束まで時間が掛かるという問題がある。上記の表3によると、提案手法はベースラインに新たなモジュールであるマルチホップ注意機構を加えているものの、そのパラメータ増加数は極めて僅かであり、メモリサイズ及び収束速度に対する悪影響が無いものだと考えられる。
また、上記の表3において、ベースラインはIWSLT2017やWMT17においてバッチサイズを小さくしたときの翻訳精度の下がり幅が非常に大きい。ASPECやOpenSubtitles2018ではバッチサイズが小さい場合におけるベースラインと提案手法の差があまり目立たないものとなっているが、上記の表1によるとIWSLT2017は訓練用データセットのサイズが最も少ない約20万文対しかなく、また、WMT17は最も多い約590万文対もあることから、提案手法はデータセットのサイズが非常に小さい場合においてより効果を発揮すると考えられる。
≪収束速度≫
IWSLT2017独英翻訳タスクにおける汎化誤差の学習曲線を図8及び図9に示す。図8は学習曲線の全体、図9は汎化誤差が3.800~4.000の範囲で拡大した学習曲線である。図8及び図9に示されるように、提案手法は、ベースラインよりも早期に収束する傾向があることがわかる。
≪PRENORMとの比較≫
従来のTransformerでは残差接続の後で層正規化を行う(POSTNORM)が、上記の非特許文献2には残差接続の前で層正規化を行うPRENORMと呼ばれる方法が記載されている。上述したように、このPRENORMはTransformerの訓練を安定化できることが示されている。そこで、IWSLT2017独英翻訳タスクにおいて、様々なバッチサイズ及び学習率の下で翻訳精度(BLEUスコア)に関して提案手法と比較する実験を行った。その結果を以下の表4及び表5に示す。
Figure 2022018928000018
Figure 2022018928000019
上記の表5に示されるように、大きい学習率ではベースラインの学習がうまくいかないのに対して、提案手法及びPRENORMではともに安定して収束していることがわかる。また、PRENORMよりも提案手法の方が、翻訳精度が高いことがわかる。
学習率が大きい場合又はバッチサイズが小さい場合にはパラメータの更新値の変化が大きく、ベースラインでは不安定になる。これに対して、提案手法は、パラメータの更新値の変動を抑えることができるためと考えられる。また、これだけでなく、提案手法は、マルチヘッド注意に対する注意を導入することによってPRENORMよりもモデルの表現能力が向上しているためであるとも考えられる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
10 翻訳装置
101 翻訳モデル学習部
102 翻訳実行部
201 入力装置
202 表示装置
203 外部I/F
203a 記録媒体
204 通信I/F
205 プロセッサ
206 メモリ装置

Claims (6)

  1. 原言語の入力文を入力する入力部と、
    Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも1つのマルチヘッド注意機構を、前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に所定の注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、前記入力文を目的言語の出力文に翻訳する翻訳部と、
    を有することを特徴とする翻訳装置。
  2. 前記所定の注意機構は、多層パーセプトロン注意機構又は縮小付き内積注意機構のいずれかである、ことを特徴とする請求項1に記載の翻訳装置。
  3. 前記マルチホップ注意機構では、
    前記所定の注意機構が前記多層パーセプトロン注意機構である場合、前記多層パーセプトロン注意機構の出力をソフトマックス関数により正規化し、前記正規化された出力を用いて前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力をゲーティングし、前記ゲーティングにより得られた値を連結及び線形変換する、ことを特徴とする請求項2に記載の翻訳装置。
  4. 前記正規化された出力は、
    前記多層パーセプトロン注意機構の出力をヘッド単位でソフトマックス関数により正規化した値、又は、前記多層パーセプトロン注意機構の出力をヘッド及びバッチ単位でソフトマックス関数により正規化した値のいずれかである、ことを特徴する請求項3に記載の翻訳装置。
  5. 原言語の入力文を入力する入力手順と、
    Transformerのデコーダ及びエンコーダに含まれる複数のマルチヘッド注意機構のうちの少なくとも1つのマルチヘッド注意機構を、前記マルチヘッド注意機構に含まれる縮小付き内積注意機構の出力に対して更に所定の注意機構を適用するマルチホップ注意機構に置き換えたモデルにより、前記入力文を目的言語の出力文に翻訳する翻訳手順と、
    をコンピュータが実行することを特徴とする翻訳方法。
  6. コンピュータを、請求項1乃至4の何れか一項に記載の翻訳装置として機能させるプログラム。
JP2020122380A 2020-07-16 2020-07-16 翻訳装置、翻訳方法及びプログラム Active JP7357291B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020122380A JP7357291B2 (ja) 2020-07-16 2020-07-16 翻訳装置、翻訳方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020122380A JP7357291B2 (ja) 2020-07-16 2020-07-16 翻訳装置、翻訳方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2022018928A true JP2022018928A (ja) 2022-01-27
JP7357291B2 JP7357291B2 (ja) 2023-10-06

Family

ID=80203180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020122380A Active JP7357291B2 (ja) 2020-07-16 2020-07-16 翻訳装置、翻訳方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7357291B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130483A (zh) * 2022-07-13 2022-09-30 湘潭大学 一种基于多目标群体智能算法的神经架构搜索方法及用途
CN117132997A (zh) * 2023-10-26 2023-11-28 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117312931A (zh) * 2023-11-30 2023-12-29 山东科技大学 一种基于transformer的钻机卡钻预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018217948A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
WO2020123207A1 (en) * 2018-12-11 2020-06-18 Salesforce.Com, Inc. Structured text translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018217948A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
WO2020123207A1 (en) * 2018-12-11 2020-06-18 Salesforce.Com, Inc. Structured text translation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
飯田頌平 他4名: "マルチホップ注意機構を用いたニューラル機械翻訳", 言語処理学会第25回年次大会 発表論文集 [ONLINE], JPN6023017925, 4 March 2019 (2019-03-04), JP, pages 113 - 116, ISSN: 0005058357 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130483A (zh) * 2022-07-13 2022-09-30 湘潭大学 一种基于多目标群体智能算法的神经架构搜索方法及用途
CN117132997A (zh) * 2023-10-26 2023-11-28 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117132997B (zh) * 2023-10-26 2024-03-12 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117312931A (zh) * 2023-11-30 2023-12-29 山东科技大学 一种基于transformer的钻机卡钻预测方法
CN117312931B (zh) * 2023-11-30 2024-02-23 山东科技大学 一种基于transformer的钻机卡钻预测方法

Also Published As

Publication number Publication date
JP7357291B2 (ja) 2023-10-06

Similar Documents

Publication Publication Date Title
Torfi et al. Natural language processing advancements by deep learning: A survey
Ye et al. Slot self-attentive dialogue state tracking
JP7357291B2 (ja) 翻訳装置、翻訳方法及びプログラム
Grefenstette et al. A deep architecture for semantic parsing
Liu et al. Additive neural networks for statistical machine translation
Khemchandani et al. Exploiting language relatedness for low web-resource language model adaptation: An Indic languages study
US20220237377A1 (en) Graph-based cross-lingual zero-shot transfer
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
Chen et al. Decoupled dialogue modeling and semantic parsing for multi-turn text-to-SQL
Mocialov et al. Transfer learning for british sign language modelling
Wu et al. Sequence generation with mixed representations
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
Feng et al. Enhanced neural machine translation by joint decoding with word and POS-tagging sequences
Singh et al. Improving neural machine translation for low-resource Indian languages using rule-based feature extraction
Wahab et al. Dibert: Dependency injected bidirectional encoder representations from transformers
Hujon et al. Transfer learning based neural machine translation of english-khasi on low-resource settings
Ma et al. Graph augmented sequence-to-sequence model for neural question generation
Le Thi et al. Machine learning using context vectors for object coreference resolution
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US11868716B2 (en) Knowledge base question answering
Hujon et al. Neural machine translation systems for English to Khasi: A case study of an Austroasiatic language
Ziai Compositional pre-training for neural semantic parsing
Alimova et al. Cross-lingual transfer learning for semantic role labeling in Russian
Singh et al. English-Manipuri machine translation: an empirical study of different supervised and unsupervised methods

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200806

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230915

R150 Certificate of patent or registration of utility model

Ref document number: 7357291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150