JP7375943B2

JP7375943B2 - 変換装置、変換方法、およびプログラム

Info

Publication number: JP7375943B2
Application number: JP2022543856A
Authority: JP
Inventors: 愛庵; 亮増村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2023-11-08
Anticipated expiration: 2040-08-19
Also published as: JPWO2022038692A1; WO2022038692A1

Description

本発明は、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する技術に関する。

ある言語の単語系列を別の言語の単語系列に変換するような機械翻訳などの系列変換を行うモデルでは、encoder-decoderモデルなどのニューラル系列変換モデルを用いることが一般的である。encoder-decoderモデルのような深層学習を用いるモデルの全般的な課題として、入力データと出力データのパラレルデータが大量に必要となることが挙げられる。そのため、出力データのみが大量にあったとしても、それに対応する入力データが無ければ、その出力データを学習に用いることができなかった。これに対して、音響特徴量を入力として、音声の書き起こしテキストを出力とする音声認識のタスクでは、大量の書き起こしデータがある場合に、事前にその書き起こしデータで作成した外部言語モデルをデコーダ部に統合するshallow fusionという方法が提案されている（非特許文献１参照）。また、学習時にもこのような外部言語モデルを統合するcold fusionという方法も提案されている（非特許文献２参照）。これらの方法を用いることで、大量の出力データの情報を取り入れながら系列変換を行うことができ、性能改善に役立つことが確認されている。

A. Kannan, Y. Wu, P. Nguyen, T. Sainath, Z. Chen and R. Prabhavalkar, "An analysis of Incorporating an external language model into a sequence-to-sequence model", In Proc. ICASSP, pp.5824-5827, 2018. A. Sriram, H. Jun, S. Satheesh and A. Coates, "Cold fusion: training seq2seq models together with language models", In Proc. INTERSPEECH, pp387-391, 2018.

しかしながら、上述のshallow fusionでは、encoder-decoderモデル自体はラベル付きデータで学習されているため、新しいドメインに適応しようとした際に、性能の改善に限りがあった。そこで、学習データとは異なる、新しいドメインに適応することに適しているcold fusionが提案された。cold fusionでは、encoder-decoderモデル自体に外部言語モデルを組み込むことにより、学習時も外部言語モデルに含まれる情報を活用できる。そのため、新しいドメインにも適用しやすいといった利点がある。しかし、cold fusionでは、デコーダの最終層の前に外部言語モデルを統合するのみの構造となっており、外部言語モデルに含まれる有効な情報を取捨選択することは難しい。つまり、従来の外部言語モデルを用いた系列変換では、外部言語モデルに含まれる、系列変換に必要な情報を取捨選択できない。

本発明は、外部言語モデルに含まれる、系列変換に必要な情報を取捨選択できる変換装置、変換方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、変換装置は、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換装置は、モデルパラメータθ_hに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換部と、モデルパラメータθ_uに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換部と、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθ_sに基づく変換関数により、第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換部と、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθ_qに基づく変換関数により、外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換部と、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、変換装置は、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換装置は、モデルパラメータθ_hを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換部と、モデルパラメータθ_uを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換部と、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθ_sを用いて統合し、第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換部と、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθ_qを用いて統合し、外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換部と、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、変換方法は、変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換方法は、モデルパラメータθ_hに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換ステップと、モデルパラメータθ_uに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換ステップと、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθ_sに基づく変換関数により、第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換ステップと、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθ_qに基づく変換関数により、外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換ステップと、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む。

上記の課題を解決するために、本発明の他の態様によれば、変換方法は、変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換方法は、モデルパラメータθ_hを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換ステップと、モデルパラメータθ_uを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換ステップと、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθ_sを用いて統合し、第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換ステップと、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθ_qを用いて統合し、外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換ステップと、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む。

本発明によれば、encoder-decoderモデルの学習において出力データのみの情報を活用することができ、また、外部言語モデルに含まれる系列変換に必要な情報をより適切に取捨選択することができるので、新たなドメインに適応する場合においても、性能の改善が期待できるという効果を奏する。

第一実施形態に係る変換装置の機能ブロック図。第一実施形態に係る変換装置の処理フローの例を示す図。第一実施形態に係る学習装置の機能ブロック図。本手法を適用するコンピュータの構成例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
第一実施形態では、外部言語モデルに含まれる系列変換に必要な情報を取捨選択できるモデルを導入する。このモデルでは、cold fusionよりも外部言語モデルの情報を取捨選択するのに適した構造となっている。encoder-decoderモデルに外部言語モデルを統合する場合において、エンコーダとデコーダを統合させる場合と同じように、外部言語モデルとデコーダを統合することにより、系列変換に必要な情報を取捨選択できるモデルを開発した。具体的には、cold fusionがencoder-decoderモデルの最終出力層の直前の層に外部言語モデルの最終層を統合するのみであったのに対し、本モデルでは、エンコーダの情報がデコーダに伝播されるのと同様に、外部言語モデルの情報をデコーダに伝播する。つまり、エンコーダと統合されたデコーダと、外部言語モデルと統合されたデコーダとをさらに統合させながら学習することで外部言語モデルの情報に関して、より適切に系列変換に必要な情報を取捨選択することができると考えらえる。

＜第一実施形態＞
＜変換システム＞
入力：話し言葉テキストの単語系列X,外部言語モデルの出力L,モデルパラメータΘ
出力：書き言葉テキストの単語系列^Y
変換システムは、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列と、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルとを入力とし、第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換し、n番目までの処理単位のテキストデータからなる第二処理単位系列を出力する。nは変換回数を示すインデックスであり、変換システムはn-1回目までの変換結果、つまり、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を利用してn回目の変換処理を行う。

本実施形態では、「第一のデータ系列」を「話し言葉テキスト」とし、「所定の処理単位」を「単語単位」とし、「処理単位のデータ」を「単語」とし、「処理単位系列」を「単語系列」とし、「第一処理単位系列」を「話し言葉テキストの単語系列」とし、「第二処理単位系列」を「書き言葉テキストの単語系列」とする。

なお、「第一のデータ系列」として、音声信号系列や音響特徴量系列、音素系列などのテキストデータの系列に変換し得るデータ系列であれば適用可能である。「第二処理単位系列」は、学習済みの外部言語モデルの出力(テキストデータ)を利用する観点からテキストデータからなる処理単位系列であることを必要とする。また、処理単位としては、単語単位以外の単位を用いてもよく、例えば、文字単位等であってもよい。第一処理単位系列と第二処理単位系列とで同じ処理単位であってもよいし、異なる処理単位であってもよい。変換処理は、「話し言葉」から「書き言葉」への変換に限らず、「書き言葉」から「話し言葉」への変換や、「ある言語」から「他の言語」への変換等に適用可能である。要は、テキストデータの系列や、テキストデータの系列に変換し得るデータ系列を第一のデータ系列とし、テキストデータからなる処理単位系列を第二処理単位系列とすればよい。

よって、本実施形態では、話し言葉テキストの単語系列Xと、大量の書き言葉テキストで学習された外部言語モデル９０の出力Lとを用いて、モデルパラメータΘ={θ_h,θ_u,θ_s,θ_q,θ_p}に従った確率計算により、書き言葉テキストの単語系列^Yを求める。ここで、ニューラル系列変換の入力となるXは、X=(x₁,…,x_m)として表される。また、出力となる^Yは、^Y=(^y₁,…,^y_n)として表される。

また、大量の書き言葉テキストで学習された外部言語モデル９０は、ニューラル言語モデルであれば任意のものを利用でき、例えば、リカレントニューラルネットを用いたものを利用することもできる。ここで、この外部言語モデルは、パラメータの値を固定したものとする。外部言語モデルは、1番目からn-1番目までの書き言葉テキストの単語系列^y₁,…,^y_n-1を入力とし、ベクトル系列L₁,…,L_n-1を出力するモデルである。ベクトル系列L₁,…,L_n-1は単語埋め込みベクトルに相当する。単語埋め込みベクトルは、各単語が持つ情報を埋め込んだベクトルを表し、テキスト中におけるその単語が持つ意味的な情報を含み、話し言葉テキストを書き言葉テキストに変換するために必要となるベクトルである。ベクトルの次元数を大きくするほど、たくさんの情報を埋め込むことができ、例えば、512次元のベクトルとして人手で次元数を決定する。外部言語モデルの学習には、入力データと出力データとからなる大量のパラレルデータを必要とせず、既存の学習方法により、大量の出力データのみから学習することができる。

ここで、英語の場合、例えばスペース区切りの表現、日本語の場合、例えば形態素解析により自動分割された表現を単語系列とする。または文字単位に区切った表現を単語系列としてもよい。

変換処理は、話し言葉テキストの単語系列を次の変換装置に入力し、学習済みのモデルパラメータΘを用いて変換することによって実現できる。

用いるモデルとしては、ニューラル系列変換モデルであれば何でもよく、例えば、attention-based encoder-decoder modelを用いる方法（参考文献１参照）や、Transformerを用いる方法（参考文献２参照）が考えられる。

（参考文献１）Thang Luong, Hieu Pham, and Christopher D. Manning, "Effective approaches to attention-based neural machine translation", In Proc. EMNLP, pp. 1412-1421, 2015.
（参考文献２）A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, I. Polosukhin, "Attention is all you need", In Proc. NIPS, pp. 5998-6008, 2017.
＜変換装置１００＞
入力：話し言葉テキストの単語系列X,既に話し言葉・書き言葉変換の結果として得られた1番目からn-1番目までの書き言葉テキストの単語系列^y₁,…,^y_n-1、外部言語モデルの出力(ベクトル系列)L₁,…,L_n-1,モデルパラメータΘ
出力：1～n番目の書き言葉テキストの単語系列^y₁,…,^y_n
図１は第一実施形態に係る変換装置の機能ブロック図を、図２はその処理フローを示す。

変換装置１００は、第一埋め込みベクトル変換部１１０と、第二埋め込みベクトル変換部１２０と、第一文脈ベクトル変換部１３０と、第二文脈ベクトル変換部１４０と、事後確率変換部１５０と、第二データ系列生成部と１６０を含む。

変換装置１００は、変換処理に先立ち、学習済みのモデルパラメータΘ={θ_h,θ_u,θ_s,θ_q,θ_p}を受け取っておく。モデルパラメータΘの学習方法については後述する。

変換装置１００は、話し言葉テキストの単語系列Xと、1番目からn-1番目までの書き言葉テキストの単語系列^y₁,…,^y_n-1と、単語系列^y₁,…,^y_n-1を学習済みの外部言語モデル９０に与えて得られるベクトル系列L₁,…,L_n-1とを入力とし、モデルパラメータΘに従った確率計算により、n番目の書き言葉テキストの単語^y_nについての事後確率分布P(y_n|^y₁,…,^y_n-1,X,Θ)を得て、最尤基準によりn番目の話し言葉・書き言葉変換結果の単語^y_nを決定する。最尤基準による決定は式(1)に従う。

この処理を再帰的に行うことにより、書き言葉テキストの単語系列^Y=(^y₁,…,^y_n)を獲得する。P(y_n|^y₁,…,^y_n-1,X,Θ)の詳しい定式化とその詳細な計算方法は、後述する。なお、変換装置１００は、n回目の変換処理において、n-1回目の変換処理の結果である単語系列^y₁,…,^y_n-1を入力として受け取り、利用する。

変換装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。変換装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。変換装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。変換装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。変換装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも変換装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、変換装置の外部に備える構成としてもよい。

まず、モデルパラメータΘの学習方法について説明する。

＜学習装置２００＞
入力：学習用の話し言葉テキストの単語系列と書き言葉テキストの単語系列の組の集合D=(X₁,Y₁),…,(X_|D|,Y_|D|)、d番目の話し言葉テキストの単語系列X_dに対する1番目からn-1番目までの書き言葉テキストの単語系列^y_d,1,…,^y_d,n-1、外部言語モデルの出力(ベクトル系列)L_d,1,…,L_d,n-1
出力：モデルパラメータΘ
図３は、学習装置２００の機能ブロック図を示す。学習装置２００は、変換装置１００と、モデルパラメータ学習部２１０とを含む。学習装置２００では、話し言葉テキストの単語系列と書き言葉テキストの単語系列の組の集合D=(X₁,Y₁),…,(X_|D|,Y_|D|)からモデルパラメータ^Θを学習する。集合Dにより最適化されたパラメータ^Θは次式(2)に従う。

ただし、Y_d=(y_d,1,…y_d,n)である。

変換装置１００は、d番目の話し言葉テキストの単語系列X_dと、単語系列X_dに対してn-1回目の変換処理を行って得られる1番目からn-1番目までの書き言葉テキストの単語系列^y_d,1,…,^y_d,n-1と、単語系列^y_d,1,…,^y_d,n-1を学習済みの外部言語モデル９０に与えて得られるベクトル系列L_d,1,…,L_d,n-1とを入力とし、学習中のモデルパラメータ^Θに従った確率計算により、n番目の書き言葉テキストの単語^y_d,nについての事後確率分布P(y_d,n|^y_d,1,…,^y_d,n-1,X_d,Θ)を得て、最尤基準によりn番目の話し言葉・書き言葉変換結果の単語^y_d,nを決定する。最尤基準による決定は式(1)に従う。

モデルパラメータ学習部２１０は、変換装置１００の出力である単語系列^y_d,1,…,^y_d,nと、d番目の話し言葉テキストの単語系列X_dに対応する書き言葉テキストの単語系列Y_d=(y_d,1,…,y_d,n)とを入力とし、単語系列^y_d,1,…,^y_d,nと単語系列Y_d=(y_d,1,…,y_d,n)との差が小さくなるように、モデルパラメータ^Θを更新する。

集合Dを用いて、変換装置１００およびモデルパラメータ学習部２１０における処理を繰り返し、モデルパラメータ^Θを学習する。なお、モデルパラメータ^Θの最適化には、ニューラルネットワークの学習において一般的な最適化手法を用いればよい。ここで学習された^Θを変換装置１００におけるΘとして用いる。

以下、変換装置１００の各部について説明する。

＜第一埋め込みベクトル変換部１１０＞
入力：話し言葉テキストの単語系列X=(x₁,…,x_m),モデルパラメータθ_h
出力：話し言葉テキストの単語埋め込みベクトル系列h₁,…,h_m
第一埋め込みベクトル変換部１１０は、話し言葉テキストの単語系列X=(x₁,…,x_m)をモデルパラメータθ_hに基づく変換関数により、話し言葉テキストの単語埋め込みベクトルに変換する（Ｓ１１０）。別の言い方をすると、第一埋め込みベクトル変換部１１０は、モデルパラメータθ_hを用いて、話し言葉テキストの単語系列X=(x₁,…,x_m)を、話し言葉テキストの単語埋め込みベクトルにエンコードする（Ｓ１１０）。前述の通り、単語埋め込みベクトルは、各単語が持つ情報を埋め込んだベクトルを表し、テキスト中におけるその単語が持つ意味的な情報が含まれており、話し言葉テキストを書き言葉テキストに変換するために必要となる。本実施形態では、話し言葉テキストの単語埋め込みベクトルとして、ベクトル系列h₁,…,h_mを用いているが、話し言葉テキストの単語系列X=(x₁,…,x_m)の情報を持つベクトルであれば、単一のベクトルであってもよい。単語埋め込みベクトルの次元数を大きくするほど、たくさんの情報を埋め込むことができ、例えば、512次元のベクトルとして人手で次元数を決定する。このとき、変換関数には、可変長の記号列を可変長のベクトルに変換する関数であれば任意のものを利用することができる。例えば、テキスト中の単語の頻度ベクトルを構成する関数を用いることや、リカレントニューラルネットワークや双方向リカレントニューラルネットワーク等を用いることができる。また、参考文献２のような自己注意機構を用いた方法も利用できる。例えば、頻度ベクトルや、リカレントニューラルネットワークや双方向リカレントニューラルネットワーク、自己注意機構等の出力からなるベクトルを話し言葉テキストの単語埋め込みベクトルとして用いることができる。

＜第二埋め込みベクトル変換部１２０＞
入力：書き言葉テキストのn-1番目までの単語系列^y₁,…,^y_n-1,モデルパラメータθ_u
出力：書き言葉テキストの単語埋め込みベクトルu_n-1
第二埋め込みベクトル変換部１２０は、書き言葉テキストのn-1番目までの単語系列^y₁,…,^y_n-1をモデルパラメータθ_uに基づく変換関数により、書き言葉テキストの単語埋め込みベクトルu_n-1に変換する（Ｓ１２０）。別の言い方をすると、第二埋め込みベクトル変換部１２０は、モデルパラメータθ_uを用いて、書き言葉テキストのn-1番目までの単語系列^y₁,…,^y_n-1を、書き言葉テキストの単語埋め込みベクトルu_n-1にデコードする（Ｓ１２０）。単語埋め込みベクトルの求め方は、例えば、第一埋め込みベクトル変換部１１０と同様の方法を用いることができる。本実施形態では、書き言葉テキストの単語埋め込みベクトルとして、単一のベクトルu_n-1を用いているが、書き言葉テキストのn-1番目までの単語系列^y₁,…,^y_n-1の情報を持つベクトルであれば、2つ以上のベクトルの系列であってもよい。

＜第一文脈ベクトル変換部１３０＞
入力：書き言葉テキストのn-1番目までの単語埋め込みベクトルu_n-1、話し言葉テキストの単語埋め込みベクトル系列h₁,…,h_m、モデルパラメータθ_s
出力：話し言葉テキストに対する文脈ベクトルs_n-1
第一文脈ベクトル変換部１３０は、書き言葉テキストのn-1番目までの単語埋め込みベクトルu_n-1と話し言葉テキストの単語埋め込みベクトル系列h₁,…,h_mとを、モデルパラメータθ_sに基づく変換関数により、話し言葉テキストに対する文脈ベクトルs_n-1に変換する（Ｓ１３０）。別の言い方をすると、第一文脈ベクトル変換部１３０は、書き言葉テキストのn-1番目までの単語埋め込みベクトルu_n-1と話し言葉テキストの単語埋め込みベクトル系列h₁,…,h_mとを、モデルパラメータθ_sを用いて統合し、話し言葉テキストに対する文脈ベクトルs_n-1を得る（Ｓ１３０）。

文脈ベクトルは、話し言葉テキストを考慮した、書き言葉テキストのn番目の単語を変換するために必要な意味的な情報が埋め込まれている。このとき、変換関数は、2種類の可変長のベクトルを単一ベクトルに変換する関数であれば、任意のものを利用できる。例えば、書き言葉テキストの単語系列と話し言葉テキストの単語系列のそれぞれにリカレントニューラルネットワークを設け、注意機構を加えることにより単一の文脈ベクトルとして表現する関数を用いることもできる。この場合、リカレントニューラルネットワークの入力を単語埋め込みベクトルとして用いる。また、最も単純なものであれば、書き言葉テキストのn-1番目までの単語系列の頻度ベクトルと、話し言葉テキストの単語系列の頻度ベクトルを平均化したベクトルを構成するような関数を用いることもできる。この場合、頻度ベクトルを単語埋め込みベクトルとして用いる。さらに、参考文献２のように、書き言葉テキストの単語系列と話し言葉テキストの単語系列のそれぞれに自己注意機構を導入し、注意機構を加えることにより単一の文脈ベクトルとして表現する関数も用いることもできる。

＜第二文脈ベクトル変換部１４０＞
入力：書き言葉テキストのn-1番目までの単語埋め込みベクトルu_n-1、書き言葉テキストのn-1番目までの単語系列^y₁,…,^y_n-1を入力した外部言語モデルから出力されたベクトル系列L₁,…,L_n-1、モデルパラメータθ_q
出力：外部言語モデルの出力に対する文脈ベクトルq_n-1
第二文脈ベクトル変換部１４０は、外部言語モデルから出力されたベクトルと、書き言葉テキストのn-1番目までの単語埋め込みベクトルu_n-1とを、モデルパラメータθ_qに基づく変換関数により、外部言語モデルの出力に対する文脈ベクトルq_n-1に変換する（Ｓ１４０）。別の言い方をすると、第二文脈ベクトル変換部１４０は、外部言語モデルから出力されたベクトルと、書き言葉テキストのn-1番目までの単語埋め込みベクトルu_n-1とを、モデルパラメータθ_qを用いて統合し、外部言語モデルの出力に対する文脈ベクトルq_n-1を得る（Ｓ１４０）。埋め込みベクトル系列L₁,…,L_n-1は、書き言葉テキストのn-1番目までの単語系列^y₁,…,^y_n-1を学習済みの外部言語モデルに与えて得られるベクトル系列である。単語^y_n-1は、変換装置１００のn-1回目の変換処理で得られる単語である。本実施形態では、外部言語モデルから出力されたベクトルとして、ベクトル系列L₁,…,L_n-1を用いているが、外部言語モデルの構成によっては、単一のベクトルであってもよい。

この文脈ベクトルは、外部言語モデルの出力を考慮した、書き言葉テキストのn番目の単語を変換するために必要な意味的な情報が埋め込まれている。文脈ベクトルの求め方は、例えば、第一文脈ベクトル変換部１３０と同様の方法を用いることができる。

＜事後確率変換部１５０＞
入力：話し言葉テキストに対する文脈ベクトルs_n-1、外部言語モデルの出力に対する文脈ベクトルq_n-1、モデルパラメータθ_p
出力：書き言葉テキストのn番目の単語についての事後確率P(y_n|^y₁,…,^y_n-1,X,Θ)
事後確率変換部１５０は、話し言葉テキストに対する文脈ベクトルs_n-1と外部言語モデルの出力に対する文脈ベクトルq_n-1とを、モデルパラメータθ_pに基づく変換関数により、書き言葉テキストのn番目の単語についての事後確率P(y_n|^y₁,…,^y_n-1,X,Θ)に変換する（Ｓ１５０）。

事後確率P(y_n|^y₁,…,^y_n-1,X,Θ)は、各単語を要素としてベクトルとして表すことができ、ベクトル変換により事後確率分布を表現することが可能である。このとき、変換関数には、2種類のベクトルを事後確率分布に変換する関数であれば任意のものを利用できる。例えば、2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う関数により実現できる。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関数が適用可能である。

なお、第一埋め込みベクトル変換部１１０がエンコーダに相当し、第二埋め込みベクトル変換部１２０がデコーダに相当し、第一文脈ベクトル変換部１３０における処理がエンコーダとデコーダを統合する処理に相当し、第二文脈ベクトル変換部１４０における処理が外部言語モデルとデコーダを統合する処理に相当する。さらに、事後確率変換部１５０における処理が、エンコーダと統合されたデコーダと外部言語モデルと統合されたデコーダを統合する処理に相当する。なお、第二文脈ベクトル変換部１４０において外部言語モデルとデコーダを統合し、以降の処理で統合されたデコーダを利用することで、外部言語モデルの情報をデコーダに伝播し、外部言語モデルの情報に関して、系列変換に必要な情報をより適切に取捨選択することができる。

＜第二データ系列生成部１６０＞
入力：書き言葉テキストにおける事後確率P(y_n|^y₁,…,^y_n-1,X,Θ)
出力：書き言葉テキストの単語系列^Y=(^y₁,…,^y_n)
第二データ系列生成部１６０は、書き言葉テキストにおける事後確率P(y_n|^y₁,…,^y_n-1,X,Θ)に基づき書き言葉テキストの単語系列^Y=(^y₁,…,^y_n)を生成する（Ｓ１６０）。例えば、第二データ系列生成部１６０は、書き言葉テキストにおける1～n番目の単語についての事後確率P(y₁|X,Θ),…,P(y_n|^y₁,…,^y_n-1,X,Θ)の積が最大となるように、P(y_n|^y₁,…,^y_n-1,X,Θ)から1つの要素を選択することで、書き言葉テキストの単語系列^Y=(^y₁,…,^y_n)に変換する。このとき、P(y_n|^y₁,…,^y_n-1,X,Θ)における要素選択には、確率が最大化される手法であれば任意のものを使用できる。例えば、貪欲法などの近似アルゴリズムを用いることで実現できる。

図２に示すように、これらの処理は、書き言葉テキストのすべての単語が生成されるまで再帰的に繰り返される。ただし、Nは全ての書き言葉テキストに含まれる単語の総数を示す。なお、n=Nではなく、y_nがテキストの終わりを示す記号の場合に処理を終了してもよい。また、n=1の場合、Ｓ１２０，Ｓ１４０を省略し、事後確率変換部１５０は、話し言葉テキストに対する文脈ベクトルs_n-1とテキストの始まりを示す記号^y₀とを、モデルパラメータθ_pに基づく変換関数により、書き言葉テキストの1番目の単語についての事後確率P(y_n|X,Θ)に変換してもよい。また、第二埋め込みベクトル変換部１２０および外部言語モデル９０に対して、書き言葉テキストのn-1番目までの単語系列(^y₁,…,^y_n-1)に代えてテキストの始まりを示す記号^y₀を入力として与え、それぞれベクトル系列u₀,L₀を求めてもよい。この場合、さらに、第二文脈ベクトル変換部１４０に対して、単語埋め込みベクトルu_n-1、ベクトル系列L₁,…,L_n-1に代えて、u₀,L₀を入力として与え、文脈ベクトルq₀を求める。さらに、事後確率変換部１５０では、文脈ベクトルq_n-1に代えて、q₀を入力として与え、事後確率P(y_n|X,Θ)を求める。

＜効果＞
以上の構成により、encoder-decoderモデルの学習において出力データのみの情報を活用することができ、また、外部言語モデルに含まれる系列変換に必要な情報をより適切に取捨選択することができるので、新たなドメインに適応する場合においても、性能の改善が期待できる。

＜変形例＞
変換装置１００は、学習済みの外部言語モデル９０を含んでもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述の各種の処理は、図４に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換装置であって、
モデルパラメータθ_hに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換部と、
モデルパラメータθ_uに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換部と、
前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθ_sに基づく変換関数により、前記第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換部と、
n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθ_qに基づく変換関数により、前記外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換部と、
前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む、
変換装置。
第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換装置であって、
モデルパラメータθ_hを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換部と、
モデルパラメータθ_uを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換部と、
前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθ_sを用いて統合し、前記第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換部と、
n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθ_qを用いて統合し、前記外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換部と、
前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む、
変換装置。
変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換方法であって、
モデルパラメータθ_hに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換ステップと、
モデルパラメータθ_uに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換ステップと、
前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθ_sに基づく変換関数により、前記第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換ステップと、
n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθ_qに基づく変換関数により、前記外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換ステップと、
前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む、
変換方法。
変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換方法であって、
モデルパラメータθ_hを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換ステップと、
モデルパラメータθ_uを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換ステップと、
前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθ_sを用いて統合し、前記第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換ステップと、
n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθ_qを用いて統合し、前記外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換ステップと、
前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθ_pに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む、
変換方法。
請求項１または請求項２の変換装置として、コンピュータを機能させるためのプログラム。