JP7462739B2

JP7462739B2 - シーケンス－シーケンス・ニューラル・モデルにおける構造保持注意機構

Info

Publication number: JP7462739B2
Application number: JP2022515964A
Authority: JP
Inventors: シェヒトマン、ヴャチェスラフ; ソーリン、アレクサンダー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-19
Filing date: 2020-09-18
Publication date: 2024-04-05
Anticipated expiration: 2040-09-18
Also published as: WO2021053192A1; US11556782B2; US20210089877A1; JP2022548574A; CN114424209A; EP4032027A1

Description

本発明は、シーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の分野に関する。

ｓｅｑ２ｓｅｑ学習および推論のためにニューラル・モデル（すなわち、ＡＮＮ）を使用することは、I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," Advances in Neural Information Processing Systems 27 (NIPS2014)によって２０１４年に最初に紹介された。ｓｅｑ２ｓｅｑニューラル・モデルは、入力系列の長さを事前に知ることなく、入力系列を出力系列にマッピングすることが可能である。今日、ｓｅｑ２ｓｅｑニューラル・モデルは、機械翻訳、音声認識、テキスト－音声変換（ＴＴＳ）、ビデオ・キャプション生成、テキスト要約、テキスト含意、質問応答、チャット・ボットなどのようなタスクに使用されている。

ｓｅｑ２ｓｅｑニューラル・モデルは、典型的には、エンコーダ－デコーダ・アーキテクチャを使用する。一般的に、エンコーダおよびデコーダは各々、長・短期記憶（ＬＳＴＭ）またはゲート付き回帰型ユニット（ＧＲＵ）ネットワークなどの回帰型ニューラル・ネットワーク（ＲＮＮ）を含む。エンコーダにおいて、入力系列は、通常は「状態ベクトル」または「文脈ベクトル」として参照されるコンパクトな表現に符号化される。これらは、デコーダへの入力としての役割を果たし、デコーダは、適切な出力系列を生成する。デコーダは、別個の反復（「時間ステップ」）において動作し、１つのそのような時間ステップにおいて、出力系列の各シンボルを出力する。

注意機構（attention mechanism）は、ｓｅｑ２ｓｅｑニューラル・モデルにおいて重要な役割を果たす。多くのタスクにおいて、正確な出力系列を生成するために、入力系列内のすべてのシンボルが等しく取り扱われるべきではない。例えば、機械翻訳において、入力系列内に見られる単語は、いくつかの異なる意味を有する場合があり、これを第２の言語において正しい単語に翻訳するためには、入力系列内の他の単語から、その正確な意味を文脈的に推論しなければならない。注意機構は、問題のある単語の文脈を理解するために、入力系列内の正確な単語に依拠するように、ｓｅｑ２ｓｅｑニューラル・モデルを誘導することができる。これは、典型的には、文脈ベクトルをデコーダによって処理する前に、文脈ベクトルにバイアスをかけることによって実施される。デコーダの入力系列全体に対する、デコーダの１つの出力シンボルの相対的注意（「アラインメント（alignment）」とも）を各々が決定する、注意重みベクトル（「アラインメント・ベクトル」とも）が提供される。それらの対応する重みがアラインメント・ベクトルからとられている、符号化入力系列ベクトルの線形結合が、その後デコーダによって処理される文脈ベクトルを表す。

関連技術の上記の例およびそれに関連する制限は、排他的ではなく、例示であるように意図されている。本明細書を読み、図面を研究すれば、関連技術の他の制限が当業者には諒解されよう。いくつかのｓｅｑ２ｓｅｑ生成用途において、出力生成を制御するために、推論時にアラインメント・マトリックスを修正することが特に望ましい。その目的のためには、ロバストなアラインメント制御の（すなわち、アラインメント・マトリックスの構造を保持する）機構を導出しなければならない。

したがって、当該技術分野において、前述の問題に対処することが必要とされている。

第１の態様から見ると、本発明は、方法であって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダ（attentive decoder）において、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度（structure fit measure）を評価し、訓練されたソフト選択ＡＮＮを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを含む、方法を提供する。

さらなる態様から見ると、本発明は、システムであって、（ｉ）少なくとも１つのハードウェア・プロセッサと、（ｉｉ）プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、プログラム・コードは、前記少なくとも１つのハードウェア・プロセッサによって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、訓練されたソフト選択ＡＮＮを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システムを提供する。

さらなる態様から見ると、本発明は、シーケンス－シーケンス人工ニューラル・ネットワークのためのコンピュータ・プログラム製品であって、処理回路によって可読なコンピュータ可読記憶媒体であり、本発明のステップを実施するための方法を実施するために、処理回路によって実行するための命令を記憶しているコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品を提供する。

さらなる態様から見ると、本発明は、コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で作動されるときに、本発明のステップを実施するためのソフトウェア・コード部分を備える、コンピュータ・プログラムを提供する。

以下の実施形態およびその態様は、範囲の限定ではなく、例示および実例であるように意図されているシステム、ツールおよび方法と併せて説明され、示されている。

１つの実施形態は、方法であって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダにおいて、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、（ａ）それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、（ｂ）注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、（ｃ）訓練されたソフト選択ＡＮＮを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを含む、方法に関する。

別の実施形態は、システムであって、（ｉ）少なくとも１つのハードウェア・プロセッサと、（ｉｉ）プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、プログラム・コードは、前記少なくとも１つのハードウェア・プロセッサによって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、（ａ）それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、（ｂ）注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、（ｃ）訓練されたソフト選択ＡＮＮを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システムに関する。

さらなる実施形態は、プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品であって、プログラム・コードは、少なくとも１つのハードウェア・プロセッサによって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、（ａ）それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、（ｂ）注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、（ｃ）訓練されたソフト選択ＡＮＮを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、コンピュータ・プログラム製品に関する。

いくつかの実施形態において、出力系列の前記生成は、符号化入力ベクトル系列および二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、入力文脈ベクトルに基づいて出力系列を生成することとを含む。

いくつかの実施形態において、注意ベクトル候補の集合の前記生成は、現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも１つを取得することと、少なくとも１つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、少なくとも１つの取得されたベクトルを、追加の注意ベクトルによって増補することとを含む。

いくつかの実施形態において、注意ベクトル候補の集合の前記生成は、現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも１つを取得することと、所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、少なくとも１つの取得されたベクトルを、追加の注意ベクトルによって増補することとを含む。

いくつかの実施形態において、構造適合測度は、ｓｍｏｏｔｈｍａｘｉｍｕｍ、尖度、歪度、エントロピー、Ｌ２ノルムとＬ１ノルムとの間の比のうちの少なくとも１つに基づく。

いくつかの実施形態において、二次注意ベクトルの前記生成は、評価された構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルＡＮＮを提供することと、訓練されたアテンティブ・デコーダの状態変数に訓練されたシーケンシャルＡＮＮを適用し、マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、ソフトマックス層に暫定ベクトルを提供して、注意ベクトル候補の集合の重みを生成することと、注意ベクトル候補の集合をそれらの重みに従って結合することによって、二次注意ベクトルを形成することとを含む。

いくつかの実施形態において、二次注意ベクトルの前記生成は、評価された構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度を生成することと、注意ベクトル候補の複数の部分集合およびそれらの対応するマッピングされた構造適合測度を定義することと、複数の部分集合の各々について、（ａ）交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルＡＮＮを提供し、（ｂ）訓練されたアテンティブ・デコーダの状態変数に訓練されたシーケンシャルＡＮＮを適用し、それぞれの部分集合のマッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、（ｃ）ソフトマックス層に暫定ベクトルを提供して、注意ベクトル候補の部分集合の重みを生成し、（ｄ）それぞれの部分集合の注意ベクトル候補をそれらの重みに従って結合することによって、部分集合注意ベクトル候補を形成し、（ｅ）部分集合注意ベクトル候補について、部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、（ｆ）評価された部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルＡＮＮを提供することと、訓練されたアテンティブ・デコーダの状態変数に追加の訓練されたシーケンシャルＡＮＮを適用し、マッピングされた部分集合構造適合測度のベクトルに追加の訓練されたシーケンシャルＡＮＮの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、ソフトマックス層に中間ベクトルを提供して、部分集合注意ベクトル候補の重みを生成することと、部分集合注意ベクトル候補をそれらの重みに従って結合することによって、二次注意ベクトルを形成することとを含む。

いくつかの実施形態において、訓練された一次注意機構は、加法注意機構（additive attention mechanism）である。

いくつかの実施形態において、ｓｅｑ２ｓｅｑＡＮＮは、テキスト－音声変換タスクのために構成され、方法または命令は、出力系列から音声を合成するようにボコーダを動作させることと、合成された音声の少なくとも１つのプロソディ・パラメータに影響を及ぼすように、出力系列の前記生成の前または最中に二次注意ベクトルを修正することとをさらに含む。

いくつかの実施形態において、少なくとも１つのプロソディ・パラメータは、イントネーション、強勢、テンポ、リズム、中断、およびチャンキングからなる群から選択される。

いくつかの実施形態において、方法または命令は、ユーザから所望の注意ベクトル構造の定義を受信することをさらに含む。

上述の例示的な態様および実施形態に加えて、さらなる態様および実施形態が図面を参照することによって、および、以下の詳細な説明を研究することによって明らかとなろう。

例示的な実施形態が、参照図面に示されている。図面に示されている構成要素および特徴の寸法は、概して、提示の便宜および明瞭さのために選択されており、必ずしも原寸に比例して示されているとは限らない。

一実施形態による、ｓｅｑ２ｓｅｑＡＮＮを動作させるための例示的なシステムのブロック図である。一実施形態による、ｓｅｑ２ｓｅｑＡＮＮを動作させるための例示的な方法の流れ図である。一実施形態による、ｓｅｑ２ｓｅｑＡＮＮモデルの例示的なエンコーダ－デコーダ構成の図である。実験結果による、２つの注意機構の平均アラインメント・ベクトル・エントロピーを比較したグラフ図である。

ｓｅｑ２ｓｅｑＡＮＮモデル（以下「モデル」）の、構造を保持する二次注意機構が、本明細書において開示されている。モデルの既存の（「一次」）注意機構の代わりになるために使用することができる、この二次注意機構は、モデルのアラインメント安定性を改善することができ、推論中にモデルの出力系列の様々なパラメータを制御するときに特に有益である。これはまた、モデルの学習（「訓練」とも）中のアラインメント収束を改善するためにも有益である。

有利には、構造保持二次注意機構は、一方においてはモデルの一次注意機構とは別様にデコーダの文脈ベクトルにバイアスをかけ、他方においては特定の所望の構造を保持する二次注意ベクトルを提供することが可能である。所望の構造の保持は、モデルによる出力系列の正確な予測を保証するために重要である。適切な構造を順守することなく生成される二次注意機構が、一次注意機構を改善する可能性は低い。

注意マトリックスの所望の定性的構造は、ユーザ（例えば、目下の事例に適合する注意機構特性に関する知識を有する、モデルの開発者）によって定義されてもよく、または、ハード・コードされてもよい。例として、テキスト－音声変換モデルは、質の高い出力系列を生成するために、その注意マトリックスのために疎で単調な構造を必要とし得る。この構造は、各行のピーク位置（例えば、ａｒｇｍａｘ）が先行する行のものよりも低くない、疎で単峰型のマトリックス行（すなわち、ベクトル）を伴う。

注意マトリックスの所望の構造、したがって、そのベクトルを考慮すると、対応する構造適合測度を、生成される注意ベクトル候補の集合について評価することができる。構造適合測度は、所望の定性的注意ベクトル構造に対する各候補の適合を定量化する。構造適合測度は、主モデルに組み込まれるために、微分可能であるべきである。例えば、ｓｏｆｔ－ｍａｘｉｍｕｍ演算子（例えば、ＬｏｇＳｕｍＥｘｐ）出力が、単峰型の疎注意ベクトルの大まかな構造適合測度としての役割を果たすことができる。

集合内の候補は、数例を挙げると、例えば、現在の一次注意ベクトル、１つ以上の以前の一次注意ベクトルを含む集合、または以前の二次注意ベクトル（すなわち、デコーダの１回以上の以前の反復において二次注意ベクトルとして選択されたもの）を含む集合、あるいはその組合せから取得することができる。

任意選択的に、これらの取得された候補は、後の評価に利用可能な候補の数を増大させるために、１つ以上の追加の注意ベクトルによって増補される。追加の注意ベクトルは、例えば、取得された候補のうちの１つ以上の内容のシャッフルまたはシフトあるいはその両方を行うことによって、生成することができる。もう１つの選択肢は、所望の構造に基づいて、１つ以上の追加の注意ベクトルを新たに計算することである。

次に、二次注意ベクトルを、ソフト選択によって生成することができる、すなわち、取得された候補ベクトル、および、任意選択的にまた、増強された候補の凸線形結合として取得することができる。少なくとも、候補の評価された構造適合測度を供給されている、訓練されたシーケンシャルＡＮＮによって、凸線形結合の重みを生成することができる。このＡＮＮは、主ネットワークの元の訓練損失を保持して、主ｓｅｑ２ｓｅｑネットワークとともに訓練することができる。

この技法によって生成される二次注意ベクトルは、その後、モデルによって学習または推論あるいはその両方に利用することができ、デコーダの残りの部分に供給され、出力系列を生成するために使用される入力文脈ベクトルの計算において、一次注意ベクトルに代わる。

ここで、一実施形態による、ｓｅｑ２ｓｅｑＡＮＮを動作させるための例示的なシステム１００のブロック図を示す、図１を参照する。システム１００は、１つ以上のハードウェア・プロセッサ１０２と、ランダム・アクセス・メモリ（ＲＡＭ）１０４と、１つ以上の非一過性コンピュータ可読記憶デバイス１０６とを含むことができる。

記憶装置デバイス１０６は、ハードウェア・プロセッサ１０２を動作させるように構成されたプログラム命令またはコンポーネントあるいはその両方を記憶することができる。プログラム命令は、ｓｅｑ２ｓｅｑＡＮＮモジュール１０８などの、１つ以上のソフトウェア・モジュールを含むことができる。また、一般的なシステム・タスク（例えば、メモリ管理、記憶デバイス制御、電力管理など）の制御および管理、様々なハードウェアおよびソフトウェア構成要素の間の通信の促進、ならびにｓｅｑ２ｓｅｑＡＮＮモジュール１０８の実行のための様々なソフトウェア構成要素またはドライバあるいはその両方を有するオペレーティング・システムも含まれる。

システム１００は、ｓｅｑ２ｓｅｑＡＮＮモジュール１０８の命令がプロセッサ１０２によって実行されているときに、これをＲＡＭ１０４にロードすることによって動作することができる。ｓｅｑ２ｓｅｑＡＮＮモジュール１０８の命令は、システム１００に、入力系列１１０を受信させ、これを処理させ、出力系列１１２を生成させることができる。

本明細書に記載されているものとしてのシステム１００は、本発明の例示的な実施形態に過ぎず、実際には、ハードウェアのみ、ソフトアウェアのみ、またはハードウェアとソフトアウェアの両方の組合せにおいて実装されてもよい。システム１００は、図示されているよりも多いもしくは少ない構成要素およびモジュールを有してもよく、構成要素のうちの２つ以上を組み合わせてもよく、または、構成要素の異なる構成もしくは配置を有してもよい。システム１００は、システム１００が動作可能なコンピュータ・システムとして機能することを可能にする、マザーボード、データ・バス、電源、ネットワーク・インターフェース・カードなど（図示せず）などの任意の追加の構成要素を含んでもよい。システム１００の構成要素は、同一場所に配置されてもよく、または（例えば、分散コンピューティング・アーキテクチャにおいて）分散されてもよい。

ここで、一実施形態による、ｓｅｑ２ｓｅｑＡＮＮを動作させるための方法２００を示す図２の流れ図を参照して、ｓｅｑ２ｓｅｑＡＮＮモジュール１０８の命令を説明する。提示を単純にするために、方法２００は推論の観点から説明する。これは、ｓｅｑ２ｓｅｑＡＮＮのすでに訓練されたアテンティブ・デコーダ（以下、略して「デコーダ」）の、そのデコーダがｓｅｑ２ｓｅｑＡＮＮのエンコーダから符号化入力ベクトル系列を取得し、最終的に出力系列を生成するときの動作を参照する。そのデコーダを訓練するためには、基本的には、エンコーダに供給される訓練データを除いて、方法２００の同じステップが実施され得る。また、デコーダが自己回帰型である場合、当該技術分野において知られているように、「教師強制」訓練が使用され得る。

方法２００のステップは、提示されている順序において実施されてもよく、または、順序が、特定のステップへの必要な入力が先行するステップの出力から取得されることを可能にする限り、異なる順序において（もしくはさらには並列に）実施されてもよい。加えて、方法２００のステップは、別途具体的に述べられていない限り、自動的に（例えば、図１のシステム１００によって）実施される。

ステップ２０２において、当該技術分野において知られているように、ｓｅｑ２ｓｅｑＡＮＮのエンコーダから符号化入力ベクトル系列を取得することができる。

ステップ２０４において、当該技術分野において知られているように、ｓｅｑ２ｓｅｑＡＮＮの訓練された一次注意機構（任意選択的に、加法タイプの）を使用して一次注意ベクトル系列を生成することができる。

以下のステップ、符号２０６、２０８、および２１０は、ステップ２０４において生成された一次注意ベクトル系列の各一次注意ベクトルについて繰り返すことができる。ステップ２０６、２０８、および２１０は、ともに、本実施形態の二次注意機構を構成することができ、この機構は、出力系列を生成するステップ２１２において使用に供される。

ステップ２０６において、一次注意ベクトル系列の各一次注意ベクトルについて、訓練された一次注意機構を使用して注意ベクトル候補（以下「候補」）の集合を生成することができる。これは、所望の注意ベクトル構造に最も適合する候補を後に選択することができるように行われる。

候補の集合の生成は、集合の要素としての役割を果たす以下のベクトル、すなわち、現在の一次注意ベクトル、すなわちデコーダの動作の現在の時間ステップにおいて一次注意機構によって提供された、現在の反復のそれぞれの一次注意ベクトル、１つ以上の以前の一次注意ベクトル、すなわちデコーダの動作の１つ以上の以前の時間ステップにおいて一次注意機構によって提供された、１つ以上の以前の反復の一次注意ベクトルの集合、および、１つ以上の以前の二次注意ベクトル、すなわちデコーダの動作の以前の時間ステップにおいて二次注意機構によって提供された、１つ以上の以前の反復において二次注意ベクトルとして選択された二次注意ベクトル（下記ステップ２１０参照）の集合、のうちの１つ以上を取得することを含むことができる。

サブステップ２０６ａにおいて、取得された候補は、任意選択的に、方法の次のステップにおける評価に利用可能な候補の数を増大させるために、１つ以上の追加の注意ベクトルによって増補される。追加の注意ベクトルを生成するための１つの選択肢は、取得された候補のうちの１つ以上の内容のシャッフルまたはシフトあるいはその両方（循環回転またはゼロ詰めのいずれかによる）である。単純な例として、ベクトルの内容＜９，１２，２３，４５＞は、ランダムにシャッフルして＜２３，９，１２，４５＞にすることができ、または、１つのインデックス位置だけ線形シフト（ゼロ詰めによる）して＜０，９，１２，２３＞にすることができる。さらなる選択肢は、取得された候補のうちの１つ以上の内容にランダム・ノイズを追加することによって、追加の注意ベクトルを生成することである。追加の注意ベクトルを生成するためのまた別の選択肢は、所望の注意マトリックス構造に準拠するように、それらを新たに計算することである。例えば、所望の構造が疎で単調である場合、計算される追加の注意ベクトルは、各ベクトルのピーク位値（ａｒｇｍａｘ）が注意マトリックスにおけるその先行するベクトルのものよりも低くない、疎で単峰型になり得る。

ステップ２０８において、ステップ２０６において取得され、任意選択的にステップ２０６ａにおいて増補された候補の集合の各候補について、構造適合測度を評価することができ（また、前出のように、これは一次注意ベクトル系列の各一次注意ベクトルについて生成された候補のすべての集合について別個に行われる）。構造適合測度は、それぞれの候補と、所望の注意マトリックス構造との類似度を定量化する数式とすることができる。例えば、構造適合測度は、候補の各々が、所望の構造にどれだけ近く準拠するか、例えば、疎で単調であるかを示すことができる。

評価された構造適合測度は、ほんの一例として、［０，１］（まったく類似していない状態から、同一である状態まで）など、任意の数値スケールにおいて与えられてもよい。

ステップ２１０において、様々な候補、それらの構造適合測度の評価の結果、および、デコーダの１つ以上の状態変数に基づいて、二次注意ベクトルを生成することができる。ステップ２０６、２０８、および２１０が一次注意ベクトル系列の各一次注意ベクトルについて繰り返されることに起因して、ステップ２１０の実行全体の結果として、複数の二次注意ベクトルがもたらされる。

二次注意ベクトルを生成するための１つの方法は、ソフト選択によるものである。下記の実施例の節は、各々が本発明の一実施形態である、ソフト選択モジュール、単一段選択モジュールおよび階層型選択モジュールの２つの変形例を説明する。概して、両方の変形例は、１つのまたは一連の訓練されたシーケンシャルＡＮＮを使用することができ、これは最終的に、取得された候補ベクトルの（およびまた、任意選択的に増補された候補の）凸線形結合を実施し、凸線形結合の重みは、訓練されたシーケンシャルＡＮＮに、候補の評価された構造適合測度およびデコーダ状態変数（例えば、以前の入力文脈ベクトル、デコーダの隠れ状態ベクトルなど）を供給することによって生成される。そのようなシーケンシャルＡＮＮは、主ネットワークの元の訓練損失を保持して、主ｓｅｑ２ｓｅｑネットワークとともに訓練することができる。

階層型選択モジュールに対する代替として、各対の要素のそれぞれの構造適合測度に従って、候補の対にバイナリ・ゲーティング機構（ｂｉｎａｒｙｇａｔｉｎｇｍｅｃｈａｎｉｓｍ）を階層的に適用することによって、二次注意ベクトルが生成されてもよい。

代替的に、二次注意ベクトルは、評価された構造適合測度を考慮する、方法２００のユーザによって提供される任意の基準に従って選択または生成されてもよい。

最後に、ステップ２１２において、デコーダによって、ステップ２１０において生成された二次注意ベクトルおよびステップ２０２において取得された符号化入力ベクトル系列に基づいて、出力系列を生成することができる。出力系列は、目下のタスク（背景技術の節において列挙されたタスクなどのような）に応じて、テキスト、合成音声、メディア（画像、ビデオ、オーディオ、音楽）などのような、任意のタイプのデジタル出力を含んでもよい。特定のタイプのタスクにおいて、出力系列は、これをユーザにとって意味のあるものにするために、別の先行するステップを必要とする。例えば、ＴＴＳタスクにおいて、出力系列は、当該技術分野において知られているように、可聴波形を生成するために、ボコーダによる処理を必要とするスペクトル・オーディオ特徴の系列（コンピュータ・コードによって表される）であることが多い。他のタイプのメディア（画像、ビデオ、オーディオ、音楽などのような）を生成するためには、出力系列を処理して所望のタイプのメディアにするために、他のタイプのエンコーダが使用され得る。

任意選択的に、ステップ２１２はまた、推論中に、デコーダの出力系列の１つ以上の特性を制御するサブステップ２１２ａも含む。すなわち、二次注意ベクトルの、ひいては出力系列の対応する修正を引き起こすために、出力系列の生成の前または最中に、ユーザによって１つ以上のパラメータが変更されてもよい。そのような制御は、デコーダの外部のソースからパラメータを受信し、それに従って二次注意ベクトルを修正することができる副次機構を、二次注意機構内に実装することによって実現することができる。

デコーダの出力系列特性に対する制御は、例えば、ユーザが出力系列から合成される音声のプロソディ・パラメータを修正することを模索し得るｓｅｑ２ｓｅｑニューラルＴＴＳタスクにおいて有益であり得る。プロソディは、話者または発声の様々な特徴、すなわち、話者の情動状態、発声の形態（陳述、質問、または命令）、反語法または皮肉の存在、強調、対非、および集中を反映し得る。これは、他の様態では、文法または語彙の選択によって符号化することができない言語の他の要素を反映する場合がある。例示的なプロソディ・パラメータは、イントネーション（音調、抑揚、音色、ピッチ範囲、調子）、強勢（ピッチ突出、長さ、音量、音質）、テンポ、リズム、中断、およびチャンキングを含む。プロソディに加えて、またはその代替として、合成音声の他のタイプのオーディオ特性が制御されてもよい。

実施例
（図２の）方法２００を実施する例示的なアルゴリズムを下記に与える。方法２００を任意の細目に限定することは意図されておらず、むしろ、そのような細目を、方法の様々なステップの追加の実施形態として与えることが意図されている。

例示的なアルゴリズムは、エンコーダ３０２およびデコーダ３０４を有するｓｅｑ２ｓｅｑＡＮＮ３００を示すブロック図である図３を参照して説明される。

ｔを、デコーダの動作の現在の時間ステップとする。例示的なアルゴリズムは、デコーダの一次注意機構３０４ａに代わる二次注意機構３０４ｂを利用する。二次注意機構３０４ｂは、デコーダ状態変数３０４ｃおよび符号化入力系列に対して調整された、例えば、連続集合

などの、Ｗ個の以前に取得されたアラインメント・ベクトル候補からのｔ番目のアラインメント・ベクトルａ_ｔを導出する。

任意選択的に、初期のｔ番目のアラインメント・ベクトル候補に等しい追加の「バック・オフ」候補ｃ_０＝ａ_{ｉｎｉｔ，ｔ}が存在する。

各アラインメント・ベクトル候補

から、例えば、その成分をシャッフルまたはシフトすることによって、アラインメント・ベクトル候補の増補集合が生成される。例えば、線形シフトによる増補は、

であり得、式中、ｎは入力系列インデックスであり、シフトの境界条件は（例えば、ゼロ詰めによって）適切に設定される。増補は、ランダムとすることができ、または、所望の注意重み構造に関する予備知識に基づいて決定することができる。

次に、各アラインメント・ベクトル候補

（増補集合が自明である、すなわち、元の候補のみを含む「バック・オフ」候補を含む）について、微分可能な構造適合測度ｓ_ｊ，ｋ＝ｆ（ｃ_ｊ，ｋ）が評価される。例示的なアルゴリズムの１つの変形例において、構造適合測度は、元のアラインメント・ベクトル候補のみ（増補前）によって決定され、すなわち、ｓ_ｊ，ｋ＝ｆ（ｃ_ｊ）となる。

別の変形例において、構造適合測度は、Ｌ２ノルムとＬ１ノルムとの比（このアラインメント候補について、Ｌ１ノルムは常に１に等しいため、Ｌ２ノルムに等しい）によって評価される、「先鋭度」基準と組み合わされたＬｏｇＳｕｍＥｘｐｓｍｏｏｔｈｍａｘｉｍｕｍ演算子を含む。これはまた、構造適合測度の組合せ基準が範囲［０，１］内にあることを保証し、１は完全な適合を意味し、０は最悪の適合を意味する。ｆ（ｃ）に対して提案される例示的な式は、以下によって与えられる。
ｆ（ｃ）＝Ｔｈｒｅｓｈ（ｆ_１（ｃ）ｆ_２（ｃ））
式中、

、

、
かつ

である。

この基準は、最大限に疎で単峰型の確率分布（すなわち、デルタ関数）に対して好都合である。「先鋭度」基準の別の既知の代替形態は尖度であり、これを代替形態として使用することができる。

アラインメント・ベクトル候補の増補集合

全体が、最終的なアラインメント・ベクトルａ_ｔを出力する訓練可能で微分可能な候補選択モジュールに供給される。候補選択モジュールは、デコーダ状態変数に対して調整される。候補選択モジュールはまた、適切に構造化された候補に対して好都合であるように、評価された構造適合測度も利用する。例示的なアルゴリズムの変形例は、単一段選択モジュールまたは階層型選択モジュールのいずれかを含み、これらは両方とも、以下のアラインメント・ベクトル構造適合調整を展開する。

を、制限されたｌｏｇ（ｘ）とし、例えば、

である。次いで、候補構造適合測度ｓ_ｊ，ｋ＝ｆ（ｃ_ｊ，ｋ）の集合について、以下のような候補構造適合調整成分の集合が定義され、

結果、評価された構造適合測度が、それらの元の［０，１］範囲から、より広い範囲［－１００，０］へと、予め規定された様式でマッピングされる。無論、他のより広い範囲を使用することも可能である。

そのような予め規定されたマッピングに対する代替として、デコーダの残りの部分とともに訓練される、ＡＮＮによって実装される訓練可能なスカラー・マッピングへと構造適合測度を供給することによって、マッピングが実施されてもよい。この訓練されたスカラー・マッピングＡＮＮは、次いで、構造適合調整成分ベクトルＳ_ｊ，ｋを生成する。

さらなる代替として、追加のマッピングが必要とされないように、［０，１］よりも広い範囲内の評価結果を提供するように、構造適合測度自体が形成されてもよい。

単一段選択モジュールによる変形例は、以下のように動作することができる。

Ｋを、すべてのアラインメント・ベクトル候補Ｃ_ｊ，ｋの量とし、すなわち、

であり、Ｓを、対応する候補構造適合調整成分のベクトルとする。このとき、Ｋ個の候補選択重み｛α_ｊ，ｋ｝が存在し、それらは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有する訓練された多層シーケンシャルＡＮＮによって評価される。この評価のＫ次元ベクトル出力（特に、終端線形層によって出力される）は、調整ベクトルＳに加えられ、結果もたらされる暫定ベクトルが、Ｋ個の重み出力｛α_ｊ，ｋ｝を有するソフトマックス層に供給される。次いで、ソフト選択動作によって、二次アラインメント・ベクトルが形成され、
ａ_ｔ＝Σ_ｊ，ｋα_ｊ，ｋｃ_ｊ，ｋ
結果、注意ベクトル候補ｃ_ｊ，ｋの集合が、それらの重みに従って結合される。

階層型選択モジュールによる変形例は、以下のように動作することができる。

アラインメント・ベクトル候補のＷ個の別個の部分集合

が定義され、これらは、対応する増補アラインメント・ベクトル集合

から選択される。Ｗ個の部分集合の各々について、単一段選択モジュールのものと同様のプロセスが実施されるが、二次注意ベクトルによって終結する代わりに、各部分集合について、その部分集合の構造的に最良に適合する注意ベクトルを表す単一の注意ベクトル候補（「部分集合」注意ベクトル候補として参照される）が、最終的に形成される。これはまた、部分集合注意ベクトル候補の構造適合測度を評価することも伴う。次いで、すべての部分集合の構造適合測度が、追加の訓練されたシーケンシャルＡＮＮを使用して処理され、その出力がソフトマックス層に提供されて、部分集合注意ベクトル候補の重みが決定される。最後に、中間注意ベクトル候補をそれらの重みに従って結合することによって、二次注意ベクトルが形成される。

より具体的には、ｊ番目のソフト選択モジュール（Ｗ個のそのようなモジュールのうちの）が、多層シーケンシャルＡＮＮによってＫ_ｊ個の選択重み｛β_ｋ｝を予測し、多層シーケンシャルＡＮＮは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有し、その出力は、構造適合調整Ｓの対応する部分集合にさらに追加され、ｊ番目の部分集合のソフト選択重みβ_ｋを取得するためにソフトマックス層に通される。さらに、中間ベクトル候補のｊ番目のソフト選択は、以下によって実施される。
ｄ_ｊ＝Σ_ｋβ_ｋｃ_ｊ，ｋ

加えて、ｄ_０＝ｃ_０である。

Ｗ個のソフト選択モジュールがすべて終結すると、Ｗ＋１個の中間注意ベクトル候補から単一の注意ベクトル候補が選択される。（Ｗ＋１）を、中間注意ベクトル候補ｄ_ｊの量とし、Ｓを、対応する候補構造適合調整成分｛Ｓ_ｊ｝のベクトルとする。

このとき、Ｗ＋１個の最終的な候補選択重み｛γ_ｊ｝が存在し、それらは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有する多層シーケンシャルＡＮＮによって評価される。終端線形層の（Ｗ＋１）次元出力は、対応する調整Ｓに加えられ、結果もたらされる出力ベクトルが、（Ｗ＋１）個の出力｛γ_ｊ｝を有するソフトマックス層に供給される。最後に、以下によって、二次アラインメント・ベクトルが形成される。
ａ_ｔ＝Σ_ｊγｄ_ｊ

Ｗ＝１であり、Ｋ_１＝２である、階層型選択モジュールの単純化された使用事例において、以下のように、シグモイドをソフトマックスの代わりに使用することができる。

ここで、ｆ（ｃ）は構造適合測度であり、β_１およびγ_１は、デコーダ状態変数によって供給され、シグモイド層によって終端される別個の多層シーケンシャルＡＮＮによって予測されるスカラー推移確率である。

したがって、以下のようになる。
ｄ_１＝β_１ｃ_１，１＋（１－β_１）ｃ_１，０

実験結果
開示されている構造保持二次注意機構は、ｓｅｑ２ｓｅｑニューラルＴＴＳタスクにおける試験に成功しており、訓練中の良好なアラインメント収束、および、推論時における２つのＴＴＳプロソディ・パラメータ（発話ペース、発話ピッチ）に対するユーザ制御中の高いＭＯＳスコアを示した。

実験タスクは、Ｗａｖｅｎｅｔ様の（Van Den Oord, Aaron etal. "Wavelet: A generative model for raw audio." SSW 125.2016）ニューラル・ボコーダ（Tamamori, Akira et al. "Speaker-Dependent WaveNet Vocoder." INTERSPEECH. 2017）と連結された、スペクトル特徴予測のための回帰型注意シーケンス－シーケンス・ネットワークを含む、「Ｔａｃｏｔｒｏｎ２」アーキテクチャ（Shen, Jonathan, et al. "Natural TTS Synthesis by ConditioningWavenet on MEL Spectrogram Predictions." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018）に従った。これらはすべて、合成音声品質、訓練収束、およびプロソディ制御機構に対する感受性を改善するように意図された様々な有利な修正を施されている。

男声および女声コーパスを、２２０５０Ｈｚのサンプリング・レートで使用した。男性データセットは１３時間の音声を含むものであり、女性データセットは２２時間の音声を含むものであった。それらは両方とも、ネイティブの米国英語話者によって生成され、専門のスタジオにおいて録音された。このオーディオは発声ごとに録音されており、発声のほとんどは単一の文を含むものであった。

プロソディ・パラメータに対する制御を促進するために、録音から抽出されるプロソディ観測結果に基づいて、適切な訓練が実施され、［－１，１］範囲内の成分ごとのオフセットを使用してこれらのパラメータを制御するための機構が組み込まれた。推論時に、プロソディ・パラメータが、符号化出力系列から予測されており、これらは、出力系列、ひいては出力波形を生成するために、ユーザによって意図的にオフセットされている場合があった。

この特定のＴＴＳタスク（単調アラインメント展開）の所望のアラインメント・マトリックス構造を意識して、現在の一次アラインメント・ベクトルに加えて、アラインメント・ベクトル候補の集合が以前のアラインメント・ベクトルから導出された。次いで、二次アラインメント・ベクトルを、その予測される所望の構造（すなわち、先鋭なピークを有する単峰型の形状）が保持されるように取得するために、ソフト選択が適用された。

ｂ_ｔを、初期注意モジュールによって評価されるものとしての初期アラインメント・ベクトルとし、ａ_ｔ［ｎ］を、出力時間ステップｔにおける二次アラインメント・ベクトルとする。Raffel, Colin, et al. “Online and linear-time attention by enforcing monotonic alignments.” Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017の単調注意を仮定して、入力シンボルをスキップすることなく、以前のアラインメント・ベクトルａ_ｔ－１［ｎ］をそのシフトされたバージョンａ_ｔ－１［ｎ－１］とともに現在の時間ステップｔにおける現在の初期アラインメントｂ_ｔに加えることによって、候補集合

が作成された。

この増補は、現在の時点において、出力が、以前の入力シンボルに整合したままであるか、または、次の入力シンボルに移動していると仮定する。

この候補集合では、二次アラインメント・ベクトルを求めるようにソフト選択を訓練することしかできないが、予防措置として、この実験は、ソフト選択手段が、偶発的に注意が損なわれることを排除するように適切に構造化された候補を選好することを保証することを目標としたものであった。その目的のために、スカラー構造メトリックが、アラインメント・ベクトル候補の単峰性およびピーク先鋭度を評価する構造適合測度として使用された。この測度は、ＬｏｇＳｕｍＥｘｐｓｏｆｔｍａｘｉｍｕｍ評価と、McCree AV, Barnwell TP. “A mixed excitation LPC vocoder model for low bit rate speech coding.” IEEE Transactions on Speech and audio Processing. 1995 Jul;3(4):242-50の一般的な「先鋭度」メトリックから導出される追加のピーク先鋭度メトリック、すなわち、Ｌ２ノルムをＬ１ノルムで除算した値とを結合した。Ｌ１ノルムはアラインメント・ベクトルについては常に１に等しく、最悪の事例である平坦なアラインメント・ベクトルのＬ２ノルムの２乗は１／Ｎに等しいことに留意されたい。このメトリックの感受性を低減するために、ブースト定数１．６７が実験的に設定された。

この実験で使用される、結合された構造メトリックは、以下によって与えられる。

式中、

また、閾値化演算子

は、以下のように定義される。

０．１２のゼロに近い閾値が実験的に設定されている、追加の閾値化演算によって、不良なアラインメント・ベクトル候補がソフト選択に適合しないことが保証されるに至った。

アラインメント・ベクトルの構造保持ソフト選択は、２段階で実施された。第１の段階は、以下によって与えられる。
ｄ＝αａ_ｔ－１［ｎ－１］＋（１－α）ａ_ｔ－１［ｎ］（５）
式中、αは、連結デコーダ状態変数（ｘ_ｃ，ｈ_ｃ）を供給され、シグモイド層によって終端される、単一の全結合層によって生成されるスカラー初期段階選択重みである。第１の段階の選択（５）を観察すると、これは、入力文脈ベクトルの一部である、埋め込みプロソディ・パラメータによる明示的な音素遷移制御を提供することが分かる。

選択手順の最終段階は、構造メトリックｆ（ｃ）を利用する。
ａ_ｔ＝（１－γ）βｄ＋γ（１－β）ｂ_ｔ（６）
式中、βは、入力文脈ベクトルｘ_ｃを供給され、シグモイド層によって終端される、単一の全結合層によって生成されるスカラー最終段階選択重みであり、γ＝ｆ（ｂ_ｔ）（１－ｆ（ｄ））は、構造選好スコアである。この乗法構造選好スコアは、初期注意ベクトルが、その構造が他の候補よりも好ましい場合にのみ考慮されることを保証する。

実験において、推論時に、Ｗａｖｅｎｅｔスタイルのボコーダ（Van Den Oordet al. and Tamamori et al.、前出）が使用されて、モデルから予測されるスペクトル特徴から出力波形が生成された。

実験は、図４に見られるように、訓練中のアラインメント収束の改善を示した。この図は、１３，０００文のデータ・コーパスに対する訓練中の１００文検証セットの平均アラインメント・ベクトル・エントロピーを示す。ミニバッチ・サイズは４８であった。本発明の構造保持注意機構による平均アラインメント・ベクトル・エントロピーは、単なる通常の注意機構（モデルの既存の注意機構）のものよりも低かった。

構造保持注意機構に基づいて作成される出力波形の品質および表現力を評価するために、２回の正式なＭＯＳリスニング・テスト（男性および女声の音声コーパスごとに１回）が、４０個の合成文に対して実施された。各テストは、４つのシステム、すなわち、本発明の構造保持注意機構（下記の表にはＡｕｇＡｔｔｎと示される）を使用する第１のシステム、ならびに、３つのベンチマーク・システム、すなわち、元々の変更されていない音声録音（ＰＣＭと示される）、同じモデルの、ただし単なる一次注意機構による出力波形（ＲｅｇＡｔｔｎと示される）、および、Morise Masanori, Fumiya Yokomori, and Kenji Ozawa. “WORLD: A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications.” IEICE Transactions on Information and Systems 99.7 (2016): 1877-1884の「ＷＯＲＬＤ」システムの出力波形（ＷＯＲＬＤと示す）をレーティングした。ＡｕｇＡｔｔｎシステムは３回、すなわち、いかなるプロソディ制御も行わなかった１回（０，０のペースおよびピッチ）、および異なるペース制御とピッチ制御とを行った２回、レーティングされた。合成文の各々は、２５人の別個の被験者によってレーティングされた。

表１および表２は、それぞれ女声および男声の自然さおよび表現力のＭＯＳ評価の結果を列挙している。表１の結果の有意性分析は、ＲｅｇＡｔｔｎとＡｕｇＡｔｔｎ（０，０）との間の差、および、ＡｕｇＡｔｔｎ（－０．１，０．５）とＡｕｇＡｔｔｎ（０．１５，０．６）との間の差を除いて、システム間の表現力の差のほとんどが統計的に有意であることを明らかにした。自然さに関して、すべての増補注意システムは、わずかにより良好に機能した（ｐ＝０．０４６）ＡｕｇＡｔｔｎ（－０．１，０．５）を除いて、ＲｅｇＡｔｔｎのように機能した（有意な差はなかった）。そのため、女声について、プロソディ制御は、元々の品質および自然さを保持しながら、知覚される表現力を有意に改善することができた。

同様に、男声の有意性分析（表２）は、ＲｅｇＡｔｔｎとＡｕｇＡｔｔｎ（０，０）との対、および、ＡｕｇＡｔｔｎ（０．２，０．８）とＡｕｇＡｔｔｎ（０．５，１．５）との対のみが、知覚される表現力に関して等価であることを明らかにした。自然さに関して、ＡｕｇＡｔｔｎ（０．２，０．８）とＡｕｇＡｔｔｎ（０．５，１．５）の両方が、ＡｕｇＡｔｔｎ（０，０）およびＲｅｇＡｔｔｎと比較して有意な改善をもたらす。すなわち、男声について、プロソディ制御は、表現力、品質および自然さをすべて有意に改善することができた。

結論として、実験は、ｓｅｑ２ｓｅｑニューラルＴＴＳシステムに適用された本発明の構造保持注意機構が、推論時にプロソディを制御する場合と制御しない場合の両方で高い品質および自然さを保持することを明らかにした。同様の結果が、機械翻訳、音声認識、ビデオ・キャプション生成、テキスト要約、テキスト含意、質問応答、チャット・ボットなどのような他のタイプのｓｅｑ２ｓｅｑニューラル・タスクにおいて達成可能である可能性が最も高いことが、当業者には認識されよう。

実験に使用された上述の技法は、本発明の考察されている実施形態である。

本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに、本発明の諸態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せであってもよい。コンピュータ可読記憶媒体のより特定的な例の包括的でないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）ディスク、または、命令が記録されている機械的に符号化されたデバイス、および、上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、または、他の自由に伝播する電磁波、導波路もしくは他の伝送媒体（例えば、光ファイバケーブルを通過する光パルス）を通じて伝播する電磁波、または、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。むしろ、コンピュータ可読記憶媒体は、非一過性（すなわち、不揮発性）媒体である。

本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスへ、または、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワークおよび／もしくはワイヤレス・ネットワークを介して外部コンピュータもしくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｊａｖａ（Ｒ）、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのようなオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語もしくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれているソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔コンピュータ上で、またはその全体を遠隔コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、遠隔コンピュータが、ローカル・エリア・ネットワーク（ＬＡＮ）もしくは広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され、または、接続は、外部コンピュータに対して（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）行われる。いくつかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラム可能論理アレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本明細書において、本発明の実施形態による、方法、装置（システム）およびコンピュータ・プログラム製品のフローチャートの図またはブロック図あるいはその両方を参照して説明されている。フローチャートの図またはブロック図あるいはその両方の各ブロック、および、フローチャートの図またはブロック図あるいはその両方の中の複数のブロックの組合せは、コンピュータ可読プログラム命令によって実装されることができることは理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプラグラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読記憶媒体内に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイスあるいはその組合せに特定の様式で機能するように指示することができるものであってもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実施するように、コンピュータで実施されるプロセスを生成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされて、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図面内のフローチャートおよびブロック図は本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を例示する。これに関連して、流れ図およびブロック図内の各ブロックは、指定の論理機能を実施するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部分を表すことができる。また、ブロック図または流れ図あるいはその両方の図解の各ブロック、ならびに、ブロック図または流れ図あるいはその両方の図解のブロックの組合せは、指定の機能もしくは動作を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェアベース・システムによって実施することができることも留意されよう。

数値範囲の記述は、具体的に開示されているすべての可能性のある部分範囲、および、その範囲内の個々の数値を有するものと考えられるべきである。例えば、１～６の範囲の記述は、１～３、１～４、１～５、２～４、２～６、３～６などのような具体的に開示されている部分範囲、および、その範囲内の個々の数、例えば、１、２、３、４、５、および６を有するものと考えられるべきである。これは、範囲の広さにかかわりなく適用される。

本発明の様々な実施形態の説明は、例示の目的のために提示されているが、網羅的であることも、開示されている実施形態に限定されることも意図されていない。説明されている実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書において使用されている用語は、実施形態の原理、実際の適用または市場に見出される技術にまさる技術的改善を最良に説明するため、または、当業者が本明細書において開示されている実施形態を理解することを可能にするために選択された。

Claims

方法であって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダにおいて、
符号化入力ベクトル系列を取得することと、
前記訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、
前記一次注意ベクトル系列の各一次注意ベクトルについて、
（ａ）それぞれの前記一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、
（ｂ）前記注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの前記注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、
（ｃ）訓練されたソフト選択ＡＮＮを使用して、前記評価および前記訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて出力系列を生成することと
を含む、方法。
前記出力系列の前記生成は、
前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記入力文脈ベクトルに基づいて前記出力系列を生成することと
を含む、請求項１に記載の方法。
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも１つを取得することと、
前記少なくとも１つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、前記少なくとも１つの取得されたベクトルを、追加の注意ベクトルによって増補することと
を含む、請求項１または２に記載の方法。
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも１つを取得することと、
前記所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、前記少なくとも１つの取得されたベクトルを、前記追加の注意ベクトルによって増補することと
を含む、請求項１または２に記載の方法。
前記構造適合測度は、ｓｍｏｏｔｈｍａｘｉｍｕｍ、尖度、歪度、エントロピー、Ｌ２ノルムとＬ１ノルムとの間の比のうちの少なくとも１つに基づく、請求項１ないし４のいずれかに記載の方法。
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルＡＮＮを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルＡＮＮを適用し、前記マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の集合の重みを生成することと、
前記注意ベクトル候補の集合を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項１ないし５のいずれかに記載の方法。
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
注意ベクトル候補の複数の部分集合および前記候補の対応するマッピングされた構造適合測度を定義することと、
前記複数の部分集合の各々について、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルＡＮＮを提供し、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルＡＮＮを適用し、それぞれの前記部分集合の前記マッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の部分集合の重みを生成し、
それぞれの前記部分集合の前記注意ベクトル候補を前記候補の重みに従って結合することによって、部分集合注意ベクトル候補を形成し、
前記部分集合注意ベクトル候補について、前記部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、
評価された前記部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、
交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルＡＮＮを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記追加の訓練されたシーケンシャルＡＮＮを適用し、前記マッピングされた部分集合構造適合測度のベクトルに前記追加の訓練されたシーケンシャルＡＮＮの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、
ソフトマックス層に前記中間ベクトルを提供して、前記部分集合注意ベクトル候補の重みを生成することと、
前記部分集合注意ベクトル候補を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項１ないし５のいずれかに記載の方法。
前記訓練された一次注意機構は、加法注意機構である、請求項１ないし７のいずれかに記載の方法。
前記ｓｅｑ２ｓｅｑＡＮＮは、テキスト－音声変換タスクのために構成され、前記方法は、
前記出力系列から音声を合成するようにボコーダを動作させることと、
合成された前記音声の少なくとも１つのプロソディ・パラメータに影響を及ぼすように、前記出力系列の前記生成の前または最中に前記二次注意ベクトルを修正することとをさらに含む、請求項１ないし８のいずれかに記載の方法。
前記少なくとも１つのプロソディ・パラメータは、イントネーション、強勢、テンポ、リズム、中断、およびチャンキングからなる群から選択される、請求項９に記載の方法。
ユーザから前記所望の注意ベクトル構造の定義を受信することをさらに含む、請求項１ないし１０のいずれかに記載の方法。
システムであって、
（ｉ）少なくとも１つのハードウェア・プロセッサと、
（ｉｉ）プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、前記プログラム・コードは、前記少なくとも１つのハードウェア・プロセッサによって、訓練されたシーケンス－シーケンス（ｓｅｑ２ｓｅｑ）人工ニューラル・ネットワーク（ＡＮＮ）の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、
符号化入力ベクトル系列を取得することと、
前記訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、
前記一次注意ベクトル系列の各一次注意ベクトルについて、
（ａ）それぞれの前記一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、
（ｂ）前記注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの前記注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、
（ｃ）訓練されたソフト選択ＡＮＮを使用して、前記評価および前記訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システム。
前記出力系列の前記生成は、
前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記入力文脈ベクトルに基づいて前記出力系列を生成することと
を含む、請求項１２に記載のシステム。
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも１つを取得することと、
前記少なくとも１つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、前記少なくとも１つの取得されたベクトルを、追加の注意ベクトルによって増補することと
を含む、請求項１２または１３に記載のシステム。
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも１つを取得することと、
前記所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、前記少なくとも１つの取得されたベクトルを、前記追加の注意ベクトルによって増補することと
を含む、請求項１２または１３に記載のシステム。
前記構造適合測度は、ｓｍｏｏｔｈｍａｘｉｍｕｍ、尖度、歪度、エントロピー、Ｌ２ノルムとＬ１ノルムとの間の比のうちの少なくとも１つに基づく、請求項１２ないし１５のいずれかに記載のシステム。
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルＡＮＮを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルＡＮＮを適用し、前記マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の集合の重みを生成することと、
前記注意ベクトル候補の集合を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項１２ないし１６のいずれかに記載のシステム。
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度を生成することと、
注意ベクトル候補の複数の部分集合および前記候補の対応するマッピングされた構造適合測度を定義することと、
前記複数の部分集合の各々について、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルＡＮＮを提供し、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルＡＮＮを適用し、それぞれの前記部分集合の前記マッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の部分集合の重みを生成し、
それぞれの前記部分集合の前記注意ベクトル候補を前記候補の重みに従って結合することによって、部分集合注意ベクトル候補を形成し、
前記部分集合注意ベクトル候補について、前記部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、
評価された前記部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、
交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルＡＮＮを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記追加の訓練されたシーケンシャルＡＮＮを適用し、前記マッピングされた部分集合構造適合測度のベクトルに前記追加の訓練されたシーケンシャルＡＮＮの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、
ソフトマックス層に前記中間ベクトルを提供して、前記部分集合注意ベクトル候補の重みを生成することと、
前記部分集合注意ベクトル候補を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項１２ないし１６のいずれかに記載のシステム。
前記訓練された一次注意機構は、加法注意機構である、請求項１２ないし１８のいずれかに記載のシステム。
前記プログラム・コードは、前記少なくとも１つのハードウェア・プロセッサによって、以下の命令、すなわち、
ユーザから前記所望の注意ベクトル構造の定義を受信することを実施するようにさらに実行可能である、請求項１２に記載のシステム。
請求項１ないし１１のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ・プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１ないし１１のいずれか一項に記載の方法をコンピュータに実行させる、コンピュータ・プログラム。