JP7108147B2

JP7108147B2 - 表現用エンドツーエンド音声合成における変分埋め込み容量

Info

Publication number: JP7108147B2
Application number: JP2021569531A
Authority: JP
Inventors: エリック・ディーン・バッテンバーグ; デイジー・スタントン; ラッセル・ジョン・ワイアット・スケリー－ライアン; ソルーシュ・マリオオライアド; デイヴィッド・テー－ファ・カオ; トーマス・エドワード・バグビー; ショーン・マシュー・シャノン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-05-23
Filing date: 2020-05-20
Publication date: 2022-07-27
Anticipated expiration: 2040-05-20
Also published as: US20200372897A1; US20230260504A1; CN113874934A; EP3966803A1; US11646010B2; JP2022528016A; KR102579843B1; KR20220004721A; WO2020236990A1; US20220101826A1; US11222621B2

Description

本開示は、表現用エンドツーエンド音声合成における変分埋め込み容量の効果的使用に関する。

ニューラルネットワークは、受信された入力に対する出力を予測するために、非線形ユニットの1つまたは複数の層を利用する機械学習モデルである。たとえば、ニューラルネットワークは、入力テキストを出力音声にコンバートすることができる。いくつかのニューラルネットワークは、出力層に加え、1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワークの中の次の層、すなわち、次の隠れ層または出力層への入力として使われる。ネットワークの各層は、パラメータのそれぞれのセットの現在の値に従って、受信された入力から出力を生成する。

いくつかのニューラルネットワークは、回帰型ニューラルネットワークである。回帰型ニューラルネットワークとは、入力シーケンスを受信し、入力シーケンスから出力シーケンスを生成するニューラルネットワークである。特に、回帰型ニューラルネットワークは、現在の時間ステップにおいて出力を計算する際、前の時間ステップからの、ネットワークの内部状態の一部または全部を使うことができる。回帰型ニューラルネットワークの例は、1つまたは複数の長短期(LSTM)メモリブロックを含むLSTMニューラルネットワークである。各LSTMメモリブロックは、入力ゲートと、忘却ゲートと、たとえば、現在のアクティブ化を生成する際に使用するために、セルについての前の状態を、セルが記憶できるようにするか、またはLSTMニューラルネットワークの他の構成要素に与えられるようにする出力ゲートとを各々が含む1つまたは複数のセルを含み得る。

米国出願第16/058,640号

S. IoffeおよびC. Szegedy、「Batch normalization: Accelerating deep network training by reducing internal covariate shift」、arXiv preprint arXiv:1502.03167、2015 「Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron」、arXiv preprint arXiv:1803.09047、2018年3月24日「Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis」、arXiv preprint arXiv:1803.09017、2018年3月23日

本開示の一態様は、データ処理ハードウェア上で実行する決定論的基準エンコーダにおいて、基準オーディオ信号を受信するステップと、データ処理ハードウェアによって、基準オーディオ信号に対応する基準埋め込みを決定するステップとを含む、埋め込み容量を推定するための方法を提供する。基準埋め込みは、対応する埋め込み次元(dimensionality)を有する。方法はまた、データ処理ハードウェアによって、基準埋め込みの対応する埋め込み次元に応じて第1の再構築損失を測定するステップと、データ処理ハードウェアによって、変分事後分布から変分埋め込みを取得するステップとを含む。変分埋め込みは、対応する埋め込み次元および指定された容量を有する。方法はまた、データ処理ハードウェアによって、変分埋め込みの対応する埋め込み次元に応じて第2の再構築損失を測定するステップと、データ処理ハードウェアによって、基準埋め込みについての第1の測定された再構築損失を、指定された容量を有する変分埋め込みについての第2の測定された再構築損失と比較することによって基準埋め込みの容量を推定するステップとを含む。

本開示の実装形態は、以下の随意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、基準埋め込みは、tanh非線形性韻律埋め込みを含む。基準埋め込みは、ソフトマックス非線形性韻律埋め込みを含み得る。基準埋め込みは、スタイル埋め込みを含み得る。いくつかの例では、第1および第2の測定された再構築損失が互いと一致するとき、基準埋め込みの推定された容量は、変分埋め込みの容量と実質的に等しい。

いくつかの例では、変分埋め込みの指定された容量は、変分事後分布の調節可能変分境界に基づく。これらの例では、調節可能変分境界は、変分埋め込みに上限を設ける調節可能KL項を含み得る。随意には、調節可能変分境界は、変分埋め込みに上限を設ける調整可能KL重みを含み得る。調節可能変分境界を増大させると、変分埋め込みの指定された容量が増大することになり、調節可能変分境界を低下させると、変分埋め込みの指定された容量が減少することになり得る。

本開示の別の態様は、埋め込み容量を推定するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含み、メモリハードウェアは、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実施させる命令を記憶する。動作は、決定論的基準エンコーダにおいて、基準オーディオ信号を受信することと、基準オーディオ信号に対応する基準埋め込みを決定することとを含む。基準埋め込みは、対応する埋め込み次元を有する。動作はまた、基準埋め込みの対応する埋め込み次元に応じて第1の再構築損失を測定することと、変分事後分布から変分埋め込みを取得することとを含む。変分埋め込みは、対応する埋め込み次元および指定された容量を有する。動作はまた、変分埋め込みの対応する埋め込み次元に応じて第2の再構築損失を測定することと、基準埋め込みについての第1の測定された再構築損失を、指定された容量を有する変分埋め込みについての第2の測定された再構築損失と比較することによって、基準埋め込みの容量を推定することとを含む。

本態様は、以下の随意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、基準埋め込みは、tanh非線形性韻律埋め込みを含む。基準埋め込みは、ソフトマックス非線形性韻律埋め込みを含み得る。基準埋め込みは、スタイル埋め込みを含み得る。いくつかの例では、第1および第2の測定された再構築損失が互いと一致するとき、基準埋め込みの推定された容量は、変分埋め込みの容量と実質的に等しい。

本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

例示的テキスト-音声コンバージョンシステムの概略図である。例示的CBHGニューラルネットワークの概略図である。入力テキストから音声を合成するための動作の例示的並びを示す図である。韻律およびスタイルを制御し、転移させるための例示的変分オートエンコーダの概略図である。韻律を転移させるための例示的な決定論的基準エンコーダの概略図である。決定論的基準エンコーダと、スタイルを転移させるためのスタイル層とを含む例示的ヒューリスティックベースモデルの概略図である。再構築損失対決定論的埋め込みのための埋め込み次元を示す例示的プロットである。再構築損失対決定論的埋め込みのための埋め込み次元を示す例示的プロットである。条件付き依存を入力として使う真および変分事後分布を示す図である。条件付き依存を入力として使う真および変分事後分布を示す図である。条件付き依存を入力として使う真および変分事後分布を示す図である。条件付き依存を入力として使い、変分埋め込みに存在する変動の分数が指定されるようにして、残りの変動のサンプリングを可能にする真および変分事後分布を示す図である。条件付き依存を入力として使い、変分埋め込みに存在する変動の分数が指定されるようにして、残りの変動のサンプリングを可能にする真および変分事後分布を示す図である。基準埋め込みの容量を推定する方法のための動作の例示的並びのフローチャートである。変分埋め込みの特定の容量をターゲットとする方法のための動作の例示的並びのフローチャートである。所与のスタイルに対して合成音声がどのように聞こえるかを変えるように、変分埋め込みに関連付けられた階層的断片をサンプリングするフローチャートである。本明細書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイスの概略図である。

様々な図面における同様の符号は、同様の要素を示す。

現実的な人間の音声の合成は、同じテキスト入力が無限数の合理的な発話理解を有する、劣決定問題である。エンドツーエンドニューラルネットワークベースの手法は、短いアシスタントのような発声のための人間の能力に合致するように進歩しつつあるが、ニューラルネットワークモデルは、洗練された言語的または音声的表現に対して各々が作用する複数の処理ステップを含む、より従来型のモデルよりも解釈可能または制御可能でないと見なされることがある。したがって、本明細書における実装形態は、合成音声における残りの変動性を確率的にモデル化し、かつ/または直接制御することができるエンドツーエンドモデルを作成することを対象とする。

変動性の原因は、抑揚、強勢、リズム、およびスタイルという韻律的特性、ならびに話者およびチャネル特性を含む。発話された発声の韻律的特性は、語彙的表現(たとえば、発話された発声の転写)に存在するものを超えて、言語的、意味論的、および感情的意味を伝える。これらの特性を、ある発声から別の発声に転移させるための能力を提供すると、ユーザは、複雑な音響または言語的パラメータを手で操作する必要なく、自分自身の声を使うこと(たとえば、「このように言って」)によって、合成音声がどのように聞こえるかを制御することが可能になる。本明細書における実装形態は、自然音声に存在する変形をユーザに経験させるために、発声の、韻律的であり得る理解にわたる分布からのサンプリングを可能にする方法をさらに対象とする。本明細書における実装形態は、含み得る。

図1を参照すると、いくつかの実装形態では、例示的テキスト-音声(TTS)コンバージョンシステム100は、入力テキスト104を入力として受信するように、および入力テキスト104を処理して、出力として音声120を生成するように構成されているサブシステム102を含む。入力テキスト104は、特定の自然言語でのキャラクタのシーケンスを含む。キャラクタのシーケンスは、アルファベット文字、数字、句読点、および/または他の特殊キャラクタを含み得る。入力テキスト104は、可変長のキャラクタのシーケンスであってよい。テキスト-音声コンバージョンシステム100は、以下で説明するシステム、構成要素、および技法が実装され得る、1つまたは複数のロケーションにある1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムの例である。たとえば、システム100は、図13のコンピュータシステム1300上で実行することができる。

システム100は、ユーザが、テキスト104を合成音声へのコンバージョンのために入力すること、および/または基準音声に関連付けられた変分埋め込み(variational embedding)が入力テキストから合成された音声がどのように聞こえるかを制御することができるように、自分自身の声を使って基準音声412(図4)を与えることができるようにするユーザインターフェース105を含み得る。ユーザインターフェース105はまた、合成音声がターゲット話者のように聞こえるように基準音声412を与えるが、ユーザによって発声される基準音声で伝えられる韻律/スタイルを有するユーザの声とは異なるターゲット話者を、ユーザが選択できるようにし得る。ユーザインターフェース105は、自然音声に存在する変形をユーザに経験させるために、ユーザが、発声の韻律的であり得る理解にわたる分布から選択/サンプリングすることをさらにできるようにし得る。

入力テキスト104を処理するために、サブシステム102は、シーケンスツーシーケンス回帰型ニューラルネットワーク106(これ以降、「seq2seqネットワーク106」)と、後処理ニューラルネットワーク108と、波形合成器110とを含むエンドツーエンドテキスト-音声モデル150と対話するように構成される。

サブシステム102が、特定の自然言語でのキャラクタのシーケンスを含む入力テキスト104を受信した後、サブシステム102は、キャラクタのシーケンスを、入力としてseq2seqネットワーク106に与える。seq2seqネットワーク106は、サブシステム102からキャラクタのシーケンスを受信するように、およびキャラクタのシーケンスを処理して、特定の自然言語でのキャラクタのシーケンスの言葉の発声のスペクトログラムを生成するように構成される。

特に、seq2seqネットワーク106は、(i)エンコーダpre-netニューラルネットワーク114およびエンコーダCBHGニューラルネットワーク116を含むエンコーダニューラルネットワーク112、ならびに(ii)注意ベースデコーダ回帰型ニューラルネットワーク118を使って、キャラクタのシーケンスを処理する。キャラクタのシーケンス中の各キャラクタは、ワンホットベクトルとして表され、連続ベクトルへ埋め込まれ得る。すなわち、サブシステム102は、シーケンス中の各キャラクタをワンホットベクトルとして表し、次いで、シーケンスを入力としてseq2seqネットワーク106に与える前に、埋め込み、すなわち、ベクトル、または数値の、キャラクタの他の順序付きコレクションを生成することができる。

エンコーダpre-netニューラルネットワーク114は、シーケンス中の各キャラクタのそれぞれの埋め込みを受信し、各キャラクタのそれぞれの埋め込みを処理して、キャラクタの変換された埋め込みを生成するように構成される。たとえば、エンコーダpre-netニューラルネットワーク114は、非線形変換のセットを各埋め込みに適用して、変換された埋め込みを生成することができる。場合によっては、エンコーダpre-netニューラルネットワーク114は、トレーニング中にシステムの収束速度を増大させ、汎化能力を向上するためのドロップアウトをもつボトルネックニューラルネットワーク層を含む。

エンコーダCBHGニューラルネットワーク116は、エンコーダpre-netニューラルネットワーク114から、変換された埋め込みを受信し、変換された埋め込みを処理して、キャラクタのシーケンスの符号化表現を生成するように構成される。エンコーダCBHGニューラルネットワーク116は、CBHGニューラルネットワーク200(図2)を含み、これについては、図2に関して以下でより詳しく説明する。本明細書に記載するエンコーダCBHGニューラルネットワーク116の使用により、過剰適合を削減することができる。さらに、エンコーダCBHGニューラルネットワーク116は、たとえば、多層RNNエンコーダと比較すると、より少ない誤発音を生じ得る。

注意ベースデコーダ回帰型ニューラルネットワーク118(ここでは、「デコーダニューラルネットワーク118」と呼ばれる)は、デコーダ入力のシーケンスを受信するように構成される。シーケンス中の各デコーダ入力に対して、デコーダニューラルネットワーク118は、デコーダ入力と、エンコーダCBHGニューラルネットワーク116によって生成された符号化表現とを処理して、キャラクタのシーケンスのスペクトログラムの複数のフレームを生成するように構成される。すなわち、各デコーダステップにおいて1つのフレームを生成する(予測する)のではなく、デコーダニューラルネットワーク118は、スペクトログラムのr個のフレームを生成し、rは、1よりも大きい整数である。多くの場合、r個のフレームのセットの間に重複はない。

特に、デコーダステップtにおいて、デコーダステップt-1において生成されたr個のフレームの少なくとも最終フレームが、デコーダステップt+1において、入力としてデコーダニューラルネットワーク118にフィードされる。いくつかの実装形態では、デコーダステップt-1において生成されたr個のフレームすべてが、デコーダステップt+1において、入力としてデコーダニューラルネットワーク118にフィードされる。最初のデコーダステップ向けのデコーダ入力は、すべてがゼロのフレーム(すなわち、<GO>フレーム)であってよい。符号化表現に対する注意は、たとえば、従来の注意機構を使って、すべてのデコーダステップに適用される。デコーダニューラルネットワーク118は、所与のデコーダステップにおいてr個のフレームを一斉に予測するために、線形アクティブ化をもつ完全接続ニューラルネットワーク層を使えばよい。たとえば、各フレームが80-D(80次元)ベクトルである5つのフレームを予測するために、デコーダニューラルネットワーク118は、線形アクティブ化をもつ完全接続ニューラルネットワーク層を使って、400-Dベクトルを予測し、400-Dベクトルを作り直して5つのフレームを取得する。

各時間ステップにおいてr個のフレームを生成することによって、デコーダニューラルネットワーク118は、デコーダステップの総数をrで除算し、そうすることによって、モデルサイズ、トレーニング時間、および推論時間を削減する。さらに、この技法は収束速度を実質的に増大させるが、すなわち、それは、注意機構によって学習されるように、フレームと符号化表現との間にはるかに速い(およびより安定した)整合をもたらすからである。これは、隣接音声フレームが相関され、各キャラクタが通常、複数のフレームに対応するからである。時間ステップにおいて複数のフレームを放出することにより、デコーダニューラルネットワーク118は、この品質を、トレーニング中にどのようにして効率的に符号化表現に関心を向けるかを素早く学習する、すなわち、トレーニングされるのに活用することができる。

デコーダニューラルネットワーク118は、1つまたは複数のゲート付き回帰型ユニットニューラルネットワーク層を含み得る。収束の速度を上げるために、デコーダニューラルネットワーク118は、1つまたは複数の垂直残差接続を含み得る。いくつかの実装形態では、スペクトログラムは、メル尺度スペクトログラムなど、圧縮されたスペクトログラムである。たとえば、未加工スペクトログラムではなく圧縮されたスペクトログラムを使うと、冗長性を削減することができ、そうすることによって、トレーニングおよび推論中に要する計算を削減する。

後処理ニューラルネットワーク108は、圧縮されたスペクトログラムを受信し、圧縮されたスペクトログラムを処理して、波形合成器入力を生成するように構成される。圧縮されたスペクトログラムを処理するために、後処理ニューラルネットワーク108は、CBHGニューラルネットワーク200(図2)を含む。特に、CBHGニューラルネットワーク200は、1-D畳み込みサブネットワーク、続いてハイウェイネットワーク、および続いて双方向回帰型ニューラルネットワークを含む。CBHGニューラルネットワーク200は、1つまたは複数の残差接続を含み得る。1-D畳み込みサブネットワークは、1-D畳み込みフィルタのバンク、続いて、ストライド1での時間沿い最大プーリング層を含み得る。場合によっては、双方向回帰型ニューラルネットワークは、ゲート付き回帰型ユニットニューラルネットワークである。CBHGニューラルネットワーク200については、図2を参照して以下でより詳しく説明する。

いくつかの実装形態では、後処理ニューラルネットワーク108およびシーケンスツーシーケンス回帰型ニューラルネットワーク106は、合同でトレーニングされる。すなわち、トレーニング中、システム100(または外部システム)は、同じニューラルネットワークトレーニング技法、たとえば、勾配降下ベースのトレーニング技法を使って、後処理ニューラルネットワーク108およびseq2seqネットワーク106を同じトレーニングデータセットにおいてトレーニングする。より具体的には、システム100(または外部システム)は、後処理ニューラルネットワーク108およびseq2seqネットワーク106のすべてのネットワークパラメータの現在の値を合同で調節するために、損失関数の勾配の推定値を逆伝播し得る。別々にトレーニングされるか、または事前トレーニングされる必要があり、したがって各構成要素のエラーが混合し得る構成要素を有する従来のシステムとは異なり、合同でトレーニングされる後処理ニューラルネットワーク108およびseq2seqネットワーク106を有するシステムは、より堅牢である(たとえば、より些細なエラーを有し、初めからトレーニングされ得る)。これらの利点により、実世界において見られる、非常に大量の豊富な、表現的だがしばしばノイズのあるデータでのエンドツーエンドテキスト-音声モデル150のトレーニングが可能になる。

波形合成器110は、波形合成器入力を受信し、波形合成器入力を処理して、特定の自然言語でのキャラクタの入力シーケンスの言葉の発声の波形を生成するように構成される。いくつかの実装形態では、波形合成器は、Griffin-Lim合成器である。いくつかの他の実装形態では、波形合成器はボコーダである。いくつかの他の実装形態では、波形合成器は、トレーニング可能スペクトログラム-波形インバータである。波形合成器110が波形を生成した後、サブシステム102は、波形を使って音声120を生成し、生成された音声120を、たとえば、ユーザデバイス上での再生用に与えるか、または生成された波形を、別のシステムが音声を生成し、再生することができるようにするために、別のシステムに与えればよい。いくつかの例では、WaveNetニューラルボコーダが波形合成器110と置き換わる。WaveNetニューラルボコーダは、波形合成器110によって作成された合成音声と比較して、合成音声の異なるオーディオ忠実度を与え得る。

図2は、例示的CBHGニューラルネットワーク200を示す。CBHGニューラルネットワーク200は、図1の、エンコーダCBHGニューラルネットワーク116に含まれるCBHGニューラルネットワークまたは後処理ニューラルネットワーク108に含まれるCBHGニューラルネットワークであってよい。CBHGニューラルネットワーク200は、1-D畳み込みサブネットワーク208、続いてハイウェイネットワーク212、および続いて双方向回帰型ニューラルネットワーク214を含む。CBHGニューラルネットワーク200は、1つまたは複数の残差接続、たとえば、残差接続210を含み得る。

1-D畳み込みサブネットワーク208は、1-D畳み込みフィルタのバンク204、続いて、1のストライドでの時間沿い最大プーリング層206を含み得る。1-D畳み込みフィルタのバンク204は、1-D畳み込みフィルタのK個のセットを含むことができ、ここで、第kのセットは、kの畳み込み幅を各々が有するC_k個のフィルタを含む。1-D畳み込みサブネットワーク208は、入力シーケンス202、たとえば、エンコーダpre-netニューラルネットワーク114(図1)によって生成されたキャラクタのシーケンスの変換された埋め込みを受信するように構成される。サブネットワーク208は、1-D畳み込みフィルタのバンク204を使って入力シーケンス202を処理して、入力シーケンス202の畳み込み出力を生成する。サブネットワーク208は次いで、畳み込み出力を合わせてスタックし、スタックされた畳み込み出力を、ストライド1での時間沿い最大プーリング層206を使って処理して、最大プーリングされた出力を生成する。サブネットワーク208は次いで、最大プーリングされた出力を、1つまたは複数の固定幅1-D畳み込みフィルタを使って処理して、サブネットワーク208のサブネットワーク出力を生成する。

1-D畳み込みサブネットワーク208がサブネットワーク出力を生成した後、残差接続210は、サブネットワーク出力を、元の入力シーケンス202と組み合わせて、畳み込み出力を生成するように構成される。ハイウェイネットワーク212および双方向回帰型ニューラルネットワーク214は次いで、畳み込み出力を処理して、キャラクタのシーケンスの符号化表現を生成するように構成される。特に、ハイウェイネットワーク212は、畳み込み出力を処理して、キャラクタのシーケンスの高レベル特徴表現を生成するように構成される。いくつかの実装形態では、ハイウェイネットワークは、1つまたは複数の完全接続ニューラルネットワーク層を含む。

双方向回帰型ニューラルネットワーク214は、高レベル特徴表現を処理して、キャラクタのシーケンスのシーケンシャル特徴表現を生成するように構成される。シーケンシャル特徴表現は、特定のキャラクタの周りの、キャラクタのシーケンスのローカル構造を表す。シーケンシャル特徴表現は、特徴ベクトルのシーケンスを含み得る。いくつかの実装形態では、双方向回帰型ニューラルネットワークは、ゲート付き回帰型ユニットニューラルネットワークである。

トレーニング中、1-D畳み込みサブネットワーク208の畳み込みフィルタのうちの1つまたは複数が、バッチ正規化方法を使ってトレーニングされてよく、この方法は、S. IoffeおよびC. Szegedy、「Batch normalization: Accelerating deep network training by reducing internal covariate shift」、arXiv preprint arXiv:1502.03167、2015に詳しく記載されている。いくつかの実装形態では、CBHGニューラルネットワーク200中の1つまたは複数の畳み込みフィルタは、非因果的畳み込みフィルタ、すなわち、所与の時間ステップTにおいて、両方向(たとえば、..、T-1、T-2およびT+1、T+2、...など)で周辺入力との畳み込みをつくることができる畳み込みフィルタである。対称的に、因果的畳み込みフィルタは、前の入力(...T-1、T-2、など)との畳み込みをつくることができるだけである。いくつかの他の実装形態では、CBHGニューラルネットワーク200中のすべての畳み込みフィルタは、非因果的畳み込みフィルタである。非因果的畳み込みフィルタ、バッチ正規化、残差接続、およびストライド1での時間沿い最大プーリング層の使用により、入力シーケンスに対するCBHGニューラルネットワーク200の汎化能力が向上し、したがって、テキスト-音声コンバージョンシステムが、高品質音声を生成することが可能になる。

図3は、キャラクタのシーケンスから音声を生成する方法300のための動作の例示的並びである。便宜上、プロセス300は、1つまたは複数のロケーションにある1つまたは複数のコンピュータからなるシステムによって実施されるものとして記載される。たとえば、適切にプログラムされた、テキスト-音声コンバージョンシステム(たとえば、図1のテキスト-音声コンバージョンシステム100)またはテキスト-音声コンバージョンシステムのサブシステム(たとえば、図1のサブシステム102)が、プロセス300を実施することができる。

動作302において、方法300は、システムが、特定の自然言語でのキャラクタのシーケンスを受信することを含み、動作304において、方法300は、システムが、キャラクタのシーケンスを、入力としてシーケンスツーシーケンス(seq2seq)回帰型ニューラルネットワーク106に与えて、出力として、特定の自然言語でのキャラクタのシーケンスの言葉の発声のスペクトログラムを取得することを含む。いくつかの実装形態では、スペクトログラムは、圧縮されたスペクトログラム、たとえば、メル尺度スペクトログラムである。特に、seq2seq回帰型ニューラルネットワーク106は、キャラクタのシーケンスを処理して、エンコーダpre-netニューラルネットワーク114およびエンコーダCBHGニューラルネットワーク116を含むエンコーダニューラルネットワーク112を使って、シーケンス中のキャラクタの各々のそれぞれの符号化表現を生成する。

より具体的には、キャラクタのシーケンス中の各キャラクタは、ワンホットベクトルとして表され、連続ベクトルへ埋め込まれ得る。エンコーダpre-netニューラルネットワーク114は、シーケンス中の各キャラクタのそれぞれの埋め込みを受信し、シーケンス中の各キャラクタのそれぞれの埋め込みを処理して、キャラクタの変換された埋め込みを生成する。たとえば、エンコーダpre-netニューラルネットワーク114は、非線形変換のセットを各埋め込みに適用して、変換された埋め込みを生成することができる。エンコーダCBHGニューラルネットワーク116は次いで、エンコーダpre-netニューラルネットワーク114から、変換された埋め込みを受信し、変換された埋め込みを処理して、キャラクタのシーケンスの符号化表現を生成する。

キャラクタのシーケンスの言葉の発声のスペクトログラムを生成するために、seq2seq回帰型ニューラルネットワーク106は、注意ベースデコーダ回帰型ニューラルネットワーク118を使って符号化表現を処理する。具体的には、注意ベースデコーダ回帰型ニューラルネットワーク118は、デコーダ入力のシーケンスを受信する。シーケンス中の第1のデコーダ入力は、所定の初期フレームである。シーケンス中の各デコーダ入力に対して、注意ベースデコーダ回帰型ニューラルネットワーク118は、デコーダ入力および符号化表現を処理して、スペクトログラムのr個のフレームを生成し、ここで、rは、1よりも大きい整数である。生成されたr個のフレームのうちの1つまたは複数が、シーケンス中で次のデコーダ入力として使われてよい。言い換えると、シーケンス中の各他のデコーダ入力は、シーケンス中のデコーダ入力に先行するデコーダ入力を処理することによって生成されたr個のフレームのうちの1つまたは複数である。

注意ベースデコーダ回帰型ニューラルネットワークの出力はしたがって、スペクトログラムを形成するフレームの複数のセットを含み、ここで、各セットはr個のフレームを含む。多くの場合、r個のフレームのセットの間に重複はない。r個のフレームを一度に生成することによって、注意ベースデコーダ回帰型ニューラルネットワークによって実施されるデコーダステップの総数は、r倍だけ低減され、したがってトレーニングおよび推論時間が削減される。この技法は、概して、注意ベースデコーダ回帰型ニューラルネットワークおよびシステムの収束速度および学習レートを増大させるのも助ける。

動作306において、方法300は、特定の自然言語でのキャラクタのシーケンスの言葉の発声のスペクトログラムを使って、音声を生成することを含む。いくつかの実装形態では、スペクトログラムが、圧縮されたスペクトログラムであるとき、システムは、圧縮されたスペクトログラムから波形を生成し、波形を使って音声を生成すればよい。

動作308において、方法300は、生成された音声を再生用に与えることを含む。たとえば、方法300は、生成された音声を、システムからユーザデバイス(たとえば、オーディオスピーカー)へネットワークを介して再生用に送信することによって、生成された音声を再生用に与え得る。

本明細書における実装形態は、モデルが潜在/変分埋め込みをより効果的に利用できるようにする、表現用音声合成(たとえば、韻律およびスタイルの制御および転移)のためのTTSコンバージョンシステム100に基づく、いくつかの拡張を潜在変数モデルに導入することを対象とする。潜在変数モデルの使用により、合成音声における残りの変動性を確率的にモデル化および/または直接制御することが可能になる。変動性の原因は、抑揚、強勢、リズム、およびスタイルという韻律的特性、ならびに話者およびチャネル特性を含む。発話された発声の韻律的特性は、語彙的表現(たとえば、発話された発声の転写)に存在するものを超えて、言語的、意味論的、および感情的意味を伝える。これらの特性を、ある発声から別の発声に転移させるための能力を提供すると、ユーザは、複雑な音響または言語的パラメータを手で操作する必要なく、自分自身の声を使うこと(たとえば、「このように言って」)によって、合成音声がどのように聞こえるかを制御することが可能になる。いくつかの実装形態では、方法は、変分基準エンコーダにおける再構築損失項の容量ターゲットを、基準音声の韻律を微粒レベル(たとえば、精度を優先する)でテキストの類似断片(すなわち、基準音声に近い数の音節を有するテキスト)へ、または粗粒レベル(たとえば、汎化を優先する)でテキストの任意の断片(すなわち、任意の長さおよび音節内容のテキスト)へ転移させられるように変えることを含む。

図4は、基準話者のスタイルおよび/もしくは韻律をターゲット話者へ転移させ、かつ/または入力テキストから作成された合成音声480のスタイルおよび/もしくは韻律を制御するための例示的韻律-スタイル転移モデル400を示す。転移モデル400により、ユーザは、自然音声を、特定の発話スタイルまたは韻律と、様々な、異なるが自然なやり方で合成することができる。明らかになるように、転移モデル400は、基準発声(たとえば、「このように言って」)を使うことによって、ある発声から別の発声への韻律的/スタイル特性の転移を可能にする。さらに、転移モデル400は、音声のより長いセクションに及ぶ自然な変形を与えるために、発声の韻律的であり得る理解にわたる分布から韻律的特性をランダムにサンプリングすることを可能にする。

転移モデル400は、発話スタイルの潜在表現(すなわち、変分埋め込み(z))の教師なし学習のための変分オートエンコーダ(VAE)ネットワークを含む。VAEの使用を通して変分埋め込みを学習すると、ヒューリスティックベースのシステムと比較してスタイル制御を簡素化するための、解放、スケーリング、および組合せの好ましいプロパティが提供される。転移システム400は、基準エンコーダ410と、基準オーディオ信号(X、X_ref)412を入力として受信し、出力としての基準オーディオ信号412用の変分埋め込み(z)420を決定するように構成されたエンドツーエンドTTSモデル450とを含む。TTSモデル450は、入力テキスト104を、変分埋め込み420によって指定されたスタイル/韻律を有する合成音声480(たとえば、出力オーディオ信号470(X、X_tgt))にコンバートするための、基準エンコーダ410から出力された変分埋め込み420を受信する。言い換えると、変分埋め込み420は、TTSモデル450によって作成された合成音声480が、基準エンコーダ410に入力された基準オーディオ信号412のように聞こえることを可能にする。

TTSモデル450は、エンコーダ452、注意モジュール454、デコーダ456、および合成器475を含む。いくつかの実装形態では、TTSモデル450は、図1のTTSモデル100を含む。たとえば、エンコーダ452、注意モジュール454、およびデコーダ456は集合的に、seq2seq回帰型ニューラルネットワーク106に対応してよく、合成器475は、波形合成器110またはWaveNetニューラルボコーダを含んでよい。ただし、合成器475の選択は、合成音声の、生じた韻律および/またはスタイルに影響を与えず、実際、合成音声480のオーディオ忠実度に影響するだけである。注意モジュール454は、長い発声への汎化を向上するための混合ガウスモデル(GMM)注意を含み得る。したがって、TTSモデル450のエンコーダ452は、入力テキスト104を符号化し、expではなくソフトプラス関数を使ってパラメータを計算するために注意モジュール454のGMM注意を修正するのに、CBHGニューラルネットワーク200(図2)を使えばよい。

入力テキスト104は、書記素から発音を学習するためのモデルの能力ではなく、韻律が対処されているので、テキスト正規化フロントエンドによって作成された音素入力およびレキシコンを含み得る。デコーダ456は、デコーダ回帰型ニューラルネットワーク118(図1)を含み、2に等しい削減倍数を使えばよく、そうすることによって、時間ステップごとに2つのスペクトログラムフレーム(たとえば、出力オーディオ信号470)を作成する。いくつかの例では、確率が0.1に等しいzoneoutを使う256セル長短期記憶(LSTM)の2つの層が、デコーダ456のGRUセルと置き換わり得る。他の実装形態では、TTSモデル450は、参照によってその内容全体が組み込まれている、2018年8月8日に出願された米国出願第16/058,640号において開示されている音声合成システムを含む。

変分埋め込み420は、影響および意図など、ターゲット話者の潜在状態に対応し、潜在状態は、ターゲット話者の韻律、感情、および/または発話スタイルに寄与する。本明細書で使用するように、変分埋め込み420は、スタイル情報と韻律情報の両方を含む。いくつかの例では、変分埋め込み420は、変分埋め込み420中のビットの数で容量が表される数のベクトルを含む。概して、変分埋め込み420の容量を増すと、合成音声480によって表されるターゲット話者が基準オーディオ信号412に酷似するように、合成音声480の精度が増す。したがって、高容量変分埋め込み420は、精度を優先し、話者間転移シナリオにより適している。ただし、これらの精度増大を達成することに伴う1つの欠点は、TTSモデル450によってコンバートされた入力テキスト104(すなわち、ターゲットテキスト)が、転移システム400のトレーニング中に基準テキストがTTSモデル450に入力されるための基準オーディオ信号412に対応する基準テキストに酷似しなければならないことである。本明細書で使用する限り、入力テキスト104が基準テキストに近い数の母音を含むとき、入力テキスト104は、基準テキストに酷似する。一方、変分埋め込み420の容量を減少させると、異なる入力テキスト104から合成音声480を作成するために変分埋め込み420がうまくいくように(すなわち、テキスト間転移)、変分埋め込み420の一般性が増す。したがって、低容量変分埋め込み420は、一般性を優先し、テキストにとらわれないスタイル転移により適している。

いくつかの実装形態では、基準エンコーダ410は、スタイルと韻律の両方が制御可能であり転移可能であるように、精度と一般性との間のトレードオフを釣り合わせるための条件付き依存416も受信する。基準オーディオから韻律/スタイル埋め込みを計算することだけが可能であるヒューリスティックベースのエンコーダ410とは対称的に、VAE中の基準エンコーダ410は、エンコーダ410によって以前作成された変分埋め込み420のサンプリングを可能にし、そうすることによって、韻律的およびスタイル情報のより大きい変形が、合成音声480へのコンバージョンのためにTTSモデル450に入力された入力テキスト104を表すことが可能になる。したがって、変分埋め込み420はサンプリングされ得るので、基準オーディオ信号412は、変分埋め込み420を計算するために必要とされない。当然ながら、基準エンコーダ410は、変分埋め込み420を基準オーディオ信号412(たとえば、「このように言って」)から計算することができる。後でより詳細に記載されるように、異なるスタイル/韻律情報を含む階層的断片が変分埋め込み420から分解されてよく、音声間転移シナリオにおいて基準類似とサンプリング変動性との間のトレードオフを制御するために、変分埋め込み420のこれらの階層的断片を後でサンプリングすることが可能になる。条件付き依存416は、基準オーディオ信号412を特徴づける基準/ターゲットテキストy_Tおよび/または基準オーディオ信号412を発声した話者のアイデンティティを示す基準/ターゲット話者y_Sを含む。基準/ターゲット話者y_Sは、ターゲット話者(または基準話者)のアイデンティティが話者間転移中に保存されるようにする。たとえば、基準話者が、ターゲット話者とは異なるピッチ範囲を有するとき、合成音声480は依然として、ターゲット話者のように聞こえる場合があり、それは、基準話者y_sが与えられると、適切な変分埋め込み420が基準エンコーダ410によってサンプリングされ得るからである。

入力テキスト104および条件付き依存416の基準テキストt_Tは、キャラクタシーケンスを含んでよく、基準および出力オーディオ信号412、470は、メル-周波数スペクトログラムを含み得る音響特徴に対応する。基準エンコーダ410は、ニューラルネットワークを含む。

図5を参照すると、いくつかの実装形態では、基準エンコーダ410は、参照によってその内容全体が組み込まれている「Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron」、arXiv preprint arXiv:1803.09047、2018年3月24日によって開示されている決定論的基準エンコーダ(deterministic reference encorder)500を修正する。いくつかの実装形態では、基準エンコーダ500は、基準オーディオ信号502を受信し、基準オーディオ信号502から固定長韻律埋め込みP_E550(「韻律的埋め込み」とも呼ばれる)を生成/予測するように構成される。韻律埋め込みP_E550は、音声的情報に依存しない基準オーディオ信号502の特性と、強勢、抑揚、およびタイミングなど、特異な話者特色とをキャプチャし得る。韻律埋め込みP_E550は、基準話者とは完全に異なるが、基準話者の韻律を呈する話者について合成音声が生成される韻律転移を前もって形成するための入力として使われ得る。

図示した例において、基準オーディオ信号502は、長さL_Rおよび次元D_Rを有するスペクトログラムスライスとして表され得る。基準オーディオ信号502に関連付けられたスペクトログラムスライスは、メルワープスペクトルを示し得る。図示した例において、基準エンコーダ500は、2×2ストライド、SAMEパディング、およびReLUアクティブ化をもつ3×3フィルタを各層が含む6層畳み込み層ネットワーク504を含む。バッチ正規化があらゆる層に適用され、各層の中のフィルタの数は、32、32、64、128、128のように、ダウンサンプリングの半分のレートで倍になる。単一の128幅ゲート付き回帰型ユニット(GRU-RNN)層をもつ回帰型ニューラルネットワーク510は、最終畳み込み層から出力506を受信し、予測される韻律埋め込みP_E550を出力するアクティブ化関数530が後に続く完全接続層520に適用される128次元出力512を出力する。回帰型ニューラルネットワーク510は、他のタイプの双方向回帰型ニューラルネットワークを含み得る。

基準エンコーダ500におけるアクティブ化関数530(たとえば、ソフトマックスまたはtanh)の選択は、予測される韻律埋め込みP_E550の規模を制御することによって、スタイル埋め込みS_E550に含まれる情報を制約し、学習を容易にするのを助け得る。その上、基準エンコーダ500に入力される基準オーディオ信号502の長さL_Rおよび次元D_Rの選択は、エンコーダ500によって学習される韻律の異なる様相に影響する。たとえば、ピッチトラック表現は、エンコーダがエネルギー情報を含まないので、何らかの言語における突出のモデル化を可能にしない場合があり、メル周波数ケプストラム係数(MFCC)表現は、トレーニングされる係数の数によっては少なくともある程度まで、エンコーダ410が抑揚をモデル化するのを防止し得る。

基準エンコーダ500から出力された韻律埋め込みP_E550は、合成音声を作成するための多数の異なるTTSアーキテクチャにおいて使われてよいが、シード信号(たとえば、基準オーディオ信号502)が、推論時に韻律埋め込みP_E550を作成するために必要とされる。たとえば、シード信号は、「このように言って」という基準オーディオ信号502であってよい。代替として、意図された韻律/スタイルをもつ合成音声を伝えるために、いくつかのTTSアーキテクチャが、シード信号から韻律埋め込みP_E550を出力するのに基準エンコーダ500を使うのではなく、推論時に手動スタイル埋め込み選択を使うように適応されてよい。

図5の基準エンコーダ500は、固定長韻律的埋め込みを予測するためのヒューリスティックベースモデル(非変分)に対応し、2×2ストライド、SAMEパディング、およびReLUアクティブ化をもつ3×3フィルタを各層が含む6層畳み込み層ネットワークを含む。バッチ正規化があらゆる層に適用され、各層の中のフィルタの数は、32、32、64、128、128のように、ダウンサンプリングの半分のレートで倍になる。単一の128幅ゲート付き回帰型ユニット(GRU)層をもつ回帰型ニューラルネットワークが、最終畳み込み層からの出力を受信し、ソフトマックス、tanhアクティブ化関数が後に続く完全接続層に適用される128次元出力を出力する。図4を再び参照すると、基準エンコーダ410は、基準エンコーダ410のパラメータ(すなわち、潜在変数の平均μおよび標準偏差σ)を予測するための線形アクティブ化を有する多層知覚(MLP)414をもつ図5の決定論的基準エンコーダ500のtanhボトルネック層と置き換わる「変分事後分布(variational posterior)」に対応する。使われるとき、条件付き依存416(基準テキストy_Tおよび/または基準話者y_S)は、MLP414にも入り込み得る。変動性埋め込み(z)420は、基準エンコーダ410のMLP414から出力された潜在変数の平均μおよび標準偏差σに基づく再パラメータ化を使って導出され得る。TTSモデル450のテキストエンコーダ452に入力されるエンコーダ状態は、エンコーダ452から出力された符号化シーケンス453が、注意モジュール454によって消費される、入力テキスト104と変動性埋め込み420の合計を含むように、変動性埋め込み(z)420と、入力テキスト104中のキャラクタのシーケンスとを含む。テキストエンコーダ452は、合成音声480がどのように聞こえるべきであるかについて、特定の話者を識別するターゲット話者y_Sも受信し得る。いくつかの例では、注意モジュール454は、デコーダ456の各出力ステップ用に、符号化シーケンス453を、固定長コンテキストベクトル455にコンバートして、出力オーディオ信号470を作成するように構成される。

トレーニング中、基準オーディオ信号412の転写は、TTSモデル450のエンコーダ452に入力された入力テキストシーケンス104のキャラクタのシーケンスと合致し、その結果、デコーダ456から出力された出力オーディオ信号470は、基準オーディオ信号412と一致することになる。推論中、転移システム400は、基準オーディオ信号412の転写と合致しない、異なる入力テキストシーケンス104をエンコーダ452に含めることによって、テキスト間転移を実施し得る。同様に、転移システム400は、基準オーディオ信号を発する話者とは異なる、合成音声用の話者を指定することによって、話者間転移を実施し得る。

図5は、同じまたは類似テキスト韻律転移に最適な固定長韻律埋め込みを計算するための決定論的基準エンコーダ500を示し、すなわち、コンバージョン用の入力テキストは、基準オーディオ信号の転写に近い数の音節を含む。このヒューリスティック手法では、韻律転移精度は、韻律埋め込みの次元性および非線形性の選択(tanh対ソフトマックス)によって制御される。図6を参照すると、別のヒューリスティックベースモデル600が、参照によってその内容全体が組み込まれている、「Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis」、arXiv preprint arXiv:1803.09017、2018年3月23日によって開示されるスタイルトークン層610を実装することによって、決定論的基準エンコーダ500のアーキテクチャを修正する。ここで、スタイルトークン層610は、決定論的基準エンコーダ500から出力された韻律埋め込みP_E550を受信し、韻律埋め込みP_E550を、韻律埋め込みP_E550と、ランダムに初期化された埋め込み614、614a～n(グローバルスタイルトークン(GST)またはトークン埋め込みとも呼ばれる)のバンク中の各トークン614との間の類似測度を学習するように構成された注意モジュール612への照会ベクトルとして使う。トークン埋め込みのセット(「スタイルトークン」とも呼ばれる)614は、すべてのトレーニングシーケンスにわたって共有される。したがって、注意モジュール612は、符号化韻律埋め込みP_E550への各スタイルトークン614の寄与を表す組合せ重みのセット616、616a～nを出力する。トークン埋め込みの加重和は、あらゆる時間ステップにおける条件付けのために、TTSモデル450のテキストエンコーダ(たとえば、エンコーダ452、112)に入力されるスタイル埋め込みS_E650に対応する。

推論中、TTSモデル450のテキストエンコーダは、基準オーディオ信号412なしでのスタイル制御および操作を可能にするために、特定のトークン/スタイル埋め込み614(たとえば、トークンB)を直接条件とし得る。一方、合成音声480に合成されるべき入力テキスト104とその転写が合致しない、ターゲット話者についての基準オーディオ信号412が使われるとき、スタイルトークン層610は、基準エンコーダ500から出力された韻律的埋め込みP_E550によって表される基準オーディオ信号412を条件とする。韻律的埋め込みP_E550、スタイル埋め込み650、およびトークン615は、それぞれの埋め込みの情報容量に影響を与え、これらのヒューリスティックベースモデル500、600が、転移精度(出力が基準とどれだけ酷似しているか)と一般性(埋め込みが任意のテキストとどれだけうまくいくか)との間の特定のトレードオフをターゲットとすることができるようにする。

いくつかの実装形態では、図5の決定論的基準エンコーダ500ならびに決定論的基準エンコーダ500およびスタイルトークン層610を実装する、図6のヒューリスティックベースモデル600など、ヒューリスティックベースの手法の埋め込み容量が、決定論的エンコーダ500のテスト時再構築損失を測定することによって推定される。具体的には、これらのヒューリスティックベースの手法は、それらのシーケンスツーシーケンスモデルをトレーニングし、次いで、それらのモデルを、式2(以下で表す)で表される決定論的基準エンコーダ500(g_e(x)で示される)で増強するための、式1(以下で表す)で表される教師強制再構築損失で始まり得る。式1および2は、次のように表される。
L(x,y_T,ys)≡-log p(x|y_T,ys)=||f₀(y_T,ys)-x||₁+K (1)
L'(x,y_T,ys)≡-log p(x|y_T,ys,g_e(X))=||f₀(y_T,ys,g_e(X))-x||₁+K (2)
上式で、xはオーディオスペクトログラム412であり、y_Tは入力テキスト104であり、y_Sはターゲット話者であり(複数話者モデルをトレーニングする場合)、f_θ(・)は、入力をスペクトログラム予測にマップする確定関数であり、Kは正規化定数である。教師強制は、スペクトログラムx_tを予測するとき、f_θ(・)がx_<tに依存することを含意する。l₁再構築損失が通常使われるので、尤度は、固定対角共分散およびf_θ(・)によって与えられる平均をもつラプラスランダムベクトルと等価である(実際、f_θ(・)の決定論的出力は、出力として働くが)。合成中に、基準エンコーダ500によって計算された埋め込みP_E550を異なるテキストまたは話者とペアにすることによって、転移が遂行される。

図7Aおよび図7Bを参照すると、プロット700a、700bは各々、再構築損失l₁(y軸)が、韻律埋め込みP_E550の埋め込み次元(embedding dimensionality)(x軸)、および決定論的基準エンコーダ500を使う、ヒューリスティックベースの(たとえば、非変分)韻律転移のための非線形性の選択(tanh対ソフトマックス)で変わることを示す。ここで、ソフトマックス非線形性韻律埋め込み(softmax non-linearity prosody embedding)P_E550のボトルネックは、tanh非線形性韻律埋め込み(tanh non-linearity prosody embedding)よりも厳しい。同様に、プロット700a、700bは各々、再構築損失l₁(y軸)が、ヒューリスティックベースのスタイル転移のためのスタイル埋め込みの埋め込み次元(x軸)で変わることを示す。スタイル埋め込みのより限定的ボトルネック(たとえば、スタイルトークン)は、韻律埋め込みと比較して、埋め込み容量が精度/一般性トレードオフにどのように影響を与えるかを示す。

図7Aおよび図7Bを再び参照すると、プロット700aは、異なるKL重み、すなわちβをもつ変分埋め込み420についての埋め込み次元で変動する再構築損失をさらに示し、プロット700bは、異なる容量限度、すなわちCをもつ変分埋め込み420についての埋め込み次元で変動する再構築損失をさらに示し、このことにより、容量限度は、式9を直接使ってKL項によって制御される。プロット700aは、KL重みβ=0.1を使う基準エンコーダ410が、ヒューリスティックベースの韻律転移モデルから、tanh非線形性韻律埋め込みの損失と合致する変分埋め込み420を作成し、KL重みβ=10を使って、スタイル埋め込みと類似した変分埋め込み420を作成することを示す。さらに、変分埋め込み420の容量は効果的にゼロまでつぶされるので、KL重みβ=100を使って、TTSモデル450のベースラインと非常に類似した損失をもつ変分埋め込み420を作成する。

変分埋め込みのターゲット容量を指定することによって、再構築損失測定値と埋め込み次元を比較する/突き合わせることにより決定論的基準エンコーダ500によって計算された決定論的埋め込み(韻律またはスタイル埋め込み)の容量を推定することができる。したがって、ここで、再構築損失と、計算可能/制御可能容量をもつ変分埋め込みに対する埋め込み次元関係との比較に基づいて、決定論的基準エンコーダから出力された決定論的埋め込み(基準埋め込み(reference embedding)とも呼ばれる)の容量を推定することができるので、これらの決定論的埋め込みの容量も、決定論的基準エンコーダによって計算された基準埋め込みの次元を調節することによって制御され得る。したがって、決定論的埋め込みはここで、容量を推定し、制御するのにこれらの技法を使って、精度/忠実度と一般性/転移性との間のトレードオフを設けることができる。

KL項は、埋め込み容量(式8)に対する上限に対応するので、埋め込み容量に対する特定の限度が、式9を使ってKL項を制約することによってターゲットにされ得る。たとえば、および引き続き図7Aおよび図7Bを参照すると、プロット700bは、埋め込みzが特定の次元性に達すると、再構築損失が平坦になることを示す。これにより、基準エンコーダが十分な構造容量(少なくともC)を有する限り、基準エンコーダ410は、変分埋め込み420におけるターゲット表現容量を制御することができる。いくつかの例では、変分埋め込み420は、精度と一般性との間のトレードオフを釣り合わせるための、ターゲットにされた容量の範囲を収容するために、固定長128次元埋め込みを含む。変分埋め込み420中のビットの数は、容量を表し得る。

したがって、転移システム400のトレーニング中、基準エンコーダ410から出力された変分埋め込み420の容量は、変分埋め込み420内の情報の量を制御するように、KL項に対応する上限(たとえば、変分境界)を使うことによって制御され得る。このようにして、変分埋め込み420の容量のみを制御することによって、および特定の精度/一般性ポイントをターゲットとするための、基準エンコーダのアーキテクチャのいかなる変更も要求することなく、精度と一般性との間の望ましいトレードオフが取得され得る。

図4の転移システム400を再び参照すると、本明細書における実装形態は、変分基準エンコーダ410から出力された変分埋め込み420の容量(「変分事後分布」)を、代表的相互情報に対する上限(すなわち、基準エンコーダ410の変分境界)を使って推定し、定量化することをさらに対象とする。基準エンコーダ410は、式2中の決定論的基準エンコーダ500についての再構築損失をKL項で増強して、式3(以下で表す)で表されるように、変分基準エンコーダ410、すなわちq(z|x)を、事前分布、すなわちp(z)と整合させ得る。式4(以下で表す)は、x、y_T、y_Sに対応する代表的相互情報の負の下限(負のELBO)と等価である、基準エンコーダの全体的損失を表す。式3および4は、次のように表される。
L_ELBO(x,y_T,ys)≡E_z～q(z|x)[-log p(x|z,y_T,ys)]+D_KL(q(z|x)||p(z)) (3)
-log p(x|y_T,ys)≦L_ELBO(x,y_T,ys) (4)

いくつかの例では、式3のKL項を調節すると、基準エンコーダ410の変分埋め込み420の容量が制御され、これにより、KL項は、データ、すなわちxと、潜在埋め込み、すなわちz～q(z|x)との間の相互情報に対する上限を設ける。KL項と変分埋め込み420の容量、すなわちzとの間のこの関係は、次のように表される。
R^AVG≡Ex～p_D(x)[D_KL(q(z|x)||p(z))],R≡D_KL(q(z|x)||p(z)) (5)
Iq(X;Z)≡Ex～p_D(x)[D_KL(q(z|x)||q(z))],q(z)≡Ex～p_D(x)q(z|x) (6)
R^AVG=Iq(X;Z)+D_KL(q(z)||p(z)) (7)
⇒Iq(X;Z)≦R^AVG (8)
上式で、p_D(x)はデータ分布であり、R(たとえば、「レート」)は式3のKL項であり、R^AVGは、データ分布にわたって平均されたKL項であり、I_q(X;Z)は、zの容量に対応する表現相互情報であり、q(z)(たとえば、集約された事後分布)は、データ分布にわたって周縁化されたq(z|x)である。式8中の境界は、式7、およびKL拡散の非負性から得られ、ここで、式7は、境界におけるスラックが、集約された事後分布、すなわちq(z)と、事前分布、すなわちp(z)との間のKL拡散であることを示す。いくつかの例では、R(たとえば、KL項)を下げると、事前分布によりモデルから、変分埋め込み420、すなわちzのより良好なサンプリングが得られ、というのは、デコーダ456がトレーニング中に目にするzのサンプルは、事前分布からのサンプルと実質的に類似するからである。

いくつかの実装形態では、再構築項ではなくKL項に、ラグランジュ乗数ベースの、二重オプティマイザ手法を適用することによって、変分埋め込み420の特定の容量がターゲットにされる。KL項への、ラグランジュ乗数ベースの、二重オプティマイザの適用は、次のように表され得る。

上式で、θはモデルパラメータを示し、λはラグランジュ乗数であり、Cは容量限度を示す。ソフトプラス非線形性を通して制約なしパラメータを渡すことによって、λを非負であるように制約することによって、容量制約Cは、ターゲットよりもむしろ限度/閾に対応する。結果として、最適化は、q(z)をq(z)から離すことによってKL項を増大しようとする試みを防止する。有利には、この二重オプティマイザ手法は、KL重みを手で調整するよりもはるかに冗長でなく、同時に、ターゲットKLからのl₁再構築損失偏差に直接ペナルティを課すことと比較して、より安定した最適化につながる。

変分埋め込みのターゲット容量を指定することによって、再構築損失測定値と埋め込み次元を比較する/突き合わせることにより決定論的基準エンコーダ500によって計算された決定論的埋め込み(韻律またはスタイル埋め込み)の容量を推定することができる。したがって、ここで、再構築損失と、計算可能/制御可能容量をもつ変分埋め込みに対する埋め込み次元関係との比較に基づいて、決定論的基準エンコーダから出力された決定論的埋め込み(基準埋め込みとも呼ばれる)の容量を推定することができるので、これらの決定論的埋め込みの容量も、決定論的基準エンコーダによって計算された基準埋め込みの次元を調節することによって制御され得る。したがって、決定論的埋め込みはここで、容量を推定し、制御するのにこれらの技法を使って、精度/忠実度と一般性/転移性との間のトレードオフを設けることができる。

図4を再び参照すると、いくつかの実装形態では、精度と汎化との間のトレードオフを釣り合わせるために、条件付き依存416が、基準エンコーダ410に入力される。条件付き依存416は、基準テキスト、すなわちy_T、および/または基準話者、すなわちy_Sを含む。基準話者を適用することによって、ターゲット話者とは異なるピッチ範囲を有する基準話者をターゲット話者がまねないように、ターゲット話者のアイデンティティを合成音声480に保存することができる。トレーニング中、基準テキストy_Tと、エンコーダ452に入力された入力テキストシーケンス104に関連付けられたターゲットテキストは同じである。同様に、基準話者は、トレーニング中、エンコーダ452に入力されてもよい。ただし、推論中、基準テキストとターゲットテキストは異なってよく、かつ/または基準話者とターゲット話者は異なってよい。たとえば、条件付き依存416および基準オーディオ信号412は、韻律およびスタイル情報の両方を有する変分埋め込み420を作成するために、基準エンコーダ410に入力され得る。TTSモデル450のエンコーダ452に入力された入力テキストシーケンス104は、合成音声で言われることを変えるように、基準テキストy_Tとは異なるターゲットテキストy_Tを含み得る。追加または代替として、誰が話したかを変えるように、異なるターゲット話者が、TTSモデル450のテキストエンコーダ452に入力され得る。ここで、変分埋め込み420は、ターゲットテキストおよび/またはターゲット話者とペアにされる。結果として、この変分埋め込み420は、基準オーディオ信号がないときに後でサンプリングされ得るが、条件付き依存416は、ターゲット話者と、変分埋め込み420とペアになったターゲットテキストとを突き合わせる。

図8Aを参照すると、TTSモデルのデコーダ456に対応する条件付き生成モデルが、変分埋め込みz、ターゲットテキストy_T、およびターゲット話者y_Sから出力/ターゲットオーディオ信号Xを作成する。条件付き生成モデルは、p(x|z,y_T,y_S)p(z)の形で表される。図8Bは、図8Aには存在する条件付き依存が欠けているを示す。図8Cは、図8Aの形と合致するように条件付き事後分布を含む変分事後分布(たとえば、基準エンコーダ410)を示す。ここで、図8Cの合致変分事後分布において、話者情報は、学習された話者に関する埋め込みベクトルとして表され、テキスト情報は、テキストエンコーダ452の出力を単方向RNNを通して渡すことによって、ベクトルに要約される。単純な対角ガウス分布が、近似事後分布、すなわちq(z|x;y_T;y_S)および事前分布、すなわちp(z)についての標準正規分布のために使われてよい。これらの分布は明快および効率のために選ばれるが、ガウス混合物および正規化フローなど、より強力な分布が使われてよい。

概して、変分埋め込み420は、韻律的およびスタイル情報の変動を十分に指定し、変分埋め込み420に基づく合成音声480は常に、入力テキストシーケンス104が所与のスタイル向けに表され得る無限数のやり方があっても、同じ入力テキストシーケンス104と同じに聞こえる。いくつかの実装形態では、変分埋め込みz420を階層的断片z_s、z_pに分解すると、共同容量、すなわちI_q(X:[Z_s,Z_p])が、階層的断片z_s、z_pの間でどのように分割されるかを指定することができる。いくつかの例では、階層的断片z_sは、変分埋め込みzに関連付けられたスタイル情報を表し、階層的断片z_pは、変分埋め込みzに関連付けられた韻律的情報を表す。ただし、分解された階層的断片は、本開示の範囲から逸脱することなく、他のタイプの情報を示すのに使われてよい。

式8は、容量I_q(X;Z)に対して上限を設けるKL項を示す。以下の式は、韻律的分数z_pの容量を導出するのに、次のように使われ得る。
Iq(X;[Zs,Zp])≦R^AVG (10)
Iq(X;[Zs,Zp])=Iq(X;Zp)+Iq(X;Zs|Zp)=Iq(X;Zp) (11)
⇒Iq(X;Z)≦R^AVG (12)

以下の式は、スタイル分数z_sの容量を次のように導出するのに使われ得る。

上式で、R_sは、全体的共同KL項の一部分をなす。R_p=R-R_sである場合、以下の境界は、以下を含む。

分数(たとえば、潜在変数)の間で共同容量がどのように分散されるかを指定するために、式9が、2つのラグランジュ乗数および容量ターゲットを有するように、次のように拡張される。

上式で、容量ターゲットCsはz_sの情報容量を制限し、Cpは、どれだけの容量z_pがz_sを超過するかを制限し、ここで、z_pの総容量は、Cs+Cpを限度とする。いくつかの例では、基準階層的断片z_sが、基準エンコーダ410によって基準オーディオ信号412から推論され、複数の理解をサンプリングするのに使われる。直観的に、Csが高いほど、出力は基準により似ることになり、Cpが高いほど、同じ基準階層的断片z_sに対するサンプルの間の変動は大きくなる。

図4、図9A、および図9Bを参照すると、いくつかの実装形態では、基準テキストy_Tおよび基準話者y_Sの条件付き依存416のみが、基準オーディオ信号412なしで基準エンコーダ410に入力されるとき、z_sはトレーニングモデルからサンプリングされ、z_pは、サンプリングされ、ターゲット出力オーディオXを計算するために、条件付き依存とともに図9Aのデコーダに送られる。サンプリングされたz_pは、事前分布として、条件付き依存416とペアにされる。ここで、基準テキストy_Tおよび基準話者y_Sの同じ条件付き依存416を使って、図9Bの変分基準デコーダ(変分事後分布)は、このz_pを出力し、z_sを計算するのにz_pを使うことになる。したがって、図9Aのデコーダはここで、計算されたz_s、基準テキストy_T、および基準話者y_Sを入力として使って、ターゲットオーディオ信号Xを再生成することができる。有利には、階層分数z_sは、zsによって指定される、基準エンコーダにおける変動を表し、そうすることによって、z_pの異なる容量が、異なって聞こえる所与のスタイルの合成音声を生じるようにサンプリングされ得る。したがって、z_pおよびz_sは、精度と汎化との間のトレードオフを釣り合わせるための閾に対応する。したがって、条件付き依存416を使うことによって、基準エンコーダ410によって学習される事前分布変分埋め込み420が、基準オーディオ信号412なしで音声を合成するように、および/または音声のより長いセクションに及ぶ自然な変形を与えるために、指定されたスタイルでの発声の韻律的であり得る理解にわたる分布から韻律的特性をサンプリングするようにサンプリングされ得る。

図10は、基準埋め込みの容量を推定する方法1000のための動作の例示的並びのフローチャートである。動作1002において、方法1000は、決定論的基準エンコーダ500において、基準オーディオ信号412を受信することを含み、動作1004において、方法1000は、基準オーディオ信号412に対応する基準埋め込み550、650を決定することを含む。ここで、基準埋め込み550、650は、対応する埋め込み次元を有する。

動作1006において、方法1000は、基準埋め込み550、650の対応する埋め込み次元に応じて再構築損失を測定することを含む。動作1008において、方法1000は、変分事後分布から変分埋め込み420を取得することを含む。変分埋め込み420は、対応する次元性および指定された容量を有し、指定された容量は、変分事後分布の調節可能変分境界に基づく。

動作1010において、方法1000は、変分埋め込みの対応する埋め込み次元に応じて再構築損失を測定することを含む。動作1012において、方法1000は、基準埋め込み550、650についての測定された再構築損失を、指定された容量を有する変分埋め込み420についての測定された再構築損失と比較することによって、基準埋め込み550、650の容量を推定することを含む。

図11は、変分埋め込み420の特定の容量をターゲットとする方法1100のための動作の例示的並びのフローチャートである。動作1102において、方法1100は、基準エンコーダ500によって計算される変分埋め込み420の容量に対する上限を設けるように、基準エンコーダ500のKL項を調節することを含む。KL項を調節することは、変分埋め込み420の容量を増大するようにKL項を増大すること、または変分埋め込みの容量を減少させるようにKL項を低下することを含み得る。変分埋め込みの容量を増大すると、合成音声480の精度が増し、変分埋め込み420の容量を減少させると、異なる入力テキストを合成音声480にコンバートするための変分埋め込みの一般性が増大する。いくつかの実装形態では、KL項を調節することは、ラグランジュ乗数をKL項に適用することと、容量限度を指定することとを含む。KL項を調節することは、KL項の重みを調整することを含み得る。

動作1104において、方法1100は、基準エンコーダ500において、基準オーディオ信号412を受信することを含む。動作1106において、方法1100は、基準エンコーダ500によって、基準オーディオ信号412に関連付けられた変分埋め込み420を決定することを含む。変分埋め込み420は、調節されたKL項によって設けられる上限によって境界される容量を有する。動作1108において、方法1100は、基準オーディオ信号412に関連付けられた変分埋め込み420をテキスト-音声合成モデル450に与えることを含む。ここで、テキスト-音声合成モデル450は、入力テキスト104を、基準オーディオ信号412に関連付けられた変分埋め込み420に基づく合成音声480にコンバートするように構成される。ビットの数は、変分埋め込み420の容量を表す。

図12は、合成音声が所与のスタイルに対してどのように聞こえるかを変えるように、変分埋め込み420に関連付けられた階層的断片をサンプリングする方法1200のための動作の例示的並びのフローチャートである。方法1200は、変分埋め込み420中で表される変動の指定された分数の制御を可能にして、変動の残りがテキスト-音声モデル450からサンプリングされるようにし得る。動作1202において、方法1200は、基準エンコーダ500から出力された変分埋め込み420を取得することを含み、動作1204において、方法1200は、変分埋め込みを階層的断片に分解し、変分埋め込み420、ターゲットテキスト、およびターゲット話者に基づいて合成音声480を生成することを含む。

動作1206において、方法1200は、変分埋め込み420をターゲットテキストおよびターゲット話者とペアにすることを含む。動作1208において、方法1200は、基準オーディオ信号なしで、基準エンコーダ500においてターゲットテキストおよびターゲット話者を受信することと、ターゲットテキストおよびターゲット話者とペアにされた変分埋め込みから分解された第1の階層的断片を計算することであって、第1の階層的断片は所与のスタイルを与える、こととを含む。動作1210において、方法1200は、第1の階層的断片を使って、変分埋め込み420に関連付けられた第2の階層的断片をサンプリングすることを含む。ここで、第2の階層的断片をサンプリングすることにより、同じ所与のスタイルに対して合成音声480がどのように聞こえるかが変わる。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的アプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含むが、それに限定されない。

非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

図13は、本文書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイス1300の概略図である。コンピューティングデバイス1300は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを目的としており、本文書において記載および/または請求される本発明の実装形態を限定することは目的としていない。

コンピューティングデバイス1300は、プロセッサ1310と、メモリ1320と、記憶デバイス1330と、メモリ1320および高速拡張ポート1350に接続する高速インターフェース/コントローラ1340と、低速バス1370および記憶デバイス1330に接続する低速インターフェース/コントローラ1360とを含む。構成要素1310、1320、1330、1340、1350、および1360の各々は、様々なバスを使って相互接続され、共通マザーボード上に、または必要に応じて他の方式で搭載されてよい。プロセッサ1310は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース1340に結合されたディスプレイ1380などの外部入力/出力デバイス上に表示するための、メモリ1320中または記憶デバイス1330上に記憶された命令を含む、コンピューティングデバイス1300内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使われてよい。また、複数のコンピューティングデバイス1300が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。

メモリ1320は、コンピューティングデバイス1300内に情報を非一時的に記憶する。メモリ1320は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ1320は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス1300による使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

記憶デバイス1330は、コンピューティングデバイス1300に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス1330は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス1330は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様の固体メモリデバイス、または記憶エリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上述したような1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ1320、記憶デバイス1330、またはプロセッサ1310上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ1340は、コンピューティングデバイス1300向けの帯域消費型動作を管理し、低速コントローラ1360は、より帯域低消費型の動作を管理する。役割のそのような割振りは、例示にすぎない。いくつかの実装形態において、高速コントローラ1340は、メモリ1320、ディスプレイ1380に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート1350に結合される。いくつかの実装形態において、低速コントローラ1360は、記憶デバイス1330および低速拡張ポート1390に結合される。低速拡張ポート1390は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。

コンピューティングデバイス1300は、図に示すように、いくつかの異なる形で実装されてよい。たとえば、標準サーバ1300aとして、またはラップトップコンピュータ1300bなどのサーバ1300aのグループで、またはラックサーバシステム1300cの一部として何度も実装されてよい。

本明細書に記載するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光学回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または翻訳可能な1つまたは複数のコンピュータプログラムでの実装を含むことができ、プログラム可能プロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、ならびにそれらにデータおよび命令を送信するように結合された、特殊または一般的目的であってもよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサ用の機械命令を含み、高度手続型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラム可能プロセッサに、機械命令および/またはデータを提供するのに使われる、どのコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))も指す。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するのに使われるどの信号も指す。

本明細書に記載したプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実施するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理フローは、特殊目的論理回路構成、たとえば、FPGA(フィールドプログラム可能ゲートアレイ)やASIC(特定用途向け集積回路)によって実施することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および特殊目的マイクロプロセッサの両方、ならびにどの種類のデジタルコンピュータのどの1つまたは複数のプロセッサも含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実施するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、あらゆる形の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路要素によって補完することも、その中に組み込むこともできる。

ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、随意には、ユーザがコンピュータに入力を与えることができるためのキーボードおよびポインティングデバイス、たとえば、マウスやトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を提供するのに使われることが可能であり、たとえば、ユーザに与えられるフィードバックは、どの形の感覚フィードバックでも、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからのインプットは、音響、音声、または触覚インプットを含む、どの形でも受信されることが可能である。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態を記載した。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行うことができることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内である。

100 テキスト-音声(TTS)コンバージョンシステム、TTSモデル
102 サブシステム
104 入力テキスト
105 ユーザインターフェース
106 シーケンスツーシーケンス回帰型ニューラルネットワーク、seq2seqネットワーク、seq2seq回帰型ニューラルネットワーク
108 後処理ニューラルネットワーク
110 波形合成器
112 エンコーダニューラルネットワーク、エンコーダ
114 エンコーダpre-netニューラルネットワーク
116 エンコーダCBHGニューラルネットワーク
118 注意ベースデコーダ回帰型ニューラルネットワーク、デコーダニューラルネットワーク
120 音声
150 エンドツーエンドテキスト-音声モデル
200 CBHGニューラルネットワーク
202 入力シーケンス
204 1-D畳み込みフィルタのバンク
206 時間沿い最大プーリング層
208 1-D畳み込みサブネットワーク
210 残差接続
212 ハイウェイネットワーク
214 双方向回帰型ニューラルネットワーク
300 方法、プロセス
400 韻律-スタイル転移モデル、転移システム
410 基準エンコーダ
412 基準オーディオ信号
414 多層知覚(MLP)、MLP
416 条件付き依存
420 変動性埋め込み(z)、変分埋め込み
450 エンドツーエンドTTSモデル
452 エンコーダ、テキストエンコーダ
454 注意モジュール
456 デコーダ
475 合成器
480 合成音声
500 決定論的基準エンコーダ
502 基準オーディオ信号
504 6層畳み込み層ネットワーク
506 出力
510 回帰型ニューラルネットワーク
512 128次元出力
520 完全接続層
530 アクティブ化関数
550 韻律埋め込みP_E、基準埋め込み
600 ヒューリスティックベースモデル
610 スタイルトークン層
612 注意モジュール
615 トークン
650 スタイル埋め込みS_E、スタイル埋め込み、基準埋め込み
700a プロット
700b プロット
1000 方法
1100 方法
1200 方法
1300 コンピュータシステム、コンピューティングデバイス
1300a 標準サーバ、サーバ
1300b ラップトップコンピュータ
1300c ラックサーバシステム
1310 プロセッサ、構成要素
1320 メモリ、構成要素、非一時的メモリ
1330 記憶デバイス、構成要素
1340 高速インターフェース/コントローラ、構成要素
1350 高速拡張ポート、構成要素
1360 低速インターフェース/コントローラ、構成要素
1370 低速バス
1380 ディスプレイ
1390 低速拡張ポート

Claims

埋め込み容量を推定するための方法であって、
データ処理ハードウェア上で実行する決定論的基準エンコーダにおいて、基準オーディオ信号を受信するステップと、
前記データ処理ハードウェアによって、前記基準オーディオ信号に対応する基準埋め込みを決定するステップであって、前記基準埋め込みは、対応する埋め込み次元を有する、ステップと、
前記データ処理ハードウェアによって、前記基準埋め込みの前記対応する埋め込み次元に応じて第1の再構築損失を測定するステップと、
前記データ処理ハードウェアによって、変分事後分布から変分埋め込みを取得するステップであって、前記変分埋め込みは、対応する埋め込み次元および指定された容量を有する、ステップと、
前記データ処理ハードウェアによって、前記変分埋め込みの前記対応する埋め込み次元に応じて第2の再構築損失を測定するステップと、
前記データ処理ハードウェアによって、前記基準埋め込みについての測定された前記第1の再構築損失を、前記指定された容量を有する前記変分埋め込みについての測定された前記第2の再構築損失と比較することによって前記基準埋め込みの容量を推定するステップと、
前記データ処理ハードウェアによって、前記基準埋め込みの前記推定された容量に基づいて、前記変分埋め込みの前記指定された容量を更新するステップと、
前記データ処理ハードウェアによって、更新済みの前記指定された容量を有する前記変分埋め込みをテキスト-音声(TTS)モデルに提供するステップと、
前記基準オーディオ信号に関連付けられた音声に合成されるべき入力テキストシーケンスを前記TTSモデルにおいて受信するステップと、
前記TTSモデルを用いて、前記TTSモデルに提供される更新済みの前記指定された容量を有する前記変分埋め込みに基づいて、前記入力テキストシーケンスの合成音声表現を生成するステップと
を含む、方法。
前記基準埋め込みはtanh非線形性韻律埋め込みを含む、請求項1に記載の方法。
前記基準埋め込みはソフトマックス非線形性韻律埋め込みを含む、請求項1に記載の方法。
前記基準埋め込みはスタイル埋め込みを含む、請求項1に記載の方法。
前記変分埋め込みの前記指定された容量は前記変分事後分布の調節可能変分境界に基づく、請求項1に記載の方法。
前記調節可能変分境界は調節可能KL項を含み、前記調節可能KL項は前記変分埋め込みに対して上限を設ける、請求項5に記載の方法。
前記調節可能変分境界は調整可能KL重みを含み、前記調整可能KL重みは前記変分埋め込みに対して上限を設ける、請求項5に記載の方法。
前記調節可能変分境界を増大させると、前記変分埋め込みの前記指定された容量が増大する、請求項5に記載の方法。
前記調節可能変分境界を低下させると、前記変分埋め込みの前記指定された容量が減少する、請求項5に記載の方法。
測定された前記第1および第2の再構築損失が互いと一致するとき、前記基準埋め込みの前記推定された容量は、前記変分埋め込みの前記容量と実質的に等しい、請求項1に記載の方法。
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアとを備えるシステムであって、前記メモリハードウェアは、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実施させる命令を記憶し、前記動作は、
決定論的基準エンコーダにおいて、基準オーディオ信号を受信することと、
前記基準オーディオ信号に対応する基準埋め込みを決定することであって、前記基準埋め込みは、対応する埋め込み次元を有する、ことと、
前記基準埋め込みの前記対応する埋め込み次元に応じて第1の再構築損失を測定することと、
変分事後分布から変分埋め込みを取得することであって、前記変分埋め込みは、対応する埋め込み次元および指定された容量を有する、ことと、
前記変分埋め込みの前記対応する埋め込み次元に応じて第2の再構築損失を測定することと、
前記基準埋め込みについての測定された前記第1の再構築損失を、前記指定された容量を有する前記変分埋め込みについての測定された前記第2の再構築損失と比較することによって前記基準埋め込みの容量を推定することと、
前記基準埋め込みの前記推定された容量に基づいて、前記変分埋め込みの前記指定された容量を更新することと、
更新済みの前記指定された容量を有する前記変分埋め込みをテキスト-音声(TTS)モデルに提供することと、
前記基準オーディオ信号に関連付けられた音声に合成されるべき入力テキストシーケンスを前記TTSモデルにおいて受信することと、
前記TTSモデルを用いて、前記TTSモデルに提供される更新済みの前記指定された容量を有する前記変分埋め込みに基づいて、前記入力テキストシーケンスの合成音声表現を生成することと
を含む、システム。
前記基準埋め込みはtanh非線形性韻律埋め込みを含む、請求項11に記載のシステム。
前記基準埋め込みはソフトマックス非線形性韻律埋め込みを含む、請求項11に記載のシステム。
前記基準埋め込みはスタイル埋め込みを含む、請求項11に記載のシステム。
前記変分埋め込みの前記指定された容量は前記変分事後分布の調節可能変分境界に基づく、請求項11に記載のシステム。
前記調節可能変分境界は調節可能KL項を含み、前記調節可能KL項は前記変分埋め込みに対して上限を設ける、請求項15に記載のシステム。
前記調節可能変分境界は調整可能KL重みを含み、前記調整可能KL重みは前記変分埋め込みに対して上限を設ける、請求項15に記載のシステム。
前記調節可能変分境界を増大させると、前記変分埋め込みの前記指定された容量が増大する、請求項15に記載のシステム。
前記調節可能変分境界を低下させると、前記変分埋め込みの前記指定された容量が減少する、請求項15に記載のシステム。
測定された前記第1および第2の再構築損失が互いと一致するとき、前記基準埋め込みの前記推定された容量は、前記変分埋め込みの前記容量と実質的に等しい、請求項11に記載のシステム。