JP2024510679A - 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ - Google Patents

教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ Download PDF

Info

Publication number
JP2024510679A
JP2024510679A JP2023558226A JP2023558226A JP2024510679A JP 2024510679 A JP2024510679 A JP 2024510679A JP 2023558226 A JP2023558226 A JP 2023558226A JP 2023558226 A JP2023558226 A JP 2023558226A JP 2024510679 A JP2024510679 A JP 2024510679A
Authority
JP
Japan
Prior art keywords
sequence
phoneme
embedding
representation
variational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023558226A
Other languages
English (en)
Inventor
アイザック・エリアス
ビュンハ・チュン
ジョナサン・シェン
イェ・ジア
ユ・ジャン
ヨンフイ・ウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2024510679A publication Critical patent/JP2024510679A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

非自己回帰TTSモデル(300)をトレーニングするための方法(600)は、変分埋め込み(220)と連結されたエンコードされたテキストシーケンス(219)のシーケンス表現(224)を取得するステップを含む。本方法はまた、エンコードされたテキストシーケンスによって表される音素ごとに音素持続時間(240)を予測するステップを含む。本方法はまた、予測された音素持続時間に基づいて、インターバル表現および補助アテンションコンテキスト表現を学習するステップと、インターバル表現および補助アテンションコンテキスト表現を使用して、シーケンス表現をアップサンプリングされた出力(258)にアップサンプリングするステップとを含む。本方法はまた、アップサンプリングされた出力に基づいて、エンコードされたテキストシーケンスの1つまたは複数の予測されたメル周波数スペクトログラムシーケンス(302)を生成するステップを含む。本方法はまた、予測されたメル周波数スペクトログラムシーケンスおよび基準メル周波数スペクトログラムシーケンス(202)に基づいて、最終的なスペクトログラム損失(280)を決定するステップと、最終的なスペクトログラム損失に基づいて、TTSモデルをトレーニングするステップとを含む。

Description

本開示は、教師なし並列タコトロンの非自己回帰的で制御可能なテキスト読上げに関する。
テキスト読上げ(TTS)システムはデジタルテキストをユーザに読み上げ、モバイルデバイスにおける普及が進んでいる。特定のTTSモデルは、人間のような自然に聞こえる音声を生成するために、話し方など音声の様々な態様を合成することを目的としている。TTSモデルにおける合成は、テキスト入力の異なる韻律に対して複数の音声出力が存在する可能性があるため、1対多のマッピング問題である。多くのTTSシステムは、以前の値に基づいて現在の値を予測する自己回帰モデルを利用している。自己回帰TTSモデルはテキストを合成し、非常に自然な音声出力を生成することができるが、数百回の計算が必要となるため、推論中の効率が低下する。
https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能なvan den Oord, Parallel WaveNet: Fast High-Fidelity Speech Synthesis
本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに非自己回帰テキスト読上げ(TTS)モデルをトレーニングするための動作を実施させるコンピュータ実装方法を提供する。本動作は、変分埋め込みと連結されたエンコードされたテキストシーケンスのシーケンス表現を取得するステップを含む。本動作はまた、持続時間モデルネットワークを使用して、シーケンス表現に基づいて、エンコードされたテキストシーケンスによって表される音素ごとの音素持続時間を予測するステップを含む。本動作は、予測された音素持続時間に基づいて、シーケンス表現を条件とした第1の関数を使用して、インターバル表現を学習するステップと、シーケンス表現を条件とした第2の関数を使用して、補助アテンションコンテキスト表現を学習するステップとを含む。本動作はまた、インターバル表現行列と補助アテンションコンテキスト表現を使用して、フレーム数を指定するアップサンプリングされた出力にシーケンス表現をアップサンプリングするステップを含む。本動作はまた、1つまたは複数のセルフアテンションブロックのスタックを含むスペクトログラムデコーダからの出力として、およびアップサンプリングされた出力に基づいて、エンコードされたテキストシーケンスの1つまたは複数の予測されたメル周波数スペクトログラムシーケンスを生成するステップを含む。本動作はまた、1つまたは複数の予測されたメル周波数スペクトログラムシーケンスおよび基準メル周波数スペクトログラムシーケンスに基づいて、最終的なスペクトログラム損失を決定するステップと、最終的なスペクトログラム損失に基づいてTTSモデルをトレーニングするステップとを含む。
本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、各第1の関数と第2の関数はそれぞれ、多層の知覚ベースの学習可能な関数を含む。本動作は、予測された音素持続時間および平均音素持続時間に基づいて、グローバル音素持続時間損失を決定するステップをさらに含み得る。ここで、TTSモデルをトレーニングするステップは、グローバル音素持続時間損失にさらに基づいている。いくつかの例では、最終的なスペクトログラム損失およびグローバル音素持続時間損失に基づいてTTSモデルをトレーニングするステップは、外部アライナから抽出された教師あり音素持続時間ラベルを使用せずに、音素ごとの音素持続時間を予測するために持続時間モデルネットワークをトレーニングするステップを含む。
いくつかの実装形態では、本動作は、持続時間モデルネットワークを使用して、エンコードされたテキストシーケンスによって表される音素ごとの予測された音素持続時間に基づいて、それぞれの開始境界と終了境界を生成するステップと、エンコードされたテキストシーケンスによって表される音素の数と基準メル周波数スペクトログラムシーケンスにおける基準フレームの数に基づいて、音素ごとに生成されたそれぞれの開始境界と終了境界をそれぞれのグリッド行列にマッピングするステップとをさらに含む。ここで、インターバル表現を学習するステップは、開始境界と終了境界からマッピングされたそれぞれのグリッド行列に基づき、補助アテンションコンテキストを学習するステップは、開始境界と終了境界からマッピングされたそれぞれのグリッド行列に基づく。シーケンス表現をアップサンプリングされた出力にアップサンプリングするステップは、インターバル表現行列とシーケンス表現との積を決定するステップと、インターバル表現行列と補助アテンションコンテキスト表現のアインシュタイン総和(einsum)を決定するステップと、アップサンプリングされた出力を生成するために、インターバル表現行列とシーケンス表現の積とeinsumの投影を合計するステップとを含み得る。
いくつかの実装形態では、本動作は、基準オーディオ信号および対応する入力テキストシーケンスを含むトレーニングデータを受信するステップであって、基準オーディオ信号は話された発話を含み、入力テキストシーケンスは基準オーディオ信号のトランスクリプトに対応する、ステップと、残差エンコーダを使用して、基準オーディオ信号を変分埋め込みにエンコードするステップであって、変分埋め込みが、基準オーディオ信号からスタイル/韻律情報を解きほぐす、ステップと、テキストエンコーダを使用して、入力テキストシーケンスをエンコードされたテキストシーケンスにエンコードするステップとをさらに含む。いくつかの例では、残差エンコーダは、グローバル変分オートエンコーダ(VAE)を含む。これらの例では、基準オーディオ信号を変分埋め込みにエンコードするステップは、基準オーディオ信号から基準メル周波数スペクトログラムシーケンスをサンプリングするステップと、グローバルVAEを使用して、基準メル周波数スペクトログラムシーケンスを変分埋め込みにエンコードするステップとを含む。任意で、残差エンコーダは、音素レベルのきめ細かい変分オートエンコーダ(VAE)を含み得る。ここで、基準オーディオ信号を変分埋め込みにエンコードするステップは、基準オーディオ信号から基準メル周波数スペクトログラムシーケンスをサンプリングするステップと、基準メル周波数スペクトログラムシーケンスを、入力テキストシーケンスから抽出された音素のシーケンスにおける各音素と位置合わせするステップと、音素レベルのきめ細かいVAEを使用して、および基準メル周波数スペクトログラムシーケンスを音素のシーケンスにおける各音素と位置合わせすることに基づいて、音素レベルの変分埋め込みのシーケンスをエンコードするステップとを含む。
残差エンコーダは、軽量畳み込み(LConv)ブロックのスタックを含み、LConvブロックのスタックにおける各LConvブロックは、ゲート線形ユニット(GLU)層と、GLU層の出力を受信するように構成されたLConv層と、LConv層の出力をGLU層への入力と連結するように構成された残余接続と、LConv層の出力をGLU層への入力と連結する残余接続を入力として受信するように構成された最終フィードフォワード層とを含み得る。いくつかの実装形態では、本動作は、エンコードされたテキストシーケンス、変分埋め込み、および基準オーディオ信号を発した基準話者の識別を表す基準話者埋め込みを連結するステップと、入力として、エンコードされたテキストシーケンス、変分埋め込み、および基準話者埋め込みの連結を受信する持続時間モデリングネットワークに基づいて、シーケンス表現を生成するステップとをさらに含む。いくつかの例では、入力テキストシーケンスは音素のシーケンスを含む。これらの例では、入力テキストシーケンスをエンコードされたテキストシーケンスにエンコードするステップは、音素ルックアップテーブルから、音素のシーケンスにおける各音素のそれぞれの埋め込みを受け取るステップと、音素のシーケンスにおける音素ごとに、テキストエンコーダのエンコーダプレネットニューラルネットワークを使用して、音素のそれぞれの変換された埋め込みを生成するために、それぞれの埋め込みを処理するステップと、畳み込みブロックのバンクを使用して、畳み込み出力を生成するために、それぞれの変換された埋め込みを処理するステップと、セルフアテンションブロックのスタックを使用して、エンコードされたテキストシーケンスを生成するために、畳み込み出力を処理するステップとを含む。任意で、セルフアテンションブロックのスタックにおける各セルフアテンションブロックは、同一の軽量畳み込み(LConv)ブロックを含む。セルフアテンションブロックのスタックにおける各セルフアテンションブロックは、同一のトランスフォーマブロックを含む。
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実施させる命令を記憶するメモリハードウェアとを含む、非自己回帰テキスト読上げ(TTS)モデルをトレーニングするためのシステムを提供する。本動作は、変分埋め込みと連結されたエンコードされたテキストシーケンスのシーケンス表現を取得するステップを含む。本動作はまた、持続時間モデルネットワークを使用して、シーケンス表現に基づいて、エンコードされたテキストシーケンスによって表される音素ごとの音素持続時間を予測するステップを含む。本動作は、予測された音素持続時間に基づいて、シーケンス表現を条件とした第1の関数を使用して、インターバル表現を学習するステップと、シーケンス表現を条件とした第2の関数を使用して、補助アテンションコンテキスト表現を学習するステップとを含む。本動作はまた、インターバル表現行列と補助アテンションコンテキスト表現を使用して、フレーム数を指定するアップサンプリングされた出力にシーケンス表現をアップサンプリングするステップを含む。本動作はまた、1つまたは複数のセルフアテンションブロックのスタックを含むスペクトログラムデコーダからの出力として、およびアップサンプリングされた出力に基づいて、エンコードされたテキストシーケンスの1つまたは複数の予測されたメル周波数スペクトログラムシーケンスを生成するステップを含む。本動作はまた、1つまたは複数の予測されたメル周波数スペクトログラムシーケンスおよび基準メル周波数スペクトログラムシーケンスに基づいて、最終的なスペクトログラム損失を決定するステップと、最終的なスペクトログラム損失に基づいてTTSモデルをトレーニングするステップとを含む。
本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、各第1の関数と第2の関数はそれぞれ、多層の知覚ベースの学習可能な関数を含む。本動作は、予測された音素持続時間および平均音素持続時間に基づいて、グローバル音素持続時間損失を決定するステップをさらに含み得る。ここで、TTSモデルをトレーニングするステップは、グローバル音素持続時間損失にさらに基づいている。いくつかの例では、最終的なスペクトログラム損失およびグローバル音素持続時間損失に基づいてTTSモデルをトレーニングするステップは、外部アライナから抽出された教師あり音素持続時間ラベルを使用せずに、音素ごとの音素持続時間を予測するために持続時間モデルネットワークをトレーニングするステップを含む。
いくつかの実装形態では、本動作は、持続時間モデルネットワークを使用して、エンコードされたテキストシーケンスによって表される音素ごとの予測された音素持続時間に基づいて、それぞれの開始境界と終了境界を生成するステップと、エンコードされたテキストシーケンスによって表される音素の数と基準メル周波数スペクトログラムシーケンスにおける基準フレームの数に基づいて、音素ごとに生成されたそれぞれの開始境界と終了境界をそれぞれのグリッド行列にマッピングするステップとをさらに含む。ここで、インターバル表現を学習するステップは、開始境界と終了境界からマッピングされたそれぞれのグリッド行列に基づき、補助アテンションコンテキストを学習するステップは、開始境界と終了境界からマッピングされたそれぞれのグリッド行列に基づく。シーケンス表現をアップサンプリングされた出力にアップサンプリングするステップは、インターバル表現行列とシーケンス表現との積を決定するステップと、インターバル表現行列と補助アテンションコンテキスト表現のアインシュタイン総和(einsum)を決定するステップと、アップサンプリングされた出力を生成するために、インターバル表現行列とシーケンス表現の積とeinsumの投影を合計するステップとを含み得る。
いくつかの実装形態では、本動作は、基準オーディオ信号および対応する入力テキストシーケンスを含むトレーニングデータを受信するステップであって、基準オーディオ信号は話された発話を含み、入力テキストシーケンスは基準オーディオ信号のトランスクリプトに対応する、ステップと、残差エンコーダを使用して、基準オーディオ信号を変分埋め込みにエンコードするステップであって、変分埋め込みが、基準オーディオ信号からスタイル/韻律情報を解きほぐす、ステップと、テキストエンコーダを使用して、入力テキストシーケンスをエンコードされたテキストシーケンスにエンコードするステップとをさらに含む。いくつかの例では、残差エンコーダは、グローバル変分オートエンコーダ(VAE)を含む。これらの例では、基準オーディオ信号を変分埋め込みにエンコードすることは、基準オーディオ信号から基準メル周波数スペクトログラムシーケンスをサンプリングすることと、グローバルVAEを使用して、基準メル周波数スペクトログラムシーケンスを変分埋め込みにエンコードすることとを含む。任意で、残差エンコーダは、音素レベルのきめ細かい変分オートエンコーダ(VAE)を含み得る。ここで、基準オーディオ信号を変分埋め込みにエンコードすることは、基準オーディオ信号から基準メル周波数スペクトログラムシーケンスをサンプリングすることと、基準メル周波数スペクトログラムシーケンスを、入力テキストシーケンスから抽出された音素のシーケンスにおける各音素と位置合わせすることと、音素レベルのきめ細かいVAEを使用して、および基準メル周波数スペクトログラムシーケンスを音素のシーケンスにおける各音素と位置合わせすることに基づいて、音素レベルの変分埋め込みのシーケンスをエンコードすることとを含む。
残差エンコーダは、軽量畳み込み(LConv)ブロックのスタックを含み、LConvブロックのスタックにおける各LConvブロックは、ゲート線形ユニット(GLU)層と、GLU層の出力を受信するように構成されたLConv層と、LConv層の出力をGLU層への入力と連結するように構成された残余接続と、LConv層の出力をGLU層への入力と連結する残余接続を入力として受信するように構成された最終フィードフォワード層とを含み得る。いくつかの実装形態では、本動作は、エンコードされたテキストシーケンス、変分埋め込み、および基準オーディオ信号を発した基準話者の識別を表す基準話者埋め込みを連結するステップと、入力として、エンコードされたテキストシーケンス、変分埋め込み、および基準話者埋め込みの連結を受信する持続時間モデリングネットワークに基づいて、シーケンス表現を生成するステップとをさらに含む。いくつかの例では、入力テキストシーケンスは音素のシーケンスを含む。これらの例では、入力テキストシーケンスをエンコードされたテキストシーケンスにエンコードすることは、音素ルックアップテーブルから、音素のシーケンスにおける各音素のそれぞれの埋め込みを受け取ることと、音素のシーケンスにおける音素ごとに、テキストエンコーダのエンコーダプレネットニューラルネットワークを使用して、音素のそれぞれの変換された埋め込みを生成するために、それぞれの埋め込みを処理することと、畳み込みブロックのバンクを使用して、畳み込み出力を生成するために、それぞれの変換された埋め込みを処理することと、セルフアテンションブロックのスタックを使用して、エンコードされたテキストシーケンスを生成するために、畳み込み出力を処理することとを含む。任意で、セルフアテンションブロックのスタックにおける各セルフアテンションブロックは、同一の軽量畳み込み(LConv)ブロックを含む。セルフアテンションブロックのスタックにおける各セルフアテンションブロックは、同一のトランスフォーマブロックを含む。
本開示の1つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
テキスト発話のスペクトログラムを予測する非自己回帰TTSモデルを提供するためにディープニューラルネットワークをトレーニングするための例示的なシステムを示す図である。 非自己回帰TTSモデルをトレーニングする非自己回帰ニューラルネットワークの概略図である。 図2の非自己回帰ディープニューラルネットワークによってトレーニングされた、トレーニングされた非自己回帰TTSモデルを実行する概略図である。 例示的な畳み込みブロックの概略図である。 例示的な軽量畳み込みブロックの概略図である。 非自己回帰テキスト読上げモデルをトレーニングするためのコンピュータ実装方法の動作の例示的な構成のフローチャートである。 本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
様々な図面における同様の参照記号は同様の要素を示している。
現実的な人間の音声の合成は、同じテキスト入力に無数の妥当な音声認識が含まれるという点で未確定の問題である。エンドツーエンドのニューラルネットワークベースの手法は、アシスタントのような短い発話については人間のパフォーマンスに匹敵するように進歩しているが、ニューラルネットワークモデルは、洗練された言語表現または音声表現に作用する複数の処理ステップを含む従来のモデルに比べて、解釈や制御が難しいと見なされることもある。音声における変動の原因は、イントネーション、強勢、リズム、スタイルの韻律特性、ならびに話者およびチャネルの特性を含む。話された発話の韻律的特徴は、語彙表現(たとえば、話された発話のトランスクリプト)に存在するものを超えて、言語的、意味論的、および感情的な意味を伝える。
ニューラルネットワークは、受信した入力に対する出力を予測するために1つまたは複数の非線形ユニットの層を使用する機械学習モデルである。たとえば、ニューラルネットワークベースのエンドツーエンドのテキスト読上げ(TTS)モデルは、入力テキストを出力音声に変換し得る。ニューラルネットワークTTSモデルは、テキスト入力によって提供されない韻律に対応する言語要素を予測することによって、音声を堅牢に合成する可能性を提供する。その結果、オーディオブックのナレーション、ニュースリーダ、声のデザインソフトウェア、および会話アシスタントなどの多くのアプリケーションで、単調ではなくリアルに聞こえる合成音声を生成することができる。
多くのニューラルエンドツーエンドTTSモデルは、以前の値に基づいて現在の値を予測する自己回帰モデルを利用している。たとえば、多くの自己回帰モデルは、現在のタイムステップにおける出力を計算する際に、前のタイムステップからのネットワークの内部状態の一部またはすべてを使用するリカレントニューラルネットワークに基づいている。リカレントニューラルネットワークの例は、1つまたは複数のLSTMメモリブロックを含むロングショートターム(LSTM)ニューラルネットワークである。各LSTMメモリブロックは、入力ゲート、忘却ゲート、およびたとえば現在の活性化を生成する際に使用するため、またはLSTMニューラルネットワークの他のコンポーネントに提供されるためにセルがセルの前の状態を記憶できるようにする出力ゲートをそれぞれ含む1つまたは複数のセルを含むことができる。
自己回帰TTSモデルはテキストを合成し、非常に自然な音声出力を生成することができるが、ソフトアテンションを備えた一連の一方向LSTMベースのデコーダブロックを通じたアーキテクチャは、完全なフィードフォワードアーキテクチャと比較して、最新の並列ハードウェアに実装するとトレーニングと推論の両方の効率が本質的に低くしてしまう。さらに、自己回帰モデルはタイムステップごとにグラウンドトゥルースラベルを適用することによって教師強制を介してトレーニングされるため、自己回帰モデルはさらに、トレーニングと、トレーニングされたモデルが推論中に適用される時期との間に不一致が生じる傾向がある。ソフトアテンションメカニズムと合わせて、これらの不一致は、喃語、早期のカットオフ、単語の繰返し、および単語のスキップなどの堅牢性エラーを示す合成音声などの、品質の低下した合成音声出力につながる可能性がある。自己回帰TTSモデルにおける合成音声の品質の低下は、合成テキストのサイズが増加するにつれてさらに悪化する可能性がある。
自己回帰ベースのTTSモデルの前述の欠点を軽減するために、本明細書の実装形態は、変分オートエンコーダ(VAE)ベースの残差エンコーダを用いて強化された非自己回帰ニューラルTTSモデルを対象とする。明らかになるように、VAEベースの残差エンコーダは、合成される入力テキスト(たとえば、音素シーケンス)によって表現できないスタイル/韻律情報、または基準オーディオ信号を話した話者の話者識別子(ID)などの残差情報を伝える基準オーディオ信号から潜在表現/状態を解きほぐすことができる。つまり、潜在表現により、TTSモデルによって生成された出力合成音声が、残差エンコーダに入力された基準オーディオ信号のように聞こえることが可能になる。
VAEベースの残差エンコーダを用いて強化された非自己回帰ニューラルTTSモデルは、入力テキスト発話のメルスペクトル情報(たとえば、予測されたメル周波数スペクトログラムシーケンス)を予測するための制御可能なモデルを提供し、同時に、メルスペクトル情報において表される韻律/スタイルを効果的に制御する。たとえば、テキスト発話を表現力豊かな音声に合成するための意図された韻律/スタイルを表現するために、VAEベースの残差エンコーダによって学習された選択された変分埋め込みを使用し、TTSモデルのスペクトログラムデコーダは、テキスト発話のメル周波数スペクトログラムを予測して、そのメル周波数スペクトログラムを、意図された韻律/スタイルを有する合成音声を示す時間領域オーディオ波形に変換するための合成器(たとえば、波形合成器またはボコーダネットワーク)への入力として提供し得る。明らかになるように、非自己回帰TTSモデルは、サンプル入力テキストシーケンスと、人間の音声のみの対応する基準メル周波数スペクトログラムシーケンスにおいてトレーニングされるため、トレーニングされたTTSモデルは、入力テキスト発話を、学習された事前変分埋め込みによって伝えられる意図された韻律/スタイルを有するメル周波数スペクトログラムシーケンスに変換することができる。
図1は、非自己回帰ニューラルTTSモデル(または、単に「TTSモデル」)300を提供するためにVAEベースの残差エンコーダ180を用いて強化されたディープニューラルネットワーク200をトレーニングすることと、TTSモデル300を使用してテキスト発話320のスペクトログラム(すなわち、メル周波数スペクトログラムシーケンス)302を予測することとを行うための例示的なシステム100を示している。システム100は、データ処理ハードウェア122と、データ処理ハードウェア122と通信し、データ処理ハードウェア122に動作を実施させる命令を記憶するメモリハードウェア124とを有するコンピューティングシステム120を含む。いくつかの実装形態では、トレーニングされたTTSモデル300を実行するコンピューティングシステム120(たとえば、データ処理ハードウェア122)またはユーザコンピューティングデバイス10は、入力テキスト発話320の口頭表現として聴覚的に出力され得る合成音声152を示す時間領域オーディオ波形に変換するために、入力テキスト発話320からTTSモデル300によって予測された予測されたメル周波数スペクトログラム302を合成器155に提供する。時間領域オーディオ波形は、時間の経過に伴うオーディオ信号の振幅を定義するオーディオ波形を含む。合成器155は、時間領域オーディオ波形に変換するために、メル周波数スペクトログラムに基づいて別個にトレーニングおよび条件付けされ得る。
メル周波数スペクトログラムは、音の周波数領域表現を含む。メル周波数スペクトログラムは、音声明瞭度にとって重要な低周波数を強調する一方で、摩擦音やその他のノイズバーストによって支配され、一般に高忠実度でモデル化する必要のない高周波数を強調しない。合成器155は、メル周波数スペクトログラムを受信することと、メル周波数スペクトログラムに基づいてオーディオ出力サンプル(たとえば、時間領域オーディオ波形)を生成することとを行うように構成された任意のネットワークを含み得るボコーダニューラルネットワークを含み得る。たとえば、ボコーダネットワーク155は、https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能なvan den Oord, Parallel WaveNet: Fast High-Fidelity Speech Synthesisにおいて説明されている並列フィードフォワードニューラルネットワークに基づくことができ、これは参照により本明細書に組み込まれる。あるいは、ボコーダネットワーク155は自己回帰ニューラルネットワークであってもよい。合成器155は、グリフィンリム合成器またはトレーニング可能なスペクトログラム/波形インバータなどの波形合成器を含み得る。合成器155の選択は、合成音声152の結果として得られる韻律/スタイルには影響を与えず、実際には、合成音声152のオーディオ忠実度にのみ影響する。
入力テキスト発話320には、合成音声152の所望の韻律/スタイルを導くためのコンテキスト、意味論、および語用論を伝える方法がないため、TTSモデル300は、変分埋め込み220によって指定された意図された韻律/スタイルを伝えるテキスト発話320のメル周波数スペクトログラム302を予測するために、意図された韻律/スタイルを指定する潜在変数として変分埋め込み220を適用し得る。いくつかの例では、コンピューティングシステム120は、TTSモデル300を実装する。ここで、ユーザは、ユーザコンピューティングデバイス10を通じてTTSモデル300にアクセスして、変分埋め込み220によって指定された意図された韻律/スタイルを有する表現力豊かな音声152に合成するために、TTSモデル300に入力テキスト発話320を提供し得る。変分埋め込み220はユーザによって選択され、残差エンコーダ180からサンプリングされた以前の変分埋め込み220に対応し得る。変分埋め込み220は、意図された韻律/スタイルを用いて話す話者を識別する話者識別子(ID)を(すなわち、ユーザコンピューティングデバイス10上で実行されるインターフェースを通じて)提供することによってユーザが選択し得る話者ごとの変分埋め込み220であってもよい。ここで、各話者IDは、残差エンコーダ180によって事前に学習されたそれぞれの話者ごとの変分埋め込み220にマッピングし得る。追加または代替として、ユーザは、それぞれの韻律/スタイルに関連付けられる特定のバーチカルを指定する入力を提供することができる。ここで、異なるバーチカル(たとえば、ニュースキャスタ、スポーツキャスタなど)は、それぞれ、そのバーチカルに関連付けられるそれぞれの韻律/スタイルを伝える残差エンコーダ180によって事前に学習されたそれぞれの変分埋め込み220にマッピングし得る。これらの例では、合成器155は、コンピューティングシステム120またはユーザコンピューティングデバイス10上に常駐し得る。合成器155がコンピューティングシステム120上に常駐している場合、コンピューティングシステム120は、可聴再生のために、合成音声152を表す時間領域オーディオ波形をユーザコンピューティングデバイス10に送信し得る。他の例では、ユーザコンピューティングデバイス10は、TTSモデル300を実装する。コンピューティングシステムは、分散システム(たとえば、クラウドコンピューティング環境)を含み得る。
いくつかの実装形態では、ディープニューラルネットワーク200は、基準オーディオ信号201の大規模なセットにおいてトレーニングされる。各基準オーディオ信号201には、マイクによって記録され、韻律/スタイル表現を有する、人間の音声の話された発話を含み得る。トレーニング中、ディープニューラルネットワーク200は、同じ話された発話に対して、韻律/スタイルが異なる複数の基準オーディオ信号201を受信し得る(すなわち、同じ発話が複数の異なる方法で話される可能性がある)。ここで、基準オーディオ信号201は、内容が同じであっても、話された発話の長さが異なる可変長信号である。ディープニューラルネットワーク200はまた、基準オーディオ信号201の複数のセットを受信し得、各セットは、同じそれぞれの話者によって話された同様の韻律/スタイルを有するが、異なる言語内容を伝える発話に対する基準オーディオ信号201を含む。VAEベースの残差エンコーダ180を用いて増強されたディープニューラルネットワーク200は、各基準オーディオ信号201に関連付けられる韻律/スタイル表現を対応する変分埋め込み220にエンコード/圧縮するように構成されている。変分埋め込み220は、固定長の変分埋め込み220を含み得る。ディープニューラルネットワーク200は、各変分埋め込み220を、変分埋め込み220に関連付けられる基準オーディオ信号201を発した基準話者の話者アイデンティティ205(図2)を表す、対応する話者埋め込みysとともに(たとえば、コンピューティングシステム120のメモリハードウェア124上で)ストレージ185に記憶し得る。変分埋め込み220は、同じ話者によって話された基準オーディオ信号201から残差エンコーダ180によってエンコードされた複数の変分埋め込み220の集合体(たとえば、平均)を含む話者ごとの変分埋め込みであってもよい。
推論中、コンピューティングシステム120またはユーザコンピューティングデバイス10は、テキスト発話320のメル周波数スペクトログラムシーケンス302を予測するために、トレーニングされたTTSモデル300を使用し得る。TTSモデル300は、テキスト発話320の意図された韻律/スタイルを表す変分埋め込み220をストレージ185から選択し得る。ここで、変分埋め込み220は、VAEベースの残差エンコーダ180からサンプリングされた以前の変分埋め込み220に対応し得る。TTSモデル300は、選択された変分埋め込み220を使用して、テキスト発話320のメル周波数スペクトログラムシーケンス302を予測し得る。図示される例では、合成器155は、変分埋め込み220によって指定された意図された韻律/スタイルを有する合成音声152を生成するために、予測されたメル周波数スペクトログラムシーケンス302を使用する。
非限定的な例では、個人は、特定の話者に関連付けられる韻律/スタイル表現を伝える話者ごとの変分埋め込みを学習するために、ディープニューラルネットワーク200をトレーニングし得る。たとえば、Techmeme Ride HomeポッドキャストのホストであるBrian McCulloughは、基準オーディオ信号201のトランスクリプトに対応する入力テキストシーケンス206とともに、ポッドキャストの前のエピソードを含む基準オーディオ信号201に関してディープニューラルネットワーク200をトレーニングすることができる。トレーニング中に、VAEベースの残差エンコーダ180は、Ride HomeポッドキャストをナレーションするBrianの韻律/スタイルを表す話者ごとの変分埋め込み220を学習し得る。次いで、Brianは、Ride Homeポッドキャストの新しいエピソードのトランスクリプトに対応するテキスト発話320のメル周波数スペクトログラムシーケンス302を予測するために、この話者ごとの変分埋め込み220を、(コンピューティングシステム120またはユーザコンピューティングデバイス10上で実行される)トレーニングされたTTSモデル300によって使用するために適用することができる。予測されたメル周波数スペクトログラムシーケンス302は、Brianの話者ごとの変分埋め込み220によって指定されるBrianの独特の韻律/スタイルを有する合成音声152を生成するために、合成器155への入力として提供され得る。すなわち、結果として得られる合成音声152は、Brianの声と全く同じように聞こえ、Ride HomeポッドキャストのエピソードをナレーションするためのBrianの韻律/スタイルを備えている可能性がある。したがって、新しいエピソードを放送するために、Brianは、Ride Homeポッドキャストの忠実なリスナ(ミュータントポッドキャストアーミー(Mutant Podcast Army)とも呼ばれる)にストリーミングされ得る合成音声152を生成するために、エピソードのトランスクリプトを提供し、トレーニングされたTTSモデル300を使用するだけでよい。
図2は、非自己回帰TTSモデル300をトレーニングするための非自己回帰ニューラルネットワーク(たとえば、図1のディープニューラルネットワーク)200を示している。ディープニューラルネットワーク200は、VAEベースの残差エンコーダ180、テキストエンコーダ210、持続時間モデルネットワーク230、およびスペクトログラムデコーダ260を含む。ディープニューラルネットワーク200は、複数の基準オーディオ信号201および対応する入力テキストシーケンス206を含むトレーニングデータに基づいてトレーニングされ得る。各基準オーディオ信号201は人間の音声の話された発話を含み、対応する入力テキストシーケンス206は、基準オーディオ信号201の転写に対応する。図示される例では、VAEベースの残差エンコーダ180は、基準オーディオ信号201を変分埋め込み220(z)にエンコードするように構成されている。具体的には、残差エンコーダ180は、基準オーディオ信号201からサンプリングされた基準メル周波数スペクトログラムシーケンス202を受信し、基準メル周波数スペクトログラムシーケンス202を変分埋め込み220にエンコードし、それによって、変分埋め込み220は、人間の音声の話された発話に対応する基準オーディオ信号201からスタイル/韻律情報を解きほぐす。したがって、変分埋め込み220は、基準話者の韻律、感情、および/または話し方に寄与する感情および意図などの、基準話者の潜在状態に対応する。本明細書で使用されるように、変分埋め込み220は、スタイル情報と韻律情報の両方を含む。いくつかの例では、変分埋め込み220は、変分埋め込み220内のビット数によって表される容量を有する数値のベクトルを含む。基準オーディオ信号201からサンプリングされた基準メル周波数スペクトログラムシーケンス202は、長さLRおよび寸法DRを有し得る。本明細書で使用されるように、基準メル周波数スペクトログラムシーケンス202は、基準オーディオ信号201からサンプリング/抽出された複数の固定長の基準メル周波数スペクトログラムフレームを含む。各基準メル周波数スペクトログラムフレームは、5ミリ秒の持続時間を含み得る。
VAEベースの残差エンコーダ180は、話し方の潜在表現(すなわち、変分埋め込み(z))の教師なし学習を可能にする事後ネットワークに対応する。VAEネットワークを使用して変分埋め込みを学習すると、ヒューリスティックベースのシステムと比較して、スタイル制御を簡素化するための、もつれの解消、スケーリング、および組合せの有利な特性が得られる。ここでは、残差エンコーダ180は、修正線形ユニット(ReLU)410を有する投影層と、マルチヘッドアテンションを有する軽量畳み込み(LConv)ブロック420のスタックとを含む、音素レベルのきめの細かいVAEネットワークを含む。音素レベルのきめの細かいVAEネットワーク180は、入力テキストシーケンス206内の各音素に関連付けられる基準メル周波数スペクトログラムシーケンス202からのスペクトログラムフレームを、それぞれの音素レベルの変分埋め込み220にエンコードするように構成されている。より具体的には、音素レベルのきめの細かいVAEネットワークは、基準メル周波数スペクトログラムシーケンス202を、入力テキストシーケンス206から抽出された音素のシーケンスにおける各音素と位置合わせし得、音素レベルの変分埋め込み220のシーケンスをエンコードし得る。したがって、音素レベルのきめの細かいVAEネットワーク180によってエンコードされた音素レベルの変分埋め込み220のシーケンスにおける各音素レベルの変分埋め込み220は、入力テキストシーケンス206から抽出された音素のシーケンスにおけるそれぞれの音素を含む基準メル周波数スペクトログラムシーケンス202からの1つまたは複数のスペクトログラムフレームのそれぞれのサブセットをエンコードする。音素レベルのきめの細かいVAEネットワーク180は、最初に、基準メル周波数スペクトログラムシーケンス202を、基準メル周波数スペクトログラムシーケンス202に関連付けられる発話を話した話者を表す話者埋め込みysと、入力テキストシーケンス206から抽出された音素のシーケンスにおける音素ごとの音素位置情報を示す正弦波位置埋め込み214とに連結し得る。いくつかの例では、残差エンコーダ180は、正弦波位置埋め込み214の代わりに位置埋め込み(図示せず)を含む。各正弦波位置埋め込み214は、入力テキストシーケンス206から抽出された音素のシーケンスにおけるそれぞれの音素の特定の位置についての情報を含む固定長ベクトルを含み得る。続いて、この連結は、テキストエンコーダ210から出力される、層正規化されたエンコードされたテキストシーケンス219を用いてアテンションを計算するために、5つの8ヘッドの17×1のLConvブロック420のスタックに適用される。
図5は、ゲート線形ユニット(GLU)層502、GLU層502の出力を受信するように構成されたLConv層504、およびフィードフォワード(FF)層506を有する例示的なLConvブロック(たとえば、LConvブロック420のスタック)の概略図500を示している。例示的なLConvブロック500はまた、LConv層504の出力をGLU層502への入力と連結するように構成された第1の残余接続508(たとえば、第1の連結器508)を含む。FF層506は、LConv層504の出力をGLU層502への入力と連結する第1の残留接続508を入力として受信するように構成されている。例示的なLConvブロック500はまた、FF層506の出力を第1の残余接続508と連結するように構成された第2の残余接続510(たとえば、第2の連結器510)を含む。例示的なLConvブロック500は、構造ReLU(W1X+b1)W2+b2を使用してFF層506においてFFミキシングを実施し得、ここで、W1は次元を4倍に増加させる。
他の実装形態では、VAEベースの残差エンコーダ180は、図2に示される音素レベルのきめの細かいVAEネットワークの代わりに非自己回帰ディープニューラルネットワーク200が採用し得るグローバルVAEネットワークを含む。グローバルVAEネットワークが、基準メル周波数スペクトログラムシーケンス202を発話レベルでグローバル変分埋め込み220にエンコードする。ここでは、グローバルVAEネットワークは、それぞれがマルチヘッドアテンションを有する軽量畳み込み(LConv)ブロックの2つのスタックを含む。グローバルVAEネットワーク180の第1のスタックおよび第2のスタックにおける各LConvブロックは、8つのヘッドを含み得る。いくつかの例では、LConvブロックの第1のスタックは、3つの17×1のLConvブロックを含み、第1のスタックに続くLConvブロックの第2のスタックは、3×1の畳み込みを用いてインターリーブされた5つの17×1のLConvブロックを含む。LConvブロックの2つのスタックのこの構成により、グローバルVAEネットワーク180は、最終的なグローバル変分埋め込み220を取得するためにグローバル平均プーリングを適用する前に、潜在表現を連続的にダウンサンプリングできるようになる。投影層は、LConvブロックの第2のスタックから出力されるグローバル変分埋め込み220の次元を投影し得る。たとえば、LConvブロックの第2スタックから出力されるグローバル変分埋め込み220は8つの次元を有し得、投影層はその次元を32に投影し得る。
引き続き図2を参照すると、テキストエンコーダ210は、入力テキストシーケンス206をテキストエンコーディングシーケンス219にエンコードする。テキストエンコーディングシーケンス219は、入力テキストシーケンス206から抽出された音声単位(たとえば、音素)のシーケンスのエンコードされた表現を含む。入力テキストシーケンス206は、それぞれが1つまたは複数の音素、すべての単語境界における沈黙、および句読点を持つ単語を含み得る。したがって、入力テキストシーケンス206は音素のシーケンスを含み、テキストエンコーダ210は、トークン埋め込みルックアップテーブル207から、音素のシーケンスにおける音素ごとのそれぞれのトークン埋め込みを受信し得る。ここで、それぞれのトークン埋め込みは音素埋め込みを含む。しかしながら、他の例では、トークン埋め込みルックアップテーブル207は、音素の代わりに、これらに限定されないが、サブ音素(たとえば、セノム)、書記素、単語片、または発話における単語などの、入力テキストシーケンス206に関連付けられる他のタイプの音声入力に対するトークン埋め込みを取得し得る。音素のシーケンスにおける各音素のそれぞれのトークン埋め込みを受信した後、テキストエンコーダ210は、それぞれのトークン埋め込みを処理し、各音素のそれぞれの変換された埋め込み209を生成するために、エンコーダプレネットニューラルネットワーク208を使用する。その後、畳み込み(Conv)ブロック212のバンクは、畳み込み出力213を生成するために、それぞれの変換された埋め込み209を処理することができる。いくつかの例では、Convブロック212のバンクは、3つの同一の5×1のConvブロックを含む。図4は、Conv層402、バッチ正規化層404、およびドロップアウト層406を有する例示的なConvブロックの概略図400を示している。トレーニング中、バッチ正規化層404は、内部共変量シフトを低減するためにバッチ正規化を適用し得る。ドロップアウト層406は、過剰適合を低減し得る。最後に、セルフアテンションブロック218のスタックは、エンコードされたテキストシーケンス219を生成するために畳み込み出力213を処理する。図示される例では、セルフアテンションブロック218のスタックは6つの変圧器ブロックを含む。他の例では、セルフアテンションブロック218は、トランスフォーマブロックの代わりにLConvブロックを含み得る。
特に、各畳み込み出力213はセルフアテンションブロック218のスタックを同時に流れ、セルフアテンションブロック218のスタックは入力テキスト発話206における各音素の位置/順序についての知識を持たない。したがって、いくつかの例では、正弦波位置埋め込み214は、入力テキストシーケンス206における各音素の順序を示す必要な位置情報を挿入するために、畳み込み出力213と組み合わされる。他の例では、正弦波位置埋め込み214の代わりに、エンコードされた位置埋め込みが使用される。対照的に、リカレントニューラルネットワーク(RNN)を組み込んだ自己回帰エンコーダは、各音素が入力テキストシーケンスから順番に解析されるため、本質的に各音素の順序を考慮する。しかしながら、マルチヘッドセルフアテンションを使用するセルフアテンションブロック218のスタックを統合するテキストエンコーダ210は、自己回帰エンコーダの再発を回避してトレーニング時間を大幅に短縮し、理論的には入力テキストシーケンス206におけるより長い依存関係を捕捉する。
引き続き図2を参照すると、連結器222は、残差エンコーダ180からの変分埋め込み220、テキストエンコーダ210から出力されたエンコードされたテキストシーケンス219、および基準オーディオ信号を発した基準話者の話者アイデンティティ205を表す基準話者埋め込みysを連結224に連結する。持続時間モデルネットワーク230は、連結224を受信し、連結224からのエンコードされたテキストシーケンス219のフレーム数を指定するアップサンプリングされた出力258を生成するように構成されている。いくつかの実装形態では、持続時間モデルネットワーク230は、セルフアテンションブロック232のスタックと、その後に2つの独立した小さい畳み込みブロック234、238と、ソフトプラス活性化236を伴う投影とを含む。図示される例では、セルフアテンションブロックのスタックは4つの3×1のLConvブロック232を含む。図5を参照して上述したように、セルフアテンションブロック232のスタックにおける各LConvブロックは、GLUユニット502、LConv層504、および残りの接続を有するFF層506を含み得る。セルフアテンションブロック232のスタックは、エンコードされたテキストシーケンス219、変分埋め込み220、および基準話者埋め込みysの連結224に基づいて、シーケンス表現Vを生成する。ここで、シーケンス表現Vは、M×1列ベクトルのシーケンスを表す(たとえば、V={vl,…,vk})。
いくつかの実装形態では、第1の畳み込みブロック234は出力235を生成し、第2の畳み込みブロック238はシーケンス表現Vから出力239を生成する。畳み込みブロック234、238はそれぞれ、カーネル幅3および出力次元3を有する3×1 Convブロックを含むことができる。ソフトプラス活性化236による投影は、エンコードされたテキストシーケンス219によって表される音素ごとの音素持続時間240(たとえば、{dl,…,dk})を予測し得る。ここで、ソフトプラス活性化236は、音素持続時間240を予測するために、入力としてシーケンス表現Vを受信する。持続時間モデルネットワーク230は、予測された音素持続時間240と、
によって表される目標平均持続時間245との間のグローバル音素持続時間損失241(たとえば、L1損失項241)を計算し、上式で、Ldurは、グローバル音素持続時間損失241(たとえば、L1損失項241)を表し、Kは、入力テキストシーケンス206の音素(たとえば、トークン)の総数を表し、dkは、音素の総数Kからの特定の音素kの音素持続時間240を表し、Tは、基準メル周波数スペクトログラムシーケンス202からの合計目標フレーム持続時間を表す。
いくつかの例では、TTSモデル300のトレーニングは、式1からのグローバル音素持続時間損失241に基づく。音素ごとの個々の目標持続時間は不明であり、したがって持続時間モデルネットワーク230は、基準メル周波数スペクトログラムシーケンス202全体からのTの合計フレーム持続時間と、入力テキストシーケンス206内のKの音素(たとえば、トークン)の合計数との割合に基づいて、目標平均持続時間245を決定する。すなわち、目標平均持続時間245は、基準メル周波数スペクトログラムシーケンス202および入力テキストシーケンス206を使用するすべての音素の平均持続時間である。次いで、L1損失項241が、予測された音素持続時間240と、基準メル周波数スペクトログラムシーケンス202および入力テキストシーケンス206を使用して決定された目標平均持続時間245との間で決定される。したがって、持続時間モデルネットワーク230は、外部アライナから提供される教師あり音素持続時間ラベルを使用せずに、教師なしの方法で音素持続時間240を予測することを学習する。外部アライナは音素とメルスペクトルフレームとの間の合理的な位置合わせを提供することができるが、入力テキストシーケンス206内の音素をその持続時間に応じてアップサンプリングするために長さ調整器によって音素持続時間の丸めが必要とされ、これが残る可能性のある丸めエラーにつながる。場合によっては、トレーニング中に外部アライナからの教師あり持続時間ラベルを使用し、推論中に予測された持続時間を使用するとTTSモデル300(図2)のトレーニングとTTSモデル300(図3)の推論との間に音素持続時間の不一致が生じる。さらに、そのような丸め演算は微分可能ではなく、したがって、エラー勾配は持続時間モデルネットワーク230を通じて伝播することができない。
持続時間モデルネットワーク230は、予測された音素持続時間240からトークン境界
を定義するための行列生成器242を含む。行列生成器242は、次のように、予測された音素持続時間240からトークン境界(たとえば、音素境界)を決定する。
ek=sk+dk(3)
式2において、skは、特定の音素kのトークン境界の開始(本明細書では開始境界skとも呼ばれる)を表す。式3において、ekは、特定の音素kのトークン境界の終了(本明細書では終了境界ekとも呼ばれる)を表す。行列生成器242は、式2および3からの開始境界skおよび終了境界ekを使用して、次のようにトークン境界を2つのトークン境界グリッド行列SおよびEにマッピングする。
Stk=t-sk (4)
Etk=ek-t (5)
式4は、各開始境界skをStkグリッド行列にマッピングし、時間tにおけるトークンkの開始境界skまでの距離を与える。式5は、各終了境界ekをEtkグリッド行列にマッピングし、時間tにおけるトークンkの終了境界ekまでの距離を与える。行列生成器242は、開始境界skと終了境界ekを生成し(集合的にトークン境界sk、ekとも呼ばれる)、トークン境界sk、ekをそれぞれ開始トークン境界グリッド行列Sおよび終了トークン境界グリッド行列E(集合的にグリッド行列243と呼ばれる)にマッピングする。ここで、グリッド行列243のサイズはT×Kであり、Kは入力テキストシーケンス206における音素の数を表し、Tは基準メル周波数スペクトログラムシーケンス202のフレーム数および総フレーム持続時間を表す。行列生成器242は、エンコードされたテキストシーケンス219によって表される音素の数と、基準メル周波数スペクトログラムシーケンス202における基準フレームの数に基づいて、音素のシーケンスにおける音素ごとに生成されたそれぞれの開始境界skおよび終了境界ekをそれぞれのグリッド行列243(たとえば、開始トークン境界グリッド行列Sおよび終了トークン境界グリッド行列E)にマッピングし得る。
持続時間モデルネットワーク230は、インターバル表現行列Wを学習するための第1の関数244を含む。いくつかの実装形態では、第1の関数244は、バイアスおよびSwish活性化を備えた2つの投影層を含む。図示される例では、第1の関数244の両方の投影は、次元16(すなわち、P=16)を用いて投影および出力される。第1の関数244は、連結器222から入力として連結237を受信する。連結器222は、連結237を生成するために、畳み込みブロック234からの出力235とグリッド行列243を連結する。第1の関数244は、連結237を使用して出力247を投影する。その後、第1の関数244は、出力247のソフトプラス活性化246を伴う投影からインターバル表現行列W(たとえば、T×Kアテンション行列)を生成する。インターバル表現行列Wは、開始境界skおよび終了境界ekからマッピングされたそれぞれのグリッド行列243に基づいて次のように学習され得る。
W=Softmax(MLP(S, E, Conv 1D(V))) (6)
式6は、ソフトマックス関数、およびグリッド行列243(たとえば、開始トークン境界グリッド行列Sおよび終了トークン境界グリッド行列E)の多層パーセプトロンベース(MLP)学習可能関数、ならびにシーケンス表現Vを使用して、インターバル表現W(たとえば、T×Kアテンション行列)を計算する。MLP学習可能関数は、ソフトマックス活性化関数に供給される出力次元1の第3の投影層を含み、Conv1D(V)はカーネル幅3、出力次元8、バッチ正規化、およびSwish活性化を含む。ここで、グリッド行列243の(k、t)番目の要素は、k番目のトークン(たとえば、音素)とt番目のフレームとの間のアテンション確率を与え、W()は、小さい1D畳み込み層を用いてグリッド行列243とシーケンス表現Vをマッピングする学習可能な関数である。
持続時間モデルネットワーク230は、シーケンス表現Vを条件とした第2の関数248を使用して、補助アテンションコンテキストテンソルC(たとえば、C=[Cl,...,Cp])を学習し得る。ここで、Cpは、補助アテンションコンテキストテンソルCからのT×K行列を含む。補助アテンションコンテキストテンソルCは、スペクトログラムデコーダ260のための補助マルチヘッドアテンション様情報を含み得る。連結器222は、連結249を生成するために、グリッド行列243と出力239を連結する。第2の関数248は、バイアスおよびSwish活性化を備えた2つの投影層を含み得る。図示される例では、第2の関数248の投影は、次元2(すなわち、P=2)の出力を投影する。第2の関数248は、次のように、開始境界sk、終了境界ekからマッピングされたそれぞれのグリッド行列243とシーケンス表現Vに基づいて補助アテンションコンテキストテンソルCを生成するために、入力として連結249を受信する。
C=MLP(S, E, Conv1D(V)) (7)
式7は、グリッド行列243(たとえば、開始トークン境界グリッド行列Sおよび終了トークン境界グリッド行列E)の多層パーセプトロンベース(MLP)学習可能関数およびシーケンス表現Vを使用して、補助アテンションコンテキストテンソルCを計算する。補助アテンションコンテキストテンソルCは、最適化をスムーズにし、確率的勾配降下法(SGD)を収束させるために役立ち得る。持続時間モデルネットワーク230は、シーケンス表現Vをいくつかのフレームを用いてアップサンプリングされた出力258(たとえば、0={ol,…,oT})にアップサンプリングし得る。ここで、アップサンプリングされた出力258のフレーム数は、対応する入力テキストシーケンス206の予測された音素持続時間240によって決定される予測されたメル周波数スペクトログラム302の予測長に対応する。シーケンス表現Vをアップサンプリングされた出力258にアップサンプリングすることは、乗算器253を使用してインターバル表現行列Wとシーケンス表現Vとの積254を決定することを含む。
持続時間モデルネットワーク230は、einsum演算子255を使用して、インターバル表現行列Wと補助アテンションコンテキストテンソルCのアインシュタイン総和(einsum)256を決定する。投影250は、einsum256を投影出力252に投影し、投影出力252は、アップサンプリングされた出力258を生成するために加算器257において積254に加算される。ここで、アップサンプリングされた出力258は次のように表され得る。
O=WV+[(W Θ C1)1k...(W Θ Cp)1k]A (8)
上式で、Oはアップサンプリングされた出力258を表し、Θは要素ごとの乗算を表し、1kはすべて1に等しい要素を含むK×1列ベクトルを表し、AはP×M投影行列である。
引き続き図2を参照すると、スペクトログラムデコーダ260は、持続時間モデルネットワーク230のアップサンプリングされた出力258を入力として受信することと、入力テキストシーケンス206に対する1つまたは複数の予測されたメル周波数スペクトログラムシーケンス302を出力として生成することとを行うように構成されている。スペクトログラムデコーダ260は、マルチヘッドアテンションを備えた複数のセルフアテンションブロック262、262a~nのスタックを含み得る。いくつかの例では、スペクトログラムデコーダ260は、0.1ドロップアウトを有する6つの8ヘッドの17×1のLConvブロックを含む。スペクトログラムデコーダ260は、6つより多いか少ないLConvブロックを含み得る。図5を参照して上述したように、セルフアテンションブロック232のスタックにおける各LConvブロックは、GLUユニット502、LConv層504、および残りの接続を有するFF層506を含み得る。他の例では、スタックにおける各セルフアテンションブロック262は、同一の変圧器ブロックを含む。
いくつかの実装形態では、スペクトログラムデコーダ260は、セルフアテンションブロック262、262a~nのスタックにおける各セルフアテンションブロック262からの出力として、それぞれの予測されたメル周波数スペクトログラムシーケンス302、302a~nを生成する。ネットワーク200は、それぞれの予測されたメル周波数スペクトログラムシーケンス302のフレームの数が、残差エンコーダ180に入力される基準メル周波数スペクトログラムシーケンス202のフレームの数と等しくなるようにトレーニングされ得る。図示される例では、各セルフアテンションブロック262a~nは、基準メル周波数スペクトログラムシーケンス202の次元と一致する次元を有するそれぞれの予測されたメル周波数スペクトログラムシーケンス302a~nを生成するために、セルフアテンションブロック262からの出力263を投影する対応する投影層264a~nとペアになっている。いくつかの例では、投影層264は、128ビンの予測されたメル周波数スペクトログラムシーケンス302を投影する。複数のメル周波数スペクトログラムシーケンス302a~nを予測することによって、非自己回帰ニューラルネットワーク200は、ソフト動的タイムワーピング(ソフトDTW)損失を使用してトレーニングされ得る。すなわち、予測されたメル周波数スペクトログラムシーケンス302は、基準メル周波数スペクトログラムシーケンス202とは異なる長さ(たとえば、フレーム数)を有する可能性があるため、スペクトログラムデコーダ260は、通常のラプラス損失を決定することができない。むしろ、スペクトログラムデコーダ260は、基準メル周波数スペクトログラムシーケンス202と、異なる長さを含み得る予測されたメル周波数スペクトログラムシーケンス302との間のソフトDTW損失を決定する。特に、それぞれの予測されたメル周波数スペクトログラムシーケンス302a~nごとに、スペクトログラムデコーダ260は、対応する予測されたメル周波数スペクトログラムシーケンス302および基準メル周波数スペクトログラムシーケンス202に基づいて、それぞれのスペクトログラム損失270、270a~nを決定する。それぞれのスペクトログラム損失270は、次のように、再帰によって決定されるソフトDTW損失項を含み得る。
式9において、ri,jは、1からiまでの基準メル周波数スペクトログラムシーケンスフレームと、最良の位置合わせによる1からjまでの予測されたメル周波数スペクトログラムシーケンスフレーム間の距離を表す。ここで、minγは平滑化パラメータγを使用した一般化された最小演算を含み、warpはワープペナルティを含み、xiおよびxjはそれぞれ時間iとjにおける基準メル周波数スペクトログラムフレームと予測されたメル周波数スペクトログラムシーケンスフレームである。
ソフトDTW損失項再帰は計算量が多く、O(T2)の複雑さ、60に固定された対角バンド幅、128のワープペナルティ、および0.05の平滑化パラメータγを含み得る。たとえば、第1のスペクトログラム損失270aは、第1の予測されたメル周波数スペクトログラムシーケンス302aおよび基準メル周波数スペクトログラムシーケンス202に基づいて決定され得る。ここで、第1の予測されたメル周波数スペクトログラムシーケンス302aおよび基準メル周波数スペクトログラムシーケンス202は、同じ長さであってもよく、異なる長さであってもよい。第2のスペクトログラム損失270bは、第1の予測されたメル周波数スペクトログラムシーケンス302aおよび基準メル周波数スペクトログラムシーケンス202に基づいて決定され得、それぞれのスペクトログラム損失270a~nのすべてが予測されたメル周波数スペクトログラムシーケンス302a~nを反復して決定するまで同様である。ソフトDTW損失項を含むスペクトログラム損失270は、最終的なソフトDTW損失280を生成するために集約され得る。最終的なソフトDTW損失280は、反復ソフトDTW損失項280に対応し得る。最終的なソフトDTW損失280は、以下のように、同じ長さおよび/または異なる長さの予測されたメル周波数スペクトログラムシーケンス302と基準メル周波数スペクトログラムシーケンス202との任意の組合せから決定され得る。
式10において、Lは、最終的なソフトDTW損失280を含み、
は、スペクトログラムデコーダにおけるl回目の反復のソフトDTW L1スペクトログラム再構成損失を含み、Ldurは、平均持続時間のL1損失を含み、DKLは、残差エンコーダの前と後の間のKL発散を含む。ディープニューラルネットワーク200のトレーニングは、予測されたメル周波数スペクトログラムシーケンス302と基準メル周波数スペクトログラムシーケンス202との間の音素持続時間の差を低減するために、最終的なソフトDTW損失280を最小限に抑えることを目的とする。最終的なソフトDTW損失280を最小限に抑えることによって、トレーニングされたTTSモデル300は、基準メル周波数スペクトログラムシーケンス202に基づいて、意図された韻律/スタイルを含む予測されたメル周波数スペクトログラムシーケンス302を生成し得る。スペクトログラム損失270a~nを集計することは、最終的なソフトDTW損失280を取得するためにスペクトログラム損失270a~nを合計することを含み得る。任意で、スペクトログラム損失270を集計することは、スペクトログラム損失270を平均化することを含み得る。
ディープニューラルネットワーク200は、それぞれの予測されたメル周波数スペクトログラムシーケンス302におけるフレームの数が、残差エンコーダ180に入力される基準メル周波数スペクトログラムシーケンス202におけるフレームの数と等しくなるようにトレーニングされ得る。さらに、ディープニューラルネットワーク200は、基準メル周波数スペクトログラムシーケンス202および予測されたメル周波数スペクトログラムシーケンス302に関連付けられるデータが互いに実質的に一致するようにトレーニングされる。予測されたメル周波数スペクトログラムシーケンス302は、基準オーディオ信号201の韻律/スタイル表現を暗黙的に提供し得る。
図3は、図2の非自己回帰ディープニューラルネットワーク200によってトレーニングされた非自己回帰TTSモデル300の例を示している。具体的には、図3は、入力テキスト発話320のメル周波数スペクトログラムシーケンス302を予測するために選択された変分埋め込み220を使用するTTSモデル300を示しており、これにより、選択された変分埋め込み220は、テキスト発話320の意図された韻律/スタイルを表す。推論中、トレーニングされたTTSモデル300は、コンピューティングシステム120またはユーザコンピューティングデバイス10上で実行され、入力テキスト発話320に対応するメル周波数スペクトログラムシーケンス302を予測するために、選択された変分埋め込み220を使用し得る。ここで、TTSモデル300は、テキスト発話320の意図された韻律/スタイルを表す変分埋め込み220をストレージ185から選択する。いくつかの例では、ユーザは、ユーザがテキスト発話320に対して結果として生じる合成音声152に伝えたい意図された韻律/スタイルの選択を示すユーザ入力指示を提供し、TTSモデル300は、意図された韻律/スタイルを表す適切な変分埋め込み220をデータストレージ185から選択する。これらの例では、意図された韻律/スタイルは、意図された韻律/スタイルで話す特定の話者に関連付けられる話者アイデンティティ205を示すこと、および/または意図された韻律/スタイルに対応する特定の韻律バーチカル(prosodic vertical)(たとえば、ニュースキャスタ、スポーツキャスタなど)を指定することによって、ユーザによって選択され得る。選択された変分埋め込み220は、VAEベースの残差エンコーダ180からサンプリングされた以前の変分埋め込み220に対応し得る。トレーニングされたTTSモデル300は、合成器155を使用して、それぞれの入力テキスト発話320に対して意図された韻律/スタイル(たとえば、選択された変分埋め込み220)を有する合成音声152を生成する。すなわち、選択された変分埋め込み220は、残差エンコーダ180に記憶された意図された韻律/スタイル(たとえば、ニュースキャスタ、スポーツキャスタなど)を含み得る。選択された変分埋め込み220は、入力テキスト発話320の合成音声152を介して、意図された韻律/スタイルを伝える。
追加の実装形態では、トレーニングされたTTSモデル300は、入力テキスト発話320のメル周波数スペクトログラムシーケンス302を予測する際に使用する変分埋め込み220をオンザフライで抽出/予測するために、推論中に残差エンコーダ180を使用する。たとえば、残差エンコーダ180は、意図された韻律/スタイル(たとえば、「このように言ってください」)を伝える人間のユーザによって発された基準オーディオ信号201(図2)を受信し、意図された韻律/スタイルを表す対応する変分埋め込み220を抽出/予測し得る。その後、トレーニングされたTTSモデル300は、基準オーディオ信号201によって伝えられる意図された韻律/スタイルを、入力テキスト発話320について予測されたメル周波数スペクトログラムシーケンス302に効果的に転送するために、変分埋め込み220を使用し得る。したがって、表現力豊かな音声152に合成される入力テキスト発話320と、表現力豊かな音声152に転送される意図された韻律/スタイルを伝える基準オーディオ信号201は、異なる言語内容を含む可能性がある。
特に、テキストエンコーダ210は、テキスト発話320から抽出された音素のシーケンスをエンコードされたテキストシーケンス219にエンコードする。テキストエンコーダ210は、トークン埋め込みルックアップテーブル207から、テキスト発話320から抽出された音素のシーケンスにおける音素ごとにそれぞれのトークン埋め込みを受信し得る。テキスト発話320から抽出された音素のシーケンスにおける各音素のそれぞれのトークン埋め込みを受信した後、テキストエンコーダ210は、それぞれのトークン埋め込みを処理して、各音素のそれぞれの変換された埋め込み209を生成するために、エンコーダプレネットニューラルネットワーク208を使用する。その後、Convブロック212のバンク(たとえば、3つの同一の5×1のConvブロック)は、畳み込み出力213を生成するために、それぞれの変換された埋め込み209を処理する。最後に、エンコードされたテキストシーケンス219を生成するために、セルフアテンションブロック218のスタックが畳み込み出力213を処理する。図示される例では、セルフアテンションブロック218のスタックは6つの変換ブロックを含む。他の例では、セルフアテンションブロック218は、トランスフォーマブロックの代わりにLConvブロックを含み得る。特に、各畳み込み出力213はセルフアテンションブロック218のスタックを同時に流れるため、セルフアテンションブロック218のスタックは、入力テキスト発話における各音素の位置/順序についての知識を有していない。したがって、いくつかの例では、正弦波位置埋め込み214は、入力テキストシーケンス206における各音素の順序を示す必要な位置情報を挿入するために、畳み込み出力213と組み合わされる。他の例では、正弦波位置埋め込み214の代わりに、エンコードされた位置埋め込みが使用される。
引き続き図3を参照すると、連結器222は、連結224を生成するために、選択された変分埋め込み220、エンコードされたテキストシーケンス219、および任意で基準話者埋め込みysを連結する。ここで、基準話者埋め込みysは、選択された変分埋め込み220に関連付けられる1つまたは複数の基準音声信号201を発した基準話者の話者アイデンティティ205、あるいは結果として得られる合成音声152において伝えられる声の特性を有する他の基準話者の話者アイデンティティ205を表し得る。持続時間モデルネットワーク230は、入力されたテキスト発話320における音素のシーケンスにおける音素ごとの音素持続時間240を予測するために、持続時間モデルネットワーク230のアップサンプリングされた出力258を生成するために、エンコードされたテキストシーケンス219、選択された変分埋め込み220、および基準話者埋め込みysの連結224をデコードするように構成されている。
持続時間モデルネットワーク230は、連結224からのエンコードされたテキストシーケンス219のフレーム数を指定するアップサンプリングされた出力258を生成するように構成されている。いくつかの実装形態では、持続時間モデルネットワーク230は、セルフアテンションブロック232のスタックと、その後に2つの独立した小さい畳み込みブロック234、238と、ソフトプラス活性化236を伴う投影とを含む。図示される例では、セルフアテンションブロックのスタックは4つの3×1 LConvブロック232を含む。図5を参照して上述したように、セルフアテンションブロック232のスタック内の各LConvブロックは、GLUユニット502、LConv層504、および残りの接続を有するFF層506を含み得る。セルフアテンションブロック232のスタックは、エンコードされたテキストシーケンス219、変分埋め込み220、および基準話者埋め込みysの連結224に基づいて、シーケンス表現Vを生成する。
いくつかの実装形態では、第1の畳み込みブロック234は出力235を生成し、第2の畳み込みブロック238はシーケンス表現Vから出力239を生成する。畳み込みブロック234、238は、カーネル幅3および出力次元3を有する3×1 Convブロックを含むことができる。持続時間モデルネットワーク230は、エンコードされたテキストシーケンス219によって表される音素ごとの音素持続時間240(たとえば、{dl,…,dk})を予測するために、ソフトプラス活性化236を伴う投影を含む。ここで、ソフトプラス活性化236は、音素持続時間240を予測するために、入力としてシーケンス表現Vを受信する。
持続時間モデルネットワーク230は、図2を参照して上述したように、予測された音素持続時間240からトークン境界
を定義するための行列生成器242を含む。持続時間モデルネットワーク230は、インターバル表現行列Wを学習するための第1の関数244を含む。いくつかの実装形態では、第1の関数244は、バイアスおよびSwish活性化を備えた2つの投影層を含む。図示される例では、第1の関数244の両方の投影は、次元16(すなわち、P=16)を用いて投影および出力される。第1の関数244は、連結器222から入力として連結237を受信する。連結器222は、連結237を生成するために、畳み込みブロック234からの出力235とグリッド行列243を連結する。その後、第1の関数244は、式6を使用して、出力247のソフトプラス活性化246を伴う投影からインターバル表現行列W(たとえば、T×Kアテンション行列)を生成する。
持続時間モデルネットワーク230は、シーケンス表現Vを条件とした第2の関数248を使用して、補助アテンションコンテキストテンソルC(たとえば、C=[Cl,...,Cp])を学習し得る。ここで、Cpは、補助アテンションコンテントテンソルCからのT×K行列である。補助アテンションコンテキストテンソルCは、スペクトログラムデコーダ260のための補助マルチヘッドアテンション様情報を含み得る。連結器222は、連結249を生成するために、グリッド行列243と出力239を連結する。第2の関数248は、バイアスおよびSwish活性化を備えた2つの投影層を含み得る。第2の関数248は、式7を使用して、開始境界sk、終了境界ekからマッピングされたそれぞれのグリッド行列243とシーケンス表現Vに基づいて補助アテンションコンテキストテンソルCを生成するために、入力として連結249を受信する。
持続時間モデルネットワーク230は、シーケンス表現Vをいくつかのフレームを用いてアップサンプリングされた出力258(たとえば、0={ol,…,oT})にアップサンプリングし得る。ここで、アップサンプリングされた出力のフレーム数は、対応する入力テキストシーケンス206の予測された音素持続時間240によって決定される予測されたメル周波数スペクトログラム302の予測長に対応する。シーケンス表現Vをアップサンプリングされた出力258にアップサンプリングすることは、乗算器253を使用してインターバル表現Wとシーケンス表現Vとの積254を決定することと、einsum演算子255を使用して、インターバル表現行列Wと補助アテンションコンテキストセンサCのeinsum256を決定することとに基づく。投影250は、einsum356を投影出力252に投影し、式8によって表されるアップサンプリングされた出力258を生成するために、加算器257が積254と合計する。
スペクトログラムデコーダ260は、持続時間モデルネットワーク230のアップサンプリングされた出力258および予測音素持続時間240に基づいて、テキスト発話320の予測されたメル周波数スペクトログラムシーケンス302を生成するように構成されている。ここで、予測されたメル周波数スペクトログラムシーケンス302は、選択された変分埋め込み220によって指定される意図された韻律/スタイルを有する。テキスト発話320の予測されたメル周波数スペクトログラムシーケンス302は、補助アテンションコンテキストテンソルC、シーケンス表現V、インターバル表現w、および持続時間モデルネットワーク230のフレーム数へのアップサンプリングされた出力258に基づく。
スペクトログラムデコーダ260は、セルフアテンションブロック262a~nのスタックにおける最後のセルフアテンションブロック262からの出力として、それぞれの予測されたメル周波数スペクトログラムシーケンス302を生成する。ここで、スペクトログラムデコーダ260のセルフアテンションブロック262のスタックにおける各セルフアテンションブロック262は、同一のLConvブロックまたは同一のトランスフォーマブロックのうちの1つを含む。いくつかの例では、スペクトログラムデコーダ260は、0.1ドロップアウトを有する6つの8ヘッドの17×1のLConvブロックを含む。セルフアテンションブロック262ごとの最後のフィードフォワード(FF)層506(図5)の出力は、後続のセルフアテンションブロック262への入力として提供される。すなわち、セルフアテンションブロック262a~nのスタックにおける第1のセルフアテンションブロック262aのGLUユニット502(図5)およびLConv層504(図5)は、持続時間モデルネットワーク230からの出力238および予測された音素持続時間240を処理し、第1のセルフアテンションブロック262aの最後のFF層506からの出力は、セルフアテンションブロック262のスタックにおける後続の第2のセルフアテンションブロック262bへの入力として提供される。各セルフアテンションブロック262の最後のFF層の出力は、セルフアテンションブロック262のスタックにおける最後のセルフアテンションブロック262nに到達するまで、後続のセルフアテンションブロック262への入力として提供される。セルフアテンションブロック262のスタックにおける最後のセルフアテンションブロック262n(たとえば、第6のセルフアテンションブロック262)は、それぞれの予測されたメル周波数スペクトログラムシーケンス302を生成するために、最後のセルフアテンションブロック262からの出力263を投影する対応する投影層264とペアになっている。
スペクトログラムデコーダ260によって生成された予測されたメル周波数スペクトログラムシーケンス302は、入力テキスト発話320に対応し、選択された変分埋め込み220によって示される意図された韻律/スタイルを伝える。トレーニングされたTTSモデル300は、合成音声152を示す時間領域オーディオ波形に変換するために、入力テキスト発話320の予測されたメル周波数スペクトログラムシーケンス302を合成器155に提供する。合成音声152は、選択された変分埋め込み220によって示される意図された韻律/スタイルを含む、入力テキスト発話320の口頭表現として聴覚的に出力され得る。
図6は、非自己回帰テキスト読上げ(TTS)モデルをトレーニングするためのコンピュータ実装方法600の動作の例示的な構成のフローチャートである。動作602において、方法600は、変分埋め込み220と連結されたエンコードされたテキストシーケンス219のシーケンス表現Vを取得するステップを含む。動作604において、方法600は、持続時間モデルネットワークを使用して、シーケンス表現Vに基づいて、エンコードされたテキストシーケンス219によって表される音素ごとの音素持続時間240を予測するステップを含む。予測された音素持続時間240に基づいて、方法600は、動作606において、シーケンス表現Vを条件とした第1の関数244を使用して、インターバル表現行列Wを学習するステップを含む。動作608において、方法600は、シーケンス表現Vを条件とした第2の関数248を使用して、補助アテンションコンテキスト表現Cを学習するステップを含む。
動作610において、方法600は、インターバル表現行列Wおよび補助アテンションコンテキスト表現Cを使用して、シーケンス表現Vを、フレーム数を指定するアップサンプリングされた出力258にアップサンプリングするステップを含む。動作612において、方法600は、アップサンプリングされた出力258に基づいて、1つまたは複数のセルフアテンションブロック262、262a~nのスタックを含むスペクトログラムデコーダ260からの出力として、エンコードされたテキストシーケンス219に対する1つまたは複数の予測されたメル周波数スペクトログラムシーケンス302を生成するステップを含む。動作614において、方法600は、1つまたは複数の予測されたメル周波数スペクトログラムシーケンス302および基準メル周波数スペクトログラムシーケンス202に基づいて、最終的なスペクトログラム損失280を決定するステップを含む。動作616において、方法600は、最終的なスペクトログラム損失280に基づいて、TTSモデル300をトレーニングするステップを含む。
図7は、本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、本明細書において説明および/または請求される発明の実装形態を限定することを意図するものではない。
コンピューティングデバイス700は、プロセッサ710、メモリ720、ストレージデバイス730、メモリ720および高速拡張ポート750に接続する高速インターフェース/コントローラ740、および低速バス770とストレージデバイス730に接続する低速インターフェース/コントローラ760を含む。コンポーネント710、720、730、740、750、および760の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で搭載され得る。プロセッサ710は、高速インターフェース740に接続されたディスプレイ780などの外部入力/出力デバイスのグラフィカルユーザインターフェース(GUI)用のグラフィック情報を表示するために、メモリ720またはストレージデバイス730に記憶された命令を含む、コンピューティングデバイス700内で実行するための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス700が接続されてもよく、各デバイスは必要な動作の一部を提供する(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
メモリ720は、コンピューティングデバイス700内に情報を非一時的に記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ720は、コンピューティングデバイス700によって使用されるプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含むが、これらに限定されない。
ストレージデバイス730は、コンピューティングデバイス700に大容量ストレージを提供することができる。いくつかの実装形態では、ストレージデバイス730はコンピュータ可読媒体である。様々な異なる実装形態では、ストレージデバイス730は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様の固体メモリデバイス、または、ストレージエリアネットワークまたは他の構成内のデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品は、情報担体に具体的に組み込まれる。コンピュータプログラム製品は、実行されると上記のような1つまたは複数の方法を実施する命令を含む。情報担体は、メモリ720、ストレージデバイス730、またはプロセッサ710上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
高速コントローラ740は、コンピューティングデバイス700の帯域幅を大量に消費する動作を管理し、一方、低速コントローラ760は、帯域幅をあまり消費しない動作を管理する。そのような職務の割り当ては単なる例である。いくつかの実装形態では、高速コントローラ740は、メモリ720、ディスプレイ780(たとえば、グラフィックプロセッサまたはアクセラレータを通じて)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート750に結合される。いくつかの実装形態では、低速コントローラ760は、ストレージデバイス730および低速拡張ポート790に結合される。様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート790は、たとえば、ネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入力/出力デバイス、あるいはスイッチまたはルータなどのネットワーキングデバイスに結合され得る。
コンピューティングデバイス700は、図面に示されるように、多くの異なる形式で実装され得る。たとえば、それは、標準的なサーバ700aとして、またはそのようなサーバ700aのグループにおいて複数回、ラップトップコンピュータ700bとして、またはラックサーバシステム700cの一部として実装され得る。
本明細書に記載されるシステムおよび技法の様々な実装形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。アプリケーションの例は、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションが含まれるが、これらに限定されない。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型言語および/またはオブジェクト指向プログラミング言語、ならびに/あるいはアセンブリ言語/機械語において実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータを、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能媒体ロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
本明細書において説明されるプロセスおよびロジックフローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実施することができ、入力データに作用して出力を生成することによって機能を実施するために、1つまたは複数のコンピュータプログラムを実行する。プロセスおよび論理フローはまた、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって実施することができる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読取り専用メモリ、ランダムアクセスメモリ、またはその両方から命令とデータを受信する。コンピュータの必須要素は、命令を実施するプロセッサと、命令とデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、またはそれらからデータを受信するか、またはそれらにデータを転送するか、またはその両方を行うために動作可能に結合される。しかしながら、コンピュータにそのようなデバイスが搭載されている必要はない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、例として、EPROM、EEPROM、フラッシュメモリデバイスなどの半導体メモリデバイスを含む、あらゆる形式の不揮発性メモリ、メディア、およびメモリデバイス、磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む。プロセッサとメモリは、専用ロジック回路によって補ったり、専用ロジック回路に組み込んだりすることができる。
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、情報をユーザに表示するためのディスプレイデバイス、たとえばCRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーン、ならびに任意で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために他の種類のデバイスを使用することもでき、たとえば、ユーザに提供されるフィードバックは、たとえば視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形式の感覚的フィードバックとすることができ、ユーザからの入力は、音響、音声、または触覚入力などを含む、任意の形式で受け取ることができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信したリクエストに応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
多くの実装形態を説明してきた。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な変更が行われてよいことが理解されるであろう。したがって、他の実装形態も添付の特許請求の範囲に含まれる。
10 ユーザコンピューティングデバイス
100 システム
120 コンピューティングシステム
122 データ処理ハードウェア
124 メモリハードウェア
152 合成音声
155 合成器
155 ボコーダネットワーク
180 残差エンコーダ
180 グローバルVAEネットワーク
180 音素レベルのきめの細かいVAEネットワーク
185 データストレージ
200 ディープニューラルネットワーク
200 非自己回帰ニューラルネットワーク
201 基準オーディオ信号
202 基準メル周波数スペクトログラムシーケンス
205 話者アイデンティティ
206 入力テキストシーケンス
207 トークン埋め込みルックアップテーブル
208 エンコーダプレネットニューラルネットワーク
209 変換された埋め込み
210 テキストエンコーダ
212 畳み込み(Conv)ブロック
213 畳み込み出力
214 正弦波位置埋め込み
216 位置埋め込み
218 セルフアテンションブロック
219 テキストエンコーディングシーケンス
219 エンコードされたテキストシーケンス
220 変分埋め込み
222 連結器
224 連結
230 持続時間モデルネットワーク
232 セルフアテンションブロック
234 畳み込みブロック
234 第1の畳み込みブロック
235 出力
236 ソフトプラス活性化
236 投影
237 連結
238 小さい畳み込みブロック
238 第2の畳み込みブロック
239 出力
240 音素持続時間
241 グローバル音素持続時間損失
241 L1損失項
242 行列生成器
243 グリッド行列
244 第1の関数
245 目標平均持続時間
246 ソフトプラス活性化
247 出力
248 第2の関数
249 連結
250 投影
252 投影出力
253 乗算器
254 積
255 einsum演算子
256 アインシュタイン総和(einsum)
257 加算器
258 アップサンプリングされた出力
260 スペクトログラムデコーダ
262 セルフアテンションブロック
262a~n セルフアテンションブロック
263 出力
264 投影層
264a~n 投影層
270 スペクトログラム損失
270a~n スペクトログラム損失
270b 第2のスペクトログラム損失
280 最終的なスペクトログラム損失
280 ソフトDTW損失
300 TTSモデル
300 非自己回帰ニューラルTTSモデル
302 メル周波数スペクトログラムシーケンス
302 予測されたメル周波数スペクトログラム
302a 第1の予測されたメル周波数スペクトログラムシーケンス
302a~n メル周波数スペクトログラムシーケンス
320 テキスト発話
320 入力テキスト発話
400 Convブロックの概略図
402 Conv層
404 バッチ正規化層
406 ドロップアウト層
420 LConvブロック
430 投影層
500 LConvブロック
500 概略図
502 ゲート線形ユニット(GLU)層
504 LConv層
506 フィードフォワード(FF)層
508 第1の残余接続
508 第1の連結器
510 第2の残余接続
510 第2の連結器
600 コンピュータ実装方法
600 方法
700 コンピューティングデバイス
700a 標準的なサーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 プロセッサ
720 メモリ
730 ストレージデバイス
740 高速インターフェース/コントローラ
750 高速拡張ポート
760 低速インターフェース/コントローラ
770 低速バス
780 ディスプレイ
790 低速拡張ポート

Claims (28)

  1. データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に、非自己回帰テキスト読上げ(TTS)モデル(300)をトレーニングするための動作を実施させるコンピュータ実装方法(600)であって、前記動作が、
    変分埋め込み(220)と連結されたエンコードされたテキストシーケンス(219)のシーケンス表現(224)を取得するステップと、
    持続時間モデルネットワーク(230)を使用して、
    前記シーケンス表現(224)に基づいて、前記エンコードされたテキストシーケンスによって表される音素ごとの音素持続時間(240)を予測するステップと、
    前記予測された音素持続時間(240)に基づいて、
    前記シーケンス表現(224)を条件とした第1の関数(244)を使用して、インターバル表現行列を学習するステップと、
    前記シーケンス表現(224)を条件とした第2の関数(248)を使用して、補助アテンションコンテキスト表現を学習するステップと、
    前記インターバル表現および前記補助アテンションコンテキスト表現を使用して、前記シーケンス表現(224)を、フレーム数を指定するアップサンプリングされた出力(258)にアップサンプリングするステップと、
    1つまたは複数のセルフアテンションブロックのスタックを備えるスペクトログラムデコーダ(260)からの出力として、前記アップサンプリングされた出力(258)に基づいて、前記エンコードされたテキストシーケンス(219)の1つまたは複数の予測されたメル周波数スペクトログラムシーケンス(302)を生成するステップと、
    前記1つまたは複数の予測されたメル周波数スペクトログラムシーケンス(302)および基準メル周波数スペクトログラムシーケンス(202)に基づいて、最終的なスペクトログラム損失(280)を決定するステップと、
    前記最終的なスペクトログラム損失(280)に基づいて前記TTSモデル(300)をトレーニングするステップと
    を備える、コンピュータ実装方法(600)。
  2. 前記第1の関数(244)および前記第2の関数(248)がそれぞれ、それぞれの多層の知覚ベースの学習可能な関数を備える、請求項1に記載のコンピュータ実装方法(600)。
  3. 前記動作が、
    前記予測された音素持続時間(240)および平均音素持続時間(240)に基づいて、グローバル音素持続時間損失(241)を決定するステップをさらに備え、
    前記TTSモデル(300)をトレーニングするステップが、前記グローバル音素持続時間損失(241)にさらに基づく、請求項1または2に記載のコンピュータ実装方法(600)。
  4. 前記最終的なスペクトログラム損失(280)および前記グローバル音素持続時間損失(241)に基づいて前記TTSモデル(300)をトレーニングするステップが、外部アライナから抽出された教師あり音素持続時間ラベルを使用せずに、音素ごとの前記音素持続時間(240)を予測するために前記持続時間モデルネットワーク(230)をトレーニングするステップを備える、請求項3に記載のコンピュータ実装方法(600)。
  5. 前記動作が、前記持続時間モデルネットワーク(230)を使用して、
    前記予測された音素持続時間(240)に基づいて、前記エンコードされたテキストシーケンス(219)によって表される音素ごとに、それぞれの開始境界と終了境界を生成するステップと、
    前記エンコードされたテキストシーケンス(219)によって表される音素の数と前記基準メル周波数スペクトログラムシーケンス(202)内の基準フレームの数に基づいて、音素ごとに生成された前記それぞれの開始境界と終了境界をそれぞれのグリッド行列(243)にマッピングするステップと
    をさらに備え、
    前記インターバル表現を学習することが、前記開始境界と終了境界からマッピングされた前記それぞれのグリッド行列(243)に基づき、
    前記補助アテンションコンテキスト表現を学習することが、前記開始境界と終了境界からマッピングされた前記それぞれのグリッド行列(243)に基づく、請求項1から4のいずれか一項に記載のコンピュータ実装方法(600)。
  6. 前記シーケンス表現(224)を前記アップサンプリングされた出力(258)にアップサンプリングするステップが、
    前記インターバル表現行列と前記シーケンス表現(224)との積(254)を決定するステップと、
    前記インターバル表現行列と前記補助アテンションコンテキスト表現のアインシュタイン総和(einsum)(256)を決定するステップと、
    前記アップサンプリングされた出力(258)を生成するために、前記インターバル表現行列と前記シーケンス表現(224)の前記積(254)と前記einsum(256)の投影(252)を合計するステップと
    を備える、請求項1から5のいずれか一項に記載のコンピュータ実装方法(600)。
  7. 前記動作が、
    基準オーディオ信号(201)および対応する入力テキストシーケンス(206)を含むトレーニングデータを受信するステップであって、前記基準オーディオ信号(201)が話された発話を備え、前記入力テキストシーケンス(206)が前記基準オーディオ信号(201)のトランスクリプトに対応する、ステップと、
    残差エンコーダ(180)を使用して、前記基準オーディオ信号(201)を変分埋め込み(220)にエンコードするステップであって、前記変分埋め込み(220)が、前記基準オーディオ信号(201)からスタイル/韻律情報を解きほぐす、ステップと、
    テキストエンコーダ(210)を使用して、前記入力テキストシーケンス(206)を前記エンコードされたテキストシーケンス(219)にエンコードするステップと
    をさらに備える、請求項1から6のいずれか一項に記載のコンピュータ実装方法(600)。
  8. 前記残差エンコーダ(180)が、グローバル変分オートエンコーダ(VAE)を備え、
    前記基準オーディオ信号(201)を前記変分埋め込み(220)にエンコードするステップが、
    前記基準オーディオ信号(201)から前記基準メル周波数スペクトログラムシーケンス(202)をサンプリングするステップと、
    前記グローバルVAEを使用して、前記基準メル周波数スペクトログラムシーケンス(202)を前記変分埋め込み(220)にエンコードするステップと
    を備える、請求項7に記載のコンピュータ実装方法(600)。
  9. 前記残差エンコーダ(180)が、音素レベルのきめの細かい変分オートエンコーダ(VAE)を備え、
    前記基準オーディオ信号(201)を前記変分埋め込み(220)にエンコードするステップが、
    前記基準オーディオ信号(201)から前記基準メル周波数スペクトログラムシーケンス(202)をサンプリングするステップと、
    前記基準メル周波数スペクトログラムシーケンス(202)を、前記入力テキストシーケンス(206)から抽出された音素のシーケンスにおける各音素と位置合わせするステップと、
    前記音素レベルのきめの細かいVAEを使用して、前記基準メル周波数スペクトログラムシーケンス(202)を、音素の前記シーケンスにおける各音素と位置合わせするステップに基づいて、音素レベルの変分埋め込み(220)のシーケンスをエンコードするステップと
    を備える、請求項7に記載のコンピュータ実装方法(600)。
  10. 前記残差エンコーダ(180)が、軽量畳み込み(LConv)ブロック(420)のスタックを備え、LConvブロック(420)の前記スタックにおける各LConvブロック(420)が、
    ゲート線形ユニット(GLU)層(502)と、
    前記GLU層(502)の出力を受信するように構成されたLConv層(504)と、
    前記LConv層(504)の出力を前記GLU層(502)への入力と連結するように構成された残余接続と、
    前記LConv層(504)の前記出力を前記GLU層(502)への前記入力と連結する前記残余接続を入力として受信するように構成された最終フィードフォワード層と
    を備える、請求項7から9のいずれか一項に記載のコンピュータ実装方法(600)。
  11. 前記動作が、
    前記エンコードされたテキストシーケンス(219)、前記変分埋め込み(220)、および前記基準オーディオ信号(201)を発した基準話者の識別を表す基準話者埋め込みを連結するステップと、
    入力として、前記エンコードされたテキストシーケンス(219)、前記変分埋め込み(220)、および前記基準話者埋め込みの前記連結を受信する前記持続時間モデルネットワーク(230)に基づいて、前記シーケンス表現(224)を生成するステップと
    をさらに備える、請求項7から10のいずれか一項に記載のコンピュータ実装方法(600)。
  12. 前記入力テキストシーケンス(206)が音素のシーケンスを含み、
    前記入力テキストシーケンス(206)を前記エンコードされたテキストシーケンス(219)にエンコードするステップが、
    音素ルックアップテーブルから、音素の前記シーケンスにおける各音素のそれぞれの埋め込み(207)を受信するステップと、
    音素の前記シーケンスにおける各音素に対して、前記テキストエンコーダ(210)のエンコーダプレネットニューラルネットワークを使用して、前記音素のそれぞれの変換された埋め込み(209)を生成するために前記それぞれの埋め込み(207)を処理するステップと、
    畳み込みブロックのバンクを使用して、畳み込み出力(213)を生成するために前記それぞれの変換された埋め込み(209)を処理するステップと、
    前記エンコードされたテキストシーケンス(219)を生成するために、セルフアテンションブロックのスタックを使用して前記畳み込み出力(213)を処理するステップと
    を備える、請求項7から11のいずれか一項に記載のコンピュータ実装方法(600)。
  13. セルフアテンションブロックの前記スタック内の各セルフアテンションブロックが、同一の軽量畳み込み(LConv)ブロックを備える、請求項1から12のいずれか一項に記載のコンピュータ実装方法(600)。
  14. セルフアテンションブロックの前記スタック内の各セルフアテンションブロックが、同一のトランスフォーマブロックを備える、請求項1から13のいずれか一項に記載のコンピュータ実装方法(600)。
  15. 非自己回帰テキスト読上げ(TTS)モデル(300)をトレーニングするためのシステム(100)であって、
    データ処理ハードウェア(122)と、
    前記データ処理ハードウェア(122)と通信するメモリハードウェア(124)であって、前記データ処理ハードウェア(122)によって実行されると、前記データ処理ハードウェア(122)に、
    変分埋め込み(220)と連結されたエンコードされたテキストシーケンス(219)のシーケンス表現(224)を取得することと、
    持続時間モデルネットワーク(230)を使用して、
    前記シーケンス表現(224)に基づいて、前記エンコードされたテキストシーケンス(219)によって表される音素ごとの音素持続時間(240)を予測することと、
    前記予測された音素持続時間(240)に基づいて、
    前記シーケンス表現(224)を条件とした第1の関数(244)を使用して、インターバル表現行列を学習することと、
    前記シーケンス表現(224)を条件とした第2の関数(248)を使用して、補助アテンションコンテキスト表現を学習することと、
    前記インターバル表現および前記補助アテンションコンテキスト表現を使用して、前記シーケンス表現(224)を、フレーム数を指定するアップサンプリングされた出力にアップサンプリングすることと、
    1つまたは複数のセルフアテンションブロックのスタックを備えるスペクトログラムデコーダ(260)からの出力として、前記アップサンプリングされた出力に基づいて、前記エンコードされたテキストシーケンス(219)の1つまたは複数の予測されたメル周波数スペクトログラムシーケンスを生成することと、
    前記1つまたは複数の予測されたメル周波数スペクトログラムシーケンスおよび基準メル周波数スペクトログラムシーケンスに基づいて、最終的なスペクトログラム損失(280)を決定することと、
    前記最終的なスペクトログラム損失(280)に基づいて前記TTSモデル(300)をトレーニングすることと
    を備える動作を実施させる命令を記憶する、メモリハードウェア(124)と
    を備える、システム(100)。
  16. 前記第1の関数(244)および前記第2の関数(248)がそれぞれ、それぞれの多層の知覚ベースの学習可能な関数を備える、請求項15に記載のシステム(100)。
  17. 前記動作が、
    前記予測された音素持続時間(240)および平均音素持続時間(240)に基づいて、グローバル音素持続時間損失(241)を決定することをさらに備え、
    前記TTSモデル(300)をトレーニングすることが、前記グローバル音素持続時間損失(241)にさらに基づく、請求項15または16に記載のシステム(100)。
  18. 前記最終的なスペクトログラム損失(280)および前記グローバル音素持続時間損失(241)に基づいて前記TTSモデル(300)をトレーニングすることが、外部アライナから抽出された教師あり音素持続時間ラベルを使用せずに、音素ごとの前記音素持続時間(240)を予測するために前記持続時間モデルネットワーク(230)をトレーニングすることを備える、請求項17に記載のシステム(100)。
  19. 前記動作が、前記持続時間モデルネットワーク(230)を使用して、
    前記予測された音素持続時間(240)に基づいて、前記エンコードされたテキストシーケンス(219)によって表される音素ごとに、それぞれの開始境界と終了境界を生成することと、
    前記エンコードされたテキストシーケンス(219)によって表される音素の数と前記基準メル周波数スペクトログラムシーケンス内の基準フレームの数に基づいて、音素ごとに生成された前記それぞれの開始境界と終了境界をそれぞれのグリッド行列(243)にマッピングすることと
    をさらに備え、
    前記インターバル表現を学習することが、前記開始境界と終了境界からマッピングされた前記それぞれのグリッド行列(243)に基づき、
    前記補助アテンションコンテキスト表現を学習することが、前記開始境界と終了境界からマッピングされた前記それぞれのグリッド行列(243)に基づく、請求項15から18のいずれか一項に記載のシステム(100)。
  20. 前記シーケンス表現(224)を前記アップサンプリングされた出力にアップサンプリングすることが、
    前記インターバル表現行列と前記シーケンス表現(224)との積を決定することと、
    前記インターバル表現行列と前記補助アテンションコンテキスト表現のアインシュタイン総和(einsum)を決定することと、
    前記アップサンプリングされた出力を生成するために、前記インターバル表現行列と前記シーケンス表現(224)の前記積と前記einsumの投影を合計することとを備える、請求項15から19のいずれか一項に記載のシステム(100)。
  21. 前記動作が、
    基準オーディオ信号(201)および対応する入力テキストシーケンス(206)を含むトレーニングデータを受信することであって、前記基準オーディオ信号(201)が話された発話を備え、前記入力テキストシーケンス(206)が前記基準オーディオ信号(201)のトランスクリプトに対応する、受信することと、
    残差エンコーダ(180)を使用して、前記基準オーディオ信号(201)を変分埋め込み(220)にエンコードすることであって、前記変分埋め込み(220)が、前記基準オーディオ信号(201)からスタイル/韻律情報を解きほぐす、エンコードすることと、
    テキストエンコーダ(210)を使用して、前記入力テキストシーケンス(206)を前記エンコードされたテキストシーケンス(219)にエンコードすることと
    をさらに備える、請求項15から20のいずれか一項に記載のシステム(100)。
  22. 前記残差エンコーダ(180)が、グローバル変分オートエンコーダ(VAE)を備え、
    前記基準オーディオ信号(201)を前記変分埋め込み(220)にエンコードすることが、
    前記基準オーディオ信号(201)から前記基準メル周波数スペクトログラムシーケンスをサンプリングすることと、
    前記グローバルVAEを使用して、前記基準メル周波数スペクトログラムシーケンスを前記変分埋め込み(220)にエンコードすることと
    を備える、請求項21に記載のシステム(100)。
  23. 前記残差エンコーダ(180)が、音素レベルのきめの細かい変分オートエンコーダ(VAE)を備え、
    前記基準オーディオ信号(201)を前記変分埋め込み(220)にエンコードすることが、
    前記基準オーディオ信号(201)から前記基準メル周波数スペクトログラムシーケンスをサンプリングすることと、
    前記基準メル周波数スペクトログラムシーケンスを、前記入力テキストシーケンス(206)から抽出された音素のシーケンスにおける各音素と位置合わせすることと、
    前記音素レベルのきめの細かいVAEを使用して、前記基準メル周波数スペクトログラムシーケンスを、音素の前記シーケンスにおける各音素と位置合わせすることに基づいて、音素レベルの変分埋め込み(220)のシーケンスをエンコードすることと
    を備える、請求項21に記載のシステム(100)。
  24. 前記残差エンコーダ(180)が、軽量畳み込み(LConv)ブロックのスタックを備え、LConvブロック(420)の前記スタックにおける各LConvブロックが、
    ゲート線形ユニット(GLU)層と、
    前記GLU層(502)の出力を受信するように構成されたLConv層(504)と、
    前記LConv層(504)の出力を前記GLU層(502)への入力と連結するように構成された残余接続と、
    前記LConv層(504)の前記出力を前記GLU層(502)への前記入力と連結する前記残余接続を入力として受信するように構成された最終フィードフォワード層と
    を備える、請求項21から23のいずれか一項に記載のシステム(100)。
  25. 前記動作が、
    前記エンコードされたテキストシーケンス(219)、前記変分埋め込み(220)、および前記基準オーディオ信号(201)を発した基準話者の識別を表す基準話者埋め込みを連結することと、
    入力として、前記エンコードされたテキストシーケンス(219)、前記変分埋め込み(220)、および前記基準話者埋め込みの前記連結を受信する持続時間モデリングネットワークに基づいて、シーケンス表現(224)を生成することと
    をさらに備える、請求項21から24のいずれか一項に記載のシステム(100)。
  26. 前記入力テキストシーケンス(206)が音素のシーケンスを含み、
    前記入力テキストシーケンス(206)を前記エンコードされたテキストシーケンス(219)にエンコードすることが、
    音素ルックアップテーブルから、音素の前記シーケンスにおける各音素のそれぞれの埋め込みを受信することと、
    音素の前記シーケンスにおける各音素に対して、前記テキストエンコーダ(210)のエンコーダプレネットニューラルネットワークを使用して、前記音素のそれぞれの変換された埋め込み(209)を生成するために前記それぞれの埋め込みを処理することと、
    畳み込みブロックのバンクを使用して、畳み込み出力(213)を生成するために前記それぞれの変換された埋め込み(209)を処理することと、
    前記エンコードされたテキストシーケンス(219)を生成するために、セルフアテンションブロックのスタックを使用して前記畳み込み出力(213)を処理することと
    を備える、請求項21から25のいずれか一項に記載のシステム(100)。
  27. セルフアテンションブロックの前記スタック内の各セルフアテンションブロックが、同一の軽量畳み込み(LConv)ブロックを備える、請求項21から26のいずれか一項に記載のシステム(100)。
  28. セルフアテンションブロックの前記スタック内の各セルフアテンションブロックが、同一のトランスフォーマブロックを備える、請求項21から27のいずれか一項に記載のシステム(100)。
JP2023558226A 2021-03-22 2021-05-20 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ Pending JP2024510679A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163164503P 2021-03-22 2021-03-22
US63/164,503 2021-03-22
PCT/US2021/033310 WO2022203699A1 (en) 2021-03-22 2021-05-20 Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech

Publications (1)

Publication Number Publication Date
JP2024510679A true JP2024510679A (ja) 2024-03-08

Family

ID=76444631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023558226A Pending JP2024510679A (ja) 2021-03-22 2021-05-20 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ

Country Status (6)

Country Link
US (2) US11823656B2 (ja)
EP (1) EP4295353A1 (ja)
JP (1) JP2024510679A (ja)
KR (1) KR20230156121A (ja)
CN (1) CN117043855A (ja)
WO (1) WO2022203699A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2575423B (en) * 2018-05-11 2022-05-04 Speech Engineering Ltd Computer implemented method and apparatus for recognition of speech patterns and feedback
US11830476B1 (en) * 2021-06-08 2023-11-28 Amazon Technologies, Inc. Learned condition text-to-speech synthesis
US20230099732A1 (en) * 2021-09-30 2023-03-30 Microsoft Technology Licensing, Llc Computing system for domain expressive text to speech
US11869483B2 (en) * 2021-10-07 2024-01-09 Nvidia Corporation Unsupervised alignment for text to speech synthesis using neural networks
CN115547362B (zh) * 2022-10-24 2024-05-10 中国航空综合技术研究所 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法
CN116072098B (zh) * 2023-02-07 2023-11-14 北京百度网讯科技有限公司 音频信号生成方法、模型训练方法、装置、设备和介质
CN116564276B (zh) * 2023-04-23 2024-06-25 内蒙古工业大学 一种基于双判别器生成对抗网络的蒙古语语音识别方法
CN116825130B (zh) * 2023-08-24 2023-11-21 硕橙(厦门)科技有限公司 一种深度学习模型蒸馏方法、装置、设备及介质
CN117351324B (zh) * 2023-12-04 2024-03-01 支付宝(杭州)信息技术有限公司 通过神经网络模型进行文档图像处理的方法及装置
CN117649839B (zh) * 2024-01-29 2024-04-19 合肥工业大学 一种基于低秩适应的个性化语音合成方法
CN117809621B (zh) * 2024-02-29 2024-06-11 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US11264010B2 (en) * 2018-05-11 2022-03-01 Google Llc Clockwork hierarchical variational encoder
CN111739508B (zh) * 2020-08-07 2020-12-01 浙江大学 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
JP2022081790A (ja) * 2020-11-20 2022-06-01 株式会社日立製作所 音声合成装置、音声合成方法、および音声合成プログラム

Also Published As

Publication number Publication date
US11823656B2 (en) 2023-11-21
US20240062743A1 (en) 2024-02-22
KR20230156121A (ko) 2023-11-13
EP4295353A1 (en) 2023-12-27
CN117043855A (zh) 2023-11-10
US20220301543A1 (en) 2022-09-22
WO2022203699A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
JP2024510679A (ja) 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ
JP7108147B2 (ja) 表現用エンドツーエンド音声合成における変分埋め込み容量
US11514888B2 (en) Two-level speech prosody transfer
US20220068255A1 (en) Speech Recognition Using Unspoken Text and Speech Synthesis
US11664011B2 (en) Clockwork hierarchal variational encoder
US11908448B2 (en) Parallel tacotron non-autoregressive and controllable TTS
CN114175143A (zh) 控制端到端语音合成系统中的表达性
JP7257593B2 (ja) 区別可能な言語音を生成するための音声合成のトレーニング
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
Matoušek et al. VITS: quality vs. speed analysis
KR20240096867A (ko) 2-레벨 스피치 운율 전송
WO2023288169A1 (en) Two-level text-to-speech systems using synthetic training data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231107