JP7280386B2

JP7280386B2 - 多言語音声合成およびクロスランゲージボイスクローニング

Info

Publication number: JP7280386B2
Application number: JP2021570996A
Authority: JP
Inventors: ユ・ジャン; ロン・ジェイ・ウェイス; ビュンハ・チュン; ヨンフイ・ウ; ジフェン・チェン; ラッセル・ジョン・ワイアット・スケリー－ライアン; イェ・ジア; アンドリュー・エム・ローゼンバーグ; ブヴァナ・ラマバドラン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-05-31
Filing date: 2020-04-22
Publication date: 2023-05-23
Anticipated expiration: 2040-04-22
Also published as: EP3966804A1; US11580952B2; KR102581346B1; JP2022534764A; US20230178068A1; US20200380952A1; WO2020242662A1; CN113892135A; KR20220004737A

Description

本開示は、多言語音声合成およびクロスランゲージボイスクローニングに関する。

最近のエンドツーエンド(E2E)ニューラル音声読み上げ(TTS)モデルは、テキストに加えて潜在表現に関して音声合成を条件付けることによって、話者識別、ならびにラベルなし音声属性(unlabeled speech attribute)、たとえばプロソディの制御を可能にする。複数の無関係の言語をサポートするようにこうしたTTSモデルを拡張することは、言語依存の入力表現またはモデル構成要素を使用するとき、特に言語当たりのトレーニングデータ量が不均衡であるときには自明ではない。

例として、標準中国語と英語などのいくつかの言語間には、テキスト表現にほとんど、または全く共通部分がないことがある。バイリンガル話者の録音を収集することは費用がかかるので、トレーニングセット内の各話者がただ1つの言語を話す一般的なケースでは、話者識別が完全に言語と相関付けられる。これにより、特に特定の言語についての利用可能なトレーニングボイスの数が少ないときには望ましい機能である、相異なる言語間でボイスを複製することが難しくなる。さらに、スペイン語(ES)や英語(EN)での固有名詞などの、借用または共用される単語を用いる言語では、同一のテキストの発音が異なることがある。このことにより、ネイティブにトレーニングされたモデルが時には特定の話者についてアクセントのある音声を生成するとき、より多くの曖昧さが加えられる。

J. Shen他、「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」 Li他、「Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes」

本開示の一態様は、入力テキストシーケンスから音声を合成するための方法を提供する。方法は、データ処理ハードウェアにおいて、第1の言語の音声に合成されるべき入力テキストシーケンスを受け取るステップと、データ処理ハードウェアによって、ターゲット話者のボイスをクローニングする音声に入力テキストシーケンスを合成するための、ターゲット話者の特定のボイス特徴を指定する話者埋込み(speaker embedding)を取得するステップとを含む。ターゲット話者は、第1の言語とは異なる第2の言語の母語話者を含む。方法はまた、データ処理ハードウェアにより、音声読み上げ(TTS)モデルを使用して、入力テキストシーケンスおよび話者埋込みを処理することによって入力テキストシーケンスの出力オーディオ特徴表現を生成するステップも含む。出力オーディオ特徴表現は、話者埋込みによって指定されるターゲット話者のボイス特徴を含む。

本開示の実装は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装では、方法はまた、データ処理ハードウェアによって、言語依存情報を指定する言語埋込みを取得するステップも含む。こうした実装では、入力テキストおよび話者埋込みを処理するステップは、入力テキスト、話者埋込み、および言語埋込みを処理して、入力テキストの出力オーディオ特徴表現を生成するステップをさらに含み、出力オーディオ特徴表現は、言語埋込みによって指定される言語依存情報をさらに有する。言語依存情報は、ターゲット話者の第2の言語に関連付けられ得、言語依存情報を指定する言語埋込みは、1人または複数の異なる話者によって第2の言語で話されたトレーニング発話から取得され得る。他の例では、言語依存情報は第1の言語に関連付けられ得、言語依存情報を指定する言語埋込みは、1人または複数の異なる話者によって第1の言語で話されたトレーニング発話から取得され得る。

いくつかの例では、入力テキストの出力オーディオ特徴表現を生成するステップは、複数の時間ステップのそれぞれについて、エンコーダニューラルネットワークを使用して、時間ステップについての入力テキストシーケンスのそれぞれの部分を処理し、時間ステップについての対応するテキスト符号化を生成するステップと、デコーダニューラルネットワークを使用して、時間ステップについてのテキスト符号化を処理し、時間ステップについての対応する出力オーディオ特徴表現を生成するステップとを含む。ここで、エンコーダニューラルネットワークは、畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を含み得る。さらに、デコーダニューラルネットワークは、長短期記憶(LSTM)サブネットワーク、一次変換、および畳み込みサブネットワークを含む自己回帰ニューラルネットワークを含み得る。

出力オーディオ特徴表現はメル周波数スペクトログラムを含み得る。いくつかの実装では、方法はまた、データ処理ハードウェアによって、波形合成器を使用して、出力オーディオ特徴表現を時間領域波形に反転するステップと、データ処理ハードウェアによって、時間領域波形を使用して、第1の言語のターゲット話者のボイスをクローニングする入力テキストシーケンスの合成音声表現を生成するステップも含む。

TTSモデルは、第1の言語トレーニングセットおよび第2の言語トレーニングセットに関してトレーニングされ得る。第1の言語トレーニングセットは、第1の言語で話された複数の発話と、対応する基準テキストとを含み、第2の言語トレーニングセットは、第2の言語で話された複数の発話と、対応する基準テキストとを含む。追加の例では、TTSモデルは、1つまたは複数の追加の言語トレーニングセットに関してさらにトレーニングされ、1つまたは複数の追加の言語トレーニングセットのそれぞれの追加の言語トレーニングセットは、それぞれの言語で話された複数の発話と、対応する基準テキストとを含む。ここで、それぞれの追加の言語トレーニングセットのそれぞれの言語は、それぞれの他の追加の言語トレーニングセットのそれぞれの言語とは異なり、第1および第2の言語とは異なる。

入力テキストシーケンスは、文字入力表現または音素入力表現に対応し得る。任意選択で、入力テキストシーケンスは8ビットUnicode Transformation Format(UTF-8)符号化シーケンスに対応し得る。

本開示の別の態様は、入力テキストシーケンスから音声を合成するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信しており、データ処理ハードウェアによって実行されるとき、データ処理ハードウェアに動作を実施させる命令を記憶するメモリハードウェアとを含む。動作は、第1の言語の音声に合成されるべき入力テキストシーケンスを受け取ること、およびターゲット話者のボイスをクローニングする音声に入力テキストシーケンスを合成するための、ターゲット話者の特定のボイス特徴を指定する話者埋込みを取得することを含む。ターゲット話者は、第1の言語とは異なる第2の言語の母語話者を含む。動作はまた、音声読み上げ(TTS)モデルを使用して、入力テキストシーケンスおよび話者埋込みを処理することによって入力テキストシーケンスの出力オーディオ特徴表現を生成することも含む。出力オーディオ特徴表現は、話者埋込みによって指定されるターゲット話者のボイス特徴を含む。

この態様は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装では、動作はまた、言語依存情報を指定する言語埋込みを取得することも含む。こうした実装では、入力テキストおよび話者埋込みを処理することは、入力テキスト、話者埋込み、および言語埋込みを処理して、入力テキストの出力オーディオ特徴表現を生成することをさらに含み、出力オーディオ特徴表現は、言語埋込みによって指定される言語依存情報をさらに有する。言語依存情報は、ターゲット話者の第2の言語に関連付けられ得、言語依存情報を指定する言語埋込みは、1人または複数の異なる話者によって第2の言語で話されたトレーニング発話から取得され得る。他の例では、言語依存情報は第1の言語に関連付けられ得、言語依存情報を指定する言語埋込みは、1人または複数の異なる話者によって第1の言語で話されたトレーニング発話から取得され得る。

いくつかの例では、入力テキストの出力オーディオ特徴表現を生成することは、複数の時間ステップのそれぞれについて、エンコーダニューラルネットワークを使用して、時間ステップについての入力テキストシーケンスのそれぞれの部分を処理し、時間ステップについての対応するテキスト符号化を生成すること、およびデコーダニューラルネットワークを使用して、時間ステップについてのテキスト符号化を処理し、時間ステップについての対応する出力オーディオ特徴表現を生成することを含む。ここで、エンコーダニューラルネットワークは、畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を含み得る。さらに、デコーダニューラルネットワークは、長短期記憶(LSTM)サブネットワーク、一次変換、および畳み込みサブネットワークを含む自己回帰ニューラルネットワークを含み得る。

出力オーディオ特徴表現はメル周波数スペクトログラムを含み得る。いくつかの実装では、動作はまた、波形合成器を使用して、出力オーディオ特徴表現を時間領域波形に反転すること、および時間領域波形を使用して、第1の言語のターゲット話者のボイスをクローニングする入力テキストシーケンスの合成音声表現を生成することも含む。

本開示の1つまたは複数の実装の詳細が、添付の図面と、以下の記述で説明される。記述および図面、ならびに特許請求の範囲から、他の態様、特徴、および利点が明らかとなるであろう。

複数の言語で高品質音声を生成することのできる拡張型音声読み上げ(TTS)モデルの概略図である。図1のTTSモデルの復号化ニューラルネットワークの例示的復号化アーキテクチャの概略図である。入力テキストシーケンスから合成音声を生成する方法についての動作の例示的構成である。本明細書で説明されるシステムおよび方法を実装するために使用することのできる例示的コンピューティングデバイスの概略図である。

様々な図面内の同様の参照符号は同様の要素を示す。

本明細書での実装は、エンドツーエンド(E2E)音声読み上げ(TTS)モデルを、複数の言語で高品質音声を生成することのできる複数話者多言語TTSモデルとして改善することを対象とする。具体的には、モデルは、第1の母語で語句の入力テキストを受け取り、第1の母語とは異なる第2の母語で語句の合成音声を生成することができる。さらに、TTSモデルは、第1の母語(たとえば、英語)話者のボイスを使用して、どんなバイリンガルまたはパラレルトレーニング例に関するTTSモデルのトレーニングも必要とすることなく、第2の母語(たとえば、スペイン語)で流暢な音声を合成することによって、相異なる母語にわたってボイスを複製することができる。特に、TTSモデルは、英語と標準中国語などの、関係が遠い(たとえば、ほとんど、または全く共通部分がない)言語にわたってボイス複製が可能である。

図1を参照すると、いくつかの実装では、複数話者多言語TTSモデル100が、推論ネットワーク101、敵対的損失モジュール107、および合成器111を含む。推論ネットワーク101は、音声発話に対応する入力オーディオ特徴104を消費し、オーディオ特徴104の残留符号化成分105を出力するように構成される残留エンコーダ(residual encoder)102を含む。オーディオ特徴104は入力メルスペクトログラム表現を含み得る。合成器111は、テキストエンコーダ112、話者埋込みモジュール116、言語埋込みモジュール117、およびデコーダニューラルネットワーク118を含む。テキストエンコーダ112は、畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を有するエンコーダニューラルネットワークを含み得る。デコーダニューラルネットワーク118は、テキストエンコーダ112、話者埋込みモジュール116、および言語埋込みモジュール117から出力115、116a、117aを入力として受け取り、出力メルスペクトログラム119を生成するように構成される。最後に、波形合成器125が、デコーダニューラルネットワーク118から出力されたメルスペクトログラム119を、特定の自然言語での入力テキストシーケンスの口頭発話の時間領域波形126、すなわち入力テキストシーケンス114の合成音声表現に反転し得る。いくつかの実装では、波形合成器はGriffin-Lim合成器である。いくつかの他の実装では、波形合成器はボコーダである。たとえば、波形合成器125はWaveRNNボコーダを含み得る。ここで、WaveRNNボコーダ125は、TTSモデル100によって予測されるスペクトログラムに関して条件付けられる、24kHzでサンプリングされた16ビット信号を生成し得る。いくつかの他の実装では、波形合成器はトレーニング可能スペクトログラム-波形反転器である。波形合成器125が波形を生成した後、オーディオ出力システムが、波形126を使用して音声150を生成し、生成した音声150を、たとえばユーザデバイス上での再生のために提供し、または生成された波形126を別のシステムに提供して、その別のシステムが音声を生成および再生することを可能にし得る。いくつかの例では、WaveNetニューラルボコーダが波形合成器125に取って代わる。WaveNetニューラルボコーダは、波形合成器125によって生成される合成音声と比べて、異なるオーディオ忠実度の合成音声を提供し得る。

テキストエンコーダ112は、入力テキストシーケンス114をテキスト符号化のシーケンス115、115a～nに符号化するように構成される。いくつかの実装では、テキストエンコーダ112は、入力テキストシーケンスの順次特徴表現を受け取って、デコーダニューラルネットワーク118の各出力ステップについて、対応するテキスト符号化を固定長コンテキストベクトルとして生成するように構成されるアテンションネットワークを含む。すなわち、テキストエンコーダ112でのアテンションネットワークは、デコーダニューラルネットワーク118が後に生成することになるメル周波数スペクトログラム119の各フレームについて、固定長コンテキストベクトル115、115a～nを生成し得る。フレームは、入力信号の小部分、たとえば入力信号の10ミリ秒サンプルに基づくメル周波数スペクトログラム119の単位である。アテンションネットワークは、エンコーダ出力の各要素についての重みを決定し得、各要素の重みつき和を決定することによって固定長コンテキストベクトル115を生成する。アテンション重みは、各デコーダ時間ステップについて変化し得る。

したがって、デコーダニューラルネットワーク118は、固定長コンテキストベクトル(たとえば、テキスト符号化)115を入力として受け取り、メル周波数スペクトログラム119の対応するフレームを出力として生成するように構成される。メル周波数スペクトログラム119は音の周波数領域表現である。メル周波数スペクトログラムは、音声了解度にとって重要な低周波数を強調すると共に、摩擦音および他の雑音バーストによって占められ、一般には高忠実度でモデル化する必要のない高周波数をデエンファシスする。

いくつかの実装では、デコーダニューラルネットワーク118は、入力テキストシーケンス114に基づいて、出力ログメルスペクトログラムフレーム、たとえば出力メルスペクトログラム119のシーケンスを生成するように構成されたアテンションベースのシーケンス-シーケンスモデルを含む。たとえば、デコーダニューラルネットワーク118は、Tacotron 2モデル(参照により本明細書に組み込まれる、たとえばhttps://arxiv.org/abs/1712.05884の、J. Shen他による「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」を参照)に基づき得る。TTSモデル100は、追加の話者入力116a(たとえば、話者埋込み構成要素116)、および任意選択で、言語埋込み入力117a(たとえば、言語埋込み構成要素117)、敵対的にトレーニングされた話者分類器(adversarially-trained speaker classifier)(たとえば、話者分類器構成要素110)、および変分オートエンコーダ式残留エンコーダ(variational autoencoder-style residual encoder)(たとえば、残留エンコーダ102)でデコーダニューラルネットワーク118を増強する拡張型多言語TTSモデルを提供する。

話者分類器構成要素110、残留エンコーダ102、話者埋込み構成要素116、および/または言語埋込み構成要素117のうちの1つまたは複数でアテンションベースのシーケンス-シーケンスデコーダニューラルネットワーク118を増強する拡張型多言語TTSモデル100は特に、多くの肯定的な結果をもたらす。すなわち、TTSモデル100は、相異なる自然言語にわたるモデル容量の共用を促すために、入力テキストシーケンス114についての音素の入力表現の使用を可能にし、音声内容から、トレーニングデータ内で使用される言語に完全に相関する、モデル100がどのように話者識別を表すかを解きほぐす(disentangle)ようにモデル100に促すために、敵対的損失用語(adversarial loss term)108を組み込む。それぞれの異なる自然言語についての複数の話者に関する別のトレーニングによって、拡張型多言語TTSモデル100をスケールアップするように促進され、トレーニング中にデコーダニューラルネットワーク118のアテンションを安定化するために自動符号化入力(たとえば、残留符号化成分)105を組み込むことによって、モデル100が、トレーニング中に見られるすべての言語において、かつ母語または外国語のアクセントで、トレーニング話者10についての明瞭な音声150を一貫して合成することが可能になる。

特に、デコーダニューラルネットワーク118に適用される前述の条件付け拡張(conditioning extension)(たとえば、構成要素105、110、116、117)は、複数の異なる言語での高品質音声合成を可能にするように単一言語話者に関するモデル100のトレーニングを可能にすると共に、相異なる言語にわたるトレーニングボイスの複製を可能にする。さらに、モデル100は、中程度のアクセントの制御で外国語を話すことを学習し、コード切換え/混合に対するサポートを有する。本明細書での実装は、大量の低品質品質トレーニングデータを活用し、多くの話者および多くの言語をサポートすることによって、トレーニングデータ量をスケールアップすることを可能にする。

複数の異なる言語、たとえば英語、スペイン語、および標準中国語のそれぞれの1人の話者に関するトレーニングのためのUnicode符号化「バイト」入力表現に依拠する従来型多言語TTSシステムとは異なり、拡張型多言語TTSモデル100は、様々な入力表現を評価し、各言語についてのトレーニング話者の数をスケールアップし、クロスリンガルボイスクローニングをサポートするように拡張される。特に、TTSモデル100は、言語特有の構成要素のない単一の段階においてトレーニングされ、ターゲット外国語での合成音声の自然性(naturalness)を得る。ここで、合成音声の「自然性」という用語は、合成音声のアクセントがターゲット自然言語の母語話者のアクセントとどれほど合致しているかを指す。「自然性」は、得られる音声が最も自然と評価されるのが「5」の評価である、1から5までの0.5の増分の評価スケールで合成音声の自然性を評価する主観的リスニングテストを介する音声自然性のクラウドソーシングされた平均オピニオンスコア(MOS)評価に基づき得る。逆に、クロスランゲージボイスクローニングでは、合成音声の「類似性」とは、ターゲット言語での合成音声の各発話を、同一の話者から話された対応する基準発話と対にすることによって、合成音声が基準話者の識別にどれほど類似しているかを指す。主観的リスニングテストはまた、音声類似性のクラウドソーシングされたMOS評価を使用し、得られる音声が基準話者の識別に最も「類似」していると評価されるのが「5」の評価である、1から5までの0.5の増分の同一の評価スケールを使用して、合成音声の「類似性」を評価し得る。Unicode符号化「バイト」入力表現に関するトレーニングの追加の詳細が、参照により本明細書に組み込まれる、https://arxiv.org/abs/1811.09021において見出される、Li他による「Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes」の中で見出され得る。

次に図2を参照すると、デコーダニューラルネットワーク118についての例示的デコーダアーキテクチャ200が、前の時間ステップについてのメル周波数スペクトログラム予測が通過するプリネット210を含む。プリネット210は、隠れReLUの2つの全結合層を含み得る。プリネット210は、収束速度を向上させ、トレーニング中の音声合成システムの一般化能力を改善するように、アテンションを学習するための情報ボトルネックとして働く。推論時に出力変動を導入するために、確率0.5のドロップアウトがプリネット内の層に適用され得る。

デコーダアーキテクチャ200は、いくつかの実装では、2つ以上のLSTM層を有する長短期記憶(LSTM)サブネットワーク220も含む。各時間ステップにおいて、LSTMサブネットワーク220は、時間ステップについてのプリネット210の出力と固定長コンテキストベクトル202の連結を受け取る。LSTM層は、たとえば0.1の確率のゾーンアウトを使用して正則化され得る。線形射影230が、LSTMサブネットワーク220の出力を入力として受け取り、メル周波数スペクトログラム119Pの予測を生成する。

いくつかの例では、1つまたは複数の畳み込み層を有する畳み込みポストネット240が、時間ステップについて予測されるメル周波数スペクトログラム119Pを処理し、加算器244において予測メル周波数スペクトログラム119Pに加えるための残留242を予測する。これによって全体の再構成が改善される。最終畳み込み層を除く各畳み込み層の後に、バッチ正規化および双曲線正接(TanH)活動化が続く。畳み込み層は、たとえば0.5の確率のドロップアウトを使用して正則化される。残留242が、線形射影230によって生成された予測メル周波数スペクトログラム119Pに加えられ、和(すなわち、メル周波数スペクトログラム119)がボコーダ125に提供され得る。

いくつかの実装では、各時間ステップについてのメル周波数スペクトログラム119を予測するデコーダニューラルネットワーク118と並列に、LSTMサブネットワーク220の出力と固定長コンテキストベクトル115(たとえば、図1のテキストエンコーダ112から出力されたテキスト符号化)の連結がスカラに射影され、S字形活動化を通過し、メル周波数スペクトログラム119の出力シーケンスが完了した確率が予測される。この「停止字句(stop token)」予測が推論中に使用され、固定の持続時間にわたって常に生成するのではなく、生成をいつ終了するかをモデルが動的に決定することが可能となる。生成が終了したことを停止字句が示すとき、すなわち停止字句確率がしきい値を超えるとき、デコーダニューラルネットワーク118は、メル周波数スペクトログラム119Pの予測を停止し、その時点までに予測されるメル周波数スペクトログラムを返す。代替として、デコーダニューラルネットワーク118は、同一の長さ(たとえば、10秒)のメル周波数スペクトログラム119を常に生成し得る。

図1に戻ると、TTSモデル100は、英語を話すユーザ10のコンピューティングデバイス120上で実装される。ユーザデバイス120は、データ処理ハードウェア121と、データ処理ハードウェア121上で実行されるとき、ユーザ10から音声入力140を受け取り、TTSモデル100から合成音声150を出力するように構成されたオーディオサブシステムをデータ処理ハードウェア121に実行させる命令を記憶するメモリハードウェア123とを含む。この例ではユーザデバイス120にはモバイルデバイスが含まれるが、ユーザデバイス120の他の例には、スマートフォン、タブレット、モノのインターネット(IoT)デバイス、ウェアラブルデバイス、デジタルアシスタントデバイス、またはデスクトップもしくはラップトップコンピュータなどの任意のタイプのコンピューティングデバイスが含まれる。他の例では、TTSモデル100の構成要素の一部またはすべてが、ユーザデバイス120と通信している、分散コンピューティングシステムのサーバなどのリモートコンピューティングデバイス上に常駐する。

図1はまた、ユーザ10とユーザデバイス120との間の例示的対話を示す。段階Aにおいて、デバイス120は、第1の自然言語の英語で「オーケイコンピュータ、フランス語で「トイレはどこですか?」と言って(Okay computer, say 'Where is the bathroom?' in French.)」と述べるユーザ10からの音声入力140を取り込む。発話は、段階BにおいてTTSモデル100によって処理され、段階Cにおいて、TTSモデル100は、完璧なアクセントのフランス語で、ユーザ10のボイスをクローニング(たとえば、ボイス複製)して、「Ou se trouvent les toilettes?」と述べる合成音声150を出力する。TTSモデル100は、ユーザ10がフランス語を話さないにも関わらず、かつデコーダニューラルネットワーク118がフランス語の発話を話すユーザ10のどんなサンプルを用いてもトレーニングされないにも関わらず、ユーザ10のボイスをフランス語の合成音声150に複製することができる。この例では、音声認識器が、音声入力140を母語フランス語の入力テキストシーケンス114に変換し得る。ここで、音声認識器は、第1の自然言語(たとえば、英語)でのオーディオを、第2の自然言語(たとえば、フランス語)での対応するテキストに文字起こしするように構成された多言語音声認識器であり得る。代替として、音声認識器は、オーディオを第1の母語での対応するテキストに文字起こしし得、翻訳器が、テキストを異なる第2の自然言語での入力テキストシーケンス114に字訳し得る。

いくつかの実装では、推論ネットワーク101の残留エンコーダ102は、トレーニング発話の入力オーディオ特徴104からの、プロソディや背景雑音などの潜在的因子を残留符号化成分105に符号化する変分オートエンコーダに対応する。ここで、残留符号化成分105は潜在的埋込みに対応する。こうした潜在的因子は一般に、トレーニング中のデコーダニューラルネットワーク118への条件付き入力において十分に表現されず、それによって、条件付き入力は、対応するトレーニング発話を表す入力テキストシーケンス114と、トレーニング発話の話者に関連付けられる話者埋込み116と、トレーニング発話の母語に関連付けられる言語埋込み117とを含み得る。したがって、残留エンコーダ102は、トレーニング中に残留符号化成分105をデコーダニューラルネットワーク118に渡し、トレーニング発話の入力オーディオ特徴104(たとえば、ターゲット入力メルスペクトログラム表現)から取得された潜在的埋込みに関してデコーダニューラルネットワーク118を条件付ける。推論中、推論ネットワーク101は、クロスリンガル話者複製の安定性を改善するために、単に事前平均(たとえば、オールゼロ)をデコーダニューラルネットワーク118に渡し、得られる合成音声150の自然性が改善される。

TTSモデル100は、入力テキストシーケンス114についての相異なるテキスト表現の使用の効果を評価し得る。たとえば、テキスト表現は、たとえばテキストエンコーダ112によって生成された、文字もしくは音素入力表現、またはそのハイブリッドを含み得る。各文字または文字素に対応する埋込み(たとえば、テキスト符号化115)は一般に、入力語をどのように発音するか、すなわち音声合成タスクの部分としての文字素-音素変換をTTSシステムが暗黙的に学習することを必要とする、E2E TTSシステムについてのデフォルト入力である。文字素ベースの入力語彙を多言語設定に拡張することは、各言語についてのトレーニングコーパス内の文字素集合を単に連結することによって行われる。これは、大規模な字母(large alphabet)を有する言語では急速に増大し得、たとえば標準中国語語彙は4.5kを超える字句を含む。いくつかの実装では、トレーニングコーパス内に出現するすべての文字素が連結され、合計4,619個の字句となる。同等の文字素が言語にわたって共用される。推論中、すべての以前に見ていない文字が、特別なout-of-vocabulary(OOV)記号にマッピングされ得る。

いくつかの例では、テキスト表現が、1から4つの1バイト(8ビット)コード単位を使用してUnicodeでのすべての1,112,064個の有効なコードポイントを符号化することのできる多言語設定での可変幅文字符号化に対応する8ビットUnicode Transformation Format(UTF-8)から導出される。したがって、本明細書での実装は、各入力字句(たとえば、テキスト符号化115)として256個の可能な値を使用することによって、入力テキストシーケンス114の表現をUTF-8符号化に基づくものにし得、文字素からバイトへのマッピングは言語に依存する。単一バイト文字を用いる言語、たとえば英語では、この表現は文字素表現と同等である。しかしながら、マルチバイト文字を用いる言語、たとえば標準中国語では、TTSモデルは、対応する音声を正しく生成するために、一貫したバイトのシーケンスを処理することを学習しなければならない。一方、UTF-8バイト表現を使用することによって、入力字句数が少ないために言語間の表現の共用が促進され得る。

一方、音素入力表現は、モデル100が英語などの言語についての複雑な発音規則を学習する必要をなくすことによって音声合成タスクを単純化し得る。文字素ベースのモデルと同様に、同等の音素が言語にわたって共用される。合計88個の字句について、すべての可能な音素記号が連結される。

標準中国語言語を合成することを学習するために、モデル100は、4つの可能な声調のそれぞれについて音素に依存しない埋込みを学習することによって声調情報を組み込み、各声調埋込みを対応する音節内のすべての音素埋込みにブロードキャストし得る。英語やスペイン語などの言語では、声調埋込みが、第1および第2強勢を含む強勢埋込みに置き換えられる。特殊記号が、声調なしまたは強勢なしの場合を示し得る。

いくつかの言語が数人の話者についてのトレーニング発話を有するだけであり得る、トレーニングデータの散在によって、相異なる言語にわたって高品質合成音声を生成するように多言語TTSモデル100をトレーニングすることが難しくなる。たとえば、トレーニングデータ内に言語当たりただ1人の話者がいる極限のシナリオでは、話者識別と言語識別子(ID)は本質的に同一である。いくつかの実装では、TTSモデル100は、各テキスト符号化115が話者情報も取り込むことを事前に妨げるためのドメイン敵対的トレーニングを利用するために敵対的損失モジュール107を組み込む。こうした実装では、敵対的損失モジュール107は、テキスト符号化115を受け取り、敵対的損失用語108を生成する勾配反転構成要素109と、テキスト符号化115および敵対的損失用語108に基づいて話者ラベルs_iを生成する話者分類器110とを含む。したがって、ドメイン敵対的トレーニングは、話者に依存しない方式でテキストを符号化するための勾配反転構成要素109および話者分類器110を導入することによって、モデル100がテキスト符号化115および話者識別の解きほぐし表現を学習することを促す。

話者分類器がモデルの残りの部分とは異なる目的で最適化されること、具体的には

ここで、t_iはテキスト符号化であり、s_iは話者ラベルであり、Ψ_sは話者分類器についてのパラメータであることに留意されたい。完全なモデルをトレーニングするために、この話者分類器110の前に、勾配をλ倍にスケーリングする勾配反転構成要素109(たとえば、勾配反転層)が挿入される。任意選択で、話者に依存しない表現を学習するように変分オーディオエンコーダに促すために、別の敵対的層が変分オーディオエンコーダの上端に挿入され得る。

敵対的損失モジュール107は、言語に依存しない話者埋込み116空間を学習するようにTTSモデル100に促すために、テキスト符号化115の各要素に対して別々に敵対的損失用語108を課す。したがって、各言語についてただ1人のトレーニング話者が利用可能であるときにクロスリンガルボイス複製を可能にするように、敵対的損失用語108は入力字句ごとに導入される。背景雑音から話者識別を解きほぐした技法とは対照的に、いくつかの入力字句(たとえば、テキスト符号化115)は非常に言語に依存し、それによって不安定な敵対的分類器勾配となり得る。したがって、本明細書での実装は、そのような異常値の影響を制限するように勾配反転構成要素109から出力される勾配を切り取ることによって、この問題に対処する。いくつかの例では、勾配反転構成要素109は、因子0.5の勾配切り取りを適用する。

いくつかの例では、TTSモデル100は、英語(EN)、スペイン語(ES)、および標準中国語(CN)の3つの言語のそれぞれにおいて複数の話者からの高品質音声発話のトレーニングセットを使用してトレーニングされる。いくつかの例では、3つの言語にわたるトレーニング発話は不均衡である。たとえば、英語トレーニング音声発話は、米国、英国、オーストラリア、およびシンガポールのアクセントのある84人のプロフェッショナル声優からの385時間を含み得、スペイン語トレーニング音声発話は、カスティリャおよび米国ベースのスペイン語アクセントのある3人の女性話者からの97時間を含むだけであり、標準中国語トレーニング音声発話は、5人の話者からの68時間のみを含む。

デコーダニューラルネットワーク118は、各デコーダステップにおいて、64次元話者埋込み116と3次元話者埋込み117の連結を受け取り得る。合成音声150は、12.5ミリ秒だけシフトされる50ミリ秒ウィンドウから計算され得る、デコーダニューラルネットワークから出力された128次元ログメルスペクトログラムフレーム119のシーケンスによって表される。さらに、変分オートエンコーダ102(たとえば、残留エンコーダ)は、可変長メルスペクトログラム104を、ガウス事後分布(Gaussian posterior)の平均および対数分散をパラメータ化する2つのベクトルにマッピングするアーキテクチャを含み得る。話者分類器110は、1つの256単位隠れ層と、その後に続く、話者識別を予測するソフトマックスとを有する全結合ネットワークを含み得る。いくつかの例では、合成器111および話者分類器110が、それぞれ重み1.0および0.02でトレーニングされる。いくつかの例では、波形合成器125は、モデル当たり100個のサンプルを合成するWaveRNNボコーダ125を含み、それによって、各サンプルは6人の評価者によって評価される。WaveRNNボコーダ125の使用によって、MOS評価と同様に分散量を制限するように高忠実度オーディオに関連付けられる時間領域波形126を生成することが可能となる。

各言語について、本明細書での技法は、類似性テストのために使用する1人の話者を選ぶ。テストする際に、英語話者は、スペイン語話者および標準中国語話者とは異なることが判明した(MOS2.0未満)が、スペイン語話者と標準中国語話者は少し類似している(MOS約2.0)。標準中国語話者は、英語およびESと比べてより自然な変動性を有し、自己類似性が低くなる。

英語および標準中国語評価者が同一の英語および標準中国語テストセットを評価するとき、MOSスコアは一貫している。具体的には、評価者は各言語にわたって話者間を区別することができる。しかしながら、合成音声を評価するとき、英語を話す評価者はしばしば、「強いアクセント」の合成標準中国語音声が、同一の話者からのより流暢な音声と比べてターゲット英語話者により類似しているように聞こえると判断することが観察された。

すべての3つの言語(たとえば、英語、スペイン語、および標準中国語)について、バイトベースのモデルは256次元ソフトマックス出力を使用する。単一言語文字および音素モデルはそれぞれ、トレーニング言語に対応する、異なる入力語彙を使用し得る。テストは、標準中国語について、音素ベースのテキスト符号化に関してTTSモデル100をトレーニングすることが、まれな単語およびout-of-vocabulary(OOV)単語のために、character0またはバイトベースの変形形態に関してTTSモデル100がトレーニングされるときよりも著しく良好であることを示した。簡単のために、トレーニング中に単語境界は追加されなかった。複数話者モデルは、言語当たり単一話者変形形態(single speaker per-language variant)とほぼ同一に動作する。全体的に、音素入力を使用するとき、すべての言語は4.0より高いMOSスコアを取得する。

いくつかの実装では、TTSモデル100のクロスランゲージボイスクローニング性能は、たとえば、入力テキスト114からの異なる言語に対応する話者埋込み構成要素116から、単に話者埋込み116aを渡すことによって、得られる合成音声150がターゲット話者のボイスをどれほど良好に新しい言語にクローニングするかを評価する。話者敵対的損失108を使用することなく、各トレーニング言語(1EN 1ES 1CN)について単一の話者のみが利用可能である最もデータが不十分なシナリオにおいて、英語話者からのボイスクローニング性能を示すためにテストが実施された。文字またはバイトテキスト符号化115入力を使用して、自然性が著しく低下したが、高い類似性MOSで英語話者をスペイン語にクローニングすることが可能であった。しかしながら、英語ボイスを標準中国語にクローニングすることは失敗し、音素入力を使用してスペイン語および標準中国語にクローニングすることも同様であった。敵対的話者分類器を追加することによって、バイトモデルと音素モデルの両方について非常に高い類似性MOSで標準中国語への英語話者のクロスランゲージクローニングが可能となった。音素ベースのテキスト符号化115の使用は、発音が正しく、より流暢な音声となることを保証するために使用され得る。

敵対的損失用語108を組み込むことは、強制的にテキスト表現114の言語特有性を低くさせ、その代わりに、たとえば言語埋込み構成要素117からの言語埋込み117aを利用して、言語依存情報を取り込ませる。すべての言語対にわたって、モデル100は、約3.9以上の自然性MOSですべてのボイス内の音声150を合成することができる。

高い自然性および類似性MOSスコアは、モデルが英語ボイスをほぼアクセントなしにスペイン語と標準中国語の両方に首尾よく複製することができることを示す。ターゲット言語の如何に関わらず英語埋込みに関して一貫して条件付けるとき、モデルは、より英語のアクセントの付いたスペイン語および標準中国語音声を生成し、それによって自然性が低くなるが、類似性MOSスコアが高くなる。

最後に、テストは、変分残留エンコーダ102を使用してモデル出力を安定化するトレーニングの重要性を実証している。残留エンコーダ102がないと、EN-CNクローニングについて自然性MOSが0.4ポイント減少する。2つのモデルの出力を比較すると、本明細書によって説明される技法は、残留エンコーダ102のないモデルが、出力音声において、まれな単語をスキップする傾向があり、または不自然な休止を挿入することを示している。これは、VAEがアテンションを安定化するのを助けるモードを事前に学習することを示す。

図3は、ターゲット話者10のボイスをクローニングする音声を合成する方法300についての動作の例示的構成のフローチャートを示す。動作302において、方法300は、データ処理ハードウェア121において、第1の言語の音声150に合成されるべき入力テキストシーケンス114を受け取ることを含む。たとえば、第1の言語はスペイン語を含み得る。入力テキストシーケンス114は、文字入力表現(たとえば、文字素)、音素入力表現、または文字と音素の組合せを含むハイブリッド表現に対応し得る。いくつかの他の例では、テキスト入力シーケンス114は8ビットUnicode Transformation Format(UTF-8)符号化シーケンスを含む。

動作304において、方法300は、データ処理ハードウェア121において、ターゲット話者10のボイスをクローニングする音声150に入力テキストシーケンス114を合成するための、ターゲット話者10のボイス特徴を指定する話者埋込み116aを取得することを含む。ターゲット話者10は、第1の言語とは異なる第2の言語の母語話者を含む。たとえば、ターゲット話者10は英語を母語として話し得る。さらに、第1の言語はターゲット話者10にとって外国語であり得、したがってターゲット話者10は第1の言語を話すことができず、または理解することができない。話者埋込み116aは話者に関連付けられ得る。話者埋込み116aは、音声読み上げ(TTS)モデル100のトレーニング中に、ターゲット話者によって第2の言語(たとえば、英語)で話されたトレーニング発話に基づいて学習され得る。いくつかの実装では、TTSモデル100は、トレーニング発話に対応するテキスト符号化115が話者情報も取り込むことを事前に妨げるためのドメイン敵対的トレーニングを利用するために敵対的損失モジュール107を組み込む。これらの実装では、敵対的損失モジュール107は、テキスト符号化115を受け取り、敵対的損失用語108と、テキスト符号化115および敵対的損失用語108に基づいて話者ラベルs_iを生成する話者分類器110とを生成する勾配反転構成要素109を含む。

動作306において、方法はまた、データ処理ハードウェア121によって、TTSモデル100を使用して、入力テキストシーケンス114および話者埋込み116aを処理することによって入力テキストシーケンス114の出力オーディオ特徴表現118を生成することも含む。出力オーディオ特徴表現118は、話者埋込み116aによって指定されるターゲット話者10のボイス特徴を有する。

方法300はさらに、言語依存情報を指定する言語埋込み117aを取得し、入力テキストシーケンス114および話者埋込み116aを処理する間に言語埋込み117aを処理して、出力オーディオ特徴表現118を生成し得る。いくつかの例では、言語依存情報は、ターゲット話者の第2の言語に関連付けられ、言語依存情報を指定する言語埋込み117aは、1人または複数の異なる話者によって第2の言語で話されたトレーニング発話から取得される。他の例では、言語依存情報は第1の言語に関連付けられ、言語依存情報を指定する言語埋込み117aは、1人または複数の異なる話者によって第1の言語で話されたトレーニング発話から取得される。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「app」、または「プログラム」と呼ばれることがある。例示的アプリケーションには、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションが含まれる。

非一時的メモリは、コンピューティングデバイスによる使用のためにプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および/または不揮発性アドレス指定可能半導体メモリであり得る。不揮発性メモリの例には、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常はブートプログラムなどのファームウェアのために使用される)が含まれる。揮発性メモリの例には、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープが含まれる。

図4は、本文書において説明されるシステムおよび方法を実装するために使用され得る例示的コンピューティングデバイス400の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すものとする。ここで示される構成要素、その接続および関係、ならびにその機能は、例示的なものに過ぎず、本文書において説明され、かつ/または特許請求される発明の実装を限定する意味ではない。

コンピューティングデバイス400は、プロセッサ410と、メモリ420と、記憶デバイス430と、メモリ420および高速拡張ポート450に接続する高速インターフェース/コントローラ440と、低速バス470および記憶デバイス430に接続する低速インターフェース/コントローラ460とを含む。構成要素410、420、430、440、450、および460のそれぞれは、様々なバスを使用して相互接続され、共通マザーボード上に取り付けられ、または必要に応じて他の方式で取り付けられ得る。プロセッサ410は、高速インターフェース440に結合されたディスプレイ480などの外部入力/出力デバイス上のグラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を表示するための、メモリ420内または記憶デバイス430上に記憶された命令を含む、コンピューティングデバイス400内での実行のための命令を処理し得る。他の実装では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリと共に使用され得る。さらに、複数のコンピューティングデバイス400が接続され得、各デバイスは(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の部分を実現する。

メモリ420は、コンピューティングデバイス400内に非一時的に情報を記憶する。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ420は、コンピューティングデバイス400による使用のためにプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであり得る。不揮発性メモリの例には、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常はブートプログラムなどのファームウェアのために使用される)が含まれる。揮発性メモリの例には、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープが含まれる。

記憶デバイス430は、コンピューティングデバイス400のためのマスストレージを提供することができる。いくつかの実装では、記憶デバイス430はコンピュータ可読媒体である。様々な異なる実装では、記憶デバイス430は、フロッピィディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の類似のソリッドステートメモリデバイス、あるいはストレージエリアネットワークまたは他の構成内のデバイスを含むデバイスのアレイであり得る。追加の実装では、コンピュータプログラム製品は情報キャリアで有形に実施される。コンピュータプログラム製品は、実行されるとき、前述のような1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ420、記憶デバイス430、プロセッサ410上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ440は、コンピューティングデバイス400についての帯域幅集約的動作を管理し、低速コントローラ460はより低い帯域幅集約的動作を管理する。責務のそのような割振りは例示的なものに過ぎない。いくつかの実装では、高速コントローラ440は、メモリ420に、(たとえば、グラフィックスプロセッサまたはアクセラレータを通じて)ディスプレイ480に、および様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート450に結合される。いくつかの実装では、低速コントローラ460は、記憶デバイス430および低速拡張ポート490に結合される。低速拡張ポート490は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入力/出力デバイスに結合され、またはたとえばネットワークアダプタを通じてスイッチやルータなどのネットワーキングデバイスに結合され得る。

コンピューティングデバイス400は、図に示されるように、いくつかの異なる形態で実装され得る。たとえば、コンピューティングデバイス400は、標準サーバ400aとして実装され、もしくはそのようなサーバ400aのグループ内で複数回実装され、ラップトップコンピュータ400bとして実装され、またはラックサーバシステム400cの部分として実装され得る。

本明細書で説明されるシステムおよび技法の様々な実装は、デジタル電子および/または光学回路、集積回路、専用に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せとして実現され得る。これらの様々な実装は、専用または汎用であり、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスとの間でデータおよび命令を受け取り、データおよび命令を送るように結合され得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムとしての実装を含み得る。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサのための機械語命令を含み、高水準手続型および/またはオブジェクト指向プログラミング言語ならびに/あるいはアセンブリ/機械語で実装され得る。本明細書では、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械語命令を機械可読信号として受け取る機械可読媒体を含む、プログラマブルプロセッサに機械語命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置、および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械語命令および/またはデータを提供するために使用される任意の信号を指す。

本明細書において説明されるプロセスおよび論理フローは、入力データに対して作用して出力を生成することによって機能を実施するように1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実施され得る。プロセスおよび論理フローはまた、専用論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実施され得る。コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般には、プロセッサは、読取り専用メモリまたはランダムアクセスメモリあるいはその両方から命令およびデータを受け取る。コンピュータの不可欠な要素は、命令を実施するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般には、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば磁気ディスク、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受け取り、もしくは大容量記憶デバイスにデータを転送し、またはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体には、例として半導体メモリデバイス、たとえばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば内蔵ハードディスクまたは取外し可能ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスが含まれる。プロセッサおよびメモリは、専用論理回路によって補足され、または専用論理回路内に組み込まれ得る。

ユーザとの対話を実現するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(陰極線管)、LCD(液晶ディスプレイ)、モニタ、またはタッチスクリーンと、任意選択で、ユーザがそれによってコンピュータに入力を与え得るキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実装され得る。ユーザとの対話を実現するために他の種類のデバイスも使用され得、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受け取られ得る。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送り、デバイスから文書を受け取ることによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受け取った要求に応答してウェブブラウザにウェブページを送ることによってユーザと対話し得る。

いくつかの実装が説明された。それでも、本開示の趣旨および範囲から逸脱することなく様々な修正が行われ得ることを理解されよう。したがって、他の実装は以下の特許請求の範囲内にある。

100 複数話者多言語TTSモデル、拡張型多言語TTSモデル
101 推論ネットワーク
102 残留エンコーダ、変分オートエンコーダ
104 入力オーディオ特徴、可変長メルスペクトログラム
105 残留符号化成分、自動符号化入力、構成要素
107 敵対的損失モジュール
108 敵対的損失用語、話者敵対的損失
109 勾配反転構成要素
110 話者分類器構成要素、話者分類器
111 合成器
112 テキストエンコーダ
114 入力テキストシーケンス、入力テキスト、テキスト表現、テキスト入力シーケンス
115 出力、シーケンス、固定長コンテキストベクトル、テキスト符号化
116 話者埋込みモジュール、話者埋込み構成要素、話者埋込み、64次元話者埋込み
117 言語埋込みモジュール、言語埋込み構成要素、言語埋込み、3次元話者埋込み
118 デコーダニューラルネットワーク、出力オーディオ特徴表現
119 出力メルスペクトログラム、メル周波数スペクトログラム、128次元ログメルスペクトログラムフレーム
120 コンピューティングデバイス、ユーザデバイス
121 データ処理ハードウェア
123 メモリハードウェア
125 波形合成器、WaveRNNボコーダ
126 時間領域波形
140 音声入力
150 音声、合成音声
200 デコーダアーキテクチャ
202 固定長コンテキストベクトル
210 プリネット
220 長短期記憶(LSTM)サブネットワーク
230 線形射影
240 畳み込みポストネット
244 加算器
400 コンピューティングデバイス
410 プロセッサ、構成要素
420 メモリ、構成要素
430 記憶デバイス、構成要素
440 高速インターフェース/コントローラ、構成要素
450 高速拡張ポート、構成要素
460 低速インターフェース/コントローラ、構成要素
470 低速バス
480 ディスプレイ
490 低速拡張ポート

Claims

データ処理ハードウェア(121)において、第1の言語の音声(150)に合成されるべき入力テキストシーケンス(114)を受け取るステップと、
前記データ処理ハードウェア(121)によって、話者埋込み(116a)を取得するステップであって、前記話者埋込み(116a)が、ターゲット話者(10)のボイスをクローニングする音声(150)に前記入力テキストシーケンス(114)を合成するための、前記ターゲット話者(10)の特定のボイス特徴を指定し、前記ターゲット話者(10)が、前記第1の言語とは異なる第2の言語の母語話者を含む、ステップと、
前記データ処理ハードウェア(121)によって、音声読み上げ(150)(TTS)モデル(100)を使用して、前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理することによって前記入力テキストシーケンス(114)の出力オーディオ特徴表現(119)を生成するステップであって、前記出力オーディオ特徴表現(119)が、前記話者埋込み(116a)によって指定される前記ターゲット話者(10)の前記ボイス特徴を有する、ステップと
を含み、
前記話者埋込みは、前記TTSモデルのトレーニング中に、前記第2の言語で前記ターゲット話者が話したトレーニング発話に基づいて学習される、方法(300)。
前記データ処理ハードウェア(121)によって、言語埋込み(117a)を取得するステップであって、前記言語埋込み(117a)が言語依存情報を指定する、ステップ
をさらに含み、
前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理するステップが、前記入力テキストシーケンス(114)、前記話者埋込み(116a)、および前記言語埋込み(117a)を処理して、前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成するステップをさらに含み、前記出力オーディオ特徴表現(119)が、前記言語埋込み(117a)によって指定される前記言語依存情報をさらに有する、請求項1に記載の方法(300)。
前記言語依存情報が、前記ターゲット話者(10)の前記第2の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第2の言語で話されたトレーニング発話から取得される、請求項2に記載の方法(300)。
前記言語依存情報が前記第1の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第1の言語で話されたトレーニング発話から取得される、請求項2に記載の方法(300)。
前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成するステップが、複数の時間ステップのそれぞれについて、
エンコーダニューラルネットワーク(112)を使用して、前記時間ステップについての前記入力テキストシーケンス(114)のそれぞれの部分を処理し、前記時間ステップについての対応するテキスト符号化(115)を生成するステップと、
デコーダニューラルネットワーク(118)を使用して、前記時間ステップについての前記テキスト符号化(115)を処理し、前記時間ステップについての対応する出力オーディオ特徴表現(119)を生成するステップと
を含む、請求項1から4のいずれか一項に記載の方法(300)。
前記エンコーダニューラルネットワーク(112)が畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を含む、請求項5に記載の方法(300)。
前記デコーダニューラルネットワーク(118)が、長短期記憶(LSTM)サブネットワーク(220)、一次変換(230)、および畳み込みサブネットワーク(240)を含む自己回帰ニューラルネットワークを含む、請求項5または6に記載の方法(300)。
前記出力オーディオ特徴表現(119)がメル周波数スペクトログラムを含む、請求項1から7のいずれか一項に記載の方法(300)。
前記データ処理ハードウェア(121)によって、波形合成器(125)を使用して、前記出力オーディオ特徴表現(119)を時間領域波形(126)に反転するステップと、
前記データ処理ハードウェア(121)によって、前記時間領域波形(126)を使用して、前記第1の言語の前記ターゲット話者(10)の前記ボイスをクローニングする前記入力テキストシーケンス(114)の合成音声(150)表現を生成するステップと
をさらに含む、請求項1から8のいずれか一項に記載の方法(300)。
前記TTSモデル(100)が、
前記第1の言語で話された複数の発話と、対応する基準テキストとを含む第1の言語トレーニングセットと、
前記第2の言語で話された複数の発話と、対応する基準テキストとを含む第2の言語トレーニングセットと
に関してトレーニングされる、請求項1から9のいずれか一項に記載の方法(300)。
前記TTSモデル(100)が、1つまたは複数の追加の言語トレーニングセットに関してさらにトレーニングされ、前記1つまたは複数の追加の言語トレーニングセットのそれぞれの追加の言語トレーニングセットが、それぞれの言語で話された複数の発話と、対応する基準テキストとを含み、それぞれの追加の言語トレーニングセットの前記それぞれの言語が、それぞれの他の追加の言語トレーニングセットの前記それぞれの言語とは異なり、前記第1および第2の言語とは異なる、請求項10に記載の方法(300)。
前記入力テキストシーケンス(114)が文字入力表現に対応する、請求項1から11のいずれか一項に記載の方法(300)。
前記入力テキストシーケンス(114)が音素入力表現に対応する、請求項1から11のいずれか一項に記載の方法(300)。
前記入力テキストシーケンス(114)が8ビットUnicode Transformation Format(UTF-8)符号化シーケンスに対応する、請求項1から11のいずれか一項に記載の方法(300)。
データ処理ハードウェア(121)と、
前記データ処理ハードウェア(121)と通信しているメモリハードウェア(123)であって、前記データ処理ハードウェア(121)上で実行されるとき、前記データ処理ハードウェア(121)に、
第1の言語の音声(150)に合成されるべき入力テキストシーケンス(114)を受け取ること、
話者埋込み(116a)を取得することであって、前記話者埋込み(116a)が、ターゲット話者(10)のボイスをクローニングする音声(150)に前記入力テキストシーケンス(114)を合成するための、前記ターゲット話者(10)の特定のボイス特徴を指定し、前記ターゲット話者(10)が、前記第1の言語とは異なる第2の言語の母語話者を含むこと、および
音声読み上げ(150)(TTS)モデル(100)を使用して、前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理することによって前記入力テキストシーケンス(114)の出力オーディオ特徴表現(119)を生成することであって、前記出力オーディオ特徴表現(119)が、前記話者埋込み(116a)によって指定される前記ターゲット話者(10)の前記ボイス特徴を有すること
を含む動作を実施させる命令を記憶する、メモリハードウェア(123)と
を備え、
前記話者埋込みは、前記TTSモデルのトレーニング中に、前記第2の言語で前記ターゲット話者が話したトレーニング発話に基づいて学習される、システム。
前記動作が、
言語埋込み(117a)を取得することであって、前記言語埋込み(117a)が言語依存情報を指定すること
をさらに含み、
前記入力テキストシーケンス(114)および前記話者埋込み(116a)を処理することが、前記入力テキストシーケンス(114)、前記話者埋込み(116a)、および前記言語埋込み(117a)を処理して、前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成することをさらに含み、前記出力オーディオ特徴表現(119)が、前記言語埋込み(117a)によって指定される前記言語依存情報をさらに有する、請求項15に記載のシステム。
前記言語依存情報が、前記ターゲット話者(10)の前記第2の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第2の言語で話されたトレーニング発話から取得される、請求項16に記載のシステム。
前記言語依存情報が前記第1の言語に関連付けられ、
前記言語依存情報を指定する前記言語埋込み(117a)が、1人または複数の異なる話者によって前記第1の言語で話されたトレーニング発話から取得される、請求項16に記載のシステム。
前記入力テキストシーケンス(114)の前記出力オーディオ特徴表現(119)を生成することが、複数の時間ステップのそれぞれについて、
エンコーダニューラルネットワーク(112)を使用して、前記時間ステップについての前記入力テキストシーケンス(114)のそれぞれの部分を処理し、前記時間ステップについての対応するテキスト符号化(115)を生成すること、および
デコーダニューラルネットワーク(118)を使用して、前記時間ステップについての前記テキスト符号化(115)を処理し、前記時間ステップについての対応する出力オーディオ特徴表現(119)を生成すること
を含む、請求項15から18のいずれか一項に記載のシステム。
前記エンコーダニューラルネットワーク(112)が畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を含む、請求項19に記載のシステム。
前記デコーダニューラルネットワーク(118)が、長短期記憶(LSTM)サブネットワーク(220)、一次変換(230)、および畳み込みサブネットワーク(240)を含む自己回帰ニューラルネットワークを含む、請求項19または20に記載のシステム。
前記出力オーディオ特徴表現(119)がメル周波数スペクトログラムを含む、請求項15から21のいずれか一項に記載のシステム。
前記動作が、
波形合成器(125)を使用して、前記出力オーディオ特徴表現(119)を時間領域波形に反転すること、および
前記時間領域波形を使用して、前記第1の言語の前記ターゲット話者(10)の前記ボイスをクローニングする前記入力テキストシーケンス(114)の合成音声(150)表現を生成すること
をさらに含む、請求項15から22のいずれか一項に記載のシステム。
前記TTSモデル(100)が、
前記第1の言語で話された複数の発話と、対応する基準テキストとを含む第1の言語トレーニングセットと、
前記第2の言語で話された複数の発話と、対応する基準テキストとを含む第2の言語トレーニングセットと
に関してトレーニングされる、請求項15から23のいずれか一項に記載のシステム。
前記TTSモデル(100)が、1つまたは複数の追加の言語トレーニングセットに関してさらにトレーニングされ、前記1つまたは複数の追加の言語トレーニングセットのそれぞれの追加の言語トレーニングセットが、それぞれの言語で話された複数の発話と、対応する基準テキストとを含み、それぞれの追加の言語トレーニングセットの前記それぞれの言語が、それぞれの他の追加の言語トレーニングセットの前記それぞれの言語とは異なり、前記第1および第2の言語とは異なる、請求項24に記載のシステム。
前記入力テキストシーケンス(114)が文字入力表現に対応する、請求項15から25のいずれか一項に記載のシステム。
前記入力テキストシーケンス(114)が音素入力表現に対応する、請求項15から25のいずれか一項に記載のシステム。
前記入力テキストシーケンス(114)が8ビットUnicode Transformation Format(UTF-8)符号化シーケンスに対応する、請求項15から25のいずれか一項に記載のシステム。