JP7436709B2

JP7436709B2 - 非発話テキストおよび音声合成を使う音声認識

Info

Publication number: JP7436709B2
Application number: JP2022567381A
Authority: JP
Inventors: ジェフアイ・チェン; アンドリュー・ローゼンバーグ; ブヴァナ・ラマバドラン; ペドロ・ジェイ・モレノ・メンジバル
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-05-07
Filing date: 2021-04-27
Publication date: 2024-02-22
Anticipated expiration: 2041-04-27
Also published as: US20220068255A1; US20210350786A1; US11605368B2; KR20230003056A; JP2023525002A; CN115516552A; US20230197057A1; US11222620B2; US11837216B2; JP2024050850A; EP4118641A1; WO2021225829A1

Description

本開示は、非発話テキストおよび音声合成を使う音声認識に関する。

自動音声認識(ASR)、すなわち、オーディオ入力を受け取り、テキストに転写するプロセスは、モバイルデバイスおよび他のデバイスにおいて使われる、大いに重要な技術である。概して、自動音声認識は、オーディオ入力(たとえば、音声発声)を受け取り、オーディオ入力をテキストに転写することによって、人が言ったことの正確な転写を与えることを試みる。最新のASRモデルは、深層ニューラルネットワークの進行中の開発に基づいて、正確さ(たとえば、低い単語誤り率(WER))とレイテンシ(たとえば、ユーザ発話と転写の間との遅延)の両方において向上し続ける。ただし、深層学習ベースのASRモデルを開発する際の1つの難題は、ASRモデルのパラメータが、トレーニングデータに過剰適合する傾向があり、そうすることによって、ASRモデルが、トレーニングデータが十分には大規模でないときに未知のデータを一般化するという問題点を有することになることである。その結果、比較的大きいトレーニングデータセットでASRモデルをトレーニングすると、ASRモデルの正確さが向上する。ASRモデルをトレーニングするのに使われるトレーニングデータのボリュームを増大させ、ならびにASRモデルの即座のトレーニングのために容易に安価に取得することができる非発話テキストから音声が合成されるときに言語多様性を増大させるために、合成音声および/またはデータ拡大音声が組み込まれることが可能である。

本開示の一態様は、敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデルおよび音声認識モデルを一斉にトレーニングするための方法を提供する。この方法は、データ処理ハードウェアによって、複数のトレーニング用テキスト発声を取得するステップを含み、複数のトレーニング用テキスト発声の第1の部分は非発話テキスト発声を含み、複数のトレーニング用テキスト発声の残りの第2の部分は、発話されたトレーニング用発声のセットの中の転写を含む。各非発話テキスト発声は、どの対応する発話された発声とも対にされない。対応する転写を含む、各発話されたトレーニング用発声は、対応する発話されたトレーニング用発声の対応する非合成音声表現と対にされる。複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々に対して、方法はまた、データ処理ハードウェアによって、GANベースのTTSモデルによる出力のために、対応するトレーニング用テキスト発声の合成音声表現を生成するステップと、データ処理ハードウェアによって、GANの敵対的弁別器を使って、対応するトレーニング用テキスト発声の対応する合成音声表現に相対した、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つにおける音響ノイズ不均衡の量を示す敵対的損失項を判断するステップとを含む。方法は、データ処理ハードウェアによって、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において判断された敵対的損失項に基づいて、GANベースのTTSモデルのパラメータを更新するステップも含む。方法は、データ処理ハードウェアによって、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において生成された合成音声表現で音声認識モデルをトレーニングするステップも含む。

本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、音声認識モデルをトレーニングするステップは、トレーニング用発声バッチで音声認識モデルをトレーニングするステップをさらに含む。ここで、各トレーニング用発声バッチは、対応するトレーニング用テキスト発声の、生成された合成音声表現の部分と、発話されたトレーニング用発声のセットの中の非合成音声表現の部分とを含む。生成された合成音声表現の部分と、各トレーニング用発声バッチの中の非合成音声表現の部分の比は、音声認識モデルをトレーニングする間に時間とともに増大する。

音声認識モデルがトレーニング用発声バッチでトレーニングされる実装形態では、方法はまた、任意選択で、各トレーニング用発声バッチで音声認識モデルをトレーニングする間、データ処理ハードウェアによって、対応するトレーニング用発声バッチのための非合成音声表現の部分中の各非合成音声表現についてのそれぞれの非合成音声損失項を生成するステップと、データ処理ハードウェアによって、音声認識モデルによって生成された各それぞれの非合成音声損失項に調節可能損失重みを適用するステップとを含んでよい。ここで、調節可能重みは、生成された音声表現の部分と、対応するトレーニング用発声バッチの中の非合成音声表現の部分の比に比例する規模を有する。

その上、各トレーニング用発声バッチで音声認識モデルをトレーニングする間、方法はまた、対応するトレーニング用発声バッチに関連付けられた、生成された合成音声表現の部分の中の各生成された合成音声表現のための複数の出力ステップの各々において、データ処理ハードウェアによって、音声認識モデルによる出力について、対応する合成音声表現に対する可能な合成音声認識仮定にわたる第1の確率分布を判断するステップと、対応する合成音声表現に対する可能な合成音声認識仮定にわたる第1の確率分布、および対応する合成音声表現がそこから生成される、対応するトレーニング用テキスト発声に基づいて、データ処理ハードウェアによって、合成音声損失項を生成するステップとを含んでよい。同時に、方法は、対応するトレーニング用発声バッチに関連付けられた非合成音声表現の部分中の各非合成音声表現のための複数の出力ステップの各々において、データ処理ハードウェアによって、音声認識モデルによる出力について、対応する非合成音声表現に対する可能な非合成音声認識仮定にわたる第2の確率分布を判断するステップと、データ処理ハードウェアによって、対応する非合成音声表現に対する可能な非合成音声認識仮定にわたる第2の確率分布、および対応する非合成音声表現と対にされる、発話されたトレーニング用発声のセットの中の転写に基づいて、非合成音声損失項を生成するステップとを含む。

いくつかの例では、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つは、対応するトレーニング用テキスト発声が、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声のうちの1つを含むときは、発話されたトレーニング用発声のセットからの、ランダムに選択された非合成音声表現、または対応するトレーニング用テキスト発声が、複数のトレーニング用テキスト発声の第2の部分の中の転写のうちの1つを含むときは、転写のうちの対応する1つと対にされる、発話されたトレーニング用発声のセットからの非合成音声表現を含む。追加の例では、各トレーニング用テキスト発声は、発声埋め込みのセットから選択された発声埋め込み、および話者埋め込みのセットから選択された話者埋め込みを条件とする。話者埋め込みのセットの中の各話者埋め込みは話者特性を表し、発声埋め込みのセットの中の各発声埋め込みは、意図された韻律を表す。各トレーニング用テキスト発声は、対応する音素シーケンスによって表されてよく、発声埋め込みのセットの中の各発声埋め込みは、変分オートエンコーダ(VAE)によって、発話されたトレーニング用発声のセットの中の転写のうちの対応する1つから抽出されてよく、話者埋め込みのセットの中の各話者埋め込みは、発話されたトレーニング用発声のセットの中の非合成音声表現のうちの対応する1つから抽出されてよい。

いくつかの実装形態では、方法は、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において敵対的損失項を判断するのに先立って、データ処理ハードウェアによって、対応するトレーニング用テキスト発声の、対応する生成された合成音声表現にデータ拡大を適用するステップも含む。これらの実装形態では、適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含み得る。追加の実装形態では、方法はまた、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、データ処理ハードウェアによって、基準TTSモデルによる出力のために、対応するトレーニング用テキスト発声の基準合成音声表現を生成するステップと、データ処理ハードウェアによって、GANベースのTTSモデルによって出力された、対応するトレーニング用テキスト発声の合成音声表現、および基準TTSモデルによる対応するトレーニング用テキスト発声出力の基準合成音声表現に基づいて一貫性損失項を判断するステップとを含む。ここで、GANベースのTTSモデルのパラメータを更新することは、複数の非発話トレーニング用発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において判断された敵対的損失項および一貫性損失項に基づく。基準TTSモデルのパラメータは、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において固定されたままであってよい。

方法は、データ処理ハードウェアによって、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声を取得するための非発話テキスト選択プロセスを実行するステップも含んでよい。テキスト選択プロセスは、非発話テキスト発声のコーパスを取得することと、非発話テキスト発声のコーパスの中の各非発話テキスト発声について、領域固有言語モデル中に現れる非発話テキスト発声に関連付けられた第1の確率を判断することであって、領域固有言語モデルは、発話されたトレーニング用発声のセットの中の各転写でトレーニングされる、ことと、背景言語モデル中に現れる非発話テキスト発声に関連付けられた第2の確率を判断することであって、背景言語モデルは、非発話テキスト発声のコーパスの中のあらゆる非発話テキスト発声でトレーニングされる、ことと、第1の確率、第2の確率、および対応する非発話テキスト発声の中に現れる単語の数に基づいてスコアを判断することとを行うように構成される。テキスト選択プロセスは、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声として、N最良(N-best)発声スコアを有する、非発話テキスト発声のコーパスの中の非発話テキスト発声を選択するようにさらに構成される。

いくつかの例では、音声認識モデルをトレーニングするステップは、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、音声認識モデルによって、GANベースのTTSモデルによって出力された、対応するトレーニング用テキスト発声の合成音声表現を符号化するステップと、音声認識モデルによって、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つを符号化するステップと、別の敵対的弁別器を使って、符号化された合成音声表現と、非合成音声表現のうちの符号化された1つとの間の別の敵対的損失項を判断するステップと、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において判断された別の敵対的損失項に基づいて、音声認識モデルのパラメータを更新するステップとを含む。これらの例では、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、対応するテキスト発声および別の敵対的弁別器は各々、話者埋め込みのセットから選択された同じ話者埋め込みを条件としてよい。話者埋め込みのセットの中の各話者埋め込みは話者特性を表す。さらに、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つは、対応するトレーニング用テキスト発声が、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声のうちの1つを含むときは、発話されたトレーニング用発声のセットからの、ランダムに選択された非合成音声表現を、および対応するトレーニング用テキスト発声が、複数のトレーニング用テキスト発声の第2の部分の中の転写のうちの1つを含むときは、転写のうちの対応する1つと対にされる、発話されたトレーニング用発声のセットからの非合成音声表現を含み得る。

本開示の別の態様は、敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデルおよび音声認識モデルを一斉にトレーニングするためのシステムを提供する。このシステムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実施させる命令を記憶する。動作は、複数のトレーニング用テキスト発声を取得することを含み、複数のトレーニング用テキスト発声の第1の部分は非発話テキスト発声を含み、複数のトレーニング用テキスト発声の残りの第2の部分は、発話されたトレーニング用発声のセットの中の転写を含む。各非発話テキスト発声は、どの対応する発話された発声とも対にされない。対応する転写を含む、各発話されたトレーニング用発声は、対応する発話されたトレーニング用発声の対応する非合成音声表現と対にされる。複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々に対して、動作はまた、GANベースのTTSモデルによる出力のために、対応するトレーニング用テキスト発声の合成音声表現を生成することと、GANの敵対的弁別器を使って、対応するトレーニング用テキスト発声の対応する合成音声表現に相対した、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つにおける音響ノイズ不均衡の量を示す敵対的損失項を判断することとを含む。動作は、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において判断された敵対的損失項に基づいて、GANベースのTTSモデルのパラメータを更新することも含む。

本態様は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、音声認識モデルをトレーニングすることは、トレーニング用発声バッチで音声認識モデルをトレーニングすることをさらに含む。ここで、各トレーニング用発声バッチは、対応するトレーニング用テキスト発声の、生成された合成音声表現の部分と、発話されたトレーニング用発声のセットの中の非合成音声表現の部分とを含む。生成された合成音声表現の部分と、各トレーニング用発声バッチの中の非合成音声表現の部分の比は、音声認識モデルをトレーニングする間に時間とともに増大する。

音声認識モデルがトレーニング用発声バッチでトレーニングされる実装形態では、動作はまた、任意選択で、各トレーニング用発声バッチで音声認識モデルをトレーニングする間、対応するトレーニング用発声バッチのための非合成音声表現の部分中の各非合成音声表現についてのそれぞれの非合成音声損失項を生成することと、音声認識モデルによって生成された各それぞれの非合成音声損失項に調節可能損失重みを適用することとを含んでよい。ここで、調節可能重みは、生成された音声表現の部分と、対応するトレーニング用発声バッチの中の非合成音声表現の部分の比に比例する規模を有する。

その上、各トレーニング用発声バッチで音声認識モデルをトレーニングする間、動作はまた、対応するトレーニング用発声バッチに関連付けられた、生成された合成音声表現の部分の中の各生成された合成音声表現のための複数の出力ステップの各々において、音声認識モデルによる出力について、対応する合成音声表現に対する可能な合成音声認識仮定にわたる第1の確率分布を判断することと、対応する合成音声表現に対する可能な合成音声認識仮定にわたる第1の確率分布、および対応する合成音声表現がそこから生成される、対応するトレーニング用テキスト発声に基づいて、合成音声損失項を生成することとを含んでよい。同時に、動作は、対応するトレーニング用発声バッチに関連付けられた非合成音声表現の部分中の各非合成音声表現のための複数の出力ステップの各々において、音声認識モデルによる出力について、対応する非合成音声表現に対する可能な非合成音声認識仮定にわたる第2の確率分布を判断することと、対応する非合成音声表現に対する可能な非合成音声認識仮定にわたる第2の確率分布、および対応する非合成音声表現と対にされる、発話されたトレーニング用発声のセットの中の転写に基づいて、非合成音声損失項を生成することとを含む。

いくつかの実装形態では、動作は、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において敵対的損失項を判断するのに先立って、対応するトレーニング用テキスト発声の対応する生成された合成音声表現にデータ拡大を適用することも含む。これらの実装形態では、適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含み得る。追加の実装形態では、動作はまた、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、基準TTSモデルによる出力のために、対応するトレーニング用テキスト発声の基準合成音声表現を生成することと、GANベースのTTSモデルによって出力された、対応するトレーニング用テキスト発声の合成音声表現、および基準TTSモデルによる、対応するトレーニング用テキスト発声出力の基準合成音声表現に基づいて一貫性損失項を判断することとを含む。ここで、GANベースのTTSモデルのパラメータを更新することは、複数の非発話トレーニング用発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において判断された敵対的損失項および一貫性損失項に基づく。基準TTSモデルのパラメータは、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において固定されたままであってよい。

動作は、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声を取得するための非発話テキスト選択プロセスを実行することも含んでよい。テキスト選択プロセスは、非発話テキスト発声のコーパスを取得することと、非発話テキスト発声のコーパスの中の各非発話テキスト発声について、領域固有言語モデル中に現れる非発話テキスト発声に関連付けられた第1の確率を判断することであって、領域固有言語モデルは、発話されたトレーニング用発声のセットの中の各転写でトレーニングされる、ことと、背景言語モデル中に現れる非発話テキスト発声に関連付けられた第2の確率を判断することであって、背景言語モデルは、非発話テキスト発声のコーパスの中のあらゆる非発話テキスト発声でトレーニングされる、ことと、第1の確率、第2の確率、および対応する非発話テキスト発声の中に現れる単語の数に基づいてスコアを判断することとを行うように構成される。テキスト選択プロセスは、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声として、N最良発声スコアを有する、非発話テキスト発声のコーパスの中の非発話テキスト発声を選択するようにさらに構成される。

いくつかの例では、音声認識モデルをトレーニングすることは、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、音声認識モデルによって、GANベースのTTSモデルによって出力された、対応するトレーニング用テキスト発声の合成音声表現を符号化することと、音声認識モデルによって、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つを符号化することと、別の敵対的弁別器を使って、符号化された合成音声表現と、非合成音声表現のうちの符号化された1つとの間の別の敵対的損失項を判断することと、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において判断された別の敵対的損失項に基づいて、音声認識モデルのパラメータを更新することとを含む。これらの例では、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声のための複数の出力ステップの各々において、対応するテキスト発声および別の敵対的弁別器は各々、話者埋め込みのセットから選択された同じ話者埋め込みを条件としてよい。話者埋め込みのセットの中の各話者埋め込みは話者特性を表す。さらに、発話されたトレーニング用発声のセットから選択された非合成音声表現のうちの1つは、対応するトレーニング用テキスト発声が、複数のトレーニング用テキスト発声の第1の部分の中の非発話テキスト発声のうちの1つを含むときは、発話されたトレーニング用発声のセットからの、ランダムに選択された非合成音声表現を、および対応するトレーニング用テキスト発声が、複数のトレーニング用テキスト発声の第2の部分の中の転写のうちの1つを含むときは、転写のうちの対応する1つと対にされる、発話されたトレーニング用発声のセットからの非合成音声表現を含み得る。

本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

音声認識モデルを含む例示的音声認識システムの概略図である。回帰型ニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャの概略図である。アテンションベースのエンコーダデコーダ(AED)モデルアーキテクチャの概略図である。敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデルおよび音声認識モデルを並行してトレーニングするための例示的トレーニングプロセスの概略図である。非合成音声と合成音声の両方で一貫性予測を学習するように、図1の音声認識モデルを促進するための例示的トレーニングプロセスの概略図である。図1の音声認識モデルによる領域不変学習を促進するための例示的トレーニングプロセスの概略図である。 GANベースのTTSモデルおよび図1の音声認識モデルをトレーニングするための非発話テキスト発声を選択するための例示的選択プロセスの概略図である。敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデルおよび音声認識モデルを並行してトレーニングする方法のための動作の例示的並びのフローチャートである。本明細書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイスの概略図である。

様々な図面における同様の符号は、同様の要素を示す。

自動化音声認識は、オーディオからキャラクタシーケンスにマップするシーケンスツーシーケンス(Seq2Seq)モデルの導入に伴い、途方もない進歩をした。エンドツーエンド(E2E)深層学習ベースのASRモデルを開発する際の1つの難題は、ASRモデルのパラメータが、トレーニングデータに過剰適合する傾向があり、そうすることによって、ASRモデルが、トレーニングデータが十分には大規模でないときに未知のデータを一般化するという問題点を有することになることである。その上、E2E ASRモデルは、長くてノイズのある音声オーディオに対しては、従来の音声認識システムよりもうまくいかない傾向がある。その結果、転写された音声データの比較的大きいトレーニングデータセットでASRモデルをトレーニングすると、ASRモデルの正確さが向上する。

テキスト音声(TTS)または音声合成システムは、Seq2Seqモデルを適用して、人間の耳では人間音声と区別できない場合がある、現況技術による自然な、本物らしく聞こえる合成音声を取得するのに成功した。有利には、非発話テキスト発声、またはテキストのみのデータは、ASRモデルのトレーニングを改善するための合成音声を生じるように、容易に安価に取得することが可能である。たとえば、非発話テキスト発声は、トレーニングデータセットのボリュームを増大させるのに使うことができるだけでなく、非発話テキスト発声は、転写された音声(たとえば、人間発話オーディオおよび対応する転写)を取得しなければならないという問題点なしで、トレーニングデータの言語多様性を増大させることができる。最新のTTSシステムによって生じる合成音声の集合体品質(aggregate quality)はかなり高いが、合成音声は、非合成(実際の/人間の)音声よりもはるかに少ないノイズ変化を呈し、最小限の音声どもりをさらに呈する。その結果、合成音声データで排他的にASRモデルをトレーニングするのには、推論中に実際の音声発声を一般化するという問題点がある。

本明細書における実装形態は、ASRモデルを並行してトレーニングするためのTTSモデルによって生じる合成音声の音響多様性を増大させるように、敵対的生成ネットワーク(GAN)とデータ拡大技法を組み合わせることを対象とする。明らかになるように、GANベースのTTSモデルのパラメータは、敵対音響環境の下で記録された非合成音声表現との類似音響をもつ合成音声表現を生じるように更新し得る。ここで、合成音声は、モデルをトレーニングするのに要するラベル付き人間音声の量を徹底的に制限する可能性があるとともに、異なる領域の間でASRモデルを動かす柔軟性も与える。

さらに、データ拡大技法は、実際の/人間音声に関連付けられた音響ノイズ不均衡に厳密に合致するように、GANベースのTTSモデルから出力された合成音声表現に適用されてよい。データ拡大技法は、ノイズを(たとえば、マルチスタイルトレーニング(MTR)により)追加/注入すること、残響を追加すること、および/またはタイミングを操作すること(たとえば、スペクトル拡大(SpecAugment)により)を含み得る。本明細書における実装形態は、ASRトレーニングにおいて使用するための非発話テキスト発声を選択するための対照言語モデルを生成することをさらに対象とする。すなわち、対照言語モデルの使用により、大規模非発話テキスト発声学習の効率を向上させることができる。

図1は、ユーザ104のユーザデバイス102上および/またはユーザデバイス102と通信するリモートコンピューティングデバイス201(たとえば、クラウドコンピューティング環境において実行する分散型システムの、1つもしくは複数のサーバ)上に存在するASRモデル200を実装する自動化音声認識(ASR)システム100を示す。ユーザデバイス102はモバイルコンピューティングデバイス(たとえば、スマートフォン)として示されるが、ユーザデバイス102は、限定はしないが、タブレットデバイス、ラップトップ/デスクトップコンピュータ、装着可能デバイス、デジタルアシスタントデバイス、スマートスピーカー/ディスプレイ、スマート器具、車載インフォテインメントシステム、またはモノのインターネット(IoT)デバイスなど、どのタイプのコンピューティングデバイスに対応してもよい。

ユーザデバイス102は、ユーザ104によって発話された発声106を受信し(たとえば、ユーザデバイス102は、発話された発声106を記録するための1つまたは複数のマイクロフォンを含み得る)、発声106を、ASRシステム100によって処理されることが可能な入力音響フレーム110に関連付けられた対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム108を含む。図示した例において、ユーザは、「What is the weather in New York City?」というフレーズに対する英語の自然言語で、それぞれの発声106を発話し、オーディオサブシステム108は、発声106を、ASRシステム100への入力用に、対応する音響フレーム110に変換する。その後、ASRモデル200は、入力として、発声106に対応する音響フレーム110を受信し、出力として、発声106の対応する転写(たとえば、認識結果/仮定)120を生成/予測する。図示した例において、ユーザデバイス102および/またはリモートコンピューティングデバイス201は、発声106の転写120の表現を、ユーザデバイス102のユーザ104に提示するように構成されたユーザインターフェースジェネレータ107も実行する。いくつかの構成では、ASRシステム100から出力された転写120は、たとえば、ユーザコマンドを実行するために、ユーザデバイス102またはリモートコンピューティングデバイス201上で実行する自然言語理解(NLU)モジュールによって処理される。追加または代替として、テキスト音声システム(たとえば、ユーザデバイス104またはリモートコンピューティングデバイス201のどの組合せにおいても実行する)は、転写を、別のデバイスによる可聴出力のための合成音声に変換してよい。たとえば、元の発声106は、ユーザ104が友人へ送っているメッセージに対応してよく、ここで転写120は、元の発声106において伝えられるメッセージを聴くべき友人への可聴出力のための合成音声に変換される。

図2Aおよび図2Bを参照すると、ASRモデル200は、フレーム整列ベースのトランスデューサモデル200a(図2A)またはアテンションベースのエンコーダデコーダ(AED)モデル200b(図2B)などのエンドツーエンド(E2E)シーケンスツーシーケンスモデルを含み得る。ASRモデル200は、音響、発音、および言語モデルを単一のニューラルネットワークに統合することによってE2E音声認識を提供してよく、レキシコンも別個のテキスト正規化構成要素も必要としない。様々な構造および最適化機構は、正確さを増し、モデルトレーニング時間を削減することができる。

図2Aを参照すると、例示的なフレーム整列ベースのトランスデューサモデル200aは、対話型アプリケーションに関連付けられたレイテンシ制約を遵守する回帰型ニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャを含む。RNN-Tモデル200aは、小さい計算フットプリントを提供し、従来のASRアーキテクチャよりも少ないメモリ要件を使用して、RNN-Tモデルアーキテクチャを、ユーザデバイス102全体において音声認識を実施するのに適したものにする(たとえば、リモートサーバとの通信は求められない)。RNN-Tモデル200aは、エンコーダネットワーク210、予測ネットワーク220、および共同ネットワーク230を含む。エンコーダネットワーク210は、従来のASRシステムにおける音響モデル(AM)に概ね類似し、積層長短期メモリ(LSTM)レイヤからなる回帰型ネットワークを含む。たとえばエンコーダは、d次元特徴ベクトルのシーケンス(たとえば、音響フレーム110(図1))x=(x₁,x₂,...,x_T)を読み取り、ここで、

であり、各時間ステップにおいて、より高次の特徴表現を生じる。このより高次の特徴表現は、

と示される。

同様に、予測ネットワーク220もLSTMネットワークであり、これは、言語モデル(LM)のように、最終ソフトマックスレイヤ240によってこれまで出力された非空白シンボルのシーケンス、すなわちy₀、...、y_ui-1を、密な表現

に処理する。最終的に、RNN-Tモデルアーキテクチャを用いて、エンコーダおよび予測ネットワーク210、220によって生じた表現は、共同ネットワーク230によって組み合わされる。共同ネットワークは次いで、

を予測し、これは、次の出力シンボルにわたる分布である。別の言い方をすると、共同ネットワーク230は、各出力ステップ(たとえば、時間ステップ)において、可能な音声認識仮定にわたる確率分布を生成する。ここで、「可能な音声認識仮定」は、指定された自然言語でシンボル/キャラクタを各々が表す出力ラベルのセットに対応する。たとえば、自然言語が英語であるとき、出力ラベルのセットは、27個のシンボルを含んでよく、たとえば、1つのラベルは、英語アルファベットの26文字の各々用であり、1つのラベルは空間を指定する。したがって、共同ネットワーク230は、出力ラベルの所定のセットの各々の出現の見込みを示す値のセットを出力してよい。この値セットは、ベクトルであってよく、出力ラベルのセットにわたる確率分布を示すことができる。いくつかの場合には、出力ラベルは書記素(たとえば、個々のキャラクタ、また、可能性としては句読および他のシンボル)であるが、出力ラベルのセットは、そのように限定されるわけではない。たとえば、出力ラベルのセットは、書記素に加え、またはその代わりに、ワードピースおよび/または単語全体を含み得る。共同ネットワーク230の出力分布は、異なる出力ラベルの各々についての事後確率値を含み得る。したがって、異なる書記素または他のシンボルを表す100個の異なる出力ラベルがある場合、共同ネットワーク230の出力y_iは、1つが各出力ラベルについてである、100個の異なる確率値を含み得る。確率分布は次いで、スコアを選択し、転写120を判断するためのビームサーチプロセスにおいて(たとえば、ソフトマックスレイヤ240によって)候補正書(orthographic)要素(たとえば、書記素、ワードピース、および/または単語)に割り当てるのに使うことができる。

ソフトマックスレイヤ240は、分布における最も高い確率をもつ出力ラベル/シンボルを、対応する出力ステップにおいてモデル200aによって予測される次の出力シンボルとして選択するための、どの技法を利用してもよい。このように、RNN-Tモデル200aは、条件付き独立仮定は行わず、むしろ、各シンボルの予測は、音響だけでなく、それまでに出力されたラベルのシーケンスも条件とする。RNN-Tモデル200aは、出力シンボルが将来の音響フレーム110に依存しないと想定し、そうすることによって、RNN-Tモデルは、ストリーミング方式で利用されることが可能になる。

いくつかの例では、RNN-Tモデル200aのエンコーダネットワーク210は、8つの2,048次元LSTMレイヤからなり、各々に640次元投射レイヤが続く。予測ネットワーク220は、2つの2,048次元LSTMレイヤを有してよく、その各々に、やはり640次元投射レイヤが続く。最終的に、共同ネットワーク230も、640個の隠れユニットを有し得る。ソフトマックスレイヤ240は、複数のトレーニング用テキスト発声302(図3A)の中のすべての一意のワードピースまたは書記素を使って生成される統一ワードピースまたは書記素セットからなってよい。

図2Bを参照すると、リッスン、アテンドおよびスペル(LAS:Listen, Attend and Spell)モデルアーキテクチャに関連付けられた例示的AEDモデル200bは、従来の音響モデルに類似するリスナー符号化モジュール211と、整列モデルとして作用するアテンダーモデル221と、従来のシステムにおける言語モデルに類似するデコーダ231とを含む単一のニューラルネットワークを提供する。具体的には、リスナーエンコーダモジュール211は、入力特徴(たとえば、音響フレーム110(図1))、すなわちxを受け取り、それらを、より高レベルの特徴表現、すなわちh^encにマップする。符号化された特徴表現、すなわちh^encを生成するこのプロセスは、異なる入力時間ステップを表す、複数の入力フレームの各々に対して行うことができる。これらの時間ステップは、以下では下付き文字uで示される。したがって、フレームのセット{f₁,f₂,f₃,...f_u}に対して、符号化された出力の対応するセット{h₁,h₂,h₃,...h_u}があり得る。

エンコーダ211の出力はアテンダーモデル221に渡され、このモデルは、動的時間伸縮(DTW)整列モジュールと同様、h^encの中のどのエンコーダ特徴が、次の出力シンボル、すなわちy_iを予測するためにアテンドされるべきかを判断する。いくつかの例では、アテンダー221は本明細書では、アテンダーニューラルネットワークまたはアテンションモジュール221と呼ばれる。アテンダー221は、複数の出力ステップiの各々に対して、コンテキスト出力c_iを生成することができる。各コンテキスト出力ベクトルc_iについて、アテンダー221は、1つまたは複数の入力ステップuに対する符号化、たとえば、現在の入力ステップに対する符号化ならびに前の入力ステップに対する符号化に基づいてアテンションを計算することができる。たとえば、アテンダー221は、発声のエンコーダ出力すべてのセット、たとえば、セット{h₁,h₂,h₃,...h_u}全体にわたって、アテンションコンテキスト出力c_iを生成することができる。アテンションコンテキストベクトルは、認識されている発声のフレーム(たとえば、部分)に対する現在の、および前の符号化の加重サマリーを表すベクトルであり得る。

最終的に、アテンダー221の出力はデコーダ231に渡され、デコーダは、デコーダ出力を生じるために、アテンダー221によって出力されたアテンションコンテキスト(たとえば、コンテキストベクトルまたはアテンション分布)、すなわちc_i、ならびに前の予測、すなわちy_i-1の埋め込みを受け取る。デコーダ出力は、前の単位、すなわち{y_i-1,...,y₀}、および入力、すなわちxが与えられた場合の、現在の部分語単位、すなわちy_iにわたる確率分布、すなわちP(y_i|y_i-1,...,y₀,x)であってよい。したがって、デコーダ231は、各出力ステップにおいて、可能な音声認識仮定にわたる確率分布を生成する。図2Aを参照して上上述したRNN-Tモデル200aと同様、「可能な音声認識仮定」は、指定された自然言語でのシンボル/キャラクタを各々が表す出力シンボルのセットに対応する。

図示しないが、モデル200は、デコーダ231の出力を受信するソフトマックスレイヤを含み得る。いくつかの実装形態では、ソフトマックスレイヤは、デコーダ231とは別個であり、デコーダ231からの出力、すなわちy_iを処理し、ソフトマックスレイヤの出力は次いで、正書要素を選択するためのビームサーチプロセスにおいて使われる。いくつかの実装形態では、ソフトマックスレイヤはデコーダ231と統合され、そうすることによって、デコーダ231の出力y_iは、ソフトマックスレイヤの出力を表す。

デコーダ231および/または関連付けられたソフトマックスレイヤは、出力ラベルの所定のセットの各々の出現の見込みを示す値のセットを出力するようにトレーニングされてよい。この値セットは、ベクトルであってよく、出力ラベルのセットにわたる確率分布を示すことができる。いくつかの場合には、出力ラベルは書記素(たとえば、個々のキャラクタ、また、可能性としては句読および他のシンボル)であるが、出力ラベルのセットは、そのように限定されるわけではない。たとえば、出力ラベルのセットは、書記素に加え、またはその代わりに、ワードピースおよび/または単語全体を含み得る。デコーダ231および/またはソフトマックスレイヤの出力分布は、異なる出力ラベルの各々についての事後確率値を含み得る。したがって、異なる書記素または他のシンボルを表す100個の異なる出力ラベルがある場合、デコーダの出力y_i、または出力y_iを受信および処理するソフトマックスレイヤの出力は、1つが各出力ラベルについてである、100個の異なる確率値を含み得る。確率分布は次いで、スコアを選択し、転写120を判断するためのビームサーチプロセスにおいて候補正書要素(たとえば、書記素、ワードピース、および/または単語)に割り当てるのに使うことができる。

図3A～図3Cは、敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデル310および音声認識モデル200を一斉にトレーニングするための例示的トレーニングプロセス300、300a～300cを示す。トレーニングプロセス300は、図1のリモートコンピューティングデバイス201上で実行してよい。音声認識モデル200は、ASRモデル200と呼ばれ得る。GANベースのTTSモデル310のトレーニングは、敵対音響環境の下で記録された非合成音声表現304との類似音響をもつ合成音声表現306を生じるための、モデル310による学習を促進する。ここで、合成音声は、ASRモデル200をトレーニングするのに要する、ラベル付き人間音声の量を徹底的に制限する可能性があるとともに、ASRモデル200を異なる領域にわたって動かす際の柔軟性も与える。さらに、トレーニングプロセス300は、ASRモデル200が、非合成音声(たとえば、実際の/人間音声)、転写された音声から生じる合成音声、およびどの対応するオーディオ/音声とも対にされていない非発話テキスト発声から生じる合成音声の各々で一貫性予測を学習するのを促進する。

図3Aを参照すると、例示的トレーニングプロセス300aは最初に、ASRモデル200をトレーニングするための合成音声表現306にGANベースのTTSモデル310が変換する複数のトレーニング用テキスト発声302、302A～Nを取得する。複数のトレーニング用テキスト発声302の第1の部分は非発話テキスト発声302aを含み、複数のトレーニング用テキスト発声302の第2の残りの部分は、発話されたトレーニング用発声305、305a～nのセットの中の転写302bを含む。ここで、各非発話テキスト発声302aは、テキストのみのデータ、すなわち、非発話テキスト発声302がどの対応する発話された発声または可聴音声とも対にされないような不対データである。一方、発話されたトレーニング用発声のセット305の中の各発話されたトレーニング用発声305は、対応する発話されたトレーニング用発声305の対応する非合成音声表現304と対にされた、対応する転写302bを含む。たとえば、各非合成音声表現304は、人間リスナーによって手で転写されてよい。したがって、各転写302bは、各発話されたトレーニング用発声305がそれぞれの「対データ」302b、304を含むような、対応する非合成音声表現304の転写された音声に対応してよい。

発話されたトレーニング用発声のセット305は、システム(たとえば、図1のリモートコンピューティングデバイス201)のメモリハードウェア上にあるデータストアXXに記憶されてよい。いくつかの例では、発話されたトレーニング用発声のセット305の中の各発話されたトレーニング用発声305は、ASRモデル200をトレーニングするための特定の領域に関連付けられる。たとえば、ASRモデル200は、音楽、ナビゲーション、天気、職業フィールド、教育訓練などの領域、ならびに言語固有および/または多言語領域中の音声を認識するようにトレーニングされてよい。

GANベースのTTSモデル310に入力される各トレーニング用テキスト発声302は、話者埋め込み、すなわちzに関連付けられた特定の発話スタイル、および発声埋め込み、すなわちuに関連付けられた、意図された韻律を有する合成音声306への変換のために、話者埋め込み、すなわちz、および発声埋め込み、すなわちuを条件としてよい。発声埋め込みuは、意図された韻律を各々が表す発声埋め込みのセットから選択されてよい。たとえば、各発声埋め込みuは、音節持続時間、ピッチ輪郭、および我々のエネルギー輪郭の韻律特徴を符号化してよい。いくつかの例では、対応するトレーニング用テキスト発声302が、発話されたトレーニング用発声305の中に転写302bを含むとき、発声埋め込みuは、変分オートエンコーダ(VAE)を使って、対応する非合成音声表現304から潜伏特徴として抽出される。VAEは、階層構造を組み込んでよい。追加の例では、対応するトレーニング用テキスト発声302が非発話テキスト発声302aを含むとき、非発話テキスト発声302aは、VAEを使って発話されたトレーニング用発声のセットの中の非合成音声表現304のうちの1つから以前抽出された、ランダムに割り当てられた発声埋め込みuを条件とする。

各話者埋め込み、すなわちzは、別個にトレーニングされた話者エンコーダ(図示せず)を使って、発話されたトレーニング用発声のセット305からあらかじめ抽出されたDベクトルを含み得る。ここで、Dベクトルは、発話されたトレーニング用発声305を発話した話者の話者特性をDベクトルが固定長ベクトルに符号化するような話者エンコーダニューラルネットワークを使って、発話されたトレーニング用発声305の非合成音声表現304から抽出されてよい。したがって、各話者埋め込みzは、以前抽出され、(たとえば、データストア202に)記憶された話者埋め込みzのセットから選択されてよい。話者埋め込みのセットの中の各話者埋め込みzは、対応する発話されたトレーニング用発声305を発話した話者の話者特性を表す。あらかじめ抽出された話者埋め込みzは、各トレーニング用テキスト発声302にランダムに割り当てられてよい。いくつかの例では、対応するトレーニング用テキスト発声302が、発話されたトレーニング用発声305の中に転写302bを含むとき、転写302bは、対応する非合成音声表現304からあらかじめ抽出された話者埋め込みzを条件とする。

いくつかの実装形態では、TTSモデル310は、時間領域オーディオ波形を生成するようにトレーニング用テキスト発声302を処理するために協力する、エンコーダ312、デコーダ314、およびポストネット316を含む。時間領域オーディオ波形とは、時間に伴うオーディオ信号の振幅を定義するオーディオ波形である。

エンコーダ312は、キャラクタのシーケンスとしてトレーニング用テキスト発声302を受信し、デコーダ314が後で生成する各メル周波数スペクトログラム315についての固定長コンテキストベクトル313を生成するように構成されたエンコーダニューラルネットワーク312であってよい。いくつかの例では、トレーニング用テキスト発声302のキャラクタは、発音モデルに基づく音素を含む。たとえば、各トレーニング用テキスト発声302は、アメリカ英語発音モデルに基づく音素入力のシーケンスとして表されてよい。ここで、固定長コンテキストベクトル313(たとえば、音素符号化)は、キャラクタのシーケンス(たとえば、音素のシーケンス)中の特定の位置に現れる特徴を定義する。特徴は、キャラクタのシーケンス中の各キャラクタが各トレーニング用テキスト発声302の中に現れるコンテキストをモデル化する。

いくつかの構成では、エンコーダニューラルネットワーク312は、1つまたは複数の畳み込みレイヤを含み、その後に双方向長短期メモリ(「LSTM」)レイヤが続く。各畳み込みレイヤには、バッチ正規化および整流線形ユニット(「ReLU」)が続くことができ、双方向LSTMレイヤは、キャラクタのシーケンスのシーケンシャル特徴表現を生成するように、最終畳み込みレイヤによって生成された隠れ特徴を処理するように構成することができる。シーケンシャル特徴表現は、特定のキャラクタの周りの、キャラクタのシーケンスのローカル構造を表す。シーケンシャル特徴表現は、特徴ベクトルのシーケンスを含み得る。

エンコーダニューラルネットワーク312は、アテンションネットワークも含むことができる。アテンションネットワークは、エンコーダニューラルネットワーク312の別の構成要素、たとえば、双方向LSTMレイヤから、シーケンシャル特徴表現を受信し、シーケンシャル特徴表現を処理して、デコーダ314の各出力ステップのために固定長コンテキストベクトル313を生成するように構成することができる。つまり、アテンションネットワークは、デコーダ314が後で生成するメル周波数スペクトログラム315の各フレームについて、固定長コンテキストベクトル313を生成することができる。フレームとは、入力信号の小さい部分、たとえば、入力信号の10ミリ秒サンプルに基づく、メル周波数スペクトログラムの単位である。

いくつかの実装形態では、デコーダ314は、エンコーダニューラルネットワーク312によって生成された固定長コンテキストベクトル313を、入力として受信し、各固定長コンテキストベクトル313についての出力として、メル周波数スペクトログラム315の対応するフレームを生成するように構成されたデコーダニューラルネットワーク314を含む。メル周波数スペクトログラムとは、音の周波数領域表現である。メル周波数スペクトログラムは、音声明瞭度にとって重大である、より低い周波数を強調し、摩擦音および他のノイズバーストによって支配されるとともに概して、高忠実度でモデル化される必要がない高周波数を強調解除する。いくつかの実装形態では、デコーダニューラルネットワーク314が生成するメル周波数スペクトログラム315は、12.5ミリ秒のフレーム長を有する。

ポストネット316は、デコーダニューラルネットワーク314の構成要素であってよく、デコーダニューラルネットワーク314によって生成されたメル周波数スペクトログラム315の音響特性を精製するように構成されてよい。いくつかの例では、ポストネット316は、各出力ステップのために予測メル周波数スペクトログラム315を処理して、予測メル周波数スペクトログラム315に加えるべき残差を予測する、1つまたは複数の畳み込みレイヤをもつ畳み込みポストネット316であってよい。最終畳み込みレイヤを除く各畳み込みレイヤには、バッチ正規化およびtanh活性化が続いてよい。畳み込みレイヤは、確率0.5のドロップアウトを使って正則化されてよい。残差は、予測メル周波数スペクトログラム315に加えられて、各対応するトレーニング用テキスト発声302の、結果としての合成音声表現306が生じる。

図3Aに示す例では、ASRモデル200をトレーニングするために使われるGANベースのTTSモデル310は、入力トレーニング用テキスト発声302を対応する合成音声表現306に変換することが可能であるように、あらかじめトレーニングされる。ただし、本明細書における実装形態は、敵対音響環境において実際の人間によって発話された非合成音声表現304に見られる音響ノイズ不均衡に合致するように、結果としての合成音声表現306を「ノイズ化(noisify)」するようにポストネット316のパラメータを微調整するトレーニングプロセス300aを対象とする。したがって、あらかじめトレーニングされたGANベースのTTSモデル310は、対応する合成音声表現306を生成/予測するように、トレーニングプロセス300a中の擬似推論段階として実行し、トレーニングプロセス300aは、非合成音声表現304のものと合致する音響をもつ合成音声表現306を生じるために、ポストネット316パラメータを微調整することを目指す。GANベースのTTSモデル310におけるポストネット316、GANの敵対弁別器318、および図1に示すASRモデル200の陰影は、これらだけが、トレーニングプロセス300aによってトレーニングされた構成要素であることを示す。

複数のトレーニング用テキスト発声302の各トレーニング用テキスト発声302のための複数の出力ステップの各々において、トレーニングプロセス300aは、GANベースのTTSモデル310による出力に対して、対応するトレーニング用テキスト発声302の合成音声表現306を生成し、敵対的弁別器318を使って、対応するトレーニング用テキスト発声302の対応する合成音声表現306に相対した、非合成音声表現304における音響ノイズ不均衡の量を示す敵対的損失項320を判断する。ここで、敵対的弁別器318は、非合成音声表現304の音響ノイズ特性を、出力ステップにおいてGANベースのTTSモデル310によって出力された合成音声表現306と比較する。言い換えると、敵対的弁別器318には、非合成音声表現304(たとえば、実際の/人間の可聴音声)と合成音声表現306とを区別することによって、一般写実主義(general realism)において合成音声表現306を分析するタスクが課される。トレーニングプロセス300aは、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声302のための複数の出力ステップの各々において判断された敵対的損失項320に基づいて、GANベースのTTSモデル310のパラメータを更新するように構成される。具体的には、トレーニングプロセス300aは、結果としての合成音声表現306が発話されたトレーニング用発声のセット305の中の非合成音声表現304との類似音響を有するようにすることをポストネット316に教えるために、ポストネット316を通して敵対的損失項320を逆伝搬することによって、ポストネット316のパラメータを更新する。

各出力ステップにおける、合成音声表現306との比較のために敵対的弁別器318に入力される非合成音声表現304は、発話されたトレーニング用発声のセット305から選択されてよい。たとえば、敵対的弁別器318に入力される合成音声表現306が、非発話テキスト発声302aのうちの1つを含むトレーニング用テキスト発声302から生成されると、非合成音声表現304は、敵対的弁別器318における比較のために、発話されたトレーニング用発声のセット305からランダムに選択されるが、これは、非発話テキスト発声302aが最初はどの対応する発話オーディオとも対にされていないからである。一方、敵対的弁別器318に入力される合成音声表現306が、発話されたトレーニング用発声305の転写302bのうちの1つを含むトレーニング用テキスト発声302から生成されると、トレーニングプロセス300aは、敵対的弁別器318における比較のために、対応する転写302bと対にされている、発話されたトレーニング用発声のセット305から非合成音声表現304を選択してよい。

いくつかの例では、トレーニングプロセス300aは、複数の出力ステップの各々において敵対的損失項320を判断するのに先立って、GANベースのTTSモデル310によって生成された合成音声表現306に、データ拡大をさらに適用する。データ拡大の目的は、敵対音響環境の下で非合成音声と合致するオーディオをもつ合成音声の生成をさらに容易にし、そうすることによって、非合成および合成音声表現304、306の間の音響不一致による過剰適合を防止することによって、合成音声表現306でのASRモデル200のトレーニングを規則化することである。いくつかの例では、TTSモデル310におけるポストネット316は、発話されたトレーニング用発声305の非合成音声表現304の音響と合致するように、合成音声表現にバックグラウンドノイズを注入する。言い換えると、データ拡大により、TTSモデル310は、非合成音声表現304との一貫性が予想される合成音声表現306を生成することができる。データ拡大は、ノイズを追加/注入すること、残響を追加すること、または合成音声表現306のタイミングを操作することのうちの少なくとも1つを含み得る。1つのデータ拡大技法は、合成音声表現304に多様な環境ノイズを注入するのに、マルチスタイルトレーニング(MTR)を使うことを含む。トレーニングプロセス300aがMTRに加え、またはその代わりに適用し得る別のデータ拡大技法は、合成音声表現306の音響を、発話されたトレーニング用発声305の非合成音声表現304の敵対音響により近づかせるためにスペクトル拡大(SpecAugment)を使うことを含む。組み合わされて、MTRおよびSpecAugmentは、合成音声表現304にノイズを注入し、ランダムな外部ノイズ源を時間に沿って、表現304の前に挿入し、その上に重ねてタイリングしてよく、ASRモデル200をトレーニングするのに先立って、ノイズ注入された合成音声表現304をフィルタリングする。

追加の実装形態では、各トレーニング用テキスト発声302のための複数の出力ステップの各々において、トレーニングプロセス300aは、基準TTSモデル322による出力のために、対応するトレーニング用テキスト発声302の基準合成音声表現306_refを生成し、GANベースのTTSモデル310によって出力された対応するトレーニング用テキスト発声302の合成音声表現306と、基準TTSモデル322によって出力された、同じ対応するトレーニング用テキスト発声302の基準合成音声表現306_refとに基づいて、一貫性損失項324を判断する。たとえば、図3Aは、一貫性モジュール326が、GANベースのTTSモデル310によって出力された合成音声表現306と、所与の時間ステップにおいて同じトレーニング用テキスト発声302について基準TTSモデル322によって出力された基準合成音声表現306_refとを受信し、2つの音声表現306、306_refの間の平均2乗誤差(MSE)損失324を生じることを示す。敵対的損失項320でのように、トレーニングプロセス300aは、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声302のための複数の出力ステップの各々において判断された一貫性損失項324に基づいて、GANベースのTTSモデル310のパラメータを更新するように構成される。具体的には、トレーニングプロセス300aは、結果としての合成音声表現306が発話されたトレーニング用発声のセット305の中の非合成音声表現304との類似音響を有するようにすることをポストネット316に教えるために、ポストネット316を通して敵対的損失項320と一貫性損失項(たとえば、MSE損失)324の両方を逆伝搬することによって、ポストネット316のパラメータを更新する。

GANベースのTTSモデル310のポストネット316を通して一貫性損失項324を逆伝搬することによって、トレーニングプロセス300aは、それらの言語情報を保持する、GANベースのTTSモデル310によって出力された合成音声表現306を生じるように制約される。そうでない場合、敵対的損失320のみに基づいて音響多様性を促進するように、ポストネット316のパラメータを更新すると、合成音声表現306にわたって言語多様性が損失する場合がある。非発話テキスト発声302aの使用は、発話されたトレーニング用発声305の中に存在しない未知の単語およびシーケンスでのASRモデル200のトレーニングを可能にするための言語多様性の増大を促進するためである。特に、基準TTSモデル322のパラメータは固定されたままであり、そうであることによって、基準TTSモデル322は、言語多様性を保持する合成音声表現306を一貫して生成することが可能である。基準TTSモデル322は、GANベースのTTSモデル310と同一のアーキテクチャを含み得る。たとえば、トレーニングプロセス300aが初期化したとき、TTSモデル310は、同じトレーニング用データセットでトレーニングされたレプリカであってよい。

いくつかの例では、GANベースのTTSモデル310およびASRモデル200を一斉にトレーニングするのに使われる非発話テキスト発声302aを含む複数のトレーニング用テキスト発声302の第1の部分は、図3A～図3Cのトレーニングプロセス300を最適化するように選択される。つまり、非発話テキスト発声は容易に安価に取得することができ、いくつかの非発話テキスト発声302aは、他のものよりもASRモデル200のトレーニングに適している。いくつかの例では、非発話テキスト発声302aは、ASRモデル200がトレーニングされている領域に関連付けられるものとして選択される。この例では、ASRモデル200が、音楽領域における音声を認識するためにトレーニングされる場合、医学用語において使われる非発話テキスト発声302aは、ASRモデル200をトレーニングする際の使用に適さない。図4は、複数のトレーニング用テキスト発声302の第1の部分の中の非発話テキスト発声302aを取得するための例示的非発話テキスト選択プロセス400を提供する。具体的には、非発話テキスト選択プロセス400は、非発話テキストのコーパス402から非発話テキスト発声302aを選択するように構成される。非発話テキストのコーパス402は、大きい領域範囲全体からの多数の非発話テキスト発声302を含み、発話されたトレーニング用発声のセット305の中の転写302bよりもはるかに大きい言語多様性を含む。前述のように、発話されたトレーニング用発声のセット305は、ASRモデル200がトレーニングされている同じ領域に関するという点で、領域固有であってよい。非発話テキストのコーパス402は、発話されたトレーニング用発声305と同じまたは異なるデータストア202に記憶されてよい。非発話テキストのコーパス402は、新たな非発話テキスト発声302aを組み込むように動的に変化してよい。非発話テキストコーパス402(図4)の中のすべての非発話テキスト発声302aを単に使うことは、以下の理由により実現可能でなく、すなわち、i)各文に対して、音声モダリティは、符号化されるためにテキストよりもはるかに多くのメモリを必要とし、そうすることによって、コーパス402中の全テキストを変換することが非現実的になる、ii)TTS推論およびASRトレーニングにおける音声およびテキストモダリティの間の変換も、大規模な計算を要する、iii)発話されたトレーニング用発声305の中の転写302bと、非発話テキストコーパス402中の非発話テキスト発声302aとの間の膨大な量の違いは、それらの寄与の釣合いをとるために知的戦略を要する、からである。

非発話テキスト選択プロセス400は、TTS合成のためのデータとして、非発話テキストコーパス402から利用可能非発話テキスト発声302aのサブセットを選択することを目指す。具体的には、プロセス400は、利用可能非発話テキスト発声302aの選択されたサブセットと、目標領域との間の合致を向上させることを目指し、これは、大量の非領域固有データを利用するのに要する計算リソースを削減する。したがって、プロセス400は、ASRモデル200が学習するようにトレーニングされている特定の領域に最良合致する非発話テキスト発声302aを選択することによって、計算およびメモリコストを削減する。

第1の段階(段階1)の間、非発話テキスト選択プロセス400は、2つの言語モデル410、420を、非発話テキスト発声302aの対照的選択を可能にするように組み立てる。ここで、領域固有言語モデル(LM)410は、発話されたトレーニング用発声のセット305の中の各転写302bでトレーニングされる。発話されたトレーニング用発声のセット305は、ASRモデル200がそのためにトレーニングされている特定領域に属すと想定される。一方、バックグラウンドLM420は、非発話テキストコーパス402全体の中の各非発話テキスト発声302aでトレーニングされる。前述のように、非発話テキストコーパス402は、多数の異なる領域にわたる。いくつかの例では、第1の段階は、2つの言語モデル410、420を組み立てるのに、nグラム言語モデルトレーニングを使う。他の例では、第1の段階は、2つの言語モデル410、420を組み立てるのに、ニューラルネットワーク言語モデルトレーニングを使う。

第2の状態(段階2)の間、非発話テキスト選択プロセス400は、領域固有LM410中に現れる非発話テキスト発声302aの中の各単語に関連付けられた第1の確率、すなわち

を判断すること、およびバックグラウンドLM420中に現れる非発話テキスト発声302aの中の各単語に関連付けられた第2の確率、すなわち

を判断することによって、非発話テキストコーパス402の中の各非発話テキスト発声302aを評価するのに、2つの対照LM410、420を使う。その後、非発話テキストコーパス402中の各非発話テキスト発声302aについて、プロセス400は、スコアラー430において、第1の確率、第2の確率、および対応する非発話テキスト発声302aの中に現れる単語の数、すなわち#(w)に基づいてスコア、すなわちSを判断する。たとえば、各非発話テキスト発声302aについてのスコアSは、以下のように算出することができる。

スコアを判断した後、非発話テキスト選択プロセス400は、N最良発声スコアSをもつ非発話テキスト発声302aを、これらの非発話テキスト発声302aが特定領域と最良合致するとき、選択する。非発話テキスト選択プロセス400を使う代わりに、非発話テキスト発声302aは代替として、利用可能テキストコーパス402を使って、大きい最大エントロピー言語モデルなど、十分にトレーニングされた言語モデルからサンプリングされてよい。このモデルがデータの分布を学習するという仮定の下で、ある特定の数のテキスト発声302aが、そこから非発話テキストについてサンプリングされてよい。

図3Bを参照すると、トレーニングプロセス300bは、複数の非発話テキスト発声302(たとえば、図4の非発話テキスト選択プロセス400によって選択された)の各非発話トレーニング用テキスト発声302のための複数の出力ステップの各々において生成された合成音声表現306でASRモデル200をトレーニングする。トレーニングプロセス300bはまた、発話されたトレーニング用発声のセット305の中の各非合成音声表現304のための複数の出力ステップの各々において、ASRモデル200をトレーニングする。合成音声表現306は、不対合成音声表現306aおよび対合成音声表現306bを含む。不対合成音声表現306aは、非発話テキスト発声302a(すなわち、どの対応する発話された発声とも対にされていない、トレーニング用テキスト発声302の部分)からGANベースのTTSモデル310によって変換されたTTSオーディオを含み、対合成音声表現306bは、発話されたトレーニング用発声のセット305の中の転写302b(すなわち、発話トレーニング用テキスト発声305の対応する非合成音声表現304と対にされた、トレーニング用テキスト発声302の部分)からGANベースのTTSモデル310によって変換されたTTSオーディオを含む。

したがって、各対合成音声表現306bは、同じ対応する発話されたトレーニング用発声305の対応する非合成音声表現304と対にされ、対応するトレーニング用発声305の非合成音声表現304と最初に対にされた転写302bは、(1)対応するトレーニング用発声305の対合成音声表現306bを生成するためのGANベースのTTSモデル310への入力と、(2)グランドトゥルース転写302bと、ASRモデル200によって出力された非合成音声認識仮定311およびASRモデル200によって出力された対合成音声認識仮定312bの各々との間の教師あり損失項342、344bを生成する際の、トレーニングプロセス300bのためのグランドトゥルース転写302bの両方として働く。一方、トレーニングプロセス300bは、対応する非発話テキスト発声302aと、ASRモデル200によって出力された不対合成音声認識仮定312aとの間の教師あり損失項344bを生成するためのGANベースのTTSモデル310によって、対応する不対合成音声表現306aに変換された各非発話テキスト発声302aを使う。

ASRモデル200は、入力として、特徴/ベクトルのシーケンス(たとえば、メル周波数スペクトログラムフレーム)(たとえば、図1の音響フレーム110)として、各対応する発話されたトレーニング用発声305のための非合成音声表現(x)304を受信し、出力として、複数の出力ステップの各々に対して、対応する発話されたトレーニング用発声305の対応する非合成音声表現(x)304についての可能な非合成音声認識仮定(y)にわたる第1の確率分布311を生成する。簡単のために、「非合成音声認識結果311」という用語は、対応する非合成音声表現(x)304のための可能な非合成音声認識仮定(y)にわたる第1の確率分布311を指すのに使われてよい。ASRモデル200は、入力として、各トレーニング用テキスト発声302、302a～bのための合成音声表現

306、306a～bも、特徴/ベクトル(たとえば、メル周波数スペクトログラムフレーム)(たとえば、図1の音響フレーム110)のシーケンスとして受信し、出力として、複数の出力ステップの各々のために、対応する発声の対応する合成音声表現

306に対する可能な合成音声認識仮定(y)にわたる第2の確率分布312、312a～bを生成する。簡単のために、「合成音声認識結果312」という用語は、対応する合成音声表現

306のための可能な合成音声認識仮定(y)にわたる第2の確率分布312を交換可能に指すのに使われてよい。最後に、ASRモデル200は、入力として、各非発話テキスト発声302aのための合成音声表現

306aも、特徴/ベクトル(たとえば、メル周波数スペクトログラムフレーム)(たとえば、図1の音響フレーム110)のシーケンスとして受信し、出力として、複数の出力ステップの各々のために、対応する発声の対応する合成音声表現

306に対する可能な合成音声認識仮定(y)にわたる第3の確率分布312aを生成する。簡単のために、「合成音声認識結果312b」という用語は、対応する合成音声表現

306のための可能な合成音声認識仮定(y)にわたる第2の確率分布312bを交換可能に指すのに使われてよい。

従来のエンドツーエンドのシーケンスツーシーケンスASRモデルをトレーニングするのと同様、トレーニングプロセス300bは、複数の出力ステップの各々における、ASRモデル200による出力用に、グランドトゥルース転写302bと、対応する発話されたトレーニング用発声305の対応する非合成音声表現(x)304のための非合成音声認識結果311(y)とに基づく非合成音声損失項(J_real(θ))342を含む第1の教師あり損失項を生成する。図示した例において、トレーニングプロセス300bは、グランドトゥルース転写120bおよび第1の確率分布311を受信し、非合成音声損失項(J_real(θ))342を出力するように構成された教師あり損失項モジュール340を実行する。

その上、トレーニングプロセス300bは、複数の出力ステップの各々において、非発話テキスト発声302aまたはグランドトゥルース転写302bのうちの対応する1つに基づく合成音声損失項(J_tts(θ))344、344a～bを含む第2の教師あり損失項と、対応する発声の対応する合成音声表現

306、306a～bのための可能な合成音声認識仮定(y)にわたる第2の確率分布312、312a～bとを生成する。図示した例において、不対合成音声損失項344aは、各不対合成音声表現306aおよび対応する非発話テキスト発声302aに関連付けられ、対合成音声損失項344bは、各対合成音声表現306bおよび対応するグランドトゥルース転写302bに関連付けられる。図示した例において、トレーニングプロセス300bは、非発話テキスト発声120a、グランドトゥルース転写120b、および第2の確率分布312、312a～bを受信し、合成音声損失項(J_tts(θ))344、344a～bを出力するように構成された教師あり損失項モジュール340を実行する。

教師あり損失項モジュール340は、非合成音声損失項(J_real(θ))342、不対合成音声損失項(J_tts(θ))344a、および対合成音声損失項(J_tts(θ))344bの各々を、ASRモデル200へ与え返してよい。たとえば、トレーニングプロセス300bは、逆伝搬を通してモデル200をトレーニングするための、確率的勾配降下などの確率的最適化アルゴリズムを使って、ASRモデル200をトレーニングしてよい。ここで、確率的最適化アルゴリズムは、ニューラルネットワークの実際の出力(たとえば、非合成音声認識および合成音声認識結果311、312a、312b)と、所望の出力(たとえば、非発話テキスト発声302aおよびグランドトゥルース転写302b)との間の違いに基づいてそれぞれの損失関数(たとえば、交差エントロピー損失関数)を定義するのに、損失項342、344a、344bを使う。たとえば、損失関数は、トレーニング例のバッチ用に計算され、次いで、モデル200の中の各重みに関して微分される。バッチトレーニングにおいて、非合成音声損失項(J_real(θ))342は、非合成音声表現304のそれぞれのバッチについて取得された平均損失に対応してよく、合成音声損失項(J_tts(θ))344、344a～bの各々は、合成音声表現306a、306bのそれぞれのバッチについて取得された平均損失に対応してよい。さらに、教師あり損失項モジュール340が対応する非合成および合成音声損失項342、344a、344bを並行して出力するように、モデル200は、非合成および合成音声表現304、306a、306bの対応するバッチで並行してトレーニングされてよい。

いくつかの構成では、トレーニングプロセス300bは、同じ対応する発話されたトレーニング用発声305の対応する非合成音声表現304と対にされた対合成音声表現306bの各トレーニング用発声ペアリング304、306bについて、可能な非合成音声認識仮定にわたる第1の確率分布311と、可能な合成音声認識仮定にわたる第2の確率分布312bとに基づいて、対応するトレーニング用発声ペアリング304、306bのための一貫性損失項(J_cons(θ))352をさらに判断する。たとえば、トレーニングプロセス300bは、複数の出力ステップの各々において、ASRモデル200によって出力された対応する非合成音声および合成音声認識結果311、312bを受信し、出力ステップにおいて対応するトレーニング用発声ペアリング304、306bのための一貫性損失項352を判断するように構成された一貫性損失項モジュール350を利用してよい。

いくつかの例では、トレーニングプロセス300bは、可能な非合成音声認識仮定にわたる第1の確率分布311と、対応する対合成音声表現306bに関連付けられた可能な合成音声認識仮定にわたる第2の確率分布312bとの間のカルバックライブラー(Kullback-Leibler)ダイバージェンス(D_KL)に基づいて一貫性損失項352を判断する。したがって、各トレーニング用発声ペアリング304、306bについて判断された一貫性損失項352は、ASRモデル200の正確さに依存しない(たとえば、教師あり損失項342、344に依存しない)「教師なし」損失項を与え、したがって、同じ発話されたトレーニング用発声305の非合成および合成音声表現304、306bの間の一貫性を促進するための、ASRモデル200のパラメータを更新するのに利用されてよい。言い換えると、一貫性損失項352は、ASRモデル200が、発話されたトレーニング用発声305が非合成音声それとも合成音声に属すかにかかわらず、同じように振る舞う、たとえば、同じ発話されたトレーニング用発声305の非合成音声(たとえば、実際の/人間音声)と合成音声(たとえば、合成音声)の両方に対して一貫性予測を行うことを学習するのを許可する。図示した例において、トレーニングプロセス300bは、教師あり損失項モジュール340から対応する非合成および合成音声損失項342、344a～bを出力し、並行して教師なし損失項モジュール350から一貫性損失項352を出力するように構成される。

いくつかの例では、トレーニングプロセス300bは、複数のトレーニング用発声バッチでASRモデル200をトレーニングすることによってASRモデル200をトレーニングするのに、バッチトレーニングを使う。これらの例では、各トレーニング用発声バッチは、生成された合成音声表現306の部分と、発話されたトレーニング用発声のセット305の中の非合成音声表現304の部分とを含む。生成された合成音声表現306の部分は、不対合成音声表現306aおよび対合成音声表現306bにさらに分割されてよく、ここで、所与のトレーニング用発声バッチの中の各対合成音声表現306bは、同じ対応する発話されたトレーニング用発声305の非合成音声表現304のうちの対応する1つと対にされてよい。各トレーニング用発声バッチは、非合成音声表現よりも大きい割合の、生成された合成音声表現306を含み得る。

上述したデータ拡大技法は、合成音声表現306に適用されてよく、したがって、それらの音響が、非合成音声表現304のものと敵対音響環境下で一致する。その上、トレーニングプロセス300bは、各トレーニング用発声バッチの中の非合成および合成音声表現304、306をシャッフルしてよい。

いくつかの実装形態では、トレーニングプロセス300bは、生成された合成音声表現306の部分と、各トレーニング用発声バッチの中の非合成音声表現の部分の比が、音声認識モデルをトレーニングする間に時間とともに増大するカリキュラムバッチトレーニングを使う。これらの実装形態では、比は、各トレーニングバッチの中の、すなわち、非発話テキスト発声302aから生成された不対合成音声表現306aの数を増やすことによって増大する。トレーニングプロセス300bは、各トレーニング用発声バッチでASRモデル200をトレーニングし、トレーニングプロセス300bは、教師あり損失項モジュール340において、トレーニング用発声バッチのための非合成音声表現の部分の中の各非合成音声表現304についてのそれぞれの非合成音声損失項342を生成する。

いくつかの例では、教師あり損失項モジュール340は、生成された音声表現の部分と、対応するトレーニング用発声バッチの中の非合成音声表現の部分の比に比例する規模を有する調節可能重みを、各それぞれの非合成損失項342に適用する。同様に、トレーニングプロセス300bは、教師あり損失項モジュール340において、対応するトレーニング用発声バッチの中の各合成音声表現306a、306bについてのそれぞれの合成音声損失項344a、344bをさらに生成する。非合成損失項342でのように、教師あり損失項モジュール340は、生成された音声表現の部分と、対応するトレーニング用発声バッチの中の非合成音声表現の部分の比に比例する規模を有する調節可能重みを、各それぞれの対非合成音声損失項342bにさらに適用してよい。したがって、生成された合成音声表現306の部分と、各トレーニング用発声バッチの中の非合成音声表現の部分の比が各後続トレーニング用発声バッチの中で徐々に増大するカリキュラムバッチトレーニング中、トレーニング用発声ペアリング304、306bに関連付けられた損失項342、344bに適用される重みも、モデル200による過剰適合を許可するように、各後続トレーニング用発声バッチの中で徐々に増大する。同様に、この規模に比例する規模をもつ調節可能重みも、各トレーニング用発声バッチの中の一貫性損失項352に同様に適用されてよい。特に、教師あり損失項350は、各後続トレーニング用発声バッチの中で増える不対合成音声表現306aの割合にかかわらず、カリキュラムバッチトレーニング中に各それぞれの不対非合成音声損失項342bに、固定された重みを適用してよい。

図3Cを参照すると、いくつかの実装形態では、トレーニングプロセス300cは、ASRモデル200をトレーニングするための、条件付きGANベースの領域不変トレーニングを適用する。トレーニングプロセス300cは、敵対的および一貫性損失項320、324に基づいて、GANベースのTTSモデル310のポストネット316のパラメータを微調整するための、図3Aに記載した技法に加え、またはその代わりに、領域不変トレーニングを適用してよい。図示した例において、図1の複数のトレーニング用テキスト発声302の各トレーニング用テキスト発声302のための複数の出力ステップの各々において、ASRモデル200におけるエンコーダ410(たとえば、図2Aのエンコーダ210または図2Bのエンコーダ211)は、TTSモデル310によって出力された、対応するトレーニング用テキスト発声302の合成音声表現306を、対応する符号化された合成音声表現TTS_enc(たとえば、合成埋め込み)に、および発話されたトレーニング用発声のセット305から選択された非合成音声表現304のうちの1つを、対応する符号化された非合成音声表現Real_enc(たとえば、非合成埋め込み)に符号化する。対応するトレーニング用テキスト発声302が非発話テキスト発声302aのうちの1つを含むときの出力ステップに対して、エンコーダ410に入力される非合成音声表現304のうちの1つは、発話されたトレーニング用発声のセット305からランダムに選択され、というのは、非発話テキスト発声302aは最初は、どの発話された発声とも対にされないからである。対照的に、対応するトレーニング用テキスト発声302が、発話されたトレーニング用発声のセット305の中の転写302bのうちの1つを含むときの出力ステップに対して、非合成音声表現304のうちの1つは、転写302bのうちの対応する1つと対にされる、発話されたトレーニング用発声のセット305の中の非合成音声表現304を含み得る。

トレーニングプロセス300cは、敵対的弁別器358を使って、符号化された合成音声表現TTS_encと符号化された非合成音声表現Real_encとの間の敵対的損失項360を判断する。その後、トレーニングプロセス300cは、複数のトレーニング用テキスト発声302の各トレーニング用テキスト発声302のための複数の出力ステップの各々において判断された敵対的損失項360に基づいてASRモデル200のパラメータを更新することによって、領域不変トレーニングを適用する。いくつかの実装形態では、各トレーニング用テキスト発声302のための複数の出力ステップの各々において、対応するトレーニング用テキスト発声302および敵対的弁別器358は、対応するトレーニング用テキスト発声302として、同じ話者埋め込みzを条件とする。対応するトレーニング用テキスト発声302をそれぞれの話者埋め込みzで条件づけることについては、図3Aに関して上で論じた。

デコーダ420(たとえば、図2Aのデコーダ/ソフトマックス240または図2Bのデコーダ231)は、図2Bを参照して上述したように合成音声表現306および非合成音声表現304を、対応する確率分布311、312に復号する。図3Cに示す、ASRモデル200におけるエンコーダ410およびGANの別の敵対的弁別器358の陰影は、これらだけが、トレーニングプロセス300cによって適用された領域不変トレーニング側面によってトレーニングされた構成要素であることを示す。

図5は、敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデル310および音声認識モデル200を一斉にトレーニングする方法500のための動作の例示的並びのフローチャートである。フローチャートは、図3A～図3Cのトレーニングプロセス300、300a～cに関して記載されている場合がある。動作502において、方法500は、複数のトレーニング用テキスト発声302、302A～Nを取得する。複数のトレーニング用テキスト発声302の第1の部分は、どの対応する発話された発声とも対にされていない非発話テキスト発声302aを含む。非発話テキスト発声302aは、たとえば、図4に記載した非発話テキスト選択プロセス400を使って、大規模な非発話テキストコーパス402から選択されてよい。複数のトレーニング用テキスト発声302の残りの第2の部分は、発話されたトレーニング用発声305のセットの中の転写302bを含む。セットの中の各発話されたトレーニング用発声305は、対応する発話されたトレーニング用発声305の対応する非合成音声表現304と対にされた、対応する転写302bを含む。

複数のトレーニング用テキスト発声302の各トレーニング用テキスト発声のための複数の出力ステップの各々に対して、方法500は、GANベースのTTSモデル310による出力のために、動作504において、対応するトレーニング用テキスト発声302の合成音声表現306を生成し、動作506において、方法500は、GANの敵対的弁別器318を使って、対応するトレーニング用テキスト発声302の対応する合成音声表現306に相対した、発話されたトレーニング用発声のセット305から選択された非合成音声表現304のうちの1つにおける音響ノイズ不均衡の量を示す敵対的損失項320を判断する。非発話テキスト発声302aを含む、トレーニング用テキスト発声302の第1の部分から導出された不対合成音声表現306aについて、非合成音声表現304のうちの選択された1つがランダムに選択される。発話されたトレーニング用発声のセット305の中の転写302bを含むトレーニング用テキスト発声302の第2の部分から導出された対合成音声表現306bについて、非合成音声表現304の選択された1つは、対応する転写302bと対にされている、発話されたトレーニング用発声のセット305の中の非合成音声表現304である。

動作508において、方法500は、複数のトレーニング用テキスト発声302の各トレーニング用テキスト発声302のための複数の出力ステップの各々において判断された敵対的損失項320に基づいて、GANベースのTTSモデル310のパラメータを更新するステップを含む。ここで、GANベースのTTSモデル310のパラメータを更新するステップは、TTSモデル310のポストネット316のパラメータを更新/微調整して、非合成音声表現のものと合致する音響をもつ合成音声表現306を生じるステップを含み得る。特に、TTSモデル510から出力された各合成音声表現306に、非合成音声表現304の音響と合致するようにノイズをさらに加えるために、データ拡大が適用されてよい。合成音声表現306にわたって言語不均衡を保持するようにポストネット316を制約するためのMSE損失324を判断するために合成音声表現306と比較され得る基準合成音声表現306_refを生じるために、基準TTSモデル322が利用されてよい。動作510において、方法500は、複数のトレーニング用テキスト発声の各トレーニング用テキスト発声302のための複数の出力ステップの各々において生成された合成音声表現306で、音声認識モデル200をトレーニングする。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的アプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含むが、それに限定されない。

非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

図6は、本文書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを目的としており、本文書において記載および/または請求される本発明の実装形態を限定することは目的としていない。

コンピューティングデバイス600は、プロセッサ610と、メモリ620と、記憶デバイス630と、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640と、低速バス670および記憶デバイス630に接続する低速インターフェース/コントローラ660とを含む。構成要素610、620、630、640、650、および660の各々は、様々なバスを使って相互接続され、共通マザーボード上に、または必要に応じて他の方式で搭載されてよい。プロセッサ610は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上に表示するための、メモリ620中または記憶デバイス630上に記憶された命令を含む、コンピューティングデバイス600内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使われてよい。また、複数のコンピューティングデバイス600が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。

メモリ620は、コンピューティングデバイス600内に情報を非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ620は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス600による使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

記憶デバイス630は、コンピューティングデバイス600に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス630は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様の固体メモリデバイス、または記憶エリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上述したような1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ620、記憶デバイス630、またはプロセッサ610上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ640は、コンピューティングデバイス600向けの帯域消費型動作を管理し、低速コントローラ660は、より帯域低消費型の動作を管理する。義務のそのような割振りは、例示的なものにすぎない。いくつかの実装形態において、高速コントローラ640は、メモリ620、ディスプレイ680に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート650に結合される。いくつかの実装形態において、低速コントローラ660は、記憶デバイス630および低速拡張ポート690に結合される。低速拡張ポート690は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。

コンピューティングデバイス600は、図に示すように、いくつかの異なる形で実装されてよい。たとえば、標準サーバ600aとして、またはラップトップコンピュータ600bなどのサーバ600aのグループで、またはラックサーバシステム600cの一部として何度も実装されてよい。

本明細書に記載するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光学回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または翻訳可能な1つまたは複数のコンピュータプログラムでの実装を含んでよく、プログラム可能プロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、ならびにそれらにデータおよび命令を送信するように結合された、特殊または一般的目的であってよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサ用の機械命令を含み、高度手続型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラム可能プロセッサに、機械命令および/またはデータを提供するのに使われる、どのコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))も指す。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するのに使われるどの信号も指す。

本明細書に記載したプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実施するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理フローは、特殊目的論理回路構成、たとえば、FPGA(フィールドプログラム可能ゲートアレイ)やASIC(特定用途向け集積回路)によって実施することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および特殊目的マイクロプロセッサの両方、ならびにどの種類のデジタルコンピュータのどの1つまたは複数のプロセッサも含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実施するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、あらゆる形の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路構成によって補完することも、その中に組み込むこともできる。

ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を与えることができるためのキーボードおよびポインティングデバイス、たとえば、マウスやトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を提供するのに使われることが可能であり、たとえば、ユーザに与えられるフィードバックは、どの形の感覚フィードバックでも、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声、または触覚入力を含む、どの形でも受信されることが可能である。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態を記載した。それにもかかわらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行うことができることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内である。

100 自動化音声認識(ASR)システム
102 ユーザデバイス
107 ユーザインターフェースジェネレータ
200 ASRモデル、音声認識モデル、モデル
201 リモートコンピューティングデバイス
202 データストア
210 エンコーダネットワーク、エンコーダ
211 リスナー符号化モジュール、リスナーエンコーダモジュール、エンコーダ
220 予測ネットワーク
221 アテンダーモデル、アテンダー
230 共同ネットワーク
231 デコーダ
240 最終ソフトマックスレイヤ、ソフトマックスレイヤ、デコーダ/ソフトマックス
310 敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデル、モデル、TTSモデル
312 エンコーダ、エンコーダニューラルネットワーク
314 デコーダ、デコーダニューラルネットワーク
316 ポストネット
318 敵対的弁別器
322 基準TTSモデル
326 一貫性モジュール
340 教師あり損失項モジュール
350 一貫性損失項モジュール
358 敵対的弁別器
402 コーパス、非発話テキストコーパス、テキストコーパス
410 言語モデル、領域固有言語モデル(LM)、エンコーダ
420 言語モデル、バックグラウンドLM、デコーダ
430 スコアラー
600 コンピューティングデバイス
600a 標準サーバ、サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ、構成要素
620 メモリ、構成要素
630 記憶デバイス、構成要素
640 高速インターフェース/コントローラ、構成要素
650 高速拡張ポート、構成要素
660 低速インターフェース/コントローラ、構成要素
670 低速バス
680 ディスプレイ
690 低速拡張ポート

Claims

敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデル(310)および音声認識モデル(200)を一斉にトレーニングするための方法(500)であって、
データ処理ハードウェア(610)によって、複数のトレーニング用テキスト発声(302)を取得するステップであって、
複数のトレーニング用テキスト発声(302)の第1の部分は、非発話テキスト発声(302a)を含み、各非発話テキスト発声(302a)は、どの対応する発話された発声とも対にされず、
前記複数のトレーニング用テキスト発声(302)の残りの第2の部分は、発話されたトレーニング用発声のセット(305)の転写(302b)を含み、各発話されたトレーニング用発声(305)は、前記対応する発話されたトレーニング用発声(305)の対応する非合成音声表現(304)と対にされた対応する転写(302b)を含む、ステップと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、前記GANベースのTTSモデル(310)による出力用に、前記対応するトレーニング用テキスト発声(302)の合成音声表現(306)を生成することと、
前記データ処理ハードウェア(610)によって、前記GANの敵対的弁別器(318)を使って、前記対応するトレーニング用テキスト発声(302)の前記対応する合成音声表現(306)に相対した、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つの中の音響ノイズ不均衡の量を示す敵対的損失項(320)を判断することとを含むステップと、
前記データ処理ハードウェア(610)によって、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記敵対的損失項(320)に基づいて前記GANベースのTTSモデル(310)のパラメータを更新するステップと、
前記データ処理ハードウェア(610)によって、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において生成された前記合成音声表現(306)で前記音声認識モデル(200)をトレーニングするステップとを含む方法(500)。
前記音声認識モデル(200)をトレーニングするステップは、トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングするステップをさらに含み、各トレーニング用発声バッチは、
前記対応するトレーニング用テキスト発声(302)の前記生成された合成音声表現(306)の部分と、
前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)の部分を含む、請求項1に記載の方法(500)。
各トレーニング用発声バッチの中の、前記生成された合成音声表現(306)の前記部分と、前記非合成音声表現(304)の前記部分の比は、前記音声認識モデル(200)をトレーニングする間に時間とともに増大する、請求項2に記載の方法(500)。
各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記データ処理ハードウェア(610)によって、前記対応するトレーニング用発声バッチ用の前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)についてのそれぞれの非合成音声損失項(344)を生成するステップと、
前記データ処理ハードウェア(610)によって、前記音声認識モデル(200)によって生成された各それぞれの非合成音声損失項(344)に調節可能損失重みを適用するステップであって、前記調節可能損失重みは、前記対応するトレーニング用発声バッチの中の、前記生成された音声表現の前記部分と、前記非合成音声表現(304)の前記部分の前記比に比例する規模を有する、ステップとをさらに含む、請求項3に記載の方法(500)。
各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記対応するトレーニング用発声バッチに関連付けられた、前記生成された合成音声表現(306)の前記部分の中の各生成された合成音声表現(306)のための複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、前記音声認識モデル(200)による出力のために、前記対応する合成音声表現(306)のための可能な合成音声認識仮定にわたって第1の確率分布(311)を判断することと、
前記データ処理ハードウェア(610)によって、前記対応する合成音声表現(306)および前記対応する合成音声表現(306)がそこから生成される、前記対応するトレーニング用テキスト発声(302)向けの可能な合成音声認識仮定にわたる前記第1の確率分布(311)に基づいて、合成音声損失項(344)を生成することと、
前記対応するトレーニング用発声バッチに関連付けられた前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)のための複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、前記音声認識モデル(200)による出力のために、前記対応する非合成音声表現(304)のための可能な非合成音声認識仮定にわたって第2の確率分布(312)を判断することと、
前記データ処理ハードウェア(610)によって、前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮定にわたる前記第2の確率分布(312)および前記対応する非合成音声表現(304)と対にされる、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)に基づいて、非合成音声損失項(344)を生成することとを含むステップとをさらに含む、請求項2から4のいずれか一項に記載の方法(500)。
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、前記発話されたトレーニング用発声セット(305)から選択された前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項1から5のいずれか一項に記載の方法(500)。
各トレーニング用テキスト発声(302)は、
発声埋め込みのセットから選択された発声埋め込みであって、前記発声埋め込みセットの中の各発声埋め込みは、意図された韻律を表す、発声埋め込みと、
話者埋め込みのセットから選択された話者埋め込みであって、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表す、話者埋め込みとを条件とする、請求項1から6のいずれか一項に記載の方法(500)。
各トレーニング用テキスト発声(302)は、対応する音素シーケンスによって表され、
前記発声埋め込みセットの中の各発声埋め込みは、変分オートエンコーダ(VAE)によって、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)のうちの対応する1つから抽出され、
前記話者埋め込みセットの中の各話者埋め込みは、前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)のうちの対応する1つから抽出される、請求項7に記載の方法(500)。
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において前記敵対的損失項(320)を判断するのに先立って、前記データ処理ハードウェア(610)によって、前記対応するトレーニング用テキスト発声(302)の前記対応する生成された合成音声表現(306)にデータ拡大を適用するステップをさらに含む、請求項1から8のいずれか一項に記載の方法(500)。
前記適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含む、請求項9に記載の方法(500)。
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記データ処理ハードウェア(610)によって、基準TTSモデル(322)による出力用に、前記対応するトレーニング用テキスト発声(302)の基準合成音声表現(306)を生成するステップと、
前記データ処理ハードウェア(610)によって、前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)、および前記基準TTSモデル(322)によって出力された前記対応するトレーニング用テキスト発声(302)の前記基準合成音声表現(306)に基づいて、一貫性損失項(324)を判断するステップとをさらに含み、
前記GANベースのTTSモデル(310)の前記パラメータを更新することは、複数の非発話トレーニング用発声(305)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された、前記敵対的損失項(320)および前記一貫性損失項(324)に基づく、請求項1から10のいずれか一項に記載の方法(500)。
前記基準TTSモデル(322)のパラメータは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において固定されたままである、請求項11に記載の方法(500)。
前記データ処理ハードウェア(610)によって、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)を取得するための非発話テキスト選択プロセス(400)を実行するステップをさらに含み、前記非発話テキスト選択プロセス(400)は、
非発話テキスト発声(302a)のコーパス(402)を取得することと、
非発話テキスト発声(302a)の前記コーパス(402)の中の各非発話テキスト発声(302a)に対して、
領域固有言語モデル(410)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第1の確率を判断することであって、前記領域固有言語モデル(410)は、前記発話されたトレーニング用発声セット(305)の中の各転写(302b)でトレーニングされる、ことと、
バックグラウンド言語モデル(420)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第2の確率を判断することであって、前記バックグラウンド言語モデル(420)は、非発話テキスト発声(302a)の前記コーパス(402)の中のあらゆる非発話テキスト発声(302a)でトレーニングされる、ことと、
前記第1の確率、前記第2の確率、および前記対応する非発話テキスト発声(302a)の中に現れる単語の数に基づいて、スコアを判断することとを含む、ことと、
前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)として、N最良発声スコアを有する、非発話テキスト発声(302a)の前記コーパス(402)の中の前記非発話テキスト発声(302a)を選択することとを行うように構成される、請求項1から12のいずれか一項に記載の方法(500)。
前記音声認識モデル(200)をトレーニングするステップは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記音声認識モデル(200)によって、前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)を符号化するステップと、
前記音声認識モデル(200)によって、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つを符号化するステップと、
別の敵対的弁別器(358)を使って、前記符号化された合成音声表現(306)と前記非合成音声表現(304)のうちの前記符号化された1つとの間の別の敵対的損失項(360)を判断するステップと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記別の敵対的損失項(320)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップとを含む、請求項1から13のいずれか一項に記載の方法(500)。
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記対応するテキスト発声および前記別の敵対的弁別器(358)は各々、話者埋め込みのセットから選択された同じ話者埋め込みを条件とし、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表し、
前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項14に記載の方法(500)。
敵対的生成ネットワーク(GAN)ベースのテキスト音声(TTS)モデルおよび音声認識モデル(200)を一斉にトレーニングするためのシステム(600)であって、
データ処理ハードウェア(610)と、
前記データ処理ハードウェア(610)と通信するメモリハードウェア(620)とを備えるシステム(600)であって、前記メモリハードウェア(620)は、前記データ処理ハードウェア(610)上で実行されると、前記データ処理ハードウェア(610)に動作を実施させる命令を記憶し、前記動作は、
複数のトレーニング用テキスト発声(302)を取得することであって、
複数のトレーニング用テキスト発声(302)の第1の部分は、非発話テキスト発声(302a)を含み、各非発話テキスト発声(302a)は、どの対応する発話された発声とも対にされず、
前記複数のトレーニング用テキスト発声(302)の残りの第2の部分は、発話されたトレーニング用発声のセット(305)の転写(302b)を含み、各発話されたトレーニング用発声(305)は、前記対応する発話されたトレーニング用発声(305)の対応する非合成音声表現(304)と対にされた対応する転写(302b)を含む、取得することと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための複数の出力ステップの各々において、
前記GANベースのTTSモデル(310)による出力用に、前記対応するトレーニング用テキスト発声(302)の合成音声表現(306)を生成することと、
前記GANの敵対的弁別器(318)を使って、前記対応するトレーニング用テキスト発声(302)の前記対応する合成音声表現(306)に相対した、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つの中の音響ノイズ不均衡の量を示す敵対的損失項(320)を判断することとを含むことと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記敵対的損失項(320)に基づいて前記GANベースのTTSモデル(310)のパラメータを更新することと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において生成された前記合成音声表現(306)で前記音声認識モデル(200)をトレーニングすることとを含む、システム(600)。
前記音声認識モデル(200)をトレーニングすることは、トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングすることをさらに含み、各トレーニング用発声バッチは、
前記対応するトレーニング用テキスト発声(302)の前記生成された合成音声表現(306)の部分と、
前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)の部分を含む、請求項16に記載のシステム(600)。
各トレーニング用発声バッチの中の、前記生成された合成音声表現(306)の前記部分と、前記非合成音声表現(304)の前記部分の比は、前記音声認識モデル(200)をトレーニングする間に時間とともに増大する、請求項17に記載のシステム(600)。
前記動作は、各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記対応するトレーニング用発声バッチ用の前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)についてのそれぞれの非合成音声損失項(344)を生成することと、
前記音声認識モデル(200)によって生成された各それぞれの非合成音声損失項(344)に調節可能損失重みを適用することであって、前記調節可能損失重みは、前記対応するトレーニング用発声バッチの中の、前記生成された音声表現の前記部分と、前記非合成音声表現(304)の前記部分の前記比に比例する規模を有する、こととをさらに含む、請求項18に記載のシステム(600)。
前記動作は、各トレーニング用発声バッチで前記音声認識モデル(200)をトレーニングする間に、
前記対応するトレーニング用発声バッチに関連付けられた、前記生成された合成音声表現(306)の前記部分の中の各生成された合成音声表現(306)のための複数の出力ステップの各々において、
前記音声認識モデル(200)による出力のために、前記対応する合成音声表現(306)のための可能な合成音声認識仮定にわたって第1の確率分布(311)を判断することと、
前記対応する合成音声表現(306)および前記対応する合成音声表現(306)がそこから生成される、前記対応するトレーニング用テキスト発声(302)向けの可能な合成音声認識仮定にわたる前記第1の確率分布(311)に基づいて、合成音声損失項(344)を生成することとを含むことと、
前記対応するトレーニング用発声バッチに関連付けられた前記非合成音声表現(304)の前記部分の中の各非合成音声表現(304)のための複数の出力ステップの各々において、
前記音声認識モデル(200)による出力のために、前記対応する非合成音声表現(304)のための可能な非合成音声認識仮定にわたって第2の確率分布(312)を判断することと、
前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮定にわたる前記第2の確率分布(312)および前記対応する非合成音声表現(304)と対にされる、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)に基づいて、非合成音声損失項(344)を生成することとを含むこととをさらに含む、請求項17から19のいずれか一項に記載のシステム(600)。
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、前記発話されたトレーニング用発声セット(305)から選択された前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項16から20のいずれか一項に記載のシステム(600)。
各トレーニング用テキスト発声(302)は、
発声埋め込みのセットから選択された発声埋め込みであって、前記発声埋め込みセットの中の各発声埋め込みは、意図された韻律を表す、発声埋め込みと、
話者埋め込みのセットから選択された話者埋め込みであって、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表す、話者埋め込みとを条件とする、請求項16から21のいずれか一項に記載のシステム(600)。
各トレーニング用テキスト発声(302)は、対応する音素シーケンスによって表され、
前記発声埋め込みセットの中の各発声埋め込みは、変分オートエンコーダ(VAE)によって、前記発話されたトレーニング用発声セット(305)の中の前記転写(302b)のうちの対応する1つから抽出され、
前記話者埋め込みセットの中の各話者埋め込みは、前記発話されたトレーニング用発声セット(305)の中の前記非合成音声表現(304)のうちの対応する1つから抽出される、請求項22に記載のシステム(600)。
前記動作は、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において前記敵対的損失項(320)を判断するのに先立って、前記対応するトレーニング用テキスト発声(302)の前記対応する生成された合成音声表現(306)にデータ拡大を適用することをさらに含む、請求項16から23のいずれか一項に記載のシステム(600)。
前記適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含む、請求項24に記載のシステム(600)。
前記動作は、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
基準TTSモデル(322)による出力用に、前記対応するトレーニング用テキスト発声(302)の基準合成音声表現(306)を生成することと、
前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)、および前記基準TTSモデル(322)によって出力された前記対応するトレーニング用テキスト発声(302)の前記基準合成音声表現(306)に基づいて、一貫性損失項(324)を判断することとをさらに含み、
前記GANベースのTTSモデル(310)の前記パラメータを更新することは、複数の非発話トレーニング用発声(305)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された、前記敵対的損失項(320)および前記一貫性損失項(324)に基づく、請求項16から25のいずれか一項に記載のシステム(600)。
前記基準TTSモデル(322)のパラメータは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において固定されたままである、請求項26に記載のシステム(600)。
前記動作は、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)を取得するための非発話テキスト選択プロセス(400)を実行することをさらに含み、前記非発話テキスト選択プロセス(400)は、
非発話テキスト発声(302a)のコーパス(402)を取得することと、
非発話テキスト発声(302a)の前記コーパス(402)の中の各非発話テキスト発声(302a)に対して、
領域固有言語モデル(410)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第1の確率を判断することであって、前記領域固有言語モデル(410)は、前記発話されたトレーニング用発声セット(305)の中の各転写(302b)でトレーニングされる、ことと、
バックグラウンド言語モデル(420)の中に現れる前記非発話テキスト発声(302a)に関連付けられた第2の確率を判断することであって、前記バックグラウンド言語モデル(420)は、非発話テキスト発声(302a)の前記コーパス(402)の中のあらゆる非発話テキスト発声(302a)でトレーニングされる、ことと、
前記第1の確率、前記第2の確率、および前記対応する非発話テキスト発声(302a)の中に現れる単語の数に基づいて、スコアを判断することとを含む、ことと、
前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)として、N最良発声スコアを有する、非発話テキスト発声(302a)の前記コーパス(402)の中の前記非発話テキスト発声(302a)を選択することとを行うように構成される、請求項16から27のいずれか一項に記載のシステム(600)。
前記音声認識モデル(200)をトレーニングすることは、前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記音声認識モデル(200)によって、前記GANベースのTTSモデル(310)によって出力された前記対応するトレーニング用テキスト発声(302)の前記合成音声表現(306)を符号化することと、
前記音声認識モデル(200)によって、前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの1つを符号化することと、
別の敵対的弁別器(358)を使って、前記符号化された合成音声表現(306)と前記非合成音声表現(304)のうちの前記符号化された1つとの間の別の敵対的損失項(360)を判断することと、
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において判断された前記別の敵対的損失項(320)に基づいて、前記音声認識モデル(200)のパラメータを更新することとを含む、請求項16から28のいずれか一項に記載のシステム(600)。
前記複数のトレーニング用テキスト発声(302)の各トレーニング用テキスト発声(302)のための前記複数の出力ステップの各々において、
前記対応するテキスト発声および前記別の敵対的弁別器(358)は各々、話者埋め込みのセットから選択された同じ話者埋め込みを条件とし、前記話者埋め込みセットの中の各話者埋め込みは話者特性を表し、
前記発話されたトレーニング用発声セット(305)から選択された、前記非合成音声表現(304)のうちの前記1つは、
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第1の部分の中の前記非発話テキスト発声(302a)のうちの1つを含むときは、前記発話されたトレーニング用発声セット(305)からランダムに選択された非合成音声表現(304)を、または
前記対応するトレーニング用テキスト発声(302)が、前記複数のトレーニング用テキスト発声(302)の前記第2の部分の中の前記転写(302b)のうちの1つを含むときは、前記転写(302b)のうちの前記対応する1つと対にされる、前記発話されたトレーニング用発声セット(305)からの非合成音声表現(304)を含む、請求項29に記載のシステム(600)。