JP2024530969A

JP2024530969A - 音声合成ベースのモデル適応での音声認識の向上

Info

Publication number: JP2024530969A
Application number: JP2024510363A
Authority: JP
Inventors: アンドリュー・ローゼンバーグ; ブヴァナ・ラマバドラン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-08-20
Filing date: 2022-07-20
Publication date: 2024-08-27
Also published as: CN117859173A; EP4367663A1; US20230058447A1; WO2023023434A1; US11823697B2; KR20240051176A

Abstract

音声認識モデル(200)をトレーニングするための方法(400)は、目標領域中の合成音声(306)のサンプル発声を取得するステップと、目標領域中の非合成音声(304)の転写された発声を取得するステップと、ウォームスタートトレーニングのための初期状態に到達するように、目標領域中の合成音声のサンプル発声で、音声認識モデルを事前トレーニングするステップとを含む。音声認識モデルを事前トレーニングした後、方法は、目標領域中の実際の/人間音声を認識することを学習するように音声認識モデルに教えるように、目標領域中の非合成音声の転写された発声で音声認識モデルをウォームスタートトレーニングするステップも含む。

Description

本開示は、音声合成ベースのモデル適応で音声認識を向上することに関する。

自動音声認識(ASR)、すなわち、オーディオ入力を受け取り、テキストに転写するプロセスは、モバイルデバイスおよび他のデバイスにおいて使われる、大いに重要な技術である。概して、自動音声認識は、オーディオ入力(たとえば、音声発声)を受け取り、オーディオ入力をテキストに転写することによって、人が言ったことの正確な転写を与えることを試みる。最新のASRモデルは、深層ニューラルネットワークの進行中の開発に基づいて、正確さ(たとえば、低い単語誤り率(WER))とレイテンシ(たとえば、ユーザ発話と転写の間との遅延)の両方において向上し続ける。ただし、深層学習ベースのASRモデルを開発する際の1つの難題は、ASRモデルのパラメータが、トレーニングデータに過剰適合する傾向があり、そうすることによって、ASRモデルが、トレーニングデータが十分には大規模でないときに未知のデータを一般化するという問題点を有することになることである。その結果、比較的大きいトレーニングデータセットでASRモデルをトレーニングすると、ASRモデルの正確さが向上する。ASRモデルをトレーニングするのに使われるトレーニングデータのボリュームを増大させるために、合成音声および/またはデータ拡大音声が組み込まれることが可能である。

本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実施させるコンピュータ実装方法を提供する。動作は、目標領域中の合成音声のサンプル発声を取得し、目標領域中の非合成音声の転写された発声を取得することを含む。動作は、ウォームスタートトレーニングのための初期状態に到達するように、目標領域中の合成音声のサンプル発声で音声認識モデルを事前トレーニングすることも含む。音声認識モデルを事前トレーニングした後、動作は、目標領域中の実際の/人間音声を認識することを学習するように音声認識モデルに教えるように、目標領域中の非合成音声の転写された発声で音声認識モデルをウォームスタートトレーニングすることも含む。

本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、目標領域中の合成音声のサンプル発声を取得することは、テキスト音声(TTS)システムを使って、TTSシステムにおいて入力として受信された発声の対応する転記に基づいて、合成音声の各サンプル発声を生成することを含む。対応する転記は、言語モデルからサンプリングされてよい。TTSシステムは、目標領域中の転写オーディオサンプルでトレーニングされ、かつ/または目標領域とは違う領域外オーディオサンプルでトレーニングされてよい。TTSシステムは、合成音声の発声にわたるボイス特性を変えること、または合成音声の発声にわたる韻律/スタイル品質を変えることのうちの少なくとも1つを行うようにさらに構成されてよい。

いくつかの例では、動作は、合成音声のサンプル発声のうちの1つまたは複数にデータ拡大を適用することも含む。ここで、適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含み得る。音声認識モデルは、回帰型ニューラルネットワークトランスデューサ(RNN-T)モデルなど、フレーム整列ベースのトランスデューサモデルを含み得る。音声認識モデルは、整列ベースのエンコーダデコーダモデルを含み得る。

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含むシステムを提供し、メモリハードウェアは、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実施させる命令を記憶する。動作は、目標領域中の合成音声のサンプル発声を取得し、目標領域中の非合成音声の転写された発声を取得することを含む。動作は、ウォームスタートトレーニングのための初期状態に到達するように、目標領域中の合成音声のサンプル発声で音声認識モデルを事前トレーニングすることも含む。音声認識モデルを事前トレーニングした後、動作は、目標領域中の実際の/人間音声を認識することを学習するように音声認識モデルに教えるように、目標領域中の非合成音声の転写された発声で音声認識モデルをウォームスタートトレーニングすることも含む。

本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。

音声認識モデルを含む例示的音声認識システムの概略図である。回帰型ニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャの概略図である。アテンションベースのエンコーダデコーダ(AED)モデルアーキテクチャの概略図である。非合成音声と合成音声の両方で一貫性予測を学習するように、音声認識モデルを促進するための例示的トレーニングプロセスの概略図である。音声認識モデルをトレーニングする方法のための動作の例示的並びのフローチャートである。本明細書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイスの概略図である。

様々な図面における同様の符号は、同様の要素を示す。

自動化音声認識は、オーディオからキャラクタシーケンスにマップするシーケンスツーシーケンス(Seq2Seq)モデルの導入に伴い、途方もない進歩をした。同時に、テキスト音声(TTS)または音声合成システムは、Seq2Seqモデルを適用して、人間の耳では人間音声と区別できない場合がある、現況技術による自然な、本物らしく聞こえる合成音声を取得するのに成功した。

深層学習ベースのASRモデルを開発する際の1つの難題は、ASRモデルのパラメータが、トレーニングデータに過剰適合する傾向があり、そうすることによって、ASRモデルが、トレーニングデータが十分には大規模でないときに未知のデータを一般化するという問題点を有することになることである。したがって、比較的大きいトレーニングデータセットでASRモデルをトレーニングすると、ASRモデルの正確さが向上する。たとえば、機械学習または他の統計的方法の使用により、約10,000時間分の転写された音声を含むトレーニング用データセットでASRモデルをトレーニングすることができる。ただし、推論中にASRモデルが展開される領域とは、トレーニングデータに関連付けられた領域が別個であるとき、ASRモデルの性能は悪化する。たとえば、ビデオ会議に関連付けられた領域中の転写された音声でASRモデルをトレーニングするのは、ボイス探索クエリに関連した音声を認識する際に、比較的効果的でなく、その逆も同様である。

合成音声は、ASRモデルをトレーニングするのに要するラベル付き人間音声の量を徹底的に制限する可能性があるとともに、異なる領域の間でASRモデルを動かす柔軟性も与える。概して、合成音声の使用は、人間音声とは区別できない、現況技術による合成音声の事例にかかわらず、人間音声とは異なるように、ASRトレーニングに影響を与えることを示している。合成音声と人間音声との間のこのギャップは、TTSシステムが解決しようとしている、難しい1対多マッピング問題から生じる人間音声データからの、合成された音声データにおける不一致に起因する。すなわち、入手可能な合成音声の集合体品質は非常に高いが、合成音声は、人間音声よりもはるかに少ない変化、ならびに最小音声どもりを呈する。その結果、合成音声データで排他的にASRモデルをトレーニングすることは、推論中に実際の音声発声を一般化することの問題点を提示する。

本明細書における実装形態は、ASRモデルをトレーニングするための、目標領域中の大量の転写された音声(たとえば、非合成音声)が利用可能でないか、または比較的普及していないとき、ASRモデルの正確さを維持するために、目標領域中の音声を認識するようにASRモデルをトレーニングするために合成音声を使うことを対象とする。より詳細には、本明細書における実装形態は、あらかじめ算出された参考状態を達成するようにASRモデルを事前トレーニングし、次いで、目標領域中の、入手可能な転写された非合成音声を使って、あらかじめ算出された参考状態からASRモデルをウォームスタートトレーニングするために、目標領域中の合成音声を使うことを対象とする。追加の実装形態は、話者の違いに対する堅牢性を促すために、合成された話者特性を変えることによって発声をトレーニングするという多様な実現を合成することなど、データ拡大技法を適用することを含む。本明細書に記載する技法は、目標領域中の比較的小さい、転写された人間音声が利用可能であるとき、特に有用である。

図1は、ユーザ104のユーザデバイス102上および/またはユーザデバイス102と通信するリモートコンピューティングデバイス201(たとえば、クラウドコンピューティング環境において実行する分散型システムの、1つもしくは複数のサーバ)上に存在するASRモデル200を実装する自動化音声認識(ASR)システム100を示す。ユーザデバイス102はモバイルコンピューティングデバイス(たとえば、スマートフォン)として示されるが、ユーザデバイス102は、限定はしないが、タブレットデバイス、ラップトップ/デスクトップコンピュータ、装着可能デバイス、デジタルアシスタントデバイス、スマートスピーカー/ディスプレイ、スマート器具、車載インフォテインメントシステム、またはモノのインターネット(IoT)デバイスなど、どのタイプのコンピューティングデバイスに対応してもよく、データ処理ハードウェア111およびメモリハードウェア113を装備する。

ユーザデバイス102は、ユーザ104によって発話された発声106を受信し(たとえば、ユーザデバイス102は、発話された発声106を記録するための1つまたは複数のマイクロフォンを含み得る)、発声106を、ASRシステム100によって処理されることが可能な入力音響フレーム110に関連付けられた対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム108を含む。図示した例において、ユーザは、「What is the weather in New York City?」というフレーズに対する英語の自然言語で、それぞれの発声106を発話し、オーディオサブシステム108は、発声106を、ASRシステム100への入力用に、対応する音響フレーム110に変換する。その後、ASRモデル200は、入力として、発声106に対応する音響フレーム110を受信し、出力として、発声106の対応する転写120(たとえば、認識結果/仮定)を生成/予測する。図示した例において、ユーザデバイス102および/またはリモートコンピューティングデバイス201は、発声106の転写120の表現を、ユーザデバイス102のユーザ104に提示するように構成されたユーザインターフェースジェネレータ107も実行する。いくつかの構成では、ASRシステム100から出力された転写120は、たとえば、ユーザコマンドを実行するために、ユーザデバイス102またはリモートコンピューティングデバイス201上で実行する自然言語理解(NLU)モジュールによって処理される。追加または代替として、テキスト音声システム(たとえば、ユーザデバイス102またはリモートコンピューティングデバイス201のどの組合せにおいても実行する)は、転写を、別のデバイスによる可聴出力のための合成音声に変換してよい。たとえば、元の発声106は、ユーザ104が友人へ送っているメッセージに対応してよく、ここで転写120は、元の発声106において伝えられるメッセージを聴くべき友人への可聴出力のための合成音声に変換される。

図2Aおよび図2Bを参照すると、ASRモデル200は、フレーム整列ベースのトランスデューサモデル200a(図2A)またはアテンションベースのエンコーダデコーダ(AED)モデル200b(図2B)などのエンドツーエンド(E2E)シーケンスツーシーケンスモデルを含み得る。ASRモデル200は、音響、発音、および言語モデルを単一のニューラルネットワークに統合することによってE2E音声認識を提供してよく、レキシコンも別個のテキスト正規化構成要素も必要としない。様々な構造および最適化機構は、正確さを増し、モデルトレーニング時間を削減することができる。ASRモデル200

図2Aを参照すると、例示的なフレーム整列ベースのトランスデューサモデル200aは、対話型アプリケーションに関連付けられたレイテンシ制約を遵守する回帰型ニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャを含む。RNN-Tモデルアーキテクチャの使用は例示であり、フレーム整列ベースのトランスデューサモデル200aは、特に、トランスフォーマトランスデューサおよびコンフォーマトランスデューサモデルアーキテクチャなど、他のアーキテクチャを含み得る。RNN-Tモデル200aは、小さい計算フットプリントを提供し、従来のASRアーキテクチャよりも少ないメモリ要件を使用して、RNN-Tモデルアーキテクチャを、ユーザデバイス102全体において音声認識を実施するのに適したものにする(たとえば、リモートサーバとの通信は求められない)。RNN-Tモデル200aは、エンコーダネットワーク210、予測ネットワーク220、および共同ネットワーク230を含む。エンコーダネットワーク210は、従来のASRシステムにおける音響モデル(AM)に概ね類似し、積層長短期メモリ(LSTM)レイヤからなる回帰型ネットワークを含む。たとえばエンコーダは、d次元特徴ベクトルのシーケンス(たとえば、音響フレーム110(図1))x=(x₁,x₂,...,x_T)を読み取り、ここで、

であり、各時間ステップにおいて、より高次の特徴表現を生じる。このより高次の特徴表現は、

、...、

と示される。

同様に、予測ネットワーク220もLSTMネットワークであり、これは、言語モデル(LM)のように、最終ソフトマックスレイヤ240によってこれまで出力された非空白シンボルのシーケンス、すなわちy₀、...、y_ui-1を、密な表現

に処理する。最終的に、RNN-Tモデルアーキテクチャを用いて、エンコーダおよび予測ネットワーク210、220によって生じた表現は、共同ネットワーク230によって組み合わされる。予測ネットワーク220は、密な表現を処理する代わりに、ルックアップされた疎な埋め込みを出力することによってレイテンシを改善するように、埋め込みルックアップテーブルで置き換えられてよい。共同ネットワークは次いで、

を予測し、これは、次の出力シンボルにわたる分布である。別の言い方をすると、共同ネットワーク230は、各出力ステップ(たとえば、時間ステップ)において、可能な音声認識仮定にわたる確率分布を生成する。ここで、「可能な音声認識仮定」は、指定された自然言語でシンボル/キャラクタを各々が表す出力ラベルのセットに対応する。たとえば、自然言語が英語であるとき、出力ラベルのセットは、27個のシンボルを含んでよく、たとえば、1つのラベルは、英語アルファベットの26文字の各々用であり、1つのラベルは空間を指定する。したがって、共同ネットワーク230は、出力ラベルの所定のセットの各々の出現の見込みを示す値のセットを出力してよい。この値セットは、ベクトルであってよく、出力ラベルのセットにわたる確率分布を示すことができる。いくつかの場合には、出力ラベルは書記素(たとえば、個々のキャラクタ、また、可能性としては句読および他のシンボル)であるが、出力ラベルのセットは、そのように限定されるわけではない。たとえば、出力ラベルのセットは、書記素に加え、またはその代わりに、ワードピースおよび/または単語全体を含み得る。共同ネットワーク230の出力分布は、異なる出力ラベルの各々についての事後確率値を含み得る。したがって、異なる書記素または他のシンボルを表す100個の異なる出力ラベルがある場合、共同ネットワーク230の出力y_iは、1つが各出力ラベルについてである、100個の異なる確率値を含み得る。確率分布は次いで、スコアを選択し、転写120を判断するためのビームサーチプロセスにおいて(たとえば、ソフトマックスレイヤ240によって)候補正書(orthographic)要素(たとえば、書記素、ワードピース、および/または単語)に割り当てるのに使うことができる。

ソフトマックスレイヤ240は、分布における最も高い確率をもつ出力ラベル/シンボルを、対応する出力ステップにおいてRNN-Tモデル200aによって予測される次の出力シンボルとして選択するための、どの技法を利用してもよい。このように、RNN-Tモデル200aは、条件付き独立仮定は行わず、むしろ、各シンボルの予測は、音響だけでなく、それまでに出力されたラベルのシーケンスも条件とする。RNN-Tモデル200aは、出力シンボルが将来の音響フレーム110に依存しないと想定し、そうすることによって、RNN-Tモデルは、ストリーミング方式で利用されることが可能になる。

いくつかの例では、RNN-Tモデル200aのエンコーダネットワーク210は、8つの2,048次元LSTMレイヤからなり、各々に640次元投射レイヤが続く。予測ネットワーク220は、2つの2,048次元LSTMレイヤを有してよく、その各々に、やはり640次元投射レイヤが続く。最終的に、共同ネットワーク230も、640個の隠れユニットを有し得る。ソフトマックスレイヤ240は、複数のトレーニング用データセット301(図3)の中のすべての一意のワードピースまたは書記素を使って生成される統一ワードピースまたは書記素セットからなってよい。

図2Bを参照すると、リッスン、アテンドおよびスペル(LAS:Listen, Attend and Spell)モデルアーキテクチャに関連付けられた例示的AEDモデル200bは、従来の音響モデルに類似するリスナーエンコーダモジュール211と、整列モデルとして作用するアテンダーモジュール221と、従来のシステムにおける言語モデルに類似するデコーダ231とを含む単一のニューラルネットワークを提供する。具体的には、リスナーエンコーダモジュール211は、入力特徴(たとえば、音響フレーム110(図1))、すなわちxを受け取り、それらを、より高レベルの特徴表現、すなわちh^encにマップする。符号化された特徴表現、すなわちh^encを生成するこのプロセスは、異なる入力時間ステップを表す、複数の入力フレームの各々に対して行うことができる。これらの時間ステップは、以下では下付き文字uで示される。したがって、フレームのセット{f₁,f₂,f₃,...f_u}に対して、符号化された出力の対応するセット{h₁,h₂,h₃,...h_u}があり得る。

リスナーエンコーダモジュール211の出力はアテンダーモジュール221に渡され、このモデルは、動的時間伸縮(DTW)整列モジュールと同様、h^encの中のどのエンコーダ特徴が、次の出力シンボル、すなわちy_iを予測するためにアテンドされるべきかを判断する。いくつかの例では、アテンダーモジュール221は本明細書では、アテンダーニューラルネットワークまたはアテンダー221と呼ばれる。アテンダー221は、複数の出力ステップiの各々に対して、コンテキスト出力c_iを生成することができる。各コンテキスト出力ベクトルc_iについて、アテンダー221は、1つまたは複数の入力ステップuに対する符号化、たとえば、現在の入力ステップに対する符号化ならびに前の入力ステップに対する符号化に基づいてアテンションを計算することができる。たとえば、アテンダー221は、発声のエンコーダ出力すべてのセット、たとえば、セット{h₁,h₂,h₃,...h_u}全体にわたって、アテンションコンテキスト出力c_iを生成することができる。アテンションコンテキストベクトルは、認識されている発声のフレーム(たとえば、部分)に対する現在の、および前の符号化の加重サマリーを表すベクトルであり得る。

最終的に、アテンダー221の出力はデコーダ231に渡され、デコーダは、デコーダ出力を生じるために、アテンダー221によって出力されたアテンションコンテキスト(たとえば、コンテキストベクトルまたはアテンション分布)、すなわちc_i、ならびに前の予測、すなわちy_i-1の埋め込みを受け取る。デコーダ出力は、前の単位、すなわち{y_i-1,...,y₀}、および入力、すなわちxが与えられた場合の、現在の部分語単位、すなわちy_iにわたる確率分布、すなわちP(y_i|y_i-1,...,y₀,x)であってよい。したがって、デコーダ231は、各出力ステップにおいて、可能な音声認識仮定にわたる確率分布を生成する。図2Aを参照して上上述したRNN-Tモデル200aと同様、「可能な音声認識仮定」は、指定された自然言語でのシンボル/キャラクタを各々が表す出力シンボルのセットに対応する。

図示しないが、ASRモデル200は、デコーダ231の出力を受信するソフトマックスレイヤを含み得る。いくつかの実装形態では、ソフトマックスレイヤは、デコーダ231とは別個であり、デコーダ231からの出力、すなわちy_iを処理し、ソフトマックスレイヤの出力は次いで、正書要素を選択するためのビームサーチプロセスにおいて使われる。いくつかの実装形態では、ソフトマックスレイヤはデコーダ231と統合され、そうすることによって、デコーダ231の出力y_iは、ソフトマックスレイヤの出力を表す。

デコーダ231および/または関連付けられたソフトマックスレイヤは、出力ラベルの所定のセットの各々の出現の見込みを示す値のセットを出力するようにトレーニングされてよい。この値セットは、ベクトルであってよく、出力ラベルのセットにわたる確率分布を示すことができる。いくつかの場合には、出力ラベルは書記素(たとえば、個々のキャラクタ、また、可能性としては句読および他のシンボル)であるが、出力ラベルのセットは、そのように限定されるわけではない。たとえば、出力ラベルのセットは、書記素に加え、またはその代わりに、ワードピースおよび/または単語全体を含み得る。デコーダ231および/またはソフトマックスレイヤの出力分布は、異なる出力ラベルの各々についての事後確率値を含み得る。したがって、異なる書記素または他のシンボルを表す100個の異なる出力ラベルがある場合、デコーダの出力y_i、または出力y_iを受信および処理するソフトマックスレイヤの出力は、1つが各出力ラベルについてである、100個の異なる確率値を含み得る。確率分布は次いで、スコアを選択し、転写を判断するためのビームサーチプロセスにおいて候補正書要素(たとえば、書記素、ワードピース、および/または単語)に割り当てるのに使うことができる。

図3を参照すると、ASRモデル200を、ランダム状態から、あらかじめ算出された参考状態を達成するように最初に事前トレーニングし、次いで、モデルを、あらかじめ算出された参考状態から、目標領域中の音声を正確に認識することを学習するようにASRモデル200に教えるようにウォームスタートトレーニングするための例示的トレーニングプロセス300が示されている。本明細書で使用する限り、目標領域は、ASRモデル200が、利用されるときに推論中に認識している音声のタイプを指し得る。たとえば、目標領域は、いくつか例を挙げると、会議音声、ボイスサーチ音声、スポーツ放送局音声、ニュースキャスター音声、またはナビゲーションコマンド音声を含み得る。目標領域は、転写された人間音声がすぐには入手可能でない低リソース言語など、特定の言語に対応してもよい。いくつかの例では、ASRモデル200は多言語ASRモデルを含む。トレーニングプロセス300は、図1のリモートコンピューティングデバイス201上で実行してよい。たとえば、リモートコンピューティングデバイス201は、データ処理ハードウェア510(図5)と、データ処理ハードウェアと通信し、命令を記憶するメモリハードウェア520(図5)とを含み、命令は、データ処理ハードウェア510上で実行されると、データ処理ハードウェア510にトレーニングプロセス300の動作を実施させる。

図示した例において、トレーニングプロセス300は事前トレーニング段階を含み、ここで、ASRモデル200は、ウォームスタートトレーニングのための初期状態に到達するように、目標領域中の合成音声306のサンプル発声を使ってランダム状態から事前トレーニングされる。この初期状態は、目標領域に関連付けられた、あらかじめ算出された参考状態に関連付けられる。したがって、事前トレーニング段階は、モデルをウォームスタートトレーニングに適応させるのに、合成音声306のサンプル発声を使う。

テキスト音声(TTS)システム330は、発声の対応する転記320に対するTTS変換を実施することによって、合成音声306の各サンプル発声を生成し得る。ここで、各転記320は、目標領域中の合成音声306の対応する発声を含む合成オーディオへの変換のためにTTSシステム330によって受信された入力テキストに対応する。したがって、各転記320は、目標領域中のテキストのシーケンスを含む。テキストのシーケンスは、書記素または音素を含み得る。転記320は、目標領域中のテキスト発声を生成するようにトレーニングされた言語モデルからサンプリングされてよい。TTSシステム330は、転記320を変換して、話者埋め込みに関連付けられた特定の発話スタイルおよび韻律をもつ合成音声を取得するとき、話者埋め込み、すなわちzを適用してよい。TTSシステム330は、合成されている合成音声306の得られた発声の異なる話者特性に各々が関連付けられた多数の異なる話者埋め込みzを適用してよい。同様に、TTSシステム330は、合成される発声の韻律および他の生産品質を変え得る。

いくつかの例では、トレーニングプロセスは最初に、入手可能な転写オーディオサンプルを使って、TTSシステム330をトレーニングする。いくつかの例では、TTSシステム330をトレーニングするのに使われる入手可能なオーディオサンプルは、目標領域に関連付けられた領域内オーディオサンプルを含む。他の例では、TTSシステム330をトレーニングするのに使われる入手可能なオーディオサンプルは、目標領域とは違う領域外オーディオサンプルを含む。これらの例では、TTSシステム330は、TTSシステム330が、領域外で転写されたオーディオサンプルでトレーニングされているのにかかわらず、事前トレーニング段階中に、ASRモデル200への入力のために、目標領域中の合成音声306の発声を生成している。TTSシステム330は、いくつかの例では、領域内および領域外の変形でトレーニングされてよい。

いくつかの例では、トレーニングプロセス300は、合成音声306のサンプル発声のうちの少なくとも1つにデータ拡大を適用する。データ拡大は、限定はしないが、対応する音声表現に、ノイズを加えること、タイミングを操作すること(たとえば、伸長)、または残響を加えることを含み得る。データ拡大は、異なる合成された記録条件を、合成音声306に加え得る。

事前トレーニング段階中、ASRモデル200は、入力として、合成音声

306の各発声を、特徴/ベクトル(たとえば、図1の音響フレーム110)のシーケンスとして受信し、出力として、複数の出力ステップの各々のために、対応する発声合成音声

306についての可能な合成音声認識仮定(y)にわたる第1の確率分布311を生成する。簡単のために、「合成音声認識結果311」という用語は、合成音声

306の対応する発声についての可能な合成音声認識仮定(y)にわたる第1の確率分布311を互換的に指すのに使われてよい。

トレーニングプロセス300は、複数の出力ステップの各々における出力として、転記320と、合成音声

306の対応する発声についての可能な合成音声認識仮定(y)にわたる第1の確率分布311とに基づいて、合成音声損失項(J_tts(θ))344を含む第1の教師あり損失項を生成する。特に、合成音声306の対応する発声を生成するためにTTSシステム330に与えられる入力テキストに対応する転記320は、グランドトゥルースラベル/転写としても働く。図示した例において、トレーニングプロセス300は、グランドトゥルースとしての転記320および第1の確率分布311を受信し、合成音声損失項(J_tts(θ))344を出力するように構成された教師あり損失項モジュール340を実行する。合成音声損失項(J_tts(θ))344は、以下の式によって算出され得る。

上式で、y*、zは、転記(y*)および話者埋め込み(z)に基づいてTTSモジュール330によって生成された合成音声表現

306を示す。

教師あり損失項モジュール340は、合成音声損失項(J_tts(θ))344をASRモデル200に返し得る。たとえば、トレーニングプロセス300は、逆伝搬を通してASRモデル200をトレーニングするための、確率的勾配降下などの確率的最適化アルゴリズムを使って、ASRモデル200をトレーニングしてよい。ここで、確率的最適化アルゴリズムは、ニューラルネットワークの実際の出力(たとえば、合成音声認識結果311)と、所望の出力(たとえば、対応する発声のグランドトゥルース転記320)との間の違いに基づいてそれぞれの損失関数(たとえば、交差エントロピー損失関数)を定義するのに、損失項344を使う。たとえば、損失関数は、トレーニング例のバッチ用に計算され、次いで、ASRモデル200の中の各重みに関して微分される。

事前トレーニング段階が完了し、初期状態に到達すると、トレーニングプロセス300は、ウォームスタートトレーニング段階を実行して、目標領域中の非合成音声304の入手可能な転写された発声を使って、事前トレーニングされたモデルを微調整すればよい。非合成音声304の各発声は、人間によって発話された実際の音声に対応する。いくつかの例では、トレーニングプロセス300は、非合成音声304の発声のうちの少なくとも1つにデータ拡大を適用する。データ拡大は、限定はしないが、対応する音声表現に、ノイズを加えること、タイミングを操作すること(たとえば、伸長)、または残響を加えることを含み得る。非合成音声304の各転写された発声は、対応するグランドトゥルース転写321に関連付けられる。

ウォームスタートトレーニング段階中、ASRモデル200は、入力として、非合成音声(x)304の各発声を、特徴/ベクトル(たとえば、図1の音響フレーム110)のシーケンスとして受信し、出力として、複数の出力ステップの各々のために、非合成音声(x)304の対応する発声についての可能な非合成音声認識仮定(y)にわたる第2の確率分布312を生成する。簡単のために、「非合成音声認識結果312」という用語は、対応する非合成音声(x)304の発声のための可能な非合成音声認識仮定(y)にわたる第2の確率分布312を指すのに使われてよい。

その後、トレーニングプロセス300は、複数の出力ステップの各々における、ASRモデル200による出力用に、グランドトゥルース転写321と、対応する発声の対応する非合成音声表現(x)304のための非合成音声認識結果312(y)とに基づく非合成音声損失項(J_real(θ))342を含む第2の教師あり損失項を生成する。図示した例において、トレーニングプロセス300は、グランドトゥルース転写321および第2の確率分布312を受信し、非合成音声損失項(J_real(θ))342を出力するように構成された教師あり損失項モジュール340を実行する。非合成音声損失項(J_real(θ))342は、以下の式によって算出され得る。

教師あり損失項モジュール340は、非合成音声損失項(J_real(θ))342をASRモデル200に返し得る。たとえば、トレーニングプロセス300は、逆伝搬を通してASRモデル200をトレーニングするための、確率的勾配降下などの確率的最適化アルゴリズムを使って、ASRモデル200をトレーニングしてよい。ここで、確率的最適化アルゴリズムは、ニューラルネットワークの実際の出力(たとえば、非合成音声認識結果312)と、所望の出力(たとえば、対応する発声のグランドトゥルース転写321)との間の違いに基づいてそれぞれの損失関数(たとえば、交差エントロピー損失関数)を定義するのに、損失項342を使う。たとえば、損失関数は、トレーニング例のバッチ用に計算され、次いで、ASRモデル200の中の各重みに関して微分される。

有利には、ASRモデル200は、目標領域中の実際の/人間音声を認識することを学習するようにASRモデル200を適応させるように、目標領域中の合成音声の無限であり得る数の発声で、最初に事前トレーニングすることができる。特に、本明細書における技法は、目標領域中の非合成音声の、入手可能な転写された発声が少ないときに特に有利である。したがって、ASRモデル200は、領域内で転写された非合成音声に依拠する必要なく、新規目標領域中で迅速にトレーニングすることができ、というのは、合成音声は、目標領域中でASRモデル200をトレーニングするために、不対テキストからオンザフライで生成することができるからである。一例示的使用ケースでは、ASRモデル200の正確さは、事前トレーニング段階中に不対テキストから生成された合成音声からの音声トレーニング例の数を増やすことによって、転写された非合成音声を取得するのが難しい、自然言語での音声を認識するために徹底的に改善することができる。

図4は、音声認識モデル200をトレーニングする方法400のための動作の例示的な並びのフローチャートである。ASRモデル200は、アテンションベースのエンコーダデコーダ(AED)モデル200b(図2B)またはフレーム整列ベースのトランスデューサモデル200a(図2A)を含み得る。動作402において、方法400は、目標領域中の合成音声306のサンプル発声を取得し、目標領域中の非合成音声304の転写された発声を取得するステップを含む。

動作404において、方法400は、ウォームスタートトレーニングのための初期状態に到達するように、目標領域中の合成音声306のサンプル発声で、音声認識モデル200を事前トレーニングするステップを含む。音声認識モデル200を事前トレーニングした後、方法400は、動作406において、目標領域中の実際の/人間音声を認識することを学習するように音声認識モデル200に教えるように、目標領域中の非合成音声304の転写された発声で、音声認識モデル200をウォームスタートトレーニングするステップも含む。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的アプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含むが、それに限定されない。

非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

図5は、本文書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを目的としており、本文書において記載および/または請求される本発明の実装形態を限定することは目的としていない。

コンピューティングデバイス500は、プロセッサ510と、メモリ520と、記憶デバイス530と、メモリ520および高速拡張ポート550に接続する高速インターフェース/コントローラ540と、低速バス570および記憶デバイス530に接続する低速インターフェース/コントローラ560とを含む。構成要素510、520、530、540、550、および560の各々は、様々なバスを使って相互接続され、共通マザーボード上に、または必要に応じて他の方式で搭載されてよい。プロセッサ510(すなわち、データ処理ハードウェア111またはデータ処理ハードウェア201)は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース540に結合されたディスプレイ580などの外部入力/出力デバイス上に表示するための、メモリ520中または記憶デバイス530上に記憶された命令を含む、コンピューティングデバイス500内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使われてよい。また、複数のコンピューティングデバイス500が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。

メモリ520は、コンピューティングデバイス500内に情報を非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ520は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス500による使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。

記憶デバイス530は、コンピューティングデバイス500に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス530は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様の固体メモリデバイス、または記憶エリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上述したような1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ540は、コンピューティングデバイス500向けの帯域消費型動作を管理し、低速コントローラ560は、より帯域低消費型の動作を管理する。義務のそのような割振りは、例示的なものにすぎない。いくつかの実装形態において、高速コントローラ540は、メモリ520、ディスプレイ580に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート550に結合される。いくつかの実装形態において、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。低速拡張ポート590は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。

コンピューティングデバイス500は、図に示すように、いくつかの異なる形で実装されてよい。たとえば、標準サーバ500aとして、またはラップトップコンピュータ500bなどのサーバ500aのグループで、またはラックサーバシステム500cの一部として何度も実装されてよい。

本明細書に記載するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光学回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または翻訳可能な1つまたは複数のコンピュータプログラムでの実装を含んでよく、プログラム可能プロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、ならびにそれらにデータおよび命令を送信するように結合された、特殊または一般的目的であってよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサ用の機械命令を含み、高度手続型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラム可能プロセッサに、機械命令および/またはデータを提供するのに使われる、どのコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))も指す。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するのに使われるどの信号も指す。

本明細書に記載したプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実施するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理フローは、特殊目的論理回路構成、たとえば、FPGA(フィールドプログラム可能ゲートアレイ)やASIC(特定用途向け集積回路)によって実施することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および特殊目的マイクロプロセッサの両方、ならびにどの種類のデジタルコンピュータのどの1つまたは複数のプロセッサも含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実施するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、あらゆる形の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路構成によって補完することも、その中に組み込むこともできる。

ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を与えることができるためのキーボードおよびポインティングデバイス、たとえば、マウスやトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を提供するのに使われることが可能であり、たとえば、ユーザに与えられるフィードバックは、どの形の感覚フィードバックでも、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声、または触覚入力を含む、どの形でも受信されることが可能である。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態を記載した。それにもかかわらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行うことができることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内である。

100 自動化音声認識(ASR)システム
102 ユーザデバイス
107 ユーザインターフェースジェネレータ
110 音響フレーム
111 データ処理ハードウェア
113 メモリハードウェア
200 ASRモデル、音声認識モデル、モデル
200a フレーム整列ベースのトランスデューサモデル、RNN-Tモデル
200b アテンションベースのエンコーダデコーダモデル、AEDモデル
201 リモートコンピューティングデバイス、データ処理ハードウェア
210 エンコーダネットワーク、エンコーダ
211 リスナーエンコーダモジュール
220 予測ネットワーク
221 アテンダーモデル、アテンダー
230 共同ネットワーク
231 デコーダ
240 最終ソフトマックスレイヤ、ソフトマックスレイヤ
300 トレーニングプロセス
304 非合成音声
306 合成音声
311 第1の確率分布、合成音声認識結果
312 第2の確率分布、非合成音声認識結果
320 転記
321 グランドトゥルース転写
330 テキスト音声(TTS)システム
340 教師あり損失項モジュール
342 非合成音声損失項
344 合成音声損失項
500 コンピューティングデバイス
500a 標準サーバ、サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ、データ処理ハードウェア、構成要素
520 メモリ、メモリハードウェア、構成要素
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素
570 低速バス
580 ディスプレイ
590 低速拡張ポート

Claims

データ処理ハードウェア(510)に動作を実施させる、前記データ処理ハードウェア(510)によって実行されるコンピュータ実装方法(400)であって、前記動作は、
目標領域中の合成音声(306)のサンプル発声を取得することと、
前記目標領域中の非合成音声(304)の転写された発声を取得することと、
ウォームスタートトレーニングのための初期状態に到達するように、前記目標領域中の合成音声(306)の前記サンプル発声で音声認識モデル(200)を事前トレーニングすることと、
前記音声認識モデル(200)を事前トレーニングした後、前記目標領域中の実際の/人間音声を認識することを学習するように前記音声認識モデル(200)に教えるように、前記目標領域中の非合成音声(304)の前記転写された発声で前記音声認識モデル(200)をウォームスタートトレーニングすることとを含む、方法(400)。
前記目標領域中の合成音声(306)の前記サンプル発声を取得することは、テキスト音声(TTS)システム(330)を使って、前記TTSシステム(330)において入力として受信された前記発声の対応する転記(320)に基づいて、合成音声(306)の各サンプル発声を生成することを含む、請求項1に記載の方法(400)。
前記対応する転記(320)は言語モデルからサンプリングされる、請求項2に記載の方法(400)。
前記TTSシステム(330)は前記目標領域中の転写オーディオサンプルでトレーニングされる、請求項2または3に記載の方法(400)。
前記TTSシステム(330)は、前記目標領域とは違う領域外オーディオサンプルでトレーニングされる、請求項2から4のいずれか一項に記載の方法(400)。
前記TTSシステム(330)は、合成音声(306)の前記発声にわたるボイス特性を変えるように構成される、請求項2から5のいずれか一項に記載の方法(400)。
前記TTSシステム(330)は、合成音声(306)の前記発声にわたる韻律/スタイル品質を変えるように構成される、請求項2から6のいずれか一項に記載の方法(400)。
前記動作は、合成音声(306)の前記サンプル発声のうちの1つまたは複数にデータ拡大を適用することをさらに含む、請求項1から7のいずれか一項に記載の方法(400)。
前記適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含む、請求項8に記載の方法(400)。
前記音声認識モデル(200)はフレーム整列ベースのトランスデューサモデル(200a)を含む、請求項1から9のいずれか一項に記載の方法(400)。
前記フレーム整列ベースのトランスデューサモデル(200a)は回帰型ニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を含む、請求項10に記載の方法(400)。
前記音声認識モデル(200)は整列ベースのエンコーダデコーダモデル(200b)を含む、請求項1から11のいずれか一項に記載の方法(400)。
データ処理ハードウェア(510)と、
前記データ処理ハードウェア(510)と通信するメモリハードウェア(520)とを備えるシステム(100)であって、前記メモリハードウェア(520)は、前記データ処理ハードウェア(510)上で実行されると、前記データ処理ハードウェア(510)に動作を実施させる命令を記憶し、前記動作は、
目標領域中の合成音声(306)のサンプル発声を取得することと、
前記目標領域中の非合成音声(304)の転写された発声を取得することと、
ウォームスタートトレーニングのための初期状態に到達するように、前記目標領域中の合成音声(306)の前記サンプル発声で音声認識モデル(200)を事前トレーニングすることと、
前記音声認識モデルを事前トレーニングした後、前記目標領域中の実際の/人間音声を認識することを学習するように前記音声認識モデル(200)に教えるように、前記目標領域中の非合成音声(304)の前記転写された発声で前記音声認識モデル(200)をウォームスタートトレーニングすることとを含む、システム(100)。
前記目標領域中の合成音声(306)の前記サンプル発声を取得することは、テキスト音声(TTS)システム(330)を使って、前記TTSシステム(330)において入力として受信された前記発声の対応する転記(320)に基づいて、合成音声(306)の各サンプル発声を生成することを含む、請求項13に記載のシステム(100)。
前記対応する転記(320)は言語モデルからサンプリングされる、請求項14に記載のシステム(100)。
前記TTSシステム(330)は前記目標領域中の転写オーディオサンプルでトレーニングされる、請求項14または15に記載のシステム(100)。
前記TTSシステム(330)は、前記目標領域とは違う領域外オーディオサンプルでトレーニングされる、請求項14から16のいずれか一項に記載のシステム(100)。
前記TTSシステム(330)は、合成音声(306)の前記発声にわたるボイス特性を変えるように構成される、請求項14から17のいずれか一項に記載のシステム(100)。
前記TTSシステム(330)は、合成音声(306)の前記発声にわたる韻律/スタイル品質を変えるように構成される、請求項14から18のいずれか一項に記載のシステム(100)。
前記動作は、合成音声(306)の前記サンプル発声のうちの1つまたは複数にデータ拡大を適用することをさらに含む、請求項13から19のいずれか一項に記載のシステム(100)。
前記適用されるデータ拡大は、ノイズを追加すること、残響を追加すること、またはタイミングを操作することのうちの少なくとも1つを含む、請求項20に記載のシステム(100)。
前記音声認識モデル(200)はフレーム整列ベースのトランスデューサモデル(200a)を含む、請求項13から21のいずれか一項に記載のシステム(100)。
前記フレーム整列ベースのトランスデューサモデル(200a)は回帰型ニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を含む、請求項22に記載のシステム(100)。
前記音声認識モデル(200)は整列ベースのエンコーダデコーダモデル(200b)を含む、請求項13から23のいずれか一項に記載のシステム(100)。