JP2023509234A

JP2023509234A - ストリーミングシーケンスモデルの一貫性予測

Info

Publication number: JP2023509234A
Application number: JP2022552950A
Authority: JP
Inventors: ジェフアイ・チェン; アンドリュー・ローゼンバーグ; ブヴァナ・ラマバドラン; ペドロ・ジェイ・モレノ・メンジバル
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-03-04
Filing date: 2021-02-08
Publication date: 2023-03-07
Anticipated expiration: 2041-02-08
Also published as: US20210280170A1; EP4088276A1; US11929060B2; JP7359969B2; WO2021178108A1; CN115210809A; KR20220148245A

Abstract

音声認識モデル（２００）をトレーニングするための方法（６００）は、それぞれが同じ対応する発話（１０６）の非合成音声表現（３０４）および合成音声表現（３０６）を含む、トレーニング発話ペア（３０２）のセットを受信するステップを含む。本方法はまた、対応する非合成音声表現に対して生成された可能な非合成音声認識仮説に対する第１の確率分布（３１１）と、対応する合成音声表現に対して生成された可能な合成音声認識仮説に対する第２の確率分布（３１２）とに基づいて、対応するトレーニング発話ペアの一貫性のある損失項（３５２）を決定するステップを含む。第１および第２の確率分布は、音声認識モデルによる出力のために生成される。本方法はまた、一貫性のある損失項に基づいて、音声認識モデルのパラメータを更新するステップを含む。

Description

本開示は、ストリーミングシーケンスモデルの一貫性予測に関する。

自動音声認識（ＡＳＲ）は、オーディオ入力を取得し、それをテキストに書き写すプロセスであり、モバイルデバイスおよび他のデバイスにおいて使用される非常に重要なテクノロジである。一般に、自動音声認識は、オーディオ入力（たとえば、音声発話）を取得し、オーディオ入力をテキストに書き写すことによって、人が言ったことの正確なトランスクリプションを提供しようとする。最新のＡＳＲモデルは、ディープニューラルネットワークの継続的な開発に基づいて、精度（たとえば、低単語誤り率（ＷＥＲ））およびレイテンシ（たとえば、ユーザの発声とトランスクリプションとの間の遅延）の両方において改善し続けている。しかしながら、ディープラーニングベースのＡＳＲモデルを開発する際の課題の１つは、ＡＳＲモデルのパラメータがトレーニングデータに過度に適合する傾向があり、それによって、トレーニングデータが十分に広範でない場合、ＡＳＲモデルは目に見えないデータを一般化することが困難になる点である。その結果、より大きいトレーニングデータセットにおいてＡＳＲモデルをトレーニングすると、ＡＳＲモデルの精度が向上する。ＡＳＲモデルをトレーニングするために使用されるトレーニングデータの量を増やすために、合成された音声および／またはデータ拡張音声を組み込むことができる。

本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させるコンピュータ実装方法を提供する。動作は、それぞれが対応する発話の非合成音声表現および対応する発話の合成音声表現を含むトレーニング発話ペアのセットを受信するステップを含む。トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、動作はまた、音声認識モデルによる出力のために、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第１の確率分布を生成するステップと、音声認識モデルによる出力のために、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第２の確率分布を生成するステップと、可能な非合成音声認識仮説に対する第１の確率分布と、可能な非合成音声認識仮説に対する第２の確率分布に基づいて、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップとを含む。動作はまた、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて、音声認識モデルのパラメータを更新するステップを含む。

本開示の実装形態は、以下の任意の機能のうちの１つまたは複数を含み得る。いくつかの実装形態では、動作は、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第１の確率分布に基づいて、非合成音声損失項を生成するステップと、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第２の確率分布と、対応する発話のグラウンドトゥルーストランスクリプションとに基づいて、合成音声損失項を生成するステップとをさらに含む。いくつかの例では、音声認識モデルのパラメータは、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において生成された非合成音声損失項および合成音声損失項とは無関係に、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて更新される。

任意で、各トレーニング発話ペアにおける合成音声表現は、対応する発話を表す合成された音声を含み得る。いくつかの実装形態では、トレーニング発話ペアごとに、動作は、対応する合成音声表現を生成するために、テキスト読み上げ（ＴＴＳ）モデルを使用して、対応する発話のグラウンドトゥルーストランスクリプションを変換するステップをさらに含む。少なくとも１つのトレーニング発話ペアについて、動作は、対応する非合成音声表現または対応する合成音声表現のうちの少なくとも１つにデータ拡張を適用するステップをさらに含み得る。ここで、適用されるデータ拡張は、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも１つを含み得る。

いくつかの例では、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップは、可能な非合成音声認識仮説に対する第１の確率分布と、可能な非合成音声認識仮説に対する第２の確率分布との間のカルバック－ライブラダイバージェンスに基づく。これらの例では、対応するトレーニング発話ペアの一貫性のある損失項を決定する前に、および音声認識モデルがフレームアラインメントベースのトランスデューサモデルを含む場合、動作は、対応する発話のグラウンドトゥルーストランスクリプションの有効なアラインメントの確率に基づいて、出力ステップの各々において生成される可能な非合成音声認識仮説に対する第１の確率分布のシーケンスと、出力ステップの各々において生成される可能な合成音声認識仮説に対する第２の確率分布のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含み得る。ここでは、対応する発話のグラウンドトゥルーストランスクリプションを表す出力ラベルのシーケンス内の各出力ラベルに対して、有効なアラインメント分布が定義される。

いくつかの実装形態では、音声認識モデルは、フレームアラインメントベースのトランスデューサモデルを含む。これらの実装形態では、フレームアラインメントベースのトランスデューサモデルは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）モデルを含む。任意で、音声認識モデルは、アラインメントベースのエンコーダ－デコーダモデルを含み得る。

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信し、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶するメモリハードウェアとを含むシステムを提供する。動作は、それぞれが対応する発話の非合成音声表現および対応する発話の合成音声表現を含むトレーニング発話ペアのセットを受信するステップを含む。トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、動作はまた、音声認識モデルによる出力のために、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第１の確率分布を生成するステップと、音声認識モデルによる出力のために、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第２の確率分布を生成するステップと、可能な非合成音声認識仮説に対する第１の確率分布と、可能な非合成音声認識仮説に対する第２の確率分布に基づいて、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップとを含む。動作はまた、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて、音声認識モデルのパラメータを更新するステップを含む。

本開示の１つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

例示的な音声認識システムの概略図である。リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）モデルアーキテクチャの概略図である。注意ベースのエンコーダ－デコーダ（ＡＥＤ）モデルアーキテクチャの概略図である。非合成音声と合成音声の両方について一貫性のある予測を学習するために、音声認識モデルを促進するための例示的なトレーニングプロセスの概略図である。同じ対応する発話の非合成音声表現と合成音声表現の両方について、図２ＢのＡＥＤモデルアーキテクチャを使用して音声認識モデルによって出力される音声認識結果の概略図である。同じ対応する発話の非合成音声表現と合成音声表現の両方について、図２ＡのＲＮＮ－Ｔモデルアーキテクチャを使用して音声認識モデルによって出力される音声認識結果の概略図である。音声認識モデルをトレーニングする方法のための動作の例示的な構成のフローチャートである。本明細書に記載のシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面における同様の参照記号は、同様の要素を示す。

自動音声認識は、オーディオから文字シーケンスにマッピングするシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）モデルの導入により、大きな進歩を遂げた。同時に、テキスト読み上げ（ＴＴＳ）または音声合成システムは、人間の耳には人間の音声と区別できない、最先端の自然でリアルな合成された音声を取得するために、Ｓｅｑ２Ｓｅｑモデルの適用に成功した。

ディープラーニングベースのＡＳＲモデルを開発する際の課題の１つは、ＡＳＲモデルのパラメータがトレーニングデータに過度に適合する傾向があり、それによって、トレーニングデータが十分に広範でない場合、ＡＳＲモデルが見えないデータを一般化することが困難になることである。その結果、より大きいトレーニングデータセットにおいてＡＳＲモデルをトレーニングすると、ＡＳＲモデルの精度が向上する。本明細書の実装形態は、利用可能な人間の音声トレーニングデータが少ない場合でもＡＳＲモデルの精度を維持し、大量のトレーニングデータが利用可能な場合にＡＳＲモデルのパフォーマンスを向上させるために、ＡＳＲモデルをトレーニングするために合成された音声を使用することを目的としている。ここで、合成された音声は、モデルをトレーニングするために必要なラベル付けされた人間の音声の量を大幅に制限する可能性があると同時に、ＡＳＲモデルを様々なドメイン間で移動する際の柔軟性も提供する。

一般に、合成された音声の使用は、人間の音声と区別できない最先端の合成された音声の例にもかかわらず、ＡＳＲトレーニングに人間の音声とは異なる影響を与えることが示されている。合成された音声と人間の音声との間のこのギャップは、ＴＴＳシステムが解決しようとしている困難な１対多のマッピング問題から生じる、人間の音声データからの合成された音声データの不一致に起因する。すなわち、利用可能な合成された音声の全体的な品質は非常に高いが、合成された音声は、人間の音声よりもはるかに少ない変動を示し、音声の流暢さも最小限になる。その結果、合成された音声データのみにおいてＡＳＲモデルをトレーニングすると、推論中に実際の音声発話を一般化することが困難になる。

本明細書の実装形態は、同じトレーニング発話の実際の／人間の音声および合成された音声表現においてＡＳＲモデルをトレーニングし、同じトレーニング発話の実際の／人間の音声表現と合成された表現の両方で一貫性のある予測（たとえば、音声認識仮説）を促進するために一貫性のある損失項を導入することを目的としている。要するに、同じ発話の人間の表現と合成された表現との間の一貫性のある損失項は、ＡＳＲモデルが人間の音声と合成された音声のトレーニング発話で一貫して動作するように奨励することによって、教師なしトレーニング態様を提供する。追加の実装形態は、話者の違いに対する堅牢性を促進するために、合成された話者の特性を変えることによってトレーニング発話の多様な実現を合成するなどのデータ拡張技法を適用することを含む。

図１は、ユーザ１０４のユーザデバイス１０２および／またはユーザデバイス１０２と通信しているリモートコンピューティングデバイス２０１（たとえば、クラウドコンピューティング環境において実行される分散システムの１つまたは複数のサーバ）に常駐するＡＳＲモデル２００を実装する自動音声認識（ＡＳＲ）システム１００を示している。ユーザデバイス１０２はモバイルコンピューティングデバイス（たとえば、スマートフォン）として示されているが、ユーザデバイス１０２は、これらに限定されないが、タブレットデバイス、ラップトップ／デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカ／ディスプレイ、スマート家電、車載インフォテインメントシステム、またはモノのインターネット（ＩｏＴ）デバイスなどの任意のタイプのコンピューティングデバイスに対応し得、データ処理ハードウェア１１１とメモリハードウェア１１３を備えている。

ユーザデバイス１０２は、ユーザ１０４によって話された発話１０６を受信し（たとえば、ユーザデバイス１０２は、話された発話１０６を記録するための１つまたは複数のマイクロフォンを含み得る）、発話１０６を、ＡＳＲシステム１００によって処理することができる入力音響フレーム１１０に関連付けられる、対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム１０８を含む。図示される例では、ユーザは、「ニューヨーク市の天気は？」という語句について、英語の自然言語でそれぞれの発話１０６を話し、オーディオサブシステム１０８は、ＡＳＲシステム１００への入力のために発話１０６を対応する音響フレーム１１０に変換する。その後、ＡＳＲモデル２００は、入力として、発話１０６に対応する音響フレーム１１０を受信し、出力として、発話１０６の対応するトランスクリプション１２０（たとえば、認識結果／仮説）を生成／予測する。図示されている例では、ユーザデバイス１０２および／またはリモートコンピューティングデバイス２０１は、発話１０６のトランスクリプション１２０の表現をユーザデバイス１０２のユーザ１０４に提示するように構成されたユーザインターフェースジェネレータ１０７も実行する。いくつかの構成では、ＡＳＲシステム１００から出力されたトランスクリプション１２０は、ユーザコマンドを実行するために、たとえば、ユーザデバイス１０２またはリモートコンピューティングデバイス２０１上で実行される自然言語理解（ＮＬＵ）モジュールによって処理される。追加または代替として、テキスト読み上げシステム（たとえば、ユーザデバイス１０２またはリモートコンピューティングデバイス２０１の任意の組合せにおいて実行される）は、トランスクリプションを別のデバイスによるオーディオ出力用の合成された音声に変換し得る。たとえば、元の発話１０６は、ユーザ１０４が友人に送信しているメッセージに対応し得、このメッセージにおいて、元の発話１０６において伝えられたメッセージを聞くために友人にオーディオ出力するために、トランスクリプション１２０が合成された音声に変換される。

図２Ａおよび図２Ｂを参照すると、ＡＳＲモデル２００は、フレームアラインメントベースのトランスデューサモデル２００ａ（図２Ａ）、または注意ベースのエンコーダ－デコーダ（ＡＥＤ）モデル２００ｂ（図２Ｂ）などのエンドツーエンド（Ｅ２Ｅ）シーケンスツーシーケンスモデルを含み得る。ＡＳＲモデル２００は、音響モデル、発音モデル、および言語モデルを単一のニューラルネットワークに統合することによってＥ２Ｅ音声認識を提供し得、レキシコンまたは別個のテキスト正規化コンポーネントを必要としない。様々な構造と最適化メカニズムにより、精度が向上し、モデルのトレーニング時間が短縮される。

図２Ａを参照すると、例示的なフレームアラインメントベースのトランスデューサモデル２００ａは、対話型アプリケーションに関連付けられるレイテンシ制約に準拠するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）モデルアーキテクチャを含む。ＲＮＮ－Ｔモデル２００ａは、小さい計算フットプリントを提供し、従来のＡＳＲアーキテクチャよりも少ないメモリ要件を利用し、ＲＮＮ－Ｔモデルアーキテクチャを完全にユーザデバイス１０２上で音声認識を実行するために適したものにする（たとえば、リモートサーバとの通信は不要である）。ＲＮＮ－Ｔモデル２００ａは、エンコーダネットワーク２１０、予測ネットワーク２２０、およびジョイントネットワーク２３０を含む。エンコーダネットワーク２１０は、従来のＡＳＲシステムにおける音響モデル（ＡＭ）にほぼ類似しており、積み重ねられた長短期記憶（ＬＳＴＭ）層の再帰型ネットワークを含む。たとえば、エンコーダは、ｄ次元特徴ベクトルのシーケンス（たとえば、音響フレーム１１０（図１））ｘ＝（ｘ_１、ｘ_２、…、ｘ_Ｔ）を読み取り、上式で、

であり、各時間ステップにおいて高次の特徴表現を生成する。この高次の特徴表現は、

として示される。

同様に、予測ネットワーク２２０もＬＳＴＭネットワークであり、これは、言語モデル（ＬＭ）のように、これまで最終ソフトマックス層２４０によって出力された非ブランク記号のシーケンス、ｙ_０、…、ｙ_ｕｉ－１を密な表現

に変換する。最後に、ＲＮＮ－Ｔモデルアーキテクチャでは、エンコーダネットワーク２１０および予測ネットワーク２２０によって生成された表現が、ジョイントネットワーク２３０によって結合される。次に、ジョイントネットワークは

を予測し、これは、次の出力記号の分布である。別の言い方をすれば、ジョイントネットワーク２３０は、各出力ステップ（たとえば、時間ステップ）において、可能な音声認識仮説に対する確率分布を生成する。ここで、「可能な音声認識仮説」は、それぞれが特定の自然言語で記号／文字を表す出力ラベルのセットに対応する。たとえば、自然言語が英語である場合、出力ラベルのセットは、たとえば、英語のアルファベットの２６文字ごとに１つのラベルと、スペースを指定する１つのラベルとの、２７の記号を含み得る。したがって、ジョイントネットワーク２３０は、出力ラベルのあらかじめ定められたセットの各々の発生の可能性を示す値のセットを出力し得る。この値のセットはベクトルにすることができ、出力ラベルのセットに対する確率分布を示すことができる。場合によっては、出力ラベルが書記素（たとえば、個々の文字、ならびに潜在的に句読点および他の記号）であるが、出力ラベルのセットはそのように制限されない。たとえば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語片および／または単語全体を含むことができる。ジョイントネットワーク２３０の出力分布は、異なる出力ラベルの各々について事後確率値を含むことができる。したがって、異なる書記素または他の記号を表す１００個の異なる出力ラベルがある場合、ジョイントネットワーク２３０の出力ｙ_ｉは、出力ラベルごとに１つずつ、１００個の異なる確率値を含むことができる。次いで、トランスクリプション１２０を決定するためのビーム検索プロセス（たとえば、ソフトマックス層２４０による）において、スコアを選択し、候補の正字法要素（たとえば、書記素、単語片、および／または単語）に割り当てるために、確率分布を使用することができる。

ソフトマックス層２４０は、対応する出力ステップにおいてＲＮＮ－Ｔモデル２００ａによって予測される次の出力記号として、分布内で最も高い確率を有する出力ラベル／記号を選択するために、任意の技法を使用し得る。このように、ＲＮＮ－Ｔモデル２００ａは、条件付きの独立性の仮定を行わず、各記号の予測は、音響だけでなく、それまでに出力されたラベルのシーケンスにも条件付けられる。ＲＮＮ－Ｔモデル２００ａは、出力記号が将来の音響フレーム１１０とは無関係であると仮定し、ＲＮＮ－Ｔモデルをストリーミング方式で使用できるようにする。

いくつかの例では、ＲＮＮ－Ｔモデル２００ａのエンコーダネットワーク２１０は、８つの２，０４８次元ＬＳＴＭ層から構成され、それぞれに６４０次元投影層が続く。予測ネットワーク２２０は、２つの２，０４８次元ＬＳＴＭ層を有することができ、その各々の後にも６４０次元投影層が続く。最後に、ジョイントネットワーク２３０はまた、６４０個の隠れユニットを有し得る。ソフトマックス層２４０は、複数のトレーニングデータセット３０１（図３）内のすべての一意の単語片または書記素を使用して生成される、統合された単語片または書記素セットから構成され得る。

図２Ｂを参照すると、従来の音響モデルに類似した聴取者エンコーダモジュール２１１と、アラインメントモデルとして機能するアテンダモジュール２２１と、従来のシステムにおける言語モデルに類似したデコーダ２３１とを含む単一のニューラルネットワークを提供する聴取、出席、およびスペル（Ｌｉｓｔｅｎ，ＡｔｔｅｎｄａｎｄＳｐｅｌｌ、ＬＡＳ）モデルアーキテクチャに関連付けられる例示的なＡＥＤモデル２００ｂである。具体的には、聴取者エンコーダモジュール２１１は、入力特徴（たとえば、音響フレーム１１０（図１））ｘを取り、それらをより高いレベルの特徴表現ｈ^ｅｎｃにマッピングする。エンコードされた特徴表現ｈ^ｅｎｃを生成するこのプロセスは、異なる入力時間ステップを表す複数の入力フレームの各々に対して実行することができる。これらの時間ステップは下付き文字ｕで示される。したがって、フレームのセット｛ｆ_１、ｆ_２、ｆ_３、．．．ｆ_ｕ｝に対して、対応するエンコードされた出力のセット｛ｈ_１、ｈ_２、ｈ_３、．．．ｈ_ｕ｝が存在する可能性がある。

聴取者エンコーダモジュール２１１の出力はアテンダモジュール２２１に渡され、ダイナミックタイムワーピング（ＤＴＷ）アラインメントモジュールと同様に、次の出力記号ｙ_ｉを予測するために、ｈ^ｅｎｃ内のどのエンコーダ機能に注意を払うべきかを決定する。いくつかの例では、アテンダモジュール２２１は、本明細書ではアテンダニューラルネットワークまたはアテンダ２２１と呼ばれる。アテンダ２２１は、複数の出力ステップｉの各々についてコンテキスト出力ｃ_ｉを生成することができる。各コンテキスト出力ベクトルｃ_ｉについて、アテンダ２２１は、１つまたは複数の入力ステップｕのエンコーディング、たとえば、現在の入力ステップのエンコーディングと前の入力ステップのエンコーディングに基づいて注意を計算することができる。たとえば、アテンダ２２１は、発話のすべてのエンコーダ出力のセット、たとえば、セット全体｛ｈ_１、ｈ_２、ｈ_３、．．．ｈ_ｕ｝にわたって注意コンテキスト出力ｃ_ｉを生成することができる。注意コンテキストベクトルは、認識されている発話のフレーム（たとえば、部分）の現在および以前のエンコーディングの加重要約を表すベクトルであり得る。

最後に、アテンダ２２１の出力はデコーダ２３１に渡され、デコーダ出力を生成するために、アテンダ２２１によって出力された注意コンテキスト（たとえば、コンテキストベクトルまたはアテンション分布）ｃ_ｉと、前の予測の埋め込みｙ_ｉ－１を取る。デコーダ出力は、前のユニット｛ｙ_ｉ－１，．．，ｙ_０｝および入力ｘが与えられた場合の、現在のサブワードユニットｙ_ｉに対する確率分布Ｐ（ｙ_ｉ｜ｙ_ｉ－１，．．，ｙ_０，ｘ）である可能性がある。したがって、デコーダ２３１は、各出力ステップにおいて、可能な音声認識仮説に対する確率分布を生成する。図２Ａを参照して上述したＲＮＮ－Ｔモデル２００ａと同様に、「可能な音声認識仮説」は、それぞれが特定の自然言語で記号／文字を表す出力記号のセットに対応する。

図示されていないが、ＡＳＲモデル２００は、デコーダ２３１の出力を受信するソフトマックス層を含み得る。いくつかの実装形態では、ソフトマックス層は、デコーダ２３１から分離されており、デコーダ２３１からの出力ｙ_ｉを処理し、次いで、正字法要素を選択するために、ソフトマックス層の出力がビーム探索プロセスにおいて使用される。いくつかの実装形態では、ソフトマックス層はデコーダ２３１と統合されているので、デコーダ２３１の出力ｙ_ｉはソフトマックス層の出力を表す。

デコーダ２３１および／または関連付けられるソフトマックス層は、出力ラベルのあらかじめ定められたセットの各々の発生の可能性を示す値のセットを出力するようにトレーニングされ得る。この値のセットはベクトルにすることができ、出力ラベルのセットに対する確率分布を示すことができる。場合によっては、出力ラベルが書記素（たとえば、個々の文字、ならびに潜在的に句読点および他の記号）であるが、出力ラベルのセットはそのように制限されない。たとえば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語片および／または単語全体を含むことができる。デコーダ２３１および／またはソフトマックス層の出力分布は、異なる出力ラベルの各々について事後確率値を含むことができる。したがって、異なる書記素または他の記号を表す１００個の異なる出力ラベルがある場合、デコーダの出力ｙ_ｉ、または出力ｙ_ｉを受け取って処理するソフトマックス層の出力は、出力ラベルごとに１つずつ、１００個の異なる確率値を含むことができる。次いで、トランスクリプションを決定するためのビーム検索プロセスにおいてスコアを選択し、候補の正字法要素（たとえば、書記素、単語片、および／または単語）に割り当てるために、確率分布を使用することができる。

図３を参照すると、非合成音声（たとえば、本物の／人間の音声）と合成音声（たとえば、合成された音声）の両方について一貫性のある予測を学習するために、ＡＳＲモデル２００を促進するための例示的なトレーニングプロセス３００は、同じトレーニング発話の非合成音声表現３０４および合成音声表現３０６のトレーニング発話ペア３０２（「トレーニングオーディオペア」とも呼ばれる）の間で一貫性のある損失項（Ｊ_ｃｏｎｓ（θ））３５２を生成することを含む。要するに、同じトレーニング発話の非合成音声表現と合成音声表現との間の一貫性のある損失項は、ＡＳＲモデル２００が、トレーニング発話が非合成音声に属するか、合成音声に属するかどうかに関係なく、またグラウンドトゥルーストランスクリプション３０８と、ＡＳＲモデル２００によって出力される非合成音声認識仮説、およびＡＳＲモデル２００による合成音声認識仮説出力の各々との間の管理された損失項とは無関係に、一貫して動作するように奨励することによって、教師なしトレーニング態様を提供する。

トレーニングプロセス３００は、図１のリモートコンピューティングデバイス２０１上で実行し得る。たとえば、リモートコンピューティングデバイス２０１は、データ処理ハードウェアと通信し、データ処理ハードウェア７１０上で実行されると、データ処理ハードウェア７１０にトレーニングプロセス３００の動作を実行させる命令を記憶する、データ処理ハードウェア７１０（図７）およびメモリハードウェア７２０（図７）を含む。図示される例では、トレーニングプロセス３００は、トレーニング発話ペア３０２のセットを受信し、各トレーニング発話ペア３０２は、対応する発話の非合成音声表現３０４（たとえば、人間の音声／実際の音声）と、同じ対応する発話の合成音声表現３０６とを含む。各トレーニング発話ペア３０２はまた、対応する発話の同じグラウンドトゥルーストランスクリプション３２０に関連付けられる。いくつかの実装形態では、非合成音声表現３０４は、最初にグラウンドトゥルーストランスクリプション３２０とペアにされ得る。たとえば、各非合成音声表現３０４は、人間の聴取者によって手書きで書き写され得る。これらの実装形態では、テキスト読み上げ（ＴＴＳ）モジュール３３０は、対応するトレーニング発話ペア３０２を提供するために、対応する発話のグラウンドトゥルーストランスクリプション３２０を合成音声表現３０６に変換し得る。ここで、非合成音声表現３０４は、グラウンドトゥルーストランスクリプション３２０に関連付けられるテキストを合成されたオーディオに変換することによって、ＴＴＳモジュール３３０によって生成された合成された音声に関連付けられる。ＴＴＳモジュール３３０は、話者埋め込みに関連付けられる特定の話し方および韻律を有する合成された音声を取得するために、グラウンドトゥルーストランスクリプション（ｙ^＊）３２０を変換するときに、話者埋め込みｚを適用し得る。ここで、グラウンドトゥルーストランスクリプション（ｙ^＊）３２０は、ＴＴＳモジュール３３０が、グラウンドトゥルーストランスクリプション（ｙ^＊）３２０に関連付けられる非合成音声表現（ｘ）３０４と一致するという期待を有する新しい合成音声表現（

）３０６を生成する教師ありデータ拡張のソースに関連付けられている。

いくつかの例では、トレーニングプロセス３００は、トレーニング発話ペア３０２のうちの少なくとも１つの非合成音声表現３０４または合成音声表現３０６のうちの少なくとも１つにデータ拡張を適用する。データ拡張は、ノイズの追加、タイミングの操作（たとえば、ストレッチ）、または対応する音声表現への残響の追加を含み得るが、これらに限定されない。

ＡＳＲモデル２００は、入力として、対応する発話の非合成音声表現（ｘ）３０４を特徴／ベクトル（たとえば、図１の音響フレーム１１０）のシーケンスとして受信し、複数の出力ステップの各々について、出力として、対応する発話の対応する非合成音声表現（ｘ）３０４に対する可能な非合成音声認識仮説（ｙ）にわたる第１の確率分布３１１を生成する。簡単にするために、「非合成音声認識結果３１１」という用語は、対応する非合成音声表現（ｘ）３０４の可能な非合成音声認識仮説（ｙ）に対する第１の確率分布３１１を指すために使用され得る。ＡＳＲモデル２００はまた、入力として、対応する発話の合成音声表現（

）３０６を特徴／ベクトル（たとえば、図１の音響フレーム１１０）のシーケンスとして受信し、複数の出力ステップの各々について、出力として、対応する発話の対応する合成音声表現（

）３０６に対する可能な合成音声認識仮説（ｙ）にわたる第２の確率分布３１２を生成する。簡単にするために、「合成音声認識結果３１２」という用語は、対応する合成音声表現（

）３０６の可能な合成音声認識仮説（ｙ）に対する第２の確率分布３１２を交換可能に指すために使用され得る。

従来のエンドツーエンドシーケンスツーシーケンスＡＳＲモデルのトレーニングと同様に、トレーニングプロセス３００は、複数の出力ステップの各々におけるＡＳＲモデル２００による出力のために、対応する発話の対応する非合成音声表現（ｘ）３０４のグラウンドトゥルーストランスクリプション３２０および非合成音声認識結果３１１（ｙ）に基づいて、非合成音声損失項（Ｊ_ｒｅａｌ（θ））３４２を含む第１の教師あり損失項を生成する。図示される例では、トレーニングプロセス３００は、グラウンドトゥルーストランスクリプション３２０および第１の確率分布３１１を受信し、非合成音声損失項（Ｊ_ｒｅａｌ（θ））３４２を出力するように構成された教師あり損失項モジュール３４０を実行する。非合成音声損失項（Ｊ_ｒｅａｌ（θ））３４２を含む第１の教師あり損失項は、以下の式によって計算され得る。

さらに、トレーニングプロセス３００は、複数の出力ステップの各々において、グラウンドトゥルーストランスクリプション３２０に基づいて、合成音声損失項（Ｊ_ｔｔｓ（θ））３４４を含む第２の教師あり損失項と、対応する発話の対応する合成音声表現（

）３０６の可能な合成音声認識仮説（ｙ）にわたる第２の確率分布３１２とを生成する。図示される例では、トレーニングプロセス３００は、グラウンドトゥルーストランスクリプション３２０および第２の確率分布３１２を受信し、合成音声損失項（Ｊ_ｔｔｓ（θ））３４４を出力するように構成された教師あり損失項モジュール３４０を実行する。合成音声損失項（Ｊ_ｔｔｓ（θ））３４４を含む第２の教師あり損失項は、以下の式によって計算され得る。

上式で、ｙ^＊，ｚはグラウンドトゥルーストランスクリプション（ｙ^＊）および話者埋め込み（ｚ）に基づいてＴＴＳモジュール３３０によって生成された合成音声表現（

）３０６を示している。

教師あり損失項モジュール３４０は、非合成音声損失項（Ｊ_ｒｅａｌ（θ））３４２および合成音声損失項（Ｊ_ｔｔｓ（θ））３４４をＡＳＲモデル２００に戻すことができる。たとえば、トレーニングプロセス３００は、逆伝播を通じてＡＳＲモデル２００をトレーニングするために、確率的勾配降下法などの確率的最適化アルゴリズムを使用してＡＳＲモデル２００をトレーニングし得る。ここで、確率的最適化アルゴリズムは、ニューラルネットワークの実際の出力（たとえば、非合成音声認識結果３１１と合成音声認識結果３１２）と、所望の出力（たとえば、対応する発話のグラウンドトゥルーストランスクリプション３２０）との間の差に基づいて、それぞれの損失関数（たとえば、交差エントロピ損失関数）を定義するために、損失項３４２、３４４を使用する。たとえば、損失関数はトレーニング例のバッチに対して計算され、次いでＡＳＲモデル２００の各重みに関して微分される。バッチトレーニングにおいて、非合成音声損失項（Ｊ_ｒｅａｌ（θ））３４２は、非合成音声表現３０４のそれぞれのバッチについて取得された平均損失に対応し得、合成音声損失項（Ｊ_ｔｔｓ（θ））３４４は、合成音声表現３０６のそれぞれのバッチについて取得された平均損失に対応し得る。さらに、ＡＳＲモデル２００は、教師あり損失項モジュール３４０が対応する非合成音声損失項３４２および合成音声損失項３４４を並行して出力するように、非合成音声表現３０４および合成音声表現３０６の対応するバッチにおいて並行してトレーニングされ得る。

図示される例では、トレーニングプロセス３００は、各トレーニング発話ペア３０２に対する複数の出力ステップの各々において、可能な非合成音声認識仮説に対する第１の確率分布３１１と、可能な非合成音声認識仮説に対する第２の確率分布３１２に基づいて、対応するトレーニング発話ペア３０２の一貫性のある損失項（Ｊ_ｃｏｎｓ（θ））３５２をさらに決定する。たとえば、トレーニングプロセス３００は、各出力ステップにおいて、ＡＳＲモデル２００によって出力された対応する非合成音声認識結果３１１および合成音声認識結果３１２を受信し、出力ステップにおいて対応するトレーニング発話ペア３０２の一貫性のある損失項３５２を決定するように構成された一貫性のある損失項モジュール３５０を使用し得る。

いくつかの例では、トレーニングプロセス３００は、可能な非合成音声認識仮説に対する第１の確率分布３１１と、可能な非合成音声認識仮説に対する第２の確率分布３１２との間のカルバック－ライブラダイバージェンス（Ｄ_ＫＬ）に基づいて、一貫性のある損失項３５２を決定する。Ｄ_ＫＬに基づく一貫性のある損失項３５２は、以下の式によって表され得る。

ここで、各出力ステップにおいてトレーニング発話ペア３０２に対して決定された一貫性のある損失項３５２は、ＡＳＲモデルの精度とは無関係の（たとえば、教師あり損失項３４２、３４４とは無関係の）「教師なし」損失項を提供し、したがって、同じ発話の非合成音声表現と合成音声表現との間の一貫性を促進するために、ＡＳＲモデル２００のパラメータを更新するために使用され得る。バッチトレーニングにおいて、一貫性のある損失項３５２は、バッチについて取得された平均損失項に対応し得る。言い換えれば、一貫性のある損失項３５２は、ＡＳＲモデル２００が同じように振る舞うことを学習することを可能にし、たとえば、トレーニング発話が非合成音声または合成音声に属しているかどうかに関係なく、同じトレーニング発話の非合成音声（たとえば、本物の／人間の音声）および合成音声（たとえば、合成された音声）の両方に対して一貫性のある予測を行う。図示される例では、トレーニングプロセス３００は、教師あり損失項モジュール３４０から対応する非合成音声損失項３４２および合成音声損失項３４４を出力し、一貫性のある損失項モジュール３５０から一貫性のある損失項３５２を並行して出力するように構成される。

有利なことに、次いでＡＳＲモデル２００は、非合成音声トレーニング例に依存する必要なく、または少なくとも合成音声表現の数に対して非合成音声トレーニング例の数を減らすことなく、推論中に人間の発話の正確な音声認識結果を生成するために、合成音声の大きいデータセット上でさらにトレーニングすることができる。したがって、ＡＳＲモデル２００は、新しいドメインにおいてＡＳＲモデル２００をトレーニングするために、ペアになっていないテキストからオンザフライで合成音声を生成することができるので、ドメイン内で書き写された非合成音声に依存する必要なく、新しいドメインに迅速に移動することができる。使用ケースの一例では、ＡＳＲモデル２００の精度は、ペアになっていないテキストから生成された合成音声からの音声トレーニング例の数を増やすことによって、書き写された非合成音声を取得することが困難な自然言語の音声を認識するために大幅に改善することができる。

図４は、注意ベースのエンコーダ－デコーダ（ＡＥＤ）モデル２００ｂ（図２Ｂ）によって生成された非合成音声認識結果３１１と合成音声認識結果３１２との間のＤ_ＫＬに基づく一貫性のある損失項３５２の概略図４００を示している。図示される例では、非合成音声認識結果３１１のシーケンスは、英単語「ＷＯＲＤ」のトレーニング発話の非合成音声表現３０４に関連付けられており、合成音声認識結果３１２のシーケンスは、英単語「ＷＯＲＤ」の同じトレーニング発話の合成音声表現３０６に関連付けられている。ＡＥＤモデル２００ｂは、複数の出力ステップの各々において、トレーニング発声の非合成音声表現３０４について、対応する非合成音声認識結果３１１、３１１ａ～ｄを生成する。実際には、各出力ステップにおける非合成音声認識結果３１１ａ～ｄは、可能な非合成音声認識仮説に対する確率分布を表すが、簡単にするために、図示される例は、可能な非合成音声認識仮説に対する確率分布の中で最も高い確率に関連付けられる非合成音声認識仮説を表す非合成音声認識結果３１１のみを示している。たとえば、第１の出力ステップにおける第１の非合成音声認識結果３１１ａは、文字「Ｗ」の出力ラベルを含み、第２の出力ステップにおける第２の非合成音声認識結果３１１ｂは、文字「Ｏ」の出力ラベルを含み、第３の出力ステップにおける第３の非合成音声認識結果３１１ｃは、文字「Ｒ」の出力ラベルを含み、第４の出力ステップにおける第４の非合成音声認識結果３１１ｄは、文字「Ｄ」の出力ラベルを含む。図示されていないが、それぞれの非合成音声損失項（Ｊ_ｒｅａｌ（θ））３４２は、非合成音声認識結果３１１と、グラウンドトゥルーストランスクリプション３２０から取得された出力ステップのグラウンドトゥルースラベルｙ^＊とに基づいて、各出力ステップにおいて決定され得る。

同様に、ＡＥＤモデル２００ｂは、複数の出力ステップの各々において、トレーニング発話３０２の合成音声表現３０６について、対応する合成音声認識結果３１２、３１２ａ～ｄを生成する。簡単にするために、この例では、可能な合成音声認識仮説の確率分布の中で最も高い確率に関連付けられる合成音声認識仮説を表す、各出力ステップにおける合成認識結果３１２ａ～ｄのみを示す。たとえば、第１の出力ステップにおける第１の合成音声認識結果３１２ａは、文字「Ｗ」の出力ラベルを含み、第２の出力ステップにおける第２の合成音声認識結果３１２ｂは、文字「Ａ」の出力ラベルを含み、第３の出力ステップにおける第３の合成音声認識結果３１２ｃは、文字「Ｒ」の出力ラベルを含み、第４の出力ステップにおける第４の合成音声認識結果３１２ｄは、文字「Ｄ」の出力ラベルを含む。図示されていないが、それぞれの合成音声損失項（Ｊ_ｔｔｓ（θ））３４４は、合成音声認識結果３１２と、グラウンドトゥルーストランスクリプション３２０から取得された出力ステップのグラウンドトゥルースラベルｙ^＊とに基づいて、各出力ステップにおいて決定され得る。たとえば、第２の出力ステップにおけるそれぞれの合成音声損失項（Ｊ_ｔｔｓ（θ））３４４は、モデルが合成音声表現の文字「Ｏ」ではなく文字「Ａ」を誤って予測するため、それぞれの非合成損失項３４２よりも高くなる可能性がある。この例は、書記素を含む音声認識結果３１１、３１２の出力ラベルを示しているが、トレーニングプロセス３００は、語片または音素の出力ラベルを同様に予測し得る。

ＡＥＤモデル２００ｂは、非合成音声認識結果３１１ａ～ｄの出力シーケンスを合成音声認識結果３１２ａ～ｄの出力シーケンスと好都合に位置合わせする。したがって、一貫性のある損失項３５２は、各出力ステップにおいて生成された非合成音声認識結果３１１と合成音声認識結果３１２との間のＤ_ＫＬに基づいて、式（３）を使用して各出力ステップにおいて決定することができる。特に、各出力ステップにおいて決定される一貫性のある損失項３５２は、実際の教師あり損失項３４２、３４４とは無関係である。実例として、第１の出力ステップにおける非合成音声認識結果３１１ａおよび合成音声認識結果３１２ａの両方は、たとえば「Ｗ」のように両方とも正しいが、非合成音声認識結果３１１ａに関連付けられる確率／スコアは、合成音声認識結果３１２ａに関連付けられる確率／スコアとは異なる場合がある。

図５は、フレームアラインメントベースのトランスデューサモデル２００ａ（たとえば、ＲＮＮ－Ｔ（図２Ａ））によって生成された非合成音声認識結果３１１と合成音声認識結果３１２との間のＤ_ＫＬに基づく一貫性のある損失項３５２の概略図５００を示している。図示される例では、非合成音声認識結果３１１は、英単語「ＷＯＲＤ」のトレーニング発話の非合成音声表現３０４に関連付けられており、合成音声認識結果３１２は、英単語「ＷＯＲＤ」の同じトレーニング発話の合成音声表現３０６に関連付けられている。ＡＥＤモデル２００ｂとは対照的に、ＲＮＮ－Ｔモデル２００ａのストリーミングの性質により、各出力ステップにおいて、非合成音声認識結果３１１と合成音声認識結果３１２との間にミスアラインメントが生じる。ここで、各出力ステップにおける非合成音声認識結果３１１ａ～ｇは、非合成音声表現３０４ａ～ｇの対応する入力フレーム１１０とアラインされ、各出力ステップにおける合成音声認識結果３１２ａ～ｇは、合成音声表現３０６ａ～ｇの対応する入力フレーム１１０とアラインされる。このミスアラインメントは、ストリーミング方式で音声認識を有効するために、たとえば、計算を開始する前にすべてのオーディオを待機する必要性を軽減するために、ＲＮＮ－Ｔモデルが時間領域の出力ステップにおいて放出するブランク記号εが原因である。時間ステップの各々においてＲＮＮ－Ｔモデル２００ａによって出力される非合成音声認識結果３１１と合成音声認識結果３１２との間のミスアラインメントの結果として、一貫性のある損失項３５２は、各出力ステップにおいて生成された非合成音声認識結果３１１と合成音声認識結果３１２との間のＤ_ＫＬに基づいて、式（３）を使用して各出力ステップにおいて単純に決定することはできない。たとえば、図示される例では、ＲＮＮ－Ｔモデル２００ａは、第１の非合成音声認識結果３１１ａ、第３の非合成音声認識結果３１１ｃ、第４の非合成音声認識結果３１１ｄ、および第７の非合成音声認識結果３１１ｇにおいて、それぞれ文字「Ｗ」、「Ｏ」、「Ｒ」、および「Ｄ」の非ブランク出力ラベルを放出し、第２の非合成音声認識結果３１２ｂ、第３の非合成音声認識結果３１２ｃ、第５の非合成音声認識結果３１２ｅ、および第６の非合成音声認識結果３１２ｆにおいて、それぞれ文字「Ｗ」、「Ａ」、「Ｒ」、および「Ｄ」の非ブランク出力ラベルを発する。この例は、書記素を含む音声認識結果３１１、３１２の出力ラベルを示しているが、トレーニングプロセス３００は、語片または音素の出力ラベルを同様に予測し得る。

ＲＮＮ－Ｔモデル２００ａに関連付けられる一貫性のある損失項３５２を計算するために、実装形態はまず、次のように、グラウンドトゥルーストランスクリプションｙ^＊の有効なアラインメントの確率に基づいて、分布φ（ｕ）^ＲＮＮＴを定義することを含む。

上式で、分布φ（ｕ）^ＲＮＮＴは、グラウンドトゥルーストランスクリプションｙ^＊における各出力ラベルに対して定義されるが、上記のＡＥＤモデル２００ｂのようにラベルセットＬ全体では定義されない。

前方確率および後方確率の標準的な定義を適用すると、グラウンドトゥルーストランスクリプションｙ^＊の出力ラベルの事後は、次のように、すべての可能なアラインメントの確率の合計として定義することができる。

上式で、α（ｔ，ｕ）は、フレーム１からｔまでのアラインメント格子においてｙ_１：ｕを出力する前方確率を表し、β（ｔ，ｕ）は、フレームｔからＴまでの間にｙ_{ｕ＋１：Ｕ}を出力する後方確率を表し、Ｕは発話における出力ラベルの数であり、Ｔは発話における入力フレームの数である。したがって、フレームｔおよび出力ｕにおける各ＲＮＮ－Ｔ予測ｑ（ｔ，ｕ）は、フレームｔまでの特徴シーケンスと、出力ｕまでのトランスクリプションシーケンスとによって、次のように与えられる。
ｑ（ｔ，ｕ）＝ｐ_θ（ｙ_ｕ｜ｘ_１：ｔ，ｙ^＊ _{１：ｕ－１}）（６）

いくつかの例では、グラウンドトゥルース出力の事後を最適化するために、以下の式が適用される。
Ｌ＝－ｌｏｇｐ_θ（ｙ^＊｜ｘ）（７）
トークン後方の勾配は次のように提供される。

最後に、以下の式を使用して、すべての入力フレームにわたって各出力を周辺化することができる。

したがって、グラウンドトゥルーストランスクリプションにおける各出力ラベルｙ_ｕ ∈ ｙ^＊について、式（３）を使用して、各出力ステップにおいて一貫性のある損失項３５２を決定するためにグラウンドトゥルースラベルのシーケンス全体の事後を考慮に入れるために、式（９）の周辺化された分布を使用することができる。本質的に、フレームアラインメントベースのトランスデューサモデル２００ａ（たとえば、ＲＮＮ－Ｔ（図２Ａ））によって予測される２つの出力シーケンス間の一貫性のある損失を計算するために、出力ラベルの予測されたシーケンスと入力フレームとの実際のアラインメントとは無関係に、グラウンドトゥルーストランスクリプションを表す出力ラベルのシーケンスとアラインするＲＮＮ－Ｔモデル２００ａによって予測／出力された出力ラベルのシーケンスを有する確率を決定するために、式（４）～（９）が適用される。

図６は、音声認識モデルをトレーニングする方法６００のための動作の例示的な構成のフローチャートである。ＡＳＲモデル２００は、注意ベースのエンコーダ－デコーダ（ＡＥＤ）モデル２００ｂ（図２Ｂ）またはフレームアラインメントベースのトランスデューサモデル２００ａ（図２Ａ）を含み得る。動作６０２において、方法６００は、トレーニング発話ペア３０２のセットを受信するステップを含む。各トレーニング発話ペア３０２は、対応する発話の非合成音声表現３０４と、同じ対応する発話の合成音声表現３０６とを含む。トレーニング発話ペアのセット内の各トレーニング発話ペア３０２の複数の出力ステップの各々において、方法６００はまた、動作６０４において、ＡＳＲモデル２００による出力のために、対応する発話の対応する非合成音声表現３０４に対する可能な非合成音声認識仮説に対する第１の確率分布３１１を生成するステップと、動作６０６において、ＡＳＲモデル２００による出力のために、対応する発話の対応する合成音声表現３０６に対する可能な合成音声認識仮説に対する第２の確率分布３１２を生成するステップと、動作６０８において、可能な非合成音声認識仮説に対する第１の確率分布３１１と、可能な非合成音声認識仮説に対する第２の確率分布３１２に基づいて、対応するトレーニング発話ペア３０２の一貫性のある損失項３５２を決定するステップとを含む。動作６１０において、方法６００はまた、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項３５２に基づいて、ＡＳＲモデル２００のパラメータを更新するステップを含む。

本明細書の例は、同じ発話の非合成音声表現と合成音声表現との間の一貫性のある損失項３５２を決定するが、本明細書の技法は、これらに限定されないが、画像認識および機械翻訳などの他のタイプのデータセット間で一貫性のある損失項を決定するために同様に適用され得る。たとえば、対応するオブジェクトの非合成画像（あるいは、ピクセルまたは非合成画像のピクセルのシーケンス）表現と、同じ対応するオブジェクトの合成画像（または、合成画像のピクセルのシーケンス内のピクセル）表現とを含むトレーニング画像ペアは、対応するオブジェクトを認識することを学習させるためにモデル２００ａ、２００ｂをトレーニングするために、フレームアラインメントベースのトランスデューサモデル２００ａまたはＡＥＤモデル２００ｂのいずれかに供給することができる。一例では、オブジェクトは犬などの動物である可能性があり、グラウンドトゥルースラベルセットは、非合成画像と合成画像のペアを「犬」として指定するラベルを含むことができる。非合成画像と合成画像のペアが犬を表していないため、「犬ではない」というグラウンドトゥルースラベルを含む、ネガティブトレーニングの例を提供することもできる。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。アプリケーションの例は、これらに限定されないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含む。

非一時的メモリは、コンピューティングデバイスによる使用のために、一時的または永続的にプログラム（たとえば、命令のシーケンス）またはデータ（たとえば、プログラム状態情報）を記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性であってもよく、および／または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ（ＲＯＭ）／プログラマブル読取り専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）（たとえば、通常、ブートプログラムなどのファームウェアに使用される）を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、ならびにディスクまたはテープを含む。

図７は、本明細書に記載のシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス７００の概略図である。コンピューティングデバイス７００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、本明細書で説明および／または請求される発明の実装形態を限定することを意味するものではない。

コンピューティングデバイス７００は、プロセッサ７１０、メモリ７２０、ストレージデバイス７３０、メモリ７２０および高速拡張ポート７５０に接続する高速インターフェース／コントローラ７４０、ならびに低速バス７７０およびストレージデバイス７３０に接続する低速インターフェース／コントローラ７６０を含む。コンポーネント７１０、７２０、７３０、７４０、７５０、および７６０の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で取り付けることができる。プロセッサ７１０は、コンピューティングデバイス７００内で実行するための命令を処理することができ、これは、高速インターフェース７４０に結合されたディスプレイ７８０などの外部入力／出力デバイス上にグラフィカルユーザインターフェース（ＧＵＩ）のグラフィカル情報を表示するためのメモリ７２０またはストレージデバイス７３０に記憶された命令を含む。他の実装形態では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス７００が接続されてよく、各デバイスは必要な動作の一部を提供する（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

メモリ７２０は、コンピューティングデバイス７００内に非一時的に情報を記憶する。メモリ７２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ７２０は、コンピューティングデバイス７００による使用のために、一時的または永続的にプログラム（たとえば、命令のシーケンス）またはデータ（たとえば、プログラム状態情報）を記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ（ＲＯＭ）／プログラマブル読取り専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）（たとえば、通常、ブートプログラムなどのファームウェアに使用される）を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、ならびにディスクまたはテープを含む。

ストレージデバイス７３０は、コンピューティングデバイス７００に大容量ストレージを提供することができる。いくつかの実装形態では、ストレージデバイス７３０はコンピュータ可読媒体である。様々な異なる実装において、ストレージデバイス７３０は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、あるいはテープデバイス、フラッシュメモリまたは他の同様の固体メモリデバイス、あるいはストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実装形態では、コンピュータプログラム製品は、情報担体に有形に具現化される。コンピュータプログラム製品は、実行されると、上記の方法などの１つまたは複数の方法を実行する命令を含む。情報担体は、メモリ７２０、ストレージデバイス７３０、またはプロセッサ７１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ７４０は、コンピューティングデバイス７００の帯域幅集約型動作を管理し、低速コントローラ７６０は、より低い帯域幅集約型動作を管理する。そのような任務の割当ては単なる例に過ぎない。いくつかの実装形態では、高速コントローラ７４０は、メモリ７２０、ディスプレイ７８０（たとえば、グラフィックプロセッサまたはアクセラレータを通じて）、および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート７５０に結合される。いくつかの実装形態では、低速コントローラ７６０は、ストレージデバイス７３０および低速拡張ポート７９０に結合される。様々な通信ポート（たとえば、ＵＳＢ、ブルートゥース、イーサネット、ワイヤレスイーサネット）を含み得る低速拡張ポート７９０は、たとえば、ネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナ、あるいはスイッチまたはルータなどのネットワーキングデバイスなどの１つまたは複数の入力／出力デバイスに結合され得る。

コンピューティングデバイス７００は、図面に示されるように、多くの異なる形態で実装され得る。たとえば、標準サーバ７００ａとして、またはそのようなサーバ７００ａのグループにおいて複数回、ラップトップコンピュータ７００ｂとして、またはラックサーバシステム７００ｃの一部として実装され得る。

本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子回路および／もしくは光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに／またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、データおよび命令を受信し、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された、専用または汎用であり得る、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型言語および／またはオブジェクト指向プログラミング言語、ならびに／あるいはアセンブリ言語／機械言語において実装することができる。本明細書で使用される「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および／またはデータを、機械可読信号として機械命令を受信する機械可読媒体を含むプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および／またはデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ）など）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される任意の信号を指す。

本明細書で説明されているプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラマブルプロセッサによって実行することができ、入力データを操作して出力を生成することによって機能を実行するために、１つまたは複数のコンピュータプログラムを実行する。プロセスおよび論理フローはまた、たとえばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの専用論理回路によって実行することができる。コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令とデータを記憶するための１つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための１つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、それらからデータを受信する、またはそれらにデータを転送するように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを備えている必要はない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、たとえば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスなどの半導体メモリデバイス、磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補足することができ、またはそこに組み込むことができる。

ユーザとの対話を提供するために、本開示の１つまたは複数の態様は、ディスプレイデバイス、たとえば、ＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはユーザに情報を表示するためのタッチスクリーン、および任意で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために、他の種類のデバイスを使用することができ、たとえば、ユーザに提供されるフィードバックは、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形式の感覚的フィードバックである可能性があり、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる

いくつかの実装形態を説明してきた。それでもなお、本開示の趣旨および範囲から逸脱することなく、様々な修正を加えることができることが理解されるであろう。したがって、他の実装形態は、添付の特許請求の範囲内にある。

１００自動音声認識（ＡＳＲ）システム
１０２ユーザデバイス
１０４ユーザ
１０６発話
１０７ユーザインターフェースジェネレータ
１０８オーディオサブシステム
１１０音響フレーム
１１０入力フレーム
１１１データ処理ハードウェア
１１３メモリハードウェア
１２０トランスクリプション
２００ＡＳＲモデル
２００ａフレームアライメントベースのトランスデューサモデル、ＲＮＮ－Ｔモデル
２００ｂ注意ベースのエンコーダ－デコーダ（ＡＥＤ）モデル
２０１リモートコンピューティングデバイス
２１０エンコーダネットワーク
２１１聴取者エンコーダモジュール
２２０予測ネットワーク
２２１アテンダモジュール、アテンダ
２３０ジョイントネットワーク
２３１デコーダ
２４０ソフトマックス層
３００トレーニングプロセス
３０１トレーニングデータセット
３０２トレーニング発話ペア
３０４非合成音声表現
３０４ａ～ｇ非合成音声表現
３０６合成音声表現
３０６ａ～ｇ合成音声表現
３０８グラウンドトゥルーストランスクリプション
３１１第１の確率分布、非合成音声認識結果
３１１ａ～ｇ非合成音声認識結果
３１１ａ第１の非合成音声認識結果
３１１ｂ第２の非合成音声認識結果
３１１ｃ第３の非合成音声認識結果
３１１ｄ第４の非合成音声認識結果
３１１ｇ第７の非合成音声認識結果
３１２第２の確率分布、合成音声認識結果
３１２ａ～ｇ合成音声認識結果
３１２ａ第１の合成音声認識結果
３１２ｂ第２の非合成音声認識結果
３１２ｃ第３の非合成音声認識結果
３１２ｄ第４の非合成音声認識結果
３１２ｅ第５の非合成音声認識結果
３１２ｆ第６の非合成音声認識結果
３２０グラウンドトゥルーストランスクリプション
３３０テキスト読み上げ（ＴＴＳ）モジュール
３４０教師あり損失項モジュール
３４２非合成音声損失項、教師あり損失項
３４４合成音声損失項、教師あり損失項
３５０一貫性のある損失項モジュール
３５２一貫性のある損失項
４００概略図
５００概略図
６００方法
７００コンピューティングデバイス
７００ａ標準サーバ
７００ｂラップトップコンピュータ
７００ｃラックサーバシステム
７１０データ処理ハードウェア、プロセッサ
７２０メモリハードウェア、メモリ
７３０ストレージデバイス
７４０高速インターフェース／コントローラ
７５０高速拡張ポート
７６０低速インターフェース／コントローラ
７７０低速バス
７８０ディスプレイ
７９０低速拡張ポート

Claims

データ処理ハードウェア（７１０）によって実行されると、前記データ処理ハードウェア（７１０）に、
トレーニング発話ペア（３０２）のセットを受信するステップであって、各トレーニング発話ペア（３０２）が、
対応する発話の非合成音声表現（３０４）と、
前記対応する発話の合成音声表現（３０６）と
を備える、ステップと、
トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）の複数の出力ステップの各々において、
音声認識モデル（２００）による出力のために、前記対応する発話の前記対応する非合成音声表現（３０４）に対する可能な非合成音声認識仮説に対する第１の確率分布（３１１）を生成するステップと、
前記音声認識モデル（２００）による出力のために、前記対応する発話の前記対応する合成音声表現（３０６）に対する可能な合成音声認識仮説に対する第２の確率分布（３１２）を生成するステップと、
可能な非合成音声認識仮説に対する前記第１の確率分布（３１１）と、可能な非合成音声認識仮説に対する前記第２の確率分布（３１２）に基づいて、前記対応するトレーニング発話ペア（３０２）の一貫性のある損失項（３５２）を決定するステップと、
トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）に対して前記複数の出力ステップの各々において決定された前記一貫性のある損失項（３５２）に基づいて、前記音声認識モデル（２００）のパラメータを更新するステップと、
を含む動作を実行させる、コンピュータ実装方法（６００）。
前記動作が、トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）の前記複数の出力ステップの各々において、
前記対応する発話の前記対応する非合成音声表現（３０４）に対する可能な非合成音声認識仮説に対する前記第１の確率分布（３１１）と、前記対応する発話のグラウンドトゥルーストランスクリプション（１２０）とに基づいて、非合成音声損失項（３４２）を生成するステップと、
前記対応する発話の前記対応する合成音声表現（３０６）に対する可能な合成音声認識仮説に対する前記第２の確率分布（３１２）と、前記対応する発話の前記グラウンドトゥルーストランスクリプション（１２０）とに基づいて、合成音声損失項（３４４）を生成するステップと
をさらに含む、請求項１に記載の方法（６００）。
前記音声認識モデル（２００）の前記パラメータが、トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項（３４２、３４４）とは無関係に、トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）の前記複数の出力ステップの各々において決定された前記一貫性のある損失項（３５２）に基づいて更新される、請求項２に記載の方法（６００）。
各トレーニング発話ペア（３０２）における前記合成音声表現（３０６）が、前記対応する発話を表す合成された音声を備える、請求項１から３のいずれか一項に記載の方法（６００）。
前記動作が、トレーニング発話ペア（３０２）ごとに、前記対応する合成音声表現（３０６）を生成するために、テキスト読み上げ（ＴＴＳ）モデル（３３０）を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション（１２０）を変換するステップをさらに含む、請求項１から４のいずれか一項に記載の方法（６００）。
前記動作が、少なくとも１つのトレーニング発話ペア（３０２）について、前記対応する非合成音声表現（３０４）または前記対応する合成音声表現（３０６）のうちの少なくとも１つにデータ拡張を適用するステップをさらに含む、請求項１から５のいずれか一項に記載の方法（６００）。
前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも１つを備える、請求項６に記載の方法（６００）。
前記対応するトレーニング発話ペア（３０２）の前記一貫性のある損失項（３５２）を決定するステップが、可能な非合成音声認識仮説に対する前記第１の確率分布（３１１）と、可能な非合成音声認識仮説に対する前記第２の確率分布（３１２）との間のカルバック－ライブラダイバージェンスに基づく、請求項１から７のいずれか一項に記載の方法（６００）。
前記動作が、前記対応するトレーニング発話ペア（３０２）の前記一貫性のある損失項（３５２）を決定する前に、前記音声認識モデル（２００）がフレームアラインメントベースのトランスデューサモデル（２００ａ）を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション（１２０）の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第１の確率分布（３１１）のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第２の確率分布（３１２）のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項８に記載の方法（６００）。
前記対応する発話の前記グラウンドトゥルーストランスクリプション（１２０）を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項９に記載の方法（６００）。
前記音声認識モデル（２００）が、フレームアラインメントベースのトランスデューサモデル（２００ａ）を備える、請求項１から１０のいずれか一項に記載の方法（６００）。
前記フレームアラインメントベースのトランスデューサモデル（２００ａ）が、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）モデル（２００ａ）を備える、請求項１１に記載の方法（６００）。
前記音声認識モデル（２００）が、アラインメントベースのエンコーダ－デコーダモデル（２００ｂ）を備える、請求項１から１０のいずれか一項に記載の方法（６００）。
データ処理ハードウェア（７１０）と、
前記データ処理ハードウェア（７１０）と通信するメモリハードウェア（７２０）であって、前記データ処理ハードウェア（７１０）上で実行されると、前記データ処理ハードウェア（７１０）に、
トレーニング発話ペア（３０２）のセットを受信するステップであって、各トレーニング発話ペア（３０２）が、
対応する発話の非合成音声表現（３０４）と、
前記対応する発話の合成音声表現（３０６）と
を備える、ステップと、
トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）の複数の出力ステップの各々において、
音声認識モデル（２００）による出力のために、前記対応する発話の前記対応する非合成音声表現（３０４）に対する可能な非合成音声認識仮説に対する第１の確率分布（３１１）を生成するステップと、
前記音声認識モデル（２００）による出力のために、前記対応する発話の前記対応する合成音声表現（３０６）に対する可能な合成音声認識仮説に対する第２の確率分布（３１２）を生成するステップと、
可能な非合成音声認識仮説に対する前記第１の確率分布（３１１）と、可能な非合成音声認識仮説に対する前記第２の確率分布（３１２）に基づいて、前記対応するトレーニング発話ペア（３０２）の一貫性のある損失項（３５２）を決定するステップと、
トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）に対して前記複数の出力ステップの各々において決定された前記一貫性のある損失項（３５２）に基づいて、前記音声認識モデル（２００）のパラメータを更新するステップと、
を含む動作を実行させる命令を記憶する、メモリハードウェア（７２０）と
を備える、システム（７００）。
前記動作が、トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）の前記複数の出力ステップの各々において、
前記対応する発話の前記対応する非合成音声表現（３０４）に対する可能な非合成音声認識仮説に対する前記第１の確率分布（３１１）と、前記対応する発話のグラウンドトゥルーストランスクリプション（１２０）とに基づいて、非合成音声損失項（３４２）を生成するステップと、
前記対応する発話の前記対応する合成音声表現（３０６）に対する可能な合成音声認識仮説に対する前記第２の確率分布（３１２）と、前記対応する発話の前記グラウンドトゥルーストランスクリプション（１２０）とに基づいて、合成音声損失項（３４４）を生成するステップと
をさらに含む、請求項１４に記載のシステム（７００）。
前記音声認識モデル（２００）の前記パラメータが、トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項（３４２、３４４）とは無関係に、トレーニング発話ペア（３０２）の前記セット内の各トレーニング発話ペア（３０２）の前記複数の出力ステップの各々において決定された前記一貫性のある損失項（３５２）に基づいて更新される、請求項１５に記載のシステム（７００）。
各トレーニング発話ペア（３０２）における前記合成音声表現（３０６）が、前記対応する発話を表す合成された音声を備える、請求項１４から１６のいずれか一項に記載のシステム（７００）。
前記動作が、トレーニング発話ペア（３０２）ごとに、前記対応する合成音声表現（３０６）を生成するために、テキスト読み上げ（ＴＴＳ）モデル（３３０）を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション（１２０）を変換するステップをさらに含む、請求項１４から１７のいずれか一項に記載のシステム（７００）。
前記動作が、少なくとも１つのトレーニング発話ペア（３０２）について、前記対応する非合成音声表現（３０４）または前記対応する合成音声表現（３０６）のうちの少なくとも１つにデータ拡張を適用するステップをさらに含む、請求項１４から１８のいずれか一項に記載のシステム（７００）。
前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも１つを備える、請求項１９に記載のシステム（７００）。
前記対応するトレーニング発話ペア（３０２）の前記一貫性のある損失項（３５２）を決定するステップが、可能な非合成音声認識仮説に対する前記第１の確率分布（３１１）と、可能な非合成音声認識仮説に対する前記第２の確率分布（３１２）との間のカルバック－ライブラダイバージェンスに基づく、請求項１４から２０のいずれか一項に記載のシステム（７００）。
前記動作が、前記対応するトレーニング発話ペア（３０２）の前記一貫性のある損失項（３５２）を決定する前に、前記音声認識モデル（２００）がフレームアラインメントベースのトランスデューサモデル（２００ａ）を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション（１２０）の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第１の確率分布（３１１）のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第２の確率分布（３１２）のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項２１に記載のシステム（７００）。
前記対応する発話の前記グラウンドトゥルーストランスクリプション（１２０）を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項２２に記載のシステム（７００）。
前記音声認識モデル（２００）が、フレームアラインメントベースのトランスデューサモデル（２００ａ）を備える、請求項１４から２３のいずれか一項に記載のシステム（７００）。
前記フレームアラインメントベースのトランスデューサモデル（２００ａ）が、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）モデル（２００ａ）を備える、請求項２４に記載のシステム（７００）。
前記音声認識モデル（２００）が、アラインメントベースのエンコーダ－デコーダモデル（２００ｂ）を備える、請求項１４から２３のいずれか一項に記載のシステム（７００）。