JP7359969B2 - ストリーミングシーケンスモデルの一貫性予測 - Google Patents

ストリーミングシーケンスモデルの一貫性予測 Download PDF

Info

Publication number
JP7359969B2
JP7359969B2 JP2022552950A JP2022552950A JP7359969B2 JP 7359969 B2 JP7359969 B2 JP 7359969B2 JP 2022552950 A JP2022552950 A JP 2022552950A JP 2022552950 A JP2022552950 A JP 2022552950A JP 7359969 B2 JP7359969 B2 JP 7359969B2
Authority
JP
Japan
Prior art keywords
speech recognition
utterance
speech
model
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022552950A
Other languages
English (en)
Other versions
JP2023509234A (ja
Inventor
ジェフアイ・チェン
アンドリュー・ローゼンバーグ
ブヴァナ・ラマバドラン
ペドロ・ジェイ・モレノ・メンジバル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023509234A publication Critical patent/JP2023509234A/ja
Application granted granted Critical
Publication of JP7359969B2 publication Critical patent/JP7359969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Description

本開示は、ストリーミングシーケンスモデルの一貫性予測に関する。
自動音声認識(ASR)は、オーディオ入力を取得し、それをテキストに書き写すプロセスであり、モバイルデバイスおよび他のデバイスにおいて使用される非常に重要なテクノロジである。一般に、自動音声認識は、オーディオ入力(たとえば、音声発話)を取得し、オーディオ入力をテキストに書き写すことによって、人が言ったことの正確なトランスクリプションを提供しようとする。最新のASRモデルは、ディープニューラルネットワークの継続的な開発に基づいて、精度(たとえば、低単語誤り率(WER))およびレイテンシ(たとえば、ユーザの発声とトランスクリプションとの間の遅延)の両方において改善し続けている。しかしながら、ディープラーニングベースのASRモデルを開発する際の課題の1つは、ASRモデルのパラメータがトレーニングデータに過度に適合する傾向があり、それによって、トレーニングデータが十分に広範でない場合、ASRモデルは目に見えないデータを一般化することが困難になる点である。その結果、より大きいトレーニングデータセットにおいてASRモデルをトレーニングすると、ASRモデルの精度が向上する。ASRモデルをトレーニングするために使用されるトレーニングデータの量を増やすために、合成された音声および/またはデータ拡張音声を組み込むことができる。
本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させるコンピュータ実装方法を提供する。動作は、それぞれが対応する発話の非合成音声表現および対応する発話の合成音声表現を含むトレーニング発話ペアのセットを受信するステップを含む。トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、動作はまた、音声認識モデルによる出力のために、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第1の確率分布を生成するステップと、音声認識モデルによる出力のために、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第2の確率分布を生成するステップと、可能な非合成音声認識仮説に対する第1の確率分布と、可能な非合成音声認識仮説に対する第2の確率分布に基づいて、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップとを含む。動作はまた、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて、音声認識モデルのパラメータを更新するステップを含む。
本開示の実装形態は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、動作は、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第1の確率分布に基づいて、非合成音声損失項を生成するステップと、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第2の確率分布と、対応する発話のグラウンドトゥルーストランスクリプションとに基づいて、合成音声損失項を生成するステップとをさらに含む。いくつかの例では、音声認識モデルのパラメータは、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において生成された非合成音声損失項および合成音声損失項とは無関係に、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて更新される。
任意で、各トレーニング発話ペアにおける合成音声表現は、対応する発話を表す合成された音声を含み得る。いくつかの実装形態では、トレーニング発話ペアごとに、動作は、対応する合成音声表現を生成するために、テキスト読み上げ(TTS)モデルを使用して、対応する発話のグラウンドトゥルーストランスクリプションを変換するステップをさらに含む。少なくとも1つのトレーニング発話ペアについて、動作は、対応する非合成音声表現または対応する合成音声表現のうちの少なくとも1つにデータ拡張を適用するステップをさらに含み得る。ここで、適用されるデータ拡張は、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを含み得る。
いくつかの例では、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップは、可能な非合成音声認識仮説に対する第1の確率分布と、可能な非合成音声認識仮説に対する第2の確率分布との間のカルバック-ライブラダイバージェンスに基づく。これらの例では、対応するトレーニング発話ペアの一貫性のある損失項を決定する前に、および音声認識モデルがフレームアラインメントベースのトランスデューサモデルを含む場合、動作は、対応する発話のグラウンドトゥルーストランスクリプションの有効なアラインメントの確率に基づいて、出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布のシーケンスと、出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含み得る。ここでは、対応する発話のグラウンドトゥルーストランスクリプションを表す出力ラベルのシーケンス内の各出力ラベルに対して、有効なアラインメント分布が定義される。
いくつかの実装形態では、音声認識モデルは、フレームアラインメントベースのトランスデューサモデルを含む。これらの実装形態では、フレームアラインメントベースのトランスデューサモデルは、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルを含む。任意で、音声認識モデルは、アラインメントベースのエンコーダ-デコーダモデルを含み得る。
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信し、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶するメモリハードウェアとを含むシステムを提供する。動作は、それぞれが対応する発話の非合成音声表現および対応する発話の合成音声表現を含むトレーニング発話ペアのセットを受信するステップを含む。トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、動作はまた、音声認識モデルによる出力のために、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第1の確率分布を生成するステップと、音声認識モデルによる出力のために、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第2の確率分布を生成するステップと、可能な非合成音声認識仮説に対する第1の確率分布と、可能な非合成音声認識仮説に対する第2の確率分布に基づいて、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップとを含む。動作はまた、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて、音声認識モデルのパラメータを更新するステップを含む。
本開示の実装形態は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、動作は、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において、対応する発話の対応する非合成音声表現に対する可能な非合成音声認識仮説に対する第1の確率分布に基づいて、非合成音声損失項を生成するステップと、対応する発話の対応する合成音声表現に対する可能な合成音声認識仮説に対する第2の確率分布と、対応する発話のグラウンドトゥルーストランスクリプションとに基づいて、合成音声損失項を生成するステップとをさらに含む。いくつかの例では、音声認識モデルのパラメータは、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において生成された非合成音声損失項および合成音声損失項とは無関係に、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項に基づいて更新される。
任意で、各トレーニング発話ペアにおける合成音声表現は、対応する発話を表す合成された音声を含み得る。いくつかの実装形態では、トレーニング発話ペアごとに、動作は、対応する合成音声表現を生成するために、テキスト読み上げ(TTS)モデルを使用して、対応する発話のグラウンドトゥルーストランスクリプションを変換するステップをさらに含む。少なくとも1つのトレーニング発話ペアについて、動作は、対応する非合成音声表現または対応する合成音声表現のうちの少なくとも1つにデータ拡張を適用するステップをさらに含み得る。ここで、適用されるデータ拡張は、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを含み得る。
いくつかの例では、対応するトレーニング発話ペアの一貫性のある損失項を決定するステップは、可能な非合成音声認識仮説に対する第1の確率分布と、可能な非合成音声認識仮説に対する第2の確率分布との間のカルバック-ライブラダイバージェンスに基づく。これらの例では、対応するトレーニング発話ペアの一貫性のある損失項を決定する前に、および音声認識モデルがフレームアラインメントベースのトランスデューサモデルを含む場合、動作は、対応する発話のグラウンドトゥルーストランスクリプションの有効なアラインメントの確率に基づいて、出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布のシーケンスと、出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含み得る。ここでは、対応する発話のグラウンドトゥルーストランスクリプションを表す出力ラベルのシーケンス内の各出力ラベルに対して、有効なアラインメント分布が定義される。
いくつかの実装形態では、音声認識モデルは、フレームアラインメントベースのトランスデューサモデルを含む。これらの実装形態では、フレームアラインメントベースのトランスデューサモデルは、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルを含む。任意で、音声認識モデルは、アラインメントベースのエンコーダ-デコーダモデルを含み得る。
本開示の1つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
例示的な音声認識システムの概略図である。 リカレントニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャの概略図である。 注意ベースのエンコーダ-デコーダ(AED)モデルアーキテクチャの概略図である。 非合成音声と合成音声の両方について一貫性のある予測を学習するために、音声認識モデルを促進するための例示的なトレーニングプロセスの概略図である。 同じ対応する発話の非合成音声表現と合成音声表現の両方について、図2BのAEDモデルアーキテクチャを使用して音声認識モデルによって出力される音声認識結果の概略図である。 同じ対応する発話の非合成音声表現と合成音声表現の両方について、図2AのRNN-Tモデルアーキテクチャを使用して音声認識モデルによって出力される音声認識結果の概略図である。 音声認識モデルをトレーニングする方法のための動作の例示的な構成のフローチャートである。 本明細書に記載のシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
様々な図面における同様の参照記号は、同様の要素を示す。
自動音声認識は、オーディオから文字シーケンスにマッピングするシーケンスツーシーケンス(Seq2Seq)モデルの導入により、大きな進歩を遂げた。同時に、テキスト読み上げ(TTS)または音声合成システムは、人間の耳には人間の音声と区別できない、最先端の自然でリアルな合成された音声を取得するために、Seq2Seqモデルの適用に成功した。
ディープラーニングベースのASRモデルを開発する際の課題の1つは、ASRモデルのパラメータがトレーニングデータに過度に適合する傾向があり、それによって、トレーニングデータが十分に広範でない場合、ASRモデルが見えないデータを一般化することが困難になることである。その結果、より大きいトレーニングデータセットにおいてASRモデルをトレーニングすると、ASRモデルの精度が向上する。本明細書の実装形態は、利用可能な人間の音声トレーニングデータが少ない場合でもASRモデルの精度を維持し、大量のトレーニングデータが利用可能な場合にASRモデルのパフォーマンスを向上させるために、ASRモデルをトレーニングするために合成された音声を使用することを目的としている。ここで、合成された音声は、モデルをトレーニングするために必要なラベル付けされた人間の音声の量を大幅に制限する可能性があると同時に、ASRモデルを様々なドメイン間で移動する際の柔軟性も提供する。
一般に、合成された音声の使用は、人間の音声と区別できない最先端の合成された音声の例にもかかわらず、ASRトレーニングに人間の音声とは異なる影響を与えることが示されている。合成された音声と人間の音声との間のこのギャップは、TTSシステムが解決しようとしている困難な1対多のマッピング問題から生じる、人間の音声データからの合成された音声データの不一致に起因する。すなわち、利用可能な合成された音声の全体的な品質は非常に高いが、合成された音声は、人間の音声よりもはるかに少ない変動を示し、音声の流暢さも最小限になる。その結果、合成された音声データのみにおいてASRモデルをトレーニングすると、推論中に実際の音声発話を一般化することが困難になる。
本明細書の実装形態は、同じトレーニング発話の実際の/人間の音声および合成された音声表現においてASRモデルをトレーニングし、同じトレーニング発話の実際の/人間の音声表現と合成された表現の両方で一貫性のある予測(たとえば、音声認識仮説)を促進するために一貫性のある損失項を導入することを目的としている。要するに、同じ発話の人間の表現と合成された表現との間の一貫性のある損失項は、ASRモデルが人間の音声と合成された音声のトレーニング発話で一貫して動作するように奨励することによって、教師なしトレーニング態様を提供する。追加の実装形態は、話者の違いに対する堅牢性を促進するために、合成された話者の特性を変えることによってトレーニング発話の多様な実現を合成するなどのデータ拡張技法を適用することを含む。
図1は、ユーザ104のユーザデバイス102および/またはユーザデバイス102と通信しているリモートコンピューティングデバイス201(たとえば、クラウドコンピューティング環境において実行される分散システムの1つまたは複数のサーバ)に常駐するASRモデル200を実装する自動音声認識(ASR)システム100を示している。ユーザデバイス102はモバイルコンピューティングデバイス(たとえば、スマートフォン)として示されているが、ユーザデバイス102は、これらに限定されないが、タブレットデバイス、ラップトップ/デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカ/ディスプレイ、スマート家電、車載インフォテインメントシステム、またはモノのインターネット(IoT)デバイスなどの任意のタイプのコンピューティングデバイスに対応し得、データ処理ハードウェア111とメモリハードウェア113を備えている。
ユーザデバイス102は、ユーザ104によって話された発話106を受信し(たとえば、ユーザデバイス102は、話された発話106を記録するための1つまたは複数のマイクロフォンを含み得る)、発話106を、ASRシステム100によって処理することができる入力音響フレーム110に関連付けられる、対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム108を含む。図示される例では、ユーザは、「ニューヨーク市の天気は?」という語句について、英語の自然言語でそれぞれの発話106を話し、オーディオサブシステム108は、ASRシステム100への入力のために発話106を対応する音響フレーム110に変換する。その後、ASRモデル200は、入力として、発話106に対応する音響フレーム110を受信し、出力として、発話106の対応するトランスクリプション120(たとえば、認識結果/仮説)を生成/予測する。図示されている例では、ユーザデバイス102および/またはリモートコンピューティングデバイス201は、発話106のトランスクリプション120の表現をユーザデバイス102のユーザ104に提示するように構成されたユーザインターフェースジェネレータ107も実行する。いくつかの構成では、ASRシステム100から出力されたトランスクリプション120は、ユーザコマンドを実行するために、たとえば、ユーザデバイス102またはリモートコンピューティングデバイス201上で実行される自然言語理解(NLU)モジュールによって処理される。追加または代替として、テキスト読み上げシステム(たとえば、ユーザデバイス102またはリモートコンピューティングデバイス201の任意の組合せにおいて実行される)は、トランスクリプションを別のデバイスによるオーディオ出力用の合成された音声に変換し得る。たとえば、元の発話106は、ユーザ104が友人に送信しているメッセージに対応し得、このメッセージにおいて、元の発話106において伝えられたメッセージを聞くために友人にオーディオ出力するために、トランスクリプション120が合成された音声に変換される。
図2Aおよび図2Bを参照すると、ASRモデル200は、フレームアラインメントベースのトランスデューサモデル200a(図2A)、または注意ベースのエンコーダ-デコーダ(AED)モデル200b(図2B)などのエンドツーエンド(E2E)シーケンスツーシーケンスモデルを含み得る。ASRモデル200は、音響モデル、発音モデル、および言語モデルを単一のニューラルネットワークに統合することによってE2E音声認識を提供し得、レキシコンまたは別個のテキスト正規化コンポーネントを必要としない。様々な構造と最適化メカニズムにより、精度が向上し、モデルのトレーニング時間が短縮される。
図2Aを参照すると、例示的なフレームアラインメントベースのトランスデューサモデル200aは、対話型アプリケーションに関連付けられるレイテンシ制約に準拠するリカレントニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャを含む。RNN-Tモデル200aは、小さい計算フットプリントを提供し、従来のASRアーキテクチャよりも少ないメモリ要件を利用し、RNN-Tモデルアーキテクチャを完全にユーザデバイス102上で音声認識を実行するために適したものにする(たとえば、リモートサーバとの通信は不要である)。RNN-Tモデル200aは、エンコーダネットワーク210、予測ネットワーク220、およびジョイントネットワーク230を含む。エンコーダネットワーク210は、従来のASRシステムにおける音響モデル(AM)にほぼ類似しており、積み重ねられた長短期記憶(LSTM)層の再帰型ネットワークを含む。たとえば、エンコーダは、d次元特徴ベクトルのシーケンス(たとえば、音響フレーム110(図1))x=(x、x、…、x)を読み取り、上式で、
であり、各時間ステップにおいて高次の特徴表現を生成する。この高次の特徴表現は、
として示される。
同様に、予測ネットワーク220もLSTMネットワークであり、これは、言語モデル(LM)のように、これまで最終ソフトマックス層240によって出力された非ブランク記号のシーケンス、y、…、yui-1を密な表現
に変換する。最後に、RNN-Tモデルアーキテクチャでは、エンコーダネットワーク210および予測ネットワーク220によって生成された表現が、ジョイントネットワーク230によって結合される。次に、ジョイントネットワークは
を予測し、これは、次の出力記号の分布である。別の言い方をすれば、ジョイントネットワーク230は、各出力ステップ(たとえば、時間ステップ)において、可能な音声認識仮説に対する確率分布を生成する。ここで、「可能な音声認識仮説」は、それぞれが特定の自然言語で記号/文字を表す出力ラベルのセットに対応する。たとえば、自然言語が英語である場合、出力ラベルのセットは、たとえば、英語のアルファベットの26文字ごとに1つのラベルと、スペースを指定する1つのラベルとの、27の記号を含み得る。したがって、ジョイントネットワーク230は、出力ラベルのあらかじめ定められたセットの各々の発生の可能性を示す値のセットを出力し得る。この値のセットはベクトルにすることができ、出力ラベルのセットに対する確率分布を示すことができる。場合によっては、出力ラベルが書記素(たとえば、個々の文字、ならびに潜在的に句読点および他の記号)であるが、出力ラベルのセットはそのように制限されない。たとえば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語片および/または単語全体を含むことができる。ジョイントネットワーク230の出力分布は、異なる出力ラベルの各々について事後確率値を含むことができる。したがって、異なる書記素または他の記号を表す100個の異なる出力ラベルがある場合、ジョイントネットワーク230の出力yは、出力ラベルごとに1つずつ、100個の異なる確率値を含むことができる。次いで、トランスクリプション120を決定するためのビーム検索プロセス(たとえば、ソフトマックス層240による)において、スコアを選択し、候補の正字法要素(たとえば、書記素、単語片、および/または単語)に割り当てるために、確率分布を使用することができる。
ソフトマックス層240は、対応する出力ステップにおいてRNN-Tモデル200aによって予測される次の出力記号として、分布内で最も高い確率を有する出力ラベル/記号を選択するために、任意の技法を使用し得る。このように、RNN-Tモデル200aは、条件付きの独立性の仮定を行わず、各記号の予測は、音響だけでなく、それまでに出力されたラベルのシーケンスにも条件付けられる。RNN-Tモデル200aは、出力記号が将来の音響フレーム110とは無関係であると仮定し、RNN-Tモデルをストリーミング方式で使用できるようにする。
いくつかの例では、RNN-Tモデル200aのエンコーダネットワーク210は、8つの2,048次元LSTM層から構成され、それぞれに640次元投影層が続く。予測ネットワーク220は、2つの2,048次元LSTM層を有することができ、その各々の後にも640次元投影層が続く。最後に、ジョイントネットワーク230はまた、640個の隠れユニットを有し得る。ソフトマックス層240は、複数のトレーニングデータセット301(図3)内のすべての一意の単語片または書記素を使用して生成される、統合された単語片または書記素セットから構成され得る。
図2Bを参照すると、従来の音響モデルに類似した聴取者エンコーダモジュール211と、アラインメントモデルとして機能するアテンダモジュール221と、従来のシステムにおける言語モデルに類似したデコーダ231とを含む単一のニューラルネットワークを提供する聴取、出席、およびスペル(Listen, Attend and Spell、LAS)モデルアーキテクチャに関連付けられる例示的なAEDモデル200bである。具体的には、聴取者エンコーダモジュール211は、入力特徴(たとえば、音響フレーム110(図1))xを取り、それらをより高いレベルの特徴表現hencにマッピングする。エンコードされた特徴表現hencを生成するこのプロセスは、異なる入力時間ステップを表す複数の入力フレームの各々に対して実行することができる。これらの時間ステップは下付き文字uで示される。したがって、フレームのセット{f、f、f、...f}に対して、対応するエンコードされた出力のセット{h、h、h、...h}が存在する可能性がある。
聴取者エンコーダモジュール211の出力はアテンダモジュール221に渡され、ダイナミックタイムワーピング(DTW)アラインメントモジュールと同様に、次の出力記号yを予測するために、henc内のどのエンコーダ機能に注意を払うべきかを決定する。いくつかの例では、アテンダモジュール221は、本明細書ではアテンダニューラルネットワークまたはアテンダ221と呼ばれる。アテンダ221は、複数の出力ステップiの各々についてコンテキスト出力cを生成することができる。各コンテキスト出力ベクトルcについて、アテンダ221は、1つまたは複数の入力ステップuのエンコーディング、たとえば、現在の入力ステップのエンコーディングと前の入力ステップのエンコーディングに基づいて注意を計算することができる。たとえば、アテンダ221は、発話のすべてのエンコーダ出力のセット、たとえば、セット全体{h、h、h、...h}にわたって注意コンテキスト出力cを生成することができる。注意コンテキストベクトルは、認識されている発話のフレーム(たとえば、部分)の現在および以前のエンコーディングの加重要約を表すベクトルであり得る。
最後に、アテンダ221の出力はデコーダ231に渡され、デコーダ出力を生成するために、アテンダ221によって出力された注意コンテキスト(たとえば、コンテキストベクトルまたはアテンション分布)cと、前の予測の埋め込みy-1を取る。デコーダ出力は、前のユニット{yi-1,..,y}および入力xが与えられた場合の、現在のサブワードユニットyに対する確率分布P(y|yi-1,..,y,x)である可能性がある。したがって、デコーダ231は、各出力ステップにおいて、可能な音声認識仮説に対する確率分布を生成する。図2Aを参照して上述したRNN-Tモデル200aと同様に、「可能な音声認識仮説」は、それぞれが特定の自然言語で記号/文字を表す出力記号のセットに対応する。
図示されていないが、ASRモデル200は、デコーダ231の出力を受信するソフトマックス層を含み得る。いくつかの実装形態では、ソフトマックス層は、デコーダ231から分離されており、デコーダ231からの出力yを処理し、次いで、正字法要素を選択するために、ソフトマックス層の出力がビーム探索プロセスにおいて使用される。いくつかの実装形態では、ソフトマックス層はデコーダ231と統合されているので、デコーダ231の出力yはソフトマックス層の出力を表す。
デコーダ231および/または関連付けられるソフトマックス層は、出力ラベルのあらかじめ定められたセットの各々の発生の可能性を示す値のセットを出力するようにトレーニングされ得る。この値のセットはベクトルにすることができ、出力ラベルのセットに対する確率分布を示すことができる。場合によっては、出力ラベルが書記素(たとえば、個々の文字、ならびに潜在的に句読点および他の記号)であるが、出力ラベルのセットはそのように制限されない。たとえば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語片および/または単語全体を含むことができる。デコーダ231および/またはソフトマックス層の出力分布は、異なる出力ラベルの各々について事後確率値を含むことができる。したがって、異なる書記素または他の記号を表す100個の異なる出力ラベルがある場合、デコーダの出力y、または出力yを受け取って処理するソフトマックス層の出力は、出力ラベルごとに1つずつ、100個の異なる確率値を含むことができる。次いで、トランスクリプションを決定するためのビーム検索プロセスにおいてスコアを選択し、候補の正字法要素(たとえば、書記素、単語片、および/または単語)に割り当てるために、確率分布を使用することができる。
図3を参照すると、非合成音声(たとえば、本物の/人間の音声)と合成音声(たとえば、合成された音声)の両方について一貫性のある予測を学習するために、ASRモデル200を促進するための例示的なトレーニングプロセス300は、同じトレーニング発話の非合成音声表現304および合成音声表現306のトレーニング発話ペア302(「トレーニングオーディオペア」とも呼ばれる)の間で一貫性のある損失項(Jcons(θ))352を生成することを含む。要するに、同じトレーニング発話の非合成音声表現と合成音声表現との間の一貫性のある損失項は、ASRモデル200が、トレーニング発話が非合成音声に属するか、合成音声に属するかどうかに関係なく、またグラウンドトゥルーストランスクリプション308と、ASRモデル200によって出力される非合成音声認識仮説、およびASRモデル200による合成音声認識仮説出力の各々との間の管理された損失項とは無関係に、一貫して動作するように奨励することによって、教師なしトレーニング態様を提供する。
トレーニングプロセス300は、図1のリモートコンピューティングデバイス201上で実行し得る。たとえば、リモートコンピューティングデバイス201は、データ処理ハードウェアと通信し、データ処理ハードウェア710上で実行されると、データ処理ハードウェア710にトレーニングプロセス300の動作を実行させる命令を記憶する、データ処理ハードウェア710(図7)およびメモリハードウェア720(図7)を含む。図示される例では、トレーニングプロセス300は、トレーニング発話ペア302のセットを受信し、各トレーニング発話ペア302は、対応する発話の非合成音声表現304(たとえば、人間の音声/実際の音声)と、同じ対応する発話の合成音声表現306とを含む。各トレーニング発話ペア302はまた、対応する発話の同じグラウンドトゥルーストランスクリプション320に関連付けられる。いくつかの実装形態では、非合成音声表現304は、最初にグラウンドトゥルーストランスクリプション320とペアにされ得る。たとえば、各非合成音声表現304は、人間の聴取者によって手書きで書き写され得る。これらの実装形態では、テキスト読み上げ(TTS)モジュール330は、対応するトレーニング発話ペア302を提供するために、対応する発話のグラウンドトゥルーストランスクリプション320を合成音声表現306に変換し得る。ここで、非合成音声表現304は、グラウンドトゥルーストランスクリプション320に関連付けられるテキストを合成されたオーディオに変換することによって、TTSモジュール330によって生成された合成された音声に関連付けられる。TTSモジュール330は、話者埋め込みに関連付けられる特定の話し方および韻律を有する合成された音声を取得するために、グラウンドトゥルーストランスクリプション(y)320を変換するときに、話者埋め込みzを適用し得る。ここで、グラウンドトゥルーストランスクリプション(y)320は、TTSモジュール330が、グラウンドトゥルーストランスクリプション(y)320に関連付けられる非合成音声表現(x)304と一致するという期待を有する新しい合成音声表現(
)306を生成する教師ありデータ拡張のソースに関連付けられている。
いくつかの例では、トレーニングプロセス300は、トレーニング発話ペア302のうちの少なくとも1つの非合成音声表現304または合成音声表現306のうちの少なくとも1つにデータ拡張を適用する。データ拡張は、ノイズの追加、タイミングの操作(たとえば、ストレッチ)、または対応する音声表現への残響の追加を含み得るが、これらに限定されない。
ASRモデル200は、入力として、対応する発話の非合成音声表現(x)304を特徴/ベクトル(たとえば、図1の音響フレーム110)のシーケンスとして受信し、複数の出力ステップの各々について、出力として、対応する発話の対応する非合成音声表現(x)304に対する可能な非合成音声認識仮説(y)にわたる第1の確率分布311を生成する。簡単にするために、「非合成音声認識結果311」という用語は、対応する非合成音声表現(x)304の可能な非合成音声認識仮説(y)に対する第1の確率分布311を指すために使用され得る。ASRモデル200はまた、入力として、対応する発話の合成音声表現(
)306を特徴/ベクトル(たとえば、図1の音響フレーム110)のシーケンスとして受信し、複数の出力ステップの各々について、出力として、対応する発話の対応する合成音声表現(
)306に対する可能な合成音声認識仮説(y)にわたる第2の確率分布312を生成する。簡単にするために、「合成音声認識結果312」という用語は、対応する合成音声表現(
)306の可能な合成音声認識仮説(y)に対する第2の確率分布312を交換可能に指すために使用され得る。
従来のエンドツーエンドシーケンスツーシーケンスASRモデルのトレーニングと同様に、トレーニングプロセス300は、複数の出力ステップの各々におけるASRモデル200による出力のために、対応する発話の対応する非合成音声表現(x)304のグラウンドトゥルーストランスクリプション320および非合成音声認識結果311(y)に基づいて、非合成音声損失項(Jreal(θ))342を含む第1の教師あり損失項を生成する。図示される例では、トレーニングプロセス300は、グラウンドトゥルーストランスクリプション320および第1の確率分布311を受信し、非合成音声損失項(Jreal(θ))342を出力するように構成された教師あり損失項モジュール340を実行する。非合成音声損失項(Jreal(θ))342を含む第1の教師あり損失項は、以下の式によって計算され得る。
さらに、トレーニングプロセス300は、複数の出力ステップの各々において、グラウンドトゥルーストランスクリプション320に基づいて、合成音声損失項(Jtts(θ))344を含む第2の教師あり損失項と、対応する発話の対応する合成音声表現(
)306の可能な合成音声認識仮説(y)にわたる第2の確率分布312とを生成する。図示される例では、トレーニングプロセス300は、グラウンドトゥルーストランスクリプション320および第2の確率分布312を受信し、合成音声損失項(Jtts(θ))344を出力するように構成された教師あり損失項モジュール340を実行する。合成音声損失項(Jtts(θ))344を含む第2の教師あり損失項は、以下の式によって計算され得る。
上式で、y,zはグラウンドトゥルーストランスクリプション(y)および話者埋め込み(z)に基づいてTTSモジュール330によって生成された合成音声表現(
)306を示している。
教師あり損失項モジュール340は、非合成音声損失項(Jreal(θ))342および合成音声損失項(Jtts(θ))344をASRモデル200に戻すことができる。たとえば、トレーニングプロセス300は、逆伝播を通じてASRモデル200をトレーニングするために、確率的勾配降下法などの確率的最適化アルゴリズムを使用してASRモデル200をトレーニングし得る。ここで、確率的最適化アルゴリズムは、ニューラルネットワークの実際の出力(たとえば、非合成音声認識結果311と合成音声認識結果312)と、所望の出力(たとえば、対応する発話のグラウンドトゥルーストランスクリプション320)との間の差に基づいて、それぞれの損失関数(たとえば、交差エントロピ損失関数)を定義するために、損失項342、344を使用する。たとえば、損失関数はトレーニング例のバッチに対して計算され、次いでASRモデル200の各重みに関して微分される。バッチトレーニングにおいて、非合成音声損失項(Jreal(θ))342は、非合成音声表現304のそれぞれのバッチについて取得された平均損失に対応し得、合成音声損失項(Jtts(θ))344は、合成音声表現306のそれぞれのバッチについて取得された平均損失に対応し得る。さらに、ASRモデル200は、教師あり損失項モジュール340が対応する非合成音声損失項342および合成音声損失項344を並行して出力するように、非合成音声表現304および合成音声表現306の対応するバッチにおいて並行してトレーニングされ得る。
図示される例では、トレーニングプロセス300は、各トレーニング発話ペア302に対する複数の出力ステップの各々において、可能な非合成音声認識仮説に対する第1の確率分布311と、可能な非合成音声認識仮説に対する第2の確率分布312に基づいて、対応するトレーニング発話ペア302の一貫性のある損失項(Jcons(θ))352をさらに決定する。たとえば、トレーニングプロセス300は、各出力ステップにおいて、ASRモデル200によって出力された対応する非合成音声認識結果311および合成音声認識結果312を受信し、出力ステップにおいて対応するトレーニング発話ペア302の一貫性のある損失項352を決定するように構成された一貫性のある損失項モジュール350を使用し得る。
いくつかの例では、トレーニングプロセス300は、可能な非合成音声認識仮説に対する第1の確率分布311と、可能な非合成音声認識仮説に対する第2の確率分布312との間のカルバック-ライブラダイバージェンス(DKL)に基づいて、一貫性のある損失項352を決定する。DKLに基づく一貫性のある損失項352は、以下の式によって表され得る。
ここで、各出力ステップにおいてトレーニング発話ペア302に対して決定された一貫性のある損失項352は、ASRモデルの精度とは無関係の(たとえば、教師あり損失項342、344とは無関係の)「教師なし」損失項を提供し、したがって、同じ発話の非合成音声表現と合成音声表現との間の一貫性を促進するために、ASRモデル200のパラメータを更新するために使用され得る。バッチトレーニングにおいて、一貫性のある損失項352は、バッチについて取得された平均損失項に対応し得る。言い換えれば、一貫性のある損失項352は、ASRモデル200が同じように振る舞うことを学習することを可能にし、たとえば、トレーニング発話が非合成音声または合成音声に属しているかどうかに関係なく、同じトレーニング発話の非合成音声(たとえば、本物の/人間の音声)および合成音声(たとえば、合成された音声)の両方に対して一貫性のある予測を行う。図示される例では、トレーニングプロセス300は、教師あり損失項モジュール340から対応する非合成音声損失項342および合成音声損失項344を出力し、一貫性のある損失項モジュール350から一貫性のある損失項352を並行して出力するように構成される。
有利なことに、次いでASRモデル200は、非合成音声トレーニング例に依存する必要なく、または少なくとも合成音声表現の数に対して非合成音声トレーニング例の数を減らすことなく、推論中に人間の発話の正確な音声認識結果を生成するために、合成音声の大きいデータセット上でさらにトレーニングすることができる。したがって、ASRモデル200は、新しいドメインにおいてASRモデル200をトレーニングするために、ペアになっていないテキストからオンザフライで合成音声を生成することができるので、ドメイン内で書き写された非合成音声に依存する必要なく、新しいドメインに迅速に移動することができる。使用ケースの一例では、ASRモデル200の精度は、ペアになっていないテキストから生成された合成音声からの音声トレーニング例の数を増やすことによって、書き写された非合成音声を取得することが困難な自然言語の音声を認識するために大幅に改善することができる。
図4は、注意ベースのエンコーダ-デコーダ(AED)モデル200b(図2B)によって生成された非合成音声認識結果311と合成音声認識結果312との間のDKLに基づく一貫性のある損失項352の概略図400を示している。図示される例では、非合成音声認識結果311のシーケンスは、英単語「WORD」のトレーニング発話の非合成音声表現304に関連付けられており、合成音声認識結果312のシーケンスは、英単語「WORD」の同じトレーニング発話の合成音声表現306に関連付けられている。AEDモデル200bは、複数の出力ステップの各々において、トレーニング発声の非合成音声表現304について、対応する非合成音声認識結果311、311a~dを生成する。実際には、各出力ステップにおける非合成音声認識結果311a~dは、可能な非合成音声認識仮説に対する確率分布を表すが、簡単にするために、図示される例は、可能な非合成音声認識仮説に対する確率分布の中で最も高い確率に関連付けられる非合成音声認識仮説を表す非合成音声認識結果311のみを示している。たとえば、第1の出力ステップにおける第1の非合成音声認識結果311aは、文字「W」の出力ラベルを含み、第2の出力ステップにおける第2の非合成音声認識結果311bは、文字「O」の出力ラベルを含み、第3の出力ステップにおける第3の非合成音声認識結果311cは、文字「R」の出力ラベルを含み、第4の出力ステップにおける第4の非合成音声認識結果311dは、文字「D」の出力ラベルを含む。図示されていないが、それぞれの非合成音声損失項(Jreal(θ))342は、非合成音声認識結果311と、グラウンドトゥルーストランスクリプション320から取得された出力ステップのグラウンドトゥルースラベルyとに基づいて、各出力ステップにおいて決定され得る。
同様に、AEDモデル200bは、複数の出力ステップの各々において、トレーニング発話302の合成音声表現306について、対応する合成音声認識結果312、312a~dを生成する。簡単にするために、この例では、可能な合成音声認識仮説の確率分布の中で最も高い確率に関連付けられる合成音声認識仮説を表す、各出力ステップにおける合成認識結果312a~dのみを示す。たとえば、第1の出力ステップにおける第1の合成音声認識結果312aは、文字「W」の出力ラベルを含み、第2の出力ステップにおける第2の合成音声認識結果312bは、文字「A」の出力ラベルを含み、第3の出力ステップにおける第3の合成音声認識結果312cは、文字「R」の出力ラベルを含み、第4の出力ステップにおける第4の合成音声認識結果312dは、文字「D」の出力ラベルを含む。図示されていないが、それぞれの合成音声損失項(Jtts(θ))344は、合成音声認識結果312と、グラウンドトゥルーストランスクリプション320から取得された出力ステップのグラウンドトゥルースラベルyとに基づいて、各出力ステップにおいて決定され得る。たとえば、第2の出力ステップにおけるそれぞれの合成音声損失項(Jtts(θ))344は、モデルが合成音声表現の文字「O」ではなく文字「A」を誤って予測するため、それぞれの非合成損失項342よりも高くなる可能性がある。この例は、書記素を含む音声認識結果311、312の出力ラベルを示しているが、トレーニングプロセス300は、語片または音素の出力ラベルを同様に予測し得る。
AEDモデル200bは、非合成音声認識結果311a~dの出力シーケンスを合成音声認識結果312a~dの出力シーケンスと好都合に位置合わせする。したがって、一貫性のある損失項352は、各出力ステップにおいて生成された非合成音声認識結果311と合成音声認識結果312との間のDKLに基づいて、式(3)を使用して各出力ステップにおいて決定することができる。特に、各出力ステップにおいて決定される一貫性のある損失項352は、実際の教師あり損失項342、344とは無関係である。実例として、第1の出力ステップにおける非合成音声認識結果311aおよび合成音声認識結果312aの両方は、たとえば「W」のように両方とも正しいが、非合成音声認識結果311aに関連付けられる確率/スコアは、合成音声認識結果312aに関連付けられる確率/スコアとは異なる場合がある。
図5は、フレームアラインメントベースのトランスデューサモデル200a(たとえば、RNN-T(図2A))によって生成された非合成音声認識結果311と合成音声認識結果312との間のDKLに基づく一貫性のある損失項352の概略図500を示している。図示される例では、非合成音声認識結果311は、英単語「WORD」のトレーニング発話の非合成音声表現304に関連付けられており、合成音声認識結果312は、英単語「WORD」の同じトレーニング発話の合成音声表現306に関連付けられている。AEDモデル200bとは対照的に、RNN-Tモデル200aのストリーミングの性質により、各出力ステップにおいて、非合成音声認識結果311と合成音声認識結果312との間にミスアラインメントが生じる。ここで、各出力ステップにおける非合成音声認識結果311a~gは、非合成音声表現304a~gの対応する入力フレーム110とアラインされ、各出力ステップにおける合成音声認識結果312a~gは、合成音声表現306a~gの対応する入力フレーム110とアラインされる。このミスアラインメントは、ストリーミング方式で音声認識を有効するために、たとえば、計算を開始する前にすべてのオーディオを待機する必要性を軽減するために、RNN-Tモデルが時間領域の出力ステップにおいて放出するブランク記号εが原因である。時間ステップの各々においてRNN-Tモデル200aによって出力される非合成音声認識結果311と合成音声認識結果312との間のミスアラインメントの結果として、一貫性のある損失項352は、各出力ステップにおいて生成された非合成音声認識結果311と合成音声認識結果312との間のDKLに基づいて、式(3)を使用して各出力ステップにおいて単純に決定することはできない。たとえば、図示される例では、RNN-Tモデル200aは、第1の非合成音声認識結果311a、第3の非合成音声認識結果311c、第4の非合成音声認識結果311d、および第7の非合成音声認識結果311gにおいて、それぞれ文字「W」、「O」、「R」、および「D」の非ブランク出力ラベルを放出し、第2の非合成音声認識結果312b、第3の非合成音声認識結果312c、第5の非合成音声認識結果312e、および第6の非合成音声認識結果312fにおいて、それぞれ文字「W」、「A」、「R」、および「D」の非ブランク出力ラベルを発する。この例は、書記素を含む音声認識結果311、312の出力ラベルを示しているが、トレーニングプロセス300は、語片または音素の出力ラベルを同様に予測し得る。
RNN-Tモデル200aに関連付けられる一貫性のある損失項352を計算するために、実装形態はまず、次のように、グラウンドトゥルーストランスクリプションyの有効なアラインメントの確率に基づいて、分布φ(u)RNNTを定義することを含む。
上式で、分布φ(u)RNNTは、グラウンドトゥルーストランスクリプションyにおける各出力ラベルに対して定義されるが、上記のAEDモデル200bのようにラベルセットL全体では定義されない。
前方確率および後方確率の標準的な定義を適用すると、グラウンドトゥルーストランスクリプションyの出力ラベルの事後は、次のように、すべての可能なアラインメントの確率の合計として定義することができる。
上式で、α(t,u)は、フレーム1からtまでのアラインメント格子においてy1:uを出力する前方確率を表し、β(t,u)は、フレームtからTまでの間にyu+1:Uを出力する後方確率を表し、Uは発話における出力ラベルの数であり、Tは発話における入力フレームの数である。したがって、フレームtおよび出力uにおける各RNN-T予測q(t,u)は、フレームtまでの特徴シーケンスと、出力uまでのトランスクリプションシーケンスとによって、次のように与えられる。
q(t,u)=pθ(y|x1:t,y 1:u-1) (6)
いくつかの例では、グラウンドトゥルース出力の事後を最適化するために、以下の式が適用される。
L=-log pθ(y|x) (7)
トークン後方の勾配は次のように提供される。
最後に、以下の式を使用して、すべての入力フレームにわたって各出力を周辺化することができる。
したがって、グラウンドトゥルーストランスクリプションにおける各出力ラベルy ∈ yについて、式(3)を使用して、各出力ステップにおいて一貫性のある損失項352を決定するためにグラウンドトゥルースラベルのシーケンス全体の事後を考慮に入れるために、式(9)の周辺化された分布を使用することができる。本質的に、フレームアラインメントベースのトランスデューサモデル200a(たとえば、RNN-T(図2A))によって予測される2つの出力シーケンス間の一貫性のある損失を計算するために、出力ラベルの予測されたシーケンスと入力フレームとの実際のアラインメントとは無関係に、グラウンドトゥルーストランスクリプションを表す出力ラベルのシーケンスとアラインするRNN-Tモデル200aによって予測/出力された出力ラベルのシーケンスを有する確率を決定するために、式(4)~(9)が適用される。
図6は、音声認識モデルをトレーニングする方法600のための動作の例示的な構成のフローチャートである。ASRモデル200は、注意ベースのエンコーダ-デコーダ(AED)モデル200b(図2B)またはフレームアラインメントベースのトランスデューサモデル200a(図2A)を含み得る。動作602において、方法600は、トレーニング発話ペア302のセットを受信するステップを含む。各トレーニング発話ペア302は、対応する発話の非合成音声表現304と、同じ対応する発話の合成音声表現306とを含む。トレーニング発話ペアのセット内の各トレーニング発話ペア302の複数の出力ステップの各々において、方法600はまた、動作604において、ASRモデル200による出力のために、対応する発話の対応する非合成音声表現304に対する可能な非合成音声認識仮説に対する第1の確率分布311を生成するステップと、動作606において、ASRモデル200による出力のために、対応する発話の対応する合成音声表現306に対する可能な合成音声認識仮説に対する第2の確率分布312を生成するステップと、動作608において、可能な非合成音声認識仮説に対する第1の確率分布311と、可能な非合成音声認識仮説に対する第2の確率分布312に基づいて、対応するトレーニング発話ペア302の一貫性のある損失項352を決定するステップとを含む。動作610において、方法600はまた、トレーニング発話ペアのセット内の各トレーニング発話ペアの複数の出力ステップの各々において決定された一貫性のある損失項352に基づいて、ASRモデル200のパラメータを更新するステップを含む。
本明細書の例は、同じ発話の非合成音声表現と合成音声表現との間の一貫性のある損失項352を決定するが、本明細書の技法は、これらに限定されないが、画像認識および機械翻訳などの他のタイプのデータセット間で一貫性のある損失項を決定するために同様に適用され得る。たとえば、対応するオブジェクトの非合成画像(あるいは、ピクセルまたは非合成画像のピクセルのシーケンス)表現と、同じ対応するオブジェクトの合成画像(または、合成画像のピクセルのシーケンス内のピクセル)表現とを含むトレーニング画像ペアは、対応するオブジェクトを認識することを学習させるためにモデル200a、200bをトレーニングするために、フレームアラインメントベースのトランスデューサモデル200aまたはAEDモデル200bのいずれかに供給することができる。一例では、オブジェクトは犬などの動物である可能性があり、グラウンドトゥルースラベルセットは、非合成画像と合成画像のペアを「犬」として指定するラベルを含むことができる。非合成画像と合成画像のペアが犬を表していないため、「犬ではない」というグラウンドトゥルースラベルを含む、ネガティブトレーニングの例を提供することもできる。
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。アプリケーションの例は、これらに限定されないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含む。
非一時的メモリは、コンピューティングデバイスによる使用のために、一時的または永続的にプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性であってもよく、および/または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
図7は、本明細書に記載のシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、本明細書で説明および/または請求される発明の実装形態を限定することを意味するものではない。
コンピューティングデバイス700は、プロセッサ710、メモリ720、ストレージデバイス730、メモリ720および高速拡張ポート750に接続する高速インターフェース/コントローラ740、ならびに低速バス770およびストレージデバイス730に接続する低速インターフェース/コントローラ760を含む。コンポーネント710、720、730、740、750、および760の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で取り付けることができる。プロセッサ710は、コンピューティングデバイス700内で実行するための命令を処理することができ、これは、高速インターフェース740に結合されたディスプレイ780などの外部入力/出力デバイス上にグラフィカルユーザインターフェース(GUI)のグラフィカル情報を表示するためのメモリ720またはストレージデバイス730に記憶された命令を含む。他の実装形態では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス700が接続されてよく、各デバイスは必要な動作の一部を提供する(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
メモリ720は、コンピューティングデバイス700内に非一時的に情報を記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ720は、コンピューティングデバイス700による使用のために、一時的または永続的にプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
ストレージデバイス730は、コンピューティングデバイス700に大容量ストレージを提供することができる。いくつかの実装形態では、ストレージデバイス730はコンピュータ可読媒体である。様々な異なる実装において、ストレージデバイス730は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、あるいはテープデバイス、フラッシュメモリまたは他の同様の固体メモリデバイス、あるいはストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実装形態では、コンピュータプログラム製品は、情報担体に有形に具現化される。コンピュータプログラム製品は、実行されると、上記の方法などの1つまたは複数の方法を実行する命令を含む。情報担体は、メモリ720、ストレージデバイス730、またはプロセッサ710上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
高速コントローラ740は、コンピューティングデバイス700の帯域幅集約型動作を管理し、低速コントローラ760は、より低い帯域幅集約型動作を管理する。そのような任務の割当ては単なる例に過ぎない。いくつかの実装形態では、高速コントローラ740は、メモリ720、ディスプレイ780(たとえば、グラフィックプロセッサまたはアクセラレータを通じて)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート750に結合される。いくつかの実装形態では、低速コントローラ760は、ストレージデバイス730および低速拡張ポート790に結合される。様々な通信ポート(たとえば、USB、ブルートゥース、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート790は、たとえば、ネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナ、あるいはスイッチまたはルータなどのネットワーキングデバイスなどの1つまたは複数の入力/出力デバイスに結合され得る。
コンピューティングデバイス700は、図面に示されるように、多くの異なる形態で実装され得る。たとえば、標準サーバ700aとして、またはそのようなサーバ700aのグループにおいて複数回、ラップトップコンピュータ700bとして、またはラックサーバシステム700cの一部として実装され得る。
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子回路および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、データおよび命令を受信し、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された、専用または汎用であり得る、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型言語および/またはオブジェクト指向プログラミング言語、ならびに/あるいはアセンブリ言語/機械言語において実装することができる。本明細書で使用される「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータを、機械可読信号として機械命令を受信する機械可読媒体を含むプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD)など)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。
本明細書で説明されているプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行することができ、入力データを操作して出力を生成することによって機能を実行するために、1つまたは複数のコンピュータプログラムを実行する。プロセスおよび論理フローはまた、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって実行することができる。コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令とデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、それらからデータを受信する、またはそれらにデータを転送するように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを備えている必要はない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補足することができ、またはそこに組み込むことができる。
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ディスプレイデバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはユーザに情報を表示するためのタッチスクリーン、および任意で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために、他の種類のデバイスを使用することができ、たとえば、ユーザに提供されるフィードバックは、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形式の感覚的フィードバックである可能性があり、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる
いくつかの実装形態を説明してきた。それでもなお、本開示の趣旨および範囲から逸脱することなく、様々な修正を加えることができることが理解されるであろう。したがって、他の実装形態は、添付の特許請求の範囲内にある。
100 自動音声認識(ASR)システム
102 ユーザデバイス
104 ユーザ
106 発話
107 ユーザインターフェースジェネレータ
108 オーディオサブシステム
110 音響フレーム
110 入力フレーム
111 データ処理ハードウェア
113 メモリハードウェア
120 トランスクリプション
200 ASRモデル
200a フレームアライメントベースのトランスデューサモデル、RNN-Tモデル
200b 注意ベースのエンコーダ-デコーダ(AED)モデル
201 リモートコンピューティングデバイス
210 エンコーダネットワーク
211 聴取者エンコーダモジュール
220 予測ネットワーク
221 アテンダモジュール、アテンダ
230 ジョイントネットワーク
231 デコーダ
240 ソフトマックス層
300 トレーニングプロセス
301 トレーニングデータセット
302 トレーニング発話ペア
304 非合成音声表現
304a~g 非合成音声表現
306 合成音声表現
306a~g 合成音声表現
308 グラウンドトゥルーストランスクリプション
311 第1の確率分布、非合成音声認識結果
311a~g 非合成音声認識結果
311a 第1の非合成音声認識結果
311b 第2の非合成音声認識結果
311c 第3の非合成音声認識結果
311d 第4の非合成音声認識結果
311g 第7の非合成音声認識結果
312 第2の確率分布、合成音声認識結果
312a~g 合成音声認識結果
312a 第1の合成音声認識結果
312b 第2の非合成音声認識結果
312c 第3の非合成音声認識結果
312d 第4の非合成音声認識結果
312e 第5の非合成音声認識結果
312f 第6の非合成音声認識結果
320 グラウンドトゥルーストランスクリプション
330 テキスト読み上げ(TTS)モジュール
340 教師あり損失項モジュール
342 非合成音声損失項、教師あり損失項
344 合成音声損失項、教師あり損失項
350 一貫性のある損失項モジュール
352 一貫性のある損失項
400 概略図
500 概略図
600 方法
700 コンピューティングデバイス
700a 標準サーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 データ処理ハードウェア、プロセッサ
720 メモリハードウェア、メモリ
730 ストレージデバイス
740 高速インターフェース/コントローラ
750 高速拡張ポート
760 低速インターフェース/コントローラ
770 低速バス
780 ディスプレイ
790 低速拡張ポート

Claims (24)

  1. データ処理ハードウェア(710)によって実行されると、前記データ処理ハードウェア(710)に、
    トレーニング発話ペア(302)のセットを受信するステップであって、各トレーニング発話ペア(302)が、
    対応する発話の非合成音声表現(304)と、
    前記対応する発話の合成音声表現(306)と
    を備える、ステップと、
    トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の複数の出力ステップの各々において、
    音声認識モデル(200)による出力のために、前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する第1の確率分布(311)を生成するステップと、
    前記音声認識モデル(200)による出力のために、前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する第2の確率分布(312)を生成するステップと、
    可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)について前記音声認識モデル(200)が同じように振る舞うことを学習することを可能にする、前記対応するトレーニング発話ペア(302)の損失項(352)を決定するステップと、
    トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップと、
    を含む動作を実行させる、コンピュータ実装方法(600)であって、
    前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定するステップが、可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)との間の、


    で表されるカルバック-ライブラダイバージェンスに基づく、
    コンピュータ実装方法(600)。
  2. 前記動作が、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において、
    前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、前記対応する発話のグラウンドトゥルーストランスクリプション(120)とに基づいて、非合成音声損失項(342)を生成するステップと、
    前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する前記第2の確率分布(312)と、前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)とに基づいて、合成音声損失項(344)を生成するステップと
    をさらに含む、請求項1に記載の方法(600)。
  3. 前記音声認識モデル(200)の前記パラメータが、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項(342、344)とは無関係に、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて更新される、請求項2に記載の方法(600)。
  4. 各トレーニング発話ペア(302)における前記合成音声表現(306)が、前記対応する発話を表す合成された音声を備える、請求項1から3のいずれか一項に記載の方法(600)。
  5. 前記動作が、トレーニング発話ペア(302)ごとに、前記対応する合成音声表現(306)を生成するために、テキスト読み上げ(TTS)モデル(330)を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション(120)を変換するステップをさらに含む、請求項1から4のいずれか一項に記載の方法(600)。
  6. 前記動作が、少なくとも1つのトレーニング発話ペア(302)について、前記対応する非合成音声表現(304)または前記対応する合成音声表現(306)のうちの少なくとも1つにデータ拡張を適用するステップをさらに含む、請求項1から5のいずれか一項に記載の方法(600)。
  7. 前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを備える、請求項6に記載の方法(600)。
  8. 前記動作が、前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定する前に、前記音声認識モデル(200)がフレームアラインメントベースのトランスデューサモデル(200a)を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション(120)の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布(311)のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布(312)のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項1に記載の方法(600)。
  9. 前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項8に記載の方法(600)。
  10. 前記音声認識モデル(200)が、フレームアラインメントベースのトランスデューサモデル(200a)を備える、請求項1から9のいずれか一項に記載の方法(600)。
  11. 前記フレームアラインメントベースのトランスデューサモデル(200a)が、リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を備える、請求項10に記載の方法(600)。
  12. 前記音声認識モデル(200)が、アラインメントベースのエンコーダ-デコーダモデル(200b)を備える、請求項1から7のいずれか一項に記載の方法(600)。
  13. データ処理ハードウェア(710)と、
    前記データ処理ハードウェア(710)と通信するメモリハードウェア(720)であって、前記データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に、
    トレーニング発話ペア(302)のセットを受信するステップであって、各トレーニング発話ペア(302)が、
    対応する発話の非合成音声表現(304)と、
    前記対応する発話の合成音声表現(306)と
    を備える、ステップと、
    トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の複数の出力ステップの各々において、
    音声認識モデル(200)による出力のために、前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する第1の確率分布(311)を生成するステップと、
    前記音声認識モデル(200)による出力のために、前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する第2の確率分布(312)を生成するステップと、
    可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)について前記音声認識モデル(200)が同じように振る舞うことを学習することを可能にする、前記対応するトレーニング発話ペア(302)の損失項(352)を決定するステップと、
    トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップと、
    を含む動作を実行させる命令を記憶する、メモリハードウェア(720)と
    を備える、システム(700)であって、
    前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定するステップが、可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)との間の、


    で表されるカルバック-ライブラダイバージェンスに基づく、
    システム(700)。
  14. 前記動作が、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において、
    前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、前記対応する発話のグラウンドトゥルーストランスクリプション(120)とに基づいて、非合成音声損失項(342)を生成するステップと、
    前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する前記第2の確率分布(312)と、前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)とに基づいて、合成音声損失項(344)を生成するステップと
    をさらに含む、請求項13に記載のシステム(700)。
  15. 前記音声認識モデル(200)の前記パラメータが、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項(342、344)とは無関係に、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて更新される、請求項14に記載のシステム(700)。
  16. 各トレーニング発話ペア(302)における前記合成音声表現(306)が、前記対応する発話を表す合成された音声を備える、請求項13から15のいずれか一項に記載のシステム(700)。
  17. 前記動作が、トレーニング発話ペア(302)ごとに、前記対応する合成音声表現(306)を生成するために、テキスト読み上げ(TTS)モデル(330)を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション(120)を変換するステップをさらに含む、請求項13から16のいずれか一項に記載のシステム(700)。
  18. 前記動作が、少なくとも1つのトレーニング発話ペア(302)について、前記対応する非合成音声表現(304)または前記対応する合成音声表現(306)のうちの少なくとも1つにデータ拡張を適用するステップをさらに含む、請求項13から17のいずれか一項に記載のシステム(700)。
  19. 前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを備える、請求項18に記載のシステム(700)。
  20. 前記動作が、前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定する前に、前記音声認識モデル(200)がフレームアラインメントベースのトランスデューサモデル(200a)を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション(120)の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布(311)のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布(312)のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項13に記載のシステム(700)。
  21. 前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項20に記載のシステム(700)。
  22. 前記音声認識モデル(200)が、フレームアラインメントベースのトランスデューサモデル(200a)を備える、請求項13から21のいずれか一項に記載のシステム(700)。
  23. 前記フレームアラインメントベースのトランスデューサモデル(200a)が、リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を備える、請求項22に記載のシステム(700)。
  24. 前記音声認識モデル(200)が、アラインメントベースのエンコーダ-デコーダモデル(200b)を備える、請求項13から19のいずれか一項に記載のシステム(700)。
JP2022552950A 2020-03-04 2021-02-08 ストリーミングシーケンスモデルの一貫性予測 Active JP7359969B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062985278P 2020-03-04 2020-03-04
US62/985,278 2020-03-04
PCT/US2021/017147 WO2021178108A1 (en) 2020-03-04 2021-02-08 Consistency prediction on streaming sequence models

Publications (2)

Publication Number Publication Date
JP2023509234A JP2023509234A (ja) 2023-03-07
JP7359969B2 true JP7359969B2 (ja) 2023-10-11

Family

ID=74856926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022552950A Active JP7359969B2 (ja) 2020-03-04 2021-02-08 ストリーミングシーケンスモデルの一貫性予測

Country Status (6)

Country Link
US (1) US11929060B2 (ja)
EP (1) EP4088276A1 (ja)
JP (1) JP7359969B2 (ja)
KR (1) KR20220148245A (ja)
CN (1) CN115210809A (ja)
WO (1) WO2021178108A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657799B2 (en) * 2020-04-03 2023-05-23 Microsoft Technology Licensing, Llc Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition
US11908458B2 (en) * 2020-12-29 2024-02-20 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
US20220319506A1 (en) * 2021-03-31 2022-10-06 Chief Chief Technologies Oy Method and system for performing domain adaptation of end-to-end automatic speech recognition model
US20230130634A1 (en) * 2021-10-05 2023-04-27 Google Llc Optimizing Inference Performance for Conformer
WO2023059959A1 (en) * 2021-10-06 2023-04-13 Google Llc Fusion of acoustic and text representations in an automatic speech recognition system implemented as a rnn-t
WO2023082231A1 (en) * 2021-11-15 2023-05-19 Microsoft Technology Licensing, Llc Diagnostic service in speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190304480A1 (en) 2018-03-29 2019-10-03 Ford Global Technologies, Llc Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10643602B2 (en) 2018-03-16 2020-05-05 Microsoft Technology Licensing, Llc Adversarial teacher-student learning for unsupervised domain adaptation
US10410120B1 (en) 2019-01-25 2019-09-10 StradVision, Inc. Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
US10402977B1 (en) 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
US10628688B1 (en) * 2019-01-30 2020-04-21 Stadvision, Inc. Learning method and learning device, and testing method and testing device for detecting parking spaces by using point regression results and relationship between points to thereby provide an auto-parking system
US11132992B2 (en) * 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
JP2022552950A (ja) 2019-10-10 2022-12-21 バイエル・アクチエンゲゼルシヤフト 炭酸プロピレンを含む殺虫剤の製剤
CN110738263B (zh) * 2019-10-17 2020-12-29 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置
US11748629B2 (en) * 2020-01-21 2023-09-05 Moxa Inc. Device and method of handling anomaly detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190304480A1 (en) 2018-03-29 2019-10-03 Ford Global Technologies, Llc Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHIU, Chung-Cheng et al.,"STATE-OF-THE-ART SPEECH RECOGNITION WITH SEQUENCE-TO-SEQUENCE MODELS",[online],2018年02月23日,[retrieved on 2023.03.24], Retrieved from the Internet:<URL:https://arxiv.org.pdf/1712.01769.pdf>,arXiv:1712.01769v6 [cs.CL]
LI, Jason et al.,Training Neural Speech Recognition Systems with Synthetic Speech Augmentation",[online],2018年11月02日, [retrieved on 2023.03.24], Retrieved from the Internet:<URL:https://arxiv.org.pdf/1811.00707.pdf>,arXiv:1811.00707v1 [cs.CL]
上乃聖 他,"End-to-End音声合成を用いた単語単位End-to-End音声認識のデータ拡張",情報処理学会研究報告,2018年12月03日,Vol.2018-SLP-125, No.2,pp.1-5
中山 佐保子,"Machine Speech Chainに基づく半教師あり学習を用いた日英コードスイッチング音声の認識",言語処理学会 第25回年次大会 発表論文集,2019年03月04日,pp.179-182

Also Published As

Publication number Publication date
US11929060B2 (en) 2024-03-12
JP2023509234A (ja) 2023-03-07
WO2021178108A1 (en) 2021-09-10
CN115210809A (zh) 2022-10-18
US20210280170A1 (en) 2021-09-09
EP4088276A1 (en) 2022-11-16
KR20220148245A (ko) 2022-11-04

Similar Documents

Publication Publication Date Title
JP7359969B2 (ja) ストリーミングシーケンスモデルの一貫性予測
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
US20220310065A1 (en) Supervised and Unsupervised Training with Contrastive Loss Over Sequences
JP2023546930A (ja) 言語間音声合成を改良するための音声認識の使用
US11823697B2 (en) Improving speech recognition with speech synthesis-based model adapation
JP7445089B2 (ja) シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr
JP2024510816A (ja) タイイングされ縮小されたrnn-t
US20230298565A1 (en) Using Non-Parallel Voice Conversion for Speech Conversion Models
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
US20220310061A1 (en) Regularizing Word Segmentation
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training
CN117597729A (zh) 推进文本和语音在具有一致性和对比损失的asr预训练中的使用

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230928

R150 Certificate of patent or registration of utility model

Ref document number: 7359969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150