JP2024512606A

JP2024512606A - 自己アライメントを用いたストリーミングａｓｒモデル遅延の短縮

Info

Publication number: JP2024512606A
Application number: JP2023558844A
Authority: JP
Inventors: ジェヨン・キム; ハン・ル; アンシュマン・トリパティ; チエン・ジャン; ハシム・サク
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-26
Filing date: 2021-12-15
Publication date: 2024-03-19
Also published as: CN117083668A; EP4295356A1; US20220310097A1; KR20230156425A; WO2022203735A1

Abstract

ストリーミング音声認識モデル(200)は、音響フレーム(110)のシーケンスを受信し、音響フレームのシーケンスにおける対応する音響フレームについての高次特徴表現(202)を生成するように構成されたオーディオエンコーダ(210)を含む。ストリーミング音声認識モデルはまた、最終ソフトマックス層(240)によって出力された非ブランク記号(242)のシーケンスを受信し、密な表現(222)を生成するように構成されたラベルエンコーダ(220)を含む。ストリーミング音声認識モデルはまた、オーディオエンコーダによって生成された高次特徴表現およびラベルエンコーダによって生成された密な表現を入力として受信し、あり得る音声認識仮説にわたる確率分布(232)を生成するように構成されたジョイントネットワーク(230)を含む。ここで、ストリーミング音声認識モデルは、自己アライメントを使用して、基準強制アライメントフレームから1フレーム左側のアライメント経路を促すことによって予測遅延を短縮するように訓練される。

Description

本開示は、自己アライメントを用いてストリーミング自動音声認識(ASR)モデル遅延を短縮することに関する。

オーディオ入力を得てテキストに書き起こすプロセスである自動音声認識(ASR)は、モバイルデバイスおよび他のデバイスによって使用される非常に重要な技術である。一般に、ASRは、オーディオ入力(たとえば、発話)を得てオーディオ入力をテキストに書き起こすことによって人が話したことの正確なトランスクリプションを提供することを試みる。現代のASRモデルは、ディープニューラルネットワークの継続的な開発に基づいて精度(たとえば、低い単語誤り率(WER))とレイテンシ(たとえば、ユーザの発話とトランスクリプションとの間の遅延)の両方が改善され続けている。現在ASRシステムを使用する際、ASRシステムが、リアルタイムに相当するかまたは場合によってはリアルタイムよりも速いが、正確でもあるストリーミング方式によって発話を復号することが要求される。しかし、遅延制約なしにシーケンス尤度を最適化するストリーミングエンドツーエンドモデルでは、このようなモデルが、より遠い将来のコンテキストを使用することによってモデルの予測を向上させるように学習することに起因して、オーディオ入力と予測テキストとの間に大きい遅延が生じる。

米国特許出願第17/210465号

本開示の一態様は、音響フレームのシーケンスを入力として受信し、複数の時間ステップの各々において、音響フレームのシーケンス内の対応する音響フレームについての高次特徴表現を生成するように構成されたオーディオエンコーダを含む、ストリーミング音声認識モデルを提供する。ストリーミング音声認識モデルはまた、ラベルエンコーダであって、最終ソフトマックス層によって出力された非ブランク記号のシーケンスを入力として受信し、複数の時間ステップの各々において、密な表現を生成するように構成されたラベルエンコーダを含む。ストリーミング音声認識モデルはまた、ジョイントネットワークであって、複数の時間ステップの各々においてオーディオエンコーダによって生成された高次特徴表現および複数の時間ステップの各々においてラベルエンコーダによって生成された密な表現を入力として受信し、複数の時間ステップの各々において、対応する時間ステップにおけるあり得る音声認識仮説にわたる確率分布を生成するように構成されたジョイントネットワークを含む。ここで、ストリーミング音声認識モデルは、自己アライメントを使用して、各訓練バッチについて、各時間ステップにおける基準強制アライメントフレームの1フレーム左側のアライメント経路を促すことによって予測遅延を短縮するように訓練される。

本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態では、ストリーミング音声認識モデルは、トランスフォーマ-トランスデューサモデルを含む。これらの実装形態では、オーディオエンコーダは、トランスフォーマ層のスタックを含んでもよく、各トランスフォーマ層は、正規化層と、相対位置符号化を伴うマスクされたマルチヘッドアテンション層と、残差接続、スタッキング/アンスタッキング層と、フィードフォワード層とを含む。ここで、スタッキング/アンスタッキング層は、対応するトランスフォーマ層のフレームレートを変更して訓練および推論の間にトランスフォーマ-トランスデューサモデルによる処理時間を調整するように構成されてもよい。いくつかの例では、ラベルエンコーダは、トランスフォーマ層のスタックを含み、各トランスフォーマ層は、正規化層と、相対位置符号化を伴うマスクされたマルチヘッドアテンション層と、残差接続、スタッキング/アンスタッキング層と、フィードフォワード層とを含む。

場合によっては、ラベルエンコーダは、bigram埋め込みルックアップデコーダモデルを含んでもよい。いくつかの例では、ストリーミング音声認識モデルは、リカレントニューラル-トランスデューサ(RNN-T)モデル、トランスフォーマ-トランスデューサモデル、畳み込みネットワーク-トランスデューサ(ConvNet-トランスデューサ)モデル、またはコンフォーマ-トランスデューサモデルのうちの1つを含む。自己アライメントを使用して予測遅延を短縮するようにストリーミング式音声認識モデルを訓練することは、外部アライナモデルを使用して復号グラフのアライメントを制約することなく自己アライメントを使用することを含んでもよい。いくつかの実装形態では、ストリーミング音声認識モデルは、ユーザデバイスまたはサーバ上で実行される。いくつかの例では、音響フレームのシーケンスにおける各音響フレームは、次元特徴ベクトルを含む。

本開示の別の態様は、データ処理ハードウェア上で実行されたときに、自己アライメントを使用して予測遅延を短縮するようにストリーミング音声認識モデルを訓練するための動作をデータ処理ハードウェアに実行させるコンピュータ実装方法を提供する。動作は、ストリーミング音声認識モデルへの入力として、発話に対応する音響フレームのシーケンスを受信することを含む。ストリーミング音声認識モデルは、音響フレームのシーケンスとラベルトークンの出力シーケンスとの間のアライメント確率を学習するように構成される。動作はまた、ストリーミング音声認識モデルからの出力として、発話についての音声認識結果を生成することを含む。音声認識結果は、復号グラフを使用してラベルトークンの出力シーケンスを生成することを含む。動作はまた、音声認識結果および発話のグランドトゥルーストランスクリプションに基づいて、音声認識モデル損失を生成することを含む。動作はまた、基準強制アライメントフレームを含む基準強制アライメント経路を復号グラフから取得することと、復号グラフから、基準強制アライメント経路における各基準強制アライメントフレームから左側の1フレームを識別することとを含む。動作はまた、基準強制アライメント経路における各強制アライメントフレームから左側の識別されたフレームに基づいてラベル遷移確率を合計することと、ラベル遷移確率の合計および音声認識モデル損失に基づいてストリーミング音声認識モデルを更新することを含む。

本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態では、動作は、ストリーミング音声認識モデルのオーディオエンコーダによって、複数の時間ステップの各々において音響フレームのシーケンスにおける対応する音響フレームについての高次特徴表現を生成することと、ストリーミング音声認識モデルのラベルエンコーダへの入力として、最終ソフトマックス層によって出力された非ブランク記号のシーケンスを受信することと、ラベルエンコーダによって、複数の時間ステップの各々において密な表現を生成することと、ストリーミング音声認識モデルのジョイントネットワークへの入力として、複数の時間ステップの各々においてオーディオエンコーダによって生成された高次特徴表現および複数の時間ステップの各々においてラベルエンコーダによって生成された密な表現を受信することと、ジョイントネットワークによって、複数の時間ステップの各々において、対応する時間ステップにおけるあり得る音声認識仮説にわたる確率分布を生成することとをさらに含む。いくつかの例では、ラベルエンコーダは、トランスフォーマ層のスタックを含み、各トランスフォーマ層は、正規化層と、相対位置符号化を伴うマスクされたマルチヘッドアテンション層と、残差接続、スタッキング/アンスタッキング層と、フィードフォワード層とを含む。ラベルエンコーダは、bigram埋め込みルックアップデコーダモデルを含んでもよい。

いくつかの実装形態では、ストリーミング音声認識モデルは、トランスフォーマ-トランスデューサモデルを含む。オーディオエンコーダは、トランスフォーマ層のスタックを含んでもよく、各トランスフォーマ層は、正規化層と、相対位置符号化を伴うマスクされたマルチヘッドアテンション層と、残差接続、スタッキング/アンスタッキング層と、フィードフォワード層とを含む。ここで、スタッキング/アンスタッキング層は、対応するトランスフォーマ層のフレームレートを変更して訓練および推論の間のトランスフォーマ-トランスデューサモデルによる処理時間を調整するように構成されてもよい。

いくつかの実装形態では、ストリーミング音声認識モデルは、リカレントニューラル-トランスデューサ(RNN-T)モデル、トランスフォーマ-トランスデューサモデル、畳み込みネットワーク-トランスデューサ(ConvNet-トランスデューサ)モデル、またはコンフォーマ-トランスデューサモデルのうちの1つを含む。ストリーミング音声認識モデルは、ユーザデバイスまたはサーバ上で実行されてもよい。いくつかの例では、動作は、外部アライナモデルを使用して復号グラフのアライメントを制約することなく、自己アライメントを使用して予測遅延を短縮するようにストリーミング式音声認識モデルを訓練することをさらに含む。

本開示の1つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになろう。

ストリーミング音声認識を実行するトランスデューサモデルを実装する音声環境の概略図である。例示的なトランスデューサモデルアーキテクチャの概略図である。自己アライメント経路および強制アライメント経路を示す例示的な復号グラフのプロットである。例示的なトランスフォーマアーキテクチャの概略図である。自己アライメントを用いてストリーミングASRモデル遅延を短縮する方法についての動作の例示的な構成のフローチャートである。本明細書で説明するシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面における同じ参照符号は同じ要素を示す。

自動音声認識(ASR)システムは、品質/精度(たとえば、単語誤り率(WER)が低い)だけでなく低レイテンシ(たとえば、ユーザの発話と出現するトランスクリプションとの間の遅延が短い)も実現することを対象としている。最近、精度およびレイテンシにおいて最新の性能を実現するうえでエンドツーエンド(E2E)ASRモデルが広く利用されている。別々の音響モデル、発音モデル、および言語モデルを含む従来のハイブリッドASRシステムとは対照的に、E2Eモデルは、シーケンスツーシーケンス手法を適用して、学習データ、たとえば、発話-トランスクリプション対、からエンドツーエンドで訓練される単一のニューラルネットワークにおいて、音響および言語モデリングを一緒に学習する。ここで、E2Eモデルは、アーキテクチャが完全にニューラルネットワークから構成されたモデルを指す。完全なニューラルネットワークは、外部の構成要素および/または手動で設計された構成要素(たとえば、有限状態トランスデューサ、辞書、またはテキスト正規化モジュール)なしに機能する。また、E2Eモデルを訓練する際、これらのモデルは一般に、決定木からのブートストラッピングも、別個のシステムからの時刻合わせも必要としない。

現在ASRシステムを使用する際、ASRシステムが、ユーザが発話するときに発話の記述をリアルタイムまたは場合によってはリアルタイムよりも速く表示することに相当するストリーミング方式で発話を復号することを要求される場合がある。一例として、ASRシステムが、直接的なユーザとの対話を経験する、たとえば携帯電話などのユーザコンピューティングデバイス上で表示されるとき、ユーザデバイス上で実行され、ASRシステムを使用するアプリケーション(たとえば、デジタルアシスタントアプリケーション)は、単語、ワードピース、および/または個々の文字が、発話されたときに画面上に表示されるように音声認識をストリーミングする必要がある。また、ユーザデバイスのユーザがレイテンシに対する低い許容度を有する可能性もある。たとえば、ユーザが、予定を調べるためにデジタルアシスタントにカレンダーアプリケーションから詳細情報を取り出すことを要求するクエリを発話するとき、ユーザは、デジタルアシスタントが取り出した詳細情報を伝える応答をできるだけ速く提供することを望む。このように許容度が低いことに起因して、ASRシステムは、ユーザの体験に悪影響を与える場合があるレイテンシおよび不正確さによる影響を最小限に抑えるようにユーザデバイス上で懸命に動作する。

再帰型ニューラルネットワークトランスデューサ(RNN-T)と呼ばれるシーケンスツーシーケンスモデルの1つの形態は、アテンション機構を使用せず、一般にシーケンス全体(オーディオ波形)を処理して出力(たとえば、文)を生成する必要がある他のシーケンスツーシーケンスモデルとは異なり、RNN-Tは連続的に入力サンプルを処理し、出力記号をストリーミングする。このことは、特にリアルタイム通信に魅力的である。たとえば、RNN-Tによる音声認識は、発話に応じて文字を1つずつ出力してもよい。ここで、RNN-Tは、モデルによって予測された記号をRNN-T自体に送るフィードバックループを使用して、次の記号を予測する。RNN-Tを復号することは、大規模なデコーダグラフではなく単一のニューラルネットワークによるビーム探索を含むので、RNN-Tはサーバベースの音声認識モデルのサイズの分数にスケーリングしてもよい。サイズ縮小によって、RNN-T全体をデバイス上に展開してもよく、オフラインで(すなわち、ネットワーク接続なしで)動作できる場合もあり、したがって、通信ネットワークとの信頼性欠如問題が回避される。長短期記憶(LSTM)を利用してシーケンスエンコーダを提供するRNN-Tモデルは、一般に会話クエリ(たとえば、「タイマをセットしてください」、「ミルクを買うのを忘れないでください」など)を認識するストリーミングトランスクリプション機能ならびにレイテンシの影響を受けるアプリケーションを提供するのに適しているが、オーディオテキストを先読みする能力が限られており、それによって、依然として、品質(たとえば、しばしば単語誤り率(WER)によって測定される音声認識精度)の点で最先端の会議モデル(たとえば、別々のAM、PM、およびLMを有するサーバベースモデル)およびアテンションベースのシーケンスツーシーケンスモデル(たとえば、リッスンアテンドスペル(LAS))に遅れを取っている。

近年、トランスフォーマ-トランスデューサ(T-T)およびコンフォーマ-トランスデューサ(C-T)モデルアーキテクチャが、それぞれのトランスフォーマ層またはコンフォーマ層でオーディオエンコーダおよび/または予測ネットワークにおけるLSTM層を置き換えることによってRNN-Tモデルアーキテクチャをさらに向上させるために導入されている。一般に、T-TおよびC-Tモデルアーキテクチャは、そのそれぞれのトランスフォーマ層またはコンフォーマ層において自己アテンションを計算する際に将来のオーディオフレーム(たとえば、右コンテキスト)にアクセスすることができる。したがって、T-TおよびC-Tモデルアーキテクチャは、将来の右コンテキストを利用して非ストリーミングトランスクリプションモードで動作して、レイテンシ制約が緩和されたときの音声認識性能を向上させ得る。すなわち、予測遅延の持続時間は、将来アクセスされるオーディオフレームの量に比例する。しかし、RNN-Tと同様に、T-TおよびC-Tモデルアーキテクチャは、自己アテンションが過去の音響フレーム(たとえば、左コンテキスト)にのみ依存するストリーミングトランスクリプションモードでも動作し得る。

トランスデューサモデル(たとえば、RNN-T、T-T、およびC-T)などのストリーミング音声認識モデルは、遅延制約なしにシーケンス尤度を最適化し、したがって、これらのモデルはより遠い将来のコンテキストを使用することによって予測を向上させるように学習するので、オーディオ入力と予測テキストとの間の遅延が大きい。予測遅延を短縮する最近の手法には、所定のしきい値遅延を超えるアライメント経路をマスクすることによって、外部アライメントモデルから取得されたオーディオアライメント情報に基づく単語境界にペナルティを科す制約アライメント技法が含まれる。この技法は、ストリーミングエンドツーエンドモデルのレイテンシを低減させるのに有効であるが、WER低下を最低限に抑えるには高精度の外部アライメントモデルが必要であり、それによって、モデル訓練ステップがさらに複雑になることがある。RNN-T復号グラフにおいて最も効率的な方向を選択することによって遅延を盲目的に短縮する他の技法はしばしば、アライメント情報の欠如に起因してすべてのオーディオ入力に最適であるとは限らない方向を選択し、それによって、遅延とWERのトレードオフ関係がさらに悪化することがある。

外部アライメントモデルを使用することまたは復号グラフから最も効率的な方向を選択することによって遅延を単に盲目的に短縮することに伴う欠点を軽減するために、本明細書の実装形態は、自己アライメントを使用することによってストリーミング音声認識モデルにおける予測遅延を短縮することを対象としている。特に、自己アライメントは、外部アライメントモデルを使用する必要がなく、また遅延を盲目的に最適化することもなく、その代わりに訓練された音声認識モデルから学習された基準強制アライメントを利用して遅延を短縮する最適な低レイテンシ方向を選択する。基準強制アライメントはビタビ強制アライメントを含んでもよい。すなわち、自己アライメントは常に、各時間ステップにおけるビタビ強制アライメントの1フレーム左側にある復号グラフにおける経路を特定する。自己アライメントは、遅延を制約するための既存の方式に勝る利点を有する。まず、自己アライメントでは外部アライメントモデルが必要とされないので、自己アライメントについての訓練の複雑さは教師あり方式よりもずっと低い。第2に、自己アライメントは、最も確率の高いアライメント経路のみを制約することによってASR訓練に与える影響が最低限である。これに対して、他の方式は、アライメント経路にマスクをかけるかまたはラベル遷移確率に対する重みを変更することによって、多くのアライメント経路に影響を及ぼす。遅延制約正則化項は主要ASR損失と対立するので、遅延と性能のトレードオフを最適化するうえで主要損失に対する介入を最小限に抑えることが重要である。自己アライメントは、単一の経路を左方向にプッシュすることによってその経路を正則化するにすぎない。

図1は、音声環境100の一例である。音声環境100では、ユーザデバイス10などのコンピューティングデバイスと対話するユーザ104の方法は音声入力を介したものであってもよい。ユーザデバイス10(一般にデバイス10とも呼ばれる)は、音声環境100内の1人または複数のユーザ104から音声(たとえば、ストリーミングオーディオデータ)を取り込むように構成される。ここで、ストリーミングオーディオデータは、可聴クエリ、デバイス10用のコマンド、デバイス10によって取り込まれる可聴通信として働くユーザ104による発話106を指すことがある。デバイス10の音声対応システムは、クエリに回答し、ならびに/または1つまたは複数の下流側アプリケーションによってコマンドを実行/完遂させることによってクエリまたはコマンドを処理してもよい。

ユーザデバイス10は、ユーザ104に関連する任意のコンピューティングデバイスに相当してもよく、オーディオデータを受信することができる。ユーザデバイス10のいくつかの例には、限定はしないが、モバイルデバイス(たとえば、携帯電話、タブレット、ラップトップなど)、コンピュータ、ウエアラブルデバイス(たとえば、スマートウォッチ)、スマート家電、モノのインターネット(IoT)デバイス、車両インフォテインメントシステム、スマートディスプレイ、スマートスピーカなどが含まれる。ユーザデバイス10は、データ処理ハードウェア12と、データ処理ハードウェア12と通信するメモリハードウェア14とを含み、データ処理ハードウェア12によって実行されたときにデータ処理ハードウェア12に1つまたは複数の動作を実行させる命令を記憶する。ユーザデバイス10は、音声環境100内の発話106を取り込んで電気信号に変換するための音声取り込みデバイス(たとえば、マイクロフォン)16、16aと、可聴オーディオ信号を(たとえば、デバイス10からの出力オーディオデータとして)通信するための音声出力デバイス(たとえば、スピーカ)16、16bを有するオーディオシステム16をさらに含む。ユーザデバイス10は、図示の例では単一の音声取り込みデバイス16aを実装しているが、ユーザデバイス10は、本開示の範囲から逸脱せずに音声取り込みデバイス16aのアレイを実装してもよく、アレイ内の1つまたは複数の取り込みデバイス16aはユーザデバイス10上に物理的に存在せずに、オーディオシステム16と通信してよい。

音声環境100では、自動音声認識(ASR)システム118トランスデューサモデル200は、ユーザ104のユーザデバイス10上および/またはネットワーク40を介してユーザデバイス10と通信するリモートコンピューティングデバイス60(たとえば、クラウド-コンピューティング環境において実行される分散システムの1つまたは複数のリモートサーバ)上に存在する。ユーザデバイス10および/またはリモートコンピューティングデバイス60はまた、音声取り込みデバイス16aによって取り込まれるユーザ104による発話106を受信し、発話106を、ASRシステム118によって処理することのできる入力音響フレーム110に関連する対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム108を含む。図示の例では、ユーザは、それぞれの発話106を発し、オーディオサブシステム108は、発話106をASRシステム118に入力される対応するオーディオデータ(たとえば、音響フレーム)110に変換する。その後、トランスデューサモデル200は、発話106に対応するオーディオデータ110を入力として受信し、発話106の対応するトランスクリプション120(たとえば、認識結果/仮説)を出力として生成/予測する。トランスデューサモデル200は、先読みオーディオにアクセスすることができないストリーミング音声認識モデル結果を提供し、したがって、ユーザ104が発話106を発しているときにリアルタイムにストリーミングトランスクリプション機能を提供する。たとえば、ユーザデバイス10上で実行されるデジタルアシスタントアプリケーション50は、単語、ワードピース、および/または個々の文字が、発話されたときに画面上に表示されるように音声認識をストリーミングすることが必要になる場合がある。

ユーザデバイス10および/またはリモートコンピューティングデバイス60はまた、発話106のトランスクリプション120の表現をユーザデバイス10のユーザ104に提示するように構成されたユーザインターフェース生成器107を実行する。以下に詳しく説明するように、ユーザインターフェース生成器107は、時間1の間部分音声認識結果120aをストリーミング方式で表示し、その後、時間2の間最終音声認識結果120bを表示してもよい。いくつかの構成では、ASRシステム118から出力されたトランスクリプション120は、たとえば、ユーザデバイス10またはリモートコンピューティングデバイス60上で実行される自然言語理解(NLU)モジュールによって処理され、発話106によって指定されたユーザコマンド/クエリを実行する。追加または代替として、テキストツースピーチシステム(図示せず)(たとえば、ユーザデバイス10またはリモートコンピューティングデバイス60の任意の組合せ上で実行される)は、トランスクリプションをユーザデバイス10および/または別のデバイスによる可聴出力用の合成音声に変換してもよい。

図示の例では、ユーザ104は、ASRシステム118を使用するユーザデバイス10のプログラムまたはアプリケーション50(たとえば、デジタルアシスタントアプリケーション50)と対話する。たとえば、図1は、ユーザ104がデジタルアシスタントアプリケーション50と通信し、デジタルアシスタントアプリケーション50が、ユーザデバイス10の画面上にデジタルアシスタントインターフェース18を表示していることを示し、ユーザ104とデジタルアシスタントアプリケーション50との会話を示している。この例では、ユーザ104は、デジタルアシスタントアプリケーション50に「今夜のコンサートは何時ですか」と尋ねる。ユーザ104からのこの質問は、音声取り込みデバイス16aによって取り込まれ、ユーザデバイス10のオーディオシステム16によって処理される発話106である。この例では、オーディオシステム16は、発話106を受信して、ASRシステム118に入力される音響フレーム110に変換する。

引き続き例について説明すると、トランスデューサモデル200は、ユーザ104が発話するときに発話106に対応する音響フレーム110を受信する間、音響フレーム110を符号化し、次いで、符号化された音響フレーム110を部分音声認識結果120aに復号する。時間1の間に、ユーザインターフェース生成器107は、デジタルアシスタントインターフェース18を介して、発話106の部分音声認識結果120aの表現をストリーミング方式でユーザデバイス10のユーザ104に提示し、それによって、単語、ワードピース、および/または個々の文字が、発話されたときに画面上に表示される。いくつかの例では、第1の先読みオーディオコンテキストはゼロに等しい。

時間2の間に、ユーザインターフェース生成器107は、デジタルアシスタントインターフェース18を介して、発話106の最終音声認識結果120bの表現をユーザデバイス10のユーザ104に提示する。最終音声認識結果120bは、単に、ユーザが発話を終了したときの部分音声認識結果120aであってもよい。場合によっては、ASRシステム118は、部分音声認識結果をリスコアするために別の音声認識を含み、かつ/または外部言語モデルを使用してもよい。場合によっては、同じトランスデューサモデル200が、ユーザが発話を終了した後に再びオーディオを処理し、その代わりに右先読みオーディオコンテキストを利用して最終音声認識結果120bを生成してもよい。本開示は、最終音声認識結果120bがどのように取得されるかには関連せず、その代わりにトランスデューサモデル200によって出力されるストリーミング部分音声認識結果120aにおける遅延の制限を対象とする。

図1に示す例では、デジタルアシスタントアプリケーション50は、自然言語処理を使用してユーザ104によって提示される質問に応答してもよい。自然言語処理は一般に、書かれた言語(たとえば、部分音声認識結果120aおよび/または最終音声認識結果120b)を解釈し、書かれた言語が何らかのアクションを促しているかどうかを判定するプロセスを指す。この例では、デジタルアシスタントアプリケーション50は、自然言語処理を使用して、ユーザ104からの質問がユーザのスケジュールに関する質問であり、より詳細にはユーザのスケジュール上のコンサートに関する質問であることを認識する。自然言語処理によってこのような詳細情報を認識することによって、自動化されたアシスタントは、ユーザのクエリに対する応答19を返し、この場合、応答19には、「会場は午後6時半に開場になり、コンサートは8時から始まります」と提示される。いくつかの構成では、自然言語処理は、ユーザデバイス10のデータ処理ハードウェア12と通信するリモートサーバ60上で行われる。

図2を参照すると、トランスデューサモデル200は、音響モデル、発音モデル、および言語モデルを単一のニューラルネットワークに組み込むことによってエンドツーエンド(E2E)音声認識を可能にしてもよく、この場合、辞書も別個のテキスト正規化構成要素も必要とされない。様々な構造および最適化機構が、精度を高め、モデル訓練時間を短縮することができる。図示の例では、トランスデューサモデル200は、トランスフォーマ-トランスデューサ(T-T)モデルアーキテクチャを含み、トランスフォーマ-トランスデューサ(T-T)モデルアーキテクチャは、対話型アプリケーションに関連付けられたレイテンシ制約を順守する。T-Tモデル200は、計算フットプリントが小さく、かつ従来のASRアーキテクチャよりもメモリ要件が少なく、それによって、T-Tモデルアーキテクチャはユーザデバイス10全体に対して音声認識を実行するのに適している(たとえば、リモートサーバ60との通信は必要とされない)。T-Tモデル200は、オーディオエンコーダ210と、ラベルエンコーダ220と、ジョイントネットワーク230とを含む。オーディオエンコーダ210は、従来のASRシステムにおける音響モデル(AM)に概略的に類似しており、複数のトランスフォーマ層を有するニューラルネットワークを含む。たとえば、オーディオエンコーダ210は、d次元特徴ベクトル(たとえば、音響フレーム110(図1))のシーケンスx = (x₁, x₂, ..., x_T)を読み取り、ここで
であり、オーディオエンコーダ210は、各時間ステップにおいて高次特徴表現202を生成する。この高次特徴表現202はah₁, ..., ah_Tとして示される。例示的なトランスフォーマ-トランスデューサモデルアーキテクチャは、2021年3月23日に出願された米国特許出願第17/210465号に記載されており、この出願は、参照によりその全体が本明細書に組み込まれている。

同様に、ラベルエンコーダ220はまた、トランスフォーマ層のニューラルネットワークまたはルックアップテーブル埋め込みモデルを含んでもよく、ルックアップテーブル埋め込みモデルは、言語モデル(LM)と同様に、これまで最終ソフトマックス層240によって出力されている非ブランク記号242のシーケンスy₀, ..., y_ui-1を、予測されたラベル履歴を符号化する密な表現222(たとえば、Ih_uとして示される)として処理する。ラベルエンコーダ220がトランスフォーマ層のニューラルネットワークを含む実装形態では、各トランスフォーマ層は、正規化層と、相対位置符号化を伴うマスクされたマルチヘッドアテンション層と、残差接続と、フィードフォワード層と、ドロップアウト層とを含んでもよい。これらの実装形態では、ラベルエンコーダ220は、2つのトランスフォーマ層を含んでもよい。ラベルエンコーダ220がbi-gramラベルコンテキストを有するルックアップテーブル埋め込みモデルを含む実装形態では、埋め込みモデルは、各々のあり得るbigramラベルコンテキストについてd次元の重みベクトルを学習するように構成され、dは、オーディオエンコーダ210およびラベルエンコーダ220の出力の次元である。いくつかの例では、埋め込みモデルにおけるパラメータの総数はN²×dであり、ここで、Nはラベルについての語彙サイズである。ここで、学習された重みベクトルは次いで、高速ラベルエンコーダ220実行時間を生成するためにT-Tモデル200におけるbigramラベルコンテキストの埋め込みとして使用される。

最後に、T-Tモデルアーキテクチャでは、オーディオエンコーダ210およびラベルエンコーダ220によって生成された表現が、密な層(Dense Layer)J_u,tを使用してジョイントネットワーク230によって組み合わされる。ジョイントネットワーク230は次いで、次式のように次の出力記号にわたるアライメント分布(たとえば、アライメント確率232)を予測する。
Pr(z_u,t|x,t,y₁,…, y_u-1) (1)
上式において、xはオーディオ入力であり、yはグランドトゥルースラベルシーケンスであり、zは、yに属するアライメントである。別の言い方をすれば、ジョイントネットワーク230は、各出力ステップ(たとえば、時間ステップ)において、あり得る音声認識仮説にわたる確率分布232を生成する。ここで、「あり得る音声認識仮説」は、指定された自然言語における書記素(たとえば、記号/文字)またはワードピースを各々が表す出力ラベル(「音声単位」とも呼ばれる)のセットに対応する。たとえば、自然言語が英語であるとき、出力ラベルのセットは、27個の記号、たとえば英語のアルファベットにおける26個の文字各々に1つのラベルおよびスペースを指定する1つのラベルを含んでもよい。したがって、ジョイントネットワーク230は、出力ラベルの所定のセットの各々の発生尤度を示す値のセットを出力してもよい。この値のセットは、ベクトルとすることができ(たとえば、ワンホットベクトル)、出力ラベルのセットにわたる確率分布を示すことができる。場合によっては、出力ラベルは、書記素(たとえば、個々の文字、ならびに場合によっては句読点および他の記号)であるが、出力ラベルのセットはそのように限定されない。たとえば、出力ラベルのセットは、書記素に加えてまたは書記素の代わりに、ワードピースおよび/または単語全体を含むことができる。ジョイントネットワーク230の出力分布は、それぞれに異なる出力ラベルの各々についての事後確率値を含むことができる。したがって、それぞれに異なる書記素または他の記号を表す100個の異なる出力ラベルがある場合、ジョイントネットワーク230の出力z_u,tは、各出力ラベルに1つずつ、100個の異なる確率値を含むことができる。次いで、確率分布を使用して(たとえば、ソフトマックス層240による)ビーム探索プロセスにおいてスコアを選択して、候補直交要素(たとえば、書記素、ワードピース、および/または単語)に割り当ててトランスクリプション120を判定することができる。

ソフトマックス層240は、任意の技法を使用して、分布における最高確率を有する出力ラベル/記号を、対応する出力ステップにおいてT-Tモデル200によって予測される次の出力記号242として選択してもよい。したがって、T-Tモデル200によって予測される出力記号242の集合は、集合的にラベルトークン242の出力シーケンスと呼ばれることがある。このようにして、T-Tモデル200は、条件付き独立仮定を行わず、各記号の予測は、音響だけでなくこれまでに出力されているラベルのシーケンスを条件とする。

オーディオ入力xが与えられた場合にyの対数条件付き確率を決定するには、次式のようにyに対応するすべてのアライメント分布を合計する。
上式において、マッピングKはzにおけるブランク記号を削除する。式2のこの対数全アライメント確率は、次式のようにフォワードバックワードアルゴリズムを使用して効率的に計算され得るターゲット損失関数を含む。
Pr(y|x)=α(T,U) (3)
α(t,u)= α(t-1,u-1)Pr(φ|t-1,u)+α(t,u-1)Pr(y_u|t,u-1) (4)
上式において、Pr(φ|t-1,u)およびPr(y_u|t,u-1)はそれぞれ、ブランク確率およびラベル確率であり、TおよびUはオーディオシーケンス長およびラベルシーケンス長である。

図2は、T-Tモデルアーキテクチャを含むトランスデューサモデル200を示しているが、トランスデューサモデル200は、本開示の範囲から逸脱せずに、RNN-Tモデルアーキテクチャ、畳み込みニューラルネットワーク-トランスデューサ(CNN-トランスデューサ)モデルアーキテクチャ、畳み込みネットワークトランスデューサ(ConvNet-トランスデューサ)モデル、またはコンフォーマ-トランスデューサモデルアーキテクチャを含んでもよい。例示的なCNN-トランスデューサモデルアーキテクチャは、"Contextnet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context," https://arxiv.org/abs/2005.03191に詳細に記載されており、この内容は、参照により全体的に本明細書に組み込まれる。例示的なコンフォーマ-トランスデューサモデルアーキテクチャは、"Conformer: Convolution-augmented transformer for speech recognition," https://arxiv.org/abs/2005.08100に詳細に記載されており、この内容は、参照により全体的に本明細書に組み込まれる。

トランスデューサモデル200は、対応するトランスクリプションと対にされた発話に対応するオーディオデータの学習データセットに対して訓練される。トランスデューサモデル200の訓練は、リモートサーバ60上で行われてもよく、訓練済みのトランスデューサモデル200はユーザデバイス10にプッシュされてもよい。トランスデューサモデル200は、ビタビ強制アライメントに基づくクロスエントロピー誤差を用いて訓練される。アライメント遅延は、入力オーディオフレームとストリーム処理された復号出力ラベルとの間の遅延を含む。従来のモデルは、再整合されたラベルを用いて対話によって整合モデルを訓練するので、複数の反復の後に正確なアライメントを学習することができる。それぞれのトランスフォーマ層またはコンフォーマ層において自己アテンションを計算する際に将来のフレームにアクセスするT-TモデルまたはC-Tモデルは、従来のモデルと一致するアライメント遅延を含むことがある。しかし、自己アテンションが過去のフレームにのみ依存するストリーミングモードにおけるトランスデューサモデルでは、アライメント遅延が生じる。

本明細書の実装形態は、自己アライメントを使用することによってストリーミングトランスデューサモデル200における予測遅延を短縮することを対象とする。特に、自己アライメントは、外部アライメントモデルを使用する必要がなく、また遅延を盲目的に最適化することもなく、その代わりに訓練された音声認識モデルから学習された基準強制アライメントを利用して遅延を短縮する最適な低レイテンシ方向を選択する。基準強制アライメントはビタビ強制アライメントを含んでもよい。すなわち、自己アライメントは常に、各時間ステップにおけるビタビ強制アライメントの1フレーム左側にある復号グラフにおける経路を特定する。

図3は、ラベルトークン242の出力シーケンス(図2)「私はそれが好きです」についてのT-Tモデルアーキテクチャを有するトランスデューサモデル200についての復号グラフ300のプロットを示す。x軸は、各時間ステップにおけるそれぞれの音響フレームを示し、y軸は、出力ラベルトークン242(図2)を示す。太い実線ではない円および矢印は、後述のアライメント経路に含まれないそれぞれのトークンを表す。制約アライメント経路310(図3に示されるような太線の円および太線の矢印によって表現される)は、2に等しい単語境界しきい値を含む。訓練されたトランスデューサモデル200から学習された強制アライメント経路320(たとえば、図3に示されるような点線の円および点線の矢印によって表現される)(基準強制アライメント経路320とも呼ばれる)および左アライメント経路330(たとえば、破線の円によって表現される)は、強制アライメント経路320のあらゆるフレームの左側の1フレームを含む。トランスデューサモデル200の訓練の間、各訓練バッチについて、自己アライメントは、常にモデルの強制アライメント経路320を左方向にプッシュすることによって左アライメント経路330(図3に示されるような破線の円および破線の矢印によって表現される)を促す。訓練損失は、次式のように表されてもよい。
上式において、λは、左アライメント尤度についての重み付け係数であり、t_uは、u番目のラベル/トークンにおける左アライメントについてのフレームインデックスである。

図4は、オーディオエンコーダ210の複数のトランスフォーマ層の間の例示的なトランスフォーマ層400を示す。ここで、各時間ステップの間に、初期トランスフォーマ層400は、対応する音響フレーム110を入力として受信し、次のトランスフォーマ層400によって入力として受信される対応する出力表現/埋め込み450を生成する。すなわち、初期トランスフォーマ層400に続く各トランスフォーマ層400は、直前のトランスフォーマ層400によって出力として生成された出力された表現/埋め込みに対応する入力された埋め込み450を受信してもよい。最終トランスフォーマ層400(たとえば、最終スタック320における最後のトランスフォーマ層)は、複数の時間ステップの各々において、対応する音響フレーム110についての高次特徴表現202(たとえば、図2に関連してah_tによって表現される)を生成する。

ラベルエンコーダ220(図2)への入力は、それまでに最終ソフトマックス層240によって出力されている非ブランク記号のシーケンスy₀, ..., y_ui-1を示すベクトル(たとえば、ワンホットベクトル)を含んでもよい。したがって、ラベルエンコーダ220がトランスフォーマ層を含むとき、初期トランスフォーマ層は、ワンホットベクトルをルックアップテーブルに通すことにより、入力された埋め込み111を受信してもよい。

オーディオエンコーダ210の各トランスフォーマ層400は、正規化層404と、相対位置符号化を伴うマスクされたマルチヘッドアテンション層406と、残差接続408と、スタッキング/アンスタッキング層410と、フィードフォワード層412とを含む。相対位置符号化を伴うマスクされたマルチヘッドアテンション層406は、T-Tモデル200が使用する先読みオーディオコンテキストの量(すなわち、持続時間)を制御する柔軟な方法を提供する。具体的には、正規化層404が音響フレーム110および/または入力された埋め込み111を正規化した後、マスクされたマルチヘッドアテンション層406は、すべてのヘッドについて入力をある値に投射する。その後、マスクされたマルチヘッド層406は、現在の音響フレーム110の先行フレームにアテンションスコアをマスクして、前の音響フレーム110のみを条件とする出力を生成してもよい。次いで、すべてのヘッドについての加重平均された値が連結されて、密な層2 416に渡され、そこで残差接続414が、正規化された入力および密な層416の出力に追加され、相対位置符号化を伴うマルチヘッドアテンション層406の最終出力が形成される。残差接続408は、加算器430により正規化層404の出力に追加され、マスクされたマルチヘッドアテンション層406またはフィードフォワード層412のそれぞれへの入力として提供される。スタッキング/アンスタッキング層410を使用してトランスフォーマ層400ごとにフレームレートを変更して訓練および推論を加速することができる。

フィードフォワード層412は、正規化層404を適用し、その後、密な層1 420、正規化線形層(ReLu)418、および密な層2 416に順に適用される。ReLu 418は密な層1 420の出力に対する活性化として使用される。相対位置符号化を伴うマルチヘッドアテンション層406と同様に、正規化層404からの出力の残差接続414が、加算器430により密な層2 416の出力に加えられる。

図5は、自己アライメントを使用して予測遅延を短縮するようにストリーミング式音声認識モデルを訓練する方法500についての動作の例示的な構成のフローチャートを示す。方法は、動作502において、ストリーミング音声認識モデル(たとえば、トランスデューサモデル)200への入力として、発話106に対応する音響フレーム110のシーケンスを受信することを含む。ストリーミング音声認識モデル200は、音響フレーム110のシーケンスとラベルトークン242の出力シーケンスとの間のアライメント確率232を学習するように構成される。方法500は、動作504において、ストリーミング音声認識モデル200からの出力として、復号グラフ300を使用して、ラベルトークン242の出力シーケンスを含む発話106についての音声認識結果120を生成することを含む。方法500は、動作506において、音声認識結果120および発話106のグランドトゥルーストランスクリプションに基づいて音声認識モデル損失を生成することを含む。

方法500は、動作508において、復号グラフ300から基準強制アライメント経路320を取得することを含む。方法500は、動作510において、復号グラフ300から、基準強制アライメント経路320における各基準強制アライメントフレームから左側の1フレームを識別することを含む。方法500は、動作512において、各強制アライメントフレームから左側の識別されたフレームに基づいてラベル遷移確率を合計することを含む。方法500は、動作514において、ラベル遷移確率の合計および音声認識モデル損失に基づいてストリーミング音声認識モデル200を更新することを含む。

図6は、本明細書で説明するシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものにすぎないことが意図されており、本明細書において説明および/または請求する本発明の実装形態を制限することは意図されていない。

コンピューティングデバイス600は、プロセッサ610と、メモリ620と、記憶デバイス630と、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640と、低速バス670および記憶デバイス630に接続する低速インターフェース/コントローラ660とを含む。構成要素610、620、630、640、650、および660の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に取り付けられてもよくまたは必要に応じて他の方法で取り付けられてもよい。プロセッサ610は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を高速インターフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上に表示するためにメモリ620内または記憶デバイス630上に記憶された命令を含む、コンピューティングデバイス600内で実行される命令を処理することができる。他の実装形態では、必要に応じて、複数のプロセッサおよび/または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに使用されてもよい。また、複数のコンピューティングデバイス600を、各デバイスが必要な動作の一部を行うように接続してもよい(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステム)。

メモリ620は、情報を非一時的にコンピューティングデバイス600内に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ620は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)をコンピューティングデバイス600によって使用できるように一時的または持続的に記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例には、限定はしないが、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラム可能な読み取り専用メモリ(PROM)/消去可能プログラム可能な読み取り専用メモリ(EPROM)/電子的に消去可能プログラム可能な読み取り専用メモリ(EEPROM)(たとえば、ブートプログラムなどのファームウェアに一般に使用される)が含まれる。揮発性メモリの例には、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタチックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープが含まれる。

記憶デバイス630は、コンピューティングデバイス600用の大容量記憶装置を提供することができる。いくつかの実装形態では、記憶デバイス630は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光学ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様の固体状態メモリデバイス、または記憶領域ネットワークもしくは他の構成内のデバイスを含むデバイスのアレイであってもよい。追加の実装形態では、コンピュータプログラム製品は情報キャリアにおいて実際に具現化される。コンピュータプログラム製品は、実行されたときに、上記で説明したような1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ620、記憶デバイス630、またはプロセッサ610上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ640は、コンピューティングデバイス600用の帯域幅集約動作を管理し、一方、低速コントローラ660はより低い帯域幅集約動作を管理する。デューティのそのような割り振りは例示的なものにすぎない。いくつかの実装形態では、高速コントローラ640は、メモリ620、ディスプレイ680(たとえば、グラフィックスプロセッサまたは加速器を介して)、および高速拡張ポート650に結合される。高速拡張ポート650は様々な拡張カード(図示せず)を受け入れてもよい。いくつかの実装形態では、低速コントローラ660は、記憶デバイス630および低速拡張ポート690に結合される。低速拡張ポート690は、様々な通信ポート(たとえば、USB、Bluetooth、Ethernet、ワイヤレスEthernet)を含んでもよく、たとえば、ネットワークアダプタを介してキーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータなどのネットワーキングデバイスなどの1つまたは複数の入力/出力デバイスに結合されてもよい。

コンピューティングデバイス600は、図示するようにいくつかの異なる方法で実装されてもよい。たとえば、コンピューティングデバイス600は、標準的なサーバ600aとして、またはそのようなサーバ600aのグループ内で複数回実装されても、ラップトップコンピュータ600bとして実装されても、ラックサーバシステム600cの一部として実装されてもよい。

本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電気および/または光学回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および/または解釈可能である1つまたは複数のコンピュータプログラム内の実装を含むことができる。プログラム可能なプロセッサは、専用のものであっても、汎用的なものであってもよく、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスとの間でデータおよび命令の受信および送信を行うように結合されてもよい。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションには、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム維持アプリケーション、文書処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションが含まれる。

非一時的メモリは、コンピューティングデバイスによって使用できるように一時的または持続的にプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであってもよい。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能半導体メモリであってもよい。不揮発性メモリの例には、限定はしないが、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラム可能な読み取り専用メモリ(PROM)/消去可能プログラム可能な読み取り専用メモリ(EPROM)/電子的に消去可能プログラム可能な読み取り専用メモリ(EEPROM)(たとえば、ブートプログラムなどのファームウェアに一般に使用される)が含まれる。揮発性メモリの例には、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタチックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープが含まれる。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能なプロセッサ用の機械命令を含み、高レベル手続き言語および/もしくはオブジェクト指向プログラミング言語、ならびに/またはアセンブリ/機械言語で実装することができる。本明細書では、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令および/またはデータをプログラム可能プロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラム可能プロセッサに提供するために使用される任意の信号を指す。

本明細書に記載されたプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれ、1つまたは複数のコンピュータプログラムを実行して入力データに作用して出力を生成することによって機能を実行する、1つまたは複数のプログラム可能プロセッサによって実行することができる。プロセスおよび論理フローは、特殊目的論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行することもできる。コンピュータプログラムを実行するのに適したプロセッサには、一例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読み取り専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、および命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するために1つもしくは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクを含むか、あるいは1つもしくは複数の大容量記憶デバイスからデータを受信するかまたは大容量記憶デバイスにデータを転送するか、またはその両方を行うように動作可能に結合される。しかし、コンピュータはそのようなデバイスを有さなくてもよい。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体には、すべての形態の不揮発性メモリ、メディアおよびメモリデバイスが含まれ、一例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内部ハードディスクまたは取り外し可能ディスク、光磁気ディスク、ならびにCD ROMおよびDVD ROMディスクが挙げられる。プロセッサおよびメモリは、専用論理回路によって補助するか、または専用論理回路に組み込むことができる。

ユーザとの対話を可能にするように、本開示の1つまたは複数の態様は、ユーザに情報を表示するための表示デバイス、たとえば、CRT(陰極管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、場合によっては、ユーザが入力をコンピュータに提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有するコンピュータ上に実装することができる。他の種類のデバイスを使用してユーザとの対話を可能にすることもできる。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信することができる。また、コンピュータは、ユーザによって使用されているデバイスにドキュメントを送信し、そのデバイスからドキュメントを受信することによってユーザと対話することができる、たとえば、ウェブブラウザから受信された要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによってユーザと対話することができる。

いくつかの実装形態について説明した。それにもかかわらず、本開示の趣旨および範囲から逸脱せずに様々な修正を施してもよいことが理解されよう。したがって、他の実装形態が以下の特許請求の範囲の範囲内にある。

1、2 時間
10 ユーザデバイス
12 データ処理ハードウェア
14 メモリハードウェア
16 オーディオシステム
16a 音声取り込みデバイス
16b 音声出力デバイス
18 デジタルアシスタントインターフェース
19 応答
50 デジタルアシスタントアプリケーション
60 リモートコンピューティングデバイス
100 音声環境
104 ユーザ
106 発話
107 ユーザインターフェース生成器
108 オーディオサブシステム
110 音響フレーム、オーディオデータ
111 入力された埋め込み
118 ASRシステム
120 トランスクリプション
120a 部分音声認識結果
120b 最終音声認識結果
200 T-Tモデル、トランスデューサモデル
202 高次特徴表現
210 オーディオエンコーダ
220 ラベルエンコーダ
230 ジョイントネットワーク
232 アライメント確率
240 ソフトマックス層
242 出力記号、非ブランク記号、ラベルトークン
300 復号グラフ
310 アライメント経路
320 強制アライメント経路
330 左アライメント経路
400 トランスフォーマ層
404 正規化層
406 マスクされたマルチヘッドアテンション層
408、414 残差接続
410 スタッキング/アンスタッキング層
412 フィードフォワード層
416、420 密な層
418 正規化線形層
430 加算器
450 出力表現/埋め込み
600 コンピューティングデバイス
600a サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 記憶デバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート

Claims

ストリーミング音声認識モデル(200)であって、
オーディオエンコーダ(210)であって、
音響フレーム(110)のシーケンスを入力として受信し、
複数の時間ステップの各々において、前記音響フレーム(110)のシーケンスにおける対応する音響フレーム(110)についての高次特徴表現(202)を生成する
ように構成された、オーディオエンコーダ(210)と、
ラベルエンコーダ(220)であって、
最終ソフトマックス層(240)によって出力された非ブランク記号(242)のシーケンスを入力として受信し、
前記複数の時間ステップの各々において、密な表現(222)を生成する
ように構成された、ラベルエンコーダ(220)と、
ジョイントネットワーク(230)であって、
前記複数の時間ステップの各々において前記オーディオエンコーダ(210)によって生成された前記高次特徴表現(202)および前記複数の時間ステップの各々において前記ラベルエンコーダ(220)によって生成された前記密な表現(222)を入力として受信し、
前記複数の時間ステップの各々において、対応する時間ステップにおけるあり得る音声認識仮説にわたる確率分布(232)を生成する
ように構成された、ジョイントネットワーク(230)とを備え、
前記ストリーミング音声認識モデル(200)は、自己アライメントを使用して、各訓練バッチについて、各時間ステップにおける基準強制アライメントフレームの1フレーム左側のアライメント経路を促すことによって予測遅延を短縮するように訓練される、音声認識モデル(200)。
前記ストリーミング音声認識モデル(200)は、トランスフォーマ-トランスデューサモデルを備える、請求項1に記載の音声認識モデル(200)。
前記オーディオエンコーダ(210)は、トランスフォーマ層(400)のスタックを備え、各トランスフォーマ層(400)は、
正規化層(404)と、
相対位置符号化を伴うマスクされたマルチヘッドアテンション層(406)と、
残差接続(408)と、
スタッキング/アンスタッキング層(410)と、
フィードフォワード層(412)とを備える、請求項2に記載の音声認識モデル(200)。
前記スタッキング/アンスタッキング層(410)は、対応するトランスフォーマ層(400)のフレームレートを変更して訓練および推論の間の前記トランスフォーマ-トランスデューサモデルによる処理時間を調整するように構成される、請求項3に記載の音声認識モデル(200)。
前記ラベルエンコーダ(220)は、トランスフォーマ層(400)のスタックを備え、各トランスフォーマ層(400)は、
正規化層(404)と、
相対位置符号化を伴うマスクされたマルチヘッドアテンション層(406)と、
残差接続(408)と、
スタッキング/アンスタッキング層(410)と、
フィードフォワード層(412)とを備える、請求項2から4のいずれか一項に記載の音声認識モデル(200)。
前記ラベルエンコーダ(220)は、bigram埋め込みルックアップデコーダモデルを備える、請求項1から5のいずれか一項に記載の音声認識モデル(200)。
前記ストリーミング音声認識モデル(200)は、
リカレントニューラル-トランスデューサ(RNN-T)モデル、
トランスフォーマ-トランスデューサモデル、
畳み込みネットワーク-トランスデューサ(ConvNet-トランスデューサ)モデル、または
コンフォーマ-トランスデューサモデル、のうちの1つを含む、請求項1から6のいずれか一項に記載の音声認識モデル(200)。
自己アライメントを使用して予測遅延を短縮するように前記ストリーミング音声認識モデル(200)を訓練することは、外部アライナモデルを使用して復号グラフ(300)のアライメントを制約することなく自己アライメントを使用することを含む、請求項1から7のいずれか一項に記載の音声認識モデル(200)。
前記ストリーミング音声認識モデル(200)は、ユーザデバイス(10)またはサーバ(60)上で実行される、請求項1から8のいずれか一項に記載の音声認識モデル(200)。
前記音響フレーム(110)のシーケンスにおける各音響フレーム(110)は、次元特徴ベクトルを備える、請求項1から9のいずれか一項に記載の音声認識モデル(200)。
データ処理ハードウェア(12)上で実行されたときに、自己アライメントを使用して予測遅延を短縮するようにストリーミング音声認識モデル(200)を訓練するための動作を前記データ処理ハードウェア(12)に実行させるコンピュータ実装方法(500)であって、前記動作は、
前記ストリーミング音声認識モデル(200)への入力として、発話(106)に対応する音響フレーム(110)のシーケンスを受信することであって、前記ストリーミング音声認識モデル(200)は、前記音響フレーム(110)のシーケンスとラベルトークン(242)の出力シーケンスとの間のアライメント確率を学習するように構成される、受信することと、
前記ストリーミング音声認識モデル(200)からの出力として、復号グラフ(300)を使用して、前記発話(106)についての音声認識結果(120)を生成することであって、前記音声認識結果(120)は、ラベルトークン(242)の出力シーケンスを含む、生成することと、
前記音声認識結果(120)および前記発話(106)のグランドトゥルーストランスクリプションに基づいて、音声認識モデル損失を生成することと、
基準強制アライメントフレームを含む基準強制アライメント経路(320)を前記復号グラフ(300)から取得することと、
復号グラフ(300)から、前記基準強制アライメント経路(320)における各基準強制アライメントフレームから左側の1フレームを識別することと、
前記基準強制アライメント経路(320)における各強制アライメントフレームから左側の前記識別されたフレームに基づいてラベル遷移確率を合計することと、
前記ラベル遷移確率の前記合計および前記音声認識モデル損失に基づいて前記ストリーミング音声認識モデル(200)を更新することとを含む、コンピュータ実装方法(500)。
前記動作は、
前記ストリーミング音声認識モデル(200)のオーディオエンコーダ(210)によって、複数の時間ステップの各々において、前記音響フレーム(110)のシーケンスにおける対応する音響フレーム(110)についての高次特徴表現(202)を生成することと、
前記ストリーミング音声認識モデル(200)のラベルエンコーダ(220)への入力として、最終ソフトマックス層によって出力された非ブランク記号(242)のシーケンスを受信することと、
前記ラベルエンコーダ(220)によって、前記複数の時間ステップの各々において、密な表現(222)を生成することと、
前記ストリーミング音声認識モデル(200)のジョイントネットワーク(230)への入力として、前記複数の時間ステップの各々において前記オーディオエンコーダ(210)によって生成された前記高次特徴表現(202)および前記複数の時間ステップの各々において前記ラベルエンコーダ(220)によって生成された前記密な表現(222)を受信することと、
前記ジョイントネットワーク(230)によって、前記複数の時間ステップの各々において、対応する時間ステップにおけるあり得る音声認識仮説にわたる確率分布(232)を生成することとをさらに含む、請求項11に記載のコンピュータ実装方法(500)。
前記ラベルエンコーダ(220)は、トランスフォーマ層(400)のスタックを備え、各トランスフォーマ層(400)は、
正規化層(404)と、
相対位置符号化を伴うマスクされたマルチヘッドアテンション層(406)と、
残差接続(408)と、
スタッキング/アンスタッキング層(410)と、
フィードフォワード層(412)とを備える、請求項12に記載のコンピュータ実装方法(500)。
前記ラベルエンコーダ(220)は、bigram埋め込みルックアップデコーダモデルを備える、請求項12または13に記載のコンピュータ実装方法(500)。
前記ストリーミング音声認識モデル(200)は、トランスフォーマ-トランスデューサモデルを備える、請求項11から14のいずれか一項に記載のコンピュータ実装方法(500)。
前記オーディオエンコーダ(210)は、トランスフォーマ層(400)のスタックを備え、各トランスフォーマ層(400)は、
正規化層(404)と、
相対位置符号化を伴うマスクされたマルチヘッドアテンション層(406)と、
残差接続(408)と、
スタッキング/アンスタッキング層(410)と、
フィードフォワード層(412)とを備える、請求項15に記載のコンピュータ実装方法(500)。
前記スタッキング/アンスタッキング層(410)は、前記対応するトランスフォーマ層(400)のフレームレートを変更して、訓練および推論の間の前記トランスフォーマ-トランスデューサモデルによる処理時間を調整するように構成される、請求項16に記載のコンピュータ実装方法(500)。
前記ストリーミング音声認識モデル(200)は、
リカレントニューラル-トランスデューサ(RNN-T)モデル、
トランスフォーマ-トランスデューサモデル、
畳み込みネットワーク-トランスデューサ(ConvNet-トランスデューサ)モデル、または
コンフォーマ-トランスデューサモデル、のうちの1つを含む、請求項11から17のいずれか一項に記載のコンピュータ実装方法(500)。
前記ストリーミング音声認識モデル(200)は、ユーザデバイス(10)またはサーバ(60)上で実行される、請求項11から18のいずれか一項に記載のコンピュータ実装方法(500)。
前記動作は、外部アライナモデルを使用して前記復号グラフ(300)のアライメントを制約することなく、自己アライメントを使用して予測遅延を短縮するように前記ストリーミング音声認識モデル(200)を訓練することをさらに含む、請求項11から19のいずれか一項に記載のコンピュータ実装方法(500)。