JP7765622B2

JP7765622B2 - Ｒｎｎ－ｔとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合

Info

Publication number: JP7765622B2
Application number: JP2024521022A
Authority: JP
Inventors: チャオ・ジャン; ボ・リ; ジユン・ル; タラ・エヌ・サイナス; シュオ－イン・チャン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-10-06
Filing date: 2022-08-19
Publication date: 2025-11-06
Anticipated expiration: 2042-08-19
Also published as: CN118339608A; EP4413562A1; JP2024539599A; US20230107695A1; EP4413562B1; WO2023059959A1; KR20240068723A; US12211509B2

Description

本開示は、一般にリカレントニューラルネットワークトランスデューサ(RNN-T)モデルに関し、より詳細には、RNN-Tモデルにおける音響表現およびテキスト表現の融合を改善することに関する。

現代の自動化された音声認識(ASR)システムは、高品質(たとえば、低い単語誤り率(WER))のみでなく、低レイテンシ(たとえば、ユーザの発話とトランスクリプションの出現との間の短い遅延)も提供することに焦点を合わせている。その上、今日、ASRシステムを使用しているとき、ASRシステムが、リアルタイムまたはさらにはリアルタイムよりも高速に相当するストリーミング様式で発話を復号することが要求されている。例示のために、ASRシステムが、直接的なユーザ対話性を受けるモバイルフォン上に展開されるとき、ASRシステムを使用するモバイルフォン上のアプリケーションは、単語が話されるとすぐにスクリーン上に現れるように、音声認識がストリーミングであることを必要とし得る。ここで、モバイルフォンのユーザは、レイテンシに対する忍耐力が低い可能性もある。この低い忍耐力のために、音声認識は、ユーザのエクスペリエンスに悪影響を及ぼし得るレイテンシおよび不正確さの影響を最小限に抑える方法で、モバイルデバイス上で実行するように努力する。

本開示の一態様は、エンコーダネットワークと、予測ネットワークと、ジョイントネットワークとを含む、自動化された音声認識(ASR)モデルを提供する。エンコーダネットワークは、第1の入力として、入力発話を特徴づける音響フレームのシーケンスを受信することと、複数の出力ステップの各々において、音響フレームのシーケンスにおける対応する音響フレームのための高次特徴表現を生成することとを行うように構成される。予測ネットワークは、第2の入力として、最終ソフトマックス層によって出力された非ブランク記号のシーケンスを受信することと、複数の出力ステップの各々において、密な表現を生成することとを行うように構成される。ジョイントネットワークは、第3の入力として、複数の出力ステップの各々において、予測ネットワークによって生成された、密な表現と、複数の出力ステップの各々において、オーディオエンコーダによって生成された、高次特徴表現とを受信することと、複数の出力ステップの各々において、可能な音声認識仮説にわたる確率分布を生成することとを行うように構成される。ジョイントネットワークは、予測ネットワークによって生成された密な表現と、オーディオエンコーダによって生成された高次特徴表現とを融合させるために、ゲーティングおよびバイリニアプーリング(bilinear pooling)をスタックする、組合せ構造を含む。

本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数(stop gradient function)とを使用して、密な表現を再計算することによって、正則化法が、トレーニング中に予測ネットワークに適用される。いくつかの例では、ジョイントネットワークが全結合層ではない。

いくつかの実装形態では、オーディオエンコーダが、セルフアテンションブロックのスタックを含む。これらの実装形態では、セルフアテンションブロックのスタックが、コンフォーマブロックのスタック、またはトランスフォーマブロックのスタックを含み得る。いくつかの例では、コンフォーマブロックのスタックが、8ヘッドセルフアテンションを有する、12個のエンコーダブロックのスタックを含む。

いくつかの実装形態では、予測ネットワークが、長短期記憶(LSTM)ベースの予測ネットワークを含む。代替的に、予測ネットワークが、V2埋込みルックアップテーブルを含み得る。いくつかの例では、予測ネットワークが、ステートレス予測ネットワークを含む。

本開示の別の態様は、コンピュータ実装方法を提供し、コンピュータ実装方法が、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる。動作は、入力発話を特徴づける音響フレームのシーケンスを受信することを含む。動作は、複数の時間ステップの各々において、音声認識モデルのオーディオエンコーダによって、音響フレームのシーケンスにおける対応する音響フレームのための高次特徴表現を生成することと、音声認識モデルの予測ネットワークによって、音声認識モデルの最終ソフトマックス層によって出力された非ブランク記号の対応するシーケンスのための密な表現を生成することとをさらに含む。複数の時間ステップの各々における動作は、オーディオエンコーダによって生成された高次特徴表現と、予測ネットワークによって生成された密な表現とを受信する、音声認識モデルのジョイントネットワークによって、可能な音声認識仮説にわたる確率分布を生成することをさらに含む。ジョイントネットワークは、予測ネットワークによって生成された密な表現と、オーディオエンコーダによって生成された高次特徴表現とを融合させるために、ゲーティングおよびバイリニアプーリングをスタックする、組合せ構造を含む。

本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、密な表現を再計算することによって、正則化法が、トレーニング中に予測ネットワークに適用される。いくつかの例では、ジョイントネットワークが全結合層を含まない。

本開示の1つまたは複数の実装形態の詳細が、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになる。

音声を転写するためのリカレントニューラルネットワーク-トランスデューサ(RNN-T)モデルを使用する、例示的な音声環境の概略図である。音響表現およびテキスト表現の融合を改善するための例示的なRNN-Tの概略図である。例示的なコンフォーマブロックの概略図である。 RNN-Tにおける音響表現およびテキスト表現の融合を改善するコンピュータ実装方法のための動作の例示的な構成のフローチャートである。本明細書で説明されるシステムおよび方法を実装するために使用され得る、例示的なコンピューティングデバイスの概略図である。

様々な図面における同様の参照符号は、同様の要素を示す。

リカレントニューラルネットワーク-トランスデューサ(RNN-T)アーキテクチャは、使用の中でも、ストリーミングオーディオのストリーミング自動音声認識(ASR)のために使用され得る、エンドツーエンドソリューション(たとえば、単一のニューラルネットワークモデル)である。RNN-Tは、音声認識モデルまたはシステムの一部であり得る。単語またはサブワード単位にわたる出力分布を推定するために、RNN-Tは、(i)オーディオエンコーダによって生成された高次特徴表現(一般に音響表現とも呼ばれる)を、(ii)出力テキストシーケンスにおける前のテキストと現在のテキストとの間の再帰的構造を使用して、前に復号されたテキストに基づいて、予測ネットワークによって生成された密な表現(一般にテキスト表現とも呼ばれる)と融合させるための、ジョイントネットワークを含む。オーディオエンコーダは、入力として、入力発話を特徴づける音響フレームのシーケンスを受信し、複数の出力ステップの各々において、音響フレームのシーケンスにおける対応する音響フレームのための高次特徴表現を生成する。予測ネットワークは、入力として、RNN-Tの最終ソフトマックス層によって出力された非ブランク記号のシーケンスを受信し、複数の出力ステップの各々において、密な表現を生成する。ジョイントネットワークは、入力として、複数の出力ステップの各々において、予測ネットワークによって生成された、密な表現と、複数の出力ステップの各々において、オーディオエンコーダによって生成された、高次特徴表現とを受信し、複数の出力ステップの各々において、可能な音声認識仮説にわたる確率分布を生成する。出力層(たとえば、最終ソフトマックス層)は、確率分布に基づいて、出力トランスクリプションとして、入力発話を特徴づける音響フレームのシーケンスを正確に表す最高尤度スコアを有する、候補トランスクリプションまたは仮説を選択する。

より詳細には、RNN-Tは、音響フレームx_1:Tのシーケンスが与えられると、最も確からしいテキストシーケンスyを発見することによって、ASRを実行する。ベイズ規則に従って、たとえば、以下の数式を使用して、各可能な仮定されたテキストシーケンスyにわたって探索するために、復号は事後最大確率規則に従い得る。
P(y|x_1:T)∝p(x_1:T|y)P(y) (1)
ただし、p(x_1:T|y)は、オーディオエンコーダによって推定され、yが与えられると、x_1:Tが話された尤度を表し、P(y)は、テキストの下にある確率分布を表す言語モデル(LM)を使用して、予測ネットワークによって推定される。RNN-TモデルP(y|x_1:T)は、単一のエンドツーエンドモデル(たとえば、単一のニューラルネットワーク)を使用する。y=y_1:Uであり、ただし、Uは、yにおけるサブワード単位の数であると仮定すると、次いで、いかなるルックアヘッドフレームまたは時間短縮もないストリーミングオーディオデータについて、時間tにおいてオーディオエンコーダによって生成されたD^enc次元の高次特徴表現

、予測ネットワークによって生成されたu番目のサブワード単位のD^pred次元の密な表現

、およびジョイントネットワークによって生成されたD^joint次元の融合された表現

は、以下のように表され得る。

ただし、y₀は特殊な文開始記号を指し、kおよびW^outは、それぞれ、k番目のノードおよび出力層の重みである。

いくつかの例では、式(2)におけるAcousticEncoderは、固定された数のルックアヘッドフレームおよび固定された時間短縮率をもつ、コンフォーマエンコーダを含み、式(3)におけるPredictionNetworkは、多層長短期記憶(LSTM)モデルを含み、式(4)におけるJointNetworkは、全結合(FC)層を含み、ただし、

が式(6)において無視されるとき、予測ネットワーク、ジョイントネットワーク、および出力層は、内部LMと呼ばれることがあるLSTM言語モデル(LM)を一緒に形成する。しかしながら、研究では、音響表現およびテキスト表現を融合させることによって、ASR精度を向上させることができることが示されている。

ゲーティングは、情報を融合させるための再帰的構造における技法として使用されている。たとえば、ゲーティングは、表現ベクトルにおける各要素が、たとえば、ベクトル加算を介して統合される前に、異なる重みを用いてスケーリングされることを可能にすることによって、音響表現およびテキスト表現を融合させるために、RNN-Tにおいて使用されている。これによって、たとえば、音響表現およびテキスト表現の相対的融合が調整されることが可能になる。より詳細には、ゲーティングを用いて、ジョイントネットワークによって生成されたD^joint次元の融合された表現

より計算コストが高いが、なお一層強力な、音響表現およびテキスト表現などの情報を融合させる技法は、バイリニアプーリングである。バイリニアプーリングは、以下のように表され得る双一次形式を使用して、表現ベクトルを組み合わせる。

ゲーティングと比較して、バイリニアプーリングは、最初に、より表現的なD^enc×D^pred次元の空間におけるすべての可能な要素ペア間の乗法的交互作用(multiplicative interaction)をキャプチャするために、2つの表現ベクトルの外積を計算し、次いでそれをD^joint次元のベクトル空間に投影する。

本明細書の実装形態は、オーディオエンコーダによって入力音響フレームから符号化された高次特徴表現(一般に音響表現とも呼ばれる)と、密な表現(一般にテキスト表現とも呼ばれる)との融合のバランスをとり、改善するために、RNN-Tのジョイントネットワークにおいて、ゲーティングおよびバイリニアプーリングの使用を組み合わせることを対象とする。本明細書で開示されるものは、音響表現およびテキスト表現の融合を改善するために、ゲーティングおよびバイリニアプーリングを含む、RNN-Tのジョイントネットワークのための新規の構造である。ゲーティングをバイリニアプーリングと組み合わせることによって、得られたジョイントネットワークは、予測ネットワークによって生成されたテキスト表現(すなわち、密な表現)と、オーディオエンコーダによって生成された音響表現(すなわち、第1の高次特徴表現)とを融合させながら、ゲーティングおよびバイリニアプーリングのそれぞれの強みおよび相補的特徴を活用する。

テキスト事前分布(text prior)は、音響特徴よりも学習しやすいことが多いので、RNN-Tの予測ネットワークは、RNN-Tのオーディオエンコーダよりも高速に収束し得ることが観測されている。これによって、RNN-Tのジョイントネットワークが、トレーニング発話においてASRを実行するときにオーディオエンコーダによって生成された音響表現よりも、予測ネットワークによって生成されたテキスト表現に過度に依存するようになる結果になり得る。たとえば、RNN-Tのジョイントネットワークは、

そのような状況では、オーディオエンコーダは、より高い予測ネットワークスコアに関連付けられるオーディオサンプルを符号化するように、あまりよくトレーニングされないことがある。これらのトレーニングアンバランスを低減するために、予測ネットワーク正則化ルーチンが、たとえば、RNN-Tモデルのトレーニングの開始時に適用され得る。本明細書の実装形態は、予測ネットワークによって生成された密な表現と、エンコーダネットワークによって生成された高次特徴表現とを融合させるために、ゲーティングおよびバイリニアプーリングをスタックする、新規の組合せ構造(たとえば、以下の式(11)参照)を有するジョイントネットワークとともに、または音響表現およびテキスト表現を融合させることが可能な他の構造(たとえば、式(6)、式(7)、式(9)、または式(10)参照)で構成されたジョイントネットワークとともに、予測ネットワーク正則化ルーチンを使用することをさらに対象とする。本明細書で開示される例示的な予測ネットワーク正則化ルーチンは、ジョイントネットワークによって

の融合のバランスを最適にとるために、トレーニング中に予測ネットワークに逆伝播される勾配を低減する。たとえば、トレーニング中に、予測ネットワーク正則化ルーチンは、スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、密な表現

を再計算する。

図1は、音声環境100の一例である。音声環境100では、ユーザデバイス10などのコンピューティングデバイスと対話するユーザ104の方法は、ボイス入力を通したものであり得る。ユーザデバイス10(一般にデバイス10とも呼ばれる)は、音声環境100内の1人または複数のユーザ104からサウンド(たとえば、ストリーミングオーディオデータ)をキャプチャするように構成される。ここで、ストリーミングオーディオデータは、可聴クエリ、デバイス10に対するコマンド、またはデバイス10によってキャプチャされる可聴通信として機能する、ユーザ104によって話された発話106を指すことがある。デバイス10の音声対応システムは、クエリに答えること、および/または1つもしくは複数のダウンストリームアプリケーションによってコマンドを実行/履行させることによって、クエリまたはコマンドを処理し得る。

ユーザデバイス10は、ユーザ104に関連付けられた、およびオーディオデータを受信することが可能な、任意のコンピューティングデバイスに対応し得る。ユーザデバイス10のいくつかの例には、限定はしないが、モバイルデバイス(たとえば、モバイルフォン、タブレット、ラップトップなど)、コンピュータ、ウェアラブルデバイス(たとえば、スマートウォッチ)、スマートアプライアンス、車両インフォテインメントシステム、モノのインターネット(IoT)デバイス、スマートディスプレイ、スマートスピーカーなどが含まれる。ユーザデバイス10は、データ処理ハードウェア12と、データ処理ハードウェア12と通信しているメモリハードウェア14とを含む。メモリハードウェア14は、命令を記憶し、命令が、データ処理ハードウェア12によって実行されると、データ処理ハードウェア12に1つまたは複数の動作を実行させる。ユーザデバイス10は、音声環境100内の話された発話106をキャプチャし、電気信号に変換するためのオーディオキャプチャデバイス(たとえば、マイクロフォン)16、16aと、(たとえば、デバイス10からの出力オーディオデータとして)可聴オーディオ信号を通信するための音声出力デバイス(たとえば、スピーカー)16、16bとをもつ、オーディオシステム16をさらに含む。ユーザデバイス10は、図示の例では、単一のオーディオキャプチャデバイス16aを実装するが、ユーザデバイス10は、本開示の範囲から逸脱することなく、オーディオキャプチャデバイス16aのアレイを実装してよく、それによって、アレイ内の1つまたは複数のキャプチャデバイス16aは、ユーザデバイス10上に物理的に存在しないことがあるが、オーディオシステム16と通信中であり得る。

音声環境100では、RNN-Tモデル200などのASRモデルと、任意選択の再スコアラー180とを実装するASRシステム118が、ユーザ104のユーザデバイス10上、および/またはネットワーク40を介してユーザデバイス10と通信しているリモートコンピューティングデバイス60(たとえば、クラウドコンピューティング環境内で実行している分散システムの1つまたは複数のリモートサーバ)上に存在する。ユーザデバイス10および/またはリモートコンピューティングデバイス60はまた、ユーザ104によって話され、オーディオキャプチャデバイス16aによってキャプチャされた発話106を受信することと、ASRシステム118によって処理されることが可能な入力音響フレーム110に関連付けられた対応するデジタルフォーマットに、発話106を変換することとを行うように構成された、オーディオサブシステム108も含む。図示の例では、ユーザは、それぞれの発話106を話し、オーディオサブシステム108は、発話106を、ASRシステム118への入力のために対応するオーディオデータ(たとえば、音響フレーム)110に変換する。その後、RNN-Tモデル200は、入力として、発話106に対応するオーディオデータ110を受信し、出力として、発話106の対応するトランスクリプション120(たとえば、認識結果/仮説)を生成/予測する。図示の例では、RNN-Tモデル200は、ストリーミング音声認識を実行して、初期音声認識結果120、120aを作り出してよく、再スコアラー180は、初期音声認識結果120aを更新(たとえば、再スコアリング)して、最終音声認識結果120、120bを作り出してよい。サーバ60は、データ処理ハードウェア62と、データ処理ハードウェア62と通信しているメモリハードウェア64とを含む。メモリハードウェア64は、命令を記憶し、命令が、データ処理ハードウェア62によって実行されると、データ処理ハードウェア62に、本明細書で開示されるものなど、1つまたは複数の動作を実行させる。

ユーザデバイス10および/またはリモートコンピューティングデバイス60はまた、ユーザデバイス10のユーザ104に、発話106のトランスクリプション120の表現を提示するように構成された、ユーザインターフェース生成器107も実行する。以下でより詳細に説明されるように、ユーザインターフェース生成器107は、時間1の間にストリーミング様式において初期音声認識結果120aを表示し、その後、時間2の間に最終音声認識結果120bを表示し得る。いくつかの構成では、ASRシステム118から出力されたトランスクリプション120は、たとえば、ユーザデバイス10またはリモートコンピューティングデバイス60上で実行している自然言語理解/処理(NLU/NLP)モジュールによって、ユーザコマンドを実行するか、または発話106によって指定されたクエリに応答するために、処理される。追加または代替として、(たとえば、ユーザデバイス10またはリモートコンピューティングデバイス60の任意の組合せ上で実行している)テキスト音声システム(TTS)(図示せず)は、トランスクリプション120を、ユーザデバイス10および/または別のデバイスによる可聴出力のために、合成された音声に変換し得る。

図示の例では、ユーザ104は、ASRシステム118を使用するユーザデバイス10のプログラムまたはアプリケーション50(たとえば、デジタルアシスタントアプリケーション50)と対話する。たとえば、図1は、ユーザ104がデジタルアシスタントアプリケーション50と通信すること、およびデジタルアシスタントアプリケーション50が、ユーザ104とデジタルアシスタントアプリケーション50との間の会話を示すために、ユーザデバイス10のスクリーン上にデジタルアシスタントインターフェース18を表示することを示す。この例では、ユーザ104は、デジタルアシスタントアプリケーション50に「今夜のコンサートは何時か?」と質問する。ユーザ104からのこの質問は、オーディオキャプチャデバイス16aによってキャプチャされ、ユーザデバイス10のオーディオシステム16によって処理される、話された発話106である。この例では、オーディオシステム16は、話された発話106を受信し、ASRシステム118への入力のために、音響フレーム110に変換する。

この例を続けると、RNN-Tモデル200は、ユーザ104が話すとき、発話106に対応する音響フレーム110を受信しながら、音響フレーム110を符号化し、次いで、符号化された音響フレーム110を初期音声認識結果120aに復号する。時間1の間に、ユーザインターフェース生成器107は、デジタルアシスタントインターフェース18を介して、単語、ワードピース、および/または個々の文字が話されるとすぐにユーザデバイス10のスクリーン上に現れるように、ストリーミング様式において、ユーザデバイス10のユーザ104に発話106の初期音声認識結果120aの表現を提示する。いくつかの例では、最初のルックアヘッドオーディオコンテキストは、0に等しく設定される。

時間2の間に、ユーザインターフェース生成器107は、デジタルアシスタントインターフェース18を介して、再スコアラー180によって再スコアリングされた、ユーザデバイス10のユーザ104への発話106の最終音声認識結果120bの表現を提示する。いくつかの実装形態では、ユーザインターフェース生成器107は、時間1において提示された初期音声認識結果120aの表現を、時間2において提示された最終音声認識結果120bの表現に置き換える。ここで、時間1および時間2は、ユーザインターフェース生成器107がそれぞれの音声認識結果120を提示するときに対応する、タイムスタンプを含み得る。この例では、時間1のタイムスタンプは、ユーザインターフェース生成器107が最終音声認識結果120bよりも早い時間において、初期音声認識結果120aを提示することを示す。たとえば、最終音声認識結果120bは、初期音声認識結果120aよりも正確であると推定されるので、トランスクリプション120として最終的に表示される最終音声認識結果120bは、初期音声認識結果120aにおいて誤認識(misrecognize)された可能性のあるいかなる言葉も修正し得る。この例では、時間1においてユーザデバイス10のスクリーン上に表示される、RNN-Tモデル200によって出力されるストリーミング初期音声認識結果120aは、低レイテンシに関連付けられ、自分のクエリが処理されているという応答性をユーザ104に提供するが、時間2において再スコアラー180によって出力され、スクリーン上に表示される最終音声認識結果120bは、追加の音声認識モデルおよび/または言語モデルを活用して、精度の点で音声認識品質を改善するが、レイテンシを増加させる。しかしながら、初期音声認識結果120aが、ユーザが発話106を話すときに表示されるので、最終認識結果120bを作り出し、最終的に表示することに関連するより高いレイテンシは、ユーザ104にとって顕著ではない。

図1に示された例では、デジタルアシスタントアプリケーション50は、自然言語処理(NLP)を使用して、ユーザ104によって出された質問に応答し得る。NLPは、一般に、書き言葉(たとえば、初期音声認識結果120aおよび/または最終音声認識結果120b)を解釈し、書き言葉がいずれかの応答またはアクションを促すか否かを決定するプロセスを指す。この例では、デジタルアシスタントアプリケーション50は、NLPを使用して、ユーザ104からの質問がユーザのスケジュール、およびより詳細には、ユーザのスケジュール上のコンサートに関係することを認識する。NLPを用いて、これらの詳細を認識することによって、自動化されたアシスタントは、ユーザの質問に対して応答19を返し、そこで、応答19は「会場は午後6:30に開場し、コンサートは午後8時に開始します」と述べる。いくつかの構成では、NLPは、ユーザデバイス10のデータ処理ハードウェア12と通信しているリモートサーバ60上で行われる。

図2は、オーディオエンコーダネットワーク220によって出力された高次特徴表現(一般に音響表現とも呼ばれる)224と、予測ネットワーク230によって出力された密な表現(一般にテキスト表現とも呼ばれる)232とを融合させる、例示的なRNN-Tモデル200の概略図である。特には、RNN-Tモデル200は、音響表現224およびテキスト表現232の融合を改善するために、ゲーティングをバイリニアプーリングと組み合わせる、新規のジョイントネットワーク210を含む。ゲーティングをバイリニアプーリングと組み合わせることによって、ジョイントネットワーク210は、ゲーティングおよびバイリニアプーリングのそれぞれの強みおよび相補的特徴を活用する。

図示のように、RNN-Tモデル200は、エンコーダネットワーク220と、予測/デコーダネットワーク230と、ジョイントネットワーク210と、最終ソフトマックス出力層240とを含む。エンコーダネットワーク220(たとえば、オーディオエンコーダ)は、従来のASRシステムにおける音響モデル(AM)にほぼ類似しており、特徴ベクトル(たとえば、図1の音響フレーム110)x=(x₁,x₂,...,x_t)222のシーケンスを受信し、ただし、

として示される高次特徴表現(たとえば、音響表現)224を作り出す。

図示の例では、予測/デコーダネットワーク230は、言語モデル(LM)のように、ソフトマックス層240によってこれまで出力された非ブランク記号y_0,...,y_u-1 242のシーケンスを、密な表現

232へと処理する、LSTMベースの予測ネットワークを含み、ただし、y₀は特殊なシーケンス開始記号を表す。

ジョイントネットワーク210は、エンコーダネットワーク220および予測ネットワーク230によってそれぞれ作り出された表現

別の言い方をすれば、ジョイントネットワーク210は、各出力ステップ(たとえば、時間ステップ)において、可能な音声認識仮説にわたる確率分布212を生成する。ここで、「可能な音声認識仮説」は、指定された自然言語における単語/ワードピース/記号/文字を各々表す、出力ラベルのセットに対応する。たとえば、自然言語が英語であるとき、出力ラベルのセットは、27個の記号、たとえば、英語のアルファベットにおける26個の文字の各々に1つのラベル、およびスペースを指定する1つのラベルを含み得る。したがって、ジョイントネットワーク210は、出力ラベルの所定のセットの各々の発生の尤度を示す値のセットを出力し得る。この値のセットは、ベクトルであってよく、出力ラベルのセットにわたる確率分布を示すことができる。場合によっては、出力ラベルは、書記素(たとえば、個々の文字、ならびに潜在的に句読点および他の記号)であるが、出力ラベルのセットは、そのように限定されない。たとえば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、ワードピースおよび/または単語全体を含み得る。ジョイントネットワーク210の出力分布は、異なる出力ラベルの各々のための事後確率値を含み得る。したがって、異なる書記素または他の記号を表す、100個の異なる出力ラベルがあるとき、ジョイントネットワーク210の出力y_iは、出力ラベルごとに1つずつ、100個の異なる確率値を含み得る。次いで、確率分布は、トランスクリプション120を決定するための(たとえば、最終ソフトマックス出力層240による)ビーム探索プロセスにおいて、候補直交要素(たとえば、書記素、ワードピース、および/または単語)へのスコアを選択し、割り当てるために使用され得る。

ジョイントネットワーク210は、発話106(図1)において音声認識を実行するとき、複数の出力ステップの各々においてジョイントネットワーク210によって受信される、高次特徴表現

の融合を改善するために、ゲーティングをバイリニアプーリングと組み合わせる、新規の構造を含む。図示の例では、ジョイントネットワーク210は、バイリニアプーリング層250およびゲーティング層260を含む。いくつかの例では、バイリニアプーリング層250は、ゲーティング層260の上にスタックされる。これらの例では、バイリニアプーリング層250およびゲーティング層260のスタッキングは、以下のように数学的に表され得る。

ソフトマックス層240は、分布

212における最高確率をもつ出力ラベル/記号を、対応する出力ステップにおいてRNN-Tモデル200によって予測される次の出力記号として選択するために、任意の技法を採用し得る。このようにして、RNN-Tモデル200は、条件付き独立仮定を行わない。代わりに、各記号の予測は、音響のみでなく、これまでに出力されたラベルのシーケンスも条件とする。RNN-Tモデル200は、出力記号が将来の音響フレーム110とは無関係であると仮定し、それによって、RNN-Tモデル200がストリーミング様式において採用されることが可能になる。いくつかの例では、ソフトマックス層240は、複数のトレーニングデータセットにおけるすべての一意のワードピースまたは書記素を使用して生成される、統合されたワードピースまたは書記素セットから構成される。

いくつかの例では、特徴ベクトルx222は、30ミリ秒(ms)フレームレートをもつ240次元の入力表現を形成するために、10msシフトとともに3つの32ms音響フレームをスタックすることによって形成された、80次元のログメルフィルタバンク特徴を含み、それらが次いで、第1の線形投影を使用して、追加された位置埋込みを伴う512次元表現に変換される。この例を続けると、エンコーダネットワーク220は、スタックされた特徴をさらに変換するために、8ヘッドセルフアテンションおよび15の畳み込みカーネルサイズをもつ、12個のコンフォーマエンコーダブロックを含み得る。ここで、エンコーダネットワーク220は、2の時間短縮率を達成するために、第3のコンフォーマブロック後に連結演算を実行する。第4のコンフォーマブロックは、得られた1024次元ベクトルを変換し、次いで、エンコーダネットワーク220は、第2の線形変換を使用して、それらを512次元に戻すように投影する。残りの8つのコンフォーマブロックは、高次特徴表現

224のための次元D^enc=512を作るために、第2の線形変換の後に続き、その後に最終線形正規化層が続く。説明されるエンコーダネットワーク220は、コンフォーマ層/ブロック(たとえば、12個のコンフォーマブロック)を含む、マルチヘッドアテンション層/ブロックのスタックを有するが、本開示はそのように限定されない。たとえば、エンコーダネットワーク220は、トランスフォーマ層/ブロックまたは他のタイプのマルチヘッドアテンション層/ブロックのスタックを含み得る。エンコーダネットワーク220は、一連のマルチヘッドセルフアテンション層、深度方向畳み込み(depth-wise convolutional)層、およびフィードフォワード層を含み得る。代替的に、エンコーダネットワーク220は、マルチヘッドアテンション層/ブロックの代わりに、複数の長短期記憶(LSTM)層を含み得る。

この例を続けると、予測ネットワーク230は、密な表現

232のためのD^pred=640を作るために、640次元線形投影とともに2,048次元LSTMの2つの層を含む、LSTMベースのネットワークである。融合された表現

212の次元D^jointもまた、640に設定される。いくつかの例では、ジョイントネットワーク210は、隠れユニットを含む。追加または代替として、ジョイントネットワーク210は、全結合(FC)層を含まない。

代替的に、エンコーダネットワーク220は、セルフアテンション層/ブロックのスタックを含む。ここで、セルフアテンションブロックのスタックは、トランスフォーマブロックのスタック、またはコンフォーマブロックの異なるスタックを含み得る。

代替的に、予測ネットワーク230は、トランスフォーマまたはコンフォーマブロック(または他のタイプのマルチヘッドアテンションブロック)のスタックを含み得る。予測ネットワーク230はまた、密な表現を生成する代わりに、ルックアップされたスパースな埋込みを出力することによって、レイテンシを改善するために、埋込みルックアップテーブル(たとえば、V2埋込みルックアップテーブル)に置き換えられ得る。いくつかの実装形態では、予測ネットワーク230は、ステートレス予測ネットワークである。

上記で説明されたように、予測ネットワーク230は、トレーニング中にエンコーダネットワーク220よりも高速に収束することがあり、それによって、ジョイントネットワーク210が、トレーニング発話においてASRを実行するときにエンコーダネットワーク220によって生成された高次特徴表現

そのようなトレーニングアンバランスを低減するために、予測ネットワーク正則化ルーチンが、たとえば、RNN-Tモデル200のトレーニングの開始時に適用され得る。より詳細には、RNN-Tモデルのトレーニングは、予測ネットワーク230によって生成された密な表現232と、エンコーダネットワーク220によって生成された高次特徴表現224との融合のバランスをとるために、ゲーティングおよびバイリニアプーリングをスタックする、新規の組合せ構造(たとえば、式(11)参照)を有するジョイントネットワークとともに、または音響表現およびテキスト表現を融合させることが可能な他の構造(たとえば、式(6)、式(7)、式(9)、または式(10)参照)で構成されたジョイントネットワークとともに、予測ネットワーク正則化ルーチンを使用することを含み得る。いくつかの例では、予測ネットワーク正則化ルーチンは、ジョイントネットワーク210によって

の融合のバランスを最適にとるために、トレーニング中に予測ネットワーク230に逆伝播される勾配を低減する。たとえば、トレーニング中に、予測ネットワーク正則化ルーチンを適用することは、スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、密な表現

ただし、mは、現在のトレーニングステップにおけるインデックスであり、α_mはスケーリング係数であり、sg()は、その入力テンソルがゼロ勾配を有するようになる勾配停止関数である。この例では、0≦α_m≦1であるとき、

の値は変更されないが、予測ネットワーク230に逆伝播される対応する勾配は、α_mの割合で低減されることになる。これによって、予測ネットワーク230の収束が減速し、トレーニング中にジョイントネットワーク210による

の融合のバランスをとることが可能になる。いくつかの例では、予測ネットワーク正則化ルーチンは、以下のように、ピースワイズ線形スケジュール(piece-wise linear schedule)を使用して、α_mの値を選択する。

ただし、m₁およびm₂は、2つの事前定義されたパラメータである。特に、予測ネットワーク正則化ルーチンを適用することは、m=0であるときでも、事前トレーニングされたコネクショニスト時系列分類(CTC:connectionist temporal classification)モデルを用いて、RNN-Tモデル200を初期化することとは異なり、その理由は、予測ネットワーク230が、ランダムであるが固定値の投影を提供し、それを通して、RNN-Tモデル200が依然としてy_u-1を取得することが可能であるからである。他の従来のトレーニング技法と比較して、予測ネットワーク正則化ルーチンを用いて、ジョイントネットワーク210をトレーニングすることによって、トレーニング中に内部LMを最初に割り引くことによって、トレーニングとテスト時間の両方の間に内部LMの統合が改善される。特に、ジョイントネットワーク210および/または予測ネットワーク正則化ルーチンは、予測ネットワーク230中に埋め込まれるLM履歴が発話ごとに制限および/またはリセットされる、ステートレスRNN-Tモデルに適用可能である。

図3は、図2のエンコーダネットワーク220のコンフォーマブロックのスタックにおけるコンフォーマブロックのうちの1つを実装するために使用され得る、例示的なコンフォーマブロック300の概略図である。コンフォーマブロック300は、前半フィードフォワード層310、後半フィードフォワード層340、前半フィードフォワード層310と後半フィードフォワード層340との間に配設されたマルチヘッドセルフアテンションブロック320および畳み込み層330、ならびに連結演算子305を含む。前半フィードフォワード層310は、入力メルスペクトログラムシーケンスを含む、入力オーディオデータ102を処理する。その後、マルチヘッドセルフアテンションブロック320は、前半フィードフォワード層310の出力と連結された入力オーディオデータ102を受信する。直観的に、マルチヘッドセルフアテンションブロック320の役割は、向上されることになる入力フレームごとに別個に雑音コンテキストを要約することである。畳み込み層330は、前半フィードフォワード層310の出力と連結されたマルチヘッドセルフアテンションブロック320の出力をサブサンプリングする。その後、後半フィードフォワード層340は、畳み込み層330出力およびマルチヘッドセルフアテンションブロック320の連結を受信する。layernormモジュール350は、後半フィードフォワード層340からの出力を処理する。コンフォーマブロック300は、変調特徴mを使用して、入力特徴xを変換して、出力特徴y360を作り出し、このことは、たとえば、次のように数学的に表され得る。

図4は、RNN-Tモデル200などのRNN-Tモデルにおける音響表現およびテキスト表現の融合を改善する、コンピュータ実装方法400のための動作の例示的な構成のフローチャートである。データ処理ハードウェア510(たとえば、図1のデバイス10のデータ処理ハードウェア12、および/またはコンピューティングシステム60のデータ処理ハードウェア62)は、メモリハードウェア520(たとえば、メモリハードウェア14、64)上に記憶された命令を実行することによって、方法400のための動作を実行し得る。

動作402において、方法400は、入力発話106を特徴づける音響フレームx=(x₁,x₂,...,x_t)222のシーケンスを受信することを含む。方法400は、複数の出力ステップの各々において、動作404、406、408を実行する。動作404において、方法400は、RNN-Tモデル200のエンコーダネットワーク220によって、音響フレーム222のシーケンスにおける対応する音響フレーム222のための高次特徴表現

224を生成することを含む。

動作406において、方法400は、RNN-Tモデル200の予測ネットワーク230によって、最終ソフトマックス出力層(たとえば、ソフトマックス層240)によって出力された非ブランク記号(y₀,...,y_u-1)242の対応するシーケンスのための密な表現

232を生成することを含む。ここで、y₀は、特殊なシーケンス開始記号を表し得る。

動作408において、方法400は、高次特徴表現

たとえば、ジョイントネットワーク210は、図2のジョイントネットワーク210に関して上記で説明されたように、ゲーティング層260上にスタックされたバイリニアプーリング層250を使用して、確率分布

212を生成し得る。たとえば、動作408において、方法400は、式(11)を使用して、ジョイントネットワーク210からの出力として、確率分布

212を計算することができる。

図5は、本明細書で説明されるシステムおよび方法を実装するために使用され得る、例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータデバイスなど、様々な形態のデジタルコンピュータを表すものである。ここに示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものにすぎないものであり、本明細書で説明および/または特許請求される本発明の実装形態を限定するものではない。

コンピューティングデバイス500は、データ処理ハードウェア12および/または62を実装するために使用され得るプロセッサ510(すなわち、データ処理ハードウェア)と、メモリハードウェア14および/または64を実装するために使用され得るメモリ520(すなわち、メモリハードウェア)と、メモリハードウェア14および/または64を実装するために使用され得る記憶デバイス530(すなわち、メモリハードウェア)と、メモリ520および高速拡張ポート550に接続する高速インターフェース/コントローラ540と、低速バス570および記憶デバイス530に接続する低速インターフェース/コントローラ560とを含む。構成要素510、520、530、540、550、および560の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、または適宜に他の方法で取り付けられ得る。プロセッサ510は、高速インターフェース540に結合されたディスプレイ580などの外部入力/出力デバイス上に、グラフィカルユーザインターフェース(GUI)のためのグラフィカル情報を表示するために、メモリ520内または記憶デバイス530上に記憶された命令を含む、コンピューティングデバイス500内の実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、適宜に、複数のメモリおよび複数のタイプのメモリとともに使用され得る。また、複数のコンピューティングデバイス500が接続され、各デバイスが必要な動作の部分を提供するようにしてもよい(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。

メモリ520は、情報をコンピューティングデバイス500内に非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ520は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス500による使用のために一時的または永続的に記憶するために使用される、物理デバイスであり得る。不揮発性メモリの例には、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、典型的には、ブートプログラムなどのファームウェアのために使用される)が含まれる。揮発性メモリの例には、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープが含まれる。

記憶デバイス530は、コンピューティングデバイス500のための大容量記憶装置を提供することが可能である。いくつかの実装形態では、記憶デバイス530は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様の固体メモリデバイス、またはストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品は、情報キャリアにおいて有形に具現化される。コンピュータプログラム製品は、実行されると、上記で説明されたものなどの1つまたは複数の方法を実行する命令を含んでいる。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなど、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ540は、コンピューティングデバイス500のための帯域幅集約動作を管理するが、低速コントローラ560は、より低い帯域幅集約動作を管理する。デューティのそのような割振りは、例示的なものにすぎない。いくつかの実装形態では、高速コントローラ540は、メモリ520、ディスプレイ580に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および高速拡張ポート550に結合され、高速拡張ポート550は、様々な拡張カード(図示せず)を受け入れ得る。いくつかの実装形態では、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。低速拡張ポート590は、様々な通信ポート(たとえば、USB、Bluetooth、Ethernet、ワイヤレスEthernet)を含んでよく、キーボード、ポインティングデバイス、スキャナなどの1つもしくは複数の入力/出力デバイス、または、たとえば、ネットワークアダプタを通して、スイッチもしくはルータなどのネットワーキングデバイスに結合され得る。

コンピューティングデバイス500は、図に示されているように、いくつかの異なる形態で実装され得る。たとえば、コンピューティングデバイス500は、標準的なサーバ500aとして、もしくはそのようなサーバ500aのグループ内で複数回実装され得るか、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装され得る。

本明細書で説明されるシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現され得る。これらの様々な実装形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能である、1つまたは複数のコンピュータプログラムにおける実装を含んでよく、プログラマブルプロセッサは、専用または汎用であってよく、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するために結合されてよい。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションには、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム維持アプリケーション、文書処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションが含まれる。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を含み、高水準手続き型および/もしくはオブジェクト指向プログラミング言語において、ならびに/またはアセンブリ/機械言語において実装され得る。本明細書で使用される「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

本明細書で説明されるプロセスおよび論理フローは、入力データにおいて動作すること、および出力を生成することによって機能を実行するために、1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる、1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行され得る。コンピュータプログラムの実行に好適なプロセッサには、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたはその両方から、命令およびデータを受信することになる。コンピュータの本質的な要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクを含むか、あるいはそれからデータを受信するため、またはそれにデータを転送するため、またはその両方のために動作可能に結合されることになる。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体には、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスが含まれる。プロセッサおよびメモリは、専用論理回路によって補足されるか、または専用論理回路中に組み込まれ得る。

ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択的に、それによってユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有する、コンピュータ上に実装され得る。他の種類のデバイスが、ユーザとの対話を提供するために同様に使用されてもよく、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態で受信され得る。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送り、そのデバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答して、ウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。

別段に明記されていない限り、「または(or)」は、包含的なまたはを指し、排他的なまたはを指すものではない。たとえば、「A、B、またはC」は、(1)Aのみ、(2)Bのみ、(3)Cのみ、(4)BとともにA、(5)CとともにA、(6)CとともにB、ならびに(7)BとともにおよびCとともにAなど、A、B、Cの任意の組合せまたはサブセットを指す。同様に、「AまたはBのうちの少なくとも1つ」という句は、(1)少なくとも1つのA、(2)少なくとも1つのB、ならびに(3)少なくとも1つのAおよび少なくとも1つのBなど、AおよびBの任意の組合せまたはサブセットを指すものである。その上、「AおよびBのうちの少なくとも1つ」という句は、(1)少なくとも1つのA、(2)少なくとも1つのB、ならびに(3)少なくとも1つのAおよび少なくとも1つのBなど、AおよびBの任意の組合せまたはサブセットを指すものである。

いくつかの実装形態が説明された。それにもかかわらず、本開示の趣旨および範囲から逸脱することなく、様々な変更が行われ得ることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内に入る。

10 ユーザデバイス、デバイス
12、62 データ処理ハードウェア
14、64 メモリハードウェア
16 オーディオシステム、オーディオキャプチャデバイス、音声出力デバイス
16a オーディオキャプチャデバイス、オーディオキャプチャデバイス、キャプチャデバイス
16b 音声出力デバイス
18 デジタルアシスタントインターフェース
19 応答
40 ネットワーク
50 プログラムまたはアプリケーション、デジタルアシスタントアプリケーション
60 リモートコンピューティングデバイス、サーバ、リモートサーバ、コンピューティングシステム
100 音声環境
102 入力オーディオデータ
104 ユーザ
106 話された発話、発話、入力発話
107 ユーザインターフェース生成器
108 オーディオサブシステム
110 入力音響フレーム、オーディオデータ、音響フレーム
118 ASRシステム
120 対応するトランスクリプション、初期音声認識結果、最終音声認識結果、トランスクリプション、音声認識結果
120a 初期音声認識結果、ストリーミング初期音声認識結果
120b 最終音声認識結果、最終認識結果
180 再スコアラー
200 RNN-Tモデル、自動化された音声認識(ASR)モデル、ASRモデル、音声認識モデル
210 ジョイントネットワーク
212 可能な音声認識仮説にわたる確率分布、分布、融合された表現、確率分布
220 オーディオエンコーダネットワーク、エンコーダネットワーク
222 特徴ベクトルx=(x₁,x₂,...,x_t)、特徴ベクトルx、音響フレームx=(x₁,x₂,...,x_t)、音響フレーム
224 高次特徴表現、音響表現、
230 予測ネットワーク、予測/デコーダネットワーク
232 密な表現、テキスト表現
240 最終ソフトマックス出力層、ソフトマックス層、最終ソフトマックス層
242 非ブランク記号y_0,...,y_u-1、非ブランク記号
250 バイリニアプーリング層、バイリニアプーリング
260 ゲーティング層、ゲーティング
300 コンフォーマブロック
305 連結演算子
310 前半フィードフォワード層
320 マルチヘッドセルフアテンションブロック
330 畳み込み層
340 後半フィードフォワード層
350 layernormモジュール
360 出力特徴y
400 コンピュータ実装方法、方法
500 コンピューティングデバイス
500a 標準的なサーバ、サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 データ処理ハードウェア、プロセッサ、構成要素
520 メモリハードウェア、メモリ、構成要素、非一時的メモリ
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素、高速インターフェース、高速コントローラ
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素、低速コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート

Claims

自動化された音声認識(ASR)モデル(200)であって、
エンコーダネットワーク(220)であって、
入力として、入力発話を特徴づける音響フレーム(222)のシーケンスを受信することと、
複数の出力ステップの各々において、前記音響フレーム(222)のシーケンスにおける対応する音響フレームのための高次特徴表現(224)を生成することと
を行うように構成された、エンコーダネットワーク(220)と、
予測ネットワーク(230)であって、
入力として、最終ソフトマックス層(240)によって出力された非ブランク記号(242)のシーケンスを受信することと、
前記複数の出力ステップの各々において、密な表現(232)を生成することと
を行うように構成された、予測ネットワーク(230)と、
ジョイントネットワーク(210)であって、
入力として、前記複数の出力ステップの各々において、前記予測ネットワーク(230)によって生成された、前記密な表現(232)と、前記複数の出力ステップの各々において、前記エンコーダネットワーク(220)によって生成された、前記高次特徴表現(224)とを受信することと、
前記複数の出力ステップの各々において、可能な音声認識仮説にわたる確率分布(212)を生成することと
を行うように構成された、ジョイントネットワーク(210)と
を備え、
前記ジョイントネットワーク(210)が、前記予測ネットワーク(230)によって生成された前記密な表現(232)と、前記エンコーダネットワーク(220)によって生成された前記高次特徴表現(224)とを融合させるために、ゲーティング(260)およびバイリニアプーリング(250)をスタックする、組合せ構造を備え、
前記最終ソフトマックス層(240)は、前記ジョイントネットワーク(210)から出力された前記確率分布(212)における最高確率をもつ出力記号を選択して、前記非ブランク記号(242)のシーケンスを出力するように構成される、自動化された音声認識(ASR)モデル(200)。
スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、前記密な表現(232)を再計算することによって、正則化法が、トレーニング中に前記予測ネットワーク(230)に適用される、請求項1に記載のASRモデル(200)。
前記ジョイントネットワーク(210)が全結合層を備えない、請求項1に記載のASRモデル(200)。
前記エンコーダネットワーク(220)が、セルフアテンションブロックのスタックを備える、請求項1に記載のASRモデル(200)。
前記セルフアテンションブロックのスタックが、コンフォーマブロックのスタックを備える、請求項4に記載のASRモデル(200)。
前記コンフォーマブロックのスタックが、8ヘッドセルフアテンションを有する、12個のエンコーダブロックのスタックを備える、請求項5に記載のASRモデル(200)。
前記セルフアテンションブロックのスタックが、トランスフォーマブロックのスタックを備える、請求項4に記載のASRモデル(200)。
前記予測ネットワーク(230)が、長短期記憶(LSTM)ベースの予測ネットワークを備える、請求項1から7のいずれか一項に記載のASRモデル(200)。
前記予測ネットワーク(230)が、V2埋込みルックアップテーブルを備える、請求項1から7のいずれか一項に記載のASRモデル(200)。
前記予測ネットワーク(230)が、ステートレス予測ネットワークを備える、請求項1から7のいずれか一項に記載のASRモデル(200)。
データ処理ハードウェア(510)上で実行されると、前記データ処理ハードウェア(510)に動作を実行させる、コンピュータ実装方法(400)であって、前記動作が、
入力発話を特徴づける音響フレーム(222)のシーケンスを受信することと、
複数の出力ステップの各々において、
音声認識モデル(200)のエンコーダネットワーク(220)によって、前記音響フレーム(222)のシーケンスにおける対応する音響フレームのための高次特徴表現(224)を生成することと、
前記音声認識モデル(200)の予測ネットワーク(230)によって、前記音声認識モデル(200)の最終ソフトマックス層(240)によって出力された非ブランク記号(242)の対応するシーケンスのための密な表現(232)を生成することと、
前記エンコーダネットワーク(220)によって生成された前記高次特徴表現(224)と、前記予測ネットワーク(230)によって生成された前記密な表現(232)とを受信する、前記音声認識モデルのジョイントネットワーク(210)によって、可能な音声認識仮説にわたる確率分布(212)を生成することと
を含み、
前記ジョイントネットワーク(210)が、前記予測ネットワーク(230)によって生成された前記密な表現(232)と、前記エンコーダネットワーク(220)によって生成された前記高次特徴表現(224)とを融合させるために、ゲーティング(260)およびバイリニアプーリング(250)をスタックする、組合せ構造を備え、
前記最終ソフトマックス層(240)は、前記ジョイントネットワーク(210)から出力された前記確率分布(212)における最高確率をもつ出力記号を選択して、前記非ブランク記号(242)のシーケンスを出力するように構成される、コンピュータ実装方法(400)。
スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、前記密な表現(232)を再計算することによって、正則化法が、トレーニング中に前記予測ネットワーク(230)に適用される、請求項11に記載のコンピュータ実装方法。
前記ジョイントネットワーク(210)が全結合層を備えない、請求項11に記載のコンピュータ実装方法。
前記エンコーダネットワーク(220)が、セルフアテンションブロックのスタックを備える、請求項11に記載のコンピュータ実装方法。
前記セルフアテンションブロックのスタックが、コンフォーマブロックのスタックを備える、請求項14に記載のコンピュータ実装方法。
前記コンフォーマブロックのスタックが、8ヘッドセルフアテンションを有する、12個のエンコーダブロックのスタックを備える、請求項15に記載のコンピュータ実装方法。
前記セルフアテンションブロックのスタックが、トランスフォーマブロックのスタックを備える、請求項14に記載のコンピュータ実装方法。
前記予測ネットワーク(230)が、長短期記憶(LSTM)ベースの予測ネットワークを備える、請求項11から17のいずれか一項に記載のコンピュータ実装方法。
前記予測ネットワーク(230)が、V2埋込みルックアップテーブルを備える、請求項11から17のいずれか一項に記載のコンピュータ実装方法。
前記予測ネットワーク(230)が、ステートレス予測ネットワークを備える、請求項11から17のいずれか一項に記載のコンピュータ実装方法。