JP7843855B2 - 動的モデルサイズのための統合されたカスケードエンコーダasrモデル - Google Patents
動的モデルサイズのための統合されたカスケードエンコーダasrモデルInfo
- Publication number
- JP7843855B2 JP7843855B2 JP2024556056A JP2024556056A JP7843855B2 JP 7843855 B2 JP7843855 B2 JP 7843855B2 JP 2024556056 A JP2024556056 A JP 2024556056A JP 2024556056 A JP2024556056 A JP 2024556056A JP 7843855 B2 JP7843855 B2 JP 7843855B2
- Authority
- JP
- Japan
- Prior art keywords
- encoder
- model
- decoder
- speech recognition
- output steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
エンドツーエンド(E2E)自動音声認識(ASR)モデルは、従来、ストリーミングモードまたは非ストリーミングモードのいずれかで動作するように構造化される。従来、E2E ASRモデルは、主要な構成要素としてエンコーダ及びデコーダを含む。音声検索またはオンデバイスの音声入力など、エンドユーザとのインタラクションを伴うアプリケーションでは、モデルがストリーミング方式で認識を実行する必要があり得、レイテンシを最小限に抑えて、言葉が話されると同時に出力されることが期待される。これにより、双方向LSTMなど、精度を向上させるために将来のコンテキストを用いるモデルを使用することが妨げられる。対照的に、オフラインのビデオキャプションなどのアプリケーションは、ストリーミング認識を必要とせず、利用可能なあらゆる将来のコンテキストを十分に利用して、性能を向上させることができる。さらに、オンデバイスASRシステムのモデルサイズは、デバイスのハードウェアの制約に大きく依存する。例えば、より大きな計算出力を持つ処理ハードウェアを備えた車両デバイスは、より大きなASRモデルサイズをサポートし得るが、限られた処理ハードウェアを備えるモバイルデバイスは、より小さなASRモデルサイズの恩恵を受けることができる場合がある。同じデバイス上でも、大きいASRモデルサイズは、音声検索などの短い形式のアプリケーションに使用される場合があるが、ディクテーションまたはビデオキャプションなどの長時間実行されるアプリケーションには、中程度のASRモデルサイズまたは小さいASRモデルサイズの方が、低消費電力を維持するためにより適している場合がある。
x’=Avgプール(x) (1)
式中、T’=T/2である。x’を自己注意層への入力として提供するのではなく、クエリベクトルqとして使用する。ここで、鍵ベクトルk及び値ベクトルvは、入力特徴マップxに基づき、y∈RTD次のような自己注意層の出力特徴としてマッピングされる。
y=自己注意(q=x’,kv=x) (2)
図2Aの例を続けると、いくつかの実施態様では、モデル200aはストリーミングモードと非ストリーミングモードの両方で並行して動作する。ストリーミングモード及び非ストリーミングモードの両方で同時に動作する場合、モデル200aは最初に、第1のエンコーダ210を使用して音声データ110に対してストリーミング音声認識を実行し、第2のエンコーダ220及び第1のデコーダ204の両方に対する第1の高次特徴表現esを生成する。次に、第1のデコーダ204は、第1の高次特徴表現esに基づいて、部分音声認識結果120、120aを生成する。モデル200bも、エンコードされた音声データ110に対して非ストリーミング音声認識を実行し、第2のエンコーダ220は、第1のエンコーダ210から受信した第1の高次特徴表現esを使用して第2の高次特徴表現eaを生成する。次に第2のデコーダ206は、第2の高次特徴表現eaに基づいて、最終音声認識結果120、120bを生成する。「時間」によって示されるように、第1のデコーダ204は、第1のエンコーダ210からの出力を使用してストリーミング方式で部分音声認識結果120aを出力し、その後モデル200a発話が完了するのを待って、非ストリーミングモードで動作し、第2のデコーダ206は、第2のエンコーダ220からの出力を使用して、最終音声認識結果120bを生成する。したがって、入力発話106に対する最終音声認識結果120bは、部分音声認識結果120aから遅延する場合がある。
第2段階では、交差エントロピートレーニングを使用して、第1段階のトレーニング300a中に初期化されたモデル200を微調整するために、トレーニングプロセス300bが識別トレーニングを実行する。ここで、識別トレーニングは、最小単語誤り率(MWER)基準を使用して、モデル200を微調整することを含む。トレーニングプロセス300bの第2段階の間、各トレーニング発話132に対して、トレーニングはストリーミングまたは非ストリーミング経路/パスのいずれかで行われ得る。言い換えると、入力処理パスは、モデル200b、またはモデル200c、またはモデル200dのいずれかをトレーニングするように確率的に選択され、トレーニングプロセス300bはその損失重みと等しい確率で、各モデル200b、200c、200dをランダムにサンプリングする。ここで、モデル200bの損失重みは0.8、モデル200cの損失重みは0.15、モデル200dの損失重みは0.05であってよい。モデル200bの経路のトレーニングに最も多くの時間を費やすことにより、後の経路200c、200dでの性能を犠牲にすることなく、モデルの精度が向上する。その後、サンプリングされた経路のそれぞれのデコーダ204、206、208は、トレーニング発話132に対してビーム検索を実行して、仮説のn-ベストリストを生成し、すべての仮説について負の対数尤度が計算され、n-ベスト空間で再正規化されて、モデル200での損失の最小化のために単語誤り損失が近似される。したがって、対応するトレーニング発話に対してそれぞれのデコーダによって生成されたnベストリスト内の各仮説について、対応するトレーニング発話の正解トランスクリプションに対するそれぞれの数の単語誤りが識別され、トレーニングプロセスは対応するトレーニング発話132のnベストリスト内の各仮説について識別されたそれぞれの単語誤り数に基づいて単語誤り率を最小化するためにMWER基準を使用する。本明細書で使用される場合、n―ベストリストは、n個の最も高いランクの仮説を含み、n―ベストリスト内の各仮説は、同じ対応するトレーニング発話132に対する候補トランスクリプションを含む。いくつかの実施態様では、nは4に等しいので、サンプリングされた経路のそれぞれのデコーダ204、206、208は、トレーニング発話132に対してビーム検索を実行して、上位4つの仮説を生成し、全ての仮説(4より多い)に対して負の対数尤度が計算され、上位4つの空間で再正規化される。さらに、トレーニング発話132をサンプリングすることにより、トレーニングプロセスは、各パス/経路でトレーニング発話132ごとに損失を一度計算するだけ必要とするだけでよく、これにより、トレーニングプロセス300bの第2段階が大幅に高速化される。いくつかの実施態様では、より長いトレーニング時間が許容される場合、代替のトレーニングプロセスが採用され、各トレーニング発話を用いて各入力処理経路/パスをトレーニングし、各トレーニング発話132に対してモデル200b及びモデル200cの両方の損失を計算する。
Claims (20)
- ストリーミングモード及び非ストリーミングモードの両方での動作を実行させるための、コンピュータを機能させる自動音声認識(ASR)モデル(200)であって、
第1のエンコーダ(210)であって、
複数の音響フレーム(110)からなるシーケンスを入力として受信し、
複数の出力ステップのそれぞれにおいて、前記複数の音響フレーム(110)からなるシーケンスにおける対応する音響フレーム(110)に対して第1の高次特徴表現を生成するよう構成されている、前記第1のエンコーダ(210)と、
第1のデコーダ(204)であって、
前記複数の出力ステップのそれぞれで前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第1の確率分布を生成するよう構成されている、前記第1のデコーダ(204)と、
第2のエンコーダ(220)であって、
前記複数の出力ステップのそれぞれで前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれで、対応する第1の高次特徴フレームに対して第2の高次特徴表現を生成するように構成されている、前記第2のエンコーダ(220)と、
第2のデコーダ(206)であって、
前記複数の出力ステップのそれぞれで前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第2の確率分布を生成するよう構成されている、前記第2のデコーダ(206)とを含み、
前記ASRモデル(200)は、2段階トレーニングプロセスを使用してトレーニングされ、前記2段階トレーニングプロセスは、
トレーニング発話の同じミニバッチを、(i)前記第1のエンコーダ(210)と前記第1のデコーダ(204)とからなるカスケードエンコーダモデル(200b)と、(ii)前記第1のエンコーダ(210)と前記第2のエンコーダ(220)と前記第2のデコーダ(206)とからなるカスケードエンコーダモデル(200c)と、のそれぞれを介して転送することにより交差エントロピートレーニングを使用し、各カスケードエンコーダモデル(200b、200c)の損失を、合計が1になる重みで線結合する、第1段階と、
交差エントロピートレーニングを使用して前記第1段階のトレーニング中に初期化された前記ASRモデル(200)を微調整するために、識別トレーニングを実行する、第2段階と、を含む、自動音声認識(ASR)モデル(200)。 - 前記第1のデコーダ(204)が、可能性のある音声認識仮説に対する前記第1の確率分布に基づいて、部分音声認識結果(120)を生成するようにさらに構成される、請求項1に記載のASRモデル(200)。
- 前記第1のエンコーダ(210)が、
複数の単方向長短期記憶(LSTM)層と、
複数のコンフォーマ層と、
複数のトランスフォーマ層とのうちの1つを含む因果エンコーダを含む、請求項1または2に記載のASRモデル(200)。 - 前記第2のエンコーダ(220)が、
複数の単方向長短期記憶(LSTM)層と、
複数のコンフォーマ層と、
複数のトランスフォーマ層とのうちの1つを含む非因果エンコーダを含む、請求項1または2に記載のASRモデル(200)。 - 前記第1のデコーダ(204)が、
予測ネットワーク(250)であって、
最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信し、
前記複数の出力ステップのそれぞれで密な表現を生成するよう構成されている、前記予測ネットワーク(250)と、
結合ネットワーク(240)であって、
前記複数の出力ステップのそれぞれで前記予測ネットワーク(250)によって生成された前記密な表現と、前記複数の出力ステップのそれぞれで前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現とを入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第1の確率分布を生成するよう構成されている、前記結合ネットワーク(240)とを含む、請求項1または2に記載のASRモデル(200)。 - 前記予測ネットワーク(250)が、
長短期記憶(LSTM)ベースの予測ネットワーク(250)、または
V2埋め込みルックアップテーブルを含む、請求項5に記載のASRモデル(200)。 - 前記第2のデコーダ(206)が、
予測ネットワーク(250)であって、
最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信し、
前記複数の出力ステップのそれぞれで密な表現を生成するよう構成されている、前記予測ネットワーク(250)と、
結合ネットワーク(240)であって、
前記複数の出力ステップのそれぞれで前記予測ネットワーク(250)によって生成された前記密な表現と、前記複数の出力ステップのそれぞれで前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現とを入力として受信し、
前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第2の確率分布を生成するよう構成されている、前記結合ネットワーク(240)とを含む、請求項1または2に記載のASRモデル(200)。 - 前記予測ネットワーク(250)が、
長短期記憶(LSTM)ベースの予測ネットワーク(250)、または
V2埋め込みルックアップテーブルを含む、請求項7に記載のASRモデル(200)。 - 前記第1のエンコーダ(210)が、前記第2のエンコーダ(220)より多くのパラメータを含む、請求項1または2に記載のASRモデル(200)。
- 第3のエンコーダ(230)であって、
前記複数の出力ステップのそれぞれで前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれで、対応する第2の高次特徴表現に対して第3の高次特徴表現を生成するように構成されている、前記第3のエンコーダ(230)と、
第3のデコーダ(208)であって、
前記複数の出力ステップのそれぞれで前記第3のエンコーダ(230)によって生成された前記第3の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第3の確率分布を生成するよう構成されている、前記第3のデコーダ(208)とをさらに含む、請求項1または2に記載のASRモデル(200)。 - コンピュータ実装方法(400)であって、データ処理ハードウェア(610)によって実行されるとき、前記データ処理ハードウェア(610)に、
複数の音響フレーム(110)からなるシーケンスを受信することと、
ストリーミングモード及び非ストリーミングモードの両方での動作を実行させるための、コンピュータを機能させる自動音声認識(ASR)モデル(200)に含まれる第1のエンコーダ(210)によって、複数の出力ステップのそれぞれで、前記複数の音響フレーム(110)からなるシーケンスにおける対応する音響フレーム(110)に対して第1の高次特徴表現を生成することと、
前記ASRモデル(200)に含まれる第2のエンコーダ(220)によって、前記複数の出力ステップのそれぞれで、対応する第1の高次特徴表現に対して第2の高次特徴表現を生成することと、
前記ASRモデル(200)に含まれる第1のデコーダ(204)によって、前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第1の確率分布を生成することと、
前記ASRモデル(200)に含まれる第2のデコーダ(206)によって、前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第2の確率分布を生成することとを含む動作を実行させ、
前記ASRモデル(200)は、2段階トレーニングプロセスを使用してトレーニングされ、前記2段階トレーニングプロセスは、
トレーニング発話の同じミニバッチを、(i)前記第1のエンコーダ(210)と前記第1のデコーダ(204)とからなるカスケードエンコーダモデル(200b)と、(ii)前記第1のエンコーダ(210)と前記第2のエンコーダ(220)と前記第2のデコーダ(206)とからなるカスケードエンコーダモデル(200c)と、のそれぞれを介して転送することにより交差エントロピートレーニングを使用し、各カスケードエンコーダモデル(200b、200c)の損失を、合計が1になる重みで線結合する、第1段階と、
交差エントロピートレーニングを使用して前記第1段階のトレーニング中に初期化された前記ASRモデル(200)を微調整するために、識別トレーニングを実行する、第2段階と、を含む、コンピュータ実装方法(400)。 - 前記動作は、可能性のある音声認識仮説に対する前記第1の確率分布に基づいて、部分音声認識結果(120)を生成することをさらに含む、請求項11に記載のコンピュータ実装方法(400)。
- 前記第1のエンコーダ(210)が因果エンコーダを含み、前記因果エンコーダが、
複数の単方向長短期記憶(LSTM)層、
複数のコンフォーマ層、または
複数のトランスフォーマ層のうちの1つを含む、請求項11または12に記載のコンピュータ実装方法(400)。 - 前記第2のエンコーダ(220)が非因果エンコーダを含み、前記非因果エンコーダが、
複数の単方向長短期記憶(LSTM)層、
複数のコンフォーマ層、または
複数のトランスフォーマ層のうちの1つを含む、請求項11または12に記載のコンピュータ実装方法(400)。 - 前記動作が、前記複数の出力ステップのそれぞれで、
最終ソフトマックス層によって出力される非空白記号のシーケンスに基づいて、前記第1のデコーダ(204)の予測ネットワーク(250)によって、密な表現を生成することと、
前記第1のデコーダ(204)の結合ネットワーク(240)によって、前記予測ネットワーク(250)によって生成された前記密な表現に基づいて、可能性のある音声認識仮説に対して前記第1の確率分布を生成することとをさらに含む、請求項11または12に記載のコンピュータ実装方法(400)。 - 前記第1のデコーダ(204)の前記予測ネットワーク(250)が、
長短期記憶(LSTM)ベースの予測ネットワーク(250)、または
V2埋め込みルックアップテーブルを含む、請求項15に記載のコンピュータ実装方法(400)。 - 前記動作が、前記複数の出力ステップのそれぞれで、
前記第2のデコーダ(206)の予測ネットワーク(250)によって、前記複数の出力ステップのそれぞれで密な表現を生成することと、
前記複数の出力ステップのそれぞれで前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現、及び前記複数の出力ステップのそれぞれで前記予測ネットワーク(250)によって生成された密な表現を、前記第2のデコーダ(206)の結合ネットワーク(240)への入力として受信し、
前記複数の出力ステップのそれぞれで前記第2のデコーダ(206)の前記結合ネットワークによって、可能性のある音声認識仮説に対して、前記第2の確率分布を生成することをさらに含む、請求項11または12に記載のコンピュータ実装方法(400)。 - 前記第2のデコーダ(206)の前記予測ネットワーク(250)が、
長短期記憶(LSTM)ベースの予測ネットワーク(250)、または
V2埋め込みルックアップテーブルを含む、請求項17に記載のコンピュータ実装方法(400)。 - 前記第1のエンコーダ(210)が、前記第2のエンコーダ(220)より多い数のパラメータを含む、請求項11または12に記載のコンピュータ実装方法(400)。
- 前記動作は、前記複数の音響フレーム(110)からなるシーケンスでストリーミング音声認識及び非ストリーミング音声認識を実行しながら、
前記複数の出力ステップのそれぞれで前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現を、第3のエンコーダ(230)への入力として受信することと、
前記複数の出力ステップのそれぞれで前記第3のエンコーダ(230)によって、対応する第2の高次特徴表現に対して第3の高次特徴表現を生成することと、
前記複数の出力ステップのそれぞれで前記第3のエンコーダ(230)によって生成された前記第3の高次特徴表現を、第3のデコーダ(208)への入力として受信することと、
前記複数の出力ステップのそれぞれで前記第3のデコーダ(208)によって、可能性のある音声認識仮説に対して第3の確率分布を生成することをさらに含む、請求項11または12に記載のコンピュータ実装方法(400)。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202263269703P | 2022-03-21 | 2022-03-21 | |
| US63/269,703 | 2022-03-21 | ||
| PCT/US2023/064253 WO2023183730A1 (en) | 2022-03-21 | 2023-03-13 | Unified cascaded encoder asr model for dynamic model sizes |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2025509923A JP2025509923A (ja) | 2025-04-11 |
| JP7843855B2 true JP7843855B2 (ja) | 2026-04-10 |
Family
ID=85937494
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024556056A Active JP7843855B2 (ja) | 2022-03-21 | 2023-03-13 | 動的モデルサイズのための統合されたカスケードエンコーダasrモデル |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US12417770B2 (ja) |
| EP (1) | EP4476720A1 (ja) |
| JP (1) | JP7843855B2 (ja) |
| WO (1) | WO2023183730A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12417770B2 (en) * | 2022-03-21 | 2025-09-16 | Google Llc | Unified cascaded encoder ASR model for dynamic model sizes |
| US12505827B1 (en) * | 2023-03-31 | 2025-12-23 | Amazon Technologies, Inc. | Customizable latency for automatic speech recognition |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021150791A1 (en) | 2020-01-22 | 2021-07-29 | Google Llc | Attention-based joint acoustic and text on-device end-to-end model |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020153736A1 (en) * | 2019-01-23 | 2020-07-30 | Samsung Electronics Co., Ltd. | Method and device for speech recognition |
| WO2020226777A1 (en) * | 2019-05-03 | 2020-11-12 | Google Llc | End-to-end automated speech recognition on numeric sequences |
| US12136411B2 (en) * | 2020-04-03 | 2024-11-05 | International Business Machines Corporation | Training of model for processing sequence data |
| US12154581B2 (en) * | 2020-10-20 | 2024-11-26 | Google Llc | Cascaded encoders for simplified streaming and non-streaming ASR |
| US11908458B2 (en) * | 2020-12-29 | 2024-02-20 | International Business Machines Corporation | Customization of recurrent neural network transducers for speech recognition |
| US11715458B2 (en) * | 2021-03-23 | 2023-08-01 | Google Llc | Efficient streaming non-recurrent on-device end-to-end model |
| US11810552B2 (en) * | 2021-07-02 | 2023-11-07 | Mitsubishi Electric Research Laboratories, Inc. | Artificial intelligence system for sequence-to-sequence processing with attention adapted for streaming applications |
| JP7559288B1 (ja) * | 2021-10-04 | 2024-10-01 | グーグル エルエルシー | カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 |
| US12417770B2 (en) * | 2022-03-21 | 2025-09-16 | Google Llc | Unified cascaded encoder ASR model for dynamic model sizes |
| CN119096292A (zh) * | 2022-03-25 | 2024-12-06 | 谷歌有限责任公司 | 利用联合语言标识的流式端到端多语言语音识别 |
| US12586579B2 (en) * | 2022-11-17 | 2026-03-24 | Google Llc | End-to-end segmentation in a two-pass cascaded encoder automatic speech recognition model |
| WO2024182213A1 (en) * | 2023-02-28 | 2024-09-06 | Google Llc | Semantic segmentation with language models for long-form automatic speech recognition |
-
2023
- 2023-03-13 US US18/182,925 patent/US12417770B2/en active Active
- 2023-03-13 EP EP23715709.4A patent/EP4476720A1/en active Pending
- 2023-03-13 WO PCT/US2023/064253 patent/WO2023183730A1/en not_active Ceased
- 2023-03-13 JP JP2024556056A patent/JP7843855B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021150791A1 (en) | 2020-01-22 | 2021-07-29 | Google Llc | Attention-based joint acoustic and text on-device end-to-end model |
Also Published As
| Publication number | Publication date |
|---|---|
| US20230326461A1 (en) | 2023-10-12 |
| EP4476720A1 (en) | 2024-12-18 |
| WO2023183730A1 (en) | 2023-09-28 |
| US12417770B2 (en) | 2025-09-16 |
| JP2025509923A (ja) | 2025-04-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7575640B1 (ja) | 希少単語音声認識のための大規模言語モデルデータ選択 | |
| JP7679468B2 (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
| JP7554925B2 (ja) | 簡略化されたストリーミングおよび非ストリーミングasr用のカスケードエンコーダ | |
| JP7488381B2 (ja) | デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 | |
| JP7590520B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
| JP7741196B2 (ja) | 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル | |
| JP7559288B1 (ja) | カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 | |
| JP2025111462A (ja) | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 | |
| JP7765622B2 (ja) | Rnn-tとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合 | |
| JP2025510175A (ja) | 共同言語識別を用いたエンドツーエンド多言語音声認識のストリーミング | |
| JP7843855B2 (ja) | 動的モデルサイズのための統合されたカスケードエンコーダasrモデル | |
| JP7802924B2 (ja) | 非自己回帰デコーディングによるストリーミングrnnトランスデューサの検討 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250115 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250115 |
|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20241218 Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20241218 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20251021 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20260109 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260317 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260331 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7843855 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |