JP7436760B1 - サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス - Google Patents
サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス Download PDFInfo
- Publication number
- JP7436760B1 JP7436760B1 JP2023550664A JP2023550664A JP7436760B1 JP 7436760 B1 JP7436760 B1 JP 7436760B1 JP 2023550664 A JP2023550664 A JP 2023550664A JP 2023550664 A JP2023550664 A JP 2023550664A JP 7436760 B1 JP7436760 B1 JP 7436760B1
- Authority
- JP
- Japan
- Prior art keywords
- confidence
- word
- subword
- speech recognition
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 230000004931 aggregating effect Effects 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010068829 Overconfidence Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
Description
P(yi|e,y1:i-1))=Softmax(Linear(φ(i|e,y1:i-1))) (1)
を使用して、仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスにおけるサブワードユニット毎に確率分布をリスコアするように構成されており、φは、リスコアラ復号器230のための最後から2番目の層の起動を表している。最も高い第2のパスログ確率
b(yi)=[Emb(yi);φ(i|e,y1:i-1);log(p(yi));top-K(i)] (3)
b={b(y1)、…、b(yi)} (4)
c(yi)=σ(Transformer(CA(e),SA(b))) (5)
c(yi)=σ(Transformer(CA(e)+CA(h),SA(b))) (8)
のようにサブワードWP毎にコンフィデンス出力c(yi)の生成を許容する。
12 話された発声
100 スピーチ環境、スピーチ対応環境、システム
110 ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 音響サブシステム
116、116a 音響取込みデバイス(例えばマイクロホン)
116a 音響出力デバイス
116、116b スピーチ出力デバイス(例えばスピーカ)
118 プログラムまたはアプリケーション、自動アシスタントアプリケーション
119 応答
200、200a、200b 音声認識装置
202 ストリーミング音響データ
204 ストリーミング表現形式
206 第1のパス
208 第2のパス
210 共有符号器
212 出力
220 RNN-T復号器
222 出力
230 リスコアラ復号器
232 最終認識結果、音声認識結果
235 線形+ソフトマックス
240 熟考復号器
241 言語符号器
242 コンフィデンス埋込み
243 仮説符号化h
244 仮説アテンション機構
245 仮説文脈ベクトル
246 音響アテンション機構
247 音響文脈ベクトル
250 音響符号器
252 音響符号化e1:T、音響符号化e、e1:T
300 コンフィデンス予測モジュール(CEM)
301 コンフィデンス埋込みb(yi)
302 コンフィデンス、コンフィデンス出力c(yi)、コンフィデンス出力スコア
310 自己アテンション機構、第1のアテンション機構
312 コンフィデンス特徴ベクトルb
320 音響相互アテンション機構、第2のアテンション機構
322 音響文脈ベクトル
330 言語相互アテンション機構、相互アテンションブロック
332 言語文脈ベクトル
340 線形+シグモイドブロック、出力層
350 発声レベルコンフィデンススコア
400 例示的コンフィデンスベースのルーチンの略図
402 サーバ側音声認識装置、第2の音声認識装置
410 遠隔サーバ
450 決定ブロック
500 ワードに対する最終仮説サブワードユニットのコンフィデンスのみを使用した音声認識装置によって認識されたそのワードに対するワードレベルコンフィデンスを予測する方法
600 例示的コンピューティングデバイス
600a 標準サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ、非一時的メモリ
630 記憶デバイス
640 高速インタフェース/コントローラ
650 高速拡張ポート
660 低速インタフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
CA(e) 音響相互アテンション、音響文脈ベクトル
CA(h) 言語相互アテンション
e 音響符号化
e1:T 音響符号化
es 共有符号化
H 候補仮説
h 仮説符号化
SA(b) 自己アテンションコンフィデンス特徴ベクトル
y1、y2、y3、…、yM 仮説サブワードユニット
Claims (28)
- データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
音声認識装置(200)から、ユーザ(10)によって話される発声(12)に対する音声認識結果(232)を受け取るステップであって、前記音声認識結果(232)が前記発声(12)の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットが、対応する出力ステップで前記音声認識装置(200)から出力される、ステップと、
コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、
対応するサブワードユニットが前記音声認識装置(200)から出力されると、前記対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込み(242)を獲得するステップと、
前記対応するサブワードユニットを続行する仮説サブワードユニットの前記シーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込み(242)に対する前記それぞれのコンフィデンス埋込み(242)に自己付随する第1のアテンション機構(310)を使用して、コンフィデンス特徴ベクトル(312)を生成するステップと、
前記発声(12)に対応する音響データ(202)からセグメント化された対応する音響フレームとそれぞれ関連付けられた音響符号化(252)のシーケンスに相互付随する第2のアテンション機構(320)を使用して、音響文脈ベクトル(332)を生成するステップと、
前記コンフィデンス予測モジュール(300)の出力層(340)からの出力として、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記コンフィデンス特徴ベクトル(312)および音響特徴ベクトル(322)に基づいて、前記対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップと、
仮説サブワードユニットの前記シーケンスによって形成される前記1つまたは複数のワードの各々毎に、前記ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップであって、前記それぞれのワードレベルコンフィデンススコアが、前記ワード中の最後のサブワードユニットに対して生成される前記それぞれのコンフィデンス出力スコア(302)に等しい、ステップと、
前記発声(12)の前記1つまたは複数のワードに対して決定された前記それぞれのワードレベルコンフィデンススコアを集約することによって前記音声認識結果(232)に対する発声レベルコンフィデンススコア(350)を決定するステップと
を含む動作を実施させるコンピュータ実施方法(500)。 - 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
前記対応する出力ステップにおける前記音声認識装置(200)のソフトマックスポステリア特徴と、
前記対応するサブワードユニットに対するサブワード埋込み特徴と
を含む、請求項1に記載のコンピュータ実施方法(500)。 - 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
前記対応する出力ステップで前記音声認識装置(200)から出力される前記対応するサブワードユニットの確率/可能性と関連付けられる確率値を示すログポステリアログ特徴と、
前記音声認識装置(200)によってリスコアされる上位K個の候補仮説に対する前記対応する出力ステップにおけるK個の最大ログ確率を示す上位K個の特徴であって、前記上位K個の候補仮説の各々が、前記発声(12)の1つまたは複数のワードを形成する仮説サブワードユニットのそれぞれのシーケンスによって表される、上位K個の特徴と
をさらに含む、請求項1または2に記載のコンピュータ実施方法(500)。 - 前記サブワードユニットがワードピースを含む、請求項1から3のいずれか一項に記載のコンピュータ実施方法(500)。
- 前記サブワードユニットが書記素を含む、請求項1から4のいずれか一項に記載のコンピュータ実施方法(500)。
- 前記音声認識装置(200)が、
第1のパス(206)の間、複数の候補仮説を生成するように構成された変換器復号器モデル(220)であって、個々の候補仮説が前記発声(12)のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される、変換器復号器モデル(220)と、
第2のパス(208)の間、前記第1のパスの間に前記変換器復号器モデルによって生成された前記複数の候補仮説からの上位K個の候補仮説をリスコアするように構成されたリスコアラ復号器モデル(230)と
を備え、最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットの前記それぞれのシーケンスによって表される前記リスコアラ復号器モデル(230)によってリスコアされる前記上位K個の候補仮説中の候補仮説が、前記ユーザ(10)によって話された前記発声(12)に対する前記音声認識結果(232)として前記リスコアラ復号器モデル(230)から出力される、請求項1から5のいずれか一項に記載のコンピュータ実施方法(500)。 - 前記変換器復号器モデル(220)が、Recurrent Neural Network-Transducer(RNN-T)モデルアーキテクチャを含み、
前記リスコアラ復号器モデル(230)が、Listen, Attend, and Spell(LAS)モデルアーキテクチャを含む、
請求項6に記載のコンピュータ実施方法(500)。 - 前記動作が、
前記第2のパス(208)の間、前記音声認識装置(200)の言語符号器(241)を使用して、前記第1のパス(206)の間に前記変換器復号器モデル(220)によって生成された前記複数の候補仮説の各々を符号化することによって複数の仮説符号化(243)を生成するステップと、
前記コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、前記複数の仮説符号化(243)に相互付随する第3のアテンション機構を使用して、言語文脈ベクトル(332)を生成するステップと
をさらに含み、前記対応するサブワードユニットに対する前記それぞれのコンフィデンス出力スコア(302)を生成するステップが、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記言語文脈ベクトル(332)にさらに基づく、請求項6または7に記載のコンピュータ実施方法(500)。 - 前記複数の候補仮説の各々の符号化が、個々の候補仮説を対応する仮説符号化に双方向性符号化するステップと、
個々の対応する仮説符号化を連結することによって前記複数の仮説符号化(243)を生成するステップとを含む、
請求項8に記載のコンピュータ実施方法(500)。 - 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が合同で訓練される、請求項1から9のいずれか一項に記載のコンピュータ実施方法(500)。
- 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が個別に訓練される、請求項1から10のいずれか一項に記載のコンピュータ実施方法(500)。
- 前記コンフィデンス予測モジュール(300)が、前記音声認識装置(200)と関連付けられた特徴に基づく二進交差エントロピー損失を使用して訓練される、請求項1から11のいずれか一項に記載のコンピュータ実施方法(500)。
- 前記動作が、
前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)がコンフィデンス閾値を満足しているかどうかを決定するステップと、
前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足していない場合、前記発声(12)に対応する音響データ(202)を別の音声認識装置(402)に送信するステップであって、前記他の音声認識装置(402)が前記音響データ(202)を処理して前記発声(12)の表現形式(204)を生成するように構成される、ステップと
をさらに含む、請求項1から12のいずれか一項に記載のコンピュータ実施方法(500)。 - 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)がユーザコンピューティングデバイス(110)上で実行し、
前記他の音声認識装置(402)が、ネットワークを介して前記ユーザコンピューティングデバイス(110)と通信する遠隔サーバ(410)上で実行する、
請求項13に記載のコンピュータ実施方法。 - データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信し、命令を記憶するメモリハードウェア(114)と
を備え、前記命令は、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
音声認識装置(200)から、ユーザ(10)によって話される発声(12)に対する音声認識結果(232)を受け取るステップであって、前記音声認識結果(232)が前記発声(12)の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットが、対応する出力ステップで前記音声認識装置(200)から出力される、ステップと、
コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、
対応するサブワードユニットが前記音声認識装置(200)から出力されると、前記対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込み(242)を獲得するステップと、
前記対応するサブワードユニットを続行する仮説サブワードユニットの前記シーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込み(242)に対する前記それぞれのコンフィデンス埋込み(242)に自己付随する第1のアテンション機構(310)を使用して、コンフィデンス特徴ベクトル(312)を生成するステップと、
前記発声(12)に対応する音響データ(202)からセグメント化された対応する音響フレームとそれぞれ関連付けられた音響符号化(252)のシーケンスに相互付随する第2のアテンション機構(320)を使用して、音響文脈ベクトル(332)を生成するステップと、
前記コンフィデンス予測モジュール(300)の出力層(340)からの出力として、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記コンフィデンス特徴ベクトル(312)および音響特徴ベクトル(322)に基づいて、前記対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップと、
仮説サブワードユニットの前記シーケンスによって形成される前記1つまたは複数のワードの各々毎に、前記ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップであって、前記それぞれのワードレベルコンフィデンススコアが、前記ワード中の最後のサブワードユニットに対して生成される前記それぞれのコンフィデンス出力スコア(302)に等しい、ステップと、
前記発声(12)の前記1つまたは複数のワードに対して決定された前記それぞれのワードレベルコンフィデンススコアを集約することによって前記音声認識結果(232)に対する発声レベルコンフィデンススコア(350)を決定するステップと
を含む動作を実施させる、システム(100)。 - 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
前記対応する出力ステップにおける前記音声認識装置(200)のソフトマックスポステリア特徴と、
前記対応するサブワードユニットに対するサブワード埋込み特徴と
を含む、請求項15に記載のシステム(100)。 - 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
前記対応する出力ステップで前記音声認識装置(200)から出力される前記対応するサブワードユニットの確率/可能性と関連付けられる確率値を示すログポステリアログ特徴と、
前記音声認識装置(200)によってリスコアされる上位K個の候補仮説に対する前記対応する出力ステップにおけるK個の最大ログ確率を示す上位K個の特徴であって、前記上位K個の候補仮説の各々が、前記発声の1つまたは複数のワードを形成する仮説サブワードユニットのそれぞれのシーケンスによって表される、上位K個の特徴と
をさらに含む、請求項15または16に記載のシステム(100)。 - 前記サブワードユニットがワードピースを含む、請求項15から17のいずれか一項に記載のシステム(100)。
- 前記サブワードユニットが書記素を含む、請求項15から18のいずれか一項に記載のシステム(100)。
- 前記音声認識装置(200)が、
第1のパス(206)の間、複数の候補仮説を生成するように構成された変換器復号器モデル(220)であって、個々の候補仮説が前記発声(12)のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される、変換器復号器モデル(220)と、
第2のパス(208)の間、前記第1のパスの間に前記変換器復号器モデルによって生成された前記複数の候補仮説からの上位K個の候補仮説をリスコアするように構成される、リスコアラ復号器モデル(230)と
を備え、最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットの前記それぞれのシーケンスによって表される前記リスコアラ復号器モデル(230)によってリスコアされる前記上位K個の候補仮説中の候補仮説が、前記ユーザ(10)によって話された前記発声(12)に対する前記音声認識結果(232)として前記リスコアラ復号器モデル(230)から出力される、請求項15から19のいずれか一項に記載のシステム(100)。 - 前記変換器復号器モデル(220)が、Recurrent Neural Network-Transducer(RNN-T)モデルアーキテクチャを含み、
前記リスコアラ復号器モデル(230)が、Listen, Attend, and Spell(LAS)モデルアーキテクチャを含む、
請求項20に記載のシステム(100)。 - 前記動作が、
前記第2のパス(208)の間、前記音声認識装置(200)の言語符号器(241)を使用して、前記第1のパス(206)の間に前記変換器復号器モデル(220)によって生成された前記複数の候補仮説の各々を符号化することによって複数の仮説符号化(243)を生成するステップと、
前記コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、前記複数の仮説符号化(243)に相互付随する第3のアテンション機構を使用して、言語文脈ベクトル(332)を生成するステップと
をさらに含み、前記対応するサブワードユニットに対する前記それぞれのコンフィデンス出力スコアを生成するステップが、前記コンフィデンス予測モジュールの前記出力層による入力として受け取った前記言語文脈ベクトルにさらに基づく、請求項20または21に記載のシステム(100)。 - 前記複数の候補仮説の各々の符号化が、個々の候補仮説を対応する仮説符号化に双方向性符号化するステップと、
個々の対応する仮説符号化を連結することによって前記複数の仮説符号化(243)を生成するステップとを含む、
請求項22に記載のシステム(100)。 - 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が合同で訓練される、請求項15から23のいずれか一項に記載のシステム(100)。
- 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が個別に訓練される、請求項15から24のいずれか一項に記載のシステム(100)。
- 前記コンフィデンス予測モジュール(300)が、前記音声認識装置(200)と関連付けられた特徴に基づく二進交差エントロピー損失を使用して訓練される、請求項15から25のいずれか一項に記載のシステム(100)。
- 前記動作が、
前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)がコンフィデンス閾値を満足しているかどうかを決定するステップと、
前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足していない場合、前記発声(12)に対応する音響データ(202)を別の音声認識装置(402)に送信するステップであって、前記他の音声認識装置(402)が前記音響データ(202)を処理して前記発声(12)の表現形式(204)を生成するように構成される、ステップと
をさらに含む、請求項15から26のいずれか一項に記載のシステム(100)。 - 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)がユーザコンピューティングデバイス(110)上で実行し、
前記他の音声認識装置(402)が、ネットワークを介して前記ユーザコンピューティングデバイス(110)と通信する遠隔サーバ(410)上で実行する、
請求項27に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/182,592 US11610586B2 (en) | 2021-02-23 | 2021-02-23 | Learning word-level confidence for subword end-to-end automatic speech recognition |
US17/182,592 | 2021-02-23 | ||
PCT/US2022/017534 WO2022182769A1 (en) | 2021-02-23 | 2022-02-23 | Learning word-level confidence for subword end-to-end automatic speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7436760B1 true JP7436760B1 (ja) | 2024-02-22 |
JP2024509515A JP2024509515A (ja) | 2024-03-04 |
Family
ID=80739076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023550664A Active JP7436760B1 (ja) | 2021-02-23 | 2022-02-23 | サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス |
Country Status (6)
Country | Link |
---|---|
US (1) | US11610586B2 (ja) |
EP (1) | EP4292081A1 (ja) |
JP (1) | JP7436760B1 (ja) |
KR (1) | KR20230147685A (ja) |
CN (1) | CN116888662A (ja) |
WO (1) | WO2022182769A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230343333A1 (en) | 2020-08-24 | 2023-10-26 | Unlikely Artificial Intelligence Limited | A computer implemented method for the aut0omated analysis or use of data |
EP4281968A1 (en) * | 2021-01-21 | 2023-11-29 | Citrix Systems Inc. | Active learning via a surrogate machine learning model using knowledge distillation |
CN117043859A (zh) * | 2021-03-24 | 2023-11-10 | 谷歌有限责任公司 | 查找表循环语言模型 |
JP2024512071A (ja) * | 2021-03-26 | 2024-03-18 | グーグル エルエルシー | 自動音声認識のための多言語再スコアリングモデル |
US11710479B1 (en) * | 2021-03-31 | 2023-07-25 | Amazon Technologies, Inc. | Contextual biasing of neural language models using metadata from a natural language understanding component and embedded recent history |
US11915690B1 (en) * | 2021-06-17 | 2024-02-27 | Amazon Technologies, Inc. | Automatic speech recognition |
US12002451B1 (en) * | 2021-07-01 | 2024-06-04 | Amazon Technologies, Inc. | Automatic speech recognition |
US11989507B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US12067362B2 (en) | 2021-08-24 | 2024-08-20 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US12073180B2 (en) | 2021-08-24 | 2024-08-27 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989527B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11977854B2 (en) | 2021-08-24 | 2024-05-07 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US12033618B1 (en) * | 2021-11-09 | 2024-07-09 | Amazon Technologies, Inc. | Relevant context determination |
WO2024108071A1 (en) * | 2022-11-17 | 2024-05-23 | Google Llc | End-to-end segmentation in a two-pass cascaded encoder automatic speech recognition model |
CN116453507B (zh) * | 2023-02-21 | 2023-09-08 | 北京数美时代科技有限公司 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116107A (ja) | 2007-11-07 | 2009-05-28 | Canon Inc | 情報処理装置及び方法 |
US20210020175A1 (en) | 2019-07-17 | 2021-01-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2785081C (en) * | 2009-12-31 | 2021-03-30 | Volt Delta Resources, Llc | Method and system for processing multiple speech recognition results from a single utterance |
-
2021
- 2021-02-23 US US17/182,592 patent/US11610586B2/en active Active
-
2022
- 2022-02-23 CN CN202280015500.5A patent/CN116888662A/zh active Pending
- 2022-02-23 WO PCT/US2022/017534 patent/WO2022182769A1/en active Application Filing
- 2022-02-23 JP JP2023550664A patent/JP7436760B1/ja active Active
- 2022-02-23 EP EP22710232.4A patent/EP4292081A1/en active Pending
- 2022-02-23 KR KR1020237032091A patent/KR20230147685A/ko unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116107A (ja) | 2007-11-07 | 2009-05-28 | Canon Inc | 情報処理装置及び方法 |
US20210020175A1 (en) | 2019-07-17 | 2021-01-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model |
Also Published As
Publication number | Publication date |
---|---|
US11610586B2 (en) | 2023-03-21 |
WO2022182769A1 (en) | 2022-09-01 |
KR20230147685A (ko) | 2023-10-23 |
JP2024509515A (ja) | 2024-03-04 |
US20220270597A1 (en) | 2022-08-25 |
EP4292081A1 (en) | 2023-12-20 |
CN116888662A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7436760B1 (ja) | サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス | |
JP2024511176A (ja) | エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習 | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
JP7554925B2 (ja) | 簡略化されたストリーミングおよび非ストリーミングasr用のカスケードエンコーダ | |
KR20220130699A (ko) | 심의 모델 기반 2패스 종단간 음성 인식 | |
US20220310062A1 (en) | Efficient Streaming Non-Recurrent On-Device End-to-End Model | |
JP2023524088A (ja) | エンドツーエンドの複数話者重複音声認識 | |
US11594212B2 (en) | Attention-based joint acoustic and text on-device end-to-end model | |
US20240321263A1 (en) | Emitting Word Timings with End-to-End Models | |
US20240203409A1 (en) | Multilingual Re-Scoring Models for Automatic Speech Recognition | |
KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
US20240029720A1 (en) | Context-aware Neural Confidence Estimation for Rare Word Speech Recognition | |
US20230298563A1 (en) | Deliberation by Text-Only and Semi-Supervised Training | |
CN118339608A (zh) | 实施为rnn-t的自动语音识别系统中的声学表示和文本表示的融合 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231018 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231018 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7436760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |