JP7234415B2 - 音声認識のためのコンテキストバイアス - Google Patents
音声認識のためのコンテキストバイアス Download PDFInfo
- Publication number
- JP7234415B2 JP7234415B2 JP2021566032A JP2021566032A JP7234415B2 JP 7234415 B2 JP7234415 B2 JP 7234415B2 JP 2021566032 A JP2021566032 A JP 2021566032A JP 2021566032 A JP2021566032 A JP 2021566032A JP 7234415 B2 JP7234415 B2 JP 7234415B2
- Authority
- JP
- Japan
- Prior art keywords
- bias
- phrases
- biased
- encoder
- attention module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 104
- 238000000034 method Methods 0.000 claims description 77
- 230000015654 memory Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 33
- 238000013518 transcription Methods 0.000 claims description 26
- 230000035897 transcription Effects 0.000 claims description 26
- 230000036961 partial effect Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims 1
- 230000003750 conditioning effect Effects 0.000 description 18
- 238000003860 storage Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
P(yt|hx,y<t)=ソフトマックス(Ws[ct;dt]+bs) (3)
によって与えられ、ここで、Wsおよびbsは、再び学習可能なパラメータであり、[ct;dt]は、2つのベクトルの連結を表す。モデルは、識別損失を最小化するようにトレーニングされる。
LLAS=-logP(y|x) (4)
LCLAS=-logP(y|x,z) (式9)
102 ユーザ
104 音声発話、発話
106 デバイス、ユーザデバイス
108 オーディオ信号、オーディオデータ
109 特徴抽出モジュール
110 音響特徴、音響特徴フレーム、オーディオ特徴、オーディオ特徴ベクトル
111 コンテキストデータ
113 バイアスフレーズセレクタ
114 コンテキストバイアスフレーズ、フレーズ、バイアスフレーズ、トレーニングバイアスフレーズ
114F バイアス接頭辞、接頭辞
115 バイアス条件付けモジュール
116 書記素、n-gramフレーズ、データ
117 無バイアス入力
140 デコーダ
150 トランスクリプション、トランスクリプト
151 部分的トランスクリプション、部分的トランスクリプト
200 音声認識モデル、CLASモデルアーキテクチャ、CLASモデル、CLASモジュール、モデル
210 オーディオエンコーダ、エンコーダ、第1のエンコーダ
212 オーディオベクトル、符号化されたオーディオベクトル、高レベル特徴(隠れ状態)、エンコーダ状態ベクトル
218 オーディオ注意モジュール、注意モジュール、第1の注意モジュール
220 バイアスエンコーダ、オーディオエンコーダ、デコーダ
222 バイアスベクトル、固定次元表現、ベクトル
228 バイアス注意モジュール、注意モジュール
230 オーディオ注意ベクトル、注意ベクトル、コンテキストベクトル、オーディオコンテキストベクトル
232 バイアス注意ベクトル、コンテキスト注意ベクトル、注意ベクトル、コンテキスト、バイアスコンテキストベクトル
234 合成ベクトル、連結されたコンテキストベクトル
236 デコーダオーディオ状態、デコーダ状態、状態ベクトル
238 デコーダコンテキスト状態、状態ベクトル
240 デコーダ
241 デコーダ出力、出力
242 ソフトマックス層
243 ビームサーチモジュール
244 書記素出力、書記素、出力、音声要素
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ、構成要素
520 メモリ、構成要素
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素、高速インターフェース、高速コントローラ
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素、低速コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (28)
- データ処理ハードウェア(510)において、発話(104)を符号化するオーディオデータ(108)を受信するステップと、
前記データ処理ハードウェア(510)によって、前記発話(104)のコンテキストに対応するバイアスフレーズ(114)のセットを取得するステップであって、前記バイアスフレーズ(114)のセット内の各バイアスフレーズ(114)が1つまたは複数の単語を含む、ステップと、
前記データ処理ハードウェア(510)によって、音声認識モデル(200)を使用して、前記音声認識モデル(200)からの出力(241)を生成するために、前記オーディオデータ(108)から導出された音響特徴(110)を処理するステップであって、前記音声認識モデル(200)が、
第1のエンコーダ(210)および対応する第1の注意モジュール(218)であって、前記第1のエンコーダ(210)が前記音響特徴(110)を受信するように構成された、第1のエンコーダ(210)および対応する第1の注意モジュール(218)と、
バイアスエンコーダ(220)および対応するバイアス注意モジュール(228)であって、前記バイアスエンコーダ(220)が前記取得されたバイアスフレーズ(114)のセットを示すデータを受信するように構成された、バイアスエンコーダ(220)および対応するバイアス注意モジュール(228)と、
前記第1の注意モジュール(218)の出力(230)と前記バイアス注意モジュール(228)の出力(232)とに基づいて音声要素(244)のシーケンスの尤度を決定するように構成されたデコーダ(240)であって、前記デコーダ(240)が、
前記音声認識モデル(200)から出力された以前の書記素のための埋め込みベクトルと、
前記デコーダ(240)の以前の隠れ状態と、
前記第1の注意モジュール(218)によって出力されたオーディオコンテキストベクトル(230)と、
前記バイアス注意モジュール(228)によって出力されたバイアスコンテキストベクトル(232)と
に基づいて隠れ状態を決定するように構成された、デコーダ(240)と
を備える、ステップと、
前記データ処理ハードウェア(510)によって、前記音声認識モデル(200)からの前記出力(241)に基づいて前記発話(104)に対するトランスクリプト(150)を決定するステップと
を含む方法(400)。 - 前記バイアスエンコーダ(220)が、前記バイアスフレーズ(114)のセット内のバイアスフレーズ(114)ごとに対応するバイアスコンテキストベクトル(232)を符号化するように構成され、
前記バイアス注意モジュール(228)が、前記バイアスコンテキストベクトル(232)に対する注意を計算するように構成された、請求項1に記載の方法(400)。 - 前記バイアス注意モジュール(228)が、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)のいずれにも対応しない追加のバイアスコンテキストベクトル(232)を受信するように構成され、前記追加のバイアスコンテキストベクトル(232)が、前記デコーダ(240)によって決定された前音声要素(244)のシーケンスの尤度を前記バイアスフレーズ(114)のいずれに向けてもバイアスしないオプションを表す、請求項2に記載の方法(400)。
- 前記バイアスエンコーダ(220)および前記バイアス注意モジュール(228)が、前記音声認識モデル(200)のトレーニング中に指定されない前記バイアスフレーズ(114)のセット内の可変数のバイアスフレーズ(114)で動作するように構成された、請求項2または3に記載の方法(400)。
- 前記第1のエンコーダ(210)、前記第1の注意モジュール(218)、前記バイアスエンコーダ(220)、前記バイアス注意モジュール(228)、および前記デコーダ(240)が、音響特徴フレームのシーケンスから書記素のシーケンスを予測するように共同でトレーニングされる、請求項1から4のいずれか一項に記載の方法(400)。
- 前記音声要素(244)が、単語、部分語、または書記素である、請求項1から5のいずれか一項に記載の方法(400)。
- 前記第1のエンコーダ(210)が、積層型リカレントニューラルネットワーク(RNN)を備える、請求項1から6のいずれか一項に記載の方法(400)。
- 前記デコーダ(240)が、出力トークンのシーケンスの確率を計算するように構成された積層型単方向RNNを備える、請求項1から7のいずれか一項に記載の方法(400)。
- 前記第1の注意モジュール(218)が、前記デコーダ(240)の以前の隠れ状態と、前記発話(104)に対して前記第1のエンコーダ(210)によって出力されたコンテキストベクトルの完全なシーケンスとの関数として注意を計算するように構成され、
前記バイアス注意モジュール(228)が、前記デコーダ(240)の前記以前の隠れ状態と、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)を表すコンテキストベクトルの完全なシーケンスとの関数として注意を計算するように構成された、請求項1から8のいずれか一項に記載の方法(400)。 - 前記バイアスフレーズ(114)のセットが、特定のユーザに対してパーソナライズされた連絡先の名前のセットを含む、請求項1から9のいずれか一項に記載の方法(400)。
- 前記バイアスフレーズ(114)のセットが、メディアアイテム名のセットを含む、請求項1から10のいずれか一項に記載の方法(400)。
- 前記データ処理ハードウェア(510)によって、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)に対応するバイアス接頭辞(114F)のリストを取得するステップであって、前記バイアス接頭辞(114F)のリスト内の各バイアス接頭辞(114F)が、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)のうちの1つまたは複数の最初の部分を表す、ステップと、
前記データ処理ハードウェア(510)によって、前記音声認識モデル(200)を使用して、前記発話(104)に対する部分的なトランスクリプション(151)が前記バイアス接頭辞(114F)のリスト内の前記バイアス接頭辞(114F)のうちの1つを含むかどうかを判定するステップと、
前記発話(104)に対する前記部分的なトランスクリプション(151)が前記バイアス接頭辞(114F)のうちの1つを含む場合、
前記データ処理ハードウェア(510)によって、前記部分的なトランスクリプション(151)内に含まれる前記バイアス接頭辞(114F)のうちの前記1つを含む前記バイアスフレーズ(114)のセット内の1つまたは複数のバイアスフレーズ(114)のサブセットを識別するステップと、
前記データ処理ハードウェア(510)によって、前記音声認識モデル(200)をバイアスするために前記1つまたは複数のバイアスフレーズ(114)の前記識別されたサブセットのみを有効にするステップと
をさらに含む、請求項1から11のいずれか一項に記載の方法(400)。 - 前記バイアス接頭辞(114F)のリスト内の少なくとも1つのバイアス接頭辞(114F)が、前記バイアスフレーズ(114)のセット内の対応するバイアスフレーズ(114)の最初の単語を含み、前記対応するバイアスフレーズ(114)の最後の単語を除外する、請求項12に記載の方法(400)。
- 前記データ処理ハードウェア(510)によって、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)に対応するバイアス接頭辞(114F)のリストを取得するステップであって、前記バイアス接頭辞(114F)のリスト内の各バイアス接頭辞(114F)が前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)のうちの1つまたは複数の最初の部分を表す、ステップと、
前記データ処理ハードウェア(510)によって、前記バイアス接頭辞(114F)のリスト内の前記バイアス接頭辞(114F)のうちの1つまたは複数が前記発話(104)に対する部分的なトランスクリプション(151)内に含まれているかどうかに基づいて、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)に対する前記バイアスエンコーダ(220)の出力を符号化するための前記バイアス注意モジュール(228)のバイアス注意確率を調整するステップと
をさらに含む、請求項1から13のいずれか一項に記載の方法(400)。 - データ処理ハードウェア(510)と、
前記データ処理ハードウェア(510)と通信するメモリハードウェア(520)であって、前記メモリハードウェア(520)が、前記データ処理ハードウェア(510)上で実行されると前記データ処理ハードウェア(510)に、
発話(104)を符号化するオーディオデータ(108)を受信する動作と、
前記発話(104)のコンテキストに対応するバイアスフレーズ(114)のセットを取得する動作であって、前記バイアスフレーズ(114)のセット内の各バイアスフレーズ(114)が1つまたは複数の単語を含む、動作と、
音声認識モデル(200)を使用して、前記音声認識モデル(200)からの出力(241)を生成するために、前記オーディオデータ(108)から導出された音響特徴(110)を処理する動作であって、前記音声認識モデル(200)が、
第1のエンコーダ(210)および対応する第1の注意モジュール(218)であって、前記第1のエンコーダ(210)が前記音響特徴(110)を受信するように構成された、第1のエンコーダ(210)および対応する第1の注意モジュール(218)と、
バイアスエンコーダ(220)および対応するバイアス注意モジュール(228)であって、前記バイアスエンコーダ(220)が前記取得されたバイアスフレーズ(114)のセットを受信するように構成された、バイアスエンコーダ(220)および対応するバイアス注意モジュール(228)と、
前記第1の注意モジュール(218)の出力(230)と前記バイアス注意モジュール(228)の出力(232)とに基づいて音声要素(244)のシーケンスの尤度を決定するように構成されたデコーダ(240)と
を備え、前記デコーダ(240)が、
前記音声認識モデル(200)から出力された以前の書記素のための埋め込みベクトルと、
前記デコーダ(240)の以前の隠れ状態と、
前記第1の注意モジュール(218)によって出力されたオーディオコンテキストベクトル(230)と、
前記バイアス注意モジュール(228)によって出力されたバイアスコンテキストベクトル(232)と
に基づいて隠れ状態を決定するように構成された、デコーダ(240)と、を備える、動作と、
前記音声認識モデル(200)からの前記出力(241)に基づいて前記発話(104)に対するトランスクリプト(150)を決定する動作と
を含む動作を実行させる命令を記憶する、メモリハードウェア(520)と
を備えるシステム(100)。 - 前記バイアスエンコーダ(220)が、前記バイアスフレーズ(114)のセット内のバイアスフレーズ(114)ごとに対応するバイアスコンテキストベクトル(232)を符号化するように構成され、
前記バイアス注意モジュール(228)が、前記バイアスコンテキストベクトル(232)に対する注意を計算するように構成された、請求項15に記載のシステム(100)。 - 前記バイアス注意モジュール(228)が、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)のいずれにも対応しない追加のバイアスコンテキストベクトル(232)を受信するように構成され、前記追加のバイアスコンテキストベクトル(232)が、前記デコーダ(240)によって決定された前音声要素(244)のシーケンスの尤度を前記バイアスフレーズ(114)のいずれに向けてもバイアスしないオプションを表す、請求項16に記載のシステム(100)。
- 前記バイアスエンコーダ(220)および前記バイアス注意モジュール(228)が、前記音声認識モデル(200)のトレーニング中に指定されない前記バイアスフレーズ(114)のセット内の可変数のバイアスフレーズ(114)で動作するように構成された、請求項16または17に記載のシステム(100)。
- 前記第1のエンコーダ(210)、前記第1の注意モジュール(218)、前記バイアスエンコーダ(220)、前記バイアス注意モジュール(228)、および前記デコーダ(240)が、音響特徴フレームのシーケンスから書記素のシーケンスを予測するように共同でトレーニングされる、請求項15から18のいずれか一項に記載のシステム(100)。
- 前記音声要素(244)が、単語、部分語、または書記素である、請求項15から19のいずれか一項に記載のシステム(100)。
- 前記第1のエンコーダ(210)が、積層型リカレントニューラルネットワーク(RNN)を備える、請求項15から20のいずれか一項に記載のシステム(100)。
- 前記デコーダ(240)が、出力トークンのシーケンスの確率を計算するように構成された積層型単方向RNNを備える、請求項15から21のいずれか一項に記載のシステム(100)。
- 前記第1の注意モジュール(218)が、前記デコーダ(240)の以前の隠れ状態と、前記発話(104)に対して前記第1のエンコーダ(210)によって出力されたコンテキストベクトルの完全なシーケンスとの関数として注意を計算するように構成され、
前記バイアス注意モジュール(228)が、前記デコーダ(240)の前記以前の隠れ状態と、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)を表すコンテキストベクトルの完全なシーケンスとの関数として注意を計算するように構成された、請求項15から22のいずれか一項に記載のシステム(100)。 - 前記バイアスフレーズ(114)のセットが、特定のユーザに対してパーソナライズされた連絡先の名前のセットを含む、請求項15から23のいずれか一項に記載のシステム(100)。
- 前記バイアスフレーズ(114)のセットが、メディアアイテム名のセットを含む、請求項15から24のいずれか一項に記載のシステム(100)。
- 前記動作が、
前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)に対応するバイアス接頭辞(114F)のリストを取得する動作であって、前記バイアス接頭辞(114F)のリスト内の各バイアス接頭辞(114F)が、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)のうちの1つまたは複数の最初の部分を表す、動作と、
前記音声認識モデル(200)を使用して、前記発話(104)に対する部分的なトランスクリプション(151)が前記バイアス接頭辞(114F)のリスト内の前記バイアス接頭辞(114F)のうちの1つを含むかどうかを判定する動作と、
前記発話(104)に対する前記部分的なトランスクリプション(151)が前記バイアス接頭辞(114F)のうちの1つを含む場合、
前記部分的なトランスクリプション(151)内に含まれる前記バイアス接頭辞(114F)のうちの前記1つを含む前記バイアスフレーズ(114)のセット内の1つまたは複数のバイアスフレーズ(114)のサブセットを識別する動作と、
前記音声認識モデル(200)をバイアスするために前記1つまたは複数のバイアスフレーズ(114)の前記識別されたサブセットのみを有効にする動作と
をさらに含む、請求項15から25のいずれか一項に記載のシステム(100)。 - 前記バイアス接頭辞(114F)のリスト内の少なくとも1つのバイアス接頭辞(114F)が、前記バイアスフレーズ(114)のセット内の対応するバイアスフレーズ(114)の最初の単語を含み、前記対応するバイアスフレーズ(114)の最後の単語を除外する、請求項26に記載のシステム(100)。
- 前記動作が、
前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)に対応するバイアス接頭辞(114F)のリストを取得する動作であって、前記バイアス接頭辞(114F)のリスト内の各バイアス接頭辞(114F)が前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)のうちの1つまたは複数の最初の部分を表す、動作と、
前記バイアス接頭辞(114F)のリスト内の前記バイアス接頭辞(114F)のうちの1つまたは複数が前記発話(104)に対する部分的なトランスクリプション(151)内に含まれているかどうかに基づいて、前記バイアスフレーズ(114)のセット内の前記バイアスフレーズ(114)に対する前記バイアスエンコーダ(220)の出力を符号化するための前記バイアス注意モジュール(228)のバイアス注意確率を調整する動作と
をさらに含む、請求項15から27のいずれか一項に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023025301A JP2023062147A (ja) | 2019-05-06 | 2023-02-21 | 音声認識のためのコンテキストバイアス |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962843824P | 2019-05-06 | 2019-05-06 | |
US62/843,824 | 2019-05-06 | ||
PCT/US2020/026004 WO2020226789A1 (en) | 2019-05-06 | 2020-03-31 | Contextual biasing for speech recognition |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023025301A Division JP2023062147A (ja) | 2019-05-06 | 2023-02-21 | 音声認識のためのコンテキストバイアス |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022531479A JP2022531479A (ja) | 2022-07-06 |
JP7234415B2 true JP7234415B2 (ja) | 2023-03-07 |
Family
ID=70293156
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021566032A Active JP7234415B2 (ja) | 2019-05-06 | 2020-03-31 | 音声認識のためのコンテキストバイアス |
JP2023025301A Pending JP2023062147A (ja) | 2019-05-06 | 2023-02-21 | 音声認識のためのコンテキストバイアス |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023025301A Pending JP2023062147A (ja) | 2019-05-06 | 2023-02-21 | 音声認識のためのコンテキストバイアス |
Country Status (6)
Country | Link |
---|---|
US (2) | US11423883B2 (ja) |
EP (1) | EP3948852A1 (ja) |
JP (2) | JP7234415B2 (ja) |
KR (1) | KR20210150497A (ja) |
CN (1) | CN114097026A (ja) |
WO (1) | WO2020226789A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11158307B1 (en) * | 2019-03-25 | 2021-10-26 | Amazon Technologies, Inc. | Alternate utterance generation |
US11501761B2 (en) * | 2019-04-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
KR102556096B1 (ko) * | 2019-11-29 | 2023-07-18 | 한국전자통신연구원 | 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법 |
US11562264B2 (en) * | 2020-01-29 | 2023-01-24 | Accenture Global Solutions Limited | System and method for using machine learning to select one or more submissions from a plurality of submissions |
CN112767917B (zh) * | 2020-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
KR20230156427A (ko) | 2021-03-23 | 2023-11-14 | 구글 엘엘씨 | 연결 및 축소된 rnn-t |
US12002455B2 (en) * | 2021-07-22 | 2024-06-04 | Qualcomm Incorporated | Semantically-augmented context representation generation |
US12087306B1 (en) * | 2021-11-24 | 2024-09-10 | Meta Platforms, Inc. | Contextualized streaming end-to-end speech recognition with trie-based deep biasing and shallow fusion |
US20230360643A1 (en) * | 2022-05-03 | 2023-11-09 | International Business Machines Corporation | Ontology Driven Contextual Automated Speech Recognition |
US20230360646A1 (en) * | 2022-05-05 | 2023-11-09 | Nuance Communications, Inc. | End-to-end automatic speech recognition system for both conversational and command-and-control speech |
US11978436B2 (en) * | 2022-06-03 | 2024-05-07 | Apple Inc. | Application vocabulary integration with a digital assistant |
EP4325482A1 (en) * | 2022-07-28 | 2024-02-21 | Tata Consultancy Services Limited | Method and system for visual context aware automatic speech recognition |
WO2024091427A1 (en) * | 2022-10-26 | 2024-05-02 | Google Llc | Contextual biasing with text injection |
KR102515914B1 (ko) * | 2022-12-21 | 2023-03-30 | 주식회사 액션파워 | Stt 모델을 활용하는 발음 전사 방법 |
CN117116264B (zh) * | 2023-02-20 | 2024-07-23 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
CN117875434B (zh) * | 2024-03-13 | 2024-06-04 | 中国科学技术大学 | 一种用于扩展输入上下文长度的金融大模型长度外推方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180045A (ja) | 2017-04-04 | 2018-11-15 | 日本電信電話株式会社 | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム |
JP2019020597A (ja) | 2017-07-18 | 2019-02-07 | 日本放送協会 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9502032B2 (en) * | 2014-10-08 | 2016-11-22 | Google Inc. | Dynamically biasing language models |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US9691384B1 (en) * | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
-
2020
- 2020-03-31 JP JP2021566032A patent/JP7234415B2/ja active Active
- 2020-03-31 WO PCT/US2020/026004 patent/WO2020226789A1/en unknown
- 2020-03-31 EP EP20719909.2A patent/EP3948852A1/en not_active Withdrawn
- 2020-03-31 CN CN202080048337.3A patent/CN114097026A/zh active Pending
- 2020-03-31 KR KR1020217036327A patent/KR20210150497A/ko unknown
- 2020-03-31 US US16/836,445 patent/US11423883B2/en active Active
-
2022
- 2022-07-26 US US17/815,049 patent/US12051407B2/en active Active
-
2023
- 2023-02-21 JP JP2023025301A patent/JP2023062147A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180045A (ja) | 2017-04-04 | 2018-11-15 | 日本電信電話株式会社 | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム |
JP2019020597A (ja) | 2017-07-18 | 2019-02-07 | 日本放送協会 | エンドツーエンド日本語音声認識モデル学習装置およびプログラム |
Non-Patent Citations (2)
Title |
---|
Antoine Bruguier et. al.,Phoebe: Pronunciation-aware Contextualization for End-to-end Speech Recognition,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2019年04月17日,https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8682441 |
Golan Pundak et. al.,Deep Context: End-to-end Contextual Speech Recognition,2018 IEEE Spoken Language Technology Workshop (SLT),IEEE,2019年02月14日,https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8639034 |
Also Published As
Publication number | Publication date |
---|---|
US11423883B2 (en) | 2022-08-23 |
US20220366897A1 (en) | 2022-11-17 |
US20200357387A1 (en) | 2020-11-12 |
JP2023062147A (ja) | 2023-05-02 |
EP3948852A1 (en) | 2022-02-09 |
WO2020226789A1 (en) | 2020-11-12 |
JP2022531479A (ja) | 2022-07-06 |
CN114097026A (zh) | 2022-02-25 |
KR20210150497A (ko) | 2021-12-10 |
US12051407B2 (en) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7234415B2 (ja) | 音声認識のためのコンテキストバイアス | |
JP7417634B2 (ja) | 音声認識のためのエンドツーエンドモデルでコンテキスト情報を使用すること | |
Pundak et al. | Deep context: end-to-end contextual speech recognition | |
US12073824B2 (en) | Two-pass end to end speech recognition | |
US8996366B2 (en) | Multi-stage speaker adaptation | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
JP2017513047A (ja) | 音声認識における発音予測 | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
US11594212B2 (en) | Attention-based joint acoustic and text on-device end-to-end model | |
EP4060657A1 (en) | Method and apparatus with decoding in neural network for speech recognition | |
JP2024512606A (ja) | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 | |
JP2024512607A (ja) | 単語のセグメント化を正則化すること | |
Savitha | Deep recurrent neural network based audio speech recognition system | |
US20240021190A1 (en) | Sub-models for Neural Contextual Biasing with Attention and Embedding Space | |
US20230335122A1 (en) | Sub-models For Neural Contextual Biasing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7234415 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |