JP2023509234A - ストリーミングシーケンスモデルの一貫性予測 - Google Patents
ストリーミングシーケンスモデルの一貫性予測 Download PDFInfo
- Publication number
- JP2023509234A JP2023509234A JP2022552950A JP2022552950A JP2023509234A JP 2023509234 A JP2023509234 A JP 2023509234A JP 2022552950 A JP2022552950 A JP 2022552950A JP 2022552950 A JP2022552950 A JP 2022552950A JP 2023509234 A JP2023509234 A JP 2023509234A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- utterance
- training
- model
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 claims abstract description 149
- 238000009826 distribution Methods 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000015654 memory Effects 0.000 claims description 47
- 238000013518 transcription Methods 0.000 claims description 45
- 230000035897 transcription Effects 0.000 claims description 45
- 201000007201 aphasia Diseases 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000013434 data augmentation Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
q(t,u)=pθ(yu|x1:t,y* 1:u-1) (6)
L=-log pθ(y*|x) (7)
トークン後方の勾配は次のように提供される。
102 ユーザデバイス
104 ユーザ
106 発話
107 ユーザインターフェースジェネレータ
108 オーディオサブシステム
110 音響フレーム
110 入力フレーム
111 データ処理ハードウェア
113 メモリハードウェア
120 トランスクリプション
200 ASRモデル
200a フレームアライメントベースのトランスデューサモデル、RNN-Tモデル
200b 注意ベースのエンコーダ-デコーダ(AED)モデル
201 リモートコンピューティングデバイス
210 エンコーダネットワーク
211 聴取者エンコーダモジュール
220 予測ネットワーク
221 アテンダモジュール、アテンダ
230 ジョイントネットワーク
231 デコーダ
240 ソフトマックス層
300 トレーニングプロセス
301 トレーニングデータセット
302 トレーニング発話ペア
304 非合成音声表現
304a~g 非合成音声表現
306 合成音声表現
306a~g 合成音声表現
308 グラウンドトゥルーストランスクリプション
311 第1の確率分布、非合成音声認識結果
311a~g 非合成音声認識結果
311a 第1の非合成音声認識結果
311b 第2の非合成音声認識結果
311c 第3の非合成音声認識結果
311d 第4の非合成音声認識結果
311g 第7の非合成音声認識結果
312 第2の確率分布、合成音声認識結果
312a~g 合成音声認識結果
312a 第1の合成音声認識結果
312b 第2の非合成音声認識結果
312c 第3の非合成音声認識結果
312d 第4の非合成音声認識結果
312e 第5の非合成音声認識結果
312f 第6の非合成音声認識結果
320 グラウンドトゥルーストランスクリプション
330 テキスト読み上げ(TTS)モジュール
340 教師あり損失項モジュール
342 非合成音声損失項、教師あり損失項
344 合成音声損失項、教師あり損失項
350 一貫性のある損失項モジュール
352 一貫性のある損失項
400 概略図
500 概略図
600 方法
700 コンピューティングデバイス
700a 標準サーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 データ処理ハードウェア、プロセッサ
720 メモリハードウェア、メモリ
730 ストレージデバイス
740 高速インターフェース/コントローラ
750 高速拡張ポート
760 低速インターフェース/コントローラ
770 低速バス
780 ディスプレイ
790 低速拡張ポート
Claims (26)
- データ処理ハードウェア(710)によって実行されると、前記データ処理ハードウェア(710)に、
トレーニング発話ペア(302)のセットを受信するステップであって、各トレーニング発話ペア(302)が、
対応する発話の非合成音声表現(304)と、
前記対応する発話の合成音声表現(306)と
を備える、ステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の複数の出力ステップの各々において、
音声認識モデル(200)による出力のために、前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する第1の確率分布(311)を生成するステップと、
前記音声認識モデル(200)による出力のために、前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する第2の確率分布(312)を生成するステップと、
可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な非合成音声認識仮説に対する前記第2の確率分布(312)に基づいて、前記対応するトレーニング発話ペア(302)の一貫性のある損失項(352)を決定するステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して前記複数の出力ステップの各々において決定された前記一貫性のある損失項(352)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップと、
を含む動作を実行させる、コンピュータ実装方法(600)。 - 前記動作が、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において、
前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、前記対応する発話のグラウンドトゥルーストランスクリプション(120)とに基づいて、非合成音声損失項(342)を生成するステップと、
前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する前記第2の確率分布(312)と、前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)とに基づいて、合成音声損失項(344)を生成するステップと
をさらに含む、請求項1に記載の方法(600)。 - 前記音声認識モデル(200)の前記パラメータが、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項(342、344)とは無関係に、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において決定された前記一貫性のある損失項(352)に基づいて更新される、請求項2に記載の方法(600)。
- 各トレーニング発話ペア(302)における前記合成音声表現(306)が、前記対応する発話を表す合成された音声を備える、請求項1から3のいずれか一項に記載の方法(600)。
- 前記動作が、トレーニング発話ペア(302)ごとに、前記対応する合成音声表現(306)を生成するために、テキスト読み上げ(TTS)モデル(330)を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション(120)を変換するステップをさらに含む、請求項1から4のいずれか一項に記載の方法(600)。
- 前記動作が、少なくとも1つのトレーニング発話ペア(302)について、前記対応する非合成音声表現(304)または前記対応する合成音声表現(306)のうちの少なくとも1つにデータ拡張を適用するステップをさらに含む、請求項1から5のいずれか一項に記載の方法(600)。
- 前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを備える、請求項6に記載の方法(600)。
- 前記対応するトレーニング発話ペア(302)の前記一貫性のある損失項(352)を決定するステップが、可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な非合成音声認識仮説に対する前記第2の確率分布(312)との間のカルバック-ライブラダイバージェンスに基づく、請求項1から7のいずれか一項に記載の方法(600)。
- 前記動作が、前記対応するトレーニング発話ペア(302)の前記一貫性のある損失項(352)を決定する前に、前記音声認識モデル(200)がフレームアラインメントベースのトランスデューサモデル(200a)を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション(120)の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布(311)のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布(312)のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項8に記載の方法(600)。
- 前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項9に記載の方法(600)。
- 前記音声認識モデル(200)が、フレームアラインメントベースのトランスデューサモデル(200a)を備える、請求項1から10のいずれか一項に記載の方法(600)。
- 前記フレームアラインメントベースのトランスデューサモデル(200a)が、リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を備える、請求項11に記載の方法(600)。
- 前記音声認識モデル(200)が、アラインメントベースのエンコーダ-デコーダモデル(200b)を備える、請求項1から10のいずれか一項に記載の方法(600)。
- データ処理ハードウェア(710)と、
前記データ処理ハードウェア(710)と通信するメモリハードウェア(720)であって、前記データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に、
トレーニング発話ペア(302)のセットを受信するステップであって、各トレーニング発話ペア(302)が、
対応する発話の非合成音声表現(304)と、
前記対応する発話の合成音声表現(306)と
を備える、ステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の複数の出力ステップの各々において、
音声認識モデル(200)による出力のために、前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する第1の確率分布(311)を生成するステップと、
前記音声認識モデル(200)による出力のために、前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する第2の確率分布(312)を生成するステップと、
可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な非合成音声認識仮説に対する前記第2の確率分布(312)に基づいて、前記対応するトレーニング発話ペア(302)の一貫性のある損失項(352)を決定するステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して前記複数の出力ステップの各々において決定された前記一貫性のある損失項(352)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップと、
を含む動作を実行させる命令を記憶する、メモリハードウェア(720)と
を備える、システム(700)。 - 前記動作が、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において、
前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、前記対応する発話のグラウンドトゥルーストランスクリプション(120)とに基づいて、非合成音声損失項(342)を生成するステップと、
前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する前記第2の確率分布(312)と、前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)とに基づいて、合成音声損失項(344)を生成するステップと
をさらに含む、請求項14に記載のシステム(700)。 - 前記音声認識モデル(200)の前記パラメータが、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項(342、344)とは無関係に、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において決定された前記一貫性のある損失項(352)に基づいて更新される、請求項15に記載のシステム(700)。
- 各トレーニング発話ペア(302)における前記合成音声表現(306)が、前記対応する発話を表す合成された音声を備える、請求項14から16のいずれか一項に記載のシステム(700)。
- 前記動作が、トレーニング発話ペア(302)ごとに、前記対応する合成音声表現(306)を生成するために、テキスト読み上げ(TTS)モデル(330)を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション(120)を変換するステップをさらに含む、請求項14から17のいずれか一項に記載のシステム(700)。
- 前記動作が、少なくとも1つのトレーニング発話ペア(302)について、前記対応する非合成音声表現(304)または前記対応する合成音声表現(306)のうちの少なくとも1つにデータ拡張を適用するステップをさらに含む、請求項14から18のいずれか一項に記載のシステム(700)。
- 前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを備える、請求項19に記載のシステム(700)。
- 前記対応するトレーニング発話ペア(302)の前記一貫性のある損失項(352)を決定するステップが、可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な非合成音声認識仮説に対する前記第2の確率分布(312)との間のカルバック-ライブラダイバージェンスに基づく、請求項14から20のいずれか一項に記載のシステム(700)。
- 前記動作が、前記対応するトレーニング発話ペア(302)の前記一貫性のある損失項(352)を決定する前に、前記音声認識モデル(200)がフレームアラインメントベースのトランスデューサモデル(200a)を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション(120)の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布(311)のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布(312)のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項21に記載のシステム(700)。
- 前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項22に記載のシステム(700)。
- 前記音声認識モデル(200)が、フレームアラインメントベースのトランスデューサモデル(200a)を備える、請求項14から23のいずれか一項に記載のシステム(700)。
- 前記フレームアラインメントベースのトランスデューサモデル(200a)が、リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を備える、請求項24に記載のシステム(700)。
- 前記音声認識モデル(200)が、アラインメントベースのエンコーダ-デコーダモデル(200b)を備える、請求項14から23のいずれか一項に記載のシステム(700)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062985278P | 2020-03-04 | 2020-03-04 | |
US62/985,278 | 2020-03-04 | ||
PCT/US2021/017147 WO2021178108A1 (en) | 2020-03-04 | 2021-02-08 | Consistency prediction on streaming sequence models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023509234A true JP2023509234A (ja) | 2023-03-07 |
JP7359969B2 JP7359969B2 (ja) | 2023-10-11 |
Family
ID=74856926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022552950A Active JP7359969B2 (ja) | 2020-03-04 | 2021-02-08 | ストリーミングシーケンスモデルの一貫性予測 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11929060B2 (ja) |
EP (1) | EP4088276A1 (ja) |
JP (1) | JP7359969B2 (ja) |
KR (1) | KR20220148245A (ja) |
CN (1) | CN115210809A (ja) |
WO (1) | WO2021178108A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
US11908458B2 (en) * | 2020-12-29 | 2024-02-20 | International Business Machines Corporation | Customization of recurrent neural network transducers for speech recognition |
US20220319506A1 (en) * | 2021-03-31 | 2022-10-06 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
US20230130634A1 (en) * | 2021-10-05 | 2023-04-27 | Google Llc | Optimizing Inference Performance for Conformer |
US20230107695A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Fusion of Acoustic and Text Representations in RNN-T |
CN116783649A (zh) * | 2021-11-15 | 2023-09-19 | 微软技术许可有限责任公司 | 语音识别中的诊断服务 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190304480A1 (en) * | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751239B2 (en) * | 2007-10-04 | 2014-06-10 | Core Wireless Licensing, S.a.r.l. | Method, apparatus and computer program product for providing text independent voice conversion |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10643602B2 (en) | 2018-03-16 | 2020-05-05 | Microsoft Technology Licensing, Llc | Adversarial teacher-student learning for unsupervised domain adaptation |
US10410120B1 (en) | 2019-01-25 | 2019-09-10 | StradVision, Inc. | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same |
US10402977B1 (en) | 2019-01-25 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same |
US10628688B1 (en) * | 2019-01-30 | 2020-04-21 | Stadvision, Inc. | Learning method and learning device, and testing method and testing device for detecting parking spaces by using point regression results and relationship between points to thereby provide an auto-parking system |
US11132992B2 (en) * | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
WO2021069627A1 (en) | 2019-10-10 | 2021-04-15 | Bayer Aktiengesellschaft | Formulation of insecticides comprising propylene carbonate |
CN110738263B (zh) * | 2019-10-17 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种图像识别模型训练的方法、图像识别的方法及装置 |
US11748629B2 (en) * | 2020-01-21 | 2023-09-05 | Moxa Inc. | Device and method of handling anomaly detection |
-
2021
- 2021-02-08 JP JP2022552950A patent/JP7359969B2/ja active Active
- 2021-02-08 EP EP21709828.4A patent/EP4088276A1/en active Pending
- 2021-02-08 WO PCT/US2021/017147 patent/WO2021178108A1/en unknown
- 2021-02-08 CN CN202180017862.3A patent/CN115210809A/zh active Pending
- 2021-02-08 KR KR1020227033561A patent/KR20220148245A/ko active Search and Examination
- 2021-02-08 US US17/170,836 patent/US11929060B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190304480A1 (en) * | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
Non-Patent Citations (4)
Title |
---|
CHIU, CHUNG-CHENG ET AL.: ""STATE-OF-THE-ART SPEECH RECOGNITION WITH SEQUENCE-TO-SEQUENCE MODELS"", [ONLINE], JPN6023012749, 23 February 2018 (2018-02-23), ISSN: 0005025942 * |
LI, JASON ET AL.: "Training Neural Speech Recognition Systems with Synthetic Speech Augmentation"", [ONLINE], JPN6023012748, 2 November 2018 (2018-11-02), ISSN: 0005025943 * |
上乃聖 他: ""End-to-End音声合成を用いた単語単位End-to-End音声認識のデータ拡張"", 情報処理学会研究報告, vol. Vol.2018-SLP-125, No.2, JPN6023012751, 3 December 2018 (2018-12-03), pages 1 - 5, ISSN: 0005025940 * |
中山 佐保子: ""Machine Speech Chainに基づく半教師あり学習を用いた日英コードスイッチング音声の認識"", 言語処理学会 第25回年次大会 発表論文集, JPN6023012750, 4 March 2019 (2019-03-04), pages 179 - 182, ISSN: 0005025941 * |
Also Published As
Publication number | Publication date |
---|---|
US20210280170A1 (en) | 2021-09-09 |
EP4088276A1 (en) | 2022-11-16 |
US11929060B2 (en) | 2024-03-12 |
JP7359969B2 (ja) | 2023-10-11 |
WO2021178108A1 (en) | 2021-09-10 |
CN115210809A (zh) | 2022-10-18 |
KR20220148245A (ko) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
JP7359969B2 (ja) | ストリーミングシーケンスモデルの一貫性予測 | |
US20220310065A1 (en) | Supervised and Unsupervised Training with Contrastive Loss Over Sequences | |
US11990117B2 (en) | Using speech recognition to improve cross-language speech synthesis | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
US11823697B2 (en) | Improving speech recognition with speech synthesis-based model adapation | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
US20230298565A1 (en) | Using Non-Parallel Voice Conversion for Speech Conversion Models | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
US20230017892A1 (en) | Injecting Text in Self-Supervised Speech Pre-training | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition | |
US20240153484A1 (en) | Massive multilingual speech-text joint semi-supervised learning for text-to-speech | |
US20230013587A1 (en) | Advancing the Use of Text and Speech in ASR Pretraining With Consistency and Contrastive Losses | |
WO2023183292A1 (en) | Rare word recognition with lm-aware mwer training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221117 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7359969 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |