JP7359969B2 - ストリーミングシーケンスモデルの一貫性予測 - Google Patents
ストリーミングシーケンスモデルの一貫性予測 Download PDFInfo
- Publication number
- JP7359969B2 JP7359969B2 JP2022552950A JP2022552950A JP7359969B2 JP 7359969 B2 JP7359969 B2 JP 7359969B2 JP 2022552950 A JP2022552950 A JP 2022552950A JP 2022552950 A JP2022552950 A JP 2022552950A JP 7359969 B2 JP7359969 B2 JP 7359969B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- utterance
- speech
- model
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Description
q(t,u)=pθ(yu|x1:t,y* 1:u-1) (6)
L=-log pθ(y*|x) (7)
トークン後方の勾配は次のように提供される。
102 ユーザデバイス
104 ユーザ
106 発話
107 ユーザインターフェースジェネレータ
108 オーディオサブシステム
110 音響フレーム
110 入力フレーム
111 データ処理ハードウェア
113 メモリハードウェア
120 トランスクリプション
200 ASRモデル
200a フレームアライメントベースのトランスデューサモデル、RNN-Tモデル
200b 注意ベースのエンコーダ-デコーダ(AED)モデル
201 リモートコンピューティングデバイス
210 エンコーダネットワーク
211 聴取者エンコーダモジュール
220 予測ネットワーク
221 アテンダモジュール、アテンダ
230 ジョイントネットワーク
231 デコーダ
240 ソフトマックス層
300 トレーニングプロセス
301 トレーニングデータセット
302 トレーニング発話ペア
304 非合成音声表現
304a~g 非合成音声表現
306 合成音声表現
306a~g 合成音声表現
308 グラウンドトゥルーストランスクリプション
311 第1の確率分布、非合成音声認識結果
311a~g 非合成音声認識結果
311a 第1の非合成音声認識結果
311b 第2の非合成音声認識結果
311c 第3の非合成音声認識結果
311d 第4の非合成音声認識結果
311g 第7の非合成音声認識結果
312 第2の確率分布、合成音声認識結果
312a~g 合成音声認識結果
312a 第1の合成音声認識結果
312b 第2の非合成音声認識結果
312c 第3の非合成音声認識結果
312d 第4の非合成音声認識結果
312e 第5の非合成音声認識結果
312f 第6の非合成音声認識結果
320 グラウンドトゥルーストランスクリプション
330 テキスト読み上げ(TTS)モジュール
340 教師あり損失項モジュール
342 非合成音声損失項、教師あり損失項
344 合成音声損失項、教師あり損失項
350 一貫性のある損失項モジュール
352 一貫性のある損失項
400 概略図
500 概略図
600 方法
700 コンピューティングデバイス
700a 標準サーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 データ処理ハードウェア、プロセッサ
720 メモリハードウェア、メモリ
730 ストレージデバイス
740 高速インターフェース/コントローラ
750 高速拡張ポート
760 低速インターフェース/コントローラ
770 低速バス
780 ディスプレイ
790 低速拡張ポート
Claims (24)
- データ処理ハードウェア(710)によって実行されると、前記データ処理ハードウェア(710)に、
トレーニング発話ペア(302)のセットを受信するステップであって、各トレーニング発話ペア(302)が、
対応する発話の非合成音声表現(304)と、
前記対応する発話の合成音声表現(306)と
を備える、ステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の複数の出力ステップの各々において、
音声認識モデル(200)による出力のために、前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する第1の確率分布(311)を生成するステップと、
前記音声認識モデル(200)による出力のために、前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する第2の確率分布(312)を生成するステップと、
可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)について前記音声認識モデル(200)が同じように振る舞うことを学習することを可能にする、前記対応するトレーニング発話ペア(302)の損失項(352)を決定するステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップと、
を含む動作を実行させる、コンピュータ実装方法(600)であって、
前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定するステップが、可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)との間の、
で表されるカルバック-ライブラダイバージェンスに基づく、
コンピュータ実装方法(600)。 - 前記動作が、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において、
前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、前記対応する発話のグラウンドトゥルーストランスクリプション(120)とに基づいて、非合成音声損失項(342)を生成するステップと、
前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する前記第2の確率分布(312)と、前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)とに基づいて、合成音声損失項(344)を生成するステップと
をさらに含む、請求項1に記載の方法(600)。 - 前記音声認識モデル(200)の前記パラメータが、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項(342、344)とは無関係に、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて更新される、請求項2に記載の方法(600)。
- 各トレーニング発話ペア(302)における前記合成音声表現(306)が、前記対応する発話を表す合成された音声を備える、請求項1から3のいずれか一項に記載の方法(600)。
- 前記動作が、トレーニング発話ペア(302)ごとに、前記対応する合成音声表現(306)を生成するために、テキスト読み上げ(TTS)モデル(330)を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション(120)を変換するステップをさらに含む、請求項1から4のいずれか一項に記載の方法(600)。
- 前記動作が、少なくとも1つのトレーニング発話ペア(302)について、前記対応する非合成音声表現(304)または前記対応する合成音声表現(306)のうちの少なくとも1つにデータ拡張を適用するステップをさらに含む、請求項1から5のいずれか一項に記載の方法(600)。
- 前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを備える、請求項6に記載の方法(600)。
- 前記動作が、前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定する前に、前記音声認識モデル(200)がフレームアラインメントベースのトランスデューサモデル(200a)を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション(120)の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布(311)のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布(312)のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項1に記載の方法(600)。
- 前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項8に記載の方法(600)。
- 前記音声認識モデル(200)が、フレームアラインメントベースのトランスデューサモデル(200a)を備える、請求項1から9のいずれか一項に記載の方法(600)。
- 前記フレームアラインメントベースのトランスデューサモデル(200a)が、リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を備える、請求項10に記載の方法(600)。
- 前記音声認識モデル(200)が、アラインメントベースのエンコーダ-デコーダモデル(200b)を備える、請求項1から7のいずれか一項に記載の方法(600)。
- データ処理ハードウェア(710)と、
前記データ処理ハードウェア(710)と通信するメモリハードウェア(720)であって、前記データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に、
トレーニング発話ペア(302)のセットを受信するステップであって、各トレーニング発話ペア(302)が、
対応する発話の非合成音声表現(304)と、
前記対応する発話の合成音声表現(306)と
を備える、ステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の複数の出力ステップの各々において、
音声認識モデル(200)による出力のために、前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する第1の確率分布(311)を生成するステップと、
前記音声認識モデル(200)による出力のために、前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する第2の確率分布(312)を生成するステップと、
可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)について前記音声認識モデル(200)が同じように振る舞うことを学習することを可能にする、前記対応するトレーニング発話ペア(302)の損失項(352)を決定するステップと、
トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて、前記音声認識モデル(200)のパラメータを更新するステップと、
を含む動作を実行させる命令を記憶する、メモリハードウェア(720)と
を備える、システム(700)であって、
前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定するステップが、可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、可能な合成音声認識仮説に対する前記第2の確率分布(312)との間の、
で表されるカルバック-ライブラダイバージェンスに基づく、
システム(700)。 - 前記動作が、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において、
前記対応する発話の前記対応する非合成音声表現(304)に対する可能な非合成音声認識仮説に対する前記第1の確率分布(311)と、前記対応する発話のグラウンドトゥルーストランスクリプション(120)とに基づいて、非合成音声損失項(342)を生成するステップと、
前記対応する発話の前記対応する合成音声表現(306)に対する可能な合成音声認識仮説に対する前記第2の確率分布(312)と、前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)とに基づいて、合成音声損失項(344)を生成するステップと
をさらに含む、請求項13に記載のシステム(700)。 - 前記音声認識モデル(200)の前記パラメータが、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)に対して、前記複数の出力ステップの各々において生成された前記非合成音声損失項および合成音声損失項(342、344)とは無関係に、トレーニング発話ペア(302)の前記セット内の各トレーニング発話ペア(302)の前記複数の出力ステップの各々において決定された前記損失項(352)に基づいて更新される、請求項14に記載のシステム(700)。
- 各トレーニング発話ペア(302)における前記合成音声表現(306)が、前記対応する発話を表す合成された音声を備える、請求項13から15のいずれか一項に記載のシステム(700)。
- 前記動作が、トレーニング発話ペア(302)ごとに、前記対応する合成音声表現(306)を生成するために、テキスト読み上げ(TTS)モデル(330)を使用して、前記対応する発話のグラウンドトゥルーストランスクリプション(120)を変換するステップをさらに含む、請求項13から16のいずれか一項に記載のシステム(700)。
- 前記動作が、少なくとも1つのトレーニング発話ペア(302)について、前記対応する非合成音声表現(304)または前記対応する合成音声表現(306)のうちの少なくとも1つにデータ拡張を適用するステップをさらに含む、請求項13から17のいずれか一項に記載のシステム(700)。
- 前記適用されるデータ拡張が、ノイズの追加、残響の追加、またはタイミングの操作のうちの少なくとも1つを備える、請求項18に記載のシステム(700)。
- 前記動作が、前記対応するトレーニング発話ペア(302)の前記損失項(352)を決定する前に、前記音声認識モデル(200)がフレームアラインメントベースのトランスデューサモデル(200a)を備える場合、前記対応する発話のグラウンドトゥルーストランスクリプション(120)の有効なアラインメントの確率に基づいて、前記出力ステップの各々において生成される可能な非合成音声認識仮説に対する第1の確率分布(311)のシーケンスと、前記出力ステップの各々において生成される可能な合成音声認識仮説に対する第2の確率分布(312)のシーケンスに対する有効なアラインメント分布を定義するステップをさらに含む、請求項13に記載のシステム(700)。
- 前記対応する発話の前記グラウンドトゥルーストランスクリプション(120)を表す出力ラベルのシーケンス内の各出力ラベルに対して、前記有効なアラインメント分布が定義される、請求項20に記載のシステム(700)。
- 前記音声認識モデル(200)が、フレームアラインメントベースのトランスデューサモデル(200a)を備える、請求項13から21のいずれか一項に記載のシステム(700)。
- 前記フレームアラインメントベースのトランスデューサモデル(200a)が、リカレントニューラルネットワークトランスデューサ(RNN-T)モデル(200a)を備える、請求項22に記載のシステム(700)。
- 前記音声認識モデル(200)が、アラインメントベースのエンコーダ-デコーダモデル(200b)を備える、請求項13から19のいずれか一項に記載のシステム(700)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062985278P | 2020-03-04 | 2020-03-04 | |
US62/985,278 | 2020-03-04 | ||
PCT/US2021/017147 WO2021178108A1 (en) | 2020-03-04 | 2021-02-08 | Consistency prediction on streaming sequence models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023509234A JP2023509234A (ja) | 2023-03-07 |
JP7359969B2 true JP7359969B2 (ja) | 2023-10-11 |
Family
ID=74856926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022552950A Active JP7359969B2 (ja) | 2020-03-04 | 2021-02-08 | ストリーミングシーケンスモデルの一貫性予測 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11929060B2 (ja) |
EP (1) | EP4088276A1 (ja) |
JP (1) | JP7359969B2 (ja) |
KR (1) | KR20220148245A (ja) |
CN (1) | CN115210809A (ja) |
WO (1) | WO2021178108A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
US11908458B2 (en) * | 2020-12-29 | 2024-02-20 | International Business Machines Corporation | Customization of recurrent neural network transducers for speech recognition |
US20220319506A1 (en) * | 2021-03-31 | 2022-10-06 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
US20230130634A1 (en) * | 2021-10-05 | 2023-04-27 | Google Llc | Optimizing Inference Performance for Conformer |
WO2023059959A1 (en) * | 2021-10-06 | 2023-04-13 | Google Llc | Fusion of acoustic and text representations in an automatic speech recognition system implemented as a rnn-t |
WO2023082231A1 (en) * | 2021-11-15 | 2023-05-19 | Microsoft Technology Licensing, Llc | Diagnostic service in speech recognition |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190304480A1 (en) | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751239B2 (en) * | 2007-10-04 | 2014-06-10 | Core Wireless Licensing, S.a.r.l. | Method, apparatus and computer program product for providing text independent voice conversion |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10643602B2 (en) | 2018-03-16 | 2020-05-05 | Microsoft Technology Licensing, Llc | Adversarial teacher-student learning for unsupervised domain adaptation |
US10410120B1 (en) | 2019-01-25 | 2019-09-10 | StradVision, Inc. | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same |
US10402977B1 (en) | 2019-01-25 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same |
US10628688B1 (en) * | 2019-01-30 | 2020-04-21 | Stadvision, Inc. | Learning method and learning device, and testing method and testing device for detecting parking spaces by using point regression results and relationship between points to thereby provide an auto-parking system |
US11132992B2 (en) * | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
JP2022552950A (ja) | 2019-10-10 | 2022-12-21 | バイエル・アクチエンゲゼルシヤフト | 炭酸プロピレンを含む殺虫剤の製剤 |
CN110738263B (zh) * | 2019-10-17 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种图像识别模型训练的方法、图像识别的方法及装置 |
US11748629B2 (en) * | 2020-01-21 | 2023-09-05 | Moxa Inc. | Device and method of handling anomaly detection |
-
2021
- 2021-02-08 KR KR1020227033561A patent/KR20220148245A/ko active Search and Examination
- 2021-02-08 WO PCT/US2021/017147 patent/WO2021178108A1/en unknown
- 2021-02-08 CN CN202180017862.3A patent/CN115210809A/zh active Pending
- 2021-02-08 JP JP2022552950A patent/JP7359969B2/ja active Active
- 2021-02-08 EP EP21709828.4A patent/EP4088276A1/en active Pending
- 2021-02-08 US US17/170,836 patent/US11929060B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190304480A1 (en) | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
Non-Patent Citations (4)
Title |
---|
CHIU, Chung-Cheng et al.,"STATE-OF-THE-ART SPEECH RECOGNITION WITH SEQUENCE-TO-SEQUENCE MODELS",[online],2018年02月23日,[retrieved on 2023.03.24], Retrieved from the Internet:<URL:https://arxiv.org.pdf/1712.01769.pdf>,arXiv:1712.01769v6 [cs.CL] |
LI, Jason et al.,Training Neural Speech Recognition Systems with Synthetic Speech Augmentation",[online],2018年11月02日, [retrieved on 2023.03.24], Retrieved from the Internet:<URL:https://arxiv.org.pdf/1811.00707.pdf>,arXiv:1811.00707v1 [cs.CL] |
上乃聖 他,"End-to-End音声合成を用いた単語単位End-to-End音声認識のデータ拡張",情報処理学会研究報告,2018年12月03日,Vol.2018-SLP-125, No.2,pp.1-5 |
中山 佐保子,"Machine Speech Chainに基づく半教師あり学習を用いた日英コードスイッチング音声の認識",言語処理学会 第25回年次大会 発表論文集,2019年03月04日,pp.179-182 |
Also Published As
Publication number | Publication date |
---|---|
US11929060B2 (en) | 2024-03-12 |
JP2023509234A (ja) | 2023-03-07 |
WO2021178108A1 (en) | 2021-09-10 |
CN115210809A (zh) | 2022-10-18 |
US20210280170A1 (en) | 2021-09-09 |
EP4088276A1 (en) | 2022-11-16 |
KR20220148245A (ko) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7359969B2 (ja) | ストリーミングシーケンスモデルの一貫性予測 | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
US20220310065A1 (en) | Supervised and Unsupervised Training with Contrastive Loss Over Sequences | |
JP2023546930A (ja) | 言語間音声合成を改良するための音声認識の使用 | |
US11823697B2 (en) | Improving speech recognition with speech synthesis-based model adapation | |
JP7445089B2 (ja) | シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr | |
JP2024510816A (ja) | タイイングされ縮小されたrnn-t | |
US20230298565A1 (en) | Using Non-Parallel Voice Conversion for Speech Conversion Models | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
US20230017892A1 (en) | Injecting Text in Self-Supervised Speech Pre-training | |
CN117597729A (zh) | 推进文本和语音在具有一致性和对比损失的asr预训练中的使用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221117 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7359969 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |