JP7445089B2 - シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr - Google Patents
シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr Download PDFInfo
- Publication number
- JP7445089B2 JP7445089B2 JP2023524188A JP2023524188A JP7445089B2 JP 7445089 B2 JP7445089 B2 JP 7445089B2 JP 2023524188 A JP2023524188 A JP 2023524188A JP 2023524188 A JP2023524188 A JP 2023524188A JP 7445089 B2 JP7445089 B2 JP 7445089B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- speech recognition
- tokens
- model
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 2
- 238000013518 transcription Methods 0.000 description 21
- 230000035897 transcription Effects 0.000 description 21
- 238000004590 computer program Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Machine Translation (AREA)
Description
12 言葉
100 発話環境
102 ユーザデバイス
104 データ処理ハードウェア
106 メモリハードウェア
116 オーディオシステム
120 オーディオサブシステム
122 音響フレーム
124 発話の終わり
130 自動音声認識(ASR)システム
132 転写
134 転写の終わり
136 放出遅延
140 ユーザインターフェース生成器
150 ネットワーク
160 リモートコンピューティングデバイス
200 ASRモデル
202 出力シーケンス
204 語彙トークン、ラベルトークン、ブランクトークン
206 アライメント確率
210 エンコーダネットワーク
220 予測ネットワーク
230 結合ネットワーク
240 ソフトマックス層
250 格子生成器
254 ノード
260 前向き確率層
262 前向き確率
264 第1の確率
266 第2の確率
270 後向き確率層
272 後向き確率
280 アライメントモデル
282 チューニングパラメータ
290 損失モデル
292 トランスデューサ損失
294 正則化損失
300 アライメント格子
Claims (30)
- データ処理ハードウェア(104)上で実行されると、前記データ処理ハードウェア(104)にストリーミング音声認識モデル(200)をトレーニングするための動作を行わせるコンピュータ実装方法(400)であって、前記動作が、
前記ストリーミング音声認識モデル(200)への入力として、音響フレーム(122)のシーケンスを受信するステップであって、前記ストリーミング音声認識モデル(200)が、音響フレーム(122)の前記シーケンスと、語彙トークン(204)の出力シーケンスとの間のアライメント確率(206)を学習するように構成され、前記語彙トークン(204)が、複数のラベルトークン(204)とブランクトークン(204)とを含む、受信するステップと、
複数の出力ステップの各ステップで、
前記ラベルトークン(204)の1つを放出する第1の確率(264)を決定し、
前記ブランクトークン(204)を放出する第2の確率(266)を決定するステップと、
各出力ステップで、前記ラベルトークン(204)の1つを放出する前記第1の確率(264)および前記ブランクトークン(204)を放出する前記第2の確率(266)に基づいて、シーケンスレベルで前記アライメント確率(206)を生成するステップと、
前記ラベルトークン(204)の1つを放出する前記第1の確率(264)を最大にするために、前記シーケンスレベルで前記アライメント確率(206)にチューニングパラメータ(282)を適用するステップと
を含む、コンピュータ実装方法(400)。 - 前記それぞれのステップで前記ラベルトークン(204)の1つを放出する前記第1の確率(264)が、それぞれのラベルトークン(204)をすでに放出した後に前記ラベルトークン(204)の1つを放出する確率に対応する、請求項1に記載のコンピュータ実装方法(400)。
- 前記それぞれのステップで前記ブランクトークン(204)を放出する前記第2の確率(266)が、前記それぞれのステップの直前のステップで前記ブランクトークン(204)またはラベルトークン(204)のうちの1つを放出した後に、前記ブランクトークン(204)を放出する確率に対応する、請求項1または2に記載のコンピュータ実装方法(400)。
- 前記第1の確率(264)および前記第2の確率(266)が、前向き後向き伝播アルゴリズムの前向き変数を定義する、請求項1から3のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記動作が、複数のノード(254)を含むアライメント格子(300)を生成するステップをさらに含み、前記アライメント格子(300)が、T列のノード(254)およびU行のノード(254)を有する行列として定義され、前記T列の各列が、前記複数の出力ステップの対応するステップに対応し、前記U行の各行が、音響フレーム(122)の前記シーケンスをテキストで表すラベルに対応する、請求項1から4のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記動作が、前記アライメント格子(300)の前記行列の各ノード(254)ロケーションで、
前記それぞれのノード(254)に隣接する後続ノード(254)を予測するための前向き確率(262)を決定するステップであって、前記前向き確率(262)が前記第1の確率(264)と、前記第2の確率(266)とを含む、決定するステップと、
前記それぞれのノード(254)に隣接する前記後続ノード(254)から、語彙トークン(204)の出力シーケンスに前記それぞれの後続ノード(254)を含む後向き確率(272)を決定するステップと
をさらに含む、請求項5に記載のコンピュータ実装方法(400)。 - 前記シーケンスレベルで前記アライメント確率(206)を生成するステップが、前記アライメント格子(300)の各それぞれのステップですべてのノード(254)について前記前向き確率(262)および前記後向き確率(272)を統合するステップを含む、請求項6に記載のコンピュータ実装方法(400)。
- 前記シーケンスレベルで前記アライメント確率(206)に前記チューニングパラメータ(282)を適用するステップが、前記ストリーミング音声認識モデル(200)をトレーニングするとき、前記ストリーミング音声認識モデル(200)における損失および正則化損失(294)を平衡させる、請求項1から7のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記チューニングパラメータ(282)が、どんな発話語のアライメント情報とも無関係に適用される、請求項1から8のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記出力ステップの1つでの前記ブランクトークン(204)の放出が、ペナルティを科されない、請求項1から9のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記ストリーミング音声認識モデル(200)が、
リカレントニューラルトランスデューサ(RNN-T)モデル、
トランスフォーマ-トランスデューサモデル、
畳み込みネットワークトランスデューサ(ConvNetトランスデューサ)モデル、または
コンフォーマ-トランスデューサモデル
のうちの少なくとも1つを含む、請求項1から10のいずれか一項に記載のコンピュータ実装方法(400)。 - 前記ストリーミング音声認識モデル(200)が、リカレントニューラルトランスデューサ(RNN-T)モデルを含む、請求項1から11のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記ストリーミング音声認識モデル(200)が、コンフォーマ-トランスデューサモデルを含む、請求項1から12のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記ストリーミング音声認識モデル(200)をトレーニングした後に、前記トレーニングされたストリーミング音声認識モデル(200)が、ストリーミング式で音声を転写するためにユーザデバイス(102)上で実行される、請求項1から13のいずれか一項に記載のコンピュータ実装方法(400)。
- 前記ストリーミング音声認識モデル(200)をトレーニングした後に、前記トレーニングされたストリーミング音声認識モデル(200)が、サーバ上で実行される、請求項1から14のいずれか一項に記載のコンピュータ実装方法(400)。
- データ処理ハードウェア(104)と、
前記データ処理ハードウェア(104)と通信しているメモリハードウェア(106)とを備え、前記メモリハードウェア(106)が命令を記憶し、前記命令は前記データ処理ハードウェア(104)によって実行されると、前記データ処理ハードウェア(104)に動作を行わせ、前記動作が、
ストリーミング音声認識モデル(200)への入力として、音響フレーム(122)のシーケンスを受信するステップであって、ストリーミング音声認識モデル(200)が、音響フレーム(122)の前記シーケンスと、語彙トークン(204)の出力シーケンスとの間のアライメント確率(206)を学習するように構成され、前記語彙トークン(204)が、複数のラベルトークン(204)とブランクトークン(204)とを含む、受信するステップと、
複数の出力ステップの各ステップで、
前記ラベルトークン(204)の1つを放出する第1の確率(264)を決定し、
前記ブランクトークン(204)を放出する第2の確率(266)を決定するステップと、
各出力ステップで、前記ラベルトークン(204)の1つを放出する前記第1の確率(264)および前記ブランクトークン(204)を放出する前記第2の確率(266)に基づいて、シーケンスレベルで前記アライメント確率(206)を生成するステップと、
前記ラベルトークン(204)の1つを放出する前記第1の確率(264)を最大にするために、前記シーケンスレベルで前記アライメント確率(206)にチューニングパラメータ(282)を適用するステップと
を含む、前記ストリーミング音声認識モデル(200)をトレーニングするシステム(130)。 - 前記それぞれのステップで前記ラベルトークン(204)の1つを放出する前記第1の確率(264)が、それぞれのラベルトークンをすでに放出した後に前記ラベルトークン(204)の1つを放出する確率に対応する、請求項16に記載のシステム(130)。
- 前記それぞれのステップで前記ブランクトークン(204)を放出する前記第2の確率(266)が、前記それぞれのステップの直前のステップでブランクラベルまたはラベルトークンの1つを放出した後に、前記ブランクラベルを放出する確率に対応する、請求項16または17に記載のシステム(130)。
- 前記第1の確率(264)および前記第2の確率(266)が、前向き後向き伝播アルゴリズムの前向き変数を定義する、請求項16から18のいずれか一項に記載のシステム(130)。
- 前記動作が、複数のノード(254)を含むアライメント格子(300)を生成するステップをさらに含み、前記アライメント格子(300)が、T列のノード(254)およびU行のノード(254)を有する行列として定義され、前記T列の各列が、前記複数の出力ステップの対応するステップに対応し、前記U行の各行が、音響フレーム(122)の前記シーケンスをテキストで表すラベルに対応する、請求項16から19のいずれか一項に記載のシステム(130)。
- 前記動作が、前記アライメント格子(300)の前記行列の各ノード(254)ロケーションで、
前記それぞれのノード(254)に隣接する後続ノード(254)を予測するための前向き確率(262)を決定するステップであって、前記前向き確率(262)が前記第1の確率(264)と、前記第2の確率(266)とを含む、決定するステップと、
前記それぞれのノード(254)に隣接する前記後続ノード(254)から、語彙トークン(204)の出力シーケンスに前記それぞれの後続ノード(254)を含む後向き確率(272)を決定するステップと
をさらに含む、請求項20に記載のシステム(130)。 - 前記シーケンスレベルで前記アライメント確率(206)を生成するステップが、前記アライメント格子(300)の各それぞれのステップですべてのノード(254)について前記前向き確率(262)および前記後向き確率(272)を統合するステップを含む、請求項21に記載のシステム(130)。
- 前記シーケンスレベルで前記アライメント確率(206)に前記チューニングパラメータ(282)を適用するステップが、前記ストリーミング音声認識モデル(200)をトレーニングするとき、前記ストリーミング音声認識モデル(200)における損失および正則化損失(294)を平衡させる、請求項16から22のいずれか一項に記載のシステム(130)。
- 前記チューニングパラメータ(282)が、どんな発話語のアライメント情報とも無関係に適用される、請求項16から23のいずれか一項に記載のシステム(130)。
- 前記出力ステップの1つでの前記ブランクトークン(204)の放出が、ペナルティを科されない、請求項16から24のいずれか一項に記載のシステム(130)。
- 前記ストリーミング音声認識モデル(200)が、
リカレントニューラルトランスデューサ(RNN-T)モデル、
トランスフォーマ-トランスデューサモデル、
畳み込みネットワークトランスデューサ(ConvNetトランスデューサ)モデル、または
コンフォーマ-トランスデューサモデル
のうちの少なくとも1つを含む、請求項16から25のいずれか一項に記載のシステム(130)。 - 前記ストリーミング音声認識モデル(200)が、リカレントニューラルトランスデューサ(RNN-T)モデルを含む、請求項16から26のいずれか一項に記載のシステム(130)。
- 前記ストリーミング音声認識モデル(200)が、コンフォーマ-トランスデューサモデルを含む、請求項16から27のいずれか一項に記載のシステム(130)。
- 前記ストリーミング音声認識モデル(200)をトレーニングした後に、前記トレーニングされたストリーミング音声認識モデル(200)が、ストリーミング式で音声を転写するためにユーザデバイス(102)上で実行される、請求項16から28のいずれか一項に記載のシステム(130)。
- 前記ストリーミング音声認識モデル(200)をトレーニングした後に、前記トレーニングされたストリーミング音声認識モデル(200)が、サーバ上で実行される、請求項16から29のいずれか一項に記載のシステム(130)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063094274P | 2020-10-20 | 2020-10-20 | |
US63/094,274 | 2020-10-20 | ||
PCT/US2021/049738 WO2022086640A1 (en) | 2020-10-20 | 2021-09-09 | Fast emit low-latency streaming asr with sequence-level emission regularization |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023546914A JP2023546914A (ja) | 2023-11-08 |
JP7445089B2 true JP7445089B2 (ja) | 2024-03-06 |
Family
ID=78080483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023524188A Active JP7445089B2 (ja) | 2020-10-20 | 2021-09-09 | シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220122586A1 (ja) |
EP (1) | EP4218007A1 (ja) |
JP (1) | JP7445089B2 (ja) |
KR (1) | KR20230088455A (ja) |
CN (1) | CN116848579A (ja) |
WO (1) | WO2022086640A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118355434A (zh) * | 2022-10-19 | 2024-07-16 | 微软技术许可有限责任公司 | 流式长格式语音识别 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020505650A (ja) | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | 音声認識システム及び音声認識の方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9280969B2 (en) * | 2009-06-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Model training for automatic speech recognition from imperfect transcription data |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US10706840B2 (en) * | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
-
2021
- 2021-09-09 US US17/447,285 patent/US20220122586A1/en active Pending
- 2021-09-09 CN CN202180071433.4A patent/CN116848579A/zh active Pending
- 2021-09-09 WO PCT/US2021/049738 patent/WO2022086640A1/en active Application Filing
- 2021-09-09 EP EP21787149.0A patent/EP4218007A1/en active Pending
- 2021-09-09 JP JP2023524188A patent/JP7445089B2/ja active Active
- 2021-09-09 KR KR1020237016479A patent/KR20230088455A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020505650A (ja) | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | 音声認識システム及び音声認識の方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116848579A (zh) | 2023-10-03 |
JP2023546914A (ja) | 2023-11-08 |
KR20230088455A (ko) | 2023-06-19 |
EP4218007A1 (en) | 2023-08-02 |
US20220122586A1 (en) | 2022-04-21 |
WO2022086640A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7359969B2 (ja) | ストリーミングシーケンスモデルの一貫性予測 | |
KR20220007160A (ko) | 스트리밍 엔드-투-엔드 모델을 사용한 대규모 다국어 음성 인식 | |
CN111344779A (zh) | 训练和/或使用编码器模型确定自然语言输入的响应动作 | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
CN116670757A (zh) | 用于简化的流式和非流式语音识别的级联编码器 | |
JP2024530969A (ja) | 音声合成ベースのモデル適応での音声認識の向上 | |
JP7502561B2 (ja) | 言語間音声合成を改良するための音声認識の使用 | |
JP7445089B2 (ja) | シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr | |
CN117378004A (zh) | 具有序列的对比损失的有监督和无监督的训练 | |
US20230343332A1 (en) | Joint Segmenting and Automatic Speech Recognition | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
Heymann et al. | Improving CTC using stimulated learning for sequence modeling | |
KR20230156425A (ko) | 자체 정렬을 통한 스트리밍 asr 모델 지연 감소 | |
JP2024510816A (ja) | タイイングされ縮小されたrnn-t | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition | |
US12087279B2 (en) | Regularizing word segmentation | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
WO2023205367A1 (en) | Joint segmenting and automatic speech recognition | |
JP2024119883A (ja) | 言語間音声合成を改良するための音声認識の使用 | |
CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 | |
KR20240072263A (ko) | 엔드-투-엔드 음성 인식 모델의 온-디바이스 배칭을 위한 단어 경계 예측 | |
JP2024525220A (ja) | 自己教師あり音声事前トレーニングにおけるテキストの挿入 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230619 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230619 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7445089 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |