JP7765622B2 - Rnn-tとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合 - Google Patents
Rnn-tとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合Info
- Publication number
- JP7765622B2 JP7765622B2 JP2024521022A JP2024521022A JP7765622B2 JP 7765622 B2 JP7765622 B2 JP 7765622B2 JP 2024521022 A JP2024521022 A JP 2024521022A JP 2024521022 A JP2024521022 A JP 2024521022A JP 7765622 B2 JP7765622 B2 JP 7765622B2
- Authority
- JP
- Japan
- Prior art keywords
- network
- output
- stack
- speech recognition
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
P(y|x1:T)∝p(x1:T|y)P(y) (1)
ただし、p(x1:T|y)は、オーディオエンコーダによって推定され、yが与えられると、x1:Tが話された尤度を表し、P(y)は、テキストの下にある確率分布を表す言語モデル(LM)を使用して、予測ネットワークによって推定される。RNN-TモデルP(y|x1:T)は、単一のエンドツーエンドモデル(たとえば、単一のニューラルネットワーク)を使用する。y=y1:Uであり、ただし、Uは、yにおけるサブワード単位の数であると仮定すると、次いで、いかなるルックアヘッドフレームまたは時間短縮もないストリーミングオーディオデータについて、時間tにおいてオーディオエンコーダによって生成されたDenc次元の高次特徴表現
12、62 データ処理ハードウェア
14、64 メモリハードウェア
16 オーディオシステム、オーディオキャプチャデバイス、音声出力デバイス
16a オーディオキャプチャデバイス、オーディオキャプチャデバイス、キャプチャデバイス
16b 音声出力デバイス
18 デジタルアシスタントインターフェース
19 応答
40 ネットワーク
50 プログラムまたはアプリケーション、デジタルアシスタントアプリケーション
60 リモートコンピューティングデバイス、サーバ、リモートサーバ、コンピューティングシステム
100 音声環境
102 入力オーディオデータ
104 ユーザ
106 話された発話、発話、入力発話
107 ユーザインターフェース生成器
108 オーディオサブシステム
110 入力音響フレーム、オーディオデータ、音響フレーム
118 ASRシステム
120 対応するトランスクリプション、初期音声認識結果、最終音声認識結果、トランスクリプション、音声認識結果
120a 初期音声認識結果、ストリーミング初期音声認識結果
120b 最終音声認識結果、最終認識結果
180 再スコアラー
200 RNN-Tモデル、自動化された音声認識(ASR)モデル、ASRモデル、音声認識モデル
210 ジョイントネットワーク
212 可能な音声認識仮説にわたる確率分布、分布、融合された表現、確率分布
220 オーディオエンコーダネットワーク、エンコーダネットワーク
222 特徴ベクトルx=(x1,x2,...,xt)、特徴ベクトルx、音響フレームx=(x1,x2,...,xt)、音響フレーム
224 高次特徴表現、音響表現、
230 予測ネットワーク、予測/デコーダネットワーク
232 密な表現、テキスト表現
240 最終ソフトマックス出力層、ソフトマックス層、最終ソフトマックス層
242 非ブランク記号y0,...,yu-1、非ブランク記号
250 バイリニアプーリング層、バイリニアプーリング
260 ゲーティング層、ゲーティング
300 コンフォーマブロック
305 連結演算子
310 前半フィードフォワード層
320 マルチヘッドセルフアテンションブロック
330 畳み込み層
340 後半フィードフォワード層
350 layernormモジュール
360 出力特徴y
400 コンピュータ実装方法、方法
500 コンピューティングデバイス
500a 標準的なサーバ、サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 データ処理ハードウェア、プロセッサ、構成要素
520 メモリハードウェア、メモリ、構成要素、非一時的メモリ
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素、高速インターフェース、高速コントローラ
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素、低速コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (20)
- 自動化された音声認識(ASR)モデル(200)であって、
エンコーダネットワーク(220)であって、
入力として、入力発話を特徴づける音響フレーム(222)のシーケンスを受信することと、
複数の出力ステップの各々において、前記音響フレーム(222)のシーケンスにおける対応する音響フレームのための高次特徴表現(224)を生成することと
を行うように構成された、エンコーダネットワーク(220)と、
予測ネットワーク(230)であって、
入力として、最終ソフトマックス層(240)によって出力された非ブランク記号(242)のシーケンスを受信することと、
前記複数の出力ステップの各々において、密な表現(232)を生成することと
を行うように構成された、予測ネットワーク(230)と、
ジョイントネットワーク(210)であって、
入力として、前記複数の出力ステップの各々において、前記予測ネットワーク(230)によって生成された、前記密な表現(232)と、前記複数の出力ステップの各々において、前記エンコーダネットワーク(220)によって生成された、前記高次特徴表現(224)とを受信することと、
前記複数の出力ステップの各々において、可能な音声認識仮説にわたる確率分布(212)を生成することと
を行うように構成された、ジョイントネットワーク(210)と
を備え、
前記ジョイントネットワーク(210)が、前記予測ネットワーク(230)によって生成された前記密な表現(232)と、前記エンコーダネットワーク(220)によって生成された前記高次特徴表現(224)とを融合させるために、ゲーティング(260)およびバイリニアプーリング(250)をスタックする、組合せ構造を備え、
前記最終ソフトマックス層(240)は、前記ジョイントネットワーク(210)から出力された前記確率分布(212)における最高確率をもつ出力記号を選択して、前記非ブランク記号(242)のシーケンスを出力するように構成される、自動化された音声認識(ASR)モデル(200)。 - スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、前記密な表現(232)を再計算することによって、正則化法が、トレーニング中に前記予測ネットワーク(230)に適用される、請求項1に記載のASRモデル(200)。
- 前記ジョイントネットワーク(210)が全結合層を備えない、請求項1に記載のASRモデル(200)。
- 前記エンコーダネットワーク(220)が、セルフアテンションブロックのスタックを備える、請求項1に記載のASRモデル(200)。
- 前記セルフアテンションブロックのスタックが、コンフォーマブロックのスタックを備える、請求項4に記載のASRモデル(200)。
- 前記コンフォーマブロックのスタックが、8ヘッドセルフアテンションを有する、12個のエンコーダブロックのスタックを備える、請求項5に記載のASRモデル(200)。
- 前記セルフアテンションブロックのスタックが、トランスフォーマブロックのスタックを備える、請求項4に記載のASRモデル(200)。
- 前記予測ネットワーク(230)が、長短期記憶(LSTM)ベースの予測ネットワークを備える、請求項1から7のいずれか一項に記載のASRモデル(200)。
- 前記予測ネットワーク(230)が、V2埋込みルックアップテーブルを備える、請求項1から7のいずれか一項に記載のASRモデル(200)。
- 前記予測ネットワーク(230)が、ステートレス予測ネットワークを備える、請求項1から7のいずれか一項に記載のASRモデル(200)。
- データ処理ハードウェア(510)上で実行されると、前記データ処理ハードウェア(510)に動作を実行させる、コンピュータ実装方法(400)であって、前記動作が、
入力発話を特徴づける音響フレーム(222)のシーケンスを受信することと、
複数の出力ステップの各々において、
音声認識モデル(200)のエンコーダネットワーク(220)によって、前記音響フレーム(222)のシーケンスにおける対応する音響フレームのための高次特徴表現(224)を生成することと、
前記音声認識モデル(200)の予測ネットワーク(230)によって、前記音声認識モデル(200)の最終ソフトマックス層(240)によって出力された非ブランク記号(242)の対応するシーケンスのための密な表現(232)を生成することと、
前記エンコーダネットワーク(220)によって生成された前記高次特徴表現(224)と、前記予測ネットワーク(230)によって生成された前記密な表現(232)とを受信する、前記音声認識モデルのジョイントネットワーク(210)によって、可能な音声認識仮説にわたる確率分布(212)を生成することと
を含み、
前記ジョイントネットワーク(210)が、前記予測ネットワーク(230)によって生成された前記密な表現(232)と、前記エンコーダネットワーク(220)によって生成された前記高次特徴表現(224)とを融合させるために、ゲーティング(260)およびバイリニアプーリング(250)をスタックする、組合せ構造を備え、
前記最終ソフトマックス層(240)は、前記ジョイントネットワーク(210)から出力された前記確率分布(212)における最高確率をもつ出力記号を選択して、前記非ブランク記号(242)のシーケンスを出力するように構成される、コンピュータ実装方法(400)。 - スケーリング係数と、ゼロ勾配をもつ入力テンソルを有する勾配停止関数とを使用して、前記密な表現(232)を再計算することによって、正則化法が、トレーニング中に前記予測ネットワーク(230)に適用される、請求項11に記載のコンピュータ実装方法。
- 前記ジョイントネットワーク(210)が全結合層を備えない、請求項11に記載のコンピュータ実装方法。
- 前記エンコーダネットワーク(220)が、セルフアテンションブロックのスタックを備える、請求項11に記載のコンピュータ実装方法。
- 前記セルフアテンションブロックのスタックが、コンフォーマブロックのスタックを備える、請求項14に記載のコンピュータ実装方法。
- 前記コンフォーマブロックのスタックが、8ヘッドセルフアテンションを有する、12個のエンコーダブロックのスタックを備える、請求項15に記載のコンピュータ実装方法。
- 前記セルフアテンションブロックのスタックが、トランスフォーマブロックのスタックを備える、請求項14に記載のコンピュータ実装方法。
- 前記予測ネットワーク(230)が、長短期記憶(LSTM)ベースの予測ネットワークを備える、請求項11から17のいずれか一項に記載のコンピュータ実装方法。
- 前記予測ネットワーク(230)が、V2埋込みルックアップテーブルを備える、請求項11から17のいずれか一項に記載のコンピュータ実装方法。
- 前記予測ネットワーク(230)が、ステートレス予測ネットワークを備える、請求項11から17のいずれか一項に記載のコンピュータ実装方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163262184P | 2021-10-06 | 2021-10-06 | |
| US63/262,184 | 2021-10-06 | ||
| PCT/US2022/075242 WO2023059959A1 (en) | 2021-10-06 | 2022-08-19 | Fusion of acoustic and text representations in an automatic speech recognition system implemented as a rnn-t |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024539599A JP2024539599A (ja) | 2024-10-29 |
| JP7765622B2 true JP7765622B2 (ja) | 2025-11-06 |
Family
ID=83355513
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024521022A Active JP7765622B2 (ja) | 2021-10-06 | 2022-08-19 | Rnn-tとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US12211509B2 (ja) |
| EP (1) | EP4413562B1 (ja) |
| JP (1) | JP7765622B2 (ja) |
| KR (1) | KR20240068723A (ja) |
| CN (1) | CN118339608A (ja) |
| WO (1) | WO2023059959A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20240265912A1 (en) * | 2023-02-02 | 2024-08-08 | Nvidia Corporation | Weighted finite state transducer frameworks for conversational ai systems and applications |
| US20250252951A1 (en) * | 2024-02-02 | 2025-08-07 | Nvidia Corporation | Speech processing technique |
| CN120340481B (zh) * | 2025-04-02 | 2026-03-17 | 深圳市奥迈和电子有限公司 | 一种显示器语音交互系统及方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021178108A1 (en) | 2020-03-04 | 2021-09-10 | Google Llc | Consistency prediction on streaming sequence models |
Family Cites Families (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018170671A1 (en) * | 2017-03-20 | 2018-09-27 | Intel Corporation | Topic-guided model for image captioning system |
| US10769491B2 (en) * | 2017-09-01 | 2020-09-08 | Sri International | Machine learning system for generating classification data and part localization data for objects depicted in images |
| US10346969B1 (en) * | 2018-01-02 | 2019-07-09 | Amazon Technologies, Inc. | Detecting surface flaws using computer vision |
| US10878808B1 (en) * | 2018-01-09 | 2020-12-29 | Amazon Technologies, Inc. | Speech processing dialog management |
| US10747811B2 (en) * | 2018-05-22 | 2020-08-18 | Adobe Inc. | Compositing aware digital image search |
| JP7343615B2 (ja) * | 2019-05-28 | 2023-09-12 | グーグル エルエルシー | ストリーミングエンドツーエンドモデルを用いる大規模多言語音声認識 |
| CN118865957A (zh) | 2019-07-09 | 2024-10-29 | 谷歌有限责任公司 | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 |
| US11741946B2 (en) * | 2020-08-21 | 2023-08-29 | International Business Machines Corporation | Multiplicative integration in neural network transducer models for end-to-end speech recognition |
| US11783811B2 (en) * | 2020-09-24 | 2023-10-10 | International Business Machines Corporation | Accuracy of streaming RNN transducer |
| US11935519B2 (en) * | 2020-10-15 | 2024-03-19 | Google Llc | Preserving speech hypotheses across computing devices and/or dialog sessions |
| US12154581B2 (en) * | 2020-10-20 | 2024-11-26 | Google Llc | Cascaded encoders for simplified streaming and non-streaming ASR |
| US11527238B2 (en) * | 2020-10-30 | 2022-12-13 | Microsoft Technology Licensing, Llc | Internal language model for E2E models |
| CN113539242B (zh) * | 2020-12-23 | 2025-05-30 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
| US11908458B2 (en) * | 2020-12-29 | 2024-02-20 | International Business Machines Corporation | Customization of recurrent neural network transducers for speech recognition |
| US11942078B2 (en) * | 2021-02-26 | 2024-03-26 | International Business Machines Corporation | Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition |
| KR20230156427A (ko) * | 2021-03-23 | 2023-11-14 | 구글 엘엘씨 | 연결 및 축소된 rnn-t |
| CN117063228A (zh) * | 2021-03-26 | 2023-11-14 | 谷歌有限责任公司 | 用于灵活流式和非流式自动语音识别的混合模型注意力 |
| US12087279B2 (en) * | 2021-03-26 | 2024-09-10 | Google Llc | Regularizing word segmentation |
| EP4315321A1 (en) * | 2021-03-26 | 2024-02-07 | Google LLC | Multi-task learning for end-to-end automated speech recognition confidence and deletion estimation |
| JP7659080B2 (ja) * | 2021-03-26 | 2025-04-08 | グーグル エルエルシー | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 |
| US12424200B2 (en) * | 2021-03-31 | 2025-09-23 | Speechly Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
| US20230069628A1 (en) * | 2021-08-24 | 2023-03-02 | International Business Machines Corporation | External language model fusing method for speech recognition |
| US12394409B2 (en) * | 2021-09-17 | 2025-08-19 | International Business Machines Corporation | Separating acoustic and linguistic information in neural transducer models for end-to-end speech recognition |
| WO2023048746A1 (en) * | 2021-09-23 | 2023-03-30 | Google Llc | Speaker-turn-based online speaker diarization with constrained spectral clustering |
| KR20240068704A (ko) * | 2021-09-30 | 2024-05-17 | 구글 엘엘씨 | 준지도 스피치 인식을 위한 대조 샴 네트워크 |
| JP7559288B1 (ja) * | 2021-10-04 | 2024-10-01 | グーグル エルエルシー | カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 |
| WO2023060008A1 (en) * | 2021-10-05 | 2023-04-13 | Google Llc | Optimizing inference performance for conformer |
| US12321701B2 (en) * | 2022-11-04 | 2025-06-03 | Microsoft Technology Licensing, Llc | Building and using target-based sentiment models |
-
2022
- 2022-08-19 US US17/821,160 patent/US12211509B2/en active Active
- 2022-08-19 WO PCT/US2022/075242 patent/WO2023059959A1/en not_active Ceased
- 2022-08-19 KR KR1020247013311A patent/KR20240068723A/ko active Pending
- 2022-08-19 CN CN202280079817.5A patent/CN118339608A/zh active Pending
- 2022-08-19 EP EP22772751.8A patent/EP4413562B1/en active Active
- 2022-08-19 JP JP2024521022A patent/JP7765622B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021178108A1 (en) | 2020-03-04 | 2021-09-10 | Google Llc | Consistency prediction on streaming sequence models |
Non-Patent Citations (2)
| Title |
|---|
| Mingkun Huang, et. al,IMPROVING RNN TRANSDUCER WITH NORMALIZED JOINTER NETWORK,Electrical Engineering and System Science,2020年11月03日 |
| Mohammadreza Ghodsi, et. al,RNN-TRANSDUCER WITH STATELESS PREDICTION NETWORK,ICASSP 2020,IEEE,2020年04月09日,pp7049-7053 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118339608A (zh) | 2024-07-12 |
| EP4413562A1 (en) | 2024-08-14 |
| JP2024539599A (ja) | 2024-10-29 |
| US20230107695A1 (en) | 2023-04-06 |
| EP4413562B1 (en) | 2026-04-22 |
| WO2023059959A1 (en) | 2023-04-13 |
| KR20240068723A (ko) | 2024-05-17 |
| US12211509B2 (en) | 2025-01-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7679468B2 (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
| EP4218008B1 (en) | Cascaded encoders for simplified streaming and non-streaming speech recognition | |
| JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
| KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
| JP7741196B2 (ja) | 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル | |
| JP7765622B2 (ja) | Rnn-tとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合 | |
| EP4399704A1 (en) | Predicting word boundaries for on-device batching of end-to-end speech recognition models | |
| JP2025111462A (ja) | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 | |
| EP4292080B1 (en) | Recurrent neural network-transducer model for performing speech recognition | |
| JP2024538718A (ja) | コンフォーマの推論性能の最適化 | |
| JP7818140B2 (ja) | スイッチ接続を使用するエンドツーエンド音声認識及びエンドポインティングの統一 | |
| JP7808208B2 (ja) | 共同言語識別を用いたエンドツーエンド多言語音声認識のストリーミング | |
| JP2025510713A (ja) | 言語モデル(lm)アウェアなmwerトレーニングによるレアワード認識 | |
| JP7843855B2 (ja) | 動的モデルサイズのための統合されたカスケードエンコーダasrモデル |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240516 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240516 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250527 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250530 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250716 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250930 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20251024 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7765622 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |