JP2023503717A - エンド・ツー・エンド音声認識における固有名詞認識 - Google Patents
エンド・ツー・エンド音声認識における固有名詞認識 Download PDFInfo
- Publication number
- JP2023503717A JP2023503717A JP2022545879A JP2022545879A JP2023503717A JP 2023503717 A JP2023503717 A JP 2023503717A JP 2022545879 A JP2022545879 A JP 2022545879A JP 2022545879 A JP2022545879 A JP 2022545879A JP 2023503717 A JP2023503717 A JP 2023503717A
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- training
- hypotheses
- decoder
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 claims abstract description 113
- 238000000034 method Methods 0.000 claims abstract description 71
- 230000006870 function Effects 0.000 claims description 46
- 230000015654 memory Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013518 transcription Methods 0.000 description 7
- 230000035897 transcription Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 241000218645 Cedrus Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
音声認識は、モバイル環境の非拘束性および機敏性の要求を満たすために進化し続けている。自動音声認識システム(ASR)の品質を向上させるために、新たな音声認識アーキテクチャまたは既存のアーキテクチャの改良が引き続き開発されている。例えば、音声認識は、当初、各モデルが専用の目的を持つ複数のモデルを採用していた。例えば、ASRシステムは、音響モデル(AM)、発音モデル(PM)、および言語モデル(LM)を含んでいた。音響モデルは、音声のセグメント(即ち、音声のフレーム)を音素(phonemes)にマッピングした。発音モデルは、これらの音素をつなぎ合わせて単語を形成し、言語モデルは、所与のフレーズの可能性(即ち、単語のシーケンスの確率)を表現するために使用された。これらの個々のモデルは連携して機能したが、各モデルは個別にトレーニングされ、多くの場合、異なるデータセットで手動で設計された。
Claims (20)
- データ処理ハードウェア(510)上での実行時に、前記データ処理ハードウェア(510)に動作を実行させるコンピュータが実施する方法(400)であって、前記動作は、
最小単語誤り率損失関数を使用して音声認識モデル(200)をトレーニングすることであって、
固有名詞を含むトレーニング例(302)を受信すること、
前記トレーニング例(302)に対応する複数の仮説(222)を生成すること、前記複数の仮説(222)の各仮説(222)は、固有名詞を表し、かつ仮説(222)が固有名詞を表す可能性を示す対応する確率を含んでおり、
前記複数の仮説(222)のうちの1つに関連付けられた対応する確率がペナルティ基準を満たすことを決定すること、前記ペナルティ基準は、
前記対応する確率が確率しきい値を満たしていること、および
関連付けられた仮説(222)が固有名詞を誤って表していることを示しており、
前記最小単語誤り率損失関数にペナルティ(332)を適用すること
によって、前記音声認識モデル(200)をトレーニングすることを含む、コンピュータが実施する方法(400)。 - 前記対応する確率が他の仮説(222)に関連付けられた対応する確率よりも大きい場合、前記対応する確率が前記確率しきい値を満たす、請求項1に記載のコンピュータが実施する方法(400)。
- 前記音声認識モデル(200)が、
リカレントニューラルネットワークトランスデューサ(以下、RNN-Tとする)デコーダ(220)を含む第1のパスのネットワーク(206)と、
リッスン・アテンド・スペル(以下、LASとする)デコーダ(230)を含む第2のパスのネットワーク(208)とを備える、請求項1または2に記載のコンピュータが実施する方法(400)。 - 前記音声認識モデルは、共有エンコーダをさらに備え、前記共有エンコーダは、前記第1のパスのネットワーク(206)および前記第2のパスのネットワーク(208)の各々に対して音響フレーム(212)をエンコードする、請求項3に記載の方法(400)。
- 前記最小単語誤り率損失関数を使用したトレーニングは、前記LASデコーダ(230)において行われる、請求項3または4に記載のコンピュータが実施する方法(400)。
- 前記動作は、
前記RNN-Tデコーダ(220)をトレーニングすること、
前記最小単語誤り率損失関数を使用して前記LASデコーダ(230)をトレーニングする前に、トレーニングされた前記RNN-Tデコーダ(220)のパラメータが固定された状態で、前記LASデコーダ(230)をトレーニングすること、をさらに含む、請求項3乃至5のいずれか一項に記載のコンピュータが実施する方法(400)。 - 前記動作は、確率を前記複数の仮説(222)の各仮説(222)に割り当てることをさらに含む、請求項1乃至6のいずれか一項に記載のコンピュータが実施する方法(400)。
- 前記動作は、
誤った仮説(222)を受信すること、
個別の確率を前記誤った仮説(222)に割り当てること、をさらに含み、
前記ペナルティ基準は、仮説(222)が生成された誤った仮説(222)を含むという表示をさらに含む、請求項1乃至7のいずれか一項に記載のコンピュータが実施する方法(400)。 - 前記誤った仮説(222)は、固有名詞に対する音声学的類似性を含む、請求項8に記載のコンピュータが実施する方法(400)。
- 前記動作が、前記複数の仮説(222)のうちの生成された仮説に対して前記誤った仮説を置換することをさらに含む、請求項8または9に記載のコンピュータが実施する方法(400)。
- システム(500)であって、
データ処理ハードウェア(510)と、
前記データ処理ハードウェア(510)と通信するメモリハードウェア(520)と、を備え、前記メモリハードウェア(520)は、命令を格納しており、前記命令は、前記データ処理ハードウェア(510)上での実行時に、前記データ処理ハードウェア(510)に動作を実行させ、前記動作は、
最小単語誤り率損失関数を使用して音声認識モデル(200)をトレーニングすることであって、
固有名詞を含むトレーニング例(302)を受信すること、
前記トレーニング例(302)に対応する複数の仮説(222)を生成すること、
前記複数の仮説(222)の各仮説(222)は、固有名詞を表し、かつ仮説(222)が固有名詞を表す可能性を示す対応する確率を含んでおり、
前記複数の仮説(222)のうちの1つに関連付けられた対応する確率がペナルティ基準を満たすことを決定すること、前記ペナルティ基準は、
前記対応する確率が確率しきい値を満たしていること、および
関連付けられた仮説(222)が固有名詞を誤って表していることを示しており、
前記最小単語誤り率損失関数にペナルティ(332)を適用すること
によって、前記音声認識モデル(200)をトレーニングすることを含む、システム(500)。 - 前記対応する確率が他の仮説(222)に関連付けられた対応する確率よりも大きい場合、前記対応する確率が前記確率しきい値を満たす、請求項11に記載のシステム(500)。
- リカレントニューラルネットワークトランスデューサ(以下、RNN-Tとする)デコーダ(222)を含む第1のパスのネットワーク(206)と、
リッスン・アテンド・スペル(以下、LASとする)デコーダ(230)を含む第2のパスのネットワーク(208)と、をさらに備え、
前記音声認識モデル(200)は、前記第1のパスのネットワーク(206)および前記第2のパスのネットワーク(208)を含む、請求項11または12に記載のシステム(500)。 - 前記第1のパスのネットワーク(206)および前記第2のパスのネットワーク(208)の各々に対して音響フレーム(212)をエンコードするように構成された共有エンコーダ(210)をさらに備える、請求項13に記載のシステム(500)。
- 前記最小単語誤り率損失関数を使用したトレーニングは、前記LASデコーダ(230)において行われる、請求項13または14に記載のシステム(500)。
- 前記動作は、
前記RNN-Tデコーダ(220)をトレーニングすること、
前記最小単語誤り率損失関数を使用してLASデコーダ(230)をトレーニングする前に、トレーニングされた前記RNN-Tデコーダ(220)のパラメータが固定された状態で、前記LASデコーダ(230)をトレーニングすること、をさらに含む、請求項13乃至15のいずれか一項に記載のシステム(500)。 - 前記動作は、確率を前記複数の仮説(222)の各仮説(222)に割り当てることをさらに含む、請求項11乃至16のいずれか一項に記載のシステム(500)。
- 前記動作は、
誤った仮説(222)を受信すること、
個別の確率を前記誤った仮説(222)に割り当てること、をさらに含み、
前記ペナルティ基準は、仮説(222)が生成された誤った仮説(222)を含むという表示をさらに含む、請求項11乃至17のいずれか一項に記載のシステム(500)。 - 前記誤った仮説は、前記固有名詞に対する音声学的類似性を含む、請求項18に記載のシステム(500)。
- 前記動作は、前記複数の仮説(222)のうちの生成された仮説(222)に対して前記誤った仮説(222)を置換することをさらに含む、請求項18または19に記載のシステム(500)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023148260A JP2023165012A (ja) | 2020-01-28 | 2023-09-13 | エンド・ツー・エンド音声認識における固有名詞認識 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062966823P | 2020-01-28 | 2020-01-28 | |
US62/966,823 | 2020-01-28 | ||
PCT/US2021/013759 WO2021154520A1 (en) | 2020-01-28 | 2021-01-15 | Proper noun recognition in end-to-end speech recognition |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023148260A Division JP2023165012A (ja) | 2020-01-28 | 2023-09-13 | エンド・ツー・エンド音声認識における固有名詞認識 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023503717A true JP2023503717A (ja) | 2023-01-31 |
JP7351018B2 JP7351018B2 (ja) | 2023-09-26 |
Family
ID=74592774
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022545879A Active JP7351018B2 (ja) | 2020-01-28 | 2021-01-15 | エンド・ツー・エンド音声認識における固有名詞認識 |
JP2023148260A Pending JP2023165012A (ja) | 2020-01-28 | 2023-09-13 | エンド・ツー・エンド音声認識における固有名詞認識 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023148260A Pending JP2023165012A (ja) | 2020-01-28 | 2023-09-13 | エンド・ツー・エンド音声認識における固有名詞認識 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11749259B2 (ja) |
EP (2) | EP4078572B1 (ja) |
JP (2) | JP7351018B2 (ja) |
KR (1) | KR20220125327A (ja) |
CN (1) | CN115039170A (ja) |
WO (1) | WO2021154520A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
US11443209B2 (en) * | 2020-04-16 | 2022-09-13 | International Business Machines Corporation | Method and system for unlabeled data selection using failed case analysis |
CN113129870B (zh) * | 2021-03-23 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
KR102699035B1 (ko) * | 2021-03-26 | 2024-08-27 | 구글 엘엘씨 | 자동 음성 인식을 위한 다언어 리스코어링 모델들 |
US20220319506A1 (en) * | 2021-03-31 | 2022-10-06 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
US11810573B2 (en) * | 2021-04-23 | 2023-11-07 | Comcast Cable Communications, Llc | Assisted speech recognition |
CN113851116A (zh) * | 2021-09-18 | 2021-12-28 | 国网智能科技股份有限公司 | 一种巡检场景下的电力设备语音识别方法及系统 |
KR102478763B1 (ko) * | 2022-06-28 | 2022-12-19 | (주)액션파워 | 자소 정보를 이용한 음성 인식 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012165529A1 (ja) * | 2011-06-03 | 2012-12-06 | 日本電気株式会社 | 言語モデル構築支援装置、方法及びプログラム |
JP2020194494A (ja) * | 2019-05-30 | 2020-12-03 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11482213B2 (en) | 2018-07-20 | 2022-10-25 | Cisco Technology, Inc. | Automatic speech recognition correction |
US10861441B2 (en) * | 2019-02-14 | 2020-12-08 | Tencent America LLC | Large margin training for attention-based end-to-end speech recognition |
US11037547B2 (en) * | 2019-02-14 | 2021-06-15 | Tencent America LLC | Token-wise training for attention based end-to-end speech recognition |
-
2021
- 2021-01-15 JP JP2022545879A patent/JP7351018B2/ja active Active
- 2021-01-15 CN CN202180010814.1A patent/CN115039170A/zh active Pending
- 2021-01-15 EP EP21705020.2A patent/EP4078572B1/en active Active
- 2021-01-15 US US17/150,491 patent/US11749259B2/en active Active
- 2021-01-15 WO PCT/US2021/013759 patent/WO2021154520A1/en unknown
- 2021-01-15 KR KR1020227027428A patent/KR20220125327A/ko active Search and Examination
- 2021-01-15 EP EP24169022.1A patent/EP4375882A3/en active Pending
-
2023
- 2023-07-31 US US18/362,273 patent/US20230377564A1/en active Pending
- 2023-09-13 JP JP2023148260A patent/JP2023165012A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012165529A1 (ja) * | 2011-06-03 | 2012-12-06 | 日本電気株式会社 | 言語モデル構築支援装置、方法及びプログラム |
JP2020194494A (ja) * | 2019-05-30 | 2020-12-03 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20230377564A1 (en) | 2023-11-23 |
WO2021154520A1 (en) | 2021-08-05 |
EP4375882A3 (en) | 2024-07-17 |
EP4078572B1 (en) | 2024-04-10 |
KR20220125327A (ko) | 2022-09-14 |
EP4078572A1 (en) | 2022-10-26 |
JP2023165012A (ja) | 2023-11-14 |
EP4375882A2 (en) | 2024-05-29 |
US11749259B2 (en) | 2023-09-05 |
JP7351018B2 (ja) | 2023-09-26 |
CN115039170A (zh) | 2022-09-09 |
US20210233512A1 (en) | 2021-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
JP7222153B1 (ja) | デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
JP7554925B2 (ja) | 簡略化されたストリーミングおよび非ストリーミングasr用のカスケードエンコーダ | |
JP7375211B2 (ja) | アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル | |
JP2024510817A (ja) | 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル | |
JP7575640B1 (ja) | 希少単語音声認識のための大規模言語モデルデータ選択 | |
US12057124B2 (en) | Reducing streaming ASR model delay with self alignment | |
JP2024541131A (ja) | 希少単語音声認識のための大規模言語モデルデータ選択 | |
JP2023109914A (ja) | エンドツーエンドモデルによる単語タイミングの発出 | |
KR102637025B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
JP2024539599A (ja) | Rnn-tとして実装された自動音声認識システムにおける音響表現およびテキスト表現の融合 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221026 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20221026 Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20221026 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7351018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |