JP7346788B2 - 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 - Google Patents
音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 Download PDFInfo
- Publication number
- JP7346788B2 JP7346788B2 JP2022025648A JP2022025648A JP7346788B2 JP 7346788 B2 JP7346788 B2 JP 7346788B2 JP 2022025648 A JP2022025648 A JP 2022025648A JP 2022025648 A JP2022025648 A JP 2022025648A JP 7346788 B2 JP7346788 B2 JP 7346788B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- probability
- speech recognition
- candidate
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000012549 training Methods 0.000 title claims description 50
- 230000004927 fusion Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 34
- 230000001186 cumulative effect Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
関連技術では、デコーダがビームサーチ(beam search)を実行する時、入力は、前の時刻の出力テキストおよび音響関連情報のみを含む。
101、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得する。
301、音声の音響的特徴を抽出する。
Claims (13)
- コンピュータにより実行される、音声認識モデルのトレーニング方法であって、
前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
前記音声認識モデルのトレーニング方法は、
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、
前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするステップと、を備え、
予め設定された数の候補テキストに基づいて予測テキストを決定するステップは、
前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定するステップと、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するステップと、を含む、
音声認識モデルのトレーニング方法。 - 前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップは、
前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得するステップと、
前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得するステップと、
前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するステップと、を含む、
請求項1に記載の音声認識モデルのトレーニング方法。 - 前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するステップは、
前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するステップと、を含む、
請求項2に記載の音声認識モデルのトレーニング方法。 - 前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
前記音声認識モデルのトレーニング方法は、
前記音声の音響的特徴を抽出するステップと、
前記エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得するステップと、
前記注意力モデルを使用して、前記符号化特徴を注意力処理して、前記注意力処理後の特徴を取得するステップと、をさらに含む、
請求項2または3に記載の音声認識モデルのトレーニング方法。 - 前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得するステップは、
前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得するステップであって、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得されるステップと、
前記予測テキストの累積エラー数に基づいて、損失関数を取得するステップと、を含む、
請求項1から4のいずれか一項に記載の音声認識モデルのトレーニング方法。 - 音声認識モデルのトレーニング装置であって、
前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
前記音声認識モデルのトレーニング装置は、
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するための処理モジュールと、
前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするためのトレーニングモジュールと、を備え、
前記決定モジュールは、
前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定し、
前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる、
音声認識モデルのトレーニング装置。 - 前記処理モジュールは、
前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得し、
前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得し、
前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる、
請求項6に記載の音声認識モデルのトレーニング装置。 - 前記処理モジュールは、さらに、
前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる、
請求項7に記載の音声認識モデルのトレーニング装置。 - 前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
前記音声認識モデルのトレーニング装置は、
前記音声の音響的特徴を抽出するための抽出モジュールと、
前記音響的特徴を符号化して、符号化特徴を取得するための符号化モジュールと、
前記符号化特徴を処理して、前記注意力処理後の特徴を取得するための注意力処理モジュールと、をさらに含む、
請求項7または8に記載の音声認識モデルのトレーニング装置。 - 前記トレーニングモジュールは、
前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、
前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる、
請求項6から9のいずれか一項に記載の音声認識モデルのトレーニング装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から5のいずれか一項に記載の音声認識モデルのトレーニング方法を実行する、
電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1から5のいずれか一項に記載の音声認識モデルのトレーニング方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行される時に請求項1から5のいずれか一項に記載の音声認識モデルのトレーニング方法を実現する、
コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308608.0A CN113129870B (zh) | 2021-03-23 | 2021-03-23 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN202110308608.0 | 2021-03-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022151649A JP2022151649A (ja) | 2022-10-07 |
JP7346788B2 true JP7346788B2 (ja) | 2023-09-20 |
Family
ID=76773806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022025648A Active JP7346788B2 (ja) | 2021-03-23 | 2022-02-22 | 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12033616B2 (ja) |
EP (1) | EP4064277B1 (ja) |
JP (1) | JP7346788B2 (ja) |
KR (1) | KR20220132414A (ja) |
CN (1) | CN113129870B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850291B (zh) * | 2021-08-18 | 2023-11-24 | 北京百度网讯科技有限公司 | 文本处理及模型训练方法、装置、设备和存储介质 |
CN113611311A (zh) * | 2021-08-20 | 2021-11-05 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备和存储介质 |
CN113889088B (zh) * | 2021-09-28 | 2022-07-15 | 北京百度网讯科技有限公司 | 训练语音识别模型的方法及装置、电子设备和存储介质 |
CN114842834A (zh) * | 2022-03-31 | 2022-08-02 | 中国科学院自动化研究所 | 一种语音文本联合预训练方法及系统 |
CN115116437B (zh) * | 2022-04-07 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备、存储介质及产品 |
KR102478763B1 (ko) * | 2022-06-28 | 2022-12-19 | (주)액션파워 | 자소 정보를 이용한 음성 인식 방법 |
US20240013782A1 (en) * | 2022-07-11 | 2024-01-11 | Google Llc | History-Based ASR Mistake Corrections |
CN115132209B (zh) * | 2022-09-01 | 2022-11-08 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和介质 |
CN117116264B (zh) * | 2023-02-20 | 2024-07-23 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019133046A (ja) | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
US20200027444A1 (en) | 2018-07-20 | 2020-01-23 | Google Llc | Speech recognition with sequence-to-sequence models |
US20200357388A1 (en) | 2019-05-10 | 2020-11-12 | Google Llc | Using Context Information With End-to-End Models for Speech Recognition |
JP2021501376A (ja) | 2017-12-15 | 2021-01-14 | 三菱電機株式会社 | 音声認識システム |
JP2021039220A (ja) | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208964B1 (en) * | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
US8407041B2 (en) * | 2010-12-01 | 2013-03-26 | Microsoft Corporation | Integrative and discriminative technique for spoken utterance translation |
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
JP6188831B2 (ja) * | 2014-02-06 | 2017-08-30 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
KR20160082150A (ko) * | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 불완전 사전을 이용한 자연어 음성 인식 방법 |
US11264044B2 (en) * | 2016-02-02 | 2022-03-01 | Nippon Telegraph And Telephone Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN107578771B (zh) * | 2017-07-25 | 2021-02-02 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN110444214B (zh) * | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN109887494B (zh) * | 2017-12-01 | 2022-08-16 | 腾讯科技(深圳)有限公司 | 重构语音信号的方法和装置 |
KR102699827B1 (ko) * | 2018-05-11 | 2024-08-29 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
US10810996B2 (en) * | 2018-07-31 | 2020-10-20 | Nuance Communications, Inc. | System and method for performing automatic speech recognition system parameter adjustment via machine learning |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN110364144B (zh) * | 2018-10-25 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
WO2020090651A1 (ja) * | 2018-10-29 | 2020-05-07 | 日本電信電話株式会社 | 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム |
US11715012B2 (en) * | 2018-11-16 | 2023-08-01 | Uatc, Llc | Feature compression and localization for autonomous devices |
WO2020113031A1 (en) * | 2018-11-28 | 2020-06-04 | Google Llc | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
US11538463B2 (en) * | 2019-04-12 | 2022-12-27 | Adobe Inc. | Customizable speech recognition system |
US11170789B2 (en) * | 2019-04-16 | 2021-11-09 | Microsoft Technology Licensing, Llc | Attentive adversarial domain-invariant training |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
JP7104247B2 (ja) * | 2019-07-09 | 2022-07-20 | グーグル エルエルシー | オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成 |
CN112242144A (zh) * | 2019-07-17 | 2021-01-19 | 百度在线网络技术(北京)有限公司 | 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质 |
CN110415679B (zh) * | 2019-07-25 | 2021-12-17 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
CN110517693B (zh) * | 2019-08-01 | 2022-03-04 | 出门问问(苏州)信息科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
EP3891728A1 (en) * | 2019-09-03 | 2021-10-13 | Google LLC | Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model |
US11263198B2 (en) * | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
CN110648658B (zh) * | 2019-09-06 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
KR20210044559A (ko) * | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
JP7418563B2 (ja) * | 2019-11-08 | 2024-01-19 | グーグル エルエルシー | オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
US11749281B2 (en) * | 2019-12-04 | 2023-09-05 | Soundhound Ai Ip, Llc | Neural speech-to-meaning |
KR20210079666A (ko) * | 2019-12-20 | 2021-06-30 | 엘지전자 주식회사 | 음향 모델을 학습시키기 위한 인공 지능 장치 |
CN111261144B (zh) * | 2019-12-31 | 2023-03-03 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
US20210210109A1 (en) * | 2020-01-03 | 2021-07-08 | Knowles Electronics, Llc | Adaptive decoder for highly compressed grapheme model |
CN111261146B (zh) * | 2020-01-16 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111243576B (zh) * | 2020-01-16 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音识别以及模型训练方法、装置、设备和存储介质 |
CN115039170A (zh) * | 2020-01-28 | 2022-09-09 | 谷歌有限责任公司 | 端到端语音识别中的专有名词识别 |
WO2021178108A1 (en) * | 2020-03-04 | 2021-09-10 | Google Llc | Consistency prediction on streaming sequence models |
US11990134B2 (en) * | 2020-03-18 | 2024-05-21 | Sas Institute Inc. | Method for configuring and using a numeric-to-alphabetic expression machine learning model |
CN111128394B (zh) * | 2020-03-26 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN113470662B (zh) * | 2020-03-31 | 2024-08-27 | 微软技术许可有限责任公司 | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 |
US11741943B2 (en) * | 2020-04-27 | 2023-08-29 | SoundHound, Inc | Method and system for acoustic model conditioning on non-phoneme information features |
US11521595B2 (en) * | 2020-05-01 | 2022-12-06 | Google Llc | End-to-end multi-talker overlapping speech recognition |
US11222620B2 (en) * | 2020-05-07 | 2022-01-11 | Google Llc | Speech recognition using unspoken text and speech synthesis |
CN111753549B (zh) * | 2020-05-22 | 2023-07-21 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
US12067978B2 (en) * | 2020-06-02 | 2024-08-20 | Samsung Electronics Co., Ltd. | Methods and systems for confusion reduction for compressed acoustic models |
US11741941B2 (en) * | 2020-06-12 | 2023-08-29 | SoundHound, Inc | Configurable neural speech synthesis |
US11335324B2 (en) * | 2020-08-31 | 2022-05-17 | Google Llc | Synthesized data augmentation using voice conversion and speech recognition models |
US20220093088A1 (en) * | 2020-09-24 | 2022-03-24 | Apple Inc. | Contextual sentence embeddings for natural language processing applications |
CN112466318B (zh) * | 2020-10-27 | 2024-01-19 | 北京百度网讯科技有限公司 | 语音处理方法、装置及语音处理模型的生成方法、装置 |
CN112509562B (zh) * | 2020-11-09 | 2024-03-22 | 北京有竹居网络技术有限公司 | 用于文本后处理的方法、装置、电子设备和介质 |
CN112102815B (zh) * | 2020-11-13 | 2021-07-13 | 深圳追一科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
US11741944B2 (en) * | 2020-11-24 | 2023-08-29 | Google Llc | Speech personalization and federated training using real world noise |
KR20220118583A (ko) * | 2021-02-18 | 2022-08-26 | 삼성전자주식회사 | 안면 인장 데이터를 사용한 음성 인식 |
-
2021
- 2021-03-23 CN CN202110308608.0A patent/CN113129870B/zh active Active
-
2022
- 2022-01-06 EP EP22150464.0A patent/EP4064277B1/en active Active
- 2022-01-10 US US17/571,805 patent/US12033616B2/en active Active
- 2022-01-12 KR KR1020220004740A patent/KR20220132414A/ko unknown
- 2022-02-22 JP JP2022025648A patent/JP7346788B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021501376A (ja) | 2017-12-15 | 2021-01-14 | 三菱電機株式会社 | 音声認識システム |
JP2019133046A (ja) | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
US20200027444A1 (en) | 2018-07-20 | 2020-01-23 | Google Llc | Speech recognition with sequence-to-sequence models |
US20200357388A1 (en) | 2019-05-10 | 2020-11-12 | Google Llc | Using Context Information With End-to-End Models for Speech Recognition |
JP2021039220A (ja) | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4064277B1 (en) | 2023-11-29 |
EP4064277A1 (en) | 2022-09-28 |
KR20220132414A (ko) | 2022-09-30 |
US20220310064A1 (en) | 2022-09-29 |
JP2022151649A (ja) | 2022-10-07 |
CN113129870B (zh) | 2022-03-25 |
CN113129870A (zh) | 2021-07-16 |
US12033616B2 (en) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7346788B2 (ja) | 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 | |
CN113553864B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN112466288B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113792854B (zh) | 一种模型训练及字库建立方法、装置、设备及存储介质 | |
CN112528655B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN113792855A (zh) | 一种模型训练及字库建立方法、装置、设备和存储介质 | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN113763937A (zh) | 语音处理模型的生成方法、装置、设备以及存储介质 | |
CN112464642A (zh) | 文本添加标点的方法、装置、介质及电子设备 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN115270719A (zh) | 基于多模态信息的文本摘要生成方法、训练方法及其装置 | |
CN113204616B (zh) | 文本抽取模型的训练与文本抽取的方法、装置 | |
CN114841175A (zh) | 机器翻译方法、装置、设备及存储介质 | |
CN118435274A (zh) | 预测用于端到端语音识别模型的设备上批处理的单词边界 | |
CN114067805A (zh) | 声纹识别模型的训练与声纹识别方法及装置 | |
CN114254028A (zh) | 事件属性抽取方法、装置、电子设备和存储介质 | |
CN113553863B (zh) | 文本生成方法、装置、电子设备和存储介质 | |
CN117591948B (zh) | 评论生成模型训练方法和装置、信息生成方法和装置 | |
CN113255332B (zh) | 文本纠错模型的训练与文本纠错方法、装置 | |
CN114898754B (zh) | 解码图生成、语音识别方法、装置、电子设备及存储介质 | |
CN115309888A (zh) | 图表摘要的生成方法和生成模型的训练方法、装置 | |
CN118643827A (zh) | 实体抽取模型的训练方法、装置、电子设备及存储介质 | |
CN114267377A (zh) | 语音评估方法、训练方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7346788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |