JP2006038895A - 音声処理装置および音声処理方法、プログラム、並びに記録媒体 - Google Patents
音声処理装置および音声処理方法、プログラム、並びに記録媒体 Download PDFInfo
- Publication number
- JP2006038895A JP2006038895A JP2004213893A JP2004213893A JP2006038895A JP 2006038895 A JP2006038895 A JP 2006038895A JP 2004213893 A JP2004213893 A JP 2004213893A JP 2004213893 A JP2004213893 A JP 2004213893A JP 2006038895 A JP2006038895 A JP 2006038895A
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition result
- unknown word
- speech
- oov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012545 processing Methods 0.000 title claims abstract description 59
- 230000008569 process Effects 0.000 claims description 47
- 238000003672 processing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 32
- 239000013598 vector Substances 0.000 description 28
- 238000012790 confirmation Methods 0.000 description 24
- 230000007704 transition Effects 0.000 description 18
- 238000012795 verification Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 14
- 238000012217 deletion Methods 0.000 description 11
- 230000037430 deletion Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 102100033806 Alpha-protein kinase 3 Human genes 0.000 description 2
- 101710082399 Alpha-protein kinase 3 Proteins 0.000 description 2
- 244000205754 Colocasia esculenta Species 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 音声が入力された場合、ステップS21からS22に進み、入力音声を認識する音声認識処理が行われる。ステップS23において、認識結果に未知語が含まれているか否かが判定される。ステップS23において、認識結果に未知語が含まれていると判定された場合、ステップS25において、認識結果を棄却するか否かが判定され、認識結果を棄却しないと判定された場合には、ステップS26以降の未知語に対する処理が行われる。本発明は、例えば、音声認識装置に適用することができる。
【選択図】図9
Description
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、
前記入力音声を認識する認識手段(例えば、図8のマッチング部44)と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定手段(例えば、図8の制御部48)と、
前記未知語判定手段により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却手段(例えば、図8の棄却部46)と、
前記認識結果棄却手段により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得手段(例えば、図5の単語獲得部2)と
を備えることを特徴とする。
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、
前記入力音声を認識する認識ステップ(例えば、図9のステップS22)と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップ(例えば、図9のステップS23)と、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップ(例えば、図9のステップS24)と、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得ステップ(例えば、図9のステップS30)と
を含むことを特徴とする。
入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録するためのプログラムであって、
前記入力音声を認識する認識ステップ(例えば、図9のステップS22)と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップ(例えば、図9のステップS23)と、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップ(例えば、図9のステップS24)と、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語の獲得する獲得ステップ(例えば、図9のステップS30)と
を含むことを特徴とする。
私の 名前は <OOV> だよ
僕の 名前は <OOV> です
僕の 名前は <OOV> だよ
名前は <OOV> です
名前は <OOV> だよ
私の-名前-は-ハ-オ-ガ-です
私の-名前-は-オ-ガ-ワ-です
私の-名前-は-オ-ガ-です
Claims (9)
- 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、
前記入力音声を認識する認識手段と、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、
前記未知語判定手段により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却手段と、
前記認識結果棄却手段により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得手段と
を備えることを特徴とする音声処理装置。 - 前記認識結果棄却手段は、未知語を含む文の未知語用言語モデルに基づいて、前記認識結果を棄却するか否かを判定する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記未知語用言語モデルは、有限状態オートマトンによって記述された文法である
ことを特徴とする請求項2に記載の音声処理装置。 - 前記言語モデルは、統計言語モデルである
ことを特徴とする請求項2に記載の音声処理装置。 - 前記認識結果棄却手段は、前記認識結果の正解確信度に基づいて、前記認識結果を棄却するか否かを判定する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記認識結果棄却手段は、前記認識結果に含まれる前記未知語に隣接する既知語の正解確信度に基づいて、前記認識結果を棄却するか否かを判定する
ことを特徴とする請求項5に記載の音声処理装置。 - 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、
前記入力音声を認識する認識ステップと、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップと、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得ステップと
を含むことを特徴とする音声処理方法。 - 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録するためのプログラムであって、
前記入力音声を認識する認識ステップと、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップと、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語の獲得する獲得ステップと
を含むことを特徴とするプログラムが記録されているコンピュータが読み取り可能な記録媒体。 - 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録するためのプログラムであって、
前記入力音声を認識する認識ステップと、
前記認識手段により認識された前記入力音声の認識結果に、未知語が含まれているか否かを判定する未知語判定ステップと、
前記未知語判定ステップの処理により前記未知語が含まれていると判定された前記認識結果を棄却するか否かを判定する認識結果棄却ステップと、
前記認識結果棄却ステップの処理により棄却しないと判定された前記認識結果に含まれる前記未知語に対応する単語を獲得する獲得ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004213893A JP4301102B2 (ja) | 2004-07-22 | 2004-07-22 | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 |
US11/185,182 US7657430B2 (en) | 2004-07-22 | 2005-07-20 | Speech processing apparatus, speech processing method, program, and recording medium |
CNB2005100847540A CN100559462C (zh) | 2004-07-22 | 2005-07-20 | 语音处理装置、语音处理方法、程序、和记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004213893A JP4301102B2 (ja) | 2004-07-22 | 2004-07-22 | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006038895A true JP2006038895A (ja) | 2006-02-09 |
JP4301102B2 JP4301102B2 (ja) | 2009-07-22 |
Family
ID=35658382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004213893A Expired - Fee Related JP4301102B2 (ja) | 2004-07-22 | 2004-07-22 | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7657430B2 (ja) |
JP (1) | JP4301102B2 (ja) |
CN (1) | CN100559462C (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158510A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声認識システム及び音声認識システム用プログラム |
JP2009081186A (ja) * | 2007-09-25 | 2009-04-16 | Sumco Techxiv株式会社 | 半導体ウェハの製造方法 |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006070373A2 (en) * | 2004-12-29 | 2006-07-06 | Avraham Shpigel | A system and a method for representing unrecognized words in speech to text conversions as syllables |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
US7899251B2 (en) * | 2006-06-05 | 2011-03-01 | Microsoft Corporation | Balancing out-of-dictionary and in-dictionary recognition scores |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080162129A1 (en) * | 2006-12-29 | 2008-07-03 | Motorola, Inc. | Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process |
US8135590B2 (en) | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US8260615B1 (en) * | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
KR101780760B1 (ko) | 2011-06-30 | 2017-10-10 | 구글 인코포레이티드 | 가변길이 문맥을 이용한 음성인식 |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8849041B2 (en) * | 2012-06-04 | 2014-09-30 | Comcast Cable Communications, Llc | Data recognition in content |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN103065630B (zh) * | 2012-12-28 | 2015-01-07 | 科大讯飞股份有限公司 | 用户个性化信息语音识别方法及系统 |
US9292489B1 (en) * | 2013-01-16 | 2016-03-22 | Google Inc. | Sub-lexical language models with word level pronunciation lexicons |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
CN110675866B (zh) * | 2014-04-22 | 2023-09-29 | 纳宝株式会社 | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN110168544A (zh) * | 2016-12-27 | 2019-08-23 | 夏普株式会社 | 应答装置、应答装置的控制方法、及控制程序 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10170112B2 (en) * | 2017-05-11 | 2019-01-01 | Google Llc | Detecting and suppressing voice queries |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
CN108428446B (zh) * | 2018-03-06 | 2020-12-25 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
CN109243428B (zh) * | 2018-10-15 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及系统 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110442870B (zh) * | 2019-08-02 | 2023-06-09 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110797026A (zh) * | 2019-09-17 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及存储介质 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN111583919B (zh) * | 2020-04-15 | 2023-10-13 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
US12008986B1 (en) * | 2020-04-27 | 2024-06-11 | Interactions Llc | Universal semi-word model for vocabulary contraction in automatic speech recognition |
CN118072721B (zh) * | 2024-04-22 | 2024-07-26 | 深圳市友杰智新科技有限公司 | 加速解码方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092485A (ja) * | 1999-09-10 | 2001-04-06 | Internatl Business Mach Corp <Ibm> | 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2004170765A (ja) * | 2002-11-21 | 2004-06-17 | Sony Corp | 音声処理装置および方法、記録媒体並びにプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5748840A (en) * | 1990-12-03 | 1998-05-05 | Audio Navigation Systems, Inc. | Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken |
US5454062A (en) * | 1991-03-27 | 1995-09-26 | Audio Navigation Systems, Inc. | Method for recognizing spoken words |
US5386492A (en) * | 1992-06-29 | 1995-01-31 | Kurzweil Applied Intelligence, Inc. | Speech recognition system utilizing vocabulary model preselection |
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
US5359514A (en) * | 1993-08-03 | 1994-10-25 | International Business Machines Corporation | Method and apparatus for facilitating comprehension of on-line documents |
US5793891A (en) * | 1994-07-07 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Adaptive training method for pattern recognition |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
US6571210B2 (en) * | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
US6502072B2 (en) * | 1998-11-20 | 2002-12-31 | Microsoft Corporation | Two-tier noise rejection in speech recognition |
JP4302326B2 (ja) * | 1998-11-30 | 2009-07-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テキストの自動区分 |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US6990449B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | Method of training a digital voice library to associate syllable speech items with literal text syllables |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
-
2004
- 2004-07-22 JP JP2004213893A patent/JP4301102B2/ja not_active Expired - Fee Related
-
2005
- 2005-07-20 CN CNB2005100847540A patent/CN100559462C/zh not_active Expired - Fee Related
- 2005-07-20 US US11/185,182 patent/US7657430B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092485A (ja) * | 1999-09-10 | 2001-04-06 | Internatl Business Mach Corp <Ibm> | 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2004170765A (ja) * | 2002-11-21 | 2004-06-17 | Sony Corp | 音声処理装置および方法、記録媒体並びにプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008158510A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声認識システム及び音声認識システム用プログラム |
US8401847B2 (en) | 2006-11-30 | 2013-03-19 | National Institute Of Advanced Industrial Science And Technology | Speech recognition system and program therefor |
JP2009081186A (ja) * | 2007-09-25 | 2009-04-16 | Sumco Techxiv株式会社 | 半導体ウェハの製造方法 |
Also Published As
Publication number | Publication date |
---|---|
CN100559462C (zh) | 2009-11-11 |
JP4301102B2 (ja) | 2009-07-22 |
US7657430B2 (en) | 2010-02-02 |
US20060020461A1 (en) | 2006-01-26 |
CN1725295A (zh) | 2006-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
Wester | Pronunciation modeling for ASR–knowledge-based and data-derived methods | |
Young | HMMs and related speech recognition technologies | |
JP4072718B2 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
WO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
Siniscalchi et al. | A bottom-up modular search approach to large vocabulary continuous speech recognition | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
Renals et al. | Speech recognition | |
Metze | Articulatory features for conversational speech recognition | |
Huang et al. | From Sphinx-II to Whisper—making speech recognition usable | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Sirigos et al. | A hybrid syllable recognition system based on vowel spotting | |
Lecorvé et al. | Adaptive statistical utterance phonetization for French | |
Beaufays et al. | Learning linguistically valid pronunciations from acoustic data. | |
Imseng | Multilingual speech recognition: a posterior based approach | |
Schwartz et al. | Hidden markov models and speaker adaptation | |
Wu et al. | Application of simultaneous decoding algorithms to automatic transcription of known and unknown words | |
Babu et al. | Voiceprint-Based Biometric Template Identifications | |
Tjalve | Accent features and idiodictionaries: on improving accuracy for accented speakers in ASR | |
Hüning et al. | Speech Recognition Methods and their Potential for Dialogue Systems in Mobile Environments | |
Amdal | Learning pronunciation variation: A data-driven approach to rule-based lecxicon adaptation for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090331 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090413 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |