JP4960596B2 - 音声認識の方法およびシステム - Google Patents
音声認識の方法およびシステム Download PDFInfo
- Publication number
- JP4960596B2 JP4960596B2 JP2004549439A JP2004549439A JP4960596B2 JP 4960596 B2 JP4960596 B2 JP 4960596B2 JP 2004549439 A JP2004549439 A JP 2004549439A JP 2004549439 A JP2004549439 A JP 2004549439A JP 4960596 B2 JP4960596 B2 JP 4960596B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- segment
- user
- output
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012937 correction Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims abstract 3
- 238000010998 test method Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 11
- 238000012790 confirmation Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000011867 re-evaluation Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract 1
- 238000012795 verification Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000010415 Low Vision Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004303 low vision Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
- Document Processing Apparatus (AREA)
- Mobile Radio Communication Systems (AREA)
Description
Claims (11)
- ユーザの音声信号に含まれる音声情報を認識するために前記音声信号を分析し、最も確実なマッチをしている認識結果を、テスト手続きにおいて再度音声信号に変換し、確認及び/または訂正のために前記ユーザに出力する音声認識方法であって、
認識すべき前記音声信号と次に高い確率でマッチする複数の代替認識結果を前記分析中に生成し、
供給された前記認識結果が間違っている場合、前記ユーザは前記出力を中断し、中断前最後に出力された認識結果のセグメントに対して、これに対応する前記複数の代替認識結果のセグメントが前記ユーザの選択のため自動的に音声の形式で出力されるように、前記テスト手続きにおいて出力し、
選択された代替認識結果の対応するセグメントに基づき、前記供給された認識結果中のセグメントを訂正し、
その後認識すべき前記音声信号の後続の残りのセグメントに対して前記テスト手続きを継続することを特徴とする方法。 - 請求項1に記載の方法であって、
前記ユーザのボイスアクティビティは前記テスト手続きにおける前記認識結果の出力中にも引き続きモニターされ、
前記ユーザの音声信号の受信に応じて前記出力が中断されることを特徴とする方法。 - 請求項1または2に記載の方法であって、
前記代替認識結果のセグメントが選択されなかったとき、前記ユーザに訂正のため前記一セグメントを再度しゃべるように要求する要求信号を出力することを特徴とする方法。 - 請求項1ないし3いずれか一項に記載の方法であって、
各代替認識結果にインジケータが付随し、
前記テスト手続き中に、前記代替認識結果のセグメントは前記付随したインジケータとともに出力され、代替認識結果のセグメントの選択は前記インジケータの入力により行われることを特徴とする方法。 - 請求項1ないし4いずれか一項に記載の方法であって、
前記インジケータは数字または文字であることを特徴とする方法。 - 請求項4または5に記載の方法であって、
通信端末のキー信号が前記インジケータに関連づけられ、
代替認識結果のセグメントの前記選択は前記通信端末の前記キーの操作により行われることを特徴とする方法。 - 請求項1ないし6いずれか一項に記載の方法であって、
前記テスト手続き中のセグメント出力の訂正後、前記様々な認識結果が認識すべき前記音声信号とマッチする確率の点において再評価され、すなわち、最後に訂正したセグメントおよび/またはすでに確認または訂正されたセグメントを考慮して、前記テスト手続きで前記再評価後に最も高い確率を示す認識結果の次のセグメントが出力されることを特徴とする方法。 - 請求項1ないし7いずれか一項に記載の方法であって、
前記テスト手続きは、前記ユーザによる完全なテキストの入力の終了後行われることを特徴とする方法。 - 請求項1ないし7いずれか一項に記載の方法であって、
前記テスト手続きは、前記ユーザによる完全なテキストの入力後、すでに行われていることを特徴とする方法。 - 音声認識システムであって、
ユーザの音声信号を検知するデバイスと、
前記音声信号に含まれる音声情報を認識するために、前記検知された音声信号を分析し、最も確実なマッチをしている認識結果を決定する音声認識デバイスと、
テスト手続きにおいて、前記最も確実なマッチをしている認識結果を音声情報に変換し、確認及び/または訂正のため前記ユーザに出力する音声出力デバイスとを有し、
前記音声認識デバイスは、認識すべき前記音声信号と次に高い確率でマッチする複数の代替認識結果を前記分析中に生成し、
前記音声認識システムは、
− 前記テスト手続き中に前記出力を前記ユーザにより中断する手段と、
− 中断前最後に出力された認識結果のセグメントに対して、これに対応する前記複数の代替認識結果のセグメントをそれぞれ自動的に音声の形式で出力する会話制御デバイスと、
− 前記代替認識結果の供給されたセグメントのうちの一つを選択する手段と、
− 選択された代替認識結果の対応するセグメントに基づき、次に出力される前記認識結果のセグメントを訂正する訂正部とを有することを特徴とする音声認識システム。 - コンピュータプログラムであって、
コンピュータで実行されたとき、請求項1ないし9いずれか一項記載の方法のすべてのステップを実行するプログラムコード手段を有することを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10251112.8 | 2002-11-02 | ||
DE10251112A DE10251112A1 (de) | 2002-11-02 | 2002-11-02 | Verfahren und System zur Spracherkennung |
PCT/IB2003/004717 WO2004042699A1 (en) | 2002-11-02 | 2003-10-24 | Method and system for speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006505002A JP2006505002A (ja) | 2006-02-09 |
JP2006505002A5 JP2006505002A5 (ja) | 2006-12-21 |
JP4960596B2 true JP4960596B2 (ja) | 2012-06-27 |
Family
ID=32115142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004549439A Expired - Fee Related JP4960596B2 (ja) | 2002-11-02 | 2003-10-24 | 音声認識の方法およびシステム |
Country Status (8)
Country | Link |
---|---|
US (1) | US20050288922A1 (ja) |
EP (1) | EP1561204B1 (ja) |
JP (1) | JP4960596B2 (ja) |
CN (1) | CN100524459C (ja) |
AT (1) | ATE421748T1 (ja) |
AU (1) | AU2003274432A1 (ja) |
DE (2) | DE10251112A1 (ja) |
WO (1) | WO2004042699A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
US7912186B2 (en) * | 2004-10-20 | 2011-03-22 | Microsoft Corporation | Selectable state machine user interface system |
US7551727B2 (en) | 2004-10-20 | 2009-06-23 | Microsoft Corporation | Unified messaging architecture |
JP4679254B2 (ja) * | 2004-10-28 | 2011-04-27 | 富士通株式会社 | 対話システム、対話方法、及びコンピュータプログラム |
US7941316B2 (en) * | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US9128926B2 (en) | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
DE102006058758B4 (de) * | 2006-12-12 | 2018-02-22 | Deutsche Telekom Ag | Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung |
US7987090B2 (en) * | 2007-08-09 | 2011-07-26 | Honda Motor Co., Ltd. | Sound-source separation system |
JP5610197B2 (ja) * | 2010-05-25 | 2014-10-22 | ソニー株式会社 | 検索装置、検索方法、及び、プログラム |
CN102723080B (zh) * | 2012-06-25 | 2014-06-11 | 惠州市德赛西威汽车电子有限公司 | 一种语音识别测试系统及方法 |
US10229676B2 (en) * | 2012-10-05 | 2019-03-12 | Avaya Inc. | Phrase spotting systems and methods |
CN102945671A (zh) * | 2012-10-31 | 2013-02-27 | 四川长虹电器股份有限公司 | 语音识别方法 |
KR20140065897A (ko) * | 2012-11-22 | 2014-05-30 | 삼성전자주식회사 | 전력 부하 모니터링 장치 및 방법 |
US9620115B2 (en) | 2013-01-03 | 2017-04-11 | Telenav, Inc. | Content delivery system with barge-in mechanism and method of operation thereof |
CN104618456A (zh) * | 2015-01-13 | 2015-05-13 | 小米科技有限责任公司 | 信息发布方法及装置 |
US9773483B2 (en) * | 2015-01-20 | 2017-09-26 | Harman International Industries, Incorporated | Automatic transcription of musical content and real-time musical accompaniment |
KR102561711B1 (ko) * | 2016-02-26 | 2023-08-01 | 삼성전자주식회사 | 컨텐트를 인식하는 방법 및 장치 |
DE102016115243A1 (de) * | 2016-04-28 | 2017-11-02 | Masoud Amri | Programmieren in natürlicher Sprache |
US11151986B1 (en) * | 2018-09-21 | 2021-10-19 | Amazon Technologies, Inc. | Learning how to rewrite user-specific input for natural language understanding |
KR102368193B1 (ko) * | 2018-10-29 | 2022-03-02 | 어니컴 주식회사 | 음성합성을 이용한 음성인식기능 검증 방법 및 장치 |
CN110853639B (zh) * | 2019-10-23 | 2023-09-01 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2585547B2 (ja) * | 1986-09-19 | 1997-02-26 | 株式会社日立製作所 | 音声入出力装置における入力音声の修正方法 |
JPH0351898A (ja) * | 1989-07-20 | 1991-03-06 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH0854894A (ja) * | 1994-08-10 | 1996-02-27 | Fujitsu Ten Ltd | 音声処理装置 |
JPH09114482A (ja) * | 1995-10-17 | 1997-05-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識のための話者適応化方法 |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
JPH10143503A (ja) * | 1996-11-08 | 1998-05-29 | Nec Corp | 音声ワードプロセッサ |
US6154526A (en) * | 1996-12-04 | 2000-11-28 | Intellivoice Communications, Inc. | Data acquisition and error correcting speech recognition system |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6219628B1 (en) * | 1997-08-18 | 2001-04-17 | National Instruments Corporation | System and method for configuring an instrument to perform measurement functions utilizing conversion of graphical programs into hardware implementations |
JPH11338493A (ja) * | 1998-05-26 | 1999-12-10 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
US6405170B1 (en) * | 1998-09-22 | 2002-06-11 | Speechworks International, Inc. | Method and system of reviewing the behavior of an interactive speech recognition application |
US6219638B1 (en) * | 1998-11-03 | 2001-04-17 | International Business Machines Corporation | Telephone messaging and editing system |
JP2000250587A (ja) * | 1999-03-01 | 2000-09-14 | Hitachi Ltd | 音声認識装置及び音声認識翻訳装置 |
JP3980791B2 (ja) * | 1999-05-03 | 2007-09-26 | パイオニア株式会社 | 音声認識装置を備えたマンマシンシステム |
DE50008703D1 (de) * | 1999-06-10 | 2004-12-23 | Infineon Technologies Ag | Spracherkennungsverfahren und -einrichtung |
JP2001005809A (ja) * | 1999-06-25 | 2001-01-12 | Toshiba Corp | 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体 |
CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
JP2001100786A (ja) * | 1999-09-28 | 2001-04-13 | Canon Inc | 音声認識方法、装置及び記憶媒体 |
EP1169678B1 (en) * | 1999-12-20 | 2015-01-21 | Nuance Communications Austria GmbH | Audio playback for text edition in a speech recognition system |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
US7200555B1 (en) * | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
WO2002021510A1 (en) * | 2000-09-08 | 2002-03-14 | Koninklijke Philips Electronics N.V. | Speech recognition method with a replace command |
EP1189203B1 (en) * | 2000-09-18 | 2006-05-17 | L & H Holdings USA, Inc. | Homophone selection in speech recognition |
ATE317583T1 (de) | 2001-03-29 | 2006-02-15 | Koninkl Philips Electronics Nv | Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe |
US6839667B2 (en) * | 2001-05-16 | 2005-01-04 | International Business Machines Corporation | Method of speech recognition by presenting N-best word candidates |
US6910012B2 (en) * | 2001-05-16 | 2005-06-21 | International Business Machines Corporation | Method and system for speech recognition using phonetically similar word alternatives |
US6963834B2 (en) * | 2001-05-29 | 2005-11-08 | International Business Machines Corporation | Method of speech recognition using empirically determined word candidates |
TW517221B (en) * | 2001-08-24 | 2003-01-11 | Ind Tech Res Inst | Voice recognition system |
US7260534B2 (en) * | 2002-07-16 | 2007-08-21 | International Business Machines Corporation | Graphical user interface for determining speech recognition accuracy |
-
2002
- 2002-11-02 DE DE10251112A patent/DE10251112A1/de not_active Withdrawn
-
2003
- 2003-10-24 WO PCT/IB2003/004717 patent/WO2004042699A1/en active Application Filing
- 2003-10-24 JP JP2004549439A patent/JP4960596B2/ja not_active Expired - Fee Related
- 2003-10-24 US US10/532,918 patent/US20050288922A1/en not_active Abandoned
- 2003-10-24 EP EP03758411A patent/EP1561204B1/en not_active Expired - Lifetime
- 2003-10-24 CN CNB2003801025097A patent/CN100524459C/zh not_active Expired - Fee Related
- 2003-10-24 DE DE60325997T patent/DE60325997D1/de not_active Expired - Lifetime
- 2003-10-24 AT AT03758411T patent/ATE421748T1/de not_active IP Right Cessation
- 2003-10-24 AU AU2003274432A patent/AU2003274432A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050288922A1 (en) | 2005-12-29 |
EP1561204A1 (en) | 2005-08-10 |
CN100524459C (zh) | 2009-08-05 |
AU2003274432A1 (en) | 2004-06-07 |
ATE421748T1 (de) | 2009-02-15 |
WO2004042699A1 (en) | 2004-05-21 |
JP2006505002A (ja) | 2006-02-09 |
EP1561204B1 (en) | 2009-01-21 |
CN1708783A (zh) | 2005-12-14 |
DE10251112A1 (de) | 2004-05-19 |
DE60325997D1 (de) | 2009-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4960596B2 (ja) | 音声認識の方法およびシステム | |
JP4481972B2 (ja) | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム | |
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
JP4241376B2 (ja) | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 | |
KR100908358B1 (ko) | 음성 인식을 위한 방법, 모듈, 디바이스 및 서버 | |
US6308151B1 (en) | Method and system using a speech recognition system to dictate a body of text in response to an available body of text | |
US7668710B2 (en) | Determining voice recognition accuracy in a voice recognition system | |
US20140365200A1 (en) | System and method for automatic speech translation | |
US20120150538A1 (en) | Voice message converter | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
JP5426363B2 (ja) | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム | |
JP2006154724A (ja) | 対話システム、対話方法、及びコンピュータプログラム | |
JP2008077601A (ja) | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム | |
KR101836430B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
US7167544B1 (en) | Telecommunication system with error messages corresponding to speech recognition errors | |
CN113362828A (zh) | 用于识别语音的方法和装置 | |
USH2187H1 (en) | System and method for gender identification in a speech application environment | |
JP2017167247A (ja) | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2019197221A (ja) | 用件判定装置、用件判定方法およびプログラム | |
JP6260138B2 (ja) | コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム | |
JP3285704B2 (ja) | 音声対話のための音声認識方法及び装置 | |
JP2006113439A (ja) | 音声自動応答装置及びプログラム | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
CN113936660B (zh) | 具有多个语音理解引擎的智能语音理解系统和交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061023 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100105 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100914 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101005 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20101112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110628 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110701 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120323 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |