JP5025261B2 - 信頼水準の指示により音声認識の結果を訂正するためのシステム - Google Patents
信頼水準の指示により音声認識の結果を訂正するためのシステム Download PDFInfo
- Publication number
- JP5025261B2 JP5025261B2 JP2006506791A JP2006506791A JP5025261B2 JP 5025261 B2 JP5025261 B2 JP 5025261B2 JP 2006506791 A JP2006506791 A JP 2006506791A JP 2006506791 A JP2006506791 A JP 2006506791A JP 5025261 B2 JP5025261 B2 JP 5025261B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- confidence level
- words
- recognized
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001360 synchronised effect Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 description 34
- 230000005236 sound signal Effects 0.000 description 11
- 239000008186 active pharmaceutical agent Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Description
Claims (12)
- 認識されたテキスト情報が音声情報から音声認識装置により認識され、音声情報に関連付けされる、認識されたテキスト情報における1以上の単語を訂正するのを支援する装置であって、
音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれの1以上の単語でのリンク情報が、1以上の単語が音声認識装置により認識された音声情報の一部をマークするリンク情報、並びに、認識されたテキスト情報のそれぞれの1以上の単語での信頼水準の情報が該1以上の単語の認識の正しさを表す信頼水準情報を受信する手段と、
音声情報の音響再生の間、再生されて前記リンク情報によりマークされた音声情報に関連される認識されたテキスト情報の1以上の単語が同期して再生される同期再生モードを実行する同期再生手段と、
同期再生の間にテキスト情報の1以上の単語の信頼水準の情報を示す支援手段とを有し、
前記支援手段は、音声又は振動である信頼水準の情報を示し、前記音声である信頼水準の情報は、信頼水準に応じた異なるピッチ又は異なるボリュームで発生され、前記振動である信頼水準の情報は、信頼水準に依存して発生され、前記音声認識装置のユーザにより感知される、
ことを特徴とする支援装置。 - 前記支援手段は、再生された1以上の単語の信頼水準の情報を示す、
請求項1記載の支援装置。 - 前記支援手段は、更に、視覚的な指示により信頼水準を示す、
請求項1又は2記載の支援装置。 - 前記再生手段は、信頼水準の情報に依存して音響再生における再生速度を変化させる、
請求項1乃至3のいずれか記載の支援装置。 - 前記支援手段は、フレーズの信頼水準の情報を示す、
請求項1乃至4のいずれか記載の支援装置。 - 認識されたテキスト情報が音声情報から音声認識装置により認識され、音声情報に関連付けされる、認識されたテキスト情報における1以上の単語を訂正するのを支援する方法であって、
音声情報、関連される認識されたテキスト情報、及び、関連される認識されたテキスト情報のそれぞれの1以上の単語でのリンク情報が、1以上の単語が音声認識装置により認識された音声情報の一部をマークするリンク情報、並びに、認識されたテキスト情報のそれぞれの1以上の単語での信頼水準の情報が該1以上の単語の認識の正しさを表す信頼水準情報を受信手段により受信するステップと、
音声情報の音響再生の間、再生されて前記リンク情報によりマークされた音声情報に関連される認識されたテキスト情報の1以上の単語が同期して再生される同期再生モードを同期再生手段により実行するステップと、
同期再生の間にテキスト情報の1以上の単語の信頼水準の情報を支援手段により指示するステップと、
音声又は振動である信頼水準の情報を前記支援手段により指示するステップとを含み、前記音声である信頼水準の情報は、信頼水準に応じた異なるピッチ又は異なるボリュームで発生され、前記振動である信頼水準の情報は、信頼水準に依存して発生され、前記音声認識装置のユーザにより感知される、
ことを特徴とする支援方法。 - 再生された1以上の単語の信頼水準の情報の指示が実行される、
請求項6記載の支援方法。 - 信頼水準の情報の指示は、更に、視覚的な指示により実行される、
請求項6又は7記載の支援方法。 - 信頼水準の情報に依存して音響再生における再生速度の切換えが実行される、
請求項6又は8記載の支援方法。 - 信頼水準の情報の指示で、フレーズの信頼水準の情報の指示が行われる、
請求項6乃至9のいずれか記載の支援方法。 - コンピュータのコンピュータプログラムであって、該コンピュータプログラムがコンピュータで実行されたとき、請求項6乃至10の方法における少なくとも1つのステップを実行するためのソフトウェアコード部分を含む、
ことを特徴とするコンピュータプログラム。 - 請求項11記載のソフトウェアコード部分を記憶するコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03100853 | 2003-03-31 | ||
EP03100853.5 | 2003-03-31 | ||
PCT/IB2004/050360 WO2004088635A1 (en) | 2003-03-31 | 2004-03-30 | System for correction of speech recognition results with confidence level indication |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006522363A JP2006522363A (ja) | 2006-09-28 |
JP2006522363A5 JP2006522363A5 (ja) | 2012-06-14 |
JP5025261B2 true JP5025261B2 (ja) | 2012-09-12 |
Family
ID=33104160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006506791A Expired - Fee Related JP5025261B2 (ja) | 2003-03-31 | 2004-03-30 | 信頼水準の指示により音声認識の結果を訂正するためのシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060195318A1 (ja) |
EP (1) | EP1611570B1 (ja) |
JP (1) | JP5025261B2 (ja) |
WO (1) | WO2004088635A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1787289B1 (en) * | 2004-07-30 | 2018-01-10 | Dictaphone Corporation | A system and method for report level confidence |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
JP4659681B2 (ja) * | 2005-06-13 | 2011-03-30 | パナソニック株式会社 | コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法 |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
WO2007150006A2 (en) * | 2006-06-22 | 2007-12-27 | Multimodal Technologies, Inc. | Applying service levels to transcripts |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8667532B2 (en) * | 2007-04-18 | 2014-03-04 | Google Inc. | Content recognition for targeting video advertisements |
US9064024B2 (en) | 2007-08-21 | 2015-06-23 | Google Inc. | Bundle generation |
KR20090047159A (ko) * | 2007-11-07 | 2009-05-12 | 삼성전자주식회사 | 오디오-북 재생 방법 및 장치 |
US9824372B1 (en) | 2008-02-11 | 2017-11-21 | Google Llc | Associating advertisements with videos |
US9152708B1 (en) | 2009-12-14 | 2015-10-06 | Google Inc. | Target-video specific co-watched video clusters |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
US8554558B2 (en) * | 2010-07-12 | 2013-10-08 | Nuance Communications, Inc. | Visualizing automatic speech recognition and machine translation output |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
JP2014202848A (ja) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
WO2018022301A1 (en) * | 2016-07-12 | 2018-02-01 | TekWear, LLC | Systems, methods, and apparatuses for agricultural data collection, analysis, and management via a mobile device |
US11169773B2 (en) | 2014-04-01 | 2021-11-09 | TekWear, LLC | Systems, methods, and apparatuses for agricultural data collection, analysis, and management via a mobile device |
CN106409296A (zh) * | 2016-09-14 | 2017-02-15 | 安徽声讯信息技术有限公司 | 基于分核处理技术的语音快速转写校正系统 |
US20230245649A1 (en) * | 2022-02-03 | 2023-08-03 | Soundhound, Inc. | Token confidence scores for automatic speech recognition |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5975299A (ja) * | 1982-10-25 | 1984-04-27 | 株式会社日立製作所 | 音声認識装置 |
JPS63269200A (ja) * | 1987-04-28 | 1988-11-07 | キヤノン株式会社 | 音声認識装置 |
AT390685B (de) * | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US6006183A (en) * | 1997-12-16 | 1999-12-21 | International Business Machines Corp. | Speech recognition confidence level display |
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
DE19821422A1 (de) * | 1998-05-13 | 1999-11-18 | Philips Patentverwaltung | Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
JP2001142482A (ja) * | 1999-11-10 | 2001-05-25 | Nippon Hoso Kyokai <Nhk> | 音声字幕化装置 |
EP1169678B1 (en) * | 1999-12-20 | 2015-01-21 | Nuance Communications Austria GmbH | Audio playback for text edition in a speech recognition system |
WO2002009093A1 (en) * | 2000-07-20 | 2002-01-31 | Koninklijke Philips Electronics N.V. | Feedback of recognized command confidence level |
US7092496B1 (en) * | 2000-09-18 | 2006-08-15 | International Business Machines Corporation | Method and apparatus for processing information signals based on content |
US20020152071A1 (en) * | 2001-04-12 | 2002-10-17 | David Chaiken | Human-augmented, automatic speech recognition engine |
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
US20020184022A1 (en) * | 2001-06-05 | 2002-12-05 | Davenport Gary F. | Proofreading assistance techniques for a voice recognition system |
EP1442451B1 (en) * | 2001-10-31 | 2006-05-03 | Koninklijke Philips Electronics N.V. | Method of and system for transcribing dictations in text files and for revising the texts |
-
2004
- 2004-03-30 JP JP2006506791A patent/JP5025261B2/ja not_active Expired - Fee Related
- 2004-03-30 US US10/550,877 patent/US20060195318A1/en not_active Abandoned
- 2004-03-30 WO PCT/IB2004/050360 patent/WO2004088635A1/en active Application Filing
- 2004-03-30 EP EP04724340.7A patent/EP1611570B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2006522363A (ja) | 2006-09-28 |
EP1611570A1 (en) | 2006-01-04 |
WO2004088635A1 (en) | 2004-10-14 |
EP1611570B1 (en) | 2017-06-28 |
US20060195318A1 (en) | 2006-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5025261B2 (ja) | 信頼水準の指示により音声認識の結果を訂正するためのシステム | |
JP4173371B2 (ja) | 認識音声に対する同期再生中の文字編集 | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
EP1430474B1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
US8560327B2 (en) | System and method for synchronizing sound and manually transcribed text | |
US8954329B2 (en) | Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2019148681A (ja) | テキスト修正装置、テキスト修正方法およびテキスト修正プログラム | |
JP2006351028A (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
US9460718B2 (en) | Text generator, text generating method, and computer program product | |
JP2004530205A (ja) | 編集中における音声カーソルとテキストカーソルの位置合わせ | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
EP2682931B1 (en) | Method and apparatus for recording and playing user voice in mobile terminal | |
JP2002132287A (ja) | 音声収録方法および音声収録装置および記憶媒体 | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2005141089A (ja) | 情報処理装置、情報処理方法ならびに記録媒体、プログラム | |
JP5892598B2 (ja) | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム | |
JP2005509906A (ja) | 所定ウィンドウにてテキストを編集する装置 | |
JP4272611B2 (ja) | 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2003316384A (ja) | リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体 | |
JP4229627B2 (ja) | ディクテーション装置、方法及びプログラム | |
KR101501705B1 (ko) | 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 | |
JP2007512612A (ja) | オーディオ信号を転記する方法及び装置 | |
JP6387044B2 (ja) | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム | |
JP2002268683A (ja) | 情報処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070328 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100630 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110107 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110118 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20110401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120423 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20120423 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120619 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |