JP4714694B2 - 音声−テキストトランスクリプションシステムの誤り検出 - Google Patents
音声−テキストトランスクリプションシステムの誤り検出 Download PDFInfo
- Publication number
- JP4714694B2 JP4714694B2 JP2006537527A JP2006537527A JP4714694B2 JP 4714694 B2 JP4714694 B2 JP 4714694B2 JP 2006537527 A JP2006537527 A JP 2006537527A JP 2006537527 A JP2006537527 A JP 2006537527A JP 4714694 B2 JP4714694 B2 JP 4714694B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- speech
- audio signal
- signal
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 49
- 230000035897 transcription Effects 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 title claims description 42
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 104
- 238000012937 correction Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000003909 pattern recognition Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000013179 statistical model Methods 0.000 claims 1
- 230000001915 proofreading effect Effects 0.000 abstract description 19
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Description
図1は、本発明の誤り検出方法のフローチャートを示す。第一のステップ100では、従来の音声−テキストトランスクリプションシステムにより、第一の、自然の音声信号からテキストが生成される。次のステップ102では、ステップ100の文字で置き換えられたテキストは、従来のテキスト−音声合成システムにより第二の音声信号に再変換される。次のステップ104では、第一の自然の音声信号及び第二の人工的に生成された音声信号は、人間のプルーフリーダに供給される。ステップ106で、プルーフリーダは、第一及び第二の音声信号の両者を同時に聞く。典型的に、プルーフリーダにより実行される音響の比較を容易にするため、第一及び第二の音声信号が合成される。ステップ108では、プルーフリーダは、第一の音声信号と第二の音声信号との間の違いを検出する。かかる違いは、ステップ100で誤りが生じたことを示し、第一の、自然の音声信号がテキストに文字で置き換えられる。ステップ108でプルーフリーダが誤りを検出したとき、テキスト内で検出された誤りの訂正は、手動で実行される必要がある。
402:誤り検出モジュール
404:音響ユーザインタフェース
406:グラフィカルユーザインタフェース
408:音声合成モジュール
410:音声−テキストトランスクリプションモジュール
412:テキスト
414:テキスト−音声変換モジュール
416:第二の音声信号
418:フィルタリングされた音声信号
Claims (20)
- 自動的な音声−テキストトランスクリプションシステムにより第一の音声信号から文字に置き換えられたテキスト内の誤りを検出する方法であって、
当該方法は、
前記システムの合成システムが、文字に置き換えられたテキストから第二の音声信号を合成するステップと、
前記システムの供給手段が、テキストにおける潜在的な誤りの示唆のために第一の音声信号と第二の音声信号とを比較するため、第一及び第二の音声信号出力を前記システムのユーザインタフェースに供給するステップと、
を含むことを特徴とする方法。 - 前記システムの整合手段が、前記第二の音声信号のスピード及び/又はボリュームを、前記第一の音声信号のスピード及び/又はボリュームと整合させるステップを更に含む、
請求項1記載の方法。 - 前記システムのフィルタリング手段が、前記第一の音声信号にフィルタ機能のセットを適用して、前記第一の音声信号のスペクトルを前記第二の音声信号のスペクトルに近似するステップを更に含む、
請求項1又は2記載の方法。 - 前記合成手段は、逆音声トランスクリプションプロセスを適用することで前記第二の音声信号を生成し、(a)音声−テキストトランスクリプションシステムの統計的なモデル及び(b)前記第一の音声信号からのテキストのトランスクリプションプロセスで得られた状態系列を使用して、テキストから特徴的なベクトル系列を生成する、
請求項1乃至3のいずれか記載の方法。 - 前記システムの比較手段が、前記第一の音声信号と前記第二の音声信号とを減算又は重ね合わせすることで比較信号を生成するステップを更に含む、
請求項1乃至4のいずれか記載の方法。 - 前記比較手段は、前記比較信号を音響的及び/又は視覚的に前記ユーザインタフェースに供給する、
請求項5記載の方法。 - 前記比較手段は、前記比較信号の振幅が予め定義された範囲を超えるときに誤りの示唆を前記ユーザインタフェースに出力する、
請求項5又は6記載の方法。 - 前記比較手段は、前記誤りの示唆を前記ユーザインタフェースで、文字に置き換えられたテキスト内で視覚的に出力する、
請求項7記載の方法。 - 前記システムのパターン認識手段が、テキストにおいてあるタイプの誤りを示す前記比較信号の予めトレーニングされたパターンを識別するため、前記比較信号のパターン認識を実行するステップを更に含む、
請求項5乃至8のいずれか記載の方法。 - 前記システムの示唆手段が、訂正の示唆を、生成されたテキストにおいて検出されたタイプの誤りにより前記ユーザインタフェースに供給する、
請求項9記載の方法。 - 第一の音声信号から文字で置き換えられたテキストを提供する音声−テキストトランスクリプションシステムのための誤り検出システムであって、
当該誤り検出システムは、
文字で置き換えられたテキストから第二の音声信号を合成する手段と、
テキストにおける潜在的な誤りの識別のために第一の音声信号と第二の音声信号とを比較するため、第一の音声信号と第二の音声信号とをユーザインタフェースに供給する手段と、
を有することを特徴とする誤り検出システム。 - 第一の音声信号と第二の音声信号とを減算又は重ね合わせすることで比較信号を生成する比較手段を更に有する、
請求項11記載の誤り検出システム。 - 前記供給手段は、前記第一の音声信号及び前記第二の音声信号を供給し、及び/又は前記比較手段は、前記比較信号を、誤り検出のために音響的又は視覚的に前記ユーザインタフェースに供給する、
請求項11又は12記載の検出システム。 - 前記比較手段は、前記比較信号が予め定義された範囲を超えるときに誤りの示唆を前記ユーザインタフェースに供給する、
請求項12又は13記載の誤り検出システム。 - 前記比較信号における個別のパターンを文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て、訂正の示唆を、文字に置き換えられたテキストにおいて検出されたタイプの誤りにより供給する示唆手段を更に有する、
請求項12乃至14のいずれか記載の誤り検出システム。 - 第一の音声信号から文字に置き換えられたテキストを供給する音声−テキストトランスクリプションシステムの誤りを検出するためのコンピュータプログラムであって、
コンピュータにより実行されたときに、前記コンピュータに、
前記システムの合成手段が、文字に置き換えられたテキストから第二の音声信号を合成するステップと、
前記システムの整合手段が、前記第二の音声信号のスピード及び/又はボリュームを前記第一の音声信号のスピード及び/又はボリュームに整合させるステップと、
前記システムの供給手段が、第一の音声信号と第二の音声信号との間の比較のため、第一の音声信号及び整合された第二の音声信号の出力を前記システムのユーザインタフェースに供給するステップと、
を含む方法を実行させるための命令を含むことを特徴とするコンピュータプログラム。 - 前記コンピュータにより実行されたときに、前記コンピュータに、
前記システムの比較手段が、第一及び第二の音声信号を減算又は重ね合わせすることで、比較信号を生成するステップを実行させるための命令を更に含む、
請求項16記載のコンピュータプログラム。 - 前記コンピュータにより実行されたときに、前記コンピュータに、
前記供給手段が、前記第一の音声信号及び前記整合された第二の音声信号を供給し、及び/又は前記比較手段が、誤り検出のために音響的又は視覚的に前記比較信号を前記ユーザインタフェースに供給するステップを実行させるための命令を更に含む、
請求項16又は17記載のコンピュータプログラム。 - 前記コンピュータにより実行されたときに、前記コンピュータに、
前記比較手段が、前記比較信号が予め定義された範囲を超えるとき、誤りの示唆を前記ユーザインタフェースに供給するステップを実行させる命令を更に含む、
請求項17又は18記載のコンピュータプログラム。 - 前記コンピュータにより実行されたときに、前記コンピュータに、
前記システムの示唆手段が、前記比較信号における別個のパターンを文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て、訂正の示唆を、文字に置き換えられたテキストにおいて検出されたタイプの誤りにより供給するステップを実行させる命令を更に含む、
請求項17乃至19のいずれか記載のコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03104078.5 | 2003-11-05 | ||
EP03104078 | 2003-11-05 | ||
PCT/IB2004/052218 WO2005045803A1 (en) | 2003-11-05 | 2004-10-27 | Error detection for speech to text transcription systems |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007510943A JP2007510943A (ja) | 2007-04-26 |
JP2007510943A5 JP2007510943A5 (ja) | 2007-12-13 |
JP4714694B2 true JP4714694B2 (ja) | 2011-06-29 |
Family
ID=34560196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006537527A Expired - Fee Related JP4714694B2 (ja) | 2003-11-05 | 2004-10-27 | 音声−テキストトランスクリプションシステムの誤り検出 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7617106B2 (ja) |
EP (1) | EP1702319B1 (ja) |
JP (1) | JP4714694B2 (ja) |
CN (1) | CN1879146B (ja) |
AT (1) | ATE417347T1 (ja) |
DE (1) | DE602004018385D1 (ja) |
WO (1) | WO2005045803A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6910481B2 (en) * | 2003-03-28 | 2005-06-28 | Ric Investments, Inc. | Pressure support compliance monitoring system |
US9520068B2 (en) * | 2004-09-10 | 2016-12-13 | Jtt Holdings, Inc. | Sentence level analysis in a reading tutor |
US8014650B1 (en) * | 2006-01-24 | 2011-09-06 | Adobe Systems Incorporated | Feedback of out-of-range signals |
FR2902542B1 (fr) * | 2006-06-16 | 2012-12-21 | Gilles Vessiere Consultants | Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede |
KR101373336B1 (ko) | 2007-08-08 | 2014-03-10 | 엘지전자 주식회사 | 방송수신 휴대단말기 |
US9280971B2 (en) * | 2009-02-27 | 2016-03-08 | Blackberry Limited | Mobile wireless communications device with speech to text conversion and related methods |
CN102163379B (zh) * | 2010-02-24 | 2013-03-13 | 英业达股份有限公司 | 听写文章之校正语音的定位与播放系统及其方法 |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US10522133B2 (en) * | 2011-05-23 | 2019-12-31 | Nuance Communications, Inc. | Methods and apparatus for correcting recognition errors |
WO2013163494A1 (en) * | 2012-04-27 | 2013-10-31 | Interactive Itelligence, Inc. | Negative example (anti-word) based performance improvement for speech recognition |
CN102665012B (zh) * | 2012-05-02 | 2015-07-08 | 江苏南大数码科技有限公司 | 远程电话语音查询平台故障自动巡检方法 |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
US10069965B2 (en) | 2013-08-29 | 2018-09-04 | Unify Gmbh & Co. Kg | Maintaining audio communication in a congested communication channel |
EP3039803B1 (en) | 2013-08-29 | 2017-07-19 | Unify GmbH & Co. KG | Maintaining audio communication in a congested communication channel |
KR101808810B1 (ko) * | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
CN105374356B (zh) * | 2014-08-29 | 2019-07-30 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 |
US20160379640A1 (en) * | 2015-06-24 | 2016-12-29 | Honeywell International Inc. | System and method for aircraft voice-to-text communication with message validation |
JP6605995B2 (ja) * | 2016-03-16 | 2019-11-13 | 株式会社東芝 | 音声認識誤り修正装置、方法及びプログラム |
WO2018075224A1 (en) | 2016-10-20 | 2018-04-26 | Google Llc | Determining phonetic relationships |
US10446138B2 (en) * | 2017-05-23 | 2019-10-15 | Verbit Software Ltd. | System and method for assessing audio files for transcription services |
CN109949828B (zh) * | 2017-12-20 | 2022-05-24 | 苏州君林智能科技有限公司 | 一种文字校验方法及装置 |
WO2020014730A1 (en) * | 2018-07-16 | 2020-01-23 | Bookbot Pty Ltd | Learning aid |
KR102615154B1 (ko) * | 2019-02-28 | 2023-12-18 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11410658B1 (en) * | 2019-10-29 | 2022-08-09 | Dialpad, Inc. | Maintainable and scalable pipeline for automatic speech recognition language modeling |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6375798A (ja) * | 1986-09-19 | 1988-04-06 | 株式会社日立製作所 | 音声入出力装置における入力音声の修正方法 |
JPH0488399A (ja) * | 1990-08-01 | 1992-03-23 | Clarion Co Ltd | 音声認識装置 |
JPH11194790A (ja) * | 1997-12-29 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP2001034293A (ja) * | 1999-06-30 | 2001-02-09 | Internatl Business Mach Corp <Ibm> | 音声を転写するための方法及び装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61233832A (ja) * | 1985-04-08 | 1986-10-18 | Toshiba Corp | 読合わせ校正装置 |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US6088674A (en) * | 1996-12-04 | 2000-07-11 | Justsystem Corp. | Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
DE19824450C2 (de) * | 1998-05-30 | 2001-05-31 | Grundig Ag | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6064965A (en) * | 1998-09-02 | 2000-05-16 | International Business Machines Corporation | Combined audio playback in speech recognition proofreader |
US6338038B1 (en) * | 1998-09-02 | 2002-01-08 | International Business Machines Corp. | Variable speed audio playback in speech recognition proofreader |
US6219638B1 (en) * | 1998-11-03 | 2001-04-17 | International Business Machines Corporation | Telephone messaging and editing system |
DE19920501A1 (de) * | 1999-05-05 | 2000-11-09 | Nokia Mobile Phones Ltd | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US7010489B1 (en) * | 2000-03-09 | 2006-03-07 | International Business Mahcines Corporation | Method for guiding text-to-speech output timing using speech recognition markers |
DE10304229A1 (de) * | 2003-01-28 | 2004-08-05 | Deutsche Telekom Ag | Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten |
-
2004
- 2004-10-27 JP JP2006537527A patent/JP4714694B2/ja not_active Expired - Fee Related
- 2004-10-27 AT AT04791820T patent/ATE417347T1/de not_active IP Right Cessation
- 2004-10-27 EP EP04791820A patent/EP1702319B1/en active Active
- 2004-10-27 DE DE602004018385T patent/DE602004018385D1/de active Active
- 2004-10-27 CN CN200480032825.6A patent/CN1879146B/zh active Active
- 2004-10-27 US US10/578,073 patent/US7617106B2/en active Active
- 2004-10-27 WO PCT/IB2004/052218 patent/WO2005045803A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6375798A (ja) * | 1986-09-19 | 1988-04-06 | 株式会社日立製作所 | 音声入出力装置における入力音声の修正方法 |
JPH0488399A (ja) * | 1990-08-01 | 1992-03-23 | Clarion Co Ltd | 音声認識装置 |
JPH11194790A (ja) * | 1997-12-29 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP2001034293A (ja) * | 1999-06-30 | 2001-02-09 | Internatl Business Mach Corp <Ibm> | 音声を転写するための方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1879146B (zh) | 2011-06-08 |
CN1879146A (zh) | 2006-12-13 |
ATE417347T1 (de) | 2008-12-15 |
EP1702319B1 (en) | 2008-12-10 |
US20070027686A1 (en) | 2007-02-01 |
US7617106B2 (en) | 2009-11-10 |
WO2005045803A8 (en) | 2006-08-10 |
WO2005045803A1 (en) | 2005-05-19 |
JP2007510943A (ja) | 2007-04-26 |
EP1702319A1 (en) | 2006-09-20 |
DE602004018385D1 (de) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4714694B2 (ja) | 音声−テキストトランスクリプションシステムの誤り検出 | |
JP4241376B2 (ja) | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 | |
US8155958B2 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
JP3588302B2 (ja) | 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 | |
JPH02163819A (ja) | テキスト処理装置 | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
JP2015014665A (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP3701850B2 (ja) | 音声言語の韻律表示装置および記録媒体 | |
JP2019008120A (ja) | 声質変換システム、声質変換方法、及び声質変換プログラム | |
JP6291808B2 (ja) | 音声合成装置及び方法 | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2006139162A (ja) | 語学学習装置 | |
JP3277579B2 (ja) | 音声認識方法および装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP2001134276A (ja) | 音声文字化誤り検出装置および記録媒体 | |
JP2013195928A (ja) | 音声素片切出装置 | |
US20230038118A1 (en) | Correction method of synthesized speech set for hearing aid | |
EP1422691B1 (en) | Method for adapting a speech recognition system | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JP2017090856A (ja) | 音声作成装置、方法、及びプログラム、音声データベース作成装置 | |
JP2005037423A (ja) | 音声出力装置 | |
JP2001256223A (ja) | 自動翻訳装置 | |
JPH08171396A (ja) | 音声認識装置 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071025 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110328 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |