JP2007510943A - 音声−テキストトランスクリプションシステムの誤り検出 - Google Patents
音声−テキストトランスクリプションシステムの誤り検出 Download PDFInfo
- Publication number
- JP2007510943A JP2007510943A JP2006537527A JP2006537527A JP2007510943A JP 2007510943 A JP2007510943 A JP 2007510943A JP 2006537527 A JP2006537527 A JP 2006537527A JP 2006537527 A JP2006537527 A JP 2006537527A JP 2007510943 A JP2007510943 A JP 2007510943A
- Authority
- JP
- Japan
- Prior art keywords
- text
- speech
- signal
- audio signal
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 48
- 230000035897 transcription Effects 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 238000003909 pattern recognition Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000013179 statistical model Methods 0.000 claims 1
- 230000001915 proofreading effect Effects 0.000 abstract description 19
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
図1は、本発明の誤り検出方法のフローチャートを示す。第一のステップ100では、従来の音声−テキストトランスクリプションシステムにより、第一の、自然の音声信号からテキストが生成される。次のステップ102では、ステップ100の文字で置き換えられたテキストは、従来のテキスト−音声合成システムにより第二の音声信号に再変換される。次のステップ104では、第一の自然の音声信号及び第二の人工的に生成された音声信号は、人間のプルーフリーダに供給される。ステップ106で、プルーフリーダは、第一及び第二の音声信号の両者を同時に聞く。典型的に、プルーフリーダにより実行される音響の比較を容易にするため、第一及び第二の音声信号が合成される。ステップ108では、プルーフリーダは、第一の音声信号と第二の音声信号との間の違いを検出する。かかる違いは、ステップ100で誤りが生じたことを示し、第一の、自然の音声信号がテキストに文字で置き換えられる。ステップ108でプルーフリーダが誤りを検出したとき、テキスト内で検出された誤りの訂正は、手動で実行される必要がある。
402:誤り検出モジュール
404:音響ユーザインタフェース
406:グラフィカルユーザインタフェース
408:音声合成モジュール
410:音声−テキストトランスクリプションモジュール
412:テキスト
414:テキスト−音声変換モジュール
416:第二の音声信号
418:フィルタリングされた音声信号
Claims (20)
- 自動的な音声−テキストトランスクリプションシステムにより第一の音声信号から文字に置き換えられたテキスト内の誤りを検出する方法であって、
当該方法は、
文字に置き換えられたテキストから第二の音声信号を合成するステップと、
テキストにおける潜在的な誤りの示唆のために第一の音声信号と第二の音声信号との間で比較するために第一及び第二の音声信号出力を供給するステップと、
を含むことを特徴とする方法。 - 前記第二の音声信号のスピード及び/又はボリュームは、前記第二の音声信号のスピード及び/又はボリュームに整合する、
請求項1記載の方法。 - 前記第一の音声信号のスペクトルを前記第二の音声信号のスペクトルに近似するため、前記第一の音声信号にフィルタ機能のセットが適用される、
請求項1又は2記載の方法。 - 前記第二の音声信号は、逆音声トランスクリプションプロセスを適用し、(a)音声−テキストトランスクリプションシステムの統計的なモデル、及び(b)前記第一の音声信号からのテキストのプランスクリプションプロセスで得られた状態系列を使用して、テキストから特徴的なベクトル系列を生成することで生成される、
請求項1乃至3のいずれか記載の方法。 - 前記第一の音声信号と前記第二の音声信号とを減算又は重ね合わせすることで比較信号が生成される、
請求項1乃至4のいずれか記載の方法。 - 前記比較信号は、音響的及び/又は視覚的に供給される、
請求項5記載の方法。 - 前記比較信号の振幅が予め定義された範囲を超えるときに誤りの示唆が出力される、
請求項5又は6記載の方法。 - 前記誤りの示唆は、グラフィカルユーザインタフェースで文字に置き換えられたテキスト内で視覚的に出力される、
請求項7記載の方法。 - テキストにおいてあるタイプの誤りを示す前記比較信号の予めトレーニングされたパターンを識別するため、前記比較信号のパターン認識を更に含む、
請求項5乃至8のいずれか記載の方法。 - 訂正の示唆には、生成されたテキストにおける検出されたタイプの誤りが提供される、
請求項9記載の方法。 - 第一の音声信号から文字で置き換えられたテキストを提供する音声−テキストトランスクリプションシステムのための誤り検出システムであって、
当該誤り検出システムは、
文字で置き換えられたテキストから第二の音声信号を合成する手段と、
テキストにおける潜在的な誤りの識別のために第一の音声信号と第二の音声信号との間での比較のため、第一の音声信号と第二の音声信号とを供給する手段と、
を有することを特徴とする誤り検出システム。 - 第一の音声信号と第二の音声信号とを減算又は重ね合わせすることで比較信号が生成される、
請求項11記載の誤り検出システム。 - 前記第一の音声信号及び前記第二の音声信号、及び/又は比較信号は、誤り検出のために音響的又は視覚的に提供される、
請求項11又は12記載の検出システム。 - 前記比較信号が予め定義された範囲を超えるときに誤りの示唆が出力される、
請求項12又は13記載の誤り検出システム。 - 前記比較信号における個別のパターンは、文字に置き換えられたテキストにおける所定のタイプの誤りに割り当てられ、訂正の示唆には、文字に置き換えられたテキストにおける検出されたタイプの誤りが提供される、
請求項12乃至14のいずれか記載の誤り検出システム。 - 第一の音声信号から文字に置き換えられたテキストを供給する音声−テキストトランスクリプションシステムの誤り検出のためのコンピュータプログラムプロダクトであって、
当該コンピュータプログラムプロダクトは、
文字に置き換えられたテキストから第二の音声信号を合成し、
前記第二の音声信号のスピード及び/又はボリュームを前記第二の音声信号のスピード及び/又はボリュームに整合させ、
第一の音声信号と第二の音声信号との間の比較のため、第一及び第二の音声信号の出力を供給する、
ためのプログラム手段を含むことを特徴とするコンピュータプログラムプロダクト。 - 前記コンピュータプログラムプロダクトは、第一及び第二の音声信号を減算又は重ね合わせすることで、比較信号を生成する手段を有する、
請求項16記載のコンピュータプログラムプロダクト。 - 前記コンピュータプログラムプロダクトは、誤り検出のために音響的又は視覚的に前記第一の音声信号、第二の音声信号、及び/又は比較信号を提供する手段を含む、
請求項16又は17記載のコンピュータプログラムプロダクト。 - 前記コンピュータプログラムプロダクトは、前記比較信号が予め定義された範囲を超えるとき、誤りの示唆を出力する手段を含む、
請求項17又は18記載のコンピュータプログラムプロダクト。 - 前記比較信号における別個のパターンを文字に置き換えられたテキストにおける所定のタイプの誤りに割り当て、訂正に示唆に文字に置き換えられたテキストにおける検出されたタイプの誤りを提供する手段を含む、
請求項17乃至19のいずれか記載のコンピュータプログラムプロダクト。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03104078.5 | 2003-11-05 | ||
EP03104078 | 2003-11-05 | ||
PCT/IB2004/052218 WO2005045803A1 (en) | 2003-11-05 | 2004-10-27 | Error detection for speech to text transcription systems |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007510943A true JP2007510943A (ja) | 2007-04-26 |
JP2007510943A5 JP2007510943A5 (ja) | 2007-12-13 |
JP4714694B2 JP4714694B2 (ja) | 2011-06-29 |
Family
ID=34560196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006537527A Expired - Fee Related JP4714694B2 (ja) | 2003-11-05 | 2004-10-27 | 音声−テキストトランスクリプションシステムの誤り検出 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7617106B2 (ja) |
EP (1) | EP1702319B1 (ja) |
JP (1) | JP4714694B2 (ja) |
CN (1) | CN1879146B (ja) |
AT (1) | ATE417347T1 (ja) |
DE (1) | DE602004018385D1 (ja) |
WO (1) | WO2005045803A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6910481B2 (en) * | 2003-03-28 | 2005-06-28 | Ric Investments, Inc. | Pressure support compliance monitoring system |
US9520068B2 (en) * | 2004-09-10 | 2016-12-13 | Jtt Holdings, Inc. | Sentence level analysis in a reading tutor |
US8014650B1 (en) * | 2006-01-24 | 2011-09-06 | Adobe Systems Incorporated | Feedback of out-of-range signals |
FR2902542B1 (fr) * | 2006-06-16 | 2012-12-21 | Gilles Vessiere Consultants | Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede |
KR101373336B1 (ko) | 2007-08-08 | 2014-03-10 | 엘지전자 주식회사 | 방송수신 휴대단말기 |
US9280971B2 (en) * | 2009-02-27 | 2016-03-08 | Blackberry Limited | Mobile wireless communications device with speech to text conversion and related methods |
CN102163379B (zh) * | 2010-02-24 | 2013-03-13 | 英业达股份有限公司 | 听写文章之校正语音的定位与播放系统及其方法 |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US9236045B2 (en) * | 2011-05-23 | 2016-01-12 | Nuance Communications, Inc. | Methods and apparatus for proofing of a text input |
NZ700273A (en) * | 2012-04-27 | 2016-10-28 | Interactive Intelligence Inc | Negative example (anti-word) based performance improvement for speech recognition |
CN102665012B (zh) * | 2012-05-02 | 2015-07-08 | 江苏南大数码科技有限公司 | 远程电话语音查询平台故障自动巡检方法 |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
US10069965B2 (en) | 2013-08-29 | 2018-09-04 | Unify Gmbh & Co. Kg | Maintaining audio communication in a congested communication channel |
KR101787594B1 (ko) | 2013-08-29 | 2017-10-18 | 유니파이 게엠베하 운트 코. 카게 | 혼잡한 통신 채널에서 오디오 통신의 유지 |
KR101808810B1 (ko) * | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
CN105374356B (zh) * | 2014-08-29 | 2019-07-30 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 |
US20160379640A1 (en) * | 2015-06-24 | 2016-12-29 | Honeywell International Inc. | System and method for aircraft voice-to-text communication with message validation |
JP6605995B2 (ja) * | 2016-03-16 | 2019-11-13 | 株式会社東芝 | 音声認識誤り修正装置、方法及びプログラム |
US10650810B2 (en) | 2016-10-20 | 2020-05-12 | Google Llc | Determining phonetic relationships |
US10446138B2 (en) * | 2017-05-23 | 2019-10-15 | Verbit Software Ltd. | System and method for assessing audio files for transcription services |
CN109949828B (zh) * | 2017-12-20 | 2022-05-24 | 苏州君林智能科技有限公司 | 一种文字校验方法及装置 |
CN112567456A (zh) * | 2018-07-16 | 2021-03-26 | 万卷智能有限公司 | 学习辅助工具 |
KR102615154B1 (ko) * | 2019-02-28 | 2023-12-18 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11410658B1 (en) * | 2019-10-29 | 2022-08-09 | Dialpad, Inc. | Maintainable and scalable pipeline for automatic speech recognition language modeling |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6375798A (ja) * | 1986-09-19 | 1988-04-06 | 株式会社日立製作所 | 音声入出力装置における入力音声の修正方法 |
JPH0488399A (ja) * | 1990-08-01 | 1992-03-23 | Clarion Co Ltd | 音声認識装置 |
JPH11194790A (ja) * | 1997-12-29 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP2001034293A (ja) * | 1999-06-30 | 2001-02-09 | Internatl Business Mach Corp <Ibm> | 音声を転写するための方法及び装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61233832A (ja) * | 1985-04-08 | 1986-10-18 | Toshiba Corp | 読合わせ校正装置 |
GB2302199B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US6088674A (en) * | 1996-12-04 | 2000-07-11 | Justsystem Corp. | Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
DE19824450C2 (de) * | 1998-05-30 | 2001-05-31 | Grundig Ag | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6338038B1 (en) * | 1998-09-02 | 2002-01-08 | International Business Machines Corp. | Variable speed audio playback in speech recognition proofreader |
US6064965A (en) * | 1998-09-02 | 2000-05-16 | International Business Machines Corporation | Combined audio playback in speech recognition proofreader |
US6219638B1 (en) * | 1998-11-03 | 2001-04-17 | International Business Machines Corporation | Telephone messaging and editing system |
DE19920501A1 (de) * | 1999-05-05 | 2000-11-09 | Nokia Mobile Phones Ltd | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US7010489B1 (en) * | 2000-03-09 | 2006-03-07 | International Business Mahcines Corporation | Method for guiding text-to-speech output timing using speech recognition markers |
DE10304229A1 (de) * | 2003-01-28 | 2004-08-05 | Deutsche Telekom Ag | Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten |
-
2004
- 2004-10-27 US US10/578,073 patent/US7617106B2/en active Active
- 2004-10-27 WO PCT/IB2004/052218 patent/WO2005045803A1/en active Application Filing
- 2004-10-27 JP JP2006537527A patent/JP4714694B2/ja not_active Expired - Fee Related
- 2004-10-27 AT AT04791820T patent/ATE417347T1/de not_active IP Right Cessation
- 2004-10-27 CN CN200480032825.6A patent/CN1879146B/zh active Active
- 2004-10-27 EP EP04791820A patent/EP1702319B1/en active Active
- 2004-10-27 DE DE602004018385T patent/DE602004018385D1/de active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6375798A (ja) * | 1986-09-19 | 1988-04-06 | 株式会社日立製作所 | 音声入出力装置における入力音声の修正方法 |
JPH0488399A (ja) * | 1990-08-01 | 1992-03-23 | Clarion Co Ltd | 音声認識装置 |
JPH11194790A (ja) * | 1997-12-29 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP2001034293A (ja) * | 1999-06-30 | 2001-02-09 | Internatl Business Mach Corp <Ibm> | 音声を転写するための方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2005045803A1 (en) | 2005-05-19 |
EP1702319B1 (en) | 2008-12-10 |
ATE417347T1 (de) | 2008-12-15 |
CN1879146A (zh) | 2006-12-13 |
CN1879146B (zh) | 2011-06-08 |
EP1702319A1 (en) | 2006-09-20 |
US7617106B2 (en) | 2009-11-10 |
US20070027686A1 (en) | 2007-02-01 |
WO2005045803A8 (en) | 2006-08-10 |
JP4714694B2 (ja) | 2011-06-29 |
DE602004018385D1 (de) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4714694B2 (ja) | 音声−テキストトランスクリプションシステムの誤り検出 | |
EP0865651B1 (en) | Method of and system for recognizing a spoken text | |
JP4241376B2 (ja) | 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正 | |
US7454345B2 (en) | Word or collocation emphasizing voice synthesizer | |
US6202049B1 (en) | Identification of unit overlap regions for concatenative speech synthesis system | |
JPH02163819A (ja) | テキスト処理装置 | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
JP6716300B2 (ja) | 議事録生成装置、及び議事録生成プログラム | |
JPWO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
JP2007140200A (ja) | 語学学習装置およびプログラム | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP2019008120A (ja) | 声質変換システム、声質変換方法、及び声質変換プログラム | |
JP6291808B2 (ja) | 音声合成装置及び方法 | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2002525663A (ja) | ディジタル音声処理装置及び方法 | |
JP2006139162A (ja) | 語学学習装置 | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
JP2001134276A (ja) | 音声文字化誤り検出装置および記録媒体 | |
US20230038118A1 (en) | Correction method of synthesized speech set for hearing aid | |
EP1422691B1 (en) | Method for adapting a speech recognition system | |
JPH11109992A (ja) | 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置 | |
JP2005037423A (ja) | 音声出力装置 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 | |
JP6260228B2 (ja) | 音声合成装置及び方法 | |
JPH11353149A (ja) | 音声合成装置および記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071025 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110328 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |