JP2004341518A - 音声認識処理方法 - Google Patents
音声認識処理方法 Download PDFInfo
- Publication number
- JP2004341518A JP2004341518A JP2004129952A JP2004129952A JP2004341518A JP 2004341518 A JP2004341518 A JP 2004341518A JP 2004129952 A JP2004129952 A JP 2004129952A JP 2004129952 A JP2004129952 A JP 2004129952A JP 2004341518 A JP2004341518 A JP 2004341518A
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognized
- processing method
- marked
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012937 correction Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 22
- 238000012804 iterative process Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000003252 repetitive effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 音声認識処理方法は、認識された音声データRSDを受け取り及び/又は生成するステップ(S0)と、認識済音声データRSDのうち又は少なくとも誤って認識された可能性のある単語について、現在の信頼度CMOCを決定及び/又は生成するステップ(S1)とを備え、停止条件(S3)を満たすまで反復処理を繰り返すもので、反復処理には、現在の信頼度CMOCを用いて、現在の指示/マークされたエラーCIMEとして、少なくとも幾つかの誤って認識された可能性のある単語を指示/マークし(S2、S5−B)、現在の指示/マークされたエラーCIMEに関して、選択/訂正に関わる選択/訂正データSCDを受け取り(S4)、認識済音声データRSDのうち又は少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度IMOCを決定(S5)及び/又は生成することを連続的に行うことが含まれ、停止条件が満たされた場合、改善された認識結果IRRが出力される(S8)。
【選択図】 図1
Description
Claims (12)
- 認識した音声を処理する音声認識処理方法において、
認識した音声データを受け付け及び/又は生成するステップと、
前記認識した音声データの、又はそれに含まれる、少なくとも誤って認識された可能性のある単語について、現在の信頼度を決定及び/又は生成するステップと、
停止条件を満たすまで反復処理を連続的に繰り返すステップと、
前記停止条件が満足された場合には、改善された認識結果を出力するステップとを含み、
前記反復処理は、
前記現在の信頼度を用いて、現在の指示/マークされたエラーとして、前記誤って認識された可能性のある単語の少なくとも一部を、指示/マークするステップと、
前記現在の指示/マークされたエラーに対して行われた選択/訂正を示す選択/訂正データを受け付けるステップと、
前記認識音した音声データの、又はそれに含まれる、少なくとも他の又は残りの誤って認識された可能性のある単語について、改善された信頼度を決定及び/又は生成するステップとを含むことを特徴とする音声認識処理方法。 - 前記指示/マークされた前記誤って認識された可能性のある単語のうちの少なくとも一部に加えて、その周囲の単語を現在の指示/マークされたエラーとしてマーク/指示することを特徴とする請求項1に記載の音声認識処理方法。
- 前記現在の指示/マークされたエラーを指示/マークするために閾値を決定し、
前記誤って認識された可能性のある単語のうち、前記現在の信頼度が前記閾値未満の単語だけをマークすることを特徴とする請求項1又は2に記載の音声認識処理方法。 - 前記反復処理の各周期において、前記認識した音声データに含まれる単語全体に対して予め定めた割合の単語が指示/マークされるように、前記閾値を決定することを特徴とする請求項3に記載の音声認識処理方法。
- 前記現在の信頼度は、第1のリグレッサを用いて決定され、
前記第1のリグレッサは、音響的スコア、推定発話レート及び局所信号対雑音比のうち少なくとも1つの特徴情報を用いてトレーニングされることを特徴とする請求項1乃至4のいずれか1項に記載の音声認識処理方法。 - 前記改善された信頼度は、第2のリグレッサを用いて決定され、
前記第2のリグレッサは、前記選択/訂正データから導き出された特徴情報を用いてトレーニングされることを特徴とする請求項1乃至5のいずれか1項に記載の音声認識処理方法。 - 前記第1のリグレッサ及び前記第2のリグレッサが同一であり、
前記現在の信頼度を決定する前記第1のリグレッサを用いる際に、前記選択/訂正データから導き出された特徴情報は、前記第1のリグレッサのための入力としては使用されないことを特徴とする請求項6に記載の音声認識処理方法。 - 前記認識した音声データに含まれる単語全体に対する前記現在の指示/マークされたエラーの割合が予め定めた許容率未満の場合、前記反復処理が停止されることを特徴とする請求項1乃至7のいずれか1項に記載の音声認識処理方法。
- 前記反復処理の各周期において、対象文書全体に関して推定された残差単語エラー率を決定し、
前記推定残差単語エラー率が、予め定めた単語エラー許容率未満である場合、前記反復処理が停止されることを特徴とする請求項1乃至8のいずれか1項に記載の音声認識処理方法。 - 請求項1乃至9のいずれか1項に記載の音声認識処理方法を実行又は実現する音声処理システム。
- コンピュータで実行された場合、請求項1乃至9のいずれか1項に記載の音声認識処理方法を実行又は実現するように構成されたコンピュータプログラム。
- 請求項11に記載のコンピュータプログラムが記録されたコンピュータ読取可能な記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03009419A EP1471502A1 (en) | 2003-04-25 | 2003-04-25 | Method for correcting a text produced by speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004341518A true JP2004341518A (ja) | 2004-12-02 |
Family
ID=32946882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004129952A Pending JP2004341518A (ja) | 2003-04-25 | 2004-04-26 | 音声認識処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7356467B2 (ja) |
EP (1) | EP1471502A1 (ja) |
JP (1) | JP2004341518A (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US7941316B2 (en) * | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
KR100998566B1 (ko) * | 2008-08-11 | 2010-12-07 | 엘지전자 주식회사 | 음성인식을 이용한 언어 번역 방법 및 장치 |
US9653066B2 (en) * | 2009-10-23 | 2017-05-16 | Nuance Communications, Inc. | System and method for estimating the reliability of alternate speech recognition hypotheses in real time |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
JP2013254395A (ja) * | 2012-06-07 | 2013-12-19 | Ricoh Co Ltd | 処理装置、処理システム、出力方法およびプログラム |
US9342795B1 (en) * | 2013-06-05 | 2016-05-17 | Emc Corporation | Assisted learning for document classification |
EP3017408A1 (fr) * | 2013-07-04 | 2016-05-11 | Veovox SA | Procédé d'assemblage de commandes, et terminal de paiement |
JP6191919B2 (ja) * | 2014-07-15 | 2017-09-06 | パナソニックIpマネジメント株式会社 | 注文入力システム及び注文入力方法 |
JP5748381B1 (ja) * | 2014-07-31 | 2015-07-15 | 楽天株式会社 | メッセージ処理装置、メッセージ処理方法、記録媒体およびプログラム |
US10049655B1 (en) | 2016-01-05 | 2018-08-14 | Google Llc | Biasing voice correction suggestions |
US9971758B1 (en) | 2016-01-06 | 2018-05-15 | Google Llc | Allowing spelling of arbitrary words |
US10019986B2 (en) | 2016-07-29 | 2018-07-10 | Google Llc | Acoustic model training using corrected terms |
JP6678545B2 (ja) * | 2016-09-12 | 2020-04-08 | 株式会社東芝 | 修正システム、修正方法及びプログラム |
JP6672209B2 (ja) | 2017-03-21 | 2020-03-25 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN108932945B (zh) * | 2018-03-21 | 2021-08-31 | 北京猎户星空科技有限公司 | 一种语音指令的处理方法及装置 |
CN108647190B (zh) * | 2018-04-25 | 2022-04-29 | 北京华夏电通科技股份有限公司 | 一种语音识别文本插入笔录文档的方法、装置及系统 |
CN108733649B (zh) * | 2018-04-25 | 2022-05-06 | 北京华夏电通科技股份有限公司 | 一种语音识别文本插入笔录文档的方法、装置及系统 |
US10269376B1 (en) * | 2018-06-28 | 2019-04-23 | Invoca, Inc. | Desired signal spotting in noisy, flawed environments |
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
CN111274819A (zh) * | 2020-02-13 | 2020-06-12 | 北京声智科技有限公司 | 资源获取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01177600A (ja) * | 1988-01-06 | 1989-07-13 | Nec Corp | 音声認識誤り訂正装置 |
JPH0289191A (ja) * | 1988-09-27 | 1990-03-29 | Toshiba Corp | 認識結果修正方式 |
JP2000250589A (ja) * | 1999-03-04 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | 音声認識誤り訂正装置 |
JP2005507536A (ja) * | 2001-10-31 | 2005-03-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
US6611802B2 (en) * | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
GB2385697B (en) * | 2002-02-14 | 2005-06-15 | Canon Kk | Speech processing apparatus and method |
-
2003
- 2003-04-25 EP EP03009419A patent/EP1471502A1/en active Pending
-
2004
- 2004-04-23 US US10/830,835 patent/US7356467B2/en not_active Expired - Fee Related
- 2004-04-26 JP JP2004129952A patent/JP2004341518A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01177600A (ja) * | 1988-01-06 | 1989-07-13 | Nec Corp | 音声認識誤り訂正装置 |
JPH0289191A (ja) * | 1988-09-27 | 1990-03-29 | Toshiba Corp | 認識結果修正方式 |
JP2000250589A (ja) * | 1999-03-04 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | 音声認識誤り訂正装置 |
JP2005507536A (ja) * | 2001-10-31 | 2005-03-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
EP1471502A1 (en) | 2004-10-27 |
US20040215455A1 (en) | 2004-10-28 |
US7356467B2 (en) | 2008-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004341518A (ja) | 音声認識処理方法 | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US6718303B2 (en) | Apparatus and method for automatically generating punctuation marks in continuous speech recognition | |
US7711560B2 (en) | Speech recognition device and speech recognition method | |
US20080201135A1 (en) | Spoken Dialog System and Method | |
JP6654611B2 (ja) | 成長型対話装置 | |
US10217457B2 (en) | Learning from interactions for a spoken dialog system | |
US6134527A (en) | Method of testing a vocabulary word being enrolled in a speech recognition system | |
JP2002358097A (ja) | 音声認識装置 | |
JP4992925B2 (ja) | 音声対話装置及びプログラム | |
JP2005084436A (ja) | 音声認識装置及びコンピュータプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2003177779A (ja) | 音声認識のための話者学習法 | |
JP6325770B2 (ja) | 音声認識誤り修正装置及びそのプログラム | |
JP5447382B2 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
JP6527000B2 (ja) | 発音誤り検出装置、方法およびプログラム | |
JP4042435B2 (ja) | 音声自動質問応答装置 | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP2010204442A (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体 | |
JP4537755B2 (ja) | 音声対話システム | |
JP2001236091A (ja) | 音声認識結果の誤り訂正方法およびその装置 | |
JP4604424B2 (ja) | 音声認識装置及び方法、並びにプログラム | |
KR101752709B1 (ko) | 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템 | |
CN110600005B (zh) | 语音识别纠错方法及装置、计算机设备和记录介质 | |
KR100275446B1 (ko) | 음소 인식률을 이용한 기본 음소 설정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070214 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20081002 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20081112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101130 |