JP2009198646A - 音声認識誤り分析装置、方法、プログラム及びその記録媒体 - Google Patents
音声認識誤り分析装置、方法、プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP2009198646A JP2009198646A JP2008038468A JP2008038468A JP2009198646A JP 2009198646 A JP2009198646 A JP 2009198646A JP 2008038468 A JP2008038468 A JP 2008038468A JP 2008038468 A JP2008038468 A JP 2008038468A JP 2009198646 A JP2009198646 A JP 2009198646A
- Authority
- JP
- Japan
- Prior art keywords
- word
- error
- correct
- section
- word set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】言語モデルを用いて音声信号に対して音声認識処理を行い、認識単語列を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される認識誤り単語列と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低開始部正解二単語組を抽出する。
【選択図】図1
Description
Lawrence Rabiner(著),Biing-Hwang Juang(著),古井定煕(翻訳),「音声認識の基礎(下)」,NTTアドバンステクノロジ株式会社,1995年,P.263−265
認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、(1)認識誤りの開始の原因と、(2)認識誤りの拡大の原因の2つに分けることができる。第一実施形態は、認識誤りの原因のうち、認識誤りの開始の原因となり得る部分を特定するものである。
音声認識部11は、音響モデル、言語モデル及び認識辞書を用いて、音声信号に対して音声認識処理を行い、その音声信号に対してその音声認識処理の結果である単語列を割り当てる。割り当てられた単語列を、認識単語列とする。認識単語列の各単語には、始端時刻と終端時刻が付与される。認識単語列は、認識誤り区間抽出部12に送られる。
音声認識処理の概要については、例えば参考文献1を参照のこと。
例えば、音声認識部11は、「インターネットが繋がらない」という文を少なくとも含む音声信号に対して音声認識処理を行い、図5に実線で示すように、その「インターネットが繋がらない」という音声信号部分に「(インターネット)(勝つ)(な)(が)(荒)(ない)」という単語列を含む認識単語列を割り当てる。
認識誤り区間抽出部12は、認識単語列と、その認識単語列に対応する正解単語列とを比較して、認識誤り単語列と、その認識誤り単語列及びその前後一単語とから構成される認識誤り区間とを抽出する。
開始部二単語組抽出部21は、図2に例示するように、開始部誤り二単語組抽出部211と開始部正解二単語組抽出部212とを含む。
開始部誤り二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される二単語である。
開始部二単語組抽出部21の開始部正解二単語組抽出部212は、認識誤り区間と、認識誤り単語列に対応する正解単語列とから、開始部正解二単語組を抽出する。抽出された開始部正解二単語組は、開始部単語連鎖確率計算部22に送られる。
開始部正解二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される二単語である。
開始部単語連鎖確率計算部22は、音声認識部11が用いたのと同じ言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった開始部誤り二単語組又は開始部正解二単語組と共に、低開始部正解二単語組抽出部23に送られる。
<ステップS6>
低開始部正解二単語組抽出部23は、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を抽出する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を、低開始部正解二単語組とする。
以下、第二実施形態の例を説明する。先に述べたように、認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、(1)認識誤りの開始の原因と、(2)認識誤りの拡大の原因の2つに分けることができる。第二実施形態は、これら両方の原因を特定するものである。
認識誤り区間抽出部12は、抽出した認識誤り単語列を区間内二単語組抽出部31に送る。認識誤り区間を区間内二単語組抽出部31に送る必要はない。
区間内二単語組抽出部31は、図3に例示するように、区間内誤り二単語組抽出部311と、正解復帰二単語組抽出部312とを含む。
区間内誤り二単語組とは、認識誤り単語列内の連続する2つの単語の組のことである。
区間内二単語組抽出部31の正解復帰二単語組抽出部312は、区間内誤り二単語組と、正解単語列とから、正解復帰二単語組を区間内誤り二単語組ごとに抽出する。抽出された正解復帰二単語組は、区間内単語連鎖確率計算部32に送られる。
区間内単語連鎖確率計算部32は、音声認識部11が用いたのと同じ言語モデルを用いて、区間内誤り二単語組の単語連鎖確率と正解復帰二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった区間内誤り二単語組又は正解復帰二単語組と共に、高区間内誤り二単語組抽出部33に送られる。
高区間内誤り二単語組抽出部33は、区間内誤り二単語組の単語連鎖確率と、それに対応する正解復帰二単語組の単語連鎖確率とを比較して、正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を抽出する。正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を、高区間内誤り二単語組とする。
図1に一点鎖線で示す開始部出現頻度集計部24が、低開始部正解二単語組の出現頻度を求めてもよい(ステップS11,図4)。例えば、低開始部正解二単語組抽出部23が抽出した各低開始部正解二単語組の数をカウントして、各低開始部正解二単語組に出現頻度としてそのカウント数を割り当てる。また、例えば、低開始部正解二単語組の出現頻度=(その低開始部正解二単語組のカウント数)/(低開始部正解二単語組のカウント数の総和)とし、各低開始部正解二単語組に出現頻度として割合を割り当ててもよい。
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
11 音声認識部
12 誤り認識区間抽出部
21 開始部二単語組抽出部
22 開始部単語連鎖確率計算部
23 低開始部正解二単語組抽出部
24 開始部出現頻度集計部
31 区間内二単語組抽出部
32 区間内単語連鎖確率計算部
33 高区間内誤り二単語組抽出部
34 区間内出現頻度集計部
211 開始部二単語組抽出部
212 開始部正解二単語組抽出部
311 区間内二単語組抽出部
312 正解復帰二単語組抽出部
Claims (10)
- 言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる音声認識部と、
認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出部と、
上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出部と、
上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出部と、
上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算部と、
上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する低開始部正解二単語組抽出部と、
を備える音声認識誤り分析装置。 - 請求項1に記載の音声認識誤り分析装置において、
認識誤り単語列内の連続する2つの単語の組(以下、区間内誤り二単語組とする。)のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出部と、
区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出部と、
上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算部と、
上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組(以下、高区間内誤り二単語組とする。)を抽出する高区間内誤り二単語組抽出部と、
を更に備える音声認識誤り分析装置。 - 請求項1又は2に記載の音声認識誤り分析装置において、
上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計部、
を更に備える音声認識誤り分析装置。 - 請求項1から3の何れかに記載の音声認識誤り分析装置において、
上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計部、
を更に備える音声認識誤り分析装置。 - 音声認識部が、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる音声認識ステップと、
認識誤り区間抽出部が、認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出ステップと、
開始部誤り二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出ステップと、
開始部正解二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出ステップと、
開始部単語連鎖確率部が、上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算ステップと、
低開始部正解二単語組抽出部が、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する低開始部正解二単語組抽出ステップと、
を有する音声認識誤り分析方法。 - 請求項5に記載の音声認識誤り分析方法において、
区間内誤り二単語組抽出部が、認識誤り単語列内の連続する2つの単語の組(以下、区間内誤り二単語組とする。)のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出ステップと、
正解復帰二単語組抽出部が、区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出ステップと、
区間内単語連鎖確率計算部が、上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算ステップと、
高区間内誤り二単語組抽出部が、上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組(以下、高区間内誤り二単語組とする。)を抽出する高区間内誤り二単語組抽出ステップと、
を更に有する音声認識誤り分析方法。 - 請求項5又は6に記載の音声認識誤り分析方法において、
開始部出現頻度集計部が、上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計ステップ、
を更に有する音声認識誤り分析方法。 - 請求項5から7の何れかに記載の音声認識誤り分析方法において、
区間内出現頻度集計部が、上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計ステップ、
を更に有する音声認識誤り分析方法。 - 請求項1から4の何れかに記載の音声認識誤り分析装置の各部としてコンピュータを機能させるための音声認識誤り分析プログラム。
- 請求項9に記載の音声認識誤り分析プログラムが記録されたコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008038468A JP4829910B2 (ja) | 2008-02-20 | 2008-02-20 | 音声認識誤り分析装置、方法、プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008038468A JP4829910B2 (ja) | 2008-02-20 | 2008-02-20 | 音声認識誤り分析装置、方法、プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009198646A true JP2009198646A (ja) | 2009-09-03 |
JP4829910B2 JP4829910B2 (ja) | 2011-12-07 |
Family
ID=41142221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008038468A Expired - Fee Related JP4829910B2 (ja) | 2008-02-20 | 2008-02-20 | 音声認識誤り分析装置、方法、プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4829910B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242775A (ja) * | 2010-05-14 | 2011-12-01 | Sony Computer Entertainment Inc | 音声認識エラー予測値としての文法適合度評価のための方法およびシステム |
JP2014089246A (ja) * | 2012-10-29 | 2014-05-15 | Kddi Corp | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099084A (ja) * | 1998-09-18 | 2000-04-07 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
JP2004279701A (ja) * | 2003-03-14 | 2004-10-07 | Seiko Epson Corp | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 |
-
2008
- 2008-02-20 JP JP2008038468A patent/JP4829910B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099084A (ja) * | 1998-09-18 | 2000-04-07 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
JP2004279701A (ja) * | 2003-03-14 | 2004-10-07 | Seiko Epson Corp | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242775A (ja) * | 2010-05-14 | 2011-12-01 | Sony Computer Entertainment Inc | 音声認識エラー予測値としての文法適合度評価のための方法およびシステム |
US8818813B2 (en) | 2010-05-14 | 2014-08-26 | Sony Computer Entertainment Inc. | Methods and system for grammar fitness evaluation as speech recognition error predictor |
JP2014089246A (ja) * | 2012-10-29 | 2014-05-15 | Kddi Corp | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP4829910B2 (ja) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7949532B2 (en) | Conversation controller | |
US8301450B2 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
US7949531B2 (en) | Conversation controller | |
US7949530B2 (en) | Conversation controller | |
US6738741B2 (en) | Segmentation technique increasing the active vocabulary of speech recognizers | |
KR101004560B1 (ko) | 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체 | |
US20040167779A1 (en) | Speech recognition apparatus, speech recognition method, and recording medium | |
US20090083036A1 (en) | Unnatural prosody detection in speech synthesis | |
US20070094005A1 (en) | Conversation control apparatus | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN100354929C (zh) | 语音处理设备、语言处理方法 | |
WO2019156101A1 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
JP4890518B2 (ja) | 複数言語モデルによる統合音声認識装置 | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
JP4829910B2 (ja) | 音声認識誤り分析装置、方法、プログラム及びその記録媒体 | |
Smaïli et al. | Summarizing videos into a target language: Methodology, architectures and evaluation | |
JP4769261B2 (ja) | 音声認識誤り分析装置、方法、プログラム及びその記録媒体 | |
JP4689032B2 (ja) | シンタックス上の置換規則を実行する音声認識装置 | |
JP4533160B2 (ja) | 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体 | |
JP2007065029A (ja) | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2002278579A (ja) | 音声データ検索装置 | |
JP5022319B2 (ja) | テキストマイニング装置、方法、プログラム及びその記録媒体 | |
JP2019040148A (ja) | 音声区間検出装置、その方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4829910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |