JP2009198646A - 音声認識誤り分析装置、方法、プログラム及びその記録媒体 - Google Patents

音声認識誤り分析装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP2009198646A
JP2009198646A JP2008038468A JP2008038468A JP2009198646A JP 2009198646 A JP2009198646 A JP 2009198646A JP 2008038468 A JP2008038468 A JP 2008038468A JP 2008038468 A JP2008038468 A JP 2008038468A JP 2009198646 A JP2009198646 A JP 2009198646A
Authority
JP
Japan
Prior art keywords
word
error
correct
section
word set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008038468A
Other languages
English (en)
Other versions
JP4829910B2 (ja
Inventor
Taichi Asami
太一 浅見
Yoshiaki Noda
喜昭 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008038468A priority Critical patent/JP4829910B2/ja
Publication of JP2009198646A publication Critical patent/JP2009198646A/ja
Application granted granted Critical
Publication of JP4829910B2 publication Critical patent/JP4829910B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】言語モデルにおいて認識誤りを起こしやすい部分を特定する。
【解決手段】言語モデルを用いて音声信号に対して音声認識処理を行い、認識単語列を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される認識誤り単語列と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低開始部正解二単語組を抽出する。
【選択図】図1

Description

この発明は、音声認識技術に関する。特に、言語モデルにおける音声認識誤りの原因を分析する音声認識誤り分析装置、方法、プログラム及びその記録媒体に関する。
音声認識エンジンを構成する音響モデル、言語モデルを改善する際には、認識誤りを起こしやすい部分から改善すると効率が良い。
入力音声がどの音素に近いかを判定する音響モデルにおいては、Confusion Matrixを作成することにより認識誤りを起こしやすい部分を特定することができる。Confusion Matrixは、全ての音素について、別のどの音素と混同しやすいかを表にしたものである。Confusion Matrixを作成して混同しやすい音素を特定した上で、その混同しやすい音素から改善を行うことで、音響モデルを効率良く改善して行くことができる。
一方、言語モデルの性能の分析方法としては、パープレキシティによって言語モデルを評価する方法がよく用いられている(例えば、非特許文献1参照。)。音声認識では、言語モデルで計算された単語連鎖確率を用いて、認識単語候補の絞り込みを行っている。パープレキシティは、認識語彙に含まれる各単語から、次の単語への平均分岐数を示す値であり、その値が大きいほど認識単語候補を絞り込みにくい言語モデルであるということを表す。
しかし、パープレキシティの値からは、具体的にどの単語列で候補を絞り込みにくいのかわからないため、言語モデルにおける認識誤りを起こしやすい部分を特定することはできない。
Lawrence Rabiner(著),Biing-Hwang Juang(著),古井定煕(翻訳),「音声認識の基礎(下)」,NTTアドバンステクノロジ株式会社,1995年,P.263−265
上記したように、非特許文献1に記載された言語モデルの性能の分析方法では、言語モデルにおける認識誤りを起こしやすい部分を特定することができないという問題があった。
この発明は、言語モデルにおいて認識誤りを起こしやすい部分を特定する音声認識誤り分析装置、方法、プログラム及びその記録媒体を提供することを目的とする。
この発明の1つの観点によれば、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する。
開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い低開始部正解二単語組は、認識誤りが発生する原因となる単語列である。したがって、低開始部正解二単語組を抽出することにより、言語モデルにおける認識誤りを起こしやすい部分を特定することができる。
以下、図面を参照してこの発明の実施形態の例を説明する。
[第一実施形態]
認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、(1)認識誤りの開始の原因と、(2)認識誤りの拡大の原因の2つに分けることができる。第一実施形態は、認識誤りの原因のうち、認識誤りの開始の原因となり得る部分を特定するものである。
図1,4を参照してこの発明の第一実施形態の例を説明する。図1は、音声認識誤り分析装置の例の機能ブロック図である。図4は、音声認識誤り分析方法の処理の流れを例示するフローチャートである。
第一実施形態の音声認識誤り分析装置1は、図1において実線で示す、音声認識部11、認識誤り区間抽出部12、開始部二単語組抽出部21,開始部単語連鎖確率計算部22及び低開始部正解二単語組抽出部23を例えば備える。
<ステップS1>
音声認識部11は、音響モデル、言語モデル及び認識辞書を用いて、音声信号に対して音声認識処理を行い、その音声信号に対してその音声認識処理の結果である単語列を割り当てる。割り当てられた単語列を、認識単語列とする。認識単語列の各単語には、始端時刻と終端時刻が付与される。認識単語列は、認識誤り区間抽出部12に送られる。
音声認識処理の概要については、例えば参考文献1を参照のこと。
〔参考文献1〕政瀧浩和,外5名,「顧客との自然な会話を聞き取る自由発話音声認識技術『VoiceRex』」,NTT技術ジャーナル,2006年11月,No.18,vol.11,p.15−18
例えば、音声認識部11は、「インターネットが繋がらない」という文を少なくとも含む音声信号に対して音声認識処理を行い、図5に実線で示すように、その「インターネットが繋がらない」という音声信号部分に「(インターネット)(勝つ)(な)(が)(荒)(ない)」という単語列を含む認識単語列を割り当てる。
<ステップS2>
認識誤り区間抽出部12は、認識単語列と、その認識単語列に対応する正解単語列とを比較して、認識誤り単語列と、その認識誤り単語列及びその前後一単語とから構成される認識誤り区間とを抽出する。
認識誤り単語列とは、認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列のことである。抽出された認識誤り単語列と認識誤り区間は、開始部二単語組抽出部21に送られる。
図5に示した例では、認識単語列と、その認識単語列に対応する正解単語列とは、(勝つ)(な)(が)(荒)という連続する4つの単語の部分で一致しない。したがって、(勝つ)(な)(が)(荒)が認識誤り単語列となる。また、この認識誤り単語列に、その前の単語(インターネット)と、その後ろの単語(ない)を加えた(インターネット)(勝つ)(な)(が)(荒)(ない)が、認識誤り区間となる。
一般に、音声認識部11の音声認識処理により、複数の認識誤り区間が認識誤り区間抽出部12により抽出される。以下の処理は、各複数の認識誤り区間ごとに行われる。
<ステップS3>
開始部二単語組抽出部21は、図2に例示するように、開始部誤り二単語組抽出部211と開始部正解二単語組抽出部212とを含む。
開始部誤り二単語組抽出部211は、認識誤り単語列と認識誤り区間とから、開始部誤り二単語組を抽出する。抽出された開始部誤り二単語組は、開始部単語連鎖確率計算部22に送られる。
開始部誤り二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される二単語である。
図5に示した例では、認識誤り区間の最初の単語である(インターネット)と、認識誤り単語列の最初の単語である(勝つ)とから構成される二単語(インターネット)(勝つ)が、開始部誤り二単語組となる。
<ステップS4>
開始部二単語組抽出部21の開始部正解二単語組抽出部212は、認識誤り区間と、認識誤り単語列に対応する正解単語列とから、開始部正解二単語組を抽出する。抽出された開始部正解二単語組は、開始部単語連鎖確率計算部22に送られる。
開始部正解二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される二単語である。
図5に示した例では、認識誤り区間の最初の単語(インターネット)と、認識誤り単語列に対応する正解単語列の最初の単語(が)とから構成される二単語(インターネット)(が)が、開始部正解二単語組となる。
<ステップS5>
開始部単語連鎖確率計算部22は、音声認識部11が用いたのと同じ言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった開始部誤り二単語組又は開始部正解二単語組と共に、低開始部正解二単語組抽出部23に送られる。
単語連鎖確率とは、言語モデルを用いて計算される、二単語組の1つ目の単語からその二単語組の2つ目の単語に連鎖する確率のことである(例えば、参考文献2参照。)。
〔参考文献2〕Lawrence Rabiner(著),Biing-Hwang Juang(著),古井定煕(翻訳),「音声認識の基礎(下)」,NTTアドバンステクノロジ株式会社,1995年,P.262−263
<ステップS6>
低開始部正解二単語組抽出部23は、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を抽出する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を、低開始部正解二単語組とする。
低開始部正解二単語組は、その単語連鎖確率が開始部誤り二単語組の単語連鎖確率よりも低いため、認識誤りが開始する原因となり得る。したがって、上記のように低開始部正解二単語組を抽出することにより、言語モデルにおいて認識誤りを起こしやすい部分を特定することができる。より詳細には、言語モデルにおいて認識誤りを起こしやすい部分の内、認識誤りの開始の原因となり得る部分を特定することができる。
認識誤りの開始の原因となる低開始部正解二単語組に、対応する開始部誤り二単語組よりも低い単語連鎖確率が割り当てられているのは、言語モデル学習データとして用いるテキストに、その低開始部正解二単語が出現しないか、その出現回数が少ないために、適切な確率を学習できていないことが原因と考えられる。したがって、低開始部正解二単語がよく現れるテキストを、言語モデル学習用データとして使うことで改善を行うことができる。
[第二実施形態]
以下、第二実施形態の例を説明する。先に述べたように、認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、(1)認識誤りの開始の原因と、(2)認識誤りの拡大の原因の2つに分けることができる。第二実施形態は、これら両方の原因を特定するものである。
以下、第二実施形態の例を説明するが、第一実施形態と異なる部分についてのみ説明し、第一実施形態と同様な部分については重複説明を省略する。
第二実施形態の音声認識誤り分析装置は、第一実施形態の音声認識誤り分析装置1の各部に加えて、図1に破線で例示する、区間内二単語組抽出部31、区間内単語連鎖確率計算部32及び高区間内誤り二単語組抽出部33を例えば備える。また、第二実施形態の音声認識誤り分析方法においては、第一実施形態の音声認識誤り分析装置1の各処理に加えて、図4に破線で例示するステップS7からS10の処理を行う。
<ステップS2>
認識誤り区間抽出部12は、抽出した認識誤り単語列を区間内二単語組抽出部31に送る。認識誤り区間を区間内二単語組抽出部31に送る必要はない。
<ステップS7>
区間内二単語組抽出部31は、図3に例示するように、区間内誤り二単語組抽出部311と、正解復帰二単語組抽出部312とを含む。
区間内誤り二単語組抽出部311は、認識誤り単語列から、区間内誤り二単語組をすべて抽出する。抽出された区間内誤り二単語組は、正解復帰二単語組抽出部312と、区間内単語連鎖確率計算部32に送られる。
区間内誤り二単語組とは、認識誤り単語列内の連続する2つの単語の組のことである。
図5に示した例では、(勝つ)(な)、(な)(が)及び(が)(荒)がそれぞれ区間内誤り二単語組となる。
<ステップS8>
区間内二単語組抽出部31の正解復帰二単語組抽出部312は、区間内誤り二単語組と、正解単語列とから、正解復帰二単語組を区間内誤り二単語組ごとに抽出する。抽出された正解復帰二単語組は、区間内単語連鎖確率計算部32に送られる。
正解復帰二単語組とは、区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する正解単語列内の単語とから構成される単語列のことである。
図5に示した例では、区間内誤り二単語組(勝つ)(な)に対応する正解復帰二単語組は、(勝つ)(繋が)である。すなわち、区間内誤り二単語組(勝つ)(な)の1つ目の単語である(勝つ)の始端よりも時間的に後ろにある、正解単語列内の単語は(繋が)と(ら)である。(繋が)と(ら)の内、(勝つ)の終端に時間的に最も近い始端を有するのは、(繋が)である。(勝つ)の終端と(繋が)の始端との時間的な距離の方が、(勝つ)の終端と(ら)の始端との時間的な距離よりも短いからである。したがって、区間内誤り二単語組(勝つ)(な)に対応する正解復帰二単語組は、(勝つ)(繋が)となるのである。同様に、区間内誤り二単語組(な)(が)に対応する正解復帰二単語組は(な)(ら)であり、区間内誤り二単語組(が)(荒)に対応する正解復帰二単語組は(が)(ら)となる。
<ステップS9>
区間内単語連鎖確率計算部32は、音声認識部11が用いたのと同じ言語モデルを用いて、区間内誤り二単語組の単語連鎖確率と正解復帰二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった区間内誤り二単語組又は正解復帰二単語組と共に、高区間内誤り二単語組抽出部33に送られる。
<ステップS10>
高区間内誤り二単語組抽出部33は、区間内誤り二単語組の単語連鎖確率と、それに対応する正解復帰二単語組の単語連鎖確率とを比較して、正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を抽出する。正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を、高区間内誤り二単語組とする。
高区間内誤り二単語組は、その単語連鎖確率が正解復帰二単語組の単語連鎖確率よりも高いため、認識誤りを拡大する原因となり得る。したがって、上記のように高区間内誤り二単語組を抽出することにより、言語モデルにおいて認識誤りを起こしやすい部分を特定することができる。より詳細には、言語モデルにおいて認識誤りを起こしやすい部分の内、認識誤りを拡大する原因となり得る部分を特定することができる。
認識誤りの拡大の原因となる高区間内誤り二単語組により高い単語連鎖確率が割り当てられていることは、その高区間内誤り二単語組が偏って多く現れるテキストを言語モデル学習データとして用いていることが原因と考えられる。したがって、この高区間内誤り二単語に偏らないように言語モデル学習に使うテキストを選択することにより改善を行うことができる。
[変形例]
図1に一点鎖線で示す開始部出現頻度集計部24が、低開始部正解二単語組の出現頻度を求めてもよい(ステップS11,図4)。例えば、低開始部正解二単語組抽出部23が抽出した各低開始部正解二単語組の数をカウントして、各低開始部正解二単語組に出現頻度としてそのカウント数を割り当てる。また、例えば、低開始部正解二単語組の出現頻度=(その低開始部正解二単語組のカウント数)/(低開始部正解二単語組のカウント数の総和)とし、各低開始部正解二単語組に出現頻度として割合を割り当ててもよい。
このように、開始部出現頻度集計部24を設けることにより、低開始部正解二単語組の中で出現頻度が高いものを抽出することが可能となり、改善すべき低開始部正解二単語組を絞り込むことができる。
同様に、図1に一点鎖線で示す区間内出現頻度集計部34が、高区間内誤り二単語組の出現頻度を求めてもよい(ステップS12,図4)。これにより、高区間内誤り二単語組の中で出現頻度が高いものを抽出することが可能となり、改善すべき高区間内誤り二単語組を絞り込むことができる。
上述の構成をコンピュータによって実現する場合、音声認識誤り分析装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。
すなわち、CPUが各プログラムを逐次読み込んで実行することにより、音声認識部11、認識誤り区間抽出部12、開始部二単語組抽出部21、開始部単語連鎖確率計算部22、低開始部正解二単語組抽出部23、開始部出現頻度集計部24、区間内二単語組抽出部31、区間内単語連鎖確率計算部32、高区間内誤り二単語組抽出部33及び区間内出現頻度集計部34の機能がそれぞれ実現される。この場合、音声認識誤り装置の各部として機能するCPUは、メモリ、ハードディスク等の記録媒体から読み込み込んだデータに対して処理を行い、処理を行った後のデータを記録媒体に格納する。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。例えば、図4において、ステップS3の処理とステップS4の処理とを並列に行ってもよい。同様に、ステップS7の処理とステップS8の処理とを並列に行ってもよい。また、ステップS3からステップS6までの処理と、ステップS7からステップS10までの処理とを並列に行ってもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
音声認識誤り分析装置の例の機能ブロック図。 開始部二単語組抽出部の例の機能ブロック図。 区間内二単語組抽出部の例の機能ブロック図。 音声認識誤り分析方法の処理の流れを例示するフローチャート。 認識誤り単語列、認識誤り区間、開始部誤り二単語組、開始部正解二単語組、区間内誤り二単語組及び正解復帰二単語組等の例を表す図。
符号の説明
1 音声認識誤り分析装置
11 音声認識部
12 誤り認識区間抽出部
21 開始部二単語組抽出部
22 開始部単語連鎖確率計算部
23 低開始部正解二単語組抽出部
24 開始部出現頻度集計部
31 区間内二単語組抽出部
32 区間内単語連鎖確率計算部
33 高区間内誤り二単語組抽出部
34 区間内出現頻度集計部
211 開始部二単語組抽出部
212 開始部正解二単語組抽出部
311 区間内二単語組抽出部
312 正解復帰二単語組抽出部

Claims (10)

  1. 言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる音声認識部と、
    認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出部と、
    上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出部と、
    上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出部と、
    上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算部と、
    上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する低開始部正解二単語組抽出部と、
    を備える音声認識誤り分析装置。
  2. 請求項1に記載の音声認識誤り分析装置において、
    認識誤り単語列内の連続する2つの単語の組(以下、区間内誤り二単語組とする。)のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出部と、
    区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出部と、
    上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算部と、
    上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組(以下、高区間内誤り二単語組とする。)を抽出する高区間内誤り二単語組抽出部と、
    を更に備える音声認識誤り分析装置。
  3. 請求項1又は2に記載の音声認識誤り分析装置において、
    上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計部、
    を更に備える音声認識誤り分析装置。
  4. 請求項1から3の何れかに記載の音声認識誤り分析装置において、
    上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計部、
    を更に備える音声認識誤り分析装置。
  5. 音声認識部が、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列(以下、認識単語列とする。)を割り当てる音声認識ステップと、
    認識誤り区間抽出部が、認識単語列内の、その認識単語列に対応する正解単語列と一致しない1つ又は連続する複数の単語から構成される単語列(以下、認識誤り単語列とする。)と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出ステップと、
    開始部誤り二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出ステップと、
    開始部正解二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出ステップと、
    開始部単語連鎖確率部が、上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算ステップと、
    低開始部正解二単語組抽出部が、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組(以下、低開始部正解二単語組とする。)を抽出する低開始部正解二単語組抽出ステップと、
    を有する音声認識誤り分析方法。
  6. 請求項5に記載の音声認識誤り分析方法において、
    区間内誤り二単語組抽出部が、認識誤り単語列内の連続する2つの単語の組(以下、区間内誤り二単語組とする。)のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出ステップと、
    正解復帰二単語組抽出部が、区間内誤り二単語組の1つ目の単語と、その1つ目の単語の始端よりも時間的に後にあり、その1つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出ステップと、
    区間内単語連鎖確率計算部が、上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算ステップと、
    高区間内誤り二単語組抽出部が、上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組(以下、高区間内誤り二単語組とする。)を抽出する高区間内誤り二単語組抽出ステップと、
    を更に有する音声認識誤り分析方法。
  7. 請求項5又は6に記載の音声認識誤り分析方法において、
    開始部出現頻度集計部が、上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計ステップ、
    を更に有する音声認識誤り分析方法。
  8. 請求項5から7の何れかに記載の音声認識誤り分析方法において、
    区間内出現頻度集計部が、上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計ステップ、
    を更に有する音声認識誤り分析方法。
  9. 請求項1から4の何れかに記載の音声認識誤り分析装置の各部としてコンピュータを機能させるための音声認識誤り分析プログラム。
  10. 請求項9に記載の音声認識誤り分析プログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2008038468A 2008-02-20 2008-02-20 音声認識誤り分析装置、方法、プログラム及びその記録媒体 Expired - Fee Related JP4829910B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008038468A JP4829910B2 (ja) 2008-02-20 2008-02-20 音声認識誤り分析装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008038468A JP4829910B2 (ja) 2008-02-20 2008-02-20 音声認識誤り分析装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2009198646A true JP2009198646A (ja) 2009-09-03
JP4829910B2 JP4829910B2 (ja) 2011-12-07

Family

ID=41142221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008038468A Expired - Fee Related JP4829910B2 (ja) 2008-02-20 2008-02-20 音声認識誤り分析装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4829910B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242775A (ja) * 2010-05-14 2011-12-01 Sony Computer Entertainment Inc 音声認識エラー予測値としての文法適合度評価のための方法およびシステム
JP2014089246A (ja) * 2012-10-29 2014-05-15 Kddi Corp パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099084A (ja) * 1998-09-18 2000-04-07 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置
JP2004279701A (ja) * 2003-03-14 2004-10-07 Seiko Epson Corp 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099084A (ja) * 1998-09-18 2000-04-07 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置
JP2004279701A (ja) * 2003-03-14 2004-10-07 Seiko Epson Corp 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242775A (ja) * 2010-05-14 2011-12-01 Sony Computer Entertainment Inc 音声認識エラー予測値としての文法適合度評価のための方法およびシステム
US8818813B2 (en) 2010-05-14 2014-08-26 Sony Computer Entertainment Inc. Methods and system for grammar fitness evaluation as speech recognition error predictor
JP2014089246A (ja) * 2012-10-29 2014-05-15 Kddi Corp パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Also Published As

Publication number Publication date
JP4829910B2 (ja) 2011-12-07

Similar Documents

Publication Publication Date Title
US7949532B2 (en) Conversation controller
US8301450B2 (en) Apparatus, method, and medium for dialogue speech recognition using topic domain detection
US7949531B2 (en) Conversation controller
US7949530B2 (en) Conversation controller
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
KR101004560B1 (ko) 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체
US20040167779A1 (en) Speech recognition apparatus, speech recognition method, and recording medium
US20090083036A1 (en) Unnatural prosody detection in speech synthesis
US20070094005A1 (en) Conversation control apparatus
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
CN100354929C (zh) 语音处理设备、语言处理方法
WO2019156101A1 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP4890518B2 (ja) 複数言語モデルによる統合音声認識装置
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
JP4829910B2 (ja) 音声認識誤り分析装置、方法、プログラム及びその記録媒体
Smaïli et al. Summarizing videos into a target language: Methodology, architectures and evaluation
JP4769261B2 (ja) 音声認識誤り分析装置、方法、プログラム及びその記録媒体
JP4689032B2 (ja) シンタックス上の置換規則を実行する音声認識装置
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP2007065029A (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2002278579A (ja) 音声データ検索装置
JP5022319B2 (ja) テキストマイニング装置、方法、プログラム及びその記録媒体
JP2019040148A (ja) 音声区間検出装置、その方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4829910

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees