JP2009198646A

JP2009198646A - 音声認識誤り分析装置、方法、プログラム及びその記録媒体

Info

Publication number: JP2009198646A
Application number: JP2008038468A
Authority: JP
Inventors: Taichi Asami; 太一浅見; Yoshiaki Noda; 喜昭野田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-02-20
Filing date: 2008-02-20
Publication date: 2009-09-03
Anticipated expiration: 2028-02-20
Also published as: JP4829910B2

Abstract

【課題】言語モデルにおいて認識誤りを起こしやすい部分を特定する。
【解決手段】言語モデルを用いて音声信号に対して音声認識処理を行い、認識単語列を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない１つ又は連続する複数の単語から構成される認識誤り単語列と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低開始部正解二単語組を抽出する。
【選択図】図１

Description

この発明は、音声認識技術に関する。特に、言語モデルにおける音声認識誤りの原因を分析する音声認識誤り分析装置、方法、プログラム及びその記録媒体に関する。

音声認識エンジンを構成する音響モデル、言語モデルを改善する際には、認識誤りを起こしやすい部分から改善すると効率が良い。

入力音声がどの音素に近いかを判定する音響モデルにおいては、Confusion Matrixを作成することにより認識誤りを起こしやすい部分を特定することができる。Confusion Matrixは、全ての音素について、別のどの音素と混同しやすいかを表にしたものである。Confusion Matrixを作成して混同しやすい音素を特定した上で、その混同しやすい音素から改善を行うことで、音響モデルを効率良く改善して行くことができる。

一方、言語モデルの性能の分析方法としては、パープレキシティによって言語モデルを評価する方法がよく用いられている（例えば、非特許文献１参照。）。音声認識では、言語モデルで計算された単語連鎖確率を用いて、認識単語候補の絞り込みを行っている。パープレキシティは、認識語彙に含まれる各単語から、次の単語への平均分岐数を示す値であり、その値が大きいほど認識単語候補を絞り込みにくい言語モデルであるということを表す。

しかし、パープレキシティの値からは、具体的にどの単語列で候補を絞り込みにくいのかわからないため、言語モデルにおける認識誤りを起こしやすい部分を特定することはできない。
Lawrence Rabiner（著），Biing-Hwang Juang（著），古井定煕(翻訳)，「音声認識の基礎（下）」,ＮＴＴアドバンステクノロジ株式会社，１９９５年，Ｐ．２６３−２６５

上記したように、非特許文献１に記載された言語モデルの性能の分析方法では、言語モデルにおける認識誤りを起こしやすい部分を特定することができないという問題があった。

この発明は、言語モデルにおいて認識誤りを起こしやすい部分を特定する音声認識誤り分析装置、方法、プログラム及びその記録媒体を提供することを目的とする。

この発明の１つの観点によれば、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列（以下、認識単語列とする。）を割り当てる。認識単語列内の、その認識単語列に対応する正解単語列と一致しない１つ又は連続する複数の単語から構成される単語列（以下、認識誤り単語列とする。）と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを認識単語列から抽出する。認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する。認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する。言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組（以下、低開始部正解二単語組とする。）を抽出する。

開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い低開始部正解二単語組は、認識誤りが発生する原因となる単語列である。したがって、低開始部正解二単語組を抽出することにより、言語モデルにおける認識誤りを起こしやすい部分を特定することができる。

以下、図面を参照してこの発明の実施形態の例を説明する。

［第一実施形態］
認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、（１）認識誤りの開始の原因と、（２）認識誤りの拡大の原因の２つに分けることができる。第一実施形態は、認識誤りの原因のうち、認識誤りの開始の原因となり得る部分を特定するものである。

図１，４を参照してこの発明の第一実施形態の例を説明する。図１は、音声認識誤り分析装置の例の機能ブロック図である。図４は、音声認識誤り分析方法の処理の流れを例示するフローチャートである。

第一実施形態の音声認識誤り分析装置１は、図１において実線で示す、音声認識部１１、認識誤り区間抽出部１２、開始部二単語組抽出部２１，開始部単語連鎖確率計算部２２及び低開始部正解二単語組抽出部２３を例えば備える。

＜ステップＳ１＞
音声認識部１１は、音響モデル、言語モデル及び認識辞書を用いて、音声信号に対して音声認識処理を行い、その音声信号に対してその音声認識処理の結果である単語列を割り当てる。割り当てられた単語列を、認識単語列とする。認識単語列の各単語には、始端時刻と終端時刻が付与される。認識単語列は、認識誤り区間抽出部１２に送られる。
音声認識処理の概要については、例えば参考文献１を参照のこと。

〔参考文献１〕政瀧浩和，外５名，「顧客との自然な会話を聞き取る自由発話音声認識技術『ＶｏｉｃｅＲｅｘ』」，ＮＴＴ技術ジャーナル，２００６年１１月，Ｎｏ．１８，ｖｏｌ．１１，ｐ．１５−１８
例えば、音声認識部１１は、「インターネットが繋がらない」という文を少なくとも含む音声信号に対して音声認識処理を行い、図５に実線で示すように、その「インターネットが繋がらない」という音声信号部分に「（インターネット）（勝つ）（な）（が）（荒）（ない）」という単語列を含む認識単語列を割り当てる。

＜ステップＳ２＞
認識誤り区間抽出部１２は、認識単語列と、その認識単語列に対応する正解単語列とを比較して、認識誤り単語列と、その認識誤り単語列及びその前後一単語とから構成される認識誤り区間とを抽出する。

認識誤り単語列とは、認識単語列内の、その認識単語列に対応する正解単語列と一致しない１つ又は連続する複数の単語から構成される単語列のことである。抽出された認識誤り単語列と認識誤り区間は、開始部二単語組抽出部２１に送られる。

図５に示した例では、認識単語列と、その認識単語列に対応する正解単語列とは、（勝つ）（な）（が）（荒）という連続する４つの単語の部分で一致しない。したがって、（勝つ）（な）（が）（荒）が認識誤り単語列となる。また、この認識誤り単語列に、その前の単語（インターネット）と、その後ろの単語（ない）を加えた（インターネット）（勝つ）（な）（が）（荒）（ない）が、認識誤り区間となる。

一般に、音声認識部１１の音声認識処理により、複数の認識誤り区間が認識誤り区間抽出部１２により抽出される。以下の処理は、各複数の認識誤り区間ごとに行われる。

＜ステップＳ３＞
開始部二単語組抽出部２１は、図２に例示するように、開始部誤り二単語組抽出部２１１と開始部正解二単語組抽出部２１２とを含む。

開始部誤り二単語組抽出部２１１は、認識誤り単語列と認識誤り区間とから、開始部誤り二単語組を抽出する。抽出された開始部誤り二単語組は、開始部単語連鎖確率計算部２２に送られる。
開始部誤り二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列の最初の単語とから構成される二単語である。

図５に示した例では、認識誤り区間の最初の単語である（インターネット）と、認識誤り単語列の最初の単語である（勝つ）とから構成される二単語（インターネット）（勝つ）が、開始部誤り二単語組となる。

＜ステップＳ４＞
開始部二単語組抽出部２１の開始部正解二単語組抽出部２１２は、認識誤り区間と、認識誤り単語列に対応する正解単語列とから、開始部正解二単語組を抽出する。抽出された開始部正解二単語組は、開始部単語連鎖確率計算部２２に送られる。
開始部正解二単語組とは、認識誤り区間の最初の単語と、認識誤り単語列に対応する正解単語列の最初の単語とから構成される二単語である。

図５に示した例では、認識誤り区間の最初の単語（インターネット）と、認識誤り単語列に対応する正解単語列の最初の単語（が）とから構成される二単語（インターネット）（が）が、開始部正解二単語組となる。

＜ステップＳ５＞
開始部単語連鎖確率計算部２２は、音声認識部１１が用いたのと同じ言語モデルを用いて、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった開始部誤り二単語組又は開始部正解二単語組と共に、低開始部正解二単語組抽出部２３に送られる。

単語連鎖確率とは、言語モデルを用いて計算される、二単語組の１つ目の単語からその二単語組の２つ目の単語に連鎖する確率のことである（例えば、参考文献２参照。）。

〔参考文献２〕Lawrence Rabiner（著），Biing-Hwang Juang（著），古井定煕(翻訳)，「音声認識の基礎（下）」,ＮＴＴアドバンステクノロジ株式会社，１９９５年，Ｐ．２６２−２６３
＜ステップＳ６＞
低開始部正解二単語組抽出部２３は、開始部誤り二単語組の単語連鎖確率と開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を抽出する。開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組を、低開始部正解二単語組とする。

低開始部正解二単語組は、その単語連鎖確率が開始部誤り二単語組の単語連鎖確率よりも低いため、認識誤りが開始する原因となり得る。したがって、上記のように低開始部正解二単語組を抽出することにより、言語モデルにおいて認識誤りを起こしやすい部分を特定することができる。より詳細には、言語モデルにおいて認識誤りを起こしやすい部分の内、認識誤りの開始の原因となり得る部分を特定することができる。

認識誤りの開始の原因となる低開始部正解二単語組に、対応する開始部誤り二単語組よりも低い単語連鎖確率が割り当てられているのは、言語モデル学習データとして用いるテキストに、その低開始部正解二単語が出現しないか、その出現回数が少ないために、適切な確率を学習できていないことが原因と考えられる。したがって、低開始部正解二単語がよく現れるテキストを、言語モデル学習用データとして使うことで改善を行うことができる。

［第二実施形態］
以下、第二実施形態の例を説明する。先に述べたように、認識誤りは数単語に亘って連続して生じる傾向があり、認識誤りの原因は、（１）認識誤りの開始の原因と、（２）認識誤りの拡大の原因の２つに分けることができる。第二実施形態は、これら両方の原因を特定するものである。

以下、第二実施形態の例を説明するが、第一実施形態と異なる部分についてのみ説明し、第一実施形態と同様な部分については重複説明を省略する。

第二実施形態の音声認識誤り分析装置は、第一実施形態の音声認識誤り分析装置１の各部に加えて、図１に破線で例示する、区間内二単語組抽出部３１、区間内単語連鎖確率計算部３２及び高区間内誤り二単語組抽出部３３を例えば備える。また、第二実施形態の音声認識誤り分析方法においては、第一実施形態の音声認識誤り分析装置１の各処理に加えて、図４に破線で例示するステップＳ７からＳ１０の処理を行う。

＜ステップＳ２＞
認識誤り区間抽出部１２は、抽出した認識誤り単語列を区間内二単語組抽出部３１に送る。認識誤り区間を区間内二単語組抽出部３１に送る必要はない。

＜ステップＳ７＞
区間内二単語組抽出部３１は、図３に例示するように、区間内誤り二単語組抽出部３１１と、正解復帰二単語組抽出部３１２とを含む。

区間内誤り二単語組抽出部３１１は、認識誤り単語列から、区間内誤り二単語組をすべて抽出する。抽出された区間内誤り二単語組は、正解復帰二単語組抽出部３１２と、区間内単語連鎖確率計算部３２に送られる。
区間内誤り二単語組とは、認識誤り単語列内の連続する２つの単語の組のことである。

図５に示した例では、（勝つ）（な）、（な）（が）及び（が）（荒）がそれぞれ区間内誤り二単語組となる。

＜ステップＳ８＞
区間内二単語組抽出部３１の正解復帰二単語組抽出部３１２は、区間内誤り二単語組と、正解単語列とから、正解復帰二単語組を区間内誤り二単語組ごとに抽出する。抽出された正解復帰二単語組は、区間内単語連鎖確率計算部３２に送られる。

正解復帰二単語組とは、区間内誤り二単語組の１つ目の単語と、その１つ目の単語の始端よりも時間的に後にあり、その１つ目の単語の終端に時間的に最も近い始端を有する正解単語列内の単語とから構成される単語列のことである。

図５に示した例では、区間内誤り二単語組（勝つ）（な）に対応する正解復帰二単語組は、（勝つ）（繋が）である。すなわち、区間内誤り二単語組（勝つ）（な）の１つ目の単語である（勝つ）の始端よりも時間的に後ろにある、正解単語列内の単語は（繋が）と（ら）である。（繋が）と（ら）の内、（勝つ）の終端に時間的に最も近い始端を有するのは、（繋が）である。（勝つ）の終端と（繋が）の始端との時間的な距離の方が、（勝つ）の終端と（ら）の始端との時間的な距離よりも短いからである。したがって、区間内誤り二単語組（勝つ）（な）に対応する正解復帰二単語組は、（勝つ）（繋が）となるのである。同様に、区間内誤り二単語組（な）（が）に対応する正解復帰二単語組は（な）（ら）であり、区間内誤り二単語組（が）（荒）に対応する正解復帰二単語組は（が）（ら）となる。

＜ステップＳ９＞
区間内単語連鎖確率計算部３２は、音声認識部１１が用いたのと同じ言語モデルを用いて、区間内誤り二単語組の単語連鎖確率と正解復帰二単語組の単語連鎖確率をそれぞれ計算する。計算された単語連鎖確率は、計算の元になった区間内誤り二単語組又は正解復帰二単語組と共に、高区間内誤り二単語組抽出部３３に送られる。

＜ステップＳ１０＞
高区間内誤り二単語組抽出部３３は、区間内誤り二単語組の単語連鎖確率と、それに対応する正解復帰二単語組の単語連鎖確率とを比較して、正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を抽出する。正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組を、高区間内誤り二単語組とする。

高区間内誤り二単語組は、その単語連鎖確率が正解復帰二単語組の単語連鎖確率よりも高いため、認識誤りを拡大する原因となり得る。したがって、上記のように高区間内誤り二単語組を抽出することにより、言語モデルにおいて認識誤りを起こしやすい部分を特定することができる。より詳細には、言語モデルにおいて認識誤りを起こしやすい部分の内、認識誤りを拡大する原因となり得る部分を特定することができる。

認識誤りの拡大の原因となる高区間内誤り二単語組により高い単語連鎖確率が割り当てられていることは、その高区間内誤り二単語組が偏って多く現れるテキストを言語モデル学習データとして用いていることが原因と考えられる。したがって、この高区間内誤り二単語に偏らないように言語モデル学習に使うテキストを選択することにより改善を行うことができる。

［変形例］
図１に一点鎖線で示す開始部出現頻度集計部２４が、低開始部正解二単語組の出現頻度を求めてもよい（ステップＳ１１，図４）。例えば、低開始部正解二単語組抽出部２３が抽出した各低開始部正解二単語組の数をカウントして、各低開始部正解二単語組に出現頻度としてそのカウント数を割り当てる。また、例えば、低開始部正解二単語組の出現頻度＝（その低開始部正解二単語組のカウント数）／（低開始部正解二単語組のカウント数の総和）とし、各低開始部正解二単語組に出現頻度として割合を割り当ててもよい。

このように、開始部出現頻度集計部２４を設けることにより、低開始部正解二単語組の中で出現頻度が高いものを抽出することが可能となり、改善すべき低開始部正解二単語組を絞り込むことができる。

同様に、図１に一点鎖線で示す区間内出現頻度集計部３４が、高区間内誤り二単語組の出現頻度を求めてもよい（ステップＳ１２，図４）。これにより、高区間内誤り二単語組の中で出現頻度が高いものを抽出することが可能となり、改善すべき高区間内誤り二単語組を絞り込むことができる。

上述の構成をコンピュータによって実現する場合、音声認識誤り分析装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。

すなわち、ＣＰＵが各プログラムを逐次読み込んで実行することにより、音声認識部１１、認識誤り区間抽出部１２、開始部二単語組抽出部２１、開始部単語連鎖確率計算部２２、低開始部正解二単語組抽出部２３、開始部出現頻度集計部２４、区間内二単語組抽出部３１、区間内単語連鎖確率計算部３２、高区間内誤り二単語組抽出部３３及び区間内出現頻度集計部３４の機能がそれぞれ実現される。この場合、音声認識誤り装置の各部として機能するＣＰＵは、メモリ、ハードディスク等の記録媒体から読み込み込んだデータに対して処理を行い、処理を行った後のデータを記録媒体に格納する。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。例えば、図４において、ステップＳ３の処理とステップＳ４の処理とを並列に行ってもよい。同様に、ステップＳ７の処理とステップＳ８の処理とを並列に行ってもよい。また、ステップＳ３からステップＳ６までの処理と、ステップＳ７からステップＳ１０までの処理とを並列に行ってもよい。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

音声認識誤り分析装置の例の機能ブロック図。開始部二単語組抽出部の例の機能ブロック図。区間内二単語組抽出部の例の機能ブロック図。音声認識誤り分析方法の処理の流れを例示するフローチャート。認識誤り単語列、認識誤り区間、開始部誤り二単語組、開始部正解二単語組、区間内誤り二単語組及び正解復帰二単語組等の例を表す図。

符号の説明

１音声認識誤り分析装置
１１音声認識部
１２誤り認識区間抽出部
２１開始部二単語組抽出部
２２開始部単語連鎖確率計算部
２３低開始部正解二単語組抽出部
２４開始部出現頻度集計部
３１区間内二単語組抽出部
３２区間内単語連鎖確率計算部
３３高区間内誤り二単語組抽出部
３４区間内出現頻度集計部
２１１開始部二単語組抽出部
２１２開始部正解二単語組抽出部
３１１区間内二単語組抽出部
３１２正解復帰二単語組抽出部

Claims

言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列（以下、認識単語列とする。）を割り当てる音声認識部と、
認識単語列内の、その認識単語列に対応する正解単語列と一致しない１つ又は連続する複数の単語から構成される単語列（以下、認識誤り単語列とする。）と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出部と、
上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出部と、
上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出部と、
上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算部と、
上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組（以下、低開始部正解二単語組とする。）を抽出する低開始部正解二単語組抽出部と、
を備える音声認識誤り分析装置。
請求項１に記載の音声認識誤り分析装置において、
認識誤り単語列内の連続する２つの単語の組（以下、区間内誤り二単語組とする。）のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出部と、
区間内誤り二単語組の１つ目の単語と、その１つ目の単語の始端よりも時間的に後にあり、その１つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出部と、
上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算部と、
上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組（以下、高区間内誤り二単語組とする。）を抽出する高区間内誤り二単語組抽出部と、
を更に備える音声認識誤り分析装置。
請求項１又は２に記載の音声認識誤り分析装置において、
上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計部、
を更に備える音声認識誤り分析装置。
請求項１から３の何れかに記載の音声認識誤り分析装置において、
上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計部、
を更に備える音声認識誤り分析装置。
音声認識部が、言語モデルを用いて音声信号に対して音声認識処理を行い、その音声認識結果である単語列（以下、認識単語列とする。）を割り当てる音声認識ステップと、
認識誤り区間抽出部が、認識単語列内の、その認識単語列に対応する正解単語列と一致しない１つ又は連続する複数の単語から構成される単語列（以下、認識誤り単語列とする。）と、その認識誤り単語列及びその前後一単語から構成される認識誤り区間とを上記認識単語列から抽出する認識誤り区間抽出ステップと、
開始部誤り二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列の最初の単語とから構成される開始部誤り二単語組を抽出する開始部誤り二単語組抽出ステップと、
開始部正解二単語組抽出部が、上記認識誤り区間の最初の単語と、上記認識誤り単語列に対応する正解単語列の最初の単語とから構成される開始部正解二単語組を抽出する開始部正解二単語組抽出ステップと、
開始部単語連鎖確率部が、上記言語モデルを用いて、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率をそれぞれ計算する開始部単語連鎖確率計算ステップと、
低開始部正解二単語組抽出部が、上記開始部誤り二単語組の単語連鎖確率と上記開始部正解二単語組の単語連鎖確率とを比較して、開始部誤り二単語組の単語連鎖確率よりも単語連鎖確率が低い開始部正解二単語組（以下、低開始部正解二単語組とする。）を抽出する低開始部正解二単語組抽出ステップと、
を有する音声認識誤り分析方法。
請求項５に記載の音声認識誤り分析方法において、
区間内誤り二単語組抽出部が、認識誤り単語列内の連続する２つの単語の組（以下、区間内誤り二単語組とする。）のすべてを上記認識誤り単語列から抽出する区間内誤り二単語組抽出ステップと、
正解復帰二単語組抽出部が、区間内誤り二単語組の１つ目の単語と、その１つ目の単語の始端よりも時間的に後にあり、その１つ目の単語の終端に時間的に最も近い始端を有する上記正解単語列内の単語とから構成される正解復帰二単語組を各上記区間内誤り二単語組ごとに抽出する正解復帰二単語組抽出ステップと、
区間内単語連鎖確率計算部が、上記言語モデルを用いて、上記区間内誤り二単語組の単語連鎖確率と上記正解復帰二単語組の単語連鎖確率をそれぞれ計算する区間内単語連鎖確率計算ステップと、
高区間内誤り二単語組抽出部が、上記区間内誤り二単語組の単語連鎖確率と、その区間内誤り二単語組に対応する正解復帰二単語組の単語連鎖確率とを比較して、上記正解復帰二単語組の単語連鎖確率よりも単語連鎖確率が高い区間内誤り二単語組（以下、高区間内誤り二単語組とする。）を抽出する高区間内誤り二単語組抽出ステップと、
を更に有する音声認識誤り分析方法。
請求項５又は６に記載の音声認識誤り分析方法において、
開始部出現頻度集計部が、上記低開始部正解二単語組の出現頻度を求める開始部出現頻度集計ステップ、
を更に有する音声認識誤り分析方法。
請求項５から７の何れかに記載の音声認識誤り分析方法において、
区間内出現頻度集計部が、上記高区間内誤り二単語組の出現頻度を求める区間内出現頻度集計ステップ、
を更に有する音声認識誤り分析方法。
請求項１から４の何れかに記載の音声認識誤り分析装置の各部としてコンピュータを機能させるための音声認識誤り分析プログラム。
請求項９に記載の音声認識誤り分析プログラムが記録されたコンピュータ読み取り可能な記録媒体。