JP2011112963A

JP2011112963A - 音声認識装置とその方法と、プログラム

Info

Publication number: JP2011112963A
Application number: JP2009270640A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Taichi Asami; 太一浅見; Yoshikazu Yamaguchi; 義和山口; Hirokazu Masataki; 浩和政瀧; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2011-06-09
Anticipated expiration: 2029-11-27
Also published as: JP5235849B2

Abstract

【課題】音声認識結果の信頼度計算の処理時間を削減する。
【解決手段】この発明の音声認識装置の事前信頼度スコア計算部が、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。音声認識処理部は、音声特徴量系列と信頼度スコアを入力として、音声認識処理を行い音声認識結果と信頼度スコアを出力する。
【選択図】図２

Description

この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムに関する。

近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。

そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。図１１に音声認識結果に信頼度を付与するようにした音声認識装置９００の機能構成を示す。音声認識装置９００は、音響分析部１２０、音響モデル格納部１４０、辞書・言語モデル格納部１５０、探索部１６０、信頼度計算部１９０、を備える。

音響分析部１２０は、入力音声信号１１０を、数十ｍｓのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析して音響特徴パラメータ系列１３０を生成する。探索部１６０は、音響特徴パラメータ系列１３０について、音響モデル格納部１４０と辞書・言語モデル格納部１５０とを用いて認識結果候補の探索を行う。探索の結果、上位〜Ｎ位までのＮベストの音声認識結果１７０と、そのスコア１８０が出力される。

信頼度計算部１９０は、音声認識結果１７０とスコア１８０に基づいて複数の音声認識結果１７０にそれぞれ対応する信頼度スコア２００を計算して出力する。その信頼度スコア２００は、例えば音声認識結果として得られたＮベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。

この信頼度スコア２００を参照することで、その信頼度スコア２００に対応する音声認識結果１７０を廃棄したり、発話者に対して認識結果を確認したりすることで、誤認識による不具合の発生を抑制していた。

特開２００５−１４８３４２号公報

しかし、従来の音声認識装置９００では、信頼度スコアを、音声認識処理を行った後のスコアから計算していた。したがって、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。そのため、例えばＳ/Ｎ比が悪い等の理由により誤認識ばかりで利用不能な音声データに余分な処理時間をかけてしまう場合がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させる場合がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまう課題もあった。

この発明は、このような問題点に鑑みてなされたものであり、音声認識処理を行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置とその方法と、プログラムを提供することを目的とする。

この発明の音声認識装置は、特徴量分析部と、事前信頼度スコア計算部と、音声認識処理部と、を具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する。事前信頼度スコア計算部は、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル（例えば、音声ＧＭＭ、ここでＧＭＭとはGaussian Mixture Modelすなわち混合正規分布である）又はポーズモデル（例えば、ポーズＨＭＭ：Hidden Markov Model）の（中に含まれるＧＭＭの）最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。音声認識処理部は、音声特徴量系列を入力として、音声認識結果を出力する。

この発明の音声認識装置によれば、事前信頼度スコア計算部が、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。そして、求められた信頼度スコアの値に応じて音声認識処理を行うか否かの判断をすることで、信頼度が低く音声認識精度の低い音声ファイルの音声認識処理に時間がかかる課題も解決される。

この発明の基本的な考え方を説明するために音声特徴量と尤度（または出力確率）との関係を模式的に示す図。この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。事前信頼度スコア計算部３０の機能構成例を示す図。モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す図。図４を二種以上の音響モデルにした場合を示す図。この発明の音声認識装置２５０の機能構成例を示す図。信頼度スコアＣとビーム探索幅Ｎ（Ｃ）との関係の例を示す図。この発明の音声認識装置３００の機能構成例を示す図。音声認識装置３００の動作フローを示す図。特許文献１に開示された従来の音声認識装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
〔この発明の基本的な考え方〕
図１に、音声特徴量と尤度との関係を示す。尤度は、一般的に尤もらしさを表す値であり、出力確率値で代用しても良い。横軸が音声特徴量、縦軸が尤度である。図中に、音響モデル中に含まれる音声モデル(破線)とモノフォンの音素モデル「＊−ａ＋＊」，「＊−ｉ＋＊」，「＊−ｕ＋＊」のそれぞれの分布を表す。音素モデルは、通常複数の状態から構成され、一つの状態は複数の基底分布からなる混合分布（以下、混合正規分布を含めて混合分布とする）から構成される。ここでは、簡略化のため音素モデルの状態数を１、混合分布数を１として表現している。

ここで、モノフォンとは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル（例えばトライフォン）に対して、前後の音素の制約がなく、音素モデルの数も少ない。例えば、音素の数を３０個とした場合、モノフォン音響モデル中の音素モデルの数は３０個であるが、トライフォンの場合の数は３０３個（２７００個）である。
例えば音声モデルに用いたＧＭＭは、混合正規分布モデルであり、音声すなわち全ての音素の学習データで学習されたモデルであるため、その分布は音声特徴量に対する尤度の値が比較的になだらかな分布である。それに対して、モノフォンは、各音素の学習データで学習されたモデルであるため、当該音素に対応する音声特徴量に対する尤度の値が急峻な分布である。

したがって、ある音声特徴量に対する音声モデルの尤度と、同じ音声特徴量に対するモノフォンの尤度を比較することで、音声ファイルの信頼度を判定することが可能である。つまり、雑音の影響を受けずに収録された音素ａの音声特徴量Ｏ_ｔ ^clean（ａ）に対するモノフォン「＊−ａ＋＊」の尤度は大きな値を示す。しかし、同じ音声特徴量Ｏ_ｔ ^clean（ａ）に対する音声モデルの尤度は相対的に小さな値を示す。その結果、それらの値の間に差が存在する。

これに対して、雑音の影響を強く受けて収録された音素ａの音声特徴量Ｏ_ｔ ^noisy（ａ）は、本来の特徴量とは異なるのでモノフォンでの尤度と、音声モデルにおける尤度との間の差が小さくなる。
このように音声特徴量に対するモノフォンの尤度と、音声モデルの尤度との差を見ることで、収録音声の品質を評価することが出来る。この発明の基本的な考え方は、この点に着目して、モノフォンの最尤状態の出力確率と音声モデルの出力確率との差を事前信頼度として求め、音声ファイル単位の信頼度スコアを得るようにしたものである。

図２にこの発明の音声認識装置１００の機能構成例を示す。その動作フローを図３に示す。音声認識装置１００は、Ａ/Ｄ変換部１０と、特徴量分析部２０と、事前信頼度スコア計算部３０と、音声認識処理部４０と、音響モデルパラメータメモリ５０と、言語モデルパラメータメモリ６０と、を具備する。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

Ａ/Ｄ変換部１０は、音声信号を、例えばサンプリング周波数１６ｋＨｚで離散値化して音声ディジタル信号に変換する。なお、音声ディジタル信号が直接入力される場合は、Ａ/Ｄ変換部１０は不要である。

特徴量分析部２０は、音声ディジタル信号を入力として、例えば３２０個の音声ディジタル信号を１フレーム（２０ｍｓ）としたフレーム毎に、音声特徴量系列を出力する（ステップＳ２０）。音声特徴量としては、例えば、ＭＦＣＣ（Mel-Frequenct Cepstrum Coefficient）の１〜１２元と、その変化量であるΔＭＦＣＣ等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化（ＣＭＮ）等の処理を行っても良い。

事前信頼度スコア計算部３０は、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデル（に含まれるＧＭＭ）の中の最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する（ステップＳ３０）。

音声認識処理部４０は、音響モデルパラメータメモリ５０に記録された音響モデルと、言語モデルパラメータメモリ６０に記録された言語モデルとを参照して、音声特徴量系列について音声認識処理を行い、その音声認識結果と信頼度スコアを出力する（ステップＳ４０）。なお、音声認識処理部４０は、破線で示すように音声ファイルの信頼度スコアの値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。ステップＳ４０の音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。

音声認識装置１００によれば、事前信頼度スコア計算部３０が、フレーム毎に事前信頼度を付与して音声ファイル単位で平均（１フレーム当たりの平均の事前信頼度を計算）した信頼度スコアを計算する。音声特徴量系列に基づいた信頼度スコアは、従来の音声認識結果から信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、事前信頼度が低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかる課題も解決される。次に、実施例１の主要部である事前信頼度スコア計算部３０のより具体的な構成例を示して更に詳しく説明する。

〔事前信頼度スコア計算部〕
図４に事前信頼度スコア計算部３０の機能構成例を示す。事前信頼度スコア計算部３０は、モノフォン最尤検出手段３２と、ポーズ/音声モデル最尤検出手段３３と、事前信頼度算出手段３４と、信頼度スコア算出手段３５と、を備える。
モノフォン最尤検出手段３２は、フレームｔ毎に入力される音声特徴量系列に対する複数のモノフォンの最尤状態ｓ１の出力確率Ｐ（ｔ，ｓ１）を、事前信頼度算出手段３４に出力する。ポーズ/音声モデル最尤検出手段３３は、その音声特徴量系列に対する音声モデル又はポーズモデルの最尤状態ｇ１の出力確率Ｐ（ｔ，ｇ１）を、事前信頼度算出手段３４に出力する。

図５に、モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す。横方向は時間経過をフレームｔで表す。縦方向はフレームｔ毎の複数のモノフォン（ポーズモデルを含む）と音声モデルのそれぞれの状態を表す。例えば、各モノフォン（ポーズモデルを含む）は、それぞれ３つの状態から成り、モノフォン「＊−ａ＋＊」はａ_１,ａ_２,ａ_３から成る。黒丸の状態がモノフォン中の最尤状態ｇ１を表す。斜線入り丸の状態がポーズモデルと音声モデルの中での最尤状態ｇ１を表す。モノフォン中の最尤状態ｓ１と、ポーズモデルと音声モデルの中での最尤状態ｇ１が、一致する場合（ｓ１＝ｇ１）には黒丸で示す。
時刻ｔ_１では、ポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第１状態が最尤状態である。時刻ｔ_２では、同様にポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第２状態が最尤状態である。時刻ｔ_３も、ポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第３状態が最尤状態である。このことから、時刻ｔ_１〜ｔ_３は非音声状態である。この時、モノフォン中の最尤状態と、ポーズモデルと音声モデルの中での最尤状態が一致する（ｓ１＝ｇ１）ため、当該時刻における事前信頼度の値は０となる。
時刻ｔ_４は、ポーズ以外のモノフォンの中で「＊−ａ＋＊」の第３状態が最尤状態ｓ１で、且つポーズモデルと音声モデルの中で音声モデルも最尤状態ｇ１であることから音声状態である。そこで、この実施例では、時刻ｔ_４のモノフォン「＊−ａ＋＊」の最尤状態ｓ１の出力確率と、音声モデルの最尤度状態ｇ１の出力確率との差を事前信頼度とする。
また、時刻ｔ_１９は、ポーズ以外のモノフォンの中で「＊−ｉ＋＊」の第２状態が最尤状態ｓ１で、ポーズモデルと音声モデルの中でポーズモデルの第３状態が最尤状態ｇ１である。この場合、モノフォン「＊−ｉ＋＊」の最尤状態ｓ１の出力確率と、ポーズモデルの最尤状態ｇ１の出力確率との差を事前信頼度とする。なお、図５は、一部の時間しか示していない。音声ファイルの長さは例えば数分（例えば３０,０００フレーム）程度である。

このように、事前信頼度算出手段３４は、モノフォンの最尤状態の出力確率Ｐ（ｔ，ｓ１）と音声モデル又はポーズモデルの最尤状態の出力確率Ｐ（ｔ，ｇ１）の差を、事前信頼度Ｃ（ｔ）として信頼度スコア算出手段３５に出力する（式（１））。

ここで、ｓ１はモノフォンに属する状態（混合分布）の内、時刻ｔに最も尤度の高い混合分布である。ｇ１は音声モデル又はポーズモデルの内、時刻ｔに最も尤度の高い混合分布である。Ｐ（ｔ，ｓ）は、式（２）に示す時刻ｔにおける状態ｓ（に属する混合分布）の出力確率である。

ここで、Ｍ_ｓは状態ｓの混合数である。ｃ_ｓ，ｍは状態ｓ分布ｍの混合重み係数である。なおｃ_ｓ，ｍは音響モデル学習の結果で決まるものであり、０≦ｃ_ｓ，ｍ≦１の範囲を取る値である。例えば、混合数が１６であるとすると平均１/１６の値となる。Ｎ（・）は平均μ_ｓ，ｍ、分散Σ_ｓ，ｍの（基底）正規分布に対する時刻ｔの特徴量Ｏ_ｔの出力確率を意味する。
信頼度スコア算出手段３５は、事前信頼度Ｃ（ｔ）を音声ファイルの継続時間Ｔ（総フレーム数）の間累積して平均した信頼度スコアＣを出力する（式（３））。

このように、事前信頼度スコア計算部３０は、フレーム単位の事前信頼度を音声ファイルの総フレーム数で平均することで音声ファイル単位の信頼度を表す信頼度スコアＣを計算する。音声ファイル単位の信頼度スコアＣを求めるので精緻な処理を必要としない。

音声認識処理部４０は、特徴量分析部２０が出力する音声特徴量系列と信頼度スコアＣを入力として、音声認識処理を行い音声認識結果を出力する。この時、信頼度スコアＣを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ５０に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部４０は、信頼度スコアＣの値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。

なお、信頼度スコアＣは、二種以上の音響モデル中に含まれるモノフォン（ポーズモデルを含む）及び音声モデルに基づいて計算した事前信頼度を、音声ファイル単位で平均した値としても良い。図６に、二種以上の音響モデルを、男性音響モデルと女性音響モデルとした場合の出力確率の時間経過の一例を示す。事前信頼度スコア計算部３０′は、各時刻ｔの音声特徴量系列に対する男性と女性のモノフォンの最尤状態の出力確率Ｐ_男（ｔ，ｓ１）とＰ_女（ｔ，ｓ１）をそれぞれ求めて、大きい方を最尤状態の出力確率Ｐ（ｔ，ｓ１）とし、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率Ｐ_男（ｔ，ｇ１）とＰ_女（ｔ，ｇ１）のうち大きい方をＰ（ｔ，ｇ１）とし、その差分（Ｐ（ｔ，ｓ１）−Ｐ（ｔ，ｇ１））を事前信頼度Ｃ(ｔ)として求めるようにするものである。

つまり、ポーズ/音声モデル最尤検出手段３３′は、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率Ｐ_男（ｔ，ｇ１）とＰ_女（ｔ，ｇ１）のうち大きい方をＰ（ｔ，ｇ１）とするものである。そして、モノフォン最尤検出手段３２′は、男性と女性のモノフォンの最尤状態の出力確率Ｐ_男（ｔ，ｓ１）とＰ_女（ｔ，ｓ１）のうち大きい方をＰ（ｔ，ｓ１）として求める。そして、信頼度スコア算出手段３５は、事前信頼度Ｃ（ｔ）を音声ファイルの総フレーム数で平均した値を信頼度スコアＣとして出力する。

また、事前信頼度スコア計算部３０′に用いる音響モデルの種別は三種以上の複数であっても良い。このように、複数の種別の音響モデルを用いることで、後段の音声認識処理が複数の音響モデルを用いる場合でも、信頼度スコアＣの精度を向上させる効果が期待できる。

また、信頼度スコアＣは、音声特徴量系列に対する二種以上の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、出力確率が大きい種別のモノフォンに限定して計算された値であっても良い。つまり、上記した例のように男性と女性のモノフォンの最尤状態の出力確率Ｐ_男（ｔ，ｓ１）とＰ_女（ｔ，ｓ１）を全てのフレームについて求めるのでは無く、音声モデル又はポーズモデルの出力確率が女性（男性）よりも男性（女性）が高くなるフレームは、男性（女性）モノフォンに限定して計算する方法も考えられる。
すなわち、ポーズ/音声モデル最尤検出手段３３”は、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率Ｐ_男（ｔ，ｇ１）とＰ_女（ｔ，ｇ１）のうち大きい方をＰ（ｔ,ｇ１）とするものである。そして、モノフォン最尤検出手段３２”は、その判定結果を入力としてどちらか一方のモノフォンの最尤状態の出力確率Ｐ（ｔ,ｓ１）を求める。この例の場合、全ての種別のモノフォンの出力確率を計算しないので、計算量を削減する効果が期待できる。

図７にこの発明の音声認識装置２５０の機能構成例を示す。音声認識装置２５０は、認識処理制御部２５１を備える点で、音声認識装置１００と異なる。認識処理制御部２５１は、信頼度スコアＣが一定値Ｃ_ｔｈ以下の場合に音声認識処理を停止させる制御信号を、音声認識処理部４０に出力する。信頼度スコアＣは音声ファイル毎に計算される値であるので、音声認識処理部４０は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Ｃ_ｔｈは、例えば、音響モデルの学習データに対する信頼度スコア分布から算出する方法が考えられる。信頼度スコア分布の平均値μ、標準偏差σとした場合に、例えばＣ_ｔｈ＝μ−２σとする。また、式（１）に示した一定の高い信頼度スコア値Ｃ_constは、Ｃ_const＝μ＋２σ等としても良い。

また、認識処理制御部２５１は、制御信号としてビーム探索幅Ｎ（Ｃ）を出力するようにしても良い。その一例を式（４）に示す。

図８に信頼度スコアＣとビーム探索幅Ｎ（Ｃ）との関係を例示する。横軸は信頼度スコアＣであり、縦軸はビーム探索幅Ｎ（Ｃ）である。
図８に示すように式（４）は、所定の範囲の信頼度スコアＣ（Ｃ_ｍｉｎ〜Ｃ_ｍａｘ）に対応するビーム探索幅Ｎ（Ｃ）（Ｎ_ｍｉｎ〜Ｎ_ｍａｘ）を、信頼度スコアＣの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアＣが小でビーム探索幅Ｎ（Ｃ）が大であり、Ｃが大でＮ（Ｃ）が小となる関係である。もちろん、信頼度スコアＣとビーム探索幅Ｎ（Ｃ）との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅Ｎ（Ｃ）を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
ここで、例えばＣ_ｍａｘ＝μ＋σ、Ｃ_ｍｉｎ＝μ―σとして、Ｎ_ｍａｘを通常用いるビーム幅の１.５倍、Ｎ_ｍｉｎを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合（例えばＣ＜Ｃ_ｍｉｎ）には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばＮ_ｍｉｎにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。

このように、認識処理制御部２５１を備えた音声認識装置２５０は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることが出来る。なお、認識処理制御部２５１の機能は、音声認識処理部４０に持たせても良い。

図９にこの発明の音声認識装置３００の機能構成例を示す。図１０に動作フローを示す。音声認識装置３００は、音声ファイル処理部３０１と、ソート音声認識処理部３０２と、を備える点で音声認識装置１００，２５０と異なる。

音声ファイル処理部３０１は、複数の音声ファイルの信頼度スコアＣの高い順番に複数の音声ファイルを並び替える（ステップＳ３０１）。ソート音声認識処理部３０２は、信頼度スコアＣの高い順番に音声認識処理を行う（ステップＳ３０２）。

このように信頼度スコアＣの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることが出来る。例えば、全音声ファイルに対して音声認識処理を行う事が、計算機資源や処理時間の関係等によって難しい場合には、信頼度スコアＣが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される信頼度スコアＣが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部３０１の機能は、ソート音声認識処理部３０２の機能に含めても良い。
以上述べたように、この発明の音声認識装置によれば、音声特徴量系列に基づいた事前信頼度を求め、音声ファイル単位でその事前信頼度を平均した信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることが出来る。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かの判断をすることで、例えばＳ/Ｎ比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。

なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
上記フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する事前信頼度スコア計算部と、
上記音声特徴量系列を入力として音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
請求項１に記載した音声認識装置において、
上記信頼度スコアは、二種以上の音響モデルに基づく事前信頼度を、音声ファイル単位で平均した信頼度スコアの最大値であることを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記事前信頼度は、上記音声特徴量系列に対する二種類以上の音響モデル中の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、上記出力確率が最大の種別の音響モデル中に限定して計算されたモノフォンの出力確率と、上記最大の種別の音響モデル中の音響モデル中の音声モデル又はポーズモデルの最尤状態の出力確率との差、
であることを特徴とする音声認識装置。
請求項１乃至３の何れかに記載した音声認識装置において、
上記事前信頼度を入力として、音声認識処理を行う音声ファイルを選択する制御信号を生成して上記音声認識処理部に出力する認識処理制御部を、
更に備えることを特徴とする音声認識装置。
請求項１乃至３の何れかに記載した音声認識装置において、
複数の音声ファイルの上記事前信頼度から、事前信頼度の高い順番に上記複数の音声ファイルを並び替える音声ファイル処理部と、
事前信頼度の高い順番で音声認識処理を行うソート音声認識処理部と、
を更に備えることを特徴とする音声認識装置。
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
事前信頼度スコア計算部が、上記フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を、当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する事前信頼度スコア計算過程と、
音声認識処理部が、上記音声特徴量系列を入力として音声認識処理を行う音声認識処理過程と、
を含む音声認識方法。
請求項１乃至４の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。