JP5914119B2

JP5914119B2 - 音響モデル性能評価装置とその方法とプログラム

Info

Publication number: JP5914119B2
Application number: JP2012085332A
Authority: JP
Inventors: 太一浅見; 哲小橋川; 浩和政瀧; 和博荒井; 高橋　敏; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-04-04
Filing date: 2012-04-04
Publication date: 2016-05-11
Anticipated expiration: 2032-04-04
Also published as: JP2013214016A

Description

本発明は、音声認識に用いる音響モデルの性能を評価する音響モデル性能評価装置と、その方法とプログラムに関する。

入力された音声データを破棄せずに蓄積する例えばコールセンタ等で利用される音声認識システムにおいて、認識精度を高めるためにシステム運用中のある時点で音響モデルを差し替えることがある。従来その差し替えは、期待される認識精度が得られるまで繰り返し行われていた。

その認識精度の評価には、例えば非特許文献１の８．４節の第２段落に記載されているように、音響モデルの学習に用いていない音声データを利用する方法が広く実施されている。音声認識システムには大量の音声(例えば１０００時間程度)が蓄積される。音響モデルの学習に必要な書き起こしには人手と時間を要するため、学習に利用できる音声データは全体の一部に限られる。

つまり、大量の音声データの内、学習に用いていない音声データの中から、ランダムサンプリング等の方法で例えば２時間程度の一部の音声データを抽出し、抽出した音声データの中で発声されている単語列を人手により書き起こした正解文を作成して性能評価用のデータセット（評価セット）として用いる。

作成した音響モデルを用いて評価セットの音声を音声認識して出力される単語列（認識結果）を得る。そして、正解文と認識結果を比較して認識精度を算出し、未知の音声に対する期待される認識精度とみなす。

鹿野清弘ほか，「ＩＴ TEXT音声認識システム」，（株）オーム社，p.141, 2001.

従来技術で用いる評価セットは認識対象の音声データ全体のごく一部であり、全体の音声データを代表していない場合がある。例えば、評価セットにおけるある音響モデルによる認識精度が９０％であったとしても、未知の音声に対する認識精度が安定して９０％の認識精度で得られることは保証されない。音響モデルの差し替えを、認識精度の安定性が低い状態で行った場合、差し替え以降に入力された認識精度が期待値よりも低くなるケースが増加し、音声認識システムの利便性を低下させる。つまり、従来技術では、評価セットの認識精度は得られるが、未知の音声に対してどの程度安定した認識精度が得られるのか、評価することができない課題があった。

本発明は、このような課題に鑑みてなされたものであり、書き起こしのない全体の音声データに対して音響モデルがどの程度安定したものであるかを、評価できるようにした音響モデル性能評価装置と、その方法とプログラムを提供することを目的とする。

本発明の音響モデル性能評価装置は、学習セット分割部と、音響モデル逐次学習部と、安定性評価セット分割部と、音響モデル性能評価部と、を具備する。学習セット分割部は、音響モデル学習に用いる書き起こし付き音声データである学習セットを、Ｍ個（Ｍ≧２）の学習サブセットＧＳ_ｍ（ｍ＝１〜Ｍの整数）に分割する。音響モデル逐次学習部は、ベース音響モデルと学習サブセットを用いて、学習サブセットを除々に増加させながら学習した音響モデルである学習サブセットの数に対応した逐次学習音響モデル群を出力する。安定性評価セット分割部は、学習セットと異なる音声データを、Ｎ個（Ｎ≧２）の安定性評価セットＡＳ_ｎ（ｎ＝１〜Ｎの整数）に分割する。音響モデル性能評価部は、逐次学習音響モデル群と安定性評価セットＡＳ_ｎを用いて、逐次学習音響モデル群の信頼度を安定性評価セットＡＳ_ｎ毎に求め、当該信頼度のバラツキを表す安定性を算出する。

本発明の音響モデル性能評価装置によれば、ベース音響モデルを学習サブセットを増やしながら学習した学習データ量に対応した音響モデル（逐次学習音響モデル群）毎の、安定性評価セットに対する信頼度のバラツキ度合いを表す安定性を求めることができる。この安定性により、書き起こしが不要な未知の音声データから適切な学習データ量を把握することが可能になる。安定性を評価可能にすることで、人手と時間を要する学習データの書き起こしを必要な少量にすることができ、不要な書き起こしを作成してしまう無駄を排除することができる。

本発明の音響モデル性能評価装置１００の機能構成例を示す図。音響モデル性能評価装置１００の動作フローを示す図。学習サブセットから逐次学習音響モデルが作成される様子を例示する図。音響モデル性能評価部１０４のより具体的な機能構成例を示す図。安定性が収束して行く様子を例示する図。本発明の音響モデル性能評価装置２００の機能構成例を示す図。評価セット選択部２０３のより具体的な機能構成例を示す図。音響モデル性能評価部２０４のより具体的な機能構成例を示す図。安定性と認識率の変化を例示する図。本発明の音響モデル性能評価装置３００の機能構成例を示す図。認識精度評価書き起こし生成部３０１の具体的な機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音響モデル性能評価装置１００の機能構成例を示す。図２にその動作フローを示す。音響モデル性能評価装置１００は、学習セット分割部１０１と、音響モデル逐次学習部１０２と、安定性評価セット分割部１０３と、音響モデル性能評価部１０４と、制御部１０５と、を具備する。各機能構成部は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

学習セット分割部１０１は、音響モデル学習に用いる書き起こし付き音声データである学習セットを、Ｍ個（Ｍ≧２）の学習サブセットＧＳ_ｍ（ｍ＝１〜Ｍの整数）に分割する（ステップＳ１０１）。学習サブセットの分割方法は、例えば音声データを収録された時系列順に並べて連結した後に、先頭から等しい時間間隔でＭ等分する。あるいは、音声データを所定の短い区間に分割してその区間をランダムな順序に並べて連結した後に、先頭から適当な時間間隔でＭ分割する方法でも良い。分割数Ｍに応じて、後述するように音響モデルの性能評価の学習データ量の細かさが変化する。Ｍを大きくすると処理時間が増大する。例えば、音響モデルの学習用の音声データが２０時間あるとすると、Ｍ＝１０として２時間の時間幅の学習セットに分割する。

音響モデル逐次学習部１０２は、ベース音響モデルと学習サブセットＧＳ_ｍを用いて、学習サブセットを除々に増加させながら学習した音響モデルである学習サブセットの数に対応した逐次学習音響モデル群を出力する（ステップＳ１０２）。学習セット分割部１０１でＭ個に分割された学習サブセットから適当な方法（例えばランダムに）で１個の学習サブセットを選択し、選択した学習サブセットを学習データとする。

そして、音響モデル逐次学習部１０２は、ベース音響モデルとその学習データを用いて、例えば参考文献１（j.-L. Gauvain and C.-H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Obervations of Markov Chains,” IEEE trans. On Speech and Audio processing, 2(2), pp.291-298, 1994.）に記載された既存の音響モデル学習アルゴリズムを適用して音響モデルＡ_１を作成する。次に、選択しなかったＭ−１個の学習サブセットから１つの学習サブセットを選択して学習データに追加する。学習サブセット２個分の学習データとベース音響モデルを用いて音響モデルＡ_２を作成する。以上の動作を、全ての学習サブセットの音声データを学習データとする音響モデルＡ_Ｍを作成するまで繰り返す。図３に、Ｍ個の音響モデルＡ_１〜Ａ_Ｍが作成される様子を概念図で示す。学習データが学習サブセット単位で増やされて、逐次学習音響モデルＡ_１〜Ａ_Ｍが作成される。各音響モデルＡ_１〜Ａ_Ｍには、学習に使用した学習データ量も付与されて出力される。なお、図３では、学習サブセットＧＳ_１から順番に学習サブセットの数が増やされて音響モデルＡ_ｍ（ｍ＝１〜Ｍの整数）が作成されるように示しているが、上記したように学習サブセットの順番はランダムに選択しても良い。

安定性評価セット分割部１０３は、学習セットと異なる音声データを、Ｎ個（Ｎ≧２）の安定性評価セットＡＳ_ｎ（ｎ＝１〜Ｎの整数）に分割する（ステップＳ１０３）。安定性評価セット分割部１０３は、分割する対象が評価セットである点で学習セット分割部１０１と異なり、その分割は上記した学習セット分割部１０１と同様な方法で行われる。

音響モデル性能評価部１０４は、逐次学習音響モデル群Ａ_ｍと安定性評価セットＡＳ_ｎを用いて、逐次学習音響モデル群の信頼度を求め、当該信頼度のバラツキを表す安定性を算出する（ステップＳ１０４）。制御部１０５は、各機能構成部の時系列動作と音響モデル性能評価装置１００の全体の動作を制御する。

図４に、音響モデル性能評価部１０４のより具体的な機能構成例を示す。音響モデル性能評価部１０４は、安定性評価セット信頼度計算手段１０４１と、安定性計算手段１０４２と、で構成される。

安定性評価セット信頼度計算手段１０４１は、入力されるＭ個の逐次学習音響モデルＡ_１〜Ａ_Ｍのそれぞれを用いて、Ｎ個の安定性評価セットＡＳ_ｎの各ブロックに対して信頼度を計算する。例えば、ｍ番目の逐次学習音響モデルＡ_ｍを用いたときのｎ番目の安定性評価セットＡＳ_ｎの信頼度Ｃ_ｍ，ｎは以下の手順で計算される。

まず、安定性評価セットＡＳ_ｎ中の各フレームにおける音響特徴量を得る。この処理には既存の音響特徴量抽出技術を用いる。次に、各フレームにおいて、エントロピーを計算する。第ｔフレームでのエントロピーは、次のア〜エの手順で計算される。ア：逐次学習音響モデルＡ_ｍに含まれる全音素のモノフォンモデルの全状態（１音素当たり例えば３状態）について、当該フレームの音響特徴量の出力確率（以下、「各状態の出力確率」と称する）を計算する。イ：手順アで計算した各状態の出力確率の総和を計算する。ウ：手順アで計算した各状態の出力確率のそれぞれの値を、手順イで計算した総和で除して得られる、各状態の事後確率を計算する。エ：手順ウで計算した各状態の事後確率を用いて次式でエントロピーを計算する。

Ｈ_ｍｎｔは、ｍ番目の逐次学習音響モデルＡ_ｍを用いたときのｎ番目の安定性評価セットＡＳ_ｎの第ｔフレームのエントロピーである。Ｏ_ｎｔはｎ番目の安定性評価セットＡＳ_ｎの第ｔフレームの音響特徴量である。ｓ_ｍｉはｍ番目の逐次音響学習モデルＡ_ｍのｉ番目の状態であり、Ｐ（ｓ_ｍｉ｜Ｏ_ｎｔ）は手順ウで計算した状態ｓ_ｍｉの事後確率である。式（１）は、各状態の事後確率に事後確率の対数を乗じた値を全状態について足し合わせ、符号を反転した値を表す。

対数の底は一定の値（例えば２）を用いれば良い。常に同じ値であれば２以外の底を用いても良い。事後確率Ｐ（ｓ_ｍｉ｜Ｏ_ｎｔ）＝０の場合、Ｐ（ｓ_ｍｉ｜Ｏ_ｎｔ）ｌｏｇＰ（ｓ_ｍｉ｜Ｏ_ｎｔ）は０として計算する。

手順エで得られた各フレームのエントロピーの平均値をｍ番目の逐次学習音響モデルＡ_ｍを用いたときの安定性評価セットＡＳ_ｎ毎の信頼度Ｃ_ｍ，ｎとする。このエントロピーは事後確率が特定の状態に偏っているほど小さい値となる尺度であり、ある一つの状態で事後確率が１、残りの状態で０となる（最も偏っている）場合にエントロピーは最小値０となる。音響モデルが音響特徴量とマッチし、音響特徴量を出力した状態を少数に特定できるほどエントロピーが小さくなるため、信頼度Ｃ_ｍ，ｎは安定性評価セットのｎ番目のブロックに、逐次学習音響モデルＡ_ｍがどの程度マッチしているかを表す尺度となる。

１個の逐次学習音響モデルＡ_ｍにつきＮ個、合計Ｍ×Ｎ個の信頼度を計算し、各逐次学習音響モデルＡ_ｍの信頼度として出力する。

安定性計算手段１０４２は、ｍ番目の逐次学習音響モデルＡ_ｍを用いたときの各安定性評価セットＡＳ_ｎの信頼度Ｃ_ｍ，１，Ｃ_ｍ，２，…，Ｃ_ｍ，Ｎの標準偏差を、逐次学習音響モデルＡ_ｍの信頼度Ｃ_ｍ，ｎのバラツキを示す安定性Ｓ_ｍとして計算する。安定性Ｓ_ｍ（標準偏差の値）が小さい（０に近い）ほど逐次学習音響モデルＡ_ｍの性能が安定しており、未知の音声データに対しても、安定した認識率を得られ易いことを表す。なお、安定性Ｓ_ｍが大きいほど逐次学習音響モデルＡ_ｍの性能が安定していることを表すように、安定性Ｓ_ｍを、標準偏差値の逆数で表現しても良い。

また、音響モデル性能評価部１０４内に、破線で示すように平均値計算手段１０４３を設け、逐次学習音響モデルＡ_ｍ毎に各安定性評価セットＡＳ_ｎの信頼度Ｃ_ｍ，ｎの平均値￣Ｃ_ｍを計算して、安定性Ｓ_ｍと共に出力するようにしても良い。信頼度の平均値￣Ｃ_ｍを評価することで、学習データ量の過不足をより適切に判断することが可能となる。

なお、信頼度Ｃ_ｍ，ｎの計算は、このエントロピーに限定されない。例えば、参考文献２（小橋川哲，浅見太一ほか「事前信頼度推定に基づく音声認識対象データ選択」日本音響学会講演論文集，2010年3月）に記載された事前信頼度スコアＣＳを計算して、信頼度としても良い。

また、逐次学習音響モデル群の数を、学習サブセットの数であるＭ個と同じ数とする例で説明したが、逐次学習音響モデル群の数を学習サブセットの全数と合わせる必要はない。例えば、逐次学習音響モデル群の数をＭ−ｍ個（ｍはＭより小さな整数）としても良い。つまり、学習サブセットの数に対応した数の逐次学習音響モデル群であれば良い。

音響モデル性能評価部１０４が出力する安定性によって、学習サブセットＧＳ_ｍの数に対応した逐次学習音響モデル群Ａ_ｍの信頼度Ｃ_ｍ，ｎのバラツキが、学習データ量の増加に伴って収束して行く様子を知ることが出来る。

図５に、安定性Ｓ_ｍが収束して行く様子を例示する。横軸は学習サブセットＧＳ_ｍの数によって変化する学習データ量であり、縦軸は安定性である。安定性Ｓ_ｍを信頼度Ｃ_ｍ，ｎの標準偏差とした場合は学習データ量の増加に伴ってその値は減少する方向に変化し、標準偏差の逆数の場合は増加する方向に変化する。

このように音響モデル性能評価装置１００によれば、書き起こしが不要な未知の音声データを用いて音響モデルの性能の安定性を評価することができる。従って、音響モデルを、安定性の低い音響モデルに差し替えてしまい、音声認識システムの利便性を低下させてしまう問題を防止することが可能である。また、一般的に、学習データの量を増やし、より多くのパターンを音響モデルに学習させることによって、音響モデルの性能の安定性は向上するが、安定性を評価できなければどの程度まで学習データを増やすべきなのかが判断できない。安定性が収束する点を知ることができるので、その収束する学習データ量で学習した逐次学習音響モデルＡ_ｍを採用することで、安定した音声認識処理を行うことができる。つまり、適切な学習データ量を容易に把握することが可能になる。また、安定性を評価することで、手間のかかる学習データの書き起こしを必要な少量にすることができ、不要な書き起こしを作成してしまう無駄を排除することができる。

図６に、この発明の音響モデル性能評価装置２００の機能構成例を示す。音響モデル性能評価装置２００は、学習セット分割部１０１と、音響モデル逐次学習部１０２と、評価セット選択部２０３と、音響モデル性能評価部２０４と、制御部２０５と、具備する。各機能構成部は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

学習セット分割部１０１と音響モデル逐次学習部１０２は、参照符号から明らかなように音響モデル性能評価装置１００と同じものである。音響モデル性能評価装置２００は、上記した音響モデル性能評価装置１００に対して、評価セット選択部２０３と音響モデル性能評価部２０４とが異なる。

評価セット選択部２０３は、学習セットと異なる音声データ（書き起こし無し）を、書き起こしが可能な時間長の音声に分割してＮ個の評価サブセットを生成し、Ｎ個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度を計算し、平均的な信頼度Ｃ_ｎの評価サブセットを認識精度評価セットとして選択する。そして、当該認識精度評価セット以外のＮ−１個の評価サブセットを安定性評価セットとし、１個の認識精度評価セットと、Ｎ−１個の安定性評価セットとを出力する。

音響モデル性能評価部２０４は、認識精度評価セットと当該認識精度評価セットの書き起こしと上記Ｍ個の逐次学習音響モデル群とＮ−１個の上記安定性評価セットとを入力として、逐次学習音響モデル群と安定性評価セットＡＳ_ｎを用いて、逐次学習音響モデル群の信頼度を安定性評価セットＡＳ_ｎ毎に求めて当該信頼度のバラツキを表す安定性を算出すると共に、認識精度評価セットをＭ個の逐次学習音響モデル群を用いて音声認識した結果の認識率を求め、上記学習サブセットのデータ量毎の上記認識率と上記安定性の値を音響モデル性能として出力する。

このように音響モデル性能評価装置２００によれば、音響モデル性能評価装置１００で得られた信頼度の安定性に加えて、認識精度評価セットに対する逐次学習音響モデル群毎の認識率も得ることができる。つまり、音響モデル性能評価装置２００では、認識率も考慮することで、安定した音声認識処理が期待できる学習データ量をより適切に把握することが可能になる。

次に、評価セット選択部２０３と音響モデル性能評価部２０４のそれぞれのより具体的な機能構成例を示して更に詳しく説明する。

図７に、評価セット選択部２０３のより具体的な機能構成例を示す。評価セット選択部２０３は、評価セット分割手段２０３０と、信頼度計算手段２０３１と、認識精度評価セット選択部２０３２と、を具備する。

評価セット分割手段２０３０は、学習セットと異なる音声データである評価セットから、書き起こしが可能な時間長のＮ個の音声に分割した評価サブセットを作成する。例えば、書き起こし可能な量を２時間とし、評価セット全体のデータ量を９８０時間とした場合、Ｎ＝４９０個の評価サブセットが作成される。分割方法としては、評価セットに含まれる音声を収録された時間系列順に並べて連結したのち、先頭からＮ分割する、若しくは、評価セットに含まれる音声を例えば５〜１０分程度の所定の短い区間に分割したのち、分割された区間をランダムな順序に並べて連結したのちに、先頭からＮ分割する方法でも良い。

信頼度計算手段２０３１は、入力されるＮ個の評価サブセットの各ブロックに対して、ベース音響モデルを用いて信頼度Ｃ_ｎを計算する。信頼度Ｃ_ｎは、上記した音響モデル性能評価部１０４で行われる計算方法と同じ方法で計算され、Ｎ個の評価サブセットにそれぞれ付与される。

認識精度評価セット選択手段２０３２は、入力されたＮ個の信頼度付き評価サブセットに付与された信頼度Ｃ_ｎの平均値Ｃ_ａｖｅを計算する。そして、平均値Ｃ_ａｖｅに最も近い信頼度Ｃ_ｎの評価サブセットを認識精度評価セットとして選択すると共に、その認識精度評価セットと残りのＮ−１個の評価サブセットを安定性評価セットとして出力する。ここで、平均値付近の信頼度の評価サブセットを認識精度評価セットとして選択することで、後述する認識率計算手段において、評価セット全体の平均付近の認識率を得ることができる。

図８に、音響モデル性能評価部２０４のより具体的な機能構成例を示す。音響モデル性能評価部２０４は、音響モデル毎認識率計算部２０４０と音響モデル毎安定性計算部２０５０とで構成される。音響モデル毎認識率計算部２０４０は、音声認識手段２０４１と認識率計算手段２０４２とを備える。音響モデル毎安定性計算部２０５０は、安定性評価セット信頼度計算手段１０４１と安定性計算手段１０４２とで構成され、上記した音響モデル性能評価部１０４と同じものである。図８では省略しているが、音響モデル性能評価部１０４と同様に、音響モデル毎安定性計算部２０５０に平均値計算手段１０４３を設け、逐次学習音響モデルＡ_ｍ毎の各安定性評価セットＡＳ_ｎの信頼度の平均値￣Ｃ_ｍを計算するようにしても良い。

音声認識手段２０４１は、入力される認識精度評価セットの音声データを、Ｍ個の逐次学習音響モデルＡ_１〜Ａ_Ｍのそれぞれを用いて音声認識を行い、得られたＭ個の各逐次学習音響モデルＡ_ｍによる認識精度評価セットの認識結果を出力する。音声認識手段２０４１には、例えば参考文献３（政瀧浩和ほか，“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」,ＮＴＴ技術ジャーナル，Vol.18,No.11,pp.15-18,2006.）に記載された既存の技術を用いる。

認識率計算手段２０４２は、認識精度評価セットの書き起こし（正解文）を用いてＭ個の認識結果のそれぞれの認識率Ｒ_１〜Ｒ_Ｍを計算する。認識精度評価セットは、ここでは評価セット選択部２０３で選択された認識精度評価セットの音声を人が書き起こしたものを用いる。認識率としては、例えば単語誤り率を１００から減算した値である単語正解精度を用いる。単語誤り率の計算方法は、例えば参考文献４（X. Huang, A. Acero and H.-W. Hon, “Spoken Language Processing,” Prentice Hall,pp.419-421,2001.）に記載されている方法を用いることができる。

安定性評価セット信頼度計算手段１０４１は、入力されるＭ個の逐次学習音響モデルＡ_１〜Ａ_Ｍのそれぞれを用いて、Ｎ−１個の安定性評価セットＡＳ_ｎの各ブロックに対して信頼度を計算する。信頼度の計算は、音響モデル性能評価部１０４で説明した方法と同じ方法で行う。１個の逐次学習音響モデルＡ_ｍにつきＮ−１個、合計Ｍ×（Ｎ−１）個の信頼度を計算し、各逐次学習音響モデルＡ_ｍの信頼度として出力する。ｍ番目の逐次学習音響モデルＡ_ｍを用いて算出したｎブロックの安定性評価セットＡＳ_ｎの信頼度をＣ_ｍ，ｎと表記する。

安定性計算手段１０４２は、各安定性評価セットＡＳ_ｎの信頼度Ｃ_ｍ，ｎの標準偏差を、逐次学習音響モデルＡ_ｍの安定性Ｓ_ｍとして計算する。標準偏差の値が小さい（０に近い）ほど逐次学習音響モデルＡ_ｍの性能が安定しており、認識精度評価セット以外の音声データに対しても、安定した認識率を得られ易いことを表す。なお、安定性の指標を、標準偏差値の逆数で表現しても良い。

以上説明したように音響モデル性能評価部２０４は、入力されたＭ個の逐次学習音響モデル群の音響モデル毎に、付与されている学習データ量と、各音響モデルの認識率と、その安定性の３つの指標をセットにした音響モデル性能を出力する。このＭ個の音響モデル性能を見ることで、学習データ量を追加すべきか、追加をしないで音響モデルを差し替えるかの判断を行うことが可能である。

音響モデル毎認識率計算部２０４０が計算するＭ個の認識率Ｒ_１〜Ｒ_Ｍは、学習サブセットを１個からＭ個まで除々に増加させながら学習した逐次学習音響モデル群にそれぞれ対応した認識率であるので、学習データ量に対応した認識率である。よって、音響モデル性能評価装置２００によれば、上記した音響モデル性能評価装置１００で安定性の値が安定する（収束する点）学習データ量を知ることができるのに加えて、学習データ量に対応する認識率も得ることができる。

図９に、音響モデル性能評価装置２００が出力する安定性と認識率の一例を示す。横軸は学習データ量、縦軸は認識率と標準偏差値である。このように音響モデル性能評価装置２００によれば、学習データ量によって変化する安定性と認識率を知ることができる。

図９の例では、学習データ量を増加させ、認識率の上昇度合いが緩やかになって来たとしても、安定性は向上（Ｓ_ｍ→小）し続けている。この特性からは、「現在の学習データ量で認識率は上限近くに達しているが安定性にはまだ向上の余地があるため、更に学習データ量を増やす」という判断が可能であり、学習データ不足のために安定性が低い音響モデルに差し替えてしまうリスクを減らすことができる。つまり、安定性が向上し切らない内に音響モデルを差し替えてしまうことを防止することができる。

更に学習データを増加させ、図９の右端近くのように、認識率も安定性も向上の度合いが緩やかになって来た時点で、「認識率、安定性ともに上限近くに達しているため、学習データの追加を行わずに、同じ音響モデルを使用し続ける」という判断も可能である。このように、本発明の音響モデル性能評価装置によれば、多くの書き起こしを作成してしまう無駄を減らすことができる。

図１０に、この発明の音響モデル性能評価装置３００の機能構成例を示す。音響モデル性能評価装置３００は、学習セット分割部１０１と、音響モデル逐次学習部１０２と、評価セット選択部２０３と、認識精度評価書き起こし生成部３０１と、音響モデル性能評価部２０４′と、制御部３０５と、具備する。各機能構成部は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

学習セット分割部１０１と音響モデル逐次学習部１０２と評価セット選択部２０３は、参照符号から明らかなように音響モデル性能評価装置２００と同じものである。音響モデル性能評価装置３００は、上記した音響モデル性能評価装置１００に対して、認識精度評価書き起こし生成部３０１を備える点と、音響モデル性能評価分２０４′が認識精度評価書き起こし生成部３０１で生成した書き起こし（正解文）を用いて認識率を計算する点とが異なる。

認識精度評価書き起こし生成部３０１は、評価セット選択部２０３が出力する認識精度評価セットを入力として、当該認識精度評価セットの書き起こしを生成して音響モデル性能評価部２０４′に出力する。認識精度評価書き起こし生成部３０１は、評価セット選択部２０３が出力する認識精度評価セットの音声データを入力とする２個以上の音声認識手段を備える。

図１１に、認識精度評価書き起こし生成部３０１の機能構成例を示す。認識精度評価書き起こし生成部３０１は、第１音声認識手段３０１０と、第２音声認識手段３０１１と、書き起こし生成手段３０１２と、を具備する。音声認識手段は、図中に…で示すように２個以上の数あっても良い。第１音声認識手段３０１０と第２音声認識手段３０１１とは、例えば用いる音響モデルの状態数が異なるものであり、認識条件が両者間で異なるものである。

第１音声認識手段３０１０と第２音声認識手段３０１１は、認識精度評価セットの音声データを、異なる認識条件を用いて音声認識した第１文字列と第２文字列をそれぞれ出力する。書き起こし生成手段３０１２は、第１文字列と第２文字列とを入力として、両者の間で一致する単語列を認識精度評価セットの書き起こしとして生成する。

書き起こし生成手段３０１２が出力する単語列は、不一致な単語を含まないので完全な文章として成り立たないものである。しかし、異なる音声認識手段で音声認識した結果が一致する単語列は、正しい単語列であると推定することができる。

音響モデル性能評価部２０４′は、その正しい書き起こしと推定できる単語列のみを用いて認識率を計算する。認識率と安定性の計算方法は音響モデル性能評価部２０４と同じである。

音響モデル性能評価装置３００によれば、認識精度評価セットの書き起こしを自動的に生成することが可能になるので、全自動で望んだ音声認識処理を行うことができる適切な学習データ量を把握することが可能になる。

以上述べたように、本発明の音響モデル性能評価装置によれば、未知の音声に対してどの程度安定した認識精度が得られるのか評価することができない従来技術の課題を、解決することができる。

なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音響モデル学習に用いる書き起こし付き音声データである学習セットを、Ｍ個（Ｍ≧２）の学習サブセットＧＳ_ｍ（ｍ＝１〜Ｍの整数）に分割する学習セット分割部と、
ベース音響モデルと上記学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習部と、
上記学習セットと異なる音声データを、Ｎ個（Ｎ≧２）の安定性評価セットＡＳ_ｎ（ｎ＝１〜Ｎの整数）に分割する安定性評価セット分割部と、
上記逐次学習音響モデル群と上記安定性評価セットＡＳ_ｎを用いて、上記逐次学習音響モデル群の逐次学習音響モデル毎の信頼度を上記安定性評価セットＡＳ_ｎ毎に求め、当該信頼度のバラツキを表す安定性を算出する音響モデル性能評価部と、
を具備し、
上記音響モデル性能評価部は、上記安定性評価セットＡＳ_ｎ中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルと上記安定性評価セットＡＳ _ｎを用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をｍ番目の逐次学習音響モデルＡ_ｍを用いたときの安定性評価セットＡＳ_ｎの信頼度とする、
音響モデル性能評価装置。
音響モデル学習に用いる書き起こし付き音声データである学習セットを、Ｍ個（Ｍ≧２）の学習サブセットＧＳ_ｍ（ｍ＝１〜Ｍの整数）に分割する学習セット分割部と、
ベース音響モデルと学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習部と、
上記学習セットと異なる音声データを、書き起こしが可能な時間長の音声に分割してＮ個の評価サブセットを生成し、Ｎ個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度Ｃ_ｎを計算し、平均的な信頼度Ｃ_ａｖｅの値に近い信頼度Ｃ_ｎの評価サブセットを認識精度評価セットとして選択し、当該認識精度評価セット以外のＮ−１個の評価サブセットを安定性評価セットＡＳ_ｎとし、１個の上記認識精度評価セットとＮ−１個の上記安定性評価セットＡＳ_ｎを出力する評価セット選択部と、
上記認識精度評価セットと当該認識精度評価セットの書き起こしである正解文と上記Ｍ個の逐次学習音響モデル群とＮ−１個の上記安定性評価セットＡＳ_ｎとを入力として、上記逐次学習音響モデル群と上記安定性評価セットＡＳ_ｎを用いて、上記逐次学習音響モデル群の逐次学習音響モデルＡ_ｍ毎の信頼度Ｃ_ｍ，ｎを求め、当該信頼度Ｃ_ｍ，ｎのバラツキを表す安定性Ｓ_ｍを算出すると共に、上記認識精度評価セットをＭ個の逐次学習音響モデル群の逐次学習音響モデルＡ_ｍを用いて音声認識した結果と当該認識精度評価セットの書き起こしである正解文とを用いて上記逐次学習音響モデルＡ_ｍ毎の認識率Ｒ_ｍを求め、当該認識率Ｒ_ｍと上記安定性Ｓ_ｍの値を音響モデル性能として出力する音響モデル性能評価部と、
を具備し、
上記音響モデル性能評価部は、上記安定性評価セットＡＳ_ｎ中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルとＡ _ｍ上記安定性評価セットＡＳ _ｎを用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をｍ番目の逐次学習音響モデルＡ_ｍを用いたときの安定性評価セットＡＳ_ｎの信頼度とする、
音響モデル性能評価装置。
請求項２に記載した音響モデル性能評価装置において、
更に、上記認識精度評価セットの書き起こしを生成する認識精度評価書き起こし生成部を具備し、
当該認識精度評価書き起こし生成部は、上記評価セット選択部が出力する上記認識精度評価セットの音声データを入力とする２個以上の音声認識手段と、当該音声認識手段が出力する文字列間で一致する単語列を認識精度評価セットの書き起こしとして生成する書き起こし生成手段と、
を備えることを特徴とする音響モデル性能評価装置。
学習セット分割部が、音響モデル学習に用いる書き起こし付き音声データである学習セットを、Ｍ個（Ｍ≧２）の学習サブセットＧＳ_ｍ（ｍ＝１〜Ｍの整数）に分割する学習セット分割過程と、
音響モデル逐次学習部が、ベース音響モデルと上記学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習過程と、
安定性評価セット分割部が、上記学習セットと異なる音声データを、Ｎ個（Ｎ≧２）の安定性評価セットＡＳ_ｎ（ｎ＝１〜Ｎの整数）に分割する安定性評価セット分割過程と、
音響モデル性能評価部が、上記逐次学習音響モデル群と上記安定性評価セットＡＳ_ｎを用いて、上記逐次学習音響モデル群の逐次学習音響モデル毎の信頼度を上記安定性評価セットＡＳ_ｎ毎に求め、当該信頼度のバラツキを表す安定性を算出する音響モデル性能評価過程と、
を備え、
上記音響モデル性能評価過程において、上記安定性評価セットＡＳ_ｎ中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルと上記安定性評価セットＡＳ _ｎを用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をｍ番目の逐次学習音響モデルＡ_ｍを用いたときの安定性評価セットＡＳ_ｎの信頼度とする、
音響モデル性能評価方法。
学習セット分割部が、音響モデル学習に用いる書き起こし付き音声データである学習セットを、Ｍ個（Ｍ≧２）の学習サブセットＧＳ_ｍ（ｍ＝１〜Ｍの整数）に分割する学習セット分割過程と、
音響モデル逐次学習部が、ベース音響モデルと学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習過程と、
評価セット選択部が、上記学習セットと異なる音声データを、書き起こしが可能な時間長の音声に分割してＮ個の評価サブセットを生成し、Ｎ個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度Ｃ_ｎを計算し、平均的な信頼度Ｃ_ａｖｅの値に近い信頼度Ｃ_ｎの評価サブセットを認識精度評価セットとして選択し、当該認識精度評価セット以外のＮ−１個の評価サブセットを安定性評価セットＡＳ_ｎとし、１個の上記認識精度評価セットとＮ−１個の上記安定性評価セットＡＳ_ｎを出力する評価セット選択過程と、
音響モデル性能評価部が、上記認識精度評価セットと当該認識精度評価セットの書き起こしである正解文と上記Ｍ個の逐次学習音響モデル群とＮ−１個の上記安定性評価セットＡＳ_ｎとを入力として、上記逐次学習音響モデル群と上記安定性評価セットＡＳ_ｎを用いて、上記逐次学習音響モデル群の逐次学習音響モデルＡ_ｍ毎の信頼度Ｃ_ｍ，ｎを求め、当該信頼度Ｃ_ｍ，ｎのバラツキを表す安定性Ｓ_ｍを算出すると共に、上記認識精度評価セットをＭ個の逐次学習音響モデル群の逐次学習音響モデルＡ_ｍを用いて音声認識した結果と当該認識精度評価セットの書き起こしである正解文とを用いて上記逐次学習音響モデルＡ_ｍ毎の認識率Ｒ_ｍを求め、当該認識率Ｒ_ｍと上記安定性Ｓ_ｍの値を音響モデル性能として出力する音響モデル性能評価過程と、
を備え、
上記音響モデル性能評価過程において、上記安定性評価セットＡＳ_ｎ中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルＡ _ｍと上記安定性評価セットＡＳ _ｎを用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をｍ番目の逐次学習音響モデルＡ_ｍを用いたときの安定性評価セットＡＳ_ｎの信頼度とする、
音響モデル性能評価方法。
請求項５に記載した音響モデル性能評価方法において、
更に、上記認識精度評価セットの書き起こしを生成する認識精度評価書き起こし生成過程を備え、
当該認識精度評価書き起こし生成過程は、上記評価セット選択部が出力する上記認識精度評価セットの音声データを入力とする２個以上の音声認識ステップと、当該音声認識手段が出力する文字列間で一致する単語列を認識精度評価セットの書き起こしとして生成する書き起こし生成ステップと、
を含むことを特徴とする音響モデル性能評価方法。
請求項１乃至３の何れかに記載した音響モデル性能評価装置としてコンピュータを機能させるためのプログラム。