JP5914119B2 - 音響モデル性能評価装置とその方法とプログラム - Google Patents

音響モデル性能評価装置とその方法とプログラム Download PDF

Info

Publication number
JP5914119B2
JP5914119B2 JP2012085332A JP2012085332A JP5914119B2 JP 5914119 B2 JP5914119 B2 JP 5914119B2 JP 2012085332 A JP2012085332 A JP 2012085332A JP 2012085332 A JP2012085332 A JP 2012085332A JP 5914119 B2 JP5914119 B2 JP 5914119B2
Authority
JP
Japan
Prior art keywords
learning
acoustic model
evaluation
stability
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012085332A
Other languages
English (en)
Other versions
JP2013214016A (ja
Inventor
太一 浅見
太一 浅見
哲 小橋川
哲 小橋川
浩和 政瀧
浩和 政瀧
和博 荒井
和博 荒井
高橋 敏
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012085332A priority Critical patent/JP5914119B2/ja
Publication of JP2013214016A publication Critical patent/JP2013214016A/ja
Application granted granted Critical
Publication of JP5914119B2 publication Critical patent/JP5914119B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識に用いる音響モデルの性能を評価する音響モデル性能評価装置と、その方法とプログラムに関する。
入力された音声データを破棄せずに蓄積する例えばコールセンタ等で利用される音声認識システムにおいて、認識精度を高めるためにシステム運用中のある時点で音響モデルを差し替えることがある。従来その差し替えは、期待される認識精度が得られるまで繰り返し行われていた。
その認識精度の評価には、例えば非特許文献1の8.4節の第2段落に記載されているように、音響モデルの学習に用いていない音声データを利用する方法が広く実施されている。音声認識システムには大量の音声(例えば1000時間程度)が蓄積される。音響モデルの学習に必要な書き起こしには人手と時間を要するため、学習に利用できる音声データは全体の一部に限られる。
つまり、大量の音声データの内、学習に用いていない音声データの中から、ランダムサンプリング等の方法で例えば2時間程度の一部の音声データを抽出し、抽出した音声データの中で発声されている単語列を人手により書き起こした正解文を作成して性能評価用のデータセット(評価セット)として用いる。
作成した音響モデルを用いて評価セットの音声を音声認識して出力される単語列(認識結果)を得る。そして、正解文と認識結果を比較して認識精度を算出し、未知の音声に対する期待される認識精度とみなす。
鹿野清弘ほか,「IT TEXT音声認識システム」,(株)オーム社,p.141, 2001.
従来技術で用いる評価セットは認識対象の音声データ全体のごく一部であり、全体の音声データを代表していない場合がある。例えば、評価セットにおけるある音響モデルによる認識精度が90%であったとしても、未知の音声に対する認識精度が安定して90%の認識精度で得られることは保証されない。音響モデルの差し替えを、認識精度の安定性が低い状態で行った場合、差し替え以降に入力された認識精度が期待値よりも低くなるケースが増加し、音声認識システムの利便性を低下させる。つまり、従来技術では、評価セットの認識精度は得られるが、未知の音声に対してどの程度安定した認識精度が得られるのか、評価することができない課題があった。
本発明は、このような課題に鑑みてなされたものであり、書き起こしのない全体の音声データに対して音響モデルがどの程度安定したものであるかを、評価できるようにした音響モデル性能評価装置と、その方法とプログラムを提供することを目的とする。
本発明の音響モデル性能評価装置は、学習セット分割部と、音響モデル逐次学習部と、安定性評価セット分割部と、音響モデル性能評価部と、を具備する。学習セット分割部は、音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGS(m=1〜Mの整数)に分割する。音響モデル逐次学習部は、ベース音響モデルと学習サブセットを用いて、学習サブセットを除々に増加させながら学習した音響モデルである学習サブセットの数に対応した逐次学習音響モデル群を出力する。安定性評価セット分割部は、学習セットと異なる音声データを、N個(N≧2)の安定性評価セットAS(n=1〜Nの整数)に分割する。音響モデル性能評価部は、逐次学習音響モデル群と安定性評価セットASを用いて、逐次学習音響モデル群の信頼度を安定性評価セットAS毎に求め、当該信頼度のバラツキを表す安定性を算出する。
本発明の音響モデル性能評価装置によれば、ベース音響モデルを学習サブセットを増やしながら学習した学習データ量に対応した音響モデル(逐次学習音響モデル群)毎の、安定性評価セットに対する信頼度のバラツキ度合いを表す安定性を求めることができる。この安定性により、書き起こしが不要な未知の音声データから適切な学習データ量を把握することが可能になる。安定性を評価可能にすることで、人手と時間を要する学習データの書き起こしを必要な少量にすることができ、不要な書き起こしを作成してしまう無駄を排除することができる。
本発明の音響モデル性能評価装置100の機能構成例を示す図。 音響モデル性能評価装置100の動作フローを示す図。 学習サブセットから逐次学習音響モデルが作成される様子を例示する図。 音響モデル性能評価部104のより具体的な機能構成例を示す図。 安定性が収束して行く様子を例示する図。 本発明の音響モデル性能評価装置200の機能構成例を示す図。 評価セット選択部203のより具体的な機能構成例を示す図。 音響モデル性能評価部204のより具体的な機能構成例を示す図。 安定性と認識率の変化を例示する図。 本発明の音響モデル性能評価装置300の機能構成例を示す図。 認識精度評価書き起こし生成部301の具体的な機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音響モデル性能評価装置100の機能構成例を示す。図2にその動作フローを示す。音響モデル性能評価装置100は、学習セット分割部101と、音響モデル逐次学習部102と、安定性評価セット分割部103と、音響モデル性能評価部104と、制御部105と、を具備する。各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
学習セット分割部101は、音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGS(m=1〜Mの整数)に分割する(ステップS101)。学習サブセットの分割方法は、例えば音声データを収録された時系列順に並べて連結した後に、先頭から等しい時間間隔でM等分する。あるいは、音声データを所定の短い区間に分割してその区間をランダムな順序に並べて連結した後に、先頭から適当な時間間隔でM分割する方法でも良い。分割数Mに応じて、後述するように音響モデルの性能評価の学習データ量の細かさが変化する。Mを大きくすると処理時間が増大する。例えば、音響モデルの学習用の音声データが20時間あるとすると、M=10として2時間の時間幅の学習セットに分割する。
音響モデル逐次学習部102は、ベース音響モデルと学習サブセットGSを用いて、学習サブセットを除々に増加させながら学習した音響モデルである学習サブセットの数に対応した逐次学習音響モデル群を出力する(ステップS102)。学習セット分割部101でM個に分割された学習サブセットから適当な方法(例えばランダムに)で1個の学習サブセットを選択し、選択した学習サブセットを学習データとする。
そして、音響モデル逐次学習部102は、ベース音響モデルとその学習データを用いて、例えば参考文献1(j.-L. Gauvain and C.-H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Obervations of Markov Chains,” IEEE trans. On Speech and Audio processing, 2(2), pp.291-298, 1994.)に記載された既存の音響モデル学習アルゴリズムを適用して音響モデルAを作成する。次に、選択しなかったM−1個の学習サブセットから1つの学習サブセットを選択して学習データに追加する。学習サブセット2個分の学習データとベース音響モデルを用いて音響モデルAを作成する。以上の動作を、全ての学習サブセットの音声データを学習データとする音響モデルAを作成するまで繰り返す。図3に、M個の音響モデルA〜Aが作成される様子を概念図で示す。学習データが学習サブセット単位で増やされて、逐次学習音響モデルA〜Aが作成される。各音響モデルA〜Aには、学習に使用した学習データ量も付与されて出力される。なお、図3では、学習サブセットGSから順番に学習サブセットの数が増やされて音響モデルA(m=1〜Mの整数)が作成されるように示しているが、上記したように学習サブセットの順番はランダムに選択しても良い。
安定性評価セット分割部103は、学習セットと異なる音声データを、N個(N≧2)の安定性評価セットAS(n=1〜Nの整数)に分割する(ステップS103)。安定性評価セット分割部103は、分割する対象が評価セットである点で学習セット分割部101と異なり、その分割は上記した学習セット分割部101と同様な方法で行われる。
音響モデル性能評価部104は、逐次学習音響モデル群Aと安定性評価セットASを用いて、逐次学習音響モデル群の信頼度を求め、当該信頼度のバラツキを表す安定性を算出する(ステップS104)。制御部105は、各機能構成部の時系列動作と音響モデル性能評価装置100の全体の動作を制御する。
図4に、音響モデル性能評価部104のより具体的な機能構成例を示す。音響モデル性能評価部104は、安定性評価セット信頼度計算手段1041と、安定性計算手段1042と、で構成される。
安定性評価セット信頼度計算手段1041は、入力されるM個の逐次学習音響モデルA〜Aのそれぞれを用いて、N個の安定性評価セットASの各ブロックに対して信頼度を計算する。例えば、m番目の逐次学習音響モデルAを用いたときのn番目の安定性評価セットASの信頼度Cm,nは以下の手順で計算される。
まず、安定性評価セットAS中の各フレームにおける音響特徴量を得る。この処理には既存の音響特徴量抽出技術を用いる。次に、各フレームにおいて、エントロピーを計算する。第tフレームでのエントロピーは、次のア〜エの手順で計算される。ア:逐次学習音響モデルAに含まれる全音素のモノフォンモデルの全状態(1音素当たり例えば3状態)について、当該フレームの音響特徴量の出力確率(以下、「各状態の出力確率」と称する)を計算する。イ:手順アで計算した各状態の出力確率の総和を計算する。ウ:手順アで計算した各状態の出力確率のそれぞれの値を、手順イで計算した総和で除して得られる、各状態の事後確率を計算する。エ:手順ウで計算した各状態の事後確率を用いて次式でエントロピーを計算する。
Figure 0005914119
mntは、m番目の逐次学習音響モデルAを用いたときのn番目の安定性評価セットASの第tフレームのエントロピーである。Ontはn番目の安定性評価セットASの第tフレームの音響特徴量である。smiはm番目の逐次音響学習モデルAのi番目の状態であり、P(smi|Ont)は手順ウで計算した状態smiの事後確率である。式(1)は、各状態の事後確率に事後確率の対数を乗じた値を全状態について足し合わせ、符号を反転した値を表す。
対数の底は一定の値(例えば2)を用いれば良い。常に同じ値であれば2以外の底を用いても良い。事後確率P(smi|Ont)=0の場合、P(smi|Ont)logP(smi|Ont)は0として計算する。
手順エで得られた各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAを用いたときの安定性評価セットAS毎の信頼度Cm,nとする。このエントロピーは事後確率が特定の状態に偏っているほど小さい値となる尺度であり、ある一つの状態で事後確率が1、残りの状態で0となる(最も偏っている)場合にエントロピーは最小値0となる。音響モデルが音響特徴量とマッチし、音響特徴量を出力した状態を少数に特定できるほどエントロピーが小さくなるため、信頼度Cm,nは安定性評価セットのn番目のブロックに、逐次学習音響モデルAがどの程度マッチしているかを表す尺度となる。
1個の逐次学習音響モデルAにつきN個、合計M×N個の信頼度を計算し、各逐次学習音響モデルAの信頼度として出力する。
安定性計算手段1042は、m番目の逐次学習音響モデルAを用いたときの各安定性評価セットASの信頼度Cm,1,Cm,2,…,Cm,Nの標準偏差を、逐次学習音響モデルAの信頼度Cm,nのバラツキを示す安定性Sとして計算する。安定性S(標準偏差の値)が小さい(0に近い)ほど逐次学習音響モデルAの性能が安定しており、未知の音声データに対しても、安定した認識率を得られ易いことを表す。なお、安定性Sが大きいほど逐次学習音響モデルAの性能が安定していることを表すように、安定性Sを、標準偏差値の逆数で表現しても良い。
また、音響モデル性能評価部104内に、破線で示すように平均値計算手段1043を設け、逐次学習音響モデルA毎に各安定性評価セットASの信頼度Cm,nの平均値 ̄Cを計算して、安定性Sと共に出力するようにしても良い。信頼度の平均値 ̄Cを評価することで、学習データ量の過不足をより適切に判断することが可能となる。
なお、信頼度Cm,nの計算は、このエントロピーに限定されない。例えば、参考文献2(小橋川哲,浅見太一ほか「事前信頼度推定に基づく音声認識対象データ選択」日本音響学会講演論文集,2010年3月)に記載された事前信頼度スコアCSを計算して、信頼度としても良い。
また、逐次学習音響モデル群の数を、学習サブセットの数であるM個と同じ数とする例で説明したが、逐次学習音響モデル群の数を学習サブセットの全数と合わせる必要はない。例えば、逐次学習音響モデル群の数をM−m個(mはMより小さな整数)としても良い。つまり、学習サブセットの数に対応した数の逐次学習音響モデル群であれば良い。
音響モデル性能評価部104が出力する安定性によって、学習サブセットGSの数に対応した逐次学習音響モデル群Aの信頼度Cm,nのバラツキが、学習データ量の増加に伴って収束して行く様子を知ることが出来る。
図5に、安定性Sが収束して行く様子を例示する。横軸は学習サブセットGSの数によって変化する学習データ量であり、縦軸は安定性である。安定性Sを信頼度Cm,nの標準偏差とした場合は学習データ量の増加に伴ってその値は減少する方向に変化し、標準偏差の逆数の場合は増加する方向に変化する。
このように音響モデル性能評価装置100によれば、書き起こしが不要な未知の音声データを用いて音響モデルの性能の安定性を評価することができる。従って、音響モデルを、安定性の低い音響モデルに差し替えてしまい、音声認識システムの利便性を低下させてしまう問題を防止することが可能である。また、一般的に、学習データの量を増やし、より多くのパターンを音響モデルに学習させることによって、音響モデルの性能の安定性は向上するが、安定性を評価できなければどの程度まで学習データを増やすべきなのかが判断できない。安定性が収束する点を知ることができるので、その収束する学習データ量で学習した逐次学習音響モデルAを採用することで、安定した音声認識処理を行うことができる。つまり、適切な学習データ量を容易に把握することが可能になる。また、安定性を評価することで、手間のかかる学習データの書き起こしを必要な少量にすることができ、不要な書き起こしを作成してしまう無駄を排除することができる。
図6に、この発明の音響モデル性能評価装置200の機能構成例を示す。音響モデル性能評価装置200は、学習セット分割部101と、音響モデル逐次学習部102と、評価セット選択部203と、音響モデル性能評価部204と、制御部205と、具備する。各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
学習セット分割部101と音響モデル逐次学習部102は、参照符号から明らかなように音響モデル性能評価装置100と同じものである。音響モデル性能評価装置200は、上記した音響モデル性能評価装置100に対して、評価セット選択部203と音響モデル性能評価部204とが異なる。
評価セット選択部203は、学習セットと異なる音声データ(書き起こし無し)を、書き起こしが可能な時間長の音声に分割してN個の評価サブセットを生成し、N個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度を計算し、平均的な信頼度Cの評価サブセットを認識精度評価セットとして選択する。そして、当該認識精度評価セット以外のN−1個の評価サブセットを安定性評価セットとし、1個の認識精度評価セットと、N−1個の安定性評価セットとを出力する。
音響モデル性能評価部204は、認識精度評価セットと当該認識精度評価セットの書き起こしと上記M個の逐次学習音響モデル群とN−1個の上記安定性評価セットとを入力として、逐次学習音響モデル群と安定性評価セットASを用いて、逐次学習音響モデル群の信頼度を安定性評価セットAS毎に求めて当該信頼度のバラツキを表す安定性を算出すると共に、認識精度評価セットをM個の逐次学習音響モデル群を用いて音声認識した結果の認識率を求め、上記学習サブセットのデータ量毎の上記認識率と上記安定性の値を音響モデル性能として出力する。
このように音響モデル性能評価装置200によれば、音響モデル性能評価装置100で得られた信頼度の安定性に加えて、認識精度評価セットに対する逐次学習音響モデル群毎の認識率も得ることができる。つまり、音響モデル性能評価装置200では、認識率も考慮することで、安定した音声認識処理が期待できる学習データ量をより適切に把握することが可能になる。
次に、評価セット選択部203と音響モデル性能評価部204のそれぞれのより具体的な機能構成例を示して更に詳しく説明する。
図7に、評価セット選択部203のより具体的な機能構成例を示す。評価セット選択部203は、評価セット分割手段2030と、信頼度計算手段2031と、認識精度評価セット選択部2032と、を具備する。
評価セット分割手段2030は、学習セットと異なる音声データである評価セットから、書き起こしが可能な時間長のN個の音声に分割した評価サブセットを作成する。例えば、書き起こし可能な量を2時間とし、評価セット全体のデータ量を980時間とした場合、N=490個の評価サブセットが作成される。分割方法としては、評価セットに含まれる音声を収録された時間系列順に並べて連結したのち、先頭からN分割する、若しくは、評価セットに含まれる音声を例えば5〜10分程度の所定の短い区間に分割したのち、分割された区間をランダムな順序に並べて連結したのちに、先頭からN分割する方法でも良い。
信頼度計算手段2031は、入力されるN個の評価サブセットの各ブロックに対して、ベース音響モデルを用いて信頼度Cを計算する。信頼度Cは、上記した音響モデル性能評価部104で行われる計算方法と同じ方法で計算され、N個の評価サブセットにそれぞれ付与される。
認識精度評価セット選択手段2032は、入力されたN個の信頼度付き評価サブセットに付与された信頼度Cの平均値Caveを計算する。そして、平均値Caveに最も近い信頼度Cの評価サブセットを認識精度評価セットとして選択すると共に、その認識精度評価セットと残りのN−1個の評価サブセットを安定性評価セットとして出力する。ここで、平均値付近の信頼度の評価サブセットを認識精度評価セットとして選択することで、後述する認識率計算手段において、評価セット全体の平均付近の認識率を得ることができる。
図8に、音響モデル性能評価部204のより具体的な機能構成例を示す。音響モデル性能評価部204は、音響モデル毎認識率計算部2040と音響モデル毎安定性計算部2050とで構成される。音響モデル毎認識率計算部2040は、音声認識手段2041と認識率計算手段2042とを備える。音響モデル毎安定性計算部2050は、安定性評価セット信頼度計算手段1041と安定性計算手段1042とで構成され、上記した音響モデル性能評価部104と同じものである。図8では省略しているが、音響モデル性能評価部104と同様に、音響モデル毎安定性計算部2050に平均値計算手段1043を設け、逐次学習音響モデルA毎の各安定性評価セットASの信頼度の平均値 ̄Cを計算するようにしても良い。
音声認識手段2041は、入力される認識精度評価セットの音声データを、M個の逐次学習音響モデルA〜Aのそれぞれを用いて音声認識を行い、得られたM個の各逐次学習音響モデルAによる認識精度評価セットの認識結果を出力する。音声認識手段2041には、例えば参考文献3(政瀧浩和ほか,“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」,NTT技術ジャーナル,Vol.18,No.11,pp.15-18,2006.)に記載された既存の技術を用いる。
認識率計算手段2042は、認識精度評価セットの書き起こし(正解文)を用いてM個の認識結果のそれぞれの認識率R〜Rを計算する。認識精度評価セットは、ここでは評価セット選択部203で選択された認識精度評価セットの音声を人が書き起こしたものを用いる。認識率としては、例えば単語誤り率を100から減算した値である単語正解精度を用いる。単語誤り率の計算方法は、例えば参考文献4(X. Huang, A. Acero and H.-W. Hon, “Spoken Language Processing,” Prentice Hall,pp.419-421,2001.)に記載されている方法を用いることができる。
安定性評価セット信頼度計算手段1041は、入力されるM個の逐次学習音響モデルA〜Aのそれぞれを用いて、N−1個の安定性評価セットASの各ブロックに対して信頼度を計算する。信頼度の計算は、音響モデル性能評価部104で説明した方法と同じ方法で行う。1個の逐次学習音響モデルAにつきN−1個、合計M×(N−1)個の信頼度を計算し、各逐次学習音響モデルAの信頼度として出力する。m番目の逐次学習音響モデルAを用いて算出したnブロックの安定性評価セットASの信頼度をCm,nと表記する。
安定性計算手段1042は、各安定性評価セットASの信頼度Cm,nの標準偏差を、逐次学習音響モデルAの安定性Sとして計算する。標準偏差の値が小さい(0に近い)ほど逐次学習音響モデルAの性能が安定しており、認識精度評価セット以外の音声データに対しても、安定した認識率を得られ易いことを表す。なお、安定性の指標を、標準偏差値の逆数で表現しても良い。
以上説明したように音響モデル性能評価部204は、入力されたM個の逐次学習音響モデル群の音響モデル毎に、付与されている学習データ量と、各音響モデルの認識率と、その安定性の3つの指標をセットにした音響モデル性能を出力する。このM個の音響モデル性能を見ることで、学習データ量を追加すべきか、追加をしないで音響モデルを差し替えるかの判断を行うことが可能である。
音響モデル毎認識率計算部2040が計算するM個の認識率R〜Rは、学習サブセットを1個からM個まで除々に増加させながら学習した逐次学習音響モデル群にそれぞれ対応した認識率であるので、学習データ量に対応した認識率である。よって、音響モデル性能評価装置200によれば、上記した音響モデル性能評価装置100で安定性の値が安定する(収束する点)学習データ量を知ることができるのに加えて、学習データ量に対応する認識率も得ることができる。
図9に、音響モデル性能評価装置200が出力する安定性と認識率の一例を示す。横軸は学習データ量、縦軸は認識率と標準偏差値である。このように音響モデル性能評価装置200によれば、学習データ量によって変化する安定性と認識率を知ることができる。
図9の例では、学習データ量を増加させ、認識率の上昇度合いが緩やかになって来たとしても、安定性は向上(S→小)し続けている。この特性からは、「現在の学習データ量で認識率は上限近くに達しているが安定性にはまだ向上の余地があるため、更に学習データ量を増やす」という判断が可能であり、学習データ不足のために安定性が低い音響モデルに差し替えてしまうリスクを減らすことができる。つまり、安定性が向上し切らない内に音響モデルを差し替えてしまうことを防止することができる。
更に学習データを増加させ、図9の右端近くのように、認識率も安定性も向上の度合いが緩やかになって来た時点で、「認識率、安定性ともに上限近くに達しているため、学習データの追加を行わずに、同じ音響モデルを使用し続ける」という判断も可能である。このように、本発明の音響モデル性能評価装置によれば、多くの書き起こしを作成してしまう無駄を減らすことができる。
図10に、この発明の音響モデル性能評価装置300の機能構成例を示す。音響モデル性能評価装置300は、学習セット分割部101と、音響モデル逐次学習部102と、評価セット選択部203と、認識精度評価書き起こし生成部301と、音響モデル性能評価部204′と、制御部305と、具備する。各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
学習セット分割部101と音響モデル逐次学習部102と評価セット選択部203は、参照符号から明らかなように音響モデル性能評価装置200と同じものである。音響モデル性能評価装置300は、上記した音響モデル性能評価装置100に対して、認識精度評価書き起こし生成部301を備える点と、音響モデル性能評価分204′が認識精度評価書き起こし生成部301で生成した書き起こし(正解文)を用いて認識率を計算する点とが異なる。
認識精度評価書き起こし生成部301は、評価セット選択部203が出力する認識精度評価セットを入力として、当該認識精度評価セットの書き起こしを生成して音響モデル性能評価部204′に出力する。認識精度評価書き起こし生成部301は、評価セット選択部203が出力する認識精度評価セットの音声データを入力とする2個以上の音声認識手段を備える。
図11に、認識精度評価書き起こし生成部301の機能構成例を示す。認識精度評価書き起こし生成部301は、第1音声認識手段3010と、第2音声認識手段3011と、書き起こし生成手段3012と、を具備する。音声認識手段は、図中に…で示すように2個以上の数あっても良い。第1音声認識手段3010と第2音声認識手段3011とは、例えば用いる音響モデルの状態数が異なるものであり、認識条件が両者間で異なるものである。
第1音声認識手段3010と第2音声認識手段3011は、認識精度評価セットの音声データを、異なる認識条件を用いて音声認識した第1文字列と第2文字列をそれぞれ出力する。書き起こし生成手段3012は、第1文字列と第2文字列とを入力として、両者の間で一致する単語列を認識精度評価セットの書き起こしとして生成する。
書き起こし生成手段3012が出力する単語列は、不一致な単語を含まないので完全な文章として成り立たないものである。しかし、異なる音声認識手段で音声認識した結果が一致する単語列は、正しい単語列であると推定することができる。
音響モデル性能評価部204′は、その正しい書き起こしと推定できる単語列のみを用いて認識率を計算する。認識率と安定性の計算方法は音響モデル性能評価部204と同じである。
音響モデル性能評価装置300によれば、認識精度評価セットの書き起こしを自動的に生成することが可能になるので、全自動で望んだ音声認識処理を行うことができる適切な学習データ量を把握することが可能になる。
以上述べたように、本発明の音響モデル性能評価装置によれば、未知の音声に対してどの程度安定した認識精度が得られるのか評価することができない従来技術の課題を、解決することができる。
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGS(m=1〜Mの整数)に分割する学習セット分割部と、
    ベース音響モデルと上記学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習部と、
    上記学習セットと異なる音声データを、N個(N≧2)の安定性評価セットAS(n=1〜Nの整数)に分割する安定性評価セット分割部と、
    上記逐次学習音響モデル群と上記安定性評価セットASを用いて、上記逐次学習音響モデル群の逐次学習音響モデル毎の信頼度を上記安定性評価セットAS毎に求め、当該信頼度のバラツキを表す安定性を算出する音響モデル性能評価部と、
    を具備し、
    上記音響モデル性能評価部は、上記安定性評価セットAS中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルと上記安定性評価セットAS を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAを用いたときの安定性評価セットASの信頼度とする、
    音響モデル性能評価装置。
  2. 音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGS(m=1〜Mの整数)に分割する学習セット分割部と、
    ベース音響モデルと学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習部と、
    上記学習セットと異なる音声データを、書き起こしが可能な時間長の音声に分割してN個の評価サブセットを生成し、N個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度Cを計算し、平均的な信頼度Caveの値に近い信頼度Cの評価サブセットを認識精度評価セットとして選択し、当該認識精度評価セット以外のN−1個の評価サブセットを安定性評価セットASとし、1個の上記認識精度評価セットとN−1個の上記安定性評価セットASを出力する評価セット選択部と、
    上記認識精度評価セットと当該認識精度評価セットの書き起こしである正解文と上記M個の逐次学習音響モデル群とN−1個の上記安定性評価セットASとを入力として、上記逐次学習音響モデル群と上記安定性評価セットASを用いて、上記逐次学習音響モデル群の逐次学習音響モデルA毎の信頼度Cm,nを求め、当該信頼度Cm,nのバラツキを表す安定性Sを算出すると共に、上記認識精度評価セットをM個の逐次学習音響モデル群の逐次学習音響モデルAを用いて音声認識した結果と当該認識精度評価セットの書き起こしである正解文とを用いて上記逐次学習音響モデルA毎の認識率Rを求め、当該認識率Rと上記安定性Sの値を音響モデル性能として出力する音響モデル性能評価部と、
    を具備し、
    上記音響モデル性能評価部は、上記安定性評価セットAS中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルとA 上記安定性評価セットAS を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAを用いたときの安定性評価セットASの信頼度とする、
    音響モデル性能評価装置。
  3. 請求項2に記載した音響モデル性能評価装置において、
    更に、上記認識精度評価セットの書き起こしを生成する認識精度評価書き起こし生成部を具備し、
    当該認識精度評価書き起こし生成部は、上記評価セット選択部が出力する上記認識精度評価セットの音声データを入力とする2個以上の音声認識手段と、当該音声認識手段が出力する文字列間で一致する単語列を認識精度評価セットの書き起こしとして生成する書き起こし生成手段と、
    を備えることを特徴とする音響モデル性能評価装置。
  4. 学習セット分割部が、音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGS(m=1〜Mの整数)に分割する学習セット分割過程と、
    音響モデル逐次学習部が、ベース音響モデルと上記学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習過程と、
    安定性評価セット分割部が、上記学習セットと異なる音声データを、N個(N≧2)の安定性評価セットAS(n=1〜Nの整数)に分割する安定性評価セット分割過程と、
    音響モデル性能評価部が、上記逐次学習音響モデル群と上記安定性評価セットASを用いて、上記逐次学習音響モデル群の逐次学習音響モデル毎の信頼度を上記安定性評価セットAS毎に求め、当該信頼度のバラツキを表す安定性を算出する音響モデル性能評価過程と、
    を備え、
    上記音響モデル性能評価過程において、上記安定性評価セットAS中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルと上記安定性評価セットAS を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAを用いたときの安定性評価セットASの信頼度とする、
    音響モデル性能評価方法。
  5. 学習セット分割部が、音響モデル学習に用いる書き起こし付き音声データである学習セットを、M個(M≧2)の学習サブセットGS(m=1〜Mの整数)に分割する学習セット分割過程と、
    音響モデル逐次学習部が、ベース音響モデルと学習サブセットを用いて、学習サブセットを学習サブセット単位で増加させながら学習した音響モデルである上記学習サブセットの数に対応した逐次学習音響モデル群を出力する音響モデル逐次学習過程と、
    評価セット選択部が、上記学習セットと異なる音声データを、書き起こしが可能な時間長の音声に分割してN個の評価サブセットを生成し、N個の評価サブセットに対してベース音響モデルを用いてそれぞれ信頼度Cを計算し、平均的な信頼度Caveの値に近い信頼度Cの評価サブセットを認識精度評価セットとして選択し、当該認識精度評価セット以外のN−1個の評価サブセットを安定性評価セットASとし、1個の上記認識精度評価セットとN−1個の上記安定性評価セットASを出力する評価セット選択過程と、
    音響モデル性能評価部が、上記認識精度評価セットと当該認識精度評価セットの書き起こしである正解文と上記M個の逐次学習音響モデル群とN−1個の上記安定性評価セットASとを入力として、上記逐次学習音響モデル群と上記安定性評価セットASを用いて、上記逐次学習音響モデル群の逐次学習音響モデルA毎の信頼度Cm,nを求め、当該信頼度Cm,nのバラツキを表す安定性Sを算出すると共に、上記認識精度評価セットをM個の逐次学習音響モデル群の逐次学習音響モデルAを用いて音声認識した結果と当該認識精度評価セットの書き起こしである正解文とを用いて上記逐次学習音響モデルA毎の認識率Rを求め、当該認識率Rと上記安定性Sの値を音響モデル性能として出力する音響モデル性能評価過程と、
    を備え、
    上記音響モデル性能評価過程において、上記安定性評価セットAS中の各フレームにおける音響特徴量を得、上記音響特徴量と上記逐次学習音響モデルA と上記安定性評価セットAS を用いて、各フレームにおいて、エントロピーを計算し、上記各フレームのエントロピーの平均値をm番目の逐次学習音響モデルAを用いたときの安定性評価セットASの信頼度とする、
    音響モデル性能評価方法。
  6. 請求項5に記載した音響モデル性能評価方法において、
    更に、上記認識精度評価セットの書き起こしを生成する認識精度評価書き起こし生成過程を備え、
    当該認識精度評価書き起こし生成過程は、上記評価セット選択部が出力する上記認識精度評価セットの音声データを入力とする2個以上の音声認識ステップと、当該音声認識手段が出力する文字列間で一致する単語列を認識精度評価セットの書き起こしとして生成する書き起こし生成ステップと、
    を含むことを特徴とする音響モデル性能評価方法。
  7. 請求項1乃至3の何れかに記載した音響モデル性能評価装置としてコンピュータを機能させるためのプログラム。
JP2012085332A 2012-04-04 2012-04-04 音響モデル性能評価装置とその方法とプログラム Expired - Fee Related JP5914119B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012085332A JP5914119B2 (ja) 2012-04-04 2012-04-04 音響モデル性能評価装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012085332A JP5914119B2 (ja) 2012-04-04 2012-04-04 音響モデル性能評価装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2013214016A JP2013214016A (ja) 2013-10-17
JP5914119B2 true JP5914119B2 (ja) 2016-05-11

Family

ID=49587367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012085332A Expired - Fee Related JP5914119B2 (ja) 2012-04-04 2012-04-04 音響モデル性能評価装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5914119B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516972B (zh) * 2021-01-12 2024-02-13 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
KR20220118754A (ko) * 2021-02-19 2022-08-26 삼성전자주식회사 음성 인식 결과를 분석하는 전자 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10014337A1 (de) * 2000-03-24 2001-09-27 Philips Corp Intellectual Pty Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
JP4779239B2 (ja) * 2001-06-13 2011-09-28 日本電気株式会社 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
US6766294B2 (en) * 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
JP4829871B2 (ja) * 2007-11-21 2011-12-07 日本電信電話株式会社 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
JP2013214016A (ja) 2013-10-17

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
US9536525B2 (en) Speaker indexing device and speaker indexing method
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
US9754024B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP5888356B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2009300716A (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP6680009B2 (ja) 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP5626558B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
JP2015018186A (ja) 適応化装置およびプログラム
JPWO2009122780A1 (ja) 適応話者選択装置および適応話者選択方法並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160404

R150 Certificate of patent or registration of utility model

Ref document number: 5914119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees