JP4571922B2 - 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 - Google Patents
音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 Download PDFInfo
- Publication number
- JP4571922B2 JP4571922B2 JP2006075374A JP2006075374A JP4571922B2 JP 4571922 B2 JP4571922 B2 JP 4571922B2 JP 2006075374 A JP2006075374 A JP 2006075374A JP 2006075374 A JP2006075374 A JP 2006075374A JP 4571922 B2 JP4571922 B2 JP 4571922B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- evaluation result
- cluster
- model
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
従来手法では、学習部(93)は、初期音響モデルであるベース音響モデル(92)および学習データ(91)を用いて十分統計量(94)を算出する(ステップS91)。
しかしながら、このような構成の異同は本発明との関係で要をなすものではないので、既述の構成であるとして便宜的に説明を進める。
S. Furui, "Recent Progress in Corpus-Based Spontaneous Speech Recognition", IEICE Trans. Inf. & Syst., Vol.E88-D, No.3, 2005 Lawrence Rabiner, Biing-Hwang Juang 共著、古井貞熙監訳、"音声認識の基礎(下)"、NTTアドバンステクノロジ、1995
このように、複数の学習データクラスタに対応した各クラスタ十分統計量のうち、その1つあるいは複数の組み合わせから種々の音響モデルを合成し、これらのうち評価用データについて高い評価結果を与える音響モデルを選び出すのである。
このように、所定の評価結果に基づいて選択された音響モデルおよび選択された学習データクラスタを用いることで高精度の音響モデルを作成する。
響モデル」という。)をそれぞれ合成する。これらの音響モデルついて上記評価を行ない、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する。そして、ベース音響モデルあるいは全選択音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、全選択音響モデルの評価結果αに対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる部分選択音響モデルの評価結果としてもよい。
これは、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断できることに基づく。
これは、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量が認識性能向上に寄与すると判断できることに基づく。
これによれば、学習データとして例えば既存の汎用的な大量学習データを用いる場合、タスクなどに応じて適切な分類基準で学習データクラスタを作成することができる。
これは、基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断できることに基づく。
本発明の第1実施形態について、図面を参照しながら説明する。
<第1実施形態の音響モデル作成装置>
図1に例示するように、音響モデル作成装置(1)は、キーボードなどが接続可能な入力部(11)、液晶ディスプレイなどが接続可能な出力部(12)、CPU(Central Processing Unit;14)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)(15)、ROM(Read Only Memory)(16)やハードディスクである外部記憶装置(17)、並びにこれらの入力部(11)、出力部(12)、CPU(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)などを備えている。また必要に応じて、音響モデル作成装置(1)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
第1実施形態では、学習データクラスタ毎にクラスタ十分統計量を蓄積し、蓄積されたそれぞれのクラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成する。そして、各クラスタ十分統計量のうち1つあるいは複数の組み合わせに応じて得られたそれぞれの音響モデルを、評価用データ(118)および評価用言語モデル(119)を用いて評価し、所定の評価結果として最高の認識性能を達成する音響モデルを最適音響モデルとして特定する。なお、所定の評価結果を最高の認識性能に限定せず、閾値に対する相対評価などによって認識率が向上するという良い評価を所定の評価結果としてもよい。
次に、図2および図3を参照して、音響モデル作成装置(1)における音響モデル作成処理の流れを叙述的に説明する。
つまり、学習部(113)は、学習データクラスタ[1](111−1)およびベース音響モデル(112)からクラスタ十分統計量[1](114−1)を算出し、同様に、学習データクラスタ[2](111−2)およびベース音響モデル(112)からクラスタ十分統計量[2](114−2)を算出し、・・・、学習データクラスタ[N](111−N)およびベース音響モデル(112)からクラスタ十分統計量[N](114−N)を算出するのである。N個のクラスタ十分統計量[1](114−1)、クラスタ十分統計量[2](114−2)、・・・、クラスタ十分統計量[N](114−N)はRAM(15)などに適宜に保存記憶される。
なお、既述のとおりであるが、音声データの音響分析を学習部(113)の学習処理に含める構成に限定するものではなく、例えば、学習部(113)とは別の音響分析部によってラベル対応の音声データを音響分析する構成などとしてもよい。また、学習データクラスタを、音声データとこの音声データに対応付けた音素カテゴリによるラベルから構成するのではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音素カテゴリによるラベルから構成するなどとしてもよい。
さらに既述のとおり、このような構成の異同は本発明の要諦に影響をもたらすものではないので、上記記載の実施形態の構成であるとして説明を進める。
つまり、モデル合成部(115)は、例えばクラスタ十分統計量[1](114−1)からは音響モデル[1](116−1)を合成し、クラスタ十分統計量[1](114−1)およびクラスタ十分統計量[2](114−2)からは音響モデル[1+2](116−2)を合成し、クラスタ十分統計量[1](114−1)、クラスタ十分統計量[2](114−2)およびクラスタ十分統計量[3](114−3)からは音響モデル[1+2+3](116−3)を合成し、・・・、クラスタ十分統計量[5]およびクラスタ十分統計量[9](114−3)からは音響モデル[5+9]を合成し、・・・、全てのクラスタ十分統計量からは音響モデル[N+(N−1)+・・・+1](116−M)を合成するのである。複数のクラスタ十分統計量から音響モデルを合成するモデル合成処理は上記非特許文献2などに詳しい。M個の音響モデル(116−1)(116−2)・・・(116−M)はRAM(15)などに適宜に保存記憶される。
評価結果である認識率の差異は、同じ評価用データ(118)および評価用言語モデル(119)を用いて評価していることから、各音響モデル(116−1)(116−2)・・・(116−M)の差異に基づく。評価用音声データの認識率の算出は公知の方法によって達成される。
第1実施形態では、最高の評価結果を与えた音響モデルを選択するとしたが、例えば予め閾値を設定しておき、この閾値以上(あるいは閾値よりも大)の評価結果を与えた音響モデルを選択するようにしてもよい。この場合、複数の音響モデルが選択されえるが、これらが予定する音声認識に対して最適な音響モデルの候補となる。換言すれば、この閾値を厳しく設定することで1個の音響モデルを出力することもできるし、あるいは、1個の音響モデルを出力することに限定したくない場合には、閾値を緩く設定することで複数の音響モデルを最適音響モデルの候補として出力するようにすることもできる。なお、この閾値は予め外部記憶装置(17)に保存記憶しておくとする。
本発明の第2実施形態について、図面を参照しながら説明する。
<第2実施形態の概要>
第2実施形態では、学習データクラスタ毎にクラスタ十分統計量を蓄積し、蓄積されたそれぞれのクラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成する。そして、各クラスタ十分統計量のうち1つあるいは複数の組み合わせに応じて得られたそれぞれの音響モデルを、評価用データ(118)および評価用言語モデル(119)を用いて評価する。さらに、所定の評価結果として最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタとから音響モデルの合成を行ない〔以下、「最適化処理」と云う。〕、この最適化処理で出力された音響モデルを最適音響モデルとして特定する。なお、所定の評価結果を最高の認識性能に限定せず、閾値に対する相対評価などによって認識率が向上するという良い評価としてもよい。
第2実施形態の音響モデル作成装置は、第1実施形態の音響モデル作成装置と同様のハードウェア構成であり、第1実施形態と異なる部分について説明を行う。
第2実施形態では、外部記憶装置(17)に、第1実施形態のプログラムに加え、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタとから最適化処理を行うためのプログラムも保存記憶されている。また、第1実施形態において選択部(120)を実現するためのプログラム―評価結果から音響モデルを選択するためのプログラム―は、第2実施形態では、評価結果から音響モデルおよび学習データクラスタを選択するためのプログラムとする。
次に、図4および図5を参照して、第2実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第1実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
即ち、選択部(120a)は、各音響モデル(116−1)(116−2)・・・(116−M)の評価結果に基づき、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する(ステップS4a)。
例えばステップS3の処理において最高の評価結果を与えた音響モデルを音響モデル[5+9]とした場合、この音響モデル[5+9]を選択し、さらに、音響モデル[5+9]作成に用いられたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する学習データクラスタ[5]および学習データクラスタ[9]を選択する。
なお、第2実施形態においては、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択するとしたが、予め閾値を設定しておき、この閾値以上(あるいは閾値よりも大)の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択するようにしてもよい。
最適化部(121)の最適化処理は、学習部(113)の学習処理とモデル合成部(115)のモデル合成処理との複合処理である。但し、モデル合成部(115)のモデル合成処理はM個の音響モデルを作成したが、最適化部(121)の最適化処理では1個の音響モデルを作成する。
つまり、音響モデル[5+9]が選択された場合を例にとって説明すると、最適化部(121)は、学習データクラスタ[5]および音響モデル[5+9]からクラスタ十分統計量[5opt]を算出し、同様に、学習データクラスタ[9]および音響モデル[5+9]からクラスタ十分統計量[9opt]を算出する。そして、最適化部(121)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
最適化部(121)による最適化処理は、次のような処理形態とすることも可能である。音響モデル[5+9]が選択された場合を例にとって説明すると、最適化部(121)は、学習データクラスタ[5]および学習データクラスタ[9]をマージ(merge)して学習データクラスタ[5+9]を生成し、この学習データクラスタ[5+9]および音響モデル[5+9]からクラスタ十分統計量[(5+9)opt]を算出して、このクラスタ十分統計量[(5+9)opt]を最適音響モデルとするのである。
このような処理形態でも良いが、一般的には、(マージしないで)各別の学習データクラスタと音響モデルとを用いた学習処理は、複数のコンピュータによって分散処理できるから、マージした学習データクラスタと音響モデルとから学習処理を行って音響モデルを得る処理時間は、マージしないで各別の学習データクラスタと音響モデルとから学習処理を行い、得られたクラスタ十分統計量に対してモデル合成処理を行って音響モデルを得る処理時間よりも長くなる。
第2実施形態の変形例その1に対する変形例を説明する。
音響モデル[5+9]が選択された場合を例にとって説明すると、最適化部(121)は、学習データクラスタ[5]および学習データクラスタ[9]をマージ(merge)して学習データクラスタ[5+9]を生成する。そして、この学習データクラスタ[5+9]を適切な分類基準に従ってs個に再分割して、学習データクラスタ[g](g=1,2,・・・,s)を得る。このs個の各学習データクラスタ[g]および音響モデル[5+9]から、第2実施形態で説明したのと同様にしてクラスタ十分統計量[(5+9)opt]を得る。適切な分類基準に従った再分割は、例えば後述する第4実施形態のデータ分類部によって行われる。
また、上記ステップS5で『最適化部(121)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する』と説明したが、複数の音響モデルを出力する構成とすることもできる。
つまり、最適化部(121)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって、音響モデル[5opt]、音響モデル[9opt]、音響モデル[5opt+9opt]を作成するのである。この場合は全部で3つの音響モデルを生成したが、これはΣj=1 2 2Cj=2C1+2C2=3であることに基づく。つまり、最適化部(121)は、モデル合成部(115)と同等のモデル合成処理を行っている。
この場合、最適化部(121)で得られた複数の音響モデル(場合によっては1つの音響モデルの場合もあることに留意すること。)をモデル合成部(115)で得られた音響モデル(116)に見立てて、モデル評価部(117)によるモデル評価処理および選択部(120a)による選択処理を適用し、再度、最適化部(121)による最適化処理を行って最適音響モデル(123)を得る構成とする。つまり、この構成は、ベース音響モデル(112)を基準とすると、3回の学習によって最適音響モデル(123)を得る構成となっている。
同様の処理を繰り返せば、ベース音響モデル(112)を基準として、複数回の学習によって最適音響モデル(123)を得る構成とすることができる。
本発明の第3.1実施形態について、図面を参照しながら説明する。
<第3.1実施形態の概要>
第3.1実施形態では、全てのクラスタ十分統計量から合成した音響モデル[N+(N−1)+・・・+1]〔全選択音響モデルである。〕の認識性能(A)と、一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量から合成した音響モデル〔部分選択音響モデルである。〕の認識性能(B)とを比較する。認識性能(B)の認識性能(A)に対する所定の評価結果の一例としてその差(A−B)が閾値以上であれば、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断でき、この学習データクラスタを最適化処理に用いる学習データクラスタとして選択する。第3.1実施形態は、第2実施形態を基礎として、第2実施形態と異なる部分について説明を行う。なお、上記閾値を0とした場合を考えれば明らかなように、認識性能(B)が認識性能(A)に比してそれ以下あるいはそれよりも小となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
第3.1実施形態の音響モデル作成装置は、第2実施形態の音響モデル作成装置と同様のハードウェア構成であり、第2実施形態と異なる部分について説明を行う。
第2実施形態において選択部(120)を実現するためのプログラムは、第3.1実施形態では、評価結果から学習データクラスタを選択するためのプログラムとする。
また、第2実施形態において最適化部(121)を実現するためのプログラムは、第3.1実施形態では、全てのクラスタ十分統計量から合成した音響モデルおよび選択された学習データクラスタから最適音響モデルを作成するためのプログラムとする。
次に、図6および図7を参照して、第3.1実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
即ち、モデル合成部(115b)は、RAM(15)から読み込んだ各クラスタ十分統計量(114−1)(114−2)・・・(114−N)のうち、全てのクラスタ十分統計量から、および、全てのクラスタ十分統計量から各別の1つのクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせ(部分選択クラスタ十分統計量)からそれぞれ異なる音響モデル(116b)を合成する(ステップS2b)。
つまり、モデル合成部(115b)は、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)から音響モデル[全選択](116b−0)を合成する。さらに、モデル合成部(115b)は、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)からクラスタ十分統計量[1](114−1)を除外したN−1個のクラスタ十分統計量(114−2)(114−3)・・・(114−N)から音響モデル[1無し](116b−1)を合成し、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)からクラスタ十分統計量[2](114−2)を除外したN−1個のクラスタ十分統計量(114−1)(114−3)・・・(114−N)から音響モデル[2無し](116b−2)を合成し、・・・、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)からクラスタ十分統計量[N](114−N)を除外したN−1個のクラスタ十分統計量(114−1)(114−2)・・・(114−(N−1))から音響モデル[N無し](116b−N)を合成するのである。なお、音響モデル[全選択](116b−1)は、音響モデル[N+(N−1)+・・・+1](116−M)に相当する。N+1個の音響モデル(116b−0)(116b−1)・・・(116b−N)はRAM(15)などに適宜に保存記憶される。
評価結果である認識率の差異は、同じ評価用データ(118)および評価用言語モデル(119)を用いて評価していることから、各音響モデル(116b−0)(116b−1)・・・(116b−N)の差異に基づく。
ここで『所定の評価結果』とは、音響モデル[全選択](116b−0)の評価結果と、音響モデル[j無し](116b−j)〔j=1、2、・・・、N〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率5%とし、ステップS3bの処理において音響モデル[全選択](116b−0)の評価結果が70%、音響モデル[5無し]の評価結果が60%、音響モデル[9無し]の評価結果が63%、その他の各音響モデルの評価結果が65%よりも大であったとすると、音響モデル[5無し]および音響モデル[9無し]の各評価結果が、音響モデル[全選択](116b−0)の評価結果との差が閾値5%以上となる。そこで、選択部(120b)は、音響モデル[5無し]および音響モデル[9無し]の作成で除外されたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する学習データクラスタ[5]およびを学習データクラスタ[9]を選択する。
最適化部(121b)の最適化処理は、学習部(113)の学習処理とモデル合成部(115b)のモデル合成処理との複合処理である。但し、モデル合成部(115b)のモデル合成処理はN+1個の音響モデルを作成したが、最適化部(121b)の最適化処理では1個の音響モデルを作成する。
つまり、学習データクラスタ[5]および学習データクラスタ[9]が選択された場合を例にとって説明すると、最適化部(121b)は、学習データクラスタ[5]および音響モデル[全選択](116b−0)からクラスタ十分統計量[5opt]を算出し、同様に、学習データクラスタ[9]および音響モデル[全選択](116b−0)からクラスタ十分統計量[9opt]を算出する。そして、最適化部(121b)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
なお、第3.1実施形態では、音響モデル[全選択](116b−0)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしたが、ベース音響モデル(112)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしてもよい。
本発明の第3.2実施形態について、図面を参照しながら説明する。
<第3.2実施形態の概要>
第3.2実施形態では、全てのクラスタ十分統計量から合成した音響モデル[N+(N−1)+・・・+1]〔全選択音響モデルである。〕の認識性能(A)と、一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量から合成した音響モデル〔部分選択音響モデルである。〕の認識性能(B)とを比較する。認識性能(B)の認識性能(A)に対する所定の評価結果の一例としてその差(B−A)が閾値以上であれば、除外したクラスタ十分統計量が認識性能向上に寄与すると判断でき、このクラスタ十分統計量を最適化処理に用いるクラスタ十分統計量として選択する。なお、上記閾値を0とした場合を考えれば明らかなように、認識性能(B)が認識性能(A)に比してそれ以上あるいはそれよりも大となる場合に、除外したクラスタ十分統計量が認識性能向上に寄与すると判断することもできる。第3.2実施形態は、第3.1実施形態と類似するから、第3.1実施形態と異なる部分について説明を行う。
第3.2実施形態の音響モデル作成装置は、第3.1実施形態の音響モデル作成装置と同様のハードウェア構成であり、第3.1実施形態と異なる部分について説明を行う。
選択部(120)を実現するためのプログラムは、第3.2実施形態では、評価結果からクラスタ十分統計量を選択するためのプログラムとする。
また、最適化部(121)を実現するためのプログラムは、第3.2実施形態では、選択されたクラスタ十分統計量から最適音響モデルを作成するためのプログラムとする。
次に、図8および図9を参照して、第3.2実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
即ち、選択部(120b1)は、各音響モデル(116b−0)(116b−1)・・・(116b−N)の評価結果のうち所定の評価結果を与えた音響モデルの作成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する(ステップS4b1)。
ここで『所定の評価結果』とは、音響モデル[全選択](116b−0)の評価結果と、音響モデル[j無し](116b−j)〔j=1、2、・・・、N〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率5%とし、ステップS3bの処理において音響モデル[全選択](116b−0)の評価結果が70%、音響モデル[5無し]の評価結果が77%、音響モデル[9無し]の評価結果が78%、その他の各音響モデルの評価結果が75%よりも小であったとすると、音響モデル[5無し]および音響モデル[9無し]の各評価結果が、音響モデル[全選択](116b−0)の評価結果との差が閾値5%以上となる。そこで、選択部(120b1)は、音響モデル[5無し]および音響モデル[9無し]の作成で除外されたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する学習データクラスタ[5]およびを学習データクラスタ[9]を選択する。
最適化部(121b1)の最適化処理は、モデル合成部(115b)のモデル合成処理と同様である。但し、モデル合成部(115b)のモデル合成処理はN+1個の音響モデルを作成したが、最適化部(121b1)の最適化処理では1個の音響モデルを作成する。
つまり、クラスタ十分統計量[5]およびクラスタ十分統計量[9]が選択された場合を例にとって説明すると、最適化部(121b1)は、クラスタ十分統計量[5]およびクラスタ十分統計量[9]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
なお、第3.2実施形態では、音響モデル[全選択](116b−0)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしたが、ベース音響モデル(112)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしてもよい。
本発明の第4実施形態について、図面を参照しながら説明する。
<第4実施形態の概要>
第4実施形態は、膨大なデータ量である学習データを、適当な分類基準で複数の学習データクラスタに分類するデータ分類処理を含むものである。このデータ分類処理は、第1実施形態、第2実施形態、第3実施形態に組み合わせて適用できる。第4実施形態は、第2実施形態に組み合わせた場合として説明する。
第4実施形態の音響モデル作成装置は、第2実施形態の音響モデル作成装置と同様のハードウェア構成であり、第2実施形態と異なる部分について説明を行う。
第4実施形態では、外部記憶装置(17)に、第2実施形態のプログラムに加え、学習データを分類するためのプログラムも保存記憶されている。
また第2実施形態では、外部記憶装置(17)にN個の学習データクラスタが保存記憶されているとしたが、第4実施形態では、外部記憶装置(17)に分割前の学習データ(111a)が保存記憶されているとする。
次に、図10および図11を参照して、第4実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
N個の学習データクラスタは、RAM(15)などに適宜に保存記憶される。図10において、学習データ(111b)は分割後の学習データクラスタの集合を示している。
本発明の第5実施形態について、図面を参照しながら説明する。
<第5実施形態の概要>
第5実施形態では、学習データクラスタの基本的な組み合わせから学習し終えたクラスタ十分統計量のセット(基本クラスタセット)を設定しておく。この基本クラスタセットから合成した基本音響モデルの認識性能(C)と、新たに追加した学習データクラスタから学習したクラスタ十分統計量および基本クラスタ十分統計量とから合成した追加音響モデルの認識性能(D)とを比較する。認識性能(D)の認識性能(C)に対する所定の評価結果の一例として認識性能の差(D−C)が閾値以上であれば、その追加したクラスタ十分統計量に対応する学習データクラスタは認識性能向上に寄与すると判断でき、最適化処理に用いる学習データクラスタとして選択する(このような構成を「追加型」ということにする。)。なお、上記閾値を0とした場合を考えれば明らかなように、認識性能(D)が認識性能(C)に比してそれ以上あるいはそれよりも大となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
第5実施形態の音響モデル作成装置は、第2実施形態の音響モデル作成装置と同様のハードウェア構成であり、第2実施形態と異なる部分について説明を行う。
外部記憶装置(17)には、追加された学習データである追加学習データ(111c)が保存記憶されている。追加学習データ(111c)は、予め複数(n個とする。但し、説明の便宜からn個としたまでで、上記各実施形態におけるN個と同じにする必要はない。)のデータに分割されているとする。この各データを『追加学習データクラスタ』と呼ぶことにする。つまり、追加学習データ(111c)は、追加学習データクラスタ[1](111c−1)、追加学習データクラスタ[2](111c−2)、・・・、追加学習データクラスタ[n](111c−n)で構成される。勿論、第4実施形態のように、データ分類部によって追加学習データ(111c)をn個の追加学習データクラスタに分類するようにしてもよい。なお、この追加学習データクラスタについても、第1実施形態で説明した学習データクラスタと同様に、例えば複数の追加学習データそれぞれを各別の追加学習データクラスタに見立てることなどができる〔既述した学習データクラスタの説明を参照のこと。〕。
さらに、外部記憶装置(17)には、基本クラスタセット(114c−0)が保存記憶されている。基本クラスタセット(114c−0)は、学習データクラスタの基本的な組み合わせから学習し終えたクラスタ十分統計量のセットであり、例えば、第2実施形態で得られたクラスタ十分統計量(114)全体とする。
次に、図12および図13を参照して、第5実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
n個のクラスタ十分統計量[1](114c−1)、クラスタ十分統計量[2](114c−2)、・・・、クラスタ十分統計量[n](114c−n)はRAM(15)などに適宜に保存記憶される。これらのn個のクラスタ十分統計量[1](114c−1)、クラスタ十分統計量[2](114c−2)、・・・、クラスタ十分統計量[n](114c−n)と基本クラスタセット(114c−0)でクラスタ十分統計量(114c)を構成する。
具体的には、モデル合成部(115c)は、基本クラスタセット(114c−0)から音響モデル[基本](116c−0)を合成し、基本クラスタセット(114c−0)およびクラスタ十分統計量(114c−1)からは音響モデル[1追加](116c−1)を合成し、基本クラスタセット(114c−0)およびクラスタ十分統計量[2](114c−2)からは音響モデル[2追加](116c−2)を合成し、・・・、基本クラスタセット(114c−0)およびクラスタ十分統計量[n](114c−2)からは音響モデル[n追加](116c−n)を合成するのである。n+1個の音響モデル(116c−1)(116c−2)・・・(116c−n)はRAM(15)などに適宜に保存記憶される。
評価結果である認識率の差異は、同じ評価用データ(118)および評価用言語モデル(119)を用いて評価していることから、各音響モデル(116c−0)(116c−1)・・・(116c−n)の差異に基づく。
ここで『所定の評価結果』とは、音響モデル[基本](116c−0)の評価結果と、音響モデル[j追加](116c−j)〔j=1、2、・・・、n〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率5%とし、ステップS3cの処理において音響モデル[基本](116c−0)の評価結果が70%、音響モデル[5追加]の評価結果が77%、音響モデル[9追加]の評価結果が78%、その他の各音響モデルの評価結果が75%よりも小であったとすると、音響モデル[5追加]および音響モデル[9追加]の各評価結果が、音響モデル[基本](116c−0)の評価結果との差が閾値5%以上となる。そこで、選択部(120c)は、音響モデル[5追加]および音響モデル[9追加]の作成で追加されたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する追加学習データクラスタ[5]および追加学習データクラスタ[9]を選択する。
最適化部(121c)の最適化処理は、学習部(113c)の学習処理とモデル合成部(115c)のモデル合成処理との複合処理である。但し、モデル合成部(115c)のモデル合成処理はn+1個の音響モデルを作成したが、最適化部(121c)の最適化処理では1個の音響モデルを作成する。
つまり、追加学習データクラスタ[5]および追加学習データクラスタ[9]が選択された場合を例にとって説明すると、最適化部(121c)は、学習データクラスタ[5]および音響モデル[基本](116c−0)からクラスタ十分統計量[5opt]を算出し、同様に、学習データクラスタ[9]および音響モデル[基本](116c−0)からクラスタ十分統計量[9opt]を算出する。そして、最適化部(121c)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
なお、第5実施形態では、選択された追加学習データクラスタおよび音響モデル[基本](116c−0)に対して最適化処理を行って最適音響モデル(123)を出力するとしたが、学習対象の音響モデルを音響モデル[基本](116c−0)に限定するものではなく、例えば、ステップS4cの処理で所定の評価結果を与えた音響モデルを学習対象としてもよい。
また、一部の学習データクラスタの学習データ量が多く学習時間が長くかかる場合であっても、その学習終了を待たずに、基本クラスタセット分だけ評価を終わらせておくことで、プロセス全体でかかる音響モデル作成時間を削減することができる。
さらに、基本クラスタセットから一部のクラスタ十分統計量を削除したり、新たな学習データクラスタ(学習データ)を追加したりすることができるので、予定している音声認識対象によって異なる評価用データに対しても柔軟に最適な音響モデルを作成することができる。
本発明の第6実施形態について、図面を参照しながら説明する。
<第6実施形態の概要>
基本音響モデルの認識性能(C)と、基本クラスタセットから一部のクラスタ十分統計量を除外した残りのクラスタ十分統計量から合成した音響モデル〔部分音響モデルである。〕の認識性能(E)とを比較する。認識性能(E)の認識性能(C)に対する所定の評価結果の一例としてその認識性能の差(C−E)が閾値以上であればその除外したクラスタ十分統計量に対応する学習データクラスタは認識性能向上に寄与すると判断でき、最適化処理に用いる学習データクラスタとして選択することもできる(このような構成を「削除型」ということにする。)。
しかし、この場合は、基本音響モデルを第3.1実施形態(あるいは第3.2実施形態)における音響モデル[全選択]と同視することと同様である。
そこで、第6実施形態は、追加型と削除型の両構成を採用した構成とする。この場合、認識性能の差(D−C)に対する閾値と認識性能の差(C−E)に対する閾値とは異なってもよい。なお、削除型の場合について付言しておくと、上記閾値を0とした場合を考えれば明らかなように、認識性能(E)が認識性能(C)に比してそれ以下あるいはそれよりも小となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
この第6実施形態は、第3.1実施形態(あるいは第3.2実施形態)と第5実施形態の融合的形態であるから、図14および図15を参照し、第3.1実施形態(または第3.2実施形態)あるいは第5実施形態と異なる部分について概説する。
第6実施形態の音響モデル作成装置は、第5実施形態の音響モデル作成装置と同様のハードウェア構成である。
そして、外部記憶装置(17)には、基本クラスタセット(114c−0)を構成するクラスタ十分統計量に対応する学習データクラスタも保存記憶されている。この学習データクラスタは、例えば第2実施形態におけるN個の学習データクラスタ(111−1)(111−2)・・・(111−N)として、これらN個の学習データクラスタで学習データクラスタセット(111d)を構成するとする。
第5実施形態のステップS1cの処理に続きステップS2dの処理を実行する。なお、基本クラスタセット(114c−0)は、ベース音響モデル(112)を学習データクラスタセット(111d)で学習して得られたものであることに留意すること。つまり、基本クラスタセット(114c−0)は、クラスタ十分統計量(114−1)(114−2)・・・(114−N)で構成される。
つまり、所定の評価結果を与えた音響モデルが、音響モデル(116c−1)・・・(116c−n)のいずれかであれば、その音響モデルの作成において追加されたクラスタ十分統計量に対応する追加学習データクラスタを選択し、所定の評価結果を与えた音響モデルが、音響モデル(116b−1)(116b−2)・・・(116b−N)のいずれかであれば、その音響モデルの作成において除外されたクラスタ十分統計量に対応する追加学習データクラスタを学習データクラスタセット(111d)から選択する。
また、認識性能の差に対する閾値によって学習データなどを選択する以外に、閾値だけでなく、学習データ量の大きさやクラスタ数の制限などの要素を加えても良い。さらに、認識性能の差の大きさが音声認識性能改善への寄与度と考えられるから、例えば選択された学習データクラスタに対して認識性能の差に応じた重み付けを行って最適音響モデルを合成するとしてもよく、この場合、最適音響モデルの性能向上が望める。
110 データ分類部
111、111a、111b 学習データ
111c 追加学習データ
111−1・・・111−N 学習データクラスタ
111c−1・・・111c−N 追加学習データクラスタ
112 ベース音響モデル
113、113c 学習部
114、114c 十分統計量
114−1・・・114−N クラスタ十分統計量
114c−1・・・114c−N クラスタ十分統計量
115、115b、115c モデル合成部
116、116b、116c 音響モデル
117、117b、117c モデル評価部
118 評価用データ
119 評価用言語モデル
120、120a、120b、120c 選択部
121、121b、121c 最適化部
123 最適音響モデル
Claims (22)
- 複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルとを記憶する記憶手段と、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習手段と、
上記各クラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成するモデル合成手段と、
上記各音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価手段と、
上記各評価結果のうち所定の評価結果を与えた音響モデルと、当該音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する選択手段と、
上記選択された音響モデルおよび上記選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段と
を備えた音響モデル作成装置。 - 上記モデル合成手段は、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
請求項1に記載の選択手段を、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段に代え、
請求項1に記載の最適化手段を、
上記ベース音響モデルまたは上記全選択音響モデルと、上記選択された学習データ
クラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
請求項1に記載の音響モデル作成装置。 - 請求項2に記載の選択手段は、
全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項2に記載の音響モデル作成装置。 - 上記モデル合成手段は、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
請求項1に記載の選択手段を、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択する選択手段に代え、
請求項1に記載の最適化手段を、
上記選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
請求項1に記載の音響モデル作成装置。 - 請求項4に記載の選択手段は、
全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択するものである請求項4に記載の音響モデル作成装置。 - 入力された学習データを分類基準に従って複数の学習データクラスタに分割して出力するデータ分類手段を備え、
上記記憶手段に記憶される各学習データクラスタは、上記データ分類手段によって出力されたものである
請求項1から請求項5のいずれかに記載の音響モデル作成装置。 - 1つまたは複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルと、基本的なクラスタ十分統計量のセット(以下、「基本クラスタセット」という。)とを記憶する記憶手段と、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習手段と、
上記基本クラスタセットから音響モデル(以下、「基本音響モデル」という。)を合成し、さらに、上記基本クラスタセットと学習手段によって算出された上記各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル(以下、「追加音響モデル」という。)をそれぞれ合成するモデル合成手段と、
上記基本音響モデルおよび上記各追加音響モデルを、上記評価用データおよび上記
評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価手段と、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段と、
上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段と
を備えた音響モデル作成装置。 - 請求項7に記載の選択手段は、
基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項7に記載の音響モデル作成装置。 - 記憶手段には、基本クラスタセットを構成するクラスタ十分統計量に対応する学習データクラスタも記憶しており、
上記モデル合成手段は、
上記基本音響モデルおよび上記各追加音響モデルを合成し、さらに、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分音響モデル」という。)をそれぞれ合成するものであり、
上記モデル評価手段は、
上記基本音響モデル、上記各追加音響モデルおよび上記各部分音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するものであり、
請求項7に記載の選択手段を、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段に代え、
請求項7に記載の最適化手段を、
上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
請求項7に記載の音響モデル作成装置。 - 請求項9に記載の選択手段は、
基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ=γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項9に記載の音響モデル作成装置。 - 記憶手段には、複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルとが記憶されており、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習ステップと、
学習ステップにおいて算出された各クラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成するモデル合成ステップと、
モデル合成ステップにおいて合成された各音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価ステップと、
モデル評価ステップにおいて出力された各評価結果のうち所定の評価結果を与えた音響モデルと、当該音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する選択ステップと、
選択ステップにおいて選択された音響モデルおよび選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップと
を有する音響モデル作成方法。 - 上記モデル合成ステップは、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
請求項11に記載の選択ステップを、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップに代え、
請求項11に記載の最適化ステップを、
上記ベース音響モデルまたは上記全選択音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
請求項11に記載の音響モデル作成方法。 - 請求項12に記載の選択ステップは、
全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項12に記載の音響モデル作成方法。 - 上記モデル合成ステップは、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
請求項11に記載の選択ステップを、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデル
の合成において除外されたクラスタ十分統計量を選択する選択ステップに代え、
請求項11に記載の最適化ステップを、
上記選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
請求項11に記載の音響モデル作成方法。 - 請求項14に記載の選択ステップは、
全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択するものである請求項14に記載の音響モデル作成方法。 - 入力された学習データを分類基準に従って複数の学習データクラスタに分割して出力するデータ分類ステップを有し、
上記記憶手段に記憶される各学習データクラスタは、上記データ分類ステップにおいて出力されたものである
請求項11から請求項15のいずれかに記載の音響モデル作成方法。 - 記憶手段には、1つまたは複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルと、基本的なクラスタ十分統計量のセット(以下、「基本クラスタセット」という。)とが記憶されており、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習ステップと、
上記基本クラスタセットから音響モデル(以下、「基本音響モデル」という。)を合成し、さらに、上記基本クラスタセットと学習ステップにおいて算出された上記各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル(以下、「追加音響モデル」という。)をそれぞれ合成するモデル合成ステップと、
モデル合成ステップにおいて合成された基本音響モデルおよび各追加音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価ステップと、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップと、
上記基本音響モデルまたは上記各評価結果のうち所定の評価結果を与えた追加音響モデルと、選択ステップにおいて選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップと
を有する音響モデル作成方法。 - 請求項17に記載の選択ステップは、
基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項17に記載の音響モデル作成方法。 - 記憶手段には、基本クラスタセットを構成するクラスタ十分統計量に対応する学習
データクラスタも記憶しており、
上記モデル合成ステップは、
上記基本音響モデルおよび上記各追加音響モデルを合成し、さらに、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分音響モデル」という。)をそれぞれ合成するものであり、
上記モデル評価ステップは、
上記基本音響モデル、上記各追加音響モデルおよび上記各部分音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するものであり、
請求項17に記載の選択ステップを、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップに代え、
請求項17に記載の最適化ステップを、
上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
請求項17に記載の音響モデル作成方法。 - 請求項19に記載の選択ステップは、
基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ=γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項19に記載の音響モデル作成方法。 - コンピュータに請求項11から請求項20のいずれかに記載の音響モデル作成方法を実行させるための音響モデル作成プログラム。
- 請求項21に記載の音響モデル作成プログラムを記録したコンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006075374A JP4571922B2 (ja) | 2006-03-17 | 2006-03-17 | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006075374A JP4571922B2 (ja) | 2006-03-17 | 2006-03-17 | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007249051A JP2007249051A (ja) | 2007-09-27 |
JP4571922B2 true JP4571922B2 (ja) | 2010-10-27 |
Family
ID=38593385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006075374A Active JP4571922B2 (ja) | 2006-03-17 | 2006-03-17 | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4571922B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069308A1 (ja) * | 2006-12-08 | 2008-06-12 | Nec Corporation | 音声認識装置および音声認識方法 |
JP5229478B2 (ja) * | 2008-12-25 | 2013-07-03 | 日本電気株式会社 | 統計モデル学習装置、統計モデル学習方法、およびプログラム |
JP6078402B2 (ja) * | 2013-04-01 | 2017-02-08 | 日本電信電話株式会社 | 音声認識性能推定装置とその方法とプログラム |
JP6586788B2 (ja) * | 2014-11-20 | 2019-10-09 | 株式会社リコー | 情報処理装置、情報処理方法、およびプログラム |
JP7176285B2 (ja) * | 2018-08-08 | 2022-11-22 | 株式会社デンソー | 訓練データ評価装置、訓練データ評価方法、およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234214A (ja) * | 2004-02-19 | 2005-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
-
2006
- 2006-03-17 JP JP2006075374A patent/JP4571922B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234214A (ja) * | 2004-02-19 | 2005-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2007249051A (ja) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227603B2 (en) | System and method of video capture and search optimization for creating an acoustic voiceprint | |
JP4427530B2 (ja) | 音声認識装置、プログラムおよび音声認識方法 | |
JP4571822B2 (ja) | テキストおよび音声の分類のための言語モデルの判別トレーニング | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US20140114663A1 (en) | Guided speaker adaptive speech synthesis system and method and computer program product | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
CN104835493A (zh) | 语音合成字典生成装置和语音合成字典生成方法 | |
JP4571922B2 (ja) | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
CN100565671C (zh) | 声道谐振跟踪方法 | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP4890518B2 (ja) | 複数言語モデルによる統合音声認識装置 | |
JP6676009B2 (ja) | 話者判定装置、話者判定情報生成方法、プログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
Bernard et al. | Shennong: A Python toolbox for audio speech features extraction | |
JP3525082B2 (ja) | 統計モデル作成方法 | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
Zhou et al. | Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech Synthesis. | |
JP5366050B2 (ja) | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100813 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4571922 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |