JP4571922B2

JP4571922B2 - 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体

Info

Publication number: JP4571922B2
Application number: JP2006075374A
Authority: JP
Inventors: 哲小橋川; 克年大附; 厚徳小川; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-03-17
Filing date: 2006-03-17
Publication date: 2010-10-27
Anticipated expiration: 2026-03-17
Also published as: JP2007249051A

Description

本発明は、音声信号から算出した音響特徴量と音声単位カテゴリとの関係を表現する確率モデルである音響モデルを作成する技術に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model；以下「ＨＭＭ」と表す。）によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。

ＨＭＭに代表される音響モデルは、学習データから学習して蓄積した十分統計量を用いて生成される。近年では、学習データ量は膨大になり、５００時間を越える学習データ量を擁する学習データが音響モデル作成に用いられるようになっている（非特許文献１参照。）。従来、音響モデルの学習に用いる学習データ（具体例としては音声データと、この音声データに対応付けた音声単位カテゴリによるラベルである。）は、予定している音声認識対象となる音声と音響的に近い音声（環境などの音声認識用途であるタスク、発話スタイル、話者等をメルクマールとする。）を一から収集するか、既存の音声データベースから人手で選定したりしていた。

図１６に従来の音響モデル作成装置の機能構成例、図１７に従来の音響モデル作成処理手順を示す。
従来手法では、学習部（９３）は、初期音響モデルであるベース音響モデル（９２）および学習データ（９１）を用いて十分統計量（９４）を算出する（ステップＳ９１）。

学習部（９３）による学習処理の一例は、学習データ（９１）を構成するラベル対応の音声データの音響分析を行い、この音響分析結果をＨＭＭの状態からの出力信号系列と見立てて、Baum-Welchアルゴリズムによって、音声単位カテゴリ毎に（ベース音響モデル（９２）が与えられた下での）ＨＭＭの最尤パラメータを求めるための統計量を算出するものである。この統計量が、十分統計量である。

なお、ここでは、音声データの音響分析を学習部（９３）の学習処理に含める構成として説明したが、例えば、学習部（９３）とは別の音響分析部によってラベル対応の音声データを音響分析する構成などとしてもよい。また、学習データを、既述のように音声データとこの音声データに対応付けた音声単位カテゴリによるラベルから構成するのではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音声単位カテゴリによるラベルから構成するなどとしてもよい。
しかしながら、このような構成の異同は本発明との関係で要をなすものではないので、既述の構成であるとして便宜的に説明を進める。

十分統計量（９４）とは、ＨＭＭを特徴付けるパラメータであり、具体例を説明する。ラベル対応の音声データの音響特徴量と音声単位カテゴリとの関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、１個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第ｉ次元ケプストラム〔ＬＰＣケプストラム、ＭＦＣＣ（メル周波数ケプストラム係数）なども含む。以下同様。〕、第ｉ次元Δケプストラム（ケプストラム係数の１次差分）、第ｉ次元ΔΔケプストラム（Δケプストラム係数の１次差分）などのケプストラム係数および対数パワー、Δ対数パワー（対数パワーの１次差分）、ΔΔ対数パワー（Δ対数パワーの１次差分）の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各多次元正規分布の平均、分散や混合重み、状態遷移確率を計算するための統計量が十分統計量（９４）である。

ステップＳ９１の処理に続いて、モデル合成部（９５）は、十分統計量（９４）から音響モデルを合成する（ステップＳ９２）。十分統計量から音響モデルを合成する方法は非特許文献２に詳しい。

また、従来では、学習にかかる時間を削減するため、学習データを分割し、複数の計算機を用いて学習（十分統計量算出）を行うことで、全体の学習時間を短縮することもあった。
S. Furui, "Recent Progress in Corpus-Based Spontaneous Speech Recognition", IEICE Trans. Inf. & Syst., Vol.E88-D, No.3, 2005 Lawrence Rabiner, Biing-Hwang Juang 共著、古井貞熙監訳、"音声認識の基礎（下）"、ＮＴＴアドバンステクノロジ、１９９５

音響モデルの学習には、学習データ量に応じた学習時間がかかる。近年、学習データ量の増加に伴い、音響モデル学習にかかる時間コストは膨大となっていた。学習にかかる時間を削減するため、学習データを分割し、複数の計算機を用いて学習（十分統計量蓄積）を行うとしても、学習データの中には、認識性能向上に寄与しない妨害データも存在し、この妨害データの存在によって認識性能が劣化してしまうことがあった。また、複数の学習データを用いて学習を行う場合にも同様の問題があった。

そこで、本発明は、上記の問題点に鑑み、高い認識性能を実現する高精度な音響モデルを短い学習時間で作成することを目的とする。

上記課題を解決するために、本発明は、次のようにして最適音響モデルを作成する。即ち、ベース音響モデルおよび、複数の学習データクラスタを用いて、各学習データクラスタに対応した十分統計量（クラスタ十分統計量）を得る。そして、各クラスタ十分統計量のうち１つあるいは複数の組み合わせから音響モデルを合成して、各音響モデルを、評価用データおよび評価用言語モデルを用いて評価する。この各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルを選択する。
このように、複数の学習データクラスタに対応した各クラスタ十分統計量のうち、その１つあるいは複数の組み合わせから種々の音響モデルを合成し、これらのうち評価用データについて高い評価結果を与える音響モデルを選び出すのである。

また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルと、この音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する。そして、この選択された音響モデルおよび選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。
このように、所定の評価結果に基づいて選択された音響モデルおよび選択された学習データクラスタを用いることで高精度の音響モデルを作成する。

また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル（以下、「全選択音響モデル」という。）を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分選択音
響モデル」という。）をそれぞれ合成する。これらの音響モデルついて上記評価を行ない、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する。そして、ベース音響モデルあるいは全選択音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、全選択音響モデルの評価結果αに対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる部分選択音響モデルの評価結果としてもよい。
これは、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断できることに基づく。

また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記全選択音響モデルと上記各部分選択音響モデルをそれぞれ合成する。これらの音響モデルついて上記評価を行ない、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択する。そして、選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、全選択音響モデルの評価結果αに対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる部分選択音響モデルの評価結果としてもよい。
これは、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量が認識性能向上に寄与すると判断できることに基づく。

また、次のようにして最適音響モデルを作成するとしてもよい。即ち、入力された学習データを分類基準に従って複数の学習データクラスタに分割する。
これによれば、学習データとして例えば既存の汎用的な大量学習データを用いる場合、タスクなどに応じて適切な分類基準で学習データクラスタを作成することができる。

上記課題を解決するために、本発明は、次のようにして最適音響モデルを作成するとしてもよい。即ち、基本的なクラスタ十分統計量のセット（以下、「基本クラスタセット」という。）を準備しておき、この基本クラスタセットとは別に上記で述べたように各クラスタ十分統計量を算出する。そして、基本クラスタセットから音響モデル（以下、「基本音響モデル」という。）を合成し、基本クラスタセットと基本クラスタセットを構成しない各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル（以下、「追加音響モデル」という。）をそれぞれ合成する。基本音響モデルおよび各追加音響モデルを、評価用データおよび評価用言語モデルを用いて評価する。そして、基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する。基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、基本音響モデルの評価結果βに対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる追加音響モデルの評価結果としてもよい。
これは、基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断できることに基づく。

また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記基本音響モデルおよび上記各追加音響モデルを合成することに加え、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分音響モデル」という。）をそれぞれ合成する。基本音響モデル、各追加音響モデルおよび各部分音響モデルについて上記評価を行なう。基本音響モデルの評価結果に対して所定の評価結果（ａ）を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および／または、基本音響モデルの評価結果に対して所定の評価結果（ｂ）を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタ（基本クラスタセットを構成するクラスタ十分統計量に対応する学習データクラスタである。）を選択する。そして、基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果（ａ）を、基本音響モデルの評価結果βに対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる追加音響モデルの評価結果とし、所定の評価結果（ｂ）を、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ＝γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる部分音響モデルの評価結果としてもよい。

また、本発明の音響モデル作成方法の処理手順をコンピュータに実行させる音響モデル作成プログラムによって、コンピュータを音響モデル作成装置として作動処理させることができる。そして、この音響モデル作成プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音響モデル作成装置として機能させることや、音響モデル作成プログラムを流通させることなどが可能になる。

本発明によれば、複数の学習データクラスタに対応した各クラスタ十分統計量のうち、その１つあるいは複数の組み合わせから種々の音響モデルを合成し、これらのうち評価用データについて高い評価結果を与える音響モデルを選び出すことから、高い認識性能を実現する高精度な音響モデルを作成することができる。また、種々の音響モデルに対する所定の評価結果に基づいて音響モデルや学習データクラスタなどを選択することで、高精度の音響モデルを短時間で作成できる。

《第１実施形態》
本発明の第１実施形態について、図面を参照しながら説明する。
＜第１実施形態の音響モデル作成装置＞
図１に例示するように、音響モデル作成装置（１）は、キーボードなどが接続可能な入力部（１１）、液晶ディスプレイなどが接続可能な出力部（１２）、ＣＰＵ（Central Processing Unit;１４）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）（１５）、ＲＯＭ（Read Only Memory）（１６）やハードディスクである外部記憶装置（１７）、並びにこれらの入力部（１１）、出力部（１２）、ＣＰＵ（１４）、ＲＡＭ（１５）、ＲＯＭ（１６）、外部記憶装置（１７）間のデータのやり取りが可能なように接続するバス（１８）などを備えている。また必要に応じて、音響モデル作成装置（１）に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

音響モデル作成装置（１）の外部記憶装置（１７）には、音響モデル作成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭ（１５）などに適宜に保存記憶される。

本実施形態では、外部記憶装置（１７）の所定の記憶領域であるベース音響モデル格納部に初期音響モデルであるベース音響モデル（１１２）がデータとして保存記憶されている。ベース音響モデル（１１２）は、例えば、適当な音声データに対して、書き起こしテキストの発音形（カナ）に対応する音素（各実施形態では説明の便宜から音声単位として音素を用いるとする。）をラベリングしてモノフォンラベルを作成し（強制的にショートポーズを入れてアライメントを行うとする。）、３状態left-to-right型ＨＭＭ構造で作成したモデルなどである。

また、外部記憶装置（１７）には、学習データ（１１１）が保存記憶されている。学習データ（１１１）〔各実施形態では説明の便宜から、音声データおよびこの音声データに対応付けた音素カテゴリのラベルで構成されるとする。〕は、予め複数（Ｎ個）のデータに分割されているとする。この各データを『学習データクラスタ』と呼ぶことにする。つまり、学習データ（１１１）は、学習データクラスタ［１］（１１１−１）、学習データクラスタ［２］（１１１−２）、・・・、学習データクラスタ［Ｎ］（１１１−Ｎ）で構成される。なお、各学習データクラスタは１つの学習データを分割したものに限定されず、例えば、複数の学習データを用意し、それぞれを各別の学習データクラスタに見立てるとしてもよいし、あるいは、学習データクラスタは、複数の学習データをマージ（merge）したものとすることでもよい。さらに、このような場合に学習データクラスタを複数用意すれば、同じ内容の学習データクラスタが存在しえることになるが、本発明はこのような場合も許容しえるものである。換言すれば、複数の学習データクラスタはそれぞれ異なるものが望ましいが、同じ内容の学習データクラスタが存在しえる場合にも本発明を実施することは可能である〔このことは各実施形態等において同様である。〕。

さらに、外部記憶装置（１７）には、音響モデルを評価するための評価用データ（１１８）〔評価用データは、評価用の音声データおよびこの音声データに対応付けた正解の音素カテゴリラベルで構成されるとする。また、評価用音声データは、予定している音声認識対象となる音声と音響的に近いものとするのが良い。〕、および評価用言語モデル（１１９）がデータとして保存記憶されている。

また外部記憶装置（１７）には、ベース音響モデルと学習データクラスタとから十分統計量（以下、学習データクラスタに基づく十分統計量を「クラスタ十分統計量」と言う。）を算出するためのプログラム、１つないし複数のクラスタ十分統計量から音響モデルを合成するためのプログラム、音響モデルを評価するためのプログラム、評価結果から音響モデルを選択するためのプログラムが保存記憶されている。

音響モデル作成装置（１）では、外部記憶装置（１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＣＰＵ（１４）で解釈実行・処理される。この結果、ＣＰＵ（１４）が所定の機能（学習部、モデル合成部、モデル評価部、選択部）を実現することで音響モデルの作成が実現される。

＜第１実施形態の概要＞
第１実施形態では、学習データクラスタ毎にクラスタ十分統計量を蓄積し、蓄積されたそれぞれのクラスタ十分統計量のうち１つあるいは複数の組み合わせから音響モデルを合成する。そして、各クラスタ十分統計量のうち１つあるいは複数の組み合わせに応じて得られたそれぞれの音響モデルを、評価用データ（１１８）および評価用言語モデル（１１９）を用いて評価し、所定の評価結果として最高の認識性能を達成する音響モデルを最適音響モデルとして特定する。なお、所定の評価結果を最高の認識性能に限定せず、閾値に対する相対評価などによって認識率が向上するという良い評価を所定の評価結果としてもよい。

＜第１実施形態の音響モデル作成処理＞
次に、図２および図３を参照して、音響モデル作成装置（１）における音響モデル作成処理の流れを叙述的に説明する。

まず、学習部（１１３）は、学習データクラスタ［１］（１１１−１）、学習データクラスタ［２］（１１１−２）、・・・、学習データクラスタ［Ｎ］（１１１−Ｎ）およびベース音響モデル（１１２）をＲＡＭ（１５）から読み込み、ベース音響モデル（１１２）と各学習データクラスタとを用いて、各学習データクラスタに対応した十分統計量（１１４）を算出する（ステップＳ１）。
つまり、学習部（１１３）は、学習データクラスタ［１］（１１１−１）およびベース音響モデル（１１２）からクラスタ十分統計量［１］（１１４−１）を算出し、同様に、学習データクラスタ［２］（１１１−２）およびベース音響モデル（１１２）からクラスタ十分統計量［２］（１１４−２）を算出し、・・・、学習データクラスタ［Ｎ］（１１１−Ｎ）およびベース音響モデル（１１２）からクラスタ十分統計量［Ｎ］（１１４−Ｎ）を算出するのである。Ｎ個のクラスタ十分統計量［１］（１１４−１）、クラスタ十分統計量［２］（１１４−２）、・・・、クラスタ十分統計量［Ｎ］（１１４−Ｎ）はＲＡＭ（１５）などに適宜に保存記憶される。

学習部（１１３）による学習処理は、従来手法と同様である。例えば、既述のとおり、各学習データクラスタにおけるラベル対応の音声データの音響分析を行い、この音響分析結果をＨＭＭの状態からの出力信号系列と見立てて、Baum-Welchアルゴリズムによって、音素カテゴリ毎に（ベース音響モデル（１１２）が与えられた下での）ＨＭＭの最尤パラメータを求めるための統計量を算出する。この統計量が、クラスタ十分統計量である。
なお、既述のとおりであるが、音声データの音響分析を学習部（１１３）の学習処理に含める構成に限定するものではなく、例えば、学習部（１１３）とは別の音響分析部によってラベル対応の音声データを音響分析する構成などとしてもよい。また、学習データクラスタを、音声データとこの音声データに対応付けた音素カテゴリによるラベルから構成するのではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音素カテゴリによるラベルから構成するなどとしてもよい。
さらに既述のとおり、このような構成の異同は本発明の要諦に影響をもたらすものではないので、上記記載の実施形態の構成であるとして説明を進める。

また各クラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）についても、従来と同様である。ラベル対応の音声データの音響特徴量と音素カテゴリとの関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、１個あるいは複数の多次元正規分布を混合した確率分布である。ここで多次元正規分布は、一般的に第ｉ次元ケプストラム〔ＬＰＣケプストラム、ＭＦＣＣ（メル周波数ケプストラム係数）なども含む。以下同様。〕、第ｉ次元Δケプストラム（ケプストラム係数の１次差分）、第ｉ次元ΔΔケプストラム（Δケプストラム係数の１次差分）などのケプストラム係数および対数パワー、Δ対数パワー（対数パワーの１次差分）、ΔΔ対数パワー（Δ対数パワーの１次差分）の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各多次元正規分布の平均、分散や混合重み、状態遷移確率を計算するための統計量がクラスタ十分統計量である。

次に、モデル合成部（１１５）は、ＲＡＭ（１５）から読み込んだ各クラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）のうち１つあるいは複数の組み合わせから音響モデル（１１６）を合成する（ステップＳ２）。第１実施形態において『１つあるいは複数の組み合わせ』とは、考えうる全ての網羅的な組み合わせを云うものとする。

このことを具体的に説明すると、モデル合成部（１１５）は、Ｎ個のクラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）から、それぞれ異なるΣ_ｊ＝１ ^Ｎ _ＮＣ_ｊ個の音響モデルを作成するということである。ここで_ＮＣ_ｊは、Ｎ個のものから重複を許さずｊ個を選択した組み合わせ数を表す。また、記号Ｍについて、Ｍ＝Σ_ｊ＝１ ^Ｎ _ＮＣ_ｊ＝_ＮＣ_１＋_ＮＣ_２＋_ＮＣ_３＋・・・＋_ＮＣ_Ｎとする。
つまり、モデル合成部（１１５）は、例えばクラスタ十分統計量［１］（１１４−１）からは音響モデル［１］（１１６−１）を合成し、クラスタ十分統計量［１］（１１４−１）およびクラスタ十分統計量［２］（１１４−２）からは音響モデル［１＋２］（１１６−２）を合成し、クラスタ十分統計量［１］（１１４−１）、クラスタ十分統計量［２］（１１４−２）およびクラスタ十分統計量［３］（１１４−３）からは音響モデル［１＋２＋３］（１１６−３）を合成し、・・・、クラスタ十分統計量［５］およびクラスタ十分統計量［９］（１１４−３）からは音響モデル［５＋９］を合成し、・・・、全てのクラスタ十分統計量からは音響モデル［Ｎ＋（Ｎ−１）＋・・・＋１］（１１６−Ｍ）を合成するのである。複数のクラスタ十分統計量から音響モデルを合成するモデル合成処理は上記非特許文献２などに詳しい。Ｍ個の音響モデル（１１６−１）（１１６−２）・・・（１１６−Ｍ）はＲＡＭ（１５）などに適宜に保存記憶される。

なお、第１実施形態では『１つあるいは複数の組み合わせ』を、考えうる全ての網羅的な組み合わせを云うものとした。しかし、学習データクラスタ数（＝クラスタ十分統計量の数）が多い場合、この網羅的な組み合わせ数はとても多くなるので、任意の組み合わせで音響モデルを合成するようにしてもよい。つまり、任意の組み合わせでＭ個よりも少ない音響モデルを合成することでもよい。

続いて、モデル評価部（１１７）は、各音響モデル（１１６−１）（１１６−２）・・・（１１６−Ｍ）、評価用データ（１１８）および評価用言語モデル（１１９）をＲＡＭ（１５）から読み込み、各音響モデルと評価用言語モデル（１１９）とを用いて評価用データ（１１８）に対する認識率を求め、これを各音響モデルの評価結果として算出する（ステップＳ３）。
評価結果である認識率の差異は、同じ評価用データ（１１８）および評価用言語モデル（１１９）を用いて評価していることから、各音響モデル（１１６−１）（１１６−２）・・・（１１６−Ｍ）の差異に基づく。評価用音声データの認識率の算出は公知の方法によって達成される。

続いて、選択部（１２０）は、各音響モデル（１１６−１）（１１６−２）・・・（１１６−Ｍ）の評価結果に基づき、最高の評価結果を与えた音響モデルを選択して最適音響モデル（１２３）として出力する（ステップＳ４）。この最適音響モデル（１２３）が、予定する音声認識に対して最適な音響モデルとなっている。
第１実施形態では、最高の評価結果を与えた音響モデルを選択するとしたが、例えば予め閾値を設定しておき、この閾値以上（あるいは閾値よりも大）の評価結果を与えた音響モデルを選択するようにしてもよい。この場合、複数の音響モデルが選択されえるが、これらが予定する音声認識に対して最適な音響モデルの候補となる。換言すれば、この閾値を厳しく設定することで１個の音響モデルを出力することもできるし、あるいは、１個の音響モデルを出力することに限定したくない場合には、閾値を緩く設定することで複数の音響モデルを最適音響モデルの候補として出力するようにすることもできる。なお、この閾値は予め外部記憶装置（１７）に保存記憶しておくとする。

この第１実施形態は、ベース音響モデル（１１２）を基準とすると、１回の学習によって最適音響モデル（１２３）を得る構成となっている。

なお、各学習データクラスタのデータ量を均等化することで、学習データ量の影響を低減することもできる。また、評価用データを、予定している音声認識のタスクなどに応じて変更することで、当該タスクなどに最適な音響モデルを作成することができる。

《第２実施形態》
本発明の第２実施形態について、図面を参照しながら説明する。
＜第２実施形態の概要＞
第２実施形態では、学習データクラスタ毎にクラスタ十分統計量を蓄積し、蓄積されたそれぞれのクラスタ十分統計量のうち１つあるいは複数の組み合わせから音響モデルを合成する。そして、各クラスタ十分統計量のうち１つあるいは複数の組み合わせに応じて得られたそれぞれの音響モデルを、評価用データ（１１８）および評価用言語モデル（１１９）を用いて評価する。さらに、所定の評価結果として最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタとから音響モデルの合成を行ない〔以下、「最適化処理」と云う。〕、この最適化処理で出力された音響モデルを最適音響モデルとして特定する。なお、所定の評価結果を最高の認識性能に限定せず、閾値に対する相対評価などによって認識率が向上するという良い評価としてもよい。

＜第２実施形態の音響モデル作成装置＞
第２実施形態の音響モデル作成装置は、第１実施形態の音響モデル作成装置と同様のハードウェア構成であり、第１実施形態と異なる部分について説明を行う。
第２実施形態では、外部記憶装置（１７）に、第１実施形態のプログラムに加え、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタとから最適化処理を行うためのプログラムも保存記憶されている。また、第１実施形態において選択部（１２０）を実現するためのプログラム―評価結果から音響モデルを選択するためのプログラム―は、第２実施形態では、評価結果から音響モデルおよび学習データクラスタを選択するためのプログラムとする。

第２実施形態の音響モデル作成装置（１）では、外部記憶装置（１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＣＰＵ（１４）で解釈実行・処理される。この結果、ＣＰＵ（１４）が所定の機能（学習部、モデル合成部、モデル評価部、選択部、最適化部）を実現することで音響モデルの作成が実現される。

＜第２実施形態の音響モデル作成処理＞
次に、図４および図５を参照して、第２実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第１実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。

第２実施形態における音響モデル作成処理では、第１実施形態におけるステップＳ３の処理に続いて次の処理を行う。
即ち、選択部（１２０ａ）は、各音響モデル（１１６−１）（１１６−２）・・・（１１６−Ｍ）の評価結果に基づき、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する（ステップＳ４ａ）。
例えばステップＳ３の処理において最高の評価結果を与えた音響モデルを音響モデル［５＋９］とした場合、この音響モデル［５＋９］を選択し、さらに、音響モデル［５＋９］作成に用いられたクラスタ十分統計量［５］およびクラスタ十分統計量［９］に対応する学習データクラスタ［５］および学習データクラスタ［９］を選択する。
なお、第２実施形態においては、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択するとしたが、予め閾値を設定しておき、この閾値以上（あるいは閾値よりも大）の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択するようにしてもよい。

次に、最適化部（１２１）は、選択された音響モデルおよび選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力する（ステップＳ５）。
最適化部（１２１）の最適化処理は、学習部（１１３）の学習処理とモデル合成部（１１５）のモデル合成処理との複合処理である。但し、モデル合成部（１１５）のモデル合成処理はＭ個の音響モデルを作成したが、最適化部（１２１）の最適化処理では１個の音響モデルを作成する。
つまり、音響モデル［５＋９］が選択された場合を例にとって説明すると、最適化部（１２１）は、学習データクラスタ［５］および音響モデル［５＋９］からクラスタ十分統計量［５opt］を算出し、同様に、学習データクラスタ［９］および音響モデル［５＋９］からクラスタ十分統計量［９opt］を算出する。そして、最適化部（１２１）は、クラスタ十分統計量［５opt］およびクラスタ十分統計量［９opt］からモデル合成処理を行なって１つの音響モデルを出力する。この音響モデルが最適音響モデル（１２３）である。

以上の第２実施形態は、ベース音響モデル（１１２）を基準とすると、２回の学習によって最適音響モデル（１２３）を得る構成となっている。

＜第２実施形態の変形例その１＞
最適化部（１２１）による最適化処理は、次のような処理形態とすることも可能である。音響モデル［５＋９］が選択された場合を例にとって説明すると、最適化部（１２１）は、学習データクラスタ［５］および学習データクラスタ［９］をマージ（merge）して学習データクラスタ［５＋９］を生成し、この学習データクラスタ［５＋９］および音響モデル［５＋９］からクラスタ十分統計量［（５＋９）opt］を算出して、このクラスタ十分統計量［（５＋９）opt］を最適音響モデルとするのである。
このような処理形態でも良いが、一般的には、（マージしないで）各別の学習データクラスタと音響モデルとを用いた学習処理は、複数のコンピュータによって分散処理できるから、マージした学習データクラスタと音響モデルとから学習処理を行って音響モデルを得る処理時間は、マージしないで各別の学習データクラスタと音響モデルとから学習処理を行い、得られたクラスタ十分統計量に対してモデル合成処理を行って音響モデルを得る処理時間よりも長くなる。

＜第２実施形態の変形例その２＞
第２実施形態の変形例その１に対する変形例を説明する。
音響モデル［５＋９］が選択された場合を例にとって説明すると、最適化部（１２１）は、学習データクラスタ［５］および学習データクラスタ［９］をマージ（merge）して学習データクラスタ［５＋９］を生成する。そして、この学習データクラスタ［５＋９］を適切な分類基準に従ってｓ個に再分割して、学習データクラスタ［ｇ］（ｇ＝１，２，・・・，ｓ）を得る。このｓ個の各学習データクラスタ［ｇ］および音響モデル［５＋９］から、第２実施形態で説明したのと同様にしてクラスタ十分統計量［（５＋９）opt］を得る。適切な分類基準に従った再分割は、例えば後述する第４実施形態のデータ分類部によって行われる。

＜第２実施形態の変形例その３＞
また、上記ステップＳ５で『最適化部（１２１）は、クラスタ十分統計量［５opt］およびクラスタ十分統計量［９opt］からモデル合成処理を行なって１つの音響モデルを出力する』と説明したが、複数の音響モデルを出力する構成とすることもできる。
つまり、最適化部（１２１）は、クラスタ十分統計量［５opt］およびクラスタ十分統計量［９opt］からモデル合成処理を行なって、音響モデル［５opt］、音響モデル［９opt］、音響モデル［５opt＋９opt］を作成するのである。この場合は全部で３つの音響モデルを生成したが、これはΣ_ｊ＝１ ^２ _２Ｃ_ｊ＝_２Ｃ_１＋_２Ｃ_２＝３であることに基づく。つまり、最適化部（１２１）は、モデル合成部（１１５）と同等のモデル合成処理を行っている。
この場合、最適化部（１２１）で得られた複数の音響モデル（場合によっては１つの音響モデルの場合もあることに留意すること。）をモデル合成部（１１５）で得られた音響モデル（１１６）に見立てて、モデル評価部（１１７）によるモデル評価処理および選択部（１２０ａ）による選択処理を適用し、再度、最適化部（１２１）による最適化処理を行って最適音響モデル（１２３）を得る構成とする。つまり、この構成は、ベース音響モデル（１１２）を基準とすると、３回の学習によって最適音響モデル（１２３）を得る構成となっている。
同様の処理を繰り返せば、ベース音響モデル（１１２）を基準として、複数回の学習によって最適音響モデル（１２３）を得る構成とすることができる。

《第３．１実施形態》
本発明の第３．１実施形態について、図面を参照しながら説明する。
＜第３．１実施形態の概要＞
第３．１実施形態では、全てのクラスタ十分統計量から合成した音響モデル［Ｎ＋（Ｎ−１）＋・・・＋１］〔全選択音響モデルである。〕の認識性能（Ａ）と、一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量から合成した音響モデル〔部分選択音響モデルである。〕の認識性能（Ｂ）とを比較する。認識性能（Ｂ）の認識性能（Ａ）に対する所定の評価結果の一例としてその差（Ａ−Ｂ）が閾値以上であれば、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断でき、この学習データクラスタを最適化処理に用いる学習データクラスタとして選択する。第３．１実施形態は、第２実施形態を基礎として、第２実施形態と異なる部分について説明を行う。なお、上記閾値を０とした場合を考えれば明らかなように、認識性能（Ｂ）が認識性能（Ａ）に比してそれ以下あるいはそれよりも小となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。

＜第３．１実施形態の音響モデル作成装置＞
第３．１実施形態の音響モデル作成装置は、第２実施形態の音響モデル作成装置と同様のハードウェア構成であり、第２実施形態と異なる部分について説明を行う。
第２実施形態において選択部（１２０）を実現するためのプログラムは、第３．１実施形態では、評価結果から学習データクラスタを選択するためのプログラムとする。
また、第２実施形態において最適化部（１２１）を実現するためのプログラムは、第３．１実施形態では、全てのクラスタ十分統計量から合成した音響モデルおよび選択された学習データクラスタから最適音響モデルを作成するためのプログラムとする。

第３．１実施形態の音響モデル作成装置（１）では、外部記憶装置（１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＣＰＵ（１４）で解釈実行・処理される。この結果、ＣＰＵ（１４）が所定の機能（学習部、モデル合成部、モデル評価部、選択部、最適化部）を実現することで音響モデルの作成が実現される。

＜第３．１実施形態の音響モデル作成処理＞
次に、図６および図７を参照して、第３．１実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第２実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。

第３．１実施形態における音響モデル作成処理では、第２実施形態におけるステップＳ１の処理に続いて次の処理を行う。
即ち、モデル合成部（１１５ｂ）は、ＲＡＭ（１５）から読み込んだ各クラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）のうち、全てのクラスタ十分統計量から、および、全てのクラスタ十分統計量から各別の１つのクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせ（部分選択クラスタ十分統計量）からそれぞれ異なる音響モデル（１１６ｂ）を合成する（ステップＳ２ｂ）。
つまり、モデル合成部（１１５ｂ）は、全てのクラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）から音響モデル［全選択］（１１６ｂ−０）を合成する。さらに、モデル合成部（１１５ｂ）は、全てのクラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）からクラスタ十分統計量［１］（１１４−１）を除外したＮ−１個のクラスタ十分統計量（１１４−２）（１１４−３）・・・（１１４−Ｎ）から音響モデル［１無し］（１１６ｂ−１）を合成し、全てのクラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）からクラスタ十分統計量［２］（１１４−２）を除外したＮ−１個のクラスタ十分統計量（１１４−１）（１１４−３）・・・（１１４−Ｎ）から音響モデル［２無し］（１１６ｂ−２）を合成し、・・・、全てのクラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）からクラスタ十分統計量［Ｎ］（１１４−Ｎ）を除外したＮ−１個のクラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−（Ｎ−１））から音響モデル［Ｎ無し］（１１６ｂ−Ｎ）を合成するのである。なお、音響モデル［全選択］（１１６ｂ−１）は、音響モデル［Ｎ＋（Ｎ−１）＋・・・＋１］（１１６−Ｍ）に相当する。Ｎ＋１個の音響モデル（１１６ｂ−０）（１１６ｂ−１）・・・（１１６ｂ−Ｎ）はＲＡＭ（１５）などに適宜に保存記憶される。

このステップＳ２ｂの処理に続いてステップＳ３ｂの処理を実行する。具体的には、モデル評価部（１１７ｂ）は、各音響モデル（１１６ｂ−０）（１１６ｂ−１）・・・（１１６ｂ−Ｎ）、評価用データ（１１８）および評価用言語モデル（１１９）をＲＡＭ（１５）から読み込み、各音響モデルと評価用言語モデル（１１９）とを用いて評価用データ（１１８）に対する認識率を求め、これを各音響モデルの評価結果として算出する（ステップＳ３ｂ）。
評価結果である認識率の差異は、同じ評価用データ（１１８）および評価用言語モデル（１１９）を用いて評価していることから、各音響モデル（１１６ｂ−０）（１１６ｂ−１）・・・（１１６ｂ−Ｎ）の差異に基づく。

続いて、選択部（１２０ｂ）は、各音響モデル（１１６ｂ−０）（１１６ｂ−１）・・・（１１６ｂ−Ｎ）の評価結果のうち所定の評価結果を与えた音響モデルの作成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する（ステップＳ４ｂ）。
ここで『所定の評価結果』とは、音響モデル［全選択］（１１６ｂ−０）の評価結果と、音響モデル［ｊ無し］（１１６ｂ−ｊ）〔ｊ＝１、２、・・・、Ｎ〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率５％とし、ステップＳ３ｂの処理において音響モデル［全選択］（１１６ｂ−０）の評価結果が７０％、音響モデル［５無し］の評価結果が６０％、音響モデル［９無し］の評価結果が６３％、その他の各音響モデルの評価結果が６５％よりも大であったとすると、音響モデル［５無し］および音響モデル［９無し］の各評価結果が、音響モデル［全選択］（１１６ｂ−０）の評価結果との差が閾値５％以上となる。そこで、選択部（１２０ｂ）は、音響モデル［５無し］および音響モデル［９無し］の作成で除外されたクラスタ十分統計量［５］およびクラスタ十分統計量［９］に対応する学習データクラスタ［５］およびを学習データクラスタ［９］を選択する。

ステップＳ４ｂの処理に続いてステップＳ５ｂの処理を実行する。最適化部（１２１ｂ）は、音響モデル［全選択］（１１６ｂ−０）および選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力する（ステップＳ５ｂ）。
最適化部（１２１ｂ）の最適化処理は、学習部（１１３）の学習処理とモデル合成部（１１５ｂ）のモデル合成処理との複合処理である。但し、モデル合成部（１１５ｂ）のモデル合成処理はＮ＋１個の音響モデルを作成したが、最適化部（１２１ｂ）の最適化処理では１個の音響モデルを作成する。
つまり、学習データクラスタ［５］および学習データクラスタ［９］が選択された場合を例にとって説明すると、最適化部（１２１ｂ）は、学習データクラスタ［５］および音響モデル［全選択］（１１６ｂ−０）からクラスタ十分統計量［５opt］を算出し、同様に、学習データクラスタ［９］および音響モデル［全選択］（１１６ｂ−０）からクラスタ十分統計量［９opt］を算出する。そして、最適化部（１２１ｂ）は、クラスタ十分統計量［５opt］およびクラスタ十分統計量［９opt］からモデル合成処理を行なって１つの音響モデルを出力する。この音響モデルが最適音響モデル（１２３）である。
なお、第３．１実施形態では、音響モデル［全選択］（１１６ｂ−０）および選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力するとしたが、ベース音響モデル（１１２）および選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力するとしてもよい。

《第３．２実施形態》
本発明の第３．２実施形態について、図面を参照しながら説明する。
＜第３．２実施形態の概要＞
第３．２実施形態では、全てのクラスタ十分統計量から合成した音響モデル［Ｎ＋（Ｎ−１）＋・・・＋１］〔全選択音響モデルである。〕の認識性能（Ａ）と、一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量から合成した音響モデル〔部分選択音響モデルである。〕の認識性能（Ｂ）とを比較する。認識性能（Ｂ）の認識性能（Ａ）に対する所定の評価結果の一例としてその差（Ｂ−Ａ）が閾値以上であれば、除外したクラスタ十分統計量が認識性能向上に寄与すると判断でき、このクラスタ十分統計量を最適化処理に用いるクラスタ十分統計量として選択する。なお、上記閾値を０とした場合を考えれば明らかなように、認識性能（Ｂ）が認識性能（Ａ）に比してそれ以上あるいはそれよりも大となる場合に、除外したクラスタ十分統計量が認識性能向上に寄与すると判断することもできる。第３．２実施形態は、第３．１実施形態と類似するから、第３．１実施形態と異なる部分について説明を行う。

＜第３．２実施形態の音響モデル作成装置＞
第３．２実施形態の音響モデル作成装置は、第３．１実施形態の音響モデル作成装置と同様のハードウェア構成であり、第３．１実施形態と異なる部分について説明を行う。
選択部（１２０）を実現するためのプログラムは、第３．２実施形態では、評価結果からクラスタ十分統計量を選択するためのプログラムとする。
また、最適化部（１２１）を実現するためのプログラムは、第３．２実施形態では、選択されたクラスタ十分統計量から最適音響モデルを作成するためのプログラムとする。

第３．２実施形態の音響モデル作成装置（１）では、外部記憶装置（１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＣＰＵ（１４）で解釈実行・処理される。この結果、ＣＰＵ（１４）が所定の機能（学習部、モデル合成部、モデル評価部、選択部、最適化部）を実現することで音響モデルの作成が実現される。

＜第３．２実施形態の音響モデル作成処理＞
次に、図８および図９を参照して、第３．２実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第２実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。

第３．２実施形態における音響モデル作成処理では、第３．１実施形態におけるステップＳ３ｂの処理に続いてステップＳ４ｂ１の処理を行う。
即ち、選択部（１２０ｂ１）は、各音響モデル（１１６ｂ−０）（１１６ｂ−１）・・・（１１６ｂ−Ｎ）の評価結果のうち所定の評価結果を与えた音響モデルの作成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する（ステップＳ４ｂ１）。
ここで『所定の評価結果』とは、音響モデル［全選択］（１１６ｂ−０）の評価結果と、音響モデル［ｊ無し］（１１６ｂ−ｊ）〔ｊ＝１、２、・・・、Ｎ〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率５％とし、ステップＳ３ｂの処理において音響モデル［全選択］（１１６ｂ−０）の評価結果が７０％、音響モデル［５無し］の評価結果が７７％、音響モデル［９無し］の評価結果が７８％、その他の各音響モデルの評価結果が７５％よりも小であったとすると、音響モデル［５無し］および音響モデル［９無し］の各評価結果が、音響モデル［全選択］（１１６ｂ−０）の評価結果との差が閾値５％以上となる。そこで、選択部（１２０ｂ１）は、音響モデル［５無し］および音響モデル［９無し］の作成で除外されたクラスタ十分統計量［５］およびクラスタ十分統計量［９］に対応する学習データクラスタ［５］およびを学習データクラスタ［９］を選択する。

ステップＳ４ｂ１の処理に続いてステップＳ５ｂ１の処理を実行する。最適化部（１２１ｂ）は、音響モデル［全選択］（１１６ｂ−０）および選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力する（ステップＳ５ｂ１）。
最適化部（１２１ｂ１）の最適化処理は、モデル合成部（１１５ｂ）のモデル合成処理と同様である。但し、モデル合成部（１１５ｂ）のモデル合成処理はＮ＋１個の音響モデルを作成したが、最適化部（１２１ｂ１）の最適化処理では１個の音響モデルを作成する。
つまり、クラスタ十分統計量［５］およびクラスタ十分統計量［９］が選択された場合を例にとって説明すると、最適化部（１２１ｂ１）は、クラスタ十分統計量［５］およびクラスタ十分統計量［９］からモデル合成処理を行なって１つの音響モデルを出力する。この音響モデルが最適音響モデル（１２３）である。
なお、第３．２実施形態では、音響モデル［全選択］（１１６ｂ−０）および選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力するとしたが、ベース音響モデル（１１２）および選択された学習データクラスタに対して最適化処理を行って最適音響モデル（１２３）を出力するとしてもよい。

第３．１実施形態あるいは第３．２実施形態の構成によれば、評価すべき音響モデルの数がクラスタ数＋１程度であり、評価プロセスの計算量も大きくなくなり効率的な音響モデル作成手法である。但し、選択された学習データクラスタが必ずしも最適な組み合わせとは限らないため、閾値によって選択精度を制御する。即ち、閾値を厳しく設定する程、評価用データ―つまり、予定している音声認識対象音声―に適応した学習データクラスタが選択される。

《第４実施形態》
本発明の第４実施形態について、図面を参照しながら説明する。
＜第４実施形態の概要＞
第４実施形態は、膨大なデータ量である学習データを、適当な分類基準で複数の学習データクラスタに分類するデータ分類処理を含むものである。このデータ分類処理は、第１実施形態、第２実施形態、第３実施形態に組み合わせて適用できる。第４実施形態は、第２実施形態に組み合わせた場合として説明する。

＜第４実施形態の音響モデル作成装置＞
第４実施形態の音響モデル作成装置は、第２実施形態の音響モデル作成装置と同様のハードウェア構成であり、第２実施形態と異なる部分について説明を行う。
第４実施形態では、外部記憶装置（１７）に、第２実施形態のプログラムに加え、学習データを分類するためのプログラムも保存記憶されている。
また第２実施形態では、外部記憶装置（１７）にＮ個の学習データクラスタが保存記憶されているとしたが、第４実施形態では、外部記憶装置（１７）に分割前の学習データ（１１１ａ）が保存記憶されているとする。

第４実施形態の音響モデル作成装置（１）では、外部記憶装置（１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＣＰＵ（１４）で解釈実行・処理される。この結果、ＣＰＵ（１４）が所定の機能（データ分類部、学習部、モデル合成部、モデル評価部、選択部、最適化部）を実現することで音響モデルの作成が実現される。

＜第４実施形態の音響モデル作成処理＞
次に、図１０および図１１を参照して、第４実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第２実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。

データ分類部（１１０）は、学習データ（１１１ａ）を読み込み、予め設定された分類基準（例えば音響的距離尺度とする。）に従って、学習データ（１１１ａ）をＮ個の学習データクラスタ［１］（１１１−１）、学習データクラスタ［２］（１１１−２）、・・・、学習データクラスタ［Ｎ］（１１１−Ｎ）に分割して出力する（ステップＳ１ｐ）。
Ｎ個の学習データクラスタは、ＲＡＭ（１５）などに適宜に保存記憶される。図１０において、学習データ（１１１ｂ）は分割後の学習データクラスタの集合を示している。

ステップＳ１ｐの処理に続いて、第２実施形態のステップＳ１以降の処理が行われる。

分類基準は、音響的距離尺度に限らず、タスク、話者性別、発話スタイル、発話長などでもよい。例えば学習データの音声データに、音素カテゴリだけでなくタスクを識別するラベルも対応付けておくことで、このラベルを識別指標として分類することが可能になる。

タスク、性別、発話スタイル、発話長、音響的距離尺度などを分類基準とすると、効果的な学習データの種別が分かり、追加で収集すべきデータの種類も明らかになる。さらに、学習データ量を均等化して分類することによって、学習処理を均等化し、複数の計算機で並列に学習する際などに、効率的な学習が行える。このとき、学習データ量の差による効果の差が無くなり、重要な学習データクラスタが明確になり、追加すべき学習データの種類も一層明らかになる。

《第５実施形態》
本発明の第５実施形態について、図面を参照しながら説明する。
＜第５実施形態の概要＞
第５実施形態では、学習データクラスタの基本的な組み合わせから学習し終えたクラスタ十分統計量のセット（基本クラスタセット）を設定しておく。この基本クラスタセットから合成した基本音響モデルの認識性能（Ｃ）と、新たに追加した学習データクラスタから学習したクラスタ十分統計量および基本クラスタ十分統計量とから合成した追加音響モデルの認識性能（Ｄ）とを比較する。認識性能（Ｄ）の認識性能（Ｃ）に対する所定の評価結果の一例として認識性能の差（Ｄ−Ｃ）が閾値以上であれば、その追加したクラスタ十分統計量に対応する学習データクラスタは認識性能向上に寄与すると判断でき、最適化処理に用いる学習データクラスタとして選択する（このような構成を「追加型」ということにする。）。なお、上記閾値を０とした場合を考えれば明らかなように、認識性能（Ｄ）が認識性能（Ｃ）に比してそれ以上あるいはそれよりも大となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。

＜第５実施形態の音響モデル作成装置＞
第５実施形態の音響モデル作成装置は、第２実施形態の音響モデル作成装置と同様のハードウェア構成であり、第２実施形態と異なる部分について説明を行う。
外部記憶装置（１７）には、追加された学習データである追加学習データ（１１１ｃ）が保存記憶されている。追加学習データ（１１１ｃ）は、予め複数（ｎ個とする。但し、説明の便宜からｎ個としたまでで、上記各実施形態におけるＮ個と同じにする必要はない。）のデータに分割されているとする。この各データを『追加学習データクラスタ』と呼ぶことにする。つまり、追加学習データ（１１１ｃ）は、追加学習データクラスタ［１］（１１１ｃ−１）、追加学習データクラスタ［２］（１１１ｃ−２）、・・・、追加学習データクラスタ［ｎ］（１１１ｃ−ｎ）で構成される。勿論、第４実施形態のように、データ分類部によって追加学習データ（１１１ｃ）をｎ個の追加学習データクラスタに分類するようにしてもよい。なお、この追加学習データクラスタについても、第１実施形態で説明した学習データクラスタと同様に、例えば複数の追加学習データそれぞれを各別の追加学習データクラスタに見立てることなどができる〔既述した学習データクラスタの説明を参照のこと。〕。
さらに、外部記憶装置（１７）には、基本クラスタセット（１１４ｃ−０）が保存記憶されている。基本クラスタセット（１１４ｃ−０）は、学習データクラスタの基本的な組み合わせから学習し終えたクラスタ十分統計量のセットであり、例えば、第２実施形態で得られたクラスタ十分統計量（１１４）全体とする。

また、第２実施形態において最適化部（１２１）を実現するためのプログラムは、第５実施形態では、選択された追加学習データクラスタおよび基本クラスタセット（１１４ｃ−０）から合成した音響モデルから最適音響モデルを作成するためのプログラムとする。

第５実施形態の音響モデル作成装置（１）では、外部記憶装置（１７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＣＰＵ（１４）で解釈実行・処理される。この結果、ＣＰＵ（１４）が所定の機能（学習部、モデル合成部、モデル評価部、選択部、最適化部）を実現することで音響モデルの作成が実現される。

＜第５実施形態の音響モデル作成処理＞
次に、図１２および図１３を参照して、第５実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第２実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。

まず、学習部（１１３ｃ）は、追加学習データクラスタ［１］（１１１ｃ−１）、追加学習データクラスタ［２］（１１１ｃ−２）、・・・、追加学習データクラスタ［ｎ］（１１１ｃ−ｎ）およびベース音響モデル（１１２）をＲＡＭ（１５）から読み込み、ベース音響モデル（１１２）と各追加学習データクラスタとを用いて、各学習データクラスタに対応したｎ個のクラスタ十分統計量［１］（１１４ｃ−１）、クラスタ十分統計量［２］（１１４ｃ−２）、・・・、クラスタ十分統計量［ｎ］（１１４ｃ−ｎ）を算出する（ステップＳ１ｃ）。
ｎ個のクラスタ十分統計量［１］（１１４ｃ−１）、クラスタ十分統計量［２］（１１４ｃ−２）、・・・、クラスタ十分統計量［ｎ］（１１４ｃ−ｎ）はＲＡＭ（１５）などに適宜に保存記憶される。これらのｎ個のクラスタ十分統計量［１］（１１４ｃ−１）、クラスタ十分統計量［２］（１１４ｃ−２）、・・・、クラスタ十分統計量［ｎ］（１１４ｃ−ｎ）と基本クラスタセット（１１４ｃ−０）でクラスタ十分統計量（１１４ｃ）を構成する。

次に、モデル合成部（１１５ｃ）は、ＲＡＭ（１５）から読み込んだ基本クラスタセット（１１４ｃ−０）および各別のクラスタ十分統計量（１１４ｃ−１）（１１４ｃ−２）・・・（１１４ｃ−ｎ）からそれぞれ異なる音響モデル（１１６ｃ）を合成する（ステップＳ２ｃ）。
具体的には、モデル合成部（１１５ｃ）は、基本クラスタセット（１１４ｃ−０）から音響モデル［基本］（１１６ｃ−０）を合成し、基本クラスタセット（１１４ｃ−０）およびクラスタ十分統計量（１１４ｃ−１）からは音響モデル［１追加］（１１６ｃ−１）を合成し、基本クラスタセット（１１４ｃ−０）およびクラスタ十分統計量［２］（１１４ｃ−２）からは音響モデル［２追加］（１１６ｃ−２）を合成し、・・・、基本クラスタセット（１１４ｃ−０）およびクラスタ十分統計量［ｎ］（１１４ｃ−２）からは音響モデル［ｎ追加］（１１６ｃ−ｎ）を合成するのである。ｎ＋１個の音響モデル（１１６ｃ−１）（１１６ｃ−２）・・・（１１６ｃ−ｎ）はＲＡＭ（１５）などに適宜に保存記憶される。

続いて、モデル評価部（１１７ｃ）は、各音響モデル（１１６ｃ−０）（１１６ｃ−１）・・・（１１６ｃ−ｎ）、評価用データ（１１８）および評価用言語モデル（１１９）をＲＡＭ（１５）から読み込み、各音響モデルと評価用言語モデル（１１９）とを用いて評価用データ（１１８）に対する認識率を求め、これを各音響モデルの評価結果として算出する（ステップＳ３ｃ）。
評価結果である認識率の差異は、同じ評価用データ（１１８）および評価用言語モデル（１１９）を用いて評価していることから、各音響モデル（１１６ｃ−０）（１１６ｃ−１）・・・（１１６ｃ−ｎ）の差異に基づく。

続いて、選択部（１２０ｃ）は、各音響モデル（１１６ｃ−０）（１１６ｃ−１）・・・（１１６ｃ−ｎ）の評価結果のうち所定の評価結果を与えた音響モデルの作成において追加されたクラスタ十分統計量に対応する追加学習データクラスタを選択する（ステップＳ４ｃ）。
ここで『所定の評価結果』とは、音響モデル［基本］（１１６ｃ−０）の評価結果と、音響モデル［ｊ追加］（１１６ｃ−ｊ）〔ｊ＝１、２、・・・、ｎ〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率５％とし、ステップＳ３ｃの処理において音響モデル［基本］（１１６ｃ−０）の評価結果が７０％、音響モデル［５追加］の評価結果が７７％、音響モデル［９追加］の評価結果が７８％、その他の各音響モデルの評価結果が７５％よりも小であったとすると、音響モデル［５追加］および音響モデル［９追加］の各評価結果が、音響モデル［基本］（１１６ｃ−０）の評価結果との差が閾値５％以上となる。そこで、選択部（１２０ｃ）は、音響モデル［５追加］および音響モデル［９追加］の作成で追加されたクラスタ十分統計量［５］およびクラスタ十分統計量［９］に対応する追加学習データクラスタ［５］および追加学習データクラスタ［９］を選択する。

ステップＳ４ｃの処理に続いてステップＳ５ｃの処理を実行する。最適化部（１２１ｃ）は、選択された追加学習データクラスタおよび音響モデル［基本］（１１６ｃ−０）に対して最適化処理を行って最適音響モデル（１２３）を出力する（ステップＳ５ｃ）。
最適化部（１２１ｃ）の最適化処理は、学習部（１１３ｃ）の学習処理とモデル合成部（１１５ｃ）のモデル合成処理との複合処理である。但し、モデル合成部（１１５ｃ）のモデル合成処理はｎ＋１個の音響モデルを作成したが、最適化部（１２１ｃ）の最適化処理では１個の音響モデルを作成する。
つまり、追加学習データクラスタ［５］および追加学習データクラスタ［９］が選択された場合を例にとって説明すると、最適化部（１２１ｃ）は、学習データクラスタ［５］および音響モデル［基本］（１１６ｃ−０）からクラスタ十分統計量［５opt］を算出し、同様に、学習データクラスタ［９］および音響モデル［基本］（１１６ｃ−０）からクラスタ十分統計量［９opt］を算出する。そして、最適化部（１２１ｃ）は、クラスタ十分統計量［５opt］およびクラスタ十分統計量［９opt］からモデル合成処理を行なって１つの音響モデルを出力する。この音響モデルが最適音響モデル（１２３）である。
なお、第５実施形態では、選択された追加学習データクラスタおよび音響モデル［基本］（１１６ｃ−０）に対して最適化処理を行って最適音響モデル（１２３）を出力するとしたが、学習対象の音響モデルを音響モデル［基本］（１１６ｃ−０）に限定するものではなく、例えば、ステップＳ４ｃの処理で所定の評価結果を与えた音響モデルを学習対象としてもよい。

第５実施形態では、基本クラスタセットから合成した音響モデル［基本］に基づく評価は既に終えている場合に、学習データの追加があっても、音響モデル［基本］を生成・評価する必要は無く、追加学習データ分のみを評価すれば良い。
また、一部の学習データクラスタの学習データ量が多く学習時間が長くかかる場合であっても、その学習終了を待たずに、基本クラスタセット分だけ評価を終わらせておくことで、プロセス全体でかかる音響モデル作成時間を削減することができる。
さらに、基本クラスタセットから一部のクラスタ十分統計量を削除したり、新たな学習データクラスタ（学習データ）を追加したりすることができるので、予定している音声認識対象によって異なる評価用データに対しても柔軟に最適な音響モデルを作成することができる。

《第６実施形態》
本発明の第６実施形態について、図面を参照しながら説明する。
＜第６実施形態の概要＞
基本音響モデルの認識性能（Ｃ）と、基本クラスタセットから一部のクラスタ十分統計量を除外した残りのクラスタ十分統計量から合成した音響モデル〔部分音響モデルである。〕の認識性能（Ｅ）とを比較する。認識性能（Ｅ）の認識性能（Ｃ）に対する所定の評価結果の一例としてその認識性能の差（Ｃ−Ｅ）が閾値以上であればその除外したクラスタ十分統計量に対応する学習データクラスタは認識性能向上に寄与すると判断でき、最適化処理に用いる学習データクラスタとして選択することもできる（このような構成を「削除型」ということにする。）。
しかし、この場合は、基本音響モデルを第３．１実施形態（あるいは第３．２実施形態）における音響モデル［全選択］と同視することと同様である。
そこで、第６実施形態は、追加型と削除型の両構成を採用した構成とする。この場合、認識性能の差（Ｄ−Ｃ）に対する閾値と認識性能の差（Ｃ−Ｅ）に対する閾値とは異なってもよい。なお、削除型の場合について付言しておくと、上記閾値を０とした場合を考えれば明らかなように、認識性能（Ｅ）が認識性能（Ｃ）に比してそれ以下あるいはそれよりも小となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
この第６実施形態は、第３．１実施形態（あるいは第３．２実施形態）と第５実施形態の融合的形態であるから、図１４および図１５を参照し、第３．１実施形態（または第３．２実施形態）あるいは第５実施形態と異なる部分について概説する。

＜第６実施形態の音響モデル作成装置＞
第６実施形態の音響モデル作成装置は、第５実施形態の音響モデル作成装置と同様のハードウェア構成である。
そして、外部記憶装置（１７）には、基本クラスタセット（１１４ｃ−０）を構成するクラスタ十分統計量に対応する学習データクラスタも保存記憶されている。この学習データクラスタは、例えば第２実施形態におけるＮ個の学習データクラスタ（１１１−１）（１１１−２）・・・（１１１−Ｎ）として、これらＮ個の学習データクラスタで学習データクラスタセット（１１１ｄ）を構成するとする。

＜第６実施形態の音響モデル作成処理＞
第５実施形態のステップＳ１ｃの処理に続きステップＳ２ｄの処理を実行する。なお、基本クラスタセット（１１４ｃ−０）は、ベース音響モデル（１１２）を学習データクラスタセット（１１１ｄ）で学習して得られたものであることに留意すること。つまり、基本クラスタセット（１１４ｃ−０）は、クラスタ十分統計量（１１４−１）（１１４−２）・・・（１１４−Ｎ）で構成される。

モデル合成部（１１５ｄ）は、音響モデル［基本］（１１６ｃ−０）、音響モデル［１追加］（１１６ｃ−１）、音響モデル［２追加］（１１６ｃ−２）、・・・、音響モデル［ｎ追加］（１１６ｃ−ｎ）に加えて、音響モデル［１無し］（１１６ｂ−１）、音響モデル［２無し］（１１６ｂ−２）、・・・、音響モデル［Ｎ無し］（１１６ｂ−Ｎ）を合成する（ステップＳ２ｄ）。

続いて、モデル評価部（１１７ｄ）は、Ｎ＋ｎ＋１個の各音響モデル（１１６ｃ−０）（１１６ｃ−１）・・・（１１６ｃ−ｎ）（１１６ｂ−１）（１１６ｂ−２）・・・（１１６ｂ−Ｎ）、評価用データ（１１８）および評価用言語モデル（１１９）をＲＡＭ（１５）から読み込み、各音響モデルと評価用言語モデル（１１９）とを用いて評価用データ（１１８）に対する認識率を求め、これを各音響モデルの評価結果として算出する（ステップＳ３ｄ）。

続いて、選択部（１２０ｄ）は、Ｎ＋ｎ＋１個の各音響モデル（１１６ｃ−０）（１１６ｃ−１）・・・（１１６ｃ−ｎ）（１１６ｂ−１）（１１６ｂ−２）・・・（１１６ｂ−Ｎ）の評価結果のうち所定の評価結果を与えた音響モデルの作成において追加あるいは除外されたクラスタ十分統計量に対応する追加学習データクラスタあるいは学習データクラスタを選択する（ステップＳ４ｄ）。
つまり、所定の評価結果を与えた音響モデルが、音響モデル（１１６ｃ−１）・・・（１１６ｃ−ｎ）のいずれかであれば、その音響モデルの作成において追加されたクラスタ十分統計量に対応する追加学習データクラスタを選択し、所定の評価結果を与えた音響モデルが、音響モデル（１１６ｂ−１）（１１６ｂ−２）・・・（１１６ｂ−Ｎ）のいずれかであれば、その音響モデルの作成において除外されたクラスタ十分統計量に対応する追加学習データクラスタを学習データクラスタセット（１１１ｄ）から選択する。

ステップＳ４ｄの処理に続いてステップＳ５ｄの処理を実行する。最適化部（１２１ｄ）は、選択された追加学習データクラスタあるいは学習データクラスタおよび音響モデル［基本］（１１６ｃ−０）に対して最適化処理を行って最適音響モデル（１２３）を出力する（ステップＳ５ｄ）。

各種の実施形態を挙げたが、いずれも、評価用データを用いた評価によって学習データ等の選択を行い最適音響モデル作成を行うものであるから、タスクなどに応じた評価用データを用いることで当該タスクに特化した最適な音響モデルを作成できる。また、汎用的な音響モデルの基本性能を上げることを目的にする場合には、様々なタスクをバランス良く組み合わせて評価用データを設定すればよい。
また、認識性能の差に対する閾値によって学習データなどを選択する以外に、閾値だけでなく、学習データ量の大きさやクラスタ数の制限などの要素を加えても良い。さらに、認識性能の差の大きさが音声認識性能改善への寄与度と考えられるから、例えば選択された学習データクラスタに対して認識性能の差に応じた重み付けを行って最適音響モデルを合成するとしてもよく、この場合、最適音響モデルの性能向上が望める。

以上の各実施形態の他、本発明である音響モデル作成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音響モデル作成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音響モデル作成装置における処理機能をコンピュータによって実現する場合、音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音響モデル作成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

実際に、音素バランス文朗読音声、旅行対話音声、天気情報案内音声、ニュース音声、会議音声などの２２クラスタの学習データ（６２４時間分）から、５クラスタの学習データ（８２時間分）を選定し、従来手法のように学習データを全て用いた場合に比べ、学習時間を約１／７にするとともに、電話対応音声に対してベース音響モデルと比べ１４．１％の誤り削減率（単語正解精度で６１．０％から６６．５％に改善した。）を実現した。

本発明は、音声認識―例えば、音声認識に基づく文字入力や対話システムの音声認識など―に用いる音響モデルの作成に有用である。

音響モデル作成装置のハードウェア構成例を示す図。第１実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第１実施形態に係わる音響モデル作成処理の処理フローを示す図。第２実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第２実施形態に係わる音響モデル作成処理の処理フローを示す図。第３．１実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第３．１実施形態に係わる音響モデル作成処理の処理フローを示す図。第３．２実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第３．２実施形態に係わる音響モデル作成処理の処理フローを示す図。第４実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第４実施形態に係わる音響モデル作成処理の処理フローを示す図。第５実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第５実施形態に係わる音響モデル作成処理の処理フローを示す図。第６実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。第６実施形態に係わる音響モデル作成処理の処理フローを示す図。従来手法における音響モデル作成装置の機能構成例を示すブロック図。従来手法における音響モデル作成処理の処理フローを示す図。

符号の説明

１音響モデル作成装置
１１０データ分類部
１１１、１１１ａ、１１１ｂ学習データ
１１１ｃ追加学習データ
１１１−１・・・１１１−Ｎ学習データクラスタ
１１１ｃ−１・・・１１１ｃ−Ｎ追加学習データクラスタ
１１２ベース音響モデル
１１３、１１３ｃ学習部
１１４、１１４ｃ十分統計量
１１４−１・・・１１４−Ｎクラスタ十分統計量
１１４ｃ−１・・・１１４ｃ−Ｎクラスタ十分統計量
１１５、１１５ｂ、１１５ｃモデル合成部
１１６、１１６ｂ、１１６ｃ音響モデル
１１７、１１７ｂ、１１７ｃモデル評価部
１１８評価用データ
１１９評価用言語モデル
１２０、１２０ａ、１２０ｂ、１２０ｃ選択部
１２１、１２１ｂ、１２１ｃ最適化部
１２３最適音響モデル

Claims

複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルとを記憶する記憶手段と、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量（以下、「クラスタ十分統計量」という。）を算出する学習手段と、
上記各クラスタ十分統計量のうち１つあるいは複数の組み合わせから音響モデルを合成するモデル合成手段と、
上記各音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価手段と、
上記各評価結果のうち所定の評価結果を与えた音響モデルと、当該音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する選択手段と、
上記選択された音響モデルおよび上記選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段と
を備えた音響モデル作成装置。
上記モデル合成手段は、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル（以下、「全選択音響モデル」という。）を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分選択音響モデル」という。）をそれぞれ合成するものであり、
請求項１に記載の選択手段を、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段に代え、
請求項１に記載の最適化手段を、
上記ベース音響モデルまたは上記全選択音響モデルと、上記選択された学習データ
クラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
請求項１に記載の音響モデル作成装置。
請求項２に記載の選択手段は、
全選択音響モデルの評価結果（以下、「評価結果α」という。）に対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項２に記載の音響モデル作成装置。
上記モデル合成手段は、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル（以下、「全選択音響モデル」という。）を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分選択音響モデル」という。）をそれぞれ合成するものであり、
請求項１に記載の選択手段を、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択する選択手段に代え、
請求項１に記載の最適化手段を、
上記選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
請求項１に記載の音響モデル作成装置。
請求項４に記載の選択手段は、
全選択音響モデルの評価結果（以下、「評価結果α」という。）に対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択するものである請求項４に記載の音響モデル作成装置。
入力された学習データを分類基準に従って複数の学習データクラスタに分割して出力するデータ分類手段を備え、
上記記憶手段に記憶される各学習データクラスタは、上記データ分類手段によって出力されたものである
請求項１から請求項５のいずれかに記載の音響モデル作成装置。
１つまたは複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルと、基本的なクラスタ十分統計量のセット（以下、「基本クラスタセット」という。）とを記憶する記憶手段と、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量（以下、「クラスタ十分統計量」という。）を算出する学習手段と、
上記基本クラスタセットから音響モデル（以下、「基本音響モデル」という。）を合成し、さらに、上記基本クラスタセットと学習手段によって算出された上記各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル（以下、「追加音響モデル」という。）をそれぞれ合成するモデル合成手段と、
上記基本音響モデルおよび上記各追加音響モデルを、上記評価用データおよび上記
評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価手段と、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段と、
上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段と
を備えた音響モデル作成装置。
請求項７に記載の選択手段は、
基本音響モデルの評価結果（以下、「評価結果β」という。）に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項７に記載の音響モデル作成装置。
記憶手段には、基本クラスタセットを構成するクラスタ十分統計量に対応する学習データクラスタも記憶しており、
上記モデル合成手段は、
上記基本音響モデルおよび上記各追加音響モデルを合成し、さらに、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分音響モデル」という。）をそれぞれ合成するものであり、
上記モデル評価手段は、
上記基本音響モデル、上記各追加音響モデルおよび上記各部分音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するものであり、
請求項７に記載の選択手段を、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および／または、基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段に代え、
請求項７に記載の最適化手段を、
上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
請求項７に記載の音響モデル作成装置。
請求項９に記載の選択手段は、
基本音響モデルの評価結果（以下、「評価結果β」という。）に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および／または、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ＝γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項９に記載の音響モデル作成装置。
記憶手段には、複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルとが記憶されており、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量（以下、「クラスタ十分統計量」という。）を算出する学習ステップと、
学習ステップにおいて算出された各クラスタ十分統計量のうち１つあるいは複数の組み合わせから音響モデルを合成するモデル合成ステップと、
モデル合成ステップにおいて合成された各音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価ステップと、
モデル評価ステップにおいて出力された各評価結果のうち所定の評価結果を与えた音響モデルと、当該音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する選択ステップと、
選択ステップにおいて選択された音響モデルおよび選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップと
を有する音響モデル作成方法。
上記モデル合成ステップは、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル（以下、「全選択音響モデル」という。）を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分選択音響モデル」という。）をそれぞれ合成するものであり、
請求項１１に記載の選択ステップを、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップに代え、
請求項１１に記載の最適化ステップを、
上記ベース音響モデルまたは上記全選択音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
請求項１１に記載の音響モデル作成方法。
請求項１２に記載の選択ステップは、
全選択音響モデルの評価結果（以下、「評価結果α」という。）に対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項１２に記載の音響モデル作成方法。
上記モデル合成ステップは、
上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル（以下、「全選択音響モデル」という。）を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分選択音響モデル」という。）をそれぞれ合成するものであり、
請求項１１に記載の選択ステップを、
全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデル
の合成において除外されたクラスタ十分統計量を選択する選択ステップに代え、
請求項１１に記載の最適化ステップを、
上記選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
請求項１１に記載の音響モデル作成方法。
請求項１４に記載の選択ステップは、
全選択音響モデルの評価結果（以下、「評価結果α」という。）に対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択するものである請求項１４に記載の音響モデル作成方法。
入力された学習データを分類基準に従って複数の学習データクラスタに分割して出力するデータ分類ステップを有し、
上記記憶手段に記憶される各学習データクラスタは、上記データ分類ステップにおいて出力されたものである
請求項１１から請求項１５のいずれかに記載の音響モデル作成方法。
記憶手段には、１つまたは複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルと、基本的なクラスタ十分統計量のセット（以下、「基本クラスタセット」という。）とが記憶されており、
上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量（以下、「クラスタ十分統計量」という。）を算出する学習ステップと、
上記基本クラスタセットから音響モデル（以下、「基本音響モデル」という。）を合成し、さらに、上記基本クラスタセットと学習ステップにおいて算出された上記各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル（以下、「追加音響モデル」という。）をそれぞれ合成するモデル合成ステップと、
モデル合成ステップにおいて合成された基本音響モデルおよび各追加音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価ステップと、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップと、
上記基本音響モデルまたは上記各評価結果のうち所定の評価結果を与えた追加音響モデルと、選択ステップにおいて選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップと
を有する音響モデル作成方法。
請求項１７に記載の選択ステップは、
基本音響モデルの評価結果（以下、「評価結果β」という。）に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項１７に記載の音響モデル作成方法。
記憶手段には、基本クラスタセットを構成するクラスタ十分統計量に対応する学習
データクラスタも記憶しており、
上記モデル合成ステップは、
上記基本音響モデルおよび上記各追加音響モデルを合成し、さらに、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル（以下、「部分音響モデル」という。）をそれぞれ合成するものであり、
上記モデル評価ステップは、
上記基本音響モデル、上記各追加音響モデルおよび上記各部分音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するものであり、
請求項１７に記載の選択ステップを、
基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および／または、基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップに代え、
請求項１７に記載の最適化ステップを、
上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
請求項１７に記載の音響モデル作成方法。
請求項１９に記載の選択ステップは、
基本音響モデルの評価結果（以下、「評価結果β」という。）に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および／または、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ＝γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
請求項１９に記載の音響モデル作成方法。
コンピュータに請求項１１から請求項２０のいずれかに記載の音響モデル作成方法を実行させるための音響モデル作成プログラム。
請求項２１に記載の音響モデル作成プログラムを記録したコンピュータに読み取り可能な記録媒体。