JP2010152751A

JP2010152751A - 統計モデル学習装置、統計モデル学習方法、およびプログラム

Info

Publication number: JP2010152751A
Application number: JP2008331530A
Authority: JP
Inventors: Masahiro Tani; 真宏谷; Takafumi Koshinaka; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2010-07-08
Anticipated expiration: 2028-12-25
Also published as: JP5229478B2

Abstract

【課題】求められる記憶容量の増大化を抑制しつつ、既存の学習データから対象とするタスクに適した学習データのみをきめ細かく選択することにより、高精度な統計モデルを構築でき得る、統計モデル学習装置、統計モデル学習方法、及びプログラムを提供する。
【解決手段】複数の学習データセットに分割された学習データに基づいて統計モデルを学習する統計モデル学習装置であり、学習データセット毎に統計モデルを構築する統計モデル構築部２１と、統計モデルの構築後に、各学習データセットから一部のデータをランダムに取り出す学習データ取出部２４と、取り出された一部のデータを、再度、各学習データセットに、ランダムに分配する学習データ分配部２５とを備えている。そして、統計モデル構築部２１は、学習データ分配部による分配後に、取り出された一部のデータが分配された、学習データセット毎に、再度、統計モデルを構築する。
【選択図】図１

Description

本発明は、統計モデル学習装置、統計モデル学習方法、およびプログラムに関する。

一般に、高精度な統計モデルを構築するためには、対象とするタスクの学習データが大量に必要であることが知られている。例えば、音声認識の統計モデルの構築では、多くの学習データを収集することにより、音声認識の認識率の向上が図られる。

ところで、音声認識といっても、会議での音声を扱う会議音声認識、電話音声を扱う電話音声認識、車内の音声を扱う車載音声認識等のように、種々の種類が存在している。よって、認識率の向上を図るためには、音声認識の種類毎に、つまり、異なるタスク毎に、学習データを収集し、統計モデルを構築する必要がある。但し、異なるタスク毎に、学習データをその都度大量に収集することは、費用や時間等の収集コストの面で、非現実的である。

この様な問題に対処するために、既存の学習データから対象とするタスクに適したデータのみを選び出し、活用する技術が求められている。これは、既存の学習データは、以前に収集した様々なタスクのデータを集結したものであり、大量に存在する場合が多いからである。なお、対象とするタスクに適したデータとは、対象とするタスクで収集されるデータに類似するデータをいう。適しているかどうは、例えば、既存の学習データが音声データの場合であれば、収録に用いられたマイクの種類、音声に混入した雑音の種類や大きさの程度、話者の話し方やイントネーション等の様々な観点を総合的に捉えて、判断される。

上述の求められている技術を実現するため、特許文献１は、音声認識分野における統計モデル学習装置を開示している。特許文献１に開示された統計モデルは、音響モデルと呼ばれ、音声の音響的な特徴を表現した確率モデルである。図８は、従来からの統計モデル学習装置の概略構成を示すブロック図である。

図８に示すように、この特許文献１に記載の統計モデル学習装置は、記憶装置１０１と、データ処理装置１０２とを備えている。記憶装置１０１は、学習データ記憶部１１１と、十分統計量記憶部１１４と、統計モデル記憶部１１２と、評価データ記憶部１１３とを備えている。学習データ記憶部１１１は、学習データとして音声データと、その書き起こしデータ（即ち、発音内容に関する正解ラベル）とを記憶している。音声データは、予め複数（Ｎ個）のデータセットに分割され、各データデータセットは、学習データ記憶部１１１−１、学習データ記憶部１１１−２、・・・、学習データ記憶部１１１−Ｎに、それぞれ記憶されている。

十分統計量記憶部１１４は、分割されたデータセット毎に算出された十分統計量を記憶する。各十分統計量は、十分統計量記憶部１１４−１、十分統計量記憶部１１４−２、・・・、十分統計量記憶部１１４−Ｎに、それぞれ記憶されている。ここで、「十分統計量」とは、データベースから統計モデルを構成するのに十分な統計量のことをいう。図８の例では、音響モデル、即ち、音声認識で一般に用いられている隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を特徴付ける、パラメータを計算するための統計量である。

統計モデル記憶部１１２は、十分統計量記憶部１１４で記憶されている各十分統計量を統合することにより作成された複数（Ｘ個）の音響モデルを記憶する。各音響モデルは、統計モデル記憶部１１２−１、統計モデル記憶部１１２−２、・・・、統計モデル記憶部１１２−Ｘにそれぞれ記憶される。

評価データ記憶部１１３は、統計モデル記憶部１１２で記憶されている音響モデルを評価するためのデータ（以下「評価データ」という。）を記憶している。評価データは、評価用の音声データや、この音声データに対応する正解ラベル（即ち、本統計モデルを用いた音声認識装置が出力すべき文字列）によって構成される。

データ処理装置１０２は、統計量算出部１２１と、統計モデル構築部１２７と、評価部１２２と、統計モデル選択部１２６とを備えている。統計量算出部１２１は、学習データ記憶部１１１から音声データを受け取り、この音声データからＨＭＭの最尤パラメータを推定するための統計量を計算する。具体的には、統計量算出部１２１は、音声データから計算した音声認識に必要な特徴量と、音声データに予め付与されている音素のラベル情報とから、公知のＢａｕｍ−Ｗｅｌｃｈアルゴリズム等によって、統計量を計算する。また、統計量算出部１２１は、学習データ記憶部１１１−１〜１１１−Ｎそれぞれに記憶される音声データセット毎に、統計量を計算し、計算した各統計量を十分統計量記憶部１１４に出力する。計算された統計量が十分統計量となる。

統計モデル構築部１２７は、十分統計量記憶部１１４から、音声データセット毎に計算された十分統計量、即ち、十分統計量記憶部１１４−１〜１１４−Ｎに記憶されている十分統計量を受け取り、これらを任意の組み合わせで統合し、音響モデルを構築する。そして、統計モデル構築部１２７は、構築した音響モデルを統計モデル記憶部１１２へ出力する。ここで、十分統計量と十分統計量とを任意の組み合わせで統合するとは、例えば、考えうる全ての網羅的な組み合わせを用いて統合を行うことを意味し、組み合わせの数だけ音響モデルが構築される。

評価部１２２は、統計モデル記憶部１１２から、それに記憶されている各音響モデルを受け取り、評価データ記憶部１１３から、それに記憶されている評価データを受け取る。そして、評価部１２２は、各音響モデルを用いて評価実験を実施し、評価データに対する認識率を計算し、これを評価結果として、統計モデル選択部１２６へ出力する。統計モデル選択部１２６は、各音響モデルに対する評価結果を評価部１２２から受け取ると、最高の評価結果が与えられた音響モデルを選択する。

このように、図８に示す統計モデル学習装置では、既存の学習データから対象とするタスクに応じてデータの選択が行われる。よって、図８に示す統計モデル学習装置によれば、タスクの実行の度に学習データをその都度大量に収集しなくても良く、費用や時間等の収集コストの上昇が抑制されると考えられる。
特開２００７−２４９０５１

しかしながら、図８に示した統計モデル学習装置では、記憶装置１０１の記憶容量が一定に保たれず、対象とするタスクに最適な学習データをきめ細かく選択しようとすると大容量の記憶容量が必要になるという問題がある。その理由は、各学習データセットに対応する十分統計量の組み合わせにより、統計モデルが構築されることにある。つまり、図８に示した統計モデル学習装置では、学習データセットの数や各学習データセットに対応する十分統計量の組み合わせの数を増やしていくと、統計モデルの数は指数関数的に増大するからである。

また、統計モデルの数が指数関数的に増大すると、図８に示した統計モデル学習装置では、統計モデルを評価する時間は、現実的なものではなくなってしまう。この結果、仮に、大容量の記憶容量が用意されていたとしても、結局、図８に示した統計モデル学習装置では、対象とするタスクに応じて大まかにしか学習データを選択できず、統計モデルの精度の向上は困難である。

本発明の目的は、上記問題を解消し、求められる記憶容量の増大化を抑制しつつ、既存の学習データから対象とするタスクに適した学習データをきめ細かく選択することにより、高精度な統計モデルを構築でき得る、統計モデル学習装置、統計モデル学習方法、及びプログラムを提供することにある。

上記目的を達成するために、本発明における統計モデル学習装置は、複数の学習データセットに分割された学習データに基づいて統計モデルを学習する統計モデル学習装置であって、
前記複数の学習データセットそれぞれ毎に統計モデルを構築する統計モデル構築部と、
前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出す学習データ取出部と、
取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配する学習データ分配部とを備え、
前記統計モデル構築部は、前記学習データ分配部による分配後に、前記取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築する、ことを特徴とする。

また、上記目的を達成するため本発明における統計モデル学習方法は、複数の学習データセットに分割された学習データに基づいて統計モデルを学習するための統計モデル学習方法であって、
（ａ）前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
（ｂ）前記（ａ）のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
（ｃ）前記（ｂ）のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
（ｄ）前記（ｃ）のステップの実行後に、前記（ｂ）のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを有する、ことを特徴とする。

更に、上記目的を達成するため本発明におけるプログラムは、複数の学習データセットに分割された学習データに基づいて統計モデルを、コンピュータに、学習させるためのプログラムであって、
前記コンピュータに、
（ａ）前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
（ｂ）前記（ａ）のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
（ｃ）前記（ｂ）のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
（ｄ）前記（ｃ）のステップの実行後に、前記（ｂ）のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを実行させる、ことを特徴とする。

以上の特徴により、本発明における統計モデル学習装置、統計モデル学習方法、及びプログラムによれば、求められる記憶容量の増大化を抑制しつつ、既存の学習データから対象とするタスクに適した学習データのみをきめ細かく選択することにより、高精度な統計モデルを構築できる。

（実施の形態１）
以下、本発明の実施の形態１における統計モデル学習装置、統計モデル学習方法、及びプログラムについて、図１〜図３を参照しながら説明する。最初に、図１及び図２を用いて、本実施の形態１における統計モデル学習装置の概略構成について説明する。図１は、本発明の実施の形態１における統計モデル学習装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１における統計モデル学習装置の他の例の概略構成を示すブロック図である。

図１に示す本実施の形態１における統計モデル学習装置は、複数の学習データセットに分割された学習データに基づいて統計モデルを学習する装置である。また、本実施の形態１における統計モデル学習装置によって学習された統計モデルは、パターン認識装置、例えば、音声認識装置、顔画像認識装置、文字画像認識装置、及び生体個人認証装置等によって参照される。この場合、学習データとしては、後述するように、音声データ、顔画像データ、又は文字画像データ等が挙げられる。

図１に示すように、本実施の形態１における統計モデル学習装置は、記憶装置１と、データ処理装置２とを備えている。このうち、データ処理装置２は、統計モデル構築部２１と、学習データ取出部２４と、学習データ分配部２５とを備えている。統計モデル構築部２１は、学習データを分割して得られた複数の学習データセットそれぞれ毎に、統計モデルを構築する。なお、統計モデルの学習に必要な学習データは、後述するように、複数の学習データセットに分割された状態で記憶装置１に記憶されている。

学習データ取出部２４は、統計モデルの構築後に、複数の学習データセットそれぞれから、一部のデータをランダムに取り出す。更に、学習データ分配部２６は、取り出された一部のデータを、再度、複数の学習データセットそれぞれに、ランダムに分配する。そして、分配が終了すると、統計モデル構築部２１は、取り出された一部のデータが分配された複数の学習データセットそれぞれ毎に、再度、統計モデルを構築する。

このように、本実施の形態１における統計モデル学習装置では、学習データを組み替えながら何度も統計モデルが構築される。よって、背景技術の欄で図８を用いて説明した特許文献１に記載の統計モデル学習装置と異なり、各学習データセットに対応する十分統計量を組み合わせて統計モデルを構築する必要がない。このため、本実施の形態１における統計モデル学習装置によれば、対象とするタスクに最適な学習データをきめ細かく選択しようとする場合であっても、求められる記憶容量の増大化が抑制され、後述する記憶装置１の記憶容量は一定に保たれる。

つまり、本実施の形態１では、統計モデル学習装置が備える記憶装置１によって記憶される情報は、学習データ、分割した学習データセットと同じ数の統計モデル、及び評価データである。記憶装置１に必要な記憶容量は常に一定に保たれている。よって、本実施の形態１における統計モデル学習装置によれば、既存の学習データから対象とするタスクに適した学習データのみをきめ細かく選択することができ、この結果、高精度な統計モデルを構築できる。

一方、背景技術の欄で図８を用いて説明したように、特許文献１に記載の統計モデル学習装置では、学習データセットの数や、各学習データセットに対応する十分統計量の組み合わせの数の増加により、統計モデルの数は指数関数的に増大する。この結果、特許文献１に記載の統計モデル学習装置では、評価にかかる時間が現実的でなくなり、対象とするタスクに最適な学習データをきめ細かく選択することは、事実上、困難となる。

ここで、本実施の形態１における統計モデル学習装置の構成について更に具体的に説明する。図１に示すように、本実施の形態１においては、統計モデル学習装置は、データ処理装置２に加えて、記憶装置１を備えている。記憶装置１は、学習データ記憶部１１と、統計モデル記憶部１２と、評価データ記憶部１３とを備えている。

学習データ記憶部１１は、統計モデルの学習に必要な学習データを記憶している。学習データには、その学習データが属するカテゴリを示すラベルが付与されている。学習データの種類は、想定するパターン認識装置の種類に依存する。例えば、音声認識装置が想定される場合は、学習データとしては、発声等の単位で分割された音声データ（信号）が挙げられ、ラベルとしてはその発声内容を示す単語や、音素列、音節列等が挙げられる。

また、パターン認識装置として顔画像認識装置が想定される場合は、学習データとしては、ある人物の顔画像データ（信号）が挙げられ、ラベルとしてはその人物を特定するためのＩＤが挙げられる。更に、パターン認識装置として文字画像認識装置が想定される場合は、学習データとしては文字画像データ（信号）が挙げられ、ラベルとしてはその文字画像信号に対応する文字コードが挙げられる。

また、学習データは、予め複数（Ｎ個）のデータセット（学習データセット）に分割された状態で、学習データ記憶部１１に記憶されている。各学習データセットは、それぞれ、学習データ記憶部１１−１、学習データ記憶部１１−２、・・・、学習データ記憶部１１−Ｎに記憶されている。

本実施の形態１において、学習データセットの数、即ち、Ｎの値は、統計モデルを構築する上で、統計モデルのパラメータ数に対して学習データが不足する程に大きくならなければ良く、２以上であれば特に限定されるものではない。また、学習データは、予め各学習データセットのデータ量が等しくなるように分割されていても良いし、そうでなくても良い。学習データは、必ずしもデータ量が等しくなるように分割されている必要はない。

統計モデル記憶部１２は、後述する統計モデル構築部２１から各学習データセットに対応した統計モデル（Ｎ個の統計モデル）を受け取り、これらＮ個の統計モデルを記憶する。また、Ｎ個の統計モデルは、それぞれ、統計モデル記憶部１２−１、統計モデル記憶部１２−２、・・・、統計モデル記憶部１２−Ｎに記憶される。

本実施の形態１において、統計モデルとしては、例えば、特許文献１と同様、ＨＭＭや、混合正規分布（ＧＭＭ：Gaussian Mixture Model）等の確率モデルが挙げられる。ＧＭＭは、複数の正規分布または多次元正規分布の重み付き和を用いて複数のピークを持つような分布で表現した観測データの確率モデルである。想定するパターン認識装置が音声認識装置の場合、一般的に用いられるのはＨＭＭであり、具体的には、音素毎にモデル化したモノフォンモデルや、前後の音素環境を考慮して三つ組音素毎にモデル化したトライフォンモデル等である。

評価データ記憶部１３は、統計モデル記憶部１２で記憶されている統計モデルの評価に必要な評価データを記憶している。評価データは、対象とするタスクのデータであり、予め設定されており、後述の評価部２２による評価の基準となる。具体的には、学習データが音声データの場合であれば、評価データとしては、音声データと、この音声データに対応する正解ラベルが用いられる。評価データには、学習データと同様、その評価データが属するカテゴリを示すラベルが付与されている。

また、図１に示すように、本実施の形態１における統計モデル学習装置は、データ処理装置２において、上述の統計モデル構築部２１、学習データ取出部２４及び学習データ分配部２５に加え、評価部２２と、収束判定部２３と、統計モデル選択部２６とを備えている。

統計モデル構築部２１は、本実施の形態１では、学習データ記憶部１１から、それに記憶されているＮ個の学習データセットを受け取る。また、本実施の形態１では、統計モデル構築部２１は、想定されるパターン認識に必要な特徴量を必要に応じて計算し、この特徴量と学習データに予め付与されているラベル情報とを用いて、統計モデルを規定するパラメータを推定する。この推定されたパラメータにより、統計モデルが構築される。統計モデル構築部２１は、各学習データセットに対応したこれらＮ個の統計モデルを、統計モデル記憶部１２に出力する。

ここで、「特徴量」としては、例えば、想定するパターン認識装置が音声認識装置の場合、メルケプストラム係数（ＭＦＣＣ：Mel−Frequency Cepstrum Coefficient）等が挙げられる。メルケプストラム係数は、例えば、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著の「音声認識システム」の第１３頁−１５頁（株式会社オーム社、２００１年発行）に開示されている。

本実施の形態１では、「特徴量」は特に限定されるものではなく、「特徴量」として学習データそのものを用いることもできる。また、「特徴量」の計算は、必ずしも統計モデル構築部２１によって行われる必要はなく、例えば、統計モデル構築部２１とは別に「特徴抽出部」を設け、これによって学習データから「特徴量」を計算することもできる。本実施の形態１は、学習データ記憶部１１が、学習データの代わりに、計算された「特徴量」を記憶している態様であっても良い。この場合、統計モデル構築部２１において「特徴量」の計算は不要である。

また、上述の「統計モデルを規定するパラメータ」は、例えば、想定するパターン認識装置が音声認識装置であり、音声認識用の音響モデルがＨＭＭの場合、混合正規分布の平均、分散、混合重み、及び状態遷移確率等である。

評価部２２は、評価データに基づいて、各統計モデルに対して評価を行う。具体的には、評価部２２は、統計モデル記憶部１２に記憶されている各統計モデルと、評価データ記憶部１３に記憶されている評価データとを受け取り、これらを用いて評価実験を実施する。そして、評価部２２は、統計モデル毎の評価結果を、収束判定部２３に出力する。また、本実施の形態１では、「評価実験」は各統計モデルを用いて評価データを認識することであり、評価結果としては認識率が得られている。

収束判定部２３は、先ず、評価部２２から各統計モデルに対する評価結果を受け取り、全ての統計モデルに対する評価結果が定常状態に達したか否かを判定する。そして、収束判定部２３は、いくつかの統計モデルについて評価結果が定常状態に達していると判定する場合は、統計モデル選択部２６に、受け取った評価結果を出力する。一方、収束判定部２３は、いずれの統計モデルについても評価結果が定常状態に達していないと判定する場合は、学習データ取出部２４に、受け取った評価結果を出力する。なお、ここでいう定常状態とは、学習と評価を繰り返しても評価結果（つまり、認識率）が一定値に収束し、殆ど変化しない状態であることをいう。

また、収束判定部２３は、評価結果が定常状態に達していない場合であっても、予め閾値を設定し、閾値を超えた場合に、統計モデル選択部２６に評価結果を出力し、閾値以下の場合は、学習データ取出部２４に評価結果を出力することもできる。なお、この場合の閾値としては、予め設定した学習の繰り返し回数や、学習に掛かる時間等が挙げられる。また、ここでいう「学習」とは、学習データ分配部２６による分配が行われた後に、統計モデルの再構築が行われることをいう。

学習データ取出部２４は、本実施の形態１では、収束判定手段２３から各統計モデルに対する評価結果を受け取った後に、データの取り出しを行う。また、学習データ取出部２４は、本実施の形態１では、複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの評価結果に応じて、取り出されるデータの量を算出し、算出した量のデータを取り出している。

具体的には、学習データ取出部２４は、学習データ記憶部１１に記憶されている学習データセットの中から、評価結果が悪い統計モデルの学習に用いられた学習データセットを特定する。そして、学習データ取出部２４は、特定した学習データセットから、より多くの学習データをランダムに取り出す。

また、学習データ取出部２４は、評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出するのが好ましい。具体的には、取り出されるデータの量（データ量）は、評価結果である認識率と、取り出されるデータの量とに負の相関を示す関数を用いて計算できる。ここでは、負の相関を示す関数としては、一次関数が挙げられる。なお、負の相関を示す関数は、一次関数以外でも良く、その他、負の相関を示す関数としては、多項式関数、区分線形関数、シグモイド関数等も挙げられる。

また、本実施の形態１では、予め評価結果に閾値が設定され、学習データ取出部２４が、この閾値を超えた統計モデルに対応する学習データセットに関しては、無条件にデータを取り出さない、等のルールが設定されていても良い。これは、評価結果が高い統計モデルの学習データ、つまり認識率向上に寄与する学習データは取り出さずに、無条件に学習データセット中に残すことを意味する。なお、必ずしも全ての学習データセットからデータを取り出さなくても良く、例えば、取り出す対象とする学習データセットの個数が制限されていても良い。

学習データ分配部２５は、本実施の形態１では、学習データ取出部２４から取り出された学習データを受け取ると、学習データセットの区別なく１つにまとめ、この取り出された学習データを、学習データ記憶部１１−１〜１１−Ｎそれぞれにランダムに分配する。本実施の形態１では、学習データ分配部２５は、学習データをランダムに分配するので、取り出された学習データが元の学習データセットに戻ることもあれば、戻らないこともある。

なお、取り出された学習データは、必ずしも完全にランダムに分配されていなくても良い。また、例えば、取り出された学習データは、それが属していた学習データセットには、分配されない、即ち、元には戻されない、等のルールが設けられていても良い。また、本実施の形態１では、学習データの分配は、分配後のデータ量が、学習データ記憶部１１−１、学習データ記憶部１１−２、・・・、学習データ記憶部１１−Ｎそれぞれに予め記憶されていたデータの量と等しくなるように行われているのが好ましい。

統計モデル選択部２６は、いずれかの統計モデルの評価が設定された状態（定常状態）に達すると（又は、収束判定部２３が、終了条件が満足されていると判断すると）、各統計モデルの中から、評価が最も高い統計モデルを選択する。具体的には、統計モデル選択部２６は、収束判定部２３からの各統計モデルに対する評価結果を受け取り、最高の評価結果が与えられている統計モデルを特定し、これを選択する。その後、統計モデル選択部２６は、特定された統計モデルをパターン認識装置に出力する。

また、本実施の形態１において、統計モデル学習装置の構成は、図１に示された構成に限定されるものではなく、例えば、図２に示された構成とすることもできる。図２の例では、記憶装置１の構成が、図１の例と異なっている。図２に示すように、記憶装置１は、学習データ記憶部１１−１〜１１−Ｎに加えて、学習データ記憶部１０を備えている。図２に示す統計モデル学習装置は、この点で、図１に示す統計モデル学習装置と異なっているが、これ以外の点では、図１に示す統計モデル学習装置と同様に構成されている。

学習データ記憶部１０は、他の学習データ記憶部１１−１〜１１−Ｎと異なり、対象とするタスクのデータが事前に（少量でも）存在していた場合、このデータを学習データとして記憶する。そして、この場合、統計モデル構築部２１は、学習データ記憶部１０から、対象とするタスクの学習データを受け取り、これを、学習データ記憶部１１−１〜１１−Ｎそれぞれから受け取った各学習データセットに追加し、新しく学習データセットを構成する。

また、統計モデル構築部２１は、この新しい学習データセット毎に、計算された特徴量と学習データに予め付与されているラベル情報とから、統計モデルを規定するパラメータを推定し、統計モデルを構築する。そして、構築された各統計モデルは、それぞれ、統計モデル記憶部１２−１、統計モデル記憶部１２−２、・・・、統計モデル記憶部１２−Ｎに記憶される。

このように、図２の例とした場合は、事前に存在する対象とするタスクのデータが必ず用いられるため、図１の例の効果に加え、各統計モデルの評価結果が早期に収束する（定常状態に達する）という効果も得られる。また、図２の例では、対象とするタスクに類似するデータを集めることが目的である。よって、対象とするタスクのデータが事前に存在している場合、これらのデータは分割されなくても良い。

次に、本発明の実施の形態１における統計モデル学習方法について図３を用いて説明する。図３は、本発明の実施の形態１における統計モデル学習方法における処理の流れを示すフロー図である。なお、図３に示す統計モデル学習方法は、図１に示した本実施の形態１における統計モデル学習装置を動作させることによって実施される。以下の説明においては、適宜、図１を参酌する。

図３に示すように、先ず、統計モデル構築部２１は、学習データ記憶部１１に記憶されているＮ個の学習データセットを受け取り、学習データセット毎に統計モデルを構築する（ステップＡ１）。本実施の形態１では、統計モデル構築部２１は、上述したように、想定するパターン認識に必要な特徴量を計算し、この特徴量と学習データに予め付与されているラベル情報とを用いて、統計モデルを規定するパラメータを推定する。この推定されたパラメータにより、統計モデルが構築される。また、統計モデルは、学習データセットの数と同じＮ個存在し、それぞれ、統計モデル記憶部１２−１〜１２−Ｎに記憶される。

次に、評価部２２は、ステップＡ１の処理で得られた学習データセット毎の統計モデルそれぞれに対して、評価データ記憶部１３に記憶されている評価データを用いて評価を行う（ステップＡ２）。具体的には、評価部２２は、統計モデル毎に認識率を算出し、これを評価結果とする。

次に、収束判定部２３は、ステップＡ２で得られた各統計モデルの評価結果（認識率）を受け取り、いくつかの統計モデルについて、評価結果が定常状態に達したか否か、即ち、終了条件を満たしているか否かを判定する（ステップＡ３）。

ステップＡ３の判定の結果、終了条件が満たされていない場合は、収束判定部２３は、学習データ取出部２４に評価結果を出力する。これにより、ステップＡ４が実行される。

ステップＡ４では、学習データ取出部２４は、ステップＡ２の処理で得られた各統計モデルの評価結果を受け取り、各学習データセットから取り出されるデータ量を計算し、計算されたデータの量の分だけ、各学習データセットからデータをランダムに取り出す。ステップＡ４において、取り出されるデータの量は、認識率と取り出されるデータの量とに負の相関を示す関数を用いることによって計算される。このため、ステップＡ４の処理では、認識率が低い統計モデルの学習に用いられた学習データセットからより多くの学習データが取り出される。

続いて、ステップＡ４の終了後、学習データ分配部２５は、学習データ記憶部１１−１〜１１−Ｎに対して、分配後のデータの量が、これらに予め記憶されていたデータの量と等しくなるように、ステップＡ４の処理で取り出されたデータをランダムに分配する（ステップＡ５）。

ステップＡ５が実行されると、統計モデル構築部２１は、再度ステップＡ１を実行し、データの分配が行われたＮ個の学習データセットそれぞれ毎に、再度、統計モデルを構築する。その後、ステップＡ２が実施される。ステップＡ１、Ａ２、Ａ４及びＡ５は、ステップＡ３において、後述するように終了条件が満たされていると判定される迄、繰り返し実行される。

一方、ステップＡ３の判定の結果、終了条件が満たされている場合は、収束判定部２３は、統計モデル選択部２６に評価結果を出力する。この後、統計モデル選択部２６が、ステップＡ６を実行する。ステップＡ６では、統計モデル選択部２６は、ステップＡ２の処理で得られた各統計モデルの評価結果（認識率）を受け取り、最高の認識率を与えた統計モデルを選択する。その後、選択された統計モデルが外部に出力され、処理が終了する。

このように、本実施の形態１では、上述したように、学習データを組み替えながら何度も統計モデルが構築されるので、求められる記憶容量の増大化が抑制され、記憶装置１の記憶容量は一定に保たれる。

また、本実施の形態１では、学習データ取出部２４は、複数の学習データセット毎に構築した統計モデルの評価データ（対象とするタスクのデータ）に対する評価結果（評価データを認識した際の認識率）を用いて、各学習データセットから取り出す学習データ量をそれぞれ計算する。そして、学習データ取出部２４は、評価結果に基づき、認識率が低い統計モデルの学習に用いられたデータセットから、より多くの学習データを取り出すことができる。また、学習データ分配部２５は、取り出された学習データを各学習データセットへランダムに再分配する。その後、統計モデル構築部２１が、学習データが入れ替わった学習データセット毎に統計モデルを再度構築する。

この結果、本実施の形態１では、対象とするタスクに適した学習データのみが正確に選択されるという効果が、いっそう向上する。これは、各学習データセットに対応する統計モデルの評価結果（認識率）に応じて、各学習データセット中の学習データが組み替えられ、そして組み替わった学習データセット毎に統計モデルが構築され、更に評価される、という繰り返し処理が行われることによる。即ち、この繰り返しの処理により、対象とするタスクに適した学習データのみをきめ細かく選択できるためである。

このようにして、本実施の形態１では、選択された学習データを用いることにより、高精度な統計モデルの構築が可能となる。よって、本実施の形態１によれば、上述した、特許文献１に記載の統計モデル学習装置における「統計モデルの精度が劣化するという問題」を解決できる。

また、本実施の形態１におけるプログラムは、コンピュータに、図３に示すステップＡ１〜Ａ６を具現化させるプログラムであれば良い。このプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態１における統計モデル学習方法が実行され、更に、本実施の形態１における統計モデル学習装置が具現化される。

この場合、コンピュータのＣＰＵ（central processing unit）は、統計モデル構築部２１、評価部２２、収束判定部２３、学習データ取出部２４、学習データ分配部２５及び統計モデル選択部２６として機能し、処理を行なう。また、学習データ記憶部１１、統計モデル記憶部１２、及び評価データ記憶部１３は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。また、これらの記憶部１１〜１３は、データファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによっても実現できる。

（実施の形態２）
次に、本発明の実施の形態２における統計モデル学習装置、統計モデル学習方法、及びプログラムについて、図４及び図５を参照して詳細に説明する。最初に、図４を用いて、本実施の形態２における統計モデル学習装置の概略構成について説明する。図４は、本発明の実施の形態２における統計モデル学習装置の概略構成を示すブロック図である。

図４に示すように、本実施の形態２における統計モデル学習装置では、記憶装置１は、実施の形態１において図１に示した構成に加えて、十分統計量記憶部１４を備えている。また、データ処理装置２は、図１に示した統計モデル選択部２６に替えて、統計モデル合成部２８を備えている。本実施の形態２における統計モデル学習装置は、上記の二つの点で、実施の形態１における統計モデル学習装置と異なっている。以下に、相違点について説明する。

十分統計量記憶部１４は、分割されたＮ個の学習データセットに対応する十分統計量を記憶している。各十分統計量は、十分統計量記憶部１４−１、十分統計量記憶部１４−２、・・・、十分統計量記憶部１４−Ｎにそれぞれ記憶されている。

ここで、十分統計量は、データベースから統計モデルを構成するのに十分な統計量のことである。例えば、上述した特許文献１にも開示されているように、想定するパターン認識装置が音声認識装置である場合、十分統計量は、音声認識用の音響モデルとして一般的に用いられているＨＭＭを特徴付ける、パラメータを計算するための統計量である。このパラメータとしては、混合正規分布の平均、分散、混合重み、及び状態遷移確率等が挙げられる。十分統計量は、統計モデル構築部２１が統計モデルを規定するパラメータを推定し、統計モデルを構築するときに、統計モデル構築部２１によって得られ、Ｎ組存在する。

統計モデル合成部２８は、収束判定部２３から受け取った、学習データセット毎の統計モデルの評価結果（認識率）に応じた重み付けに基づき、十分統計量記憶部１４からの、各学習データセットに対応する十分統計量を統合し、一つの新たな統計モデルを構築する。また、このとき統計モデル合成部２８が十分統計量を統合する際に行う、統計処理計算の具体的手法は、例えば、上述した特許文献１や特許第３７５６８７９号公報に開示されている。

次に、本発明の実施の形態２における統計モデル学習方法について図５を用いて説明する。図５は、本発明の実施の形態２における統計モデル学習方法における処理の流れを示すフロー図である。なお、図５に示す統計モデル学習方法は、図４に示した本実施の形態２における統計モデル学習装置を動作させることによって実施される。以下の説明においては、適宜、図４を参酌する。

図５に示すステップＡ１２、Ａ１３、Ａ１４、Ａ１５は、図３に示した実施の形態１におけるステップＡ２、Ａ３、Ａ４、Ａ５にそれぞれ対応し、対応するステップと同一のステップである。よって、Ａ１２のステップでの評価部２２の動作、Ａ１３での収束判定部２３の動作、Ａ１４での学習データ取出部２４の動作、及びＡ１５での学習データ分配部２５の動作は、実施の形態１におけるそれらの動作と同じであり、上記ステップの説明は省略する。

図５に示すように、最初に、統計モデル構築部２１は、実施の形態１と同様に、学習データ記憶部１１で記憶されているＮ個の学習データセットを受け取り、学習データセット毎に統計モデルを規定するパラメータを推定し、統計モデルを構築し出力する（ステップＡ１１）。本実施の形態２においては、ステップＡ１１では、統計モデル構築部２１は、各統計モデルの構築に必要な統計量である十分統計量を算出し、これも出力する。

続いて、ステップＡ１２〜Ａ１５が実行され、更に、ステップＡ１３において、終了条件が満たされていると判定される迄、ステップＡ１１、Ａ１２、Ａ１４及びＡ１５は、繰り返し実行される。

ステップＡ１３の判定の結果、終了条件が満たされている場合は、統計モデル合成部２８が、ステップＡ１６を実行する。ステップＡ１６では、統計モデル合成部２８は、ステップＡ１２の処理で得られた、各学習データセットに対応する統計モデルの評価結果（認識率）に応じて、各統計モデルに重み付けを行う。そして、統計モデル合成部２８は、この重み付けに基づいて、ステップＡ１１の処理で得られた各学習データセットに対応する十分統計量を統合し、一つの新たな統計モデルを構築する。その後、構築された新たな統計モデルが外部に出力され、処理が終了する。なお、ステップＡ１６での重み付け統合における「重み」は、認識率と正の相関を示す何らかの関数、例えば多項式関数や、シグモイド関数等により決定することができる。

このように、本実施の形態２では、統計モデル合成部２８は、評価部２２で得られた各統計モデルの評価結果に応じた重み付けに基づいて、統計モデル構築部２１が算出した十分統計量を統合し、新たな一つの統計モデルを構築する。このため、本実施の形態２によれば、最高の評価結果が与えられた統計モデルが１つだけ選択される実施の形態１に比べて、見かけ上の学習データ量の増大化が可能となるので、頑健性の向上が図られた統計モデルが構築される。

また、本実施の形態２におけるプログラムは、コンピュータに、図５に示すステップＡ１１〜Ａ１６を具現化させるプログラムであれば良い。このプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態２における統計モデル学習方法が実行され、更に、本実施の形態１における統計モデル学習装置が具現化される。

この場合、コンピュータのＣＰＵ（central processing unit）は、統計モデル構築部２１、評価部２２、収束判定部２３、学習データ取出部２４、学習データ分配部２５及び統計モデル合成部２８として機能し、処理を行なう。また、学習データ記憶部１１、統計モデル記憶部１２、評価データ記憶部１３及び十分統計量記憶部１４は、実施の形態１と同様に、ハードディスク等の記憶装置や、読取装置によって実現できる。

（実施の形態３）
次に、本発明の実施の形態３における統計モデル学習装置、統計モデル学習方法、及びプログラムについて、図６及び図７を参照して詳細に説明する。最初に、図６を用いて、本実施の形態３における統計モデル学習装置の概略構成について説明する。図６は、本発明の実施の形態３における統計モデル学習装置の概略構成を示すブロック図である。

図６に示すように、本実施の形態３における統計モデル学習装置では、データ処理装置２は、実施の形態１において図１に示した構成に加えて、学習データ置換部２９を備えている。これ以外の点については、本実施の形態３における統計モデル学習装置は、実施の形態１における統計モデル学習装置と同様に構成されている。

学習データ置換部２９は、学習データ分配部２５による分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替えている。また、学習データ置換部２９による入れ替えは、データ取出部２４及びデータ分配部２５における処理とは無関係に、予め設定した確率に基づいてランダムに行われている。

また、学習データ置換部２９による置換を実施する確率は、特に限定されるものではなく、統計モデルの精度が向上するように適宜設定できる。但し、確率が大き過ぎる値に設定されると、対象タスクに適した学習データの選択が過度にランダム化する可能性がある。よって、確率は、例えば、数パーセント程度の比較的小さな値に設定するのが好ましい。

次に、本発明の実施の形態３における統計モデル学習方法について図７を用いて説明する。図７は、本発明の実施の形態３における統計モデル学習方法における処理の流れを示すフロー図である。なお、図７に示す統計モデル学習方法は、図６に示した本実施の形態２における統計モデル学習装置を動作させることによって実施される。以下の説明においては、適宜、図６を参酌する。

図７に示すステップＡ２１、Ａ２２、Ａ２３、Ａ２４、Ａ２５、Ａ２７は、図３に示した実施の形態１におけるステップＡ１、Ａ２、Ａ３、Ａ４、Ａ５、Ａ６にそれぞれ対応し、対応するステップと同一のステップである。よって、Ａ２１〜Ａ２５、及びＡ２７それぞれにおける各部の動作は、実施の形態１におけるステップＡ１〜Ａ６それぞれにおける各部の動作と同じである。よって、Ａ２１、Ａ２２、Ａ２３、Ａ２４、Ａ２５、Ａ２７の説明は省略する。

図７に示すように、先ず、統計モデル構築部２１によってステップＡ２１が実行され、次に、評価部２２によってステップＡ２２が実行される。次いで、収束判定部２３によって、判定が行われ（ステップＡ２３）、終了条件が満たされていない場合は、学習データ取出部２４によってステップＡ２４が実行され、更に、学習データ分配部２５によってステップＡ２５が実行される。

次に、ステップＡ２５の実行後、本実施の形態３では、学習データ置換部２９は、ステップＡ２５の処理で得られた、ある学習データセットの一部のデータと、他の学習データセットの一部のデータを、予め設定された確率に基づいてランダムに入れ替える（ステップＡ２６）。

続いて、ステップＡ２１及びＡ２２が再度実行され、更に、ステップＡ２３において、終了条件が満たされていると判定される迄、ステップＡ２１、Ａ２２、Ａ２４、Ａ２５及びＡ２６は、繰り返し実行される。ステップＡ２３の判定の結果、終了条件が満たされている場合は、統計モデル選択部２６が、ステップＡ２７を実行する。その後、選択された統計モデルが外部に出力され、処理が終了する。

このように、本実施の形態３では、学習データ置換部２９が、各学習データセットの一部のデータを予め設定した確率に基づいてランダムに入れ替えるため、対象とするタスクに適した学習データをより広範囲から選択することができる。即ち、本実施の形態３では、局所最適解への収束を抑制することができる。このため、本実施の形態３によれば、Ｎ個の統計モデルは、実施の形態１及び２の場合よりも多様性を持つことができ、この結果、対象とするタスクに対してより適した統計モデルの構築が可能となる。

また、本実施の形態３におけるプログラムは、コンピュータに、図７に示すステップＡ２１〜Ａ２７を具現化させるプログラムであれば良い。このプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態３における統計モデル学習方法が実行され、更に、本実施の形態１における統計モデル学習装置が具現化される。

この場合、コンピュータのＣＰＵ（central processing unit）は、統計モデル構築部２１、評価部２２、収束判定部２３、学習データ取出部２４、学習データ分配部２５、統計モデル選択部２７及び学習データ置換部２９として機能し、処理を行なう。また、学習データ記憶部１１、統計モデル記憶部１２、及び評価データ記憶部１３は、実施の形態１と同様に、ハードディスク等の記憶装置や、読取装置によって実現できる。

本発明は、音声認識装置、顔画像認識装置、文字認識装置、生体個人認証装置等を含む各種パターン認識装置やパターン認識用プログラムに利用できる。つまり、本発明は、各種パターン認識装置やパターン認識用プログラムが参照する統計モデルを学習する、統計モデル学習装置や、統計モデル学習方法、統計モデル学習をコンピュータによって実現させるためのプログラムといった用途に広く適用できる。本発明は、産業上の利用可能性を有している。

図１は、本発明の実施の形態１における統計モデル学習装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１における統計モデル学習装置の他の例の概略構成を示すブロック図である。図３は、本発明の実施の形態１における統計モデル学習方法における処理の流れを示すフロー図である。図４は、本発明の実施の形態２における統計モデル学習装置の概略構成を示すブロック図である。図５は、本発明の実施の形態２における統計モデル学習方法における処理の流れを示すフロー図である。図６は、本発明の実施の形態３における統計モデル学習装置の概略構成を示すブロック図である。図７は、本発明の実施の形態３における統計モデル学習方法における処理の流れを示すフロー図である。図８は、従来からの統計モデル学習装置の概略構成を示すブロック図である。

符号の説明

１記憶装置
２データ処理装置
１０学習データ記憶部
１１学習データ記憶部
１１−１〜１１−Ｎ学習データ記憶部
１２統計モデル記憶部
１２−１〜１２−Ｎ統計モデル記憶部
１３評価データ記憶部
１４十分統計量記憶部
１４−１〜１４−Ｎ十分統計量記憶部
２１統計モデル構築部
２２評価部
２３収束判定部
２４学習データ取出部
２５学習データ分配部
２６統計モデル選択部
２８統計モデル合成部
２９学習データ置換部

Claims

複数の学習データセットに分割された学習データに基づいて統計モデルを学習する統計モデル学習装置であって、
前記複数の学習データセットそれぞれ毎に統計モデルを構築する統計モデル構築部と、
前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出す学習データ取出部と、
取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配する学習データ分配部とを備え、
前記統計モデル構築部は、前記学習データ分配部による分配後に、前記取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築する、ことを特徴とする統計モデル学習装置。
予め設定された評価データに基づいて、前記各統計モデルに対して評価を行う評価部を更に備え、
前記学習データ取出部が、前記複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの前記評価に応じて、取り出されるデータの量を算出し、算出した量のデータをランダムに取り出す、請求項１に記載の統計モデル学習装置。
統計モデル選択部を更に備え、
前記統計モデル選択部は、前記各統計モデルの前記評価が設定された状態に達したときに、前記各統計モデルの中から、前記評価が最も高い統計モデルを選択する、請求項２に記載の統計モデル学習装置。
統計モデル合成部を更に備え、
前記統計モデル構築部が、更に、前記複数の学習データセットそれぞれ毎に、十分統計量を算出し、
前記統計モデル合成部は、前記各統計モデルの前記評価が設定された状態に達したときに、前記評価に応じた重み付けに基づいて、前記各十分統計量を統合し、これによって、一つの新たな統計モデルを合成する、請求項２に記載の統計モデル学習装置。
前記学習データ取出部が、前記評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出する、請求項２に記載の統計モデル学習装置。
学習データ置換部を更に備え、
前記学習データ置換部は、前記学習データ分配部による分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替える、請求項１から請求項５のいずれかに記載の統計モデル学習装置。
前記学習データが音声データ、顔画像データ、又は文字画像データであり、
前記モデル構築部が、前記統計モデルとして、音響モデル、顔モデル、又は文字モデルを構築する、請求項１から請求項６のいずれかに記載の統計モデル学習装置。
複数の学習データセットに分割された学習データに基づいて統計モデルを学習するための統計モデル学習方法であって、
（ａ）前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
（ｂ）前記（ａ）のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
（ｃ）前記（ｂ）のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
（ｄ）前記（ｃ）のステップの実行後に、前記（ｂ）のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを有する、ことを特徴とする統計モデル学習方法。
（ｅ）予め設定された評価データに基づいて、前記各統計モデルに対して評価を行うステップを更に有し、
前記（ｂ）のステップにおいて、前記複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの、前記（ｅ）のステップで取得された前記評価に応じて、取り出されるデータの量を算出し、算出した量のデータをランダムに取り出す、請求項８に記載の統計モデル学習方法。
（ｆ）前記（ｅ）のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記各統計モデルの中から、前記評価が最も高い統計モデルを選択するステップを更に有する、請求項９に記載の統計モデル学習方法。
前記（ａ）の工程において、更に、前記複数の学習データセットそれぞれ毎に、十分統計量を算出し、そして、
（ｇ）前記（ｅ）のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記評価に応じた重み付けに基づいて、前記（ａ）のステップで算出された各十分統計量を統合し、これによって、一つの新たな統計モデルを合成するステップを更に有する、請求項９に記載の統計モデル学習方法。
前記（ｂ）のステップにおいて、前記評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出する、請求項９に記載の統計モデル学習方法。
（ｈ）前記（ｃ）のステップによる分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替えるステップを更に有する、請求項８から請求項１２のいずれかに記載の統計モデル学習方法。
前記学習データが音声データ、顔画像データ、又は文字画像データであり、
前記（ａ）のステップにおいて、前記統計モデルとして、音響モデル、顔モデル、又は文字モデルを構築する、請求項８から請求項１３のいずれかに記載の統計モデル学習方法。
複数の学習データセットに分割された学習データに基づいて統計モデルを、コンピュータに、学習させるためのプログラムであって、
前記コンピュータに、
（ａ）前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
（ｂ）前記（ａ）のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
（ｃ）前記（ｂ）のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
（ｄ）前記（ｃ）のステップの実行後に、前記（ｂ）のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを実行させる、ことを特徴とするプログラム。
（ｅ）予め設定された評価データに基づいて、前記各統計モデルに対して評価を行うステップを更に前記コンピュータに実行させ、
前記（ｂ）のステップにおいて、前記複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの、前記（ｅ）のステップで取得された前記評価に応じて、取り出されるデータの量を算出し、算出した量のデータをランダムに取り出す、請求項１５に記載のプログラム。
（ｆ）前記（ｅ）のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記各統計モデルの中から、前記評価が最も高い統計モデルを選択するステップを更に前記コンピュータに実行させる、請求項１６に記載のプログラム。
前記（ａ）の工程において、更に、前記複数の学習データセットそれぞれ毎に、十分統計量を算出し、そして、
（ｇ）前記（ｅ）のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記評価に応じた重み付けに基づいて、前記（ａ）のステップで算出された各十分統計量を統合し、これによって、一つの新たな統計モデルを合成するステップを更に前記コンピュータに実行させる、請求項１６に記載のプログラム。
前記（ｂ）のステップにおいて、前記評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出する、請求項１６に記載のプログラム。
（ｈ）前記（ｃ）のステップによる分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替えるステップを更に前記コンピュータに実行させる、請求項１５から請求項１９のいずれかに記載のプログラム。
前記学習データが音声データ、顔画像データ、又は文字画像データであり、
前記（ａ）のステップにおいて、前記統計モデルとして、音響モデル、顔モデル、又は文字モデルを構築する、請求項１５から請求項２０のいずれかに記載のプログラム。