JP5229478B2 - 統計モデル学習装置、統計モデル学習方法、およびプログラム - Google Patents

統計モデル学習装置、統計モデル学習方法、およびプログラム Download PDF

Info

Publication number
JP5229478B2
JP5229478B2 JP2008331530A JP2008331530A JP5229478B2 JP 5229478 B2 JP5229478 B2 JP 5229478B2 JP 2008331530 A JP2008331530 A JP 2008331530A JP 2008331530 A JP2008331530 A JP 2008331530A JP 5229478 B2 JP5229478 B2 JP 5229478B2
Authority
JP
Japan
Prior art keywords
statistical model
data
learning
learning data
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008331530A
Other languages
English (en)
Other versions
JP2010152751A (ja
Inventor
真宏 谷
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008331530A priority Critical patent/JP5229478B2/ja
Publication of JP2010152751A publication Critical patent/JP2010152751A/ja
Application granted granted Critical
Publication of JP5229478B2 publication Critical patent/JP5229478B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、統計モデル学習装置、統計モデル学習方法、およびプログラムに関する。
一般に、高精度な統計モデルを構築するためには、対象とするタスクの学習データが大量に必要であることが知られている。例えば、音声認識の統計モデルの構築では、多くの学習データを収集することにより、音声認識の認識率の向上が図られる。
ところで、音声認識といっても、会議での音声を扱う会議音声認識、電話音声を扱う電話音声認識、車内の音声を扱う車載音声認識等のように、種々の種類が存在している。よって、認識率の向上を図るためには、音声認識の種類毎に、つまり、異なるタスク毎に、学習データを収集し、統計モデルを構築する必要がある。但し、異なるタスク毎に、学習データをその都度大量に収集することは、費用や時間等の収集コストの面で、非現実的である。
この様な問題に対処するために、既存の学習データから対象とするタスクに適したデータのみを選び出し、活用する技術が求められている。これは、既存の学習データは、以前に収集した様々なタスクのデータを集結したものであり、大量に存在する場合が多いからである。なお、対象とするタスクに適したデータとは、対象とするタスクで収集されるデータに類似するデータをいう。適しているかどうは、例えば、既存の学習データが音声データの場合であれば、収録に用いられたマイクの種類、音声に混入した雑音の種類や大きさの程度、話者の話し方やイントネーション等の様々な観点を総合的に捉えて、判断される。
上述の求められている技術を実現するため、特許文献1は、音声認識分野における統計モデル学習装置を開示している。特許文献1に開示された統計モデルは、音響モデルと呼ばれ、音声の音響的な特徴を表現した確率モデルである。図8は、従来からの統計モデル学習装置の概略構成を示すブロック図である。
図8に示すように、この特許文献1に記載の統計モデル学習装置は、記憶装置101と、データ処理装置102とを備えている。記憶装置101は、学習データ記憶部111と、十分統計量記憶部114と、統計モデル記憶部112と、評価データ記憶部113とを備えている。学習データ記憶部111は、学習データとして音声データと、その書き起こしデータ(即ち、発音内容に関する正解ラベル)とを記憶している。音声データは、予め複数(N個)のデータセットに分割され、各データデータセットは、学習データ記憶部111−1、学習データ記憶部111−2、・・・、学習データ記憶部111−Nに、それぞれ記憶されている。
十分統計量記憶部114は、分割されたデータセット毎に算出された十分統計量を記憶する。各十分統計量は、十分統計量記憶部114−1、十分統計量記憶部114−2、・・・、十分統計量記憶部114−Nに、それぞれ記憶されている。ここで、「十分統計量」とは、データベースから統計モデルを構成するのに十分な統計量のことをいう。図8の例では、音響モデル、即ち、音声認識で一般に用いられている隠れマルコフモデル(HMM:Hidden Markov Model)を特徴付ける、パラメータを計算するための統計量である。
統計モデル記憶部112は、十分統計量記憶部114で記憶されている各十分統計量を統合することにより作成された複数(X個)の音響モデルを記憶する。各音響モデルは、統計モデル記憶部112−1、統計モデル記憶部112−2、・・・、統計モデル記憶部112−Xにそれぞれ記憶される。
評価データ記憶部113は、統計モデル記憶部112で記憶されている音響モデルを評価するためのデータ(以下「評価データ」という。)を記憶している。評価データは、評価用の音声データや、この音声データに対応する正解ラベル(即ち、本統計モデルを用いた音声認識装置が出力すべき文字列)によって構成される。
データ処理装置102は、統計量算出部121と、統計モデル構築部127と、評価部122と、統計モデル選択部126とを備えている。統計量算出部121は、学習データ記憶部111から音声データを受け取り、この音声データからHMMの最尤パラメータを推定するための統計量を計算する。具体的には、統計量算出部121は、音声データから計算した音声認識に必要な特徴量と、音声データに予め付与されている音素のラベル情報とから、公知のBaum−Welchアルゴリズム等によって、統計量を計算する。また、統計量算出部121は、学習データ記憶部111−1〜111−Nそれぞれに記憶される音声データセット毎に、統計量を計算し、計算した各統計量を十分統計量記憶部114に出力する。計算された統計量が十分統計量となる。
統計モデル構築部127は、十分統計量記憶部114から、音声データセット毎に計算された十分統計量、即ち、十分統計量記憶部114−1〜114−Nに記憶されている十分統計量を受け取り、これらを任意の組み合わせで統合し、音響モデルを構築する。そして、統計モデル構築部127は、構築した音響モデルを統計モデル記憶部112へ出力する。ここで、十分統計量と十分統計量とを任意の組み合わせで統合するとは、例えば、考えうる全ての網羅的な組み合わせを用いて統合を行うことを意味し、組み合わせの数だけ音響モデルが構築される。
評価部122は、統計モデル記憶部112から、それに記憶されている各音響モデルを受け取り、評価データ記憶部113から、それに記憶されている評価データを受け取る。そして、評価部122は、各音響モデルを用いて評価実験を実施し、評価データに対する認識率を計算し、これを評価結果として、統計モデル選択部126へ出力する。統計モデル選択部126は、各音響モデルに対する評価結果を評価部122から受け取ると、最高の評価結果が与えられた音響モデルを選択する。
このように、図8に示す統計モデル学習装置では、既存の学習データから対象とするタスクに応じてデータの選択が行われる。よって、図8に示す統計モデル学習装置によれば、タスクの実行の度に学習データをその都度大量に収集しなくても良く、費用や時間等の収集コストの上昇が抑制されると考えられる。
特開2007−249051
しかしながら、図8に示した統計モデル学習装置では、記憶装置101の記憶容量が一定に保たれず、対象とするタスクに最適な学習データをきめ細かく選択しようとすると大容量の記憶容量が必要になるという問題がある。その理由は、各学習データセットに対応する十分統計量の組み合わせにより、統計モデルが構築されることにある。つまり、図8に示した統計モデル学習装置では、学習データセットの数や各学習データセットに対応する十分統計量の組み合わせの数を増やしていくと、統計モデルの数は指数関数的に増大するからである。
また、統計モデルの数が指数関数的に増大すると、図8に示した統計モデル学習装置では、統計モデルを評価する時間は、現実的なものではなくなってしまう。この結果、仮に、大容量の記憶容量が用意されていたとしても、結局、図8に示した統計モデル学習装置では、対象とするタスクに応じて大まかにしか学習データを選択できず、統計モデルの精度の向上は困難である。
本発明の目的は、上記問題を解消し、求められる記憶容量の増大化を抑制しつつ、既存の学習データから対象とするタスクに適した学習データをきめ細かく選択することにより、高精度な統計モデルを構築でき得る、統計モデル学習装置、統計モデル学習方法、及びプログラムを提供することにある。
上記目的を達成するために、本発明における統計モデル学習装置は、複数の学習データセットに分割された学習データに基づいて統計モデルを学習する統計モデル学習装置であって、
前記複数の学習データセットそれぞれ毎に統計モデルを構築する統計モデル構築部と、
前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出す学習データ取出部と、
取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配する学習データ分配部とを備え、
前記統計モデル構築部は、前記学習データ分配部による分配後に、前記取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築する、ことを特徴とする。
また、上記目的を達成するため本発明における統計モデル学習方法は、複数の学習データセットに分割された学習データに基づいて統計モデルを学習するための統計モデル学習方法であって、
(a)前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
(b)前記(a)のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
(c)前記(b)のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
(d)前記(c)のステップの実行後に、前記(b)のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを有する、ことを特徴とする。
更に、上記目的を達成するため本発明におけるプログラムは、複数の学習データセットに分割された学習データに基づいて統計モデルを、コンピュータに、学習させるためのプログラムであって、
前記コンピュータに、
(a)前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
(b)前記(a)のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
(c)前記(b)のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
(d)前記(c)のステップの実行後に、前記(b)のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを実行させる、ことを特徴とする。
以上の特徴により、本発明における統計モデル学習装置、統計モデル学習方法、及びプログラムによれば、求められる記憶容量の増大化を抑制しつつ、既存の学習データから対象とするタスクに適した学習データのみをきめ細かく選択することにより、高精度な統計モデルを構築できる。
(実施の形態1)
以下、本発明の実施の形態1における統計モデル学習装置、統計モデル学習方法、及びプログラムについて、図1〜図3を参照しながら説明する。最初に、図1及び図2を用いて、本実施の形態1における統計モデル学習装置の概略構成について説明する。図1は、本発明の実施の形態1における統計モデル学習装置の概略構成を示すブロック図である。図2は、本発明の実施の形態1における統計モデル学習装置の他の例の概略構成を示すブロック図である。
図1に示す本実施の形態1における統計モデル学習装置は、複数の学習データセットに分割された学習データに基づいて統計モデルを学習する装置である。また、本実施の形態1における統計モデル学習装置によって学習された統計モデルは、パターン認識装置、例えば、音声認識装置、顔画像認識装置、文字画像認識装置、及び生体個人認証装置等によって参照される。この場合、学習データとしては、後述するように、音声データ、顔画像データ、又は文字画像データ等が挙げられる。
図1に示すように、本実施の形態1における統計モデル学習装置は、記憶装置1と、データ処理装置2とを備えている。このうち、データ処理装置2は、統計モデル構築部21と、学習データ取出部24と、学習データ分配部25とを備えている。統計モデル構築部21は、学習データを分割して得られた複数の学習データセットそれぞれ毎に、統計モデルを構築する。なお、統計モデルの学習に必要な学習データは、後述するように、複数の学習データセットに分割された状態で記憶装置1に記憶されている。
学習データ取出部24は、統計モデルの構築後に、複数の学習データセットそれぞれから、一部のデータをランダムに取り出す。更に、学習データ分配部26は、取り出された一部のデータを、再度、複数の学習データセットそれぞれに、ランダムに分配する。そして、分配が終了すると、統計モデル構築部21は、取り出された一部のデータが分配された複数の学習データセットそれぞれ毎に、再度、統計モデルを構築する。
このように、本実施の形態1における統計モデル学習装置では、学習データを組み替えながら何度も統計モデルが構築される。よって、背景技術の欄で図8を用いて説明した特許文献1に記載の統計モデル学習装置と異なり、各学習データセットに対応する十分統計量を組み合わせて統計モデルを構築する必要がない。このため、本実施の形態1における統計モデル学習装置によれば、対象とするタスクに最適な学習データをきめ細かく選択しようとする場合であっても、求められる記憶容量の増大化が抑制され、後述する記憶装置1の記憶容量は一定に保たれる。
つまり、本実施の形態1では、統計モデル学習装置が備える記憶装置1によって記憶される情報は、学習データ、分割した学習データセットと同じ数の統計モデル、及び評価データである。記憶装置1に必要な記憶容量は常に一定に保たれている。よって、本実施の形態1における統計モデル学習装置によれば、既存の学習データから対象とするタスクに適した学習データのみをきめ細かく選択することができ、この結果、高精度な統計モデルを構築できる。
一方、背景技術の欄で図8を用いて説明したように、特許文献1に記載の統計モデル学習装置では、学習データセットの数や、各学習データセットに対応する十分統計量の組み合わせの数の増加により、統計モデルの数は指数関数的に増大する。この結果、特許文献1に記載の統計モデル学習装置では、評価にかかる時間が現実的でなくなり、対象とするタスクに最適な学習データをきめ細かく選択することは、事実上、困難となる。
ここで、本実施の形態1における統計モデル学習装置の構成について更に具体的に説明する。図1に示すように、本実施の形態1においては、統計モデル学習装置は、データ処理装置2に加えて、記憶装置1を備えている。記憶装置1は、学習データ記憶部11と、統計モデル記憶部12と、評価データ記憶部13とを備えている。
学習データ記憶部11は、統計モデルの学習に必要な学習データを記憶している。学習データには、その学習データが属するカテゴリを示すラベルが付与されている。学習データの種類は、想定するパターン認識装置の種類に依存する。例えば、音声認識装置が想定される場合は、学習データとしては、発声等の単位で分割された音声データ(信号)が挙げられ、ラベルとしてはその発声内容を示す単語や、音素列、音節列等が挙げられる。
また、パターン認識装置として顔画像認識装置が想定される場合は、学習データとしては、ある人物の顔画像データ(信号)が挙げられ、ラベルとしてはその人物を特定するためのIDが挙げられる。更に、パターン認識装置として文字画像認識装置が想定される場合は、学習データとしては文字画像データ(信号)が挙げられ、ラベルとしてはその文字画像信号に対応する文字コードが挙げられる。
また、学習データは、予め複数(N個)のデータセット(学習データセット)に分割された状態で、学習データ記憶部11に記憶されている。各学習データセットは、それぞれ、学習データ記憶部11−1、学習データ記憶部11−2、・・・、学習データ記憶部11−Nに記憶されている。
本実施の形態1において、学習データセットの数、即ち、Nの値は、統計モデルを構築する上で、統計モデルのパラメータ数に対して学習データが不足する程に大きくならなければ良く、2以上であれば特に限定されるものではない。また、学習データは、予め各学習データセットのデータ量が等しくなるように分割されていても良いし、そうでなくても良い。学習データは、必ずしもデータ量が等しくなるように分割されている必要はない。
統計モデル記憶部12は、後述する統計モデル構築部21から各学習データセットに対応した統計モデル(N個の統計モデル)を受け取り、これらN個の統計モデルを記憶する。また、N個の統計モデルは、それぞれ、統計モデル記憶部12−1、統計モデル記憶部12−2、・・・、統計モデル記憶部12−Nに記憶される。
本実施の形態1において、統計モデルとしては、例えば、特許文献1と同様、HMMや、混合正規分布(GMM:Gaussian Mixture Model)等の確率モデルが挙げられる。GMMは、複数の正規分布または多次元正規分布の重み付き和を用いて複数のピークを持つような分布で表現した観測データの確率モデルである。想定するパターン認識装置が音声認識装置の場合、一般的に用いられるのはHMMであり、具体的には、音素毎にモデル化したモノフォンモデルや、前後の音素環境を考慮して三つ組音素毎にモデル化したトライフォンモデル等である。
評価データ記憶部13は、統計モデル記憶部12で記憶されている統計モデルの評価に必要な評価データを記憶している。評価データは、対象とするタスクのデータであり、予め設定されており、後述の評価部22による評価の基準となる。具体的には、学習データが音声データの場合であれば、評価データとしては、音声データと、この音声データに対応する正解ラベルが用いられる。評価データには、学習データと同様、その評価データが属するカテゴリを示すラベルが付与されている。
また、図1に示すように、本実施の形態1における統計モデル学習装置は、データ処理装置2において、上述の統計モデル構築部21、学習データ取出部24及び学習データ分配部25に加え、評価部22と、収束判定部23と、統計モデル選択部26とを備えている。
統計モデル構築部21は、本実施の形態1では、学習データ記憶部11から、それに記憶されているN個の学習データセットを受け取る。また、本実施の形態1では、統計モデル構築部21は、想定されるパターン認識に必要な特徴量を必要に応じて計算し、この特徴量と学習データに予め付与されているラベル情報とを用いて、統計モデルを規定するパラメータを推定する。この推定されたパラメータにより、統計モデルが構築される。統計モデル構築部21は、各学習データセットに対応したこれらN個の統計モデルを、統計モデル記憶部12に出力する。
ここで、「特徴量」としては、例えば、想定するパターン認識装置が音声認識装置の場合、メルケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficient)等が挙げられる。メルケプストラム係数は、例えば、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著の「音声認識システム」の第13頁−15頁(株式会社オーム社、2001年発行)に開示されている。
本実施の形態1では、「特徴量」は特に限定されるものではなく、「特徴量」として学習データそのものを用いることもできる。また、「特徴量」の計算は、必ずしも統計モデル構築部21によって行われる必要はなく、例えば、統計モデル構築部21とは別に「特徴抽出部」を設け、これによって学習データから「特徴量」を計算することもできる。本実施の形態1は、学習データ記憶部11が、学習データの代わりに、計算された「特徴量」を記憶している態様であっても良い。この場合、統計モデル構築部21において「特徴量」の計算は不要である。
また、上述の「統計モデルを規定するパラメータ」は、例えば、想定するパターン認識装置が音声認識装置であり、音声認識用の音響モデルがHMMの場合、混合正規分布の平均、分散、混合重み、及び状態遷移確率等である。
評価部22は、評価データに基づいて、各統計モデルに対して評価を行う。具体的には、評価部22は、統計モデル記憶部12に記憶されている各統計モデルと、評価データ記憶部13に記憶されている評価データとを受け取り、これらを用いて評価実験を実施する。そして、評価部22は、統計モデル毎の評価結果を、収束判定部23に出力する。また、本実施の形態1では、「評価実験」は各統計モデルを用いて評価データを認識することであり、評価結果としては認識率が得られている。
収束判定部23は、先ず、評価部22から各統計モデルに対する評価結果を受け取り、全ての統計モデルに対する評価結果が定常状態に達したか否かを判定する。そして、収束判定部23は、いくつかの統計モデルについて評価結果が定常状態に達していると判定する場合は、統計モデル選択部26に、受け取った評価結果を出力する。一方、収束判定部23は、いずれの統計モデルについても評価結果が定常状態に達していないと判定する場合は、学習データ取出部24に、受け取った評価結果を出力する。なお、ここでいう定常状態とは、学習と評価を繰り返しても評価結果(つまり、認識率)が一定値に収束し、殆ど変化しない状態であることをいう。
また、収束判定部23は、評価結果が定常状態に達していない場合であっても、予め閾値を設定し、閾値を超えた場合に、統計モデル選択部26に評価結果を出力し、閾値以下の場合は、学習データ取出部24に評価結果を出力することもできる。なお、この場合の閾値としては、予め設定した学習の繰り返し回数や、学習に掛かる時間等が挙げられる。また、ここでいう「学習」とは、学習データ分配部26による分配が行われた後に、統計モデルの再構築が行われることをいう。
学習データ取出部24は、本実施の形態1では、収束判定手段23から各統計モデルに対する評価結果を受け取った後に、データの取り出しを行う。また、学習データ取出部24は、本実施の形態1では、複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの評価結果に応じて、取り出されるデータの量を算出し、算出した量のデータを取り出している。
具体的には、学習データ取出部24は、学習データ記憶部11に記憶されている学習データセットの中から、評価結果が悪い統計モデルの学習に用いられた学習データセットを特定する。そして、学習データ取出部24は、特定した学習データセットから、より多くの学習データをランダムに取り出す。
また、学習データ取出部24は、評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出するのが好ましい。具体的には、取り出されるデータの量(データ量)は、評価結果である認識率と、取り出されるデータの量とに負の相関を示す関数を用いて計算できる。ここでは、負の相関を示す関数としては、一次関数が挙げられる。なお、負の相関を示す関数は、一次関数以外でも良く、その他、負の相関を示す関数としては、多項式関数、区分線形関数、シグモイド関数等も挙げられる。
また、本実施の形態1では、予め評価結果に閾値が設定され、学習データ取出部24が、この閾値を超えた統計モデルに対応する学習データセットに関しては、無条件にデータを取り出さない、等のルールが設定されていても良い。これは、評価結果が高い統計モデルの学習データ、つまり認識率向上に寄与する学習データは取り出さずに、無条件に学習データセット中に残すことを意味する。なお、必ずしも全ての学習データセットからデータを取り出さなくても良く、例えば、取り出す対象とする学習データセットの個数が制限されていても良い。
学習データ分配部25は、本実施の形態1では、学習データ取出部24から取り出された学習データを受け取ると、学習データセットの区別なく1つにまとめ、この取り出された学習データを、学習データ記憶部11−1〜11−Nそれぞれにランダムに分配する。本実施の形態1では、学習データ分配部25は、学習データをランダムに分配するので、取り出された学習データが元の学習データセットに戻ることもあれば、戻らないこともある。
なお、取り出された学習データは、必ずしも完全にランダムに分配されていなくても良い。また、例えば、取り出された学習データは、それが属していた学習データセットには、分配されない、即ち、元には戻されない、等のルールが設けられていても良い。また、本実施の形態1では、学習データの分配は、分配後のデータ量が、学習データ記憶部11−1、学習データ記憶部11−2、・・・、学習データ記憶部11−Nそれぞれに予め記憶されていたデータの量と等しくなるように行われているのが好ましい。
統計モデル選択部26は、いずれかの統計モデルの評価が設定された状態(定常状態)に達すると(又は、収束判定部23が、終了条件が満足されていると判断すると)、各統計モデルの中から、評価が最も高い統計モデルを選択する。具体的には、統計モデル選択部26は、収束判定部23からの各統計モデルに対する評価結果を受け取り、最高の評価結果が与えられている統計モデルを特定し、これを選択する。その後、統計モデル選択部26は、特定された統計モデルをパターン認識装置に出力する。
また、本実施の形態1において、統計モデル学習装置の構成は、図1に示された構成に限定されるものではなく、例えば、図2に示された構成とすることもできる。図2の例では、記憶装置1の構成が、図1の例と異なっている。図2に示すように、記憶装置1は、学習データ記憶部11−1〜11−Nに加えて、学習データ記憶部10を備えている。図2に示す統計モデル学習装置は、この点で、図1に示す統計モデル学習装置と異なっているが、これ以外の点では、図1に示す統計モデル学習装置と同様に構成されている。
学習データ記憶部10は、他の学習データ記憶部11−1〜11−Nと異なり、対象とするタスクのデータが事前に(少量でも)存在していた場合、このデータを学習データとして記憶する。そして、この場合、統計モデル構築部21は、学習データ記憶部10から、対象とするタスクの学習データを受け取り、これを、学習データ記憶部11−1〜11−Nそれぞれから受け取った各学習データセットに追加し、新しく学習データセットを構成する。
また、統計モデル構築部21は、この新しい学習データセット毎に、計算された特徴量と学習データに予め付与されているラベル情報とから、統計モデルを規定するパラメータを推定し、統計モデルを構築する。そして、構築された各統計モデルは、それぞれ、統計モデル記憶部12−1、統計モデル記憶部12−2、・・・、統計モデル記憶部12−Nに記憶される。
このように、図2の例とした場合は、事前に存在する対象とするタスクのデータが必ず用いられるため、図1の例の効果に加え、各統計モデルの評価結果が早期に収束する(定常状態に達する)という効果も得られる。また、図2の例では、対象とするタスクに類似するデータを集めることが目的である。よって、対象とするタスクのデータが事前に存在している場合、これらのデータは分割されなくても良い。
次に、本発明の実施の形態1における統計モデル学習方法について図3を用いて説明する。図3は、本発明の実施の形態1における統計モデル学習方法における処理の流れを示すフロー図である。なお、図3に示す統計モデル学習方法は、図1に示した本実施の形態1における統計モデル学習装置を動作させることによって実施される。以下の説明においては、適宜、図1を参酌する。
図3に示すように、先ず、統計モデル構築部21は、学習データ記憶部11に記憶されているN個の学習データセットを受け取り、学習データセット毎に統計モデルを構築する(ステップA1)。本実施の形態1では、統計モデル構築部21は、上述したように、想定するパターン認識に必要な特徴量を計算し、この特徴量と学習データに予め付与されているラベル情報とを用いて、統計モデルを規定するパラメータを推定する。この推定されたパラメータにより、統計モデルが構築される。また、統計モデルは、学習データセットの数と同じN個存在し、それぞれ、統計モデル記憶部12−1〜12−Nに記憶される。
次に、評価部22は、ステップA1の処理で得られた学習データセット毎の統計モデルそれぞれに対して、評価データ記憶部13に記憶されている評価データを用いて評価を行う(ステップA2)。具体的には、評価部22は、統計モデル毎に認識率を算出し、これを評価結果とする。
次に、収束判定部23は、ステップA2で得られた各統計モデルの評価結果(認識率)を受け取り、いくつかの統計モデルについて、評価結果が定常状態に達したか否か、即ち、終了条件を満たしているか否かを判定する(ステップA3)。
ステップA3の判定の結果、終了条件が満たされていない場合は、収束判定部23は、学習データ取出部24に評価結果を出力する。これにより、ステップA4が実行される。
ステップA4では、学習データ取出部24は、ステップA2の処理で得られた各統計モデルの評価結果を受け取り、各学習データセットから取り出されるデータ量を計算し、計算されたデータの量の分だけ、各学習データセットからデータをランダムに取り出す。ステップA4において、取り出されるデータの量は、認識率と取り出されるデータの量とに負の相関を示す関数を用いることによって計算される。このため、ステップA4の処理では、認識率が低い統計モデルの学習に用いられた学習データセットからより多くの学習データが取り出される。
続いて、ステップA4の終了後、学習データ分配部25は、学習データ記憶部11−1〜11−Nに対して、分配後のデータの量が、これらに予め記憶されていたデータの量と等しくなるように、ステップA4の処理で取り出されたデータをランダムに分配する(ステップA5)。
ステップA5が実行されると、統計モデル構築部21は、再度ステップA1を実行し、データの分配が行われたN個の学習データセットそれぞれ毎に、再度、統計モデルを構築する。その後、ステップA2が実施される。ステップA1、A2、A4及びA5は、ステップA3において、後述するように終了条件が満たされていると判定される迄、繰り返し実行される。
一方、ステップA3の判定の結果、終了条件が満たされている場合は、収束判定部23は、統計モデル選択部26に評価結果を出力する。この後、統計モデル選択部26が、ステップA6を実行する。ステップA6では、統計モデル選択部26は、ステップA2の処理で得られた各統計モデルの評価結果(認識率)を受け取り、最高の認識率を与えた統計モデルを選択する。その後、選択された統計モデルが外部に出力され、処理が終了する。
このように、本実施の形態1では、上述したように、学習データを組み替えながら何度も統計モデルが構築されるので、求められる記憶容量の増大化が抑制され、記憶装置1の記憶容量は一定に保たれる。
また、本実施の形態1では、学習データ取出部24は、複数の学習データセット毎に構築した統計モデルの評価データ(対象とするタスクのデータ)に対する評価結果(評価データを認識した際の認識率)を用いて、各学習データセットから取り出す学習データ量をそれぞれ計算する。そして、学習データ取出部24は、評価結果に基づき、認識率が低い統計モデルの学習に用いられたデータセットから、より多くの学習データを取り出すことができる。また、学習データ分配部25は、取り出された学習データを各学習データセットへランダムに再分配する。その後、統計モデル構築部21が、学習データが入れ替わった学習データセット毎に統計モデルを再度構築する。
この結果、本実施の形態1では、対象とするタスクに適した学習データのみが正確に選択されるという効果が、いっそう向上する。これは、各学習データセットに対応する統計モデルの評価結果(認識率)に応じて、各学習データセット中の学習データが組み替えられ、そして組み替わった学習データセット毎に統計モデルが構築され、更に評価される、という繰り返し処理が行われることによる。即ち、この繰り返しの処理により、対象とするタスクに適した学習データのみをきめ細かく選択できるためである。
このようにして、本実施の形態1では、選択された学習データを用いることにより、高精度な統計モデルの構築が可能となる。よって、本実施の形態1によれば、上述した、特許文献1に記載の統計モデル学習装置における「統計モデルの精度が劣化するという問題」を解決できる。
また、本実施の形態1におけるプログラムは、コンピュータに、図3に示すステップA1〜A6を具現化させるプログラムであれば良い。このプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態1における統計モデル学習方法が実行され、更に、本実施の形態1における統計モデル学習装置が具現化される。
この場合、コンピュータのCPU(central processing unit)は、統計モデル構築部21、評価部22、収束判定部23、学習データ取出部24、学習データ分配部25及び統計モデル選択部26として機能し、処理を行なう。また、学習データ記憶部11、統計モデル記憶部12、及び評価データ記憶部13は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。また、これらの記憶部11〜13は、データファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによっても実現できる。
(実施の形態2)
次に、本発明の実施の形態2における統計モデル学習装置、統計モデル学習方法、及びプログラムについて、図4及び図5を参照して詳細に説明する。最初に、図4を用いて、本実施の形態2における統計モデル学習装置の概略構成について説明する。図4は、本発明の実施の形態2における統計モデル学習装置の概略構成を示すブロック図である。
図4に示すように、本実施の形態2における統計モデル学習装置では、記憶装置1は、実施の形態1において図1に示した構成に加えて、十分統計量記憶部14を備えている。また、データ処理装置2は、図1に示した統計モデル選択部26に替えて、統計モデル合成部28を備えている。本実施の形態2における統計モデル学習装置は、上記の二つの点で、実施の形態1における統計モデル学習装置と異なっている。以下に、相違点について説明する。
十分統計量記憶部14は、分割されたN個の学習データセットに対応する十分統計量を記憶している。各十分統計量は、十分統計量記憶部14−1、十分統計量記憶部14−2、・・・、十分統計量記憶部14−Nにそれぞれ記憶されている。
ここで、十分統計量は、データベースから統計モデルを構成するのに十分な統計量のことである。例えば、上述した特許文献1にも開示されているように、想定するパターン認識装置が音声認識装置である場合、十分統計量は、音声認識用の音響モデルとして一般的に用いられているHMMを特徴付ける、パラメータを計算するための統計量である。このパラメータとしては、混合正規分布の平均、分散、混合重み、及び状態遷移確率等が挙げられる。十分統計量は、統計モデル構築部21が統計モデルを規定するパラメータを推定し、統計モデルを構築するときに、統計モデル構築部21によって得られ、N組存在する。
統計モデル合成部28は、収束判定部23から受け取った、学習データセット毎の統計モデルの評価結果(認識率)に応じた重み付けに基づき、十分統計量記憶部14からの、各学習データセットに対応する十分統計量を統合し、一つの新たな統計モデルを構築する。また、このとき統計モデル合成部28が十分統計量を統合する際に行う、統計処理計算の具体的手法は、例えば、上述した特許文献1や特許第3756879号公報に開示されている。
次に、本発明の実施の形態2における統計モデル学習方法について図5を用いて説明する。図5は、本発明の実施の形態2における統計モデル学習方法における処理の流れを示すフロー図である。なお、図5に示す統計モデル学習方法は、図4に示した本実施の形態2における統計モデル学習装置を動作させることによって実施される。以下の説明においては、適宜、図4を参酌する。
図5に示すステップA12、A13、A14、A15は、図3に示した実施の形態1におけるステップA2、A3、A4、A5にそれぞれ対応し、対応するステップと同一のステップである。よって、A12のステップでの評価部22の動作、A13での収束判定部23の動作、A14での学習データ取出部24の動作、及びA15での学習データ分配部25の動作は、実施の形態1におけるそれらの動作と同じであり、上記ステップの説明は省略する。
図5に示すように、最初に、統計モデル構築部21は、実施の形態1と同様に、学習データ記憶部11で記憶されているN個の学習データセットを受け取り、学習データセット毎に統計モデルを規定するパラメータを推定し、統計モデルを構築し出力する(ステップA11)。本実施の形態2においては、ステップA11では、統計モデル構築部21は、各統計モデルの構築に必要な統計量である十分統計量を算出し、これも出力する。
続いて、ステップA12〜A15が実行され、更に、ステップA13において、終了条件が満たされていると判定される迄、ステップA11、A12、A14及びA15は、繰り返し実行される。
ステップA13の判定の結果、終了条件が満たされている場合は、統計モデル合成部28が、ステップA16を実行する。ステップA16では、統計モデル合成部28は、ステップA12の処理で得られた、各学習データセットに対応する統計モデルの評価結果(認識率)に応じて、各統計モデルに重み付けを行う。そして、統計モデル合成部28は、この重み付けに基づいて、ステップA11の処理で得られた各学習データセットに対応する十分統計量を統合し、一つの新たな統計モデルを構築する。その後、構築された新たな統計モデルが外部に出力され、処理が終了する。なお、ステップA16での重み付け統合における「重み」は、認識率と正の相関を示す何らかの関数、例えば多項式関数や、シグモイド関数等により決定することができる。
このように、本実施の形態2では、統計モデル合成部28は、評価部22で得られた各統計モデルの評価結果に応じた重み付けに基づいて、統計モデル構築部21が算出した十分統計量を統合し、新たな一つの統計モデルを構築する。このため、本実施の形態2によれば、最高の評価結果が与えられた統計モデルが1つだけ選択される実施の形態1に比べて、見かけ上の学習データ量の増大化が可能となるので、頑健性の向上が図られた統計モデルが構築される。
また、本実施の形態2におけるプログラムは、コンピュータに、図5に示すステップA11〜A16を具現化させるプログラムであれば良い。このプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態2における統計モデル学習方法が実行され、更に、本実施の形態1における統計モデル学習装置が具現化される。
この場合、コンピュータのCPU(central processing unit)は、統計モデル構築部21、評価部22、収束判定部23、学習データ取出部24、学習データ分配部25及び統計モデル合成部28として機能し、処理を行なう。また、学習データ記憶部11、統計モデル記憶部12、評価データ記憶部13及び十分統計量記憶部14は、実施の形態1と同様に、ハードディスク等の記憶装置や、読取装置によって実現できる。
(実施の形態3)
次に、本発明の実施の形態3における統計モデル学習装置、統計モデル学習方法、及びプログラムについて、図6及び図7を参照して詳細に説明する。最初に、図6を用いて、本実施の形態3における統計モデル学習装置の概略構成について説明する。図6は、本発明の実施の形態3における統計モデル学習装置の概略構成を示すブロック図である。
図6に示すように、本実施の形態3における統計モデル学習装置では、データ処理装置2は、実施の形態1において図1に示した構成に加えて、学習データ置換部29を備えている。これ以外の点については、本実施の形態3における統計モデル学習装置は、実施の形態1における統計モデル学習装置と同様に構成されている。
学習データ置換部29は、学習データ分配部25による分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替えている。また、学習データ置換部29による入れ替えは、データ取出部24及びデータ分配部25における処理とは無関係に、予め設定した確率に基づいてランダムに行われている。
また、学習データ置換部29による置換を実施する確率は、特に限定されるものではなく、統計モデルの精度が向上するように適宜設定できる。但し、確率が大き過ぎる値に設定されると、対象タスクに適した学習データの選択が過度にランダム化する可能性がある。よって、確率は、例えば、数パーセント程度の比較的小さな値に設定するのが好ましい。
次に、本発明の実施の形態3における統計モデル学習方法について図7を用いて説明する。図7は、本発明の実施の形態3における統計モデル学習方法における処理の流れを示すフロー図である。なお、図7に示す統計モデル学習方法は、図6に示した本実施の形態2における統計モデル学習装置を動作させることによって実施される。以下の説明においては、適宜、図6を参酌する。
図7に示すステップA21、A22、A23、A24、A25、A27は、図3に示した実施の形態1におけるステップA1、A2、A3、A4、A5、A6にそれぞれ対応し、対応するステップと同一のステップである。よって、A21〜A25、及びA27それぞれにおける各部の動作は、実施の形態1におけるステップA1〜A6それぞれにおける各部の動作と同じである。よって、A21、A22、A23、A24、A25、A27の説明は省略する。
図7に示すように、先ず、統計モデル構築部21によってステップA21が実行され、次に、評価部22によってステップA22が実行される。次いで、収束判定部23によって、判定が行われ(ステップA23)、終了条件が満たされていない場合は、学習データ取出部24によってステップA24が実行され、更に、学習データ分配部25によってステップA25が実行される。
次に、ステップA25の実行後、本実施の形態3では、学習データ置換部29は、ステップA25の処理で得られた、ある学習データセットの一部のデータと、他の学習データセットの一部のデータを、予め設定された確率に基づいてランダムに入れ替える(ステップA26)。
続いて、ステップA21及びA22が再度実行され、更に、ステップA23において、終了条件が満たされていると判定される迄、ステップA21、A22、A24、A25及びA26は、繰り返し実行される。ステップA23の判定の結果、終了条件が満たされている場合は、統計モデル選択部26が、ステップA27を実行する。その後、選択された統計モデルが外部に出力され、処理が終了する。
このように、本実施の形態3では、学習データ置換部29が、各学習データセットの一部のデータを予め設定した確率に基づいてランダムに入れ替えるため、対象とするタスクに適した学習データをより広範囲から選択することができる。即ち、本実施の形態3では、局所最適解への収束を抑制することができる。このため、本実施の形態3によれば、N個の統計モデルは、実施の形態1及び2の場合よりも多様性を持つことができ、この結果、対象とするタスクに対してより適した統計モデルの構築が可能となる。
また、本実施の形態3におけるプログラムは、コンピュータに、図7に示すステップA21〜A27を具現化させるプログラムであれば良い。このプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態3における統計モデル学習方法が実行され、更に、本実施の形態1における統計モデル学習装置が具現化される。
この場合、コンピュータのCPU(central processing unit)は、統計モデル構築部21、評価部22、収束判定部23、学習データ取出部24、学習データ分配部25、統計モデル選択部27及び学習データ置換部29として機能し、処理を行なう。また、学習データ記憶部11、統計モデル記憶部12、及び評価データ記憶部13は、実施の形態1と同様に、ハードディスク等の記憶装置や、読取装置によって実現できる。
本発明は、音声認識装置、顔画像認識装置、文字認識装置、生体個人認証装置等を含む各種パターン認識装置やパターン認識用プログラムに利用できる。つまり、本発明は、各種パターン認識装置やパターン認識用プログラムが参照する統計モデルを学習する、統計モデル学習装置や、統計モデル学習方法、統計モデル学習をコンピュータによって実現させるためのプログラムといった用途に広く適用できる。本発明は、産業上の利用可能性を有している。
図1は、本発明の実施の形態1における統計モデル学習装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1における統計モデル学習装置の他の例の概略構成を示すブロック図である。 図3は、本発明の実施の形態1における統計モデル学習方法における処理の流れを示すフロー図である。 図4は、本発明の実施の形態2における統計モデル学習装置の概略構成を示すブロック図である。 図5は、本発明の実施の形態2における統計モデル学習方法における処理の流れを示すフロー図である。 図6は、本発明の実施の形態3における統計モデル学習装置の概略構成を示すブロック図である。 図7は、本発明の実施の形態3における統計モデル学習方法における処理の流れを示すフロー図である。 図8は、従来からの統計モデル学習装置の概略構成を示すブロック図である。
符号の説明
1 記憶装置
2 データ処理装置
10 学習データ記憶部
11 学習データ記憶部
11−1〜11−N 学習データ記憶部
12 統計モデル記憶部
12−1〜12−N 統計モデル記憶部
13 評価データ記憶部
14 十分統計量記憶部
14−1〜14−N 十分統計量記憶部
21 統計モデル構築部
22 評価部
23 収束判定部
24 学習データ取出部
25 学習データ分配部
26 統計モデル選択部
28 統計モデル合成部
29 学習データ置換部

Claims (21)

  1. 複数の学習データセットに分割された学習データに基づいて統計モデルを学習する統計モデル学習装置であって、
    前記複数の学習データセットそれぞれ毎に統計モデルを構築する統計モデル構築部と、
    前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出す学習データ取出部と、
    取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配する学習データ分配部とを備え、
    前記統計モデル構築部は、前記学習データ分配部による分配後に、前記取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築する、ことを特徴とする統計モデル学習装置。
  2. 予め設定された評価データに基づいて、前記各統計モデルに対して評価を行う評価部を更に備え、
    前記学習データ取出部が、前記複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの前記評価に応じて、取り出されるデータの量を算出し、算出した量のデータをランダムに取り出す、請求項1に記載の統計モデル学習装置。
  3. 統計モデル選択部を更に備え、
    前記統計モデル選択部は、前記各統計モデルの前記評価が設定された状態に達したときに、前記各統計モデルの中から、前記評価が最も高い統計モデルを選択する、請求項2に記載の統計モデル学習装置。
  4. 統計モデル合成部を更に備え、
    前記統計モデル構築部が、更に、前記複数の学習データセットそれぞれ毎に、十分統計量を算出し、
    前記統計モデル合成部は、前記各統計モデルの前記評価が設定された状態に達したときに、前記評価に応じた重み付けに基づいて、前記各十分統計量を統合し、これによって、一つの新たな統計モデルを合成する、請求項2に記載の統計モデル学習装置。
  5. 前記学習データ取出部が、前記評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出する、請求項2に記載の統計モデル学習装置。
  6. 学習データ置換部を更に備え、
    前記学習データ置換部は、前記学習データ分配部による分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替える、請求項1から請求項5のいずれかに記載の統計モデル学習装置。
  7. 前記学習データが音声データ、顔画像データ、又は文字画像データであり、
    前記モデル構築部が、前記統計モデルとして、音響モデル、顔モデル、又は文字モデルを構築する、請求項1から請求項6のいずれかに記載の統計モデル学習装置。
  8. 複数の学習データセットに分割された学習データに基づいて統計モデルを学習するための統計モデル学習方法であって、
    (a)前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
    (b)前記(a)のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
    (c)前記(b)のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
    (d)前記(c)のステップの実行後に、前記(b)のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを有する、ことを特徴とする統計モデル学習方法。
  9. (e)予め設定された評価データに基づいて、前記各統計モデルに対して評価を行うステップを更に有し、
    前記(b)のステップにおいて、前記複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの、前記(e)のステップで取得された前記評価に応じて、取り出されるデータの量を算出し、算出した量のデータをランダムに取り出す、請求項8に記載の統計モデル学習方法。
  10. (f)前記(e)のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記各統計モデルの中から、前記評価が最も高い統計モデルを選択するステップを更に有する、請求項9に記載の統計モデル学習方法。
  11. 前記(a)の工程において、更に、前記複数の学習データセットそれぞれ毎に、十分統計量を算出し、そして、
    (g)前記(e)のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記評価に応じた重み付けに基づいて、前記(a)のステップで算出された各十分統計量を統合し、これによって、一つの新たな統計モデルを合成するステップを更に有する、請求項9に記載の統計モデル学習方法。
  12. 前記(b)のステップにおいて、前記評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出する、請求項9に記載の統計モデル学習方法。
  13. (h)前記(c)のステップによる分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替えるステップを更に有する、請求項8から請求項12のいずれかに記載の統計モデル学習方法。
  14. 前記学習データが音声データ、顔画像データ、又は文字画像データであり、
    前記(a)のステップにおいて、前記統計モデルとして、音響モデル、顔モデル、又は文字モデルを構築する、請求項8から請求項13のいずれかに記載の統計モデル学習方法。
  15. 複数の学習データセットに分割された学習データに基づいて統計モデルを、コンピュータに、学習させるためのプログラムであって、
    前記コンピュータに、
    (a)前記複数の学習データセットそれぞれ毎に統計モデルを構築するステップと、
    (b)前記(a)のステップによる前記統計モデルの構築後に、前記複数の学習データセットそれぞれから、一部のデータをランダムに取り出すステップと、
    (c)前記(b)のステップで取り出された一部のデータを、再度、前記複数の学習データセットそれぞれに、ランダムに分配するステップと、
    (d)前記(c)のステップの実行後に、前記(b)のステップで取り出された一部のデータが分配された、前記複数の学習データセットそれぞれ毎に、再度、統計モデルを構築するステップとを実行させる、ことを特徴とするプログラム。
  16. (e)予め設定された評価データに基づいて、前記各統計モデルに対して評価を行うステップを更に前記コンピュータに実行させ、
    前記(b)のステップにおいて、前記複数の学習データセットそれぞれ毎に、各学習データセットに対応する統計モデルの、前記(e)のステップで取得された前記評価に応じて、取り出されるデータの量を算出し、算出した量のデータをランダムに取り出す、請求項15に記載のプログラム。
  17. (f)前記(e)のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記各統計モデルの中から、前記評価が最も高い統計モデルを選択するステップを更に前記コンピュータに実行させる、請求項16に記載のプログラム。
  18. 前記(a)の工程において、更に、前記複数の学習データセットそれぞれ毎に、十分統計量を算出し、そして、
    (g)前記(e)のステップで取得された、前記各統計モデルの前記評価が、設定された状態に達したときに、前記評価に応じた重み付けに基づいて、前記(a)のステップで算出された各十分統計量を統合し、これによって、一つの新たな統計モデルを合成するステップを更に前記コンピュータに実行させる、請求項16に記載のプログラム。
  19. 前記(b)のステップにおいて、前記評価が低い程、取り出されるデータの量が大きくなる関数を用いて、取り出されるデータの量を算出する、請求項16に記載のプログラム。
  20. (h)前記(c)のステップによる分配が行われた学習データセットの一部のデータと、他の学習データセットの一部のデータとを、予め設定された確率に基づいて入れ替えるステップを更に前記コンピュータに実行させる、請求項15から請求項19のいずれかに記載のプログラム。
  21. 前記学習データが音声データ、顔画像データ、又は文字画像データであり、
    前記(a)のステップにおいて、前記統計モデルとして、音響モデル、顔モデル、又は文字モデルを構築する、請求項15から請求項20のいずれかに記載のプログラム。
JP2008331530A 2008-12-25 2008-12-25 統計モデル学習装置、統計モデル学習方法、およびプログラム Active JP5229478B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008331530A JP5229478B2 (ja) 2008-12-25 2008-12-25 統計モデル学習装置、統計モデル学習方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008331530A JP5229478B2 (ja) 2008-12-25 2008-12-25 統計モデル学習装置、統計モデル学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010152751A JP2010152751A (ja) 2010-07-08
JP5229478B2 true JP5229478B2 (ja) 2013-07-03

Family

ID=42571744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008331530A Active JP5229478B2 (ja) 2008-12-25 2008-12-25 統計モデル学習装置、統計モデル学習方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5229478B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5656946B2 (ja) * 2012-09-27 2015-01-21 株式会社東芝 データ分析装置及びプログラム
US9679224B2 (en) * 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
US9336770B2 (en) 2013-08-13 2016-05-10 Mitsubishi Electric Corporation Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method
CN105095755A (zh) * 2015-06-15 2015-11-25 安一恒通(北京)科技有限公司 文件识别方法和装置
BR112020022270A2 (pt) 2018-05-14 2021-02-23 Quantum-Si Incorporated sistemas e métodos para unificar modelos estatísticos para diferentes modalidades de dados
US11967436B2 (en) 2018-05-30 2024-04-23 Quantum-Si Incorporated Methods and apparatus for making biological predictions using a trained multi-modal statistical model
EP3803884A2 (en) * 2018-05-30 2021-04-14 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US11971963B2 (en) 2018-05-30 2024-04-30 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
JP7095467B2 (ja) * 2018-08-01 2022-07-05 株式会社デンソー 訓練データ評価装置、訓練データ評価方法、およびプログラム
JP7176285B2 (ja) * 2018-08-08 2022-11-22 株式会社デンソー 訓練データ評価装置、訓練データ評価方法、およびプログラム
US11257001B2 (en) 2018-10-09 2022-02-22 International Business Machines Corporation Prediction model enhancement
CN109492675B (zh) * 2018-10-22 2021-02-05 深圳前海达闼云端智能科技有限公司 医学影像的识别方法、装置、存储介质和电子设备
JP7075056B2 (ja) * 2018-12-27 2022-05-25 オムロン株式会社 画像判定装置、画像判定方法及び画像判定プログラム
CN110909761B (zh) * 2019-10-12 2024-08-02 平安科技(深圳)有限公司 图像识别方法、装置、计算机设备及存储介质
WO2021074973A1 (ja) * 2019-10-15 2021-04-22 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム
JP7452149B2 (ja) * 2020-03-20 2024-03-19 株式会社アイシン ブロックノイズ検出の為の学習装置及びコンピュータプログラム
KR20220104432A (ko) * 2021-01-18 2022-07-26 한국전자통신연구원 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3559334B2 (ja) * 1995-01-17 2004-09-02 富士通株式会社 最適化問題解法装置
JP2005242803A (ja) * 2004-02-27 2005-09-08 Mitsubishi Heavy Ind Ltd 機械の性能推定器、性能推定方法及び性能推定プログラム
JP2006330935A (ja) * 2005-05-24 2006-12-07 Fujitsu Ltd 学習データ作成プログラム、学習データ作成方法および学習データ作成装置
JP4571922B2 (ja) * 2006-03-17 2010-10-27 日本電信電話株式会社 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP2008250856A (ja) * 2007-03-30 2008-10-16 Sony Corp 学習装置、学習方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11455864B2 (en) 2018-07-25 2022-09-27 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US12106630B2 (en) 2018-07-25 2024-10-01 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Also Published As

Publication number Publication date
JP2010152751A (ja) 2010-07-08

Similar Documents

Publication Publication Date Title
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
CN112017694B (zh) 语音数据的评测方法和装置、存储介质和电子装置
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
CN113674733A (zh) 用于说话时间估计的方法和设备
Herbig et al. Self-learning speaker identification for enhanced speech recognition
US20060074657A1 (en) Transformation and combination of hidden Markov models for speaker selection training
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP2006201265A (ja) 音声認識装置
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5229478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150