JP2004294916A - 標準モデル作成装置および標準モデル作成方法 - Google Patents
標準モデル作成装置および標準モデル作成方法 Download PDFInfo
- Publication number
- JP2004294916A JP2004294916A JP2003089180A JP2003089180A JP2004294916A JP 2004294916 A JP2004294916 A JP 2004294916A JP 2003089180 A JP2003089180 A JP 2003089180A JP 2003089180 A JP2003089180 A JP 2003089180A JP 2004294916 A JP2004294916 A JP 2004294916A
- Authority
- JP
- Japan
- Prior art keywords
- standard model
- model
- standard
- maximize
- creating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解、確率モデルによるデータマイニングなどに用いる高精度な標準モデルを提供する。
【解決手段】1以上の参照モデルを準備する参照モデル準備部102と、参照モデル準備部102が準備した参照モデル121を記憶する参照モデル記憶部103と、参照モデル記憶部103が記憶している1以上の参照モデルに対する確率または尤度を最大化または極大化するように標準モデルの統計量を計算して標準モデル122を作成する標準モデル作成部104とを備える。
【選択図】 図1
【解決手段】1以上の参照モデルを準備する参照モデル準備部102と、参照モデル準備部102が準備した参照モデル121を記憶する参照モデル記憶部103と、参照モデル記憶部103が記憶している1以上の参照モデルに対する確率または尤度を最大化または極大化するように標準モデルの統計量を計算して標準モデル122を作成する標準モデル作成部104とを備える。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証(対象を認識して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いられる標準モデルの作成装置およびその方法に関する。
【0002】
近年、インターネットなどの普及により、ネットワークの大容量化、通信コストの低価格化が進んでいる。このため、ネットワークを利用することで、多くの認識用モデル(参照モデル)を収集することが可能となってきている。例えば、音声認識において、様々な研究機関で配布している多くの音声認識用モデル(子供用モデル、成人用モデル、高齢者用モデル、自動車内用モデル、携帯電話用モデルなど)をインターネットによりダウンロードすることが可能となってきている。また、ネットワークによる機器連携により、カーナビゲーションシステムなどで利用する音声認識用モデルをテレビやパソコンなどにダウンロードできるようになってきている。また、意図理解において、各地の様々な人の経験を学習した認識用モデルを、ネットワークを通して収集することが可能となってきている。
【0003】
また、認識技術の発展により、認識用モデルは、パソコン、テレビのリモコン、携帯電話、カーナビゲーションシステムなど、CPUパワー、メモリ量などの仕様の異なる幅広い機器に利用されるようになってきている。また、セキュリティーなどの認識精度が要求されるアプリケーションや、テレビのリモコンでの操作のように認識結果が出力されるまでの時間の速さが要求されるアプリケーションなど、要求仕様の異なる幅広いアプリケーションに利用されるようになってきている。
【0004】
また、認識技術は、認識対象の異なる多くの環境で利用されるようになってきている。例えば、音声認識において、子供の声、成人の声、高齢者の声を認識したり、自動車内での声、携帯電話での声を認識するなど、多くの環境で利用される。
【0005】
これらの社会環境の変化を鑑みると、多くの認識用モデル(参照モデル)を有効に活用することで、機器やアプリケーションの仕様、利用環境に適した精度の高い認識用モデル(標準モデル)を短時間に作成して利用者に提供することが望まれると考えられる。
【0006】
【従来の技術】
音声認識などのパターン認識の分野で、認識用の標準モデルとして確率モデルを用いる方法が近年注目されており、特に、隠れマルコフモデル(以下HMMと呼ぶ)や混合ガウス分布モデル(以下GMMと呼ぶ)が広く用いられている。また、意図理解において、意図、知識、嗜好などを表す標準モデルとして確率モデルを用いる方法が近年注目されており、特に、ベイジアンネットなどが広く用いられている。また、データマイニングの分野で、データを分類するために各カテゴリの代表モデルとして確率モデルを用いる方法が注目されており、GMMなどが広く用いられている。また、音声認証、指紋認証、顔認証、虹彩認証などの認証の分野で、認証用の標準モデルとして確率モデルを用いる方法が注目されており、GMMなどが用いられている。HMMにより表現される標準モデルの学習アルゴリズムとしてバウム・ウェルチ(Baum−Welch)の再推定の方法が広く用いられている(例えば、今井聖著、”音声認識”、pp.150−152、共立出版株式会社、1995年11月25日発行参照)。また、GMMにより表現される標準モデルの学習アルゴリズムとしてEM(Expectation−Maximization)アルゴリズムが広く用いられている(例えば、古井貞▲ひろ▼著、”音声情報処理”、pp.100−104、森北出版株式会社、1998年6月30日発行参照)。EMアルゴリズムでは、標準モデル
【0007】
【数43】
【0008】
(ここで、
【0009】
【数44】
【0010】
はガウス分布を表し、
【0011】
【数45】
【0012】
はJ(≧1)次元の入力データを表す)における統計量である混合重み係数
【0013】
【数46】
【0014】
、J(≧1)次元の平均値
【0015】
【数47】
【0016】
およびJ(≧1)次元の分散値(共分散行列のJ個の対角成分)
【0017】
【数48】
【0018】
を、
N個の学習データ
【0019】
【数49】
【0020】
を用いて、学習データに対する尤度
【0021】
【数50】
【0022】
を最大化もしくは極大化するように、
【0023】
【数51】
【0024】
【数52】
【0025】
【数53】
【0026】
(ここで、
【0027】
【数54】
【0028】
である)を利用して1以上繰り返して計算して学習を行う。また、ベイズ推定法(例えば、繁桝算男著、”ベイズ統計入門”、pp.42−53、東京大学出版会、1985年4月30日発行参照)などの方法も提案されている。バウム・ウェルチの再推定の方法、EMアルゴリズム、ベイズ推定法のいずれの学習アルゴリズムも、学習データに対する確率(尤度)を最大化もしくは極大化するように標準モデルのパラメータ(統計量)を計算して標準モデルを作成する。これらの学習方法では、確率(尤度)を最大化もしくは極大化するという数学的な最適化が実現されている。
【0029】
上記の学習方法を音声認識の標準モデルの作成に用いた場合、多様な話者や雑音などの音響的特徴量の変動に対応するために多数の音声データで標準モデルを学習することが望ましい。また、意図理解に用いた場合、多様な話者や状況などの変動に対応するために多数のデータで標準モデルを学習することが望ましい。また、虹彩認証に用いた場合、太陽光、カメラ位置・回転などの変動に対応するために多数の虹彩画像データで標準モデルを学習することが望ましい。しかしながら、このような多量のデータを取り扱う場合、学習に膨大な時間がかかるため、利用者に標準モデルを短時間に提供できない。また、多量のデータを蓄積するためのコストが膨大となる。また、ネットワークを利用してデータを収集した場合、通信コストが膨大となる。
【0030】
一方、複数のモデル(以下、標準モデルの作成のために参照用として準備されるモデルを「参照モデル」と呼ぶ。)を合成することで標準モデルを作成する方法が提案されている。参照モデルは、多くの学習データを確率分布の母数(平均、分散など)で表現した確率分布モデルであり、多くの学習データの特徴を少数のパラメータ(母数)で集約したものであるため、参照モデルを用いて標準モデルを作成した場合、標準モデルを短時間に作成することが可能となる。ここでのモデルはガウス分布で表現されている。
【0031】
第1の従来方法では、参照モデルはGMMで表現されており、複数の参照モデルのGMMを重み付きで合成することで標準モデルを作成している(例えば、特許文献1参照)。
【0032】
また、第2の従来方法では、第1の従来方式に加えて、学習データに対する確率(尤度)を最大化あるいは極大化して線形結合された混合重みを学習することで標準モデルを作成している(例えば、特許文献2参照)。
【0033】
また、第3の従来方法では、標準モデルの平均値を参照モデルの平均値の線形結合で表現し、入力データに対する確率(尤度)を最大化あるいは極大化して線形結合係数を学習することで標準モデルを作成している。ここでは学習データとして特定話者の音声データを用いており標準モデルを音声認識用の話者適応モデルとして用いている(例えば、非特許文献1参照)。
【0034】
また、第4の従来方法では、参照モデルは単一ガウス分布で表現されており、複数の参照モデルのガウス分布を合成したのちに、クラスタリングにより同一クラスに属するガウス分布を統合することで標準モデルを作成している(例えば、特許文献3参照)。
【0035】
また、第5の従来方法では、複数の参照モデルは同数の混合数の混合ガウス分布で表現され、各ガウス分布には通し番号が付与されている。標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成される。合成する複数の参照モデルは利用者に音響的に近い話者で作成されたモデルであり、作成させる標準モデルは話者適応モデルである(例えば、非特許文献2参照)。
【0036】
【特許文献1】
特開平4−125599号公報(第3項、第1図)
【0037】
【特許文献2】
特開平10−268893号公報(第3−6頁、第1図)
【0038】
【特許文献3】
特開平9−81178号公報(第3−4項、第4図、第5図)
【0039】
【非特許文献1】
M.J.F.Gales、”Cluster Adaptive Training For Speech Recognition”、1998年、ICSLP98予稿集、pp.1783−1786
【0040】
【非特許文献2】
芳澤、外6名、”十分統計量と話者距離を用いた音韻モデルの教師なし学習法”、2002年3月1日、電子情報通信学会、Vol.J85−D−II、No.3、pp.382−389
【0041】
【発明が解決しようとする課題】
しかしながら、第1の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルの作成において、最尤推定などの最適化アルゴリズムによる学習ではなく、標準モデルは参照モデルの単純な混合和であるため、高精度の標準モデルが作成できない。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0042】
第2の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルは、参照モデルの単純な混合和であり学習するパラメータが混合重みに限定されているため、高精度の標準モデルが作成できない。また、標準モデルの作成において、学習データを用いて学習を行っているため学習時間がかかる。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0043】
第3の従来方法では、学習するパラメータが参照モデルの平均値の線形結合係数に限定されているため高精度の標準モデルが作成できない。また、標準モデルの作成において、学習データを用いて学習を行っているため学習時間がかかる。
【0044】
第4の従来方法では、クラスタリングをヒューリスティックに行うため高精度の標準モデルを作成することが困難である。また、参照モデルは単一のガウス分布であるため精度が低く、それらを統合した標準モデルの精度は低い。認識精度に関する課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0045】
第5の従来方法では、標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成されるが、最適な標準モデルを作成するためには、一般的には合成するガウス分布は1対1に対応するとは限らないため、認識精度が低下する。また、複数の参照モデルが異なる混合数をもつ場合に標準モデルを作成することができない。また、一般的には、参照モデルにおけるガウス分布に通し番号が付与されておらず、この場合に標準モデルを作成することができない。また、仕様に応じて標準モデルの混合数を制御することができない。
【0046】
そこで、本発明は、このような問題点に鑑みてなされたものであり、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いられる高精度な標準モデルを作成する標準モデル作成装置等を提供することを目的とする。
【0047】
また、本発明は、学習のためのデータや教師データを必要とすることなく、簡易に標準モデルを作成することが可能な標準モデル作成装置等を提供することをも目的とする。
【0048】
さらに、本発明は、標準モデルを利用する認識の対象にふさわしい標準モデルを作成したり、標準モデルを用いて認識処理を実行する装置の仕様や環境に適した標準モデルを作成することが可能な汎用性および柔軟性に優れた標準モデル作成装置等を提供することをも目的とする。
【0049】
本発明で用いる「認識」とは、音声認識などの狭義の意味での認識だけではなく、パターンマッチング、識別、認証、ベイズ推定や予測など、確率で表現された標準モデルを利用するもの全般を意味する。
【0050】
【課題を解決するための手段】
上記目的を達成するために、本発明に係る標準モデル作成装置は、事象の集合の出力確率によって定義される認識用のモデルである標準モデル、あるいは、事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、特定の対象を認識するために予め作成されたモデルである参照モデルを1以上記憶する参照モデル記憶手段と、前記参照モデル記憶手段に記憶された1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【0051】
これによって、1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、音声データ等の学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【0052】
また、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、前記参照モデルに対する前記標準モデルの確率または尤度を最大化または極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有するように構成してもよい。
【0053】
なお、本発明は、このような標準モデル作成装置として実現することができるだけでなく、標準モデル作成装置が備える特徴的な構成要素をステップとする標準モデル作成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのプログラムをCD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【0054】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照しながら詳しく説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。
【0055】
図1は、本発明の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ101に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【0056】
サーバ101は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象または事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部111と、参照モデル準備部102と、参照モデル記憶部103と、標準モデル作成部104と、書き込み部112とを備える。
【0057】
読み込み部111は、CD−ROMなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込む。参照モデル準備部102は、読み込まれた参照モデル121を参照モデル記憶部103へ送信する。参照モデル記憶部103は、3個の参照モデル121を記憶する。
【0058】
標準モデル作成部104は、参照モデル記憶部103が記憶した3個(Ng=3)の参照モデル121に対する確率または尤度を最大化または極大化するように標準モデル122を作成する処理部であり、標準モデルの構造(ガウス分布の混合数など)を決定する標準モデル構造決定部104aと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部104bと、決定された初期標準モデルを記憶する統計量記憶部104cと、統計量記憶部104cに記憶された初期標準モデルに対して、第1近似部104eによる近似計算等を用いることにより、参照モデル記憶部103に記憶されている3個(Ng=3)の参照モデル121に対する確率または尤度を最大化または極大化するような統計量を算出する(最終的な標準モデルを生成する)統計量推定部104dとからなる。なお、統計量とは、標準モデルを特定するパラメータであり、ここでは、混合重み係数、平均値、分散値である。
【0059】
書き込み部112は、標準モデル作成部104が作成した標準モデル122をCD−ROMなどのストレージデバイスに書き込む。
次に、以上のように構成されたサーバ101の動作について説明する。
【0060】
図2は、サーバ101の動作手順を示すフローチャートである。
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(ステップS100)。つまり、読み込み部111は、CD−ROMなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込み、参照モデル準備部102は、読み込まれた参照モデル121を参照モデル記憶部103へ送信し、参照モデル記憶部103は、3個の参照モデル121を記憶する。
【0061】
参照モデル121は、音素ごとのHMMにより構成される。参照モデル121の一例を図3に示す。ここでは、子供用参照モデル、成人用参照モデル、高齢者用参照モデルのイメージ図が示されている(なお、本図では、高齢者用参照モデルのイメージ図は省略されている)。これら3個の参照モデルの全てが、状態数3個、各状態は混合分布数が3個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として12次元(J=12)のケプストラム係数が用いられる。
【0062】
次に、標準モデル作成部104は、参照モデル記憶部103が記憶した3個の参照モデル121に対する確率または尤度を最大化または極大化するように標準モデル122を作成する(ステップS101)。
【0063】
最後に、書き込み部112は、標準モデル作成部104が作成した標準モデル122をCD−ROMなどのストレージデバイスに書き込む(ステップS102)。CD−ROMなどのストレージデバイスに書き込まれた標準モデルは、子供、成人、高齢者を考慮した音声認識用の標準モデルとして利用される。
【0064】
図4は、図2におけるステップS101(標準モデルの作成)の詳細な手順を示すフローチャートである。
まず、標準モデル構造決定部104aは、標準モデルの構造を決定する(ステップS102a)。ここでは、標準モデルの構造として、音素ごとのHMMにより構成され、3状態であり、各状態における出力分布の混合数を3個(Mf=3)と決定する。
【0065】
次に、初期標準モデル作成部104bは、標準モデルを計算するための統計量の初期値を決定する(ステップS102b)。ここでは、参照モデル記憶部103に記憶された3つの参照モデルを、統計処理計算を用いて1つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部104cに記憶する。
【0066】
具体的には、初期標準モデル作成部104bは、上記3つの状態I(I=1、2、3)それぞれについて、以下の数55に示される出力分布を生成する。なお、式中のMf(ガウス分布の混合数)は、ここでは、3である。
【0067】
【数55】
【0068】
ここで、
【0069】
【数56】
【0070】
は、ガウス分布を表し、
【0071】
【数57】
【0072】
は、12次元(J=12)のLPCケプストラム係数を表し、
【0073】
【数58】
【0074】
は、各ガウス分布の混合重み係数を表し、
【0075】
【数59】
【0076】
は、各ガウス分布の平均値を表し、
【0077】
【数60】
【0078】
は、各ガウス分布の分散値を表す。
そして、統計量推定部104dは、参照モデル記憶部103に記憶された3つの参照モデル121を用いて、統計量記憶部104cに記憶された標準モデルの統計量を推定する(ステップS102c)。
【0079】
具体的には、3つ(Ng=3)の参照モデル121の各状態I(I=1、2、3)における出力分布、即ち、以下の数61に示される出力分布に対する標準モデルの確率または尤度(以下の数67に示される尤度logP)を極大化もしくは最大化するような標準モデルの統計量(上記数58に示される混合重み係数、上記数59に示される平均値、および、上記数60に示される分散値)を推定する。
【0080】
【数61】
【0081】
ここで、
【0082】
【数62】
【0083】
はガウス分布を表し、
【0084】
【数63】
【0085】
は各参照モデルの混合分布数(ここでは、3)を表し、
【0086】
【数64】
【0087】
は各ガウス分布の混合重み係数を表し、
【0088】
【数65】
【0089】
は各ガウス分布の平均値を表し、
【0090】
【数66】
【0091】
は各ガウス分布の分散値を表す。
【0092】
【数67】
【0093】
そして、以下の数68、数69および数70に示される式に従って、それぞれ、標準モデルの混合重み係数、平均値および分散値を算出する。
【0094】
【数68】
【0095】
【数69】
【0096】
【数70】
【0097】
このとき、統計量推定部104dの第1近似部104eにより、以下の数71に示される近似式が用いられる。
【0098】
【数71】
【0099】
ここで、
【0100】
【数72】
【0101】
は、
【0102】
【数73】
【0103】
を重みとし、
【0104】
【数74】
【0105】
を平均値とし、
【0106】
【数75】
【0107】
を分散値とする単一のガウス分布を表す。
また、第1近似部104eは、上記数72に示された単一ガウス分布の重み(数73平均値(数74)および分散値(数75)を、それぞれ、以下の数76、数77および数78に示された式に従って算出する。
【0108】
【数76】
【0109】
【数77】
【0110】
【数78】
【0111】
図5は、第1近似部104eによる近似計算を説明する図である。第1近似部104eは、本図に示されるように、上記数71に示された近似式における単一ガウス分布(数72)を、標準モデルを構成する全ての混合ガウス分布を用いて決定している。
【0112】
以上の第1近似部104eによる近似式を考慮してまとめると、統計量推定部104dでの計算式は次の通りになる。つまり、統計量推定部104dは、以下の数79、数80および数81に示される式に従って、それぞれ、混合重み係数、平均値および分散値を算出し、統計量記憶部104cに記憶する。そして、このような統計量の推定と統計量記憶部104cへの記憶をR(≧1)回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル122の統計量として出力する。
【0113】
【数79】
【0114】
【数80】
【0115】
【数81】
【0116】
なお、状態遷移確率については、HMMの対応する状態遷移確率を参照モデル121に対して全て加えあわせた全体が1になるように正規化したものを用いる。
【0117】
以上説明したように、本発明の実施の形態によれば、予め準備された参照モデルに対する確率または尤度を最大化または極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、学習のためのデータや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した精度の高い標準モデルが作成される。
【0118】
なお、標準モデル122は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
また、標準モデル作成部104は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【0119】
また、標準モデル122を構成するHMMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0120】
また、参照モデル121は、子供用参照モデル、成人用参照モデル、高齢者用参照モデルにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【0121】
また、標準モデル122を用いて、サーバ101において音声認識を行ってもよい。
また、参照モデル121をCD−ROM、DVD−RAMなどのストレージデバイスから読み込む代わりに、サーバ101において音声データから参照モデル121を作成してもよい。
【0122】
また、参照モデル準備部102は、必要に応じてCD−ROM、DVD−RAMなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部103に追加・更新してもよい。つまり、参照モデル準備部102は、新たな参照モデルを参照モデル記憶部103に格納するだけでなく、同一の認識対象についての参照モデルが参照モデル記憶部103に格納されている場合には、その参照モデルと置き換えることによって参照モデルを更新したり、参照モデル記憶部103に格納されている不要な参照モデルを削除してもよい。
【0123】
また、参照モデル準備部102は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部103に追加・更新してもよい。
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
【0124】
【発明の効果】
以上の説明から明らかなように、本発明に係る標準モデル作成装置によれば、1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【0125】
本発明により、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証(対象を認識して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いる高精度な標準モデルが提供され、その実用的価値は極めて高い。
【図面の簡単な説明】
【図1】本発明の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図2】同サーバの動作手順を示すフローチャートである。
【図3】図1における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図4】図2におけるステップS101(標準モデルの作成)の詳細な手順を示すフローチャートである。
【図5】図1における第1近似部104eによる近似計算を説明する図である。
【符号の説明】
101 サーバ
102 参照モデル準備部
103 参照モデル記憶部
104 標準モデル作成部
104a 標準モデル構造決定部
104b 初期標準モデル作成部
104c 統計量記憶部
104d 統計量推定部
104e 第1近似部
111 読み込み部
112 書き込み部
121 参照モデル
122 標準モデル
【発明の属する技術分野】
本発明は、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証(対象を認識して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いられる標準モデルの作成装置およびその方法に関する。
【0002】
近年、インターネットなどの普及により、ネットワークの大容量化、通信コストの低価格化が進んでいる。このため、ネットワークを利用することで、多くの認識用モデル(参照モデル)を収集することが可能となってきている。例えば、音声認識において、様々な研究機関で配布している多くの音声認識用モデル(子供用モデル、成人用モデル、高齢者用モデル、自動車内用モデル、携帯電話用モデルなど)をインターネットによりダウンロードすることが可能となってきている。また、ネットワークによる機器連携により、カーナビゲーションシステムなどで利用する音声認識用モデルをテレビやパソコンなどにダウンロードできるようになってきている。また、意図理解において、各地の様々な人の経験を学習した認識用モデルを、ネットワークを通して収集することが可能となってきている。
【0003】
また、認識技術の発展により、認識用モデルは、パソコン、テレビのリモコン、携帯電話、カーナビゲーションシステムなど、CPUパワー、メモリ量などの仕様の異なる幅広い機器に利用されるようになってきている。また、セキュリティーなどの認識精度が要求されるアプリケーションや、テレビのリモコンでの操作のように認識結果が出力されるまでの時間の速さが要求されるアプリケーションなど、要求仕様の異なる幅広いアプリケーションに利用されるようになってきている。
【0004】
また、認識技術は、認識対象の異なる多くの環境で利用されるようになってきている。例えば、音声認識において、子供の声、成人の声、高齢者の声を認識したり、自動車内での声、携帯電話での声を認識するなど、多くの環境で利用される。
【0005】
これらの社会環境の変化を鑑みると、多くの認識用モデル(参照モデル)を有効に活用することで、機器やアプリケーションの仕様、利用環境に適した精度の高い認識用モデル(標準モデル)を短時間に作成して利用者に提供することが望まれると考えられる。
【0006】
【従来の技術】
音声認識などのパターン認識の分野で、認識用の標準モデルとして確率モデルを用いる方法が近年注目されており、特に、隠れマルコフモデル(以下HMMと呼ぶ)や混合ガウス分布モデル(以下GMMと呼ぶ)が広く用いられている。また、意図理解において、意図、知識、嗜好などを表す標準モデルとして確率モデルを用いる方法が近年注目されており、特に、ベイジアンネットなどが広く用いられている。また、データマイニングの分野で、データを分類するために各カテゴリの代表モデルとして確率モデルを用いる方法が注目されており、GMMなどが広く用いられている。また、音声認証、指紋認証、顔認証、虹彩認証などの認証の分野で、認証用の標準モデルとして確率モデルを用いる方法が注目されており、GMMなどが用いられている。HMMにより表現される標準モデルの学習アルゴリズムとしてバウム・ウェルチ(Baum−Welch)の再推定の方法が広く用いられている(例えば、今井聖著、”音声認識”、pp.150−152、共立出版株式会社、1995年11月25日発行参照)。また、GMMにより表現される標準モデルの学習アルゴリズムとしてEM(Expectation−Maximization)アルゴリズムが広く用いられている(例えば、古井貞▲ひろ▼著、”音声情報処理”、pp.100−104、森北出版株式会社、1998年6月30日発行参照)。EMアルゴリズムでは、標準モデル
【0007】
【数43】
【0008】
(ここで、
【0009】
【数44】
【0010】
はガウス分布を表し、
【0011】
【数45】
【0012】
はJ(≧1)次元の入力データを表す)における統計量である混合重み係数
【0013】
【数46】
【0014】
、J(≧1)次元の平均値
【0015】
【数47】
【0016】
およびJ(≧1)次元の分散値(共分散行列のJ個の対角成分)
【0017】
【数48】
【0018】
を、
N個の学習データ
【0019】
【数49】
【0020】
を用いて、学習データに対する尤度
【0021】
【数50】
【0022】
を最大化もしくは極大化するように、
【0023】
【数51】
【0024】
【数52】
【0025】
【数53】
【0026】
(ここで、
【0027】
【数54】
【0028】
である)を利用して1以上繰り返して計算して学習を行う。また、ベイズ推定法(例えば、繁桝算男著、”ベイズ統計入門”、pp.42−53、東京大学出版会、1985年4月30日発行参照)などの方法も提案されている。バウム・ウェルチの再推定の方法、EMアルゴリズム、ベイズ推定法のいずれの学習アルゴリズムも、学習データに対する確率(尤度)を最大化もしくは極大化するように標準モデルのパラメータ(統計量)を計算して標準モデルを作成する。これらの学習方法では、確率(尤度)を最大化もしくは極大化するという数学的な最適化が実現されている。
【0029】
上記の学習方法を音声認識の標準モデルの作成に用いた場合、多様な話者や雑音などの音響的特徴量の変動に対応するために多数の音声データで標準モデルを学習することが望ましい。また、意図理解に用いた場合、多様な話者や状況などの変動に対応するために多数のデータで標準モデルを学習することが望ましい。また、虹彩認証に用いた場合、太陽光、カメラ位置・回転などの変動に対応するために多数の虹彩画像データで標準モデルを学習することが望ましい。しかしながら、このような多量のデータを取り扱う場合、学習に膨大な時間がかかるため、利用者に標準モデルを短時間に提供できない。また、多量のデータを蓄積するためのコストが膨大となる。また、ネットワークを利用してデータを収集した場合、通信コストが膨大となる。
【0030】
一方、複数のモデル(以下、標準モデルの作成のために参照用として準備されるモデルを「参照モデル」と呼ぶ。)を合成することで標準モデルを作成する方法が提案されている。参照モデルは、多くの学習データを確率分布の母数(平均、分散など)で表現した確率分布モデルであり、多くの学習データの特徴を少数のパラメータ(母数)で集約したものであるため、参照モデルを用いて標準モデルを作成した場合、標準モデルを短時間に作成することが可能となる。ここでのモデルはガウス分布で表現されている。
【0031】
第1の従来方法では、参照モデルはGMMで表現されており、複数の参照モデルのGMMを重み付きで合成することで標準モデルを作成している(例えば、特許文献1参照)。
【0032】
また、第2の従来方法では、第1の従来方式に加えて、学習データに対する確率(尤度)を最大化あるいは極大化して線形結合された混合重みを学習することで標準モデルを作成している(例えば、特許文献2参照)。
【0033】
また、第3の従来方法では、標準モデルの平均値を参照モデルの平均値の線形結合で表現し、入力データに対する確率(尤度)を最大化あるいは極大化して線形結合係数を学習することで標準モデルを作成している。ここでは学習データとして特定話者の音声データを用いており標準モデルを音声認識用の話者適応モデルとして用いている(例えば、非特許文献1参照)。
【0034】
また、第4の従来方法では、参照モデルは単一ガウス分布で表現されており、複数の参照モデルのガウス分布を合成したのちに、クラスタリングにより同一クラスに属するガウス分布を統合することで標準モデルを作成している(例えば、特許文献3参照)。
【0035】
また、第5の従来方法では、複数の参照モデルは同数の混合数の混合ガウス分布で表現され、各ガウス分布には通し番号が付与されている。標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成される。合成する複数の参照モデルは利用者に音響的に近い話者で作成されたモデルであり、作成させる標準モデルは話者適応モデルである(例えば、非特許文献2参照)。
【0036】
【特許文献1】
特開平4−125599号公報(第3項、第1図)
【0037】
【特許文献2】
特開平10−268893号公報(第3−6頁、第1図)
【0038】
【特許文献3】
特開平9−81178号公報(第3−4項、第4図、第5図)
【0039】
【非特許文献1】
M.J.F.Gales、”Cluster Adaptive Training For Speech Recognition”、1998年、ICSLP98予稿集、pp.1783−1786
【0040】
【非特許文献2】
芳澤、外6名、”十分統計量と話者距離を用いた音韻モデルの教師なし学習法”、2002年3月1日、電子情報通信学会、Vol.J85−D−II、No.3、pp.382−389
【0041】
【発明が解決しようとする課題】
しかしながら、第1の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルの作成において、最尤推定などの最適化アルゴリズムによる学習ではなく、標準モデルは参照モデルの単純な混合和であるため、高精度の標準モデルが作成できない。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0042】
第2の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルは、参照モデルの単純な混合和であり学習するパラメータが混合重みに限定されているため、高精度の標準モデルが作成できない。また、標準モデルの作成において、学習データを用いて学習を行っているため学習時間がかかる。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0043】
第3の従来方法では、学習するパラメータが参照モデルの平均値の線形結合係数に限定されているため高精度の標準モデルが作成できない。また、標準モデルの作成において、学習データを用いて学習を行っているため学習時間がかかる。
【0044】
第4の従来方法では、クラスタリングをヒューリスティックに行うため高精度の標準モデルを作成することが困難である。また、参照モデルは単一のガウス分布であるため精度が低く、それらを統合した標準モデルの精度は低い。認識精度に関する課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0045】
第5の従来方法では、標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成されるが、最適な標準モデルを作成するためには、一般的には合成するガウス分布は1対1に対応するとは限らないため、認識精度が低下する。また、複数の参照モデルが異なる混合数をもつ場合に標準モデルを作成することができない。また、一般的には、参照モデルにおけるガウス分布に通し番号が付与されておらず、この場合に標準モデルを作成することができない。また、仕様に応じて標準モデルの混合数を制御することができない。
【0046】
そこで、本発明は、このような問題点に鑑みてなされたものであり、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いられる高精度な標準モデルを作成する標準モデル作成装置等を提供することを目的とする。
【0047】
また、本発明は、学習のためのデータや教師データを必要とすることなく、簡易に標準モデルを作成することが可能な標準モデル作成装置等を提供することをも目的とする。
【0048】
さらに、本発明は、標準モデルを利用する認識の対象にふさわしい標準モデルを作成したり、標準モデルを用いて認識処理を実行する装置の仕様や環境に適した標準モデルを作成することが可能な汎用性および柔軟性に優れた標準モデル作成装置等を提供することをも目的とする。
【0049】
本発明で用いる「認識」とは、音声認識などの狭義の意味での認識だけではなく、パターンマッチング、識別、認証、ベイズ推定や予測など、確率で表現された標準モデルを利用するもの全般を意味する。
【0050】
【課題を解決するための手段】
上記目的を達成するために、本発明に係る標準モデル作成装置は、事象の集合の出力確率によって定義される認識用のモデルである標準モデル、あるいは、事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、特定の対象を認識するために予め作成されたモデルである参照モデルを1以上記憶する参照モデル記憶手段と、前記参照モデル記憶手段に記憶された1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【0051】
これによって、1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、音声データ等の学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【0052】
また、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、前記参照モデルに対する前記標準モデルの確率または尤度を最大化または極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有するように構成してもよい。
【0053】
なお、本発明は、このような標準モデル作成装置として実現することができるだけでなく、標準モデル作成装置が備える特徴的な構成要素をステップとする標準モデル作成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのプログラムをCD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【0054】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照しながら詳しく説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。
【0055】
図1は、本発明の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ101に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【0056】
サーバ101は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象または事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部111と、参照モデル準備部102と、参照モデル記憶部103と、標準モデル作成部104と、書き込み部112とを備える。
【0057】
読み込み部111は、CD−ROMなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込む。参照モデル準備部102は、読み込まれた参照モデル121を参照モデル記憶部103へ送信する。参照モデル記憶部103は、3個の参照モデル121を記憶する。
【0058】
標準モデル作成部104は、参照モデル記憶部103が記憶した3個(Ng=3)の参照モデル121に対する確率または尤度を最大化または極大化するように標準モデル122を作成する処理部であり、標準モデルの構造(ガウス分布の混合数など)を決定する標準モデル構造決定部104aと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部104bと、決定された初期標準モデルを記憶する統計量記憶部104cと、統計量記憶部104cに記憶された初期標準モデルに対して、第1近似部104eによる近似計算等を用いることにより、参照モデル記憶部103に記憶されている3個(Ng=3)の参照モデル121に対する確率または尤度を最大化または極大化するような統計量を算出する(最終的な標準モデルを生成する)統計量推定部104dとからなる。なお、統計量とは、標準モデルを特定するパラメータであり、ここでは、混合重み係数、平均値、分散値である。
【0059】
書き込み部112は、標準モデル作成部104が作成した標準モデル122をCD−ROMなどのストレージデバイスに書き込む。
次に、以上のように構成されたサーバ101の動作について説明する。
【0060】
図2は、サーバ101の動作手順を示すフローチャートである。
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(ステップS100)。つまり、読み込み部111は、CD−ROMなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込み、参照モデル準備部102は、読み込まれた参照モデル121を参照モデル記憶部103へ送信し、参照モデル記憶部103は、3個の参照モデル121を記憶する。
【0061】
参照モデル121は、音素ごとのHMMにより構成される。参照モデル121の一例を図3に示す。ここでは、子供用参照モデル、成人用参照モデル、高齢者用参照モデルのイメージ図が示されている(なお、本図では、高齢者用参照モデルのイメージ図は省略されている)。これら3個の参照モデルの全てが、状態数3個、各状態は混合分布数が3個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として12次元(J=12)のケプストラム係数が用いられる。
【0062】
次に、標準モデル作成部104は、参照モデル記憶部103が記憶した3個の参照モデル121に対する確率または尤度を最大化または極大化するように標準モデル122を作成する(ステップS101)。
【0063】
最後に、書き込み部112は、標準モデル作成部104が作成した標準モデル122をCD−ROMなどのストレージデバイスに書き込む(ステップS102)。CD−ROMなどのストレージデバイスに書き込まれた標準モデルは、子供、成人、高齢者を考慮した音声認識用の標準モデルとして利用される。
【0064】
図4は、図2におけるステップS101(標準モデルの作成)の詳細な手順を示すフローチャートである。
まず、標準モデル構造決定部104aは、標準モデルの構造を決定する(ステップS102a)。ここでは、標準モデルの構造として、音素ごとのHMMにより構成され、3状態であり、各状態における出力分布の混合数を3個(Mf=3)と決定する。
【0065】
次に、初期標準モデル作成部104bは、標準モデルを計算するための統計量の初期値を決定する(ステップS102b)。ここでは、参照モデル記憶部103に記憶された3つの参照モデルを、統計処理計算を用いて1つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部104cに記憶する。
【0066】
具体的には、初期標準モデル作成部104bは、上記3つの状態I(I=1、2、3)それぞれについて、以下の数55に示される出力分布を生成する。なお、式中のMf(ガウス分布の混合数)は、ここでは、3である。
【0067】
【数55】
【0068】
ここで、
【0069】
【数56】
【0070】
は、ガウス分布を表し、
【0071】
【数57】
【0072】
は、12次元(J=12)のLPCケプストラム係数を表し、
【0073】
【数58】
【0074】
は、各ガウス分布の混合重み係数を表し、
【0075】
【数59】
【0076】
は、各ガウス分布の平均値を表し、
【0077】
【数60】
【0078】
は、各ガウス分布の分散値を表す。
そして、統計量推定部104dは、参照モデル記憶部103に記憶された3つの参照モデル121を用いて、統計量記憶部104cに記憶された標準モデルの統計量を推定する(ステップS102c)。
【0079】
具体的には、3つ(Ng=3)の参照モデル121の各状態I(I=1、2、3)における出力分布、即ち、以下の数61に示される出力分布に対する標準モデルの確率または尤度(以下の数67に示される尤度logP)を極大化もしくは最大化するような標準モデルの統計量(上記数58に示される混合重み係数、上記数59に示される平均値、および、上記数60に示される分散値)を推定する。
【0080】
【数61】
【0081】
ここで、
【0082】
【数62】
【0083】
はガウス分布を表し、
【0084】
【数63】
【0085】
は各参照モデルの混合分布数(ここでは、3)を表し、
【0086】
【数64】
【0087】
は各ガウス分布の混合重み係数を表し、
【0088】
【数65】
【0089】
は各ガウス分布の平均値を表し、
【0090】
【数66】
【0091】
は各ガウス分布の分散値を表す。
【0092】
【数67】
【0093】
そして、以下の数68、数69および数70に示される式に従って、それぞれ、標準モデルの混合重み係数、平均値および分散値を算出する。
【0094】
【数68】
【0095】
【数69】
【0096】
【数70】
【0097】
このとき、統計量推定部104dの第1近似部104eにより、以下の数71に示される近似式が用いられる。
【0098】
【数71】
【0099】
ここで、
【0100】
【数72】
【0101】
は、
【0102】
【数73】
【0103】
を重みとし、
【0104】
【数74】
【0105】
を平均値とし、
【0106】
【数75】
【0107】
を分散値とする単一のガウス分布を表す。
また、第1近似部104eは、上記数72に示された単一ガウス分布の重み(数73平均値(数74)および分散値(数75)を、それぞれ、以下の数76、数77および数78に示された式に従って算出する。
【0108】
【数76】
【0109】
【数77】
【0110】
【数78】
【0111】
図5は、第1近似部104eによる近似計算を説明する図である。第1近似部104eは、本図に示されるように、上記数71に示された近似式における単一ガウス分布(数72)を、標準モデルを構成する全ての混合ガウス分布を用いて決定している。
【0112】
以上の第1近似部104eによる近似式を考慮してまとめると、統計量推定部104dでの計算式は次の通りになる。つまり、統計量推定部104dは、以下の数79、数80および数81に示される式に従って、それぞれ、混合重み係数、平均値および分散値を算出し、統計量記憶部104cに記憶する。そして、このような統計量の推定と統計量記憶部104cへの記憶をR(≧1)回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル122の統計量として出力する。
【0113】
【数79】
【0114】
【数80】
【0115】
【数81】
【0116】
なお、状態遷移確率については、HMMの対応する状態遷移確率を参照モデル121に対して全て加えあわせた全体が1になるように正規化したものを用いる。
【0117】
以上説明したように、本発明の実施の形態によれば、予め準備された参照モデルに対する確率または尤度を最大化または極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、学習のためのデータや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した精度の高い標準モデルが作成される。
【0118】
なお、標準モデル122は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
また、標準モデル作成部104は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【0119】
また、標準モデル122を構成するHMMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0120】
また、参照モデル121は、子供用参照モデル、成人用参照モデル、高齢者用参照モデルにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【0121】
また、標準モデル122を用いて、サーバ101において音声認識を行ってもよい。
また、参照モデル121をCD−ROM、DVD−RAMなどのストレージデバイスから読み込む代わりに、サーバ101において音声データから参照モデル121を作成してもよい。
【0122】
また、参照モデル準備部102は、必要に応じてCD−ROM、DVD−RAMなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部103に追加・更新してもよい。つまり、参照モデル準備部102は、新たな参照モデルを参照モデル記憶部103に格納するだけでなく、同一の認識対象についての参照モデルが参照モデル記憶部103に格納されている場合には、その参照モデルと置き換えることによって参照モデルを更新したり、参照モデル記憶部103に格納されている不要な参照モデルを削除してもよい。
【0123】
また、参照モデル準備部102は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部103に追加・更新してもよい。
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
【0124】
【発明の効果】
以上の説明から明らかなように、本発明に係る標準モデル作成装置によれば、1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【0125】
本発明により、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証(対象を認識して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いる高精度な標準モデルが提供され、その実用的価値は極めて高い。
【図面の簡単な説明】
【図1】本発明の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図2】同サーバの動作手順を示すフローチャートである。
【図3】図1における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図4】図2におけるステップS101(標準モデルの作成)の詳細な手順を示すフローチャートである。
【図5】図1における第1近似部104eによる近似計算を説明する図である。
【符号の説明】
101 サーバ
102 参照モデル準備部
103 参照モデル記憶部
104 標準モデル作成部
104a 標準モデル構造決定部
104b 初期標準モデル作成部
104c 統計量記憶部
104d 統計量推定部
104e 第1近似部
111 読み込み部
112 書き込み部
121 参照モデル
122 標準モデル
Claims (12)
- 事象の出力確率によって定義される認識用のモデルである標準モデルを作成する装置であって、
特定の対象を認識するために予め作成されたモデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に記憶された1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段と
を備えることを特徴とする標準モデル作成装置。 - 事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、
特定の対象を認識するために予め作成されたモデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に記憶された1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段と
を備えることを特徴とする標準モデル作成装置。 - 前記事象は、隠れマルコフモデルの状態である
ことを特徴とする請求項1または2記載の標準モデル作成装置。 - 前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
前記参照モデルに対する前記標準モデルの確率または尤度を最大化または極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
ことを特徴とする請求項1〜3のいずれか1項に記載の標準モデル作成装置。 - 前記統計量推定部は、
における出力分布
【0054】
の中から、前記数24における出力分布
【0056】
前記数27におけるPh(m)個の出力分布の近傍の
ことを特徴とする請求項6記載の標準モデル作成装置。 - 事象の出力確率によって定義される認識用のモデルである標準モデルを作成する方法であって、
特定の対象を認識するために予め作成されたモデルである1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップ
を含むことを特徴とする標準モデル作成方法。 - 事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する方法であって、
特定の対象を認識するために予め作成されたモデルである1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップ
を含むことを特徴とする標準モデル作成方法。 - 前記事象は、隠れマルコフモデルの状態である
ことを特徴とする請求項9または10記載の標準モデル作成方法。 - 標準モデルを作成する方法であって、
請求項9〜11のいずれか1項に記載の標準モデル作成方法に含まれるステップをコンピュータに実行させる
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003089180A JP2004294916A (ja) | 2003-03-27 | 2003-03-27 | 標準モデル作成装置および標準モデル作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003089180A JP2004294916A (ja) | 2003-03-27 | 2003-03-27 | 標準モデル作成装置および標準モデル作成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004294916A true JP2004294916A (ja) | 2004-10-21 |
Family
ID=33403119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003089180A Pending JP2004294916A (ja) | 2003-03-27 | 2003-03-27 | 標準モデル作成装置および標準モデル作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004294916A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
JP2009237336A (ja) * | 2008-03-27 | 2009-10-15 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2010176672A (ja) * | 2009-01-28 | 2010-08-12 | Xerox Corp | ベクトル系列用モデル基準比較指標及びそれを用いたワードスポッティング |
US11288346B1 (en) * | 2014-03-03 | 2022-03-29 | Charles Schwab & Co., Inc. | System and method for authenticating users using weak authentication techniques, with differences for different features |
-
2003
- 2003-03-27 JP JP2003089180A patent/JP2004294916A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006030551A1 (ja) * | 2004-09-15 | 2006-03-23 | The University Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
JP2009237336A (ja) * | 2008-03-27 | 2009-10-15 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2010176672A (ja) * | 2009-01-28 | 2010-08-12 | Xerox Corp | ベクトル系列用モデル基準比較指標及びそれを用いたワードスポッティング |
US11288346B1 (en) * | 2014-03-03 | 2022-03-29 | Charles Schwab & Co., Inc. | System and method for authenticating users using weak authentication techniques, with differences for different features |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3667332B2 (ja) | 標準モデル作成装置及び標準モデル作成方法 | |
CN107978311B (zh) | 一种语音数据处理方法、装置以及语音交互设备 | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
CN105702263B (zh) | 语音重放检测方法和装置 | |
CN103038817B (zh) | 使用地理信息的声学模型适配 | |
Kumar et al. | Heteroscedastic discriminant analysis and reduced rank HMMs for improved speech recognition | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US20140025382A1 (en) | Speech processing system | |
US6920421B2 (en) | Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data | |
US20190385628A1 (en) | Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program | |
US20080065380A1 (en) | On-line speaker recognition method and apparatus thereof | |
JP2005227794A (ja) | 標準モデル作成装置及び標準モデル作成方法 | |
US20110060706A1 (en) | Information processing device, information processing method, and program | |
JP4817250B2 (ja) | 声質変換モデル生成装置及び声質変換システム | |
El Ayadi et al. | Text-independent speaker identification using robust statistics estimation | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
Lu et al. | Probabilistic linear discriminant analysis for acoustic modeling | |
US20110060707A1 (en) | Information processing device, information processing method, and program | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
JP2004294916A (ja) | 標準モデル作成装置および標準モデル作成方法 | |
Palkama et al. | Conditional spoken digit generation with stylegan | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Zhang et al. | Rapid speaker adaptation in latent speaker space with non-negative matrix factorization |