JP2004294916A

JP2004294916A - 標準モデル作成装置および標準モデル作成方法

Info

Publication number: JP2004294916A
Application number: JP2003089180A
Authority: JP
Inventors: Shinichi Yoshizawa; 伸一芳澤; Kiyohiro Kano; 清宏鹿野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2003-03-27
Filing date: 2003-03-27
Publication date: 2004-10-21

Abstract

【課題】隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解、確率モデルによるデータマイニングなどに用いる高精度な標準モデルを提供する。
【解決手段】１以上の参照モデルを準備する参照モデル準備部１０２と、参照モデル準備部１０２が準備した参照モデル１２１を記憶する参照モデル記憶部１０３と、参照モデル記憶部１０３が記憶している１以上の参照モデルに対する確率または尤度を最大化または極大化するように標準モデルの統計量を計算して標準モデル１２２を作成する標準モデル作成部１０４とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証（対象を認識して特定の対象かどうかを判断する）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いられる標準モデルの作成装置およびその方法に関する。
【０００２】
近年、インターネットなどの普及により、ネットワークの大容量化、通信コストの低価格化が進んでいる。このため、ネットワークを利用することで、多くの認識用モデル（参照モデル）を収集することが可能となってきている。例えば、音声認識において、様々な研究機関で配布している多くの音声認識用モデル（子供用モデル、成人用モデル、高齢者用モデル、自動車内用モデル、携帯電話用モデルなど）をインターネットによりダウンロードすることが可能となってきている。また、ネットワークによる機器連携により、カーナビゲーションシステムなどで利用する音声認識用モデルをテレビやパソコンなどにダウンロードできるようになってきている。また、意図理解において、各地の様々な人の経験を学習した認識用モデルを、ネットワークを通して収集することが可能となってきている。
【０００３】
また、認識技術の発展により、認識用モデルは、パソコン、テレビのリモコン、携帯電話、カーナビゲーションシステムなど、ＣＰＵパワー、メモリ量などの仕様の異なる幅広い機器に利用されるようになってきている。また、セキュリティーなどの認識精度が要求されるアプリケーションや、テレビのリモコンでの操作のように認識結果が出力されるまでの時間の速さが要求されるアプリケーションなど、要求仕様の異なる幅広いアプリケーションに利用されるようになってきている。
【０００４】
また、認識技術は、認識対象の異なる多くの環境で利用されるようになってきている。例えば、音声認識において、子供の声、成人の声、高齢者の声を認識したり、自動車内での声、携帯電話での声を認識するなど、多くの環境で利用される。
【０００５】
これらの社会環境の変化を鑑みると、多くの認識用モデル（参照モデル）を有効に活用することで、機器やアプリケーションの仕様、利用環境に適した精度の高い認識用モデル（標準モデル）を短時間に作成して利用者に提供することが望まれると考えられる。
【０００６】
【従来の技術】
音声認識などのパターン認識の分野で、認識用の標準モデルとして確率モデルを用いる方法が近年注目されており、特に、隠れマルコフモデル（以下ＨＭＭと呼ぶ）や混合ガウス分布モデル（以下ＧＭＭと呼ぶ）が広く用いられている。また、意図理解において、意図、知識、嗜好などを表す標準モデルとして確率モデルを用いる方法が近年注目されており、特に、ベイジアンネットなどが広く用いられている。また、データマイニングの分野で、データを分類するために各カテゴリの代表モデルとして確率モデルを用いる方法が注目されており、ＧＭＭなどが広く用いられている。また、音声認証、指紋認証、顔認証、虹彩認証などの認証の分野で、認証用の標準モデルとして確率モデルを用いる方法が注目されており、ＧＭＭなどが用いられている。ＨＭＭにより表現される標準モデルの学習アルゴリズムとしてバウム・ウェルチ（Ｂａｕｍ−Ｗｅｌｃｈ）の再推定の方法が広く用いられている（例えば、今井聖著、”音声認識”、ｐｐ．１５０−１５２、共立出版株式会社、１９９５年１１月２５日発行参照）。また、ＧＭＭにより表現される標準モデルの学習アルゴリズムとしてＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムが広く用いられている（例えば、古井貞▲ひろ▼著、”音声情報処理”、ｐｐ．１００−１０４、森北出版株式会社、１９９８年６月３０日発行参照）。ＥＭアルゴリズムでは、標準モデル
【０００７】
【数４３】

【０００８】
（ここで、
【０００９】
【数４４】

【００１０】
はガウス分布を表し、
【００１１】
【数４５】

【００１２】
はＪ（≧１）次元の入力データを表す）における統計量である混合重み係数
【００１３】
【数４６】

【００１４】
、Ｊ（≧１）次元の平均値
【００１５】
【数４７】

【００１６】
およびＪ（≧１）次元の分散値（共分散行列のＪ個の対角成分）
【００１７】
【数４８】

【００１８】
を、
Ｎ個の学習データ
【００１９】
【数４９】

【００２０】
を用いて、学習データに対する尤度
【００２１】
【数５０】

【００２２】
を最大化もしくは極大化するように、
【００２３】
【数５１】

【００２４】
【数５２】

【００２５】
【数５３】

【００２６】
（ここで、
【００２７】
【数５４】

【００２８】
である）を利用して１以上繰り返して計算して学習を行う。また、ベイズ推定法（例えば、繁桝算男著、”ベイズ統計入門”、ｐｐ．４２−５３、東京大学出版会、１９８５年４月３０日発行参照）などの方法も提案されている。バウム・ウェルチの再推定の方法、ＥＭアルゴリズム、ベイズ推定法のいずれの学習アルゴリズムも、学習データに対する確率（尤度）を最大化もしくは極大化するように標準モデルのパラメータ（統計量）を計算して標準モデルを作成する。これらの学習方法では、確率（尤度）を最大化もしくは極大化するという数学的な最適化が実現されている。
【００２９】
上記の学習方法を音声認識の標準モデルの作成に用いた場合、多様な話者や雑音などの音響的特徴量の変動に対応するために多数の音声データで標準モデルを学習することが望ましい。また、意図理解に用いた場合、多様な話者や状況などの変動に対応するために多数のデータで標準モデルを学習することが望ましい。また、虹彩認証に用いた場合、太陽光、カメラ位置・回転などの変動に対応するために多数の虹彩画像データで標準モデルを学習することが望ましい。しかしながら、このような多量のデータを取り扱う場合、学習に膨大な時間がかかるため、利用者に標準モデルを短時間に提供できない。また、多量のデータを蓄積するためのコストが膨大となる。また、ネットワークを利用してデータを収集した場合、通信コストが膨大となる。
【００３０】
一方、複数のモデル（以下、標準モデルの作成のために参照用として準備されるモデルを「参照モデル」と呼ぶ。）を合成することで標準モデルを作成する方法が提案されている。参照モデルは、多くの学習データを確率分布の母数（平均、分散など）で表現した確率分布モデルであり、多くの学習データの特徴を少数のパラメータ（母数）で集約したものであるため、参照モデルを用いて標準モデルを作成した場合、標準モデルを短時間に作成することが可能となる。ここでのモデルはガウス分布で表現されている。
【００３１】
第１の従来方法では、参照モデルはＧＭＭで表現されており、複数の参照モデルのＧＭＭを重み付きで合成することで標準モデルを作成している（例えば、特許文献１参照）。
【００３２】
また、第２の従来方法では、第１の従来方式に加えて、学習データに対する確率（尤度）を最大化あるいは極大化して線形結合された混合重みを学習することで標準モデルを作成している（例えば、特許文献２参照）。
【００３３】
また、第３の従来方法では、標準モデルの平均値を参照モデルの平均値の線形結合で表現し、入力データに対する確率（尤度）を最大化あるいは極大化して線形結合係数を学習することで標準モデルを作成している。ここでは学習データとして特定話者の音声データを用いており標準モデルを音声認識用の話者適応モデルとして用いている（例えば、非特許文献１参照）。
【００３４】
また、第４の従来方法では、参照モデルは単一ガウス分布で表現されており、複数の参照モデルのガウス分布を合成したのちに、クラスタリングにより同一クラスに属するガウス分布を統合することで標準モデルを作成している（例えば、特許文献３参照）。
【００３５】
また、第５の従来方法では、複数の参照モデルは同数の混合数の混合ガウス分布で表現され、各ガウス分布には通し番号が付与されている。標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成される。合成する複数の参照モデルは利用者に音響的に近い話者で作成されたモデルであり、作成させる標準モデルは話者適応モデルである（例えば、非特許文献２参照）。
【００３６】
【特許文献１】
特開平４−１２５５９９号公報（第３項、第１図）
【００３７】
【特許文献２】
特開平１０−２６８８９３号公報（第３−６頁、第１図）
【００３８】
【特許文献３】
特開平９−８１１７８号公報（第３−４項、第４図、第５図）
【００３９】
【非特許文献１】
Ｍ．Ｊ．Ｆ．Ｇａｌｅｓ、”ＣｌｕｓｔｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇＦｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”、１９９８年、ＩＣＳＬＰ９８予稿集、ｐｐ．１７８３−１７８６
【００４０】
【非特許文献２】
芳澤、外６名、”十分統計量と話者距離を用いた音韻モデルの教師なし学習法”、２００２年３月１日、電子情報通信学会、Ｖｏｌ．Ｊ８５−Ｄ−ＩＩ、Ｎｏ．３、ｐｐ．３８２−３８９
【００４１】
【発明が解決しようとする課題】
しかしながら、第１の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルの作成において、最尤推定などの最適化アルゴリズムによる学習ではなく、標準モデルは参照モデルの単純な混合和であるため、高精度の標準モデルが作成できない。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【００４２】
第２の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルは、参照モデルの単純な混合和であり学習するパラメータが混合重みに限定されているため、高精度の標準モデルが作成できない。また、標準モデルの作成において、学習データを用いて学習を行っているため学習時間がかかる。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【００４３】
第３の従来方法では、学習するパラメータが参照モデルの平均値の線形結合係数に限定されているため高精度の標準モデルが作成できない。また、標準モデルの作成において、学習データを用いて学習を行っているため学習時間がかかる。
【００４４】
第４の従来方法では、クラスタリングをヒューリスティックに行うため高精度の標準モデルを作成することが困難である。また、参照モデルは単一のガウス分布であるため精度が低く、それらを統合した標準モデルの精度は低い。認識精度に関する課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【００４５】
第５の従来方法では、標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成されるが、最適な標準モデルを作成するためには、一般的には合成するガウス分布は１対１に対応するとは限らないため、認識精度が低下する。また、複数の参照モデルが異なる混合数をもつ場合に標準モデルを作成することができない。また、一般的には、参照モデルにおけるガウス分布に通し番号が付与されておらず、この場合に標準モデルを作成することができない。また、仕様に応じて標準モデルの混合数を制御することができない。
【００４６】
そこで、本発明は、このような問題点に鑑みてなされたものであり、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いられる高精度な標準モデルを作成する標準モデル作成装置等を提供することを目的とする。
【００４７】
また、本発明は、学習のためのデータや教師データを必要とすることなく、簡易に標準モデルを作成することが可能な標準モデル作成装置等を提供することをも目的とする。
【００４８】
さらに、本発明は、標準モデルを利用する認識の対象にふさわしい標準モデルを作成したり、標準モデルを用いて認識処理を実行する装置の仕様や環境に適した標準モデルを作成することが可能な汎用性および柔軟性に優れた標準モデル作成装置等を提供することをも目的とする。
【００４９】
本発明で用いる「認識」とは、音声認識などの狭義の意味での認識だけではなく、パターンマッチング、識別、認証、ベイズ推定や予測など、確率で表現された標準モデルを利用するもの全般を意味する。
【００５０】
【課題を解決するための手段】
上記目的を達成するために、本発明に係る標準モデル作成装置は、事象の集合の出力確率によって定義される認識用のモデルである標準モデル、あるいは、事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、特定の対象を認識するために予め作成されたモデルである参照モデルを１以上記憶する参照モデル記憶手段と、前記参照モデル記憶手段に記憶された１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【００５１】
これによって、１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、音声データ等の学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【００５２】
また、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、前記参照モデルに対する前記標準モデルの確率または尤度を最大化または極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有するように構成してもよい。
【００５３】
なお、本発明は、このような標準モデル作成装置として実現することができるだけでなく、標準モデル作成装置が備える特徴的な構成要素をステップとする標準モデル作成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのプログラムをＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【００５４】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照しながら詳しく説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。
【００５５】
図１は、本発明の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ１０１に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【００５６】
サーバ１０１は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象または事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部１１１と、参照モデル準備部１０２と、参照モデル記憶部１０３と、標準モデル作成部１０４と、書き込み部１１２とを備える。
【００５７】
読み込み部１１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込む。参照モデル準備部１０２は、読み込まれた参照モデル１２１を参照モデル記憶部１０３へ送信する。参照モデル記憶部１０３は、３個の参照モデル１２１を記憶する。
【００５８】
標準モデル作成部１０４は、参照モデル記憶部１０３が記憶した３個（Ｎｇ＝３）の参照モデル１２１に対する確率または尤度を最大化または極大化するように標準モデル１２２を作成する処理部であり、標準モデルの構造（ガウス分布の混合数など）を決定する標準モデル構造決定部１０４ａと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部１０４ｂと、決定された初期標準モデルを記憶する統計量記憶部１０４ｃと、統計量記憶部１０４ｃに記憶された初期標準モデルに対して、第１近似部１０４ｅによる近似計算等を用いることにより、参照モデル記憶部１０３に記憶されている３個（Ｎｇ＝３）の参照モデル１２１に対する確率または尤度を最大化または極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部１０４ｄとからなる。なお、統計量とは、標準モデルを特定するパラメータであり、ここでは、混合重み係数、平均値、分散値である。
【００５９】
書き込み部１１２は、標準モデル作成部１０４が作成した標準モデル１２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む。
次に、以上のように構成されたサーバ１０１の動作について説明する。
【００６０】
図２は、サーバ１０１の動作手順を示すフローチャートである。
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップＳ１００）。つまり、読み込み部１１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込み、参照モデル準備部１０２は、読み込まれた参照モデル１２１を参照モデル記憶部１０３へ送信し、参照モデル記憶部１０３は、３個の参照モデル１２１を記憶する。
【００６１】
参照モデル１２１は、音素ごとのＨＭＭにより構成される。参照モデル１２１の一例を図３に示す。ここでは、子供用参照モデル、成人用参照モデル、高齢者用参照モデルのイメージ図が示されている（なお、本図では、高齢者用参照モデルのイメージ図は省略されている）。これら３個の参照モデルの全てが、状態数３個、各状態は混合分布数が３個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として１２次元（Ｊ＝１２）のケプストラム係数が用いられる。
【００６２】
次に、標準モデル作成部１０４は、参照モデル記憶部１０３が記憶した３個の参照モデル１２１に対する確率または尤度を最大化または極大化するように標準モデル１２２を作成する（ステップＳ１０１）。
【００６３】
最後に、書き込み部１１２は、標準モデル作成部１０４が作成した標準モデル１２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む（ステップＳ１０２）。ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた標準モデルは、子供、成人、高齢者を考慮した音声認識用の標準モデルとして利用される。
【００６４】
図４は、図２におけるステップＳ１０１（標準モデルの作成）の詳細な手順を示すフローチャートである。
まず、標準モデル構造決定部１０４ａは、標準モデルの構造を決定する（ステップＳ１０２ａ）。ここでは、標準モデルの構造として、音素ごとのＨＭＭにより構成され、３状態であり、各状態における出力分布の混合数を３個（Ｍｆ＝３）と決定する。
【００６５】
次に、初期標準モデル作成部１０４ｂは、標準モデルを計算するための統計量の初期値を決定する（ステップＳ１０２ｂ）。ここでは、参照モデル記憶部１０３に記憶された３つの参照モデルを、統計処理計算を用いて１つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部１０４ｃに記憶する。
【００６６】
具体的には、初期標準モデル作成部１０４ｂは、上記３つの状態Ｉ（Ｉ＝１、２、３）それぞれについて、以下の数５５に示される出力分布を生成する。なお、式中のＭｆ（ガウス分布の混合数）は、ここでは、３である。
【００６７】
【数５５】

【００６８】
ここで、
【００６９】
【数５６】

【００７０】
は、ガウス分布を表し、
【００７１】
【数５７】

【００７２】
は、１２次元（Ｊ＝１２）のＬＰＣケプストラム係数を表し、
【００７３】
【数５８】

【００７４】
は、各ガウス分布の混合重み係数を表し、
【００７５】
【数５９】

【００７６】
は、各ガウス分布の平均値を表し、
【００７７】
【数６０】

【００７８】
は、各ガウス分布の分散値を表す。
そして、統計量推定部１０４ｄは、参照モデル記憶部１０３に記憶された３つの参照モデル１２１を用いて、統計量記憶部１０４ｃに記憶された標準モデルの統計量を推定する（ステップＳ１０２ｃ）。
【００７９】
具体的には、３つ（Ｎｇ＝３）の参照モデル１２１の各状態Ｉ（Ｉ＝１、２、３）における出力分布、即ち、以下の数６１に示される出力分布に対する標準モデルの確率または尤度（以下の数６７に示される尤度ｌｏｇＰ）を極大化もしくは最大化するような標準モデルの統計量（上記数５８に示される混合重み係数、上記数５９に示される平均値、および、上記数６０に示される分散値）を推定する。
【００８０】
【数６１】

【００８１】
ここで、
【００８２】
【数６２】

【００８３】
はガウス分布を表し、
【００８４】
【数６３】

【００８５】
は各参照モデルの混合分布数（ここでは、３）を表し、
【００８６】
【数６４】

【００８７】
は各ガウス分布の混合重み係数を表し、
【００８８】
【数６５】

【００８９】
は各ガウス分布の平均値を表し、
【００９０】
【数６６】

【００９１】
は各ガウス分布の分散値を表す。
【００９２】
【数６７】

【００９３】
そして、以下の数６８、数６９および数７０に示される式に従って、それぞれ、標準モデルの混合重み係数、平均値および分散値を算出する。
【００９４】
【数６８】

【００９５】
【数６９】

【００９６】
【数７０】

【００９７】
このとき、統計量推定部１０４ｄの第１近似部１０４ｅにより、以下の数７１に示される近似式が用いられる。
【００９８】
【数７１】

【００９９】
ここで、
【０１００】
【数７２】

【０１０１】
は、
【０１０２】
【数７３】

【０１０３】
を重みとし、
【０１０４】
【数７４】

【０１０５】
を平均値とし、
【０１０６】
【数７５】

【０１０７】
を分散値とする単一のガウス分布を表す。
また、第１近似部１０４ｅは、上記数７２に示された単一ガウス分布の重み（数７３平均値（数７４）および分散値（数７５）を、それぞれ、以下の数７６、数７７および数７８に示された式に従って算出する。
【０１０８】
【数７６】

【０１０９】
【数７７】

【０１１０】
【数７８】

【０１１１】
図５は、第１近似部１０４ｅによる近似計算を説明する図である。第１近似部１０４ｅは、本図に示されるように、上記数７１に示された近似式における単一ガウス分布（数７２）を、標準モデルを構成する全ての混合ガウス分布を用いて決定している。
【０１１２】
以上の第１近似部１０４ｅによる近似式を考慮してまとめると、統計量推定部１０４ｄでの計算式は次の通りになる。つまり、統計量推定部１０４ｄは、以下の数７９、数８０および数８１に示される式に従って、それぞれ、混合重み係数、平均値および分散値を算出し、統計量記憶部１０４ｃに記憶する。そして、このような統計量の推定と統計量記憶部１０４ｃへの記憶をＲ（≧１）回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル１２２の統計量として出力する。
【０１１３】
【数７９】

【０１１４】
【数８０】

【０１１５】
【数８１】

【０１１６】
なお、状態遷移確率については、ＨＭＭの対応する状態遷移確率を参照モデル１２１に対して全て加えあわせた全体が１になるように正規化したものを用いる。
【０１１７】
以上説明したように、本発明の実施の形態によれば、予め準備された参照モデルに対する確率または尤度を最大化または極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、学習のためのデータや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した精度の高い標準モデルが作成される。
【０１１８】
なお、標準モデル１２２は、音素ごとにＨＭＭを構成するに限らず、文脈依存のＨＭＭで構成してもよい。
また、標準モデル作成部１０４は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【０１１９】
また、標準モデル１２２を構成するＨＭＭは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０１２０】
また、参照モデル１２１は、子供用参照モデル、成人用参照モデル、高齢者用参照モデルにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【０１２１】
また、標準モデル１２２を用いて、サーバ１０１において音声認識を行ってもよい。
また、参照モデル１２１をＣＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどのストレージデバイスから読み込む代わりに、サーバ１０１において音声データから参照モデル１２１を作成してもよい。
【０１２２】
また、参照モデル準備部１０２は、必要に応じてＣＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部１０３に追加・更新してもよい。つまり、参照モデル準備部１０２は、新たな参照モデルを参照モデル記憶部１０３に格納するだけでなく、同一の認識対象についての参照モデルが参照モデル記憶部１０３に格納されている場合には、その参照モデルと置き換えることによって参照モデルを更新したり、参照モデル記憶部１０３に格納されている不要な参照モデルを削除してもよい。
【０１２３】
また、参照モデル準備部１０２は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部１０３に追加・更新してもよい。
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
【０１２４】
【発明の効果】
以上の説明から明らかなように、本発明に係る標準モデル作成装置によれば、１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【０１２５】
本発明により、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証（対象を認識して特定の対象かどうかを判断する）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いる高精度な標準モデルが提供され、その実用的価値は極めて高い。
【図面の簡単な説明】
【図１】本発明の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図２】同サーバの動作手順を示すフローチャートである。
【図３】図１における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図４】図２におけるステップＳ１０１（標準モデルの作成）の詳細な手順を示すフローチャートである。
【図５】図１における第１近似部１０４ｅによる近似計算を説明する図である。
【符号の説明】
１０１サーバ
１０２参照モデル準備部
１０３参照モデル記憶部
１０４標準モデル作成部
１０４ａ標準モデル構造決定部
１０４ｂ初期標準モデル作成部
１０４ｃ統計量記憶部
１０４ｄ統計量推定部
１０４ｅ第１近似部
１１１読み込み部
１１２書き込み部
１２１参照モデル
１２２標準モデル

Claims

事象の出力確率によって定義される認識用のモデルである標準モデルを作成する装置であって、
特定の対象を認識するために予め作成されたモデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に記憶された１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段と
を備えることを特徴とする標準モデル作成装置。
事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、
特定の対象を認識するために予め作成されたモデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に記憶された１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段と
を備えることを特徴とする標準モデル作成装置。
前記事象は、隠れマルコフモデルの状態である
ことを特徴とする請求項１または２記載の標準モデル作成装置。
前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
前記参照モデルに対する前記標準モデルの確率または尤度を最大化または極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
ことを特徴とする請求項１〜３のいずれか１項に記載の標準モデル作成装置。
前記標準モデル構造決定部は、前記標準モデルの構造を混合分布数がＭｆ個（Ｍｆ≧１）の混合ガウス分布と決定し、
前記統計量推定部は、混合ガウス分布により表現された前記標準モデル

（ここで、

はガウス分布を表し、

は入力データを表す）における統計量である混合重み係数

、平均値

および分散値

の少なくとも１つを、前記Ｎｇ（Ｎｇ≧１）の参照モデル

（ここで、

はガウス分布を表し、

は各参照モデルの混合分布数を表し、

は混合重み係数を表し、

は平均値を表し、

は分散値を表す）に対する前記標準モデルの尤度

を最大化または極大化するように、計算する
ことを特徴とする請求項４記載の標準モデル作成装置。
前記統計量推定部は、混合分布数がＭｆ個（Ｍｆ≧１）の混合ガウス分布により表現された前記標準モデル

（ここで、

はガウス分布を表し、

はＪ（≧１）次元の入力データを表す）における統計量である混合重み係数

、Ｊ（≧１）次元の平均値

およびＪ（≧１）次元の分散値（共分散行列のＪ個の対角成分）

の少なくとも１つを、

（ここで、

である）を利用して１以上繰り返して計算する
ことを特徴とする請求項５記載の標準モデル作成装置。
前記統計量推定部は、

【００５３】
における出力分布
【００５４】

【００５５】
の中から、前記数２４における出力分布
【００５６】

との分布間距離が近いＰｈ（ｍ）個（１≦Ｐｈ（ｍ）≦Ｍｆ）の出力分布

（ここで、

は、Ｊ（≧１）次元の平均値であり、

は、Ｊ（≧１）次元の分散値（共分散行列のＪ個の対角成分）である）を選択し、選択したＰｈ（ｍ）（ｍ＝１，２，…，Ｍｆ）個の出力分布を用いて、単一の重み付きガウス分布

（ここで、

は、Ｊ（≧１）次元の平均値であり、

は、Ｊ（≧１）次元の分散値（共分散行列のＪ個の対角成分）である）における重み、平均値および分散値（共分散行列の対角成分）を、それぞれ、

を利用して算出して、
前記数２７におけるＰｈ（ｍ）個の出力分布の近傍の

に対して、

による近似式を利用して、上記範囲以外の

に対して、

による近似式を利用して前記統計量を計算する
ことを特徴とする請求項６記載の標準モデル作成装置。
前記統計量推定部は、前記単一のガウス分布における重み、平均値および分散値を、前記標準モデルのＭｆ個すべての出力分布を利用して、それぞれ、

および

を利用して算出する第１近似を行う
ことを特徴とする請求項６または７記載の標準モデル作成装置。
事象の出力確率によって定義される認識用のモデルである標準モデルを作成する方法であって、
特定の対象を認識するために予め作成されたモデルである１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップ
を含むことを特徴とする標準モデル作成方法。
事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する方法であって、
特定の対象を認識するために予め作成されたモデルである１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップ
を含むことを特徴とする標準モデル作成方法。
前記事象は、隠れマルコフモデルの状態である
ことを特徴とする請求項９または１０記載の標準モデル作成方法。
標準モデルを作成する方法であって、
請求項９〜１１のいずれか１項に記載の標準モデル作成方法に含まれるステップをコンピュータに実行させる
ことを特徴とするプログラム。