JP3667332B2

JP3667332B2 - 標準モデル作成装置及び標準モデル作成方法

Info

Publication number: JP3667332B2
Application number: JP2004570337A
Authority: JP
Inventors: 伸一芳澤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2002-11-21
Filing date: 2003-11-18
Publication date: 2005-07-06
Anticipated expiration: 2023-11-18
Also published as: EP1564721A1; AU2003302063A1; US7603276B2; US20060053014A1; WO2004047076A1; JPWO2004047076A1; US20090271201A1

Description

【技術分野】
【０００１】
本発明は、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証（対象を認識して特定の対象かどうかを判断する）、株価予測、天気予測などの予測（状況を認識して判断する）、複数の話者音声の合成、複数の顔画像などの合成（合成したモデルを人が認識して楽しむ）などに用いられる標準モデルの作成装置及びその方法に関する。
【背景技術】
【０００２】
近年、インターネットなどの普及により、ネットワークの大容量化、通信コストの低価格化が進んでいる。このため、ネットワークを利用することで、多くの認識用モデル（参照モデル）を収集することが可能となってきている。例えば、音声認識において、様々な研究機関で配布している多くの音声認識用モデル（子供用モデル、成人用モデル、高齢者用モデル、自動車内用モデル、携帯電話用モデルなど）をインターネットによりダウンロードすることが可能となってきている。また、ネットワークによる機器連携により、カーナビゲーションシステムなどで利用する音声認識用モデルをテレビやパソコンなどにダウンロードできるようになってきている。また、意図理解において、各地の様々な人の経験を学習した認識用モデルを、ネットワークを通して収集することが可能となってきている。
【０００３】
また、認識技術の発展により、認識用モデルは、パソコン、テレビのリモコン、携帯電話、カーナビゲーションシステムなど、ＣＰＵパワー、メモリ量などの仕様の異なる幅広い機器に利用されるようになってきている。また、セキュリティーなどの認識精度が要求されるアプリケーションや、テレビのリモコンでの操作のように認識結果が出力されるまでの時間の速さが要求されるアプリケーションなど、要求仕様の異なる幅広いアプリケーションに利用されるようになってきている。
【０００４】
また、認識技術は、認識対象の異なる多くの環境で利用されるようになってきている。例えば、音声認識において、子供の声、成人の声、高齢者の声を認識したり、自動車内での声、携帯電話での声を認識するなど、多くの環境で利用される。
【０００５】
これらの社会環境の変化を鑑みると、多くの認識用モデル（参照モデル）を有効に活用することで、機器やアプリケーションの仕様、利用環境に適した精度の高い認識用モデル（標準モデル）を短時間に作成して利用者に提供することが望まれると考えられる。
【０００６】
音声認識などのパターン認識の分野では、認識用の標準モデルとして確率モデルを用いる方法が近年注目されており、特に、隠れマルコフモデル（以下ＨＭＭと呼ぶ）や混合ガウス分布モデル（以下ＧＭＭと呼ぶ）が広く用いられている。また、意図理解において、意図、知識、嗜好などを表す標準モデルとして確率モデルを用いる方法が近年注目されており、特に、ベイジアンネットなどが広く用いられている。また、データマイニングの分野で、データを分類するために各カテゴリの代表モデルとして確率モデルを用いる方法が注目されており、ＧＭＭなどが広く用いられている。また、音声認証、指紋認証、顔認証、虹彩認証などの認証の分野で、認証用の標準モデルとして確率モデルを用いる方法が注目されており、ＧＭＭなどが用いられている。ＨＭＭにより表現される標準モデルの学習アルゴリズムとしてバウム・ウェルチ（Ｂａｕｍ−Ｗｅｌｃｈ）の再推定の方法が広く用いられている（例えば、今井聖著、"音声認識"、ｐｐ.１５０−１５２、共立出版株式会社、１９９５年１１月２５日発行参照）。また、ＧＭＭにより表現される標準モデルの学習アルゴリズムとしてＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムが広く用いられている（例えば、古井貞▲ひろ▼著、"音声情報処理"、ｐｐ．１００−１０４、森北出版株式会社、１９９８年６月３０日発行参照）。ＥＭアルゴリズムでは、標準モデル
【０００７】
【数１】

（ここで、
【０００８】
【数２】

はガウス分布を表し、
【０００９】
【数３】

はＪ（≧１）次元の入力データを表す）における統計量である混合重み係数
【００１０】
【数４】

、Ｊ（≧１）次元の平均値
【００１１】
【数５】

及びＪ（≧１）次元の分散値（共分散行列のＪ個の対角成分）
【００１２】
【数６】

を、
Ｎ個の学習データ
【００１３】
【数７】

を用いて、学習データに対する尤度
【００１４】
【数８】

を最大化もしくは極大化するように、
【００１５】
【数９】

【００１６】
【数１０】

【００１７】
【数１１】

（ここで、
【００１８】
【数１２】

である）を利用して１以上繰り返して計算して学習を行う。また、ベイズ推定法（例えば、繁桝算男著、"ベイズ統計入門"、ｐｐ.４２−５３、東京大学出版会、１９８５年４月３０日発行参照）などの方法も提案されている。バウム・ウェルチの再推定の方法、ＥＭアルゴリズム、ベイズ推定法のいずれの学習アルゴリズムも、学習データに対する確率（尤度）を最大化もしくは極大化するように標準モデルのパラメータ（統計量）を計算して標準モデルを作成する。これらの学習方法では、確率（尤度）を最大化もしくは極大化するという数学的な最適化が実現されている。
【００１９】
上記の学習方法を音声認識の標準モデルの作成に用いた場合、多様な話者や雑音などの音響的特徴量の変動に対応するために多数の音声データで標準モデルを学習することが望ましい。また、意図理解に用いた場合、多様な話者や状況などの変動に対応するために多数のデータで標準モデルを学習することが望ましい。また、虹彩認証に用いた場合、太陽光、カメラ位置・回転などの変動に対応するために多数の虹彩画像データで標準モデルを学習することが望ましい。しかしながら、このような多量のデータを取り扱う場合、学習に膨大な時間がかかるため、利用者に標準モデルを短時間に提供できない。また、多量のデータを蓄積するためのコストが膨大となる。また、ネットワークを利用してデータを収集した場合、通信コストが膨大となる。
【００２０】
一方、複数のモデル（以下、標準モデルの作成のために参照用として準備されるモデルを「参照モデル」と呼ぶ。）を合成することで標準モデルを作成する方法が提案されている。参照モデルは、多くの学習データを確率分布の母数（平均、分散など）で表現した確率分布モデルであり、多くの学習データの特徴を少数のパラメータ（母数）で集約したものである。以下に示す従来技術では、モデルはガウス分布で表現されている。
【００２１】
第１の従来方法では、参照モデルはＧＭＭで表現されており、複数の参照モデルのＧＭＭを重み付きで合成することで標準モデルを作成している（例えば、特開平４−１２５５９９号公報に開示された技術）。
【００２２】
また、第２の従来方法では、第１の従来方式に加えて、学習データに対する確率（尤度）を最大化あるいは極大化して線形結合された混合重みを学習することで標準モデルを作成している（例えば、特開平１０−２６８８９３号公報に開示された技術）。
【００２３】
また、第３の従来方法では、標準モデルの平均値を参照モデルの平均値の線形結合で表現し、入力データに対する確率（尤度）を最大化あるいは極大化して線形結合係数を学習することで標準モデルを作成している。ここでは学習データとして特定話者の音声データを用いており標準モデルを音声認識用の話者適応モデルとして用いている（例えば、Ｍ．Ｊ．Ｆ．Ｇａｌｅｓ、"ＣｌｕｓｔｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇＦｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ"、１９９８年、ＩＣＳＬＰ９８予稿集、ｐｐ．１７８３−１７８６）。
【００２４】
また、第４の従来方法では、参照モデルは単一ガウス分布で表現されており、複数の参照モデルのガウス分布を合成したのちに、クラスタリングにより同一クラスに属するガウス分布を統合することで標準モデルを作成している（例えば、特開平９−８１１７８号公報に開示された技術）。
【００２５】
また、第５の従来方法では、複数の参照モデルは同数の混合数の混合ガウス分布で表現され、各ガウス分布には１対１に対応した通し番号が付与されている。標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成される。合成する複数の参照モデルは利用者に音響的に近い話者で作成されたモデルであり、作成させる標準モデルは話者適応モデルである（例えば、芳澤、外６名、"十分統計量と話者距離を用いた音韻モデルの教師なし学習法"、２００２年３月１日、電子情報通信学会、Ｖｏｌ．Ｊ８５−Ｄ−ＩＩ、Ｎｏ．３、ｐｐ．３８２−３８９）。
【００２６】
しかしながら、第１の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。この課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【００２７】
第２の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルは、参照モデルの単純な混合和であり学習するパラメータが混合重みに限定されているため、高精度の標準モデルが作成できない。また、標準モデルの作成において、多くの学習データを用いて学習を行っているため学習時間がかかる。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【００２８】
第３の従来方法では、学習するパラメータが参照モデルの平均値の線形結合係数に限定されているため高精度の標準モデルが作成できない。また、標準モデルの作成において、多くの学習データを用いて学習を行っているため学習時間がかかる。
【００２９】
第４の従来方法では、クラスタリングをヒューリスティックに行うため高精度の標準モデルを作成することが困難である。また、参照モデルは単一のガウス分布であるため精度が低く、それらを統合した標準モデルの精度は低い。認識精度に関する課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【００３０】
第５の従来方法では、標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成されるが、最適な標準モデルを作成するためには、一般的には合成するガウス分布は１対１に対応するとは限らないため、認識精度が低下する。また、複数の参照モデルが異なる混合数をもつ場合に標準モデルを作成することができない。また、一般的には、参照モデルにおけるガウス分布に通し番号が付与されておらず、この場合に標準モデルを作成することができない。また、仕様に応じて標準モデルの混合数を制御することができない。
【発明の開示】
【００３１】
そこで、本発明は、このような問題点に鑑みてなされたものであり、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いられる高精度な標準モデルを作成する標準モデル作成装置等を提供することを目的とする。
【００３２】
また、本発明は、学習のためのデータや教師データを必要とすることなく、簡易に標準モデルを作成することが可能な標準モデル作成装置等を提供することをも目的とする。
【００３３】
さらに、本発明は、標準モデルを利用する認識の対象にふさわしい標準モデルを作成したり、標準モデルを用いて認識処理を実行する装置の仕様や環境に適した標準モデルを作成することが可能な汎用性及び柔軟性に優れた標準モデル作成装置等を提供することをも目的とする。
【００３４】
本発明で用いる「認識」とは、音声認識などの狭義の意味での認識だけではなく、パターンマッチング、識別、認証、ベイズ推定や予測など、確率で表現された標準モデルを利用するもの全般を意味する。
【００３５】
上記目的を達成するために、本発明に係る標準モデル作成装置は、事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、特定の対象を認識するために予め作成されたモデルである１以上の参照モデルを記憶する参照モデル記憶手段と、前記参照モデル記憶手段に記憶された１以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【００３６】
たとえば、音声認識用の標準モデル作成装置として、音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段と、前記参照モデル記憶手段に格納された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有することを特徴とする。
【００３７】
これによって、１以上の参照モデルに対する標準モデルの確率又は尤度を最大化又は極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、音声データ等の学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【００３８】
ここで、前記標準モデル作成装置は、さらに、外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段を備えてもよい。例えば、音声認識用に適用した場合であれば、音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶するための参照モデル記憶手段と、外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、新たな参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段と、所定の構造をもつ当該標準モデルの統計量の初期値を準備し、前記参照モデル記憶手段に格納された１以上の参照モデルに対する標準モデルの確率又は尤度を最大化又は極大化するように、前記参照モデルの統計量を用いて当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【００３９】
これによって、標準モデル作成装置の外部から新たな参照モデルを取り込み、取り込んだ参照モデルに基づいた標準モデルの作成が可能となるので、様々な認識対象に対応した汎用性の高い標準モデル作成装置が実現される。
【００４０】
また、前記標準モデル作成装置は、さらに、認識の対象に関する情報である利用情報を作成する利用情報作成手段と、作成された前記利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から１以上の参照モデルを選択する参照モデル選択手段とを備え、前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００４１】
これによって、利用者の特徴、利用者の年齢、性別、利用環境などの利用情報に基づいて、準備された複数の参照モデルの中から認識対象に適した参照モデルだけが選択され、それら参照モデルを統合した標準モデルが作成されるので、認識対象により特化した精度の高い標準モデルが作成される。
【００４２】
ここで、前記標準モデル作成装置は、さらに、前記利用情報と選択された参照モデルに関する情報との類似度を算出して、前記類似度が所定のしきい値以上であるか否かを判定して判定信号を作成する類似度判定手段を備えてもよい。
【００４３】
これによって、利用情報にふさわしい（近い）参照モデルが参照モデル記憶手段に存在しない場合に、参照モデルの準備の要求を行うことができる。
【００４４】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、認識の対象に関する情報である利用情報を前記端末装置から受信する利用情報受信手段と、受信された前記利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から１以上の参照モデルを選択する参照モデル選択手段とを備え、前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００４５】
これによって、通信路を介して送信されてきた利用情報に基づいて標準モデルが作成されるので、遠隔制御による標準モデルの生成が可能になるとともに、通信システムを基盤とする認識システムの構築が実現される。
【００４６】
また、前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報を作成する仕様情報作成手段を備え、前記標準モデル作成手段は、前記仕様情報作成手段が作成した仕様情報に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００４７】
これによって、標準モデルを使用する装置のＣＰＵパワー、記憶容量、要求される認識精度、要求される認識処理時間などの仕様情報に基づいて標準モデルが作成されるので、特定の仕様条件を満たす標準モデルの生成が可能となり、計算エンジン等の認識処理に必要なリソース環境に適した標準モデルの生成が実現される。
【００４８】
ここで、前記仕様情報は、例えば、標準モデルを使用するアプリケーションプログラムの種類に対応づけられた仕様を示すような情報であってもよい。そして、前記標準モデル作成装置は、さらに、標準モデルを使用するアプリケーションプログラムと標準モデルの仕様との対応を示すアプリケーション仕様対応データベースを前記仕様情報として保持する仕様情報保持手段を備え、前記標準モデル作成手段は、前記仕様情報保持手段に保持されたアプリケーション仕様対応データベースから、起動されるアプリケーションプログラムに対応する仕様を読み出し、読み出した仕様に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００４９】
これによって、各アプリケーションごとに対応づけられた仕様に沿って標準モデルが作成されるので、アプリケーションごとに最適な標準モデルが作成され、標準モデルが使用される認識システム等における認識精度が向上される。
【００５０】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報を前記端末装置から受信する仕様情報受信手段を備え、前記標準モデル作成手段は、前記仕様情報受信手段が受信した仕様情報に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００５１】
これによって、通信路を介して送信されてきた仕様情報に基づいて標準モデルが作成されるので、遠隔制御による標準モデルの生成が可能になるとともに、通信システムを基盤とする認識システムの構築が実現される。
【００５２】
たとえば、前記参照モデル及び前記標準モデルは、１以上のガウス分布を用いて表現され、前記標準モデル作成手段は、前記仕様情報に基づいて、前記標準モデルの混合分布数（ガウス分布の数）を決定してもよい。
【００５３】
これによって、作成される標準モデルに含まれるガウス分布の混合分布数が動的に決定されることとなり、認識処理が実行される環境や要求仕様等に応じて標準モデルの構造を制御することが可能となる。例として、標準モデルを使用する認識装置のＣＰＵパワーが小さい場合、記憶容量が小さい場合、要求される認識処理時間が短い場合などは標準モデルの混合分布数を少なく設定して仕様に合わせることができ、一方、要求される認識精度が高い場合などは混合分布数を多く設定して認識精度を高くすることができる。
【００５４】
なお、上記利用情報あるいは仕様情報を用いて標準モデルを作成する場合において、参照モデル準備手段は必ずしも必要ではない。たとえば、利用者の要求に基づいて、あるいは、利用者の要求とは無関係に、予め参照モデルを標準モデル作成装置内に記憶させた状態で標準モデル作成装置を出荷し、利用情報や仕様情報を用いて標準モデルを作成することが可能だからである。
【００５５】
また、前記参照モデル及び前記標準モデルは、１以上のガウス分布を用いて表現され、前記参照モデル記憶手段は、少なくとも１対の参照モデルの混合分布数（ガウス分布の数）が異なる参照モデルを記憶し、前記標準モデル作成手段は、少なくとも１対の参照モデルの混合分布数（ガウス分布の数）が異なる参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００５６】
これによって、混合分布数が異なる参照モデルに基づいて標準モデルが作成されるので、予め準備された多種多様な構造の参照モデルに基づく標準モデルの作成が可能となり、より認識対象に適した精度の高い標準モデルの作成が実現される。
【００５７】
また、前記標準モデル作成装置は、さらに、前記標準モデル作成手段が作成した標準モデルを記憶する標準モデル記憶手段を備えてもよい。
【００５８】
これによって、作成された標準モデルを一時的にバッファリングしておき、送信要求に対してすぐに出力したり、他の装置に提供するデータサーバとしての役割を果たしたりすることが可能となる。
【００５９】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記標準モデル作成手段が作成した標準モデルを前記端末装置に送信する標準モデル送信手段を備えてもよい。
【００６０】
これによって、作成された標準モデルは空間的に離れた場所に置かれた外部装置に送信されるので、本標準モデル作成装置を標準モデル作成エンジンとして独立させたり、標準モデル作成装置を通信システムにおけるサーバとして機能させたりすることが可能になる。
【００６１】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記端末装置から送信される参照モデルを受信する参照モデル受信手段を備え、前記標準モデル作成手段は、少なくとも前記参照モデル受信手段が受信した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【００６２】
これによって、端末装置が保持した利用環境にふさわしい参照モデルを、通信路を介して送信して、送信した参照モデルを用いて標準モデルを作成できるため、より認識対象に適した精度の高い標準モデルの作成が実現される。例として、利用者Ａが環境Ａで利用していた参照モデルＡが端末装置に保持されており利用者Ａは環境Ｂで利用したい場合、参照モデルＡを利用して標準モデルを作成することにより、利用者Ａの特徴を反映した精度の高い標準モデルを作成することができる。
【００６３】
また、前記参照モデル準備手段は、さらに、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行ってもよい。たとえば、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記端末装置から送信される参照モデルを受信する参照モデル受信手段を備え、前記参照モデル準備手段は、前記参照モデル受信手段が受信した参照モデルを用いて前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行ってもよい。
【００６４】
これによって、準備される参照モデルの追加、更新等が行われるので、様々な認識対象用のモデルを参照モデルとして追加したり、より精度の高い参照モデルに置き換えたりすることが可能となり、更新した参照モデルによる標準モデルの再生成や、生成された標準モデルを参照モデルとして再び標準モデルを作成するというフィードバックによる学習等が可能となる。
【００６５】
また、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有するように構成してもよい。このとき、前記初期標準モデル作成部は、前記統計量推定部が標準モデルの統計量を計算するために用いる、１以上の前記参照モデルを用いて前記標準モデルを特定する統計量の初期値を決定してもよい。たとえば、前記初期標準モデル作成部は、標準モデルの種類を識別するクラスＩＤに基づいて、前記初期値を決定してもよい。具体的には、前記初期標準モデル作成部は、前記クラスＩＤと前記初期値と前記参照モデルとの対応を示す対応表を保持し、前記対応表に従って、前記初期値を決定してもよい。
【００６６】
これによって、標準モデルが使用される認識の対象の種類ごとにクラスＩＤを付与しておくことで、最終的に必要とされる標準モデルと共通の性質をもつ初期標準モデルを使用することができるので、精度の高い標準モデルが作成される。
【００６７】
以上のように、本発明により、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証（対象を認識して特定の対象かどうかを判断する）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いる高精度な標準モデルが提供され、その実用的価値は極めて高い。
【００６８】
なお、本発明は、このような標準モデル作成装置として実現することができるだけでなく、標準モデル作成装置が備える特徴的な構成要素をステップとする標準モデル作成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのプログラムをＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【発明を実施するための最良の形態】
【００６９】
以下、本発明の実施の形態について図面を参照しながら詳しく説明する。なお、図中同一又は相当部分には同一符号を付し、その説明は繰り返さない。
（第１の実施の形態）
図１は、本発明の第１の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ１０１に組み込まれた例が示されている。本実施の形態では特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する場合を例にして説明する。
【００７０】
サーバ１０１は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部１１１と、参照モデル準備部１０２と、参照モデル記憶部１０３と、標準モデル作成部１０４と、書き込み部１１２とを備える。
【００７１】
読み込み部１１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込む。参照モデル準備部１０２は、読み込まれた参照モデル１２１を参照モデル記憶部１０３へ送信する。参照モデル記憶部１０３は、３個の参照モデル１２１を記憶する。ここで、参照モデルとは、標準モデルを作成するに際して参照される予め作成されたモデル（ここでは、音声認識用のモデル、つまり、一定の属性を有する音声の特徴を示す確率モデル）である。
【００７２】
標準モデル作成部１０４は、参照モデル記憶部１０３が記憶した３個（Ｎg＝３）の参照モデル１２１に対する確率又は尤度を最大化又は極大化するように標準モデル１２２を作成する処理部であり、標準モデルの構造（ガウス分布の混合数など）を決定する標準モデル構造決定部１０４ａと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部１０４ｂと、決定された初期標準モデルを記憶する統計量記憶部１０４ｃと、統計量記憶部１０４ｃに記憶された初期標準モデルに対して、第１近似部１０４ｅによる近似計算等を用いることにより、参照モデル記憶部１０３に記憶されている３個（Ｎg＝３）の参照モデル１２１に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部１０４ｄとからなる。なお、統計量とは、標準モデルを特定するパラメータであり、ここでは、混合重み係数、平均値、分散値である。
【００７３】
書き込み部１１２は、標準モデル作成部１０４が作成した標準モデル１２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む。
【００７４】
次に、以上のように構成されたサーバ１０１の動作について説明する。
図２は、サーバ１０１の動作手順を示すフローチャートである。
【００７５】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップＳ１００）。つまり、読み込み部１１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込み、参照モデル準備部１０２は、読み込まれた参照モデル１２１を参照モデル記憶部１０３へ送信し、参照モデル記憶部１０３は、３個の参照モデル１２１を記憶する。
【００７６】
参照モデル１２１は、音素ごとのＨＭＭにより構成される。参照モデル１２１の一例を図３に示す。ここでは、子供用参照モデル、成人用参照モデル、高齢者用参照モデルのイメージ図が示されている（なお、本図では、高齢者用参照モデルのイメージ図は省略されている）。これら３個の参照モデルの全てが、状態数３個、各状態は混合分布数が３個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として１２次元（Ｊ＝１２）のケプストラム係数が用いられる。
【００７７】
次に、標準モデル作成部１０４は、参照モデル記憶部１０３が記憶した３個の参照モデル１２１に対する確率又は尤度を最大化又は極大化するように標準モデル１２２を作成する（ステップＳ１０１）。
【００７８】
最後に、書き込み部１１２は、標準モデル作成部１０４が作成した標準モデル１２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む（ステップＳ１０２）。ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた標準モデルは、子供、成人、高齢者を考慮した音声認識用の標準モデルとして利用される。
【００７９】
図４は、図２におけるステップＳ１０１（標準モデルの作成）の詳細な手順を示すフローチャートである。
【００８０】
まず、標準モデル構造決定部１０４ａは、標準モデルの構造を決定する（ステップＳ１０２ａ）。ここでは、標準モデルの構造として、音素ごとのＨＭＭにより構成され、３状態であり、各状態における出力分布の混合数を３個（Ｍf＝３）と決定する。
【００８１】
次に、初期標準モデル作成部１０４ｂは、標準モデルを計算するための統計量の初期値を決定する（ステップＳ１０２ｂ）。ここでは、参照モデル記憶部１０３に記憶された３つの参照モデルを、統計処理計算を用いて１つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部１０４ｃに記憶する。
【００８２】
具体的には、初期標準モデル作成部１０４ｂは、上記３つの状態Ｉ（Ｉ＝１、２、３）それぞれについて、以下の数１３に示される出力分布を生成する。なお、式中のＭf（ガウス分布の混合数）は、ここでは、３である。
【００８３】
【数１３】

ここで、
【００８４】
【数１４】

は、ガウス分布を表し、
【００８５】
【数１５】

は、１２次元（Ｊ＝１２）のＬＰＣケプストラム係数を表し、
【００８６】
【数１６】

は、各ガウス分布の混合重み係数を表し、
【００８７】
【数１７】

は、各ガウス分布の平均値を表し、
【００８８】
【数１８】

は、各ガウス分布の分散値を表す。
【００８９】
そして、統計量推定部１０４ｄは、参照モデル記憶部１０３に記憶された３つの参照モデル１２１を用いて、統計量記憶部１０４ｃに記憶された標準モデルの統計量を推定する（ステップＳ１０２ｃ）。
【００９０】
具体的には、３つ（Ｎｇ＝３）の参照モデル１２１の各状態Ｉ（Ｉ＝１、２、３）における出力分布、即ち、以下の数１９に示される出力分布に対する標準モデルの確率又は尤度（以下の数２５に示される尤度logＰ）を極大化もしくは最大化するような標準モデルの統計量（上記数１６に示される混合重み係数、上記数１７に示される平均値、及び、上記数１８に示される分散値）を推定する。
【００９１】
【数１９】

ここで、
【００９２】
【数２０】

はガウス分布を表し、
【００９３】
【数２１】

は各参照モデルの混合分布数（ここでは、３）を表し、
【００９４】
【数２２】

は各ガウス分布の混合重み係数を表し、
【００９５】
【数２３】

は各ガウス分布の平均値を表し、
【００９６】
【数２４】

は各ガウス分布の分散値を表す。
【００９７】
【数２５】

そして、以下の数２６、数２７及び数２８に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【００９８】
【数２６】

【００９９】
【数２７】

【０１００】
【数２８】

このとき、統計量推定部１０４ｄの第１近似部１０４ｅにより、以下の数２９に示される近似式が用いられる。
【０１０１】
【数２９】

ここで、
【０１０２】
【数３０】

は、
【０１０３】
【数３１】

【０１０４】
【数３２】

を平均値とし、
【０１０５】
【数３３】

を分散値とする単一のガウス分布を表す。
【０１０６】
また、第１近似部１０４ｅは、上記数３０に示された単一ガウス分布の重み（数３１）平均値（数３２）及び分散値（数３３）を、それぞれ、以下の数３４、数３５及び数３６に示された式に従って算出する。
【０１０７】
【数３４】

【０１０８】
【数３５】

【０１０９】
【数３６】

図５は、第１近似部１０４ｅによる近似計算を説明する図である。第１近似部１０４ｅは、本図に示されるように、上記数２９に示された近似式における単一ガウス分布（数３０）を、標準モデルを構成する全ての混合ガウス分布を用いて決定している。
【０１１０】
以上の第１近似部１０４ｅによる近似式を考慮してまとめると、統計量推定部１０４ｄでの計算式は次の通りになる。つまり、統計量推定部１０４ｄは、以下の数３７、数３８及び数３９に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、統計量記憶部１０４ｃに記憶する。そして、このような統計量の推定と統計量記憶部１０４ｃへの記憶をＲ（≧１）回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル１２２の統計量として出力する。
【０１１１】
【数３７】

【０１１２】
【数３８】

【０１１３】
【数３９】

なお、状態遷移確率については、ＨＭＭの対応する状態遷移確率を参照モデル１２１に対して全て加えあわせた全体が１になるように正規化したものを用いる。
【０１１４】
次に、本実施の形態をパーソナルコンピュータによる音声認識に適用した具体例を説明する。ここでは、サーバ１０１としてパソコン（ＰＣ）、読み込み部１１１としてＣＤ−ＲＯＭドライブ装置を用いるものとし、標準モデルの具体的な使い方を中心に説明する。
【０１１５】
まず、利用者は、ＰＣ（サーバ１０１）のＣＤ−ＲＯＭドライブ装置（読み込み部１１１）に、参照モデルとしての複数の音響モデルが格納された１枚のＣＤ−ＲＯＭを装着する。そのＣＤ−ＲＯＭには、例えば、「幼児」、「子供：男」、「子供：女」、「大人：男」、「大人：女」、「高齢者：男」、「高齢者：女」の各音響モデルが記憶されている。
【０１１６】
次に、利用者は、図６（ａ）及び（ｂ）に示される画面表示例のように、ＰＣ（サーバ１０１）に接続されたディスプレイを用いて、家族構成（音声認識を利用する人）にあった音響モデルを選択する。図６には、ＣＤ−ＲＯＭに記憶されている音響モデルが「ＣＤ−ＲＯＭ」と書かれた枠内に表示され、それらの音響モデルの中から選択された音響モデルが「利用者」と書かれた枠内にコピーされる様子が示されている。ここでは、利用者の家族構成が、１０歳の男の子と、５０歳のお父さんと、４０歳のお母さんの３人であるとし、利用者（お父さん）によって、「子供：男」、「大人：男」、「大人：女」の３個のモデルが「利用者」と書かれた枠内にドラッグして移動されている。このような操作によって、参照モデル準備部１０２による参照モデルの準備が行われる。つまり、３個の参照モデルが読み込み部１１１で読み出され、参照モデル準備部１０２を介して、参照モデル記憶部１０３に格納される。
【０１１７】
続いて、利用者は、図７（ａ）に示される画面表示例のように、作成する標準モデルの構造（混合分布数）を指定する。図７（ａ）では、「混合分布数」として「３個」、「１０個」、「２０個」が表示され、利用者は、これらの個数の中から希望するものを選択する。この操作によって、標準モデル構造決定部１０４ａにより、これから作成する標準モデルの構造が決定される。
【０１１８】
なお、混合分布数の決定については、このような直接的な指定に限られず、例えば、図７（ｂ）に示される画面表示例のように、利用者が選択した仕様情報に基づいて混合分布数を決定してもよい。図７（ｂ）では、標準モデルを使用して音声認識を実行させる対象機器として、３種類の「利用機器」、つまり、「テレビ用」、「カーナビ用」、「携帯電話用」の中から利用機器を選択する様子が示されている。このとき、予め記憶された対応表に従って、例えば、「テレビ用」が選択された場合には混合分布数を３個と決定し、「カーナビ用」が選択された場合には混合分布数を２０個と決定し、「携帯電話用」が選択された場合には混合分布数を１０個と決定してもよい。
【０１１９】
その他、混合分布数の決定については、認識速度や精度、つまり、「素早く認識」、「通常」、「高精度に認識」の中から選択することで、それぞれの選択項目に対応した値（「素早く認識」＝３個、「通常」＝１０個、「高精度に認識」＝２０個）を混合分布数として決定してもよい。
【０１２０】
このような入力操作が終了すると、初期標準モデル作成部１０４ｂによって初期標準モデルが作成された後に、統計量推定部１０４ｄによる繰り返し計算（学習）が行われ、標準モデルが作成される。このとき、図８の画面表示例に示されるように、標準モデル構造決定部１０４ａによって、学習の進捗状況が表示される。利用者は、学習の進捗状況、学習終了時期などを知ることができ、標準モデルが完成されるまで安心して待つことができる。なお、進捗状況の表示として、例えば、図８（ａ）に示されるような学習度合いのバー表示、図８（ｂ）に示されるような学習回数の表示、その他、尤度基準の表示等がある。また、未学習時は一般的な顔画像を表示し、学習の完了に近づくにしたがって利用者の顔画像に変更していくような進捗表示であってもよい。同様に、未学習時には赤ちゃんを表示し、学習の完了に近づくにしたがって仙人を表示するような進捗表示であってもよい。
【０１２１】
このようにして標準モデルの作成が完了すると、作成された標準モデルは、標準モデル作成部１０４によってメモリカード（書き込み部１１２）に記録される。利用者は、そのメモリカードをＰＣ（サーバ１０１の書き込み部１１２）から抜き出し、利用機器、例えば、テレビのメモリカード用スロットに挿入する。これによって、作成された標準モデルがＰＣ（サーバ１０１）から利用機器（テレビ）に移動される。テレビは、装着されたメモリカードに記録された標準モデルを用いて、利用者（ここでは、テレビを利用する家族）を対象とした音声認識を行う。たとえば、テレビに付属したマイクに入力された音声を認識することによって、テレビ操作用のコマンドを判別し、そのコマンド（例えば、チャンネルの切り替え、ＥＰＧなどによる番組検索）を実行する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた、音声によるテレビ操作が実現される。
【０１２２】
以上説明したように、本発明の第１の実施の形態によれば、予め準備された参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、学習のためのデータや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した精度の高い標準モデルが作成される。
【０１２３】
なお、標準モデル１２２は、音素ごとにＨＭＭを構成するに限らず、文脈依存のＨＭＭで構成してもよい。
【０１２４】
また、標準モデル作成部１０４は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【０１２５】
また、標準モデル１２２を構成するＨＭＭは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０１２６】
また、参照モデル１２１は、子供用参照モデル、成人用参照モデル、高齢者用参照モデルにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【０１２７】
また、標準モデル１２２を用いて、サーバ１０１において音声認識を行ってもよい。
また、参照モデル１２１をＣＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどのストレージデバイスから読み込む代わりに、サーバ１０１において音声データから参照モデル１２１を作成してもよい。
【０１２８】
また、参照モデル準備部１０２は、必要に応じてＣＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部１０３に追加・更新してもよい。つまり、参照モデル準備部１０２は、新たな参照モデルを参照モデル記憶部１０３に格納するだけでなく、同一の認識対象についての参照モデルが参照モデル記憶部１０３に格納されている場合には、その参照モデルと置き換えることによって参照モデルを更新したり、参照モデル記憶部１０３に格納されている不要な参照モデルを削除してもよい。
【０１２９】
また、参照モデル準備部１０２は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部１０３に追加・更新してもよい。
【０１３０】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
（第２の実施の形態）
図９は、本発明の第２の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がセットトップボックス２０１（以下、ＳＴＢと呼ぶ）に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（話者適応モデル）を作成する場合を例にして説明する。具体的には、ＳＴＢによる音声認識機能により、テレビのＥＰＧ検索や番組切替、録画予約などを行う場合を例にして説明する。
【０１３１】
ＳＴＢ２０１は、ユーザの発話を認識してＴＶ番組の自動切替等を行うデジタル放送用受信機であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、マイク２１１と、音声データ蓄積部２１２と、参照モデル準備部２０２と、参照モデル記憶部２０３と、利用情報作成部２０４と、参照モデル選択部２０５と、標準モデル作成部２０６と、音声認識部２１３とを備える。
【０１３２】
マイク２１１に収集された音声データは、音声データ蓄積部２１２に蓄積される。参照モデル準備部２０２は、音声データ蓄積部２１２が蓄積した音声データを用いて話者ごとに参照モデル２２１を作成し、参照モデル記憶部２０３に記憶する。
【０１３３】
利用情報作成部２０４は、利用情報２２４である利用者の音声をマイク２１１により収集する。ここで、利用情報とは、認識（狭義での認識、識別、認証など）の対象（人・物）に関する情報であり、ここでは、音声認識の対象となる利用者の音声である。参照モデル選択部２０５は、利用情報作成部２０４が作成した利用情報２２４に基づいて、参照モデル記憶部２０３が記憶している参照モデル２２１の中から、利用情報２２４が示す利用者の音声に音響的に近い参照モデル２２３を選択する。
【０１３４】
標準モデル作成部２０６は、参照モデル選択部２０５が選択した話者の参照モデル２２３に対する確率又は尤度を最大化又は極大化するように標準モデル２２２を作成する処理部であり、標準モデルの構造（ガウス分布の混合分布数など）を決定する標準モデル構造決定部２０６ａと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部２０６ｂと、決定された初期標準モデルを記憶する統計量記憶部２０６ｃと、統計量記憶部２０６ｃに記憶された初期標準モデルに対して、一般近似部２０６ｅによる近似計算等を用いることにより、参照モデル選択部２０５が選択した参照モデル２２３に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部２０６ｄとからなる。
【０１３５】
音声認識部２１３は、標準モデル作成部２０６によって作成された標準モデル２２２を用いて利用者の音声を認識する。
【０１３６】
次に、以上のように構成されたＳＴＢ２０１の動作について説明する。
図１０は、ＳＴＢ２０１の動作手順を示すフローチャートである。
【０１３７】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップＳ２００）。つまり、マイク２１１によりＡさんからＺさんの音声データを収集して音声データ蓄積部２１２に蓄積する。たとえば、屋内に設置された複数のマイク、テレビのリモコンに内蔵されたマイク、電話機などが、ＳＴＢ２０１の音声データ蓄積部２１２と接続されており、マイクや電話機から入力された音声データを音声データ蓄積部２１２に蓄積する。たとえば、お兄ちゃん、妹、お父さん、お母さん、おじいちゃん、近所のひと、友達の音声が蓄積される。
【０１３８】
参照モデル準備部２０２は、音声データ蓄積部２１２が蓄積した音声データを用いて話者ごとに参照モデル２２１をバウム・ウェルチの再推定の方法により作成する。この処理は、標準モデルの作成が要求される以前に行われる。
【０１３９】
参照モデル記憶部２０３は、参照モデル準備部２０２が作成した参照モデル２２１を記憶する。参照モデル２２１は、音素ごとのＨＭＭにより構成される。参照モデル２２１の一例を図１１に示す。ここでは、ＡさんからＺさんの全ての参照モデルが、状態数３個、各状態は混合分布数が５個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として２５次元（Ｊ＝２５）のメルケプストラム係数が用いられる。
【０１４０】
ここで、標準モデルの作成が要求される。たとえば、利用者が「利用者の確認」のボタンを押すことによって、標準モデルの作成が要求される。「利用者確認」のボタンについては、テレビ画面に表示させて選択する方法や、テレビのリモコンに「利用者の確認」スイッチをつけて選択する方法が考えられる。ボタンを押すタイミングとしては、テレビを起動したタイミング、音声認識を用いてコマンド操作を行っているときに利用者にふさわしい標準モデルがほしいと感じたタイミングなどが考えられる。
【０１４１】
次に、利用情報作成部２０４は、利用情報２２４である利用者の音声をマイク２１１により収集する（ステップＳ２０１）。たとえば、標準モデルの作成が要求されると、画面上で「名前を入力してください」と表示される。利用者は、テレビのリモコンに内蔵されたマイクにより名前（利用者の音声）を入力する。この利用者の音声が利用情報である。なお、入力する音声は名前に限定されない。例えば「適応と発声してください」と表示して、利用者は「適応」と発声してもよい。
【０１４２】
参照モデル選択部２０５は、その利用者の音声に音響的に近い参照モデル２２３を、参照モデル記憶部２０３が記憶している参照モデル２２１の中から選択する（ステップＳ２０２）。具体的には、利用者の音声をＡさんからＺさんの参照モデルに入力して発声単語に対する尤度が大きい１０人（Ｎg＝１０）の話者の参照モデルを選択する。
【０１４３】
そして、標準モデル作成部２０６は、参照モデル選択部２０５が選択した１０個の参照モデル２２３に対する確率又は尤度を最大化又は極大化するように標準モデル２２２を作成する（ステップＳ２０３）。このとき、第１の実施の形態のように、学習の進捗状況を表示してもよい。そうすることで、利用者は学習の進捗状況、学習終了時期などが判断でき、安心して標準モデルを作成することができる。また、学習の進捗状況を非表示にする進捗状況非表示部を設けてもよい。この機能により、画面を有効に使うことができる。また、慣れた人に対して非表示にすることで、うっとうしく感じることが回避される。
【０１４４】
最後に、音声認識部２１３は、マイク２１１から介して送られてくる利用者の音声を入力とし、標準モデル作成部２０６で作成された標準モデル２２２を用いて音声認識を行う（Ｓ２０４）。たとえば、利用者が発話した音声を音響解析等を行うことで２５次元のメルケプストラム係数を算出し、音素ごとの標準モデル２２２に入力することで、高い尤度を有する音素の連なりを特定する。そして、その音素の連なりと予め受信している電子番組データ中の番組名とを比較し、一定以上の尤度が検出された場合に、その番組に切り替えるという自動番組切替の制御を行う。
【０１４５】
次に、図１０におけるステップＳ２０３（標準モデルの作成）の詳細な手順を説明する。手順の流れは、図４に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【０１４６】
まず、標準モデル構造決定部２０６ａは、標準モデルの構造を決定する（図４のステップＳ１０２ａ）。ここでは、標準モデルの構造として、音素ごとのＨＭＭにより構成され、３状態であり、各状態における出力分布の混合分布数が１６個（Ｍf＝１６）と決定する。
【０１４７】
次に、初期標準モデル作成部２０６ｂは、標準モデルを計算するための統計量の初期値を決定する（図４のステップＳ１０２ｂ）。ここでは、参照モデル選択部２０５が選択した１０個の参照モデル２２３を、統計処理計算を用いて１つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部２０６ｃに記憶する。ここでは、話者ごとに学習した混合分布数が５の参照モデルを用いて精度の高い混合分布数が１６（１６混合）の標準モデル（話者適応モデル）を作成する。
【０１４８】
具体的には、初期標準モデル作成部２０６ｂは、上記３つの状態Ｉ（Ｉ＝１、２、３）それぞれについて、上記数１３に示される出力分布を生成する。
【０１４９】
ただし、本実施の形態では、上記数１３に示された出力分布における
【０１５０】
【数４０】

は、２５次元（Ｊ＝２５）のメルケプストラム係数を表す。
【０１５１】
そして、統計量推定部２０６ｄは、参照モデル選択部２０５が選択した１０個の参照モデル２２３を用いて、統計量記憶部２０６ｃに記憶された標準モデルの統計量を推定する（図４のステップＳ１０２ｃ）。
【０１５２】
つまり、１０個（Ｎg＝１０）の参照モデル２２３の各状態Ｉ（Ｉ＝１、２、３）における出力分布、即ち、上記数１９に示される出力分布に対する標準モデルの確率（ここでは、上記数２５に示される尤度logＰ）を極大化もしくは最大化するような標準モデルの統計量（上記数１６に示される混合重み係数、上記数１７に示される平均値、及び、上記数１８に示される分散値）を推定する。
【０１５３】
ただし、本実施の形態では、上記数１９に示された出力分布における
【０１５４】
【数４１】

は、５（各参照モデルの混合分布数）である。
【０１５５】
具体的には、上記数２６、数２７及び数２８に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【０１５６】
このとき、統計量推定部２０６ｄの一般近似部２０６ｅにより、上記数２９に示される近似式が用いられる。
【０１５７】
ここで、一般近似部２０６ｅは、第１の実施の形態と異なり、上記数２９の近似式の分母に示された出力分布
【０１５８】
【数４２】

の中から、上記数２９の近似式の分子に示された出力分布
【０１５９】
【数４３】

に距離的に近い３個（Ｐh(m)＝３）の出力分布
【０１６０】
【数４４】

を選択し、選択した３個の出力分布を用いて、上記数３０に示された単一ガウス分布の重み（数３１）、平均値（数３２）及び分散値（数３３）を、それぞれ、以下の数４５、数４６及び数４７に示された式に従って算出する。
【０１６１】
【数４５】

【０１６２】
【数４６】

【０１６３】
【数４７】

図１２は、一般近似部２０６ｅによる近似計算を説明する図である。一般近似部２０６ｅは、本図に示されるように、上記数２９に示された近似式における単一ガウス分布（数３０）を、標準モデルを構成するＭf個の混合ガウス分布の中から、計算対象となる混合ガウス分布に近い一部（Ｐh(m)個）の混合ガウス分布だけを用いて決定している。したがって、全部（Ｍf個）の混合ガウス分布を用いる第１の実施の形態と比較し、近似計算における計算量が削減される。
【０１６４】
以上の一般近似部２０６ｅによる近似式を考慮してまとめると、統計量推定部２０６ｄでの計算式は次の通りになる。つまり、統計量推定部２０６ｄは、以下の数４８、数４９及び数５０に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、統計量記憶部２０６ｃに記憶する。そして、このような統計量の推定と統計量記憶部２０６ｃへの記憶をＲ（≧１）回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル２２２の統計量として出力する。なお、繰り返し計算においては、その回数に対応させて、上記近似計算における出力分布の選択個数Ｐh(m)を小さくし、最終的にＰh(m)＝１とする計算を行う。
【０１６５】
【数４８】

【０１６６】
【数４９】

【０１６７】
【数５０】

なお、状態遷移確率については、ＨＭＭの対応する状態遷移確率を参照モデル２２３に対して全て加えあわせた全体が１になるように正規化したものを用いる。
【０１６８】
以上説明したように、本発明の第２の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【０１６９】
なお、標準モデルを作成するタイミングとしては、本実施の形態のような利用者による明示的な指示だけに限られず、他のタイミングで標準モデルを作成してもよい。たとえば、ＳＴＢ２０１にさらに、利用者が変更されたかどうかを自動的に判断する利用者変更判断部を設ける。その利用者変更判断部は、テレビのリモコンに入力された認識用の音声を用いて、利用者が変更されたか否か、つまり、現在の利用者が直前まで認識していた利用者と同一人物であるか否かを判断する。利用者が変更されたと判断した場合に、その音声を利用情報として標準モデルを作成する。これにより、利用者が意識することなく、利用者にふさわしい標準モデルを用いた音声認識が行われる。
【０１７０】
なお、標準モデル２２２は、音素ごとにＨＭＭを構成するに限らず、文脈依存のＨＭＭで構成してもよい。
【０１７１】
また、標準モデル作成部２０６は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【０１７２】
また、標準モデル２２２を構成するＨＭＭは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０１７３】
また、参照モデル２２１は、話者ごとＨＭＭにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【０１７４】
また、参照モデル２２１は、話者ごとＨＭＭに限らず、話者・雑音・声の調子ごとに作成してもよい。
【０１７５】
また、標準モデル２２２をＣＤ−ＲＯＭ、ハードディスク、ＤＶＤ−ＲＡＭなどのストレージデバイスに記録してもよい。
【０１７６】
また、参照モデル２２１を作成する代わりに、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどのストレージデバイスから読み込んでもよい。
【０１７７】
また、参照モデル選択部２０５は、利用情報２２４に基づいて利用者ごとに選択する参照モデルの数を変えてもよい。
【０１７８】
また、参照モデル準備部２０２は、必要に応じて新たな参照モデルを作成して参照モデル記憶部２０３に追加・更新してもよいし、参照モデル記憶部２０３に格納されている不要な参照モデルを削除してもよい。
【０１７９】
また、参照モデル準備部２０２は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部２０３に追加・更新してもよい。
【０１８０】
また、上記近似計算において選択する出力分布の個数Ｐh(m)は、対象とする事象や標準モデルの出力分布によって異なってもよいし、分布間距離に基づいて決定してもよい。
【０１８１】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
【０１８２】
また、混合分布数については、本実施の形態におけるＳＴＢを出荷するときに、所定の値に設定しておいてもよいし、ネットワーク連携を考慮した機器のＣＰＵパワーなどの仕様、起動するアプリケーションの仕様などに基づいて混合分布数を決定してもよい。
（第３の実施の形態）
図１３は、本発明の第３の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）３０１に組み込まれた例が示されている。本実施の形態では雑音識別用の標準モデル（雑音モデル）を作成する場合を例にして説明する。
【０１８３】
ＰＤＡ３０１は、携帯情報端末であり、事象の出力確率によって定義される雑音識別用の標準モデルを作成する標準モデル作成装置として、読み込み部３１１と、参照モデル準備部３０２と、参照モデル記憶部３０３と、利用情報作成部３０４と、参照モデル選択部３０５と、標準モデル作成部３０６と、仕様情報作成部３０７と、マイク３１２と、雑音識別部３１３とを備える。
【０１８４】
読み込み部３１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた乗用車Ａの参照モデル、乗用車Ｂの参照モデル、バスＡの参照モデル、小雨の参照モデル、大雨の参照モデルなどの雑音の参照モデルを読み込む。参照モデル準備部３０２は、読み込まれた参照モデル３２１を参照モデル記憶部３０３へ送信する。参照モデル記憶部３０３は、参照モデル３２１を記憶する。
【０１８５】
利用情報作成部３０４は、利用情報３２４である雑音の種類をＰＤＡ３０１の画面とキーを利用して作成する。参照モデル選択部３０５は、利用情報３２４である雑音の種類に音響的に近い参照モデルを、参照モデル記憶部３０３が記憶している参照モデル３２１の中から選択する。仕様情報作成部３０７は、ＰＤＡ３０１の仕様に基づき仕様情報３２５を作成する。ここで、仕様情報とは、作成する標準モデルの仕様に関する情報であり、ここでは、ＰＤＡ３０１が備えるＣＰＵの処理能力に関する情報である。
【０１８６】
標準モデル作成部３０６は、仕様情報作成部３０７で作成された仕様情報３２５に基づいて、参照モデル選択部３０５が選択した雑音の参照モデル３２３に対する確率又は尤度を最大化又は極大化するように標準モデル３２２を作成する処理部であり、標準モデルの構造（ガウス分布の混合分布数など）を決定する標準モデル構造決定部３０６ａと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部３０６ｂと、決定された初期標準モデルを記憶する統計量記憶部３０６ｃと、統計量記憶部３０６ｃに記憶された初期標準モデルに対して、第２近似部３０６ｅによる近似計算等を用いることにより、参照モデル選択部３０５が選択した参照モデル３２３に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部３０６ｄとからなる。
【０１８７】
雑音識別部３１３は、標準モデル作成部３０６で作成された標準モデル３２２を用いて、マイク３１２から入力された雑音の種類を識別する。
【０１８８】
次に、以上のように構成されたＰＤＡ３０１の動作について説明する。
図１４は、ＰＤＡ３０１の動作手順を示すフローチャートである。
【０１８９】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップＳ３００）。つまり、読み込み部３１１は、ストレージデバイスに書き込まれた雑音の参照モデルを読み込み、参照モデル準備部３０２は、読み込まれた参照モデル３２１を参照モデル記憶部３０３へ送信し、参照モデル記憶部３０３は、参照モデル３２１を記憶する。
【０１９０】
参照モデル３２１は、ＧＭＭより構成される。参照モデル３２１の一例を図１５に示す。ここでは、各雑音モデルは混合分布数が３個のＧＭＭにより構成される。特徴量として５次元（Ｊ＝５）のＬＰＣケプストラム係数が用いられる。
【０１９１】
次に、利用情報作成部３０４は、識別したい雑音の種類である利用情報３２４を作成する（ステップＳ３０１）。図１６にＰＤＡ３０１の選択画面の一例を示す。ここでは、乗用車の雑音が選択される。参照モデル選択部３０５は、選択された利用情報３２４である乗用車の雑音に音響的に近い参照モデルである乗用車Ａの参照モデルと乗用車Ｂの参照モデルを、参照モデル記憶部３０３が記憶している参照モデル３２１の中から選択する（ステップＳ３０２）。
【０１９２】
そして、仕様情報作成部３０７は、ＰＤＡ３０１の仕様に基づき、仕様情報３２５を作成する（ステップＳ３０３）。ここでは、ＰＤＡ３０１のＣＰＵの仕様に基づきＣＰＵパワーが小さいという仕様情報３２５を作成する。標準モデル作成部３０６は、作成された仕様情報３２５に基づいて、参照モデル選択部３０５が選択した参照モデル３２３に対する確率又は尤度を最大化又は極大化するように標準モデル３２２を作成する（ステップＳ３０４）。
【０１９３】
最後に、雑音識別部３１３は、利用者によってマイク３１２から入力された雑音に対して、標準モデル３２２を用いて、雑音の識別を行う（ステップＳ３０５）。
【０１９４】
次に、図１４におけるステップＳ３０４（標準モデルの作成）の詳細な手順を説明する。手順の流れは、図４に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【０１９５】
まず、標準モデル構造決定部３０６ａは、標準モデルの構造を決定する（図４のステップＳ１０２ａ）。ここでは、標準モデルの構造として、仕様情報３２５であるＣＰＵパワーが小さいという情報に基づいて１混合（Ｍf＝１）のＧＭＭにより標準モデル３２２を構成すると決定する。
【０１９６】
次に、初期標準モデル作成部３０６ｂは、標準モデルを計算するための統計量の初期値を決定する（図４のステップＳ１０２ｂ）。ここでは、選択された参照モデル３２３である乗用車Ａの３混合の参照モデルを、統計処理計算を用いて１つのガウス分布に統合したものを統計量の初期値として統計量記憶部３０６ｃに記憶する。
【０１９７】
具体的には、初期標準モデル作成部３０６ｂは、上記数１３に示される出力分布を生成する。
【０１９８】
ただし、本実施の形態では、上記数１３に示された出力分布における
【０１９９】
【数５１】

は、５次元（Ｊ＝５）のＬＰＣケプストラム係数を表す。
【０２００】
そして、統計量推定部３０６ｄは、参照モデル選択部３０５が選択した２個の参照モデル３２３を用いて、統計量記憶部３０６ｃに記憶された標準モデルの統計量を推定する（図４のステップＳ１０２ｃ）。
【０２０１】
つまり、２個（Ｎg＝２）の参照モデル３２３における出力分布、即ち、上記数１９に示される出力分布に対する標準モデルの確率（ここでは、上記数２５に示される尤度logＰ）を極大化もしくは最大化するような標準モデルの統計量（上記数１６に示される混合重み係数、上記数１７に示される平均値、及び、上記数１８に示される分散値）を推定する。
【０２０２】
ただし、本実施の形態では、上記数１９に示された出力分布における
【０２０３】
【数５２】

は、３（各参照モデルの混合分布数）である。
【０２０４】
具体的には、上記数２６、数２７及び数２８に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【０２０５】
このとき、統計量推定部３０６ｄの第２近似部３０６ｅは、標準モデルの各ガウス分布はお互いに影響を与えないと仮定して、以下の近似式を用いる。
【０２０６】
【数５３】

また、標準モデルのガウス分布
【０２０７】
【数５４】

の近傍の
【０２０８】
【数５５】

とは、前記数５４が示す出力分布との平均値のユークリッド距離、マハラノビス距離、カルバック・ライブラー（ＫＬ）距離などの分布間距離が近いＱg(m,i)個の参照モデル３２３のガウス分布
【０２０９】
【数５６】

が存在する空間であって、
【０２１０】
【数５７】

との分布間距離が近いＱg(m,i)個（１≦Ｑg(m,i)≦Ｌg(i)）の前記参照ベクトルの出力分布とは、前記参照モデルの出力分布
【０２１１】
【数５８】

のうち分布間距離が１番近い（近傍指示パラメータＧ＝１）前記標準モデルの出力分布が前記数５７である前記参照ベクトルの出力分布であると近似する。
【０２１２】
図１７は、この統計量推定部３０６ｄによる統計量の推定手順を示す概念図である。各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布を用いて統計量の推定を行うことが示されている。
【０２１３】
図１８は、第２近似部３０６ｅによる近似計算を説明する図である。第２近似部３０６ｅは、本図に示されるように、各参照モデルの各ガウス分布に対して、距離が最も近い標準モデルのガウス分布mを決定することで、上記数５３に示された近似式を用いている。
【０２１４】
以上の第２近似部３０６ｅによる近似式を考慮してまとめると、統計量推定部３０６ｄでの計算式は次の通りになる。つまり、統計量推定部３０６ｄは、以下の数５９、数６０及び数６１に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、それらのパラメータによって特定される標準モデルを最終的な標準モデル３２２として生成する。
【０２１５】
【数５９】

（ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布に関する和を意味する。）
【０２１６】
【数６０】

（ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布に関する和を意味する。）
【０２１７】
【数６１】

（ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布に関する和を意味する。）
ただし、
【０２１８】
【数６２】

の場合において、
（第１の方法）混合重み係数、平均値、分散値を更新しない。
（第２の方法）混合重み係数の値をゼロにして、平均値、分散値を所定の値にする。
（第３の方法）混合重み係数の値を所定の値にして、平均値、分散値を標準モデルの出力分布を１個の分布に表現したときの平均値、分散値にする。
【０２１９】
のいずれかを利用して統計量の値を決定する。なお、利用する方法は、繰り返し回数Ｒ、ＨＭＭ、ＨＭＭの状態ごとに異なっていてもよい。ここでは、第１の方法を用いる。
【０２２０】
統計量推定部３０６ｄは、このように推定した標準モデルの統計量を統計量記憶部３０６ｃに記憶する。そして、このような統計量の推定と統計量記憶部３０６ｃへの記憶をＲ（≧１）回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル３２２の統計量として出力する。
【０２２１】
次に、本実施の形態をＰＤＡによる環境音識別に適用した具体例を説明する。
まず、参照モデル準備部３０２は、ＣＤ−ＲＯＭから環境音の識別に必要な参照モデルを読み出す。利用者は、識別を行う環境（利用情報）を考慮して、識別したい環境音を画面上から選択する。たとえば、「乗用車」を選択し、続いて、「警報音」、「赤ちゃんの声」、「電車の音」などを選択する。この選択に基づいて、参照モデル選択部３０５は、参照モデル記憶部３０３に記憶されている参照モデルの中から対応する参照モデルを選択する。そして、選択した参照モデル３２３を１つずつ用いて、標準モデル作成部３０６は、それぞれに対して標準モデルを作成する。
【０２２２】
続いて、利用者は、ＰＤＡ３０１において、「らくらく情報提供」（環境音に基づく状況判断による情報提供）というアプリケーションプログラムを起動する。このアプリケーションは、環境音に基づいて状況判断を行い、利用者に適切な情報を提供するプログラムである。起動されると、ＰＤＡ３０１の表示画面に「正確に判断」、「素早く判断」という表示がされる。これに対して、利用者はどちらかを選択する。
【０２２３】
そして、仕様情報作成部３０７は、その選択結果に基づいて、仕様情報を作成する。たとえば、「正確に判断」が選択された場合には、精度を高くするために、混合分布数を１０個とする仕様情報を作成する。一方、「素早く判断」が選択された場合には、高速に処理するために、混合分布数を１個とする仕様情報を作成する。なお、複数のＰＤＡが連携して処理できる場合などには、現在利用できるＣＰＵパワーを判断し、そのＣＰＵパワーに基づいて仕様情報を作成してもよい。
【０２２４】
このような仕様情報にしたがって、「乗用車」、「警報音」、「赤ちゃんの声」、「電車の音」などの１混合の標準モデルが作成される。そして、ＰＤＡ３０１は、作成された標準モデルにより環境識別を行い、その識別結果に基づき、各種情報をＰＤＡの画面に表示する。例えば、「乗用車」が近くにあると識別した場合は、道路地図を表示したり、「赤ちゃんの声」を識別した場合は、おもちゃ屋さんの広告を表示したりする。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた、環境音識別に基づく情報提供が実現される。なお、アプリケーションの仕様に応じて標準モデルの複雑さを調節することができる。
【０２２５】
以上説明したように、本発明の第３の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【０２２６】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【０２２７】
なお、統計量推定部３０６ｄによる処理の繰り返し回数は、上記数２５に示された尤度の大きさがある一定のしきい値以上になるまでの回数としてもよい。
【０２２８】
また、標準モデル３２２を構成するＧＭＭは、雑音の種類ごとに異なる混合分布数の混合ガウス分布により構成してもよい。
【０２２９】
また、識別モデルは、雑音モデルに限らず、話者を識別してもよいし、年齢などを識別してもよい。
【０２３０】
また、標準モデル３２２をＣＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ハードディスクなどのストレージデバイスに記録してもよい。
【０２３１】
また、参照モデル３２１をＣＤ−ＲＯＭなどのストレージデバイスから読み込む代わりに、ＰＤＡ３０１において雑音データから参照モデル３２１を作成してもよい。
【０２３２】
また、参照モデル準備部３０２は、必要に応じてＣＤ−ＲＯＭなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部３０３に追加・更新してもよいし、参照モデル記憶部３０３に格納されている不要な参照モデルを削除してもよい。
【０２３３】
また、参照モデル準備部３０２は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部３０３に追加・更新してもよい。
【０２３４】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。
【０２３５】
また、近傍指示パラメータＧは、対象とする事象や標準モデルの出力分布によって異なってもよいし、繰り返し回数Ｒによって変化させてもよい。
（第４の実施の形態）
図１９は、本発明の第４の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ４０１に組み込まれた例が示されている。本実施の形態では顔認識用の標準モデルを作成する場合を例にして説明する。
【０２３６】
サーバ４０１は、通信システムにおけるコンピュータ装置等であり、事象の出力確率によって定義される顔認識用の標準モデルを作成する標準モデル作成装置として、カメラ４１１と、画像データ蓄積部４１２と、参照モデル準備部４０２と、参照モデル記憶部４０３と、利用情報受信部４０４と、参照モデル選択部４０５と、標準モデル作成部４０６と、書き込み部４１３とを備える。
【０２３７】
カメラ４１１により、顔の画像データが収集され、画像データ蓄積部４１２に顔画像データが蓄積される。参照モデル準備部４０２は、画像データ蓄積部４１２が蓄積した顔画像データを用いて話者ごとに参照モデル４２１を作成し、参照モデル記憶部４０３に記憶する。
【０２３８】
利用情報受信部４０４は、利用者が希望する顔認識の対象となる人間の年齢の年代と性別の情報を利用情報４２４として電話４１４により受信する。参照モデル選択部４０５は、利用情報受信部４０４が受信した利用情報４２４に基づいて、参照モデル記憶部４０３が記憶している参照モデル４２１の中から、利用情報４２４が示す年代と性別の話者に対応する参照モデル４２３を選択する。
【０２３９】
標準モデル作成部４０６は、参照モデル選択部４０５が選択した話者の顔画像の参照モデル４２３に対する確率又は尤度を最大化又は極大化するように標準モデル４２２を作成する処理部であり、第２の実施の形態における標準モデル作成部２０６と同一の機能を有するとともに、第１の実施の形態における第１近似部１０４ｅと第３の実施の形態における第２近似部３０６ｅの機能を有する。つまり、第１〜第３の実施の形態で示された３種類の近似計算を組み合わせた計算を行う。
【０２４０】
書き込み部４１３は、標準モデル作成部４０６が作成した標準モデル４２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む。
【０２４１】
次に、以上のように構成されたサーバ４０１の動作について説明する。
図２０は、サーバ４０１の動作手順を示すフローチャートである。図２１は、サーバ４０１の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【０２４２】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図２０のステップＳ４００）。つまり、カメラ４１１によりＡさんからＺさんの顔画像データを収集して画像データ蓄積部４１２に蓄積する。参照モデル準備部４０２は、画像データ蓄積部４１２が蓄積した顔画像データを用いて、話者ごとの参照モデル４２１をＥＭアルゴリズムにより作成する。ここでは参照モデル４２１はＧＭＭで構成される。
【０２４３】
参照モデル記憶部４０３は、参照モデル準備部４０２が作成した参照モデル４２１を記憶する。ここでは、図２１の参照モデル４２１に示されるように、ＡさんからＺさんの全ての参照モデルが、混合分布数が５個のＧＭＭにより構成される。特徴量として１００次元（Ｊ＝１００）の画素の濃度値を用いる。
【０２４４】
次に、利用情報受信部４０４は、利用情報４２４である年代と性別の情報を電話４１４により受信する（図２０のステップＳ４０１）。ここでは、利用情報４２４として、１１歳から１５歳の男性と２２歳から２６歳の女性である。参照モデル選択部４０５は、その利用情報４２４に基づいて、参照モデル記憶部４０３が記憶している参照モデル４２１から、利用情報４２４に対応する参照モデル４２３を選択する（図２０のステップＳ４０２）。具体的には、図２１の「選択された参照モデル４２３」に示されるように、ここでは、１１歳から１５歳の男性及び２２歳から２６歳の女性の参照モデルを選択する。
【０２４５】
そして、標準モデル作成部４０６は、参照モデル選択部４０５が選択した話者の参照モデル４２３に対する確率又は尤度を最大化又は極大化するように標準モデル４２２を作成する（図２０のステップＳ４０３）。ここでは、図２１の標準モデル４２２に示されるように、２つの標準モデル４２２それぞれを、混合分布数が３個のＧＭＭにより構成する。
【０２４６】
標準モデル４２２の作成方法は、基本的には、第２の実施の形態と同様に行われる。ただし、標準モデル４２２の統計量の推定における近似計算については、具体体には、以下のようにして行われる。つまり、標準モデル作成部４０６は、内蔵の記憶部等を介することで、第１の実施の形態における第１近似部１０４ｅによる近似計算と同様の近似計算よって作成したモデルを初期値として、第２の実施の形態における一般近似部２０６ｅによる近似計算と同様の近似計算による計算を行い、その結果を初期値として第３の実施の形態における第２近似部３０６ｅによる近似計算と同様の近似計算を行う。
【０２４７】
書き込み部４１３は、標準モデル作成部４０６が作成した２つの標準モデル４２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む（図２０のステップＳ４０４）。
【０２４８】
利用者は、１１歳から１５歳の男性の標準モデルと２２歳から２６歳の女性の標準モデルが書き込まれたストレージデバイスを郵送で受け取る。
【０２４９】
次に、本実施の形態を、行動予測に基づいてお店などを紹介する情報提供システムに適用した具体例を説明する。この情報提供システムは、通信ネットワークで接続されたカーナビゲーション装置と情報提供サーバ装置から構成される。カーナビゲーション装置は、本実施の形態における標準モデル作成装置４０１によって予め作成された標準モデルを行動予測モデルとして利用することで、人の行動（つまり、車による行先等）を予測し、その行動に関連した情報（行先の近くに位置するレストランなどのお店の情報など）を提供する機能を備える。
【０２５０】
まず、利用者は、カーナビゲーション装置を用いて、電話回線４１４で接続されたサーバ４０１に対して、自分用の行動予測モデルの作成を依頼する。
【０２５１】
具体的には、利用者は、カーナビゲーション装置が表示する項目選択画面で、「らくらく推薦機能」のボタンを押す。すると、利用者の住所（利用場所）、年齢、性別、趣味などを入力する画面になる。
【０２５２】
ここでは、利用者はお父さんとお母さんとする。まず、お父さんの個人情報をカーナビゲーション装置の画面と対話しながら入力する。住所については、電話番号を入力することにより自動的に変換される。あるいは、カーナビゲーション装置において現在位置が表示されているときに「利用場所」のボタンを押すことで、その現在位置が利用場所として入力される。ここでは住所の情報を住所Ａとする。年齢と性別については、「５０代」、「男」を選択して入力する。趣味については、予め表示されたチェック項目があるので、利用者は、該当箇所をチェックする。ここではお父さんの趣味の情報を趣味情報Ａとする。
【０２５３】
続いて、お母さんの個人情報についても同様に入力する。住所Ｂ、４０代、女、趣味情報Ｂからなる個人情報が作成される。このような入力の結果は、図２２の画面表示例に示されるとおりである。
【０２５４】
最後に、カーナビゲーション装置は、このようにして作成された個人情報を利用情報として、付属の電話回線４１４を用いて、情報提供サーバ装置であるサーバ４０１に転送する。
【０２５５】
次に、サーバ４０１は、転送されてきた個人情報（利用情報）に基づいて、お父さんとお母さんの２個の行動予測モデルを作成する。ここで、行動予測モデルは、確率モデルで表現され、その入力は、曜日、時刻、現在地などで、出力は、お店Ａの情報を提示する確率、お店Ｂの情報を提示する確率、お店Ｃの情報を提示する確率、駐車場の情報を提示する確率などである。
【０２５６】
サーバ４０１の参照モデル記憶部４０３に記憶されている複数の参照モデルは、年代、性別、代表的な住所と趣味の傾向で作成した行動予測モデルである。サーバ４０１では、予め、カメラ４１１に代えて、カーナビゲーション装置の入力ボタン等を用いて各種個人情報（上記入力及び出力についての情報）を入力することで、画像データ蓄積部４１２に各種個人情報を蓄積したうえで、参照モデル準備部４０２によって、画像データ蓄積部４１２に蓄積された個人情報から、複数種類の典型的な利用者ごとの参照モデル４２１が作成され、参照モデル記憶部４０３に格納されている。
【０２５７】
参照モデル選択部４０５は、個人情報（利用情報）を用いて、個人情報にふさわしい参照モデルを選択する。例えば、同じ町の、年代と性別が同じで、趣味のチェック項目が８割以上一致した参照モデルを選択する。サーバ４０１の標準モデル作成部４０６は、選択された参照モデルを統合した標準モデルを作成する。作成された標準モデルは書き込み部４１３により、メモリカードに記憶される。ここでは、お父さんとお母さんの２人の標準モデルが記憶される。メモリカードは、郵送で利用者に届けられる。
【０２５８】
利用者は、受け取ったメモリカードをカーナビゲーション装置に挿入し、画面に表示された「お父さん」と「お母さん」を選択することで、利用者を設定する。これによって、カーナビゲーション装置は、装着されたメモリカードに記憶された標準モデルを行動予測モデルとして使用することで、現在の曜日、時刻、場所などから、必要なタイミングでお店の情報などを提示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを行動予測モデルとして用いることで、人の行動（つまり、車による行先）を予測し、その行動に関連した情報を提供する情報提供システムが実現される。
【０２５９】
以上説明したように、本発明の第４の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい高精度な標準モデルが提供される。
【０２６０】
なお、標準モデル４２２を構成するＧＭＭは、話者ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０２６１】
また、参照モデル準備部４０２は、必要に応じて新たな参照モデルを作成して参照モデル記憶部４０３に追加・更新してもよいし、参照モデル記憶部４０３に格納されている不要な参照モデルを削除してもよい。
【０２６２】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。
（第５の実施の形態）
図２３は、本発明の第５の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ５０１に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（適応モデル）を作成する場合を例にして説明する。
【０２６３】
サーバ５０１は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部５１１と、音声データ蓄積部５１２と、参照モデル準備部５０２と、参照モデル記憶部５０３と、利用情報受信部５０４と、参照モデル選択部５０５と、標準モデル作成部５０６と、仕様情報受信部５０７と、書き込み部５１３とを備える。
【０２６４】
読み込み部５１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた子供、成人、高齢者の音声データを読み込み、音声データ蓄積部５１２に蓄積する。参照モデル準備部５０２は、音声データ蓄積部５１２が蓄積した音声データを用いて話者ごとに参照モデル５２１を作成する。参照モデル記憶部５０３は、参照モデル準備部５０２が作成した参照モデル５２１を記憶する。
【０２６５】
仕様情報受信部５０７は、仕様情報５２５を受信する。利用情報受信部５０４は、利用情報５２４である利用者の音声を受信する。参照モデル選択部５０５は、利用情報５２４である利用者の音声に音響的に近い話者の参照モデルを、参照モデル記憶部５０３が記憶している参照モデル５２１から選択する。
【０２６６】
標準モデル作成部５０６は、仕様情報５２５に基づいて、参照モデル選択部５０５が選択した話者の参照モデル５２３に対する確率又は尤度を最大化又は極大化するように標準モデル５２２を作成する処理部であり、第１の実施の形態における標準モデル作成部１０４と同一の機能を有する。書き込み部５１３は、標準モデル作成部５０６が作成した標準モデル５２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む。
【０２６７】
次に、以上のように構成されたサーバ５０１の動作について説明する。
図２４は、サーバ５０１の動作手順を示すフローチャートである。図２５は、サーバ５０１の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【０２６８】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図２４のステップＳ５００）。つまり、読み込み部５１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた音声データを読み込み、音声データ蓄積部５１２に蓄積する。参照モデル準備部５０２は、音声データ蓄積部５１２が蓄積した音声データを用いて話者ごとに参照モデル５２１をバウム・ウェルチの再推定の方法により作成する。参照モデル記憶部５０３は、参照モデル準備部５０２が作成した参照モデル５２１を記憶する。
【０２６９】
参照モデル５２１は、音素ごとのＨＭＭにより構成される。ここでは、図２５の参照モデル５２１に示されるように、子供の各話者の参照モデルは、状態数３個、各状態は混合分布数が３個の混合ガウス分布によりＨＭＭの出力分布が構成され、成人の各話者の参照モデルが、状態数３個、各状態は混合分布数が６４個の混合ガウス分布によりＨＭＭの出力分布が構成され、高齢者の各話者の参照モデルは、状態数３個、各状態は混合分布数が１６個の混合ガウス分布によりＨＭＭの出力分布が構成される。これは、子供の音声データが比較的少なく、成人の音声データが多いためである。特徴量として２５次元（Ｊ＝２５）のメルケプストラム係数が用いられる。
【０２７０】
次に、利用情報受信部５０４は、利用者の音声を、端末装置５１４から、利用情報５２４として受信する（図２４のステップＳ５０１）。参照モデル選択部５０５は、利用情報５２４である利用者の音声に音響的に近い参照モデル５２３を、参照モデル記憶部５０３が記憶している参照モデル５２１から選択する（図２４のステップＳ５０２）。具体的には、図２５の「選択された参照モデル５２３」に示されるように、ここでは、近い話者１０人（Ｎg＝１０）の参照モデルが選択される
そして、仕様情報受信部５０７は、利用者の要求に基づき仕様情報５２５を端末装置５１４から受信する（図２４のステップＳ５０３）。ここでは、速い認識処理という仕様情報５２５を受信する。標準モデル作成部５０６は、仕様情報受信部５０７が受信した仕様情報５２５に基づいて、参照モデル選択部５０５が選択した話者の参照モデル５２３に対する確率又は尤度を最大化又は極大化するように標準モデル５２２を作成する（図２４のステップＳ５０４）。具体的には、標準モデル５２２は、図２５の標準モデル５２２に示されるように、仕様情報５２５である速い認識処理という情報に基づいて、２混合（Ｍf＝２）で、３状態のＨＭＭより構成する。ＨＭＭは音素ごとに構成する。
【０２７１】
標準モデル５２２の作成方法は、第１の実施の形態と同様に行われる。
書き込み部５１３は、標準モデル作成部５０６が作成した標準モデル５２２をＣＤ−ＲＯＭなどのストレージデバイスに書き込む（図２４のステップＳ５０５）。
【０２７２】
次に、本実施の形態を、通信ネットワークを用いた音声認識によるゲームに適用した具体例を説明する。ここでは、サーバ５０１は、作成した標準モデルを用いて音声認識を行う音声認識部を備えるものとする。また、端末装置５１４として、ＰＤＡとする。これらは、通信ネットワークで接続されている。
【０２７３】
サーバ５０１では、読み込み部５１１、音声データ蓄積部５１２及び参照モデル準備部５０２により、音声データをＣＤやＤＶＤなどで入手したタイミングで参照モデルを逐次準備している。
【０２７４】
利用者は、ＰＤＡ（端末装置５１４）において、音声認識を利用したゲームプログラム、ここでは、「アクションゲーム」を立ち上げる。すると、「『アクション』と発声してください」と表示されるので、利用者は、「アクション」と発声する。その音声は、利用情報として、ＰＤＡ（端末装置５１４）からサーバ５０１に送信され、サーバ５０１の利用情報受信部５０４及び参照モデル選択部５０５により、参照モデル記憶部５０３に記憶された複数の参照モデルの中から利用者に合った参照モデルを選択する。
【０２７５】
また、利用者は、速くリアクションしてほしいので、ＰＤＡ（端末装置５１４）の設定画面において「高速に認識する」と設定する。その設定内容は、仕様情報として、ＰＤＡ（端末装置５１４）からサーバ５０１に送信され、サーバ５０１においては、このような仕様情報及び選択された参照モデルに基づいて、標準モデル作成部５０６により、２混合の標準モデルが作成される。
【０２７６】
利用者は、アクションゲームにおいて、ＰＤＡのマイクに「右に移動」、「左に移動」などのコマンドを発声する。入力された音声は、サーバへ送信され、既に作成された標準モデルを利用した音声認識が行われる。その認識結果は、サーバ５０１からＰＤＡ（端末装置５１４）に送信され、ＰＤＡ（端末装置５１４）において、送信されてきた認識結果に基づいて、アクションゲームのキャラクタが動く。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声によるアクションゲームが実現される。
【０２７７】
また、同様にして、本実施の形態を別のアプリケーション、例えば、通信ネットワークを用いた翻訳システムに適用することもできる。たとえば、利用者は、ＰＤＡ（端末装置５１４）において、「音声翻訳」というアプリケーションプログラムを立ち上げる。すると、「『翻訳』と発声してください」と表示される。利用者は、「翻訳」と発声する。その音声は、利用情報として、ＰＤＡ（端末装置５１４）からサーバ５０１に送信される。また、利用者は、正確に認識してほしいので、そのアプリケーションにおいて、「正確に認識してほしい」旨を指示する。その指示は、仕様情報として、ＰＤＡ（端末装置５１４）からサーバ５０１に送信される。サーバ５０１では、送信されてきた利用情報及び仕様情報に従って、たとえば、１００混合の標準モデルが作成される。
【０２７８】
利用者は、ＰＤＡ（端末装置５１４）のマイクに向かって「おはようございます」と発声する。入力された音声はＰＤＡ（端末装置５１４）からサーバ５０１に送信され、サーバ５０１で「おはようございます」と認識された後に、その認識結果がＰＤＡ（端末装置５１４）に返信される。ＰＤＡ（端末装置５１４）は、サーバ５０１から受信した認識結果を英語に翻訳し、その結果「ＧＯＯＤＭＯＲＮＩＮＧ」を画面に表示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声による翻訳装置が実現される。
【０２７９】
以上説明したように、本発明の第５の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【０２８０】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【０２８１】
また、参照モデル準備部５０２において、参照モデルごとにデータ数に適した混合分布数の精度の高い参照モデルを準備でき、精度の高い参照モデルを用いて標準モデルを作成できる。このため精度の高い標準モデルの利用が可能となる。
【０２８２】
なお、標準モデル５２２は、音素ごとにＨＭＭを構成するに限らず、文脈依存のＨＭＭで構成してもよい。
【０２８３】
また、標準モデル５２２を構成するＨＭＭは、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０２８４】
また、標準モデル５２２を用いて、サーバ５０１において音声認識を行ってもよい。
また、参照モデル準備部５０２は、必要に応じて新たな参照モデルを作成して参照モデル記憶部５０３に追加・更新してもよいし、参照モデル記憶部５０３に格納されている不要な参照モデルを削除してもよい。
【０２８５】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。
（第６の実施の形態）
図２６は、本発明の第６の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ６０１に組み込まれた例が示されている。本実施の形態では意図理解のための標準モデル（嗜好モデル）を作成する場合を例にして説明する。
【０２８６】
サーバ６０１は、通信システムにおけるコンピュータ装置等であり、事象の出力確率によって定義される意図理解用の標準モデルを作成する標準モデル作成装置として、読み込み部６１１と、参照モデル準備部６０２と、参照モデル記憶部６０３と、利用情報受信部６０４と、参照モデル選択部６０５と、標準モデル作成部６０６と、仕様情報作成部６０７とを備える。
【０２８７】
読み込み部６１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた年齢別の話者Ａさんから話者Ｚさんの嗜好モデルを読み込み、参照モデル準備部６０２は、読み込まれた参照モデル６２１を参照モデル記憶部６０３へ送信し、参照モデル記憶部６０３は、参照モデル６２１を記憶する。
【０２８８】
仕様情報作成部６０７は、普及しているコンピュータのＣＰＵパワーに合わせて仕様情報６２５を作成する。利用情報受信部６０４は、端末装置６１４から利用情報６２４を受信する。参照モデル選択部６０５は、利用情報受信部６０４が受信した利用情報６２４に基づいて、参照モデル記憶部６０３が記憶している参照モデル６２１からの中から、利用情報６２４に対応した参照モデル６２３を選択する。
【０２８９】
標準モデル作成部６０６は、仕様情報作成部６０７が作成した仕様情報６２５に基づいて、参照モデル選択部６０５が選択した参照モデル６２３に対する確率又は尤度を最大化又は極大化するように標準モデル６２２を作成する処理部であり、第２の実施の形態における標準モデル作成部２０６と同一の機能を有するとともに、第３の実施の形態における第２近似部３０６ｅの機能を有する。つまり、第２及び第３の実施の形態で示された２種類の近似計算を組み合わせた計算を行う。
【０２９０】
次に、以上のように構成されたサーバ６０１の動作について説明する。
図２７は、サーバ６０１の動作手順を示すフローチャートである。図２８は、サーバ６０１の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【０２９１】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図２７のステップＳ６００）。つまり、読み込み部６１１は、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた年齢別の話者Ａさんから話者Ｚさんの嗜好モデルを読み込み、参照モデル準備部６０２は、読み込まれた参照モデル６２１を参照モデル記憶部６０３へ送信し、参照モデル記憶部６０３は、参照モデル６２１を記憶する。
【０２９２】
参照モデル６２１は、ＧＭＭより構成される。ここでは、図２８の参照モデル６２１に示されるように、混合分布数が３個のＧＭＭにより構成される。学習データとして、趣味、性格などを数値化した５次元（Ｊ＝５）の特徴量を用いる。参照モデルの準備は、標準モデルの作成が要求される以前に行う。
【０２９３】
次に、利用情報受信部６０４は、嗜好モデルを作成したい年齢層である利用情報６２４を受信する（図２７のステップＳ６０１）。ここでは、２０代、３０代、４０代の年代別の嗜好モデルを利用するという利用情報６２４である。参照モデル選択部６０５は、図２８の「選択された参照モデル６２３」に示されるように、利用情報受信部６０４が受信した利用情報６２４が示す年代の話者の嗜好モデルを、参照モデル記憶部６０３が記憶している参照モデル６２１から選択する（図２７のステップＳ６０２）。
【０２９４】
そして、仕様情報作成部６０７は、普及しているコンピュータのＣＰＵパワー、記憶容量などに基づき仕様情報６２５を作成する（図２７のステップＳ６０３）。ここでは、通常速度の認識処理という仕様情報６２５を作成する。
【０２９５】
標準モデル作成部６０６は、仕様情報作成部６０７が作成した仕様情報６２５に基づいて、参照モデル選択部６０５が選択した話者の参照モデル６２３に対する確率又は尤度を最大化又は極大化するように標準モデル６２２を作成する（図２７のステップＳ６０４）。ここでは、標準モデル６２２は、図２８の標準モデル６２２に示されるように、仕様情報６２５である通常速度の認識処理という情報に基づいて３混合（Ｍf＝３）のＧＭＭより構成する。
【０２９６】
標準モデル６２２の作成方法は、基本的には、第２の実施の形態と同様に行われる。ただし、標準モデル６２２の統計量の推定における近似計算については、具体体には、以下のようにして行われる。つまり、標準モデル作成部６０６は、内蔵の記憶部等を介することで、第２の実施の形態における一般近似部２０６ｅによる近似計算と同様の近似計算による計算を行い、その結果を初期値として第３の実施の形態における第２近似部３０６ｅによる近似計算と同様の近似計算を行う。
【０２９７】
次に、本実施の形態を情報検索装置に適用した具体例を説明する。ここでは、参照モデルは、入力が検索キーワードであり、出力が検索ルールＡ、検索ルールＢなどを利用する確率である。異なる検索ルールを用いると、表示される検索結果が異なってくる。また、サーバ６０１の参照モデル記憶部６０３に準備される参照モデルは、代表的な特徴をもつ話者のモデルとする。
【０２９８】
まず、利用者は、サーバ６０１に付属しているリモコン（端末装置６１４）を用いて利用情報を入力する。利用情報は、年齢、性格、性別、趣味などでである。また、「子供」、「俳優」、「高校生」などの所定のグループを識別する情報であってもよい。
【０２９９】
続いて、利用者は、選択画面で、「カーナビゲーション装置用」、「携帯電話用」、「パソコン用」、「テレビ用」などから１つの利用機器を選択する。サーバ６０１の仕様情報作成部６０７は、利用機器のＣＰＵパワー、記憶容量に基づいて仕様情報を作成する。ここでは、「テレビ用」が選択されたとし、ＣＰＵパワーと記憶容量が小さい旨の仕様情報６２５が作成され、その仕様情報６２５に基づいて、標準モデル作成部６０６によって、小さいＣＰＵパワーでも動作する３混合の標準モデルが作成される。作成された標準モデルはメモリカードに書き込まれ、そのメモリカードは利用者によってテレビに挿入される。
【０３００】
利用者は、テレビに表示されたＥＰＧなどで、おすすめ番組を検索するために検索キーワードを入力する。すると、テレビは、メモリカードに記録された標準モデルを用いて、検索キーワードに合った検索ルールを決定し、その検索ルールに沿って番組を検索し、利用者の嗜好にあった番組として表示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた便利な検索装置が実現される。
【０３０１】
以上説明したように、本発明の第６の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【０３０２】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【０３０３】
なお、標準モデル６２２を構成するＧＭＭは、話者ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０３０４】
また、参照モデル準備部６０２は、必要に応じてＣＤ−ＲＯＭなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部６０３に追加・更新してもよいし、参照モデル記憶部６０３に格納されている不要な参照モデルを削除してもよい。
【０３０５】
また、参照モデル及び標準モデルのＧＭＭはベイジアンネットの一部を表現するものでもよい。
【０３０６】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
（第７の実施の形態）
図２９は、本発明の第７の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ７０１に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（適応モデル）を作成する場合を例にして説明する。
【０３０７】
サーバ７０１は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部７１１と、参照モデル準備部７０２と、参照モデル記憶部７０３と、利用情報受信部７０４と、参照モデル選択部７０５と、標準モデル作成部７０６と、仕様情報受信部７０７と、標準モデル記憶部７０８と、標準モデル送信部７０９とを備える。
【０３０８】
参照モデル準備部７０２は、読み込み部７１１が読み込んだ、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部７０３へ送信し、参照モデル記憶部７０３は、送信された参照モデル７２１を記憶する。
【０３０９】
仕様情報受信部７０７は、端末装置７１２から仕様情報７２５を受信する。利用情報受信部７０４は、端末装置７１２から利用情報７２４である雑音下で発声した利用者の音声を受信する。参照モデル選択部７０５は、利用情報７２４である利用者の音声に音響的に近い話者・雑音・声調子の参照モデル７２３を、参照モデル記憶部７０３が記憶している参照モデル７２１の中から選択する。
【０３１０】
標準モデル作成部７０６は、仕様情報受信部７０７が受信した仕様情報７２５に基づいて、参照モデル選択部７０５が選択した参照モデル７２３に対する確率又は尤度を最大化又は極大化するように標準モデル７２２を作成する処理部であり、第２の実施の形態における標準モデル作成部２０６と同一の機能を有する。標準モデル記憶部７０８は、仕様情報７２５に基づいた１もしくは複数の標準モデルを記憶する。標準モデル送信部７０９は、利用者の端末装置７１２から仕様情報と標準モデルの要求信号を受信すると、その仕様情報に適した標準モデルを端末装置７１２へ送信する。
【０３１１】
次に、以上のように構成されたサーバ７０１の動作について説明する。
図３０は、サーバ７０１の動作手順を示すフローチャートである。図３１は、サーバ７０１の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【０３１２】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図３０のステップＳ７００）。つまり、参照モデル準備部７０２は、読み込み部７１１が読み込んだ、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部７０３へ送信し、参照モデル記憶部７０３は、送信された参照モデル７２１を記憶する。ここでは、参照モデル７２１は、話者・雑音・声の調子ごとに、音素ごとのＨＭＭにより構成される。また、各参照モデルは、図３１の参照モデル７２１に示されるように、状態数３個、各状態は混合分布数が１２８個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として２５次元（Ｊ＝２５）のメルケプストラム係数が用いられる。
【０３１３】
次に、利用情報受信部７０４は、利用者Ａの雑音下での音声を端末装置７１２から利用情報７２４として受信する（図３０のステップＳ７０１）。参照モデル選択部７０５は、利用情報７２４である利用者Ａの音声に音響的に近い参照モデル７２３を、参照モデル記憶部７０３が記憶している参照モデル７２１の中から選択する（図３０のステップＳ７０２）。具体的には、図３１の「選択された参照モデル７２３」に示されるように、ここでは、近い話者１００人（Ｎg＝１００）の参照モデルが選択される
そして、仕様情報受信部７０７は、利用者Ａの要求に基づき仕様情報７２５を端末装置７１２から受信する（図３０のステップＳ７０３）。ここでは、高い認識精度という仕様情報７２５を受信する。標準モデル作成部７０６は、仕様情報７２５に基づいて、参照モデル選択部７０５が選択した参照モデル７２３に対する確率又は尤度を最大化又は極大化するように標準モデル７２２を作成する（図３０のステップＳ７０４）。具体的には、標準モデル７２２は、図３１の標準モデル７２２に示されるように、仕様情報７２５である高い認識精度という情報に基づいて、６４混合（Ｍf＝６４）で、３状態のＨＭＭより構成する。ＨＭＭは音素ごとに構成する。
【０３１４】
標準モデル７２２の作成方法は、第２の実施の形態と同様に行われる。
標準モデル記憶部７０８は、仕様情報７２５に基づいた１もしくは複数の標準モデル７２２を記憶する。ここでは、以前に作成した標準モデルである利用者Ｂの１６混合のＨＭＭがすでに記憶されており、新たに利用者Ａの６４混合のＨＭＭが記憶される。
【０３１５】
利用者Ａは、端末装置７１２からサーバ７０１の標準モデル送信部７０９へ、仕様情報である利用者Ａと雑音の種類と標準モデルの要求信号とを送信する（図３０のステップＳ７０６）。標準モデル送信部７０９は、利用者Ａが送信した仕様情報と標準モデルの要求信号とを受信すると、その端末装置７１２へ、仕様に適した標準モデルを端末装置７１２へ送信する（図３０のステップＳ７０７）。ここでは、先ほど作成した利用者Ａの標準モデル７２２を端末装置７１２へ送信する。
【０３１６】
利用者Ａは端末装置７１２において受信した標準モデル７２２を用いて音声認識を行う（図３０のステップＳ７０８）。
【０３１７】
次に、本実施の形態を、通信ネットワークで接続されたカーナビゲーション装置（端末装置７１２）とサーバ装置（サーバ７０１；標準モデル作成装置）から構成される音声認識システムに適用した具体例を説明する。
【０３１８】
まず、利用者は、カーナビゲーション装置（端末装置７１２）の画面にて「自分の音声モデルを獲得」する旨のボタンを選択する。すると、「名前を入力」と表示されるので、ボタン操作により自分の名前を入力する。次に、「『音声』と発声してください」と表示されるので、利用者は、カーナビゲーション装置付属のマイクに向かって「音声」と発声する。これらの情報（利用者の名前、雑音下での音声）は、利用情報として、カーナビゲーション装置（端末装置７１２）からサーバ７０１に送信される。
【０３１９】
同様にして、利用者は、カーナビゲーション装置（端末装置７１２）の画面にて「高精度の音声認識」のボタンを選択する。すると、その選択情報は、仕様情報として、カーナビゲーション装置（端末装置７１２）からサーバ７０１に送信される。
【０３２０】
サーバ７０１は、それらの利用情報及び仕様情報に基づいて、利用者にふさわしい音声認識用の標準モデルを作成し、作成した標準モデルを利用者の名前と対応づけて標準モデル記憶部７０８に格納しておく。
【０３２１】
次回にカーナビゲーション装置（端末装置７１２）を起動すると、「名前を入力」と表示されるので、利用者は、名前を入力する。すると、その名前がサーバ７０１に送信され、標準モデル７２２に格納された対応する標準モデルが標準モデル送信部７０９によってサーバ７０１から端末装置７１２に送信される。名前（利用者）に対応した標準モデルをサーバ７０１からダウンロードした端末装置７１２は、その標準モデルを用いて、利用者に対する音声認識を行い、音声による目的地設定などを行う。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声によってカーナビゲーション装置を操作することが可能となる。
【０３２２】
以上説明したように、本発明の第７の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【０３２３】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【０３２４】
また、標準モデル記憶部７０８は、複数の標準モデルを記憶することができるため、必要に応じてすぐに標準モデルが提供される。
【０３２５】
また、標準モデル送信部７０９により、標準モデルが端末装置７１２へ送信されるので、端末装置７１２とサーバ７０１が空間的に離れた場所に設置してある場合に、端末装置７１２は、容易にサーバ７０１が作成した標準モデルを利用することできる。
【０３２６】
なお、標準モデル７２２は、音素ごとにＨＭＭを構成するに限らず、文脈依存のＨＭＭで構成してもよい。
【０３２７】
また、標準モデル７２２を構成するＨＭＭは、状態ごとに異なる混合数の混合ガウス分布により構成してもよい。
【０３２８】
また、標準モデル７２２を用いて、サーバ７０１において音声認識を行い、認識結果を端末装置７１２へ送信してもよい。
【０３２９】
また、参照モデル準備部７０２は、必要に応じて新たな参照モデルを作成して参照モデル記憶部７０３に追加・更新してもよいし、参照モデル記憶部７０３に格納されている不要な参照モデルを削除してもよい。
【０３３０】
また、参照モデル準備部７０２は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部７０３に追加・更新してもよい。
【０３３１】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
（第８の実施の形態）
図３２は、本発明の第８の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置が携帯電話９０１に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【０３３２】
携帯電話９０１は、携帯情報端末であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、参照モデル受信部９０９と、参照モデル準備部９０２と、参照モデル記憶部９０３と、利用情報作成部９０４と、参照モデル選択部９０５と、類似度情報作成部９０８と、標準モデル作成部９０６と、仕様情報作成部９０７と、マイク９１２と、音声認識部９１３とを備える。
【０３３３】
利用情報作成部９０４は、利用情報９２４を携帯電話９０１の画面とキーを利用して作成する。
【０３３４】
仕様情報作成部９０７は、携帯電話９０１の仕様に基づき仕様情報９２５を作成する。ここで、仕様情報とは、作成する標準モデルの仕様に関する情報であり、ここでは、携帯電話９０１が備えるＣＰＵの処理能力に関する情報である。
【０３３５】
類似度情報作成部９０８は、利用情報９２４と仕様情報９２５と参照モデル記憶部９０３が記憶した参照モデル９２１に基づいて、類似度情報９２６を作成して参照モデル準備部に送信する。
【０３３６】
参照モデル準備部９０２は、類似度情報９２６に基づいて、参照モデルを準備するか否かを決定する。参照モデル準備部９０２は、参照モデルを準備すると決定した場合に、利用情報９２４と仕様情報９２５を参照モデル受信部９０９に送信する。
【０３３７】
参照モデル受信部９０９は、利用情報９２４と仕様情報９２５に対応した参照モデルを、サーバ装置９１０から受信して参照モデル準備部９０２に送信する。
【０３３８】
参照モデル準備部９０２は、参照モデル受信部９０９が送信した参照モデルを参照モデル記憶部９０３に記憶する。
【０３３９】
参照モデル選択部９０５は、利用情報９２４に対応した参照モデル９２３を、参照モデル記憶部９０３が記憶している参照モデル９２１の中から選択する。
【０３４０】
標準モデル作成部９０６は、仕様情報作成部９０７で作成された仕様情報９２５に基づいて、参照モデル選択部９０５が選択した参照モデル９２３に対する確率又は尤度を最大化又は極大化するように標準モデル９２２を作成する処理部であり、標準モデルの構造（ガウス分布の混合分布数など）を決定する標準モデル構造決定部９０６ａと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部９０６ｂと、決定された初期標準モデルを記憶する統計量記憶部９０６ｃと、統計量記憶部９０６ｃに記憶された初期標準モデルに対して、第３近似部９０６ｅによる近似計算等を用いることにより、参照モデル選択部９０５が選択した参照モデル９２３に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部９０６ｄとからなる。
【０３４１】
音声認識部９１３は、標準モデル作成部９０６で作成された標準モデル９２２を用いて、マイク９１２から入力された利用者の音声を認識する。
【０３４２】
次に、以上のように構成された携帯電話９０１の動作について説明する。
図３３は、携帯電話９０１の動作手順を示すフローチャートである。
【０３４３】
いま、参照モデル記憶部９０３には、あらかじめ参照モデル９２１として子供用モデルが記憶されているとする。その参照モデル９２１は、音素ごとのＨＭＭにより構成される。参照モデル９２１の一例を図３４に示す。ここでは、子供用参照モデルのイメージ図が示されている。これらの参照モデルは、状態数３個、各状態は分布数が１６個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として、１２次元のメルケプストラム係数、１２次元のデルタメルケプストラム係数、デルタパワーの合計２５次元（Ｊ＝２５）の特徴量が用いられる。
【０３４４】
まず、利用情報作成部９０４は、利用者の属するカテゴリである利用情報９２４を作成する（ステップＳ９００）。図３６は、利用情報９２４の作成例を示す図である。図３６（ａ）に携帯電話９０１の選択画面の一例を示す。ここでは、「４：成人」のボタンを押すことにより、この携帯電話９０１が成人女性と成人男性に利用されることが選択されている。別の一例を図３６（ｂ）に示す。ここでは、「メニュー」ボタンを押しながら音声を入力している。その利用者の音声は、特徴量に変換されることで、利用情報９２４である"利用者の音声データ"が作成される。
【０３４５】
一方、仕様情報作成部９０７は、携帯電話９０１の仕様に基づき、仕様情報９２５を作成する（ステップＳ９０１）。ここでは、携帯電話９０１のメモリ容量の大きさに基づいて「混合分布数１６」という仕様情報９２５を作成する。
【０３４６】
次に、類似度情報作成部９０８は、利用情報９２４と仕様情報９２５と参照モデル記憶部９０３が記憶した参照モデル９２１に基づいて、類似度情報９２６を作成して（ステップＳ９０２）、類似度情報９２６を参照モデル準備部９０２に送信する。ここでは、参照モデル記憶部９０３に存在する参照モデル９２１は、混合分布数３の子供用モデル（図３４を参照）のみであり、利用情報９２４である「成人」（図３６（ａ）に対応）と仕様情報９２５である「混合分布数１６」に対応する参照モデルが参照モデル記憶部９０３に存在しないため、「類似した参照モデルが存在しない」という類似度情報９２６を作成して、類似度情報９２６を参照モデル準備部９０２に送信する。別の一例では、利用情報９２４は"利用者の音声データ"（図３６（ｂ）に対応）であり、利用者の音声データを参照モデル記憶部９０３が記憶している子供用モデルに入力して類似度情報９２６を作成する。ここでは、子供用モデルに対する尤度が所定のしきい値以下であるため、「類似した参照モデルが存在しない」という類似度情報９２６を作成して参照モデル準備部９０２に送信する。
【０３４７】
続いて、参照モデル準備部９０２は、類似度情報９２６に基づいて、参照モデルを準備するか否かを決定する（ステップＳ９０３）。ここでは、「類似した参照モデルが存在しない」ため、図３７（ａ）の携帯電話９０１の画面表示例に示すように利用者に参照モデルの準備を促す。ここで、利用者が「メモ」ボタンを押して参照モデルの準備を要求した場合に、参照モデル準備部９０２は、参照モデルを準備すると決定して、利用情報９２４と仕様情報９２５を参照モデル受信部９０９に送信する。別の一例では、「類似した参照モデルが存在しない」ため、参照モデル準備部９０２は、自動的に参照モデルを準備すると決定して、利用情報９２４と仕様情報９２５を参照モデル受信部９０９に送信する。この場合の携帯電話９０１の画面の一例を図３７（ｂ）に示す。
【０３４８】
これに対して、参照モデル受信部９０９は、利用情報９２４と仕様情報９２５に対応した参照モデルをサーバ装置９１０から受信して参照モデル準備部９０２に送信する。ここでは、参照モデル受信部９０９は、利用情報９２４である「成人」（図３６（ａ）に対応）と仕様情報９２５である「混合分布数１６」に対応する参照モデルである、"混合分布数１６の成人女性用モデル"と"混合分布数１６の成人男性用モデル"の２個の参照モデルをサーバ装置９１０から受信する。
【０３４９】
そして、参照モデル準備部９０２は、参照モデル受信部９０９が送信した参照モデルを参照モデル記憶部９０３に記憶することによって参照モデルを準備する（ステップＳ９０４）。図３５にその参照モデルの一例を示す。ここでは、成人男性用、成人女性用、子供用の参照モデルのイメージ図が示されている。
【０３５０】
次に、参照モデル選択部９０５は、利用情報９２４である「成人」に対応した同じカテゴリに属する"混合分布数１６の成人女性用モデル"と"混合分布数１６の成人男性用モデル"の２個の参照モデルを参照モデル記憶部９０３が記憶している参照モデル９２１の中から選択する（ステップＳ９０５）。別の一例では、参照モデル選択部９０５は、利用情報９２４である"利用者の音声データ"と音響的に近い（尤度が大きい）"混合分布数１６の成人女性用モデル"と"混合分布数１６の成人男性用モデル"の２個の参照モデルを参照モデル記憶部９０３が記憶している参照モデル９２１の中から選択する。
【０３５１】
続いて、標準モデル作成部９０６は、作成された仕様情報９２５に基づいて、参照モデル選択部９０５が選択した参照モデル９２３に対する確率又は尤度を最大化又は極大化するように標準モデル９２２を作成する（ステップＳ９０６）。
【０３５２】
最後に、音声認識部９１３は、標準モデル作成部９０６によって作成された標準モデル９２２に従って、マイク９１２から入力された利用者の音声を認識する（ステップＳ９０７）。
【０３５３】
次に、図３３におけるステップＳ９０６（標準モデルの作成）の詳細な手順を説明する。手順の流れは、図４に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【０３５４】
まず、標準モデル構造決定部９０６ａは、標準モデルの構造を決定する（図４のステップＳ１０２）。ここでは、標準モデルの構造として、仕様情報９２５である「混合分布数１６」に基づいて、音素ごとのＨＭＭにより構成し、状態数を３とし、各状態における出力分布の混合分布数を１６個（Ｍf＝１６）と決定する。
【０３５５】
次に、初期標準モデル作成部９０６ｂは、標準モデルを計算するための統計量の初期値を決定する（図４のステップＳ１０２ｂ）。ここでは、選択された参照モデル９２３である"混合分布数１６の成人女性用モデル"を統計量の初期値として統計量記憶部９０６ｃに記憶する。別の一例では、選択された参照モデル９２３である"混合分布数１６の成人男性女モデル"を統計量の初期値として統計量記憶部９０６ｃに記憶する。具体的には、初期標準モデル作成部９０６ｂは、上記数１３に示される出力分布を生成する。
【０３５６】
そして、統計量推定部９０６ｄは、参照モデル選択部９０５が選択した２個の参照モデル９２３を用いて、統計量記憶部９０６ｃに記憶された標準モデルの統計量を推定する（図４のステップＳ１０２ｃ）。つまり、２個（Ｎg＝２）の参照モデル９２３における出力分布、即ち、上記数１９に示される出力分布に対する標準モデルの確率（ここでは、上記数２５に示される尤度logＰ）を極大化もしくは最大化するような標準モデルの統計量（上記数１６に示される混合重み係数、上記数１７に示される平均値、及び、上記数１８に示される分散値）を推定する。ただし、本実施の形態では、上記数１９に示された出力分布における数２１は、１６（各参照モデルの混合分布数）である。
【０３５７】
具体的には、上記数２６、数２７及び数２８に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【０３５８】
このとき、統計量推定部９０６ｄの第３近似部９０６ｅは、標準モデルの各ガウス分布はお互いに影響を与えないと仮定して、数５３の近似式を用いる。また、繰り返し回数Ｒが１回目の場合には、数５４に示される標準モデルのガウス分布の近傍の数５５とは、数５４が示す出力分布とのマハラノビス距離、カルバック・ライブラー（ＫＬ）距離などの分布間距離が最も近いものと２番目に近いものの２個（近傍指示パラメータＧ＝２）の数５６に示される参照モデル９２３のガウス分布が存在する空間であると近似する。一方、繰り返し回数Ｒが２回目以上の場合には、数５４に示される標準モデルのガウス分布の近傍の数５５とは、数５４が示す出力分布とのマハラノビス距離、カルバック・ライブラー（ＫＬ）距離などの分布間距離が最も近いもの１個（近傍指示パラメータＧ＝１）の数５６に示される参照モデル９２３のガウス分布が存在する空間であると近似する。
【０３５９】
以上の第３近似部９０６ｅによる近似式を考慮してまとめると、統計量推定部９０６ｄでの計算式は、次の通りになる。つまり、統計量推定部９０６ｄは、数５９、数６０及び数６１に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、それらのパラメータによって特定される標準モデルを最終的な標準モデル９２２として生成する。ただし、第３の実施の形態における第２の方法である、混合重み係数の値をゼロにして、平均値をゼロ、分散値を１にする方法を用いる。また、繰り返し回数に対応して近傍指示パラメータＧの値は異なる。なお、近傍指示パラメータＧの値に依存して、上記の方法を、第３の実施の形態における第１から第３の方法のいずれかに決定してもよい。
【０３６０】
統計量推定部９０６ｄは、このように推定した標準モデルの統計量を統計量記憶部９０６ｃに記憶する。そして、このような統計量の推定と統計量記憶部９０６ｃへの記憶をＲ（≧１）回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル９２２の統計量として出力する。
【０３６１】
図３８に、第３近似部９０６ｅを用いて作成した標準モデル９２２を用いた認識実験の結果を示す。縦軸に成人（男性と女性）の認識率（％）、横軸に繰り返し回数Ｒを示す。繰り返し回数Ｒ＝０とは、学習を行う前での初期標準モデル作成部９０６ｂが作成した初期モデルにより認識した結果である。また、繰り返し回数Ｒ＝１のときは、近傍指示パラメータＧ＝２とし、繰り返し回数Ｒ＝２〜５のときは、近傍指示パラメータＧ＝１とした。
【０３６２】
グラフ「データ」は、数日間かけて音声データより学習した場合の結果を表しており、グラフ「女性」、グラフ「男性」は、それぞれ、初期モデルを成人女性、成人男性としたときの結果を表している。参照モデルによる本発明による学習時間は数十秒のオーダーであった。実験結果より、短時間に高い精度の標準モデルが作成できていることがわかる。
【０３６３】
ここで、参考のために、図３９に、第３の実施の形態における第２近似部３０６ｅにより作成された標準モデルによる認識率を示す。本実施の形態における第３近似部９０６ｅと異なるのは、繰り返し回数Ｒによらず近傍指示パラメータＧ＝１であるということである。実験結果より、初期モデルとして成人女性を選択すると良好な結果が得られることがわかる。また、初期モデルとして成人男性を選択すると、精度が少し劣化していることがわかる。図３８の結果とあわせると、第３近似部９０６ｅによる標準モデルは初期モデルに依存せずに高い精度の標準モデルが作成できていることがわかる。
【０３６４】
以上説明したように、本発明の第８の実施の形態によれば、類似度情報に基づいて参照モデルを準備するため、利用情報及び仕様情報にふさわしい参照モデルを必要なタイミングで準備することができる。また、近傍指示パラメータＧを繰り返し回数Ｒによって変化させることで、初期モデルにかかわらず精度の高い標準モデルを提供することができる。
【０３６５】
なお、統計量推定部９０６ｄによる処理の繰り返し回数は、上記数２５に示された尤度の大きさがある一定のしきい値以上になるまでの回数としてもよい。
【０３６６】
また、標準モデル９２２は、音素ごとにＨＭＭを構成するに限らず、文脈依存のＨＭＭで構成してもよい。
【０３６７】
また、標準モデル作成部９０６は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【０３６８】
また、標準モデル９２２を構成するＨＭＭは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０３６９】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
（第９の実施の形態）
図４０は、本発明の第９の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）１００１に組み込まれた例が示されている。以下、本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【０３７０】
ＰＤＡ１００１は、携帯情報端末であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、参照モデル記憶部１００３と、標準モデル作成部１００６と、アプリ・仕様情報対応データベース１０１４と、マイク１０１２と、音声認識部１０１３とを備える。標準モデル作成部１００６は、標準モデル構造決定部１００６ａと、初期標準モデル作成部１００６ｂと、統計量記憶部３０６ｃと、統計量推定部３０６ｄとを備える。
【０３７１】
標準モデル作成部１００６は、送信されたアプリ起動情報１０２７（ここでは、起動したアプリケーションのＩＤ番号）に基づいて、アプリ・仕様情報対応データベース１０１４を用いて、仕様情報１０２５を取得する。図４１は、仕様情報対応データベース１０１４のデータ例を示す。仕様情報対応データベース１０１４には、アプリケーション（ＩＤ番号及び名前）に対応する仕様情報（ここでは、混合分布数）が登録されている。
【０３７２】
標準モデル作成部１００６は、取得した仕様情報１０２５に基づいて、参照モデル記憶部１００３が記憶した１個の参照モデル１０２１に対する確率又は尤度を最大化又は極大化するように標準モデル１０２２を作成する処理部であり、第３の実施の形態における第２近似部３０６ｅの機能を有する。
【０３７３】
音声認識部１０１３は、標準モデル作成部１００６で作成された標準モデル１０２２を用いて、マイク１０１２から入力された利用者の音声を認識する。
【０３７４】
次に、以上のように構成されたＰＤＡ１００１の動作について説明する。
図４２は、ＰＤＡ１００１の動作手順を示すフローチャートである。
【０３７５】
ここで、参照モデル記憶部１００３には、あらかじめ多くの混合分布数をもつ利用者用モデルが参照モデル１０２１として１個、記憶されているとする。参照モデル１０２１は、音素ごとのＨＭＭにより構成される。参照モデル１０２１の一例を図４３に示す。この参照モデルは、状態数３個、各状態は分布数が３００個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として、１２次元のメルケプストラム係数、１２次元のデルタメルケプストラム係数、デルタパワーの合計２５次元（Ｊ＝２５）の特徴量が用いられる。
【０３７６】
まず、利用者は、例えば「株取引」というアプリケーションを起動する（ステップＳ１０００）。
【０３７７】
これに対して、標準モデル作成部１００６は、アプリ起動情報として起動されたアプリケーションのＩＤ「３」を受信する（ステップＳ１００１）。そして、アプリ・仕様情報対応データベース１０１４を用いてＩＤ「３」に対応する仕様情報１０２５である「混合分布数１２６」に基づいて、標準モデル１０２２を作成する（ステップＳ１００２）。具体的には、標準モデル１０２２として、混合分布数１２６（Ｍf＝１２６）で、３状態の文脈依存型のＨＭＭにより構成する。
【０３７８】
次に、標準モデル作成部１００６は、仕様情報１０２５を受信して（ステップＳ１００１）、仕様情報１０２５に基づいて標準モデルを作成する（ステップＳ１００２）。
【０３７９】
最後に、音声認識部１０１３は、標準モデル作成部１００６によって作成された標準モデル１０２２に従って、マイク１０１２から入力された利用者の音声を認識する（ステップＳ１００３）。
【０３８０】
次に、図４２におけるステップＳ１００２（標準モデルの作成）の詳細な手順を説明する。手順の流れは、図４に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【０３８１】
まず、標準モデル構造決定部１００６ａは、アプリ起動情報１０２７としてアプリケーションＩＤ「３」を受信した後に、アプリ・仕様情報対応データベース１０１４を用いてＩＤ「３」に対応した仕様情報１０２５（「混合分布数１２６」）を参照することにより、標準モデルの構造を混合分布数１２６（Ｍf＝１２６）で、３状態の文脈依存型のＨＭＭと決定する（図４のステップＳ１０２ａ）。
【０３８２】
そして、初期標準モデル作成部１００６ｂは、標準モデル構造決定部１００６ａが決定した標準モデルの構造に基づいて、標準モデルを計算するための統計量の初期値を決定する（図４のステップＳ１０２ｂ）ここでは、k-means法とマハラノビス汎距離を用いた方法により、後述するクラスタリングを行ったものを統計量の初期値として統計量記憶部３０６ｃに記憶する。
【０３８３】
そして、統計量推定部３０６ｄは、参照モデル記憶部１００３に格納された参照モデル１０２１を用いて、統計量記憶部３０６ｃに記憶された標準モデルの統計量を推定する（図４のステップＳ１０２ｃ）。なお、この統計量推定部３０６ｄによる推定処理は、第３の実施の形態と同様である。
【０３８４】
次に、初期標準モデル作成部１００６ｂによる初期値の決定方法、つまり、k-means法とマハラノビス汎距離を用いた方法によるクラスタリングについて説明する。図４４にクラスタリングのフローチャートを示す。また、図４５〜図４８にクラスタリングのイメージ図を示す。
【０３８５】
まず、図４４のステップＳ１００４において、標準モデルの混合分布数である１２６個の代表点を準備する（図４５）。ここでは、参照モデルの３００個の出力分布の中から１２６個の出力分布を選択して、選択された分布の平均値を代表点とする。
【０３８６】
次に、図４４のステップＳ１００５において、各代表点にマハラノビス汎距離が近い参照モデルの出力ベクトルを決定する（図４６）。そして、図４４のステップＳ１００６において、ステップＳ１００５で決定した近い分布を１つのガウス分布で表現して平均値を新しい代表点とする（図４７）。
【０３８７】
続いて、図４４のステップＳ１００７において、クラスタリング操作を停止するかどうかを決定する。ここでは、各代表点と参照ベクトルの分布とのマハラノビス汎距離の変化率（１回前の代表点との距離との差分）がしきい値以下になった場合に停止とする。停止条件を満たさない場合、図４４のステップＳ１００５に戻り、近い分布を決定して同様の操作を繰り返す。
【０３８８】
一方、停止条件を満たす場合には、図４４のステップＳ１００８に進み、統計量の初期値を決定して統計量記憶部３０６ｃに記憶する。このようにして、クラスタリングによる初期値の決定が行われる。
【０３８９】
以上説明したように、本発明の第９の実施の形態によれば、アプリケーションに連動して自動的に仕様情報にふさわしい標準モデルを獲得することができる。
【０３９０】
なお、標準モデル１０２２は、音素ごとにＨＭＭを構成してもよい。
また、標準モデル作成部１００６は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【０３９１】
また、標準モデル１０２２を構成するＨＭＭは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【０３９２】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのＨＭＭの構造や、状態数などを決定してもよい。
（第１０の実施の形態）
図４９は、本発明の第１０の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ８０１に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（適応モデル）を作成する場合を例にして説明する。
【０３９３】
サーバ８０１は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部７１１と、参照モデル準備部７０２と、参照モデル記憶部７０３と、利用情報受信部７０４と、参照モデル選択部７０５と、標準モデル作成部７０６と、仕様情報受信部７０７と、標準モデル記憶部７０８と、標準モデル送信部７０９と、参照モデル受信部８１０とを備える。
【０３９４】
参照モデル準備部７０２は、読み込み部７１１が読み込んだ、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部７０３へ送信する。参照モデル記憶部７０３は、送信された参照モデル７２１を記憶する。また、参照モデル準備部７０２は、端末装置７１２からの送信に対して参照モデル受信部８１０が受信した音声認識用参照モデルを参照モデル記憶部７０３へ送信する。参照モデル記憶部７０３は、送信された参照モデル７２１を記憶する。
【０３９５】
仕様情報受信部７０７は、端末装置７１２から仕様情報７２５を受信する。利用情報受信部７０４は、端末装置７１２から利用情報７２４である雑音下で発声した利用者の音声を受信する。参照モデル選択部７０５は、利用情報受信部７０４が受信した利用情報７２４である利用者の音声に音響的に近い話者・雑音・声調子の参照モデル７２３を、参照モデル記憶部７０３が記憶している参照モデル７２１から選択する。
【０３９６】
標準モデル作成部７０６は、仕様情報７２５に基づいて、参照モデル選択部７０５が選択した参照モデル７２３に対する確率又は尤度を最大化又は極大化するように標準モデル７２２を作成する処理部であり、第２の実施の形態における標準モデル作成部２０６と同一の機能を有する。標準モデル記憶部７０８は、仕様情報７２５に基づいた１もしくは複数の標準モデルを記憶する。標準モデル送信部７０９は、利用者の端末装置７１２から、仕様情報７２５と標準モデルの要求信号とを受信すると、その端末装置７１２へ、仕様に適した標準モデルを送信する。
【０３９７】
次に、以上のように構成されたサーバ８０１の動作について説明する。
図５０は、サーバ８０１の動作手順を示すフローチャートである。なお、このサーバ８０１の動作手順を説明するための参照モデル及び標準モデルの一例は、第７に実施の形態における図３１と同様である。
【０３９８】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図５０のステップＳ８００、Ｓ８０１）。つまり、参照モデル準備部７０２は、読み込み部７１１が読み込んだ、ＣＤ−ＲＯＭなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部７０３へ送信し、参照モデル記憶部７０３は、送信された参照モデル７２１を記憶する（図５０のステップＳ８００）。ここでは、参照モデル７２１は、話者・雑音・声の調子ごとに、音素ごとのＨＭＭにより構成される。また、参照モデル準備部７０２は、端末装置７１２が送信して参照モデル受信部８１０が受信した、利用者と端末装置７１２に適した音声認識用参照モデルを参照モデル記憶部７０３へ送信し、参照モデル記憶部７０３は、送信された参照モデル７２１を記憶する（図５０のステップＳ８０１）。ここでは、各参照モデルは、図３１の参照モデル７２１に示されるように、状態数３個、各状態は混合分布数が１２８個の混合ガウス分布によりＨＭＭの出力分布が構成される。特徴量として２５次元（Ｊ＝２５）のメルケプストラム係数が用いられる。
【０３９９】
以下、これらの参照モデル７２１を用いた標準モデル７２２の作成及び端末装置７１２への送信（図５０のステップＳ８０２〜Ｓ８０９）は、第７の実施の形態における手順（図３０のステップＳ７０１〜Ｓ７０８）と同様である。
【０４００】
このようにして、端末装置７１２に記憶された自分用モデルをサーバにアップロードして標準モデル作成の材料にすることができるので、例えば、サーバ８０１において、アップロードされてきた参照モデルと既に保持している他の参照モデルとを統合して更に混合数の多い高精度の標準モデルを作成し、端末装置７１２にダウンロードして利用することが可能となる。したがって、端末装置７１２に簡易的な適応機能が付属され、簡易的に適応したモデルをアップロードして、さらに高精度な標準モデルを作成することもできる。
【０４０１】
図５１は、本実施の形態における標準モデル作成装置を具体的に適用したシステム例を示す図である。ここには、インターネットや無線通信等を介して通信し合うサーバ７０１と端末装置７１２（携帯電話機７１２ａ、カーナビゲーション装置７１２ｂ）とが示されている。
【０４０２】
たとえば、携帯電話機７１２ａは、利用者の音声を利用情報とし、携帯電話機での利用である旨（ＣＰＵの処理能力が低いこと）を仕様情報とし、予め記憶しているサンプルモデルを参照モデルとし、それら利用情報、仕様情報及び参照モデルをサーバ７０１に送信することで、標準モデルの作成を要求する。その要求に対してサーバ７０１で標準モデルが作成されると、携帯電話機７１２ａは、その標準モデルをダウンロードし、その標準モデルを用いて利用者の音声を認識する。例えば、利用者の音声が、内部に保持するアドレス帳の名前と一致した場合には、その名前に対応する電話番号に自動発呼する。
【０４０３】
また、カーナビゲーション装置７１２ｂは、利用者の音声を利用情報とし、カーナビゲーション装置での利用である旨（ＣＰＵの処理能力が通常であること）を仕様情報とし、予め記憶しているサンプルモデルを参照モデルとし、それら利用情報、仕様情報及び参照モデルをサーバ７０１に送信することで、標準モデルの作成を要求する。その要求に対してサーバ７０１で標準モデルが作成されると、カーナビゲーション装置７１２ｂは、その標準モデルをダウンロードし、その標準モデルを用いて利用者の音声を認識する。例えば、利用者の音声が、内部に保持する地名と一致した場合には、その地名を目標点とする現地点からの道順を示す地図を画面に自動表示する。
【０４０４】
このようにして、携帯電話機７１２ａ及びカーナビゲーション装置７１２ｂは、自装置に適した標準モデルの作成をサーバ７０１に依頼することで、標準モデルの作成に必要な回路や処理プログラムを自装置内に実装する必要がなくなるとともに、様々な認識対象の標準モデルを必要なタイミングで獲得することができる。
【０４０５】
以上説明したように、本発明の第１０の実施の形態によれば、参照モデル受信部８１０が受信した参照モデルを利用して標準モデルを作成できるため、精度の高い標準モデルが提供される。つまり、端末装置７１２からのアップロードにより参照モデルを追加することでサーバ８０１側で保持する参照モデルのバリエーションが増加し、他の人が利用したときにさらに高精度の標準モデルを提供することができる。
【０４０６】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【０４０７】
なお、参照モデル受信部８１０は、端末装置７１２とは異なる他の端末装置から参照モデルを受信してもよい。
【０４０８】
また、図５１に示された応用例は、本実施の形態に限られるものではなく、他の実施の形態にも適用することができる。つまり、第１〜第９の実施の形態で作成された標準モデルを各種記録媒体や通信を介して様々な電子機器に配信することで、それらの電子機器において、制度の高いな音声認識、画像認識、意図理解等を行うことが可能となる。さらに、上記実施の形態における標準モデル作成装置を各種電子機器に内蔵させることで、音声認識、画像認識、意図理解等の認識・認証機能を備えるスタンドアローンの電子機器を実現することもできる。
【０４０９】
以上、本発明に係る標準モデル作成装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。
【０４１０】
たとえば、第１〜第１０の実施の形態における標準モデルの統計量の近似計算については、各実施の形態における近似計算だけに限られず、第１〜第４の実施の形態における合計４種類の近似計算の少なくとも１つを用いてもよい。つまり、４種類の近似計算のいずれであってもよいし、２以上の種類の近似計算の組み合わせであってもよい。
【０４１１】
また、第２の実施の形態では、統計量推定部２０６ｄの一般近似部２０６ｅは、標準モデルの混合重み係数、平均値及び分散値を、それぞれ、数４５、数４６及び数４７に示される近似式に従って算出したが、これらの近似式に替えて、以下の数６３、数６４及び数６５に示される近似式を用いて算出してもよい。
【０４１２】
【数６３】

【０４１３】
【数６４】

【０４１４】
【数６５】

このような近似式を用いて作成した標準モデルによれば、高い認識性能が得られることが発明者らによって確認されている。たとえば、参照モデルと標準モデルそれぞれの混合数を１６とした場合の認識結果は、適応前では８２．２％であったものが、上記非特許文献２に示された十分統計量による方法では、８５．０％、上記近似式による方法では８５．５％に改善された。つまり、十分統計量による方法と比べ、高い認識性能が獲得できていることがわかる。また、参照モデルの混合数を６４、標準モデルの混合数を１６とした場合についての認識結果は、上記近似式による方法では、８５．７％と高い認識率が獲得できている。
【０４１５】
また、初期標準モデル作成部による初期標準モデルの作成においては、図５２に示されるようなクラスＩＤ・初期標準モデル・参照モデル対応表を予め準備しておき、この表に従って、初期標準モデルを決定してもよい。以下、このようなクラスＩＤ・初期標準モデル・参照モデル対応表を用いた初期標準モデルの決定方法について説明する。なお、クラスＩＤとは、標準モデルを用いた認識対象の種別を識別するＩＤであり、標準モデルの種類に対応する。
【０４１６】
図５２に示されたクラスＩＤ・初期標準モデル・参照モデル対応表は、一定の共通する性質を有する複数の参照モデルに対して、それらを識別する１つのクラスＩＤを対応づけるとともに、それら参照モデルと共通する性質を持つ予め作成された初期標準モデルを対応づけた表である。この表では、参照モデル８ＡＡ〜８ＡＺに対して、クラスＩＤ及び初期標準モデル８Ａが対応づけられ、参照モデル６４ＺＡ〜ＺＺに対して、クラスＩＤ及び初期標準モデル６４Ｚが対応づけられている。標準モデル作成部は、使用する参照モデルの性質と共通する初期標準モデルを使用することによって、精度の高い標準モデルを生成することができる。
【０４１７】
ここで、クラスＩＤ、初期標準モデル及び参照モデルの添え字記号８Ａ、８ＡＡにおける最初の記号「８」等は、混合分布数を意味し、２番目の記号「Ａ」等は大分類、例えば、騒音下における音声認識の場合であれば、騒音環境の種類（家庭内騒音下をＡ、電車内騒音下をＢなど）を意味し、３番目の記号「Ａ」等は小分類、例えば、音声認識の対象となる人の属性（低学年の小学生をＡ、高学年の小学生をＢなど）を意味する。したがって、図５２のクラスＩＤ・初期標準モデル・参照モデル対応表における参照モデル８ＡＡ〜ＡＺは、図５３に示されるような混合分布数８のモデルであり、参照モデル６４ＺＡ〜ＺＺは、図５４に示されるような混合分布数６４のモデルであり、初期標準モデル８Ａ〜６４Ｚは、図５５に示されるような混合分布数８〜１６のモデルである。
【０４１８】
次に、このようなクラスＩＤ・初期標準モデル・参照モデル対応表の作成方法を説明する。図５６は、その手順を示すフローチャートであり、図５７〜図６０は、各ステップでの具体例を示す図である。ここでは、騒音環境下での音声認識を例とし、表だけでなく、クラスＩＤ、初期標準モデル及び参照モデルも含めて新規に作成する場合の手順を説明する。
【０４１９】
まず、音声データを音響的に近いグループに分類する（図５６のステップＳ１１００）。たとえば、図５７に示されるように、音声データを利用情報である雑音環境で分類する。環境Ａ（家庭内騒音下での音声データ）には、家庭内騒音下で収録した小学生低学年の音声、小学生高学年の音声、成人女性の音声などが含まれ、環境Ｂ（電車内での音声データ）には、電車内で収録した小学生低学年の音声、小学生高学年の音声、成人女性の音声などが含まれるように分類する。なお、利用情報である話者の性別、年齢層、笑い声・怒った声などの声の性質、読み上げ調・会話調などの声の調子、英語・中国語などの言語などで分類してもよい。
【０４２０】
次に、仕様情報等に基づいて、準備する参照モデルの１以上のモデル構造を決定する（図５６のステップＳ１１０１）。たとえば、８混合、１６混合、３２混合及び６４混合を対象とすることを決定する。なお、モデル構造の決定においては、混合分布数を決定するに限らず、ＨＭＭの状態数、モノフォン・トライフォンなどのＨＭＭの種類などを決定してもよい。
【０４２１】
続いて、初期標準モデルを作成する（図５６のステップＳ１１０２）。つまり、上記音声データの分類（ステップＳ１１００）において決定した分類（環境Ａ、環境Ｂ、…）ごとに、ステップＳ１１０１において決定したモデル構造ごとの初期標準モデルを作成する。例えば、図５８に示されるように、初期標準モデル８Ａであれば、８混合の初期標準モデルを、家庭内騒音下（環境Ａ）における音声データ（低学年の小学生、高学年の小学生、成人男、成人女等の音声データ）を用いて、バウム・ウェルチアルゴリズムなどにより学習して作成する。
【０４２２】
次に、参照モデルを作成する（図５６のステップＳ１１０３）。つまり、上記ステップＳ１１０２において作成した初期標準モデルを用いて参照モデルを作成する。具体的には、参照モデルを学習する音声データの雑音環境と同じ雑音環境で学習した、同じ混合分布数をもつ初期標準モデルを用いて参照モデルを学習する。例えば、図５９に示されるように、参照モデル８ＡＡは、混合分布数８の家庭内騒音下での小学生低学年の音声データで学習するモデルであり、学習を行う際の初期値として、同じ環境である家庭内騒音下での音声データ（小学生低学年、小学生高学年、成人女性、成人男性の音声を含む）で学習した初期標準モデルを用いる。学習方法として、バウム・ウェルチアルゴリズムを用いる。
【０４２３】
最後に、クラスＩＤを付与する（図５６のステップＳ１１０４）。たとえば、騒音環境下ごとに１つのクラスＩＤを付与することによって、図６０に示されるクラスＩＤ・初期標準モデル・参照モデル対応表、つまり、"クラスＩＤ付き初期標準モデル"及び"クラスＩＤ付き参照モデル"が作成される。
【０４２４】
なお、このようなクラスＩＤ・初期標準モデル・参照モデル対応表は、完成された表として予め端末（標準モデル作成装置）が保持している必要はない。端末（標準モデル作成装置）は、図６１に示されるように、他の装置（サーバ）と通信することによって表を完成させてもよい。つまり、標準モデル作成装置（端末）は、通信網などを介して、"クラスＩＤ付き初期標準モデル"，"クラスＩＤ付き参照モデル"を取得することが可能である。もっとも、端末は必ずしも"クラスＩＤ付き初期標準モデル"、"クラスＩＤ付参照モデル"を取得する必要はなく事前に記憶させて出荷してもよい。
【０４２５】
図６１に示されるように、端末は、以下のような方法によって、"クラスＩＤ付き初期標準モデル"、"クラスＩＤ付き参照モデル"を取得することができる。第１の方法として、端末は、"クラスＩＤ付き初期標準モデル"（例えば規格化コンソーシアムなどで事前に定義されたクラスＩＤのつけ方に遵守したもの）を記憶しているケースである。このとき、端末は、１以上のサーバから"クラスＩＤ付き参照モデル" （例えば規格化コンソーシアムなどで事前に定義されたクラスＩＤのつけ方に遵守したもの）をダウンロードする。なお、端末に、"クラスＩＤ付き参照モデル"を出荷時に記憶させておいてもよい。
【０４２６】
また、第２の方法として、端末は、"クラスＩＤ付き初期標準モデル"を記憶していないケースである。このとき、端末は、サーバ（図６１のサーバ１）から"クラスＩＤ付き初期標準モデル"をダウンロードする。次に、端末は、１以上のサーバ（図６１のサーバ２）から"クラスＩＤ付き参照モデル"をダウンロードする。必要に応じて逐次的にクラスＩＤの定義の追加、変更が可能である。また、端末のメモリの節約にもなる。
【０４２７】
さらに、第３の方法として、端末は、クラスＩＤと初期標準モデル・参照モデルの対応関係を明記した"クラスＩＤ・初期標準モデル・参照モデル対応表"を記憶しているケースである。このとき、端末は、"対応表"記憶していないサーバ（図６１のサーバ３）に"対応表"をアップロードする。サーバは、送信された"対応表"に基づき"クラスＩＤ付き参照モデル"を準備する。端末は、準備された"クラスＩＤ付き参照モデル"をダウンロードする。
【０４２８】
次に、このようなクラスＩＤ・初期標準モデル・参照モデル対応表を用いた初期標準モデル作成部による初期標準モデルの決定方法について説明する。図６２は、その手順を示すフローチャートである。図６３及び図６４は、各ステップでの具体例を示す図である。
【０４２９】
まず、標準モデルの作成に用いる参照モデルからクラスＩＤを抽出する（図６２のステップＳ１１０５）。たとえば、図６３に示されるテーブルに従って、選択された参照モデルから、対応するクラスＩＤを抽出する。ここでは、抽出したクラスＩＤとして、８Ａが１個、１６Ａが３個、１６Ｂが１個、６４Ｂが１個とする。
【０４３０】
次に、抽出したクラスＩＤを用いて標準モデル作成に用いる初期標準モデルを決定する（図６２のステップＳ１１０６）。具体的には、以下の手順に従って初期標準モデルを決定する。
（１）作成する標準モデルの混合分布数（１６混合）と同じクラスＩＤ（１６＊）をもつ参照モデルから抽出したクラスＩＤ（１６Ａ、１６Ｂ）に着目し、その中から一番多く抽出されたクラスＩＤに対応する初期標準モデルを最終的な初期標準モデルと決定する。たとえば、標準モデルの構造が１６混合の場合には、１６混合に関するクラスＩＤとして、１６Ａが３個、１６Ｂが１個抽出されているので、クラスＩＤが１６Ａの初期標準モデルを採用する。
（２）作成する標準モデルの混合分布数（８混合）と同じクラスＩＤ（８＊）をもつ参照モデルから抽出したクラスＩＤ（８Ａ）に着目し、同じクラスＩＤをもつ初期標準モデルを最終的な初期標準モデルと決定する。たとえば、標準モデルの構造が８混合の場合には、８混合に関するクラスＩＤとして、８Ａが１個抽出されているので、クラスＩＤが８Ａの初期標準モデルを採用する。
（３）作成する標準モデルの混合分布数（３２混合）と同じクラスＩＤ（３２＊）をもつ参照モデルから抽出したクラスＩＤに着目し、存在しない場合、仕様情報に着目してその中から一番多く抽出されたクラスＩＤ（＊Ａ）をもつ初期標準モデル（８Ａ、１６Ａ）を用いてクラスタリングにより３２混合にして最終的な初期標準モデルとする（図４４を参照）。たとえば、標準モデルの構造が３２混合の場合には、３２混合に関するクラスＩＤが抽出されていないので、一番多く抽出されたクラスＩＤ（１６Ａ）を用いてクラスタリングにより３２混合にして初期標準モデルとする。
【０４３１】
なお、はじめに作成する標準モデルの仕様情報（混合分布数など）に着目せず、利用情報（雑音の種類など）に着目して初期値を決定してもよい。
【０４３２】
図６４に、第３近似部を用いて作成した混合分布数が６４の標準モデルを用いた認識実験の結果を示す。縦軸に成人（男性と女性）の認識率（％）、横軸に繰り返し回数Ｒを示す。繰り返し回数Ｒ＝０とは、学習を行う前での初期標準モデル作成部が作成した初期モデルにより認識した結果である。また、繰り返し回数Ｒ＝１〜５において、近傍指示パラメータＧ＝１とした。
【０４３３】
グラフ「データ」は、数日間かけて音声データより学習した場合の結果を表しており、グラフ「女性」、グラフ「男性」は、それぞれ、初期モデルを成人女性、成人男性としたときの結果を表している。参照モデルによる本発明による学習時間は数分のオーダーであった。この実験結果より、成人女性の参照モデルを初期標準モデルと決定した場合には、音声データで学習した結果よりも高い精度の標準モデルが作成できていることが分かる。
【０４３４】
このことは、音声データを分割し、分割した音声データをそれぞれの参照モデルとして厳密に学習したのちに統合したほうが、音声データによる学習の課題である局所解に陥るという問題を解決できる可能性を示している（音声データによる学習との認識精度での比較）。
【０４３５】
また、音声データの収録が困難な子供の音声データに対しては、データ数に適切である混合分布数の少ない参照モデルで厳密に学習して、多くの音声データの収録が可能な成人の音声データに対しては、混合分布数の多い参照モデルで厳密に学習して、そのあとで本発明により統合して標準モデルを作成すれば、極めて精度の高い標準モデルが作成できることが期待できる。
【０４３６】
なお、標準モデルの混合分布数が１６の場合における認識実験（図３９）では、本発明による方法は、音声データで学習した標準モデルの認識率を超えていない。このことは、音声データを１６混合の参照モデルの形にしたときに音声データの情報が欠如したためだと考えられる。参照モデルを６４混合で作成して音声データの特徴を十分保持しておけばより高い精度の標準モデルが作成できる。このことより、第９の実施の形態では、参照モデルの混合分布数を３００と大きめに設定している。
【０４３７】
また、図３９及び図６４に示される認識実験より、初期標準モデルが認識精度に与える影響が示されており、初期標準モデルの決定方法の重要性を物語っている（図６４において、成人女性の参照モデルを初期標準モデルとして利用した場合、成人男性の参照モデルを利用する場合より高い精度の標準モデルが作成できることが示されている）。
【０４３８】
以上のように、クラスＩＤ・初期標準モデル・参照モデル対応表に従って、参照モデルと共通する性質の初期標準モデルを用いることで、精度の高い標準モデルを作成することができる。
【０４３９】
なお、このようなクラスＩＤ・初期標準モデル・参照モデル対応表を用いた初期標準モデルの決定は、上記実施の形態１〜１０のいずれにおいても採用することができる。
【０４４０】
また、上記実施の形態では、標準モデルの統計量を推定する際に、参照モデルに対する標準モデルの尤度として数２５が用いられたが、本発明はこのような尤度関数に限られず、例えば、以下の数６６に示される尤度関数を用いてもよい。
【０４４１】
【数６６】

ここで、α(i)は、統合する各参照モデルｉに対応した重要度を示す重み付けである。たとえば、音声認識における話者適用であれば、重要度は、利用者の音声と統合モデルを作成した音声の近さにより決定される。つまり、参照モデルが利用者の音声に近い（重要度が大きい）場合に、α(i)は大きな値に設定される（大きく重み付けされる）。統合モデルと利用者の音声との近さは、利用者の音声を統合モデルに入力したときの尤度の大きさにより決定すればよい。これによって、複数の参照モデルを統合して標準モデルを作成する際に、利用者の音声に近い参照モデルほど大きな重み付けで標準モデルの統計量に影響を与えることとなり、より利用者の特性を反映した精度の高い標準モデルが作成される。
【０４４２】
また、各実施の形態における標準モデル構造決定部は、利用情報や仕様情報などの各種要因に基づいて標準モデルの構造を決定したが、本発明は、これらの要因だけに限られず、例えば、音声認識の場合であれば、認識の対象となる人の年齢、性別、声質の話者性、感情又は健康状態に基づく声の調子、発話速度、発話の丁寧さ、方言、背景雑音の種類、背景雑音の大きさ、音声と背景雑音とのSN比、マイク特性及び認識語彙の複雑さなどの各種属性に依存して標準モデルの構造を決定してもよい。
【０４４３】
具体的には、図６５（ａ）〜（ｊ）に示されるように、音声認識の対象となる人の年齢が高いほど標準モデルを構成するガウス分布の数（混合数）を大きくしたり（図６５（ａ））、音声認識の対象となる人が男性の場合には女性の場合よりも大きな混合数にしたり（図６５（ｂ））、音声認識の対象となる人の音質が「通常」よりも「ハスキー」、さらに「しわがれ声」となるほど混合数を大きくしたり（図６５（ｃ））、音声認識の対象となる声の感情による調子が「通常」よりも「怒り声」、さらに「泣き／笑いながらの声」となるほど混合数を大きくしたり（図６５（ｄ））、音声認識の対象となる人の発話速度が速く／遅くなるほど混合数を大きくしたり（図６５（ｅ））、音声認識の対象となる人の発話の丁寧さが「朗読調」よりも「講演調」、さらに「会話調」となるほど混合数を大きくしたり（図６５（ｆ））、音声認識の対象となる人の方言が「標準語」よりも「大阪弁」、さらに「鹿児島弁」となるほど混合数を大きくしたり（図６５（ｇ））、音声認識における背景雑音が大きくなるほど混合数を小さくしたり（図６５（ｈ））、音声認識に使用するマイクの性能が高くなるほど混合数を大きくしたり（図６５（ｉ））、音声認識の対象となる語彙が増加するほど混合数を大きくしたり（図６５（ｊ））すればよい。これらの例の多くは、認識対象の音声のばらつきが大きいほど、混合数を大きくして精度を確保するという観点から混合数が決定される。
【産業上の利用可能性】
【０４４４】
本発明に係る標準モデル作成装置は、確率モデル等を用いた音声、文字、画像等の対象物を認識する装置等として利用することができ、例えば、音声によって各種処理を実行するテレビ受信装置・カーナビゲーション装置、音声を他の言語に翻訳する翻訳装置、音声で操作するゲーム装置、音声による検索キーワードで情報を検索する検索装置、人物検出・指紋認証・顔認証・虹彩認証等を行う認証装置、株価予測、天気予測などの予測を行う情報処理装置等として利用することができる。
【図面の簡単な説明】
【０４４５】
【図１】図１は、本発明の第１の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図２】図２は、同サーバの動作手順を示すフローチャートである。
【図３】図３は、図１における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図４】図４は、図２におけるステップＳ１０１（標準モデルの作成）の詳細な手順を示すフローチャートである。
【図５】図５は、図１における第１近似部１０４ｅによる近似計算を説明する図である。
【図６】図６は、参照モデルを選択する際の画面表示例を示す図である。
【図７】図７（ａ）は、作成する標準モデルの構造（混合分布数）を指定する際の画面表示例を示し、図７（ｂ）は、仕様情報を選択する際の画面表示例を示す図である。
【図８】図８は、標準モデルを作成しているときの進捗状況を示す画面表示例を示す図である。
【図９】図９は、本発明の第２の実施の形態における標準モデル作成装置に係るＳＴＢの全体構成を示すブロック図である。
【図１０】図１０は、同ＳＴＢの動作手順を示すフローチャートである。
【図１１】図１１は、図１０における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図１２】図１２は、図１０における第２近似部による近似計算を説明する図である。
【図１３】図１３は、本発明の第３の実施の形態における標準モデル作成装置に係るＰＤＡの全体構成を示すブロック図である。
【図１４】図１４は、同ＰＤＡの動作手順を示すフローチャートである。
【図１５】図１５は、図１３における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図１６】図１６は、同ＰＤＡの選択画面の一例を示す。
【図１７】図１７は、図１３における統計量推定部による統計量の推定手順を示す概念図である。
【図１８】図１８は、図１３における第３近似部による近似計算を説明する図である。
【図１９】図１９は、本発明の第４の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図２０】図２０は、同サーバの動作手順を示すフローチャートである。
【図２１】図２１は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図２２】図２２は、利用情報としての個人情報を入力する際の画面表示例を示す図である。
【図２３】図２３は、本発明の第５の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図２４】図２４は、同サーバの動作手順を示すフローチャートである。
【図２５】図２５は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図２６】図２６は、本発明の第６の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図２７】図２７は、同サーバの動作手順を示すフローチャートである。
【図２８】図２８は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図２９】図２９は、本発明の第７の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図３０】図３０は、同サーバの動作手順を示すフローチャートである。
【図３１】図３１は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図３２】図３２は、本発明の第８の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。
【図３３】図３３は、携帯電話９０１の動作手順を示すフローチャートである。
【図３４】図３４は、参照モデル記憶部に格納されている参照モデルの一例を示す図である。
【図３５】図３５は、新たたに参照モデル記憶部に格納された参照モデルの一例を示す図である。
【図３６】図３６は、利用情報を作成するときの画面表示例を示す図である。
【図３７】図３７は、参照モデルを準備するときの画面表示例を示す図である。
【図３８】図３８は、第３近似部を用いて作成した標準モデルを用いた認識実験の結果を示すグラフである。
【図３９】図３９は、第３の実施の形態における第２近似部により作成された標準モデルによる認識実験の結果を示すグラフである。
【図４０】図４０は、本発明の第９の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。
【図４１】図４１は、アプリ・仕様情報対応データベースのデータ例を示す図である。
【図４２】図４２は、ＰＤＡ１００１の動作手順を示すフローチャートである。
【図４３】図４３は、参照モデル記憶部に格納されている参照モデルの一例を示す図である。
【図４４】図４４は、初期標準モデル作成部によるクラスタリングによる初期値の決定方法を示すフローチャートである。
【図４５】図４５は、図４４におけるステップＳ１００４の具体例を示す図である。
【図４６】図４６は、図４４におけるステップＳ１００５の具体例を示す図である。
【図４７】図４７は、図４４におけるステップＳ１００６の具体例を示す図である。
【図４８】図４８は、図４４におけるステップＳ１００８の具体例を示す図である。
【図４９】図４９は、本発明の第１０の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図５０】図５０は、同サーバの動作手順を示すフローチャートである。
【図５１】図５１は、本発明に係る標準モデル作成装置を具体的に適用したシステム例を示す図である。
【図５２】図５２は、クラスＩＤ・初期標準モデル・参照モデル対応表の例を示す図である。
【図５３】図５３は、図５２のクラスＩＤ・初期標準モデル・参照モデル対応表における参照モデル８ＡＡ〜ＡＺの例を示す図である。
【図５４】図５４は、図５２のクラスＩＤ・初期標準モデル・参照モデル対応表における参照モデル６４ＺＡ〜ＺＺの例を示す図である。
【図５５】図５５は、図５２のクラスＩＤ・初期標準モデル・参照モデル対応表における初期標準モデル８Ａ〜６４Ｚの例を示す図である。
【図５６】図５６は、クラスＩＤ・初期標準モデル・参照モデル対応表の作成方法を示すフローチャートである。
【図５７】図５７は、図５６におけるステップＳ１１００の具体例を示す図である。
【図５８】図５８は、図５６におけるステップＳ１１０２の具体例を示す図である。
【図５９】図５９は、図５６におけるステップＳ１１０３の具体例を示す図である。
【図６０】図６０は、図５６におけるステップＳ１１０４の具体例を示す図である。
【図６１】図６１は、端末がサーバと通信することによってクラスＩＤ・初期標準モデル・参照モデル対応表を完成させる手順を示す図である。
【図６２】図６２は、クラスＩＤ・初期標準モデル・参照モデル対応表を用いた初期標準モデルの決定方法を示すフローチャートである。
【図６３】図６３は、図６２におけるステップＳ１１０５の具体例を示す図である。
【図６４】図６４は、第３近似部を用いて作成した標準モデルを用いた認識実験の結果を示すグラフである。
【図６５】図６５（ａ）〜（ｊ）は、音声認識の対象についての属性と標準モデルの構造（ガウス分布の混合数）との関係例を示す図である。

Claims

音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
音声認識の対象となる属性に関する情報である利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から１以上の参照モデルを選択する参照モデル選択手段と、
前記参照モデル選択手段が選択した１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
ことを特徴とする標準モデル作成装置。
前記標準モデル作成装置はさらに、
前記利用情報を作成する利用情報作成手段を備え、
前記参照モデル選択手段は、作成された利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から１以上の参照モデルを選択する
ことを特徴とする請求の範囲１記載の標準モデル作成装置。
前記標準モデル作成装置には通信路を介して端末装置が接続され、
前記標準モデル作成装置はさらに、
前記端末装置から前記利用情報を受信する利用情報受信手段を備え、
前記参照モデル選択手段は、受信された利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から１以上の参照モデルを選択する
ことを特徴とする請求の範囲１記載の標準モデル作成装置。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に格納された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
前記標準モデル作成手段は、
作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
ことを特徴とする標準モデル作成装置。
前記仕様情報とは、標準モデルを使用するアプリケーションプログラムの種類、及び、標準モデルを使用する機器の仕様の少なくとも一方の仕様を示す
ことを特徴とする請求の範囲４記載の音声認識用の標準モデル作成装置。
前記属性とは、年齢、性別、声質の話者性、感情又は健康状態に基づく声の調子、発話速度、発話の丁寧さ、方言、背景雑音の種類、背景雑音の大きさ、音声と背景雑音とのSN比、マイク特性及び認識語彙の複雑さの少なくとも１つに関する情報を含む
ことを特徴とする請求の範囲４記載の音声認識用の標準モデル作成装置。
前記標準モデル作成装置はさらに、
標準モデルを使用するアプリケーションプログラムと標準モデルの仕様との対応を示すアプリケーション仕様対応データベースを前記仕様情報として保持する仕様情報保持手段を備え、
前記標準モデル構造決定部は、前記仕様情報保持手段に保持されたアプリケーション仕様対応データベースから、起動されるアプリケーションプログラムに対応する仕様を読み出し、読み出した仕様に基づいて、前記標準モデルの構造を決定する
ことを特徴とする請求の範囲４記載の標準モデル作成装置。
前記標準モデル作成装置はさらに、
前記仕様情報を作成する仕様情報作成手段を備え、
前記標準モデル構造決定部は、作成された仕様情報に基づいて、前記標準モデルの構造を決定する
ことを特徴とする請求の範囲４記載の標準モデル作成装置。
前記標準モデル作成装置には通信路を介して端末装置が接続され、
前記標準モデル作成装置はさらに、
前記端末装置から前記仕様情報を受信する仕様情報受信手段を備え、
前記標準モデル構造決定部は、受信された仕様情報に基づいて、前記標準モデルの構造を決定する
ことを特徴とする請求の範囲４記載の標準モデル作成装置。
前記参照モデル及び前記標準モデルは、１以上のガウス分布を用いて表現され、
前記標準モデル構造決定部は、前記標準モデルの構造として、少なくともガウス分布の混合数を決定する
ことを特徴とする請求の範囲４記載の標準モデル作成装置。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に格納された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有し、
前記参照モデル及び前記標準モデルは、１以上のガウス分布を用いて表現され、
前記参照モデル記憶手段は、少なくともガウス分布の混合数が異なる１対の参照モデルを記憶し、
前記統計量推定部は、前記１対の参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算する
ことを特徴とする標準モデル作成装置。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、新たな参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方、並びに、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行う参照モデル準備手段と、
前記参照モデル記憶手段に格納された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
ことを特徴とする標準モデル作成装置。
前記参照モデル準備手段は、認識の対象に関する情報である利用情報、及び作成する標準モデルの仕様に関する情報である仕様情報の少なくとも一方に基づいて、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行う
ことを特徴とする請求の範囲１２記載の標準モデル作成装置。
前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方と、前記参照モデル記憶手段に記憶された参照モデルとに基づいて、前記利用情報及び前記仕様情報の少なくとも一方と前記参照モデルとの類似度を示す類似度情報を作成する類似度情報作成手段を備え、
前記参照モデル準備手段は、前記類似度情報作成手段が作成した類似度情報に基づいて、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行うか否かを決定する
ことを特徴とする請求の範囲１２記載の標準モデル作成装置。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に格納された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、
構造が決定された標準モデルを特定する統計量の初期値を、標準モデルの種類を識別するクラスＩＤに基づいて、決定する初期標準モデル作成部と、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
ことを特徴とする標準モデル作成装置。
前記初期標準モデル作成部は、前記参照モデルから前記クラスＩＤを特定し、特定したクラスＩＤに対応づけられた初期値を前記初期値と決定する
ことを特徴とする請求の範囲１５記載の標準モデル作成装置。
前記初期標準モデル作成部は、前記クラスＩＤと前記初期値と前記参照モデルとの対応を示す対応表を保持し、前記対応表に従って、前記初期値を決定する
ことを特徴とする請求の範囲１６記載の標準モデル作成装置。
前記初期標準モデル作成部は、前記クラスＩＤが対応づけられた初期値であるクラスＩＤ付き初期標準モデル、又は、前記クラスＩＤが対応づけられた参照モデルであるクラスＩＤ付き参照モデルを作成又は外部から取得することによって、前記対応表を生成する
ことを特徴とする請求の範囲１７記載の標準モデル作成装置。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する方法であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段から、音声認識の対象となる属性に関する情報である利用情報に基づいて、１以上の参照モデルを選択して読み出す参照モデル読み出しステップと、
前記参照モデル選択ステップで読み出された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
前記標準モデル作成ステップは、
作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
ことを特徴とする標準モデル作成方法。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置のためのプログラムであって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段から、音声認識の対象となる属性に関する情報である利用情報に基づいて、１以上の参照モデルを選択して読み出す参照モデル読み出しステップと、
前記参照モデル選択ステップで読み出された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
前記標準モデル作成ステップは、
作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
ことを特徴とするプログラム。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する方法であって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段から１以上の参照モデルを読み出す参照モデル読み出しステップと、
読み出された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
前記標準モデル作成ステップは、
作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
ことを特徴とする標準モデル作成方法。
音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置のためのプログラムであって、
一定の属性を有する音声の特徴を示す確率モデルである１以上の参照モデルを記憶する参照モデル記憶手段から１以上の参照モデルを読み出す参照モデル読み出しステップと、
読み出された１以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
前記標準モデル作成ステップは、
作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
ことを特徴とするプログラム。