JP3667332B2 - 標準モデル作成装置及び標準モデル作成方法 - Google Patents

標準モデル作成装置及び標準モデル作成方法 Download PDF

Info

Publication number
JP3667332B2
JP3667332B2 JP2004570337A JP2004570337A JP3667332B2 JP 3667332 B2 JP3667332 B2 JP 3667332B2 JP 2004570337 A JP2004570337 A JP 2004570337A JP 2004570337 A JP2004570337 A JP 2004570337A JP 3667332 B2 JP3667332 B2 JP 3667332B2
Authority
JP
Japan
Prior art keywords
standard model
model
standard
unit
reference model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004570337A
Other languages
English (en)
Other versions
JPWO2004047076A1 (ja
Inventor
伸一 芳澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP3667332B2 publication Critical patent/JP3667332B2/ja
Publication of JPWO2004047076A1 publication Critical patent/JPWO2004047076A1/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Description

【技術分野】
【0001】
本発明は、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証(対象を認識して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状況を認識して判断する)、複数の話者音声の合成、複数の顔画像などの合成(合成したモデルを人が認識して楽しむ)などに用いられる標準モデルの作成装置及びその方法に関する。
【背景技術】
【0002】
近年、インターネットなどの普及により、ネットワークの大容量化、通信コストの低価格化が進んでいる。このため、ネットワークを利用することで、多くの認識用モデル(参照モデル)を収集することが可能となってきている。例えば、音声認識において、様々な研究機関で配布している多くの音声認識用モデル(子供用モデル、成人用モデル、高齢者用モデル、自動車内用モデル、携帯電話用モデルなど)をインターネットによりダウンロードすることが可能となってきている。また、ネットワークによる機器連携により、カーナビゲーションシステムなどで利用する音声認識用モデルをテレビやパソコンなどにダウンロードできるようになってきている。また、意図理解において、各地の様々な人の経験を学習した認識用モデルを、ネットワークを通して収集することが可能となってきている。
【0003】
また、認識技術の発展により、認識用モデルは、パソコン、テレビのリモコン、携帯電話、カーナビゲーションシステムなど、CPUパワー、メモリ量などの仕様の異なる幅広い機器に利用されるようになってきている。また、セキュリティーなどの認識精度が要求されるアプリケーションや、テレビのリモコンでの操作のように認識結果が出力されるまでの時間の速さが要求されるアプリケーションなど、要求仕様の異なる幅広いアプリケーションに利用されるようになってきている。
【0004】
また、認識技術は、認識対象の異なる多くの環境で利用されるようになってきている。例えば、音声認識において、子供の声、成人の声、高齢者の声を認識したり、自動車内での声、携帯電話での声を認識するなど、多くの環境で利用される。
【0005】
これらの社会環境の変化を鑑みると、多くの認識用モデル(参照モデル)を有効に活用することで、機器やアプリケーションの仕様、利用環境に適した精度の高い認識用モデル(標準モデル)を短時間に作成して利用者に提供することが望まれると考えられる。
【0006】
音声認識などのパターン認識の分野では、認識用の標準モデルとして確率モデルを用いる方法が近年注目されており、特に、隠れマルコフモデル(以下HMMと呼ぶ)や混合ガウス分布モデル(以下GMMと呼ぶ)が広く用いられている。また、意図理解において、意図、知識、嗜好などを表す標準モデルとして確率モデルを用いる方法が近年注目されており、特に、ベイジアンネットなどが広く用いられている。また、データマイニングの分野で、データを分類するために各カテゴリの代表モデルとして確率モデルを用いる方法が注目されており、GMMなどが広く用いられている。また、音声認証、指紋認証、顔認証、虹彩認証などの認証の分野で、認証用の標準モデルとして確率モデルを用いる方法が注目されており、GMMなどが用いられている。HMMにより表現される標準モデルの学習アルゴリズムとしてバウム・ウェルチ(Baum−Welch)の再推定の方法が広く用いられている(例えば、今井聖著、"音声認識"、pp.150−152、共立出版株式会社、1995年11月25日発行参照)。また、GMMにより表現される標準モデルの学習アルゴリズムとしてEM(Expectation−Maximization)アルゴリズムが広く用いられている(例えば、古井貞▲ひろ▼著、"音声情報処理"、pp.100−104、森北出版株式会社、1998年6月30日発行参照)。EMアルゴリズムでは、標準モデル
【0007】
【数1】
Figure 0003667332
(ここで、
【0008】
【数2】
Figure 0003667332
はガウス分布を表し、
【0009】
【数3】
Figure 0003667332
はJ(≧1)次元の入力データを表す)における統計量である混合重み係数
【0010】
【数4】
Figure 0003667332
、J(≧1)次元の平均値
【0011】
【数5】
Figure 0003667332
及びJ(≧1)次元の分散値(共分散行列のJ個の対角成分)
【0012】
【数6】
Figure 0003667332
を、
N個の学習データ
【0013】
【数7】
Figure 0003667332
を用いて、学習データに対する尤度
【0014】
【数8】
Figure 0003667332
を最大化もしくは極大化するように、
【0015】
【数9】
Figure 0003667332
【0016】
【数10】
Figure 0003667332
【0017】
【数11】
Figure 0003667332
(ここで、
【0018】
【数12】
Figure 0003667332
である)を利用して1以上繰り返して計算して学習を行う。また、ベイズ推定法(例えば、繁桝算男著、"ベイズ統計入門"、pp.42−53、東京大学出版会、1985年4月30日発行参照)などの方法も提案されている。バウム・ウェルチの再推定の方法、EMアルゴリズム、ベイズ推定法のいずれの学習アルゴリズムも、学習データに対する確率(尤度)を最大化もしくは極大化するように標準モデルのパラメータ(統計量)を計算して標準モデルを作成する。これらの学習方法では、確率(尤度)を最大化もしくは極大化するという数学的な最適化が実現されている。
【0019】
上記の学習方法を音声認識の標準モデルの作成に用いた場合、多様な話者や雑音などの音響的特徴量の変動に対応するために多数の音声データで標準モデルを学習することが望ましい。また、意図理解に用いた場合、多様な話者や状況などの変動に対応するために多数のデータで標準モデルを学習することが望ましい。また、虹彩認証に用いた場合、太陽光、カメラ位置・回転などの変動に対応するために多数の虹彩画像データで標準モデルを学習することが望ましい。しかしながら、このような多量のデータを取り扱う場合、学習に膨大な時間がかかるため、利用者に標準モデルを短時間に提供できない。また、多量のデータを蓄積するためのコストが膨大となる。また、ネットワークを利用してデータを収集した場合、通信コストが膨大となる。
【0020】
一方、複数のモデル(以下、標準モデルの作成のために参照用として準備されるモデルを「参照モデル」と呼ぶ。)を合成することで標準モデルを作成する方法が提案されている。参照モデルは、多くの学習データを確率分布の母数(平均、分散など)で表現した確率分布モデルであり、多くの学習データの特徴を少数のパラメータ(母数)で集約したものである。以下に示す従来技術では、モデルはガウス分布で表現されている。
【0021】
第1の従来方法では、参照モデルはGMMで表現されており、複数の参照モデルのGMMを重み付きで合成することで標準モデルを作成している(例えば、特開平4−125599号公報に開示された技術)。
【0022】
また、第2の従来方法では、第1の従来方式に加えて、学習データに対する確率(尤度)を最大化あるいは極大化して線形結合された混合重みを学習することで標準モデルを作成している(例えば、特開平10−268893号公報に開示された技術)。
【0023】
また、第3の従来方法では、標準モデルの平均値を参照モデルの平均値の線形結合で表現し、入力データに対する確率(尤度)を最大化あるいは極大化して線形結合係数を学習することで標準モデルを作成している。ここでは学習データとして特定話者の音声データを用いており標準モデルを音声認識用の話者適応モデルとして用いている(例えば、M.J.F.Gales、"Cluster Adaptive Training For Speech Recognition"、1998年、ICSLP98予稿集、pp.1783−1786)。
【0024】
また、第4の従来方法では、参照モデルは単一ガウス分布で表現されており、複数の参照モデルのガウス分布を合成したのちに、クラスタリングにより同一クラスに属するガウス分布を統合することで標準モデルを作成している(例えば、特開平9−81178号公報に開示された技術)。
【0025】
また、第5の従来方法では、複数の参照モデルは同数の混合数の混合ガウス分布で表現され、各ガウス分布には1対1に対応した通し番号が付与されている。標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成される。合成する複数の参照モデルは利用者に音響的に近い話者で作成されたモデルであり、作成させる標準モデルは話者適応モデルである(例えば、芳澤、外6名、"十分統計量と話者距離を用いた音韻モデルの教師なし学習法"、2002年3月1日、電子情報通信学会、Vol.J85−D−II、No.3、pp.382−389)。
【0026】
しかしながら、第1の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。この課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0027】
第2の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルは、参照モデルの単純な混合和であり学習するパラメータが混合重みに限定されているため、高精度の標準モデルが作成できない。また、標準モデルの作成において、多くの学習データを用いて学習を行っているため学習時間がかかる。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0028】
第3の従来方法では、学習するパラメータが参照モデルの平均値の線形結合係数に限定されているため高精度の標準モデルが作成できない。また、標準モデルの作成において、多くの学習データを用いて学習を行っているため学習時間がかかる。
【0029】
第4の従来方法では、クラスタリングをヒューリスティックに行うため高精度の標準モデルを作成することが困難である。また、参照モデルは単一のガウス分布であるため精度が低く、それらを統合した標準モデルの精度は低い。認識精度に関する課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。
【0030】
第5の従来方法では、標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成されるが、最適な標準モデルを作成するためには、一般的には合成するガウス分布は1対1に対応するとは限らないため、認識精度が低下する。また、複数の参照モデルが異なる混合数をもつ場合に標準モデルを作成することができない。また、一般的には、参照モデルにおけるガウス分布に通し番号が付与されておらず、この場合に標準モデルを作成することができない。また、仕様に応じて標準モデルの混合数を制御することができない。
【発明の開示】
【0031】
そこで、本発明は、このような問題点に鑑みてなされたものであり、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いられる高精度な標準モデルを作成する標準モデル作成装置等を提供することを目的とする。
【0032】
また、本発明は、学習のためのデータや教師データを必要とすることなく、簡易に標準モデルを作成することが可能な標準モデル作成装置等を提供することをも目的とする。
【0033】
さらに、本発明は、標準モデルを利用する認識の対象にふさわしい標準モデルを作成したり、標準モデルを用いて認識処理を実行する装置の仕様や環境に適した標準モデルを作成することが可能な汎用性及び柔軟性に優れた標準モデル作成装置等を提供することをも目的とする。
【0034】
本発明で用いる「認識」とは、音声認識などの狭義の意味での認識だけではなく、パターンマッチング、識別、認証、ベイズ推定や予測など、確率で表現された標準モデルを利用するもの全般を意味する。
【0035】
上記目的を達成するために、本発明に係る標準モデル作成装置は、事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、特定の対象を認識するために予め作成されたモデルである1以上の参照モデルを記憶する参照モデル記憶手段と、前記参照モデル記憶手段に記憶された1以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【0036】
たとえば、音声認識用の標準モデル作成装置として、音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段と、前記参照モデル記憶手段に格納された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有することを特徴とする。
【0037】
これによって、1以上の参照モデルに対する標準モデルの確率又は尤度を最大化又は極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、音声データ等の学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。
【0038】
ここで、前記標準モデル作成装置は、さらに、外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段を備えてもよい。例えば、音声認識用に適用した場合であれば、音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶するための参照モデル記憶手段と、外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、新たな参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段と、所定の構造をもつ当該標準モデルの統計量の初期値を準備し、前記参照モデル記憶手段に格納された1以上の参照モデルに対する標準モデルの確率又は尤度を最大化又は極大化するように、前記参照モデルの統計量を用いて当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。
【0039】
これによって、標準モデル作成装置の外部から新たな参照モデルを取り込み、取り込んだ参照モデルに基づいた標準モデルの作成が可能となるので、様々な認識対象に対応した汎用性の高い標準モデル作成装置が実現される。
【0040】
また、前記標準モデル作成装置は、さらに、認識の対象に関する情報である利用情報を作成する利用情報作成手段と、作成された前記利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から1以上の参照モデルを選択する参照モデル選択手段とを備え、前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0041】
これによって、利用者の特徴、利用者の年齢、性別、利用環境などの利用情報に基づいて、準備された複数の参照モデルの中から認識対象に適した参照モデルだけが選択され、それら参照モデルを統合した標準モデルが作成されるので、認識対象により特化した精度の高い標準モデルが作成される。
【0042】
ここで、前記標準モデル作成装置は、さらに、前記利用情報と選択された参照モデルに関する情報との類似度を算出して、前記類似度が所定のしきい値以上であるか否かを判定して判定信号を作成する類似度判定手段を備えてもよい。
【0043】
これによって、利用情報にふさわしい(近い)参照モデルが参照モデル記憶手段に存在しない場合に、参照モデルの準備の要求を行うことができる。
【0044】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、認識の対象に関する情報である利用情報を前記端末装置から受信する利用情報受信手段と、受信された前記利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から1以上の参照モデルを選択する参照モデル選択手段とを備え、前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0045】
これによって、通信路を介して送信されてきた利用情報に基づいて標準モデルが作成されるので、遠隔制御による標準モデルの生成が可能になるとともに、通信システムを基盤とする認識システムの構築が実現される。
【0046】
また、前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報を作成する仕様情報作成手段を備え、前記標準モデル作成手段は、前記仕様情報作成手段が作成した仕様情報に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0047】
これによって、標準モデルを使用する装置のCPUパワー、記憶容量、要求される認識精度、要求される認識処理時間などの仕様情報に基づいて標準モデルが作成されるので、特定の仕様条件を満たす標準モデルの生成が可能となり、計算エンジン等の認識処理に必要なリソース環境に適した標準モデルの生成が実現される。
【0048】
ここで、前記仕様情報は、例えば、標準モデルを使用するアプリケーションプログラムの種類に対応づけられた仕様を示すような情報であってもよい。そして、前記標準モデル作成装置は、さらに、標準モデルを使用するアプリケーションプログラムと標準モデルの仕様との対応を示すアプリケーション仕様対応データベースを前記仕様情報として保持する仕様情報保持手段を備え、前記標準モデル作成手段は、前記仕様情報保持手段に保持されたアプリケーション仕様対応データベースから、起動されるアプリケーションプログラムに対応する仕様を読み出し、読み出した仕様に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0049】
これによって、各アプリケーションごとに対応づけられた仕様に沿って標準モデルが作成されるので、アプリケーションごとに最適な標準モデルが作成され、標準モデルが使用される認識システム等における認識精度が向上される。
【0050】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報を前記端末装置から受信する仕様情報受信手段を備え、前記標準モデル作成手段は、前記仕様情報受信手段が受信した仕様情報に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0051】
これによって、通信路を介して送信されてきた仕様情報に基づいて標準モデルが作成されるので、遠隔制御による標準モデルの生成が可能になるとともに、通信システムを基盤とする認識システムの構築が実現される。
【0052】
たとえば、前記参照モデル及び前記標準モデルは、1以上のガウス分布を用いて表現され、前記標準モデル作成手段は、前記仕様情報に基づいて、前記標準モデルの混合分布数(ガウス分布の数)を決定してもよい。
【0053】
これによって、作成される標準モデルに含まれるガウス分布の混合分布数が動的に決定されることとなり、認識処理が実行される環境や要求仕様等に応じて標準モデルの構造を制御することが可能となる。例として、標準モデルを使用する認識装置のCPUパワーが小さい場合、記憶容量が小さい場合、要求される認識処理時間が短い場合などは標準モデルの混合分布数を少なく設定して仕様に合わせることができ、一方、要求される認識精度が高い場合などは混合分布数を多く設定して認識精度を高くすることができる。
【0054】
なお、上記利用情報あるいは仕様情報を用いて標準モデルを作成する場合において、参照モデル準備手段は必ずしも必要ではない。たとえば、利用者の要求に基づいて、あるいは、利用者の要求とは無関係に、予め参照モデルを標準モデル作成装置内に記憶させた状態で標準モデル作成装置を出荷し、利用情報や仕様情報を用いて標準モデルを作成することが可能だからである。
【0055】
また、前記参照モデル及び前記標準モデルは、1以上のガウス分布を用いて表現され、前記参照モデル記憶手段は、少なくとも1対の参照モデルの混合分布数(ガウス分布の数)が異なる参照モデルを記憶し、前記標準モデル作成手段は、少なくとも1対の参照モデルの混合分布数(ガウス分布の数)が異なる参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0056】
これによって、混合分布数が異なる参照モデルに基づいて標準モデルが作成されるので、予め準備された多種多様な構造の参照モデルに基づく標準モデルの作成が可能となり、より認識対象に適した精度の高い標準モデルの作成が実現される。
【0057】
また、前記標準モデル作成装置は、さらに、前記標準モデル作成手段が作成した標準モデルを記憶する標準モデル記憶手段を備えてもよい。
【0058】
これによって、作成された標準モデルを一時的にバッファリングしておき、送信要求に対してすぐに出力したり、他の装置に提供するデータサーバとしての役割を果たしたりすることが可能となる。
【0059】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記標準モデル作成手段が作成した標準モデルを前記端末装置に送信する標準モデル送信手段を備えてもよい。
【0060】
これによって、作成された標準モデルは空間的に離れた場所に置かれた外部装置に送信されるので、本標準モデル作成装置を標準モデル作成エンジンとして独立させたり、標準モデル作成装置を通信システムにおけるサーバとして機能させたりすることが可能になる。
【0061】
また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記端末装置から送信される参照モデルを受信する参照モデル受信手段を備え、前記標準モデル作成手段は、少なくとも前記参照モデル受信手段が受信した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。
【0062】
これによって、端末装置が保持した利用環境にふさわしい参照モデルを、通信路を介して送信して、送信した参照モデルを用いて標準モデルを作成できるため、より認識対象に適した精度の高い標準モデルの作成が実現される。例として、利用者Aが環境Aで利用していた参照モデルAが端末装置に保持されており利用者Aは環境Bで利用したい場合、参照モデルAを利用して標準モデルを作成することにより、利用者Aの特徴を反映した精度の高い標準モデルを作成することができる。
【0063】
また、前記参照モデル準備手段は、さらに、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行ってもよい。たとえば、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記端末装置から送信される参照モデルを受信する参照モデル受信手段を備え、前記参照モデル準備手段は、前記参照モデル受信手段が受信した参照モデルを用いて前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行ってもよい。
【0064】
これによって、準備される参照モデルの追加、更新等が行われるので、様々な認識対象用のモデルを参照モデルとして追加したり、より精度の高い参照モデルに置き換えたりすることが可能となり、更新した参照モデルによる標準モデルの再生成や、生成された標準モデルを参照モデルとして再び標準モデルを作成するというフィードバックによる学習等が可能となる。
【0065】
また、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有するように構成してもよい。このとき、前記初期標準モデル作成部は、前記統計量推定部が標準モデルの統計量を計算するために用いる、1以上の前記参照モデルを用いて前記標準モデルを特定する統計量の初期値を決定してもよい。たとえば、前記初期標準モデル作成部は、標準モデルの種類を識別するクラスIDに基づいて、前記初期値を決定してもよい。具体的には、前記初期標準モデル作成部は、前記クラスIDと前記初期値と前記参照モデルとの対応を示す対応表を保持し、前記対応表に従って、前記初期値を決定してもよい。
【0066】
これによって、標準モデルが使用される認識の対象の種類ごとにクラスIDを付与しておくことで、最終的に必要とされる標準モデルと共通の性質をもつ初期標準モデルを使用することができるので、精度の高い標準モデルが作成される。
【0067】
以上のように、本発明により、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解(意図の認識)、確率モデルによるデータマイニング(データ特性の認識)、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証(対象を認識して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状況を認識して判断する)などに用いる高精度な標準モデルが提供され、その実用的価値は極めて高い。
【0068】
なお、本発明は、このような標準モデル作成装置として実現することができるだけでなく、標準モデル作成装置が備える特徴的な構成要素をステップとする標準モデル作成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのプログラムをCD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
【発明を実施するための最良の形態】
【0069】
以下、本発明の実施の形態について図面を参照しながら詳しく説明する。なお、図中同一又は相当部分には同一符号を付し、その説明は繰り返さない。
(第1の実施の形態)
図1は、本発明の第1の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ101に組み込まれた例が示されている。本実施の形態では特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する場合を例にして説明する。
【0070】
サーバ101は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部111と、参照モデル準備部102と、参照モデル記憶部103と、標準モデル作成部104と、書き込み部112とを備える。
【0071】
読み込み部111は、CD−ROMなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込む。参照モデル準備部102は、読み込まれた参照モデル121を参照モデル記憶部103へ送信する。参照モデル記憶部103は、3個の参照モデル121を記憶する。ここで、参照モデルとは、標準モデルを作成するに際して参照される予め作成されたモデル(ここでは、音声認識用のモデル、つまり、一定の属性を有する音声の特徴を示す確率モデル)である。
【0072】
標準モデル作成部104は、参照モデル記憶部103が記憶した3個(Ng=3)の参照モデル121に対する確率又は尤度を最大化又は極大化するように標準モデル122を作成する処理部であり、標準モデルの構造(ガウス分布の混合数など)を決定する標準モデル構造決定部104aと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部104bと、決定された初期標準モデルを記憶する統計量記憶部104cと、統計量記憶部104cに記憶された初期標準モデルに対して、第1近似部104eによる近似計算等を用いることにより、参照モデル記憶部103に記憶されている3個(Ng=3)の参照モデル121に対する確率又は尤度を最大化又は極大化するような統計量を算出する(最終的な標準モデルを生成する)統計量推定部104dとからなる。なお、統計量とは、標準モデルを特定するパラメータであり、ここでは、混合重み係数、平均値、分散値である。
【0073】
書き込み部112は、標準モデル作成部104が作成した標準モデル122をCD−ROMなどのストレージデバイスに書き込む。
【0074】
次に、以上のように構成されたサーバ101の動作について説明する。
図2は、サーバ101の動作手順を示すフローチャートである。
【0075】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(ステップS100)。つまり、読み込み部111は、CD−ROMなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込み、参照モデル準備部102は、読み込まれた参照モデル121を参照モデル記憶部103へ送信し、参照モデル記憶部103は、3個の参照モデル121を記憶する。
【0076】
参照モデル121は、音素ごとのHMMにより構成される。参照モデル121の一例を図3に示す。ここでは、子供用参照モデル、成人用参照モデル、高齢者用参照モデルのイメージ図が示されている(なお、本図では、高齢者用参照モデルのイメージ図は省略されている)。これら3個の参照モデルの全てが、状態数3個、各状態は混合分布数が3個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として12次元(J=12)のケプストラム係数が用いられる。
【0077】
次に、標準モデル作成部104は、参照モデル記憶部103が記憶した3個の参照モデル121に対する確率又は尤度を最大化又は極大化するように標準モデル122を作成する(ステップS101)。
【0078】
最後に、書き込み部112は、標準モデル作成部104が作成した標準モデル122をCD−ROMなどのストレージデバイスに書き込む(ステップS102)。CD−ROMなどのストレージデバイスに書き込まれた標準モデルは、子供、成人、高齢者を考慮した音声認識用の標準モデルとして利用される。
【0079】
図4は、図2におけるステップS101(標準モデルの作成)の詳細な手順を示すフローチャートである。
【0080】
まず、標準モデル構造決定部104aは、標準モデルの構造を決定する(ステップS102a)。ここでは、標準モデルの構造として、音素ごとのHMMにより構成され、3状態であり、各状態における出力分布の混合数を3個(Mf=3)と決定する。
【0081】
次に、初期標準モデル作成部104bは、標準モデルを計算するための統計量の初期値を決定する(ステップS102b)。ここでは、参照モデル記憶部103に記憶された3つの参照モデルを、統計処理計算を用いて1つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部104cに記憶する。
【0082】
具体的には、初期標準モデル作成部104bは、上記3つの状態I(I=1、2、3)それぞれについて、以下の数13に示される出力分布を生成する。なお、式中のMf(ガウス分布の混合数)は、ここでは、3である。
【0083】
【数13】
Figure 0003667332
ここで、
【0084】
【数14】
Figure 0003667332
は、ガウス分布を表し、
【0085】
【数15】
Figure 0003667332
は、12次元(J=12)のLPCケプストラム係数を表し、
【0086】
【数16】
Figure 0003667332
は、各ガウス分布の混合重み係数を表し、
【0087】
【数17】
Figure 0003667332
は、各ガウス分布の平均値を表し、
【0088】
【数18】
Figure 0003667332
は、各ガウス分布の分散値を表す。
【0089】
そして、統計量推定部104dは、参照モデル記憶部103に記憶された3つの参照モデル121を用いて、統計量記憶部104cに記憶された標準モデルの統計量を推定する(ステップS102c)。
【0090】
具体的には、3つ(Ng=3)の参照モデル121の各状態I(I=1、2、3)における出力分布、即ち、以下の数19に示される出力分布に対する標準モデルの確率又は尤度(以下の数25に示される尤度logP)を極大化もしくは最大化するような標準モデルの統計量(上記数16に示される混合重み係数、上記数17に示される平均値、及び、上記数18に示される分散値)を推定する。
【0091】
【数19】
Figure 0003667332
ここで、
【0092】
【数20】
Figure 0003667332
はガウス分布を表し、
【0093】
【数21】
Figure 0003667332
は各参照モデルの混合分布数(ここでは、3)を表し、
【0094】
【数22】
Figure 0003667332
は各ガウス分布の混合重み係数を表し、
【0095】
【数23】
Figure 0003667332
は各ガウス分布の平均値を表し、
【0096】
【数24】
Figure 0003667332
は各ガウス分布の分散値を表す。
【0097】
【数25】
Figure 0003667332
そして、以下の数26、数27及び数28に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【0098】
【数26】
Figure 0003667332
【0099】
【数27】
Figure 0003667332
【0100】
【数28】
Figure 0003667332
このとき、統計量推定部104dの第1近似部104eにより、以下の数29に示される近似式が用いられる。
【0101】
【数29】
Figure 0003667332
ここで、
【0102】
【数30】
Figure 0003667332
は、
【0103】
【数31】
Figure 0003667332
【0104】
【数32】
Figure 0003667332
を平均値とし、
【0105】
【数33】
Figure 0003667332
を分散値とする単一のガウス分布を表す。
【0106】
また、第1近似部104eは、上記数30に示された単一ガウス分布の重み(数31)平均値(数32)及び分散値(数33)を、それぞれ、以下の数34、数35及び数36に示された式に従って算出する。
【0107】
【数34】
Figure 0003667332
【0108】
【数35】
Figure 0003667332
【0109】
【数36】
Figure 0003667332
図5は、第1近似部104eによる近似計算を説明する図である。第1近似部104eは、本図に示されるように、上記数29に示された近似式における単一ガウス分布(数30)を、標準モデルを構成する全ての混合ガウス分布を用いて決定している。
【0110】
以上の第1近似部104eによる近似式を考慮してまとめると、統計量推定部104dでの計算式は次の通りになる。つまり、統計量推定部104dは、以下の数37、数38及び数39に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、統計量記憶部104cに記憶する。そして、このような統計量の推定と統計量記憶部104cへの記憶をR(≧1)回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル122の統計量として出力する。
【0111】
【数37】
Figure 0003667332
【0112】
【数38】
Figure 0003667332
【0113】
【数39】
Figure 0003667332
なお、状態遷移確率については、HMMの対応する状態遷移確率を参照モデル121に対して全て加えあわせた全体が1になるように正規化したものを用いる。
【0114】
次に、本実施の形態をパーソナルコンピュータによる音声認識に適用した具体例を説明する。ここでは、サーバ101としてパソコン(PC)、読み込み部111としてCD−ROMドライブ装置を用いるものとし、標準モデルの具体的な使い方を中心に説明する。
【0115】
まず、利用者は、PC(サーバ101)のCD−ROMドライブ装置(読み込み部111)に、参照モデルとしての複数の音響モデルが格納された1枚のCD−ROMを装着する。そのCD−ROMには、例えば、「幼児」、「子供:男」、「子供:女」、「大人:男」、「大人:女」、「高齢者:男」、「高齢者:女」の各音響モデルが記憶されている。
【0116】
次に、利用者は、図6(a)及び(b)に示される画面表示例のように、PC(サーバ101)に接続されたディスプレイを用いて、家族構成(音声認識を利用する人)にあった音響モデルを選択する。図6には、CD−ROMに記憶されている音響モデルが「CD−ROM」と書かれた枠内に表示され、それらの音響モデルの中から選択された音響モデルが「利用者」と書かれた枠内にコピーされる様子が示されている。ここでは、利用者の家族構成が、10歳の男の子と、50歳のお父さんと、40歳のお母さんの3人であるとし、利用者(お父さん)によって、「子供:男」、「大人:男」、「大人:女」の3個のモデルが「利用者」と書かれた枠内にドラッグして移動されている。このような操作によって、参照モデル準備部102による参照モデルの準備が行われる。つまり、3個の参照モデルが読み込み部111で読み出され、参照モデル準備部102を介して、参照モデル記憶部103に格納される。
【0117】
続いて、利用者は、図7(a)に示される画面表示例のように、作成する標準モデルの構造(混合分布数)を指定する。図7(a)では、「混合分布数」として「3個」、「10個」、「20個」が表示され、利用者は、これらの個数の中から希望するものを選択する。この操作によって、標準モデル構造決定部104aにより、これから作成する標準モデルの構造が決定される。
【0118】
なお、混合分布数の決定については、このような直接的な指定に限られず、例えば、図7(b)に示される画面表示例のように、利用者が選択した仕様情報に基づいて混合分布数を決定してもよい。図7(b)では、標準モデルを使用して音声認識を実行させる対象機器として、3種類の「利用機器」、つまり、「テレビ用」、「カーナビ用」、「携帯電話用」の中から利用機器を選択する様子が示されている。このとき、予め記憶された対応表に従って、例えば、「テレビ用」が選択された場合には混合分布数を3個と決定し、「カーナビ用」が選択された場合には混合分布数を20個と決定し、「携帯電話用」が選択された場合には混合分布数を10個と決定してもよい。
【0119】
その他、混合分布数の決定については、認識速度や精度、つまり、「素早く認識」、「通常」、「高精度に認識」の中から選択することで、それぞれの選択項目に対応した値(「素早く認識」=3個、「通常」=10個、「高精度に認識」=20個)を混合分布数として決定してもよい。
【0120】
このような入力操作が終了すると、初期標準モデル作成部104bによって初期標準モデルが作成された後に、統計量推定部104dによる繰り返し計算(学習)が行われ、標準モデルが作成される。このとき、図8の画面表示例に示されるように、標準モデル構造決定部104aによって、学習の進捗状況が表示される。利用者は、学習の進捗状況、学習終了時期などを知ることができ、標準モデルが完成されるまで安心して待つことができる。なお、進捗状況の表示として、例えば、図8(a)に示されるような学習度合いのバー表示、図8(b)に示されるような学習回数の表示、その他、尤度基準の表示等がある。また、未学習時は一般的な顔画像を表示し、学習の完了に近づくにしたがって利用者の顔画像に変更していくような進捗表示であってもよい。同様に、未学習時には赤ちゃんを表示し、学習の完了に近づくにしたがって仙人を表示するような進捗表示であってもよい。
【0121】
このようにして標準モデルの作成が完了すると、作成された標準モデルは、標準モデル作成部104によってメモリカード(書き込み部112)に記録される。利用者は、そのメモリカードをPC(サーバ101の書き込み部112)から抜き出し、利用機器、例えば、テレビのメモリカード用スロットに挿入する。これによって、作成された標準モデルがPC(サーバ101)から利用機器(テレビ)に移動される。テレビは、装着されたメモリカードに記録された標準モデルを用いて、利用者(ここでは、テレビを利用する家族)を対象とした音声認識を行う。たとえば、テレビに付属したマイクに入力された音声を認識することによって、テレビ操作用のコマンドを判別し、そのコマンド(例えば、チャンネルの切り替え、EPGなどによる番組検索)を実行する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた、音声によるテレビ操作が実現される。
【0122】
以上説明したように、本発明の第1の実施の形態によれば、予め準備された参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、学習のためのデータや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した精度の高い標準モデルが作成される。
【0123】
なお、標準モデル122は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
【0124】
また、標準モデル作成部104は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【0125】
また、標準モデル122を構成するHMMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0126】
また、参照モデル121は、子供用参照モデル、成人用参照モデル、高齢者用参照モデルにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【0127】
また、標準モデル122を用いて、サーバ101において音声認識を行ってもよい。
また、参照モデル121をCD−ROM、DVD−RAMなどのストレージデバイスから読み込む代わりに、サーバ101において音声データから参照モデル121を作成してもよい。
【0128】
また、参照モデル準備部102は、必要に応じてCD−ROM、DVD−RAMなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部103に追加・更新してもよい。つまり、参照モデル準備部102は、新たな参照モデルを参照モデル記憶部103に格納するだけでなく、同一の認識対象についての参照モデルが参照モデル記憶部103に格納されている場合には、その参照モデルと置き換えることによって参照モデルを更新したり、参照モデル記憶部103に格納されている不要な参照モデルを削除してもよい。
【0129】
また、参照モデル準備部102は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部103に追加・更新してもよい。
【0130】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
(第2の実施の形態)
図9は、本発明の第2の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がセットトップボックス201(以下、STBと呼ぶ)に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル(話者適応モデル)を作成する場合を例にして説明する。具体的には、STBによる音声認識機能により、テレビのEPG検索や番組切替、録画予約などを行う場合を例にして説明する。
【0131】
STB201は、ユーザの発話を認識してTV番組の自動切替等を行うデジタル放送用受信機であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、マイク211と、音声データ蓄積部212と、参照モデル準備部202と、参照モデル記憶部203と、利用情報作成部204と、参照モデル選択部205と、標準モデル作成部206と、音声認識部213とを備える。
【0132】
マイク211に収集された音声データは、音声データ蓄積部212に蓄積される。参照モデル準備部202は、音声データ蓄積部212が蓄積した音声データを用いて話者ごとに参照モデル221を作成し、参照モデル記憶部203に記憶する。
【0133】
利用情報作成部204は、利用情報224である利用者の音声をマイク211により収集する。ここで、利用情報とは、認識(狭義での認識、識別、認証など)の対象(人・物)に関する情報であり、ここでは、音声認識の対象となる利用者の音声である。参照モデル選択部205は、利用情報作成部204が作成した利用情報224に基づいて、参照モデル記憶部203が記憶している参照モデル221の中から、利用情報224が示す利用者の音声に音響的に近い参照モデル223を選択する。
【0134】
標準モデル作成部206は、参照モデル選択部205が選択した話者の参照モデル223に対する確率又は尤度を最大化又は極大化するように標準モデル222を作成する処理部であり、標準モデルの構造(ガウス分布の混合分布数など)を決定する標準モデル構造決定部206aと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部206bと、決定された初期標準モデルを記憶する統計量記憶部206cと、統計量記憶部206cに記憶された初期標準モデルに対して、一般近似部206eによる近似計算等を用いることにより、参照モデル選択部205が選択した参照モデル223に対する確率又は尤度を最大化又は極大化するような統計量を算出する(最終的な標準モデルを生成する)統計量推定部206dとからなる。
【0135】
音声認識部213は、標準モデル作成部206によって作成された標準モデル222を用いて利用者の音声を認識する。
【0136】
次に、以上のように構成されたSTB201の動作について説明する。
図10は、STB201の動作手順を示すフローチャートである。
【0137】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(ステップS200)。つまり、マイク211によりAさんからZさんの音声データを収集して音声データ蓄積部212に蓄積する。たとえば、屋内に設置された複数のマイク、テレビのリモコンに内蔵されたマイク、電話機などが、STB201の音声データ蓄積部212と接続されており、マイクや電話機から入力された音声データを音声データ蓄積部212に蓄積する。たとえば、お兄ちゃん、妹、お父さん、お母さん、おじいちゃん、近所のひと、友達の音声が蓄積される。
【0138】
参照モデル準備部202は、音声データ蓄積部212が蓄積した音声データを用いて話者ごとに参照モデル221をバウム・ウェルチの再推定の方法により作成する。この処理は、標準モデルの作成が要求される以前に行われる。
【0139】
参照モデル記憶部203は、参照モデル準備部202が作成した参照モデル221を記憶する。参照モデル221は、音素ごとのHMMにより構成される。参照モデル221の一例を図11に示す。ここでは、AさんからZさんの全ての参照モデルが、状態数3個、各状態は混合分布数が5個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として25次元(J=25)のメルケプストラム係数が用いられる。
【0140】
ここで、標準モデルの作成が要求される。たとえば、利用者が「利用者の確認」のボタンを押すことによって、標準モデルの作成が要求される。「利用者確認」のボタンについては、テレビ画面に表示させて選択する方法や、テレビのリモコンに「利用者の確認」スイッチをつけて選択する方法が考えられる。ボタンを押すタイミングとしては、テレビを起動したタイミング、音声認識を用いてコマンド操作を行っているときに利用者にふさわしい標準モデルがほしいと感じたタイミングなどが考えられる。
【0141】
次に、利用情報作成部204は、利用情報224である利用者の音声をマイク211により収集する(ステップS201)。たとえば、標準モデルの作成が要求されると、画面上で「名前を入力してください」と表示される。利用者は、テレビのリモコンに内蔵されたマイクにより名前(利用者の音声)を入力する。この利用者の音声が利用情報である。なお、入力する音声は名前に限定されない。例えば「適応と発声してください」と表示して、利用者は「適応」と発声してもよい。
【0142】
参照モデル選択部205は、その利用者の音声に音響的に近い参照モデル223を、参照モデル記憶部203が記憶している参照モデル221の中から選択する(ステップS202)。具体的には、利用者の音声をAさんからZさんの参照モデルに入力して発声単語に対する尤度が大きい10人(Ng=10)の話者の参照モデルを選択する。
【0143】
そして、標準モデル作成部206は、参照モデル選択部205が選択した10個の参照モデル223に対する確率又は尤度を最大化又は極大化するように標準モデル222を作成する(ステップS203)。このとき、第1の実施の形態のように、学習の進捗状況を表示してもよい。そうすることで、利用者は学習の進捗状況、学習終了時期などが判断でき、安心して標準モデルを作成することができる。また、学習の進捗状況を非表示にする進捗状況非表示部を設けてもよい。この機能により、画面を有効に使うことができる。また、慣れた人に対して非表示にすることで、うっとうしく感じることが回避される。
【0144】
最後に、音声認識部213は、マイク211から介して送られてくる利用者の音声を入力とし、標準モデル作成部206で作成された標準モデル222を用いて音声認識を行う(S204)。たとえば、利用者が発話した音声を音響解析等を行うことで25次元のメルケプストラム係数を算出し、音素ごとの標準モデル222に入力することで、高い尤度を有する音素の連なりを特定する。そして、その音素の連なりと予め受信している電子番組データ中の番組名とを比較し、一定以上の尤度が検出された場合に、その番組に切り替えるという自動番組切替の制御を行う。
【0145】
次に、図10におけるステップS203(標準モデルの作成)の詳細な手順を説明する。手順の流れは、図4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【0146】
まず、標準モデル構造決定部206aは、標準モデルの構造を決定する(図4のステップS102a)。ここでは、標準モデルの構造として、音素ごとのHMMにより構成され、3状態であり、各状態における出力分布の混合分布数が16個(Mf=16)と決定する。
【0147】
次に、初期標準モデル作成部206bは、標準モデルを計算するための統計量の初期値を決定する(図4のステップS102b)。ここでは、参照モデル選択部205が選択した10個の参照モデル223を、統計処理計算を用いて1つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部206cに記憶する。ここでは、話者ごとに学習した混合分布数が5の参照モデルを用いて精度の高い混合分布数が16(16混合)の標準モデル(話者適応モデル)を作成する。
【0148】
具体的には、初期標準モデル作成部206bは、上記3つの状態I(I=1、2、3)それぞれについて、上記数13に示される出力分布を生成する。
【0149】
ただし、本実施の形態では、上記数13に示された出力分布における
【0150】
【数40】
Figure 0003667332
は、25次元(J=25)のメルケプストラム係数を表す。
【0151】
そして、統計量推定部206dは、参照モデル選択部205が選択した10個の参照モデル223を用いて、統計量記憶部206cに記憶された標準モデルの統計量を推定する(図4のステップS102c)。
【0152】
つまり、10個(Ng=10)の参照モデル223の各状態I(I=1、2、3)における出力分布、即ち、上記数19に示される出力分布に対する標準モデルの確率(ここでは、上記数25に示される尤度logP)を極大化もしくは最大化するような標準モデルの統計量(上記数16に示される混合重み係数、上記数17に示される平均値、及び、上記数18に示される分散値)を推定する。
【0153】
ただし、本実施の形態では、上記数19に示された出力分布における
【0154】
【数41】
Figure 0003667332
は、5(各参照モデルの混合分布数)である。
【0155】
具体的には、上記数26、数27及び数28に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【0156】
このとき、統計量推定部206dの一般近似部206eにより、上記数29に示される近似式が用いられる。
【0157】
ここで、一般近似部206eは、第1の実施の形態と異なり、上記数29の近似式の分母に示された出力分布
【0158】
【数42】
Figure 0003667332
の中から、上記数29の近似式の分子に示された出力分布
【0159】
【数43】
Figure 0003667332
に距離的に近い3個(Ph(m)=3)の出力分布
【0160】
【数44】
Figure 0003667332
を選択し、選択した3個の出力分布を用いて、上記数30に示された単一ガウス分布の重み(数31)、平均値(数32)及び分散値(数33)を、それぞれ、以下の数45、数46及び数47に示された式に従って算出する。
【0161】
【数45】
Figure 0003667332
【0162】
【数46】
Figure 0003667332
【0163】
【数47】
Figure 0003667332
図12は、一般近似部206eによる近似計算を説明する図である。一般近似部206eは、本図に示されるように、上記数29に示された近似式における単一ガウス分布(数30)を、標準モデルを構成するMf個の混合ガウス分布の中から、計算対象となる混合ガウス分布に近い一部(Ph(m)個)の混合ガウス分布だけを用いて決定している。したがって、全部(Mf個)の混合ガウス分布を用いる第1の実施の形態と比較し、近似計算における計算量が削減される。
【0164】
以上の一般近似部206eによる近似式を考慮してまとめると、統計量推定部206dでの計算式は次の通りになる。つまり、統計量推定部206dは、以下の数48、数49及び数50に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、統計量記憶部206cに記憶する。そして、このような統計量の推定と統計量記憶部206cへの記憶をR(≧1)回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル222の統計量として出力する。なお、繰り返し計算においては、その回数に対応させて、上記近似計算における出力分布の選択個数Ph(m)を小さくし、最終的にPh(m)=1とする計算を行う。
【0165】
【数48】
Figure 0003667332
【0166】
【数49】
Figure 0003667332
【0167】
【数50】
Figure 0003667332
なお、状態遷移確率については、HMMの対応する状態遷移確率を参照モデル223に対して全て加えあわせた全体が1になるように正規化したものを用いる。
【0168】
以上説明したように、本発明の第2の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【0169】
なお、標準モデルを作成するタイミングとしては、本実施の形態のような利用者による明示的な指示だけに限られず、他のタイミングで標準モデルを作成してもよい。たとえば、STB201にさらに、利用者が変更されたかどうかを自動的に判断する利用者変更判断部を設ける。その利用者変更判断部は、テレビのリモコンに入力された認識用の音声を用いて、利用者が変更されたか否か、つまり、現在の利用者が直前まで認識していた利用者と同一人物であるか否かを判断する。利用者が変更されたと判断した場合に、その音声を利用情報として標準モデルを作成する。これにより、利用者が意識することなく、利用者にふさわしい標準モデルを用いた音声認識が行われる。
【0170】
なお、標準モデル222は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
【0171】
また、標準モデル作成部206は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【0172】
また、標準モデル222を構成するHMMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0173】
また、参照モデル221は、話者ごとHMMにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。
【0174】
また、参照モデル221は、話者ごとHMMに限らず、話者・雑音・声の調子ごとに作成してもよい。
【0175】
また、標準モデル222をCD−ROM、ハードディスク、DVD−RAMなどのストレージデバイスに記録してもよい。
【0176】
また、参照モデル221を作成する代わりに、CD−ROM、DVD−RAMなどのストレージデバイスから読み込んでもよい。
【0177】
また、参照モデル選択部205は、利用情報224に基づいて利用者ごとに選択する参照モデルの数を変えてもよい。
【0178】
また、参照モデル準備部202は、必要に応じて新たな参照モデルを作成して参照モデル記憶部203に追加・更新してもよいし、参照モデル記憶部203に格納されている不要な参照モデルを削除してもよい。
【0179】
また、参照モデル準備部202は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部203に追加・更新してもよい。
【0180】
また、上記近似計算において選択する出力分布の個数Ph(m)は、対象とする事象や標準モデルの出力分布によって異なってもよいし、分布間距離に基づいて決定してもよい。
【0181】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
【0182】
また、混合分布数については、本実施の形態におけるSTBを出荷するときに、所定の値に設定しておいてもよいし、ネットワーク連携を考慮した機器のCPUパワーなどの仕様、起動するアプリケーションの仕様などに基づいて混合分布数を決定してもよい。
(第3の実施の形態)
図13は、本発明の第3の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がPDA(Personal Digital Assistant)301に組み込まれた例が示されている。本実施の形態では雑音識別用の標準モデル(雑音モデル)を作成する場合を例にして説明する。
【0183】
PDA301は、携帯情報端末であり、事象の出力確率によって定義される雑音識別用の標準モデルを作成する標準モデル作成装置として、読み込み部311と、参照モデル準備部302と、参照モデル記憶部303と、利用情報作成部304と、参照モデル選択部305と、標準モデル作成部306と、仕様情報作成部307と、マイク312と、雑音識別部313とを備える。
【0184】
読み込み部311は、CD−ROMなどのストレージデバイスに書き込まれた乗用車Aの参照モデル、乗用車Bの参照モデル、バスAの参照モデル、小雨の参照モデル、大雨の参照モデルなどの雑音の参照モデルを読み込む。参照モデル準備部302は、読み込まれた参照モデル321を参照モデル記憶部303へ送信する。参照モデル記憶部303は、参照モデル321を記憶する。
【0185】
利用情報作成部304は、利用情報324である雑音の種類をPDA301の画面とキーを利用して作成する。参照モデル選択部305は、利用情報324である雑音の種類に音響的に近い参照モデルを、参照モデル記憶部303が記憶している参照モデル321の中から選択する。仕様情報作成部307は、PDA301の仕様に基づき仕様情報325を作成する。ここで、仕様情報とは、作成する標準モデルの仕様に関する情報であり、ここでは、PDA301が備えるCPUの処理能力に関する情報である。
【0186】
標準モデル作成部306は、仕様情報作成部307で作成された仕様情報325に基づいて、参照モデル選択部305が選択した雑音の参照モデル323に対する確率又は尤度を最大化又は極大化するように標準モデル322を作成する処理部であり、標準モデルの構造(ガウス分布の混合分布数など)を決定する標準モデル構造決定部306aと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部306bと、決定された初期標準モデルを記憶する統計量記憶部306cと、統計量記憶部306cに記憶された初期標準モデルに対して、第2近似部306eによる近似計算等を用いることにより、参照モデル選択部305が選択した参照モデル323に対する確率又は尤度を最大化又は極大化するような統計量を算出する(最終的な標準モデルを生成する)統計量推定部306dとからなる。
【0187】
雑音識別部313は、標準モデル作成部306で作成された標準モデル322を用いて、マイク312から入力された雑音の種類を識別する。
【0188】
次に、以上のように構成されたPDA301の動作について説明する。
図14は、PDA301の動作手順を示すフローチャートである。
【0189】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(ステップS300)。つまり、読み込み部311は、ストレージデバイスに書き込まれた雑音の参照モデルを読み込み、参照モデル準備部302は、読み込まれた参照モデル321を参照モデル記憶部303へ送信し、参照モデル記憶部303は、参照モデル321を記憶する。
【0190】
参照モデル321は、GMMより構成される。参照モデル321の一例を図15に示す。ここでは、各雑音モデルは混合分布数が3個のGMMにより構成される。特徴量として5次元(J=5)のLPCケプストラム係数が用いられる。
【0191】
次に、利用情報作成部304は、識別したい雑音の種類である利用情報324を作成する(ステップS301)。図16にPDA301の選択画面の一例を示す。ここでは、乗用車の雑音が選択される。参照モデル選択部305は、選択された利用情報324である乗用車の雑音に音響的に近い参照モデルである乗用車Aの参照モデルと乗用車Bの参照モデルを、参照モデル記憶部303が記憶している参照モデル321の中から選択する(ステップS302)。
【0192】
そして、仕様情報作成部307は、PDA301の仕様に基づき、仕様情報325を作成する(ステップS303)。ここでは、PDA301のCPUの仕様に基づきCPUパワーが小さいという仕様情報325を作成する。標準モデル作成部306は、作成された仕様情報325に基づいて、参照モデル選択部305が選択した参照モデル323に対する確率又は尤度を最大化又は極大化するように標準モデル322を作成する(ステップS304)。
【0193】
最後に、雑音識別部313は、利用者によってマイク312から入力された雑音に対して、標準モデル322を用いて、雑音の識別を行う(ステップS305)。
【0194】
次に、図14におけるステップS304(標準モデルの作成)の詳細な手順を説明する。手順の流れは、図4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【0195】
まず、標準モデル構造決定部306aは、標準モデルの構造を決定する(図4のステップS102a)。ここでは、標準モデルの構造として、仕様情報325であるCPUパワーが小さいという情報に基づいて1混合(Mf=1)のGMMにより標準モデル322を構成すると決定する。
【0196】
次に、初期標準モデル作成部306bは、標準モデルを計算するための統計量の初期値を決定する(図4のステップS102b)。ここでは、選択された参照モデル323である乗用車Aの3混合の参照モデルを、統計処理計算を用いて1つのガウス分布に統合したものを統計量の初期値として統計量記憶部306cに記憶する。
【0197】
具体的には、初期標準モデル作成部306bは、上記数13に示される出力分布を生成する。
【0198】
ただし、本実施の形態では、上記数13に示された出力分布における
【0199】
【数51】
Figure 0003667332
は、5次元(J=5)のLPCケプストラム係数を表す。
【0200】
そして、統計量推定部306dは、参照モデル選択部305が選択した2個の参照モデル323を用いて、統計量記憶部306cに記憶された標準モデルの統計量を推定する(図4のステップS102c)。
【0201】
つまり、2個(Ng=2)の参照モデル323における出力分布、即ち、上記数19に示される出力分布に対する標準モデルの確率(ここでは、上記数25に示される尤度logP)を極大化もしくは最大化するような標準モデルの統計量(上記数16に示される混合重み係数、上記数17に示される平均値、及び、上記数18に示される分散値)を推定する。
【0202】
ただし、本実施の形態では、上記数19に示された出力分布における
【0203】
【数52】
Figure 0003667332
は、3(各参照モデルの混合分布数)である。
【0204】
具体的には、上記数26、数27及び数28に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【0205】
このとき、統計量推定部306dの第2近似部306eは、標準モデルの各ガウス分布はお互いに影響を与えないと仮定して、以下の近似式を用いる。
【0206】
【数53】
Figure 0003667332
また、標準モデルのガウス分布
【0207】
【数54】
Figure 0003667332
の近傍の
【0208】
【数55】
Figure 0003667332
とは、前記数54が示す出力分布との平均値のユークリッド距離、マハラノビス距離、カルバック・ライブラー(KL)距離などの分布間距離が近いQg(m,i)個の参照モデル323のガウス分布
【0209】
【数56】
Figure 0003667332
が存在する空間であって、
【0210】
【数57】
Figure 0003667332
との分布間距離が近いQg(m,i)個(1≦Qg(m,i)≦Lg(i))の前記参照ベクトルの出力分布とは、前記参照モデルの出力分布
【0211】
【数58】
Figure 0003667332
のうち分布間距離が1番近い(近傍指示パラメータG=1)前記標準モデルの出力分布が前記数57である前記参照ベクトルの出力分布であると近似する。
【0212】
図17は、この統計量推定部306dによる統計量の推定手順を示す概念図である。各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布を用いて統計量の推定を行うことが示されている。
【0213】
図18は、第2近似部306eによる近似計算を説明する図である。第2近似部306eは、本図に示されるように、各参照モデルの各ガウス分布に対して、距離が最も近い標準モデルのガウス分布mを決定することで、上記数53に示された近似式を用いている。
【0214】
以上の第2近似部306eによる近似式を考慮してまとめると、統計量推定部306dでの計算式は次の通りになる。つまり、統計量推定部306dは、以下の数59、数60及び数61に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、それらのパラメータによって特定される標準モデルを最終的な標準モデル322として生成する。
【0215】
【数59】
Figure 0003667332
(ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布に関する和を意味する。)
【0216】
【数60】
Figure 0003667332
(ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布に関する和を意味する。)
【0217】
【数61】
Figure 0003667332
(ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布mであるガウス分布に関する和を意味する。)
ただし、
【0218】
【数62】
Figure 0003667332
の場合において、
(第1の方法)混合重み係数、平均値、分散値を更新しない。
(第2の方法)混合重み係数の値をゼロにして、平均値、分散値を所定の値にする。
(第3の方法)混合重み係数の値を所定の値にして、平均値、分散値を標準モデルの出力分布を1個の分布に表現したときの平均値、分散値にする。
【0219】
のいずれかを利用して統計量の値を決定する。なお、利用する方法は、繰り返し回数R、HMM、HMMの状態ごとに異なっていてもよい。ここでは、第1の方法を用いる。
【0220】
統計量推定部306dは、このように推定した標準モデルの統計量を統計量記憶部306cに記憶する。そして、このような統計量の推定と統計量記憶部306cへの記憶をR(≧1)回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル322の統計量として出力する。
【0221】
次に、本実施の形態をPDAによる環境音識別に適用した具体例を説明する。
まず、参照モデル準備部302は、CD−ROMから環境音の識別に必要な参照モデルを読み出す。利用者は、識別を行う環境(利用情報)を考慮して、識別したい環境音を画面上から選択する。たとえば、「乗用車」を選択し、続いて、「警報音」、「赤ちゃんの声」、「電車の音」などを選択する。この選択に基づいて、参照モデル選択部305は、参照モデル記憶部303に記憶されている参照モデルの中から対応する参照モデルを選択する。そして、選択した参照モデル323を1つずつ用いて、標準モデル作成部306は、それぞれに対して標準モデルを作成する。
【0222】
続いて、利用者は、PDA301において、「らくらく情報提供」(環境音に基づく状況判断による情報提供)というアプリケーションプログラムを起動する。このアプリケーションは、環境音に基づいて状況判断を行い、利用者に適切な情報を提供するプログラムである。起動されると、PDA301の表示画面に「正確に判断」、「素早く判断」という表示がされる。これに対して、利用者はどちらかを選択する。
【0223】
そして、仕様情報作成部307は、その選択結果に基づいて、仕様情報を作成する。たとえば、「正確に判断」が選択された場合には、精度を高くするために、混合分布数を10個とする仕様情報を作成する。一方、「素早く判断」が選択された場合には、高速に処理するために、混合分布数を1個とする仕様情報を作成する。なお、複数のPDAが連携して処理できる場合などには、現在利用できるCPUパワーを判断し、そのCPUパワーに基づいて仕様情報を作成してもよい。
【0224】
このような仕様情報にしたがって、「乗用車」、「警報音」、「赤ちゃんの声」、「電車の音」などの1混合の標準モデルが作成される。そして、PDA301は、作成された標準モデルにより環境識別を行い、その識別結果に基づき、各種情報をPDAの画面に表示する。例えば、「乗用車」が近くにあると識別した場合は、道路地図を表示したり、「赤ちゃんの声」を識別した場合は、おもちゃ屋さんの広告を表示したりする。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた、環境音識別に基づく情報提供が実現される。なお、アプリケーションの仕様に応じて標準モデルの複雑さを調節することができる。
【0225】
以上説明したように、本発明の第3の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【0226】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【0227】
なお、統計量推定部306dによる処理の繰り返し回数は、上記数25に示された尤度の大きさがある一定のしきい値以上になるまでの回数としてもよい。
【0228】
また、標準モデル322を構成するGMMは、雑音の種類ごとに異なる混合分布数の混合ガウス分布により構成してもよい。
【0229】
また、識別モデルは、雑音モデルに限らず、話者を識別してもよいし、年齢などを識別してもよい。
【0230】
また、標準モデル322をCD−ROM、DVD−RAM、ハードディスクなどのストレージデバイスに記録してもよい。
【0231】
また、参照モデル321をCD−ROMなどのストレージデバイスから読み込む代わりに、PDA301において雑音データから参照モデル321を作成してもよい。
【0232】
また、参照モデル準備部302は、必要に応じてCD−ROMなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部303に追加・更新してもよいし、参照モデル記憶部303に格納されている不要な参照モデルを削除してもよい。
【0233】
また、参照モデル準備部302は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部303に追加・更新してもよい。
【0234】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。
【0235】
また、近傍指示パラメータGは、対象とする事象や標準モデルの出力分布によって異なってもよいし、繰り返し回数Rによって変化させてもよい。
(第4の実施の形態)
図19は、本発明の第4の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ401に組み込まれた例が示されている。本実施の形態では顔認識用の標準モデルを作成する場合を例にして説明する。
【0236】
サーバ401は、通信システムにおけるコンピュータ装置等であり、事象の出力確率によって定義される顔認識用の標準モデルを作成する標準モデル作成装置として、カメラ411と、画像データ蓄積部412と、参照モデル準備部402と、参照モデル記憶部403と、利用情報受信部404と、参照モデル選択部405と、標準モデル作成部406と、書き込み部413とを備える。
【0237】
カメラ411により、顔の画像データが収集され、画像データ蓄積部412に顔画像データが蓄積される。参照モデル準備部402は、画像データ蓄積部412が蓄積した顔画像データを用いて話者ごとに参照モデル421を作成し、参照モデル記憶部403に記憶する。
【0238】
利用情報受信部404は、利用者が希望する顔認識の対象となる人間の年齢の年代と性別の情報を利用情報424として電話414により受信する。参照モデル選択部405は、利用情報受信部404が受信した利用情報424に基づいて、参照モデル記憶部403が記憶している参照モデル421の中から、利用情報424が示す年代と性別の話者に対応する参照モデル423を選択する。
【0239】
標準モデル作成部406は、参照モデル選択部405が選択した話者の顔画像の参照モデル423に対する確率又は尤度を最大化又は極大化するように標準モデル422を作成する処理部であり、第2の実施の形態における標準モデル作成部206と同一の機能を有するとともに、第1の実施の形態における第1近似部104eと第3の実施の形態における第2近似部306eの機能を有する。つまり、第1〜第3の実施の形態で示された3種類の近似計算を組み合わせた計算を行う。
【0240】
書き込み部413は、標準モデル作成部406が作成した標準モデル422をCD−ROMなどのストレージデバイスに書き込む。
【0241】
次に、以上のように構成されたサーバ401の動作について説明する。
図20は、サーバ401の動作手順を示すフローチャートである。図21は、サーバ401の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【0242】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(図20のステップS400)。つまり、カメラ411によりAさんからZさんの顔画像データを収集して画像データ蓄積部412に蓄積する。参照モデル準備部402は、画像データ蓄積部412が蓄積した顔画像データを用いて、話者ごとの参照モデル421をEMアルゴリズムにより作成する。ここでは参照モデル421はGMMで構成される。
【0243】
参照モデル記憶部403は、参照モデル準備部402が作成した参照モデル421を記憶する。ここでは、図21の参照モデル421に示されるように、AさんからZさんの全ての参照モデルが、混合分布数が5個のGMMにより構成される。特徴量として100次元(J=100)の画素の濃度値を用いる。
【0244】
次に、利用情報受信部404は、利用情報424である年代と性別の情報を電話414により受信する(図20のステップS401)。ここでは、利用情報424として、11歳から15歳の男性と22歳から26歳の女性である。参照モデル選択部405は、その利用情報424に基づいて、参照モデル記憶部403が記憶している参照モデル421から、利用情報424に対応する参照モデル423を選択する(図20のステップS402)。具体的には、図21の「選択された参照モデル423」に示されるように、ここでは、11歳から15歳の男性及び22歳から26歳の女性の参照モデルを選択する。
【0245】
そして、標準モデル作成部406は、参照モデル選択部405が選択した話者の参照モデル423に対する確率又は尤度を最大化又は極大化するように標準モデル422を作成する(図20のステップS403)。ここでは、図21の標準モデル422に示されるように、2つの標準モデル422それぞれを、混合分布数が3個のGMMにより構成する。
【0246】
標準モデル422の作成方法は、基本的には、第2の実施の形態と同様に行われる。ただし、標準モデル422の統計量の推定における近似計算については、具体体には、以下のようにして行われる。つまり、標準モデル作成部406は、内蔵の記憶部等を介することで、第1の実施の形態における第1近似部104eによる近似計算と同様の近似計算よって作成したモデルを初期値として、第2の実施の形態における一般近似部206eによる近似計算と同様の近似計算による計算を行い、その結果を初期値として第3の実施の形態における第2近似部306eによる近似計算と同様の近似計算を行う。
【0247】
書き込み部413は、標準モデル作成部406が作成した2つの標準モデル422をCD−ROMなどのストレージデバイスに書き込む(図20のステップS404)。
【0248】
利用者は、11歳から15歳の男性の標準モデルと22歳から26歳の女性の標準モデルが書き込まれたストレージデバイスを郵送で受け取る。
【0249】
次に、本実施の形態を、行動予測に基づいてお店などを紹介する情報提供システムに適用した具体例を説明する。この情報提供システムは、通信ネットワークで接続されたカーナビゲーション装置と情報提供サーバ装置から構成される。カーナビゲーション装置は、本実施の形態における標準モデル作成装置401によって予め作成された標準モデルを行動予測モデルとして利用することで、人の行動(つまり、車による行先等)を予測し、その行動に関連した情報(行先の近くに位置するレストランなどのお店の情報など)を提供する機能を備える。
【0250】
まず、利用者は、カーナビゲーション装置を用いて、電話回線414で接続されたサーバ401に対して、自分用の行動予測モデルの作成を依頼する。
【0251】
具体的には、利用者は、カーナビゲーション装置が表示する項目選択画面で、「らくらく推薦機能」のボタンを押す。すると、利用者の住所(利用場所)、年齢、性別、趣味などを入力する画面になる。
【0252】
ここでは、利用者はお父さんとお母さんとする。まず、お父さんの個人情報をカーナビゲーション装置の画面と対話しながら入力する。住所については、電話番号を入力することにより自動的に変換される。あるいは、カーナビゲーション装置において現在位置が表示されているときに「利用場所」のボタンを押すことで、その現在位置が利用場所として入力される。ここでは住所の情報を住所Aとする。年齢と性別については、「50代」、「男」を選択して入力する。趣味については、予め表示されたチェック項目があるので、利用者は、該当箇所をチェックする。ここではお父さんの趣味の情報を趣味情報Aとする。
【0253】
続いて、お母さんの個人情報についても同様に入力する。住所B、40代、女、趣味情報Bからなる個人情報が作成される。このような入力の結果は、図22の画面表示例に示されるとおりである。
【0254】
最後に、カーナビゲーション装置は、このようにして作成された個人情報を利用情報として、付属の電話回線414を用いて、情報提供サーバ装置であるサーバ401に転送する。
【0255】
次に、サーバ401は、転送されてきた個人情報(利用情報)に基づいて、お父さんとお母さんの2個の行動予測モデルを作成する。ここで、行動予測モデルは、確率モデルで表現され、その入力は、曜日、時刻、現在地などで、出力は、お店Aの情報を提示する確率、お店Bの情報を提示する確率、お店Cの情報を提示する確率、駐車場の情報を提示する確率などである。
【0256】
サーバ401の参照モデル記憶部403に記憶されている複数の参照モデルは、年代、性別、代表的な住所と趣味の傾向で作成した行動予測モデルである。サーバ401では、予め、カメラ411に代えて、カーナビゲーション装置の入力ボタン等を用いて各種個人情報(上記入力及び出力についての情報)を入力することで、画像データ蓄積部412に各種個人情報を蓄積したうえで、参照モデル準備部402によって、画像データ蓄積部412に蓄積された個人情報から、複数種類の典型的な利用者ごとの参照モデル421が作成され、参照モデル記憶部403に格納されている。
【0257】
参照モデル選択部405は、個人情報(利用情報)を用いて、個人情報にふさわしい参照モデルを選択する。例えば、同じ町の、年代と性別が同じで、趣味のチェック項目が8割以上一致した参照モデルを選択する。サーバ401の標準モデル作成部406は、選択された参照モデルを統合した標準モデルを作成する。作成された標準モデルは書き込み部413により、メモリカードに記憶される。ここでは、お父さんとお母さんの2人の標準モデルが記憶される。メモリカードは、郵送で利用者に届けられる。
【0258】
利用者は、受け取ったメモリカードをカーナビゲーション装置に挿入し、画面に表示された「お父さん」と「お母さん」を選択することで、利用者を設定する。これによって、カーナビゲーション装置は、装着されたメモリカードに記憶された標準モデルを行動予測モデルとして使用することで、現在の曜日、時刻、場所などから、必要なタイミングでお店の情報などを提示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを行動予測モデルとして用いることで、人の行動(つまり、車による行先)を予測し、その行動に関連した情報を提供する情報提供システムが実現される。
【0259】
以上説明したように、本発明の第4の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい高精度な標準モデルが提供される。
【0260】
なお、標準モデル422を構成するGMMは、話者ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0261】
また、参照モデル準備部402は、必要に応じて新たな参照モデルを作成して参照モデル記憶部403に追加・更新してもよいし、参照モデル記憶部403に格納されている不要な参照モデルを削除してもよい。
【0262】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。
(第5の実施の形態)
図23は、本発明の第5の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ501に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル(適応モデル)を作成する場合を例にして説明する。
【0263】
サーバ501は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部511と、音声データ蓄積部512と、参照モデル準備部502と、参照モデル記憶部503と、利用情報受信部504と、参照モデル選択部505と、標準モデル作成部506と、仕様情報受信部507と、書き込み部513とを備える。
【0264】
読み込み部511は、CD−ROMなどのストレージデバイスに書き込まれた子供、成人、高齢者の音声データを読み込み、音声データ蓄積部512に蓄積する。参照モデル準備部502は、音声データ蓄積部512が蓄積した音声データを用いて話者ごとに参照モデル521を作成する。参照モデル記憶部503は、参照モデル準備部502が作成した参照モデル521を記憶する。
【0265】
仕様情報受信部507は、仕様情報525を受信する。利用情報受信部504は、利用情報524である利用者の音声を受信する。参照モデル選択部505は、利用情報524である利用者の音声に音響的に近い話者の参照モデルを、参照モデル記憶部503が記憶している参照モデル521から選択する。
【0266】
標準モデル作成部506は、仕様情報525に基づいて、参照モデル選択部505が選択した話者の参照モデル523に対する確率又は尤度を最大化又は極大化するように標準モデル522を作成する処理部であり、第1の実施の形態における標準モデル作成部104と同一の機能を有する。書き込み部513は、標準モデル作成部506が作成した標準モデル522をCD−ROMなどのストレージデバイスに書き込む。
【0267】
次に、以上のように構成されたサーバ501の動作について説明する。
図24は、サーバ501の動作手順を示すフローチャートである。図25は、サーバ501の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【0268】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(図24のステップS500)。つまり、読み込み部511は、CD−ROMなどのストレージデバイスに書き込まれた音声データを読み込み、音声データ蓄積部512に蓄積する。参照モデル準備部502は、音声データ蓄積部512が蓄積した音声データを用いて話者ごとに参照モデル521をバウム・ウェルチの再推定の方法により作成する。参照モデル記憶部503は、参照モデル準備部502が作成した参照モデル521を記憶する。
【0269】
参照モデル521は、音素ごとのHMMにより構成される。ここでは、図25の参照モデル521に示されるように、子供の各話者の参照モデルは、状態数3個、各状態は混合分布数が3個の混合ガウス分布によりHMMの出力分布が構成され、成人の各話者の参照モデルが、状態数3個、各状態は混合分布数が64個の混合ガウス分布によりHMMの出力分布が構成され、高齢者の各話者の参照モデルは、状態数3個、各状態は混合分布数が16個の混合ガウス分布によりHMMの出力分布が構成される。これは、子供の音声データが比較的少なく、成人の音声データが多いためである。特徴量として25次元(J=25)のメルケプストラム係数が用いられる。
【0270】
次に、利用情報受信部504は、利用者の音声を、端末装置514から、利用情報524として受信する(図24のステップS501)。参照モデル選択部505は、利用情報524である利用者の音声に音響的に近い参照モデル523を、参照モデル記憶部503が記憶している参照モデル521から選択する(図24のステップS502)。具体的には、図25の「選択された参照モデル523」に示されるように、ここでは、近い話者10人(Ng=10)の参照モデルが選択される
そして、仕様情報受信部507は、利用者の要求に基づき仕様情報525を端末装置514から受信する(図24のステップS503)。ここでは、速い認識処理という仕様情報525を受信する。標準モデル作成部506は、仕様情報受信部507が受信した仕様情報525に基づいて、参照モデル選択部505が選択した話者の参照モデル523に対する確率又は尤度を最大化又は極大化するように標準モデル522を作成する(図24のステップS504)。具体的には、標準モデル522は、図25の標準モデル522に示されるように、仕様情報525である速い認識処理という情報に基づいて、2混合(Mf=2)で、3状態のHMMより構成する。HMMは音素ごとに構成する。
【0271】
標準モデル522の作成方法は、第1の実施の形態と同様に行われる。
書き込み部513は、標準モデル作成部506が作成した標準モデル522をCD−ROMなどのストレージデバイスに書き込む(図24のステップS505)。
【0272】
次に、本実施の形態を、通信ネットワークを用いた音声認識によるゲームに適用した具体例を説明する。ここでは、サーバ501は、作成した標準モデルを用いて音声認識を行う音声認識部を備えるものとする。また、端末装置514として、PDAとする。これらは、通信ネットワークで接続されている。
【0273】
サーバ501では、読み込み部511、音声データ蓄積部512及び参照モデル準備部502により、音声データをCDやDVDなどで入手したタイミングで参照モデルを逐次準備している。
【0274】
利用者は、PDA(端末装置514)において、音声認識を利用したゲームプログラム、ここでは、「アクションゲーム」を立ち上げる。すると、「『アクション』と発声してください」と表示されるので、利用者は、「アクション」と発声する。その音声は、利用情報として、PDA(端末装置514)からサーバ501に送信され、サーバ501の利用情報受信部504及び参照モデル選択部505により、参照モデル記憶部503に記憶された複数の参照モデルの中から利用者に合った参照モデルを選択する。
【0275】
また、利用者は、速くリアクションしてほしいので、PDA(端末装置514)の設定画面において「高速に認識する」と設定する。その設定内容は、仕様情報として、PDA(端末装置514)からサーバ501に送信され、サーバ501においては、このような仕様情報及び選択された参照モデルに基づいて、標準モデル作成部506により、2混合の標準モデルが作成される。
【0276】
利用者は、アクションゲームにおいて、PDAのマイクに「右に移動」、「左に移動」などのコマンドを発声する。入力された音声は、サーバへ送信され、既に作成された標準モデルを利用した音声認識が行われる。その認識結果は、サーバ501からPDA(端末装置514)に送信され、PDA(端末装置514)において、送信されてきた認識結果に基づいて、アクションゲームのキャラクタが動く。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声によるアクションゲームが実現される。
【0277】
また、同様にして、本実施の形態を別のアプリケーション、例えば、通信ネットワークを用いた翻訳システムに適用することもできる。たとえば、利用者は、PDA(端末装置514)において、「音声翻訳」というアプリケーションプログラムを立ち上げる。すると、「『翻訳』と発声してください」と表示される。利用者は、「翻訳」と発声する。その音声は、利用情報として、PDA(端末装置514)からサーバ501に送信される。また、利用者は、正確に認識してほしいので、そのアプリケーションにおいて、「正確に認識してほしい」旨を指示する。その指示は、仕様情報として、PDA(端末装置514)からサーバ501に送信される。サーバ501では、送信されてきた利用情報及び仕様情報に従って、たとえば、100混合の標準モデルが作成される。
【0278】
利用者は、PDA(端末装置514)のマイクに向かって「おはようございます」と発声する。入力された音声はPDA(端末装置514)からサーバ501に送信され、サーバ501で「おはようございます」と認識された後に、その認識結果がPDA(端末装置514)に返信される。PDA(端末装置514)は、サーバ501から受信した認識結果を英語に翻訳し、その結果「GOOD MORNING」を画面に表示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声による翻訳装置が実現される。
【0279】
以上説明したように、本発明の第5の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【0280】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【0281】
また、参照モデル準備部502において、参照モデルごとにデータ数に適した混合分布数の精度の高い参照モデルを準備でき、精度の高い参照モデルを用いて標準モデルを作成できる。このため精度の高い標準モデルの利用が可能となる。
【0282】
なお、標準モデル522は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
【0283】
また、標準モデル522を構成するHMMは、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0284】
また、標準モデル522を用いて、サーバ501において音声認識を行ってもよい。
また、参照モデル準備部502は、必要に応じて新たな参照モデルを作成して参照モデル記憶部503に追加・更新してもよいし、参照モデル記憶部503に格納されている不要な参照モデルを削除してもよい。
【0285】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。
(第6の実施の形態)
図26は、本発明の第6の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ601に組み込まれた例が示されている。本実施の形態では意図理解のための標準モデル(嗜好モデル)を作成する場合を例にして説明する。
【0286】
サーバ601は、通信システムにおけるコンピュータ装置等であり、事象の出力確率によって定義される意図理解用の標準モデルを作成する標準モデル作成装置として、読み込み部611と、参照モデル準備部602と、参照モデル記憶部603と、利用情報受信部604と、参照モデル選択部605と、標準モデル作成部606と、仕様情報作成部607とを備える。
【0287】
読み込み部611は、CD−ROMなどのストレージデバイスに書き込まれた年齢別の話者Aさんから話者Zさんの嗜好モデルを読み込み、参照モデル準備部602は、読み込まれた参照モデル621を参照モデル記憶部603へ送信し、参照モデル記憶部603は、参照モデル621を記憶する。
【0288】
仕様情報作成部607は、普及しているコンピュータのCPUパワーに合わせて仕様情報625を作成する。利用情報受信部604は、端末装置614から利用情報624を受信する。参照モデル選択部605は、利用情報受信部604が受信した利用情報624に基づいて、参照モデル記憶部603が記憶している参照モデル621からの中から、利用情報624に対応した参照モデル623を選択する。
【0289】
標準モデル作成部606は、仕様情報作成部607が作成した仕様情報625に基づいて、参照モデル選択部605が選択した参照モデル623に対する確率又は尤度を最大化又は極大化するように標準モデル622を作成する処理部であり、第2の実施の形態における標準モデル作成部206と同一の機能を有するとともに、第3の実施の形態における第2近似部306eの機能を有する。つまり、第2及び第3の実施の形態で示された2種類の近似計算を組み合わせた計算を行う。
【0290】
次に、以上のように構成されたサーバ601の動作について説明する。
図27は、サーバ601の動作手順を示すフローチャートである。図28は、サーバ601の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【0291】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(図27のステップS600)。つまり、読み込み部611は、CD−ROMなどのストレージデバイスに書き込まれた年齢別の話者Aさんから話者Zさんの嗜好モデルを読み込み、参照モデル準備部602は、読み込まれた参照モデル621を参照モデル記憶部603へ送信し、参照モデル記憶部603は、参照モデル621を記憶する。
【0292】
参照モデル621は、GMMより構成される。ここでは、図28の参照モデル621に示されるように、混合分布数が3個のGMMにより構成される。学習データとして、趣味、性格などを数値化した5次元(J=5)の特徴量を用いる。参照モデルの準備は、標準モデルの作成が要求される以前に行う。
【0293】
次に、利用情報受信部604は、嗜好モデルを作成したい年齢層である利用情報624を受信する(図27のステップS601)。ここでは、20代、30代、40代の年代別の嗜好モデルを利用するという利用情報624である。参照モデル選択部605は、図28の「選択された参照モデル623」に示されるように、利用情報受信部604が受信した利用情報624が示す年代の話者の嗜好モデルを、参照モデル記憶部603が記憶している参照モデル621から選択する(図27のステップS602)。
【0294】
そして、仕様情報作成部607は、普及しているコンピュータのCPUパワー、記憶容量などに基づき仕様情報625を作成する(図27のステップS603)。ここでは、通常速度の認識処理という仕様情報625を作成する。
【0295】
標準モデル作成部606は、仕様情報作成部607が作成した仕様情報625に基づいて、参照モデル選択部605が選択した話者の参照モデル623に対する確率又は尤度を最大化又は極大化するように標準モデル622を作成する(図27のステップS604)。ここでは、標準モデル622は、図28の標準モデル622に示されるように、仕様情報625である通常速度の認識処理という情報に基づいて3混合(Mf=3)のGMMより構成する。
【0296】
標準モデル622の作成方法は、基本的には、第2の実施の形態と同様に行われる。ただし、標準モデル622の統計量の推定における近似計算については、具体体には、以下のようにして行われる。つまり、標準モデル作成部606は、内蔵の記憶部等を介することで、第2の実施の形態における一般近似部206eによる近似計算と同様の近似計算による計算を行い、その結果を初期値として第3の実施の形態における第2近似部306eによる近似計算と同様の近似計算を行う。
【0297】
次に、本実施の形態を情報検索装置に適用した具体例を説明する。ここでは、参照モデルは、入力が検索キーワードであり、出力が検索ルールA、検索ルールBなどを利用する確率である。異なる検索ルールを用いると、表示される検索結果が異なってくる。また、サーバ601の参照モデル記憶部603に準備される参照モデルは、代表的な特徴をもつ話者のモデルとする。
【0298】
まず、利用者は、サーバ601に付属しているリモコン(端末装置614)を用いて利用情報を入力する。利用情報は、年齢、性格、性別、趣味などでである。また、「子供」、「俳優」、「高校生」などの所定のグループを識別する情報であってもよい。
【0299】
続いて、利用者は、選択画面で、「カーナビゲーション装置用」、「携帯電話用」、「パソコン用」、「テレビ用」などから1つの利用機器を選択する。サーバ601の仕様情報作成部607は、利用機器のCPUパワー、記憶容量に基づいて仕様情報を作成する。ここでは、「テレビ用」が選択されたとし、CPUパワーと記憶容量が小さい旨の仕様情報625が作成され、その仕様情報625に基づいて、標準モデル作成部606によって、小さいCPUパワーでも動作する3混合の標準モデルが作成される。作成された標準モデルはメモリカードに書き込まれ、そのメモリカードは利用者によってテレビに挿入される。
【0300】
利用者は、テレビに表示されたEPGなどで、おすすめ番組を検索するために検索キーワードを入力する。すると、テレビは、メモリカードに記録された標準モデルを用いて、検索キーワードに合った検索ルールを決定し、その検索ルールに沿って番組を検索し、利用者の嗜好にあった番組として表示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた便利な検索装置が実現される。
【0301】
以上説明したように、本発明の第6の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【0302】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【0303】
なお、標準モデル622を構成するGMMは、話者ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0304】
また、参照モデル準備部602は、必要に応じてCD−ROMなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部603に追加・更新してもよいし、参照モデル記憶部603に格納されている不要な参照モデルを削除してもよい。
【0305】
また、参照モデル及び標準モデルのGMMはベイジアンネットの一部を表現するものでもよい。
【0306】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
(第7の実施の形態)
図29は、本発明の第7の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ701に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル(適応モデル)を作成する場合を例にして説明する。
【0307】
サーバ701は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部711と、参照モデル準備部702と、参照モデル記憶部703と、利用情報受信部704と、参照モデル選択部705と、標準モデル作成部706と、仕様情報受信部707と、標準モデル記憶部708と、標準モデル送信部709とを備える。
【0308】
参照モデル準備部702は、読み込み部711が読み込んだ、CD−ROMなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部703へ送信し、参照モデル記憶部703は、送信された参照モデル721を記憶する。
【0309】
仕様情報受信部707は、端末装置712から仕様情報725を受信する。利用情報受信部704は、端末装置712から利用情報724である雑音下で発声した利用者の音声を受信する。参照モデル選択部705は、利用情報724である利用者の音声に音響的に近い話者・雑音・声調子の参照モデル723を、参照モデル記憶部703が記憶している参照モデル721の中から選択する。
【0310】
標準モデル作成部706は、仕様情報受信部707が受信した仕様情報725に基づいて、参照モデル選択部705が選択した参照モデル723に対する確率又は尤度を最大化又は極大化するように標準モデル722を作成する処理部であり、第2の実施の形態における標準モデル作成部206と同一の機能を有する。標準モデル記憶部708は、仕様情報725に基づいた1もしくは複数の標準モデルを記憶する。標準モデル送信部709は、利用者の端末装置712から仕様情報と標準モデルの要求信号を受信すると、その仕様情報に適した標準モデルを端末装置712へ送信する。
【0311】
次に、以上のように構成されたサーバ701の動作について説明する。
図30は、サーバ701の動作手順を示すフローチャートである。図31は、サーバ701の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【0312】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(図30のステップS700)。つまり、参照モデル準備部702は、読み込み部711が読み込んだ、CD−ROMなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部703へ送信し、参照モデル記憶部703は、送信された参照モデル721を記憶する。ここでは、参照モデル721は、話者・雑音・声の調子ごとに、音素ごとのHMMにより構成される。また、各参照モデルは、図31の参照モデル721に示されるように、状態数3個、各状態は混合分布数が128個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として25次元(J=25)のメルケプストラム係数が用いられる。
【0313】
次に、利用情報受信部704は、利用者Aの雑音下での音声を端末装置712から利用情報724として受信する(図30のステップS701)。参照モデル選択部705は、利用情報724である利用者Aの音声に音響的に近い参照モデル723を、参照モデル記憶部703が記憶している参照モデル721の中から選択する(図30のステップS702)。具体的には、図31の「選択された参照モデル723」に示されるように、ここでは、近い話者100人(Ng=100)の参照モデルが選択される
そして、仕様情報受信部707は、利用者Aの要求に基づき仕様情報725を端末装置712から受信する(図30のステップS703)。ここでは、高い認識精度という仕様情報725を受信する。標準モデル作成部706は、仕様情報725に基づいて、参照モデル選択部705が選択した参照モデル723に対する確率又は尤度を最大化又は極大化するように標準モデル722を作成する(図30のステップS704)。具体的には、標準モデル722は、図31の標準モデル722に示されるように、仕様情報725である高い認識精度という情報に基づいて、64混合(Mf=64)で、3状態のHMMより構成する。HMMは音素ごとに構成する。
【0314】
標準モデル722の作成方法は、第2の実施の形態と同様に行われる。
標準モデル記憶部708は、仕様情報725に基づいた1もしくは複数の標準モデル722を記憶する。ここでは、以前に作成した標準モデルである利用者Bの16混合のHMMがすでに記憶されており、新たに利用者Aの64混合のHMMが記憶される。
【0315】
利用者Aは、端末装置712からサーバ701の標準モデル送信部709へ、仕様情報である利用者Aと雑音の種類と標準モデルの要求信号とを送信する(図30のステップS706)。標準モデル送信部709は、利用者Aが送信した仕様情報と標準モデルの要求信号とを受信すると、その端末装置712へ、仕様に適した標準モデルを端末装置712へ送信する(図30のステップS707)。ここでは、先ほど作成した利用者Aの標準モデル722を端末装置712へ送信する。
【0316】
利用者Aは端末装置712において受信した標準モデル722を用いて音声認識を行う(図30のステップS708)。
【0317】
次に、本実施の形態を、通信ネットワークで接続されたカーナビゲーション装置(端末装置712)とサーバ装置(サーバ701;標準モデル作成装置)から構成される音声認識システムに適用した具体例を説明する。
【0318】
まず、利用者は、カーナビゲーション装置(端末装置712)の画面にて「自分の音声モデルを獲得」する旨のボタンを選択する。すると、「名前を入力」と表示されるので、ボタン操作により自分の名前を入力する。次に、「『音声』と発声してください」と表示されるので、利用者は、カーナビゲーション装置付属のマイクに向かって「音声」と発声する。これらの情報(利用者の名前、雑音下での音声)は、利用情報として、カーナビゲーション装置(端末装置712)からサーバ701に送信される。
【0319】
同様にして、利用者は、カーナビゲーション装置(端末装置712)の画面にて「高精度の音声認識」のボタンを選択する。すると、その選択情報は、仕様情報として、カーナビゲーション装置(端末装置712)からサーバ701に送信される。
【0320】
サーバ701は、それらの利用情報及び仕様情報に基づいて、利用者にふさわしい音声認識用の標準モデルを作成し、作成した標準モデルを利用者の名前と対応づけて標準モデル記憶部708に格納しておく。
【0321】
次回にカーナビゲーション装置(端末装置712)を起動すると、「名前を入力」と表示されるので、利用者は、名前を入力する。すると、その名前がサーバ701に送信され、標準モデル722に格納された対応する標準モデルが標準モデル送信部709によってサーバ701から端末装置712に送信される。名前(利用者)に対応した標準モデルをサーバ701からダウンロードした端末装置712は、その標準モデルを用いて、利用者に対する音声認識を行い、音声による目的地設定などを行う。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声によってカーナビゲーション装置を操作することが可能となる。
【0322】
以上説明したように、本発明の第7の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。
【0323】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【0324】
また、標準モデル記憶部708は、複数の標準モデルを記憶することができるため、必要に応じてすぐに標準モデルが提供される。
【0325】
また、標準モデル送信部709により、標準モデルが端末装置712へ送信されるので、端末装置712とサーバ701が空間的に離れた場所に設置してある場合に、端末装置712は、容易にサーバ701が作成した標準モデルを利用することできる。
【0326】
なお、標準モデル722は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
【0327】
また、標準モデル722を構成するHMMは、状態ごとに異なる混合数の混合ガウス分布により構成してもよい。
【0328】
また、標準モデル722を用いて、サーバ701において音声認識を行い、認識結果を端末装置712へ送信してもよい。
【0329】
また、参照モデル準備部702は、必要に応じて新たな参照モデルを作成して参照モデル記憶部703に追加・更新してもよいし、参照モデル記憶部703に格納されている不要な参照モデルを削除してもよい。
【0330】
また、参照モデル準備部702は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部703に追加・更新してもよい。
【0331】
また、標準モデルを作成したのちに、さらにデータにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
(第8の実施の形態)
図32は、本発明の第8の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置が携帯電話901に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【0332】
携帯電話901は、携帯情報端末であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、参照モデル受信部909と、参照モデル準備部902と、参照モデル記憶部903と、利用情報作成部904と、参照モデル選択部905と、類似度情報作成部908と、標準モデル作成部906と、仕様情報作成部907と、マイク912と、音声認識部913とを備える。
【0333】
利用情報作成部904は、利用情報924を携帯電話901の画面とキーを利用して作成する。
【0334】
仕様情報作成部907は、携帯電話901の仕様に基づき仕様情報925を作成する。ここで、仕様情報とは、作成する標準モデルの仕様に関する情報であり、ここでは、携帯電話901が備えるCPUの処理能力に関する情報である。
【0335】
類似度情報作成部908は、利用情報924と仕様情報925と参照モデル記憶部903が記憶した参照モデル921に基づいて、類似度情報926を作成して参照モデル準備部に送信する。
【0336】
参照モデル準備部902は、類似度情報926に基づいて、参照モデルを準備するか否かを決定する。参照モデル準備部902は、参照モデルを準備すると決定した場合に、利用情報924と仕様情報925を参照モデル受信部909に送信する。
【0337】
参照モデル受信部909は、利用情報924と仕様情報925に対応した参照モデルを、サーバ装置910から受信して参照モデル準備部902に送信する。
【0338】
参照モデル準備部902は、参照モデル受信部909が送信した参照モデルを参照モデル記憶部903に記憶する。
【0339】
参照モデル選択部905は、利用情報924に対応した参照モデル923を、参照モデル記憶部903が記憶している参照モデル921の中から選択する。
【0340】
標準モデル作成部906は、仕様情報作成部907で作成された仕様情報925に基づいて、参照モデル選択部905が選択した参照モデル923に対する確率又は尤度を最大化又は極大化するように標準モデル922を作成する処理部であり、標準モデルの構造(ガウス分布の混合分布数など)を決定する標準モデル構造決定部906aと、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部906bと、決定された初期標準モデルを記憶する統計量記憶部906cと、統計量記憶部906cに記憶された初期標準モデルに対して、第3近似部906eによる近似計算等を用いることにより、参照モデル選択部905が選択した参照モデル923に対する確率又は尤度を最大化又は極大化するような統計量を算出する(最終的な標準モデルを生成する)統計量推定部906dとからなる。
【0341】
音声認識部913は、標準モデル作成部906で作成された標準モデル922を用いて、マイク912から入力された利用者の音声を認識する。
【0342】
次に、以上のように構成された携帯電話901の動作について説明する。
図33は、携帯電話901の動作手順を示すフローチャートである。
【0343】
いま、参照モデル記憶部903には、あらかじめ参照モデル921として子供用モデルが記憶されているとする。その参照モデル921は、音素ごとのHMMにより構成される。参照モデル921の一例を図34に示す。ここでは、子供用参照モデルのイメージ図が示されている。これらの参照モデルは、状態数3個、各状態は分布数が16個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として、12次元のメルケプストラム係数、12次元のデルタメルケプストラム係数、デルタパワーの合計25次元(J=25)の特徴量が用いられる。
【0344】
まず、利用情報作成部904は、利用者の属するカテゴリである利用情報924を作成する(ステップS900)。図36は、利用情報924の作成例を示す図である。図36(a)に携帯電話901の選択画面の一例を示す。ここでは、「4:成人」のボタンを押すことにより、この携帯電話901が成人女性と成人男性に利用されることが選択されている。別の一例を図36(b)に示す。ここでは、「メニュー」ボタンを押しながら音声を入力している。その利用者の音声は、特徴量に変換されることで、利用情報924である"利用者の音声データ"が作成される。
【0345】
一方、仕様情報作成部907は、携帯電話901の仕様に基づき、仕様情報925を作成する(ステップS901)。ここでは、携帯電話901のメモリ容量の大きさに基づいて「混合分布数16」という仕様情報925を作成する。
【0346】
次に、類似度情報作成部908は、利用情報924と仕様情報925と参照モデル記憶部903が記憶した参照モデル921に基づいて、類似度情報926を作成して(ステップS902)、類似度情報926を参照モデル準備部902に送信する。ここでは、参照モデル記憶部903に存在する参照モデル921は、混合分布数3の子供用モデル(図34を参照)のみであり、利用情報924である「成人」(図36(a)に対応)と仕様情報925である「混合分布数16」に対応する参照モデルが参照モデル記憶部903に存在しないため、「類似した参照モデルが存在しない」という類似度情報926を作成して、類似度情報926を参照モデル準備部902に送信する。別の一例では、利用情報924は"利用者の音声データ"(図36(b)に対応)であり、利用者の音声データを参照モデル記憶部903が記憶している子供用モデルに入力して類似度情報926を作成する。ここでは、子供用モデルに対する尤度が所定のしきい値以下であるため、「類似した参照モデルが存在しない」という類似度情報926を作成して参照モデル準備部902に送信する。
【0347】
続いて、参照モデル準備部902は、類似度情報926に基づいて、参照モデルを準備するか否かを決定する(ステップS903)。ここでは、「類似した参照モデルが存在しない」ため、図37(a)の携帯電話901の画面表示例に示すように利用者に参照モデルの準備を促す。ここで、利用者が「メモ」ボタンを押して参照モデルの準備を要求した場合に、参照モデル準備部902は、参照モデルを準備すると決定して、利用情報924と仕様情報925を参照モデル受信部909に送信する。別の一例では、「類似した参照モデルが存在しない」ため、参照モデル準備部902は、自動的に参照モデルを準備すると決定して、利用情報924と仕様情報925を参照モデル受信部909に送信する。この場合の携帯電話901の画面の一例を図37(b)に示す。
【0348】
これに対して、参照モデル受信部909は、利用情報924と仕様情報925に対応した参照モデルをサーバ装置910から受信して参照モデル準備部902に送信する。ここでは、参照モデル受信部909は、利用情報924である「成人」(図36(a)に対応)と仕様情報925である「混合分布数16」に対応する参照モデルである、"混合分布数16の成人女性用モデル"と"混合分布数16の成人男性用モデル"の2個の参照モデルをサーバ装置910から受信する。
【0349】
そして、参照モデル準備部902は、参照モデル受信部909が送信した参照モデルを参照モデル記憶部903に記憶することによって参照モデルを準備する(ステップS904)。図35にその参照モデルの一例を示す。ここでは、成人男性用、成人女性用、子供用の参照モデルのイメージ図が示されている。
【0350】
次に、参照モデル選択部905は、利用情報924である「成人」に対応した同じカテゴリに属する"混合分布数16の成人女性用モデル"と"混合分布数16の成人男性用モデル"の2個の参照モデルを参照モデル記憶部903が記憶している参照モデル921の中から選択する(ステップS905)。別の一例では、参照モデル選択部905は、利用情報924である"利用者の音声データ"と音響的に近い(尤度が大きい)"混合分布数16の成人女性用モデル"と"混合分布数16の成人男性用モデル"の2個の参照モデルを参照モデル記憶部903が記憶している参照モデル921の中から選択する。
【0351】
続いて、標準モデル作成部906は、作成された仕様情報925に基づいて、参照モデル選択部905が選択した参照モデル923に対する確率又は尤度を最大化又は極大化するように標準モデル922を作成する(ステップS906)。
【0352】
最後に、音声認識部913は、標準モデル作成部906によって作成された標準モデル922に従って、マイク912から入力された利用者の音声を認識する(ステップS907)。
【0353】
次に、図33におけるステップS906(標準モデルの作成)の詳細な手順を説明する。手順の流れは、図4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【0354】
まず、標準モデル構造決定部906aは、標準モデルの構造を決定する(図4のステップS102)。ここでは、標準モデルの構造として、仕様情報925である「混合分布数16」に基づいて、音素ごとのHMMにより構成し、状態数を3とし、各状態における出力分布の混合分布数を16個(Mf=16)と決定する。
【0355】
次に、初期標準モデル作成部906bは、標準モデルを計算するための統計量の初期値を決定する(図4のステップS102b)。ここでは、選択された参照モデル923である"混合分布数16の成人女性用モデル"を統計量の初期値として統計量記憶部906cに記憶する。別の一例では、選択された参照モデル923である"混合分布数16の成人男性女モデル"を統計量の初期値として統計量記憶部906cに記憶する。具体的には、初期標準モデル作成部906bは、上記数13に示される出力分布を生成する。
【0356】
そして、統計量推定部906dは、参照モデル選択部905が選択した2個の参照モデル923を用いて、統計量記憶部906cに記憶された標準モデルの統計量を推定する(図4のステップS102c)。つまり、2個(Ng=2)の参照モデル923における出力分布、即ち、上記数19に示される出力分布に対する標準モデルの確率(ここでは、上記数25に示される尤度logP)を極大化もしくは最大化するような標準モデルの統計量(上記数16に示される混合重み係数、上記数17に示される平均値、及び、上記数18に示される分散値)を推定する。ただし、本実施の形態では、上記数19に示された出力分布における数21は、16(各参照モデルの混合分布数)である。
【0357】
具体的には、上記数26、数27及び数28に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。
【0358】
このとき、統計量推定部906dの第3近似部906eは、標準モデルの各ガウス分布はお互いに影響を与えないと仮定して、数53の近似式を用いる。また、繰り返し回数Rが1回目の場合には、数54に示される標準モデルのガウス分布の近傍の数55とは、数54が示す出力分布とのマハラノビス距離、カルバック・ライブラー(KL)距離などの分布間距離が最も近いものと2番目に近いものの2個(近傍指示パラメータG=2)の数56に示される参照モデル923のガウス分布が存在する空間であると近似する。一方、繰り返し回数Rが2回目以上の場合には、数54に示される標準モデルのガウス分布の近傍の数55とは、数54が示す出力分布とのマハラノビス距離、カルバック・ライブラー(KL)距離などの分布間距離が最も近いもの1個(近傍指示パラメータG=1)の数56に示される参照モデル923のガウス分布が存在する空間であると近似する。
【0359】
以上の第3近似部906eによる近似式を考慮してまとめると、統計量推定部906dでの計算式は、次の通りになる。つまり、統計量推定部906dは、数59、数60及び数61に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、それらのパラメータによって特定される標準モデルを最終的な標準モデル922として生成する。ただし、第3の実施の形態における第2の方法である、混合重み係数の値をゼロにして、平均値をゼロ、分散値を1にする方法を用いる。また、繰り返し回数に対応して近傍指示パラメータGの値は異なる。なお、近傍指示パラメータGの値に依存して、上記の方法を、第3の実施の形態における第1から第3の方法のいずれかに決定してもよい。
【0360】
統計量推定部906dは、このように推定した標準モデルの統計量を統計量記憶部906cに記憶する。そして、このような統計量の推定と統計量記憶部906cへの記憶をR(≧1)回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル922の統計量として出力する。
【0361】
図38に、第3近似部906eを用いて作成した標準モデル922を用いた認識実験の結果を示す。縦軸に成人(男性と女性)の認識率(%)、横軸に繰り返し回数Rを示す。繰り返し回数R=0とは、学習を行う前での初期標準モデル作成部906bが作成した初期モデルにより認識した結果である。また、繰り返し回数R=1のときは、近傍指示パラメータG=2とし、繰り返し回数R=2〜5のときは、近傍指示パラメータG=1とした。
【0362】
グラフ「データ」は、数日間かけて音声データより学習した場合の結果を表しており、グラフ「女性」、グラフ「男性」は、それぞれ、初期モデルを成人女性、成人男性としたときの結果を表している。参照モデルによる本発明による学習時間は数十秒のオーダーであった。実験結果より、短時間に高い精度の標準モデルが作成できていることがわかる。
【0363】
ここで、参考のために、図39に、第3の実施の形態における第2近似部306eにより作成された標準モデルによる認識率を示す。本実施の形態における第3近似部906eと異なるのは、繰り返し回数Rによらず近傍指示パラメータG=1であるということである。実験結果より、初期モデルとして成人女性を選択すると良好な結果が得られることがわかる。また、初期モデルとして成人男性を選択すると、精度が少し劣化していることがわかる。図38の結果とあわせると、第3近似部906eによる標準モデルは初期モデルに依存せずに高い精度の標準モデルが作成できていることがわかる。
【0364】
以上説明したように、本発明の第8の実施の形態によれば、類似度情報に基づいて参照モデルを準備するため、利用情報及び仕様情報にふさわしい参照モデルを必要なタイミングで準備することができる。また、近傍指示パラメータGを繰り返し回数Rによって変化させることで、初期モデルにかかわらず精度の高い標準モデルを提供することができる。
【0365】
なお、統計量推定部906dによる処理の繰り返し回数は、上記数25に示された尤度の大きさがある一定のしきい値以上になるまでの回数としてもよい。
【0366】
また、標準モデル922は、音素ごとにHMMを構成するに限らず、文脈依存のHMMで構成してもよい。
【0367】
また、標準モデル作成部906は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【0368】
また、標準モデル922を構成するHMMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0369】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
(第9の実施の形態)
図40は、本発明の第9の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がPDA(Personal Digital Assistant)1001に組み込まれた例が示されている。以下、本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。
【0370】
PDA1001は、携帯情報端末であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、参照モデル記憶部1003と、標準モデル作成部1006と、アプリ・仕様情報対応データベース1014と、マイク1012と、音声認識部1013とを備える。標準モデル作成部1006は、標準モデル構造決定部1006aと、初期標準モデル作成部1006bと、統計量記憶部306cと、統計量推定部306dとを備える。
【0371】
標準モデル作成部1006は、送信されたアプリ起動情報1027(ここでは、起動したアプリケーションのID番号)に基づいて、アプリ・仕様情報対応データベース1014を用いて、仕様情報1025を取得する。図41は、仕様情報対応データベース1014のデータ例を示す。仕様情報対応データベース1014には、アプリケーション(ID番号及び名前)に対応する仕様情報(ここでは、混合分布数)が登録されている。
【0372】
標準モデル作成部1006は、取得した仕様情報1025に基づいて、参照モデル記憶部1003が記憶した1個の参照モデル1021に対する確率又は尤度を最大化又は極大化するように標準モデル1022を作成する処理部であり、第3の実施の形態における第2近似部306eの機能を有する。
【0373】
音声認識部1013は、標準モデル作成部1006で作成された標準モデル1022を用いて、マイク1012から入力された利用者の音声を認識する。
【0374】
次に、以上のように構成されたPDA1001の動作について説明する。
図42は、PDA1001の動作手順を示すフローチャートである。
【0375】
ここで、参照モデル記憶部1003には、あらかじめ多くの混合分布数をもつ利用者用モデルが参照モデル1021として1個、記憶されているとする。参照モデル1021は、音素ごとのHMMにより構成される。参照モデル1021の一例を図43に示す。この参照モデルは、状態数3個、各状態は分布数が300個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として、12次元のメルケプストラム係数、12次元のデルタメルケプストラム係数、デルタパワーの合計25次元(J=25)の特徴量が用いられる。
【0376】
まず、利用者は、例えば「株取引」というアプリケーションを起動する(ステップS1000)。
【0377】
これに対して、標準モデル作成部1006は、アプリ起動情報として起動されたアプリケーションのID「3」を受信する(ステップS1001)。そして、アプリ・仕様情報対応データベース1014を用いてID「3」に対応する仕様情報1025である「混合分布数126」に基づいて、標準モデル1022を作成する(ステップS1002)。具体的には、標準モデル1022として、混合分布数126(Mf=126)で、3状態の文脈依存型のHMMにより構成する。
【0378】
次に、標準モデル作成部1006は、仕様情報1025を受信して(ステップS1001)、仕様情報1025に基づいて標準モデルを作成する(ステップS1002)。
【0379】
最後に、音声認識部1013は、標準モデル作成部1006によって作成された標準モデル1022に従って、マイク1012から入力された利用者の音声を認識する(ステップS1003)。
【0380】
次に、図42におけるステップS1002(標準モデルの作成)の詳細な手順を説明する。手順の流れは、図4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。
【0381】
まず、標準モデル構造決定部1006aは、アプリ起動情報1027としてアプリケーションID「3」を受信した後に、アプリ・仕様情報対応データベース1014を用いてID「3」に対応した仕様情報1025(「混合分布数126」)を参照することにより、標準モデルの構造を混合分布数126(Mf=126)で、3状態の文脈依存型のHMMと決定する(図4のステップS102a)。
【0382】
そして、初期標準モデル作成部1006bは、標準モデル構造決定部1006aが決定した標準モデルの構造に基づいて、標準モデルを計算するための統計量の初期値を決定する(図4のステップS102b)ここでは、k-means法とマハラノビス汎距離を用いた方法により、後述するクラスタリングを行ったものを統計量の初期値として統計量記憶部306cに記憶する。
【0383】
そして、統計量推定部306dは、参照モデル記憶部1003に格納された参照モデル1021を用いて、統計量記憶部306cに記憶された標準モデルの統計量を推定する(図4のステップS102c)。なお、この統計量推定部306dによる推定処理は、第3の実施の形態と同様である。
【0384】
次に、初期標準モデル作成部1006bによる初期値の決定方法、つまり、k-means法とマハラノビス汎距離を用いた方法によるクラスタリングについて説明する。図44にクラスタリングのフローチャートを示す。また、図45〜図48にクラスタリングのイメージ図を示す。
【0385】
まず、図44のステップS1004において、標準モデルの混合分布数である126個の代表点を準備する(図45)。ここでは、参照モデルの300個の出力分布の中から126個の出力分布を選択して、選択された分布の平均値を代表点とする。
【0386】
次に、図44のステップS1005において、各代表点にマハラノビス汎距離が近い参照モデルの出力ベクトルを決定する(図46)。そして、図44のステップS1006において、ステップS1005で決定した近い分布を1つのガウス分布で表現して平均値を新しい代表点とする(図47)。
【0387】
続いて、図44のステップS1007において、クラスタリング操作を停止するかどうかを決定する。ここでは、各代表点と参照ベクトルの分布とのマハラノビス汎距離の変化率(1回前の代表点との距離との差分)がしきい値以下になった場合に停止とする。停止条件を満たさない場合、図44のステップS1005に戻り、近い分布を決定して同様の操作を繰り返す。
【0388】
一方、停止条件を満たす場合には、図44のステップS1008に進み、統計量の初期値を決定して統計量記憶部306cに記憶する。このようにして、クラスタリングによる初期値の決定が行われる。
【0389】
以上説明したように、本発明の第9の実施の形態によれば、アプリケーションに連動して自動的に仕様情報にふさわしい標準モデルを獲得することができる。
【0390】
なお、標準モデル1022は、音素ごとにHMMを構成してもよい。
また、標準モデル作成部1006は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。
【0391】
また、標準モデル1022を構成するHMMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。
【0392】
また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。
また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などのHMMの構造や、状態数などを決定してもよい。
(第10の実施の形態)
図49は、本発明の第10の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ801に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル(適応モデル)を作成する場合を例にして説明する。
【0393】
サーバ801は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部711と、参照モデル準備部702と、参照モデル記憶部703と、利用情報受信部704と、参照モデル選択部705と、標準モデル作成部706と、仕様情報受信部707と、標準モデル記憶部708と、標準モデル送信部709と、参照モデル受信部810とを備える。
【0394】
参照モデル準備部702は、読み込み部711が読み込んだ、CD−ROMなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部703へ送信する。参照モデル記憶部703は、送信された参照モデル721を記憶する。また、参照モデル準備部702は、端末装置712からの送信に対して参照モデル受信部810が受信した音声認識用参照モデルを参照モデル記憶部703へ送信する。参照モデル記憶部703は、送信された参照モデル721を記憶する。
【0395】
仕様情報受信部707は、端末装置712から仕様情報725を受信する。利用情報受信部704は、端末装置712から利用情報724である雑音下で発声した利用者の音声を受信する。参照モデル選択部705は、利用情報受信部704が受信した利用情報724である利用者の音声に音響的に近い話者・雑音・声調子の参照モデル723を、参照モデル記憶部703が記憶している参照モデル721から選択する。
【0396】
標準モデル作成部706は、仕様情報725に基づいて、参照モデル選択部705が選択した参照モデル723に対する確率又は尤度を最大化又は極大化するように標準モデル722を作成する処理部であり、第2の実施の形態における標準モデル作成部206と同一の機能を有する。標準モデル記憶部708は、仕様情報725に基づいた1もしくは複数の標準モデルを記憶する。標準モデル送信部709は、利用者の端末装置712から、仕様情報725と標準モデルの要求信号とを受信すると、その端末装置712へ、仕様に適した標準モデルを送信する。
【0397】
次に、以上のように構成されたサーバ801の動作について説明する。
図50は、サーバ801の動作手順を示すフローチャートである。なお、このサーバ801の動作手順を説明するための参照モデル及び標準モデルの一例は、第7に実施の形態における図31と同様である。
【0398】
まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する(図50のステップS800、S801)。つまり、参照モデル準備部702は、読み込み部711が読み込んだ、CD−ROMなどのストレージデバイスに書き込まれた話者・雑音・声の調子別の音声認識用参照モデルを参照モデル記憶部703へ送信し、参照モデル記憶部703は、送信された参照モデル721を記憶する(図50のステップS800)。ここでは、参照モデル721は、話者・雑音・声の調子ごとに、音素ごとのHMMにより構成される。また、参照モデル準備部702は、端末装置712が送信して参照モデル受信部810が受信した、利用者と端末装置712に適した音声認識用参照モデルを参照モデル記憶部703へ送信し、参照モデル記憶部703は、送信された参照モデル721を記憶する(図50のステップS801)。ここでは、各参照モデルは、図31の参照モデル721に示されるように、状態数3個、各状態は混合分布数が128個の混合ガウス分布によりHMMの出力分布が構成される。特徴量として25次元(J=25)のメルケプストラム係数が用いられる。
【0399】
以下、これらの参照モデル721を用いた標準モデル722の作成及び端末装置712への送信(図50のステップS802〜S809)は、第7の実施の形態における手順(図30のステップS701〜S708)と同様である。
【0400】
このようにして、端末装置712に記憶された自分用モデルをサーバにアップロードして標準モデル作成の材料にすることができるので、例えば、サーバ801において、アップロードされてきた参照モデルと既に保持している他の参照モデルとを統合して更に混合数の多い高精度の標準モデルを作成し、端末装置712にダウンロードして利用することが可能となる。したがって、端末装置712に簡易的な適応機能が付属され、簡易的に適応したモデルをアップロードして、さらに高精度な標準モデルを作成することもできる。
【0401】
図51は、本実施の形態における標準モデル作成装置を具体的に適用したシステム例を示す図である。ここには、インターネットや無線通信等を介して通信し合うサーバ701と端末装置712(携帯電話機712a、カーナビゲーション装置712b)とが示されている。
【0402】
たとえば、携帯電話機712aは、利用者の音声を利用情報とし、携帯電話機での利用である旨(CPUの処理能力が低いこと)を仕様情報とし、予め記憶しているサンプルモデルを参照モデルとし、それら利用情報、仕様情報及び参照モデルをサーバ701に送信することで、標準モデルの作成を要求する。その要求に対してサーバ701で標準モデルが作成されると、携帯電話機712aは、その標準モデルをダウンロードし、その標準モデルを用いて利用者の音声を認識する。例えば、利用者の音声が、内部に保持するアドレス帳の名前と一致した場合には、その名前に対応する電話番号に自動発呼する。
【0403】
また、カーナビゲーション装置712bは、利用者の音声を利用情報とし、カーナビゲーション装置での利用である旨(CPUの処理能力が通常であること)を仕様情報とし、予め記憶しているサンプルモデルを参照モデルとし、それら利用情報、仕様情報及び参照モデルをサーバ701に送信することで、標準モデルの作成を要求する。その要求に対してサーバ701で標準モデルが作成されると、カーナビゲーション装置712bは、その標準モデルをダウンロードし、その標準モデルを用いて利用者の音声を認識する。例えば、利用者の音声が、内部に保持する地名と一致した場合には、その地名を目標点とする現地点からの道順を示す地図を画面に自動表示する。
【0404】
このようにして、携帯電話機712a及びカーナビゲーション装置712bは、自装置に適した標準モデルの作成をサーバ701に依頼することで、標準モデルの作成に必要な回路や処理プログラムを自装置内に実装する必要がなくなるとともに、様々な認識対象の標準モデルを必要なタイミングで獲得することができる。
【0405】
以上説明したように、本発明の第10の実施の形態によれば、参照モデル受信部810が受信した参照モデルを利用して標準モデルを作成できるため、精度の高い標準モデルが提供される。つまり、端末装置712からのアップロードにより参照モデルを追加することでサーバ801側で保持する参照モデルのバリエーションが増加し、他の人が利用したときにさらに高精度の標準モデルを提供することができる。
【0406】
また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。
【0407】
なお、参照モデル受信部810は、端末装置712とは異なる他の端末装置から参照モデルを受信してもよい。
【0408】
また、図51に示された応用例は、本実施の形態に限られるものではなく、他の実施の形態にも適用することができる。つまり、第1〜第9の実施の形態で作成された標準モデルを各種記録媒体や通信を介して様々な電子機器に配信することで、それらの電子機器において、制度の高いな音声認識、画像認識、意図理解等を行うことが可能となる。さらに、上記実施の形態における標準モデル作成装置を各種電子機器に内蔵させることで、音声認識、画像認識、意図理解等の認識・認証機能を備えるスタンドアローンの電子機器を実現することもできる。
【0409】
以上、本発明に係る標準モデル作成装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。
【0410】
たとえば、第1〜第10の実施の形態における標準モデルの統計量の近似計算については、各実施の形態における近似計算だけに限られず、第1〜第4の実施の形態における合計4種類の近似計算の少なくとも1つを用いてもよい。つまり、4種類の近似計算のいずれであってもよいし、2以上の種類の近似計算の組み合わせであってもよい。
【0411】
また、第2の実施の形態では、統計量推定部206dの一般近似部206eは、標準モデルの混合重み係数、平均値及び分散値を、それぞれ、数45、数46及び数47に示される近似式に従って算出したが、これらの近似式に替えて、以下の数63、数64及び数65に示される近似式を用いて算出してもよい。
【0412】
【数63】
Figure 0003667332
【0413】
【数64】
Figure 0003667332
【0414】
【数65】
Figure 0003667332
このような近似式を用いて作成した標準モデルによれば、高い認識性能が得られることが発明者らによって確認されている。たとえば、参照モデルと標準モデルそれぞれの混合数を16とした場合の認識結果は、適応前では82.2%であったものが、上記非特許文献2に示された十分統計量による方法では、85.0%、上記近似式による方法では85.5%に改善された。つまり、十分統計量による方法と比べ、高い認識性能が獲得できていることがわかる。また、参照モデルの混合数を64、標準モデルの混合数を16とした場合についての認識結果は、上記近似式による方法では、85.7%と高い認識率が獲得できている。
【0415】
また、初期標準モデル作成部による初期標準モデルの作成においては、図52に示されるようなクラスID・初期標準モデル・参照モデル対応表を予め準備しておき、この表に従って、初期標準モデルを決定してもよい。以下、このようなクラスID・初期標準モデル・参照モデル対応表を用いた初期標準モデルの決定方法について説明する。なお、クラスIDとは、標準モデルを用いた認識対象の種別を識別するIDであり、標準モデルの種類に対応する。
【0416】
図52に示されたクラスID・初期標準モデル・参照モデル対応表は、一定の共通する性質を有する複数の参照モデルに対して、それらを識別する1つのクラスIDを対応づけるとともに、それら参照モデルと共通する性質を持つ予め作成された初期標準モデルを対応づけた表である。この表では、参照モデル8AA〜8AZに対して、クラスID及び初期標準モデル8Aが対応づけられ、参照モデル64ZA〜ZZに対して、クラスID及び初期標準モデル64Zが対応づけられている。標準モデル作成部は、使用する参照モデルの性質と共通する初期標準モデルを使用することによって、精度の高い標準モデルを生成することができる。
【0417】
ここで、クラスID、初期標準モデル及び参照モデルの添え字記号8A、8AAにおける最初の記号「8」等は、混合分布数を意味し、2番目の記号「A」等は大分類、例えば、騒音下における音声認識の場合であれば、騒音環境の種類(家庭内騒音下をA、電車内騒音下をBなど)を意味し、3番目の記号「A」等は小分類、例えば、音声認識の対象となる人の属性(低学年の小学生をA、高学年の小学生をBなど)を意味する。したがって、図52のクラスID・初期標準モデル・参照モデル対応表における参照モデル8AA〜AZは、図53に示されるような混合分布数8のモデルであり、参照モデル64ZA〜ZZは、図54に示されるような混合分布数64のモデルであり、初期標準モデル8A〜64Zは、図55に示されるような混合分布数8〜16のモデルである。
【0418】
次に、このようなクラスID・初期標準モデル・参照モデル対応表の作成方法を説明する。図56は、その手順を示すフローチャートであり、図57〜図60は、各ステップでの具体例を示す図である。ここでは、騒音環境下での音声認識を例とし、表だけでなく、クラスID、初期標準モデル及び参照モデルも含めて新規に作成する場合の手順を説明する。
【0419】
まず、音声データを音響的に近いグループに分類する(図56のステップS1100)。たとえば、図57に示されるように、音声データを利用情報である雑音環境で分類する。環境A(家庭内騒音下での音声データ)には、家庭内騒音下で収録した小学生低学年の音声、小学生高学年の音声、成人女性の音声などが含まれ、環境B(電車内での音声データ)には、電車内で収録した小学生低学年の音声、小学生高学年の音声、成人女性の音声などが含まれるように分類する。なお、利用情報である話者の性別、年齢層、笑い声・怒った声などの声の性質、読み上げ調・会話調などの声の調子、英語・中国語などの言語などで分類してもよい。
【0420】
次に、仕様情報等に基づいて、準備する参照モデルの1以上のモデル構造を決定する(図56のステップS1101)。たとえば、8混合、16混合、32混合及び64混合を対象とすることを決定する。なお、モデル構造の決定においては、混合分布数を決定するに限らず、HMMの状態数、モノフォン・トライフォンなどのHMMの種類などを決定してもよい。
【0421】
続いて、初期標準モデルを作成する(図56のステップS1102)。つまり、上記音声データの分類(ステップS1100)において決定した分類(環境A、環境B、…)ごとに、ステップS1101において決定したモデル構造ごとの初期標準モデルを作成する。例えば、図58に示されるように、初期標準モデル8Aであれば、8混合の初期標準モデルを、家庭内騒音下(環境A)における音声データ(低学年の小学生、高学年の小学生、成人男、成人女等の音声データ)を用いて、バウム・ウェルチアルゴリズムなどにより学習して作成する。
【0422】
次に、参照モデルを作成する(図56のステップS1103)。つまり、上記ステップS1102において作成した初期標準モデルを用いて参照モデルを作成する。具体的には、参照モデルを学習する音声データの雑音環境と同じ雑音環境で学習した、同じ混合分布数をもつ初期標準モデルを用いて参照モデルを学習する。例えば、図59に示されるように、参照モデル8AAは、混合分布数8の家庭内騒音下での小学生低学年の音声データで学習するモデルであり、学習を行う際の初期値として、同じ環境である家庭内騒音下での音声データ(小学生低学年、小学生高学年、成人女性、成人男性の音声を含む)で学習した初期標準モデルを用いる。学習方法として、バウム・ウェルチアルゴリズムを用いる。
【0423】
最後に、クラスIDを付与する(図56のステップS1104)。たとえば、騒音環境下ごとに1つのクラスIDを付与することによって、図60に示されるクラスID・初期標準モデル・参照モデル対応表、つまり、"クラスID付き初期標準モデル"及び"クラスID付き参照モデル"が作成される。
【0424】
なお、このようなクラスID・初期標準モデル・参照モデル対応表は、完成された表として予め端末(標準モデル作成装置)が保持している必要はない。端末(標準モデル作成装置)は、図61に示されるように、他の装置(サーバ)と通信することによって表を完成させてもよい。つまり、標準モデル作成装置(端末)は、通信網などを介して、"クラスID付き初期標準モデル","クラスID付き参照モデル"を取得することが可能である。もっとも、端末は必ずしも"クラスID付き初期標準モデル"、"クラスID付参照モデル"を取得する必要はなく事前に記憶させて出荷してもよい。
【0425】
図61に示されるように、端末は、以下のような方法によって、"クラスID付き初期標準モデル"、"クラスID付き参照モデル"を取得することができる。第1の方法として、端末は、"クラスID付き初期標準モデル"(例えば規格化コンソーシアムなどで事前に定義されたクラスIDのつけ方に遵守したもの)を記憶しているケースである。このとき、端末は、1以上のサーバから"クラスID付き参照モデル" (例えば規格化コンソーシアムなどで事前に定義されたクラスIDのつけ方に遵守したもの)をダウンロードする。なお、端末に、"クラスID付き参照モデル"を出荷時に記憶させておいてもよい。
【0426】
また、第2の方法として、端末は、"クラスID付き初期標準モデル"を記憶していないケースである。このとき、端末は、サーバ(図61のサーバ1)から"クラスID付き初期標準モデル"をダウンロードする。次に、端末は、1以上のサーバ(図61のサーバ2)から"クラスID付き参照モデル"をダウンロードする。必要に応じて逐次的にクラスIDの定義の追加、変更が可能である。また、端末のメモリの節約にもなる。
【0427】
さらに、第3の方法として、端末は、クラスIDと初期標準モデル・参照モデルの対応関係を明記した"クラスID・初期標準モデル・参照モデル対応表"を記憶しているケースである。このとき、端末は、"対応表"記憶していないサーバ(図61のサーバ3)に"対応表"をアップロードする。サーバは、送信された"対応表"に基づき"クラスID付き参照モデル"を準備する。端末は、準備された"クラスID付き参照モデル"をダウンロードする。
【0428】
次に、このようなクラスID・初期標準モデル・参照モデル対応表を用いた初期標準モデル作成部による初期標準モデルの決定方法について説明する。図62は、その手順を示すフローチャートである。図63及び図64は、各ステップでの具体例を示す図である。
【0429】
まず、標準モデルの作成に用いる参照モデルからクラスIDを抽出する(図62のステップS1105)。たとえば、図63に示されるテーブルに従って、選択された参照モデルから、対応するクラスIDを抽出する。ここでは、抽出したクラスIDとして、8Aが1個、16Aが3個、16Bが1個、64Bが1個とする。
【0430】
次に、抽出したクラスIDを用いて標準モデル作成に用いる初期標準モデルを決定する(図62のステップS1106)。具体的には、以下の手順に従って初期標準モデルを決定する。
(1)作成する標準モデルの混合分布数(16混合)と同じクラスID(16*)をもつ参照モデルから抽出したクラスID(16A、16B)に着目し、その中から一番多く抽出されたクラスIDに対応する初期標準モデルを最終的な初期標準モデルと決定する。たとえば、標準モデルの構造が16混合の場合には、16混合に関するクラスIDとして、16Aが3個、16Bが1個抽出されているので、クラスIDが16Aの初期標準モデルを採用する。
(2)作成する標準モデルの混合分布数(8混合)と同じクラスID(8*)をもつ参照モデルから抽出したクラスID(8A)に着目し、同じクラスIDをもつ初期標準モデルを最終的な初期標準モデルと決定する。たとえば、標準モデルの構造が8混合の場合には、8混合に関するクラスIDとして、8Aが1個抽出されているので、クラスIDが8Aの初期標準モデルを採用する。
(3)作成する標準モデルの混合分布数(32混合)と同じクラスID(32*)をもつ参照モデルから抽出したクラスIDに着目し、存在しない場合、仕様情報に着目してその中から一番多く抽出されたクラスID(*A)をもつ初期標準モデル(8A、16A)を用いてクラスタリングにより32混合にして最終的な初期標準モデルとする(図44を参照)。たとえば、標準モデルの構造が32混合の場合には、32混合に関するクラスIDが抽出されていないので、一番多く抽出されたクラスID(16A)を用いてクラスタリングにより32混合にして初期標準モデルとする。
【0431】
なお、はじめに作成する標準モデルの仕様情報(混合分布数など)に着目せず、利用情報(雑音の種類など)に着目して初期値を決定してもよい。
【0432】
図64に、第3近似部を用いて作成した混合分布数が64の標準モデルを用いた認識実験の結果を示す。縦軸に成人(男性と女性)の認識率(%)、横軸に繰り返し回数Rを示す。繰り返し回数R=0とは、学習を行う前での初期標準モデル作成部が作成した初期モデルにより認識した結果である。また、繰り返し回数R=1〜5において、近傍指示パラメータG=1とした。
【0433】
グラフ「データ」は、数日間かけて音声データより学習した場合の結果を表しており、グラフ「女性」、グラフ「男性」は、それぞれ、初期モデルを成人女性、成人男性としたときの結果を表している。参照モデルによる本発明による学習時間は数分のオーダーであった。この実験結果より、成人女性の参照モデルを初期標準モデルと決定した場合には、音声データで学習した結果よりも高い精度の標準モデルが作成できていることが分かる。
【0434】
このことは、音声データを分割し、分割した音声データをそれぞれの参照モデルとして厳密に学習したのちに統合したほうが、音声データによる学習の課題である局所解に陥るという問題を解決できる可能性を示している(音声データによる学習との認識精度での比較)。
【0435】
また、音声データの収録が困難な子供の音声データに対しては、データ数に適切である混合分布数の少ない参照モデルで厳密に学習して、多くの音声データの収録が可能な成人の音声データに対しては、混合分布数の多い参照モデルで厳密に学習して、そのあとで本発明により統合して標準モデルを作成すれば、極めて精度の高い標準モデルが作成できることが期待できる。
【0436】
なお、標準モデルの混合分布数が16の場合における認識実験(図39)では、本発明による方法は、音声データで学習した標準モデルの認識率を超えていない。このことは、音声データを16混合の参照モデルの形にしたときに音声データの情報が欠如したためだと考えられる。参照モデルを64混合で作成して音声データの特徴を十分保持しておけばより高い精度の標準モデルが作成できる。このことより、第9の実施の形態では、参照モデルの混合分布数を300と大きめに設定している。
【0437】
また、図39及び図64に示される認識実験より、初期標準モデルが認識精度に与える影響が示されており、初期標準モデルの決定方法の重要性を物語っている(図64において、成人女性の参照モデルを初期標準モデルとして利用した場合、成人男性の参照モデルを利用する場合より高い精度の標準モデルが作成できることが示されている)。
【0438】
以上のように、クラスID・初期標準モデル・参照モデル対応表に従って、参照モデルと共通する性質の初期標準モデルを用いることで、精度の高い標準モデルを作成することができる。
【0439】
なお、このようなクラスID・初期標準モデル・参照モデル対応表を用いた初期標準モデルの決定は、上記実施の形態1〜10のいずれにおいても採用することができる。
【0440】
また、上記実施の形態では、標準モデルの統計量を推定する際に、参照モデルに対する標準モデルの尤度として数25が用いられたが、本発明はこのような尤度関数に限られず、例えば、以下の数66に示される尤度関数を用いてもよい。
【0441】
【数66】
Figure 0003667332
ここで、α(i)は、統合する各参照モデルiに対応した重要度を示す重み付けである。たとえば、音声認識における話者適用であれば、重要度は、利用者の音声と統合モデルを作成した音声の近さにより決定される。つまり、参照モデルが利用者の音声に近い(重要度が大きい)場合に、α(i)は大きな値に設定される(大きく重み付けされる)。統合モデルと利用者の音声との近さは、利用者の音声を統合モデルに入力したときの尤度の大きさにより決定すればよい。これによって、複数の参照モデルを統合して標準モデルを作成する際に、利用者の音声に近い参照モデルほど大きな重み付けで標準モデルの統計量に影響を与えることとなり、より利用者の特性を反映した精度の高い標準モデルが作成される。
【0442】
また、各実施の形態における標準モデル構造決定部は、利用情報や仕様情報などの各種要因に基づいて標準モデルの構造を決定したが、本発明は、これらの要因だけに限られず、例えば、音声認識の場合であれば、認識の対象となる人の年齢、性別、声質の話者性、感情又は健康状態に基づく声の調子、発話速度、発話の丁寧さ、方言、背景雑音の種類、背景雑音の大きさ、音声と背景雑音とのSN比、マイク特性及び認識語彙の複雑さなどの各種属性に依存して標準モデルの構造を決定してもよい。
【0443】
具体的には、図65(a)〜(j)に示されるように、音声認識の対象となる人の年齢が高いほど標準モデルを構成するガウス分布の数(混合数)を大きくしたり(図65(a))、音声認識の対象となる人が男性の場合には女性の場合よりも大きな混合数にしたり(図65(b))、音声認識の対象となる人の音質が「通常」よりも「ハスキー」、さらに「しわがれ声」となるほど混合数を大きくしたり(図65(c))、音声認識の対象となる声の感情による調子が「通常」よりも「怒り声」、さらに「泣き/笑いながらの声」となるほど混合数を大きくしたり(図65(d))、音声認識の対象となる人の発話速度が速く/遅くなるほど混合数を大きくしたり(図65(e))、音声認識の対象となる人の発話の丁寧さが「朗読調」よりも「講演調」、さらに「会話調」となるほど混合数を大きくしたり(図65(f))、音声認識の対象となる人の方言が「標準語」よりも「大阪弁」、さらに「鹿児島弁」となるほど混合数を大きくしたり(図65(g))、音声認識における背景雑音が大きくなるほど混合数を小さくしたり(図65(h))、音声認識に使用するマイクの性能が高くなるほど混合数を大きくしたり(図65(i))、音声認識の対象となる語彙が増加するほど混合数を大きくしたり(図65(j))すればよい。これらの例の多くは、認識対象の音声のばらつきが大きいほど、混合数を大きくして精度を確保するという観点から混合数が決定される。
【産業上の利用可能性】
【0444】
本発明に係る標準モデル作成装置は、確率モデル等を用いた音声、文字、画像等の対象物を認識する装置等として利用することができ、例えば、音声によって各種処理を実行するテレビ受信装置・カーナビゲーション装置、音声を他の言語に翻訳する翻訳装置、音声で操作するゲーム装置、音声による検索キーワードで情報を検索する検索装置、人物検出・指紋認証・顔認証・虹彩認証等を行う認証装置、株価予測、天気予測などの予測を行う情報処理装置等として利用することができる。
【図面の簡単な説明】
【0445】
【図1】図1は、本発明の第1の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図2】図2は、同サーバの動作手順を示すフローチャートである。
【図3】図3は、図1における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図4】図4は、図2におけるステップS101(標準モデルの作成)の詳細な手順を示すフローチャートである。
【図5】図5は、図1における第1近似部104eによる近似計算を説明する図である。
【図6】図6は、参照モデルを選択する際の画面表示例を示す図である。
【図7】図7(a)は、作成する標準モデルの構造(混合分布数)を指定する際の画面表示例を示し、図7(b)は、仕様情報を選択する際の画面表示例を示す図である。
【図8】図8は、標準モデルを作成しているときの進捗状況を示す画面表示例を示す図である。
【図9】図9は、本発明の第2の実施の形態における標準モデル作成装置に係るSTBの全体構成を示すブロック図である。
【図10】図10は、同STBの動作手順を示すフローチャートである。
【図11】図11は、図10における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図12】図12は、図10における第2近似部による近似計算を説明する図である。
【図13】図13は、本発明の第3の実施の形態における標準モデル作成装置に係るPDAの全体構成を示すブロック図である。
【図14】図14は、同PDAの動作手順を示すフローチャートである。
【図15】図15は、図13における参照モデル記憶部に記憶されている参照モデルの例を示す図である。
【図16】図16は、同PDAの選択画面の一例を示す。
【図17】図17は、図13における統計量推定部による統計量の推定手順を示す概念図である。
【図18】図18は、図13における第3近似部による近似計算を説明する図である。
【図19】図19は、本発明の第4の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図20】図20は、同サーバの動作手順を示すフローチャートである。
【図21】図21は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図22】図22は、利用情報としての個人情報を入力する際の画面表示例を示す図である。
【図23】図23は、本発明の第5の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図24】図24は、同サーバの動作手順を示すフローチャートである。
【図25】図25は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図26】図26は、本発明の第6の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図27】図27は、同サーバの動作手順を示すフローチャートである。
【図28】図28は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図29】図29は、本発明の第7の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図30】図30は、同サーバの動作手順を示すフローチャートである。
【図31】図31は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。
【図32】図32は、本発明の第8の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。
【図33】図33は、携帯電話901の動作手順を示すフローチャートである。
【図34】図34は、参照モデル記憶部に格納されている参照モデルの一例を示す図である。
【図35】図35は、新たたに参照モデル記憶部に格納された参照モデルの一例を示す図である。
【図36】図36は、利用情報を作成するときの画面表示例を示す図である。
【図37】図37は、参照モデルを準備するときの画面表示例を示す図である。
【図38】図38は、第3近似部を用いて作成した標準モデルを用いた認識実験の結果を示すグラフである。
【図39】図39は、第3の実施の形態における第2近似部により作成された標準モデルによる認識実験の結果を示すグラフである。
【図40】図40は、本発明の第9の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。
【図41】図41は、アプリ・仕様情報対応データベースのデータ例を示す図である。
【図42】図42は、PDA1001の動作手順を示すフローチャートである。
【図43】図43は、参照モデル記憶部に格納されている参照モデルの一例を示す図である。
【図44】図44は、初期標準モデル作成部によるクラスタリングによる初期値の決定方法を示すフローチャートである。
【図45】図45は、図44におけるステップS1004の具体例を示す図である。
【図46】図46は、図44におけるステップS1005の具体例を示す図である。
【図47】図47は、図44におけるステップS1006の具体例を示す図である。
【図48】図48は、図44におけるステップS1008の具体例を示す図である。
【図49】図49は、本発明の第10の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。
【図50】図50は、同サーバの動作手順を示すフローチャートである。
【図51】図51は、本発明に係る標準モデル作成装置を具体的に適用したシステム例を示す図である。
【図52】図52は、クラスID・初期標準モデル・参照モデル対応表の例を示す図である。
【図53】図53は、図52のクラスID・初期標準モデル・参照モデル対応表における参照モデル8AA〜AZの例を示す図である。
【図54】図54は、図52のクラスID・初期標準モデル・参照モデル対応表における参照モデル64ZA〜ZZの例を示す図である。
【図55】図55は、図52のクラスID・初期標準モデル・参照モデル対応表における初期標準モデル8A〜64Zの例を示す図である。
【図56】図56は、クラスID・初期標準モデル・参照モデル対応表の作成方法を示すフローチャートである。
【図57】図57は、図56におけるステップS1100の具体例を示す図である。
【図58】図58は、図56におけるステップS1102の具体例を示す図である。
【図59】図59は、図56におけるステップS1103の具体例を示す図である。
【図60】図60は、図56におけるステップS1104の具体例を示す図である。
【図61】図61は、端末がサーバと通信することによってクラスID・初期標準モデル・参照モデル対応表を完成させる手順を示す図である。
【図62】図62は、クラスID・初期標準モデル・参照モデル対応表を用いた初期標準モデルの決定方法を示すフローチャートである。
【図63】図63は、図62におけるステップS1105の具体例を示す図である。
【図64】図64は、第3近似部を用いて作成した標準モデルを用いた認識実験の結果を示すグラフである。
【図65】図65(a)〜(j)は、音声認識の対象についての属性と標準モデルの構造(ガウス分布の混合数)との関係例を示す図である。

Claims (22)

  1. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
    音声認識の対象となる属性に関する情報である利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から1以上の参照モデルを選択する参照モデル選択手段と、
    前記参照モデル選択手段が選択した1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
    前記標準モデル作成手段は、
    作成する標準モデルの構造を決定する標準モデル構造決定部と、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
    ことを特徴とする標準モデル作成装置。
  2. 前記標準モデル作成装置はさらに、
    前記利用情報を作成する利用情報作成手段を備え、
    前記参照モデル選択手段は、作成された利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から1以上の参照モデルを選択する
    ことを特徴とする請求の範囲1記載の標準モデル作成装置。
  3. 前記標準モデル作成装置には通信路を介して端末装置が接続され、
    前記標準モデル作成装置はさらに、
    前記端末装置から前記利用情報を受信する利用情報受信手段を備え、
    前記参照モデル選択手段は、受信された利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から1以上の参照モデルを選択する
    ことを特徴とする請求の範囲1記載の標準モデル作成装置。
  4. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
    前記参照モデル記憶手段に格納された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
    前記標準モデル作成手段は、
    作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、作成する標準モデルの構造を決定する標準モデル構造決定部と、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
    ことを特徴とする標準モデル作成装置。
  5. 前記仕様情報とは、標準モデルを使用するアプリケーションプログラムの種類、及び、標準モデルを使用する機器の仕様の少なくとも一方の仕様を示す
    ことを特徴とする請求の範囲4記載の音声認識用の標準モデル作成装置。
  6. 前記属性とは、年齢、性別、声質の話者性、感情又は健康状態に基づく声の調子、発話速度、発話の丁寧さ、方言、背景雑音の種類、背景雑音の大きさ、音声と背景雑音とのSN比、マイク特性及び認識語彙の複雑さの少なくとも1つに関する情報を含む
    ことを特徴とする請求の範囲4記載の音声認識用の標準モデル作成装置。
  7. 前記標準モデル作成装置はさらに、
    標準モデルを使用するアプリケーションプログラムと標準モデルの仕様との対応を示すアプリケーション仕様対応データベースを前記仕様情報として保持する仕様情報保持手段を備え、
    前記標準モデル構造決定部は、前記仕様情報保持手段に保持されたアプリケーション仕様対応データベースから、起動されるアプリケーションプログラムに対応する仕様を読み出し、読み出した仕様に基づいて、前記標準モデルの構造を決定する
    ことを特徴とする請求の範囲4記載の標準モデル作成装置。
  8. 前記標準モデル作成装置はさらに、
    前記仕様情報を作成する仕様情報作成手段を備え、
    前記標準モデル構造決定部は、作成された仕様情報に基づいて、前記標準モデルの構造を決定する
    ことを特徴とする請求の範囲4記載の標準モデル作成装置。
  9. 前記標準モデル作成装置には通信路を介して端末装置が接続され、
    前記標準モデル作成装置はさらに、
    前記端末装置から前記仕様情報を受信する仕様情報受信手段を備え、
    前記標準モデル構造決定部は、受信された仕様情報に基づいて、前記標準モデルの構造を決定する
    ことを特徴とする請求の範囲4記載の標準モデル作成装置。
  10. 前記参照モデル及び前記標準モデルは、1以上のガウス分布を用いて表現され、
    前記標準モデル構造決定部は、前記標準モデルの構造として、少なくともガウス分布の混合数を決定する
    ことを特徴とする請求の範囲4記載の標準モデル作成装置。
  11. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
    前記参照モデル記憶手段に格納された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
    前記標準モデル作成手段は、
    作成する標準モデルの構造を決定する標準モデル構造決定部と、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有し、
    前記参照モデル及び前記標準モデルは、1以上のガウス分布を用いて表現され、
    前記参照モデル記憶手段は、少なくともガウス分布の混合数が異なる1対の参照モデルを記憶し、
    前記統計量推定部は、前記1対の参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算する
    ことを特徴とする標準モデル作成装置。
  12. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
    外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、新たな参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方、並びに、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行う参照モデル準備手段と、
    前記参照モデル記憶手段に格納された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
    前記標準モデル作成手段は、
    作成する標準モデルの構造を決定する標準モデル構造決定部と、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
    ことを特徴とする標準モデル作成装置。
  13. 前記参照モデル準備手段は、認識の対象に関する情報である利用情報、及び作成する標準モデルの仕様に関する情報である仕様情報の少なくとも一方に基づいて、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行う
    ことを特徴とする請求の範囲12記載の標準モデル作成装置。
  14. 前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方と、前記参照モデル記憶手段に記憶された参照モデルとに基づいて、前記利用情報及び前記仕様情報の少なくとも一方と前記参照モデルとの類似度を示す類似度情報を作成する類似度情報作成手段を備え、
    前記参照モデル準備手段は、前記類似度情報作成手段が作成した類似度情報に基づいて、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行うか否かを決定する
    ことを特徴とする請求の範囲12記載の標準モデル作成装置。
  15. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段と、
    前記参照モデル記憶手段に格納された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、
    前記標準モデル作成手段は、
    作成する標準モデルの構造を決定する標準モデル構造決定部と、
    構造が決定された標準モデルを特定する統計量の初期値を、標準モデルの種類を識別するクラスIDに基づいて、決定する初期標準モデル作成部と、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する
    ことを特徴とする標準モデル作成装置。
  16. 前記初期標準モデル作成部は、前記参照モデルから前記クラスIDを特定し、特定したクラスIDに対応づけられた初期値を前記初期値と決定する
    ことを特徴とする請求の範囲15記載の標準モデル作成装置。
  17. 前記初期標準モデル作成部は、前記クラスIDと前記初期値と前記参照モデルとの対応を示す対応表を保持し、前記対応表に従って、前記初期値を決定する
    ことを特徴とする請求の範囲16記載の標準モデル作成装置。
  18. 前記初期標準モデル作成部は、前記クラスIDが対応づけられた初期値であるクラスID付き初期標準モデル、又は、前記クラスIDが対応づけられた参照モデルであるクラスID付き参照モデルを作成又は外部から取得することによって、前記対応表を生成する
    ことを特徴とする請求の範囲17記載の標準モデル作成装置。
  19. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する方法であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段から、音声認識の対象となる属性に関する情報である利用情報に基づいて、1以上の参照モデルを選択して読み出す参照モデル読み出しステップと、
    前記参照モデル選択ステップで読み出された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
    前記標準モデル作成ステップは、
    作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
    ことを特徴とする標準モデル作成方法。
  20. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置のためのプログラムであって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段から、音声認識の対象となる属性に関する情報である利用情報に基づいて、1以上の参照モデルを選択して読み出す参照モデル読み出しステップと、
    前記参照モデル選択ステップで読み出された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
    前記標準モデル作成ステップは、
    作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
    ことを特徴とするプログラム。
  21. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する方法であって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段から1以上の参照モデルを読み出す参照モデル読み出しステップと、
    読み出された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
    前記標準モデル作成ステップは、
    作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
    ことを特徴とする標準モデル作成方法。
  22. 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置のためのプログラムであって、
    一定の属性を有する音声の特徴を示す確率モデルである1以上の参照モデルを記憶する参照モデル記憶手段から1以上の参照モデルを読み出す参照モデル読み出しステップと、
    読み出された1以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、
    前記標準モデル作成ステップは、
    作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、作成する標準モデルの構造を決定する標準モデル構造決定サブステップと、
    構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、
    初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する
    ことを特徴とするプログラム。
JP2004570337A 2002-11-21 2003-11-18 標準モデル作成装置及び標準モデル作成方法 Expired - Fee Related JP3667332B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2002338652 2002-11-21
JP2002338652 2002-11-21
JP2003089179 2003-03-27
JP2003089179 2003-03-27
JP2003284489 2003-07-31
JP2003284489 2003-07-31
PCT/JP2003/014626 WO2004047076A1 (ja) 2002-11-21 2003-11-18 標準モデル作成装置及び標準モデル作成方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005081498A Division JP2005227794A (ja) 2002-11-21 2005-03-22 標準モデル作成装置及び標準モデル作成方法

Publications (2)

Publication Number Publication Date
JP3667332B2 true JP3667332B2 (ja) 2005-07-06
JPWO2004047076A1 JPWO2004047076A1 (ja) 2006-03-23

Family

ID=32329651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004570337A Expired - Fee Related JP3667332B2 (ja) 2002-11-21 2003-11-18 標準モデル作成装置及び標準モデル作成方法

Country Status (5)

Country Link
US (2) US7603276B2 (ja)
EP (1) EP1564721A1 (ja)
JP (1) JP3667332B2 (ja)
AU (1) AU2003302063A1 (ja)
WO (1) WO2004047076A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145346A (ja) * 2007-12-14 2009-07-02 Palo Alto Research Center Inc 検知システム
WO2023152877A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 通信品質予測装置、通信品質予測システム、通信品質予測方法、及び通信品質予測プログラム
WO2023152879A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 モデル設定装置、モデル設定システム、モデル設定方法、及びモデル設定プログラム

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US7899669B2 (en) * 2005-12-12 2011-03-01 Gregory John Gadbois Multi-voice speech recognition
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
EP2126901B1 (en) * 2007-01-23 2015-07-01 Infoture, Inc. System for analysis of speech
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8005812B1 (en) * 2007-03-16 2011-08-23 The Mathworks, Inc. Collaborative modeling environment
US9729843B1 (en) 2007-03-16 2017-08-08 The Mathworks, Inc. Enriched video for a technical computing environment
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
KR100876786B1 (ko) * 2007-05-09 2009-01-09 삼성전자주식회사 조명 마스크를 이용하는 사용자 얼굴 검증 시스템 및 방법
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
CN101339765B (zh) * 2007-07-04 2011-04-13 黎自奋 一种国语单音辨认方法
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
JP2009086581A (ja) * 2007-10-03 2009-04-23 Toshiba Corp 音声認識の話者モデルを作成する装置およびプログラム
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
TWI352970B (en) * 2008-04-30 2011-11-21 Delta Electronics Inc Voice input system and voice input method
JP5467453B2 (ja) * 2008-07-11 2014-04-09 学校法人東京理科大学 投資行動における人間の行動を判別する方法及びその装置
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US20100124335A1 (en) * 2008-11-19 2010-05-20 All Media Guide, Llc Scoring a match of two audio tracks sets using track time probability distribution
EP2192575B1 (en) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Speech recognition based on a multilingual acoustic model
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20110050412A1 (en) * 2009-08-18 2011-03-03 Cynthia Wittman Voice activated finding device
KR101289081B1 (ko) * 2009-09-10 2013-07-22 한국전자통신연구원 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US8869195B2 (en) * 2009-12-10 2014-10-21 At&T Intellectual Property I, L.P. Apparatus and method for managing voice communications
US8935737B2 (en) 2009-12-10 2015-01-13 At&T Intellectual Property I, Lp Apparatus and method for managing voice communications
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9652999B2 (en) * 2010-04-29 2017-05-16 Educational Testing Service Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8639516B2 (en) * 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8983844B1 (en) * 2012-07-31 2015-03-17 Amazon Technologies, Inc. Transmission of noise parameters for improving automatic speech recognition
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US20140330741A1 (en) * 2013-05-03 2014-11-06 Iwona Bialynicka-Birula Delivery estimate prediction and visualization system
JP6234060B2 (ja) * 2013-05-09 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US9437208B2 (en) * 2013-06-03 2016-09-06 Adobe Systems Incorporated General sound decomposition models
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9786296B2 (en) 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US9008427B2 (en) 2013-09-13 2015-04-14 At&T Intellectual Property I, Lp Method and apparatus for generating quality estimators
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
KR102601848B1 (ko) * 2015-11-25 2023-11-13 삼성전자주식회사 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10937415B2 (en) * 2016-06-15 2021-03-02 Sony Corporation Information processing device and information processing method for presenting character information obtained by converting a voice
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107016212B (zh) * 2017-04-21 2020-03-17 中国电子科技集团公司第五十四研究所 基于动态贝叶斯网络的意图分析方法
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
JP6910987B2 (ja) * 2018-06-07 2021-07-28 株式会社東芝 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
CN109147784B (zh) 2018-09-10 2021-06-08 百度在线网络技术(北京)有限公司 语音交互方法、设备以及存储介质
CN109903375B (zh) * 2019-02-21 2023-06-06 Oppo广东移动通信有限公司 模型生成方法、装置、存储介质及电子设备
US11232782B2 (en) * 2019-08-30 2022-01-25 Microsoft Technology Licensing, Llc Speaker adaptation for attention-based encoder-decoder
CN112241806B (zh) * 2020-07-31 2021-06-22 深圳市综合交通运行指挥中心 道路破损概率预测方法、装置终端设备及可读存储介质
CN114822005B (zh) * 2022-06-28 2022-09-20 深圳市矽昊智能科技有限公司 基于人工智能的遥控意图预测方法、装置、设备及介质

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JP3251005B2 (ja) 1990-09-17 2002-01-28 日本電気株式会社 標準パターン作成方法
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5915236A (en) * 1992-11-13 1999-06-22 Dragon Systems, Inc. Word recognition system which alters code executed as a function of available computational resources
JP3283346B2 (ja) 1993-07-20 2002-05-20 堺化学工業株式会社 押出成形用坏土組成物
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system
JP2852210B2 (ja) 1995-09-19 1999-01-27 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル作成装置及び音声認識装置
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
JP3144341B2 (ja) 1997-03-26 2001-03-12 日本電気株式会社 音声認識装置
US6163596A (en) * 1997-05-23 2000-12-19 Hotas Holdings Ltd. Phonebook
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
JPH11143486A (ja) 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
US6038535A (en) * 1998-03-23 2000-03-14 Motorola, Inc. Speech classifier and method using delay elements
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6725195B2 (en) * 1998-08-25 2004-04-20 Sri International Method and apparatus for probabilistic recognition using small number of state clusters
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US20020077823A1 (en) * 2000-10-13 2002-06-20 Andrew Fox Software development systems and methods
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
JP2002236494A (ja) 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US7031530B2 (en) * 2001-11-27 2006-04-18 Lockheed Martin Corporation Compound classifier for pattern recognition applications
US20030171931A1 (en) * 2002-03-11 2003-09-11 Chang Eric I-Chao System for creating user-dependent recognition models and for making those models accessible by a user
US7487091B2 (en) * 2002-05-10 2009-02-03 Asahi Kasei Kabushiki Kaisha Speech recognition device for recognizing a word sequence using a switching speech model network
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition
US7480617B2 (en) * 2004-09-21 2009-01-20 International Business Machines Corporation Method for likelihood computation in multi-stream HMM based speech recognition
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
JP7069711B2 (ja) * 2017-12-27 2022-05-18 大日本印刷株式会社 配線基板、および配線基板を有する半導体装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145346A (ja) * 2007-12-14 2009-07-02 Palo Alto Research Center Inc 検知システム
WO2023152877A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 通信品質予測装置、通信品質予測システム、通信品質予測方法、及び通信品質予測プログラム
WO2023152879A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 モデル設定装置、モデル設定システム、モデル設定方法、及びモデル設定プログラム

Also Published As

Publication number Publication date
EP1564721A1 (en) 2005-08-17
AU2003302063A1 (en) 2004-06-15
US7603276B2 (en) 2009-10-13
US20060053014A1 (en) 2006-03-09
WO2004047076A1 (ja) 2004-06-03
JPWO2004047076A1 (ja) 2006-03-23
US20090271201A1 (en) 2009-10-29

Similar Documents

Publication Publication Date Title
JP3667332B2 (ja) 標準モデル作成装置及び標準モデル作成方法
JP2005227794A (ja) 標準モデル作成装置及び標準モデル作成方法
CN110088833B (zh) 语音识别方法和装置
JP7317529B2 (ja) サウンドデータを処理するシステム、及びシステムの制御方法
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
US8219406B2 (en) Speech-centric multimodal user interface design in mobile technology
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
CN112074900B (zh) 用于自然语言处理的音频分析
WO2019118254A1 (en) Chatbot integrating derived user intent
EP3824462B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
US11393459B2 (en) Method and apparatus for recognizing a voice
JP2002014692A (ja) 音響モデル作成装置及びその方法
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
JPWO2006059451A1 (ja) 音声認識装置
CN117198270A (zh) 定制声学模型
KR20180069660A (ko) 음성 인식 방법 및 장치
WO2021000403A1 (zh) 智能对话系统的语音匹配方法、电子装置、计算机设备
CN111640434A (zh) 用于控制语音设备的方法和装置
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
JP4996156B2 (ja) 音声信号変換装置
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
JP2004294916A (ja) 標準モデル作成装置および標準モデル作成方法
US11955123B2 (en) Speech recognition system and method of controlling the same
US20230267934A1 (en) Display apparatus and operating method thereof

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050405

R150 Certificate of patent or registration of utility model

Ref document number: 3667332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090415

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100415

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110415

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120415

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130415

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees