JP2008058679A

JP2008058679A - 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Info

Publication number: JP2008058679A
Application number: JP2006236286A
Authority: JP
Inventors: Shoe Sato; 庄衛佐藤; Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-08-31
Filing date: 2006-08-31
Publication date: 2008-03-13
Anticipated expiration: 2026-08-31
Also published as: JP4705535B2

Abstract

【課題】過学習が生じることなく、蓄積音声の有効的な利用を行うことができる音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラムを提供する。
【解決手段】音響モデル作成装置１は、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するものであって、参照音響モデル取得手段３と、学習音声取得手段５と、学習音声統計量パラメータ算出手段７と、学習音声統計量パラメータ代入手段９と、モデル作成手段１１と、を備える。
【選択図】図１

Description

本発明は、音声認識に用いる音響モデルを作成する音響モデル作成装置、音響モデル作成プログラム及び作成された音響モデルを用いた音声認識装置に関する。

従来、発声された発声音声の音声認識を行う際に、事前に蓄積されている蓄積音声に含まれている各音素で観測される特徴量の確率密度分布を用いた音響モデルが一般的に使用されている。また、発声音声の音声認識を行う際に、当該発声音声の認識率の向上を図るために、例えば、同じ母音の“あ”でも前後の音素環境によって特徴が異なることを考慮して、蓄積音声を用いて、音素環境ごとに別々に学習した音素環境依存の音響モデル（以下、音素環境依存音響モデルという）を準備しておくこととしている。

しかし、この音素環境依存音響モデルは、蓄積音声の量や言語的な特性によって、想定されうる全ての音素環境において十分な統計量を得ることが難しいので、発声音声の音声認識を行うのに最適なものとならない可能性がある。そこで、従来、蓄積音声に関して、破裂音、摩擦音であるなどの音素に関する事前の情報を利用して、当該蓄積音声では未観測の音素環境を含め、複数の音素環境をクラスタリングし、このクラスタリングした複数の音素環境で１つの音素環境依存音響モデルを共有して、統計量を得ている（例えば、非特許文献１参照）。

ここで、長母音（多数の音素の一つ、以下、単に音素ともいう）“ａ：”（あー）の音素環境の共有構造及び音素環境分類木の例を図６（ａ）に示す。また、音素環境のクラスタリングに用いた事前の情報（音素環境カテゴリ）の例を図６（ｂ）に示す。この図６（ａ）に示すように、音素“ａ：”の前（Ｌ）後（Ｒ）の音素環境別に蓄積音声での尤度を基準として、最適な音素環境カテゴリを逐次適用しながら、前後の音素環境をクラスタリングし、その後、当該音素環境の特徴量の類似度が高いクラスタを統合することで、最終的に１０個のクラスタが作成されている。

この最終的に作成された１０個のクラスタから得られた音素環境の共有構造を、音素“ａ：”の全ての音素環境の共有構造が共有することとなる。この音素環境分類木を用いた方法によると、音素環境の共有構造は、蓄積音声の量と蓄積音声中の音素環境の出現頻度によって決定されることになり、異なった蓄積音声からは、異なった共有構造の音響モデルが作成されることになる。

ところで、発声音声の音声認識を行う際、当該音声認識の結果となって出力される単語列の候補となる候補単語を探索する探索アルゴリズムでは、発声音声（入力音声）の特徴量と、候補単語との照合を効率よく行うために、木構造の単語発音辞書（音素ネットワーク）が用いられている（例えば、非特許文献２）。

ここで、図７に木構造の単語発音辞書（音素ネットワーク）の一部を示す。この図７に示したように、探索音素列を木構造にすることで、単語列で重複する音素の探索空間を減ずることが可能になるため、効率よく候補単語の探索が可能となる。さらに、音素環境の共有構造を想定すると、図８に示すように、探索空間をより小さくすることができる。

なお、この図８に示した例では、“ｓｈ−ｔ＋ａ”と“ｓｈ−ｔ＋ｅ”、“ｍ−ａ＋ｓｈ”と“ｍ−ａ＋ｓ”、“ｇ−ａ”と“ｇ−ａ＋Ｑ”が同一の音素環境を有している。このため、木構造の単語発音辞書（音素ネットワーク）が、さらに小さくできた例示である。

ところでまた、音声認識においては、前記したように作成される音素環境依存音響モデルを、男女別、話者別、環境別等に作成することで、音声認識の認識精度の改善が期待されている（例えば、非特許文献３）が、問題点も残っている。
以下に、話者別の音素環境依存音響モデル（単に、音響モデルともいう）を例にして、当該音響モデルが話者別に複数作成される場合の問題点を説明する。

音声認識において、話者別の複数の音響モデルを、同時に利用する場合、音素環境の共有構造が蓄積音声によって決定される従来法では、話者別に複数の木構造の単語発音辞書（音素ネットワーク）を構成して、候補単語の探索を行う必要があるため、探索アルゴリズムが煩雑になると共に、複数の音響モデルを蓄積しなければならないので、これらを蓄積しておくメモリの利用効率が低下するという問題点があった。

ここで、図９に話者別の音響モデルの例を示す。この図９は、男性用音響モデルと女性用音響モデルとの２つの音響モデルを想定した際に、木構造の単語発音辞書（以下、木構造音素ネットワークともいう）を共有できる場合（共有の木構造を持つ場合、図９（ｂ））と、共有できない場合（共有の木構造を持たない場合、図９（ａ））との探索空間を示したものである。この図９（ｂ）に示したように、木構造音素ネットワークを共有できる場合には、男女共用木構造音素ネットワーク内を探索し、参照する音響モデルのパラメータのみを変更するだけですむため、探索の効率化が期待できる。

逆に、図９（ａ）に示したような場合、前記したように、探索アルゴリズムが煩雑になり、メモリの利用効率が低下する問題が生じるので、従来、この問題を解決するために、次に記載する２つの方法（１）及び（２）を用いて、共有の木構造を持つ話者別の音響モデルが作成されてきた。

（１）不特定話者用の音響モデルを話者別の蓄積音声でＥＭアルゴリズムにより再学習する（例えば、非特許文献３、４）。
（２）不特定話者用の音響モデルを話者別の蓄積音声で適応化する（ＭＡＰ推定、例えば、非特許文献５、ＭＬＬＲ、例えば、非特許文献６）。
Steve Young et al.,"Tree-Based Clustering",HTK books,Sec.10.5,pp.150. H.Ney,et al."Improvement in Beam Search for 10000-word Continuous Speech Recognition,"ICASSP’92 pp.9-12,1992.3 佐藤他 "２段階クラスタリングに基づく選択学習による音響モデル適応化"、電子情報通信学会論文誌Ｄ−ＩＩ、Ｖｏｌ．８５−Ｄ−ＩＩＮｏ．２、ｐｐ１７４−１８３、２００２．２ Steve Young et al.,"HMM Parameter Estimation",HTK book,Chap.8,pp.114. Steve Young et al.,"Model Adaptation using MAP",HTK book,Sec.9.3,pp.139. Steve Young et al.,"Linear Transformation Estimation Formulae",HTK book,Sec9.4,pp.140.

しかしながら、従来の、共有の木構造を持つ話者別の音響モデル（１）では、話者ごとの蓄積音声の不足により、ＥＭアルゴリズムを実行しても十分な（信頼できる）統計量（統計量パラメータ）が得られず、この結果、蓄積音声が十分に得られていない音素のクラスタにおいて、過学習が生じてしまうという問題がある。なお、実用上、不特定話者用の蓄積音声と同規模の話者ごとの蓄積音声を得ることは困難であるため、過学習によって音声認識率が低下する影響は大きいと推測される。

また、共有の木構造を持つ話者別の音響モデル（２）では、当該音響モデルを適応化する際に過学習の問題は生じないが、統計量（統計量パラメータ）の再帰的な推定が困難であるため、当該統計量はＥＭアルゴリズムを実行して得られるような最尤推定値にならない。つまり、実用上、適応度合を決定する適応パラメータの最適化は容易ではなく、過学習を避けるため、最適化に至らずに（浅く、弱く）適応化する場合が多い。この場合、適応用のデータが十分にあり、信頼できる統計量が得られたとしても、音響モデルには反映されにくくなる。ちなみに、適応を最適化に至るように（深く、強く）行っていくと、ＥＭアルゴリズムに近づくこととなる。共有の木構造を持つ話者別の音響モデル（２）では、話者ごとの蓄積音声が非常に少ない場合には有効であるが、話者ごとの蓄積音声が増加に伴って、蓄積音声の有効的な利用が困難になってしまうという問題がある。

そこで、本発明では、前記した問題を解決し、過学習が生じることなく、蓄積音声の有効的な利用を行うことができる音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の音響モデル作成装置は、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成する音響モデル作成装置であって、参照音響モデル取得手段と、学習音声取得手段と、学習音声統計量パラメータ算出手段と、学習音声統計量パラメータ代入手段と、モデル作成手段と、を備える構成とした。

かかる構成によれば、音響モデル作成装置は、参照音響モデル取得手段によって、参照音響モデルを取得する。また、音響モデル作成装置は、学習音声取得手段によって、学習音声を取得する。また、音響モデル作成装置は、学習音声統計量パラメータ算出手段によって、学習音声取得手段で取得した学習音声について、音響モデルにおいて各音素の前後に連続する連続音素に従って各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する。

そして、音響モデル作成装置は、学習音声統計量パラメータ代入手段によって、参照音響モデルにおいて各音素の前後に連続する連続音素に従って各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する。続いて、音響モデル作成装置は、モデル作成手段によって、学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、音響モデルを作成する。

請求項２に記載の音声認識装置は、請求項１に記載の音響モデル作成装置で作成された音響モデルを採用した音声認識手段を備えることを特徴とする。
かかる構成によれば、音声認識装置は、音響モデル作成装置で作成された音響モデルを採用しているので、話者に適応した音声認識結果を出力することができる。

請求項３に記載の音響モデル作成プログラムは、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するために、コンピュータを、参照音響モデル取得手段、学習音声取得手段、学習音声統計量パラメータ算出手段、学習音声統計量パラメータ代入手段、モデル作成手段、として機能させる構成とした。

かかる構成によれば、参照音響モデル取得手段によって、参照音響モデルを取得し、学習音声取得手段によって、学習音声を取得する。そして、音響モデル作成プログラムは、学習音声統計量パラメータ算出手段によって、学習音声取得手段で取得した学習音声について、音響モデルにおいて各音素の前後に連続する連続音素に従って各音素の音素環境を分類した音素環境分類木のノードに対応付けられる学習音声の音素サンプルから統計量パラメータを算出し、学習音声統計量パラメータ代入手段によって、参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する。その後、音響モデル作成プログラムは、モデル作成手段によって、学習音声統計量パラメータ代入手段で各リーフノードに代入した統計量パラメータについて、音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、音響モデルを作成する。

請求項１、３に記載の発明によれば、予め蓄積音声に基づいて作成されている参照音響モデルの音素環境分類木の構造を用い、学習音声について、当該音素環境分類木のノードの統計量パラメータを算出して、音響モデルを作成しているので、過学習が生じることなく、蓄積音声の有効的な利用を行うことができる。

請求項２に記載の発明によれば、過学習が生じておらず、蓄積音声が有効的に利用された音響モデルを採用しているので、効率よく、話者に適応した音声認識結果を出力することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
（音響モデル作成装置の構成）
図１は、音響モデル作成装置のブロック図である。この図１に示すように、音響モデル作成装置１は、予め蓄積されている参照音声から求められた参照音響モデルを用い、任意の話者が発声した学習音声から音響モデルを作成するもので、参照音響モデル取得手段３と、学習音声取得手段５と、学習音声統計量パラメータ算出手段７と、学習音声統計量パラメータ代入手段９と、モデル作成手段１１と、を備えている。

参照音響モデル取得手段３は、参照音声から求められた、予め蓄積されている参照音響モデルを取得するものである。参照音声は複数の不特定話者（性別、年齢、出身地等が不問）が発声したものを蓄積したもの（蓄積音声）である。参照音響モデルは、複数の音素ごとに音素環境分類木を備えて構成されている。なお、参照音響モデルは、複数の不特定話者が発声した音声に基づいて生成されたものであるので、不特定話者音響モデルと呼称することもできる。

この参照音響モデル取得手段３は、予め作成されて図示を省略した蓄積手段に蓄積されている各音素の参照音響モデル（不特定話者音響モデル）を、逐次、取得している。なお、この音響モデル作成装置１では、参照音響モデル取得手段３によって、参照音響モデルを取得する構成としているが、実際に音声認識する対象となる音声が入力されるまでに、種々の話者が発声した音声を入力して、当該装置１によって作成した音響モデルを、参照音響モデルとして用いてもよい。つまり、この参照音響モデルは、予め外部の蓄積手段に蓄積されたものを入力してもよいし、予め当該装置１が蓄積手段を備えており、この蓄積手段から読み出して用いてもよい。

音素環境分類木は、複数のノード（分岐する箇所）からなる、いわゆるツリー構造を指し、ツリー構造の根幹となるルートノードと、このルートノードから分岐する複数のリーフノードとから構成されている。ここで、具体的な音素環境分類木の例を図２に示す。

図２に示すように、音素環境分類木の例は、参照音響モデルにおける音素の一つである長母音“ａ：”の場合である。この図２において、音素環境分類木の「○」がノードを示しており、‘ａ：’がルートノードを、ａ：１〜ａ：１０が当該参照音響モデルと同じ共有構造を有する音響モデルの作成に必要なリーフノードを、ｎ０〜ｎ１１がこのリーフノードの統計量を代入できる中間ノードを示している。また、各ノードの直下に示したＬ：Ｌａｂ．やＲ：‘ｉ’は分類ラベルを示しており、Ｌ：Ｌａｂ．のＬは、長母音ａ：の前につくことを、Ｒは、長母音ａ：の後につくことを示している。

なお、中間ノードは、ルートノードからリーフノードへと分岐していく途中のノードである。この中間ノードにおいて、後記する、参照音響モデルにおける統計量パラメータの信頼度の基準（基準値）と、入力された統計量パラメータ（学習音声）の信頼度とが比較判定されることとなる。また、ここでは、中間ノードと、ルートノードおよびリーフノードとを区別しているが、中間ノードは、ルートノードの１種（下位のノードからすると１つの上位のノード）と見なすことができる（特許請求の範囲では、ルートノードおよびリーフノードのみを区別しており、中間ノードは区別していない。ただし、これらのノードは、名称が異なるだけで、再帰的に適用可能である）。

また、図２において、各中間ノードを分岐する際に、正しい場合には、「ｔｕｒｅ」の側に進むことを、正しくない場合には「ｆａｌｓｅ」の側に進むことを示している。

学習音声取得手段５は、音響モデルを作成する学習音声（音声認識の対象となる音声）を取得するものである。この学習音声取得手段５によって、実際に学習音声は、録音されたものが入力されてもよいし、その場で発声されたものが入力されてもよい。なお、学習音声は、複数の音声のデータ（サンプルデータ）からなり、このサンプルデータのサンプル数から信頼度を得ている。

なお、信頼度は、学習音声中の音素サンプル数、フレーム数、ＭＤＬ（K.Shinoda et al.,”MDL-based context-dependent subword modeling for speech recognition”,J.Acoust.Soc.Jpn.(E),vol.21,no.2,pp.79-86,2000.）等の統計量基準を用いることができる（学習音声の収録時間（発声している時間）が増加すると、音素サンプルの分布にもよるが、信頼度は上昇する傾向にある）。ここでは、信頼度は、各ノードに対応するサンプル数と等価としている。なお、単純には、各モデルに割り当てられたフレーム数が閾値以上のときに信頼できるとして、Ｆ（“ａ：”）＞Ｎとしている。

例えば、学習音声として、成年男性または成年女性の健常者が発声した音声を取得することとする。この場合、学習音声は、参照音響モデルを作成するのに用いた参照音声に比べ、データ量が少ない。つまり、特定の話者から、音声認識の対象となる音声のデータを大量に得られることは希である。このため、学習音声のみから音響モデルを作成しようとすると、統計的な処理結果である音響モデルは偏ったものとなりがちであり、過学習が発生するおそれがある。そこで、この音響モデル作成装置１では、以下の処理を施している。

なお、学習音声は、発声内容（音素列）の分かっている約１０時間程度の音声データによって構成されている。このように、特定の話者の音響モデルを作成するのに、当該特定の話者が発声した１０時間以上もの音声データが必要になるが、不特定話者が発声した蓄積音声は５００時間程度必要であるので、この蓄積音声に比べれば、短時間ですむ。なお、この学習音声を、ある番組、例えば、毎日１時間程度放送されているニュース番組中に発声された音声データから得る場合には、当該学習音声は容易に取得できる。このような例では、番組に出演している男女別の音響モデルを作成する場合や、特定のキャスターの音響モデルを作成する場合や、番組ごとに音響モデルを作成する場合が想定される。

ちなみに、この学習音声の発声時間（データ量）が数分程度であれば、前記したＭＬＬＲを有効に活用でき、１０時間程度であれば、前記したＭＡＰを有効に活用でき、１０時間から５００時間（蓄積音声と同程度）程度であれば、当該装置１を有効に活用することできる。

学習音声統計量パラメータ算出手段７は、学習音声取得手段５で取得した学習音声の統計量パラメータを算出するものである。学習音声の統計量パラメータは、再帰的なＥＭアルゴリズムを基礎として得られる数値であり、例えば、混合ガウス分布をモデル化して得られたデータ群（数値群）である。なお、これらのデータ群（数値群）は、参照音響モデル取得手段３で取得された音素環境分類木のノードごとに（各ノードに対応して）求められるものである。

学習音声統計量パラメータ代入手段９は、学習音声統計量パラメータ算出手段７で算出した統計量パラメータを、参照音響モデル取得手段３で取得した各音素の音素環境分類木の各ノードに対応付けられる統計量として代入していくものである（ここでは、各音素の音素環境分類木の各ノードに対応付けられる統計量として、算出した統計量パラメータを当てはめていくとしています。つまり、モデル（混合ガウス分布モデル）をコピーしていく）。

モデル作成手段１１は、参照音響モデルの各ノードにおける信頼度を求め、この信頼度を基準とし、学習音声統計量パラメータ代入手段９で音素環境分類木に統計量パラメータを代入することで、音響モデルを作成するものである。このモデル作成手段１１では、参照音響モデルの音素環境分類木のルートノードから、末端のリーフノードに至るまで、学習音声統計量パラメータ代入手段９で当該音素環境分類木に代入した統計量パラメータについて、信頼度を満たすか否かを判定して、各ノードの統計量パラメータを決定していくことで、新たな音響モデルが作成される。

信頼度は、Ｃ（Ｎｏｄｅ名）で定義しており、このＣ（Ｎｏｄｅ名）は、学習音声中に出現する中心音素のトライフォンを音素環境分類木で分類したときに、各ノードで分類されるトライフォンの延べ総数である。この総数がＮ（基準値）以上（例えば２０以上）であれば、音響モデルとして、当該ノードをそのまま利用可能であるとする。また、Ｎ未満であれば、当該ノードをそのまま利用不可であるとし、当該ノードの上位ノードで得られる統計量パラメータを当該ノードの統計量パラメータの代わりに用いることとしている。

つまり、信頼度が基準値を超えた場合に、学習音声統計量パラメータ算出手段７で算出された学習音声統計量パラメータがそのノードでそのまま採用され、信頼度が基準値を超えない場合にはそのノードの上位ノードの学習音声統計量パラメータがそのまま、または、何らかのマージがされて採用されることになる。

ここで、図３、図４を参照して、モデル作成手段１１によって新たな音響モデルが作成される過程について説明する（適宜、図２参照）。図３は、リーフノードａ：１、ａ：２の統計量パラメータが１つの上位ノード（中間ノードｎ１０）によって決定される過程を示している。図４は、リーフノードａ：６の統計量パラメータが複数の上位ノード（中間ノードｎ０８、ｎ１１）によって決定される過程を示している。

図３（ａ）に示すように、参照音響モデルの音素環境分類木は、中間ノードｎ１０に上位ノードｎ０８からの統計量パラメータが入力され、当該中間ノードｎ１０がリーフノードａ：１と、リーフノードａ：２とに分岐されている。

この場合、図３（ｂ）〜図３（ｅ）に示す過程が想定される。すなわち、図３（ｂ）に示すように、Ｃ（ａ：１）＞Ｎ、Ｃ（ａ：２）＜Ｎ、Ｃ（ｎ１０）＞Ｎの場合、中間ノードｎ１０の統計量パラメータ（統計量）を学習して（そのまま採用して）リーフノードａ：２にコピーする。また、図３（ｃ）に示すように、Ｃ（ａ：１）＜Ｎ、Ｃ（ａ：２）＜Ｎ、Ｃ（ｎ１０）＞Ｎの場合、中間ノードｎ１０の統計量パラメータ（統計量）を学習して（そのまま採用して）、リーフノードａ：１およびリーフノードａ：２にコピーする。

また、図３（ｄ）に示すように、Ｃ（ａ：１）＜Ｎ、Ｃ（ａ：２）＞Ｎ、Ｃ（ｎ１０）＞Ｎの場合、中間ノードｎ１０の統計量パラメータ（統計量）を学習して（そのまま採用して）、リーフノードａ：１にコピーする。さらに、図３（ｅ）に示すように、Ｃ（ａ：１）＜Ｎ、Ｃ（ａ：２）＜Ｎ、Ｃ（ｎ１０）＜Ｎの場合、中間ノードｎ０８の統計量パラメータ（統計量）を学習して（そのまま採用して）、中間ノードｎ１０、リーフノードａ：１およびリーフノードａ：２にコピーする。

図４（ａ）に示すように、参照音響モデルの音素環境分類木は、リーフノードａ：６に中間ノードｎ１１と中間ノードｎ０８とからの統計量パラメータが入力されている。この場合、図４（ｂ）に示す過程が想定され、Ｃ（ａ：６）＜Ｎの場合、中間ノードｎ０８と中間ノードｎ１０の統計量パラメータ（統計量）をマージして（例えば、算術平均をとって）、リーフノードａ：６にコピーする。図１に戻る。

この音響モデル作成装置１によれば、参照音響モデル取得手段３によって、蓄積音声から得られた参照音響モデルにおける音素環境分類木の構造を利用しつつ、学習音声の統計量パラメータを当てはめていき、学習音声の統計量パラメータが十分にない場合には、参照音響モデルの統計量パラメータが採用されていくことになるので、過学習が生じることなく、蓄積音声の有効的な利用を行うことができる。

この音響モデル作成装置１に音声認識手段１３を付加すれば音声認識装置を成すことができる。この音声認識手段１３は、学習音声を発声した話者が、改めて発声した発声音声を入力とし、音響モデル作成装置１で作成された音響モデルを利用して、当該発声音声の認識し、認識した結果である音声認識結果（テキストデータ）を出力するものである。

この音声認識装置によれば、音響モデル作成装置１で作成された音響モデルを採用しているので、話者に適応した音声認識結果を出力することができる。

（音響モデル作成装置の動作）
次に、図５に示すフローチャートを参照して、音響モデル作成装置の動作を説明する（適宜、図１参照）。
まず、音響モデル作成装置１は、参照音響モデル取得手段３によって、参照音響モデルを取得する（ステップＳ１）。また、音響モデル作成装置１は、音響モデルを作成する対象となる話者が発声した学習音声を、学習音声取得手段５によって取得する（ステップＳ２）。

続いて、音響モデル作成装置１は、学習音声統計量パラメータ算出手段７によって、学習音声統計量パラメータを算出する（ステップＳ３）。そして、音響モデル作成装置１は、学習音声統計量パラメータ代入手段９によって、参照音響モデル取得手段３で取得した参照音響モデルのノードに、学習音声統計量パラメータ算出手段７で算出した学習音声統計量パラメータを代入する（ステップＳ４）。

そして、音響モデル作成装置１は、モデル作成手段１１によって、各ノードの信頼度が基準値以上か否かを判定して、音響モデルを作成し、出力する（ステップＳ５）。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音響モデル作成装置１として説明したが、当該装置１の各構成の処理を実行可能とするように、一般的または特殊なコンピュータ言語で記述した音響モデル作成プログラムとして構成することも可能である。

本発明の実施形態に係る音響モデル作成装置のブロック図である。音素環境分類木の例を示した図である。１つのノードから統計量パラメータが代入される過程を示した図である。複数のノードから統計量パラメータが代入される過程を示した図である。図１に示した音響モデル作成装置の動作を説明したフローチャートである。音素環境分類木の例を示した図である。従来の木構造音素ネットワークの一例を示した図である。従来の効率化した木構造音素ネットワークの一例を示した図である。木構造ネットワークを共有できる場合とできない場合とを示した図である。

符号の説明

１音響モデル作成装置
３参照音響モデル取得手段
５学習音声取得手段
７学習音声統計量パラメータ算出手段
９学習音声統計量パラメータ代入手段
１１モデル作成手段
１３音声認識手段

Claims

参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成する音響モデル作成装置であって、
前記参照音響モデルを取得する参照音響モデル取得手段と、
前記学習音声を取得する学習音声取得手段と、
この学習音声取得手段で取得した学習音声について、前記音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する学習音声統計量パラメータ算出手段と、
前記参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、前記学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する学習音声統計量パラメータ代入手段と、
この学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、前記音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、前記音響モデルを作成するモデル作成手段と、
を備えることを特徴とする音響モデル作成装置。
請求項１に記載の音響モデル作成装置で作成された音響モデルを採用した音声認識手段を備えることを特徴とする音声認識装置。
参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するために、コンピュータを、
前記参照音響モデルを取得する参照音響モデル取得手段、
前記学習音声を取得する学習音声取得手段、
この学習音声取得手段で取得した学習音声について、前記音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する学習音声統計量パラメータ算出手段、
前記参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、前記学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する学習音声統計量パラメータ代入手段、
この学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、前記音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、前記音響モデルを作成するモデル作成手段、
として機能させることを特徴とする音響モデル作成プログラム。