JP2004279466A

JP2004279466A - 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Info

Publication number: JP2004279466A
Application number: JP2003066933A
Authority: JP
Inventors: Shi Cho; 志鵬張; Seita Otsuji; 清太大辻; Toshiaki Sugimura; 利明杉村; Sadahiro Furui; 貞煕古井
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-03-12
Filing date: 2003-03-12
Publication date: 2004-10-07
Anticipated expiration: 2023-03-12
Also published as: JP4033299B2; CN1542737A; EP1457968A1; EP1457968B1; US20040204937A1; US7552049B2; DE602004000716T2; DE602004000716D1; CN1234110C

Abstract

【課題】多くの雑音データについて最適にクラスタリング処理をすることができると共に、入力音声に対する音声モデル系列の推定をより正確に行う。
【解決手段】雑音対信号比条件に合わせて雑音を音声に重畳することにより雑音重畳音声を作成し（ステップＳ１）、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い（ステップＳ２）、各雑音重畳音声のガウス分布モデルを作成し（ステップＳ３）、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより（ステップＳ４）、クラスタリング結果を得る。最適なモデルを選択し（ステップＳ７）、尤度が最大となるように線形変換する（ステップＳ８）。
【効果】雑音重畳音声に対して、クラスタリング過程とモデル学習過程とを行うので、多くの雑音データについてのクラスタリング処理、正確な音声モデル系列推定を実現できる。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムに関し、特に音声の特徴を隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；以下ＨＭＭと略称する）によってモデル化したクリーンな音声モデルを、認識対象となる雑音音声を用いて、その雑音環境に対する認識率を高めるように適応化する音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムに関する。
【０００２】
【従来の技術】
従来の木構造区分線形変換手法として、非特許文献１がある。非特許文献１に記載されている手法に従うと、雑音のクラスタリングを行い、このクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成し、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出し、木構造の雑音音声モデル空間から最適なモデルを選択し、選択されたモデルについて尤度が更に大きくなるように線形変換を行うことにより、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【０００３】
【非特許文献１】
張志鵬他著「区分線形変換による雑音適応化法における木構造クラスタリングの効果」日本音響学会２００２年秋季発表会、ｐｐ．２９−３０
【０００４】
【発明が解決しようとする課題】
上述した非特許文献１による雑音重畳音声モデルの作成過程においては、雑音データのみに対しクラスタリングを行い、次に雑音を音声に重畳し、雑音重畳音声モデルを学習することになる。このように処理を行う場合、クラスタリング過程の雑音においての特性とモデル学習過程においての雑音重畳音声モデル特性とに不一致が生じるという問題がある。
【０００５】
本発明は上述した従来技術の欠点を解決するためになされたものであり、その第１の目的は多くの雑音データについて最適にクラスタリング処理をすることのできる音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムを提供することである。
また、本発明の第２の目的は、上記クラスタリング結果を利用することにより、音声認識率を高めることのできる音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムを提供することである。
【０００６】
【課題を解決するための手段】
本発明の請求項１による音声モデルの雑音適応化システムは、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、多くの雑音データについて最適にクラスタリング処理をすることができると共に、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【０００７】
本発明の請求項２による音声モデルの雑音適応化システムは、請求項１において、前記クラスタリング手段は、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【０００８】
本発明の請求項３による音声モデルの雑音適応化システムは、請求項１又は２において、前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【０００９】
本発明の請求項４による音声モデルの雑音適応化システムは、請求項３において、前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００１０】
本発明の請求項５による音声モデルの雑音適応化システムは、請求項１乃至４のいずれか１項において、前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【００１１】
本発明の請求項６による音声モデルの雑音適応化方法は、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００１２】
本発明の請求項７による音声モデルの雑音適応化方法は、請求項６において、前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【００１３】
本発明の請求項８による音声モデルの雑音適応化方法は、請求項６又は７において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【００１４】
本発明の請求項９による音声モデルの雑音適応化方法は、請求項８において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００１５】
本発明の請求項１０による音声モデルの雑音適応化方法は、請求項６乃至９のいずれか１項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【００１６】
本発明の請求項１１による音声認識雑音適応化プログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声認識雑音適応化プログラムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００１７】
本発明の請求項１２による音声認識雑音適応化プログラムは、請求項１１において、前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【００１８】
本発明の請求項１３による音声認識雑音適応化プログラムは、請求項１１又は１２において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【００１９】
本発明の請求項１４による音声認識雑音適応化プログラムは、請求項１３において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００２０】
本発明の請求項１５による音声認識雑音適応化プログラムは、請求項１１乃至１４のいずれか１項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【００２１】
要するに本発明では、雑音データベースを用いて、ＳＮＲ条件に合わせて、クリーンな音声に雑音を重畳する（後述するステップＳ１）。この雑音重畳音声に対しクラスタリングを行って木構造雑音重畳音声モデル空間を構築する。雑音重畳音声モデル空間において、各木構造ノードに属する雑音をクリーンな音声に重畳し、雑音重畳音声のモデルを構築する（後述するステップＳ３）。雑音重畳音声の木構造モデル空間において、尤度を計算し（後述するステップＳ４）、上から下にたどり最適なモデルを選択する（後述するステップＳ７）。このように選択された適応化音声モデル系列のモデルパラメータに基づいて尤度が最大となるように線形変換を行う（後述するステップＳ８）。
【００２２】
つまり、モデル学習過程のみならず、クラスタリング過程においても雑音重畳音声に対して処理を行う。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、最尤の雑音重畳音声モデルを学習できる。したがって、高い認識精度を達成できる。
【００２３】
【発明の実施の形態】
次に、図面を参照して本発明の実施の形態について説明する。なお、以下の説明において参照する各図においては、他の図と同等部分に同一符号が付されている。
本発明においては、雑音音声モデル空間を、雑音対信号比すなわちＳＮＲ（ｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ）と音質とによって、木構造的に作成しておく。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現するモデルが得られる。この木構造を上から下にたどりルートからトップダン方式で最適なモデルを選択することにより、最適な雑音区分空間を選択できる。
【００２４】
そして、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、最尤の雑音重畳音声モデルを学習でき、認識精度を高めることができる。
（本システムの構成）
この処理を実現するための構成について図１を参照して説明する。同図は、本発明による雑音適応化システムの実施の一形態を示すブロック図である。同図に示されているように、本実施形態による雑音適応化システムは、木構造モデル記憶部１と、特徴抽出部２と、音声認識部３と、モデル選択判定部４と、モデル線形変換適応部５と、認識結果保存部６とを含んで構成されている。
【００２５】
木構造モデル記憶部１は、雑音重畳音声のクラスタリングの結果によって、雑音重畳音声ＨＭＭを二段階（ＳＮＲ及び雑音性質）の木構造に作成し、保存する部分である。
特徴抽出部２は、入力された音声データを分析して特徴ベクトルに変換する分析部分である。
【００２６】
音声認識部３は、特徴ベクトルの時系列に変換された上記入力音声データをＶｉｔｅｒｂｉアルゴリズムによって、尤度関数が最大となるモデル系列を求める部分である。
モデル選択判定部４は、木構造モデル記憶部１に記憶されているモデルの中から、尤度が最大となるように最適なモデルを選択する部分である。
【００２７】
モデル線形変換適応部５は、モデル選択判定部４によって選択されるモデルで、尤度が最大化するように線形変換を行う部分である。
認識結果保存部６は、音声の認識結果を保存する部分である。
（本システムの動作）
以上の構成からなる本システムの動作について、図２及び図３を参照して説明する。図２は、本システムの動作の流れに従って図１中の各部１〜６を並べ替えた機能ブロック図である。図３は本システムによる処理手順を示すフロー図である。
【００２８】
本システムを使った音声認識を実施する手順は、以下のステップＳ１〜Ｓ９のようになる。
ステップＳ１（雑音が重畳された音声の作成過程）：雑音データベースを用いて、ＳＮＲ条件に合わせて、クリーンな音声に重畳し、雑音が重畳された音声すなわち雑音重畳音声を作成する。なお、本例では、ＳＮＲ＝５，１０，１５ｄＢとする。
【００２９】
ステップＳ２（雑音重畳音声の平均差引き適応過程）：ステップＳ１で作成される雑音重畳音声に対し、ＣＭＳ（ＣｅｐｓｔｒａｌＭｅａｎＳｕｂｔｒａｃｔｉｏｎ）を適用する。ＣＭＳは、音声ケプストラム（Ｃｅｐｓｔｒａｌ）の平均を差引く手法である。すなわち、一定区間の音声データに対し、あらゆるフレームのケプストラムの平均値を計算し、フレームごとにこの平均値を差引く処理が行われる。ケプストラムとは、フーリエ変換によって求められたパワースペクトルの対数値をさらにフーリエ変換したものである。なお、このＣＭＳについては、文献「Ｆｕｒｕｉ：ＣｅｐｓｔｒａｌＡｎａｌｙｓｉｓＴｅｃｈｎｉｑｕｅＦｏｒＡｕｔｏｍａｔｉｃＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＡｃｏｕｓｔｉｃａｌＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、Ｖｏｌ．ＡＳＳＰ−２９，ｐｐ．２５４−２７２，１９８１年」に記載されている。
【００３０】
ステップＳ３（雑音重畳音声モデルの作成過程）：各雑音重畳音声の混合ガウス分布モデル（ＧＭＭ）をＢａｕｍ−Ｗｅｌｃｈアルゴリズムによって作成する。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムでは、適当な初期値から始めて、繰り返しによって最適値に近づくというアプローチをとる。なお、このＢａｕｍ−Ｗｅｌｃｈアルゴリズムは、文献「中川聖一著：“確率モデルによる音声認識”、電子情報通信学会、１９８８」に記載されている。
【００３１】
ステップＳ４（雑音重畳音声のクラスタリング過程）：次に、ガウス分布モデルを用いて、各雑音重畳音声間の尤度を計算し、尤度行列を作成する。この尤度行列に基づいてＳＰＬＩＴ法を用いて、逐次的に雑音重畳音声のクラスタリングを行う。このＳＰＬＩＴ方法ではひずみが最大となるクラスタを順次分割する。よって任意の数のクラスタを作成できる。クラスタ数さえ与えれば、完全に自動的にクラスタリンングの結果が得られる。なお、このＳＰＬＩＴ法は、文献「菅村他、音声研究会資料、Ｓ８２−６４，１９８２年」に記載されている。
【００３２】
ステップＳ５（区分線形変換適応への適用）：上記のステップＳ４により、雑音重畳音声の木構造クラスタリング結果が得られる。このクラスタリング結果を木構造モデル記憶部１に保存する。このクラスタリング結果は、木構造で特性を表しているので、木構造の上層では雑音重畳音声の大局的な特徴を、下層では局所的な特徴を、それぞれ表現している。
【００３３】
このクラスタリング結果を、区分線形変換手法に適用する。この区分線形変換手法は、文献「張他、日本音響学会２００２年秋季発表会、ｐｐ．２９−３０」に記載されている。具体的には以下のステップＳ６〜Ｓ９の処理が行われる。
ステップＳ６（特徴量抽出過程）：特徴抽出部２において、認識対象雑音音声データの特徴量を抽出する。特徴量抽出は、入力された音声データを一定フレーム毎に線形予測符号化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ；ＬＰＣ）分析し、ケプストラム又はΔケプストラムなどの特徴パラメータベクトルの時系列を特徴パラメータ列として得る。
【００３４】
ステップＳ７（最適モデル選択）：最適モデル選択について、図４を参照して説明する。図４において、一番上のノード（ｒｏｏｔ）はクリーン音声モデルを表す。その下にはＳＮＲごとにＮ個のモデルがある。Ｎ個のモデルとは、モデルＳＮＲ−１〜モデルＳＮＲ−Ｎである。これらＮ個のモデルＳＮＲ−１〜モデルＳＮＲ−Ｎは特定ＳＮＲ条件での全雑音を混合した音声から学習したモデルを表す。
【００３５】
そのさらに下にある子ノードはクラスタリング結果によって、選択された一部の雑音種類を混合した音声データから学習したモデルを表す。この木構造の一番下にあるのはある特定雑音（１種類だけ）を混合した音声から学習したモデルである。木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現する。
【００３６】
認識するときは、まずｒｏｏｔのクリーン不特定モデルを用いて、ステップＳ４で得られた特徴パラメータ列によって、尤度を計算する。これは図１中の音声認識部３によって行われる。
次に、ｒｏｏｔの下の各モデルを用いて、同じく音声認識部３によって尤度を計算する。以上で得られた尤度の値を用いて、モデル選択判定部４によって最適モデルを選択する。具体的に以下のように処理する。ｒｏｏｔのクリーン不特定モデルの尤度より高いモデルを保留する。これらのＳＮＲ条件でさらに下へ各子ノードのモデルを用いて尤度を計算する。２つの子ノードモデルと親ノードの尤度を比較し、尤度最大のモデルは子ノードモデルであれば、さらに下へたどる。親ノードの方が一番高ければ、計算を停止し、この親ノードを最適なノードだと判断する。
【００３７】
図４には、探索パスが実線で表されている。この計算を繰り返すと最適な空間を見つけることができる。また、各ＳＮＲ条件の尤度最大となるモデルの尤度を比較し、最大となるモデルが全体の雑音音声空間での最適モデルだとする。例えば、図４中のＳＮＲ−１条件では４番ノードが尤度最大である。また、同図中のＳＮＲ−Ｎ条件では５番ノードが尤度最大である。そして、これら各ＳＮＲ条件において最大のモデルの中からさらに尤度同士を比較し、選択する。
【００３８】
ステップＳ８（線形変換）：選択されるモデルについて、モデル線形変換適応部５によってさらに尤度が最大化するように線形変換（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅｒＲｅｇｒｅｓｉｏｎ；以下ＭＬＬＲと略称する）を行う。この線形変換については、文献「ＭｅａｎａｎｄｖａｒｉａｎｃｅａｄａｐｔａｔｉｏｎｗｉｔｈｉｎｔｈｅＭＬＬＲｆｒａｍｅｗｏｒｋ」（Ｍ．Ｊ．ＦＧａｌｅｓｅｔａｌ．、ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ、ｐｐ．２４９−２６４、１９９６年）に記載されている。具体的には認識結果の音素列を用いて、線形変換の行列を尤度最大基準に基づいて推定し、ＨＭＭのガウス分布の平均値と分散値とを線形変換により適応化する。
【００３９】
ステップＳ９（再認識）：音声認識結果を出力する場合は、ステップＳ８で得られたモデルを用いて、音声認識部３によって再認識し、認識結果を認識結果保存部６に保存する。
（本システムの効果）
以上のように本発明では、雑音データベースを用いて、雑音を音声に重畳させる、雑音重畳音声のモデルを学習する。各雑音モデル間の距離を計算し、雑音のクラスタリングを行う。雑音のクラスタリングの結果に基づいて、木構造的に音声モデルを作成する。
【００４０】
まず雑音重畳音声についてＳＮＲでクラスタ化し、次にＳＮＲ条件ごとに木構造モデルが用意でき、木構造雑音音声モデル空間を作成しておく。特徴抽出過程で、認識対象となる入力雑音音声を分析して特徴パラメータ列を抽出し、木構造雑音音声モデル空間から最適なモデルを選択する。選ばれた雑音音声モデル空間から尤度がさらに最大化するように線形変換を行う。
【００４１】
以上述べたように、本発明の雑音適応化システムにおいては、認識対象となる雑音音声を用いて、不特定話者用音声モデルを適応化している。雑音重畳音声の木構造モデル空間を作成し、上から下にたどり最適なモデルを選択し、さらに尤度がさらに最大化するように線形変換を行って、適応化モデルを作成する。
ここで、発明者は、雑音が乗っている対話音声について、本システムによる音声認識の効果を調べた。以下、この実験例を述べる。
【００４２】
実験で使用した音声ＨＭＭは、ｔｒｅｅ−ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇにより状態共有化を行った不特定話者文脈依存音素ＨＭＭである。特徴量としては、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）１２次元、その微分１２次元、対数パワーの１次微分の計２５次元を利用した。「ＭｅｌＦｒｅｑｕｅｎｃｙ」とは、人間が音を聴く感度に合わせて作られた値である。その音がどれくらい人間の耳によく聴こえるのかを表すときに良く使用される。このＭＦＣＣは以下の手順で生成される。すなわち、音声波形のデータに対し、離散フーリエ変換を行い、その値を対数表現に変換する。そして、それを逆離散フーリエ変換し、そこでできた波形を一定間隔ごとに取出したものがＭＦＣＣである。
【００４３】
本システムの効果について図５を参照して説明する。同図には、不特定音声ＨＭＭを用いた単語正解精度（ベースライン）と、この発明の実施例の方法により適応化された音声ＨＭＭを用いた単語正解精度（本手法）とが示されている。同図中の縦軸は単語正解精度（％）である。同図中の横軸はＳＮＲ（ｄＢ）である。また、同図中の散点模様がベースライン、縦縞模様が本システムによる手法である。
【００４４】
同図に示されている結果から、本発明による方法が従来方法に比べて有効であることがわかる。この場合、ベースラインに比べ、単語誤り率は３６．１％低下した。
（音声モデルの雑音適応化方法）
上述した雑音適応化システムにおいては、以下のような雑音適応化方法が実現されている。すなわち、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であり、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含む雑音適応化方法が実現されている。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００４５】
また、上記クラスタリングステップにおいては、雑音対信号比条件に合わせて上記雑音を音声に重畳することにより上記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得る。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【００４６】
さらに、上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
そして、上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００４７】
なお、上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができる。
（音声モデルの雑音適応化プログラム）
ところで、図３に示されている処理を実行するためのプログラムを用意し、これを用いてコンピュータを制御することにより、上記と同様の効果が得られる。このプログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声認識雑音適応化プログラムであり、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含んでいる。このように、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００４８】
また、上記クラスタリングステップにおいては、雑音対信号比条件に合わせて上記雑音を音声に重畳することにより上記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得る。こうすることにより、雑音重畳音声に対して、クラスタリング処理を行うことができる。
【００４９】
さらに、上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
そして、上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。木構造の上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００５０】
なお、上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができる。
以上のプログラムを記録するための記録媒体には、図示されていない半導体メモリ、磁気ディスク、光ディスク等の他、種々の記録媒体を用いることができる。
【００５１】
【発明の効果】
以上説明したように、本発明の請求項１、６、１１によれば、クラスタリング過程とモデル学習過程とを、一貫して雑音重畳音声に対して行うことによって、多くの雑音データについて最適にクラスタリング処理をすることができると共に、入力音声に対する音声モデル系列の推定をより正確に行うことができるという効果がある。
【００５２】
また、本発明の請求項２、７、１２によれば、雑音対信号比条件に合わせて雑音を音声に重畳し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、雑音重畳音声に対して、クラスタリング処理を行うことができるという効果がある。
【００５３】
本発明の請求項３、８、１３によれば、抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することにより、音声認識精度を高めることができるという効果がある。
本発明の請求項４、９、１４によれば、木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することにより、最適なモデルを選択することができるという効果がある。
【００５４】
本発明の請求項５、１０、１５によれば、選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができるという効果がある。
【図面の簡単な説明】
【図１】本発明の実施の一形態による音声モデルの雑音適応化システムの構成を示すブロック図である。
【図２】本システムの動作の流れに従って図１中の各部を並べ替えた機能ブロック図である。
【図３】本システムによる処理手順を示すフロー図である。
【図４】木構造雑音音声モデル空間における最適モデルの選択処理を示す概念図である。
【図５】本システムにより適応化された音声ＨＭＭを用いた単語正解精度を示す図である。
【符号の説明】
１木構造モデル記憶部
２特徴抽出部
３音声認識部
４モデル選択判定部
５モデル線形変換適応部
６認識結果保存部

Claims

クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする音声モデルの雑音適応化システム。
前記クラスタリング手段は、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする請求項１記載の音声モデルの雑音適応化システム。
前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項１又は２記載の雑音適応化システム。
前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項３記載の雑音適応化システム。
前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項１乃至４のいずれか１項に記載の雑音適応化システム。
クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声モデルの雑音適応化方法。
前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする請求項６記載の音声モデルの雑音適応化方法。
前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項６又は７記載の音声モデルの雑音適応化方法。
前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項８記載の音声モデルの雑音適応化方法。
前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項６乃至９のいずれか１項に記載の音声モデルの雑音適応化方法。
コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声認識雑音適応化プログラムであって、雑音が重畳された雑音重畳音声のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声認識雑音適応化プログラム。
前記クラスタリングステップにおいては、雑音対信号比条件に合わせて前記雑音を音声に重畳することにより前記雑音重畳音声を作成し、作成された雑音重畳音声について音声ケプストラムの平均値を差引く処理を行い、各雑音重畳音声のガウス分布モデルを作成し、各雑音重畳音声間の尤度を計算して尤度行列を作成することにより、クラスタリング結果を得ることを特徴とする請求項１１記載の音声認識雑音適応化プログラム。
前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項１１又は１２記載の音声認識雑音適応化プログラム。
前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項１３記載の音声認識雑音適応化プログラム。
前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項１１乃至１４のいずれか１項に記載の音声認識雑音適応化プログラム。