JP4233831B2

JP4233831B2 - 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム

Info

Publication number: JP4233831B2
Application number: JP2002278582A
Authority: JP
Inventors: 志鵬張; 清太大辻; 利明杉村; 貞煕古井
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2002-09-25
Filing date: 2002-09-25
Publication date: 2009-03-04
Anticipated expiration: 2022-09-25
Also published as: JP2004117624A

Description

【０００１】
【発明の属する技術分野】
本発明は音声モデルの雑音適応化方法、及び、その方法を用いた音声認識方法、並びに、音声認識プログラムに関し、特に音声の特徴を隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、以下ＨＭＭと略称する）でモデル化したクリーンな音声モデルについての音声モデルの雑音適応化方法、及び、その方法を用いた音声認識方法、並びに、音声認識プログラムに関する。
【０００２】
【従来の技術】
現在の自動音声認識システムは研究室条件下では良好に機能するが、実際のアプリケーションでは急激に性能を低下させる。実世界アプリケーションにおける問題点の一つは、背景に雑音や音楽を含む音声に対する認識性能の劣化が挙げられる。この雑音問題に対処するために、ＨＭＭ合成法（例えば、非特許文献１参照）やｎｅｕｒａｌｎｅｔｗｏｒｋ法（例えば、非特許文献２参照）などの種々の非線形手法が開発されている。
【０００３】
【非特許文献１】
「ＲｅｃｏｇｎｉｔｉｏｎｏｆｎｏｉｓｙｓｐｅｅｃｈｂｙｃｏｍｐｏｓｉｔｉｏｎｏｆｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ」Ｆ．Ｍａｒｔｉｎ、ｅｔａｌ．、Ｐｒｏｃ．Ｅｕｒｏｓｐｅｅｃｈ、ｐｐ．１０３１−１０３４、１９９３年
【非特許文献２】
「ＮｏｉｓｅａｄａｐｔａｔｉｏｎｏｆＨＭＭｓｕｓｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｓ」Ｓ．Ｆｕｒｕｉ、ｅｔａｌ．、Ｐｒｏｃ．ＩＳＣＡＩＴＲＷＡＳＲ２０００、ｐｐ．１６０−１６７、２０００年
【０００４】
【発明が解決しようとする課題】
しかしながら、上述した非特許文献１や非特許文献２に記載されている従来技術は制限がありすぎるか複雑な処理と大きな計算量とを必要とする。
本発明の目的は、雑音適応によって入力音声に対する音声モデル系列の推定をより正確に行うことができる音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラムを提供することである。
【０００５】
【課題を解決するための手段】
本発明の請求項１による音声モデルの雑音適応化システムは、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【０００６】
本発明の請求項２による音声モデルの雑音適応化システムは、請求項１において、前記クラスタリング手段は、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【０００７】
本発明の請求項３による音声モデルの雑音適応化システムは、請求項１又は２において、前記音声モデル空間作成手段は、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
【０００８】
本発明の請求項４による音声モデルの雑音適応化システムは、請求項１乃至３のいずれか１項において、前記音声モデル空間作成手段は、前記クラスタリング手段のクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【０００９】
本発明の請求項５による音声モデルの雑音適応化システムは、請求項１乃至４のいずれか１項において、前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【００１０】
本発明の請求項６による音声モデルの雑音適応化システムは、請求項５において、前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。上層から下層に向かってたどることによって最適なモデルを選択することができる。
本発明の請求項７による音声モデルの雑音適応化システムは、請求項１乃至６のいずれか１項において、前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【００１１】
本発明の請求項８による音声モデルの雑音適応化方法は、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００１２】
本発明の請求項９による音声モデルの雑音適応化方法は、請求項８において、前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【００１３】
本発明の請求項１０による音声モデルの雑音適応化方法は、請求項８又は９において、前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
【００１４】
本発明の請求項１１による音声モデルの雑音適応化方法は、請求項８乃至１０のいずれか１項において、前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【００１５】
本発明の請求項１２による音声モデルの雑音適応化方法は、請求項８乃至１１のいずれか１項において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【００１６】
本発明の請求項１３による音声モデルの雑音適応化方法は、請求項１２において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００１７】
本発明の請求項１４による音声モデルの雑音適応化方法は、請求項８乃至１３のいずれか１項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。本発明の請求項１５による音声モデルの雑音適応化プログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声モデルの雑音適応化プログラムであって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００１８】
本発明の請求項１６による音声モデルの雑音適応化プログラムは、請求項１５において、前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【００１９】
本発明の請求項１７による音声モデルの雑音適応化プログラムは、請求項１５又は１６において、前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
【００２０】
本発明の請求項１８による音声モデルの雑音適応化プログラムは、請求項１５乃至１７のいずれか１項において、前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【００２１】
本発明の請求項１９による音声モデルの雑音適応化プログラムは、請求項１５乃至１８のいずれか１項において、前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
【００２２】
本発明の請求項２０による音声モデルの雑音適応化プログラムは、請求項１９において、前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００２３】
本発明の請求項２１による音声モデルの雑音適応化プログラムは、請求１５乃至２０のいずれか１項において、前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする。線形変換を行うことにより、尤度を最大にすることができる。
【００２４】
要するに、本発明では、音声の特徴を隠れマルコフモデルでモデル化したクリーンな音声モデルを、認識対象となる雑音音声を用いて、その雑音環境に対する認識率を高めるように適応化する。
このため本発明では、まず雑音データベースを用いて、各雑音のモデルを学習する。そして、各雑音モデル間の距離を計算し、雑音のクラスタリングを行う。さらに、雑音のクラスタリングの結果に基づいて、木構造的に音声モデルを作成する。
【００２５】
この場合、ＳＮＲでクラスタ化し、次にＳＮＲ条件ごとに木構造モデルが用意でき、木構造雑音音声モデル空間を作成しておく。特徴抽出過程で、認識対象となる入力雑音音声を分析して特徴パラメータ列を抽出し、木構造雑音音声モデル空間から最適なモデルを選択する。選択された雑音音声モデル空間から尤度がさらに最大化するように線形変換を行う。
【００２６】
以上のように処理することで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００２７】
【発明の実施の形態】
次に、図面を参照して本発明の実施の形態について説明する。なお、以下の説明において参照する各図においては、他の図と同等部分に同一符号が付されている。
本発明においては、雑音音声モデル空間を、ＳＮＲ(ｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ)と音質とによって、木構造的に作成しておく。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現するモデルが得られる。この木構造を上から下にたどりルートからトップダン方式で最適なモデルを選択することにより、最適な雑音区分空間を選択できる。
【００２８】
この処理を実現するための構成について図１を参照して説明する。同図は、本発明による雑音適応化システムの実施の一形態を示すブロック図である。同図に示されているように、本実施形態による雑音適応化システムは、木構造モデル記憶部１と、特徴抽出部２と、音声認識部３と、モデル選択判定部４と、モデル線形変換適応部５と、認識結果保存部６とを含んで構成されている。
【００２９】
木構造モデル記憶部１は、雑音のクラスタリングの結果によって、雑音重畳音声ＨＭＭを二段階（ＳＮＲ及び雑音性質）の木構造に作成し、保存する部分である。
特徴抽出部２は、入力された音声データを分析して特徴ベクトルに変換する分析部分である。
【００３０】
音声認識部３は、特徴ベクトルの時系列に変換された上記入力音声データをＶｉｔｅｒｂｉアルゴリズムによって、尤度関数が最大となるモデル系列を求める部分である。
モデル選択判定部４は、木構造モデル記憶部１に記憶されているモデルの中から、尤度が最大となるように最適なモデルを選択する部分である。
【００３１】
モデル線形変換適応部５は、モデル選択判定部４によって選択されるモデルで、尤度が最大化するように線形変換を行う部分である。
認識結果保存部６は、音声の認識結果を保存する部分である。
以上の構成からなる本システムの動作について、図２及び図３を参照して説明する。図２は、本システムの動作の流れに従って図１中の各部１〜６を並べ替えた機能ブロック図である。図３は本システムによる処理手順を示すフロー図である。
【００３２】
この発明による雑音適応化システムを使った音声認識を実施する手順は、以下のステップＳ１〜Ｓ７のようになる。
ステップＳ１（雑音クラスタリング過程）：雑音データベースを用いて、各雑音の混合ガウス分布モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；以下ＧＭＭと略称する）をＢａｕｍ−Ｗｅｌｃｈアルゴリズムによって作成する。このＢａｕｍ−Ｗｅｌｃｈアルゴリズムは、文献「確率モデルによる音声認識」（中川聖一、電子情報通信学会、１９８８）に記載されている。このＢａｕｍ−Ｗｅｌｃｈアルゴリズムでは、適当な初期値から始めて、繰返しによって最適値に近づくというアプローチをとる。
【００３３】
次に、ガウス分布モデルを用いて、各雑音間の尤度を計算し、尤度行列を作成する。この尤度行列に基づいてＳＰＬＩＴ法を用いて、逐次的に雑音のクラスタリングを行う。このＳＰＬＩＴ法は、文献「ＳＰＬＩＴマルチテンプレート法による不特定話者単語音声認識」（菅村他、電子情報通信学会、ｐｐ．５０５−５１２、１９８２年）に記載されている。このＳＰＬＩＴ法では、ひずみが最大となるクラスタを順次分割する。よって、任意の数のクラスタを作成できる。クラスタさえ与えれば、完全に自動的にクラスタリングの結果が得られる。
【００３４】
ステップＳ２（雑音重畳音声の作成）：雑音データベースとクリーンな音声データベースとを用いて、雑音重畳音声データを作成する。決められたＳＮＲに合わせて、各雑音をクリーンな音声に付加する。なお、本例では、ＳＮＲ＝５，１０，１５，２０ｄＢとする。
ステップＳ３（木構造音響モデルの作成）：雑音のクラスタリング結果に基づいて、ステップＳ２で用意した雑音重畳音声を用いて、ＳＮＲごとに木構造的に音声モデルを作成する。この場合はクリーン音声モデルをベースにノードに属するあらゆる種類の雑音を重畳する音声を用いてＢａｕｍ−Ｗｅｌｃｈアルゴリズムによって学習する。雑音木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴を、下層では局所的な特徴を、それぞれ表現するモデルが得られる。まずＳＮＲでクラスタ化し、次にＳＮＲ条件ごとに木構造モデルを作成する。ここまで作成した木構造モデルを木構造モデル記憶部１に保存する。
【００３５】
ステップＳ４（特徴量抽出過程）：特徴抽出部２において、認識対象雑音音声データの特徴量を抽出する。特徴量抽出は、入力された音声データを一定フレーム毎に線形予測符号化（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ；以下ＬＰＣと略称する）分析し、ケプストラム又はΔケプストラムなどの特徴パラメータベクトルの時系列を特徴パラメータ列として得る。ケプストラムとは、フーリエ変換によって求められたパワースペクトルの対数値をさらにフーリエ変換したものである。
【００３６】
ステップＳ５（最適モデル選択）：最適モデル選択について、図４を参照して説明する。図４において、一番上のノード（ｒｏｏｔ）はクリーン音声モデルを表す。その下にはＳＮＲごとにＮ個のモデルがある。Ｎ個のモデルとは、モデルＳＮＲ−１〜モデルＳＮＲ−Ｎである。これらＮ個のモデルＳＮＲ−１〜モデルＳＮＲ−Ｎは特定ＳＮＲ条件での全雑音を混合した音声から学習したモデルを表す。
【００３７】
そのさらに下にある子ノードはクラスタリング結果によって、選択された一部の雑音種類を混合した音声データから学習したモデルを表す。この木構造の一番下にあるのはある特定雑音（１種類だけ）を混合した音声から学習したモデルである。木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現する。
【００３８】
認識するときは、まずｒｏｏｔのクリーン不特定モデルを用いて、ステップＳ４で得られた特徴パラメータ列によって、尤度を計算する。これは図１中の音声認識部３によって行われる。
次に、ｒｏｏｔの下の各モデルを用いて、同じく音声認識部３によって尤度を計算する。以上で得られた尤度の値を用いて、モデル選択判定部４によって最適モデルを選択する。具体的に以下のように処理する。ｒｏｏｔのクリーン不特定モデルの尤度より高いモデルを保留する。これらのＳＮＲ条件でさらに下へ各子ノードのモデルを用いて尤度を計算する。２つの子ノードモデルと親ノードの尤度を比較し、尤度最大のモデルは子ノードモデルであれば、さらに下へたどる。親ノードの方が一番高ければ、計算を停止し、この親ノードを最適なノードだと判断する。
【００３９】
図４には、探索パスが実線で表されている。この計算を繰り返すと最適な空間を見つけることができる。また、各ＳＮＲ条件の尤度最大となるモデルの尤度を比較し、最大となるモデルが全体の雑音音声空間での最適モデルだとする。例えば、図４中のＳＮＲ−１条件では４番ノードが尤度最大である。また、同図中のＳＮＲ−Ｎ条件では５番ノードが尤度最大である。そして、これら各ＳＮＲ条件において最大のモデルの中からさらに尤度同士を比較し、選択する。
【００４０】
ステップＳ６（線形変換）：選択されるモデルについて、モデル線形変換適応部５によってさらに尤度が最大化するように線形変換（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅｒＲｅｇｒｅｓｉｏｎ；以下ＭＬＬＲと略称する）を行う。この線形変換については、文献「ＭｅａｎａｎｄｖａｒｉａｎｃｅａｄａｐｔａｔｉｏｎｗｉｔｈｉｎｔｈｅＭＬＬＲｆｒａｍｅｗｏｒｋ」（Ｍ．Ｊ．ＦＧａｌｅｓｅｔａｌ．、ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ、ｐｐ．２４９−２６４、１９９６年）に記載されている。具体的には認識結果の音素列を用いて、線形変換の行列を尤度最大基準に基づいて推定し、ＨＭＭのガウス分布の平均値と分散値とを線形変換により適応化する。
【００４１】
ステップＳ７（再認識）：音声認識結果を出力する場合は、ステップＳ６で得られたモデルを用いて、音声認識部３によって再認識し、認識結果を認識結果保存部６に保存する。
以上述べたように、本発明の雑音適応化システムにおいては、認識対象となる雑音音声を用いて、不特定話者用音声モデルを適応化している。雑音重畳音声の木構造モデル空間に作成し、上から下にたどり最適なモデルを選択し、さらに尤度がさらに最大化するように線形変換を行って、適応化モデルを作成する。
【００４２】
ここで、発明者は、実際に放送された多種の雑音や音楽が乗っているニュース音声について、本システムによる音声認識の効果を調べた。以下、この実験例を述べる。実験で使用した音声ＨＭＭは、ｔｒｅｅ−ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇにより状態共有化を行った不特定話者文脈依存音素ＨＭＭである。音響特徴量としては１６次のＬＰＣケプストラムと対数パワー、及びそれらの一次微分の計３４次元を使用した。学習用クリーン音声データは、男性５３名による１３２７０発話である。モデルの総状態数は「２１０６」、各状態のガウス分布の混合数はすべて「４」である。
【００４３】
図５には、不特定音声ＨＭＭを用いた単語正解精度（ベースライン）と、本システムにより適応化された音声ＨＭＭを用いた単語正解精度（本発明）とが示されている。同図の縦軸は単語正解精度（％）である。同図に示されている結果から、本システムによる音声認識が従来技術に比べて有効であることがわかる。この場合、ベースラインに比べ単語誤り率は２６．１％低下した。
（音声モデルの雑音適応化方法）
上述した雑音適応化システムにおいては、以下のような雑音適応化方法が実現されている。すなわち、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であり、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含む雑音適応化方法が実現されている。このようにすることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００４４】
また、上記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行う。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【００４５】
上記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、上記木構造の雑音音声モデル空間を作成する。こうすることにより、木構造の雑音音声モデル空間を容易に作成できる。
上記音声モデル空間作成ステップにおいては、上記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、上記雑音対信号比ごとに雑音の音声モデル空間を作成する。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【００４６】
上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００４７】
上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行う。線形変換を行うことにより、尤度を最大にすることができる。
（音声モデルの雑音適応化プログラム）
ところで、図３に示されている処理を実行するためのプログラムを用意し、これを用いてコンピュータを制御することにより、上記と同様の効果が得られる。このプログラムは、コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声モデルの雑音適応化プログラムであり、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、上記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むプログラムである。このプログラムを用いることで、入力音声に対する音声モデル系列の推定をより正確に行うことができる。
【００４８】
また、上記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行う。混合ガウス分布モデルを用いて各雑音間の尤度を計算することにより、計算量を少なくすることができる。
【００４９】
上記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、上記木構造の雑音音声モデル空間を作成する。これにより、木構造の雑音音声モデル空間を容易に作成できる。
上記音声モデル空間作成ステップにおいては、上記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、上記雑音対信号比ごとに雑音の音声モデル空間を作成する。木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができる。
【００５０】
上記選択ステップにおいては、上記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択する。尤度が最大となるモデルを選択することにより、音声認識精度を高めることができる。
上記選択ステップにおいては、上記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択する。上層から下層に向かってたどることによって最適なモデルを選択することができる。
【００５１】
上記線形変換ステップにおいては、上記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行う。線形変換を行うことにより、尤度を最大にすることができる。
なお、このプログラムを記録するための記録媒体には、図示されていない半導体メモリ、磁気ディスク、光ディスク等の他、種々の記録媒体を用いることができる。
【００５２】
【発明の効果】
本発明の請求項１、請求項８、請求項１５によれば、雑音のクラスタリングを行い、このクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成し、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出し、木構造の雑音音声モデル空間から最適なモデルを選択し、選択されたモデルについて尤度が更に大きくなるように線形変換を行うことにより、入力音声に対する音声モデル系列の推定をより正確に行うことができるという効果がある。
【００５３】
本発明の請求項２、請求項９、請求項１６によれば、クラスタリングの際、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことにより、計算量を少なくすることができるという効果がある。
【００５４】
本発明の請求項３、請求項１０、請求項１７によれば、木構造の各ノードに属する雑音をクリーン音声に重畳して、木構造の雑音音声モデル空間を作成することにより、木構造の雑音音声モデル空間を容易に作成できるという効果がある。本発明の請求項４、請求項１１、請求項１８によれば、クラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成し、木構造で雑音特性を表すことにより、木構造の上層では雑音特性の大局的な特徴、下層では局所的な特徴を表現することができるという効果がある。
【００５５】
本発明の請求項５、請求項１２、請求項１９によれば、抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することにより、音声認識精度を高めることができるという効果がある。
本発明の請求項６、請求項１３、請求項２０によれば、木構造の雑音音声モデル空間について、上層から下層に向かってたどってモデルを選択することによって最適なモデルを選択することができるという効果がある。
【００５６】
本発明の請求項７、請求項１４、請求項２１によれば、選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことにより、尤度を最大にすることができるという効果がある。
【図面の簡単な説明】
【図１】本発明の実施の一形態による音声モデルの雑音適応化システムの構成を示すブロック図である。
【図２】本システムの動作の流れに従って図１中の各部を並べ替えた機能ブロック図である。
【図３】本システムによる処理手順を示すフロー図である。
【図４】木構造雑音音声モデル空間における最適モデルの選択処理を示す概念図である。
【図５】不特定音声ＨＭＭを用いた単語正解精度と、本システムにより適応化された音声ＨＭＭを用いた単語正解精度とを示す図である。
【符号の説明】
１木構造モデル記憶部
２特徴抽出部
３音声認識部
４モデル選択判定部
５モデル線形変換適応部
６認識結果保存部

Claims

クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化システムであって、雑音のクラスタリングを行うクラスタリング手段と、このクラスタリング手段のクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成手段と、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出手段と、前記音声モデル空間作成手段によって作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択手段と、この選択手段によって選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換手段とを含むことを特徴とする音声モデルの雑音適応化システム。
前記クラスタリング手段は、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする請求項１記載の雑音適応化システム。
前記音声モデル空間作成手段は、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする請求項１又は２記載の雑音適応化システム。
前記音声モデル空間作成手段は、前記クラスタリング手段のクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする請求項１乃至３のいずれか１項に記載の雑音適応化システム。
前記選択手段は、前記パラメータ抽出手段によって抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項１乃至４のいずれか１項に記載の雑音適応化システム。
前記選択手段は、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項５記載の雑音適応化システム。
前記線形変換手段は、前記選択手段によって選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項１乃至６のいずれか１項に記載の雑音適応化システム。
クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化する音声モデルの雑音適応化方法であって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声モデルの雑音適応化方法。
前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする請求項８記載の雑音適応化方法。
前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする請求項８又は９記載の雑音適応化方法。
前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする請求項８乃至１０のいずれか１項に記載の雑音適応化方法。
前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項８乃至１１のいずれか１項に記載の雑音適応方法。
前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項１２記載の雑音適応化方法。
前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求項８乃至１３のいずれか１項に記載の雑音適応化方法。
コンピュータを制御することにより、クリーンな音声データを用いて学習した不特定雑音用の音声モデルを、認識対象となる雑音環境の音声に適応化するための音声モデルの雑音適応化プログラムであって、雑音のクラスタリングを行うクラスタリングステップと、このクラスタリングステップによるクラスタリング結果に基づいて木構造の雑音音声モデル空間を作成する音声モデル空間作成ステップと、音声認識対象となる入力雑音音声の音声特徴パラメータを抽出するパラメータ抽出ステップと、前記音声モデル空間作成ステップにおいて作成された木構造の雑音音声モデル空間から最適なモデルを選択する選択ステップと、この選択ステップにおいて選択されたモデルについて尤度が更に大きくなるように線形変換を行う線形変換ステップとを含むことを特徴とする音声モデルの雑音適応化プログラム。
前記クラスタリングステップにおいては、各雑音の混合ガウス分布モデルを作成し、この作成した混合ガウス分布モデルを用いて各雑音間の尤度を計算して尤度行列を作成し、この作成した尤度行列に基づいて雑音のクラスタリングを行うことを特徴とする請求項１５記載の雑音適応化プログラム。
前記音声モデル空間作成ステップにおいては、木構造の各ノードに属する雑音をクリーン音声に重畳することによって、前記木構造の雑音音声モデル空間を作成することを特徴とする請求項１５又は１６記載の雑音適応化プログラム。
前記音声モデル空間作成ステップにおいては、前記クラスタリングステップにおけるクラスタリング結果に基づいて、雑音対信号比ごとに木構造の雑音音声モデル空間を作成した後、前記雑音対信号比ごとに雑音の音声モデル空間を作成することを特徴とする請求項１５乃至１７のいずれか１項に記載の雑音適応化プログラム。
前記選択ステップにおいては、前記パラメータ抽出ステップにおいて抽出された音声特徴パラメータに対する尤度が最大となるモデルを選択することを特徴とする請求項１５乃至１８のいずれか１項に記載の雑音適応プログラム。
前記選択ステップにおいては、前記木構造の雑音音声モデル空間について、上層から下層に向かってたどることによってモデルを選択することを特徴とする請求項１９記載の雑音適応化プログラム。
前記線形変換ステップにおいては、前記選択ステップにおいて選択されたモデルに基づいて尤度が大きくなるように線形変換を行うことを特徴とする請求１５乃至２０のいずれか１項に記載の雑音適応化プログラム。