JP3587966B2

JP3587966B2 - 音声認識方法、装置そよびその記憶媒体

Info

Publication number: JP3587966B2
Application number: JP25106897A
Authority: JP
Inventors: 義和山口; 茂樹嵯峨山; 淳一高橋; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-20
Filing date: 1997-09-16
Publication date: 2004-11-10
Anticipated expiration: 2017-09-16
Also published as: JPH10149191A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば音声、文字、図形などのような認識すべき対象を隠れマルコフモデルを用いて表現するパターン認識においてモデル作成時の条件とモデル使用時である認識実行時の条件の違いによるモデルの不整合を補正し、認識性能を向上するためのモデル適応方法、装置およびその記憶媒体に関する。
【０００２】
【従来の技術】
本発明は、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，以下ＨＭＭと略称する）を用いた様々なパターン認識に適用可能であるが、以下では音声を例に説明する。
【０００３】
音声認識では、学習用音声データから求めた音響モデル（音素モデル、音節モデル、単語モデルなど）と入力音声データを照合して尤度を求め、認識結果を得る。モデルのパラメータは学習用音声データを収録した条件（背景雑音、回線歪み、話者、声道長など）に大きく依存する。従って、この音声収録条件と実際の認識時の条件とが異なる場合、入力音声パターンとモデルとの不整合が生じ、結果として認識率が低下する。
【０００４】
入力音声データと音響モデルとの不整合による認識率の低下を防ぐには、認識を実行する際の条件と同じ条件で収録した音声データを使って、モデルを作成し直せばよい。しかし、ＨＭＭのような統計的手法に基づくモデルは、膨大な量の学習音声データが必要で、処理に時間がかかる（例えば、１００時間）。そこで、不整合が生じているモデルを少量の学習データと少ない処理時間で、実際の認識時の条件に整合したモデルに近付ける適応技術が必要となる。
【０００５】
条件が変化する例として、発声時の背景雑音の変化があげられる。モデル学習用音声データ収録時の背景雑音と実際の認識時の背景雑音が異なれば、認識率の低下が生じる。モデルの背景雑音への適応には、従来の技術としてＰＭＣ（例えば、Ｍ．Ｊ．Ｆ．Ｇａｌｅｓ他 ”ＡｎＩｍｐｒｏｖｅｄＡｐｐｒｏａｃｈｔｏｔｈｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＤｅｃｏｍｐｏｓｉｔｉｏｎｏｆＳｐｅｅｃｈＡｎｄＮｏｉｓｅ，” Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ９２，ｐｐ．２３３−２３６，１９９２）やＮＯＶＯ合成法（例えば、Ｆ．Ｍａｒｔｉｎ他、”ＲｅｃｏｇｎｉｔｉｏｎｏｆＮｏｉｓｙＳｐｅｅｃｈｂｙＵｓｉｎｇｔｈｅＣｏｍｐｏｓｉｔｉｏｎｏｆＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ，” 日本音響学会平成４年度秋季研究発表会講演論文集、ｐｐ．６５−６６）などのＨＭＭ合成法がある。ＨＭＭ合成法とは、防音室などで収録した雑音が含まれていない音声で学習したＨＭＭ（以下、クリーン音声ＨＭＭと記す）と、認識時の背景雑音のみで学習したＨＭＭ（以下、雑音ＨＭＭと記す）を合成し、認識時の雑音が重畳し、入力音声に整合したＨＭＭを求める適応手法である。ＨＭＭ合成法を用いれば、雑音ＨＭＭの学習と、モデル合成の処理時間のみで済むので、膨大な量の音声データを用いてモデルを作成し直すよりも、少ない時間でモデルを適応することができる。
【０００６】
【発明が解決しようとする課題】
上述した従来の音声認識において、雑音ＨＭＭの学習データを得るための雑音収録時間が比較的長いこと（例えば、１５秒）、モデル合成の処理時間も１０秒程度必要なことから、時々刻々と変化する条件に応じてモデルを実時間で適応させることは難しいという問題がある。
【０００７】
本発明は、上記に鑑みてなされたもので、その目的とするところは、条件変動前の初期モデルを条件変動後の環境条件に整合したモデルに近付けるために初期モデルを基準モデルとして、条件変動後に観測した条件を表現するデータを用いて実時間で高速にモデルを適応させ、認識性能を向上し得るモデル適応方法、装置およびその記憶媒体を提供することにある。
【０００８】
【課題を解決するための手段】
本発明は、初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、を有することを特徴とする音声認識方法を提供する。
【０００９】
また、本発明では、前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求めることを特徴とする。
【００１０】
また、本発明では、前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップであることを特徴とする。
【００１１】
また、本発明では、前記記憶ステップで記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがＨＭＭ合成されたものであることを特徴とする。
【００１２】
さらに、本発明は、初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶部と、認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出部と、前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出部と、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新部と、前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識部と、を有することを特徴とする音声認識装置を提供する。
【００１３】
また、本発明では、前記記憶部は、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、前記雑音抽出部は、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、前記差分算出部は、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、前記雑音重畳音声モデル更新部は、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求めることを特徴とする。
【００１４】
また、本発明では、前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、前記雑音抽出部は、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるものであり、前記音声認識部は、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するものであることを特徴とする。
【００１５】
また、本発明では、前記記憶部で記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがＨＭＭ合成されたものであることを特徴とする。
【００１６】
さらに、本発明は、初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、をコンピュータに行わせることを特徴とする音声認識プログラムを格納した記憶媒体を提供する。
【００１７】
また、本発明では、前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求めることを特徴とする。
【００１８】
また、本発明では、前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップであることを特徴とする。
【００１９】
また、本発明では、前記記憶ステップで記憶しておく初期雑音重畳音声モデル
は、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがＨＭＭ合成されたものであることを特徴とする。
【００４０】
【発明の実施の形態】
本発明のモデル適応方法は、入力ベクトル時系列に対し、各認識カテゴリの特徴を表現した確率モデルの尤度を計算し、最も尤度の高いモデルを表現するカテゴリを認識結果として出力するパターン認識処理に適用しうるものであるが、この場合に認識時の例えば背景雑音等のような条件が初期の条件、すなわち初期モデル学習時の条件と異なる場合における認識率の低下を防止するために、両条件の差である変動分からモデルパラメータの変動分をテイラー展開によって近似計算して基準モデルのパラメータを更新し、認識時の条件に適応したモデルを作成し、このモデルを使用して認識を行うものである。
【００４１】
まず、本発明の原理について説明する。
【００４２】
非線形の関係にある２領域に含まれるベクトルｘ，ｙを考える。
【００４３】
ｙ＝ｆ（ｘ）（１）
つまり、ｙはｘについての線形または非線形の関数ｆ（ｘ）で表される。ここで、ｘが微小変動した場合のｙの変動量を考える。
【００４４】
ｙ＋Δｙ＝ｆ（ｘ＋Δｘ）（２）
関数ｆ（ｘ）をｘについてのテイラー展開を行うと以下の関係が成り立つ。
【００４５】
【数１】

従って、ベクトルの微小変動分Δｘ，Δｙには、上記のテイラー展開式の１次微分項までを考慮すると以下の関係が成り立ち、これは図１に示すように表わされる。
【００４６】
【数２】

上記式（４）の関係を用いれば、Δｙは、ｘからｙの変換をせずに、Δｘとヤコビ行列の乗算のみで近似的に求めることができる。
【００４７】
認識対象を表現するモデルパラメータは、条件の変化に応じて、そのパラメータを更新する必要がある。そこで、モデルパラメータの変動分を条件を表現するパラメータの変動分から求めることを考える。Δｙをモデルパラメータの変動分、Δｘを条件を表現するパラメータの変動分として考える。条件を表現するパラメータの変動がモデルパラメータの変動に対して線形のみならず非線形の関係にある場合でも、上記式（４）に従えば、条件を表現するパラメータの変動分Δｘを観測さえすれば、ｘからｙへの非線形な写像による複雑な計算をせずに、モデルパラメータの変動分Δｙを近似的に、少ない演算量で高速に求めることができる。
【００４８】
ただし、ここではベクトルの変動が微小であることから上記のテイラー展開式（３）の１次微分項を考慮するだけで十分と考えられるが、２次微分項以降も利用可能である。
【００４９】
そこで、条件が変動する例として、音声認識において、背景雑音が変動する場合を考える。初期モデル学習時の背景雑音と、認識時の背景雑音との間の変化によって起きるモデルの不整合を補正する雑音適応について説明する。
【００５０】
はじめに、ヤコビ行列の求め方をケプストラム（例えば、古井“ディジタル音声処理”、東海大学出版会）をパラメータとした場合を例に説明する。音響モデルは音声の特徴パラメータとして、ケプストラムを用いる場合が多い。
【００５１】
背景雑音が重畳した音声（以下、雑音重畳音声と記す）のパワースペクトルＳ_Ｒ（ベクトルで表す）は、クリーン音声のパワースペクトルＳ_Ｓと背景雑音のパワースペクトルＳ_Ｎの和で表される。
【００５２】
Ｓ_Ｒ＝Ｓ_Ｓ＋Ｓ_Ｎ（５）
上記の関係をケプストラム領域に変換する。雑音重畳音声ケプストラムＣ_Ｒと、クリーン音声ケプストラムＣ_Ｓ、雑音ケプストラムＣ_Ｎとの関係は図２に示すように以下のような関係になる。
【００５３】
【数３】

ここで、ＤＦＴ（・），ＩＤＦＴ（・），ｌｏｇ（・），ｅｘｐ（・）をそれぞれ離散フーリエ変換、逆離散フーリエ変換、対数変換、指数変換を表す。離散フーリエ変換は線形変換であるが、対数変換と指数変換は非線形変換であるため、雑音重畳音声ケプストラムＣ_Ｒと雑音ケプストラムＣ_Ｎとの間には非線形の関係が成り立つ。
【００５４】
初期モデル用学習音声データ収録時の背景雑音と認識時の背景雑音とが異なる場合、上記関係式（６）を用いて認識時に観測した背景雑音の雑音ケプストラムから雑音重畳音声ケプストラムを求めるには、２回の離散フーリエ変換、対数変換、指数変換という複雑で多量の計算を行わなければならない。
【００５５】
このときテイラー展開を用いれば、雑音重畳音声ケプストラムの変動分をΔＣ_Ｒを式（７）のように雑音ケプストラムの変動分ΔＣ_Ｎとヤコビ行列から求めることができる。雑音ケプストラムの変動分ΔＣ_Ｎは、上記式（６）による複雑な関係式を用いて変換する必要はない。
【００５６】
【数４】

上記式に含まれる偏微分項を図２に示した各領域間の関係式を用いて計算する。
【数５】

ここで、Ｆ，Ｆ^−１は、コサイン変換行列、逆コサイン変換行列、ｐはケプストラムの次数（パワー項を含む）でありかつスペクトラムの次数である。よって、
【数６】

ここで、［Ｊ_Ｎ］_ｉｊ，Ｆ_ｉｊ，Ｆ_ｉｊ ^−１は、それぞれ行列Ｊ_Ｎ、行列Ｆ、行列Ｆ^−１のｉ行ｊ列目の要素である。また、Ｓ_Ｎｋ，Ｓ_ＲｋはそれぞれベクトルＳ_ＮとベクトルＳ_Ｒのｋ番目の要素である。
【００５７】
つまりヤコビ行列の各要素は、雑音スペクトラムＳ_Ｎと雑音重畳音声スペクトラムＳ_Ｒ、そして定数値である変換行列Ｆ，Ｆ^−１から求めることができる。Ｓ_ＮとＳ_Ｒは、それぞれ雑音ケプストラムＣ_Ｎと雑音重畳音声ケプストラムＣ_Ｒを線形スペクトラムに変換することで求められる。従って、モデル学習時に背景雑音を収録した時点で、ヤコビ行列を計算しておくことができる。
【００５８】
次に、上記のテイラー展開を用いて、背景雑音変動前の初期雑音重畳音声ＨＭＭを背景雑音変動後（認識時）の背景雑音に整合した雑音重畳音声ＨＭＭ（以下、適応雑音重畳音声ＨＭＭと記す）に更新する方法について説明する。ここでは、ＨＭＭの各状態に存在する出力確率分布のケプストラム平均値ベクトルを適応することを考える。上記式（７）にしたがえば、適応雑音重畳音声ＨＭＭの平均値ベクトルＣ_Ｒ′は以下のように計算できる。
【００５９】
Ｃ_Ｒ′＝Ｃ_Ｒ＋Ｊ_Ｎ（Ｃ_Ｎ′−Ｃ_Ｎ）（１０）
上記式において、Ｃ_Ｒは初期雑音重畳音声ＨＭＭの平均値ベクトル、Ｃ_Ｎは雑音変動前の背景雑音データから求めたＨＭＭ（以下、初期雑音ＨＭＭ）の出力確率分布の平均値ベクトル、Ｃ_Ｎ′は、雑音変動後（認識時）の背景雑音から求めたＨＭＭ（以下、適応対象雑音ＨＭＭ）の出力確率分布の平均値ベクトルを示す。
【００６０】
Ｃ_Ｒは、雑音変動前の背景雑音が重畳した音声データで学習した雑音重畳音声ＨＭＭの平均値ベクトルを用いる。また、初期雑音ＨＭＭと背景雑音のないクリーン音声ＨＭＭからＨＭＭ合成により求めた雑音重畳音声ＨＭＭを用いることも可能である。
【００６１】
上記式（１０）中のヤコビ行列Ｊ_Ｎを求めるには、上記ヤコビ行列の計算方法で述べたように、Ｃ_ＮとＣ_Ｒが必要である。これらは、背景雑音変動前のパラメータであり、雑音変動に備え、予め計算しておくことができる。
【００６２】
上記式（１０）に従えば、Ｃ_Ｎ，Ｃ_Ｒ，Ｊ_Ｎ，Ｃ_Ｎ′が決定すると、認識時の条件に整合した雑音重畳音声ケプストラムＣ_Ｒ′を即座に求めることができる。
【００６３】
上記の本発明の適応処理は、雑音変動前（認識時）までに予め実行できる事前処理と、雑音変動後に背景雑音を観測してから実行できる適応処理に分割することができる。つまり、初期雑音ＨＭＭ、初期雑音重畳音声ＨＭＭ、ヤコビ行列を求める処理は事前処理である。従って、認識時には適応対象雑音ＨＭＭを求め、上記式（１０）の行列計算を実行するのみで、少量の演算量で音響モデルの適応が完了する。
【００６４】
次に、具体的に図面を参照して説明する。
【００６５】
図３は、本発明の一実施形態に係るモデル適応装置の構成を示す図であり、図４は、図３に示すモデル適応装置の作用を示すフローチャートである。
【００６６】
図３，４に示すように、本実施形態のモデル適応装置では、まずモデル学習時に音声入力部１において入力され雑音抽出部２において抽出された背景雑音から初期雑音ＨＭＭが求められ（ステップＳ１）、初期雑音（ＨＭＭ）記憶部３に記憶する。また、クリーン音声ＨＭＭ記憶部４に記憶されたクリーン音声ＨＭＭと前記初期雑音ＨＭＭとをＨＭＭ合成部５においてＨＭＭ合成法により合成して、初期雑音重畳音声ＨＭＭを計算し（ステップＳ２）、初期雑音重畳音声ＨＭＭ記憶部６に記憶する。それから、ヤコビ行列計算部７で初期雑音ＨＭＭと初期雑音重畳音声ＨＭＭからヤコビ行列を計算し、ヤコビ行列記憶部８に記憶しておく（ステップＳ３）。
【００６７】
次に、認識を行う場合には、図３に示すように、音声入力部で入力された音声から雑音抽出部２において雑音データを抽出し、適応対象雑音ＨＭＭとして求める。入力された雑音重畳音声と初期雑音重畳音声ＨＭＭに不整合が生じている場合は、差分算出部９にて適応対象雑音ＨＭＭと初期雑音ＨＭＭとの差分を求め（ステップＳ４）、雑音重畳音声ＨＭＭ更新部１０にて該差分とヤコビ行列を使用したテイラー展開により前記初期雑音重畳音声ＨＭＭの更新処理を行って適応雑音重畳音声ＨＭＭを近似計算し（ステップＳ５）、適応雑音重畳音声ＨＭＭ記憶部１１に記憶する。次に、この適応雑音重畳音声ＨＭＭを使用して音声認識部１２で雑音重畳音声の認識処理を行い（ステップＳ６）、認識結果出力部１３にて結果を出力する。
【００６８】
なお、以上の処理のうちステップＳ１，Ｓ２，Ｓ３の処理、すなわち初期雑音ＨＭＭ、初期雑音重畳音声ＨＭＭ、ヤコビ行列のそれぞれの計算および記憶は、背景雑音が認識の度毎に逐次変動する場合でも、最初にだけ行われ、それぞれの値をメモリに記憶しておく。そして、認識時にはこれらの記憶した情報を利用して以降の処理、すなわちステップＳ４，Ｓ５，Ｓ６のみを繰り返し行う。
【００６９】
また、１つ前の発声をもとに得られた適応対象雑音ＨＭＭ、適応雑音重畳音声ＨＭＭを新たな初期モデルとして前記ステップＳ３から処理を行う逐次処理も可能である。
【００７０】
次に、図５，６を参照して、本発明の他の実施形態について説明する。本実施形態では、スペクトル・サブトラクション（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ，以下、ＳＳ法と略称する）（例えば、Ｓ．Ｆ．Ｂｏｌｌ ”ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃＮｏｉｓｅｉｎＳｐｅｅｃｈＵｓｉｎｇＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ，” ＩＥＥＥＴｒａｎｓ．ｏｎＡＳＳＰ，Ｖｏｌ．ＡＳＳＰ−２７，Ｎｏ．２，ｐｐ．１１３−１２０，１９７９）を組み合わせた雑音適応を説明する。ＳＳ法とは、収録した背景雑音の一部または全区間を用いて平均スペクトラムを計算し、これを入力データのスペクトラムから差し引いて入力データのＳ／Ｎ比を改善する雑音除去法である。スペクトラムの平均計算とスペクトラムの減算で済むため、演算量が低い雑音除去法である。
【００７１】
ここでは、上述した図４の事前処理過程のステップＳ１および適応処理過程のステップＳ４において、図５，６に示すように，雑音ＳＳ部１４にて収録した背景雑音（モデル学習時に収録した背景雑音および認識時の背景雑音）の一部または全区間を用いて平均スペクトラムを計算し、この平均スペクトラムを収録した雑音データの全区間のスペクトラムから差し引き、消し残りの雑音データを求める（ステップＳ７，Ｓ８）。上記操作で求めた消し残りの雑音データを学習データとして初期雑音ＨＭＭおよび適応対象雑音ＨＭＭを作成する。認識対象の雑音重畳音声にも雑音重畳音声ＳＳ部１５にてＳＳ法を施し（ステップＳ９）、雑音を差し引いた音声データを音声認識部１３で認識する。他の操作は図４のモデル適応の処理過程と同様である。
【００７２】
次に、本発明の他の実施形態について説明する。ここでは、複数の初期雑音から求めたヤコビ行列を用いて雑音適応を行う実施形態を説明する。
【００７３】
本発明は、初期雑音によって適応対象雑音へ適応したときの認識率が異なる。例えば、適応対象雑音として空調機雑音に適応する場合を考える。この場合、比較的定常な空調機雑音に対して、交差点での自動車走行音や人の声等を含むようなやや非定常な雑音を初期雑音とするよりも、計算機のファンの音がそのほとんどを占める定常な雑音を初期雑音とした方が本発明による適応の効果は高い。
【００７４】
しかし、必ずしも適応対象の雑音が既知ではないため本発明の効果を最大限に発揮できる初期雑音を予め用意することはできない。そこで、本実施形態では、種類の異なる初期雑音を複数用意して、これらの初期雑音の中から本発明の効果を最大限に発揮できる初期雑音を選択し、雑音適応に用いることで適応対象雑音の種類によらず常に認識率の高い雑音適応を可能とする。
【００７５】
本実施形態では、モデル適応装置の構成は上述した図３に示すものと同様であるが、初期雑音（ＨＭＭ）記憶部３は複数の初期雑音を記憶し、初期雑音重畳音声ＨＭＭ記憶部６は複数の初期雑音に対応した複数組の初期雑音重畳音声ＨＭＭを記憶し、ヤコビ行列記憶部８は複数の初期雑音に対応した複数組のヤコビ行列を記憶し、雑音重畳音声ＨＭＭ更新部１０は最適な初期雑音を選択する機能を有する。
【００７６】
ここで、最適な初期雑音の選択は以下のように行われる。
【００７７】
まず、種類の異なる初期雑音を複数用意して、初期雑音それぞれに対して初期雑音ＨＭＭとヤコビ行列を計算し、記憶しておく。
【００７８】
次に、認識時に観測した適応対象雑音と記憶しておいた初期雑音それぞれとの類似度を計算する。類似度の計算法の例として、初期雑音ＨＭＭの出力確率分布の平均値ベクトルと適応対象雑音ＨＭＭの出力確率分布の平均値ベクトルとのユークリッド距離による類似度の計算法を説明する。第ｉ番目の初期雑音ＨＭＭの出力確率分布の平均値ベクトルＣ^ｉ _Ｎの第ｋ番目の要素をＣ^ｉ _Ｎｋ、適応対象雑音ＨＭＭの出力確率分布の平均値ベクトルＣ’_Ｎの第ｋ番目の要素をＣ’_Ｎｋとすると、初期雑音ＨＭＭの出力確率分布の平均値ベクトルと適応対象雑音ＨＭＭの出力確率分布の平均値ベクトルとのユークリッド距離Ｄ（ｉ）は以下のようにして求められる。
【００７９】
【数７】

上記式（１１）を用いて全ての初期雑音ＨＭＭに対して適応対象雑音ＨＭＭとのユークリッド距離を計算し、最も距離の小さい初期雑音ＨＭＭｉ_ｍｉｎを選ぶ。
【数８】

このようにして選ばれた初期雑音ＨＭＭとこれに対応するヤコビ行列を用いて本発明による雑音重畳音声ＨＭＭのパラメータの更新を行い、認識を行う。このように、複数の初期雑音ＨＭＭおよびヤコビ行列を用意しておき、観測された適応対象雑音ＨＭＭごとに最も類似した初期雑音ＨＭＭを選択して本発明によるパラメータの更新を行うことで、常に認識率の高い雑音適応が可能となる。
【００８０】
上記各実施形態では、本発明による背景雑音の変動に対するモデル適応を述べた。この他、回線歪みの変動に対するモデル適応の場合を考える。回線歪みを表現するパラメータはモデルパラメータと同じケプストラムである。従って、上記作用で述べたテイラー展開の式（７）の微分係数が１となり計算が可能である。
【００８１】
また、声道長の変動に対するモデル適応の場合、本発明を用いて声道長パラメータの変動分からモデルパラメータを適応することが可能である。
【００８２】
次に、本発明の効果を調べるために行った背景雑音の変動に対する音響モデルの適応実験について説明する。ここでは背景雑音が、初期状態では交差点雑音であったのが、実際の認識時に展示ホール雑音に変化した場合を仮定し実験を行った。本発明（結果の図および表ではＪａｃｏｂｉａｎ適応法と記す）の他に、従来の代表的な雑音適応法として、ＮＯＶＯ合成法によるモデル適応も比較のため実験した。ＮＯＶＯ合成法の処理の処理過程を図７に示す。雑音変動前の初期状態である交差点雑音に合わせてＮＯＶＯ合成した初期雑音重畳音声モデルをそのまま雑音変動後の音声の認識に用いた場合（適応処理なし）も実験した。クリーン音声から求めたモデルをそのまま認識に用いた場合についても実験を行った。
【００８３】
話者１３名の発声による１００都市名単語に、展示ホール雑音を計算機上で重畳させたものを評価データとした。評価データの直前の区間の展示ホール雑音データを用いて適応対象雑音ＨＭＭを学習し、適応を行った。交差点雑音、展示ホール雑音ともに評価データに対するＳ／Ｎ比は１０ｄＢである。認識語彙は４００単語である。
【００８４】
適応に用いた展示ホール雑音データ長を変化させたときの、本発明および上記手法を含めた４手法の単語認識率の比較を図８に示す。また、適応処理に要する処理量（ＣＰＵｔｉｍｅ）の本発明とＮＯＶＯ合成法との比較を表１に示す。ただし、適応処理のうち音響処理と雑音学習については、その計算量が適応雑音データ長に依存するため、本発明およびＮＯＶＯ合成法ともに表１中のＣＰＵｔｉｍｅには含まれていない。
【００８５】
【表１】

図８において、ＮＯＶＯ合成法は、適応データが長い場合（図８では９００ｍ秒以上）では性能が高いが、適応データが短い場合は性能が急激に低下した。一方、本発明では、適応データが短い場合（図８では８００ｍ秒以下）ではＮＯＶＯ合成法よりもむしろ性能が高いことがわかった。また表１に示すように、本発明はＮＯＶＯ合成法に比べて適応時に必要な処理がＮＯＶＯ合成法の１／３４で済むことがわかった。
【００８６】
従って、本発明によるモデル適応手法は、短い適応データによる適応が可能であり、更に適応処理が高速であるという効果があることが確認できた。この特徴は、変動する背景雑音に音響モデルを実時間適応するのに適している。
【００８７】
次に、本発明にＳＳ法を導入した場合の音声認識の結果について説明する。実験の条件は上記認識実験と同様である。雑音の平均スペクトラムを計算するための雑音データ長は１６０ｍｓである。適応に用いた展示ホール雑音データ長５００ｍｓについて、本発明にＳＳを導入した方法（表ではＳＳ−Ｊａｃｏｂｉａｎ適応法と記す）と、導入していない方法の単語認識率の比較を表２に示す。
【００８８】
【表２】

表２から、ＳＳを本発明に導入することにより、単語認識率が改善できることがわかった。従って、ＳＳ法という演算量の少ない方法を本発明に導入することにより、依然として適応処理が高速のまま、性能が向上できるという効果が確認できた。
【００８９】
なお、上記実施形態において、入力雑音重畳音声と初期雑音重畳音声ＨＭＭに不整合が生じているかどうかの判定には種々の方法を用いることが可能である。例えば、差分算出部により求められた適応対象雑音ＨＭＭと初期雑音ＨＭＭとの差分が有為であると雑音重畳音声ＨＭＭ更新部が判断した時に、入力雑音重畳音声と初期雑音重畳音声ＨＭＭに不整合が生じていると判定することが可能である。また、まず初期雑音重畳音声ＨＭＭを用いて音声認識を行い、その結果得られた認識率の低さから、音声認識部が入力雑音重畳音声と初期雑音重畳音声ＨＭＭに不整合が生じているかどうかを判定することも可能である。
【００９０】
また、上記実施形態では、音声を入力とした場合について説明したが、本発明はこれに限定されるものでなく、この他にも図形、文字などのパターン認識にも広く適用し得るものである。
【００９１】
また、本発明のモデル適応方法を、汎用のコンピュータによって読取り可能な記憶媒体上にコンピュータソフトウェアプログラムとして実装することにより、この記憶媒体が搭載されたコンピュータを本発明のモデル適応装置として機能させることが可能となる。ここで、記憶媒体の具体的構成については、コンピュータプログラムを格納するのに適したいかなる構成を用いても良い。
【００９２】
特に、上記図４および図６における事前処理と適応処理をまとめてソフトウェアプログラムとして実装したモデル適応システム用の記憶媒体として提供したり、事前処理と適応処理と認識処理をまとめてソフトウェアプログラムとして実装したパターン認識システム用の記憶媒体として提供することが考えられる。
【００９３】
【発明の効果】
以上説明したように、本発明によれば、初期条件確率モデルと初期条件重畳確率モデルからヤコビ行列を計算して記憶しておき、認識時の条件を測定して適応対象条件確率モデルを求め、適応対象条件確率モデルと初期条件確率モデルとの差分およびヤコビ行列に基づくテイラー展開によって初期条件重畳確率モデルを更新して適応条件重畳確率モデルを近似計算するので、少ない演算量で適応処理を高速に行い、認識性能を向上することができる。
【図面の簡単な説明】
【図１】非線形関係にある領域間でのテイラー展開による微小変動の近似を説明するための図である。
【図２】雑音ケプストラムから雑音重畳音声ケプストラムへの非線形な変換の過程を示す図である。
【図３】本発明の一実施形態に係るモデル適応装置の構成を示す図である。
【図４】図３に示すモデル適応装置の作用を示すフローチャートである。
【図５】本発明の他の実施形態に係るＳＳ法を組み込んだモデル適応装置の構成を示す図である。
【図６】図５に示すモデル適応装置の作用を示すフローチャートである。
【図７】従来のＮＯＶＯ合成法の処理過程を示す図である。
【図８】雑音観測時間に対する音声認識率について本発明の方法と従来の方法の比較を示す図である。
【符号の説明】
１音声入力部
２雑音抽出部
３初期雑音（ＨＭＭ）記憶部
４クリーン音声ＨＭＭ記憶部
５ＨＭＭ合成部
６初期雑音重畳音声ＨＭＭ記憶部
７ヤコビ行列計算部
８ヤコビ行列記憶部
９差分算出部
１０雑音重畳音声ＨＭＭ更新部
１１適応雑音重畳音声ＨＭＭ記憶部
１２音声認識部
１３認識結果出力部
１４雑音ＳＳ部
１５雑音重畳音声ＳＳ部

Claims

初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、
認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、
前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、
前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、
前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、
を有することを特徴とする音声認識方法。
前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、
前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、
前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、
前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める
ことを特徴とする請求項１記載の音声認識方法。
前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、
前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、
前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、
前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップである
ことを特徴とする請求項１または２記載の音声認識方法。
前記記憶ステップで記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがＨＭＭ合成されたものであることを特徴とする請求項１〜３のいづれかに記載の音声認識方法。
初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶部と、
認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出部と、
前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出部と、
前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新部と、
前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識部と、
を有することを特徴とする音声認識装置。
前記記憶部は、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、
前記雑音抽出部は、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、
前記差分算出部は、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、
前記雑音重畳音声モデル更新部は、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める
ことを特徴とする請求項５記載の音声認識装置。
前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、
前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、
前記雑音抽出部は、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるものであり、
前記音声認識部は、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するものである
ことを特徴とする請求項５または６記載の音声認識装置。
前記記憶部で記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがＨＭＭ合成されたものであることを特徴とする請求項５〜７のいづれかに記載の音声認識装置。
初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、
認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、
前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、
前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、
前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、
をコンピュータに行わせることを特徴とする音声認識プログラムを格納した記憶媒体。
前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、
前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、
前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、
前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める
ことを特徴とする請求項９記載の記憶媒体。
前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、
前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、
前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、
前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップである
ことを特徴とする請求項９または１０記載の記憶媒体。
前記記憶ステップで記憶しておく初期雑音重畳音声モデル
は、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがＨＭＭ合成されたものであることを特徴とする請求項９〜１１のいづれかに記載の記憶媒体。