JP3587966B2 - 音声認識方法、装置そよびその記憶媒体 - Google Patents
音声認識方法、装置そよびその記憶媒体 Download PDFInfo
- Publication number
- JP3587966B2 JP3587966B2 JP25106897A JP25106897A JP3587966B2 JP 3587966 B2 JP3587966 B2 JP 3587966B2 JP 25106897 A JP25106897 A JP 25106897A JP 25106897 A JP25106897 A JP 25106897A JP 3587966 B2 JP3587966 B2 JP 3587966B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- model
- initial
- data
- superimposed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、例えば音声、文字、図形などのような認識すべき対象を隠れマルコフモデルを用いて表現するパターン認識においてモデル作成時の条件とモデル使用時である認識実行時の条件の違いによるモデルの不整合を補正し、認識性能を向上するためのモデル適応方法、装置およびその記憶媒体に関する。
【0002】
【従来の技術】
本発明は、隠れマルコフモデル(Hidden Markov Model ,以下HMMと略称する)を用いた様々なパターン認識に適用可能であるが、以下では音声を例に説明する。
【0003】
音声認識では、学習用音声データから求めた音響モデル(音素モデル、音節モデル、単語モデルなど)と入力音声データを照合して尤度を求め、認識結果を得る。モデルのパラメータは学習用音声データを収録した条件(背景雑音、回線歪み、話者、声道長など)に大きく依存する。従って、この音声収録条件と実際の認識時の条件とが異なる場合、入力音声パターンとモデルとの不整合が生じ、結果として認識率が低下する。
【0004】
入力音声データと音響モデルとの不整合による認識率の低下を防ぐには、認識を実行する際の条件と同じ条件で収録した音声データを使って、モデルを作成し直せばよい。しかし、HMMのような統計的手法に基づくモデルは、膨大な量の学習音声データが必要で、処理に時間がかかる(例えば、100時間)。そこで、不整合が生じているモデルを少量の学習データと少ない処理時間で、実際の認識時の条件に整合したモデルに近付ける適応技術が必要となる。
【0005】
条件が変化する例として、発声時の背景雑音の変化があげられる。モデル学習用音声データ収録時の背景雑音と実際の認識時の背景雑音が異なれば、認識率の低下が生じる。モデルの背景雑音への適応には、従来の技術としてPMC(例えば、M.J.F.Gales 他 ”An Improved Approach to the Hidden Markov Model Decomposition of Speech And Noise,” Proc.of ICASSP92,pp.233−236,1992)やNOVO合成法(例えば、F.Martin他、”Recognition of Noisy Speech by Using the Composition of Hidden Markov Models,” 日本音響学会平成4年度秋季研究発表会講演論文集、pp.65−66)などのHMM合成法がある。HMM合成法とは、防音室などで収録した雑音が含まれていない音声で学習したHMM(以下、クリーン音声HMMと記す)と、認識時の背景雑音のみで学習したHMM(以下、雑音HMMと記す)を合成し、認識時の雑音が重畳し、入力音声に整合したHMMを求める適応手法である。HMM合成法を用いれば、雑音HMMの学習と、モデル合成の処理時間のみで済むので、膨大な量の音声データを用いてモデルを作成し直すよりも、少ない時間でモデルを適応することができる。
【0006】
【発明が解決しようとする課題】
上述した従来の音声認識において、雑音HMMの学習データを得るための雑音収録時間が比較的長いこと(例えば、15秒)、モデル合成の処理時間も10秒程度必要なことから、時々刻々と変化する条件に応じてモデルを実時間で適応させることは難しいという問題がある。
【0007】
本発明は、上記に鑑みてなされたもので、その目的とするところは、条件変動前の初期モデルを条件変動後の環境条件に整合したモデルに近付けるために初期モデルを基準モデルとして、条件変動後に観測した条件を表現するデータを用いて実時間で高速にモデルを適応させ、認識性能を向上し得るモデル適応方法、装置およびその記憶媒体を提供することにある。
【0008】
【課題を解決するための手段】
本発明は、初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、を有することを特徴とする音声認識方法を提供する。
【0009】
また、本発明では、前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求めることを特徴とする。
【0010】
また、本発明では、前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップであることを特徴とする。
【0011】
また、本発明では、前記記憶ステップで記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがHMM合成されたものであることを特徴とする。
【0012】
さらに、本発明は、初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶部と、認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出部と、前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出部と、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新部と、前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識部と、を有することを特徴とする音声認識装置を提供する。
【0013】
また、本発明では、前記記憶部は、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、前記雑音抽出部は、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、前記差分算出部は、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、前記雑音重畳音声モデル更新部は、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求めることを特徴とする。
【0014】
また、本発明では、前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、前記雑音抽出部は、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるものであり、前記音声認識部は、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するものであることを特徴とする。
【0015】
また、本発明では、前記記憶部で記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがHMM合成されたものであることを特徴とする。
【0016】
さらに、本発明は、初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、をコンピュータに行わせることを特徴とする音声認識プログラムを格納した記憶媒体を提供する。
【0017】
また、本発明では、前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求めることを特徴とする。
【0018】
また、本発明では、前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップであることを特徴とする。
【0019】
また、本発明では、前記記憶ステップで記憶しておく初期雑音重畳音声モデル
は、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがHMM合成されたものであることを特徴とする。
【0040】
【発明の実施の形態】
本発明のモデル適応方法は、入力ベクトル時系列に対し、各認識カテゴリの特徴を表現した確率モデルの尤度を計算し、最も尤度の高いモデルを表現するカテゴリを認識結果として出力するパターン認識処理に適用しうるものであるが、この場合に認識時の例えば背景雑音等のような条件が初期の条件、すなわち初期モデル学習時の条件と異なる場合における認識率の低下を防止するために、両条件の差である変動分からモデルパラメータの変動分をテイラー展開によって近似計算して基準モデルのパラメータを更新し、認識時の条件に適応したモデルを作成し、このモデルを使用して認識を行うものである。
【0041】
まず、本発明の原理について説明する。
【0042】
非線形の関係にある2領域に含まれるベクトルx,yを考える。
【0043】
y=f(x) (1)
つまり、yはxについての線形または非線形の関数f(x)で表される。ここで、xが微小変動した場合のyの変動量を考える。
【0044】
y+Δy=f(x+Δx) (2)
関数f(x)をxについてのテイラー展開を行うと以下の関係が成り立つ。
【0045】
【数1】
従って、ベクトルの微小変動分Δx,Δyには、上記のテイラー展開式の1次微分項までを考慮すると以下の関係が成り立ち、これは図1に示すように表わされる。
【0046】
【数2】
上記式(4)の関係を用いれば、Δyは、xからyの変換をせずに、Δxとヤコビ行列の乗算のみで近似的に求めることができる。
【0047】
認識対象を表現するモデルパラメータは、条件の変化に応じて、そのパラメータを更新する必要がある。そこで、モデルパラメータの変動分を条件を表現するパラメータの変動分から求めることを考える。Δyをモデルパラメータの変動分、Δxを条件を表現するパラメータの変動分として考える。条件を表現するパラメータの変動がモデルパラメータの変動に対して線形のみならず非線形の関係にある場合でも、上記式(4)に従えば、条件を表現するパラメータの変動分Δxを観測さえすれば、xからyへの非線形な写像による複雑な計算をせずに、モデルパラメータの変動分Δyを近似的に、少ない演算量で高速に求めることができる。
【0048】
ただし、ここではベクトルの変動が微小であることから上記のテイラー展開式(3)の1次微分項を考慮するだけで十分と考えられるが、2次微分項以降も利用可能である。
【0049】
そこで、条件が変動する例として、音声認識において、背景雑音が変動する場合を考える。初期モデル学習時の背景雑音と、認識時の背景雑音との間の変化によって起きるモデルの不整合を補正する雑音適応について説明する。
【0050】
はじめに、ヤコビ行列の求め方をケプストラム(例えば、古井“ディジタル音声処理”、東海大学出版会)をパラメータとした場合を例に説明する。音響モデルは音声の特徴パラメータとして、ケプストラムを用いる場合が多い。
【0051】
背景雑音が重畳した音声(以下、雑音重畳音声と記す)のパワースペクトルSR (ベクトルで表す)は、クリーン音声のパワースペクトルSS と背景雑音のパワースペクトルSN の和で表される。
【0052】
SR =SS +SN (5)
上記の関係をケプストラム領域に変換する。雑音重畳音声ケプストラムCR と、クリーン音声ケプストラムCS 、雑音ケプストラムCN との関係は図2に示すように以下のような関係になる。
【0053】
【数3】
ここで、DFT(・),IDFT(・), log(・), exp(・)をそれぞれ離散フーリエ変換、逆離散フーリエ変換、対数変換、指数変換を表す。離散フーリエ変換は線形変換であるが、対数変換と指数変換は非線形変換であるため、雑音重畳音声ケプストラムCR と雑音ケプストラムCN との間には非線形の関係が成り立つ。
【0054】
初期モデル用学習音声データ収録時の背景雑音と認識時の背景雑音とが異なる場合、上記関係式(6)を用いて認識時に観測した背景雑音の雑音ケプストラムから雑音重畳音声ケプストラムを求めるには、2回の離散フーリエ変換、対数変換、指数変換という複雑で多量の計算を行わなければならない。
【0055】
このときテイラー展開を用いれば、雑音重畳音声ケプストラムの変動分をΔCR を式(7)のように雑音ケプストラムの変動分ΔCN とヤコビ行列から求めることができる。雑音ケプストラムの変動分ΔCN は、上記式(6)による複雑な関係式を用いて変換する必要はない。
【0056】
【数4】
上記式に含まれる偏微分項を図2に示した各領域間の関係式を用いて計算する。
【数5】
ここで、F,F−1は、コサイン変換行列、逆コサイン変換行列、pはケプストラムの次数(パワー項を含む)でありかつスペクトラムの次数である。よって、
【数6】
ここで、[JN ]ij,Fij,Fij −1は、それぞれ行列JN 、行列F、行列F−1のi行j列目の要素である。また、SNk,SRkはそれぞれベクトルSN とベクトルSR のk番目の要素である。
【0057】
つまりヤコビ行列の各要素は、雑音スペクトラムSN と雑音重畳音声スペクトラムSR 、そして定数値である変換行列F,F−1から求めることができる。SN とSR は、それぞれ雑音ケプストラムCN と雑音重畳音声ケプストラムCR を線形スペクトラムに変換することで求められる。従って、モデル学習時に背景雑音を収録した時点で、ヤコビ行列を計算しておくことができる。
【0058】
次に、上記のテイラー展開を用いて、背景雑音変動前の初期雑音重畳音声HMMを背景雑音変動後(認識時)の背景雑音に整合した雑音重畳音声HMM(以下、適応雑音重畳音声HMMと記す)に更新する方法について説明する。ここでは、HMMの各状態に存在する出力確率分布のケプストラム平均値ベクトルを適応することを考える。上記式(7)にしたがえば、適応雑音重畳音声HMMの平均値ベクトルCR ′は以下のように計算できる。
【0059】
CR ′=CR +JN (CN ′−CN ) (10)
上記式において、CR は初期雑音重畳音声HMMの平均値ベクトル、CN は雑音変動前の背景雑音データから求めたHMM(以下、初期雑音HMM)の出力確率分布の平均値ベクトル、CN ′は、雑音変動後(認識時)の背景雑音から求めたHMM(以下、適応対象雑音HMM)の出力確率分布の平均値ベクトルを示す。
【0060】
CR は、雑音変動前の背景雑音が重畳した音声データで学習した雑音重畳音声HMMの平均値ベクトルを用いる。また、初期雑音HMMと背景雑音のないクリーン音声HMMからHMM合成により求めた雑音重畳音声HMMを用いることも可能である。
【0061】
上記式(10)中のヤコビ行列JN を求めるには、上記ヤコビ行列の計算方法で述べたように、CN とCR が必要である。これらは、背景雑音変動前のパラメータであり、雑音変動に備え、予め計算しておくことができる。
【0062】
上記式(10)に従えば、CN ,CR ,JN ,CN ′が決定すると、認識時の条件に整合した雑音重畳音声ケプストラムCR ′を即座に求めることができる。
【0063】
上記の本発明の適応処理は、雑音変動前(認識時)までに予め実行できる事前処理と、雑音変動後に背景雑音を観測してから実行できる適応処理に分割することができる。つまり、初期雑音HMM、初期雑音重畳音声HMM、ヤコビ行列を求める処理は事前処理である。従って、認識時には適応対象雑音HMMを求め、上記式(10)の行列計算を実行するのみで、少量の演算量で音響モデルの適応が完了する。
【0064】
次に、具体的に図面を参照して説明する。
【0065】
図3は、本発明の一実施形態に係るモデル適応装置の構成を示す図であり、図4は、図3に示すモデル適応装置の作用を示すフローチャートである。
【0066】
図3,4に示すように、本実施形態のモデル適応装置では、まずモデル学習時に音声入力部1において入力され雑音抽出部2において抽出された背景雑音から初期雑音HMMが求められ(ステップS1)、初期雑音(HMM)記憶部3に記憶する。また、クリーン音声HMM記憶部4に記憶されたクリーン音声HMMと前記初期雑音HMMとをHMM合成部5においてHMM合成法により合成して、初期雑音重畳音声HMMを計算し(ステップS2)、初期雑音重畳音声HMM記憶部6に記憶する。それから、ヤコビ行列計算部7で初期雑音HMMと初期雑音重畳音声HMMからヤコビ行列を計算し、ヤコビ行列記憶部8に記憶しておく(ステップS3)。
【0067】
次に、認識を行う場合には、図3に示すように、音声入力部で入力された音声から雑音抽出部2において雑音データを抽出し、適応対象雑音HMMとして求める。入力された雑音重畳音声と初期雑音重畳音声HMMに不整合が生じている場合は、差分算出部9にて適応対象雑音HMMと初期雑音HMMとの差分を求め(ステップS4)、雑音重畳音声HMM更新部10にて該差分とヤコビ行列を使用したテイラー展開により前記初期雑音重畳音声HMMの更新処理を行って適応雑音重畳音声HMMを近似計算し(ステップS5)、適応雑音重畳音声HMM記憶部11に記憶する。次に、この適応雑音重畳音声HMMを使用して音声認識部12で雑音重畳音声の認識処理を行い(ステップS6)、認識結果出力部13にて結果を出力する。
【0068】
なお、以上の処理のうちステップS1,S2,S3の処理、すなわち初期雑音HMM、初期雑音重畳音声HMM、ヤコビ行列のそれぞれの計算および記憶は、背景雑音が認識の度毎に逐次変動する場合でも、最初にだけ行われ、それぞれの値をメモリに記憶しておく。そして、認識時にはこれらの記憶した情報を利用して以降の処理、すなわちステップS4,S5,S6のみを繰り返し行う。
【0069】
また、1つ前の発声をもとに得られた適応対象雑音HMM、適応雑音重畳音声HMMを新たな初期モデルとして前記ステップS3から処理を行う逐次処理も可能である。
【0070】
次に、図5,6を参照して、本発明の他の実施形態について説明する。本実施形態では、スペクトル・サブトラクション(Spectral Subtraction,以下、SS法と略称する)(例えば、S.F.Boll ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction,” IEEE Trans.on ASSP,Vol.ASSP−27,No.2,pp.113−120,1979)を組み合わせた雑音適応を説明する。SS法とは、収録した背景雑音の一部または全区間を用いて平均スペクトラムを計算し、これを入力データのスペクトラムから差し引いて入力データのS/N比を改善する雑音除去法である。スペクトラムの平均計算とスペクトラムの減算で済むため、演算量が低い雑音除去法である。
【0071】
ここでは、上述した図4の事前処理過程のステップS1および適応処理過程のステップS4において、図5,6に示すように,雑音SS部14にて収録した背景雑音(モデル学習時に収録した背景雑音および認識時の背景雑音)の一部または全区間を用いて平均スペクトラムを計算し、この平均スペクトラムを収録した雑音データの全区間のスペクトラムから差し引き、消し残りの雑音データを求める(ステップS7,S8)。上記操作で求めた消し残りの雑音データを学習データとして初期雑音HMMおよび適応対象雑音HMMを作成する。認識対象の雑音重畳音声にも雑音重畳音声SS部15にてSS法を施し(ステップS9)、雑音を差し引いた音声データを音声認識部13で認識する。他の操作は図4のモデル適応の処理過程と同様である。
【0072】
次に、本発明の他の実施形態について説明する。ここでは、複数の初期雑音から求めたヤコビ行列を用いて雑音適応を行う実施形態を説明する。
【0073】
本発明は、初期雑音によって適応対象雑音へ適応したときの認識率が異なる。例えば、適応対象雑音として空調機雑音に適応する場合を考える。この場合、比較的定常な空調機雑音に対して、交差点での自動車走行音や人の声等を含むようなやや非定常な雑音を初期雑音とするよりも、計算機のファンの音がそのほとんどを占める定常な雑音を初期雑音とした方が本発明による適応の効果は高い。
【0074】
しかし、必ずしも適応対象の雑音が既知ではないため本発明の効果を最大限に発揮できる初期雑音を予め用意することはできない。そこで、本実施形態では、種類の異なる初期雑音を複数用意して、これらの初期雑音の中から本発明の効果を最大限に発揮できる初期雑音を選択し、雑音適応に用いることで適応対象雑音の種類によらず常に認識率の高い雑音適応を可能とする。
【0075】
本実施形態では、モデル適応装置の構成は上述した図3に示すものと同様であるが、初期雑音(HMM)記憶部3は複数の初期雑音を記憶し、初期雑音重畳音声HMM記憶部6は複数の初期雑音に対応した複数組の初期雑音重畳音声HMMを記憶し、ヤコビ行列記憶部8は複数の初期雑音に対応した複数組のヤコビ行列を記憶し、雑音重畳音声HMM更新部10は最適な初期雑音を選択する機能を有する。
【0076】
ここで、最適な初期雑音の選択は以下のように行われる。
【0077】
まず、種類の異なる初期雑音を複数用意して、初期雑音それぞれに対して初期雑音HMMとヤコビ行列を計算し、記憶しておく。
【0078】
次に、認識時に観測した適応対象雑音と記憶しておいた初期雑音それぞれとの類似度を計算する。類似度の計算法の例として、初期雑音HMMの出力確率分布の平均値ベクトルと適応対象雑音HMMの出力確率分布の平均値ベクトルとのユークリッド距離による類似度の計算法を説明する。第i番目の初期雑音HMMの出力確率分布の平均値ベクトルCi N の第k番目の要素をCi Nk、適応対象雑音HMMの出力確率分布の平均値ベクトルC’N の第k番目の要素をC’Nkとすると、初期雑音HMMの出力確率分布の平均値ベクトルと適応対象雑音HMMの出力確率分布の平均値ベクトルとのユークリッド距離D(i)は以下のようにして求められる。
【0079】
【数7】
上記式(11)を用いて全ての初期雑音HMMに対して適応対象雑音HMMとのユークリッド距離を計算し、最も距離の小さい初期雑音HMMimin を選ぶ。
【数8】
このようにして選ばれた初期雑音HMMとこれに対応するヤコビ行列を用いて本発明による雑音重畳音声HMMのパラメータの更新を行い、認識を行う。このように、複数の初期雑音HMMおよびヤコビ行列を用意しておき、観測された適応対象雑音HMMごとに最も類似した初期雑音HMMを選択して本発明によるパラメータの更新を行うことで、常に認識率の高い雑音適応が可能となる。
【0080】
上記各実施形態では、本発明による背景雑音の変動に対するモデル適応を述べた。この他、回線歪みの変動に対するモデル適応の場合を考える。回線歪みを表現するパラメータはモデルパラメータと同じケプストラムである。従って、上記作用で述べたテイラー展開の式(7)の微分係数が1となり計算が可能である。
【0081】
また、声道長の変動に対するモデル適応の場合、本発明を用いて声道長パラメータの変動分からモデルパラメータを適応することが可能である。
【0082】
次に、本発明の効果を調べるために行った背景雑音の変動に対する音響モデルの適応実験について説明する。ここでは背景雑音が、初期状態では交差点雑音であったのが、実際の認識時に展示ホール雑音に変化した場合を仮定し実験を行った。 本発明(結果の図および表ではJacobian適応法と記す)の他に、従来の代表的な雑音適応法として、NOVO合成法によるモデル適応も比較のため実験した。NOVO合成法の処理の処理過程を図7に示す。雑音変動前の初期状態である交差点雑音に合わせてNOVO合成した初期雑音重畳音声モデルをそのまま雑音変動後の音声の認識に用いた場合(適応処理なし)も実験した。クリーン音声から求めたモデルをそのまま認識に用いた場合についても実験を行った。
【0083】
話者13名の発声による100都市名単語に、展示ホール雑音を計算機上で重畳させたものを評価データとした。評価データの直前の区間の展示ホール雑音データを用いて適応対象雑音HMMを学習し、適応を行った。交差点雑音、展示ホール雑音ともに評価データに対するS/N比は10dBである。認識語彙は400単語である。
【0084】
適応に用いた展示ホール雑音データ長を変化させたときの、本発明および上記手法を含めた4手法の単語認識率の比較を図8に示す。また、適応処理に要する処理量(CPU time )の本発明とNOVO合成法との比較を表1に示す。ただし、適応処理のうち音響処理と雑音学習については、その計算量が適応雑音データ長に依存するため、本発明およびNOVO合成法ともに表1中のCPU time には含まれていない。
【0085】
【表1】
図8において、NOVO合成法は、適応データが長い場合(図8では900m秒以上)では性能が高いが、適応データが短い場合は性能が急激に低下した。一方、本発明では、適応データが短い場合(図8では800m秒以下)ではNOVO合成法よりもむしろ性能が高いことがわかった。また表1に示すように、本発明はNOVO合成法に比べて適応時に必要な処理がNOVO合成法の1/34で済むことがわかった。
【0086】
従って、本発明によるモデル適応手法は、短い適応データによる適応が可能であり、更に適応処理が高速であるという効果があることが確認できた。この特徴は、変動する背景雑音に音響モデルを実時間適応するのに適している。
【0087】
次に、本発明にSS法を導入した場合の音声認識の結果について説明する。実験の条件は上記認識実験と同様である。雑音の平均スペクトラムを計算するための雑音データ長は160msである。適応に用いた展示ホール雑音データ長500msについて、本発明にSSを導入した方法(表ではSS−Jacobian適応法と記す)と、導入していない方法の単語認識率の比較を表2に示す。
【0088】
【表2】
表2から、SSを本発明に導入することにより、単語認識率が改善できることがわかった。従って、SS法という演算量の少ない方法を本発明に導入することにより、依然として適応処理が高速のまま、性能が向上できるという効果が確認できた。
【0089】
なお、上記実施形態において、入力雑音重畳音声と初期雑音重畳音声HMMに不整合が生じているかどうかの判定には種々の方法を用いることが可能である。例えば、差分算出部により求められた適応対象雑音HMMと初期雑音HMMとの差分が有為であると雑音重畳音声HMM更新部が判断した時に、入力雑音重畳音声と初期雑音重畳音声HMMに不整合が生じていると判定することが可能である。また、まず初期雑音重畳音声HMMを用いて音声認識を行い、その結果得られた認識率の低さから、音声認識部が入力雑音重畳音声と初期雑音重畳音声HMMに不整合が生じているかどうかを判定することも可能である。
【0090】
また、上記実施形態では、音声を入力とした場合について説明したが、本発明はこれに限定されるものでなく、この他にも図形、文字などのパターン認識にも広く適用し得るものである。
【0091】
また、本発明のモデル適応方法を、汎用のコンピュータによって読取り可能な記憶媒体上にコンピュータソフトウェアプログラムとして実装することにより、この記憶媒体が搭載されたコンピュータを本発明のモデル適応装置として機能させることが可能となる。ここで、記憶媒体の具体的構成については、コンピュータプログラムを格納するのに適したいかなる構成を用いても良い。
【0092】
特に、上記図4および図6における事前処理と適応処理をまとめてソフトウェアプログラムとして実装したモデル適応システム用の記憶媒体として提供したり、事前処理と適応処理と認識処理をまとめてソフトウェアプログラムとして実装したパターン認識システム用の記憶媒体として提供することが考えられる。
【0093】
【発明の効果】
以上説明したように、本発明によれば、初期条件確率モデルと初期条件重畳確率モデルからヤコビ行列を計算して記憶しておき、認識時の条件を測定して適応対象条件確率モデルを求め、適応対象条件確率モデルと初期条件確率モデルとの差分およびヤコビ行列に基づくテイラー展開によって初期条件重畳確率モデルを更新して適応条件重畳確率モデルを近似計算するので、少ない演算量で適応処理を高速に行い、認識性能を向上することができる。
【図面の簡単な説明】
【図1】非線形関係にある領域間でのテイラー展開による微小変動の近似を説明するための図である。
【図2】雑音ケプストラムから雑音重畳音声ケプストラムへの非線形な変換の過程を示す図である。
【図3】本発明の一実施形態に係るモデル適応装置の構成を示す図である。
【図4】図3に示すモデル適応装置の作用を示すフローチャートである。
【図5】本発明の他の実施形態に係るSS法を組み込んだモデル適応装置の構成を示す図である。
【図6】図5に示すモデル適応装置の作用を示すフローチャートである。
【図7】従来のNOVO合成法の処理過程を示す図である。
【図8】雑音観測時間に対する音声認識率について本発明の方法と従来の方法の比較を示す図である。
【符号の説明】
1 音声入力部
2 雑音抽出部
3 初期雑音(HMM)記憶部
4 クリーン音声HMM記憶部
5 HMM合成部
6 初期雑音重畳音声HMM記憶部
7 ヤコビ行列計算部
8 ヤコビ行列記憶部
9 差分算出部
10 雑音重畳音声HMM更新部
11 適応雑音重畳音声HMM記憶部
12 音声認識部
13 認識結果出力部
14 雑音SS部
15 雑音重畳音声SS部
Claims (12)
- 初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、
認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、
前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、
前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、
前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、
を有することを特徴とする音声認識方法。 - 前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、
前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、
前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、
前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める
ことを特徴とする請求項1記載の音声認識方法。 - 前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、
前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、
前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、
前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップである
ことを特徴とする請求項1または2記載の音声認識方法。 - 前記記憶ステップで記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがHMM合成されたものであることを特徴とする請求項1〜3のいづれかに記載の音声認識方法。
- 初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶部と、
認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出部と、
前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出部と、
前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新部と、
前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識部と、
を有することを特徴とする音声認識装置。 - 前記記憶部は、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、
前記雑音抽出部は、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、
前記差分算出部は、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、
前記雑音重畳音声モデル更新部は、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める
ことを特徴とする請求項5記載の音声認識装置。 - 前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、
前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、
前記雑音抽出部は、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるものであり、
前記音声認識部は、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するものである
ことを特徴とする請求項5または6記載の音声認識装置。 - 前記記憶部で記憶しておく初期雑音重畳音声モデルは、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがHMM合成されたものであることを特徴とする請求項5〜7のいづれかに記載の音声認識装置。
- 初期雑音モデルと、これに対応する初期雑音重畳音声モデルと、前記初期雑音モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておく記憶ステップと、
認識対象音声データが入力された際に、前記認識対象音声データから雑音データを抽出し、抽出された雑音データから適応対象雑音モデルを求める雑音抽出ステップと、
前記適応対象雑音モデルと前記初期雑音モデルとの差分を求める差分算出ステップと、
前記差分と、前記初期雑音重畳音声モデルと、前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める雑音重畳音声モデル更新ステップと、
前記適応雑音重畳音声モデルを用いて前記認識対象音声データの音声認識処理を行い、認識結果を出力する音声認識ステップと、
をコンピュータに行わせることを特徴とする音声認識プログラムを格納した記憶媒体。 - 前記記憶ステップは、複数の初期雑音モデルと、これに対応する複数の初期雑音重畳音声モデルと、前記複数の初期雑音モデルと前記複数の初期雑音重畳音声モデルとの組み合わせにそれぞれに対応する前記初期モデルと前記初期雑音重畳音声モデルとから求めた、モデルパラメータの変化分を雑音データの変化分により表現するテイラー展開のヤコビ行列とをあらかじめ記憶しておき、
前記雑音抽出ステップは、前記適応対象雑音モデルと最も類似した初期雑音モデルをさらに求め、
前記差分算出ステップは、前記適応対象雑音モデルと前記最も類似した初期雑音モデルとの差分を求め、
前記雑音重畳音声モデル更新ステップは、前記差分と、前記最も類似した初期雑音モデルに対応する前記初期雑音重畳音声モデルと、前記最も類似した初期雑音モデルに対応する前記ヤコビ行列とを用いて、適応雑音重畳音声モデルを求める
ことを特徴とする請求項9記載の記憶媒体。 - 前記初期雑音モデルは、初期雑音重畳音声データから初期雑音データを抽出し、該初期雑音データの一部または全部の区間を用いて初期雑音平均スペクトラムを計算し、該初期雑音平均スペクトラムを前記初期雑音データの全区間から差し引いて初期消し残り雑音データを求め、該初期消し残り雑音データから生成した初期雑音モデルであり、
前記初期雑音重畳音声モデルは、前記初期雑音平均スペクトラムを前記初期雑音重畳音声データの全区間から差し引いて初期消し残り雑音雑音重畳音声データを求め、該初期消し残り雑音重畳音声データから生成した初期雑音重畳音声モデルであり、
前記雑音抽出ステップは、前記認識対象音声データから適応対象雑音データを抽出し、該適応対象雑音データの一部または全部の区間を用いて適応対象雑音平均スペクトラムを計算し、該適応対象雑音平均スペクトラムを前記適応対象雑音データの全区間から差し引いて適応対象消し残り雑音データを求め、該適応対象消し残り雑音データから適応対象雑音モデルを求めるステップであり、
前記音声認識ステップは、前記適応対象雑音平均スペクトラムを前記認識対象音声データの全区間から差し引いて認識対象消し残り雑音重畳音声データを求め、該認識対象消し残り雑音重畳音声データの音声認識処理を行い、認識結果を出力するステップである
ことを特徴とする請求項9または10記載の記憶媒体。 - 前記記憶ステップで記憶しておく初期雑音重畳音声モデル
は、前記初期雑音モデルとあらかじめ用意したクリーン音声モデルとがHMM合成されたものであることを特徴とする請求項9〜11のいづれかに記載の記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25106897A JP3587966B2 (ja) | 1996-09-20 | 1997-09-16 | 音声認識方法、装置そよびその記憶媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8-250540 | 1996-09-20 | ||
JP25054096 | 1996-09-20 | ||
JP25106897A JP3587966B2 (ja) | 1996-09-20 | 1997-09-16 | 音声認識方法、装置そよびその記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10149191A JPH10149191A (ja) | 1998-06-02 |
JP3587966B2 true JP3587966B2 (ja) | 2004-11-10 |
Family
ID=26539811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25106897A Expired - Fee Related JP3587966B2 (ja) | 1996-09-20 | 1997-09-16 | 音声認識方法、装置そよびその記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3587966B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60018696T2 (de) * | 1999-07-01 | 2006-04-06 | Koninklijke Philips Electronics N.V. | Robuste sprachverarbeitung von verrauschten sprachmodellen |
ATE336776T1 (de) * | 2000-02-25 | 2006-09-15 | Koninkl Philips Electronics Nv | Vorrichtung zur spracherkennung mit referenztransformationsmitteln |
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
WO2005098820A1 (ja) * | 2004-03-31 | 2005-10-20 | Pioneer Corporation | 音声認識装置及び音声認識方法 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
JP2006084732A (ja) * | 2004-09-15 | 2006-03-30 | Univ Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
GB2464093B (en) * | 2008-09-29 | 2011-03-09 | Toshiba Res Europ Ltd | A speech recognition method |
JP2011118124A (ja) * | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
JP5709179B2 (ja) * | 2010-07-14 | 2015-04-30 | 学校法人早稲田大学 | 隠れマルコフモデルの推定方法,推定装置および推定プログラム |
GB2482874B (en) * | 2010-08-16 | 2013-06-12 | Toshiba Res Europ Ltd | A speech processing system and method |
JP6234060B2 (ja) | 2013-05-09 | 2017-11-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
-
1997
- 1997-09-16 JP JP25106897A patent/JP3587966B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10149191A (ja) | 1998-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6026359A (en) | Scheme for model adaptation in pattern recognition based on Taylor expansion | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
KR101332143B1 (ko) | 음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램 | |
EP1262953B1 (en) | Speaker adaptation for speech recognition | |
Wang et al. | Speaker and noise factorization for robust speech recognition | |
JPH0636156B2 (ja) | 音声認識装置 | |
JP5242782B2 (ja) | 音声認識方法 | |
JP5262713B2 (ja) | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム | |
JP3587966B2 (ja) | 音声認識方法、装置そよびその記憶媒体 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP2004347956A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
Liao et al. | Joint uncertainty decoding for robust large vocabulary speech recognition | |
CN105474307A (zh) | 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法 | |
JP3102195B2 (ja) | 音声認識装置 | |
JPH1195786A (ja) | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JP2000075888A (ja) | ヒドン・マルコフ・モデルの学習方法及び音声認識システム | |
Hwang et al. | A fast algorithm for parallel model combination for noisy speech recognition | |
JP2002049388A (ja) | 変換マトリックスを使用する自動音声認識の際の付加および重畳ノイズ適応方法 | |
de La Torre et al. | Statistical adaptation of acoustic models to noise conditions for robust speech recognition. | |
JPH0830294A (ja) | 音声認識装置及び方法 | |
Yamamoto et al. | Speech recognition under noisy environments using segmental unit input HMM | |
Tian et al. | A unified compensation approach for speech recognition in severely adverse environment | |
He et al. | Model synthesis for band-limited speech recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040720 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040811 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080820 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090820 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090820 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100820 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100820 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110820 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120820 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 9 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |