JP4058521B2 - 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム - Google Patents

背景雑音歪みの補正処理方法及びそれを用いた音声認識システム Download PDF

Info

Publication number
JP4058521B2
JP4058521B2 JP2003320183A JP2003320183A JP4058521B2 JP 4058521 B2 JP4058521 B2 JP 4058521B2 JP 2003320183 A JP2003320183 A JP 2003320183A JP 2003320183 A JP2003320183 A JP 2003320183A JP 4058521 B2 JP4058521 B2 JP 4058521B2
Authority
JP
Japan
Prior art keywords
hmm
speech
noise
speech recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003320183A
Other languages
English (en)
Other versions
JP2005084653A (ja
Inventor
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2003320183A priority Critical patent/JP4058521B2/ja
Publication of JP2005084653A publication Critical patent/JP2005084653A/ja
Application granted granted Critical
Publication of JP4058521B2 publication Critical patent/JP4058521B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、音声の雑音成分を抑圧する背景雑音歪みの補正処理方法及びそれを用いた音声認識システムに関するものである。
雑音環境下において頑健な音声認識を実現するためのアプローチの1つに、フロントエンドにおける音声特徴量の補正処理がある。例えば下記の非特許文献1に記載されている手法では、フレーム毎の雑音重畳音声の特徴量から、Gaussian Mixture Model(GMM)に基づいて推定した雑音成分の期待値を取り除くことで、音声認識精度が改善されることを示している。
また、隠れマルコフモデル(HMM)に基づくパターン間の類似度(累積尤度)とそれを与える状態遷移系列を与えるビタビ(Viterbi)アルゴリズムについては、下記の非特許文献2に開示されている。
なお、雑音に対する対策を講じた音声情報処理装置については、下記特許文献1〜3に開示されている。
特開2003−140686号公報 特開2003−177783号公報 特開2003−195882号公報 J.C.Segura,Model−based compensation of the additive noise forcontinuous speech recognition,Proc of EUROSPEECH2001,Vol.1,pp.221−223 「音声情報処理」、著者 春日正男他3名、発行者(株)コロナ社、発行日2001年7月17日、p.137−144
しかしながら、GMMに基づいた特徴量補正手法では、Log Filter Bank領域で、クリーン音声の特徴ベクトルから学習したGMMに、入力音声の開始数フレームから求めた雑音の特徴量を混合することで、雑音適応化GMMを生成する。そして、過去のフレームで得られた入力音声の情報とは独立に、GMMの全分布を用いてフレーム毎に補正処理を行っている。雑音が定常的であれば良好な結果が得られるが、非定常に変化する場合、入力音声の特徴量と雑音適応化GMMとの間でミスマッチが生じてしまう。このため、GMMの分布の中で、入力音声の特徴量に本来対応しない分布の事後確率が大きく評価され、結果的に補正精度が劣化してしまう。
このように、上記した従来の手法は、入力音声の開始数フレームから雑音の特徴を推定し、以後、これを用いてフレーム毎に雑音重畳音声の特徴量補正を行う。このため、雑音が変化することにより、先に推定した雑音の特徴量と実際の雑音とのミスマッチが大きくなるフレームでは、補正精度が劣化するという問題点がある。
本発明は、上記状況に鑑みて、雑音信号が変化する場合でも、補正精度を向上させることができる背景雑音歪みの補正処理方法及びそれを用いた音声認識システムを提供することを目的とする。
本発明は、上記目的を達成するために、
〔1〕背景雑音歪みの補正処理方法において、隠れマルコフモデル(HMM)を音響モデルとする音声認識システムを用いて、ビタビ(Viterbi)アルゴリズムにより算出される入力特徴量時系列と隠れマルコフモデル(HMM)の累積出力確率を、フレーム数で除算し、真数値に換算した値により重み付けした隠れマルコフモデル(HMM)の分布の事後確率を用いて、背景雑音による音声特徴量の歪みを抑圧することを特徴とする。
〔2〕隠れマルコフモデル(HMM)を音響モデルとする音声認識システムにおいて、雑音信号を含む音声信号を入力する手段と、入力信号のパワーに基づく区間(フレーム)検出部と、入力特徴量時系列の算出部と、ビタビアルゴリズムにより算出した前記入力特徴量時系列とHMMの累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けされるHMMの分布の事後確率の算出部と、雑音信号を含む音声特徴量の歪み抑圧部と、この抑圧部に接続される音声認識部とを具備することを特徴とする。
本発明によれば、隠れマルコフモデル(HMM)に基づいて音声の特徴量補正をすることにより、雑音の変化に対してより頑健な音声の特徴量補正を実現することができる。HMMを用いることにより、音声特徴量の時間的構造が利用できるようになり、また、ビタビアルゴリズムに補正処理を組み込むことで、観測フレームまでの累積出力確率を利用できるようになる。
これらの点を利用することで、GMMのようにフレーム毎で独立に全分布を用いた補正処理を行うのではなく、過去のフレームで得られた特徴量の変遷に沿って、分布の選択的な重み付けが可能となる。これより、雑音の突発的な変化による補正精度の劣化を抑えることができる。また、GMMのように新たにパラメータを用意することなく、音響モデルのHMMをそのまま利用できるなどの利点も挙げられる。
マイクロホン(A/D変換器を内蔵)から入力された雑音信号を含む音声信号は、音声情報処理部に取り込まれる。この音声情報処理部は、入力信号のパワーに基づく区間(フレーム)検出部、入力特徴量時系列の算出部、ビタビアルゴリズムにより算出したHMMの累積出力確率の算出部、入力特徴量時系列と隠れマルコフモデル(HMM)の累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けするHMMの分布の事後確率算出部、雑音信号を含む音声特徴量の歪み抑圧部、音声認識部を備えており、雑音が変化する場合でも、補正精度を向上させることができる。
本発明では、従来の問題点として示したGMMに基づいた特徴量補正手法を改善するために、HMMに基づいて音声特徴量の補正を行う。HMMを用いることで、GMMでは表現できない特徴量時系列の時間的構造と累積出力確率を用いて、雑音適応化分布の選択的な重み付けができるようになる。そして、これにより、一時的な雑音変化による補正精度の劣化を抑制することができる。
また、本発明は、Mel−Frequency Cepstrum Coefficient(MFCC)領域で、クリーン音声から学習した既存の音響HMMを補正処理に用いる。
図1は本発明の実施例を示す音声認識のための模式的システム構成図である。 この図において、1はマイクロホン(A/D変換器を内蔵)であり、話者からの音声信号と雑音源からの雑音信号が入力される。2は音声情報処理部であり、この音声情報処理部2は、入力信号のパワーに基づく区間(フレーム)検出部3、入力特徴量時系列の算出部4、ビタビアルゴリズムにより算出したHMMの累積出力確率の算出部5、入力特徴量時系列と隠れマルコフモデル(HMM)の累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けするHMMの分布の事後確率算出部6、雑音信号を含む音声特徴量の歪み抑圧部7、音声認識部8からなっている。
以下、本発明の実施の形態について詳細に説明する。
ここで、HMMの状態の集合をS、初期確率をπs 、状態jからqへの遷移確率をajq、状態jにおける特徴ベクトルxの出力確率をbj (x)で表す。出力確率は混合数をMとすると、
Figure 0004058521
で与えられるとする( Σjmは対角行列とする)。以後、HMMに関するパラメータの集合をθで表す。
入力音声の特徴ベクトルxは、一般的に、ベースのMFCC以外にΔやΔΔを組み合わせて用いられるが、以下では補正処理の対象をベースのMFCCだけに限定する。このベースのMFCCをzとし、HMMの全ての分布に対してベースの部分だけを抜きだした分布を
Figure 0004058521
で表す。入力音声の開始Nフレームは無音区間と仮定し、雑音適応化分布
Figure 0004058521
を次式に従い求める。
Figure 0004058521
ここでlog,expはベクトルの各要素に対する演算で、Cは離散コサイン変換行列を表す。
予備実験結果によると、通常のlog−add方式より、上記式(4)による分布の適応を実施した方が認識率は若干良くなる。しかし、上記式(4)は、通常のlog−addより演算量が増えるため、演算量コストを優先させる場合は、log−add方式を採用する。
一方、ビタビアルゴリズムによる確率計算は、以下の手順で行われる。
はじめに、フォワード係数に初期確率を入れる。
Figure 0004058521
その後、各フレーム時刻t=1,2,…,Tの各状態sについて、
Figure 0004058521
を求める。
このようにして得られるフォワード係数は、特徴ベクトルx1 ,…,xt を出力し、フレーム時刻tにおいて状態sにある累積出力確率を表す。そして、最終フレームにおいて最大確率を選択する。
Figure 0004058521
このようにして観測ベクトル時系列に対するHMMの最大尤度が求められる。
本発明では、このフォワード係数を用いて、各フレーム時刻の各状態における雑音適応化分布の重み付けを行うことで、過去の特徴量の変遷に沿った分布選択による特徴量補正を実現する。そして、得られた補正特徴ベクトルでベースのMFCCを置き換えて、上記式(6)により確率の逐次計算を行う。つまり、本発明は特徴量の補正処理と音響HMMの尤度計算を同時に行う。
以下に、フォワード係数と雑音適応化分布を用いたベースMFCCの補正手法について述べる。現在のフレーム時刻をtとし、フレーム時刻t−1のフォワード係数が既に計算されている状態を想定する。フォワード係数はフレーム時刻が進むにつれて単調減少し、現時刻の出力確率とのバランスがとれなくなる。これを避けるために、フレーム数で除算し、単位フレーム当たりの値に換算した値を用いることにする。更に、上記ビタビアルゴリズム中ではフォワード係数を対数値として計算しているが、真数に戻した値を求める。
Figure 0004058521
次に、特徴ベクトルzt が観測された条件での、各分布の事後確率を次式により求める。
Figure 0004058521
最後に、クリーン音声分布〔上記式(2)〕の期待値ベクトルを、事後確率〔上記式(9)〕で重み付け平均することで、補正特徴ベクトルyt を得る。
Figure 0004058521
評価実験には、ある程度定常的な雑音としてAURORA2データベースのテストセットAを用いた実験と、突発性雑音を用いた実験を行った。
フロントエンドにおけるMFCCの抽出手順は以下の通りである。
(1)フレーム長25msのハミング窓を用いて、フレーム周期10ms、高域強調1−z-1でフレームを切り出す。
(2)その後、FFTを計算し、各係数の自乗振幅値に対してMel Filter Bankの三角窓をかけ、対数を求めた後、離散コサイン変換を計算する。
(3)C0を含む13次元のベースMFCCに、そのΔとΔΔを組み合わて、計39次元の特徴ベクトルを生成する。
AURORA2のタスクにおける語彙数は、数字(1〜9), oh, zero, sil,spの13であり、各語彙でHMMを学習する。各HMMの構成は、silが5状態3ループ、spは3状態1ループ、混合数は共に36である。その他の数字は、18状態16ループで、混合数は20である。HMMの学習は、クリーン音声だけを用いるClean Condition Trainingとする。
AURORA2を用いた実験では、特徴量補正処理を行わない時の認識率(Baseline)と本発明の方法による認識率(Hmm)に加え、GMMで特徴量補正した時の認識率も比較のために求める。GMMの混合数は64(Gmm64)と128(Gmm128)とする。また、GMMの実験では、他の実験とは異なり、GMMで処理したクリーン音声の特徴量を用いてHMMの学習を行う。本発明の方法およびGMMを用いた手法においては、分布の雑音適応化に用いるフレーム数を、入力音声の開始10フレームとする。テストセットAの認識結果を表1に示す。
Figure 0004058521
この表1は、テストセットAに含まれる4種類の雑音重畳音声の各SNRにおける平均認識率を手法毎に示している。評価実験で用いたHMMの構成は、全ての実験で同じである。つまり、本発明の方法は、Gmm64とGmm128に比べてGMMの分だけ少ないパラメータで、Gmm128とほぼ同程度の精度を実現している。
次に、突発性雑音を用いた実験では、RWCP(新情報処理開発機構)の実環境音声・音響データベースに収録されている木質の衝突系音源(cherry,magno,teak)を、125ms前後の間隔でAURORA2のクリーン音声に混合することで雑音重畳音声を生成した。突発性雑音の場合は、雑音の定常成分はないと考えて、先頭数フレームを用いた分布の雑音適応化は行わない。GMMに基づいた手法では、分布の雑音適応化で求めた歪み成分を事後確率で重み付け平均し、観測特徴量からそれを差し引くことで補正を行う。しかし、定常的な雑音成分を零とすると、歪みも零となるため、補正処理の意味がなくなってしまう。従って、本実験では、Baselineと本発明の方法(Hmm)の認識実験のみを行うこととする。表2に認識結果を示す。これにより、本発明の方法は突発性雑音に対しても有効であると言える。
Figure 0004058521

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。
背景雑音のある環境下での音声認識に用いることができる。
本発明の実施例を示す音声認識のための模式的システム構成図である。
符号の説明
1 マイクロホン(A/D変換器を内蔵)
2 音声情報処理部
3 入力信号のパワーに基づく区間(フレーム)検出部
4 入力特徴量時系列の算出部
5 ビタビアルゴリズムにより算出したHMMの累積出力確率の算出部
6 HMMの分布の事後確率算出部
7 雑音信号を含む音声特徴量の歪み抑圧部
8 音声認識部

Claims (2)

  1. 隠れマルコフモデル(HMM)を音響モデルとする音声認識システムを用いて、ビタビ(Viterbi)アルゴリズムにより算出される入力特徴量時系列と隠れマルコフモデル(HMM)の累積出力確率を、フレーム数で除算し、真数値に換算した値により重み付けした隠れマルコフモデル(HMM)の分布の事後確率を用いて、背景雑音による音声特徴量の歪みを抑圧することを特徴とする背景雑音歪みの補正処理方法。
  2. 隠れマルコフモデル(HMM)を音響モデルとする音声認識システムにおいて、
    (a)雑音信号を含む音声信号を入力する入力部と、
    (b)入力信号のパワーに基づく区間(フレーム)検出部と、
    (c)入力特徴量時系列の算出部と、
    (d)ビタビアルゴリズムにより算出した前記入力特徴量時系列とHMMの累積出力確率をフレーム数で除算し、真数値に換算した値により重み付けされるHMMの分布の事後確率の算出部と、
    (e)雑音信号を含む音声特徴量の歪み抑圧部と、
    (f)該抑圧部に接続される音声認識部とを具備することを特徴とする音声認識システム。
JP2003320183A 2003-09-11 2003-09-11 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム Expired - Lifetime JP4058521B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003320183A JP4058521B2 (ja) 2003-09-11 2003-09-11 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003320183A JP4058521B2 (ja) 2003-09-11 2003-09-11 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Publications (2)

Publication Number Publication Date
JP2005084653A JP2005084653A (ja) 2005-03-31
JP4058521B2 true JP4058521B2 (ja) 2008-03-12

Family

ID=34418901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003320183A Expired - Lifetime JP4058521B2 (ja) 2003-09-11 2003-09-11 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム

Country Status (1)

Country Link
JP (1) JP4058521B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4512848B2 (ja) * 2005-01-18 2010-07-28 株式会社国際電気通信基礎技術研究所 雑音抑圧装置及び音声認識システム
JP4765461B2 (ja) 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
JP2008064892A (ja) * 2006-09-05 2008-03-21 National Institute Of Advanced Industrial & Technology 音声認識方法およびそれを用いた音声認識装置
CN102298652B (zh) * 2010-06-23 2013-02-27 成都理工大学 放射性测量中能谱漂移的模拟方法
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP2005084653A (ja) 2005-03-31

Similar Documents

Publication Publication Date Title
JP4765461B2 (ja) 雑音抑圧システムと方法及びプログラム
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
Ephraim et al. On second-order statistics and linear estimation of cepstral coefficients
Wang et al. Speaker and noise factorization for robust speech recognition
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Su et al. Speech enhancement using generalized maximum a posteriori spectral amplitude estimator
Yoma et al. Improving performance of spectral subtraction in speech recognition using a model for additive noise
Nakamura et al. A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech.
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
Abe et al. Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction.
US9311916B2 (en) Apparatus and method for improving voice recognition
Kim et al. Missing-feature reconstruction by leveraging temporal spectral correlation for robust speech recognition in background noise conditions
JP2002123286A (ja) 音声認識方法
Vuppala et al. Recognition of consonant-vowel (CV) units under background noise using combined temporal and spectral preprocessing
Yapanel et al. Robust digit recognition in noise: an evaluation using the AURORA corpus.
Tashev et al. Unified framework for single channel speech enhancement
Hizlisoy et al. Noise robust speech recognition using parallel model compensation and voice activity detection methods
Rajnoha Multi-condition training for unknown environment adaptation in robust asr under real conditions
Kim et al. Feature compensation employing online GMM adaptation for speech recognition in unknown severely adverse environments
Chehresa et al. MMSE speech enhancement using GMM
Chen et al. Improving speaker verification in reverberant environments
Yan et al. Word graph based feature enhancement for noisy speech recognition
Kim et al. Feature compensation based on soft decision
Alam et al. Noise spectrum estimation using Gaussian mixture model-based speech presence probability for robust speech recognition
Delcroix et al. Combined static and dynamic variance adaptation for efficient interconnection of speech enhancement pre-processor with speech recognizer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071120

R150 Certificate of patent or registration of utility model

Ref document number: 4058521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term