JP2013120379A - スペクトル歪みパラメータ推定値補正装置とその方法とプログラム - Google Patents
スペクトル歪みパラメータ推定値補正装置とその方法とプログラム Download PDFInfo
- Publication number
- JP2013120379A JP2013120379A JP2011269727A JP2011269727A JP2013120379A JP 2013120379 A JP2013120379 A JP 2013120379A JP 2011269727 A JP2011269727 A JP 2011269727A JP 2011269727 A JP2011269727 A JP 2011269727A JP 2013120379 A JP2013120379 A JP 2013120379A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- distortion
- logarithmic
- estimated value
- estimate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】この発明のスペクトル歪みパラメータ推定値補正方法は、パラメータ推定値初期化ステップと、パラメータ推定値選択ステップと、劣化対数スペクトルモデル合成ステップと、パラメータ推定値更新ステップと、収束判定ステップと、パラメータ推定値出力ステップとを備え、劣化対数スペクトルの時系列と公知の方法で求められた加法性歪み対数スペクトルの推定値の一次的な時系列が与えられたときに、各時間フレームにおける加法性歪み対数スペクトルの補正された推定値と、乗法性歪み対数スペクトル推定値と、加法性歪み対数スペクトルの分散の推定値を計算し、これらをスペクトル歪みパラメータの推定値として出力する。
【選択図】図1
Description
同じ参照符号を付し、説明は繰り返さない。実施例の説明の前にこの発明の基本的な原理について説明する。
まず、以降の説明で使用する文言について説明する。パワースペクトル、すなわち周波数帯域毎のパワーの配列を単にスペクトルと称する。スペクトルはどのような分析方法を用いて計算してもよい。例えば、短時間フーリエ変換、メルフィルタバンク分析、ガンマトーンフィルタバンク分析等のスペクトル分析方法を用いることができる。また、スペクトルの対数値を対数スペクトルと称する。スペクトルと対数スペクトルは互いに一意に変換できる。さらに、時間フレーム毎のXXからなる時系列をXX系列と称する。例えば、対数スペクトル系列は、時間フレーム毎の対数スペクトルの時系列を指す。
pX→|K→(x→|k→;b,h,σ,r→)においてb=b−^、h=h−^、σ=σ−^としたときのパラメータの集合Θ={Θψ,Θυ}を計算し、これをパラメータ推定値更新部14に送出する(ステップS13)。以降、pX→|K→(x→|k→;b,h,σ,r→)を劣化対数スペクトル系列モデル、Θを劣化対数スペクトル系列モデルパラメータと称する。
パラメータ推定値初期化部11は、バイアススペクトルの初期推定値b0^と加法性歪み対数スペクトル分散の初期推定値σ0^と乗法性歪み対数スペクトルの初期推定値h0^を所定の方法で計算する。例えば、全ての周波数jについてb0j^=0、σ0j^=1、h0j^=0とする。ただし、ベクトル変数の右下に付した添え字jは、当該ベクトル変数のj番目の要素を表す。なお、初期推定値はこの値に限定する趣旨ではないし、パラメータ推定値初期化部11に加法性雑音対数スペクトル系列x→や参照対数スペクトルr→を入力として、これらを用いて各初期推定値を計算するように構成しても良い。
劣化音声モデル合成部13は、b^=b−^h^=h−^、σ^=σ−^のときに、劣化対数スペクトル系列モデルpX→|K→(x→|k→;b,h,σ,r→)を定義する劣化対数スペクトル系列モデルパラメータを計算する。
図5に、パラメータ推定値更新部14のより具体的な機能構成例を示す。その動作フローを図6に示す。
パラメータ推定値出力部60は、各未知パラメータの推定値b^,σ^,h^と、加法性歪み対数スペクトル系列r→を受け取り、各時間フレームnにおける加法性歪み対数スペクトルの補正された推定値μn^を式(31)で計算する。
次に、スペクトル歪みパラメータ推定値補正装置100で求めた加法性歪み対数スペクトルの補正された推定値の時系列(μn^)n=1…,Tと乗法性歪み対数スペクトルの推定値h^と加法性歪み対数スペクトル分散の推定値σ^を利用して、残響環境で音声認識する音声認識装置200を説明する。残響は極めて非定常な雑音と見做すことができる。
本発明のスペクトル歪みパラメータ推定値補正方法の効果を確認する目的で、音声認識装置200の音声認識精度を数字認識実験により評価した。実験用の残響音声信号は、TIDigitsコーパスに含まれるクリーン音声信号に可変残響室で計測されたインパルス応答を畳み込むことで合成した。
Claims (7)
- 劣化対数スペクトルの時系列と加法性歪み対数スペクトルの一次的な推定値である参照対数スペクトルの時系列とを入力とし、前記加法性歪み対数スペクトルの補正された推定値の時系列と加法性歪み対数スペクトル分散の推定値と乗法性歪み対数スペクトルの推定値とを出力するスペクトル歪みパラメータ推定値補正装置であって、
バイアススペクトルの推定値と前記加法性歪み対数スペクトル分散の推定値と前記乗法性歪み対数スペクトルの推定値を、尤度関数が最大化ないし増大されるように計算するパラメータ推定部と、
前記加法性歪み対数スペクトルの前記補正された推定値を前記参照対数スペクトルと前記バイアススペクトルの前記推定値の和として計算するパラメータ推定値出力部と、
を具備することを特徴とするスペクトル歪みパラメータ推定値補正装置。 - 請求項1に記載したスペクトル歪みパラメータ推定値補正装置において、前記パラメータ推定部は、
前記バイアススペクトルの初期推定値と前記加法性歪み対数スペクトル分散の初期推定値と前記乗法性歪み対数スペクトルの初期推定値を計算するパラメータ推定値初期化部と、
前記バイアススペクトルの前記初期推定値と前記バイアススペクトルの更新推定値の一方を前記バイアススペクトルの暫定推定値とし、前記加法性歪み対数スペクトル分散の前記初期推定値と前記加法性歪み対数スペクトル分散の更新推定値の一方を前記加法性歪み対数スペクトル分散の暫定推定値とし、前記乗法性歪み対数スペクトルの前記初期推定値と前記乗法性歪み対数スペクトルの更新推定値の一方を前記乗法性歪み対数スペクトルの暫定推定値とするパラメータ推定値選択部と、
前記参照対数スペクトルの時系列と前記バイアススペクトルの前記暫定推定値と前記加法性歪み対数スペクトル分散の前記暫定推定値と前記乗法性歪み対数スペクトルの前記暫定推定値とクリーン対数スペクトルモデルパラメータとを用いて、劣化対数スペクトル系列モデルパラメータを計算する劣化対数スペクトルモデル合成部と、
前記劣化対数スペクトルの時系列と前記参照対数スペクトルの時系列と前記バイアススペクトルの前記暫定推定値と前記加法性歪み対数スペクトル分散の前記暫定推定値と前記乗法性歪み対数スペクトルの前記暫定推定値と前記劣化対数スペクトル系列モデルパラメータと前記クリーン対数スペクトルモデルパラメータとを用いて、EMアルゴリズムのEステップとMステップを実行することによって尤度関数が増大されるように前記バイアススペクトルの前記更新推定値と前記加法性歪み対数スペクトル分散の前記更新推定値と前記乗法性歪み対数スペクトルの前記更新推定値を計算するパラメータ推定値更新部と、
収束条件を満たしていれば前記バイアススペクトルの前記更新推定値を前記バイアススペクトルの前記推定値とし、前記加法性歪み対数スペクトル分散の前記更新推定値を前記加法性歪み対数スペクトル分散の前記推定値とし、前記乗法性歪み対数スペクトルの前記更新推定値を前記乗法性歪み対数スペクトルの前記推定値として出力する収束判定部と、
を備えることを特徴とするスペクトル歪みパラメータ推定値補正装置。 - 請求項2に記載したスペクトル歪みパラメータ推定値補正装置において、前記パラメータ推定値更新部は、
第二パラメータ推定値更新手段の処理を選択するのに用いられる分岐信号を計算する分岐手段と、
前記劣化対数スペクトル系列モデルパラメータと前記バイアススペクトルの前記暫定推定値と前記加法性歪み対数スペクトル分散の前記暫定推定値と前記乗法性歪み対数スペクトルの前記暫定推定値と前記劣化対数スペクトルの時系列と前記参照対数スペクトルの時系列とを用いて、EMアルゴリズムのEステップにしたがって状態事後確率と前記加法性歪み対数スペクトルの事後確率分布のパラメータを計算する事後確率計算手段と、
前記参照対数スペクトルの時系列と前記状態事後確率と前記加法性歪み対数スペクトルの前記事後確率分布のパラメータと前記分岐信号を用いて、EMアルゴリズムのMステップにしたがって前記バイアススペクトルの前記更新推定値と前記加法性歪み対数スペクトル分散の前記更新推定値と前記乗法性歪み対数スペクトルの前記更新推定値を計算する前記第二パラメータ推定値更新手段と、
を備えることを特徴とするスペクトル歪みパラメータ推定値補正装置。 - 劣化対数スペクトルの時系列と加法性歪み対数スペクトルの一次的な推定値である参照対数スペクトルの時系列とを入力とし、前記加法性歪み対数スペクトルの補正された推定値の時系列と加法性歪み対数スペクトル分散の推定値と乗法性歪み対数スペクトルの推定値とを出力するスペクトル歪みパラメータ推定値補正方法であって、
バイアススペクトルの推定値と前記加法性歪み対数スペクトル分散の推定値と前記乗法性歪み対数スペクトルの推定値を、尤度関数が最大化ないし増大されるように計算するパラメータ推定過程と、
前記加法性歪み対数スペクトルの前記補正された推定値を前記参照対数スペクトルと前記バイアススペクトルの前記推定値の和として計算するパラメータ推定値出力過程と、
を備えることを特徴とするスペクトル歪みパラメータ推定値補正方法。 - 請求項4に記載したスペクトル歪みパラメータ推定値補正方法において、前記パラメータ推定過程は、
前記バイアススペクトルの初期推定値と前記加法性歪み対数スペクトル分散の初期推定値と前記乗法性歪み対数スペクトルの初期推定値を計算するパラメータ推定値初期化ステップと、
前記バイアススペクトルの前記初期推定値と前記バイアススペクトルの更新推定値の一方を前記バイアススペクトルの暫定推定値とし、前記加法性歪み対数スペクトル分散の前記初期推定値と前記加法性歪み対数スペクトル分散の更新推定値の一方を前記加法性歪み対数スペクトル分散の暫定推定値とし、前記乗法性歪み対数スペクトルの前記初期推定値と前記乗法性歪み対数スペクトルの更新推定値の一方を前記乗法性歪み対数スペクトルの暫定推定値とするパラメータ推定値選択ステップと、
前記参照対数スペクトルの時系列と前記バイアススペクトルの前記暫定推定値と前記加法性歪み対数スペクトル分散の前記暫定推定値と前記乗法性歪み対数スペクトルの前記暫定推定値とクリーン対数スペクトルモデルパラメータとを用いて、劣化対数スペクトル系列モデルパラメータを計算する劣化対数スペクトルモデル合成ステップと、
前記劣化対数スペクトルの時系列と前記参照対数スペクトルの時系列と前記バイアススペクトルの前記暫定推定値と前記加法性歪み対数スペクトル分散の前記暫定推定値と前記乗法性歪み対数スペクトルの前記暫定推定値と前記劣化対数スペクトル系列モデルパラメータと前記クリーン対数スペクトルモデルパラメータとを用いて、EMアルゴリズムのEステップとMステップを実行することによって尤度関数が増大されるように前記バイアススペクトルの前記更新推定値と前記加法性歪み対数スペクトル分散の前記更新推定値と前記乗法性歪み対数スペクトルの前記更新推定値を計算するパラメータ推定値更新ステップと、
収束条件を満たしていれば前記バイアススペクトルの前記更新推定値を前記バイアススペクトルの前記推定値とし、前記加法性歪み対数スペクトル分散の前記更新推定値を前記加法性歪み対数スペクトル分散の前記推定値とし、前記乗法性歪み対数スペクトルの前記更新推定値を前記乗法性歪み対数スペクトルの前記推定値として出力する収束判定ステップと、
を含むことを特徴とするスペクトル歪みパラメータ推定値補正方法。 - 請求項5に記載したスペクトル歪みパラメータ推定値補正方法において、前記パラメータ推定値更新ステップは、
第二パラメータ推定値更新ステップの処理を選択するのに用いられる分岐信号を計算する分岐ステップと、
前記劣化対数スペクトル系列モデルパラメータと前記バイアススペクトルの前記暫定推定値と前記加法性歪み対数スペクトル分散の前記暫定推定値と前記乗法性歪み対数スペクトルの前記暫定推定値と前記劣化対数スペクトルの時系列と前記参照対数スペクトルの時系列とを用いて、EMアルゴリズムのEステップにしたがって状態事後確率と前記加法性歪み対数スペクトルの事後確率分布のパラメータを計算する事後確率計算ステップと、
前記参照対数スペクトルの時系列と前記状態事後確率と前記加法性歪み対数スペクトルの前記事後確率分布のパラメータと前記分岐信号を用いて、EMアルゴリズムのMステップにしたがって前記バイアススペクトルの前記更新推定値と前記加法性歪み対数スペクトル分散の前記更新推定値と前記乗法性歪み対数スペクトルの前記更新推定値を計算する前記第二パラメータ推定値更新ステップと、
を含むことを特徴とするスペクトル歪みパラメータ推定値補正方法。 - 請求項1乃至3の何れかに記載したスペクトル歪みパラメータ推定値補正装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011269727A JP5683446B2 (ja) | 2011-12-09 | 2011-12-09 | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011269727A JP5683446B2 (ja) | 2011-12-09 | 2011-12-09 | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013120379A true JP2013120379A (ja) | 2013-06-17 |
JP5683446B2 JP5683446B2 (ja) | 2015-03-11 |
Family
ID=48773024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011269727A Active JP5683446B2 (ja) | 2011-12-09 | 2011-12-09 | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5683446B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10026A (en) * | 1853-09-20 | Improvement in turbines | ||
JPH09258768A (ja) * | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | 騒音下音声認識装置及び騒音下音声認識方法 |
JP2002091485A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2002091478A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2003271190A (ja) * | 2002-03-15 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 |
JP2006243290A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
-
2011
- 2011-12-09 JP JP2011269727A patent/JP5683446B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10026A (en) * | 1853-09-20 | Improvement in turbines | ||
JPH09258768A (ja) * | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | 騒音下音声認識装置及び騒音下音声認識方法 |
JP2002091485A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2002091478A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
JP2003271190A (ja) * | 2002-03-15 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 |
JP2006243290A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
Non-Patent Citations (3)
Title |
---|
CSNG200501401001; 藤本雅清他: '"GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧"' 電子情報通信学会論文誌 Vol.J88-D-II,No.7, 200507, pp.1093-1102 * |
JPN6014045687; 藤本雅清他: '"GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧"' 電子情報通信学会論文誌 Vol.J88-D-II,No.7, 200507, pp.1093-1102 * |
JPN6014045689; Pedro J. MORENO, et al.: '"A VECTOR TAYLOR SERIES APPROACH FOR ENVIRONMENT-INDIPENDENT SPEECH RECOGNITION"' Proceedings of the 1996 IEEE International Conference on Acoustics, Speech and Signal Processing (IC Vol.2, 199605, pp.733-736 * |
Also Published As
Publication number | Publication date |
---|---|
JP5683446B2 (ja) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9824683B2 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
CN101385386B (zh) | 混响除去装置和混响除去方法 | |
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
JP4875656B2 (ja) | 信号区間推定装置とその方法と、プログラムとその記録媒体 | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
JP2007279444A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
JP2007065204A (ja) | 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5351856B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
Doulaty et al. | Automatic optimization of data perturbation distributions for multi-style training in speech recognition | |
Nathwani et al. | DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR | |
JP2013114151A (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5191500B2 (ja) | 雑音抑圧フィルタ算出方法と、その装置と、プログラム | |
JP5438704B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム | |
JP4630203B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体 | |
JP5683446B2 (ja) | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム | |
EP3557576A1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP5172536B2 (ja) | 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体 | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
JP6000094B2 (ja) | 話者適応化装置、話者適応化方法、プログラム | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141028 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5683446 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |