JP2013120358A - 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム - Google Patents
雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム Download PDFInfo
- Publication number
- JP2013120358A JP2013120358A JP2011269350A JP2011269350A JP2013120358A JP 2013120358 A JP2013120358 A JP 2013120358A JP 2011269350 A JP2011269350 A JP 2011269350A JP 2011269350 A JP2011269350 A JP 2011269350A JP 2013120358 A JP2013120358 A JP 2013120358A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- frequency domain
- sound source
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
【課題】雑音混入音声から雑音を推定して雑音抑圧音声を得る方法および装置において、雑音抑圧音声の品質を高める。
【解決手段】付加雑音推定部が、周波数領域の音声データに基づき付加雑音を推定する。駆動音源推定部が、周波数領域の音声データと、付加雑音推定部によって推定された付加雑音とに基づき駆動音源の周波数領域における統計情報を推定する。そして、フィルター処理部は、周波数領域の音声データと、付加雑音推定部によって推定された付加雑音と、駆動音源推定部によって推定された駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出する。
【選択図】図1
【解決手段】付加雑音推定部が、周波数領域の音声データに基づき付加雑音を推定する。駆動音源推定部が、周波数領域の音声データと、付加雑音推定部によって推定された付加雑音とに基づき駆動音源の周波数領域における統計情報を推定する。そして、フィルター処理部は、周波数領域の音声データと、付加雑音推定部によって推定された付加雑音と、駆動音源推定部によって推定された駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出する。
【選択図】図1
Description
本発明は、音声に付加された雑音成分を抑圧する雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラムに関する。
テレビやラジオなど放送用の音声の収録は、必ずしも音声素材の収録に適した環境で行われるとは限らない。生中継の場合を含み、特に緊急報道の現場等からの中継では、自家発電機を用いて中継用機器類に供給する電力を用意しなければならない場合もあり、音声の収録時に、さまざまな雑音の混入が避けられない。そのような中でも放送に耐えうる明瞭な音声を得るには、混入した雑音を高品質に抑圧する技術が必要である。
例えば、非特許文献1には、時間領域でカルマンフィルターを用いて雑音を抑圧する技術が記載されている。
また、特許文献1には、AR係数の推定を必要とせずに雑音を抑圧する技術が記載されている。
また、非特許文献2には、周波数領域でカルマンフィルターを用いて雑音を抑圧する技術が記載されている。
K. K. Paliwal,A. Basu,"A speech enhancement method based on Kalman filtering", Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) ,Vol.12,pp.177−180, 1987年
S. So,K. K. Paliwal, ,"Modulation-domain Kalman filtering for single-channel speech enhancement" ,Speech Communication,Vol.53,Issue 6 ,pp.818−829,2011年7月
しかしながら、上記の背景技術には、それぞれ次のような問題がある。
非特許文献1および非特許文献2に記載された技術では、AR過程のモデルを仮定しているため、雑音混入音声からAR係数および駆動雑音を求める必要があるため、雑音抑圧音声の品質はそれらの推定精度に依存する。つまり、雑音混入音声からAR係数および駆動雑音を正確に算出できなければ、雑音抑圧音声の品質が劣化する。また更に、AR係数および駆動雑音の算出に計算コストがかかるという問題もある。
また、非特許文献1および特許文献1のように時間領域でカルマンフィルターを用いる雑音抑圧技術では、雑音混入音声に音声が含まれている場合には音声の状態ベクトルの推定値に雑音混入音声の観測値が含まれるため、原理的に雑音抑圧効果に限界がある。
以上のように、従来技術によるいずれの方法でも、高品質に雑音抑圧音声を得ることができず、この問題を解決する方法はなかった。
非特許文献1および非特許文献2に記載された技術では、AR過程のモデルを仮定しているため、雑音混入音声からAR係数および駆動雑音を求める必要があるため、雑音抑圧音声の品質はそれらの推定精度に依存する。つまり、雑音混入音声からAR係数および駆動雑音を正確に算出できなければ、雑音抑圧音声の品質が劣化する。また更に、AR係数および駆動雑音の算出に計算コストがかかるという問題もある。
また、非特許文献1および特許文献1のように時間領域でカルマンフィルターを用いる雑音抑圧技術では、雑音混入音声に音声が含まれている場合には音声の状態ベクトルの推定値に雑音混入音声の観測値が含まれるため、原理的に雑音抑圧効果に限界がある。
以上のように、従来技術によるいずれの方法でも、高品質に雑音抑圧音声を得ることができず、この問題を解決する方法はなかった。
本発明は、このような事情を考慮してなされたものであり、高品質に雑音抑圧音声を得ることのできる、雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様による雑音抑圧装置は、時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換部と、前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定部と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定部と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された付加雑音と、前記駆動音源推定部によって推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理部と、前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換部とを具備する。
ここで、付加雑音推定部が周波数領域の音声データに基づき付加雑音を推定する処理の一例は、周波数領域の音声データ(振幅スペクトル)における周波数ごとに、時間方向の平均を取ることにより付加雑音を推定する処理である。
また、駆動音源推定部が推定する統計情報の一例は、駆動音源の周波数領域での分散値である。そして、駆動音源推定部が周波数領域の音声データと推定された前記付加雑音とに基づいて有色性駆動音源の周波数領域における統計情報を推定する処理の一例は、周波数ごとに、周波数領域の音声データ(振幅スペクトル)の分散値から、推定された付加雑音の分散値を減じることによって、駆動音源の周波数領域における分散値を推定する処理である。
また、フィルター処理部が周波数領域の音声データと、付加雑音推定部によって推定された付加雑音と、駆動音源推定部によって推定された有色性駆動音源の周波数領域における統計情報とに基づいて周波数領域の雑音抑圧音声データを算出する処理の一例は次の通りである。即ち、フィルター処理部は、時系列による雑音混入音声の振幅スペクトルのデータを読み出し、周波数ごとの有色性駆動音源の分散値と周波数ごとの付加雑音の分散値をも用いて、音声の振幅スペクトルの状態ベクトルの推定誤差およびカルマンゲインを含む状態空間モデルによるフィルター処理で、音声の振幅スペクトルの状態ベクトルの推定値を求める。そして、フィルター処理部は、音声の振幅スペクトルの状態ベクトルの推定値から、雑音抑圧音声の振幅スペクトルの推定値を求める。
また、駆動音源推定部が推定する統計情報の一例は、駆動音源の周波数領域での分散値である。そして、駆動音源推定部が周波数領域の音声データと推定された前記付加雑音とに基づいて有色性駆動音源の周波数領域における統計情報を推定する処理の一例は、周波数ごとに、周波数領域の音声データ(振幅スペクトル)の分散値から、推定された付加雑音の分散値を減じることによって、駆動音源の周波数領域における分散値を推定する処理である。
また、フィルター処理部が周波数領域の音声データと、付加雑音推定部によって推定された付加雑音と、駆動音源推定部によって推定された有色性駆動音源の周波数領域における統計情報とに基づいて周波数領域の雑音抑圧音声データを算出する処理の一例は次の通りである。即ち、フィルター処理部は、時系列による雑音混入音声の振幅スペクトルのデータを読み出し、周波数ごとの有色性駆動音源の分散値と周波数ごとの付加雑音の分散値をも用いて、音声の振幅スペクトルの状態ベクトルの推定誤差およびカルマンゲインを含む状態空間モデルによるフィルター処理で、音声の振幅スペクトルの状態ベクトルの推定値を求める。そして、フィルター処理部は、音声の振幅スペクトルの状態ベクトルの推定値から、雑音抑圧音声の振幅スペクトルの推定値を求める。
[2]また、本発明の一態様は、上記の雑音抑圧装置において、前記フィルター処理部は、カルマンフィルターにより前記フィルター処理を行い、前記カルマンフィルターは状態空間モデルの状態方程式において自己回帰モデルの係数を使用しないように構成される。
[3]また、本発明の一態様は、上記の雑音抑圧装置において、前記付加雑音推定部が推定した前記付加雑音の情報を更新する更新部、をさらに具備し、前記駆動音源推定部は、前記更新部によって更新された前記付加雑音の情報に基づき前記有色性駆動音源の周波数領域における統計情報を推定し、前記フィルター処理部は、前記更新部によって更新された前記付加雑音の情報に基づき前記周波数領域の雑音抑圧音声データを算出する。
[4]また、本発明の一態様は、時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換過程と、前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定過程と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定過程と、前記周波数領域の音声データと、前記付加雑音推定過程において推定された付加雑音と、前記駆動音源推定過程において推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理過程と、前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換過程とを含む雑音抑圧方法である。
[5]また、本発明の一態様は、時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換部と、前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定部と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定部と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された付加雑音と、前記駆動音源推定部によって推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理部と、前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換部とを具備する雑音抑圧装置としてコンピューターを機能させるためのプログラムである。
[5]また、本発明の一態様は、時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換部と、前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定部と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定部と、前記周波数領域の音声データと、前記付加雑音推定部によって推定された付加雑音と、前記駆動音源推定部によって推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理部と、前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換部とを具備する雑音抑圧装置としてコンピューターを機能させるためのプログラムである。
本発明によれば、周波数領域でカルマンフィルターを用いる雑音抑圧法を用いる。また、この雑音抑圧法において、AR係数を用いない状態空間モデルと、有色性駆動音源とを導入する。つまり、白色性を前提としたカルマンフィルターを用いるわけではない。
周波数領域でカルマンフィルターを用いることより、時間領域での雑音抑圧よりも良好な結果が得られる。また、AR係数を用いない状態空間モデルと、有色性駆動音源とを導入していることにより、雑音混入音声からAR係数や白色性の駆動雑音を求めることがない。このため、雑音抑圧音声の音質がAR係数の推定精度に影響されることがない。また、AR係数および白色性の駆動雑音を求める計算コストがかからない。
周波数領域でカルマンフィルターを用いることより、時間領域での雑音抑圧よりも良好な結果が得られる。また、AR係数を用いない状態空間モデルと、有色性駆動音源とを導入していることにより、雑音混入音声からAR係数や白色性の駆動雑音を求めることがない。このため、雑音抑圧音声の音質がAR係数の推定精度に影響されることがない。また、AR係数および白色性の駆動雑音を求める計算コストがかからない。
次に、図面を参照しながら本発明の一実施形態について説明する。なお、以下において数式に言及するとき、文字の後にハット「^」を付した表現は、上に「^」が付された文字であることを表わす(例:「V^」、「X^」等)。また、「(ボールド)」という括弧書きは、文字がボールド体であることを表わす。
[第1の実施形態]
図1は、同実施形態による雑音抑圧装置の機能構成を示すブロック図である。図示するように、雑音抑圧装置1は、音声波形切出し部10と、フーリエ変換部20と、位相スペクトル記憶部30と、振幅スペクトル記憶部40と、非音声区間検出部50と、付加雑音推定部60と、分散算出部70と、駆動音源分散推定部(駆動音源推定部)80と、カルマンフィルター部(フィルター処理部)90と、雑音抑圧振幅スペクトル記憶部100と、逆フーリエ変換部110と、音声波形重ね合わせ部120とを含んで構成される。
図1は、同実施形態による雑音抑圧装置の機能構成を示すブロック図である。図示するように、雑音抑圧装置1は、音声波形切出し部10と、フーリエ変換部20と、位相スペクトル記憶部30と、振幅スペクトル記憶部40と、非音声区間検出部50と、付加雑音推定部60と、分散算出部70と、駆動音源分散推定部(駆動音源推定部)80と、カルマンフィルター部(フィルター処理部)90と、雑音抑圧振幅スペクトル記憶部100と、逆フーリエ変換部110と、音声波形重ね合わせ部120とを含んで構成される。
雑音抑圧装置1は、雑音が混入された雑音混入音声y(n)を入力し、このy(n)を元に雑音を推定し、雑音を抑圧する処理を行い、雑音抑圧音声x^(n)を出力する。
音声波形切出し部10は、入力される雑音混入音声y(n)を取得し、音声波形をフレームごとに切り出す。ここで、nは時系列のサンプル番号である。また、雑音混入音声y(n)は、サンプリングされ、AD変換(アナログ−デジタル変換)された音声データである。一例としては、サンプリング周波数が16kHz(キロヘルツ)で、量子化ビット数は16ビットである。また、切り出される分析フレームの長さNはサンプル数であり、例えば、256サンプルとする。このフレーム長Nは、1/64秒(約16ミリ秒)に相当する。また、分析窓のシフト幅を、例えば、N/2に相当する128サンプルとする。このシフト幅N/2は、1/128秒(約8ミリ秒)に相当する。音声波形切出し部10は、音声波形を切り出す際に、音声データに適切な窓関数を乗じる。窓関数の例は、下の式(1)で表される窓関数である。
なお、式(1)において、1≦n≦256(=N)である。そして、切り出されたm番目のフレームの、n番目のサンプルのデータをy(m,n)で表わす。
フーリエ変換部20は、時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換する。つまり、フーリエ変換部20は、窓関数を乗じた上記のデータy(m,n)に高速離散フーリエ変換(FFT,Fast Fourier Transform)を施し周波数特性Y(m,k)を算出する。ここで、kは離散周波数である。また、FFTのポイント数Kを512とする。この周波数特性Y(m,k)は、下の式(2)で表わされる。
式(2)において、YR(m,k)はY(m,k)の実部であり、YI(m,k)はY(m,k)の虚部である。また、∠Y(m,k)は、Y(m,k)の偏角である。
なお、Y(m,k)の絶対値(振幅スペクトル)は、下の式(3)で表わされ、Y(m,k)の偏角(振幅スペクトル)は下の式(4)で表わされる。
なお、Y(m,k)の絶対値(振幅スペクトル)は、下の式(3)で表わされ、Y(m,k)の偏角(振幅スペクトル)は下の式(4)で表わされる。
フーリエ変換部20は、上記の振幅スペクトルを振幅スペクトル記憶部40に一時的に書き込み、上記の位相スペクトルを位相スペクトル記憶部30に一時的に書き込む。
位相スペクトル記憶部30は、周波数特性の位相スペクトルのデータを記憶する。
振幅スペクトル記憶部40は、周波数特性の振幅スペクトルのデータを記憶する。
振幅スペクトル記憶部40は、周波数特性の振幅スペクトルのデータを記憶する。
非音声区間検出部50は、一般的な音声区間検出手法を利用して、入力された雑音混入音声y(n)の非音声区間を検出する。音声区間検出手法自体としては、様々な既存技術を利用することができる。例えば、一つの方法としては、特定の周波数領域のパワーが所定の閾値を超えたか否かに応じて音声区間を検出する。この場合、超えた場合には音声区間であり、超えない場合には非音声区間であると判断する。また、他の方法としては、時間領域の音声信号の振幅と零交差数を用いて音声区間を検出する。この場合、ある閾値レベルを超える振幅について零交差数が所定数を超えたときに音声区間の開始であると判断し、その所定数以下になったときに非音声区間の開始であると判断する。更に他の方法としては、音声認識を利用する。この場合、所定の閾値を超える尤度の認識結果候補が得られるときに音声区間であると判断し、その他のときに非音声区間であると判断する。いずれも音声波形を切り出したフレーム単位で音声区間であるか非音声区間であるかを判定する。
付加雑音推定部60は、周波数領域の音声データに基づき付加雑音を推定する。具体的には、付加雑音推定部60は、周波数領域の音声データ(振幅スペクトル)における周波数ごとに、時間方向の平均を取ることにより付加雑音を推定する。具体的には、付加雑音推定部60は、非音声区間検出部50によって検出された非音声区間について、雑音混入音声の振幅スペクトル|Y(l,k)|のデータを読み出す。そして、付加雑音推定部60は、離散周波数kごとに、下の式(5)のように振幅スペクトル|Y(l,k)|の平均を取ることにより、付加雑音の振幅スペクトルの推定値|V^(m,k)|を求める。
式(5)において、M(ボールド)m,kは、離散周波数kにおける非音声区間に相当するフレーム番号の集合である。また、Mm,kは、離散周波数kにおける非音声区間に相当するフレーム数である。
本実施形態における雑音抑圧装置1は、ある時点において式(5)を用いて推定された雑音の振幅スペクトルの推定値を、記憶しておき、使い続ける。
本実施形態における雑音抑圧装置1は、ある時点において式(5)を用いて推定された雑音の振幅スペクトルの推定値を、記憶しておき、使い続ける。
分散算出部70は、付加雑音推定部60によって推定された付加雑音の振幅スペクトルの推定値|V^(m,k)|を元に、離散周波数kごとに、その分散値σV^(k) 2を算出する。この分散値の算出は、下の式(6)により行なわれる。
式(6)において、Lは、適宜定められる区間に相当するフレーム数である。なお、推定された付加雑音の振幅スペクトルの推定値|V^(m,k)|の離散周波数kごとの平均をゼロと仮定した。
駆動音源分散推定部80は、周波数領域の音声データと、付加雑音推定部60によって推定された付加雑音に基づき有色性駆動音源の周波数領域における分散値(統計情報)を推定する。具体的には、駆動音源分散推定部80は、周波数ごとに、周波数領域の音声データ(振幅スペクトル)の分散値から、分散算出部70によって推定された付加雑音の分散値を減じて、駆動音源の周波数領域における分散値を推定する。さらに具体的には、駆動音源分散推定部80は、振幅スペクトル記憶部40から取得される振幅スペクトルのデータと、分散算出部70によって算出された付加雑音の分散値とを元に、駆動音源の分散値σX^(k) 2を推定する。この駆動音源の分散値の算出は、下の式(7)により行なわれる。
式(7)におけるLは、式(6)におけるLと同様のフレーム数である。なお、雑音混入音声の振幅スペクトル|Y(l,k)|の離散周波数kごとの平均をゼロと仮定した。
カルマンフィルター部90は、周波数領域の音声データと、付加雑音推定部60によって推定された付加雑音と、駆動音源分散推定部80によって推定された駆動音源の分散値とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出する。具体的には、カルマンフィルター部90は、時系列による雑音混入音声の振幅スペクトルのデータを読み出し、周波数ごとの駆動音源の分散値と周波数ごとの付加雑音の分散値をも用いて、音声の振幅スペクトルの状態ベクトルの推定誤差およびカルマンゲインを含む状態空間モデルによるフィルター処理で、音声の振幅スペクトルの状態ベクトルの推定値を求める。そして、カルマンフィルター部90は、音声の振幅スペクトルの状態ベクトルの推定値から、雑音抑圧音声の振幅スペクトルの推定値を求める。
ここで特に、カルマンフィルター部90は、状態空間モデルの状態方程式において自己回帰モデルの係数を使用しないように構成される。このカルマンフィルターの状態空間モデルは、下の式(8)の通りである。
ここで特に、カルマンフィルター部90は、状態空間モデルの状態方程式において自己回帰モデルの係数を使用しないように構成される。このカルマンフィルターの状態空間モデルは、下の式(8)の通りである。
式(8)におけるX(ボールド)(m,k)は、p×1×K次のベクトルであり、音声の振幅スペクトルの状態ベクトルである。なお、Kは離散周波数(FFT)のポイント数である。このX(ボールド)(m,k)は、下の式(9)のように表わされる。
なお、式(9)における「T」は転置を表わし、以下においても同様である。
式(8)におけるg(ボールド)およびh(ボールド)は、p×1次の観測ベクトルであり、それぞれ式(10)および式(11)に表わすとおりである。
式(8)におけるg(ボールド)およびh(ボールド)は、p×1次の観測ベクトルであり、それぞれ式(10)および式(11)に表わすとおりである。
式(8)におけるF(ボールド)(k)は、p×p×K次の遷移行列であり、下の式(12)のように表わされる。当然ながら、この遷移行列のいずれの要素もAR係数(自己回帰モデルの係数)を含まない。
カルマンフィルター部90は、時刻1からmまでの時系列による雑音混入音声の振幅スペクトルのデータ|Y(1,k)|,|Y(2,k)|,・・・,|Y(m,k)|を振幅スペクトル記憶部40から読み出し、下の式(13)により、音声の振幅スペクトルの状態ベクトルの推定値X(ボールド)^(m|m,k)を算出する。
式(13)において、X(ボールド)^(m|m,k)は、p×1×K次のベクトルであり、雑音混入音声の振幅スペクトルのデータ|Y(1,k)|,|Y(2,k)|,・・・,|Y(m,k)|が与えられたときの、音声の振幅スペクトル|X(m,k)|の推定値である。
同様に、X(ボールド)^(m|m−1,k)は、p×1×K次のベクトルであり、雑音混入音声の振幅スペクトルのデータ|Y(1,k)|,|Y(2,k)|,・・・,|Y(m−1,k)|が与えられたときの、音声の振幅スペクトル|X(m,k)|の推定値である。
同様に、X(ボールド)^(m|m−1,k)は、p×1×K次のベクトルであり、雑音混入音声の振幅スペクトルのデータ|Y(1,k)|,|Y(2,k)|,・・・,|Y(m−1,k)|が与えられたときの、音声の振幅スペクトル|X(m,k)|の推定値である。
また、式(13)において、P(ボールド)(m|m,k)およびP(ボールド)(m|m−1,k)は、p×1×K次のベクトルであり、それぞれ、X(ボールド)^(m|m,k)およびX(ボールド)^(m|m−1,k)の推定誤差の共分散行列である。
また、K(ボールド)(m,k)は、p×1×K次のベクトルであり、カルマンゲインを表わす。
また、K(ボールド)(m,k)は、p×1×K次のベクトルであり、カルマンゲインを表わす。
上で算出されたX(ボールド)^(m|m,k)を用いて、カルマンフィルター部90は、下の式(14)により、雑音抑圧音声の振幅スペクトルの推定値|X^(m,k)|を算出する。
雑音抑圧振幅スペクトル記憶部100は、カルマンフィルター部90で算出された雑音抑圧音声の振幅スペクトルの推定値|X^(m|m,k)|を、一時的に記憶する。
逆フーリエ変換部110は、カルマンフィルター部90によって算出された周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する。具体的には、逆フーリエ変換部110は、雑音抑圧振幅スペクトル記憶部100から読み出した雑音抑圧音声の振幅スペクトル|X^(m|m,k)|と、位相スペクトル記憶部30から読み出した雑音混入音声の位相スペクトル∠Y(m,k)から、雑音抑圧音声の周波数特性を求める。雑音抑圧音声の周波数特性X^(m,k)は、下の式(15)で表わされる。
そして逆フーリエ変換部110は、この周波数特性X^(m,k)を元に逆フーリエ変換(IFFT,Inverse FFT)の処理を行うことにより、フレームごとの音声の時間波形x^(m,n)を得る。この時間波形x^(m,n)、雑音抑圧された音声の波形である。ここで、mはフレームのインデックスを表わし、nはフレーム内のサンプルのインデックスを表わす。
音声波形重ね合わせ部120は、逆フーリエ変換部110の処理によって得られた時間波形x^(m,n)を、式(1)で示したハミング窓whamm(n)で除して、適切な窓関数を(たとえばハニング窓(ハン窓))を乗じる。ハニング窓whann(n)は、下の式(16)の通りである。
そして音声波形重ね合わせ部120は、窓関数を乗じたデータをフレームごとにシフト幅分ずらして重ね合わせることにより、雑音抑圧音声x^(n)を求める。
[第2の実施形態]
次に、第2の実施形態について説明する。なおここでは、第1の実施形態と共通の事項についての説明を省略し、第2の実施形態に特有の事項のみを述べる。
次に、第2の実施形態について説明する。なおここでは、第1の実施形態と共通の事項についての説明を省略し、第2の実施形態に特有の事項のみを述べる。
図2は、第2の実施形態による雑音抑圧装置の機能構成を示すブロック図である。図示する通り、雑音抑圧装置2は、分散更新部200(更新部)を備える。雑音抑圧装置2において、分散算出部70は、所定の時間間隔でその時点での最新のデータに基づき付加雑音の分散値σV^(k) 2を算出する。そして、分散更新部200は、付加雑音推定部60が推定した付加雑音の情報を更新する。具体的には、分散更新部200は、所定の時間間隔で分散算出部70によって算出された最新の分散値σV^(k) 2を出力する。駆動音源分散推定部80は、分散更新部200から出力された上記分散値を用いて、駆動音源の分散を推定する。カルマンフィルター部90は、分散更新部200から出力された上記分散値を用いて、雑音抑圧音声の振幅スペクトルの推定値|X^(m,k)|を算出する。以上の点を除き、雑音抑圧装置2の構成は、第1の実施形態における雑音抑圧装置1と同様である。
上記のように、この雑音抑圧装置2は、所定の時間間隔で付加雑音を推定し、推定された最新の付加雑音のデータに基づいて雑音抑圧を行なう。従って、時間経過につれて雑音の振幅スペクトルが変化した場合にも、その変化を追従し、精度良く雑音抑圧を行なうことができる。
なお、上述したそれぞれの実施形態における雑音抑圧装置の機能をコンピューターで実現するようにしても良い。その場合、この雑音抑圧装置の機能をCPUに実行させる手順を表わしたプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
<変形例等について>
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
上記実施形態においては、非音声区間検出部50は、周波数に依らず、音声区間であるか非音声区間であるかを判定し、非音声区間を検出した。代わりに、非音声区間検出部50が、離散周波数kごとに音声区間であるか非音声区間であるかを判定し、非音声区間を検出するようにしても良い。この場合、付加雑音推定部60は、離散周波数kに応じて、非音声区間検出部50が検出した非音声区間の振幅スペクトル|Y(m,k)|を用いて、付加雑音の推定を行なう。
また、上記実施形態においては、過去のフレームにおけるスペクトルから得られた値のみを用いて音声の推定(雑音抑圧)を行なっている。しかし、カルマンフィルター部90が音声の推定を行なう際に、推定対象の時点よりも後のフレームの値を併用するようにしても良い。但しこの場合、推定精度の向上が期待される一方で、推定結果を得るためのリアルタイム性がやや損なわれる。
また、上記実施形態においては、付加雑音の分散値および駆動音源の分散値を用いて、雑音抑圧振幅スペクトルを算出した。分散値は、平均値からの乖離の2乗の平均として算出される値であるが、この分散値に限らず、付加雑音および駆動音源それぞれにおけるスペクトル値の分布状況を表わす統計情報に基づいて、雑音抑圧振幅スペクトルを算出するようにしても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
<シミュレーションによる参考例との比較・評価>
次に、本発明の効果を明確にするため、本発明の実施形態と参考実施例との間で、雑音抑圧のシミュレーション結果を比較する。
次に、本発明の効果を明確にするため、本発明の実施形態と参考実施例との間で、雑音抑圧のシミュレーション結果を比較する。
(参考例1)
参考例1は、先行技術文献の一つとしてあげた非特許文献1に記載された方法である。本例は、時間領域でカルマンフィルターを用いて雑音抑圧を図る。
参考例1は、先行技術文献の一つとしてあげた非特許文献1に記載された方法である。本例は、時間領域でカルマンフィルターを用いて雑音抑圧を図る。
本例では、雑音混入音声が、音声と加法性雑音により構成されるものとする。そして、音声にAR(自己回帰)過程のモデルを仮定する。また、加法性雑音は、平均が0で、所定の分散値を有するガウス性白色雑音である。この雑音を考慮した状態空間モデルに基づき、遷移行列を用いて、音声の状態ベクトルの遷移を表わすことができる。なお、遷移行列の要素の一部に、AR係数が含まれる。カルマンフィルターは、離散時刻の時系列による雑音混入音声の時間変化を用いて、音声の状態ベクトルの推定値を算出する。
本例による方法では、雑音混入音声からAR係数および駆動雑音を求める必要があるため、雑音抑圧音声の品質はそれらの推定精度に依存する。
本例による方法では、雑音混入音声からAR係数および駆動雑音を求める必要があるため、雑音抑圧音声の品質はそれらの推定精度に依存する。
図3は、参考例1の方法によって雑音抑圧した音声波形の例を示すグラフである。同図において、横軸は時刻(単位は秒)であり、縦軸は振幅である。同図(a)は、クリーンスピーチの音声波形を示す。同図(b)は、付加雑音の音声波形を示す。同図(c)は、雑音混入音声(SNR=0dB(デシベル))を示す。同図(d)は、(a)のクリーンスピーチを元にAR係数および駆動雑音の分散値を求めたときの、理想的な状況における雑音抑圧音声の音声波形を示す。同図(e)は、(c)の雑音混入音声を元にAR係数および駆動雑音の分散値を求めたときの、雑音抑圧音声の音声波形を示す。なお、ここでは、付加雑音の分散値を既知としている。
図4は、図3に対応し、参考例1の方法によって雑音抑圧した場合のスペクトルを示すグラフである。同図において、横軸は時刻であり、縦軸は周波数である。またこのグラフにおいて、グレースケールの濃さは該当する時刻における該当する周波数のパワーを表わす。なお、図4の(a)から(e)までは、それぞれ、図3の(a)から(e)までに対応する。
図3および図4からわかるように、参考例1における(e)の雑音抑圧音声では、音声が存在しない部分(非音声区間)を中心に、雑音混入音声から推定したAR係数による品質劣化が見られる。また、参考例1における(d)は原理的に性能の上限にあたる理想的な状況における雑音抑圧音声であるが、この(d)においてさえ音声が存在する部分(音声区間)の雑音を抑圧しきれていなことのがわかる。
(参考例2)
参考例2は、先行技術文献の一つとしてあげた特許文献1に記載された方法である。本例は、時間領域の信号に対して、AR係数の推定を必要とせずに雑音抑圧を行なう方法である。
参考例2は、先行技術文献の一つとしてあげた特許文献1に記載された方法である。本例は、時間領域の信号に対して、AR係数の推定を必要とせずに雑音抑圧を行なう方法である。
本例では、参考例1と同様に加法性雑音モデルを仮定し、状態空間モデルを構成する。但し本例では、加法性雑音は、白色性駆動雑音ではなく、有色性駆動音源である。本例の遷移行列は、要素としてAR係数を含まない。本例の遷移行列は、参考例1の遷移行列におけるAR係数の要素を0で置き換えたものである。すると、カルマンフィルターは参考例1と同様に、音声の状態ベクトルの推定値を算出し、そして音声の推定値が得られる。
図5は、参考例2の方法によって雑音抑圧した音声波形の例を示すグラフである。同図(a)はクリーンスピーチの音声波形を示す。同図(b)は付加雑音の波形を示す。同図(c)は雑音混入音声の波形を示す。同図(d)は、(a)のクリーンスピーチから駆動音源の分散値を求めるとともに、(b)から付加雑音の分散値を求めたときの、理想的な状況における雑音抑圧音声の波形を示す。同図(e)は、(c)の雑音混入音声から駆動雑音の分散値および付加雑音の分散値を求めたときの雑音抑圧音声の波形を示す。なお、ここでは付加雑音の分散値を既知としている。
図6は、図5に対応し、参考例2の方法によって雑音抑圧した場合のスペクトルを示すグラフである。なお、図6の(a)から(e)までは、それぞれ、図5の(a)から(e)までに対応する。
図5および図6からわかるように、参考例2における(e)の雑音抑圧音声では、参考例1の方法によるものと比べて、音声が存在しない部分(非音声区間)を中心に品質の改善が見られる。しかしながら、参考例2における(d)は原理的に性能の上限にあたる理想的な状況における雑音抑圧音声であるが、この(d)においてさえ、音声が存在する部分(音声区間)の雑音が抑圧しきれていないことがわかる。
本例では、雑音混入音声に音声が含まれていない雑音のみの場合は、音声の状態ベクトルの推定値に雑音混入音声の観測値は含まれない。一方、雑音混入音声に音声が含まれている場合は、音声の状態ベクトルの推定値に雑音混入音声の観測値が含まれる。よって、本例による雑音抑圧法では、原理的に雑音抑圧効果に限界がある。
(参考例3)
参考例3は、先行技術文献の一つとしてあげた非特許文献2に記載された方法である。本例は、周波数領域でカルマンフィルターを用いる雑音抑圧法である。
参考例3は、先行技術文献の一つとしてあげた非特許文献2に記載された方法である。本例は、周波数領域でカルマンフィルターを用いる雑音抑圧法である。
参考例1と同様に加法性雑音モデルを仮定したとき、その離散フーリエ変換による周波数表現により、雑音混入音声のスペクトルは、音声のスペクトルと雑音のスペクトルの和で表わされる。また、雑音混入音声のスペクトルは、振幅スペクトルと位相スペクトルに分離できる。そして、雑音混入音声の振幅スペクトルは、音声の振幅スペクトルと雑音の振幅スペクトルの和であると仮定する。なお、雑音の振幅スペクトルは、所定の分散によるガウス性白色雑音である。さらに、音声の振幅スペクトルの時間変化にAR過程のモデルを仮定する。離散周波数ごとの音声の振幅スペクトルの時間変化は、AR係数を伴う自己回帰で表わされ、ガウス性白色雑音が付加される。すると状態空間モデルとして、遷移行列を用いて、音声の状態ベクトルの遷移を表わすことができる。遷移行列の要素の一部には、AR係数が含まれる。カルマンフィルターは、離散時刻の時系列による雑音混入音声の振幅スペクトルの時間変化を用いて、音声の振幅スペクトルの状態ベクトルの推定値を算出する。
図7は、参考例3の方法によって雑音抑圧した音声波形の例を示すグラフである。同図(a)はクリーンスピーチの音声波形を示す。同図(b)は付加雑音の波形を示す。同図(c)は雑音混入音声の波形を示す。同図(d)は、(a)のクリーンスピーチから駆動音源の分散値を求めるとともに、(b)から付加雑音の分散値を求めたときの、理想的な状況における雑音抑圧音声の波形を示す。同図(e)は、(c)の雑音混入音声から駆動雑音の分散値および付加雑音の分散値を求めたときの雑音抑圧音声の波形を示す。なお、ここでは付加雑音の分散値を既知としている。
図8は、図7に対応し、参考例2の方法によって雑音抑圧した場合のスペクトルを示すグラフである。なお、図8の(a)から(e)までは、それぞれ、図7の(a)から(e)までに対応する。
図7および図8からわかるように、参考例3における(e)の雑音抑圧音声では、全体的に品質の劣化が見られる。しかしながら、参考例3における(d)は、原理的に性能の上限にあたる理想的な状況での雑音抑圧音声であり、音声が存在する部分(音声区間)の雑音が抑圧されているのがわかる。
雑音混入音声に音声が含まれている場合は、音声の振幅スペクトルの状態ベクトルの推定値に雑音混入音声の観測値が含まれる。従って、周波数領域でカルマンフィルターを用いた雑音抑圧法でも、原理的に雑音抑圧効果に限界がある。が、図8(d)の理想的な状況では図4(d)、図6(d)に比べて、音声が存在する部分で改善がみられる。これは、AR係数の推定精度が時間領域に比べて、周波数領域の方が高い効果を得られるためであると考えられる。
(第1および第2の実施形態)
次に、本発明の実施形態において説明した方法で雑音を抑圧した場合について、グラフを参照しながら説明する。
図9は、同実施形態によるの方法で雑音抑圧した音声波形の例を示すグラフである。同図(a)はクリーンスピーチの音声波形を示す。同図(b)は付加雑音の波形を示す。同図(c)は雑音混入音声の波形を示す。同図(d)は、(a)のクリーンスピーチから駆動音源の分散値を求めるとともに、(b)から付加雑音の分散値を求めたときの、理想的な状況における雑音抑圧音声の波形を示す。同図(e)は、(c)の雑音混入音声から駆動雑音の分散値および付加雑音の分散値を求めたときの雑音抑圧音声の波形を示す。なお、ここでは付加雑音の分散値を既知としている。
次に、本発明の実施形態において説明した方法で雑音を抑圧した場合について、グラフを参照しながら説明する。
図9は、同実施形態によるの方法で雑音抑圧した音声波形の例を示すグラフである。同図(a)はクリーンスピーチの音声波形を示す。同図(b)は付加雑音の波形を示す。同図(c)は雑音混入音声の波形を示す。同図(d)は、(a)のクリーンスピーチから駆動音源の分散値を求めるとともに、(b)から付加雑音の分散値を求めたときの、理想的な状況における雑音抑圧音声の波形を示す。同図(e)は、(c)の雑音混入音声から駆動雑音の分散値および付加雑音の分散値を求めたときの雑音抑圧音声の波形を示す。なお、ここでは付加雑音の分散値を既知としている。
図10は、図9に対応し、同実施形態の方法によって雑音抑圧した場合のスペクトルを示すグラフである。なお、図10の(a)から(e)までは、それぞれ、図9の(a)から(e)までに対応する。
図9および図10を見ればわかるように、参考例1〜3の方法に比べて、原理的に性能の上限にあたる理想的な状況である(d)において雑音が抑圧されていることがわかる。また、(e)においても音声が存在する部分(音声区間)の雑音がよく抑圧されていることがわかる。
さらに詳細に、図10(e)が示す雑音抑圧音声のスペクトルのグラフを検討する。
図10(e)のスペクトルは、図4(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、非音声区間(即ち、クリーンスピーチの音声波形の振幅がほぼゼロである区間)において、明らかに雑音付加前のスペクトルに近い。また、図10(e)のスペクトルは、図4(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、音声区間においても、雑音付加前のスペクトルにより近い。
また、図10(e)のスペクトルは、図6(e)が示す参考例2の雑音抑圧音声のスペクトルと比べて、非音声区間において、明らかに雑音付加前のスペクトルに近い。また、図10(e)のスペクトルは、図6(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、音声区間においても、雑音付加前のスペクトルにより近い。
また、図10(e)のスペクトルは、図8(e)が示す参考例3の雑音抑圧音声のスペクトルと比べて、非音声区間において、明らかに雑音付加前のスペクトルに近い。また、図10(e)のスペクトルは、図6(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、音声区間においても、雑音付加前のスペクトルにより近い。
図10(e)のスペクトルは、図4(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、非音声区間(即ち、クリーンスピーチの音声波形の振幅がほぼゼロである区間)において、明らかに雑音付加前のスペクトルに近い。また、図10(e)のスペクトルは、図4(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、音声区間においても、雑音付加前のスペクトルにより近い。
また、図10(e)のスペクトルは、図6(e)が示す参考例2の雑音抑圧音声のスペクトルと比べて、非音声区間において、明らかに雑音付加前のスペクトルに近い。また、図10(e)のスペクトルは、図6(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、音声区間においても、雑音付加前のスペクトルにより近い。
また、図10(e)のスペクトルは、図8(e)が示す参考例3の雑音抑圧音声のスペクトルと比べて、非音声区間において、明らかに雑音付加前のスペクトルに近い。また、図10(e)のスペクトルは、図6(e)が示す参考例1の雑音抑圧音声のスペクトルと比べて、音声区間においても、雑音付加前のスペクトルにより近い。
上記のうち、参考例2の方法による雑音抑圧音声のスペクトル(図6(e))は、参考例1および3の方法によるそれらと比べても、比較的良好な抑圧結果を示していると言える。しかしながら、そのような参考例2の方法と比べてもなお、図10(e)のスペクトルは、一層良好な雑音抑圧音声が得られていることを示している。つまり、前記の実施形態による雑音抑圧法は、参考例1〜3にはない、特有の効果を生じさせるものである。
つまり、この実施形態による雑音抑圧法は、周波数領域でカルマンフィルターを用いるとともに、AR係数を用いない状態空間モデルと、有色性駆動音源を導入している。これにより、雑音混入音声からAR係数および白色性の駆動雑音を求めることがないため、雑音抑圧音声の音質がAR係数の推定精度に影響されることなく、高品質に雑音抑圧音声を得ることができる。また、AR係数および白色性の駆動雑音を求める計算コストがかからないという利点も同時にある。
本発明は、音響装置において利用することができる。特に、雑音を有する環境で放送等に用いる音声を収録するための音響装置に利用することができる。
1,2 音声抑圧装置
10 音声波形切出し部
20 フーリエ変換部
30 位相スペクトル記憶部
40 振幅スペクトル記憶部
50 非音声区間検出部
60 付加雑音推定部
70 分散算出部
80 駆動音源分散推定部(駆動音源推定部)
90 カルマンフィルター部(フィルター処理部)
100 雑音抑圧振幅スペクトル記憶部
110 逆フーリエ変換部
120 音声波形重ね合わせ部
200 分散更新部(更新部)
10 音声波形切出し部
20 フーリエ変換部
30 位相スペクトル記憶部
40 振幅スペクトル記憶部
50 非音声区間検出部
60 付加雑音推定部
70 分散算出部
80 駆動音源分散推定部(駆動音源推定部)
90 カルマンフィルター部(フィルター処理部)
100 雑音抑圧振幅スペクトル記憶部
110 逆フーリエ変換部
120 音声波形重ね合わせ部
200 分散更新部(更新部)
Claims (5)
- 時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換部と、
前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定部と、
前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定部と、
前記周波数領域の音声データと、前記付加雑音推定部によって推定された付加雑音と、前記駆動音源推定部によって推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理部と、
前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換部と、
を具備することを特徴とする雑音抑圧装置。 - 前記フィルター処理部は、カルマンフィルターにより前記フィルター処理を行い、前記カルマンフィルターは状態空間モデルの状態方程式において自己回帰モデルの係数を使用しないように構成される、
ことを特徴とする請求項1に記載の雑音抑圧装置。 - 前記付加雑音推定部が推定した前記付加雑音の情報を更新する更新部、をさらに具備し、
前記駆動音源推定部は、前記更新部によって更新された前記付加雑音の情報に基づき前記有色性駆動音源の周波数領域における統計情報を推定し、
前記フィルター処理部は、前記更新部によって更新された前記付加雑音の情報に基づき前記周波数領域の雑音抑圧音声データを算出する、
ことを特徴とする請求項1または請求項2に記載の雑音抑圧装置。 - 時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換過程と、
前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定過程と、
前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定過程と、
前記周波数領域の音声データと、前記付加雑音推定過程において推定された付加雑音と、前記駆動音源推定過程において推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理過程と、
前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換過程と、
を含む雑音抑圧方法。 - 時間領域の入力音声波形データをフーリエ変換して周波数領域の音声データに変換するフーリエ変換部と、
前記周波数領域の音声データに基づき付加雑音を推定する付加雑音推定部と、
前記周波数領域の音声データと、前記付加雑音推定部によって推定された前記付加雑音とに基づき有色性駆動音源の周波数領域における統計情報を推定する駆動音源推定部と、
前記周波数領域の音声データと、前記付加雑音推定部によって推定された付加雑音と、前記駆動音源推定部によって推定された前記有色性駆動音源の周波数領域における統計情報とに基づき、フィルター処理によって周波数領域の雑音抑圧音声データを算出するフィルター処理部と、
前記フィルター処理部によって算出された前記周波数領域の雑音抑圧音声データを元に逆フーリエ変換処理を行うことにより、時間領域の雑音抑圧音声データを出力する逆フーリエ変換部と、
を具備する雑音抑圧装置としてコンピューターを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011269350A JP2013120358A (ja) | 2011-12-08 | 2011-12-08 | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011269350A JP2013120358A (ja) | 2011-12-08 | 2011-12-08 | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013120358A true JP2013120358A (ja) | 2013-06-17 |
Family
ID=48773005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011269350A Pending JP2013120358A (ja) | 2011-12-08 | 2011-12-08 | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013120358A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015215751A (ja) * | 2014-05-09 | 2015-12-03 | 国立大学法人 筑波大学 | 浴室監視システム |
US9697848B2 (en) | 2015-06-26 | 2017-07-04 | Fujitsu Limited | Noise suppression device and method of noise suppression |
CN108600894A (zh) * | 2018-07-11 | 2018-09-28 | 重庆传乐音响科技有限公司 | 一种耳机自适应有源噪声控制系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221092A (ja) * | 1995-02-17 | 1996-08-30 | Hitachi Ltd | スペクトルサブトラクションを用いた雑音除去システム |
JPH09311698A (ja) * | 1996-05-21 | 1997-12-02 | Oki Electric Ind Co Ltd | 背景雑音消去装置 |
JP2008236270A (ja) * | 2007-03-19 | 2008-10-02 | Tokyo Univ Of Science | 雑音抑圧装置および雑音抑圧方法 |
-
2011
- 2011-12-08 JP JP2011269350A patent/JP2013120358A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221092A (ja) * | 1995-02-17 | 1996-08-30 | Hitachi Ltd | スペクトルサブトラクションを用いた雑音除去システム |
JPH09311698A (ja) * | 1996-05-21 | 1997-12-02 | Oki Electric Ind Co Ltd | 背景雑音消去装置 |
JP2008236270A (ja) * | 2007-03-19 | 2008-10-02 | Tokyo Univ Of Science | 雑音抑圧装置および雑音抑圧方法 |
Non-Patent Citations (3)
Title |
---|
JPN6015016668; 寺島大雅,他3名: 'DSPを用いた雑音抑圧法のための有色性駆動源カルマンフィルタアルゴリズム' 情報科学技術フォーラム講演論文集 10(2), 20110907, pp.241-245, FIT(電子情報通信学会・情報処理学会)運営委員会 * |
JPN6015016671; 寺島大雅,他5人: '精密加工工場内における雑音分散値推定法を考慮した有色性駆動源カルマンフィルタアルゴリズムを用いた雑音' 情報科学技術フォーラム講演論文集 11(2), 20120904, p157-161, FIT(電子情報通信学会・情報処理学会)運営委員会 * |
JPN7015001110; Stephen So,Kuldip K. Paliwal: 'Modulation-domain Kalman filtering for single-channel speech enhancement' Speech Communication Volume 53, Issue 6, 201107, p818-829 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015215751A (ja) * | 2014-05-09 | 2015-12-03 | 国立大学法人 筑波大学 | 浴室監視システム |
US9697848B2 (en) | 2015-06-26 | 2017-07-04 | Fujitsu Limited | Noise suppression device and method of noise suppression |
CN108600894A (zh) * | 2018-07-11 | 2018-09-28 | 重庆传乐音响科技有限公司 | 一种耳机自适应有源噪声控制系统及方法 |
CN108600894B (zh) * | 2018-07-11 | 2023-07-04 | 甘肃米笛声学有限公司 | 一种耳机自适应有源噪声控制系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Plapous et al. | Improved signal-to-noise ratio estimation for speech enhancement | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
JP4958303B2 (ja) | 雑音抑圧方法およびその装置 | |
EP2362389B1 (en) | Noise suppressor | |
KR101737824B1 (ko) | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 | |
JP4568733B2 (ja) | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 | |
US10152986B2 (en) | Acoustic processing apparatus, acoustic processing method, and computer program product | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
JP2013120358A (ja) | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム | |
US10297272B2 (en) | Signal processor | |
EP3396670B1 (en) | Speech signal processing | |
Dionelis et al. | Speech enhancement using modulation-domain Kalman filtering with active speech level normalized log-spectrum global priors | |
JP3849679B2 (ja) | 雑音除去方法、雑音除去装置およびプログラム | |
KR100931487B1 (ko) | 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 | |
Patil et al. | Use of baseband phase structure to improve the performance of current speech enhancement algorithms | |
Prodeus et al. | Objective estimation of the quality of radical noise suppression algorithms | |
JP6027804B2 (ja) | 雑音抑圧装置およびそのプログラム | |
JP2019060976A (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
Hendriks et al. | Speech Enhancement Under a Combined Stochastic-Deterministic Model | |
Rao et al. | Two-stage data-driven single channel speech enhancement with cepstral analysis pre-processing | |
Pranami et al. | Enhancement of Degraded Speech Using Spectral Subtraction, Wiener Filter and Kalman Filter | |
JP5980149B2 (ja) | 音声分析装置とその方法とプログラム | |
Pranami et al. | Audio De-noising by Spectral Subtraction and Wiener Filter Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150424 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20151215 |