JP6361148B2 - 雑音推定装置、方法及びプログラム - Google Patents

雑音推定装置、方法及びプログラム Download PDF

Info

Publication number
JP6361148B2
JP6361148B2 JP2014014533A JP2014014533A JP6361148B2 JP 6361148 B2 JP6361148 B2 JP 6361148B2 JP 2014014533 A JP2014014533 A JP 2014014533A JP 2014014533 A JP2014014533 A JP 2014014533A JP 6361148 B2 JP6361148 B2 JP 6361148B2
Authority
JP
Japan
Prior art keywords
noise
band
power
estimation
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014014533A
Other languages
English (en)
Other versions
JP2015141335A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2014014533A priority Critical patent/JP6361148B2/ja
Publication of JP2015141335A publication Critical patent/JP2015141335A/ja
Application granted granted Critical
Publication of JP6361148B2 publication Critical patent/JP6361148B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、雑音推定装置、方法及びプログラムに関し、例えば、音声に重畳された雑音を周波数領域処理によって抑圧する雑音抑圧装置(音声強調装置ともいう)に適用し得るものである。
自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力音声から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定して、入力音声に含まれている雑音を抑圧する方法である。本発明は、雑音の推定に関するものであり、特に、周波数領域で雑音のパワーを推定しようとしたものである。
もっとも単純な従来の雑音推定方法は、音声が存在しない区間で入力スペクトルを平均する方法である。しかし、この方法は事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する「音声区間検出(Voice Activity Detection:VAD)」という技術も盛んに開発されているが、完全なVADは未だ達成されていない。音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、この方法は雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。
このような背景から、音声区間でも継続して雑音を推定する雑音推定方法が開発されている(非特許文献1、非特許文献2、特許文献1参照)。非特許文献1、非特許文献2及び特許文献1に記載の雑音抑圧方法を適用した雑音抑圧装置(以下、従来の雑音抑圧装置と呼ぶ)の機能的構成は、いずれも、図5に示す機能ブロック図で表すことができる。
従来の雑音抑圧装置100は、帯域分割手段101、K(Kは例えば256)個の帯域処理手段102〜102K−1及び信号復元手段105を有する。帯域処理手段102〜102K−1の添え字は帯域番号を表す。帯域分割手段101は、フィルタバンクに代表される任意の帯域分割手法又はフーリエ変換に代表される任意の周波数解析手法によって、入力音声(この明細書においては、適宜、各種信号や各種成分における「信号」や「成分」を省略して表現している)をK個の帯域に分割し、得られたK個の帯域入力音声は各帯域処理手段102〜102K−1にそれぞれ与えられる。なお、入力音声等のデジタル信号は、サンプル単位で処理される他、適宜、10ms等のフレーム単位でも処理される。
各帯域処理手段102〜102K−1はそれぞれ、担当する帯域が異なるが、同様な処理を行うものである。帯域処理手段102(102〜102K−1)は、帯域雑音推定手段103及び雑音抑圧手段104を有する。帯域雑音推定手段104は、帯域ごとに雑音のパワーを推定し、得られた帯域雑音パワーを雑音抑圧手段104に与える。雑音抑圧手段104は、帯域入力音声と帯域雑音パワーを用いて、帯域入力音声中の音声成分を強調し、得られた帯域強調音声を信号復元手段105に与える。信号復元手段105は、帯域分割手段101で用いた帯域分割手法又は周波数解析手法に対応する信号復元手法を用いて、帯域強調音声から時間波形を再構成し、得られた強調音声を出力する。
以下、帯域雑音推定手段103が実行する従来の雑音推定方法(非特許文献1、非特許文献2及び特許文献1に記載の雑音抑圧方法)を詳述する。以下では、簡単のために、帯域入力音声のパワーを入力パワーと呼び、帯域雑音パワーを雑音パワーと呼び、帯域番号を省略することとする。
非特許文献1に記載の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間(T秒)過去までの入力パワーの最小値を、第1の雑音パワー推定値とする。しかし、第1の雑音パワー推定値はバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第1の雑音パワー推定値の期待値から推定され、得られたバイアス推定値を用いて第1の雑音パワー推定値を補正して、第2の雑音パワー推定値(最終的な推定値)を得る。
非特許文献2に記載の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均0の複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を雑音パワー推定値とする。この仮説に基づくと、入力音声の複素スペクトルの分布は、音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均0の複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインEM(Expectation Maximization)アルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出することができる。
特許文献1に記載の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間(T秒)分だけ記憶しておき、記憶された加重入力パワーの平均値を雑音パワー推定値とする。適切な重み係数は、現在の入力パワーを直前の雑音パワー推定値で除した事後SNR(SNRはSignal−to−Noise Ratio)によって算出される。具体的には、事後SNRが所定の値G1以下では重み係数を1とし、事後SNRがG1以上では事後SNRに反比例するように重み係数を設定し、事後SNRが所定の値G2以上では重み係数を0とする。また、重み係数が0の場合には、加重入力パワーは記憶しない。
特開2002−204175
R.Martin、"Spectral Subtraction Based on Minimum Statistics"、in Proceedings of 7th European Signal Processing Conference、1994、pp.1182−1185 M.Souden、M.Delcroix、K.Kinsoshita、T.Yoshioka、and T.Nakatani、"Noise Power Spectral Density Tracking:A Maximum Likelihood Perspective"、IEEE Signal Processing Letters、Vol.19、No.8、2012、pp.495−498
しかし、従来の雑音推定方法は、以下に述べるような課題を有している。
非特許文献1に記載の雑音推定方法は、雑音が急に大きくなった場合に、後段の雑音抑圧方法によって不快に感じる雑音が残留するという課題を有している。具体的には、雑音が大きくなってから所定時間の間は、雑音パワー推定値は小さいままである。そして、雑音が大きくなってから所定時間後に、雑音パワー推定値は急激に増大する。そのような雑音パワー推定値を用いて雑音抑圧方法を動作させると、雑音が大きくなった瞬間に残留雑音も急に大きくなり、その所定時間後に残留雑音が急に小さくなる。残留雑音の急激な音量の変化は、聴取者に聴感上の不快感を与える。
非特許文献2に記載の雑音推定方法は、雑音レベルが変化すると雑音パワー推定値が過大になったり過小になったりするという課題を有している。この雑音推定方法で用いられているオンラインEMアルゴリズムは、次のような追従の速さと最尤推定の安定性とのトレードオフを有する。すなわち、忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がる。その結果、忘却係数を大きくしても小さくしても雑音パワー推定値は不正確となり、後段の雑音抑圧方法によって得られる強調音声の歪みを増大させたり残留雑音が大きくなったりする。
特許文献1に記載の雑音推定方法は、雑音パワー推定値が、誤って音声に追従してしまうことや非定常雑音に追従して不安定になることが比較的少なく、それでいて雑音が変化した場合にも比較的速やかに追従することができる。しかし、重み係数が0とならないような音声区間が続いた後の雑音区間では、雑音区間に切り替わった約T秒後に雑音パワー推定値が急激に小さくなる現象が生じる。そのような雑音パワー推定値を用いて後段の雑音抑圧方法を動作させると、当該雑音区間で残留雑音が急激に大きくなるため、聴感上不自然な強調音声になってしまう。
以上のように、従来の雑音推定方法はいずれも、雑音パワー推定値が不安定になる課題や、雑音パワー推定値が急激に変化する課題を有するものであった。
本発明は、これらの課題に鑑みてなされたものであり、雑音パワーを安定的に推定できる雑音推定装置、方法及びプログラムを提供することを目的とする。
第1の本発明は、入力音声に含まれる雑音を推定する雑音推定装置において、(1)入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段を備え、(2)上記各帯域雑音推定手段が、(2−1)帯域入力パワーを算出するパワー算出手段と、(2−2)雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、(2−3)保持されている確率モデル情報に基づいて、事後SNRの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備することを特徴とする。
ここで、上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することが好ましい。
第2の本発明は、入力音声に含まれる雑音を推定する雑音推定方法において、(1)入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定手段を備え、(2)上記各帯域雑音推定手段における上記パワー算出手段は、帯域入力パワーを算出し、(3)上記各帯域雑音推定手段における上記確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報を保持し、(4)上記各帯域雑音推定手段における上記事後確率最大化手段は、保持されている確率モデル情報に基づいて、事後SNRの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出することを特徴とする。
ここで、上記各帯域雑音推定手段にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することが好ましい。
第3の本発明の雑音推定プログラムは、コンピュータを、(1)入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段であって、(1−1)帯域入力パワーを算出するパワー算出手段と、(1−2)雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、(1−3)保持されている確率モデル情報に基づいて、事後SNRの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する帯域雑音推定手段として機能させることを特徴とする。
ここで、上記コンピュータが機能させられる上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することが好ましい。
本発明によれば、帯域雑音パワー推定値を安定的に推定できる雑音推定装置、方法及びプログラムを提供できる。
第1の実施形態の雑音推定装置の構成を示す機能ブロック図である。 真の事後SNRと予測事後SNRの比の分布と、その分布に対して平均0の正規分布をフィッティングさせた様子を描いた説明図である。 真の事後SNRの分布と、その分布に対して指数分布をフィッティングさせた様子を描いた説明図である。 特許文献1に記載の雑音推定方法と第1の実施形態の雑音推定方法の比較評価結果を示す説明図である。 従来の雑音抑圧装置の構成を示す機能ブロック図である。
(A)各実施形態により本発明の目的を達成できる理由
第1の実施形態及び変形実施形態の説明に先立ち、各実施形態に至った考え方や、各実施形態により本発明の目的である雑音パワーを安定的に推定できる理由を説明する。
雑音推定方法において最も注意しなければならない点は、雑音推定値が音声を含まないようにすることである。仮に、雑音推定値が音声を含むと、例えば、後段の雑音抑圧処理によって得られる強調音声が歪んだり小さくなったりしてしまい、強調音声の明瞭度や単語了解度を向上させるという雑音抑圧処理の目的を果たせない。
一方、雑音推定には、非定常な雑音も推定できる性能を求められることもある。しかし、非定常雑音と音声とを区別するのは難しいため、非定常雑音を推定する性能と雑音推定値が音声を含まない性能との間にはトレードオフの関係がある。それゆえ、今までは、安定性の高い雑音推定方法は定常雑音しか推定できず、非定常雑音を推定できる雑音推定方法は雑音推定値が音声を含んでしまって安定性が低くなる、という課題があった。
そこで、各実施形態では、推定対象を定常雑音に限定することによって、より高い安定性を有する雑音推定を実現する。このために、雑音の定常性をモデリングした確率モデルを導入する。ここで、雑音の定常性とは、雑音の確率分布(確率密度関数)が時間によって変化しないことを呼んでいる。
今、雑音に定常性を仮定すると、帯域雑音パワーN(例えば、フレーム毎に算出する)の対数を取った帯域雑音対数パワーLN(便宜上、LNの単位はデシベル(dB)とする)も定常であると考えられる。ここで、現在の帯域雑音対数パワーLNと、現在より任意の時間(例えば、数フレーム)だけ過去の帯域雑音対数パワーLN′との(1)式で表される差DLNを考えると、定常性の仮定より、現在の帯域雑音対数パワーLNと過去の帯域雑音対数パワーLN′の確率密度関数が同じであることから、パワー差DLNは期待値0で歪みのない分布(言い換えると、中央部に頂点を有する左右対称な分布)に従うと考えられる。例えば、正規分布は、このような分布の代表例である(但し、正規分布に限定されるものではない)。仮に、パワー差DLNが分散Vの正規分布に従うと仮定すると、パワー差DLNの確率密度関数p(DLN)は、(2)式で表される。(2)式において、Ndist(x;m,v)は、変数xに関する正規分布関数であって、平均がm、分散がvであることを表している。(2)式が雑音の定常性に関する確率モデルであると言える。
DLN=LN−LN′ …(1)
p(DLN)=Ndist(DLN;0,V) …(2)
次に、最大事後確率(Maximum A Posteriori:MAP)推定の枠組みを用いて、現在の帯域雑音対数パワーLNを推定することを考える。但し、現在の帯域雑音対数パワーLNは、収音環境やマイクロフォン感度によって値が増減するため、直接推定するのには適していない。そこで、過去の帯域雑音対数パワーLN′から現在の帯域雑音対数パワーLNを推定する問題を、(3)式で表される現在の事後SNRの予測値LG′から、(4)式で表される現在の事後SNRの真値LGを推定する問題へと置き換える。(3)式及び(4)式において、LXは現在の帯域入力対数パワーである。
LG′=LX−LN′ …(3)
LG=LX−LN …(4)
現在の事後SNRの予測値がLG′であるという条件下で現在の事後SNRの真値がLG(以下、変数と呼ぶことがある)となる事後確率p(LG|LG′)は、ベイズの定理より、(5)式のように展開できる。(5)式を、変数LGについて最大化するのがMAP推定であるが、分母の確率密度関数p(LG′)は、変数LGと無関係であるので、MAP推定は、(6)式で表される値Jmap(LG)を最大化することで達成される。
p(LG|LG′)=p(LG′|LG)*p(LG)/p(LG′) …(5)
Jmap(LG)=p(LG′|LG)*p(LG) …(6)
次に、(6)式を具体化する。変数LGの尤度関数p(LG′|LG)は、2つの値LG及びLG′の関係式とも捉えられる。2つの値LG及びLG′には、(3)式及び(4)式から(7)式に示すようにパワー差DLNで規定される関係があり、値LG′は、現在の事後SNRの予測値であって既に計算された値であるので定数と扱って良く、そのため、パワー差DLNに関する確率密度関数p(DLN)を表す(2)式から、変数LGの尤度関数p(LG′|LG)は(8)式で表すことができる。
LG′−LG=LN−LN′=DLN …(7)
p(LG′|LG)=Ndist(LG′;LG,V) …(8)
現在の事後SNRの真値LGの事前分布p(LG)は、事後SNRの真値LGの潜在的な出現確率を意味している。事後SNRの真値LGの出現確率について、3つの考察を行う。第1に、事後SNRの真値LGの取り得る値の範囲について考察する。入力音声は音声と雑音の両方を含んでいるので、帯域入力対数パワーLXは帯域雑音対数パワーLNより大きくなるべきであり、従って、事後SNRの真値LGは、(4)式より非負であるとする。第2に、音声のスパース性(出現がまばらである性質)について考察する。一般に、音声の時間周波数表現はスパースであると言われており、従って、出現確率が一番高いのは事後SNRの真値LGが0(dB)のときである。第3に、帯域入力対数パワーLXの大小について考察する。音声の大きさは有限であるから帯域入力対数パワーLXも有限であり、一方で雑音は音声に比してスパース性が弱いために小さな値を取り難くなるので、事後SNRの真値LGの事前分布p(LG)は変数LGを∞にしたときに0に収束する。以上の3つの考察より、事後SNRの真値LGの事前分布p(LG)の候補の一つとして、(9)式に示す指数分布を選ぶことは自然である(但し、後述するように指数分布に限定されない)。
p(LG)=λ*exp(−λ*LG) …(9)
(8)式及び(9)式を、上述した(6)式に適用することにより、(6)式の具体的な式が定まったので、(6)式を最大化する現在の事後SNRの真値LGを計算することとする。(6)式はこのままでは扱いにくいので対数をとった後、最大値を見付けるため、右辺の導関数が0となる真値LGを計算すると、(10)式が得られる。但し、上述した第2の考察のように、真値LGは非負でなければならず、従って、(11)式を適用して真値LGを非負値に制限する。(11)式において、max(a、b)はaとbの大きい方を選択する関数である。結局、帯域雑音対数パワーLNは、(11)式に(3)式及び(4)式を代入することにより、(12)式で表すことができる。(12)式において、min(a、b)はaとbの小さい方を選択する関数である。
LG=LG′−λ*V …(10)
LG=max{LG′−λ*V,0} …(11)
LN=min{LN′−λ*V,LX} …(12)
(12)式は、次のような意味を持っている。すなわち、現在のMAP推定による帯域雑音パワー推定値は、前回の帯域雑音パワー推定値を定数倍した値であるが((12)式は対数値に関する式になっているので加減は対数をとっていない値での乗算若しくは除算に対応する)、仮に、その定数倍された値が帯域入力パワーを上回るならば帯域入力パワーを帯域雑音パワー推定値とする、ということである。
(12)式によれば、上述のようにして求められた帯域雑音パワー推定値は、一定の割合でしか増大しないので、音声や非定常雑音に急速に追従して聴感上不自然になることがなく、常に更新されるので大きな環境の変化に一定時間内に緩やかに追従し、常に増大しつつも帯域入力パワーより大きくなることはないので過大又は過小な値になることがない。
しかし、(12)式は、僅か2点の瞬時値に基づいて帯域雑音パワー推定値を算出するため、小刻みな変動が生じて聴感上不自然になる恐れがある。
そのため、帯域雑音パワー推定値が本来の雑音が持つ定常性を満たすようにするために、帯域雑音パワー推定値を時間平滑化することが好ましい。すなわち、(12)式で算出された値を瞬時帯域雑音パワー推定値として、最新の瞬時帯域雑音パワー推定値と少なくとも1つ以上の過去の瞬時帯域雑音パワー推定値を使って瞬時帯域雑音パワー推定値を平滑化し、平滑化された値を帯域雑音パワー推定値とすることが好ましい。
時間平滑化によって、(12)式の結果をそのまま使うよりも安定で本来の定常性を満たす帯域雑音パワー推定値を得ることができる。但し、時間平滑化を実行せずに、(12)式の結果をそのまま使うようにしても良い。
(B)第1の実施形態
以下、本発明による雑音推定装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(B−1)第1の実施形態の構成
図1は、第1の実施形態の雑音推定装置の構成を示す機能ブロック図である。ここで、第1の実施形態の雑音推定装置は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(雑音推定プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
図1において、第1の実施形態の雑音推定装置200は、帯域分割手段201及びK個の帯域雑音推定手段202〜202K−1を有する。
帯域分割手段201は、従来の技術の項で説明した帯域分割手段101と同様なものであり、例えば、デジタル信号でなる入力音声をフレーム単位に帯域分割するものである。すなわち、帯域分割手段201は、フィルタバンクに代表される任意の帯域分割手法又はフーリエ変換に代表される任意の周波数解析手法によって、入力音声をK個の帯域に分割し、それぞれ対応する各帯域処理手段102〜102K−1に与えるものである。以下、帯域分割された入力音声を帯域入力音声と呼ぶ。帯域分割手段201は、入力音声の帯域を等分割するものであっても良く、入力音声の帯域を不等分分割するものであっても良い。不等分分割には、直交ミラーフィルタ(QMF)やウェーブレット変換等を適用することができる。
なお、第1の実施形態は、帯域分割が行われていない入力音声が雑音推定装置200に入力される場合であるが、前段の処理部から、帯域別の入力音声の組が与えられる場合であれば、帯域分割手段201を省略することができる。
各帯域雑音推定手段202(202〜202K−1)はそれぞれ、自己に割り当てられた帯域入力音声に対し、上述の考え方に従って、その帯域入力音声に含まれている雑音を推定するものである。
各帯域雑音推定手段202はそれぞれ、パワー算出手段203、確率モデル保持手段204、事後確率最大化手段205及び平滑化手段206を有する。
パワー算出手段203は、帯域入力音声のパワーを算出し、得られた帯域入力パワーを事後確率最大化手段205に与えるものである。パワーの算出方法は限定されるものではない。例えば、帯域入力音声の現在から所定時間過去までのサンプル値の2乗和を帯域入力パワーとする方法を適用することができる。
確率モデル保持手段204は、事前に設計された雑音の定常性に関する確率モデルの情報(以下、単に確率モデルと呼ぶ)を保持しておくものであり、保持している確率モデルを事後確率最大化手段205に与える。第1の実施形態における確率モデルは、MAP推定に基づいたモデルであり、上述した考え方に従ったモデルである。確率モデルの設計例については、動作の説明の項で明らかにする。
事後確率最大化手段205は、現在の帯域入力パワーと、平滑化手段206から出力された所定時間だけ過去(例えば、数フレーム前)の帯域雑音パワーの推定値、及び、確率モデル保持手段204に保持されている確率モデルに基づいて、帯域雑音パワーのMAP推定を行い、得られた瞬時帯域雑音パワー推定値を平滑化手段206に与えるものである。
平滑化手段206は、瞬時帯域雑音パワー推定値を時間平滑化し、得られた帯域雑音パワー推定値を、事後確率最大化手段205にフィードバックすると共に、当該帯域雑音推定手段202の出力として送出するものである。平滑化方法は、限定されるものではないが、例えば、直前所定期間の瞬時帯域雑音パワー推定値の平均値を求めるものであっても良く、また例えば、直前の平滑化された値と今回の瞬時帯域雑音パワー推定値との重み付け加算値を求めるものであっても良い。
なお、第1の実施形態は、帯域別の雑音パワー推定値の組を、後段の処理部が利用する場合(例えば、雑音抑圧)を想定しているが、帯域別の雑音パワー推定値を統合した後、時間領域の信号に変換して後段の処理部へ与えるようにしても良い。
(B−2)第1の実施形態の動作
次に、第1の実施形態の雑音推定装置200の動作(雑音推定方法)を説明する。
第1の実施形態の雑音推定装置200に入力された入力音声は、帯域分割手段201において帯域分割され、得られたK個の帯域入力音声はそれぞれ、対応する各帯域処理手段102〜102K−1に与えられる。
各帯域入力音声に含まれている雑音は、帯域入力音声に対応する帯域雑音推定手段202〜202K−1によって推定され、得られた帯域雑音パワー推定値がそれぞれ、帯域雑音推定手段202〜202K−1から出力される。
各帯域雑音推定手段202(202〜202K−1)内では、以下のような処理が実行される。
帯域入力音声はパワー算出手段203に与えられ、パワー算出手段203によって帯域入力音声のパワーが算出され、得られた帯域入力パワーが事後確率最大化手段205に与えられる。
事前に設計された雑音の定常性に関する確率モデルは、確率モデル保持手段204に保持されており、その確率モデルは事後確率最大化手段205に与えられる。
この第1の実施形態における確率モデルは、MAP推定に基づいたモデルである。当該確率モデルは、現在の帯域入力パワーを現在の帯域雑音パワーで除した真の事後SNRをパラメータとしたときの現在の帯域入力パワーを所定時間過去の帯域雑音パワー推定値で除した予測事後SNR(事後SNRの予測値)の条件付き確率(真の事後SNRに関する尤度関数)と、真の事後SNRの事前確率の確率密度関数と、パラメータとで規定されている。予測事後SNRの条件付き確率には、(8)式のように正規分布を適用することができ、より柔軟な一般化正規分布を適用するようにしても良い。なお、条件付き確率に適用される確率密度関数は、この2つに限定されることはなく、平均値を中心に対称な任意の確率密度関数を適用することができる。真の事後SNR(事後SNRの真値)の事前確率の確率密度関数には、(10)式のような指数分布を適用することができ、その他、ガンマ分布や片側正規分布や、より柔軟な片側一般化正規分布を適用するようにしても良い。なお、事前確率に適用される確率密度関数は、これらの4つに限定されることはなく、確率変数が正に限定される任意の確率密度関数を適用することができる。
ここでは、予測事後SNRの条件付き確率である尤度関数に正規分布を適用し、真の事後SNRの事前確率の確率密度関数に指数分布を適用した場合のパラメータを説明する。図2は、真の事後SNRと予測事後SNRの比の分布と、その分布に対して平均0の正規分布をフィッティングさせた様子を描いた説明図である。良いフィッティングが得られた分散はV=σ^2=41.9847であった(^2は2乗を表している)。図3は、真の事後SNRの分布と、その分布に対して指数分布をフィッティングさせた様子を描いた説明図である。良いフィッティングが得られたパラメータはλ=0.069652であった。これらの図2及び図3から、正規分布と指数分布によるモデリングが適切であることが分かる。
以上のような実データから得た分布に対する、適用することに決めた分布(正規分布、指数分布)のフィッティングによりパラメータの値を定めて、適用することに決めた分布の種類の情報と、パラメータ値とを、確率モデル保持手段204に確率モデルの情報として保持させる。
事後確率最大化手段205において、現在の帯域入力パワー、所定時間過去の帯域雑音パワー推定値、及び、確率モデル保持手段204からの確率モデルに基づいて、帯域雑音パワーのMAP推定が実行され、得られた瞬時帯域雑音パワー推定値が平滑化手段206に与えられる。
例えば、予測事後SNRの条件付き確率である尤度関数に平均0、分散Vの正規分布を適用し、真の事後SNRの事前確率の確率密度関数にパラメータλの指数分布を適用する場合には、(12)式に従って、瞬時帯域雑音パワー推定値が算出される。
このようにして得られた瞬時帯域雑音パワー推定値は、平滑化手段206において時間平滑化され、得られた帯域雑音パワー推定値が、事後確率最大化手段205に所定時間過去の帯域雑音パワー推定値として利用されるためにフィードバックされると共に、当該帯域雑音推定手段202の出力として送出される。
(B−3)第1の実施形態の効果
第1の実施形態によれば、定常な帯域雑音パワーを安定的に推定することができる。仮に、第1の実施形態の雑音推定装置を、雑音抑圧装置(図5参照)に組み込んだ場合には、強調音声の歪みを小さく抑えることができる。
以下、特許文献1に記載の雑音推定方法と第1の実施形態の雑音推定方法との効果の相違を、比較実験により説明する。
性能を定量的に比較するために、以下に述べる4つの評価指標を適用した。第1の評価指標は、真の雑音と推定雑音の誤差との比(Noise to Error of Estimation Noise Ratio:NER)である。NERは、真の雑音を基準とした雑音の推定精度に関する独自指標であり、NERが大きいほど雑音の推定精度が高いと言える。第2の評価指標は、真の音声・推定雑音間の差と真の音声との比(Difference between Speech and Estimation Noise to Speech Ratio:DSR)である。DSRは、真の音声を基準とした真の音声と推定雑音との間の差に関する独自指標であり、DSRが大きいほど音声を誤って雑音として推定してしまった量が少ないと言える。第3及び第4の評価指標はそれぞれ、2つの雑音推定方法によって得られた帯域雑音パワー推定値を適用した、雑音抑圧方法の一種であるスペクトルサブトラクション法によって得られた強調音声を評価する。第3の評価指標は、雑音低減割合(Noise Reduction Rate:NRR)と呼ばれる入力音声・真の音声間の差と強調音声・真の音声間の差との比である。NRRは、雑音をどの程度低減させたかを示す一般的な指標であり、NRRが大きいほど雑音の低減量が大きいと言える。第4の評価指標は、ケプストラム歪み(Cepstral Distortion:CD)である。CDは、信号がどの程度歪んだかを表す一般的な指標であり、CDが小さいほど歪みが小さいと言える。
図4は、上述した4つの評価指標に基づいた特許文献1に記載の雑音推定方法と第1の実施形態の雑音推定方法との評価結果を示す説明図である。評価指標の値が優れている方に網掛けした。道路雑音は、定常的に低周波雑音が観測されていて、近くを車が通過する場合も雑音の変化は緩やかなので、定常的な雑音と言える。このような定常な雑音の場合には、全評価指標において、第1の実施形態の雑音推定方法が特許文献1に記載の雑音推定方法より優れているという結果となった。一方、レストラン雑音は、多数の人間の声による定常的なガヤガヤという雑音の他に、レストランのBGMや食器同士がぶつかって生じる非定常な雑音が含まれている。このような非定常な雑音の場合には、雑音の推定精度やNRRにおいて特許文献1に記載の雑音推定方法の方が優れており、CDにおいて第1の実施形態の雑音推定方法の方が優れているという結果となった。
以上より、第1の実施形態の雑音推定方法は、定常な雑音だけを適切に推定しており、その結果、強調音声の歪みを小さく抑えられることが明らかになった。
(C)他の実施形態
以上でも、種々の変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
第1の実施形態においては、全ての帯域の確率モデル保持手段204〜204K−1が同じ確率モデルの情報を保持しているものを示したが、帯域によって、確率モデルの情報が異なっていても良い。例えば、予測事後SNRの条件付き確率である尤度関数に正規分布を適用する場合であっても、分散Vとして、帯域毎に異なる値を設定するようにしても良い。また、予測事後SNRの条件付き確率である尤度関数として、帯域毎に、正規分布を適用するか一般化正規分布を適用するかを設定するようにしても良い。さらに、真の事後SNRの事前確率の確率密度関数に指数分布を適用する場合において、パラメータλとして、帯域毎に異なる値を設定するようにしても良い。さらにまた、真の事後SNRの事前確率の確率密度関数として、帯域毎に、指数分布、ガンマ分布、片側正規分布、片側一般化正規分布等のいずれを適用するかを設定するようにしても良い。
第1の実施形態においては、各帯域雑音推定手段202(202〜202K−1)における確率モデル保持手段204(204〜204K−1)が1個の確率モデル情報を保持している場合を示したが、複数の確率モデル情報を保持しておき、適用するものを選択できるようにしても良い。例えば、利用者の選択操作に応じて、適用する確率モデル情報を定めるようにしても良い。また例えば、帯域入力パワーについての予め定められている統計量を複数算出し、算出した統計量に基づいて、各統計量が属する段階の組合せ(適用条件)と確率モデル情報とを対応付けたテーブルをアクセスして適用する確率モデル情報を定めるようにしても良い。
第1の実施形態においては、帯域分割手段201が分割した全ての分割帯域で、雑音推定を行うものを示したが、雑音推定する分割帯域が一部であっても良い。例えば、高周波数寄りの分割帯域、低周波数寄りの分割帯域、中央の分割帯域、全分割帯域等の中から、利用者が雑音推定する分割帯域を選択できるようにしても良い。
第1の実施形態においては、各帯域雑音推定手段202が平滑化手段206を備える場合を示したが、平滑化手段206を省略するようにしても良い。
第1の実施形態では、入力音声が入力される雑音推定装置200を示したが、既に、いずれかの装置で帯域分割された帯域入力音声が入力される雑音推定装置に、本発明の技術思想を適用することができる。
200…雑音推定装置、201…帯域分割手段、202、202〜202K−1…帯域雑音推定手段、203…パワー算出手段、204…確率モデル保持手段、205…事後確率最大化手段、206…平滑化手段。

Claims (11)

  1. 入力音声に含まれる雑音を推定する雑音推定装置において、
    入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段を備え、
    上記各帯域雑音推定手段が、
    帯域入力パワーを算出するパワー算出手段と、
    雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、
    保持されている確率モデル情報に基づいて、事後SNRの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する
    ことを特徴とする雑音推定装置。
  2. 上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することを特徴とする請求項1に記載の雑音推定装置。
  3. 上記確率モデル情報は、現在の帯域入力パワーを所定時間過去の帯域雑音パワー推定値で除した予測事後SNRに基づいた現在の帯域入力パワーを現在の帯域雑音パワーで除した真の事後SNRに関する尤度関数と、上記真の事後SNRの事前分布を規定する確率密度関数とを含むことを特徴とする請求項1又は2に記載の雑音推定装置。
  4. 上記尤度関数は、平均値に対して対称な確率密度関数でモデリングされたものであることを特徴とする請求項3に記載の雑音推定装置。
  5. 上記尤度関数は、正規分布若しくは一般化正規分布でモデリングされたものであることを特徴とする請求項4に記載の雑音推定装置。
  6. 上記真の事後SNRの事前分布をモデリングした確率密度関数は、確率変数が正に限定され、確率変数が0のときに最頻値をとり、確率変数が大きくなるにつれて0に収束するものであることを特徴とする請求項3〜5のいずれかに記載の雑音推定装置。
  7. 上記真の事後SNRの事前分布をモデリングした確率密度関数は、指数分布若しくは片側一般化正規分布でモデリングされたものであることを特徴とする請求項6に記載の雑音推定装置。
  8. 入力音声に含まれる雑音を推定する雑音推定方法において、
    入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた、パワー算出手段、確率モデル保持手段及び事後確率最大化手段を有する帯域雑音推定手段を備え、
    上記各帯域雑音推定手段における上記パワー算出手段は、帯域入力パワーを算出し、
    上記各帯域雑音推定手段における上記確率モデル保持手段は、雑音の定常性をモデリングした確率モデルの情報を保持し、
    上記各帯域雑音推定手段における上記事後確率最大化手段は、保持されている確率モデル情報に基づいて、事後SNRの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する
    ことを特徴とする雑音推定方法。
  9. 上記各帯域雑音推定手段にさらに設けられた平滑化手段が瞬時帯域雑音パワー推定値を時間平滑化することを特徴とする請求項8に記載の雑音推定方法。
  10. コンピュータを、
    入力音声が帯域分割されたそれぞれの帯域入力音声毎に設けられた帯域雑音推定手段であって、
    帯域入力パワーを算出するパワー算出手段と、
    雑音の定常性をモデリングした確率モデルの情報を保持している確率モデル保持手段と、
    保持されている確率モデル情報に基づいて、事後SNRの事後確率が最大となるように瞬時帯域雑音パワー推定値を算出する事後確率最大化手段とを具備する
    帯域雑音推定手段として機能させる
    ことを特徴とする雑音推定プログラム。
  11. 上記コンピュータが機能させられる上記各帯域雑音推定手段が、上記瞬時帯域雑音パワー推定値を時間平滑化する平滑化手段をさらに具備することを特徴とする請求項10に記載の雑音推定プログラム。
JP2014014533A 2014-01-29 2014-01-29 雑音推定装置、方法及びプログラム Active JP6361148B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014014533A JP6361148B2 (ja) 2014-01-29 2014-01-29 雑音推定装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014014533A JP6361148B2 (ja) 2014-01-29 2014-01-29 雑音推定装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015141335A JP2015141335A (ja) 2015-08-03
JP6361148B2 true JP6361148B2 (ja) 2018-07-25

Family

ID=53771716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014014533A Active JP6361148B2 (ja) 2014-01-29 2014-01-29 雑音推定装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6361148B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6536322B2 (ja) * 2015-09-29 2019-07-03 沖電気工業株式会社 雑音推定装置、プログラム及び方法、並びに、音声処理装置
CN109616139B (zh) * 2018-12-25 2023-11-03 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5387459B2 (ja) * 2010-03-11 2014-01-15 富士通株式会社 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement

Also Published As

Publication number Publication date
JP2015141335A (ja) 2015-08-03

Similar Documents

Publication Publication Date Title
JP6361156B2 (ja) 雑音推定装置、方法及びプログラム
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP4861645B2 (ja) スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法
JP2009047803A (ja) 音響信号処理方法及び装置
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
US20230267947A1 (en) Noise reduction using machine learning
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
Schmidt et al. Reduction of non-stationary noise using a non-negative latent variable decomposition
Chinaev et al. A priori SNR Estimation Using a Generalized Decision Directed Approach.
Lee et al. Minima-controlled speech presence uncertainty tracking method for speech enhancement
JP6716933B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP6679881B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
Chehresa et al. MMSE speech enhancement using GMM
Pallavi et al. Phase-locked Loop (PLL) Based Phase Estimation in Single Channel Speech Enhancement.
JP6536322B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
Liu et al. Multiresolution cochleagram speech enhancement algorithm using improved deep neural networks with skip connections
JP7139822B2 (ja) 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置
Sunnydayal et al. Speech enhancement using β-divergence based NMF with update bases
Hadir et al. A Model-Based Spectral Envelope Wiener Filter for Perceptually Motivated Speech Enhancement.
Yu et al. A Single-Channel Speech Enhancement Algorithm Combined with Time-Frequency Mask
Ykhlef An efficient solution to improve the spectral noise suppression rules
Yang Towards a Speech Enhancement De-noising Algorithm Based on Cepstrum Smoothing Prior SNR Estimation
Taylan Enhancement of the coded speech using filtering
JP2018031820A (ja) 信号処理装置、信号処理方法、及び、信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180611

R150 Certificate of patent or registration of utility model

Ref document number: 6361148

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150