JP5245714B2 - 雑音抑圧装置及び雑音抑圧方法 - Google Patents
雑音抑圧装置及び雑音抑圧方法Info
- Publication number
- JP5245714B2 JP5245714B2 JP2008274772A JP2008274772A JP5245714B2 JP 5245714 B2 JP5245714 B2 JP 5245714B2 JP 2008274772 A JP2008274772 A JP 2008274772A JP 2008274772 A JP2008274772 A JP 2008274772A JP 5245714 B2 JP5245714 B2 JP 5245714B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- gain
- frame
- input signal
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000001228 spectrum Methods 0.000 claims abstract description 154
- 238000004364 calculation method Methods 0.000 claims abstract description 46
- 238000009499 grossing Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 24
- 206010002953 Aphonia Diseases 0.000 claims 1
- 238000012545 processing Methods 0.000 description 44
- 230000014509 gene expression Effects 0.000 description 22
- 230000000694 effects Effects 0.000 description 19
- 238000012935 Averaging Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000011410 subtraction method Methods 0.000 description 3
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
そのような雑音抑圧の技術としては、例えば以下の特許文献1及び非特許文献1乃至4に開示されているようなものが知られている。
例えば、前記のスペクトラル・サブトラクション法は、入力信号中に含まれる雑音スペクトルを推定し、その雑音スペクトル推定値を、振幅スペクトルから差し引く手法に基づくが、この場合、いわゆるミュージカルノイズが発生するおそれが高いという問題がある。これは、ここでいう雑音スペクトル推定値が、必ずしも、実際の雑音スペクトルを反映するとは限らないことによる。つまり、ある周波数帯域では、雑音スペクトル推定値を差し引いた後にもなお雑音が残る場合があり、また、他の周波数帯域では、引き過ぎが生じる場合があるのである。このため、雑音スペクトル差し引き後の振幅スペクトルを時間領域に再変換すると、複数のランダムな周波数をもつ正弦波が合成されたものが現れる可能性があり、これが再生されることによって、非常に耳障りな雑音(即ち、ミュージカルノイズ)が発生してしまうおそれがあるのである。
このような状況下で、例えば、前述の非特許文献1のように、音声部分にはスペクトラル・サブトラクション法を適用するが、雑音部分には固定ゲインを適用して雑音を抑圧するという場合、その固定ゲインの値が過小のときは、雑音部分から音声部分への切り替わりの場面において、背景雑音量が大きくなるという現象が生じ、固定ゲインの値が過大のときは、逆に背景雑音量が小さくなるという現象が生じ得る。これが例えば再生されれば、聴取者に、聴感上の不自然さを感じさせるおそれが高い。
そして、本発明では、このような平均値ゲインGaveが、K個の周波数帯域の全部又は一部についての入力信号に適用される。例えば、時間領域にある入力信号が、周波数領域に変換して得られる振幅スペクトルが、Y(1),Y(2),…,Y(K)であるとすると、周波数領域にある出力信号が、Gave・Y(1),Gave・Y(2),…,Gave・Y(K)、などと得られることになる。
このようなことから、本発明においては、雑音抑圧効果が享受されることは勿論、例えば前述したような雑音スペクトル推定値による振幅スペクトルの引き過ぎの事例等が発生することがなく、したがって、ミュージカルノイズの発生がきわめて実効的に抑圧される。
これによれば、平均値ゲイン(正確に言うと、平滑化された平均値ゲイン。つまり、本発明に言う「平滑化ゲイン」)の時間の経過に従った急激な変化が生じないから、雑音抑圧処理の連続性・一貫性が維持される。
なお、本発明にいう「時間軸」は、より具体的には、そのフレームの1個1個が順に並べられていく場合に観念される軸、として想定され得る。この点についての、より詳細な具体例については、後述する実施形態、特に式(4)に関して説明される。
なお、本発明において、音声が「含まれる」あるいは「含まれない」という用語は、いわば絶対的な意味に解されてはならない。例えば、“すべてが音声”で満たされるフレームと、“全く音声が不存在”のフレームという2つの態様が観念的には想定されるが、この両者両極端を指して「音声フレーム」及び「雑音フレーム」の区別が行われる場合に本発明が限定されるわけでは勿論なく、また、後者のみが「雑音フレーム」で、それ以外はすべて「音声フレーム」という区別が行われる場合に、本発明が限定されるわけでもない。つまり、本発明は、「雑音フレーム」と認定される場合においても、当該の雑音フレームに「音声」が全く含まれてはならないということまで要求せず、本発明にいう「音声フレーム」及び「雑音フレーム」の区別は、上記の2つの場合の適当な中間点を基準に行われてよいのである。
以上のような意味において、本発明にいう「含まれる」あるいは「含まれない」という用語、あるいは、本発明に係る「音声フレーム」及び「雑音フレーム」の区別は、相対的なものということができる。
なお、本発明において、単に「フレーム」という場合、それは「音声フレーム」である場合も、「雑音フレーム」である場合もある。
この点についての、より詳細な具体例については、後述する実施形態、特に式(1)に関して説明される。
以下では、本発明に係る第1の実施の形態について図1を参照しながら説明する。なお、ここに言及した図1に加え、以下で参照する各図面(例えば図6等のグラフをも含む。)においては、各部の寸法の比率が実際のものとは適宜に異ならせてある場合がある。
前記の周波数領域の信号は、振幅スペクトル及び位相スペクトルに分けられ、このうちの位相スペクトルは、後述する周波数・時間変換部70にそのまま送られる。他方、振幅スペクトルは、後述する雑音スペクトル推定部20以後の各部に送られて、後述する各種の処理を受ける。
この音声信号は、例えば、入力信号のレベルが予め定めた閾値を超えるか否かを基準として検出される。もっとも、本発明は、これ以外にも様々な手法を採用することが可能である。例えば、確率・統計的手法を用いて音声信号の発生確率を推定する手法等が採用されてもよいし、あるいは、検出対象としても、前記入力信号を利用するのではなく、そのフーリエ変換後の信号(つまり、前記でいう周波数領域の信号)を利用する手法等が採用されてもよい。
なお、以下では、この音声検出部80によって音声信号が存在すると判定されたフレームは、「音声フレーム」と、不存在であると判定されたフレームは、「雑音フレーム」と、それぞれ呼ぶことがある。なお、ここで存在・不存在というのは、いわば絶対的な意義をもたない。前述のように、音声信号の有無が所定の閾値を基準に判断されることがある以上、「雑音フレーム」に、厳密に言えば音声信号と呼べるものが含まれている可能性は排除されない。
ここで、Nt(n)は、現に処理中であるフレームにおける雑音スペクトル推定値、Nt−1(n)は、その直前のフレームにおける雑音スペクトル推定値(したがって、“t”は、現に処理中であるフレームそれ自体を表現する添え字である。)、Y(n)は入力された振幅スペクトル、nは周波数帯域(に付けられた番号。なお、周波数帯域はN個に分割される。なお、このNは、本発明にいう「K個の周波数帯域」のK以下(=N≦K)である。)、βは平滑化係数である。また、式(1)中、case・Aとあるのは、雑音スペクトル推定部20が雑音フレームを処理する場合を表現し、case・Bとあるのは、音声フレームを処理する場合を表現している。
このように、雑音スペクトル推定部20は、現に処理しているフレームが、雑音フレームであるか音声フレームであるかに応じて、雑音スペクトル推定値Nt(n)を求めるために利用する式を変更する。すなわち、音声フレーム処理時(case・B)には、その直前の雑音スペクトル推定値をそのまま用いて雑音スペクトル推定値Nt(t)を求め、雑音フレーム処理時(case・A)には、入力した振幅スペクトルを時間軸上で平滑化することで、雑音スペクトル推定値Nt(n)を求める。
ここで、max(a,b)は、a及びbのうちいずれか大きい値を返す関数を意味する(以下、同じ。)。
この式(2)により、入力された振幅スペクトルY(n)に対する雑音スペクトル推定値Nt(n)との間において、Y(n)<Nt(n)が成立する場合は、G(n)=0となり、Y(n)>Nt(n)が成立する場合は、G(n)=(Y(n)−Nt(n))/Y(n)となる。
この雑音抑圧ゲイン演算部30で算出された雑音抑圧ゲインは、前記音声検出部80によって区分された音声フレーム及び雑音フレームの別に応じて、雑音期間・雑音抑圧ゲイン演算部40を介して又は直接に、原音加算ゲイン演算部60に供給される。図1に示す雑音抑圧装置1は、このような処理を実現するためのスイッチを備える(図中弧線矢印参照)。
まず、式(2)で求められた雑音抑圧ゲインG(n)に基づいて、以下の式(3)で表現されるgが算出される。
このgは、式(3)の右辺から明らかなように、式(2)の雑音抑圧ゲインについての、周波数帯域nに関する平均値を意味する。
次いで、この式(3)の雑音抑圧ゲイン平均値gが、以下の式(4)によって平滑化される。
ここで、μは平滑化係数、Gtは、現に処理中である雑音フレームについての雑音抑圧ゲイン、Gt−1は、その直前に処理した雑音フレームについての雑音抑圧ゲインである。
前述の式(1)のcase・Aとして示される式もそうであるが、この式(4)では、現に処理中のフレームにおける雑音抑圧ゲインを求めるにあたって、その直前に処理されたフレームにおけるそれが参照されていることから、時間軸上で平滑化が行われているということがいえる(後述する式(7)についても同様である。)。
この式(4)中のGtが、本雑音期間用ゲイン演算部40において求められるべき、雑音期間に適用するための雑音抑圧ゲイン(以下、簡単のため、「雑音期間用ゲイン」ということがある。)である。
雑音期間用ゲイン演算部40は、このようにして求められた雑音期間用ゲインGtを、すべての周波数帯域に対して一律に適用する。以下では、この事情を表現するため、この一律に適用されるGtを、G1(n)と表現する。この場合、G1(0),G1(1),…,G1(N−1)のすべてが、Gtに等しい。
ここで、tgは、目標雑音抑圧ゲインであり、以下の式(6)に基づいている。
この式(6)中のTGは、目標雑音抑圧量であり、dB単位で与えられる。このTG(あるいは、tg)は、装置外部から図示しない操作部等を介することによって人為的に与えられたり、あるいは、何らかの適当な手法により自動的に演算されてよい。
以上の式(5)によれば、目標雑音抑圧ゲインtgと雑音期間用ゲインGtとの間において、tg<Gtが成立する場合は、og=0となり、tg≧Gtが成立する場合は、og=tg−Gtとなる。
まず、式(5)で求められた原音加算率ogに基づいて、以下の式(7)で表現されるOGtが算出される。
ここでOGtは、現に処理中であるフレームにおける原音加算割合、OGt−1は、その直前のフレームにおける原音加算割合、λは平滑化係数である。なお、式(7)中のcase・A及びcase・Bの意義は、上述の式(1)の場合と同様である(以下の式(8)においても同じである。)。
このように、原音加算ゲイン演算部60は、現に処理しているフレームが、雑音フレームであるか音声フレームであるかに応じて、原音加算割合OGtを求めるために利用する式を変更する。すなわち、音声フレーム処理時(case・B)には、その直前の原音加算割合をそのまま用いて、原音加算割合OGtを求め、雑音フレーム処理時(case・A)には、前記の原音加算率ogを時間軸上で平滑化することで、原音加算割合OGtを求める。
ここで、G1(n)は、上で説明したように、雑音フレームにおいて、すべての周波数帯域に対して一律に適用される雑音期間用ゲインを表している。
この式(8)によれば、前述の式(7)における場合分けに応じて、原音加算後の雑音抑圧ゲインG2(n)(以下、簡単のため、「修正後ゲインG2(n)」ということがある。)が求められる。
まず、時間・周波数変換部10は、入力信号に対して、フーリエ変換を施し、更にこれを、図1に示すように、振幅スペクトルY(n)及び位相スペクトルに分解する(図2のステップS101)。この際、時間・周波数変換部10は、前述のように、フレームごとの処理を実施する。
また、これと並行して、音声検出部80は、入力信号中に含まれる音声信号の有無を検出する(図2のステップS102)。この検出処理は、入力信号を、音声フレームと雑音フレームとに分別する処理を可能にする。音声検出部80は、当該の処理も行う。
なお、このような分別処理は、図1に示すように、音声検出部80の検出結果に応じたスイッチの切り替えによっている。
このように、第1実施形態においては、式(2)により求められる雑音抑圧ゲインG(n)をそのままの状態で用いるのではなく、そのG(n)に対して、式(3)による周波数帯域に関する平均化、及び、式(4)による時間軸上の平滑化、を行った後の雑音期間用ゲインGtを、全周波数帯域用の雑音期間用ゲインG1(n)として用いることに、その大きな特徴の1つがある。
なお、図3(D)では、雑音抑圧ゲインG(n)に対する平均化処理を行った場合の一例が例示されている(図3(C)中に示される破線も参照)。
このように、第1実施形態においては、原音加算率ogが、雑音期間用ゲインGtを利用することによって求められることに、その大きな特徴の1つがある。
この場合、この修正後ゲインG2(n)は結局、前述の平均化・平滑化を経た雑音期間用ゲインG1(n)と、原音加算の程度とを勘案した上で決定されたゲインであるという意味合いをもつ。
ただし、この音声フレーム処理では、雑音フレーム処理と比べて、以下のような異同、あるいは注意点がある。
要するに、音声フレームでは、直近の雑音フレームにおいて算出された雑音スペクトル推定値Nt−p(n)(pは、当該の音声フレームの直前のフレームから数えて、その直近の雑音フレームまでのフレーム数(両端を含む。))が利用されることになるのである。
上述の場合と表現を一致させるなら、音声フレームでは、直近の雑音フレームにおいて算出された原音加算割合OGt−p(n)(pは、当該の音声フレームの直前のフレームから数えて、その直近の雑音フレームまでのフレーム数(両端を含む。))が利用される、ということになる。
図3(E)では、簡単のため、単純に図3(A)の振幅スペクトルY(n)に、図3(C)の平均化された雑音抑圧ゲイン(つまり、g)が乗算された結果が示されている。第1実施形態では、上述のように、これに加えて、原音加算の程度に配慮されたゲインの調整が更に行われはするが(式(8)、特にOGt(n)の役割、参照)、図3(E)は、仮に、そのような原音加算処理への配慮を省く場合を想定したときの処理の本質をよく表している(式(8)において、OGt(n)=0ならば、修正後ゲインG2(n)は、単にG1(n)、又は、G(n)に等しいというだけである。)。
まず、第1実施形態の雑音抑圧装置1によれば、入力信号に含まれる雑音が極めて好適に抑圧される。ここで「好適に」ということのうちには、第1実施形態において特に、以下に記す各点の内実が含まれる。
例えば、雑音スペクトル推定値に基づく雑音抑圧ゲインは、簡単には、前記式(2)中の(Y(n)−N(n))/Y(n)を用いて求めることが可能であり、これをそのまま図1に示す乗算器11で適用する態様を想定すれば、雑音抑圧後の振幅スペクトルS(n)は、S(n)={(Y(n)−N(n))/Y(n)}・Y(n)=Y(n)−N(n)として求められることになる。つまり、この場合は、入力信号の振幅スペクトルから雑音スペクトル推定値を単純に差し引くことによって、雑音抑圧後の振幅スペクトルS(n)が得られることになる。
しかし、この場合の雑音スペクトル推定値は、あくまでも“推定値”であるから、必ずしも、実際の雑音スペクトルを反映しているとは限らない。したがって、ある周波数帯域では、雑音スペクトル推定値差し引き後にもなお雑音が残る場合があり、また、他の周波数帯域では、引き過ぎが生じる場合もある(この引き過ぎの場合は、負の振幅スペクトルが考えられない以上、0に設定される。)。図4では、このような事情が概念的に表現されており、例えば図4(C)中の実線は引き残り(符号“KN”参照)、破線は引き過ぎ(符号“HS”参照)の各場合を表現している(なお、図4(A)及び(B)は、図3(A)及び(B)と全く同じである。また、図4(C)の符号HStが指示する部分は、たまたま、Y(n)−N(n)=0が成立する場合の例示である。)。
このような振幅スペクトルS(n)を時間領域に逆フーリエ変換すると、その信号は、複数のランダムな周波数をもつ正弦波が合成されたもののようになり、これが再生されれば、非常に耳障りな音となって聞こえてくることになる。これがミュージカルノイズである。
このように、ミュージカルノイズは、厳密に言えば不可知の実際の雑音スペクトルと、雑音スペクトル推定値とが一致しないことを主な原因として発生する。
以上の(2)及び(3)を要するに、第1実施形態では、音声フレームにおいて、実効的な雑音抑圧が行われながらも、なお雑音フレーム処理時における雑音抑圧処理(特に、その効果)を尊重して、両フレーム間の流れがより自然なものとなるような工夫がなされているのである。これによれば、第1実施形態の雑音抑圧装置1が何らかの音声再生手段に接続されたとした場合、雑音フレームから音声フレームへの切り替わりの場面において、聴取者に、雑音に係る音量感の変更等々の聴感上の違和感を与えることがない。
また、図4(C)中の破線で示す、雑音抑圧後の振幅スペクトルが0となってしまう部分(即ち、符号HS及びHStが指示する部分)に、一定の値(ノイズ・フロア)を加算する手法をとることによって、ミュージカルノイズを抑圧することも考えられる。これは、当該の部分HS及びHStに、いわば下駄を履かせることによって、引き残りの部分KNをマスキングしよう(あるいは、目立たなくしよう)とする発想に出ている(また、この手法と、前記のαを使う手法とを併用する場合、αはより小さく設定されてもよいから、その場合、音質の劣化防止という効果も得られる。)。
しかし、このようなノイズ・フロアの加算は、とりもなおさず雑音の絶対量を増加させることを意味するから、雑音抑圧という本来の目的達成の観点からみて問題があるだけでなく、そのノイズ・フロアの量の設定如何によっては、雑音抑圧効果が極めて不十分になるおそれが高いという問題を生じさせる。
なお、上述においては、第1実施形態の雑音抑圧装置1によって奏される効果をより明瞭に把握するため、前記αを用いる手法、あるいはノイズ・フロアを用いる手法との対比において、当該効果についての説明を行っている部分があるが、本発明は、これらαあるいはノイズ・フロアを用いてミュージカルノイズを抑圧する手法を積極的に排除する意図までは有しない。すなわち、これらの手法と本発明及びその各種態様とは併用可能であり、そのような併用形態によれば、当該手法の良いところを享受しつつ、本発明及びその各種態様の効果をより際立たせること等が可能となる。
(4-i) まず、原音加算の割合(即ち、OGt)が、雑音期間用ゲインGtと目標雑音抑圧ゲインtgとの大きさの如何に応じて定まる原音加算率ogに基づいて定められるようになっている。具体的には、既に述べたように、原音加算処理においては、目標としている雑音抑圧の程度(即ち、tg)を支配的要因の1つとし、これとの関係において原音加算率ogが決められるようになっているので、雑音期間用ゲインGtに基づく処理と、原音加算処理との間で、バランスがとれた使い分けが行われることにより、より実効的に雑音抑圧効果ないしミュージカルノイズ抑圧効果、さらには音質改善効果が享受されることになる。
以下では、本発明に係る第2の実施の形態について図5乃至図7を参照しながら説明する。なお、この第2実施形態は、上記第1実施形態との対比において、音声検出処理に関連する相違点があり、その他の点については、特に断りがない限り上記第1実施形態と全く同じである。したがって、以下では、前記相違点に関する説明を主に行い、その他の点についての説明は簡略化ないし省略する。また、図面上の符号についても前記相違点以外については流用する。
まず、式(2)で求められた雑音抑圧ゲインG(n)に基づいて、以下の式(9)で表現されるVarが算出される。
ここで、gは、上記第1実施形態において利用されていた式(3)によって表現されるgであって、要するに、G(n)についての周波数帯域nに関する平均値である(第2実施形態は、このgの演算を、雑音期間用ゲイン演算部40だけでなく、音声検出部801も行う。むろん、両者の一方で行った演算の結果を、両者間で共用してもよい。)。
この式(9)のVarは、表式から明らかな通り、G(n)の分散を表す。
一般に、式(2)によって算出される雑音抑圧ゲインG(n)は、音声信号が含まれる場合と含まれない場合とで大きく異なる様相を示す。図6及び図7はその一例を示しており、前者は、音声信号が含まれる場合の雑音抑圧ゲインG(n)の演算例、後者は、含まれない場合の雑音抑圧ゲインG(n)の演算例である。これらの図を対比すると明らかなように、両者の場合それぞれにおけるG(n)の分散を計算すれば、両者間に大きな隔たりが生じることが容易に推測される。つまり、あるフレームについてのG(n)の分散の値が一定程度大きければ、それは音声信号を含み、そうでなければ、音声信号を含まないという判断を行うことが、相当程度の確からしさで可能である。
前述のVarに係る大小判断の意義は、ここにある。改めていえば、ある所定値VBがあるとして、Var>VBであれば、当該フレームには音声信号があり、したがって、それは「音声フレーム」に区別され、Var≦VBであれば、当該フレームには音声信号がなく、したがって、それは「雑音フレーム」に区別される、ということになる。
このような場合における雑音スペクトル推定値Nt(n)は、例えば、以下の式(10)及び式(11)によって求められてよい。
ここで、PAt(n)は、現に処理中であるフレームにおける入力信号中の振幅スペクトルであって平滑化されたもの、PAt−1(n)は、その直前のフレームにおける当該振幅スペクトルであって平滑化されたもの、αは平滑化係数、γ・βは制御パラメータである。また、式(11)中、case・Cとあるのは、PAt(n)>Nt−1(n)が成立する場合を表現し、case・Dとあるのは、それ以外の場合を表現している。
他方、式(11)のcase・Cとして示される式は、前記式(1)中においては該当するものはない。もっとも、この式は、上述のように、即ちPAt(n)>Nt−1(n)が成立する場合、即ち、現に処理中であるフレームにおける振幅スペクトルが、その直前のフレームにおける雑音スペクトル推定値を越える場合に発動するから、このcase・Cは、その現に処理中であるフレームが、音声フレームである可能性を示唆するものと捉えることも不可能でない(仮に、多くのn(=0,1,2,3,…)について、かかる条件が満たされるなら、その可能性はより高まるといえる。ただし、あくまでも“示唆”に過ぎない。)。
これら式(10)及び式(11)は、以上のような意味における限りで、前記式(1)と共通性をもつといえる。
いずれにしても、雑音スペクトル推定値が好適に算出されることに変わりはない。
まず、この第2実施形態によっても、上記第1実施形態によって奏された作用効果と本質的に異ならない作用効果が奏されることは明白である。すなわち、この第2実施形態でも、上記第1実施形態に関し述べた(1)から(4)の効果がほぼ同様に奏される。
本発明においては、雑音抑圧ゲインG(n)の演算は必ず行わなければならない処理である以上、その演算結果を利用して音声検出処理をも行ってしまうことが、処理の効率化・合理化を導くことは論を俟たない。しかも、その検出性能は相当程度高い(図6及び図7対比参照)。
(1) 上記第1及び第2実施形態では、雑音期間用ゲインGtが、周波数軸上で平均化され、時間軸上で平滑化されているが、本発明は、かかる形態に限定されない。上でも既に述べたが、平均化処理と平滑化処理とでは、その主な狙いが異なっているので、特に平滑化処理に関しては、場合によっては省略されてよい。図3(E)にみられるように、平均化処理だけを実施したとしても、ミュージカルノイズの抑圧効果は一定程度享受可能である。
まず、本発明において、雑音抑圧ゲイン平均値gは、式(3)によって求められる形態に限定されない。
すなわち、式(3)において、gは、N個すべての周波数帯域(全部でN個の0,1,2,…,N−1番目の周波数帯域)を用いて算出されているが、このgは、例えば、そのうちの一部だけの周波数帯域を用いて算出されてもよい。この場合、極低域(DC成分に近い帯域)や極高域(ナイキスト周波数に近い帯域)の双方又は一方を除く、周波数帯域を用いることが考えられる。
また、雑音抑圧ゲイン平均値gを求めるにあたっては、個々の周波数帯域に異なる重み付けを行ってもよい。例えば、ある特定の重み係数を特定の周波数帯域についてだけ乗算したり、あるいは、連続的、段階的に増加又は減少する重み付け係数をすべての周波数帯域について乗算したり、等々のようである。
次に、本発明において、雑音期間用ゲインGtは、前記式(4)によって求められる形態に限定されない。
すなわち、式(4)において、Gtは、雑音抑圧ゲイン平均値gを時間軸上で平滑化することにより求められているが、このGtは、例えば、相隣接するフレームのgの平均値として算出されてもよい。
例えば、前述した極低域や極高域の双方又は一方を除く周波数帯域にだけ、当該雑音期間用ゲインGtないしG1(n)が適用されてよい。この場合、その適用除外となった周波数帯域については、固定値たるゲインが適用されるとよい。
例えば、分散に代えて、標準偏差が用いられてよいことは当然、時間軸上の分散、あるいは標準偏差が用いられてもよい。また、周波数帯域ごとの雑音抑圧ゲインG(n)のうち、所定の2つの基準値によって画された空間内に収まるものが幾つあるか等に基づいて、音声フレーム及び雑音フレーム間の区別が行われてもよい(例えば、その数が比較的大であれば、雑音抑圧ゲインG(n)は一定の箇所に集中して存在すると判断可能であるから、その散らばりの程度は小さいといえ、したがって、当該のフレームは、雑音フレームと認定される、などというようである。)。さらには、上述した各種の判断手法は、場合によって併用されてよい。これによれば、例えば、散らばりの程度が、前記分散と前記空間内に収まる雑音抑圧ゲインG(n)の数との双方が参照された上で判断される、などということになる。
Y(n)……入力信号の振幅スペクトル、N(n)……雑音スペクトル推定値、G(n)……雑音抑圧ゲイン、g……雑音抑圧ゲイン平均値、Gt,G1(n)……雑音期間に適用するための雑音抑圧ゲイン(雑音期間用ゲイン)、og……原音加算率、tg……目標雑音抑圧ゲイン、TG……目標雑音抑圧量、OG……原音加算割合、G2(n)……原音加算後の雑音抑圧ゲイン(修正後ゲイン)
Claims (2)
- 入力信号に含まれる音声の有無を検出することで、当該入力信号を、経時的に、当該音声が含まれる音声フレーム及び当該音声が含まれない雑音フレームに区分する音声検出手段と、
K個の周波数帯域ごと(ただし、Kは2以上の自然数)に、前記入力信号に含まれる雑音スペクトルを当該入力信号に基づいて推定する雑音スペクトル推定手段と、
前記雑音スペクトル推定手段による推定結果に基づいて、前記K個の周波数帯域ごとの雑音抑圧ゲインを算出する第1ゲイン演算手段と、
前記雑音抑圧ゲインについての、前記K個の周波数帯域の全部又は一部に関する平均値ゲインを算出するとともに、当該算出した平均値ゲインを時間軸上で平滑化した平滑化ゲインを算出する第2ゲイン演算手段と、
前記入力信号に係る前記K個の周波数帯域の全部又は一部について、前記平滑化ゲインまたは前記雑音抑圧ゲインを適用することで、当該入力信号に含まれる雑音を抑圧する雑音抑圧手段であって、前記入力信号のうち前記雑音フレームに該当する部分に、前記平滑化ゲインを適用し、前記入力信号のうち前記音声フレームに該当する部分に、前記雑音抑圧ゲインを適用する雑音抑圧手段と、
を備え、
前記雑音スペクトル推定手段は、
前記雑音フレームに関する雑音スペクトルを推定しようとする場合は、
一時的スペクトル推定値を算出した後、当該雑音フレームの直前のフレームにおける雑音スペクトル推定値を用いて、当該一時的スペクトル推定値を時間軸上で平滑化した平滑化雑音スペクトル推定値を算出し、この平滑化雑音スペクトル推定値を、当該雑音フレームにおける雑音スペクトルと推定し、
前記音声フレームに関する雑音スペクトルを推定しようとする場合は、
当該音声フレームの直前のフレームにおける雑音スペクトル推定値をそのまま、当該音声フレームにおける雑音スペクトルと推定する、
ことを特徴とする雑音抑圧装置。 - 入力信号に含まれる音声の有無を検出することで、当該入力信号を、経時的に、当該音声が含まれる音声フレーム及び当該音声が含まれない雑音フレームに区分する音声検出工程と、
K個の周波数帯域ごと(ただし、Kは2以上の自然数)に、前記入力信号に含まれる雑音スペクトルを当該入力信号に基づいて推定する雑音スペクトル推定工程と、
前記雑音スペクトル推定工程による推定結果に基づいて、前記K個の周波数帯域ごとの雑音抑圧ゲインを算出する第1ゲイン演算工程と、
前記雑音抑圧ゲインについての、前記K個の周波数帯域の全部又は一部に関する平均値ゲインを算出するとともに、当該算出した平均値ゲインを時間軸上で平滑化した平滑化ゲインを算出する第2ゲイン演算工程と、
前記入力信号に係る前記K個の周波数帯域の全部又は一部について、前記平滑化ゲインまたは前記雑音抑圧ゲインを適用することで、当該入力信号に含まれる雑音を抑圧する雑音抑圧工程であって、前記入力信号のうち前記雑音フレームに該当する部分に、前記平滑化ゲインを適用し、前記入力信号のうち前記音声フレームに該当する部分に、前記雑音抑圧ゲインを適用する雑音抑圧工程と、
を含み、
前記雑音スペクトル推定工程は、
前記雑音フレームに関する雑音スペクトルを推定しようとする場合は、
一時的スペクトル推定値を算出した後、当該雑音フレームの直前のフレームにおける雑音スペクトル推定値を用いて、当該一時的スペクトル推定値を時間軸上で平滑化した平滑化雑音スペクトル推定値を算出し、この平滑化雑音スペクトル推定値を、当該雑音フレームにおける雑音スペクトルと推定し、
前記音声フレームに関する雑音スペクトルを推定しようとする場合は、
当該音声フレームの直前のフレームにおける雑音スペクトル推定値をそのまま、当該音声フレームにおける雑音スペクトルと推定する、
ことを特徴とする雑音抑圧方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008274772A JP5245714B2 (ja) | 2008-10-24 | 2008-10-24 | 雑音抑圧装置及び雑音抑圧方法 |
KR1020090101089A KR101088627B1 (ko) | 2008-10-24 | 2009-10-23 | 잡음 억압 장치 및 잡음 억압 방법 |
CN2009102055347A CN101727910B (zh) | 2008-10-24 | 2009-10-26 | 噪声抑制装置及噪声抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008274772A JP5245714B2 (ja) | 2008-10-24 | 2008-10-24 | 雑音抑圧装置及び雑音抑圧方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010102199A JP2010102199A (ja) | 2010-05-06 |
JP2010102199A5 JP2010102199A5 (ja) | 2011-12-01 |
JP5245714B2 true JP5245714B2 (ja) | 2013-07-24 |
Family
ID=42273494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008274772A Active JP5245714B2 (ja) | 2008-10-24 | 2008-10-24 | 雑音抑圧装置及び雑音抑圧方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5245714B2 (ja) |
KR (1) | KR101088627B1 (ja) |
CN (1) | CN101727910B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5526524B2 (ja) * | 2008-10-24 | 2014-06-18 | ヤマハ株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
KR101173980B1 (ko) | 2010-10-18 | 2012-08-16 | (주)트란소노 | 음성통신 기반 잡음 제거 시스템 및 그 방법 |
KR101176207B1 (ko) * | 2010-10-18 | 2012-08-28 | (주)트란소노 | 음성통신 시스템 및 음성통신 방법 |
JP2012103395A (ja) * | 2010-11-09 | 2012-05-31 | Sony Corp | 符号化装置、符号化方法、およびプログラム |
SG191006A1 (en) * | 2010-12-08 | 2013-08-30 | Widex As | Hearing aid and a method of enhancing speech reproduction |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
EA028755B9 (ru) | 2013-04-05 | 2018-04-30 | Долби Лабораторис Лайсэнзин Корпорейшн | Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения |
CN104242850A (zh) * | 2014-09-09 | 2014-12-24 | 联想(北京)有限公司 | 一种音频信号处理方法及电子设备 |
JP6559576B2 (ja) | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP2023542927A (ja) * | 2020-09-23 | 2023-10-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応ノイズ推定 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
JP3269969B2 (ja) * | 1996-05-21 | 2002-04-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
US6487257B1 (en) * | 1999-04-12 | 2002-11-26 | Telefonaktiebolaget L M Ericsson | Signal noise reduction by time-domain spectral subtraction using fixed filters |
US6507623B1 (en) * | 1999-04-12 | 2003-01-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by time-domain spectral subtraction |
JP3454206B2 (ja) * | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP4583781B2 (ja) * | 2003-06-12 | 2010-11-17 | アルパイン株式会社 | 音声補正装置 |
JP4162604B2 (ja) * | 2004-01-08 | 2008-10-08 | 株式会社東芝 | 雑音抑圧装置及び雑音抑圧方法 |
JP4209348B2 (ja) * | 2004-03-05 | 2009-01-14 | 日本電信電話株式会社 | エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体 |
US7492889B2 (en) * | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US7454332B2 (en) * | 2004-06-15 | 2008-11-18 | Microsoft Corporation | Gain constrained noise suppression |
JPWO2005124739A1 (ja) * | 2004-06-18 | 2008-04-17 | 松下電器産業株式会社 | 雑音抑圧装置および雑音抑圧方法 |
WO2006070560A1 (ja) | 2004-12-28 | 2006-07-06 | Pioneer Corporation | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP5061111B2 (ja) * | 2006-09-15 | 2012-10-31 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US8275611B2 (en) | 2007-01-18 | 2012-09-25 | Stmicroelectronics Asia Pacific Pte., Ltd. | Adaptive noise suppression for digital speech signals |
-
2008
- 2008-10-24 JP JP2008274772A patent/JP5245714B2/ja active Active
-
2009
- 2009-10-23 KR KR1020090101089A patent/KR101088627B1/ko not_active IP Right Cessation
- 2009-10-26 CN CN2009102055347A patent/CN101727910B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20100045933A (ko) | 2010-05-04 |
JP2010102199A (ja) | 2010-05-06 |
CN101727910A (zh) | 2010-06-09 |
KR101088627B1 (ko) | 2011-11-30 |
CN101727910B (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5245714B2 (ja) | 雑音抑圧装置及び雑音抑圧方法 | |
JP5071346B2 (ja) | 雑音抑圧装置及び雑音抑圧方法 | |
JP5183828B2 (ja) | 雑音抑圧装置 | |
EP2546831B1 (en) | Noise suppression device | |
JP3574123B2 (ja) | 雑音抑圧装置 | |
US7912567B2 (en) | Noise suppressor | |
JP3591068B2 (ja) | 音声信号の雑音低減方法 | |
JP5153886B2 (ja) | 雑音抑圧装置および音声復号化装置 | |
JP5526524B2 (ja) | 雑音抑圧装置及び雑音抑圧方法 | |
JP5646077B2 (ja) | 雑音抑圧装置 | |
US8560308B2 (en) | Speech sound enhancement device utilizing ratio of the ambient to background noise | |
JP2001134287A (ja) | 雑音抑圧装置 | |
JP2002508891A (ja) | 特に補聴器における雑音を低減する装置および方法 | |
WO2002101729A1 (fr) | Attenuateur de bruit | |
JPWO2006046293A1 (ja) | 雑音抑圧装置 | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
Lu et al. | A gain factor adapted by masking property and SNR variation for speech enhancement in colored-noise corruptions | |
US11183172B2 (en) | Detection of fricatives in speech signals | |
JP5131149B2 (ja) | 雑音抑圧装置及び雑音抑圧方法 | |
CN103187068B (zh) | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 | |
JP5316127B2 (ja) | 音処理装置およびプログラム | |
JP2003517761A (ja) | 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5245714 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |