JP4568733B2 - 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 - Google Patents
雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP4568733B2 JP4568733B2 JP2006550638A JP2006550638A JP4568733B2 JP 4568733 B2 JP4568733 B2 JP 4568733B2 JP 2006550638 A JP2006550638 A JP 2006550638A JP 2006550638 A JP2006550638 A JP 2006550638A JP 4568733 B2 JP4568733 B2 JP 4568733B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- frame
- noise
- speech
- noise suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001629 suppression Effects 0.000 title claims description 41
- 238000000034 method Methods 0.000 title claims description 18
- 238000001228 spectrum Methods 0.000 claims description 222
- 238000006243 chemical reaction Methods 0.000 claims description 42
- 238000009499 grossing Methods 0.000 claims description 35
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
Description
この発明は、雑音が重畳した音声信号から雑音を抑圧す雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体に関する。ただし、この発明の利用は、上述の雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体に限らない。
雑音が重畳した音声信号から雑音を抑圧する簡便でかつ非常に有効な手法としてS.F.Bollが提案したスペクトルサブトラクションが知られている。このスペクトルサブトラクションにより、現フレームの雑音重畳音声パワースペクトルを用いてゲインを算出している(たとえば、非特許文献1参照。)。
また、時間方向平滑化雑音重畳音声パワースペクトルを用いてゲインを算出する手法がある。これによると、相互相関項の影響を低減するために、現フレームを含む過去数フレームの雑音重畳音声パワースペクトルを時間方向に移動平均して平滑化を行うものがある。すなわち、現フレームを含む過去数フレームの雑音重畳音声パワースペクトルを時間方向に平滑化した時間方向平滑化雑音重畳音声パワースペクトルを用いてゲインを算出している(たとえば、非特許文献2)。
S・F・ボール(S.F.Boll)、「サプレッション オブ アコースティック ノイズ イン スピーチ ユージング スペクトラル サブトラクション(Suppression of Acoustic Noise in Speech Using Spectral Subtraction)」、アイ・トリプル・イー トラザクション オン アコースティックス・スピーチ・シグナルプロセシング(IEEE Transaction on Acoustics,Speech and Signal Processing)、1979年、第ASSP−27巻第2号、p.113−120
北岡 教英、赤堀 一郎、中川 聖一、「スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識」、電子情報通信学会論文誌、2000年2月、第J83−D−II巻、第2号、p.500−508
しかしながら、スペクトルサブトラクションでは、現フレームのみの雑音重畳音声パワースペクトルを用いてゲインを算出しているので、音声と雑音の相互相関項の影響が大きくなり高精度のゲインの推定が困難である。そのために、雑音抑圧後の音声にミュージカルノイズと呼ばれる特有の消し残り雑音が発生したり、音声スペクトルが歪むので音質が悪い。また、音声認識の前処理としてスペクトルサブトラクションを利用する場合に認識率の改善効果が少ないという問題が一例として挙げられる。
また、現フレームを含む過去数フレームの雑音重畳音声パワースペクトルを時間方向に平滑化して音声と雑音の相互相関項の影響を低減する場合、時間的に変動する音声スペクトルを現フレームから時間的に離れたフレームにわたって平滑化しているためにゲインの推定精度が劣るという問題が一例として挙げられる。
請求項1の発明にかかる雑音抑圧装置は、雑音が重畳した入力音声をフレーム分割する第1フレーム分割手段と、前記第1フレーム分割手段によりフレーム分割された入力音声をスペクトルに変換する第1スペクトル変換手段と、前記第1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出手段と、前記音声区間検出手段で非音声区間と判別された区間の前記入力音声スペクトルを用いて、雑音スペクトルを推定する雑音スペクトル推定手段と、前記第1フレーム分割手段のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第2フレーム分割手段と、前記第2フレーム分割手段によってフレーム分割された入力音声をスペクトルに変換する第2スペクトル変換手段と、 前記第2スペクトル変換手段によって変換されたスペクトルを周波数方向に平滑化する平滑化手段と、前記平滑化手段によって平滑化されたスペクトルおよび前記雑音スペクトル推定手段により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出手段と、前記第1スペクトル変換手段により求めた入力音声スペクトルに、前記ゲインを乗算することによりスペクトル減算を行うスペクトル減算手段と、を備えることを特徴とする。
また、請求項7の発明にかかる雑音抑圧方法は、雑音が重畳した入力音声をフレーム分割する第1フレーム分割工程と、前記第1フレーム分割工程によりフレーム分割された入力音声をスペクトルに変換する第1スペクトル変換工程と、前記第1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出工程と、前記音声区間検出工程で非音声区間と判別された区間の前記入力音声スペクトルを用いて、雑音スペクトルを推定する雑音スペクトル推定工程と、前記第1フレーム分割工程のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第2フレーム分割工程と、前記第2フレーム分割工程によってフレーム分割された入力音声をスペクトルに変換する第2スペクトル変換工程と、前記第2スペクトル変換工程によって変換されたスペクトルを周波数方向に平滑化する平滑化工程と、前記平滑化工程によって平滑化されたスペクトルおよび前記雑音スペクトル推定工程により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出工程と、前記第1スペクトル変換工程により求めた入力音声スペクトルに、前記ゲインを乗算することによりスペクトル減算を行うスペクトル減算工程と、を含むことを特徴とする。
また、請求項8の発明にかかる雑音抑圧プログラムは、請求項7に記載の雑音抑圧方法を、コンピュータに実行させることを特徴とする。
また、請求項9の発明にかかるコンピュータに読み取り可能な記録媒体は、請求項8に記載の雑音抑圧プログラムを記録したことを特徴とする。
101 第1フレーム分割部
102 第1変換部
103 雑音スペクトル推定部
104 第2フレーム分割部
105 第2変換部
106 平滑化部
107 ゲイン算出部
108 スペクトル減算部
401 信号用フレーム分割部
402 スペクトル変換部
403 音声区間検出部
404 雑音スペクトル推定部
405 ゲイン算出部
406 スペクトル減算部
407 波形変換部
408 波形合成部
409 時間方向平滑化部
601 ゲイン算出用フレーム分割部
602 スペクトル変換部
603 周波数方向平滑化部
102 第1変換部
103 雑音スペクトル推定部
104 第2フレーム分割部
105 第2変換部
106 平滑化部
107 ゲイン算出部
108 スペクトル減算部
401 信号用フレーム分割部
402 スペクトル変換部
403 音声区間検出部
404 雑音スペクトル推定部
405 ゲイン算出部
406 スペクトル減算部
407 波形変換部
408 波形合成部
409 時間方向平滑化部
601 ゲイン算出用フレーム分割部
602 スペクトル変換部
603 周波数方向平滑化部
以下に添付図面を参照して、この発明にかかる雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。
図1は、この発明の実施の形態に係る雑音抑圧装置の機能的構成を示すブロック図である。この実施の形態の雑音抑圧装置は、入力音声から音声スペクトルと雑音スペクトルを算出し、該音声スペクトルと該雑音スペクトルに基づいてゲインを算出し、算出されたゲインを用いて前記入力音声の雑音を抑圧する。また、この雑音抑圧装置は、第1フレーム分割部101、第1変換部102、雑音スペクトル推定部103、第2フレーム分割部104、第2変換部105、平滑化部106、ゲイン算出部107、スペクトル減算部108により構成されている。
第1フレーム分割部101は所定のフレーム長に、前記入力音声をフレーム分割する。第1変換部102は、第1フレーム分割部によってフレーム分割された入力音声をスペクトルに変換する。雑音スペクトル推定部103は、第1変換部102によって変換されたスペクトルの内、非音声区間と判定されたフレームのスペクトルを用いて、雑音スペクトルを推定する。
第2フレーム分割部104は、第1フレーム分割部101のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する。また、第2フレーム分割部104は第1フレーム分割部101のフレーム長の整数倍、たとえば2倍のフレーム長に、入力音声をフレーム分割することができる。第1フレーム分割部101、第2フレーム分割部104は、分割した入力音声をそれぞれ窓掛け処理することができる。また、第1フレーム分割部101、第2フレーム分割部104は、分割した入力音声を、ハニング窓を用いて窓掛け処理することができる。
第2変換部105は、第2フレーム分割部104によってフレーム分割された入力音声をスペクトルに変換する。平滑化部106は、第2変換部105によって変換されたスペクトルを周波数方向に平滑化する。たとえば、第2フレーム分割部104が、第1フレーム分割部101のフレーム長の2倍のフレーム長に、入力音声をフレーム分割する場合は、平滑化部106は、第2変換部105によって変換されたスペクトルの偶数番号のスペクトルを、該偶数番号のスペクトルの前後の番号のスペクトルを用いて平滑化することができる。すなわち、平滑化部106は、第2変換部105によって変換された2K番目のスペクトルを、2K―1番目のスペクトル、前記2K番目のスペクトルおよび2K+1番目のスペクトルを用いて平滑化する。
ゲイン算出部107は、平滑化部103によって平滑化されたスペクトルと、雑音スペクトル推定部103によって推定された雑音スペクトルに基づいてゲインを算出する。スペクトル減算部108は、第1変換部102によって変換された入力音声スペクトルに、ゲイン算出部107で算出されたゲインを乗算することにより、前記入力音声の雑音を抑圧する。スペクトル減算部108は、ゲイン算出部107で算出されたゲインと、第1変換部102で変換された入力音声スペクトルを同一のタイミングで入力することができる。
図2は、この発明の実施の形態に係る雑音抑圧方法の処理を示すフローチャートである。まず、第1フレーム分割部101は、所定のフレーム長に音声をフレーム分割する(ステップS201)。次に、第1変換部102は、第1フレーム分割部によってフレーム分割された入力音声をスペクトルに変換する(ステップS202)。次に、雑音スペクトル推定部103は、第1変換部102によって変換されたスペクトルの内、非音声区間と判定されたフレームのスペクトルを用いて、雑音スペクトルを推定する(ステップS203)。
第2フレーム分割部104は、第1フレーム分割部101のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する(ステップS204)。次に、第2変換部105は、第2フレーム分割部104によってフレーム分割された入力音声をスペクトルに変換する(ステップS205)。次に、平滑化部106は、第2変換部105によって変換されたスペクトルを周波数方向に平滑化する(ステップS206)。次に、ゲイン算出部107は、平滑化部103によって平滑化されたスペクトルと、雑音スペクトル推定部103によって推定された雑音スペクトルに基づいてゲインを算出する(ステップS207)。次に、スペクトル減算部108は、第1変換部102によって変換された入力音声スペクトルに、ゲイン算出部107で算出されたゲインを乗算することにより、スペクトル減算する(ステップS208)。
以上説明した実施の形態により、音声と雑音の相互相関項の影響を低減でき、高精度のゲインを推定することができる。その結果として高音質の音声が得られ、音声認識の前処理として用いた場合、雑音下での音声認識率を改善できる。
ここで、従来技術であるスペクトルサブトラクションについて説明する。スペクトルサブトラクションは雑音重畳音声をスペクトル領域に変換し、雑音区間で推定された推定雑音スペクトルを雑音重畳音声スペクトルから減算する手法である。雑音重畳音声スペクトルをX(k)、クリーン音声スペクトルをS(k)、雑音スペクトルをD(k)とすると、X(k)=S(k)+D(k)と表せる。パワースペクトル領域では、下記式(1)として表せる。
上式の右辺第3項は音声と雑音の相互相関項である。ここで、音声と雑音は無相関と仮定して、下記式(2)のように近似する。
これより、クリーン音声パワースペクトルは雑音重畳音声パワースペクトルから推定雑音パワースペクトルを減算して、下記式(3)のように推定される。
より一般的には下記式(4)のように推定される。
ここで、αはサブトラクション係数で、推定雑音パワースペクトルを多めに減算するために1より大きい値に設定される。βはフロア係数で、減算後のスペクトルが負あるいは0に近い値になることを回避するために正の小さな値に設定される。上式はゲインG(k)を用いて|X(k)|に対するフィルタリングとしても表現できる。
上記式(5)のようにおくと、推定クリーン音声振幅スペクトルは下記式(6)で求められる。
さらに、推定クリーン音声スペクトルは下記式(7)で求められる。
次に、上述のスペクトルサブトラクションを用いて雑音除去する場合の構成について説明する。図3は、従来技術のスペクトルサブトラクション雑音抑圧装置の機能的構成を示すブロック図である。図3に示す雑音抑圧装置は、信号用フレーム分割部401、スペクトル変換部402、音声区間検出部403、雑音スペクトル推定部404、ゲイン算出部405、スペクトル減算部406、波形変換部407、波形合成部408によって構成される。
信号用フレーム分割部401は、雑音重畳音声を一定数のサンプルからなるフレームに分割しスペクトル変換部402と音声区間検出部403に送る。スペクトル変換部402は、離散フーリエ変換により雑音重畳音声スペクトルX(k)を求め、ゲイン算出部405とスペクトル減算部406へ送る。音声区間検出部403は、音声区間/非音声区間を判別し、非音声区間と判定されたフレームの雑音重畳音声スペクトルを雑音スペクトル推定部404に送る。
雑音スペクトル推定部404は、非音声と判定された過去数フレームのパワースペクトルの時間平均を計算し、推定雑音パワースペクトルを求める。ゲイン算出部405は、雑音重畳音声パワースペクトルと推定雑音パワースペクトルを用いてゲインG(k)を算出する。
スペクトル減算部406は、ゲインG(k)を雑音重畳音声スペクトルX(k)に乗算して、推定クリーン音声スペクトルを推定する。波形変換部407は、逆離散フーリエ変換により推定クリーン音声スペクトルを時間波形に変換する。波形合成部408は、フレーム単位の時間波形をオーバーラップ加算して連続波形を合成する。
上述のスペクトルサブトラクションでは音声と雑音は無相関と仮定して、式(1)の右辺第3項の相互相関項を0とおいて、式(2)のように雑音重畳音声パワースペクトルをクリーン音声パワースペクトルと雑音パワースペクトルの和で近似している。しかし、音声と雑音が無相関であっても短時間フレーム分析する場合、相互相関項は0にならない。単に期待値が0になるだけである。そのため、式(1)の右辺第3項を0とおいた影響によりスペクトルサブトラクション後の推定クリーン音声に雑音が残る。
図4は、時間方向平滑化雑音重畳音声パワースペクトルを用いる雑音抑圧装置の機能的構成を示すブロック図である。図4の示す雑音抑圧装置は、図3に示したゲイン算出部405の前に時間方向平滑化部409を備えた構成である。この雑音抑圧装置では、現フレーム時刻tの時間方向平滑化雑音重畳音声パワースペクトルを、下記式(8)のように現フレームを含む過去Lフレームの移動平均により求める。
ゲイン算出部405は、式(5)において現フレームの雑音重畳音声パワースペクトル|X(k)|2の代わりに、下記式(10)で示される時間方向平滑化雑音重畳音声パワースペクトルを用いてゲインG(k)を算出する。
以上、従来技術のスペクトルサブトラクションを用いたゲイン算出について説明したが、この実施例では、上述の構成に加え、信号用フレーム分割部401およびスペクトル変換部402とは別の、ゲイン算出用フレーム分割部601およびスペクトル変換部602を備え、かつ信号用フレームのサンプル数よりゲイン算出用フレームのサンプル数を多くする。それにより、周波数方向に平滑化した雑音重畳音声パワースペクトルが算出可能になり、これを用いてゲインG(k)を算出する。
(雑音抑圧装置の機能的構成)
図5は、この実施例の雑音抑圧装置の機能的構成を示すブロック図である。図5に示す雑音抑圧装置は、信号用フレーム分割部401、スペクトル変換部402、音声区間検出部403、雑音スペクトル推定部404、ゲイン算出部405、スペクトル減算部406、波形変換部407、波形合成部408、ゲイン算出用フレーム分割部601、スペクトル変換部602、周波数方向平滑化部603によって構成される。
図5は、この実施例の雑音抑圧装置の機能的構成を示すブロック図である。図5に示す雑音抑圧装置は、信号用フレーム分割部401、スペクトル変換部402、音声区間検出部403、雑音スペクトル推定部404、ゲイン算出部405、スペクトル減算部406、波形変換部407、波形合成部408、ゲイン算出用フレーム分割部601、スペクトル変換部602、周波数方向平滑化部603によって構成される。
実際の処理はCPUが、ROMに書き込まれたプログラムを読み出すことによって、RAMをワークエリアとして使用することにより実行する。図5を用いて実施例を説明する。まず、雑音重畳音声が、信号用フレーム分割部401とゲイン算出用フレーム分割部601へ送られる。
信号用フレーム分割部401は、雑音重畳音声を、N(例えば256)サンプルからなるフレームに分割する。このときスペクトル変換部402における離散フーリエ変換(DiScrete Fourier TranSform:DFT)の周波数分析精度を高くするために窓掛け処理される。また、波形合成処理する場合はフレーム境界で不連続な波形になることを防止するために、フレームはオーバーラップするように分割される。
フレーム分割された雑音重畳音声信号xS(n)は、xS(n)=SS(n)+dS(n)、0≦n≦N−1、と表される。ここで、SS(n)はクリーン音声信号、dS(n)は雑音である。
スペクトル変換部402は、フレーム分割された雑音重畳音声信号xS(n)を、離散フーリエ変換によりスペクトルに変換する。スペクトルXS(k)はXS(k)=SS(k)+DS(k)、0≦k≦N−1、と表される。ここで、SS(k)はクリーン音声スペクトルの第k成分、DS(k)は雑音スペクトルの第k成分である。スペクトルXS(k)はスペクトル減算部406に送られる。
音声区間検出部403は、並行してフレーム分割された雑音重畳音声信号xS(n)について、音声区間/非音声区間を判別し、非音声区間と判定されたフレームの雑音重畳音声信号のスペクトルXS(k)=DS(k)を雑音スペクトル推定部404に送る。
雑音スペクトル推定部404は、非音声区間と判定された過去数フレーム分のパワースペクトルの時間平均を計算し、推定雑音パワースペクトルDPを、下記式(11)で与える。
ゲイン算出用フレーム分割部601は、雑音重畳音声を、Nより多いM(たとえば512)サンプルからなるフレームに分割する。このとき、ゲイン算出用フレーム分割の窓の中心を信号用フレーム分割の窓の中心と一致させる。フレーム分割された雑音重畳音声信号xg(m)は、xg(m)=Sg(m)+dg(m)、0≦m≦M−1、と表される。ここで、Sg(m)はクリーン音声信号、dg(m)は雑音である。
スペクトル変換部602は、フレーム分割された雑音重畳音声信号xg(m)を離散フーリエ変換によりゲイン算出用スペクトルに変換する。ゲイン算出用スペクトルXg(l)は、Xg(l)=Sg(l)+Dg(l)、0≦l≦M−1と表される。ここで、Sg(l)は、クリーン音声スペクトルの第l成分、Dg(l)は雑音スペクトルの第l成分である。
周波数方向平滑化部603は、ゲイン算出用スペクトルXg(l)を平滑化する。ゲイン算出用フレーム分割のサンプル数Mを信号用フレームのサンプル数Nの2倍(M=2N)に取った場合、後述する図7に示すように、ゲイン算出用スペクトルXg(l)と信号スペクトルXS(k)は、l=2k(k=0,1,…,N−1)のときに周波数が一致する。
そこで、スペクトルXS(k)に対するゲインG(k)を算出するためにXg(2k)を中心とするXg(2k−1)、Xg(2k)およびXg(2k+1)を用いて、周波数方向平滑化パワースペクトルXPは、下記式(12)のようにおく。
ここで、a-1、a0、a+1は平滑化の重みで、a-1+a0+a+1=1.0の関係がある。ここでは、a-1=a0=a+1=1/3とする。この周波数方向平滑化パワースペクトルXPは、ゲイン算出部405に送られる。
ここでαはサブトラクション係数で、推定雑音パワースペクトルDPを多めに減算するために1より大きい値に設定される、βはフロア係数であり、減算後のスペクトルが負あるいは0に近い値になることを回避するために正の小さな値に設定される。算出されたゲインG(k)はスペクトル減算部406へ送られる。
スペクトル減算部406は、スペクトル変換部402で算出されたスペクトルXS(k)にゲインG(k)を乗算することにより、推定雑音スペクトルが減算された推定クリーン音声スペクトルを、下記式(14)のように算出する。
波形変換部407は、推定クリーン音声スペクトルを逆離散フーリエ変換(InverSe DiScrete Fourier TranSform:IDFT)してフレーム単位の時間波形を求める。波形合成部408は、フレーム単位の時間波形をオーバーラップ加算して連続波形を合成し、雑音抑圧音声を出力する。
図6は、入力音声のフレーム分割を説明する説明図である。図6(a)は、信号用フレーム分割部401において、雑音重畳音声をN(たとえば256)サンプルからなるフレームに分割する場合を示す。このとき、離散フーリエ変換(DiScrete Fourier TranSform:DFT)の周波数分析精度を高くするために窓掛け処理される。また、波形合成処理する場合はフレーム境界で不連続な波形になることを防止するために、フレームはオーバーラップするように分割される。
図6(b)は、ゲイン算出用フレーム分割部601において、雑音重畳音声をNより多いM(たとえば512)サンプルからなるフレームに分割する場合を示す。ここでは、時間幅を図6(a)の場合の2倍にとってある。このように、ゲイン算出用フレームのサンプル数を、信号用フレームのサンプル数より多くする。また、ゲイン算出用フレームの中心と信号用フレームの中心を一致させる。
図7は、周波数方向に平滑化した場合のゲイン算出を説明する説明図である。グラフ801に示すように、ゲイン算出用スペクトルXg(l)は、スペクトル変換部602によって周波数に応じたl本のスペクトルが出力される。ゲイン算出用スペクトルXg(l)の周波数方向平滑化は、信号スペクトル成分の周波数と一致するスペクトル成分を中心とする複数のスペクトル成分を用いる。
たとえば、ゲイン算出用フレーム分割のサンプル数Mを、信号用フレームのサンプル数Nの2倍(M=2N)に取った場合、ゲイン算出用スペクトルXg(l)と信号スペクトルXS(k)は、l=2k(k=0,1,…,N−1)のときに周波数が一致する。すなわち、グラフ801は、l=0,1,…に対応したスペクトルを示しているが、このうち、太線で示した偶数番号に対応したスペクトルを、このスペクトルの前後にある細線で示したスペクトルと組み合わせることにより周波数方向平滑化している。たとえば、l=6のスペクトルに対し、l=5およびl=7のスペクトルを使用する。これに対し、G(3)で示されるゲイン802が算出される。ゲイン802は、スペクトル減算部406において、グラフ803で示されるスペクトルXS(k)とかけ合わされる。
次に、窓関数について説明する。長い信号のスペクトル変換は、上述のようにフレーム単位で分割してフーリエ変換するが、離散値のデータを用いることになるので、離散フーリエ変換となる。離散フーリエ変換の場合、データの周期性が仮定されているが、切り出したデータの両端が極端な値の場合、影響が大きくなってしまい、結果として高周波成分の歪みが発生してしまう。この対策として、信号に窓関数をかけた結果を離散フーリエ変換する。この窓関数をかけ合わせる処理のことを窓掛け処理という。
窓関数は、メインローブ(周波数が0周辺の振幅スペクトルが大きい領域)の幅が狭く、サイドローブ(周波数が0から離れた位置の振幅スペクトルが小さい領域)の振幅が小さいことが条件となる。具体的には、方形窓、ハニング窓、ハミング窓、ガウス窓などが挙げられる。
本実施例で用いる窓関数はハニング窓である。ハニング窓の窓関数は、0≦n≦N−1の範囲で、h(n)=0.5−0.5{cos(2πn/(N−1))}で与えられ、その他の範囲ではh(n)=0である。この窓関数は、メインローブの周波数分解能は比較的劣るものの、サイドローブの振幅が比較的小さい。
以上説明した実施例によれば、雑音重畳音声パワースペクトルの複数のスペクトル成分を用いて周波数方向に平滑化を行っているので、音声と雑音の相互相関項を低減でき、高精度のゲインを推定できる。さらに、ゲイン算出用フレームと信号用フレームの中心が一致しているので、信号フレームとほぼ同時刻のフレームを用いてゲインを算出できるので精度の高いゲインの推定が可能である。これによりミュージカルノイズや音声スペクトルの歪みの少ない高音質の音声が得られる。また、音声認識の前処理として実施例を用いた場合、雑音下での音声認識率の改善効果が大きい。
なお、本実施の形態で説明した雑音抑圧方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体でもよい。
Claims (9)
- 雑音が重畳した入力音声をフレーム分割する第1フレーム分割手段と、
前記第1フレーム分割手段によりフレーム分割された入力音声をスペクトルに変換する第1スペクトル変換手段と、
前記第1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出手段と、
前記音声区間検出手段で非音声区間と判別された区間の前記入力音声スペクトルを用いて、雑音スペクトルを推定する雑音スペクトル推定手段と、
前記第1フレーム分割手段のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第2フレーム分割手段と、
前記第2フレーム分割手段によってフレーム分割された入力音声をスペクトルに変換する第2スペクトル変換手段と、
前記第2スペクトル変換手段によって変換されたスペクトルを周波数方向に平滑化する平滑化手段と、
前記平滑化手段によって平滑化されたスペクトルおよび前記雑音スペクトル推定手段により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出手段と、
前記第1スペクトル変換手段により求めた入力音声スペクトルに、前記ゲインを乗算することによりスペクトル減算を行うスペクトル減算手段と、
を備えることを特徴とする雑音抑圧装置。 - 前記第2フレーム分割手段は、前記入力音声を、前記第1フレーム分割手段のフレーム長の整数倍のフレーム長にフレーム分割することを特徴とする請求項1に記載の雑音抑圧装置。
- 前記第2フレーム分割手段は、前記入力音声を、前記第1フレーム分割手段のフレーム長の2倍のフレーム長にフレーム分割し、前記平滑化手段は、前記第2スペクトル変換手段によって変換された周波数方向の順番において偶数番号のスペクトルを、該偶数番号のスペクトルの前後の番号のスペクトルを用いて平滑化することを特徴とする請求項2に記載の雑音抑圧装置。
- 前記第1フレーム分割手段および前記第2フレーム分割手段は、分割した入力音声にそれぞれ窓関数をかけ合わせることを特徴とする請求項1に記載の雑音抑圧装置。
- 前記第1フレーム分割手段および前記第2フレーム分割手段は、前記窓関数にハニング窓を用いることを特徴とする請求項4に記載の雑音抑圧装置。
- 前記スペクトル減算手段は、前記ゲイン算出手段によって算出されたゲインを、前記第1スペクトル変換手段により求めた入力音声スペクトルと同一のタイミングで入力することを特徴とする請求項1〜5のいずれか一つに記載の雑音抑圧装置。
- 雑音が重畳した入力音声をフレーム分割する第1フレーム分割工程と、
前記第1フレーム分割工程によりフレーム分割された入力音声をスペクトルに変換する第1スペクトル変換工程と、
前記第1フレーム分割手段により分割された各フレームが音声区間か非音声区間かを判別する音声区間検出工程と、
前記音声区間検出工程で非音声区間と判別された区間の前記入力音声スペクトルを用いて、雑音スペクトルを推定する雑音スペクトル推定工程と、
前記第1フレーム分割工程のフレーム長より長いフレーム長に、前記入力音声をフレーム分割する第2フレーム分割工程と、
前記第2フレーム分割工程によってフレーム分割された入力音声をスペクトルに変換する第2スペクトル変換工程と、
前記第2スペクトル変換工程によって変換されたスペクトルを周波数方向に平滑化する平滑化工程と、
前記平滑化工程によって平滑化されたスペクトルおよび前記雑音スペクトル推定工程により推定された推定雑音スペクトルに基づいてゲインを算出するゲイン算出工程と、
前記第1スペクトル変換工程により求めた入力音声スペクトルに、前記ゲインを乗算することによりスペクトル減算を行うスペクトル減算工程と、
を含むことを特徴とする雑音抑圧方法。 - 請求項7に記載の雑音抑圧方法をコンピュータに実行させることを特徴とする雑音抑圧プログラム。
- 請求項8に記載の雑音抑圧プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004382163 | 2004-12-28 | ||
JP2004382163 | 2004-12-28 | ||
PCT/JP2005/022095 WO2006070560A1 (ja) | 2004-12-28 | 2005-12-01 | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006070560A1 JPWO2006070560A1 (ja) | 2008-06-12 |
JP4568733B2 true JP4568733B2 (ja) | 2010-10-27 |
Family
ID=36614685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006550638A Expired - Fee Related JP4568733B2 (ja) | 2004-12-28 | 2005-12-01 | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7957964B2 (ja) |
JP (1) | JP4568733B2 (ja) |
WO (1) | WO2006070560A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744844B2 (en) * | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
WO2009038136A1 (ja) * | 2007-09-19 | 2009-03-26 | Nec Corporation | 雑音抑圧装置、その方法及びプログラム |
JP4660578B2 (ja) * | 2008-08-29 | 2011-03-30 | 株式会社東芝 | 信号補正装置 |
EP2164066B1 (en) * | 2008-09-15 | 2016-03-09 | Oticon A/S | Noise spectrum tracking in noisy acoustical signals |
JP5245714B2 (ja) | 2008-10-24 | 2013-07-24 | ヤマハ株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP5071346B2 (ja) | 2008-10-24 | 2012-11-14 | ヤマハ株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP5526524B2 (ja) | 2008-10-24 | 2014-06-18 | ヤマハ株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP5232121B2 (ja) * | 2009-10-02 | 2013-07-10 | 株式会社東芝 | 信号処理装置 |
JP5566846B2 (ja) * | 2010-10-15 | 2014-08-06 | 本田技研工業株式会社 | ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法 |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
JP6477295B2 (ja) * | 2015-06-29 | 2019-03-06 | 株式会社Jvcケンウッド | 雑音検出装置、雑音検出方法及び雑音検出プログラム |
JP6597062B2 (ja) * | 2015-08-31 | 2019-10-30 | 株式会社Jvcケンウッド | 雑音低減装置、雑音低減方法、雑音低減プログラム |
JP6729187B2 (ja) * | 2016-08-30 | 2020-07-22 | 富士通株式会社 | 音声処理プログラム、音声処理方法及び音声処理装置 |
CN112837703B (zh) * | 2020-12-30 | 2024-08-23 | 深圳市联影高端医疗装备创新研究院 | 医疗成像设备中语音信号获取方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0822297A (ja) * | 1994-07-07 | 1996-01-23 | Matsushita Commun Ind Co Ltd | 雑音抑圧装置 |
JPH09311698A (ja) * | 1996-05-21 | 1997-12-02 | Oki Electric Ind Co Ltd | 背景雑音消去装置 |
JP2001134287A (ja) * | 1999-11-10 | 2001-05-18 | Mitsubishi Electric Corp | 雑音抑圧装置 |
JP2002221988A (ja) * | 2001-01-25 | 2002-08-09 | Toshiba Corp | 音声信号の雑音抑圧方法と装置及び音声認識装置 |
JP2003101445A (ja) * | 2001-09-20 | 2003-04-04 | Mitsubishi Electric Corp | エコー処理装置 |
JP2004234023A (ja) * | 2004-04-02 | 2004-08-19 | Mitsubishi Electric Corp | 雑音抑圧装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1376539B8 (en) | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
-
2005
- 2005-12-01 US US11/794,130 patent/US7957964B2/en not_active Expired - Fee Related
- 2005-12-01 JP JP2006550638A patent/JP4568733B2/ja not_active Expired - Fee Related
- 2005-12-01 WO PCT/JP2005/022095 patent/WO2006070560A1/ja not_active Application Discontinuation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0822297A (ja) * | 1994-07-07 | 1996-01-23 | Matsushita Commun Ind Co Ltd | 雑音抑圧装置 |
JPH09311698A (ja) * | 1996-05-21 | 1997-12-02 | Oki Electric Ind Co Ltd | 背景雑音消去装置 |
JP2001134287A (ja) * | 1999-11-10 | 2001-05-18 | Mitsubishi Electric Corp | 雑音抑圧装置 |
JP2002221988A (ja) * | 2001-01-25 | 2002-08-09 | Toshiba Corp | 音声信号の雑音抑圧方法と装置及び音声認識装置 |
JP2003101445A (ja) * | 2001-09-20 | 2003-04-04 | Mitsubishi Electric Corp | エコー処理装置 |
JP2004234023A (ja) * | 2004-04-02 | 2004-08-19 | Mitsubishi Electric Corp | 雑音抑圧装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006070560A1 (ja) | 2008-06-12 |
WO2006070560A1 (ja) | 2006-07-06 |
US20080010063A1 (en) | 2008-01-10 |
US7957964B2 (en) | 2011-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568733B2 (ja) | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP6134078B1 (ja) | ノイズ抑制 | |
JP5791092B2 (ja) | 雑音抑圧の方法、装置、及びプログラム | |
JP4958303B2 (ja) | 雑音抑圧方法およびその装置 | |
CN1286788A (zh) | 关于低比特率语音编码器的噪声抑制 | |
KR20090008164A (ko) | 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체 | |
JP4454591B2 (ja) | 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置 | |
JP4787851B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置と、装置プログラムと記録媒体 | |
JP4965891B2 (ja) | 信号処理装置およびその方法 | |
JP2008216721A (ja) | 雑音抑圧の方法、装置、及びプログラム | |
JP5769671B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP5413575B2 (ja) | 雑音抑圧の方法、装置、及びプログラム | |
JP5889224B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP5769670B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP3279254B2 (ja) | スペクトル雑音除去装置 | |
JP5769672B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP3849679B2 (ja) | 雑音除去方法、雑音除去装置およびプログラム | |
JP5562451B1 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP4325044B2 (ja) | 音声認識システム | |
CN111226278B (zh) | 低复杂度的浊音语音检测和基音估计 | |
JP5700850B2 (ja) | 遅延推定方法とその方法を用いたエコー消去方法と、それらの装置とプログラムとその記録媒体 | |
Patil et al. | Use of baseband phase structure to improve the performance of current speech enhancement algorithms | |
US10109291B2 (en) | Noise suppression device, noise suppression method, and computer program product | |
JP2013130815A (ja) | 雑音抑圧装置 | |
JP5487062B2 (ja) | 雑音除去装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100809 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |