JP6119604B2 - 信号処理装置、信号処理方法、および信号処理プログラム - Google Patents
信号処理装置、信号処理方法、および信号処理プログラム Download PDFInfo
- Publication number
- JP6119604B2 JP6119604B2 JP2013528018A JP2013528018A JP6119604B2 JP 6119604 B2 JP6119604 B2 JP 6119604B2 JP 2013528018 A JP2013528018 A JP 2013528018A JP 2013528018 A JP2013528018 A JP 2013528018A JP 6119604 B2 JP6119604 B2 JP 6119604B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- amplitude
- signal
- frequency domain
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 51
- 230000007613 environmental effect Effects 0.000 claims description 47
- 230000008859 change Effects 0.000 claims description 13
- 230000003111 delayed effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 113
- 230000001629 suppression Effects 0.000 description 49
- 238000000034 method Methods 0.000 description 37
- 230000014509 gene expression Effects 0.000 description 28
- 238000001514 detection method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 230000009466 transformation Effects 0.000 description 17
- 230000015556 catabolic process Effects 0.000 description 15
- 238000006731 degradation reaction Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 230000006866 deterioration Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000001934 delay Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。
本発明の一態様における信号処理方法は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する。
本発明の一態様におけるコンピュータが読み取り可能な記録媒体に格納される信号処理プログラムは、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する、処理をコンピュータに実行させる。
(第1実施形態)
図1は、本発明の第1実施形態に係る信号処理装置100の概略構成を示す図である。
図1において、信号処理装置100は、変換部101と検出部102と推定部103と置換部104を備える。変換部101は、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する。また、推定部102は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する。さらに、検出部103は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する。一方、置換部104は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する。
以上の構成により、第1実施形態に係る信号処理装置100は、目的音と環境音を効果的に強調することができる。
(第2実施形態)
《全体構成》
本発明の第2実施形態としての雑音抑圧装置200について図2乃至図13を用いて説明する。図2は、雑音抑圧装置200の全体構成を示すブロック図である。本実施形態の雑音抑圧装置200は、たとえばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能するが、本発明はこれに限定されるものではない。雑音抑圧装置200は、入力信号からのノイズ除去を要求されるあらゆる情報処理装置に適用可能である。
入力端子206には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子206に劣化信号が供給されると、変換部201は、供給された劣化信号にフーリエ変換などの変換を施して、複数の周波数成分に分割する。変換部201は、複数の周波数成分を各周波数で独立に処理する。ここでは、特定の周波数成分に注目して説明を続ける。変換部201は、複数の周波数成分のうち振幅スペクトル(振幅成分)230を雑音抑圧部205に供給する。変換部201は、複数の周波数成分のうち位相スペクトル(位相成分)220を位相制御部(第1制御部)202に供給する。なお、ここでは、変換部201は、雑音抑圧部205に劣化信号振幅スペクトル230を供給しているが、本発明はこれに限定されるものではない。変換部201は、劣化信号振幅スペクトル230の二乗に相当するパワースペクトルを雑音抑圧部205に供給してもよい。
雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトル230を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部205は、変換部201から供給された劣化信号振幅スペクトル230と、生成した推定雑音スペクトルとを用いて雑音を抑圧する。雑音抑圧部205は、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部(第2制御部)203に伝達する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転(シフト)させ、強調信号位相スペクトル240として逆変換部(合成部)204へ供給する。また、位相制御部202は、位相の回転量(シフト量)を、振幅制御部203へ伝達する。振幅制御部203は、位相制御部202から位相の回転量(シフト量)を受け取って振幅補正量を算出する。振幅制御部203は、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル250を生成する。振幅制御部203は、補正振幅スペクトル250を逆変換部204へ供給する。逆変換部204は、位相制御部202から供給された強調信号位相スペクトル240と、振幅制御部203から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
《変換部201の構成》
図3は、変換部201の構成を示すブロック図である。図3に示すように、変換部201はフレーム分割部301、窓がけ処理部(windowing unit)302、およびフーリエ変換部303を含む。劣化信号サンプルは、フレーム分割部301に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部302に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,...,K/2−1)に対するw(t)で窓がけ(windowing)された信号は、次式(1)で与えられる。
以後、連続する2フレームの50%をオーバーラップして窓がけする場合を例として説明を続ける。窓がけ処理部302は、w(t)として、たとえば、次式(3)に示すハニング窓を用いても良い。
《逆変換部204の構成》
図4は、逆変換部204の構成を示すブロック図である。図4に示すように、逆変換部204は逆フーリエ変換部401、窓がけ処理部402およびフレーム合成部403を含む。逆フーリエ変換部401は、振幅制御部203から供給された補正振幅スペクトル250と位相制御部202から供給された強調信号位相スペクトル240(arg Yn(k))とを乗算して、強調信号(以下の式(4)の左辺)を求める。
また、変換部201において得られる周波数成分を複数統合してから、雑音抑圧部205で実際の抑圧を行っても良い。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合して、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
《雑音抑圧部205の構成》
図5は、本実施形態に係る雑音抑圧部205の内部構成を示すブロック図である。本実施形態では、図5に示すように、雑音抑圧部205が非目的音検出部552、環境音推定部553および振幅置換部551を含む。
非目的音検出部552は、劣化信号振幅スペクトル230を用いて、目的音の存在しない非目的音帯域554を検出し、振幅置換部551に供給する。
環境音推定部553は、劣化信号振幅スペクトル230を用いて、推定環境音振幅スペクトルを生成し、振幅置換部551に供給する。
振幅置換部551は、非目的音検出部552より供給される非目的音帯域554において、劣化信号振幅スペクトル230を、環境音推定部553より供給される推定環境音振幅スペクトルに置換し、振幅制御部203へ供給する。
《非目的音検出部552の詳細》
図6に、あるフレームにおける劣化信号振幅スペクトル230を示す。図6を参照しながら、非目的音検出部552における非目的音帯域554の検出方法を説明する。
まず、非目的音検出部552は、劣化信号振幅スペクトル230のピーク位置を検出する。ピーク位置は、ある周波数における劣化信号振幅スペクトル230の振幅値が、隣接する周波数の振幅値より大きい位置として、検出される。ピーク位置は、劣化信号振幅スペクトル230の頂点にあたる。図6では、実線の下向き矢印でピーク位置が示されている。
次に、非目的音検出部552は、振幅値検索範囲を設定する。非目的音検出部552は、ピーク位置を中心にした、左右一定の幅を、振幅値検索範囲に設定する。検索範囲の幅は、サンプリング周波数などに依存するパラメータである。なお、左右の幅は不等でもよい。図6では、横実線で振幅値検索範囲が示されている。
さらに、非目的音検出部552は、目的音判定閾値を設定する。目的音判定閾値は、ピーク位置の振幅値に係数を乗じた値である。係数は0以上1以下の値であり、その大きさは目的音の検出しやすさを調整するパラメータである。なお、非目的音検出部552は、目的音判定閾値を、乗算ではなく、減算で求めてもよい。減算する値は、ピーク位置振幅値に係数を乗じた値もしくは定数とする。図6では、横破線で目的音判定閾値が示されている。
非目的音検出部552は、以上の設定値に基づき、目的音帯域を検出する。目的音帯域は、劣化信号振幅スペクトル230が、振幅値検索範囲内で、ピーク位置を含み目的音判定閾値より大きい、連続した帯域である。ただし、振幅値検索範囲内において、劣化信号振幅スペクトル230が、目的音判定閾値をピーク位置両側で下回った場合だけ、目的音帯域は有効である。図6では、目的音帯域が斜線塗りで示されている。
例えば、ピーク位置(2)〜(4)では、振幅値検索範囲内において、劣化信号振幅スペクトル230がピーク位置両側で目的音判定閾値よりも低下していない。よって、ピーク位置(2)〜(4)においては、目的音帯域が検出されない。ピーク位置(1)および(5)では、振幅値検索範囲内において、劣化信号振幅スペクトル230がピーク位置両側で目的音判定閾値より低下している。よって、振幅値検索範囲内において、ピーク位置を含む目的音判定閾値より振幅値が大きい連続した帯域が目的音帯域と判定される。
最後に、前述の目的音帯域以外の帯域が非目的音帯域554として検出される。
《環境音推定部553の構成》
環境音推定部553は、劣化信号振幅スペクトル230を用いて、推定環境音振幅スペクトルを生成し、振幅置換部551に供給する。環境音の推定には、M.Kato,A.Sugiyama,and M.Serizawa,″Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA,″IEICE Trans.Fundamentals(Japanese Edition),vol.J87−A,no.7,pp.851−860,July 2004.(文献1)やR.Martin,″Spectral subtraction based on minimum statistics,″EUSPICO−94,pp.1182−1185,Sept.1994(文献2)に示されるように、様々な推定方法が利用できる。
たとえば、推定環境音振幅スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトル230の平均値とする方法(文献1)がある。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
理想的な動作状態として、強調信号は環境音以外の目的音となっている。また、目的音や環境音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルが環境音区間判定の指標とされる。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームが環境音区間と判定される。環境音振幅スペクトルは、環境音区間と判定されたフレームの劣化信号振幅スペクトル230を平均化することで推定される。
また、推定環境音振幅スペクトルを、劣化信号振幅スペクトル230が供給され始めた推定初期の平均値とする方法(文献1)もある。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトル230が推定環境音振幅スペクトルとされる。
さらに、推定環境音振幅スペクトルを、統計的な劣化信号振幅スペクトル230の最小値から求める方法(文献2)もある。この方法では、統計的に一定時間における劣化信号振幅スペクトル230の最小値を保持し、その最小値から環境音振幅スペクトルを推定する。劣化信号振幅スペクトル230の最小値は、環境音振幅スペクトルのスペクトル形状と似ているため、環境音振幅スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の環境音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定環境音振幅スペクトルとして用いる。
加えて、環境音推定部553は、非目的音検出部552より得られる非目的音帯域554だけで、環境音を推定してもよい。非目的音帯域だけで推定すると、目的音の影響が軽減され、環境音の推定精度が向上する。
《振幅置換部551の構成》
振幅置換部551は、非目的音検出部552より供給される非目的音帯域554において、劣化信号振幅スペクトル230を、環境音推定部553より供給される推定環境音振幅スペクトルに置換し、振幅制御部203へ供給する。
振幅置換部551は、推定環境音振幅スペクトルへの置換を、抑圧係数を用いて実現してもよい。この場合、振幅置換部551は、推定環境音振幅スペクトルを劣化信号振幅スペクトル230で除した値を抑圧係数とし、この抑圧係数を劣化信号振幅スペクトル230に乗じることで、置換と等価の処理を実現する。
《位相制御部202および振幅制御部203の構成》
図7は位相制御部202および振幅制御部203の構成を示すブロック図である。図7に示すように、位相制御部202は位相回転部701と回転量生成部702とを含む。振幅制御部203は、補正量算出部703と振幅補正部704とを含む。
回転量生成部702は、劣化信号位相スペクトル220の回転量を生成し、位相回転部701と補正量算出部703に供給する。位相回転部701は、変換部201から劣化信号位相スペクトル220が供給され、回転量生成部702から回転量が供給される。位相回転部701は、劣化信号位相スペクトル220を供給された回転量だけ回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。補正量算出部703は、回転量生成部702から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部704に供給する。回転量生成部702は、たとえば乱数によって回転量を生成する。位相回転部701は、回転量生成部702が乱数により生成した回転量を用いて劣化信号位相スペクトル220を各周波数で回転させる。位相回転部701が行う回転により、劣化信号位相スペクトル220の形状が変化する。この形状の変化により、雑音の特徴を弱めることができる。
乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがある。ここでは一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生する。ここでは、線形合同法での一様乱数を例に挙げ、説明を続ける。線形合同法で発生させた一様乱数は、0〜(2^M)−1の範囲に一様に分布する。
ここで、Mは任意の整数であり、^はべき乗を表している。位相の回転量φは、0〜2πの範囲に分布させる必要がある。そこで、発生させた一様乱数は、0〜2πの範囲に分布されるように変換される。変換は、以下の式(8)で行う。ここで、Rは一様乱数であり、Rmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)−1となる。
位相回転部701は、回転量生成部702から回転量を受け取り、劣化信号位相スペクトル220を回転させる。もし、劣化信号位相スペクトル220が角度で表現されている場合には、位相回転部701は、その角度に回転量φの値を加算することで回転させる。劣化信号位相スペクトル220が複素数の正規ベクトルで表現されている場合には、位相回転部701は、回転量φの正規ベクトルを求め、劣化信号位相スペクトル220に乗算することで回転させる。
回転量φの正規ベクトルは、式(9)で求められる。ここで、Φは回転ベクトルである。jはsqrt(−1)を示す。なお、sqrtは二乗根を表している。
図8および図9は、劣化信号が図2に示すブロック図で処理された場合の信号を示している。図8と図9の違いは位相回転の有無である。図8は位相回転を行わない場合の信号を、図9は位相回転をフレーム3から行った場合の信号を示している。
まず、位相を回転しない場合の信号について図8を用いて説明する。図8の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部301においてフレーム分割される。点線で区切られた、上から2番目の信号が、フレーム分割後の信号である。図8では、連続した4フレーム分の信号を図示した。また、フレームのオーバーラップ率は50%としている。
窓掛け処理部302は、フレームに分割された信号に窓掛けを行う。点線で区切られた、上から3番目の信号が窓掛け処理後の信号である。図8では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。
次に、フーリエ変換部303によって、周波数領域の信号に変換されるが、図8では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部204の逆フーリエ変換部401により、時間領域へ変換された信号を図示している。点線で区切られた、上から4番目の信号が位相回転後の信号である。ただし、図8では位相回転を行っていないため、窓掛け処理後の信号から変化していない。
逆変換部204の逆フーリエ変換部401から出力された強調信号は、窓掛け処理を再度実施される。図8では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部403において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバーラップ率が50%であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図8のように入力信号と出力信号は一致する。
一方、位相を回転する場合の信号について図9を用いて説明する。図9に示したのは位相回転をフレーム3から実施した場合の信号である。最上部に描かれているのは、図8と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図8と同様である。
図9では、フレーム3から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム3および4の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理が行われ、フレーム合成される。このとき、フレーム2とフレーム3が重なるiiの区間で、フレーム2とフレーム3の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図9のiiの区間で出力信号レベルが低下する。
この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。
図10に、フレーム分割および窓掛け処理後の連続した2フレームの劣化信号を、x1[n]およびx2[m]として示す。なお、オーバーラップ率は50%としている。ここで、nはx1の離散時間を表す。mはx2の離散時間を表す。オーバーラップ率が50%の場合には、以下の式(10)が成立する。
たとえば、図示した例のオーバーラップ率50%では、フレーム合成部403は、離散時間m=L/2〜L−1の区間で隣接フレームの加算を行う。この加算区間m=L/2〜L−1を考える。時間領域の加算に、式(16)および式(17)を代入すると、以下の式(18)のように表現される。
X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式(27)となる。
式(31)の絶対値を求めると、以下の式(32)となる。
この出力信号レベルの低下量(変化量)を補正するように、補正量算出部703は、強調信号振幅スペクトルの振幅補正量を決定する。
ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動(変化量)に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。
まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図13に示されるベクトルSのようになり、そのベクトルの大きさ|S|は、以下の式(33)で表わされる。
ここでは、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数は一意に定められる。正規乱数を使う場合の補正係数の導出を以下に説明する。
正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けが行われる必要がある。
具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)は、重みづけされる。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。
正規乱数による位相回転を行った場合の出力パワー期待値E(S′′^2)は、一様乱数の出力パワー期待値である式(35)に、重み付け関数f(φ)およびその積分値を導入し、以下の式(40)のように表現できる。
たとえば、平均値μ=0,分散σ=1の標準正規分布では、以下の式(42)となるので、これを式(40)に代入すると、式(43)のようになる。
《振幅補正部504の説明》
振幅制御部203では、位相制御部202から伝達された位相の回転量を用いて振幅補正係数を算出する。振幅制御部203は、算出した振幅補正係数を雑音抑圧部205から供給された強調信号振幅スペクトルに乗じ、逆変換部204に供給する。強調信号振幅スペクトルに振幅補正係数を乗じることにより、雑音抑圧装置200は、劣化信号位相スペクトル220を回転させ、強調信号位相スペクトル240を得た場合の出力レベル低下を解消することができる。
以上のように、本実施形態に係る雑音抑圧装置200は、位相スペクトルを回転操作することによる出力信号レベルへの影響を振幅制御部203により取り除くことができる。そのため、雑音抑圧装置200は、目的音と環境音とを効果的に強調した強調信号を得ることができる。
(第3実施形態)
本発明の第3実施形態について、図14を用いて説明する。図14は、本実施形態に係る位相制御部1402の構成を示すブロック図である。
本実施形態では、図14に示すように、回転量生成部1421において、非目的音検出部552より供給される非目的音帯域554を用いる点で、第2実施形態と異なる。それ以外の構成および動作については第2実施形態と同様であるためここでは詳しい説明を省略する。
回転量生成部1421は、非目的音検出部552より供給される非目的音帯域554だけで回転量を生成し、位相回転部701と振幅制御部203に供給する。
位相回転部701は、回転量生成部1421から回転量が供給される。位相回転部701は、変換部201から供給される劣化信号位相スペクトル220を、供給された回転量だけ回転(シフト)もしくは回転量に置換し、強調信号位相スペクトル240として逆変換部204へ供給する。
以上、非目的音帯域554だけで回転量を生成する方式を説明したが、全周波数で回転量を生成し、非目的音帯域554だけで位相回転しても同様の効果が得られる。この方式は、以下の処理によって実現される。
非目的音検出部552より検出される非目的音帯域554は、位相回転部701および振幅制御部203に供給される。位相回転部701は、非目的音帯域554だけで劣化信号位相スペクトル220を回転させ、強調信号位相スペクトル240を得る。振幅制御部203は、非目的音帯域554だけで振幅制御する。
《回転量生成部1421の構成》
回転量生成部1421は、非目的音検出部552から供給される非目的音帯域554において、劣化信号位相スペクトル220の回転量を生成し、位相回転部701と振幅制御部203に供給する。回転量生成部1421は、回転量の生成に、第2実施形態における回転量生成手法を用いる。
以上の実施形態によれば、第2実施形態の効果に加えて、非目的音帯域554だけで位相を回転(シフト)するため、目的音の劣化を軽減することができる。
(第4実施形態)
本発明の第4実施形態について、図15および図16を用いて説明する。図15は、本実施形態に係る雑音抑圧装置1500の構成を示す図である。本実施形態に係る雑音抑圧装置1500は、第2実施形態の図2の構成に加え、振幅成分遅延部1511、位相成分遅延部1512および逆変換部1513を含む。また、振幅制御部1503の内部構成にも差異がある。本実施形態において、振幅成分遅延部1511、位相成分遅延部1512および振幅制御部1503以外の動作については、第3実施形態と同様であるためここではその説明を省略する。
入力端子206に供給された劣化信号は、変換部201と振幅制御部1503に供給される。変換部201は、劣化信号振幅スペクトル230を振幅成分遅延部1511および逆変換部1513に供給する。また、変換部201は、劣化信号位相スペクトル220を位相制御部202に供給する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転させ、強調信号位相スペクトルとして逆変換部1513および位相成分遅延部1512へ供給する。また、位相制御部202は、各周波数における位相回転の有無を、振幅制御部1503へ伝達する。
逆変換部1513は、変換部201から供給された劣化信号振幅スペクトル230と位相制御部202から供給される強調信号位相スペクトルを用いて、位相回転によるレベル低下の生じた信号を振幅制御部1503に伝達する。
振幅成分遅延部1511は、変換部201からの劣化信号振幅スペクトル230を遅延させ、雑音抑圧部205に供給する。
位相成分遅延部1512は、位相制御部202からの強調信号位相スペクトルを遅延させ、逆変換部204に供給する。雑音抑圧部205は、振幅成分遅延部1511から供給される劣化信号振幅スペクトルを用いて、雑音を推定し、推定雑音スペクトルを生成する。
逆変換部204は、位相制御部202から位相成分遅延部1512を介して供給された、強調信号位相スペクトル240と、振幅制御部1503から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
劣化信号位相スペクトル220は、位相制御部202で制御され、逆変換部1513において時間領域の信号に変換される。振幅制御部1503は、その信号と劣化信号210とを用いて、位相回転によるレベルの変動量(変化量)を求める。
この変動量は位相回転部701による回転処理のみの変動である。そのため、振幅制御部1503は、位相の回転によるレベル変動を正確に捉えることができる。振幅制御部1503は、このレベル比を用いて振幅補正を行うが、求まるレベル比は1フレーム前のものである。
そこで、振幅成分遅延部1511と位相成分遅延部1512を導入し、1フレーム前の周波数成分に対して、振幅制御部1503において振幅補正を行う。
図16は、本実施形態に係る位相制御部202および振幅制御部1503の内部構成を説明するためのブロック図である。入出力比算出部1631は、入力端子206から供給される劣化信号と逆変換部1513から供給される、位相回転によるレベル低下分を含んだ信号から、レベル比を算出し、補正量算出部1233に供給する。
補正量算出部1233は、位相制御部202から各周波数における位相回転の有無の情報を受け取り、振幅補正量を算出する。振幅補正部704は、その振幅補正量に基づいて、強調信号振幅スペクトルを各周波数で補正し、逆変換部204へ供給する。なお、振幅成分遅延部1511は、雑音抑圧部205と振幅制御部1503の間に導入しても構わない。
本実施形態に係る雑音抑圧装置1500は、第3実施形態の効果に加え、入出力比の遅延を回避でき、より正確な出力レベルの補正を実現できる。
(第5実施形態)
本発明の第5実施形態について、図17を用いて説明する。図17に示すように、本実施形態に係る雑音抑圧装置1700は、第2実施形態の構成に加え、フレームオーバーラップ制御部1708を含む。フレームオーバーラップ制御部1708は、変換部201および逆変換部204において、フレームが分割、合成されるときのオーバーラップ率の制御を行う。フレームオーバーラップ制御部1708は、そのオーバーラップ率を振幅制御部203に供給する。既に説明したとおり、位相回転によるレベル低下はオーバーラップによって生じる。このレベル低下量はオーバーラップ率により変化し、オーバーラップ率が大きくなるほど、低下量も大きくなる。よって、オーバーラップ率が変化した場合には、振幅補正量を制御する必要がある。
具体的には、オーバーラップ率50%の場合の振幅補正量Gを基準に補正量を求める。オーバーラップ率が0%のとき振幅補正は必要無い。また、オーバーラップ率50%のとき振幅補正量はGである。そこで、振幅補正量は、フレーム長Lとオーバーラップ長Qの比を用いて、以下の式(46)で表される。ここで、G′はオーバーラップ率による補正を行った振幅補正量である。
本実施形態に係る雑音抑圧装置1700は、第2実施形態の効果に加えて、フレームのオーバーラップ率を自由に設定できる。
(他の実施形態)
以上説明してきた第1乃至第5実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用してもよいし、単体の装置に適用してもよい。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
図18は、第1実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ1800の構成図である。コンピュータ1800は、入力部1801と、CPU1802と、出力部1803と、メモリ1804とを含む。
CPU1802は、信号処理プログラムを読み込むことにより、コンピュータ1800の動作を制御する。すなわち、CPU1802は、メモリ1804に格納された信号処理プログラムを実行し、入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する(S1811)。次に、CPU1802は、周波数領域信号の振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する(S1812)。
さらに、CPU1802は、周波数領域信号の振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する(S1813)。CPU1802は、目的音が存在しない周波数において、周波数領域信号の振幅成分またはパワー成分を環境音の振幅成分またはパワー成分で置換する(S1814)。
CPU1802は、必要に応じてメモリ1803を利用してデータの一時的な保存および処理を行なう。以上の構成および動作により、第1実施形態と同様の効果を得ることができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年8月11日に出願された日本出願特願2011−176121を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (7)
- 単一の入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換する変換手段と、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定する推定手段と、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出する検出手段と、
前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換する置換手段と、
前記周波数領域信号の所定周波数の前記位相成分を回転させる第1制御手段と、
前記第1制御手段が施した回転による前記振幅成分またはパワー成分の変化量に応じて、前記置換された前記周波数領域信号の前記所定周波数の前記振幅成分またはパワー成分を補正する第2制御手段と、
前記第1制御手段により回転された位相成分と、前記第2制御手段により補正された振幅成分またはパワー成分と、を合成する合成手段と、
を含む信号処理装置。 - 前記第1制御手段は、前記目的音の存在しない周波数の前記位相成分を回転させる
請求項1に記載の信号処理装置。 - 前記第1制御手段は、前記位相成分の回転量を生成する回転量生成手段を含み、
前記第2制御手段は、前記回転量生成手段から提供された前記回転量に基づいて前記変化量を算出し、算出した前記変化量に応じて前記振幅成分またはパワー成分を補正する
請求項1または2に記載の信号処理装置。 - 前記周波数領域信号の振幅成分またはパワー成分を遅延させる振幅成分遅延手段、をさらに含み、
前記第2制御手段は、前記第1制御手段により回転された位相成分と前記周波数領域信号の振幅成分またはパワー成分とを合成した信号と、前記入力信号と、を比較することにより前記変化量を算出し、算出した前記変化量に応じて、前記振幅成分遅延手段により遅延した前記振幅成分またはパワー成分を補正する
請求項1または2に記載の信号処理装置。 - 前記変換手段は、前記入力信号を、互いに一部オーバーラップした複数フレームに分割する分割手段を含み、
前記第2制御手段は、さらに、フレームのオーバーラップ率に応じて、前記所定周波数の前記振幅成分またはパワー成分を補正する
請求項1乃至4のいずれかに記載の信号処理装置。 - 単一の入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、
前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換し、
前記周波数領域信号の所定周波数の前記位相成分を回転させ、
前記回転による前記振幅成分またはパワー成分の変化量に応じて、前記置換された前記周波数領域信号の前記所定周波数の前記振幅成分またはパワー成分を補正し、
前記回転された位相成分と、前記補正された振幅成分またはパワー成分と、を合成する、
信号処理方法。 - 単一の入力信号を、位相成分、および、振幅成分またはパワー成分を含む周波数領域信号に変換し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、環境音の振幅成分またはパワー成分を推定し、
前記周波数領域信号の前記振幅成分またはパワー成分に基づいて、目的音が存在しない周波数を検出し、
前記目的音が存在しない周波数において、前記周波数領域信号の振幅成分またはパワー成分を前記環境音の振幅成分またはパワー成分で置換し、
前記周波数領域信号の所定周波数の前記位相成分を回転させ、
前記回転による前記振幅成分またはパワー成分の変化量に応じて、前記置換された前記周波数領域信号の前記所定周波数の前記振幅成分またはパワー成分を補正し、
前記回転された位相成分と、前記補正された振幅成分またはパワー成分と、を合成する、
処理をコンピュータに実行させる信号処理プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011176121 | 2011-08-11 | ||
JP2011176121 | 2011-08-11 | ||
PCT/JP2012/069935 WO2013021960A1 (ja) | 2011-08-11 | 2012-07-31 | 信号処理装置、信号処理方法、および信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013021960A1 JPWO2013021960A1 (ja) | 2015-03-05 |
JP6119604B2 true JP6119604B2 (ja) | 2017-04-26 |
Family
ID=47668467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013528018A Active JP6119604B2 (ja) | 2011-08-11 | 2012-07-31 | 信号処理装置、信号処理方法、および信号処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6119604B2 (ja) |
WO (1) | WO2013021960A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7218811B2 (ja) * | 2019-08-08 | 2023-02-07 | 日本電気株式会社 | 雑音推定装置、雑音推定方法及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3454403B2 (ja) * | 1997-03-14 | 2003-10-06 | 日本電信電話株式会社 | 帯域分割型雑音低減方法及び装置 |
JP4757158B2 (ja) * | 2006-09-20 | 2011-08-24 | 富士通株式会社 | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
JP5018193B2 (ja) * | 2007-04-06 | 2012-09-05 | ヤマハ株式会社 | 雑音抑圧装置およびプログラム |
JP5034735B2 (ja) * | 2007-07-13 | 2012-09-26 | ヤマハ株式会社 | 音処理装置およびプログラム |
-
2012
- 2012-07-31 JP JP2013528018A patent/JP6119604B2/ja active Active
- 2012-07-31 WO PCT/JP2012/069935 patent/WO2013021960A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2013021960A1 (ja) | 2013-02-14 |
JPWO2013021960A1 (ja) | 2015-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6079236B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP6406258B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
WO2014136628A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6070953B2 (ja) | 信号処理装置、信号処理方法、及び記憶媒体 | |
JP6300031B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP6064600B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
WO2012070670A1 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP6406257B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
WO2011055832A1 (ja) | 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム | |
JP6119604B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP5413575B2 (ja) | 雑音抑圧の方法、装置、及びプログラム | |
JP6182862B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
WO2011055834A1 (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
JP6011536B2 (ja) | 信号処理装置、信号処理方法、およびコンピュータ・プログラム | |
JP2011100029A (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
JP6662413B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160802 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6119604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |