JP6544234B2 - 信号処理装置、信号処理方法および信号処理プログラム - Google Patents

信号処理装置、信号処理方法および信号処理プログラム Download PDF

Info

Publication number
JP6544234B2
JP6544234B2 JP2015511204A JP2015511204A JP6544234B2 JP 6544234 B2 JP6544234 B2 JP 6544234B2 JP 2015511204 A JP2015511204 A JP 2015511204A JP 2015511204 A JP2015511204 A JP 2015511204A JP 6544234 B2 JP6544234 B2 JP 6544234B2
Authority
JP
Japan
Prior art keywords
component signal
signal
amplitude component
amplitude
steady
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015511204A
Other languages
English (en)
Other versions
JPWO2014168021A1 (ja
Inventor
正徳 加藤
正徳 加藤
昭彦 杉山
昭彦 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014168021A1 publication Critical patent/JPWO2014168021A1/ja
Application granted granted Critical
Publication of JP6544234B2 publication Critical patent/JP6544234B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、非定常成分を持つ雑音の抑圧技術に関する。
上記技術分野において、特許文献1には、入力音響信号を低・中・高帯域に分離して風雑音を低減する技術が開示されている。特許文献1では、中帯域成分から低帯域の復元信号を生成し、復元信号とオリジナルの低帯域信号とを加重加算することにより低帯域用の補正音響信号を生成し、中帯域成分の信号レベルを低減することにより中帯域用の補正音響信号を生成する。最後に、低帯域用および中帯域用の各補正音響信号とオリジナルの高帯域信号を合成して、強調信号を生成している。
特許文献2は、入力音を低・高帯域に分離して、風雑音である確率に応じて、低帯域音声信号に含まれる風雑音を抑圧する技術が開示されている。
特開2009-55583号公報 特開2012-239017号公報 国際公開WO/2012/070668号公報
M. Kato, A. Sugiyama, and M. Serizawa, "Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA," IEICE Trans. Fundamentals (Japanese Edition), vol.J87-A, no.7, pp.851-860, July 2004. R. Martin, "Spectral subtraction based on minimum statistics," EUSPICO-94, pp.1182-1185, Sept. 1994 IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING,VOL.32, NO.6, PP.1109-1121, DEC, 1984 3GPP Technical Specification 26.094, vol. 5.0.0, June 2002. 3GPP Technical Specification 26.194, vol. 5.0.0, March 2001. A. Davis, S. Nordholm, R. Togneri, "Statistical Voice Activity Detection Using Low-Variance Spectrum Estimation and an Adaptive Threshold," IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 2, pp. 412-424, March 2006. K. Li, M. N. S. Swamy, M. O. Ahmad, "An Improved Voice Activity Detection Using Higher Order Statistics," IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 13, no. 5, pp. 965-974, September 2005.
しかしながら、上記文献1、2に記載の技術は、いずれも、低い帯域の音声信号の信号レベルを低減することによって風雑音を単純に抑圧しているだけであり、風雑音のような非定常な雑音の抑圧方法としては、効果的な方法ではなかった。結果的に、入力音を聞きやすい音に変化させることができていなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る信号処理装置は、
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定手段と、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換手段と、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換手段と、
を備えた。
上記目的を達成するため、本発明に係る信号処理方法は、
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
を備えた。
上記目的を達成するため、本発明に係る信号処理プログラムは、
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
をコンピュータに実行させる。
本発明によれば、入力音を聞きやすい音に変化させることができる。
本発明の第1実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る変換部の構成を示すブロック図である。 本発明の第2実施形態に係る逆変換部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第2実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第2実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第3実施形態に係る置換部の構成を示すブロック図である。 本発明の第3実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第3実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第4実施形態に係る置換部の構成を示すブロック図である。 本発明の第4実施形態に係る置換部による信号処理結果を示す図である。 本発明の第4実施形態に係る置換部による信号処理結果を示す図である。 本発明の第5実施形態に係る置換部の構成を示すブロック図である。 本発明の第5実施形態に係る置換部による信号処理結果を示す図である。 本発明の第6実施形態に係る置換部の構成を示すブロック図である。 本発明の第6実施形態に係る置換部による信号処理結果を示す図である。 本発明の第7実施形態に係る置換部の構成を示すブロック図である。 本発明の第8実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第9実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第9実施形態に係る音声検出部の構成の一例を示すブロック図である。 本発明の第9実施形態に係る音声検出部の構成の他の例を示すブロック図である。 本発明の第9実施形態に係る信号処理装置による信号処理結果を示す図である。 本発明の第10実施形態に係る置換部の構成を示すブロック図である。 本発明の第11実施形態に係る置換部の構成を示すブロック図である。 本発明の第12実施形態に係る置換部の構成を示すブロック図である。 本発明の第13実施形態に係る置換部の構成を示すブロック図である。 本発明の第14実施形態に係る置換部の構成を示すブロック図である。 本発明の第15実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第15実施形態に係る雑音抑圧部の構成を示すブロック図である。 本発明の第16実施形態に係る置換部の構成を示すブロック図である。 本発明の第17実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の実施形態に係る信号処理装置をソフトウェアで実現する場合の構成を示すブロック図である。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。
[第1実施形態]
本発明の第1実施形態としての信号処理装置100について、図1を用いて説明する。図1に示すように、信号処理装置100は、変換部101と定常成分推定部102と置換部103と逆変換部104とを含む装置である。
変換部101は、入力信号110を、周波数領域における振幅成分信号130に変換する。
定常成分推定部102は、周波数領域における振幅成分信号130に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号140を推定する。置換部103は、振幅成分信号130と定常成分信号140とを用いて、新たな振幅成分信号150を生成し、振幅成分信号130を、新たな振幅成分信号150に置き換える。逆変換部104は、新たな振幅成分信号150を用いて強調信号160に逆変換する。
以上のような構成により、入力音に含まれた雑音を定常的な聞きやすい雑音で置換することで、耳障りな非定常な雑音を抑圧することができる。
[第2実施形態]
《全体構成》
本発明の第2実施形態としての信号処理装置について図を用いて説明する。本実施形態としての信号処理装置は、例えば、風切り音のような非定常雑音を適切に抑圧する。簡単に説明すると、周波数領域において、入力音中の定常成分を推定して、推定された定常成分で入力音の一部または全部を置換する。ここで入力音は音声に限定されるものではない。例えば、音声以外に、環境音(街頭の雑踏の音、電車・自動車の走行音、警報・警告音、拍手の音など)、人や動物の声(小鳥のさえずり、犬・猫の鳴き声、笑い声や泣き声、歓声、など)、音楽などを入力音としてもよい。なお、本実施形態では、音声を入力音の代表例として説明する。
図2Aは、信号処理装置200の全体構成を示すブロック図である。入力端子206には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子206に供給された劣化信号は、変換部201においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル(振幅成分)|X(k, n)|は、定常成分推定部202および置換部203へ供給され、位相スペクトル(位相成分)220は、逆変換部204に供給される。なお、ここでは変換部201が、定常成分推定部202および置換部203に劣化信号振幅スペクトル|X(k, n)|を供給しているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルを供給してもよい。
定常成分推定部202は、変換部201から供給される劣化信号振幅スペクトル|X(k, n)|に含まれる定常成分を推定し、定常成分信号(定常成分スペクトル)N(k, n)を生成する。
置換部203は、変換部201から供給された劣化信号振幅スペクトル|X(k, n)|を、生成した定常成分スペクトルN(k, n)を用いて置換し、置換結果としての強調信号振幅スペクトル|Y(k, n)|を逆変換部204に伝達する。
逆変換部204は、変換部201から供給された劣化信号位相スペクトル220と、置換部203から供給された強調信号振幅スペクトル|Y(k, n)|とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
《変換部の構成》
図2Bは、変換部201の構成を示すブロック図である。図2Bに示すように、変換部201はフレーム分割部211、窓がけ処理部(windowing unit)212、およびフーリエ変換部213を含む。劣化信号サンプルは、フレーム分割部211に供給され、K/2サンプルごとのフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部212に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号x(t, n) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。
Figure 0006544234


また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の50%を仮定すれば、t=0, 1, ..., K-1 に対して、以下の式で得られる左辺が、窓がけ処理部212の出力となる。
Figure 0006544234


実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部201の出力を逆変換部204に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w2(t)+w2(t+K/2)=1 となることを意味する。
以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式に示すハニング窓を用いることができる。
Figure 0006544234

このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部213に供給され、劣化信号スペクトルX(k, n)に変換される。劣化信号スペクトルX(k, n)は位相と振幅に分離され、劣化信号位相スペクトルargX(k, n)は逆変換部204に、劣化信号振幅スペクトル|X(k, n)|は、定常成分推定部202および置換部203に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。
《逆変換部の構成》
図2Cは、逆変換部204の構成を示すブロック図である。図2Cに示すように、逆変換部204は逆フーリエ変換部241、窓がけ処理部242およびフレーム合成部243を含む。逆フーリエ変換部241は、置換部203から供給された強調信号振幅スペクトル(|Y(k, n)|)(図中Y)と変換部201から供給された劣化信号位相スペクトル220(arg X(k, n))とを用いて、以下のように強調信号スペクトルY(k, n)を求める。
Figure 0006544234

ただし、j は虚数単位である。
得られた強調信号スペクトルに逆フーリエ変換を施し、1フレームがKサンプルを含む時間領域サンプル値系列 y(t, n) (t=0, 1, ..., K-1)として、窓がけ処理部242に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの強調信号 y(t, n) (t=0, 1, ..., K-1)に対してw(t)で窓がけされた信号は、次式の左辺で与えられる。
Figure 0006544234
フレーム合成部243は、窓がけ処理部242からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式によって、t=0, 1, ..., K/2-1における出力信号(式の左辺)を得る。得られた出力信号260は、フレーム合成部243から出力端子207に伝達される。
Figure 0006544234
なお、図2Bと図2Cにおいて変換部201と逆変換部204における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、LSI化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
また、変換部201において得られる周波数成分を複数統合してから、定常成分推定部202で定常成分の推定を行うこともできる。統合後の周波数成分の数は、統合前の周波数成分の数よりも小さくなる。具体的には、周波数成分の統合によって得られる統合周波数成分に対して共通の定常成分スペクトルを求め、それを同一統合周波数成分に属する個別の周波数成分に対して共通に用いればよい。このように、複数の周波数成分を統合してから定常成分信号の推定を実行すると、適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
(定常成分スペクトルの定義)
定常成分スペクトルとは、入力信号振幅スペクトルに含まれる定常成分のことである。定常成分は、パワーの時間変化が入力信号よりも小さいという特徴を持つ。時間変化は差分または比で算出されることが一般的である。時間変化を差分で計算する場合、あるフレーム n において入力信号振幅スペクトルと定常成分スペクトルを比較すると、次式の関係を満足する周波数 k が少なくとも1つは存在する。
Figure 0006544234

また、時間変化を比で計算する場合には、次式の関係を満足する周波数 k が少なくとも1つは存在する。
Figure 0006544234

つまり、全てのフレームnと周波数 k において、上式の左辺のほうが右辺よりも必ず大きい場合、N(k, n)は定常成分スペクトルでは無い、と定義できる。関数がXとNの指数や対数、累乗でも同様に定義できる。
(定常成分スペクトルの導き方)
定常成分スペクトルの推定には、非特許文献1や非特許文献2に記載の方法など、様々な推定方法が利用できる。
例えば、非特許文献1には、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルを雑音区間判定の指標とする。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。
また、非特許文献1には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。
さらに、非特許文献2には、推定雑音スペクトルを、劣化信号振幅スペクトルの最小値(最小統計量)から求める方法が開示されている。この方法では、一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとする。
その他、メジアンフィルタを用いて、推定雑音スペクトルを求めてもよい。雑音がゆっくり変動するという性質を利用して、変化する雑音に追従する雑音推定方法であるWiNE(Weighted Noise Estimation)を用いて、推定雑音スペクトルを求めてもよい。
そして、このように求められた推定雑音スペクトルを、定常成分スペクトルとして用いることができる。
(スペクトル形状)
図3は、ある時刻 n における、劣化信号振幅スペクトル(以降、入力信号ともいう)|X(k, n)|と定常成分スペクトル(定常成分信号)N(k, n)と、強調信号振幅スペクトル(以降、処理結果)|Y(k, n)|との関係を示す図である。図中では、それぞれX、N、およびYと表記している。本実施形態では、全ての周波数において入力信号|X(k, n)|を定常成分信号N(k, n)の所定係数α(k, n)倍のα(k, n)N(k, n)で置き換える。図3では、α(k, n)=0.8とした場合の例を示している。
置き換えに用いる振幅スペクトル(置換用振幅スペクトル)を求める関数としては、α(k, n)N(k, n)に代表されるようなN(k, n)の線形写像関数に限定されない。例えば、α(k, n)N(k, n)+C(k, n) のように一次関数を採用することも可能である。その際、C(k, n)>0とすれば置換用振幅スペクトルのレベルを全体的に向上できるので、聞いた時の定常感が向上する。C(k, n) < 0 の場合には、置換用振幅スペクトルのレベルを全体的に低減できるが、その際にはスペクトルの値が負になる帯域が出現しないようにC(k, n)を調整する必要がある。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルN(k, n)の関数を用いることも可能である。
図4は、劣化信号振幅スペクトルと、強調信号振幅スペクトルと定常成分振幅スペクトルの時間・周波数変化を表現する図である。図4のように、入力信号|X(k, n)|と定常成分信号N(k, n)との周波数スペクトルを複数の時刻について、連続して表現することで、時間的な、振幅スペクトルの変化を理解することができる。
図5は、ある周波数における、劣化信号振幅スペクトル、出力する強調信号振幅スペクトル、および定常成分スペクトルの時間変化を表現する図である。図5のように、入力信号|X(k, n)|を定常成分信号N(k, n)の係数α(k, n)倍で置き換えれば、振幅スペクトルの時間変化を定常化することができる。すなわち、本実施形態では、入力信号振幅スペクトル|X(k, n)|を、少なくとも時間方向で定常的に変化するスペクトルで置き換えることで、振幅成分の周波数領域での「飛び出し」を抑えることができる。これにより、時間領域のみで、ならしただけでは実現できなかった風切り音のような非定常成分の強い雑音の抑圧を実現できる。雑音成分の周波数領域での定常化により、雑音成分を小さくするのではなく、雑音を聞きやすい音に変化させることができる。
風切り音は、非定常性が高いため、推定しようとすると精度が落ち、従来の雑音推定では対応できなかったが、周波数方向の平均をとるなど、定常成分信号を生成して、置き換えると、追従性を確保しつつ、耳障りではない音に変化させることができる。
(係数αについて)
定常成分信号N(k, n)に積算する係数α(k, n)としては経験的に適切な値を決める。例えば、α(k, n)=1なら、|Y(k, n)|=N(k, n)となり、定常成分信号N(k, n)がそのまま逆変換部104への出力信号となる。このとき、定常成分信号N(k, n)が大きいと、大きな雑音が残ってしまう。そこで、逆変換部104へ出力する振幅成分の最大値が所定値以下になるように、α(k, n)を定めてもよい。例えば、α(k, n)=0.5ならパワー半分の定常成分信号N(k, n)に置き換えることになる。α(k, n)=0.1だと、音は小さくなって形は定常成分信号N(k, n)と同じスペクトル形になる。
例えば、SN比が高いときは静かなため、α(k, n)を小さくして、強く抑圧してもよい。逆に、SN比が高い時は、ノイズが小さいので、α(k, n)を1にして、残すことが考えられる。
そのほかには、高域が強調されて耳障りになることに配慮して、α(k, n)はkがある閾値以上ならば十分小さい値となる関数や、k が大きくなるほど小さい値になる k の単調減少関数としてもよい。
本実施形態によれば、出力信号の雑音成分を定常化できるので、音質が従来よりも向上する。なお、置換部203は、周波数毎ではなく、サブバンドごとに、振幅成分を置き換えてもよい。
[第3実施形態]
次に本発明の第3実施形態に係る信号処理装置について、図6〜図8を用いて説明する。図6は、本実施形態に係る信号処理装置の置換部603の構成を説明するための図である。本実施形態に係る置換部603は、上記第2実施形態と比べると、比較部631と上側置換部632を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
比較部631は、劣化信号振幅スペクトル|X(k, n)|と、定常成分スペクトルN(k, n)を第1関数としての線形写像関数で計算した第1閾値とを比較する。本実施形態では線形写像関数のなかで代表的なものである定数倍、つまりα1(k, n)倍と比較する場合について説明を行う。上側置換部632は、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1 (k, n)倍よりも大きいところのみ、置換用振幅スペクトル、つまり第2関数としての定常成分信号N(k, n)のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部603の出力信号|Y(k, n)|とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2(k, n)N(k, n)、そうでなければ、|Y(k, n)|=|X(k, n)|となる。
劣化信号振幅スペクトル|X(k, n)|との比較に用いるスペクトルの計算方法は、定常成分スペクトルN(k, n)の線形写像関数を用いた方法に限定されない。例えば、α1(k, n)N(k, n)+C(k, n) のように一次関数を採用することも可能である。その際、C(k, n) < 0とすれば定常成分信号に置き換えられる帯域が増えるので、耳障りな非定常雑音を多く抑圧できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される定常成分スペクトルN(k, n)の関数を用いることも可能である。
図7は、α1(k, n)=α2(k, n)=1.0とした場合の入力信号|X(k, n)|と定常成分信号N(k, n)と出力信号|Y(k, n)|との関係を示す図である。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。
図8は、α1(k, n)>α2(k, n)とすべき場合の入力信号|X(k, n)|と定常成分信号N(k, n)と出力信号|Y(k, n)|との関係を示す図である。図8のような入力信号|X(k, n)|の場合、α1(k, n)=α2(k, n)とすると、上のグラフのように、スペクトルの定常化が十分ではなく、風切り音のような非定常成分の強い雑音の抑圧が十分に行なえない。
そこで、図8の下側に示すように、時刻t3の前後において、α1(k, n)>α2(k, n)とすることにより、より定常性の高いスペクトルに置き換えることができる。
α2(k, n)については、各時刻について、以下の(1)→(2)の手順で求めることができる。
(1)あらかじめ入力信号の短時間移動平均X_bar(k, n)(kとnは、それぞれ周波数および時刻に対応するインデックス)を、例えば、以下のように計算しておく|X_bar(k, n)| = (|X(k, n-2)| + |X(k, n-1)| + |X(k, n)| + |X(k, n+1)| + |X(k, n+2)|)/5(2)短時間移動平均(|X_bar(k, n)|)と置き換え後の値(α2(k, n)・N(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにα2(k, n)の値を変更する。変更後の値を α2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に α2_hat(k, n) = 0.5・α2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)α2_hat(k, n) = |X_bar(k, n)|/|N(k, n)| とする (|X_bar(k, n)| と |N(k, n)|を使って計算する)。 (c)α2_hat(k, n) = 0.8・|X_bar(k, n)|/|N(k, n)| + 0.2 とする (同上)。
しかし、α2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるα2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、α2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたα2(k, n)の値を決めてもよい。
例えば、以下の条件を満たすときに、計算式1〜3を用いて、時刻nの前後において係数α2(k, n)を、短時間移動平均|X_bar(k, n)|を定常成分信号|N(k, n)|で除算したものとして求め、結果として、入力信号|X(k, n)|を短時間移動平均|X_bar(k, n)|で置換してもよい。条件を満たさない場合には、α2(k, n) = α1(k, n)とすればよい。
条件:|X(k, n)| > α1(k, n)・N(k, n) かつ α1(k, n)・N(k, n) − |X_bar(k, n)| > δ
計算式1:α2(k, n-1) = |X_bar(k, n)|/N(k, n)
計算式2:α2(k, n) = |X_bar(k, n)|/N(k, n)
計算式3:α2(k, n+1) = |X_bar(k, n)|/N(k, n)
このように、定常成分信号N(k, n)では短い時間での振幅成分信号の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。
[第4実施形態]
次に本発明の第4実施形態に係る信号処理装置について、図9〜図11を用いて説明する。図9は、本実施形態に係る信号処理装置の置換部903の構成を説明するための図である。本実施形態に係る置換部903は、上記第2実施形態と比べると、比較部931と下側置換部932を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
比較部631は、劣化信号振幅スペクトル|X(k, n)|と、定常成分信号N(k, n)の第3関数としてのβ1(k, n)倍(第2閾値)と比較する。下側置換部932は、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のβ1(k, n)倍より小さいところのみ、定常成分信号N(k, n)の第4関数としてのβ2(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を置換部603の出力信号|Y(k, n)|とする。つまり、|X(k, n)|>β1(k, n)N(k, n)ならば|Y(k, n)|=β2(k, n)N(k, n)、そうでなければ、|Y(k, n)|=|X(k, n)|となる。
図10は、β1(k, n)=β2(k, n)とした場合の入力信号|X(k, n)|と定常成分N(k, n)と出力信号|Y(k, n)|との関係を示す図である。
定常成分信号の所定係数倍の閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、定常成分信号の所定係数倍の閾値β1(k, n)N(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。
図11は、β1(k, n)<β2(k, n)とすべき場合の入力信号|X(k, n)|と定常成分信号N(k, n)と出力信号|Y(k, n)|との関係を示す図である。図11のような入力信号|X(k, n)|の場合、β1(k, n)=β2(k, n)とすると、上のグラフのように、スペクトルの定常化が十分ではなく、風切り音のような非定常成分の強い雑音の抑圧が十分に行なえない。
そこで、図11の下側に示すように、時刻n=t5の前後において、β1(k, n)<β2(k, n)とすることにより、より定常性の高いスペクトルに置き換えることができる。
β(k, n)については、各時刻について、以下の(1)→(2)の手順で求めることができる。
(1)あらかじめ入力信号の短時間移動平均X_bar(k, n)(kとnは、それぞれ周波数および時刻に対応するインデックス)を、例えば、以下のように計算しておくX_bar(k, n) = (X(k, n-2) + X(k, n-1) + X(k, n) + X(k, n+1) + X(k, n+2))/5(2)短時間移動平均(X_bar(k, n))と置き換え後の値(β2(k, n)・N(k, n))の差分を計算し、差分が大きければ、差分が小さくなるようにβ2(k, n)の値を変更する。変更後の値を β2_hat(k, n) とすると、変更方法は、以下が考えられる。 (a)一様に β2_hat(k, n) = 0.5・β2(k, n) とする (あらかじめ定めた値で定数倍する)。 (b)β2_hat(k, n) = X_bar(k, n)/N(k, n) とする (X_bar(k, n) と N(k, n)を使って計算する)。 (c)β2_hat(k, n) = 0.8・X_bar(k, n)/N(k, n) + 0.2 とする (同上)。
しかし、β2(k, n)の求め方は、上述に限るものではない。例えば、時刻にかかわらず一定値となるβ2(k, n)をあらかじめ設定しておいてもよい。その場合、処理した音声を実際に聞いて、β2(k, n)の値を決めてもよい。すなわち、マイクや、そのマイクが取り付けられたデバイスの特性に応じたβ2(k, n)の値を決めてもよい。
例えば、以下の条件を満たすときに、計算式1〜3を用いて、時刻nの前後において係数β2(k, n)を、短時間移動平均|X_bar(k, n)|を定常成分信号N(k, n)で除算したものとして求め、結果として、入力信号|X(k, n)|を短時間移動平均|X_bar(k, n)|で置換してもよい。条件を満たさない場合には、β2(k, n) = β1(k, n)とすればよい。
条件:|X(k, n)| > β1(k, n)・N(k, n) かつ β1(k, n)・N(k, n) − |X_bar(k, n)| > δ
計算式1:β2(k, n-1) = X_bar(k, n)/N(k, n)
計算式2:β2(k, n) = X_bar(k, n)/N(k, n)
計算式3:β2(k, n+1) = X_bar(k, n)/N(k, n)
このように、定常成分信号N(k, n)では、短い時間での振幅成分の「飛び出し」を抑えきれない場合には、短時間移動平均を用いて置換して、音質を向上させることもできる。
[第5実施形態]
次に本発明の第5実施形態に係る信号処理装置について、図12、図13を用いて説明する。図12は、本実施形態に係る信号処理装置の置換部1203の構成を説明するための図である。本実施形態に係る置換部1203は、上記第2実施形態と比べると、第1比較部1231と上側置換部1232と第2比較部1233と下側置換部1234を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
第1比較部1231は、劣化信号振幅スペクトル|X(k, n)|と、定常成分信号N(k, n)の第5関数としてのα1(k, n)倍(第3閾値)とを比較する。上側置換部1232は、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍より大きいところのみ、定常成分信号N(k, n)の第6関数としてのα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第2比較部1233への出力信号|Y1(k, n)|とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|Y1(k, n)|=α2(k, n)N(k, n)、そうでなければ、|Y1(k, n)|=|X(k, n)|となる。
一方、第2比較部1233は、上側置換部1232からの出力信号|Y1(k, n)|と、定常成分信号N(k, n)の第7関数としてのβ1(k, n)倍(第4閾値)とを比較する。下側置換部1234は、上側置換部1232からの出力信号|Y1(k, n)|が定常成分信号N(k, n)のβ1(k, n)倍より小さいところのみ、定常成分信号N(k, n)の第8関数としてのβ2(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を出力信号|Y2(k, n)|とする。つまり、|Y1(k, n)|<β1(k, n)N(k, n)ならば|Y2(k, n)|=β2(k, n)N(k, n)そうでなければ、|Y1(k, n)|=|Y2(k, n)|となる。
図13は、α1(k, n)=α2(k, n)、β1(k, n)=β2(k, n)、とした場合の入力信号|X(k, n)|と定常成分信号N(k, n)と出力信号|Y(k, n)|との関係を示す図である。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。
[第6実施形態]
次に本発明の第6実施形態に係る信号処理装置について、図14、図15を用いて説明する。図14は、本実施形態に係る信号処理装置の置換部1403の構成を説明するための図である。本実施形態に係る置換部1403は、上記第3実施形態と比べると、上側置換部1432が劣化信号振幅スペクトル|X(k, n)|の係数α(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第3実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部1432は、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍よりも大きいところのみ、振幅成分X(k, n)のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部603の出力信号|Y(k, n)|とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2(k, n)|X(k, n)|、そうでなければ、|Y(k, n)|=|X(k, n)|となる。
図15は、α1(k, n)=1、α2(k, n)=0.7とした場合の入力信号|X(k, n)|と定常成分信号N(k, n)と出力信号|Y(k, n)|との関係を示す図である。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、風雑音を抑圧しつつ音声認識を行ないたい場合などに、音声区間で本実施形態の処理を行うと効果的である。一方、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。
[第7実施形態]
次に本発明の第7実施形態に係る信号処理装置について、図16を用いて説明する。図16は、本実施形態に係る信号処理装置の置換部1603の構成を説明するための図である。本実施形態に係る置換部1603は、上記第5実施形態と比べると、上側置換部1632が、第6実施形態の置換部1403のように劣化信号振幅スペクトル|X(k, n)|の係数|α(k, n)|倍を用いて置換を行う処理が異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。
[第8実施形態]
次に本発明の第8実施形態に係る信号処理装置について、図17を用いて説明する。図17は、本実施形態に係る信号処理装置1700の構成を説明するための図である。本実施形態に係る信号処理装置1700は、上記第2実施形態と比べると、音声検出部1701を備え、置換部1703が音声検出結果に応じた置換処理を行う点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
音声検出部1701は、劣化信号振幅スペクトル|X(k, n)|において、周波数ごとに音声が含まれているか否かを判定する。そして、置換部203において、音声が含まれていない周波数の劣化信号振幅スペクトル|X(k, n)|を、定常成分スペクトルN(k, n)を用いて置換する。つまり、音声検出部1701の出力が1、すなわち音声が含まれているという判定結果であれば、|Y(k, n)|=α(k, n)N(k, n)、音声検出部1701の出力が0、すなわち音声が含まれていないという判定結果であれば、|Y(k, n)|=|X(k, n)|となる。
本実施形態によれば、音声が含まれている周波数を残して、定常成分信号N(k, n)を用いた置換を行なうので、抑圧による音声歪みなどを回避することができる。
[第9実施形態]
次に本発明の第9実施形態に係る信号処理装置について、図18〜図21を用いて説明する。図18は、本実施形態に係る信号処理装置1800の構成を説明するための図である。本実施形態に係る信号処理装置1800は、上記第2実施形態と比べると、音声検出部1801を備え、置換部1803が音声検出結果に応じた置換処理を行う点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
音声検出部1801は、劣化信号振幅スペクトル|X(k, n)|において、周波数ごとに音声が含まれている確率p(k, n)を計算する。ただし、p(k, n)は0以上1以下の実数である。そして、置換部203において、音声存在確率p(k, n)と定常成分信号N(k, n)とを用いて、劣化信号振幅スペクトル|X(k, n)|を置換する。例えば、値域が0から1であるp(k, n)の関数α(p(k, n))を用いて、出力信号|Y(k, n)|=α(p(k, n))N(k, n)+(1−α(p(k, n)))|X(k, n)|)としてもよい。
図19は、音声検出部1701の内部構成の一例を示す図である。周波数方向差分計算部1901は、隣り合う周波数における振幅成分の差分を計算する。絶対値総和計算部1902は、周波数方向差分計算部1901で計算した振幅成分の差分の絶対値を総和する。判定部1903は、絶対値総和計算部1902で計算した絶対値総和に基づいて、音声存在確率p(k, n)を導く。具体的には、絶対値総和が大きいほど音声である可能性が高いと判定する。
図20は、音声検出部1701の内部構成の他の例を示す図である。周波数方向平滑化部2001は、入力としての振幅成分を周波数方向に平滑化する。周波数方向差分計算部2002は、隣り合う周波数における振幅成分の差分を計算する。絶対値総和計算部2003は、周波数方向差分計算部2002で計算した振幅成分の差分の絶対値を総和する。
一方、時間方向平滑化部2004は、入力としての振幅成分を時間方向に平滑化する。周波数方向差分計算部2005は、隣り合う周波数における振幅成分の差分を計算する。絶対値総和計算部2006は、周波数方向差分計算部2005で計算した振幅成分の差分の絶対値を総和する。
判定部2007は、絶対値総和計算部2003、2006で計算したそれぞれの絶対値総和に基づいて、音声存在確率p(k, n)を導く。
図19、図20では、音声存在確率p(k, n)を求めて処理を終了しているが、音声存在確率p(k, n)を所定の閾値qと比較することで、音声信号の有無(0/1)を求めてもよい。なお、ここでは、音声検出方法の例として図19、図20の方法について説明したが本発明はこれに限定されるものではない。例えば、非特許文献4〜7において説明された音声検出方法を本実施の形態において適用してもよい。
図21は、p(k, n)の値に応じた、出力信号|Y(k, n)|のスペクトル形状の変化を示す図である。図21の上のグラフは、全てのkに対してp(k, n)が1(=音声)に近いときを表わしており、処理結果|Y(k, n)|は、入力信号|X(k, n)|により近いスペクトル形状となる。一方、図21の下のグラフは、全てのkに対してp(k, n)が0(=非音声)に近いときを表わしており、処理結果|Y(k, n)|は、定常成分信号N(k, n)により近いスペクトル形状となる。
本実施形態によれば、音声の存在可能性に応じた雑音の定常化を行なうことができ、音声歪みなどを効果的に回避しつつ、風切り音のような非定常雑音を抑圧することができる。
[第10実施形態]
次に本発明の第10実施形態に係る信号処理装置について、図22を用いて説明する。図22は、本実施形態に係る置換部2203の構成を説明するための図である。本実施形態に係る置換部2203は、上記第8実施形態と比べると、比較部631と上側置換部2232を有する点で異なる。比較部631は、図6を用いて説明したものと同様であり、その他の構成および動作は、第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部2232は、音声検出部1701からの音声検出フラグ(0/1)を入力し、非音声、かつ|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2(k, n)N(k, n)、そうでなければ|Y(k, n)|=|X(k, n)|とする。
非音声帯域であって、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが小さい帯域における自然性を保持できるため、音質が向上する。
[第11実施形態]
次に本発明の第11実施形態に係る信号処理装置について、図23を用いて説明する。図23は、本実施形態に係る信号処理装置の置換部2303の構成を説明するための図である。本実施形態に係る置換部2303は、上記第8実施形態と比べると、比較部931と下側置換部2332を有する点で異なる。また、比較部931は、図9において説明したものと同様であり、その他の構成および動作は、第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
下側置換部2332は、音声検出部1701からの音声検出フラグ(0/1)を入力し、非音声、かつ|X(k, n)|<β1(k, n)N(k, n)ならば|Y(k, n)|=β2(k, n)N(k, n)、そうでなければ|Y(k, n)|=|X(k, n)|とする。
非音声帯域であって、定常成分信号の所定係数倍の閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合に効果的である。一方、音声帯域、または、定常成分信号の所定係数倍の閾値β1(k, n)N(k, n)よりもパワーが大きい帯域における自然性を保持できるため、音質が向上する。
[第12実施形態]
次に本発明の第12実施形態に係る信号処理装置について、図24を用いて説明する。図24は、本実施形態に係る信号処理装置の置換部2403の構成を説明するための図である。本実施形態に係る置換部2403は、上記第8実施形態と比べると、第1比較部1231と上側置換部2432と第2比較部1233と下側置換部2434を有する点で異なる。また、第1比較部1231と第2比較部1233は、図12において説明したものと同様のものであり、その他の構成および動作は、第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部2432は、音声検出部1701からの音声検出フラグ(0/1)を入力し、非音声、かつ|X(k, n)|>α1(k, n)N(k, n)ならば|Y1(k, n)|=α2(k, n)N(k, n)、そうでなければ|Y1(k, n)|=|X(k, n)|とする。つまり、非音声区間で振幅(パワー)成分|X(k, n)|が定常成分信号|N(k, n)|のα1(k, n)倍より大きいところのみ、定常成分信号|N(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第2比較部1233への出力信号|Y1(k, n)|とする。
一方、下側置換部2434は、非音声区間であって、上側置換部2432からの出力信号|Y1(k, n)|が定常成分信号N(k, n)のβ1(k, n)倍より小さい周波数のみ、定常成分信号N(k, n)のβ2(k, n)倍に置き換え、大きいところはそのままのスペクトル形状を出力信号|Y2(k, n)|とする。つまり、|Y1(k, n)|<β1(k, n)N(k, n)ならば|Y2(k, n)|=β2(k, n)N(k, n)そうでなければ、|Y1(k, n)|=|Y2(k, n)|となる。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域および閾値β1(k, n)N(k, n)よりもパワーが小さい周波数帯域において、入力信号の変動が大きい場合であって、かつ、音声区間において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。
[第13実施形態]
次に本発明の第13実施形態に係る信号処理装置について、図25を用いて説明する。図25は、本実施形態に係る信号処理装置の置換部2503の構成を説明するための図である。本実施形態に係る置換部2503は、上記第10実施形態と比べると、上側置換部2532が、第6実施形態と同様に劣化信号振幅スペクトル|X(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第10実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部2532は、非音声区間であって、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分|X(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を置換部603の出力信号|Y(k, n)|とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2(k, n)|X(k, n)|、そうでなければ、|Y(k, n)|=|X(k, n)|となる。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において入力信号の変動が大きい場合であって、かつ、出力信号において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、非音声区間では風雑音を抑圧しつつ、音声区間音声認識を行ないたい場合などにおいて、非音声区間と判定されても、パワーが大きい区間のスペクトル形状を残すので、音声の有無判定に間違いがあっても音声認識精度を上げることができる。
[第14実施形態]
次に本発明の第14実施形態に係る信号処理装置について、図26を用いて説明する。図26は、本実施形態に係る信号処理装置の置換部2603の構成を説明するための図である。本実施形態に係る置換部2603は、上記第12実施形態と比べると、上側置換部2632が、第7実施形態と同様に劣化信号振幅スペクトル|X(k, n)|の係数α2(k, n)倍を用いて置換を行う処理が異なる。その他の構成および動作は、第11実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上側置換部2632は、非音声区間であって、振幅(パワー)成分|X(k, n)|が定常成分信号N(k, n)のα1(k, n)倍よりも大きいところのみ、入力した振幅成分|X(k, n)|のα2(k, n)倍に置き換え、小さいところはそのままのスペクトル形状を第2比較部1233への出力信号|Y1(k, n)|とする。つまり、|X(k, n)|>α1(k, n)N(k, n)ならば|Y1(k, n)|=α2(k, n)|X(k, n)|、そうでなければ、|Y1(k, n)|=|X(k, n)|となる。
定常成分信号の所定係数倍の閾値α1(k, n)N(k, n)よりもパワーが大きい周波数帯域において入力信号の変動が大きい場合であって、かつ、出力信号|Y2(k, n)|において、スペクトル形状の特徴をできるだけ残したい場合に効果的である。例えば、非音声区間では風雑音を抑圧しつつ、音声区間では音声認識を行ないたい場合などにおいて、非音声区間と判定されても、パワーが大きい区間のスペクトル形状を残すので、音声の有無判定に間違いがあっても音声認識精度を上げることができる。
[第15実施形態]
次に本発明の第15実施形態に係る信号処理装置について、図27、図28を用いて説明する。図27は、本実施形態に係る信号処理装置2700の構成を説明するための図である。本実施形態に係る信号処理装置2700は、上記第2実施形態と比べると雑音抑圧部2701を備え、置換部203が雑音抑圧結果を置換する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
雑音抑圧部2701は、変換部201から供給された劣化信号振幅スペクトル|X(k, n)|と定常成分推定部202が推定した定常成分スペクトルN(k, n)とを用いて雑音を抑圧し、雑音抑圧結果としての強調信号振幅スペクトルG(k, n)|X(k, n)|を置換部203に伝達する。
置換部203は、G(k, n)|X(k, n)|>α1(k, n)N(k, n)ならば|Y(k, n)|=α2(k, n)N(k, n)、そうでなければ|Y(k, n)|=G(k, n)|X(k, n)|とする。
図28は、雑音抑圧部2701の内部構成の一例を説明するための図である。ゲイン計算部2801は、様々な方法を用いて、雑音を抑圧するためのゲインG(k, n)を求めることができる。所望信号との平均2乗誤差を最小にする最適推定値を出力するWienerフィルタを用いてゲインを求めてもよい。また、GSS(GAIN Short Screener)、MMSE STSA(Minimum Mean-Square Error short-time spectral amplitude)、MMSE LSA(Minimum Mean-Square Error long spectral amplitude)、といった既知の方法を用いてゲインを用いてもよい。
乗算部2802は、ゲイン計算部2801で求めたゲインG(k, n)を、入力信号|X(k, n)|に乗算することで強調信号振幅スペクトルG(k, n)|X(k, n)|を求める。置換部203は、条件に応じて、強調信号振幅スペクトルG(k, n)|X(k, n)|を、定常成分スペクトルN(k, n)の係数α(k, n)倍で置換する。
本実施形態によれば、雑音の抑圧後の信号を、条件に応じて定常化することができ、非定常成分の強い風切り音のような雑音を効果的に抑圧しつつ他の雑音も抑圧することができる。
[第16実施形態]
次に本発明の第16実施形態に係る信号処理装置について、図29を用いて説明する。図29は、本実施形態に係る置換部2903の構成を説明するための図である。本実施形態に係る置換部2903は、上記第2実施形態と比べると、第1比較部2931、上側置換部2932、第2比較部2933、下側置換部2934、およびゲイン計算部2935を備える点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態では、置換部2903内部において、ゲインを用いて雑音抑圧を行ないつつ、非定常雑音の置換による抑圧を行なう。
ゲイン計算部2935は、変換部201から供給された劣化信号振幅スペクトル|X(k, n)|と定常成分推定部202が推定した定常成分スペクトルN(k, n)とを用いてゲインG(k, n)を算出する。この算出方法は、第15実施形態と同様に既知の雑音抑圧技術を用いてもよい。
第1比較部2931は、G(k, n)|X(k, n)|とα1(k, n)N(k, n)とを比較し、上側置換部2932は、G(k, n)|X(k, n)|>α1(k, n)N(k, n)ならばG1(k, n)=α2(k, n)N(k, n)/|X(k, n)|、そうでなければG1(k, n)=G(k, n)とする。
一方、第2比較部2933は、G1(k, n)X(k, n)とβ1(k, n)N(k, n)とを比較し、下側置換部2934は、G1(k, n)X(k, n)<β1(k, n)N(k, n)ならばG2(k, n)=β2(k, n)N(k, n)/X(k, n)、そうでなければG2(k, n)=G1(k, n)とする。
最後に、乗算部2936は、入力された振幅スペクトル|X(k, n)|にゲインG2(k, n)を乗算して、置換した、新たな振幅スペクトルG2(k, n)|X(k, n)|を出力する。
以上の様に、置換部2903でゲイン計算を行ない、ゲインを用いて置換処理を行なえば、雑音抑圧後の信号を、条件に応じて定常化することができ、非定常成分の強い風切り音のような雑音を効果的に抑圧しつつ、他の雑音も抑圧することができる。
[第17実施形態]
次に本発明の第17実施形態に係る信号処理装置について、図30を用いて説明する。図30は、本実施形態に係る信号処理装置3000の構成を説明するための図である。本実施形態に係る信号処理装置3000は、上記第15実施形態と比べると、さらに、図17で説明した音声検出部1701を備える点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
置換部3003は、音声検出部1701による音声検出結果(0/1、または音声らしさp)に応じて、雑音抑圧部による雑音抑圧結果G(k, n)|X(k, n)|を定常成分推定部202からの定常成分信号N(k, n)の係数α(k, n)倍で置換する。置換部3003は、第9〜第14実施形態で説明した構成をとることができる。
また、例えば、雑音抑圧部2701は、特許文献3に記載された技術を利用して、音声検出部1701から出力される音声存在確率p(k, n)をもとに、周波数帯域ごとにMMSE STSAゲイン関数値G(k, n)を計算し、入力信号|X(k, n)|に乗算して、強調信号G(k, n)|X(k, n)|を求めた上で置換部3003に出力してもよい。
本実施形態によれば、雑音抑圧後の信号を、音声検出結果に応じて定常化することができ、非定常成分の強い風切り音のような雑音およびその他の雑音を効果的に抑圧しつつ、音声をクリアに出力することができる。
[他の実施形態]
上記実施形態の信号処理装置は、ビデオ撮影時や音声録音時の風切り音、車両通過音(自動車・新幹線)、ヘリコプター飛行音、街頭の騒音、カフェテリア雑音、オフィス雑音、衣擦れ音などの抑圧に適用できる。ただし、本発明はこれに限定されるものではなく、入力信号からの非定常雑音の抑圧を要求されるあらゆる信号処理装置に適用可能である。
なお、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
以下、一例として、第1実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ600に設けられたCPU602で実行する処理の流れを図31を用いて説明する。
まず、入力信号を、周波数領域における振幅成分信号に変換する(S3101)。周波数領域における振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する(S3103)。入力した振幅成分信号と定常成分信号とを用いて、新たな振幅成分信号を生成する(S3105)。振幅成分信号を、新たな振幅成分信号に置き換える(S3107)。さらに、新たな振幅成分信号を用いて強調信号に逆変換する(S3109)。
これらの各処理を行なうプログラムモジュールがメモリ3104に格納されており、CPU602はメモリ3104に格納されたそれらのプログラムモジュールを順次実行することにより、第1実施形態と同様の効果を得ることができる。
同様に、第2実施形態〜第17実施形態についても、CPU3102がブロック図で説明した各機能構成に対応するプログラムモジュールをメモリ3104から実行することにより、各実施形態の効果を得ることができる。
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定手段と、
前記変換手段が求めた振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換手段と、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換手段と、
を備えた信号処理装置。
(付記2)
前記置換手段は、少なくとも一部の周波数において、前記定常成分信号の関数に基づいて、前記新たな振幅成分信号を生成する付記1に記載の信号処理装置。
(付記3)
前記置換手段は、少なくとも一部の周波数において、前記定常成分信号に係数を乗算して前記新たな振幅成分信号を生成する付記1または2に記載の信号処理装置。
(付記4)
前記置換手段は、前記定常成分信号の第1関数に基づいて決定された第1閾値よりも前記振幅成分信号が大きい周波数において、前記定常成分信号の第2関数に基づいて前記新たな振幅成分信号を生成する請求項1、2又は3に記載の信号処理装置。
(付記5)
前記置換手段は、
前記第1閾値と前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記第1閾値よりも大きい周波数において、前記振幅成分信号を前記定常成分信号の第2関数に基づいて前記新たな振幅成分信号を生成し、前記振幅成分信号が前記第1閾値以下の周波数において、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記4に記載の信号処理装置。
(付記6)
前記置換手段は、
前記第1閾値としての前記定常成分信号の第1係数倍と、前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記定常成分信号の第1係数倍よりも大きい場合に、前記第2関数としての前記定常成分信号の第2係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の第1係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記4に記載の信号処理装置。
(付記7)
前記置換手段は、前記定常成分信号の第3関数に基づいて決定された第2閾値よりも前記振幅成分信号が小さい周波数において、前記定常成分信号の第4関数に基づいて前記新たな振幅成分信号を生成する付記1乃至6のいずれか1項に記載の信号処理装置。
(付記8)
前記置換手段は、
前記第2閾値と前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記第2閾値よりも大きい周波数において、前記振幅成分信号を前記定常成分信号の第2関数に基づいて前記新たな振幅成分信号を生成し、前記振幅成分信号が前記第2閾値以下の周波数において、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記1乃至7のいずれか1項に記載の信号処理装置。
(付記9)
前記置換手段は、
前記第2閾値としての前記定常成分信号の第3係数倍と、前記振幅成分信号とを比較する比較手段と、
前記振幅成分信号が前記定常成分信号の前記第3係数倍よりも小さい場合に、前記定常成分信号の第4係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の前記第3係数倍以上の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする下側置換手段と、
を含む付記7に記載の信号処理装置。
(付記10)
前記置換手段は、
前記定常成分信号の第5関数に基づいて決定された第3閾値よりも前記振幅成分信号が大きい周波数において、前記定常成分信号の第6関数に基づいて前記新たな振幅成分信号を生成して置換し、
前記振幅成分信号が前記定常成分信号の第7関数に基づいて決定された第4閾値よりも小さい周波数において、前記定常成分信号の第8関数に基づいて前記新たな振幅成分信号を生成して置換し、
前記第3閾値は、前記第4閾値以上である付記1乃至9のいずれか1項に記載の信号処理装置。
(付記11)
前記置換手段は、
前記第3閾値としての前記定常成分信号の第5係数倍と前記振幅成分信号とを比較する第1比較手段と、
前記振幅成分信号が前記定常成分信号の前記第5係数倍よりも大きい場合に、前記定常成分信号の第6係数倍を前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の第5係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
前記第4閾値としての前記定常成分信号の第6係数倍と前記上側置換手段が出力した新たな振幅成分信号とを比較する第2比較手段と、
前記上側置換手段が出力した新たな振幅成分信号が前記定常成分信号の第6係数倍よりも小さい場合に、前記定常成分信号の第7係数倍を用いて、前記上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第6係数倍以上の場合に、前記上側置換手段が求めた新たな振幅成分信号をそのまま出力する下側置換手段と、
を含む付記10に記載の信号処理装置。
(付記12)
前記置換手段は、
前記振幅成分信号と前記定常成分信号の第7係数倍とを比較する比較手段と、
前記振幅成分信号が前記定常成分信号の第7係数倍よりも大きい場合に、前記振幅成分信号の第8係数倍を、前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の前記第7係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
を含む付記1に記載の信号処理装置。
(付記13)
前記置換手段は、
前記振幅成分信号と前記定常成分信号の第9係数倍とを比較する第1比較手段と、
前記振幅成分信号が前記定常成分信号の第9係数倍よりも大きい場合に、前記振幅成分信号の第10係数倍を、前記新たな振幅成分信号として置換し、前記振幅成分信号が前記定常成分信号の第9係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする上側置換手段と、
前記上側置換手段が出力した前記新たな振幅成分信号と前記定常成分信号の第11係数倍とを比較する第2比較手段と、
前記振幅成分信号が前記定常成分信号の第11係数倍よりも小さい場合に、前記定常成分信号の第12係数倍を用いて、前記上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第11係数倍以上の場合に、前記上側置換手段が求めた新たな振幅成分信号を出力する下側置換手段と、
を含む付記1に記載の信号処理装置。
(付記14)
前記振幅成分信号から音声を検出する音声検出手段をさらに有し、
前記置換手段は、非音声区間について、前記変換手段が求めた振幅成分信号を置換する付記1乃至13のいずれか1項に記載の信号処理装置。
(付記15)
前記振幅成分信号から音声の存在確率を検出する音声検出手段をさらに有し、
前記置換手段は、周波数領域において、音声の存在確率が低いほど、前記定常成分信号により近づくように、前記変換手段が求めた振幅成分信号を置換する付記1乃至13のいずれか1項に記載の信号処理装置。
(付記16)
前記振幅成分信号に含まれる雑音を抑圧する雑音抑圧手段をさらに備え、
前記置換手段は、
前記雑音抑圧手段が求めた強調振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える付記1乃至15のいずれか1項に記載の信号処理装置。
(付記17)
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記変換ステップで求めた振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
を含む信号処理方法。
(付記18)
入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
前記変換ステップで求めた振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
をコンピュータに実行させる信号処理プログラム。
この出願は、2013年4月11日に出願された日本出願特願2013−83411を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (14)

  1. 入力信号を、周波数領域における振幅成分信号に変換する変換手段と、
    周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定手段と、
    前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて当該周波数における新たな振幅成分信号を生成し、前記変換手段が求めた振幅成分信号を前記新たな振幅成分信号に置き換える置換手段と、
    前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換手段と、
    を備えた信号処理装置。
  2. 前記置換手段は、前記定常成分信号の第1係数倍よりも前記振幅成分信号が大きい周波数において、前記新たな振幅成分信号を生成する請求項1に記載の信号処理装置。
  3. 前記置換手段は、
    前記定常成分信号の前記第1係数倍と前記振幅成分信号とを比較する第1比較手段と、
    前記振幅成分信号が前記定常成分信号の前記第1係数倍よりも大きい場合に、前記定常成分信号の第2係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の前記第1係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第1上側置換手段と、
    を含む請求項1に記載の信号処理装置。
  4. 前記置換手段は、前記定常成分信号の第3係数倍よりも前記振幅成分信号が小さい周波数において、前記新たな振幅成分信号を生成する請求項1に記載の信号処理装置。
  5. 前記置換手段は、
    前記定常成分信号の第3係数倍と前記振幅成分信号とを比較する第2比較手段と、
    前記振幅成分信号が前記定常成分信号の前記第3係数倍よりも小さい場合に、前記定常成分信号の第4係数倍を前記新たな振幅成分信号とし、前記振幅成分信号が前記定常成分信号の前記第3係数倍以上の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第1下側置換手段と、
    を含む請求項1に記載の信号処理装置。
  6. 前記置換手段は、
    前記定常成分信号の前記第1係数倍よりも前記振幅成分信号が大きい周波数において、前記定常成分信号に基づいて前記新たな振幅成分信号を生成して置換し、
    前記振幅成分信号が前記定常成分信号の第3係数倍よりも小さい周波数において、前記定常成分信号に基づいて前記新たな振幅成分信号を生成して置換し、
    前記第1係数は、前記第3係数以上である請求項1乃至5のいずれか1項に記載の信号処理装置。
  7. 前記置換手段は、
    前記定常成分信号の第1係数倍と前記振幅成分信号とを比較する第1比較手段と、
    前記振幅成分信号が前記定常成分信号の前記第1係数倍よりも大きい場合に、前記定常成分信号の第2係数倍を前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の第1係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第1上側置換手段と、
    前記定常成分信号の第3係数倍と前記第1上側置換手段が出力した新たな振幅成分信号とを比較する第3比較手段と、
    前記第1上側置換手段が出力した新たな振幅成分信号が前記定常成分信号の第3係数倍よりも小さい場合に、前記定常成分信号の第4係数倍で前記第1上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第3係数倍以上の場合に、前記第1上側置換手段が求めた新たな振幅成分信号をそのまま出力する第下側置換手段と、
    を含む請求項1に記載の信号処理装置。
  8. 前記置換手段は、
    前記定常成分信号の第1係数倍と前記振幅成分信号を比較する第1比較手段と、
    前記振幅成分信号が前記定常成分信号の第1係数倍よりも大きい場合に、前記振幅成分信号の第2係数倍を、前記新たな振幅成分信号として前記振幅成分信号を置換し、前記振幅成分信号が前記定常成分信号の前記第1係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第2上側置換手段と、
    を含む請求項1に記載の信号処理装置。
  9. 前記置換手段は、
    前記振幅成分信号と前記定常成分信号の第1係数倍とを比較する第1比較手段と、
    前記振幅成分信号が前記定常成分信号の第1係数倍よりも大きい場合に、前記振幅成分信号の第2係数倍を、前記新たな振幅成分信号として置換し、前記振幅成分信号が前記定常成分信号の第1係数倍以下の場合に、前記変換手段が求めた振幅成分信号をそのまま前記新たな振幅成分信号とする第2上側置換手段と、
    前記第2上側置換手段が出力した前記新たな振幅成分信号と前記定常成分信号の第3係数倍とを比較する第3比較手段と、
    前記振幅成分信号が前記定常成分信号の第3係数倍よりも小さい場合に、前記定常成分信号の第4係数倍を用いて、前記第2上側置換手段が求めた新たな振幅成分信号をさらに置換し、前記振幅成分信号が前記定常成分信号の第3係数倍以上の場合に、前記第2上側置換手段が求めた新たな振幅成分信号を出力する第下側置換手段と、
    を含む請求項1に記載の信号処理装置。
  10. 前記振幅成分信号から音声を検出する音声検出手段をさらに有し、
    前記置換手段は、非音声区間について、前記変換手段が求めた振幅成分信号を置換する請求項1乃至9のいずれか1項に記載の信号処理装置。
  11. 前記振幅成分信号から音声の存在確率を検出する音声検出手段をさらに有し、
    前記置換手段は、周波数領域において、音声の存在確率が低いほど、前記定常成分信号により近づくように、前記変換手段が求めた振幅成分信号を置換する請求項1乃至9のいずれか1項に記載の信号処理装置。
  12. 前記振幅成分信号に含まれる雑音を抑圧する雑音抑圧手段をさらに備え、
    前記置換手段は、
    前記雑音抑圧手段が求めた強調振幅成分信号と前記定常成分信号とを用いて、新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える請求項1乃至11のいずれか1項に記載の信号処理装置。
  13. 入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
    周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
    前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて、当該周波数における新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
    前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
    を含む信号処理方法。
  14. 入力信号を、周波数領域における振幅成分信号に変換する変換ステップと、
    周波数領域における前記振幅成分信号に基づいて、定常的な特性を備えた周波数スペクトルを有する定常成分信号を推定する定常成分推定ステップと、
    前記振幅成分信号と前記定常成分信号とがある周波数においてあらかじめ定められた大小関係を満たすときに、前記振幅成分信号または前記定常成分信号を用いて、当該周波数における新たな振幅成分信号を生成し、前記振幅成分信号を、前記新たな振幅成分信号に置き換える置換ステップと、
    前記新たな振幅成分信号を用いて強調信号に逆変換する逆変換ステップと、
    をコンピュータに実行させる信号処理プログラム。
JP2015511204A 2013-04-11 2014-03-27 信号処理装置、信号処理方法および信号処理プログラム Active JP6544234B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013083411 2013-04-11
JP2013083411 2013-04-11
PCT/JP2014/058961 WO2014168021A1 (ja) 2013-04-11 2014-03-27 信号処理装置、信号処理方法および信号処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2014168021A1 JPWO2014168021A1 (ja) 2017-02-16
JP6544234B2 true JP6544234B2 (ja) 2019-07-17

Family

ID=51689432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015511204A Active JP6544234B2 (ja) 2013-04-11 2014-03-27 信号処理装置、信号処理方法および信号処理プログラム

Country Status (5)

Country Link
US (1) US10741194B2 (ja)
EP (1) EP2985761B1 (ja)
JP (1) JP6544234B2 (ja)
CN (1) CN105144290B (ja)
WO (1) WO2014168021A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
US9838737B2 (en) * 2016-05-05 2017-12-05 Google Inc. Filtering wind noises in video content
CN106101925B (zh) * 2016-06-27 2020-02-21 联想(北京)有限公司 一种控制方法及电子设备
JP7152112B2 (ja) * 2018-08-24 2022-10-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN109547848B (zh) 2018-11-23 2021-02-12 北京达佳互联信息技术有限公司 响度调整方法、装置、电子设备以及存储介质
US11932256B2 (en) * 2021-11-18 2024-03-19 Ford Global Technologies, Llc System and method to identify a location of an occupant in a vehicle

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122384A (en) 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
JP4282227B2 (ja) 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
JP4286637B2 (ja) * 2002-11-18 2009-07-01 パナソニック株式会社 マイクロホン装置および再生装置
US7577262B2 (en) * 2002-11-18 2009-08-18 Panasonic Corporation Microphone device and audio player
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
CN101627428A (zh) * 2007-03-06 2010-01-13 日本电气株式会社 抑制杂音的方法、装置以及程序
JP5219499B2 (ja) 2007-08-01 2013-06-26 三洋電機株式会社 風雑音低減装置
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
JP5728870B2 (ja) 2010-09-29 2015-06-03 井関農機株式会社 コンバイン
JP6064600B2 (ja) 2010-11-25 2017-01-25 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP5919647B2 (ja) 2011-05-11 2016-05-18 富士通株式会社 風雑音抑圧装置、半導体集積回路及び風雑音抑圧方法
JP6004792B2 (ja) 2011-07-06 2016-10-12 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム

Also Published As

Publication number Publication date
US10741194B2 (en) 2020-08-11
EP2985761B1 (en) 2021-01-13
WO2014168021A1 (ja) 2014-10-16
EP2985761A1 (en) 2016-02-17
US20160055863A1 (en) 2016-02-25
CN105144290B (zh) 2021-06-15
EP2985761A4 (en) 2016-12-21
CN105144290A (zh) 2015-12-09
JPWO2014168021A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
JP6544234B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP7191793B2 (ja) 信号処理装置、信号処理方法、及びプログラム
US9113241B2 (en) Noise removing apparatus and noise removing method
JP5127754B2 (ja) 信号処理装置
JP5528538B2 (ja) 雑音抑圧装置
JP6780644B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
CN105103230B (zh) 信号处理装置、信号处理方法、信号处理程序
US20100207689A1 (en) Noise suppression device, its method, and program
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
US20150205575A1 (en) Audio signal processing apparatus and method thereof
JP6064600B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP2008216721A (ja) 雑音抑圧の方法、装置、及びプログラム
JP5443547B2 (ja) 信号処理装置
US9697848B2 (en) Noise suppression device and method of noise suppression
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
JP5413575B2 (ja) 雑音抑圧の方法、装置、及びプログラム
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2003131689A (ja) ノイズ除去方法及び装置
JP5316127B2 (ja) 音処理装置およびプログラム
JPWO2013032025A1 (ja) 信号処理装置、信号処理方法、およびコンピュータ・プログラム
JP2013130815A (ja) 雑音抑圧装置
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
JP2006084659A (ja) オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体
JP2006084665A (ja) オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190603

R150 Certificate of patent or registration of utility model

Ref document number: 6544234

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150