JP5646077B2 - 雑音抑圧装置 - Google Patents

雑音抑圧装置 Download PDF

Info

Publication number
JP5646077B2
JP5646077B2 JP2013541483A JP2013541483A JP5646077B2 JP 5646077 B2 JP5646077 B2 JP 5646077B2 JP 2013541483 A JP2013541483 A JP 2013541483A JP 2013541483 A JP2013541483 A JP 2013541483A JP 5646077 B2 JP5646077 B2 JP 5646077B2
Authority
JP
Japan
Prior art keywords
power spectrum
noise
unit
spectrum
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013541483A
Other languages
English (en)
Other versions
JPWO2013065088A1 (ja
Inventor
訓 古田
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5646077B2 publication Critical patent/JP5646077B2/ja
Publication of JPWO2013065088A1 publication Critical patent/JPWO2013065088A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、入力信号に混入した背景雑音を抑圧する雑音抑圧装置に関するものであり、例えば音声通信・音声蓄積・音声認識システムが導入された、カーナビゲーション・携帯電話・テレビ電話、インターフォンなどの音声通信システム・ハンズフリー通話システム・TV会議システム・監視システム等の音質改善や、音声認識システムの認識率の向上に用いられるものである。
近年のディジタル信号処理技術の進展に伴い、携帯電話による屋外での音声通話や、自動車内でのハンズフリー音声通話や音声認識によるハンズフリー操作が広く普及している。これら装置は高騒音環境下で用いられることが多いため、音声と共にマイクに背景雑音も入力されてしまい通話音声の劣化や音声認識率の低下などを招く。そのため、快適な音声通話や高精度の音声認識を実現するには、入力信号に混入した背景雑音を抑圧する雑音抑圧装置が必要である。
従来の雑音抑圧方法としては、例えば、時間領域の入力信号を周波数領域の信号であるパワースペクトルに変換し、入力信号のパワースペクトルと、入力信号から別途推定した推定雑音スペクトルとを用いて雑音抑圧のための抑圧量を算出し、得られた抑圧量を用いて入力信号のパワースペクトルの振幅抑圧を行い、振幅抑圧されたパワースペクトルと入力信号の位相スペクトルを時間領域へ変換して雑音抑圧信号を得る方法がある(非特許文献1参照)。
この従来の雑音抑圧方法では、音声のパワースペクトルと推定雑音パワースペクトルの比(以下、SN比と称する)に基づいて抑圧量を算出しているが、その値が負(デシベル値にて)になると正しく抑圧量を算出することができない。例えば、低域に大きなパワーを持つ自動車走行騒音が重畳した音声信号では、音声の低域が雑音に埋もれてしまうためSN比が負となってしまい、その結果、音声信号の低域が過度に抑圧され音質劣化するという課題があった。
上記の課題に対し、複数のマイクロホン(マイクロホンアレー)を利用することで目的信号である音声信号を効率良く抽出し、高雑音下でも高品質な雑音抑圧を実現する方法として、例えば、非特許文献2にビームフォーミング法が開示され、特許文献1には目的信号を抽出する機能を有する集音装置が開示されている。
非特許文献2では、音源からの目的信号が各マイクロホンに到達するときに生じる位相差などの空間情報を利用し、各マイクロホンの信号を合成して目的信号を強調することで、目的信号である音声信号と雑音とのSN比を改善させ、良好な雑音抑圧装置を実現している。
また、特許文献1では、騒音下において目的信号を抽出する技術として、目的信号と騒音の音場分布差を利用し、周波数軸上で目的信号が支配的な周波数成分を抽出する手法を開示している。この特許文献1では、目的信号の音源近くに主入力マイクロホンが、その主入力マイクロホンよりも前記音源から離れた位置に補助入力マイクロホンを設置することを条件とし、これら2つのマイクロホン間に生じるレベル差の特性が騒音と目的信号で異なることに着目して、目的信号が支配的な周波数成分の抽出を実現することで、音質の改善を実現している。
特開平11−259090号公報(第3頁〜5頁、図1)
Y.Ephraim, D.Malah,"Speech Enhancement Using a Minimum Mean Square Error Short−Time Spectral Amplitude Estimator",IEEE Trans.ASSP,vol.ASSP−32,No.6 Dec.1984 Y.Kaneda, J.Ohga,"Adaptive Microphone−Array System for Noise Reduction",IEEE Trans.ASSP,vol.ASSP−34,No.6,Dec.1986
非特許文献2に開示された従来の技術では、強調した音源(目的信号)が他の音源(雑音)と異なる位置にあることを前提としており、目的信号と雑音が同じ方向にある場合には、目的信号を強調することができず性能が低下するという課題があった。また、特許文献に開示された従来の技術では、主マイクロホンと補助マイクロホンが近接して配置されている場合など、主マイクロホンと補助マイクロホンに目的信号が入力される場合には、目的信号と雑音のレベル差を検出することが困難であるため、音質改善できないという課題があった。
この発明は、上記のような課題を解決するためになされたもので、高雑音環境下でも高品質な雑音抑圧を実現する雑音抑圧装置を提供することを目的とする。
この発明に係る雑音抑圧装置は、入力された複数の入力信号を時間領域の信号から周波数領域の信号であるスペクトル成分に変換するフーリエ変換部と、フーリエ変換部が変換したスペクトル成分からパワースペクトルを算出するパワースペクトル計算部と、複数の入力信号について、パワースペクトル計算部が算出したパワースペクトルのスペクトル成分を比較し、周波数毎に最も大きい値を有するスペクトル成分を選択して構成したパワースペクトルを合成パワースペクトル候補として生成するパワースペクトル選択部と、パワースペクトル計算部が算出したパワースペクトルに基づいて、入力信号の調波構造および周期性の分析を行う入力信号分析部と、複数の入力信号のうち1つの入力信号のパワースペクトルを代表パワースペクトルとし、入力信号分析部の分析結果に応じて、代表パワースペクトルと、パワースペクトル選択部が生成した合成パワースペクトル候補とを合成して合成パワースペクトルを生成するパワースペクトル合成部と、パワースペクトル合成部が生成した合成パワースペクトル、および入力信号から推定される推定雑音スペクトルに基づいて、雑音抑圧量を算出する雑音抑圧量計算部と、パワースペクトル合成部が生成した合成パワースペクトルに対して、雑音抑圧量計算部が算出した雑音抑圧量を用いて雑音抑圧を行うパワースペクトル抑圧部と、パワースペクトル抑圧部において雑音抑圧された合成パワースペクトルを時間領域の信号に変換し、音声信号として出力する逆フーリエ変換部とを備える。
この発明によれば、音声の過度の抑圧を抑制し、高品質な雑音抑圧を実現する雑音抑圧装置を提供することができる。
実施の形態1による雑音抑圧装置の構成を示すブロック図である。 実施の形態1による雑音抑圧装置の雑音抑圧量計算部の構成を示すブロック図である。 実施の形態1による雑音抑圧装置の調波構造の分析を示す説明図である。 実施の形態1による雑音抑圧装置のスペクトルピークの推測を示す説明図である。 実施の形態1による雑音抑圧装置の動作の流れを模式的に示した図である。 実施の形態1による雑音抑圧装置の出力結果の一例を示す説明図である。 実施の形態2による雑音抑圧装置の重みつき平均化処理を示す説明図である。 実施の形態4による雑音抑圧装置の構成を示すブロック図である。 実施の形態5による雑音抑圧装置の構成を示すブロック図である。 実施の形態6による雑音抑圧装置の構成を示すブロック図である。 実施の形態6による雑音抑圧装置の適用例を示す説明図である。 実施の形態9による雑音抑圧システムの構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1による雑音抑圧装置の構成を示すブロック図である。
入力端子である第1のマイクロホン1および第2のマイクロホン2が接続された雑音抑圧装置100は、第1のフーリエ変換部3、第2のフーリエ変換部4、第1のパワースペクトル計算部5、第2のパワースペクトル計算部6、パワースペクトル選択部7、入力信号分析部8、パワースペクトル合成部9、雑音抑圧量計算部10、パワースペクトル抑圧部11および逆フーリエ変換部12で構成されている。逆フーリエ変換部12の後段には出力端子13が接続されている。
図2は、実施の形態1の雑音抑圧装置の雑音抑圧量計算部の構成を示すブロック図である。図2に示すように、雑音抑圧量計算部10は、音声/雑音区間判定部20、雑音スペクトル推定部21、SN比計算部22および抑圧量計算部23で構成されている。
次に、図1および図2に基づいて雑音抑圧装置100の動作原理について説明する。なお、この実施の形態1では、説明を簡単にするために入力端子として2本のマイクロホンを用いる場合を例に説明する。
まず、第1および第2のマイクロホン1,2を通じて取り込まれた音声や音楽などが、A/D(アナログ・デジタル)変換された後、所定のサンプリング周波数(例えば、8kHz)でサンプリングされると共にフレーム単位に分割(例えば、10ms)され、雑音抑圧装置100へ入力される。ここで、第1のマイクロホン1は、目的信号の音源から一番距離が近いマイクロホン(主マイクロホン)として第1のフーリエ変換部3に接続され、主マイクロホン信号として第1の入力信号x(t)を入力する。また、第2のマイクロホン2は、それ以外のマイクロホン(副マイクロホン)として第2のフーリエ変換部4へ接続され、副マイクロホンの信号として第2の入力信号x(t)を入力する。ここで、tはサンプル点番号である。
第1のフーリエ変換部3と第2のフーリエ変換部4は同様の動作を行う。第1または第2のマイクロホン1,2から入力された入力信号を、例えばハニング窓掛けと必要に応じてゼロ詰め処理を行った後、例えば以下の式(1)に示す256点の高速フーリエ変換を行い、時間領域の信号である第1の入力信号x(t)および第2の入力信号x(t)を、周波数領域の信号である第1のスペクトル成分X(λ,k)および第2のスペクトル成分X(λ,k)に変換する。得られた第1のスペクトル成分X(λ,k)は第1のパワースペクトル計算部5へ出力し、第2のスペクトル成分X(λ,k)は第2のパワースペクトル計算部6へ出力する。
(λ,k)=FT[x(t)] ; M=1,2 ・・・(1)
ここで、λは入力信号をフレーム分割したときのフレーム番号、kはスペクトルの周波数帯域の周波数成分を指定する番号(以下、スペクトル番号と称する)、Mはマイクロホンを指定する番号、FT[・]はフーリエ変換処理を表す。なお、フーリエ変換は公知の手法であるため説明は省略する。
第1のパワースペクトル計算部5と第2のパワースペクトル計算部6は同様の動作を行う。以下に示す式(2)を用いて、各入力信号のスペクトル成分X(λ,k)から第1のパワースペクトルY(λ,k)と、第2のパワースペクトルY(λ,k)とを得る。得られた第1のパワースペクトルY(λ,k)はパワースペクトル選択部7、入力信号分析部8およびパワースペクトル合成部9へ出力する。第2のパワースペクトルY(λ,k)は、パワースペクトル選択部7と入力信号分析部8へ出力する。
また、第1のパワースペクトル計算部5は、以下に示す式(3)を用いて第1のスペクトル成分X(λ,k)からその位相成分である位相スペクトルθ(λ,k)を計算し、後述する逆フーリエ変換部12へ出力する。
Figure 0005646077
ここで、Re{X(λ,k)}およびIm{X(λ,k)}は、それぞれフーリエ変換後の入力信号スペクトルの実数部および虚数部を示す。
パワースペクトル選択部7は、第1のパワースペクトルY(λ,k)と第2のパワースペクトルY(λ,k)とを入力し、次の式(4)を用いて、第1のパワースペクトルと第2のパワースペクトルの値の大きさをスペクトル番号毎に比較し、値が大きな方を選択して合成パワースペクトル候補Ycand(λ,k)を生成する。生成された合成パワースペクトル候補Ycand(λ,k)は、パワースペクトル合成部9へ出力する。
Figure 0005646077
ここで、Aは所定の正値を持つ係数でありリミッタとして動作する。これは、第2のパワースペクトル成分の方が第1のパワースペクトル成分と比較して極めて大きい場合には、第2のパワースペクトル成分は目的信号以外の雑音である可能性が高いので、式(4)のようなリミッタ処理を入れることにより、誤った置き換え処理を抑制して品質劣化を防止することができる。なお、この実施の形態1ではA=4.0が好適であるが、目的信号や雑音の様態に応じて適宜変更が可能である。
Figure 0005646077
Figure 0005646077
ここで、E(Y(λ))およびE(Y(λ))は、それぞれ第1のパワースペクトルのエネルギー成分、第2のパワースペクトルのエネルギー成分である。
入力信号分析部8は、第1のパワースペクトル計算部5が出力するパワースペクトルY(λ,k)と、第2のパワースペクトル計算部6が出力するパワースペクトルY(λ,k)を入力し、各パワースペクトルの調波構造と、現フレームの入力信号の周期性の強さの指標として、自己相関係数の算出を行う。
調波構造の分析は、例えば図3に示すようなパワースペクトルが構成する調波構造の山(以下、スペクトルピークと称する)を検出することで可能である。具体的には、調波構造とは無関係な微小ピーク成分除去のため、例えば、パワースペクトルの最大値の20%の値を各パワースペクトル成分から減算した後、低域から順にパワースペクトルのスペクトル包絡の極大値をトラッキングして求める。なお、図3に示したパワースペクトル例では説明を容易にするために、音声スペクトルと雑音スペクトルを別成分と記載したが、実際の入力信号では音声スペクトルに雑音スペクトルが重畳(加算)しており、雑音スペクトルよりもパワーが小さい音声スペクトルのピークは観測できない。
スペクトルピーク探索後、周期性情報p(λ,k)として、パワースペクトルの極大値(スペクトルピークである)であればp(λ,k)=1とし、そうでなければp(λ,k)=0としてスペクトル番号k毎に値をセットする。なお、図3の例では、全てのスペクトルピークの抽出を行っているが、例えば、SN比の高い帯域のみなど、特定の周波数帯域に限って行ってもよい。
次に、図4に示すように観測されたスペクトルピークP1,P2,・・・,P6の周期構造を元に、雑音スペクトルに埋もれている音声スペクトルのピークPS1,PS2,PS3,PS4を推測する。具体的には、例えば図4のように、観測されたスペクトルピークの周期間隔(ピーク間隔)の平均値(平均ピーク間隔)を算出し、スペクトルピークが観測されていない区間(雑音に埋もれた低域部分や高域部分)においては、求めた平均ピーク間隔でスペクトルピークが存在すると見なし、そのスペクトル番号の周期性情報p(λ,k)=1をセットする。なお、極めて低い周波数帯域(例えば、120Hz以下)では音声成分が存在することは稀なので、その帯域では周期性情報p(λ,k)に「1」をセットしないこともできる。極めて高い周波数帯域でも同様な処理が可能である。
上記の処理は第1および第2のパワースペクトルについてそれぞれ実施し、それぞれ第1の周期性情報p(λ,k)、第2の周期性情報p(λ,k)として求める。
Figure 0005646077
Figure 0005646077

Figure 0005646077
Figure 0005646077
以上、得られた第1の周期性情報p(λ,k)および第2の周期性情報p(λ,k)と、第1の自己相関係数最大値ρ1_max(λ)および第2の自己相関係数最大値ρ2_max(λ)を、入力信号分析結果として、パワースペクトル合成部9へ出力する。また、第1の自己相関係数最大値ρ1_max(λ)は、雑音抑圧量計算部10へも出力する。
なお、調波構造や周期性の分析には、上述のパワースペクトルのピーク分析や自己相関関数法に限らず、例えば、ケプストラム分析など公知の手法を用いることができる。
パワースペクトル合成部9は、以下に示す式(8)を用いて、入力信号分析部8が出力する入力信号分析結果に基づいて、第1のパワースペクトルY(λ,k)と合成パワースペクトル候補Ycand(λ,k)からパワースペクトルの合成を行い、合成パワースペクトルYsyn(λ,k)を出力する。
Figure 0005646077
ここで、snrave(λ)は、後述する雑音抑圧量計算部10が出力するサブバンドSN比snrsb(λ)から計算した現フレームの平均SN比(サブバンドSN比の平均値)であり、以下に示す式(9)により計算できる。また、SNRTHは所定の定数閾値であり、サブバンドSN比の平均値snrave(λ)がSNRTHを下回る場合には雑音区間の可能性が高く、合成パワースペクトル候補Ycand(λ,k)を用いた合成処理を行わないことを意味している。即ち、雑音区間では、合成パワースペクトル候補による置き換え処理を行わずに、第1のパワースペクトルを合成スペクトルとしてそのまま出力することで、不要なパワースペクトル合成処理を行わないようにすることができ、品質劣化(例えば、雑音レベル増大や不要な雑音信号の付加)を防止することができる。なお、この実施の形態1ではSNRTH=6(dB)が好適であるが、目的信号や雑音の様態・周波数特性に合わせて適宜変更が可能である。
Figure 0005646077
また、上述した式(8)によるパワースペクトル合成時において、第1の周期性情報p(λ,k)と第2の周期性情報p(λ,k)の両者を用いてパワースペクトル成分の置き換え処理を行っているが、例えば、第1の周期性情報p(λ,k)のみでも構わないし、第2の周期性情報p(λ,k)のみでも構わない。これは目的信号の音源がどちらか一方のマイクロホンに近接した場合に特に有効となり、例えば、第1のマイクロホンに目的信号の音源が近づいた場合に、第1の周期性情報p(λ,k)を用いてパワースペクトル合成を行うといったような、マイクロホンと目的信号の距離に応じた周期性情報の切り替え処理が可能である。逆に、雑音の音源との距離に応じて周期性情報の切り替え処理も可能であり、目的信号の場合とは逆の処理を行う、即ち、第1のマイクロホンに雑音の音源が近づいた場合には、第2の周期性情報p(λ,k)を用いてパワースペクトル合成を行うことが可能である。あるいは、目的信号や雑音の周波数特性などに応じ、例えば、500Hz以下の低域は第1の周期性情報を用い、それ以上の周波数帯域は第2の周期性情報を用いるなど、第1の周期性情報と第2の周期性情報を周波数別に使い分けても構わない。
以上のように、目的信号の様態をより精度良く分析している周期性情報をパワースペクトル合成に用いることで、更に良好な雑音抑圧が可能となる。
図5は、上述した各構成の動作の補助説明として、第1のパワースペクトル計算部5および第2のパワースペクトル計算部6、パワースペクトル選択部7、入力信号分析部8、パワースペクトル合成部9の一連の動作の流れを模式的に示したものである。
雑音抑圧量計算部10は、合成パワースペクトルYsyn(λ,k)を入力し、雑音抑圧量を計算してパワースペクトル抑圧部11へ出力する。以下、図2を用いて雑音抑圧量計算部10の内部構成について説明する。
音声/雑音区間判定部20は、パワースペクトル合成部9が出力する合成パワースペクトルYsyn(λ,k)と、入力信号分析部8が出力する第1の自己相関関数最大値ρ1_max(λ)と、後述する雑音スペクトル推定部21が出力する推定雑音スペクトルN(λ,k)を入力し、現フレームの入力信号が音声であるか雑音であるかどうかの判定を行い、その結果を判定フラグとして出力する。音声/雑音区間の判定方法として、例えば、以下に示す式(10)と式(11)のどちらか一方あるいは両方を満たす場合に、音声であるとして判定フラグVflagを「1(音声)」にセットし、それ以外の場合には雑音であるとして判定フラグVflagを「0(雑音)」にセットして出力する。
Figure 0005646077
ここで、式(10)において、N(λ,k)は推定雑音スペクトルであり、SpowとNpowはそれぞれ合成パワースペクトルの総和、推定雑音スペクトルの総和を表す。また、THFR_SNおよびTHACFは、判定用の所定の定数閾値であり、好適な例としてTHFR_SN=3(dB)およびTHACF=0.3であるが、入力信号の状態や雑音レベルに応じて適宜変更することもできる。
この実施の形態1における音声/雑音区間判定処理では、パラメータの一部として入力信号分析部8が出力する第1の自己相関係数最大値ρ1_max(λ)を用いているが、例えば、パワースペクトル合成部9が出力する合成パワースペクトルYsyn(λ,k)を用いて、その自己相関係数最大値を計算し、第1の自己相関係数最大値の代わりとして用いてもよい。音声の周期構造が補正されている合成パワースペクトルから自己相関係数を求め直すことにより、音声区間検出精度が向上するので後述の雑音スペクトル推定精度が向上し、雑音抑圧装置の品質が向上する効果がある。
雑音スペクトル推定部21は、パワースペクトル合成部9が出力する合成パワースペクトルYsyn(λ,k)と、音声/雑音区間判定部20が出力する判定フラグVflagとを入力し、以下に示す式(12)と判定フラグVflagに従って雑音スペクトルの推定と更新を行い、推定雑音スペクトルN(λ,k)を出力する。
Figure 0005646077
ここで、N(λ−1,k)は前フレームにおける推定雑音スペクトルであり、雑音スペクトル推定部21内の例えばRAM(Random Access Memory)などの記憶手段において保持されている。上述した式(12)において、判定フラグVflag=0の場合には、現フレームの入力信号が雑音と判定されていることから、合成パワースペクトルYsyn(λ,k)と更新係数αを用いて、前フレームの推定雑音スペクトルN(λ−1,k)の更新を行っている。なお、更新係数αは0<α<1の範囲の所定の定数であり、好適な例としてα=0.95であるが、入力信号の状態や雑音レベルに応じて適宜変更することもできる。
一方、判定フラグVflag=1の場合には、現フレームの入力信号が音声であり、前フレームの推定雑音スペクトルN(λ−1,k)を、そのまま現フレームの推定雑音スペクトルN(λ,k)として出力する。
SN比計算部22は、パワースペクトル合成部9が出力する合成パワースペクトルYsyn(λ,k)と、雑音スペクトル推定部21が出力する推定雑音スペクトルN(λ,k)と、後述する抑圧量計算部23が出力する前フレームのスペクトル抑圧量G(λ−1,k)とを用いて、スペクトル成分毎の事後SNR(a posteriori SNR)と事前SNR(a priori SNR)を計算する。
事後SNRγ(λ,k)は、合成パワースペクトルYsyn(λ,k)と推定雑音スペクトルN(λ,k)とを用いて、以下に示す式(13)から求めることができる。
Figure 0005646077
また、事前SNRξ(λ,k)は、前フレームのスペクトル抑圧量G(λ―1,k)と、前フレームの事後SNRγ(λ―1,k)とを用いて、以下に示す式(14)で求める。
Figure 0005646077
ここで、δは0<δ<1の範囲の所定の定数であり、この実施の形態1ではδ=0.98が好適である。また、F[・]は半波整流を意味し、事後SNRがデシベル値で負の場合にゼロにフロアリングするものである。
以上、得られた事後SNRγ(λ,k)と事前SNRξ(λ,k)とを抑圧量計算部23へ出力するとともに、事前SNRξ(λ,k)についてはスペクトル成分毎のSN比(サブバンドSN比snrsb(λ,k)として、パワースペクトル合成部9へ出力する。
抑圧量計算部23は、SN比計算部22が出力する事前SNRξ(λ,k)および事後SNRγ(λ,k)から、スペクトル毎の雑音抑圧量であるスペクトル抑圧量G(λ,k)を求め、パワースペクトル抑圧部11へ出力する。
スペクトル抑圧量G(λ,k)を求める手法としては、例えば、MAP法(事後確率最大化法)を適用できる。MAP法は、雑音信号と音声信号をガウス分布であると仮定してスペクトル抑圧量G(λ,k)を推定する方法であり、事前SNRξ(λ,k)および事後SNRγ(λ,k)を用いて、条件付き確率密度関数を最大にする振幅スペクトルと位相スペクトルを求め、その値を推定値として利用する。スペクトル抑圧量は確率密度関数の形状を決定するνとμをパラメータとして、以下に示す式(15)で表すことができる。なお、MAP法におけるスペクトル抑圧量導出法の詳細については、以下の参考文献1を参照することとし、説明は省略する。
Figure 0005646077
[参考文献1]
T.Lotter, P.Vary,“Speech Enhancement by MAP Spectral Amplitude Using a Super−Gaussian Speech Model”,EURASIP Journal on Applied Signal Processing,pp.1110−1126,No.7,2005
パワースペクトル抑圧部11では、以下に示す式(16)に従って、合成パワースペクトルYsyn(λ,k)のスペクトル毎に抑圧を行い、雑音抑圧されたパワースペクトルS(λ,k)を求め、逆フーリエ変換部12へ出力する。
Figure 0005646077
逆フーリエ変換部12は、第1のパワースペクトル計算部5が出力する位相スペクトルθ(λ,k)と、雑音抑圧されたパワースペクトルS(λ,k)とを入力し、周波数領域の信号から時間領域の信号へ変換し、前フレームの出力信号と重ね合わせ処理した後、雑音抑圧された音声信号s(t)として出力端子13より出力する。
また、図6は、この実施の形態1による雑音抑圧装置の出力結果の一例を示す説明図であり、音声区間における出力信号のスペクトルを模式的に示している。
図6(a)は、入力信号スペクトル(第1のパワースペクトルのみ)の一例を示している。実線は音声スペクトル、点線は雑音スペクトルを示し、低域の一部(領域A)と、高域の一部(領域B)が雑音に埋もれており、雑音に埋もれた部分の音声スペクトルのS/N比が推定できず、音質劣化の要因となっている。
図6(b)は、図6(a)に示すスペクトルを入力信号とした場合の従来の雑音抑圧方法による出力結果を示し、図6(c)はこの実施の形態1の雑音抑圧装置100による出力結果を示す図である。図6(b)および図6(c)において、実線は出力信号スペクトルを示している。図6(b)では、雑音に埋もれている帯域(領域Aおよび領域B)の音声の調波構造が消失してしまうのに対し、図6(c)では、雑音に埋もれている帯域(領域Aおよび領域B)の音声の調波構造が回復して、良好な雑音抑圧が行われていることがわかる。
以上のように、この実施の形態1によれば、音声が雑音に埋もれてSN比が負の値となっている帯域においても、音声の調波構造を保持するように補正して雑音抑圧を行うことができるので、音声の過度な抑圧を抑制することができ、高品質な雑音抑圧を行うことができる。
また、この実施の形態1によれば、主マイクロホンである第1のマイクロホン1の音声スペクトルが雑音に埋もれている場合にも、他のマイクロホン入力である第2のマイクロホン2の音声スペクトルを用いることで、雑音に埋もれた成分を再生することが可能であり、音声の過度な抑圧を抑制した高品質な雑音抑圧を行うことができる。
また、従来のピッチ強調では、高調波成分は同じ強調度合いでしか強調することができないが、この実施の形態1によれば、音声の調波構造に応じて、よりパワーの大きなスペクトル成分への置き換え処理(パワースペクトル合成)を行うように構成したので、音声の調波構造とその周波数特性に応じたピッチ周期強調効果が期待できる。
また、この実施の形態1によれば、入力信号のパワースペクトルと推定雑音スペクトルから算出した平均SN比を用いてパワースペクトルの合成処理を行うように構成したので、雑音区間やSN比が低い帯域で、雑音の増大などに繋がる不必要な合成を抑制することができ、さらに高品質な雑音抑圧を行うことができる。
なお、この実施の形態1では、全ての帯域についてパワースペクトルの合成処理を行う構成を示したが、該構成に限定されるものではなく、必要に応じて低域のみあるいは高域のみで合成処理を行うように構成してもよいし、例えば500から800Hz近傍のみなど、特定の周波数帯域のみで合成処理を行うように構成してもよい。このような周波数帯域の補正は、例えば風切り音や自動車エンジン音などの狭帯域性ノイズに埋もれた音声の補正に有効である。
なお、この実施の形態1では、説明の簡略化のためにマイクロホンが2本の場合を例に説明したが、マイクロホンの数はこれに限定されるものではなく適宜変更可能である。例えばマイクロホンが3本以上の場合には、図5で示したパワースペクトル選択部7のスペクトル成分大小比較評価において、最大値を取るパワースペクトルが選択されて合成パワースペクトル候補となる。
実施の形態2.
上述した実施の形態1では、上記式(9)に示したサブバンドSN比の平均値snrave(λ)と、所定の閾値snrTHとの比較に基づいて、上記式(8)においてパワースペクトル合成を実施する/しない(オン・オフ)の切り替え処理を行っていたが、例えば、入力信号の音声らしさの指標としてこの平均値snrave(λ)を用い、より連続的な変化をもったパワースペクトル合成処理として、音声区間から雑音区間へ移行する区間や、雑音区間から音声区間へ移行する区間(過渡区間)では、スペクトル成分の置き換え処理では無く、以下に示す式(17)のように、合成スペクトル候補と第1のパワースペクトルとの重みつき平均化処理を行うことも可能である。実施の形態2では、この構成について示す。
Figure 0005646077
ここでFlag[p(λ,k),p(λ,k)]は、周期性情報p(λ,k)とp(λ,k)の両者が「1」となる場合に「1」を返す論理関数である。
また、B(λ,k)はサブバンドSN比の平均値snrave(λ)を入力して決定される所定の重み関数であり、この実施の形態では以下に示す式(18)の設定が好適である。また、SNR(k)およびSNR(k)は所定の閾値であり、図7に示すように周波数別に値が設定される。なお、目的信号や雑音の様態・周波数特性などに合わせて、重み関数B(λ,k)の設定方法や、閾値SNR(k)およびSNR(k)は適宜変更しても良い。
Figure 0005646077
以上のように、この実施の形態2によれば、入力信号の音声らしさの指標を用い、連続的な変化をもったパワースペクトル合成処理として、スペクトル成分の置き換え処理では無く、音声と雑音の過渡区間では合成スペクトル候補と第1のパワースペクトルとの重みつき平均化処理を行うように構成したので、上述した実施の形態1では、音声区間と雑音区間の間の過渡領域ではパワースペクトル合成処理を行うことができなかったが、この実施の形態2では過渡領域におけるパワースペクトル合成処理が可能になる上、音声区間と雑音区間との間のパワースペクトル合成のオン・オフに伴う不連続感が緩和されるという相乗効果を有する。
なお、上述した実施の形態2では、入力信号の音声らしさの指標として、サブバンドSN比の平均値snrave(λ)を用いる構成を示したが、これに限定されることはなく、例えば上記式(7)で示した自己相関係数最大値ρM_max(λ)など、入力信号の相関性(雑音=自己相関性低い、音声=自己相関性高い)に応じてパワースペクトル合成処理を制御することも可能である。具体的には、相関性が高い場合には合成パワースペクトルの割合を大きくし、相関性が低い場合には合成パワースペクトルの割合を小さくすることで、同様の効果を得ることができる。
実施の形態3.
上述した実施の形態1では、上記式(4)において、リミッタAの値を所定の定数とする構成を示したが、この実施の形態3では、例えば入力信号の音声らしさの指標に応じて複数の定数を切り替えて用いる、あるいは所定の関数を用いて制御する構成について示す。
入力信号の音声らしさの指標、即ち、入力信号の様態の制御要因として、例えば、上記式(7)での自己相関係数の最大値ρM_max(λ)が高い場合、即ち、入力信号の周期構造がはっきりしている場合(入力信号が音声の可能性が高い)には値を大きく、低い場合には値を小さくすることが可能である。また、自己相関係数の最大値ρM_max(λ)と音声/雑音区間判定部20が出力する判定フラグVflagを併せて用いてもよく、判定フラグVflagが雑音の場合は値を小さくすることが可能である。
入力信号の様態に応じてリミッタの定数の値を制御することで、入力信号が音声の可能性が高い場合には、リミッタの値を大きくすることで音声の劣化が少なくなる一方、入力信号が雑音の可能性が高い場合にはリミッタの値を小さくすることで、雑音の混入を少なくすることができ、更に高品質な雑音抑圧を行うことができる。
また、この実施の形態3の変形例として、リミッタ値を周波数方向に一定にする必要は無く、周波数毎に異なる値にしても良い。例えば、音声の一般的な特徴として低域の方が調波構造が「明確」(スペクトルの山谷構造が際立っている)であることからリミッタの値を大きくし、周波数が高くなるにつれてリミッタの値を小さくすることが可能である。
以上のように、この実施の形態3によれば、パワースペクトル選択において周波数毎に異なるリミッタ制御を行うように構成したので、音声の周波数毎に適したパワースペクトル選択を行うことができ、さらに高品質な雑音抑制を行うことができる。
実施の形態4.
上述した実施の形態1では、図3の説明において、調波構造分析のために全てのスペクトルピークの検出を行う構成を示したが、この実施の形態4では、サブバンドSN比が高い帯域のみでスペクトルピークの検出を行う構成について示す。
図8は、実施の形態4による雑音抑圧装置の構成を示すブロック図である。
実施の形態4の雑音抑圧装置100では、雑音抑圧量計算部10の内部構成であるSN比計算部22が出力するサブバンドSN比を入力信号分析部8へ入力する。入力信号分析部8は、入力されたサブバンドSN比を用いてSN比が高い帯域のみでスペクトルピークの検出を行う。
サブバンドSN比の閾値は、例えばデシベル値として3dBが好適であり、この閾値を越える帯域のパワースペクトル成分だけを用いてスペクトルピークの検出を行うことが可能である。なお、サブバンドSN比の閾値は目的信号や雑音の様態、周波数特性に応じて適宜変更が可能である。同様に、自己相関係数の算出においてもサブバンドSN比が高い帯域のみで計算を行うことも可能である。
以上のように、この実施の形態4によれば、SN比計算部22が算出したサブバンドSN比を入力信号分析部8へ入力し、入力信号分析部8が入力されたサブバンドSN比を用いてSN比が高い帯域のみでスペクトルピークの検出、あるいは自己相関係数の算出を行うように構成したので、スペクトルピークの検出精度や音声・雑音区間判定精度を高めることができ、更に高品質な雑音抑圧を行うことができる。
実施の形態5.
上述した実施の形態1では、上記式(4)において、第1のパワースペクトルと第2のパワースペクトルとを用いて、リミッタ処理を除き、無条件にパワースペクトル候補を選択する構成を示したが、この実施の形態5ではパワースペクトル選択処理を実施するか否か選択可能なオン/オフ処理を行う構成について示す。
図9は、実施の形態5による雑音抑圧装置の構成を示すブロック図である。
実施の形態5の雑音抑圧装置100では、入力信号分析部8から出力される第2の自己相関係数の最大値ρ2_max(λ)をパワースペクトル選択部7へ入力する。パワースペクトル選択部7は、入力された第2の自己相関係数の最大値ρ2_max(λ)に基づいてパワースペクトル選択処理を実施するか否かのオン/オフ処理を実行する。
具体的には、第2の自己相関係数の最大値ρ2_max(λ)が所定の閾値を下回る場合には、第2のパワースペクトルは雑音信号の可能性が高いと判断して上記式(8)の選択処理をスキップして、第1のパワースペクトルY(λ,k)を合成パワースペクトル候補Ycand(λ,k)として出力する。第2のパワースペクトルが雑音信号であると判断する際の閾値としては「0.2」が好適であるが、目的信号や雑音の様態、SN比に応じて適宜変更可能である。
以上のように、この実施の形態5によれば、パワースペクトル選択部7が、入力された第2の自己相関係数の最大値ρ2_max(λ)に基づいてパワースペクトル選択処理を実施するか否かのオン/オフ処理を実行し、第2のパワースペクトルが雑音の可能性が高いと推測される場合には、第2のパワースペクトルを合成パワースペクトル候補としてそのまま出力するように構成したので、不要なパワースペクトル合成処理を抑制し、品質劣化(例えば、雑音レベル増大や不要な雑音信号の付加など)を防止することができる。
実施の形態6.
この実施の形態6では、マイクロホンの前処理として、例えばビームフォーミング処理を導入し、マイクロホンに指向性を持たせる構成について説明する。
図10は、この実施の形態6による雑音抑圧装置の構成を示すブロック図であり、図1で示した実施の形態1による雑音抑圧装置に、第1のビームフォーミング処理部31および第2のビームフォーミング処理部32を追加して設けている。なお、その他の構成は、実施の形態1で示した構成と同一であるため、説明を省略する。
第1のビームフォーミング処理部31は、第1のマイクロホン1および第2のマイクロホン2を用いてビームフォーミング処理を行い入力信号に指向性を持たせて、第1のフーリエ変換部3へ出力する。同様に、第2のビームフォーミング処理部32は、第1のマイクロホン1と第2のマイクロホン2を用いてビームフォーミング処理を行い入力信号に指向性を持たせて、第2のフーリエ変換部4へ出力する。なお、ビームフォーミング処理には、上述した非特許文献2に開示された手法や、最小分散無歪応答(Minimum Variance Distortionless Response)法などの公知の手法を適用することができる。
図11は、実施の形態6による雑音抑圧装置の適用例を示す説明図である。図11では、第1および第2のマイクロホン1,2に雑音抑圧装置100´を適用して構成されたハンズフリー通話装置を用いた通話を示している。移動体200の運転席201に話者Xが座り、第1および第2のマイクロホン1,2を用いてハンズフリー通話を行っている例を示し、領域Cは第1のビームフォーミング処理部31の指向性を示しており、運転席201側の話者Xの声を取得するために運転席201側に向けられるように制御し、領域Dは第2のビームフォーミング処理部32の指向性を示しており、助手席202側の話者の声を取得するために助手席202側に向けられるように制御している。
第1のビームフォーミング処理部31は、第1および第2のマイクロホン1,2を用いてビームフォーミング処理を行い、処理を行った入力信号を第1のフーリエ変換部3へ出力する。同様に、第2のビームフォーミング処理部32は、第1および第2のマイクロホン1,2を用いてビームフォーミング処理を行い、処理を行った入力信号を第2のフーリエ変換部4へ出力する。
図11の例では、運転席201の話者Xの発話による直接波201aはビームフォーミングにより取得される領域C内を移動して第1のマイクロホン1へ入力する。また、話者Xの発話のうち、壁などの反射面203により反射された反射・回折波201bは、ビームフォーミングにより取得される領域D内を移動して第2のマイクロホン2へ入力する。なお、領域C,D外に存在する雑音は、第1のマイクロホン1あるいは第2のマイクロホン2に入力されず、除去することができる。
従来の雑音抑圧装置では、助手席202側のビームフォーミングにより取得された音声は雑音抑圧装置の品質向上に寄与させることはできなかったが、この実施の形態6の雑音抑圧装置100´では、助手席202側のビームフォーミングにより取得された運転席201側の話者の音声を、第2のマイクロホン2への入力として活用することが可能であり、雑音抑圧装置の品質向上を実現することができる。
なお、上述した実施の形態6では、ビームフォーミングが運転席201側と助手席202側の2つの領域C,Dの場合について示したが、2つの領域に限定されるものではなく、3つ以上の領域としてもよい。ビームフォーミングが3つ以上の領域で設定された場合には、パワースペクトル選択部7のスペクトル成分大小比較評価において、最大値を取るパワースペクトルが選択されて合成パワースペクトル候補となる。
実施の形態7.
上述した実施の形態1から実施の形態6では、周期性情報に基づいて、目的信号である音声を強調するようにパワースペクトルの合成を行う構成を示したが、この実施の形態7では、周期性情報の谷の部分においてパワースペクトルの値の小さい成分を選択し、パワースペクトルの置き換え処理を行ってもよい。スペクトルの谷の検出には、例えばスペクトルピーク間のスペクトル番号の中央値をスペクトルの谷部分とすることが可能である。
以上のように、この実施の形態7によれば、スペクトルの谷部分のSN比を小さくするようにパワースペクトル合成を行うように構成したので、音声の調波構造を際立たせることができ、さらに高品質な雑音抑圧を行うことができる。
実施の形態8.
上述した実施の形態1から実施の形態7では、該当するスペクトル成分のみを合成処理する構成を示したが、例えば、隣接する周期数成分を重み付けして平均したスペクトルに置き換えてもよい。例えば、周期性情報の隣接する周波数成分についても上記式(8)あるいは式(17)と所定の重み係数を用いて置き換え処理を行うことが可能であり、目的信号の振幅レベルに対して雑音の振幅レベルが高い(SN比が低い)場合など、調波構造の分析精度が劣化してスペクトルピーク位置が的確に決定できない場合にも、パワースペクトルの合成処理を行うことができる。
以上のように、この実施の形態8では、周期成分の隣接する周波数成分の重み係数の置き換え処理を行うことにより、調波構造の分析精度が劣化してスペクトルピーク位置が的確に決定できない場合にも、パワースペクトルの合成処理を行うことができ、雑音抑圧装置の品質を向上させることができる。
実施の形態9.
上述した実施の形態1から実施の形態8で構成される雑音抑圧装置100,100´において雑音抑圧された出力信号は、デジタルデータ形式で音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置などの各種音声音響処理装置へ送出されるが、単独または上述の他の装置と共にDSP(デジタル信号処理プロセッサ)の組み込みフォームウェアによって実現する、あるいはソフトウエアプログラムとしてCPU(中央演算ユニット)上で実行するように構成してもよい。プログラムはソフトウエアプログラムを実行するコンピュータ装置の記憶装置に記憶させるように構成してもよいし、CD−ROMなどの記憶媒体にて配布される形式としてもよい。
また、ネットワークを通じてプログラムの全部あるいは一部を提供することも可能である。図12は、実施の形態9による雑音抑圧システムの構成を示すブロック図であり、プログラムの一部を提供する雑音抑圧システムの構成を示している。図12に示すように、第1のコンピュータ装置40が第1および第2のフーリエ変換部3,4、第1および第2のパワースペクトル計算部5,6、パワースペクトル選択部7、入力信号分析部8およびパワースペクトル合成部9を備えて処理を行う。第1のコンピュータ装置40において処理したデータを、例えば有線あるいは無線ネットワークなどで構成されるネットワーク装置41を介して第2のコンピュータ装置42へ送出する。第2のコンピュータ装置42は、雑音抑圧量計算部10、パワースペクトル抑圧部11および逆フーリエ変換部12を備えて処理を行う。
サーバ装置43は、上述した実施の形態1から実施の形態8の雑音抑圧装置100,100´を実現するためのソフトウエアプログラムを保持しており、必要に応じて、それぞれのコンピュータ装置に当該処理を行うプログラムモジュールをネットワーク装置41を介して提供することとなる。なお、第1のコンピュータ装置40あるいは第2のコンピュータ装置42がサーバ装置43の役割を兼ねてもよい。例えば、第2のコンピュータ装置42がサーバ装置43を兼ねる場合には、第2のコンピュータ装置42がネットワーク装置41を介して第1のコンピュータ装置40へ当該プログラムを提供することとなる。
以上のように、この実施の形態9によれば、例えば、上述した実施の形態1から実施の形態8で述べた方法と異なる別の雑音抑圧装置に容易に入れ替えることが可能となる上、プログラム処理を複数のコンピュータ装置に分散させて実行することができ、各コンピュータ装置の演算能力などに応じて処理負荷を軽減することができる効果がある。一例として、第1のコンピュータ装置40がカーナビや携帯電話などの組み込み向け装置で処理能力に制限があり、第2のコンピュータ装置42が大型のサーバ型コンピュータなどで処理能力に余裕がある場合など、第2のコンピュータ装置42に多くの演算処理を負担させることができる。なお、上記何れの場合においても、上述しているパワースペクトル合成処理の品質改善効果は変わらず有効である。
また、各種音声音響処理装置へ送出される他、D/A(デジタル・アナログ)変換の後、増幅装置にて増幅し、スピーカなどから直接音声信号として出力することも可能である。
上述した実施の形態1から実施の形態9では、雑音抑圧の方法として、MAP法を用いて説明したが、その他の方法にも適用することができる。例えば、上述した非特許文献1に詳述されている最小平均2乗誤差短時間スペクトル振幅法や、以下の参考文献2に詳述されているスペクトル減算法などがある。
[参考文献2]
S.F.Boll,“Suppression of Acoustic Noise in Speech Using Spectral Subtraction”,IEEE Trans.on ASSP,Vol.ASSP−27,No.2,pp.113−120,Apr.1979
また、上述した実施の形態1から実施の形態9では、狭帯域電話(0〜4000Hz)の場合について説明したが、狭帯域電話音声に限られるものではなく、例えば、0〜8000Hzなどの広帯域電話音声や音響信号に対しても適用可能である。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る雑音抑圧装置は、音声が雑音に埋もれている帯域においても音声の調波構造を保持するように補正して雑音抑制することが可能であり、音声通話・音声蓄積・音声認識システムが導入される種々の装置の雑音抑制に用いるのに適している。
1 第1のマイクロホン、2 第2のマイクロホン、3 第1のフーリエ変換部、4 第2のフーリエ変換部、5 第1のパワースペクトル計算部、6 第2のパワースペクトル計算部、7 パワースペクトル選択部、8 入力信号分析部、9 パワースペクトル合成部、10 雑音抑圧量計算部、11 パワースペクトル抑圧部、12 逆フーリエ変換部、13 出力端子、20 音声/雑音区間判定部、21 雑音スペクトル推定部、22 SN比計算部、23 抑圧量計算部、31 第1のビームフォーミング処理部、32 第2のビームフォーミング処理部、40 第1のコンピュータ装置、41 ネットワーク装置、42 第2のコンピュータ装置、43 サーバ装置、100,100´ 雑音抑圧装置、200 移動体、201 運転席、201a 直接波、201b 反射・回折波、202 助手席、203 反射面、204 雑音。

Claims (5)

  1. 入力された複数の入力信号を時間領域の信号から周波数領域の信号であるスペクトル成分に変換するフーリエ変換部と、
    前記フーリエ変換部が変換したスペクトル成分からパワースペクトルを算出するパワースペクトル計算部と、
    前記複数の入力信号について、前記パワースペクトル計算部が算出したパワースペクトルのスペクトル成分を比較し、周波数毎に最も大きい値を有するスペクトル成分を選択して構成したパワースペクトルを合成パワースペクトル候補として生成するパワースペクトル選択部と、
    前記パワースペクトル計算部が算出したパワースペクトルに基づいて、前記入力信号の調波構造および周期性の分析を行う入力信号分析部と、
    前記複数の入力信号のうち1つの入力信号のパワースペクトルを代表パワースペクトルとし、前記入力信号分析部の分析結果に応じて、前記代表パワースペクトルと、前記パワースペクトル選択部が生成した合成パワースペクトル候補とを合成して合成パワースペクトルを生成するパワースペクトル合成部と、
    前記パワースペクトル合成部が生成した合成パワースペクトル、および前記入力信号から推定される推定雑音スペクトルに基づいて、雑音抑圧量を算出する雑音抑圧量計算部と、
    前記パワースペクトル合成部が生成した合成パワースペクトルに対して、前記雑音抑圧量計算部が算出した雑音抑圧量を用いて雑音抑圧を行うパワースペクトル抑圧部と、
    前記パワースペクトル抑圧部において雑音抑圧された合成パワースペクトルを時間領域の信号に変換し、音声信号として出力する逆フーリエ変換部とを備えた雑音抑圧装置。
  2. 前記入力信号分析部は、前記パワースペクトル計算部が算出したパワースペクトルに基づいて、前記入力信号の周期性情報および自己相関係数を算出し、
    前記パワースペクトル合成部は、前記入力信号分析部が算出した入力信号の周期性情報および自己相関係数に応じて、前記代表パワースペクトルと、前記パワースペクトル選択部が生成した合成パワースペクトル候補とを合成して合成パワースペクトルを生成することを特徴とする請求項記載の雑音抑圧装置。
  3. 前記パワースペクトル合成部は、前記各入力信号のサブバンドSN比の平均値が所定の閾値以上であるか否かに基づき、前記代表パワースペクトルと、前記パワースペクトル選択部が選択した合成パワースペクトル候補とを合成して合成パワースペクトルを生成することを特徴とする請求項記載の雑音抑圧装置。
  4. 前記パワースペクトル合成部は、前記各入力信号のサブバンドSN比の平均値または入力信号の相関性で表わされる音声らしさの指標を用いて連続的な変化を有するパワースペクトルの合成処理を行うことを特徴とする請求項記載の雑音抑圧装置。
  5. 前記パワースペクトル合成部は、前記各入力信号における音声区間から雑音区間へ移行する区間および雑音区間から音声区間へ移行する区間において、前記代表パワースペクトルと前記合成パワースペクトル候補との重みつき平均化処理を行い、合成パワースペクトルを生成することを特徴とする請求項記載の雑音抑圧装置。
JP2013541483A 2011-11-02 2011-11-02 雑音抑圧装置 Active JP5646077B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/006143 WO2013065088A1 (ja) 2011-11-02 2011-11-02 雑音抑圧装置

Publications (2)

Publication Number Publication Date
JP5646077B2 true JP5646077B2 (ja) 2014-12-24
JPWO2013065088A1 JPWO2013065088A1 (ja) 2015-04-02

Family

ID=48191486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013541483A Active JP5646077B2 (ja) 2011-11-02 2011-11-02 雑音抑圧装置

Country Status (5)

Country Link
US (1) US9368097B2 (ja)
JP (1) JP5646077B2 (ja)
CN (1) CN103718241B (ja)
DE (1) DE112011105791B4 (ja)
WO (1) WO2013065088A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6135106B2 (ja) * 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
CN104424954B (zh) * 2013-08-20 2018-03-09 华为技术有限公司 噪声估计方法与装置
DE102014009738A1 (de) 2014-07-01 2014-12-18 Daimler Ag Verfahren zum Betreiben eines Windabweisers eines Fahrzeugs, insbesondere eines Personenkraftwagens
JP6559427B2 (ja) * 2015-01-22 2019-08-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6520276B2 (ja) * 2015-03-24 2019-05-29 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP2016182298A (ja) * 2015-03-26 2016-10-20 株式会社東芝 騒音低減システム
CN106303837B (zh) * 2015-06-24 2019-10-18 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
CN106328165A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种机器人自身音源消除系统
JP2017212557A (ja) * 2016-05-24 2017-11-30 エヌ・ティ・ティ・コミュニケーションズ株式会社 制御装置、対話システム、制御方法及びコンピュータプログラム
JP7244985B2 (ja) 2017-05-19 2023-03-23 川崎重工業株式会社 操作装置及び操作システム
JP7175096B2 (ja) * 2018-03-28 2022-11-18 沖電気工業株式会社 収音装置、プログラム及び方法
JP7210926B2 (ja) * 2018-08-02 2023-01-24 日本電信電話株式会社 集音装置
JP6854967B1 (ja) * 2019-10-09 2021-04-07 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
CN111337213A (zh) * 2020-02-21 2020-06-26 中铁大桥(南京)桥隧诊治有限公司 一种基于合成功率谱桥梁模态频率识别方法及系统
GB2612587A (en) * 2021-11-03 2023-05-10 Nokia Technologies Oy Compensating noise removal artifacts
CN115201753B (zh) * 2022-09-19 2022-11-29 泉州市音符算子科技有限公司 一种低功耗多频谱分辨的语音定位方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3435687B2 (ja) 1998-03-12 2003-08-11 日本電信電話株式会社 収音装置
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
JP4445460B2 (ja) * 2000-08-31 2010-04-07 パナソニック株式会社 音声処理装置及び音声処理方法
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2002140100A (ja) * 2000-11-02 2002-05-17 Matsushita Electric Ind Co Ltd 騒音抑圧装置
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
JP4660578B2 (ja) 2008-08-29 2011-03-30 株式会社東芝 信号補正装置
WO2010052749A1 (ja) * 2008-11-04 2010-05-14 三菱電機株式会社 雑音抑圧装置
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法
US8600073B2 (en) 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
US8989403B2 (en) * 2010-03-09 2015-03-24 Mitsubishi Electric Corporation Noise suppression device

Also Published As

Publication number Publication date
DE112011105791T5 (de) 2014-08-07
WO2013065088A1 (ja) 2013-05-10
US20140098968A1 (en) 2014-04-10
DE112011105791B4 (de) 2019-12-12
US9368097B2 (en) 2016-06-14
JPWO2013065088A1 (ja) 2015-04-02
CN103718241A (zh) 2014-04-09
CN103718241B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
JP5646077B2 (ja) 雑音抑圧装置
JP5183828B2 (ja) 雑音抑圧装置
JP5528538B2 (ja) 雑音抑圧装置
JP5265056B2 (ja) 雑音抑圧装置
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
JP5875609B2 (ja) 雑音抑圧装置
US10580428B2 (en) Audio noise estimation and filtering
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
KR20090017435A (ko) 빔 형성 및 후-필터링 조합에 의한 노이즈 감소 방법
JP5595605B2 (ja) 音声信号復元装置および音声信号復元方法
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP5772562B2 (ja) 目的音抽出装置及び目的音抽出プログラム
JP6261749B2 (ja) 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム
JP2018142826A (ja) 非目的音抑圧装置、方法及びプログラム
JP2017067990A (ja) 音声処理装置、プログラム及び方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141104

R150 Certificate of patent or registration of utility model

Ref document number: 5646077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250