JP5245714B2

JP5245714B2 - 雑音抑圧装置及び雑音抑圧方法

Info

Publication number: JP5245714B2
Application number: JP2008274772A
Authority: JP
Inventors: 恩彩劉
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-10-24
Filing date: 2008-10-24
Publication date: 2013-07-24
Anticipated expiration: 2028-10-24
Also published as: KR20100045933A; JP2010102199A; CN101727910A; KR101088627B1; CN101727910B

Description

本発明は、雑音抑圧装置及び雑音抑圧方法に関する。

従来、入力信号に応じてスピーカ等の負荷を駆動する音声再生装置、遠隔地間で音声を伝達する音声通信装置、音声の種別等を区別・認識することでその意味等を理解する音声認識装置、等々が提案されている。これら各装置では、音声を正確に再生し、伝達し、あるいは認識等するため、そこに含まれる雑音の影響が除去されるのが好適である。
そのような雑音抑圧の技術としては、例えば以下の特許文献１及び非特許文献１乃至４に開示されているようなものが知られている。
特開２００７−２２６２６４号公報 Boll,S., "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans.Vol.ASSP-27, No2, pp.113-120, 1979. M.Berouti, el al, "Enhancement of Speech Corrupted by Acoustic Noise", Proceedings of ICASSP, pp.201-211, 1979. Lim & Oppenheim, "Enhancement and Bandwidth Compression of Noisy Speech", Proc.IEEE, Vol67, No12, pp.1586-1604, 1979 Y.Ephraim and D.Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Trans.Vol.ASSP-32, No.6, pp1109-1121, 1984..

これら各文献に開示される技術は、基本的に、周波数領域の振幅スペクトルのレベルを適当な手法によって差し引くことによって雑音を抑圧する手法、即ちいわゆるスペクトラル・サブトラクション法（Spectral Subtraction）に関連し、これらいずれの技術よっても、一定の雑音抑圧効果が享受され得る。

しかしながら、これらの文献においては未開示・未解決の課題はなおある。
例えば、前記のスペクトラル・サブトラクション法は、入力信号中に含まれる雑音スペクトルを推定し、その雑音スペクトル推定値を、振幅スペクトルから差し引く手法に基づくが、この場合、いわゆるミュージカルノイズが発生するおそれが高いという問題がある。これは、ここでいう雑音スペクトル推定値が、必ずしも、実際の雑音スペクトルを反映するとは限らないことによる。つまり、ある周波数帯域では、雑音スペクトル推定値を差し引いた後にもなお雑音が残る場合があり、また、他の周波数帯域では、引き過ぎが生じる場合があるのである。このため、雑音スペクトル差し引き後の振幅スペクトルを時間領域に再変換すると、複数のランダムな周波数をもつ正弦波が合成されたものが現れる可能性があり、これが再生されることによって、非常に耳障りな雑音（即ち、ミュージカルノイズ）が発生してしまうおそれがあるのである。

また、入力信号中には、主に音声が占める部分（音声部分）と、それが殆どない部分（雑音部分）とが存在する。
このような状況下で、例えば、前述の非特許文献１のように、音声部分にはスペクトラル・サブトラクション法を適用するが、雑音部分には固定ゲインを適用して雑音を抑圧するという場合、その固定ゲインの値が過小のときは、雑音部分から音声部分への切り替わりの場面において、背景雑音量が大きくなるという現象が生じ、固定ゲインの値が過大のときは、逆に背景雑音量が小さくなるという現象が生じ得る。これが例えば再生されれば、聴取者に、聴感上の不自然さを感じさせるおそれが高い。

本発明は、上述した課題の少なくとも一部を解決することの可能な雑音抑圧装置及び雑音抑圧方法を提供することを課題とする。

本発明に係る雑音抑圧装置は、上述した課題を解決するため、入力信号に含まれる音声の有無を検出することで、当該入力信号を、経時的に、当該音声が含まれる音声フレーム及び当該音声が含まれない雑音フレームに区分する音声検出手段と、Ｋ個の周波数帯域ごと（ただし、Ｋは２以上の自然数）に、前記入力信号に含まれる雑音スペクトルを当該入力信号に基づいて推定する雑音スペクトル推定手段と、前記雑音スペクトル推定手段による推定結果に基づいて、前記Ｋ個の周波数帯域ごとの雑音抑圧ゲインを算出する第１ゲイン演算手段と、前記雑音抑圧ゲインについての、前記Ｋ個の周波数帯域の全部又は一部に関する平均値ゲインを算出するとともに、当該算出した平均値ゲインを時間軸上で平滑化した平滑化ゲインを算出する第２ゲイン演算手段と、前記入力信号に係る前記Ｋ個の周波数帯域の全部又は一部について、前記平滑化ゲインまたは前記雑音抑圧ゲインを適用することで、当該入力信号に含まれる雑音を抑圧する雑音抑圧手段であって、前記入力信号のうち前記雑音フレームに該当する部分に、前記平滑化ゲインを適用し、前記入力信号のうち前記音声フレームに該当する部分に、前記雑音抑圧ゲインを適用する雑音抑圧手段と、を備え、前記雑音スペクトル推定手段は、前記雑音フレームに関する雑音スペクトルを推定しようとする場合は、一時的スペクトル推定値を算出した後、当該雑音フレームの直前のフレームにおける雑音スペクトル推定値を用いて、当該一時的スペクトル推定値を時間軸上で平滑化した平滑化雑音スペクトル推定値を算出し、この平滑化雑音スペクトル推定値を、当該雑音フレームにおける雑音スペクトルと推定し、前記音声フレームに関する雑音スペクトルを推定しようとする場合は、当該音声フレームの直前のフレームにおける雑音スペクトル推定値をそのまま、当該音声フレームにおける雑音スペクトルと推定する。

本発明によれば、Ｋ個の雑音スペクトル、及び、Ｋ個の雑音抑圧ゲインがそれぞれ求められる。そして、第２ゲイン演算手段は、このうちのＫ個の雑音抑圧ゲインから平均値ゲインを算出する。すなわち、本発明において「Ｋ個の周波数帯域の全部…に関する」平均値を求めるとは、雑音抑圧ゲインが、仮にＧ（１），Ｇ（２），…，Ｇ（Ｋ）であるとすると、例えば、平均値ゲインＧａｖｅが、Ｇａｖｅ＝（Ｇ（１）＋Ｇ（２）＋…＋Ｇ（Ｋ））／Ｋなどと求められるということである（なお、この例におけるような平均値ゲインを求めるにあたっては、Ｋ個すべての雑音抑圧ゲインを用いる必要は必ずしもない。本発明に言う「Ｋ個の周波数帯域の…『一部』に関する平均値ゲイン」とは、そのような場合を含意する.）。
そして、本発明では、このような平均値ゲインＧａｖｅが、Ｋ個の周波数帯域の全部又は一部についての入力信号に適用される。例えば、時間領域にある入力信号が、周波数領域に変換して得られる振幅スペクトルが、Ｙ（１），Ｙ（２），…，Ｙ（Ｋ）であるとすると、周波数領域にある出力信号が、Ｇａｖｅ・Ｙ（１），Ｇａｖｅ・Ｙ（２），…，Ｇａｖｅ・Ｙ（Ｋ）、などと得られることになる。
このようなことから、本発明においては、雑音抑圧効果が享受されることは勿論、例えば前述したような雑音スペクトル推定値による振幅スペクトルの引き過ぎの事例等が発生することがなく、したがって、ミュージカルノイズの発生がきわめて実効的に抑圧される。

本発明によれば、前記平均値ゲインを時間軸上で平滑化した平滑化ゲインが算出される。したがって、この平滑化ゲインは、前述の平均化処理を受けた上で、なお平滑化処理を受けたものである（この点を重視すれば、この平滑化ゲインは、平均化・平滑化ゲインともいえる。）。なお、「時間軸上で平滑化」とは、算出後の平滑化ゲインが、時系列に沿って、Ｇｓｍｔ-Ｔ（１），Ｇｓｍｔ-Ｔ（２），…，Ｇｓｍｔ-Ｔ（ｒ），…、とあるとすると（ｒは適当な整数）、例えば、適当な平滑化係数δを用いて、Ｇｓｍｔ-Ｔ（ｒ）＝δ・Ｇｓｍｔ-Ｔ（ｒ−１）＋（１−δ）・Ｇａｖｅなどとして算出されることを意味する。
これによれば、平均値ゲイン（正確に言うと、平滑化された平均値ゲイン。つまり、本発明に言う「平滑化ゲイン」）の時間の経過に従った急激な変化が生じないから、雑音抑圧処理の連続性・一貫性が維持される。
なお、本発明にいう「時間軸」は、より具体的には、そのフレームの１個１個が順に並べられていく場合に観念される軸、として想定され得る。この点についての、より詳細な具体例については、後述する実施形態、特に式（４）に関して説明される。

本発明によれば、前述の平滑化ゲインが、雑音フレームに、より好適には雑音フレームだけに適用される。雑音フレームでは、ミュージカルノイズが比較的に発生しやすいことからすると、本発明は、それを狙うかの如く平滑化ゲインの適用を行うことになるので、ミュージカルノイズ抑圧効果を得るための最適な構成の１つということができる。
なお、本発明において、音声が「含まれる」あるいは「含まれない」という用語は、いわば絶対的な意味に解されてはならない。例えば、“すべてが音声”で満たされるフレームと、“全く音声が不存在”のフレームという２つの態様が観念的には想定されるが、この両者両極端を指して「音声フレーム」及び「雑音フレーム」の区別が行われる場合に本発明が限定されるわけでは勿論なく、また、後者のみが「雑音フレーム」で、それ以外はすべて「音声フレーム」という区別が行われる場合に、本発明が限定されるわけでもない。つまり、本発明は、「雑音フレーム」と認定される場合においても、当該の雑音フレームに「音声」が全く含まれてはならないということまで要求せず、本発明にいう「音声フレーム」及び「雑音フレーム」の区別は、上記の２つの場合の適当な中間点を基準に行われてよいのである。
以上のような意味において、本発明にいう「含まれる」あるいは「含まれない」という用語、あるいは、本発明に係る「音声フレーム」及び「雑音フレーム」の区別は、相対的なものということができる。

本発明によれば、音声フレームでは、平均化処理を経ないいわば通常の雑音抑圧ゲインが利用され、雑音フレームでは、平均化処理を経た平滑化ゲインが利用される、ということになる。音声フレームでは、雑音の存在が然程目立たず、雑音フレームでは、その逆であるという事情に鑑みるなら、本発明に係る処理内容は、きわめて合理的・効率的・実効的な雑音抑圧効果を享受可能にする。

本発明によれば、音声フレーム及び雑音フレームそれぞれについての雑音スペクトルが好適に推定される。雑音フレームに関しては、平滑化雑音スペクトル推定値が算出されるので、雑音抑圧処理の一貫性・連続性が保持されるし、音声フレームに関しては、「直前の雑音フレーム」における雑音スペクトルの維持が好適になされる（つまり、本発明によれば、ある雑音フレームについて雑音スペクトルが既に推定されているなら、その後、音声フレームが続く限りは、当該雑音スペクトルが維持され続ける。）。
なお、本発明において、単に「フレーム」という場合、それは「音声フレーム」である場合も、「雑音フレーム」である場合もある。
この点についての、より詳細な具体例については、後述する実施形態、特に式（１）に関して説明される。

一方、本発明に係る雑音抑圧方法は、上記課題を解決するため、入力信号に含まれる音声の有無を検出することで、当該入力信号を、経時的に、当該音声が含まれる音声フレーム及び当該音声が含まれない雑音フレームに区分する音声検出工程と、Ｋ個の周波数帯域ごと（ただし、Ｋは２以上の自然数）に、前記入力信号に含まれる雑音スペクトルを当該入力信号に基づいて推定する雑音スペクトル推定工程と、前記雑音スペクトル推定工程による推定結果に基づいて、前記Ｋ個の周波数帯域ごとの雑音抑圧ゲインを算出する第１ゲイン演算工程と、前記雑音抑圧ゲインについての、前記Ｋ個の周波数帯域の全部又は一部に関する平均値ゲインを算出するとともに、当該算出した平均値ゲインを時間軸上で平滑化した平滑化ゲインを算出する第２ゲイン演算工程と、前記入力信号に係る前記Ｋ個の周波数帯域の全部又は一部について、前記平滑化ゲインまたは前記雑音抑圧ゲインを適用することで、当該入力信号に含まれる雑音を抑圧する雑音抑圧工程であって、前記入力信号のうち前記雑音フレームに該当する部分に、前記平滑化ゲインを適用し、前記入力信号のうち前記音声フレームに該当する部分に、前記雑音抑圧ゲインを適用する雑音抑圧工程と、を含み、前記雑音スペクトル推定工程は、前記雑音フレームに関する雑音スペクトルを推定しようとする場合は、一時的スペクトル推定値を算出した後、当該雑音フレームの直前のフレームにおける雑音スペクトル推定値を用いて、当該一時的スペクトル推定値を時間軸上で平滑化した平滑化雑音スペクトル推定値を算出し、この平滑化雑音スペクトル推定値を、当該雑音フレームにおける雑音スペクトルと推定し、前記音声フレームに関する雑音スペクトルを推定しようとする場合は、当該音声フレームの直前のフレームにおける雑音スペクトル推定値をそのまま、当該音声フレームにおける雑音スペクトルと推定する。

本発明によれば、上述した、本発明に係る雑音抑圧装置に関して述べた作用効果と本質的に異ならない作用効果が奏されることが明白である。

なお、本発明にいう「含まれる」あるいは「含まれない」という用語の意義については、上述と同様である。

以上のほか、本発明の、より具体化された態様、あるいはそれによって奏される作用効果は、すぐ後から始まる実施形態における記載において明らかにされる。

＜第１実施形態＞
以下では、本発明に係る第１の実施の形態について図１を参照しながら説明する。なお、ここに言及した図１に加え、以下で参照する各図面（例えば図６等のグラフをも含む。）においては、各部の寸法の比率が実際のものとは適宜に異ならせてある場合がある。

雑音抑圧装置１は、図１に示すように、時間・周波数変換部１０、雑音スペクトル推定部２０、雑音抑圧ゲイン演算部３０、雑音期間・雑音抑圧ゲイン演算部４０、原音加算率演算部５０、原音加算ゲイン演算部６０、周波数・時間変換部７０、及び音声検出部８０からなる。

時間・周波数変換部１０は、時間領域の入力信号にフーリエ変換をかけて、周波数領域の信号に変換する。このフーリエ変換は、入力信号を経時的に所定数のフレームに分け、かつ、そのフレームに適当な窓関数をかけることを通じて行われるのが好適である。
前記の周波数領域の信号は、振幅スペクトル及び位相スペクトルに分けられ、このうちの位相スペクトルは、後述する周波数・時間変換部７０にそのまま送られる。他方、振幅スペクトルは、後述する雑音スペクトル推定部２０以後の各部に送られて、後述する各種の処理を受ける。

前記の時間領域の入力信号は、音声検出部８０にも供給される。音声検出部８０は、この入力信号の中の音声信号の有無を検出する。前述のように、入力信号がフレームに分けられる場合には、フレームごとの音声検出が行われる（なお、第１実施形態では、このような処理を前提とする。）。ここで「音声」とは特に、会話、話し言葉、音楽、各種の信号等々、人にとって有意味な音響を意味する。つまり、入力信号を適当な再生手段によって再生するとした場合、その入力信号中の「音声信号」を再生すれば、当該音響となる、という関係が成立する。
この音声信号は、例えば、入力信号のレベルが予め定めた閾値を超えるか否かを基準として検出される。もっとも、本発明は、これ以外にも様々な手法を採用することが可能である。例えば、確率・統計的手法を用いて音声信号の発生確率を推定する手法等が採用されてもよいし、あるいは、検出対象としても、前記入力信号を利用するのではなく、そのフーリエ変換後の信号（つまり、前記でいう周波数領域の信号）を利用する手法等が採用されてもよい。
なお、以下では、この音声検出部８０によって音声信号が存在すると判定されたフレームは、「音声フレーム」と、不存在であると判定されたフレームは、「雑音フレーム」と、それぞれ呼ぶことがある。なお、ここで存在・不存在というのは、いわば絶対的な意義をもたない。前述のように、音声信号の有無が所定の閾値を基準に判断されることがある以上、「雑音フレーム」に、厳密に言えば音声信号と呼べるものが含まれている可能性は排除されない。

雑音スペクトル推定部２０は、前記振幅スペクトルに基づいて、雑音スペクトルの推定値を算出する。第１実施形態では特に、以下の式（１）に基づいて、所定の個数に分割された周波数帯域ごとの雑音スペクトルが推定される。

ここで、Ｎ_ｔ（ｎ）は、現に処理中であるフレームにおける雑音スペクトル推定値、Ｎ_ｔ−１（ｎ）は、その直前のフレームにおける雑音スペクトル推定値（したがって、“ｔ”は、現に処理中であるフレームそれ自体を表現する添え字である。）、Ｙ（ｎ）は入力された振幅スペクトル、ｎは周波数帯域（に付けられた番号。なお、周波数帯域はＮ個に分割される。なお、このＮは、本発明にいう「Ｋ個の周波数帯域」のＫ以下（＝Ｎ≦Ｋ）である。）、βは平滑化係数である。また、式（１）中、ｃａｓｅ・Ａとあるのは、雑音スペクトル推定部２０が雑音フレームを処理する場合を表現し、ｃａｓｅ・Ｂとあるのは、音声フレームを処理する場合を表現している。
このように、雑音スペクトル推定部２０は、現に処理しているフレームが、雑音フレームであるか音声フレームであるかに応じて、雑音スペクトル推定値Ｎ_ｔ（ｎ）を求めるために利用する式を変更する。すなわち、音声フレーム処理時（ｃａｓｅ・Ｂ）には、その直前の雑音スペクトル推定値をそのまま用いて雑音スペクトル推定値Ｎ_ｔ（ｔ）を求め、雑音フレーム処理時（ｃａｓｅ・Ａ）には、入力した振幅スペクトルを時間軸上で平滑化することで、雑音スペクトル推定値Ｎ_ｔ（ｎ）を求める。

雑音抑圧ゲイン演算部３０は、前記振幅スペクトルと、式（１）で求められた雑音スペクトル推定値Ｎ_ｔ（ｎ）とに基づいて、雑音抑圧ゲインを算出する。第１実施形態では特に、以下の式（２）により雑音抑圧ゲインを算出する。

ここで、ｍａｘ（ａ，ｂ）は、ａ及びｂのうちいずれか大きい値を返す関数を意味する（以下、同じ。）。
この式（２）により、入力された振幅スペクトルＹ（ｎ）に対する雑音スペクトル推定値Ｎ_ｔ（ｎ）との間において、Ｙ（ｎ）＜Ｎ_ｔ（ｎ）が成立する場合は、Ｇ（ｎ）＝０となり、Ｙ（ｎ）＞Ｎ_ｔ（ｎ）が成立する場合は、Ｇ（ｎ）＝（Ｙ（ｎ）−Ｎ_ｔ（ｎ））／Ｙ（ｎ）となる。
この雑音抑圧ゲイン演算部３０で算出された雑音抑圧ゲインは、前記音声検出部８０によって区分された音声フレーム及び雑音フレームの別に応じて、雑音期間・雑音抑圧ゲイン演算部４０を介して又は直接に、原音加算ゲイン演算部６０に供給される。図１に示す雑音抑圧装置１は、このような処理を実現するためのスイッチを備える（図中弧線矢印参照）。

雑音期間・雑音抑圧ゲイン演算部４０（以下、簡単のため、「雑音期間用ゲイン演算部４０」ということがある。）は、雑音フレームに適用すべき雑音抑圧ゲインを算出する。第１実施形態においては、この雑音抑圧ゲインを算出するために、以下の手法がとられる。
まず、式（２）で求められた雑音抑圧ゲインＧ（ｎ）に基づいて、以下の式（３）で表現されるｇが算出される。

このｇは、式（３）の右辺から明らかなように、式（２）の雑音抑圧ゲインについての、周波数帯域ｎに関する平均値を意味する。
次いで、この式（３）の雑音抑圧ゲイン平均値ｇが、以下の式（４）によって平滑化される。

ここで、μは平滑化係数、Ｇ_ｔは、現に処理中である雑音フレームについての雑音抑圧ゲイン、Ｇ_ｔ−１は、その直前に処理した雑音フレームについての雑音抑圧ゲインである。
前述の式（１）のｃａｓｅ・Ａとして示される式もそうであるが、この式（４）では、現に処理中のフレームにおける雑音抑圧ゲインを求めるにあたって、その直前に処理されたフレームにおけるそれが参照されていることから、時間軸上で平滑化が行われているということがいえる（後述する式（７）についても同様である。）。
この式（４）中のＧ_ｔが、本雑音期間用ゲイン演算部４０において求められるべき、雑音期間に適用するための雑音抑圧ゲイン（以下、簡単のため、「雑音期間用ゲイン」ということがある。）である。
雑音期間用ゲイン演算部４０は、このようにして求められた雑音期間用ゲインＧ_ｔを、すべての周波数帯域に対して一律に適用する。以下では、この事情を表現するため、この一律に適用されるＧ_ｔを、Ｇ１（ｎ）と表現する。この場合、Ｇ１（０），Ｇ１（１），…，Ｇ１（Ｎ−１）のすべてが、Ｇ_ｔに等しい。

原音加算率演算部５０は、雑音抑圧された信号に対する、原音信号の原音加算率を算出する。第１実施形態では特に、この原音加算率ｏｇが、以下の式（５）に基づいて求められる。

ここで、ｔｇは、目標雑音抑圧ゲインであり、以下の式（６）に基づいている。

この式（６）中のＴＧは、目標雑音抑圧量であり、ｄＢ単位で与えられる。このＴＧ（あるいは、ｔｇ）は、装置外部から図示しない操作部等を介することによって人為的に与えられたり、あるいは、何らかの適当な手法により自動的に演算されてよい。
以上の式（５）によれば、目標雑音抑圧ゲインｔｇと雑音期間用ゲインＧ_ｔとの間において、ｔｇ＜Ｇ_ｔが成立する場合は、ｏｇ＝０となり、ｔｇ≧Ｇ_ｔが成立する場合は、ｏｇ＝ｔｇ−Ｇ_ｔとなる。

原音加算ゲイン演算部６０は、前記の原音加算率ｏｇに基づいて、原音加算後の雑音抑圧ゲインを算出する。第１実施形態においては、この雑音抑圧ゲインを算出するために、以下の手法がとられる。
まず、式（５）で求められた原音加算率ｏｇに基づいて、以下の式（７）で表現されるＯＧ_ｔが算出される。

ここでＯＧ_ｔは、現に処理中であるフレームにおける原音加算割合、ＯＧ_ｔ−１は、その直前のフレームにおける原音加算割合、λは平滑化係数である。なお、式（７）中のｃａｓｅ・Ａ及びｃａｓｅ・Ｂの意義は、上述の式（１）の場合と同様である（以下の式（８）においても同じである。）。
このように、原音加算ゲイン演算部６０は、現に処理しているフレームが、雑音フレームであるか音声フレームであるかに応じて、原音加算割合ＯＧ_ｔを求めるために利用する式を変更する。すなわち、音声フレーム処理時（ｃａｓｅ・Ｂ）には、その直前の原音加算割合をそのまま用いて、原音加算割合ＯＧ_ｔを求め、雑音フレーム処理時（ｃａｓｅ・Ａ）には、前記の原音加算率ｏｇを時間軸上で平滑化することで、原音加算割合ＯＧ_ｔを求める。

次いで、原音加算ゲイン演算部６０は、以下の式（８）に基づいて、原音加算後の雑音抑圧ゲインを求める。

ここで、Ｇ１（ｎ）は、上で説明したように、雑音フレームにおいて、すべての周波数帯域に対して一律に適用される雑音期間用ゲインを表している。
この式（８）によれば、前述の式（７）における場合分けに応じて、原音加算後の雑音抑圧ゲインＧ２（ｎ）（以下、簡単のため、「修正後ゲインＧ２（ｎ）」ということがある。）が求められる。

図１に示す乗算器１１は、以上のようにして求められた修正後ゲインＧ２（ｎ）を、振幅スペクトルＹ（ｎ）にかける。すなわち、Ｓ（ｎ）＝Ｇ２（ｎ）・Ｙ（ｎ）なる演算が行われ、その結果、最終的に得るべき雑音抑圧後の振幅スペクトルＳ（ｎ）が得られる。

最後に、周波数・時間変換部７０は、以上のようにして求められた雑音抑圧後の振幅スペクトルＳ（ｎ）と、時間・周波数変換部１０から直接的に供給される位相スペクトルに基づいて、時間領域の出力信号を生成する。第１実施形態では、時間・周波数変換部１０においてフーリエ変換がかけられているので、周波数・時間変換部７０は、逆フーリエ変換を実施する。

次に、以上に述べた第１実施形態に係る雑音抑圧装置１の作用ないし動作及び効果について、既に参照した図１に加えて、図２乃至図４を参照しながら説明する。
まず、時間・周波数変換部１０は、入力信号に対して、フーリエ変換を施し、更にこれを、図１に示すように、振幅スペクトルＹ（ｎ）及び位相スペクトルに分解する（図２のステップＳ１０１）。この際、時間・周波数変換部１０は、前述のように、フレームごとの処理を実施する。
また、これと並行して、音声検出部８０は、入力信号中に含まれる音声信号の有無を検出する（図２のステップＳ１０２）。この検出処理は、入力信号を、音声フレームと雑音フレームとに分別する処理を可能にする。音声検出部８０は、当該の処理も行う。

次に、雑音スペクトル推定部２０は、前述した振幅スペクトルＹ（ｎ）、及び、前記式（１）によって、所定の幅を持つ周波数帯域ｎごとに雑音スペクトル推定値Ｎ_ｔ（ｎ）を求める。この場合、前述のように、現に処理しているフレームが雑音フレームであるか音声フレームであるかに応じて、異なる処理が行われる（図２のステップＳ１０３参照）。なお、図２に示すように、この雑音スペクトル推定値Ｎ_ｔ（ｎ）の算出処理以降は、図１に示す乗算器１１による出力信号生成処理（図２のステップＳ１０４）までの間は、雑音フレームと音声フレームとの区別に応じて、その内容が実質的に異なる処理が展開される。したがって、以下では、第１に雑音フレーム用の処理について、第２に音声フレーム用の処理について、〔I〕及び〔II〕に分別して説明する。
なお、このような分別処理は、図１に示すように、音声検出部８０の検出結果に応じたスイッチの切り替えによっている。

〔I〕まず、雑音フレーム用処理では、前記式（１）のｃａｓｅ・Ａとして示される式により、雑音スペクトル推定値Ｎ_ｔ（ｎ）が求められる（図２のステップＳ２０１）。前述のように、これは、入力した振幅スペクトルＹ（ｎ）の平滑化処理による。

次に、前述の雑音スペクトル推定値Ｎ_ｔ（ｎ）、及び、前記式（２）に基づいて、雑音抑圧ゲインＧ（ｎ）が算出される（図２のステップＳ２０２）。これは、図１の雑音抑圧ゲイン演算部３０の作用による。前述のように、Ｙ（ｎ）＞Ｎ_ｔ（ｎ）が成立する場合はＧ（ｎ）＝（Ｙ（ｎ）−Ｎ_ｔ（ｎ））／Ｙ（ｎ）となるが、そうでない場合は、Ｇ（ｎ）＝０となる。これによると、例えば、図３（Ｃ）のような雑音抑圧ゲインが得られることになる（なお、図３（Ｂ）では、前述の雑音スペクトル推定値Ｎ_ｔ（ｎ）、図３（Ａ）では、入力信号の振幅スペクトルがそれぞれ例示されている。）。

次に、前記式（３）及び式（４）により、この雑音抑圧ゲインＧ（ｎ）の、周波数帯域に関する平均値ｇをとり、かつ、そのｇについての平滑化処理を行うことで、雑音期間用ゲインＧ_ｔが求められる（図２のステップＳ２０３）。この平均化・平滑化を経た雑音期間用ゲインＧ_ｔが、全周波数帯域に共通のＧ１（ｎ）となる。これは、雑音期間用ゲイン演算部４０の作用による。
このように、第１実施形態においては、式（２）により求められる雑音抑圧ゲインＧ（ｎ）をそのままの状態で用いるのではなく、そのＧ（ｎ）に対して、式（３）による周波数帯域に関する平均化、及び、式（４）による時間軸上の平滑化、を行った後の雑音期間用ゲインＧ_ｔを、全周波数帯域用の雑音期間用ゲインＧ１（ｎ）として用いることに、その大きな特徴の１つがある。
なお、図３（Ｄ）では、雑音抑圧ゲインＧ（ｎ）に対する平均化処理を行った場合の一例が例示されている（図３（Ｃ）中に示される破線も参照）。

次に、前述の雑音期間用ゲインＧ_ｔ、及び、前記式（５）により、原音加算率ｏｇが求められる（図２のステップＳ２０４）。これは、図１の原音加算率演算部５０の作用による。ここでは、目標雑音抑圧ゲインｔｇないし目標雑音抑圧量ＴＧの設定の如何が１つの支配的要因として働く。つまり、雑音期間用ゲインＧ_ｔが、目標雑音抑圧ゲインｔｇよりも大きくなれば、原音加算率ｏｇは０に設定され、そうでなければ、雑音期間用ゲインＧ_ｔに応じた原音加算率ｏｇ（即ち、ｏｇ＝ｔｇ−Ｇ_ｔ）が設定される。この両者の使い分けは、原音を加算することによってもたらされる音質改善の効果を、目標雑音抑圧量ＴＧとの関係でどのように享受するかを決める意義がある。すなわち、後者の場合は、目標雑音抑圧量によって定められる枠内（即ち、ｔｇとＧ_ｔとの差にあたる部分）で原音を加算して音質改善を図ることを主目的とし、前者の場合は、Ｇ_ｔ＞ｔｇが成立していて、すでに音質改善の余裕がないので、原音加算率ｏｇを０にするのである（この場合、これによりむしろ、雑音量が多くなることが抑止される）。結局、前記の式（５）及び式（６）は、目標雑音抑圧量を遵守することを基準に、なお原音加算の余裕がある場合に、その枠内で音質改善を図っていく、という処理を実現する意義がある。
このように、第１実施形態においては、原音加算率ｏｇが、雑音期間用ゲインＧ_ｔを利用することによって求められることに、その大きな特徴の１つがある。

次に、前述の原音加算率ｏｇ、及び、前記式（７）のｃａｓｅ・Ａとして示される式により、原音加算割合ＯＧ_ｔが求められる（図２のステップＳ２０５）。この原音加算割合ＯＧ_ｔは、前述のように、原音加算率ｏｇを時間軸上で平滑化することによって求められる。そして、このようにして求められた原音加算割合ＯＧ_ｔ、及び、前記式（８）により、原音加算後の雑音抑圧ゲイン、即ち、修正後ゲインＧ２（ｎ）が求められる。以上は、原音加算ゲイン演算部６０の作用による。
この場合、この修正後ゲインＧ２（ｎ）は結局、前述の平均化・平滑化を経た雑音期間用ゲインＧ１（ｎ）と、原音加算の程度とを勘案した上で決定されたゲインであるという意味合いをもつ。

なお、装置立ち上げ直後の場合に配慮して、前記式（１）のＮ_ｔ−１（ｎ）に該当する値としての初期値が適当に定められていると好ましい（このような初期値としてのＮ_ｔ−１（ｎ）は、当然、後述する音声フレーム用処理における雑音スペクトル推定値Ｎ_ｔ（ｎ）の算出処理においても利用可能である。）。これと同様のことは、前記式（４）、式（７）中のＧ_ｔ−１（ｎ）についてもいえる。

〔II〕他方、音声フレーム用処理では、基本的には、上述の雑音フレーム処理とほぼ同様の各処理が実行される。つまり、雑音スペクトル推定値Ｎ_ｔ（ｎ）及びそれに基づく雑音抑圧ゲインＧ（ｎ）が求められ（図２のステップＳ３０１・Ｓ２０２参照）、原音加算割合ＯＧ_ｔに基づいて修正後ゲインＧ２（ｎ）が求められる（図２のステップＳ３０３・Ｓ３０４）ことは、雑音フレーム処理と同じである。
ただし、この音声フレーム処理では、雑音フレーム処理と比べて、以下のような異同、あるいは注意点がある。

（ｉ）雑音スペクトル推定値Ｎ_ｔ（ｎ）は、前記式（１）のｃａｓｅ・Ａとして示される式によるのではなく、ｃａｓｅ・Ｂとして示される式により求められる（図２のステップＳ３０１）。この式は、Ｎ_ｔ（ｎ）＝Ｎ_ｔ−１（ｎ）であるから、音声フレーム処理は、いわば現状を維持する処理であるということがいえる。もう少し詳しく言うと、当該の音声フレームの前が、雑音フレームであった場合は、その雑音フレームにおいて算出された雑音スペクトル推定値Ｎ_ｔ−１（ｎ）がそのまま、当該の音声フレーム処理で利用されるということになり、また一方、当該の音声フレームの前が音声フレームであり、かつ、更にその前が雑音フレームであったという場合は、その雑音フレームにおいて算出された雑音スペクトル推定値Ｎ_ｔ−２（ｎ）がそのまま、当該の音声フレーム処理で利用される、などということになる。
要するに、音声フレームでは、直近の雑音フレームにおいて算出された雑音スペクトル推定値Ｎ_ｔ−ｐ（ｎ）（ｐは、当該の音声フレームの直前のフレームから数えて、その直近の雑音フレームまでのフレーム数（両端を含む。））が利用されることになるのである。

（ｉｉ）これと同様のことは、前記式（７）を用いて行われる、原音加算割合ＯＧ_ｔの算出処理においてもいえる。すなわち、式（７）のｃａｓｅ・Ｂとして示される式は、ＯＧ_ｔ＝ＯＧ_ｔ−１であるから、この場合もやはり、音声フレーム処理では、いわば現状が維持されるのである（図２のステップＳ３０３参照）。
上述の場合と表現を一致させるなら、音声フレームでは、直近の雑音フレームにおいて算出された原音加算割合ＯＧ_ｔ−ｐ（ｎ）（ｐは、当該の音声フレームの直前のフレームから数えて、その直近の雑音フレームまでのフレーム数（両端を含む。））が利用される、ということになる。

（ｉｉｉ）雑音抑圧ゲインＧ（ｎ）の演算それ自体は、音声フレーム及び雑音フレームの別に関わらず、前記式（２）を用いて同様に行われる。図２のステップＳ２０２において、〔雑音フレーム用処理〕と〔音声フレーム用処理〕とに対応するボックスが繋げられて描かれているのは、それを象徴的に表現している（もっとも、式（２）中のＮ_ｔ（ｎ）の値は、式（１）のｃａｓｅ・Ａ及びｃａｓｅ・Ｂの別に応じて、両フレームに関し当然異なる。）。

（ｉｖ）音声フレーム処理では、前記式（３）及び式（４）に関わる処理、即ち、雑音抑圧ゲインＧ（ｎ）についての平均化・平滑化処理が行われない（図２のステップＳ２０３及びその図中右方参照）。また、これに伴って、正当な雑音期間用ゲインＧ_ｔがいわば存在しないような状態となるので、前記式（５）に関わる処理、即ち、原音加算率ｏｇを算出する処理もまた行われない（図２のステップＳ２０４及びその図中右方参照）。

（ｖ）最終的に算出される修正後ゲインＧ２（ｎ）は、前記式（８）のｃａｓｅ・Ａとして示される式によるのではなく、ｃａｓｅ・Ｂとして示される式により求められる（図２のステップＳ３０４）。この場合、雑音フレーム処理時においては、平均化・平滑化を経た雑音期間用ゲインＧ１（ｎ）が用いられるところ、音声フレーム処理時においては、式（２）から求められた雑音抑圧ゲインＧ（ｎ）がそのまま用いられる点が異なっている。

以上の〔Ｉ〕及び〔ＩＩ〕の処理を経ると、いずれにしても修正後ゲインＧ２（ｎ）が得られるが、この修正後ゲインＧ２（ｎ）に、元の振幅スペクトルＹ（ｎ）をかければ、雑音抑圧後の振幅スペクトルＳ（ｎ）が算出される（図２のステップＳ１０４）。
図３（Ｅ）では、簡単のため、単純に図３（Ａ）の振幅スペクトルＹ（ｎ）に、図３（Ｃ）の平均化された雑音抑圧ゲイン（つまり、ｇ）が乗算された結果が示されている。第１実施形態では、上述のように、これに加えて、原音加算の程度に配慮されたゲインの調整が更に行われはするが（式（８）、特にＯＧ_ｔ（ｎ）の役割、参照）、図３（Ｅ）は、仮に、そのような原音加算処理への配慮を省く場合を想定したときの処理の本質をよく表している（式（８）において、ＯＧ_ｔ（ｎ）＝０ならば、修正後ゲインＧ２（ｎ）は、単にＧ１（ｎ）、又は、Ｇ（ｎ）に等しいというだけである。）。

以上に述べたような構成及び作用をもつ雑音抑圧装置１によれば、以下の効果が奏される。
まず、第１実施形態の雑音抑圧装置１によれば、入力信号に含まれる雑音が極めて好適に抑圧される。ここで「好適に」ということのうちには、第１実施形態において特に、以下に記す各点の内実が含まれる。

（１）第１に、第１実施形態によれば、いわゆるミュージカルノイズの発生をきわめて実効的に防止することができる。ここでミュージカルノイズとは、入力信号の振幅スペクトルから雑音スペクトル推定値を差し引いた後に発生するノイズを意味する。
例えば、雑音スペクトル推定値に基づく雑音抑圧ゲインは、簡単には、前記式（２）中の（Ｙ（ｎ）−Ｎ（ｎ））／Ｙ（ｎ）を用いて求めることが可能であり、これをそのまま図１に示す乗算器１１で適用する態様を想定すれば、雑音抑圧後の振幅スペクトルＳ（ｎ）は、Ｓ（ｎ）＝｛（Ｙ（ｎ）−Ｎ（ｎ））／Ｙ（ｎ）｝・Ｙ（ｎ）＝Ｙ（ｎ）−Ｎ（ｎ）として求められることになる。つまり、この場合は、入力信号の振幅スペクトルから雑音スペクトル推定値を単純に差し引くことによって、雑音抑圧後の振幅スペクトルＳ（ｎ）が得られることになる。
しかし、この場合の雑音スペクトル推定値は、あくまでも“推定値”であるから、必ずしも、実際の雑音スペクトルを反映しているとは限らない。したがって、ある周波数帯域では、雑音スペクトル推定値差し引き後にもなお雑音が残る場合があり、また、他の周波数帯域では、引き過ぎが生じる場合もある（この引き過ぎの場合は、負の振幅スペクトルが考えられない以上、０に設定される。）。図４では、このような事情が概念的に表現されており、例えば図４（Ｃ）中の実線は引き残り（符号“ＫＮ”参照）、破線は引き過ぎ（符号“ＨＳ”参照）の各場合を表現している（なお、図４（Ａ）及び（Ｂ）は、図３（Ａ）及び（Ｂ）と全く同じである。また、図４（Ｃ）の符号ＨＳｔが指示する部分は、たまたま、Ｙ（ｎ）−Ｎ（ｎ）＝０が成立する場合の例示である。）。
このような振幅スペクトルＳ（ｎ）を時間領域に逆フーリエ変換すると、その信号は、複数のランダムな周波数をもつ正弦波が合成されたもののようになり、これが再生されれば、非常に耳障りな音となって聞こえてくることになる。これがミュージカルノイズである。
このように、ミュージカルノイズは、厳密に言えば不可知の実際の雑音スペクトルと、雑音スペクトル推定値とが一致しないことを主な原因として発生する。

第１実施形態では、このようなミュージカルノイズの発生が極めて効果的に抑制される。というのも、雑音フレーム処理時においては、平均化・平滑化された雑音期間用ゲインＧ_ｔが用いられて、修正後ゲインＧ２（ｎ）が求められ、これが振幅スペクトルＹ（ｎ）に適用されるようになっているからである（図３（Ｅ）参照）。これにより、もともとの振幅スペクトルがもっていた周波数構造が維持されたまま、雑音抑圧が行われることになるので、ミュージカルノイズは極めて発生しがたくなっているのである。

（１-ｉ）なお、雑音期間用ゲインＧ_ｔを求めるにあたって行われる平均化（前記式（３））及び平滑化（前記式（４））のそれぞれには、固有の意義がある。前者の目的は、図３からも明らかなように、主に、前記ミュージカルノイズの抑圧という効果を導くことにあり、後者の目的は、主に、いわば通時的にみた雑音抑圧処理の連続性を維持することにある。後者によれば、雑音期間用ゲインＧ_ｔ（ｎ）の時間の経過に従った急激な変化が生じないから、例えば、当該雑音フレームに含まれる信号が再生されるとした場合に、聴取者に、聴感上の違和感を与えることがない（なお、第１実施形態において行われる、その他の平滑化処理（即ち、式（１）のｃａｓｅ・Ａ、式（７）のｃａｓｅ・Ａ）は、基本的に、これと本質的に異ならない意義を持つ。）。

（２）第２に、上記（１）は雑音フレーム処理に関するミュージカルノイズの発生予防についてであるが、これに関連して、第１実施形態によれば、音声フレーム処理に関するミュージカルノイズの発生予防もよりよく実現される。これは、前述のように、音声フレーム処理では、平均化・平滑化を経ない雑音抑圧ゲインＧ（ｎ）（式（２）参照）がいわばそのまま用いられるようなかたちで、修正後ゲインＧ２（ｎ）が求められることによる（式（８）のｃａｓｅ・Ｂ、あるいは、前述の〔ＩＩ〕（ｖ））。

（３）しかも第３に、第１実施形態によれば、雑音フレームから音声フレームへの切り替わりの場面において、雑音抑圧処理の一貫性が保持される。これは、前述のように、音声フレーム処理時においては、雑音スペクトル推定値Ｎ_ｔ（ｎ）として、直近の雑音フレームにおいて算出されたＮ_ｔ−ｐ（ｎ）が利用されるようになっていることによる（前述の〔ＩＩ〕（ｉ）の記載参照）。
以上の（２）及び（３）を要するに、第１実施形態では、音声フレームにおいて、実効的な雑音抑圧が行われながらも、なお雑音フレーム処理時における雑音抑圧処理（特に、その効果）を尊重して、両フレーム間の流れがより自然なものとなるような工夫がなされているのである。これによれば、第１実施形態の雑音抑圧装置１が何らかの音声再生手段に接続されたとした場合、雑音フレームから音声フレームへの切り替わりの場面において、聴取者に、雑音に係る音量感の変更等々の聴感上の違和感を与えることがない。

なお、音声フレームにおけるミュージカルノイズを抑制するためには、前述のＳ（ｎ）＝Ｙ（ｎ）−Ｎ（ｎ）に代えて、Ｓ（ｎ）＝Ｙ（ｎ）−αＮ（ｎ）とし、このα（＞０）の値を大きくするという手法も考えられるが、これでは、音質の劣化が激しくなるおそれが極めて高くなるという欠点を抱え込む。かといって、αを小さくするのでは、ミュージカルノイズの抑圧が不十分となる。
また、図４（Ｃ）中の破線で示す、雑音抑圧後の振幅スペクトルが０となってしまう部分（即ち、符号ＨＳ及びＨＳｔが指示する部分）に、一定の値（ノイズ・フロア）を加算する手法をとることによって、ミュージカルノイズを抑圧することも考えられる。これは、当該の部分ＨＳ及びＨＳｔに、いわば下駄を履かせることによって、引き残りの部分ＫＮをマスキングしよう（あるいは、目立たなくしよう）とする発想に出ている（また、この手法と、前記のαを使う手法とを併用する場合、αはより小さく設定されてもよいから、その場合、音質の劣化防止という効果も得られる。）。
しかし、このようなノイズ・フロアの加算は、とりもなおさず雑音の絶対量を増加させることを意味するから、雑音抑圧という本来の目的達成の観点からみて問題があるだけでなく、そのノイズ・フロアの量の設定如何によっては、雑音抑圧効果が極めて不十分になるおそれが高いという問題を生じさせる。

このような観点からみても、第１実施形態の雑音抑圧装置１が極めて優位に立つことが明らかである。すなわち、第１実施形態では、前記のαの利用のように、差し引き量をいわば機械的に増加するのではないから、音質の劣化が生じるおそれは殆どなく、また、前記ノイズ・フロアの単なる加算というような処理が行われるのではないから、いったんは行った雑音抑圧効果が犠牲になるというようなこともない。そして、既に述べたように、そうであるにも関わらず、ミュージカルノイズは、実効的に抑圧されるのである。

（４）第１実施形態の雑音抑圧装置１によれば、前述の式（５）〜式（７）、あるいは、図２のステップＳ２０５及びＳ３０３を参照して説明したように、原音加算処理が行われるようになっているので、雑音抑圧効果が更に実効的に奏される。この原音加算処理によれば、あたかも、前述したノイズ・フロアの加算処理と同様の効果、即ち図４（Ｃ）の引き残り部分ＫＮのマスキング効果が期待できることから、ミュージカルノイズの抑圧、あるいは、音質の劣化防止がより実効的になるのである（もっとも、前記ノイズ・フロアはあくまでも「一定」である。この点が「原音」を利用する場合との決定的な相違である。）。
なお、上述においては、第１実施形態の雑音抑圧装置１によって奏される効果をより明瞭に把握するため、前記αを用いる手法、あるいはノイズ・フロアを用いる手法との対比において、当該効果についての説明を行っている部分があるが、本発明は、これらαあるいはノイズ・フロアを用いてミュージカルノイズを抑圧する手法を積極的に排除する意図までは有しない。すなわち、これらの手法と本発明及びその各種態様とは併用可能であり、そのような併用形態によれば、当該手法の良いところを享受しつつ、本発明及びその各種態様の効果をより際立たせること等が可能となる。

しかも、第１実施形態では、単に原音加算を実行するというのではなく、以下の各点に特徴がある。
（４-ｉ）まず、原音加算の割合（即ち、ＯＧ_ｔ）が、雑音期間用ゲインＧ_ｔと目標雑音抑圧ゲインｔｇとの大きさの如何に応じて定まる原音加算率ｏｇに基づいて定められるようになっている。具体的には、既に述べたように、原音加算処理においては、目標としている雑音抑圧の程度（即ち、ｔｇ）を支配的要因の１つとし、これとの関係において原音加算率ｏｇが決められるようになっているので、雑音期間用ゲインＧ_ｔに基づく処理と、原音加算処理との間で、バランスがとれた使い分けが行われることにより、より実効的に雑音抑圧効果ないしミュージカルノイズ抑圧効果、さらには音質改善効果が享受されることになる。

（４-ｉｉ）また、このような原音加算処理でも、音声フレーム処理時においては、原音加算割合ＯＧ_ｔとして、直近の雑音フレームにおいて算出されたＯＧ_ｔ―ｐが利用されるようになっている（前述の〔ＩＩ〕（ｉｉ）の記載参照）。これは、ある音声フレームにおける雑音スペクトル推定値Ｎ_ｔ（ｎ）として、その前の雑音スペクトル推定値Ｎ_ｔ−１（ｎ）がそのまま利用されるという、前述の考え方とその本質を同じくする。つまり、この原音加算処理においても、雑音フレーム及び音声フレーム間の切り替わりの場面において、雑音抑圧処理の一貫性が保持されるのである。

＜第２実施形態＞
以下では、本発明に係る第２の実施の形態について図５乃至図７を参照しながら説明する。なお、この第２実施形態は、上記第１実施形態との対比において、音声検出処理に関連する相違点があり、その他の点については、特に断りがない限り上記第１実施形態と全く同じである。したがって、以下では、前記相違点に関する説明を主に行い、その他の点についての説明は簡略化ないし省略する。また、図面上の符号についても前記相違点以外については流用する。

この第２実施形態の雑音抑圧装置１’は、図５に示すように、音声検出部８０１が、雑音抑圧ゲイン演算部３０の後段に接続される構成をもつ。すなわち、この音声検出部８０１は、前記式（２）によって算出される雑音抑圧ゲインＧ（ｎ）を利用することで、入力信号中の音声信号の有無を検出し、あるいは、音声フレームと雑音フレームとの区別を行う。

第２実施形態においては、音声信号の有無を検出するために、以下の手法がとられる。
まず、式（２）で求められた雑音抑圧ゲインＧ（ｎ）に基づいて、以下の式（９）で表現されるＶａｒが算出される。

ここで、ｇは、上記第１実施形態において利用されていた式（３）によって表現されるｇであって、要するに、Ｇ（ｎ）についての周波数帯域ｎに関する平均値である（第２実施形態は、このｇの演算を、雑音期間用ゲイン演算部４０だけでなく、音声検出部８０１も行う。むろん、両者の一方で行った演算の結果を、両者間で共用してもよい。）。
この式（９）のＶａｒは、表式から明らかな通り、Ｇ（ｎ）の分散を表す。

次に、このＶａｒが所定値を越えるかどうかが判断される。この判断の意義は以下にある。
一般に、式（２）によって算出される雑音抑圧ゲインＧ（ｎ）は、音声信号が含まれる場合と含まれない場合とで大きく異なる様相を示す。図６及び図７はその一例を示しており、前者は、音声信号が含まれる場合の雑音抑圧ゲインＧ（ｎ）の演算例、後者は、含まれない場合の雑音抑圧ゲインＧ（ｎ）の演算例である。これらの図を対比すると明らかなように、両者の場合それぞれにおけるＧ（ｎ）の分散を計算すれば、両者間に大きな隔たりが生じることが容易に推測される。つまり、あるフレームについてのＧ（ｎ）の分散の値が一定程度大きければ、それは音声信号を含み、そうでなければ、音声信号を含まないという判断を行うことが、相当程度の確からしさで可能である。
前述のＶａｒに係る大小判断の意義は、ここにある。改めていえば、ある所定値ＶＢがあるとして、Ｖａｒ＞ＶＢであれば、当該フレームには音声信号があり、したがって、それは「音声フレーム」に区別され、Ｖａｒ≦ＶＢであれば、当該フレームには音声信号がなく、したがって、それは「雑音フレーム」に区別される、ということになる。

なお、図５の構成では、図１の構成とは異なって、雑音スペクトル推定部２０が音声信号の検出結果を利用することができない。つまり、雑音スペクトル推定部２０は、音声フレーム及び雑音フレームの区別を前提とすることなく、雑音スペクトル推定値Ｎ_ｔ（ｎ）を演算する。
このような場合における雑音スペクトル推定値Ｎ_ｔ（ｎ）は、例えば、以下の式（１０）及び式（１１）によって求められてよい。

ここで、ＰＡ_ｔ（ｎ）は、現に処理中であるフレームにおける入力信号中の振幅スペクトルであって平滑化されたもの、ＰＡ_ｔ−１（ｎ）は、その直前のフレームにおける当該振幅スペクトルであって平滑化されたもの、αは平滑化係数、γ・βは制御パラメータである。また、式（１１）中、ｃａｓｅ・Ｃとあるのは、ＰＡ_ｔ（ｎ）＞Ｎ_ｔ−１（ｎ）が成立する場合を表現し、ｃａｓｅ・Ｄとあるのは、それ以外の場合を表現している。

この場合、式（１１）のｃａｓｅ・Ｄとして示される式及び式（１０）の組み合わせが前記の式（１）のｃａｓｅ・Ａとして示される式と実質的にほぼ同義である。
他方、式（１１）のｃａｓｅ・Ｃとして示される式は、前記式（１）中においては該当するものはない。もっとも、この式は、上述のように、即ちＰＡ_ｔ（ｎ）＞Ｎ_ｔ−１（ｎ）が成立する場合、即ち、現に処理中であるフレームにおける振幅スペクトルが、その直前のフレームにおける雑音スペクトル推定値を越える場合に発動するから、このｃａｓｅ・Ｃは、その現に処理中であるフレームが、音声フレームである可能性を示唆するものと捉えることも不可能でない（仮に、多くのｎ（＝０，１，２，３，…）について、かかる条件が満たされるなら、その可能性はより高まるといえる。ただし、あくまでも“示唆”に過ぎない。）。
これら式（１０）及び式（１１）は、以上のような意味における限りで、前記式（１）と共通性をもつといえる。
いずれにしても、雑音スペクトル推定値が好適に算出されることに変わりはない。

このような第２実施形態によれば、次のような効果が奏される。
まず、この第２実施形態によっても、上記第１実施形態によって奏された作用効果と本質的に異ならない作用効果が奏されることは明白である。すなわち、この第２実施形態でも、上記第１実施形態に関し述べた（１）から（４）の効果がほぼ同様に奏される。

加えて、この第２実施形態によれば、図１と図５とを対比すると明らかなように、処理効率の向上、回路構成の簡易化等の効果が享受される。これは、第１実施形態における音声検出が、いわば独立に行われていたのに代えて、第２実施形態における音声検出が、雑音抑圧ゲインＧ（ｎ）の利用が図られることによって行われ、その従属化が行われていることによる。
本発明においては、雑音抑圧ゲインＧ（ｎ）の演算は必ず行わなければならない処理である以上、その演算結果を利用して音声検出処理をも行ってしまうことが、処理の効率化・合理化を導くことは論を俟たない。しかも、その検出性能は相当程度高い（図６及び図７対比参照）。

以上、本発明に係る実施の形態について説明したが、本発明に係る雑音抑圧装置は、上述した形態に限定されることはなく、各種の変形が可能である。
（１）上記第１及び第２実施形態では、雑音期間用ゲインＧ_ｔが、周波数軸上で平均化され、時間軸上で平滑化されているが、本発明は、かかる形態に限定されない。上でも既に述べたが、平均化処理と平滑化処理とでは、その主な狙いが異なっているので、特に平滑化処理に関しては、場合によっては省略されてよい。図３（Ｅ）にみられるように、平均化処理だけを実施したとしても、ミュージカルノイズの抑圧効果は一定程度享受可能である。

（２）また、上記第１及び第２実施形態では、雑音期間用ゲインＧ_ｔが、前記式（３）による平均化処理、及び、前記式（４）による平滑化処理を経て求められているが、本発明は、これら式（３）及び式（４）のかたちにも拘らない。
まず、本発明において、雑音抑圧ゲイン平均値ｇは、式（３）によって求められる形態に限定されない。
すなわち、式（３）において、ｇは、Ｎ個すべての周波数帯域（全部でＮ個の０，１，２，…，Ｎ−１番目の周波数帯域）を用いて算出されているが、このｇは、例えば、そのうちの一部だけの周波数帯域を用いて算出されてもよい。この場合、極低域（ＤＣ成分に近い帯域）や極高域（ナイキスト周波数に近い帯域）の双方又は一方を除く、周波数帯域を用いることが考えられる。
また、雑音抑圧ゲイン平均値ｇを求めるにあたっては、個々の周波数帯域に異なる重み付けを行ってもよい。例えば、ある特定の重み係数を特定の周波数帯域についてだけ乗算したり、あるいは、連続的、段階的に増加又は減少する重み付け係数をすべての周波数帯域について乗算したり、等々のようである。
次に、本発明において、雑音期間用ゲインＧ_ｔは、前記式（４）によって求められる形態に限定されない。
すなわち、式（４）において、Ｇ_ｔは、雑音抑圧ゲイン平均値ｇを時間軸上で平滑化することにより求められているが、このＧ_ｔは、例えば、相隣接するフレームのｇの平均値として算出されてもよい。

（３）加えて、上記第１及び第２実施形態では、平均化・平滑化された雑音期間用ゲインＧ_ｔないしＧ１（ｎ）がすべての周波数帯域に適用されているが（式（８）のｃａｓｅ・Ａ、あるいは、図３（Ｅ）参照）、本発明は、かかる形態にも限定されない。
例えば、前述した極低域や極高域の双方又は一方を除く周波数帯域にだけ、当該雑音期間用ゲインＧ_ｔないしＧ１（ｎ）が適用されてよい。この場合、その適用除外となった周波数帯域については、固定値たるゲインが適用されるとよい。

（４）上記第１及び第２実施形態では、雑音抑圧ゲインＧ（ｎ）が、式（２）によって算出されているが、本発明は、かかる形態に限定されない。例えば、これ以外にも、ウィナーフィルタ法、ＭＭＳＥ（Minimum Mean-Square Error）法等が用いられてよい（これらについては、前述の非特許文献３及び４を参照）。ＳＮＲ（音声（信号）／ノイズ比率）を推定し、そのＳＮＲに基づいて雑音抑圧ゲインＧ（ｎ）が求められてもよい。

（５）上記第２実施形態では、音声フレーム及び雑音フレーム間の区別を行うために、前記式（９）により、雑音抑圧ゲインＧ（ｎ）についての周波数軸上の分散がとられているが、本発明は、かかる形態に限定されない。
例えば、分散に代えて、標準偏差が用いられてよいことは当然、時間軸上の分散、あるいは標準偏差が用いられてもよい。また、周波数帯域ごとの雑音抑圧ゲインＧ（ｎ）のうち、所定の２つの基準値によって画された空間内に収まるものが幾つあるか等に基づいて、音声フレーム及び雑音フレーム間の区別が行われてもよい（例えば、その数が比較的大であれば、雑音抑圧ゲインＧ（ｎ）は一定の箇所に集中して存在すると判断可能であるから、その散らばりの程度は小さいといえ、したがって、当該のフレームは、雑音フレームと認定される、などというようである。）。さらには、上述した各種の判断手法は、場合によって併用されてよい。これによれば、例えば、散らばりの程度が、前記分散と前記空間内に収まる雑音抑圧ゲインＧ（ｎ）の数との双方が参照された上で判断される、などということになる。

本発明の第１実施形態に係る雑音抑圧装置の構成を示すブロック図である。第１実施形態に係る雑音抑圧処理の流れを示すフローチャートである。第１実施形態に係る雑音抑圧処理の内容を説明するための説明図である。従来の雑音抑圧処理の内容を説明するための説明図である。本発明の第２実施形態に係る雑音抑圧装置の構成を示すブロック図である。音声信号が含まれる場合の雑音抑圧ゲインＧ（ｎ）の演算例を示すグラフである。音声信号が含まれない場合の雑音抑圧ゲインＧ（ｎ）の演算例を示すグラフである。

符号の説明

１，１’……雑音抑圧装置、１０……時間・周波数変換部、２０……雑音スペクトル推定部、３０……雑音抑圧ゲイン演算部、４０……雑音期間・雑音抑圧ゲイン演算部（雑音期間用ゲイン演算部）、５０……原音加算率演算部、６０……原音加算ゲイン演算部、７０……周波数・時間変換部、１１……乗算器
Ｙ（ｎ）……入力信号の振幅スペクトル、Ｎ（ｎ）……雑音スペクトル推定値、Ｇ（ｎ）……雑音抑圧ゲイン、ｇ……雑音抑圧ゲイン平均値、Ｇ_ｔ，Ｇ１（ｎ）……雑音期間に適用するための雑音抑圧ゲイン（雑音期間用ゲイン）、ｏｇ……原音加算率、ｔｇ……目標雑音抑圧ゲイン、ＴＧ……目標雑音抑圧量、ＯＧ……原音加算割合、Ｇ２（ｎ）……原音加算後の雑音抑圧ゲイン（修正後ゲイン）

Claims

入力信号に含まれる音声の有無を検出することで、当該入力信号を、経時的に、当該音声が含まれる音声フレーム及び当該音声が含まれない雑音フレームに区分する音声検出手段と、
Ｋ個の周波数帯域ごと（ただし、Ｋは２以上の自然数）に、前記入力信号に含まれる雑音スペクトルを当該入力信号に基づいて推定する雑音スペクトル推定手段と、
前記雑音スペクトル推定手段による推定結果に基づいて、前記Ｋ個の周波数帯域ごとの雑音抑圧ゲインを算出する第１ゲイン演算手段と、
前記雑音抑圧ゲインについての、前記Ｋ個の周波数帯域の全部又は一部に関する平均値ゲインを算出するとともに、当該算出した平均値ゲインを時間軸上で平滑化した平滑化ゲインを算出する第２ゲイン演算手段と、
前記入力信号に係る前記Ｋ個の周波数帯域の全部又は一部について、前記平滑化ゲインまたは前記雑音抑圧ゲインを適用することで、当該入力信号に含まれる雑音を抑圧する雑音抑圧手段であって、前記入力信号のうち前記雑音フレームに該当する部分に、前記平滑化ゲインを適用し、前記入力信号のうち前記音声フレームに該当する部分に、前記雑音抑圧ゲインを適用する雑音抑圧手段と、
を備え、
前記雑音スペクトル推定手段は、
前記雑音フレームに関する雑音スペクトルを推定しようとする場合は、
一時的スペクトル推定値を算出した後、当該雑音フレームの直前のフレームにおける雑音スペクトル推定値を用いて、当該一時的スペクトル推定値を時間軸上で平滑化した平滑化雑音スペクトル推定値を算出し、この平滑化雑音スペクトル推定値を、当該雑音フレームにおける雑音スペクトルと推定し、
前記音声フレームに関する雑音スペクトルを推定しようとする場合は、
当該音声フレームの直前のフレームにおける雑音スペクトル推定値をそのまま、当該音声フレームにおける雑音スペクトルと推定する、
ことを特徴とする雑音抑圧装置。
入力信号に含まれる音声の有無を検出することで、当該入力信号を、経時的に、当該音声が含まれる音声フレーム及び当該音声が含まれない雑音フレームに区分する音声検出工程と、
Ｋ個の周波数帯域ごと（ただし、Ｋは２以上の自然数）に、前記入力信号に含まれる雑音スペクトルを当該入力信号に基づいて推定する雑音スペクトル推定工程と、
前記雑音スペクトル推定工程による推定結果に基づいて、前記Ｋ個の周波数帯域ごとの雑音抑圧ゲインを算出する第１ゲイン演算工程と、
前記雑音抑圧ゲインについての、前記Ｋ個の周波数帯域の全部又は一部に関する平均値ゲインを算出するとともに、当該算出した平均値ゲインを時間軸上で平滑化した平滑化ゲインを算出する第２ゲイン演算工程と、
前記入力信号に係る前記Ｋ個の周波数帯域の全部又は一部について、前記平滑化ゲインまたは前記雑音抑圧ゲインを適用することで、当該入力信号に含まれる雑音を抑圧する雑音抑圧工程であって、前記入力信号のうち前記雑音フレームに該当する部分に、前記平滑化ゲインを適用し、前記入力信号のうち前記音声フレームに該当する部分に、前記雑音抑圧ゲインを適用する雑音抑圧工程と、
を含み、
前記雑音スペクトル推定工程は、
前記雑音フレームに関する雑音スペクトルを推定しようとする場合は、
一時的スペクトル推定値を算出した後、当該雑音フレームの直前のフレームにおける雑音スペクトル推定値を用いて、当該一時的スペクトル推定値を時間軸上で平滑化した平滑化雑音スペクトル推定値を算出し、この平滑化雑音スペクトル推定値を、当該雑音フレームにおける雑音スペクトルと推定し、
前記音声フレームに関する雑音スペクトルを推定しようとする場合は、
当該音声フレームの直前のフレームにおける雑音スペクトル推定値をそのまま、当該音声フレームにおける雑音スペクトルと推定する、
ことを特徴とする雑音抑圧方法。