JP4520732B2 - 雑音低減装置、および低減方法 - Google Patents

雑音低減装置、および低減方法 Download PDF

Info

Publication number
JP4520732B2
JP4520732B2 JP2003404595A JP2003404595A JP4520732B2 JP 4520732 B2 JP4520732 B2 JP 4520732B2 JP 2003404595 A JP2003404595 A JP 2003404595A JP 2003404595 A JP2003404595 A JP 2003404595A JP 4520732 B2 JP4520732 B2 JP 4520732B2
Authority
JP
Japan
Prior art keywords
noise
power
signal
suppression gain
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003404595A
Other languages
English (en)
Other versions
JP2005165021A (ja
Inventor
香緒里 遠藤
猛 大谷
光良 松原
恭士 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003404595A priority Critical patent/JP4520732B2/ja
Priority to EP04011801A priority patent/EP1538603A3/en
Priority to US10/851,701 priority patent/US7783481B2/en
Priority to CNB2004100465895A priority patent/CN1302462C/zh
Publication of JP2005165021A publication Critical patent/JP2005165021A/ja
Application granted granted Critical
Publication of JP4520732B2 publication Critical patent/JP4520732B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Description

本発明は、環境雑音などの雑音が重畳した音声信号から雑音成分を低減させる方式に係り、さらに詳しくは、例えば携帯電話システムやIP電話システムなどで、マイクから入力される非音声の環境雑音が重畳した音声信号から雑音成分を低減させ、信号対雑音比(SNR)を向上させて、通話品質を高めるための雑音低減装置、および低減方法に関する。
近年、携帯電話などのデジタル移動通信システムが急速に普及している。このような通信においては、周囲の環境雑音が大きい状態で通信が行われることが多く、音声信号に含まれる雑音成分を抑圧することが重要である。
このような雑音抑圧の技術として、例えば時間軸上の入力信号を周波数軸上の信号(振幅スペクトルと位相スペクトル)に変換し、非音声区間の信号によって推定される背景雑音から抑圧ゲインを求めて、振幅スペクトルを抑圧し、位相スペクトルと抑圧された振幅スペクトルを時間軸上の信号に戻すことで雑音を除去する技術(図20)がある。
このような従来技術の問題点について次の4つの文献を例として説明する。
S.F.Boll,"Supression of Acoustic Noise in Speech Using Spectral Subrtaction", IEEE Transaction on Acoustics, Speech, and Signal Processing, ASSP−33, vol.27, pp.113−120, (1979) 特許第3269969号 背景雑音消去装置 特許第3437264号 雑音抑圧装置 特開2002−73066号 雑音抑圧装置、および雑音抑圧方法
非特許文献1では、入力の振幅スペクトルから推定雑音の振幅スペクトルを減算して、抑圧された振幅スペクトルを求めるスペクトルサブトラクションが提案されている。
特許文献1では、入力信号を周波数軸上の信号に変換して、入力信号と推定雑音から算出される信号対雑音比(SNR)に基いて、抑圧ゲインの算出が行われている。抑圧ゲインの算出法としては、あらかじめ経験的にSNRと抑圧ゲインの間の関係式を定めておく方法が用いられている。
特許文献2では、推定非音声区間のパワーが小さい場合には、抑圧度合いを小さくして、小さいパワーの音声区間が抑圧されることによる劣化を防ぎ、また非音声区間のパワーが大きい場合には、抑圧度合いを大きくして非音声区間をより大きく抑圧することによって、より適切に非音声区間の雑音を抑圧する技術が開示されている。
特許文献3では、有音判定された区間の平滑化スペクトルパワーから音声信号のパワーを求め、無音判定された区間の平滑化スペクトルパワーから無音信号のパワーを求め、これらからSNRの算出が行われ、SNRの高い信号部分に対してはより強い雑音抑圧を行い、SNRの低い信号部分に対しては抑圧による歪の生じる部分に抑圧の制限をかける技術が開示されている。
しかしながらこれらの従来技術において、背景雑音の推定を誤った場合には適切な抑圧ゲインを求めることができず、雑音抑圧した結果の音声信号が劣化してしまうという問題点があった。例えば、背景雑音にバブル雑音(人の声が含まれるような背景雑音)が多く含まれる場合には、バブル雑音の区間が非音声区間として判定されず、バブル雑音以外の定常な雑音区間で推定雑音が算出されることになる。定常雑音のパワーがバブル雑音のパワーよりも小さい場合には、バブル雑音の区間では推定雑音が過小評価され、抑圧不足が起こり、充分な抑圧ができないという問題点があった。
また例えば特許文献2では、推定音声区間のパワーは、長区間での短区間パワーの最大値として推定されており、音声パワーの分布が考慮されていない。人の声の特性や話し方によって変化する音声パワーの分布を考慮しない場合には、適切な抑圧係数を必ずしも算出できないという問題点がある。例えば音声パワーの分布が広い場合には、音声パワーの最大値が大きくても小さいパワーの音声が存在するため、抑圧を強めてしまうと音声が劣化する場合がある。
このように従来の技術においては、入力音声信号から雑音成分を除いた純粋な音声パワーの検出やその分布の推定などが行われていないため、背景雑音の推定を誤った場合には、適切な抑圧ゲインの算出ができないという問題点があった。
本発明の課題は上述の問題点に鑑み、入力音声信号に含まれる純粋な音声のパワーに関する情報を推定し、音声パワーの分布や音声パワーの存在範囲に基いて抑圧ゲインを算出することにより、様々な背景雑音が存在する場合にも適切な雑音抑圧を行うことができる雑音低減装置、および低減方法を提供することである。
図1は本発明の雑音低減装置の原理構成ブロック図である。同図は、入力音声信号を周波数分析して周波数領域の信号に変換する分析部2と、該周波数領域の信号を抑圧する抑圧部3と、抑圧された周波数領域の信号を用いて、抑圧された時間領域の信号を合成して出力する合成部4とを備える雑音低減装置1の原理構成ブロック図である。
本発明の雑音低減装置1は、さらに少なくとも音声情報推定手段5、および抑圧ゲイン算出手段6を備える。音声情報推定手段5は、分析部2の出力する周波数領域の信号、例えばスペクトル振幅を用いて信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定するものであり、抑圧ゲイン算出手段6は、音声情報推定手段5と分析部2の出力とに対応して、抑圧ゲインを算出し、抑圧部3に与えるものである。
発明の実施の形態においては、音声情報推定手段5が前述の純粋音声成分のパワーを推定することもでき、また入力された過去の複数の音声信号フレームに対する純粋音声の各周波数におけるパワー分布において、パワーの大きい方から積算されるサンプルの数が全サンプル数の一定割合となるパワーの平均値を推定することもできる。
この場合抑圧ゲイン算出手段6は、現在処理対象となっているフレームkの周波数インデックスiに対応する前述のパワー平均値PMAXkiと、フレームkに対応するスペクトルパワーPkiとの差に基いて、フレームkに対する抑圧ゲインを算出することもできる。
また実施の形態においては、音声情報推定手段5が前記抑圧ゲイン算出の基礎となる情報として、純粋音声成分に対応すべき情報としての純粋音声のパワー分布の推定値に加えて、入力音声信号としての雑音重畳音声信号のパワー分布を算出し、その算出結果を抑圧ゲイン算出手段6に与えることもできる。
この場合、音声情報推定手段5が過去に入力された複数の音声フレーム信号に対する純粋音声の各周波数におけるパワー分布において、パワーの大きい方から積算されるサンプルの数が全サンプル数のそれぞれ一定割合となるパワーの2つの平均値を用いて、純粋音声のパワー分布に相当する確率密度関数を推定することもでき、抑圧ゲイン算出手段6が音声情報推定手段5の出力としての純粋音声パワーの分布と、雑音重畳音声信号のパワー分布とのそれぞれについて、パワーの大きい方から積算されるサンプルの数が、全サンプル数の一定の割合となるようにパワー分布を複数の区間に分割し、その複数の各区間におけるパワーの平均値に基いて抑圧ゲインを求めることもできる。
また本発明の雑音低減装置は、前述の分析部2、抑圧部3、合成部4、および音声情報推定手段5に加えて、さらに入力音声信号内の雑音成分のスペクトルを推定する雑音推定手段を備え、抑圧ゲイン算出手段が雑音推定手段、音声情報推定手段、および分析部の出力に対応して抑圧ゲインを算出し、抑圧部3に与える。
この雑音低減装置においては、前述と同様に音声情報推定手段5が、前述の純粋音声成分のパワーを推定することもでき、また前述の過去複数の音声フレームに対する純粋音声パワーの分布において、パワーの大きい方から積算されるサンプルの数が全サンプル数の一定割合となるパワーの平均値を推定することもできる。
この場合抑圧ゲイン算出手段6は、前述のパワー平均値PMAXkiと、雑音推定手段の出力としての現フレームに対するスペクトル雑音Nkiと、現フレームのスペクトルパワーPkiの入力に対して、PMAXkiとPkiとの差、およびPMAXkiとNkiとの差に基いて抑圧ゲインを算出することもできる。
あるいは抑圧ゲイン算出手段6が、純粋音声パワーの下限を推定し、その推定結果を用いて、現フレームを含み、過去に入力された複数の音声フレーム信号において、非定常雑音が検出された頻度Hkiを算出し、前述のPMAXki、Nki、およびPkiの入力に対して、PMAXkiとPkiとの差、PMAXkiとNkiとの差、およびHkiに基いて、抑圧ゲインを算出することもできる。
次に本発明の雑音低減方法は、前述の分析部、抑圧部、および合成部を用いて雑音を低減するものであり、分析部の出力を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音を除く純粋音声成分に対応すべき情報を音声情報として推定し、その推定結果と前記分析部の出力とに対応して抑圧ゲインを算出し、前記抑圧部に与える方法が用いられる。
また実施の形態における雑音低減方法として、前述の音声情報を推定し、入力音声信号の内の雑音成分のスペクトルを推定し、推定された音声情報、雑音スペクトル、および分析部の出力に対応して抑圧ゲインを算出し、抑圧部に与える方法が用いられる。
実施の形態においては、これらの2つの方法にそれぞれ対応して、計算機にこの雑音低減方法を実行させるプログラムを用いることも、またそのようなプログラムが格納された可搬型記憶媒体を用いることもできる。
本発明によれば、雑音の推定を行うことなく純粋音声のパワー情報を推定し、その分布や存在範囲に基いて、抑圧ゲインを算出するために、雑音推定性能の影響を受けずに適切な音声抑圧を行うことができ、高品質な音声信号を得ることができる。さらに純粋音声のパワー分布に加えて、雑音重畳音声のパワー分布を用いて抑圧ゲインを算出することもでき、音声区間に重畳された雑音パワーの影響を考慮した抑圧ゲインを算出できるため、非定常な雑音が重畳した場合にも、雑音区間で推定された雑音推定値を用いる従来の手法に比べてより正確に抑圧ゲインを求めることが可能となる。
また本発明によれば、純粋音声のパワー情報の推定値に加えて、さらに雑音を推定し、その結果を用いて抑圧ゲインを算出するため、純粋音声のパワー分布やその存在範囲と、推定された雑音パワーに基いて抑圧ゲインを算出することができ、非定常な雑音が重畳した場合でも、単に雑音区間で算出される雑音推定値を用いる従来手法に比べてより正確に抑圧ゲインを求めることができる。さらに非定常雑音の頻度を用いて抑圧ゲインを算出することも可能となり、より正確に雑音を抑圧でき、例えば移動体通信における通信品質の向上に寄与するところが大きい。
図2は、本発明の第1の実施形態における音声信号の雑音低減装置の構成ブロック図である。同図において、分析部11はフレームごとの入力信号、すなわち雑音が重畳された音声信号の入力に対して、ハミング窓などの時間窓を掛けた上で、高速フーリエ変換FFTなどを用いて入力フレームの分析を行い、スペクトル振幅(=振幅スペクトル)とスペクトル位相(=位相スペクトル)の算出を行う。このFFTや入力信号に対する窓掛けなどについては次の文献に詳細に説明されている。
辻井、鎌田「ディジタル信号処理シリーズ第1巻 ディジタル信号処理」 94〜120頁、昭晃堂 Curtis Roads著、 青柳他訳・監修 「コンピュータ音楽」 452〜457頁、東京電機大学出版局
分析部11の出力としてのスペクトル振幅は、音声推定部12、抑圧ゲイン算出部14、および抑圧部15に与えられる。音声推定部12は入力信号のスペクトル振幅を用いて雑音が重畳された入力音声信号のうちで雑音を除く成分、すなわち純粋音声信号に対応すべき情報であって、抑圧ゲインの算出のために使用される音声情報を推定するものである。この第1の実施形態においては、図20で説明したような雑音推定を行って抑圧ゲインを算出する代わりに、純粋な音声信号に対応する音声情報を推定して、抑圧ゲインの算出を行うところに基本的な特徴がある。
スペクトルパワー記憶部13は、例えば過去の100フレームに対応して、スペクトルパワーの値を記憶し、後述するように音声推定部12、および抑圧ゲイン算出部14に与えるものである。
抑圧ゲイン算出部14は、音声推定部12の出力としての音声情報と入力信号のスペクトル振幅とを用いて、スペクトル振幅を調整するための抑圧ゲインを算出し、抑圧部15は算出された抑圧ゲインの値と入力信号のスペクトル振幅とを用いて、抑圧されたスペクトル振幅を算出し、合成部16に与える。
合成部16は、抑圧されたスペクトル振幅と分析部11が出力するスペクトル位相とを用いて、逆高速フーリエ変換IFFTによって周波数軸上の信号を時間軸上の信号に変換し、オーバーラップ加算によって、直前フレームの時間軸上の抑圧処理音声と重ね合わせ、抑圧された出力音声信号として出力する。雑音低減装置10の動作は以上であるが、合成部16の出力信号は、例えば音声符号化部17に与えられ、符号化結果が送信部18によって送信されるという形式で、音声通信方式に適用することが可能となる。
なお合成部16によって、時間軸上に変換された信号と直前フレームの時間軸上の抑圧処理音声とがオーバーラップ加算によって重ね合わせられる理由は、一般にFFTにおける窓掛けによって窓の外側の信号が小さくなることを補正するためであり、一般的に公知の従来技術として行われるものである。
図3は、図2の雑音低減装置による雑音低減処理の全体的なフローチャートである。同図においてステップS1で入力信号が1フレーム分入力され、ステップS2でハミング窓などの時間窓掛けが行われた上でFFT分析が行われ、スペクトル分析結果としてのスペクトル振幅SAkiとスペクトル位相SPkiが得られる。ここで、kはフレームのインデックスであり、iは周波数(帯域)のインデックスである。
続いてステップS3で音声情報の推定が行われる。ここでは入力信号のスペクトル振幅SAkiを用いて抑圧ゲイン算出の基礎となる情報としての音声情報が算出されるが、その詳細については後述する。ステップS4で音声情報算出結果から抑圧ゲインGkiが算出され、ステップS5で抑圧された振幅スペクトルSA’kiが次の(1)式を用いて算出される。
SA’ki=SAki・Gki 0≦i<N ・・・・ (1)
ステップS6で抑圧された振幅スペクトルSA’kiとスペクトル位相SPkiとを用いて、IFFTが行われ、オーバーラップ加算がされて音声が合成される。ステップS7で入力フレームの全てに対する処理が終了したか否かが判定され、まだ終了していない場合にはステップS1以降の処理が繰り返され、全てのフレームに対する処理が終了したと判定された時点で処理を終了する。
図4は、図3のステップS2のスペクトル分析の詳細処理フローチャートである。同図において処理が開始されると、まずステップS11で入力信号xktに対して窓関数Htを使って、次の(2)式によって窓掛け信号wktが得られる。
wkt=Ht・xkt t=0,・・・,2N−1 ・・・・ (2)
次にステップS12で、窓掛け信号に対するFFT処理が行われ、結果として実数部XRki、虚数部XIkiが得られる。続いてステップS13で次の(3)式によってスペクトル振幅SAkiが求められる。
SAki=(XRki2+XIki21/2 0≦i<N ・・・・ (3)
さらにステップS14で、次の(4)式によってスペクトル位相SPkiが算出されて処理を終了する。
SPki=tan-1(XIki/XRki) 0≦i<N ・・・・ (4)
なお、これらの式において2NはFFTを行う点数、例えば128や256であり、窓関数Htは、例えばハミング窓である。
図5は、図3の音声情報算出処理(ステップS3)の1つの実施例としての、純粋音声のパワー分布において、パワーの大きい方から、積算されるサンプルの数が全サンプル数の一定割合となるパワーの平均値を音声情報として推定する処理の詳細フローチャートである。同図において処理が開始されると、まずステップS16で現在処理対象となっている現フレームのスペクトルパワーPkiが次の(5)式によって算出される。すなわち、kフレームにおける周波数(帯域)i毎にスペクトル振幅の2乗が求められ、スペクトルパワーとして算出される。
Pki=SAki2 0≦i<N ・・・・ (5)
続いてステップS17で任意の監視期間、例えば現フレームを含め監視期間100フレームに対応して、算出されたスペクトルパワーを用いて周波数(帯域)インデックスi毎にスペクトルパワーの分布を求め、例えば上位10%となるスペクトルパワー、すなわち10個のスペクトルパワーの値が抽出される。そしてステップS18で、この例えば上位10%、すなわち上位一定割合のスペクトルパワーの平均値PMAXkiの算出が行われ、これを音声推定部12が出力する音声情報として処理を終了する。
図6は、図3の抑圧ゲイン算出処理(ステップS4)の詳細フローチャートである。同図において処理が開始されると、まずステップS20で抑圧ゲインGkiを決定する関数fにおける引数としてのdkiが、次の(6)式によって算出される。
dki=PMAXki−Pki 0≦i<N ・・・・ (6)
続いてステップS21で抑圧ゲインGkiの算出が、次の(7)式を用いて行われ、処理を終了する。
Gki=f(dki) 0≦i<N ・・・・ (7)
図7は、この抑圧ゲイン算出関数fの例を示す。この関数fは、音声パワーの分布の位置に対応して抑圧ゲインを決めるものであり、例えばあらかじめ音声の抑圧と雑音低減効果のバランスから経験的に求められるものである。図7では、この関数fの引数dkiが小さいほど抑圧ゲインGkiを大きくして実際の抑圧を小さくし、dkiが大きくなるほど抑圧ゲインを小さくして実際の抑圧を大きくする形式となっている。
図8は、図7の抑圧ゲイン算出関数fの引数dkiが小さい範囲で、抑圧ゲインGkiを大きくする理由の説明図である。一般的に入力音声信号は、雑音重畳信号であり、純粋音声の成分と雑音成分とが含まれるが、純粋音声成分のパワーが平均的に雑音パワーより大きい場合には、雑音重畳入力信号のパワーが大きい区間では、入力信号パワーによって純粋音声パワーを近似することができる。従って現フレームの入力信号パワーPkiと、例えば100フレームに対応して求められた音声パワーの上位一定割合、例えば10%以内のパワー平均値PMAXkiとの差が小さい場合には、雑音重畳音声信号に含まれる純粋音声パワーが大きく、雑音成分の影響は小さいと考えられるため、抑圧ゲインを大きくする、すなわち、実際の抑圧を小さくすることが適切となる。また実際の入力信号、すなわち雑音重畳音声信号ではなく、あらかじめ純粋音声パワーの存在幅を実験的に算出しておいたり、分布を仮定するなどの方法で、図8に点線で示す純粋な音声パワーの分布を推定することができ、その分布から求められるPMAXkiと現フレームのPkiとの差から、dkiを算出することもできる。
次に図3のステップS3における音声情報算出処理の異なる実施例と、それに対応するステップS4における抑圧ゲイン算出処理について図9−図11を用いて説明する。図9は、音声情報算出処理の異なる実施例のフローチャートである。同図において処理が開始されると、まずステップS23で前述の(3)式によって求められたスペクトル振幅SAkiが入力され、ステップS24で(5)式によってスペクトルパワーPkiが周波数(帯域)i毎に算出される。
続いてステップS25で、図5におけると同様にして雑音重畳音声信号のスペクトルパワーのうちで大きさがそれぞれ上位一定割合となるスペクトルパワーの2つの平均値PMAX1ki、およびPMAX2kiの算出が行われる。すなわち前述のように、例えば100フレームに対応して、周波数のインデックスがiのスペクトルパワーの大きさのうちで、上位x1%(ガウス分布のa1・σの位置に相当)のパワーの平均値となるようにPMAX1kiを算出し、PMAX2kiを上位x2%(ガウス分布のa2・σの位置に相当)のパワーの平均値となるように算出する。ここで例えばa1の方がa2より大きいものとし、またσは標準偏差を示す。
続いてステップS26で、周波数のインデックスi毎の純粋音声パワーの分布がガウス分布と仮定され、ガウス分布の標準偏差が次の(8)式によって算出される。
σki=(PMAX1ki−PMAX2ki)/(a1−a2)
0≦i<N ・・・・ (8)
続いてステップS27で、ガウス分布の平均mが次の(9)式によって算出される。
mki=PMAX1ki−a1・σki 0≦i<N ・・・・ (9)
これによって、純粋音声パワーに対する標準偏差と平均を用いて、音声パワーの確率密度関数を次の(10)式によって求めることができる。なおここでxは、純粋音声パワーを示す。
P1ki(x)={1/(2π)1/2}exp[−(x−mki)2/2σki2] 0≦i<N ・・・・(10)
この例では純粋音声のパワー分布をガウス分布と仮定したが、純粋音声パワーのヒストグラムを算出することにより、確率密度関数を求めることもできる。
続いて図9のステップS28で、雑音重畳入力信号のスペクトルパワーを監視して、そのヒストグラムP2ki(x)が作成され、ステップS29で音声情報として純粋音声パワーの確率密度関数P1ki(x)と雑音重畳音声パワーのヒストグラムP2ki(x)が出力されて処理を終了する。
ここでステップS25におけるPMAX1kiとPMAX2kiの算出の具体例についてさらに説明する。前述のa1の値を3、a2の値を2として、PMAX1kiを上位から0.3%、PMAX2kiを上位から4.6%の位置のパワーの値となるように算出する。
すなわちPMAX1kiの算出においては、例えば過去1000フレームのスペクトルパワーを大きさ順に並べ、大きいものから6つ選ぶ、すなわち上位0.6%のものを選び、選んだスペクトルパワーの平均値を求めることで、またPMAX2kiの算出では、過去1000フレームスペクトルパワーの大きいものから92個、すなわち上位9.2%のものを選び、選んだスペクトルパワーの平均を求めることによって算出することができる。
図10は、図9の音声情報算出処理に対応する抑圧ゲイン算出処理の詳細フローチャートである。同図において処理が開始されると、図9の処理によって出力された純粋音声パワーの確率密度関数P1ki(x)と雑音重畳音声信号のヒストグラムP2ki(x)がステップS31で入力され、ステップS32で(純粋)音声パワーと雑音重畳音声パワーの分布において上位からη%毎に分布を区分し、区分区間毎にパワーの平均値を算出する処理が行われる。
図11は、この処理の説明図である。例えば、雑音重畳音声パワーの分布において、過去の100フレームを用いて上位から10%毎のパワーの平均値を算出する場合を例として説明する。純粋音声パワーについては、あらかじめ雑音が混入しない音声信号を用いて同様に算出することができる。
まず過去100フレームの雑音重畳音声パワーをその大きさ順に並べ、上位から10個毎の雑音重畳音声パワーの平均値V2nの算出を行う。すなわち上位1位から10個の雑音重畳音声パワーの平均値をV21、上位11位から10個の雑音重畳音声パワーの平均値をV22・・、上位91位から10個の雑音重畳音声パワーの平均値V210として求める。純粋な音声パワーについても、例えば上位からn番目の区間に対応して音声パワーの平均値V1nが求められる。
図10のステップS33で、区間毎の抑圧ゲインGiknの算出が行われる。この処理では純粋な音声パワーの分布と雑音重畳音声パワーの分布において、同じ区間nにおいては、その区間の(純粋な)音声パワーに雑音が重畳して雑音重畳音声パワーになったものとし、次の(11)、(12)式を用いて、雑音重畳音声パワーのn番目の区間に対する平均値V2nに対する抑圧ゲインは(13)式によって与えられるものとする。
V1n=10log10(音声パワー) ・・・・ (11)
V2n=10log10(音声パワー+雑音パワー) ・・・・ (12)
Figure 0004520732
ステップS33で求められた抑圧ゲインGiknは区間毎に求められた離散的な値であり、実際の雑音重畳音声パワー信号xの関数として抑圧ゲインを算出するために、ステップS34でGiknを次の(14)式を用いて補間し、抑圧ゲイン関数の算出が行われる。
Figure 0004520732
ここでV2(n−1)は、n−1番目の区間のV2の値を示す。
続いてステップS35で、現在のフレームの雑音重畳音声パワーxの値を用いて抑圧ゲインGik(x)の値が算出され、ステップS36でその値が出力されて処理を終了する。
続いて本発明の第2の実施形態について説明する。図12は、第2の実施形態における雑音低減装置の構成ブロック図である。同図を、図2の第1の実施形態における構成と比較すると雑音推定部19が追加され、抑圧ゲイン算出部14が音声推定部12の出力する音声情報に加えて、雑音推定部19の出力としての推定雑音を用いて抑圧ゲインを算出する点だけが異なっている。雑音推定部19は、分析部11の出力するスペクトル振幅を用いて、入力信号に含まれるスペクトル雑音(=雑音スペクトル)を推定するものであるが、スペクトル振幅に代わって、時間軸上の入力信号を用いて雑音を推定することも可能である。
図13は、第2の実施形態における雑音低減処理の全体フローチャートである。同図を第1の実施形態における図3と比較すると、ステップS53でスペクトル雑音の推定が行われ、ステップS54でその推定結果に対応して音声情報が算出され、ステップS55で抑圧ゲインの算出が行われる点だけが異なっている。
図14は、図13のステップS53におけるスペクトル雑音推定処理の詳細フローチャートである。同図において処理が開始されると、まずステップS61で前述の(5)式を用いて、スペクトルパワーPkiが算出され、ステップS62で音声区間と雑音区間との判定処理が行われる。この判定には公知の従来技術を用いることができ、例えば長期間のフレームパワーの平均と現フレームのパワーとの差を監視する方法や、相関係数を算出する方法などが用いられる。
ステップS63で、雑音区間であるか否かが判定され、雑音区間でない場合には、そのフレームに対する処理を終了し、雑音区間である場合にはステップS64で推定スペクトル雑音Nkiの更新処理が行われる。
この更新処理では、現在のフレーム(雑音フレーム)のスペクトルパワー(雑音スペクトルパワー)と、それまでに算出された過去の雑音スペクトルパワーに、それぞれの寄与率を乗算して、雑音スペクトルパワーの更新が行われる。これによってフレーム毎のパワー変動の高周波成分を取り除くことができる。ここでは、次の(15)式を用いて推定スペクトル雑音の更新が行われる。ここでξは、前述の寄与率に対応する定数である。
Nki=ξ・Pki+(1−ξ)N(k−1)i
0≦i<N ・・・・ (15)
ここでN(k−1)iは、k−1番目のフレームのi番目の帯域の雑音スペクトラムパワーを示す。
図15は、図13のステップS55における抑圧ゲイン算出処理の詳細フローチャートである。なおステップS54における音声情報算出処理は第1の実施形態における、例えば図5におけると同様に行われるものとする。
図15において処理が開始されると、まずステップS66で周波数(帯域)毎の現在のフレームのパワーPkiと、雑音重畳音声信号のスペクトルパワーの内、大きさが上位一定割合となるスペクトルパワーの平均値PMAXki、すなわち音声推定部12の出力する音声情報と、雑音推定スペクトルNki、すなわち雑音推定部19の出力とが入力され、ステップS67で次の(16)式を用いてd1kiが、ステップS68で(17)式を用いてd2kiが算出され、ステップS69で抑圧ゲインGkiが次の(18)式を用いて算出され、ステップS70で算出された抑圧ゲインが出力されて処理を終了する。
d1ki=PAMXki−Pki 0≦i<N ・・・・ (16)
d2ki=PMAXki−Nki 0≦i<N ・・・・ (17)
Gki=g(d1ki,d2ki) 0≦i<N ・・・・ (18)
図16は、抑圧ゲインGkiを算出するための、(18)式によって与えられる関数gの引数としてのd1kiとd2kiとの説明図である。同図において雑音重畳音声パワーの上位一定割合のパワースペクトルの平均値PMAXkiと現在のフレームパワーPkiとの差d1kiは、現在のフレームに含まれる純粋な音声パワーの大きさに相当し、PMAXkiと定常雑音の推定スペクトルのパワーNkiとの差d2kiは、雑音重畳音声パワーの分布と定常雑音パワーの分布との間の距離に対応する。ここで定常雑音パワーの分布に対してはそのピークの位置が用いられているのに対して、雑音重畳音声パワーの分布に対してはピークの位置が用いられていないが、ここではd2kiを2つのパワーの分布の距離を表すものとして定義する。
本実施形態では、d1kiとd2kiの2つの値を用いることによって、純粋な音声パワー情報と雑音パワー情報の両方を考慮して抑圧ゲインを決めることにする。すなわちd1kiの値が大きいほど、純粋な音声パワーが小さくなるために抑圧ゲインも小さくするように、またd2kiが大きいほど、雑音重畳音声パワーの分布と定常雑音パワーの分布が離れ、含まれる雑音パワーが小さくなるため抑圧ゲインが大きくなるように、例えば次の(19)式を用いて抑圧ゲインGkiを与える関数gを設定するものとする。
g(d1ki,d2ki)=τ−κ・d1ki+μ・d2ki
0≦i<N ・・・・ (19)
ここで、τ、κ、μは正の値をとる係数
図17は、第2の実施形態における抑圧ゲイン算出処理の異なる実施例のフローチャートである。同図において処理が開始されると、まずステップS72で、図15のステップS66におけると同様にPki、PMAXki、およびNkiの入力が行われ、ステップS73でd1ki、ステップS74でd2kiが前述と同様に算出され、ステップS75で純粋な音声パワーの下限PMINkiの算出処理が行われる。
図18は、この抑圧ゲイン算出処理の説明図である。同図において純粋な音声パワーの分布の下限の位置がPMINkiの値として次の(20)式によって推定される。
PMINki=PMAXki−ψki 0≦i<N ・・・・ (20)
この(20)式においては、入力レベルが一定であれば、純粋な音声パワーの存在幅(最大パワーと最小パワーの差)ψkiが一定であることを仮定している。その存在幅の値は、あらかじめ純粋な音声パワーの分布から調べることもでき、あるいは純粋な音声パワーの分布をガウス分布と仮定し、入力信号のパワーを観測して求められる標準偏差σにある定数を乗算して算出することも可能である。
続いて図17のステップS76で、非定常雑音の頻度Hkiの算出処理が行われる。この処理では、図18の定常雑音パワーの分布の位置を示すNkiと、雑音判定区間におけるパワーの幅を表す値としてのλとの和が求められ、現在のフレームに対応するPkiがこのNki+λと純粋な音声パワーの分布における下限PMINkiの間にあるか否かによって、各フレームに非定常雑音が含まれるかどうかが頻度として調べられる。すなわちバブル雑音のような非定常雑音があるか否かが、それぞれのフレームについて調べられ、入力されるフレームに対応して次の(21)式、または(22)式を用いて、頻度Hkiの更新が行われる。
Hki=[{H(k−1)i・(k−1)}+1]/k
Nki+λ≦Pki≦PMINki ・・・・ (21)
Hki={H(k−1)i・(k−1)}/k
Pki<Nki+λ,PMINki<Pki ・・・・ (22)
ここでH(k−1)iは前フレームに対する頻度、 0≦i<N
すなわちNki+λは雑音の上限パワーを表し、その値と純粋な音声パワーの分布の下限の値PMINkiとの間にPkiが存在するフレームが、今までの入力フレームの総数に対して何割となるかによって、非定常雑音の頻度Hkiが算出される。
続いて図17のステップS77で、次の(23)式を用いて抑圧ゲインGkiが算出され、ステップS78で、その抑圧ゲインが出力されて処理が終了される。
Gki=h(d1ki,d2ki,Hki)
0≦i<N ・・・・ (23)
この抑圧ゲインGkiを算出するための(23)式における関数hは、例えば次の(24)式によって決定される。
h(d1ki,d2ki,Hki)=τ−κ・d1k1+μ・d2ki−ν・Hki
0≦i<N ・・・・ (24)
ここでτ、κ、μ、νは正の値をとる係数
図18において図16と同様に、d1kiが大きいほど純粋な音声のパワーは小さくなるため、抑圧ゲインを小さくするように、またd2kiが大きいほど雑音パワーが小さくなるため、抑圧ゲインを大きくするように関数hの設定が行われるが、それに加えて非定常雑音の頻度Hkiが大きいほど非定常雑音が多く存在するため、抑圧ゲインを小さくするようにhの設定が行われる。
以上において本発明の雑音低減装置、および低減方法についてその詳細を説明したが、この雑音低減装置は当然プロセッサや一般的なコンピュータシステムとして構成することが可能である。図19はそのようなコンピュータシステム、すなわちハードウェア環境の構成ブロック図である。
図19においてコンピュータシステムは中央処理装置(CPU)20、リードオンリメモリ(ROM)21、ランダムアクセスメモリ(RAM)22、通信インタフェース23、記憶装置24、入出力装置25、可搬型記憶媒体の読取り装置26、およびこれらの全てが接続されたバス27によって構成されている。
記憶装置24としては、ハードディスク、磁気ディスクなど様々な形式の記憶装置を使用することができ、このような記憶装置24、またはROM21に図3〜図6、図9,図10、図13〜図15、および図17のフローチャートに示されたプログラムなどが格納され、そのようなプログラムがCPU20によって実行されることにより、本実施形態における純粋音声に関する情報の推定、その情報に対応する雑音の抑圧などが可能となる。
このようなプログラムは、プログラム提供者28側からネットワーク29、および通信インタフェース23を介して、例えば記憶装置24に格納されることも、また市販され、流通している可搬型記憶媒体30に格納され、読取り装置26にセットされて、CPU20によって実行されることも可能である。可搬型記憶媒体30としてはCD−ROM、フレシキブルディスク、光ディスク、光磁気ディスクなど様々な形式の記憶媒体を使用することができ、このような記憶媒体に格納されたプログラムが読取り装置26によって読み取られることにより、本実施形態におけるバブル雑音を含む各種雑音の抑圧などが可能となる。
(付記1) 入力音声信号を周波数分析して周波数領域の信号に変換する分析部と、該周波数領域の信号を抑圧する抑圧部と、該抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成部とを備える雑音低減装置において、
該分析部の出力を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定する音声情報推定手段と、
該音声情報推定手段と前記分析部との出力に対応して、前記抑圧ゲインを算出して前記抑圧部に与える抑圧ゲイン算出手段とを備えることを特徴とする雑音低減装置。
(付記2) 前記音声情報推定手段が、前記雑音成分を除く純粋音声成分のパワーを推定することを特徴とする付記1記載の雑音低減装置。
(付記3) 前記音声情報推定手段が、過去に入力された複数の音声フレームに対する前記純粋音声の各周波数におけるパワー分布において、パワーの大きい方から積算されるサンプルの数が全サンプル数の一定割合となるパワーの平均値を推定することを特徴とする付記1記載の雑音低減装置。
(付記4) 前記抑圧ゲイン算出手段が、現在処理対象となっているフレームkの周波数インデックスiに対応する前記パワー平均値PMAXkiと、該フレームkに対応するスペクトルパワーPkiとの差に基いて、該フレームkに対する抑圧ゲインを算出することを特徴とする付記3記載の雑音低減装置。
(付記5) 前記音声情報推定手段が、前記抑圧ゲイン算出の基礎となる情報として、前記純粋音声成分に対応すべき情報としての純粋音声のパワー分布に加えて、前記入力音声信号としての雑音重畳音声信号のパワー分布を算出して前記抑圧ゲイン算出手段に与えることを特徴とする付記1記載の雑音低減装置。
(付記6) 前記音声情報推定手段が、過去に入力された複数の音声フレーム信号に対する純粋音声の各周波数におけるパワー分布において、パワーの大きい方から積算されるサンプルの数が全サンプル数のそれぞれ一定割合となるパワーの2つの平均値を用いて、前記純粋音声のパワー分布に相当する確率密度関数を推定することを特徴とする付記5記載の雑音低減装置。
(付記7) 前記抑圧ゲイン算出手段が、前記音声情報推定手段の出力としての純粋音声パワーの分布と、雑音重畳音声信号のパワー分布とのそれぞれについて、パワーの大きい方から積算されるサンプルの数が全サンプル数の一定割合となるようにパワー分布を複数の区間に分割し、該複数の各区間におけるパワーの平均値に基いて前記抑圧ゲインを求めることを特徴とする付記5記載の雑音低減装置。
(付記8) 入力音声信号を周波数分析して周波数領域の信号に変換する分析部と、該周波数領域の信号を抑圧する抑圧部と、該抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成部とを備える雑音低減装置において、
前記入力音声信号の内の雑音成分のスペクトルを推定する雑音推定手段と、
前記分析部の出力を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音を除く純粋音声成分に対応すべき情報を音声情報として推定する音声情報推定手段と、
該雑音推定手段、音声情報推定手段、および前記分析部の出力に対応して、前記抑圧ゲインを算出して前記抑圧部に与える抑圧ゲイン算出手段とを備えることを特徴とする雑音低減装置。
(付記9) 前記音声情報推定手段が、前記雑音成分を除く純粋音声成分のパワーを推定することを特徴とする付記8記載の雑音低減装置。
(付記10) 前記音声情報推定手段が、過去に入力された複数の音声フレームに対する前記純粋音声の各周波数におけるパワー分布においてパワーの大きい方から積算されるサンプルの数が全サンプル数の一定割合となるパワーの平均値を推定すること特徴とする付記8記載の雑音低減装置。
(付記11) 前記抑圧ゲイン算出手段が、現在処理対象となっているフレームkの周波数インデックスiに対応する前記パワー平均値PMAXki、前記雑音推定手段の出力としての現フレームに対するスペクトル雑音Nki、現フレームのスペクトルパワーPkiの入力に対して、PMAXkiとPkiとの差、およびPMAXkiとNkiとの差に基いて抑圧ゲインを算出することを特徴とする付記10記載の雑音低減装置。
(付記12) 前記抑圧ゲイン算出手段が、純粋音声パワーの下限を推定し、該推定結果を用いて、現フレームを含み過去に入力された複数の音声フレーム信号において非定常雑音が検出された頻度を算出し、現在処理対象となっているフレームkの周波数インデックスiに対応する前記パワー平均値PMAXki、該フレームkに対応するスペクトルパワーPki、および雑音推定手段の出力としての現フレームに対するスペクトル雑音Nkiの入力に対して、PMAXkiとPkiとの差、PMAXkiとNkiとの差、および算出された頻度に基いて抑圧ゲインを算出することを特徴とする付記10記載の雑音低減装置。
(付記13) 入力音声信号を周波数分析して周波数領域の信号に変換する分析部と、該周波数領域の信号を抑圧する抑圧部と、抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成部とを用いて雑音を低減する雑音低減方法において、
該分析部の出力を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定し、
該推定された音声情報と前記分析部の出力とに対応して抑圧ゲインを算出して前記抑圧部に与えることを特徴とする雑音低減方法。
(付記14) 入力音声信号を周波数分析して周波数領域の信号に変換する分析部と、該周波数領域の信号を抑圧する抑圧部と、抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成部とを用いて雑音を低減する雑音低減方法において、
前記入力音声信号のうちの雑音成分のスペクトルを推定し、
該分析部の出力を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定し、
該推定された雑音成分スペクトル、音声情報、および前記分析部の出力に対応して抑圧ゲインを算出して前記抑圧部に与えることを特徴とする雑音低減方法。
(付記15) 入力音声信号を周波数分析して周波数領域の信号に変換する分析手順と、該周波数領域の信号を抑圧する抑圧手順と、抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成手順を実行して雑音を低減する計算機によって使用されるプログラムにおいて、
該分析手順の処理結果を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定する手順と、
該推定された音声情報と前記分析部の出力とに対応して抑圧ゲインを算出して前記抑圧手順に与える手順とを計算機に実行させるためのプログラム。
(付記16) 入力音声信号を周波数分析して周波数領域の信号に変換する分析手順と、該周波数領域の信号を抑圧する抑圧手順と、抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成手順を実行して雑音を低減する計算機によって使用されるプログラムにおいて、
前記入力音声信号の内の雑音成分のスペクトルを推定する手順と、
該分析手順の処理結果を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定する手順と、
該推定された雑音成分スペクトル、音声情報、および前記分析部の出力に対応して抑圧ゲインを算出して前記抑圧手順に与える手順とを計算機に実行させるためのプログラム。
(付記17) 入力音声信号を周波数分析して周波数領域の信号に変換する分析ステップと、該周波数領域の信号を抑圧する抑圧ステップと、抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成ステップとを実行して雑音を低減する計算機によって使用される記憶媒体において、
該分析ステップの処理結果を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定するステップと、
該推定された音声情報と前記分析ステップの処理結果とに対応して抑圧ゲインを算出して前記抑圧ステップに与えるステップとを計算機に実行させるプログラムを格納した計算機読出し可能可搬型記憶媒体。
(付記18) 入力音声信号を周波数分析して周波数領域の信号に変換する分析ステップと、該周波数領域の信号を抑圧する抑圧ステップと、抑圧された周波数領域の信号を用いて抑圧された時間領域の信号を合成して出力する合成ステップとを実行して雑音を低減する計算機によって使用される記憶媒体において、
前記入力音声信号の内の雑音成分のスペクトルを推定するステップと、
該分析ステップの処理結果を用いて、信号の抑圧ゲイン算出の基礎となる情報であって、少なくとも入力音声信号の内で雑音成分を除く純粋音声成分に対応すべき情報を音声情報として推定するステップと、
該推定された雑音成分スペクトル、音声情報、および前記分析ステップの処理結果に対応して抑圧ゲインを算出して前記抑圧ステップに与えるステップとを計算機に実行させるプログラムを格納した計算機読出し可能可搬型記憶媒体。
本発明は、携帯電話やIP電話など、音声による通信サービスを提供する通信産業は当然のこととして、雑音重畳音声信号から雑音成分を低減させることが必要となるすべての産業において利用可能である。
本発明の雑音低減装置の原理構成ブロック図である。 本発明の第1の実施形態における雑音低減装置の構成例を示す図である。 第1の実施形態における雑音低減処理の全体フローチャートである。 スペクトル分析処理の詳細フローチャートである。 音声情報推定処理の詳細フローチャートである。 抑圧ゲイン算出処理の詳細フローチャートである。 抑圧ゲイン算出関数の例を示す図である。 図7の抑圧ゲイン算出関数の例を説明するための音声パワー分布の説明図である。 音声情報推定処理の他の実施例のフローチャートである。 図9の音声情報推定処理に対応する抑圧ゲイン算出処理のフローチャートである。 図10における抑圧ゲイン算出処理を説明するための音声パワー分布の説明図である。 第2の実施形態における雑音低減装置の構成を示すブロック図である。 第2の実施形態における雑音低減処理の全体フローチャートである。 第2の実施形態における雑音推定処理の詳細フローチャートである。 第2の実施形態における抑圧ゲイン算出処理の詳細フローチャートである。 図15の抑圧ゲイン算出処理を説明するためのパワー分布の説明図である。 抑圧ゲイン算出処理の異なる実施例の詳細フローチャートである。 図17の抑圧ゲイン算出処理におけるパワー分布の説明図である。 本発明を実現するためのプログラムのコンピュータへのローディングを説明する図である。 雑音低減装置の従来例の構成を示すブロック図である。
符号の説明
1、10 雑音低減装置
2、11 分析部
3、15 抑圧部
4、16 合成部
5 音声情報推定手段
6 抑圧ゲイン算出手段
12 音声推定部
13 スペクトルパワー記憶部
14 抑圧ゲイン算出部
17 音声符号化部
18 送信部
19 雑音推定部
20 CPU
21 ROM
22 RAM
23 通信インタフェース
24 記憶装置
25 入出力装置
26 読取り装置
27 バス
28 プログラム提供者
29 ネットワーク
30 可搬型記憶媒体

Claims (6)

  1. 入力音声信号の1フレーム分を周波数分析して周波数領域の信号に変換して出力する分析部と、
    現在処理対象となっているフレームにおける周波数帯域毎にスペクトルパワーの分布を求め、該周波数帯域毎に、上位一定割合のスペクトルパワーの平均値を算出する音声情報推定手段と、
    前記周波数帯域毎の前記平均値と前記スペクトルパワーとの差に基づいて、前記フレームに対する抑圧ゲインを算出する抑圧ゲイン算出手段と、
    前記分析部が出力した周波数領域の信号を前記抑圧ゲイン算出手段が算出した抑圧ゲインに基づいて抑圧する抑圧手段と、
    前記抑圧手段により抑圧された周波数領域の信号を時間領域の信号に合成する合成手段と、
    を備えることを特徴とする雑音低減装置。
  2. 更に、前記現在処理対象となっているフレームに対する前記周波数帯域毎のスペクトル雑音を求める雑音推定手段を備え、
    前記抑圧ゲイン算出手段は、前記周波数帯域毎の前記平均値と前記スペクトルパワーとの差、および前記周波数帯域毎の前記平均値と前記スペクトル雑音との差に基づいて、前記フレームに対する抑圧ゲインを算出する
    ことを特徴とする請求項記載の雑音低減装置。
  3. 更に、前記抑圧ゲイン算出手段は、
    前記入力音声信号のスペクトルパワーの分布の下限を、前記平均値から純粋な音声パワーの存在幅を引くことによって算出し、
    前記周波数帯域毎のスペクトル雑音をNとし、雑音判定区間におけるパワーの幅を表す値をλとしたときの両者の和(N+λ)を前記周波数帯域毎に求め、前記現在処理対象となっているフレームを含める或る一定の過去からの監視期間における複数の音声フレーム信号において、各フレームの前記周波数帯域毎のスペクトルパワーが該周波数帯域毎に求めた該和(N+λ)と前記算出した前記入力音声信号のスペクトルパワー分布の下限との間にあるか否かによって、それぞれのフレームに非定常雑音が含まれるかどうかを判定し、前記監視期間に非定常雑音が検出された頻度を前記周波数帯域毎に算出し、
    前記フレームに対する抑圧ゲインを算出する際に、前記頻度の値が大きいほど抑圧ゲインを小さくする関数を前記周波数帯域毎に用いて算出することを特徴とする請求項2記載の雑音低減装置。
  4. 入力音声信号の1フレーム分を周波数分析して周波数領域の信号に変換して出力する分析部を用いて雑音を低減する雑音低減方法であって、
    現在処理対象となっているフレームにおける周波数帯域毎のスペクトルパワーの分布を求め、
    該周波数帯域毎に、上位一定割合のスペクトルパワーの平均値を算出し、
    前記周波数帯域毎の前記平均値と前記スペクトルパワーとの差に基づいて、前記フレームに対する抑圧ゲインを算出し、
    前記分析部が出力した周波数領域の信号を、前記抑圧ゲインに基づいて抑圧し、
    前記抑圧ゲインに基づいて抑圧された周波数領域の信号時間領域の信号合成する、
    ことを特徴とする雑音低減方法。
  5. 請求項4に記載の雑音低減方法において、
    更に、前記現在処理対象となっているフレームに対する前記周波数帯域毎のスペクトル雑音を求め、
    前記抑圧ゲインの算出では、前記周波数帯域毎の前記平均値と前記スペクトルパワーとの差、および前記周波数帯域毎の前記平均値と前記スペクトル雑音との差に基づいて、前記フレームに対する抑圧ゲインを算出する、
    ことを特徴とする雑音低減方法。
  6. 請求項5に記載の雑音低減方法において、更に、
    前記入力音声信号のスペクトルパワーの分布の下限を、前記平均値から純粋な音声パワーの存在幅を引くことによって算出し、
    前記周波数帯域毎のスペクトル雑音をNとし、雑音判定区間におけるパワーの幅を表す値をλとしたときの両者の和(N+λ)を前記周波数帯域毎に求め、前記現在処理対象となっているフレームを含める或る一定の過去からの監視期間における複数の音声フレーム信号において、各フレームの前記周波数帯域毎のスペクトルパワーが該周波数帯域毎に求めた該和(N+λ)と前記算出した前記入力音声信号のスペクトルパワー分布の下限との間にあるか否かによって、それぞれのフレームに非定常雑音が含まれるかどうかを判定し、前記監視期間に非定常雑音が検出された頻度を前記周波数帯域毎に算出し、
    前記フレームに対する抑圧ゲインを算出する際に、前記頻度の値が大きいほど抑圧ゲインを小さくする関数を前記周波数帯域毎に用いて算出することを特徴とする雑音低減方法。
JP2003404595A 2003-12-03 2003-12-03 雑音低減装置、および低減方法 Expired - Fee Related JP4520732B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003404595A JP4520732B2 (ja) 2003-12-03 2003-12-03 雑音低減装置、および低減方法
EP04011801A EP1538603A3 (en) 2003-12-03 2004-05-18 Noise reduction apparatus and noise reducing method
US10/851,701 US7783481B2 (en) 2003-12-03 2004-05-20 Noise reduction apparatus and noise reducing method
CNB2004100465895A CN1302462C (zh) 2003-12-03 2004-06-11 降噪装置和降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003404595A JP4520732B2 (ja) 2003-12-03 2003-12-03 雑音低減装置、および低減方法

Publications (2)

Publication Number Publication Date
JP2005165021A JP2005165021A (ja) 2005-06-23
JP4520732B2 true JP4520732B2 (ja) 2010-08-11

Family

ID=34463978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003404595A Expired - Fee Related JP4520732B2 (ja) 2003-12-03 2003-12-03 雑音低減装置、および低減方法

Country Status (4)

Country Link
US (1) US7783481B2 (ja)
EP (1) EP1538603A3 (ja)
JP (1) JP4520732B2 (ja)
CN (1) CN1302462C (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060018457A1 (en) * 2004-06-25 2006-01-26 Takahiro Unno Voice activity detectors and methods
US20060184363A1 (en) * 2005-02-17 2006-08-17 Mccree Alan Noise suppression
CA2604210C (en) * 2005-04-21 2016-06-28 Srs Labs, Inc. Systems and methods for reducing audio noise
CN100419854C (zh) * 2005-11-23 2008-09-17 北京中星微电子有限公司 一种语音增益因子估计装置和方法
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8041026B1 (en) 2006-02-07 2011-10-18 Avaya Inc. Event driven noise cancellation
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US8417518B2 (en) 2007-02-27 2013-04-09 Nec Corporation Voice recognition system, method, and program
KR101009854B1 (ko) * 2007-03-22 2011-01-19 고려대학교 산학협력단 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
WO2009017392A1 (en) * 2007-07-27 2009-02-05 Vu Medisch Centrum Noise suppression in speech signals
US8374851B2 (en) * 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
JP5453740B2 (ja) 2008-07-02 2014-03-26 富士通株式会社 音声強調装置
JP5526524B2 (ja) * 2008-10-24 2014-06-18 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
US8738367B2 (en) * 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
EP2444966B1 (en) * 2009-06-19 2019-07-10 Fujitsu Limited Audio signal processing device and audio signal processing method
KR101624652B1 (ko) 2009-11-24 2016-05-26 삼성전자주식회사 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치, 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
JP5672770B2 (ja) * 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
CN102918592A (zh) * 2010-05-25 2013-02-06 日本电气株式会社 信号处理方法、信息处理设备和信号处理程序
CN101930746B (zh) * 2010-06-29 2012-05-02 上海大学 一种mp3压缩域音频自适应降噪方法
JP5589631B2 (ja) 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
JP2013541741A (ja) 2010-11-09 2013-11-14 カリフォルニア インスティチュート オブ テクノロジー 音響抑制システム及び関連方法
EP2615739B1 (en) 2012-01-16 2015-06-17 Nxp B.V. Processor for an FM signal receiver and processing method
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6037437B2 (ja) * 2012-10-11 2016-12-07 Necプラットフォームズ株式会社 電子機器、バックライト点灯制御方法およびプログラム
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6337519B2 (ja) * 2014-03-03 2018-06-06 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
US20170206898A1 (en) * 2016-01-14 2017-07-20 Knowles Electronics, Llc Systems and methods for assisting automatic speech recognition
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备
CN113571047A (zh) * 2021-07-20 2021-10-29 杭州海康威视数字技术股份有限公司 一种音频数据的处理方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340599A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 雑音除去装置
JPH05204395A (ja) * 1991-04-30 1993-08-13 Sharp Corp 音声用利得制御装置および音声記録再生装置
JP2000047697A (ja) * 1998-07-30 2000-02-18 Nec Eng Ltd ノイズキャンセラ
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
JP3437264B2 (ja) 1994-07-07 2003-08-18 パナソニック モバイルコミュニケーションズ株式会社 雑音抑圧装置
JP3269969B2 (ja) 1996-05-21 2002-04-02 沖電気工業株式会社 背景雑音消去装置
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6529868B1 (en) 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
JP3566197B2 (ja) 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
JP4340599B2 (ja) 2004-07-28 2009-10-07 Sriスポーツ株式会社 ゴルフボール
AU2012284111A1 (en) * 2011-07-18 2014-02-06 Massive Health, Inc. Health meter

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204395A (ja) * 1991-04-30 1993-08-13 Sharp Corp 音声用利得制御装置および音声記録再生装置
JPH04340599A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 雑音除去装置
JP2000047697A (ja) * 1998-07-30 2000-02-18 Nec Eng Ltd ノイズキャンセラ
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置

Also Published As

Publication number Publication date
EP1538603A3 (en) 2006-06-28
JP2005165021A (ja) 2005-06-23
CN1624767A (zh) 2005-06-08
US20050143988A1 (en) 2005-06-30
EP1538603A2 (en) 2005-06-08
US7783481B2 (en) 2010-08-24
CN1302462C (zh) 2007-02-28

Similar Documents

Publication Publication Date Title
JP4520732B2 (ja) 雑音低減装置、および低減方法
JP3591068B2 (ja) 音声信号の雑音低減方法
JP5528538B2 (ja) 雑音抑圧装置
JP4836720B2 (ja) ノイズサプレス装置
US8571231B2 (en) Suppressing noise in an audio signal
US8271292B2 (en) Signal bandwidth expanding apparatus
KR101120679B1 (ko) 이득-제한된 잡음 억제
JP5127754B2 (ja) 信号処理装置
US20070232257A1 (en) Noise suppressor
US8521530B1 (en) System and method for enhancing a monaural audio signal
EP1918910A1 (en) Model-based enhancement of speech signals
JP4456504B2 (ja) 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
US9094078B2 (en) Method and apparatus for removing noise from input signal in noisy environment
US20140177853A1 (en) Sound processing device, sound processing method, and program
JP6073456B2 (ja) 音声強調装置
RU2411595C2 (ru) Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
JP3960834B2 (ja) 音声強調装置及び音声強調方法
JP2008309955A (ja) ノイズサプレス装置
JP2014021307A (ja) 音声信号復元装置および音声信号復元方法
JP2002258899A (ja) 雑音抑圧方法および雑音抑圧装置
JP2000276200A (ja) 声質変換システム
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
JP4194749B2 (ja) チャネル利得修正システムと、音声通信における雑音低減方法
JP4413546B2 (ja) 音声信号の雑音低減装置
US8583425B2 (en) Methods, systems, and computer readable media for fricatives and high frequencies detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4520732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees