JP4440937B2 - 暗騒音存在時の音声を改善するための方法および装置 - Google Patents

暗騒音存在時の音声を改善するための方法および装置 Download PDF

Info

Publication number
JP4440937B2
JP4440937B2 JP2006545874A JP2006545874A JP4440937B2 JP 4440937 B2 JP4440937 B2 JP 4440937B2 JP 2006545874 A JP2006545874 A JP 2006545874A JP 2006545874 A JP2006545874 A JP 2006545874A JP 4440937 B2 JP4440937 B2 JP 4440937B2
Authority
JP
Japan
Prior art keywords
frequency
noise
value
frequency band
scaling gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006545874A
Other languages
English (en)
Other versions
JP2007517249A (ja
Inventor
ジェリネック,ミラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2007517249A publication Critical patent/JP2007517249A/ja
Application granted granted Critical
Publication of JP4440937B2 publication Critical patent/JP4440937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Description

本発明は、音声信号を強めて、暗騒音存在時の通信を改善する手法に関する。特に、本発明は、音声信号内の暗騒音のレベルを低減させるためのノイズ低減回路の設計に関するものであるが、これ以外の事項を排除するものではない。
多くの通信システムにおいて暗騒音レベルを低減させることは非常に重要である。例えば、移動電話は、高い暗騒音レベルが存在する多くの環境で利用される。そのような利用環境として、(ますます手を使わなくなってきている)自動車内や街路での利用状況があり、これによって、車両による高レベルの騒音や街路の騒音が存在する中で通信システムの操作を行う必要が生じることになる。テレビ会議およびハンドフリー型のインターネットアプリケーションのようなオフィスでの利用時には、システムは、オフィスの騒音に効率良く対処する必要がある。実際には別のタイプの環境騒音も経験する場合がある。低い信号対雑音比(SNR)での操作を必要とする場合が多い上記のアプリケーションにとって、ノイズ抑制としてやはり知られているノイズの低減すなわち音声強化が重要となる。ノイズ低減は、種々の現実の環境でますます採用されている自動音声認識システムにおいても重要である。ノイズの低減は、上述のアプリケーションで通常用いられる音声符号化アルゴリズムや音声認識アルゴリズムのパフォーマンスを改善することになる。
ノイズ低減のために最も利用される手法の1つとしてスペクトル減算手法がある(エス.エフ.ボル(S.F.Boll)の「スペクトル減算を利用する音声内の音響ノイズの抑制」(IEEE会報、音響、音声、信号処理、巻ASSP−27、第113頁〜第120頁、1979年4月)を参照のこと)。スペクトル減算は、ノイズの多い音声からノイズ推定値の減算を行うことによって音声の短時間スペクトル振幅値の推定を試みるものである。位相歪みが人間の聴覚によって知覚されないという仮説に基づいてノイズの多い音声の位相は処理されない。実際には、スペクトル減算は、ノイズスペクトルとノイズの多い音声スペクトルとの推定値からSNRベースの利得関数を形成することによって実行される。この利得関数に入力スペクトルを乗じて、低いSNRを用いて周波数成分が抑制される。従来方式のスペクトル減算アルゴリズムを利用する上での主要な問題点として、結果として生じる「楽音(musical tones)」からなる音楽的残留ノイズがあり、この残留ノイズはリスナにとってのみならず(音声符号化のような)後続信号処理用アルゴリズムにとっても妨害となる。これらの楽音は主として、スペクトル推定時の分散に起因して生じるものである。この問題に対処するために、スペクトル平滑化ステップが提案され、この結果として低減された分散と分解能とが得られた。楽音を低減させるための別の公知の方法として、スペクトルフロアと組み合わせた過多減算係数を利用する方法がある(エム.ベルーチ(M.Berouti)、アール.シュワルツ(R.Schwartz)およびジェイ.マックホール(J.Makhoul)の「音響ノイズによって損なわれた音声の改善」(IEEE ICASSP会報、ワシントンDC、1979年4月、第208頁〜第211頁)を参照のこと)。この方法には、楽音が十分に低減されたとき、音声が劣化するという欠点がある。別のアプローチとして、ソフト・デシジョン・ノイズ抑制フィルタリング(アール.ジェイ.マックオーリー(R.J.McAulay)およびエム.エル.マルパス(M.L.Malpass)の「ソフトノイズ抑制フィルタを利用する音声の改善」(IEEE会報、音響、音声、信号処理、巻ASSP−28、第137頁〜第145頁、1980年4月)を参照のこと)、および、非線形スペクトル減算(ピー.ロックウッド(P.Lockwood)およびジェイ.バウディ(J.Boudy)の「非線形スペクトル減算回路(NSS)と、隠れマルコフモデルと、投影とを用いた車内でのロバスト(robust)認識のための実験」(音声通信、巻11、第215頁〜第228頁、1992年6月)を参照のこと)を利用する方法もある。
上記問題点を解決するために、本発明の1つの態様では、音声信号のノイズ抑制方法であって、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うステップと、
上記周波数ビンを複数の周波数帯域にグループ化するステップとを有する方法において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする方法が提供される。
本発明の別の態様では、音声信号内のノイズを抑制する装置であって、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする装置が提供される。
本発明のさらなる態様では、ノイズ抑制装置を具備する音声エンコーダであって、上記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声エンコーダが提供される。
本発明のさらに別の態様では、ノイズ抑制装置を具備する自動音声認識システムであって、上記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする自動音声認識システムが提供される。
本発明のさらに別の態様では、ノイズ抑制装置を具備する移動電話であって、上記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする移動電話が提供される。
添付図面と共に添付図面で単に例示として示される本発明の実施例についての以下の本発明を限定するものではない説明を読むときに、本発明の上述の目的およびその他の目的と、利点ならびに特徴はさらに明らかになるであろう。
本明細書では、ノイズ低減のための効率の良い手法が開示される。これらの手法は、少なくとも部分的な臨界帯域における振幅スペクトルの分割と、臨界帯域毎のSNRに基づく利得関数の計算とに基づく手法であり、EVRC音声コーデックで用いられるアプローチと類似した手法である(3GPP2C.S0014−0の「広帯域スペクトラム拡散通信システム用の拡張機能を備えた可変レートコーデック(EVRC)サービスオプション」(3GPP2技術仕様、1999年12月)を参照のこと)。例えば、処理対象の音声フレームの性質に基づいて各種の処理手法を利用する特徴が開示される。無声音フレームでは、帯域毎の処理がスペクトル全体の中で利用される。或る一定の周波数まで有声音が検出されたフレームでは、有声音が検出されたスペクトルの低い部分で周波数ビン毎の処理が利用され、残りの帯域では帯域毎の処理が利用される。暗騒音フレームの場合には、スペクトル全体で同じスケーリング利得値を利用することによって一定のノイズフロアが除去される。さらに、個々の帯域内でのスケーリング利得値の平滑化ステップの手法が開示され、実際のスケーリング利得値に逆比例する平滑化係数を利用して周波数ビンが実行される(平滑化は小さな利得ほど強くなる)。例えば、有声音での立ち上りの場合のように、このアプローチによって低SNRフレームに先行する高いSNR音の部分内の歪みが防止される。
本発明を限定するものではない本発明の1つの態様として、スペクトル減算に基づくノイズ低減用の新規の方法を提供する態様がある。この態様では、ノイズ低減方法は処理対象の音声フレームの性質に依存することになる。例えば、有声音フレームでは、処理は或る一定の周波数未満の周波数ビン毎のベースで実行することも可能である。
ある実施例では、ノイズの低減は音声符号化システムの範囲内で実行され、符号化前に音声信号の暗騒音レベルが低減される。8000サンプル/秒でサンプリングされた狭帯域音声信号もしくは16000サンプル/秒でサンプリングされた広帯域音声信号、または他の任意のサンプリング周波数に関して上記の開示された手法を利用することができる。この実施例で用いられるエンコーダは、AMR−WBコーデック(エス.エフ.ボル(S.F.Boll)の「スペクトル減算を利用する音声内の音響ノイズの抑制」(IEEE会報、音響、音声、信号処理、巻ASSP−27、第113頁〜第120頁、1979年4月)を参照のこと)をベースとするものであり、内部サンプリング変換を利用して、12800サンプル/秒(6.4kHzの帯域で動作)への信号サンプリング周波数変換が行われる。
したがって、本実施例の上記の開示されたノイズ低減手法は、12.8kHzへのサンプリング変換後、狭帯域信号かまたは広帯域信号かのいずれかの信号で動作することになる。
広帯域入力の場合、入力信号は16kHzから12.8kHzまでデシメーション(decimated)を行う必要がある。デシメーションは4だけの第1のアップサンプリングを行い、次いで、6.4kHzで周波数をカットオフするローパスFIRフィルタを介して出力のフィルタリングを行うことによって実行される。次いで、信号は5だけダウンサンプリングされる。フィルタリング遅延時間は16kHzのサンプリング周波数で15サンプルとなる。
狭帯域入力の場合、8kHzから12.8kHzまで信号のアップサンプリングを行う必要がある。このアップサンプリングは8だけの第1のアップサンプリングによって、次いで、6.4kHzのカットオフ周波数を有するローパスFIRフィルタによって出力のフィルタリングを行うことにより実行される。次いで、信号は5だけダウンサンプリングされる。フィルタリング遅延時間は8kHzのサンプリング周波数で8サンプルとなる。
サンプリング変換を行った後、符号化処理プロセス(ハイパスフィルタ処理とプレエンファシス処理)を行う前に2つの前処理関数が信号に適用される。
ハイパスフィルタは、望ましくない低周波成分に対する予防策として機能するものである。本実施例では50Hzのカットオフ周波数のフィルタが使用され、下記の式によって示されている。
Figure 0004440937
プレエンファシス回路では、1次ハイパスフィルタを利用してより高い周波数が強調され、この1次ハイパスフィルタはHpre-emph(z)=1−0.68z-1によって示される。
プレエンファシス回路は、高周波でコーデックのパフォーマンスを改善し、エンコーダで使用されるエラー最小化処理時の聴覚重み付けを改善するためにAMR−WBコーデックの中で用いられる。
本実施例の残り部分では、ノイズ低減アルゴリズムの入力時の信号は12.8kHzサンプリング周波数に変換され、前述のような前処理が行われる。しかし、上記の開示された手法は、前処理を用いて、および、前処理を用いることなく8kHzや16kHzのような別のサンプリング周波数の信号に等しく適用することができる。
以下、ノイズ低減アルゴリズムについて詳細に説明する。ノイズ低減アルゴリズムを利用する音声エンコーダは、12.8kHzサンプリング周波数で256サンプルを含む20msフレームの処理を行う。さらに、コーダはその解析時に将来のフレームから13msの先読みを利用する。ノイズ低減は同じフレームの同期構造に従う。しかし、エンコーダフレーミングとノイズ低減フレーミングとの間に何らかのシフトを導入して、先読みの利用の最大化を図るようにすることが可能である。本説明では、サンプルのインデックスはノイズ低減フレーミングを反映するものである。
図1は、ノイズ低減を含む音声通信システムを概略的に示すブロック図である。ブロック101では、前述の実施例のように前処理が実行される。
ブロック102では、スペクトル分析と音声活性化検出(VAD:voice activity detection)とが実行される。50%のオーバラップ部分を有する20msのウィンドウを利用して、2つのスペクトル分析が個々のフレームで実行される。ブロック103では、ノイズ低減をスペクトルパラメータに適用し、次いで、離散的逆フーリエ変換を利用して強化された信号を変換して、元の時間領域へこの信号を戻す。次いで、オーバラップ追加処理を利用して信号の再構成が行われる。
ブロック104では、線形予測(LP)分析とオープンループピッチ分析とが(通常音声符号化アルゴリズムの一部として)実行される。本実施例では、ブロック104の結果として生じるパラメータを決定時に使用して、臨界帯域でノイズ推定値の更新を行う(ブロック105)。VAD決定はノイズ更新決定として使用することができる。ブロック105で更新されたノイズエネルギ推定値はノイズ低減ブロック103内の次のフレームで利用され、スケーリング利得値が計算される。ブロック106は、強化された音声信号に対して音声符号化を実行する。別のアプリケーションでは、ブロック106を自動音声認識システムとすることができる。ブロック104内の諸機能は、音声符号化アルゴリズムの一体部分にしてもよいことに留意されたい。
スペクトル分析
離散フーリエ変換を利用してスペクトル分析並びにスペクトルエネルギの推定が行われる。50%のオーバラップを用いて256ポイント高速フーリエ変換(FFT)を利用してフレーム毎に2回周波数分析が行われる(図2に例示されているように)。分析ウィンドウが配置され、それによってすべての先読みが利用されることになる。音声エンコーダの現フレームの開始点の24サンプル後に第1のウィンドウの開始点が配置される。第2のウィンドウはさらに128サンプル後に配置される。周波数分析用の入力信号の重み付けを行うために、ハニング(Hanning)ウィンドウ(サインウィンドウに相当する)の平方根が利用されてきた。このウィンドウは、オーバラップ追加方法用として特に好適である(したがって、この特別のスペクトル分析は、スペクトル減算およびオーバラップ追加分析/合成に基づいてノイズ抑制アルゴリズムで利用される)。平方根ハニング・ウィンドウは下記の式によって与えられる。
Figure 0004440937
但し、LFFT=256はFFT分析のサイズである。ウィンドウの1/2のみが計算され、格納されることに留意されたい。というのは、このウィンドウが左右対称(0からLFFT/2まで)であるからである。
(n)は、ノイズ低減フレーム内の第1のサンプルに対応するインデックス0付きの信号を示すものとする(本実施例では、第1のサンプルは、音声エンコーダフレームの開始点から24サンプル多いサンプルである)。双方のスペクトル分析用のウィンドウ化された信号が下記の式の形で得られる。
Figure 0004440937
但し、s′(0)は、現在のノイズ低減フレーム内の第1のサンプルである。
FFTは双方のウィンドウ化された信号に対して実行され、下記のようなフレーム当たり2組のスペクトルパラメータが得られる。
Figure 0004440937
FFTの出力は、XR(k)(k=0...128)およびXI(k)(k=0...127)によって示されるスペクトルの実数部および虚数部を与える。XR(0)は、0Hz(DC)におけるスペクトルに対応し、XR(128)は、6400Hzにおけるスペクトルに対応することに留意されたい。これらのポイントにおけるスペクトルは実数値化され、その後の分析時には通常単に無視される。
FFT分析を行った後、結果として生じるスペクトルは以下の上限値を有するインタバル(周波数帯域範囲0〜6400Hz内の20帯域)を利用して臨界帯域に分割される。
臨界帯域={100.0,20,0.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz
(ディー.ジョンストン(D.Johnston)の「知覚ノイズ基準を利用するオーディオ信号の変換符号化」(IEEEJセレクション、通信分野、巻6、第314頁〜第323頁、1988年2月)を参照のこと)
256ポイントFFTは50Hzの周波数分解能(6400/128)をもたらすことになる。したがって、スペクトルの直流成分を無視した後、臨界帯域毎の周波数ビンの数は、それぞれ、MCB={2、2、2、2、2、2、3、3、3、4、4、5、6、6、8、9、11、14、18、21}となる。
臨界帯域内の平均エネルギは、下記の式に示すように、
Figure 0004440937
として計算される。但し、XR(k)およびXI(k)は、それぞれk番目の周波数ビンの実数部および虚数部であり、jiは、ji={1,3,5,7,9,11,13,16,19,22,26,30,35,41,47,55,64,75,89,107}によって与えられるi番目の臨界帯域における第1の周波数ビンのインデックスである。
第1の17個の臨界帯域(直流成分を除く74ビン)用スペクトル分析モジュールも周波数ビン当たりのエネルギEBIN(k)を計算するモジュールである。このエネルギEBIN(k)は下記の式により得られる。
Figure 0004440937
最後に、双方のFTT分析用スペクトル分析モジュールは、平均臨界帯域ECBによって20msフレーム内の平均総エネルギを計算する。すなわち、或る一定のスペクトル分析用のスペクトルエネルギは下記の式として計算される。
Figure 0004440937
さらに、総フレームエネルギはフレーム内の双方のスペクトル分析のスペクトルエネルギの平均値として計算される。すなわち、下記の式により表される。
t=10*log(0.5(Eframe(0)+Eframe(1))、dB (5)
スペクトル分析モジュールの出力パラメータ、すなわち、臨界帯域毎の平均エネルギと、周波数ビン当たりのエネルギと、総エネルギとは、VADモジュール、ノイズ低減モジュールおよびレート選択モジュールの中で利用される。
8000サンプル/秒でサンプリングされた狭帯域入力用として、12800サンプル/秒でサンプリング変換を行った後、スペクトルの両端部には内容が存在しなくなり、したがって、第1の低周波数臨界帯域並びに最後の3つの高周波数帯域は出力パラメータの計算時に考慮されなくなる(i=1から16までの帯域のみが考慮される)ことに留意されたい。
音声活性状態検出
前述のスペクトル分析はフレーム当たり2回実行される。前述の式(2)により計算されているように、ECB (1)(i)とECB (2)(i)とは、それぞれ第1と第2のスペクトル分析用の臨界帯域情報当たりのエネルギを示すものとする。フレーム全体に対する臨界帯域毎の平均エネルギおよび前回のフレームの一部は下記の式として計算される。
Figure 0004440937
但し、ECB (0)(i)は、前回のフレームの第2の分析から得られる臨界帯域情報当たりのエネルギを示す。次いで、臨界帯域毎の信号対雑音比(SNR)は下記の式として計算される。
SNRCB(i)=Eav(i)/NCB(i)(SNRCB≧1により規定される) (7)
但し、NCB(i)は、次のセクションで説明することになるような臨界帯域毎の推定されるノイズエネルギである。次いで、フレーム当たりの平均SNRは、下記の式として計算される。
Figure 0004440937
但し、広帯域信号の場合、bmin=0かつbmax=19で、狭帯域信号の場合、bmin=1かつbmax=16である。
音声活性状態は、長期SNRの関数である或る一定のしきい値とフレーム当たりの平均SNRとを比較することによって検出される。長期SNRは下記の式によって与えられる。
Figure 0004440937
但し、/Eと/N(本来なら上記の式(9)のように、EやN等の上部に横線を引いて表すべきであるが、現行の電子出願形式では不可能なため、以後、EやN等の左側の部分に/を添付して表すこととする)は、それぞれ、後程説明する式(12)と式(13)とを利用して計算される。/Nの初期値は45dBである。
しきい値は長期SNRの区分一次関数である。2つの関数が利用され、1つの関数はノイズのない音声用の関数であり、1つの関数はノイズの多い音声用の関数である。
広帯域信号の場合、SNRLT<35(ノイズの多い音声)ならば、
thVAD=0.4346SNRLT+13.9575
そうでない(ノイズのない音声の)場合には、
thVAD=1.0333SNRLT−7
狭帯域信号の場合、SNRLT<29.6(ノイズの多い音声)ならば、
thVAD=0.313 SNRLT+14.6
そうでない(ノイズのない音声の)場合には、
thVAD=1.0333 SNRLT−7
さらに、VAD決定時のヒステリシスを活性音声の終了時に追加して、頻繁な切替えを防止する。フレームがソフトハングオーバ期間にある場合に、あるいは、最後のフレームが活性音声フレームである場合に、上記ヒステリシスが印加される。ソフトハングオーバ期間は、2個の連続フレームよりも長い個々の活性音声バースト後の第1の10個のフレームから構成される。ノイズの多い音声(SNRLT<35)の場合、上記ヒステリシスはVAD決定しきい値を下げることになる。
thVAD=0.95thVAD
ノイズのない音声の場合、ヒステリシスは下記の式分だけVAD決定しきい値を下げることになる。
thVAD=thVAD−11
フレーム当たりの平均SNRがVAD決定しきい値よりも大きければ、すなわち、SNRav>thVADならば、フレームは活性音声フレームと宣言され、VADフラグとローカルのVADフラグとは1に設定される。フレーム当たりの平均SNRがVAD決定しきい値よりも大きくなければ、VADフラグとローカルのVADフラグとは0に設定される。しかし、ノイズの多い音声の場合、フレーム内でのハードハングオーバ時に、VADフラグは1まで変化する。すなわち、1つまたは2つの非活性フレームが2つの連続フレームよりも長い音声時間の後に続くことになる(この場合に、ローカルのVADフラグは0に等しくなるが、VADフラグは1まで変化する)。
第1のレベルのノイズ推定と更新
本セクションでは、総ノイズエネルギ、相対フレームエネルギ、長期平均ノイズエネルギと長期平均フレームエネルギとの更新値、および、臨界帯域毎の平均エネルギ並びに騒音補正係数が計算される。さらに、ノイズエネルギの初期化と下方への更新とが行われる。
フレーム当たりの総ノイズエネルギは下記の式によって与えられる。
Figure 0004440937
但し、NCB(i)は臨界帯域毎の推定ノイズエネルギである。
フレームの相対エネルギは、dBの形でのフレームエネルギと長期平均エネルギとの間の差分によって与えられる。相対フレームエネルギは下記の式によって与えられる。
Figure 0004440937
但し、Etは前述の式(5)で与えられる。
長期平均ノイズエネルギまたは長期平均フレームエネルギは、すべてのフレームで更新される。活性音声フレームの場合(VADフラグ=1)、長期平均フレームエネルギは下記の関係式を利用して更新される。
Figure 0004440937
この場合、初期値/Ef=45dBを用いる。
非活性音声フレーム(VADフラグ=0)の場合、長期平均ノイズエネルギは下記の式によって更新される。
Figure 0004440937
/Nfの初期値は、第1の4つのフレームに対してNtotに等しく設定される。さらに、第1の4つのフレームでは、/Efの値には/Ef≧/Ntot+10という制限がある。
臨界帯域毎のフレームエネルギ、ノイズ初期化、および、下方へのノイズ更新
フレーム全体の臨界帯域毎のフレームエネルギはフレーム内の双方のスペクトル分析からエネルギを平均化することによって計算される。すなわち、下記の式により計算される。
Figure 0004440937
臨界帯域毎のノイズエネルギNCB(i)は最初0.03に初期化される。しかし、第1の5個のサブフレームで、信号エネルギが高すぎないか、信号が強い高周波成分を持たなければ、臨界帯域毎のエネルギを利用して、ノイズエネルギの初期化が行われ、これによって、処理の当初の開始点からノイズ低減アルゴリズムを効率の良いものにすることが可能となる。2つの高い周波数比が計算される。r15,16は、臨界帯域15と16の平均エネルギと、第1の10個の帯域での平均エネルギとの間の比率(双方のスペクトル分析の平均値)であり、帯域18と19とがなければr18,19は同じである。
第1の5個のフレームにおいて、Et<49かつr15,16<2かつr18,19<1.5ならば、最初の3個のフレームに対して、下記の式が得られる。
Figure 0004440937
さらに、次の2つのフレームに対して、NCB(i)は下記の式によって更新される。
Figure 0004440937
以下のフレームに対して、この段階で、臨界帯域用の下方へのノイズエネルギ更新が実行され、これによって、エネルギは暗騒音エネルギ未満となる。第1に、一時的に更新されたノイズエネルギは下記の式として計算される。
Figure 0004440937
但し、ECB (0)(i)は前回のフレームからの第2のスペクトル分析に対応する。
次いで、i=0から19について、Ntmp(i)<NCB(i)ならば、NCB(i)=Ntmp(i)となる。
その後、フレームを非活性フレームとして宣言した場合、NCB(i)=Ntmp(i)と設定することによって第2のノイズ更新レベルが実行される。ノイズエネルギ更新値を2つの部分に分割する(fragment)理由として、ノイズ更新が非活性音声フレーム中にのみ実行可能であり、したがって、音声活性状態の決定に必要なすべてのパラメータを必要とするという点が挙げられる。しかし、これらのパラメータはLP予測分析とオープンループピッチ分析とに依存し、脱ノイズ化(denoised)音声信号に対して実行される。可能なかぎり正確なノイズ推定値を取得するノイズ低減アルゴリズム用として、ノイズ低減の実行前にノイズ推定更新値を下方へ更新し、次いで、フレームが不活性であれば、ノイズ推定更新値は後程上方へ更新する。下方へのノイズ更新は安全であり、この更新は音声活性状態に左右されずに行うことが可能である。
ノイズ低減
信号領域に対してノイズ低減処理を適用し、オーバラップと追加とを利用して脱ノイズ化信号の再構成が行われる。低減処理は、gminと1との間に制限値を設けたスケーリング利得値であって、当該臨界帯域における信号対雑音比(SNR)から導き出したスケーリング利得値を用いて、個々の臨界帯域においてスペクトルのスケーリングを行うことにより実行される。ノイズ抑制における新たな特徴として、信号の有声化に関係する或る一定の周波数よりも低い周波数に対して、周波数ビン毎のベースで処理を実行し、臨界帯域ベースでは実行しないという特徴が挙げられる。このようにして、当該周波数ビン内のSNRから導き出されるすべての周波数ビンに対してスケーリング利得値が印加されることになる(SNRは、当該ビンを含む臨界帯域のノイズエネルギによって分割されたビンエネルギを利用して計算される)。この新たな特徴によって、歪みを防止するために高調波間でノイズを強く低減させながら、高調波近くの周波数でエネルギを保持することが可能となる。有声信号に対してのみ、そして、利用される周波数分析の周波数分解能が与えられている場合に、相対的に短いピッチ周期を有する信号に対して上記特徴を利用することが可能となる。しかし、正確に言えば、これらの信号は高調波間のノイズを最も知覚できる信号である。
図3は、開示された処理手順の概観を示す図である。ブロック301でスペクトル分析が実行される。ブロック302は、有声臨界帯域の数が0よりも大きいかどうかを検証するブロックである。この場合、第1の有声のK個の帯域でビン毎の処理を実行するブロック304でノイズ低減処理手順が実行され、残りの帯域で帯域毎の処理が実行される。K=0ならば、帯域毎の処理がすべての臨界帯域に適用される。後程説明するように、スペクトルに対するノイズ低減処理を行った後、ブロック305は逆DFT分析を実行し、オーバラップ追加処理を利用して強化された音声信号を再構成する。
最小のスケーリング利得値gminが、最大の許されるノイズ低減値(NRmax)からdBで導き出される。この最大の許されるノイズ低減値は、14dBのデフォルト値を有する。したがって、最小のスケーリング利得値は下記の式によって与えられることになる。
Figure 0004440937
そして、この最小のスケーリング利得値は14dBのデフォルト値として0.19953に等しくなる。
VAD=0の非活性フレームの場合、同じスケーリングがスペクトル全体にわたって適用され、ノイズ抑制が活性状態になった場合(gminが1よりも低い場合)、このスケーリングはgs=0.9gminによって示される。すなわち、スペクトルのスケーリングがなされた実数成分と虚数成分とは下記の式によって与えられる。
Figure 0004440937
狭帯域入力用として前述の式(19)での上限値が79に設定される(3950Hzまで)ことに留意されたい。
活性フレームの場合、臨界帯域毎のSNRと関係して、あるいは、第1の有声帯域用として周波数ビン毎にスケーリング利得値が計算される。KVOIC>0の場合、ビン毎のノイズ抑制は第1のKVOIC帯域で実行される。帯域毎のノイズ抑制が残りの帯域に対して利用される。KVOIC=0の場合、帯域毎のノイズ抑制がスペクトル全体に対して利用される。後程説明するように、KVOICの値が更新される。KVOICの最大値は17であり、したがって、3700Hzの最大周波数に対応する第1の17個の臨界帯域に対してのみ周波数ビン毎の処理を適用することが可能となる。周波数ビン毎の処理を利用できる対象となる周波数ビンの最大数は74(第1の17の帯域内のビンの数)である。例外として、本セクションで後程説明するハードハングオーバフレームの場合がある。
代替実施例では、KVOICの値を固定値にすることも可能である。この場合、すべてのタイプの音声フレームで、或る一定の帯域まで周波数ビン毎の処理が実行され、帯域毎の処理が別の帯域に適用される。
或る一定の臨界帯域内の、あるいは、或る一定の周波数ビンに対するスケーリング利得値がSNRの関数として計算され、下記の式によって与えられる。
(gs2=ksSNR+cs (gmin≦gs≦1) (20)
SNR=1に対してgs=gmin、SNR=45に対してgs=1のようにして、ksとcsの値が決定される。すなわち、1dB以下のSNRに対してはスケーリングをgsに限定し、45dB以上のSNRに対しては所定の臨界帯域内ではノイズ抑制は実行されない(gs=1)。したがって、これら2つのエンドポイントが与えられれば、前述の式(20)内のksとcsの値は下記の式によって与えられる。
Figure 0004440937
前述の式(20)内の変数SNRは、処理のタイプに応じて、臨界帯域毎のSNR(SNRCB(i))か、周波数ビン毎のSNR(SNRBIN(k))かのいずれかになる。
フレーム内の第1のスペクトル分析の場合、臨界帯域毎のSNRは下記の式として計算される。
Figure 0004440937
そして、第2のスペクトル分析の場合、SNRは下記の式として計算される。
Figure 0004440937
但し、ECB (1)(i)とECB (2)(i)とは、それぞれ、(前述の式(2)で計算されるような)第1および第2のスペクトル分析に対する臨界帯域情報毎のエネルギを示し、ECB (0)(i)は、前回のフレームの第2の分析から得られる臨界帯域情報毎のエネルギを示し、NCB(i)は臨界帯域毎のノイズエネルギ推定値を示す。
第1のスペクトル分析の場合、フレーム内の或る一定の臨界帯域iでの臨界ビン毎のSNRは下記の式として計算される。
Figure 0004440937
そして、第2のスペクトル分析の場合、SNRは下記の式として計算される。
Figure 0004440937
但し、EBIN (1)(k)とEBIN (2)(k)とは、それぞれ、(前述の式(3)で計算されているような)第1および第2のスペクトル分析用の周波数毎のエネルギを示し、EBIN (0)(k)は前回のフレームの第2の分析から得られる周波数毎のエネルギを示し、NCB(i)は臨界帯域毎のノイズエネルギ推定値を示す。jiはi番目の臨界帯域における第1の周波数ビンのインデックスであり、MCB(i)は、上記で定義された臨界帯域iでの周波数ビンの数である。
インデックスiを有する帯域用の臨界帯域毎の処理の場合、前述の式(22)の場合のようにスケーリング利得値を決定した後、そして、前述の式(24)または式(25)に定義されるようにSNRを利用して、周波数毎の分析時に更新される平滑化済みのスケーリング利得値を利用して、実際のスケーリングが実行される。
BIN,LP(i)=αgsBIN,LP(i)+(1−αgs)gs (26)
本発明では、平滑化係数が適応型の係数となり、上記利得自身に逆比例する関係になる新規な特徴が開示される。本実施例では、平滑化係数はαgs=1−gsによって示される。すなわち、平滑化ステップは小さなgsに対するほど強くなる。このアプローチによって、有声音での立ち上りの場合のように低いSNRフレームに先行する高いSNR音の部分での歪みが防止されることになる。例えば、無声の音声フレームでは、SNRが低くなるため、強いスケーリング利得値を利用して、スペクトル内のノイズの低減が図られることになる。有声音での立ち上りが無声音フレームに後続する場合、SNRはより高い比率になり、利得平滑化ステップがスケーリング利得値の迅速な更新を防止する場合、強いスケーリングが、良好でないパフォーマンスを結果としてもたらすことになる有声音での立ち上り時に利用されることが予想される。提案されたアプローチでは、平滑化処理手順は、立ち上り時に低いスケーリング利得値を迅速に適合させ、このスケーリング利得値を利用することが可能となる。
臨界帯域でのスケーリングは下記の式として実行される。
Figure 0004440937
但し、jiは、臨界帯域iにおける第1の周波数ビンのインデックスであり、MCB(i)は当該臨界帯域内の周波数ビンの数である。
前述の式(20)に記載のように、インデックスiを持つ帯域内の周波数ビン毎の処理の場合、スケーリング利得値を決定し、前述の式(24)または(25)に定義されているようにSNRを利用した後、周波数分析毎に更新される平滑化済みのスケーリング利得値を利用して、実際のスケーリングが下記の式として実行される。
BIN,LP(k)=αgsBIN,LP(k)+(1−αg)gs (28)
但し、前述の式(26)の場合と同様、αgs=1−gs
利得の時間的平滑化ステップによって、可聴エネルギの発振が防止され、一方、例えば、有声音での立ち上りの場合のように、αgsを利用する平滑化制御ステップによって、低SNRフレームに先行する高いSNR音の部分内の歪みが防止される。
臨界帯域iにおけるスケーリングは下記の式として実行される。
Figure 0004440937
但し、jiは、臨界帯域i内の第1のビンのインデックスであり、MCB(i)は当該臨界帯域内のビンの数である。
平滑化済みのスケーリング利得値gBIN,LP(k)とgBIN,LP(i)とは最初1に設定される。非活性フレームが処理される度に(VAD=0)、平滑化された利得値が前述の式(18)で定義されたgminにリセットされる。
前述のように、KVOIC>0ならば、周波数ビン毎のノイズ抑制が第1のKVOICの帯域に対して実行され、前述の処理手順を利用して帯域毎のノイズ抑制が残りの帯域に対して実行される。すべてのスペクトル分析では、平滑化済みのスケーリング利得値gBIN,LP(i)がすべての臨界帯域に対して更新されることに留意されたい(周波数ビン毎の処理によって処理される有声化帯域の場合であっても、このケースでは、gBIN,LP(i)が帯域iに属するgBIN,LP(k)の平均値を用いて更新される)。同様に、スケーリング利得値gBIN,LP(k)は第1の17の帯域ですべての周波数ビンに対して更新される。帯域毎の処理を用いる処理帯域の場合、これら17の特定の帯域内でスケーリング利得値gBIN,LP(k)をgBIN,LP(i)に等しく設定することによって更新される。
ノイズのない音声の場合、ノイズ抑制が活性音声フレームでは実行されないことに留意されたい(VAD=1)。これはすべての臨界帯域で最大ノイズエネルギを発見することによって検出される。 max(NCB(i))、 i=0,...,19、そして、この値が15以下の場合、ノイズ抑制は実行されない。
上述のように、非活性フレーム(VAD=0)に対して、0.9gmimのスケーリングがスペクトル全体に適用され、これは、一定のノイズフロアの除去に相当する。VADの短いハングオーバフレームに対して(VAD=1かつローカルのVAD=0)、帯域毎の処理が前述のように第1の10の帯域に対して適用され(1700Hzに対応)、次いで、スペクトルの残り部分に対して定数値gminによって残りのスペクトルのスケーリングを行うことによって一定のノイズフロアが減算される。この測定ステップによって、高周波数ノイズエネルギ発振が大幅に低減される。10番目の帯域以上のこれらの帯域に対しては、平滑化済みのスケーリング利得値gBIN,LP(i)はリセットされず、gs=gminで前述の式(26)を利用して更新が行われ、周波数ビン毎の平滑化済みのスケーリング利得値gBIN,LP(k)が、これらのスケーリング利得値をgBIN,LP(i)に等しく設定することによって更新される。
前述の処理手順は、低減アルゴリズムが処理対象の音声フレームの性質に依存するクラス固有のノイズ低減処理と理解することができる。これは図4に例示されている。ブロック401は、VADフラグが0(不活性音声)であるかどうかを検証するブロックである。VADフラグが0であれば、スペクトル全体に同じスケーリング利得値を印加することによって、スペクトルから一定のノイズフロアが除去される(ブロック402)。VADフラグが0でなければ、ブロック403は、フレームがVADハングオーバフレームであるかどうかの検証を行う。フレームがVADハングオーバフレームであれば、第1の10個の帯域内で帯域毎の処理が利用され、残りの帯域では同じスケーリング利得値が利用される(ブロック406)。フレームがVADハングオーバフレームでなければ、ブロック405はスペクトルの形で第1の帯域内で有声化が検出されたかどうかを検証する。有声化が検出された場合、第1のK個の有声化帯域でビン毎の処理が実行され、帯域毎の処理が残りの帯域で実行される(ブロック406)。有声帯域が検出されなかった場合、すべての臨界帯域で帯域毎の処理が実行されることになる(ブロック407)。
(12800Hzまでアップサンプリングされる)狭帯域信号の処理の場合、ノイズ化された抑制が第1の17個の帯域に対して実行される(3700Hzまで)。3700Hzと4000Hz間の残りの5個の周波数ビンの場合、スペクトルは3700Hzでビンにおける最後のスケーリング利得値gsを利用してスケールされる。スペクトルの残り部分(4000Hzから6400Hzまで)に対しては、スペクトルはゼロになる。
脱ノイズ化信号の再構成
スケーリングされたスペクトル成分XR(k)とX’I(k)の決定後、逆FFTがスケーリングされたスペクトルに適用され、下記の式に示すように、時間領域においてウィンドウ化された脱ノイズ化信号が取得される。
Figure 0004440937
上記処理がフレーム内の双方のスペクトル分析用として反復されて、脱ノイズ化されたウィンドウ化信号xw,d (1)(n)とxw,d (2)(n)とが取得される。1/2フレーム毎に、オーバラップ追加処理を利用して、分析のオーバラップ部分に対する信号の再構成が行われる。平方ハニング・ウィンドウがスペクトル分析より前に原信号に対して用いられるため、同じウィンドウがオーバラップ追加処理より前に逆FFTの出力側で適用される。したがって、2倍のウィンドウ化された脱ノイズ化信号が下記の式によって与えられることになる。
Figure 0004440937
分析ウィンドウの第1の半分に対して、脱ノイズ化信号を構成するためのオーバラップ追加処理が下記の式として実行される。
Figure 0004440937
次いで、分析ウィンドウの第2の半分に対して、脱ノイズ化信号を構成するオーバラップ追加処理が下記の式として実行される。
Figure 0004440937
但し、xw,d (0)(n)は、前回のフレームでの第2の分析から得られる2倍のウィンドウ化された脱ノイズ化信号である。
オーバラップ追加処理と共に、音声エンコーダフレームとノイズ低減フレームとの間に24サンプルのシフトが存在するため、本フレームに加えて先読みから24サンプルまで脱ノイズ化信号の再構成が可能であることに留意されたい。しかし、線形予測(LP)分析とオープンループピッチ分析とのための音声エンコーダによる先読みの終了のためには、別の128サンプルがまだ必要となる。この部分は、オーバラップ追加処理を実行することなく脱ノイズ化されたウィンドウ化信号xw,d (2)(n)の第2の半分の逆ウィンドウ操作を行うことによって一時的に取得される。すなわち、下記の式により表される。
Figure 0004440937
信号の当該部分は、オーバラップ追加処理の利用時に次のフレームで適正に再計算されることに留意されたい。
ノイズエネルギ推定値更新
このモジュールは、ノイズ抑制用として臨界帯域毎のノイズエネルギ推定値を更新するものである。更新は不活性発話時間中に実行される。しかし、臨界帯域毎のSNRに基づいて上記で実行されるVAD決定は、ノイズエネルギ推定値を更新するかどうかの決定には用いられない。別の決定が、臨界帯域毎のSNRに依存しない別のパラメータに基づいて実行される。ノイズ更新決定用として使用されるパラメータには、以下の、ピッチ安定性、信号の非静的状態、有声化、および、2次LP線形予測残差エネルギと16次LP線形予測残差エネルギとの間の比率パラメータがあり、一般に低感度のノイズレベルの変動を有する。
ノイズ更新用のエンコーダVADの決定を利用しない理由として、ノイズレベルを敏速に変更するためにノイズ推定をロバストなものにするという理由がある。エンコーダのVADの決定がノイズ更新に利用された場合、ノイズレベルの突然の上昇が、非活性音声フレームに対してさえもSNRの上昇を引き起こす原因になり、ノイズ推定装置の更新を妨げることになり、これが、今度は、次のフレームでSNRを高く維持することになる、等々。したがって、ノイズ更新が阻止されることになり、別の何らかの論理回路がノイズの適合化を再開する必要が生じることになる。
本実施例では、オープンループピッチ分析がエンコーダで実行され、3つのオープンループピッチ推定値が、第1のハーフフレーム、第2のハーフフレームおよび先読みにそれぞれ対応してフレーム:d0、d1、d2毎に計算される。ピッチ安定性カウンタは下記の式として計算される。
pc=|d0−d-1|+|d1−d0|+|d2−d1| (31)
但し、d-1は、前回のフレームの第2のハーフフレームの通信のタイムラグである。本実施例では、122よりもさらに大きなピッチラグ用として、オープンループピッチ探索モジュールがd2=d1を設定する。したがって、このような通信のタイムラグに対して、前述の式(31)のpcの値に3/2を乗じて、数式の欠落している第3項の補正が行われる。ピッチ安定性はpcの値が12未満であれば、真となる。さらに、低い有声化用フレームに対して、pcを12に設定して、ピッチの不安定性を示す。
すなわち、下記の式により表される。
(cnorm(d0)+cnorm(d1)+cnorm(d2))/3+re<0.7ならば、pc=12 (32)
但し、cnorm(d)は生の正規化相関値であり、reは、低減値を補正するために、暗騒音の存在時の正規化相関値に追加されるオプションの補正値である。本実施例では、デシメーションを受けた重み付き音声信号swd(n)に基づいて正規化相関値が計算され、下記の式によって与えられる。
Figure 0004440937
但し、加重制限値は自身の遅延時間に依存する。本実施例では、オープンループピッチ分析で使用する重み付き信号に対して2だけデシメーションが行われ、加重制限値は、下記の式に従って与えられる。
d=10,...,16の場合Lsec=40
d=17,...,31の場合Lsec=40
d=32,...,61の場合Lsec=62
d=62,...,115の場合Lsec=115
信号の非静的状態推定値は、臨界帯域毎のエネルギと臨界帯域毎の平均長期エネルギとの間の比率の積に基づいて実行される。
臨界帯域毎の平均長期エネルギは下記の式によって更新される。
Figure 0004440937
但し、広帯域信号の場合、bmin=0かつbmax=19であり、狭帯域信号の場合、bmin=1かつbmax=16であり、/ECB (i)は、前述の式(14)で定義される臨界帯域毎のフレームエネルギである。更新係数αeは総フレームエネルギの一次関数であり、前述の式(5)で定義され以下のように与えられる。
広帯域信号の場合、αe=0.0245Etot−0.235 (0.5≦αe≦0.99)
狭帯域信号の場合、αe=0.00091Etot+0.3185(0.5≦αe≦0.999)
フレームの非静的状態は、フレームエネルギと臨界帯域毎の平均長期エネルギとの間の比率の積によって与えられる。すなわち、下記の式により表される。
Figure 0004440937
ノイズ更新の有声化係数(voicing)は下記の式によって与えられる。
voicing=(cnorm(d0)+cnorm(d1))/2+re (35)
最後に、2次および16次の分析後のLP残留エネルギとの間の比率は、下記の式によって与えられる。
resid_ratio=E(2)/E(16) (36)
但し、E(2)およびE(16)は、2次および16次の分析後のLP残留エネルギであり、当業者にとっては周知のレヴィンソン−ダービン漸化式(Levinson-Durbin recursion)で計算される。この比率は、信号スペクトル包絡を表すためには、一般に、より高次のLPの方がノイズ用の音声信号にとって必要であるという事実を反映する比率である。言い換えれば、 E(2)とE(16)との間の差分はノイズ用の活性音声用の場合よりも低くなるように仮定されている。
更新値の決定は、当初6に設定される可変ノイズ更新値に基づいて行われ、非活性フレームが検出された場合、1だけ減少し、活性フレームが検出された場合、2だけ増分する。さらに、ノイズ更新値は0と6によって制限される。ノイズエネルギはnoise_update=0のときにのみ更新される。
可変ノイズの更新値は、個々のフレームにおいて以下のように更新される。
(nonstat>thstat)または(pc<12)(有声化>0.85)または(resid_ratio>thresid)の場合、
noise_update=noise_update+2
そうでない場合には、
noise_update=noise_update−10
但し、広帯域信号に対して、thstat=350000かつthresid=1.9、および、狭帯域信号に対して、thstat=500000かつthresid=11
言い換えれば、(nonstat≦thstat)かつ(pc≧12)(有声化≦0.85)かつ(resid_ratio≦thresid)、かつ、ノイズ更新が行われる前に6個のフレームのハングオーバが使用されるとき、フレームはノイズ更新に対して不活性と宣言される。
したがって、noise_update=0ならば、
i=0...19に対して、NCB(i)=Ntmp(i)になる。但し、Ntmp(i)は、前述の式(17)ですでに計算された一時的に更新されたノイズエネルギである。
有声化カットオフ周波数の更新値
それ未満の周波数の信号が有声音であると見なされるカットオフ周波数が更新される。この周波数を利用して臨界帯域の数が決定され、この臨界帯域に対して周波数ビン毎の処理を利用してノイズ抑制が実行される。
第1に有声音測定値が下記の式として計算される。
g=0.4cnorm(d1)+0.6cnorm(d2)+re (37)
そして、有声化カットオフ周波数が下記の式によって与えられる。
Figure 0004440937
次いで、fcを上回らない上位周波数を有する臨界帯域の数、Kvoicが決定される。325≦fc≦3700の境界周波数が、最小値3の帯域と最大値17の帯域とで周波数ビン毎の処理が実行されるように設定される(上記の定義された臨界帯域上限値を意味する)。有声音測定値計算時に、先読みの正規化相関に対してさらなる重み付けが与えられることに留意されたい。というのは、所定数の有声帯域が次のフレームで使用されることになるからである。
したがって、上記に記載のように、次のフレームで、第1のKvoic臨界帯域に対して、ノイズ抑制は周波数ビン毎の処理を利用することになる。
低い有声化を用いたフレームの場合、および、大きなピッチ遅延時間の場合、臨界帯域毎の処理のみが利用され、この結果KVOICが0に設定されることに留意されたい。以下の条件は次の場合に用いられる。
(0.4cnorm(d1)+06Cnorm(d2)≦0.72)または(d1>116)または(d2>116)ならば、k=0
いうまでもなく、他に多くの修正および変更例が可能である。以上述べたような本発明の実施形態についての詳細な説明例および関連図面に鑑みて、上記のような他の修正および変更例は当業者にとっては明らかにである。また一方で、自明なことであるが、本発明の精神と範囲から逸脱することなく、上記のような他の変更例を実施することも可能である。
ノイズ低減を含む音声通信システムを概略的に示すブロック図である。 スペクトル分析時のウィンドウ操作を例示する図である。 ノイズ低減アルゴリズムの実施例の概観図である。 クラスを特定するノイズ低減の実施例を概略的に示すブロック図であって、ノイズ低減アルゴリズムが処理対象の音声フレームの性質に依存するブロック図である。

Claims (83)

  1. 音声信号のノイズ抑制方法であって、
    複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うステップと、
    前記周波数ビンを複数の周波数帯域にグループ化するステップとを有する方法において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声信号のノイズ抑制方法。
  2. 周波数帯域の前記第1の数が、有声化された周波数帯域の前記第1の数に従って決定される請求項1に記載の方法。
  3. それ未満の周波数の信号が有声音であると見なされる有声化カットオフ周波数に関して、周波数帯域の前記第1の数を決定する請求項1に記載の方法。
  4. 周波数帯域の前記第1の数が、前記音声信号のすべての周波数帯域を含み、前記すべての周波数帯域が前記有声化カットオフ周波数を上回らない上位周波数を有する請求項3に記載の方法。
  5. 周波数帯域の前記第1の数が所定の固定数である請求項1に記載の方法。
  6. 前記音声信号の周波数帯域が有声化されていない場合、すべての周波数帯域に対して周波数帯域毎のベースでノイズの抑制を行う請求項1に記載の方法。
  7. 前記音声信号が、複数のサンプルを含む音声フレームを含み、請求項1に記載の方法を適用して、音声フレーム内のノイズの抑制を行う請求項1に記載の方法。
  8. 前記音声フレームの第1のサンプルに関してm個のサンプルによってオフセットされる分析ウィンドウを利用して、請求項1の前記周波数分析を行うステップを有する請求項7に記載の方法。
  9. 前記音声フレームの第1のサンプルに関してm個のサンプルによってオフセットされる第1の分析ウィンドウを利用して、第1の周波数分析を行うステップと、前記音声フレームの第2のサンプルに関してp個のサンプルによってオフセットされる第2の分析ウィンドウを利用して、第2の周波数分析を行うステップとを有する請求項7に記載の方法。
  10. m=24で、p=128である請求項9に記載の方法。
  11. 前記第2の分析ウィンドウが、前記音声フレームから、後続する音声フレームの中へ延在する先読み部分を含む請求項9に記載の方法。
  12. 前記周波数ビンおよび周波数帯域の少なくとも一方にスケーリング利得値を印加してノイズの抑制を行うステップを有する請求項1に記載の方法。
  13. 周波数ビン毎のベースでノイズの抑制を行うときに、周波数ビンに対して周波数ビン固有のスケーリング利得値を決定するステップをさらに有する請求項1に記載の方法。
  14. 周波数帯域毎のベースでノイズの抑制を行うときに、周波数帯域に対して周波数帯域特有のスケーリング利得値を決定するステップを有する請求項1に記載の方法。
  15. 一定のスケーリング利得値を印加することによってノイズの抑制を行うステップを有する請求項6に記載の方法。
  16. 周波数ビンに対して決定された前記周波数ビンの信号対雑音比(SNR)に関して、前記周波数ビンに対して周波数ビン特有のスケーリング利得値を決定するステップを有する請求項13に記載の方法。
  17. 周波数帯域に対して決定された前記周波数帯域の信号対雑音比(SNR)に関して、前記周波数帯域に対して周波数帯域特有のスケーリング利得値を決定するステップを有する請求項14に記載の方法。
  18. 前記第1および第2の周波数分析の各々に対して請求項16に記載のステップを有する請求項16に記載の方法。
  19. 前記第1と第2の周波数分析の各々に対して請求項17に記載のステップを有する請求項17に記載の方法。
  20. 前記スケーリング利得値が、平滑化済みのスケーリング利得値である請求項12〜14のいずれか一項に記載の方法。
  21. 或る特定の周波数ビン、または或る特定の周波数帯域のスケーリング利得値に対して逆比例する値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するステップを有する請求項12〜14のいずれか一項に記載の方法。
  22. 平滑化ステップが、小さな値のスケーリング利得に対してより強くなるように決定された値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するステップを有する請求項12〜14のいずれか一項に記載の方法。
  23. 前記スケーリング利得の値を決定するステップが、音声フレーム毎にn回(nは1よりも大きい)発生する請求項13または14に記載の方法。
  24. n=2である請求項23に記載の方法。
  25. 音声フレーム毎にn回(nは1よりも大きい)前記スケーリング利得の値を決定するステップを有する方法であって、前記有声化カットオフ周波数が少なくとも部分的に前回の音声フレーム内の前記音声信号の関数である請求項13または14に記載の方法。
  26. 周波数ビン毎のベースのノイズ抑制が、17の帯域に対応する74ビンの最大値で行われる請求項13に記載の方法。
  27. 周波数ビン毎のベースのノイズ抑制が、3700Hzの周波数に従って最大数の周波数ビンで行われる請求項13に記載の方法。
  28. 第1のSNR値に対しては前記スケーリング利得の値が最小値に設定され、前記第1のSNR値よりも大きな第2のSNR値に対しては前記スケーリング利得の値が1に設定される請求項16に記載の方法。
  29. 前記第1のSNR値が約1dBに等しく、前記第2のSNR値が約45dBである請求項28に記載の方法。
  30. 活性音声を含まない音声信号の検出セクションをさらに具備する請求項20に記載の方法。
  31. 活性音声を含まない音声信号のセクションの検出に応答して、前記平滑化済みのスケーリング利得を最小値にリセットするステップをさらに有する請求項30に記載の方法。
  32. 複数の周波数帯域内の最大ノイズエネルギがしきい値未満であるときに、前記ノイズ抑制手法が活性音声フレームでは実行されない請求項7に記載の方法。
  33. 短いハングオーバ音声フレームの発生に応答して、第1のx周波数帯域用の帯域毎のベースで決定された平滑化済みのスケーリング利得を印加して前記音声信号の周波数スぺクトルのスケーリングを行うステップと、前記スケーリング利得の単一値を印加して前記音声信号の周波数スぺクトルの残りの周波数帯域のスケーリングを行うステップとをさらに有する請求項7に記載の方法。
  34. 前記第1のx周波数帯域が、1700Hzまでの周波数に対応する請求項33に記載の方法。
  35. 狭帯域音声信号に対して、個々の周波数帯域が少なくとも2つの周波数ビンを具備する第1のx周波数帯域であって、前記第1のx周波数帯域が3700Hzまでの周波数に対応する前記周波数帯域毎のベースで決定された平滑化済みのスケーリング利得値を印加することによってノイズの抑制を行うステップと、3700Hzに対応する前記周波数ビンで、前記スケーリング利得の値を印可することによってノイズの抑制を行うステップと、前記音声信号の周波数スぺクトルの残りの周波数帯域をゼロにするステップとをさらに有する請求項20に記載の方法。
  36. 前記狭帯域音声信号が、12800Hzまでアップサンプリングされた狭帯域音声信号である請求項35に記載の方法。
  37. 計算された有声音測定値を用いて前記有声化カットオフ周波数を決定する請求項3に記載の方法。
  38. 前記有声化カットオフ周波数を上回らない上位周波数を有する臨界帯域の数をさらに決定するステップを有しており、x周波数帯域の最小値とy周波数帯域の最大値とに対して周波数ビン毎の処理を実行するように境界周波数を設定する請求項37に記載の方法。
  39. x=3およびy=17である請求項38に記載の方法。
  40. 325Hz以上で、かつ、3700Hz以下となるように前記有声化カットオフ周波数の境界周波数を設ける請求項37に記載の方法。
  41. 音声信号内のノイズを抑制する装置であって、
    複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
    前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声信号内のノイズを抑制する装置。
  42. 周波数帯域の前記第1の数が、有声化された周波数帯域の第1の数に従って決定される請求項41に記載の装置。
  43. それ未満の周波数の信号は有声音であると見なされる有声化カットオフ周波数に関して、周波数帯域の前記第1の数を決定するように構成される請求項41に記載の装置。
  44. 周波数帯域の前記第1の数が、前記音声信号のすべての周波数帯域を含み、前記すべての周波数帯域が前記有声化カットオフ周波数を上回らない上位周波数を有する請求項43に記載の装置。
  45. 周波数帯域の前記第1の数が所定の固定数である請求項41に記載の装置。
  46. 前記音声信号の周波数帯域が有声化されていない場合、すべての周波数帯域に対して周波数帯域毎のベースでノイズの抑制を行う請求項41に記載の装置。
  47. 前記音声信号が複数のサンプルを含む音声フレームを含み、音声フレーム内のノイズの抑制を行うように構成される請求項41に記載の装置。
  48. 前記音声フレームの第1のサンプルに関してm個のサンプルによってオフセットされる分析ウィンドウを利用して、前記周波数分析を行うように構成される請求項47に記載の装置。
  49. 前記音声フレームの第1のサンプルに関してm個のサンプルによってオフセットされる第1の分析ウィンドウを利用して、第1の周波数分析を行い、前記音声フレームの第2のサンプルに関してp個のサンプルによってオフセットされる第2の分析ウィンドウを利用して、第2の周波数分析を行うように構成される請求項47に記載の装置。
  50. m=24で、p=128である請求項49に記載の装置。
  51. 前記第2の分析ウィンドウが、前記音声フレームから、後続する音声フレームの中へ延在する先読み部分を含む請求項49に記載の装置。
  52. 前記周波数ビンおよび周波数帯域の少なくとも一方にスケーリング利得値を印加してノイズの抑制を行うように構成される請求項41に記載の装置。
  53. 周波数ビン毎のベースでノイズの抑制を行うときに、周波数ビンに対して周波数ビン特有のスケーリング利得値を決定するようにさらに構成される請求項41に記載の装置。
  54. 周波数帯域毎のベースでノイズの抑制を行うときに、周波数帯域に対して周波数帯域固有のスケーリング利得値を決定するようにさらに構成される請求項41に記載の装置。
  55. すべての周波数帯域に対して一定のスケーリング利得値を印加することによってノイズの抑制を行うように構成される請求項46に記載の装置。
  56. 前記周波数ビンに対して決定された周波数ビンの信号対雑音比(SNR)に関して、前記周波数ビンに対して周波数ビン固有のスケーリング利得値を決定するように構成される請求項53に記載の装置。
  57. 前記周波数帯域に対して決定された前記周波数帯域の信号対雑音比(SNR)に関して、前記周波数帯域に対して周波数帯域固有のスケーリング利得値を決定するように構成される請求項54に記載の装置。
  58. 前記第1と第2の周波数分析の各々に対して請求項56に記載のステップを実行するように構成される請求項56に記載の装置。
  59. 前記第1と第2の周波数分析の各々に対して請求項57に記載のステップを実行するように構成される請求項57に記載の装置。
  60. 前記スケーリング利得値が平滑化済みのスケーリング利得値である請求項52〜54のいずれか一項に記載の装置。
  61. 或る特定の周波数ビン、または或る特定の周波数帯域のスケーリング利得値に対して逆比例する値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するように構成される請求項52〜54のいずれか一項に記載の装置。
  62. 平滑化ステップが、小さな値のスケーリング利得値に対してより強くなるように決定された値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するように構成される請求項52〜54のいずれか一項に記載の装置。
  63. 音声フレーム毎にn回(nは1よりも大)前記スケーリング利得値を決定するように構成される請求項53または54に記載の装置。
  64. n=2である請求項63に記載の装置。
  65. 音声フレーム毎にn回(nは1よりも大きい)前記スケーリング利得値を決定するように構成される装置であって、前記有声化カットオフ周波数が少なくとも部分的に前回の音声フレーム内の前記音声信号の関数である請求項53または54に記載の装置。
  66. 17の帯域に対応する74ビンの最大値で周波数ビン毎のベースのノイズ抑制を行うように構成される請求項53に記載の装置。
  67. 3700Hzの周波数に対応する最大数の周波数ビンで周波数ビン毎のベースのノイズ抑制を行うように構成される請求項53に記載の装置。
  68. 第1のSNR値に対しては前記スケーリング利得値を最小値に設定し、前記第1のSNR値よりも大きな第2のSNR値に対しては前記スケーリング利得値を1に設定する請求項56に記載の装置。
  69. 前記第1のSNR値が約1dBに等しく、前記第2のSNR値が約45dBである請求項68に記載の装置。
  70. 活性音声を含まない音声信号のセクションを検出するように構成される請求項60に記載の装置。
  71. 活性音声を含まない音声信号のセクションの検出に応答して、前記平滑化済みのスケーリング利得値を最小値にリセットするように構成される請求項70に記載の装置。
  72. 複数の周波数帯域内の最大ノイズエネルギがしきい値未満であるときに、活性音声フレームでノイズ抑制を行わないように構成される請求項47に記載の装置。
  73. 短いハングオーバ音声フレームの発生に応答して、第1のx周波数帯域に対して周波数帯域毎のベースで決定されたスケーリング利得値を平滑化することによってノイズ抑制を行い、残りの周波数帯域に対してスケーリング利得の単一値を印加することによってノイズ抑制を行うように構成される請求項47に記載の装置。
  74. 前記第1のx周波数帯域が、1700Hzまでの周波数に対応する請求項73に記載の装置。
  75. 狭帯域音声信号に対して、3700Hzまでの周波数に対応する第1のx周波数帯域に対して、前記周波数帯域毎のベースで決定された平滑化済みのスケーリング利得値を印加することによってノイズの抑制を行い、3700Hzに対応する前記周波数ビンのスケーリング利得値を3700Hzと4000Hzとの間の前記周波数ビンに印加することによってノイズの抑制を行い、前記第1のx周波数帯域が前記音声信号の周波数スぺクトルの残りの周波数帯域をゼロにするように構成される請求項60に記載の装置。
  76. 前記狭帯域音声信号が、12800Hzまでアップサンプリングされた狭帯域音声信号である請求項75に記載の装置。
  77. 計算された有声音測定値を用いて前記有声化カットオフ周波数を決定する請求項43に記載の装置。
  78. 前記有声化カットオフ周波数を上回らない上位周波数を有する臨界帯域の数をさらに決定するステップを有しており、x周波数帯域の最小値とy周波数帯域の最大値とで周波数ビン毎の処理を実行するように構成される境界周波数を設定する請求項77に記載の装置。
  79. x=3およびy=17である請求項78に記載の装置。
  80. 325Hz以上で、かつ、3700Hz以下となるように前記有声化カットオフ周波数の境界周波数を設ける請求項77に記載の装置。
  81. ノイズ抑制装置を具備する音声エンコーダであって、前記ノイズ抑制装置が、
    複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
    前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声エンコーダ。
  82. ノイズ抑制装置を具備する自動音声認識システムであって、前記ノイズ抑制装置が、
    複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
    前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする自動音声認識システム。
  83. ノイズ抑制装置を具備する移動電話であって、前記ノイズ抑制装置が、
    複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
    前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第1の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第2の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする移動電話。
JP2006545874A 2003-12-29 2004-12-29 暗騒音存在時の音声を改善するための方法および装置 Active JP4440937B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002454296A CA2454296A1 (en) 2003-12-29 2003-12-29 Method and device for speech enhancement in the presence of background noise
PCT/CA2004/002203 WO2005064595A1 (en) 2003-12-29 2004-12-29 Method and device for speech enhancement in the presence of background noise

Publications (2)

Publication Number Publication Date
JP2007517249A JP2007517249A (ja) 2007-06-28
JP4440937B2 true JP4440937B2 (ja) 2010-03-24

Family

ID=34683070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006545874A Active JP4440937B2 (ja) 2003-12-29 2004-12-29 暗騒音存在時の音声を改善するための方法および装置

Country Status (19)

Country Link
US (1) US8577675B2 (ja)
EP (1) EP1700294B1 (ja)
JP (1) JP4440937B2 (ja)
KR (1) KR100870502B1 (ja)
CN (1) CN100510672C (ja)
AT (1) ATE441177T1 (ja)
AU (1) AU2004309431C1 (ja)
BR (1) BRPI0418449A (ja)
CA (2) CA2454296A1 (ja)
DE (1) DE602004022862D1 (ja)
ES (1) ES2329046T3 (ja)
HK (1) HK1099946A1 (ja)
MX (1) MXPA06007234A (ja)
MY (1) MY141447A (ja)
PT (1) PT1700294E (ja)
RU (1) RU2329550C2 (ja)
TW (1) TWI279776B (ja)
WO (1) WO2005064595A1 (ja)
ZA (1) ZA200606215B (ja)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113580B1 (en) * 2004-02-17 2006-09-26 Excel Switching Corporation Method and apparatus for performing conferencing services and echo suppression
JP5230103B2 (ja) * 2004-02-18 2013-07-10 ニュアンス コミュニケーションズ,インコーポレイテッド 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
TWI319565B (en) * 2005-04-01 2010-01-11 Qualcomm Inc Methods, and apparatus for generating highband excitation signal
US9043214B2 (en) 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
JP5530720B2 (ja) * 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
EP3070714B1 (en) * 2007-03-19 2018-03-14 Dolby Laboratories Licensing Corporation Noise variance estimation for speech enhancement
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
WO2009000073A1 (en) * 2007-06-22 2008-12-31 Voiceage Corporation Method and device for sound activity detection and sound signal classification
ATE514163T1 (de) 2007-09-12 2011-07-15 Dolby Lab Licensing Corp Spracherweiterung
JPWO2009051132A1 (ja) * 2007-10-19 2011-03-03 日本電気株式会社 信号処理システムと、その装置、方法及びそのプログラム
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
EP2863390B1 (en) * 2008-03-05 2018-01-31 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
EP2416315B1 (en) * 2009-04-02 2015-05-20 Mitsubishi Electric Corporation Noise suppression device
WO2011004299A1 (en) * 2009-07-07 2011-01-13 Koninklijke Philips Electronics N.V. Noise reduction of breathing signals
CA2778342C (en) * 2009-10-19 2017-08-22 Martin Sehlstedt Method and background estimator for voice activity detection
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
ES2930203T3 (es) 2010-01-19 2022-12-07 Dolby Int Ab Transposición armónica basada en bloque de sub bandas mejorada
JP5649084B2 (ja) * 2010-03-09 2015-01-07 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 再生速度またはピッチを変更する際にオーディオ信号における過渡音声事象を処理するための装置および方法
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101173980B1 (ko) * 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
EP3726530A1 (en) * 2010-12-24 2020-10-21 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
CN103415818B (zh) * 2011-01-11 2017-11-17 西门子公司 用于信号滤波的方法和装置以及用于过程的控制装置
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
TWI459381B (zh) 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
KR101679209B1 (ko) 2012-02-23 2016-12-06 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
KR101626438B1 (ko) 2012-11-20 2016-06-01 유니파이 게엠베하 운트 코. 카게 오디오 데이터 프로세싱을 위한 방법, 디바이스, 및 시스템
CA2948015C (en) 2012-12-21 2018-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
CN103886867B (zh) * 2012-12-21 2017-06-27 华为技术有限公司 一种噪声抑制装置及其方法
US9495951B2 (en) * 2013-01-17 2016-11-15 Nvidia Corporation Real time audio echo and background noise reduction for a mobile device
AU2014211544B2 (en) * 2013-01-29 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
DE102013111784B4 (de) 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN107086043B (zh) 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
KR20160000680A (ko) * 2014-06-25 2016-01-05 주식회사 더바인코퍼레이션 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
CA2956531C (en) 2014-07-29 2020-03-24 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of background noise in audio signals
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9886966B2 (en) * 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
KR102015742B1 (ko) * 2015-12-01 2019-08-28 미쓰비시덴키 가부시키가이샤 음성 인식 장치, 음성 강조 장치, 음성 인식 방법, 음성 강조 방법 및 네비게이션 시스템
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN108022595A (zh) * 2016-10-28 2018-05-11 电信科学技术研究院 一种语音信号降噪方法和用户终端
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN111183476B (zh) * 2017-10-06 2024-03-22 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
US10771621B2 (en) * 2017-10-31 2020-09-08 Cisco Technology, Inc. Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
US10681458B2 (en) * 2018-06-11 2020-06-09 Cirrus Logic, Inc. Techniques for howling detection
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN112634929A (zh) * 2020-12-16 2021-04-09 普联国际有限公司 一种语音增强方法、装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6925435B1 (en) 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate

Also Published As

Publication number Publication date
EP1700294A4 (en) 2007-02-28
EP1700294A1 (en) 2006-09-13
RU2329550C2 (ru) 2008-07-20
KR100870502B1 (ko) 2008-11-25
DE602004022862D1 (de) 2009-10-08
CN100510672C (zh) 2009-07-08
MXPA06007234A (es) 2006-08-18
CA2550905A1 (en) 2005-07-14
CA2454296A1 (en) 2005-06-29
TW200531006A (en) 2005-09-16
AU2004309431B2 (en) 2008-10-02
EP1700294B1 (en) 2009-08-26
TWI279776B (en) 2007-04-21
RU2006126530A (ru) 2008-02-10
CN1918461A (zh) 2007-02-21
PT1700294E (pt) 2009-09-28
US20050143989A1 (en) 2005-06-30
CA2550905C (en) 2010-12-14
AU2004309431C1 (en) 2009-03-19
WO2005064595A1 (en) 2005-07-14
ATE441177T1 (de) 2009-09-15
ES2329046T3 (es) 2009-11-20
ZA200606215B (en) 2007-11-28
AU2004309431A1 (en) 2005-07-14
KR20060128983A (ko) 2006-12-14
MY141447A (en) 2010-04-30
JP2007517249A (ja) 2007-06-28
US8577675B2 (en) 2013-11-05
HK1099946A1 (en) 2007-08-31
BRPI0418449A (pt) 2007-05-22

Similar Documents

Publication Publication Date Title
JP4440937B2 (ja) 暗騒音存在時の音声を改善するための方法および装置
US6453289B1 (en) Method of noise reduction for speech codecs
RU2470385C2 (ru) Система и способ улучшения декодированного тонального звукового сигнала
US11325407B2 (en) Frequency band extension in an audio signal decoder
Cohen Speech enhancement using super-Gaussian speech models and noncausal a priori SNR estimation
WO2000017855A1 (en) Noise suppression for low bitrate speech coder
EP1386313B1 (en) Speech enhancement device
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
Jelinek et al. Noise reduction method for wideband speech coding
KR20180010115A (ko) 스피치를 향상하는 장치
CN109346106B (zh) 一种基于子带信噪比加权的倒谱域基音周期估计方法
Charoenruengkit et al. Multiband excitation for speech enhancement
EP2760022B1 (en) Audio bandwidth dependent noise suppression
Balaji et al. A Novel DWT Based Speech Enhancement System through Advanced Filtering Approach with Improved Pitch Synchronous Analysis

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4440937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250