JP4440937B2

JP4440937B2 - 暗騒音存在時の音声を改善するための方法および装置

Info

Publication number: JP4440937B2
Application number: JP2006545874A
Authority: JP
Inventors: ジェリネック，ミラン
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2003-12-29
Filing date: 2004-12-29
Publication date: 2010-03-24
Anticipated expiration: 2024-12-29
Also published as: EP1700294A4; EP1700294A1; RU2329550C2; KR100870502B1; DE602004022862D1; CN100510672C; MXPA06007234A; CA2550905A1; CA2454296A1; TW200531006A; AU2004309431B2; EP1700294B1; TWI279776B; RU2006126530A; CN1918461A; PT1700294E; US20050143989A1; CA2550905C; AU2004309431C1; WO2005064595A1

Description

本発明は、音声信号を強めて、暗騒音存在時の通信を改善する手法に関する。特に、本発明は、音声信号内の暗騒音のレベルを低減させるためのノイズ低減回路の設計に関するものであるが、これ以外の事項を排除するものではない。

多くの通信システムにおいて暗騒音レベルを低減させることは非常に重要である。例えば、移動電話は、高い暗騒音レベルが存在する多くの環境で利用される。そのような利用環境として、（ますます手を使わなくなってきている）自動車内や街路での利用状況があり、これによって、車両による高レベルの騒音や街路の騒音が存在する中で通信システムの操作を行う必要が生じることになる。テレビ会議およびハンドフリー型のインターネットアプリケーションのようなオフィスでの利用時には、システムは、オフィスの騒音に効率良く対処する必要がある。実際には別のタイプの環境騒音も経験する場合がある。低い信号対雑音比（ＳＮＲ）での操作を必要とする場合が多い上記のアプリケーションにとって、ノイズ抑制としてやはり知られているノイズの低減すなわち音声強化が重要となる。ノイズ低減は、種々の現実の環境でますます採用されている自動音声認識システムにおいても重要である。ノイズの低減は、上述のアプリケーションで通常用いられる音声符号化アルゴリズムや音声認識アルゴリズムのパフォーマンスを改善することになる。

ノイズ低減のために最も利用される手法の１つとしてスペクトル減算手法がある（エス．エフ．ボル（Ｓ．Ｆ．Ｂｏｌｌ）の「スペクトル減算を利用する音声内の音響ノイズの抑制」（ＩＥＥＥ会報、音響、音声、信号処理、巻ＡＳＳＰ−２７、第１１３頁〜第１２０頁、１９７９年４月）を参照のこと）。スペクトル減算は、ノイズの多い音声からノイズ推定値の減算を行うことによって音声の短時間スペクトル振幅値の推定を試みるものである。位相歪みが人間の聴覚によって知覚されないという仮説に基づいてノイズの多い音声の位相は処理されない。実際には、スペクトル減算は、ノイズスペクトルとノイズの多い音声スペクトルとの推定値からＳＮＲベースの利得関数を形成することによって実行される。この利得関数に入力スペクトルを乗じて、低いＳＮＲを用いて周波数成分が抑制される。従来方式のスペクトル減算アルゴリズムを利用する上での主要な問題点として、結果として生じる「楽音（musical tones）」からなる音楽的残留ノイズがあり、この残留ノイズはリスナにとってのみならず（音声符号化のような）後続信号処理用アルゴリズムにとっても妨害となる。これらの楽音は主として、スペクトル推定時の分散に起因して生じるものである。この問題に対処するために、スペクトル平滑化ステップが提案され、この結果として低減された分散と分解能とが得られた。楽音を低減させるための別の公知の方法として、スペクトルフロアと組み合わせた過多減算係数を利用する方法がある（エム．ベルーチ（Ｍ．Ｂｅｒｏｕｔｉ）、アール．シュワルツ（Ｒ．Ｓｃｈｗａｒｔｚ）およびジェイ．マックホール（Ｊ．Ｍａｋｈｏｕｌ）の「音響ノイズによって損なわれた音声の改善」（ＩＥＥＥＩＣＡＳＳＰ会報、ワシントンＤＣ、１９７９年４月、第２０８頁〜第２１１頁）を参照のこと）。この方法には、楽音が十分に低減されたとき、音声が劣化するという欠点がある。別のアプローチとして、ソフト・デシジョン・ノイズ抑制フィルタリング（アール．ジェイ．マックオーリー（Ｒ．Ｊ．ＭｃＡｕｌａｙ）およびエム．エル．マルパス（Ｍ．Ｌ．Ｍａｌｐａｓｓ）の「ソフトノイズ抑制フィルタを利用する音声の改善」（ＩＥＥＥ会報、音響、音声、信号処理、巻ＡＳＳＰ−２８、第１３７頁〜第１４５頁、１９８０年４月）を参照のこと）、および、非線形スペクトル減算（ピー．ロックウッド（Ｐ．Ｌｏｃｋｗｏｏｄ）およびジェイ．バウディ（Ｊ．Ｂｏｕｄｙ）の「非線形スペクトル減算回路（ＮＳＳ）と、隠れマルコフモデルと、投影とを用いた車内でのロバスト（robust）認識のための実験」（音声通信、巻１１、第２１５頁〜第２２８頁、１９９２年６月）を参照のこと）を利用する方法もある。

上記問題点を解決するために、本発明の１つの態様では、音声信号のノイズ抑制方法であって、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うステップと、
上記周波数ビンを複数の周波数帯域にグループ化するステップとを有する方法において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする方法が提供される。

本発明の別の態様では、音声信号内のノイズを抑制する装置であって、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする装置が提供される。

本発明のさらなる態様では、ノイズ抑制装置を具備する音声エンコーダであって、上記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声エンコーダが提供される。

本発明のさらに別の態様では、ノイズ抑制装置を具備する自動音声認識システムであって、上記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする自動音声認識システムが提供される。

本発明のさらに別の態様では、ノイズ抑制装置を具備する移動電話であって、上記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
上記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、上記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、上記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする移動電話が提供される。

添付図面と共に添付図面で単に例示として示される本発明の実施例についての以下の本発明を限定するものではない説明を読むときに、本発明の上述の目的およびその他の目的と、利点ならびに特徴はさらに明らかになるであろう。

本明細書では、ノイズ低減のための効率の良い手法が開示される。これらの手法は、少なくとも部分的な臨界帯域における振幅スペクトルの分割と、臨界帯域毎のＳＮＲに基づく利得関数の計算とに基づく手法であり、ＥＶＲＣ音声コーデックで用いられるアプローチと類似した手法である（３ＧＰＰ２Ｃ．Ｓ００１４−０の「広帯域スペクトラム拡散通信システム用の拡張機能を備えた可変レートコーデック（ＥＶＲＣ）サービスオプション」（３ＧＰＰ２技術仕様、１９９９年１２月）を参照のこと）。例えば、処理対象の音声フレームの性質に基づいて各種の処理手法を利用する特徴が開示される。無声音フレームでは、帯域毎の処理がスペクトル全体の中で利用される。或る一定の周波数まで有声音が検出されたフレームでは、有声音が検出されたスペクトルの低い部分で周波数ビン毎の処理が利用され、残りの帯域では帯域毎の処理が利用される。暗騒音フレームの場合には、スペクトル全体で同じスケーリング利得値を利用することによって一定のノイズフロアが除去される。さらに、個々の帯域内でのスケーリング利得値の平滑化ステップの手法が開示され、実際のスケーリング利得値に逆比例する平滑化係数を利用して周波数ビンが実行される（平滑化は小さな利得ほど強くなる）。例えば、有声音での立ち上りの場合のように、このアプローチによって低ＳＮＲフレームに先行する高いＳＮＲ音の部分内の歪みが防止される。

本発明を限定するものではない本発明の１つの態様として、スペクトル減算に基づくノイズ低減用の新規の方法を提供する態様がある。この態様では、ノイズ低減方法は処理対象の音声フレームの性質に依存することになる。例えば、有声音フレームでは、処理は或る一定の周波数未満の周波数ビン毎のベースで実行することも可能である。

ある実施例では、ノイズの低減は音声符号化システムの範囲内で実行され、符号化前に音声信号の暗騒音レベルが低減される。８０００サンプル／秒でサンプリングされた狭帯域音声信号もしくは１６０００サンプル／秒でサンプリングされた広帯域音声信号、または他の任意のサンプリング周波数に関して上記の開示された手法を利用することができる。この実施例で用いられるエンコーダは、ＡＭＲ−ＷＢコーデック（エス．エフ．ボル（Ｓ．Ｆ．Ｂｏｌｌ）の「スペクトル減算を利用する音声内の音響ノイズの抑制」（ＩＥＥＥ会報、音響、音声、信号処理、巻ＡＳＳＰ−２７、第１１３頁〜第１２０頁、１９７９年４月）を参照のこと）をベースとするものであり、内部サンプリング変換を利用して、１２８００サンプル／秒（６.４ｋＨｚの帯域で動作）への信号サンプリング周波数変換が行われる。

したがって、本実施例の上記の開示されたノイズ低減手法は、１２.８ｋＨｚへのサンプリング変換後、狭帯域信号かまたは広帯域信号かのいずれかの信号で動作することになる。

広帯域入力の場合、入力信号は１６ｋＨｚから１２.８ｋＨｚまでデシメーション（decimated）を行う必要がある。デシメーションは４だけの第１のアップサンプリングを行い、次いで、６.４ｋＨｚで周波数をカットオフするローパスＦＩＲフィルタを介して出力のフィルタリングを行うことによって実行される。次いで、信号は５だけダウンサンプリングされる。フィルタリング遅延時間は１６ｋＨｚのサンプリング周波数で１５サンプルとなる。

狭帯域入力の場合、８ｋＨｚから１２.８ｋＨｚまで信号のアップサンプリングを行う必要がある。このアップサンプリングは８だけの第１のアップサンプリングによって、次いで、６.４ｋＨｚのカットオフ周波数を有するローパスＦＩＲフィルタによって出力のフィルタリングを行うことにより実行される。次いで、信号は５だけダウンサンプリングされる。フィルタリング遅延時間は８ｋＨｚのサンプリング周波数で８サンプルとなる。

サンプリング変換を行った後、符号化処理プロセス（ハイパスフィルタ処理とプレエンファシス処理）を行う前に２つの前処理関数が信号に適用される。

ハイパスフィルタは、望ましくない低周波成分に対する予防策として機能するものである。本実施例では５０Ｈｚのカットオフ周波数のフィルタが使用され、下記の式によって示されている。

プレエンファシス回路では、１次ハイパスフィルタを利用してより高い周波数が強調され、この１次ハイパスフィルタはＨ_pre-emph（ｚ）＝１−０．６８ｚ^-1によって示される。

プレエンファシス回路は、高周波でコーデックのパフォーマンスを改善し、エンコーダで使用されるエラー最小化処理時の聴覚重み付けを改善するためにＡＭＲ−ＷＢコーデックの中で用いられる。

本実施例の残り部分では、ノイズ低減アルゴリズムの入力時の信号は１２.８ｋＨｚサンプリング周波数に変換され、前述のような前処理が行われる。しかし、上記の開示された手法は、前処理を用いて、および、前処理を用いることなく８ｋＨｚや１６ｋＨｚのような別のサンプリング周波数の信号に等しく適用することができる。

以下、ノイズ低減アルゴリズムについて詳細に説明する。ノイズ低減アルゴリズムを利用する音声エンコーダは、１２.８ｋＨｚサンプリング周波数で２５６サンプルを含む２０ｍｓフレームの処理を行う。さらに、コーダはその解析時に将来のフレームから１３ｍｓの先読みを利用する。ノイズ低減は同じフレームの同期構造に従う。しかし、エンコーダフレーミングとノイズ低減フレーミングとの間に何らかのシフトを導入して、先読みの利用の最大化を図るようにすることが可能である。本説明では、サンプルのインデックスはノイズ低減フレーミングを反映するものである。

図１は、ノイズ低減を含む音声通信システムを概略的に示すブロック図である。ブロック１０１では、前述の実施例のように前処理が実行される。

ブロック１０２では、スペクトル分析と音声活性化検出（ＶＡＤ：voice activity detection）とが実行される。５０％のオーバラップ部分を有する２０ｍｓのウィンドウを利用して、２つのスペクトル分析が個々のフレームで実行される。ブロック１０３では、ノイズ低減をスペクトルパラメータに適用し、次いで、離散的逆フーリエ変換を利用して強化された信号を変換して、元の時間領域へこの信号を戻す。次いで、オーバラップ追加処理を利用して信号の再構成が行われる。

ブロック１０４では、線形予測（ＬＰ）分析とオープンループピッチ分析とが（通常音声符号化アルゴリズムの一部として）実行される。本実施例では、ブロック１０４の結果として生じるパラメータを決定時に使用して、臨界帯域でノイズ推定値の更新を行う（ブロック１０５）。ＶＡＤ決定はノイズ更新決定として使用することができる。ブロック１０５で更新されたノイズエネルギ推定値はノイズ低減ブロック１０３内の次のフレームで利用され、スケーリング利得値が計算される。ブロック１０６は、強化された音声信号に対して音声符号化を実行する。別のアプリケーションでは、ブロック１０６を自動音声認識システムとすることができる。ブロック１０４内の諸機能は、音声符号化アルゴリズムの一体部分にしてもよいことに留意されたい。

スペクトル分析
離散フーリエ変換を利用してスペクトル分析並びにスペクトルエネルギの推定が行われる。５０％のオーバラップを用いて２５６ポイント高速フーリエ変換（ＦＦＴ）を利用してフレーム毎に２回周波数分析が行われる（図２に例示されているように）。分析ウィンドウが配置され、それによってすべての先読みが利用されることになる。音声エンコーダの現フレームの開始点の２４サンプル後に第１のウィンドウの開始点が配置される。第２のウィンドウはさらに１２８サンプル後に配置される。周波数分析用の入力信号の重み付けを行うために、ハニング（Hanning）ウィンドウ（サインウィンドウに相当する）の平方根が利用されてきた。このウィンドウは、オーバラップ追加方法用として特に好適である（したがって、この特別のスペクトル分析は、スペクトル減算およびオーバラップ追加分析／合成に基づいてノイズ抑制アルゴリズムで利用される）。平方根ハニング・ウィンドウは下記の式によって与えられる。

但し、Ｌ_FFT＝２５６はＦＦＴ分析のサイズである。ウィンドウの１／２のみが計算され、格納されることに留意されたい。というのは、このウィンドウが左右対称（０からＬ_FFT／２まで）であるからである。

（ｎ）は、ノイズ低減フレーム内の第１のサンプルに対応するインデックス０付きの信号を示すものとする（本実施例では、第１のサンプルは、音声エンコーダフレームの開始点から２４サンプル多いサンプルである）。双方のスペクトル分析用のウィンドウ化された信号が下記の式の形で得られる。

但し、ｓ′（０）は、現在のノイズ低減フレーム内の第１のサンプルである。

ＦＦＴは双方のウィンドウ化された信号に対して実行され、下記のようなフレーム当たり２組のスペクトルパラメータが得られる。

ＦＦＴの出力は、Ｘ_R（ｋ）（ｋ＝０．．．１２８）およびＸ_I（ｋ）（ｋ＝０．．．１２７）によって示されるスペクトルの実数部および虚数部を与える。Ｘ_R（０）は、０Ｈｚ（ＤＣ）におけるスペクトルに対応し、Ｘ_R（１２８）は、６４００Ｈｚにおけるスペクトルに対応することに留意されたい。これらのポイントにおけるスペクトルは実数値化され、その後の分析時には通常単に無視される。

ＦＦＴ分析を行った後、結果として生じるスペクトルは以下の上限値を有するインタバル（周波数帯域範囲０〜６４００Ｈｚ内の２０帯域）を利用して臨界帯域に分割される。
臨界帯域＝｛１００.０，２０，０.０，３００.０，４００.０，５１０.０，６３０.０，７７０.０，９２０.０，１０８０.０，１２７０.０，１４８０.０，１７２０.０，２０００.０，２３２０.０，２７００.０，３１５０.０，３７００.０，４４００.０，５３００.０，６３５０.０｝Ｈｚ
（ディー．ジョンストン（Ｄ．Ｊｏｈｎｓｔｏｎ）の「知覚ノイズ基準を利用するオーディオ信号の変換符号化」（ＩＥＥＥＪセレクション、通信分野、巻６、第３１４頁〜第３２３頁、１９８８年２月）を参照のこと）

２５６ポイントＦＦＴは５０Ｈｚの周波数分解能（６４００／１２８）をもたらすことになる。したがって、スペクトルの直流成分を無視した後、臨界帯域毎の周波数ビンの数は、それぞれ、Ｍ_CB＝｛２、２、２、２、２、２、３、３、３、４、４、５、６、６、８、９、１１、１４、１８、２１｝となる。

臨界帯域内の平均エネルギは、下記の式に示すように、

として計算される。但し、Ｘ_R（ｋ）およびＸ_I（ｋ）は、それぞれｋ番目の周波数ビンの実数部および虚数部であり、ｊ_iは、ｊ_i＝｛１，３，５，７，９，１１，１３，１６，１９，２２，２６，３０，３５，４１，４７，５５，６４，７５，８９，１０７｝によって与えられるｉ番目の臨界帯域における第１の周波数ビンのインデックスである。

第１の１７個の臨界帯域（直流成分を除く７４ビン）用スペクトル分析モジュールも周波数ビン当たりのエネルギＥ_BIN（ｋ）を計算するモジュールである。このエネルギＥ_BIN（ｋ）は下記の式により得られる。

最後に、双方のＦＴＴ分析用スペクトル分析モジュールは、平均臨界帯域Ｅ_CBによって２０ｍｓフレーム内の平均総エネルギを計算する。すなわち、或る一定のスペクトル分析用のスペクトルエネルギは下記の式として計算される。

さらに、総フレームエネルギはフレーム内の双方のスペクトル分析のスペクトルエネルギの平均値として計算される。すなわち、下記の式により表される。
Ｅ_t＝１０＊ｌｏｇ（０.５（Ｅ_frame（０）＋Ｅ_frame（１））、ｄＢ（５）

スペクトル分析モジュールの出力パラメータ、すなわち、臨界帯域毎の平均エネルギと、周波数ビン当たりのエネルギと、総エネルギとは、ＶＡＤモジュール、ノイズ低減モジュールおよびレート選択モジュールの中で利用される。

８０００サンプル／秒でサンプリングされた狭帯域入力用として、１２８００サンプル／秒でサンプリング変換を行った後、スペクトルの両端部には内容が存在しなくなり、したがって、第１の低周波数臨界帯域並びに最後の３つの高周波数帯域は出力パラメータの計算時に考慮されなくなる（ｉ＝１から１６までの帯域のみが考慮される）ことに留意されたい。

音声活性状態検出
前述のスペクトル分析はフレーム当たり２回実行される。前述の式（２）により計算されているように、Ｅ_CB ⁽¹⁾(ｉ)とＥ_CB ⁽²⁾(ｉ)とは、それぞれ第１と第２のスペクトル分析用の臨界帯域情報当たりのエネルギを示すものとする。フレーム全体に対する臨界帯域毎の平均エネルギおよび前回のフレームの一部は下記の式として計算される。

但し、Ｅ_CB ⁽⁰⁾(ｉ)は、前回のフレームの第２の分析から得られる臨界帯域情報当たりのエネルギを示す。次いで、臨界帯域毎の信号対雑音比（ＳＮＲ）は下記の式として計算される。
ＳＮＲ_CB（ｉ）＝Ｅ_av（ｉ）／Ｎ_CB（ｉ）（ＳＮＲ_CB≧１により規定される）（７）
但し、Ｎ_CB（ｉ）は、次のセクションで説明することになるような臨界帯域毎の推定されるノイズエネルギである。次いで、フレーム当たりの平均ＳＮＲは、下記の式として計算される。

但し、広帯域信号の場合、ｂ_min＝０かつｂ_max＝１９で、狭帯域信号の場合、ｂ_min＝１かつｂ_max＝１６である。

音声活性状態は、長期ＳＮＲの関数である或る一定のしきい値とフレーム当たりの平均ＳＮＲとを比較することによって検出される。長期ＳＮＲは下記の式によって与えられる。

但し、／Ｅ_ｆと／Ｎ_ｆ（本来なら上記の式（９）のように、ＥやＮ等の上部に横線を引いて表すべきであるが、現行の電子出願形式では不可能なため、以後、ＥやＮ等の左側の部分に／を添付して表すこととする）は、それぞれ、後程説明する式（１２）と式（１３）とを利用して計算される。／Ｎ_ｆの初期値は４５ｄＢである。

しきい値は長期ＳＮＲの区分一次関数である。２つの関数が利用され、１つの関数はノイズのない音声用の関数であり、１つの関数はノイズの多い音声用の関数である。

広帯域信号の場合、ＳＮＲ_LT＜３５（ノイズの多い音声）ならば、
ｔｈ_VAD＝０.４３４６ＳＮＲ_LT＋１３.９５７５
そうでない（ノイズのない音声の）場合には、
ｔｈ_VAD＝１.０３３３ＳＮＲ_LT−７
狭帯域信号の場合、ＳＮＲ_LT＜２９.６（ノイズの多い音声）ならば、
ｔｈ_VAD＝０.３１３ＳＮＲ_LT＋１４.６
そうでない（ノイズのない音声の）場合には、
ｔｈ_VAD＝１.０３３３ＳＮＲ_LT−７

さらに、ＶＡＤ決定時のヒステリシスを活性音声の終了時に追加して、頻繁な切替えを防止する。フレームがソフトハングオーバ期間にある場合に、あるいは、最後のフレームが活性音声フレームである場合に、上記ヒステリシスが印加される。ソフトハングオーバ期間は、２個の連続フレームよりも長い個々の活性音声バースト後の第１の１０個のフレームから構成される。ノイズの多い音声（ＳＮＲ_LT＜３５）の場合、上記ヒステリシスはＶＡＤ決定しきい値を下げることになる。
ｔｈ_VAD＝０.９５ｔｈ_VAD

ノイズのない音声の場合、ヒステリシスは下記の式分だけＶＡＤ決定しきい値を下げることになる。
ｔｈ_VAD＝ｔｈ_VAD−１１

フレーム当たりの平均ＳＮＲがＶＡＤ決定しきい値よりも大きければ、すなわち、ＳＮＲ_av＞ｔｈ_VADならば、フレームは活性音声フレームと宣言され、ＶＡＤフラグとローカルのＶＡＤフラグとは１に設定される。フレーム当たりの平均ＳＮＲがＶＡＤ決定しきい値よりも大きくなければ、ＶＡＤフラグとローカルのＶＡＤフラグとは０に設定される。しかし、ノイズの多い音声の場合、フレーム内でのハードハングオーバ時に、ＶＡＤフラグは１まで変化する。すなわち、１つまたは２つの非活性フレームが２つの連続フレームよりも長い音声時間の後に続くことになる（この場合に、ローカルのＶＡＤフラグは０に等しくなるが、ＶＡＤフラグは１まで変化する）。

第１のレベルのノイズ推定と更新
本セクションでは、総ノイズエネルギ、相対フレームエネルギ、長期平均ノイズエネルギと長期平均フレームエネルギとの更新値、および、臨界帯域毎の平均エネルギ並びに騒音補正係数が計算される。さらに、ノイズエネルギの初期化と下方への更新とが行われる。

フレーム当たりの総ノイズエネルギは下記の式によって与えられる。

但し、Ｎ_CB（ｉ）は臨界帯域毎の推定ノイズエネルギである。

フレームの相対エネルギは、ｄＢの形でのフレームエネルギと長期平均エネルギとの間の差分によって与えられる。相対フレームエネルギは下記の式によって与えられる。

但し、Ｅ_tは前述の式（５）で与えられる。

長期平均ノイズエネルギまたは長期平均フレームエネルギは、すべてのフレームで更新される。活性音声フレームの場合（ＶＡＤフラグ＝１）、長期平均フレームエネルギは下記の関係式を利用して更新される。

この場合、初期値／Ｅ_f＝４５ｄＢを用いる。

非活性音声フレーム（ＶＡＤフラグ＝０）の場合、長期平均ノイズエネルギは下記の式によって更新される。

／Ｎ_fの初期値は、第１の４つのフレームに対してＮ_totに等しく設定される。さらに、第１の４つのフレームでは、／Ｅ_fの値には／Ｅ_f≧／Ｎ_tot＋１０という制限がある。

臨界帯域毎のフレームエネルギ、ノイズ初期化、および、下方へのノイズ更新
フレーム全体の臨界帯域毎のフレームエネルギはフレーム内の双方のスペクトル分析からエネルギを平均化することによって計算される。すなわち、下記の式により計算される。

臨界帯域毎のノイズエネルギＮ_CB（ｉ）は最初０.０３に初期化される。しかし、第１の５個のサブフレームで、信号エネルギが高すぎないか、信号が強い高周波成分を持たなければ、臨界帯域毎のエネルギを利用して、ノイズエネルギの初期化が行われ、これによって、処理の当初の開始点からノイズ低減アルゴリズムを効率の良いものにすることが可能となる。２つの高い周波数比が計算される。ｒ_15,16は、臨界帯域１５と１６の平均エネルギと、第１の１０個の帯域での平均エネルギとの間の比率（双方のスペクトル分析の平均値）であり、帯域１８と１９とがなければｒ_18,19は同じである。

第１の５個のフレームにおいて、Ｅ_t＜４９かつｒ_15,16＜２かつｒ_18,19＜１.５ならば、最初の３個のフレームに対して、下記の式が得られる。

さらに、次の２つのフレームに対して、Ｎ_CB（ｉ）は下記の式によって更新される。

以下のフレームに対して、この段階で、臨界帯域用の下方へのノイズエネルギ更新が実行され、これによって、エネルギは暗騒音エネルギ未満となる。第１に、一時的に更新されたノイズエネルギは下記の式として計算される。

但し、Ｅ_CB ⁽⁰⁾(ｉ)は前回のフレームからの第２のスペクトル分析に対応する。

次いで、ｉ＝０から１９について、Ｎ_tmp（ｉ）＜Ｎ_CB（ｉ）ならば、Ｎ_CB（ｉ）＝Ｎ_tmp（ｉ）となる。

その後、フレームを非活性フレームとして宣言した場合、Ｎ_CB（ｉ）＝Ｎ_tmp（ｉ）と設定することによって第２のノイズ更新レベルが実行される。ノイズエネルギ更新値を２つの部分に分割する（fragment）理由として、ノイズ更新が非活性音声フレーム中にのみ実行可能であり、したがって、音声活性状態の決定に必要なすべてのパラメータを必要とするという点が挙げられる。しかし、これらのパラメータはＬＰ予測分析とオープンループピッチ分析とに依存し、脱ノイズ化（denoised）音声信号に対して実行される。可能なかぎり正確なノイズ推定値を取得するノイズ低減アルゴリズム用として、ノイズ低減の実行前にノイズ推定更新値を下方へ更新し、次いで、フレームが不活性であれば、ノイズ推定更新値は後程上方へ更新する。下方へのノイズ更新は安全であり、この更新は音声活性状態に左右されずに行うことが可能である。

ノイズ低減
信号領域に対してノイズ低減処理を適用し、オーバラップと追加とを利用して脱ノイズ化信号の再構成が行われる。低減処理は、ｇ_minと１との間に制限値を設けたスケーリング利得値であって、当該臨界帯域における信号対雑音比（ＳＮＲ）から導き出したスケーリング利得値を用いて、個々の臨界帯域においてスペクトルのスケーリングを行うことにより実行される。ノイズ抑制における新たな特徴として、信号の有声化に関係する或る一定の周波数よりも低い周波数に対して、周波数ビン毎のベースで処理を実行し、臨界帯域ベースでは実行しないという特徴が挙げられる。このようにして、当該周波数ビン内のＳＮＲから導き出されるすべての周波数ビンに対してスケーリング利得値が印加されることになる（ＳＮＲは、当該ビンを含む臨界帯域のノイズエネルギによって分割されたビンエネルギを利用して計算される）。この新たな特徴によって、歪みを防止するために高調波間でノイズを強く低減させながら、高調波近くの周波数でエネルギを保持することが可能となる。有声信号に対してのみ、そして、利用される周波数分析の周波数分解能が与えられている場合に、相対的に短いピッチ周期を有する信号に対して上記特徴を利用することが可能となる。しかし、正確に言えば、これらの信号は高調波間のノイズを最も知覚できる信号である。

図３は、開示された処理手順の概観を示す図である。ブロック３０１でスペクトル分析が実行される。ブロック３０２は、有声臨界帯域の数が０よりも大きいかどうかを検証するブロックである。この場合、第１の有声のＫ個の帯域でビン毎の処理を実行するブロック３０４でノイズ低減処理手順が実行され、残りの帯域で帯域毎の処理が実行される。Ｋ＝０ならば、帯域毎の処理がすべての臨界帯域に適用される。後程説明するように、スペクトルに対するノイズ低減処理を行った後、ブロック３０５は逆ＤＦＴ分析を実行し、オーバラップ追加処理を利用して強化された音声信号を再構成する。

最小のスケーリング利得値ｇ_minが、最大の許されるノイズ低減値（ＮＲ_max）からｄＢで導き出される。この最大の許されるノイズ低減値は、１４ｄＢのデフォルト値を有する。したがって、最小のスケーリング利得値は下記の式によって与えられることになる。

そして、この最小のスケーリング利得値は１４ｄＢのデフォルト値として０.１９９５３に等しくなる。

ＶＡＤ＝０の非活性フレームの場合、同じスケーリングがスペクトル全体にわたって適用され、ノイズ抑制が活性状態になった場合（ｇ_minが１よりも低い場合）、このスケーリングはｇ_s＝０．９ｇ_minによって示される。すなわち、スペクトルのスケーリングがなされた実数成分と虚数成分とは下記の式によって与えられる。

狭帯域入力用として前述の式（１９）での上限値が７９に設定される（３９５０Ｈｚまで）ことに留意されたい。

活性フレームの場合、臨界帯域毎のＳＮＲと関係して、あるいは、第１の有声帯域用として周波数ビン毎にスケーリング利得値が計算される。Ｋ_VOIC＞０の場合、ビン毎のノイズ抑制は第１のＫ_VOIC帯域で実行される。帯域毎のノイズ抑制が残りの帯域に対して利用される。Ｋ_VOIC＝０の場合、帯域毎のノイズ抑制がスペクトル全体に対して利用される。後程説明するように、Ｋ_VOICの値が更新される。Ｋ_VOICの最大値は１７であり、したがって、３７００Ｈｚの最大周波数に対応する第１の１７個の臨界帯域に対してのみ周波数ビン毎の処理を適用することが可能となる。周波数ビン毎の処理を利用できる対象となる周波数ビンの最大数は７４（第１の１７の帯域内のビンの数）である。例外として、本セクションで後程説明するハードハングオーバフレームの場合がある。

代替実施例では、Ｋ_VOICの値を固定値にすることも可能である。この場合、すべてのタイプの音声フレームで、或る一定の帯域まで周波数ビン毎の処理が実行され、帯域毎の処理が別の帯域に適用される。

或る一定の臨界帯域内の、あるいは、或る一定の周波数ビンに対するスケーリング利得値がＳＮＲの関数として計算され、下記の式によって与えられる。
（ｇ_s）²＝ｋ_sＳＮＲ＋ｃ_s （ｇ_min≦ｇ_s≦１）（２０）

ＳＮＲ＝１に対してｇ_s＝ｇ_min、ＳＮＲ＝４５に対してｇ_s＝１のようにして、ｋ_sとｃ_sの値が決定される。すなわち、１ｄＢ以下のＳＮＲに対してはスケーリングをｇ_sに限定し、４５ｄＢ以上のＳＮＲに対しては所定の臨界帯域内ではノイズ抑制は実行されない（ｇ_s＝１）。したがって、これら２つのエンドポイントが与えられれば、前述の式（２０）内のｋ_sとｃ_sの値は下記の式によって与えられる。

前述の式（２０）内の変数ＳＮＲは、処理のタイプに応じて、臨界帯域毎のＳＮＲ（ＳＮＲ_CB（ｉ））か、周波数ビン毎のＳＮＲ（ＳＮＲ_BIN（ｋ））かのいずれかになる。

フレーム内の第１のスペクトル分析の場合、臨界帯域毎のＳＮＲは下記の式として計算される。

そして、第２のスペクトル分析の場合、ＳＮＲは下記の式として計算される。

但し、Ｅ_CB ⁽¹⁾(ｉ)とＥ_CB ⁽²⁾(ｉ)とは、それぞれ、（前述の式（２）で計算されるような）第１および第２のスペクトル分析に対する臨界帯域情報毎のエネルギを示し、Ｅ_CB ⁽⁰⁾(ｉ)は、前回のフレームの第２の分析から得られる臨界帯域情報毎のエネルギを示し、Ｎ_CB（ｉ）は臨界帯域毎のノイズエネルギ推定値を示す。

第１のスペクトル分析の場合、フレーム内の或る一定の臨界帯域ｉでの臨界ビン毎のＳＮＲは下記の式として計算される。

但し、Ｅ_BIN ⁽¹⁾(ｋ)とＥ_BIN ⁽²⁾(ｋ)とは、それぞれ、（前述の式（３）で計算されているような）第１および第２のスペクトル分析用の周波数毎のエネルギを示し、Ｅ_BIN ⁽⁰⁾(ｋ)は前回のフレームの第２の分析から得られる周波数毎のエネルギを示し、Ｎ_CB（ｉ）は臨界帯域毎のノイズエネルギ推定値を示す。ｊ_iはｉ番目の臨界帯域における第１の周波数ビンのインデックスであり、Ｍ_CB（ｉ）は、上記で定義された臨界帯域ｉでの周波数ビンの数である。

インデックスｉを有する帯域用の臨界帯域毎の処理の場合、前述の式（２２）の場合のようにスケーリング利得値を決定した後、そして、前述の式（２４）または式（２５）に定義されるようにＳＮＲを利用して、周波数毎の分析時に更新される平滑化済みのスケーリング利得値を利用して、実際のスケーリングが実行される。
ｇ_BIN,LP（ｉ）＝α_gsｇ_BIN,LP（ｉ）＋（１−α_gs）ｇ_s （２６）

本発明では、平滑化係数が適応型の係数となり、上記利得自身に逆比例する関係になる新規な特徴が開示される。本実施例では、平滑化係数はα_gs＝１−ｇ_sによって示される。すなわち、平滑化ステップは小さなｇ_sに対するほど強くなる。このアプローチによって、有声音での立ち上りの場合のように低いＳＮＲフレームに先行する高いＳＮＲ音の部分での歪みが防止されることになる。例えば、無声の音声フレームでは、ＳＮＲが低くなるため、強いスケーリング利得値を利用して、スペクトル内のノイズの低減が図られることになる。有声音での立ち上りが無声音フレームに後続する場合、ＳＮＲはより高い比率になり、利得平滑化ステップがスケーリング利得値の迅速な更新を防止する場合、強いスケーリングが、良好でないパフォーマンスを結果としてもたらすことになる有声音での立ち上り時に利用されることが予想される。提案されたアプローチでは、平滑化処理手順は、立ち上り時に低いスケーリング利得値を迅速に適合させ、このスケーリング利得値を利用することが可能となる。

臨界帯域でのスケーリングは下記の式として実行される。

但し、ｊ_iは、臨界帯域ｉにおける第１の周波数ビンのインデックスであり、Ｍ_CB（ｉ）は当該臨界帯域内の周波数ビンの数である。

前述の式（２０）に記載のように、インデックスｉを持つ帯域内の周波数ビン毎の処理の場合、スケーリング利得値を決定し、前述の式（２４）または（２５）に定義されているようにＳＮＲを利用した後、周波数分析毎に更新される平滑化済みのスケーリング利得値を利用して、実際のスケーリングが下記の式として実行される。
ｇ_BIN,LP（ｋ）＝α_gsｇ_BIN,LP（ｋ）＋（１−α_g）ｇ_s （２８）
但し、前述の式（２６）の場合と同様、α_gs＝１−ｇ_s

利得の時間的平滑化ステップによって、可聴エネルギの発振が防止され、一方、例えば、有声音での立ち上りの場合のように、α_gsを利用する平滑化制御ステップによって、低ＳＮＲフレームに先行する高いＳＮＲ音の部分内の歪みが防止される。

臨界帯域ｉにおけるスケーリングは下記の式として実行される。

但し、ｊ_iは、臨界帯域ｉ内の第１のビンのインデックスであり、Ｍ_CB（ｉ）は当該臨界帯域内のビンの数である。

平滑化済みのスケーリング利得値ｇ_BIN,LP（ｋ）とｇ_BIN,LP（ｉ）とは最初１に設定される。非活性フレームが処理される度に（ＶＡＤ＝０）、平滑化された利得値が前述の式（１８）で定義されたｇ_minにリセットされる。

前述のように、Ｋ_VOIC＞０ならば、周波数ビン毎のノイズ抑制が第１のＫ_VOICの帯域に対して実行され、前述の処理手順を利用して帯域毎のノイズ抑制が残りの帯域に対して実行される。すべてのスペクトル分析では、平滑化済みのスケーリング利得値ｇ_BIN,LP（ｉ）がすべての臨界帯域に対して更新されることに留意されたい（周波数ビン毎の処理によって処理される有声化帯域の場合であっても、このケースでは、ｇ_BIN,LP（ｉ）が帯域ｉに属するｇ_BIN,LP（ｋ）の平均値を用いて更新される）。同様に、スケーリング利得値ｇ_BIN,LP（ｋ）は第１の１７の帯域ですべての周波数ビンに対して更新される。帯域毎の処理を用いる処理帯域の場合、これら１７の特定の帯域内でスケーリング利得値ｇ_BIN,LP（ｋ）をｇ_BIN,LP（ｉ）に等しく設定することによって更新される。

ノイズのない音声の場合、ノイズ抑制が活性音声フレームでは実行されないことに留意されたい（ＶＡＤ＝１）。これはすべての臨界帯域で最大ノイズエネルギを発見することによって検出される。ｍａｘ（Ｎ_CB（ｉ））、ｉ＝０，．．．，１９、そして、この値が１５以下の場合、ノイズ抑制は実行されない。

上述のように、非活性フレーム（ＶＡＤ＝０）に対して、０．９ｇ_mimのスケーリングがスペクトル全体に適用され、これは、一定のノイズフロアの除去に相当する。ＶＡＤの短いハングオーバフレームに対して（ＶＡＤ＝１かつローカルのＶＡＤ＝０）、帯域毎の処理が前述のように第１の１０の帯域に対して適用され（１７００Ｈｚに対応）、次いで、スペクトルの残り部分に対して定数値ｇ_minによって残りのスペクトルのスケーリングを行うことによって一定のノイズフロアが減算される。この測定ステップによって、高周波数ノイズエネルギ発振が大幅に低減される。１０番目の帯域以上のこれらの帯域に対しては、平滑化済みのスケーリング利得値ｇ_BIN,LP（ｉ）はリセットされず、ｇ_s＝ｇ_minで前述の式（２６）を利用して更新が行われ、周波数ビン毎の平滑化済みのスケーリング利得値ｇ_BIN,LP（ｋ）が、これらのスケーリング利得値をｇ_BIN,LP（ｉ）に等しく設定することによって更新される。

前述の処理手順は、低減アルゴリズムが処理対象の音声フレームの性質に依存するクラス固有のノイズ低減処理と理解することができる。これは図４に例示されている。ブロック４０１は、ＶＡＤフラグが０（不活性音声）であるかどうかを検証するブロックである。ＶＡＤフラグが０であれば、スペクトル全体に同じスケーリング利得値を印加することによって、スペクトルから一定のノイズフロアが除去される（ブロック４０２）。ＶＡＤフラグが０でなければ、ブロック４０３は、フレームがＶＡＤハングオーバフレームであるかどうかの検証を行う。フレームがＶＡＤハングオーバフレームであれば、第１の１０個の帯域内で帯域毎の処理が利用され、残りの帯域では同じスケーリング利得値が利用される（ブロック４０６）。フレームがＶＡＤハングオーバフレームでなければ、ブロック４０５はスペクトルの形で第１の帯域内で有声化が検出されたかどうかを検証する。有声化が検出された場合、第１のＫ個の有声化帯域でビン毎の処理が実行され、帯域毎の処理が残りの帯域で実行される（ブロック４０６）。有声帯域が検出されなかった場合、すべての臨界帯域で帯域毎の処理が実行されることになる（ブロック４０７）。

（１２８００Ｈｚまでアップサンプリングされる）狭帯域信号の処理の場合、ノイズ化された抑制が第１の１７個の帯域に対して実行される（３７００Ｈｚまで）。３７００Ｈｚと４０００Ｈｚ間の残りの５個の周波数ビンの場合、スペクトルは３７００Ｈｚでビンにおける最後のスケーリング利得値ｇ_sを利用してスケールされる。スペクトルの残り部分（４０００Ｈｚから６４００Ｈｚまで）に対しては、スペクトルはゼロになる。

脱ノイズ化信号の再構成
スケーリングされたスペクトル成分Ｘ_R（ｋ）とＸ’_I（ｋ）の決定後、逆ＦＦＴがスケーリングされたスペクトルに適用され、下記の式に示すように、時間領域においてウィンドウ化された脱ノイズ化信号が取得される。

上記処理がフレーム内の双方のスペクトル分析用として反復されて、脱ノイズ化されたウィンドウ化信号ｘ_w,d ⁽¹⁾(ｎ)とｘ_w,d ⁽²⁾(ｎ)とが取得される。１／２フレーム毎に、オーバラップ追加処理を利用して、分析のオーバラップ部分に対する信号の再構成が行われる。平方ハニング・ウィンドウがスペクトル分析より前に原信号に対して用いられるため、同じウィンドウがオーバラップ追加処理より前に逆ＦＦＴの出力側で適用される。したがって、２倍のウィンドウ化された脱ノイズ化信号が下記の式によって与えられることになる。

分析ウィンドウの第１の半分に対して、脱ノイズ化信号を構成するためのオーバラップ追加処理が下記の式として実行される。

次いで、分析ウィンドウの第２の半分に対して、脱ノイズ化信号を構成するオーバラップ追加処理が下記の式として実行される。

但し、ｘ_w,d ⁽⁰⁾(ｎ)は、前回のフレームでの第２の分析から得られる２倍のウィンドウ化された脱ノイズ化信号である。

オーバラップ追加処理と共に、音声エンコーダフレームとノイズ低減フレームとの間に２４サンプルのシフトが存在するため、本フレームに加えて先読みから２４サンプルまで脱ノイズ化信号の再構成が可能であることに留意されたい。しかし、線形予測（ＬＰ）分析とオープンループピッチ分析とのための音声エンコーダによる先読みの終了のためには、別の１２８サンプルがまだ必要となる。この部分は、オーバラップ追加処理を実行することなく脱ノイズ化されたウィンドウ化信号ｘ_w,d ⁽²⁾(ｎ)の第２の半分の逆ウィンドウ操作を行うことによって一時的に取得される。すなわち、下記の式により表される。

信号の当該部分は、オーバラップ追加処理の利用時に次のフレームで適正に再計算されることに留意されたい。

ノイズエネルギ推定値更新
このモジュールは、ノイズ抑制用として臨界帯域毎のノイズエネルギ推定値を更新するものである。更新は不活性発話時間中に実行される。しかし、臨界帯域毎のＳＮＲに基づいて上記で実行されるＶＡＤ決定は、ノイズエネルギ推定値を更新するかどうかの決定には用いられない。別の決定が、臨界帯域毎のＳＮＲに依存しない別のパラメータに基づいて実行される。ノイズ更新決定用として使用されるパラメータには、以下の、ピッチ安定性、信号の非静的状態、有声化、および、２次ＬＰ線形予測残差エネルギと１６次ＬＰ線形予測残差エネルギとの間の比率パラメータがあり、一般に低感度のノイズレベルの変動を有する。

ノイズ更新用のエンコーダＶＡＤの決定を利用しない理由として、ノイズレベルを敏速に変更するためにノイズ推定をロバストなものにするという理由がある。エンコーダのＶＡＤの決定がノイズ更新に利用された場合、ノイズレベルの突然の上昇が、非活性音声フレームに対してさえもＳＮＲの上昇を引き起こす原因になり、ノイズ推定装置の更新を妨げることになり、これが、今度は、次のフレームでＳＮＲを高く維持することになる、等々。したがって、ノイズ更新が阻止されることになり、別の何らかの論理回路がノイズの適合化を再開する必要が生じることになる。

本実施例では、オープンループピッチ分析がエンコーダで実行され、３つのオープンループピッチ推定値が、第１のハーフフレーム、第２のハーフフレームおよび先読みにそれぞれ対応してフレーム：ｄ₀、ｄ₁、ｄ₂毎に計算される。ピッチ安定性カウンタは下記の式として計算される。
ｐｃ＝|ｄ₀−ｄ_-1|＋|ｄ₁−ｄ₀|＋|ｄ₂−ｄ₁| （３１）
但し、ｄ_-1は、前回のフレームの第２のハーフフレームの通信のタイムラグである。本実施例では、１２２よりもさらに大きなピッチラグ用として、オープンループピッチ探索モジュールがｄ₂＝ｄ₁を設定する。したがって、このような通信のタイムラグに対して、前述の式（３１）のｐｃの値に３／２を乗じて、数式の欠落している第３項の補正が行われる。ピッチ安定性はｐｃの値が１２未満であれば、真となる。さらに、低い有声化用フレームに対して、ｐｃを１２に設定して、ピッチの不安定性を示す。
すなわち、下記の式により表される。
（ｃ_norm（ｄ₀）＋ｃ_norm（ｄ₁）＋ｃ_norm（ｄ₂））／３＋ｒ_e＜０.７ならば、ｐｃ＝１２（３２）
但し、ｃ_norm（ｄ）は生の正規化相関値であり、ｒ_eは、低減値を補正するために、暗騒音の存在時の正規化相関値に追加されるオプションの補正値である。本実施例では、デシメーションを受けた重み付き音声信号ｓ_wd（ｎ）に基づいて正規化相関値が計算され、下記の式によって与えられる。

但し、加重制限値は自身の遅延時間に依存する。本実施例では、オープンループピッチ分析で使用する重み付き信号に対して２だけデシメーションが行われ、加重制限値は、下記の式に従って与えられる。
ｄ＝１０，．．．，１６の場合Ｌ_sec＝４０
ｄ＝１７，．．．，３１の場合Ｌ_sec＝４０
ｄ＝３２，．．．，６１の場合Ｌ_sec＝６２
ｄ＝６２，．．．，１１５の場合Ｌ_sec＝１１５

信号の非静的状態推定値は、臨界帯域毎のエネルギと臨界帯域毎の平均長期エネルギとの間の比率の積に基づいて実行される。

臨界帯域毎の平均長期エネルギは下記の式によって更新される。

但し、広帯域信号の場合、ｂ_min＝０かつｂ_max＝１９であり、狭帯域信号の場合、ｂ_min＝１かつｂ_max＝１６であり、／Ｅ_CB (ｉ)は、前述の式（１４）で定義される臨界帯域毎のフレームエネルギである。更新係数α_eは総フレームエネルギの一次関数であり、前述の式（５）で定義され以下のように与えられる。
広帯域信号の場合、α_e＝０.０２４５Ｅ_tot−０.２３５（０.５≦α_e≦０.９９）
狭帯域信号の場合、α_e＝０.０００９１Ｅ_tot＋０.３１８５（０.５≦α_e≦０.９９９）

フレームの非静的状態は、フレームエネルギと臨界帯域毎の平均長期エネルギとの間の比率の積によって与えられる。すなわち、下記の式により表される。

ノイズ更新の有声化係数（ｖｏｉｃｉｎｇ）は下記の式によって与えられる。
ｖｏｉｃｉｎｇ＝（ｃ_norm（ｄ₀）＋ｃ_norm（ｄ₁））／２＋ｒ_e （３５）

最後に、２次および１６次の分析後のＬＰ残留エネルギとの間の比率は、下記の式によって与えられる。
ｒｅｓｉｄ_ｒａｔｉｏ＝Ｅ（２）／Ｅ（１６）（３６）
但し、Ｅ（２）およびＥ（１６）は、２次および１６次の分析後のＬＰ残留エネルギであり、当業者にとっては周知のレヴィンソン−ダービン漸化式（Levinson-Durbin recursion）で計算される。この比率は、信号スペクトル包絡を表すためには、一般に、より高次のＬＰの方がノイズ用の音声信号にとって必要であるという事実を反映する比率である。言い換えれば、Ｅ（２）とＥ（１６）との間の差分はノイズ用の活性音声用の場合よりも低くなるように仮定されている。

更新値の決定は、当初６に設定される可変ノイズ更新値に基づいて行われ、非活性フレームが検出された場合、１だけ減少し、活性フレームが検出された場合、２だけ増分する。さらに、ノイズ更新値は０と６によって制限される。ノイズエネルギはｎｏｉｓｅ_ｕｐｄａｔｅ＝０のときにのみ更新される。

可変ノイズの更新値は、個々のフレームにおいて以下のように更新される。
（ｎｏｎｓｔａｔ＞ｔｈ_stat）または（ｐｃ＜１２）（有声化＞０.８５）または（ｒｅｓｉｄ_ｒａｔｉｏ＞ｔｈ_resid）の場合、
ｎｏｉｓｅ_ｕｐｄａｔｅ＝ｎｏｉｓｅ_ｕｐｄａｔｅ＋２
そうでない場合には、
ｎｏｉｓｅ_ｕｐｄａｔｅ＝ｎｏｉｓｅ_ｕｐｄａｔｅ−１0
但し、広帯域信号に対して、ｔｈ_stat＝３５００００かつｔｈ_resid＝１.９、および、狭帯域信号に対して、ｔｈ_stat＝５０００００かつｔｈ_resid＝１１

言い換えれば、（ｎｏｎｓｔａｔ≦ｔｈ_stat）かつ（ｐｃ≧１２）（有声化≦０.８５）かつ（ｒｅｓｉｄ_ｒａｔｉｏ≦ｔｈ_resid）、かつ、ノイズ更新が行われる前に６個のフレームのハングオーバが使用されるとき、フレームはノイズ更新に対して不活性と宣言される。

したがって、ｎｏｉｓｅ_ｕｐｄａｔｅ＝０ならば、
ｉ＝０．．．１９に対して、Ｎ_CB（ｉ）＝Ｎ_tmp（ｉ）になる。但し、Ｎ_tmp（ｉ）は、前述の式（１７）ですでに計算された一時的に更新されたノイズエネルギである。

有声化カットオフ周波数の更新値
それ未満の周波数の信号が有声音であると見なされるカットオフ周波数が更新される。この周波数を利用して臨界帯域の数が決定され、この臨界帯域に対して周波数ビン毎の処理を利用してノイズ抑制が実行される。

第１に有声音測定値が下記の式として計算される。
ｖ_g＝０.４ｃ_norm（ｄ₁）＋０.６ｃ_norm（ｄ₂）＋ｒ_e （３７）
そして、有声化カットオフ周波数が下記の式によって与えられる。

次いで、ｆ_cを上回らない上位周波数を有する臨界帯域の数、Ｋ_voicが決定される。３２５≦ｆ_c≦３７００の境界周波数が、最小値３の帯域と最大値１７の帯域とで周波数ビン毎の処理が実行されるように設定される（上記の定義された臨界帯域上限値を意味する）。有声音測定値計算時に、先読みの正規化相関に対してさらなる重み付けが与えられることに留意されたい。というのは、所定数の有声帯域が次のフレームで使用されることになるからである。

したがって、上記に記載のように、次のフレームで、第１のＫ_voic臨界帯域に対して、ノイズ抑制は周波数ビン毎の処理を利用することになる。

低い有声化を用いたフレームの場合、および、大きなピッチ遅延時間の場合、臨界帯域毎の処理のみが利用され、この結果Ｋ_VOICが０に設定されることに留意されたい。以下の条件は次の場合に用いられる。
（０.４ｃ_norm（ｄ₁）＋０６Ｃ_norm（ｄ₂）≦０.７２）または（ｄ₁＞１１６）または（ｄ₂＞１１６）ならば、ｋ＝０

いうまでもなく、他に多くの修正および変更例が可能である。以上述べたような本発明の実施形態についての詳細な説明例および関連図面に鑑みて、上記のような他の修正および変更例は当業者にとっては明らかにである。また一方で、自明なことであるが、本発明の精神と範囲から逸脱することなく、上記のような他の変更例を実施することも可能である。

ノイズ低減を含む音声通信システムを概略的に示すブロック図である。スペクトル分析時のウィンドウ操作を例示する図である。ノイズ低減アルゴリズムの実施例の概観図である。クラスを特定するノイズ低減の実施例を概略的に示すブロック図であって、ノイズ低減アルゴリズムが処理対象の音声フレームの性質に依存するブロック図である。

Claims

音声信号のノイズ抑制方法であって、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うステップと、
前記周波数ビンを複数の周波数帯域にグループ化するステップとを有する方法において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声信号のノイズ抑制方法。
周波数帯域の前記第１の数が、有声化された周波数帯域の前記第１の数に従って決定される請求項１に記載の方法。
それ未満の周波数の信号が有声音であると見なされる有声化カットオフ周波数に関して、周波数帯域の前記第１の数を決定する請求項１に記載の方法。
周波数帯域の前記第１の数が、前記音声信号のすべての周波数帯域を含み、前記すべての周波数帯域が前記有声化カットオフ周波数を上回らない上位周波数を有する請求項３に記載の方法。
周波数帯域の前記第１の数が所定の固定数である請求項１に記載の方法。
前記音声信号の周波数帯域が有声化されていない場合、すべての周波数帯域に対して周波数帯域毎のベースでノイズの抑制を行う請求項１に記載の方法。
前記音声信号が、複数のサンプルを含む音声フレームを含み、請求項１に記載の方法を適用して、音声フレーム内のノイズの抑制を行う請求項１に記載の方法。
前記音声フレームの第１のサンプルに関してｍ個のサンプルによってオフセットされる分析ウィンドウを利用して、請求項１の前記周波数分析を行うステップを有する請求項７に記載の方法。
前記音声フレームの第１のサンプルに関してｍ個のサンプルによってオフセットされる第１の分析ウィンドウを利用して、第１の周波数分析を行うステップと、前記音声フレームの第２のサンプルに関してｐ個のサンプルによってオフセットされる第２の分析ウィンドウを利用して、第２の周波数分析を行うステップとを有する請求項７に記載の方法。
ｍ＝２４で、ｐ＝１２８である請求項９に記載の方法。
前記第２の分析ウィンドウが、前記音声フレームから、後続する音声フレームの中へ延在する先読み部分を含む請求項９に記載の方法。
前記周波数ビンおよび周波数帯域の少なくとも一方にスケーリング利得値を印加してノイズの抑制を行うステップを有する請求項１に記載の方法。
周波数ビン毎のベースでノイズの抑制を行うときに、周波数ビンに対して周波数ビン固有のスケーリング利得値を決定するステップをさらに有する請求項１に記載の方法。
周波数帯域毎のベースでノイズの抑制を行うときに、周波数帯域に対して周波数帯域特有のスケーリング利得値を決定するステップを有する請求項１に記載の方法。
一定のスケーリング利得値を印加することによってノイズの抑制を行うステップを有する請求項６に記載の方法。
周波数ビンに対して決定された前記周波数ビンの信号対雑音比（ＳＮＲ）に関して、前記周波数ビンに対して周波数ビン特有のスケーリング利得値を決定するステップを有する請求項１３に記載の方法。
周波数帯域に対して決定された前記周波数帯域の信号対雑音比（ＳＮＲ）に関して、前記周波数帯域に対して周波数帯域特有のスケーリング利得値を決定するステップを有する請求項１４に記載の方法。
前記第１および第２の周波数分析の各々に対して請求項１６に記載のステップを有する請求項１６に記載の方法。
前記第１と第２の周波数分析の各々に対して請求項１７に記載のステップを有する請求項１７に記載の方法。
前記スケーリング利得値が、平滑化済みのスケーリング利得値である請求項１２〜１４のいずれか一項に記載の方法。
或る特定の周波数ビン、または或る特定の周波数帯域のスケーリング利得値に対して逆比例する値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するステップを有する請求項１２〜１４のいずれか一項に記載の方法。
平滑化ステップが、小さな値のスケーリング利得に対してより強くなるように決定された値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するステップを有する請求項１２〜１４のいずれか一項に記載の方法。
前記スケーリング利得の値を決定するステップが、音声フレーム毎にｎ回（ｎは１よりも大きい）発生する請求項１３または１４に記載の方法。
ｎ＝２である請求項２３に記載の方法。
音声フレーム毎にｎ回（ｎは１よりも大きい）前記スケーリング利得の値を決定するステップを有する方法であって、前記有声化カットオフ周波数が少なくとも部分的に前回の音声フレーム内の前記音声信号の関数である請求項１３または１４に記載の方法。
周波数ビン毎のベースのノイズ抑制が、１７の帯域に対応する７４ビンの最大値で行われる請求項１３に記載の方法。
周波数ビン毎のベースのノイズ抑制が、３７００Ｈｚの周波数に従って最大数の周波数ビンで行われる請求項１３に記載の方法。
第１のＳＮＲ値に対しては前記スケーリング利得の値が最小値に設定され、前記第１のＳＮＲ値よりも大きな第２のＳＮＲ値に対しては前記スケーリング利得の値が１に設定される請求項１６に記載の方法。
前記第１のＳＮＲ値が約１ｄＢに等しく、前記第２のＳＮＲ値が約４５ｄＢである請求項２８に記載の方法。
活性音声を含まない音声信号の検出セクションをさらに具備する請求項２０に記載の方法。
活性音声を含まない音声信号のセクションの検出に応答して、前記平滑化済みのスケーリング利得を最小値にリセットするステップをさらに有する請求項３０に記載の方法。
複数の周波数帯域内の最大ノイズエネルギがしきい値未満であるときに、前記ノイズ抑制手法が活性音声フレームでは実行されない請求項７に記載の方法。
短いハングオーバ音声フレームの発生に応答して、第１のｘ周波数帯域用の帯域毎のベースで決定された平滑化済みのスケーリング利得を印加して前記音声信号の周波数スぺクトルのスケーリングを行うステップと、前記スケーリング利得の単一値を印加して前記音声信号の周波数スぺクトルの残りの周波数帯域のスケーリングを行うステップとをさらに有する請求項７に記載の方法。
前記第１のｘ周波数帯域が、１７００Ｈｚまでの周波数に対応する請求項３３に記載の方法。
狭帯域音声信号に対して、個々の周波数帯域が少なくとも２つの周波数ビンを具備する第１のｘ周波数帯域であって、前記第１のｘ周波数帯域が３７００Ｈｚまでの周波数に対応する前記周波数帯域毎のベースで決定された平滑化済みのスケーリング利得値を印加することによってノイズの抑制を行うステップと、３７００Ｈｚに対応する前記周波数ビンで、前記スケーリング利得の値を印可することによってノイズの抑制を行うステップと、前記音声信号の周波数スぺクトルの残りの周波数帯域をゼロにするステップとをさらに有する請求項２０に記載の方法。
前記狭帯域音声信号が、１２８００Ｈｚまでアップサンプリングされた狭帯域音声信号である請求項３５に記載の方法。
計算された有声音測定値を用いて前記有声化カットオフ周波数を決定する請求項３に記載の方法。
前記有声化カットオフ周波数を上回らない上位周波数を有する臨界帯域の数をさらに決定するステップを有しており、ｘ周波数帯域の最小値とｙ周波数帯域の最大値とに対して周波数ビン毎の処理を実行するように境界周波数を設定する請求項３７に記載の方法。
ｘ＝３およびｙ＝１７である請求項３８に記載の方法。
３２５Ｈｚ以上で、かつ、３７００Ｈｚ以下となるように前記有声化カットオフ周波数の境界周波数を設ける請求項３７に記載の方法。
音声信号内のノイズを抑制する装置であって、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声信号内のノイズを抑制する装置。
周波数帯域の前記第１の数が、有声化された周波数帯域の第１の数に従って決定される請求項４１に記載の装置。
それ未満の周波数の信号は有声音であると見なされる有声化カットオフ周波数に関して、周波数帯域の前記第１の数を決定するように構成される請求項４１に記載の装置。
周波数帯域の前記第１の数が、前記音声信号のすべての周波数帯域を含み、前記すべての周波数帯域が前記有声化カットオフ周波数を上回らない上位周波数を有する請求項４３に記載の装置。
周波数帯域の前記第１の数が所定の固定数である請求項４１に記載の装置。
前記音声信号の周波数帯域が有声化されていない場合、すべての周波数帯域に対して周波数帯域毎のベースでノイズの抑制を行う請求項４１に記載の装置。
前記音声信号が複数のサンプルを含む音声フレームを含み、音声フレーム内のノイズの抑制を行うように構成される請求項４１に記載の装置。
前記音声フレームの第１のサンプルに関してｍ個のサンプルによってオフセットされる分析ウィンドウを利用して、前記周波数分析を行うように構成される請求項４７に記載の装置。
前記音声フレームの第１のサンプルに関してｍ個のサンプルによってオフセットされる第１の分析ウィンドウを利用して、第１の周波数分析を行い、前記音声フレームの第２のサンプルに関してｐ個のサンプルによってオフセットされる第２の分析ウィンドウを利用して、第２の周波数分析を行うように構成される請求項４７に記載の装置。
ｍ＝２４で、ｐ＝１２８である請求項４９に記載の装置。
前記第２の分析ウィンドウが、前記音声フレームから、後続する音声フレームの中へ延在する先読み部分を含む請求項４９に記載の装置。
前記周波数ビンおよび周波数帯域の少なくとも一方にスケーリング利得値を印加してノイズの抑制を行うように構成される請求項４１に記載の装置。
周波数ビン毎のベースでノイズの抑制を行うときに、周波数ビンに対して周波数ビン特有のスケーリング利得値を決定するようにさらに構成される請求項４１に記載の装置。
周波数帯域毎のベースでノイズの抑制を行うときに、周波数帯域に対して周波数帯域固有のスケーリング利得値を決定するようにさらに構成される請求項４１に記載の装置。
すべての周波数帯域に対して一定のスケーリング利得値を印加することによってノイズの抑制を行うように構成される請求項４６に記載の装置。
前記周波数ビンに対して決定された周波数ビンの信号対雑音比（ＳＮＲ）に関して、前記周波数ビンに対して周波数ビン固有のスケーリング利得値を決定するように構成される請求項５３に記載の装置。
前記周波数帯域に対して決定された前記周波数帯域の信号対雑音比（ＳＮＲ）に関して、前記周波数帯域に対して周波数帯域固有のスケーリング利得値を決定するように構成される請求項５４に記載の装置。
前記第１と第２の周波数分析の各々に対して請求項５６に記載のステップを実行するように構成される請求項５６に記載の装置。
前記第１と第２の周波数分析の各々に対して請求項５７に記載のステップを実行するように構成される請求項５７に記載の装置。
前記スケーリング利得値が平滑化済みのスケーリング利得値である請求項５２〜５４のいずれか一項に記載の装置。
或る特定の周波数ビン、または或る特定の周波数帯域のスケーリング利得値に対して逆比例する値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するように構成される請求項５２〜５４のいずれか一項に記載の装置。
平滑化ステップが、小さな値のスケーリング利得値に対してより強くなるように決定された値を有する平滑化係数を用いて、前記特定の周波数ビン、または前記特定の周波数帯域に対して印加すべき平滑化済みのスケーリング利得値を計算するように構成される請求項５２〜５４のいずれか一項に記載の装置。
音声フレーム毎にｎ回（ｎは１よりも大）前記スケーリング利得値を決定するように構成される請求項５３または５４に記載の装置。
ｎ＝２である請求項６３に記載の装置。
音声フレーム毎にｎ回（ｎは１よりも大きい）前記スケーリング利得値を決定するように構成される装置であって、前記有声化カットオフ周波数が少なくとも部分的に前回の音声フレーム内の前記音声信号の関数である請求項５３または５４に記載の装置。
１７の帯域に対応する７４ビンの最大値で周波数ビン毎のベースのノイズ抑制を行うように構成される請求項５３に記載の装置。
３７００Ｈｚの周波数に対応する最大数の周波数ビンで周波数ビン毎のベースのノイズ抑制を行うように構成される請求項５３に記載の装置。
第１のＳＮＲ値に対しては前記スケーリング利得値を最小値に設定し、前記第１のＳＮＲ値よりも大きな第２のＳＮＲ値に対しては前記スケーリング利得値を１に設定する請求項５６に記載の装置。
前記第１のＳＮＲ値が約１ｄＢに等しく、前記第２のＳＮＲ値が約４５ｄＢである請求項６８に記載の装置。
活性音声を含まない音声信号のセクションを検出するように構成される請求項６０に記載の装置。
活性音声を含まない音声信号のセクションの検出に応答して、前記平滑化済みのスケーリング利得値を最小値にリセットするように構成される請求項７０に記載の装置。
複数の周波数帯域内の最大ノイズエネルギがしきい値未満であるときに、活性音声フレームでノイズ抑制を行わないように構成される請求項４７に記載の装置。
短いハングオーバ音声フレームの発生に応答して、第１のｘ周波数帯域に対して周波数帯域毎のベースで決定されたスケーリング利得値を平滑化することによってノイズ抑制を行い、残りの周波数帯域に対してスケーリング利得の単一値を印加することによってノイズ抑制を行うように構成される請求項４７に記載の装置。
前記第１のｘ周波数帯域が、１７００Ｈｚまでの周波数に対応する請求項７３に記載の装置。
狭帯域音声信号に対して、３７００Ｈｚまでの周波数に対応する第１のｘ周波数帯域に対して、前記周波数帯域毎のベースで決定された平滑化済みのスケーリング利得値を印加することによってノイズの抑制を行い、３７００Ｈｚに対応する前記周波数ビンのスケーリング利得値を３７００Ｈｚと４０００Ｈｚとの間の前記周波数ビンに印加することによってノイズの抑制を行い、前記第１のｘ周波数帯域が前記音声信号の周波数スぺクトルの残りの周波数帯域をゼロにするように構成される請求項６０に記載の装置。
前記狭帯域音声信号が、１２８００Ｈｚまでアップサンプリングされた狭帯域音声信号である請求項７５に記載の装置。
計算された有声音測定値を用いて前記有声化カットオフ周波数を決定する請求項４３に記載の装置。
前記有声化カットオフ周波数を上回らない上位周波数を有する臨界帯域の数をさらに決定するステップを有しており、ｘ周波数帯域の最小値とｙ周波数帯域の最大値とで周波数ビン毎の処理を実行するように構成される境界周波数を設定する請求項７７に記載の装置。
ｘ＝３およびｙ＝１７である請求項７８に記載の装置。
３２５Ｈｚ以上で、かつ、３７００Ｈｚ以下となるように前記有声化カットオフ周波数の境界周波数を設ける請求項７７に記載の装置。
ノイズ抑制装置を具備する音声エンコーダであって、前記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする音声エンコーダ。
ノイズ抑制装置を具備する自動音声認識システムであって、前記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする自動音声認識システム。
ノイズ抑制装置を具備する移動電話であって、前記ノイズ抑制装置が、
複数の周波数ビンを具備する音声信号のスペクトル領域表示を生成するために周波数分析を行うように構成され、
前記周波数ビンを複数の周波数帯域にグループ化するように構成される装置において、前記音声信号の中に有声化音声活性状態を検出したときに、周波数帯域の第１の数に対しては周波数ビン毎のベースでノイズの抑制を行い、前記周波数帯域の第２の数に対しては周波数帯域毎のベースでノイズの抑制を行うことを特徴とする移動電話。