JP4163267B2

JP4163267B2 - 雑音抑圧器及び移動局並びに雑音抑圧方法

Info

Publication number: JP4163267B2
Application number: JP33223796A
Authority: JP
Inventors: ベーヘータロアンティ; ヘッキネンユーハ; パージャネンエルッキ; マッティラビレ−ベイコ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1995-12-12
Filing date: 1996-12-12
Publication date: 2008-10-08
Anticipated expiration: 2016-12-12
Also published as: US5839101A; JPH09212195A; WO1997022117A1; DE69614989D1; EP0790599A1; DE69630580D1; WO1997022116A2; DE69630580T2; US5963901A; AU1067897A; JP2007179073A; EP0784311B1; JP2008293038A; AU1067797A; FI955947A0; JP5006279B2; JPH09204196A; EP0784311A1; WO1997022116A3; FI100840B

Description

【０００１】
【発明の属する技術分野】
本発明は、雑音抑圧方法、移動局、及び、音声信号中の雑音を抑圧するための雑音抑圧器に関する。この抑圧器は、前記音声信号を所定の第１周波数範囲を表す第１の量のサブ信号に分割するための手段と、サブ信号中の雑音を所定の抑圧係数に従って抑圧するための抑圧手段とを有する。本発明の雑音抑圧器は、特にセルラー通信網で動作する移動局において音響暗騒音を消去するために用いることのできるものである。本発明は、特にスペクトル減算に基づく暗騒音抑圧に関する。
【０００２】
【従来の技術】
スペクトル減算に基づく種々の雑音抑圧方法が従来技術から知られている。スペクトル減算を使用するアルゴリズムは、一般に、特許公報ＷＯ８９／０６８７７及びＵＳ５、０１２、５１９に開示されているように高速フーリエ変換（ＦＦＴ）を使用することにより、又は特許公報ＵＳ４、６３０、３０５、ＵＳ４、６３０、３０４、ＵＳ４、６２８、５２９、ＵＳ４、８１１、４０４及びＥＰ３４３７９２に開示されているようにフィルター群を使用することによって、信号を周波数に応じて各周波数成分に、即ちより小さな周波数範囲に、分割することに基づいている。スペクトル減算に基づく従来の手法では、パワースペクトル（振幅スペクトル）の各周波数範囲に対応する成分が計算され、各周波数範囲が別々に処理される、即ち雑音は各周波数範囲について別々に抑圧される。通常、この様な処理は次のように行われる。即ち、各周波数範囲の信号が音声を含んでいるか否か各周波数範囲について別々に検出し、もし含んでいなければ雑音が関係しているので、その信号を抑圧する。最後に、各周波数範囲の信号を再結合させることにより、雑音抑圧された信号である出力とする。スペクトル減算に基づく従来公知の方法の欠点は、各周波数範囲について別々に計算を実行しなければならないために計算量が多いことである。
【０００３】
スペクトル減算に基づく雑音抑圧方法は、一般に、雑音信号の推定値を求め、種々の周波数帯域での雑音減衰量を調整するためにそれを利用する。雑音のパワーを表す変数の量を測定し、それを利用して増幅率を調整することが従来公知である。特許ＵＳ４、６３０、３０５は雑音抑圧方法を開示しており、その方法は、種々の周囲雑音値についての抑圧値のテーブルを利用して、減衰量調整のために平均雑音レベルを利用しようとするものである。
【０００４】
スペクトル減算に関連して窓掛け（windowing) が知られている。窓掛けの目的は、一般に、信号を時間領域において各フレームに分割することによって、その信号のスペクトル推定値の質を高めることである。窓掛けのもう一つの基本的目的は、例えばスピーチなどの変動する（不安定な）信号を、変動しないと（安定していると）見なすことのできる各セグメント（各フレーム）に細分することである。窓掛けに関して、ハミング型（Ｈａｍｍｉｎｇｔｙｐｅ）、ハニング型（Ｈａｎｎｉｎｇｔｙｐｅ）、又はカイゼル型（Ｋａｉｓｅｒｔｙｐｅ）の窓掛け方法を使うことが一般に知られている。スペクトル減算に基づく方法では、いわゆる５０％重なりハニング窓掛け方法（50 % overlapping Hanning windowing）と、逆ＦＦＴ（ＩＦＦＴ）と関連して使用されるいわゆる重なり・加算方法（overlap-add method）を使用するのが一般的である。
【０００５】
【発明が解決しようとする課題】
これらの従来公知の方法の全てに伴う問題は、窓掛け方法が特定のフレーム長を持っていて、窓掛けフレームの長さを他のフレーム長と調和させるのが困難であるということである。例えばデジタル移動電話通信網では、音声はフレームにより符号化され、特定の音声フレームがシステムで使用され、従って各音声フレームは例えば２０ｍｓなどの指定された同じ長さを有する。窓掛けのためのフレーム長が音声符号化用のフレーム長と異なるときには、雑音抑圧及び音声符号化に使用される各フレーム長が異なるために雑音抑圧及び音声符号化を行うことに起因して発生する総遅延量が問題となる。
【０００６】
【課題を解決するための手段】
本発明による雑音を抑圧する方法においては、入力信号は始めに第１の量の周波数帯域に分割し、各周波数帯域に対応するパワースペクトル成分を計算し、第２の量のパワースペクトル成分を再結合させることにより、前記の第１の周波数帯域より広い第２の周波数帯域を表す計算スペクトル成分とし、この計算スペクトル成分に含まれている雑音に基づいて該計算スペクトル成分についての抑圧係数を決定し、前記計算スペクトル成分に基づく抑圧係数を用いて前記の第２の量のパワースペクトル成分を抑圧する。隣り合う数個の周波数帯域を表す数個の計算スペクトル成分を形成するのが好ましく、各計算スペクトル成分は種々のパワースペクトル成分を再結合させることにより形成される。各計算スペクトル成分は、他とは異なる数個のパワースペクトル成分からなり、或いは他の計算スペクトル成分と等しい数個のパワースペクトル成分からなっていてもよい。この様にして各計算スペクトル成分について雑音抑圧のための抑圧係数が形成され、各計算スペクトル成分が減衰させられ、減衰後の計算スペクトル成分が時間領域に再変換され、再結合されて、雑音抑圧された出力信号となる。計算スペクトル成分を前記の第１の量の周波数帯域より少数とし、その結果として声の質を低下させることなく計算量を減らすのが好ましい。
【０００７】
本発明の一実施例は、ＦＦＴ変換に基づいて各周波数成分に分割する。本発明の利点の一つは、本発明の方法では周波数範囲成分の数が減少していて、その結果として抑圧係数を計算する際の計算が少なくなるという顕著な利点が得られることである。各抑圧係数を広い周波数範囲に基づいて形成するときには、ランダムな雑音は抑圧係数の値を急に変化させることはできない。抑圧係数の値の急な変動は不快に聞こえるので、この様にして音声の質の向上が達成される。
【０００８】
本発明の方法では、入力信号から窓掛けにより各フレームが形成され、その窓掛けにおいては、音声符号化に用いられるフレーム長の均等商（ｅｖｅｎｑｕｏｔｉｅｎｔ）であるような長さのフレームが用いられる。この文脈において均等商とは音声符号化に用いられるフレーム長で均等に割り切れる数を意味し、例えばフレーム長１６０の均等商は８０、４０、３２、２０、１６、８、５、４、２及び１であることを意味する。この種の手法は総遅延量を著しく短くする。
【０００９】
更に前記の米国特許第４、６３０、３０５号と本発明の方法との他の差違は、平均音声パワーを得て相対雑音レベルを決定することである。推定音声レベル及び雑音レベルを決定し、それらを用いて雑音抑圧を行うことにより、雑音レベルだけを用いる場合より良好な結果が得られる。その理由は、雑音抑圧アルゴリズムに関しては音声のレベルと雑音レベルとの比率が非常に重要な意味を持つことである。
【００１０】
更に、本発明の方法では、テーブルに載っている固定された値を使用する従来の方法とは異なって、連続的な雑音レベル値（連続的な相対雑音レベル値）に従って抑圧量を調整する。本発明の方法では、後でもっと詳しく説明するように、各帯域での現在の信号対雑音比に応じて、相対雑音推定値に従って抑圧量を減少させる。このため、音声は可能な限り自然なままに保たれ、音声が優勢となっている帯域で音声が雑音を圧倒することが可能となる。この連続的抑圧調整は、連続的な値を有する各変数を使用することにより実現されている。連続的な、即ちテーブル上で固定されていない、各パラメータを使用することにより、雑音抑圧値に大きな瞬間的変化が生じることのない雑音抑圧が可能となる。また、従来公知の利得値のテーブル化のために必要な大きな記憶容量が不要となる。
【００１１】
本発明の雑音抑圧器及び移動局は、第２の量のサブ信号を再結合させて、前記の第１の周波数範囲より広い所定の第２の周波数範囲を表す計算信号とする再結合手段と、該計算信号に含まれている雑音に基づいて該計算信号についての抑圧係数を決定するための決定手段とを更にそなえており、抑圧手段が、再結合されて該計算信号となっている各該サブ信号を、該計算信号に基づいて決定された前記抑圧係数により抑圧するようにされていることを特徴とする。
【００１２】
本発明の雑音抑圧方法は、雑音抑圧を行う前に、第２の量のサブ信号を再結合させて、前記の第１の周波数範囲より広い所定の第２の周波数範囲を表す計算信号とし、該計算信号に含まれる雑音に基づいて該計算信号についての抑圧係数を決定し、再結合されて該計算信号となった各該サブ信号を、該計算信号に基づいて決定された前記抑圧係数により抑圧することを特徴とする。
【００１３】
【発明の実施の形態】
次に、添付図面を参照して本発明の雑音抑圧システムについて詳しく解説する。
【００１４】
図１は、本発明の装置の基本的機能を示すためのブロック図である。該装置の一実施例が図２及び図３に一層詳しく示されている。マイクロホン１から到来する音声信号はＡ／Ｄ変換器２でサンプリングされてデジタル信号ｘ（ｎ）となる。
【００１５】
音声コーデックにより使用されるフレーム長の均等商（ｅｖｅｎｑｕｏｔｉｅｎｔ）に対応する量の各サンプルがデジタル信号ｘ（ｎ）から取り出されて窓掛けブロック（ｗｉｎｄｏｗｉｎｇｂｌｏｃｋ）１０に送られる。窓掛けブロック１０において、フレームを形成するために、各サンプルに所定の窓（ｗｉｎｄｏｗ）が乗算される。ブロック１０において、フレームの長さをフーリエ変換に適するように調整するために、もし必要ならば窓掛けされたフレームに各サンプルが加算される。窓掛け後に、ＦＦＴブロック２０において該フレームについて高速フーリエ変換（ＦＦＴ）を使用してスペクトルが計算される。
【００１６】
ＦＦＴ計算２０の後に、信号中の雑音を抑圧するために計算ブロック２００で雑音抑制のための計算が行われる。雑音抑制のための計算を実行するために、ＦＦＴブロック２０から得られたスペクトル成分Ｘ（ｆ）に基づいて例えば振幅又はパワースペクトルＰ（ｆ）などの所望のタイプのスペクトルがスペクトル形成ブロック５０で形成される。各スペクトル成分Ｐ（ｆ）は周波数領域において或る周波数範囲を表す、即ちスペクトルを利用して、処理される信号が異なる周波数の幾つかの信号即ちスペクトル成分Ｐ（ｆ）に分割される。計算量を少なくするために、隣り合うスペクトル成分Ｐ（ｆ）同士が計算ブロック６０で合計され、スペクトル成分Ｐ（ｆ）の数より少数の、或る数のスペクトル成分結合が得られて、前記スペクトル成分結合が抑圧係数を計算するために計算スペクトル成分Ｓ（ｓ）として使われる。計算スペクトル成分Ｓ（ｓ）に基づいて、推定ブロック１９０において信号が音声又は暗騒音を含んでいるか否かが検出され、暗騒音についてのモデルが形成され、計算スペクトル成分の各周波数範囲について信号対雑音比が形成される。この様にして得られた信号対雑音比と暗騒音モデルとに基づいて、各計算スペクトル成分Ｓ（ｓ）について計算ブロック１３０で抑圧値Ｇ（ｓ）が計算される。
【００１７】
雑音を抑圧するために、掛け算器３０において、スペクトル成分Ｘ（ｆ）がその中に位置する周波数範囲に対応する抑圧係数Ｇ（ｓ）が、ＦＦＴブロック２０から得られた各スペクトル成分Ｘ（ｆ）に乗じられる。ＩＦＦＴブロック４０において、雑音抑圧係数Ｇ（ｓ）で調整された各スペクトル成分に対して逆高速フーリエ変換ＩＦＦＴが実行され、ここから、窓掛けブロック１０のために選択された各サンプルに対応する各サンプルが選択されて出力されて、出力即ち雑音抑圧されたデジタル信号ｙ（ｎ）となり、この信号は移動局において音声コーデックに回送されて音声符号化される。デジタル信号ｙ（ｎ）の各サンプルの量は、音声コーデックが使用するフレーム長の均等商であるので、音声コーデックのフレーム長に対応するような信号フレームが得られるまで、連続する雑音抑圧された信号ｙ（ｎ）が必要な量だけ音声コーデックに集められ、その後に音声コーデックは該音声フレームに対して音声符号化を実行することができるようになる。雑音抑圧器に使用されるフレーム長は音声コーデックのフレーム長の均等商であるので、この様にして雑音抑圧音声フレームと音声コーデック音声フレームとの長さが異なることに起因する遅延が防止される。
【００１８】
計算スペクトル成分Ｓ（ｓ）の数はスペクトル成分Ｐ（ｆ）の数より少ないので、それらに基づいて抑圧成分を計算することは、パワースペクトル成分Ｐ（ｆ）を計算に用いる場合よりかなり容易である。より広い周波数範囲について各々の新しい計算スペクトル成分Ｓ（ｓ）が計算されているので、それらの変化はスペクトル成分Ｐ（ｆ）の変化より小さい。それらの変化の原因は特に信号中のランダム雑音である。計算に使用される成分Ｓ（ｓ）のランダムな変化が小さいので、連続するフレーム同士の間で計算される抑圧係数Ｇ（ｓ）の変化も小さい。上記のように、周波数応答Ｘ（ｆ）の数個のサンプルを乗じるために同じ抑圧係数Ｇ（ｓ）が使用される結果として、同じフレーム内での周波数領域の変化が小さくなる。その結果として、抑圧係数の急激すぎる変化は不快に聞こえるので、音声の質が向上する。
【００１９】
次に、主として図２及び図３を参照して本発明の一実施例を更に詳しく説明する。以下の記述に現れるパラメータの値は例示的な値であって、本発明の一実施例を描写するものであるけれども、それらは本発明の方法の機能を特定のパラメータ値のみに限定するものではない。この実施例では、ＦＦＴ計算の長さは１２８サンプルであり、音声コーデックが使用するフレーム長は１６０サンプルであり、各音声フレームは２０ｍｓの音声から成ると仮定されている。また、この実施例では、各スペクトル成分の数を６５から８まで減らす、スペクトル成分の再結合が提示される。
【００２０】
図２及び図３は本発明の装置の一実施例のより詳しいブロック図である。図２及び図３において、該装置への入力はＡ／Ｄ変換されたマイクロホン信号であるが、このことは、音声信号がサンプリングされて８０個のサンプルから成るデジタル音声フレームとなっていることを意味する。音声フレームは窓掛けブロック１０に入力され、ここで音声フレームに窓が乗算させられる。この実施例で使用される窓掛け（ｗｉｎｄｏｗｉｎｇ）では窓同士が部分的に重なり合うので、部分的に重なり合う各サンプルが次のフレームのためにメモリ（ブロック１５）に記憶される。８０個のサンプルが信号から取り出されて、前のフレームの際に記憶された１６個のサンプルと結合されて、合計で９６サンプルとなる。最後に収集された各８０個のサンプルの中から、最後の１６個のサンプルが次のフレームの計算のために記憶される。
【００２１】
この様にして、与えられた９６個のサンプルに９６個のサンプル値から成る窓が窓掛けブロック１０において乗算され、図１１に描かれているようにその窓の始めの８個の値は窓の立ち上がり部Ｉ_Uを形成し、最後の８個の値は窓の立ち下がり部Ｉ_Dを形成する。窓Ｉ（ｎ）を下記のように定義することができ、ブロック１１（図４）で実現される：
【数１】

【００２２】
窓掛け（ブロック１１）をデジタル的に実施する方法はデジタル信号処理技術から当業者に知られている。この窓で中間の８０個の値（n = 8,..,87 即ち中間部Ｉ_M）は１であり、従ってそれらを乗算しても結果は変わらないので掛け算は省略される。従って、窓の中の始めの８個のサンプルと終わりの８個のサンプルだけを掛ければよい。ＦＦＴの長さは２の累乗でなければならないので、ブロック１１から得られた９６個のサンプルの終端部に３２個のゼロ（０）がブロック１２（図４）において付加されて、１２８個のサンプルから成る音声フレームとなる。サンプル列の終端部にサンプルを付加することは単純な操作であって、ブロック１２をデジタル的に実現することは当業者にとっては従来公知のことである。
【００２３】
窓掛けブロック１０で実行される窓掛けの後に、ブロック２０において音声フレームのスペクトルが高速フーリエ変換ＦＦＴにより計算される。ＦＦＴから得られた実数成分及び虚数成分は平方ブロック５０で絶対値平方され、対をなして加え合わされ、その出力は音声フレームのパワースペクトルである。ＦＦＴの長さが１２８であるならば、得られるパワースペクトル成分の数は６５であり、これはＦＦＴ変換の長さを２で割って、その結果を１だけ増やす（インクリメントする）ことにより得られる。即ちＦＦＴ／２＋１の長さである。
【００２４】
ＦＦＴブロック２０に到着したフレームの中の各サンプルｘ（０），ｘ（１），．．，ｘ（ｎ）；ｎ＝１２７（即ち前記の１２８個のサンプル）は実数（ｒｅａｌ）ＦＦＴ（高速フーリエ変換）により周波数領域に変換されて周波数領域サンプルＸ（０），Ｘ（１），．．，Ｘ（ｆ）；ｆ＝６４（より一般的にはｆ＝（ｎ＋１）／２）となり、その各サンプルは実数成分Ｘｒ（ｆ）と虚数成分Ｘｉ（ｆ）とから成る：
【数２】

【００２５】
高速フーリエ変換をデジタル的に実現することは当業者にとっては従来公知のことである。パワースペクトルは、実数成分及び虚数成分の２乗の和を成分毎に計算することにより平方ブロック（ｓｑｕａｒｉｎｇｂｌｏｃｋ）５０から得られる：
【数３】

【００２６】
図５に示されているように、実数成分及び虚数成分を平方ブロック（ｓｑｕａｒｉｎｇｂｌｏｃｋｓ）５１及び５２（これらのブロックは従来公知の単純な２乗の計算をデジタル的に実行する）に入力し、その２乗された成分同士を総和器５３で加え合わせることによって、平方ブロック５０の機能を実現することができる。この様にして、平方ブロック５０の出力として、パワースペクトル成分Ｐ（０），Ｐ（１），．．，Ｐ（ｆ）；ｆ＝６４が得られ、これらのパワースペクトル成分は次のように時間領域信号の種々の周波数の成分のパワーに対応する（８ｋＨｚのサンプリング周波数を使用すると仮定する）：
ｆ＝０，．．．，６４の値についてのＰ（ｆ）は中間周波数（ｆ・４０００／６４Ｈｚ）に対応する。（４）
【００２７】
８個の新しいパワースペクトル成分、すなわちパワースペクトル成分結合（すなわち一群の合成信号に相当する）Ｓ（ｓ），ｓ＝０，．．，７がブロック６０で形成され、本書ではそれらを計算スペクトル成分と称する。この計算スペクトル成分（すなわち上記の合成信号）Ｓ（ｓ）は、次の〔数４〕の通りに各計算スペクトル成分Ｓ（ｓ）について常に７個の隣り合うパワースペクトル成分Ｐ（ｆ）を合計することにより形成される：
【数４】

【００２８】
図６に示されているように、カウンタ６１が常に７まで数え上げ、該カウンタにより制御されて総和器６２が常に７個の連続する成分を合計してその総和を出力として発生するようにカウンタ６１と総和器６２とを利用することにより、これを実現することができる。この場合、最低位の結合成分Ｓ（０）は中間周波数 [６２．５Ｈｚ〜４３７．５Ｈｚ] に対応し、最高位の結合成分Ｓ（７）は中間周波数 [３１２５Ｈｚ〜３５００Ｈｚ] に対応する。これより低い（６２．５Ｈｚより低い）周波数と、これより高い（３５００Ｈｚより高い）周波数とは音声については重要でないので、電話システムでは常に減衰させられ、従って、それらを抑圧係数の計算に使うことは必要でない。
【００２９】
他の種類の周波数範囲分割方法を用いてパワースペクトル成分Ｐ（ｆ）から計算スペクトル成分Ｓ（ｓ）を形成することもできる。例えば、結合されて１つの計算スペクトル成分Ｓ（ｓ）とされるパワースペクトル成分Ｐ（ｆ）の個数は、異なる計算スペクトル成分又は異なるｓの値に対応する異なる周波数帯域について異なっていてもよい。更に、異なる数、即ち８より大きい数や小さい数、の計算スペクトル成分Ｓ（ｓ）を使用することもできる。
【００３０】
隣り合う成分同士を加え合わせるという方法以外にも、各成分を再結合させる方法が幾つもあることに注意しなければならない。一般に、次のように適当な係数でパワースペクトル成分Ｐ（ｆ）に重みを付けることによって前記計算スペクトル成分Ｓ（ｓ）を計算することができる：
【数５】

ここで係数ａ（０）〜ａ（６４）は定数（各成分Ｓ（ｓ），ｓ＝０，・・・，７について異なる係数）である。
【００３１】
上記したように、スペクトル成分、即ち周波数範囲、の質は数個の範囲の成分を合計することによってかなり低下している。計算スペクトル成分を形成した後の、次の段階は、抑圧係数の計算である。
【００３２】
抑圧係数を計算するとき、前記の計算スペクトル成分Ｓ（ｓ）が使われ、それらに対応する抑圧係数Ｇ（ｓ），ｓ＝０，・・・，７が計算ブロック１３０で計算される。周波数領域サンプルＸ（０），Ｘ（１），．．．，Ｘ（ｆ）；ｆ＝０，．．，６４に前記の抑圧係数が乗算される。各係数Ｇ（ｓ）は、各成分Ｓ（ｓ）を計算する基礎として使われた各サンプルに乗算される、例えば各サンプルＸ（１５），．．，Ｘ（２１）にＧ（２）が乗算される。また、最下位のサンプルＸ（０）にはサンプルＸ（１）と同じ係数が乗算され、最高位の各サンプルＸ（５７），．．，Ｘ（６４）にはサンプルＸ（５６）と同じ係数が乗算される。
【００３３】
乗算は掛け算器３０で実数成分と虚数成分とを別々に掛け合わせることにより実行され、その出力として下記の結果が得られる：
【数６】

【００３４】
この様にしてＹ（ｆ）；ｆ＝０，．．，６４が得られ、その実逆高速フーリエ変換（ｒｅａｌｉｎｖｅｒｓｅｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）がＩＦＦＴブロック４０で計算され、その出力として時間領域サンプルｙ（ｎ），ｎ＝０，．．，１２７が得られるが、その中の雑音は抑圧されている。
【００３５】
より一般的には、各周波数領域サンプルＸ（０），Ｘ（１），．．，Ｘ（ｆ），ｆ＝０，．．，６４についての抑圧を、次のようにして数個の抑圧係数の重み付き総和として計算することができる：
【数７】

ここで各係数ｂ（０），．．，ｂ（７）は定数である（各成分Ｘ（ｆ），ｆ＝０，．．，６４について異なる係数）。
【００３６】
計算スペクトル成分Ｓ（ｓ）は８個しかないので、それらに基づく抑圧係数の計算は、６５個のパワースペクトル成分Ｐ（ｆ）を用いて計算を行う場合よりは相当容易である。各々の新しい計算スペクトル成分Ｓ（ｓ）はより広い範囲について計算されているので、それらの値の変化は各パワースペクトル成分Ｐ（ｆ）の変化より小さい。これらの変化は特に信号中のランダム雑音に起因するものである。計算に用いられる計算スペクトル成分Ｓ（ｓ）のランダムな変化が小さいので、連続するフレーム同士の間での計算された各抑圧係数Ｇ（ｓ）の変化も小さい。同じ抑圧係数Ｇ（ｓ）が、上記の通りに、周波数応答Ｘ（ｆ）の幾つかのサンプルに乗算されるので、フレーム内の周波数領域の変化が小さくなる。抑圧係数の急激すぎる変化は不快に聞こえるので、その結果として音声の質が向上する。
【００３７】
計算ブロック９０において、次に説明するように、関係するフレームのパワースペクトル成分と、暗騒音モデルの対応する成分との比として各周波数帯域で後天的（ｐｏｓｔｅｒｉｏｒｉ）信号対雑音比が計算される。
【００３８】
音声活性検出器（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒ）が音声を検出しないとき、雑音のスペクトルＮ（ｓ），ｓ＝０，．．，７が推定ブロック８０で推定される（図１０により詳しく示されている）。ブロック８０において、ブロック６０から得られた信号のスペクトルの各成分Ｓ（ｓ），ｓ＝０，．．，７について時間平均された平均値を巡回的に（ｒｅｃｕｒｓｉｖｅｌｙ）計算することにより、推定が行われる：
【数８】

【００３９】
この文脈において、Ｎ_n-1(s) は、図１０に示されているように、メモリ８３から得られる、前のフレームについて計算された雑音スペクトル推定値を意味し、Ｎ_n(s) は上記の等式による現在のフレーム（ｎ＝フレームの順序番号）についての推定値を意味する。この計算はブロック８１で好ましくはデジタル的に実行される。ブロック８１の入力は、ブロック６０からの各スペクトル成分Ｓ（ｓ）と、メモリ８３から得られる前のフレームについての推定値Ｎ_n-1(s) と、ブロック８２で計算される変数λの値とである。変数λは、Ｖ_ind’（音声活性検出器の出力）の値とＳＴ_count（暗騒音スペクトル推定値の更新の制御に関連する変数）の値とに依存し、その計算については後述する。変数λの値は、下記の表３のテーブル（λについての代表的な値）に従って決定される：
【表３】

【００４０】
後に、現在のフレームについて計算された雑音スペクトル推定値について、より短い記号Ｎ（ｓ）が用いられる。上記の推定方法による計算はデジタル的に実行されるのが好ましい。上記の式に従って掛け算、足し算及び引き算をデジタル的に実行する方法は当業者にとっては従来公知のことである。
【００４１】
計算ブロック９０において、入力スペクトル及び雑音スペクトルから、比γ（ｓ），ｓ＝０，．．，７が成分毎に計算され、この比は後天的信号対雑音比と呼ばれる：
【数９】

【００４２】
【表４】

計算ブロック９０も好ましくはデジタル的に実現され、該ブロックは上記の割り算を実行する。割り算をデジタル的に実行すること自体は当業者にとっては従来公知のことである。この後天的信号対雑音比推定値γ（ｓ）と、前のフレームの抑圧係数（ハ）、ｓ＝０，．．，７とを利用して、抑圧係数を計算するために使用されるべき先天的（ｐｒｉｏｒｉ）信号対雑音比推定値（ニ）が第２計算ユニット１４０で各周波数帯域について計算される。この推定は、下記の式に従ってデジタル的に実行されるのが好ましい：
【数１０】

ここでｎは上記したようにフレームの順序番号を表し、各副添え字（ｓｕｂｉｎｄｅｘ）は、各推定値（先天的信号対雑音比、抑圧係数、後天的信号対雑音比）が計算されるフレームを指す。計算ブロック１４０のより詳しい構成が図９に示されている。パラメータμは定数で、その値は０．０〜１．０であり、これで現在及びその前のフレームに関する情報に重みが付けられ、このμの値は例えば前もってメモリ１４１に記憶され、このメモリからμがブロック１４５に読み込まれ、該ブロックは上記の式の計算を実行する。音声フレーム及び雑音フレームについて係数μに異なる値を与えることができ、正しい値は音声活性検出器の決定に従って選択される（通常、雑音フレームについては音声フレームについてよりも大きな値がμに与えられる）。ξ＿min は、音声を全く含んでいないような入力信号の各シーケンスにおいて、信号対雑音比の急速な変動に起因する残留雑音を減少させるために使われる先天的信号対雑音比の最小値である。ξ＿min は前もってメモリ１４６に記憶され、保持される。通常、ξ＿min の値は０．３５〜０．８である。前の式において、関数Ｐ( γ_n(s) −1) は下記の様に半波整流を実現するものである：
【数１１】

この計算は計算ブロック１４４で実行され、このブロックに、前の式に従って、ブロック９０から得られた後天的信号対雑音比γ(s) が入力される。計算ブロック１４４からの出力として、関数Ｐ( γ_n(s) −1) の値がブロック１４５へ送られる。また、先天的信号対雑音比推定値（ニ）を計算するとき、前のフレームについての後天的信号対雑音比γ_n-1(s) が使われ、前のフレームの対応する抑圧係数の２乗が乗算される。この値は、ブロック１４５において後天的信号対雑音比γ(s) の値と、同じフレームで計算された対応する抑圧係数の２乗との積をメモリ１４３に記憶させることにより、得られる。抑圧係数Ｇ（ｓ）はブロック１３０（これは図８に詳しく示されている）から得られ、ここで始めに係数（ハ）が下記の式：
【数１２】

から計算される。ここで先天的信号対雑音比推定値（ヘ）の修正推定値（ホ）、ｓ＝０，．．，７が使用され、この（ホ）の計算方法について後に図８を参照して説明する。この種の計算をデジタル的に実行する方法も当業者にとっては従来公知のことである。
【００４３】
この修正推定値（ホ）を計算するときには、本発明に従って相対雑音レベル（ｒｅｌａｔｉｖｅｎｏｉｓｅｌｅｖｅｌ）を使用する。このことについて次に説明をする。
【００４４】
本発明の方法では、雑音抑圧の調節は、相対雑音レベルη（その計算については後述する）に基づいて、現在のフレームから計算されるパラメータを追加的に使用して制御され、このパラメータは入力信号と雑音モデルとの間のスペクトル距離Ｄ_SNRを表し、この距離の計算方法については後述する。このパラメータは、相対雑音レベルを表すパラメータを、そしてそれを通じて先天的信号対雑音比（ヘ）の値をスケーリング（ｓｃａｌｉｎｇ）するために使われる。スペクトル距離パラメータの値は、現在のフレームにおける音声の出現確率を表す。従って、フレームに暗騒音だけがきれいに含まれているほど、先天的信号対雑音比（ヘ）の値の増加量は少なくされ、これにより実際上より効果的な雑音抑圧を行えるようになる。フレームが音声を含んでいるときには抑圧量は少なくされるが、音声が周波数領域及び時間領域の両方で効果的に雑音をマスクする。抑圧量の調節のために使われるスペクトル距離パラメータの値は連続的な値を持っていて、信号のパワーの変化に即座に反応するので、不快に聞こえる抑圧量調節の中断は生じない。
【００４５】
音声と比べて雑音が大きくなるほど、雑音抑圧により一層大きな歪みが音声に生じるというのが従来公知の雑音抑圧方法の特徴である。本発明では、操作が改善されていて、音声のパワー及び雑音のパワーから、滑らかに移行する平均値（ト）及び（チ）が巡回的に（ｒｅｃｕｒｓｉｖｅｌｙ）計算される。それらに基づいて、相対雑音レベルを表すパラメータηが計算され、雑音抑圧Ｇ（ｓ）がそれにより調整される。
【００４６】
前記の平均値及びパラメータはブロック７０で計算される。このブロックのより詳細な構成が図７に示されており、これについて次に説明する。抑圧量の調節は、相対雑音レベルηに基づいて先天的信号対雑音比（ヘ）の値を大きくすることにより実行される。これにより、顕著な歪みが音声に生じないように雑音抑圧量を相対雑音レベルηに従って調節することができる。
【００４７】
音声の過渡的変化に対する良好な応答を確保するために、等式（１１）の抑圧係数Ｇ（ｓ）は音声の活性に対して速やかに反応しなければならない。残念なことに、音声の過渡的変化に対する抑圧係数の感度が高くなると、不安定な雑音に対する抑圧係数の感度も高くなり、残留雑音の響きは元の雑音より滑らかでなくなる。更に、等式（７）の暗騒音スペクトルＮ（ｓ）の形及びレベルの推定は算術平均により巡回的に実行されるので、推定アルゴリズムは、急速に変化する雑音成分を模するのに充分な速さで順応することができなくて、その様な雑音成分の減衰の効率が悪くなる。実際、減衰させられた変化しない雑音によるその様な急速に変化する雑音成分のマスキング効果が低下しているために、強化後にはその様な成分がもっとはっきりと区別できるようになることがある。
【００４８】
スペクトル成分の数を増やすことにより抑圧係数の計算のスペクトル分解能を高めたときにも、残留雑音の望ましくない変化が生じる。この様な滑らかさの低下は、周波数領域でのパワースペクトル成分の平均化が弱まった結果である。しかし、音声活性時の適切な減衰と、音声に生じる歪みの極小化とのために、充分な分解能が必要である。
【００４９】
周波数範囲の分割が最適でない場合には、雑音が低周波数に高度に集中していると、抑圧作用において低周波数暗騒音に望ましくない変動が生じることがある。音声に低周波数の雑音が大量に含まれているために、音声を含むフレームにおいて同じ低周波数領域の雑音の減衰が弱まり、不快に聞こえる変調が残留雑音に対して音声のリズムでかけられる結果となる。
【００５０】
上記した３つの問題を、最小利得探索により効率よく軽減することができる。この方式の原理は、各周波数成分において信号のパワーは雑音よりも音声においてゆっくりと且つ比較的に軽い不規則性をもって変化するという事実に導かれている。この方式により、暗騒音抑圧の結果が滑らかになり且つ安定し、音声音の劣化の程度が軽くなり、残留暗騒音がより滑らかになり、強化された音声の主観的な質が向上する。特に、音声及び雑音の双方がある時にこの方法により、あらゆる種類の急速に変化する不安定な暗騒音成分を効率よく減衰させることができる。更に、この方法は音声に如何なる歪みも生じさせず、余計な雑音を減らして音声をきれいに響かせる。更に、最小利得探索法（ｍｉｎｉｍｕｍｇａｉｎｓｅａｒｃｈ）によれば、残留雑音に余分の変動を生じさせることなく等式（１１）での抑圧係数Ｇ（ｓ）の計算における周波数成分の数を増やすようにすることができる。
【００５１】
最小利得探索法では、現在のフレームと、現在のフレームが音声音を含んでいるか否かにより例えば１個又は２個の前のフレームとから、各周波数成分ｓでの等式（２４）の抑圧係数Ｇ’（ｓ）の最小値を探索する。最小利得探索方式は、下記の様に表現できるものである：
【数１３】

ここでＧ（ｓ，ｎ）は、最小利得探索後のフレームｎでの周波数ｓでの抑圧係数を表し、Ｖ_ind’は音声活性検出器の出力を表す。その計算については後述する。
【００５２】
抑圧係数Ｇ’（ｓ）は、ブロック３０（図３の）での複素ＦＦＴ（ｃｏｍｐｌｅｘＦＦＴ）の該抑圧係数との乗算の前に等式（１２）に従って最小利得探索法により修正される。最小利得法（ｍｉｎｉｍｕｍｇａｉｎ）は、ブロック１３０で、又はブロック１３０と１２０との間に挿入される別のブロックで実行されることができる。
【００５３】
その中から抑圧係数の最小値を探し出す前のフレームの個数は２より多くてもよい。更に、最小値を取る方法以外の、抑圧係数についての他の種類の非線形フィルタリング操作（例えば、中央値、最小値と中央値との何らかの組み合わせ、など）又は線形フィルタリング操作（例えば、平均）を本発明で用いることもできる。
【００５４】
上記した方式の算術的複雑さは低い。雑音抑圧に抑圧係数の下限を導入することにより最大減衰量を限定しており、また抑圧係数は振幅領域に関連するものであって累乗変数（ｐｏｗｅｒｖａｒｉａｂｌｅ）ではなく、従って程良いダイナミックレンジを保有するので、これらの係数を効率よく圧縮することができる。前の数個のフレームの抑圧係数を記憶させなければならないけれども、静的メモリの消費量は少ない。雑音抑圧結果を滑らかにする上記の方法のメモリ要件は、例えば以前の幾つかの方式で提案されている、同じ目的のために過去のフレームの高分解能パワースペクトルを利用する方法と比べて、有利である。
【００５５】
【表５】

図７に示されているブロックにおいて、パワースペクトル推定値Ｓ（ｓ），ｓ＝０，．．，７を用いて音声についての時間平均された平均値（リ）が計算される。時間平均された平均値（リ）は、音声活性検出器（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒ）１１０（ＶＡＤ）が音声を検出したときに、更新される。始めに現在のフレームの各成分（ヌ）についての平均値がブロック７１で下記の様に計算され、これに入力として各スペクトル成分Ｓ（ｓ）がブロック６０から得られる：
【数１４】

【００５６】
時間平均された平均値（リ）は、前のフレームの時に計算された時間平均された平均値が記憶されているメモリ７８から得られる前のフレームについての時間平均された平均値（ル）と、ブロック７１から得られる計算スペクトル平均値（ヌ）と、前もってメモリ７９ａに記憶されている時定数αとに基づいて、ブロック７２において（例えば巡回的に）計算される：
【数１５】

ここでｎはフレームの順序番号であり、αは前記の時定数であり、その値は０．０〜１．０であり、通常は０．９と１．０との間である。非常に弱い音声を時間平均された平均値に含めないために（例えば、文の終わりで）、この平均値は、現在のフレームについてのスペクトル成分の平均値が時間平均された平均値に依存する閾値を上回る場合に限って更新される。この閾値は通常は時間平均された平均値の四分の一である。前の２つの等式の計算はデジタル的に実行されるのが好ましい。
【００５７】
同様に、雑音のパワーの時間平均された平均値（オ）は雑音Ｎ（ｓ），ｓ＝０，．．，７のパワースペクトル推定値を用いて計算ブロック７３から得られ、成分平均値（ワ）はそれから次の等式に従って計算される：
【数１６】

【００５８】
ここでβは時定数であって、その値は０．０〜１．０であり、通常は０．９と１．０との間である。雑音パワーの時間平均された平均値は各フレームで更新される。雑音スペクトル成分の平均値（ワ）は、スペクトル成分Ｎ（ｓ）に基づいてブロック７６で次のように計算される：
【数１７】

前のフレームについての雑音パワーの時間平均された平均値（カ）はメモリ７４から得られるが、それは前のフレームの時に該メモリに記憶されたものである。
【００５９】
相対雑音レベルηは、ブロック７５において、雑音及び音声の時間平均された平均値のスケーリングされ且つ最大値限定された商として計算される：
【数１８】

ここでκはスケーリング定数（ｓｃａｌｉｎｇｃｏｎｓｔａｎｔ）（代表的な値は４．０）であり、前もってメモリ７７に記憶されており、ｍａｘ＿ηは相対雑音レベルの最大値であり（通常は１．０）、メモリ７９ｂに記憶されている。
【００６０】
相対雑音レベルηについてのこのパラメータから、抑圧量調整に使われる最終補正項が、入力信号と雑音モデルとの間の距離を表すパラメータＤ_SNRでそれをスケーリングすることによって得られ、このＤ_SNRは、後天的信号対雑音比γ（ｓ）を用いて音声活性検出器１１０で計算され、これはデジタル的計算により次の式を実現する：
【数１９】

ここでｓ＿ｌ及びｓ＿ｈは、含まれている最低周波数成分及び最高周波数成分の指数の値であり、υ_Sは成分についての重み付け係数であり、これらは前もって決められてメモリに記憶され、このメモリから計算のために読み出される。通常、全ての後天的信号対雑音推定値成分ｓ＿ｌ＝０及びｓ＿ｈ＝７が使われ、等しい重みυ_S＝１．０／８．０；ｓ＝０，．．，７がそれらに付けられる。
【００６１】
次に、図１２を参照して音声活性検出器１１０の実施例について詳しく説明する。音声活性検出器の実施例は新しいものであって、本発明の雑音抑圧器に用いるのに特に適しているけれども、この音声活性検出器を、例えば断続的な接続を制御するため及び音響エコー消去のために音声検出を行う他の種類の雑音抑圧器に、或いは他の目的のために、用いることも可能である。音声活性検出器における音声の検出は、信号対雑音比に、又は図２及び図３から分かるようにブロック９０で計算された種々の周波数帯域での後天的信号対雑音比に基づいている。この信号対雑音比は、フレームについてのパワースペクトル成分Ｓ（ｓ）（ブロック６０からの）を、暗騒音推定値の対応する成分Ｎ（ｓ）（ブロック８０からの）で割ることにより、計算される。音声活性検出器の中の総和器１１１は、種々の周波数帯域から得られる後天的信号対雑音比の値を合計し、これにより、入力信号と雑音モデルとの間のスペクトル距離を表すパラメータＤ_SNRが上記の式（１８）に従って得られ、この総和器からの値は比較器１１２において所定の閾値ｖｔｈと比較される。もし閾値の方が小さければ、そのフレームは音声を含むと見なされる。この合計を計算するとき、信号対雑音比が良好であると期待することのできる周波数に、より大きな重みを付けるように、重み付けを行うこともできる。音声活性検出器の出力を変数Ｖ_ind’で表すことができるが、その値について下記の条件が得られる：
【数２０】

【００６２】
音声活性検出器１１０は暗騒音スペクトル推定値Ｎ（ｓ）の更新を制御し、この推定値は上記したように音声活性検出器の機能に影響を及ぼすので、もし暗騒音レベルが急に上昇すると暗騒音スペクトル推定値Ｎ（ｓ）が低すぎるレベルにとどまる可能性がある。これを防止するために、その中では連続するフレームが音声を含んでいると考えられる時間（フレームの個数）が監視される。もしこの連続するフレームの個数が閾値ｍａｘ＿ｓｐｆ（その値は例えば５０である）を上回れば、変数ＳＴ_countの値は１にセットされる。変数ＳＴ_countは、Ｖ_ind’が値０となったときに０にリセットされる。
【００６３】
しかし、連続するフレームのエネルギーの変化が信号が安定していないことをブロック８０に示すならば、連続するフレームのためのカウンタ（この図には示されていないけれども図１０にはブロック８２として含まれており、ここに変数ＳＴ_countの値も記憶される）の値は増やされない。定常度を表すパラメータＳＴ_indがブロック１００で計算される。もしエネルギーの変化が充分に大きければ、該カウンタはリセットされる。これらのことの目的は、音声時に暗騒音スペクトル推定値が更新されないことを保証することである。また、当該フレームのパワースペクトル成分が暗騒音スペクトル推定値Ｎ（ｓ）の対応する成分より小さいときには常に各周波数帯域で暗騒音スペクトル推定値Ｎ（ｓ）が小さくされる。これにより、誤った更新がなされた後に暗騒音スペクトル推定値Ｎ（ｓ）が確実に急速に正しいレベルに戻ることになる。
【００６４】
定常度についての条件を、後記の式（２７）で見ることができる。項目ａ）は信号が安定した状況に対応し、このときは連続する音声フレームのカウンタの値が増やされる。項目ｂ）は非安定状態に対応し、このときは該カウンタはリセットされ、項目ｃ）は該カウンタの値が変えられない状態に対応する。
【００６５】
また、本発明では、相対雑音レベルη（これはブロック７０で計算される）を利用して音声活性検出器の前記の閾値ｖｔｈを調整することにより、音声活性検出器１１０及び暗騒音スペクトル推定値Ｎ（ｓ）の精度が高められる。信号対雑音比が非常に良好である（即ち相対雑音レベルηが低い）様な環境では、閾値ｖｔｈの値は相対雑音レベルηに基づいて高められる。これにより暗騒音の急速な変化を音声と解釈することが少なくなる。閾値の適応化は、次の式に従ってブロック１１３で実行される：
【数２１】

ここでｖｔｈ＿ｆｉｘ、ｖｔｈ＿ｍｉｎ、及びｖｔｈ＿ｓｌｏｐｅは定数であり、その代表的な値は、例えば、ｖｔｈ＿ｆｉｘ＝２．５、ｖｔｈ＿ｍｉｎ＝２．０、ｖｔｈ＿ｓｌｏｐｅ＝−８．０である。
【００６６】
【表６】

音声活性検出器１１０でしばしば生じる問題は、スピーチ開始時にスピーチが直ぐには検出されず、談話の終わりも正しく検出されないということである。これが原因となって暗騒音スペクトル推定値Ｎ（ｓ）が正しくない値となり、そのために音声活性検出器の後の結果に影響が及ぶことになる。遅延を用いて暗騒音推定値を更新することによりこの問題を解消することができる。この場合、暗騒音推定値Ｎ（ｓ）を更新する前に最後の数個のフレームの一定の数Ｎ（例えばＮ＝４）のパワースペクトルＳ₁（ｓ），．．，Ｓ_N（ｓ）が記憶される。もし最後の２倍の量のフレーム（即ち２Ｎ個のフレーム）の間に、音声活性検出器１１０が音声を検出しなければ、暗騒音推定値Ｎ（ｓ）はメモリの中の最も古いパワースペクトルＳ₁（ｓ）で更新され、その他の場合には更新は行われない。これにより、更新時に使われたフレームの前のＮ個のフレームと後のＮ個のフレームとが雑音であったことが保証される。この方法に伴う問題は、大量のメモリを、即ちＮ×８個の記憶場所を必要とすることである。始めに次のＭ個のパワースペクトル（ヨ）の平均値を計算して記憶場所Ａに記憶させ、その後に次のＭ個（例えばＭ＝４）のパワースペクトル（タ）の平均値を記憶場所Ｂに記憶させることにより、メモリの消費を更に最適化することができる。最後の３Ｍ個のフレームの間に音声活性検出器が雑音だけを検出したならば、暗騒音推定値は記憶場所Ａに記憶されている値で更新される。その後に記憶場所Ａはリセットされ、次のＭ個のフレームについてのパワースペクトル平均値（レ）が計算される。これが計算された後、最後の３Ｍ個のフレームの間に雑音だけがあったならば暗騒音スペクトル推定値Ｎ（ｓ）は記憶場所Ｂの値で更新される。このプロセスがこの様にして続けて行われ、平均値を計算して記憶場所Ａ及びＢに交互に記憶させてゆく。このようにして、必要な記憶場所は２×８個だけになる（記憶場所Ａ及びＢは各々８個の値を包含する。）
【００６７】
音声バースト後でも、音声活性検出器が雑音だけを検出してもＮ個のフレーム（例えばＮ＝１）（このときは「ホールド時間」と呼ばれる）の間の音声を意味する決定を音声活性検出器から強制的に出させるようにして音声活性検出器１１０を強化することもできる。これにより、音声がゆっくりと静かになりつつあるときに音声の終わりが雑音と解されることがあり得るので、作用が向上する。
【００６８】
前記ホールド時間を相対雑音レベルηに適応的に依存させることができる。その場合、暗騒音が強いとき、静かなときと比べてホールド時間はゆっくりと長くされる。このホールド作用を次のように実現することができる。即ち、ホールド時間ｎに値０，１，．．，Ｎが与えられ、相対雑音レベルの閾値η₀，η₁，．．．．，η_N-1；η_K＜η_K+1，が計算され、その値はホールド時間に対応すると見なされ得るものである。実時間でホールド時間は相対雑音レベルの瞬時値を閾値と比較することにより選択される。例えば、次の通りである（Ｎ＝１，η₀＝０．０１）：
【数２２】

【００６９】
このホールド時間を含むＶＡＤ決定はＶ_indで表される。
【００７０】
ホールド作用を、図１２に示されているように音声活性検出器の出力側に置かれる遅延ブロック１１４を用いて好ましく実現することができる。特許ＵＳ４，８１１，４０４は、暗騒音スペクトル推定値を更新する方法を開示しており、この方法では、暗騒音スペクトル推定値の前回の更新の時から一定の時間が経過すると自動的に新たに更新が行われる。本発明では暗騒音スペクトル推定値の更新は、一定の間隔では行わず、上記したように音声活性検出器の検出結果に応じて行う。暗騒音スペクトル推定値が計算された後、音声活性検出器が現在のフレームの前にも後にも音声を検出していないときに限って暗騒音スペクトル推定値の更新が行われる。この処理手順により、可能な限り正しい値を暗騒音スペクトル推定値に与えることができる。特にこの特徴と、前記の他の特徴（例えば、音声があるか無いかを判定する基礎となる閾値の値ｖｔｈを、音声及び雑音の両方のレベルを考慮に入れた相対雑音レベルに基づいて調節するという特徴など）は、暗騒音スペクトル推定値の精度と音声活性検出器の動作との双方を本質的に向上させる。
【００７１】
次に、抑圧係数Ｇ’（ｓ）の計算方法を図８を参照して説明する。相対雑音レベルについてのパラメータηにスペクトル距離についてのパラメータＤ_SNRを乗じ、その積をメモリ１３２に記憶されているスケーリング定数（ｓｃａｌｉｎｇｃｏｎｓｔａｎｔ）ρでスケーリングし、その積の最大値を制限することによって、抑圧係数の計算を制御するための補正項φがブロック１３１から得られる：
【数２３】

ここでρ＝スケーリング定数（ｓｃａｌｉｎｇｃｏｎｓｔａｎｔ）（代表的な値は８．０）、ｍａｘ＿φは補正項の最大値（代表的な値は１．０）であり、これは前もってメモリ１３５に記憶されている。
【００７２】
抑圧係数（ソ）（ｓ＝０，．．．，７）の計算の調整は次のようにして行われる。即ち、式（９）に従って計算ブロック１４０から得られる先天的信号対雑音比（ツ）の値を、先ずブロック１３１で計算された補正項φを使って、ブロック１３３での計算により次のように変換する：
【数２４】

そして抑圧係数（ソ）はブロック１３４で式（１１）から更に計算される。
【００７３】
信号が最早音声を含んでいないことを音声活性検出器１１０が検出すると、適当な時定数を用いて信号が更に抑圧される。音声活性検出器１１０は、音声表示出力Ｖ_ind ’を出すことによって、信号が音声を含んでいるか否かを示し、この出力は例えば１ビットであり、その値は、もし音声がなければ０であり、信号が音声を含んでいるならば１である。追加の抑圧は、動き検出器（ｍｏｂｉｌｉｔｙｄｅｔｅｃｔｏｒ）、すなわち安定度指示手段１００で計算される信号安定度指示子ＳＴ_ind に基づいて更に調整される。この方法により、音声活性検出器１１０が暗騒音と解釈する可能性のある静かな音声シーケンスを抑圧することが防止される。
【００７４】
追加の抑圧は、抑圧係数Ｇ’（ｓ）を計算する計算ブロック１３８で実行される。音声の開始時に、適当な時定数を用いて追加の抑圧が解除される。音声活性検出器１１０により、音声活性の終了後に、音声を含まない或る数（その数は予め決められた定数（ハングオーバー期間(hangover period) である）のフレームが検出されたときに、追加の抑圧が開始される。関係期間（ハングオーバー期間）に含まれるフレームの数は分かっているので、フレームの数を数えるカウンタＣＴを用いてその期間の終了を検出することができる。
【００７５】
追加の抑圧を含む抑圧係数Ｇ’（ｓ）は、前もってブロック１３４で計算された抑圧値（ソ）とブロック１３７で計算される追加の抑圧係数σとに基づいてブロック１３８で次の式に従って計算される：
【数２５】

ここでσは追加の抑圧係数であり、その値は、安定度指示子ＳＴ_indに基づいてブロック１３６で決定される差項δ（ｎ）の値と、前のフレームの時に抑圧係数が格納されたメモリ１３９ａから得られる前のフレームについての追加の抑圧係数σ（ｎ−１）の値と、前もってメモリ１３９ｂに記憶されている抑圧係数の最小値ｍｉｎ＿σとを用いてブロック１３７で計算される。最初は追加の抑圧係数はσ＝１（追加の抑圧は無し）であり、その値は、音声活性検出器１１０が音声を含まないフレームを検出したときに指示子Ｖ_ind’に基づいて次のように調整される：
【数２６】

ここでｎ＝フレームの順序番号であり、ｎ₀＝追加の抑圧に先立つ期間に属する最後のフレームの順序番号の値である。追加の抑圧係数σの最小値は、最高の最終抑圧量を決定するｍｉｎ＿σにより限定される最小値である（代表的な値は０．５．．．１．０）。差項δ（ｎ）の値は信号の安定度に依存する。安定度を決定するために、前のフレームと現在のフレームとの間で信号のパワースペクトル平均値（ネ）の変化を比較する。差項δ（ｎ）の値はブロック１３６で次のように決定される：
【数２７】

ここで差項の値は、安定度指示子ＳＴ_indに基づいて決定される条件ａ）、ｂ）及びｃ）に従ってこの様に決定される。条件ａ）、ｂ）及びｃ）の比較はブロック１００で実行され、出力として得られる安定度指示子ＳＴ_indは、ブロック１３６に対して、条件ａ）、ｂ）及びｃ）のうちのどれが満たされるかを知らせ、ブロック１００は次の比較を実行する：
【数２８】

【００７６】
定数ｔｈ＿ｓ及びｔｈ＿ｎは１より大きい。代表的な値は、例えば、ｔｈ＿ｓ＝６．０／５．０で、ｔｈ＿ｎ＝２．０、又は例えばｔｈ＿ｓ＝３．０／２．０で、ｔｈ＿ｎ＝８．０である。各差項δｓ、δｎ及びδｍの値は、たとえ安定度指示子ＳＴ_indの値が非常に頻繁に変化しても連続するフレーム間での追加の抑圧量の差が騒がしく聞こえることのない様に、選択される。
【数２９】

【００７７】
音声活性検出器１１０が音声を再び検出すると、追加の抑圧は、追加の抑圧係数σをブロック１３７で次の様に計算することにより除去される：
【数３０】

ここでｎ₁＝雑音シーケンス後の第１フレームの順序番号であり、δγは正の定数で、その絶対値は、前もって例えばメモリ１３９ｂなどのメモリに記憶された、追加の抑圧（代表的な値は例えば(1.0-min＿σ)/4.0)を調整する上記の差項の絶対値より一般に相当大きい。図８に示されている各ブロックの機能は好ましくはデジタル的に実現される。ブロック１３０で実行されるべき、各等式の計算動作をデジタル的に実行することは、当業者にとってよく知られている。
【００７８】
抑圧値計算ブロック１３０から得られた８個の抑圧値Ｇ（ｓ）は、処理される周波数範囲の外側の周波数（０−６２．５Ｈｚ及び３５００Ｈｚ−４０００Ｈｚ）に対応する抑圧値が、隣接する処理される周波数帯域についての抑圧値に等しくセットされることとなるように、補間器１２０において補間されて６５個のサンプルとされる。補間器１２０もデジタル的に実現されるのが好ましい。
【００７９】
掛け算器３０において、ＦＦＴブロック２０により作られた対をなす実数成分Ｘ_r（ｆ）及び虚数部分Ｘ_i（ｆ）に補間器１２０から得られた抑圧値が乗算され、ここでＦＦＴブロックからの８個の連続するサンプルＸ（ｆ）に実際上常に同じ抑圧値Ｇ（ｓ）が乗算され、前記の式（６）に従って各サンプルが掛け算器３０の出力として得られる。
【００８０】
ここで各サンプルＹ（ｆ），ｆ＝０，．．，６４が得られ、これから実逆高速フーリエ変換がＩＦＦＴブロック４０で計算され、ここでその出力として時間領域サンプルｙ（ｎ），ｎ＝０，．．，１２７が得られ、このサンプルでは雑音が抑圧されている。雑音が既に抑圧されている各サンプルｙ（ｎ）は、ＦＦＴブロックに入力される各サンプルｘ（ｎ）に対応する。
【００８１】
それらのサンプルｙ（ｎ）の中から８０個のサンプルが選択ブロック１６０で選択されて送信されるべく出力される。それらのサンプルはｙ（ｎ）；ｎ＝８，．．，８７であり、それらに対応するｘ（ｎ）の値には窓のストリップが乗算されていないので、それらを直接出力側に送ることができる。この場合、出力側に８０個のサンプルが得られるが、それらのサンプルは、窓掛けブロック１０に入力信号として読み込まれる各サンプルに対応するサンプルである。ここで説明した実施例では各サンプルは８番目のサンプルから出力側へ選択されるけれども、現在のフレームに対応する各サンプルは１６番目のサンプルからはじめて始まるので（始めの１６個は前のフレームからメモリに記憶されたサンプルである）、信号に８サンプルの遅延即ち１ｍｓの遅延が生じる。もし最初に、もっと多数の（例えば１１２個の）サンプルを読み出していれば（１１２＋前のフレームの１６サンプル＝１２８）、０を信号に付け加える必要はなく、その結果として前記の１１２個のサンプルが直接出力側から得られることになる。しかし、今は一度に８０個のサンプルを出力側から得たいので、２個の連続するフレームに対する計算の後に１６０個のサンプルが得られ、これは現在（例えばＧＳＭ移動電話などで）使用されている殆どの音声コーデックが利用しているサンプルに等しい。これにより、上記の１ｍｓを除いて、如何なる遅延も生じさせることなく雑音抑圧と音声符号化とを効果的に組み合わせることができる。比較のために、次の様に言うことができる、即ち、現在の技術水準では遅延は通常は窓（ｗｉｎｄｏｗ）の長さの半分であり、従って本書に開示した例示的解決策による窓（ｗｉｎｄｏｗ）を使用するときは（この窓の長さは９６フレームである）、遅延は４８サンプル即ち６ｍｓとなり、この遅延は本発明の解決策で達成される遅延の６倍の長さである。
【００８２】
雑音抑圧のための本発明の方法と装置とは移動局又は移動通信システムに用いるのに特に適していて、特別のアーキテクチャ（ＴＤＭＡ、ＣＤＭＡ、デジタル／アナログ）に限定されるものではない。図１３は本発明の移動局を示し、これに本発明の雑音抑圧方法が使用されている。マイクロホン１から到来する、送信されるべき音声信号は、Ａ／Ｄ変換器２でサンプリングされ、本発明の雑音抑圧器３で雑音抑圧され、音声符号器４で音声符号化され、その後に、例えばチャネル符号化、インタリーブなどの従来公知の基本周波数信号処理がブロック５で実行される。この後、信号は無線周波数に変換され、送信器６により複式フィルターＤＰＬＸ及びアンテナＡＮＴを通して送信される。受信された音声に対して受信部７の公知の動作が受信時に実行され、スピーカー８を通して再生される。
【００８３】
本発明の方法及び装置の実施態様及び実施例をここに開示した。本発明は、ここに開示した実施例の細目に限定されるものではなく、本発明の特徴から逸脱せずに他の形でも本発明を実施し得ることは当業者には明かである。ここに開示した実施例は単なる例に過ぎないと見なされるべきであり、発明を限定するものと解されるべきではない。従って、本発明を実施し利用する可能性は、特許請求の範囲に規定された種々の請求項のみにより限定される。該請求項で規定される発明を実施するための、均等実施態様を含む種々の選択肢が本発明の範囲に含まれる。
【図面の簡単な説明】
【図１】音声信号中の雑音を抑圧するための本発明の装置の基本的機能に関するブロック図である。
【図２】本発明による雑音抑圧器（ｎｏｉｓｅｓｕｐｐｒｅｓｓｏｒ）の一層詳しいブロック図（その１）である。
【図３】本発明による雑音抑圧器の一層詳しいブロック図（その２）である。
【図４】窓掛けブロック（ｗｉｎｄｏｗｉｎｇｂｌｏｃｋ）の実施態様をブロック図の形で示す図である。
【図５】平方ブロック（ｓｑｕａｒｉｎｇｂｌｏｃｋ）の実施態様を示す図である。
【図６】スペクトル再結合ブロック（ｓｐｅｃｔｒａｌｒｅｃｏｍｂｉｎａｔｉｏｎｂｌｏｃｋ）の実施態様を示す図である。
【図７】相対雑音レベル（ｒｅｌａｔｉｖｅｎｏｉｓｅｌｅｖｅｌ）を計算するためのブロックの実施態様を示す図である。
【図８】抑圧係数（ｓｕｐｐｒｅｓｓｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓ）を計算するためのブロックの実施態様を示す図である。
【図９】信号対雑音比を計算するための構成を示す図である。
【図１０】暗騒音モデル（ｂａｃｋｇｒｏｕｎｄｎｏｉｓｅｍｏｄｅｌ）を計算するための構成を示す図である。
【図１１】本発明による窓掛け（ｗｉｎｄｏｗｉｎｇ）における連続する音声信号フレームを示す図である。
【図１２】音声活性検出器（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒ）の実施態様をブロック図の形で示す図である。
【図１３】本発明による移動局をブロック図の形で示す図である。
【符号の説明】
１…マイクロホン
１０…窓掛けブロック
２０…ＦＦＴブロック
３０…掛け算器
４０…ＩＦＦＴブロック
５０…スペクトル形成ブロック
６０…計算ブロック
１３０…計算ブロック
１９０…推定ブロック
２００…計算ブロック
Ｇ（ｓ）…抑圧係数

Claims

音声信号中の雑音を抑圧するための雑音抑圧器であって、該抑圧器は、前記音声信号を、各々がパワースペクトル成分（Ｐ）を有し、かつ所定の帯域幅を有する周波数領域信号成分を表す多数のスペクトル成分（Ｘ）に分割するための手段（２０，５０）と、抑圧係数（Ｇ）を用いることによってスペクトル成分（Ｘ）中の雑音を抑圧するための抑圧手段（３０）とをそなえ、前記雑音抑圧器は更に、隣り合うスペクトル成分（Ｘ）を、各々が前記所定の帯域幅より広い帯域幅を有する一群の合成信号（Ｓ）に再合成するための再合成手段（６０）と、該合成信号（Ｓ）に含まれている前記の雑音に基づいて前記一群の合成信号（Ｓ）についての抑圧係数（Ｇ）を決定するための決定手段（１９０，１３０）とをそなえており、前記抑圧手段（３０）は、前記抑圧係数（Ｇ）を用いて前記スペクトル成分（Ｘ）をスケーリングするように構成されていることを特徴とする雑音抑圧器。
前記音声信号をスペクトル成分（Ｘ）に分割するための手段（２０，５０）は高速フーリエ変換を行う処理手段（２０）を含むことを特徴とする、請求項１に記載の雑音抑圧器。
前記雑音抑圧器は、前記音声信号をサンプリングして時間領域の各サンプルとするためのサンプリング手段（２）と、各サンプル同士を組み立ててフレームとするための窓掛け手段（１０）と、前記フレームのスペクトル成分（Ｘ）を周波数領域で形成するための処理手段（２０）とをそなえ、またスペクトル形成手段（５０）は、前記スペクトル成分（Ｘ）から前記パワースペクトル成分（Ｐ）を形成するようにされており、前記再合成手段（６０）は、前記スペクトル成分（Ｘ）を再合成させて一群の合成信号（Ｓ）とするようにされており、前記決定手段（１９０，１３０）は、少なくとも各合成信号に含まれる雑音に基づいて前記一群の合成信号（Ｓ）についての抑圧係数（Ｇ）を計算するための計算手段（１３０）をそなえており、ここに前記抑圧係数はＳＮＲ／１＋ＳＮＲ（ここで、ＳＮＲは先天的信号対雑音比推定値）に比例しており、かつ前記抑圧手段（３０）は、雑音抑圧された周波数領域成分（Ｙ）を形成するために、再合成されて一群の合成信号（Ｓ）とされている、前記パワースペクトル成分（Ｐ）に対応する前記スペクトル成分（Ｘ）に前記抑圧係数（Ｇ）を乗算するための掛け算器をそなえ、さらに前記雑音抑圧器は、前記の雑音抑圧された周波数領域成分（Ｙ）を時間領域信号（ｙ）に変換して、それを雑音抑圧された出力信号として出力するための手段をそなえることを特徴とする、請求項１に記載の雑音抑圧器。
前記決定手段（１９０，１３０）は、入力信号に含まれている時間平均された雑音パワー平均値（イ）及び時間平均された音声パワー平均値（ロ）を決定するための手段（７０）と、少なくとも前記の雑音パワー及び音声パワー平均値（ハ）及び前記の入力信号と雑音モデルとの間のスペクトル距離に基づいて前記合成信号（Ｓ）についての抑圧係数（Ｇ）を計算するための計算手段（１３０）とを含むことを特徴とする、請求項３に記載の雑音抑圧器。
前記雑音抑圧器の出力信号は音声コーデックに供給されて音声符号化されるようになっており、前記出力信号のサンプルの量は音声フレーム中のサンプルの数の均等商である、請求項３に記載の雑音抑圧器。
前記スペクトル成分（Ｘ）を形成するための前記処理手段（２０）は所定のスペクトル長を有し、前記窓掛け手段（１０）は、各サンプルに所定の窓を乗算するための掛け算手段（１１）と、フレームを形成するために、その乗算された各サンプルに付加サンプルを付加するためのサンプル作成手段（１２）とをそなえており、該フレームの長さは前記スペクトル長に等しくされていることを特徴とする、請求項３に記載の雑音抑圧器。
前記音声信号中の音声と各ポーズとを検出して、該音声信号における音声の発生に応じて抑圧を調整するために、該抑圧係数を計算するための前記計算手段（１３０）に検出結果を与える音声活性検出器（１１０）をそなえることを特徴とする、請求項４に記載の雑音抑圧器。
前記計算手段（１３０）は、現在のフレーム及び前のフレームに基づく信号対雑音比の値と前のフレームに基づく抑圧係数の値だけ、現在のフレームについての抑圧係数（Ｇ）を更に修正するようにされていることを特徴とする、請求項４に記載の雑音抑圧器。
音声検出判定を行うために前記の検出器に入力された信号を所定の閾値と比較するための手段（１１２）と、前記の時間平均された音声パワー平均値（ニ）と前記の時間平均された雑音パワー平均値（ホ）との比（ヘ）が増加するとき前記閾値が増加又は同一のままとされ、前記の比（ヘ）が減少するとき前記閾値が減少又は同一のままとされるように、前記の音声パワー平均値（ニ）及び前記の雑音パワー平均値（ホ）に基づいて前記閾値を調整するための手段（１１３）とをそなえることを特徴とする、請求項７に記載の雑音抑圧器。
前記雑音のレベルを推定して前記レベルの値を記憶するための雑音推定手段（８０）をそなえ、各々の分析された音声信号の時に、各々の検出された音声信号の前後の所定の時間内に該音声活性検出器（１１０）が音声を検出しなかった場合に限って雑音推定値が更新されることを特徴とする、請求項７に記載の雑音抑圧器。
連続するフレームのエネルギーの変化を調べることによって、音声信号源の安定度を示すための安定度指示手段（１００）をそなえており、前記雑音推定手段（８０）は、その安定度の示度が該音声信号源が安定であることを示しているときに、前のフレームの雑音推定値及び前記合成信号（Ｓ）に基づいて、現在のフレームの雑音推定値を更新するようにされていることを特徴とする、請求項１０に記載の雑音抑圧器。
送信されるべき音声を音声信号に変換するためのマイクロホン（１）を有する音声送受信用の移動局であって、該音声信号中の雑音を抑圧するために該移動局は、前記音声信号を、各々がパワースペクトル成分（Ｐ）を有し、かつ所定の帯域幅を有する周波数領域信号成分を表す多数のスペクトル成分（Ｘ）に分割するための手段（２０，５０）と、抑圧係数（Ｇ）を用いることによってスペクトル成分（Ｘ）中の雑音を抑圧するための抑圧手段（３０）とをそなえ、前記移動局は更に、隣り合うスペクトル成分（Ｘ）を、各々が前記所定の帯域幅より広い帯域幅を有する一群の合成信号（Ｓ）に再合成するための再合成手段（６０）と、該合成信号（Ｓ）に含まれている前記の雑音に基づいて前記一群の合成信号（Ｓ）についての抑圧係数（Ｇ）を決定するための決定手段（１９０，１３０）とをそなえており、前記抑圧手段（３０）は、前記抑圧係数（Ｇ）を用いて前記スペクトル成分（Ｘ）をスケーリングするように構成されていることを特徴とする移動局。
音声信号中の雑音を抑圧する雑音抑圧方法であって、前記音声信号を、各々がパワースペクトル成分（Ｐ）を有し、かつ所定の帯域幅を有する周波数領域信号成分を表す多数のスペクトル成分（Ｘ）に分割し、抑圧係数（Ｇ）を用いることによってスペクトル成分（Ｘ）中の雑音を抑圧するようになっており、雑音抑圧の前に、隣り合うスペクトル成分（Ｘ）を、各々が前記所定の帯域幅より広い帯域幅を有する一群の合成信号（Ｓ）に再合成し、該合成信号（Ｓ）に含まれている前記の雑音に基づいて前記一群の合成信号（Ｓ）についての抑圧係数（Ｇ）を決定し、該抑圧係数（Ｇ）を用いて前記スペクトル成分（Ｘ）をスケーリングすることを特徴とする方法。