JP2010055024A

JP2010055024A - 信号補正装置

Info

Publication number: JP2010055024A
Application number: JP2008222700A
Authority: JP
Inventors: Takashi Sudo; 隆須藤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-08-29
Filing date: 2008-08-29
Publication date: 2010-03-11
Anticipated expiration: 2028-08-29
Also published as: US20100056063A1; JP4660578B2; US8108011B2

Abstract

【課題】少ない演算量で、不要な非目的信号が支配的であるような状況での耳障りな音の発生を低減し、かつ非目的信号が支配的ではない状況での目的信号である音声信号の歪みを小さくすることができる信号補正装置を提供する。
【解決手段】直交変換を行った信号に対して補正を行う際、周波数帯域をグループ化して補正処理を行う。このとき、雑音やエコーなどの非目的信号が非常に大きい場合には、１グループに含まれるビン数を多くし、雑音やエコーなどの非目的信号と目的信号である音声信号が混在している場合には、１グループに含まれるビン数を少なくする。
【選択図】図２

Description

本発明は信号補正装置に関する。

携帯電話機やＰＣなど音声の入出力を行う機器では、入力された音声に含まれる雑音を抑圧する雑音抑圧処理や、スピーカからマイクロホンへの回り込みによって生じるエコーを抑圧するエコー抑圧処理が行われる。雑音やエコーを抑圧する処理には、様々な手法が提案されている（例えば、特許文献１参照。）。
特許第３５２２９８６号公報

特許文献１に記載される発明では、入力信号に対して直交変換を行い、この直交変換により得られた変換係数を音声のピッチ周期に対応する周波数を考慮したある固定の周波数より低い帯域に含まれる変換係数群と、この固定の周波数より高い帯域に含まれる変換周波数群との２つのグループに分け、高い帯域に含まれる変換係数群に対しては個々の変換係数ごとに異なる抑圧ゲイン（比率）で抑圧処理を行い、低い帯域に含まれる変換係数群に対しては一定の抑圧ゲイン（比率）で抑圧処理を行う。これによって、音声のピッチ周期よりも短いフレーム長となるような低い次元数の直交変換手段を使用しても雑音抑圧後の音声に歪みが生じないようにし、これにより直交変換に係わる演算量が少なく、しかも音声品質の劣化が生じない。

しかしながら、複数の周波数帯域に対して一定の抑圧ゲイン（比率）で抑圧処理を行う場合、同一のグループにおける一定の抑圧ゲイン（比率）とする変換係数群の個数（周波数帯域の数）が少なすぎると、入力信号のうち非目的信号である雑音がはいった区間で耳障りなミュージカルノイズが生じてしまう。また、同一のグループにおける一定の抑圧ゲイン（比率）とする変換係数群の個数（周波数帯域の数）が多すぎると、雑音が少ない音声区間での音声の歪みが大きくなりやすい。この問題は、雑音抑圧の場合だけでなく、エコーを抑圧する場合にも生じ、入力信号に対して、不要な非目的信号であるエコーが入った場合に同一のグループにおける一定の比率とする周波数帯域の数が少ないと、耳障りな音が生じてしまい、エコーが少ない区間の場合に同一のグループにおける一定の比率とする周波数帯域の数が多いと、音声の歪みが大きくなる。

特許文献１に記載の発明では、グループの分割方法を入力信号に応じて動的に変化させることは無いため、直交変換後に周波数特性が類似したものをグループ化して雑音抑圧処理を行ったとしても、同一のグループにおける一定の比率とする周波数帯域の数によっては、上述のように耳障りな音が生じたり、音声の歪みが大きくなったりといった問題が生じる。

そこで本発明は、少ない演算量で、不要な非目的信号が支配的であるような状況での耳障りな音の発生を低減し、かつ非目的信号が支配的ではない状況での目的信号である音声信号の歪みを小さくすることができる信号補正装置を提供することを目的とする。

上記目的を達成するために、本発明による信号補正装置は、目的信号である音声とそれ以外の不要な非目的信号が混在した入力信号に対して直交変換を行う直交変換手段と、前記入力信号のフレームごとに非目的信号が支配的に存在している区間であるか否かを判別する区間判別手段と、前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、第１の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、第２の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲイン算出手段によって算出された抑圧ゲインを用いて前記直交変換手段によって得られた変換係数に対して非目的信号を抑圧する信号補正処理を行う信号補正手段とを有することを特徴としている。

本発明によれば、少ない演算量で、不要な非目的信号が支配的であるような状況での耳障りな音の発生を低減し、かつ非目的信号が支配的ではない状況での目的信号である音声信号の歪みを小さくすることができる信号補正装置を提供することができる。

以下、本発明の実施形態について図面を参照して説明する。

図１は第１の実施形態にかかる信号補正装置が適用された携帯電話機の無線通信装置の送話系の構成を示している。この図に示す無線通信装置は、マイクロホン１、Ａ／Ｄ変換器２、信号補正部３、エンコーダ４、および無線通信部５を備えている。

マイクロホン１は、周囲の音を集音してアナログの信号ｘ（ｔ）として出力する。このとき、目的信号である音声信号ｓ（ｔ）以外に、周囲環境雑音であるノイズ成分も混ざって、マイクロホン１から信号ｘ（ｔ）として集音される。これ以降、このノイズ成分のような目的信号以外の不要な信号を非目的信号と記述する。Ａ／Ｄ変換器２は、マイクロホン１から出力されるアナログの信号ｘ（ｔ）に対して、所定の処理単位ごとにＡ／Ｄ変換を行って、サンプリング周波数８ｋＨｚとし、１フレーム（Ｎサンプル）ごとのディジタルの信号ｘ［ｎ］（ｎ＝０，１，・・・，Ｎ−１）を出力する。以下ここでは１フレームをＮ＝１６０サンプルとする。信号補正部３は、入力される信号に対して目的信号のみを強調したり非目的信号を抑圧したりするように補正して、補正後の信号ｙ［ｎ］を出力するものであって、例えばこの場合、入力信号に対する雑音抑圧処理が考えられる。信号補正部３の詳細な処理については、後述する。エンコーダ４は、信号補正部３から出力される補正後の信号ｙ［ｎ］を符号化して、無線通信部５に出力する。無線通信部５はアンテナなどを含み、図示しない無線基地局と無線通信して、移動通信網を通じて通信相手局との間に通信リンクを確立して通信し、エンコーダ４から出力された信号を通信相手局へ送信する。

なお、ここでは、無線通信部５によってエンコーダ４から出力された信号を送信するとして説明するが、メモリやハードディスクなどによって構成される記憶手段を設け、エンコーダ４から出力される信号を記憶手段に記憶させるような構成でも良いし、無線通信によって受信した信号や記憶手段に予め記憶された信号をデコードした後に雑音抑圧処理を行って得られる信号をＤ／Ａ変換してスピーカから出力する構成でも良い。

次に、信号補正部３について説明する。本実施形態の信号補正部３では、雑音抑圧処理が行われるものとして説明する。信号補正部３は、ディジタル化された音声信号ｘ［ｎ］が入力され、雑音抑圧後のディジタル信号ｙ［ｎ］を出力する。図２は、雑音抑圧を行う信号補正部３の構成を示すブロック図である。

直交変換部３００は、１フレーム前の入力信号と当該フレームｆの入力信号ｘ［ｎ］から、適宜零詰めなどを行って、直交変換に必要なサンプル分の信号を取り出し、ハミング窓などによる窓掛けを行い、ＦＦＴ（Fast Fourier Transform）などの手法を用いて、直交変換を行って入力信号の周波数スペクトルＸ［ｆ，ω］を出力する。ただし、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓（ハニング窓、ブラックマン窓、正弦波窓など）あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。なお、次のフレームでの入力信号ｘ［ｎ］のシフト幅と入力信号ｘ［ｎ］のデータ長の比であるオーバーラップは５０%に限らない。ここでは例として、次フレームとのオー
バーラップのサンプル数をＭ＝４８として、１フレーム前の入力信号Ｍサンプルと当該フレームの入力信号ｘ［ｎ］のＮ＝１６０サンプル分とＭサンプル分の零詰めから、２５６サンプルを用意する。この２５６サンプルに対して数１で表される正弦波窓による窓関数ｗ［ｎ］をｘ［ｎ］に乗じることで窓掛けを行い、ＦＦＴによる直交変換を行う。

さらに、直交変換部３００では２５６点ＦＦＴによる直交変換を行って、入力信号は実信号であるため冗長な１２８ビンを除くと、周波数スペクトルＸ［ｆ，ω］（ω＝０、１、…、１２７）が得られ、この周波数スペクトルＸ［ｆ，ω］および振幅スペクトル|Ｘ[ｆ，ω]|（ω＝０、１、…、１２７）および位相スペクトルθ_X[ｆ，ω]（ω＝０、１、
…、１２７）を出力する。なお、実信号のとき冗長なのは本来１２７ビンであり、最高域の周波数ビンω＝１２８を考慮するべきであるが、ここでは入力信号として帯域制限された音声を含む信号を前提しており、帯域制限によって最高域の周波数ビンω＝１２８を考慮しなくても音質に影響を及ぼさないため、これ以降説明の簡略化のために、最高域の周波数ビンω＝１２８を考慮しない記述にする。勿論、最高域の周波数ビンω＝１２８を考慮しても構わない。その際、最高域の周波数ビンω＝１２８は、ω＝１２７と同等に扱うか、単独で扱うようにする。

なお、直交変換部３００は、ＦＦＴ以外に、周波数解析のために周波数領域へ変換する直交変換として、離散フーリエ変換（ＤＦＴ: Discrete Fourier Transform）や離散コサイン変換（ＤＣＴ: Discrete Cosine Transform）、ウォルシュ・アダマール変換（ＷＨＴ: Walsh Hadamard Transform）、ハーレ変換（ＨＴ: Harr Transform）、スラント変換（
ＳＬＴ: Slant Transform）、カルーネン・レーベ変換（ＫＬＴ: Karhunen Loeve Transform）、直交離散ウェーブレット変換などを使用してもよい。

パワースペクトル算出部３０１は、直交変換部３００から出力された周波数スペクトルＸ［ｆ，ω］から、パワースペクトル|Ｘ[ｆ，ω]|²（ω＝０、１、…、１２７）を算出
し出力する。

音声・雑音区間判別部３０２は、入力された１フレームごとの入力信号ｘ［ｎ］が非目的信号であるノイズ成分が支配的に含まれている区間（雑音区間）であるか、そうではない区間、つまり目的信号である音声信号と非目的信号であるノイズ成分が混在している区間（音声区間）であるかの判別を行い、判定結果を示す情報を出力する。以降、当該成分のみしか存在しないか、あるいは当該成分が他の成分よりも非常に多く含まれる場合を「支配的に含まれる」「支配区間」と表現する。またそうでない場合を「非支配」「非支配区間」と表現する。

音声・雑音区間判別部３０２の処理は、入力信号ｘ［ｎ］およびパワースペクトル|Ｘ[ｆ，ω]|²と後述する雑音量推定部３１８から出力される１フレーム前の各帯域の雑音量|Ｎ[ｆ−１，ω]|²を用いて１フレーム単位で音声・雑音区間の判別を行う。具体的には、まず入力信号ｘ［ｎ］の0次自己相関係数によって正規化された1次自己相関係数を求め、時間方向に忘却させながら正規化された1次自己相関係数の平均値を求め、それが０．５
よりも大きいかどうかを判定する。次に、帯域ごとにパワースペクトル|Ｘ[ｆ，ω]|²と
１フレーム前の各帯域の雑音量|Ｎ[ｆ−１，ω]|²との差がある程度（例えば５ｄＢ）以
上大きいかどうかを判定し、隣接帯域で連続して差が大きくなっている帯域の数Bを数え
、この帯域数Ｂの当該同一フレーム中における最大数B_ＭＡＸを保持する。そして、正規
化された1次自己相関係数の平均値が０．５以下で、かつB_ＭＡＸが１以上であるときに、非目的信号であるノイズ成分が支配的に含まれている区間（雑音区間）であると判定する。一方、正規化された1次自己相関係数の平均値が０．５より大きく、またはB_ＭＡＸが０であるときに、目的信号である音声信号と非目的信号であるノイズ成分が混在している区間（音声区間）であると判定する。

また、音声・雑音区間判別部３０２の処理は、例えば、米国で規格化された可変レート音声符号化である”Enhanced Variable Rate Codec, Speech Service Option 3 for Wideband Spread Spectrum Digital System”(TIA IS127)にオプションで規定されたノイズキャンセラに記載の手法や、特開２００１−３４４０００に記載の手法や、古田、高橋、中島、”スペクトル減算と振幅抑圧の相互制御に基づく雑音抑圧法の検討”、電子情報通信学会論文誌（D-II）、Vol.J87-D-II、No.2、pp.464-474、2004年2月．に記載の手法を用
いて入力信号ｘ［ｎ］およびパワースペクトル|Ｘ[ｆ，ω]|²を用いて１フレーム単位で
音声・雑音区間の判別を行うこともできる。なお、これに限定するものではない。上記の例では、音声・雑音区間の判別について２分類以上にする記載もあるが、これらを本実施例で用いる場合には適宜閾値を設定して２分類とする、すなわち全てのフレームを音声区間と雑音区間のどちらかに必ず分けるようにする。

抑圧ゲイン解像度判別部３０３は、音声・雑音区間判別部３０２の出力を用いて、音声区間であるか雑音区間であるかに応じて、切替器３０４、３１１、３１４、３１９を切り替える。すなわち、抑圧ゲイン解像度判別部３０３によって、切替器３０４、３１１、３１４、３１９は連動して動作するように制御される。音声・雑音区間判別部３０２の出力が雑音区間である場合は、切替器３０４の切替えによってグループ統合化部３０８が動作し、切替器３１１の切替えによってグループ分離化部３１０が動作し、切替器３１４の切替えによってグループ統合化部３１６が動作し、切替器３１９の切替えによってグループ統合化部３２０が動作する。一方、音声・雑音区間判別部３０２の出力が音声区間である場合は、切替器３０４の切替えによってグループ統合化部３０５が動作し、切替器３１１の切替えによってグループ分離化部３０７が動作し、切替器３１４の切替えによってグループ統合化部３１５が動作し、切替器３１９の切替えによってグループ統合化部３２１が動作する。

グループ統合化部３０５と３０８は、切替器３０４の切替えによってどちらか一方が動作するものであって、どちらもパワースペクトル算出部３０１から出力される入力信号のパワースペクトル|Ｘ[ｆ，ω]|²について所定数の周波数ビンごとに１つのグループとな
るよう纏める処理を行う。ただし、グループ統合化部３０５とグループ統合化部３０８とでは、１つのグループとして纏めるビン数に違いがある。グループ統合化部３０５では、１つのグループにグループ化するビン数が少なく、グループ数が多い（以降、この状態を「（周波数方向の）解像度が高い」と称する）。それに対して、グループ統合化部３０８では、１つのグループにグループ化するビン数が多く、グループ数が少ない（以降、この状態を「（周波数方向の）解像度が低い」と称する）。以降の例では１つのグループにグループ化するビン数を一定としているが、バークスケールを利用するなどして、低域では１つのグループにグループ化するビン数を少なくして、高域では１つのグループにグループ化するビン数を多くして、周波数方向によって１つのグループにグループ化するビン数を変化させてもよい。

例えば、入力信号のパワースペクトル|Ｘ[ｆ，ω]|²（ω＝０、１、…、１２７）をグ
ループ統合化部３０５では６４グループに纏め、グループ統合化部３０８では１６グループに纏める場合、グループ統合化部３０５では２ビンずつを１グループとして６４グループから成るパワースペクトル|Ｘ[ｆ，ｍ]|²（ｍ＝０、１、…、６３）を生成し、グルー
プ統合化部３０８では８ビンずつを１グループとして１６グループから成るパワースペクトル|Ｘ[ｆ，ｋ]|²（ｋ＝０、１、…、１５）を生成する。グループ統合化部３０５、３
０８で複数のビンを１グループに纏める場合には、１グループに纏めるビンのパワースペクトル|Ｘ[ｆ，ω]|²を平均して得られた結果をグループごとのパワースペクトルとし代
表値として出力する。

雑音量推定部３１８は、音声・雑音区間判別部３０２から出力される音声区間か雑音区間かを示す情報と、パワースペクトル算出部３０１から出力される音声信号のパワースペクトル|Ｘ[ｆ，ω]|²を用いて、各帯域の雑音量|Ｎ[ｆ，ω]|²を推定する。具体的には、雑音区間と判別されたフレームのパワースペクトル|Ｘ[ｆ，ω]|²をフレーム単位で忘却
させて平均パワースペクトルを算出し、これを各帯域の雑音量|Ｎ[ｆ，ω]|²として出力
する。具体的には、１フレーム前の各帯域の雑音量を|Ｎ[ｆ−1，ω]|²として、忘却係数_αN[ω]を０．７５〜０．９５程度として数２の式で雑音量|Ｎ[ｆ，ω]|²は算出される。

グループ統合化部３２０、３２１は、切替器３１９の切替えによって、いずれか一方が動作する。グループ統合化部３２０、３２１は、どちらも雑音量推定部３１８から出力される雑音量|Ｎ[ｆ，ω]|²について所定数の周波数ビンごとに１グループに纏める処理を
おこなうが、グループ統合化部３２０とグループ統合化部３２１とでは、１グループに纏める周波数ビン数が異なる。グループ統合化部３２０では、入力信号のパワースペクトルを低解像度で統合化するグループ統合化部３０８と同じビン数ごとに１グループに纏める。それに対して、グループ統合化部３２１では、入力信号のパワースペクトルを高解像度で統合化するグループ統合化部３０５と同じビン数ごとに１グループに纏める。例えば、グループ統合化部３２０では、各帯域の雑音量|Ｎ[ｆ，ω]|²（ω＝０、１、…１２７）
を８ビンごとに纏め、１６グループの帯域の雑音量|Ｎ[ｆ，ｋ]|²（ｋ＝０、１、…１５
）を算出する。それに対して、グループ統合化部３２１では、各帯域の雑音量|Ｎ[ｆ，ω]|²（ω＝０、１、…１２７）の２ビンを１グループとして、６４グループの帯域の雑音
量|Ｎ[ｆ，ｍ]|²（ｍ＝０、１、…６３）を出力する。

抑圧ゲイン算出部３０６と、抑圧ゲイン算出部３０９では、どちらも雑音抑圧処理のための抑圧ゲイン算出を行う。なお、抑圧ゲイン解像度判別部３０３によって制御された経路の抑圧ゲイン算出処理しか動作しない。つまり、音声・雑音区間判別部３０２の出力が音声区間である場合は、抑圧ゲイン算出部３０６による抑圧ゲイン算出処理が動作する。

一方、音声・雑音区間判別部３０２の出力が雑音区間である場合は、抑圧ゲイン算出部３０９による抑圧ゲイン算出処理が動作する。ただし、抑圧ゲイン算出部３０６では高解像度な抑圧ゲイン算出処理が行われ、抑圧ゲイン算出部では低解像度な抑圧ゲイン算出処理が行われる。

抑圧ゲイン算出部３０６は、グループ統合化部３０５から出力される高解像度の入力信号のパワースペクトル|Ｘ[ｆ，ｍ]|²と、グループ統合化部３２１から出力される高解像
度の雑音量|Ｎ[ｆ，ｍ]|²とを用いて、設定されたグループ数に相当する各帯域の抑圧ゲ
インＧ［ｆ，ｍ］を算出する。抑圧ゲインＧ［ｆ，ｍ］の算出は、例えば以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズキャンセラであるスペクトル・サブトラクション（Spectral Subtraction）法（S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).）、ウィナー・
フィルター（Wiener Filter）法（J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.）及び最尤推定（Maximum Likelihood）法（R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.）などである。ここでは一例としてウィナー・フィルター法を用いることとし、Ｒ
［・］を半波整流として、後述するグループ統合化部３１５から出力される１フレーム前の雑音抑圧された信号のパワースペクトル|Ｙ［ｆ−１，ｍ］|²を用いて、事前ＳＮ比Ｓ
ＮＲ_ＰＲＩＯ［ｆ，ｍ］及び事後ＳＮ比ＳＮＲ_ＰＯＳＴ［ｆ，ｍ］は、それぞれ、以下の数３、数４により求められ、抑圧ゲインＧ［ｆ，ｍ］は、以下の数５により算出される。

但し、μ［ｍ］は０．９〜０．９９９程度の忘却係数である。

なお、抑圧ゲイン算出部３０６では、過剰にノイズ成分を抑圧することによって音質が劣化することを防止し、背景雑音の断続的な抑圧を防止するため、抑圧ゲインＧ［ｆ，ｍ］が例えば−１２ｄＢ以下とならないように０．２５２≦Ｇ［ｆ，ｍ］≦１．０を満たすように制限するなど所定の下限値以下とならないように制御しても良い。

一方、抑圧ゲイン算出部３０９は、グループ統合化部３０８から出力される低解像度の入力信号のパワースペクトル|Ｘ[ｆ，ｋ]|²と、グループ統合化部３２０から出力される
低解像度の雑音量|Ｎ[ｆ，ｋ]|²と、後述するグループ統合化部３１６から出力される１
フレーム前の雑音抑圧された信号のパワースペクトル|Ｙ［ｆ−１，ｋ］|²を用いて、設
定されたグループ数に相当する各帯域の抑圧ゲインＧ［ｆ，ｋ］を算出する。抑圧ゲイン算出部３０９で行う処理は、抑圧ゲイン算出部３０６の処理と同様であるため、詳細な説明は省略する。

グループ分離化部３０７、３１０は、グループ統合化部３０５またはグループ統合化部３０８によってグループ化された周波数ビンをグループ化前のビン数に戻す。例えば、低解像度のグループ統合化部３０８で１２８ビンを８ビンずつまとめて１６グループを生成していた場合、グループ分離化部３１０では、抑圧ゲイン算出部３０９から出力された抑圧ゲインＧ［ｆ，ｋ］の同一グループ内で各サンプルを８つ複製した上で１６グループのグループ化を分離し、１２８ビン分の抑圧ゲインＧ［ｆ，ω］を生成する。高解像度のグループ分離部３０７でも、低解像度のグループ分離部３１０と同様の処理によって、グループ化前のビン数に戻した抑圧ゲインＧ［ｆ，ω］を得ることができる。このようにしてグループ分離化部３０７または３１０によって出力された抑圧ゲインＧ［ｆ，ω］は、切替器３１１を介して雑音抑圧部３１２に入力される。

雑音抑圧部３１２は、直交変換部３００から出力された入力信号の振幅スペクトル|Ｘ[ｆ，ω]|と、切替器３１１を介してグループ分離化部３０７または３１０から出力された抑圧ゲインＧ［ｆ，ω］とを入力として、雑音抑圧された信号の振幅スペクトル|Ｙ[ｆ，ω]|を算出する。雑音抑圧された信号の振幅スペクトル|Ｙ[ｆ，ω]|は、雑音抑圧前の振幅スペクトル|Ｘ[ｆ，ω]|に、抑圧ゲインＧ［ｆ，ω］を乗じて|Ｙ[ｆ，ω]|＝|Ｘ[ｆ，ω]|・Ｇ［ｆ，ω］と表すことができる。

パワースペクトル算出部３１３は、雑音抑圧部３１２から出力された雑音抑圧された信号の振幅スペクトル|Ｙ[ｆ，ω]|から、雑音抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²（ω＝０、１、…、１２７）を算出し出力する。

グループ統合化部３１５、３１６は、切替器３１４の切替えによって、いずれか一方が動作する。グループ統合化部３１５、３１６は、どちらもパワースペクトル算出部３１３から出力される雑音抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²について所定数の
周波数ビンごとに１グループに纏める処理を行うが、グループ統合化部３１５とグループ統合化部３１６とでは、１グループに纏める周波数ビン数が異なる。グループ統合化部３１６では、入力信号のパワースペクトルを低解像度で統合化するグループ統合化部３０８と同じビン数ごとに１グループに纏める。それに対して、グループ統合化部３１５では、入力信号のパワースペクトルを高解像度で統合化するグループ統合化部３０５と同じビン数ごとに１グループに纏める。例えば、グループ統合化部３１６では、各帯域の雑音抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²（ω＝０、１、…１２７）を８ビンごとに
纏め、１６グループの帯域の雑音抑圧された信号のパワースペクトル|Ｙ[ｆ，ｋ]|²（ｋ
＝０、１、…１５）を算出する。それに対して、グループ統合化部３１５では、各帯域の雑音抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²（ω＝０、１、…１２７）の２ビ
ンを１グループとして、６４グループの帯域の雑音抑圧された信号のパワースペクトル|
Ｙ[ｆ，ｍ]|²（ｍ＝０、１、…６３）を出力する。

なお、抑圧ゲイン算出部３０６あるいは３０９における抑圧ゲインの算出が、１フレーム前の雑音抑圧された信号のパワースペクトルを用いない手法であれば、パワースペクトル算出部３１３、切替器３１４、グループ統合化部３１５、３１６は省略してよい。

逆直交変換部３１９では例えば、直交化変換部３００によって２５６点ＦＦＴによって周波数変換されていたならば、直交変換部３００によって周波数変換された入力信号が実信号であったことを考慮に入れて直交変換部３００から出力された位相スペクトルθ_X[ｆ，ω]（ω＝０、１、…、１２７）を２５６点に復元し、雑音抑圧部３１６から出力され
る雑音抑圧された信号の振幅スペクトル|Ｙ[ｆ，ω]|を用いて、２５６点のＩＦＦＴで周波数逆変換を行い、適宜直交変換部３００における窓掛けを考慮して、１フレーム前の雑音抑圧された時間領域の信号ｙ［ｎ］を用いてオーバーラップを戻す処理を行い、雑音抑圧された時間領域の信号ｙ［ｎ］を算出することができる。

以上のように、入力された信号のフレームごとに非目的信号であるノイズ成分が支配的に含まれている区間（雑音区間）であるか、そうではない区間（音声区間）であるかの判別を行い、非目的信号を抑圧する雑音抑圧処理を行う周波数領域の解像度を、雑音区間ならば低い解像度にして粗くグループ化した周波数帯域ごとに非目的信号を抑圧する雑音抑圧処理を行い、音声区間ならば高い解像度にして細かくグループ化した周波数帯域ごとに非目的信号を抑圧する雑音抑圧処理を行う。これによって、雑音区間では周波数領域の解像度を低くすることで、雑音の抑圧量が大きくなり支配的であるノイズ成分による雑音感が低減し、周波数領域の解像度を高くすることによって生じるミュージカルノイズを低減することができる。また、音声区間では周波数領域の解像度を高くすることで、周波数領域の解像度を低くすることによって生じる音声の歪みを小さくすることができる。

なお、本実施例では、グループに纏める処理においてグループ内のパワースペクトル|
Ｘ[ｆ，ω]|²の平均値を代表値として用いているが、平均値に限らず適宜変更しても構わない。例えば、グループ内のパワースペクトルの最大値を代表値にしたり、グループ内のパワースペクトルの平均値に一番近い値を代表値にしたり、グループ内のパワースペクトルを昇順に並び変えて真ん中にくる値を代表値にしたりしてもよく、同様の効果が得られる。また、本実施例では、グループに纏める処理をパワースペクトル|Ｘ[ｆ，ω]|²につ
いて処理を行っているが、パワースペクトルに限らず適宜変更しても構わない。例えば、スペクトルＸ[ｆ，ω]についてグループに纏める処理を行ったり、振幅スペクトル|Ｘ[ｆ，ω]|と位相スペクトルθ_X[ｆ，ω]をペアで持ってグループに纏める処理を行ったりし
てもよく、同様の効果が得られる。また、本実施例ではＦＦＴを用いて直交変換を行っているが、前述した周波数解析のための周波数領域へ変換する他の直交変換を用いて得られた変換係数についてグループに纏める処理を行うことでも、同様の効果が得ることができる。

なお、音声区間であるか雑音区間であるかに応じて雑音抑圧処理の解像度を変更する信号補正部３は、上述した構成に限定されず、適宜変更することができる。図３、図４では変更の一例を説明する。

図３に示す雑音抑圧処理を行う信号補正部３では、音声・雑音区間判別部３０２が、グループ統合化部３０８を用いて低解像度となるようグループ化された入力信号のパワースペクトル|Ｘ[ｆ，ｋ]|²を用いて音声区間であるか雑音区間であるかの判別を行う。また
、抑圧ゲイン解像度判別部３０３は、音声・雑音区間判別部３０２の出力を用いて、音声区間であるか雑音区間であるかに応じて、切替器３０４を切り替える代わりに、切替器３０４Ａか切替器３０４Ｂのいずれか一方が動作するように切り替える。つまり、音声・雑音区間判別部３０２の出力が雑音区間である場合は、切替器３０４Ａの切替えによって抑圧ゲイン算出部３０９が動作する。一方、音声・雑音区間判別部３０２の出力が音声区間である場合は、切替器３０４Ａの切替えによって抑圧ゲイン算出部３０６が動作する。また、雑音量推定部３１８は、音声・雑音区間判別部３０２から出力される音声区間であるか雑音区間であるかを示す情報と、グループ統合化部３０８より出力された低解像度となるようグループ化された入力信号のパワースペクトル|Ｘ[ｆ，ｋ]|²とを用いて雑音量を
推定する。このため、雑音量推定部３１８から出力される各帯域の雑音量|Ｎ[ｆ，ｋ]|²
も低解像度である。そこで、音声・雑音区間判別部３０２によって音声区間であると判別され、抑圧ゲイン解像度判別部３０３が切替器３１９を高解像度に切替えた場合には、雑音量推定部３１８から出力される各帯域の雑音量|Ｎ[ｆ，ｋ]|²をグループ分離化部３２
１−２によって高解像度として設定されたビン数に分離化する。このように図３に示す信号補正部３では、雑音量推定部３１８における雑音量推定の解像度を、雑音区間に対して雑音抑圧を行う解像度と同一（低解像度）にすることによって、図２に示す信号補正部３におけるグループ統合化部３２０の処理を省くことができ、処理の冗長性を排除することができる。

図４に示す雑音抑圧処理を行う信号補正部３では、図３に示す雑音抑圧処理を行う信号補正部３からさらに、音声区間に対する雑音抑圧のための抑圧ゲイン算出処理（高解像度な雑音抑圧処理）の場合の解像度を直交化変換部３００の直交変換の解像度と同じにしている。これは例えば、直交変換部３００で、２５６点のＦＦＴを行って直交変換を行ったとき、入力信号の処理対象フレームが雑音区間と判定された場合には、グループ統合化部３０８によって１２８よりも低い（例えば１６）グループ数となるように統合化されたパワースペクトル|Ｘ[ｆ，ｋ]|²を用いて雑音抑圧のための抑圧ゲイン算出処理を行うのに
対して、入力信号の処理対象フレームが音声区間と判定された場合には、直交変換部３００によって得られる各帯域（１２８点）に対して雑音抑圧のための抑圧ゲイン算出処理を行うとするような場合である。このように、入力区間に対する雑音抑圧のための抑圧ゲイン算出処理の場合の解像度と直交化変換部３００の直交変換の解像度とが同じであるため、音声区間に対して高解像度に雑音抑圧のための抑圧ゲイン算出処理を行う場合のグループ化（図３の信号補正部３におけるグループ統合化部３０５）を必要としない。また、音声区間の場合にはグループ統合化を行わないため、音声区間に対して高解像度に雑音抑圧のための抑圧ゲイン算出処理を行った場合には、グループの分離化処理（図３の信号補正部３におけるグループ分離化部３０７）および雑音抑圧された信号のパワースペクトル|
Ｙ[ｆ，ω]|²のグループ統合化処理（図３の信号補正部３におけるグループ統合化部３１５）も必要としない。そのため、処理の冗長性を排除することができる。

以上図２乃至図４に例示したいずれの場合であっても、入力された信号のフレームごとに非目的信号であるノイズ成分が支配的に含まれている区間（雑音区間）であるか、そうではない区間（音声区間）であるかの判別を行い、非目的信号を抑圧する雑音抑圧処理を行う周波数領域の解像度を、音声区間であるか雑音区間であるかに応じて変化させているため、少ない処理量で雑音区間での耳障りなミュージカルノイズを低減し、音声区間での音声の歪みを小さくすることができる。

図５は第２の実施形態にかかる信号補正装置が適用された携帯電話機の無線通信装置の送受話系の構成を示している。この図に示す無線通信装置は、マイクロホン１、Ａ／Ｄ変換器２、信号補正部６、エンコーダ４、無線通信部５、デコーダ７、Ｄ／Ａ変換器８、スピーカ９を備えている。

マイクロホン１は、周囲の音を集音してアナログの信号ｘ（ｔ）として出力する。このとき、目的音である音声信号ｓ（ｔ）以外に、周囲雑音であるノイズ成分や、後述のデコーダ７をから出力される受話信号ｚ（ｔ）に起因するエコー成分などの目的信号以外の不要な非目的信号も混ざって、マイクロホン１から信号ｘ（ｔ）として集音される。Ａ／Ｄ変換器２は、マイクロホン１から出力されるアナログの信号ｘ（ｔ）に対して、所定の処理単位ごとにＡ／Ｄ変換を行って、サンプリング周波数８ｋＨｚとし、１フレーム（Ｎサンプル）ごとのディジタルの信号ｘ［ｎ］を出力する。以下ここでは１フレームをＮ＝１６０サンプルとする。信号補正部６は、後述のデコーダ７をから出力される受信信号ｚ［ｎ］を用いて入力信号ｘ［ｎ］に対して目的信号のみを強調したり非目的信号を抑圧したりするように補正して、補正後の信号ｙ［ｎ］を出力するものであって、例えばこの場合、入力信号に対するエコー抑圧処理および雑音抑圧処理が考えられる。エンコーダ４は、信号補正部６から出力される補正後の信号ｙ［ｎ］を符号化して、無線通信部５に出力する。無線通信部５はアンテナなどを含み、図示しない無線基地局と無線通信して、移動通信網を通じて通信相手局との間に通信リンクを確立して通信し、エンコーダ４から出力された信号を通信相手局へ送信する。また、無線基地局から受信した受信信号は、デコーダ７に入力する。デコーダ７は、入力される受信信号を復号して得られる受話信号ｚ［ｎ］を出力する。Ｄ／Ａ変換器８では、この受話信号ｚ［ｎ］をアナログの受話信号ｚ（ｔ）に変換して、スピーカ９から出力する。なお、デコーダ７およびＤ／Ａ変換器８でも同様にサンプリング周波数を８ｋＨｚとする。

なお、ここでは、無線通信部５によってエンコーダ４から出力された信号を送信するとして説明するが、メモリやハードディスクなどによって構成される記憶手段を設け、エンコーダ４から出力される信号を記憶手段に記憶させるような構成でも良い。また、ここでは、無線通信部５によってデコーダ７から出力された信号を受信するとして説明するが、メモリやハードディスクなどによって構成される記憶手段を設け、
記憶手段に記憶された信号をデコーダ７から出力するような構成でも良い。

次に、信号補正部６について説明する。本実施形態の信号補正部６では、エコー抑圧処理が行われるものとして説明する。信号補正部６は、ディジタル化された送話信号ｘ［ｎ］と受話信号ｚ［ｎ］とが入力され、エコー抑圧後の送話信号ｙ［ｎ］を出力する。図６は、エコー抑圧を行う信号補正部６の構成を示すブロック図である。

直交変換部６００は、実施例１の直交変換部３００と同様に、１フレーム前の入力信号と当該フレームｆの入力信号ｘ［ｎ］から、適宜零詰めなどを行って、直交変換に必要なサンプル分の信号を取り出し、ハミング窓などによる窓掛けを行い、ＦＦＴなどの手法を用いて入力信号ｘ［ｎ］に対して直交変換を行う。ここでは例として、次フレームとのオーバーラップのサンプル数をＭ＝４８として、１フレーム前の入力信号Ｍサンプルと当該フレームの入力信号ｘ［ｎ］のＮ＝１６０サンプル分とＭサンプル分の零詰めから、２５６サンプルを用意する。この２５６サンプルに対して数１で表される正弦波窓による窓関数ｗ［ｎ］をｘ［ｎ］に乗じることで窓掛けを行い、ＦＦＴによる直交変換を行う。そして、入力信号の周波数スペクトルＸ［ｆ，ω］（ω＝０、１、…、１２７）および振幅スペクトル|Ｘ[ｆ，ω]|（ω＝０、１、…、１２７）および位相スペクトルθ_X[ｆ，ω]（
ω＝０、１、…、１２７）を出力する。

直交変換部６１８は、直交変換部６００と同様に、受話信号ｚ［ｎ］に対して直交変換を行って、受話信号の周波数スペクトルＺ［ｆ，ω］を出力する。

パワースペクトル算出部６０１は、実施例１のパワースペクトル算出部３０１と同様に、直交変換部６００から出力された周波数スペクトルＸ［ｆ，ω］から、パワースペクトル|Ｘ[ｆ，ω]|²（ω＝０、１、…、１２７）を算出し出力する。

パワースペクトル算出部６１９は、パワースペクトル算出部６０１と同様に、直交変換部６１８から出力された周波数スペクトルＺ［ｆ，ω］から、パワースペクトル|Ｚ[ｆ，ω]|²（ω＝０、１、…、１２７）を算出し出力する。

区間判定部６０２は、入力された１フレームごとの入力信号ｘ［ｎ］が、非目的信号であるエコー成分が支配的に含まれている区間（エコー支配区間）であるか、そうではない区間、つまり目的信号である音声信号と非目的信号であるエコー成分が混在している区間（エコー非支配区間）であるかの判別を行い、判定結果を示す情報を出力する。区間判定部６０２には、入力信号ｘ［ｎ］、受話信号ｚ［ｎ］、エコー抑圧後の信号ｙ［ｎ］が入力される。そして、入力信号ｘ［ｎ］のパワー値またはピーク値（以降、パワー特性と称する）Ｐｘ［ｎ］、受話信号ｚ［ｎ］のパワー特性Ｐｚ［ｎ］、エコー抑圧後の信号ｙ［ｎ］のパワー特性Ｐｙ［ｎ］を算出する。まず、Ｐｚ［ｎ］＞γである場合に受話信号ｚ［ｎ］が存在すると判定する。そして、受話信号ｚ［ｎ］が存在すると判定され、Ｐｙ［ｎ］＞λ［ｎ］・Ｐｚ［ｎ］またはＰｘ［ｎ］＞δ・Ｐｚ［ｎ］となる場合にダブルトーク状態と判定する。次に、受話信号ｚ［ｎ］が存在すると判定され、ダブルトーク状態と判定されなかった場合（受話側のシングルトーク状態）をエコー支配区間とする。ここで、λ［ｎ］はエコーパスロスの推定値であり、γおよびδは動作開始時に外部から予め設定可能な固定値である。そして、区間判定部６０２は、エコー支配区間か否かを示す情報を出力する。すなわち、ここでは、エコー支配区間は受話側のシングルトーク状態である区間となり、エコー非支配区間はダブルトーク状態や送話側のシングルトーク状態である区間となる。

解像度決定部６０３は、区間判定部６０２から出力されるエコー支配区間か否かを示す情報を用いて、エコー支配区間と判定されたフレームに対しては、解像度を高く、エコー支配区間ではない（エコー非支配区間）と判定されたフレームに対しては、解像度が低くなるよう切替器６０４、６１１、６１４，６２０を制御する。すなわち、解像度決定部６０３によって、切替器６０４、６１１、６１４、６２０は連動して動作するように制御される。区間判別部６０２の出力がエコー支配区間である場合は、切替器６０４の切替えによってグループ統合化部６０８が動作し、切替器６１１の切替えによってグループ分離化部６１０が動作し、切替器６１４の切替えによってグループ統合化部６１６が動作し、切替器６２０の切替えによってグループ統合化部６２２が動作する。一方、区間判別部６０２の出力がエコー非支配区間である場合は、切替器６０４の切替えによってグループ統合化部６０５が動作し、切替器６１１の切替えによってグループ分離化部６０７が動作し、切替器６１４の切替えによってグループ統合化部６１５が動作し、切替器６２０の切替えによってグループ統合化部６２１が動作する。

グループ統合化部６０５、６０８は、切替器６０４の切替えによって、いずれか一方が動作する。グループ統合化部６０５、６０８は、どちらもパワースペクトル算出部６０１から出力された入力信号の周波数スペクトル|Ｘ[ｆ，ω]|²について所定数の周波数ビン
ごとに１グループとなるよう纏める処理を行うが、グループ統合化部６０５は、１グループに含むビン数が少なく、多くのグループを生成する高解像度な統合処理を行う。それに対して、グループ統合化部６０８では、１グループに含むビン数が多く、少ないグループを生成する低解像度な統合処理を行う。これらの統合処理は、図１の雑音抑圧処理を行う信号補正装置で説明したグループ統合化部３０５、３０８と同様の処理であるため、詳細な説明は省略する。勿論、以降の例では１つのグループにグループ化するビン数を一定としているが、バークスケールを利用するなどして、低域では１つのグループにグループ化するビン数を少なくして、高域では１つのグループにグループ化するビン数を多くして、周波数方向によって１つのグループにグループ化するビン数を変化させてもよい。

また、グループ統合化部６２１、６２２は、切替器６２０の切替えによって、いずれか一方が動作する。グループ統合化部６２１、６２２は、どちらもパワースペクトル算出部６１９から出力される受話信号のパワースペクトル|Ｚ[ｆ，ω]|²について所定数の周波
数ビンごとに１グループとなるよう纏める処理を行うが、グループ統合化部６２１は、１グループに含むビン数が少なく、多くのグループを生成する高解像度な統合処理を行う。

それに対して、グループ統合化部６２２では、１グループに含むビン数が多く、少ないグループを生成する低解像度な統合処理を行う。これらの統合処理は、グループ統合化部６０５、６０８と同様の処理であるため、詳細な説明は省略する。

エコー抑圧ゲイン算出部６０６と、エコー抑圧ゲイン算出部６０９は、どちらも入力信号からエコーを抑圧する処理のための抑圧ゲイン算出を行う。エコー抑圧ゲイン算出部６０６と、エコー抑圧ゲイン算出部６０９とはいずれか一方が動作するが、同様の処理であるため、エコー抑圧ゲイン算出部６０６について詳述し、エコー抑圧ゲイン算出部６０９の説明は省略する。

エコー抑圧ゲイン算出部６０６は図７に示すように、雑音推定部６０６Ａ、音響結合量推定部６０６Ｂ、エコーレベル推定部６０６Ｃ、抑圧ゲイン算出部６０６Ｄから構成され、高解像度にグループ化された入力信号のパワースペクトル|Ｘ[ｆ，ｍ]|²と高解像度に
グループ化された受話信号のパワースペクトル|Ｚ[ｆ，ｍ]|²とが入力される。

雑音推定部６０６Ａは、グループ化された周波数ビンごとの周波数ノイズレベル|Ｑ[ｆ，ｍ]|²を算出する。周波数ノイズレベル|Ｑ[ｆ，ｍ]|²は、入力信号のパワースペクトル|Ｘ[ｆ，ｍ]|²を忘却させながら平滑化して以下のように算出する。このとき１フレーム
前の周波数ノイズレベル|Ｑ[ｆ−１，ｍ]|²を用いる。なお、β_Ｑ１［ω］およびβ_Ｑ２
［ω］は０以上１以下の所定の値であって、例えば、β_Ｑ１［ω］＝０．００１、β_Ｑ２［ω］＝０．２などとする。

音響結合量推定部６０６Ｂは、入力信号のパワースペクトル|Ｘ[ｆ，ｍ]|²と、受話信
号のパワースペクトル|Ｚ[ｆ，ｍ]|²と、雑音推定部６０６Ａから出力される周波数ノイ
ズレベル|Ｑ[ｆ，ｍ]|²とが入力される。音響結合量推定部６０６Ｂは、これらのパワー
スペクトルを用いてエコー経路特性の推定値である音響結合量|Ｈ[ｆ，ｍ]|²を以下のよ
うに算出する。

ただし、１フレーム前の音響結合量|Ｈ[ｆ−１，ｍ]|²から音響結合量|Ｈ[ｆ，ｍ]|²が急激に変化する場合（|Ｈ[ｆ，ｍ]|²＞β_Ｈ［ω］・|Ｈ[ｆ−１，ｍ]|²が満たされる場合。但し、β_Ｈ［ω］は所定の値。）、もしくは、受話信号が十分に大きくない場合（|Ｚ[ｆ，ｍ]|²＜β_Ｘ［ω］が満たされる場合。但し、β_Ｘ［ω］は所定の値。）には、ダブ
ルトークとなる周波数帯域での音響結合量の算出を行わないようにするため、音響結合量を更新しないで、１フレーム前の音響結合量|Ｈ[ｆ−１，ｍ]|²の値を音響結合量|Ｈ[ｆ
，ｍ]|²として用いる。音響結合量推定部６０６Ｂは、このように算出した音響結合量|Ｈ[ｆ，ｍ]|²をエコーレベル推定部６０６Ｃに出力する。

エコーレベル推定部６０６Ｃには、受話信号のパワースペクトル|Ｚ[ｆ，ｍ]|²、音響
結合量推定部６０６Ｂから音響結合量|Ｈ[ｆ，ｍ]|²が入力される。エコーレベル推定部
６０６Ｃは、これらの値を用いて、以下のように推定エコー量|Ｅ[ｆ，ｍ]|²を算出し、
抑圧ゲイン算出部６０６Ｄへ出力する。

抑圧ゲイン算出部６０６Ｄには、入力信号のパワースペクトル|Ｘ[ｆ，ｍ]|²と、エコ
ーレベル推定部６０６Ｃから推定エコー量|Ｅ[ｆ，ｍ]|²、雑音推定部６０６Ａから周波
数ノイズレベル|Ｑ[ｆ，ｍ]|²、後述するグループ統合化部６１５から１フレーム前のエ
コー抑圧された出力信号のパワースペクトル|Ｙ[ｆ−１，ｍ]|²と、が入力される。抑圧
ゲイン算出部６０６Ｄにおける抑圧ゲインＧ［ｆ，ｍ］の算出は、例えば以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズ
キャンセラであるスペクトル・サブトラクション（Spectral Subtraction）法（S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).）、ウィナー・フィルター（Wiener Filter）法（J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.）及び最尤推定（Maximum Likelihood）法（R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter
”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.）などである。ここでは一例としてウィナー・フィルター法を用
いることとし、Ｒ［・］を半波整流として、後述するグループ統合化部６１５から出力される１フレーム前のエコー抑圧された信号のパワースペクトル|Ｙ［ｆ−１，ｍ］|²を用
いて、事前ＳＮ比ＳＮＲ_ＰＲＩＯ［ｆ，ｍ］及び事後ＳＮ比ＳＮＲ_ＰＯＳＴ［ｆ，ｍ］は、それぞれ、以下の数９、数１０により求められ、抑圧ゲインＧ［ｆ，ｍ］は、以下の数１１により算出される。但し、μ［ｍ］は０．９〜０．９９９程度の忘却係数である。

また別の一例として、抑圧ゲイン算出部６０６Ｄは、以下のようにエコー抑圧ゲインＧ[
ｆ，ｍ]を算出してもよい。ただし、数１２のγ_Ｇ［ω］は事前に設定しておく所定のパ
ラメータ値である。この場合は、１フレーム前のエコー抑圧された信号のパワースペクトル|Ｙ［ｆ−１，ｍ］|²を用いないので、後述するパワースペクトル算出部６１３、切替
器６１４、グループ統合化部６１５、６１６は省略してよい。

なお、エコー抑圧ゲインＧ[ｆ，ｍ]の値によっては、雑音レベルよりも過剰にエコー抑圧する場合がある。そこで、エコー抑圧ゲインＧ[ｆ，ｍ]の値が、数１３に示すＧ_{ＦＬＯＯＲ}[ｆ，ｍ]よりも小さくならないよう、制御する。

このように算出したエコー抑圧ゲインＧ[ｆ，ｍ]は、グループ統合化６０７へ出力する。

図６を用いた説明に戻る。グループ分離化部６０７、６１０は、グループ統合化部６０５またはグループ統合化部６０８によってグループ化された周波数ビンをグループ化前のビン数に戻す。例えば、低解像度のグループ統合化部６０８で１２８ビンを８ビンずつまとめて１６グループを生成していた場合、グループ分離化部６１０では、抑圧ゲイン算出部６０９から出力された抑圧ゲインＧ［ｆ，ｋ］の同一グループ内で各サンプルを８つ複製した上で１６グループのグループ化を分離し、１２８ビン分の抑圧ゲインＧ［ｆ，ω］を生成する。高解像度のグループ分離部６０７でも、低解像度のグループ分離部６１０と同様の処理によって、グループ化前のビン数に戻した抑圧ゲインＧ［ｆ，ω］を得ることができる。このようにしてグループ分離化部６０７または６１０によって出力された抑圧ゲインＧ［ｆ，ω］は、切替器６１１を介してエコー抑圧部６１２に入力される。

エコー抑圧部６１２は、入力信号の振幅スペクトル|Ｘ[ｆ，ω]|と切替器６１１を介して出力されたエコー抑圧ゲインＧ[ｆ，ω]を入力として、エコーが抑圧された入力信号の周波数スペクトルＹ[ｆ，ω]を以下のように逆直交変換部６１７へ出力する。

パワースペクトル算出部６１３は、エコー抑圧部６１２から出力されたエコー抑圧された信号の振幅スペクトル|Ｙ[ｆ，ω]|から、エコー抑圧された信号のパワースペクトル|
Ｙ[ｆ，ω]|²（ω＝０、１、…、１２７）を算出し出力する。

グループ統合化部６１５、６１６は、切替器６１４の切替えによって、いずれか一方が動作する。グループ統合化部６１５、６１６は、どちらもパワースペクトル算出部６１３から出力される雑音抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²のビンを所定数ご
とに１グループに纏める処理を行うが、グループ統合化部６１５とグループ統合化部６１６とでは、１グループに纏める周波数ビン数が異なる。グループ統合化部６１６では、入力信号のパワースペクトルを低解像度で統合化するグループ統合化部６０８と同じビン数ごとに１グループに纏める。それに対して、グループ統合化部６１５では、入力信号のパワースペクトルを高解像度で統合化するグループ統合化部６０５と同じビン数ごとに１グループに纏める。例えば、グループ統合化部６１６では、各帯域のエコー抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²（ω＝０、１、…１２７）を８ビンごとに纏め、１６
グループの帯域のエコー抑圧された信号のパワースペクトル|Ｙ[ｆ，ｋ]|²（ｋ＝０、１
、…１５）を算出する。それに対して、グループ統合化部３１５では、各帯域のエコー抑圧された信号のパワースペクトル|Ｙ[ｆ，ω]|²（ω＝０、１、…１２７）の２ビンを１
グループとして、６４グループの帯域のエコー抑圧された信号のパワースペクトル|Ｙ[ｆ，ｍ]|²（ｍ＝０、１、…６３）を出力する。

逆直交変換部６１７では、例えば、直交化変換部６００によって２５６点ＦＦＴによって周波数変換されていたならば、直交変換部６００によって周波数変換された入力信号が実信号であったことを考慮に入れて直交変換部３００から出力された位相スペクトルθ_X[ｆ，ω]（ω＝０、１、…、１２７）を２５６点に復元し、エコー抑圧部６１２から出力
される雑音抑圧された信号の振幅スペクトル|Ｙ[ｆ，ω]|を用いて、２５６点のＩＦＦＴで周波数逆変換を行い、適宜直交変換部６００における窓掛けを考慮して、１フレーム前のエコー抑圧された時間領域の信号ｙ［ｎ］を用いてオーバーラップを戻す処理を行い、エコー抑圧された時間領域の信号ｙ［ｎ］を算出することができる。

以上のように、入力された信号のフレームごとに非目的信号であるエコー成分が支配的に含まれている区間（エコー支配区間）であるか、そうではない区間（エコー非支配区間）であるかの判別を行い、非目的信号を抑圧するエコー抑圧処理を行う周波数領域の解像度を、エコー支配区間ならば低い解像度にして粗くグループ化した周波数帯域ごとに非目的信号を抑圧するエコー抑圧処理を行い、エコー非支配区間ならば高い解像度にして細かくグループ化した周波数帯域ごとに非目的信号を抑圧するエコー抑圧処理を行う。これによって、受話側のシングルトーク状態であるエコー支配区間では、周波数領域の解像度を高くすることによって生じるミュージカルノイズを低減することができ、また、ダブルトーク状態や送話側のシングルトーク状態であるエコー非支配区間では周波数領域の解像度を低くすることによって生じる音声の歪みを小さくすることができる。

なお、第２の実施形態として示した信号補正装置の信号補正部においても、第１の実施形態の信号補正装置の信号補正部に対して示した変形例と同じ変形を行うことができる。

例えば、エコー非支配区間での入力信号に対するエコー抑圧を行うときの周波数方向の解像度（高解像度）を直交変換部６００によって直交変換を行うときの解像度と同じにすると、グループ統合化部６０５やグループ分離化部６０７を省略することができる。

また、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。

本発明の第１の実施形態に係る信号補正装置が適用された携帯電話機の無線通信装置の送話形の構成を示すブロック図。本発明の第１の実施形態に係る信号補正装置の信号補正部の構成を示すブロック図。本発明の第１の実施形態に係る信号補正装置の信号補正部の変形例を示すブロック図。本発明の第１の実施形態に係る信号補正装置の信号補正部の変形例を示すブロック図。本発明の第２の実施形態に係る信号補正装置が適用された携帯電話機の無線通信装置の送受話形の構成を示すブロック図。本発明の第２の実施形態に係る信号補正装置の信号補正部の構成を示すブロック図。本発明の第２の実施形態に係る信号補正装置のエコー抑圧部の構成を示すブロック図。

符号の説明

１マイクロホン、２Ａ／Ｄ変換器、３信号補正部、４エンコーダ、５無線通信部、６スピーカ、７Ｄ／Ａ変換器、８デコーダ、３００直交変換部、３０１パワースペクトル算出部、３０２音声・雑音区間判別部、３０３抑圧ゲイン解像度判別部、３０４３１１３１４３１９切替器、３０５３０８グループ統合化部、３０６３０９抑圧ゲイン算出部、３０７３１０グループ分離化部、３１２雑音抑圧部、３１３パワースペクトル算出部、３１５３１６グループ統合化部、３１７逆直交変換部、３１８雑音量推定部、３２０３２１グループ統合化部、６００直交変換部、６０１パワースペクトル算出部、６０２区間判別部、６０３解像度決定部、６０４６１１６１４６２０切替器、６０５６０８グループ統合化部、６０６６０９エコー抑圧ゲイン算出部、６０７６１０グループ分離化部、６１２エコー抑圧部、６１３パワースペクトル算出部、６１５６１６グループ統合化部、６１７逆直交変換部、６１８直交変換部、６１９パワースペクトル算出部、６２１６２２グループ統合化部

Claims

目的信号である音声とそれ以外の不要な非目的信号が混在した入力信号に対して直交変換を行う直交変換手段と、
前記入力信号のフレームごとに非目的信号が支配的に存在している区間であるか否かを判別する区間判別手段と、
前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、第１の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、第２の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出する抑圧ゲイン算出手段と、
前記抑圧ゲイン算出手段によって算出された抑圧ゲインを用いて前記直交変換手段によって得られた変換係数に対して非目的信号を抑圧する信号補正処理を行う信号補正手段とを有することを特徴とする信号補正装置。
目的信号である音声とそれ以外の不要な非目的信号が混在した入力信号に対して直交変換を行う直交変換手段と、
前記入力信号のフレームごとに非目的信号が支配的に存在している区間であるか否かを判別する区間判別手段と、
前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、前記直交変換手段から得られた変換係数を第１のグループ数のグループに分割し、第１のグループ数のグループごとに非目的信号を抑圧するための抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、前記変換係数を第１のグループ数よりも多い第２のグループ数のグループに分割し、第２のグループ数のグループごとに非目的信号を抑圧するための抑圧ゲインを算出する抑圧ゲイン算出手段と、
前記抑圧ゲイン算出手段によって算出された抑圧ゲインを用いて前記直交変換手段によって得られた前記変換係数に対して非目的信号を抑圧する信号補正処理を行う信号補正手段とを有することを特徴とする信号補正装置。
前記抑圧ゲイン算出手段は、複数のグループごとにグループ内の前記変換係数の代表値を算出し、複数のグループごとに前記変換係数の代表値に基づいて抑圧ゲインを算出することを特徴とする請求項２に記載の信号補正装置。
前記抑圧ゲイン算出手段は、前記直交変換手段から得られた変換係数をパワースペクトルとし、前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、前記パワースペクトルを第１のグループ数のグループに分割し、グループごとにグループ内のパワースペクトルの代表値を算出し、この代表値に基づいて抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、前記パワースペクトルを第１のグループ数よりも多い第２のグループ数のグループに分割し、グループごとにグループ内のパワースペクトルの代表値を算出し、この代表値に基づいて抑圧ゲインを算出することを特徴とする請求項２に記載の信号補正装置。
前記変換係数の代表値は、グループ化した各グループに含まれる変換係数の平均値であることを特徴とする請求項３または請求項４に記載の信号補正装置。
前記第１または第２のグループ数に分割されたグループ内の変換係数の個数はグループごとに一定であることを特徴とする請求項２乃至請求項５のいずれか１項に記載の信号補正装置。
前記第２のグループ数に分割されたグループ内の変換係数の個数は１であることを特徴とする請求項２乃至請求項５のいずれか１項に記載の信号補正装置。
前記信号補正は、前記入力信号に対する雑音抑圧の処理であって、
前記区間判別手段は、前記入力信号のフレームごとに雑音成分が支配的に存在している区間であるか否かを判別することを特徴とする請求項１乃至請求項７のいずれか１項に記載の信号補正装置。
前記信号補正は、前記入力信号に対するエコー抑圧の処理であって、
前記区間判別手段は、前記入力信号のフレームごとにエコー成分が支配的に存在している区間であるか否かを判別することを特徴とする請求項１乃至請求項７のいずれか１項に記載の信号補正装置。