JP5293817B2

JP5293817B2 - 音声信号処理装置及び音声信号処理方法

Info

Publication number: JP5293817B2
Application number: JP2011519388A
Authority: JP
Inventors: 猛大谷; 太郎外川; 政直鈴木; 恭士大田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-06-19
Filing date: 2009-06-19
Publication date: 2013-09-18
Anticipated expiration: 2029-06-19
Also published as: US8676571B2; WO2010146711A1; EP2444966A1; JPWO2010146711A1; CN102804260A; EP2444966A4; CN102804260B; US20120095755A1; EP2444966B1

Description

ここに開示される実施形態は、音声信号処理装置及び音声信号処理方法に関する。

近年、携帯電話機など、音声を再生する装置には、再生音の音質を向上するために、受信した音声信号に含まれるノイズを抑制するノイズサプレッサが搭載されている。再生音の音質を向上するためには、ノイズサプレッサが、話者の音声など、本来再生されるべき音声信号と、ノイズとを正確に区別することが望ましい。
そこで、音声信号の周波数スペクトルを解析することにより、音声信号に含まれる音の種別を判別する技術が開発されている（例えば、特許文献１〜３を参照）。

しかし、バックグラウンドにおいて会話する複数の人の話し声が合成されたノイズであるバブルノイズ（babble noise）を検出することは難しい。そのため、音声信号にバブルノイズが含まれている場合、ノイズサプレッサは、バブルノイズを効果的に抑制することができないことがあった。
そこで、バブルノイズを他のノイズとは別個に検出する技術が提案されている（例えば、特許文献４を参照）。

特開２００４−２４０２１４号公報特開２００４−３５４５８９号公報特開平９−９０９７４号公報特開平５−２９１９７１号公報

バブルノイズを検出する公知の技術では、例えば、入力された音声信号の周波数成分が下記の判別条件を満たす場合に、入力された音声信号にバブルノイズが含まれると判定される。この判別条件は、1kHz以下の周波数範囲に含まれる低域成分の電力が高く、1kHzよりも高い周波数範囲に含まれる高域成分の電力が０でなく、かつ高域成分の電力変動が通常会話に関連するレートよりも高いというものである。

しかしながら、バブルノイズとは異なる音源から発生した音が上記の判別条件を満たすこともある。例えば、携帯電話機を使用する話者の背後を通過する車のように、音声信号を集音するマイクロフォンに対して相対的に高速で移動する音源が存在する場合、その音源が発生する音の音量は短期間に大きく変動する。そのため、マイクロフォンに対して相対的に高速で移動する音源が発生した音、あるいはその音源が発生した音と話者の音声が混合された音が上記の判別条件を満たしてしまい、バブルノイズと誤って判定されるおそれがあった。
そして、バブルノイズと異なる音声が誤ってバブルノイズと判定されてしまうと、ノイズサプレッサは、適切にノイズを抑制できないので、再生音の音質が低下してしまうおそれがあった。

そこで、本明細書は、音声信号にバブルノイズが含まれるか否かを正確に判別可能な音声信号処理装置及び音声信号処理方法を提供することを目的とする。

一つの実施形態によれば、音声信号処理装置が提供される。この音声信号処理装置は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出する時間周波数変換部と、第１のフレームの周波数スペクトルと、第１のフレームよりも前の第２のフレームの周波数スペクトルから、第１のフレームの周波数スペクトルと第２のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、そのスペクトル変化量に応じて第１のフレームの音声信号に含まれるノイズの種別を判定する判定部を有する。

他の実施形態によれば、音声信号処理方法が提供される。この音声信号処理方法は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出し、第１のフレームの周波数スペクトルと、第１のフレームよりも前の第２のフレームの周波数スペクトルから、第１のフレームの周波数スペクトルと第２のフレーム間の周波数スペクトルの変化量を算出し、スペクトル変化量に応じて第１のフレームの音声信号に含まれるノイズの種別を判定することを含む。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声信号処理装置及び音声信号処理方法は、音声信号にバブルノイズが含まれるか否かを正確に判別することができる。

図１は、第１の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図２（ａ）は、バブルノイズに対する周波数スペクトルの時間変化の一例を表す図であり、図２（ｂ）は、定常ノイズに対する周波数スペクトルの時間変化の一例を表す図である。図３は、第１の実施形態による、音声信号処理装置の概略構成図である。図４は、入力された音声信号に対するノイズ低減処理の動作フローチャートを示す図である。図５は、第２〜第４の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図６は、第２の実施形態による、音声信号処理装置の概略構成図である。図７は、入力された音声信号に対する強調処理の動作フローチャートを示す図である。図８は、第３の実施形態による、音声信号処理装置の概略構成図である。図９は、第４の実施形態による、音声信号処理装置の概略構成図である。

以下、図を参照しつつ、第１の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、入力された音声信号の周波数スペクトルの波形の時間変化を調べることにより、バブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、音声信号に他のノイズが含まれる場合よりも音声信号に含まれるノイズのパワーを低減することで、再生音の音質向上を図る。

図１は、第１の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図１に示されるように、電話機１は、呼制御部１０と、通信部１１と、マイクロフォン１２と、増幅器１３、１７と、符号化部１４と、復号部１５と、音声信号処理装置１６と、スピーカ１８とを有する。
このうち、呼制御部１０、通信部１１、符号化部１４、復号部１５及び音声信号処理装置１６は、それぞれ別個の回路として形成される。あるいはこれらの各部は、その各部に対応する回路が集積された一つの集積回路として電話機１に実装されてもよい。さらに、これらの各部は、電話機１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

呼制御部１０は、電話機１が有するキーパッドなどの操作部（図示せず）を介したユーザの操作により通話処理が開始されると、電話機１と交換機あるいはSession Initiation Protocol（SIP）サーバとの間における、呼び出し、応答、切断などの呼制御処理を実行する。そして呼制御部１０は、その呼制御処理の結果に応じて、通信部１１に対して動作の開始または終了を指示する。

通信部１１は、マイクロフォン１２により集音され、符号化１４により符号化された音声信号を、所定の通信規格に従った送信用信号に変換する。そして通信部１１は、その送信用信号を通信回線へ出力する。また、通信部１１は、通信回線から所定の通信形式に従った信号を受信し、その受信した信号から符号化された音声信号を取り出す。そして通信部１１は、符号化された音声信号を復号部１５へ渡す。なお、所定の通信規格は、例えば、インターネットプロトコル（Internet Protocol、IP）とすることができ、送信用信号及び受信信号は、IPパケット化された信号とすることができる。

符号化部１４は、マイクロフォン１２により集音され、増幅器１３により増幅され、かつアナログ−デジタル変換器（図示せず）によりアナログ−デジタル変換された音声信号を符号化する。そのために、符号化部１４は、例えば、国際電気通信連合電気通信標準化部門(International Telecommunication Union Telecommunication Standardization Sector、ITU-T)による勧告G.711、G722.1、あるいはG.729Aに規定された音声符号化技術を用いることができる。
符号化部１４は、符号化された音声信号を通信部１１へ渡す。

復号部１５は、通信部１１から受け取った符号化された音声信号を復号する。そして復号部１５は、復号した音声信号を音声信号処理装置１６へ渡す。

音声信号処理装置１６は、復号部１５から受け取った音声信号を解析し、その音声信号に含まれるノイズを抑制する。また音声信号処理装置１６は、復号部１５から受け取った音声信号に含まれるノイズがバブルノイズか否か判定する。そして音声信号処理装置１６は、音声信号に含まれるノイズの種別に応じて異なるノイズ抑制処理を実行する。
音声信号処理装置１６は、ノイズ抑制処理が施された音声信号を増幅器１７へ出力する。

増幅器１７は、音声信号処理装置１６から受け取った音声信号を増幅する。そして増幅器１７から出力された音声信号は、デジタル−アナログ変換器（図示せず）によりデジタル−アナログ変換される。そしてアナログ化された音声信号はスピーカ１８に入力される。
スピーカ１８は、増幅器１７から受け取った音声信号を再生する。

ここで、バブルノイズの特性と他のノイズ、例えば、定常ノイズの特性の違いについて説明する。
図２（ａ）は、バブルノイズに対する周波数スペクトルの時間変化の一例を表す図であり、図２（ｂ）は、定常ノイズに対する周波数スペクトルの時間変化の一例を表す図である。
図２（ａ）及び図２（ｂ）において、横軸は周波数を表し、縦軸はノイズの周波数スペクトルの振幅の強度を表す。また図２（ａ）において、グラフ２０１は、時刻tにおけるバブルノイズの周波数スペクトルの波形の一例を表す。一方、グラフ２０２は、時刻tよりも所定時間前の時刻(t-1)におけるバブルノイズの周波数スペクトルの波形の一例を表す。また、図２（ｂ）において、グラフ２１１は、時刻tにおける定常ノイズの周波数スペクトルの波形の一例を表す。一方、グラフ２１２は、時刻(t-1)における定常ノイズの周波数スペクトルの波形の一例を表す。

バブルノイズは、複数の人の声が合成されたものであるため、ピッチ周波数の異なる複数の音声信号が重なり合ったものとなる。そのため、周波数スペクトルは、短期間に大きく変動する。特に、重なり合う人の声が増えるほど、周波数スペクトルも大きく変化する傾向がある。従って、図２（ａ）に示されるように、時刻tにおけるバブルノイズの周波数スペクトルの波形２０１と時刻(t-1)におけるバブルノイズの周波数スペクトルの波形２０２は大きく異なる。
これに対し、定常ノイズの波形は、短期間の間にはあまり変動しない。そのため、図２（ｂ）に示されるように、時刻tにおける定常ノイズの周波数スペクトルの波形２１１と時刻(t-1)における定常ノイズの周波数スペクトルの波形２１２はほぼ等しい。例え、ノイズを生じる音源と、音声を集音するマイクロフォン間の距離が時刻tと時刻(t-1)の間に変化したとしても、周波数スペクトルの強度は全体的に強くなるか弱くなるものの、定常ノイズの周波数スペクトルの波形そのものの変化は少ない。
そこで、音声信号処理装置１６は、入力された音声信号の周波数スペクトルの波形の時間変化を調べることにより、入力された音声信号に含まれるノイズがバブルノイズか否か判定できる。

図３は、音声信号処理装置１６の概略構成図を示す。図３に示されるように、音声信号処理装置１６は、時間周波数変換部１６１と、パワースペクトル算出部１６２と、ノイズ推定部１６３と、音声信号判別部１６４と、ゲイン算出部１６５と、フィルタ部１６６と、周波数時間変換部１６７とを有する。音声信号処理装置１６が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置１６が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置１６に実装されてもよい。さらに、音声信号処理装置１６が有するこれらの各部は、音声信号処理装置１６が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

時間周波数変換部１６１は、音声信号処理装置１６に入力された音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する。時間周波数変換部１６１は、入力音声信号を周波数スペクトルに変換するために、例えば、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換などの時間周波数変換処理を用いることができる。なお、フレーム長は、例えば、200msecとすることができる。
時間周波数変換部１６１は、周波数スペクトルをパワースペクトル算出部１６２へ渡す。

パワースペクトル算出部１６２は、時間周波数変換部１６１から周波数スペクトルを受け取る度に、その周波数スペクトルのパワースペクトルを算出する。
なお、パワースペクトル算出部１６２は、次式に従ってパワースペクトルを算出する。

ここでfは周波数であり、関数X(f)は周波数fに対する周波数スペクトルの振幅を表す関数である。また関数S(f)は、周波数fに対するパワースペクトルの強度を表す関数である。
パワースペクトル算出部１６２は、算出されたパワースペクトルを、ノイズ推定部１６３、音声信号判別部１６４及びゲイン算出部１６５へ出力する。

ノイズ推定部１６３は、各フレームのパワースペクトルを受け取る度に、そのパワースペクトルから、音声信号に含まれるノイズ成分に相当する推定ノイズスペクトルを算出する。一般に、ノイズの音源と電話機１に入力される音声信号を集音するマイクロフォン間の距離は、マイクロフォンとそのマイクロフォンに向かって話す話者間の距離よりも遠い。そのため、ノイズ成分のパワーは、話者の音声のパワーよりも小さい。そこで、ノイズ推定部１６３は、電話機１に入力された音声信号の各フレームのうち、パワースペクトルが小さいフレームについて、入力信号が含まれる周波数帯域を複数に分割したサブ周波数帯域ごとにパワーの平均値を求めることにより、推定ノイズスペクトルを算出する。なお、サブ周波数帯域の幅は、例えば、0Hz〜8kHzの範囲を1024等分あるいは256等分した幅とすることができる。
具体的には、ノイズ推定部１６３は、フレームの時間順に従って、最新のフレームについて、電話機１に入力された音声信号が含まれる周波数帯域全体のパワースペクトルの平均値pを次式に従って算出する。

ここでMは、サブ周波数帯域の数である。またf_lowは、最も低いサブ周波数帯域を表し、f_highは、最も高いサブ周波数帯域を表す。次に、ノイズ推定部１６３は、最新のフレームのパワースペクトルの平均値pと、ノイズ成分のパワーの上限に相当する閾値Thrとを比較する。なお、閾値Thrは、例えば、10dB〜20dBの範囲の何れかの値に設定される。そしてノイズ推定部１６３は、平均値pが閾値Thr未満である場合、各サブ周波数帯域について次式に従ってパワースペクトルを時間方向に平均することにより、最新のフレームに対する推定ノイズスペクトルN_m(f)を算出する。

ただし、N_m-1(f)は、最新のフレームよりも一つ前のフレームに対する推定ノイズスペクトルであり、ノイズ推定部１６３が有するバッファから読み込まれる。また、係数αは、例えば、0.9〜0.99の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、最新のフレームには、ノイズ以外の成分が含まれると推定されるので、ノイズ推定部１６３は推定ノイズスペクトルを更新しない。すなわち、ノイズ推定部１６３はN_m(f)=N_m-1(f)とする。
なお、ノイズ推定部１６３は、パワースペクトルの平均値pを算出する代わりに、全てのサブ周波数帯域のパワースペクトルのうちの最大値を求め、その最大値を閾値Thrと比較してもよい。
ノイズ推定部１６３は、推定ノイズスペクトルをゲイン算出部１６５へ出力する。また、ノイズ推定部１６３は、最新のフレームに対する推定ノイズスペクトルを、ノイズ推定部１６３が有するバッファに記憶する。

音声信号判別部１６４は、各フレームのパワースペクトルを受け取る度に、そのフレームに含まれるノイズの種別を判別する。そのために、音声信号判別部１６４は、スペクトル正規化部１７１と、波形変化量算出部１７２と、バッファ１７３と、判定部１７４とを有する。

スペクトル正規化部１７１は、受け取ったパワースペクトルを正規化する。例えば、スペクトル正規化部１７１は、次式に従って各サブ周波数帯域におけるパワースペクトルの平均値に対応する正規化パワースペクトルS'(f)の強度が1となるように、正規化パワースペクトルS'(f)を算出する。

あるいは、スペクトル正規化部１７１は、次式に従って各サブ周波数帯域におけるパワースペクトルの最大値に対応する正規化パワースペクトルS'(f)の強度が1となるように、正規化パワースペクトルS'(f)を算出してもよい。

ただし、関数max(S(f))は、サブ周波数帯域f_lowからf_highの範囲に含まれる各サブ周波数帯域に対するパワースペクトルの最大値を出力する関数である。
スペクトル正規化部１７１は、正規化パワースペクトルを波形変化量算出部１７２へ出力する。またスペクトル正規化部１７１は、正規化パワースペクトルをバッファ１７３に記憶する。

波形変化量算出部１７２は、正規化パワースペクトルの波形の時間方向における変化量を波形変化量として算出する。図２（ａ）及び図２（ｂ）に関して説明したように、バブルノイズの周波数スペクトルの波形は、定常ノイズの周波数スペクトルの波形よりも短期間で変動する。そのため、この波形の変化量は、音声信号に含まれるノイズの種別を判別する有用な情報となる。
そこで、波形変化量算出部１７２は、スペクトル正規化部１７１から最新のフレームの正規化パワースペクトルS'_m(f)を受け取ると、バッファ１７３から一つ前のフレームの正規化パワースペクトルS'_m-1(f)を読み出す。そして波形変化量算出部１７２は、次式に従って、各サブ周波数帯域における二つの正規化パワースペクトルS'_m(f)、S'_m-1(f)間の差の絶対値の合計を、波形変化量Δとして算出する。

なお、波形変化量算出部１７２は、波形変化量Δを、各サブ周波数帯域における最新のフレームの正規化パワースペクトルと、最新のフレームから２以上の所定数前のフレームの正規化パワースペクトル間の差の絶対値の合計としてもよい。なお、所定数は、例えば、２〜５の何れかとすることができる。このように波形変化量を算出するための二つのフレーム間の時間間隔を設定することにより、複数の人の声が合成されたバブルノイズに対する波形変化量と、一人の話者の声の波形変化量とを区別することが容易となる。
また、波形変化量算出部１７２は、波形変化量Δを、各サブ周波数帯域における二つの正規化パワースペクトルS'_m(f)、S'_m-1(f)間の差の２乗和としてもよい。
波形変化量算出部１７２は、波形変化量Δを判定部１７４へ出力する。

バッファ１７３は、最新のフレームから所定数前のフレームまでの正規化パワースペクトルを記憶する。そしてバッファ１７３は、その所定数よりも過去の正規化パワースペクトルを消去する。

判定部１７４は、最新のフレームに対する音声信号にバブルノイズが含まれるか否か判定する。
上記のように、音声信号にバブルノイズが含まれれば、波形変化量Δは大きく、音声信号にバブルノイズが含まれなければ、波形変化量Δは小さい。
そこで、判定部１７４は、波形変化量Δが所定の閾値Thwよりも大きい場合、最新のフレームに対する音声信号にバブルノイズが含まれると判定する。一方、判定部１７４は、波形変化量Δが所定の閾値Thw以下である場合、最新のフレームに対する音声信号にはバブルノイズが含まれないと判定する。なお、所定の閾値Thwは、一人の声の相当する波形変化量に設定されることが好ましい。バブルノイズのピッチ周波数は、一人の声よりもピッチ周波数の短いため、このように閾値Thwが設定されることにより、判定部１７４はバブルノイズを正確に検出することができる。また、所定の閾値Thwは、実験的に求められた最適値に設定されてもよい。例えば、所定の閾値Thwは、波形変化量Δが各周波数帯域における二つの正規化パワースペクトル間の差の絶対値和である場合、2dB〜3dBの何れかの値とすることができる。また、波形変化量Δが各周波数帯域における二つの正規化パワースペクトル間の差の２乗和である場合には、所定の閾値Thwは、4dB〜9dBの何れかの値とすることができる。
判定部１７４は、最新のフレームの音声信号に含まれるノイズの種別の判別結果をゲイン算出部１６５へ通知する。

ゲイン算出部１６５は、音声信号判別部１６４による音声信号に含まれるノイズの種別の判別結果及び推定ノイズスペクトルに応じて、パワースペクトルに乗じるゲインを決定する。ここで、ノイズ成分に相当するパワースペクトルは相対的に小さく、話者の声に相当するパワースペクトルは相対的に大きい。
そこで、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部１６５は、サブ周波数帯域ごとに、パワースペクトルS(f)が、ノイズスペクトルN(f)にバブルノイズ用バイアス値Bbを加えた値（N(f)+Bb）よりも小さいか否か判定する。そしてゲイン算出部１６５は、S(f)が（N(f)+Bb）よりも小さいサブ周波数帯域のゲイン値G(f)を、パワースペクトルが減衰する値、例えば16dBに設定する。一方、S(f)が（N(f)+Bb）以上である場合、ゲイン算出部１６５は、そのサブ周波数帯域の周波数スペクトルの減衰率が小さくなるようにゲイン値G(f)を決定する。例えば、ゲイン算出部１６５は、S(f)が（N(f)+Bb）以上である場合、ゲイン値G(f)を0dB〜1dBの何れかに設定する。

また、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合、ゲイン算出部１６５は、サブ周波数帯域ごとに、パワースペクトルS(f)が、ノイズスペクトルN(f)にバイアス値Bcを加えた値（N(f)+Bc）よりも小さいか否か判定する。そしてゲイン算出部１６５は、S(f)が（N(f)+Bb）よりも小さいサブ周波数帯域のゲイン値G(f)を、パワースペクトルが減衰する値、例えば10dBに設定する。一方、S(f)が（N(f)+Bb）以上である場合、ゲイン算出部１６５は、そのサブ周波数帯域の周波数スペクトルの減衰率が小さくなるように、ゲイン値G(f)を、例えば0dB〜1dBの何れかに設定する。

バブルノイズは、短期間にスペクトルの波形が大きく変動するため、バブルノイズのパワースペクトルは推定ノイズスペクトルよりもかなり大きな値を取り得る。一方、他のノイズは短期間ではスペクトルの波形が大きく変動しないので、バブルノイズ以外のノイズのパワースペクトルと推定ノイズスペクトルとの差は小さい。そのため、バイアス値Bcは、バブルノイズ用バイアス値Bbよりも小さい値に設定されることが好ましい。例えば、バイアス値Bcは6dBに設定され、バブルノイズ用バイアス値Bbは12dBに設定される。

また、バックグラウンドにバブルノイズが存在する場合の方が、その他のノイズが存在する場合よりも話者の声が聞き取り難くなる。そこで、ゲイン算出部１６５は、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合のゲイン値を、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合のゲイン値よりも大きな値に設定することが好ましい。例えば、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合のゲイン値は16dBに設定され、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合のゲイン値は10dBに設定される。

あるいは、ゲイン算出部１６５は、特開２００５−１６５０２１号公報に開示されている方法などの他の方法により、音声信号に含まれるノイズ成分とその他の成分を区別し、各成分に応じてサブ周波数帯域ごとにゲイン値を決定してもよい。例えば、ゲイン算出部１６５は、直近の所定数のフレーム（例えば、100フレーム）のパワースペクトルのうち、上位10％程度のフレームのパワースペクトルの平均値及び分散から、ノイズを含まない純粋音声信号のパワースペクトルの分布を推定する。そしてゲイン算出部１６５は、サブ周波数帯域ごとに、音声信号のパワースペクトルと推定された純粋音声信号のパワースペクトルの差が大きくなるほど、ゲイン値も大きくなるようにゲイン値を決定する。
ゲイン算出部１６５は、サブ周波数帯域ごとに決定したゲイン値をフィルタ部１６６へ出力する。

フィルタ部１６６は、入力された音声信号の周波数スペクトルを時間周波数変換部１６１から受け取る度に、ゲイン算出部１６５により決定されたゲイン値を用いて周波数帯域ごとにノイズに相当する周波数スペクトルを低減するフィルタ処理を実行する。
例えば、フィルタ部１６６は、サブ周波数帯域ごとに、次式に従ってフィルタ処理を実行する。

ただしX(f)は音声信号の周波数スペクトルである。またY(f)は、フィルタ処理が実行された周波数スペクトルである。（７）式から明らかなように、ゲイン値が大きくなるほど、Y(f)は減衰する。
フィルタ部１６６は、ノイズが低減された周波数スペクトルを周波数時間変化部１６７へ出力する。

周波数時間変換部１６７は、フィルタ部１６６によりノイズが低減された周波数スペクトルを受け取る度に、その周波数スペクトルを周波数時間変換することにより、ノイズが低減された音声信号を得る。なお、周波数時間変換部１６７は、時間周波数変換部１６１により使用された時間周波数変換処理の逆変換を使用する。
周波数時間変換部１６７は、ノイズが低減された音声信号を増幅器１７へ出力する。

図４は、入力された音声信号に対するノイズ低減処理の動作フローチャートを示す。なお、音声信号処理装置１６は、図４に示されたノイズ低減処理をフレーム単位で繰り返し実行する。また以下のフローチャートにおいて挙げられたゲイン値は一例であり、ゲイン算出部１６５に関して説明したような他の値であってもよい。
まず、時間周波数変換部１６１は、入力された音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する（ステップＳ１０１）。時間周波数変換部１６１は、周波数スペクトルをパワースペクトル算出部１６２へ渡す。
次に、パワースペクトル算出部１６２は、時間周波数変換部１６１から受け取った周波数スペクトルのパワースペクトルS(f)を算出する（ステップＳ１０２）。そしてパワースペクトル算出部１６２は、算出されたパワースペクトルS(f)を、ノイズ推定部１６３、音声信号判別部１６４及びゲイン算出部１６５へ出力する。

ノイズ推定部１６３は、全てのサブ周波数帯域のパワースペクトルの平均値が閾値Thrよりも小さいフレームのパワースペクトルをサブ周波数帯域ごとに時間方向に平均することにより、推定ノイズスペクトルN(f)を算出する（ステップＳ１０３）。そしてノイズ推定部１６３は、推定ノイズスペクトルN(f)をゲイン算出部１６５へ出力する。またノイズ推定部１６３は、最新のフレームに対する推定ノイズスペクトルN(f)を、ノイズ推定部１６３が有するバッファに記憶する。

一方、スペクトル正規化部１７１は、受け取ったパワースペクトルを正規化する（ステップＳ１０４）。そしてスペクトル正規化部１７１は、算出された正規化パワースペクトルS'(f)を波形変化量算出部１７２へ出力するとともに、バッファ１７３に記憶する。
波形変化量算出部１７２は、最新のフレームの正規化パワースペクトルの波形と、バッファ１７３から読み込んだ最新のフレームよりも所定数前のフレームの正規化パワースペクトルの波形の差を表す波形変化量Δを算出する（ステップＳ１０５）。そして波形変化量算出部１７２は、波形変化量Δを判定部１７４へ渡す。

判定部１７４は、波形変化量Δが閾値Thwよりも大きいか否か判定する（ステップＳ１０６）。波形変化量Δが所定の閾値Thwよりも大きい場合（ステップＳ１０６−Ｙｅｓ）、判定部１７４は最新のフレームの音声信号にバブルノイズが含まれると判定し、その判定結果をゲイン算出部１６５へ通知する（ステップＳ１０７）。一方、波形変化量Δが所定の閾値Thw以下である場合（ステップＳ１０６−Ｎｏ）、判定部１７４は最新のフレームの音声信号にバブルノイズは含まれないと判定し、その判定結果をゲイン算出部１６５へ通知する（ステップＳ１０８）。

ステップＳ１０７の後、ゲイン算出部１６５は、パワースペクトルS(f)が、ノイズスペクトルN(f)にバブルノイズ用バイアス値Bbを加えた値（N(f)+Bb）よりも小さいか否か判定する（ステップＳ１０９）。S(f)が（N(f)+Bb）よりも小さい場合（ステップＳ１０９−Ｙｅｓ）、ゲイン算出部１６５はゲイン値G(f)を16dBに設定する（ステップＳ１１０）。一方、S(f)が（N(f)+Bb）以上である場合（ステップＳ１０９−Ｎｏ）、ゲイン算出部１６５は、ゲイン値G(f)を0に設定する（ステップＳ１１１）。

一方、ステップＳ１０８の後、ゲイン算出部１６５は、パワースペクトルS(f)が、ノイズスペクトルN(f)にバイアス値Bcを加えた値（N(f)+Bc）よりも小さいか否か判定する（ステップＳ１１２）。S(f)が（N(f)+Bc）よりも小さい場合（ステップＳ１１２−Ｙｅｓ）、ゲイン算出部１６５はゲイン値G(f)を10dBに設定する（ステップＳ１１３）。一方、S(f)が（N(f)+Bc）以上である場合（ステップＳ１１２−Ｎｏ）、ゲイン算出部１６５は、ゲイン値G(f)を0に設定する（ステップＳ１１１）。
なお、ゲイン算出部１６５は、ステップＳ１０９〜Ｓ１１３の処理を、サブ周波数帯域ごとに実行する。そしてゲイン算出部１６５は、ゲイン値G(f)をフィルタ部１６６へ出力する。

フィルタ部１６６は、各サブ周波数帯域について、ゲイン値G(f)が大きいほど周波数スペクトルが低減するように周波数スペクトルに対するフィルタ処理を実行する（ステップＳ１１４）。そしてフィルタ部１６６は、フィルタ処理された周波数スペクトルを周波数時間変換部１６７へ出力する。
周波数時間変換部１６７は、フィルタ処理された周波数スペクトルを周波数時間変換することにより、その周波数スペクトルを出力音声信号に変換する（ステップＳ１１５）。そして周波数時間変換部１６７は、ノイズが低減された出力音声信号を増幅器１７へ出力する。

以上に説明してきたように、第１の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動する場合、その音声信号にバブルノイズが含まれると判定することにより、正確にバブルノイズを検出できる。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、音声信号に他のノイズが含まれる場合よりも音声信号のパワーを低減することで、再生音の音質を向上することができる。

次に、第２の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した音声信号の周波数スペクトルの波形の時間変化を調べることにより、電話機の周囲の音にバブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、別途取得した再生すべき音声信号のパワーを増幅することで、電話機のユーザが再生音を聞き易くする。

図５は、第２の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図５に示されるように、電話機２は、呼制御部１０と、通信部１１と、マイクロフォン１２と、増幅器１３、１７と、符号化部１４と、復号部１５と、音声信号処理装置２１と、スピーカ１８とを有する。なお、図５に示される電話機２の各構成要素には、図１に示された電話機１の対応する構成要素と同一の参照番号を付した。
電話機２は、音声信号処理装置２１が有する音声信号判別部２４が、マイクロフォン１２により集音された音声にバブルノイズが含まれるか否かを判定し、その判定結果によって音声信号処理装置２１が受信した音声信号を増幅する点で、図１に示された電話機１と異なる。そこで以下では、音声信号処理装置２１について説明する。電話機２のその他の構成要素については、上述した図１に示した電話機１の説明を参照されたい。

図６は、音声信号処理装置２１の概略構成図を示す。図６に示されるように、音声信号処理装置２１は、時間周波数変換部２２、２６と、パワースペクトル算出部２３と、音声信号判別部２４と、ゲイン算出部２５と、フィルタ部２７と、周波数時間変換部２８とを有する。音声信号処理装置２１が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置２１が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置２１に実装されてもよい。さらに、音声信号処理装置２１が有するこれらの各部は、音声信号処理装置２１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

時間周波数変換部２２は、マイクロフォン１２を介して集音された、電話機２の周囲の音に対応する入力音声信号を、フレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する。なお、時間周波数変換部２２は、第１の実施形態に係る音声信号処理装置１６が有する時間周波数変換部１６１と同様に、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換などの時間周波数変換処理を用いることができる。なお、フレーム長は、例えば、200msecとすることができる。
時間周波数変換部２２は、入力音声信号の周波数スペクトルをパワースペクトル算出部２３へ出力する。
また、時間周波数変換部２６は、通信部１１を介して受信した音声信号をフレーム単位で時間周波数変換することにより、その受信音声信号を周波数スペクトルに変換する。時間周波数変換部２６は、受信音声信号の周波数スペクトルをフィルタ部２７へ出力する。

パワースペクトル算出部２３は、時間周波数変換部２２から入力音声信号の周波数スペクトルを受け取る度に、その周波数スペクトルのパワースペクトルを算出する。パワースペクトル算出部２３は、上記の（１）式を用いてパワースペクトルを算出することができる。
パワースペクトル算出部２３は、算出されたパワースペクトルを、音声信号判別部２４へ出力する。

音声信号判別部２４は、各フレームのパワースペクトルを受け取る度に、そのフレームの入力音声信号に含まれるノイズの種別を判別する。そのために、音声信号判別部２４は、スペクトル正規化部２４１と、バッファ２４２と、重み決定部２４３と、波形変化量算出部２４４と、判定部２４５とを有する。

スペクトル正規化部２４１は、受け取ったパワースペクトルを正規化する。例えば、スペクトル正規化部２４１は、上記の（４）式または（５）式を用いて正規化パワースペクトルS'(f)を算出する。
スペクトル正規化部２４１は、正規化パワースペクトルを波形変化量算出部２４４へ出力する。またスペクトル正規化部２４１は、正規化パワースペクトルをバッファ２４２に記憶する。

バッファ２４２は、パワースペクトル算出部２３からフレーム単位で入力音声信号のパワースペクトルを受け取る度に、そのパワースペクトルを記憶する。またバッファ２４２は、スペクトル正規化部２４１から受け取った正規化パワースペクトルを記憶する。
バッファ２４２は、最新のフレームから所定数前のフレームまでのパワースペクトル及び正規化パワースペクトルを記憶する。そしてバッファ２４２は、その所定数よりも過去のパワースペクトル及び正規化パワースペクトルを消去する。

重み決定部２４３は、波形変化量を算出するために使用される、各サブ周波数帯域に対する重み係数を決定する。この重み係数は、バブルノイズ成分が含まれる可能性が高いサブ周波数帯域ほど大きくなるように設定される。例えば、入力音声信号に人の声が含まれていると、人が声を発したときに急激にパワースペクトルの強度が大きくなる。一方、人の声は、徐々に小さくなるという特性を有する。そこで、前のフレームのパワースペクトルよりも所定のオフセット値以上パワースペクトルが大きくなるサブ周波数帯域は、バブルノイズの成分を含む可能性が高い。そこで重み決定部２４３は、バッファ２４２から、最新のフレームのパワースペクトルS_m(f)と、一つ前のフレームのパワースペクトルS_m-1(f)を読み込む。そして重み決定部２４３は、サブ周波数帯域ごとに、最新のフレームのパワースペクトルS_m(f)と、一つ前のフレームのパワースペクトルS_m-1(f)を比較する。そして重み決定部２４３は、パワースペクトルS_m(f)からS_m-1(f)を引いた差がオフセット値S_offよりも大きい場合、そのサブ周波数帯域fに対する重み係数w(f)を、例えば、1に設定する。一方、パワースペクトルS_m(f)からS_m-1(f)を引いた差がオフセット値S_off以下である場合、重み決定部２４３は、そのサブ周波数帯域fに対する重み係数w(f)を、例えば、0に設定する。なお、オフセット値S_offは、例えば、0〜1dBの何れかの値に設定される。

あるいは、重み決定部２４３は、各サブ周波数帯域のパワースペクトルの平均値が所定の閾値よりも大きいフレームの重み係数w(f)を、その平均値が所定の閾値以下となるフレームの重み係数よりも大きな値に設定してもよい。例えば、重み決定部２４３は、以下のように重み係数w(f)を決定してもよい。

ここでMは、サブ周波数帯域の数である。またf_lowは、最も低いサブ周波数帯域を表し、f_highは、最も高いサブ周波数帯域を表す。また閾値Thrは、例えば、10dB〜20dBの範囲の何れかの値に設定される。
さらに、重み決定部２４３は、各サブ周波数帯域のパワースペクトルの平均値が大きいフレームほど、重み係数も大きくしてもよい。

重み決定部２４３は、各サブ周波数帯域について求めた重み係数w(f)を、波形変化算出部２４４へ出力する。

波形変化量算出部２４４は、正規化パワースペクトルの波形の時間方向における変化量である波形変化量を算出する。
本実施形態では、波形変化量算出部２４４は、次式に従って波形変化量Δを算出する。

ただし、（６）式と同様に、S'_m(f)は最新のフレームの正規化パワースペクトルであり、S'_m-1(f)は、バッファ２４２から読み込んだ一つ前のフレームの正規化パワースペクトルS'_m-1(f)である。
波形変化量算出部２４４は、波形変化量Δを、最新のフレームの正規化パワースペクトルと、最新のフレームから２以上の所定数前のフレームの正規化パワースペクトル間の差の絶対値の合計としてもよい。
あるいは、波形変化量算出部２４４は、波形変化量Δを、各サブ周波数帯域における二つの正規化パワースペクトルS'_m(f)、S'_m-1(f)間の差の２乗に重み係数w(f)を乗じた値の和としてもよい。
波形変化量算出部２４４は、波形変化量Δを判定部２４５へ出力する。

判定部２４５は、最新のフレームの音声信号にバブルノイズが含まれるか否か判定する。
判定部２４５は、第１の実施形態による音声信号処理装置１６が有する判定部１７４と同様に、波形変化量Δが所定の閾値Thwよりも大きい場合、最新のフレームの音声信号にバブルノイズが含まれると判定する。一方、判定部２４５は、波形変化量Δが所定の閾値Thw以下である場合、最新のフレームの音声信号にバブルノイズは含まれないと判定する。
この実施形態においても、所定の閾値Thwは、例えば、一人の声の波形変化量に相当する値、あるいは、実験的に求められた値に設定される。
判定部２４５は、最新のフレームの音声信号に含まれるノイズの種別の判別結果をゲイン算出部２５へ通知する。

ゲイン算出部２５は、音声信号判別部２４によるノイズの種別の判別結果に基づいて、パワースペクトルに乗じるゲインを決定する。ここで、入力音声信号にバブルノイズが含まれていると、電話機２のユーザの周囲は騒々しく、受信した音声信号を聞き取り難い可能性がある。
そこで、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部２５は、全てのサブ周波数帯域に対して一律に、受信音声信号の周波数スペクトルを増幅するように、ゲイン値G(f)の値を決定する。最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部２５は、例えば、ゲイン値G(f)を10dBに設定する。一方、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合、ゲイン算出部２５は、ゲイン値G(f)を0に設定する。

あるいは、ゲイン算出部２５は、他の方法によりゲイン値を決定してもよい。例えば、ゲイン算出部２５は、国際公開第２００４／０４０５５５号パンフレットに開示されている方法に従って、受信音声信号から分離された声道特性を強調するように、ゲイン値を決定してもよい。この場合、ゲイン算出部２５は、受信音声信号を音源特性と声道特性とに分離する。そしてゲイン算出部２５は、現フレームの自己相関と過去のフレームの自己相関との加重平均に基づいて平均的な声道特性を算出する。ゲイン算出部２５は、その平均的な声道特性からホルマント周波数とホルマント振幅を求め、そのホルマント周波数及びホルマント振幅に基づいて、ホルマント振幅を変化させることで平均的な声道特性を強調する。その際、ゲイン算出部２５は、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ホルマント振幅を増幅させるためのゲイン値を、最新のフレームの音声信号にバブルノイズが含まれていないと判定されている場合のゲイン値よりも大きな値に設定する。
ゲイン算出部２５は、ゲイン値をフィルタ部２７へ出力する。

フィルタ部２７は、通信部１１を介して受信した音声信号の周波数スペクトルを時間周波数変換部１６１から受け取る度に、ゲイン算出部２５により決定されたゲイン値を用いてサブ周波数帯域ごとに周波数スペクトルを増幅するフィルタ処理を実行する。
例えば、フィルタ部２７は、サブ周波数帯域ごとに、次式に従ってフィルタ処理を実行する。

ただしX(f)は受信音声信号の周波数スペクトルである。またY(f)は、フィルタ処理が実行された周波数スペクトルである。（１０）式から明らかなように、ゲイン値が大きくなるほど、Y(f)も大きくなる。
フィルタ部２７は、フィルタ処理により強調された周波数スペクトルを周波数時間変化部２８へ出力する。

周波数時間変換部２８は、フィルタ部２７により強調処理された周波数スペクトルを受け取る度に、その周波数スペクトルを周波数時間変換することにより、増幅された音声信号を得る。なお、周波数時間変換部２８は、時間周波数変換部２６により使用された時間周波数変換処理の逆変換を使用する。
周波数時間変換部２６は、増幅された音声信号を増幅器１７へ出力する。

図７は、通信部１１を介して受信した音声信号に対する強調処理の動作フローチャートを示す。なお、音声信号処理装置２１は、図７に示された強調処理を、マイクロフォン１２により集音された入力音声信号に対するフレーム単位で繰り返し実行する。また以下のフローチャートにおいて挙げられたゲイン値は一例であり、他の値であってもよい。
まず、時間周波数変換部２２は、入力音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する（ステップＳ２０１）。時間周波数変換部２２は、入力音声信号の周波数スペクトルをパワースペクトル算出部２３へ渡す。
次に、パワースペクトル算出部２３は、時間周波数変換部２２から受け取った入力音声信号の周波数スペクトルのパワースペクトルS(f)を算出する（ステップＳ２０２）。そしてパワースペクトル算出部２３は、算出されたパワースペクトルS(f)を音声信号判別部２４へ出力する。そして音声信号判別部２４は、受け取ったパワースペクトルS(f)をスペクトル正規化部２４１へ渡すとともに、バッファ２４２に記憶する。

音声信号判別部２４のスペクトル正規化部２４１は、受け取ったパワースペクトルを正規化する（ステップＳ２０３）。そしてスペクトル正規化部２４１は、算出された正規化パワースペクトルS'(f)を音声信号判別部２４の波形変化量算出部２４４へ出力するとともに、バッファ２４２に記憶する。
また、音声信号判別部２４の重み決定部２４３は、バッファ２４２から、最新のフレームのパワースペクトルと一つ前のフレームのパワースペクトルを読み込む。そして重み決定部２４３は、最新のフレームのスペクトルが前のフレームのスペクトルよりも所定のオフセット値以上大きくなるサブ周波数帯域に対する重み係数が大きくなるように重み係数w(f)を決定する（ステップＳ２０４）。重み決定部２４３は、重み係数w(f)を波形変化量算出部２４４へ出力する。

波形変化量算出部２４４は、サブ周波数帯域ごとに、最新のフレームの正規化パワースペクトルの波形と、バッファ２４２から読み込んだ最新のフレームよりも所定数前のフレームの正規化パワースペクトルの波形の差の絶対値を算出する。そして波形変化量算出部２４４は、各サブ周波数帯域の波形の差の絶対値に重み係数w(f)を乗じて得られる値を合計することにより、波形変化量Δを算出する（ステップＳ２０５）。そして波形変化量算出部２４４は、波形変化量Δを音声信号判別部２４の判定部２４５へ渡す。
判定部２４５は、波形変化量Δが閾値Thwよりも大きいか否か判定する（ステップＳ２０６）。そして判定部２４５は、その判定結果をゲイン算出部２５へ通知する。

波形変化量Δが所定の閾値Thwよりも大きい場合（ステップＳ２０６−Ｙｅｓ）、判定部２４５によりバブルノイズが含まれると判定されるので、ゲイン算出部２５は、ゲイン算出部２５はゲイン値G(f)を10dBに設定する（ステップＳ２０７）。一方、波形変化量Δが所定の閾値Thw以下である場合（ステップＳ２０６−Ｎｏ）、判定部２４５によりバブルノイズは含まれないと判定されるので、ゲイン算出部２５はゲイン値G(f)を0dBに設定する（ステップＳ２０８）。
ステップＳ２０７またはＳ２０８の後、ゲイン算出部２５は、ゲイン値G(f)をフィルタ部２７へ出力する。

また、時間周波数変換部２６は、受信音声信号をフレーム単位で時間周波数変換することにより、その受信音声信号を周波数スペクトルに変換する（ステップＳ２０９）。時間周波数変換部２６は、受信音声信号の周波数スペクトルをフィルタ部２７へ出力する。

フィルタ部２７は、各サブ周波数帯域について、ゲイン値G(f)が大きいほど周波数スペクトルが大きくなるように、受信音声信号の周波数スペクトルに対するフィルタ処理を実行する（ステップＳ２１０）。そしてフィルタ部２７は、フィルタ処理された周波数スペクトルを周波数時間変換部２８へ出力する。
周波数時間変換部２８は、フィルタ処理された受信音声信号の周波数スペクトルを周波数時間変換することにより、その周波数スペクトルを出力音声信号に変換する（ステップＳ２１１）。そして周波数時間変換部２８は、増幅された出力音声信号を増幅器１７へ出力する。

以上に説明してきたように、第２の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動する場合、その音声信号にバブルノイズが含まれると判定することにより、正確にバブルノイズを検出できる。そしてこの音声信号処理装置が実装された電話機は、バブルノイズが含まれると判定された場合、受信音声信号を増幅することで、電話機の周囲が騒々しくても、受信音声を聞き易くすることができる。

次に、第３の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、第２の実施形態による音声信号処理装置と同様に、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した音声信号の周波数スペクトルの波形の時間変化を調べる。そしてこの音声信号処理装置は、波形変化量が大きくなるほど、別途取得した再生すべき音声信号のパワーを増幅することで、再生音の音量を適切に調節する。

第３の実施形態による音声信号処理装置が実装された電話機は、図５に示された第２の実施形態による電話機２と同様の構成を有する。

図８は、第３の実施形態による音声信号処理装置３１の概略構成図を示す。図８に示されるように、音声信号処理装置３１は、時間周波数変換部２２、２６と、パワースペクトル算出部２３と、音声信号判別部２４と、ゲイン算出部２５と、フィルタ部２７と、周波数時間変換部２８とを有する。なお、図８に示される音声信号処理装置３１の各構成要素には、図６に示された音声信号処理装置２１の対応する構成要素と同一の参照番号を付した。
音声信号処理装置３１が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置３１が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置３１に実装されてもよい。さらに、音声信号処理装置３１が有するこれらの各部は、音声信号処理装置３１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
図８に示された音声信号処理装置３１は、音声信号判別部２４が判定部２４５を有さず、波形変化量をゲイン算出部２５へ直接出力する点、及びゲイン算出部２５は波形変化量に基づいてゲインを決定する点で、第２の実施形態による音声信号処理装置２１と異なる。そこで、以下では、ゲイン値の算出について説明する。

ゲイン算出部２５は、音声信号判別部２４から波形変化量Δを受け取ると、波形変化量Δとゲイン値G(f)の関係を表すゲイン決定関数に従ってゲイン値を決定する。ゲイン決定関数は、波形変化量Δが大きくなるほど、ゲイン値G(f)も大きくなる関数である。例えば、ゲイン決定関数は、波形変化量Δが所定の下限値Thw_lowから所定の上限値Thw_highの範囲に含まれる場合、波形変化量Δが大きくなるにつれてゲイン値G(f)も線形に増加する関数であってもよい。またこのゲイン決定関数では、波形変化量Δが下限値Thw_low以下の場合、ゲイン値G(f)は0、波形変化量Δが上限値Thw_high以上の場合、ゲイン値G(f)は最大ゲイン値G_maxとなる。なお、下限値Thw_lowは、バブルノイズである可能性がある波形変化量の最小値に対応し、例えば、3dBに設定される。また上限値Thw_highは、ノイズ以外の音に起因する波形変化量とバブルノイズに起因する波形変化量との中間値に対応し、例えば、6dBに設定される。また最大ゲイン値G_maxは、電話機２の周囲で人が会話していても、電話機２のユーザが受信音声を十分に聞き取れる程度に受信音声信号を増幅する値であり、例えば、10dBに設定される。
なお、ゲイン決定関数は、非線形関数であってもよい。例えば、ゲイン決定関数は、波形変化量Δが下限値Thw_lowから上限値Thw_highの範囲に含まれる場合、波形変化量Δの２乗あるい波形変化量Δの対数に比例してゲイン値G(f)が大きくなる関数であってもよい。

また、ゲイン算出部２５は、ゲイン決定関数により決定されたゲイン値を、人の声に対応する周波数帯域にのみ適用し、その他の周波数帯域についてはゲイン値を、ゲイン決定関数により決定されたゲイン値よりも小さい値、例えば、0dBとしてもよい。これにより、音声信号処理装置３は、受信音声信号のうち、人の声に対応する周波数帯域の音声信号だけを選択的に増幅できる。特に、ゲイン算出部２５が人の声のうちの高周波数帯域に対応する受信音声信号を選択的に増幅することで、ユーザが受信音声信号を聞き取り易くすることができる。なお、人の声のうちの高周波数帯域は、例えば、2kHz〜4kHzである。

以上に説明してきたように、第３の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動するほど、受信音声信号のパワーを強くする。そのため、この音声信号処理装置は、受信音声信号の音量を、電話機の周囲のバブルノイズに応じて適切に調節することができる。

次に、第４の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、音声信号処理装置が実装された電話機の周囲のノイズに対するアクティブノイズコントロールを実行することにより、電話機周囲のノイズを打ち消すように、電話機周囲の音の逆位相音を電話機のスピーカから発生させる。そしてこの音声信号処理装置は、逆位相音を生成する際、バブルノイズが含まれるか否かに応じて、異なるフィルタを用いて逆位相音を生成する。そしてこの音声信号処理装置は、その逆位相音を受信音声と重畳してスピーカに再生させることにより、電話機周囲のノイズがバブルノイズであっても、適切にノイズを打ち消す。

第４の実施形態による音声信号処理装置が実装された電話機は、図５に示された第２の実施形態による電話機２と同様の構成を有する。

図９は、第４の実施形態による、音声信号処理装置４１の概略構成図である。図９に示されるように、音声信号処理装置４１は、時間周波数変換部２２と、パワースペクトル算出部２３と、音声信号判別部２４と、逆位相音生成部２９と、フィルタ部３０とを有する。なお、図９に示される音声信号処理装置４１の各構成要素には、図６に示された音声信号処理装置２１の対応する構成要素と同一の参照番号を付した。
音声信号処理装置４１が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置４１が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置４１に実装されてもよい。さらに、音声信号処理装置４１が有するこれらの各部は、音声信号処理装置４１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
図９に示された音声信号処理装置４１は、逆位相音生成部２９が、入力音声信号の逆位相音を生成し、フィルタ部２７が、その逆位相音を受信音声信号に重畳する点で、第２の実施形態による音声信号処理装置２１と異なる。そこで、以下では、逆位相音生成部２９及びフィルタ部３０について説明する。

逆位相音生成部２９は、マイクロフォン１２を介して集音された電話機２の周囲の音に対応する入力音声信号に対する逆位相音を生成する。例えば、逆位相音生成部２９は、次式に従って、入力音声信号x[n]に対するフィルタ処理を行うことにより、逆位相音d[n]を生成する。

なお、α[i]、β[i](i=1,2,...,L)は、それぞれ、有限インパルス(Finite impulse response、FIR)型のフィルタであり、入力音声信号に対する電話機２の信号伝達特性を考慮して予め作成される。またLはタップ数であり、有限な正の整数の何れかに設定される。
ここで、フィルタα[i]は、入力音声信号にバブルノイズが含まれると判定されたときに使用されるフィルタであり、一方、フィルタβ[i]は、入力音声信号にバブルノイズが含まれないと判定されたときに使用されるフィルタである。フィルタα[i]は、フィルタα[i]を用いて生成される逆位相音d[n]の絶対値が、フィルタβ[i]を用いて生成される逆位相音d[n]の絶対値よりも小さくなるように設計されることが好ましい。入力音声信号x[n]の位相及び振幅と完全に反転する逆位相音d[n]を生成するようにフィルタが設計されると、急激に入力音声信号が変化したときにd[n]の振幅がx[n]の振幅よりも大きくなり、この逆位相音がユーザにとって異音となるおそれがある。そこで、逆位相音生成部２９は、短期間に音の特性が変動するバブルノイズに対しては、逆位相音d[n]を、フィルタβ[i]を用いて生成される逆位相音d[n]よりも小さくすることで、逆位相音に起因する異音の発生を防止できる。なお、逆位相音が小さければ、バブルノイズは完全に打ち消されないこともある。しかしながら、逆位相音によりバブルノイズの一部でも打ち消されれば、ユーザは受信音声信号を聞き取り易くなる。

あるいは、逆位相音生成部２９は、入力音声信号に対して位相が反転した信号を出力するようなFIR型の適応フィルタを求めてもよい。この場合、逆位相音生成部２９は、フィルタ更新部としての機能も有する。そして逆位相音生成部２９は、求めた適応フィルタを用いて入力音声信号をフィルタ処理することにより、逆位相音を生成する。

逆位相音生成部２９は、FIR型適応フィルタを、例えば、エラーマイクなどにより測定される誤差信号が最小となるように、最急降下法、あるいはFiltered-x LMS法に従って求めることができる。
ここで、入力音声信号にバブルノイズが含まれている場合、図２（ａ）及び図２（ｂ）に関して説明したように、入力音声信号の周波数スペクトルの波形は短期間で大きく変動する。すなわち、入力音声信号の強さ、周波数の高さなどの特性が短期間で変動する。そこで、逆位相音生成部２９は、音声信号判別部２４により入力音声信号にバブルノイズが含まれると判定されている場合、FIR型適応フィルタのタップ数を、入力音声信号にバブルノイズが含まれないと判定されている場合の逆位相音よりも短くすることが好ましい。例えば、入力音声信号にバブルノイズが含まれると判定されている場合のFIR型適応フィルタのタップ数は、入力音声信号にバブルノイズが含まれないと判定されている場合のFIR型適応フィルタのタップ数の半分に設定される。これにより、逆位相音生成部２９は、入力音声信号にバブルノイズが含まれている場合も、適切なFIR型適応フィルタを作成できる。
逆位相音生成部２９は、生成した逆位相音をフィルタ部３０へ出力する。

フィルタ部３０は、受信音声信号に逆位相音を重畳する。そしてフィルタ部３０は、逆位相音が重畳された受信音声信号を増幅器１７へ出力する。

以上に説明してきたように、第４の実施形態による音声信号処理装置は、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した入力音声信号の周波数スペクトルの波形の時間変化を調べることにより、バブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合の逆位相音の振幅が、入力音声信号にバブルノイズが含まれない場合の逆位相音の振幅よりも小さくする。あるいは、この音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合、逆位相音を生成するためのFIR型適応フィルタのタップ数を、入力音声信号にバブルノイズが含まれない場合よりも短くする。これにより、この音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合も、適切な逆位相音を生成できる。そのため、この音声信号処理装置が実装された電話機は、その電話機の周囲にバブルノイズが存在しても、適切にノイズを打ち消すことができる。

なお、本発明は、上記の実施形態に限定されるものではない。例えば、第４の実施形態による音声信号処理装置は、記録媒体に記憶された音声信号データを再生する音声再生装置に実装されてもよい。この場合、音声信号処理装置には、受信音声信号の代わりに、記録媒体に記憶された音声信号データから再生される音声信号が入力される。

また、第１の実施形態による音声信号処理装置は、第２の実施形態による音声信号処理装置が有する重み決定部と同様の重み決定部を有してもよい。この場合、第１の実施形態の変形例となる音声信号処理装置の波形変化量算出部は、（９）式に従って波形変化量を算出する。
さらに、第１の実施形態による音声信号処理装置のゲイン算出部は、第３の実施形態による音声信号処理装置と同様に、波形変化量が大きくなるにつれてゲイン値も大きな値となるように、ゲイン値を決定してもよい。この場合、パワースペクトルがノイズ成分か否か判定するための基準値を求めるために、推定ノイズスペクトルに加算されるバイアス値は、バブルノイズ用バイアス値Bbまたはバイアス値Bcの何れか一方のみが使用される。

また、上記の各実施形態の音声信号処理装置は、パワースペクトルの代わりに、周波数スペクトルそのものを正規化し、正規化された周波数スペクトルの二つのフレーム間の波形変化量を算出することにより、音声信号に含まれるノイズの種別を判定してもよい。この場合、スペクトル正規化部は、パワースペクトルの代わりに周波数スペクトルを上記の（４）式あるいは（５）式に入力することにより、正規化された周波数スペクトルを算出する。また、パワースペクトルに対して定められている各閾値は、周波数スペクトルに対して定められる値に修正される。また、パワースペクトル算出部は省略される。
また、上記の各実施形態による音声信号処理装置は、入力された音声信号が複数のチャネルを有する場合、各チャネルごとに上記のノイズ低減処理、受信音声増幅処理あるいはノイズキャンセル処理を実行してもよい。

また、上記の各実施形態による音声信号処理装置が有する各部の機能を実現する機能モジュールを含むコンピュータプログラムは、磁気記録媒体、光記録媒体などの記録媒体に保存された形で配布されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１、２電話機
１０呼制御部
１１通信部
１２マイクロフォン
１３、１７増幅器
１４符号化部
１５復号部
１６、２１、３１、４１音声信号処理装置
１８スピーカ
１６１、２２、２６時間周波数変換部
１６２、２３パワースペクトル算出部
１６３ノイズ推定部
１６４、２４音声信号判別部
１６５、２５ゲイン算出部
１６６、２７、３０フィルタ部
１６７、２８周波数時間変換部
２９逆位相音生成部
１７１、２４１スペクトル正規化部
１７３、２４２バッファ
２４３重み決定部
１７２、２４４波形変化量算出部
１７４、２４５判定部

Claims

音声信号をフレーム単位で時間周波数変換することにより、該音声信号の周波数スペクトルを算出する時間周波数変換部と、
第１のフレームの周波数スペクトルと、前記第１のフレームよりも前の第２のフレームの周波数スペクトルから、前記第１のフレームの周波数スペクトルと前記第２のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、
前記周波数スペクトルの変化量が一人の声に対する周波数スペクトルの変化量に相当する閾値よりも大きい場合、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定する判定部と、
を有する音声信号処理装置。
各フレームの前記周波数スペクトルから、前記周波数スペクトルの振幅の最大値あるいは平均値が所定値となるように正規化された正規化スペクトルを算出するスペクトル正規化部をさらに有し、
前記スペクトル変化量算出部は、前記第１のフレームの正規化スペクトルと、前記第２のフレームの正規化スペクトルから、前記周波数スペクトルの変化量を算出する請求項１に記載の音声信号処理装置。
前記スペクトル変化量算出部は、周波数帯域を複数に分割したサブ周波数帯域ごとに前記周波数スペクトルの変化量を算出する請求項１または２に記載の音声信号処理装置。
前記スペクトル変化量算出部は、各サブ周波数帯域の前記第１のフレームの正規化スペクトルと前記第２のフレームの正規化スペクトルとの差の絶対値の合計から前記周波数スペクトルの変化量を算出する請求項３に記載の音声信号処理装置。
周波数帯域を複数に分割したサブ周波数帯域のうち、前記第１のフレームの周波数スペクトルの振幅が前記第２のフレームの周波数スペクトルの振幅よりも大きいサブ周波数帯域の重み係数を、前記第１のフレームの周波数スペクトルの振幅が前記第２のフレームの周波数スペクトルの振幅以下であるサブ周波数帯域の重み係数よりも大きく設定する重み決定部をさらに有し、
前記スペクトル変化量算出部は、前記サブ周波数帯域ごとに前記重み係数を対応する前記差の絶対値に乗じた値を合計することにより、前記周波数スペクトルの変化量を算出する、請求項４に記載の音声信号処理装置。
前記第１のフレームの周波数スペクトルの振幅の平均値が第１の値よりも大きい場合、前記各サブ周波数帯域の重み係数を、前記第１のフレームの周波数スペクトルの振幅の平均値が前記第１の値よりも小さい第２の値以下である場合の前記各サブ周波数帯域の重み係数よりも大きく設定する重み決定部をさらに有し、
前記スペクトル変化量算出部は、前記サブ周波数帯域ごとに前記重み係数を対応する前記差の絶対値に乗じた値を合計することにより、前記周波数スペクトルの変化量を算出する、請求項４に記載の音声信号処理装置。
前記音声信号に含まれるノイズ成分のパワースペクトルを推定するノイズ推定部と、
ノイズ成分のパワースペクトルと前記周波数スペクトルのパワースペクトルに応じてゲインを算出するゲイン算出部と、
前記ゲインを前記周波数スペクトルに乗算することでノイズ低減スペクトルを算出するフィルタ部と、
前記ノイズ低減スペクトルを時間信号に変換することにより出力信号を算出する周波数時間変換部とをさらに有し、
前記ゲイン算出部は、前記判定部により、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合のゲインを、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合のゲインよりも大きくする請求項１から６の何れか一項に記載の音声信号処理装置。
前記音声信号に含まれるノイズ成分のパワースペクトルを推定するノイズ推定部と、
前記周波数スペクトルのパワースペクトルとノイズ成分のパワースペクトルとの差と所定の閾値との比較に応じてゲインを算出するゲイン算出部と、
前記ゲインを前記周波数スペクトルに乗算することでノイズ低減スペクトルを算出するフィルタ部と、
前記ノイズ低減スペクトルを時間信号に変換することにより出力信号を算出する周波数時間変換部とをさらに有し、
前記ゲイン算出部は、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合の前記閾値は、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合の前記閾値よりも大きくする、請求項１から６の何れか一項に記載の音声信号処理装置。
第２の音声信号をフレーム単位で時間周波数変換することにより、該第２の音声信号の周波数スペクトルを算出する第２の時間周波数変換部と、
ノイズの判定結果に基づいて入力信号を増幅する帯域毎のゲインを算出するゲイン算出部と、
帯域毎のゲインを第２の音声信号の周波数スペクトルに乗算し、強調スペクトルを算出するフィルタ部と、
前記強調スペクトルを時間信号に変換し出力信号を算出する周波数時間変換部をさらに有し、
前記ゲイン算出部は、前記判定部により、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合のゲインを、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合のゲインよりも大きく設定する、
請求項１から６の何れか一項に記載の音声信号処理装置。
前記音声信号に予め設定したフィルタを畳み込むことで、前記音声信号の逆位相音を生成する逆位相音生成部と、
前記逆位相音を第２の音声信号に重畳するフィルタ部とをさらに有し、
前記逆位相音生成部は、予め設定された複数のフィルタを保持し、前記判定部により、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合とそれ以外の場合で、フィルタを切り換えて使用する、請求項１から６の何れか一項に記載の音声信号処理装置。
前記音声信号にフィルタを畳み込むことで、前記音声信号の逆位相音を生成する逆位相音生成部と、
誤差信号に基づいて前記フィルタを更新するフィルタ更新部と、
前記逆位相音を第２の音声信号に重畳するフィルタ部とをさらに有し、
前記逆位相音生成部は、複数のフィルタを保持し、前記判定部により、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合とそれ以外の場合で、前記フィルタを切り換えて使用し、
前記フィルタ更新部は、前記逆位相音生成部により使用されるフィルタを更新する、請求項１から６の何れか一項に記載の音声信号処理装置。
前記周波数スペクトルの変化量が大きいほどゲインを大きく設定するゲイン算出部と、
前記ゲインが大きいほど、前記音声信号と別個に入力された第２の音声信号を大きくするフィルタ処理を実行するフィルタ部と、
をさらに有する請求項１に記載の音声信号処理装置。
音声信号をフレーム単位で時間周波数変換することにより、該音声信号の周波数スペクトルを算出し、
第１のフレームの周波数スペクトルと、前記第１のフレームよりも前の第２のフレームの周波数スペクトルから、前記第１のフレームの周波数スペクトルと前記第２のフレーム間の周波数スペクトルの変化量を算出し、
前記周波数スペクトルの変化量が一人の声に対する周波数スペクトルの変化量に相当する閾値よりも大きい場合、前記第１のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定する、
ことを含む音声信号処理方法。
各フレームの前記周波数スペクトルから、前記周波数スペクトルの振幅の最大値あるいは平均値が所定値となるように正規化された正規化スペクトルを算出することをさらに含み、
前記周波数スペクトルの変化量を算出することは、前記第１のフレームの正規化スペクトルと、前記第２のフレームの正規化スペクトルから、前記周波数スペクトルの変化量を算出する請求項１３に記載の音声信号処理方法。