JP6406257B2

JP6406257B2 - 信号処理装置、信号処理方法および信号処理プログラム

Info

Publication number: JP6406257B2
Application number: JP2015534041A
Authority: JP
Inventors: 昭彦杉山; 良次宮原
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-08-30
Filing date: 2014-06-16
Publication date: 2018-10-17
Anticipated expiration: 2034-06-16
Also published as: JPWO2015029545A1; WO2015029545A1; US10276178B2; US20160217803A1

Description

本発明は、信号の変化を検出する技術に関する。

上記技術分野において、特許文献１には、位相の時間方向変動量を計測することで、周波数急変を検出する記載がある。特許文献２の段落００３１には、「位相直線化部２５は、直線化により、極座標変換部２４から入力された位相信号θのとびを直して、その結果の位相信号θ'を位相検出部２６へ出力する」と記載がある。非特許文献９には、位相の周波数方向直線性を用いて、信号の急変を検出する記載がある。

特開2011-254122号公報特開2011-199808号公報

M. Kato, A. Sugiyama, and M. Serizawa, "Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA," IEICE Trans. Fundamentals (Japanese Edition), vol.J87-A, no.7, pp.851-860, July 2004. R. Martin, "Spectral subtraction based on minimum statistics," EUSPICO-94, pp.1182-1185, Sept. 1994 「ディジタル記録媒体のための動画信号および付随する音響信号の1.5 Mbit/s符号化−第3部音響」、日本工業規格 JIS X 4323、99ページ、1996年11月。 A. D. Cheveigne and H. Kawahara, "YIN, a fundamental frequency estimator for speech and music," J. Acoustic Soc. Amer., vol. 111, no. 4, pp.1917-1930, April 2002. J. L. Flanagan et al., "Speech Coding," IEEE Transactions on Communications, Vol. 27, no. 4, April 1979. A. Subramanya et al., "Automatic removal of typed keystrokes from speech signals," IEEE Signal Processing Letters, Vol. 14, No. 5, pp.363-366, May 2007. J. Murphy et al., "Joint Baysian removal of impulse and background noise," IEEE Proceedings of ICASSP, pp.261-264, May 2011. R. Talmon et al., "Transient noise reduction useing nonlocal diffusion filters," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 19, No. 6, pp.1584-1599, Jun. 2011. A. Sugiyama et al., "Impact-noise suppression with phase-based detection," Proc. of IEICE General Conference, pp.73, Mar. 2013.

しかしながら、上述の先行技術文献に記載の技術の中で、特許文献１では、「周波数」の急変を検出しようとするものであり、特許文献２では、位相の傾きを用いて等化処理を行なうものである。非特許文献９では、理想的なパルスを検出する方式である。すなわち、これらの文献に記載の技術では、信号の急変、特に理想的なパルスとは異なる急変を効果的に検出できなかった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明にかかる信号処理装置は、
入力信号を、周波数領域における位相成分信号に変換する変換手段と、
前記位相成分信号の複数の周波数において、周波数に対する位相の傾きを第１位相傾きとして算出する第１算出手段と、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出する重み付け手段と、
前記重み付き第１位相傾きに基づいて第２位相傾きを算出する第２算出手段と、
前記複数の周波数において、前記第１位相傾きと前記第２位相傾きとの類似度に基づいて前記入力信号の急変に関する存在可能性を判定する判定手段と、
を備えた。

上記目的を達成するため、本発明にかかる信号処理方法は、
入力信号を、周波数領域における位相成分信号に変換し、前記位相成分信号の複数の周波数において、周波数に対する第１位相傾きを算出し、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出し、
前記重み付き第１位相傾きを用いて第２位相傾きを算出し、
前記複数の周波数において、前記第１位相傾きと前記第２位相傾きとの類似度に基づいて前記入力信号の急変の存在可能性を判定する、各ステップを含む。

上記目的を達成するため、本発明にかかる信号処理プログラムは、
入力信号を、周波数領域における位相成分信号に変換し、前記位相成分信号の複数の周波数において、周波数に対する第１位相傾きを算出し、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出し、
前記重み付き第１位相傾きを用いて第２位相傾きを算出し、
前記複数の周波数において、前記第１位相傾きと前記第２位相傾きとの類似度に基づいて前記入力信号の急変の存在可能性を判定する、各ステップをコンピュータに実行させる。

本発明によれば、信号の急変、特に理想的なパルスとは異なる急変を効果的に検出できる。

本発明の第１実施形態に係る信号処理装置の構成を示すブロック図である。本発明の第２実施形態に係る雑音抑圧装置の構成を示すブロック図である。本発明の第２実施形態に係る変換部の構成を示すブロック図である。本発明の第２実施形態に係る逆変換部の構成を示すブロック図である。本発明の第２実施形態に係る位相制御部および振幅制御部の構成を示すブロック図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る位相制御部の動作を説明する図である。本発明の第２実施形態に係る算出部および急変判定部の構成を説明する図である。本発明の第２実施形態に係る算出部の処理を説明する図である。本発明の第２実施形態に係る雑音抑圧装置のハードウェア構成を示すブロック図である。本発明の第２実施形態に係る雑音抑圧装置の処理の流れを説明するフローチャートである。本発明の第２実施形態に係る雑音抑圧装置の処理の流れを説明するフローチャートである。本発明の第２実施形態に係る雑音抑圧装置の処理の流れを説明するフローチャートである。本発明の第３実施形態に係る雑音抑圧装置の構成を示すブロック図である。本発明の第４実施形態にかかる適用例を説明する図である。本発明の第４実施形態にかかる適用例を説明する図である。本発明の第４実施形態にかかる適用例を説明する図である。本発明の第４実施形態にかかる適用例を説明する図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。

［第１実施形態］
本発明の第１実施形態としての信号処理装置１００について、図１を用いて説明する。信号処理装置１００は、入力信号急変を検出するための装置である。図１に示すように、信号処理装置１００は、変換部１０１と第１算出部１０２と第２算出部１０３と重み付け部１０５と信号急変判定部１０４とを含む。

変換部１０１は、入力信号１１０を、周波数領域における位相成分信号１２０および振幅成分信号１３０に変換する。第１算出部１０２は、位相成分信号１２０の複数の周波数において、周波数に対する位相の傾きを第１の傾き１５０として算出する。第１の傾きは、例えば、位相の周波数による微分によって算出してもよいし、他の方法で算出してもよい。重み付け部１０５は、第１の傾き１５０を振幅成分信号１３０で重み付けして、重み付き第１の傾き１４０を算出する。重み付け部１０５は、例えば、振幅成分信号１３０として、振幅絶対値を用いてもよいし、振幅２乗値（パワー）を用いてもよい。また、重み付け部１０５は、例えば、重み付けは、単純な両者の積を求めてもよいし、それ以外の関数あるいは多項式で表される形で実現されてもよい。すなわち、なんらかの形で、振幅成分信号１３０の大きさが第１の傾きに反映される限り、関数あるいは多項式の形は問わない。重み付き演算の目的は、振幅が大きい周波数の第１位相傾きが、第２算出部の演算において、より大きな貢献をするように前処理することにある。第２算出部１０３は、重み付き第１の傾き１４０を用いて第２の傾き１６０を算出する。第２の傾きとして、重み付き第１の傾きの平均を用いることができる。また、第２の傾きとして、重み付き第１の傾きの平均を求め、この平均と大きく異なったものを除外した集団の平均、すなわち重み付き第一の傾きの部分平均を用いることもできる。信号急変部の周波数に対する位相傾きは、理想的には周波数によらず一定となるため、平均傾きと大きく異なる値は信頼性が低い。例えば、信号急変を構成する信号以外の雑音や妨害信号を含む可能性が高い。このため、これらの平均から大きく異なる値を除外した部分平均を計算して第２の傾きとすることで、高精度な平均値、すなわち第２の傾きを得ることができる。

第２算出部１０３は、第２の傾きとして、重み付き第１の傾きの平均を求める際に、音声が支配的である周波数を除外した集団の平均、すなわち重み付き第一の傾きの部分平均を用いることもできる。このために、第２算出部１０３は振幅成分信号１３０を用いて、音声が支配的であるか否かを各周波数で判定する。音声が支配的であるか否かに関しては、様々な方法を適用して評価することができる。まず、振幅またはパワーが大きい周波数を音声が支配的であるとすることができる。音声、特にその特徴を表すフォルマント周波数では、他の周波数よりも振幅およびパワーが著しく大きいことが知られている。また、複数の周波数における平均振幅または平均パワーを求め、この値よりも大きいときに音声が支配的であるとすることもできる。さらに、音声が支配的である周波数の判定を音声の存在する可能性が高い低周波帯域に限定してもよい。このように部分平均を用いることによって、信号急変を検出しようとする信号成分以外の音声による平均結果への悪影響を低減することができ、高精度な平均値、すなわち第２の傾きを得ることができる。

第２算出部１０３は、第２の傾きとして、重み付き第１の傾きの平均を求める際に、振幅またはパワーが背景雑音の推定振幅または推定パワーより十分に大きい周波数における重み付き第１の傾きの平均、すなわち第一の傾きの部分平均を用いることもできる。これは、検出対象となる信号急変部の振幅またはパワーが背景雑音の振幅またはパワーよりも十分に大きいことが多いからである。背景雑音の振幅またはパワーの推定は、非特許文献１や非特許文献２に記載の方法など様々な方法を利用することができる。検出対象の信号と背景雑音以外の信号が存在する場合には、同様にその信号を推定して、背景雑音と同様に取り扱うことができる。また、検出対象の信号と背景雑音以外の信号の振幅特性またはパワー特性があらかじめわかっている場合には、その情報を利用してもよい。このように部分平均を用いることによって、信号急変を検出しようとする信号成分以外の信号成分による平均結果への悪影響を低減することができ、高精度な平均値、すなわち第２の傾きを得ることができる。

さらに、第２算出部１０３は、第２の傾きとして、重み付き第１の傾きの平均を求める際に、音声が支配的ではなく、かつ振幅またはパワーが背景雑音の推定振幅または推定パワーより十分に大きい周波数における第１の傾きの平均用いることもできる。これは、前記２つの算出における限定条件を同時に適用した例である。

信号急変判定部１０４は、第１算出部１０２によって算出された第１の傾き１５０と第２算出部１０３によって算出された第２の傾き１６０に基づいて入力信号の急変を判定する。第１の傾きと第２の傾きの差が小さい周波数は、信号の急変が存在する確率が高いと判断する。

以上の構成により、周波数領域における位相成分信号の第１の傾きと第２の傾きとの一致程度を用いて、入力信号の急変、特に理想的なパルスとは異なる急変を効果的に検出することができる。

［第２実施形態］
《全体構成》
本発明の第２実施形態としての雑音抑圧装置について図２乃至図１１を用いて説明する本実施形態の雑音抑圧装置は、例えばデジタルカメラ、ノートパソコン、携帯電話、キーボード、ゲーム機のコントローラ、携帯電話の押しボタンなどの雑音抑圧に適用できる。すなわち、音声、音楽、環境音などの目的とする音声信号を、これらに重畳された信号（ノイズまたは妨害信号）に対して強調することができる。ただし、本発明はこれに限定されるものではなく、入力信号からの信号急変検出を要求されるあらゆる信号処理装置に適用可能である。なお、本実施形態では、信号の急変の一例として、衝撃音を検出して抑圧する雑音抑圧装置について説明する。本実施形態としての雑音抑圧装置は、例えば、マイクの近くでボタン押下などの操作がなされるような形態において、かかるボタン操作により発生する衝撃音を適切に抑圧する。簡単に説明すると、衝撃音を含む時間領域信号を周波数領域信号に変換し、周波数空間における位相成分の傾きを算出する。また、求めた傾きを振幅で重み付けした値を用いて、傾きの理論値、すなわち正しい傾きを推定する。そして、それら２種類の位相の傾き(傾きとその理論値)の一致程度に応じて、衝撃音の存在を判定する。

図２は、雑音抑圧装置２００の全体構成を示すブロック図である。入力端子２０６には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子２０６に供給された劣化信号は、変換部２０１においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル（振幅成分）２３０は雑音抑圧部２０５へ供給され、位相スペクトル（位相成分）２２０は位相制御部２０２および算出部２８１に供給される。なお、ここでは変換部２０１が雑音抑圧部２０５に劣化信号振幅スペクトル２３０を供給しているが、本発明はこれに限定されるものではなく、振幅スペクトルの二乗に相当するパワースペクトルを雑音抑圧部２０５に供給してもよい。

雑音抑圧部２０５は、変換部２０１から供給される劣化信号振幅スペクトル２３０を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部２０５は、変換部２０１から供給された劣化信号振幅スペクトル２３０と、生成した推定雑音スペクトルとを用いて雑音を抑圧し、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部２０３に伝達する。さらに雑音抑圧部２０５は、急変判定部２０９から判定結果を入力し、信号の急変の有無またはその程度に応じて、雑音の抑圧の程度を変更する。雑音抑圧部２０５は、所望信号の検出を行って所望信号成分を周波数ごとに保護する一方、信号急変が存在し、所望信号成分が検出されないときには、振幅を推定背景音に置換してもよい。

位相制御部２０２は、変換部２０１から供給された劣化信号位相スペクトル２２０を回転（シフト）させ、強調信号位相スペクトル２４０として逆変換部２０４へ供給する。また、位相の回転量（シフト量）を、振幅制御部２０３へ伝達する。振幅制御部２０３は、位相制御部２０２から位相の回転量（シフト量）を受け取って振幅補正量を算出し、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル２５０を逆変換部２０４へ供給する。逆変換部２０４は、位相制御部２０２から供給された強調信号位相スペクトル２４０と、振幅制御部２０３から供給された補正振幅スペクトル２５０とを合成して逆変換を行い、強調信号として、出力端子２０７に供給する。

算出部２８１は、変換部２０１から供給された位相成分信号２２０を周波数で微分することにより、各周波数での位相の傾き（変化）を算出する。また、算出部２８１は、隣接周波数における位相の差を求めることで、周波数による位相の傾きを近似計算することもできる。重み付け部２８５は、第１の傾きを振幅成分信号２３０で重み付けして、重み付き第１の傾きを算出する。振幅成分信号２３０は、振幅絶対値を用いてもよいし、振幅２乗値（パワー）を用いてもよい。また、重み付けは、単純な両者の積を求めてもよいし、それ以外の関数あるいは多項式で表される形で実現されてもよい。すなわち、なんらかの形で、振幅成分信号２３０の大きさが第１の傾きに反映される限り、関数あるいは多項式の形は問わない。重み付き演算の目的は、振幅が大きい周波数の第１位相傾きが、第２算出部の演算において、より大きな貢献をするように前処理することにある。

一方、算出部２８３は、重み付け部２８５から供給された各周波数での重み付き位相の傾きを平均化して平均値を算出し、平均された重み付き位相の傾きを算出する。急変判定部２０９は、算出部２８１、２８３から提供された位相の傾きとその重み付き平均値を比較し、それらの類似度に基づいて、信号の急変がどの程度存在するか（存在可能性）を周波数点ごとに判定する。

ここで、傾きの類似度は、時間領域信号から求めた傾きと周波数領域信号から求めた傾きの差分絶対値を用いることができるが、これに限定されない。これら２つの傾きの比の値と１との距離や、両者の和をどちらかの傾きの２倍で正規化した値と１との距離などを用いてもよい。類似度に基づく存在可能性は、例えば、次のようにして求めることができる。まず、正の値を閾値として定める。差分絶対値がこの閾値よりも大きいとき、存在可能性を０とする。また、差分絶対値が０に等しいとき、存在可能性を１とする。存在可能性の一般値は、差分絶対値の関数として定義する。このような関数の最も簡単なものは、直線である。存在可能性として、差分絶対値に比例した値が定められる。直線の傾きとｙ切片(前記差分絶対値がゼロのときの関数値)は、前述の差分絶対値が０および１に等しいときの境界条件を満足するように定める。関数としては、任意の線形または非線形関数や多項式などを用いてもよい。

《変換部の構成》
図３は、変換部２０１の構成を示すブロック図である。図３に示すように、変換部２０１はフレーム分割部３０１、窓がけ処理部(windowing unit)３０２、およびフーリエ変換部３０３を含む。劣化信号サンプルは、フレーム分割部３０１に供給され、Ｋ／２サンプルごとのフレームに分割される。ここで、Ｋは偶数とする。フレームに分割された劣化信号サンプル２７０は、窓がけ処理部３０２に供給され、窓がけ処理部３０２では窓関数(window function)であるw(t)との乗算が行なわれる。第ｎフレームの入力信号yn(t) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式（１）で与えられる。

また、連続する２フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。

オーバラップ長としてフレーム長の５０％を仮定すれば、t=0, 1, ..., K/2-1 に対して、以下の式（２）で得られる左辺が、窓がけ処理部３０２の出力となる。

実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部２０１の出力を逆変換部２０４に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w²(t)+w² (t+K/2)=1 となることを意味する。

以後、連続する２フレームの５０％をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式（３）に示すハニング窓を用いることができる。

このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部３０３に供給され、劣化信号スペクトルYn(k)に変換される。劣化信号スペクトルYn(k)は位相と振幅に分離され、劣化信号位相スペクトル arg Yn(k)は、位相制御部２０２と算出部２８１に、劣化信号振幅スペクトル|Yn(k)|は、雑音抑圧部２０５に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。

《逆変換部の構成》
図４は、逆変換部２０４の構成を示すブロック図である。図４に示すように、逆変換部２０４は逆フーリエ変換部４０１、窓がけ処理部４０２およびフレーム合成部４０３を含む。逆フーリエ変換部４０１は、振幅制御部２０３から供給された強調信号振幅スペクトル２５０と位相制御部２０２から供給された強調信号位相スペクトル２４０(arg Xn(k))とを乗算して、強調信号（以下の式（４）の左辺）を求める。

得られた強調信号に逆フーリエ変換を施し、１フレームがＫサンプルを含む時間領域サンプル値系列xn(t) (t=0, 1, ..., K-1)として、窓がけ処理部４０２に供給され、窓関数w(t)との乗算が行なわれる。第ｎフレームの入力信号xn(t) (t=0, 1, ..., K/2-1)に対してw(t)で窓がけされた信号は、次式（５）の左辺で与えられる。

フレーム長の５０％をオーバラップ長として仮定すれば、t=0, 1, ..., K/2-1 に対して、以下の式の左辺が、窓がけ処理部４０２の出力となり、フレーム合成部４０３に伝達される。

フレーム合成部４０３は、窓がけ処理部４０２からの隣接する２フレームの出力を、Ｋ／２サンプルずつ取り出して重ね合わせ、以下の式（７）によって、t=0, 1, ..., K-1における出力信号（式（７）の左辺）を得る。得られた強調信号２６０は、フレーム合成部４０３から出力端子２０７に伝達される。

なお、図３と図４において変換部と逆変換部における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、ＬＳＩ化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。

また、変換部２０１において得られる周波数成分を複数統合してから、雑音抑圧部２０５で実際の抑圧を行うこともできる。統合後の周波数成分の数は、統合前の周波数成分の数よりも小さくなる。具体的には、周波数成分の統合によって得られる統合周波数成分に対して共通の抑圧度を求め、その抑圧度を同一統合周波数成分に属する個別の周波数成分に対して共通に用いる。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合することによって、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。

《雑音抑圧部の構成》
雑音抑圧部２０５は、変換部２０１から供給される劣化信号振幅スペクトルを用いて雑音を推定し、推定雑音スペクトルを生成する。そして、変換部２０１からの劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて抑圧係数を求め、劣化信号振幅スペクトルに乗じ、強調信号振幅スペクトルとして、振幅制御部２０３へ供給する。また、急変判定部２０９から急変判定結果（信号の急変が存在するか否かの情報）を受けて、急変と判定されたときには、劣化信号振幅スペクトルと推定雑音スペクトルのうち小さい方を、強調信号振幅スペクトルとして、振幅制御部２０３へ供給する。このとき、雑音抑圧部２０５は、所望信号の検出を行って所望信号成分を周波数ごとに保護してもよい。

また、急変判定部２０９から、急変がどの程度存在するかの情報（信号の急変が存在する確からしさ、存在可能性）を受けて、信号の急変が存在する可能性に応じて、雑音抑圧の程度を変更することもできる。さらに、信号の急変が存在する可能性を周波数成分、周数帯域（任意の数の連続する周波数成分を統合したもの）、あるいはフレーム単位で判定し、その急変を抑圧すべく、前記周波数成分、周波数帯域、あるいはフレーム単位で異なった信号処理を施すことができる。

雑音の推定には、非特許文献１や非特許文献２に記載の方法など、様々な推定方法が利用できる。

例えば、非特許文献１には、推定雑音スペクトルを、所望信号が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では所望信号の存在を検出する必要がある。所望信号の存在する区間は、強調信号のパワーで判断することができる。

理想的な動作状態として、強調信号は雑音以外の所望信号となっている。また、所望信号や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、１フレーム過去の強調信号レベルを雑音区間判定の指標とする。１フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。

また、非特許文献１には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には所望信号が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。

さらに、非特許文献２には、推定雑音スペクトルを、統計的な劣化信号振幅スペクトルの最小値から求める方法が開示されている。この方法では、統計的に一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとして用いる。

雑音抑圧部２０５においては、様々な抑圧を行うことが可能であるが、代表的なものとして、SS(Spectrum Subtraction:スペクトル減算)法とMMSE STSA(Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator:最小二乗平均誤差短時間振幅スペクトル推定)法とが挙げられる。SS法の場合は、変換部２０１から供給された劣化信号振幅スペクトルから推定雑音スペクトルを減算する。MMSE STSA法の場合は、変換部２０１から供給された劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて、抑圧係数を計算し、この抑圧係数を劣化信号振幅スペクトルに乗算する。この抑圧係数は、強調信号の平均二乗パワーを最小化するように決定される。

また、雑音抑圧部２０５は、急変判定部２０９から急変判定結果（信号の急変が存在するか否かの情報）を入力し、信号の急変の有無またはその程度に応じて、雑音抑圧の程度を変更する。例えば、信号急変のあった周波数成分、周波数帯域、あるいはフレーム単位で、その急変を抑圧すべく信号処理を施すことができる。

急変判定部２０９で急変と判定されたときには、劣化信号振幅スペクトルと推定雑音スペクトルのうち小さい方を、強調信号振幅スペクトルとして、振幅制御部２０３へ供給する。すなわち、劣化信号振幅スペクトルが推定雑音スペクトルより小さいときには劣化信振幅スペクトルをそのまま出力し、それ以外のときには入力信号を推定雑音スペクトルで置き換えて出力することもできる。

さらに、この置き換えに先立って、重要な劣化信号振幅スペクトル成分を検出して、検出された重要な劣化信号振幅スペクトル成分を推定雑音スペクトルによる置き換えの対象から除外することもできる。重要な劣化信号振幅スペクトル成分を検出する際の重要度の指標としては、劣化信号振幅スペクトルの大きさを用いることができる。振幅が大きな成分は目的とする信号の成分である確率が高く、これを保持することは目的とする信号の音質劣化を防止することにつながる。

また、重要度の指標として、劣化信号振幅スペクトルのピーク性を用いることもできる。ピーク、すなわち周波数軸に沿って周辺よりも大きな値を有する劣化信号振幅は、目的とする信号の成分である確率が高く、これを保持することは目的とする信号の音質劣化を防止することにつながる。特に、顕著なピーク、すなわち周辺の振幅値よりも著しく大きな振幅値はその重要度が高いので、確実に保護することで目的とする信号の音質をさらに高めることができる。

ピークの検出は、例えば、非特許文献３の純音成分検出方法や、非特許文献４に、その方法が開示されている。さらに、検出されたピークを所定の条件に従って評価し、条件を満たさないピークは除外してもよい。例えば、前記推定雑音よりも小さな値をとるピークは、目的とする信号である可能性は低い。すなわち、推定雑音を基準として、それよりも十分に大きいものだけをピークとして残し、それ以外を除外することができる。十分に大きいかどうかは推定雑音の定数倍と比較することで、判定できる。このように、検出されたピークが所定の条件を満たすかどうかを評価してから最終的なピーク成分を選択することによって、誤ったピークの検出を低減し、信号急変部の抑圧効果を高くすることができる。

また、急変存在の確からしさに応じて、振幅制御部２０３へ供給する信号を変化させることもできる。その置き換えを行った結果と劣化信号振幅スペクトルを、急変存在の確からしさに対応して混合したものを、強調信号振幅スペクトルとして出力する。急変存在の確からしさが高いほど、その置き換えを行った結果に大きな重みをつけて、混合処理を実行する。

雑音抑圧部２０５は、信号の急変の存在可能性に応じて、抑圧度０、抑圧度１、抑圧度２というように多段で抑圧を行なってもよい。あるいは急変判定部の判定結果（例えば０〜１の数値）に応じて無段階に抑圧の程度を変えてもよい。

《位相制御部および振幅制御部の構成》
図５は位相制御部２０２および振幅制御部２０３の構成を示すブロック図である。図５に示すように、位相制御部２０２は位相回転部５０１と回転量生成部５０２とを含み、振幅制御部２０３は、補正量算出部５０３と振幅補正部５０４とを含む。

回転量生成部５０２は、急変判定部２０９から「信号の急変が存在する」と判定された周波数成分について、劣化信号位相スペクトルの回転量を生成し、位相回転部５０１と補正量算出部５０３に供給する。位相回転部５０１では、回転量生成部５０２から回転量が供給されると、変換部２０１から供給された劣化信号位相スペクトル２２０を、供給された回転量だけ回転（シフト）させ、強調信号位相スペクトル２４０として逆変換部２０４へ供給する。

補正量算出部５０３では、回転量生成部５０２から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部５０４に供給する。

回転量生成部５０２は、例えば乱数によって回転量を生成する。乱数により、劣化信号位相スペクトルを各周波数で回転させると、劣化信号位相スペクトル２２０の形状が変化する。この形状の変化により、衝撃音などの信号急変部の特徴を弱めることができる。

乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがあるが、まず、一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生させることができる。例えば、線形合同法で発生させた一様乱数は、０〜（２^Ｍ）−１の範囲に一様に分布する。ここで、Ｍは任意の整数であり、^はべき乗を表している。位相の回転量φは、０〜２πの範囲に分布させる必要がある。そこで、発生させた一様乱数を変換する。変換は、以下の式（８）で行う。ここで、Ｒは一様乱数であり、Ｒmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)-1となる。

計算の簡単化のために、Ｒの値をそのまま回転量とすることもできる。回転量であるので２πはちょうど一回転を表す。位相を２π回転させた場合は回転させていない場合と同一である。よって、２π＋αという回転量は、回転量がαの場合と同じになる。ここでは、線形合同法により一様乱数を発生させた場合を説明したが、それ以外の方法で一様乱数を発生させた場合でも、式（８）により回転量φを求めればよい。急変判定部２０９の判定結果に応じて、いつどのくらい乱数化を行なうのかを決定してもよい。

位相回転部５０１は、回転量生成部５０２から回転量を受け取り、劣化信号位相スペクトルを回転させる。もし、劣化信号位相スペクトルが角度で表現されている場合には、その角度に回転量φの値を加算することで回転させることができる。劣化信号位相スペクトルが複素数の正規ベクトルで表現されている場合には、回転量φの正規ベクトルを求め、劣化信号位相スペクトルに乗算することで回転させることができる。

回転量φの正規ベクトルは、式（９）で求められる。ここで、Φは回転ベクトルであり、jはsqrt(-1)を示す。なお、sqrtは二乗根を表している。

補正量算出部５０３による、補正係数算出方法について説明する。まず、位相の回転により出力レベルの低下が生じることを、図６および図７を用いて説明する。図６および図７は、劣化信号が図２に示すブロック図で処理された場合の信号を示している。図６と図７の違いは位相回転の有無である。図６は位相回転を行わない場合の信号を、図７は位相回転をフレーム３から行った場合の信号を示している。

まず、位相を回転しない場合の信号について図６を用いて説明する。図６の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部３０１においてフレーム分割される。点線で区切られた、上から２番目の信号が、フレーム分割後の信号である。ここでは、連続した４フレーム分の信号を図示した。また、フレームのオーバラップ率は５０％としている。

フレームに分割された信号は窓掛け処理部３０２によって窓掛けが行われる。点線で区切られた、上から３番目の信号が窓掛け処理後の信号である。図６では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。

次に、フーリエ変換部３０３によって、周波数領域の信号に変換されるが、図６では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部２０４の逆フーリエ変換部４０１により、時間領域へ変換された信号を図示している。点線で区切られた、上から４番目の信号が位相回転後の信号である。ただし、図６では位相回転を行っていないため、窓掛け処理後の信号から変化していない。

逆変換部２０４の逆フーリエ変換部４０１から出力された強調信号は、窓掛け処理を再度実施される。図６では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部４０３において合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバラップ率が５０％であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図６のように入力信号と出力信号は一致する。

一方、位相を回転する場合の信号について図７を用いて説明する。図７に示したのは位相回転をフレーム３から実施した場合の信号である。最上部に描かれているのは、図６と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図６と同様である。

図７では、フレーム３から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム３および４の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理し、フレーム合成する。このとき、フレーム２とフレーム３が重なるiiの区間で、フレーム２とフレーム３の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図７のiiの区間で出力信号レベルが低下する。

この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。

図８に、フレーム分割および窓掛け処理後の連続した２フレームの劣化信号を、x1[n]およびx2[m]として示す。なお、オーバラップ率は50%としている。ここで、nはx1の離散時間を、mはx2の離散時間を表しており、オーバラップ率が50%の場合には、以下の式（１０）が成立する。

また、x1とx2の関係は、以下の式（１１）のようになる。

まず、時間領域信号から周波数領域信号への変換および逆変換の式を示す。周波数領域信号X[k]は、時間領域信号x[n]のフーリエ変換によって、以下の式（１２）のように表現される。ここで、ｋは離散周波数を表し、Ｌはフレーム長である。

また、周波数領域信号X[k]を逆変換により、時間領域信号x[n]に戻すと、以下の式（１３）のように表現される。

これに基づいて、時間領域信号x1[n],x2[m]を、周波数領域信号X1[k]、X2[k] に変換すると、以下の式（１４）、式（１５）のように表現される。

周波数領域信号X1[k],X2[k]を、逆変換によってそれぞれ時間領域信号x1[n],x2[m]に戻すと、式（１３）より、以下の式（１６）、式（１７）のように表現される。

逆変換部は、フーリエ変換により周波数領域信号を時間領域信号に変換する。その後、フレーム合成部により、前フレームと現フレームの強調信号をオーバラップ加算する。例えば、図示した例のオーバラップ率５０％では、離散時間m=L/2〜L-1の区間で隣接フレームの加算が行われる。この加算区間m=L/2〜L-1を考える。

時間領域の加算に、式（１６）および式(１７)を代入すると、以下の式（１８）のように表現される。

さらに、式（１８）中の周波数領域信号X1[k],X2[k]に式（１４），式（１５）を代入すると、以下の式（１９）のように表現される。

さらに、式（１９）を展開すると、以下の式（２０）のように表現される。

ここで、式（２０）の各項に含まれる総和演算を考える。任意の整数gを導入し、以下の式（２１）が成立する。

デルタ関数δ[g]のフーリエ逆変換式は、式（２２）で示される。

ここで、デルタ関数δ[g]は、以下の式（２３）で示される。

式（２２）より、式（２１）は、以下の式（２４）に変形できる。

式（２４）の関係から、式（２０）は、以下の式（２５）で表わされる。

よって、式（２０）は、以下の式（２６）となる。

さて、ここで周波数領域信号X2[k]に対し、位相回転を行った場合を考える。このときの時間領域信号は、図９のようになる。

X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式（２７）となる。

これを、式（１８）に代入すると、以下の式（２８）が成立する。

これを展開すると、以下の式（２９）が成立する。

ここで、オーバラップ率５０％と仮定し、オーバラップ区間のn=L/2〜L-1について考える。オーバラップ区間では、式（１１）より、以下の式（３０）のように展開できる。

ここで、それぞれの項にある括弧内の

の項は、ベクトル合成であるから、特定の周波数ｋに注目すると、図１０のように描ける。もし、位相回転が行われていないとき、つまりφ[k]=0の場合は、図１１のようになる。

式（３１）の絶対値を求めると、以下の式（３２）となる。

よって、式（３１）の絶対値が最大になる条件は、φ[k]=０の場合であり、その値は２である。つまり、位相回転が行われると、出力信号の大きさが小さくなることがわかる。この出力信号レベルの低下量を補正するように、補正量算出部５０３において強調信号振幅スペクトルの振幅補正量を決定する。

ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。

まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図１１に示されるＳのようになり、そのベクトルの大きさ|Ｓ|は、以下の式（３３）で表わされる。

一方、一様乱数により位相回転を行う場合、連続するフレーム間位相差φは、-πから+πまでの範囲に一様に分布する。この連続するフレーム間で位相が異なる場合の合成ベクトルは、図１０に示されるベクトルS′のようになる。そのベクトルの大きさ|S′|は、以下の式（３４）で表わされる。

さて、ここで、期待値E(|S′|^2)を求めると、以下の式（３５）のようになる。

ここで、φが-πから+πまで一様分布することから、以下の式（３６）のようになる。

このため、|S'|^2の期待値は、以下の式（３７）で表わされる。

さて、位相の回転をしない場合の、期待値E(|S|^2)は、式（３３）より以下の式（３８）で表わされる。

式（３７）と式（３８）の比を取ると、以下の式（３９）が成立する。

つまり、位相を一様乱数で回転させる場合、出力信号のパワー平均値は入力と比較して、1/2だけ小さくなる。振幅補正部５０４では振幅値に対し補正を行うので、補正量算出部５０３は補正係数をsqrt(2)とし、振幅補正部５０４に伝達する。

以上、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数を一意に定めることができる。正規乱数を使う場合の補正係数の導出を以下に説明する。

正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けを行う必要がある。

具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)を重みづけする。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。

正規乱数による位相回転を行った場合の出力パワー期待値Ｅ(S"^2)は、一様乱数の出力パワー期待値である式（３５）に、重み付け関数f(φ)およびその積分値を導入し、以下の式（４０）のように表現できる。

重み関数f(φ)は、正規分布により表現できるので、以下の式（４１）が成立する。

ここで、σは分散をμは平均を表している。

例えば、平均値μ＝０，分散σ＝１の標準正規分布では、以下の式（４２）となるので、となるので、これを式（４０）に代入すると、式（４３）のようになる。

ここで、式（４３）の右辺、第２項を数値計算すると、式（４４）が成立するので、位相の回転をしない場合の、E(|S^2|)との比は、式（４５）で表わされる。

補正量算出部５０３は、位相を標準正規分布の正規乱数で回転させる場合、振幅補正部５０４に補正係数をsqrt(1/0.805)として、伝達する。位相回転はフレーム内の全ての周波数に対して行ってもよいが、信号の急変を検出した一部の周波数に対して行っても構わない。振幅補正は位相回転を行った周波数、つまり信号急変を検出した周波数に対して行う。よって、位相回転を行わない周波数の補正係数は、1.0とする。位相回転を行った周波数の補正係数のみ、上記で導出した値とする。

このように振幅制御部２０３では、位相制御部２０２から伝達された位相の回転量を用いて振幅補正係数を算出し、雑音抑圧部２０５から供給された強調信号振幅スペクトルに乗じ、逆変換部２０４に供給する。これにより、劣化信号位相スペクトルを回転させ、強調信号位相スペクトルを得た場合の出力レベル低下を解消することができる。

なお、算出した振幅補正量が無視できる（補正係数が1.0に近い）とき、補正量算出と振幅補正の演算量を削減したいときなど、必要と認めるときには、振幅補正自体を省略することも可能である。そのときには、位相回転部５０１における位相回転だけを実施する。

また、これまでは乱数を用いて位相を回転する例について説明したが、厳密な意味での乱数を用いない構成でも同様な効果を得ることができる。入力された劣化信号の位相特性に存在する特有のパターンをなくする、あるいは弱くすることが位相回転の目的であるので、その目的を達成することができる数列は何でも位相回転に利用することができる。例えば、フレーム長の半分（振幅およびパワースペクトルが独立な周波数成分の数）より周期が長く、一周期内で相関の小さい数列の利用は有効である。

《算出部および急変判定部の構成》
図１２は、急変判定部２０９の内部構成について説明するための図である。図１２に示すように、急変判定部２０９は、平行度算出部１２０６および平行度判定部１２０７を備える。

平行度算出部１２０６は、算出部２８１から提供された傾き１２４０と算出部２８３から提供された重み付き傾きの平均値１２５０とを、周波数ごとに比較してその傾きの類似度を算出する。つまり、周波数領域における位相成分信号の、「算出部２８３が算出した直線」に対する「算出部２８１が算出した直線」の平行度を各周波数で算出する。平行度判定部１２０７では、そのような平行度が一定値を越えていれば、信号の急変がその周波数に存在すると判定する。

ここで、周波数ごとではなく周波数帯域（サブバンド）またはフレームごとに判定すると、より大局的な判定によって、信号急変成分以外の位相成分による判定誤りを低減することができる。さらに、周波数帯域ごとまたはフレームごとの判定結果を用いて、周波数ごとの判定結果を修正してもよい。例えば、ある周波数帯域の判定結果が「信号急変が存在する」であるときに、その周波数帯域内の全周波数の判定結果を強制的に「信号急変が存在する」に設定することで、他の信号成分の妨害による判定誤りを低減することができる。その反対に、ある周波数帯域の判定結果が「信号急変が存在しない」であるときに、その周波数帯域内の全周波数の判定結果を強制的に「信号急変が存在しない」に設定することで、他の信号成分の妨害による判定誤りを低減することもできる。あるいは、前記帯域内の各周波数で、判定の容易さ（閾値）を「存在」と判定しやすい方向へ修正して、各周波数独自に判定を行うという構成自体は維持してもよい。周波数ごとまたは周波数帯域ごとに判定結果を求めると、周波数ごとまたは周波数帯域ごとに急変を抑圧することができ、より精度の高い信号急変の抑圧を行なうことが可能となる。

急変判定部２０９は判定結果１２３０として、信号急変あり（１）または信号急変無し（０）を出力する。ただし、平行度判定部１２０７が平行度と対応させた、０と１の間の値を急変の存在可能性として出力するときには、判定結果１２３０は急変の存在可能性を表す０と１の間の値となる。その場合、信号急変が含まれている尤もらしさ（急変の存在可能性）を得ることが可能となる。存在可能性は、例えば、次のようにして求めることができる。まず、逆正接関数(arctangent)を用いて、算出部２８１から提供された傾き１２４０と重み付き傾きの平均値１２５０を傾きに対応した角度に変換する。角度の範囲は、-90度から90度とする。これら２角度の差の絶対値が０に近いほど、信号急変の存在可能性が高い。また、２角度の差の絶対値は、180度がその最大値となる。そこで、正の値を閾値として定める。２角度の差が閾値を超えるとき、信号急変の存在可能性を０とする。また、角度の差が０になるとき、存在可能性を１とする。存在可能性の一般値は、角度の差の関数として定義する。このような関数の最も簡単なものは、直線である。存在可能性として、２角度の差に比例した値が定められる。直線の傾きとｙ切片(前記２角度の差が０のときの関数値)は、角度の差が０および１に等しいときの境界条件を満足するように定める。関数としては、任意の線形または非線形関数や多項式などを用いてもよい。

図１３は、位相およびその変化量をグラフに示したものである。周波数領域において、周波数軸に沿って、グラフ１３０１のように位相が変化する場合、その位相変化量は、周波数領域において、周波数軸に沿って、グラフ１３０２に示すように変化する。

一方、グラフ１３０１上の点の回帰直線として、周波数領域で直線１３０３として示される位相を算出できる。これは、グラフ１３０１上の各点における傾きを平均化して、得られた平均値を傾きとして有する直線を直線１３０３とすることに相当する。

本実施形態では、位相成分信号１３０１と直線１３０３とが平行になる部分がどの程度あるかに応じて、信号急変の存在を判定する。

位相の傾きを縦軸にとり、周波数を横軸にとると、直線１３０３の傾きに近似する範囲は、範囲１３０４で示される。したがって、範囲１３０４とグラフ１３０２との重なる部分１３０５が所定の閾値よりも大きい場合に、急変判定部２０９は、信号の急変が存在すると判定する。

図１４は、本実施形態にかかる雑音抑圧装置２００をソフトウェアを用いて実現する場合のハードウェア構成について説明する図である。

雑音抑圧装置２００は、プロセッサ１４１０、ＲＯＭ(Read Only Memory)１４２０、ＲＡＭ(Random Access Memory)１４４０、ストレージ１４５０、入出力インタフェース１４６０、操作部１４６１、入力部１４６２、および出力部１４６３を備えている。雑音抑圧装置２００は、カメラ１４６４を備えていてもよい。プロセッサ１４１０は中央処理部であって、様々なプログラムを実行することにより雑音抑圧装置２００全体を制御する。

ＲＯＭ１４２０は、プロセッサ１４１０が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。ＲＡＭ１４４０は、不図示のプログラムロード領域の他に、入力信号２１０、位相成分信号２２０、振幅成分信号２３０、強調信号２６０を記憶する領域を有している。さらに、ＲＡＭ１４４０は、判定結果１２３０および位相の傾き１２４０、１２５０等を記憶する領域を有している。

また、ストレージ１４５０は、雑音抑圧プログラム１４５１を格納している。雑音抑圧プログラム１４５１は、変換モジュール、位相制御モジュール、振幅制御モジュール、逆変換モジュール、雑音抑圧モジュール、位相傾き算出モジュール、および急変判定モジュールを含んでいる。雑音抑圧プログラム１４５１に含まれる各モジュールをプロセッサ１４１０が実行することにより、図２の変換部２０１、位相制御部２０２、振幅制御部２０３、逆変換部２０４、雑音抑圧部２０５、算出部２８１、２８３、重み付け部２８５、急変判定部２０９の各機能を実現できる。なお、ストレージ１４５０はノイズデータベースを格納してもよい。

プロセッサ１４１０が実行した雑音抑圧プログラム１４５１に関する出力である強調信号は、入出力インタフェース１４６０を介して出力部１４６３から出力される。これにより、例えば、入力部１４６２から入力した操作部１４６１の操作音などを抑圧することができる。また、入力部１４６２から入力した入力信号に信号急変が含まれたことを検出してカメラ１４６４による撮影を開始するなどといった適用法も可能である。

図１５Ａは、上記雑音抑圧プログラム１４５１による信号急変判定処理の流れを説明するためのフローチャートである。ステップＳ１５０１では、算出部２８１において、周波数領域での位相の傾き算出処理を実行する。ステップＳ１５０３では、重み付け部２８５において、周波数領域での位相の傾きを振幅で重み付けする重み付け処理を実行する。次に、ステップＳ１５０５では、算出部２８３において、重み付けられた周波数領域での位相の傾きの平均値算出処理を実行する。

次にステップＳ１５０７において、算出した傾きを周波数ごとに比較する。ステップＳ１５０９において、傾きの差分絶対値が所定の閾値Ｎ以下か否かを判定し、Ｎ以下であれば、ステップＳ１５１１に進み、その周波数ｋについて、フラグを立てる（Ｉ（ｋ）＝１とする）。一方、Ｎ以下でない場合、ステップＳ１５１４においてＩ（ｋ）＝０とする。ステップＳ１５１５ではｋ＝Ｆ（Ｆはフレーム全体の周波数成分数）を判定し、ｋ＝Ｆでなければ、ステップＳ１５１７に進み、ｋ＝ｋ＋１としてステップＳ１５０７に戻り、フレーム全体にわたって周波数ごとに傾き比較を行なう。最終的には、ステップＳ１５１９において、Ｉ（ｋ）＝１となったｋの周波数で信号の急変ありと判定し、判定結果を、雑音抑圧部２０５および位相制御部２０２に供給する。なお、ステップＳ１５１９に変えて、フレーム内でＩ（ｋ）を積算し、Ｉ（ｋ）の積算値が所定の閾値を超えた場合に、急変判定部２０９は信号の急変を含むフレームと判定してもよい。また、この際、急変判定結果を次の周波数帯域にハングオーバして積算してもよい。

また、ハングオーバの作用として、続くフレームにおける閾値Ｎを小さく設定することができる。このように続くフレームの閾値を設定することによって、信号急変(衝撃音)の検出を容易にし、検出漏れを低減することができる。

図１５Ｂは、算出部２８１が行なう傾き算出処理の流れを説明するためのフローチャートである。ステップＳ１５５１で信号を入力するとステップＳ１５５３に進み、フレーム分割、窓処理を経てフーリエ変換により、周波数領域での位相成分信号を抽出する。次にステップＳ１５５５で、周波数のステップｋを１に設定すると、ステップＳ１５５７では、位相Ｐ（ｋ）を微分して傾きΔＰ（ｋ）を算出し、ステップＳ１５５９において、その傾きをバッファリングする。ステップＳ１５６１では、ｋ＝Ｆ（Ｆはフレーム全体の周波数成分数）を判定し、ｋ＝Ｆでなければ、ステップＳ１５６３に進み、ｋ＝ｋ＋１としてステップＳ１５５７に戻り、フレーム全体にわたって周波数ごとに傾き算出を行なう。

図１５Ｃは、算出部２８３が行なう重み付られた傾きの平均値算出処理の流れを説明するためのフローチャートである。まず、ステップＳ１５２１で重み付られた位相の傾きを入力すると、ステップＳ１５３１において、重み付られた位相の傾きの平均値を計算し、ステップＳ１５３３で位相の傾きと重み付られた位相の傾きの平均値をバッファリングする。

以上の処理により、信号の急変をより正確に検出することができ、適宜、その急変部を適切に抑圧することが可能となる。なお、本実施形態では位相の傾きを微分値で求めたが、単位ベクトルの回転量など別の指標を求めて、判定に用いてもよい。

［第３実施形態］
次に本発明の第３実施形態に係る雑音抑圧装置１６００について、図１６を用いて説明する。図１６は、本実施形態に係る雑音抑圧装置１６００の機能構成を説明するための図である。本実施形態に係る雑音抑圧装置１６００は、上記第２実施形態と比べると、振幅平坦度算出部１６０１を追加的に備えている点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

振幅平坦度算出部１６０１は、周波数軸に沿った振幅変化を算出して、急変判定部１６０９に供給する。隣接する周波数間で振幅の変化が小さい周波数が信号急変を表す。振幅変化は、帯域ごと、あるいは全周波数のいずれかに対して、一つの平坦度を求めてもよい。具体的には、以下の式（４６）のように、平坦度を表わすＦＭ(Flatness Measure)を求める。ｘ（ｎ）は周波数ｎにおける振幅またはパワースペクトル、Ｎは平坦度算出区間に含まれる周波数成分の数である。

ＦＭは０．０から１．０の値をとる。完全に平坦な場合、ＦＭは１．０である。平坦度については、非特許文献３に開示がある。

平坦度はまた、別の指標を用いて表すこともできる。例えば、帯域ごと、あるいは全周波数のいずれかに対してｘ（ｎ）の平均を求め、各周波数成分ｎにおけるｘ（ｎ）とその平均値との差分二乗値総和を帯域ごと、あるいは全周波数の平坦度とすることができる。

全周波数の代わりに、単一あるいは複数の周波数帯域において前記差分二乗値総和を一つ求め、これを平坦度とすることもできる。このようにして求めた平坦度は、完全に平坦な場合に０．０、平坦度が低下するに従って大きな値をとる。

別の平坦度の指標として、滑らかさを用いてもよい。滑らかさは、周波数軸に沿った隣接サンプル間の差分絶対値総和で表現することができる。凹凸の多い（滑らかでない）波形で滑らかさは大きな値を、少ない（滑らかな）波形で小さな値をとる。この指標は、全変動量(TV: Total Variation)として知られている。

これまで、平坦度として周波数軸に沿った平坦度を用いてきたが、時間軸に沿った平坦度を利用することもできる。信号急変部では急激に振幅およびパワーが増加するので、この性質を用いると、時間軸に沿った平坦度が低いときに、信号急変が存在すると判定することができる。具体的には、現フレームと直前フレームの振幅またはパワーの差が一定値以上となるときに、平坦度が低い、すなわち信号急変が存在すると判定する。また、数フレーム過去のフレームから現在のフレームまでの複数フレームに対して隣接フレーム間の振幅またはパワーの差を求め、これらを線形または非線形結合した結果を平坦度として定義することもできる。過去のフレームの情報を用いることで、低域成分を含むなまった信号急変部を検出しやすくなり、その抑圧性能が向上する。なお、隣接フレームの振幅またはパワー差を計算する際には、これを周波数成分ごと、帯域ごと、あるいは全周波数のいずれかに対して計算してもよい。さらに、単一または複数の帯域に対して前記振幅またはパワー差を計算することもできる。例えば、単一の帯域、特に高周波域で前記振幅またはパワー差を計算することによって、音声やその他の信号の影響を低減することができ、より正確に信号急変部を検出することが可能となる。

これまで説明した２つの平坦度、すなわち周波数軸に沿った平坦度と時間軸に沿った平坦度は、それぞれを単独で用いることもできるし、両方を組み合わせて用いることもできる。組合せの例としては、２つの平坦度の線形または非線形結合に基づく信号急変部の検出や、それぞれの平坦度に基づいた検出結果の組合せなどがある。周波数方向の平坦度は大きいときに、時間方向の平坦度は小さいときに信号急変の検出と判定するので、組合せの際にどちらかを逆数にしてから組み合わせるなどの工夫が必要となる。

振幅平坦度算出部１６０１の本質的な機能は、振幅の情報を用いて、信号急変の存在可能性を求めることであるから、その他の方法で代替してもよい。振幅情報を用いて信号急変を検出する技術は、非特許文献６、非特許文献７、非特許文献８などに開示されている。

急変判定部１６０９は、傾きの類似度（平行度）と振幅平坦度の２つの指標を考慮して、信号の急変を判定する。振幅が周波数軸に沿って平坦である（バラツキが小さい）とき、信号急変部である可能性が高いと考えられるからである。これは、信号急変がパルス性（短時間に振幅が増加して、減少する）であることと、インパルスのフーリエ変換が白色信号（全周波数で振幅およびパワーが等しい）となることから自明である。判定の方法としては例えば以下のいずれかを選択することができる。

（１）平行度と振幅平坦度が共にそれぞれの条件を満たす場合（例えば傾きの差分値がＮ＝０．１以下で、振幅平坦度ＦＭがМ＝０．８以上の場合）、信号の急変があると判定
（２）平行度と振幅平坦度を単独で用いたときの判定結果の論理和。信号急変の存在可能性を算出するときは、平行度による存在可能性と振幅平坦度による存在可能性のうち、大きい方（または小さい方）に基づく判定
（３）平行度と振幅平坦度の両方の平均が条件を満たす場合（例えば傾きの差分値ＰＸと、振幅平坦度ＦＭと１．０との差分値ＱＸ＝（１．０−ＦＭ）との平均ＡＶ１＝（ＰＸ＋ＱＸ）／２が０．１以下）に、信号の急変があると判定
（４）傾きの差分値と振幅平坦度とに対して重み付けを行ないつつ両方を合わせた複合的な条件を満たす場合（例えば傾きの差分値ＰＸと、振幅平坦度ＦＭと１．０との差分値ＱＸ＝（１．０−ＦＭ）との重み付け平均ＡＶ２＝（０．８×ＰＸ＋０．２×ＱＸ）が０．１以下）に、信号の急変があると判定
（５）傾きの差分値と振幅平坦度とを、線形または非線形関数を用いて組み合わせ、組み合わせた結果が一定値より大きいときに信号の急変があると判定。時間方向の振幅平坦度が含まれるときには、その逆数を代わりに用いる。
（６）傾きの差分値と振幅平坦度との中でいずれか理想値により近い方（差分値は小さい方、平坦度は大きい方）のみを用いて、その理想値により近い方が条件を満たす場合に信号の急変があると判定。時間方向の振幅平坦度が含まれるときには、その逆数を代わりに用いる。
（７）事前に検出しようとする急変信号の振幅またはパワースペクトルに関する情報が得られて、振幅またはパワースペクトルが平坦であれば、傾きの差分値の重みを小さくする。
（８）事前に検出しようとする急変信号の振幅またはパワースペクトルに関する情報が得られて、振幅またはパワースペクトルの最小値よりも入力された劣化信号の振幅またはパワースペクトルが小さいときは、信号急変を検出するための閾値を一時的に大きく変更して、検出されにくくする。

特定の信号を処理する場合、例えばノイズが小さくてインパルスに近い衝撃音を検出・抑圧する場合、振幅またはパワーに関する情報の方が位相情報よりも信頼できるときがある。例えば、静かな環境でピストルの発砲音を検出する際には、振幅のみを用いて検出してもよい。一方、ノイズの振幅またはパワーが大きく変化する場合、例えば、空港の警備での発砲音の検出の場合、静かな(ノイズが小さい)状況と、ノイズが大きい状況とで、振幅と位相の重み付けを変えることが効果的である。この場合、振幅と位相の重み付けを、ノイズの有無や時間帯に応じて変化させてもよい。例えば、管制塔からフライトスケジュールの最新情報を入手することができれば、飛行機の離着陸時刻が分かるため、飛行機が来るタイミング（ノイズが多いタイミング）では位相の重み付けを大きくして発砲音の検出に用いることができる。発砲音（検出対象の衝撃音）以外の信号が混在するときには、位相情報を用いた衝撃音の検出が振幅を用いた検出よりも効果的だからである。

一方、ノイズが小さい状況では、入力された劣化信号の周波数領域ベクトルの絶対値、つまり振幅値を重視して判定する方が効果的に衝撃音を検出できる。もちろんここでも振スペクトルの代わりにパワースペクトルの値を用いてもよい。また、信号の種類によって、衝撃音の振幅が平坦でない場合がある。その場合は、位相平坦度の重みを大きくして検出を行なうことにより高精度で信号の急変を検出できる。さらに、衝撃音の振幅またはパワースペクトルに関する情報が事前に得られるときには、得られた情報を用いて振幅が平坦なときと同じ結果が得られるように、振幅平坦度の計算結果を補正することもできる。具体的には、振幅スペクトル２３０を衝撃音の振幅またはパワースペクトル形状の逆数を各周波数成分で乗じた後に、振幅平坦度を算出する。

以上説明したとおり本実施形態によれば、振幅平坦度を併せて用いて信号急変部を検出することができる。これにより、信号急変（衝撃音）をより正確に検出することができ、適宜、その信号急変（衝撃音）を適切に抑圧することが可能となる。

［第４実施形態］
なお、上記実施形態では、信号急変部を抑圧することを目的とした雑音抑圧装置に信号急変検出方法を適用した場合について説明したが、本発明はこれに限定されるものではない。衝撃音（急激に立ち上がってすぐにたち下がる信号）の検出を目的とした様々な装置、システムおよび状況で利用することができる。また、信号が急激に立ち上がって（またはたち下がって）そのままとなる場合であっても、急変部として検出できる。

例えば、現在のオーディオ符号化方式（例えばＭＰＥＧＡＡＣの符号化部）において、いわゆるアタックと呼ばれる信号急変部では、通常とは異なった情報圧縮方式が採用されているが、その際の信号急変部の検出にも適用することができる。信号急変部では、分析窓長を変更して、プリエコーと呼ばれる先行雑音の抑圧を行うので、検出が必要となる。振幅やエントロピーの変化などを用いて検出する方法に比べて精度良く急変を検出し、効果的に情報圧縮を行なうことができる。

また、図１７に示すように車両１７００にマイク１７０１と算出部２８１、２８３と重み付け部２８５と急変判定部２０９と映像記録部１７０２とを搭載する適用例も考えられる。映像記録部１７０２が衝撃音の検出をトリガーにしてカメラによる撮影画像の上書き保存禁止を行なえば事故状況の記録を残すことができる。その際に、衝撃音検出から一定時間の遅延の後に、上書き保存禁止を行ってもよい。衝撃そのものをトリガーにした場合と異なり、衝撃が小さい場合や、他の車両が事故にあった場合にも事故状況の自動記録を行なえるという利点がある。

また、図１８に示すように、心電計１８００に算出部２８１、２８３と重み付け部２８５と急変判定部２０９とアラーム部１８０１とを接続する適用例も考える。心電図の異常心拍の検出をより正確かつ効果的に行なうことができる。特に雑音の多い場合に有効である。同様に、胎児のエコーのモニターにも適用できる。雑音による妨害で正しく心音がとれない場合があるが、そのようなときにも本技術は有効である。すなわち生体信号の急変検出に広く適用できる。

同様に図１９に示すように、ハードディスクドライブ１９００の異常検知のために、本発明の衝撃音検出を利用してもよいし、図２０に示すように、例えば空港など騒音が大きい状況での発砲音や爆発音の検出に、本願発明を利用してもよい。

［他の実施形態］
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

［実施形態の他の表現］
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
入力信号を、周波数領域における位相成分信号に変換する変換手段と、
前記位相成分信号の複数の周波数において、周波数に対する位相の傾きを第１位相傾きとして算出する第１算出手段と、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出する重み付け手段と、
前記重み付き第１位相傾きに基づいて第２位相傾きを算出する第２算出手段と、
前記第１位相傾きおよび前記第２位相傾きに基づいて前記入力信号の急変に関する存在可能性を判定する判定手段と、
を備えた信号処理装置。
（付記２）
前記判定手段は、
前記第１位相傾きと前記第２位相傾きとの類似度に基づいて、前記入力信号の急変に関する存在可能性を判定する付記１に記載の信号処理装置。
（付記３）
前記第２算出手段は、
前記重み付き第１位相傾きの平均値を求めて第２位相傾きとする付記１または２に記載の信号処理装置。
（付記４）
前記第２算出手段は、音声が支配的ではない周波数における前記重み付き第１位相傾きの平均値を求めて第２位相傾きとする付記１または２に記載の信号処理装置。
（付記５）
前記第２算出手段は、音声が支配的ではなく振幅またはパワーが背景雑音より大きい周波数における前記重み付き第１位相傾きの平均値を求めて第２位相傾きとする付記１または２に記載の信号処理装置。
（付記６）
前記変換手段はさらに前記入力信号の周波数領域における振幅成分信号を算出し、前記振幅成分信号の平坦度を算出する算出手段をさらに備え、
前記判定手段は、さらに前記振幅成分信号の平坦度を考慮して前記入力信号の急変の存在可能性を判定する付記１乃至５のいずれか１項に記載の信号処理装置。
（付記７）
前記判定手段は、前記第１位相傾きと前記第２位相傾きとの類似度、および前記振幅成分信号の平坦度を、それぞれ重み付けして得た値に基づいて前記信号の急変の存在可能性の判定を行なう付記６に記載の信号処理装置。
（付記８）
前記判定手段で求めた前記急変の存在可能性に対応した程度で、振幅の抑圧を行なう振幅制御手段をさらに備えた付記１乃至７のいずれか１項に記載の信号処理装置。
（付記９）
入力信号を、周波数領域における位相成分信号に変換し、
前記位相成分信号の複数の周波数において、周波数に対する第１位相傾きを算出し、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出し、
前記重み付き第１位相傾きを用いて第２位相傾きを算出し、
前記第１位相傾きと前記第２位相傾きとに基づいて前記入力信号の急変の存在可能性を判定する、
各ステップを含む信号処理方法。
（付記１０）
入力信号を、周波数領域における位相成分信号に変換し、
前記位相成分信号の複数の周波数において、周波数に対する第１位相傾きを算出し、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出し、
前記重み付き第１位相傾きを用いて第２位相傾きを算出し、
前記第１位相傾きと前記第２位相傾きとに基づいて前記入力信号の急変の存在可能性を判定する、
各ステップをコンピュータに実行させる信号処理プログラム。

この出願は、２０１３年８月３０日に出願された日本出願特願２０１３−１８０７３５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

入力信号を、周波数領域における位相成分信号に変換する変換手段と、
前記位相成分信号の複数の周波数において、周波数に対する位相の傾きを第１位相傾きとして算出する第１算出手段と、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出する重み付け手段と、
前記重み付き第１位相傾きに基づいて第２位相傾きを算出する第２算出手段と、
前記複数の周波数において、前記第１位相傾きと前記第２位相傾きとの類似度に基づいて前記入力信号の急変に関する存在可能性を判定する判定手段と、
を備えた信号処理装置。
前記第２算出手段は、
前記複数の周波数における前記重み付き第１位相傾きの平均値を求めて第２位相傾きとする請求項１に記載の信号処理装置。
前記第２算出手段は、音声が支配的ではない周波数における前記重み付き第１位相傾きの平均値を求めて第２位相傾きとする請求項１に記載の信号処理装置。
前記第２算出手段は、音声が支配的ではなく振幅またはパワーが背景雑音より大きい周波数における前記重み付き第１位相傾きの平均値を求めて第２位相傾きとする請求項１に記載の信号処理装置。
前記変換手段はさらに前記入力信号の周波数領域における振幅成分信号を算出し、前記振幅成分信号の平坦度を算出する算出手段をさらに備え、
前記判定手段は、さらに前記振幅成分信号の平坦度を考慮して前記入力信号の急変の存在可能性を判定する請求項１乃至４のいずれか１項に記載の信号処理装置。
前記判定手段は、前記第１位相傾きと前記第２位相傾きとの類似度、および前記振幅成分信号の平坦度を、それぞれ重み付けして得た値に基づいて前記入力信号の急変の存在可能性の判定を行なう請求項５に記載の信号処理装置。
前記判定手段で求めた前記急変の存在可能性に対応した程度で、振幅の抑圧を行なう振幅制御手段をさらに備えた請求項１乃至６のいずれか１項に記載の信号処理装置。
入力信号を、周波数領域における位相成分信号に変換し、前記位相成分信号の複数の周波数において、周波数に対する第１位相傾きを算出し、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出し、
前記重み付き第１位相傾きを用いて第２位相傾きを算出し、
前記複数の周波数において、前記第１位相傾きと前記第２位相傾きとの類似度に基づいて前記入力信号の急変の存在可能性を判定する、各ステップを含む信号処理方法。
入力信号を、周波数領域における位相成分信号に変換し、前記位相成分信号の複数の周波数において、周波数に対する第１位相傾きを算出し、
前記複数の周波数における前記第１位相傾きを該周波数の振幅またはパワーで重み付けして重み付き第１位相傾きを算出し、
前記重み付き第１位相傾きを用いて第２位相傾きを算出し、
前記複数の周波数において、前記第１位相傾きと前記第２位相傾きとの類似度に基づいて前記入力信号の急変の存在可能性を判定する、各ステップをコンピュータに実行させる信号処理プログラム。