JP5134477B2

JP5134477B2 - 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Info

Publication number: JP5134477B2
Application number: JP2008237642A
Authority: JP
Inventors: 健太郎石塚; 章子荒木; 達也河原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2013-01-30
Anticipated expiration: 2028-09-17
Also published as: JP2010072164A

Description

本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。

音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。

従来、目的信号の到来方向を既知として到来方向の信号を強調することで目的信号区間推定を行う手法（非特許文献１）、目的信号の到来方向を推定した後に到来方向からの信号の周波数スペクトルの情報を用いて目的信号の有無を推定する手法（非特許文献２）、音声強調により得られた目的信号を観測信号から差し引くことにより目的信号の存在区間を推定する手法（特許文献１）、パラメトリックな方法で求められた空間スペクトルのピークの有無で音声の有無を推定する手法（非特許文献３）、目的信号を抑圧して得られた雑音信号を用いて周波数スペクトル上で目的信号を強調する手法（非特許文献４）などがある。しかし、これらの方法で十分な精度を得るためには、目的信号の到来方向や音源数が既知であるか、事前に目的信号の到来方向の正確な推定が必要であったり、拡散性・方向性の雑音がない環境での収音が必要であったりする。また、これらの前提を必要としない手法として、雑音のコヒーレンス関数を観測信号のコヒーレンス関数から引くことで目的信号の有無を推定する手法（非特許文献５）、雑音のＣＳＰ（Cross-power Spectrum Phase）係数を観測信号のＣＳＰ係数から差し引くことで目的信号の有無を推定する手法（非特許文献６）がある。しかし、これらの周波数スペクトルの相互相関を用いる手法は、特に低周波数帯域において拡散性雑音の影響を十分に取り除くことができないという問題がある。

その他、あらゆる方向からあらゆる周波数帯域の音響信号が同時に到来するような環境（例えば、街頭、駅、空港のような日常環境）で信号の到達時間差を用いて十分な目的信号区間推定精度を得るための手法として、一定範囲の時間周波数領域で推定した信号の到達時間差がある一定の値に偏る度合いを利用する手法（非特許文献７）がある。しかし、この手法では、方向性の雑音が存在する場合に、それも目的信号として検出してしまうという問題点がある。
Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005. Potamitis, I. and Fishler, E., "Speech activity detection and enhancement of a moving speaker based on the wideband generalized likelihood ratio and microphone arrays," Journal of the Acoustical Society of Ametica, vol. 116, pp. 2406-2415, 2004. Asano, F., Yamamoto, K., Ogata, J.,Yamada, M., and Nakamura, M., "Detection and separation of speech events in meeting recordings using a microphone array," EURASIP Journal Audio, Speech, and Music Processing, vol. 2007, Article ID 27616, 2007. Takahashi, Y., Takatani, T., Saruwatari, H., and Shikano, K., "Blind spatial subtraction array with independent component analysis for hands-free speech recognition," Proceedings of IWAENC, 2006. Le Bouquin-Jeannes R., Azirani, A. A., and Faucon, G., " Enhancement of speech degraded by coherent and incoherent noise using a cross-spectral estimator," IEEE Transactions on Speech and Audio Processing, vol. 5, pp. 484-487, 1997. Denda, Y., Nishiura, T., and Yamashita, Y., "Robust talker direction estimation based on weighted CSP analysis and maximum likelihood estimation," IEICE Transactions on Information and Systems, vol. E89-D, pp. 1050-1057, 2006. Juan E. Rubio, Kentaro Ishizuka, Hiroshi Sawada, Shoko Araki, Tomohiro Nakatani, and Masakiyo Fujimoto, "Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates," Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 385-388, 2007. 特許第２９１３１０５号公報

以上のように従来の手法では、方向性の雑音や拡散性の雑音が含まれる環境であっても、信号の音源数や到来方向を事前に知ることなく、精度よく目的信号区間を推定することができなかった。

本発明はこのような点に鑑みてなされたものであり、方向性の雑音や拡散性の雑音が含まれる環境であっても、信号の音源数や到来方向を事前に知ることなく、精度よく目的信号区間を推定することが可能な技術を提供することを目的とする。

本発明では上記課題を解決するために、まず、信号抽出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出し、周波数領域変換部が、信号切出部で切り出された各フレームの信号を周波数領域に変換した周波数領域信号を各センサについて生成する。また、正規化部が、センサに含まれる特定の基準センサに対応する周波数領域信号を基準として、少なくとも当該基準センサ以外の何れかのセンサに対応する周波数領域信号を正規化し、センサで観測された信号の到来方向に対応する正規化信号値を各フレームについて生成する。そして、空間パワー分布推定部が、正規化信号値がとり得る全範囲を複数に分割した各区分を各到来方向区分とし、正規化信号値に対応するフレームの周波数領域信号の振幅の絶対値に対して単調増加する値を、当該正規化信号値が属する到来方向区分の当該フレームでの空間パワー分布値とし、雑音区間空間パワー分布推定部が、目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分の空間パワー分布値を用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値を各到来方向区分について生成する。その後、事後信号対雑音比推定部が、各到来方向区分の各フレームにおける空間パワー分布値と、各到来方向区分の雑音区間空間パワー分布値とを用い、当該空間パワー分布値と当該雑音区間空間パワー分布値との比である事後信号対雑音比を、到来方向区分ごとに各フレームについて生成する。そして、尤度比計算部が、事後信号対雑音比を少なくとも用い、到来方向区分ごとに、各フレームが雑音区間である尤度と各フレームが目的信号区間である尤度との比である尤度比又はその関数値を生成する。

ここで、事後信号対雑音比推定部によって生成される到来方向区分ごとの事後信号対雑音比は、各フレームにおける空間パワー分布値と、目的信号が存在しないと推定される雑音区間のフレームに対応する空間パワー分布値を用いて生成された雑音区間空間パワー分布値との比である。また、当該事後信号対雑音比は、到来方向区分ごとに生成される。つまり、各事後信号対雑音比は、各フレームにおける空間パワー分布値が、目的信号が存在しないと推定される雑音区間のフレームに対応する空間パワー分布値に対してどの程度変化したかを到来方向区分ごとに示すものとなる。その結果、当該事後信号対雑音比を少なくとも用いて生成される尤度比又はその関数値にも、この変化が反映される。すなわち、本発明では、雑音区間を基準とした空間パワー分布値の統計的性質の変化が反映される尤度比又はその関数値を、到来方向区分ごとに各フレームについて求める。方向性の雑音及び拡散性の雑音は、通常ほぼ一定の統計的性質を持ち、或る到来方向から目的信号が到来した場合、その統計的性質は変化する。本発明では、統計的性質の変化が反映される上記尤度比又はその関数値を各フレームについて算出するため、それを用いることで、方向性の雑音や拡散性の雑音が含まれる環境であっても精度よく目的信号区間を推定することができる。また、このような尤度比又はその関数値は、各到来方向区分について算出されるため、信号の音源数や到来方向を事前に知る必要はない。さらに、このような尤度比又はその関数値の算出に用いられる事後信号対雑音比を到来方向区分ごとに算出するため、到来方向区分ごとの統計量の変化を個別に捉えることができ、目的信号区間を制度よく推定できる。

また、本発明において、事後信号対雑音比を少なくとも用い、雑音区間空間パワー分布値と、空間パワー分布値の目的信号成分である目的信号空間パワー分布値との比である事前信号対雑音比を、到来方向区分ごとに各フレームについて生成する事前信号対雑音比推定部をさらに設け、尤度比計算部が、上記事後信号対雑音比と上記事前信号対雑音比とを用いて上記尤度比又はその関数値を生成することとしてもよい。これにより、より高い精度で尤度比又はその関数値を推定することが可能となる。

また、上記の尤度比を指標として各フレームが目的信号区間であるか否かを判定する場合、例えば、判定部が、尤度比又はその関数値をフレームごとに到来方向区分について平均し、その演算結果を指標として、各フレームが目的信号区間であるか否かを判定してもよい。この場合、突発的に生じたパワーの小さい方向性の雑音の影響を低減させ、目的信号区間の推定精度を向上させることができる。

また、本発明において好ましくは、正規化部は、周波数ビンとフレームとの組ごとに正規化信号値を生成し、空間パワー分布推定部は、特定の到来方向区分に属する正規化信号値の周波数ビン及びフレームに対してハイレベル値をとり、当該特定の到来方向区分に属しない正規化信号値の周波数ビン及びフレームに対してローレベル値をとる、当該特定の到来方向区分と周波数ビンとフレームとを変数とする関数である時間周波数マスクを生成し、周波数ビンとフレームとの組が同一である周波数領域信号と時間周波数マスクとの積に対して単調増加する値を用い、当該フレームと当該到来方向区分とに対応する空間パワー分布値を生成する。これにより、信号源数とセンサ数との大小関係にかかわらず、空間パワー分布値を正確に生成できる。

また、本発明において好ましくは、雑音区間空間パワー分布推定部は、複数の雑音区間のフレームでの各到来方向区分の空間パワー分布値を、到来方向区分ごとに当該雑音区間のフレームについて平均した値を、各到来方向区分についての雑音区間空間パワー分布値として生成する。これにより、妥当な雑音区間空間パワー分布値が得られるため、目的信号区間の推定精度が向上する。

また、事後信号対雑音比推定は、例えば、同一の到来方向区分に対応する空間パワー分布値と雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する事後信号対雑音比として生成し、事前信号対雑音比推定部は、事後信号対雑音比から１を減じた値を、当該事後信号対雑音比の到来方向区分及びフレームに対応する事前信号対雑音比として生成する。これにより、少ない演算量で事前信号対雑音比を算出できる。

また、事後信号対雑音比推定が、同一の到来方向区分に対応する空間パワー分布値と雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する事後信号対雑音比として生成し、事前信号対雑音比推定部が、到来方向区分ｒ及びフレームｉに対応する事後信号対雑音比をγ(i,r)とし、到来方向区分ｒ及びフレームｉに対応する事前信号対雑音比をξ(i,r)とし、到来方向区分ｒ及びフレームｉに対応する空間パワー分布値をP(i,r)とし、到来方向区分ｒ及びフレームｉに対応する雑音区間空間パワー分布値をλ^N(i,r)とし、max(・)を・の最大値を出力する関数とし、Γ(・)をガンマ関数とし、I₀(・)とI₁(・)をそれぞれ０次と１次の第１種修正ベッセル関数とし、ν(i-1,r)=ξ(i-1,r)・γ(i-1,r)/(1+ξ(i-1,r))とし、S^(i-1,r)={(ν(i-1,r))^1/2/γ(i-1,r)}・Γ(1.5)・exp(-ν(i-1,r)/2)・[(1+ν(i-1,r))・I₀(ν(i-1,r)/2)+ν(i-1,r)・I₁(ν(i-1,r)/2)]・(P(i-1,r))^1/2とし、βを０以上１以下の定数とした場合における、ξ(i-1,r)=β・|S^(i-1,r)|²/λ^N(i-1,r)+(1-β)・max(γ(i,r)-1,0)を到来方向区分r及びフレームiに対応する事前信号対雑音比として生成してもよい。これにより、定数βの値を適宜選択することで、環境に適した事前信号対雑音比を生成することができる。

また、尤度比計算部は、例えば、到来方向区分ｒ及びフレームｉに対応する事後信号対雑音比をγ(i,r)とし、到来方向区分ｒ及びフレームｉに対応する事前信号対雑音比をξ(i,r)とした場合における、Λ(i,r)={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))}を尤度比として生成する。

以上のように本発明では、方向性の雑音や拡散性の雑音が含まれる環境であっても、信号の音源数や到来方向を事前に知ることなく、精度よく目的信号区間を推定することが可能となる。

以下、本発明を実施するための最良の形態を図面を参照して説明する。
図１は、本形態の目的信号区間推定装置１０の全体構成を例示したブロック図である。また、図２（ａ）は、本形態の空間パワー分布推定部１４の詳細を例示するブロック図であり、図２（ｂ）は、本形態の判定部１９の詳細を例示するブロック図である。

＜構成＞
図１に例示するように、本形態の目的信号区間推定装置１０は、信号切出部１１と周波数領域変換部１２と正規化部１３と空間パワー分布推定部１４と雑音区間空間パワー分布推定部１５と事後信号対雑音比推定部１６と事前信号対雑音比推定部１７と尤度比計算部１８と判定部１９と制御部１０ａと記憶部１０ｂとを具備し、Ｓ（Ｓ≧２）個のセンサ２０−１〜Ｓで観測され、サンプリング部３０でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図２（ａ）に例示する空間パワー分布推定部１４は、時間周波数マスク生成部１４ａとマスク適用部１４ｂとを有し、図２（ｂ）に例示する判定部１９は、平均算出部１９ａと閾値比較部１９ｂとを有する。

なお、本形態の目的信号区間推定装置１０は、例えば、ＣＰＵ（central processing unit），ＲＡＭ（random access memory），ＲＯＭ（read only memory）等から構成される公知のコンピュータに所定のプログラムを実行させることによって構成されるものである。すなわち、信号切出部１１と周波数領域変換部１２と正規化部１３と空間パワー分布推定部１４と雑音区間空間パワー分布推定部１５と事後信号対雑音比推定部１６と事前信号対雑音比推定部１７と尤度比計算部１８と判定部１９と制御部１０ａは、それぞれ、例えば、ＣＰＵが所定のプログラムを実行して構築される処理部であり、記憶部１０ｂは、例えば、ハードディスクなどの補助記憶装置、ＲＡＭ、キャッシュメモリ若しくはレジスタ、又は、それらの少なくとも一部が結合して構成される記憶領域である。

＜処理＞
次に、本形態の目的信号区間推定方法について説明する。
本形態の目的信号区間推定方法では、複数のセンサ２０−１〜Ｓ（Ｓ≧２）で観測された各信号を時間周波数分析し、特定の基準センサを基準とした正規化信号値を求め、正規化信号値がとり得る全範囲を複数に分割した各区分である各到来方向区分におけるパワーの統計的性質の時間的変化に基づいて、目的信号の有無を検出して出力する。なお、本形態では、複数のセンサ２０−１〜Ｓとしてマイクロホンを利用し、それらで観測された各音響信号を用い、音声信号や音楽信号などの目的信号の有無を検出して出力する場合を例示する。また、以下では明記しないが、目的信号区間推定装置１０は、制御部１０ａの制御に基づいて各演算処理を実行する。また、本形態の場合、各演算処理の過程で得られたデータは記憶部１０ｂに逐次格納され、それ以降の各演算処理において読み出されて利用される。すなわち、本形態において、処理部Ａからデータが出力され、このデータが処理部Ｂに入力されるとは、処理部Ａから出力されたデータが記憶部１０ｂに格納され、処理部Ｂがこのデータを記憶部１０ｂから読み込むことを意味する。

図３は、本形態の目的信号区間推定方法を説明するためのフローチャートである。また、図４（ａ）は、ステップＳ５の詳細を例示するためのフローチャートであり、図４（ｂ）は、ステップＳ１０の詳細を例示するためのフローチャートである。以下、これらのフローチャートに沿って本形態の目的信号区間推定方法を説明していく。

まず、Ｓ（Ｓ≧２）個のセンサ２０−１〜Ｓでそれぞれ観測された各信号がサンプリング部３０に入力される。これらの信号には音声信号や音楽信号等目的信号の他に環境雑音信号も含まれる。サンプリング部３０は、各信号を所定（例えば16,000Hz）のサンプリング周波数ｆ_ｓでサンプリングし、これにより各センサ２０−１〜Ｓに対応する時間領域の信号x(1,t),...,x(S,t)を抽出する（ステップＳ１）。なお、tはt番目のサンプリング点を示す。

サンプリング部３０で抽出された各時間領域の信号x(1,t),...,x(S,t)は、目的信号区間推定装置１０の信号切出部１１に入力される。信号切出部１１は、入力された各信号x(1,t),...x(S,t)を所定の時間区間であるフレーム毎に切り出し、各センサ２０−１〜Ｓについての各フレームi（ｉはフレームインデックスを示す）の信号x’(1,i,n),...,x’(S,i,n)を抽出する（ステップＳ２）。なお、nはフレームiにおけるn番目のサンプル点を表す。具体的には、信号切出部１１は、例えば、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ所定の窓関数を例えば時間軸方向に16msずつ移動（シフト）させながら乗じ、これにより、例えば32msの時間長の信号x’(1,i,n),...,x’(S,i,n)を切り出す。より具体的には、例えば、サンプリング周波数が16,000Hzの場合、信号切出部１１は、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ例えば式（１）のハニング窓を２５６サンプル点（16,000Hz×16ms）ずつ移動（シフト）させながら乗じ、センサ２０−１〜Ｓ毎に、512サンプル点（16,000Hz×32ms）の離散信号を１フレーム分の信号として切り出す。ここで、Lは切り出される１フレーム分の信号のサンプル点数（フレーム長：上述の例ではL=512）を表す。

信号切出部１１は、以上のように切り出した各センサ２０−１〜Ｓについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を出力し、これらは周波数領域変換部１２に入力される。

周波数領域変換部１２では、各センサ２０−１〜Ｓについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を周波数領域に変換し、時間周波数ビン(i,k)毎の周波数領域信号（周波数領域スペクトル）X(1,i,k),...,X(S,i,k)を各センサ２０−１〜Ｓについて生成する（ステップＳ３）。離散フーリエ変換によってこの変換を行う場合、周波数領域変換部１２は、以下の式（２）のように周波数領域信号X(1,i,k),...,X(S,i,k)を算出する。

ここで、ｊは虚数単位を示し、ｓ（s∈{1,...,S}）は各センサ２０−１〜Ｓの番号を示す。また、ｋ（k=0,...,M-1）は周波数インデックスであり、サンプリング周波数ｆ_ｓをＭ等分した離散点を表す。Ｍはフレーム長Ｌ以上の自然数であり、例えば、M=512とする。周波数領域変換部１２は、以上のような変換によって得られた周波数領域信号（周波数スペクトル）X(1,i,k),...,X(S,i,k)を出力する。

周波数領域変換部１２から出力された周波数領域信号X(1,i,k),...,X(S,i,k)は、正規化部１３に入力される。正規化部１３は、特定の基準センサs_B∈{1,...,S}に対応する周波数領域信号X(s_B,i,k)を基準として、少なくとも当該基準センサs_B以外のセンサs(≠s_B)に対応する各周波数領域信号X(s,i,k)を正規化し、センサで観測された信号の到来方向に対応する正規化信号値Z(i,k)を各フレームi及び各周波数ビンkについて生成する（ステップＳ４）。以下に正規化部１３が生成する正規化信号値Z(i,k)の例を示す。

［正規化信号値Z(i,k)の例］
本形態では正規化信号値Z(i,k)の一例として、S=2とし、基準センサ２０−１に対応する周波数領域信号X(1,i,k)と、他方のセンサ２０−２に対応する周波数領域信号X(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値Z(i,k)とする（正規化信号値Z(i,k)の例１）。この例では、正規化部１３は、以下の式（３）（４）によって算出された信号到来方向推定値θ(i,k)を正規化信号値Z(i,k)を算出する。なお、νは音速（約340ｍ/秒）を示し、dはセンサ間距離（ｍ）を示し、fは周波数インデックスｋに対応する離散周波数f=f_s・k/Mを示し、arg(・)は・の位相（偏角）を示す。また、τ(i,k)は信号源から各センサ２０−１，２までの信号到達時間差を示し、θ(i,k)は信号到来方向推定値を示す。また、式（４）によって算出される信号到来方向θ(i,k)は、センサ２０−１，２を結ぶ線分の中点を通り、その線分と直交する方向を０radianとした角度（radian）である。なお、このように算出された正規化信号値Z(i,k)は、周波数成分ｆが正規化され、周波数依存性が排除された値となる。

また、前述の式（３）で算出された信号到達時間差τ(i,k)を正規化信号値Z(i,k)としてもよい（正規化信号値Z(i,k)の例２）。なお、このように算出された正規化信号値Z(i,k)も周波数成分ｆが正規化され、周波数依存性が排除された値となる。

また、周波数領域信号X(1,i,k)の位相に対する周波数領域信号X(1,i,k)の位相差arg(X(2,i,k)/X(1,i,k))を正規化信号値Z (i,k)としてもよいし（正規化信号値Z(i,k)の例３）、周波数領域信号X(1,i,k)の位相と周波数領域信号X(1,i,k)の位相との差arg(X(2,i,k))- arg (X(1,i,k))を正規化信号値Z(i,k)としてもよい（正規化信号値Z (i,k)の例４）。さらに、周波数領域信号X(1,i,k)の振幅に対する周波数領域信号X(1,i,k)の振幅の比｜X(2,i,k)｜/｜X(1,i,k)｜を正規化信号値Z(i,k)としてもよいし（正規化信号値Z (i,k)の例５）、周波数領域信号X(1,i,k)のパワーに対する周波数領域信号X(1,i,k)のパワーの比｜X(2,i,k)｜^２/｜X(1,i,k)｜^２を正規化信号値Z(i,k)としてもよい（正規化信号値Z(i,k)の例６）。

また、上記ではセンサの数が２つの場合を例示したが、センサの数が３以上の場合は、例えば以下のように、目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求め、それら２つの値を時間周波数ビン(i,k)に対する正規化信号値Z(i,k)としてもよい（正規化信号値Z(i,k)の例７）。

まず、各センサ２０−s（s=1,...,S）の空間中の座標ベクトルをｄ_ｓ＝［ｘ座標，ｙ座標，ｚ座標］とする。また、J（J∈(1,...,S)）番目のセンサ２０−Jを基準センサとし、基準センサ２０−Jと各センサ２０−sとの距離ベクトルDを以下の式（５）のように設定する。なお、[・]^Tはベクトル・の転置を示す。

D=[d₁-d_J, d₂-d_J,...,d_S-d_J]^T ...(5)
また、基準センサ２０−Jと各センサ２０−sとの信号到達時間差τ(s,i,k)を以下の式（６）で求め、それらを要素とした信号到達時間差ベクトルτ'(i,k)を以下の式（７）のように求める。

τ'(i,k)=[τ(1,i,k),τ(2,i,k),...,τ(S,i,k)]^T ...(7)
上述の式（５）〜（７）には以下の式（８）の関係が成り立ち、以下の式（８）から目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求める。なお、式（８）におけるD^-1はムーア・ペンローズ型一般化逆行列などの一般化逆行列である。また、目的信号の到来方位角とはｘ−ｙ平面上の目的信号の到来方向を意味し、目的信号の仰角とはｘ−ｚ平面上の目的信号の到来方向を意味する。また、ｙ軸線方向が０radianである。
ν・D^-1・τ'(i,k)=[cosθ(i,k) cosφ(i,k),sinθ(i,k)sinφ(i,k),sinφ(i,k)]^T
...(8)

また、上述の正規化信号値Z(i,k)の例１〜７で例示した正規化信号値Z(i,k)を組み合わせ、時間周波数ビン(i,k)毎に２以上の正規化信号値Z(i,k)を算出する構成であってもよい（正規化信号値Z (i,k)の例８）。例えば、位相差arg(X(2,i,k)/ X(1,i,k))と振幅の比｜X(2,i,k)｜/｜X(1,i,k)｜との組を時間周波数ビン(i,k)の正規化信号値Z (i,k)としてもよい。また、例えばS=3とし、位相差arg(X(2,i,k)/ X(1,i,k))と位相差arg(X(3,i,k)/ X(1,i,k))との組を時間周波数ビン(i,k)の正規化信号値Z(i,k)としてもよい。また、上述のように生成した値の写像を正規化信号値Z(i,k)としてもよい（［正規化信号値Z(i,k)の例］の説明終わり）。

以上のようにステップS４では、正規化部１３が上述のような正規化信号値Z(i,k)を生成し、出力する。

正規化部１３から出力された正規化信号値Z(i,k)と、周波数領域変換部１２から出力された周波数領域信号とは、空間パワー分布推定部１４に入力される。なお、空間パワー分布推定部１４に入力される周波数領域信号は何れかのセンサ２０に対応するものでよく、以下では周波数領域信号X(1,i,k)が空間パワー分布推定部１４に入力される例を示す。しかし、その他のセンサ２０に対応する周波数領域信号X(s,i,k)を用いてもよく、また、複数のセンサに対応する周波数領域信号を平均したものを用いてもよい。

空間パワー分布推定部１４は、これらを用い、正規化信号値Z(i,k)に対応するフレームiの周波数領域信号X(1,i,k)の振幅の絶対値に対して単調増加する値を、当該正規化信号値Z(i,k)が属する到来方向区分rの当該フレームiでの空間パワー分布値P(i,r)とし、出力する（ステップＳ５）。なお、到来方向区分rとは、正規化信号値Z(i,k)がとり得る全範囲を複数に分割した各区分を意味する。例えば、正規化信号値Z(i,k)がとり得る全範囲を均等にＲ個の区分に分割し、各区分を到来方向区分r（r∈{1,...,R}）としてもよいし、正規化信号値Z(i,k)がとり得る全範囲を不均等にＲ個の区分に分割し、各区分を到来方向区分r（r∈{1,...,R}）としてもよい。なお、ｒは各到来方向区分に対応するインデックスである。また、周波数領域信号X(1,i,k)の振幅の絶対値|X(1,i,k)|に対して単調増加する値としては、例えば、振幅の絶対値|X(1,i,k)|やパワー|X(1,i,k)|²を例示できる。以下にステップＳ５の詳細を例示する。

［ステップＳ５の例］
図４（ａ）に示した例の場合、まず、空間パワー分布推定部１４の時間周波数マスク生成部１４ａ（図２（ａ））に各正規化信号値Z(i,k)が入力される。時間周波数マスク生成部１４ａは、各正規化信号値Z(i,k)を用い、特定の到来方向区分rに属する正規化信号値Z(i,k)の周波数ビンk及びフレームiに対してハイレベル値をとり、当該特定の到来方向区分rに属しない正規化信号値Z(i,k)の周波数ビンk及びフレームiに対してローレベル値（＜ハイレベル値）をとる、当該特定の到来方向区分rと周波数ビンkとフレームiとを変数とする関数である時間周波数マスクMask(i,k,r)を生成して出力する（ステップＳ５１）。時間周波数マスクMask(i,k,r)の一例は、以下のバイナリマスクである。

なお、Θ_rは、到来方向区分rに属する正規化信号値Z(i,k)の範囲を意味する。また、式（９）の例では、ａがローレベル値に相当し、ｂがハイレベル値に相当する。到来方向区分rごとに信号を抜き出す時間周波数マスクとする場合には、例えば、a=0,b=1とする。また、式（９）の時間周波数マスクMask(i,k,r)は、ローレベル値ａからハイレベル値ｂへの推移及びハイレベル値ｂからローレベル値ａへの推移が不連続なバイナリマスクであるが、周波数ビンkやフレームiの変化に伴う出力値の推移が、ハイレベル値からローレベル値及びローレベル値からハイレベル値にかけてそれぞれ滑らかな時間周波数マスクMask(i,k,r)が生成されてもよい。

時間周波数マスク生成部１４ａで生成された時間周波数マスクMask(i,k,r)は、空間パワー分布推定部１４のマスク適用部１４ｂ（図２（ａ））に入力され、マスク適用部１４ｂにはさらに周波数領域変換部１２から出力された周波数領域信号X(1,i,k)が入力される。マスク適用部１４ｂは、周波数ビンkとフレームiとの組が同一である周波数領域信号X(1,i,k)と時間周波数マスクMask(i,k,r)との積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を用い、当該フレームiと当該到来方向区分rとに対応する空間パワー分布値P(i,r)を全ての到来方向区分r（r∈{1,...,R}）について生成して出力する（ステップＳ５２）。例えば、マスク適用部１４ｂは、周波数ビンkとフレームiとの組が同一である周波数領域信号X(1,i,k)と時間周波数マスクMask(i,k,r)との積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を、対応するフレームiと到来方向区分rとの組が同一である集合ごとに周波数ビンkについて平均し、当該フレームiと当該到来方向区分rとに対応する空間パワー分布値P(i,r)を生成する。より具体的には、マスク適用部１４ｂは、例えば、以下のようにして空間パワー分布値P(i,r)を生成する。

また、マスク適用部１４ｂが、積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を全ての周波数ビンｋについて平均するのではなく、一部の周波数ビンのみについて平均し、空間パワー分布値P(i,r)を求めてもよい。さらに、マスク適用部１４ｂが、何れかの周波数ビンに対応する積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を空間パワー分布値P(i,r)としてもよい。例えば、支配的な１つの周波数ビンk'に対する
P(i,r)=|Mask(i,k',r)・X(1,i,k')|² ...(11)
を空間パワー分布値P(i,r)としてもよい。

また、時間周波数マスクを用いるのではなく、代わりに遅延和法（大賀寿朗，山崎芳男，金田豊，“音響システムとディジタル処理”，社団法人電子情報通信学会，1995，1995, pp.197-208）などによって得られた各フレームiの到来方向区分r毎の空間スペクトルを空間パワー分布値P(i,r)としてもよい（［ステップＳ５の例］の説明終わり）。

以上のように空間パワー分布推定部１４から出力された空間パワー分布値P(i,r)は、雑音区間空間パワー分布推定部１５に入力される。

雑音区間空間パワー分布推定部１５は、目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分rの空間パワー分布値P(i,r)とを用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値λ^N(i,r)を各到来方向区分rについて生成し、出力する（ステップＳ６）。なお、この場合の雑音区間のフレームには、例えば、「観測信号の冒頭数フレームには目的信号が含まれない」と仮定し、観測信号の冒頭数フレームを用いる。また、音声信号や音楽信号の持つ周期性成分を検出する手段（例えば、特開第２００８−６４８２１号公報）などを用いて目的信号が含まれないことが推定されるフレームを推定し、それを雑音区間のフレームとして用いてもよい。以下にステップＳ６の詳細を例示する。

［ステップＳ６の例］
雑音区間空間パワー分布値λ^N(i,r)の生成は、例えば、複数の雑音区間のフレームでの各到来方向区分の空間パワー分布値P(i,r)を、到来方向区分rごとに当該雑音区間のフレームについて平均した値を、各到来方向区分rについての雑音区間空間パワー分布値λ^N(i,r)とすることによって行われる。すなわち、雑音区間空間パワー分布推定部１５は、例えば、以下の式によって、全ての到来方向区分rについて雑音区間空間パワー分布値λ^N(i,r)を生成する。

ここで、I^Nは雑音区間に属するフレームのフレームインデックスの集合を意味し、Num(・)は、集合・に含まれる要素数を出力する関数を意味する。なお、式（１２）の場合、雑音区間空間パワー分布値λ^N(i,r)はフレームiに依存せず、到来方向区分rが同一であれば各フレームiについて一定となる。

また、観測信号の冒頭数フレームを雑音区間のフレームとして式（１２）によって雑音区間空間パワー分布値λ^N(i,r)を求めた後、以下のように雑音区間空間パワー分布値λ^N(i,r)を各フレームで更新してもよい。

なお、αは０以上１以下の定数であり、例えば、α=0.8とする。また、各フレームiが雑音区間に属するか否かの判断は、前述の音声信号や音楽信号の持つ周期性成分を検出する手段などを用いて行われる。なお、式（１３）によって得られる雑音区間空間パワー分布値λ^N(i,r)も、複数の雑音区間のフレームでの各到来方向区分の空間パワー分布値P(i,r)を、到来方向区分rごとに当該雑音区間のフレームについて平均（加重平均）した値に含まれる。

また、何れかの雑音区間のフレームでの各到来方向区分の空間パワー分布値P(i,r)を、そのまま、各到来方向区分rについての雑音区間空間パワー分布値λ^N(i,r)として用いてもよい（［ステップＳ６の例］の説明終わり）。

以上のように雑音区間空間パワー分布推定部１５から出力された雑音区間空間パワー分布値λ^N(i,r)は、事後信号対雑音比推定部１６に入力され、事後信号対雑音比推定部１６には、さらに、空間パワー分布推定部１４から出力された空間パワー分布値P(i,r)が入力される。事後信号対雑音比推定部１６は、各到来方向区分rの各フレームiにおける空間パワー分布値P(i,r)と、各到来方向区分rの雑音区間空間パワー分布値λ^N(i,r)とを用い、当該空間パワー分布値P(i,r)と当該雑音区間空間パワー分布値λ^N(i,r)との比である事後信号対雑音比γ(i,r)を、到来方向区分rごとに各フレームiについて生成し、出力する（ステップＳ７）。例えば、事後信号対雑音比推定部１６は、同一の到来方向区分rに対応する空間パワー分布値P(i,r)と雑音区間空間パワー分布値λ^N(i,r)との組ごとに、当該空間パワー分布値P(i,r)を当該雑音区間空間パワー分布値λ^N(i,r)で除算し、その演算結果P(i,r)/λ^N(i,r)を、当該空間パワー分布値P(i,r)の到来方向区分r及びフレームiに対応する事後信号対雑音比γ(i,r)として生成する。なお、前述のように雑音区間空間パワー分布値λ^N(i,r)は、全てのフレームiについて同一であってもよいし、フレームiごとに更新されるものであってもよい。

γ(i,r)=P(i,r)/λ^N(i,r) ...(14)
事後信号対雑音比推定部１６から出力された事後信号対雑音比γ(i,r)は、事前信号対雑音比推定部１７に入力される。事前信号対雑音比推定部１７は、事後信号対雑音比γ(i,r)を少なくとも用い、雑音区間空間パワー分布値λ^N(i,r)と、空間パワー分布値P(i,r)の目的信号成分である目的信号空間パワー分布値λ^S(i,r)との比である事前信号対雑音比ξ(i,r)を、到来方向区分rごとに各フレームiについて生成し、出力する（ステップＳ８）。以下にステップＳ８の詳細を例示する。

［ステップＳ８の例］
事前信号対雑音比推定部１７は、例えば、事後信号対雑音比γ(i,r)から１を減じた値を、当該事後信号対雑音比γ(i,r)の到来方向区分r及びフレームiに対応する事前信号対雑音比ξ(i,r)=λ^S(i,r)/λ^N(i,r)として生成する。

ξ(i,r)=γ(i,r)-1 ...(15)
この場合には、少ない演算量で事前信号対雑音比ξ(i,r)が算出できる。また、各フレームiの雑音区間空間パワー分布値λ^N(i,r)が実環境によく適合する場合、すなわち、
λ^S(i,r)=P(i,r)-λ^N(i,r) ...(16)
が実環境によく適合する場合にはよい推定となる。

また、事前信号対雑音比推定部１７に、空間パワー分布推定部１４から出力された空間パワー分布値P(i,r)と、事後信号対雑音比推定部１６から出力された事後信号対雑音比γ(i,r)と、雑音区間空間パワー分布推定部１５から出力された雑音区間空間パワー分布値λ^N(i,r)とが入力され、事前信号対雑音比推定部１７が以下のように、到来方向区分r及びフレームiに対応する事前信号対雑音比ξ(i,r)を生成してもよい。

ξ(i-1,r)=β・|S^(i-1,r)|²/λ^N(i-1,r)+(1-β)・max(γ(i,r)-1,0) ...(17)
S^(i-1,r)={(ν(i-1,r))^1/2/γ(i-1,r)}・Γ(1.5)・exp(-ν(i-1,r)/2)・[(1+ν(i-1,r))・I₀(ν(i-1,r)/2)+ν(i-1,r)・I₁(ν(i-1,r)/2)]・(P(i-1,r))^1/2 ...(18)
ν(i-1,r)=ξ(i-1,r)・γ(i-1,r)/(1+ξ(i-1,r)) ...(19)

なお、max(・)は・の最大値を出力する関数であり、Γ(・)はガンマ関数であり、I₀(・)とI₁(・)とは、それぞれ０次と１次の第１種修正ベッセル関数であり、βは０以上１以下の定数である。また、前述のように雑音区間空間パワー分布値λ^N(i,r)は、全てのフレームiについて同一であってもよいし、フレームiごとに更新されるものであってもよい。また、式（１８）（１９）は、周波数スペクトル上で雑音中の音声信号の振幅を最小二乗誤差推定する手法である「Ephraim, Y. and Malha, D., "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Transactions on Acoustic, Speech, and Signal Processing, vol.ASSP-32, pp. 1109-1121, 1984」の式（７）〜（１０）を、到来方向区分rごとの空間パワー分布推定に適用したものであり、|S^(i-1,r)|²が目的信号空間パワー分布値λ^S(i,r)の推定値となる（［ステップＳ８の例］の説明終わり）。

以上のように事前信号対雑音比推定部１７から出力された事前信号対雑音比ξ(i,r)は、尤度比計算部１８に入力され、さらに、尤度比計算部１８には、事後信号対雑音比推定部１６から出力された事後信号対雑音比γ(i,r)が入力される。

尤度比計算部１８は、入力された事後信号対雑音比γ(i,r)と事前信号対雑音比ξ(i,r)とを用い、到来方向区分rに対応する観測信号Ｘ(r)のフレームiが雑音区間（目的信号を含まない区間）である尤度p_i(X(r)|H₀)と目的信号区間（目的信号を含む区間）である尤度p_i(X(r)|H₁)との比である尤度比Λ(i,r)を生成し、出力する（ステップＳ９）。なお、H₀は、観測信号Ｘ(r)のフレームiが雑音区間であるとの仮定を意味し、H₁は、観測信号Ｘ(r)のフレームiが目的信号区間であるとの仮定を意味する。具体的には、本形態の尤度比計算部１８は、例えば、以下のように尤度比Λ(i,r)を生成して出力する。

Λ(i,r)={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))} ...(19)
以下にこの導出を行う。まず、尤度p_i(X(r)|H₀)及びp_i(X(r)|H₁)は、以下のように定義される（例えば、参考文献１「Sohn, J., Kim, N.-S., and Sung, W., "A Statistical Model-based Voice Activity Detection," IEEE Signal Processing Letters, Vol. 6, No.1, pp. 1-3, 1999.」の式（１）（２）参照）。

これらの尤度の比をとり、ξ(i,r)=λ^S(i,r)/λ^N(i,r)とγ(i,r)=P(i,r)/λ^N(i,r)の関係を用いることで、以下のように尤度比Λ(i,r)が得られる。

Λ(i,r)=p_i(X(r)|H₁)/p_i(X(r)|H₀)
={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))}
このように、本形態では、正確なλ^S(i,r)を直接求めることができないため、以上のように事後信号対雑音比γ(i,r)と事前信号対雑音比ξ(i,r)とを求め、それらを用いて尤度比Λ(i,r)を計算する。

尤度比計算部１８から出力された尤度比Λ(i,r)は判定部１９に入力される。判定部１９は、尤度比Λ(i,r)を指標とし、各フレームiが目的信号区間であるか否かを判定し、その判定結果を出力する（ステップＳ１０）。以下にステップＳ１０の詳細を例示する。

［ステップＳ１０の例］
図４（ｂ）の例では、判定部１９は、尤度比Λ(i,r)又はその関数値をフレームiごとに到来方向区分rについて平均し、その演算結果を指標として、各フレームiが目的信号区間であるか否かを判定する。

この例ではまず、判定部１９の平均算出部１９ａ（図２（ａ））に尤度比Λ(i,r)が入力され、平均算出部１９ａは、尤度比Λ(i,r)又はその関数値をフレームiごとに到来方向区分rについて平均した平均値Ave(i)を生成し、出力する（ステップＳ１０１）。平均値Ave(i)の一例は、尤度比Λ(i,r)に対する対数尤度比logΛ(i,r)をフレームiごとに全到来方向区分r（r∈{1,...,R}）について平均した以下の平均対数尤度比logΛ(i)である。なお、式（２２）の対数は自然対数である。

また、平均算出部１９ａが、各フレームｉの前後Ｗフレーム（i-W,...,i,...i+W）において尤度比Λ(i,r)を乗算し、その乗算値又はその関数値を到来方向区分rについて平均した平均値Ave(i)を生成し、出力してもよい。すなわち、Λ(i)の代わりに以下のΛ'(i)を用いてもよい。

平均算出部１９ａから出力された平均値Ave(i)は、判定部１９の閾値比較部１９ｂに入力され、閾値比較部１９ｂは、各フレームiについて、平均値Ave(i)が閾値thよりも大きいか否かを判断する（ステップＳ１０２）。ここで、平均値Ave(i)＞thである場合（「平均値Ave(i)≧thである場合」としてもよい）、そのフレームiは目的信号区間である
として１を出力し（ステップＳ１０３）、平均値Ave(i)＜thである場合（「平均値Ave(i)≦thである場合」としてもよい）、そのフレームiは雑音区間である
として０を出力する（ステップＳ１０４）。なお、閾値thは、平均値Ave(i)の時間長平均（複数のフレームｉに対する平均）や分散などの統計量を用いて設定されてもよいし、th=0.2などの固定値を事前に設定しておいてもよい。分散などの統計量を用いて閾値thを設定する場合の一例としては、目的信号が存在しないと推定されるフレームを判定対象のフレームについて平均値Ave(i)を求め、それらの平均値から所定のマージンを設けた値を閾値thとする方法がある。

［ステップＳ１０の変形例］
次に、ステップＳ１０の変形例を示す。
第１の変形例では、図２（ａ）の判定部１９の代わりに、図５（ａ）の判定部１９を用いる。この変形例の場合、判定部１９の閾値比較部１９ｃは、入力された尤度比Λ(i,r)と、到来方向区分rごとに設定された閾値th(r)とを到来方向区分rごとに比較し、到来方向区分rごとにそのフレームiが目的信号区間であるか否かを判定し、その判定結果を出力する。例えば、尤度比Λ(i,r)＞th(r)である場合（「尤度比Λ(i,r)≧th(r)である場合」としてもよい）、そのフレームiはその到来方向区分rについて目的信号区間である
として１を出力し、尤度比Λ(i,r)＜th(r)である場合（「尤度比Λ(i,r)≦th(r)である場合」としてもよい）、そのフレームiはその到来方向区分rについて雑音区間である
として０を出力する。なお、閾値th(r)は、尤度比Λ(i,r)の時間長平均（複数のフレームｉに対する平均）や分散などの統計量を用いて設定されてもよいし、th=0.2などの固定値を事前に設定しておいてもよい。

第２の変形例では、図２（ａ）の判定部１９の代わりに、図５（ｂ）の判定部１９を用いる。この変形例の場合、事前学習されたフレームの音響特徴量（P(i,r)やΛ(i,r)）と当該フレームが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するフレームが目的信号区間に対応するか否かを判定する。この例の場合、例えば、パラメータ学習部１９ｄに、フレームの音響特徴量（P(i,r)やΛ(i,r)）と当該フレームが目的信号区間であるか否かの判定結果との組からなる学習サンプルが入力され、パラメータ学習部１９ｄがパターン認識学習を行い、モデルパラメータを求める。そして、パターン認識部１９ｅにこのパラメータと判定対象のフレームの音響特徴量を入力し、パターン認識によってそのフレームが目的信号区間であるか否かを判定する。なお、パターン認識技術には、例えば、公知のサポートベクターマシーン（津田宏治，“サポートベクターマシーンとは何か”，電子情報通信学会誌，２０００：４６０〜４６６頁）や、隠れマルコフモデル（北研二，中村哲，永田昌明，“音声言語処理”，森出版株式会社，１９９６：５７〜９０頁）等を利用する。

その他、判定部１９が、目的信号区間であるか否かの判定結果を出力するのではなく、前述の尤度比Λ(i,r)や平均対数尤度比logΛ(i)やΛ(i)そのものや、それを０〜１の収まる値に変換したΛ(i)/（1+Λ(i)）やlogΛ(i)/（1+logΛ(i)）やΛ(i)/（1+Λ(i)）や、尤度p_i(X(r)|H₀)や尤度p_i(X(r)|H₁)などを出力してもよい。

＜実験結果＞
本形態の効果を示すために、複数のマイクロホンを用いて観測した、音声信号を雑音信号が混在する音響信号を本形態の目的信号区間推定方法によって分析し、得られた尤度比Λ(i,r)（尤度比計算部１８の出力）を用いて目的信号区間（この実験では音声信号区間）を検出する実験例を示す。使用した音響信号データは大学の研究室内で学生がポスターを用いて自身の研究の発表を行っている発話を収録した信号で、サンプリング周波数16kHz、量子化ビット数16ビットで離散サンプリングされたものを用いた。ここでの検出対象となる目的信号は発表者又は聞き手の発生した音声信号とする。この収録には、発表者１名と聞き手２名が参加した。収録された信号には、研究室内にある複数の計算機による雑音や、部屋外かの雑音が常に混入している。収録には８本の全指向性マイクロホン（センサ２０−１〜８）を用いており、これらは図６に示す間隔で配置されていた。このようにして収録された音響信号に対し、１フレームの時間量を32ms(512サンプル点)とし、16ms（256サンプル点）ごとにフレームの始点を移動させて、本形態の目的信号区間推定方法を適用し、各フレームで尤度比を推定した。また、正規化信号値Z(i,k)として信号到来方向θ(i,k)を用い、0〜180度を1度毎に180分割した各区分を到来方向区分r（r∈{1,...,180}）とした。

図７（ａ）は、このような条件で尤度比計算部１８から出力された尤度比Λ(i,r)を例示するグラフであり、図７（ｂ）は、平均算出部１９ａから出力された平均対数尤度比Λ(i)を例示するグラフである。ここで、図７（ａ）（ｂ）の横軸は各フレームiの中心時間［秒］を示す。また、図７（ａ）の縦軸は信号到来方向である方位角［度］を示し、図７（ｂ）の縦軸は平均対数尤度比Λ(i)を示す。また、図７（ａ）では、色が白に近いほど尤度比Λ(i,r)が高い値であることを示し、色が黒に近いほど尤度比Λ(i,r)が低い値であることを示している。図７（ａ）（ｂ）に示すように、本形態の目的信号区間推定方法によって得られた尤度比Λ(i,r)は、話者の位置と発話の有無に応じて変化する。

また、本形態の効果を示すために、約１５分程度のポスター発表の全データを用いてDER (Diarization Error Rate)による評価を行った。DERは、目的信号の無い箇所で誤って目的信号を検出した時間長FST(False-alarm Speech Time)及び目的信号の有る箇所を誤って目的信号無しとした時間長MST(Missed Speech Time)を統合して評価するもので、DER=(FST+MST)/データの総時間長×100(%)として求められる。このDERが低いほど目的信号区間推定精度が高いことを意味する。なお、比較として、本形態の手法（本形態）によって目的信号区間を推定した場合の他、参考文献１の手法（従来手法Ａ）によって目的信号区間を推定した場合と、非特許文献５の手法（従来手法Ｂ）によって目的信号区間を推定した場合とのDERも測定した。

図８は、本形態と従来手法Ａと従来手法Ｂでそれぞれ推定された目的信号区間のDERを示すグラフである。この図に示すように、本形態の手法が、従来手法Ａと従来手法Ｂに比べ、方向性雑音や拡散性雑音のある環境下で、より高精度に目的信号区間を推定できる手法であることが分かる。

〔変形例等〕
なお、本発明は上述の実施形態に限定されるものではない。例えば、上記の実施形態では、尤度比計算部１８が、事後信号対雑音比推定部１６で生成された事後信号対雑音比γ(i,r)と、事前信号対雑音比推定部１７で生成された事前信号対雑音比ξ(i,r)とを用い、尤度比Λ(i,r)を計算して出力し、判定部１９はそれを指標として目的信号区間であるか否かを判定していた。しかし、尤度比計算部１８が、尤度比Λ(i,r)ではなく尤度比Λ(i,r)の関数値を出力し、判定部１９がそれを指標として目的信号区間であるか否かを判定する構成でもよい。この場合には、判定部１９での判定を容易にするため、尤度比Λ(i,r)の関数値は、尤度比Λ(i,r)に対して単調増加するものか、単調減少するものであることが望ましい。また、尤度比Λ(i,r)の関数値の一例は、尤度比Λ(i,r)の対数尤度比logΛ(i,r)である。尤度比計算部１８が対数尤度比logΛ(i,r)を出力する例の場合、例えば、平均算出部１９ａ（図２（ａ））が、入力された対数尤度比logΛ(i,r)をフレームiごとに到来方向区分rについて平均した平均値Ave(i)を生成して出力し、その後、前述したステップＳ１０２〜Ｓ１０４の処理を実行すればよい。

また、事前信号対雑音比ξ(i,r)=γ(i,r)-1とする場合には、事前信号対雑音比推定部１７で事前信号対雑音比ξ(i,r)を計算することなく、尤度比計算部１８が、事後信号対雑音比推定部１６で生成された事後信号対雑音比γ(i,r)のみを用い、以下のように対数尤度比ｌｏｇΛ(i,r)を生成し、出力してもよい。この場合には、事前信号対雑音比推定部１７が不要となる。

logΛ(i,r)=γ(i,r)-logγ(i,r)-1 ...(24)
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、信号区間推定装置１０がサンプリング部３０を包含する構成であってもよいし、信号区間推定装置１０の機能を複数のコンピュータで分散処理する構成であってもよい。また、上述の実施形態では、マイクロホンで観測された音響信号を処理対象とし、目的信号区間を推定することとしたが、音響信号以外の信号、例えば、超音波、電磁波等を処理対象とし、目的信号区間を推定してもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい

本発明の利用分野としては、例えば、音声信号や音楽信号などの目的信号が雑音信号とともに観測される環境においてなされる、目的信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理分野を例示できる。もちろん、音響信号以外の信号処理に本発明を適用してもかまわない。

図１は、本形態の目的信号区間推定装置の全体構成を例示したブロック図である。図２（ａ）は、本形態の空間パワー分布推定部の詳細を例示するブロック図であり、図２（ｂ）は、本形態の判定部の詳細を例示するブロック図である。図３は、本形態の目的信号区間推定方法を説明するためのフローチャートである。図４（ａ）は、ステップＳ５の詳細を例示するためのフローチャートであり、図４（ｂ）は、ステップＳ１０の詳細を例示するためのフローチャートである。図５（ａ）（ｂ）は、判定部の変形例を示すブロック図である。図６は、実験におけるマイクロホンの配置を説明するための図である。図７（ａ）は、このような条件で尤度比計算部から出力された尤度比Λ(i,r)を例示するグラフであり、図７（ｂ）は、平均算出部から出力された平均対数尤度比Λ(i)を例示するグラフである。図８は、本形態と従来手法Ａと従来手法Ｂでそれぞれ推定された目的信号区間のDERを示すグラフである。

符号の説明

１０信号区間推定装置

Claims

目的信号が存在する目的信号区間を推定する目的信号区間推定装置であって、
複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出す信号切出部と、
上記信号切出部で切り出された各フレームの信号を周波数領域に変換した周波数領域信号を各センサについて生成する周波数領域変換部と、
上記センサに含まれる特定の基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の何れかの上記センサに対応する周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を各フレームについて生成する正規化部と、
上記正規化信号値がとり得る全範囲を複数に分割した各区分を各到来方向区分とし、上記正規化信号値に対応するフレームの上記周波数領域信号の振幅の絶対値に対して単調増加する値を、当該正規化信号値が属する上記到来方向区分の当該フレームでの空間パワー分布値とする空間パワー分布推定部と、
目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分の空間パワー分布値を用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値を各到来方向区分について生成する雑音区間空間パワー分布推定部と、
各到来方向区分の各フレームにおける上記空間パワー分布値と、各到来方向区分の上記雑音区間空間パワー分布値とを用い、当該空間パワー分布値と当該雑音区間空間パワー分布値との比である事後信号対雑音比を、到来方向区分ごとに各フレームについて生成する事後信号対雑音比推定部と、
上記事後信号対雑音比を少なくとも用い、到来方向区分ごとに、各フレームが雑音区間である尤度と各フレームが目的信号区間である尤度との比である尤度比又はその関数値を生成する尤度比計算部と、
を有する目的信号区間推定装置。
請求項１の目的信号区間推定装置であって、
上記事後信号対雑音比を少なくとも用い、上記雑音区間空間パワー分布値と、空間パワー分布値の目的信号成分である目的信号空間パワー分布値との比である事前信号対雑音比を、到来方向区分ごとに各フレームについて生成する事前信号対雑音比推定部をさらに有し、
上記尤度比計算部は、
上記事後信号対雑音比と上記事前信号対雑音比とを用いて上記尤度比又はその関数値を生成する、
ことを特徴とする目的信号区間推定装置。
請求項１又は２の目的信号区間推定装置であって、
上記尤度比又はその関数値を指標とし、各フレームが上記目的信号区間であるか否かを判定する判定部をさらに有する、
ことを特徴とする目的信号区間推定装置。
請求項３の目的信号区間推定装置であって、
上記判定部は、
上記尤度比又はその関数値をフレームごとに上記到来方向区分について平均し、その演算結果を指標として、各フレームが上記目的信号区間であるか否かを判定する、
ことを特徴とする目的信号区間推定装置。
請求項１から４の何れかの目的信号区間推定装置であって、
上記正規化部は、
周波数ビンとフレームとの組ごとに上記正規化信号値を生成し、
上記空間パワー分布推定部は、
特定の到来方向区分に属する上記正規化信号値の周波数ビン及びフレームに対してハイレベル値をとり、当該特定の到来方向区分に属しない上記正規化信号値の周波数ビン及びフレームに対してローレベル値をとる、当該特定の到来方向区分と周波数ビンとフレームとを変数とする関数である時間周波数マスクを生成する時間周波数マスク生成部と、
周波数ビンとフレームとの組が同一である上記周波数領域信号と上記時間周波数マスクとの積に対して単調増加する値を用い、当該フレームと当該到来方向区分とに対応する空間パワー分布値を生成するマスク適用部と、
を有することを特徴とする目的信号区間推定装置。
請求項１から５の何れかの目的信号区間推定装置であって、
上記雑音区間空間パワー分布推定部は、
複数の上記雑音区間のフレームでの各到来方向区分の空間パワー分布値を、到来方向区分ごとに当該雑音区間のフレームについて平均した値を、各到来方向区分についての雑音区間空間パワー分布値として生成する、
ことを特徴とする目的信号区間推定装置。
請求項２の目的信号区間推定装置であって、
上記事後信号対雑音比推定部は、
同一の到来方向区分に対応する上記空間パワー分布値と上記雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する上記事後信号対雑音比として生成し、
上記事前信号対雑音比推定部は、
上記事後信号対雑音比から１を減じた値を、当該事後信号対雑音比の到来方向区分及びフレームに対応する事前信号対雑音比として生成する、
ことを特徴とする目的信号区間推定装置。
請求項２の目的信号区間推定装置であって、
上記事後信号対雑音比推定部は、
同一の到来方向区分に対応する上記空間パワー分布値と上記雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する上記事後信号対雑音比として生成し、
上記事前信号対雑音比推定部は、
到来方向区分ｒ及びフレームｉに対応する上記事後信号対雑音比をγ(i,r)とし、到来方向区分ｒ及びフレームｉに対応する上記事前信号対雑音比をξ(i,r)とし、到来方向区分ｒ及びフレームｉに対応する空間パワー分布値をP(i,r)とし、到来方向区分ｒ及びフレームｉに対応する上記雑音区間空間パワー分布値をλ^N(i,r)とし、max(・)を・の最大値を出力する関数とし、Γ(・)をガンマ関数とし、I₀(・)とI₁(・)をそれぞれ０次と１次の第１種修正ベッセル関数とし、ν(i-1,r)=ξ(i-1,r)・γ(i-1,r)/(1+ξ(i-1,r))とし、S^(i-1,r)={(ν(i-1,r))^1/2/γ(i-1,r)}・Γ(1.5)・exp(-ν(i-1,r)/2)・[(1+ν(i-1,r))・I₀(ν(i-1,r)/2)+ν(i-1,r)・I₁(ν(i-1,r)/2)]・(P(i-1,r))^1/2とし、βを０以上１以下の定数とした場合における、ξ(i-1,r)=β・|S^(i-1,r)|²/λ^N(i-1,r)+(1-β)・max(γ(i,r)-1,0)を到来方向区分r及びフレームiに対応する上記事前信号対雑音比として生成する、
ことを特徴とする目的信号区間推定装置。
請求項２、７又は８の何れかの目的信号区間推定装置であって、
上記尤度比計算部は、
到来方向区分ｒ及びフレームｉに対応する上記事後信号対雑音比をγ(i,r)とし、到来方向区分ｒ及びフレームｉに対応する上記事前信号対雑音比をξ(i,r)とした場合における、Λ(i,r)={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))}を上記尤度比として生成する、
ことを特徴とする目的信号区間推定装置。
目的信号が存在する目的信号区間を推定する目的信号区間推定装置の目的信号区間推定方法であって、
信号切出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出すステップと、
周波数領域変換部が、上記信号切出部で切り出された各フレームの信号を周波数領域に変換した周波数領域信号を各センサについて生成するステップと、
正規化部が、上記センサに含まれる特定の基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の何れかの上記センサに対応する周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を各フレームについて生成するステップと、
空間パワー分布推定部が、上記正規化信号値がとり得る全範囲を複数に分割した各区分を各到来方向区分とし、上記正規化信号値に対応するフレームの上記周波数領域信号の振幅の絶対値に対して単調増加する値を、当該正規化信号値が属する上記到来方向区分の当該フレームでの空間パワー分布値とするステップと、
雑音区間空間パワー分布推定部が、目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分の空間パワー分布値を用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値を各到来方向区分について生成するステップと、
事後信号対雑音比推定部が、各到来方向区分の各フレームにおける上記空間パワー分布値と、各到来方向区分の上記雑音区間空間パワー分布値とを用い、当該空間パワー分布値と当該雑音区間空間パワー分布値との比である事後信号対雑音比を、到来方向区分ごとに各フレームについて生成するステップと、
尤度比計算部が、上記事後信号対雑音比を少なくとも用い、到来方向区分ごとに、各フレームが雑音区間である尤度と各フレームが目的信号区間である尤度との比である尤度比又はその関数値を生成するステップと、
を有する目的信号区間推定方法。
請求項１から９の何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。
請求項１１に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。