JP5134477B2 - 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 - Google Patents

目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 Download PDF

Info

Publication number
JP5134477B2
JP5134477B2 JP2008237642A JP2008237642A JP5134477B2 JP 5134477 B2 JP5134477 B2 JP 5134477B2 JP 2008237642 A JP2008237642 A JP 2008237642A JP 2008237642 A JP2008237642 A JP 2008237642A JP 5134477 B2 JP5134477 B2 JP 5134477B2
Authority
JP
Japan
Prior art keywords
signal
value
power distribution
frame
arrival
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008237642A
Other languages
English (en)
Other versions
JP2010072164A (ja
Inventor
健太郎 石塚
章子 荒木
達也 河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008237642A priority Critical patent/JP5134477B2/ja
Publication of JP2010072164A publication Critical patent/JP2010072164A/ja
Application granted granted Critical
Publication of JP5134477B2 publication Critical patent/JP5134477B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。
音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。
従来、目的信号の到来方向を既知として到来方向の信号を強調することで目的信号区間推定を行う手法(非特許文献1)、目的信号の到来方向を推定した後に到来方向からの信号の周波数スペクトルの情報を用いて目的信号の有無を推定する手法(非特許文献2)、音声強調により得られた目的信号を観測信号から差し引くことにより目的信号の存在区間を推定する手法(特許文献1)、パラメトリックな方法で求められた空間スペクトルのピークの有無で音声の有無を推定する手法(非特許文献3)、目的信号を抑圧して得られた雑音信号を用いて周波数スペクトル上で目的信号を強調する手法(非特許文献4)などがある。しかし、これらの方法で十分な精度を得るためには、目的信号の到来方向や音源数が既知であるか、事前に目的信号の到来方向の正確な推定が必要であったり、拡散性・方向性の雑音がない環境での収音が必要であったりする。また、これらの前提を必要としない手法として、雑音のコヒーレンス関数を観測信号のコヒーレンス関数から引くことで目的信号の有無を推定する手法(非特許文献5)、雑音のCSP(Cross-power Spectrum Phase)係数を観測信号のCSP係数から差し引くことで目的信号の有無を推定する手法(非特許文献6)がある。しかし、これらの周波数スペクトルの相互相関を用いる手法は、特に低周波数帯域において拡散性雑音の影響を十分に取り除くことができないという問題がある。
その他、あらゆる方向からあらゆる周波数帯域の音響信号が同時に到来するような環境(例えば、街頭、駅、空港のような日常環境)で信号の到達時間差を用いて十分な目的信号区間推定精度を得るための手法として、一定範囲の時間周波数領域で推定した信号の到達時間差がある一定の値に偏る度合いを利用する手法(非特許文献7)がある。しかし、この手法では、方向性の雑音が存在する場合に、それも目的信号として検出してしまうという問題点がある。
Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005. Potamitis, I. and Fishler, E., "Speech activity detection and enhancement of a moving speaker based on the wideband generalized likelihood ratio and microphone arrays," Journal of the Acoustical Society of Ametica, vol. 116, pp. 2406-2415, 2004. Asano, F., Yamamoto, K., Ogata, J.,Yamada, M., and Nakamura, M., "Detection and separation of speech events in meeting recordings using a microphone array," EURASIP Journal Audio, Speech, and Music Processing, vol. 2007, Article ID 27616, 2007. Takahashi, Y., Takatani, T., Saruwatari, H., and Shikano, K., "Blind spatial subtraction array with independent component analysis for hands-free speech recognition," Proceedings of IWAENC, 2006. Le Bouquin-Jeannes R., Azirani, A. A., and Faucon, G., " Enhancement of speech degraded by coherent and incoherent noise using a cross-spectral estimator," IEEE Transactions on Speech and Audio Processing, vol. 5, pp. 484-487, 1997. Denda, Y., Nishiura, T., and Yamashita, Y., "Robust talker direction estimation based on weighted CSP analysis and maximum likelihood estimation," IEICE Transactions on Information and Systems, vol. E89-D, pp. 1050-1057, 2006. Juan E. Rubio, Kentaro Ishizuka, Hiroshi Sawada, Shoko Araki, Tomohiro Nakatani, and Masakiyo Fujimoto, "Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates," Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing, Vol. 4, pp. 385-388, 2007. 特許第2913105号公報
以上のように従来の手法では、方向性の雑音や拡散性の雑音が含まれる環境であっても、信号の音源数や到来方向を事前に知ることなく、精度よく目的信号区間を推定することができなかった。
本発明はこのような点に鑑みてなされたものであり、方向性の雑音や拡散性の雑音が含まれる環境であっても、信号の音源数や到来方向を事前に知ることなく、精度よく目的信号区間を推定することが可能な技術を提供することを目的とする。
本発明では上記課題を解決するために、まず、信号抽出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出し、周波数領域変換部が、信号切出部で切り出された各フレームの信号を周波数領域に変換した周波数領域信号を各センサについて生成する。また、正規化部が、センサに含まれる特定の基準センサに対応する周波数領域信号を基準として、少なくとも当該基準センサ以外の何れかのセンサに対応する周波数領域信号を正規化し、センサで観測された信号の到来方向に対応する正規化信号値を各フレームについて生成する。そして、空間パワー分布推定部が、正規化信号値がとり得る全範囲を複数に分割した各区分を各到来方向区分とし、正規化信号値に対応するフレームの周波数領域信号の振幅の絶対値に対して単調増加する値を、当該正規化信号値が属する到来方向区分の当該フレームでの空間パワー分布値とし、雑音区間空間パワー分布推定部が、目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分の空間パワー分布値を用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値を各到来方向区分について生成する。その後、事後信号対雑音比推定部が、各到来方向区分の各フレームにおける空間パワー分布値と、各到来方向区分の雑音区間空間パワー分布値とを用い、当該空間パワー分布値と当該雑音区間空間パワー分布値との比である事後信号対雑音比を、到来方向区分ごとに各フレームについて生成する。そして、尤度比計算部が、事後信号対雑音比を少なくとも用い、到来方向区分ごとに、各フレームが雑音区間である尤度と各フレームが目的信号区間である尤度との比である尤度比又はその関数値を生成する。
ここで、事後信号対雑音比推定部によって生成される到来方向区分ごとの事後信号対雑音比は、各フレームにおける空間パワー分布値と、目的信号が存在しないと推定される雑音区間のフレームに対応する空間パワー分布値を用いて生成された雑音区間空間パワー分布値との比である。また、当該事後信号対雑音比は、到来方向区分ごとに生成される。つまり、各事後信号対雑音比は、各フレームにおける空間パワー分布値が、目的信号が存在しないと推定される雑音区間のフレームに対応する空間パワー分布値に対してどの程度変化したかを到来方向区分ごとに示すものとなる。その結果、当該事後信号対雑音比を少なくとも用いて生成される尤度比又はその関数値にも、この変化が反映される。すなわち、本発明では、雑音区間を基準とした空間パワー分布値の統計的性質の変化が反映される尤度比又はその関数値を、到来方向区分ごとに各フレームについて求める。方向性の雑音及び拡散性の雑音は、通常ほぼ一定の統計的性質を持ち、或る到来方向から目的信号が到来した場合、その統計的性質は変化する。本発明では、統計的性質の変化が反映される上記尤度比又はその関数値を各フレームについて算出するため、それを用いることで、方向性の雑音や拡散性の雑音が含まれる環境であっても精度よく目的信号区間を推定することができる。また、このような尤度比又はその関数値は、各到来方向区分について算出されるため、信号の音源数や到来方向を事前に知る必要はない。さらに、このような尤度比又はその関数値の算出に用いられる事後信号対雑音比を到来方向区分ごとに算出するため、到来方向区分ごとの統計量の変化を個別に捉えることができ、目的信号区間を制度よく推定できる。
また、本発明において、事後信号対雑音比を少なくとも用い、雑音区間空間パワー分布値と、空間パワー分布値の目的信号成分である目的信号空間パワー分布値との比である事前信号対雑音比を、到来方向区分ごとに各フレームについて生成する事前信号対雑音比推定部をさらに設け、尤度比計算部が、上記事後信号対雑音比と上記事前信号対雑音比とを用いて上記尤度比又はその関数値を生成することとしてもよい。これにより、より高い精度で尤度比又はその関数値を推定することが可能となる。
また、上記の尤度比を指標として各フレームが目的信号区間であるか否かを判定する場合、例えば、判定部が、尤度比又はその関数値をフレームごとに到来方向区分について平均し、その演算結果を指標として、各フレームが目的信号区間であるか否かを判定してもよい。この場合、突発的に生じたパワーの小さい方向性の雑音の影響を低減させ、目的信号区間の推定精度を向上させることができる。
また、本発明において好ましくは、正規化部は、周波数ビンとフレームとの組ごとに正規化信号値を生成し、空間パワー分布推定部は、特定の到来方向区分に属する正規化信号値の周波数ビン及びフレームに対してハイレベル値をとり、当該特定の到来方向区分に属しない正規化信号値の周波数ビン及びフレームに対してローレベル値をとる、当該特定の到来方向区分と周波数ビンとフレームとを変数とする関数である時間周波数マスクを生成し、周波数ビンとフレームとの組が同一である周波数領域信号と時間周波数マスクとの積に対して単調増加する値を用い、当該フレームと当該到来方向区分とに対応する空間パワー分布値を生成する。これにより、信号源数とセンサ数との大小関係にかかわらず、空間パワー分布値を正確に生成できる。
また、本発明において好ましくは、雑音区間空間パワー分布推定部は、複数の雑音区間のフレームでの各到来方向区分の空間パワー分布値を、到来方向区分ごとに当該雑音区間のフレームについて平均した値を、各到来方向区分についての雑音区間空間パワー分布値として生成する。これにより、妥当な雑音区間空間パワー分布値が得られるため、目的信号区間の推定精度が向上する。
また、事後信号対雑音比推定は、例えば、同一の到来方向区分に対応する空間パワー分布値と雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する事後信号対雑音比として生成し、事前信号対雑音比推定部は、事後信号対雑音比から1を減じた値を、当該事後信号対雑音比の到来方向区分及びフレームに対応する事前信号対雑音比として生成する。これにより、少ない演算量で事前信号対雑音比を算出できる。
また、事後信号対雑音比推定が、同一の到来方向区分に対応する空間パワー分布値と雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する事後信号対雑音比として生成し、事前信号対雑音比推定部が、到来方向区分r及びフレームiに対応する事後信号対雑音比をγ(i,r)とし、到来方向区分r及びフレームiに対応する事前信号対雑音比をξ(i,r)とし、到来方向区分r及びフレームiに対応する空間パワー分布値をP(i,r)とし、到来方向区分r及びフレームiに対応する雑音区間空間パワー分布値をλN(i,r)とし、max(・)を・の最大値を出力する関数とし、Γ(・)をガンマ関数とし、I0(・)とI1(・)をそれぞれ0次と1次の第1種修正ベッセル関数とし、ν(i-1,r)=ξ(i-1,r)・γ(i-1,r)/(1+ξ(i-1,r))とし、S^(i-1,r)={(ν(i-1,r))1/2/γ(i-1,r)}・Γ(1.5)・exp(-ν(i-1,r)/2)・[(1+ν(i-1,r))・I0(ν(i-1,r)/2)+ν(i-1,r)・I1(ν(i-1,r)/2)]・(P(i-1,r))1/2とし、βを0以上1以下の定数とした場合における、ξ(i-1,r)=β・|S^(i-1,r)|2N(i-1,r)+(1-β)・max(γ(i,r)-1,0)を到来方向区分r及びフレームiに対応する事前信号対雑音比として生成してもよい。これにより、定数βの値を適宜選択することで、環境に適した事前信号対雑音比を生成することができる。
また、尤度比計算部は、例えば、到来方向区分r及びフレームiに対応する事後信号対雑音比をγ(i,r)とし、到来方向区分r及びフレームiに対応する事前信号対雑音比をξ(i,r)とした場合における、Λ(i,r)={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))}を尤度比として生成する。
以上のように本発明では、方向性の雑音や拡散性の雑音が含まれる環境であっても、信号の音源数や到来方向を事前に知ることなく、精度よく目的信号区間を推定することが可能となる。
以下、本発明を実施するための最良の形態を図面を参照して説明する。
図1は、本形態の目的信号区間推定装置10の全体構成を例示したブロック図である。また、図2(a)は、本形態の空間パワー分布推定部14の詳細を例示するブロック図であり、図2(b)は、本形態の判定部19の詳細を例示するブロック図である。
<構成>
図1に例示するように、本形態の目的信号区間推定装置10は、信号切出部11と周波数領域変換部12と正規化部13と空間パワー分布推定部14と雑音区間空間パワー分布推定部15と事後信号対雑音比推定部16と事前信号対雑音比推定部17と尤度比計算部18と判定部19と制御部10aと記憶部10bとを具備し、S(S≧2)個のセンサ20−1〜Sで観測され、サンプリング部30でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図2(a)に例示する空間パワー分布推定部14は、時間周波数マスク生成部14aとマスク適用部14bとを有し、図2(b)に例示する判定部19は、平均算出部19aと閾値比較部19bとを有する。
なお、本形態の目的信号区間推定装置10は、例えば、CPU(central processing unit),RAM(random access memory),ROM(read only memory)等から構成される公知のコンピュータに所定のプログラムを実行させることによって構成されるものである。すなわち、信号切出部11と周波数領域変換部12と正規化部13と空間パワー分布推定部14と雑音区間空間パワー分布推定部15と事後信号対雑音比推定部16と事前信号対雑音比推定部17と尤度比計算部18と判定部19と制御部10aは、それぞれ、例えば、CPUが所定のプログラムを実行して構築される処理部であり、記憶部10bは、例えば、ハードディスクなどの補助記憶装置、RAM、キャッシュメモリ若しくはレジスタ、又は、それらの少なくとも一部が結合して構成される記憶領域である。
<処理>
次に、本形態の目的信号区間推定方法について説明する。
本形態の目的信号区間推定方法では、複数のセンサ20−1〜S(S≧2)で観測された各信号を時間周波数分析し、特定の基準センサを基準とした正規化信号値を求め、正規化信号値がとり得る全範囲を複数に分割した各区分である各到来方向区分におけるパワーの統計的性質の時間的変化に基づいて、目的信号の有無を検出して出力する。なお、本形態では、複数のセンサ20−1〜Sとしてマイクロホンを利用し、それらで観測された各音響信号を用い、音声信号や音楽信号などの目的信号の有無を検出して出力する場合を例示する。また、以下では明記しないが、目的信号区間推定装置10は、制御部10aの制御に基づいて各演算処理を実行する。また、本形態の場合、各演算処理の過程で得られたデータは記憶部10bに逐次格納され、それ以降の各演算処理において読み出されて利用される。すなわち、本形態において、処理部Aからデータが出力され、このデータが処理部Bに入力されるとは、処理部Aから出力されたデータが記憶部10bに格納され、処理部Bがこのデータを記憶部10bから読み込むことを意味する。
図3は、本形態の目的信号区間推定方法を説明するためのフローチャートである。また、図4(a)は、ステップS5の詳細を例示するためのフローチャートであり、図4(b)は、ステップS10の詳細を例示するためのフローチャートである。以下、これらのフローチャートに沿って本形態の目的信号区間推定方法を説明していく。
まず、S(S≧2)個のセンサ20−1〜Sでそれぞれ観測された各信号がサンプリング部30に入力される。これらの信号には音声信号や音楽信号等目的信号の他に環境雑音信号も含まれる。サンプリング部30は、各信号を所定(例えば16,000Hz)のサンプリング周波数fでサンプリングし、これにより各センサ20−1〜Sに対応する時間領域の信号x(1,t),...,x(S,t)を抽出する(ステップS1)。なお、tはt番目のサンプリング点を示す。
サンプリング部30で抽出された各時間領域の信号x(1,t),...,x(S,t)は、目的信号区間推定装置10の信号切出部11に入力される。信号切出部11は、入力された各信号x(1,t),...x(S,t)を所定の時間区間であるフレーム毎に切り出し、各センサ20−1〜Sについての各フレームi(iはフレームインデックスを示す)の信号x’(1,i,n),...,x’(S,i,n)を抽出する(ステップS2)。なお、nはフレームiにおけるn番目のサンプル点を表す。具体的には、信号切出部11は、例えば、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ所定の窓関数を例えば時間軸方向に16msずつ移動(シフト)させながら乗じ、これにより、例えば32msの時間長の信号x’(1,i,n),...,x’(S,i,n)を切り出す。より具体的には、例えば、サンプリング周波数が16,000Hzの場合、信号切出部11は、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ例えば式(1)のハニング窓を256サンプル点(16,000Hz×16ms)ずつ移動(シフト)させながら乗じ、センサ20−1〜S毎に、512サンプル点(16,000Hz×32ms)の離散信号を1フレーム分の信号として切り出す。ここで、Lは切り出される1フレーム分の信号のサンプル点数(フレーム長:上述の例ではL=512)を表す。
信号切出部11は、以上のように切り出した各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を出力し、これらは周波数領域変換部12に入力される。
周波数領域変換部12では、各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を周波数領域に変換し、時間周波数ビン(i,k)毎の周波数領域信号(周波数領域スペクトル)X(1,i,k),...,X(S,i,k)を各センサ20−1〜Sについて生成する(ステップS3)。離散フーリエ変換によってこの変換を行う場合、周波数領域変換部12は、以下の式(2)のように周波数領域信号X(1,i,k),...,X(S,i,k)を算出する。
ここで、jは虚数単位を示し、s(s∈{1,...,S})は各センサ20−1〜Sの番号を示す。また、k(k=0,...,M-1)は周波数インデックスであり、サンプリング周波数fをM等分した離散点を表す。Mはフレーム長L以上の自然数であり、例えば、M=512とする。周波数領域変換部12は、以上のような変換によって得られた周波数領域信号(周波数スペクトル)X(1,i,k),...,X(S,i,k)を出力する。
周波数領域変換部12から出力された周波数領域信号X(1,i,k),...,X(S,i,k)は、正規化部13に入力される。正規化部13は、特定の基準センサsB∈{1,...,S}に対応する周波数領域信号X(sB,i,k)を基準として、少なくとも当該基準センサsB以外のセンサs(≠sB)に対応する各周波数領域信号X(s,i,k)を正規化し、センサで観測された信号の到来方向に対応する正規化信号値Z(i,k)を各フレームi及び各周波数ビンkについて生成する(ステップS4)。以下に正規化部13が生成する正規化信号値Z(i,k)の例を示す。
[正規化信号値Z(i,k)の例]
本形態では正規化信号値Z(i,k)の一例として、S=2とし、基準センサ20−1に対応する周波数領域信号X(1,i,k)と、他方のセンサ20−2に対応する周波数領域信号X(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値Z(i,k)とする(正規化信号値Z(i,k)の例1)。この例では、正規化部13は、以下の式(3)(4)によって算出された信号到来方向推定値θ(i,k)を正規化信号値Z(i,k)を算出する。なお、νは音速(約340m/秒)を示し、dはセンサ間距離(m)を示し、fは周波数インデックスkに対応する離散周波数f=fs・k/Mを示し、arg(・)は・の位相(偏角)を示す。また、τ(i,k)は信号源から各センサ20−1,2までの信号到達時間差を示し、θ(i,k)は信号到来方向推定値を示す。また、式(4)によって算出される信号到来方向θ(i,k)は、センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとした角度(radian)である。なお、このように算出された正規化信号値Z(i,k)は、周波数成分fが正規化され、周波数依存性が排除された値となる。
また、前述の式(3)で算出された信号到達時間差τ(i,k)を正規化信号値Z(i,k)としてもよい(正規化信号値Z(i,k)の例2)。なお、このように算出された正規化信号値Z(i,k)も周波数成分fが正規化され、周波数依存性が排除された値となる。
また、周波数領域信号X(1,i,k)の位相に対する周波数領域信号X(1,i,k)の位相差arg(X(2,i,k)/X(1,i,k))を正規化信号値Z (i,k)としてもよいし(正規化信号値Z(i,k)の例3)、周波数領域信号X(1,i,k)の位相と周波数領域信号X(1,i,k)の位相との差arg(X(2,i,k))- arg (X(1,i,k))を正規化信号値Z(i,k)としてもよい(正規化信号値Z (i,k)の例4)。さらに、周波数領域信号X(1,i,k)の振幅に対する周波数領域信号X(1,i,k)の振幅の比|X(2,i,k)|/|X(1,i,k)|を正規化信号値Z(i,k)としてもよいし(正規化信号値Z (i,k)の例5)、周波数領域信号X(1,i,k)のパワーに対する周波数領域信号X(1,i,k)のパワーの比|X(2,i,k)|/|X(1,i,k)|を正規化信号値Z(i,k)としてもよい(正規化信号値Z(i,k)の例6)。
また、上記ではセンサの数が2つの場合を例示したが、センサの数が3以上の場合は、例えば以下のように、目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求め、それら2つの値を時間周波数ビン(i,k)に対する正規化信号値Z(i,k)としてもよい(正規化信号値Z(i,k)の例7)。
まず、各センサ20−s(s=1,...,S)の空間中の座標ベクトルをd=[x座標,y座標,z座標]とする。また、J(J∈(1,...,S))番目のセンサ20−Jを基準センサとし、基準センサ20−Jと各センサ20−sとの距離ベクトルDを以下の式(5)のように設定する。なお、[・]Tはベクトル・の転置を示す。
D=[d1-dJ, d2-dJ,...,dS-dJ]T ...(5)
また、基準センサ20−Jと各センサ20−sとの信号到達時間差τ(s,i,k)を以下の式(6)で求め、それらを要素とした信号到達時間差ベクトルτ'(i,k)を以下の式(7)のように求める。
τ'(i,k)=[τ(1,i,k),τ(2,i,k),...,τ(S,i,k)]T ...(7)
上述の式(5)〜(7)には以下の式(8)の関係が成り立ち、以下の式(8)から目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求める。なお、式(8)におけるD-1はムーア・ペンローズ型一般化逆行列などの一般化逆行列である。また、目的信号の到来方位角とはx−y平面上の目的信号の到来方向を意味し、目的信号の仰角とはx−z平面上の目的信号の到来方向を意味する。また、y軸線方向が0radianである。
ν・D-1・τ'(i,k)=[cosθ(i,k) cosφ(i,k),sinθ(i,k)sinφ(i,k),sinφ(i,k)] T
...(8)
また、上述の正規化信号値Z(i,k)の例1〜7で例示した正規化信号値Z(i,k)を組み合わせ、時間周波数ビン(i,k)毎に2以上の正規化信号値Z(i,k)を算出する構成であってもよい(正規化信号値Z (i,k)の例8)。例えば、位相差arg(X(2,i,k)/ X(1,i,k))と振幅の比|X(2,i,k)|/|X(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値Z (i,k)としてもよい。また、例えばS=3とし、位相差arg(X(2,i,k)/ X(1,i,k))と位相差arg(X(3,i,k)/ X(1,i,k))との組を時間周波数ビン(i,k)の正規化信号値Z(i,k)としてもよい。また、上述のように生成した値の写像を正規化信号値Z(i,k)としてもよい([正規化信号値Z(i,k)の例]の説明終わり)。
以上のようにステップS4では、正規化部13が上述のような正規化信号値Z(i,k)を生成し、出力する。
正規化部13から出力された正規化信号値Z(i,k)と、周波数領域変換部12から出力された周波数領域信号とは、空間パワー分布推定部14に入力される。なお、空間パワー分布推定部14に入力される周波数領域信号は何れかのセンサ20に対応するものでよく、以下では周波数領域信号X(1,i,k)が空間パワー分布推定部14に入力される例を示す。しかし、その他のセンサ20に対応する周波数領域信号X(s,i,k)を用いてもよく、また、複数のセンサに対応する周波数領域信号を平均したものを用いてもよい。
空間パワー分布推定部14は、これらを用い、正規化信号値Z(i,k)に対応するフレームiの周波数領域信号X(1,i,k)の振幅の絶対値に対して単調増加する値を、当該正規化信号値Z(i,k)が属する到来方向区分rの当該フレームiでの空間パワー分布値P(i,r)とし、出力する(ステップS5)。なお、到来方向区分rとは、正規化信号値Z(i,k)がとり得る全範囲を複数に分割した各区分を意味する。例えば、正規化信号値Z(i,k)がとり得る全範囲を均等にR個の区分に分割し、各区分を到来方向区分r(r∈{1,...,R})としてもよいし、正規化信号値Z(i,k)がとり得る全範囲を不均等にR個の区分に分割し、各区分を到来方向区分r(r∈{1,...,R})としてもよい。なお、rは各到来方向区分に対応するインデックスである。また、周波数領域信号X(1,i,k)の振幅の絶対値|X(1,i,k)|に対して単調増加する値としては、例えば、振幅の絶対値|X(1,i,k)|やパワー|X(1,i,k)|2を例示できる。以下にステップS5の詳細を例示する。
[ステップS5の例]
図4(a)に示した例の場合、まず、空間パワー分布推定部14の時間周波数マスク生成部14a(図2(a))に各正規化信号値Z(i,k)が入力される。時間周波数マスク生成部14aは、各正規化信号値Z(i,k)を用い、特定の到来方向区分rに属する正規化信号値Z(i,k)の周波数ビンk及びフレームiに対してハイレベル値をとり、当該特定の到来方向区分rに属しない正規化信号値Z(i,k)の周波数ビンk及びフレームiに対してローレベル値(<ハイレベル値)をとる、当該特定の到来方向区分rと周波数ビンkとフレームiとを変数とする関数である時間周波数マスクMask(i,k,r)を生成して出力する(ステップS51)。時間周波数マスクMask(i,k,r)の一例は、以下のバイナリマスクである。
なお、Θrは、到来方向区分rに属する正規化信号値Z(i,k)の範囲を意味する。また、式(9)の例では、aがローレベル値に相当し、bがハイレベル値に相当する。到来方向区分rごとに信号を抜き出す時間周波数マスクとする場合には、例えば、a=0,b=1とする。また、式(9)の時間周波数マスクMask(i,k,r)は、ローレベル値aからハイレベル値bへの推移及びハイレベル値bからローレベル値aへの推移が不連続なバイナリマスクであるが、周波数ビンkやフレームiの変化に伴う出力値の推移が、ハイレベル値からローレベル値及びローレベル値からハイレベル値にかけてそれぞれ滑らかな時間周波数マスクMask(i,k,r)が生成されてもよい。
時間周波数マスク生成部14aで生成された時間周波数マスクMask(i,k,r)は、空間パワー分布推定部14のマスク適用部14b(図2(a))に入力され、マスク適用部14bにはさらに周波数領域変換部12から出力された周波数領域信号X(1,i,k)が入力される。マスク適用部14bは、周波数ビンkとフレームiとの組が同一である周波数領域信号X(1,i,k)と時間周波数マスクMask(i,k,r)との積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を用い、当該フレームiと当該到来方向区分rとに対応する空間パワー分布値P(i,r)を全ての到来方向区分r(r∈{1,...,R})について生成して出力する(ステップS52)。例えば、マスク適用部14bは、周波数ビンkとフレームiとの組が同一である周波数領域信号X(1,i,k)と時間周波数マスクMask(i,k,r)との積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を、対応するフレームiと到来方向区分rとの組が同一である集合ごとに周波数ビンkについて平均し、当該フレームiと当該到来方向区分rとに対応する空間パワー分布値P(i,r)を生成する。より具体的には、マスク適用部14bは、例えば、以下のようにして空間パワー分布値P(i,r)を生成する。
また、マスク適用部14bが、積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を全ての周波数ビンkについて平均するのではなく、一部の周波数ビンのみについて平均し、空間パワー分布値P(i,r)を求めてもよい。さらに、マスク適用部14bが、何れかの周波数ビンに対応する積Mask(i,k,r)・X(1,i,k)に対して単調増加する値を空間パワー分布値P(i,r)としてもよい。例えば、支配的な1つの周波数ビンk'に対する
P(i,r)=|Mask(i,k',r)・X(1,i,k')|2 ...(11)
を空間パワー分布値P(i,r)としてもよい。
また、時間周波数マスクを用いるのではなく、代わりに遅延和法(大賀寿朗,山崎芳男,金田豊,“音響システムとディジタル処理”,社団法人電子情報通信学会,1995,1995, pp.197-208)などによって得られた各フレームiの到来方向区分r毎の空間スペクトルを空間パワー分布値P(i,r)としてもよい([ステップS5の例]の説明終わり)。
以上のように空間パワー分布推定部14から出力された空間パワー分布値P(i,r)は、雑音区間空間パワー分布推定部15に入力される。
雑音区間空間パワー分布推定部15は、目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分rの空間パワー分布値P(i,r)とを用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値λN(i,r)を各到来方向区分rについて生成し、出力する(ステップS6)。なお、この場合の雑音区間のフレームには、例えば、「観測信号の冒頭数フレームには目的信号が含まれない」と仮定し、観測信号の冒頭数フレームを用いる。また、音声信号や音楽信号の持つ周期性成分を検出する手段(例えば、特開第2008−64821号公報)などを用いて目的信号が含まれないことが推定されるフレームを推定し、それを雑音区間のフレームとして用いてもよい。以下にステップS6の詳細を例示する。
[ステップS6の例]
雑音区間空間パワー分布値λN(i,r)の生成は、例えば、複数の雑音区間のフレームでの各到来方向区分の空間パワー分布値P(i,r)を、到来方向区分rごとに当該雑音区間のフレームについて平均した値を、各到来方向区分rについての雑音区間空間パワー分布値λN(i,r)とすることによって行われる。すなわち、雑音区間空間パワー分布推定部15は、例えば、以下の式によって、全ての到来方向区分rについて雑音区間空間パワー分布値λN(i,r)を生成する。
ここで、INは雑音区間に属するフレームのフレームインデックスの集合を意味し、Num(・)は、集合・に含まれる要素数を出力する関数を意味する。なお、式(12)の場合、雑音区間空間パワー分布値λN(i,r)はフレームiに依存せず、到来方向区分rが同一であれば各フレームiについて一定となる。
また、観測信号の冒頭数フレームを雑音区間のフレームとして式(12)によって雑音区間空間パワー分布値λN(i,r)を求めた後、以下のように雑音区間空間パワー分布値λN(i,r)を各フレームで更新してもよい。
なお、αは0以上1以下の定数であり、例えば、α=0.8とする。また、各フレームiが雑音区間に属するか否かの判断は、前述の音声信号や音楽信号の持つ周期性成分を検出する手段などを用いて行われる。なお、式(13)によって得られる雑音区間空間パワー分布値λN(i,r)も、複数の雑音区間のフレームでの各到来方向区分の空間パワー分布値P(i,r)を、到来方向区分rごとに当該雑音区間のフレームについて平均(加重平均)した値に含まれる。
また、何れかの雑音区間のフレームでの各到来方向区分の空間パワー分布値P(i,r)を、そのまま、各到来方向区分rについての雑音区間空間パワー分布値λN(i,r)として用いてもよい([ステップS6の例]の説明終わり)。
以上のように雑音区間空間パワー分布推定部15から出力された雑音区間空間パワー分布値λN(i,r)は、事後信号対雑音比推定部16に入力され、事後信号対雑音比推定部16には、さらに、空間パワー分布推定部14から出力された空間パワー分布値P(i,r)が入力される。事後信号対雑音比推定部16は、各到来方向区分rの各フレームiにおける空間パワー分布値P(i,r)と、各到来方向区分rの雑音区間空間パワー分布値λN(i,r)とを用い、当該空間パワー分布値P(i,r)と当該雑音区間空間パワー分布値λN(i,r)との比である事後信号対雑音比γ(i,r)を、到来方向区分rごとに各フレームiについて生成し、出力する(ステップS7)。例えば、事後信号対雑音比推定部16は、同一の到来方向区分rに対応する空間パワー分布値P(i,r)と雑音区間空間パワー分布値λN(i,r)との組ごとに、当該空間パワー分布値P(i,r)を当該雑音区間空間パワー分布値λN(i,r)で除算し、その演算結果P(i,r)/λN(i,r)を、当該空間パワー分布値P(i,r)の到来方向区分r及びフレームiに対応する事後信号対雑音比γ(i,r)として生成する。なお、前述のように雑音区間空間パワー分布値λN(i,r)は、全てのフレームiについて同一であってもよいし、フレームiごとに更新されるものであってもよい。
γ(i,r)=P(i,r)/λN(i,r) ...(14)
事後信号対雑音比推定部16から出力された事後信号対雑音比γ(i,r)は、事前信号対雑音比推定部17に入力される。事前信号対雑音比推定部17は、事後信号対雑音比γ(i,r)を少なくとも用い、雑音区間空間パワー分布値λN(i,r)と、空間パワー分布値P(i,r)の目的信号成分である目的信号空間パワー分布値λS(i,r)との比である事前信号対雑音比ξ(i,r)を、到来方向区分rごとに各フレームiについて生成し、出力する(ステップS8)。以下にステップS8の詳細を例示する。
[ステップS8の例]
事前信号対雑音比推定部17は、例えば、事後信号対雑音比γ(i,r)から1を減じた値を、当該事後信号対雑音比γ(i,r)の到来方向区分r及びフレームiに対応する事前信号対雑音比ξ(i,r)=λS(i,r)/λN(i,r)として生成する。
ξ(i,r)=γ(i,r)-1 ...(15)
この場合には、少ない演算量で事前信号対雑音比ξ(i,r)が算出できる。また、各フレームiの雑音区間空間パワー分布値λN(i,r)が実環境によく適合する場合、すなわち、
λS(i,r)=P(i,r)-λN(i,r) ...(16)
が実環境によく適合する場合にはよい推定となる。
また、事前信号対雑音比推定部17に、空間パワー分布推定部14から出力された空間パワー分布値P(i,r)と、事後信号対雑音比推定部16から出力された事後信号対雑音比γ(i,r)と、雑音区間空間パワー分布推定部15から出力された雑音区間空間パワー分布値λN(i,r)とが入力され、事前信号対雑音比推定部17が以下のように、到来方向区分r及びフレームiに対応する事前信号対雑音比ξ(i,r)を生成してもよい。
ξ(i-1,r)=β・|S^(i-1,r)|2N(i-1,r)+(1-β)・max(γ(i,r)-1,0) ...(17)
S^(i-1,r)={(ν(i-1,r))1/2/γ(i-1,r)}・Γ(1.5)・exp(-ν(i-1,r)/2)・[(1+ν(i-1,r))・I0(ν(i-1,r)/2)+ν(i-1,r)・I1(ν(i-1,r)/2)]・(P(i-1,r))1/2 ...(18)
ν(i-1,r)=ξ(i-1,r)・γ(i-1,r)/(1+ξ(i-1,r)) ...(19)
なお、max(・)は・の最大値を出力する関数であり、Γ(・)はガンマ関数であり、I0(・)とI1(・)とは、それぞれ0次と1次の第1種修正ベッセル関数であり、βは0以上1以下の定数である。また、前述のように雑音区間空間パワー分布値λN(i,r)は、全てのフレームiについて同一であってもよいし、フレームiごとに更新されるものであってもよい。また、式(18)(19)は、周波数スペクトル上で雑音中の音声信号の振幅を最小二乗誤差推定する手法である「Ephraim, Y. and Malha, D., "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Transactions on Acoustic, Speech, and Signal Processing, vol.ASSP-32, pp. 1109-1121, 1984」の式(7)〜(10)を、到来方向区分rごとの空間パワー分布推定に適用したものであり、|S^(i-1,r)|2が目的信号空間パワー分布値λS(i,r)の推定値となる([ステップS8の例]の説明終わり)。
以上のように事前信号対雑音比推定部17から出力された事前信号対雑音比ξ(i,r)は、尤度比計算部18に入力され、さらに、尤度比計算部18には、事後信号対雑音比推定部16から出力された事後信号対雑音比γ(i,r)が入力される。
尤度比計算部18は、入力された事後信号対雑音比γ(i,r)と事前信号対雑音比ξ(i,r)とを用い、到来方向区分rに対応する観測信号X(r)のフレームiが雑音区間(目的信号を含まない区間)である尤度pi(X(r)|H0)と目的信号区間(目的信号を含む区間)である尤度pi(X(r)|H1)との比である尤度比Λ(i,r)を生成し、出力する(ステップS9)。なお、H0は、観測信号X(r)のフレームiが雑音区間であるとの仮定を意味し、H1は、観測信号X(r)のフレームiが目的信号区間であるとの仮定を意味する。具体的には、本形態の尤度比計算部18は、例えば、以下のように尤度比Λ(i,r)を生成して出力する。
Λ(i,r)={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))} ...(19)
以下にこの導出を行う。まず、尤度pi(X(r)|H0)及びpi(X(r)|H1)は、以下のように定義される(例えば、参考文献1「Sohn, J., Kim, N.-S., and Sung, W., "A Statistical Model-based Voice Activity Detection," IEEE Signal Processing Letters, Vol. 6, No.1, pp. 1-3, 1999.」の式(1)(2)参照)。
これらの尤度の比をとり、ξ(i,r)=λS(i,r)/λN(i,r)とγ(i,r)=P(i,r)/λN(i,r)の関係を用いることで、以下のように尤度比Λ(i,r)が得られる。
Λ(i,r)=pi(X(r)|H1)/pi(X(r)|H0)
={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))}
このように、本形態では、正確なλS(i,r)を直接求めることができないため、以上のように事後信号対雑音比γ(i,r)と事前信号対雑音比ξ(i,r)とを求め、それらを用いて尤度比Λ(i,r)を計算する。
尤度比計算部18から出力された尤度比Λ(i,r)は判定部19に入力される。判定部19は、尤度比Λ(i,r)を指標とし、各フレームiが目的信号区間であるか否かを判定し、その判定結果を出力する(ステップS10)。以下にステップS10の詳細を例示する。
[ステップS10の例]
図4(b)の例では、判定部19は、尤度比Λ(i,r)又はその関数値をフレームiごとに到来方向区分rについて平均し、その演算結果を指標として、各フレームiが目的信号区間であるか否かを判定する。
この例ではまず、判定部19の平均算出部19a(図2(a))に尤度比Λ(i,r)が入力され、平均算出部19aは、尤度比Λ(i,r)又はその関数値をフレームiごとに到来方向区分rについて平均した平均値Ave(i)を生成し、出力する(ステップS101)。平均値Ave(i)の一例は、尤度比Λ(i,r)に対する対数尤度比logΛ(i,r)をフレームiごとに全到来方向区分r(r∈{1,...,R})について平均した以下の平均対数尤度比logΛ(i)である。なお、式(22)の対数は自然対数である。
また、平均算出部19aが、各フレームiの前後Wフレーム(i-W,...,i,...i+W)において尤度比Λ(i,r)を乗算し、その乗算値又はその関数値を到来方向区分rについて平均した平均値Ave(i)を生成し、出力してもよい。すなわち、Λ(i)の代わりに以下のΛ'(i)を用いてもよい。
平均算出部19aから出力された平均値Ave(i)は、判定部19の閾値比較部19bに入力され、閾値比較部19bは、各フレームiについて、平均値Ave(i)が閾値thよりも大きいか否かを判断する(ステップS102)。ここで、平均値Ave(i)>thである場合(「平均値Ave(i)≧thである場合」としてもよい)、そのフレームiは目的信号区間である
として1を出力し(ステップS103)、平均値Ave(i)<thである場合(「平均値Ave(i)≦thである場合」としてもよい)、そのフレームiは雑音区間である
として0を出力する(ステップS104)。なお、閾値thは、平均値Ave(i)の時間長平均(複数のフレームiに対する平均)や分散などの統計量を用いて設定されてもよいし、th=0.2などの固定値を事前に設定しておいてもよい。分散などの統計量を用いて閾値thを設定する場合の一例としては、目的信号が存在しないと推定されるフレームを判定対象のフレームについて平均値Ave(i)を求め、それらの平均値から所定のマージンを設けた値を閾値thとする方法がある。
[ステップS10の変形例]
次に、ステップS10の変形例を示す。
第1の変形例では、図2(a)の判定部19の代わりに、図5(a)の判定部19を用いる。この変形例の場合、判定部19の閾値比較部19cは、入力された尤度比Λ(i,r)と、到来方向区分rごとに設定された閾値th(r)とを到来方向区分rごとに比較し、到来方向区分rごとにそのフレームiが目的信号区間であるか否かを判定し、その判定結果を出力する。例えば、尤度比Λ(i,r)>th(r)である場合(「尤度比Λ(i,r)≧th(r)である場合」としてもよい)、そのフレームiはその到来方向区分rについて目的信号区間である
として1を出力し、尤度比Λ(i,r)<th(r)である場合(「尤度比Λ(i,r)≦th(r)である場合」としてもよい)、そのフレームiはその到来方向区分rについて雑音区間である
として0を出力する。なお、閾値th(r)は、尤度比Λ(i,r)の時間長平均(複数のフレームiに対する平均)や分散などの統計量を用いて設定されてもよいし、th=0.2などの固定値を事前に設定しておいてもよい。
第2の変形例では、図2(a)の判定部19の代わりに、図5(b)の判定部19を用いる。この変形例の場合、事前学習されたフレームの音響特徴量(P(i,r)やΛ(i,r))と当該フレームが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するフレームが目的信号区間に対応するか否かを判定する。この例の場合、例えば、パラメータ学習部19dに、フレームの音響特徴量(P(i,r)やΛ(i,r))と当該フレームが目的信号区間であるか否かの判定結果との組からなる学習サンプルが入力され、パラメータ学習部19dがパターン認識学習を行い、モデルパラメータを求める。そして、パターン認識部19eにこのパラメータと判定対象のフレームの音響特徴量を入力し、パターン認識によってそのフレームが目的信号区間であるか否かを判定する。なお、パターン認識技術には、例えば、公知のサポートベクターマシーン(津田宏治,“サポートベクターマシーンとは何か”,電子情報通信学会誌,2000:460〜466頁)や、隠れマルコフモデル(北研二,中村哲,永田昌明,“音声言語処理”,森出版株式会社,1996:57〜90頁)等を利用する。
その他、判定部19が、目的信号区間であるか否かの判定結果を出力するのではなく、前述の尤度比Λ(i,r)や平均対数尤度比logΛ(i)やΛ(i)そのものや、それを0〜1の収まる値に変換したΛ(i)/(1+Λ(i))やlogΛ(i)/(1+logΛ(i))やΛ(i)/(1+Λ(i))や、尤度pi(X(r)|H0)や尤度pi(X(r)|H1)などを出力してもよい。
<実験結果>
本形態の効果を示すために、複数のマイクロホンを用いて観測した、音声信号を雑音信号が混在する音響信号を本形態の目的信号区間推定方法によって分析し、得られた尤度比Λ(i,r)(尤度比計算部18の出力)を用いて目的信号区間(この実験では音声信号区間)を検出する実験例を示す。使用した音響信号データは大学の研究室内で学生がポスターを用いて自身の研究の発表を行っている発話を収録した信号で、サンプリング周波数16kHz、量子化ビット数16ビットで離散サンプリングされたものを用いた。ここでの検出対象となる目的信号は発表者又は聞き手の発生した音声信号とする。この収録には、発表者1名と聞き手2名が参加した。収録された信号には、研究室内にある複数の計算機による雑音や、部屋外かの雑音が常に混入している。収録には8本の全指向性マイクロホン(センサ20−1〜8)を用いており、これらは図6に示す間隔で配置されていた。このようにして収録された音響信号に対し、1フレームの時間量を32ms(512サンプル点)とし、16ms(256サンプル点)ごとにフレームの始点を移動させて、本形態の目的信号区間推定方法を適用し、各フレームで尤度比を推定した。また、正規化信号値Z(i,k)として信号到来方向θ(i,k)を用い、0〜180度を1度毎に180分割した各区分を到来方向区分r(r∈{1,...,180})とした。
図7(a)は、このような条件で尤度比計算部18から出力された尤度比Λ(i,r)を例示するグラフであり、図7(b)は、平均算出部19aから出力された平均対数尤度比Λ(i)を例示するグラフである。ここで、図7(a)(b)の横軸は各フレームiの中心時間[秒]を示す。また、図7(a)の縦軸は信号到来方向である方位角[度]を示し、図7(b)の縦軸は平均対数尤度比Λ(i)を示す。また、図7(a)では、色が白に近いほど尤度比Λ(i,r)が高い値であることを示し、色が黒に近いほど尤度比Λ(i,r)が低い値であることを示している。図7(a)(b)に示すように、本形態の目的信号区間推定方法によって得られた尤度比Λ(i,r)は、話者の位置と発話の有無に応じて変化する。
また、本形態の効果を示すために、約15分程度のポスター発表の全データを用いてDER (Diarization Error Rate)による評価を行った。DERは、目的信号の無い箇所で誤って目的信号を検出した時間長FST(False-alarm Speech Time)及び目的信号の有る箇所を誤って目的信号無しとした時間長MST(Missed Speech Time)を統合して評価するもので、DER=(FST+MST)/データの総時間長×100(%)として求められる。このDERが低いほど目的信号区間推定精度が高いことを意味する。なお、比較として、本形態の手法(本形態)によって目的信号区間を推定した場合の他、参考文献1の手法(従来手法A)によって目的信号区間を推定した場合と、非特許文献5の手法(従来手法B)によって目的信号区間を推定した場合とのDERも測定した。
図8は、本形態と従来手法Aと従来手法Bでそれぞれ推定された目的信号区間のDERを示すグラフである。この図に示すように、本形態の手法が、従来手法Aと従来手法Bに比べ、方向性雑音や拡散性雑音のある環境下で、より高精度に目的信号区間を推定できる手法であることが分かる。
〔変形例等〕
なお、本発明は上述の実施形態に限定されるものではない。例えば、上記の実施形態では、尤度比計算部18が、事後信号対雑音比推定部16で生成された事後信号対雑音比γ(i,r)と、事前信号対雑音比推定部17で生成された事前信号対雑音比ξ(i,r)とを用い、尤度比Λ(i,r)を計算して出力し、判定部19はそれを指標として目的信号区間であるか否かを判定していた。しかし、尤度比計算部18が、尤度比Λ(i,r)ではなく尤度比Λ(i,r)の関数値を出力し、判定部19がそれを指標として目的信号区間であるか否かを判定する構成でもよい。この場合には、判定部19での判定を容易にするため、尤度比Λ(i,r)の関数値は、尤度比Λ(i,r)に対して単調増加するものか、単調減少するものであることが望ましい。また、尤度比Λ(i,r)の関数値の一例は、尤度比Λ(i,r)の対数尤度比logΛ(i,r)である。尤度比計算部18が対数尤度比logΛ(i,r)を出力する例の場合、例えば、平均算出部19a(図2(a))が、入力された対数尤度比logΛ(i,r)をフレームiごとに到来方向区分rについて平均した平均値Ave(i)を生成して出力し、その後、前述したステップS102〜S104の処理を実行すればよい。
また、事前信号対雑音比ξ(i,r)=γ(i,r)-1とする場合には、事前信号対雑音比推定部17で事前信号対雑音比ξ(i,r)を計算することなく、尤度比計算部18が、事後信号対雑音比推定部16で生成された事後信号対雑音比γ(i,r)のみを用い、以下のように対数尤度比logΛ(i,r)を生成し、出力してもよい。この場合には、事前信号対雑音比推定部17が不要となる。
logΛ(i,r)=γ(i,r)-logγ(i,r)-1 ...(24)
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、信号区間推定装置10がサンプリング部30を包含する構成であってもよいし、信号区間推定装置10の機能を複数のコンピュータで分散処理する構成であってもよい。また、上述の実施形態では、マイクロホンで観測された音響信号を処理対象とし、目的信号区間を推定することとしたが、音響信号以外の信号、例えば、超音波、電磁波等を処理対象とし、目的信号区間を推定してもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい
本発明の利用分野としては、例えば、音声信号や音楽信号などの目的信号が雑音信号とともに観測される環境においてなされる、目的信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理分野を例示できる。もちろん、音響信号以外の信号処理に本発明を適用してもかまわない。
図1は、本形態の目的信号区間推定装置の全体構成を例示したブロック図である。 図2(a)は、本形態の空間パワー分布推定部の詳細を例示するブロック図であり、図2(b)は、本形態の判定部の詳細を例示するブロック図である。 図3は、本形態の目的信号区間推定方法を説明するためのフローチャートである。 図4(a)は、ステップS5の詳細を例示するためのフローチャートであり、図4(b)は、ステップS10の詳細を例示するためのフローチャートである。 図5(a)(b)は、判定部の変形例を示すブロック図である。 図6は、実験におけるマイクロホンの配置を説明するための図である。 図7(a)は、このような条件で尤度比計算部から出力された尤度比Λ(i,r)を例示するグラフであり、図7(b)は、平均算出部から出力された平均対数尤度比Λ(i)を例示するグラフである。 図8は、本形態と従来手法Aと従来手法Bでそれぞれ推定された目的信号区間のDERを示すグラフである。
符号の説明
10 信号区間推定装置

Claims (12)

  1. 目的信号が存在する目的信号区間を推定する目的信号区間推定装置であって、
    複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出す信号切出部と、
    上記信号切出部で切り出された各フレームの信号を周波数領域に変換した周波数領域信号を各センサについて生成する周波数領域変換部と、
    上記センサに含まれる特定の基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の何れかの上記センサに対応する周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を各フレームについて生成する正規化部と、
    上記正規化信号値がとり得る全範囲を複数に分割した各区分を各到来方向区分とし、上記正規化信号値に対応するフレームの上記周波数領域信号の振幅の絶対値に対して単調増加する値を、当該正規化信号値が属する上記到来方向区分の当該フレームでの空間パワー分布値とする空間パワー分布推定部と、
    目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分の空間パワー分布値を用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値を各到来方向区分について生成する雑音区間空間パワー分布推定部と、
    各到来方向区分の各フレームにおける上記空間パワー分布値と、各到来方向区分の上記雑音区間空間パワー分布値とを用い、当該空間パワー分布値と当該雑音区間空間パワー分布値との比である事後信号対雑音比を、到来方向区分ごとに各フレームについて生成する事後信号対雑音比推定部と、
    上記事後信号対雑音比を少なくとも用い、到来方向区分ごとに、各フレームが雑音区間である尤度と各フレームが目的信号区間である尤度との比である尤度比又はその関数値を生成する尤度比計算部と、
    を有する目的信号区間推定装置。
  2. 請求項1の目的信号区間推定装置であって、
    上記事後信号対雑音比を少なくとも用い、上記雑音区間空間パワー分布値と、空間パワー分布値の目的信号成分である目的信号空間パワー分布値との比である事前信号対雑音比を、到来方向区分ごとに各フレームについて生成する事前信号対雑音比推定部をさらに有し、
    上記尤度比計算部は、
    上記事後信号対雑音比と上記事前信号対雑音比とを用いて上記尤度比又はその関数値を生成する、
    ことを特徴とする目的信号区間推定装置。
  3. 請求項1又は2の目的信号区間推定装置であって、
    上記尤度比又はその関数値を指標とし、各フレームが上記目的信号区間であるか否かを判定する判定部をさらに有する、
    ことを特徴とする目的信号区間推定装置。
  4. 請求項3の目的信号区間推定装置であって、
    上記判定部は、
    上記尤度比又はその関数値をフレームごとに上記到来方向区分について平均し、その演算結果を指標として、各フレームが上記目的信号区間であるか否かを判定する、
    ことを特徴とする目的信号区間推定装置。
  5. 請求項1から4の何れかの目的信号区間推定装置であって、
    上記正規化部は、
    周波数ビンとフレームとの組ごとに上記正規化信号値を生成し、
    上記空間パワー分布推定部は、
    特定の到来方向区分に属する上記正規化信号値の周波数ビン及びフレームに対してハイレベル値をとり、当該特定の到来方向区分に属しない上記正規化信号値の周波数ビン及びフレームに対してローレベル値をとる、当該特定の到来方向区分と周波数ビンとフレームとを変数とする関数である時間周波数マスクを生成する時間周波数マスク生成部と、
    周波数ビンとフレームとの組が同一である上記周波数領域信号と上記時間周波数マスクとの積に対して単調増加する値を用い、当該フレームと当該到来方向区分とに対応する空間パワー分布値を生成するマスク適用部と、
    を有することを特徴とする目的信号区間推定装置。
  6. 請求項1から5の何れかの目的信号区間推定装置であって、
    上記雑音区間空間パワー分布推定部は、
    複数の上記雑音区間のフレームでの各到来方向区分の空間パワー分布値を、到来方向区分ごとに当該雑音区間のフレームについて平均した値を、各到来方向区分についての雑音区間空間パワー分布値として生成する、
    ことを特徴とする目的信号区間推定装置。
  7. 請求項の目的信号区間推定装置であって、
    上記事後信号対雑音比推定は、
    同一の到来方向区分に対応する上記空間パワー分布値と上記雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する上記事後信号対雑音比として生成し、
    上記事前信号対雑音比推定部は、
    上記事後信号対雑音比から1を減じた値を、当該事後信号対雑音比の到来方向区分及びフレームに対応する事前信号対雑音比として生成する、
    ことを特徴とする目的信号区間推定装置。
  8. 請求項の目的信号区間推定装置であって、
    上記事後信号対雑音比推定は、
    同一の到来方向区分に対応する上記空間パワー分布値と上記雑音区間空間パワー分布値との組ごとに、当該空間パワー分布値を当該雑音区間空間パワー分布値で除算し、その演算結果を、当該空間パワー分布値の到来方向区分及びフレームに対応する上記事後信号対雑音比として生成し、
    上記事前信号対雑音比推定部は、
    到来方向区分r及びフレームiに対応する上記事後信号対雑音比をγ(i,r)とし、到来方向区分r及びフレームiに対応する上記事前信号対雑音比をξ(i,r)とし、到来方向区分r及びフレームiに対応する空間パワー分布値をP(i,r)とし、到来方向区分r及びフレームiに対応する上記雑音区間空間パワー分布値をλN(i,r)とし、max(・)を・の最大値を出力する関数とし、Γ(・)をガンマ関数とし、I0(・)とI1(・)をそれぞれ0次と1次の第1種修正ベッセル関数とし、ν(i-1,r)=ξ(i-1,r)・γ(i-1,r)/(1+ξ(i-1,r))とし、S^(i-1,r)={(ν(i-1,r))1/2/γ(i-1,r)}・Γ(1.5)・exp(-ν(i-1,r)/2)・[(1+ν(i-1,r))・I0(ν(i-1,r)/2)+ν(i-1,r)・I1(ν(i-1,r)/2)]・(P(i-1,r))1/2とし、βを0以上1以下の定数とした場合における、ξ(i-1,r)=β・|S^(i-1,r)|2N(i-1,r)+(1-β)・max(γ(i,r)-1,0)を到来方向区分r及びフレームiに対応する上記事前信号対雑音比として生成する、
    ことを特徴とする目的信号区間推定装置。
  9. 請求項2、7又は8の何れかの目的信号区間推定装置であって、
    上記尤度比計算部は、
    到来方向区分r及びフレームiに対応する上記事後信号対雑音比をγ(i,r)とし、到来方向区分r及びフレームiに対応する上記事前信号対雑音比をξ(i,r)とした場合における、Λ(i,r)={1/(1+ξ(i,r))}・exp{(γ(i,r)・ξ(i,r))/(1+ξ(i,r))}を上記尤度比として生成する、
    ことを特徴とする目的信号区間推定装置。
  10. 目的信号が存在する目的信号区間を推定する目的信号区間推定装置の目的信号区間推定方法であって、
    信号切出部が、複数のセンサで観測された各信号をそれぞれ所定の時間区間であるフレーム毎に切り出すステップと、
    周波数領域変換部が、上記信号切出部で切り出された各フレームの信号を周波数領域に変換した周波数領域信号を各センサについて生成するステップと、
    正規化部が、上記センサに含まれる特定の基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の何れかの上記センサに対応する周波数領域信号を正規化し、上記センサで観測された信号の到来方向に対応する正規化信号値を各フレームについて生成するステップと、
    空間パワー分布推定部が、上記正規化信号値がとり得る全範囲を複数に分割した各区分を各到来方向区分とし、上記正規化信号値に対応するフレームの上記周波数領域信号の振幅の絶対値に対して単調増加する値を、当該正規化信号値が属する上記到来方向区分の当該フレームでの空間パワー分布値とするステップと、
    雑音区間空間パワー分布推定部が、目的信号が存在しないと推定される雑音区間のフレームに対応する各到来方向区分の空間パワー分布値を用い、雑音区間の空間パワー分布値の推定値である雑音区間空間パワー分布値を各到来方向区分について生成するステップと、
    事後信号対雑音比推定部が、各到来方向区分の各フレームにおける上記空間パワー分布値と、各到来方向区分の上記雑音区間空間パワー分布値とを用い、当該空間パワー分布値と当該雑音区間空間パワー分布値との比である事後信号対雑音比を、到来方向区分ごとに各フレームについて生成するステップと、
    尤度比計算部が、上記事後信号対雑音比を少なくとも用い、到来方向区分ごとに、各フレームが雑音区間である尤度と各フレームが目的信号区間である尤度との比である尤度比又はその関数値を生成するステップと、
    を有する目的信号区間推定方法。
  11. 請求項1から9の何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。
  12. 請求項11に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2008237642A 2008-09-17 2008-09-17 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 Expired - Fee Related JP5134477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008237642A JP5134477B2 (ja) 2008-09-17 2008-09-17 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008237642A JP5134477B2 (ja) 2008-09-17 2008-09-17 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010072164A JP2010072164A (ja) 2010-04-02
JP5134477B2 true JP5134477B2 (ja) 2013-01-30

Family

ID=42204027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008237642A Expired - Fee Related JP5134477B2 (ja) 2008-09-17 2008-09-17 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5134477B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5459220B2 (ja) * 2008-11-27 2014-04-02 日本電気株式会社 発話音声検出装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
JP5147012B2 (ja) * 2008-08-22 2013-02-20 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5459220B2 (ja) * 2008-11-27 2014-04-02 日本電気株式会社 発話音声検出装置

Also Published As

Publication number Publication date
JP2010072164A (ja) 2010-04-02

Similar Documents

Publication Publication Date Title
CN106663446B (zh) 知晓用户环境的声学降噪
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
US20140078867A1 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
JP2018165761A (ja) 音声処理装置、音声処理方法及びプログラム
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
KR20210137146A (ko) 큐의 클러스터링을 사용한 음성 증강
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
JP4871191B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Al-Karawi et al. The effects of distance and reverberation time on speaker recognition performance
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
KR20210110081A (ko) 심층 신경망 기반의 방향각 추정 방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101008

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees