JP4871191B2 - 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 - Google Patents

目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 Download PDF

Info

Publication number
JP4871191B2
JP4871191B2 JP2007101597A JP2007101597A JP4871191B2 JP 4871191 B2 JP4871191 B2 JP 4871191B2 JP 2007101597 A JP2007101597 A JP 2007101597A JP 2007101597 A JP2007101597 A JP 2007101597A JP 4871191 B2 JP4871191 B2 JP 4871191B2
Authority
JP
Japan
Prior art keywords
value
signal
target signal
grid
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007101597A
Other languages
English (en)
Other versions
JP2008257110A (ja
Inventor
健太郎 石塚
宏 澤田
章子 荒木
智広 中谷
雅清 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007101597A priority Critical patent/JP4871191B2/ja
Publication of JP2008257110A publication Critical patent/JP2008257110A/ja
Application granted granted Critical
Publication of JP4871191B2 publication Critical patent/JP4871191B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。
音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。
従来の携帯電話の音声信号を処理対象とした目的信号区間推定では、信号の周波数スペクトル、信号の全帯域のエネルギー、帯域分割後の各帯域のエネルギー、信号波形の零交差数、雑音抑圧後の信号の周波数スペクトル、周波数スペクトルの分散、及びそれらの時間微分などを特徴量として利用し、目的信号区間の推定を行っていた(例えば、非特許文献1の第1乃至4頁、及び非特許文献2の第40乃至43頁参照)。
これらの目的信号区間推定方法では、入力された信号を或る一定時間長(例えば25ms程度)のフレーム毎に分割し、フレーム毎に上述の音響特徴量を算出し、その値が別途定めた閥値を超える場合には目的信号の存在する区間、そうでなければ非目的信号区間として判定する。しかし、上述のような音響特徴量は雑音の影響を受けやすく、街頭などの環境雑音下では十分な目的信号区間推定精度を得られない。
このような雑音環境下での目的信号区間推定を精度よく行う方法として、上記の音響特徴量だけでなく、複数のマイクロフォンによって観測された複数信号間の位相差の情報をも利用する方法もある。
例えば、目的信号が或る定まった方向のみから到来することが既知であれば、複数信号間の位相差の情報を利用し、或る定まった方向から到来した目的信号のみを強調することで目的信号区間推定の精度を向上させることができる(例えば、非特許文献3参照)。他に、零交差数などの音響特徴量に対する関値を目的信号の推定到来方向の信頼度によって決定する方法(例えば、非特許文献4参照)や、空間スペクトルのピークの有無で音声の有無を推定する方法(例えば、非特許文献5参照)や、目的信号の推定到来方向が時間的に一定となる区間を音声の存在する区間とする推定する方法(例えば、非特許文献6参照)などもある。
ITU-T Recommendation G.729 Annex B., "A silence compression scheme for G. 729 optimized for terminals conforming to Recommendation V.70, "1996. ETSI standard document, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms," ETSI ES 202 050 V1.1.5, 2007. Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005. 田中貴雅,傳田遊亀,中山雅人,西浦敬信,"Weighted CSP法と音声特徴量に基づくハンズフリー発話区間検出の検討",日本音響学会2006年度春期全国大会講演論文集,1-P-3, pp. 149-150, Mar. 2006. 山本潔,浅野太,吉村隆,本村陽一,麻生英樹,原功,市村直幸,緒方淳,北脇信彦,"音響情報と画像情報の統合による発話区間検出・分離システムの評価," 日本音響学会秋季研究発表会講演論文集,3−6−10,P121−122,2003. 藤本雅清,有木康雄,堂下修司,"マルチモーダルインタラクションによるニュース映像中の人物認識,"日本音響学会誌,Vol.62,No.3,P182−192,2006.
しかし、従来の方法では、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、精度よく目的信号区間を推定することができないという問題点がある。
例えば、非特許文献3の方法では目的信号の到来方向を事前に知っておく必要があり、目的信号の到来方向が不明な場合には、精度よく目的信号区間を推定することができない。また、非特許文献4〜6の方法は目的信号の到来方向が正確に推定できることを前提にした方法である。しかし、あらゆる周波数の複数の信号が同時にあらゆる方向から到来するような環境(例えば街頭や駅・空港のような日常環境)では正確に信号到来方向を推定することは困難である。このような場合、非特許文献4〜6の方法によって精度よく目的信号区間を推定することはできない。
本発明はこのような点に鑑みてなされたものであり、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、精度よく目的信号区間を推定することが可能な技術を提供することを目的とする。
本発明では上記課題を解決するために、複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出部と、信号切出部で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、基準センサに対応する周波数領域信号を基準として、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化部と、時間周波数ビン毎に、当該時間周波数ビンを中心とした複数の時間周波数ビンからなるグリッドに含まれる各時間周波数ビンの正規化信号値の集合出力するグリット分類部と、正規化信号値の偏在性を示す偏在性指標値を時間周波数ビンに対応するグリッド毎に算出する偏在性指標値算出部と、偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する判定部と、を有することを特徴とする目的信号区間推定装置が提供される。
ここで、本発明の正規化部が生成する正規化信号値は信号の到来方方向に対応する値となる。通常、環境雑音は多様な方向からセンサに到来するのに対し、目的信号は或る方向のみからセンサに到来するという性質(性質1)を持つ。そのため、目的信号が存在しない時間周波数ビンの正規化信号値は広く分布する(偏在性が低い)のに対し、目的信号が存在する時間周波数ビンの正規化信号値は目的信号の到来方方向に対応する値の付近に偏って分布する(偏在性が高い)。本発明では、この性質を利用し、偏在性が高い区間を雑音環境化における目的信号区間として推定する。すなわち、正規化信号値の偏在性を示す偏在性指標値を所定の時間周波数区間であるグリッド毎に算出し、偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。この点が本発明特有の主要な特徴である。なお、このように正規化信号値の偏在性を指標とする場合、目的信号の到来方向を正確に知る必要はない。よって、本発明では、目的信号の正確な到来方向を推定できない場合であっても、適切に目的信号区間を推定することができる。
また、本発明の目的信号区間推定装置において好ましくは、周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算部をさらに有し、偏在性指標値算出部は、生成された重み係数によって当該重み係数に対応する時間周波数ビンの正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いて偏在性指標値を算出する。
通常、環境雑音の周波数分布は一様であるのに対し、目的信号は一部の周波数帯域にパワーが集中するという性質(性質2)を持つ。すなわち、目的信号に対応する時間周波数ビンの正規化信号値のパワーは、目的信号に含まれない周波数の正規化信号値のパワーや、環境雑音信号に対応する時間周波数ビンの正規化信号値のパワーと比べ、顕著に大きい。本発明の好ましい構成では、この性質2を反映させた偏在性指標値を生成し、目的信号区間推定精度を向上させる。すなわち、正規化信号値の偏在性を示す偏在性指標値は正規化信号値が取る値の頻度に影響される。つまり、正規化信号値の値が或る値に集中し、その近辺での正規化信号値の値の頻度が高くなれば、生成される偏在性指標値は正規化信号値の偏在性が高いことを示すものとなる。性質2より目的信号が存在する時間周波数ビンの正規化信号値のパワーはそれ以外の正規化信号値のパワーと比べて顕著に大きい。よって、本発明の好ましい構成では、偏在性指標値を算出する際、目的信号が存在する時間周波数ビンの正規化信号値の値に大きな重みを付し、それ以外の時間周波数ビンの正規化信号値の値に小さな重みを付すことになる。その結果、目的信号に起因する正規化信号値の偏在性がより明確に表れた偏在性指標値を得ることができ、偏在性指標値を指標として行われる目的信号区間の推定精度が向上する。
また、この場合により好ましくは、重み係数は、周波数領域信号の振幅の絶対値に対して単調増加の関係にある値を、周波数領域信号の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である。これにより、グリッド毎に目的信号のパワーが変動する環境であったとしても、その変動の影響を抑制しつつ偏在性指標値を算出することができる。その結果、目的信号区間の推定精度が向上する。
また、本発明において正規化部は、例えば、基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である正規化信号値を生成する。
また、この場合に好ましくは、正規化信号値は、周波数成分が正規化され、周波数依存性が排除された値である。正規化信号値の周波数依存性が排除されていない場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向と周波数とに依存した値となる。一方、正規化信号値の周波数依存性が排除されていた場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向のみに依存した値となる。すなわち、同じ目的信号に対応する正規化信号値であったとしても、周波数依存性が排除された正規化信号値のほうが、周波数依存性が排除されていない正規化信号値よりも偏在性が高い。その結果、目的信号に起因する正規化信号値の偏在性がより明確に表れた偏在性指標値を得ることができ、偏在性指標値を指標として行われる目的信号区間の推定精度が向上する。
また、本発明において好ましくは、正規化部は、時間周波数ビン毎に2種類以上の正規化信号値を生成し、偏在性指標値算出部は、各グリッドに属する2種類以上の正規化信号値の偏在性をそれぞれ示す2以上の偏在性指標値をグリッド毎に算出し、判定部は、グリッド毎の2以上の偏在性指標値に重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。
このように時間周波数ビン毎に2種類以上の正規化信号値を用いることにより、目的信号の存在に起因する正規化信号値の偏在性の上昇をより正確に捉えることができる。また、2以上の偏在性指標値をグリッド毎に算出し、それらに重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。これにより、2以上の偏在性指標値のうち信頼性が高いほうを重視して目的信号区間に対応するか否かの判定を行うことができる。
また、本発明において好ましくは、正規化部は、時間周波数ビン毎に2種類以上の正規化信号値を生成し、偏在性指標値算出部は、各グリッドに属する2種類以上の正規化信号値を要素とするベクトルの偏在性を示す偏在性指標値をグリッド毎に算出し、判定部は、ベクトルの偏在性を示す偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。これにより、目的信号の存在に起因する正規化信号値の偏在性の上昇をより正確に捉えることができる。
また、本発明の判定部は、例えば、各グリッドの偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各グリッドが目的信号区間に対応するか否かを判定する。
また、本発明の判定部は、例えば、判定対象のグリッドの偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値を算出する第1値算出部と、非目的信号区間のグリッドの偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値を算出する第2値算出部と、第1値と第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のグリッドが目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に判定対象のグリッドが目的信号区間に対応すると判定する閾値判定部と、を有する。
また、本発明の判定部は、例えば、事前学習されたグリッドの偏在性指標値と当該グリッドが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するグリッドが目的信号区間に対応するか否かを判定する。
以上のように本発明では、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、精度よく目的信号区間を推定することが可能となる。
以下、本発明を実施するための最良の形態を図面を参照して説明する。
図1は、本形態の目的信号区間推定装置10の全体構成を例示したブロック図である。また、図2(a)は、図1の偏在性指標値算出部16の詳細構成を例示したブロック図である。また、図2(b)は、図1の判定部17の詳細構成を例示したブロック図である。
<構成>
図1に例示するように、本形態の目的信号区間推定装置10は、信号切出部11と周波数領域変換部12と正規化部13と重み計算部14とグリッド分類部15と偏在性指標値算出部16と判定部17と制御部18と記憶部19とを具備し、S(S≧2)個のセンサ20−1〜Sで観測され、サンプリング部30でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図2(a)に例示するように、この例の偏在性指標値算出部16は、ヒストグラム生成部16aと確率密度関数計算部16bとエントロピー計算部16cとを具備する。また、図2(b)に例示するように、この例の判定部17は、第1値計算部17aと第2値計算部17bと相対値計算部17cと平均尤度比算出部17dと閾値判定部17eとを具備する。
なお、目的信号区間推定装置10は、例えば、CPU(central processing unit),RAM(random access memory),ROM(read only memory)等から構成される公知のコンピュータに所定のプログラムを実行させることによって構成されるものである。
<処理>
次に、本形態の目的信号区間推定方法について説明する。
本形態の目的信号区間推定方法では、複数のセンサ20−1〜Sで観測された各信号を時間周波数分析し、特定の基準センサを基準とした正規化信号値を求め、所定の時間周波数区間であるグリッド内における正規化信号値の偏在性に基づいて、目的信号の有無を検出して出力する。なお、本形態では、複数のセンサ20−1〜Sとしてマイクロフォンを利用し、それらで観測された各音響信号を用い、音声信号や音楽信号などの目的信号の有無を検出して出力する場合を例示する。また、以下では明記しないが、目的信号区間推定装置10は、制御部18の制御に基づいて各演算処理を実行し、各演算処理の過程で得られたデータは記憶部19に逐次格納され、それ以降の各演算処理に利用される。
図3は、本形態の目的信号区間推定方法を説明するためのフローチャートである。以下、このフローチャートに沿って本形態の目的信号区間推定方法を説明していく。
まず、S(S≧2)個のセンサ20−1〜Sでそれぞれ観測された各信号がサンプリング部30に入力される。これらの信号には音声信号や音楽信号等目的信号の他に環境雑音信号も含まれる。サンプリング部30は、各信号を所定(例えば8.000Hz)のサンプリング周波数fでサンプリングし、これにより各センサ20−1〜Sに対応する時間領域の信号x(1,t),...,x(S,t)を抽出する(ステップS1)。なお、tはt番目のサンプリング点を示す。
サンプリング部30で抽出された各時間領域の信号x(1,t),...,x(S,t)は、目的信号区間推定装置10の信号切出部11に入力される。信号切出部11は、入力された各信号x(1,t),...x(S,t)を所定の時間区間であるフレーム毎に切り出し、各センサ20−1〜Sについての各フレームi(iはフレームインデックスを示す)の信号x’(1,i,n),...,x’(S,i,n)を抽出する(ステップS2)。なお、nはフレームiにおけるn番目のサンプル点を表す。具体的には、信号切出部11は、例えば、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ所定の窓関数を例えば時間軸方向に16msずつ移動(シフト)させながら乗じ、これにより、例えば32msの時間長の信号x’(1,i,n),...,x’(S,i,n)を切り出す。より具体的には、例えば、サンプリング周波数が8,000Hzの場合、信号切出部11は、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ例えば式(1)のハニング窓を128サンプル点(8,000Hz×16ms)ずつ移動(シフト)させながら乗じ、センサ20−1〜S毎に、256サンプル点(8,000Hz×32ms)の離散信号を1フレーム分の信号として切り出す。ここで、Lは切り出される1フレーム分の信号のサンプル点数(フレーム長:上述の例ではL=256)を表す。
図7(a)は、このような窓関数をサンプリング部30で抽出された時間領域の信号x(1,t)の波形にシフトさせながら乗じ、各フレームの信号x’(1,i,n)を切り出す過程を例示する図である。なお、この図にはセンサ20−1に対応する時間領域の信号x(1,t)から各フレームの信号x’(1,i,n)を切り出す過程が示されているが、他のセンサ20−2〜Sについても同様に各フレームの信号x’(2,i,n),...,x’(S,i,n)が切り出される。
信号切出部11は、以上のように切り出した各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を出力し、これらは周波数領域変換部12に入力される。
周波数領域変換部12では、各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を周波数領域に変換し、時間周波数ビン(i,k)毎の周波数領域信号(周波数領域スペクトル)X(1,i,k),...,X(S,i,k)を各センサ20−1〜Sについて生成する(ステップS3)。離散フーリエ変換によってこの変換を行なう場合、周波数領域変換部12は、以下の式(2)のように周波数領域信号X(1,i,k),...,X(S,i,k)を算出する。
ここで、jは虚数単位を示し、s(s∈{1,...,S})は各センサ20−1〜Sの番号を示す。また、k(k=0,...,M-1)は周波数インデックスであり、離散周波数をfとすると、f=fs・k/M(k=0,...,M-1)の関係を満たす。なお、fは前述の通りサンプリング周波数であり、Mはフレーム長L以上の自然数である。
図7(b)は、離散フーリエ変換によってセンサ20−1に対応する各フレームの信号x’(1,i,n)を周波数領域信号X(1,i,k)に変換する例を示した図である。なお、他のセンサ20−2〜Sについても同様な変換がなされる。
また、図8(a)は環境雑音化で観測された時間領域の音響信号を例示し、図8(b)は図8(a)に例示した時間領域の音響信号を周波数領域に変換した周波数スペクトル(周波数領域信号)を表現した図である。ここで、図8(a)に例示した音響信号は、街頭騒音下で、4cm間隔で配置された2本のマイクロフォン(センサ20−1,2/S=2)を結ぶ線分の中心を通る線分と直交する方向に40〜60cm離れた位置から目的信号が到来する環境において、片方のマイクロフォン(センサ20−1)で観測された音響信号を示している。また、図8(b)では横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、周波数領域信号X(1,i,k)のパワーの大きさを色の濃淡で表現している。なお、色が薄くなるほど(白くなるほど)周波数領域信号X(1,i,k)のパワーが大きいことを示し、色が濃くなるほど(黒くなるほど)部周波数領域信号X(1,i,k)のパワーが小さいことを示す。図8(b)から、目的信号区間では周波数領域信号X(1,i,k)のパワーが大きく、また一部の周波数にパワーが集中していることが分かる(白い縞模様)。
周波数領域変換部12は、以上のような変換によって得られた周波数領域信号X(1,i,k),...,X(S,i,k)を出力する。
次に、正規化部13に周波数領域信号X(1,i,k),...,X(S,i,k)が入力され、正規化部13は、基準センサsB∈{1,...,S}に対応する周波数領域信号X(sB,i,k)を基準とし、少なくとも当該基準センサsB以外のセンサs(≠sB)に対応する各周波数領域信号X(1,i,k),...,X(S,i,k)を正規化し、時間周波数ビン(i,k)毎の正規化信号値Z (i,k)を生成する(ステップS4)。なお、このような正規化信号値Z (i,k)は、目的信号が存在する時間周波数ビン(i,k)において、目的信号の到来方向に対応する値に偏ったものとなる。以下に正規化部13が生成する正規化信号値Z (i,k)の例を示す。
[正規化信号値Z (i,k)の例]
本形態では正規化信号値Z (i,k)の一例として、S=2とし、基準センサ20−1に対応する周波数領域信号X(1,i,k)と、他方のセンサ20−2に対応する周波数領域信号X(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値Z (i,k)とする(正規化信号値Z (i,k)の例1)。この例では、正規化部13は、以下の式(3)(4)によって正規化信号値Z (i,k)を算出する。なお、νは音速(約340m/秒)を示し、dはセンサ間距離(m)を示し、fは周波数インデックスkに対応する離散周波数f=fs・k/Mを示し、arg(・)は・の位相(偏角)を示す。また、τ(i,k)は信号源から各センサ20−1,2までの信号到達時間差を示し、θ(i,k)は信号到来方向推定値を示す。また、式(4)によって算出される信号到来方向θ(i,k)は、センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとした角度(radian)である。なお、このように算出された正規化信号値Z (i,k)は、周波数成分fが正規化され、周波数依存性が排除された値となる。
図9(a)は図8(b)の周波数領域信号X(1,i,k)をk=1,...,M/2の範囲で示した図である。また、図9(b)は、式(3)(4)に従って算出した信号到来方向推定値θ(i,k)を示した図である。この図9(b)では、横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、信号到来方向推定値を色の濃淡で表現している。なお、図9(b)の信号到来方向推定値θ(i,k)は、±π/2 radianの範囲(センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとする)で推定され、その値を絶対値表現したものである。また、図9(b)では、色が濃くなるほど(黒くなるほど)信号到来方向推定値が0radianに近いことを示し、色が薄くなるほど(白くなるほど)信号到来方向推定値が0radianから外れていることを示している。
図9(a)(b)の比較から、目的信号が存在する時間周波数ビンの領域(図9(a)に示される白い縞模様の領域)で、図9(b)の信号到来方向推定値θ(i,k)は一様に黒く表現されており、信号到来方向推定値θ(i,k)が特定の方向に偏っていることがわかる。すなわち、目的信号が存在し、周波数領域信号X(1,i,k)のパワーが偏っている時間周波数ビンにおいて、信号到来方向推定値θ(i,k)も特定の方向に偏っていることがわかる。その一方で、目的信号が存在せず、周波数領域信号X(1,i,k)のパワーが一様な時間周波数ビンの領域では、信号到来方向推定値θ(i,k)にも偏りがない。このような信号到来方向推定値θ(i,k)を正規化信号値Z (i,k)とした場合、この正規化信号値Z (i,k)の偏在性を指標として目的信号が存在するか否かを判定できる。
同様なことは、前述の式(3)で算出された信号到達時間差τ(i,k)を正規化信号値Z (i,k)とした場合にもいえる(正規化信号値Z (i,k)の例2)。なお、このように算出された正規化信号値Z (i,k)も周波数成分fが正規化され、周波数依存性が排除された値となる。
また、周波数領域信号X(1,i,k)の位相に対する周波数領域信号X(1,i,k)の位相差arg(X(2,i,k)/ X(1,i,k))を正規化信号値Z (i,k)としてもよいし(正規化信号値Z (i,k)の例3)、周波数領域信号X(1,i,k)の位相と周波数領域信号X(1,i,k)の位相との差arg(X(2,i,k))- arg (X(1,i,k))を正規化信号値Z (i,k)としてもよい(正規化信号値Z (i,k)の例4)。さらに、周波数領域信号X(1,i,k)の振幅に対する周波数領域信号X(1,i,k)の振幅の比|X(2,i,k)|/|X(1,i,k)|を正規化信号値Z (i,k)としてもよいし(正規化信号値Z (i,k)の例5)、周波数領域信号X(1,i,k)のパワーに対する周波数領域信号X(1,i,k)のパワーの比|X(2,i,k)|/|X(1,i,k)|を正規化信号値Z (i,k)としてもよい(正規化信号値Z (i,k)の例6)。何れの場合も、目的信号が存在する時間周波数ビン(i,k)においてのみ、目的信号の到来方向に対応する値に偏った値を取るため、正規化信号値Z (i,k)の偏在性を指標として目的信号が存在するか否かを判定できる。
また、上記ではセンサの数が2つの場合を例示したが、センサの数が3以上の場合は、例えば以下のように、目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求め、それら2つの値を時間周波数ビン(i,k)に対する正規化信号値Z (i,k)としてもよい(正規化信号値Z (i,k)の例7)。
まず、各センサ20−s(s=1,...,S)の空間中の座標ベクトルをd=[x座標,y座標,z座標]とする。また、J(J∈(1,...,S))番目のセンサ20−Jを基準センサとし、基準センサ20−Jと各センサ20−sとの距離ベクトルDを以下の式(5)のように設定する。なお、[・]Tはベクトル・の転置を示す。
D=[d1-dJ, d2-dJ,...,dS-dJ]T ...(5)
また、基準センサ20−Jと各センサ20−sとの信号到達時間差τ(s,i,k)を以下の式(6)で求め、それらを要素とした信号到達時間差ベクトルτ'(i,k)を以下の式(7)のように求める。
上述の式(5)〜(7)には以下の式(8)の関係が成り立ち、以下の式(8)から目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求める。なお、式(8)におけるD-1はムーア・ペンローズ型一般化逆行列などの一般化逆行列である。また、目的信号の到来方位角とはx−y平面上の目的信号の到来方向を意味し、目的信号の仰角とはx−z平面上の目的信号の到来方向を意味する。また、y軸線方向が0radianである。
ν・D-1・τ'(i,k)=[cosθ(i,k) cosφ(i,k),sinθ(i,k)sinφ(i,k),sinφ(i,k)] T
...(8)
また、上述の正規化信号値Z (i,k)の例1〜7で例示した正規化信号値Z (i,k)を組み合わせ、時間周波数ビン(i,k)毎に2以上の正規化信号値Z (i,k)を算出する構成であってもよい(正規化信号値Z (i,k)の例8)。例えば、位相差arg(X(2,i,k)/ X(1,i,k))と振幅の比|X(2,i,k)|/|X(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値Z (i,k)としてもよい。また、例えばS=3とし、位相差arg(X(2,i,k)/ X(1,i,k))と位相差arg(X(3,i,k)/ X(1,i,k))との組を時間周波数ビン(i,k)の正規化信号値Z (i,k)としてもよい。また、上述のように生成した値の写像を正規化信号値Z (i,k)としてもよい([正規化信号値Z (i,k)の例]の説明終わり)。
以上のようにステップS4では、正規化部13が上述のような正規化信号値Z (i,k)を生成し、出力する。
また、周波数領域変換部12から出力された(ステップS3)周波数領域信号X(1,i,k),...,X(S,i,k)は、重み計算部14にも入力される。重み計算部14は、周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値に対して単調増加の関係にある重み係数W(i,k)を時間周波数ビン(i,k)毎に生成する(ステップS5)。また、好ましくは、重み係数は、周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値に対して単調増加の関係にある値を、周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である。その理由は前述した通りである。以下、重み係数W(i,k)の例を説明する。
[重み係数W(i,k)の例]
重み係数W(i,k)の例として、例えば、以下の式(9)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワーを合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和で正規化した値を例示できる(重み係数W(i,k)の例1)。
図10(a)は図8(b)の周波数領域信号X(1,i,k)をk=1,...,M/2の範囲で示した図である。また、図10(b)は、式(9)に従って算出した重み係数W(i,k)を示した図である。この図10(b)では、横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、重み係数W(i,k)を色の濃淡で表現している。なお、図10(b)では、色が濃くなるほど(黒くなるほど)重み係数W(i,k)の値が小さいことを示し、色が薄くなるほど(白くなるほど)重み係数W(i,k)の値が大きいことを示している。
図10(a)(b)の比較から、目的信号が存在し、正規化信号値Z (i,k)が偏った値となる時間周波数ビンでは重み係数W(i,k)も大きな値となり、目的信号が存在せず、正規化信号値Z (i,k)が一様な値となる時間周波数ビンでは重み係数W(i,k)も小さな値となることが分かる。すなわち、このように生成した重み係数W(i,k)は、目的信号が存在する時間周波数ビン(i,k)での正規化信号値Z (i,k)の偏在性を強調するための情報として用いることができる。この詳細については後述のステップS9で説明する。また、式(9)の重み係数W(i,k)は、全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和に対する、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和の相対値である。そのため、例えば、背景雑音のパワーが各時刻で変動する環境にように、フレームインデックスi毎に周波数領域信号X(1,i,k),...,X(S,i,k)のパワーが全周波数について一様に変動する場合であっても、重み係数W(i,k)を適切に設定できる。例えば、背景雑音のパワーが極端に大きい場合でも、目的信号が存在する時間周波数ビン(i,k)の重み係数W(i,k)と、目的信号が存在しない時間周波数ビン(i,k)の重み係数W(i,k)との比率を十分大きくとることができる。
また、重み係数W(i,k)として、例えば、以下の式(10)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値を合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値の総和で正規化した値を用いてもよい(重み係数W(i,k)の例2)。
また、式(9)(10)のような正規化を行わないで重み係数W(i,k)を求めてもよい(重み係数W(i,k)の例3)。この場合には演算量が低減できるとともに、雑音環境によっては十分に目的信号区間推定が可能な場合もあるからである。例えば、以下の式(11)(12)のように重み係数W(i,k)を求めてもよい。
また、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値やパワーを合算するのではなく、一部のセンサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値やパワーを合算したり、以下の式(13)(14)のように1個のセンサ20−Jの周波数領域信号X(J,i,k)の振幅の絶対値やパワーを重み係数W(i,k)としたりしてもよい(重み係数W(i,k)の例4)。なおこの場合には、できるだけ信号源に近い(出来れば最も近い)センサ20−Jの周波数領域信号X(J,i,k)を用いることが望ましい。信号源に近いセンサ20−Jほど、遅延や畳み込みの影響が少なく、適切な重み係数W(i,k)を算出できるからである。
W(i,k)=|X(J,i,k)| ...(13)
W(i,k)=|X(J,i,k)|2 ...(14)
なお、重み係数W(i,k)を1などの固定値とし、重み計算部14及びその処理を省略する構成であってもよい。また、雑音環境や目的信号の状況に応じ、重み係数W(i,k)を1などの固定値とする場合と、重み係数W(i,k)の例1〜4のように重み係数W(i,k)を逐次算出する場合と、を切り替え制御可能な構成としてもよい([重み係数W(i,k)の例]の説明終わり)。
重み計算部14は、上述のように生成した時間周波数ビン(i,k)毎の重み係数W(i,k)を出力する。
その後、グリッド分類部15に、正規化部13から出力された正規化信号値Z (i,k)と、重み計算部14から出力された重み係数W(i,k)とが入力される。グリッド分類部15は、所定の時間周波数区間であるグリッド毎に各時間周波数ビン(i,k)の正規化信号値Z (i,k)を分類し、時間周波数ビン(i,k)を中心とするグリッドに含まれる時間周波数ビンの正規化信号値Z (i,k)の集合をGRIDz(i,k)として出力する(ステップS6)。また、グリッド分類部15は、所定の時間周波数区間であるグリッド毎に各時間周波数ビン(i,k)の重み係数W(i,k)を分類し、時間周波数ビン(i,k)を中心とするグリッドに含まれる時間周波数ビンの重み係数W(i,k)の集合をGRIDW(i,k)として出力する(ステップS7)。
グリッドの分類は、例えば、以下の式(15)〜(18)に従って行う。なお、{・}は・を要素とする集合を意味する。
GRIDz(i,k)={Z(i+P,k+Q)} ...(15)
GRIDW(i,k)={W(i+P,k+Q)} ...(16)
図11(a)は、目的信号が存在する時間周波数ビンを含むグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。また、図11(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンからなるグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。なお、図11(a)(b)では、横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、周波数領域信号、正規化信号値及び重み係数の各値の大きさを色の濃淡で表現している(図8(b),図9(b),図10(b)と同様)。また、図11(a)(b)では、正規化信号値として式(4)の信号到来方向推定値を用い、重み係数として式(9)のものを用いている。
図11(a)から分かるように、目的信号が存在する時間周波数ビンの領域では、正規化信号値が特定の値(特定の信号到来方向推定値)に偏り、重み係数の値が大きくなる。一方、図11(b)から分かるように、目的信号が存在しない時間周波数ビンの領域では、正規化信号値が特定の値及び重み係数は幅広く一様に分布する。
なお、前述したように、本発明ではグリッド単位で正規化信号値Z (i,k)の偏在性を参照し、そのグリッドが目的信号区間であるか否かの判定を行う。ここで、正規化信号値Z (i,k)におけるグリッドの時間周波数区間が広すぎると(例えば、図8(b)の白い縞模様を複数包含するような時間周波数区間)グリッド内での正規化信号値Z (i,k)の偏在性が平坦化され、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。逆に正規化信号値Z (i,k)におけるグリッドの時間周波数区間が狭すぎると(例えば、2,3の時間周波数ビンからなる時間周波数区間)、サンプル数が少ないため全てのグリッドでの正規化信号値Z (i,k)の偏在性が高くなり、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。
よって、正規化信号値Z (i,k)のグリッド幅はこのような問題が生じない範囲で設定する必要がある。以下に好ましいグリッド幅の設定方法について説明する。
[式(17)のAについて]
信号が音声信号の場合、およそ音声信号の定常性が仮定できる50〜300 msの時間長に対応するAを決定すればよい。すなわち、フレームシフトの幅をSF msとすると、50/SF〜300/SFの間の整数値をAとすればよい。また、話者の発話速度SR syllables/sec(1秒あたりに発話される音節数)が事前に分かるならば、(1000/SR)/SF近傍の(例えば最も近い)整数値をAとしてもよい(例えば、SR=7 syllables/sec, SF=16msならば、(1000/SR)/SF=(1000/7)/16=8.93なので、A=9とする、など)。また、対象信号が音楽信号ならば、音楽のリズム(音声のSRに対応)から同様にAを求める値を用いることが望ましい。
[式(17)のBについて]
好ましくは、基本的に、窓関数w(n)のメインローブ幅から得られる幅を用いるとよい。例えば、窓関数w(n)の離散フーリエ変換値をW(k)とし、1<k<M/2の範囲で20 log10(W(k)/W(0))> -60dBを満たす最大の周波数ビンkをcfとし、cf・2+1近傍の(例えば最も近い)整数値をBとする。この値はサンプリング周波数fs,分析フレーム長L,離散フーリエ変換の周波数ビンの総数Mに応じて変化する(例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256ならば、cf=2となり、B=5となる)。
ただし、音声信号の基本周波数F0 Hzが事前に分かっている場合は、一つのグリッドに2つ以上の音声信号の調波成分が入らないように、例えばB=2・F0/(fs/M)+1により定める。これが上記のメインローブ幅から求まる幅より大きくなる場合は、上記のメインローブ幅から求める値を採用する。例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256のとき、F0=50 HzならB=2・50・(8000/256)+1=4.2となるので、例えばB=4とする。一方、F0=200 HzならB=2・200・(8000/256)+1=13.8となるが、上記のメインローブ幅から求める値B=5よりも大きくなるため、B=5を採用する。これは、メインローブ幅の中でのみ音声信号の到来方向が偏在することによる。これらは目的信号が音楽信号である場合も同様である。
また、重み係数W(i,k)のグリッド分類(ステップS7)は必ずしも必要ではなく、ステップS7を実行しない方法であってもよい。
グリッド分類部15は、上述のように生成した集合GRIDz(i,k)とGRIDW(i,k)とを出力し、それらは偏在性指標値算出部16に入力される。
偏在性指標値算出部16は、集合GRIDz(i,k)とGRIDW(i,k)とを用い、正規化信号値Z (i,k)の偏在性を示す偏在性指標値H(i,k)をグリッド毎に算出する(ステップS8)。その一例として、本形態では、重み係数W(i,k)によって頻度に重み付けを行いつつ、グリッド毎に正規化信号値Z (i,k)のヒストグラムを生成し、生成したヒストグラムを確率密度関数とみなし、そのエントロピーを偏在性指標値H(i,k)とする。
まず、偏在性指標値算出部16のヒストグラム生成部16a(図2(a))は、入力された集合GRIDz(i,k)の要素である各正規化信号値Z (i,k)をC個の値Z(c)(c=1,..,C)に量子化する。そして、量子化された正規化信号値Z(c)毎の頻度を時間周波数ビン(i,k)毎にGRIDW(i,k)の要素である重み係数W(i,k)で重み付けしながらカウントし、ヒストグラムを生成する。例えば、正規化信号値Z (i,k)が信号到来方向θ(i,k)であり、C=32であった場合、各正規化信号値Z (i,k)は以下のようなC個の正規化信号値Z(c)に量子化される。
Z(1) (-π/2≦Z (i,k)<-7π/16)
Z(2) (-7π/16≦Z (i,k)<-3π/16)
・・・
Z(C) (7π/16<Z (i,k)<π/2)
なお、前述の式(3)で算出された信号到達時間差τ(i,k)を正規化信号値Z (i,k)とした場合には、例えば|τ(i,k)|≦(d/ν)×α(αは正の定数)の単位で正規化信号値Z (i,k)をC個に量子化する。
そして、時間周波数ビン(i,k)毎に正規化信号値Z (i,k)がいずれの正規化信号値Z(c)に対応するかを判断し、その頻度をカウントする。そして、そのカウントの際、対応する時間周波数ビン(i,k)の重み係数W(i,k)で頻度を重み付けする。例えば、時間周波数ビン(1,2)を量子化した値がZ(5)であった場合、Z(5)に対する頻度としてW(1,2)をカウントする。すなわち、GRIDz(i,k)に属する正規化信号値Z (i,k)に対する、量子化された正規化信号値Z(c)の頻度bin(i,k,c)(c=1,...,C)は、以下の式(19)のようにカウントされる。
bin(i,k,c)=ΣW(i,k) if Z (i,k)∈Z(c) ...(19)
図12は、このように生成したヒストグラムを、横軸を量子化された正規化信号値(信号到来方向)Z(c)とし、縦軸を正規化された重み付け後の頻度bin(i,k,c)として表示した例である。ここで、図12(a)は、目的信号が存在する時間周波数ビンを含むグリッド(図11(a))について作成されたヒストグラムであり、図12(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッド(図11(b))について作成されたヒストグラムの例示である。
図12(a)(b)の対比から分かるように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラム(図12(a))は、正規化信号値Z(c)が特定の値に偏った分布をみせる(偏在性が高い)のに対し、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッドのヒストグラム(図12(b))は、幅広く分布する形状となることが分かる。
ヒストグラム生成部16aは、以上のように生成したヒストグラムを特定するためのbin(i,k,c)(c=1,...,C)を出力し、bin(i,k,c)は確率密度関数計算部16bに入力される。
確率密度関数計算部16bは、bin(i,k,c)を用い、以下の式(20)のようにヒストグラムを確率密度関数P(i,k,c)とみなし、確率密度関数P(i,k,c)を算出し、出力する。
確率密度関数P(i,k,c)は、エントロピー計算部16cに入力され、エントロピー計算部16cは、以下の式(21)のようにエントロピーを求め、これを偏在性指標値H(i,k)として出力する。
このように算出したエントロピーH(i,k)は、正規化信号値Z(c)のヒストグラムが特定の値に偏った分布をみせる場合には低い値となり、幅広く分布する場合には高い値となる。すなわち、図12(a)のように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラムは、正規化信号値Z(c)が特定の値に偏るため、エントロピーH(i,k)は小さくなる。
図13(a)は、このように得られたエントロピーH(i,k)を例示したグラフである。なお、図13(a)では横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、エントロピーH(i,k)の大きさを色の濃淡で表現している。なお、色が薄くなるほど(白くなるほど)エントロピーH(i,k)が大きいことを示し、色が濃くなるほど(黒くなるほど)エントロピーH(i,k)が小さいことを示す。
図13(a)と図10(a)とを比較すれば分かるように、目的信号が存在する時間周波数ビンを含むグリッドでは、エントロピーH(i,k)の値は小さくなり、雑音のみが存在する時間周波数ビンでは、エントロピーH(i,k)の値は大きくなる。よって、このエントロピーH(i,k)を偏在性指標値H(i,k)とすれば、偏在性指標値H(i,k)の大きさを指標として目的信号区間を推定できる。
なお、ここではヒストグラムの偏りを示す指標としてエントロピーを用い、それを偏在性指標値H(i,k)としているが、その他の正規化信号値Z (i,k)の偏在性を示す指標を在性指標値H(i,k)としてもよい。以下に他の偏在性指標値H(i,k)を例示する。
[偏在性指標値H(i,k)の変形例]
例えば、図2(a)の偏在性指標値算出部16の代わりに、図4(a)の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i,k)の変形例1)。この例では分散を偏在性指標値H(i,k)として用いる。この場合、まず、偏在性指標値算出部16の平均値算出部16dに、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力される。平均値算出部16dは、以下の式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値Z (i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値E(i,k)を求めて出力する。なお、μはGRIDW(i,k)の要素数である。
偏在性指標値算出部16の分散計算部16eには、平均値E(i,k)と、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力され、以下の式(23)のように分散H(i,k)を計算し、それを偏在性指標値H(i,k)として出力する。
式(23)の分散H(i,k)は、目的信号が存在する時間周波数ビンを含むグリッドについては小さな値となり、雑音のみが存在する時間周波数ビンを含むグリッドでは大きくなる。よって、この分散H(i,k)を偏在性指標値H(i,k)とすれば、偏在性指標値H(i,k)の大きさを指標として目的信号区間を推定できる。
また、図2(a)の偏在性指標値算出部16の代わりに、図4(b)の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i,k)の変形例2)。この例では尖度を偏在性指標値H(i,k)として用いる。
この場合、まず、偏在性指標値算出部16の平均値算出部16dに、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力される。平均値算出部16dは、式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値Z (i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値E(i,k)を求めて出力する。また、偏在性指標値算出部16の分散計算部16eには、平均値E(i,k)と、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力され、式(23)と同様に分散σ(i,k)を計算し出力する。
さらに尖度計算部16fに、分散σ(i,k)と、平均値E(i,k)と、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力され、尖度計算部16fは、例えば以下の式(24)によって尖度H(i,k)を求め、これを偏在性指標値H(i,k)として出力する。
また、標準偏差等その他正規化信号値Z (i,k)の偏在性を示す統計量を偏在性指標値H(i,k)として用いてもよい。
さらに、時間周波数ビン(i,k)毎に2種類以上の正規化信号値Z (i,k)(例えば位相差と振幅比)が生成されている場合には、当該2種類以上の正規化信号値Z (i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i,k)をグリッド毎に算出してもよいし、当該2種類以上の正規化信号値Z (i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i,k)をグリッド毎に算出してもよいが、2以上の偏在性指標値H(i,k)を算出する場合と1種類の偏在性指標値H(i,k)を算出する場合とでは、後述する判定部17での処理内容が相違する([偏在性指標値H(i,k)の変形例]の説明終わり)。
上述のように偏在性指標値算出部16から出力された正規化信号値Z (i,k)は、判定部17に入力され、判定部17は、偏在性指標値H(i,k)を指標とし、各グリッドが目的信号区間に対応するか否かを判定する(ステップS9)。
本形態では、偏在性指標値H(i,k)を入力とし、判定対象のグリッドの偏在性指標値H(i,k)を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値H’(i,k)を算出し、非目的信号区間のグリッドの偏在性指標値H(i,k)を上記所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値λ(k)を算出する。そして、第1値と第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のグリッドが目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に判定対象のグリッドが目的信号区間に対応すると判定する。
この一例として、周波数毎に目的信号の存在区間らしさを(尤度)を非存在区間らしさに対する比(尤度比)として計算し、その全周波数帯域に渡る平均尤度比と所定の閾値との大小関係を比較し、目的信号区間であるか否かを判定する方法を例示できる。以下にこの方法を説明する。
まず、第1値算出部17aに前述のエントロピーである偏在性指標値H(i,k)が入力され、以下の式(25)によって第1値H’(i,k)を算出して出力する。この第1値H’(i,k)は、エントロピーである偏在性指標値H(i,k)の大小を逆転させた値であり、目的信号が存在するグリッドで大きな値をとり、目的信号が存在しないグリッドで小さな値をとる。すなわち、第1値H’(i,k)は、判定対象のグリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある値である。
H’(i,k)=(1- H(i,k))/log2(C) ...(25)
また、第2値算出部17bには、目的信号が存在しない(又は存在しないと予測される)グリッドに対応する、前述のエントロピーである偏在性指標値H(i,k)が入力され、式(24)によって第2値λ(k)を算出して出力する。なお、目的信号が存在しないと予測されるグリッドとしては、例えば、冒頭のフレームインデックスi=1,...,20のフレームからなるグリッドを例示できる。
次に、相対値算出部17cに第1値H’(i,k)と第2値λ(k)とが入力され、相対値算出部17cは、以下の式(26)によって第1値と第2値との比である除算値γ(i,k)を算出して出力する。
γ(i,k)=H’(i,k)/λ(k) ...(26)
次に、平均尤度比算出部17dに除算値γ(i,k)が入力され、平均尤度比算出部17dは、以下の式(27)に従って平均尤度比Λ(i)を算出して出力する。なお、式(26)の対数は自然対数である。また、この平均尤度比の計算式は、例えば、Shon, J, Kim, N.-S., and Sung, W., “A Statistical Model-based Voice Activity Detection,” IEEE Signal Processing Letters, Vol. 6, No. 1, pp.1-3, 1999.等に開示されている。
図13(b)は、このように算出された平均尤度比Λ(i)を例示したグラフである。図13(b)では、横軸をフレームインデックスiとし、縦軸を平均尤度比Λ(i)としている。図10(b)と比較すれば分かるように、平均尤度比Λ(i)は目的信号が存在する区間で大きな値をとっている。
次に、閾値判定部17eに平均尤度比Λ(i)が入力され、閾値判定部17eは平均尤度比Λ(i)と所定の閾値thとを比較し、平均尤度比Λ(i)に対応するグリッドが目的信号区間であるか否か、すなわち、フレームインデックスiに対するフレームが目的信号区間であるか否かを判定し、その判定結果を出力する。具体的には、閾値判定部17eは、例えば、平均尤度比Λ(i)が所定の閾値thより大きい場合(「閾値th以上の場合」としてもよい)、目的信号がフレームインデックスiに対するフレームに含まれるとして1を出力し、平均尤度比Λ(i)が所定の閾値thより小さい場合(「閾値th以下の場合」としてもよい)、目的信号がフレームインデックスiに対するフレームに含まれないとして0を出力する。なお、閾値thは、平均尤度比Λ(i)の時間長平均(複数のフレームインデックスiに対する平均)や分散などの統計量を用いて設定されてもよいし、th=1.0などの固定値を事前に設定しておいてもよい。
なお、偏在性指標値H(i,k)を指標として目的信号区間を判定する方法はこれに限定されない。前述のように偏在性指標値H(i,k)の大きさは、各グリッドが目的信号区間であるか否かによって変化する値である。偏在性指標値H(i,k)の大きさを評価し、その評価結果を各グリッドが目的信号区間であるか否かの判定結果に対応付ける方法であれば、どのような方法を用いてもよい。以下に目的信号区間判定方法の変形例を示す。
[目的信号区間判定方法の変形例]
例えば、図2(b)の判定部17の代わりに、図5の判定部17を用いてもよい(目的信号区間判定方法の変形例1)。この変形例の場合、第1値算出部17aに前述のエントロピーである偏在性指標値H(i,k)が入力され、上述の式(24)によって第1値H’(i,k)を算出して出力する。また、第2値算出部17bには、目的信号が存在しない(又は存在しないと予測される)グリッドに対応する、前述のエントロピーである偏在性指標値H(i,k)が入力され、式(24)によって第2値λ(k)を算出して出力する。次に、相対値算出部17cに第1値H’(i,k)と第2値λ(k)とが入力され、相対値算出部17cは、前述の式(25)によって第1値と第2値との比である除算値γ(i,k)を算出して出力する。次に、閾値判定部17gに除算値γ(i,k)が入力され、閾値判定部17gは、(i,k)毎に除算値γ(i,k)と閾値thとを比較し、除算値γ(i,k)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i,k)に対応するグリッドが目的信号区間に対応し、そうでなければ除算値γ(i,k)に対応するグリッドが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。
また、例えば、図2(b)の判定部17の代わりに、図6(a)の判定部17を用いてもよい(目的信号区間判定方法の変形例2)。この変形例の場合、判定部17の閾値判定部17iに前述のエントロピーである偏在性指標値H(i,k)が入力され、閾値判定部17iは、(i,k)毎に除算値γ(i,k)と閾値thとを比較し、除算値γ(i,k)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i,k)に対応するグリッドが目的信号区間に対応し、そうでなければ除算値γ(i,k)に対応するグリッドが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。なお、閾値thは、閾値算出部17hが入力された偏在性指標値H(i,k)の平均値等の統計量をもとに動的に設定される。また、閾値thは固定値であってもよい。
なお、エントロピー以外の偏在性指標値H(i,k)を用い、上述のように目的信号区間を判定してもよい。この場合の閾値判定は偏在性指標値H(i,k)の特性による。すなわち、偏在性が高いほど値が大きくなる偏在性指標値H(i,k)を用いる際には、偏在性指標値H(i,k)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間であると判定し、偏在性指標値H(i,k)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間でないと判定する。一方、偏在性が低いほど値が大きくなる偏在性指標値H(i,k)を用いる際には、偏在性指標値H(i,k)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間でないと判定し、偏在性指標値H(i,k)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間であると判定する。
また、時間周波数ビン(i,k)毎に2種類以上の正規化信号値Z (i,k)が生成され、各グリッドに属する2種類以上の正規化信号値Z (i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i,k)をグリッド毎が算出されている場合であっても、判定部17は、上述と同様に目的信号区間であるか否かの判定を行うことができる。
一方、時間周波数ビン(i,k)毎に2種類以上の正規化信号値Z (i,k)が生成され、各グリッドに属する2種類以上の正規化信号値Z (i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i,k)がグリッド毎に算出されている場合、判定部17は、例えば、グリッド毎の2以上の偏在性指標値H(i,k)に重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。具体的には、例えば、2以上の偏在性指標値H(i,k)の重み付け和が所定の閾値を超えるか否かによって、目的信号区間であるか否かを判定する。
また、上述のように偏在性指標値H(i,k)又はその写像と、所定の閾値との大小を比較して目的信号区間であるか否かを判定する代わりに、事前学習されたグリッドの偏在性指標値と当該グリッドが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するグリッドが目的信号区間に対応するか否かを判定してもよい。この場合、例えば、図6(b)の判定部17のように、パラメータ学習部17hに、グリッドの偏在性指標値と当該グリッドが目的信号区間であるか否かの判定結果との組からなる学習サンプルを入力し、パラメータ学習部17hでパターン認識学習を行い、モデルパラメータを求める。そして、パターン認識部17iにこのパラメータと判定対象の偏在性指標値H(i,k)とを入力し、パターン認識によって偏在性指標値H(i,k)に対応するグリッドが目的信号区間のものであるか否かを判定する。なお、パターン認識技術には、公知のサポートベクターマシーン(津田宏治,“サポートベクターマシーンとは何か”,電子情報通信学会誌,2000:460〜466頁)や、隠れマルコフモデル(北研二,中村哲,永田昌明,“音声言語処理”,森出版株式会社,1996:57〜90頁)等を例示できる。
<実験結果>
本形態の効果を示すための実験結果を示す。この実験では、センサとして2本のマイクロフォンを用い、音声信号と雑音信号が混在する音響信号を観測し、その音響信号を本形態の信号区間推定方法によって分析し、音声信号区間を検出する実施例を示す。なお、この実験では、正規化信号値Z (i,k)として信号到来方向推定値を用い、偏在性指標値H(i,k)として前述のエントロピーを用い、平均尤度比Λ(i)と閾値との比較により目的信号区間の推定を行った。また、この実験では、1フレームの時間長を32ms(256サンプル点)とし、16ms(128サンプル点)毎にフレームの始点を移動(シフト)させ、各フレームで平均尤度比Λ(i)を求めた。また、このように求めた平均尤度比Λ(i)を固定閾値th=1.08と比較し、目的信号区間の推定を行った。
また、使用した信号データは、女性1名によって発声された雑音を含まない音声(目的信号)に街頭で収録した騒音雑音を信号対雑音比10dBで加算した音響信号であり、サンプリング周波数8kHz,量子化ビット数16ビットで離散サンプリングされたものである。また、音声である目的信号の収録は、4cm間隔で配置された2本のマイクロフォンによって行われ、この際の目的信号である音声の発生位置は、当該2本のマイクロフォンを結ぶ線分の中点を通って当該線分と直交する方向に40〜60cm離れた位置である。また、街頭の騒音雑音も同一のマイクロフォンによって収録された。
図14(a)は、騒音雑音が加算される前の音声信号を示すグラフであり、図14(b)は、上述のように騒音雑音が加算された音声信号を示すグラフである。図14(a)(b)の横軸は離散実時間であり、縦軸は信号の振幅である。また、図14(c)は、平均尤度比Λ(i)を示すグラフである。図14(c)の横軸はフレームインデックスiであり、縦軸は平均尤度比Λ(i)である。また、図14(d)は平均尤度比Λ(i)を用いた信号区間判定結果を示すグラフである。図14(d)の横軸はフレームインデックスiであり、縦軸は目的信号区間である(1)か否か(0)の判定結果である。
これらの図から、本形態の手法が雑音環境下での目的信号区間の推定に有効であることがわかる。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、信号区間推定装置10がサンプリング部30を包含する構成であってもよいし、信号区間推定装置10の機能を複数のコンピュータで分散処理する構成であってもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい
本発明の利用分野としては、例えば、音声信号や音楽信号などの目的信号が雑音信号とともに観測される環境においてなされる、目的信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理分野を例示できる。もちろん、音響信号以外の信号処理に本発明を適用してもかまわない。
図1は、本形態の目的信号区間推定装置の全体構成を例示したブロック図である。 図2(a)は、図1の偏在性指標値算出部の詳細構成を例示したブロック図である。図2(b)は、図1の判定部の詳細構成を例示したブロック図である。 図3は、本形態の目的信号区間推定方法を説明するためのフローチャートである。 図4(a)(b)は、偏在性指標値算出部の変形例を示したブロック図である。 図5は、判定部の変形例を示したブロック図である。 図6(a)(b)は、判定部の変形例を示したブロック図である。 図7(a)は、窓関数をサンプリング部で抽出された時間領域の信号の波形にシフトさせながら乗じ、各フレームの信号を切り出す過程を例示する図である。図7(b)は、離散フーリエ変換によってセンサに対応する各フレームの信号を周波数領域信号に変換する例を示した図である。 図8(a)は環境雑音化で観測された時間領域の音響信号を例示した図である。図8(b)は図8(a)に例示した時間領域の音響信号を周波数領域に変換した周波数スペクトル(周波数領域信号)を表現した図である。 図9(a)は図8(b)の周波数領域信号を示した図である。また、図9(b)は、式(3)(4)に従って算出した信号到来方向推定値を示した図である。 図10(a)は図8(b)の周波数領域信号を示した図である。また、図10(b)は、式(9)に従って算出した重み係数を示した図である。 図11(a)は、目的信号が存在する時間周波数ビンを含むグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。図11(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンからなるグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。 図12は、生成したヒストグラムを、横軸を量子化された正規化信号値(信号到来方向)とし、縦軸を重み付け後の頻度として表示した例である。ここで、図12(a)は、目的信号が存在する時間周波数ビンを含むグリッド(図11(a))について作成されたヒストグラムであり、図12(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッド(図11(b))について作成されたヒストグラムの例示である。 図13(a)は、得られたエントロピーを例示したグラフである。図13(b)は、算出された平均尤度比を例示したグラフである。 図14(a)は、騒音雑音が加算される前の音声信号を示すグラフであり、図14(b)は、上述のように騒音雑音が加算された音声信号を示すグラフである。
符号の説明
10 信号区間推定装置

Claims (14)

  1. 目的信号区間を推定する目的信号区間推定装置であって、
    複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出部と、
    上記信号切出部で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、
    基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化部と、
    時間周波数ビン毎に、当該時間周波数ビンを中心とした複数の時間周波数ビンからなるグリッドに含まれる各時間周波数ビンの上記正規化信号値の集合出力するグリット分類部と、
    上記正規化信号値の偏在性を示す偏在性指標値を上記時間周波数ビンに対応するグリッド毎に算出する偏在性指標値算出部と、
    上記偏在性指標値を指標とし、上記各グリッドが上記目的信号区間に対応するか否かを判定する判定部と、
    を有することを特徴とする目的信号区間推定装置。
  2. 請求項1に記載の目的信号区間推定装置であって、
    上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算部をさらに有し、
    上記偏在性指標値算出部は、
    上記重み係数によって当該重み係数に対応する時間周波数ビンの上記正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いて上記偏在性指標値を算出する、
    ことを特徴とする目的信号区間推定装置。
  3. 請求項2に記載の目的信号区間推定装置であって、
    上記重み係数は、
    上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある値を、上記周波数領域信号の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である、
    ことを特徴とする目的信号区間推定装置。
  4. 請求項1に記載の目的信号区間推定装置であって、
    上記正規化部は、
    上記基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である上記正規化信号値を生成する、
    ことを特徴とする目的信号区間推定装置。
  5. 請求項4に記載の目的信号区間推定装置であって、
    上記正規化信号値は、
    周波数成分が正規化され、周波数依存性が排除された値である、
    ことを特徴とする目的信号区間推定装置。
  6. 請求項1,4,5の何れかに記載の目的信号区間推定装置であって、
    上記正規化部は、
    時間周波数ビン毎に2種類以上の上記正規化信号値を生成し、
    上記偏在性指標値算出部は、
    上記各グリッドに属する2種類以上の上記正規化信号値の偏在性をそれぞれ示す2以上の上記偏在性指標値を上記グリッド毎に算出し、
    上記判定部は、
    グリッド毎の2以上の上記偏在性指標値に重み付けを行い、当該重み付け後の上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する、
    ことを特徴とする目的信号区間推定装置。
  7. 請求項1,4,5の何れかに記載の目的信号区間推定装置であって、
    上記正規化部は、
    時間周波数ビン毎に2種類以上の上記正規化信号値を生成し、
    上記偏在性指標値算出部は、
    上記各グリッドに属する2種類以上の上記正規化信号値を要素とするベクトルの偏在性を示す上記偏在性指標値を上記グリッド毎に算出し、
    上記判定部は、
    上記ベクトルの偏在性を示す上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する、
    ことを特徴とする目的信号区間推定装置。
  8. 請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
    上記判定部は、
    各グリッドの上記偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各グリッドが上記目的信号区間に対応するか否かを判定する、
    ことを特徴とする目的信号区間推定装置。
  9. 請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
    上記判定部は、
    判定対象のグリッドの上記偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値を算出する第1値算出部と、
    非目的信号区間のグリッドの上記偏在性指標値を上記所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値を算出する第2値算出部と、
    上記第1値と上記第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に上記判定対象のグリッドが上記目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に上記判定対象のグリッドが上記目的信号区間に対応すると判定する閾値判定部と、を有する、
    ことを特徴とする目的信号区間推定装置。
  10. 請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
    上記判定部は、
    事前学習されたグリッドの上記偏在性指標値と当該グリッドが上記目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、上記偏在性指標値算出部で算出された上記偏在性指標値に対応するグリッドが上記目的信号区間に対応するか否かを判定する、
    ことを特徴とする目的信号区間推定装置。
  11. 目的信号区間を推定する目的信号区間推定方法であって、
    複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出過程と、
    上記信号切出過程で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換過程と、
    基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化過程と、
    時間周波数ビン毎に、当該時間周波数ビンを中心とした複数の時間周波数ビンからなるグリッドに含まれる各時間周波数ビンの上記正規化信号値の集合出力するグリット分類過程と、
    上記正規化信号値の偏在性を示す偏在性指標値を上記時間周波数ビンに対応するグリッド毎に算出する偏在性指標値算出過程と、
    上記偏在性指標値を指標とし、上記各グリッドが上記目的信号区間に対応するか否かを判定する判定過程と、
    を有することを特徴とする目的信号区間推定方法。
  12. 請求項11に記載の目的信号区間推定方法であって、
    上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算過程をさらに有し、
    上記偏在性指標値算出過程は、
    上記重み係数によって当該重み係数に対応する時間周波数ビンの上記正規化信号値の頻度の重み付けし、当該重み付けされた頻度を用いて上記偏在性指標値を算出する過程である、
    ことを特徴とする目的信号区間推定方法。
  13. 請求項1から10の何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。
  14. 請求項13に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2007101597A 2007-04-09 2007-04-09 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 Expired - Fee Related JP4871191B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007101597A JP4871191B2 (ja) 2007-04-09 2007-04-09 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007101597A JP4871191B2 (ja) 2007-04-09 2007-04-09 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2008257110A JP2008257110A (ja) 2008-10-23
JP4871191B2 true JP4871191B2 (ja) 2012-02-08

Family

ID=39980719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007101597A Expired - Fee Related JP4871191B2 (ja) 2007-04-09 2007-04-09 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4871191B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2561508A1 (en) 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP5732976B2 (ja) 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
JP6657965B2 (ja) * 2015-03-10 2020-03-04 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
CN115862656B (zh) * 2023-02-03 2023-06-02 中国科学院自动化研究所 一种骨传麦克风语音增强方法及装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法

Also Published As

Publication number Publication date
JP2008257110A (ja) 2008-10-23

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
EP3479377B1 (en) Speech recognition
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
EP1536414B1 (en) Method and apparatus for multi-sensory speech enhancement
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
CN110459241B (zh) 一种用于语音特征的提取方法和系统
KR20170060108A (ko) 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
JP4871191B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
EP1693826B1 (en) Vocal tract resonance tracking using a nonlinear predictor
EP1465153A2 (en) Method and apparatus for formant tracking using a residual model
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
CN116913307A (zh) 语音处理方法、装置、通信设备及可读存储介质
Kanisha et al. Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization
Dov et al. Voice activity detection in presence of transients using the scattering transform
JPH10133688A (ja) 音声認識装置
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Jayakumar et al. Speech enhancement based on noise type and wavelet thresholding the multitaper spectrum
von Zeddelmann A feature-based approach to noise robust speech detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees