JP2008257110A - Object signal section estimation device, method, and program, and recording medium - Google Patents

Object signal section estimation device, method, and program, and recording medium Download PDF

Info

Publication number
JP2008257110A
JP2008257110A JP2007101597A JP2007101597A JP2008257110A JP 2008257110 A JP2008257110 A JP 2008257110A JP 2007101597 A JP2007101597 A JP 2007101597A JP 2007101597 A JP2007101597 A JP 2007101597A JP 2008257110 A JP2008257110 A JP 2008257110A
Authority
JP
Japan
Prior art keywords
value
signal
target signal
grid
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007101597A
Other languages
Japanese (ja)
Other versions
JP4871191B2 (en
Inventor
Kentaro Ishizuka
健太郎 石塚
Hiroshi Sawada
宏 澤田
Akiko Araki
章子 荒木
Tomohiro Nakatani
智広 中谷
Masakiyo Fujimoto
雅清 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007101597A priority Critical patent/JP4871191B2/en
Publication of JP2008257110A publication Critical patent/JP2008257110A/en
Application granted granted Critical
Publication of JP4871191B2 publication Critical patent/JP4871191B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

<P>PROBLEM TO BE SOLVED: To precisely estimate an object signal section in such a situation that the arrival direction of an object signal cannot be precisely grasped in a noisy environment. <P>SOLUTION: Each of the signals observed by a plurality of sensors is segmented for each frame that is a prescribed time section, the segmented signal of each frame about each sensor is converted into a frequency domain, and a frequency domain signal for each time frequency bin is generated for each sensor. With the frequency domain signal corresponding to a reference sensor as a reference, each frequency domain signal corresponding to the sensor other than the reference sensor is normalized, and a normalized signal value is generated for each time frequency bin. An eccentricity index value indicating the eccentricity of the normalized signal value is calculated for each grid that is a prescribed time frequency section. With the eccentricity index value as an index, it is determined whether or not each grid corresponds to the object signal section. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、信号処理技術に関し、特に、雑音が含まれる観測信号から目的信号が存在する区間を推定する技術に関する。   The present invention relates to a signal processing technique, and more particularly, to a technique for estimating a section where a target signal exists from an observation signal including noise.

音声信号や音楽信号などの目的信号を処理対象とする符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術では、複数種類の信号が含まれる入力音響信号から目的信号が存在する区間を推定する必要がある。この目的信号区間推定の精度はその後の信号処理性能に大きく影響する。   In acoustic signal processing technologies such as encoding, processing for target signals such as audio signals and music signals, suppression of noise signals, dereverberation, and automatic speech recognition, the target signal is derived from an input acoustic signal containing multiple types of signals. It is necessary to estimate existing intervals. The accuracy of the target signal interval estimation greatly affects the subsequent signal processing performance.

従来の携帯電話の音声信号を処理対象とした目的信号区間推定では、信号の周波数スペクトル、信号の全帯域のエネルギー、帯域分割後の各帯域のエネルギー、信号波形の零交差数、雑音抑圧後の信号の周波数スペクトル、周波数スペクトルの分散、及びそれらの時間微分などを特徴量として利用し、目的信号区間の推定を行っていた(例えば、非特許文献1の第1乃至4頁、及び非特許文献2の第40乃至43頁参照)。   In the target signal section estimation for the conventional cellular phone voice signal, the frequency spectrum of the signal, the energy of the entire band of the signal, the energy of each band after the band division, the number of zero crossings of the signal waveform, after noise suppression The target signal interval was estimated by using the frequency spectrum of the signal, the variance of the frequency spectrum, and their time differentiation as feature quantities (for example, pages 1 to 4 of Non-Patent Document 1, and Non-Patent Documents). 2 pages 40-43).

これらの目的信号区間推定方法では、入力された信号を或る一定時間長(例えば25ms程度)のフレーム毎に分割し、フレーム毎に上述の音響特徴量を算出し、その値が別途定めた閥値を超える場合には目的信号の存在する区間、そうでなければ非目的信号区間として判定する。しかし、上述のような音響特徴量は雑音の影響を受けやすく、街頭などの環境雑音下では十分な目的信号区間推定精度を得られない。   In these target signal section estimation methods, an input signal is divided into frames of a certain fixed time length (for example, about 25 ms), the above-described acoustic feature amount is calculated for each frame, and the value is separately determined. If it exceeds the value, it is determined as a section where the target signal exists, and if not, it is determined as a non-target signal section. However, the acoustic feature amount as described above is easily affected by noise, and sufficient target signal section estimation accuracy cannot be obtained under environmental noise such as streets.

このような雑音環境下での目的信号区間推定を精度よく行う方法として、上記の音響特徴量だけでなく、複数のマイクロフォンによって観測された複数信号間の位相差の情報をも利用する方法もある。   As a method for accurately estimating a target signal section in such a noise environment, there is a method using not only the acoustic feature amount described above but also information on phase differences between a plurality of signals observed by a plurality of microphones. .

例えば、目的信号が或る定まった方向のみから到来することが既知であれば、複数信号間の位相差の情報を利用し、或る定まった方向から到来した目的信号のみを強調することで目的信号区間推定の精度を向上させることができる(例えば、非特許文献3参照)。他に、零交差数などの音響特徴量に対する関値を目的信号の推定到来方向の信頼度によって決定する方法(例えば、非特許文献4参照)や、空間スペクトルのピークの有無で音声の有無を推定する方法(例えば、非特許文献5参照)や、目的信号の推定到来方向が時間的に一定となる区間を音声の存在する区間とする推定する方法(例えば、非特許文献6参照)などもある。
ITU-T Recommendation G.729 Annex B., "A silence compression scheme for G. 729 optimized for terminals conforming to Recommendation V.70, "1996. ETSI standard document, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms," ETSI ES 202 050 V1.1.5, 2007. Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005. 田中貴雅,傳田遊亀,中山雅人,西浦敬信,“Weighted CSP法と音声特徴量に基づくハンズフリー発話区間検出の検討”,日本音響学会2006年度春期全国大会講演論文集,1-P-3, pp. 149-150, Mar. 2006. 山本潔,浅野太,吉村隆,本村陽一,麻生英樹,原功,市村直幸,緒方淳,北脇信彦,“音響情報と画像情報の統合による発話区間検出・分離システムの評価,” 日本音響学会秋季研究発表会講演論文集,3−6−10,P121−122,2003. 藤本雅清,有木康雄,堂下修司,“マルチモーダルインタラクションによるニュース映像中の人物認識,”日本音響学会誌,Vol.62,No.3,P182−192,2006.
For example, if it is known that the target signal comes only from a certain direction, information on the phase difference between a plurality of signals is used to emphasize only the target signal coming from a certain direction. The accuracy of signal interval estimation can be improved (see, for example, Non-Patent Document 3). In addition, a method for determining a function value for an acoustic feature quantity such as the number of zero crossings based on reliability of the estimated arrival direction of the target signal (see, for example, Non-Patent Document 4) An estimation method (for example, see Non-Patent Document 5), a method for estimating a section in which the estimated arrival direction of the target signal is constant in time as a section where speech exists (for example, see Non-Patent Document 6), etc. is there.
ITU-T Recommendation G.729 Annex B., "A silence compression scheme for G. 729 optimized for terminals conforming to Recommendation V.70," 1996. ETSI standard document, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms," ETSI ES 202 050 V1.1.5, 2007. Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005. Takamasa Tanaka, Yuka Tomita, Masato Nakayama, Takanobu Nishiura, “Examination of hands-free utterance detection based on weighted CSP method and speech features”, Proceedings of the Acoustical Society of Japan 2006 Spring Meeting, 1-P-3, pp 149-150, Mar. 2006. Kiyoshi Yamamoto, Taita Asano, Takashi Yoshimura, Yoichi Motomura, Hideki Aso, Isao Hara, Naoyuki Ichimura, Satoshi Ogata, Nobuhiko Kitakiwaki, “Evaluation of Spoken Interval Detection and Separation System by Integration of Acoustic Information and Image Information,” Acoustical Society of Japan Proceedings of Autumn Research Presentation, 3-6-10, P121-122, 2003. Masayoshi Fujimoto, Yasuo Ariki, Shuji Doshita, “Person Recognition in News Video by Multimodal Interaction,” Journal of the Acoustical Society of Japan, Vol. 62, no. 3, P182-192, 2006.

しかし、従来の方法では、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、精度よく目的信号区間を推定することができないという問題点がある。   However, the conventional method has a problem in that the target signal section cannot be accurately estimated in a situation where the target signal arrival direction cannot be accurately known in a noisy environment.

例えば、非特許文献3の方法では目的信号の到来方向を事前に知っておく必要があり、目的信号の到来方向が不明な場合には、精度よく目的信号区間を推定することができない。また、非特許文献4〜6の方法は目的信号の到来方向が正確に推定できることを前提にした方法である。しかし、あらゆる周波数の複数の信号が同時にあらゆる方向から到来するような環境(例えば街頭や駅・空港のような日常環境)では正確に信号到来方向を推定することは困難である。このような場合、非特許文献4〜6の方法によって精度よく目的信号区間を推定することはできない。   For example, in the method of Non-Patent Document 3, it is necessary to know the arrival direction of the target signal in advance, and when the arrival direction of the target signal is unknown, the target signal section cannot be estimated with high accuracy. The methods of Non-Patent Documents 4 to 6 are based on the premise that the arrival direction of the target signal can be accurately estimated. However, it is difficult to accurately estimate the signal arrival direction in an environment where a plurality of signals of all frequencies are simultaneously arriving from all directions (for example, a daily environment such as a street, a station, or an airport). In such a case, the target signal section cannot be accurately estimated by the methods of Non-Patent Documents 4 to 6.

本発明はこのような点に鑑みてなされたものであり、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、精度よく目的信号区間を推定することが可能な技術を提供することを目的とする。   The present invention has been made in view of the above points, and accurately estimates a target signal section in a noise environment and in a situation where the arrival direction of the target signal cannot be accurately known. It aims at providing the technology that can be.

本発明では上記課題を解決するために、複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出部と、信号切出部で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、基準センサに対応する周波数領域信号を基準として、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化部と、所定の時間周波数区間であるグリッド毎に各時間周波数ビンの正規化信号値を分類するグリット分類部と、正規化信号値の偏在性を示す偏在性指標値をグリッド毎に算出する偏在性指標値算出部と、偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する判定部と、を有することを特徴とする目的信号区間推定装置が提供される。   In the present invention, in order to solve the above problems, a signal extraction unit that extracts each signal observed by a plurality of sensors for each frame that is a predetermined time interval, and each frame for each sensor that is extracted by the signal extraction unit A frequency domain conversion unit that converts each signal into the frequency domain and generates a frequency domain signal for each time frequency bin for each sensor, and a frequency domain signal corresponding to the reference sensor as a reference, and supports at least sensors other than the reference sensor Normalization unit that normalizes each frequency domain signal to generate a normalized signal value for each time frequency bin, and grid classification that classifies the normalized signal value of each time frequency bin for each grid that is a predetermined time frequency interval Each of the grids, the ubiquity index value calculation unit for calculating the ubiquity index value indicating the ubiquity of the normalized signal value for each grid, and the ubiquity index value as an index. Target signal interval estimation apparatus characterized by having, a determination section for determining whether or not corresponding to the target signal section is provided.

ここで、本発明の正規化部が生成する正規化信号値は信号の到来方方向に対応する値となる。通常、環境雑音は多様な方向からセンサに到来するのに対し、目的信号は或る方向のみからセンサに到来するという性質(性質1)を持つ。そのため、目的信号が存在しない時間周波数ビンの正規化信号値は広く分布する(偏在性が低い)のに対し、目的信号が存在する時間周波数ビンの正規化信号値は目的信号の到来方方向に対応する値の付近に偏って分布する(偏在性が高い)。本発明では、この性質を利用し、偏在性が高い区間を雑音環境化における目的信号区間として推定する。すなわち、正規化信号値の偏在性を示す偏在性指標値を所定の時間周波数区間であるグリッド毎に算出し、偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。この点が本発明特有の主要な特徴である。なお、このように正規化信号値の偏在性を指標とする場合、目的信号の到来方向を正確に知る必要はない。よって、本発明では、目的信号の正確な到来方向を推定できない場合であっても、適切に目的信号区間を推定することができる。   Here, the normalized signal value generated by the normalization unit of the present invention is a value corresponding to the direction of arrival of the signal. Normally, environmental noises arrive at the sensor from various directions, whereas the target signal has a property (characteristic 1) that arrives at the sensor only from a certain direction. Therefore, the normalized signal values of time frequency bins where the target signal does not exist are widely distributed (low unevenness), whereas the normalized signal values of the time frequency bin where the target signal exists are in the direction of arrival of the target signal. Distributed in the vicinity of the corresponding value (highly ubiquitous). In the present invention, this property is used to estimate a section with high uneven distribution as a target signal section in the noise environment. That is, the ubiquity index value indicating the ubiquity of the normalized signal value is calculated for each grid that is a predetermined time frequency interval, and the ubiquity index value is used as an index to determine whether each grid corresponds to the target signal interval. judge. This is the main feature unique to the present invention. In addition, when the uneven distribution of normalized signal values is used as an index, it is not necessary to know the arrival direction of the target signal accurately. Therefore, in the present invention, even when the accurate arrival direction of the target signal cannot be estimated, the target signal section can be estimated appropriately.

また、本発明の目的信号区間推定装置において好ましくは、周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算部をさらに有し、偏在性指標値算出部は、生成された重み係数によって当該重み係数に対応する時間周波数ビンの正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いて偏在性指標値を算出する。   The target signal section estimation apparatus of the present invention preferably further includes a weight calculation unit that generates a weighting factor that is monotonically increased with respect to the absolute value of the amplitude of the frequency domain signal for each time frequency bin, and is unevenly distributed. The sex index value calculation unit weights the frequency of the normalized signal value of the time frequency bin corresponding to the weighting factor by the generated weighting factor, and calculates the ubiquitous index value using the weighted frequency.

通常、環境雑音の周波数分布は一様であるのに対し、目的信号は一部の周波数帯域にパワーが集中するという性質(性質2)を持つ。すなわち、目的信号に対応する時間周波数ビンの正規化信号値のパワーは、目的信号に含まれない周波数の正規化信号値のパワーや、環境雑音信号に対応する時間周波数ビンの正規化信号値のパワーと比べ、顕著に大きい。本発明の好ましい構成では、この性質2を反映させた偏在性指標値を生成し、目的信号区間推定精度を向上させる。すなわち、正規化信号値の偏在性を示す偏在性指標値は正規化信号値が取る値の頻度に影響される。つまり、正規化信号値の値が或る値に集中し、その近辺での正規化信号値の値の頻度が高くなれば、生成される偏在性指標値は正規化信号値の偏在性が高いことを示すものとなる。性質2より目的信号が存在する時間周波数ビンの正規化信号値のパワーはそれ以外の正規化信号値のパワーと比べて顕著に大きい。よって、本発明の好ましい構成では、偏在性指標値を算出する際、目的信号が存在する時間周波数ビンの正規化信号値の値に大きな重みを付し、それ以外の時間周波数ビンの正規化信号値の値に小さな重みを付すことになる。その結果、目的信号に起因する正規化信号値の偏在性がより明確に表れた偏在性指標値を得ることができ、偏在性指標値を指標として行われる目的信号区間の推定精度が向上する。   Normally, the frequency distribution of the environmental noise is uniform, while the target signal has a property (characteristic 2) that power is concentrated in a part of frequency bands. That is, the power of the normalized signal value of the time frequency bin corresponding to the target signal is the power of the normalized signal value of the frequency not included in the target signal or the normalized signal value of the time frequency bin corresponding to the environmental noise signal. It is significantly larger than power. In a preferred configuration of the present invention, an uneven distribution index value reflecting this property 2 is generated, and the target signal interval estimation accuracy is improved. That is, the ubiquity index value indicating the ubiquity of the normalized signal value is affected by the frequency of the value taken by the normalized signal value. That is, if the normalized signal value values are concentrated on a certain value and the frequency of the normalized signal value in the vicinity thereof increases, the generated ubiquitous index value is highly ubiquitous in the normalized signal value. It will be shown. From property 2, the power of the normalized signal value of the time frequency bin in which the target signal exists is significantly larger than the power of the other normalized signal values. Therefore, in a preferred configuration of the present invention, when calculating the ubiquitous index value, a large weight is given to the value of the normalized signal value of the time frequency bin in which the target signal exists, and the normalized signal of other time frequency bins A small weight is added to the value. As a result, it is possible to obtain an unevenness index value in which the unevenness of the normalized signal value caused by the target signal appears more clearly, and the accuracy of estimation of the target signal section performed using the unevenness index value as an index is improved.

また、この場合により好ましくは、重み係数は、周波数領域信号の振幅の絶対値に対して単調増加の関係にある値を、周波数領域信号の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である。これにより、グリッド毎に目的信号のパワーが変動する環境であったとしても、その変動の影響を抑制しつつ偏在性指標値を算出することができる。その結果、目的信号区間の推定精度が向上する。   In this case, more preferably, the weighting factor has a monotonically increasing value with respect to the absolute value of the amplitude of the frequency domain signal, and has a monotonically increasing relationship with the absolute value of the amplitude of the frequency domain signal. The value is normalized by the value obtained by adding the values for all frequency bins. Thereby, even in an environment where the power of the target signal varies from grid to grid, it is possible to calculate the uneven distribution index value while suppressing the influence of the variation. As a result, the estimation accuracy of the target signal section is improved.

また、本発明において正規化部は、例えば、基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外のセンサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である正規化信号値を生成する。   In the present invention, the normalization unit uses, for example, the phase and / or amplitude of the frequency domain signal corresponding to the reference sensor as a reference, and at least the phase and / or amplitude of each frequency domain signal corresponding to a sensor other than the reference sensor. And a normalized signal value that is the normalization value or a map thereof is generated.

また、この場合に好ましくは、正規化信号値は、周波数成分が正規化され、周波数依存性が排除された値である。正規化信号値の周波数依存性が排除されていない場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向と周波数とに依存した値となる。一方、正規化信号値の周波数依存性が排除されていた場合、目的信号の時間周波数ビンにおける正規化信号値は、信号の到来方向のみに依存した値となる。すなわち、同じ目的信号に対応する正規化信号値であったとしても、周波数依存性が排除された正規化信号値のほうが、周波数依存性が排除されていない正規化信号値よりも偏在性が高い。その結果、目的信号に起因する正規化信号値の偏在性がより明確に表れた偏在性指標値を得ることができ、偏在性指標値を指標として行われる目的信号区間の推定精度が向上する。   In this case, the normalized signal value is preferably a value obtained by normalizing frequency components and eliminating frequency dependence. When the frequency dependency of the normalized signal value is not excluded, the normalized signal value in the time frequency bin of the target signal is a value depending on the arrival direction and the frequency of the signal. On the other hand, when the frequency dependence of the normalized signal value is eliminated, the normalized signal value in the time frequency bin of the target signal is a value that depends only on the arrival direction of the signal. That is, even if the normalized signal values correspond to the same target signal, the normalized signal value from which the frequency dependence is eliminated is more unevenly distributed than the normalized signal value from which the frequency dependence is not eliminated. . As a result, it is possible to obtain an unevenness index value in which the unevenness of the normalized signal value caused by the target signal appears more clearly, and the accuracy of estimation of the target signal section performed using the unevenness index value as an index is improved.

また、本発明において好ましくは、正規化部は、時間周波数ビン毎に2種類以上の正規化信号値を生成し、偏在性指標値算出部は、各グリッドに属する2種類以上の正規化信号値の偏在性をそれぞれ示す2以上の偏在性指標値をグリッド毎に算出し、判定部は、グリッド毎の2以上の偏在性指標値に重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。   In the present invention, preferably, the normalization unit generates two or more types of normalized signal values for each time frequency bin, and the uneven distribution index value calculation unit includes two or more types of normalized signal values belonging to each grid. For each grid, the determination unit weights the two or more uneven distribution index values for each grid, and uses the weighted uneven distribution index value as an index. It is determined whether each grid corresponds to the target signal section.

このように時間周波数ビン毎に2種類以上の正規化信号値を用いることにより、目的信号の存在に起因する正規化信号値の偏在性の上昇をより正確に捉えることができる。また、2以上の偏在性指標値をグリッド毎に算出し、それらに重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。これにより、2以上の偏在性指標値のうち信頼性が高いほうを重視して目的信号区間に対応するか否かの判定を行うことができる。   As described above, by using two or more kinds of normalized signal values for each time frequency bin, an increase in the uneven distribution of the normalized signal values due to the presence of the target signal can be captured more accurately. Further, two or more uneven distribution index values are calculated for each grid, weighted to them, and whether or not each grid corresponds to a target signal section is determined using the uneven distribution index value after the weighting as an index. As a result, it is possible to determine whether to correspond to the target signal interval by placing importance on the higher reliability among the two or more uneven distribution index values.

また、本発明において好ましくは、正規化部は、時間周波数ビン毎に2種類以上の正規化信号値を生成し、偏在性指標値算出部は、各グリッドに属する2種類以上の正規化信号値を要素とするベクトルの偏在性を示す偏在性指標値をグリッド毎に算出し、判定部は、ベクトルの偏在性を示す偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。これにより、目的信号の存在に起因する正規化信号値の偏在性の上昇をより正確に捉えることができる。   In the present invention, preferably, the normalization unit generates two or more types of normalized signal values for each time frequency bin, and the uneven distribution index value calculation unit includes two or more types of normalized signal values belonging to each grid. For each grid, and the determination unit uses the ubiquity index value indicating the vector ubiquity as an index, and whether each grid corresponds to the target signal interval. Determine whether. Thereby, the increase in the uneven distribution of the normalized signal value due to the presence of the target signal can be captured more accurately.

また、本発明の判定部は、例えば、各グリッドの偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各グリッドが目的信号区間に対応するか否かを判定する。   In addition, the determination unit of the present invention compares, for example, the ubiquity index value of each grid or a map thereof and a predetermined threshold value to determine whether each grid corresponds to a target signal section. .

また、本発明の判定部は、例えば、判定対象のグリッドの偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値を算出する第1値算出部と、非目的信号区間のグリッドの偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値を算出する第2値算出部と、第1値と第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のグリッドが目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に判定対象のグリッドが目的信号区間に対応すると判定する閾値判定部と、を有する。   In addition, the determination unit of the present invention substitutes, for example, the uneven distribution index value of the determination target grid into a predetermined function, and has a first value that is monotonically increasing with respect to the probability indicating the likelihood of the target signal section of the grid. And a first value calculation unit that calculates a non-target signal section grid subordination index value is substituted into a predetermined function, and a second that is monotonically increasing with respect to the probability indicating the target signal section likelihood of the grid. A second value calculation unit that calculates a value, and a division value that is a ratio between the first value and the second value or a map of the division value is equal to or greater than a predetermined threshold value, the determination target grid is a target signal interval Or a threshold determination unit that determines that the determination target grid corresponds to the target signal section when the predetermined threshold is exceeded.

また、本発明の判定部は、例えば、事前学習されたグリッドの偏在性指標値と当該グリッドが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するグリッドが目的信号区間に対応するか否かを判定する。   In addition, the determination unit of the present invention performs, for example, an uneven distribution index value by pattern recognition using a relationship between a pre-learned grid uneven distribution index value and a determination result of whether or not the grid is a target signal section. It is determined whether or not the grid corresponding to the uneven distribution index value calculated by the calculation unit corresponds to the target signal section.

以上のように本発明では、雑音環境下であって、なおかつ、目的信号の到来方向を正確に知ることが出来ない状況において、精度よく目的信号区間を推定することが可能となる。   As described above, according to the present invention, it is possible to accurately estimate the target signal section in a situation where the target signal arrival direction cannot be accurately known even under a noisy environment.

以下、本発明を実施するための最良の形態を図面を参照して説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

図1は、本形態の目的信号区間推定装置10の全体構成を例示したブロック図である。また、図2(a)は、図1の偏在性指標値算出部16の詳細構成を例示したブロック図である。また、図2(b)は、図1の判定部17の詳細構成を例示したブロック図である。   FIG. 1 is a block diagram illustrating the overall configuration of a target signal section estimation device 10 of the present embodiment. FIG. 2A is a block diagram illustrating a detailed configuration of the uneven distribution index value calculation unit 16 of FIG. FIG. 2B is a block diagram illustrating a detailed configuration of the determination unit 17 in FIG.

<構成>
図1に例示するように、本形態の目的信号区間推定装置10は、信号切出部11と周波数領域変換部12と正規化部13と重み計算部14とグリッド分類部15と偏在性指標値算出部16と判定部17と制御部18と記憶部19とを具備し、S(S≧2)個のセンサ20−1〜Sで観測され、サンプリング部30でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図2(a)に例示するように、この例の偏在性指標値算出部16は、ヒストグラム生成部16aと確率密度関数計算部16bとエントロピー計算部16cとを具備する。また、図2(b)に例示するように、この例の判定部17は、第1値計算部17aと第2値計算部17bと相対値計算部17cと平均尤度比算出部17dと閾値判定部17eとを具備する。
<Configuration>
As illustrated in FIG. 1, the target signal section estimation device 10 according to the present embodiment includes a signal extraction unit 11, a frequency domain conversion unit 12, a normalization unit 13, a weight calculation unit 14, a grid classification unit 15, and an uneven distribution index value. A calculation unit 16, a determination unit 17, a control unit 18, and a storage unit 19 are provided, and a signal observed by S (S ≧ 2) sensors 20-1 to S and sampled by the sampling unit 30 is input. This device outputs the analysis result of the target signal section. Further, as illustrated in FIG. 2A, the ubiquitous index value calculation unit 16 in this example includes a histogram generation unit 16a, a probability density function calculation unit 16b, and an entropy calculation unit 16c. Further, as illustrated in FIG. 2B, the determination unit 17 in this example includes a first value calculation unit 17a, a second value calculation unit 17b, a relative value calculation unit 17c, an average likelihood ratio calculation unit 17d, and a threshold value. And a determination unit 17e.

なお、目的信号区間推定装置10は、例えば、CPU(central processing unit),RAM(random access memory),ROM(read only memory)等から構成される公知のコンピュータに所定のプログラムを実行させることによって構成されるものである。   The target signal section estimation device 10 is configured by causing a known computer including a CPU (central processing unit), a RAM (random access memory), a ROM (read only memory), and the like to execute a predetermined program, for example. It is what is done.

<処理>
次に、本形態の目的信号区間推定方法について説明する。
<Processing>
Next, the target signal section estimation method of this embodiment will be described.

本形態の目的信号区間推定方法では、複数のセンサ20−1〜Sで観測された各信号を時間周波数分析し、特定の基準センサを基準とした正規化信号値を求め、所定の時間周波数区間であるグリッド内における正規化信号値の偏在性に基づいて、目的信号の有無を検出して出力する。なお、本形態では、複数のセンサ20−1〜Sとしてマイクロフォンを利用し、それらで観測された各音響信号を用い、音声信号や音楽信号などの目的信号の有無を検出して出力する場合を例示する。また、以下では明記しないが、目的信号区間推定装置10は、制御部18の制御に基づいて各演算処理を実行し、各演算処理の過程で得られたデータは記憶部19に逐次格納され、それ以降の各演算処理に利用される。   In the target signal interval estimation method of the present embodiment, each signal observed by the plurality of sensors 20-1 to 20-S is subjected to time frequency analysis, a normalized signal value with respect to a specific reference sensor is obtained, and a predetermined time frequency interval is determined. The presence / absence of a target signal is detected and output based on the uneven distribution of normalized signal values in the grid. In this embodiment, a microphone is used as the plurality of sensors 20-1 to 20 -S, and each acoustic signal observed with them is used to detect and output the presence of a target signal such as a voice signal or a music signal. Illustrate. Further, although not specified below, the target signal section estimation device 10 executes each arithmetic processing based on the control of the control unit 18, and data obtained in the process of each arithmetic processing is sequentially stored in the storage unit 19, It is used for each subsequent calculation process.

図3は、本形態の目的信号区間推定方法を説明するためのフローチャートである。以下、このフローチャートに沿って本形態の目的信号区間推定方法を説明していく。   FIG. 3 is a flowchart for explaining the target signal section estimation method of the present embodiment. Hereinafter, the target signal section estimation method of this embodiment will be described along this flowchart.

まず、S(S≧2)個のセンサ20−1〜Sでそれぞれ観測された各信号がサンプリング部30に入力される。これらの信号には音声信号や音楽信号等目的信号の他に環境雑音信号も含まれる。サンプリング部30は、各信号を所定(例えば8.000Hz)のサンプリング周波数fでサンプリングし、これにより各センサ20−1〜Sに対応する時間領域の信号x(1,t),...,x(S,t)を抽出する(ステップS1)。なお、tはt番目のサンプリング点を示す。 First, each signal observed by S (S ≧ 2) sensors 20-1 to S is input to the sampling unit 30. These signals include environmental noise signals in addition to target signals such as audio signals and music signals. The sampling unit 30 samples each signal at a predetermined sampling frequency f s (for example, 8.000 Hz), whereby the time domain signals x (1, t),. x (S, t) is extracted (step S1). Note that t represents the t-th sampling point.

サンプリング部30で抽出された各時間領域の信号x(1,t),...,x(S,t)は、目的信号区間推定装置10の信号切出部11に入力される。信号切出部11は、入力された各信号x(1,t),...x(S,t)を所定の時間区間であるフレーム毎に切り出し、各センサ20−1〜Sについての各フレームi(iはフレームインデックスを示す)の信号x’(1,i,n),...,x’(S,i,n)を抽出する(ステップS2)。なお、nはフレームiにおけるn番目のサンプル点を表す。具体的には、信号切出部11は、例えば、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ所定の窓関数を例えば時間軸方向に16msずつ移動(シフト)させながら乗じ、これにより、例えば32msの時間長の信号x’(1,i,n),...,x’(S,i,n)を切り出す。より具体的には、例えば、サンプリング周波数が8,000Hzの場合、信号切出部11は、入力された各信号x(1,t),...,x(S,t)に対し、それぞれ例えば式(1)のハニング窓を128サンプル点(8,000Hz×16ms)ずつ移動(シフト)させながら乗じ、センサ20−1〜S毎に、256サンプル点(8,000Hz×32ms)の離散信号を1フレーム分の信号として切り出す。ここで、Lは切り出される1フレーム分の信号のサンプル点数(フレーム長:上述の例ではL=256)を表す。
Signals x (1, t),..., X (S, t) in each time domain extracted by the sampling unit 30 are input to the signal extraction unit 11 of the target signal section estimation device 10. The signal cutout unit 11 cuts out each input signal x (1, t),... X (S, t) for each frame that is a predetermined time interval, and each of the sensors 20-1 to 20S. The signals x ′ (1, i, n),..., X ′ (S, i, n) of the frame i (i indicates a frame index) are extracted (step S2). Note that n represents the nth sample point in frame i. Specifically, for example, the signal cutout unit 11 applies a predetermined window function to each input signal x (1, t),..., X (S, t), for example, in the time axis direction. By multiplying while shifting (shifting) by 16 ms, for example, a signal x ′ (1, i, n),..., X ′ (S, i, n) having a time length of 32 ms is cut out. More specifically, for example, when the sampling frequency is 8,000 Hz, the signal extraction unit 11 performs, for example, for each input signal x (1, t),..., X (S, t), respectively. The Hanning window of Equation (1) is multiplied while moving (shifted) by 128 sample points (8,000 Hz × 16 ms), and a discrete signal of 256 sample points (8,000 Hz × 32 ms) is obtained for each sensor 20-1 to S. Cut out as a signal for one frame. Here, L represents the number of sample points (frame length: L = 256 in the above example) of the signal for one frame to be cut out.

図7(a)は、このような窓関数をサンプリング部30で抽出された時間領域の信号x(1,t)の波形にシフトさせながら乗じ、各フレームの信号x’(1,i,n)を切り出す過程を例示する図である。なお、この図にはセンサ20−1に対応する時間領域の信号x(1,t)から各フレームの信号x’(1,i,n)を切り出す過程が示されているが、他のセンサ20−2〜Sについても同様に各フレームの信号x’(2,i,n),...,x’(S,i,n)が切り出される。   In FIG. 7A, such a window function is multiplied while being shifted to the waveform of the time domain signal x (1, t) extracted by the sampling unit 30, and the signal x ′ (1, i, n) of each frame is multiplied. It is a figure which illustrates the process of cutting out). In this figure, the process of cutting out the signal x ′ (1, i, n) of each frame from the time domain signal x (1, t) corresponding to the sensor 20-1 is shown. Similarly for 20-2 to S, signals x ′ (2, i, n),..., X ′ (S, i, n) of each frame are cut out.

信号切出部11は、以上のように切り出した各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を出力し、これらは周波数領域変換部12に入力される。   The signal cutout unit 11 outputs signals x ′ (1, i, n),..., X ′ (S, i, n) of each frame i for the sensors 20-1 to S cut out as described above. These are input to the frequency domain transform unit 12.

周波数領域変換部12では、各センサ20−1〜Sについての各フレームiの信号x’(1,i,n),...,x’(S,i,n)を周波数領域に変換し、時間周波数ビン(i,k)毎の周波数領域信号(周波数領域スペクトル)X(1,i,k),...,X(S,i,k)を各センサ20−1〜Sについて生成する(ステップS3)。離散フーリエ変換によってこの変換を行なう場合、周波数領域変換部12は、以下の式(2)のように周波数領域信号X(1,i,k),...,X(S,i,k)を算出する。
The frequency domain converter 12 converts the signals x ′ (1, i, n),..., X ′ (S, i, n) of each frame i for the sensors 20-1 to S to the frequency domain. , Frequency domain signals (frequency domain spectrum) X (1, i, k),..., X (S, i, k) for each time frequency bin (i, k) are generated for each sensor 20-1 to S. (Step S3). When performing this transformation by the discrete Fourier transform, the frequency domain transformation unit 12 uses the frequency domain signals X (1, i, k),..., X (S, i, k) as shown in the following equation (2). Is calculated.

ここで、jは虚数単位を示し、s(s∈{1,...,S})は各センサ20−1〜Sの番号を示す。また、k(k=0,...,M-1)は周波数インデックスであり、離散周波数をfとすると、f=fs・k/M(k=0,...,M-1)の関係を満たす。なお、fは前述の通りサンプリング周波数であり、Mはフレーム長L以上の自然数である。 Here, j indicates an imaginary unit, and s (sε {1,..., S}) indicates the number of each sensor 20-1 to S. K (k = 0, ..., M-1) is a frequency index, and f = f s · k / M (k = 0, ..., M-1) where f is a discrete frequency. Satisfy the relationship. Note that f s is the sampling frequency as described above, and M is a natural number greater than or equal to the frame length L.

図7(b)は、離散フーリエ変換によってセンサ20−1に対応する各フレームの信号x’(1,i,n)を周波数領域信号X(1,i,k)に変換する例を示した図である。なお、他のセンサ20−2〜Sについても同様な変換がなされる。   FIG. 7B shows an example in which the signal x ′ (1, i, n) of each frame corresponding to the sensor 20-1 is converted into the frequency domain signal X (1, i, k) by the discrete Fourier transform. FIG. The same conversion is performed for the other sensors 20-2 to 20-S.

また、図8(a)は環境雑音化で観測された時間領域の音響信号を例示し、図8(b)は図8(a)に例示した時間領域の音響信号を周波数領域に変換した周波数スペクトル(周波数領域信号)を表現した図である。ここで、図8(a)に例示した音響信号は、街頭騒音下で、4cm間隔で配置された2本のマイクロフォン(センサ20−1,2/S=2)を結ぶ線分の中心を通る線分と直交する方向に40〜60cm離れた位置から目的信号が到来する環境において、片方のマイクロフォン(センサ20−1)で観測された音響信号を示している。また、図8(b)では横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、周波数領域信号X(1,i,k)のパワーの大きさを色の濃淡で表現している。なお、色が薄くなるほど(白くなるほど)周波数領域信号X(1,i,k)のパワーが大きいことを示し、色が濃くなるほど(黒くなるほど)部周波数領域信号X(1,i,k)のパワーが小さいことを示す。図8(b)から、目的信号区間では周波数領域信号X(1,i,k)のパワーが大きく、また一部の周波数にパワーが集中していることが分かる(白い縞模様)。   8A illustrates a time domain acoustic signal observed by environmental noise, and FIG. 8B illustrates a frequency obtained by converting the time domain acoustic signal illustrated in FIG. 8A into a frequency domain. It is a figure expressing a spectrum (frequency domain signal). Here, the acoustic signal illustrated in FIG. 8A passes through the center of a line segment connecting two microphones (sensors 20-1, 2 / S = 2) arranged at intervals of 4 cm under street noise. The acoustic signal observed with one microphone (sensor 20-1) in an environment where the target signal arrives from a position 40 to 60 cm away in the direction orthogonal to the line segment is shown. Further, in FIG. 8B, the horizontal axis is the frame index i, the vertical axis is the frequency index k, and the magnitude of the power of the frequency domain signal X (1, i, k) is expressed by color shading. In addition, it shows that the power of the frequency domain signal X (1, i, k) is larger as the color is lighter (whiter), and the frequency of the partial frequency domain signal X (1, i, k) is higher as the color is darker (darker). Indicates that the power is small. FIG. 8B shows that the power of the frequency domain signal X (1, i, k) is large in the target signal section, and the power is concentrated at some frequencies (white stripe pattern).

周波数領域変換部12は、以上のような変換によって得られた周波数領域信号X(1,i,k),...,X(S,i,k)を出力する。   The frequency domain transform unit 12 outputs the frequency domain signals X (1, i, k),..., X (S, i, k) obtained by the above transformation.

次に、正規化部13に周波数領域信号X(1,i,k),...,X(S,i,k)が入力され、正規化部13は、基準センサsB∈{1,...,S}に対応する周波数領域信号X(sB,i,k)を基準とし、少なくとも当該基準センサsB以外のセンサs(≠sB)に対応する各周波数領域信号X(1,i,k),...,X(S,i,k)を正規化し、時間周波数ビン(i,k)毎の正規化信号値Z (i,k)を生成する(ステップS4)。なお、このような正規化信号値Z (i,k)は、目的信号が存在する時間周波数ビン(i,k)において、目的信号の到来方向に対応する値に偏ったものとなる。以下に正規化部13が生成する正規化信号値Z (i,k)の例を示す。 Next, frequency domain signals X (1, i, k),..., X (S, i, k) are input to the normalization unit 13, and the normalization unit 13 receives the reference sensor s B ε {1, ..., S} with reference to the frequency domain signal X (s B , i, k), and each frequency domain signal X (1 (1) corresponding to at least a sensor s (≠ s B ) other than the reference sensor s B , i, k),..., X (S, i, k) are normalized to generate a normalized signal value Z (i, k) for each time frequency bin (i, k) (step S4). Note that such a normalized signal value Z (i, k) is biased to a value corresponding to the arrival direction of the target signal in the time frequency bin (i, k) where the target signal exists. An example of the normalized signal value Z (i, k) generated by the normalizing unit 13 is shown below.

[正規化信号値Z (i,k)の例]
本形態では正規化信号値Z (i,k)の一例として、S=2とし、基準センサ20−1に対応する周波数領域信号X(1,i,k)と、他方のセンサ20−2に対応する周波数領域信号X(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値Z (i,k)とする(正規化信号値Z (i,k)の例1)。この例では、正規化部13は、以下の式(3)(4)によって正規化信号値Z (i,k)を算出する。なお、νは音速(約340m/秒)を示し、dはセンサ間距離(m)を示し、fは周波数インデックスkに対応する離散周波数f=fs・k/Mを示し、arg(・)は・の位相(偏角)を示す。また、τ(i,k)は信号源から各センサ20−1,2までの信号到達時間差を示し、θ(i,k)は信号到来方向推定値を示す。また、式(4)によって算出される信号到来方向θ(i,k)は、センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとした角度(radian)である。なお、このように算出された正規化信号値Z (i,k)は、周波数成分fが正規化され、周波数依存性が排除された値となる。
[Example of normalized signal value Z (i, k)]
In this embodiment, as an example of the normalized signal value Z (i, k), S = 2 is set, and the frequency domain signal X (1, i, k) corresponding to the reference sensor 20-1 and the other sensor 20-2 are set. The signal arrival direction is estimated from the corresponding frequency domain signal X (2, i, k), and the signal arrival direction estimate is defined as a normalized signal value Z (i, k) (normalized signal value Z (i, k) Example 1) of k). In this example, the normalization unit 13 calculates a normalized signal value Z (i, k) by the following equations (3) and (4). Ν represents the speed of sound (about 340 m / sec), d represents the distance between sensors (m), f represents the discrete frequency f = f s · k / M corresponding to the frequency index k, and arg (·) Indicates the phase (deflection angle). Further, τ (i, k) indicates a signal arrival time difference from the signal source to each of the sensors 20-1, 2 and θ (i, k) indicates a signal arrival direction estimated value. Further, the signal arrival direction θ (i, k) calculated by the equation (4) passes through the midpoint of the line segment connecting the sensors 20-1 and 20-2, and is an angle (0radian) where the direction orthogonal to the line segment is 0radian. radian). The normalized signal value Z (i, k) calculated in this way is a value in which the frequency component f is normalized and the frequency dependency is eliminated.

図9(a)は図8(b)の周波数領域信号X(1,i,k)をk=1,...,M/2の範囲で示した図である。また、図9(b)は、式(3)(4)に従って算出した信号到来方向推定値θ(i,k)を示した図である。この図9(b)では、横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、信号到来方向推定値を色の濃淡で表現している。なお、図9(b)の信号到来方向推定値θ(i,k)は、±π/2 radianの範囲(センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとする)で推定され、その値を絶対値表現したものである。また、図9(b)では、色が濃くなるほど(黒くなるほど)信号到来方向推定値が0radianに近いことを示し、色が薄くなるほど(白くなるほど)信号到来方向推定値が0radianから外れていることを示している。   FIG. 9A shows the frequency domain signal X (1, i, k) of FIG. 8B in the range of k = 1,..., M / 2. FIG. 9B is a diagram showing the signal arrival direction estimation value θ (i, k) calculated according to equations (3) and (4). In FIG. 9B, the horizontal axis is the frame index i, the vertical axis is the frequency index k, and the signal arrival direction estimation value is expressed by color shading. Note that the estimated signal arrival direction θ (i, k) in FIG. 9B passes through the midpoint of the line segment connecting the sensors 20-1 and 20 within the range of ± π / 2 radian and is orthogonal to the line segment. The value is expressed as an absolute value. In addition, in FIG. 9B, the darker the color (the darker the color), the closer the estimated signal arrival direction is to 0radian, and the lighter the color (the brighter the color), the farther the estimated signal arrival direction is from 0radian. Is shown.

図9(a)(b)の比較から、目的信号が存在する時間周波数ビンの領域(図9(a)に示される白い縞模様の領域)で、図9(b)の信号到来方向推定値θ(i,k)は一様に黒く表現されており、信号到来方向推定値θ(i,k)が特定の方向に偏っていることがわかる。すなわち、目的信号が存在し、周波数領域信号X(1,i,k)のパワーが偏っている時間周波数ビンにおいて、信号到来方向推定値θ(i,k)も特定の方向に偏っていることがわかる。その一方で、目的信号が存在せず、周波数領域信号X(1,i,k)のパワーが一様な時間周波数ビンの領域では、信号到来方向推定値θ(i,k)にも偏りがない。このような信号到来方向推定値θ(i,k)を正規化信号値Z (i,k)とした場合、この正規化信号値Z (i,k)の偏在性を指標として目的信号が存在するか否かを判定できる。   From the comparison between FIGS. 9A and 9B, the signal arrival direction estimation value in FIG. 9B is obtained in the time frequency bin area where the target signal exists (the white striped pattern area shown in FIG. 9A). θ (i, k) is uniformly expressed in black, and it can be seen that the signal arrival direction estimation value θ (i, k) is biased in a specific direction. That is, in the time frequency bin where the target signal exists and the power of the frequency domain signal X (1, i, k) is biased, the signal arrival direction estimation value θ (i, k) is also biased in a specific direction. I understand. On the other hand, in the domain of the time frequency bin where the target signal does not exist and the power of the frequency domain signal X (1, i, k) is uniform, the signal arrival direction estimation value θ (i, k) is also biased. Absent. When such a signal arrival direction estimation value θ (i, k) is a normalized signal value Z (i, k), the target signal exists using the uneven distribution of the normalized signal value Z (i, k) as an index. It can be determined whether or not.

同様なことは、前述の式(3)で算出された信号到達時間差τ(i,k)を正規化信号値Z (i,k)とした場合にもいえる(正規化信号値Z (i,k)の例2)。なお、このように算出された正規化信号値Z (i,k)も周波数成分fが正規化され、周波数依存性が排除された値となる。   The same can be said for the case where the signal arrival time difference τ (i, k) calculated by the above equation (3) is the normalized signal value Z (i, k) (normalized signal value Z (i, k) Example 2) of k). Note that the normalized signal value Z (i, k) calculated in this way is also a value in which the frequency component f is normalized and the frequency dependency is eliminated.

また、周波数領域信号X(1,i,k)の位相に対する周波数領域信号X(1,i,k)の位相差arg(X(2,i,k)/ X(1,i,k))を正規化信号値Z (i,k)としてもよいし(正規化信号値Z (i,k)の例3)、周波数領域信号X(1,i,k)の位相と周波数領域信号X(1,i,k)の位相との差arg(X(2,i,k))- arg (X(1,i,k))を正規化信号値Z (i,k)としてもよい(正規化信号値Z (i,k)の例4)。さらに、周波数領域信号X(1,i,k)の振幅に対する周波数領域信号X(1,i,k)の振幅の比|X(2,i,k)|/|X(1,i,k)|を正規化信号値Z (i,k)としてもよいし(正規化信号値Z (i,k)の例5)、周波数領域信号X(1,i,k)のパワーに対する周波数領域信号X(1,i,k)のパワーの比|X(2,i,k)|/|X(1,i,k)|を正規化信号値Z (i,k)としてもよい(正規化信号値Z (i,k)の例6)。何れの場合も、目的信号が存在する時間周波数ビン(i,k)においてのみ、目的信号の到来方向に対応する値に偏った値を取るため、正規化信号値Z (i,k)の偏在性を指標として目的信号が存在するか否かを判定できる。 Also, the phase difference arg (X (2, i, k) / X (1, i, k)) of the frequency domain signal X (1, i, k) with respect to the phase of the frequency domain signal X (1, i, k) May be used as the normalized signal value Z (i, k) (Example 3 of the normalized signal value Z (i, k)), and the phase of the frequency domain signal X (1, i, k) and the frequency domain signal X ( The difference arg (X (2, i, k))-arg (X (1, i, k)) from the phase of 1, i, k) may be used as the normalized signal value Z (i, k) (normal) Example 4) of the generalized signal value Z (i, k). Further, the ratio of the amplitude of the frequency domain signal X (1, i, k) to the amplitude of the frequency domain signal X (1, i, k) | X (2, i, k) | / | X (1, i, k) ) | May be a normalized signal value Z (i, k) (Example 5 of normalized signal value Z (i, k)), or a frequency domain signal corresponding to the power of the frequency domain signal X (1, i, k). The power ratio of X (1, i, k) | X (2, i, k) | 2 / | X (1, i, k) | 2 may be used as the normalized signal value Z (i, k) ( Example 6 of normalized signal value Z (i, k). In either case, only in the time frequency bin (i, k) where the target signal exists, a value biased to a value corresponding to the direction of arrival of the target signal is taken, so that the normalized signal value Z (i, k) is unevenly distributed. Whether or not the target signal exists can be determined using the sex as an index.

また、上記ではセンサの数が2つの場合を例示したが、センサの数が3以上の場合は、例えば以下のように、目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求め、それら2つの値を時間周波数ビン(i,k)に対する正規化信号値Z (i,k)としてもよい(正規化信号値Z (i,k)の例7)。   Moreover, although the case where the number of sensors was two was illustrated above, when the number of sensors is three or more, for example, the arrival azimuth angle estimated value θ (i, k) and the elevation angle estimated value of the target signal are as follows. φ (i, k) is obtained, and these two values may be used as the normalized signal value Z (i, k) for the time frequency bin (i, k) (an example of the normalized signal value Z (i, k)) 7).

まず、各センサ20−s(s=1,...,S)の空間中の座標ベクトルをd=[x座標,y座標,z座標]とする。また、J(J∈(1,...,S))番目のセンサ20−Jを基準センサとし、基準センサ20−Jと各センサ20−sとの距離ベクトルDを以下の式(5)のように設定する。なお、[・]Tはベクトル・の転置を示す。
D=[d1-dJ, d2-dJ,...,dS-dJ]T ...(5)
First, a coordinate vector in the space of each sensor 20-s (s = 1,..., S) is set to d s = [x coordinate, y coordinate, z coordinate]. Further, a J (J∈ (1,..., S)) th sensor 20-J is a reference sensor, and a distance vector D between the reference sensor 20-J and each sensor 20-s is expressed by the following equation (5). Set as follows. [•] T indicates transposition of a vector.
D = [d 1 -d J , d 2 -d J , ..., d S -d J ] T ... (5)

また、基準センサ20−Jと各センサ20−sとの信号到達時間差τ(s,i,k)を以下の式(6)で求め、それらを要素とした信号到達時間差ベクトルτ'(i,k)を以下の式(7)のように求める。
Further, a signal arrival time difference τ (s, i, k) between the reference sensor 20-J and each sensor 20-s is obtained by the following equation (6), and a signal arrival time difference vector τ ′ (i, k) using these as elements. k) is obtained by the following equation (7).

上述の式(5)〜(7)には以下の式(8)の関係が成り立ち、以下の式(8)から目的信号の到来方位角推定値θ(i,k)と仰角推定値φ(i,k)とを求める。なお、式(8)におけるD-1はムーア・ペンローズ型一般化逆行列などの一般化逆行列である。また、目的信号の到来方位角とはx−y平面上の目的信号の到来方向を意味し、目的信号の仰角とはx−z平面上の目的信号の到来方向を意味する。また、y軸線方向が0radianである。
ν・D-1・τ'(i,k)=[cosθ(i,k) cosφ(i,k),sinθ(i,k)sinφ(i,k),sinφ(i,k)] T
...(8)
The relationship of the following equation (8) holds in the above equations (5) to (7). From the following equation (8), the arrival azimuth angle estimated value θ (i, k) of the target signal and the elevation angle estimated value φ ( i, k). In Equation (8), D −1 is a generalized inverse matrix such as a Moore-Penrose type generalized inverse matrix. Also, the arrival azimuth angle of the target signal means the arrival direction of the target signal on the xy plane, and the elevation angle of the target signal means the arrival direction of the target signal on the xz plane. The y-axis direction is 0 radian.
ν ・ D −1・ τ '(i, k) = [cosθ (i, k) cosφ (i, k), sinθ (i, k) sinφ (i, k), sinφ (i, k)] T
... (8)

また、上述の正規化信号値Z (i,k)の例1〜7で例示した正規化信号値Z (i,k)を組み合わせ、時間周波数ビン(i,k)毎に2以上の正規化信号値Z (i,k)を算出する構成であってもよい(正規化信号値Z (i,k)の例8)。例えば、位相差arg(X(2,i,k)/ X(1,i,k))と振幅の比|X(2,i,k)|/|X(1,i,k)|との組を時間周波数ビン(i,k)の正規化信号値Z (i,k)としてもよい。また、例えばS=3とし、位相差arg(X(2,i,k)/ X(1,i,k))と位相差arg(X(3,i,k)/ X(1,i,k))との組を時間周波数ビン(i,k)の正規化信号値Z (i,k)としてもよい。また、上述のように生成した値の写像を正規化信号値Z (i,k)としてもよい([正規化信号値Z (i,k)の例]の説明終わり)。   In addition, the normalized signal value Z (i, k) exemplified in Examples 1 to 7 of the above-described normalized signal value Z (i, k) is combined, and two or more normalizations are performed for each time frequency bin (i, k). The signal value Z (i, k) may be calculated (Example 8 of normalized signal value Z (i, k)). For example, the phase difference arg (X (2, i, k) / X (1, i, k)) and the amplitude ratio | X (2, i, k) | / | X (1, i, k) | May be the normalized signal value Z (i, k) of the time frequency bin (i, k). For example, S = 3, and the phase difference arg (X (2, i, k) / X (1, i, k)) and the phase difference arg (X (3, i, k) / X (1, i, The pair with k)) may be the normalized signal value Z (i, k) of the time frequency bin (i, k). Further, the mapping of the values generated as described above may be used as the normalized signal value Z (i, k) (end of description of [Example of normalized signal value Z (i, k)]).

以上のようにステップS4では、正規化部13が上述のような正規化信号値Z (i,k)を生成し、出力する。   As described above, in step S4, the normalization unit 13 generates and outputs the normalized signal value Z (i, k) as described above.

また、周波数領域変換部12から出力された(ステップS3)周波数領域信号X(1,i,k),...,X(S,i,k)は、重み計算部14にも入力される。重み計算部14は、周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値に対して単調増加の関係にある重み係数W(i,k)を時間周波数ビン(i,k)毎に生成する(ステップS5)。また、好ましくは、重み係数は、周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値に対して単調増加の関係にある値を、周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である。その理由は前述した通りである。以下、重み係数W(i,k)の例を説明する。   Further, the frequency domain signals X (1, i, k),..., X (S, i, k) output from the frequency domain converter 12 (step S3) are also input to the weight calculator 14. . The weight calculator 14 is a weighting coefficient W (i, k) that is monotonically increasing with respect to the absolute value of the amplitude of the frequency domain signal X (1, i, k),. k) is generated for each time frequency bin (i, k) (step S5). Preferably, the weighting factor is a monotonically increasing value with respect to the absolute value of the amplitude of the frequency domain signal X (1, i, k), ..., X (S, i, k). A value that is monotonically increasing with respect to the absolute value of the amplitude of the frequency domain signal X (1, i, k), ..., X (S, i, k) is summed up for all frequency bins. It is a normalized value. The reason is as described above. Hereinafter, an example of the weighting factor W (i, k) will be described.

[重み係数W(i,k)の例]
重み係数W(i,k)の例として、例えば、以下の式(9)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワーを合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和で正規化した値を例示できる(重み係数W(i,k)の例1)。
[Example of weighting factor W (i, k)]
As an example of the weighting factor W (i, k), for example, the frequency domain signals X (1, i, k),..., X (S, i, k) is summed and normalized by the sum of the power of the frequency domain signals X (1, i, k), ..., X (S, i, k) for all sensors and all frequencies. (Example 1 of weighting factor W (i, k)).

図10(a)は図8(b)の周波数領域信号X(1,i,k)をk=1,...,M/2の範囲で示した図である。また、図10(b)は、式(9)に従って算出した重み係数W(i,k)を示した図である。この図10(b)では、横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、重み係数W(i,k)を色の濃淡で表現している。なお、図10(b)では、色が濃くなるほど(黒くなるほど)重み係数W(i,k)の値が小さいことを示し、色が薄くなるほど(白くなるほど)重み係数W(i,k)の値が大きいことを示している。   FIG. 10A shows the frequency domain signal X (1, i, k) of FIG. 8B in the range of k = 1,..., M / 2. FIG. 10B shows the weighting factor W (i, k) calculated according to the equation (9). In FIG. 10 (b), the horizontal axis is the frame index i, the vertical axis is the frequency index k, and the weighting coefficient W (i, k) is expressed in shades of color. In FIG. 10B, the darker the color (the darker the color), the smaller the value of the weighting factor W (i, k), and the lighter the color (the whiter) the weighting factor W (i, k). The value is large.

図10(a)(b)の比較から、目的信号が存在し、正規化信号値Z (i,k)が偏った値となる時間周波数ビンでは重み係数W(i,k)も大きな値となり、目的信号が存在せず、正規化信号値Z (i,k)が一様な値となる時間周波数ビンでは重み係数W(i,k)も小さな値となることが分かる。すなわち、このように生成した重み係数W(i,k)は、目的信号が存在する時間周波数ビン(i,k)での正規化信号値Z (i,k)の偏在性を強調するための情報として用いることができる。この詳細については後述のステップS9で説明する。また、式(9)の重み係数W(i,k)は、全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和に対する、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和の相対値である。そのため、例えば、背景雑音のパワーが各時刻で変動する環境にように、フレームインデックスi毎に周波数領域信号X(1,i,k),...,X(S,i,k)のパワーが全周波数について一様に変動する場合であっても、重み係数W(i,k)を適切に設定できる。例えば、背景雑音のパワーが極端に大きい場合でも、目的信号が存在する時間周波数ビン(i,k)の重み係数W(i,k)と、目的信号が存在しない時間周波数ビン(i,k)の重み係数W(i,k)との比率を十分大きくとることができる。   From the comparison between FIGS. 10A and 10B, the weighting factor W (i, k) is also a large value in the time frequency bin where the target signal exists and the normalized signal value Z (i, k) is biased. It can be seen that the weighting factor W (i, k) is also small in the time frequency bin where the target signal does not exist and the normalized signal value Z (i, k) is a uniform value. That is, the weighting factor W (i, k) generated in this way is used to emphasize the uneven distribution of the normalized signal value Z (i, k) in the time frequency bin (i, k) where the target signal exists. It can be used as information. Details of this will be described later in step S9. Also, the weighting factor W (i, k) in equation (9) is the power of the frequency domain signal X (1, i, k), ..., X (S, i, k) for all sensors and all frequencies. It is the relative value of the power sum of the frequency domain signals X (1, i, k),..., X (S, i, k) for all sensors with respect to the sum. Therefore, for example, the power of the frequency domain signals X (1, i, k),..., X (S, i, k) for each frame index i so that the background noise power varies at each time. Even when the frequency fluctuates uniformly for all frequencies, the weighting factor W (i, k) can be set appropriately. For example, even when the power of the background noise is extremely large, the weighting factor W (i, k) of the time frequency bin (i, k) where the target signal exists and the time frequency bin (i, k) where the target signal does not exist The ratio with the weighting factor W (i, k) can be made sufficiently large.

また、重み係数W(i,k)として、例えば、以下の式(10)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値を合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値の総和で正規化した値を用いてもよい(重み係数W(i,k)の例2)。
Further, as the weighting factor W (i, k), for example, the frequency domain signals X (1, i, k),..., X (S, i, The absolute value of the amplitude of k) is summed, and the sum of the absolute values of the amplitudes of the frequency domain signals X (1, i, k), ..., X (S, i, k) for all sensors and all frequencies A value normalized by the sum may be used (Example 2 of weighting factor W (i, k)).

また、式(9)(10)のような正規化を行わないで重み係数W(i,k)を求めてもよい(重み係数W(i,k)の例3)。この場合には演算量が低減できるとともに、雑音環境によっては十分に目的信号区間推定が可能な場合もあるからである。例えば、以下の式(11)(12)のように重み係数W(i,k)を求めてもよい。
Further, the weighting factor W (i, k) may be obtained without performing normalization as in equations (9) and (10) (Example 3 of weighting factor W (i, k)). This is because the amount of calculation can be reduced in this case, and the target signal section can be sufficiently estimated depending on the noise environment. For example, the weighting coefficient W (i, k) may be obtained as in the following equations (11) and (12).

また、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値やパワーを合算するのではなく、一部のセンサについての周波数領域信号X(1,i,k),...,X(S,i,k)の振幅の絶対値やパワーを合算したり、以下の式(13)(14)のように1個のセンサ20−Jの周波数領域信号X(J,i,k)の振幅の絶対値やパワーを重み係数W(i,k)としたりしてもよい(重み係数W(i,k)の例4)。なおこの場合には、できるだけ信号源に近い(出来れば最も近い)センサ20−Jの周波数領域信号X(J,i,k)を用いることが望ましい。信号源に近いセンサ20−Jほど、遅延や畳み込みの影響が少なく、適切な重み係数W(i,k)を算出できるからである。
W(i,k)=|X(J,i,k)| ...(13)
W(i,k)=|X(J,i,k)|2 ...(14)
Also, instead of adding the absolute values and powers of the amplitudes of the frequency domain signals X (1, i, k), ..., X (S, i, k) for all sensors, The absolute value and power of the amplitudes of the frequency domain signals X (1, i, k),. The absolute value or power of the amplitude of the frequency domain signal X (J, i, k) of the sensor 20-J may be used as the weighting factor W (i, k) (an example of the weighting factor W (i, k)) 4). In this case, it is desirable to use the frequency domain signal X (J, i, k) of the sensor 20-J as close to the signal source as possible (closest if possible). This is because the sensor 20-J closer to the signal source has less influence of delay and convolution, and an appropriate weighting factor W (i, k) can be calculated.
W (i, k) = | X (J, i, k) | ... (13)
W (i, k) = | X (J, i, k) | 2 ... (14)

なお、重み係数W(i,k)を1などの固定値とし、重み計算部14及びその処理を省略する構成であってもよい。また、雑音環境や目的信号の状況に応じ、重み係数W(i,k)を1などの固定値とする場合と、重み係数W(i,k)の例1〜4のように重み係数W(i,k)を逐次算出する場合と、を切り替え制御可能な構成としてもよい([重み係数W(i,k)の例]の説明終わり)。   The weight coefficient W (i, k) may be a fixed value such as 1, and the weight calculator 14 and its processing may be omitted. In addition, the weighting factor W (i, k) is set to a fixed value such as 1 according to the noise environment and the state of the target signal, and the weighting factor W as in Examples 1 to 4 of the weighting factor W (i, k). A configuration in which (i, k) is sequentially calculated and switching control is possible (end of description of [example of weighting factor W (i, k)]).

重み計算部14は、上述のように生成した時間周波数ビン(i,k)毎の重み係数W(i,k)を出力する。   The weight calculation unit 14 outputs the weighting coefficient W (i, k) for each time frequency bin (i, k) generated as described above.

その後、グリッド分類部15に、正規化部13から出力された正規化信号値Z (i,k)と、重み計算部14から出力された重み係数W(i,k)とが入力される。グリッド分類部15は、所定の時間周波数区間であるグリッド毎に各時間周波数ビン(i,k)の正規化信号値Z (i,k)を分類し、時間周波数ビン(i,k)を中心とするグリッドに含まれる時間周波数ビンの正規化信号値Z (i,k)の集合をGRIDz(i,k)として出力する(ステップS6)。また、グリッド分類部15は、所定の時間周波数区間であるグリッド毎に各時間周波数ビン(i,k)の重み係数W(i,k)を分類し、時間周波数ビン(i,k)を中心とするグリッドに含まれる時間周波数ビンの重み係数W(i,k)の集合をGRIDW(i,k)として出力する(ステップS7)。 Thereafter, the normalized signal value Z (i, k) output from the normalization unit 13 and the weighting coefficient W (i, k) output from the weight calculation unit 14 are input to the grid classification unit 15. The grid classification unit 15 classifies the normalized signal value Z (i, k) of each time frequency bin (i, k) for each grid that is a predetermined time frequency section, and centers the time frequency bin (i, k). A set of normalized signal values Z (i, k) of time frequency bins included in the grid is output as GRID z (i, k) (step S6). Further, the grid classification unit 15 classifies the weighting factor W (i, k) of each time frequency bin (i, k) for each grid that is a predetermined time frequency section, and centers the time frequency bin (i, k). A set of weighting factors W (i, k) of time frequency bins included in the grid is output as GRID W (i, k) (step S7).

グリッドの分類は、例えば、以下の式(15)〜(18)に従って行う。なお、{・}は・を要素とする集合を意味する。
GRIDz(i,k)={Z(i+P,k+Q)} ...(15)
GRIDW(i,k)={W(i+P,k+Q)} ...(16)
The classification of the grid is performed according to the following formulas (15) to (18), for example. In addition, {•} means a set having • as an element.
GRID z (i, k) = {Z (i + P, k + Q)} ... (15)
GRID W (i, k) = {W (i + P, k + Q)} ... (16)

図11(a)は、目的信号が存在する時間周波数ビンを含むグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。また、図11(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンからなるグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。なお、図11(a)(b)では、横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、周波数領域信号、正規化信号値及び重み係数の各値の大きさを色の濃淡で表現している(図8(b),図9(b),図10(b)と同様)。また、図11(a)(b)では、正規化信号値として式(4)の信号到来方向推定値を用い、重み係数として式(9)のものを用いている。   FIG. 11A is a diagram showing a frequency domain signal, a normalized signal value, and a weighting factor in a grid including a time frequency bin in which a target signal exists. FIG. 11B is a diagram showing a frequency domain signal, a normalized signal value, and a weighting factor in a grid composed of time frequency bins in which no target signal exists and only a noise signal exists. In FIGS. 11A and 11B, the horizontal axis is the frame index i, the vertical axis is the frequency index k, and the magnitude of each value of the frequency domain signal, the normalized signal value, and the weighting coefficient is represented by the color shading. This is expressed (similar to FIG. 8B, FIG. 9B, and FIG. 10B). In FIGS. 11A and 11B, the signal arrival direction estimation value of Expression (4) is used as the normalized signal value, and the weighting coefficient of Expression (9) is used.

図11(a)から分かるように、目的信号が存在する時間周波数ビンの領域では、正規化信号値が特定の値(特定の信号到来方向推定値)に偏り、重み係数の値が大きくなる。一方、図11(b)から分かるように、目的信号が存在しない時間周波数ビンの領域では、正規化信号値が特定の値及び重み係数は幅広く一様に分布する。   As can be seen from FIG. 11A, in the region of the time frequency bin where the target signal exists, the normalized signal value is biased to a specific value (specific signal arrival direction estimated value), and the value of the weighting factor becomes large. On the other hand, as can be seen from FIG. 11B, in the region of the time frequency bin where the target signal does not exist, the specific value of the normalized signal value and the weighting factor are widely and uniformly distributed.

なお、前述したように、本発明ではグリッド単位で正規化信号値Z (i,k)の偏在性を参照し、そのグリッドが目的信号区間であるか否かの判定を行う。ここで、正規化信号値Z (i,k)におけるグリッドの時間周波数区間が広すぎると(例えば、図8(b)の白い縞模様を複数包含するような時間周波数区間)グリッド内での正規化信号値Z (i,k)の偏在性が平坦化され、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。逆に正規化信号値Z (i,k)におけるグリッドの時間周波数区間が狭すぎると(例えば、2,3の時間周波数ビンからなる時間周波数区間)、サンプル数が少ないため全てのグリッドでの正規化信号値Z (i,k)の偏在性が高くなり、偏在性から目的信号区間であるか非目的信号区間であるかを判定することが困難となる。   As described above, the present invention refers to the uneven distribution of the normalized signal value Z (i, k) in units of grids and determines whether or not the grid is the target signal section. Here, if the time frequency interval of the grid in the normalized signal value Z (i, k) is too wide (for example, the time frequency interval including a plurality of white stripe patterns in FIG. 8B), normalization in the grid is performed. The uneven distribution of the normalized signal value Z (i, k) is flattened, and it is difficult to determine whether the signal is a target signal section or a non-target signal section from the uneven distribution. Conversely, if the time frequency interval of the grid in the normalized signal value Z (i, k) is too narrow (for example, a time frequency interval consisting of a few time frequency bins), normalization in all grids due to the small number of samples. The ubiquity of the converted signal value Z (i, k) becomes high, and it is difficult to determine whether it is the target signal section or the non-target signal section from the ubiquity.

よって、正規化信号値Z (i,k)のグリッド幅はこのような問題が生じない範囲で設定する必要がある。以下に好ましいグリッド幅の設定方法について説明する。   Therefore, it is necessary to set the grid width of the normalized signal value Z (i, k) within a range in which such a problem does not occur. A preferable grid width setting method will be described below.

[式(17)のAについて]
信号が音声信号の場合、およそ音声信号の定常性が仮定できる50〜300 msの時間長に対応するAを決定すればよい。すなわち、フレームシフトの幅をSF msとすると、50/SF〜300/SFの間の整数値をAとすればよい。また、話者の発話速度SR syllables/sec(1秒あたりに発話される音節数)が事前に分かるならば、(1000/SR)/SF近傍の(例えば最も近い)整数値をAとしてもよい(例えば、SR=7 syllables/sec, SF=16msならば、(1000/SR)/SF=(1000/7)/16=8.93なので、A=9とする、など)。また、対象信号が音楽信号ならば、音楽のリズム(音声のSRに対応)から同様にAを求める値を用いることが望ましい。
[About A in Formula (17)]
When the signal is an audio signal, A corresponding to a time length of 50 to 300 ms in which the steadiness of the audio signal can be assumed is determined. That is, if the width of the frame shift is SF ms, an integer value between 50 / SF and 300 / SF may be A. Also, if the speaker's speech rate SR syllables / sec (the number of syllables uttered per second) is known in advance, an integer value in the vicinity of (1000 / SR) / SF (for example, the nearest) may be A. (For example, if SR = 7 syllables / sec and SF = 16 ms, (1000 / SR) / SF = (1000/7) /16=8.93, so A = 9). If the target signal is a music signal, it is desirable to use a value for obtaining A in the same way from the rhythm of music (corresponding to the SR of sound).

[式(17)のBについて]
好ましくは、基本的に、窓関数w(n)のメインローブ幅から得られる幅を用いるとよい。例えば、窓関数w(n)の離散フーリエ変換値をW(k)とし、1<k<M/2の範囲で20 log10(W(k)/W(0))> -60dBを満たす最大の周波数ビンkをcfとし、cf・2+1近傍の(例えば最も近い)整数値をBとする。この値はサンプリング周波数fs,分析フレーム長L,離散フーリエ変換の周波数ビンの総数Mに応じて変化する(例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256ならば、cf=2となり、B=5となる)。
[About B in Formula (17)]
Preferably, a width obtained from the main lobe width of the window function w (n) is basically used. For example, the discrete Fourier transform value of the window function w (n) is W (k), and the maximum value satisfying 20 log 10 (W (k) / W (0))>-60dB in the range of 1 <k <M / 2 And cf · 2 + 1 (for example, the closest integer value) is B. This value varies depending on the sampling frequency f s , the analysis frame length L, and the total number M of frequency bins of the discrete Fourier transform (for example, if the sampling frequency is 8 kHz, the width of the window function is 256 sampling points, and M = 256, cf = 2 and B = 5).

ただし、音声信号の基本周波数F0 Hzが事前に分かっている場合は、一つのグリッドに2つ以上の音声信号の調波成分が入らないように、例えばB=2・F0/(fs/M)+1により定める。これが上記のメインローブ幅から求まる幅より大きくなる場合は、上記のメインローブ幅から求める値を採用する。例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256のとき、F0=50 HzならB=2・50・(8000/256)+1=4.2となるので、例えばB=4とする。一方、F0=200 HzならB=2・200・(8000/256)+1=13.8となるが、上記のメインローブ幅から求める値B=5よりも大きくなるため、B=5を採用する。これは、メインローブ幅の中でのみ音声信号の到来方向が偏在することによる。これらは目的信号が音楽信号である場合も同様である。 However, if the fundamental frequency F0 Hz of the audio signal is known in advance, for example, B = 2 · F0 / (f s / M so that harmonic components of two or more audio signals do not enter one grid. ) Determined by +1. When this is larger than the width obtained from the main lobe width, the value obtained from the main lobe width is adopted. For example, when the sampling frequency is 8 kHz, the width of the window function is 256 sampling points, and M = 256, if F0 = 50 Hz, B = 2 · 50 · (8000/256) + 1 = 4.2. To do. On the other hand, if F0 = 200 Hz, B = 2 · 200 · (8000/256) + 1 = 13.8, but B = 5 is adopted because it is larger than the value B = 5 obtained from the main lobe width. This is because the arrival direction of the audio signal is unevenly distributed only within the main lobe width. These are the same when the target signal is a music signal.

また、重み係数W(i,k)のグリッド分類(ステップS7)は必ずしも必要ではなく、ステップS7を実行しない方法であってもよい。
グリッド分類部15は、上述のように生成した集合GRIDz(i,k)とGRIDW(i,k)とを出力し、それらは偏在性指標値算出部16に入力される。
Further, the grid classification (step S7) of the weighting factor W (i, k) is not necessarily required, and a method that does not execute step S7 may be used.
The grid classification unit 15 outputs the sets GRID z (i, k) and GRID W (i, k) generated as described above, and these are input to the ubiquitous index value calculation unit 16.

偏在性指標値算出部16は、集合GRIDz(i,k)とGRIDW(i,k)とを用い、正規化信号値Z (i,k)の偏在性を示す偏在性指標値H(i,k)をグリッド毎に算出する(ステップS8)。その一例として、本形態では、重み係数W(i,k)によって頻度に重み付けを行いつつ、グリッド毎に正規化信号値Z (i,k)のヒストグラムを生成し、生成したヒストグラムを確率密度関数とみなし、そのエントロピーを偏在性指標値H(i,k)とする。 The ubiquitous index value calculation unit 16 uses the set GRID z (i, k) and GRID W (i, k), and the ubiquitous index value H () indicating the ubiquity of the normalized signal value Z (i, k). i, k) is calculated for each grid (step S8). As an example, in this embodiment, a histogram of the normalized signal value Z (i, k) is generated for each grid while weighting the frequency by the weighting factor W (i, k), and the generated histogram is converted into a probability density function. And the entropy is defined as an uneven distribution index value H (i, k).

まず、偏在性指標値算出部16のヒストグラム生成部16a(図2(a))は、入力された集合GRIDz(i,k)の要素である各正規化信号値Z (i,k)をC個の値Z(c)(c=1,..,C)に量子化する。そして、量子化された正規化信号値Z(c)毎の頻度を時間周波数ビン(i,k)毎にGRIDW(i,k)の要素である重み係数W(i,k)で重み付けしながらカウントし、ヒストグラムを生成する。例えば、正規化信号値Z (i,k)が信号到来方向θ(i,k)であり、C=32であった場合、各正規化信号値Z (i,k)は以下のようなC個の正規化信号値Z(c)に量子化される。
Z(1) (-π/2≦Z (i,k)<-7π/16)
Z(2) (-7π/16≦Z (i,k)<-3π/16)
・・・
Z(C) (7π/16<Z (i,k)<π/2)
First, the histogram generation unit 16a (FIG. 2A) of the ubiquitous index value calculation unit 16 calculates each normalized signal value Z (i, k) that is an element of the input set GRID z (i, k). Quantize to C values Z (c) (c = 1,..., C). Then, the frequency for each quantized normalized signal value Z (c) is weighted by the weighting factor W (i, k) that is an element of GRID W (i, k) for each time frequency bin (i, k). Count and generate a histogram. For example, when the normalized signal value Z (i, k) is the signal arrival direction θ (i, k) and C = 32, each normalized signal value Z (i, k) is represented by the following C Quantized to the normalized signal value Z (c).
Z (1) (-π / 2 ≦ Z (i, k) <-7π / 16)
Z (2) (-7π / 16 ≦ Z (i, k) <-3π / 16)
...
Z (C) (7π / 16 <Z (i, k) <π / 2)

なお、前述の式(3)で算出された信号到達時間差τ(i,k)を正規化信号値Z (i,k)とした場合には、例えば|τ(i,k)|≦(d/ν)×α(αは正の定数)の単位で正規化信号値Z (i,k)をC個に量子化する。   When the signal arrival time difference τ (i, k) calculated by the above equation (3) is the normalized signal value Z (i, k), for example, | τ (i, k) | ≦ (d The normalized signal value Z (i, k) is quantized to C in units of / ν) × α (α is a positive constant).

そして、時間周波数ビン(i,k)毎に正規化信号値Z (i,k)がいずれの正規化信号値Z(c)に対応するかを判断し、その頻度をカウントする。そして、そのカウントの際、対応する時間周波数ビン(i,k)の重み係数W(i,k)で頻度を重み付けする。例えば、時間周波数ビン(1,2)を量子化した値がZ(5)であった場合、Z(5)に対する頻度としてW(1,2)をカウントする。すなわち、GRIDz(i,k)に属する正規化信号値Z (i,k)に対する、量子化された正規化信号値Z(c)の頻度bin(i,k,c)(c=1,...,C)は、以下の式(19)のようにカウントされる。
bin(i,k,c)=ΣW(i,k) if Z (i,k)∈Z(c) ...(19)
Then, for each time frequency bin (i, k), it is determined which normalized signal value Z (i, k) corresponds to which normalized signal value Z (c), and the frequency is counted. In the counting, the frequency is weighted by the weighting factor W (i, k) of the corresponding time frequency bin (i, k). For example, if the value obtained by quantizing the time frequency bin (1, 2) is Z (5), W (1, 2) is counted as the frequency for Z (5). That is, for the normalized signal value Z (i, k) belonging to GRID z (i, k), the frequency bin (i, k, c) of the quantized normalized signal value Z (c) (c = 1, ..., C) are counted as in the following equation (19).
bin (i, k, c) = ΣW (i, k) if Z (i, k) ∈Z (c) ... (19)

図12は、このように生成したヒストグラムを、横軸を量子化された正規化信号値(信号到来方向)Z(c)とし、縦軸を正規化された重み付け後の頻度bin(i,k,c)として表示した例である。ここで、図12(a)は、目的信号が存在する時間周波数ビンを含むグリッド(図11(a))について作成されたヒストグラムであり、図12(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッド(図11(b))について作成されたヒストグラムの例示である。   FIG. 12 shows the histogram generated in this manner, with the abscissa indicating the quantized normalized signal value (signal arrival direction) Z (c) and the ordinate indicating the normalized frequency bin (i, k). , c). Here, FIG. 12 (a) is a histogram created for a grid (FIG. 11 (a)) including time frequency bins where the target signal exists, and FIG. 12 (b) shows that the target signal does not exist. It is an illustration of the histogram created about the grid (FIG.11 (b)) containing the time frequency bin in which only a noise signal exists.

図12(a)(b)の対比から分かるように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラム(図12(a))は、正規化信号値Z(c)が特定の値に偏った分布をみせる(偏在性が高い)のに対し、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッドのヒストグラム(図12(b))は、幅広く分布する形状となることが分かる。   As can be seen from the comparison of FIGS. 12 (a) and 12 (b), the histogram (FIG. 12 (a)) of the grid including the time frequency bin where the target signal is present has the normalized signal value Z (c) set to a specific value. The histogram of the grid (FIG. 12 (b)) including the time frequency bin where the target signal does not exist and only the noise signal exists while the distribution is uneven (highly uneven) has a widely distributed shape. I understand that

ヒストグラム生成部16aは、以上のように生成したヒストグラムを特定するためのbin(i,k,c)(c=1,...,C)を出力し、bin(i,k,c)は確率密度関数計算部16bに入力される。
確率密度関数計算部16bは、bin(i,k,c)を用い、以下の式(20)のようにヒストグラムを確率密度関数P(i,k,c)とみなし、確率密度関数P(i,k,c)を算出し、出力する。
The histogram generator 16a outputs bin (i, k, c) (c = 1, ..., C) for specifying the histogram generated as described above, and bin (i, k, c) is It is input to the probability density function calculator 16b.
The probability density function calculation unit 16b uses bin (i, k, c), regards the histogram as a probability density function P (i, k, c) as shown in the following equation (20), and sets the probability density function P (i , k, c) is calculated and output.

確率密度関数P(i,k,c)は、エントロピー計算部16cに入力され、エントロピー計算部16cは、以下の式(21)のようにエントロピーを求め、これを偏在性指標値H(i,k)として出力する。
The probability density function P (i, k, c) is input to the entropy calculation unit 16c, and the entropy calculation unit 16c obtains entropy as shown in the following equation (21), and obtains the ubiquitous index value H (i, Output as k).

このように算出したエントロピーH(i,k)は、正規化信号値Z(c)のヒストグラムが特定の値に偏った分布をみせる場合には低い値となり、幅広く分布する場合には高い値となる。すなわち、図12(a)のように、目的信号が存在する時間周波数ビンを含むグリッドのヒストグラムは、正規化信号値Z(c)が特定の値に偏るため、エントロピーH(i,k)は小さくなる。   The entropy H (i, k) calculated in this way is a low value when the histogram of the normalized signal value Z (c) shows a distribution biased to a specific value, and a high value when the histogram is widely distributed. Become. That is, as shown in FIG. 12A, in the histogram of the grid including the time-frequency bin where the target signal exists, the normalized signal value Z (c) is biased to a specific value, so the entropy H (i, k) is Get smaller.

図13(a)は、このように得られたエントロピーH(i,k)を例示したグラフである。なお、図13(a)では横軸をフレームインデックスiとし、縦軸を周波数インデックスkとし、エントロピーH(i,k)の大きさを色の濃淡で表現している。なお、色が薄くなるほど(白くなるほど)エントロピーH(i,k)が大きいことを示し、色が濃くなるほど(黒くなるほど)エントロピーH(i,k)が小さいことを示す。   FIG. 13A is a graph illustrating the entropy H (i, k) thus obtained. In FIG. 13A, the horizontal axis is the frame index i, the vertical axis is the frequency index k, and the size of the entropy H (i, k) is expressed by the color shading. In addition, it shows that entropy H (i, k) is so large that a color is light (it becomes white), and entropy H (i, k) is so small that a color is dark (it becomes black).

図13(a)と図10(a)とを比較すれば分かるように、目的信号が存在する時間周波数ビンを含むグリッドでは、エントロピーH(i,k)の値は小さくなり、雑音のみが存在する時間周波数ビンでは、エントロピーH(i,k)の値は大きくなる。よって、このエントロピーH(i,k)を偏在性指標値H(i,k)とすれば、偏在性指標値H(i,k)の大きさを指標として目的信号区間を推定できる。   As can be seen by comparing FIG. 13 (a) and FIG. 10 (a), the entropy H (i, k) value is small and only noise exists in the grid including the time frequency bin where the target signal exists. In the time frequency bin to be performed, the value of entropy H (i, k) becomes large. Therefore, if this entropy H (i, k) is the ubiquitous index value H (i, k), the target signal interval can be estimated using the size of the ubiquitous index value H (i, k) as an index.

なお、ここではヒストグラムの偏りを示す指標としてエントロピーを用い、それを偏在性指標値H(i,k)としているが、その他の正規化信号値Z (i,k)の偏在性を示す指標を在性指標値H(i,k)としてもよい。以下に他の偏在性指標値H(i,k)を例示する。   Here, entropy is used as an index indicating the bias of the histogram, and it is used as the ubiquitous index value H (i, k), but other indexes indicating the ubiquity of the normalized signal value Z (i, k) are used. The presence index value H (i, k) may be used. Examples of other uneven distribution index values H (i, k) are shown below.

[偏在性指標値H(i,k)の変形例]
例えば、図2(a)の偏在性指標値算出部16の代わりに、図4(a)の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i,k)の変形例1)。この例では分散を偏在性指標値H(i,k)として用いる。この場合、まず、偏在性指標値算出部16の平均値算出部16dに、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力される。平均値算出部16dは、以下の式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値Z (i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値E(i,k)を求めて出力する。なお、μはGRIDW(i,k)の要素数である。
[Modified example of uneven distribution index value H (i, k)]
For example, the ubiquitous index value calculation unit 16 shown in FIG. 4A may be used instead of the ubiquitous index value calculation unit 16 shown in FIG. 2A (transformation of the ubiquitous index value H (i, k). Example 1). In this example, the variance is used as the uneven distribution index value H (i, k). In this case, first, each normalized signal value Z (i, k), which is an element of GRID z (i, k), and GRID W (i, k) are input to the average value calculation unit 16d of the uneven distribution index value calculation unit 16. ) Is input as a weighting factor W (i, k). The average value calculation unit 16d weights each normalized signal value Z (i, k) with a weighting coefficient W (i, k) for each time frequency bin (i, k) as shown in the following equation (22). The average value E (i, k) after weighting is obtained and output. Note that μ is the number of elements of GRID W (i, k).

偏在性指標値算出部16の分散計算部16eには、平均値E(i,k)と、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力され、以下の式(23)のように分散H(i,k)を計算し、それを偏在性指標値H(i,k)として出力する。
The variance calculation unit 16e of the uneven distribution index value calculation unit 16 includes an average value E (i, k), each normalized signal value Z (i, k) that is an element of GRID z (i, k), and a GRID. A weighting factor W (i, k), which is an element of W (i, k), is input, and a variance H (i, k) is calculated as in the following equation (23). Output as (i, k).

式(23)の分散H(i,k)は、目的信号が存在する時間周波数ビンを含むグリッドについては小さな値となり、雑音のみが存在する時間周波数ビンを含むグリッドでは大きくなる。よって、この分散H(i,k)を偏在性指標値H(i,k)とすれば、偏在性指標値H(i,k)の大きさを指標として目的信号区間を推定できる。   The variance H (i, k) in Expression (23) is a small value for a grid including a time frequency bin where the target signal exists, and is large for a grid including a time frequency bin where only noise exists. Therefore, if the variance H (i, k) is the ubiquitous index value H (i, k), the target signal interval can be estimated using the size of the ubiquitous index value H (i, k) as an index.

また、図2(a)の偏在性指標値算出部16の代わりに、図4(b)の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i,k)の変形例2)。この例では尖度を偏在性指標値H(i,k)として用いる。   Further, the ubiquitous index value calculation unit 16 of FIG. 4B may be used instead of the ubiquitous index value calculation unit 16 of FIG. 2A (transformation of the ubiquitous index value H (i, k)). Example 2). In this example, kurtosis is used as the ubiquitous index value H (i, k).

この場合、まず、偏在性指標値算出部16の平均値算出部16dに、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力される。平均値算出部16dは、式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値Z (i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値E(i,k)を求めて出力する。また、偏在性指標値算出部16の分散計算部16eには、平均値E(i,k)と、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力され、式(23)と同様に分散σ(i,k)を計算し出力する。 In this case, first, each normalized signal value Z (i, k), which is an element of GRID z (i, k), and GRID W (i, k) are input to the average value calculation unit 16d of the uneven distribution index value calculation unit 16. ) Is input as a weighting factor W (i, k). The average value calculation unit 16d weights each normalized signal value Z (i, k) with a weighting coefficient W (i, k) for each time frequency bin (i, k) as shown in the equation (22). The later average value E (i, k) is obtained and output. In addition, the variance calculation unit 16e of the uneven distribution index value calculation unit 16 includes an average value E (i, k) and each normalized signal value Z (i, k) which is an element of GRID z (i, k). , GRID W (i, k), which is an element of the weight coefficient W (i, k), is input, and the variance σ (i, k) is calculated and output in the same manner as in equation (23).

さらに尖度計算部16fに、分散σ(i,k)と、平均値E(i,k)と、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力され、尖度計算部16fは、例えば以下の式(24)によって尖度H(i,k)を求め、これを偏在性指標値H(i,k)として出力する。
Further, the kurtosis calculation unit 16f has a variance σ (i, k), an average value E (i, k), and each normalized signal value Z (i, k) that is an element of GRID z (i, k) , GRID W (i, k) and the weighting factor W (i, k) are input, and the kurtosis calculation unit 16f obtains the kurtosis H (i, k) by the following equation (24), for example. This is output as an uneven distribution index value H (i, k).

また、標準偏差等その他正規化信号値Z (i,k)の偏在性を示す統計量を偏在性指標値H(i,k)として用いてもよい。   Further, a statistic indicating the uneven distribution of other normalized signal values Z (i, k) such as standard deviation may be used as the uneven distribution index value H (i, k).

さらに、時間周波数ビン(i,k)毎に2種類以上の正規化信号値Z (i,k)(例えば位相差と振幅比)が生成されている場合には、当該2種類以上の正規化信号値Z (i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i,k)をグリッド毎に算出してもよいし、当該2種類以上の正規化信号値Z (i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i,k)をグリッド毎に算出してもよいが、2以上の偏在性指標値H(i,k)を算出する場合と1種類の偏在性指標値H(i,k)を算出する場合とでは、後述する判定部17での処理内容が相違する([偏在性指標値H(i,k)の変形例]の説明終わり)。   Further, when two or more kinds of normalized signal values Z (i, k) (for example, phase difference and amplitude ratio) are generated for each time frequency bin (i, k), the two or more kinds of normalization are performed. Two or more unevenness index values H (i, k) each indicating the uneven distribution of the signal value Z (i, k) may be calculated for each grid, or the two or more kinds of normalized signal values Z (i , k) may be calculated for each grid, and the ubiquitous index value H (i, k) may be calculated for each grid. The processing contents in the determination unit 17 to be described later are different between the case and the case of calculating one kind of uneven distribution index value H (i, k) ([Modified example of uneven distribution index value H (i, k)]. End of description).

上述のように偏在性指標値算出部16から出力された正規化信号値Z (i,k)は、判定部17に入力され、判定部17は、偏在性指標値H(i,k)を指標とし、各グリッドが目的信号区間に対応するか否かを判定する(ステップS9)。   As described above, the normalized signal value Z (i, k) output from the ubiquitous index value calculation unit 16 is input to the determination unit 17, and the determination unit 17 determines the ubiquity index value H (i, k). It is determined whether each grid corresponds to the target signal section as an index (step S9).

本形態では、偏在性指標値H(i,k)を入力とし、判定対象のグリッドの偏在性指標値H(i,k)を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値H’(i,k)を算出し、非目的信号区間のグリッドの偏在性指標値H(i,k)を上記所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値λ(k)を算出する。そして、第1値と第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に判定対象のグリッドが目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に判定対象のグリッドが目的信号区間に対応すると判定する。   In this embodiment, the ubiquitous index value H (i, k) is input, and the ubiquitous index value H (i, k) of the determination target grid is substituted into a predetermined function to indicate the likelihood of the target signal section of the grid. The first value H ′ (i, k) that is monotonically increasing with respect to the probability is calculated, and the uneven distribution index value H (i, k) of the grid in the non-target signal section is substituted into the predetermined function, A second value λ (k) that is monotonically increasing with respect to the probability indicating the likelihood of the target signal section of the grid is calculated. If the division value that is the ratio between the first value and the second value or the mapping of the division value is equal to or greater than a predetermined threshold value, it is determined that the determination target grid corresponds to the target signal interval, or the predetermined value When the threshold is exceeded, it is determined that the determination target grid corresponds to the target signal section.

この一例として、周波数毎に目的信号の存在区間らしさを(尤度)を非存在区間らしさに対する比(尤度比)として計算し、その全周波数帯域に渡る平均尤度比と所定の閾値との大小関係を比較し、目的信号区間であるか否かを判定する方法を例示できる。以下にこの方法を説明する。   As an example of this, the likelihood of the target signal existing section for each frequency is calculated as a ratio (likelihood ratio) to the likelihood of nonexistent section (likelihood ratio), and the average likelihood ratio over the entire frequency band and a predetermined threshold value A method of comparing the magnitude relation and determining whether or not it is the target signal section can be exemplified. This method will be described below.

まず、第1値算出部17aに前述のエントロピーである偏在性指標値H(i,k)が入力され、以下の式(25)によって第1値H’(i,k)を算出して出力する。この第1値H’(i,k)は、エントロピーである偏在性指標値H(i,k)の大小を逆転させた値であり、目的信号が存在するグリッドで大きな値をとり、目的信号が存在しないグリッドで小さな値をとる。すなわち、第1値H’(i,k)は、判定対象のグリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある値である。
H’(i,k)=(1- H(i,k))/log2(C) ...(25)
First, the ubiquitous index value H (i, k), which is the aforementioned entropy, is input to the first value calculation unit 17a, and the first value H ′ (i, k) is calculated and output by the following equation (25). To do. The first value H ′ (i, k) is a value obtained by reversing the size of the ubiquitous index value H (i, k), which is entropy. The first value H ′ (i, k) takes a large value in the grid where the target signal exists, Takes a small value in a grid that does not exist. That is, the first value H ′ (i, k) is a value that is in a monotonically increasing relationship with the probability indicating the likelihood of the target signal section of the determination target grid.
H '(i, k) = (1- H (i, k)) / log 2 (C) ... (25)

また、第2値算出部17bには、目的信号が存在しない(又は存在しないと予測される)グリッドに対応する、前述のエントロピーである偏在性指標値H(i,k)が入力され、式(24)によって第2値λ(k)を算出して出力する。なお、目的信号が存在しないと予測されるグリッドとしては、例えば、冒頭のフレームインデックスi=1,...,20のフレームからなるグリッドを例示できる。   Also, the second value calculation unit 17b receives the ubiquitous index value H (i, k), which is the above-described entropy, corresponding to a grid in which the target signal does not exist (or is predicted to not exist). The second value λ (k) is calculated and output by (24). In addition, as a grid where it is predicted that the target signal does not exist, for example, a grid composed of frames with the first frame index i = 1,.

次に、相対値算出部17cに第1値H’(i,k)と第2値λ(k)とが入力され、相対値算出部17cは、以下の式(26)によって第1値と第2値との比である除算値γ(i,k)を算出して出力する。
γ(i,k)=H’(i,k)/λ(k) ...(26)
Next, the first value H ′ (i, k) and the second value λ (k) are input to the relative value calculation unit 17c, and the relative value calculation unit 17c obtains the first value by the following equation (26). A division value γ (i, k), which is a ratio with the second value, is calculated and output.
γ (i, k) = H '(i, k) / λ (k) ... (26)

次に、平均尤度比算出部17dに除算値γ(i,k)が入力され、平均尤度比算出部17dは、以下の式(27)に従って平均尤度比Λ(i)を算出して出力する。なお、式(26)の対数は自然対数である。また、この平均尤度比の計算式は、例えば、Shon, J, Kim, N.-S., and Sung, W., “A Statistical Model-based Voice Activity Detection,” IEEE Signal Processing Letters, Vol. 6, No. 1, pp.1-3, 1999.等に開示されている。
Next, the division value γ (i, k) is input to the average likelihood ratio calculation unit 17d, and the average likelihood ratio calculation unit 17d calculates the average likelihood ratio Λ (i) according to the following equation (27). Output. In addition, the logarithm of Formula (26) is a natural logarithm. The calculation formula for the average likelihood ratio is, for example, Shon, J, Kim, N.-S., and Sung, W., “A Statistical Model-based Voice Activity Detection,” IEEE Signal Processing Letters, Vol. 6, No. 1, pp.1-3, 1999.

図13(b)は、このように算出された平均尤度比Λ(i)を例示したグラフである。図13(b)では、横軸をフレームインデックスiとし、縦軸を平均尤度比Λ(i)としている。図10(b)と比較すれば分かるように、平均尤度比Λ(i)は目的信号が存在する区間で大きな値をとっている。   FIG. 13B is a graph illustrating the average likelihood ratio Λ (i) calculated in this way. In FIG. 13B, the horizontal axis is the frame index i, and the vertical axis is the average likelihood ratio Λ (i). As can be seen from comparison with FIG. 10B, the average likelihood ratio Λ (i) takes a large value in the section where the target signal exists.

次に、閾値判定部17eに平均尤度比Λ(i)が入力され、閾値判定部17eは平均尤度比Λ(i)と所定の閾値thとを比較し、平均尤度比Λ(i)に対応するグリッドが目的信号区間であるか否か、すなわち、フレームインデックスiに対するフレームが目的信号区間であるか否かを判定し、その判定結果を出力する。具体的には、閾値判定部17eは、例えば、平均尤度比Λ(i)が所定の閾値thより大きい場合(「閾値th以上の場合」としてもよい)、目的信号がフレームインデックスiに対するフレームに含まれるとして1を出力し、平均尤度比Λ(i)が所定の閾値thより小さい場合(「閾値th以下の場合」としてもよい)、目的信号がフレームインデックスiに対するフレームに含まれないとして0を出力する。なお、閾値thは、平均尤度比Λ(i)の時間長平均(複数のフレームインデックスiに対する平均)や分散などの統計量を用いて設定されてもよいし、th=1.0などの固定値を事前に設定しておいてもよい。   Next, the average likelihood ratio Λ (i) is input to the threshold determination unit 17e, and the threshold determination unit 17e compares the average likelihood ratio Λ (i) with a predetermined threshold th, and the average likelihood ratio Λ (i ) Is a target signal section, that is, whether the frame corresponding to the frame index i is a target signal section, and the determination result is output. Specifically, the threshold determination unit 17e, for example, if the average likelihood ratio Λ (i) is larger than a predetermined threshold th (may be “when it is equal to or larger than the threshold th”), the target signal is a frame corresponding to the frame index i. Is output as 1 and the average likelihood ratio Λ (i) is smaller than a predetermined threshold th (may be “below the threshold th”), the target signal is not included in the frame for the frame index i. Is output as 0. Note that the threshold th may be set using a statistic such as a time length average (average for a plurality of frame indexes i) or variance of the average likelihood ratio Λ (i), or a fixed value such as th = 1.0. May be set in advance.

なお、偏在性指標値H(i,k)を指標として目的信号区間を判定する方法はこれに限定されない。前述のように偏在性指標値H(i,k)の大きさは、各グリッドが目的信号区間であるか否かによって変化する値である。偏在性指標値H(i,k)の大きさを評価し、その評価結果を各グリッドが目的信号区間であるか否かの判定結果に対応付ける方法であれば、どのような方法を用いてもよい。以下に目的信号区間判定方法の変形例を示す。   Note that the method of determining the target signal section using the uneven index value H (i, k) as an index is not limited to this. As described above, the size of the uneven distribution index value H (i, k) is a value that varies depending on whether or not each grid is the target signal section. Any method can be used as long as it evaluates the size of the ubiquitous index value H (i, k) and associates the evaluation result with the determination result of whether each grid is the target signal section or not. Good. Below, the modification of the target signal area determination method is shown.

[目的信号区間判定方法の変形例]
例えば、図2(b)の判定部17の代わりに、図5の判定部17を用いてもよい(目的信号区間判定方法の変形例1)。この変形例の場合、第1値算出部17aに前述のエントロピーである偏在性指標値H(i,k)が入力され、上述の式(24)によって第1値H’(i,k)を算出して出力する。また、第2値算出部17bには、目的信号が存在しない(又は存在しないと予測される)グリッドに対応する、前述のエントロピーである偏在性指標値H(i,k)が入力され、式(24)によって第2値λ(k)を算出して出力する。次に、相対値算出部17cに第1値H’(i,k)と第2値λ(k)とが入力され、相対値算出部17cは、前述の式(25)によって第1値と第2値との比である除算値γ(i,k)を算出して出力する。次に、閾値判定部17gに除算値γ(i,k)が入力され、閾値判定部17gは、(i,k)毎に除算値γ(i,k)と閾値thとを比較し、除算値γ(i,k)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i,k)に対応するグリッドが目的信号区間に対応し、そうでなければ除算値γ(i,k)に対応するグリッドが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。
[Modification of target signal section judgment method]
For example, the determination unit 17 in FIG. 5 may be used instead of the determination unit 17 in FIG. 2B (Modification 1 of the target signal section determination method). In the case of this modification, the ubiquitous index value H (i, k), which is the aforementioned entropy, is input to the first value calculation unit 17a, and the first value H ′ (i, k) is obtained by the above-described equation (24). Calculate and output. Also, the second value calculation unit 17b receives the ubiquitous index value H (i, k), which is the above-described entropy, corresponding to a grid in which the target signal does not exist (or is predicted to not exist). The second value λ (k) is calculated and output by (24). Next, the first value H ′ (i, k) and the second value λ (k) are input to the relative value calculation unit 17c, and the relative value calculation unit 17c obtains the first value by the above-described equation (25). A division value γ (i, k), which is a ratio with the second value, is calculated and output. Next, the division value γ (i, k) is input to the threshold value determination unit 17g, and the threshold value determination unit 17g compares the division value γ (i, k) with the threshold value th for each (i, k), and performs division. If the value γ (i, k) is greater than the threshold th (“may be greater than or equal to the threshold th”), the grid corresponding to the division value γ (i, k) corresponds to the target signal interval, and For example, it is determined that the grid corresponding to the division value γ (i, k) corresponds to the non-target signal section, and the determination result (1 or 0) is output.

また、例えば、図2(b)の判定部17の代わりに、図6(a)の判定部17を用いてもよい(目的信号区間判定方法の変形例2)。この変形例の場合、判定部17の閾値判定部17iに前述のエントロピーである偏在性指標値H(i,k)が入力され、閾値判定部17iは、(i,k)毎に除算値γ(i,k)と閾値thとを比較し、除算値γ(i,k)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i,k)に対応するグリッドが目的信号区間に対応し、そうでなければ除算値γ(i,k)に対応するグリッドが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。なお、閾値thは、閾値算出部17hが入力された偏在性指標値H(i,k)の平均値等の統計量をもとに動的に設定される。また、閾値thは固定値であってもよい。   For example, instead of the determination unit 17 in FIG. 2B, the determination unit 17 in FIG. 6A may be used (modified example 2 of the target signal section determination method). In the case of this modification, the ubiquitous index value H (i, k), which is the aforementioned entropy, is input to the threshold determination unit 17i of the determination unit 17, and the threshold determination unit 17i performs the division value γ for each (i, k). (i, k) is compared with the threshold value th, and when the divided value γ (i, k) is larger than the threshold value th (may be “when it is equal to or greater than the threshold value th”), the divided value γ (i, k) It is determined that the corresponding grid corresponds to the target signal section, otherwise the grid corresponding to the division value γ (i, k) corresponds to the non-target signal section, and the determination result (1 or 0) is output. The threshold th is dynamically set based on a statistic such as an average value of the uneven distribution index value H (i, k) input by the threshold calculation unit 17h. Further, the threshold th may be a fixed value.

なお、エントロピー以外の偏在性指標値H(i,k)を用い、上述のように目的信号区間を判定してもよい。この場合の閾値判定は偏在性指標値H(i,k)の特性による。すなわち、偏在性が高いほど値が大きくなる偏在性指標値H(i,k)を用いる際には、偏在性指標値H(i,k)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間であると判定し、偏在性指標値H(i,k)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間でないと判定する。一方、偏在性が低いほど値が大きくなる偏在性指標値H(i,k)を用いる際には、偏在性指標値H(i,k)又はその写像が所定の閾値を超えた場合(又は「以上の場合」)に目的信号区間でないと判定し、偏在性指標値H(i,k)又はその写像が所定の閾値を未満場合(又は「以下の場合」)に目的信号区間であると判定する。   Note that the target signal section may be determined as described above using the ubiquitous index value H (i, k) other than entropy. The threshold determination in this case is based on the characteristics of the uneven distribution index value H (i, k). That is, when using the ubiquitous index value H (i, k) that increases in value as the ubiquity increases, the ubiquitous index value H (i, k) or its mapping exceeds a predetermined threshold (or "If above") it is determined that it is the target signal section, and if the ubiquitous index value H (i, k) or its mapping is less than a predetermined threshold (or "if below"), it is not the target signal section judge. On the other hand, when using the ubiquitous index value H (i, k) that increases in value as the ubiquity is low, the ubiquitous index value H (i, k) or its mapping exceeds a predetermined threshold (or If it is determined that it is not the target signal section in the above-mentioned case, and the ubiquitous index value H (i, k) or its mapping is less than a predetermined threshold (or “in the following case”), it is the target signal section judge.

また、時間周波数ビン(i,k)毎に2種類以上の正規化信号値Z (i,k)が生成され、各グリッドに属する2種類以上の正規化信号値Z (i,k)を要素とするベクトルの偏在性を示す偏在性指標値H(i,k)をグリッド毎が算出されている場合であっても、判定部17は、上述と同様に目的信号区間であるか否かの判定を行うことができる。   Also, two or more types of normalized signal values Z (i, k) are generated for each time frequency bin (i, k), and two or more types of normalized signal values Z (i, k) belonging to each grid are used as elements. Even if the ubiquity index value H (i, k) indicating the ubiquity of the vector is calculated for each grid, the determination unit 17 determines whether or not the target signal section is the same as described above. Judgment can be made.

一方、時間周波数ビン(i,k)毎に2種類以上の正規化信号値Z (i,k)が生成され、各グリッドに属する2種類以上の正規化信号値Z (i,k)の偏在性をそれぞれ示す2以上の偏在性指標値H(i,k)がグリッド毎に算出されている場合、判定部17は、例えば、グリッド毎の2以上の偏在性指標値H(i,k)に重み付けを行い、当該重み付け後の偏在性指標値を指標とし、各グリッドが目的信号区間に対応するか否かを判定する。具体的には、例えば、2以上の偏在性指標値H(i,k)の重み付け和が所定の閾値を超えるか否かによって、目的信号区間であるか否かを判定する。   On the other hand, two or more kinds of normalized signal values Z (i, k) are generated for each time frequency bin (i, k), and two or more kinds of normalized signal values Z (i, k) belonging to each grid are unevenly distributed. When two or more ubiquitous index values H (i, k) each indicating the sex are calculated for each grid, the determination unit 17 may, for example, have two or more ubiquitous index values H (i, k) for each grid. Is weighted, and the uneven distribution index value after the weighting is used as an index to determine whether each grid corresponds to the target signal section. Specifically, for example, it is determined whether or not it is a target signal section depending on whether or not the weighted sum of two or more uneven distribution index values H (i, k) exceeds a predetermined threshold.

また、上述のように偏在性指標値H(i,k)又はその写像と、所定の閾値との大小を比較して目的信号区間であるか否かを判定する代わりに、事前学習されたグリッドの偏在性指標値と当該グリッドが目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、偏在性指標値算出部で算出された偏在性指標値に対応するグリッドが目的信号区間に対応するか否かを判定してもよい。この場合、例えば、図6(b)の判定部17のように、パラメータ学習部17hに、グリッドの偏在性指標値と当該グリッドが目的信号区間であるか否かの判定結果との組からなる学習サンプルを入力し、パラメータ学習部17hでパターン認識学習を行い、モデルパラメータを求める。そして、パターン認識部17iにこのパラメータと判定対象の偏在性指標値H(i,k)とを入力し、パターン認識によって偏在性指標値H(i,k)に対応するグリッドが目的信号区間のものであるか否かを判定する。なお、パターン認識技術には、公知のサポートベクターマシーン(津田宏治,“サポートベクターマシーンとは何か”,電子情報通信学会誌,2000:460〜466頁)や、隠れマルコフモデル(北研二,中村哲,永田昌明,“音声言語処理”,森出版株式会社,1996:57〜90頁)等を例示できる。   Further, as described above, instead of determining whether or not the target signal section is a comparison by comparing the ubiquity index value H (i, k) or its mapping with a predetermined threshold value, a pre-learned grid is used. The grid corresponding to the ubiquitous index value calculated by the ubiquitous index value calculation unit is obtained by pattern recognition using the relationship between the ubiquitous index value and the determination result of whether or not the grid is the target signal section. You may determine whether it corresponds to a signal area. In this case, for example, as in the determination unit 17 in FIG. 6B, the parameter learning unit 17h includes a set of the uneven distribution index value of the grid and the determination result as to whether or not the grid is the target signal section. A learning sample is input, pattern recognition learning is performed by the parameter learning unit 17h, and model parameters are obtained. Then, this parameter and the ubiquity index value H (i, k) to be determined are input to the pattern recognition unit 17i, and the grid corresponding to the ubiquity index value H (i, k) is obtained by pattern recognition. It is determined whether it is a thing. Pattern recognition technology includes known support vector machines (Koji Tsuda, “What is a support vector machine”, Journal of the Institute of Electronics, Information and Communication Engineers, 2000: 460-466 pages) and hidden Markov models (Kenji Kita, Nakamura). Tetsu, Masaaki Nagata, “Spoken Language Processing”, Mori Publishing Co., Ltd., 1996: 57-90).

<実験結果>
本形態の効果を示すための実験結果を示す。この実験では、センサとして2本のマイクロフォンを用い、音声信号と雑音信号が混在する音響信号を観測し、その音響信号を本形態の信号区間推定方法によって分析し、音声信号区間を検出する実施例を示す。なお、この実験では、正規化信号値Z (i,k)として信号到来方向推定値を用い、偏在性指標値H(i,k)として前述のエントロピーを用い、平均尤度比Λ(i)と閾値との比較により目的信号区間の推定を行った。また、この実験では、1フレームの時間長を32ms(256サンプル点)とし、16ms(128サンプル点)毎にフレームの始点を移動(シフト)させ、各フレームで平均尤度比Λ(i)を求めた。また、このように求めた平均尤度比Λ(i)を固定閾値th=1.08と比較し、目的信号区間の推定を行った。
<Experimental result>
The experimental result for showing the effect of this form is shown. In this experiment, two microphones are used as sensors, an acoustic signal in which an audio signal and a noise signal are mixed is observed, the acoustic signal is analyzed by the signal interval estimation method of this embodiment, and an audio signal interval is detected. Indicates. In this experiment, the signal arrival direction estimation value is used as the normalized signal value Z (i, k), the above entropy is used as the ubiquitous index value H (i, k), and the average likelihood ratio Λ (i) The target signal interval was estimated by comparing with the threshold. In this experiment, the time length of one frame is set to 32 ms (256 sample points), the start point of the frame is moved (shifted) every 16 ms (128 sample points), and the average likelihood ratio Λ (i) is set to each frame. Asked. Further, the average likelihood ratio Λ (i) obtained in this way was compared with a fixed threshold th = 1.08, and the target signal section was estimated.

また、使用した信号データは、女性1名によって発声された雑音を含まない音声(目的信号)に街頭で収録した騒音雑音を信号対雑音比10dBで加算した音響信号であり、サンプリング周波数8kHz,量子化ビット数16ビットで離散サンプリングされたものである。また、音声である目的信号の収録は、4cm間隔で配置された2本のマイクロフォンによって行われ、この際の目的信号である音声の発生位置は、当該2本のマイクロフォンを結ぶ線分の中点を通って当該線分と直交する方向に40〜60cm離れた位置である。また、街頭の騒音雑音も同一のマイクロフォンによって収録された。   The signal data used is an acoustic signal obtained by adding noise noise recorded on the street to a voice (target signal) uttered by one woman with a signal-to-noise ratio of 10 dB, and having a sampling frequency of 8 kHz, quantum Discrete-sampled with 16 bits. In addition, recording of the target signal that is voice is performed by two microphones arranged at intervals of 4 cm, and the generation position of the voice that is the target signal at this time is the midpoint of the line connecting the two microphones. It is a position 40 to 60 cm away in a direction perpendicular to the line segment. Street noise and noise were also recorded by the same microphone.

図14(a)は、騒音雑音が加算される前の音声信号を示すグラフであり、図14(b)は、上述のように騒音雑音が加算された音声信号を示すグラフである。図14(a)(b)の横軸は離散実時間であり、縦軸は信号の振幅である。また、図14(c)は、平均尤度比Λ(i)を示すグラフである。図14(c)の横軸はフレームインデックスiであり、縦軸は平均尤度比Λ(i)である。また、図14(d)は平均尤度比Λ(i)を用いた信号区間判定結果を示すグラフである。図14(d)の横軸はフレームインデックスiであり、縦軸は目的信号区間である(1)か否か(0)の判定結果である。   FIG. 14A is a graph showing an audio signal before adding noise and noise, and FIG. 14B is a graph showing an audio signal added with noise and noise as described above. In FIGS. 14A and 14B, the horizontal axis represents discrete real time, and the vertical axis represents signal amplitude. FIG. 14C is a graph showing the average likelihood ratio Λ (i). In FIG. 14C, the horizontal axis is the frame index i, and the vertical axis is the average likelihood ratio Λ (i). FIG. 14D is a graph showing a signal section determination result using the average likelihood ratio Λ (i). The horizontal axis of FIG.14 (d) is the frame index i, and a vertical axis | shaft is the determination result of (0) whether it is the target signal area (1).

これらの図から、本形態の手法が雑音環境下での目的信号区間の推定に有効であることがわかる。   From these figures, it can be seen that the method of the present embodiment is effective for estimating the target signal section in a noisy environment.

なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、信号区間推定装置10がサンプリング部30を包含する構成であってもよいし、信号区間推定装置10の機能を複数のコンピュータで分散処理する構成であってもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   The present invention is not limited to the embodiment described above. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Moreover, the structure which includes the sampling part 30 may be sufficient as the signal area estimation apparatus 10, and the structure which carries out the distributed process of the function of the signal area estimation apparatus 10 with a some computer may be sufficient. Needless to say, other modifications are possible without departing from the spirit of the present invention.

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。   Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい   In this embodiment, the apparatus is configured by executing a predetermined program on a computer. However, at least a part of the processing contents may be realized by hardware.

本発明の利用分野としては、例えば、音声信号や音楽信号などの目的信号が雑音信号とともに観測される環境においてなされる、目的信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理分野を例示できる。もちろん、音響信号以外の信号処理に本発明を適用してもかまわない。   The fields of application of the present invention include, for example, encoding of target signals, suppression of noise signals, dereverberation, automatic speech recognition, etc., in an environment where target signals such as voice signals and music signals are observed together with noise signals. The acoustic signal processing field can be exemplified. Of course, the present invention may be applied to signal processing other than acoustic signals.

図1は、本形態の目的信号区間推定装置の全体構成を例示したブロック図である。FIG. 1 is a block diagram illustrating the overall configuration of the target signal section estimation device of the present embodiment. 図2(a)は、図1の偏在性指標値算出部の詳細構成を例示したブロック図である。図2(b)は、図1の判定部の詳細構成を例示したブロック図である。FIG. 2A is a block diagram illustrating a detailed configuration of the uneven distribution index value calculation unit of FIG. FIG. 2B is a block diagram illustrating a detailed configuration of the determination unit in FIG. 図3は、本形態の目的信号区間推定方法を説明するためのフローチャートである。FIG. 3 is a flowchart for explaining the target signal section estimation method of the present embodiment. 図4(a)(b)は、偏在性指標値算出部の変形例を示したブロック図である。4A and 4B are block diagrams showing a modification of the uneven distribution index value calculation unit. 図5は、判定部の変形例を示したブロック図である。FIG. 5 is a block diagram illustrating a modification of the determination unit. 図6(a)(b)は、判定部の変形例を示したブロック図である。FIGS. 6A and 6B are block diagrams showing a modification of the determination unit. 図7(a)は、窓関数をサンプリング部で抽出された時間領域の信号の波形にシフトさせながら乗じ、各フレームの信号を切り出す過程を例示する図である。図7(b)は、離散フーリエ変換によってセンサに対応する各フレームの信号を周波数領域信号に変換する例を示した図である。FIG. 7A is a diagram illustrating a process of cutting out the signal of each frame by multiplying the window function while shifting it to the waveform of the signal in the time domain extracted by the sampling unit. FIG. 7B is a diagram illustrating an example in which a signal of each frame corresponding to the sensor is converted into a frequency domain signal by discrete Fourier transform. 図8(a)は環境雑音化で観測された時間領域の音響信号を例示した図である。図8(b)は図8(a)に例示した時間領域の音響信号を周波数領域に変換した周波数スペクトル(周波数領域信号)を表現した図である。FIG. 8A is a diagram illustrating a time-domain acoustic signal observed with environmental noise. FIG. 8B is a diagram expressing a frequency spectrum (frequency domain signal) obtained by converting the time domain acoustic signal illustrated in FIG. 8A into the frequency domain. 図9(a)は図8(b)の周波数領域信号を示した図である。また、図9(b)は、式(3)(4)に従って算出した信号到来方向推定値を示した図である。FIG. 9A shows the frequency domain signal of FIG. 8B. FIG. 9B is a diagram illustrating the signal arrival direction estimated value calculated according to the equations (3) and (4). 図10(a)は図8(b)の周波数領域信号を示した図である。また、図10(b)は、式(9)に従って算出した重み係数を示した図である。FIG. 10A shows the frequency domain signal of FIG. 8B. FIG. 10B is a diagram illustrating the weighting coefficient calculated according to Equation (9). 図11(a)は、目的信号が存在する時間周波数ビンを含むグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。図11(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンからなるグリッド内の周波数領域信号、正規化信号値及び重み係数を示した図である。FIG. 11A is a diagram showing a frequency domain signal, a normalized signal value, and a weighting factor in a grid including a time frequency bin in which a target signal exists. FIG. 11B is a diagram showing frequency domain signals, normalized signal values, and weighting coefficients in a grid composed of time frequency bins in which there is no target signal and only noise signals are present. 図12は、生成したヒストグラムを、横軸を量子化された正規化信号値(信号到来方向)とし、縦軸を重み付け後の頻度として表示した例である。ここで、図12(a)は、目的信号が存在する時間周波数ビンを含むグリッド(図11(a))について作成されたヒストグラムであり、図12(b)は、目的信号が存在せず、雑音信号のみが存在する時間周波数ビンを含むグリッド(図11(b))について作成されたヒストグラムの例示である。FIG. 12 shows an example in which the generated histogram is displayed with the normalized signal value (signal arrival direction) on the horizontal axis and the frequency after weighting on the vertical axis. Here, FIG. 12 (a) is a histogram created for a grid (FIG. 11 (a)) including time frequency bins where the target signal exists, and FIG. 12 (b) shows that the target signal does not exist. It is an illustration of the histogram created about the grid (FIG.11 (b)) containing the time frequency bin in which only a noise signal exists. 図13(a)は、得られたエントロピーを例示したグラフである。図13(b)は、算出された平均尤度比を例示したグラフである。FIG. 13A is a graph illustrating the obtained entropy. FIG. 13B is a graph illustrating the calculated average likelihood ratio. 図14(a)は、騒音雑音が加算される前の音声信号を示すグラフであり、図14(b)は、上述のように騒音雑音が加算された音声信号を示すグラフである。FIG. 14A is a graph showing an audio signal before adding noise and noise, and FIG. 14B is a graph showing an audio signal added with noise and noise as described above.

符号の説明Explanation of symbols

10 信号区間推定装置 10 Signal section estimation device

Claims (14)

目的信号区間を推定する目的信号区間推定装置であって、
複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出部と、
上記信号切出部で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、
基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化部と、
所定の時間周波数区間であるグリッド毎に各時間周波数ビンの上記正規化信号値を分類するグリット分類部と、
上記正規化信号値の偏在性を示す偏在性指標値をグリッド毎に算出する偏在性指標値算出部と、
上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する判定部と、
を有することを特徴とする目的信号区間推定装置。
A target signal section estimation device for estimating a target signal section,
A signal extraction unit that extracts each signal observed by a plurality of sensors for each frame that is a predetermined time interval;
A frequency domain conversion unit that converts the signal of each frame for each sensor extracted by the signal extraction unit into a frequency domain, and generates a frequency domain signal for each time frequency bin for each sensor;
A normalization unit that normalizes each frequency domain signal corresponding to the sensor other than the reference sensor and generates a normalized signal value for each time frequency bin, with the frequency domain signal corresponding to the reference sensor as a reference,
A grid classifying unit that classifies the normalized signal value of each time frequency bin for each grid that is a predetermined time frequency interval;
An ubiquitous index value calculation unit that calculates an ubiquitous index value indicating the ubiquity of the normalized signal value for each grid;
A determination unit that determines whether or not each grid corresponds to the target signal section using the uneven distribution index value as an index,
A target signal section estimation device comprising:
請求項1に記載の目的信号区間推定装置であって、
上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算部をさらに有し、
上記偏在性指標値算出部は、
上記重み係数によって当該重み係数に対応する時間周波数ビンの上記正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いて上記偏在性指標値を算出する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to claim 1,
A weight calculation unit that generates a weighting factor that is monotonically increasing with respect to the absolute value of the amplitude of the frequency domain signal for each time frequency bin;
The uneven distribution index value calculation unit
Weighting the frequency of the normalized signal value of the time frequency bin corresponding to the weighting factor by the weighting factor, and calculating the unevenness index value using the weighted frequency,
A target signal section estimation device characterized by the above.
請求項2に記載の目的信号区間推定装置であって、
上記重み係数は、
上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある値を、上記周波数領域信号の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to claim 2,
The weighting factor is
The value that is monotonically increasing with respect to the absolute value of the amplitude of the frequency domain signal, and the value that is monotonically increasing with respect to the absolute value of the amplitude of the frequency domain signal are summed for all frequency bins. , Which is the normalized value,
A target signal section estimation device characterized by the above.
請求項1に記載の目的信号区間推定装置であって、
上記正規化部は、
上記基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である上記正規化信号値を生成する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to claim 1,
The normalization part
Based on the phase and / or amplitude of the frequency domain signal corresponding to the reference sensor as a reference, at least the phase and / or amplitude of each frequency domain signal corresponding to the sensor other than the reference sensor is normalized, and the normalized value or its Generating the normalized signal value which is a map;
A target signal section estimation device characterized by the above.
請求項4に記載の目的信号区間推定装置であって、
上記正規化信号値は、
周波数成分が正規化され、周波数依存性が排除された値である、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to claim 4,
The normalized signal value is
The frequency component is normalized and the frequency dependence is eliminated.
A target signal section estimation device characterized by the above.
請求項1,4,5の何れかに記載の目的信号区間推定装置であって、
上記正規化部は、
時間周波数ビン毎に2種類以上の上記正規化信号値を生成し、
上記偏在性指標値算出部は、
上記各グリッドに属する2種類以上の上記正規化信号値の偏在性をそれぞれ示す2以上の上記偏在性指標値を上記グリッド毎に算出し、
上記判定部は、
グリッド毎の2以上の上記偏在性指標値に重み付けを行い、当該重み付け後の上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to any one of claims 1, 4 and 5,
The normalization part
Generate two or more kinds of normalized signal values for each time frequency bin,
The uneven distribution index value calculation unit
Calculating two or more uneven distribution index values respectively indicating the uneven distribution of two or more kinds of normalized signal values belonging to each grid, for each grid;
The determination unit is
Weighting two or more uneven distribution index values for each grid, and determining whether each grid corresponds to the target signal section, using the uneven distribution index value after the weight as an index,
A target signal section estimation device characterized by the above.
請求項1,4,5の何れかに記載の目的信号区間推定装置であって、
上記正規化部は、
時間周波数ビン毎に2種類以上の上記正規化信号値を生成し、
上記偏在性指標値算出部は、
上記各グリッドに属する2種類以上の上記正規化信号値を要素とするベクトルの偏在性を示す上記偏在性指標値を上記グリッド毎に算出し、
上記判定部は、
上記ベクトルの偏在性を示す上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to any one of claims 1, 4 and 5,
The normalization part
Generate two or more kinds of normalized signal values for each time frequency bin,
The uneven distribution index value calculation unit
Calculating the ubiquitous index value indicating the ubiquity of a vector having two or more kinds of normalized signal values belonging to each grid as elements;
The determination unit is
Using the ubiquitous index value indicating the ubiquity of the vector as an index, it is determined whether each grid corresponds to the target signal section.
A target signal section estimation device characterized by the above.
請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
上記判定部は、
各グリッドの上記偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各グリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to any one of claims 1, 6, and 7,
The determination unit is
Comparing the ubiquitous index value of each grid or their mapping with a predetermined threshold value to determine whether each grid corresponds to the target signal interval;
A target signal section estimation device characterized by the above.
請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
上記判定部は、
判定対象のグリッドの上記偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値を算出する第1値算出部と、
非目的信号区間のグリッドの上記偏在性指標値を上記所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値を算出する第2値算出部と、
上記第1値と上記第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に上記判定対象のグリッドが上記目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に上記判定対象のグリッドが上記目的信号区間に対応すると判定する閾値判定部と、を有する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to any one of claims 1, 6, and 7,
The determination unit is
A first value calculation unit that substitutes the ubiquitous index value of the determination target grid into a predetermined function and calculates a first value that is monotonically increased with respect to a probability that indicates the target signal interval of the grid;
A second value calculation for substituting the ubiquitous index value of the grid in the non-target signal section into the predetermined function and calculating a second value that is monotonically increasing with respect to the probability indicating the likelihood of the target signal section of the grid. And
If the division value that is the ratio between the first value and the second value or the mapping of the division value is greater than or equal to a predetermined threshold value, it is determined that the determination target grid corresponds to the target signal interval, A threshold determination unit that determines that the determination target grid corresponds to the target signal section when the predetermined threshold is exceeded,
A target signal section estimation device characterized by the above.
請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
上記判定部は、
事前学習されたグリッドの上記偏在性指標値と当該グリッドが上記目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、上記偏在性指標値算出部で算出された上記偏在性指標値に対応するグリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。
The target signal section estimation device according to any one of claims 1, 6, and 7,
The determination unit is
The uneven distribution calculated by the uneven distribution index value calculation unit by pattern recognition using the relationship between the pre-learned grid uneven distribution index value and the determination result of whether or not the grid is the target signal section. Determining whether the grid corresponding to the sex index value corresponds to the target signal interval;
A target signal section estimation device characterized by the above.
目的信号区間を推定する目的信号区間推定方法であって、
複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出過程と、
上記信号切出過程で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換過程と、
基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化過程と、
所定の時間周波数区間であるグリッド毎に各時間周波数ビンの上記正規化信号値を分類するグリット分類過程と、
上記正規化信号値の偏在性を示す偏在性指標値をグリッド毎に算出する偏在性指標値算出過程と、
上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する判定過程と、
を有することを特徴とする目的信号区間推定方法。
A target signal section estimation method for estimating a target signal section,
A signal extraction process of extracting each signal observed by a plurality of sensors for each frame that is a predetermined time interval;
A frequency domain conversion process for converting each frame signal for each sensor extracted in the signal extraction process into a frequency domain, and generating a frequency domain signal for each time frequency bin for each sensor;
A normalization process for normalizing each frequency domain signal corresponding to the sensor other than the reference sensor and generating a normalized signal value for each time frequency bin, with the frequency domain signal corresponding to the reference sensor as a reference,
A grid classification process for classifying the normalized signal value of each time frequency bin for each grid that is a predetermined time frequency interval;
An uneven distribution index value calculation process for calculating an uneven distribution index value indicating the uneven distribution of the normalized signal value for each grid;
A determination process for determining whether or not each grid corresponds to the target signal section using the uneven distribution index value as an index,
A target signal section estimation method comprising:
請求項11に記載の目的信号区間推定方法であって、
上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算過程をさらに有し、
上記偏在性指標値算出過程は、
上記重み係数によって当該重み係数に対応する時間周波数ビンの上記正規化信号値の頻度の重み付けし、当該重み付けされた頻度を用いて上記偏在性指標値を算出する過程である、
ことを特徴とする目的信号区間推定方法。
It is the target signal area estimation method according to claim 11,
A weight calculation process for generating a weighting factor that is monotonically increasing with respect to the absolute value of the amplitude of the frequency domain signal for each time frequency bin;
The uneven distribution index value calculation process is as follows:
Weighting the frequency of the normalized signal value of the time frequency bin corresponding to the weighting factor by the weighting factor, and calculating the uneven distribution index value using the weighted frequency.
A target signal interval estimation method characterized by the above.
請求項1から10の何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。   11. A target signal section estimation program for causing a computer to function as the target signal section estimation apparatus according to claim 1. 請求項13に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium storing the target signal section estimation program according to claim 13.
JP2007101597A 2007-04-09 2007-04-09 Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium Expired - Fee Related JP4871191B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007101597A JP4871191B2 (en) 2007-04-09 2007-04-09 Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007101597A JP4871191B2 (en) 2007-04-09 2007-04-09 Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium

Publications (2)

Publication Number Publication Date
JP2008257110A true JP2008257110A (en) 2008-10-23
JP4871191B2 JP4871191B2 (en) 2012-02-08

Family

ID=39980719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007101597A Expired - Fee Related JP4871191B2 (en) 2007-04-09 2007-04-09 Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium

Country Status (1)

Country Link
JP (1) JP4871191B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215600A (en) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd Voice section determination device, voice section determination method, and program
JP2013545136A (en) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド System, method and apparatus for voice activity detection
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
JP2016170391A (en) * 2015-03-10 2016-09-23 株式会社Jvcケンウッド Audio signal processor, audio signal processing method, and audio signal processing program
CN115862656A (en) * 2023-02-03 2023-03-28 中国科学院自动化研究所 Method, device, equipment and storage medium for enhancing bone-conduction microphone voice

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006194959A (en) * 2005-01-11 2006-07-27 Sony Corp Voice detector, automatic imaging device and voice detecting method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006194959A (en) * 2005-01-11 2006-07-27 Sony Corp Voice detector, automatic imaging device and voice detecting method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
JP2013545136A (en) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド System, method and apparatus for voice activity detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP2012215600A (en) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd Voice section determination device, voice section determination method, and program
US9123351B2 (en) 2011-03-31 2015-09-01 Oki Electric Industry Co., Ltd. Speech segment determination device, and storage medium
JP2016170391A (en) * 2015-03-10 2016-09-23 株式会社Jvcケンウッド Audio signal processor, audio signal processing method, and audio signal processing program
CN115862656A (en) * 2023-02-03 2023-03-28 中国科学院自动化研究所 Method, device, equipment and storage medium for enhancing bone-conduction microphone voice
CN115862656B (en) * 2023-02-03 2023-06-02 中国科学院自动化研究所 Bone-conduction microphone voice enhancement method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP4871191B2 (en) 2012-02-08

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
EP3479377B1 (en) Speech recognition
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
EP1536414B1 (en) Method and apparatus for multi-sensory speech enhancement
KR101378696B1 (en) Determining an upperband signal from a narrowband signal
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
KR100745976B1 (en) Method and apparatus for classifying voice and non-voice using sound model
Patel et al. Cochlear filter and instantaneous frequency based features for spoofed speech detection
CN108962231B (en) Voice classification method, device, server and storage medium
KR101305373B1 (en) Interested audio source cancellation method and voice recognition method thereof
JP4871191B2 (en) Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium
EP1693826B1 (en) Vocal tract resonance tracking using a nonlinear predictor
CN112992190B (en) Audio signal processing method and device, electronic equipment and storage medium
Nilufar et al. Spectrogram based features selection using multiple kernel learning for speech/music discrimination
CN115223584B (en) Audio data processing method, device, equipment and storage medium
JP6724290B2 (en) Sound processing device, sound processing method, and program
JP5147012B2 (en) Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium
CN116913307A (en) Voice processing method, device, communication equipment and readable storage medium
Kanisha et al. Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization
Dov et al. Voice activity detection in presence of transients using the scattering transform
JPH10133688A (en) Speech recognition device
CN113593604A (en) Method, device and storage medium for detecting audio quality
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
JP5134477B2 (en) Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium
Jayakumar et al. Speech enhancement based on noise type and wavelet thresholding the multitaper spectrum

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees