JP6538624B2 - Signal processing apparatus, signal processing method and signal processing program - Google Patents

Signal processing apparatus, signal processing method and signal processing program Download PDF

Info

Publication number
JP6538624B2
JP6538624B2 JP2016166232A JP2016166232A JP6538624B2 JP 6538624 B2 JP6538624 B2 JP 6538624B2 JP 2016166232 A JP2016166232 A JP 2016166232A JP 2016166232 A JP2016166232 A JP 2016166232A JP 6538624 B2 JP6538624 B2 JP 6538624B2
Authority
JP
Japan
Prior art keywords
sound source
probability distribution
source position
vector
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016166232A
Other languages
Japanese (ja)
Other versions
JP2018032001A (en
Inventor
信貴 伊藤
信貴 伊藤
中谷 智広
智広 中谷
荒木 章子
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016166232A priority Critical patent/JP6538624B2/en
Publication of JP2018032001A publication Critical patent/JP2018032001A/en
Application granted granted Critical
Publication of JP6538624B2 publication Critical patent/JP6538624B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、信号処理装置、信号処理方法および信号処理プログラムに関する。   The present invention relates to a signal processing device, a signal processing method, and a signal processing program.

従来、複数のマイクロホン等で観測した収録音を基に、当該音を発生させている音源の位置を推定する音源定位技術が知られている。音源定位技術として、例えば、音源数が既知であると仮定し、観測信号に時間周波数分析を適用することで推定した共分散行列を用いて音源位置を推定する方法が知られている。   2. Description of the Related Art Conventionally, a sound source localization technique is known which estimates the position of a sound source generating the sound based on the recorded sound observed by a plurality of microphones or the like. As a sound source localization technique, for example, there is known a method of estimating a sound source position using a covariance matrix estimated by applying time-frequency analysis to an observation signal, assuming that the number of sound sources is known.

R. O. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, 1986年3月, vol.AP-34, No.3, p.276-280.R. O. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, March 1986, vol. AP-34, No. 3, p. N. Ito, E. Vincent, N. Ono, R. Gribonval, and S. Sagayama, "Crystal-MUSIC:Accurate localization of multiple sources in diffuse noise environments using crystal-shaped microphone arrays," 2010年9月, Proceedings of 9th International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA), p.81-88.N. Ito, E. Vincent, N. Ono, R. Gribonval, and S. Sagayama, "Crystal-MUSIC: Accurate localization of multiple sources in diffuse noise environments using crystal-shaped microphone arrays," September, 2010, Proceedings of 9th International Conference on Latent Variable Analysis and Signal Separation (LVA / ICA), p. 81-88.

しかしながら、従来の音源定位技術には、観測信号長が短い場合に、音源定位を正確に行うことができない場合があるという問題があった。例えば、観測信号長が短い場合、共分散行列の推定のための十分な標本を得ることができず、音源定位を正確に行うことができないことがあった。   However, the conventional sound source localization technology has a problem that when the observation signal length is short, the sound source localization may not be performed accurately. For example, when the observation signal length is short, it may not be possible to obtain sufficient samples for estimation of the covariance matrix, and the sound source localization can not be performed accurately.

本発明の信号処理装置は、複数の異なる位置で取得された収録音に時間周波数分析を適用し、M次元ベクトルである観測信号ベクトルを計算する時間周波数分析部と、前記時間周波数分析部によって計算された観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルを、時間周波数点ごとに計算する特徴ベクトル計算部と、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、前記特徴ベクトルの条件付き確率分布のモデルパラメータを記憶するパラメータ記憶部と、前記音源位置を表す状態の事前確率分布を荷重とする、前記パラメータ記憶部に記憶されたモデルパラメータに基づく、前記音源位置を表す状態が既知の条件下での、前記特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、前記特徴ベクトル計算部によって計算された特徴ベクトルに当てはめ、前記事前確率分布を計算する事前確率分布計算部と、前記事前確率分布計算部によって計算された事前確率分布に基づいて、前記特徴ベクトルに対応する音源位置を計算する音源位置計算部と、を有することを特徴とする。   A signal processing apparatus according to the present invention applies time-frequency analysis to the recorded sound acquired at a plurality of different positions, and calculates an observation signal vector which is an M-dimensional vector by the time-frequency analysis unit; A feature vector calculation unit that calculates, for each time frequency point, a feature vector that is a vector including information on the direction of the observed signal vector y (t, f), and a plurality of sound source position candidates in which the state representing the sound source position is A parameter storage unit for storing model parameters of the conditional probability distribution of the feature vector under conditions corresponding to the respective conditions; and the parameter storage unit using an a priori probability distribution of a state representing the sound source position as a load The weight of the conditional probability distribution of the feature vector under conditions where the state representing the sound source position is known, based on the model parameters stored in To a prior probability distribution calculating unit that applies the mixed model that is the feature vector to the feature vector calculated by the feature vector calculating unit, and calculates the prior probability distribution, and the prior probability distribution calculated by the prior probability distribution calculating unit And a sound source position calculating unit that calculates a sound source position corresponding to the feature vector.

本発明の信号処理方法は、信号処理装置で実行される信号処理方法であって、複数の異なる位置で取得された収録音に時間周波数分析を適用し、M次元ベクトルである観測信号ベクトルを計算する時間周波数分析工程と、前記時間周波数分析工程によって計算された観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルを、時間周波数点ごとに計算する特徴ベクトル計算工程と、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、前記特徴ベクトルの条件付き確率分布のモデルパラメータを記憶するパラメータ記憶部に記憶されたモデルパラメータを取得し、前記音源位置を表す状態の事前確率分布を荷重とする、前記モデルパラメータに基づく、前記音源位置を表す状態が既知の条件下での、前記特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、前記特徴ベクトル計算工程によって計算された特徴ベクトルに当てはめ、前記事前確率分布を計算する事前確率分布計算工程と、前記事前確率分布計算工程によって計算された事前確率分布に基づいて、前記特徴ベクトルに対応する音源位置を計算する音源位置計算工程と、を含んだことを特徴とする。   A signal processing method according to the present invention is a signal processing method executed by a signal processing apparatus, which applies time-frequency analysis to recorded sounds acquired at a plurality of different positions, and calculates an observation signal vector which is an M-dimensional vector. Time-frequency analysis process, and a feature vector calculation process for calculating a feature vector which is a vector including information on the direction of the observed signal vector y (t, f) calculated by the time-frequency analysis process for each time frequency point And the model parameter stored in the parameter storage unit storing the model parameter of the conditional probability distribution of the feature vector under the condition that the state representing the sound source position corresponds to each of the plurality of sound source position candidates. A state representing the sound source position obtained based on the model parameter, which is obtained and obtained as a load is the prior probability distribution of the state representing the sound source position A prior probability distribution calculation for calculating the prior probability distribution by fitting a mixed model which is a weighted sum of the conditional probability distributions of the feature vectors under knowledge conditions to the feature vectors calculated by the feature vector calculating step And sound source position calculating step of calculating a sound source position corresponding to the feature vector based on the step and the prior probability distribution calculated by the prior probability distribution calculating step.

本発明によれば、観測信号長が短い場合であっても、音源定位を正確に行うことができる。   According to the present invention, even when the observation signal length is short, sound source localization can be performed accurately.

図1は、本発明における音源定位について説明するための図である。FIG. 1 is a diagram for explaining sound source localization in the present invention. 図2は、第1の実施形態に係る信号処理装置の構成の一例を示す図である。FIG. 2 is a diagram showing an example of the configuration of the signal processing device according to the first embodiment. 図3は、第1の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。FIG. 3 is a flowchart showing the flow of processing of the signal processing device according to the first embodiment. 図4は、第8の実施形態に係る信号処理装置の構成の一例を示す図である。FIG. 4 is a diagram showing an example of the configuration of a signal processing device according to the eighth embodiment. 図5は、第9の実施形態に係る信号処理装置の構成の一例を示す図である。FIG. 5 is a view showing an example of the configuration of a signal processing apparatus according to the ninth embodiment. 図6は、第10の実施形態に係る信号処理装置の構成の一例を示す図である。FIG. 6 is a diagram showing an example of the configuration of a signal processing apparatus according to the tenth embodiment. 図7は、第11の実施形態に係る信号処理装置の構成の一例を示す図である。FIG. 7 is a diagram showing an example of the configuration of a signal processing apparatus according to the eleventh embodiment. 図8は、プログラムが実行されることにより信号処理装置が実現されるコンピュータの一例を示す図である。FIG. 8 is a diagram illustrating an example of a computer in which a signal processing apparatus is realized by executing a program.

以下に、本願に係る信号処理装置、信号処理方法および信号処理プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。   Hereinafter, embodiments of a signal processing device, a signal processing method, and a signal processing program according to the present application will be described in detail based on the drawings. The present invention is not limited by this embodiment.

[本発明における音源定位について]
音源信号は通常、時間周波数平面上の疎な点でのみ大きいパワーを持つというスパース性を持つため、複数の音源信号が同時に鳴っている状況でも、各時間周波数点では観測信号は音源信号のうち高々1つしか含まないとみなすことができる。そのため、例えば、M個(M>1)の異なる位置で取得された観測信号の時間周波数変換からなるM次元縦ベクトルである観測信号ベクトルy(t,f)(tはフレームの番号(t=1〜T)、fは周波数ビンの番号(f=1〜F))は、当該時間周波数点(t,f)において観測信号に含まれる音源信号の音源位置によって定まる固有の方向を向いているとみなすことができる。正確には、雑音や残響の影響により、観測信号ベクトルy(t,f)の方向は、上記の音源位置によって定まる固有の方向を中心として多少の広がりを持って分布する。観測信号の上記の性質を利用すれば、観測信号ベクトルy(t,f)の方向に基づいて、音源位置を推定することができる。
[About sound source localization in the present invention]
Since the sound source signal is usually sparse with a large power only at a sparse point on the time frequency plane, the observation signal is one of the sound source signals at each time frequency point even in a situation where multiple sound source signals are sounding simultaneously. It can be regarded as including at most one. Therefore, for example, an observation signal vector y (t, f) (t is a frame number (t = t), which is an M-dimensional longitudinal vector consisting of time-frequency transformation of observation signals acquired at M (M> 1) different positions. 1 to T) and f are the frequency bin numbers (f = 1 to F) are directed in the specific direction determined by the sound source position of the sound source signal included in the observation signal at the time frequency point (t, f) It can be regarded as To be precise, due to the influence of noise and reverberation, the direction of the observation signal vector y (t, f) is distributed with some spread around the specific direction determined by the above sound source position. By utilizing the above-described properties of the observation signal, the sound source position can be estimated based on the direction of the observation signal vector y (t, f).

本発明の実施形態では、音源定位を、複数(L個)の音源位置候補のうち、実際に音を発しているものを特定する問題、すなわち実際に音を発している音源位置候補(の番号)の集合を推定する問題として定式化する。この音源位置候補は、例えば、音源定位を行う部屋の中の複数の場所(例えば、部屋の中を格子状に細かく分割したときの各格子点に対応する場所)を音源位置候補とすることができる。また、音源位置候補は、音源が存在し得る領域が既知の場合には、その領域内の複数の場所を音源位置候補とすることができる。例えば、テーブルを囲んで座った複数人の会話の収録音に対し音源定位を行う場合、音源である話者はテーブルの外周付近にのみ存在しうるとみなせるから、テーブルの外周付近の複数の場所を音源位置候補とすることができる(図1参照)。そこで、観測信号の上記のような性質に基づき、本発明の実施形態では、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルz(t,f)の、音源位置を表す状態が複数(L個)の音源位置候補のそれぞれに対応する状態を取る条件下での条件付き確率分布のモデルパラメータを記憶しておき、当該モデルパラメータを事前情報として音源位置の推定に利用する。上述のように、観測信号ベクトルy(t,f)の方向は音源位置によって定まるとみなすことができるから、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルz(t,f)は音源位置によって定まる固有の確率分布を持つ。前記条件付き確率分布は、音源位置を表す状態が複数(L個)の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルz(t,f)の確率分布を表す。   In the embodiment of the present invention, as for sound source localization, a problem of specifying one of a plurality of (L) sound source position candidates that actually emits a sound, that is, (number of sound source position candidates that actually emits a sound) Formulated as a problem of estimating the set of As this sound source position candidate, for example, a plurality of places in the room where sound source localization is performed (for example, places corresponding to respective grid points when the inside of the room is finely divided in a grid shape) may be used as the sound source position candidate. it can. Further, when the area where the sound source may exist is known, the sound source position candidate can set a plurality of places in the area as the sound source position candidate. For example, when performing sound source localization for the recorded sound of a plurality of conversations sitting around a table, it can be considered that a speaker who is a sound source can exist only near the outer periphery of the table, so multiple locations near the outer periphery of the table As a sound source position candidate (see FIG. 1). Therefore, based on the above-described properties of the observation signal, in the embodiment of the present invention, the sound source of the feature vector z (t, f) which is a vector including information on the direction of the observation signal vector y (t, f) A model parameter of conditional probability distribution under a condition that takes a state corresponding to each of a plurality (L) of sound source position candidates representing a position is stored, and the sound source position is estimated using the model parameter as prior information Use for As described above, since the direction of the observed signal vector y (t, f) can be considered to be determined by the sound source position, the feature vector z which is a vector including information on the direction of the observed signal vector y (t, f) (T, f) has an inherent probability distribution determined by the sound source position. The conditional probability distribution represents the probability distribution of the feature vector z (t, f) under the condition that the state representing the sound source position takes a state corresponding to each of a plurality of (L) sound source position candidates.

観測信号ベクトルy(t,f)の方向とは、数学的には、観測信号ベクトルy(t,f)の全てのマイクロホンに対する要素比y(1,t,f):y(2,t,f):・・・:y(M,t,f)を指す(言い換えれば、複素数体上のM次元ベクトル空間における互いにスカラ倍の関係にあるベクトルを同一視することにより得られる空間である、複素数体上のM−1次元射影空間の元を指す)。ここで、y(m,t,f)は、ベクトルy(t,f)の第m要素を表す。したがって、特徴ベクトルz(t,f)が観測信号ベクトルy(t,f)の方向の情報を含んだベクトルであるとは、特徴ベクトルz(t,f)が与えられたときに観測信号ベクトルy(t,f)の全てのマイクロホンに対する要素比y(1,t,f):y(2,t,f):・・・:y(M,t,f)が一意に定まることを意味する。前記観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルとしては、例えば観測信号ベクトルに平行な単位ベクトルを用いることができる。また、観測信号ベクトルy(t,f)自体も、当然観測信号ベクトルy(t,f)の方向の情報を含んでいるから、これを観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルとして用いることもできる。観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルは、音源位置に関する情報として、位相差と振幅比の両方の情報を含んでいる。これは、振幅比を用いず位相差のみを用いる従来の特徴量(例えば、Time Difference of Arrival(TDOA)やDirection Of Arrival(DOA))と大きく異なる。そのため、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルは、振幅比を用いず位相差のみを用いる従来の特徴量と比較して、より多くの音源位置に関する情報を用いており、より正確な音源定位が可能である。また、限られたデータ長から音源位置に関する情報を最大限に抽出することができるため、本発明の実施形態において、観測信号長が短い場合であっても音源定位を正確に行うことができるという特長に貢献している。観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルを用いることで、位相差のみを用いる場合と比較して、より効果的な信号処理(例えば、音源分離や雑音除去)が可能であることが示されている(参考文献「H. Sawada, S. Araki, and S. Makino, “Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, Mar. 2011. 」)。なお、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルが、音源位置に関する情報として、位相差と振幅比の両方の情報を含んでいるということは、下記のように説明できる。上述のように、観測信号ベクトルy(t,f)の方向とは観測信号ベクトルy(t,f)の全てのマイクロホンに対する要素比y(1,t,f):y(2,t,f):・・・:y(M,t,f)を指すが、これは、全てのマイクロホン対(m,n)に対する、2つのマイクロホン(m,n)に対する要素比y(m,t,f):y(n,t,f)と情報として等価である。さらに、複素数の比が位相差および絶対値の比(振幅比)と情報として等価であることに注意すると、全てのマイクロホン対(m,n)に対する、2つのマイクロホン(m,n)に対する要素比y(m,t,f):y(n,t,f)は、全てのマイクロホン対(m,n)に対する、2つのマイクロホン(m,n)に対する位相差および振幅比と情報として等価である。したがって、観測信号ベクトルy(t,f)の方向は、全てのマイクロホン対(m,n)に対する、2つのマイクロホン(m,n)に対する位相差および振幅比と情報として等価である。すなわち、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルは、音源位置に関する情報として、位相差と振幅比の両方の情報を含んでいる。   The direction of the observation signal vector y (t, f) mathematically means that the element ratio y (1, t, f) for all the microphones of the observation signal vector y (t, f): y (2, t, f) f): ...: y (M, t, f) (in other words, a space obtained by identifying vectors in a scalar multiple relationship in an M-dimensional vector space on a complex number field, Refers to an element of M-1 dimensional projection space on a complex number field). Here, y (m, t, f) represents the m-th element of the vector y (t, f). Therefore, the feature vector z (t, f) is a vector including information on the direction of the observation signal vector y (t, f) when the feature vector z (t, f) is given. Element ratio y (1, t, f): y (2, t, f): ... for all microphones of y (t, f): ... means that y (M, t, f) is uniquely determined Do. As a feature vector which is a vector including information on the direction of the observation signal vector y (t, f), for example, a unit vector parallel to the observation signal vector can be used. Also, since the observation signal vector y (t, f) itself naturally contains information on the direction of the observation signal vector y (t, f), this information can be used as the information on the direction of the observation signal vector y (t, f) It can also be used as a feature vector that is a contained vector. A feature vector that is a vector including information on the direction of the observation signal vector y (t, f) includes information on both phase difference and amplitude ratio as information on the sound source position. This is largely different from the conventional feature quantity (for example, Time Difference of Arrival (TDOA) or Direction Of Arrival (DOA)) using only the phase difference without using the amplitude ratio. Therefore, a feature vector that is a vector including information on the direction of the observed signal vector y (t, f) relates to more sound source positions as compared to a conventional feature using only a phase difference without using an amplitude ratio. Using information, more accurate sound source localization is possible. Further, since information on the sound source position can be extracted to a maximum extent from the limited data length, in the embodiment of the present invention, even if the observation signal length is short, it is possible to accurately perform the sound source localization. It contributes to the feature. By using a feature vector that is a vector including information on the direction of the observed signal vector y (t, f), more effective signal processing (for example, sound source separation or noise compared to the case where only the phase difference is used) It has been shown that removal is possible (see H. Sawada, S. Araki, and S. Makino, “Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment,” IEEE Transactions on Audio. , Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, Mar. 2011. "). Note that the feature vector, which is a vector including information on the direction of the observed signal vector y (t, f), includes information on both the phase difference and the amplitude ratio as information on the sound source position, as described below. It can be explained as follows. As described above, the direction of the observation signal vector y (t, f) is the element ratio y (1, t, f) for all microphones of the observation signal vector y (t, f): y (2, t, f) ): ...: y (M, t, f), which is an element ratio y (m, t, f) for two microphones (m, n) for all microphone pairs (m, n) ): Equivalent to y (n, t, f) as information. Furthermore, noting that the ratio of complex numbers is equivalent to the ratio of phase difference and absolute value ratio (amplitude ratio) as information, the element ratio to two microphones (m, n) for all microphone pairs (m, n) y (m, t, f): y (n, t, f) is equivalent as information on phase difference and amplitude ratio for two microphones (m, n) for all microphone pairs (m, n) . Therefore, the direction of the observation signal vector y (t, f) is equivalent to information on phase difference and amplitude ratio for two microphones (m, n) for all microphone pairs (m, n). That is, a feature vector that is a vector including information on the direction of the observed signal vector y (t, f) includes information on both the phase difference and the amplitude ratio as information on the sound source position.

図1を用いて、テーブルを囲んで座った複数人の会話の収録音に対し音源定位を行う場合の例について説明する。図1は、本発明における音源定位について説明するための図である。まず、図1に示すように、信号処理装置は、テーブル100の周りの領域を等間隔に細かく分割したL点を音源位置候補110とすることができる。図1の例では、L=8である。また、テーブル100には、3つのマイクロホン120が置かれている。この例では、音源はテーブルの外周にのみ存在しうるとみなせ、また座高は個人に依らずほぼ一定とみなしうるから、音源位置はマイクロホン120から見た方向(方位角)によって指定することができる。   An example in the case of performing sound source localization with respect to recording sound of conversations of a plurality of persons sitting around a table will be described using FIG. 1. FIG. 1 is a diagram for explaining sound source localization in the present invention. First, as shown in FIG. 1, the signal processing apparatus can set L points obtained by finely dividing the area around the table 100 at equal intervals as the sound source position candidate 110. In the example of FIG. 1, L = 8. Also, on the table 100, three microphones 120 are placed. In this example, since the sound source can be considered to exist only at the outer periphery of the table, and the seat height can be regarded as substantially constant regardless of the individual, the sound source position can be specified by the direction (azimuth angle) viewed from the microphone 120 .

信号処理装置は、マイクロホン120によって観測された観測信号を基に、観測信号ベクトルy(t,f)および観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルz(t,f)を計算する。そして、信号処理装置は、条件付き確率分布のモデルパラメータに基づき、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での特徴ベクトルz(t,f)の条件付き確率分布の荷重和である混合モデルを、特徴ベクトルz(t,f)に当てはめることにより、上記荷重和における荷重である事前確率分布を計算する。このとき、計算された事前確率分布は、音源位置で大きい値を取るため、この事前確率分布に基づいて音源位置を推定することができる。このとき、例えば、事前確率分布が、l=2である音源位置候補110で最も大きい値を取っている場合、音源位置は、矢印130が示す方向であるとみなすことができる。   Based on the observation signal observed by the microphone 120, the signal processing device is a feature vector z (vector) including information on the direction of the observation signal vector y (t, f) and the observation signal vector y (t, f). Calculate t, f). Then, based on the model parameters of the conditional probability distribution, the signal processing device is a condition of the feature vector z (t, f) under the condition that the state representing the sound source position takes a state corresponding to each of a plurality of sound source position candidates. By applying a mixed model, which is a weighted sum of the probability distribution, to the feature vector z (t, f), the prior probability distribution, which is the weight in the weighted sum, is calculated. At this time, since the calculated prior probability distribution takes a large value at the sound source position, the sound source position can be estimated based on the prior probability distribution. At this time, for example, in the case where the prior probability distribution takes the largest value in the sound source position candidate 110 where l = 2, the sound source position can be regarded as the direction indicated by the arrow 130.

[第1の実施形態]
第1の実施形態に係る信号処理装置は、音源数Nが未知の条件下で音源位置の集合を推定する。ここで、音源数NはN=0であってもよい(音源位置の集合が空集合の場合に対応)。本実施形態では、信号処理装置は、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルz(t,f)として観測信号ベクトルy(t,f)の方向ベクトルを用い、音源位置を表す状態として複数の音源位置候補のそれぞれに対応する状態を用い、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での特徴ベクトルz(t,f)の条件付き確率分布として複素ワトソン分布を用い、目的信号が球面波として伝播するという仮定に基づいて複素ワトソン分布のモデルパラメータを計算して記憶し、事前確率分布として時不変の事前確率分布を用いる。
First Embodiment
The signal processing apparatus according to the first embodiment estimates a set of sound source positions under conditions where the number of sound sources N is unknown. Here, the number of sound sources N may be N = 0 (corresponding to the case where the set of sound source positions is an empty set). In the present embodiment, the signal processing apparatus determines the direction vector of the observed signal vector y (t, f) as a feature vector z (t, f) that is a vector including information on the direction of the observed signal vector y (t, f). The feature vector z under the condition that the state representing the sound source position corresponds to each of the plurality of sound source position candidates using the state corresponding to each of the plurality of sound source position candidates as the state representing the sound source position using The complex Watson distribution is used as the conditional probability distribution of t, f), and model parameters of the complex Watson distribution are calculated and stored based on the assumption that the target signal propagates as a spherical wave, and time-variant prior is Use probability distribution.

図2を用いて、第1の実施形態に係る信号処理装置の構成について説明する。図2は、第1の実施形態に係る信号処理装置の構成の一例を示す図である。図2に示すように、信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。   The configuration of the signal processing apparatus according to the first embodiment will be described with reference to FIG. FIG. 2 is a diagram showing an example of the configuration of the signal processing device according to the first embodiment. As shown in FIG. 2, the signal processing device 1 includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50.

時間周波数分析部10は、複数の異なる位置で取得された収録音であるM個のマイクロホンによる観測信号y(m,τ)(mはマイクロホンの番号(m=1〜M)、τは時刻の番号)に時間周波数分析を適用して観測信号の時間周波数変換y(m,t,f)(tはフレームの番号(t=1〜T)、fは周波数ビンの番号(f=1〜F))を計算し、y(m,t,f)(m=1〜M)からなるM次元縦ベクトルである観測信号ベクトルy(t,f)を作成する。前記複数の異なる位置で取得された収録音は、複数の異なる位置で取得された後、何らかの前処理(例えば残響除去処理、空間的白色化処理など)が施された収録音でもよい(参考文献「T. Yoshioka, T. Nakatani, M. Miyoshi, and H. G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization,” IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 1, pp. 69-84, 2011.」、参考文献「H. Sawada, S. Araki, and S. Makino, “Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, Mar. 2011. 」)。   The time-frequency analysis unit 10 uses observation signals y (m, τ) (m is a microphone number (m = 1 to M), τ is time) of M microphones that are recording sounds acquired at a plurality of different positions. Applying time-frequency analysis to the numbers, time-to-frequency conversion y (m, t, f) of the observation signal (t is the frame number (t = 1 to T), f is the frequency bin number (f = 1 to F) )) To create an observed signal vector y (t, f) which is an M-dimensional longitudinal vector consisting of y (m, t, f) (m = 1 to M). The recorded sound acquired at the plurality of different positions may be a recorded sound that has been subjected to some pre-processing (for example, dereverberation processing, spatial whitening processing, etc.) after being acquired at a plurality of different positions (reference document) "T. Yoshioka, T. Nakatani, M. Miyoshi, and HG Okuno," Blind separation and dereverberation of speech mixtures by joint optimization, "IEEE Trans. Audio, Speech, Language Process., Vol. 19, no. 1, pp. 69-84, 2011., “H. Sawada, S. Araki, and S. Makino,“ Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment, ”IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, Mar. 2011.

特徴ベクトル計算部20は、時間周波数分析部10から観測信号ベクトルy(t,f)を受け取って、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルz(t,f)を式(1)により計算する。   The feature vector calculation unit 20 receives the observed signal vector y (t, f) from the time frequency analysis unit 10, and the feature vector z (t (t, f) is a vector including information on the direction of the observed signal vector y (t, f). , F) are calculated by equation (1).

Figure 0006538624
Figure 0006538624

ここで、||・||は、ユークリッドノルムであり、矢印←は左辺に右辺を代入することを表す。本実施形態におけるモデル化では、観測信号ベクトルy(t,f)はN個(Nは未知でもよく、またN=0でもよい。)の目的信号からなり、背景雑音は含まないと仮定する。また、本発明の実施形態におけるモデル化では、各目的信号は時間周波数平面の疎な点でのみ大きいパワーを持つというスパース性を持つと仮定する。これらの仮定に基づき、本実施形態では、観測信号ベクトルy(t,f)は各時間周波数点において1つの目的信号のみを含むと仮定する。すなわち、観測信号ベクトルy(t,f)は式(2)によりモデル化される。   Here, || · || is the Euclidean norm, and the arrow ← indicates that the right side is substituted for the left side. In the modeling in this embodiment, it is assumed that the observation signal vector y (t, f) consists of N (N may be unknown or N may be 0) target signals and does not include background noise. Further, in the modeling in the embodiment of the present invention, it is assumed that each target signal has the sparsity of having large power only at the sparse point of the time frequency plane. Based on these assumptions, in the present embodiment, it is assumed that the observed signal vector y (t, f) contains only one target signal at each time frequency point. That is, the observed signal vector y (t, f) is modeled by equation (2).

Figure 0006538624
Figure 0006538624

ここで、s(n,t,f)はn番目の目的信号の時間周波数変換であり、nは目的信号の番号(n=1〜N)である。また、ベクトルh(n,f)はn番目の目的信号の空間伝達特性を表すステアリングベクトルであり、n番目の目的信号の音源位置によって固有の値を取る。式(2)は、観測信号ベクトルy(t,f)がn番目(nは時間周波数点(t,f)によって変化する)の目的信号のみからなることを表している。   Here, s (n, t, f) is time-frequency conversion of the n-th target signal, and n is the number (n = 1 to N) of the target signal. The vector h (n, f) is a steering vector representing the space transfer characteristic of the nth target signal, and takes a unique value depending on the sound source position of the nth target signal. Equation (2) indicates that the observed signal vector y (t, f) consists only of the n-th target signal (n varies with time frequency points (t, f)).

観測信号ベクトルy(t,f)のM次元複素ベクトル空間における方向(すなわち、M次元複素ベクトル空間において観測信号ベクトルy(t,f)が張る1次元部分空間)は、当該時間周波数点(t,f)において観測信号に含まれる音源信号の音源位置によって定まる固有の方向(具体的にはステアリングベクトルh(n,f)の方向)となる。より正確には、雑音や残響の影響で、観測信号ベクトルy(t,f)の方向は、上記の音源位置によって定まる固有の方向を中心として多少の広がりを持って分布する。本実施形態では、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルとして、観測信号ベクトルy(t,f)の方向ベクトルである式(1)の特徴ベクトルを用いる。   The direction of the observed signal vector y (t, f) in the M-dimensional complex vector space (that is, a one-dimensional subspace in which the observed signal vector y (t, f) spans in the M-dimensional complex vector space) is the time frequency point (t , F) become a unique direction (specifically, the direction of the steering vector h (n, f)) determined by the sound source position of the sound source signal included in the observation signal. More precisely, due to noise and reverberation, the direction of the observation signal vector y (t, f) is distributed with some spread around the specific direction determined by the above-mentioned sound source position. In the present embodiment, the feature vector of Expression (1), which is a direction vector of the observation signal vector y (t, f), is used as a feature vector that is a vector including information on the direction of the observation signal vector y (t, f). Use.

本実施形態では、音源位置を表す状態が複数(L個)の音源位置候補のそれぞれに対応する状態を取る条件下での特徴ベクトルz(t,f)の条件付き確率分布を複素ワトソン分布によりモデル化する(他にも複素ビンガム分布、複素角度中心ガウス分布(complex angular central Gaussian distribution)、複素ガウス分布、混合複素ワトソン分布、混合複素ビンガム分布、混合複素角度中心ガウス分布、混合複素ガウス分布等の確率分布によりモデル化することができる)。すなわち、特徴ベクトルz(t,f)は式(3)によりモデル化される。   In the present embodiment, the conditional probability distribution of the feature vector z (t, f) under the condition that the state representing the sound source position corresponds to each of a plurality of (L) sound source position candidates is a complex Watson distribution. Model (other complex Bingham distribution, complex angular central Gaussian distribution, complex Gaussian distribution, mixed complex Watson distribution, mixed complex Bingham distribution, mixed complex angular center Gaussian distribution, mixed complex Gaussian distribution etc. Can be modeled by the probability distribution of That is, the feature vector z (t, f) is modeled by equation (3).

Figure 0006538624
Figure 0006538624

ここで、g(t,f)は時間周波数点(t,f)における音源位置を表す状態である。本実施形態では、音源位置を表す状態は、複数(L個)の音源位置候補のそれぞれに対応する状態1〜Lのいずれかの値を取るとする。ここで、状態lは、時間周波数点(t,f)において観測信号ベクトルy(t,f)に含まれる音源信号の音源位置がl番目の音源位置候補である状態と定義する。p(z(t,f)|g(t,f)=l)はg(t,f)=lの条件下での特徴ベクトルz(t,f)の条件付き確率分布である。ベクトルa(l,f)はl番目の音源位置候補に対する特徴ベクトルz(t,f)の平均方向を定めるモデルパラメータであり、平均方向ベクトルと呼ばれ、式(4)を満たす。κ(l,f)はl番目の音源位置候補に対する特徴ベクトルz(t,f)の確率分布の平均方向ベクトルa(l,f)のまわりへの集中度を定めるモデルパラメータであり、集中パラメータと呼ばれる。   Here, g (t, f) is a state representing the sound source position at the time frequency point (t, f). In the present embodiment, it is assumed that the state representing the sound source position takes any value of states 1 to L corresponding to each of a plurality of (L) sound source position candidates. Here, the state l is defined as a state in which the sound source position of the sound source signal included in the observed signal vector y (t, f) at the time frequency point (t, f) is the l-th sound source position candidate. p (z (t, f) | g (t, f) = 1) is a conditional probability distribution of the feature vector z (t, f) under the condition of g (t, f) = 1. The vector a (l, f) is a model parameter that determines the average direction of the feature vector z (t, f) with respect to the l-th sound source position candidate, is called an average direction vector, and satisfies equation (4). κ (l, f) is a model parameter that defines the degree of concentration around the mean direction vector a (l, f) of the probability distribution of the feature vector z (t, f) for the l-th sound source position candidate It is called.

Figure 0006538624
Figure 0006538624

W(z;a,κ)は平均方向ベクトルがa、集中パラメータがκであるベクトルzの複素ワトソン分布であり、式(5)で表される。   W (z; a,)) is a complex Watson distribution of vector z whose average direction vector is a and whose concentration parameter is κ, and is expressed by equation (5).

Figure 0006538624
Figure 0006538624

このとき、Kは式(6)の無限級数により定義されるKummer関数(第1種合流型超幾何関数)であり、上付きのHはエルミート転置である。ただし、i=0のときξ(ξ+1)・・・(ξ+i−1)/[η(η+1)・・・(η+i−1)]=1と定める。   At this time, K is a Kummer function (a first-order combined hypergeometric function) defined by the infinite series of Equation (6), and the superscript H is Hermite transposition. However, when i = 0, it is determined that ・ ・ ・ (ξ + 1) ... (ξ + i-1) / [η (η + 1) ... (・ ・ ・ + i-1)] = 1.

Figure 0006538624
Figure 0006538624

パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルの条件付き確率分布のモデルパラメータを記憶する。具体的に、パラメータ記憶部30は、式(3)の条件付き確率分布の音源位置をモデル化するモデルパラメータである平均方向ベクトルa(l,f)(l=1〜L、f=1〜F)および集中パラメータκ(l,f)(l=1〜L、f=1〜F)を記憶する。本実施形態では、これらのモデルパラメータを以下のように計算する。すなわち、目的信号が球面波として伝播するという仮定に基づき、平均方向ベクトルa(l,f)の第m要素を式(7)により計算する。   The parameter storage unit 30 stores model parameters of the conditional probability distribution of the feature vector under the condition that the state representing the sound source position corresponds to each of the plurality of sound source position candidates. Specifically, the parameter storage unit 30 is an average direction vector a (l, f) (l = 1 to L, f = 1 to 5) which is a model parameter for modeling the sound source position of the conditional probability distribution of Expression (3). F) and store concentration parameters ((l, f) (l = 1 to L, f = 1 to F). In the present embodiment, these model parameters are calculated as follows. That is, based on the assumption that the target signal propagates as a spherical wave, the m-th element of the average direction vector a (l, f) is calculated by equation (7).

Figure 0006538624
Figure 0006538624

ここで、ベクトルq(m)はm番目のマイクロホンの直交座標である3次元実ベクトル(本実施形態では既知と仮定)、ベクトルr(l)はl番目の音源位置候補の直交座標である3次元実ベクトル(既知)、jは虚数単位、ω(f)はf番目の周波数ビンの角周波数、cは音速であり、左辺における下付きのmは第m要素であることを表し、右辺の分母の平方根の項は、平均方向ベクトルa(l,f)が式(4)の制約条件を満たすようにするための正規化係数である。   Here, the vector q (m) is a three-dimensional real vector (which is assumed to be known in this embodiment) which is the orthogonal coordinates of the m-th microphone, and the vector r (l) is the orthogonal coordinates of the l-th sound source position candidate A real vector of dimension (known), j is an imaginary unit, ω (f) is an angular frequency of an f-th frequency bin, c is a velocity of sound, and a subscript m on the left side is an m-th element. The term of the square root of the denominator is a normalization coefficient for making the mean direction vector a (l, f) satisfy the constraint of equation (4).

一方、集中パラメータκ(l,f)は、例えば周波数(ω(f)/2π)のマイナス2乗に比例すると仮定して、式(8)により計算する。式(8)は、観測信号ベクトルy(t,f)の方向が、低い周波数ほど小さい分散(大きい集中度)を持つという性質に基づいている。このように、前記性質を適切に考慮することにより、事前確率分布の推定、及びそれに基づく音源定位を正確に行うことができる。比例定数βはどのように定めてもよいが、例えばβ=6.4×10^7Hz^2と定めればよい。   On the other hand, it is assumed that the concentration parameter ((l, f) is proportional to, for example, the negative square of the frequency (ω (f) / 2π), and is calculated by equation (8). Expression (8) is based on the property that the direction of the observation signal vector y (t, f) has a smaller dispersion (larger degree of concentration) as the frequency is lower. Thus, estimation of the prior probability distribution and sound source localization based thereon can be accurately performed by properly considering the above-mentioned properties. Although the proportional constant β may be determined in any way, it may be determined, for example, as β = 6.4 × 10 7 Hz 2.

Figure 0006538624
Figure 0006538624

次に、本実施形態における特徴ベクトルz(t,f)の周辺確率分布のモデル化について説明する。本実施形態では、特徴ベクトルz(t,f)の周辺確率分布を、音源位置を表す状態g(t,f)の事前確率分布P(g(t,f)=l)を荷重とする条件付き確率分布p(z(t,f)|g(t,f)=l)の荷重和である、式(9)の混合モデルによりモデル化する。   Next, modeling of the marginal probability distribution of the feature vector z (t, f) in the present embodiment will be described. In this embodiment, the condition that the peripheral probability distribution of the feature vector z (t, f) is a load with the prior probability distribution P (g (t, f) = 1) of the state g (t, f) representing the sound source position. It models by the mixed model of Formula (9) which is a weighted sum of attached probability distribution p (z (t, f) | g (t, f) = 1).

Figure 0006538624
Figure 0006538624

条件付き確率分布p(z(t,f)|g(t,f)=l)は音源位置を表す状態が既知の場合の特徴ベクトルz(t,f)の確率分布であるのに対し、式(9)の周辺確率分布p(z(t,f))は音源位置を表す状態が未知の場合の特徴ベクトルz(t,f)の確率分布である。事前確率分布P(g(t,f)=l)は、「時変」の場合と「時不変」の場合がある。前者の場合、事前確率分布P(g(t,f)=l)は時間区間(例えばフレーム)ごとに異なる値を取り得る。後者の場合、事前確率分布P(g(t,f)=l)は時間区間(例えばフレーム)によらず同一の値を取る。   The conditional probability distribution p (z (t, f) | g (t, f) = 1) is the probability distribution of the feature vector z (t, f) when the state representing the sound source position is known, The marginal probability distribution p (z (t, f)) of Expression (9) is a probability distribution of the feature vector z (t, f) when the state representing the sound source position is unknown. The prior probability distribution P (g (t, f) = 1) may be "time-variant" or "time-invariant". In the former case, the prior probability distribution P (g (t, f) = 1) may take different values for each time interval (eg, frame). In the latter case, the prior probability distribution P (g (t, f) = 1) takes the same value regardless of the time interval (eg, frame).

事前確率分布P(g(t,f)=l)が時不変の場合、音源位置で大きい値を取る事前確率分布を全ての時間区間(例えばフレーム)を用いて推定することから、時変の場合よりも長いデータを推定に用いることができるため、音源の移動や発話交替がない状況では音源位置をより正確に推定できるという効果がある。その反面、音源位置推定を時間区間(例えばフレーム)ごとに行うことができず、またそのため、時変の場合の方が、音源の移動や発話交替がある動的な状況でのトラッキングやダイアリゼーション等には適している。   When the prior probability distribution P (g (t, f) = 1) is time-invariant, the prior probability distribution taking a large value at the sound source position is estimated using all time intervals (eg, frames). Since data longer than that in the case can be used for estimation, there is an effect that the sound source position can be estimated more accurately in a situation where there is no movement of the sound source or alternate speech. On the other hand, sound source position estimation can not be performed for each time interval (for example, a frame), and therefore, in the case of time change, tracking and diarization in a dynamic situation with movement of sound source and speech alternation And so on.

一方、事前確率分布P(g(t,f)=l)が時変の場合、音源位置で大きい値を取る関数である事前確率分布を時間区間(例えばフレーム)ごとに推定するため、音源位置推定を時間区間(例えばフレーム)ごとに行うことができるという効果に加え、時間区間(例えばフレーム)ごとの音源位置推定に基づいてトラッキングやダイアリゼーションを行うことができるという効果がある。例えば、複数人会話の音声認識では、雑音を音声とみなして誤認識することを防ぐために、「いつ誰が話したか」を推定するダイアリゼーションを行うことで音声認識を適用すべき区間を切り出す必要があるが、「時変」の場合はこのような場合にも応用可能である。   On the other hand, when the prior probability distribution P (g (t, f) = 1) is time-variant, in order to estimate the prior probability distribution which is a function taking a large value at the sound source position for each time interval (for example, frame) In addition to the effect that estimation can be performed for each time interval (for example, frame), there is an effect that tracking and dialing can be performed based on sound source position estimation for each time interval (for example, frame). For example, in speech recognition in a multi-person conversation, it is necessary to cut out a section to which speech recognition should be applied by performing a dialy to estimate "when did you talk" in order to prevent false recognition of noise as speech. Although there is a "time-variant" case, it is applicable to such a case.

本実施形態では、事前確率分布P(g(t,f)=l)は時不変と仮定する。本実施形態では更に、事前確率分布P(g(t,f)=l)は周波数にも依らないと仮定する。すなわち、本実施形態では、事前確率分布P(g(t,f)=l)がフレームおよび周波数ビンに依存しないと仮定し、α(l)で表す。ただし、α(l)は制約条件α(1)+…+α(L)=1を満たす。周波数に依らない事前確率分布を用いることで、全ての周波数において観測された特徴ベクトルz(t,f)の情報を用いて事前確率分布を推定することができるため、周波数に依存する事前確率分布を用いる場合と比べて、事前確率分布の推定により多くの情報を利用することができ、より正確な事前確率分布の推定およびそれに基づく音源定位が実現できるとともに、観測信号長が短い場合でもより正確な事前確率分布の推定およびそれに基づく音源定位が実現できる。   In this embodiment, it is assumed that the prior probability distribution P (g (t, f) = 1) is time-invariant. Further, in the present embodiment, it is assumed that the prior probability distribution P (g (t, f) = 1) does not depend on the frequency. That is, in the present embodiment, it is assumed that the prior probability distribution P (g (t, f) = 1) does not depend on the frame and frequency bin, and is represented by α (1). However, α (l) satisfies the constraint condition α (1) +... + Α (L) = 1. Since the prior probability distribution can be estimated using information of the feature vector z (t, f) observed at all frequencies by using the prior probability distribution independent of frequency, the frequency dependent prior probability distribution More information can be used for estimation of the prior probability distribution compared to the case of using, and more accurate estimation of the prior probability distribution and sound source localization based on it can be realized, and more accurate even when the observation signal length is short Estimation of the prior probability distribution and sound source localization based thereon can be realized.

事前確率分布計算部40は、音源位置を表す状態の事前確率分布α(l)(l=1〜L)を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータである平均方向ベクトルa(l,f)と集中パラメータκ(l,f)に基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルに当てはめ、事前確率分布α(l)(l=1〜L)を計算する。   The prior probability distribution calculating unit 40 uses the prior probability distribution α (l) (l = 1 to L) of the state representing the sound source position as a load, and is an average direction vector a (model parameters stored in the parameter storage unit 30). a mixed model which is a weighted sum of conditional probability distributions of feature vectors under conditions where the state representing the sound source position is known, based on l, f) and the concentration parameter ((l, f), The prior probability distribution α (l) (l = 1 to L) is calculated by fitting to the feature vector calculated by.

式(9)の混合モデルを特徴ベクトルz(t,f)に当てはめる方法には様々な方法があり、例えば式(9)に関する尤度を目的関数とし(他にも事後確率等を目的関数とすることができる。)、これを勾配法により事前確率分布α(l)(l=1〜L)に関して最大化する(他にもExpectation−Maximization(EM)アルゴリズム等により最大化できる)。   There are various methods for applying the mixed model of equation (9) to the feature vector z (t, f). For example, let the likelihood for equation (9) be an objective function (in addition, the posterior probability etc. be an objective function) Max) with respect to the prior probability distribution α (l) (l = 1 to L) by the gradient method (others can be maximized by the Expectation-Maximization (EM) algorithm etc.).

勾配法に基づく方法は、EMアルゴリズムに基づく方法と比べて、計算量の面で有利である。EMアルゴリズムに基づく方法では、反復ごとに、事前確率分布α(l)(l=1〜L)に加えて、時間周波数点ごとの各音源位置候補の寄与率を計算する必要がある。これに対し、勾配法では、反復ごとに事前確率分布α(l)(l=1〜L)のみを計算すれば良いため、EMアルゴリズムに比べて計算量を大幅に削減することができる。事前確率分布計算部40における処理は、例えば下記の通りである。   The method based on the gradient method is advantageous in terms of complexity compared to the method based on the EM algorithm. In the method based on the EM algorithm, it is necessary to calculate the contribution rate of each sound source position candidate for each time frequency point in addition to the prior probability distribution α (l) (l = 1 to L) for each iteration. On the other hand, in the gradient method, only the prior probability distribution α (l) (l = 1 to L) needs to be calculated for each iteration, so the amount of calculation can be significantly reduced compared to the EM algorithm. The processing in the prior probability distribution calculation unit 40 is, for example, as follows.

まず、α(l)←1/L(l=1〜L)によりα(l)を初期化する。次に、下記の式(10)および(11)によるα(l)(l=1〜L)の処理を、交互に所定回数(例えば10回)反復する。   First, α (l) is initialized by α (l) ← 1 / L (l = 1 to L). Next, the processing of α (l) (1 = 1 to L) according to the following formulas (10) and (11) is alternately repeated a predetermined number of times (for example, 10 times).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

そして、α(l)(l=1〜L)を出力する。ただし、ベクトルαはα(l)(l=1〜L)からなるL次元縦ベクトル、ベクトルw(t,f)はW(z(t,f);a(l,f),κ(l,f))(l=1〜L)からなるL次元縦ベクトル、上付きのTは転置、λは所定の正の定数(例えばλ=1)である。   Then, α (l) (l = 1 to L) is output. Here, vector α is an L-dimensional vertical vector consisting of α (l) (l = 1 to L), and vector w (t, f) is W (z (t, f); a (l, f), κ (l) , F)) (L = 1 to L), superscript T is transposition, and λ is a predetermined positive constant (eg, λ = 1).

ここで、式(10)(11)の導出について説明する。目的関数である尤度は、z(t,f)(t=1〜T,f=1〜F)が観測される確率であり、式(12)で表される。   Here, the derivation of the equations (10) and (11) will be described. The likelihood of being an objective function is the probability that z (t, f) (t = 1 to T, f = 1 to F) is observed, and is expressed by equation (12).

Figure 0006538624
Figure 0006538624

式(12)の最大化は、自然対数を取った式(13)の最大化と等価である。   The maximization of equation (12) is equivalent to the maximization of equation (13) taking the natural logarithm.

Figure 0006538624
Figure 0006538624

ここでlnは自然対数を表し、=の上の△は定義であることを表す。式(13)の勾配を取ると、式(14)を得、これより式(10)が従う。一方、式(11)はα(l)が制約条件α(1)+…+α(L)=1を満たすようにするための処理である。なお、式(13)において、荷重を用いずに和を取るのではなく、信頼度に基づく荷重を用いて荷重和を取るように変更した目的関数を用いてもよい。これにより、信頼度の高い時間周波数点における特徴ベクトルにより大きい重みを与えることができ、事前確率分布推定およびそれに基づく音源定位の精度を向上させることができる。例えば、観測信号ベクトルy(t,f)のノルムが小さい時間周波数点が雑音に対応し、前記ノルムが大きい時間周波数点が目的信号に対応するとの仮定に基づき、前記ノルムを信頼度に基づく荷重として用いることができる。   Here, ln represents a natural logarithm, and Δ above = represents a definition. Taking the slope of equation (13) yields equation (14), from which equation (10) follows. On the other hand, equation (11) is a process for making α (l) satisfy the constraint condition α (1) +... + Α (L) = 1. In Equation (13), an objective function may be used which is changed so as to take the load sum using the load based on the reliability, instead of taking the sum without using the load. As a result, it is possible to give greater weight to feature vectors at highly reliable time frequency points, and to improve the accuracy of prior probability distribution estimation and sound source localization based thereon. For example, based on the assumption that the time frequency point where the norm of the observation signal vector y (t, f) is small corresponds to noise, and the time frequency point where the norm is large corresponds to the target signal It can be used as

Figure 0006538624
Figure 0006538624

音源位置計算部50は、事前確率分布計算部40から事前確率分布α(l)(l=1〜L)を受け取って、事前確率分布α(l)(l=1〜L)のピーク位置の集合Jを計算し、ピーク位置の集合Jに基づいて音源位置の集合Gを計算し出力する。   The sound source position calculating unit 50 receives the prior probability distribution α (l) (l = 1 to L) from the prior probability distribution calculating unit 40, and detects the peak position of the prior probability distribution α (l) (l = 1 to L). A set J is calculated, and a set G of sound source positions is calculated and output based on the set J of peak positions.

ピーク位置の集合Jは例えば次のように計算できる。各番号l=1〜Lに対し、l番目の音源位置候補に隣接する音源位置候補の番号の集合が既知であると仮定する。このとき、「番号lがピーク位置であるとは、l番目の音源位置候補に隣接する全ての音源位置候補の番号l´に対しα(l)>α(l´)が成り立つことである」と定義し、各番号l=1〜Lに対して番号lがピーク位置であるか否かを判定することで、ピーク位置の集合Jを計算できる。このピーク位置の集合Jに基づいて、音源位置を指定する番号lの集合または座標(直交座標、極座標、球座標等)の集合である検出された音源位置の集合Gを次のように計算できる。   The set J of peak positions can be calculated, for example, as follows. It is assumed that for each number l = 1 to L, a set of sound source position candidate numbers adjacent to the l-th sound source position candidate is known. At this time, “the number l being a peak position means that α (l)> α (l ′) holds for the number l ′ of all sound source position candidates adjacent to the l-th sound source position candidate. The peak position set J can be calculated by determining whether or not the number l is a peak position for each of the numbers l = 1 to L. Based on this set J of peak positions, it is possible to calculate a set G of detected sound source positions which is a set of number l specifying the sound source position or a set of coordinates (orthogonal coordinates, polar coordinates, spherical coordinates, etc.) as follows. .

例えば、ピーク位置の集合Jをそのまま検出された音源位置の集合Gとしてもよいし、ピーク位置lのうちピーク値α(l)が所定の閾値Sを超えるピーク位置lの集合{l∈J|α(l)>S}を検出された音源位置の集合Gとしてもよい。閾値Sはどのように定めてもよいが、例えばS=1/Lとすればよい。また、ピーク位置lに対応する音源位置候補の座標であるベクトルr(l)の集合{r(l)|l∈J}を検出された音源位置の集合Gとしてもよいし、ピーク値α(l)が所定の閾値Sを超えるピーク位置lに対応する音源位置候補の座標であるベクトルr(l)の集合{r(l)|l∈J,α(l)>S}を検出された音源位置の集合Gとしてもよい。   For example, the set J of peak positions may be used as the set G of sound source positions detected as it is, or a set of peak positions l where the peak value α (l) exceeds a predetermined threshold S among peak positions l {lεJ | A set G of detected sound source positions may be used as α (l)> S}. The threshold value S may be determined in any manner, for example, S = 1 / L. Alternatively, a set {r (l) | lεJ} of vectors r (l), which are coordinates of a sound source position candidate corresponding to the peak position l, may be used as the set G of detected sound source positions. A set {r (l) | lεJ, α (l)> S} of vectors r (l) which are coordinates of the sound source position candidate corresponding to the peak position l where l) exceeds the predetermined threshold S is detected It may be a set G of sound source positions.

[第1の実施形態の処理]
図3を用いて、信号処理装置1の処理の流れについて説明する。図3は、第1の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。図3に示すように、まず、時間周波数分析部10は、観測信号に対し、時間周波数分析を行い、観測信号ベクトルを計算する(ステップS11)。
Processing of the First Embodiment
The flow of processing of the signal processing device 1 will be described with reference to FIG. FIG. 3 is a flowchart showing the flow of processing of the signal processing device according to the first embodiment. As shown in FIG. 3, first, the time-frequency analysis unit 10 performs time-frequency analysis on the observation signal to calculate an observation signal vector (step S11).

次に、特徴ベクトル計算部20は、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルを計算する(ステップS12)。そして、事前確率分布計算部40は、パラメータ記憶部30から、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での特徴ベクトルの条件付き確率分布モデルのパラメータを取得する(ステップS13)。   Next, the feature vector calculation unit 20 calculates a feature vector that is a vector including information on the direction of the observation signal vector y (t, f) (step S12). Then, from the parameter storage unit 30, the a priori probability distribution calculation unit 40 generates, from the parameter storage unit 30, the parameters of the conditional probability distribution model of the feature vector under the condition of taking the state corresponding to each of the plurality of sound source position candidates. It acquires (step S13).

次に、事前確率分布計算部40は、各音源位置を表す状態の事前確率分布を初期化する(ステップS14)。そして、事前確率分布計算部40は、事前確率分布を更新する(ステップS15)。   Next, the prior probability distribution calculating unit 40 initializes the prior probability distribution of the state representing each sound source position (step S14). Then, the prior probability distribution calculation unit 40 updates the prior probability distribution (step S15).

このとき、事前確率分布計算部40は、例えば、パラメータ記憶部から取得したモデルパラメータによって表される特徴ベクトルの条件付き確率分布を、事前確率分布で荷重した混合モデルを用いて特徴ベクトルの周辺確率分布をモデル化する。そして、事前確率分布計算部40は、勾配法を用い、当該周辺確率分布の尤度を目的関数としたときの尤度が最大化されるように事前確率分布を更新する。そして、事前確率分布の更新が所定回数反復して行われていない場合(ステップS16、No)、事前確率分布計算部40は、さらに事前確率分布の更新を行う(ステップS15)。   At this time, the prior probability distribution calculation unit 40 uses, for example, a mixed model in which the conditional probability distribution of the feature vector represented by the model parameter acquired from the parameter storage unit is loaded by the prior probability distribution. Model the distribution. Then, the prior probability distribution calculation unit 40 uses the gradient method to update the prior probability distribution so that the likelihood when the likelihood of the surrounding probability distribution is the objective function is maximized. Then, when the prior probability distribution is not repeatedly updated a predetermined number of times (step S16, No), the prior probability distribution calculation unit 40 further updates the prior probability distribution (step S15).

一方、事前確率分布の更新が所定回数反復して行われた場合(ステップS16、Yes)、音源位置計算部50は、事前確率分布計算部40によって計算された事前確率に基づいて音源位置を計算する(ステップS17)。このとき、音源位置計算部50は、例えば、事前確率がピークとなる音源位置を計算結果とすることができる。   On the other hand, when the prior probability distribution is repeatedly updated a predetermined number of times (step S16, Yes), the sound source position calculation unit 50 calculates the sound source position based on the prior probability calculated by the prior probability distribution calculation unit 40. (Step S17). At this time, the sound source position calculation unit 50 can use, for example, the sound source position at which the prior probability reaches a peak as the calculation result.

[第1の実施形態の効果]
時間周波数分析部10は、M個の異なる位置で取得された収録音に時間周波数変換を適用し、M次元ベクトルである観測信号ベクトルを計算する。そして、特徴ベクトル計算部20は、時間周波数分析部10によって計算された観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルを、時間周波数点ごとに計算する。また、パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルの条件付き確率分布のモデルパラメータを記憶する。
[Effect of First Embodiment]
The time frequency analysis unit 10 applies time frequency conversion to the recorded sound acquired at M different positions, and calculates an observation signal vector which is an M-dimensional vector. Then, the feature vector calculation unit 20 calculates, for each time frequency point, a feature vector that is a vector including information on the direction of the observation signal vector y (t, f) calculated by the time frequency analysis unit 10. The parameter storage unit 30 also stores model parameters of the conditional probability distribution of the feature vector under the condition that the state representing the sound source position corresponds to each of the plurality of sound source position candidates.

ここで、事前確率分布計算部40は、音源位置を表す状態の事前確率分布を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータに基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルに当てはめ、事前確率分布を計算する。そして、音源位置計算部50は、事前確率分布計算部40によって計算された事前確率分布に基づいて、特徴ベクトルに対応する音源位置を計算する。   Here, the prior probability distribution calculation unit 40 uses the prior probability distribution of the state representing the sound source position as a load, based on the model parameters stored in the parameter storage unit 30, under conditions where the state representing the sound source position is known. A mixed model, which is a weighted sum of conditional probability distributions of feature vectors, is applied to the feature vectors calculated by the feature vector calculation unit 20 to calculate a prior probability distribution. Then, the sound source position calculation unit 50 calculates the sound source position corresponding to the feature vector based on the prior probability distribution calculated by the prior probability distribution calculation unit 40.

このように、第1の実施形態によれば、観測信号ベクトルの共分散行列を用いずに、音源位置にて大きい値を取る関数である空間スペクトルとみなせる事前確率分布を計算することができるため、観測信号長が短い場合でも正確に音源定位を行うことができる。そのため、観測信号長が短い場合に正確な音源定位が困難であったCapоn法やMUSIC法等の従来の音源定位法に比べて、音源位置が時間的に変化する状況や、発話交替のある会話状況などの動的な状況下で有利である。また、第1の実施形態によれば、複数の音源からの音源信号が混在する状況でも、それぞれの音源の音源位置を推定することができる。そのため、複数の音源位置の推定が困難であった遅延和アレイや一般化相互相関関数法等の従来の音源定位法に比べて、発話の重なりがある会話状況などの複数音源が存在する状況下で有利である。また、音源数が未知である状況でも、音源定位を行うことができる。そのため、実際の応用では音源数は事前に分からないことが多いが、そのような状況下でも本実施形態により音源定位が可能である。これは、音源数の事前情報を必要とするMUSIC法等の従来の音源定位法に比べて有利である。さらに、第1の実施形態の方法で得られた事前確率分布は、トラッキング、ダイアリゼーション、マスク推定、音声強調、音声認識といった様々な応用に用いることができる。さらに、第1の実施形態によれば、周波数に依らない事前確率分布を用いることで、全ての周波数において観測された特徴ベクトルz(t,f)の情報を用いて事前確率分布を推定することができる(これは、式(10)において、全ての周波数におけるベクトルw(t,f)を用いてベクトルαを更新していることからも分かる。)ため、周波数に依存する事前確率分布を用いる場合と比べて、事前確率分布の推定により多くの情報を利用することができ、より正確な事前確率分布の推定およびそれに基づく音源定位が実現できるとともに、観測信号長が短い場合でもより正確な事前確率分布の推定およびそれに基づく音源定位が実現できる。なお、上では、全てのフレームにおける観測信号を一度に処理するバッチ処理について説明したが、フレームごと(またはいくつかのフレームごと)に観測信号を処理し、音源位置を推定するブロックバッチ処理(またはオンライン処理)とすることもできる。   As described above, according to the first embodiment, it is possible to calculate the prior probability distribution that can be regarded as a space spectrum that is a function that takes a large value at the sound source position without using the covariance matrix of the observation signal vector. Even when the observation signal length is short, sound source localization can be performed accurately. Therefore, when the observation signal length is short, accurate sound source localization is difficult, compared with the conventional sound source localization method such as the Caporn method or MUSIC method, the situation where the sound source position changes temporally or the conversation with utterance substitution It is advantageous under dynamic situations such as situations. Further, according to the first embodiment, even in a situation where sound source signals from a plurality of sound sources are mixed, it is possible to estimate the sound source position of each sound source. Therefore, in the situation where there are multiple sound sources such as a conversational situation where there are overlapping of utterances, as compared with the conventional sound source localization methods such as delay-and-sum array and generalized cross correlation function method in which estimation of multiple sound source positions is difficult Is advantageous. In addition, sound source localization can be performed even in a situation where the number of sound sources is unknown. Therefore, in many practical applications, the number of sound sources is often unknown in advance, but even under such circumstances, sound source localization is possible according to the present embodiment. This is advantageous over conventional sound source localization methods such as the MUSIC method that requires advance information on the number of sound sources. Furthermore, the prior probability distribution obtained by the method of the first embodiment can be used in various applications such as tracking, dialing, mask estimation, speech enhancement, and speech recognition. Furthermore, according to the first embodiment, the prior probability distribution is estimated using information of feature vectors z (t, f) observed at all frequencies by using the prior probability distribution not depending on the frequency. (It can also be understood from equation (10) that vector α is updated using vector w (t, f) at all frequencies), so we use a frequency-dependent prior probability distribution Compared to the case, more information can be used to estimate the prior probability distribution, more accurate estimation of the prior probability distribution and sound source localization based on it can be realized, and the more accurate prior can be realized even when the observation signal length is short Estimation of probability distribution and sound source localization based on it can be realized. Although the above describes the batch processing for processing observation signals in all frames at one time, block batch processing (or processing for processing the observation signals for each frame (or every several frames) to estimate the sound source position It can also be an online process.

[第2の実施形態]
次に、第2の実施形態の構成について説明する。第2の実施形態は、本発明に基づいて音源位置を推定する例であり、第1の実施形態を基にして、事前確率分布として時変の事前確率分布を用いるという変更を加えたものである。すなわち、第2の実施形態では、事前確率分布を時間区間(例えばフレーム)ごとに推定する。このことにより、音源位置推定を時間区間(例えばフレーム)ごとに行うことができるという効果に加え、時間区間(例えばフレーム)ごとの音源位置推定に基づいてトラッキングやダイアリゼーションを行うことができるという効果が得られる。
Second Embodiment
Next, the configuration of the second embodiment will be described. The second embodiment is an example of estimating a sound source position based on the present invention, and is a modification based on the first embodiment, in which a time-varying prior probability distribution is used as the prior probability distribution. is there. That is, in the second embodiment, the prior probability distribution is estimated for each time interval (for example, frame). As a result, in addition to the effect that the sound source position estimation can be performed for each time interval (for example, frame), the effect that tracking and dialing can be performed based on the sound source position estimation for each time interval (for example, frame) Is obtained.

第2の実施形態に係る信号処理装置の構成の一例は、第1の実施形態に係る信号処理装置1と同様、図2で示される。第2の実施形態に係る信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。時間周波数分析部10、特徴ベクトル計算部20、およびパラメータ記憶部30については、第1の実施形態と同様であるから、以下では相違点である事前確率分布計算部40と音源位置計算部50について詳しく説明する。第1の実施形態と本実施形態との主な相違点は次の通りである。第1の実施形態では、事前確率分布計算部40で時間区間に依らない事前確率分布を計算し、この事前確率分布に基づき、音源位置計算部50で時間区間に依らない音源位置を計算する。これに対し、本実施形態では、事前確率分布計算部40で時間区間ごとの事前確率分布を計算し、この事前確率分布に基づき、音源位置計算部50で時間区間ごとの音源位置を計算する。   An example of the configuration of the signal processing device according to the second embodiment is shown in FIG. 2 as in the signal processing device 1 according to the first embodiment. The signal processing device 1 according to the second embodiment includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50. The time-frequency analysis unit 10, the feature vector calculation unit 20, and the parameter storage unit 30 are the same as in the first embodiment, and hence the prior probability distribution calculation unit 40 and the sound source position calculation unit 50 which are differences below. explain in detail. The main differences between the first embodiment and the present embodiment are as follows. In the first embodiment, the prior probability distribution calculating unit 40 calculates the prior probability distribution not depending on the time interval, and the sound source position calculating unit 50 calculates the sound source position independent of the time interval based on the prior probability distribution. On the other hand, in the present embodiment, the prior probability distribution calculating unit 40 calculates the prior probability distribution for each time interval, and the sound source position calculating unit 50 calculates the sound source position for each time interval based on the prior probability distribution.

事前確率分布計算部40は、音源位置を表す状態の事前確率分布α(l,t)(l=1〜L、t=1〜T)を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータである平均方向ベクトルa(l,f)および集中パラメータκ(l,f)に基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルz(t,f)の条件付き確率分布の荷重和である式(15)の混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルz(t,f)に当てはめ、事前確率分布α(l,t)(l=1〜L、t=1〜T)を計算する。ただし、α(l,t)は制約条件α(1,t)+…+α(L,t)=1を満たす。   A model stored in the parameter storage unit 30 in which the prior probability distribution calculation unit 40 uses the prior probability distribution α (l, t) (l = 1 to L, t = 1 to T) of the state indicating the sound source position as a load Conditional probability distribution of the feature vector z (t, f) under conditions where the state representing the sound source position is known, based on the parameters average direction vector a (l, f) and concentration parameter ((l, f) (15) is applied to the feature vector z (t, f) calculated by the feature vector calculation unit 20, and the prior probability distribution α (l, t) (l = 1 to L, Calculate t = 1 to T). However, α (l, t) satisfies the constraint condition α (1, t) +... + Α (L, t) = 1.

Figure 0006538624
Figure 0006538624

ここで、第1の実施形態とは異なり、式(15)における荷重が時不変のα(l)ではなく時変のα(l,t)となっていることに注意する。式(15)の混合モデルを特徴ベクトルz(t,f)に当てはめる方法には様々な方法があり、例えば式(15)に関する尤度を勾配法により最大化する。   Here, it should be noted that the load in equation (15) is not time-invariant α (l) but time-varying α (l, t) unlike the first embodiment. There are various methods for fitting the mixed model of Equation (15) to the feature vector z (t, f). For example, the likelihood with respect to Equation (15) is maximized by the gradient method.

事前確率分布計算部40における処理は、例えば下記の通りである。
1.α(l,t)←1/L(l=1〜L、t=1〜T)により事前確率分布α(l,t)を初期化する。
2.下記の式(16)および式(17)による事前確率分布α(l,t)(l=1〜L、t=1〜T)の更新を交互に所定回数(例えば10回)反復する。
The processing in the prior probability distribution calculation unit 40 is, for example, as follows.
1. The prior probability distribution α (l, t) is initialized by α (l, t) ← 1 / L (l = 1 to L, t = 1 to T).
2. The update of the prior probability distribution α (l, t) (l = 1 to L, t = 1 to T) according to the following Equation (16) and Equation (17) is alternately repeated a predetermined number of times (for example, 10 times).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

3.事前確率分布α(l,t)(l=1〜L、t=1〜T)を出力する。   3. The prior probability distribution α (l, t) (l = 1 to L, t = 1 to T) is output.

ただし、ベクトルα(t)はα(l,t)(l=1〜L)からなるL次元縦ベクトルである。式(16)および(17)の導出は、式(10)および(11)の導出と同様であるため省略する。   However, the vector α (t) is an L-dimensional vertical vector consisting of α (l, t) (l = 1 to L). The derivation of equations (16) and (17) is omitted as it is similar to the derivation of equations (10) and (11).

音源位置計算部50は、事前確率分布計算部40から事前確率分布α(l,t)(l=1〜L、t=1〜T)を受け取って、事前確率分布α(l,t)(l=1〜L、t=1〜T)のピーク位置の集合J(t)をフレームごとに計算し、ピーク位置の集合J(t)に基づいて検出された音源位置の集合G(t)をフレームごとに計算し出力する。   The sound source position calculating unit 50 receives the prior probability distribution α (l, t) (l = 1 to L, t = 1 to T) from the prior probability distribution calculating unit 40, and the prior probability distribution α (l, t) ( A set J (t) of peak positions of l = 1 to L, t = 1 to T) is calculated for each frame, and a set G (t) of sound source positions detected based on the set J (t) of peak positions Is calculated and output for each frame.

ピーク位置の集合J(t)は例えば次のように計算できる。l番目(l=1〜L)の音源位置候補に隣接する音源位置候補の番号の集合(既知と仮定)を集合A(l)で表す。このとき、ピーク位置の集合J(t)は、「集合A(l)に属する全ての番号l´に対しα(l,t)>α(l´,t)」となる番号lの集合J(t)={l|∀l´∈A(l),α(l,t)>α(l´,t)}として計算できる。このピーク位置の集合J(t)に基づいて、音源位置を指定する番号lの集合または座標(直交座標、極座標、球座標等)の集合である検出された音源位置の集合G(t)を次のように計算することができる。   The set of peak positions J (t) can be calculated, for example, as follows. A set (assumed to be known) of the numbers of sound source position candidates adjacent to the l-th (l = 1 to L) sound source position candidate is represented by a set A (l). At this time, the set J (t) of peak positions is a set J of numbers l where α (l, t)> α (l ′, t) for all numbers l ′ belonging to set A (l). It can be calculated as (t) = {l | ∀l'∈A (l), α (l, t)> α (l ', t)}. Based on the set J (t) of peak positions, a set G (t) of detected sound source positions is a set of numbers l specifying the sound source position or a set of coordinates (orthogonal coordinates, polar coordinates, spherical coordinates, etc.) It can be calculated as follows.

例えば、ピーク位置の集合J(t)をそのまま検出された音源位置の集合G(t)とすることができる。また、ピーク位置lのうち対応するピーク値α(l,t)が所定の閾値Sを超えるものの集合{l∈J(t)|α(l,t)>S}を検出された音源位置の集合G(t)とすることもできる。ここで閾値Sはどのように定めてもよいが、例えばS=1/Lとすればよい。また、ピーク位置lに対応する音源位置候補の座標であるベクトルr(l)の集合{r(l)|l∈J(t)}を検出された音源位置の集合G(t)とすることもできる。また、ピーク位置lのうちピーク値α(l,t)が所定の閾値Sを超えるものに対応する音源位置候補の座標であるベクトルr(l)の集合{r(l)|l∈J(t),α(l,t)>S}を検出された音源位置の集合G(t)としてもよい。   For example, the set J (t) of peak positions can be set as the set G (t) of sound source positions detected as it is. Also, among the peak positions l, a set of sound source positions for which a set {lεJ (t) | α (l, t)> S} of corresponding peak values α (l, t) exceeding a predetermined threshold value S is detected It can also be set G (t). Here, the threshold value S may be determined in any way, but for example, it may be S = 1 / L. Also, let a set {r (l) | lεJ (t)} of vectors r (l), which are coordinates of sound source position candidates corresponding to the peak position l, be a set G (t) of detected sound source positions You can also. In addition, a set of vectors r (l) which are coordinates of sound source position candidates corresponding to those of the peak positions l where the peak value α (l, t) exceeds the predetermined threshold S {r (l) | lεJ ( A set G (t) of detected sound source positions may be used as t) and α (l, t)> S}.

[第3の実施形態]
次に、第3の実施形態の構成について説明する。第3の実施形態は、本発明に基づいて音源位置を推定する例であり、第1の実施形態を基にして、音源位置を表す状態として、複数(L個)の音源位置候補のそれぞれに対応する状態(状態1〜Lとする)に加え、背景雑音に対応する状態(状態0とする)も考慮するとともに、音源位置を表す状態が状態0を取る条件下での、特徴ベクトルの条件付き確率分布を、超球面上の一様分布によりモデル化する、という変更を加えたものである。これにより、背景雑音を含む観測信号を適切にモデル化し、背景雑音下でも高精度に音源定位を行うことが可能になるという利点がある。
Third Embodiment
Next, the configuration of the third embodiment will be described. The third embodiment is an example of estimating a sound source position based on the present invention, and based on the first embodiment, each of a plurality of (L) sound source position candidates is a state representing a sound source position. In addition to the corresponding states (states 1 to L), the condition corresponding to background noise (state 0) is also considered, and the condition of the feature vector under the condition that the state representing the sound source position takes state 0 The modified probability distribution is modeled as a uniform distribution on the hypersphere. This has an advantage that it is possible to appropriately model an observation signal including background noise and perform source localization with high accuracy even under background noise.

第3の実施形態に係る信号処理装置の構成の一例は、第1の実施形態に係る信号処理装置1と同様、図2で示される。第3の実施形態に係る信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。時間周波数分析部10、特徴ベクトル計算部20については、第1の実施形態と同様であるから、以下では相違点であるパラメータ記憶部30、事前確率分布計算部40、および音源位置計算部50について詳しく説明する。第1の実施形態と本実施形態との主な相違点は次の通りである。第1の実施形態では、パラメータ記憶部30において、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での条件付き確率分布のモデルパラメータを記憶し、事前確率分布計算部40において、複数の音源位置候補に対応する状態に対する事前確率分布を計算し、音源位置計算部50において、前記事前確率分布に基づいて音源位置を計算する。これに対し、本実施形態では、パラメータ記憶部30において、音源位置を表す状態が背景雑音に対応する状態を取る条件下での条件付き確率分布のモデルパラメータをさらに記憶し、事前確率分布計算部40において、複数の音源位置候補および背景雑音に対応する状態の事前確率分布を計算し、音源位置計算部50において、前記事前確率分布に基づいて音源位置を計算する。   An example of the configuration of the signal processing device according to the third embodiment is shown in FIG. 2 as in the signal processing device 1 according to the first embodiment. The signal processing device 1 according to the third embodiment includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50. The time-frequency analysis unit 10 and the feature vector calculation unit 20 are the same as in the first embodiment, and hence the parameter storage unit 30, the prior probability distribution calculation unit 40, and the sound source position calculation unit 50 which are differences below. explain in detail. The main differences between the first embodiment and the present embodiment are as follows. In the first embodiment, the parameter storage unit 30 stores model parameters of conditional probability distribution under the condition that the state representing the sound source position corresponds to each of a plurality of sound source position candidates, and the a priori probability distribution The calculation unit 40 calculates a priori probability distribution for a state corresponding to a plurality of sound source position candidates, and the sound source position calculation unit 50 calculates a sound source position based on the a priori probability distribution. On the other hand, in the present embodiment, the parameter storage unit 30 further stores model parameters of conditional probability distribution under the condition that the state representing the sound source position corresponds to the background noise, and the prior probability distribution calculation unit At 40, the a priori probability distribution of the state corresponding to the plurality of sound source position candidates and the background noise is calculated, and the sound source position calculating unit 50 calculates the sound source position based on the a priori probability distribution.

まず、本実施形態における観測信号ベクトルy(t,f)のモデル化について説明する。本実施形態におけるモデル化では、観測信号ベクトルy(t,f)はN個(Nは未知でもよい。N=0でもよい。)の目的信号に加えて背景雑音も含むと仮定する。本実施形態では更に、観測信号ベクトルy(t,f)は、各時間周波数点において目的信号のうち高々1つの目的信号を含むと仮定するとともに、背景雑音は全ての時間周波数点において観測信号ベクトルy(t,f)に含まれると仮定する。このとき、観測信号ベクトルy(t,f)は式(18)または(19)のいずれかの式によりモデル化される。   First, modeling of the observed signal vector y (t, f) in the present embodiment will be described. In the modeling in this embodiment, it is assumed that the observation signal vector y (t, f) includes background noise as well as N target signals (N may be unknown; N may be 0). Further, in the present embodiment, it is assumed that the observed signal vector y (t, f) includes at most one target signal of the target signals at each time frequency point, and the background noise is observed signal vectors at all time frequency points. Suppose that it is included in y (t, f). At this time, the observed signal vector y (t, f) is modeled by either equation (18) or (19).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

ここで、式(18)は時間周波数点(t,f)において目的信号のうちn番目(nは時間周波数点(t,f)によって変化しうる)の目的信号のみが観測信号ベクトルy(t,f)に含まれる場合、式(19)は時間周波数点(t,f)において観測信号ベクトルy(t,f)に目的信号が1つも含まれない場合を表しており、ベクトルs(n,t,f)はn番目の目的信号、ベクトルv(t,f)は背景雑音である。   Here, in the time frequency point (t, f), only the target signal of the n-th (n can vary depending on the time frequency point (t, f)) target signal at time frequency point (t, f) observed signal vector y (t , F), equation (19) represents the case where no target signal is included in the observed signal vector y (t, f) at the time frequency point (t, f), and the vector s (n) , T, f) is the n-th target signal, and vector v (t, f) is background noise.

第1の実施形態の場合と異なり本実施形態では、式(19)のように観測信号ベクトルy(t,f)に目的信号が1つも含まれず背景雑音のみが含まれる場合も考慮に入れたモデル化がなされており、背景雑音下での観測信号をより正確にモデル化することができる。   Unlike the case of the first embodiment, in the present embodiment, the case where only the background noise is included in the observation signal vector y (t, f) without any target signal as in equation (19) is also taken into consideration. The modeling is performed, and the observation signal under background noise can be modeled more accurately.

上述のように本実施形態では、式(19)のように観測信号ベクトルy(t,f)に目的信号が1つも含まれない場合も考慮する。本実施形態では、このような場合も適切にモデル化できるように、各時間周波数点における観測信号ベクトルが取り得る音源位置を表す状態として、複数の音源位置候補に対応する状態に加えて、背景雑音に対応する状態をさらに考慮する。前者は式(18)、後者は式(19)に対応する。   As described above, in the present embodiment, the case where no target signal is included in the observed signal vector y (t, f) as in Expression (19) is also considered. In this embodiment, in order to be able to model appropriately also in such a case, in addition to the state corresponding to a plurality of sound source position candidates, the state representing the sound source position obtainable by the observation signal vector at each time frequency point Further consider the condition corresponding to the noise. The former corresponds to equation (18) and the latter corresponds to equation (19).

以下、時間周波数点(t,f)における前記音源位置を表す状態をg(t,f)により表す。g(t,f)=l(l=1〜L)の条件下での特徴ベクトルz(t,f)の条件付き確率分布は、第1の実施形態の場合と同様、式(3)の複素ワトソン分布によりモデル化される(他にも複素ビンガム分布、複素角度中心ガウス分布、複素ガウス分布、混合複素ワトソン分布、混合複素ビンガム分布、混合複素角度中心ガウス分布、混合複素ガウス分布等の確率分布によりモデル化することができる)。   Hereinafter, a state representing the sound source position at a time frequency point (t, f) will be represented by g (t, f). The conditional probability distribution of the feature vector z (t, f) under the condition of g (t, f) = l (l = 1 to L) is the same as in the first embodiment. Other probability models such as complex Bingham distribution, complex angular center Gaussian distribution, complex Gaussian distribution, mixed complex Watson distribution, mixed complex Bingham distribution, mixed complex angular center Gaussian distribution, mixed complex Gaussian distribution etc. Can be modeled by distribution).

一方、g(t,f)=0の条件下での特徴ベクトルz(t,f)の条件付き確率分布は、式(20)に示すように、M次元複素ベクトル空間における単位球面上の一様分布によりモデル化される。   On the other hand, the conditional probability distribution of the feature vector z (t, f) under the condition of g (t, f) = 0 is, as shown in equation (20), one of the units on the unit sphere in the M-dimensional complex vector space. It is modeled by uniform distribution.

Figure 0006538624
Figure 0006538624

式(20)は、背景雑音はあらゆる方向から一様に到来するという仮定に基づいている。本実施形態では、式(20)を導入することにより、式(19)のように背景雑音に対応する状態も適切にモデル化することが可能になり、背景雑音下でも音源位置を正確に推定できる。   Equation (20) is based on the assumption that background noise comes uniformly from all directions. In the present embodiment, by introducing equation (20), it is possible to appropriately model the state corresponding to background noise as in equation (19), and the source position can be accurately estimated even under background noise. it can.

次に、本実施形態における特徴ベクトルz(t,f)の周辺確率分布のモデル化について説明する。本実施形態では、特徴ベクトルz(t,f)の周辺確率分布を、音源位置を表す状態の事前確率分布P(g(t,f)=l)を荷重とする、条件付き確率分布p(z(t,f)|g(t,f)=l)の荷重和である式(21)の混合モデルによりモデル化する。   Next, modeling of the marginal probability distribution of the feature vector z (t, f) in the present embodiment will be described. In the present embodiment, conditional probability distribution p (p (g, t, f) = 1), which is a prior probability distribution P (g (t, f) = 1) of the state representing the sound source position, is used as the peripheral probability distribution of feature vector z (t, f). It models by the mixed model of Formula (21) which is a load sum of z (t, f) | g (t, f) = l.

Figure 0006538624
Figure 0006538624

本実施形態では、事前確率分布P(g(t,f)=l)がフレームおよび周波数ビンに依存しないと仮定し、α(l)(l=0〜L)で表す。ただし、α(l)は制約条件α(0)+…+α(L)=1を満たす。κ=0であり、aが任意の単位ベクトルであるとき、複素ワトソン分布W(z;a,κ)は式(20)の一様分布に一致することに注意すると、式(21)を式(22)のように書き直すこともできる。ただし、κ(0,f)=0とし、ベクトルa(0,f)は任意の単位ベクトルとする。周波数に依らない事前確率分布を用いることで、全ての周波数において観測された特徴ベクトルz(t,f)の情報を用いて事前確率分布を推定することができるため、周波数に依存する事前確率分布を用いる場合と比べて、事前確率分布の推定により多くの情報を利用することができ、より正確な事前確率分布の推定およびそれに基づく音源定位が実現できるとともに、観測信号長が短い場合でもより正確な事前確率分布の推定およびそれに基づく音源定位が実現できる。さらに、全ての周波数において観測された特徴ベクトルz(t,f)の情報を用いて事前確率分布を推定することができるため、雑音や残響の影響により一つの周波数において観測された特徴ベクトルz(t,f)だけでは音源位置が確実には分からないような場合にも、より正確に音源定位を行うことができ、周波数に依存する事前確率分布を用いる場合と比べて、雑音や残響に対する頑健性を向上させることができる。   In this embodiment, it is assumed that the prior probability distribution P (g (t, f) = 1) does not depend on frames and frequency bins, and is represented by α (1) (1 = 0 to L). However, α (l) satisfies the constraint condition α (0) +... + Α (L) = 1. If 式 = 0 and a is an arbitrary unit vector, note that the complex Watson distribution W (z; a,)) matches the uniform distribution of equation (20), equation (21) It can also be rewritten as (22). However, κ (0, f) = 0 and vector a (0, f) is an arbitrary unit vector. Since the prior probability distribution can be estimated using information of the feature vector z (t, f) observed at all frequencies by using the prior probability distribution independent of frequency, the frequency dependent prior probability distribution More information can be used for estimation of the prior probability distribution compared to the case of using, and more accurate estimation of the prior probability distribution and sound source localization based on it can be realized, and more accurate even when the observation signal length is short Estimation of the prior probability distribution and sound source localization based thereon can be realized. Furthermore, since the prior probability distribution can be estimated using information of the feature vector z (t, f) observed at all frequencies, the feature vector z (observed at one frequency due to the influence of noise and reverberation) Even when the sound source position can not be determined with certainty using only t and f), sound source localization can be performed more accurately, and it is more robust against noise and reverberation than using a frequency-dependent prior probability distribution. It is possible to improve the quality.

Figure 0006538624
Figure 0006538624

パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での条件付き確率分布のモデルパラメータ、および音源位置を表す状態が背景雑音に対応する状態を取る条件下での条件付き確率分布のモデルパラメータを記憶する。前者は例えば第1の実施形態に記載の方法により計算することができ、後者は例えばκ(0,f)←0、ベクトルa(0,f)は任意の単位ベクトルとすることができる。   The parameter storage unit 30 is a model parameter of the conditional probability distribution under the condition that the state representing the sound source position corresponds to each of a plurality of sound source position candidates, and the state representing the sound source position corresponds to the background noise Store the model parameters of the conditional probability distribution under the condition The former can be calculated by, for example, the method described in the first embodiment, and the latter can be, for example, κ (0, f) ← 0, and the vector a (0, f) can be any unit vector.

事前確率分布計算部40は、音源位置を表す状態の事前確率分布α(l)(l=0〜L)を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータである平均方向ベクトルa(l,f)(l=0〜L、f=1〜F)と集中パラメータκ(l,f)(l=0〜L、f=1〜F)に基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルの条件付き確率分布の荷重和である式(21)の混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルz(t,f)に当てはめ、事前確率分布α(l)(l=0〜L)を計算する。   The prior probability distribution calculating unit 40 uses the prior probability distribution α (l) (l = 0 to L) of the state representing the sound source position as a load, and the average direction vector a (model parameters stored in the parameter storage unit 30) The state representing the sound source position is known based on l, f) (l = 0 to L, f = 1 to F) and concentration parameters κ (l, f) (l = 0 to L, f = 1 to F) (21) is applied to the feature vector z (t, f) calculated by the feature vector calculation unit 20, and the prior probability distribution α (L) Calculate (l = 0 to L).

式(21)の混合モデルを特徴ベクトルz(t,f)に当てはめる方法には様々な方法があり、例えば式(21)に関する尤度を目的関数とし(他にも事後確率等を目的関数とすることができる。)、これを勾配法により事前確率分布α(l)(l=0〜L)に関して最大化する(他にもEMアルゴリズム等により最大化できる)。   There are various methods for applying the mixed model of Equation (21) to the feature vector z (t, f). For example, let the likelihood for Equation (21) be an objective function (in addition, the posterior probability etc. be an objective function) This can be maximized with respect to the prior probability distribution α (l) (l = 0 to L) by the gradient method (in addition, it can be maximized by the EM algorithm etc.).

事前確率分布計算部40における処理は、例えば下記の通りである。
1.事前確率分布α(l)(l=0〜L)をα(l)←1/(L+1)により初期化する。
2.下記の式(23)および(24)による事前確率分布α(l)(l=0〜L)の更新を交互に所定回数(例えば10回)反復する。
The processing in the prior probability distribution calculation unit 40 is, for example, as follows.
1. The prior probability distribution α (l) (l = 0 to L) is initialized by α (l) ← 1 / (L + 1).
2. The updating of the prior probability distribution α (l) (l = 0 to L) according to the following equations (23) and (24) is alternately repeated a predetermined number of times (for example, 10 times).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

3.事前確率分布α(l)(l=0〜L)を出力する。   3. The prior probability distribution α (l) (l = 0 to L) is output.

ここで、ベクトル〜α(αの前の記号「〜」はαの上に記号「〜」を付すことを表す。)はα(l)(l=0〜L)からなる(L+1)次元縦ベクトルであり、ベクトル〜w(t,f)はW(z(t,f);a(l,f),κ(l,f))(l=0〜L)からなる(L+1)次元縦ベクトルである。なお、式(23)および式(24)の導出については、第1の実施形態と同様であるから省略する。   Here, a vector (α (the symbol “〜” before α represents that the symbol “〜” is attached on α) is an (L + 1) -dimensional vertical pattern consisting of α (l) (l = 0 to L) A vector, and the vector ~ w (t, f) is W (z (t, f); a (l, f), κ (l, f)) (l = 0 to L) (L + 1) dimensional vertical It is a vector. The derivation of the equations (23) and (24) is the same as that of the first embodiment, and is therefore omitted.

音源位置計算部50は、事前確率分布計算部40から受け取った事前確率分布α(l)(l=0〜L)に基づいて、検出された音源位置の集合Gを計算し出力する。具体的には、lの定義域を目的音源に対応するl=1〜Lに制限したα(l)(l=1〜L)に対して、第1の実施形態に記載の処理を適用することにより、検出された音源位置の集合Gを計算する。   The sound source position calculation unit 50 calculates and outputs a set G of detected sound source positions based on the prior probability distribution α (l) (l = 0 to L) received from the prior probability distribution calculation unit 40. Specifically, the process described in the first embodiment is applied to α (l) (l = 1 to L) in which the domain of l is limited to l = 1 to L corresponding to the target sound source. Thus, a set G of detected sound source positions is calculated.

[第4の実施形態]
次に、第4の実施形態の構成について説明する。第4の実施形態は、本発明に基づいて音源位置を推定する例であり、第1の実施形態を基にして、条件付き確率分布のモデルパラメータを目的信号が球面波として伝播するという仮定に基づいて計算するのではなく、実測データを学習データとして用いて事前学習するようにするという変更を加えたものである。目的信号が球面波として伝播するという上記の仮定は、無響室のような反射・残響・回折等の存在しない理想的な環境を想定している。したがって、第1の実施形態では、反射・残響・回折等がある環境では、想定している環境と音源定位を行う環境との間にミスマッチが存在するため、音源定位の性能が低下する問題がある。これに対し本実施形態では、音源定位を行う環境における実測データを用いて条件付き確率分布のモデルパラメータを事前学習することで、そのようなミスマッチを解消し、反射・残響・回折等がある場合でも音源位置を正確に推定することが可能になる、という利点がある。反対に、第1の実施形態には、本実施形態と異なり上記実測データを取得する手間が省けるという利点がある。
Fourth Embodiment
Next, the configuration of the fourth embodiment will be described. The fourth embodiment is an example of estimating the sound source position based on the present invention, and based on the first embodiment, assuming that the target signal propagates as a spherical wave as a model parameter of conditional probability distribution. Instead of calculating based on the change, a change is made such that actual data is used as learning data and learning is performed in advance. The above assumption that the target signal propagates as a spherical wave assumes an ideal environment without reflection, reverberation, diffraction, etc., such as an anechoic chamber. Therefore, in the first embodiment, in an environment with reflection, reverberation, diffraction, etc., there is a mismatch between the assumed environment and the environment for performing sound source localization, so the problem of the performance of the sound source localization is degraded. is there. On the other hand, in the present embodiment, such mismatch is eliminated by pre-learning model parameters of conditional probability distribution using measured data in an environment where sound source localization is performed, and there are reflections, reverberations, diffractions, etc. However, there is an advantage that it becomes possible to estimate the sound source position accurately. On the contrary, the first embodiment has an advantage that the time and effort for acquiring the above-mentioned actual measurement data can be saved unlike the present embodiment.

第4の実施形態に係る信号処理装置の構成の一例は、第1の実施形態に係る信号処理装置1と同様、図2で示される。第4の実施形態に係る信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。時間周波数分析部10、特徴ベクトル計算部20、事前確率分布計算部40、および音源位置計算部50については、第1の実施形態と同様であるから、以下では相違点であるパラメータ記憶部30について詳しく説明する。第1の実施形態と本実施形態との主な相違点は次の通りである。第1の実施形態におけるパラメータ記憶部30は、目的信号が球面波として伝播するという仮定に基づいて計算された、条件付き確率分布のモデルパラメータを記憶する。これに対し、本実施形態におけるパラメータ記憶部30は、残響下で取得された学習データを用いて学習された、条件付き確率分布のモデルパラメータを記憶する。   An example of the configuration of the signal processing device according to the fourth embodiment is shown in FIG. 2 as in the signal processing device 1 according to the first embodiment. The signal processing device 1 according to the fourth embodiment includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50. The time frequency analysis unit 10, the feature vector calculation unit 20, the a priori probability distribution calculation unit 40, and the sound source position calculation unit 50 are the same as in the first embodiment, so explain in detail. The main differences between the first embodiment and the present embodiment are as follows. The parameter storage unit 30 in the first embodiment stores model parameters of the conditional probability distribution, which are calculated based on the assumption that the target signal propagates as a spherical wave. On the other hand, the parameter storage unit 30 in the present embodiment stores the model parameters of the conditional probability distribution learned using the learning data acquired under reverberation.

パラメータ記憶部30は、残響下で取得された学習データを用いて学習されたモデルパラメータであって、音源位置を表す状態が複数(L個)の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルz(t,f)の条件付き確率分布である複素ワトソン分布のモデルパラメータである平均方向ベクトルa(l,f)(l=1〜L、f=1〜F)と集中パラメータκ(l,f)(l=1〜L、f=1〜F)を記憶する。前記残響下で取得された学習データとしては、例えば、背景雑音が存在しない状況で複数の音源位置候補のそれぞれからのみ音が発せられた場合の観測信号x(l,m,τ)を用いることができる。   The parameter storage unit 30 is a model parameter learned using learning data acquired under reverberation, and is a condition that takes a state corresponding to each of a plurality (L) of sound source position candidates. And a directional vector a (l, f) (l = 1 to L, f = 1 to F) which is a model parameter of a complex Watson distribution that is a conditional probability distribution of the feature vector z (t, f) under The concentration parameters κ (l, f) (l = 1 to L, f = 1 to F) are stored. As the learning data acquired under the reverberation, for example, an observation signal x (l, m, τ) in the case where a sound is emitted only from each of a plurality of sound source position candidates in the absence of background noise is used. Can.

上記事前学習は、例えば次の手順で行うことができる。
1.1つの音源位置候補のみから音が発せられた場合の観測信号x(l,m,τ)を生成する。例えば、L個の音源位置候補のそれぞれに対し、当該音源位置候補のみから音が発せられている状況で収録を行うことにより、x(l,m,τ)を生成できる。もしくは、L個の音源位置候補のそれぞれに対し、当該音源位置候補から各マイクロホン位置までのインパルス応答を計測し、このインパルス応答を目的信号に畳み込むことにより、x(l,m,τ)を生成できる。
2.x(l,m,τ)の時間周波数変換x(l,m,t,f)(m=1〜M)からなるM次元ベクトルx(l,t,f)を計算する。
3.特徴ベクトルζ(l,t,f)を下記の式(25)により計算する。
The above-mentioned prior learning can be performed, for example, in the following procedure.
1. Generate an observation signal x (l, m, τ) when a sound is emitted from only one sound source position candidate. For example, x (l, m, τ) can be generated by performing recording in a situation where sound is emitted only from the sound source position candidate for each of the L sound source position candidates. Alternatively, for each of the L sound source position candidates, an impulse response from the sound source position candidate to each microphone position is measured, and x (l, m, τ) is generated by convoluting this impulse response into the target signal. it can.
2. An M-dimensional vector x (l, t, f) consisting of time-frequency transforms x (l, m, t, f) (m = 1 to M) of x (l, m, τ) is calculated.
3. The feature vector ζ (l, t, f) is calculated by the following equation (25).

Figure 0006538624
Figure 0006538624

4.特徴共分散行列R(l,f)を下記の式(26)により計算する。   4. The feature covariance matrix R (l, f) is calculated by the following equation (26).

Figure 0006538624
Figure 0006538624

5.特徴共分散行列R(l,f)の固有値分解を行い、最大固有値μ(l,f)および最大固有値に対応するノルム1の固有ベクトルe(l,f)を求める。
6.平均方向ベクトルa(l,f)をa(l,f)←e(l,f)とする。
7.集中パラメータκ(l,f)を下記の式(27)により計算する。
5. Eigenvalue decomposition of the feature covariance matrix R (l, f) is performed to obtain the largest eigenvalue μ (l, f) and the eigenvector e (l, f) of the norm 1 corresponding to the largest eigenvalue.
6. An average direction vector a (l, f) is set as a (l, f) ee (l, f).
7. The concentration parameter κ (l, f) is calculated by the following equation (27).

Figure 0006538624
Figure 0006538624

上記の処理の導出について説明する。上記の処理は、特徴ベクトルζ(l,t,f)が式(28)に従って生成されるという仮定の下、式(28)に関する対数尤度である式(29)を平均方向ベクトルa(l,f)および集中パラメータκ(l,f)に関して最大化することにより導かれる。   The derivation of the above process will be described. The above process averages the direction vector a (l) of equation (29), which is the log likelihood for equation (28), under the assumption that the feature vector ζ (l, t, f) is generated according to equation (28) , F) and maximization with respect to the lumped parameter ((l, f).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

式(29)において、平均方向ベクトルa(l,f)(l=1〜L、f=1〜F)および集中パラメータκ(l,f)(l=1〜L、f=1〜F)のいずれにも依存しない定数項を無視すると、式(30)のように書き直せる。   In equation (29), average direction vector a (l, f) (l = 1 to L, f = 1 to F) and concentration parameter ((l, f) (l = 1 to L, f = 1 to F) Ignoring a constant term that does not depend on any of, can be rewritten as equation (30).

Figure 0006538624
Figure 0006538624

ここで、行列R(l,f)は式(26)により定義される。式(27)におけるベクトルa(l,f)に依存する項は式(31)である。   Here, the matrix R (l, f) is defined by equation (26). The term depending on the vector a (l, f) in the equation (27) is the equation (31).

Figure 0006538624
Figure 0006538624

Courant-Fisherの定理より、式(31)を式(4)の制約条件下で最大化するベクトルa(l,f)は、特徴共分散行列R(l,f)の最大固有値μ(l,f)に対応するノルム1の固有ベクトルe(l,f)である。また、式(30)における集中パラメータκ(l,f)に依存する項は、式(32)である。   According to the Courant-Fisher theorem, the vector a (l, f) which maximizes the equation (31) under the constraint of the equation (4) is the maximum eigenvalue μ (l, l) of the feature covariance matrix R (l, f) It is an eigenvector e (l, f) of norm 1 corresponding to f). The term depending on the concentration parameter κ (l, f) in equation (30) is equation (32).

Figure 0006538624
Figure 0006538624

ここで、集中パラメータκ(l,f)に関する偏微分を0と置くと、式(33)を得る。   Here, when the partial derivative of the concentration parameter 0 (l, f) is set to 0, equation (33) is obtained.

Figure 0006538624
Figure 0006538624

参考文献1「S.Sra and D.Karp,"The multivariate Watson distribution: Maximum-likelihood estimation and other aspects," Journal of Multivariate Analysis,2013年2月,vol.114,p.256-269.」中の式(3.8)に基づいて、式(33)を集中パラメータκ(l,f)について近似的に解くと式(27)を得る。本実施形態では、学習データから集中パラメータを学習するため、第1の実施形態と同様、前述の、観測信号ベクトルy(t,f)の方向が、低い周波数ほど小さい分散(大きい集中度)を持つという性質を適切に考慮することができ、事前確率分布の推定、及びそれに基づく音源定位を正確に行うことができる。   Reference 1 in S. Sra and D. Karp, "The multivariate Watson distribution: Maximum-likelihood estimation and other aspects," Journal of Multivariate Analysis, February 2013, vol. 114, p. 256-269. Based on Equation (3.8), Equation (33) is approximately solved for the concentration parameter κ (l, f) to obtain Equation (27). In the present embodiment, in order to learn concentration parameters from learning data, as in the first embodiment, the direction of the observation signal vector y (t, f) described above decreases dispersion (larger degree of concentration) as the frequency decreases. It is possible to properly take into consideration the nature of having, and to estimate the prior probability distribution and the sound source localization based on it accurately.

[第5の実施形態]
次に、第5の実施形態の構成について説明する。第5の実施形態は、本発明に基づいて音源位置を推定する例であり、第3の実施形態を基にして、背景雑音に対する条件付き確率分布として一様分布を用いるのではなく、実測データを用いて事前学習した条件付き確率分布を用いるようにするという変更を加えたものである。
Fifth Embodiment
Next, the configuration of the fifth embodiment will be described. The fifth embodiment is an example of estimating the sound source position based on the present invention, and based on the third embodiment, the measurement data is not used as the conditional probability distribution for background noise, but the uniform distribution is used. Is modified to use the conditional probability distribution previously learned using.

第3の実施形態における上記の一様分布の仮定は、雑音があらゆる方向から一様に到来する理想的な環境を想定している。したがって、第3の実施形態では、雑音の到来方向に偏りがある環境では、想定している環境と音源定位を行う環境との間にミスマッチが存在し、音源定位の性能が低下する恐れがある。これに対し本実施形態では、音源定位を行う環境における実測データを用いて、条件付き確率分布のモデルパラメータを事前学習することで、上記のミスマッチを解消し、雑音の到来方向に偏りがある場合でも音源位置を正確に推定することを可能にする、という利点がある。   The above uniform distribution assumption in the third embodiment assumes an ideal environment in which noise arrives uniformly from all directions. Therefore, in the third embodiment, in an environment where there is a bias in the noise arrival direction, a mismatch exists between the assumed environment and the environment for performing sound source localization, and there is a risk that the performance of sound source localization may be degraded. . On the other hand, in the present embodiment, the above mismatch is eliminated by pre-learning model parameters of conditional probability distribution using measured data in an environment where sound source localization is performed, and there is a bias in the noise arrival direction. However, there is an advantage that it is possible to accurately estimate the sound source position.

第5の実施形態に係る信号処理装置の構成の一例は、第3の実施形態に係る信号処理装置1と同様、図2で示される。第5の実施形態に係る信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。時間周波数分析部10、特徴ベクトル計算部20、事前確率分布計算部40、および音源位置計算部50については、第3の実施形態と同様であるから、以下では相違点であるパラメータ記憶部30について詳しく説明する。第3の実施形態と本実施形態との主な相違点は次の通りである。第3の実施形態におけるパラメータ記憶部30では、音源位置を表す状態が背景雑音に対応する状態を取る条件下での条件付き確率分布のモデルパラメータとして、一様分布に対応するモデルパラメータを記憶する。これに対し、本実施形態におけるパラメータ記憶部30では、音源位置を表す状態が背景雑音に対応する状態を取る条件下での条件付き確率分布のモデルパラメータとして、学習データを用いて学習したモデルパラメータを記憶する。   An example of the configuration of the signal processing device according to the fifth embodiment is shown in FIG. 2 as in the signal processing device 1 according to the third embodiment. The signal processing device 1 according to the fifth embodiment includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50. The time frequency analysis unit 10, the feature vector calculation unit 20, the a priori probability distribution calculation unit 40, and the sound source position calculation unit 50 are the same as in the third embodiment, so explain in detail. The main differences between the third embodiment and the present embodiment are as follows. The parameter storage unit 30 according to the third embodiment stores model parameters corresponding to uniform distribution as model parameters of conditional probability distribution under the condition that the state representing the sound source position corresponds to the background noise. . On the other hand, in the parameter storage unit 30 in the present embodiment, a model parameter learned using learning data as a model parameter of conditional probability distribution under the condition that the state representing the sound source position corresponds to the background noise. Remember.

本実施形態では、各時間周波数点における観測信号ベクトルy(t,f)の音源位置を表す状態がg(t,f)=l(l=0〜L)である条件下での特徴ベクトルz(t,f)の条件付き確率分布を、式(3)の複素ワトソン分布によりモデル化する(他にも複素ビンガム分布、複素角度中心ガウス分布、複素ガウス分布、混合複素ワトソン分布、混合複素ビンガム分布、混合複素角度中心ガウス分布、混合複素ガウス分布等の確率分布によりモデル化することができる)。   In the present embodiment, the feature vector z under the condition that the state representing the sound source position of the observed signal vector y (t, f) at each time frequency point is g (t, f) = 1 (1 = 0 to L). The conditional probability distribution of (t, f) is modeled by the complex Watson distribution of Equation (3) (Others: complex Bingham distribution, complex angular center Gaussian distribution, complex Gaussian distribution, mixed complex Watson distribution, mixed complex Bingham It can be modeled by a probability distribution such as distribution, mixed complex angular center Gaussian distribution, mixed complex Gaussian distribution, etc.).

パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態(状態1〜L)を取る条件下での条件付き確率分布のモデルパラメータ、および音源位置を表す状態が背景雑音に対応する状態(状態0)を取る条件下での条件付き確率分布のモデルパラメータを記憶する。音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での条件付き確率分布のモデルパラメータは、例えば第1または第4の実施形態に記載の方法により計算することができる。   The parameter storage unit 30 has a model parameter of conditional probability distribution under a condition in which the state representing the sound source position corresponds to each of a plurality of sound source position candidates and the state representing the sound source position. The model parameters of the conditional probability distribution under the condition of taking a state (state 0) corresponding to background noise are stored. The model parameters of the conditional probability distribution under the condition that the state representing the sound source position corresponds to each of the plurality of sound source position candidates may be calculated by, for example, the method described in the first or fourth embodiment. it can.

一方、音源位置を表す状態が背景雑音に対応する状態を取る条件下での条件付き確率分布のモデルパラメータは、例えば次のように事前学習される。
1.実測した背景雑音x(0,m,τ)の時間周波数変換x(0,m,t,f)(m=1〜M)からなるM次元縦ベクトルx(0,t,f)を作成する。
2.特徴ベクトルζ(0,t,f)を次の式(34)により計算する。
On the other hand, model parameters of the conditional probability distribution under the condition that the state representing the sound source position corresponds to the background noise are pre-learned as follows, for example.
1. Create an M-dimensional longitudinal vector x (0, t, f) consisting of time-frequency transformation x (0, m, t, f) (m = 1 to M) of measured background noise x (0, m, τ) .
2. The feature vector ζ (0, t, f) is calculated by the following equation (34).

Figure 0006538624
Figure 0006538624

3.特徴共分散行列R(0,f)を次の式(35)により計算する。   3. The feature covariance matrix R (0, f) is calculated by the following equation (35).

Figure 0006538624
Figure 0006538624

4.特徴共分散行列R(0,f)の固有値分解を行い、最大固有値μ(0,f)および最大固有値に対応するノルム1の固有ベクトルe(0,f)を求める。
5.平均方向ベクトルa(0,f)をa(0,f)←e(0,f)とする。
6.集中パラメータκ(0,f)を次の式(36)により計算する。
4. Eigenvalue decomposition of the feature covariance matrix R (0, f) is performed to obtain the largest eigenvalue μ (0, f) and the eigenvector e (0, f) of the norm 1 corresponding to the largest eigenvalue.
5. The average direction vector a (0, f) is set as a (0, f) (e (0, f).
6. The concentration parameter κ (0, f) is calculated by the following equation (36).

Figure 0006538624
Figure 0006538624

なお、上記の処理の導出は、第4の実施形態の場合と同様であるから省略する。   The derivation of the above process is the same as that of the fourth embodiment and thus will not be described.

[第6の実施形態]
次に、第6の実施形態の構成について説明する。第6の実施形態は、本発明に基づいて音源位置を推定する例であり、第4の実施形態を基にして、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での特徴ベクトルz(t,f)の条件付き確率分布として複素ワトソン分布ではなく複素角度中心ガウス分布を用いるようにするという変更を加えたものである。複素ワトソン分布では、観測信号ベクトルの方向である式(1)の特徴ベクトルの条件付き確率分布が回転対称である場合しか表せないのに対し、複素角度中心ガウス分布ではこの条件付き確率分布が回転対称な場合だけでなく楕円状の分布である場合も表すことができる。式(1)の特徴ベクトルの分布は必ずしも回転対称とは限らないため、本実施形態により、式(1)の特徴ベクトルの分布を第4の実施形態よりも正確にモデル化することができ、その結果、音源位置をより正確に推定できる。
Sixth Embodiment
Next, the configuration of the sixth embodiment will be described. The sixth embodiment is an example of estimating a sound source position based on the present invention, and based on the fourth embodiment, a state representing a sound source position takes a state corresponding to each of a plurality of sound source position candidates. This is a modification in which not a complex Watson distribution but a complex angularly centered Gaussian distribution is used as the conditional probability distribution of the feature vector z (t, f) under the conditions. The complex Watson distribution can only represent the case where the conditional probability distribution of the feature vector of Equation (1), which is the direction of the observation signal vector, is rotationally symmetric, while the complex angular center Gaussian distribution rotates this conditional probability distribution. Not only symmetric cases but also elliptical cases can be represented. Since the distribution of feature vectors in equation (1) is not necessarily rotationally symmetric, this embodiment makes it possible to model the distribution of feature vectors in equation (1) more accurately than the fourth embodiment. As a result, the sound source position can be estimated more accurately.

第6の実施形態に係る信号処理装置の構成の一例は、第4の実施形態に係る信号処理装置1と同様、図2で示される。第6の実施形態に係る信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。時間周波数分析部10、特徴ベクトル計算部20、および音源位置計算部50については、第4の実施形態と同様であるから、以下では相違点であるパラメータ記憶部30および事前確率分布計算部40について詳しく説明する。第4の実施形態と本実施形態との主な相違点は次の通りである。第4の実施形態では、パラメータ記憶部30において、条件付き確率分布をモデル化する複素ワトソン分布のモデルパラメータを記憶し、事前確率分布計算部40において、前記複素ワトソン分布のモデルパラメータに基づいて事前確率分布を計算する。これに対し、本実施形態では、パラメータ記憶部30において、条件付き確率分布をモデル化する複素角度中心ガウス分布のモデルパラメータを記憶し、事前確率分布計算部40において、前記複素角度中心ガウス分布のモデルパラメータに基づいて事前確率分布を計算する。   An example of the configuration of the signal processing device according to the sixth embodiment is shown in FIG. 2 as in the signal processing device 1 according to the fourth embodiment. The signal processing device 1 according to the sixth embodiment includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50. The time-frequency analysis unit 10, the feature vector calculation unit 20, and the sound source position calculation unit 50 are the same as those in the fourth embodiment, and therefore, about the parameter storage unit 30 and the prior probability distribution calculation unit 40 which are differences below. explain in detail. The main differences between the fourth embodiment and the present embodiment are as follows. In the fourth embodiment, the parameter storage unit 30 stores model parameters of a complex Watson distribution for modeling a conditional probability distribution, and the prior probability distribution calculating unit 40 performs advance in advance based on the model parameters of the complex Watson distribution. Calculate the probability distribution. On the other hand, in the present embodiment, the parameter storage unit 30 stores model parameters of complex angular center Gaussian distribution for modeling conditional probability distribution, and the prior probability distribution calculation unit 40 stores the complex angular center Gaussian distribution. Calculate the prior probability distribution based on the model parameters.

本実施形態では、L個の音源位置候補に対するL個の条件付き確率分布を、複素角度中心ガウス分布によりモデル化する。すなわち、条件付き確率分布p(z(t,f)|g(t,f)=l)を式(37)によりモデル化する。   In the present embodiment, L conditional probability distributions for L source position candidates are modeled by a complex angular center Gaussian distribution. That is, the conditional probability distribution p (z (t, f) | g (t, f) = 1) is modeled by equation (37).

Figure 0006538624
Figure 0006538624

ここで、行列Σ(l,f)はl番目の音源位置候補に対する特徴ベクトルz(t,f)の分布の位置・広がり・方向・形状を定めるモデルパラメータである正定値エルミート行列であり、パラメータ行列と呼ばれ、A(z;Σ)は、パラメータ行列が行列Σであるベクトルzの複素角度中心ガウス分布であり、式(38)で表される。   Here, the matrix Σ (l, f) is a positive definite Hermite matrix which is a model parameter for determining the position, the spread, the direction, and the shape of the distribution of the feature vector z (t, f) for the l-th sound source position candidate. Called a matrix, A (z;)) is a complex angular center Gaussian distribution of vector z whose parameter matrix is matrix 、, and is expressed by equation (38).

Figure 0006538624
Figure 0006538624

パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルz(t,f)の条件付き確率分布である複素角度中心ガウス分布のモデルパラメータであるパラメータ行列Σ(l,f)(l=1〜L、f=1〜F)を記憶する。パラメータ行列Σ(l,f)は、L個の音源位置候補のそれぞれに対し、当該音源位置候補のみから音が発せられた場合の観測信号x(l,m,τ)を用いて事前学習される。本実施形態では、特徴量z(t,f)の条件付き確率分布の位置・広がり・方向・形状を定めるパラメータ行列Σ(l,f)を学習データから学習するため、第1の実施形態と同様、前述の、観測信号ベクトルy(t,f)の方向が、低い周波数ほど小さい分散(前記広がりに相当)を持つという性質を適切に考慮することができ、事前確率分布の推定、及びそれに基づく音源定位を正確に行うことができる。   The parameter storage unit 30 is a complex angular center Gaussian distribution that is a conditional probability distribution of the feature vector z (t, f) under the condition that the state representing the sound source position corresponds to each of a plurality of sound source position candidates. The parameter matrix Σ (l, f) (l = 1 to L, f = 1 to F) which is a model parameter of The parameter matrix Σ (l, f) is pre-learned using the observation signal x (l, m, τ) when sound is emitted from only the sound source position candidate for each of the L sound source position candidates. Ru. In this embodiment, since the parameter matrix ((l, f) for determining the position, the spread, the direction, and the shape of the conditional probability distribution of the feature quantity z (t, f) is learned from the learning data, the first embodiment Similarly, the above-mentioned property that the direction of the observation signal vector y (t, f) has a smaller dispersion (corresponding to the spread) as the frequency is lower can be appropriately taken into consideration, estimation of the prior probability distribution, and It is possible to accurately perform sound source localization based on

この事前学習は、例えば以下の手順で行うことができる。
1.特徴ベクトルζ(l,t,f)(l=1〜L、t=1〜T、f=1〜F)を第4の実施形態と同様に計算する。
2.パラメータ行列Σ(l,f)(l=1〜L、f=1〜F)をM×Mの単位行列により初期化する。
3.次の式(39)によるパラメータ行列Σ(l,f)(l=1〜L、f=1〜F)の更新を所定回数(例えば10回)反復する。
This prior learning can be performed, for example, by the following procedure.
1. A feature vector ζ (l, t, f) (l = 1 to L, t = 1 to T, f = 1 to F) is calculated in the same manner as the fourth embodiment.
2. The parameter matrix Σ (l, f) (l = 1 to L, f = 1 to F) is initialized with an M × M identity matrix.
3. The update of the parameter matrix Σ (l, f) (l = 1 to L, f = 1 to F) according to the following equation (39) is repeated a predetermined number of times (for example, ten times).

Figure 0006538624
Figure 0006538624

4.パラメータ行列Σ(l,f)(l=1〜L、f=1〜F)をパラメータ記憶部30に記憶する。   4. The parameter matrix Σ (l, f) (l = 1 to L, f = 1 to F) is stored in the parameter storage unit 30.

式(39)の導出について説明する。式(39)は、特徴ベクトルζ(l,t,f)が式(37)の条件付き確率分布に従って生成されたという仮定の下、式(37)に関する対数尤度である式(40)をパラメータ行列Σ(l,f)に関して最大化することにより導かれる。   The derivation of equation (39) will be described. Equation (39) gives equation (40), which is the log likelihood for equation (37), under the assumption that the feature vector ζ (l, t, f) is generated according to the conditional probability distribution of equation (37) It is derived by maximizing the parameter matrix パ ラ メ ー タ (l, f).

Figure 0006538624
Figure 0006538624

式(40)におけるパラメータ行列Σ(l,f)によらない定数項を無視すると、式(40)は、式(41)のように書き換えられる。   Ignoring constant terms not based on the parameter matrix 無視 (l, f) in equation (40), equation (40) can be rewritten as equation (41).

Figure 0006538624
Figure 0006538624

式(41)のパラメータ行列Σ(l,f)に関する偏微分を0と置いて整理すると、式(39)を得る。   Equation (39) can be obtained by rearranging the partial derivatives of the parameter matrix Σ (l, f) of equation (41) with 0.

事前確率分布計算部40は、音源位置を表す状態の事前確率分布を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータであるパラメータ行列Σ(l,f)(l=1〜L、f=1〜F)に基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルz(t,f)の条件付き確率分布である複素角度中心ガウス分布の荷重和である混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルz(t,f)に当てはめ、事前確率分布を計算する。本実施形態では、前記事前確率分布として時不変の事前確率分布α(l)(l=1〜L)を考える。   The prior probability distribution calculation unit 40 uses, as a load, the prior probability distribution of the state representing the sound source position, a parameter matrix パ ラ メ ー タ (l, f) which is a model parameter stored in the parameter storage unit 30 (l = 1 to L, f A mixed model which is a weighted sum of complex angular center Gaussian distributions, which is a conditional probability distribution of feature vectors z (t, f) under conditions where the state representing the sound source position is known, based on The prior probability distribution is calculated by applying to the feature vector z (t, f) calculated by the feature vector calculation unit 20. In this embodiment, a time-invariant prior probability distribution α (l) (l = 1 to L) is considered as the prior probability distribution.

事前確率分布計算部40における事前確率分布の計算は、例えば次のように行えばよい。すなわち、ベクトルw(t,f)を条件付き確率である複素角度中心ガウス分布A(z(t,f);Σ(l,f))(l=1〜L)からなるL次元縦ベクトルとし、ベクトルw(t,f)に対して第1の実施形態の事前確率分布計算部40における処理を適用する。ただし、第1の実施形態とはベクトルw(t,f)の定義が異なることに注意する。なお、上記の処理の導出は、第1の実施形態の場合と同様であるから省略する。   The calculation of the prior probability distribution in the prior probability distribution calculation unit 40 may be performed, for example, as follows. That is, let the vector w (t, f) be an L-dimensional longitudinal vector consisting of a complex angular center Gaussian distribution A (z (t, f); ((l, f)) (l = 1 to L) which is a conditional probability. The processing in the prior probability distribution calculation unit 40 of the first embodiment is applied to the vectors w (t, f). However, it should be noted that the definition of the vector w (t, f) is different from that of the first embodiment. Note that the derivation of the above process is the same as that of the first embodiment and thus will not be described.

[第7の実施形態]
次に、第7の実施形態の構成について説明する。第7の実施形態は、本発明に基づいて音源位置を推定する例であり、第4の実施形態を基にして、観測信号ベクトルy(t,f)の方向の情報を含んだベクトルである特徴ベクトルz(t,f)として式(1)の方向ベクトルではなく観測信号ベクトルy(t,f)そのものを用いるようにし、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での特徴ベクトルz(t,f)の条件付き確率分布として複素ワトソン分布ではなく複素時変ガウス分布を用いるようにし、複素時変ガウス分布のモデルパラメータである空間共分散行列を事前学習して記憶するようにするという変更を加えたものである。
Seventh Embodiment
Next, the configuration of the seventh embodiment will be described. The seventh embodiment is an example of estimating the sound source position based on the present invention, and is a vector including information on the direction of the observed signal vector y (t, f) based on the fourth embodiment. The observation signal vector y (t, f) itself is used as the feature vector z (t, f) instead of the direction vector of equation (1), and the state representing the sound source position corresponds to each of a plurality of sound source position candidates As a conditional probability distribution of the feature vector z (t, f) under the condition of taking, not using complex Watson's distribution but using complex time-varying Gaussian distribution, the space covariance matrix which is a model parameter of complex time-varying Gaussian distribution A change has been made to pre-learn and store.

複素ワトソン分布では観測信号ベクトルの方向の分布が回転対称である場合しか表せないのに対し、複素時変ガウス分布では観測信号ベクトルの方向の分布が回転対称である場合だけでなく楕円状の分布である場合も表せる。観測信号ベクトルの方向の分布は必ずしも回転対称とは限らないため、本実施形態により、音源位置を特徴づける観測信号ベクトルの方向の分布を第4の実施形態よりも正確にモデル化することができ、このモデル化に基づき音源位置をより正確に推定できる。   The complex Watson's distribution can be expressed only when the distribution in the direction of the observed signal vector is rotationally symmetric, while in the complex time-varying Gaussian distribution, the distribution in the direction of the observed signal vector is elliptical as well as the rotationally symmetric distribution. Can also be represented. Since the distribution of the direction of the observed signal vector is not necessarily rotationally symmetric, this embodiment makes it possible to model the distribution of the direction of the observed signal vector characterizing the sound source position more accurately than the fourth embodiment. The source position can be more accurately estimated based on this modeling.

第7の実施形態に係る信号処理装置の構成の一例は、第4の実施形態に係る信号処理装置1と同様、図2で示される。第7の実施形態に係る信号処理装置1は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50を有する。時間周波数分析部10と音源位置計算部50については第4の実施形態と同様であるから、以下では相違点である特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40について詳しく説明する。第4の実施形態と本実施形態との主な相違点は次の通りである。第4の実施形態では、特徴ベクトル計算部20において式(1)の特徴ベクトルを計算し、パラメータ記憶部30において、前記特徴ベクトルの条件付き確率分布をモデル化する複素ワトソン分布のモデルパラメータを記憶し、事前確率分布計算部40において、音源位置を表す状態の事前確率分布を荷重とする、条件付き確率分布をモデル化する複素ワトソン分布の荷重和である混合モデルを前記特徴ベクトルに当てはめることにより、前記事前確率分布を計算する。これに対し、本実施形態では、特徴ベクトル計算部20は、時間周波数分析部10からの観測信号ベクトルを特徴ベクトルとして出力し、パラメータ記憶部30において、特徴ベクトルである観測信号ベクトルの条件付き確率分布をモデル化する複素時変ガウス分布のモデルパラメータである空間共分散行列を記憶し、事前確率分布計算部40において、音源位置を表す状態の事前確率分布を荷重とする、条件付き確率分布をモデル化する複素時変ガウス分布の荷重和である混合モデルを特徴ベクトルである観測信号ベクトルに当てはめることにより、前記事前確率分布を計算する。   An example of the configuration of the signal processing device according to the seventh embodiment is shown in FIG. 2 as in the signal processing device 1 according to the fourth embodiment. The signal processing device 1 according to the seventh embodiment includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, and a sound source position calculation unit 50. The time-frequency analysis unit 10 and the sound source position calculation unit 50 are the same as in the fourth embodiment, so the feature vector calculation unit 20, the parameter storage unit 30, and the prior probability distribution calculation unit 40 which are differences will be described in detail below. Do. The main differences between the fourth embodiment and the present embodiment are as follows. In the fourth embodiment, the feature vector calculation unit 20 calculates the feature vector of equation (1), and the parameter storage unit 30 stores model parameters of complex Watson distribution for modeling the conditional probability distribution of the feature vector. The prior probability distribution calculating unit 40 applies a mixed model, which is a weighted sum of complex Watson distributions for modeling conditional probability distributions, to the feature vector, with the prior probability distribution of the state representing the sound source position as a load. , Calculate the prior probability distribution. On the other hand, in the present embodiment, the feature vector calculation unit 20 outputs the observation signal vector from the time frequency analysis unit 10 as a feature vector, and the parameter storage unit 30 outputs the conditional probability of the observation signal vector which is the feature vector. A conditional probability distribution that stores a spatial covariance matrix, which is a model parameter of a complex time-varying Gaussian distribution that models a distribution, and uses the prior probability distribution of a state representing a sound source position as a load in the prior probability distribution calculating unit 40 The prior probability distribution is calculated by applying a mixed model, which is a weighted sum of complex time-variant Gaussian distributions to be modeled, to an observation signal vector which is a feature vector.

特徴ベクトル計算部20は、時間周波数分析部10から観測信号ベクトルy(t,f)を受け取って、観測信号ベクトルy(t,f)を特徴ベクトルz(t,f)として出力する。   The feature vector calculation unit 20 receives the observation signal vector y (t, f) from the time frequency analysis unit 10, and outputs the observation signal vector y (t, f) as a feature vector z (t, f).

本実施形態では、L個の音源位置候補に対するL個の条件付き確率分布として、複素時変ガウス分布を用いる。すなわち、条件付き確率分布p(z(t,f)|g(t,f)=l)を式(42)によりモデル化する。   In this embodiment, a complex time-varying Gaussian distribution is used as L conditional probability distributions for L source position candidates. That is, the conditional probability distribution p (z (t, f) | g (t, f) = 1) is modeled by equation (42).

Figure 0006538624
Figure 0006538624

式(42)におけるφ(l,t,f)は、特徴ベクトルz(t,f)の「大きさ(ノルム)」の分布を制御する正のパラメータである。一方、式(42)における行列B(l,f)は、特徴ベクトルz(t,f)の「方向」の分布を制御する(具体的には、特徴ベクトルz(t,f)の方向の分布の位置・広がり・方向・形状を制御する)パラメータである。行列B(l,f)は正定値エルミート行列であり、空間共分散行列と呼ばれる。N(z;0,Φ)は平均がベクトル0、共分散行列が行列Φであるベクトルzの複素ガウス分布であり、式(43)で表される。   In the equation (42), φ (l, t, f) is a positive parameter that controls the distribution of the “size (norm)” of the feature vector z (t, f). On the other hand, the matrix B (l, f) in equation (42) controls the distribution of the “direction” of the feature vector z (t, f) (specifically, the direction of the feature vector z (t, f) Control the position, spread, direction and shape of the distribution). The matrix B (l, f) is a positive definite Hermitian matrix and is called a space covariance matrix. N (z; 0,)) is a complex Gaussian distribution of the vector z whose mean is the vector 0 and the covariance matrix is the matrix 、, and is expressed by equation (43).

Figure 0006538624
Figure 0006538624

式(42)は時変の共分散行列φ(l,t,f)B(l,f)を持つことから、ここでは複素時変ガウス分布と呼ぶ。   (42) has a time-varying covariance matrix φ (l, t, f) B (l, f), so it is called a complex time-varying Gaussian distribution here.

パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルz(t,f)である観測信号ベクトルy(t,f)の条件付き確率分布のモデルパラメータである空間共分散行列B(l,f)(l=1〜L、f=1〜F)を記憶する。本実施形態では、パラメータ記憶部30は、前記条件付き確率分布のモデルパラメータである空間共分散行列B(l,f)とφ(l,t,f)のうち、音源位置に関係する空間共分散行列B(l,f)のみを記憶する。一方、φ(l,t,f)は信号のパワーに依存するから、パラメータ記憶部30には記憶せず、後で述べるように事前確率分布計算部40において特徴ベクトル計算部20からの特徴ベクトルを用いて推定する。本実施形態では、観測信号ベクトルy(t,f)の方向の分布の位置・広がり・方向・形状を定めるパラメータ行列B(l,f)を学習データから学習するため、第1の実施形態と同様、前述の観測信号ベクトルy(t,f)の方向が、低い周波数ほど小さい分散(前記広がりに相当)を持つという性質を適切に考慮することができ、事前確率分布の推定、及びそれに基づく音源定位を正確に行うことができる。   The parameter storage unit 30 generates an observation signal vector y (t, f) which is a feature vector z (t, f) under the condition that the state representing the sound source position corresponds to each of a plurality of sound source position candidates. The space covariance matrix B (l, f) (l = 1 to L, f = 1 to F) which is a model parameter of conditional probability distribution is stored. In the present embodiment, the parameter storage unit 30 determines the spatial covariance associated with the sound source position among the spatial covariance matrices B (l, f) and φ (l, t, f) which are model parameters of the conditional probability distribution. Only the variance matrix B (l, f) is stored. On the other hand, since φ (l, t, f) depends on the power of the signal, it is not stored in the parameter storage unit 30, but the feature vector from the feature vector calculation unit 20 in the prior probability distribution calculation unit 40 as described later. Estimate using In this embodiment, since the parameter matrix B (l, f) for determining the position, the spread, the direction, and the shape of the distribution in the direction of the observation signal vector y (t, f) is learned from the learning data, Similarly, the property that the direction of the above-mentioned observation signal vector y (t, f) has a smaller dispersion (corresponding to the spread) as the lower frequency can be appropriately taken into consideration, estimation of the prior probability distribution, and based thereon Sound source localization can be performed accurately.

空間共分散行列B(l,f)は、L個の音源位置候補のうちの1つの音源位置候補のみから音が発せられた場合の観測信号x(l,m,τ)を用いて、例えば以下の手順により事前学習される。
1.x(l,m,τ)の時間周波数変換x(l,m,t,f)(m=1〜M)からなるM次元縦ベクトルx(l,t,f)(l=1〜L、t=1〜T、f=1〜F)を作成する。特徴ベクトルζ(l,t,f)をζ(l,t,f)←x(l,t,f)とする。ここで、特徴ベクトルζ(l,t,f)の計算方法が、第4の実施形態とは異なることに注意する。
2.空間共分散行列B(l,f)(l=1〜L、f=1〜F)をM×Mの単位行列により初期化する。
3.次の式(44)による空間共分散行列B(l,f)(l=1〜L、f=1〜F)の更新を所定回数(例えば10回)反復する。
The spatial covariance matrix B (l, f) is generated, for example, using the observation signal x (l, m, τ) when a sound is emitted from only one of the L source position candidates. It is learned in advance by the following procedure.
1. M-dimensional longitudinal vector x (l, t, f) (l = 1 to L) consisting of time-frequency transformation x (l, m, t, f) (m = 1 to M) of x (l, m, τ) Create t = 1 to T, f = 1 to F). The feature vector ζ (l, t, f) is, (l, t, f) ← x (l, t, f). Here, it should be noted that the method of calculating the feature vector ζ (l, t, f) is different from that of the fourth embodiment.
2. A space covariance matrix B (l, f) (l = 1 to L, f = 1 to F) is initialized with an M × M identity matrix.
3. The update of the spatial covariance matrix B (l, f) (l = 1 to L, f = 1 to F) according to the following equation (44) is repeated a predetermined number of times (for example, ten times).

Figure 0006538624
Figure 0006538624

4.空間共分散行列B(l,f)(l=1〜L、f=1〜F)をパラメータ記憶部30に記憶する。   4. The space covariance matrix B (l, f) (l = 1 to L, f = 1 to F) is stored in the parameter storage unit 30.

式(44)の導出について説明する。式(44)は、ベクトルζ(l,t,f)が式(42)の条件付き確率分布に従って生成されたという仮定の下、式(42)に関する対数尤度である式(45)を空間相関行列B(l,f)およびφ(l,t,f)に関して最大化することにより導かれる。   The derivation of equation (44) will be described. Eq. (44) is a space of Eq. (45) which is the log likelihood for Eq. (42) under the assumption that the vector ζ (l, t, f) is generated according to the conditional probability distribution of Eq. It is derived by maximizing on the correlation matrices B (l, f) and φ (l, t, f).

Figure 0006538624
Figure 0006538624

式(45)における空間相関行列B(l,f)およびφ(l,t,f)によらない定数項を無視すると、式(45)は、式(46)に書き換えられる。   Ignoring the constant terms not based on the spatial correlation matrices B (l, f) and φ (l, t, f) in equation (45), equation (45) can be rewritten as equation (46).

Figure 0006538624
Figure 0006538624

式(46)のφ(l,t,f)に関する偏微分を0と置いて整理すると、式(47)を得る。   Equation (47) is obtained by putting 0 as the partial differential of φ (l, t, f) in equation (46).

Figure 0006538624
Figure 0006538624

また、式(46)のB(l,f)に関する偏微分を0と置くと、式(48)を得、式(48)に式(47)を代入すると式(44)を得る。   Further, when the partial differential of B (l, f) in equation (46) is set to 0, equation (48) is obtained, and equation (47) is substituted in equation (48) to obtain equation (44).

Figure 0006538624
Figure 0006538624

次に、本実施形態における特徴ベクトルz(t,f)の周辺確率分布のモデル化について説明する。本実施形態では、特徴ベクトルz(t,f)の周辺確率分布を、音源位置を表す状態g(t,f)の事前確率分布P(g(t,f)=l)を荷重とする、条件付き確率分布p(z(t,f)|g(t,f)=l)の荷重和である式(49)の混合モデルによりモデル化する。   Next, modeling of the marginal probability distribution of the feature vector z (t, f) in the present embodiment will be described. In this embodiment, the peripheral probability distribution of the feature vector z (t, f) is set to the prior probability distribution P (g (t, f) = 1) of the state g (t, f) representing the sound source position as a load. The conditional probability distribution p (z (t, f) | g (t, f) = 1) is modeled by a mixed model of equation (49) which is a weighted sum.

事前確率分布計算部40は、音源位置を表す状態の事前確率分布α(l)(l=1〜L)を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータである空間相関行列B(l,f)(l=1〜L、f=1〜F)に基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルz(t,f)の条件付き確率分布の荷重和である式(49)の混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルz(t,f)に当てはめ、事前確率分布α(l)(l=1〜L)を計算する。   The prior probability distribution calculation unit 40 is a spatial correlation matrix B, which is a model parameter stored in the parameter storage unit 30, with the prior probability distribution α (l) (l = 1 to L) of the state representing the sound source position as a load. The weighted sum of the conditional probability distributions of the feature vector z (t, f) under conditions where the state representing the sound source position is known based on l, f) (l = 1 to L, f = 1 to F) The mixed model of equation (49) is applied to the feature vector z (t, f) calculated by the feature vector calculation unit 20 to calculate the prior probability distribution α (l) (l = 1 to L).

Figure 0006538624
Figure 0006538624

式(49)の混合モデルを特徴ベクトルz(t,f)に当てはめる方法には様々な方法があり、例えば式(49)に関する尤度を目的関数とし(他にも事後確率等を目的関数とすることができる。)、これを勾配法に基づいて最大化する(他にもEMアルゴリズム等に基づいて最大化できる)。   There are various methods for applying the mixed model of equation (49) to the feature vector z (t, f). For example, the likelihood of equation (49) is taken as an objective function (in addition, the posterior probability etc. is taken as an objective function) Can be maximized based on the gradient method (others can also be maximized based on the EM algorithm etc.).

事前確率分布計算部40における事前確率分布α(l)(l=1〜L)の推定は、第1の実施形態と同様にして行うことができる。ただし、第1の実施形態とは異なり、ベクトルw(t,f)を、N(z(t,f),0,φ(l,t,f)B(l,f))(l=1〜L)からなるL次元縦ベクトルとする。ここで、φ(l,t,f)は次式により計算できる。   The estimation of the prior probability distribution α (l) (l = 1 to L) in the prior probability distribution calculation unit 40 can be performed in the same manner as in the first embodiment. However, unlike the first embodiment, the vector w (t, f) can be expressed as N (z (t, f), 0, 0 (l, t, f) B (l, f)) (l = 1 Let L be an L-dimensional vertical vector consisting of Here, φ (l, t, f) can be calculated by the following equation.

Figure 0006538624
Figure 0006538624

上記の処理の導出について説明する。目的関数である尤度は、特徴ベクトルz(t,f)(t=1〜T,f=1〜F)が観測される確率であり、式(51)で表される。   The derivation of the above process will be described. The likelihood that is the objective function is the probability that the feature vector z (t, f) (t = 1 to T, f = 1 to F) is observed, and is expressed by equation (51).

Figure 0006538624
Figure 0006538624

式(50)は式(51)のφ(l,t,f)に関する最大化により導かれる。式(51)のφ(l,t,f)に関する最大化は、ln[N(z(t,f),0,φ(l,t,f)B(l,f))]のφ(l,t,f)に関する最大化と等価である。そこで、ln[N(z(t,f),0,φ(l,t,f)B(l,f))]のφ(l,t,f)に関する偏微分を0とおくと、式(50)を得る。あとは、第1の実施形態と同様にして、事前確率分布α(l)(l=1〜L)の更新式である式(10)および式(11)を導出することができる。   Equation (50) is derived by maximization with respect to φ (l, t, f) of equation (51). The maximization of φ (l, t, f) in equation (51) is given by φ (ln (z (t, f), 0, φ (l, t, f) B (l, f))] It is equivalent to maximization with respect to l, t, f). Therefore, assuming that the partial derivative of ln [N (z (t, f), 0, φ (l, t, f) B (l, f))] with respect to φ (l, t, f) is 0, Get (50). After that, Equations (10) and (11), which are update equations of the prior probability distribution α (l) (l = 1 to L), can be derived as in the first embodiment.

[第8の実施形態]
次に、第8の実施形態の構成について説明する。第8の実施形態は、第2の実施形態に係る信号処理装置1により検出された音源位置の集合G(t)を用いて、音源位置のトラッキングを行い、音源ごとフレームごとの音源位置ρ(n,t)(n=1〜N、t=1〜T、Nは音源数)を計算する例である。本実施形態では音源位置が方位角のみで指定されるものとし、G(t)は方位角の集合であり、ρ(n,t)は方位角であるとする。そのような状況としては、例えばマイクロホンが載っているテーブルを囲んで何人かが会話をしている状況が挙げられる。
Eighth Embodiment
Next, the configuration of the eighth embodiment will be described. In the eighth embodiment, the sound source position is tracked using the set G (t) of sound source positions detected by the signal processing device 1 according to the second embodiment, and the sound source positions ρ (for each sound source) This is an example of calculating n, t) (n = 1 to N, t = 1 to T, N is the number of sound sources). In the present embodiment, it is assumed that the sound source position is designated only by the azimuth, G (t) is a set of azimuths, and ρ (n, t) is an azimuth. Such a situation may include, for example, a situation in which some people are having a conversation around a table on which a microphone is mounted.

図4を用いて、第8の実施形態に係る信号処理装置の構成について説明する。図4は、第8の実施形態に係る信号処理装置の構成の一例を示す図である。図4に示すように、信号処理装置2は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、トラッキング部51を有する。時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50については、第2の実施形態と同様であるから、以下では相違点であるトラッキング部51について詳しく説明する。   The configuration of the signal processing apparatus according to the eighth embodiment will be described with reference to FIG. FIG. 4 is a diagram showing an example of the configuration of a signal processing device according to the eighth embodiment. As shown in FIG. 4, the signal processing device 2 includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, a sound source position calculation unit 50, and a tracking unit 51. The time frequency analysis unit 10, the feature vector calculation unit 20, the parameter storage unit 30, the a priori probability distribution calculation unit 40, and the sound source position calculation unit 50 are the same as those in the second embodiment. The section 51 will be described in detail.

トラッキング部51は、音源位置計算部50からの検出された音源位置(方位角)の集合G(t)(t=1〜T)を受け取り、音源位置のトラッキングを行って、音源ごとフレームごとの音源位置(方位角)ρ(n,t)(n=1〜N,t=1〜T)を計算し出力する。このトラッキングは様々な方法により行うことができる。以下ではその一例として、各音源の大まかな音源位置(方位角)が既知であると仮定し、これを利用してトラッキングを行う例を示す。各音源の大まかな音源位置(方位角)が既知である状況の例としては、マイクロホンが置かれた机を囲んで、複数人が椅子に座って会議をしている状況が挙げられる。この場合、椅子が既知の位置にほぼ固定されており、かつ会話中の話者の座席移動がないとすると、椅子の位置(既知)を各音源(話者)の大まかな音源位置として用いることができる。   The tracking unit 51 receives the set G (t) (t = 1 to T) of the detected sound source positions (azimuth angles) from the sound source position calculation unit 50, performs tracking of the sound source position, and sets the sound source for each frame. The sound source position (azimuth angle) ((n, t) (n = 1 to N, t = 1 to T) is calculated and output. This tracking can be done in various ways. In the following, as an example, it is assumed that the rough sound source position (azimuth angle) of each sound source is known, and tracking is performed using this. An example of a situation in which the rough sound source position (azimuth angle) of each sound source is known is a situation in which a plurality of people are sitting in a chair and having a meeting, surrounding a desk on which a microphone is placed. In this case, if the chair is substantially fixed at a known position and there is no seat movement of the speaker during conversation, use the chair position (known) as the rough sound source position of each sound source (speaker) Can.

まず、上記の各音源の大まかな音源位置を、音源位置(方位角)ρ(n,t)の初期値ρ(n,0)とする。   First, a rough sound source position of each sound source is set as an initial value ρ (n, 0) of the sound source position (azimuth angle) ((n, t).

フレームt−1での音源位置(方位角)ρ(n,t−1)が得られていると仮定すると、フレームtでの音源位置(方位角)ρ(n,t)は、次の処理により求めることができる。
1.ρ(n,t)をρ(n,t)←ρ(n,t−1)により初期化する。
2.検出された音源位置(方位角)r∈G(t)(0≦r<2π)のそれぞれに対し、次の2−1および2−2の処理を行う。
2−1.次の式(52)により、検出された音源位置(方位角)rに最も近い音源の番号νを計算する。
Assuming that the sound source position (azimuth angle) ((n, t-1) at frame t-1 is obtained, the sound source position (azimuth angle) ((n, t) at frame t is processed as follows It can be determined by
1. Initialize ρ (n, t) by ρ (n, t) ← ρ (n, t−1).
2. The following processing of 2-1 and 2-2 is performed on each of the detected sound source positions (azimuth angles) rεG (t) (0 ≦ r <2π).
2-1. The number (of the sound source closest to the detected sound source position (azimuth angle) r is calculated according to the following equation (52).

Figure 0006538624
Figure 0006538624

2−2.ν番目の音源の音源位置(方位角)ρ(ν,t)を式(53)により更新する。     2-2. The sound source position (azimuth angle) ((ν, t) of the 番 目 -th sound source is updated by equation (53).

Figure 0006538624
Figure 0006538624

式(53)におけるd(ξ,η)は、式(54)により定義される円周上の距離である。   In equation (53), d (式,)) is a circumferential distance defined by equation (54).

Figure 0006538624
Figure 0006538624

また、式(53)において、∠に下付きの[0,2π)を付した記号は、非零の複素数に対し[0,2π)の範囲の偏角を計算する演算子であり、∠に下付きの[−π,π)を付した記号は、非零の複素数に対し[−π,π)の範囲の偏角を計算する演算子であり、δは0<δ<1を満たす定数(例えばδ=0.005)である。   Also, in equation (53), the symbol with subscript [0, 2π) attached to ∠ is an operator for calculating the argument of the range of [0, 2π) with respect to a nonzero complex number. The subscripted [-π, π) symbol is an operator for calculating the argument of the range of [-π, π) with respect to a nonzero complex number, and δ is a constant satisfying 0 <δ <1. (For example, δ = 0.005).

[第9の実施形態]
次に、第9の実施形態の構成について説明する。第9の実施形態は、第8の実施形態に係る信号処理装置2による処理結果に基づいて、ダイアリゼーション(diarization)を行う例である。このダイアリゼーションは、フレームごとに各音源が存在するか存在しないかを判定する(hard decision)ことによって行ってもよいし、フレームごとに各音源の存在確率を計算する(soft decision)ことによって行ってもよい。ここでは、前者の場合の例を示す。
The ninth embodiment
Next, the configuration of the ninth embodiment will be described. The ninth embodiment is an example in which diarization is performed based on the processing result by the signal processing device 2 according to the eighth embodiment. This dialing may be performed by determining whether each sound source is present or absent for each frame (hard decision), or calculated by calculating the existence probability of each sound source for each frame (soft decision). May be Here, an example of the former case is shown.

図5を用いて、第9の実施形態に係る信号処理装置の構成について説明する。図5は、第9の実施形態に係る信号処理装置の構成の一例を示す図である。図5に示すように、信号処理装置3は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、トラッキング部51、ダイアリゼーション部60を有する。時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、トラッキング部51については、信号処理装置2と同様であるから、以下では相違点であるダイアリゼーション部60について詳しく説明する。   The configuration of the signal processing apparatus according to the ninth embodiment will be described with reference to FIG. FIG. 5 is a view showing an example of the configuration of a signal processing apparatus according to the ninth embodiment. As shown in FIG. 5, the signal processing device 3 includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, a sound source position calculation unit 50, a tracking unit 51, and a dilation unit. Have 60. The time-frequency analysis unit 10, the feature vector calculation unit 20, the parameter storage unit 30, the prior probability distribution calculation unit 40, the sound source position calculation unit 50, and the tracking unit 51 are the same as the signal processing device 2, and the differences are described below. The dialing unit 60, which is

ダイアリゼーション部60は、音源位置計算部50からの検出された音源位置の集合G(t)(t=1〜T)と、トラッキング部51からの音源ごとフレームごとの音源位置(方位角)ρ(n,t)(n=1〜N、t=1〜T)とを受け取って、音源ごとフレームごとのダイアリゼーション結果d(n,t)を計算し出力する。ただし、フレームtで音源nが存在するときd(n,t)=1、フレームtで音源nが存在しないときd(n,t)=0と定める。   The dilation unit 60 sets the detected sound source position G (t) (t = 1 to T) from the sound source position calculation unit 50 and the sound source position (azimuth angle) rho for each sound source from the tracking unit 51. (N, t) (n = 1 to N, t = 1 to T) are received, and a dialation result d (n, t) for each frame is calculated and output for each sound source. However, it is determined that d (n, t) = 1 when the sound source n is present in the frame t, and d (n, t) = 0 when the sound source n is not present in the frame t.

ダイアリゼーション結果d(n,t)の計算方法としては様々な方法が考えられるが、例えば次のように計算すればよい。
1.d(n,t)(n=1〜N、t=1〜T)をd(n,t)←0により初期化する。
2.t=1〜Tに対して次の処理を行う:検出された音源位置(方位角)r∈G(t)のそれぞれに対し、距離d(r,ρ(n,t))が最小となる音源番号nであるνを求め、d(ν,t)←1とする。
3.d(n,t)(n=1〜N、t=1〜T)をダイアリゼーション結果とする。
Various methods can be considered as a method of calculating the dilation result d (n, t). For example, calculation may be performed as follows.
1. Initialize d (n, t) (n = 1 to N, t = 1 to T) by d (n, t)) 0.
2. The following process is performed for t = 1 to T: the distance d (r, ((n, t)) is minimized for each of the detected sound source positions (azimuth angles) r ∈ G (t) Find ν, which is the sound source number n, and let d (ν, t) ← 1.
3. Let d (n, t) (n = 1 to N, t = 1 to T) be the dilation result.

なお、第9の実施形態において、各音源の正確な音源位置(方位角)が既知の状況では、トラッキング部51で計算された音源位置(方位角)を用いる代わりに、既知の音源位置(方位角)を音源ごとフレームごとの音源位置(方位角)ρ(n,t)として用いてもよい。そのような状況としては例えば、話者が固定された椅子に座って会話をしている状況や、ビデオカメラの映像により音源位置(方位角)が分かっている状況等がある。   In the ninth embodiment, when the exact sound source position (azimuth angle) of each sound source is known, instead of using the sound source position (azimuth angle) calculated by the tracking unit 51, the known sound source position (azimuth) The angle) may be used as the sound source position (azimuth angle) ((n, t) for each sound source and frame. As such a situation, for example, there is a situation where a speaker is sitting in a fixed chair and has a conversation, a situation where a sound source position (azimuth angle) is known by an image of a video camera, and the like.

[第10の実施形態]
次に、第10の実施形態の構成について説明する。第10の実施形態は、背景雑音下でN個(N>0)の目的信号が混在する状況において、本発明により推定した音源位置に基づいて各目的信号の波形を推定する例である。本実施形態により、混ざった目的信号を個々の目的信号に分離するとともに、背景雑音を除去することができる。
Tenth Embodiment
Next, the configuration of the tenth embodiment will be described. The tenth embodiment is an example of estimating the waveform of each target signal based on the sound source position estimated by the present invention in a situation where N (N> 0) target signals are mixed under background noise. According to this embodiment, it is possible to separate mixed target signals into individual target signals and to remove background noise.

図6を用いて、第10の実施形態に係る信号処理装置の構成について説明する。図6は、第10の実施形態に係る信号処理装置の構成の一例を示す図である。図6に示すように、信号処理装置4は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、トラッキング部51、ダイアリゼーション部60、マスク推定部70、信号強調部80を有する。時間周波数分析部10、特徴ベクトル計算部20、トラッキング部51、およびダイアリゼーション部60については信号処理装置3と同様であるから、以下では相違点であるパラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、マスク推定部70、信号強調部80について詳しく説明する。信号処理装置3と信号処理装置4の主な相違点は次の通りである。信号処理装置3では、パラメータ記憶部30において、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での条件付き確率分布のモデルパラメータを記憶し、事前確率分布計算部40において、前記モデルパラメータに基づいて複数の音源位置候補に対応する状態の事前確率分布を計算し、音源位置計算部50において、前記事前確率分布に基づいて音源位置を計算する。これに対し、信号処理装置4では、パラメータ記憶部30において、音源位置を表す状態が背景雑音に対応する状態を取る条件下での条件付き確率分布のモデルパラメータをさらに記憶し、事前確率分布計算部40において、前記モデルパラメータに基づいて複数の音源位置候補および背景雑音に対応する状態の事前確率分布を計算し、音源位置計算部50において、前記事前確率分布に基づいて音源位置を計算する。信号処理装置4では更に、マスク推定部70において、各目的信号および背景雑音の時間周波数点ごとの寄与度(事後確率)であるマスクを推定し、信号強調部80において、前記マスクに基づいて各目的信号の波形を計算する。   The configuration of a signal processing apparatus according to the tenth embodiment will be described with reference to FIG. FIG. 6 is a diagram showing an example of the configuration of a signal processing apparatus according to the tenth embodiment. As shown in FIG. 6, the signal processing device 4 includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, a sound source position calculation unit 50, a tracking unit 51, and a dilation unit. 60 includes a mask estimation unit 70 and a signal enhancement unit 80. The time frequency analysis unit 10, the feature vector calculation unit 20, the tracking unit 51, and the dilation unit 60 are the same as those of the signal processing device 3, and hence the parameter storage unit 30 and the a priori probability distribution calculation unit 40 which are differences below. The sound source position calculation unit 50, the mask estimation unit 70, and the signal enhancement unit 80 will be described in detail. The main differences between the signal processing device 3 and the signal processing device 4 are as follows. The signal processing device 3 stores, in the parameter storage unit 30, model parameters of the conditional probability distribution under the condition that the state representing the sound source position corresponds to each of the plurality of sound source position candidates, and calculates the prior probability distribution. In the unit 40, a prior probability distribution of states corresponding to a plurality of sound source position candidates is calculated based on the model parameters, and in the sound source position calculation unit 50, a sound source position is calculated based on the prior probability distribution. On the other hand, in the signal processing device 4, the parameter storage unit 30 further stores model parameters of conditional probability distribution under the condition that the state representing the sound source position corresponds to the background noise, and calculates the prior probability distribution In part 40, a prior probability distribution of states corresponding to a plurality of sound source position candidates and background noise is calculated based on the model parameters, and in sound source position calculation part 50, a sound source position is calculated based on the prior probability distribution. . In the signal processing device 4, the mask estimation unit 70 further estimates a mask that is the degree of contribution (posterior probability) for each time frequency point of each target signal and background noise, and the signal enhancement unit 80 determines each mask based on the mask. Calculate the waveform of the target signal.

パラメータ記憶部30は、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、特徴ベクトルz(t,f)の条件付き確率分布である複素ワトソン分布のモデルパラメータである平均方向ベクトルa(l,f)(l=1〜L、f=1〜F)と集中パラメータκ(l,f)(l=1〜L、f=1〜F)、および音源位置を表す状態が背景雑音に対応する状態を取る条件下での、特徴ベクトルz(t,f)の条件付き確率分布である複素ワトソン分布のモデルパラメータである平均方向ベクトルa(0,f)(f=1〜F)と集中パラメータκ(0,f)(f=1〜F)を記憶する。これらのモデルパラメータは、音源位置候補のそれぞれに対応する状態に対しては例えば第4の実施形態に記載の方法により計算でき、背景雑音に対応する状態に対しては例えば第3の実施形態に記載の方法により計算できる。   The parameter storage unit 30 is a model of a complex Watson distribution that is a conditional probability distribution of the feature vector z (t, f) under the condition that the state representing the sound source position corresponds to each of a plurality of sound source position candidates. Parameters of the average direction vector a (l, f) (l = 1 to L, f = 1 to F) and the concentration parameter パ ラ メ ー タ (l, f) (l = 1 to L, f = 1 to F), and the sound source Average direction vector a (0, f) which is a model parameter of complex Watson distribution which is conditional probability distribution of feature vector z (t, f) under the condition that the state representing position corresponds to background noise. (F = 1 to F) and concentration parameters パ ラ メ ー タ (0, f) (f = 1 to F) are stored. These model parameters can be calculated, for example, by the method described in the fourth embodiment for the state corresponding to each of the sound source position candidates, and for the state corresponding to the background noise, for example, in the third embodiment. It can be calculated by the method described.

事前確率分布計算部40は、音源位置を表す状態の事前確率分布を荷重とする、パラメータ記憶部30に記憶されたモデルパラメータである平均方向ベクトルa(l,f)(l=0〜L、f=1〜F)と集中パラメータκ(l,f)(l=0〜L、f=1〜F)に基づく、音源位置を表す状態が既知の条件下での、特徴ベクトルz(t,f)の条件付き確率分布の荷重和である式(21)の混合モデルを、特徴ベクトル計算部20によって計算された特徴ベクトルz(t,f)に当てはめ、事前確率分布を計算する。本実施形態では、事前確率分布P(g(t,f)=l)がフレームに依存すると仮定し、α(l,t)(l=0〜L,t=1〜T)で表す。α(l,t)は制約条件α(0,t)+…+α(L,t)=1を満たす。式(21)の混合モデルを特徴ベクトルz(t,f)に当てはめる方法には様々な方法があるが、本実施形態では式(21)に関する尤度を勾配法により事前確率分布α(l,t)(l=0〜L、t=1〜T)に関して最大化することにより行う。   The prior probability distribution calculation unit 40 uses, as a load, the prior probability distribution of the state representing the sound source position, and is an average direction vector a (l, f) which is a model parameter stored in the parameter storage unit 30 (l = 0 to L, A feature vector z (t, t) based on a condition representing a sound source position based on f = 1 to F and a concentration parameter ((l, f) (l = 0 to L, f = 1 to F) The mixed model of Formula (21) which is a weighted sum of the conditional probability distribution of f) is applied to the feature vector z (t, f) calculated by the feature vector calculation unit 20 to calculate the prior probability distribution. In this embodiment, it is assumed that the prior probability distribution P (g (t, f) = 1) depends on the frame, and is represented by α (l, t) (l = 0 to L, t = 1 to T). α (l, t) satisfies the constraint condition α (0, t) +... + α (L, t) = 1. There are various methods for applying the mixed model of Equation (21) to the feature vector z (t, f), but in the present embodiment, the likelihood of Equation (21) is a priori probability distribution α (l, t) by maximizing with respect to (l = 0 to L, t = 1 to T).

事前確率分布計算部40における処理は、例えば下記の通りである。
1.事前確率分布α(l,t)(l=0〜L、t=1〜T)をα(l,t)←1/(L+1)により初期化する。
2.次の式(55)および式(56)による事前確率分布α(l,t)(l=0〜L、t=1〜T)の更新を交互に所定回数(例えば10回)反復する。
The processing in the prior probability distribution calculation unit 40 is, for example, as follows.
1. The prior probability distribution α (l, t) (l = 0 to L, t = 1 to T) is initialized by α (l, t) ← 1 / (L + 1).
2. Updating of the prior probability distribution α (l, t) (l = 0 to L, t = 1 to T) according to the following equation (55) and equation (56) is alternately repeated a predetermined number of times (for example, 10 times).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

3.事前確率分布α(l,t)(l=0〜L、t=1〜T)を出力する。   3. The prior probability distribution α (l, t) (l = 0 to L, t = 1 to T) is output.

ここで、ベクトル〜α(t)(αの前の記号「〜」はαの上に記号「〜」を付すことを表す。)はα(l,t)(l=0〜L)からなる(L+1)次元縦ベクトルであり、ベクトル〜w(t,f)はW(z(t,f);a(l,f),κ(l,f))(l=0〜L)からなる(L+1)次元縦ベクトルである。なお、式(55)および式(56)の導出については、第1の実施形態の場合と同様であるから省略する。   Here, the vector ~ α (t) (the symbol "~" in front of α represents adding the symbol "~" on α) is composed of α (l, t) (l = 0 to L) (L + 1) -dimensional vertical vector, vector ~ w (t, f) consists of W (z (t, f); a (l, f), ((l, f)) (l = 0 to L) (L + 1) -dimensional vertical vector. The derivation of the equation (55) and the equation (56) is the same as that of the first embodiment, and is therefore omitted.

音源位置計算部50は、事前確率分布計算部40から受け取った事前確率分布α(l,t)(l=0〜L、t=1〜T)に基づいて、検出された音源位置の集合G(t)(t=1〜T)を計算し出力する。具体的には、事前確率分布α(l,t)(l=0〜L、t=1〜T)の定義域を目的音源に対応するl=1〜Lに制限したα(l,t)(l=1〜L、t=1〜T)に対して、第2の実施形態の音源位置計算部50における処理を適用することにより、検出された音源位置の集合G(t)(t=1〜T)を計算する。   The sound source position calculating unit 50 detects the set G of sound source positions detected based on the prior probability distribution α (l, t) (l = 0 to L, t = 1 to T) received from the prior probability distribution calculating unit 40. (T) Calculate (t = 1 to T) and output. Specifically, α (l, t) in which the domain of the prior probability distribution α (l, t) (l = 0 to L, t = 1 to T) is limited to l = 1 to L corresponding to the target sound source A set G (t) of sound source positions detected by applying the processing in the sound source position calculation unit 50 of the second embodiment to (l = 1 to L, t = 1 to T) Calculate 1 to T).

マスク推定部70は、パラメータ記憶部30からの平均方向ベクトルa(l,f)(l=0〜L、f=1〜F)と集中パラメータκ(l,f)(l=0〜L、f=1〜F)、事前確率分布計算部40からの事前確率分布α(l,t)(l=0〜L、t=1〜T)、およびトラッキング部51からの音源ごとフレームごとの音源位置(方位角)ρ(n,t)(n=1〜N,t=1〜T)を受け取って、特徴ベクトルz(t,f)に対する背景雑音および各目的信号の時間周波数点ごとの寄与度(事後確率)であるマスクγ(n,t,f)(n=0〜N、t=1〜T、f=1〜F)を計算し出力する。ここで、γ(0,t,f)は背景雑音に対応するマスクであり、γ(n,t,f)(n=1〜N)は目的信号nに対応するマスクである。   The mask estimation unit 70 calculates the average direction vector a (l, f) (l = 0 to L, f = 1 to F) from the parameter storage unit 30 and the concentration parameter パ ラ メ ー タ (l, f) (l = 0 to L, f = 1 to F), the prior probability distribution α (l, t) (l = 0 to L, t = 1 to T) from the prior probability distribution calculating unit 40, and the sound source for each sound source from the tracking unit 51 for each frame Receiving position (azimuth angle) ((n, t) (n = 1 to N, t = 1 to T), background noise to feature vector z (t, f) and contribution of each target signal at each time frequency point Calculate and output a mask γ (n, t, f) (n = 0 to N, t = 1 to T, f = 1 to F) which is a degree (a posterior probability). Here, γ (0, t, f) is a mask corresponding to background noise, and γ (n, t, f) (n = 1 to N) is a mask corresponding to the target signal n.

マスクγ(n,t,f)は様々な方法により計算することができるが、例えば以下のように計算する。
1.特徴ベクトルz(t,f)が与えられた条件下でg(t,f)=lとなる事後確率P(g(t,f)=l|z(t,f))(l=0〜L、t=1〜T、f=1〜F)を次の式(57)および式(58)により計算する。
The mask γ (n, t, f) can be calculated by various methods, for example, as follows.
1. A posteriori probability P (g (t, f) = l | z (t, f)) (l = 0 to g (t, f) = 1 under the condition that the feature vector z (t, f) is given L, t = 1 to T, f = 1 to F) are calculated by the following equations (57) and (58).

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

2.背景雑音に対応するマスクγ(0,t,f)(t=1〜T、f=1〜F)を次の式(59)により計算する。   2. The mask γ (0, t, f) (t = 1 to T, f = 1 to F) corresponding to the background noise is calculated by the following equation (59).

Figure 0006538624
Figure 0006538624

3.フレームtにおいて各目的信号nに対応する音源位置候補の番号lの集合J(n,t)(n=1〜N、t=1〜T)を次の式(60)により計算する。   3. A set J (n, t) (n = 1 to N, t = 1 to T) of the number l of sound source position candidates corresponding to each target signal n in the frame t is calculated by the following equation (60).

Figure 0006538624
Figure 0006538624

4.目的信号に対応するマスクγ(n,t,f)(n=1〜N、t=1〜T、f=1〜F)を次の式(61)により計算する。   4. A mask γ (n, t, f) (n = 1 to N, t = 1 to T, f = 1 to F) corresponding to the target signal is calculated by the following equation (61).

Figure 0006538624
Figure 0006538624

5.マスクγ(n,t,f)(n=0〜N、t=1〜T、f=1〜F)を出力する。   5. The mask γ (n, t, f) (n = 0 to N, t = 1 to T, f = 1 to F) is output.

信号強調部80は、時間周波数分析部10からの観測信号ベクトルy(t,f)、ダイアリゼーション部60からの0または1のいずれかの値を取るダイアリゼーション結果d(n,t)(n=1〜N、t=1〜T)、およびマスク推定部70からの背景雑音および各目的信号のマスクγ(n,t,f)(n=0〜N、t=1〜T、f=1〜F)を受け取って、各目的信号s(n,τ)を推定する。   The signal emphasizing unit 80 obtains the observed signal vector y (t, f) from the time frequency analysis unit 10, and the dilation result d (n, t) (n) taking any value of 0 or 1 from the dilation unit 60. = 1 to N, t = 1 to T), background noise from the mask estimation unit 70, and masks γ (n, t, f) of target signals (n = 0 to N, t = 1 to T, f = 1 to F) to estimate each target signal s (n, τ).

信号強調部80における具体的な処理の例は以下の通りである。
1.観測信号の共分散行列Φ(f)を次の式(62)により計算する。
An example of specific processing in the signal emphasizing unit 80 is as follows.
1. The covariance matrix ((f) of the observed signal is calculated by the following equation (62).

Figure 0006538624
Figure 0006538624

2.ダイアリゼーション結果d(n,t)(n=1〜N、t=1〜T)を用いて修正したマスク〜γ(n,t,f)(n=0〜N、t=1〜T、f=1〜F)を次の式(63)および式(64)により計算する。式(63)は、d(n,t)=0のときにはフレームtにおける音源nのマスクを0で置き換えることを意味している。また、式(64)は、マスク〜γ(n,t,f)のnに関する総和が1になるようにするための処理である。   2. A mask corrected by using the dilation result d (n, t) (n = 1 to N, t = 1 to T) ~ γ (n, t, f) (n = 0 to N, t = 1 to T, f = 1 to F) is calculated by the following equation (63) and equation (64). Equation (63) means that the mask of sound source n in frame t is replaced with 0 when d (n, t) = 0. Further, equation (64) is a process for causing the sum of n of the masks ̃γ (n, t, f) to be one.

Figure 0006538624
Figure 0006538624

Figure 0006538624
Figure 0006538624

3.共分散行列Ψ(n,f)(n=0〜N、f=1〜F)を次の式(65)により計算する。ここで、行列Ψ(0,f)は背景雑音に対応する共分散行列であり、行列Ψ(n,f)(n=1〜N)はn番目の目的信号と背景雑音の和に対応する共分散行列である。   3. The covariance matrix Ψ (n, f) (n = 0 to N, f = 1 to F) is calculated by the following equation (65). Here, the matrix Ψ (0, f) is a covariance matrix corresponding to the background noise, and the matrix Ψ (n, f) (n = 1 to N) corresponds to the sum of the n-th target signal and the background noise It is a covariance matrix.

Figure 0006538624
Figure 0006538624

4.n番目の目的信号と背景雑音の和に対応する共分散行列Ψ(n,f)から背景雑音に対応する共分散行列Ψ(0,f)を減算することにより、n番目の目的信号に対応する共分散行列〜Ψ(n,f)(n=1〜N、f=1〜F)を求める。次に、各目的信号のステアリングベクトルh(n,f)(n=1〜N、f=1〜F)を、行列〜Ψ(n,f)の最大固有値に対応する固有ベクトルとして求める。そして、ベクトルh(n,f)の第1要素が1に等しくなるように、h(n,f)←h(n,f)/h(1,n,f)によりベクトルh(n,f)を正規化する。ここで、h(1,n,f)はベクトルh(n,f)の第1要素を表す。   4. Corresponds to the nth target signal by subtracting the covariance matrix Ψ (0, f) corresponding to the background noise from the covariance matrix Ψ (n, f) corresponding to the sum of the nth target signal and the background noise The covariance matrix Ψ (n, f) (n = 1 to N, f = 1 to F) to be calculated is obtained. Next, steering vectors h (n, f) (n = 1 to N, f = 1 to F) of the respective target signals are determined as eigenvectors corresponding to the maximum eigenvalues of the matrix Ψ (n, f). Then, h (n, f) に よ り h (n, f) / h (1, n, f) causes vector h (n, f) such that the first element of vector h (n, f) is equal to 1. Normalize). Here, h (1, n, f) represents the first element of the vector h (n, f).

Figure 0006538624
Figure 0006538624

5.最小分散ビームフォーマに基づき、各目的信号の時間周波数変換s(n,t,f)(n=1〜N、t=1〜T、f=1〜F)を次の式(67)により計算する。   5. Based on the minimum dispersion beamformer, time frequency conversion s (n, t, f) (n = 1 to N, t = 1 to T, f = 1 to F) of each target signal is calculated by the following equation (67) Do.

Figure 0006538624
Figure 0006538624

6.各目的信号の時間周波数変換s(n,t,f)(n=1〜N、t=1〜T、f=1〜F)に時間周波数変換の逆変換を適用することにより、各目的信号s(n,τ)を計算する。   6. Each target signal is obtained by applying the inverse transform of the time frequency conversion to the time frequency conversion s (n, t, f) (n = 1 to N, t = 1 to T, f = 1 to F) of each target signal. Calculate s (n, τ).

[第11の実施形態]
次に、第11の実施形態の構成について説明する。第11の実施形態は、背景雑音下でN個(N>0)の目的音声が存在する状況において、本発明により推定した音源位置に基づいて各目的音声の波形を推定し、各目的音声に対して既存の音声認識技術を適用することで各目的音声を音声認識する例である。本発明によれば、背景雑音や複数の話者による音声が混在した状況でも、混ざった目的信号を個々の目的信号に分離するとともに、背景雑音を除去し、高精度な音声認識を実現できる。応用例としては、例えば様々な音が鳴っているオフィスの片隅で行われた会議の自動書き起こし等が挙げられる。
Eleventh Embodiment
Next, the configuration of the eleventh embodiment will be described. In the eleventh embodiment, in a situation where N (N> 0) target voices are present under background noise, the waveform of each target voice is estimated based on the sound source position estimated by the present invention, and each target voice is In contrast, this is an example of speech recognition of each target speech by applying the existing speech recognition technology. According to the present invention, even in the situation where background noise and speech from a plurality of speakers are mixed, it is possible to separate mixed target signals into individual target signals and remove background noise to realize highly accurate speech recognition. An application example is, for example, automatic transcription of a conference held at a corner of an office where various sounds are sounding.

図7を用いて、第11の実施形態に係る信号処理装置の構成について説明する。図7は、第11の実施形態に係る信号処理装置の構成の一例を示す図である。図7に示すように、信号処理装置5は、時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、トラッキング部51、ダイアリゼーション部60、マスク推定部70、信号強調部80、音声認識部90を有する。時間周波数分析部10、特徴ベクトル計算部20、パラメータ記憶部30、事前確率分布計算部40、音源位置計算部50、トラッキング部51、ダイアリゼーション部60、マスク推定部70、信号強調部80については第10の実施形態と同様である。音声認識部90は、信号強調部80から各目的信号の波形を受け取って、これに既存の音声認識技術を適用することで、各目的信号に対する認識結果を出力する。   The configuration of a signal processing apparatus according to the eleventh embodiment will be described with reference to FIG. FIG. 7 is a diagram showing an example of the configuration of a signal processing apparatus according to the eleventh embodiment. As shown in FIG. 7, the signal processing device 5 includes a time frequency analysis unit 10, a feature vector calculation unit 20, a parameter storage unit 30, an a priori probability distribution calculation unit 40, a sound source position calculation unit 50, a tracking unit 51, and a dilation unit. 60 includes a mask estimation unit 70, a signal enhancement unit 80, and a speech recognition unit 90. The time frequency analysis unit 10, the feature vector calculation unit 20, the parameter storage unit 30, the prior probability distribution calculation unit 40, the sound source position calculation unit 50, the tracking unit 51, the dilation unit 60, the mask estimation unit 70, and the signal enhancement unit 80 This is the same as the tenth embodiment. The speech recognition unit 90 receives the waveforms of the respective target signals from the signal enhancement unit 80 and applies existing speech recognition technology thereto to output a recognition result for each target signal.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration etc.]
Further, each component of each device illustrated is functionally conceptual, and does not necessarily have to be physically configured as illustrated. That is, the specific form of the distribution and integration of each device is not limited to the illustrated one, and all or a part thereof may be functionally or physically dispersed in any unit depending on various loads, usage conditions, etc. It can be integrated and configured. Furthermore, all or any part of each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as wired logic hardware.

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   Further, among the processes described in the present embodiment, all or part of the process described as being automatically performed may be manually performed, or the process described as being manually performed. All or part of them can be performed automatically by known methods. In addition to the above, the processing procedures, control procedures, specific names, and information including various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
実施形態の信号処理装置1〜5は、パッケージソフトウェアやオンラインソフトウェアとして上記の音源定位、トラッキング、ダイアリゼーション、音声強調、音声認識を実行する信号処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の信号処理プログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置1〜5として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
The signal processing apparatuses 1 to 5 of the embodiment can be implemented by installing a signal processing program for executing the above-described sound source localization, tracking, dilation, voice emphasis, and voice recognition as package software or online software in a desired computer. For example, by causing the information processing apparatus to execute the above signal processing program, the information processing apparatus can be functioned as the signal processing apparatuses 1 to 5. The information processing apparatus referred to here includes a desktop or laptop personal computer. In addition, the information processing apparatus also includes mobile communication terminals such as smartphones, cellular phones and PHS (Personal Handyphone System), and slate terminals such as PDA (Personal Digital Assistant).

また、信号処理装置1〜5は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の信号処理に関するサービスを提供する信号処理サーバ装置として実装することもできる。例えば、信号処理サーバ装置は、観測信号を入力とし、音源の位置を出力とする音源定位サービスを提供するサーバ装置として実装される。この場合、信号処理サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の信号処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。   The signal processing devices 1 to 5 can also be implemented as a signal processing server device that uses a terminal device used by a user as a client and provides the client with a service related to the above signal processing. For example, the signal processing server device is implemented as a server device that provides a sound source localization service in which an observation signal is input and a position of a sound source is output. In this case, the signal processing server apparatus may be implemented as a Web server, or may be implemented as a cloud that provides the above-mentioned signal processing service by outsourcing.

図8は、プログラムが実行されることにより信号処理装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。   FIG. 8 is a diagram illustrating an example of a computer in which a signal processing apparatus is realized by executing a program. The computer 1000 includes, for example, a memory 1010 and a CPU 1020. The computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090. Disk drive interface 1040 is connected to disk drive 1100. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120. The video adapter 1060 is connected to, for example, the display 1130.

ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置1〜5の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置1〜5における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。   The hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program defining each process of the signal processing devices 1 to 5 is implemented as a program module 1093 in which a computer-executable code is described. The program module 1093 is stored, for example, in the hard disk drive 1090. For example, a program module 1093 for executing the same processing as the functional configuration of the signal processing devices 1 to 5 is stored in the hard disk drive 1090. The hard disk drive 1090 may be replaced by an SSD.

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   The setting data used in the process of the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as needed, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   The program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, and may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.

1、2、3、4、5 信号処理装置
10 時間周波数分析部
20 特徴ベクトル計算部
30 パラメータ記憶部
40 事前確率分布計算部
50 音源位置計算部
51 トラッキング部
60 ダイアリゼーション部
70 マスク推定部
80 信号強調部
90 音声認識部
1, 2, 3, 4, 5 Signal processing device 10 Time-frequency analysis unit 20 Feature vector calculation unit 30 Parameter storage unit 40 Prior probability distribution calculation unit 50 Sound source position calculation unit 51 Tracking unit 60 Dialing unit 70 Mask estimation unit 80 Signal Highlighter 90 Speech recognition unit

Claims (7)

複数の異なる位置で取得された収録音に時間周波数分析を適用し、M次元ベクトルである観測信号ベクトルを計算する時間周波数分析部と、
前記時間周波数分析部によって計算された観測信号ベクトルの方向の情報を含んだベクトルである特徴ベクトルを、時間周波数点ごとに計算する特徴ベクトル計算部と、
音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、前記特徴ベクトルの条件付き確率分布のモデルパラメータを記憶するパラメータ記憶部と、
前記音源位置を表す状態の事前確率分布を荷重とする、前記パラメータ記憶部に記憶されたモデルパラメータに基づく、前記音源位置を表す状態が既知の条件下での、前記特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、前記特徴ベクトル計算部によって計算された特徴ベクトルに当てはめ、前記事前確率分布を計算する事前確率分布計算部と、
前記事前確率分布計算部によって計算された事前確率分布に基づいて、前記特徴ベクトルに対応する音源位置を計算する音源位置計算部と、
を有することを特徴とする信号処理装置。
A time-frequency analysis unit that applies time-frequency analysis to the recorded sound acquired at a plurality of different positions and calculates an observation signal vector that is an M-dimensional vector;
A feature vector calculation unit that calculates, for each time frequency point, a feature vector that is a vector including information on the direction of the observed signal vector calculated by the time frequency analysis unit;
A parameter storage unit storing model parameters of conditional probability distribution of the feature vector under a condition that a state representing a sound source position corresponds to each of a plurality of sound source position candidates;
Conditional probability distribution of the feature vector under conditions where the state representing the sound source position is known, based on the model parameters stored in the parameter storage unit, with the prior probability distribution of the state representing the sound source position as a load A prior probability distribution calculation unit which applies the mixed model, which is a weighted sum of the above, to the feature vector calculated by the feature vector calculation unit, and calculates the prior probability distribution;
A sound source position calculating unit that calculates a sound source position corresponding to the feature vector based on the prior probability distribution calculated by the prior probability distribution calculating unit;
A signal processing apparatus characterized by comprising:
前記事前確率分布計算部は、前記音源位置を表す状態の時間区間ごとの事前確率分布を荷重とする、前記パラメータ記憶部に記憶されたモデルパラメータに基づく、前記音源位置を表す状態が既知の条件下での、前記特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、前記特徴ベクトル計算部によって計算された特徴ベクトルに当てはめ、前記時間区間ごとの事前確率分布を計算し、
音源位置計算部は、前記事前確率分布計算部によって計算された前記時間区間ごとの事前確率分布に基づいて、前記特徴ベクトルに対応する前記時間区間ごとの音源位置を計算することを特徴とする請求項1に記載の信号処理装置。
The prior probability distribution calculating unit uses, as a load, an a priori probability distribution for each time section of the state representing the sound source position, and the state representing the sound source position based on the model parameter stored in the parameter storage unit is known. Fitting a mixed model, which is a weighted sum of the conditional probability distributions of the feature vectors under the conditions, to the feature vectors calculated by the feature vector calculation unit, and calculating a prior probability distribution for each of the time intervals;
The sound source position calculation unit is characterized by calculating a sound source position for each of the time intervals corresponding to the feature vector based on the a priori probability distribution for each of the time intervals calculated by the a priori probability distribution calculation unit. The signal processing device according to claim 1.
前記パラメータ記憶部は、残響下で取得された学習データを用いて学習されたモデルパラメータであって、音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、前記特徴ベクトルの条件付き確率分布のモデルパラメータを記憶することを特徴とする請求項1または2に記載の信号処理装置。   The parameter storage unit is a model parameter learned using learning data acquired under reverberation, and a condition representing a sound source position takes a state corresponding to each of a plurality of sound source position candidates, The signal processing apparatus according to claim 1, wherein model parameters of the conditional probability distribution of the feature vector are stored. 前記パラメータ記憶部は、前記音源位置を表す状態が背景雑音に対応する状態を取る条件下での、条件付き確率分布のモデルパラメータをさらに記憶することを特徴とする請求項1から3のいずれか1項に記載の信号処理装置。   The said parameter memory | storage part further stores the model parameter of conditional probability distribution in the condition which takes the state which respond | corresponds to a background noise the state showing the said sound source position, The conditions any one of Claim 1 to 3 characterized by the above-mentioned. The signal processing device according to item 1. 前記事前確率分布計算部は、勾配法に基づいて前記事前確率分布を計算することを特徴とする請求項1から4のいずれか1項に記載の信号処理装置。   The signal processing apparatus according to any one of claims 1 to 4, wherein the prior probability distribution calculating unit calculates the prior probability distribution based on a gradient method. 信号処理装置で実行される信号処理方法であって、
複数の異なる位置で取得された収録音に時間周波数分析を適用し、M次元ベクトルである観測信号ベクトルを計算する時間周波数分析工程と、
前記時間周波数分析工程によって計算された観測信号ベクトルの方向の情報を含んだベクトルである特徴ベクトルを、時間周波数点ごとに計算する特徴ベクトル計算工程と、
音源位置を表す状態が複数の音源位置候補のそれぞれに対応する状態を取る条件下での、前記特徴ベクトルの条件付き確率分布のモデルパラメータを記憶するパラメータ記憶部に記憶されたモデルパラメータを取得し、前記音源位置を表す状態の事前確率分布を荷重とする、前記モデルパラメータに基づく、前記音源位置を表す状態が既知の条件下での、前記特徴ベクトルの条件付き確率分布の荷重和である混合モデルを、前記特徴ベクトル計算工程によって計算された特徴ベクトルに当てはめ、前記事前確率分布を計算する事前確率分布計算工程と、
前記事前確率分布計算工程によって計算された事前確率分布に基づいて、前記特徴ベクトルに対応する音源位置を計算する音源位置計算工程と、
を含んだことを特徴とする信号処理方法。
A signal processing method to be executed by a signal processing device, comprising:
Applying time-frequency analysis to the recorded sound acquired at a plurality of different positions, and calculating an observation signal vector which is an M-dimensional vector;
Calculating a feature vector, which is a vector including information on the direction of the observed signal vector calculated by the time frequency analysis step, for each time frequency point;
Obtaining a model parameter stored in a parameter storage unit storing a model parameter of the conditional probability distribution of the feature vector under a condition that the state indicating the sound source position corresponds to each of a plurality of sound source position candidates; A mixture based on the model parameters, a load sum of conditional probability distributions of the feature vectors under a condition in which the state representing the sound source position is known, wherein a load is a prior probability distribution of the state representing the sound source position; A prior probability distribution calculating step of fitting a model to the feature vector calculated by the feature vector calculating step, and calculating the prior probability distribution;
A sound source position calculating step of calculating a sound source position corresponding to the feature vector based on the prior probability distribution calculated by the prior probability distribution calculating step;
A signal processing method comprising:
コンピュータを、請求項1から5のいずれか1項に記載の信号処理装置として機能させるための信号処理プログラム。   A signal processing program for causing a computer to function as the signal processing device according to any one of claims 1 to 5.
JP2016166232A 2016-08-26 2016-08-26 Signal processing apparatus, signal processing method and signal processing program Active JP6538624B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016166232A JP6538624B2 (en) 2016-08-26 2016-08-26 Signal processing apparatus, signal processing method and signal processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016166232A JP6538624B2 (en) 2016-08-26 2016-08-26 Signal processing apparatus, signal processing method and signal processing program

Publications (2)

Publication Number Publication Date
JP2018032001A JP2018032001A (en) 2018-03-01
JP6538624B2 true JP6538624B2 (en) 2019-07-03

Family

ID=61303368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016166232A Active JP6538624B2 (en) 2016-08-26 2016-08-26 Signal processing apparatus, signal processing method and signal processing program

Country Status (1)

Country Link
JP (1) JP6538624B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6973254B2 (en) * 2018-04-05 2021-11-24 日本電信電話株式会社 Signal analyzer, signal analysis method and signal analysis program
JP6915579B2 (en) * 2018-04-06 2021-08-04 日本電信電話株式会社 Signal analyzer, signal analysis method and signal analysis program
WO2020250797A1 (en) * 2019-06-14 2020-12-17 ソニー株式会社 Information processing device, information processing method, and program
CN111880146B (en) * 2020-06-30 2023-08-18 海尔优家智能科技(北京)有限公司 Sound source orientation method and device and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1600791B1 (en) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
JP5629249B2 (en) * 2011-08-24 2014-11-19 本田技研工業株式会社 Sound source localization system and sound source localization method
JP5911101B2 (en) * 2012-08-30 2016-04-27 日本電信電話株式会社 Acoustic signal analyzing apparatus, method, and program
JP6193823B2 (en) * 2014-08-19 2017-09-06 日本電信電話株式会社 Sound source number estimation device, sound source number estimation method, and sound source number estimation program

Also Published As

Publication number Publication date
JP2018032001A (en) 2018-03-01

Similar Documents

Publication Publication Date Title
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
JP6434657B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
Erdogan et al. Improved mvdr beamforming using single-channel mask prediction networks.
US9668066B1 (en) Blind source separation systems
JP6538624B2 (en) Signal processing apparatus, signal processing method and signal processing program
JP6652519B2 (en) Steering vector estimation device, steering vector estimation method, and steering vector estimation program
WO2017141542A1 (en) Mask estimation apparatus, mask estimation method, and mask estimation program
Walter et al. Source counting in speech mixtures by nonparametric Bayesian estimation of an infinite Gaussian mixture model
JP6711765B2 (en) Forming apparatus, forming method, and forming program
WO2019194300A1 (en) Signal analysis device, signal analysis method, and signal analysis program
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
Girin et al. Audio source separation into the wild
JP2020034870A (en) Signal analysis device, method, and program
JP6734237B2 (en) Target sound source estimation device, target sound source estimation method, and target sound source estimation program
JP2018146610A (en) Mask estimation device, mask estimation method and mask estimation program
Drude et al. Towards online source counting in speech mixtures applying a variational EM for complex Watson mixture models
Kameoka et al. Bayesian nonparametric approach to blind separation of infinitely many sparse sources
JP6930408B2 (en) Estimator, estimation method and estimation program
JP6915579B2 (en) Signal analyzer, signal analysis method and signal analysis program
Chen et al. Acoustic vector sensor based speech source separation with mixed Gaussian-Laplacian distributions
Ito et al. Maximum-likelihood online speaker diarization in noisy meetings based on categorical mixture model and probabilistic spatial dictionary
Mizuno et al. Effective frame selection for blind source separation based on frequency domain independent component analysis
Ibarrola et al. Blind speech dereverberation using convolutive nonnegative matrix factorization with mixed penalization
Pan et al. Blind speech extraction based on modulus diversity constraint
JP2020038315A (en) Voice information processing device and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190606

R150 Certificate of patent or registration of utility model

Ref document number: 6538624

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150