JP2016045221A - Signal analysis device, method, and program - Google Patents

Signal analysis device, method, and program Download PDF

Info

Publication number
JP2016045221A
JP2016045221A JP2014166903A JP2014166903A JP2016045221A JP 2016045221 A JP2016045221 A JP 2016045221A JP 2014166903 A JP2014166903 A JP 2014166903A JP 2014166903 A JP2014166903 A JP 2014166903A JP 2016045221 A JP2016045221 A JP 2016045221A
Authority
JP
Japan
Prior art keywords
time
power spectrum
sound source
parameter
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014166903A
Other languages
Japanese (ja)
Other versions
JP6195548B2 (en
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
卓哉 樋口
Takuya Higuchi
卓哉 樋口
裕史 竹田
Yuji Takeda
裕史 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014166903A priority Critical patent/JP6195548B2/en
Publication of JP2016045221A publication Critical patent/JP2016045221A/en
Application granted granted Critical
Publication of JP6195548B2 publication Critical patent/JP6195548B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform sound source separation, acoustic event detection, and reverberation removal comprehensively with high accuracy.SOLUTION: A mixed sound time frequency expansion unit 28 outputs a multi-channel observation time frequency component using the time series data of a multi-channel observation signal as input in which sound source signals are mixed. A parameter update unit 32 performs, on the basis of a multi-channel observation time frequency component, a base power spectrum, an activation parameter, the time series of a spatial correlation matrix, and a state series, each of the updating of the base power spectrum, the updating of the activation parameter, the updating of the time series of the spatial correlation matrix, and the updating of the state series so that an object function is maximized at the time the multi-channel observation time frequency component is given. A convergence determination unit 34 performs the updating by the parameter update unit 32 repeatedly until a predetermined convergence condition is satisfied.SELECTED DRAWING: Figure 1

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。   The present invention relates to a signal analysis apparatus, method, and program, and more particularly, to a signal analysis apparatus, method, and program for estimating parameters.

ブラインド音源分離の問題とは、音源信号や音源からマイクまでの伝達特性が未知の場合に、複数の音源信号が混合された多チャンネル観測信号から、音源信号を推定する問題である。一般的に、ブラインド音源分離の問題を解くためには、音源信号に対して立てたなんらかの仮定を基に最適化基準を立て、最適化問題を解く必要がある。   The problem of blind sound source separation is a problem of estimating a sound source signal from a multi-channel observation signal in which a plurality of sound source signals are mixed when the sound source signal or transfer characteristics from the sound source to the microphone are unknown. In general, in order to solve the problem of blind sound source separation, it is necessary to set an optimization criterion based on some assumption made for the sound source signal and solve the optimization problem.

単チャンネルの観測信号に対するブラインド音源分離の有効なアプローチとして、非負値行列因子分解(Non-negative Matrix Factorization;NMF)が知られている(非特許文献1、非特許文献2)。この手法では観測信号のパワースペクトログラムを、2つの非負値行列の積に分解する。分解した各行列は、いくつかのパワースペクトルによって構成される基底行列と、それらのパワースペクトルの時変な音量を表すパワーによって構成されるアクティベーション行列となる。ここで重要なのは、分解された各パワースペクトルが、観測信号の中で主となる要素、すなわち各音源信号を表していると考えられることである。NMFの利点として、クリーンな音響信号からあらかじめパワースペクトルを学習しておき、混合音に対してNMFを適用しパワーのみを推定することで、特定の音を分離・抽出することが可能な点が上げられる。   Non-negative matrix factorization (NMF) is known as an effective approach for blind source separation for a single channel observation signal (Non-Patent Document 1, Non-Patent Document 2). In this method, the power spectrogram of an observation signal is decomposed into a product of two non-negative matrixes. Each decomposed matrix becomes a base matrix composed of several power spectra and an activation matrix composed of power representing the time-varying volume of those power spectra. What is important here is that each decomposed power spectrum is considered to represent a main element in the observation signal, that is, each sound source signal. As an advantage of NMF, it is possible to separate and extract a specific sound by learning a power spectrum from a clean sound signal in advance and applying only NMF to the mixed sound and estimating only the power. Raised.

また、音源信号の空間的な情報も利用して音源分離を行うために、NMFを多チャンネルの音響信号へと拡張するアプローチがいくつか知られている(非特許文献3、非特許文献4)。   In addition, in order to perform sound source separation using spatial information of a sound source signal, several approaches for extending NMF to a multi-channel acoustic signal are known (Non-patent Documents 3 and 4). .

D. D. Lee, and H. S. Seung, “Learning the parts of objects with nonnegative matrix factorization,”Nature, vol. 401, pp.788-791, 1999.D. D. Lee, and H. S. Seung, “Learning the parts of objects with nonnegative matrix factorization,” Nature, vol. 401, pp.788-791, 1999. P. Smaragdis, and J. C. Brown, “Non-negative matrix factorization for polyphonic music transcription,”Proc. WASPAA 2003, Oct. 2003, pp. 177-180.P. Smaragdis, and J. C. Brown, “Non-negative matrix factorization for polyphonic music transcription,” Proc. WASPAA 2003, Oct. 2003, pp. 177-180. A. Ozerov, and C. Fevotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech and Language Processing, vol. 18, no. 3,pp. 550-563, Mar.2010.A. Ozerov, and C. Fevotte, “Multichannel nonnegative matrix factorization in convolutive combination for audio source separation,” IEEE Trans. Audio, Speech and Language Processing, vol. 18, no. 3, pp. 550-563, Mar. 2010 . H. Sawada, H. Kameoka, S. Araki and N. Ueda, “Efficient algorithms for multichannel extensions of Itakura-Saito nonnegative matrix factorization,” IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP) 2012, pp. 261-264, 2012.H. Sawada, H. Kameoka, S. Araki and N. Ueda, “Efficient algorithms for multichannel extensions of Itakura-Saito nonnegative matrix factorization,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2012, pp. 261- 264, 2012.

しかし、従来技術においては、2つの問題がある。1つ目は、各音源信号のパワースペクトルが、1つの基底パワースペクトルによって表現できることを仮定していた点である。実際の音源信号のパワースペクトルは時変であることが多く、1つの基底パワースペクトルで表現するのは不十分な場合が多い。例えば、無音状態、音の立ち上がり、持続状態などの音源信号の状態に応じて、音源は異なるパワースペクトルを持つ場合があり、それらを1つの基底パワースペクトルによって表現するのは不十分であると考えられる。   However, there are two problems in the prior art. The first point is that it is assumed that the power spectrum of each sound source signal can be expressed by one base power spectrum. The power spectrum of an actual sound source signal is often time-varying, and it is often insufficient to express with one base power spectrum. For example, the sound source may have different power spectra depending on the state of the sound source signal such as a silence state, a sound rise, and a continuous state, and it is considered insufficient to express them with one base power spectrum. It is done.

2つ目は、残響を考慮していない点である。残響下において観測信号から音源信号を推定するためには、直接波だけでなく反射波も含めて観測信号をモデル化しなければならないと考えられるが非特許文献3及び非特許文献4の手法においては、それがなされていない。   The second is that reverberation is not taken into consideration. In order to estimate the sound source signal from the observation signal under reverberation, it is considered that the observation signal must be modeled including not only the direct wave but also the reflected wave, but in the methods of Non-Patent Document 3 and Non-Patent Document 4, , It has not been made.

本発明では、上記問題を解決するために成されたものであり、音源分離、音響イベント検出、及び残響除去を統合的に精度良く行うことができる信号解析装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and provides a signal analysis apparatus, method, and program capable of performing sound source separation, acoustic event detection, and dereverberation removal in an integrated and accurate manner. With the goal.

上記目的を達成するために、第1の発明に係る信号解析装置は、I個の音源からの音源信号が混合された多チャンネル観測信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分を出力する混合音時間周波数展開部と、前記多チャンネル観測時間周波数成分が与えられたもとでの、各音源iの、各周波数ωk及び各状態qにおけるパワースペクトルwi,k,qを表す基底パワースペクトルと、各音源iの、各時刻tにおけるパワーhi.lを表すアクティベーションパラメータと、各音源iの各時刻tn及び各周波数ωkにおける空間相関行列Ci,k,nを表す空間相関行列の時系列と、各音源iの各時刻tにおける音源状態zi,lを表す状態系列の条件付き確率を表す目的関数を最大化するように、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列に基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行うパラメータ更新部と、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、を含んで構成されている。 In order to achieve the above object, the signal analyzing apparatus according to the first invention receives time-series data of a multi-channel observation signal mixed with sound source signals from I sound sources, and inputs each frequency at each time t 1 . a mixed sound time-frequency expansion unit for outputting the multi-channel observation time-frequency component representing the omega k of the observation time-frequency component y (ω k, t l) , said at Moto the multi-channel observation time-frequency component is given, each sound source i, the base power spectrum representing the power spectrum w i, k, q in each frequency ω k and each state q, the activation parameter representing the power h il of each sound source i at each time t 1 , and each sound source i Of the spatial correlation matrix representing the spatial correlation matrix C i, k, n at each time t n and each frequency ω k and the state series representing the sound source state z i, l at each time t 1 of each sound source i. Conditional The multi-channel observation time frequency component output by the mixed sound time frequency expansion unit, the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, and so as to maximize the objective function representing the probability, and A parameter updating unit configured to update the base power spectrum, update the activation parameter, update the time series of the spatial correlation matrix, and update the state series based on the state series; A convergence determination unit that repeatedly performs the update by the parameter update unit until a convergence condition is satisfied.

第2の発明に係るパラメータ推定方法は、混合音時間周波数展開部と、パラメータ更新部と、収束判定部と、を含む信号解析装置における、パラメータ推定方法であって、前記混合音時間周波数展開部は、I個の音源からの音源信号が混合された多チャンネル観測信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分を出力し、前記パラメータ更新部は、前記多チャンネル観測時間周波数成分が与えられたときの、各周波数ωk及び各状態qに対する各音源iの音源信号のパワースペクトルwi,k,qを表す基底パワースペクトルと、各時刻tにおける各音源iの音源信号のパワーhi.lを表すアクティベーションパラメータと、各時刻tn及び各周波数ωkにおける各音源iの伝達周波数特性の成分ai,k,nに基づく空間相関行列Ci,k,nを表す空間相関行列の時系列と、各時刻tにおける各音源iの音源信号の状態zi,lを表す状態系列との確率を表す目的関数を最大化するように、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列に基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行い、前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。 A parameter estimation method according to a second invention is a parameter estimation method in a signal analysis apparatus including a mixed sound time-frequency expansion unit, a parameter update unit, and a convergence determination unit, wherein the mixed sound time-frequency expansion unit Represents an observation time frequency component y (ω k , t l ) of each frequency ω k at each time t l with time series data of multi-channel observation signals mixed with sound source signals from I sound sources as input. The multi-channel observation time frequency component is output, and the parameter updating unit is configured to provide the power spectrum w i of the sound source signal of each sound source i for each frequency ω k and each state q when the multi-channel observation time frequency component is given. , k, and bottom power spectrum representing a q, and activation parameters representing the power h il of the sound source signals of the sound sources i at each time t l, the time t n and the Time series of wavenumber ω component a i of the transmission frequency characteristic of the sound source i in k, k, spatial correlation matrix based on n C i, k, the spatial correlation matrix representing n, sound of each sound source i at each time t l The multi-channel observation time-frequency component output by the mixed sound time-frequency expansion unit, the base power spectrum, the base power spectrum, so as to maximize the objective function representing the probability of the state sequence representing the signal state z i, l Based on the activation parameter, the time series of the spatial correlation matrix, and the state series, updating the base power spectrum, updating the activation parameter, updating the time series of the spatial correlation matrix, and updating the state series The convergence determination unit repeatedly performs the update by the parameter update unit until a predetermined convergence condition is satisfied.

第1及び第2の発明によれば、前記混合音時間周波数展開部により、I個の音源からの音源信号が混合された多チャンネル観測信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分を出力し、パラメータ更新部により、多チャンネル観測時間周波数成分が与えられたときの、各周波数ωk及び各状態qに対する各音源iの音源信号のパワースペクトルwi,k,qを表す基底パワースペクトルと、各時刻tにおける各音源iの音源信号のパワーhi.lを表すアクティベーションパラメータと、各時刻tn及び各周波数ωkにおける各音源iの伝達周波数特性の成分ai,k,nに基づく空間相関行列Ci,k,nを表す空間相関行列の時系列と、各時刻tにおける各音源iの音源信号の状態zi,lを表す状態系列との確率を表す目的関数を最大化するように、混合音時間周波数展開部によって出力された多チャンネル観測時間周波数成分、基底パワースペクトル、アクティベーションパラメータ、空間相関行列の時系列、及び状態系列に基づいて、基底パワースペクトルの更新、アクティベーションパラメータの更新、空間相関行列の時系列の更新、及び状態系列の更新の各々を行い、収束判定部により、予め定められた収束条件を満たすまで、パラメータ更新部による更新を繰り返し行う。 According to the first and second inventions, the mixed sound time frequency expansion unit receives time-series data of multi-channel observation signals mixed with sound source signals from I sound sources, and inputs each time t 1 at each time t 1 . The multi-channel observation time frequency component representing the observation time frequency component y (ω k , t l ) of the frequency ω k is output, and each frequency ω k when the multi-channel observation time frequency component is given by the parameter updating unit. And a base power spectrum representing the power spectrum w i, k, q of the sound source signal of each sound source i for each state q, an activation parameter representing the power h il of the sound source signal of each sound source i at each time t 1 , and The time series of the spatial correlation matrix representing the spatial correlation matrix C i, k, n based on the components a i, k, n of the transmission frequency characteristics of each sound source i at time t n and each frequency ω k, and at each time t l Multi-channel observation time frequency component and base power spectrum output by the mixed sound time frequency expansion unit so as to maximize the objective function representing the probability of the state sequence representing the state z i, l of the sound source signal of each sound source i Based on the activation parameter, the time series of the spatial correlation matrix, and the state series, the base power spectrum is updated, the activation parameter is updated, the time series of the spatial correlation matrix is updated, and the state series is updated. The update by the parameter update unit is repeatedly performed by the convergence determination unit until a predetermined convergence condition is satisfied.

このように、I個の音源からの音源信号が混合された多チャンネル観測信号の時系列データを入力として、多チャンネル観測時間周波数成分を出力し、多チャンネル観測時間周波数成分が与えられたときの、基底パワースペクトルと、アクティベーションパラメータと、空間相関行列の時系列と、状態系列との確率を表す目的関数を最大化するように、多チャンネル観測時間周波数成分、基底パワースペクトル、アクティベーションパラメータ、空間相関行列の時系列、及び状態系列に基づいて、基底パワースペクトルの更新、アクティベーションパラメータの更新、空間相関行列の時系列の更新、及び状態系列の更新の各々を行い、収束判定部により、予め定められた収束条件を満たすまで、パラメータ更新部による更新を繰り返し行うことにより、音源分離、音響イベント検出、残響除去を統合的に精度良く行うためのパラメータを推定することができる。   As described above, the time series data of the multichannel observation signal mixed with the sound source signals from the I sound sources is input, the multichannel observation time frequency component is output, and the multichannel observation time frequency component is given. Multi-channel observation time frequency component, base power spectrum, activation parameter, so as to maximize the objective function representing the probability of the base power spectrum, activation parameter, spatial correlation matrix time series and state series Based on the time series of the spatial correlation matrix and the state series, the base power spectrum is updated, the activation parameter is updated, the time series of the spatial correlation matrix is updated, and the state series is updated. Update by the parameter update unit is repeated until a predetermined convergence condition is satisfied. Accordingly, it is possible to estimate the parameters for performing sound source separation, an acoustic event detected may integrally accuracy dereverberation.

また、第1の発明において、前記目的関数を、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列が与えられたときの前記多チャンネル観測時間周波数成分の確率と、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列が出力される確率を表す事前確率との積、又は前記積の対数とし、前記パラメータ更新部は、前記積、又は前記積の対数を最大化するように、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列に基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行ってもよい。   Further, in the first invention, the objective function is defined as the probability of the multi-channel observation time frequency component when the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, and the state series are given. And the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, and the prior probability representing the probability that the state series is output, or the logarithm of the product, In order to maximize the product or the logarithm of the product, the multi-channel observation time frequency component, the base power spectrum, the activation parameter, and the spatial correlation matrix output by the mixed sound time frequency expansion unit And updating the base power spectrum based on the sequence and the state sequence, Updating Activation parameters, updating of the time series of the spatial correlation matrix, and may be carried out each update of the state sequence.

また、第1の発明において、前記目的関数を、前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、前記状態系列、(i、k、l、n)の全ての組み合わせについての補助変数Ri,k,l,n、及び(k、l)の全ての組み合わせについての補助変数Uk,lを用いて表され、かつ、前記積の対数の下限関数である補助関数とし、前記パラメータ更新部は、前記補助関数を大きくするように、前記基底パワースペクトル、前記アクティベーションパラメータ、及び前記空間相関行列の時系列に基づいて、前記補助変数、及び前記状態系列に基づいて、前記補助変数Ri,k,l,n及び前記補助変数Uk,lを更新し、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、前記状態系列、及び前記補助変数Ri,k,l,n及び前記補助変数Uk,lに基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行ってもよい。 In the first invention, the objective function may be the multi-channel observation time frequency component, the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, the state series, (i, k, l, n) auxiliary variables R i, k, l, n for all combinations of n) and auxiliary variables U k, l for all combinations of (k, l), and the logarithm of the product An auxiliary function that is a lower limit function, and the parameter update unit increases the auxiliary function based on the base power spectrum, the activation parameter, and the time series of the spatial correlation matrix, and the auxiliary variable, and Based on the state series, the auxiliary variables R i, k, l, n and the auxiliary variable U k, l are updated, and the multi-channel output by the mixed sound time frequency expansion unit is updated. Observation time frequency component, the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, the state series, the auxiliary variable R i, k, l, n and the auxiliary variable U k, l The base power spectrum may be updated, the activation parameter may be updated, the time series of the spatial correlation matrix may be updated, and the state series may be updated.

また、第1の発明において、前記補助関数は、負の逆行列に対するトレースの凹性を利用したJensenの不等式と、負の対数関数の凸性を利用した接線不等式とを用いて定められた下限関数としてもよい。   In addition, in the first invention, the auxiliary function is a lower limit determined using a Jensen inequality using the concave of the trace for a negative inverse matrix and a tangent inequality using the convexity of the negative logarithmic function. It may be a function.

また、第1の発明において、前記パラメータ更新部は、前記基底パワースペクトルのうち、各周波数ωk及び各状態qに対するパワースペクトルwi,k,qが既知又は予め推定された音源iを除いた各音源iの音源信号のパワースペクトルwi,k,qを更新してもよい。 In the first invention, the parameter updating unit excludes the sound source i from which the power spectrum w i, k, q for each frequency ω k and each state q is known or previously estimated from the base power spectrum. The power spectrum w i, k, q of the sound source signal of each sound source i may be updated.

また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said signal analysis apparatus.

以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、I個の音源からの音源信号が混合された多チャンネル観測信号を入力として、多チャンネル観測時間周波数成分が与えられたもとでの、各音源の、基底パワースペクトルと、アクティベーションパラメータと、空間相関行列の時系列と、状態系列の条件付き確率を表す目的関数を最大化するように、多チャンネル観測時間周波数成分、基底パワースペクトル、アクティベーションパラメータ、空間相関行列の時系列、及び状態系列に基づいて、基底パワースペクトルの更新、アクティベーションパラメータの更新、空間相関行列の時系列の更新、及び状態系列の更新の各々を行い、予め定められた収束条件を満たすまで、パラメータ更新部による更新を繰り返し行うことにより、音源分離、音響イベント検出、及び残響除去を統合的に精度良く行うことができる。   As described above, according to the signal analysis apparatus, method, and program of the present invention, a multi-channel observation time frequency component is given by using a multi-channel observation signal mixed with sound source signals from I sound sources. In order to maximize the objective function representing the conditional probability of the state sequence, the time series of the base power spectrum, activation parameters, spatial correlation matrix, and state sequence of each sound source, Update of base power spectrum, update of activation parameter, update of time series of spatial correlation matrix, and update of state series based on base power spectrum, activation parameter, time series of spatial correlation matrix and state series And update by the parameter update unit is repeated until a predetermined convergence condition is satisfied. Ukoto, the sound source separation, an acoustic event detected, and a dereverberation integrated manner can be accurately performed.

本発明の第1の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the signal analyzer which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the parameter estimation processing routine in the signal analyzer which concerns on the 1st Embodiment of this invention. 混合音のスペクトログラムを示す図である。It is a figure which shows the spectrogram of a mixed sound. 無響下でのホッチキスの音のスペクトログラムを示す図である。It is a figure which shows the spectrogram of the sound of the stapler under anechoic. 残響除去済み分散音のスペクトログラムを示す図である。It is a figure which shows the spectrogram of the dispersed sound after dereverberation. 音響イベント検出結果を示す図である。It is a figure which shows an acoustic event detection result. 従来法による分離音のスペクトログラムを示す図である。It is a figure which shows the spectrogram of the separation sound by a conventional method. 本発明の第2の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the signal analyzer which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the parameter estimation processing routine in the signal analyzer which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the signal analyzer which concerns on the 3rd Embodiment of this invention. 本発明の第3の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the parameter estimation processing routine in the signal analyzer which concerns on the 3rd Embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<発明の概要>
まず、本実施の形態における概要について説明する。本実施の形態において、非特許文献3及び非特許文献4の手法をそのまま利用して、音源信号の状態や残響を考慮した精度良い音源分離を行うためには、従来の手法とは別に、残響除去と、音源信号の状態推定とを行う必要がある。しかし、実環境においてどのように残響がかかるかは各音源信号によって異なるため、残響除去の精度は音源分離性能に依存する。また、複数の音源信号の混合した信号からある特定の音源信号の状態を推定するよりも、他の音が混じっていない音源信号からその音源信号の状態を推定する方が簡単であることから、音源信号の状態推定精度も当然ながら音源分離性能に依存する。
<Outline of the invention>
First, an outline of the present embodiment will be described. In this embodiment, in order to perform accurate sound source separation in consideration of the state of a sound source signal and reverberation using the methods of Non-Patent Document 3 and Non-Patent Document 4 as they are, reverberation is separate from the conventional method. It is necessary to perform removal and state estimation of the sound source signal. However, since how the reverberation is applied in the actual environment varies depending on each sound source signal, the accuracy of dereverberation depends on the sound source separation performance. Since it is easier to estimate the state of a sound source signal from a sound source signal not mixed with other sounds than to estimate the state of a specific sound source signal from a mixed signal of a plurality of sound source signals, Naturally, the state estimation accuracy of the sound source signal also depends on the sound source separation performance.

そのため、音源分離、音響イベント検出、及び残響除去という3つの問題は、相互に依存関係があり、その精度向上のためには、本来同時に解くことが望ましいと考えられる。そこで、本実施の形態においては、音源信号、音響イベント、及び残響に関するパラメータを用いて、非特許文献3及び非特許文献4におけるモデル化よりも詳細に多チャンネル観測信号をモデル化し、そのモデルに基づく画一的最適化規準によって音源分離、音響イベント検出、及び残響除去を統合的に行い、その精度を向上させる。   For this reason, the three problems of sound source separation, acoustic event detection, and dereverberation are mutually dependent, and in order to improve the accuracy, it is desirable to solve them at the same time. Therefore, in the present embodiment, a multi-channel observation signal is modeled in more detail than the modeling in Non-Patent Document 3 and Non-Patent Document 4 using parameters related to sound source signals, acoustic events, and reverberation, and Based on uniform optimization criteria based on, sound source separation, acoustic event detection, and dereverberation are integrated to improve accuracy.

<本実施の形態の原理>
次に、本実施の形態の原理について説明する。本実施の形態においては、音源信号、音響イベント、及び残響に関するパラメータによって音響信号の生成モデルを構築すること、画一的規準の最適化によって各パラメータを求めるための、収束性の保障された反復アルゴリズムを実現すること、そして、パラメータ推定によって音源分離、音響イベント検出、及び残響除去を統合的に精度良く行えることを目的とする。本実施の形態においては、具体的には以下1〜5により実現する。
<Principle of this embodiment>
Next, the principle of this embodiment will be described. In this embodiment, it is possible to construct a generation model of an acoustic signal based on parameters related to a sound source signal, an acoustic event, and reverberation, and to obtain each parameter by optimization of uniform criteria. An object is to realize an algorithm and to perform sound source separation, acoustic event detection, and dereverberation comprehensively and accurately by parameter estimation. In the present embodiment, specifically, the following 1 to 5 are realized.

1.音源信号のパワースペクトル、音源信号の各時刻におけるパワー、音源信号の状態,及び音源信号の空間相関行列の時系列を、同一の規準を大きくするように交互に更新する。
2.同一の規準を、パラメータが決まった時に多チャンネル観測信号が出力される確率を表す尤度関数と、各パラメータが出力される確率を表す事前確率との積(またはその対数)とする。
3.多チャンネル観測信号の出力確率の対数を上回らず、かつ、これに接する関数で、各パラメータと補助変数によって表されるものを同一の規準とし、この規準を大きくするように各パラメータと補助変数を交互に更新する。
4.同一の規準は、負の逆行列に対するトレースの凹性を利用したJensenの不等式と、負の対数関数の凸性を利用した接線不等式を用いて作られる下限関数である。
5.あらかじめ既知である(あるいは推定した)パラメータを除くパラメータのみを交互に更新する。
1. The power spectrum of the sound source signal, the power of the sound source signal at each time, the state of the sound source signal, and the time series of the spatial correlation matrix of the sound source signal are alternately updated so as to increase the same criterion.
2. The same criterion is a product (or a logarithm thereof) of a likelihood function that represents the probability that a multi-channel observation signal is output when parameters are determined and the prior probability that represents the probability that each parameter is output.
3. Functions that do not exceed the logarithm of the output probability of a multichannel observation signal and that are in contact with this are represented by each parameter and auxiliary variable as the same criterion, and each parameter and auxiliary variable are set to increase this criterion. Update alternately.
4). The same criterion is a lower bound function created using Jensen's inequality using the concave nature of the trace for the negative inverse matrix and the tangent inequality using the convexity of the negative logarithmic function.
5). Only the parameters except the parameters already known (or estimated) are updated alternately.

次に、多チャンネルfactorial HMMによる多チャンネル観測時間周波数成分生成モデルについて説明する。まず、多チャンネル観測信号の生成プロセスについて説明する。I個の音源信号がM個のマイクロフォンで観測される場合を考えると、   Next, a multi-channel observation time frequency component generation model using a multi-channel factorial HMM will be described. First, a process for generating a multi-channel observation signal will be described. Consider the case where I sound source signals are observed by M microphones.

をm番目のマイクで観測される多チャンネル観測信号、 A multi-channel observation signal observed by the m-th microphone,

をi番目の音源信号だとすると、多チャンネル観測信号は時間領域において下記(1)式となる。なお、記号の上又は後に「^」が付与されている記号は、テンソル、行列、又はベクトル表記を表す。 Is the i-th sound source signal, the multi-channel observation signal is expressed by the following equation (1) in the time domain. Note that a symbol with “^” above or after the symbol represents a tensor, a matrix, or a vector notation.

ここで、   here,

である。ai,m(t)は、i番目の音源とm番目のマイクの間の室内インパルス応答を表す。ここで、室内インパルス応答長が時間周波数展開における時間窓長よりも十分に短い場合、瞬時混合近似を用いて多チャンネル観測信号は下記(2)式のように、時間周波数領域において表される。 It is. a i, m (t) represents an indoor impulse response between the i-th sound source and the m-th microphone. Here, when the indoor impulse response length is sufficiently shorter than the time window length in the time-frequency expansion, the multi-channel observation signal is expressed in the time-frequency domain using the instantaneous mixing approximation as shown in the following equation (2).

ただし、 However,

である。ここで、 It is. here,

は、m番目のマイクで観測された多チャンネル観測信号の周波数ω、時刻tにおける時間周波数成分であり、 Is the frequency ω k of the multi-channel observation signal observed by the mth microphone, and the time frequency component at time t 1 ,

はi番目の音源信号の周波数ω、時刻tにおける時間周波数成分である。a^(ω)は、i番目の音源信号に対する周波数ωにおける伝達周波数特性を表す。 Is the frequency ω k of the i th sound source signal and the time frequency component at time t 1 . a ^ ik ) represents the transfer frequency characteristic at the frequency ω k for the i-th sound source signal.

と、 When,

とはそれぞれ時間周波数領域における周波数及び時間のインデックスである。しかし、残響がある場合には、一般的に、室内インパルス応答長は時間窓長に対して十分に短いとはいえず、上記(2)式の瞬時混合近似は成り立たない。そこで、時間周波数領域における畳み込みの混合の形で多チャンネル観測信号を近似すると、下記(3)式のように表される。 Are indices of frequency and time in the time-frequency domain, respectively. However, when there is reverberation, in general, it cannot be said that the indoor impulse response length is sufficiently short with respect to the time window length, and the instantaneous mixing approximation of the above equation (2) does not hold. Therefore, when the multichannel observation signal is approximated in the form of convolution mixed in the time-frequency domain, it is expressed as the following equation (3).

ここで、a^(ω,t)は、i番目の音源信号に対する周波数ωにおける伝達周波数特性の時刻tの成分であり、 Here, a ^ ik , t n ) is a component at time t n of the transfer frequency characteristic at the frequency ω k for the i th sound source signal,

は、伝達周波数特性の時間周波数領域における時間インデックスである。ここで、a^(ω,t)はi番目の音源信号が時間周波数領域においてtだけ先の時刻にどれだけ影響を与えるか、すなわち時間周波数領域においてどれだけ残響がかかるかを表している。なお、以後ω、t、tの各々をk、l、nの各々として表す。 Is a time index in the time frequency domain of the transfer frequency characteristic. Here, a ^ ik , t n ) indicates how much the i-th sound source signal affects the time ahead by t n in the time-frequency domain, that is, how much reverberation is applied in the time-frequency domain. Represents. Hereinafter, each of ω k , t 1 , and t n is represented as k, l, and n, respectively.

次に、上記(3)式に基づいて多チャンネル観測信号の生成プロセスを確率的に下記(4)式として記述する。音源信号si,k,lが平均0、分散σi,k,l の複素正規分布に従うと仮定すると、a^1:I,k,1:Nとsi,k,l−N:lとが既知の条件下で多チャンネル観測信号y^k,lは上記(3)式より同じく複素正規分布に従う。 Next, the multi-channel observation signal generation process is stochastically described as the following equation (4) based on the above equation (3). Assuming that the sound source signals s i, k, l follow a complex normal distribution with mean 0 and variance σ i, k, l 2 , a ^ 1: I, k, 1: N and s i, k, l-N: Under the condition that l is known, the multi-channel observation signal ^ k, l follows a complex normal distribution from the above equation (3).

ただし、C^i,k,n=a^i,k,na^i,k,n は空間相関行列と呼ばれる行列であり、また、 However, C ^ i, k, n = a ^ i, k, na ^ i, k, nH is a matrix called a spatial correlation matrix,

次に、HMMを用いた音源信号スペクトルのモデル化について説明する。まず音源信号がある1つのパワースペクトルを持つと仮定し、非特許文献1及び非特許文献2のNMFを適用すると、音源信号si,k,lのパワースペクトルの期待値δi,k,l は、下記(5)式のように分解することができる。 Next, sound source signal spectrum modeling using the HMM will be described. First assume that with one of the power spectrum where there is the sound source signal, applying the non-patent documents 1 and 2 NMF, the sound source signal s i, k, the expected value of the power spectrum of the l [delta] i, k, l 2 can be decomposed as shown in the following formula (5).

ただし、wi,kとhi,lとは非負の値を持つ。wi,1:Kはi番目の音源信号のパワースペクトルを表し、hi,lは時刻lにおいてどのくらいの音量で鳴っているか、すなわちパワーを表す。この時音源信号の生成プロセスは下記(6)式のように表される。 However, w i, k and h i, l have non-negative values. w i, 1: K represents the power spectrum of the i-th sound source signal, and h i, l represents how loud the sound is at time l, that is, the power. At this time, the generation process of the sound source signal is expressed by the following equation (6).

しかし多くの場合、無音状態、音の立ち上がり、定常状態など音源信号はその状態に応じて複数のスペクトルを持つので、単一のスペクトルによるモデル化では不十分である。そこで、時刻lにおけるi番目の音源信号の状態を表す隠れ変数zi,l∈{1,...,Q}を導入し、状態系列zi,1,...,zi,Lがマルコフ連鎖に従うと仮定し、下記(7)式のように表す。 However, in many cases, since a sound source signal such as a silence state, a sound rise, or a steady state has a plurality of spectra, modeling with a single spectrum is insufficient. Therefore, a hidden variable z i, l ε {1,. . . , Q} and state sequence z i, 1 ,. . . , Z i, L are assumed to follow a Markov chain, and are expressed as the following equation (7).

ただしCategorical(x;y^)=yであり、ρ^=(ρq,1,...,ρq,Q)は状態qから各状態1,...,Qに遷移する時の遷移確率を表し、ρ^=(ρq,q´Q×Qは遷移行列である。Qは音源の状態数を表す。ここで、パワーhi,lが各状態zi,lに応じて異なるハイパーパラメータを持つガンマ分布から生成されると仮定すると下記(8)式のように表される。 However Categorical; a (x y ^) = y x , ρ ^ q = (ρ q, 1, ..., ρ q, Q) is each state 1, ... from the state q . . , Q represents the transition probability at the time of transition, and ρ ^ = (ρ q, q ′ ) Q × Q is a transition matrix. Q represents the number of states of the sound source. Here, if it is assumed that the power h i, l is generated from a gamma distribution having different hyperparameters according to each state z i, l , the following expression (8) is obtained.

ただし、α1:Qとβ1:Qとはそれぞれガンマ分布のスケールパラメータと形状パラメータであり、 Where α 1: Q and β 1: Q are the scale parameter and shape parameter of the gamma distribution, respectively.

である。パワーhi,lは無音状態において小さな値をとってほしいので、小さな値をとる確率が高くなるような分布になるようにガンマ分布のパラメータを設定し、残りの状態(有音状態に対応)に対しては、一様分布に近くなるようにガンマ分布のパラメータを設定すればよい。時刻lにおけるi番目の音源信号のパワースペクトルもzi,lに応じて決まると仮定すると、音源信号si,k,lの生成プロセスは、wi,k,1:Q,hi,l,zi,lが既知の条件下で下記(9)式のように表される。 It is. Since power h i, l wants to take a small value in the silent state, the gamma distribution parameters are set so that the probability of taking a small value is high, and the remaining state (corresponding to the sound state) For this, the parameters of the gamma distribution may be set so as to be close to a uniform distribution. Assuming that the power spectrum of the i-th sound source signal at time l is also determined according to z i, l , the generation process of the sound source signals s i, k, l is w i, k, 1: Q , h i, l. , Z i, l are represented by the following equation (9) under known conditions.

多チャンネル観測信号の最終的な生成モデルはa^i:I,k,0:N,w1:I,k,1:Q,h1:I,l−N:l,z1:I,l−N:lが既知の条件下で、上記(7)式と上記(8)式と合わせて下記(10)式のように表される。 The final generation model of the multi-channel observation signal is a ^ i: I, k, 0: N , w 1: I, k, 1: Q , h 1: I, l-N: l , z 1: I, l-N: l is represented by the following formula (10) together with the above formula (7) and the above formula (8) under a known condition.

上記の生成モデルを定めることにより、以下説明するパラメータ推定アルゴリズムを適用することができる。   By determining the generation model, a parameter estimation algorithm described below can be applied.

次に、モデルパラメータの推定について説明する。パラメータの推定は、多チャンネル観測時間周波数成分Y^=y^1:K,1:Lが与えられたときに、スペクトル生成モデルパラメータΘ^の条件付き確率P(Θ^|Y^)を最大化する問題として定式化される。推定すべきパラメータΘ^は、音源信号の基底パワースペクトルW^=w1:I,1:K,1:Q、アクティベーションパラメータH^=h1:I,1:L、空間相関行列の時系列C^=C^1:I,1:K,0:N、及び音源の状態系列Z^z1:I,1:Lである。ここで、W^とH^とが音源信号、C^が残響、Z^が音響イベントに関するパラメータとなっており、当該パラメータの各々を推定することで、各々音源分離、残響除去、及び音響イベント検出を行うことに対応している。 Next, model parameter estimation will be described. The parameter is estimated by maximizing the conditional probability P (Θ ^ | Y ^) of the spectrum generation model parameter Θ ^ when multi-channel observation time frequency components Y ^ = y ^ 1: K, 1: L are given. It is formulated as a problem. The parameter Θ ^ to be estimated is the basis power spectrum W ^ = w 1: I, 1: K, 1: Q of the sound source signal, the activation parameter H ^ = h 1: I, 1: L , and the spatial correlation matrix The sequence C ^ = C ^ 1: I, 1: K, 0: N , and the sound source state sequence Z ^ z 1: I, 1: L. Here, W ^ and H ^ are sound source signals, C ^ is reverberation, and Z ^ is a parameter related to an acoustic event. By estimating each parameter, sound source separation, dereverberation, and acoustic event are performed. It corresponds to performing detection.

ここで、Θ^の条件付き確率P(Θ^|Y^)を最大化するΘ^を求めることは難しいが、各変数について局所最適化を繰り返すことは可能である。この時P(Θ^|Y^)は下記(11)式及び下記(12)式のように表される。   Here, it is difficult to obtain Θ ^ that maximizes the conditional probability P (Θ ^ | Y ^) of Θ ^, but local optimization can be repeated for each variable. At this time, P (Θ ^ | Y ^) is expressed as the following formula (11) and the following formula (12).

ここで、 here,

は定数部分を除いて一致することを意味する。 Means match except for the constant part.

本実施の形態において用いるアルゴリズムでは、各変数についてlоgP(Θ^|Y^
)の最大化を反復することでパラメータ推定を行う。lоgP(Θ^|Y^)の最大化は、補助関数法を用いて各パラメータについて逐次的に実行可能である。ここで、lоgP(Θ^|Y^)を具体的に、下記(13)式で表す。
In the algorithm used in the present embodiment, lgP (Θ ^ | Y ^
The parameter estimation is performed by repeating the maximization of). Maximization of llgP (Θ ^ | Y ^) can be performed sequentially for each parameter using the auxiliary function method. Here, lоgP (Θ ^ | Y ^) is specifically expressed by the following equation (13).

である。ここで、目的関数lоgP(Θ^|Y^)を It is. Where the objective function llgP (Θ ^ | Y ^) is

と置き、負の逆行列関数の凹性を利用したJensenの不等式と負の対数関数の凸性を利用した接線不等式を適用すると下記(14)式のように表される。 When Jensen's inequality using the negative inverse matrix function and the tangential inequality using the negative logarithmic function are applied, the following equation (14) is obtained.

ここで、R^i,k,l,nとU^k,lはΣi,nR^i,k,l,n=I^を満たす得るミート正定値行列であり、R^とU^の集合をΛ^で表す。tr(・)は行列のトレースを表す。上記(14)式の統合成立条件は、下記(15)式及び下記(16)式である。 Here, an R ^ i, k, l, n and U ^ k, l is Σ i, n R ^ i, k, l, n = I ^ obtain satisfying meat positive definite matrix, R ^ and U ^ Is represented by Λ ^. tr (·) represents a matrix trace. The integration establishment conditions of the above equation (14) are the following equation (15) and the following equation (16).

ここで、任意のΘ^について、Λ^が上記(15)式及び上記(16)式で与えられるとき、補助関数   Here, for any Θ ^, when Λ ^ is given by the above equations (15) and (16), the auxiliary function

は目的関数 Is the objective function

と等しい。そして任意の固定されたΛ^について Is equal to And for any fixed Λ ^

を増加させるΘ^は、上記(14)式により Is increased by the above equation (14).

を必ず増加させる。そのため、上記(15)式及び上記(16)式によるΛ^の更新と、 Always increase. Therefore, update of Λ ^ by the above formula (15) and the above formula (16),

を増加させるようなΘ^の更新を繰り返すことにより、目的関数は局所最適解に到達するまで、単調に増加する。 By repeatedly updating Θ ^ to increase, the objective function increases monotonically until a local optimal solution is reached.

次に、パラメータの更新について説明する。Λ^を固定したとき、補助関数   Next, parameter updating will be described. When Λ ^ is fixed, auxiliary function

は、基底パワースペクトルW^、及びアクティベーションパラメータH^について、下記(17)式〜下記(20)式により最大化される。 Is maximized by the following formula (17) to the following formula (20) with respect to the base power spectrum W ^ and the activation parameter H ^.

ここで、   here,

を最大化するC^は、下記(21)式に示すRiccati方程式に従って求められる。 C ^ that maximizes is obtained according to the Riccati equation shown in the following equation (21).

Z^の更新に関しては、基底パワースペクトルW^、アクティベーションパラメータH^、空間相関行列の時系列C^を固定したもとで行うViterbiアルゴリズムにより、   Regarding the update of Z ^, the Viterbi algorithm performed with the base power spectrum W ^, the activation parameter H ^, and the spatial correlation matrix time series C ^ fixed,

を最大化する状態系列Z^を取得する。 Obtain a state sequence Z ^ that maximizes.

<本発明の第1の実施の形態に係る信号解析装置の構成>
次に、本発明の第1の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
<Configuration of Signal Analysis Device According to First Embodiment of the Present Invention>
Next, the configuration of the signal analysis apparatus according to the first embodiment of the present invention will be described. As shown in FIG. 1, the signal analyzing apparatus 100 according to the first embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a parameter estimation processing routine to be described later, , Can be configured with a computer including. Functionally, the signal analyzing apparatus 100 includes an input unit 10, an arithmetic unit 20, and an output unit 90 as shown in FIG.

入力部10は、残響がかかっておらず、他の音源が混じっていないクリーンな音響信号(以後、クリーン音響信号)の時系列データと当該音響信号が何の音源に対応しているかを表すラベルとのペアを受け付け、データベース22に記憶する。また、入力部10は、マイクロフォンから出力された残響がかかっており、クリーン音響信号を受け付けた複数の音源からの音源信号が混じっている混合音の音響信号(以後、混合音音響信号)の時系列データを受け付ける。   The input unit 10 is time-series data of a clean acoustic signal (hereinafter referred to as a clean acoustic signal) that is not reverberated and not mixed with other sound sources, and a label that indicates what sound source the sound signal corresponds to. Is received and stored in the database 22. The input unit 10 is a mixed sound signal (hereinafter referred to as a mixed sound signal) in which the reverberation output from the microphone is applied and the sound source signals from a plurality of sound sources that have received the clean sound signal are mixed. Accept series data.

演算部20は、データベース22と、時間周波数展開部24と、パラメータ推定部26と、パラメータ更新部32と、収束判定部34と、音声信号生成部40と、を含んで構成されている。   The calculation unit 20 includes a database 22, a time frequency expansion unit 24, a parameter estimation unit 26, a parameter update unit 32, a convergence determination unit 34, and an audio signal generation unit 40.

データベース22には、入力部10において受け付けたクリーン音響信号の時系列データが記憶されている。   The database 22 stores time series data of clean acoustic signals received by the input unit 10.

時間周波数展開部24は、データベース22に記憶されているクリーン音響信号の時系列データに基づいて、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分Y^を計算する。なお、第1の実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。 Time-frequency expansion unit 24, based on time-series data of the clean acoustic signals stored in the database 22, the multi-represents the observation time-frequency component y (ω k, t l) of each frequency omega k at each time t l The channel observation time frequency component Y ^ is calculated. In the first embodiment, time-frequency expansion such as short-time Fourier transform and wavelet transform is performed.

パラメータ推定部26は、時間周波数展開部24において取得した多チャンネル観測時間周波数成分Y^に対して従来技術である、多チャンネルNMFを用いてパワースペクトルwi,k,qの推定を行い、基底パワースペクトルW^を取得する。具体的には、上記(10)式に示された生成モデルにおいて、音源信号の数I=1、伝達周波数特性における残響時間長N=0とした状態でパワースペクトルwi,k,qの推定を行い、結果として得られたパワースペクトルを、処理対象としたクリーン音響信号に対応したパワースペクトルwi,k,qとして用いる。また、処理対象としたクリーン音響信号のラベルと、処理対象のクリーン音響信号に対応したパワースペクトルwi,k,qとをペアにして保持する。 The parameter estimation unit 26 estimates the power spectrum w i, k, q using the multi-channel NMF, which is a conventional technique, for the multi-channel observation time frequency component Y ^ acquired by the time-frequency expansion unit 24, and Obtain the power spectrum W ^. Specifically, in the generation model shown in the above equation (10), the power spectra w i, k, q are estimated with the number of sound source signals I = 1 and the reverberation time length N = 0 in the transfer frequency characteristics. And the resulting power spectrum is used as the power spectrum w i, k, q corresponding to the clean acoustic signal to be processed. In addition, a label of the clean acoustic signal to be processed and a power spectrum w i, k, q corresponding to the clean acoustic signal to be processed are held in pairs.

混合音時間周波数展開部28は、時間周波数展開部24と同様に、入力部10において受け付けた混合音音響信号の時系列データに基づいて、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分Y^を計算する。なお、第1の実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。 Similar to the time frequency expansion unit 24, the mixed sound time frequency expansion unit 28 is based on the time series data of the mixed sound acoustic signal received by the input unit 10, and the observation time frequency component of each frequency ω k at each time t 1 . A multi-channel observation time frequency component Y ^ representing y (ω k , t l ) is calculated. In the first embodiment, time-frequency expansion such as short-time Fourier transform and wavelet transform is performed.

パラメータ更新部32は、上記(14)式に示す目的関数を最大化するように、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、パラメータ推定部26において取得した基底パワースペクトルW^と、初期値である、又は前回更新した、各時刻tにおける各音源iの音源信号のパワーhi,lを表すアクティベーションパラメータH^と、初期値である、又は前回更新した、各時刻t及び各周波数ωにおける各音源iの伝達周波数特性の成分ai,k,nに基づいて求められる、空間相関行列C^i,k,nを表す空間相関行列の時系列C^と、初期値である、又は前回更新した各時刻tにおける各音源iの音源信号の状態zi,lを表す状態系列と、に基づいて、補助変数R^と補助変数U^との集合であるΛ^の更新と、アクティベーションパラメータH^の更新と、空間相関行列の時系列C^の更新と、各音源iの音源信号の状態zi,lの更新とを行う。 The parameter update unit 32 uses the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28 and the basis acquired by the parameter estimation unit 26 so as to maximize the objective function shown in the above equation (14). Power spectrum W ^, which is an initial value or updated last time, an activation parameter H ^ representing the power h i, l of the sound source signal of each sound source i at each time t l, and an initial value, or last time updated When the spatial correlation matrix represents the spatial correlation matrix C ^ i, k, n obtained based on the components a i, k, n of the transmission frequency characteristics of each sound source i at each time t n and each frequency ω k . Based on the series C ^ and the state series representing the state z i, l of the sound source signal of each sound source i at each time t l which is an initial value or updated last time, the auxiliary variable R ^ and the auxiliary variable Update of Λ ^ which is a set with the number U ^, update of the activation parameter H ^, update of the time series C ^ of the spatial correlation matrix, and update of the state z i, l of the sound source signal of each sound source i I do.

具体的には、まず、パラメータ推定部26において取得した基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に基づいて、補助変数R^と補助変数U^と(以後、Λ^とする)を更新する。次に、更新したΛ^と、初期値である、又は前回更新した空間相関行列の時系列C^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、パラメータ推定部26において取得した基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^とに基づいて、上記(18)式〜上記(20)式に従って、アクティベーションパラメータH^を更新する。   Specifically, first, the base power spectrum W ^ acquired by the parameter estimation unit 26, the initial value, or the activation parameter H ^ updated last time, and the initial value or the previously updated spatial correlation matrix Based on the time series C ^, the auxiliary variable R ^ and the auxiliary variable U ^ (hereinafter referred to as Λ ^) are updated based on the formula (15) and the formula (16). Next, the updated Λ ^, the initial value or the time series C ^ of the spatial correlation matrix updated last time, the multi-channel observation time frequency component Y ^ acquired in the mixed sound time frequency expansion unit 28, and parameter estimation Based on the base power spectrum W ^ acquired in the unit 26 and the activation parameter H ^ that is an initial value or updated last time, the activation parameter H ^ is determined according to the above formula (18) to the above formula (20). Update.

次に、パラメータ推定部26において取得した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記同様、Λ^を更新する。次に、更新したΛ^と、初期値又は前回更新した空間相関行列の時系列C^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、パラメータ推定部26において取得した基底パワースペクトルW^と、更新したアクティベーションパラメータH^とに基づいて、上記(21)式〜上記(22)式に従って、空間相関行列の時系列C^を更新する。   Next, based on the base power spectrum W ^ acquired in the parameter estimation unit 26, the updated activation parameter H ^, and the time series C ^ of the spatial correlation matrix that is the initial value or updated last time, the same as above. , Λ ^ is updated. Next, the updated Λ ^, the initial value or the time series C ^ of the spatial correlation matrix updated last time, the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28, and the parameter estimation unit 26 Based on the acquired base power spectrum W ^ and the updated activation parameter H ^, the time series C ^ of the spatial correlation matrix is updated according to the above equations (21) to (22).

次に、パラメータ推定部26において取得した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、更新した空間相関行列の時系列C^とに基づいて、上記と同様にΛ^を更新する。次に、パラメータ推定部26において取得した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、更新した空間相関行列の時系列C^とに基づいて、Viterbiアルゴリズムに従って、   Next, based on the base power spectrum W ^ acquired by the parameter estimation unit 26, the updated activation parameter H ^, and the updated time series C ^ of the spatial correlation matrix, Λ ^ is updated in the same manner as described above. . Next, based on the base power spectrum W ^ acquired in the parameter estimation unit 26, the updated activation parameter H ^, and the updated time series C ^ of the spatial correlation matrix, according to the Viterbi algorithm,

を最大化する状態系列Z^を更新する。そして、更新した各パラメータに基づく目的関数 Update the state sequence Z ^ that maximizes. And the objective function based on each updated parameter

の値を収束判定部34に出力する。 Is output to the convergence determination unit 34.

収束判定部34は、パラメータ更新部32において取得した目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下である場合に、収束条件を満たすと判定する。収束条件を満たすまで、パラメータ更新部32における更新処理と、収束判定部34における収束条件の判定処理を繰り返す。   The convergence determination unit 34 determines that the convergence condition is satisfied when the difference between the value of the objective function acquired by the parameter update unit 32 and the value of the previous objective function is equal to or less than a predetermined threshold value. Until the convergence condition is satisfied, the update process in the parameter update unit 32 and the determination process of the convergence condition in the convergence determination unit 34 are repeated.

音声信号生成部40は、パラメータ推定部26において取得した基底パワースペクトルW^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、パラメータ更新部32において更新したアクティベーションパラメータH^及び空間相関行列の時系列C^とに基づいて、下記(23)式に示す多チャンネルウィーナーフィルタに従って、i番目の音響信号に対応する残響が除去された分離音y^i,k,lを算出し、出力部90から出力する。また、音声信号生成部40は、パラメータ更新部32において更新した状態系列Zに基づいて、i番目の音源信号のラベルに対応する音響イベントを検出し、出力部90に出力する。 The sound signal generation unit 40 includes the base power spectrum W ^ acquired by the parameter estimation unit 26, the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28, and the activation updated by the parameter update unit 32. Based on the parameter H ^ and the time series C ^ of the spatial correlation matrix, the separated sound * y ^ i, from which the reverberation corresponding to the i-th acoustic signal is removed according to the multi-channel Wiener filter shown in the following equation (23) . k and l are calculated and output from the output unit 90. Further, the audio signal generation unit 40 detects an acoustic event corresponding to the label of the i-th sound source signal based on the state sequence Z updated by the parameter update unit 32 and outputs it to the output unit 90.

<本発明の第1の実施の形態に係る信号解析装置の作用>
次に、本発明の第1の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10においてクリーン音響信号の時系列データとラベルとのペアを受け付け、データベース22に記憶する。次に、入力部10において、マイクロフォンから出力された混合音音響信号の時系列データを受け付けると、信号解析装置100は、図2に示すパラメータ推定処理ルーチンを実行する。
<Operation of the signal analyzing apparatus according to the first embodiment of the present invention>
Next, the operation of the signal analyzing apparatus 100 according to the first embodiment of the present invention will be described. First, a pair of clean sound signal time-series data and a label is received at the input unit 10 and stored in the database 22. Next, when the input unit 10 receives the time-series data of the mixed sound signal output from the microphone, the signal analysis apparatus 100 executes a parameter estimation processing routine shown in FIG.

まず、ステップS100では、データベースに記憶されているクリーン音響信号の時系列データとラベルとのペアを読み込む。   First, in step S100, a pair of clean sound signal time-series data and a label stored in a database is read.

次に、ステップS102では、ステップS100において取得したクリーン音響信号の時系列データに基づいて、多チャンネル観測時間周波数成分Y^を取得する。   Next, in step S102, the multi-channel observation time frequency component Y ^ is acquired based on the time series data of the clean acoustic signal acquired in step S100.

次に、ステップS104では、ステップS102において取得した多チャンネル観測時間周波数成分Y^に基づいて、基底パワースペクトルW^を取得する。   Next, in step S104, a base power spectrum W ^ is acquired based on the multichannel observation time frequency component Y ^ acquired in step S102.

次に、ステップS106では、入力部10において受け付けた混合音音響信号の時系列データに基づいて、多チャンネル観測時間周波数成分Y^を取得する。   Next, in step S106, the multichannel observation time frequency component Y ^ is acquired based on the time-series data of the mixed sound signal received by the input unit 10.

ステップS107では、アクティベーションパラメータH^、及び空間相関行列の時系列C^について、初期値を設定する。   In step S107, initial values are set for the activation parameter H ^ and the time series C ^ of the spatial correlation matrix.

ステップS108では、ステップS104において取得した基底パワースペクトルW^と、ステップS107で初期値が設定された、又はステップS110において前回更新したアクティベーションパラメータH^と、ステップS107で初期値が設定された、又はステップS114において前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に基づいて、Λ^を更新する。   In step S108, the base power spectrum W ^ acquired in step S104, the initial value was set in step S107, or the activation parameter H ^ updated last time in step S110, and the initial value was set in step S107. Or, based on the time series C ^ of the spatial correlation matrix updated last time in step S114, Λ ^ is updated based on the above equation (15) and the above equation (16).

次に、ステップS110では、ステップS108において更新したΛ^と、ステップS107で初期値が設定された、又はステップS114において前回更新した空間相関行列の時系列C^と、ステップS106において取得した多チャンネル観測時間周波数成分Y^と、ステップS104において取得した基底パワースペクトルW^と、ステップS107で初期値が設定された、又はステップS110において前回更新したアクティベーションパラメータH^とに基づいて、アクティベーションパラメータH^を更新する。   Next, in step S110, the Λ ^ updated in step S108, the initial value set in step S107, or the time series C ^ of the spatial correlation matrix previously updated in step S114, and the multichannel acquired in step S106. Based on the observation time frequency component Y ^, the base power spectrum W ^ acquired in step S104, and the activation parameter H ^ for which the initial value was set in step S107 or updated last time in step S110, the activation parameter Update H ^.

次に、ステップS112では、ステップS104において取得した基底パワースペクトルW^と、ステップS110において更新したアクティベーションパラメータH^と、ステップS107で初期値が設定された、又はステップS114において前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に基づいて、Λ^を更新する。   Next, in step S112, the base power spectrum W ^ acquired in step S104, the activation parameter H ^ updated in step S110, and the initial value set in step S107, or the spatial correlation updated last time in step S114. Based on the time series C ^ of the matrix, Λ ^ is updated based on the above formula (15) and the above formula (16).

次に、ステップS114では、ステップS112において更新したΛ^と、ステップS107で初期値が設定された、又はステップS114において前回更新した空間相関行列の時系列C^と、ステップS106において取得した多チャンネル観測時間周波数成分Y^と、ステップS104において取得した基底パワースペクトルW^と、ステップS110において更新したアクティベーションパラメータH^とに基づいて、上記(21)式〜上記(22)式に従って、空間相関行列の時系列C^を更新する。   Next, in step S114, Λ ^ updated in step S112, the initial value set in step S107, or the time series C ^ of the spatial correlation matrix previously updated in step S114, and the multichannel acquired in step S106. Based on the observation time frequency component Y ^, the base power spectrum W ^ acquired in step S104, and the activation parameter H ^ updated in step S110, spatial correlation is performed according to the above formula (21) to the above formula (22). Update the matrix time series C ^.

次に、ステップS116では、ステップS104において取得した基底パワースペクトルW^と、ステップS110において更新したアクティベーションパラメータH^と、ステップS114において更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に基づいて、Λ^を更新する。   Next, in step S116, based on the base power spectrum W ^ acquired in step S104, the activation parameter H ^ updated in step S110, and the time series C ^ of the spatial correlation matrix updated in step S114, the above-mentioned Λ ^ is updated based on the equation (15) and the above equation (16).

次に、ステップS118では、ステップS104において取得した基底パワースペクトルW^と、ステップS110において取得したアクティベーションパラメータH^と、ステップS114において取得した空間相関行列の時系列C^とに基づいて、Viterbiアルゴリズムに従って、状態系列Z^を更新する。   Next, in step S118, based on the base power spectrum W ^ acquired in step S104, the activation parameter H ^ acquired in step S110, and the time series C ^ of the spatial correlation matrix acquired in step S114, Viterbi. The state series Z ^ is updated according to the algorithm.

次に、ステップS120では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、パラメータ推定処理ルーチンを終了し、収束条件を満たしていない場合には、ステップS108へ移行し、ステップS108〜ステップS120の処理を繰り返す。   Next, in step S120, it is determined whether or not a convergence condition is satisfied. If the convergence condition is satisfied, the parameter estimation processing routine is terminated. If the convergence condition is not satisfied, the process proceeds to step S108, and the processes in steps S108 to S120 are repeated.

<実験例>
第1の実施の形態における信号解析装置100による音源分離・残響除去・音響イベント検出の統合的手法に関し、適切に音源分離、残響除去、音響イベント検出が実行可能であることの検証のために行った予備実験について説明する。
<Experimental example>
Regarding the integrated method of sound source separation / dereverberation removal / acoustic event detection by the signal analysis apparatus 100 according to the first embodiment, it is performed to verify that sound source separation, dereverberation, and acoustic event detection can be appropriately performed. A preliminary experiment will be described.

RWCP非音声ドライソース(非特許文献5:S. Nakamura, K. Hiyane, F. Asano, T. Nishiura, and T. Yamada, “Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition,” in Proc. 2nd International Conference on Language Resources & Evaluation (LREC 2000), pp. 965-968, 2000.)の中のホッチキスの音とベルの音に対して、RWCP実環境データベース(非特許文献5)内の残響時間600msのインパルス応答を畳み込んで人工的に多チャンネルの残響下混合音声を作成した。図3に作成した混合音のスペクトログラムを示す。パワースペクトルの状態数Q=2とし、q=1が無音状態となるようにハイパーパラメータα1:Q,β1:Qを調整した上で、あらかじめクリーンな音響信号からパワースペクトルを学習し、本実施の形態における信号解析装置100を適用した。 RWCP non-voice dry source (Non-Patent Document 5: S. Nakamura, K. Hiyane, F. Asano, T. Nishiura, and T. Yamada, “Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition, ”In Proc. 2nd International Conference on Language Resources & Evaluation (LREC 2000), pp. 965-968, 2000.) An impulse response with a reverberation time of 600 ms was convoluted to create a multi-channel mixed sound under reverberation artificially. FIG. 3 shows a spectrogram of the created mixed sound. After adjusting the hyperparameters α 1: Q and β 1: Q so that the number of power spectrum states Q = 2 and q = 1 being silent, the power spectrum is learned from a clean acoustic signal in advance. The signal analysis apparatus 100 in the embodiment is applied.

無響下でのホッチキスの音(元の音源信号)のスペクトログラム(図4)、本実施の形態によって得られた残響除去済み分離音(図5)、音響イベント検出結果(図6)を示す、図4では黒がその時刻で推定された状態を表す。また従来法によって得られた分離音のスペクトログラム(図7)を示す。従来法には非特許文献4の手法を用いた。従来法では残響が音源信号として推定されてしまっているのに対して、本実施の形態における手法では残響が除去され図4で示した元の音源信号により近い分離音が得られていることが分かる。また、音源分離性能の客観指標として信号対干渉比(Signal-to-Interference-Ratio; SIR)(非特許文献6:E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE Trans. ASLP, IEEE Transactions on Audio, Speech, and Language Processing,pp. 1462-1469, 2006.)を用いた。高いSIRは高い分離性能を示す。2つの音源におけるSIRの平均は、本実施の形態による分離音では39.67[dB]、従来法による分離音では35.94[dB]であり,本実施の形態による手法が従来法と比べて高い分離性能を示していることが分かる。これにより、本実施の形態による手法によって音源分離・残響除去・音響イベント検出が統合的に行われ、従来法に比べて高い精度で音源分離が行われていることが分かる。   The spectrogram (FIG. 4) of the stapler sound (original sound source signal) under anechoic conditions, the separated sound after dereverberation obtained by the present embodiment (FIG. 5), and the acoustic event detection result (FIG. 6) are shown. In FIG. 4, black represents a state estimated at that time. Moreover, the spectrogram (FIG. 7) of the separated sound obtained by the conventional method is shown. For the conventional method, the method of Non-Patent Document 4 was used. In the conventional method, reverberation is estimated as a sound source signal, whereas in the method in this embodiment, the reverberation is removed and a separated sound closer to the original sound source signal shown in FIG. 4 is obtained. I understand. As an objective index of sound source separation performance, Signal-to-Interference-Ratio (SIR) (Non-Patent Document 6: E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation, "IEEE Trans. ASLP, IEEE Transactions on Audio, Speech, and Language Processing, pp. 1462-1469, 2006.). A high SIR indicates a high separation performance. The average SIR of the two sound sources is 39.67 [dB] for the separated sound according to the present embodiment and 35.94 [dB] for the separated sound according to the conventional method, and the method according to the present embodiment is compared with the conventional method. It can be seen that the separation performance is high. Thereby, it can be seen that sound source separation, dereverberation, and acoustic event detection are performed in an integrated manner by the method according to the present embodiment, and sound source separation is performed with higher accuracy than the conventional method.

以上説明したように、本発明の第1の実施の形態に係る信号解析装置によれば、I個の音源からの音源信号が混合された多チャンネル観測信号を入力として、多チャンネル観測時間周波数成分が与えられたもとでの、各音源の、基底パワースペクトルと、アクティベーションパラメータと、空間相関行列の時系列と、状態系列の条件付き確率を表す目的関数を最大化するように、多チャンネル観測時間周波数成分、基底パワースペクトル、アクティベーションパラメータ、空間相関行列の時系列、及び状態系列に基づいて、基底パワースペクトルの更新、アクティベーションパラメータの更新、空間相関行列の時系列の更新、及び状態系列の更新の各々を行い、予め定められた収束条件を満たすまで、パラメータ更新部による更新を繰り返し行うことにより、音源分離、音響イベント検出、及び残響除去を統合的に精度良く行うことができる   As described above, according to the signal analyzing apparatus according to the first embodiment of the present invention, a multichannel observation signal obtained by mixing sound source signals from I sound sources is input, and a multichannel observation time frequency component is input. Multi-channel observation time so that the objective function representing the conditional probability of the state sequence and the time series of the spatial power matrix and the state power spectrum of each sound source is maximized. Based on frequency components, base power spectrum, activation parameter, time series of spatial correlation matrix, and state series, update of base power spectrum, update of activation parameters, update of time series of spatial correlation matrix, and state series Perform each update and repeat the update by the parameter update unit until a predetermined convergence condition is satisfied The Ukoto, source separation, an acoustic event detected, and a dereverberation can be performed integrally precisely

また、画一的最適化規準に基づいて音源分離・音響イベント検出・残響除去を統合的に精度よく行うことができる。   In addition, sound source separation, acoustic event detection, and dereverberation can be integrated and accurately performed based on uniform optimization criteria.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、第1の実施の形態においては、多チャンネルウィーナーフィルタに従って、音響信号に対応する残響が除去された分離音を算出する場合について説明したが、これに限定されるものではなく、   For example, in the first embodiment, the case where the separated sound from which the reverberation corresponding to the acoustic signal is removed is calculated according to the multi-channel Wiener filter is not limited to this.

に時間周波数領域の多チャンネル観測信号y^k,lの位相を付加して分離音を得てもよい。 The separated sound may be obtained by adding the phase of the multi-channel observation signals ^ k, l in the time frequency domain.

また、第1の実施の形態においては、今回の目的関数と前回の目的関数との差分が予め定められた閾値以下である場合に収束条件を満たすと判定する場合について説明したが、これに限定されるものではない。例えば、予め定められた繰り返し回数の更新を行ったことを収束条件としてもよい。   In the first embodiment, the case has been described in which the convergence condition is determined when the difference between the current objective function and the previous objective function is equal to or less than a predetermined threshold. However, the present invention is not limited to this. Is not to be done. For example, the convergence condition may be that a predetermined number of repetitions has been updated.

また、更新するパラメータの順番には任意性があるため、第1の実施の形態の順番に限定されない。   Moreover, since the order of the parameters to be updated is arbitrary, the order is not limited to the order of the first embodiment.

次に、第2の実施の形態に係る信号解析装置について説明する。   Next, a signal analyzing apparatus according to the second embodiment will be described.

第2の実施の形態においては、一部のパワースペクトルを学習し、当該学習されたパワースペクトルを固定した上で、学習していないパワースペクトルを含む残りのパラメータの各々を、多チャンネル観測信号を基に推定する点が第1の実施の形態と異なる。なお、第1の実施の形態に係る信号解析装置100と同様の構成及び作用については、同一の符号を付して説明を省略する。   In the second embodiment, a part of the power spectrum is learned, the learned power spectrum is fixed, and each of the remaining parameters including the unlearned power spectrum is converted into a multi-channel observation signal. The point estimated based on this is different from the first embodiment. In addition, about the structure and effect | action similar to the signal analyzer 100 which concerns on 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

<本発明の第2の実施の形態に係る信号解析装置の構成>
次に、本発明の第2の実施の形態に係る信号解析装置の構成について説明する。図8に示すように、本発明の第2の実施の形態に係る信号解析装置200は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置200は、機能的には図8に示すように入力部210と、演算部220と、出力部90と、を含んで構成されている。
<Configuration of Signal Analysis Device According to Second Embodiment of the Present Invention>
Next, the configuration of the signal analyzing apparatus according to the second embodiment of the present invention will be described. As shown in FIG. 8, the signal analysis apparatus 200 according to the second embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a parameter estimation processing routine described later, and , Can be configured with a computer including. The signal analyzing apparatus 200 is functionally configured to include an input unit 210, a calculation unit 220, and an output unit 90 as shown in FIG.

入力部210は、残響がかかっておらず、他の音源が混じっていないクリーンな音響信号(以後、クリーン音響信号)の時系列データと当該音響信号が何の音源に対応しているかを表すラベルとのペアを受け付け、データベース222に記憶する。また、入力部210は、マイクロフォンから出力された残響がかかっており、クリーン音響信号を受け付けた音源以外の音源を含む複数の音源からの音源信号が混じっている混合音の音響信号(以後、混合音音響信号)の時系列データを受け付ける。   The input unit 210 is a time-series data of a clean acoustic signal (hereinafter referred to as a clean acoustic signal) in which no reverberation is applied and other sound sources are mixed, and a label indicating what sound source the sound signal corresponds to. And is stored in the database 222. In addition, the input unit 210 receives a reverberation output from the microphone, and is an acoustic signal of a mixed sound in which sound source signals from a plurality of sound sources including a sound source other than the sound source that has received the clean sound signal are mixed (hereinafter, mixed sound). (Acoustic sound signal) time-series data is received.

演算部220は、データベース222と、時間周波数展開部24と、パラメータ推定部226と、パラメータ更新部232と、収束判定34と、音声信号生成部40と、を含んで構成されている。   The calculation unit 220 includes a database 222, a time frequency expansion unit 24, a parameter estimation unit 226, a parameter update unit 232, a convergence determination 34, and an audio signal generation unit 40.

パラメータ推定部226は、時間周波数展開部24において取得した多チャンネル観測時間周波数成分Y^に対して従来技術である、多チャンネルNMFを用いて予め定められたパワースペクトルwi,k,qの推定を行う。具体的には、上記(10)式に示された生成モデルにおいて、音源信号の数I=1、伝達周波数特性における残響時間長N=0とした状態でパワースペクトルwi,k,qの推定を行い、結果として得られたパワースペクトルを、処理対象としたクリーン音響信号に対応したパワースペクトルwi,k,qとして用いる。 The parameter estimator 226 estimates the power spectrum w i, k, q determined in advance using the multi-channel NMF, which is a conventional technique for the multi-channel observation time frequency component Y ^ acquired by the time-frequency expansion unit 24. I do. Specifically, in the generation model shown in the above equation (10), the power spectra w i, k, q are estimated with the number of sound source signals I = 1 and the reverberation time length N = 0 in the transfer frequency characteristics. And the resulting power spectrum is used as the power spectrum w i, k, q corresponding to the clean acoustic signal to be processed.

パラメータ更新部232は、上記(14)式に示す目的関数を最大化するように、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、パラメータ推定部226において取得した既知の各音源iのパワースペクトルwi,k,q及び既知の音源以外の各音源iのパワースペクトルwi,k,qとからなる基底パワースペクトルW^と、初期値である、又は前回更新した、各時刻tにおける各音源iの音源信号のパワーhi,lを表すアクティベーションパラメータH^と、初期値である、又は前回更新した、各時刻t及び各周波数ωにおける各音源iの伝達周波数特性の成分ai,k,nに基づいて、空間相関行列C^i,k,nを表す空間相関行列の時系列C^と、初期値である、又は前回更新した各時刻tにおける各音源iの音源信号の状態zi,lを表す状態系列Z^と、に基づいて、R^とU^との集合であるΛ^の更新と、基底パワースペクトルW^の更新と、アクティベーションパラメータH^の更新と、空間相関行列の時系列C^の更新と、各音源iの音源信号の状態zi,lの更新とを行う。 The parameter update unit 232 uses the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28 and the known acquired by the parameter estimation unit 226 so as to maximize the objective function shown in the above equation (14). power spectrum w i of each sound source i of, k, the power spectrum w i of each sound source i other than q and the known sound source, k, and the bottom power spectrum W ^ consisting of q, which is an initial value, or the last update , The activation parameter H ^ representing the power h i, l of the sound source signal of each sound source i at each time t l, and the initial value or the last updated each sound source i at each time t n and each frequency ω k . Based on the components a i, k, n of the transmission frequency characteristic of the spatial correlation matrix C ^ i, k, n and the initial value of the time series C ^ representing the spatial correlation matrix C New state z i of the sound source signals of the sound sources i at each time t l, the state sequence represents a l Z ^, on the basis, R ^ and the lambda ^ update a set of U ^, bottom power spectrum Update W ^, update activation parameter H ^, update time series C ^ of the spatial correlation matrix, and update the state z i, l of the sound source signal of each sound source i.

具体的には、まず、パラメータ推定部226において取得した既知の音源iの固定されているパワースペクトルwi,k,q、及び初期値である、又は前回更新したそれ以外の音源iのパワースペクトルwi,k,qとからなる基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に従って、Λ^を更新する。次に、更新したΛ^と、基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記(17)式に従って、当該それ以外の音源iのパワースペクトルwi,k,qを更新し、基底パワースペクトルW^を一部更新する。次に、更新した基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値又は前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に従って、Λ^を更新する。次に、更新したΛ^と、初期値である、又は前回更新した空間相関行列の時系列C^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、一部更新した基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^とに基づいて、上記(18)式〜上記(20)式に従って、アクティベーションパラメータH^を更新する。次に、一部更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、初期値又は前回更新した空間相関行列の時系列C^とに基づいて、上記同様、Λ^を更新する。次に、更新したΛ^と、初期値である、又は前回更新した空間相関行列の時系列C^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、一部更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^とに基づいて、上記(21)式〜上記(22)式に従って、空間相関行列の時系列C^を更新する。次に、一部更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、更新した空間相関行列の時系列C^とに基づいて、上記と同様にΛ^を更新する。次に、一部更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、更新した空間相関行列の時系列C^とに基づいて、Viterbiアルゴリズムに従って、 Specifically, first, the power spectrum w i, k, q of the known sound source i acquired by the parameter estimation unit 226 and the power spectrum of the other sound source i that is the initial value or has been updated last time. a base power spectrum W ^ consisting of w i, k, q , an activation parameter H ^ that is an initial value or updated last time, and a time series C ^ of a spatial correlation matrix that is an initial value or previously updated Based on the above, Λ ^ is updated according to the above equation (15) and the above equation (16). Next, the updated Λ ^, the base power spectrum W ^, the activation parameter H ^ that is the initial value or the previous update, and the time series C ^ that is the initial value or the previous updated spatial correlation matrix Based on the above, the power spectrum w i, k, q of the other sound source i is updated according to the above equation (17), and the base power spectrum W ^ is partially updated. Next, based on the updated base power spectrum W ^, the initial value or the activation parameter H ^ updated last time, and the initial value or the time series C ^ of the spatial correlation matrix updated last time (15 ) And Λ ^ are updated according to the above equation and the above equation (16). Next, the updated Λ ^, the initial value or the time series C ^ of the spatial correlation matrix updated last time, the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28, and a part Based on the updated base power spectrum W ^ and the activation parameter H ^ that is an initial value or updated last time, the activation parameter H ^ is updated according to the above formulas (18) to (20). Next, Λ ^ is updated as described above based on the partially updated base power spectrum W ^, the updated activation parameter H ^, and the initial value or the time series C ^ of the spatial correlation matrix updated last time. . Next, the updated Λ ^, the initial value or the time series C ^ of the spatial correlation matrix updated last time, the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28, and a part Based on the updated base power spectrum W ^ and the updated activation parameter H ^, the time series C ^ of the spatial correlation matrix is updated according to the equations (21) to (22). Next, Λ ^ is updated in the same manner as described above based on the partially updated base power spectrum W ^, the updated activation parameter H ^, and the updated time series C ^ of the spatial correlation matrix. Next, according to the Viterbi algorithm, based on the partially updated base power spectrum W ^, the updated activation parameter H ^, and the updated time series C ^ of the spatial correlation matrix,

を最大化する状態系列Z^を更新する。そして、更新した各パラメータに基づく目的関数 Update the state sequence Z ^ that maximizes. And the objective function based on each updated parameter

の値を収束判定部34に出力する。 Is output to the convergence determination unit 34.

<本発明の第2の実施の形態に係る信号解析装置の作用>
次に、本発明の第2の実施の形態に係る信号解析装置200の作用について説明する。まず、入力部210においてクリーン音響信号の時系列データとラベルとのペアを受け付け、データベース222に記憶する。次に、入力部210において、マイクロフォンから出力された混合音音響信号の時系列データを受け付けると、信号解析装置200は、図9に示すパラメータ推定処理ルーチンを実行する。
<Operation of Signal Analysis Device According to Second Embodiment of the Present Invention>
Next, the operation of the signal analyzing apparatus 200 according to the second embodiment of the present invention will be described. First, the input unit 210 receives a pair of clean sound signal time-series data and a label, and stores them in the database 222. Next, when the input unit 210 receives time-series data of the mixed sound signal output from the microphone, the signal analysis device 200 executes a parameter estimation processing routine shown in FIG.

ステップS200では、ステップS102において取得した多チャンネル観測時間周波数成分Y^に基づいて、パワースペクトルwi,k,qを取得する。 In step S200, the power spectrum w i, k, q is acquired based on the multichannel observation time frequency component Y ^ acquired in step S102.

ステップS201では、アクティベーションパラメータH^、及び空間相関行列の時系列C^について、初期値を設定する。また、基底パワースペクトルW^のうち、既知の音源以外の各音源iのパワースペクトルwi,k,qについて、初期値を設定する。 In step S201, initial values are set for the activation parameter H ^ and the time series C ^ of the spatial correlation matrix. In addition, initial values are set for the power spectra wi , k, q of the sound sources i other than the known sound sources in the base power spectrum W ^.

ステップS202では、ステップS200において取得した既知の音源iの固定されているパワースペクトルwi,k,q、及びステップS201で初期値が設定された、又は前回のステップS203において取得した既知の音源以外の音源iのパワースペクトルwi,k,qからなる基底パワースペクトルW^と、ステップS201で初期値が設定された、又は前回のステップS206において取得したアクティベーションパラメータH^と、ステップS201で初期値が設定された、又は前回のステップS210において取得した空間相関行列の時系列C^と、に基づいて、Λ^を更新する。 In step S202, the fixed power spectrum w i, k, q of the known sound source i acquired in step S200 and the initial value set in step S201 or other than the known sound source acquired in the previous step S203 A power spectrum w i, k, q of the sound source i of the sound source i, and an activation parameter H ^ set in step S201 or obtained in the previous step S206, and an initial value in step S201. Λ ^ is updated based on the time series C ^ of the spatial correlation matrix that has been set or acquired in the previous step S210.

次に、ステップS203では、ステップS202において取得したΛ^と、ステップS200において取得した既知の音源iの固定されているパワースペクトルwi,k,q及びステップS201で初期値が設定された、又は前回のステップS203において取得した既知の音源以外の音源iのパワースペクトルwi,k,qからなる基底パワースペクトルW^と、ステップS201で初期値が設定された、又は前回のステップS206において取得したアクティベーションパラメータH^と、ステップS201で初期値が設定された、又は前回のステップS210において取得した空間相関行列の時系列C^とに基づいて、当該既知の音源以外の音源iのパワースペクトルwi,k,qを更新し、基底パワースペクトルW^を更新する。 Next, in step S203, Λ ^ acquired in step S202, the fixed power spectrum w i, k, q of the known sound source i acquired in step S200, and initial values are set in step S201, or The base power spectrum W ^ consisting of the power spectra w i, k, q of the sound source i other than the known sound source acquired in the previous step S203 and the initial value set in step S201, or acquired in the previous step S206 Based on the activation parameter H ^ and the time series C ^ of the spatial correlation matrix whose initial value was set in step S201 or acquired in the previous step S210, the power spectrum w of the sound source i other than the known sound source i, k, q are updated, and the base power spectrum W ^ is updated.

次に、ステップS204では、ステップS203において取得した基底パワースペクトルW^と、ステップS201で初期値が設定された、又は前回のステップS206において取得したアクティベーションパラメータH^と、ステップS201で初期値が設定された、又は前回のステップS210において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   Next, in step S204, the base power spectrum W ^ acquired in step S203, the initial value set in step S201 or the activation parameter H ^ acquired in the previous step S206, and the initial value in step S201. Λ ^ is updated based on the time series C ^ of the spatial correlation matrix set or acquired in the previous step S210.

次に、ステップS206では、ステップS204において取得したΛ^と、ステップS203において取得した基底パワースペクトルW^と、ステップS201で初期値が設定された、又は前回のステップS206において取得したアクティベーションパラメータH^と、ステップS201で初期値が設定された、又は前回のステップS210において取得した空間相関行列の時系列C^とに基づいて、アクティベーションパラメータH^を更新する。   Next, in step S206, the Λ ^ acquired in step S204, the base power spectrum W ^ acquired in step S203, and the activation parameter H set in step S201 or set in the previous step S206. The activation parameter H ^ is updated based on ^ and the time series C ^ of the spatial correlation matrix, whose initial value is set in step S201 or acquired in the previous step S210.

次に、ステップS208では、ステップS203において取得した基底パワースペクトルW^と、ステップS206において取得したアクティベーションパラメータH^と、ステップS201で初期値が設定された、又は前回のステップS210において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   Next, in step S208, the base power spectrum W ^ acquired in step S203, the activation parameter H ^ acquired in step S206, and the initial value set in step S201 or the space acquired in the previous step S210. Based on the time series C ^ of the correlation matrix, Λ ^ is updated.

次に、ステップS210では、ステップS208において更新したΛ^と、ステップS201で初期値が設定された、又はステップS210において前回更新した空間相関行列の時系列C^と、ステップS106において取得した多チャンネル観測時間周波数成分Y^と、ステップS203において取得した基底パワースペクトルW^と、ステップS206において更新したアクティベーションパラメータH^とに基づいて、上記(21)式〜上記(22)式に従って、空間相関行列の時系列C^を更新する。   Next, in step S210, Λ ^ updated in step S208, the initial value set in step S201, or the time series C ^ of the spatial correlation matrix previously updated in step S210, and the multichannel acquired in step S106. Based on the observation time frequency component Y ^, the base power spectrum W ^ acquired in step S203, and the activation parameter H ^ updated in step S206, spatial correlation is performed according to the above formulas (21) to (22). Update the matrix time series C ^.

次に、ステップS212では、ステップS203において取得した基底パワースペクトルW^と、ステップS206において取得したアクティベーションパラメータH^と、ステップS210において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   Next, in step S212, based on the base power spectrum W ^ acquired in step S203, the activation parameter H ^ acquired in step S206, and the time series C ^ of the spatial correlation matrix acquired in step S210, Λ Update ^.

次に、ステップS214では、ステップS203において取得した基底パワースペクトルW^と、ステップS206において取得したアクティベーションパラメータH^と、ステップS210において取得した空間相関行列の時系列C^とに基づいて、Viterbiアルゴリズムに従って、状態系列Z^を更新する。   Next, in step S214, Viterbi is based on the base power spectrum W ^ acquired in step S203, the activation parameter H ^ acquired in step S206, and the time series C ^ of the spatial correlation matrix acquired in step S210. The state series Z ^ is updated according to the algorithm.

次に、ステップS216では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、パラメータ推定処理ルーチンを終了し、収束条件を満たしていない場合には、ステップS202へ移行し、ステップS202〜ステップS216の処理を繰り返す。   Next, in step S216, it is determined whether a convergence condition is satisfied. If the convergence condition is satisfied, the parameter estimation processing routine is terminated. If the convergence condition is not satisfied, the process proceeds to step S202, and the processes in steps S202 to S216 are repeated.

以上説明したように、本発明の第2の実施の形態に係る信号解析装置によれば、I個の音源からの音源信号が混合された多チャンネル観測信号を入力として、多チャンネル観測時間周波数成分が与えられたもとでの、各音源の、基底パワースペクトルと、アクティベーションパラメータと、空間相関行列の時系列と、状態系列の条件付き確率を表す目的関数を最大化するように、多チャンネル観測時間周波数成分、基底パワースペクトル、アクティベーションパラメータ、空間相関行列の時系列、及び状態系列に基づいて、基底パワースペクトルの更新、アクティベーションパラメータの更新、空間相関行列の時系列の更新、及び状態系列の更新の各々を行い、予め定められた収束条件を満たすまで、パラメータ更新部による更新を繰り返し行うことにより、音源分離、音響イベント検出、及び残響除去を統合的に精度良く行うことができる   As described above, according to the signal analysis apparatus according to the second embodiment of the present invention, the multichannel observation signal obtained by mixing the sound source signals from the I sound sources is input, and the multichannel observation time frequency component is input. Multi-channel observation time so that the objective function representing the conditional probability of the state sequence and the time series of the spatial power matrix and the state power spectrum of each sound source is maximized. Based on frequency components, base power spectrum, activation parameter, time series of spatial correlation matrix, and state series, update of base power spectrum, update of activation parameters, update of time series of spatial correlation matrix, and state series Perform each update and repeat the update by the parameter update unit until a predetermined convergence condition is satisfied The Ukoto, source separation, an acoustic event detected, and a dereverberation can be performed integrally precisely

次に、第3の実施の形態に係る信号解析装置について説明する。   Next, a signal analyzing apparatus according to the third embodiment will be described.

第3の実施の形態においては、パワースペクトルの学習を行わずに、全てのモデルパラメータを、多チャンネル観測信号を基に推定する点が第1の実施の形態と異なる。なお、第1の実施の形態に係る信号解析装置100と同様の構成及び作用については、同一の符号を付して説明を省略する。   The third embodiment is different from the first embodiment in that all model parameters are estimated based on multi-channel observation signals without performing power spectrum learning. In addition, about the structure and effect | action similar to the signal analyzer 100 which concerns on 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

<本発明の第3の実施の形態に係る信号解析装置の構成>
次に、本発明の第3の実施の形態に係る信号解析装置の構成について説明する。図10に示すように、本発明の第3の実施の形態に係る信号解析装置300は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置300は、機能的には図10に示すように入力部310と、演算部320と、出力部90と、を含んで構成されている。
<Configuration of Signal Analysis Device According to Third Embodiment of the Present Invention>
Next, the configuration of the signal analyzing apparatus according to the third embodiment of the present invention will be described. As shown in FIG. 10, a signal analyzing apparatus 300 according to the third embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a parameter estimation processing routine to be described later, , Can be configured with a computer including. Functionally, the signal analysis device 300 includes an input unit 310, a calculation unit 320, and an output unit 90 as shown in FIG.

入力部310は、マイクロフォンから出力された残響がかかっており、複数の音源からの音源信号が混じっている混合音の音響信号(以後、混合音音響信号)の時系列データを受け付ける。   The input unit 310 receives time-series data of a mixed sound sound signal (hereinafter, mixed sound sound signal) in which reverberation output from the microphone is applied and sound source signals from a plurality of sound sources are mixed.

演算部320は、混合音時間周波数展開部28と、パラメータ更新部332と、収束判定部34と、音声信号生成部40とを含んで構成されている。   The calculation unit 320 includes a mixed sound time frequency expansion unit 28, a parameter update unit 332, a convergence determination unit 34, and an audio signal generation unit 40.

パラメータ更新部332は、上記(14)式に示す目的関数を最大化するように、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、初期値である、又は前回更新した各音源iのパワースペクトルwi,k,qとからなる基底パワースペクトルW^と、初期値である、又は前回更新した、各時刻tにおける各音源iの音源信号のパワーhi,lを表すアクティベーションパラメータH^と、初期値である、又は前回更新した、各時刻t及び各周波数ωにおける各音源iの伝達周波数特性の成分ai,k,nに基づいて、空間相関行列C^i,k,nを表す空間相関行列の時系列C^と、初期値である、又は前回更新した各時刻tにおける各音源iの音源信号の状態zi,lを表す状態系列Z^と、に基づいて、R^とU^との集合であるΛ^の更新と、基底パワースペクトルW^の更新と、アクティベーションパラメータH^の更新と、空間相関行列の時系列C^の更新と、各音源iの音源信号の状態zi,lの更新とを行う。 The parameter updating unit 332 is the initial value or the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28 so as to maximize the objective function shown in the above equation (14), or updated last time. power spectrum w i of each sound source i was, k, and the bottom power spectrum W ^ consisting of q, which is an initial value, or the last time updated, power h i of the sound source signal of each sound source i at each time t l, l Spatial correlation based on the activation parameter H ^ that represents and the component a i, k, n of the transmission frequency characteristic of each sound source i at each time t n and each frequency ω k that is an initial value or updated last time matrix C ^ i, k, and time series of spatial correlation matrix representing n C ^, which is an initial value, or the previous state z i of the sound source signals of the sound sources i at each time t l of updating, the state sequence representing the l Based on {circumflex over ()}, update of Λ ^ which is a set of R ^ and U ^, update of the base power spectrum W ^, update of the activation parameter H ^, and time series C ^ of the spatial correlation matrix The update and the update of the state z i, l of the sound source signal of each sound source i are performed.

具体的には、まず、初期値である、又は前回更新した音源iのパワースペクトルwi,k,qからなる基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に従って、Λ^を更新する。次に、更新したΛ^と、基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記(17)式に従って、基底パワースペクトルW^を更新する。次に、更新した基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^と、初期値である、又は前回更新した空間相関行列の時系列C^とに基づいて、上記(15)式、及び上記(16)式に従って、Λ^を更新する。次に、更新したΛ^と、初期値である、又は前回更新した空間相関行列の時系列C^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、更新した基底パワースペクトルW^と、初期値である、又は前回更新したアクティベーションパラメータH^とに基づいて、上記(18)式〜上記(20)式に従って、アクティベーションパラメータH^を更新する。次に、更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、初期値又は前回更新した空間相関行列の時系列C^とに基づいて、上記同様、Λ^を更新する。次に、更新したΛ^と、初期値である、又は前回更新した空間相関行列の時系列C^と、混合音時間周波数展開部28において取得した多チャンネル観測時間周波数成分Y^と、更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^とに基づいて、上記(21)式〜上記(22)式に従って、空間相関行列の時系列C^を更新する。次に、更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、更新した空間相関行列の時系列C^とに基づいて、上記と同様にΛ^を更新する。次に、更新した基底パワースペクトルW^と、更新したアクティベーションパラメータH^と、更新した空間相関行列の時系列C^とに基づいて、Viterbiアルゴリズムに従って、 Specifically, first, the base power spectrum W ^ consisting of the power spectrum w i, k, q of the sound source i that is the initial value or updated last time, and the activation parameter H ^ that is the initial value or last time updated. Λ ^ is updated according to the above formula (15) and the above formula (16) based on the initial value or the time series C ^ of the spatial correlation matrix updated last time. Next, the updated Λ ^, the base power spectrum W ^, the activation parameter H ^ that is the initial value or the previous update, and the time series C ^ that is the initial value or the previous updated spatial correlation matrix Based on the above, the base power spectrum W ^ is updated according to the above equation (17). Next, based on the updated base power spectrum W ^, the initial value or the activation parameter H ^ updated last time, and the initial value or the time series C ^ of the spatial correlation matrix previously updated, Λ ^ is updated according to the above equation (15) and the above equation (16). Next, the updated Λ ^, the initial value or the time series C ^ of the spatial correlation matrix that was updated last time, and the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28 were updated. On the basis of the base power spectrum W ^ and the activation parameter H ^ that is the initial value or updated last time, the activation parameter H ^ is updated according to the expressions (18) to (20). Next, Λ ^ is updated as described above based on the updated base power spectrum W ^, the updated activation parameter H ^, and the initial value or the time series C ^ of the previously updated spatial correlation matrix. Next, the updated Λ ^, the initial value or the time series C ^ of the spatial correlation matrix that was updated last time, and the multi-channel observation time frequency component Y ^ acquired by the mixed sound time frequency expansion unit 28 were updated. Based on the base power spectrum W ^ and the updated activation parameter H ^, the time series C ^ of the spatial correlation matrix is updated according to the above formulas (21) to (22). Next, Λ ^ is updated in the same manner as described above based on the updated base power spectrum W ^, the updated activation parameter H ^, and the updated time series C ^ of the spatial correlation matrix. Next, according to the Viterbi algorithm based on the updated base power spectrum W ^, the updated activation parameter H ^, and the updated time series C ^ of the spatial correlation matrix,

を最大化する状態系列Z^を更新する。そして、更新した各パラメータに基づく目的関数 Update the state sequence Z ^ that maximizes. And the objective function based on each updated parameter

の値を収束判定部34に出力する。 Is output to the convergence determination unit 34.

<本発明の第3の実施の形態に係る信号解析装置の作用>
次に、本発明の第3の実施の形態に係る信号解析装置300の作用について説明する。入力部310においてマイクロフォンから出力された混合音音響信号の時系列データを受け付けると、信号解析装置300は、図11に示すパラメータ推定処理ルーチンを実行する。
<Operation of Signal Analysis Device According to Third Embodiment of the Present Invention>
Next, the operation of the signal analyzing apparatus 300 according to the third embodiment of the present invention will be described. When the time series data of the mixed sound signal output from the microphone is received by the input unit 310, the signal analysis apparatus 300 executes a parameter estimation processing routine shown in FIG.

ステップS300では、パワースペクトル行列W^、アクティベーションパラメータH^、及び空間相関行列の時系列C^について、初期値を設定する。   In step S300, initial values are set for the power spectrum matrix W ^, the activation parameter H ^, and the time series C ^ of the spatial correlation matrix.

ステップS301では、ステップS300で初期値が設定された、又は前回のステップS302において取得したパワースペクトル行列W^と、ステップS300で初期値が設定された、又は前回のステップS306において取得したアクティベーションパラメータH^と、ステップS300で初期値が設定された、又は前回のステップS310において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   In step S301, the initial value was set in step S300, or the power spectrum matrix W ^ acquired in the previous step S302, and the activation parameter set in step S300 or the initial value was acquired in the previous step S306. Λ ^ is updated based on H ^ and the time series C ^ of the spatial correlation matrix whose initial value is set in step S300 or acquired in the previous step S310.

次に、ステップS302では、ステップS301において取得したΛ^と、ステップS300で初期値が設定された、又は前回のステップS302において取得したパワースペクトル行列W^と、ステップS300で初期値が設定された、又は前回のステップS306において取得したアクティベーションパラメータH^と、ステップS300で初期値が設定された、又は前回のステップS310において取得した空間相関行列の時系列C^とに基づいて、基底パワースペクトルW^を更新する。   Next, in step S302, the Λ ^ acquired in step S301 and the initial value set in step S300, or the power spectrum matrix W ^ acquired in the previous step S302, and the initial value set in step S300. Or, based on the activation parameter H ^ acquired in the previous step S306 and the time series C ^ of the spatial correlation matrix whose initial value was set in step S300 or acquired in the previous step S310, the base power spectrum Update W ^.

次に、ステップS304では、ステップS302において取得した基底パワースペクトルW^と、ステップS300で初期値が設定された、又は前回のステップS306において取得したアクティベーションパラメータH^と、ステップS300で初期値が設定された、又は前回のステップS310において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   Next, in step S304, the base power spectrum W ^ acquired in step S302, the initial value set in step S300, or the activation parameter H ^ acquired in the previous step S306, and the initial value in step S300. Λ ^ is updated based on the set time series C ^ of the spatial correlation matrix acquired in the previous step S310.

次に、ステップS306では、ステップS304において取得したΛ^とステップS302において取得した基底パワースペクトルW^と、ステップS300で初期値が設定された、又は前回のステップS306において取得したアクティベーションパラメータH^と、ステップS300で初期値が設定された、又は前回のステップS310において取得した空間相関行列の時系列C^とに基づいて、アクティベーションパラメータH^を更新する。   Next, in step S306, Λ ^ acquired in step S304, the base power spectrum W ^ acquired in step S302, and the activation parameter H ^ in which the initial value was set in step S300 or acquired in the previous step S306. Then, the activation parameter H ^ is updated based on the time series C ^ of the spatial correlation matrix set in step S300 or the initial value set in the previous step S310.

次に、ステップS308では、ステップS302において取得した基底パワースペクトルW^と、ステップS306において取得したアクティベーションパラメータH^と、ステップS300で初期値が設定された、又は前回のステップS310において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   Next, in step S308, the base power spectrum W ^ acquired in step S302, the activation parameter H ^ acquired in step S306, the initial value set in step S300, or the space acquired in the previous step S310. Based on the time series C ^ of the correlation matrix, Λ ^ is updated.

次に、ステップS310では、ステップS308において更新したΛ^と、ステップS300で初期値が設定された、又はステップS310において前回更新した空間相関行列の時系列C^と、ステップS106において取得した多チャンネル観測時間周波数成分Y^と、ステップS302において取得した基底パワースペクトルW^と、ステップS306において更新したアクティベーションパラメータH^とに基づいて、上記(21)式〜上記(22)式に従って、空間相関行列の時系列C^を更新する。   Next, in step S310, Λ ^ updated in step S308, the initial value set in step S300, or the time series C ^ of the spatial correlation matrix previously updated in step S310, and the multichannel acquired in step S106. Based on the observation time frequency component Y ^, the base power spectrum W ^ acquired in step S302, and the activation parameter H ^ updated in step S306, spatial correlation is performed according to the above formulas (21) to (22). Update the matrix time series C ^.

次に、ステップS312では、ステップS302において取得した基底パワースペクトルW^と、ステップS306において取得したアクティベーションパラメータH^と、ステップS310において取得した空間相関行列の時系列C^とに基づいて、Λ^を更新する。   Next, in step S312, based on the base power spectrum W ^ acquired in step S302, the activation parameter H ^ acquired in step S306, and the time series C ^ of the spatial correlation matrix acquired in step S310, Λ Update ^.

次に、ステップS314では、ステップS302において取得した基底パワースペクトルW^と、ステップS306において取得したアクティベーションパラメータH^と、ステップS310において取得した空間相関行列の時系列C^とに基づいて、Viterbiアルゴリズムに従って、状態系列Z^を更新する。   Next, in step S314, based on the base power spectrum W ^ acquired in step S302, the activation parameter H ^ acquired in step S306, and the time series C ^ of the spatial correlation matrix acquired in step S310, Viterbi. The state series Z ^ is updated according to the algorithm.

次に、ステップS316では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、パラメータ推定処理ルーチンを終了し、収束条件を満たしていない場合には、ステップS301へ移行し、ステップS301〜ステップS316の処理を繰り返す。   Next, in step S316, it is determined whether a convergence condition is satisfied. If the convergence condition is satisfied, the parameter estimation processing routine is terminated. If the convergence condition is not satisfied, the process proceeds to step S301, and the processes in steps S301 to S316 are repeated.

以上説明したように、本発明の第3の実施の形態に係る信号解析装置によれば、I個の音源からの音源信号が混合された多チャンネル観測信号を入力として、多チャンネル観測時間周波数成分が与えられたもとでの、各音源の、基底パワースペクトルと、アクティベーションパラメータと、空間相関行列の時系列と、状態系列の条件付き確率を表す目的関数を最大化するように、多チャンネル観測時間周波数成分、基底パワースペクトル、アクティベーションパラメータ、空間相関行列の時系列、及び状態系列に基づいて、基底パワースペクトルの更新、アクティベーションパラメータの更新、空間相関行列の時系列の更新、及び状態系列の更新の各々を行い、予め定められた収束条件を満たすまで、パラメータ更新部による更新を繰り返し行うことにより、音源分離、音響イベント検出、及び残響除去を統合的に精度良く行うことができる   As described above, according to the signal analyzing apparatus of the third embodiment of the present invention, the multi-channel observation time frequency component is input using the multi-channel observation signal mixed with the sound source signals from the I sound sources. Multi-channel observation time so that the objective function representing the conditional probability of the state sequence and the time series of the spatial power matrix and the state power spectrum of each sound source is maximized. Based on frequency components, base power spectrum, activation parameter, time series of spatial correlation matrix, and state series, update of base power spectrum, update of activation parameters, update of time series of spatial correlation matrix, and state series Perform each update and repeat the update by the parameter update unit until a predetermined convergence condition is satisfied The Ukoto, source separation, an acoustic event detected, and a dereverberation can be performed integrally precisely

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

10 入力部
20 演算部
22 データベース
24 時間周波数展開部
26 パラメータ推定部
28 混合音時間周波数展開部
32 パラメータ更新部
34 収束判定部
40 音声信号生成部
90 出力部
100 信号解析装置
200 信号解析装置
210 入力部
220 演算部
222 データベース
226 パラメータ推定部
232 パラメータ更新部
300 信号解析装置
310 入力部
320 演算部
332 パラメータ更新部
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 22 Database 24 Time frequency expansion part 26 Parameter estimation part 28 Mixed sound time frequency expansion part 32 Parameter update part 34 Convergence determination part 40 Speech signal generation part 90 Output part 100 Signal analysis apparatus 200 Signal analysis apparatus 210 Input Unit 220 calculation unit 222 database 226 parameter estimation unit 232 parameter update unit 300 signal analysis device 310 input unit 320 calculation unit 332 parameter update unit

Claims (7)

I個の音源からの音源信号が混合された多チャンネル観測信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分を出力する混合音時間周波数展開部と、
前記多チャンネル観測時間周波数成分が与えられたもとでの、各音源iの、各周波数ωk及び各状態qにおけるパワースペクトルwi,k,qを表す基底パワースペクトルと、各音源iの、各時刻tにおけるパワーhi.lを表すアクティベーションパラメータと、各音源iの各時刻tn及び各周波数ωkにおける空間相関行列Ci,k,nを表す空間相関行列の時系列と、各音源iの各時刻tにおける音源状態zi,lを表す状態系列の条件付き確率を表す目的関数を最大化するように、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列に基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行うパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、
を含む信号解析装置。
Multi-channel representing observation time frequency component y (ω k , t l ) of each frequency ω k at each time t 1 with time series data of multi-channel observation signals mixed with sound source signals from I sound sources as input. A mixed sound time frequency expansion unit that outputs an observation time frequency component;
The base power spectrum representing the power spectrum w i, k, q at each frequency ω k and each state q of each sound source i, and each time of each sound source i, given the multi-channel observation time frequency component. an activation parameter representing the power h il at t 1, a time series of a spatial correlation matrix representing the spatial correlation matrix C i, k, n at each time t n and each frequency ω k of each sound source i, and each sound source i The multi-channel observation time frequency component output by the mixed sound time frequency expansion unit so as to maximize an objective function representing a conditional probability of a state sequence representing a sound source state z i, l at each time t 1 , Based on the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, and the state series, the update of the base power spectrum, the activation A parameter update unit that performs each of update of the update parameter, update of the time series of the spatial correlation matrix, and update of the state series;
A convergence determination unit that repeatedly performs update by the parameter update unit until a predetermined convergence condition is satisfied;
Including a signal analysis device.
前記目的関数を、
前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列が与えられたときの前記多チャンネル観測時間周波数成分の確率と、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列が出力される確率を表す事前確率との積、又は前記積の対数とし、
前記パラメータ更新部は、前記積、又は前記積の対数を最大化するように、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列に基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行う請求項1記載の信号解析装置。
The objective function is
The base power spectrum, the activation parameter, the time series of the spatial correlation matrix, and the probability of the multi-channel observation time frequency component given the state series, the base power spectrum, the activation parameter, the The product of the time series of the spatial correlation matrix and the prior probability representing the probability that the state series is output, or the logarithm of the product,
The parameter update unit, the multi-channel observation time frequency component output by the mixed sound time frequency expansion unit, the base power spectrum, the activation parameter, so as to maximize the product, or the logarithm of the product Based on the time series of the spatial correlation matrix and the state series, the base power spectrum is updated, the activation parameter is updated, the time series of the spatial correlation matrix is updated, and the state series is updated. The signal analyzing apparatus according to claim 1.
前記目的関数を、
前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、前記状態系列、(i、k、l、n)の全ての組み合わせについての補助変数Ri,k,l,n、及び(k、l)の全ての組み合わせについての補助変数Uk,lを用いて表され、かつ、前記積の対数の下限関数である補助関数とし、
前記パラメータ更新部は、前記補助関数を大きくするように、前記基底パワースペクトル、前記アクティベーションパラメータ、及び前記空間相関行列の時系列に基づいて、前記補助変数、及び前記状態系列に基づいて、前記補助変数Ri,k,l,n及び前記補助変数Uk,lを更新し、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、前記状態系列、及び前記補助変数Ri,k,l,n及び前記補助変数Uk,lに基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行う
請求項2記載の信号解析装置。
The objective function is
Auxiliary variables Ri, for all combinations of the multi-channel observation time frequency component, the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, the state series, (i, k, l, n) an auxiliary function that is expressed using auxiliary variables U k, l for all combinations of k, l, n and (k, l) and that is a logarithmic lower limit function of the product,
The parameter updating unit is configured to increase the auxiliary function based on the base power spectrum, the activation parameter, and the time series of the spatial correlation matrix, based on the auxiliary variable, and the state series, The auxiliary variable R i, k, l, n and the auxiliary variable U k, l are updated, and the multi-channel observation time frequency component, the base power spectrum, and the activation parameter output by the mixed sound time frequency expansion unit Updating the base power spectrum and updating the activation parameters based on the time series of the spatial correlation matrix, the state series, the auxiliary variables R i, k, l, n and the auxiliary variables U k, l The signal analysis apparatus according to claim 2, wherein each of updating of the time series of the spatial correlation matrix and updating of the state series is performed.
前記補助関数は、負の逆行列に対するトレースの凹性を利用したJensenの不等式と、負の対数関数の凸性を利用した接線不等式とを用いて定められた下限関数である請求項3記載の信号解析装置。   4. The auxiliary function according to claim 3, wherein the auxiliary function is a lower limit function defined by using a Jensen inequality using a concave of a trace with respect to a negative inverse matrix and a tangential inequality using a convexity of a negative logarithmic function. Signal analysis device. 前記パラメータ更新部は、前記基底パワースペクトルのうち、各周波数ωk及び各状態qに対するパワースペクトルwi,k,qが既知又は予め推定された音源iを除いた各音源iの音源信号のパワースペクトルwi,k,qを更新する請求項1〜4の何れか1項記載の信号解析装置。 The parameter update unit includes the power of the sound source signal of each sound source i excluding the sound source i for which the power spectrum w i, k, q for each frequency ω k and each state q is known or previously estimated from the base power spectrum. The signal analysis apparatus according to claim 1 , wherein the spectrum w i, k, q is updated. 混合音時間周波数展開部と、パラメータ更新部と、収束判定部と、を含む信号解析装置における、パラメータ推定方法であって、
前記混合音時間周波数展開部は、I個の音源からの音源信号が混合された多チャンネル観測信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分y(ω,t)を表す多チャンネル観測時間周波数成分を出力し、
前記パラメータ更新部は、前記多チャンネル観測時間周波数成分が与えられたもとでの、各音源iの、各周波数ωk及び各状態qにおけるパワースペクトルwi,k,qを表す基底パワースペクトルと、各音源iの、各時刻tにおけるパワーhi.lを表すアクティベーションパラメータと、各音源iの各時刻tn及び各周波数ωkにおける空間相関行列Ci,k,nを表す空間相関行列の時系列と、各音源iの各時刻tにおける音源状態zi,lを表す状態系列の条件付き確率を表す目的関数を最大化するように、前記混合音時間周波数展開部によって出力された前記多チャンネル観測時間周波数成分、前記基底パワースペクトル、前記アクティベーションパラメータ、前記空間相関行列の時系列、及び前記状態系列に基づいて、前記基底パワースペクトルの更新、前記アクティベーションパラメータの更新、前記空間相関行列の時系列の更新、及び前記状態系列の更新の各々を行い、
前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
パラメータ推定方法。
A parameter estimation method in a signal analysis device including a mixed sound time frequency expansion unit, a parameter update unit, and a convergence determination unit,
The mixed sound time frequency expansion unit receives time-series data of a multi-channel observation signal mixed with sound source signals from I sound sources, and receives an observation time frequency component y (ω of each frequency ω k at each time t 1 . k , t l ), which outputs a multi-channel observation time frequency component,
The parameter update unit includes a base power spectrum representing a power spectrum w i, k, q in each frequency ω k and in each state q of each sound source i given the multi-channel observation time frequency component, sound source i, and activation parameters representing the power h il at each time t l, the time series of the spatial correlation matrix representing the spatial correlation matrix C i, k, n at each time t n and the frequency omega k of each sound source i And the multi-channel output by the mixed sound time-frequency expansion unit so as to maximize the objective function representing the conditional probability of the state sequence representing the sound source state z i, l at each time t 1 of each sound source i Based on the observation time frequency component, the base power spectrum, the activation parameter, the time series of the spatial correlation matrix, and the state series, the base power spectrum Updating, updating the activation parameter, updating the time series of the spatial correlation matrix, and updating the state series,
The convergence estimation unit repeatedly performs updating by the parameter updating unit until a predetermined convergence condition is satisfied.
コンピュータを、請求項1〜5の何れか1項記載の信号解析装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the signal analyzer of any one of Claims 1-5.
JP2014166903A 2014-08-19 2014-08-19 Signal analysis apparatus, method, and program Active JP6195548B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014166903A JP6195548B2 (en) 2014-08-19 2014-08-19 Signal analysis apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014166903A JP6195548B2 (en) 2014-08-19 2014-08-19 Signal analysis apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2016045221A true JP2016045221A (en) 2016-04-04
JP6195548B2 JP6195548B2 (en) 2017-09-13

Family

ID=55635877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014166903A Active JP6195548B2 (en) 2014-08-19 2014-08-19 Signal analysis apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6195548B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072664A (en) * 2016-11-01 2018-05-10 日本電信電話株式会社 Signal analyzer, method, and program
JP2018136368A (en) * 2017-02-20 2018-08-30 日本電信電話株式会社 Signal analyzer, method, and program
JP2019144320A (en) * 2018-02-16 2019-08-29 日本電信電話株式会社 Signal analyzer, signal analyzing method and program
WO2020071351A1 (en) * 2018-10-03 2020-04-09 日本電信電話株式会社 Signal separation device, signal separation method, and program
WO2020084787A1 (en) * 2018-10-26 2020-04-30 Nec Corporation A source separation device, a method for a source separation device, and a non-transitory computer readable medium
US10679646B2 (en) 2016-06-16 2020-06-09 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
US10817719B2 (en) 2016-06-16 2020-10-27 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102078362B1 (en) * 2018-06-26 2020-02-17 국방과학연구소 Apparatus and method for suppressing reverberation signal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048398A (en) * 2012-08-30 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Sound signal analyzing device, method and program
JP2014052630A (en) * 2012-09-05 2014-03-20 Honda Motor Co Ltd Sound processing device, sound processing method and sound processing program
JP2014510452A (en) * 2011-02-10 2014-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション Synthetic suppression of noise, echo and out-of-location signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014510452A (en) * 2011-02-10 2014-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション Synthetic suppression of noise, echo and out-of-location signals
JP2014048398A (en) * 2012-08-30 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Sound signal analyzing device, method and program
JP2014052630A (en) * 2012-09-05 2014-03-20 Honda Motor Co Ltd Sound processing device, sound processing method and sound processing program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
樋口卓哉 他: "確率的モデル化に基づく移動音源の劣決定ブラインド音源分離", 電子情報通信学会技術研究報告, vol. 114, no. 52, JPN6017029619, 17 May 2014 (2014-05-17), pages 211 - 216 *
池澤浩気 他: "非定常雑音・時変残響環境下でのパワースペクトログラム領域セミブラインド音声強調", 電子情報通信学会2013年総合大会講演論文集 基礎・境界, JPN6017029618, 5 March 2013 (2013-03-05), pages p.72 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679646B2 (en) 2016-06-16 2020-06-09 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
US10817719B2 (en) 2016-06-16 2020-10-27 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
JP2018072664A (en) * 2016-11-01 2018-05-10 日本電信電話株式会社 Signal analyzer, method, and program
JP2018136368A (en) * 2017-02-20 2018-08-30 日本電信電話株式会社 Signal analyzer, method, and program
JP2019144320A (en) * 2018-02-16 2019-08-29 日本電信電話株式会社 Signal analyzer, signal analyzing method and program
JP7046636B2 (en) 2018-02-16 2022-04-04 日本電信電話株式会社 Signal analyzers, methods, and programs
WO2020071351A1 (en) * 2018-10-03 2020-04-09 日本電信電話株式会社 Signal separation device, signal separation method, and program
JP2020056939A (en) * 2018-10-03 2020-04-09 日本電信電話株式会社 Signal separation device, signal separation method and program
WO2020084787A1 (en) * 2018-10-26 2020-04-30 Nec Corporation A source separation device, a method for a source separation device, and a non-transitory computer readable medium

Also Published As

Publication number Publication date
JP6195548B2 (en) 2017-09-13

Similar Documents

Publication Publication Date Title
JP6195548B2 (en) Signal analysis apparatus, method, and program
Jang et al. Single-channel signal separation using time-domain basis functions
JP5423670B2 (en) Acoustic model learning device and speech recognition device
US6954745B2 (en) Signal processing system
US20020059065A1 (en) Speech processing system
JP7176627B2 (en) Signal extraction system, signal extraction learning method and signal extraction learning program
Simon et al. A general framework for online audio source separation
WO2019163736A1 (en) Mask estimation device, model learning device, sound source separation device, mask estimation method, model learning method, sound source separation method, and program
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP2004004906A (en) Adaptation method between speaker and environment including maximum likelihood method based on unique voice
KR101802444B1 (en) Robust speech recognition apparatus and method for Bayesian feature enhancement using independent vector analysis and reverberation parameter reestimation
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
JP6448567B2 (en) Acoustic signal analyzing apparatus, acoustic signal analyzing method, and program
JP6142402B2 (en) Acoustic signal analyzing apparatus, method, and program
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
JP2020095732A (en) Dialogue action estimation method, dialogue action estimation device and program
Cipli et al. Multi-class acoustic event classification of hydrophone data
JPH10133688A (en) Speech recognition device
JP5807914B2 (en) Acoustic signal analyzing apparatus, method, and program
JP6564744B2 (en) Signal analysis apparatus, method, and program
JP6137479B2 (en) Audio signal analysis apparatus, method, and program
JP6618493B2 (en) Signal analysis apparatus, method, and program
JP5147012B2 (en) Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium
Adiloglu et al. An uncertainty estimation approach for the extraction of source features in multisource recordings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170815

R150 Certificate of patent or registration of utility model

Ref document number: 6195548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250