JP2016194657A - Sound source separation device, sound source separation method, and sound source separation program - Google Patents
Sound source separation device, sound source separation method, and sound source separation program Download PDFInfo
- Publication number
- JP2016194657A JP2016194657A JP2015075262A JP2015075262A JP2016194657A JP 2016194657 A JP2016194657 A JP 2016194657A JP 2015075262 A JP2015075262 A JP 2015075262A JP 2015075262 A JP2015075262 A JP 2015075262A JP 2016194657 A JP2016194657 A JP 2016194657A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- posterior probability
- microphone
- existence
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音源分離装置、音源分離方法および音源分離プログラムに関する。 The present invention relates to a sound source separation device, a sound source separation method, and a sound source separation program.
複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。 When an acoustic signal is collected in an environment where a plurality of target sound sources exist, a mixed signal in which the target signals overlap each other is often observed. At this time, when the target sound source of interest is an audio signal, the clarity of the target sound is greatly reduced due to the influence of other sound source signals superimposed on the target signal.
また、目的の音声信号(以下、目的信号)にその他の音源信号が重畳する形で観測されると、観測信号から目的信号の性質を正確に抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。よって認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離し、目的信号の明瞭度を回復する工夫(方法)が必要である。 In addition, when other sound source signals are superposed on the target speech signal (hereinafter referred to as the target signal), it becomes difficult to accurately extract the nature of the target signal from the observed signal, and automatic speech recognition (hereinafter referred to as The recognition rate of the speech recognition system is also significantly reduced. Therefore, in order to prevent the recognition rate from decreasing, it is necessary to devise a method (method) for separating a plurality of target signals and restoring the clarity of the target signals.
複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるTV会議システム、実環境で用いられる音声認識システム、機械制御インタフェースにおける機械と人間との対話装置などに利用することが出来る。 The elemental technology for separating a plurality of target signals can be used for various acoustic signal processing systems. For example, a hearing aid that extracts the target signal from the sound collected in the real environment to improve ease of hearing, a TV conference system that improves the intelligibility of the voice by extracting the target signal, and audio used in the real environment It can be used in a recognition system and a machine-human interaction device in a machine control interface.
図7に、従来の音源分離装置(例えば、非特許文献1参照)の機能構成を示してその動作を簡単に説明する。図7は、従来の音源分離装置を示す図である。図7に示すように、音源分離装置50は、全マイク共通音源存在事後確率推定部51およびフィルタリング部52を備える。
FIG. 7 shows a functional configuration of a conventional sound source separation device (for example, see Non-Patent Document 1), and its operation will be briefly described. FIG. 7 is a diagram showing a conventional sound source separation device. As shown in FIG. 7, the sound
全マイク共通音源存在事後確率推定部51は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力として、当該各観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを算出し、その特徴ベクトルを分類することで各音源に関する存在確率である音源存在事後確率を計算する。フィルタリング部52は、複数のマイクロホンで収音した複数チャネルの観測信号に、上記存在確率を乗算することで音源信号を回復する。
The sound source existence posterior
しかしながら、従来の音源分離技術では、全マイクロホンが密集して配置されていることが想定されており、マイクロホンが空間的に分散配置されている状況(以下、分散マイクアレイ環境)は想定されていなかった。すなわち、複数のマイクロホンノードが空間的に大きく分散された形で配置されていると、各マイクロホンノードで観測されるある音源の音圧は同程度にならない。極端な場合は、ある音源はあるマイクロホンノードにおいて実質的に観測不可能な状況も起こり得る。このような状況では、各マイクロホンノードで異なる音源存在確率(アクティビティパタン)を仮定することが妥当である。なお、マイクロホンノードとは、2つ以上のマイクからなるマイクロホンアレイを指す。例えば、複数のマイクロホンを具備するICレコーダは1マイクロホンノードに相当する。 However, in the conventional sound source separation technology, it is assumed that all microphones are densely arranged, and a situation where the microphones are spatially distributed (hereinafter referred to as a distributed microphone array environment) is not assumed. It was. That is, if a plurality of microphone nodes are arranged in a spatially dispersed manner, the sound pressure of a certain sound source observed at each microphone node does not become comparable. In extreme cases, a situation may occur where a sound source is substantially unobservable at a microphone node. In such a situation, it is appropriate to assume different sound source existence probabilities (activity patterns) at each microphone node. Note that the microphone node refers to a microphone array including two or more microphones. For example, an IC recorder having a plurality of microphones corresponds to one microphone node.
ところが、従来の方法では、録音現場にあるすべてのマイクロホンノードで得られたすべての観測を用いると、全マイクロホンノードに共通な音源存在確率を計算することしかできなかった。また、従来法をマイクロホンノードごとに独立に適用し処理を行えば、マイクロホンノード別に音源存在確率を計算することは可能であったが、この場合は、各マイクロホンノード間に存在するであろう有益な情報が有効活用されず、結果、分散マイクロホンアレイ環境において、効果的な音源分離を行うことができないという課題があった。 However, in the conventional method, if all observations obtained at all microphone nodes at the recording site are used, the sound source existence probability common to all microphone nodes can only be calculated. Moreover, if the conventional method is applied independently for each microphone node, the sound source existence probability can be calculated for each microphone node. In this case, however, it is beneficial to exist between each microphone node. As a result, there is a problem that effective sound source separation cannot be performed in a distributed microphone array environment.
この発明は、このような課題に鑑みてなされたものであり、分散マイクロホンアレイ環境においても効果的に音源分離を行うことを目的とする。 The present invention has been made in view of such problems, and an object thereof is to perform sound source separation effectively even in a distributed microphone array environment.
本発明の音源分離装置は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定部と、同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、を有することを特徴とする。 The sound source separation device according to the present invention calculates a sound source existence posterior probability for each sound source at each microphone node based on a microphone node observation signal that is a multi-channel observation signal obtained by collecting sound source signals emitted from a plurality of sound sources by a plurality of microphones. A sound source presence posterior probability estimation unit for each microphone node that updates and updates the sound source presence posterior probability based on update information that is information for updating the sound source presence posterior probability; Assuming that the sound source existence posterior probability of each sound source between microphone nodes co-occurs, the co-occurrence relationship of the sound source existence posterior probability is modeled, and the co-occurrence of the sound source existence posterior probability of each microphone node is large. The parameters in the model are estimated so that the update information is calculated based on the parameters. The sound source presence posterior probability co-occurrence pattern detection unit between the microphone nodes, the update of the sound source presence posterior probability in the sound source existence posterior probability estimation unit for each microphone node, and the update in the sound source presence posterior probability co-occurrence pattern detection unit between the microphone nodes By filtering the calculation of information using the sound source existence posterior probability or the update information, with respect to the convergence determination unit that repeatedly executes the sound source posterior probability or until the parameter converges, and the microphone node observation signal, An output sound estimator for estimating the sound source signal of each sound source.
また、本発明の音源分離方法は、音源分離装置で実行される音源分離方法であって、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、を含んだことを特徴とする。 The sound source separation method of the present invention is a sound source separation method executed by a sound source separation device, and is a microphone node observation that is a multi-channel observation signal obtained by collecting sound source signals emitted from a plurality of sound sources by a plurality of microphones. For each microphone node that estimates the sound source presence posterior probability for each sound source in each microphone node based on the signal, and updates the sound source presence posterior probability based on update information that is information for updating the sound source presence posterior probability Assuming that the sound source presence posterior probability of each sound source between the microphone nodes in the same time frequency bin in the sound source existence posterior probability estimation step, models the co-occurrence relationship of the sound source presence posterior probability, The parameters in the model are set so that the co-occurrence of the sound source presence posterior probability of each microphone node increases. A sound source existence posterior probability co-occurrence pattern detecting step for calculating the update information based on the parameter, and updating the sound source presence posterior probability in the sound source presence posterior probability estimating step for each microphone node; For the microphone node observation signal, a convergence determination step that repeatedly executes the calculation of the update information in the sound source presence posterior probability co-occurrence pattern detection step between the microphone nodes until the sound source presence posterior probability or the parameter converges, And an output sound estimation step of estimating the sound source signal of each sound source by filtering using a sound source posterior probability or the update information.
本発明によれば、分散マイクロホンアレイ環境においても効果的に音源分離を行うことができる。 According to the present invention, sound source separation can be performed effectively even in a distributed microphone array environment.
以下に、本願に係る音源分離装置、音源分離方法および音源分離プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る音源分離装置、音源分離方法および音源分離プログラムが限定されるものではない。まず、観測信号のモデル化について説明する。 Embodiments of a sound source separation device, a sound source separation method, and a sound source separation program according to the present application will be described below in detail with reference to the drawings. Note that the sound source separation device, the sound source separation method, and the sound source separation program according to the present application are not limited by this embodiment. First, observation signal modeling will be described.
[観測信号のモデル化]
観測信号のモデル化においては、初めに変数を定義する。Iはマイクロホンノードの総数、Jは各マイクロホンノード内のクラスタの数、Kは音源の数(本明細書の中ではJ=Kとしているが、JとKは異なる値でも構わない)、xiはi番目のマイクロホンノードの観測特徴量、xは全マイクロホンノードの観測特徴量をまとめたxiの集合、ni,jはi番目のマイクロホンノードのj番目のクラスタに対応する音源のアクティビティを表すバイナリ変数(1の場合は音源がアクティブ、0の場合は音源がアクティブではない状態を指す)、nはni,jの集合、akは全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数(1の場合は音源がアクティブ、0の場合は音源がアクティブではない状態を指す)、aはakの集合を表す。
[Modeling of observed signals]
In modeling observation signals, variables are first defined. I is the total number of microphone nodes, J is the number of clusters in each microphone node, K is the number of sound sources (J = K in this specification, but J and K may be different values), x i Is the observed feature value of the i-th microphone node, x is a set of x i that summarizes the observed feature values of all microphone nodes, n i, j is the activity of the sound source corresponding to the j-th cluster of the i-th microphone node Binary variable to represent (1 means the sound source is active, 0 means the sound source is not active), n is a set of n i, j , a k is the potential sound source activity common to all microphone nodes A variable to represent (in the case of 1, the sound source is active, in the case of 0, the sound source is not active), and a represents a set of a k .
なお、以降の説明における処理は、すべて各周波数ビンについて独立に行うものであるため、周波数インデックスは簡単のため省略する。従来のクラスタリングベース音源分離(例えば、非特許文献1参照)をi番目のマイクロホンノード観測信号xi(xiは、正規化観測ベクトルに対応)に適用する場合、マイクロホンノード観測信号xiは式(1)に示すような混合分布型の確率モデルで表されていた。 In addition, since all the processes in the following description are performed independently for each frequency bin, the frequency index is omitted for simplicity. When conventional clustering-based sound source separation (see, for example, Non-Patent Document 1) is applied to the i-th microphone node observation signal x i (x i corresponds to the normalized observation vector), the microphone node observation signal x i It was expressed by a mixed distribution type probability model as shown in (1).
この時、式(1)のp(ni,j)は、j番目の音源がi番目のノードでアクティブになる事前確率を表す。また、式(1)のp(xi|ni,j;θ(n i ))はワトソン分布などの分布を表し、θ(n i )は分布のパラメータ(ワトソン分布の場合は平均方向パラメータ、密度パラメータに対応し、ガウス分布の場合は平均や分散等に対応する)を表す。この式で表される尤度を最大化するように分布パラメータを調整した後に得られるp(ni,j|xi)は、i番目以外のマイクロホンノードから得られる情報を使わなかった場合に得ることのできる、i番目のノードでのj番目の音源に関する音源存在事後確率である。 At this time, p (n i, j ) in Expression (1) represents the prior probability that the j-th sound source is active at the i-th node. In the equation (1), p (x i | n i, j ; θ (n i ) ) represents a distribution such as a Watson distribution, and θ (n i ) represents a distribution parameter (an average direction parameter in the case of Watson distribution ). Corresponds to the density parameter, and in the case of Gaussian distribution, it corresponds to the mean, variance, etc.). The p (n i, j | x i ) obtained after adjusting the distribution parameters to maximize the likelihood represented by this formula is obtained when information obtained from microphone nodes other than the i-th is not used. This is the sound source existence posterior probability for the j th sound source at the i th node that can be obtained.
一方、実施形態においては、観測信号xの確率モデル(つまり、観測信号に関する尤度p(x;θ))を式(2)のように表す。 On the other hand, in the embodiment, the probability model of the observation signal x (that is, the likelihood p (x; θ) related to the observation signal) is expressed as in Expression (2).
式(2)の3段目は、各マイクロホンノードの観測値xiは独立であるとの仮定の元に得られている。式(2)を見ると、本発明は、音源のアクティビティを示す事前確率の部分(つまり、p(n,a;θ(w))の部分に、新たに全マイクロホンノードに共通した潜在的な音源アクティビティを表す変数であるaが追加され、各ノードでの音源アクティビティ情報nと全ノードに共通する潜在的な音源アクティビティ情報aの同時確率で事前確率が表されていることが分かる。 The third stage of Equation (2) is obtained on the assumption that the observation values x i of each microphone node are independent. Looking at equation (2), the present invention shows a new potential common to all microphone nodes in the part of the prior probability indicating the activity of the sound source (ie, p (n, a; θ (w) )). It can be seen that a, which is a variable representing the sound source activity, is added, and the prior probability is represented by the joint probability of the sound source activity information n at each node and the potential sound source activity information a common to all nodes.
音源のアクティビティを示す事前確率p(n,a;θ(w))は、様々な形を取ることができるが、ここでは、マイクロホンノード間の音源アクティビティの共起性(つまり、n1,j ,n2,j ,... ,nI,jの共起性)に注目したモデルとなるよう、式(3)〜(5)に示すような制限付きボルツマンマシン(RBM:Restricted Boltzman Machine)の形で表す。 Prior probabilities p (n, a; θ (w) ) indicating sound source activity can take various forms, but here the co-occurrence of sound source activity between microphone nodes (ie, n 1, j , n 2, j , ..., n I, j co-occurrence) (Restricted Boltzman Machine (RBM) as shown in equations (3) to (5)) In the form of
式(3)のθ(w)は、RBMの中で使われるパラメータ{Wi, bi, c}を表す。制限付きボルツマンマシンは協調フィルタに使われるなど、ノード間での観測信号(実施形態におけるノード間での音源存在事後確率に相当)の共起性を捉えることのできるモデルである。RBMでは一般的に入力層への入力nが与えられた場合の隠れ層での値akに関する事後確率、また隠れ層での値akが与えられた場合の入力層での値nに関する事後確率を定義し、それをパラメータ推定アルゴリズムの中で用いる。それらの事後確率を式(6)〜(8)のように定義する。 Θ (w) in Equation (3) represents parameters {W i , b i , c} used in the RBM. A restricted Boltzmann machine is a model that can capture the co-occurrence of observation signals between nodes (corresponding to sound source existence posterior probabilities between nodes in the embodiment), such as being used in a collaborative filter. Posterior probability for the value a k of at the hidden layer when input n to common input layer is given in RBM, also post for the value n in the input layer when given the value a k of at the hidden layer Define the probability and use it in the parameter estimation algorithm. Those posterior probabilities are defined as in equations (6) to (8).
[本発明の考え]
実施形態の詳細な説明の前に、本発明の考えの概略について説明する。本発明は、各マイクロホンノードのそれぞれにおいて、音源分離のためのフィルタである音源存在事後確率を計算するものである。従来法では、この値を計算するために、他のマイクロホンノードからの情報を取り入れることはできなかった。
[Concept of the present invention]
Prior to detailed description of the embodiments, an outline of the idea of the present invention will be described. The present invention calculates a sound source presence posterior probability that is a filter for sound source separation in each microphone node. In the conventional method, information from other microphone nodes cannot be taken in to calculate this value.
しかし、提案方法では、マイクロホンノード間で情報をやり取りし、あるマイクロホンノードで観測されている音源アクティビティと共起するような音源アクティビティパタンが他のマイクロホンノードで観測されれば、それらの共起性が増す様に、マイクノード間音源存在事後確率共起パタン検出部12にてパラメータ推定が進む。結果、ある音源が複数のマイクロホンノードで観測されていれば、その音源に関する存在事後確率は互いに共起性が増すようにパラメータが調整され、より精度の高い推定が可能となる。
However, in the proposed method, if a sound source activity pattern that exchanges information between microphone nodes and co-occurs with a sound source activity observed at a certain microphone node is observed at other microphone nodes, their co-occurrence The parameter estimation proceeds at the sound source presence posterior probability co-occurrence
例えば、マイクロホンノード1、2、3の同一時間周波数ビンで、多くの場合、ある音源に関する事後確率が共起しているとする。そのような状況下で、ある時間周波数ビンでは、その音源に関してマイクロホンノード1と2のみで共起関係が確認され、マイクロホンノード3では共起していないとする。すると、マイクロホンノード3のこの時間周波数ビンでの推定値は誤りである確率が高い。 For example, it is assumed that posterior probabilities relating to a certain sound source often co-occur in the same time frequency bin of the microphone nodes 1, 2, and 3. Under such circumstances, in a certain time frequency bin, it is assumed that the co-occurrence relationship is confirmed only with the microphone nodes 1 and 2 with respect to the sound source, and the microphone node 3 does not co-occur. Then, there is a high probability that the estimated value in the time frequency bin of the microphone node 3 is an error.
このような誤りは、マイクロホンノード1、2、3でのこの音源に関する存在事後確率の共起性を高めるようにパラメータを推定することで解消される。逆に、マイクロホンノード1のみで同音源がアクティブであり、マイクロホンノード2と3ではアクティブでない場合、その時間周波数ビンでは本来同音源はアクティブでない可能性が高い。そのような場合も「アクティブではない」という共起性が高まることで、マイクロホンノード1の誤りが訂正される。マイクロホンノード間での音源存在事後確率の共起性を高めるようにパラメータを学習する具体的手順については、実施形態の説明において詳細に説明する。 Such an error is eliminated by estimating the parameters so as to enhance the co-occurrence of existence posterior probabilities related to this sound source at the microphone nodes 1, 2, and 3. Conversely, if the same sound source is active only at the microphone node 1 and is not active at the microphone nodes 2 and 3, it is highly likely that the same sound source is not active at that time frequency bin. In such a case as well, the co-occurrence of “not active” increases, so that the error of the microphone node 1 is corrected. A specific procedure for learning parameters so as to increase the co-occurrence of sound source presence posterior probabilities between microphone nodes will be described in detail in the description of the embodiment.
[実施形態]
図1を用いて、実施形態に係る音源分離装置の構成について説明する。図1は、実施形態に係る音源分離装置の構成の概要を示す図である。音源分離装置10は、マイクノード別音源存在事後確率推定部11と、マイクノード間音源存在事後確率共起パタン検出部12と、収束判定部13と、出力音推定部14と、を具備する。
[Embodiment]
The configuration of the sound source separation device according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an outline of a configuration of a sound source separation device according to an embodiment. The sound
図1に示すように、音源分離装置10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号を入力とする。なお、特に音源分離装置10における処理を説明する際に、入力される複数チャネルの観測信号をマイクロホンノード観測信号と呼ぶ場合がある。
As shown in FIG. 1, the sound
マイクノード別音源存在事後確率推定部11は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。
The sound source existence posterior
例えば、マイクノード別音源存在事後確率推定部11は、マイクロホンノード観測信号である時間フレームtにおける複数の音源から発せられる音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいて式(2)のp(xi|ni;θ(n i ))を推定することによって音源存在事後確率であるj番目の音源のi番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、更新情報に基づいて観測信号の尤度p(x;θ)が最大になるようにp(xi|ni;θ(n i ))を再推定することによって音源存在事後確率であるj番目の音源のi番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新する。
For example, the microphone node-specific sound source existence posterior
マイクノード間音源存在事後確率共起パタン検出部12は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。
The sound source presence posterior probability co-occurrence
例えば、マイクノード間音源存在事後確率共起パタン検出部12は、全てのi、全てのj、全てのtにおける音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、音源存在事後確率の共起性を示すモデルのパラメータであるθ(w)を推定し、更新情報を算出する。
For example, the inter-microphone sound source existence posterior probability co-occurrence
収束判定部13は、マイクノード別音源存在事後確率推定部11における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部12における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。
The
出力音推定部14は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。
The output
次に、図2を参照しながら、音源分離装置10の各部について詳細に説明する。図2は、実施形態に係る音源分離装置の詳細な構成を示すブロック図である。音源分離装置10は、複数のマイクロホンノード20からマイクロホンノード観測信号を入力され、各音源の音源イメージを推定し、出力装置21等に出力する。なお、音源分離装置10は、推定した音源イメージをスピーカ等の出力装置に出力してもよいし、記憶装置等に出力し記憶させるようにしてもよい。
Next, each part of the sound
図2に示すように、音源分離装置10は、マイクノード別音源存在事後確率推定部11と、マイクノード間音源存在事後確率共起パタン検出部12と、収束判定部13と、出力音推定部14と、入力部15と、出力部16と、を有する。また、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率初期値算出部111と、第一音源存在事後確率更新部112と、を有する。また、マイクノード間音源存在事後確率共起パタン検出部12は、共起関係モデルパラメータ算出部121と、第二音源存在事後確率算出部122と、を有する。
As illustrated in FIG. 2, the sound
まず、入力部15には、複数の音源から発せられる音源信号を複数のマイクロホンノード20で収音した観測信号が入力される。そして、第一音源存在事後確率初期値算出部111は、複数の音源から発せられる音源信号を複数のマイクロホンノードで収音した観測信号を用いて、各マイクロホンノードから得られる情報を使って得られる各音源がアクティブな確率である第一音源存在事後確率を算出する。
First, an observation signal obtained by collecting sound source signals emitted from a plurality of sound sources by a plurality of
次に、共起関係モデルパラメータ算出部121は、各マイクロホンノードの第一音源存在事後確率同士の共起関係をモデル化し、共起関係が大きくなるようにモデルのパラメータを算出し、既に算出したパラメータが存在する場合は、最新のパラメータに更新する。
Next, the co-occurrence relationship model
さらに、第二音源存在事後確率算出部122は、パラメータを用いて、複数のマイクロホンノードから得られる情報を使った音源存在事後確率である第二音源存在事後確率を算出する。そして、第一音源存在事後確率更新部112は、第二音源存在事後確率を用いて、第一音源存在事後確率を更新する。
Furthermore, the second sound source presence posterior
ここで、収束判定部13は、第一音源存在事後確率更新部112および共起関係モデルパラメータ算出部121における更新量が、所定の閾値以下であるか否かを判定し、更新量が所定の閾値以下でない場合は、更新量が所定の閾値以下となるまで第一音源存在事後確率更新部112および共起関係モデルパラメータ算出部121における処理を繰り返し実行させる。
Here, the
最後に、出力音推定部141は、収束判定部13において、更新量が所定の閾値以下であると判定された場合に、観測信号に対し、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。以降、各部における処理について説明する。
Finally, the output sound estimation unit 141 performs filtering on the observation signal using the second sound source existence posterior probability when the
[マイクノード別音源存在事後確率推定部11での処理(初期値の計算)]
まず、マイクノード間音源存在事後確率共起パタン検出部12で処理を行う前のマイクノード別音源存在事後確率推定部11における処理について説明する。この時、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率の初期値を算出する。なお、マイクノード間音源存在事後確率共起パタン検出部12から出力される補正情報を用いた第一音源存在事後確率の更新処理については後述する。
[Processing by microphone node-specific sound source existence posterior probability estimation unit 11 (calculation of initial values)]
First, the processing in the microphone node-specific sound source presence posterior
最初に、マイクノード別音源存在事後確率推定部11の第一音源存在事後確率初期値算出部111は、複数の音源から発せられる音源信号をi番目のマイクロホンノードで収音した観測特徴量xiおよび式(1)を用いて、j番目の音源のi番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を計算する。具体的には、第一音源存在事後確率初期値算出部111は、式(1)の値を最大化するよう、最尤推定で分布パラメータθ(n i )を推定することで初期値を算出する。式(1)の混合分布パラメータの最尤推定は、期待値最大化アルゴリズムを用いて行うことができることが知られており、そのアルゴリズムの中でp(ni,j|xi)は計算される。
First, the first sound source existence posterior probability initial
[マイクノード間音源存在事後確率共起パタン検出部12での処理]
次に、マイクノード間音源存在事後確率共起パタン検出部12の共起関係モデルパラメータ算出部121は、上記で得られた第一音源存在事後確率の集合、つまり全てのi(マイクロホンノードインデックス)、全てのj(各マイクロホンノードにおけるクラスタインデックス)、すべての時間フレームtに関するp(ni,j|xj,t)(xに時間フレームインデックスtを追加)を用いて、各事後確率の共起関係をモデル化(学習)する。具体的に、共起関係モデルパラメータ算出部121は、式(4)等で示されるRBMのパラメータ{Wi, bi, c}をp(n,a;θ(w))が最大となるように学習する。この学習には、一般的にはcontrastive divergenceを用いた最急降下法(参考文献1:G. E. Hinton, “A practical guide to training restricted Boltzmann machines,” Univ. of Toronto, Toronto, ON, Canada, Tech. Rep., 2010.)が用いられる。ここで、最急降下法で推定する各パラメータ{Wi, bi, c}の勾配は式(9)〜(11)によって計算される。
[Processing at the sound source existence posterior probability co-occurrence
Next, the co-occurrence relation model
そして、共起関係モデルパラメータ算出部121は、各勾配を計算した後、各パラメータは、通常の最急降下法により式(12)〜(14)によって更新する。
Then, after calculating each gradient, the co-occurrence relation model
ここで、μはパラメータ更新のためのステップサイズであり、0.0001など比較的小さな値が用いられる。さらに、共起関係モデルパラメータ算出部121は、後述のように、収束判定部13に制御されることで、式(12)〜(14)の計算を十分にパラメータの更新量が小さくなるまで繰り返す。なお、各パラメータの勾配計算を表した式(9)〜(11)中のn^およびn~は、計算を繰り返すごとに、以下のように計算する。
Here, μ is a step size for parameter update, and a relatively small value such as 0.0001 is used. Further, the co-occurrence relation model
[n^t,i,jの計算]
<手順a1>
まず、p(ni,j=1|xj)を従来のクラスタリングベース音源分離等を用いて計算する。
<手順a2>
次に、n^t,i,jの初期値をp(ni,j|xj,t)からサンプリングする。ここで、サンプリングの具体的な処理例について説明する。まず、時間t、ノードiの観測特徴量x^t,iがクラスタjに帰属する事後確率をクラスタ1〜Jについて計算する。この時、1〜Jまでの事後確率の値を合算すれば1となる。次に、これらの事後確率を基に、0〜1の区間を分割する。例えば、クラスタ1,2,3で計算される帰属事後確率がそれぞれ、0.1,0.7,0.2であれば、0〜1の区間を[0.0 0.1),[0.1 0.8),[0.8 1.0]に分割し、各区間を各クラスタと紐づける。その後、1〜0の範囲の乱数を一つ発生させ、その乱数がどの区間に帰属するかを検出する。その該当区間に対応するクラスのn^t,i,jを1とし、それ以外の同一マイクロホンノード内のn^t,i,jを0とする。
<手順a3>
以下の(a3.1)および(a3.2)を所定の回数繰り返す。(本実施例では1回)
(a3.1)現在求められているn^t,i,jを基に、式(6)を用いてa^t,kを計算する。
(a3.2)a^t,kとxt,i(マイクロホンノードi、時間tの観測特徴量)とマイクノード別音源存在事後確率推定部11で推定されたp(xi|ni,j=1)を基に、式(7)および式(8)を用いて、n^t,i,jを計算する。
<手順a4>
手順a3で計算されたn^t,i,jを利用して式(9)〜(11)の計算を行う。
[Calculation of n ^ t, i, j ]
<Procedure a1>
First, p (n i, j = 1 | x j ) is calculated using conventional clustering-based sound source separation or the like.
<Procedure a2>
Next, the initial value of n ^ t, i, j is sampled from p (n i, j | x j, t ). Here, a specific processing example of sampling will be described. First, the posterior probabilities that the observed feature quantity x ^ t, i at time t and node i belong to cluster j are calculated for clusters 1 to J. At this time, the sum of the posterior probability values from 1 to J is 1. Next, based on these posterior probabilities, the 0 to 1 section is divided. For example, if the attribution posterior probabilities calculated for clusters 1, 2, and 3 are 0.1, 0.7, and 0.2, respectively, the interval from 0 to 1 is divided into [0.0 0.1), [0.1 0.8), and [0.8 1.0]. Associate each section with each cluster. Then, one random number in the range of 1 to 0 is generated, and it is detected to which section the random number belongs. As appropriate corresponding to the segment class n ^ t to, i, and 1 j, is n ^ t in the same microphone node otherwise, i, a j and 0.
<Procedure a3>
The following (a3.1) and (a3.2) are repeated a predetermined number of times. (In this example, once)
(A3.1) Based on the currently obtained n ^ t, i, j , a ^ t, k is calculated using equation (6).
(A3.2) a ^ t, k and x t, i (observed feature quantity at microphone node i, time t) and p (x i | n i, Based on j = 1), n ^ t, i, j is calculated using Equation (7) and Equation (8).
<Procedure a4>
Equations (9) to (11) are calculated using n ^ t, i, j calculated in step a3.
[n~t,i,jの計算]
<手順b1>
n~t,i,jの初期値をp(ni,j|xj,t)からサンプリングする。(具体的な処理例は、手順a2と同様)
<手順b2>
以下の(b3.1)および(b3.2)を所定の回数繰り返す。(本実施例では1回)
(b3.1)現在求められているn~t,i,jを基に、式(6)を用いてa~t,kを計算する。
(b3.2)a~t,kを基に、式(7)を用いて、n~t,i,jを計算する。
<手順b3>
手順b3で計算されたn~t,i,jを利用して式(9)〜(11)の計算を行う。
[Calculation of n ~ t, i, j ]
<Procedure b1>
The initial values of n ~ t, i, j are sampled from p (n i, j | x j, t ). (Specific processing examples are the same as in step a2)
<Procedure b2>
The following (b3.1) and (b3.2) are repeated a predetermined number of times. (In this example, once)
(B3.1) Calculate a to t, k using equation (6) based on the currently obtained n to t, i, j .
(B3.2) Based on a to t, k , n to t, i, j is calculated using Equation (7).
<Procedure b3>
Equations (9) to (11) are calculated using n to t, i, j calculated in step b3.
そして、マイクノード間音源存在事後確率共起パタン検出部12の第二音源存在事後確率算出部122は、求められたパラメータ{Wi, bi, c}から式(8)を基に更新情報である第二音源存在事後確率p(ni,j=1|a^t,xt)を計算する。
Then, the second sound source existence posterior
[マイクノード別音源存在事後確率推定部11での処理(初期値計算以降の処理)]
マイクノード別音源存在事後確率推定部11の第一音源存在事後確率更新部112は、マイクノード間音源存在事後確率共起パタン検出部12で得られた更新情報である第二音源存在事後確率p(ni,j=1|a^t,xt)を用いて、式(2)が最大となるようにp(xi|ni;θ(n i ))の分布パラメータを更新する。以下では、更新方法の一例を示す。
[Processing by sound source existence posterior
The first sound source existence posterior
はじめに、第一音源存在事後確率更新部112は、式(2)におけるp(xi|ni;θ(n i ))を式(15)のように表す。
First, the first sound source presence posterior
式(15)は、p(xi|ni;θ(n i ))を一般的な指数型分布族の関数で表している。ここで、式(15)の尤度式の対数をとったもの(対数尤度関数)のθ(n i )に関する勾配は、以下の式(16)のようになる。 Equation (15) represents p (x i | n i ; θ (n i ) ) as a general exponential distribution family function. Here, the gradient related to θ (n i ) of the logarithm of the likelihood formula of Formula (15) (log likelihood function) is expressed by the following Formula (16).
この時、第一音源存在事後確率更新部112は、p(n,a|x)を以下の式(17)に示すように近似的に求める。
At this time, the first sound source presence posterior
式(17)の値は、前段のマイクノード間音源存在事後確率共起パタン検出部12での処理の最終段階で求めた、式(8)を基に計算される第二音源存在事後確率p(ni,j=1|a^t,xt)をすべての時間フレームtについて平均した値に相当する。最終的に、第一音源存在事後確率更新部112は、式(17)の値が0となるように下記の式(18)のように置き、方程式を解くことでθ(n i )の値を計算する。
The value of the equation (17) is the second sound source existence posterior probability p calculated based on the equation (8) obtained at the final stage of the processing in the microphone stage sound source existence posterior probability co-occurrence
式(18)のθ(n i )の値が計算されれば、再度第一音源存在事後確率p(ni,j|xi)を計算することが可能となり、その値をマイクノード間音源存在事後確率共起パタン検出部12に出力すれば、マイクノード間音源存在事後確率共起パタン検出部12にて再度パラメータ{Wi, bi, c}の更新処理が行われる。
If the value of θ (n i ) in equation (18) is calculated, the first sound source existence posterior probability p (n i, j | x i ) can be calculated again, and this value is used as the sound source between microphone nodes. When output to the existence posterior probability co-occurrence
[収束判定部13での処理]
収束判定部13は、第一音源存在事後確率更新部112、共起関係モデルパラメータ算出部121および第二音源存在事後確率算出部122における処理を繰り返し行い、式(18)のマイクノード別音源存在事後確率推定部11のパラメータθ(n i )や式(2)のマイクノード間音源存在事後確率共起パタン検出部12のパラメータθ(w)の更新量が所定の閾値以下となったところで、収束したと判定し、繰り返しを終了するように制御する。また、式(2)に示す尤度が十分に大きな値となったところで収束したと判定してもよい。
[Processing at convergence determination unit 13]
The
[評価実験]
実施形態に係る音源分離装置の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。図3に、シミュレーションに用いた音響環境を示す。図3は、実施形態に係る音源分離装置が用いられる音響環境を示す図である。部屋のサイズは10m(W)×5m(D)×5m(H)であり、残響時間は0.2、0.4、0.6、0.8秒の4条件とした。この音響環境を鏡像法(参考文献2:J.B.Allen and D.A.Berkeley, “Image method for efficiently simulating small-room acoustics, ”J.Acoust.Soc.Am.,vol.65(4),pp.943-950,1979.)を用いてシミュレーションした。
[Evaluation experiment]
An evaluation experiment was performed for the purpose of evaluating the performance of the sound source separation device according to the embodiment. The experimental conditions were as follows. FIG. 3 shows the acoustic environment used for the simulation. FIG. 3 is a diagram illustrating an acoustic environment in which the sound source separation device according to the embodiment is used. The size of the room was 10 m (W) × 5 m (D) × 5 m (H), and the reverberation time was four conditions of 0.2, 0.4, 0.6, and 0.8 seconds. This acoustic environment is mirror image method (Reference 2: JB Allen and DA Berkeley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am., Vol. 65 (4), pp. 943-950, 1979. .).
また、背景雑音のある環境を模擬するため、コンピュータ上で白色雑音を発生させ、SN比が10dBとなるよう信号に足し合わせ、観測信号を作成した。話者は、6人おり、6人中3人の話者が半径80cmの円状に等間隔を開けて部屋の左側に座り、その他の3人は同様に半径80cmの円状に等間隔を開けて部屋の右側に座り、全員が同時会話している状況を想定した。これは、会議室や飲食店などでの会話状況を模擬している。収音機器としては、図3に示すように、3つのマイクからなるマイクロホンノードが2つある状況を想定した。 In order to simulate an environment with background noise, white noise was generated on a computer and added to the signal so that the S / N ratio was 10 dB to create an observation signal. There are 6 speakers, and 3 out of 6 speakers sit on the left side of the room in a circle with a radius of 80 cm, and the other 3 people are equally spaced in a circle with a radius of 80 cm. I assumed the situation where everyone was talking at the same time. This simulates a conversation situation in a conference room or a restaurant. As the sound collection device, as shown in FIG. 3, a situation is assumed in which there are two microphone nodes including three microphones.
本発明と比較する従来法は、すべてのマイクロホンにおいて共通の音源存在事後確率を仮定して、ソフトマスクを用いた音源分離を行う非特許文献1に示された方法とした。
評価指標としては音源分離性能を示すSIR(Signal-to-interference ratio)を用いた。音源分離性能はSIRの値が大きいほど、性能が良いことを示す。評価音声としては、TIMIT(参考文献3:W.Fisher, G.R.Doddington, and K.M.Goudie-Marshall, “The DARPA speech recognition research database: specifications and status, ”inProc. DARPA workshop on Speech Recognition, 7986, pp.96-99.)から無作為に抽出した音声を用い、各音響環境において計20個の異なる混合音声を用意し、結果はそれらの平均値として算出した。
The conventional method compared with the present invention is the method shown in Non-Patent Document 1 that performs sound source separation using a soft mask, assuming a common sound source posterior probability in all microphones.
SIR (Signal-to-interference ratio) indicating sound source separation performance was used as an evaluation index. The sound source separation performance indicates that the larger the SIR value, the better the performance. For evaluation speech, TIMIT (Reference 3: W. Fisher, GRDoddington, and KMGoudie-Marshall, “The DARPA speech recognition research database: specifications and status,” in Proc. DARPA workshop on Speech Recognition, 7986, pp. 96-99. .) Was randomly extracted from each sound environment, a total of 20 different mixed sounds were prepared in each acoustic environment, and the result was calculated as an average value thereof.
図4に、評価実験の結果を示す。図4は、実施形態に係る音源分離装置の音源分離性能を示す図である。横軸は残響時間、縦軸はSIR値、つまり音源分離性能(dB)を表している。全残響環境において、本発明は従来法よりも高い性能を達成していることが示されている。このように本発明の音源分離装置によれば、分散マイクロホンアレイ環境においても効率的に音源分離を行うことが確認できた。 FIG. 4 shows the results of the evaluation experiment. FIG. 4 is a diagram illustrating the sound source separation performance of the sound source separation device according to the embodiment. The horizontal axis represents the reverberation time, and the vertical axis represents the SIR value, that is, the sound source separation performance (dB). In all reverberant environments, the present invention has been shown to achieve higher performance than conventional methods. Thus, according to the sound source separation apparatus of the present invention, it was confirmed that sound source separation was performed efficiently even in a distributed microphone array environment.
[出力音推定部14での処理]
収束判定部13によって更新量が収束したと判定された場合は、出力音推定部14は、第二音源存在事後確率を用いてフィルタリングを行い、各音源に関する音源イメージを推定する。
[Processing in output sound estimation unit 14]
When the
[実施形態の処理の流れ]
図5を用いて、実施形態に係る音源分離装置10の処理の流れについて説明する。図5は、実施形態に係る音源分離装置の処理を示すフローチャートである。まず、マイクノード別音源存在事後確率推定部11は、第一音源存在事後確率の初期値を算出する(ステップS101)。次に、マイクノード間音源存在事後確率共起パタン検出部12は、第一音源存在事後確率の共起関係をモデル化するパラメータを算出し、既に算出された既存のパラメータが存在している場合は、既存のパラメータを更新する(ステップS102)。そして、マイクノード間音源存在事後確率共起パタン検出部12は、算出したパラメータを基に第二音源存在事後確率を算出する(ステップS103)。
[Processing flow of the embodiment]
A processing flow of the sound
ここで、収束判定部13が、各更新量が閾値以下でないと判定した場合(ステップS104、No)は、マイクノード別音源存在事後確率推定部11は、第二音源存在事後確率を基に第一音源存在事後確率を更新する(ステップS105)。そして、マイクノード間音源存在事後確率共起パタン検出部12は、更新された第一音源存在事後確率を用いて再び処理を行う。
Here, when the
これに対して、収束判定部13が、各更新量が閾値以下であると判定した場合(ステップS104、Yes)は、マイクノード間音源存在事後確率共起パタン検出部12は、第二音源存在事後確率を出力音推定部14に出力する(ステップS106)。最後に、出力音推定部14は、時間ごとの音源存在事後確率をフィルタとして音源分離を行う(ステップS107)。
On the other hand, when the
[実施形態の効果]
まず、音源分離装置10は、複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて音源存在事後確率を更新する。そして、音源分離装置10は、同一時間周波数ビンにおいては各マイクロホンノード間での各音源に関する音源存在事後確率が共起すると仮定し、音源存在事後確率の共起関係をモデル化し、各マイクロホンノードの音源存在事後確率の共起性が大きくなるようにモデルにおけるパラメータを推定し、パラメータを基に更新情報を算出する。さらに、音源分離装置10は、音マイクノード別音源存在事後確率推定部における音源存在事後確率の更新およびマイクノード間音源存在事後確率共起パタン検出部における更新情報の算出を、音源存在事後確率またはパラメータが収束するまで繰り返し実行させる。最後に、音源分離装置10は、マイクロホンノード観測信号に対し、音源存在事後確率または更新情報を用いてフィルタリングすることで、各音源の音源信号を推定する。
[Effect of the embodiment]
First, the sound
これにより、共起性を考慮した音源存在事後確率のモデルの作成を行うことができ、複数のマイクロホンノードから得られる情報を音源分離に利用することが可能となる。その結果、分散マイクロホンアレイ環境においても効果的に音源分離を行うことができるようになる。 As a result, it is possible to create a model of a sound source posterior probability in consideration of co-occurrence, and it is possible to use information obtained from a plurality of microphone nodes for sound source separation. As a result, sound source separation can be performed effectively even in a distributed microphone array environment.
[装置構成等]
音声分離装置10における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
[Equipment configuration]
When the processing means in the
なお、効率的にRBMのパラメータ推定を行う目的で、contrastive divergence法を用いた方法について説明を行ったが、この発明はこの実施例に限定されない。また、マイクノード別音源存在事後確率推定部11での分布パラメータの推定のために式(16)の値をゼロと置く方法について説明を行ったが、この発明はこの実施例に限定されない。例えば式(2)の値を最大化するために、全パラメータの全ての組み合わせを探索する全組み合わせ探索法を用いても、この発明の技術思想の範囲に含まれる。
Although the method using the contrastive divergence method has been described for the purpose of efficiently estimating RBM parameters, the present invention is not limited to this embodiment. Moreover, although the method of setting the value of Formula (16) to zero for the estimation of the distribution parameter in the sound source existence posterior
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Re Writable)等を、光磁気記録媒体として、MO(Magneto Opticaldisc)等を、半導体メモリとしてEEP−ROM(Electronically Erasableand Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (Re Writable), etc., MO (Magneto Optical Disc) etc. as the magneto-optical recording medium, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) etc. as the semiconductor memory be able to.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
音源分離装置10は、内包する各機能(装置)を物理的・仮想的に分散可能であり、その際は両装置内の各機能(装置)が各々一つの単位として分散されることとしてもよい。また、例えば、収束判定部13は省略可能であり、マイクノード別音源存在事後確率推定部11、またはマイクノード間音源存在事後確率共起パタン検出部12に組み込まれることとしてもよい。また各装置内の各部は、有効に機能する程度において別の各装置に組み込まれる構成をとってもよい。
The sound
[プログラム]
また、上記実施の形態に係る音源分離装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施の形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施の形態と同様の処理を実現してもよい。以下に、音源分離装置10と同様の機能を実現する音源分離プログラムを実行するコンピュータの一例を説明する。
[program]
It is also possible to create a program in which processing executed by the sound
図6は、音源分離プログラムを実行するコンピュータを示す図である。図6に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
FIG. 6 is a diagram illustrating a computer that executes a sound source separation program. As shown in FIG. 6, a
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
The
ここで、図6に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施の形態で説明した各テーブルは、例えばハードディスクドライブ1090やメモリ1010に記憶される。
Here, as shown in FIG. 6, the hard disk drive 1090 stores, for example, an
また、音源分離プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ1090に記憶される。具体的には、上記実施の形態で説明した音源分離装置10が実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。
The sound source separation program is stored in the hard disk drive 1090 as a program module in which a command executed by the
また音源分離プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
Data used for information processing by the sound source separation program is stored as program data, for example, in the hard disk drive 1090. Then, the
なお、音源分離プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、音源分離プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
10 音源分離装置
11 マイクノード別音源存在事後確率推定部
12 マイクノード間音源存在事後確率共起パタン検出部
13 収束判定部
14 出力音推定部
15 入力部
20 マイクロホンノード
21 出力装置
DESCRIPTION OF
Claims (5)
同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出部と、
前記マイクノード別音源存在事後確率推定部における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出部における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定部と、
前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定部と、
を有することを特徴とする音源分離装置。 Estimate the sound source existence posterior probability for each sound source at each microphone node based on the microphone node observation signal, which is a multi-channel observation signal obtained by collecting sound source signals emitted from a plurality of sound sources with a plurality of microphones, and A sound source existence posterior probability estimation unit for each microphone node that updates the sound source existence posterior probability based on update information that is information for updating the posterior probability;
Assuming that the sound source existence posterior probabilities for each sound source between the respective microphone nodes co-occur in the same time frequency bin, the co-occurrence relationship of the sound source existence posterior probabilities is modeled, and the sound source existence of each microphone node Estimating the parameters in the model so that the co-occurrence of the posterior probability is large, and calculating the update information based on the parameters, the sound source presence posterior probability co-occurrence pattern detection unit between microphone nodes,
The update of the sound source presence posterior probability in the sound source existence posterior probability estimation unit for each microphone node and the calculation of the update information in the sound source presence posterior probability co-occurrence pattern detection unit between the microphone nodes converge the sound source posterior probability or the parameter. A convergence determination unit that is repeatedly executed until
An output sound estimation unit that estimates the sound source signal of each sound source by filtering the sound source presence posterior probability or the update information with respect to the microphone node observation signal;
A sound source separation device comprising:
前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいてp(xi|ni;θ(n i ))を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(xi|ni;θ(n i ))を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新し、
前記マイクノード間音源存在事後確率共起パタン検出部は、
全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ(w)を推定し、前記更新情報を算出することを特徴とする請求項1に記載の音源分離装置。 The sound source existence posterior probability estimation unit for each microphone node is:
P (x i | n i ; θ (n) based on the observation feature quantity x i obtained by collecting the sound source signals emitted from the plurality of sound sources in the time frame t as the microphone node observation signal at the i-th microphone node. i )) ) to estimate the existence posterior probability p (n i, j | x i ) of the j th sound source at the i th microphone node, which is the sound source existence posterior probability, and based on the update information Re-estimating p (x i | n i ; θ (n i ) ) so that the likelihood p (x; θ) of the observed signal is maximized. Update the existence posterior probability p (n i, j | x i ) at the i-th microphone node of
The sound source presence posterior probability co-occurrence pattern detection unit between the microphone nodes is
Sound source activity information at each microphone node using a set of p (n i, j | x i, t ) for all time frames t of the sound source existence posterior probabilities at all i, all j, and all t n and the potential probability of sound source activity common to all nodes a, and the sound source existence posterior so that the prior probability p (n, a; θ (w) ) indicating the sound source activity is maximized. The sound source separation apparatus according to claim 1, wherein θ (w) that is the parameter of the model indicating the co-occurrence of probability is estimated, and the update information is calculated.
複数の音源から発せられる音源信号を複数のマイクロホンで収音した複数チャネルの観測信号であるマイクロホンノード観測信号に基づいて各マイクロホンノードにおける各音源に関する音源存在事後確率を推定し、また、前記音源存在事後確率を更新するための情報である更新情報に基づいて前記音源存在事後確率を更新するマイクノード別音源存在事後確率推定工程と、
同一時間周波数ビンにおいては前記各マイクロホンノード間での前記各音源に関する前記音源存在事後確率が共起すると仮定し、前記音源存在事後確率の共起関係をモデル化し、前記各マイクロホンノードの前記音源存在事後確率の共起性が大きくなるように前記モデルにおけるパラメータを推定し、前記パラメータを基に前記更新情報を算出するマイクノード間音源存在事後確率共起パタン検出工程と、
前記マイクノード別音源存在事後確率推定工程における前記音源存在事後確率の更新および前記マイクノード間音源存在事後確率共起パタン検出工程における前記更新情報の算出を、前記音源存在事後確率または前記パラメータが収束するまで繰り返し実行させる収束判定工程と、
前記マイクロホンノード観測信号に対し、前記音源存在事後確率または前記更新情報を用いてフィルタリングすることで、前記各音源の前記音源信号を推定する出力音推定工程と、
を含んだことを特徴とする音源分離方法。 A sound source separation method executed by a sound source separation device,
Estimate the sound source existence posterior probability for each sound source at each microphone node based on the microphone node observation signal, which is a multi-channel observation signal obtained by collecting sound source signals emitted from a plurality of sound sources with a plurality of microphones, and Sound source presence posterior probability estimation step for each microphone node that updates the sound source presence posterior probability based on update information that is information for updating the posterior probability;
Assuming that the sound source existence posterior probabilities for each sound source between the respective microphone nodes co-occur in the same time frequency bin, the co-occurrence relationship of the sound source existence posterior probabilities is modeled, and the sound source existence of each microphone node Estimating the parameters in the model so that the co-occurrence of the posterior probability is large, and calculating the update information based on the parameters, the sound source presence posterior probability co-occurrence pattern detection step between microphone nodes;
The update of the sound source existence posterior probability in the sound source existence posterior probability estimation step for each microphone node and the calculation of the update information in the sound source presence posterior probability co-occurrence pattern detection step between the microphone nodes converge the sound source presence posterior probability or the parameter. A convergence determination step that is repeatedly executed until
An output sound estimation step of estimating the sound source signal of each sound source by filtering the microphone node observation signal using the sound source existence posterior probability or the update information;
A sound source separation method comprising:
前記マイクロホンノード観測信号である時間フレームtにおける前記複数の音源から発せられる前記音源信号をi番目のマイクロホンノードで収音した観測特徴量xiに基づいてp(xi|ni;θ(n i ))を推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を推定し、前記更新情報に基づいて前記観測信号の尤度p(x;θ)が最大になるようにp(xi|ni;θ(n i ))を再推定することによって前記音源存在事後確率であるj番目の音源の前記i番目のマイクロホンノードでの存在事後確率p(ni,j|xi)を更新し、
前記マイクノード間音源存在事後確率共起パタン検出工程は、
全てのi、全てのj、全てのtにおける前記音源存在事後確率の全ての時間フレームtに関するp(ni,j|xi,t)の集合を用いて、前記各マイクロホンノードにおける音源アクティビティ情報nおよび全ノードに共通する潜在的な音源アクティビティ情報aの同時確率であって、音源のアクティビティを示す事前確率p(n,a;θ(w))が最大になるように、前記音源存在事後確率の共起性を示す前記モデルの前記パラメータであるθ(w)を推定し、前記更新情報を算出することを特徴とする請求項3に記載の音源分離方法。 The microphone node-specific sound source existence posterior probability estimation step includes:
P (x i | n i ; θ (n) based on the observation feature quantity x i obtained by collecting the sound source signals emitted from the plurality of sound sources in the time frame t as the microphone node observation signal at the i-th microphone node. i )) ) to estimate the existence posterior probability p (n i, j | x i ) of the j th sound source at the i th microphone node, which is the sound source existence posterior probability, and based on the update information Re-estimating p (x i | n i ; θ (n i ) ) so that the likelihood p (x; θ) of the observed signal is maximized. Update the existence posterior probability p (n i, j | x i ) at the i-th microphone node of
The microphone node sound source existence posterior probability co-occurrence pattern detection step includes:
Sound source activity information at each microphone node using a set of p (n i, j | x i, t ) for all time frames t of the sound source existence posterior probabilities at all i, all j, and all t n and the potential probability of sound source activity common to all nodes a, and the sound source existence posterior so that the prior probability p (n, a; θ (w) ) indicating the sound source activity is maximized. The sound source separation method according to claim 3, wherein θ (w) that is the parameter of the model indicating the co-occurrence of probability is estimated, and the update information is calculated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015075262A JP6339520B2 (en) | 2015-04-01 | 2015-04-01 | Sound source separation device, sound source separation method, and sound source separation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015075262A JP6339520B2 (en) | 2015-04-01 | 2015-04-01 | Sound source separation device, sound source separation method, and sound source separation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016194657A true JP2016194657A (en) | 2016-11-17 |
JP6339520B2 JP6339520B2 (en) | 2018-06-06 |
Family
ID=57323126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015075262A Active JP6339520B2 (en) | 2015-04-01 | 2015-04-01 | Sound source separation device, sound source separation method, and sound source separation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6339520B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610718A (en) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | Method and device for extracting expected sound source voice signal |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013054258A (en) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Sound source separation device and method, and program |
JP2014157261A (en) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | Sound source separating device, sound source separating method, and program |
JP2015040934A (en) * | 2013-08-21 | 2015-03-02 | 日本電信電話株式会社 | Sound source separation device, and method and program of the same |
-
2015
- 2015-04-01 JP JP2015075262A patent/JP6339520B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013054258A (en) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Sound source separation device and method, and program |
JP2014157261A (en) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | Sound source separating device, sound source separating method, and program |
JP2015040934A (en) * | 2013-08-21 | 2015-03-02 | 日本電信電話株式会社 | Sound source separation device, and method and program of the same |
Non-Patent Citations (2)
Title |
---|
ソウデンメレズ 他: "ノード内・ノード間情報の統合に基づく分散マイクアレイ音源分離", 日本音響学会2013年春季研究発表会, JPN6018014919, 5 March 2013 (2013-03-05), pages 797 - 798 * |
木下慶介 他: "音源信号の距離減衰・局在性を考慮した大規模分散マイク音源分離に関する一検討", 日本音響学会2013年秋季研究発表会, JPN6018014918, 17 September 2013 (2013-09-17), pages 597 - 600 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610718A (en) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | Method and device for extracting expected sound source voice signal |
CN110610718B (en) * | 2018-06-15 | 2021-10-08 | 炬芯科技股份有限公司 | Method and device for extracting expected sound source voice signal |
Also Published As
Publication number | Publication date |
---|---|
JP6339520B2 (en) | 2018-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
JP6235938B2 (en) | Acoustic event identification model learning device, acoustic event detection device, acoustic event identification model learning method, acoustic event detection method, and program | |
JP5842056B2 (en) | Noise estimation device, noise estimation method, noise estimation program, and recording medium | |
JP6927419B2 (en) | Estimator, learning device, estimation method, learning method and program | |
JP5568530B2 (en) | Sound source separation device, method and program thereof | |
CN106710599A (en) | Particular sound source detection method and particular sound source detection system based on deep neural network | |
KR20200145219A (en) | Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments | |
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
Nandwana et al. | Robust unsupervised detection of human screams in noisy acoustic environments | |
CN109949821B (en) | Method for removing reverberation of far-field voice by using U-NET structure of CNN | |
JP2016143043A (en) | Speech model learning method, noise suppression method, speech model learning system, noise suppression system, speech model learning program, and noise suppression program | |
JP7218601B2 (en) | LEARNING DATA ACQUISITION DEVICE, MODEL LEARNING DEVICE, THEIR METHOD, AND PROGRAM | |
JP6723120B2 (en) | Acoustic processing device and acoustic processing method | |
CN109410956A (en) | A kind of object identifying method of audio data, device, equipment and storage medium | |
KR102069699B1 (en) | Apparatus and method for recognizing speech | |
KR102401959B1 (en) | Joint training method and apparatus for deep neural network-based dereverberation and beamforming for sound event detection in multi-channel environment | |
KR20190130533A (en) | Hearing Aid Having Voice Activity Detector and Method thereof | |
Chettri et al. | A study on convolutional neural network based end-to-end replay anti-spoofing | |
JP6505346B1 (en) | Computer system for unsupervised speaker adaptation of DNN speech synthesis, method and program implemented in the computer system | |
JP6339520B2 (en) | Sound source separation device, sound source separation method, and sound source separation program | |
JP6059112B2 (en) | Sound source separation device, method and program thereof | |
JP5731929B2 (en) | Speech enhancement device, method and program thereof | |
JP6673861B2 (en) | Signal processing device, signal processing method and signal processing program | |
CN113643710A (en) | Attention-based multi-channel speaker confirmation method under self-organized microphone array | |
JP6114053B2 (en) | Sound source separation device, sound source separation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6339520 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |