JP2023025457A - Signal analysis device, signal analysis method, and signal analysis program - Google Patents

Signal analysis device, signal analysis method, and signal analysis program Download PDF

Info

Publication number
JP2023025457A
JP2023025457A JP2021130718A JP2021130718A JP2023025457A JP 2023025457 A JP2023025457 A JP 2023025457A JP 2021130718 A JP2021130718 A JP 2021130718A JP 2021130718 A JP2021130718 A JP 2021130718A JP 2023025457 A JP2023025457 A JP 2023025457A
Authority
JP
Japan
Prior art keywords
sound
spectrogram
encoder
decoder
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021130718A
Other languages
Japanese (ja)
Inventor
弘和 亀岡
Hirokazu Kameoka
莉 李
Ri Ri
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2021130718A priority Critical patent/JP2023025457A/en
Publication of JP2023025457A publication Critical patent/JP2023025457A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

To precisely separate each of constituent tones from a mixture signal in which the constituent tones are mixed while reducing the calculation cost.SOLUTION: A learning unit 32 learns an encoder that estimates a latent vector series in response to an input of a spectrogram of a tone on the basis of a spectrogram of each constituent tone and an attribute class thereof, an identifier that identifies an attribution class which indicates the attribute of the tone in response to an input of the spectrogram of the tone, and a decoder that generates distribution of the spectrogram of the tone in response to an input of the latent vector series and the attribute class. A parameter estimation unit 36 estimates a separate matrix and a scale parameter to optimize an objective function in response to an input of an observation signal in which the constituent tones are mixed.SELECTED DRAWING: Figure 5

Description

開示の技術は、信号解析装置、信号解析方法、及び信号解析プログラムに関する。 The technology disclosed herein relates to a signal analysis device, a signal analysis method, and a signal analysis program.

ブラインド音源分離(Blind Source Separation:BSS)は、音源に関する情報や音源とマイクとの間の伝達関数等の事前情報を用いずに観測された混合信号のみから個々の音源信号を分離抽出する技術である。マイクロホンの数が音源数以上の優決定条件下においては、音源信号間の独立性を最大化するように分離フィルタを推定することを目的とする独立成分分析(Independent Component Analysis:ICA)が有効であることが知られており、その原理を拡張した手法が数多く提案されている。中でも時間周波数領域で定式化される手法は、音源に関する時間周波数領域で成り立つ様々な仮定やマイクロホンアレーの周波数応答に関する仮定を有効に活用できるという利点がある。例えば、非特許文献1に記載の独立低ランク行列分析(Independent Low-Rank Matrix Analysis:ILRMA)は、各音源信号のパワースペクトログラムを二つの非負値行列の積(低ランク非負値行列)でモデル化できるという仮定を基礎としている。しかし、この仮定に従わない音源に対しては本手法の分離性能は必然的に限定的となる。 Blind source separation (BSS) is a technology that separates and extracts individual sound source signals from only the observed mixed signal without using prior information such as information about the sound source and the transfer function between the sound source and the microphone. be. Under overdetermined conditions where the number of microphones is greater than or equal to the number of sound sources, Independent Component Analysis (ICA) is effective for estimating separation filters so as to maximize the independence between sound source signals. It is known that there is one, and many techniques that extend the principle have been proposed. Among them, the technique formulated in the time-frequency domain has the advantage of being able to effectively utilize various assumptions about the sound source that hold in the time-frequency domain and the assumptions about the frequency response of the microphone array. For example, Independent Low-Rank Matrix Analysis (ILRMA) described in Non-Patent Document 1 models the power spectrogram of each sound source signal with the product of two non-negative matrices (low-rank non-negative matrix). It is based on the assumption that it is possible. However, the separation performance of this method is inevitably limited for sound sources that do not follow this assumption.

近年、ICAをはじめとした信号処理に基づく手法に深層学習(Deep Neural Network:DNN)を導入することで、分離精度を改善する試みがなされている。非特許文献2に記載の多チャンネル変分自己符号化器法(Multichannel Variational Autoencoder:MVAE)法は、条件付きVAE(Conditional VAE:CVAE)により表現される音源スペクトログラムの生成モデルを事前学習し、分離時においてCVAEのデコーダ入力を分離行列と共に推定する手法で、DNNを用いた手法の中でも特に高い分離精度を達成している。この手法では、各反復計算で尤度関数が上昇するようにパラメータが更新されるため、尤度関数の停留点への収束が保証される一方で、デコーダ入力値の更新に誤差逆伝播法(Backpropagation)が用いられるため、高い計算コストを要する点に課題があった。 In recent years, attempts have been made to improve the separation accuracy by introducing deep neural network (DNN) into techniques based on signal processing such as ICA. The Multichannel Variational Autoencoder (MVAE) method described in Non-Patent Document 2 pre-learns and separates the generation model of the sound source spectrogram represented by the conditional VAE (CVAE). In some cases, the method estimates the CVAE decoder input together with the separation matrix, and achieves particularly high separation accuracy among the methods using the DNN. In this method, the parameters are updated so that the likelihood function rises at each iteration, thus ensuring convergence of the likelihood function to a stationary point, while updating the decoder input values using error backpropagation ( Backpropagation) is used, so there is a problem in that a high calculation cost is required.

非特許文献3に記載のFastMVAE法は前記MVAE法の計算コストの削減を目的として提案された手法で、クラス識別器つきVAE(Auxiliary Classifier VAE: ACVAE)を用いて音源スペクトログラムの生成モデルであるデコーダと共に、音源クラスの分布と潜在変数の事後分布を近似する識別器分布とエンコーダ分布を学習することで、学習で得られた識別器とエンコーダを用いて事後分布が最大となるようなデコーダ入力値を予測する手法である。この手法では、MVAE法に比べて音源分離アルゴリズムを高速化できる一方で、未知話者や長い残響の場合など、テスト時において学習時と条件が一致しない場合に分離性能が低下する傾向があった。 The FastMVAE method described in Non-Patent Document 3 is a method proposed for the purpose of reducing the calculation cost of the MVAE method. In addition, by learning the discriminator distribution and encoder distribution that approximate the distribution of the sound source class and the posterior distribution of the latent variable, the decoder input value that maximizes the posterior distribution using the discriminator and encoder obtained by learning is a method of predicting Although this method can speed up the sound source separation algorithm compared to the MVAE method, the separation performance tends to decrease when the conditions during testing do not match those during training, such as in the case of unknown speakers or long reverberations. .

Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, and Hiroshi Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no.9, pp. 1626-1641, Sep. 2016.Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, and Hiroshi Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 9, pp. 1626-1641, Sep. 2016. Hirokazu Kameoka, Li Li, Shota Inoue, and Shoji Makino, “Supervised Determined Source Separation with Multichannel Variational Autoencoder,” Neural Computation, vol. 31, no. 9, pp.1891-1914, Sep. 2019.Hirokazu Kameoka, Li Li, Shota Inoue, and Shoji Makino, “Supervised Determined Source Separation with Multichannel Variational Autoencoder,” Neural Computation, vol. 31, no. 9, pp.1891-1914, Sep. 2019. Li Li, Hirokazu Kameoka, Shota Inoue, and Shoji Makino, “FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method,” IEEE Access, vol. 8, pp. 228740-228753, Dec. 2020.Li Li, Hirokazu Kameoka, Shota Inoue, and Shoji Makino, “FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method,” IEEE Access, vol. 8, pp. 228740-228753, Dec. 2020.

MVAE法では、各反復計算で対数尤度が上昇するようにパラメータの更新が行われるため、対数尤度の停留点への収束が保証される利点がある一方で、誤差逆伝播法による音声生成モデルのパラメータ更新に多大な計算コストを要する点に課題があった。 In the MVAE method, parameters are updated so that the logarithmic likelihood increases in each iteration, so there is the advantage of guaranteeing the convergence of the logarithmic likelihood to a stationary point. The problem was that updating the parameters of the model required a great deal of computational cost.

これに対し、非特許文献3のFastMVAE法では、デコーダと共に事前に学習しておいたエンコーダと識別器を用いて当該パラメータの更新値を予測する方法により、音源分離アルゴリズムの大幅な高速化を実現した。しかし、FastMVAE法におけるエンコーダと識別器の出力値は当該パラメータに関する対数尤度の最急上昇方向への更新値を近似したものでしかないため、音源分離精度に関してはFastMVAE法はMVAE法に及ばないことが実験的に確認されている。 On the other hand, the FastMVAE method of Non-Patent Document 3 realizes a significant speed-up of the sound source separation algorithm by predicting the update value of the parameter using the encoder and classifier that have been trained in advance together with the decoder. bottom. However, since the output values of the encoder and discriminator in the FastMVAE method are only approximations of the updated values in the steepest rising direction of the logarithmic likelihood related to the parameter, the FastMVAE method is inferior to the MVAE method in terms of sound source separation accuracy. has been confirmed experimentally.

開示の技術は、上記の点に鑑みてなされたものであり、計算コストを抑えて、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。 The disclosed technology has been made in view of the above points, and is a signal analysis device, method, and method capable of accurately separating each component sound from a mixed signal in which each component sound is mixed, while suppressing calculation costs. and to provide programs.

本開示の第1態様は、信号解析装置であって、各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習する学習部と、各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定するパラメータ推定部と、を含む。 A first aspect of the present disclosure is a signal analysis device, an encoder that estimates a latent vector sequence based on a spectrogram of each component sound and an attribute class indicating the attribute of the component sound, using a sound spectrogram as an input; A learning unit that learns a discriminator that uses the sound spectrogram as an input to identify an attribute class indicating the sound attribute, and a decoder that receives the latent vector sequence and the attribute class as input and generates the variance of the sound spectrogram. and the latent vector sequence estimated for each component sound separated by the separation matrix by the learned encoder, the separation matrix by the learned discriminator, with the observation signal mixed with each component sound as input. the attribute class identified for each component sound separated by, for each component sound, calculated from the variance of the component spectrogram generated by the learned decoder, and a scale parameter, the configuration A spectrogram of a sound, a scale parameter of the spectrogram of each component sound, a separation matrix for separating a mixed sound in which each component sound is mixed in the time-frequency domain into each component sound, and a signal obtained by separating the observed signal into each component sound. a parameter estimator for estimating the separation matrix and the scale parameter so as to optimize an objective function expressed using .

本開示の第2態様は、信号解析方法であって、学習部が、各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、パラメータ推定部が、各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する。 A second aspect of the present disclosure is a signal analysis method, in which a learning unit estimates a latent vector sequence based on a spectrogram for each component sound and an attribute class indicating the attribute of the component sound, with the spectrogram of the sound as input. an encoder that receives the spectrogram of sound as an input and identifies an attribute class indicating the attribute of the sound; and a decoder that receives the latent vector sequence and the attribute class as input and generates a variance of the spectrogram of the sound. The latent vector sequence estimated for each constituent sound separated by the separation matrix by the learned encoder, the learned from the attribute class identified by the classifier for each component sound separated by the separation matrix, the variance of the component sound spectrogram generated by the learned decoder for each component sound, and a scale parameter; The calculated spectrogram of the component sound, the scale parameter of the spectrogram of each component sound, the separation matrix for separating the mixed sound in which the component sounds are mixed in the time-frequency domain into each component sound, and the observed signal, estimating the separation matrix and the scale parameter so as to optimize an objective function represented using the signal separated into constituent sounds;

本開示の第3態様は、プログラムであって、コンピュータを、上記第1態様の信号解析装置として機能させるためのプログラムである。 A third aspect of the present disclosure is a program for causing a computer to function as the signal analysis device of the first aspect.

開示の技術によれば、計算コストを抑えて、各構成音が混合した混合信号から、各構成音を精度よく分離することができる、という効果が得られる。 According to the disclosed technology, it is possible to obtain the effect of being able to accurately separate each component sound from a mixed signal in which each component sound is mixed, while suppressing the calculation cost.

本実施形態に係る教師用エンコーダ及び教師用デコーダの構成を説明するための概念図である。FIG. 2 is a conceptual diagram for explaining configurations of a teacher encoder and a teacher decoder according to this embodiment; 本実施形態に係るエンコーダ、識別器、及びデコーダの構成を説明するための概念図である。FIG. 2 is a conceptual diagram for explaining configurations of an encoder, a discriminator, and a decoder according to this embodiment; 本実施形態に係るエンコーダ及び識別器の構成例、並びにデコーダの構成例を示す図である。FIG. 3 is a diagram showing a configuration example of an encoder and discriminator, and a configuration example of a decoder according to this embodiment; 本実施形態の信号解析装置として機能するコンピュータの一例の概略ブロック図である。1 is a schematic block diagram of an example of a computer that functions as a signal analysis device of this embodiment; FIG. 本実施形態の信号解析装置の構成を示すブロック図である。1 is a block diagram showing the configuration of a signal analysis device of this embodiment; FIG. 本実施形態の信号解析装置における学習処理ルーチンを示すフローチャートである。4 is a flowchart showing a learning processing routine in the signal analysis device of this embodiment; 本実施形態の信号解析装置における信号解析処理ルーチンを示すフローチャートである。4 is a flowchart showing a signal analysis processing routine in the signal analysis device of this embodiment; 実験例におけるマイクと音源の配置を示す図である。It is a figure which shows the arrangement|positioning of the microphone and the sound source in an experimental example. 本実施形態の手法と従来手法による、各反復における計算時間を示す図である。FIG. 4 is a diagram showing computation time in each iteration by the method of the present embodiment and the conventional method;

以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。 An example of embodiments of the technology disclosed herein will be described below with reference to the drawings. In each drawing, the same or equivalent components and portions are given the same reference numerals. Also, the dimensional ratios in the drawings are exaggerated for convenience of explanation, and may differ from the actual ratios.

<本実施形態の概要>
まず、本実施形態における概要を説明する。
<Overview of this embodiment>
First, an outline of this embodiment will be described.

本実施形態では、FastMVAE法におけるエンコーダと識別器を単一のマルチタスクNN(ニューラルネットワーク)として統合することでさらなる高速化を実現する。また、当該マルチタスクNNとデコーダを、それぞれの出力分布が、MVAE法における事前学習で獲得したエンコーダとデコーダのそれぞれの出力分布とできるだけ近くなるように知識蒸留(Knowledge Distillation:KD)を行うことで、各NNに、MVAE法における音声生成モデルのパラメータ更新に似た振る舞いをさせ、MVAE法の高い分離精度に近づける。これらのアイディアにより、従来技術のFastMVAE法に比べて未知話者に対しても高速かつ高精度な音源分離を実現する。 In this embodiment, the encoder and classifier in the FastMVAE method are integrated as a single multitask NN (neural network) to achieve further speedup. In addition, knowledge distillation (KD) is performed on the multitask NN and decoder so that each output distribution is as close as possible to each output distribution of the encoder and decoder obtained by pre-learning in the MVAE method. , make each NN behave like the parameter update of the speech production model in the MVAE method, approaching the high separation accuracy of the MVAE method. These ideas realize high-speed and high-accuracy sound source separation even for unknown speakers compared to the conventional FastMVAE method.

<本実施形態の原理>
<優決定条件下の多チャンネル音源分離問題の定式化>
I個のマイクロホンでJ個の音源から到来する信号を観測する場合を考える。マイクiの観測信号、音源jの信号の複素スペクトログラムをそれぞれx(f,n)、s(f,n)とする。また、これらを要素としたベクトルを

Figure 2023025457000002

(1)
Figure 2023025457000003

(2)
とする。ただし、ここではI=Jの優決定条件を考える。ここで( )は転置を表し、fとnはそれぞれ周波数と時間のインデックスである。 <Principle of this embodiment>
<Formulation of multi-channel sound source separation problem under over-determined condition>
Consider the case of observing signals coming from J sound sources with I microphones. Let x i (f, n) and s j (f, n) be the complex spectrograms of the observed signal of microphone i and the signal of sound source j, respectively. Also, a vector with these elements as
Figure 2023025457000002

(1)
Figure 2023025457000003

(2)
and However, here, the over-determination condition of I=J is considered. where ( ) T represents the transpose and f and n are the frequency and time indices, respectively.

I=Jの条件においては音源信号の複素スペクトログラムのベクトルs(f,n)と観測信号のベクトルx(f,n)の間の関係式として瞬時分離系

Figure 2023025457000004

(3)
Figure 2023025457000005

(4)
を仮定することができる。ここで、W(f)は分離行列を表し、( )はエルミート転置である。 Under the condition of I=J, the instantaneous separation system
Figure 2023025457000004

(3)
Figure 2023025457000005

(4)
can be assumed. where W H (f) represents the separation matrix and ( ) H is the Hermitian transpose.

以上の瞬時混合系の仮定の下で、更に音源jの複素スペクトログラムs(f,n)が平均0、分散

Figure 2023025457000006

の複素正規分布
Figure 2023025457000007

(5)
に従う確率変数とすると、各音源信号s(f,n)とsj’(f,n)、j≠j’が統計的に独立のときには、音源信号s(f,n)は
Figure 2023025457000008

(6)
に従う。 Under the assumption of the instantaneous mixing system described above, the complex spectrogram s j (f, n) of sound source j has mean 0 and variance
Figure 2023025457000006

complex normal distribution of
Figure 2023025457000007

(5)
, the sound source signal s (f,n) is given by
Figure 2023025457000008

(6)
obey.

ここで、V(f,n)はv(f,n),・・・,v(f,n)を要素に持つ対角行列である。式(3)、(6)より、観測信号xは

Figure 2023025457000009

(7)
に従う。 Here, V(f, n) is a diagonal matrix having v 1 (f, n), . . . , v I (f, n) as elements. From equations (3) and (6), the observed signal x is
Figure 2023025457000009

(7)
obey.

従って、観測信号X={x(f,n)}f,nが与えられた下での分離行列W={W(f)}と各音源のパワースペクトログラムV={v(f,n)}j,f,nの対数尤度関数は

Figure 2023025457000010

(8)
となる。ここで、=はパラメータに依存する項のみに関する等号を表す。音源パワースペクトログラムv(f,n)に制約がない場合、式(8)は周波数fごとの項に分解されるため、式(8)に基づいて求めるWで得られた分離信号のインデックスにはパーミュテーションの任意性が生じる。v(f,n)が周波数方向に構造的制約を持つ場合、その制約を活かすことでパーミュテーション整合と音源分離を同時解決するアプローチを導くことができる。ILRMAやMVAE法がその例である。 Therefore, given the observed signal X={x(f, n)} f, n, the separation matrix W={W(f)} f and the power spectrogram V={v j (f, n )} The log-likelihood function of j, f, n is
Figure 2023025457000010

(8)
becomes. where = c stands for equality only for the parameter dependent terms. If there are no constraints on the sound source power spectrogram v j (f, n), Equation (8) is decomposed into terms for each frequency f. gives rise to permutation arbitrariness. If v j (f, n) has structural constraints in the frequency direction, exploiting those constraints can lead to an approach that simultaneously solves permutation matching and sound source separation. Examples are the ILRMA and MVAE methods.

<従来技術1:MVAE法>
MVAE法では、音源クラスラベルを補助入力としたCVAEのデコーダ分布を各音源の複素スペクトログラムの生成モデルとして用いる。ある音源信号の複素スペクトログラムをS={s(f,n)}f,nとし、対応する音源クラスラベルをone-hotベクトルcとする。図1にCVAEの概念図を示す。CVAEはエンコーダ分布q φ(z|S,c)とデコーダ分布p θ(S|z,c)が無矛盾になるように、すなわち、q φ(z|S,c)とp θ(S|z,c)から導かれる事後分布p θ(z|S,c)∝p θ(S|z,c)p(z)ができるだけ一致するようにエンコーダとデコーダのNNパラメータφ、θを学習する。ここで、CVAEのデコーダ分布を式(5)の局所ガウス音源モデルと同形の確率モデル

Figure 2023025457000011

(9)
Figure 2023025457000012

(10)
と置く。ただし、分散σ θ (f,n;z,c)はデコーダネットワークの出力であり、gはパワースペクトログラムのスケールを表す変数である。 <Conventional technology 1: MVAE method>
In the MVAE method, the CVAE decoder distribution with the sound source class label as an auxiliary input is used as a complex spectrogram generation model for each sound source. Let S={s(f,n)} f,n be the complex spectrogram of a sound source signal, and let c be the corresponding sound source class label. FIG. 1 shows a conceptual diagram of CVAE. CVAE is such that the encoder distribution q * φ (z|S,c) and the decoder distribution p * θ (S|z,c) are consistent, that is, q * φ (z|S,c) and p * θ The NN parameter φ , θ. Here, the decoder distribution of CVAE is a probability model isomorphic to the local Gaussian source model of equation (5)
Figure 2023025457000011

(9)
Figure 2023025457000012

(10)
and put. where the variance σ * θ 2 (f,n;z,c) is the output of the decoder network and g is the variable representing the scale of the power spectrogram.

一方、エンコーダ分布q φ(z|S,c)は通常のCVAEと同様に、標準正規分布

Figure 2023025457000013

(11)
と仮定する。 On the other hand, the encoder distribution q * φ (z|S, c) is the standard normal distribution
Figure 2023025457000013

(11)
Assume that

ここで、μ φ(S,c)、σ φ (S,c)はエンコーダの出力である。CVAEのパラメータθ、φは、各種クラスの音源信号の複素スペクトログラムの学習サンプル{S、c m=1を用いて

Figure 2023025457000014

(12)
が最大となるように学習される。 where μ * φ (S,c) and σ * φ2 (S,c) are the encoder outputs . CVAE parameters θ and φ are obtained using training samples {S m , cm } M m = 1 of complex spectrograms of sound source signals of various classes.
Figure 2023025457000014

(12)
is learned to maximize

Figure 2023025457000015

は学習サンプルによる標本平均を表し、KL[・||・]はKullback-Leibler(KL)ダイバージェンスである。以上により学習したデコーダ分布p θ(S|z,c,g)をCVAE音源モデルと呼ぶ。CVAE音源モデルは、学習サンプルに含まれる様々なクラスの音源の複素スペクトログラムを表現可能な生成モデルとなっており、cを音源クラスのカテゴリカルな特徴を調整する役割と見なすことができ、zを、クラス内の変動を調整する役割を担った変数と見なすことができる。
Figure 2023025457000015

represents the sample mean from the training samples, and KL[·||·] is the Kullback-Leibler (KL) divergence. The decoder distribution p * θ (S|z, c, g) learned as described above is called a CVAE excitation model. The CVAE sound source model is a generative model that can express the complex spectrograms of the sound sources of various classes included in the training samples. , can be viewed as the variable responsible for adjusting for within-class variation.

音源jの複素スペクトログラムS={s(f,n)}f,nの生成モデルを、z、c、gを入力としたデコーダ分布により表現することで、音源モデルのパラメータの尤度関数は式(8)と同形の尤度関数に帰着させることができる。従って、式(8)の尤度関数が大きくなるように分離行列W、CVAE音源モデルパラメータΨ={z,c、スケールパラメータG={gを反復更新することで、式(8)の停留点を探索することができる。式(8)を上昇させるWの更新にはILRMAと同様に反復射影法(Iterative Projection:IP)

Figure 2023025457000016

(13)
Figure 2023025457000017

(14)
を用いることができる。 Complex spectrogram S j ={s j (f, n)} of sound source j By expressing the generative model of f, n by the decoder distribution with input of z j , c j , g j , the parameters of the sound source model The likelihood function can be reduced to a likelihood function isomorphic to equation (8). Therefore, by repeatedly updating the separation matrix W, the CVAE sound source model parameter Ψ={z j , c j } j , and the scale parameter G={g j } j so as to increase the likelihood function of equation (8), We can search for a stationary point in equation (8). Iterative projection method (IP) is used in the same way as ILRMA to update W that raises equation (8).
Figure 2023025457000016

(13)
Figure 2023025457000017

(14)
can be used.

ただし、

Figure 2023025457000018

であり、eはI×Iの単位行列の第j列ベクトルである。また式(8)を上昇させるΨの更新は誤差逆伝播法、Gの更新は
Figure 2023025457000019

(15)
により行うことができる。ただし、式(15)はWとΨが固定された下で式(8)を最大にする更新式である。以上よりMVAEの推論プロセスは以下のようにまとめられる。 however,
Figure 2023025457000018

and e j is the j-th column vector of the I×I identity matrix. Also, the update of Ψ that raises equation (8) is the error backpropagation method, and the update of G is
Figure 2023025457000019

(15)
It can be done by However, equation (15) is an update equation that maximizes equation (8) under the condition that W and Ψ are fixed. From the above, the inference process of MVAE is summarized as follows.

1.式(12)を規準としてθ、φを学習する。
2.Wを単位行列に初期化し、Ψを初期化する。
3.各jについて下記ステップa~ステップcを繰り返す。
(ステップa)式(13)、(14)により{w(f)}j,fを更新する。
(ステップb)誤差逆伝播法によりΨ={z,c}を更新する。
(ステップc)式(15)によりgを更新する。
1. θ and φ are learned based on equation (12).
2. Initialize W to the identity matrix and initialize Ψ.
3. The following steps a to c are repeated for each j.
(Step a) {w j (f)} j and f are updated by equations (13) and (14).
(Step b) Update Ψ j ={z j , c j } by error backpropagation.
(Step c) Update g j by equation (15).

<従来技術2:FastMVAE法>
MVAE法では、各反復計算で対数尤度が上昇するようにパラメータの更新が行われるため、対数尤度の停留点への収束が保証される利点がある一方で、pθ(z,c|S)を最大にするパラメータz、cを誤差逆伝播法により更新するのに多大な計算コストを要する点に課題があった。非特許文献3のFastMVAE法では、事後分布pθ(z,c|S)をpθ(z|S,c)pθ(c|S)のように二つの条件付き分布の積に分解し、各分布を近似するよう分布q φ(z|S,c)、r ψ(c|S)をNNにより表現し、事前学習する。これにより、MVAE法における誤差逆伝播法によるパラメータ探索をそれぞれのNNのフォワード計算で代替でき、高速な推論が可能になる。しかし、FastMVAE法におけるエンコーダq φ(z|S,c)と識別器r ψ(c|S)の出力値は当該パラメータに関する対数尤度の最急上昇方向への更新値を近似したものでしかないため、音源分離精度に関しては、FastMVAE法はMVAE法に及ばないことが実験的に確認されている。
<Conventional technology 2: Fast MVAE method>
In the MVAE method , the parameters are updated so that the log-likelihood increases in each iteration. The problem is that updating the parameters z j and c j that maximize j |S j ) by the error backpropagation method requires a great deal of computational cost. In the FastMVAE method of Non-Patent Document 3, the posterior distribution p θ (z, c | S) is decomposed into a product of two conditional distributions such as p θ (z | S, c) p θ (c | S). , the distributions q * φ (z|S, c) and r * ψ (c|S) are represented by NNs so as to approximate each distribution, and pre-learned. As a result, the parameter search by the error backpropagation method in the MVAE method can be replaced by the forward calculation of each NN, enabling high-speed inference. However, the output values of the encoder q * φ (z|S,c) and the discriminator r * ψ (c|S) in the FastMVAE method are approximations of updated values in the direction of the steepest increase in the logarithmic likelihood of the relevant parameter. Therefore, it has been experimentally confirmed that the FastMVAE method is inferior to the MVAE method in terms of sound source separation accuracy.

<本実施形態の方法>
本実施形態で用いるFastMVAE2法では、まず潜在変数zと音源の属性クラスcが条件付き独立であることを仮定する。これは、所与のスペクトログラムSが与えられた下で、話者情報cと発話内容に関する情報zが独立であると仮定することに相当する。つまり、事後確率pθ(z,c|S)をpθ(z|S)pθ(c|S)と表せると仮定する点が従来と異なる。この二つの条件付き分布の近似分布が得られれば、FastMVAE法と同様、NNのフォワード計算でパラメータ探索を高速に行うことができる。
<Method of this embodiment>
In the FastMVAE2 method used in this embodiment, first, it is assumed that the latent variable z and the sound source attribute class c are conditionally independent. Given a given spectrogram S, this corresponds to assuming that the speaker information c and the utterance content information z are independent. That is, it differs from the conventional method in that it is assumed that the posterior probability p θ (z, c|S) can be expressed as p θ (z|S)p θ (c|S). If approximate distributions of these two conditional distributions are obtained, parameter search can be performed at high speed by forward calculation of NN, like the FastMVAE method.

<ChimeraACVAE音源モデル>
ACVAEは、元々音声変換に応用する目的で提案されたCVAEの拡張版で、入力されるクラスラベルcのデコーダ出力への影響力を強調するためにデコーダ出力とクラスラベルcとの相互情報量I(c,S|z)を正則化項としてエンコーダとデコーダを学習する方式である。I(c,S|z)を含めた規準を直接最適化することは容易ではないが、CVAEの学習と同様に変分下界を導入し、その変分下界とJ(φ,θ)を合わせた規準を上昇させることで、元となる規準を間接的に大きくすることができる。I(c,S|z)はlog p(c|S)の期待値と定数の和で与えられるが、p(c|S)を適当な補助分布r(c|S)に置き換えたものがI(c,S|z)の下界となる。この補助分布r(c|S)をパラメータψのNNでモデル化することで、上記下界を規準としてψをφやθとともに学習することができる。パラメータψのNNで表される補助分布をrψ(c|S)と表し、識別器と呼ぶ。
<Chimera ACVAE sound source model>
ACVAE is an extended version of CVAE that was originally proposed for the purpose of applying it to speech conversion. In order to emphasize the influence of the input class label c on the decoder output, the mutual information I This method learns the encoder and decoder using (c, S|z) as a regularization term. Although it is not easy to directly optimize the criterion including I(c, S|z), a variational lower bound is introduced as in CVAE learning, and the variational lower bound and J(φ, θ) are combined. By raising the standard, we can indirectly increase the original standard. I(c,S|z) is given by the sum of the expected value of log p(c|S) and a constant, where p(c|S) is replaced by an appropriate auxiliary distribution r(c|S) It is a lower bound on I(c, S|z). By modeling this auxiliary distribution r(c|S) with the NN of the parameter ψ , ψ can be learned together with φ and θ with the above lower bound as a reference. An auxiliary distribution represented by NN of the parameter ψ is denoted as r ψ (c|S) and called a discriminator.

これに対し、本実施形態の「ChimeraACVAE」はACVAEのエンコーダと識別器を一体のマルチタスクNNとして表したモデルである。つまり、zとcの分布q φ(z|S)、r ψ(c|S)をスペクトログラムSから同時推論するモデルとなる。図2にChimeraACVAEの概念図を示す。 On the other hand, "ChimeraACVAE" of the present embodiment is a model in which the encoder and discriminator of ACVAE are expressed as an integrated multitask NN. In other words, it becomes a model in which the distributions q + φ (z|S) and r + ψ (c|S) of z and c are simultaneously inferred from the spectrogram S. FIG. 2 shows a conceptual diagram of ChimeraACVAE.

ChimeraACVAEは潜在変数zを入力スペクトログラムのみから抽出する構造になっているため、クラスラベルcの推定誤差に起因するzの推論誤差を回避することができる。また、従来のACVAEモデルに比べてコンパクトなネットワーク構造で記述できるため、より高速な推論が可能となることが期待される。 Since ChimeraACVAE has a structure that extracts the latent variable z only from the input spectrogram, it is possible to avoid the inference error of z due to the estimation error of the class label c. In addition, since it can be described with a more compact network structure than the conventional ACVAE model, it is expected that faster inference will become possible.

ChimeraACVAEを学習するための規準、すなわちNNパラメータθ、φ、ψに関して最大化すべき目的関数は、CVAEの学習規準

Figure 2023025457000020

(16)
および、相互情報量
Figure 2023025457000021

(17)
の和を含む。また、ラベル付き学習サンプル{S,c も学習に用いることができるため、学習データSと対応するクラスラベルcの負の交差エントロピー
Figure 2023025457000022

(18)
も、学習するための規準に含めることができる。ここまではモデル構造を除けば従来のACVAEと同様である。 The criterion for learning the ChimeraACVAE, ie the objective function to be maximized with respect to the NN parameters θ, φ, ψ, is the learning criterion for the CVAE
Figure 2023025457000020

(16)
and mutual information
Figure 2023025457000021

(17)
including the sum of In addition, since the labeled training samples {S m , cm } M m can also be used for training, the negative cross entropy of the training data S m and the corresponding class label c m
Figure 2023025457000022

(18)
can also be included in the criteria for learning. Up to this point, it is the same as the conventional ACVAE, except for the model structure.

しかし、以上の規準により学習されたACVAEは、テスト条件と学習条件が一致する場合高精度な推論が可能となるが、一致しない場合に推定される潜在変数が仮定した分布から逸脱する傾向があり、モデルの汎化能力は十分ではなかった。 However, ACVAE learned by the above criteria enables highly accurate inference when the test conditions and learning conditions match, but when they do not match, the estimated latent variables tend to deviate from the assumed distribution. , the generalization ability of the model was not sufficient.

そこでモデルの汎化能力を向上させるため、ChimeraACVAEの学習においては上記の規準に加え更に以下の規準と知識蒸留を用いる。ChimeraACVAEでは、推定されたクラス情報を利用して、スペクトログラムSを再構築することができる。このプロセスは推論時にも用いられるため、同じプロセスで再構築したスペクトログラムSの精度を評価する規準を利用してモデルを学習させることは推論時の精度向上に繋がると考えられる。そこで、最大化すべき式(19)の再構築規準と式(20)のクラス識別規準も、学習するための規準に含める。

Figure 2023025457000023

(19)
Figure 2023025457000024

(20) Therefore, in addition to the above criteria, the following criteria and knowledge distillation are used in learning ChimeraACVAE in order to improve the generalization ability of the model. In ChimeraACVAE, the spectrogram S can be reconstructed using the estimated class information. Since this process is also used at the time of inference, it is thought that learning a model using a criterion for evaluating the accuracy of the spectrogram S reconstructed in the same process will lead to an improvement in the accuracy at the time of inference. Therefore, the reconstruction criterion of equation (19) to be maximized and the class discrimination criterion of equation (20) are also included in the criteria for learning.
Figure 2023025457000023

(19)
Figure 2023025457000024

(20)

あるいはこれらの規準の代わりに、実装の簡単化のため、その近似値

Figure 2023025457000025

(21)
Figure 2023025457000026

(22)
を用いても良い。ただし
Figure 2023025457000027

である。 Alternatively, for simplicity of implementation, an approximation of
Figure 2023025457000025

(21)
Figure 2023025457000026

(22)
may be used. however
Figure 2023025457000027

is.

知識蒸留(Knowledge Distillation: KD)は事前に大量のデータで学習した大きなNNを教師用モデルとし、その知識を軽量または別のNN構造を持つ生徒モデルに継承させるための方法論であり、汎化能力の高い生徒モデルが得られることが知られている。ここで、未知話者に対しても高い分離精度を実現できるCVAEモデルを教師用モデルとし、CVAEで学習した潜在変数の分布q φ(z|S,c)とスペクトログラムの生成モデルp θ(S|z,c)の知識を生徒モデルであるChimeraACVAEに継承させることを考える。具体的には、CVAEで推論した潜在変数の分布q φ(z|S,c)と、デコーダで出力した分散σ φ を用いた正規分布N(0、diag(σ θ (z,c)))をそれぞれ生徒モデルの出力分布q φ(z|S)と、デコーダ出力σ φ を用いた正規分布の事前分布とし、生徒モデルの出力が事前分布に近づくよう学習させる。ただし、教師用モデルと生徒モデルの分布の乖離度を、KLダイバージェンスを用いて測り、式(23)~(25)に示すように、知識蒸留規準とする。 Knowledge Distillation (KD) is a methodology for using a large NN trained with a large amount of data in advance as a teacher model, and inheriting that knowledge to a student model with a lightweight or another NN structure. It is known that a student model with a high Here, a CVAE model capable of achieving high separation accuracy even for unknown speakers is used as a teacher model, and the latent variable distribution q * φ (z|S, c) learned by CVAE and the spectrogram generative model p * θ Consider inheriting the knowledge of (S|z, c) to ChimeraACVAE, which is a student model. Specifically , the normal distribution N ( 0 , diag ( σ * θ2 ( Let z, c))) be the output distribution of the student model q + φ (z | S) and the prior distribution of the normal distribution using the decoder output σ + φ 2 , and learn so that the output of the student model approaches the prior distribution Let However, the degree of divergence between the distributions of the teacher model and the student model is measured using KL divergence, and is used as a knowledge distillation criterion as shown in equations (23) to (25).

Figure 2023025457000028

(23)
Figure 2023025457000029

(24)
Figure 2023025457000030

(25)
Figure 2023025457000028

(23)
Figure 2023025457000029

(24)
Figure 2023025457000030

(25)

以上よりChimeraACVAEを学習する際に最大化すべき規準は

Figure 2023025457000031

(26)
となる。ここで、λは非負値であり、各規準の重み係数である。図2に知識蒸留を用いたChimeraACVAEの学習の概念図を示す。 From the above, the criteria that should be maximized when learning ChimeraACVAE are
Figure 2023025457000031

(26)
becomes. where λ is a non-negative value and is the weighting factor for each criterion. FIG. 2 shows a conceptual diagram of ChimeraACVAE learning using knowledge distillation.

図3にChimeraACVAEのネットワーク構造例を示す。エンコーダと識別器の各層は畳み込み層、Layer Normalization(LN)とSigmoid Linear Unit(SiLU)により構成され、デコーダの各層は逆畳み込み層、LNとSiLUにより構成される。ここで、LNを用いることによって、学習と推論時における正規化の計算方法の不整合を回避できる。SiLUはCVA音源モデルに用いられたGated Linear Unit(GLU)と同様に階層間に受け渡す情報をゲートにより制御するデータ駆動の活性化関数であり、GLUのパラメータ数を半減することができる。 FIG. 3 shows an example network structure of ChimeraACVAE. Each layer of the encoder and discriminator is composed of a convolution layer, Layer Normalization (LN) and Sigmoid Linear Unit (SiLU), and each layer of the decoder is composed of a deconvolution layer, LN and SiLU. Here, by using LN, it is possible to avoid inconsistency in normalization calculation methods during learning and inference. SiLU is a data-driven activation function that gate-controls information passed between layers, similar to the Gated Linear Unit (GLU) used in the CVA sound source model, and can halve the number of GLU parameters.

<FastMVAE2法:高速な推論アルゴリズム>
ChimeraACVAEで学習したエンコーダと識別器を用いることで、従来のMVAE法におけるpθ(z,c|S)の最大化ステップをq φ(z|S)とr ψ(c|S)のフォワード計算に置き換えることができる。よって、以下のアルゴリズムが得られる。これをFastMVAE2法と呼ぶ。
<FastMVAE2 method: fast inference algorithm>
By using the encoder and discriminator learned by ChimeraACVAE, the maximization step of p θ (z j , c j |S j ) in the conventional MVAE method is replaced by q + φ (z j |S j ) and r + ψ ( c j |S j ). Therefore, the following algorithm is obtained. This is called FastMVAE2 method.

1.式(26)を学習のための規準としてθ、φ、ψを学習する。
2.Wを単位行列に初期化する。
3.各jについて下記ステップa~cを繰り返す。
(ステップa)式(13)、(14)により{w(f)}j,fを更新する。
(ステップb)Wを用いて分離したスペクトログラムを入力とし、エンコーダから出力されるガウス分布の平均と識別器の出力値(連続値ベクトル)にzとcをそれぞれ更新する。
(ステップc)式(15)によりgを更新する。
1. θ, φ, and ψ are learned using equation (26) as a criterion for learning.
2. Initialize W to be the identity matrix.
3. Repeat steps a to c below for each j.
(Step a) {w j (f)} j and f are updated by equations (13) and (14).
(Step b) The spectrogram separated using W is input, and zj and cj are updated to the mean of the Gaussian distribution output from the encoder and the output value (continuous value vector) of the discriminator, respectively.
(Step c) Update g j by equation (15).

<本実施形態に係る信号解析装置の構成>
図4は、本実施形態の信号解析装置100のハードウェア構成を示すブロック図である。
<Configuration of signal analysis apparatus according to the present embodiment>
FIG. 4 is a block diagram showing the hardware configuration of the signal analysis device 100 of this embodiment.

図4に示すように、信号解析装置100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。 As shown in FIG. 4, the signal analysis apparatus 100 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input unit 15, a display unit 16, and a communication interface. (I/F) 17. Each component is communicatively connected to each other via a bus 19 .

CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、学習処理を実行するための学習プログラム、及び信号解析処理を実行するための信号解析プログラムが格納されている。学習プログラム及び信号解析プログラムは、1つのプログラムであっても良いし、複数のプログラム又はモジュールで構成されるプログラム群であっても良い。 The CPU 11 is a central processing unit that executes various programs and controls each section. That is, the CPU 11 reads a program from the ROM 12 or the storage 14 and executes the program using the RAM 13 as a work area. The CPU 11 performs control of each configuration and various arithmetic processing according to programs stored in the ROM 12 or the storage 14 . In this embodiment, the ROM 12 or the storage 14 stores a learning program for executing learning processing and a signal analysis program for executing signal analysis processing. The learning program and the signal analysis program may be one program, or may be a program group composed of a plurality of programs or modules.

ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。 The ROM 12 stores various programs and various data. The RAM 13 temporarily stores programs or data as a work area. The storage 14 is configured by a HDD (Hard Disk Drive) or SSD (Solid State Drive), and stores various programs including an operating system and various data.

入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。 The input unit 15 includes a pointing device such as a mouse and a keyboard, and is used for various inputs.

入力部15は、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性クラスを受け付ける。また、入力部15は、解析対象データとして、複数の構成音が混じっている混合信号(以後、観測信号)の時系列データを受け付ける。なお、構成音の信号の属性を示す属性クラスは、人手で与えておけばよい。また、構成音の信号の属性とは、例えば、性別、大人/子供、話者IDなどである。 As learning data, the input unit 15 receives, for each of a plurality of constituent sounds, the time-series data of the signal of the constituent sound and the attribute class indicating the attribute of the signal of the constituent sound. The input unit 15 also receives time-series data of a mixed signal (hereinafter referred to as an observed signal) in which a plurality of constituent sounds are mixed as data to be analyzed. The attribute class indicating the attribute of the component sound signal may be given manually. Further, the attribute of the constituent sound signal is, for example, gender, adult/child, speaker ID, and the like.

表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。 The display unit 16 is, for example, a liquid crystal display, and displays various information. The display unit 16 may employ a touch panel system and function as the input unit 15 .

通信インタフェース17は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。 The communication interface 17 is an interface for communicating with other devices, and uses standards such as Ethernet (registered trademark), FDDI, and Wi-Fi (registered trademark), for example.

次に、信号解析装置100の機能構成について説明する。図5は、信号解析装置100の機能構成の例を示すブロック図である。 Next, the functional configuration of the signal analysis device 100 will be described. FIG. 5 is a block diagram showing an example of the functional configuration of the signal analysis device 100. As shown in FIG.

信号解析装置100は、機能的には、図5に示すように、時間周波数展開部24と、教師学習部30と、学習部32と、音源信号モデル記憶部34と、パラメータ推定部36と、出力部38と、を含んで構成されている。 As shown in FIG. 5, the signal analysis apparatus 100 functionally includes a time-frequency expansion unit 24, a teacher learning unit 30, a learning unit 32, a sound source signal model storage unit 34, a parameter estimation unit 36, and an output unit 38 .

時間周波数展開部24は、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。また、時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。 The time-frequency expansion unit 24 calculates, for each component sound, a power spectrogram representing the spectrum at each time based on the time-series data of the signal of the component sound. Also, the time-frequency expansion unit 24 calculates a power spectrogram representing the spectrum at each time based on the time-series data of the observed signal. In this embodiment, time-frequency expansion such as short-time Fourier transform or wavelet transform is performed.

教師学習部30は、学習データとして入力された各構成音についてのスペクトログラム及び属性クラスに基づいて、音のスペクトログラム及び属性クラスを入力として潜在ベクトル系列を推定する教師用エンコーダ、並びに潜在ベクトル系列及び属性クラスを入力として音のスペクトログラムの分散を生成する教師用デコーダを学習し、音源信号モデル記憶部34に格納する。 Based on the spectrogram and attribute class of each constituent sound input as learning data, the teacher learning unit 30 includes a teacher encoder for estimating a latent vector sequence using the sound spectrogram and attribute class as inputs, and a latent vector sequence and attribute A teacher decoder that generates the variance of the sound spectrogram using the class as an input is learned and stored in the sound source signal model storage unit 34 .

具体的には、教師学習部30は、構成音毎に、教師用デコーダによって生成されたパワースペクトログラムと、元の構成音の信号におけるパワースペクトログラムとの誤差、並びに、教師用エンコーダによって推定された潜在ベクトル系列と、元の構成音の信号における潜在ベクトル系列との距離を用いて表される、上記式(12)の目的関数の値を最大化するように、教師用エンコーダ及び教師用デコーダを学習し、音源信号モデル記憶部34に格納する。ここで、教師用エンコーダ及び教師用デコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。 Specifically, for each constituent sound, the teacher learning unit 30 calculates the error between the power spectrogram generated by the teacher decoder and the power spectrogram in the signal of the original constituent sound, and the latent value estimated by the teacher encoder. Train the teacher encoder and teacher decoder so as to maximize the value of the objective function of the above equation (12), which is expressed using the distance between the vector sequence and the latent vector sequence in the signal of the original constituent sound. and stored in the sound source signal model storage unit 34 . Here, each of the teacher encoder and teacher decoder is configured using a convolutional network or a recursive network.

学習部32は、学習データとして入力された各構成音についてのスペクトログラム及び属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、音のスペクトログラムを入力として属性クラスを識別する識別器と、潜在ベクトル系列及び属性クラスを入力として音のスペクトログラムの分散を生成するデコーダと、を学習する。 Based on the spectrogram and attribute class for each component sound input as learning data, the learning unit 32 identifies an encoder that estimates a latent vector sequence with the spectrogram of the sound as input, and an attribute class with the spectrogram of the sound as input. A classifier is trained and a decoder that takes the latent vector sequences and attribute classes as input and generates the variance of the sound spectrogram.

具体的には、学習部32は、エンコーダの出力、及びデコーダの出力を評価するための学習規準と、デコーダの出力及び属性クラスの相互情報量と、エンコーダの出力及び識別器の出力を入力としたデコーダの出力を用いて生成したスペクトログラムを評価するための再構築規準と、エンコーダの出力及び識別器の出力を入力としたデコーダの出力を用いて生成したスペクトログラムを入力とした前記識別器の出力を評価するためのクラス識別規準と、エンコーダの出力及び学習された教師用エンコーダの出力を対応させ、かつ、デコーダの出力及び学習された教師用デコーダの出力を対応させるための知識蒸留規準とを含む上記式(26)の規準を最大化するように、エンコーダ、識別器、及びデコーダを学習し、音源信号モデル記憶部34に格納する。ここで、エンコーダ及び識別器は、一体のニューラルネットワークであって、エンコーダ及び識別器で、一部の層を共有する。また、エンコーダ、識別器、及びデコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。 Specifically, the learning unit 32 receives the encoder output and the learning criterion for evaluating the decoder output, the decoder output and the mutual information of the attribute class, the encoder output and the discriminator output, and the and a reconstruction criterion for evaluating a spectrogram generated using the output of the decoder, and the output of the classifier whose input is the spectrogram generated using the output of the decoder whose input is the output of the encoder and the output of the classifier and a knowledge distillation criterion for matching the output of the encoder and the output of the learned teacher encoder, and the output of the decoder and the output of the learned teacher decoder. Encoders, discriminators, and decoders are trained so as to maximize the criterion of the above equation (26), and stored in the sound source signal model storage unit 34 . Here, the encoder and discriminator are an integral neural network, and the encoder and discriminator share some layers. Also, each of the encoder, discriminator, and decoder is constructed using a convolutional network or a recursive network.

パラメータ推定部36は、観測信号のパワースペクトログラムに基づいて、各構成音が混合された観測信号を入力として、学習されたエンコーダによって分離行列により分離された各構成音について推定される潜在ベクトル系列、学習された識別器によって分離行列により分離された各構成音について識別される属性クラス、各構成音についての、前記学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される上記式(8)式の目的関数を最適化するように、分離行列と、スケールパラメータとを推定する。 The parameter estimating unit 36 receives as input an observed signal in which each component sound is mixed based on the power spectrogram of the observed signal, and a latent vector sequence estimated for each component sound separated by a separation matrix by a learned encoder, from the attribute class identified for each component sound separated by the separation matrix by the learned classifier, the variance of the component sound spectrogram generated by the learned decoder for each component sound, and the scale parameter. The calculated spectrogram of the constituent sounds, the scale parameter of the spectrogram of each constituent sound, the separation matrix for separating the mixed sound in which the constituent sounds are mixed in the time-frequency domain into each constituent sound, and the observed signal for each constituent A separation matrix and a scale parameter are estimated so as to optimize the objective function of the above equation (8) expressed using the sound-separated signal.

具体的には、パラメータ推定部36は、初期値設定部40、分離行列更新部42、潜在変数クラス更新部44、スケールパラメータ更新部46、及び収束判定部48を備えている。 Specifically, the parameter estimation unit 36 includes an initial value setting unit 40 , a separation matrix update unit 42 , a latent variable class update unit 44 , a scale parameter update unit 46 and a convergence determination unit 48 .

初期値設定部40は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性クラスと、各構成音のスケールパラメータとに初期値を設定する。 The initial value setting unit 40 sets initial values for the separation matrix, the latent vector sequence of each component sound, the attribute class of each component sound, and the scale parameter of each component sound.

分離行列更新部42は、観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性クラス、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(8)に示す目的関数を大きくするように、上記式(13)、(14)に従って、分離行列を更新する。 The separation matrix updating unit 42 updates the power spectrogram of the observed signal, the latent vector sequence of each component sound that was last updated or has an initial value set, the attribute class of each component sound, the scale parameter of each component sound, and Based on the separation matrix, the separation matrix is updated according to the above formulas (13) and (14) so as to increase the objective function shown in the above formula (8).

潜在変数クラス更新部44は、観測信号及び分離行列を用いて得られる各構成音のパワースペクトログラムを入力としたエンコーダの出力のガウス分布の平均を用いて得られる、各構成音の潜在ベクトル系列に更新すると共に、観測信号及び分離行列を用いて得られる各構成音のパワースペクトログラムを入力とした識別器の出力を用いて、各構成音の属性クラスを更新する。 The latent variable class updating unit 44 inputs the power spectrogram of each constituent sound obtained using the observed signal and the separation matrix, and updates the latent vector sequence of each constituent sound obtained using the average of the Gaussian distribution of the output of the encoder. In addition to updating, the attribute class of each constituent sound is updated using the output of the discriminator whose input is the power spectrogram of each constituent sound obtained using the observed signal and separation matrix.

スケールパラメータ更新部46は、観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性クラス、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(8)に示す目的関数を大きくするように、上記式(15)に従って、スケールパラメータを更新する。 Based on the power spectrogram of the observed signal and the updated latent vector sequence of each component sound, attribute class of each component sound, scale parameter of each component sound, and separation matrix, the scale parameter update unit 46 calculates the above formula The scale parameter is updated according to the above equation (15) so as to increase the objective function shown in (8).

収束判定部48は、収束条件を満たすか否かを判定し、収束条件を満たすまで、分離行列更新部42における更新処理と、潜在変数クラス更新部44における更新処理と、スケールパラメータ更新部46における更新処理とを繰り返させる。 The convergence determination unit 48 determines whether or not the convergence condition is satisfied, and until the convergence condition is satisfied, the update processing in the separation matrix update unit 42, the update processing in the latent variable class update unit 44, and the scale parameter update unit 46 Repeat the update process.

収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記式(8)の目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下であることを用いることができる。 As a convergence condition, for example, it is possible to use that the number of iterations reaches the upper limit number of times. Alternatively, as the convergence condition, it is possible to use that the difference between the value of the objective function of the above equation (8) and the value of the previous objective function is less than or equal to a predetermined threshold.

出力部38は、パラメータ推定部36において取得した、各構成音の潜在ベクトル系列、各構成音の属性クラス、及び各構成音のスケールパラメータに基づいて、デコーダを用いて生成される各構成音のパワースペクトログラムを求め、各構成音のパワースペクトログラムから、各構成音の信号を生成して出力する。 Based on the latent vector sequence of each component sound, the attribute class of each component sound, and the scale parameter of each component sound obtained by the parameter estimation unit 36, the output unit 38 outputs each component sound generated using the decoder. A power spectrogram is obtained, and from the power spectrogram of each component sound, a signal of each component sound is generated and output.

<本実施形態に係る信号解析装置の作用>
次に、本実施形態に係る信号解析装置100の作用について説明する。
<Action of the Signal Analysis Apparatus According to the Present Embodiment>
Next, the operation of the signal analysis device 100 according to this embodiment will be described.

図6は、信号解析装置100による学習処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から学習プログラムを読み出して、RAM13に展開して実行することにより、学習処理が行なわれる。また、信号解析装置100に、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性クラスが入力される。 FIG. 6 is a flowchart showing the flow of learning processing by the signal analysis device 100. As shown in FIG. The learning process is performed by the CPU 11 reading the learning program from the ROM 12 or the storage 14, developing it in the RAM 13, and executing it. In addition, for each of a plurality of component sounds, time-series data of the signal of the component sound and an attribute class indicating the attribute of the signal of the component sound are input to the signal analysis apparatus 100 as learning data.

まず、ステップS100において、CPU11が、時間周波数展開部24として、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。 First, in step S100, the CPU 11, as the time-frequency expansion unit 24, calculates a power spectrogram representing the spectrum at each time for each component sound based on the time-series data of the signal of the component sound.

次のステップS102では、CPU11が、教師学習部30として、学習データとして入力された各構成音についてのスペクトログラム及び属性クラスに基づいて、音のスペクトログラム及び属性クラスを入力として潜在ベクトル系列を推定する教師用エンコーダ、及び潜在ベクトル系列及び属性クラスを入力として音のスペクトログラムの分散を生成する教師用デコーダを学習する。 In the next step S102, the CPU 11 serves as the teacher learning unit 30, based on the spectrogram and attribute class of each component sound input as learning data, and the teacher who uses the spectrogram and attribute class of the sound as input and estimates a latent vector sequence. We train an encoder for , and a teacher decoder that takes the latent vector sequences and attribute classes as input and generates the variance of the sound spectrogram.

ステップS104では、CPU11が、学習部32として、学習データとして入力された各構成音についてのスペクトログラム及び属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、音のスペクトログラムを入力として属性クラスを識別する識別器と、潜在ベクトル系列及び属性クラスを入力として音のスペクトログラムの分散を生成するデコーダと、を学習し、学習したエンコーダ、識別器、及びデコーダのパラメータを、音源信号モデル記憶部34に格納する。 In step S104, the CPU 11, as the learning unit 32, uses an encoder for estimating a latent vector sequence based on the spectrogram and attribute class of each constituent sound input as learning data, and an encoder for estimating a latent vector sequence based on the spectrogram of the sound and the spectrogram of the sound. A discriminator that identifies an attribute class as input, and a decoder that generates the variance of a sound spectrogram with the latent vector sequence and attribute class as input, and the parameters of the learned encoder, discriminator, and decoder are used as the sound source signal. Stored in the model storage unit 34 .

図7は、信号解析装置100による信号解析処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から信号解析プログラムを読み出して、RAM13に展開して実行することにより、信号解析処理が行なわれる。また、信号解析装置100に、各構成音が混在した観測信号の時系列データが入力される。 FIG. 7 is a flowchart showing the flow of signal analysis processing by the signal analysis apparatus 100. As shown in FIG. The CPU 11 reads out the signal analysis program from the ROM 12 or the storage 14, develops it in the RAM 13, and executes it, thereby performing signal analysis processing. In addition, time-series data of an observation signal in which each component sound is mixed is input to the signal analysis apparatus 100 .

まず、ステップS120において、CPU11が、時間周波数展開部24として、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。 First, in step S120, the CPU 11, as the time-frequency expansion unit 24, calculates a power spectrogram representing the spectrum at each time based on the time-series data of the observed signal.

ステップS122では、CPU11が、初期値設定部40として、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性クラスと、各構成音のスケールパラメータとに初期値を設定する。 In step S122, the CPU 11, as the initial value setting unit 40, sets initial values for the separation matrix, the latent vector sequence of each component sound, the attribute class of each component sound, and the scale parameter of each component sound.

ステップS124では、CPU11が、分離行列更新部42として、上記ステップS120で計算された観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性クラス、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(8)に示す目的関数を大きくするように、上記式(13)、(14)に従って、分離行列を更新する。 In step S124, the CPU 11, as the separating matrix updating unit 42, performs the power spectrogram of the observed signal calculated in step S120, the latent vector sequence of each component sound that was last updated or the initial value was set, each Based on the component sound attribute class, the scale parameter of each component sound, and the separation matrix, the separation matrix is generated according to the above formulas (13) and (14) so as to increase the objective function shown in the above formula (8). Update.

ステップS126では、CPU11が、潜在変数クラス更新部44として、各構成音の潜在ベクトル系列を、観測信号及び分離行列を用いて得られる各構成音のパワースペクトログラムを入力としたエンコーダの出力のガウス分布の平均を用いて得られる、各構成音の潜在ベクトル系列に更新すると共に、観測信号及び分離行列を用いて得られる各構成音のパワースペクトログラムを入力とした識別器の出力を用いて、各構成音の属性クラスを更新する。 In step S126, the CPU 11, as the latent variable class updating unit 44, converts the latent vector sequence of each constituent sound into a Gaussian distribution of the output of the encoder with the input of the power spectrogram of each constituent sound obtained using the observation signal and separation matrix. updated to the latent vector sequence of each constituent sound obtained using the average of , and using the output of the discriminator with the input of the power spectrogram of each constituent sound obtained using the observed signal and the separation matrix, each configuration Update the sound attribute class.

ステップS128では、CPU11が、スケールパラメータ更新部46として、上記ステップS120で計算された観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性クラス、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(8)に示す目的関数を大きくするように、上記式(15)に従って、スケールパラメータを更新する。 In step S128, the CPU 11, as the scale parameter updating unit 46, updates the power spectrogram of the observed signal calculated in step S120, the updated latent vector sequence of each constituent sound, the attribute class of each constituent sound, and each constituent sound. and the separation matrix, the scale parameters are updated according to the above equation (15) so as to increase the objective function shown in the above equation (8).

次に、ステップS130では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS132へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124~ステップS128の処理を繰り返す。 Next, in step S130, it is determined whether or not the convergence condition is satisfied. When the convergence condition is satisfied, the process proceeds to step S132, and when the convergence condition is not satisfied, the process proceeds to step S124, and the processes of steps S124 to S128 are repeated.

ステップS132では、上記ステップS124~S128で最終的に更新された、各構成音の潜在ベクトル系列、各構成音の属性クラス、及び各構成音のスケールパラメータに基づいて、デコーダを用いて各構成音のパワースペクトログラムを生成し、各構成音のパワースペクトログラムから、各構成音の信号を生成して、出力部38から出力し、信号解析処理を終了する。 In step S132, based on the latent vector sequence of each component sound, the attribute class of each component sound, and the scale parameter of each component sound finally updated in steps S124 to S128, each component sound is calculated using a decoder. is generated, a signal of each component sound is generated from the power spectrogram of each component sound, and output from the output unit 38, and the signal analysis processing is completed.

<実験結果>
本実施形態の手法による音源分離性能を検証するため、Voice Conversion Challenge(VCC)2018音声データベースを用いた話者依存の分離実験とWSJ0音声データベースを用いた任意話者の分離実験を行った。比較対象は、非特許文献1に記載のILRMA、非特許文献2に記載のMVAE法、非特許文献3に記載のFastMVAE法とし、評価規準としてsource-todistortionsratio(SDR)、source-to-interferences ratio(SIR)とsources-to-artifacts ratio(SAR)を用いた。すべての手法においては分離行列W(f)を単位行列に初期化し、60回更新を行った。
<Experimental results>
In order to verify the sound source separation performance of the technique of this embodiment, we conducted speaker-dependent separation experiments using the Voice Conversion Challenge (VCC) 2018 speech database and arbitrary speaker separation experiments using the WSJ0 speech database. The comparison target is ILRMA described in Non-Patent Document 1, the MVAE method described in Non-Patent Document 2, and the FastMVAE method described in Non-Patent Document 3, and the evaluation criteria are source-to-distortion ratio (SDR) and source-to-interference ratio. (SIR) and sources-to-artifacts ratio (SAR) were used. In all methods, the separation matrix W(f) was initialized to a unit matrix and updated 60 times.

ILRMAの基底数を2とした。表1に各モデルのパラメータ数を示す。 The base number of ILRMA was set to 2. Table 1 shows the number of parameters for each model.

Figure 2023025457000032
Figure 2023025457000032

ChimeraACVAEでは、ACVAEよりパラメータ数を40% まで削減することができた。表2に実験結果を示す。 ChimeraACVAE was able to reduce the number of parameters by 40% compared to ACVAE. Table 2 shows the experimental results.

Figure 2023025457000033
Figure 2023025457000033

いずれの条件においても、本実施形態の手法(FastMVAE2法)がILRMAとFastMVAE法より高い分離性能を示し、MVAE法との差を大幅に縮めた。 Under any conditions, the method of the present embodiment (FastMVAE2 method) exhibited higher separation performance than the ILRMA and FastMVAE methods, and greatly narrowed the difference from the MVAE method.

2音源より多い音源数における各手法の分離性能および計算時間を評価するため、WSJ0音声データベースから、18話者の発話を利用して音源数が{2,3,6,9}の混合信号を作成した。インパルス応答は鏡像法により作成し、壁の反射係数を0.2とした。図8にマイクと音源の配置を示す。各条件について混合信号を10文作成した。すべての処理はIntel(R) Xeon(R) Gold 6130 CPU@2.10GHzとTesla V100 GPUを用いて計算した。表3に各条件におけるSDRの平均値を示す。 In order to evaluate the separation performance and computational time of each method for the number of sound sources greater than two, we extracted mixed signals with the number of sound sources {2, 3, 6, 9} from the WSJ0 speech database using utterances of 18 speakers. Created. Impulse responses were generated by the mirror image method with a wall reflection coefficient of 0.2. Figure 8 shows the arrangement of microphones and sound sources. Ten mixed signals were generated for each condition. All processing was computed using an Intel(R) Xeon(R) Gold 6130 CPU @ 2.10 GHz and a Tesla V100 GPU. Table 3 shows the average value of SDR under each condition.

Figure 2023025457000034
Figure 2023025457000034

また、図9に各手法の反復ごとの計算時間を示す。本実施形態の手法(FastMVAE2、FastMVAE2_CPU、FastMVAE2_GPU)において性能改善が確認できた。また、本実施形態の手法は3音源以下の場合にILRMAと同等の計算時間で分離を実現でき、3音源以上の場合にILRMAより短い計算時間で分離を実現できることを確認した。 Also, FIG. 9 shows the calculation time for each iteration of each method. Performance improvement was confirmed in the method of this embodiment (FastMVAE2, FastMVAE2_CPU, FastMVAE2_GPU). It was also confirmed that the method of this embodiment can achieve separation in a calculation time equivalent to that of ILRMA when there are three or fewer sound sources, and can achieve separation in a shorter calculation time than ILRMA when there are three or more sound sources.

以上説明したように、本実施形態に係る信号解析装置は、各構成音についてのスペクトログラム及び属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、潜在ベクトル系列及び属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習する。そして、信号解析装置は、各構成音が混合された観測信号を入力として、学習されたエンコーダによって分離行列により分離された各構成音について推定される潜在ベクトル系列、学習された識別器によって分離行列により分離された各構成音について識別される属性クラス、各構成音についての、学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、スケールパラメータとを推定する。これにより、計算コストを抑えて、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。 As described above, the signal analysis apparatus according to the present embodiment includes an encoder for estimating a latent vector sequence using a sound spectrogram as an input, and A discriminator for identifying an attribute class indicating the attribute of the sound and a decoder for generating the variance of the spectrogram of the sound with the latent vector sequence and the attribute class as inputs are trained. Then, the signal analysis device receives as input an observation signal in which each component sound is mixed, a latent vector sequence estimated for each component sound separated by a separation matrix by a learned encoder, a separation matrix by a learned discriminator, an attribute class identified for each component note separated by, for each component note, the component note spectrogram calculated from the variance of the component note spectrogram generated by the learned decoder and the scale parameter, It is expressed using the scale parameter of the spectrogram of each component sound, the separation matrix for separating the mixed sound into each component sound in the time-frequency domain, and the signal obtained by separating the observed signal into each component sound. Estimate the separation matrix and scale parameters to optimize the objective function for As a result, it is possible to accurately separate each component sound from a mixed signal in which each component sound is mixed, while suppressing the calculation cost.

<変形例>
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
<Modification>
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、観測信号のパワースペクトログラムや構成音のパワースペクトログラムを計算する場合を例に説明したが、これに限定されるものではなく、観測信号の振幅スペクトログラムや構成音の振幅スペクトログラムを計算するようにしてもよい。この場合には、学習部32は、各構成音についての振幅スペクトログラム及び属性クラスに基づいて、音の振幅スペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、音の振幅スペクトログラムを入力として属性クラスを識別する識別器と、潜在ベクトル系列及び属性クラスを入力として音の振幅スペクトログラムの分散を生成するデコーダと、を学習する。また、パラメータ推定部36は、観測信号を入力として、学習されたエンコーダによって推定される潜在ベクトル系列、学習された識別器によって識別される属性クラス、各構成音についての、学習されたデコーダによって生成される、構成音の振幅スペクトログラムの分散と、スケールパラメータとから算出される、構成音の振幅スペクトログラム、各構成音の振幅スペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、スケールパラメータとを推定する。 For example, the case of calculating the power spectrogram of the observed signal and the power spectrogram of the constituent sounds has been described as an example, but the present invention is not limited to this, and the amplitude spectrogram of the observed signal and the amplitude spectrogram of the constituent sounds are calculated. good too. In this case, based on the amplitude spectrogram and attribute class of each constituent sound, the learning unit 32 includes an encoder for estimating the latent vector sequence with the amplitude spectrogram of the sound as input, and an attribute class with the amplitude spectrogram of the sound as input. A classifier that discriminates and a decoder that takes the latent vector sequence and the attribute class as input and generates the variance of the sound amplitude spectrogram is trained. In addition, the parameter estimating unit 36 receives the observed signal as an input, and the latent vector sequence estimated by the learned encoder, the attribute class identified by the learned classifier, and the learned decoder for each constituent sound. Amplitude spectrogram of constituent sounds, scale parameter of amplitude spectrogram of each constituent sound, scale parameter of amplitude spectrogram of each constituent sound, mixed sound in which each constituent sound is mixed in time-frequency domain A separation matrix and a scale parameter are estimated so as to optimize an objective function expressed using a separation matrix for separating each component sound and a signal obtained by separating an observed signal into each component sound.

また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。 Also, since the order of parameters to be updated is arbitrary, it is not limited to the order in the above embodiment.

また、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した各種処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び信号解析処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。 Further, the various processes executed by the CPU by reading the software (program) in each of the above-described embodiments may be executed by various processors other than the CPU. The processor in this case is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing such as an FPGA (Field-Programmable Gate Array), and an ASIC (Application Specific Integrated Circuit) for executing specific processing. A dedicated electric circuit or the like, which is a processor having a specially designed circuit configuration, is exemplified. Also, the learning process and signal analysis process may be performed by one of these various processors, or by a combination of two or more processors of the same or different type (e.g., multiple FPGAs, and CPU and FPGA). , etc.). More specifically, the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.

また、上記各実施形態では、学習プログラム及び信号解析プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。 Further, in each of the above-described embodiments, the learning program and the signal analysis program have been pre-stored (installed) in the storage 14, but the present invention is not limited to this. The program is stored in non-transitory storage media such as CD-ROM (Compact Disk Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory), and USB (Universal Serial Bus) memory. may be provided in the form Also, the program may be downloaded from an external device via a network.

以上の実施形態に関し、更に以下の付記を開示する。 The following additional remarks are disclosed regarding the above embodiments.

(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、
各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する
ように構成される信号解析装置。
(Appendix 1)
memory;
at least one processor connected to the memory;
including
The processor
An encoder for estimating a latent vector sequence with the spectrogram of a sound as an input, based on a spectrogram for each constituent sound and an attribute class indicating the attribute of the constituent sound; and an attribute class indicating the attribute of the sound with the spectrogram of the sound as an input. and a decoder that generates the variance of the sound spectrogram with the latent vector sequence and the attribute class as inputs,
The latent vector sequence estimated for each component sound separated by the separation matrix by the learned encoder using an observed signal mixed with each component sound as an input, and separated by the separation matrix by the learned discriminator. the attribute class identified for each component sound, the variance of the component sound spectrogram generated by the learned decoder for each component sound, and a scale parameter of the component sound, calculated from the Using a spectrogram, a scale parameter of the spectrogram of each component sound, a separation matrix for separating a mixed sound in which each component sound is mixed in the time-frequency domain into each component sound, and a signal obtained by separating the observed signal into each component sound A signal analysis device configured to estimate the separation matrix and the scale parameter so as to optimize an objective function represented by .

(付記項2)
信号解析処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記信号解析処理は、
各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、
各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する
非一時的記憶媒体。
(Appendix 2)
A non-transitory storage medium storing a program executable by a computer to perform signal analysis processing,
The signal analysis processing includes
An encoder for estimating a latent vector sequence with the spectrogram of a sound as an input, based on a spectrogram for each constituent sound and an attribute class indicating the attribute of the constituent sound; and an attribute class indicating the attribute of the sound with the spectrogram of the sound as an input. and a decoder that generates the variance of the sound spectrogram with the latent vector sequence and the attribute class as inputs,
The latent vector sequence estimated for each component sound separated by the separation matrix by the learned encoder using an observed signal mixed with each component sound as an input, and separated by the separation matrix by the learned discriminator. the attribute class identified for each component sound, the variance of the component sound spectrogram generated by the learned decoder for each component sound, and a scale parameter of the component sound, calculated from the Using a spectrogram, a scale parameter of the spectrogram of each component sound, a separation matrix for separating a mixed sound in which each component sound is mixed in the time-frequency domain into each component sound, and a signal obtained by separating the observed signal into each component sound A non-transitory storage medium for estimating the separation matrix and the scale parameter so as to optimize an objective function represented by .

11 CPU
14 ストレージ
15 入力部
16 表示部
24 時間周波数展開部
30 教師学習部
32 学習部
34 音源信号モデル記憶部
36 パラメータ推定部
38 出力部
40 初期値設定部
42 分離行列更新部
44 潜在変数クラス更新部
46 スケールパラメータ更新部
48 収束判定部
100 信号解析装置
11 CPUs
14 storage 15 input unit 16 display unit 24 time-frequency expansion unit 30 teacher learning unit 32 learning unit 34 sound source signal model storage unit 36 parameter estimation unit 38 output unit 40 initial value setting unit 42 separation matrix update unit 44 latent variable class update unit 46 Scale parameter update unit 48 Convergence determination unit 100 Signal analysis device

Claims (6)

各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習する学習部と、
各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定するパラメータ推定部と、
を含む信号解析装置。
An encoder for estimating a latent vector sequence with the spectrogram of a sound as an input, based on a spectrogram for each constituent sound and an attribute class indicating the attribute of the constituent sound; and an attribute class indicating the attribute of the sound with the spectrogram of the sound as an input. a learning unit that learns a discriminator that identifies and a decoder that generates the variance of the sound spectrogram with the latent vector sequence and the attribute class as inputs;
The latent vector sequence estimated for each component sound separated by the separation matrix by the learned encoder using an observed signal mixed with each component sound as an input, and separated by the separation matrix by the learned discriminator. the attribute class identified for each component sound, the variance of the component sound spectrogram generated by the learned decoder for each component sound, and a scale parameter of the component sound, calculated from the Using a spectrogram, a scale parameter of the spectrogram of each component sound, a separation matrix for separating a mixed sound in which each component sound is mixed in the time-frequency domain into each component sound, and a signal obtained by separating the observed signal into each component sound a parameter estimator that estimates the separation matrix and the scale parameter so as to optimize the objective function represented by
signal analysis equipment including
各構成音についてのスペクトログラム及び前記属性クラスに基づいて、音のスペクトログラム及び前記属性クラスを入力として潜在ベクトル系列を推定する教師用エンコーダ、並びに前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成する教師用デコーダを学習する教師学習部を更に含み、
前記学習部は、前記エンコーダの出力と、前記学習された前記教師用エンコーダの出力とが対応し、かつ、前記デコーダの出力と、前記学習された前記教師用デコーダの出力とが対応するように、前記エンコーダ及び前記デコーダを学習する請求項1記載の信号解析装置。
A teacher encoder for estimating a latent vector sequence with the sound spectrogram and the attribute class as input, based on the spectrogram and the attribute class for each constituent sound, and the sound spectrogram with the latent vector sequence and the attribute class as input. further comprising a supervised learning unit for training a supervised decoder that produces the variance of
The learning unit is arranged so that the output of the encoder and the learned output of the teacher encoder correspond, and the output of the decoder and the learned output of the teacher decoder correspond. , the encoder and the decoder are trained.
前記エンコーダ及び前記識別器は、一体のニューラルネットワークであって、前記エンコーダ及び前記識別器で、一部の層を共有する請求項1又は2記載の信号解析装置。 3. The signal analysis apparatus according to claim 1, wherein said encoder and said discriminator are an integral neural network, and said encoder and said discriminator share some layers. 前記学習部は、
前記エンコーダの出力、及び前記デコーダの出力を評価するための学習規準と、
前記デコーダの出力及び前記属性クラスの相互情報量と、
前記エンコーダの出力及び前記識別器の出力を入力とした前記デコーダの出力を用いて生成した前記スペクトログラムを評価するための再構築規準と、
前記エンコーダの出力及び前記識別器の出力を入力とした前記デコーダの出力を用いて生成した前記スペクトログラムを入力とした前記識別器の出力を評価するためのクラス識別規準と、
を含む規準を最適化するように、前記エンコーダ、前記識別器、前記デコーダを学習する請求項1~請求項3の何れか1項記載の信号解析装置。
The learning unit
a learning criterion for evaluating the output of the encoder and the output of the decoder;
mutual information of the output of the decoder and the attribute class;
a reconstruction criterion for evaluating the spectrogram generated using the output of the decoder with the output of the encoder and the output of the discriminator as inputs;
A class discrimination criterion for evaluating the output of the discriminator whose input is the spectrogram generated using the output of the decoder whose input is the output of the encoder and the output of the discriminator;
The signal analysis apparatus according to any one of claims 1 to 3, wherein the encoder, the discriminator, and the decoder are trained so as to optimize a criterion including
学習部が、各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、
パラメータ推定部が、各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する
信号解析方法。
An encoder for estimating a latent vector sequence with the sound spectrogram as input, and the sound attribute with the sound spectrogram as input, based on the spectrogram for each component sound and the attribute class indicating the attribute of the component sound. and a decoder that generates the variance of the sound spectrogram with the latent vector sequence and the attribute class as inputs,
A parameter estimating unit receives as input an observed signal in which each component sound is mixed, the latent vector sequence estimated for each component sound separated by the separation matrix by the learned encoder, and the learned classifier calculated from the attribute class identified for each component sound separated by the separation matrix, the variance of the component sound spectrogram generated by the learned decoder for each component sound, and a scale parameter , a spectrogram of the constituent sounds, a scale parameter of the spectrogram of each constituent sound, a separation matrix for separating the mixed sound into each constituent sound in which each constituent sound is mixed in the time-frequency domain, and the observation signal to each constituent sound A signal analysis method for estimating the separation matrix and the scale parameter so as to optimize an objective function represented using separated signals.
コンピュータを、請求項1~請求項4のいずれか1項に記載の信号解析装置の各部として機能させるための信号解析プログラム。 A signal analysis program for causing a computer to function as each part of the signal analysis apparatus according to any one of claims 1 to 4.
JP2021130718A 2021-08-10 2021-08-10 Signal analysis device, signal analysis method, and signal analysis program Pending JP2023025457A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021130718A JP2023025457A (en) 2021-08-10 2021-08-10 Signal analysis device, signal analysis method, and signal analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021130718A JP2023025457A (en) 2021-08-10 2021-08-10 Signal analysis device, signal analysis method, and signal analysis program

Publications (1)

Publication Number Publication Date
JP2023025457A true JP2023025457A (en) 2023-02-22

Family

ID=85251614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021130718A Pending JP2023025457A (en) 2021-08-10 2021-08-10 Signal analysis device, signal analysis method, and signal analysis program

Country Status (1)

Country Link
JP (1) JP2023025457A (en)

Similar Documents

Publication Publication Date Title
Makishima et al. Independent deeply learned matrix analysis for determined audio source separation
Pariente et al. Asteroid: the PyTorch-based audio source separation toolkit for researchers
Liu et al. Experiments on deep learning for speech denoising
CN110914899A (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
Kameoka et al. Semi-blind source separation with multichannel variational autoencoder
Mohammadiha et al. Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling
Adiloğlu et al. Variational Bayesian inference for source separation and robust feature extraction
Scheibler et al. Surrogate source model learning for determined source separation
JPWO2017146073A1 (en) Voice quality conversion device, voice quality conversion method and program
KR20190136578A (en) Method and apparatus for speech recognition
Seki et al. Underdetermined source separation based on generalized multichannel variational autoencoder
Tran et al. Nonparametric uncertainty estimation and propagation for noise robust ASR
JP6538624B2 (en) Signal processing apparatus, signal processing method and signal processing program
Leglaive et al. Student's t source and mixing models for multichannel audio source separation
Li et al. FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures
JP6910609B2 (en) Signal analyzers, methods, and programs
Chung et al. Training and compensation of class-conditioned NMF bases for speech enhancement
JP7112348B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING PROGRAM
WO2019194300A1 (en) Signal analysis device, signal analysis method, and signal analysis program
JP2023025457A (en) Signal analysis device, signal analysis method, and signal analysis program
JP6636973B2 (en) Mask estimation apparatus, mask estimation method, and mask estimation program
Jeon et al. TAU-Net: Temporal activation u-net shared with nonnegative matrix factorization for speech enhancement in unseen noise environments
Cipli et al. Multi-class acoustic event classification of hydrophone data
Zmolikova et al. Integration of variational autoencoder and spatial clustering for adaptive multi-channel neural speech separation
Li et al. FastMVAE: A fast optimization algorithm for the multichannel variational autoencoder method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423