JP2023025458A - Sound source separation device, sound source separation method, and sound source separation program - Google Patents
Sound source separation device, sound source separation method, and sound source separation program Download PDFInfo
- Publication number
- JP2023025458A JP2023025458A JP2021130719A JP2021130719A JP2023025458A JP 2023025458 A JP2023025458 A JP 2023025458A JP 2021130719 A JP2021130719 A JP 2021130719A JP 2021130719 A JP2021130719 A JP 2021130719A JP 2023025458 A JP2023025458 A JP 2023025458A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- separation
- spectrogram
- matrix
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 121
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 230000000873 masking effect Effects 0.000 claims abstract description 23
- 238000012937 correction Methods 0.000 claims abstract description 10
- 230000008707 rearrangement Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 68
- 230000000295 complement effect Effects 0.000 claims description 18
- 239000000470 constituent Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
開示の技術は、音源分離装置、音源分離方法、及び音源分離プログラムに関する。 The disclosed technology relates to a sound source separation device, a sound source separation method, and a sound source separation program.
ブラインド音源分離(Blind Source Separation:BSS)は、音源又は音源からマイクまでの伝達特性が未知の下で、複数の音源信号が混合された観測信号のみから各音源信号を推定する技術である。周波数領域における独立成分分析(Frequency-Domain Independent Component Analysis:FDICA)をはじめとする周波数領域で定式化されるBSSのアプローチは、音源の混合過程を畳み込み演算を含まない瞬時混合系で表せるため、比較的効率の良いアルゴリズムを実現できる利点がある。 Blind source separation (BSS) is a technique for estimating each sound source signal only from an observed signal in which a plurality of sound source signals are mixed under the condition that the sound source or the transfer characteristics from the sound source to the microphone are unknown. BSS approaches formulated in the frequency domain, such as frequency-domain independent component analysis (FDICA), can express the sound source mixing process as an instantaneous mixing system that does not include convolution operations. It has the advantage of being able to implement a highly efficient algorithm.
しかし、FDICAは、周波数ごとに得られた分離信号の順番に任意性があるため、同一音源に由来する周波数ごとの独立成分をグルーピングするパーミュテーション整合処理が、後段で別途必要になる。従来そのパーミュテーション整合処理として、隣接周波数のパワーの相関又はマイクの位置情報から得られる音源到来方向を手がかりとする解決法、及び両者を組み合わせた手法(非特許文献1)が提案されている。 However, in FDICA, since the order of the separated signals obtained for each frequency is arbitrary, permutation matching processing for grouping independent components for each frequency derived from the same sound source is separately required in the subsequent stage. As permutation matching processing, a solution using the direction of arrival of the sound source obtained from the correlation of the power of adjacent frequencies or the position information of the microphone as a clue, and a method combining the two have been proposed (Non-Patent Document 1). .
一方で後段処理としてではなく、音源の周波数間の成分の依存関係をモデル化し、BSSの最適化問題に制約又はコストの形で取り入れることで、パーミュテーション整合と周波数ごとの音源分離とを同時に解決する手法も近年多数提案されており、その効果が示されている。 On the other hand, not as a post-processing, but by modeling the inter-frequency component dependencies of the sound sources and incorporating them into the BSS optimization problem in the form of constraints or costs, permutation matching and frequency-wise sound source separation can be performed simultaneously. In recent years, many methods for solving this problem have been proposed, and their effects have been demonstrated.
例えば、独立低ランク行列分析(Independent Low-Rank Matrix Analysis:ILRMA)では、各音源のパワースペクトログラムが、二つの非負値行列の積で表現される。これは、時間変化する振幅でスケーリングされた基底スペクトルの線形和によって、各時間フレームでパワースペクトルを近似できるとする仮定に相当する。この制約によりILRMAは音源のスペクトル構造を手がかりにしながら周波数ごとの音源分離とパーミュテーション整合問題の同時解決を可能にしている。 For example, in Independent Low-Rank Matrix Analysis (ILRMA), the power spectrogram of each sound source is represented by the product of two non-negative matrices. This corresponds to the assumption that the power spectrum can be approximated at each time frame by a linear sum of scaled basis spectra with time-varying amplitudes. This constraint allows ILRMA to simultaneously solve the frequency-wise source separation and permutation matching problems while cuing the spectral structure of the sources.
また、多チャンネル変分自己符号化器法(Multichannel Variational Autoencoder:MVAE)法では、音源スペクトログラムの生成モデルを条件付きVAE(Conditional VAE:CVAE)で表現し、学習サンプルを用いて事前学習することで音源の周波数間及び時刻間の成分の依存関係を捉えることを可能にしている。この音源生成モデルに各分離信号ができるだけ適合するように分離行列推定を行うことで、高精度な音源分離を行うことができる。 In addition, in the multichannel variational autoencoder (MVAE) method, the generation model of the sound source spectrogram is represented by conditional VAE (Conditional VAE: CVAE), and pre-learning using the training sample It makes it possible to capture the dependence of components between frequencies and between times of sound sources. High-precision sound source separation can be performed by estimating the separation matrix so that each separated signal matches this sound source generation model as much as possible.
パーミュテーション整合と周波数ごとの音源分離とを同時に解決する手法であっても、帯域ブロックごとにパーミュテーション不整合が生じうる。これはブロックパーミュテーション問題と呼ばれ、離れた周波数帯域間の依存関係を音源モデルが適切に捉えられていなかったり、音源モデルの表現能力が高すぎたりすることに起因する。このブロックパーミュテーション問題が解決できれば、さらなる分離精度の向上が期待できる。 Even with a technique that simultaneously solves permutation matching and sound source separation for each frequency, permutation mismatch can occur for each band block. This is called the block permutation problem, and is caused by the fact that the sound source model does not adequately capture the dependency between distant frequency bands, or the sound source model has too high expressive power. If this block permutation problem can be solved, further improvement in separation accuracy can be expected.
ブロックパーミュテーション問題は、適当なコストを手がかりに周波数ごとの分離信号がどの音源に対応しているかを見つける「割当問題」と見なせる。しかし、BSSにより、観測信号のみから各音源信号を推定する際に推定される分離行列は周波数毎に得られるため、音源の周波数方向の構造について何らかの制約を加えなければ、分離結果の周波数方向の組み合わせとして適切なものを探すことは困難である。また、音源の周波数方向の構造についての制約を設けてもなお、離れた周波数帯域間の構造を制約しきれず、その周波数帯域の値が入れ替わったような分離結果が得られることがある。従来は、隣接周波数のパワーの相関又はマイクの位置情報から得られる音源到来方向を手がかりに周波数方向の組み合わせを整合する処理がとられていた。しかし、非特許文献1のように、マイクの位置情報を利用する手法は、マイクの配置が未知であっても動作させることができるBSSの利点を損なうものであった。
The block permutation problem can be regarded as an "assignment problem" to find which sound source the separated signal for each frequency corresponds to, using an appropriate cost as a clue. However, since the separation matrix estimated for each frequency when estimating each sound source signal from only the observed signal is obtained by BSS, the frequency direction of the separation result is Finding a suitable combination is difficult. Moreover, even if restrictions are placed on the structure of the sound source in the frequency direction, the structure between distant frequency bands cannot be fully restricted, and a separation result in which the values of the frequency bands are interchanged may be obtained. Conventionally, the combination of frequency directions is matched using the direction of arrival of the sound source obtained from the correlation of the power of adjacent frequencies or the positional information of the microphone. However, the technique of using microphone position information as in Non-Patent
開示の技術は、上記の点に鑑みてなされたものであり、マイクロホンの配置が未知であっても分離信号の周波数方向の組み合わせを整合させて、観測信号のみからの音源信号の推定精度を改良した、音源分離装置、音源分離方法、及び音源分離プログラムを提供することを目的とする。 The disclosed technology has been made in view of the above points, and improves the accuracy of estimating the sound source signal from only the observed signal by matching the combination of the separated signals in the frequency direction even if the placement of the microphones is unknown. It is an object of the present invention to provide a sound source separation device, a sound source separation method, and a sound source separation program.
本開示の第1態様は、音源分離装置であって、複数の構成音が混合された観測信号が分離行列により分離された分離信号に対し、所定の複数の異なる周波数帯域についてそれぞれ当該周波数帯域をマスキングするマスキング部と、前記マスキング部によりマスキングされた前記分離信号と、所定の音源モデルとを用いて補完スペクトログラムを生成するとともに、前記分離信号の各前記周波数帯域における分離信号スペクトログラムを生成するスペクトログラム生成部と、前記分離信号スペクトログラムのそれぞれに対して前記補完スペクトログラムとの距離が近くなるように割り当てられた再配置先の周波数帯域の並び替えを実現するように前記分離行列を修正する分離行列修正部と、を含む。 A first aspect of the present disclosure is a sound source separation device, in which a separated signal obtained by separating an observed signal in which a plurality of constituent sounds are mixed is separated by a separation matrix, and a predetermined plurality of different frequency bands are separated from each other. A spectrogram generator for generating a complementary spectrogram using a masking unit for masking, the separated signal masked by the masking unit, and a predetermined sound source model, and for generating a separated signal spectrogram in each of the frequency bands of the separated signal. and a separation matrix correction unit that corrects the separation matrix so as to rearrange the frequency bands to be rearranged so that the distance between each of the separated signal spectrograms and the complementary spectrogram is reduced. and including.
本開示の第2態様は、音源分離方法であって、複数の構成音が混合された観測信号が分離行列により分離された分離信号に対し、所定の複数の異なる周波数帯域についてそれぞれ当該周波数帯域をマスキングし、マスキングされた前記分離信号と、所定の音源モデルとを用いて補完スペクトログラムを生成するとともに、前記分離信号の各前記周波数帯域における分離信号スペクトログラムを生成し、前記分離信号スペクトログラムのそれぞれに対して前記補完スペクトログラムとの距離が近くなるように割り当てられた再配置先の周波数帯域の並び替えを実現するように前記分離行列を修正する処理をコンピュータが実行する。 A second aspect of the present disclosure is a sound source separation method, wherein for a separated signal obtained by separating an observed signal in which a plurality of constituent sounds are mixed by a separation matrix, each of a plurality of predetermined different frequency bands is divided into the respective frequency bands. Masking, generating an interpolated spectrogram using the masked separated signal and a predetermined sound source model, generating a separated signal spectrogram in each of the frequency bands of the separated signal, and generating a separated signal spectrogram for each of the separated signal spectrograms The computer executes a process of correcting the separation matrix so as to realize rearrangement of the frequency bands to be rearranged so that the distance to the complementary spectrogram becomes closer to the complementary spectrogram.
本開示の第3態様は、プログラムであって、コンピュータを、上記第1態様の音源分離装置として機能させるためのプログラムである。 A third aspect of the present disclosure is a program for causing a computer to function as the sound source separation device of the first aspect.
開示の技術によれば、マイクロホンの配置が未知であっても分離信号の周波数方向の組み合わせを整合させることで、分離信号の周波数方向の組み合わせを整合させない場合と比較して精度よく分離信号を得ることができる。 According to the disclosed technique, by matching the combination of the separated signals in the frequency direction even if the arrangement of the microphones is unknown, the separated signal can be obtained with higher accuracy than when the combination of the separated signals in the frequency direction is not matched. be able to.
以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。 An example of embodiments of the technology disclosed herein will be described below with reference to the drawings. In each drawing, the same or equivalent components and portions are given the same reference numerals. Also, the dimensional ratios in the drawings are exaggerated for convenience of explanation, and may differ from the actual ratios.
<本実施形態の概要>
まず、本実施形態における概要を説明する。
<Overview of this embodiment>
First, an outline of this embodiment will be described.
本実施形態では、まず音源の周波数方向の構造を表す音源モデルと、分離行列とを推定して信号を分離した後、所定の複数の異なる周波数帯域についてそれぞれ、分離信号の当該周波数帯域を欠損(マスキング)させてから音源モデルを用いて修復した補完スペクトログラムを用意する。そして、欠損させた各周波数帯域の分離信号を、補完スペクトログラムとの距離が近づくように、効率的なアルゴリズムであるハンガリアン法を用いて並び替える。これにより、マイクロホン配置が未知であっても、分離信号の周波数方向の組み合わせを整合させることが可能となる。 In this embodiment, first, after estimating a sound source model representing the structure of the sound source in the frequency direction and a separation matrix to separate the signals, for each of a plurality of predetermined different frequency bands, the frequency band of the separated signal is deleted ( Masking) is performed, and then an interpolated spectrogram restored using the sound source model is prepared. Then, the separated signals of each missing frequency band are rearranged using the Hungarian method, which is an efficient algorithm, so that the distance to the complementary spectrogram becomes closer. As a result, even if the microphone arrangement is unknown, it is possible to match the combination of separated signals in the frequency direction.
<本実施形態の原理>
続いて、本実施形態における技術原理を説明する。
<Principle of this embodiment>
Next, the technical principle of this embodiment will be described.
<周波数領域多チャンネル音源分離問題の定式化>
I個のマイクロホンでJ個の音源から到来する信号を観測する場合を考える。マイクiの観測信号、音源jの信号の複素スペクトログラムをそれぞれxi(f,n)、sj(f,n)とする。また、これらを要素としたベクトルを
(1)
(2)
とする。ただし、ここではI=Jの優決定条件を考える。ここで( )Tは転置を表し、fとnはそれぞれ周波数と時間のインデックスである。
<Formulation of frequency domain multi-channel sound source separation problem>
Consider the case of observing signals coming from J sound sources with I microphones. Let x i (f, n) and s j (f, n) be the complex spectrograms of the observed signal of microphone i and the signal of sound source j, respectively. Also, a vector with these elements as
(1)
(2)
and However, here, the over-determination condition of I=J is considered. where ( ) T represents the transpose and f and n are the frequency and time indices, respectively.
I=Jの条件においては、残響時間が分析窓長より短い場合に音源信号ベクトルs(f,n)と観測信号ベクトルx(f,n)の間の関係式として瞬時分離系
(3)
(4)
を仮定することができる。ここで、WH(f)は分離行列を表し、( )Hはエルミート転置である。
Under the condition of I=J, when the reverberation time is shorter than the analysis window length, the instantaneous separation system
(3)
(4)
can be assumed. where W H (f) represents the separation matrix and ( ) H is the Hermitian transpose.
以上の瞬時混合系の仮定の下で、混合信号の尤度関数は数式(5)のように表せる。
(5)
Under the assumption of the instantaneous mixing system described above, the likelihood function of the mixed signal can be expressed as Equation (5).
(5)
ILRMA法及びMVAE法は局所ガウスモデル(Local Gaussian Model:LGM)を仮定する。すなわち、音源信号jの複素スペクトログラムsj(f,n)が平均0、分散
の複素正規分布
(6)
に従う確率変数と仮定する。ここで、パワースペクトログラムVj={vj(f,n)}f,nを非負値行列積で表現したバージョンがILRMAのモデル、CVAEのデコーダで表現したバージョンがMVAE法のモデルにそれぞれ対応する。sj(f,n)とsj’(f,n)、j≠j’が統計的に独立のとき、数式(6)により、s(f,n)は
(7)
に従う。ここで、V(f,n)はv1(f,n),・・・,vI (f,n)を対角要素に持つ対角行列である。
The ILRMA method and the MVAE method assume a Local Gaussian Model (LGM). That is, the complex spectrogram s j (f, n) of the sound source signal j has a mean of 0 and a variance of
complex normal distribution of
(6)
is assumed to be a random variable that follows Here, the version of the power spectrogram V j ={v j (f, n)} f, n represented by the non-negative matrix product corresponds to the ILRMA model, and the version represented by the CVAE decoder corresponds to the MVAE method model. . When s j (f, n) and s j′ (f, n), j≠j′ are statistically independent, s(f, n) is given by Equation (6) as
(7)
obey. Here, V(f, n) is a diagonal matrix having v 1 (f, n), . . . , v I (f, n) as diagonal elements.
数式(5)及び(7)より、観測信号
が与えられた下での分離行列
と、各音源のパワースペクトログラム
の対数尤度関数は、
(8)
となる。
From equations (5) and (7), the observed signal
given the separation matrix
and the power spectrogram of each sound source
The log-likelihood function of is
(8)
becomes.
<ブロックパーミュテーション問題の定式化>
理想的な音源モデルVを仮定した上で数式(8)を最大化することができれば、周波数ごとの音源分離とパーミュテーション整合とを同時解決することが可能となる。しかし、既存の多くの音源モデルでは、一部の周波数帯域の成分が他の音源の成分にそっくり入れ替わったスペクトログラムに対しても柔軟に適合できてしまう場合がある。その結果として、帯域ごとに異なる音源の成分を持つような分離信号が得られてしまう。ある帯域Fk内の各周波数の成分が、音源間で同じように入れ替わっている状況では、正解の分離行列をW(f)とすると、
(9)
のように、W(f)に置換行列Pkを乗じたものが局所解として推定されていることになる。数式(9)で、Fkはk番目の帯域ブロック内の周波数ビンの集合であり、Pkは当該帯域における正解音源成分と分離成分の順番とを対応付ける置換行列である。ブロックパーミュテーション問題は、帯域kごとにP-1
k=PT
kを推定し、
(10)
により、正解の分離行列を見つける問題となる。なお、周波数ビンごとに帯域を分割した場合、ブロックパーミュテーション問題は通常のパーミュテーション問題に帰着する。
<Formulation of block permutation problem>
If the equation (8) can be maximized on the assumption of an ideal sound source model V, it will be possible to simultaneously solve sound source separation and permutation matching for each frequency. However, many existing sound source models can flexibly adapt to spectrograms in which some frequency band components are completely replaced with other sound source components. As a result, separated signals having different sound source components for each band are obtained. In a situation where each frequency component in a certain band Fk is similarly exchanged between sound sources, if the correct separation matrix is W(f),
(9)
, W(f) multiplied by the permutation matrix Pk is estimated as the local solution. In Equation (9), F k is a set of frequency bins in the k-th band block, and P k is a permutation matrix that associates correct sound source components with the order of separated components in the band. The block permutation problem estimates P −1 k =P T k for each band k,
(10)
, it becomes a problem of finding the correct separation matrix. Note that when the band is divided for each frequency bin, the block permutation problem is reduced to a normal permutation problem.
<割当問題とハンガリアン法の概説>
パーミュテーション問題は、適当なコストを手がかりに、周波数ごとの分離信号がどの音源に対応しているかを見つける「割当問題」と見做せる。本実施形態では、割当問題の求解法の1つであるハンガリアン法をパーミュテーション問題の解決に用いる。そこでまず、割当問題とハンガリアン法について以下概説する。
<Explanation of quota problem and Hungarian law>
The permutation problem can be regarded as an "assignment problem" of finding which sound source the separated signal for each frequency corresponds to, using an appropriate cost as a clue. In this embodiment, the Hungarian method, which is one of the methods for solving the assignment problem, is used to solve the permutation problem. Therefore, first, the allocation problem and the Hungarian method will be outlined below.
割当問題とは、M人の作業員にM個の仕事を割り当てる際に、最も効率の良い仕事の割り当てを見つける問題である。作業員pが仕事qをする場合に要するコストをcpqとし、cpqをp行q列目の要素としたコスト行列を
とする。ただし、p=1,・・・,Mとq=1,・・・,Mは、それぞれ作業員と仕事のインデックスである。この場合、割当問題は
(11)
を満足する分配行列
を求める最適化問題として定式化することができる。ただし、< , >は行列の内積を表す。
The assignment problem is the problem of finding the most efficient job assignment when assigning M jobs to M workers. Let c pq be the cost required for worker p to do job q, and the cost matrix with c pq as the element of p row and q column is
and where p=1, . . . , M and q=1, . In this case the allocation problem is
(11)
A distribution matrix that satisfies
can be formulated as an optimization problem for However, < , > represent the inner product of matrices.
この最適化問題を全列挙により解く場合、M!通りの解の候補が存在するため、Mの増大により組合せ爆発が起こる。この最適化問題を効率的に解くアルゴリズムがハンガリアン法である。ハンガリアン法では
(12)
(13)
を満足する実数集合
及び
が存在することを仮定する。これらのΠ及び∇は双対問題により求められる。最適化問題のコストzは、数式(14)のように表せる。
(14)
When solving this optimization problem by full enumeration, M! An increase in M results in a combinatorial explosion, since there are valid solution candidates. The Hungarian method is an algorithm that efficiently solves this optimization problem. under Hungarian law
(12)
(13)
real number set satisfying
as well as
Suppose that there exists These Π and ∇ are obtained by the dual problem. The cost z of the optimization problem can be expressed as Equation (14).
(14)
数式(14)によれば、コスト行列の任意の行と列から、それぞれ定数upとrqを引くことは、最適な割当に影響しないことがわかる。ハンガリアン法は、この性質を利用して、コスト行列を修正しながら最適な割り当てを求めることができる。具体的な手順は以下の通りとなる。 Equation (14) shows that subtracting the constants u p and r q from any row and column of the cost matrix, respectively, does not affect the optimal allocation. The Hungarian method can use this property to find the optimal allocation while modifying the cost matrix. The specific procedure is as follows.
(ステップ1)各行の最小値を見つけ、その行の各要素からその最小値を引く。その後、同様に各列の最小値を見つけ、その列の各要素からその最小値を引く。 (Step 1) Find the minimum value in each row and subtract that minimum value from each element in that row. Then similarly find the minimum value in each column and subtract that minimum value from each element in that column.
(ステップ2)最小値を引いた後の行列の各行各列から、0を1つずつ選ぶことができるかどうかを判定する。選ぶことができれば、その座標の組が最適な割当案となる。選ぶことができなければ次のステップに進む。 (Step 2) Determine whether one 0 can be selected from each row and column of the matrix after subtracting the minimum value. If a choice can be made, that set of coordinates is the optimal allocation proposal. If you can't choose, go to the next step.
(ステップ3)最小値を引いた後の行列中のすべての0成分を覆い隠すように、行上又は列上に、できるだけ少ない線を引く。 (Step 3) Draw as few lines as possible on rows or columns to obscure all 0 entries in the matrix after subtracting the minimum.
(ステップ4)ステップ3で引いた線で覆われていない行列の要素から、それらの要素の中の最小値を引き、ステップ3で引いた線における縦線と横線とが交わる要素に、その最小値を足して、ステップ2に戻る。
(Step 4) Subtract the minimum value among those elements from the elements of the matrix not covered by the line drawn in
なお、計算時間オーダーは全列挙法の場合はO(M!)となるのに対し、ハンガリアン法の場合はO(M3)となる。すなわちMの数が増加するほど全列挙法に比べてハンガリアン法の方がより効率的に最も効率の良い仕事の割り当てを見つけることができる。 Note that the computation time order is O(M!) for the full enumeration method, while it is O(M 3 ) for the Hungarian method. That is, as the number of M increases, the Hungarian method can find the most efficient work assignment more efficiently than the full enumeration method.
<ハンガリアンブロックパーミュテーション法>
続いて、ハンガリアン法を用いたブロックパーミュテーション整合法について述べる。ハンガリアン法を用いたブロックパーミュテーション整合法をHBP(Hungarian Block Permutation)法と称する。分離信号の隣接周波数における成分間の相関又は到来方向などを手がかりとした従来のパーミュテーション整合法は、反復計算が必要な点、マイクロホン配置が既知でなければならない点などに難点があった。これに対し、本実施形態で提案するHBP法は、音源分離アルゴリズムで用いられる音源モデルをそのまま流用可能な手法であり、マイクロホン配置が未知の下でも適用可能な方法である。具体的には、HBP法は音源分離アルゴリズムの途中で、(1)各分離信号の高帯域の成分を人為的にマスキング(ゼロ化)し、(2)音源モデルを用いて当該帯域の欠損成分を復元し、(3)その復元値を基にハンガリアン法によりブロックパーミュテーション整合を行う、という3つのステップからなる方法である。
<Hungarian block permutation method>
Next, we describe a block permutation matching method using the Hungarian method. A block permutation matching method using the Hungarian method is called an HBP (Hungarian Block Permutation) method. The conventional permutation matching method, which uses the correlation between components at adjacent frequencies of separated signals or the direction of arrival as a clue, has drawbacks such as the need for iterative calculations and the fact that the microphone placement must be known. On the other hand, the HBP method proposed in this embodiment is a method that can use the sound source model used in the sound source separation algorithm as it is, and is a method that can be applied even when the microphone arrangement is unknown. Specifically, in the HBP method, in the middle of the sound source separation algorithm, (1) the high-band components of each separated signal are artificially masked (zeroed), and (2) the missing components of the band using the sound source model and (3) performing block permutation matching by the Hungarian method based on the restored value.
一部の帯域の成分が欠損したスペクトログラムを入力とし、欠損領域を補完したスペクトログラムを出力する関数(欠損帯域補完器)をR(・)とする。分離信号jに対応するvj(f,n)を要素にもつ行列Vjを
とすると、l番目の帯域を欠損(マスキング)した後に当該帯域の補完を行う過程は
(15)
と表せる。ただし、
は行列の要素積を表す。
Let R(·) be a function (missing band complementer) that receives as input a spectrogram in which some band components are missing and outputs a spectrogram in which the missing region is interpolated. A matrix V j whose elements are v j (f, n) corresponding to the separated signal j is
Then, the process of complementing the band after missing (masking) the l-th band is
(15)
can be expressed as however,
represents the element product of matrices.
マスキングする周波数帯域をGlとすると、Ml∈{0,1}F×Nは行f∈Glの全要素が0、行
の全要素が1であるような行列Vjと同じサイズのバイナリ行列を表す。
Assuming that the frequency band to be masked is G l , M l ε{0, 1} F×N has all elements of row fεG l being 0, row
represents a binary matrix of the same size as the matrix V j such that all elements of are ones.
関数R(・)の具体形及び事前学習方法には様々な選択肢がありうるが、後述のように音源分離アルゴリズムで用いる音源モデルをそのまま流用してもよい。関数R(・)の欠損帯域補完能力が十分高ければ、Vjの高域でパーミュテーション不整合が生じている場合には、数式(15)の処理により、
はVjに比べて、当該音源が本来もつべきスペクトログラムに近いものになっていることが期待できる。このことを利用し、
を用いて適切なコスト行列を設計できれば、ハンガリアン法を応用してブロックパーミュテーション整合を行うことができる。つまり本実施形態で提案する手法は、各lの欠損帯域を補完したスペクトログラム
を用いて各kの帯域内のブロックパーミュテーション整合を行うアルゴリズムとなる。ある(l,k)において、割当問題のコスト行列C(l,k)の各要素c(l,k)
jj’は、
が帯域Fkにおいて分離信号j’とどれくらい適合しているかを測る尺度となっていれば良い。本実施形態では、要素c(l,k)
jj’は、数式(8)の対数尤度関数に関連させて、
と、
との板倉齋藤距離である
(16)
とした。勿論、コスト行列C(l,k)の各要素c(l,k)
jj’の決め方は係る例に限定されるものではない。
Although there are various options for the concrete form of the function R(·) and the pre-learning method, the sound source model used in the sound source separation algorithm may be used as it is, as will be described later. If the missing band compensating ability of the function R(·) is sufficiently high, and if permutation mismatch occurs in the high range of V j , the processing of formula (15) yields
can be expected to be closer to the spectrogram that the sound source should originally have than Vj. Taking advantage of this
can be used to design an appropriate cost matrix, the Hungarian method can be applied to perform block permutation matching. In other words, the method proposed in this embodiment is a spectrogram
is used to perform block permutation matching within each k band. For some (l, k), each element c (l, k) jj' of the allocation problem cost matrix C ( l, k ) is
is a measure of how well it matches the separated signal j' in the band Fk . In this embodiment, the element c (l,k) jj' is related to the log-likelihood function of equation (8) as follows:
and,
is the Itakura-Saito distance between
(16)
and Of course, the method of determining each element c (l,k) jj' of the cost matrix C (l,k) is not limited to this example.
帯域Fk及びマスキングする周波数帯域Glの決め方は特定の方法に限定されるものではない。例えばFk及びGlはランダムに決定されてもよい。また例えば、Fkを各帯域ブロックが異なる単一の周波数ビンとなるように、すなわち、Fk={k}(k=F0,・・・,F)としてもよい。また例えば、Glを欠損帯域が2kHz以上ナイキスト周波数以下の周波数ビンからなる1種類の集合のみ、すなわちGl={F0,・・・,F}としてもよい。 The method of determining the band Fk and the masking frequency band Gl is not limited to a specific method. For example, Fk and Gl may be randomly determined. Also for example, F k may be such that each band block is a different single frequency bin, ie, F k ={k}(k=F 0 , . . . , F). Further, for example, G l may be only one type of set consisting of frequency bins with missing bands equal to or higher than the Nyquist frequency, that is, G l ={F 0 , . . . , F}.
図1は、本実施形態で提案するHBP法のアルゴリズムを示す図である。図1に示したHBP法のアルゴリズムの概要を説明する。HBP法のアルゴリズムは、まず数式(15)を用いて、Vjの周波数帯域Glをマスキングして、欠損帯域補完器により
を求めている。そして図1に示したHBP法のアルゴリズムは、数式(16)によってコスト行列C(l,k)を計算する。続いて図1に示したHBP法のアルゴリズムは、ハンガリアン法によりコスト行列C(l,k)から置換行列Pkを求め、数式(10)により正解の分離行列を求める。
FIG. 1 is a diagram showing an algorithm of the HBP method proposed in this embodiment. An outline of the algorithm of the HBP method shown in FIG. 1 will be described. The algorithm of the HBP method first masks the frequency band G l of V j using Equation (15), and the missing band interpolator
I am looking for Then, the algorithm of the HBP method shown in FIG. 1 calculates the cost matrix C (l, k) by Equation (16). Subsequently, the algorithm of the HBP method shown in FIG. 1 obtains the permutation matrix P k from the cost matrix C (l, k) by the Hungarian method, and obtains the correct separation matrix by Equation (10).
<ハードウェア構成>
図2は、音源分離装置100のハードウェア構成を示すブロック図である。
<Hardware configuration>
FIG. 2 is a block diagram showing the hardware configuration of the sound
図2に示すように、音源分離装置100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
As shown in FIG. 2, the sound
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、観測信号から各音源信号を分離する音源分離プログラムが格納されている。
The
ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
The
入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
The
本実施形態では、入力部15は、複数の音源信号が混合された観測信号を受け付ける。入力部15が受け付けた観測信号は、CPU11によって各音源信号に分離される。
In this embodiment, the
表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
The
通信インタフェース17は、他の機器と通信するためのインタフェースである。当該通信には、たとえば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
The
<機能構成>
次に、音源分離装置100の機能構成について説明する。
<Functional configuration>
Next, the functional configuration of the sound
図3は、音源分離装置100の機能構成の例を示すブロック図である。
FIG. 3 is a block diagram showing an example of the functional configuration of the sound
図3に示すように、音源分離装置100は、機能構成として、学習部101、モデル記憶部102、マスキング部103、スペクトログラム生成部104、帯域割当部105、分離行列修正部106、及び音源分離部107を有する。各機能構成は、CPU11がROM12又はストレージ14に記憶された音源分離プログラムを読み出し、RAM13に展開して実行することにより実現される。
As shown in FIG. 3 , the sound
学習部101は、分離行列の修正に用いられる音源モデルの機械学習を行う。本実施形態における音源モデルの機械学習処理を説明するが、音源モデルの機械学習処理は以下で説明するものに限定されるものではない。
The
学習部101による機械学習に際して、予めクリーン音声のスペクトログラムS、スペクトログラムSの適当な帯域をマスキングしたスペクトログラムS’、話者ラベルcの組を多数用意する。学習部101は、各組についてS’又はSを入力、Sを目標値として音源モデルを学習する。S’を入力とする場合、再構築誤差として以下の2つを定義する。
(17)
(18)
p+
θ(S|z,c)、q+
φ(z|S)、r+
ψ(c|S)は、それぞれエンコーダ分布、デコーダ分布、クラス識別器分布を表し、θ、φ、ψは対応するネットワークのパラメータである。学習部101が学習した音源モデルは、欠損帯域補完器R(・)として用いることができる。
For machine learning by the
(17)
(18)
p + θ (S|z,c), q + φ (z|S), r + ψ (c|S) represent the encoder distribution, the decoder distribution, and the class discriminator distribution, respectively, and θ, φ, and ψ are Corresponding network parameters. The sound source model learned by the
モデル記憶部102は、分離行列の修正に用いられる音源モデルを記憶する。音源モデルは、予め用意されたものであってもよく、学習部101によって機械学習されたものであってもよい。
The
マスキング部103は、構成音が混合された観測信号が分離行列により分離された分離信号に対し、所定の複数の異なる周波数帯域についてそれぞれ当該周波数帯域をマスキングする。例えば、マスキング部103は、分離信号における高帯域の成分についてマスキングする。
The
スペクトログラム生成部104は、マスキング部103よりマスキングされた上記分離信号と、モデル記憶部102が記憶する所定の音源モデルとを用いて、マスキングにより欠損した部分を補完した補完スペクトログラムを生成する。また、スペクトログラム生成部104は、上記分離信号の各周波数帯域における分離信号スペクトログラムを生成する。
The
帯域割当部105は、スペクトログラム生成部104が生成した分離信号スペクトログラムのそれぞれに対して、補完スペクトログラムとの距離が近くなるように周波数帯域を割り当てる。具体的には、帯域割当部105は、上記数式(16)によってコスト行列C(l,k)を計算することで、周波数帯域の割り当てを行う。
分離行列修正部106は、帯域割当部105による割り当てに対応する周波数帯域の並び替えを実現するよう、分離行列を修正する。具体的には、分離行列修正部106は、ハンガリアン法を用いてコスト行列C(l,k)から置換行列Pkを求め、数式(10)により正解の分離行列を求めることで、分離行列を修正する。
Separation
音源分離部107は、BSSにより、分離行列を用いて、複数の音源信号が混合された観測信号を各音源信号に分離する。本実施形態では、音源分離部107は、分離行列として、所定のタイミングで分離行列修正部106により修正された分離行列を用いて、複数の音源信号が混合された観測信号を各音源信号に分離する。
Sound
音源分離装置100は、係る構成を有することで、構成音が混合された観測信号を分離する際に用いる分離行列を、分離信号の周波数方向の組み合わせを整合させるよう修正することができる。音源分離装置100は、分離信号の周波数方向の組み合わせを整合させるよう分離行列を修正することで、分離行列を修正しない場合と比較して精度よく分離信号を得ることができる。
By having such a configuration, the sound
<作用>
次に、音源分離装置10の作用について説明する。
<Action>
Next, the operation of the sound
図4は、音源分離装置10による音源分離処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から音源分離プログラムを読み出して、RAM13に展開して実行することにより、音源分離処理が行なわれる。
FIG. 4 is a flowchart showing the flow of sound source separation processing by the sound
ステップS101において、CPU11は、構成音が混合された観測信号が分離行列により分離された分離信号に対し、所定の複数の異なる周波数帯域についてそれぞれ当該周波数帯域をマスキングする。具体的には、CPU11は、分離信号における高帯域の成分についてマスキングする。
In step S101, the
ステップS101に続いて、ステップS102において、CPU11は、所定の音源モデルを用いて、マスキングにより欠損した部分を補完した補完スペクトログラムを生成する。音源モデルは、予め用意されたものであってもよく、CPU11によって機械学習されたものであってもよい。
Following step S101, in step S102, the
ステップS102に続いて、ステップS103において、CPU11は、分離信号の各周波数帯域における分離信号スペクトログラムを生成する。なお、ステップS102とステップS103の順序は逆であってもよい。
After step S102, in step S103, the
ステップS103に続いて、ステップS104において、CPU11は、ステップS103で生成した分離信号スペクトログラムのそれぞれに対して、補完スペクトログラムとの距離が近くなるように周波数帯域を割り当てる。具体的には、CPU11は、ステップS104において、上記数式(16)によってコスト行列C(l,k)を計算することで、周波数帯域の割り当てを行う。
Following step S103, in step S104, the
ステップS104に続いて、ステップS105において、CPU11は、ステップS104で行った割り当てに対応する周波数帯域の並び替えを実現するよう、分離行列を修正する。具体的には、CPU11は、ステップS105において、ハンガリアン法を用いてコスト行列C(l,k)から置換行列Pkを求め、数式(10)により正解の分離行列を求めることで、分離行列を修正する。
After step S104, in step S105, the
CPU11は、構成音が混合された観測信号を分離する際に、ステップS101~ステップS105の一連の処理により修正した分離行列を用いることで、ステップS101~ステップS105の一連の処理を行わない場合と比較して精度よく分離信号を得ることができる。
When separating the observed signal mixed with the constituent sounds, the
<効果>
本実施形態に係る音源分離装置10による音声分離性能を検証するため、WSJ0音声データベースを用いた任意話者の分離実験を行った。WSJ0データベースのsi_tr_sフォルダに含まれる101話者の約25時間のデータを学習データとし、si_dt_05フォルダとsi_et_05フォルダにある18話者のデータを評価用データの作成に用いた。検証のために、音源数が{2,3,6,9,12,15,18}の混合信号を作成した。インパルス応答は鏡像法により作成し、壁の反射係数を0.2とした。図5は、分離実験におけるマイクと音源の配置を示す図である。各条件について混合信号を10文作成した。また、全ての発話を繰り返した音声を用いて各条件について混合信号を10文作成した。全ての音声信号のサンプリング周波数を16kHzとし、フレーム長256ms、シフト128msの下で短時間フーリエ変換を行い、スペクトログラムを算出した。
<effect>
In order to verify the speech separation performance of the sound
MVAE法の高速化版として、FastMVAE法、及びFastMVAE2法がある。FastMVAE法、及びFastMVAE2法では、高速な分離アルゴリズムを実現するため、前者がクラス識別器つきVAE(Auxiliary Classifier VAE:ACVAE)、後者がACVAEのエンコーダとクラス識別器を一体化したChimeraACVAEをそれぞれ用いて音源スペクトログラムの生成モデルとその潜在変数の推論プロセスを事前学習するアプローチをとっている。この分離実験では、ChimeraACVAEのネットワーク構造を用いた。アルゴリズムの反復回数を60とし、10回反復するごとに、本実施形態のHBP法を行った。また、評価基準としてSource-to-Distortion Ratio(SDR)を用いた。 There are FastMVAE method and FastMVAE2 method as high-speed versions of the MVAE method. In the FastMVAE method and the FastMVAE2 method, in order to realize a high-speed separation algorithm, the former is a VAE with a class discriminator (Auxiliary Classifier VAE: ACVAE), and the latter is a ChimeraACVAE that integrates an ACVAE encoder and a class discriminator. The approach is to prelearn the generative model of the sound source spectrogram and the inference process of its latent variables. The ChimeraACVAE network structure was used in this segregation experiment. The number of iterations of the algorithm was set to 60, and the HBP method of this embodiment was performed every 10 iterations. Also, Source-to-Distortion Ratio (SDR) was used as an evaluation criterion.
表1にSDRの平均値を示す。 Table 1 shows the average SDR values.
表1によれば、全ての音源数においてHBP法により音源分離性能が向上したことが確認できた。また、繰り返しありデータに対して改善値が大きいことが分かった。これは、無音区間が減少し、パーミュテーションを解く手がかりになる調音構造のある空間が増えたことによる改善だと考えられる。図6は、9音源の分離信号の一例を示す図である。図6では、上からそれぞれ正解信号、FastMVAE2によるHBP法を用いない分離信号、音源分離装置10が生成したFastMVAE2によるHBP法を用いた分離信号のスペクトログラムを示し、各スペクトログラムの上に入力SDR及びSDR改善値が示されている。
According to Table 1, it was confirmed that the sound source separation performance was improved by the HBP method for all the number of sound sources. In addition, it was found that the improvement value is large for repeated data. This is thought to be an improvement due to the reduction in silent intervals and the increase in spaces with articulatory structures that serve as clues for solving permutations. FIG. 6 is a diagram showing an example of separated signals of 9 sound sources. FIG. 6 shows, from the top, the correct signal, the separated signal not using the HBP method by FastMVAE2, and the separated signal using the HBP method by FastMVAE2 generated by the sound
以上示したように本開示の実施形態によれば、マイクロホン配置が未知であっても、分離信号の周波数方向の組み合わせを整合させることで、整合させない場合と比較して精度よく分離信号を得ることができる。 As described above, according to the embodiments of the present disclosure, even if the microphone arrangement is unknown, by matching the combination of the separated signals in the frequency direction, the separated signals can be obtained with higher accuracy than when they are not matched. can be done.
なお、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した音源分離処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、音源分離処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。 Note that the sound source separation processing executed by the CPU by reading the software (program) in each of the above embodiments may be executed by various processors other than the CPU. The processor in this case is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing such as an FPGA (Field-Programmable Gate Array), and an ASIC (Application Specific Integrated Circuit) for executing specific processing. A dedicated electric circuit or the like, which is a processor having a specially designed circuit configuration, is exemplified. In addition, the sound source separation processing may be performed by one of these various processors, or a combination of two or more processors of the same or different type (for example, multiple FPGAs and a combination of a CPU and an FPGA). etc.). More specifically, the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.
また、上記各実施形態では、音源分離プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
Also, in each of the above-described embodiments, the sound source separation program has been pre-stored (installed) in the
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
構成音が混合された観測信号が分離行列により分離された分離信号に対し、所定の複数の異なる周波数帯域についてそれぞれ当該周波数帯域をマスキングし、
マスキングされた前記分離信号と、所定の音源モデルとを用いて補完スペクトログラムを生成するとともに、前記分離信号の各前記周波数帯域における分離信号スペクトログラムを生成し、
前記分離信号スペクトログラムのそれぞれに対して前記補完スペクトログラムとの距離が近くなるように割り当てられた再配置先の周波数帯域の並び替えを実現するように前記分離行列を修正する
ように構成されている音源分離装置。
The following additional remarks are disclosed regarding the above embodiments.
(Appendix 1)
memory;
at least one processor connected to the memory;
including
The processor
Masking each of a plurality of predetermined different frequency bands for a separated signal obtained by separating an observed signal in which constituent sounds are mixed by a separation matrix,
generating a complementary spectrogram using the masked separated signal and a predetermined sound source model, and generating a separated signal spectrogram in each of the frequency bands of the separated signal;
A sound source configured to modify the separation matrix so as to realize rearrangement of frequency bands to be rearranged so that each of the separated signal spectrograms is closer to the complementary spectrogram. separation device.
(付記項2)
音源分離処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記音源分離処理は、
構成音が混合された観測信号が分離行列により分離された分離信号に対し、所定の複数の異なる周波数帯域についてそれぞれ当該周波数帯域をマスキングし、
マスキングされた前記分離信号と、所定の音源モデルとを用いて補完スペクトログラムを生成するとともに、前記分離信号の各前記周波数帯域における分離信号スペクトログラムを生成し、
前記分離信号スペクトログラムのそれぞれに対して前記補完スペクトログラムとの距離が近くなるように割り当てられた再配置先の周波数帯域の並び替えを実現するように前記分離行列を修正する
非一時的記憶媒体。
(Appendix 2)
A non-temporary storage medium storing a program executable by a computer to perform sound source separation processing,
The sound source separation processing includes:
Masking each of a plurality of predetermined different frequency bands for a separated signal obtained by separating an observed signal in which constituent sounds are mixed by a separation matrix,
generating a complementary spectrogram using the masked separated signal and a predetermined sound source model, and generating a separated signal spectrogram in each of the frequency bands of the separated signal;
A non-temporary storage medium that modifies the separation matrix so as to rearrange frequency bands to be rearranged so that each of the separated signal spectrograms is closer to the complementary spectrogram.
100 音源分離装置
101 学習部
102 モデル記憶部
103 マスキング部
104 スペクトログラム生成部
105 帯域割当部
106 分離行列修正部
107 音源分離部
100 Sound
Claims (7)
前記マスキング部によりマスキングされた前記分離信号と、所定の音源モデルとを用いて補完スペクトログラムを生成するとともに、前記分離信号の各前記周波数帯域における分離信号スペクトログラムを生成するスペクトログラム生成部と、
前記分離信号スペクトログラムのそれぞれに対して前記補完スペクトログラムとの距離が近くなるように割り当てられた再配置先の周波数帯域の並び替えを実現するように前記分離行列を修正する分離行列修正部と、
を備える音源分離装置。 a masking unit for masking a plurality of predetermined different frequency bands with respect to a separated signal obtained by separating an observed signal in which a plurality of constituent sounds are mixed by a separation matrix;
a spectrogram generation unit that generates a complementary spectrogram using the separated signal masked by the masking unit and a predetermined sound source model, and generates a separated signal spectrogram in each of the frequency bands of the separated signal;
A separation matrix correction unit that corrects the separation matrix so as to realize rearrangement of frequency bands to be rearranged so that the distance between each of the separated signal spectrograms and the complementary spectrogram is reduced;
A sound source separation device.
マスキングされた前記分離信号と、所定の音源モデルとを用いて補完スペクトログラムを生成するとともに、前記分離信号の各前記周波数帯域における分離信号スペクトログラムを生成し、
前記分離信号スペクトログラムのそれぞれに対して前記補完スペクトログラムとの距離が近くなるように割り当てられた再配置先の周波数帯域の並び替えを実現するように前記分離行列を修正する
処理をコンピュータが実行する、音源分離方法。 Masking each of a plurality of predetermined different frequency bands for a separated signal obtained by separating an observed signal in which a plurality of constituent sounds are mixed by a separation matrix,
generating a complementary spectrogram using the masked separated signal and a predetermined sound source model, and generating a separated signal spectrogram in each of the frequency bands of the separated signal;
A computer executes a process of correcting the separation matrix so as to rearrange the frequency bands to be relocated so that the distance from the complementary spectrogram is reduced for each of the separated signal spectrograms, sound source separation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021130719A JP2023025458A (en) | 2021-08-10 | 2021-08-10 | Sound source separation device, sound source separation method, and sound source separation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021130719A JP2023025458A (en) | 2021-08-10 | 2021-08-10 | Sound source separation device, sound source separation method, and sound source separation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023025458A true JP2023025458A (en) | 2023-02-22 |
Family
ID=85251611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021130719A Pending JP2023025458A (en) | 2021-08-10 | 2021-08-10 | Sound source separation device, sound source separation method, and sound source separation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023025458A (en) |
-
2021
- 2021-08-10 JP JP2021130719A patent/JP2023025458A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pariente et al. | Asteroid: the PyTorch-based audio source separation toolkit for researchers | |
Stoller et al. | Wave-u-net: A multi-scale neural network for end-to-end audio source separation | |
CN110503128B (en) | Spectrogram for waveform synthesis using convolution-generated countermeasure network | |
Grais et al. | Single channel speech music separation using nonnegative matrix factorization and spectral masks | |
Shuman et al. | Spectrum-adapted tight graph wavelet and vertex-frequency frames | |
Virtanen et al. | Active-set Newton algorithm for overcomplete non-negative representations of audio | |
JP4810109B2 (en) | Method and system for separating components of separate signals | |
Yoshii et al. | Student's t nonnegative matrix factorization and positive semidefinite tensor factorization for single-channel audio source separation | |
JP5233827B2 (en) | Signal separation device, signal separation method, and computer program | |
CN103875197B (en) | A kind of for the input signal with multiple sound channels being carried out to directly-disperse the method and apparatus of decomposition | |
Muth et al. | Improving DNN-based music source separation using phase features | |
JP6099032B2 (en) | Signal processing apparatus, signal processing method, and computer program | |
Damon et al. | Estimation and simulation of autoregressive hilbertian processes with exogenous variables | |
Grais et al. | Single channel speech music separation using nonnegative matrix factorization with sliding windows and spectral masks | |
Sarmiento et al. | A contrast function based on generalized divergences for solving the permutation problem in convolved speech mixtures | |
JP5669036B2 (en) | Parameter estimation device for signal separation, signal separation device, parameter estimation method for signal separation, signal separation method, and program | |
JP2023025458A (en) | Sound source separation device, sound source separation method, and sound source separation program | |
Casebeer et al. | Deep tensor factorization for spatially-aware scene decomposition | |
JP5319788B2 (en) | Audio signal alignment method | |
Rigaud et al. | Does inharmonicity improve an NMF-based piano transcription model? | |
Dong et al. | Audio super-resolution using analysis dictionary learning | |
Becker et al. | Complex SVD initialization for NMF source separation on audio spectrograms | |
Kırbız et al. | A multiresolution non-negative tensor factorization approach for single channel sound source separation | |
Anderson et al. | A GPU-accelerated real-time implementation of TRINICON-BSS for multiple separation units | |
Caffarena et al. | Fast fixed-point optimization of DSP algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240514 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240521 |