JP6992873B2 - Sound source separation device, sound source separation method and program - Google Patents
Sound source separation device, sound source separation method and program Download PDFInfo
- Publication number
- JP6992873B2 JP6992873B2 JP2020504518A JP2020504518A JP6992873B2 JP 6992873 B2 JP6992873 B2 JP 6992873B2 JP 2020504518 A JP2020504518 A JP 2020504518A JP 2020504518 A JP2020504518 A JP 2020504518A JP 6992873 B2 JP6992873 B2 JP 6992873B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- mixed signal
- frequency bin
- feature
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 98
- 230000006870 function Effects 0.000 claims description 132
- 238000000605 extraction Methods 0.000 claims description 115
- 239000013598 vector Substances 0.000 claims description 70
- 238000004364 calculation method Methods 0.000 claims description 62
- 238000011156 evaluation Methods 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 13
- 238000013500 data storage Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本開示は、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体に関する。 The present disclosure relates to a non-temporary computer-readable medium in which a sound source separation device, a sound source separation method, and a program are stored.
複数の話者が同時に発した音声などの複数の音源信号を含む混合信号を個々の音源信号に分離する技術が検討されている。このような技術に関連し、特許文献1には、事前に学習された音源であって、第2音源の音響を含まない第1音源の音響の特徴を示す第1基底行列を記憶する音響処理装置が開示されている。音響処理装置は、第1基底行列を利用した非負値行列因子分解により、第1音源の音響と第2音源の音響との混合音を示す音響信号のスペクトルの時系列を示す観測行列から、第2基底行列と、第2係数行列とを生成する。そして、音響処理装置は、第1基底行列と第1係数行列とに応じた音響信号および第2基底行列と第2係数行列とを用いて、第1音源および第2音源の音響信号を生成する。
A technique for separating a mixed signal including a plurality of sound source signals such as voice emitted by a plurality of speakers into individual sound source signals is being studied. In relation to such a technique,
また、上記技術に関連して、非特許文献1が開示されている。非特許文献1には、ある話者が発する音声を音源とし、複数の話者が同時に発した音声を個々の話者の音声に分離する音源分離方法が開示されている。音源分離方法は、単一チャネルの混合信号を受信し、受信した混合信号を時間-周波数表現(スペクトログラム)に変換し、深層ニューラルネットワークを用いて各々の時間-周波数ビンから特徴ベクトルを抽出する。そして、抽出した特徴ベクトルをクラスタリングすることにより時間-周波数ビンを目的の音源数(話者数)と同数のクラスタに分類し、クラスタごとに、そこに含まれる時間-周波数ビンから再構成されたスペクトログラムから話者ごとの音源信号を作成する。
Further,
非特許文献1に開示された深層ニューラルネットワークは、事前のトレーニング(学習)によって用意される。学習に用いるデータは、様々な話者が話す音源信号を多数集めたものである。これらはすべて独立した音源信号であり、複数の話者が同時に話す混合信号ではない。非特許文献1では、まず、学習用データに短時間フーリエ変換を実施し、各音源信号をスペクトログラムに変換する。次に、2つの音源信号のスペクトログラムを重畳して混合信号のスペクトログラムを生成し、時間-周波数ビンごとに、いずれの話者に属するかを決定して話者ラベルを付与する。ここで、話者ラベルは、元になった個々の音源信号の振幅から決定する。すなわち、振幅の大きい方の話者に、その時間-周波数ビンが属するとする。続いて、その時点で得られている深層ニューラルネットワークを用いて各々の時間-周波数ビンから特徴ベクトルを抽出する。次に、話者ラベルとの整合性を測る尺度を算出する損失関数を計算し、その損失関数が減少するように、特徴抽出を行う深層ニューラルネットワークのパラメタを更新する。
The deep neural network disclosed in
特許文献1に開示された技術は、事前に学習された基準となる第1の音源を用いて、複数の音源が混合された混合信号から個々の音源を分離する。また、非特許文献1に開示された技術は、異なる2つ以上の音源信号を重畳して人工的に生成された混合信号を用いて、個々の音源を分離する。すなわち、特許文献1および非特許文献1において用いられる学習データは、実際に観測される混合信号とは異なる。
The technique disclosed in
ここで、実際の環境では、通常、ノイズや残響が存在するため、実際に観測される混合信号は、個々の音源信号のスペクトログラムを単純に重ね合わせたものとは異なる。その理由は、音源信号を重畳する際の振幅比は、マイクと話者の位置関係などに依存するため、実際に観測される混合信号は、すべての観測で一定になるとは限らないからである。また、会話では話者間のインタラクションがあるので、実際に観測される混合信号は、時間的にも一定になるとは限らないからである。そのため、学習に用いるデータが、実際に観測された混合信号ではないと、学習に用いるデータと、実際に観測された混合信号との間にミスマッチが発生する。学習に用いるデータと、実際に観測される混合信号と、の間にミスマッチが発生すると、適切な学習を行うことが出来ない。したがって、適切な学習が行われてないと、混合信号から個々の音源信号を精度良く分離することが出来ない。すなわち、上述した特許文献1および非特許文献1に開示された技術は、実際に観測された混合信号を学習用データとして用いていないため、実際に観測された混合信号に対して精度良く音源分離ができない。
Here, in an actual environment, noise and reverberation are usually present, so that the actually observed mixed signal is different from a simple superposition of spectrograms of individual sound source signals. The reason is that the amplitude ratio when superimposing the sound source signal depends on the positional relationship between the microphone and the speaker, so that the actually observed mixed signal is not always constant in all observations. .. In addition, since there is interaction between speakers in conversation, the actually observed mixed signal is not always constant in time. Therefore, if the data used for learning is not the actually observed mixed signal, a mismatch occurs between the data used for learning and the actually observed mixed signal. If a mismatch occurs between the data used for learning and the actually observed mixed signal, proper learning cannot be performed. Therefore, if proper learning is not performed, it is not possible to accurately separate individual sound source signals from the mixed signal. That is, since the techniques disclosed in
本開示の目的は、このような課題を解決するためになされたものであり、混合信号から個々の音源信号を精度良く分離することが可能な、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体を提供することにある。 An object of the present disclosure is to solve such a problem, and a sound source separation device, a sound source separation method, and a program capable of accurately separating individual sound source signals from a mixed signal are stored. It is to provide a non-temporary computer-readable medium.
本開示にかかる音源分離装置は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段と、抽出された前記特徴ベクトルを複数のクラスタに分類するクラスタリング手段と、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段と、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新するパラメタ更新手段と、を備える。 The sound source separation device according to the present disclosure is a feature vector using a feature extractor to which the parameters used for feature extraction are applied for each time frequency bin in a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed. For each classified cluster using a feature extraction means for extracting, a clustering means for classifying the extracted feature vector into a plurality of clusters, and a time frequency bin included in each of the classified plurality of clusters. A separation means for generating a sound source signal and a parameter updating means for updating the parameters based on the learning mixed signal including the observed mixed signal are provided.
また、本開示にかかる音源分離方法は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、抽出された前記特徴ベクトルを複数のクラスタに分類することと、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、を含む音源分離方法である。 Further, the sound source separation method according to the present disclosure uses a feature extractor to which the parameters used for feature extraction are applied for each time frequency bin in a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed. Using the extraction of the feature vector, the classification of the extracted feature vector into a plurality of clusters, and the time frequency bin included in each of the classified clusters, the sound source is used for each classified cluster. It is a sound source separation method including generating a signal and updating the parameter based on the learning mixed signal including the observed mixed signal.
また、本開示にかかる非一時的なコンピュータ可読媒体は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、抽出された前記特徴ベクトルを複数のクラスタに分類することと、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体である。 Further, the non-temporary computer-readable medium according to the present disclosure is a feature extraction in which parameters used for feature extraction are applied for each time frequency bin in a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed. The feature vectors were extracted using a device, the extracted feature vectors were classified into a plurality of clusters, and the time frequency bins included in each of the classified clusters were used for classification. A non-temporary computer-readable device that contains a program that causes a computer to generate a sound source signal for each cluster and update the parameters based on the learning mixed signal including the observed mixed signal. It is a medium.
本開示によれば、混合信号から個々の音源信号を精度良く分離することが可能な、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体を提供できる。 According to the present disclosure, it is possible to provide a non-temporary computer-readable medium containing a sound source separation device, a sound source separation method, and a program capable of accurately separating individual sound source signals from a mixed signal.
(実施の形態の概要)
本開示の実施形態の説明に先立って、実施の形態の概要について説明する。図1は、本開示の実施の形態にかかる音源分離装置1の概要を示す図である。(Outline of embodiment)
Prior to the description of the embodiments of the present disclosure, an outline of the embodiments will be described. FIG. 1 is a diagram showing an outline of the sound
音源分離装置1は、特徴抽出手段として機能する特徴抽出部2と、クラスタリング手段として機能するクラスタリング部3と、分離手段として機能する分離部4と、パラメタ更新手段として機能するパラメタ更新部5と、を備える。
The sound
特徴抽出部2は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する。
The
クラスタリング部3は、抽出された特徴ベクトルを複数のクラスタに分類する。
分離部4は、分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する。
パラメタ更新部5は、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新する。The
The
The
実施の形態にかかる音源分離装置1は、学習用混合信号として、複数の音源信号を人工的に重畳した混合信号ではなく、実際に観測される混合信号を用いる。そのため、音源分離装置1を用いることにより、個々の音源信号に分離する混合信号に対して最適な特徴ベクトルを取得することが出来るので、混合信号を正確に個々の音源信号に分離することが可能となる。したがって、実施の形態にかかる音源分離装置1を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。
The sound
なお、音源分離装置1における音源分離方法を用いても、混合信号から個々の音源信号を精度良く分離することが可能となる。さらに、音源分離方法を実行可能なプログラムを用いても、混合信号から個々の音源信号を精度良く分離することが可能となる。
Even if the sound source separation method in the sound
(実施の形態1)
以下、図面を参照して、本開示の実施の形態について説明する。
<音源分離装置の構成例>
まず、図2を用いて、実施の形態1にかかる音源分離装置10の構成例を説明する。図2は、実施の形態1にかかる音源分離装置の構成例を示す構成図である。(Embodiment 1)
Hereinafter, embodiments of the present disclosure will be described with reference to the drawings.
<Sound source separation device configuration example>
First, a configuration example of the sound
音源分離装置10は、例えば、サーバ装置、パーソナルコンピュータ装置等のコンピュータであってもよい。音源分離装置10は、学習用混合信号記憶部11と、学習用ラベルデータ記憶部12と、特徴抽出器学習部13と、音源分離部14と、を備える。学習用混合信号記憶部11、学習用ラベルデータ記憶部12、特徴抽出器学習部13および音源分離部14は、それぞれ、学習用混合信号記憶手段、学習用ラベルデータ記憶手段、特徴抽出器学習手段および音源分離手段として機能する。
The sound
学習用混合信号記憶部11は、実際に観測された混合信号であって、予め取得された混合信号を学習用データとして記憶する。学習用混合信号は、複数の音源から発せれる信号であって、例えば、複数の話者が話す音声をモノラル(単一チャネル)録音したオーディオデータである。本実施の形態では、学習用混合信号は、非特許文献1として示した関連技術における学習用混合信号のように、複数の音源を人工的に重畳された混合信号ではなく、実際に観測された混合信号である。混合信号は、例えば、サンプリング周波数が8kHz、サンプルサイズが16bit、圧縮されていない線形PCM(Pulse Code Modulation)であってもよい。なお、混合信号の形式は、上記内容には限定されず、他の形式であってもよい。
The learning mixed
学習用ラベルデータ記憶部12は、学習用混合信号記憶部11に記憶された混合信号を予め分析して決定された、各音源信号の時間区間を表すラベルデータを記憶する。具体的には、ラベルデータは、各混合信号において、各音源がどの時間区間に含まれるかを示すデータであって、例えば、音源種別、時間区間の始端および終端が関連付けられて設定されるデータである。例えば、ある混合信号において、O分o秒からP分p秒まで話者Aの音源が含まれていると分析された場合、ラベルデータは、音源種別:話者A、始端:O分o秒、終端:P分p秒のように、音源種別、時間区間の始端および終端が関連付けられて設定される。なお、当然ながら、上記したラベルデータは、一例であるので、他の情報が設定されていてもよい。
The learning label
特徴抽出器学習部13は、特徴抽出器に適用された特徴抽出の際に用いるパラメタを示す特徴抽出パラメタを学習する。特徴抽出器は、ニューラルネットワークであってもよいし、他のアルゴリズムが用いられてもよい。以降の説明において、特徴抽出器はニューラルネットワークであるとして記載することがある。
音源分離部14は、複数の音源が混合された混合信号を特徴抽出器であるニューラルネットワークを用いて個々の音源信号に分離する。The feature
The sound
続いて、特徴抽出器学習部13および音源分離部14の詳細について説明する。
特徴抽出器学習部13は、特徴抽出部101と、特徴抽出パラメタ記憶部102と、パラメタ更新部103と、教師付き損失関数算出部104と、教師なし損失関数算出部105と、を備える。特徴抽出部101、特徴抽出パラメタ記憶部102およびパラメタ更新部103は、それぞれ、特徴抽出手段、特徴抽出パラメタ記憶手段、パラメタ更新手段として機能する。また、教師付き損失関数算出部104および教師なし損失関数算出部105は、それぞれ、教師付き損失関する算出手段および教師なし損失関数算出手段として機能する。特徴抽出部101および特徴抽出パラメタ記憶部102は、音源分離部14と共有する機能部である。Subsequently, the details of the feature
The feature
特徴抽出部101は、実施の形態の概要における特徴抽出部2に対応する。特徴抽出部101は、学習用混合信号記憶部11に記憶された全ての混合信号を取得する。特徴抽出部101は、取得した各混合信号に短時間フーリエ変換(STFT:Short-Term Fourier Transform)を適用して時間-周波数表現(スペクトログラム)に変換する。また、特徴抽出部101は、個々の音源信号に分離を行う判定対象の混合信号に対しても同様に、短時間フーリエ変換を適用してスペクトログラムに変換する。
The
また、特徴抽出部101は、特徴抽出パラメタ記憶部102に記憶された特徴抽出器(ニューラルネットワーク)に適用される特徴抽出パラメタを取得する。特徴抽出部101は、混合信号から変換されたスペクトログラムを所定数の時間-周波数ビンに分割し、各時間-周波数ビンに対応する部分スペクトログラムをニューラルネットワークに入力する。そして、特徴抽出部101は、ニューラルネットワークから出力される結果を特徴ベクトルとする。
Further, the
なお、本開示において、特徴抽出部101が分割した時間-周波数ビンを(t,f)として表し、時間-周波数ビン(t,f)に対応する部分スペクトログラムをx(t,f)として表し、特徴ベクトルをvt,fとして表すとする。また、本開示において、時間-周波数ビンを時間周波数ビンとして記載することがある。In the present disclosure, the time-frequency bin divided by the
例えば、混合信号の形式が、サンプリング周波数が8kHzであり、サンプルサイズが16bitであり、圧縮されていない線形PCMであるとする。そうすると、短時間フーリエ変換により得られるスペクトログラムは、混合信号を、例えば、1フレームにつき窓幅が32msec(256点)でのフーリエ変換を8msec(64点)毎にずらしながら変換することにより取得される。この場合、周波数方向の解像度は31.25Hz(8kHzで256点)となり、時間-周波数ビンの個数は時間方向に毎秒125、周波数方向に256となる。時間-周波数ビン(t,f)に対して、特徴ベクトルvt,fを得る際、(t,f)を含む前後のコンテキストを考慮するのが有効である。例えば、tを含む100フレーム分のビンをまとめた100次元ベクトルを入力xt,fとしてニューラルネットワークに与える。ニューラルネットワークの出力vt,fは、通常は入力よりも低次元とし、例えば、入力が100次元である場合、出力は50次元程度に設定してもよい。For example, assume that the format of the mixed signal is a sampling frequency of 8 kHz, a sample size of 16 bits, and an uncompressed linear PCM. Then, the spectrogram obtained by the short-time Fourier transform is obtained by transforming the mixed signal, for example, by shifting the Fourier transform at a window width of 32 msec (256 points) per frame every 8 msec (64 points). .. In this case, the resolution in the frequency direction is 31.25 Hz (256 points at 8 kHz), and the number of time-frequency bins is 125 per second in the time direction and 256 in the frequency direction. For the time-frequency bin (t, f), it is effective to consider the context before and after including (t, f) when obtaining the feature vectors vt , f . For example, a 100-dimensional vector that collects bins for 100 frames including t is given to the neural network as inputs x t and f . The outputs dt and f of the neural network are usually set to be lower than the input, and for example, when the input is 100 dimensions, the output may be set to about 50 dimensions.
特徴抽出パラメタ記憶部102は、特徴抽出部101が特徴ベクトルを抽出する際に用いる特徴抽出パラメタを記憶する。具体的には、特徴抽出パラメタ記憶部102は、後述するパラメタ更新部103が決定した特徴抽出パラメタを記憶する。特徴抽出パラメタ記憶部102は、特徴抽出パラメタが未定の初期段階においては、パラメタ更新部103が乱数を発生(生成)する等の処理を行い初期化された特徴抽出パラメタを記憶する。
The feature extraction
パラメタ更新部103は、実施の形態の概要におけるパラメタ更新部5に対応する。パラメタ更新部103は、ニューラルネットワークに適用される特徴抽出パラメタを学習用データである学習混合信号に基づいて更新する。
The
パラメタ更新部103は、特徴抽出部101が抽出した特徴ベクトルおよび特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを取得する。パラメタ更新部103は、取得した情報を、後述する教師付き損失関数算出部104および教師なし損失関数算出部105に出力する。パラメタ更新部103は、教師付き損失関数算出部104および教師なし損失関数算出部105によって定まる評価基準を用いて、特徴抽出部101が抽出した特徴ベクトルを評価する。パラメタ更新部103は、特徴ベクトルの評価結果に基づいて、より良い特徴ベクトルが生成されるように特徴抽出パラメタを決定し、決定した特徴抽出パラメタに更新する。
The
パラメタ更新部103は、特徴抽出パラメタを決定(更新)する際、例えば、誤差逆伝搬法(Error backpropagation)等の、ニューラルネットワークの学習において用いられる反復解法を適用して特徴抽出パラメタを決定する。パラメタ更新部103は、決定した特徴抽出パラメタを特徴抽出パラメタ記憶部102に記憶し、決定した特徴抽出パラメタがニューラルネットワークに適用されるように更新する。すなわち、パラメタ更新部103は、特徴抽出パラメタを決定する際に用いる評価基準を、数学的に規定される評価関数を示す損失関数として定義する。そして、パラメタ更新部103は、その損失関数が最小化されるように、例えば、確率的勾配降下法(SGD:Stochastic Gradient Descent)等の数値的手法を用いて、特徴抽出パラメタを反復的に決定し、特徴抽出パラメタを更新する。
When the feature extraction parameter is determined (updated), the
パラメタ更新部103は、ニューラルネットワークの特徴抽出パラメタに関する評価関数を示す損失関数を以下の式(11)のように定義する。具体的には、パラメタ更新部103は、特徴抽出パラメタに関する評価関数を、第1の評価関数を示す教師付き(Supervised)損失関数と、第2の評価関数を示す教師なし(Unsupervised)損失関数と、を用いて定義する。
例えば、ある混合信号に2人の話者が含まれており、時間-周波数ビン(t,f)に、第1の話者の音声が、第2の話者よりも強く含まれていたとすると、yt,fは2次元ベクトル(1,0)となる。一方、時間-周波数ビン(t,f)に、第2の話者の音声が第1の話者よりも強く含まれていたとすると、yt,fは2次元ベクトル(0,1)となる。このように、N人の話者(つまり、N個の音源)が含まれる場合、これらのベクトルはN次元となり、N次元のベクトルのうち、ただ1つの要素が1となり、その他の(N-1)の要素は0となる。For example, suppose a mixed signal contains two speakers, and the time-frequency bin (t, f) contains the voice of the first speaker more strongly than the second speaker. , Yt , f are two-dimensional vectors (1,0). On the other hand, if the time-frequency bin (t, f) contains the voice of the second speaker more strongly than the first speaker, yt, f becomes a two-dimensional vector (0, 1). .. Thus, when N speakers (that is, N sound sources) are included, these vectors are N-dimensional, only one element of the N-dimensional vector is 1, and the other (N-). The element of 1) becomes 0.
教師付き損失関数算出部104は、式(11)における教師付き損失関数を計算する。上述したように、教師付き損失関数は、第1の評価関数と言えるので、教師付き損失関数算出部104は、第1の算出手段とも言える。また、教師付き損失関数算出部104は、第1の評価関数を示す教師付き損失関数を用いて、第1の評価値を算出するとも言える。
The supervised loss
教師付き損失関数算出部104は、学習用ラベルデータ記憶部12に記憶されたラベルデータを取得し、音源ラベルyt,fを生成する。教師付き損失関数算出部104は、単一の音源のみが存在する時間区間に含まれる時間-周波数ビンに対して音源ラベルを設定する。一方、教師付き損失関数算出部104は、複数の音源が混在する時間区間に含まれる時間-周波数ビンに対して音源ラベルを設定しない。The supervised loss
また、教師付き損失関数算出部104は、パラメタ更新部103から特徴ベクトルvt,fを取得し、式(11)における右辺第1項である教師付き損失関数Lθ
(S)を計算してパラメタ更新部103に計算結果を出力する。なお、教師付き損失関数Lθ
(S)の詳細および音源ラベルについては後述する。Further, the supervised loss
教師なし損失関数算出部105は、式(11)における教師なし損失関数を計算する。上述したように、教師なし損失関数は、第2の評価関数と言えるので、教師なし損失関数算出部105は、第2の算出手段とも言える。また、教師なし損失関数算出部105は、第2の評価関数を示す教師なし損失関数を用いて、第2の評価値を算出するとも言える。
The unsupervised loss
教師なし損失関数算出部105は、パラメタ更新部103から特徴ベクトルvt,fを取得すると共に、教師付き損失関数算出部104から音源ラベルyt,fを取得する。教師なし損失関数算出部105は、式(11)における右辺第2項である教師なし損失関数Lθ
(U)を計算してパラメタ更新部103に計算結果を出力する。The unsupervised loss
特徴抽出部101、パラメタ更新部103、教師付き損失関数算出部104および教師なし損失関数算出部105は、相互に作用しつつ反復的に動作し、特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを逐次的に更新する。特徴抽出部101、パラメタ更新部103、教師付き損失関数算出部104および教師なし損失関数算出部105は、特徴抽出パラメタが収束するように、特徴抽出パラメタを十分な回数分更新する。そして、特徴抽出パラメタが収束すると、最終的な特徴抽出パラメタが、特徴抽出パラメタ記憶部102に記憶される。
The
ここで、上記式(11)に含まれる、教師付き損失関数および教師なし損失関数の詳細を説明する。
教師付き損失関数Lθ
(S)は、以下の式(12)のように定義される。教師付き損失関数Lθ
(S)は、音源ラベルが設定された時間-周波数ビンから抽出された特徴ベクトルV=(vt,f)に関する損失を表す関数である。
The supervised loss function L θ (S) is defined by the following equation (12). The supervised loss function L θ (S) is a function representing the loss related to the feature vector V = (v t, f ) extracted from the time-frequency bin in which the sound source label is set.
音源クラスとは、混合信号に含まれる個々の音源を示す情報である。例えば、混合信号に話者Aおよび話者Bの音源が含まれる場合、話者Aの音源が第1の音源クラスとなり、話者Bの音源が第2の音源クラスとなる。 The sound source class is information indicating individual sound sources included in the mixed signal. For example, when the mixed signal includes the sound sources of the speaker A and the speaker B, the sound source of the speaker A is the first sound source class, and the sound source of the speaker B is the second sound source class.
ここで、図3および図4を用いて、教師付き損失関数算出部104が設定する音源ラベルについて、非特許文献1のような関連技術における音源ラベルとの違いを説明する。図3は、関連技術における音源ラベルを説明する図である。図4は、実施の形態1における音源ラベルを説明する図である。
Here, with reference to FIGS. 3 and 4, the difference between the sound source label set by the supervised loss
非特許文献1のような関連技術においては、全ての時間-周波数ビンyt,fは既知であるとして仮定される。上述したように、非特許文献1においては、複数の音源信号を重畳して人工的に混合信号を生成しているので、損失関数は上記式(12)のみで定義される。非特許文献1のような関連技術においては、個々の音源信号の時間-周波数ビン(t,f)の振幅は既知であるので、振幅が最大となる音源信号を求めることにより、全ての時間-周波数ビン(t,f)に対して音源ラベルを設定することが出来る。In related arts such as
図3は、非特許文献1において、時間-周波数ビンに設定された音源ラベルの一例を示している。図3は、2人の話者を音源とした音源信号が混合された混合信号をスペクトログラムに変換し、各時間-周波数ビンに対して音源ラベルが設定されていることを示している。図3に示すように、非特許文献1においては、複数の音源信号を重畳して人工的に混合信号を生成しているので、各時間-周波数ビン(t,f)に対して、話者Aまたは話者Bの音源ラベルが設定されている。
FIG. 3 shows an example of a sound source label set in the time-frequency bin in
一方、本実施の形態においては、全ての時間-周波数ビンのうち、一部の時間-周波数ビンの音源ラベルyt,fは未知であると仮定した上で、所定条件を満たす時間-周波数ビンに対して音源ラベルが設定される。本実施の形態では、上述した関連技術とは異なり、実際に観測された混合信号を変換したスペクトログラムに対して音声ラベルが付与される。図4は、図3と同様に2人の話者を音源とした混合信号に対して、音源ラベルを設定した一例である。図4に示すように、混合信号のうち、話者Aまたは話者Bの音源のみが含まれる時間区間に含まれる時間-周波数ビンに対して音源ラベルが設定される。換言すると、混合信号のうち、単一の音源のみが含まれる時間区間における時間-周波数ビンに対して音源ラベルが設定される。On the other hand, in the present embodiment, it is assumed that the sound source labels yt and f of some of the time-frequency bins among all the time-frequency bins are unknown, and the time-frequency bins satisfying a predetermined condition are satisfied. The sound source label is set for. In the present embodiment, unlike the related art described above, an audio label is given to the spectrogram obtained by converting the actually observed mixed signal. FIG. 4 is an example in which a sound source label is set for a mixed signal using two speakers as sound sources as in FIG. As shown in FIG. 4, a sound source label is set for a time-frequency bin included in a time interval in which only the sound source of speaker A or speaker B is included in the mixed signal. In other words, the sound source label is set for the time-frequency bin in the time interval in which only a single sound source is included in the mixed signal.
なお、音源ラベルは、上述したように、学習用ラベルデータ記憶部12に記憶されたラベルデータに基づいて、教師付き損失関数算出部104により設定される。例えば、混合信号に話者Aおよび話者Bの音源が含まれているとすると、ラベルデータには、話者Aの音源が含まれる時間区間の始端および終端が設定されている。同様に、話者Bの音源が含まれる時間区間の始端および終端が設定されている。教師付き損失関数算出部104は、ラベルデータを参照することにより、どの時間区間にどの話者の音源が含まれているかを判断することが出来るので、ラベルデータに基づいて、音源ラベルを設定することが出来る。
As described above, the sound source label is set by the supervised loss
図4は、時間領域において、前から8番目までの時間-周波数ビンに対しては話者Aの音源ラベルが設定されていることを示している。同様に、時間領域において、前から11番目~16番目の時間-周波数ビンに対しては話者Bの音源ラベルが設定されていることを示している。一方、複数の音源が混在する時間-周波数ビンに対しては、複数の音源が含まれており、いずれの音源であるかが分からないため、音源ラベルが未知であるとして、音源ラベルを設定しない。図4に示すように、時間領域において、前から9番目および10番目の時間-周波数ビンに対しては、話者Aおよび話者Bの音源が混在していることから音源ラベルを未知として音源ラベルを設定しない。その理由は、実際に観測された混合信号に対して、各音源信号の時間区間の始終端は比較的容易に設定することができるのに対して、各音源信号の全ての時間-周波数ビンに対して音源ラベルを付与することは、ほぼ不可能であるからである。したがって、本実施の形態において、教師付き損失関数算出部104は、全ての時間-周波数ビンのうち、単一の音源のみが存在する時間区間に含まれる時間-周波数ビンに音源ラベルを設定する。また、教師付き損失関数算出部104は、複数の音源が混在する時間区間に含まれる時間-周波数ビンには音源ラベルを設定しない。
FIG. 4 shows that the sound source label of speaker A is set for the time-frequency bins from the front to the eighth in the time domain. Similarly, in the time domain, it is shown that the sound source label of the speaker B is set for the 11th to 16th time-frequency bins from the front. On the other hand, for a time-frequency bin in which multiple sound sources coexist, multiple sound sources are included and it is not known which sound source it is, so the sound source label is not set because the sound source label is unknown. .. As shown in FIG. 4, in the time domain, since the sound sources of speaker A and speaker B are mixed for the 9th and 10th time-frequency bins from the front, the sound source label is unknown and the sound source is sound source. Do not set the label. The reason is that for the actually observed mixed signal, the start and end of the time interval of each sound source signal can be set relatively easily, whereas for all time-frequency bins of each sound source signal. On the other hand, it is almost impossible to give a sound source label. Therefore, in the present embodiment, the supervised loss
なお、混合信号において振幅が十分小さい時間-周波数ビンについては、音源ラベルとは異なる特殊なラベルを示す「音源なし」を付与してもよい。この特殊なラベルは、簡単な信号処理によって自動的に付与することができる。なお、本開示においては、特殊なラベルは音源ラベルには含まれないこととする。 For the time-frequency bin whose amplitude is sufficiently small in the mixed signal, "no sound source" may be added to indicate a special label different from the sound source label. This special label can be given automatically by simple signal processing. In this disclosure, the special label is not included in the sound source label.
上述したように、本実施の形態においては、音源ラベルを設定することが出来ない時間-周波数ビンが含まれることとなる。そのため、音源ラベルが設定されていない時間-周波数ビンから抽出された特徴ベクトルに対する損失関数を定義する必要がある。 As described above, in the present embodiment, the time-frequency bin in which the sound source label cannot be set is included. Therefore, it is necessary to define a loss function for the feature vector extracted from the time-frequency bin where the sound source label is not set.
そこで、本実施の形態においては、教師なし損失関数算出部105を備え、教師なし損失関数を以下の式(13)のように定義する。すなわち、本実施の形態では、図4における音源ラベルが設定されない音源ラベル未知の時間-周波数ビンに関する損失関数を定義する。以下に示す式(13)を用いることにより、音源ラベルが設定されない音源ラベルが未知の時間-周波数ビンが、どの音源に含まれるかを決定する。
μiは、以下の式(14)に従って計算される。
式(13)および式(14)、および離散的な帰属率による教師なし損失関数は、上述した内容から明らかなように、ユークリッド距離に基づき特徴ベクトルを一意なクラスタに分類するハードクラスタリングの一形態である。教師なし損失関数は、特に、音源クラスが既知および未知の特徴ベクトルを含んだ準教師付きハードクラスタリングである。換言すると、教師なし損失関数算出部105は、ハードクラスタリングに基づく損失関数を計算すると言える。
Equations (13) and (14), and the unsupervised loss function with discrete attribution, are a form of hard clustering that classifies feature vectors into unique clusters based on Euclidean distance, as is clear from the above. Is. The unsupervised loss function is, in particular, quasi-supervised hard clustering containing feature vectors of known and unknown sound source classes. In other words, it can be said that the unsupervised loss
なお、上述した教師なし損失関数は、一例であるので、これには限定されない。例えば、特徴ベクトルの近さをユークリッド距離(L2ノルム)で測るのではなく、マンハッタン距離(L1ノルム)、またはLpノルムや余弦類似度などの類似度尺度で測ることも可能である。特に、余弦類似度は、式(12)の教師付き損失関数との整合性が高く好適である。 The unsupervised loss function described above is an example and is not limited to this. For example, instead of measuring the closeness of the feature vector by the Euclidean distance (L2 norm), it is also possible to measure by the Manhattan distance (L1 norm) or a similarity scale such as Lp norm or cosine similarity. In particular, the cosine similarity is suitable because it is highly consistent with the supervised loss function of Eq. (12).
また、帰属率γt,f,iは連続的でもよく、例えば、ガウス混合分布を仮定したソフトクラスタリングに基づいてγt,f,iおよびμiを定義してもよい。一般にクラスタリングでは、あらゆる類似度尺度と損失関数とを定義できるので、本実施の形態の教師なし損失関数も同様に定義してもよい。さらに、音源ラベルが付与できない音源ラベルが未知の時間-周波数ビンに対して、音源ラベルが付与できる音源ラベルが既知である時間-周波数ビンに比べて十分に少ない場合、上記式(14)の右辺の分子および分母の第2項は無視することが出来る。すなわち、上記式(14)において、音源ラベルが付与されていない特徴ベクトルに関する項は無視することが可能である。Further, the attribution rates γ t, f, i may be continuous, and for example, γ t, f, i and μ i may be defined based on soft clustering assuming a Gaussian mixture distribution. In general, in clustering, any similarity measure and loss function can be defined, so the unsupervised loss function of the present embodiment may be defined as well. Further, when the sound source label to which the sound source label cannot be attached is sufficiently smaller than the time-frequency bin in which the sound source label to which the sound source label can be attached is known for the unknown time-frequency bin, the right side of the above equation (14). The second term of the molecule and denominator of is negligible. That is, in the above equation (14), the term relating to the feature vector to which the sound source label is not attached can be ignored.
図2に戻り、音源分離部14について説明する。音源分離部14は、特徴抽出器であるニューラルネットワークを用いて混合信号を個々の音源信号に分離する。音源分離部14は、特徴抽出部101と、特徴抽出パラメタ記憶部102と、クラスタリング部106と、分離部107と、を備える。クラスタリング部106および分離部107は、それぞれクラスタリング手段および分離手段として機能する。また、特徴抽出部101および特徴抽出パラメタ記憶部102は、特徴抽出器学習部13と共有する機能部である。
Returning to FIG. 2, the sound
特徴抽出部101は、特徴抽出器学習部13における構成と同様に、混合信号を取得して、混合信号をスペクトログラムXに変換し、部分スペクトログラムxt,fから特徴ベクトルvt,fを生成する。The
クラスタリング部106は、実施の形態の概要におけるクラスタリング部3に対応する。クラスタリング部106は、例えば、K平均法(K-means)、平均シフト法(Mean-shift)、最短/最長距離法、ウォード法等のうち、いずれかのアルゴリズムを適用して、特徴ベクトルvt,fを複数のクラスタに分類する。The
分離部107は、実施の形態の概要における分離部4に対応する。分離部107は、クラスタリング部106により分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する。具体的には、分離部107は、クラスタリング部106が分類したクラスタ毎に、各クラスタに含まれる時間-周波数ビン(t,f)のみから再構成されたスペクトログラムに逆フーリエ変換を実施し、個々の音源信号を生成する。
The
<音源分離装置の動作例>
続いて、図5~図7を用いて、音源分離装置10の動作例を説明する。図5~図7は、実施の形態1にかかる音源分離装置の動作例を示すフローチャートである。<Operation example of sound source separator>
Subsequently, an operation example of the sound
まず、図5を用いて、音源分離装置10の全体動作について説明する。図5に示すように、音源分離装置10は、特徴抽出器学習処理(ステップA1)および音源分離処理(ステップA2)を実行する。
First, the overall operation of the sound
具体的には、音源分離装置10は、特徴抽出器学習処理において、実際に観測された混合信号を用いて、特徴抽出器であるニューラルネットワークの特徴抽出パラメタを学習する(ステップA1)。
Specifically, the sound
次に、音源分離装置10は、音源分離処理において、ステップA1において決定された特徴抽出パラメタが適用された特徴抽出器を用いて、混合信号を個々の音源信号に分離する(ステップA2)。
Next, in the sound source separation process, the sound
続いて、図6を用いて、特徴抽出器学習処理について説明する。図6に示すフローチャートは、図5のステップA1において実行されるフローチャートであり、特徴抽出器学習部13が実行する。なお、以下に示す動作は、非特許文献1に開示された動作と明確に異なる。
Subsequently, the feature extractor learning process will be described with reference to FIG. The flowchart shown in FIG. 6 is a flowchart executed in step A1 of FIG. 5, and is executed by the feature
まず、特徴抽出部101は、学習用混合信号記憶部11に記憶された混合信号を順次取得して、短時間フーリエ変換を実行し、スペクトログラムに変換する(ステップB1)。
First, the
次に、特徴抽出部101は、特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを取得する。特徴抽出部101は、取得したパラメタが適用された特徴抽出器であるニューラルネットワークを用いて、変換されたスペクトログラムにおける各時間-周波数ビン(t,f)から特徴ベクトルvt,fを抽出する(ステップB2)。Next, the
なお、特徴抽出パラメタが未定の初期の段階では、図示しない初期化ステップにおいて、パラメタ更新部103が乱数を発生させる等の動作を行い、特徴抽出パラメタを初期化して、予め特徴抽出パラメタ記憶部102に出力しておく。
In the initial stage where the feature extraction parameters are undecided, the
次に、パラメタ更新部103は、特徴抽出部101が抽出した特徴ベクトルを特徴抽出部101から取得し、特徴ベクトルの良し悪しを測る尺度である損失関数を式(11)に基づいて計算する。具体的には、パラメタ更新部103は、損失関数を後述するステップB3およびステップB4において計算された算出結果を用いて、式(11)に示した損失関数を計算する。
Next, the
ステップB3において、教師付き損失関数算出部104は、式(12)に示した教師付き損失関数を計算する(ステップB3)。具体的には、教師付き損失関数算出部104は、特徴抽出部101が抽出した特徴ベクトルを、パラメタ更新部103を介して取得する。また、教師付き損失関数算出部104は、学習用ラベルデータ記憶部12に記憶された、各音源の時間区間を表すラベルデータを取得する。教師付き損失関数算出部104は、取得したラベルデータに基づいて、各音源の時間-周波数ビンのうち、単一の音源のみが存在する時間区間における時間-周波数ビンに音源ラベルを設定する。そして、教師付き損失関数算出部104は、音源ラベルが設定された時間-周波数ビンに関して、式(12)に基づいて教師付き損失関数を計算する。
In step B3, the supervised loss
ステップB4において、教師なし損失関数算出部105は、式(13)に示した教師なし損失関数を計算する(ステップB4)。具体的には、教師なし損失関数算出部105は、特徴抽出部101が抽出した特徴ベクトルを、パラメタ更新部103を介して取得する。また、教師なし損失関数算出部105は、教師付き損失関数算出部104が設定した音源ラベルを取得する。教師なし損失関数算出部105は、音源ラベルが設定されていない時間-周波数ビンに関して、式(13)および式(14)に基づいて教師なし損失関数を計算する。
In step B4, the unsupervised loss
パラメタ更新部103は、式(11)に示した損失関数の算出結果に基づいて、特徴抽出パラメタを更新する(ステップB5)。具体的には、パラメタ更新部103は、ステップB3において算出された教師付き損失関数の算出結果、およびステップB4において算出された教師なし損失関数の算出結果を用いて、式(11)で示す損失関数を計算する。パラメタ更新部103は、式(11)で示した損失関数の算出結果が減少するように、特徴抽出パラメタを決定する。そして、パラメタ更新部103は、決定した特徴抽出パラメタを特徴抽出パラメタ記憶部102に記憶し、特徴抽出パラメタを更新する。
The
次に、パラメタ更新部103は、例えば、式(11)で示した損失関数の算出結果の減少傾向がなくなるなど、予め定められた収束条件を満たしているかを判定する(ステップB6)。なお、パラメタ更新部103は、ステップB6において、ステップB2からステップB5の処理が、所定回数分実施されたかを判定してもよい。
Next, the
ステップB6において、パラメタ更新部103は、予め定められた収束条件を満たしていると判定すると(ステップB6のYES)、処理を終了する。
一方、パラメタ更新部103は、予め定められた収束条件を満たしていないと判定すると(ステップB6のNO)、ステップB2に戻り、ステップB2以降の処理を再度行う。In step B6, when the
On the other hand, when the
続いて、図7を用いて、音源分離処理について説明する。図7に示すフローチャートは、図5のステップA2において実行されるフローチャートであり、音源分離部14が実行する。
Subsequently, the sound source separation process will be described with reference to FIG. 7. The flowchart shown in FIG. 7 is a flowchart executed in step A2 of FIG. 5, and is executed by the sound
まず、特徴抽出部101は、個々の音源信号に分離する判定対象の混合信号に、短時間フーリエ変換を実施してスペクトログラムに変換する(ステップC1)。判定対象の混合信号は、音源分離装置10が図示しないマイクにより観測した混合信号であってもよいし、予め録音等され、記憶された混合信号であってもよい。
First, the
次に、特徴抽出部101は、特徴抽出パラメタ記憶部102に記憶された特徴抽出パラメタを取得する。特徴抽出部101は、取得した特徴抽出パラメタが適用された特徴抽出器であるニューラルネットワークを用いて、変換されたスペクトログラムにおける各時間-周波数ビン(t,f)から特徴ベクトルvt,fを抽出する(ステップC2)。Next, the
次に、クラスタリング部106は、特徴抽出部101が抽出した特徴ベクトルvt,fをクラスタリングする(ステップC3)。具体的には、クラスタリング部106は、特徴抽出部101が抽出した特徴ベクトルvt,fをクラスタリングすることにより、時間-周波数ビンを、混合信号に含まれると想定される音源数と同数のクラスタに分類する。Next, the
なお、クラスタリング部106は、例えば、K平均法(K-means)、平均シフト法(Mean-shift)、最短/最長距離法、ウォード法等のうち、いずれかのアルゴリズムを適用してクラスタリングを行ってもよい。また、クラスタリング部106は、特徴ベクトルvt,fを分類するクラスタ数を、例えば、「2人の話者の会話である」などの事前情報がある場合、当該事前情報に従って定めてもよい。もしくは、クラスタリング部106は、上記事前情報がない場合、上記のうちのいずれかのアルゴリズムが提供するクラスタ数の決定法を利用してもよい。The
次に、分離部107は、分類された複数のクラスタの各々に含まれる時間-周波数ビンから再構成されたスペクトログラムに逆フーリエ変換を実施し、分類されたクラスタ毎に単一の音源に分離された音源信号を生成し出力する(ステップC4)。
Next, the
以上説明したように、本実施の形態にかかる音源分離装置10は、実際に観測された混合信号と、それに付与された各音源の時間区間のラベルデータと、を用いて、特徴抽出器の特徴抽出パラメタを決定する。また、本実施の形態にかかる音源分離装置10は、特徴抽出パラメタを決定する際、教師付き損失関数および教師なし損失関数の2つの損失関数を含む損失関数を用いて、各損失関数の算出結果の和が最小化される特徴抽出パラメタに更新する。したがって、本実施の形態にかかる音源分離装置10を用いることにより、人工的に作られた混合信号ではなく、実際に観測される混合信号に対して最適な特徴抽出器を獲得して、混合信号を正確に個々の音源信号に分離できる。すなわち、本実施の形態にかかる音源分離装置10を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。
As described above, the sound
(実施の形態2)
続いて、実施の形態2について説明する。
<音源分離装置の構成例>
図8を用いて、実施の形態2にかかる音源分離装置80について説明する。図8は、実施の形態2にかかる音源分離装置の構成例を示す構成図である。図8に示す様に、本実施の形態にかかる音源分離装置80は、音源分離用プログラム81と、データ処理装置82と、記憶装置83とを備える。また、記憶装置83には、特徴抽出パラメタ記憶領域831と、学習用混合信号記憶領域832と、学習用ラベルデータ記憶領域833と、を備える。なお、本実施の形態は、実施の形態1における特徴抽出器学習部13および音源分離部14をプログラムにより動作されるコンピュータにより実現した場合の構成例である。(Embodiment 2)
Subsequently, the second embodiment will be described.
<Sound source separation device configuration example>
The sound
音源分離用プログラム81は、データ処理装置82に読み込まれ、データ処理装置82の動作を制御する。なお、音源分離用プログラム81には、実施の形態1における特徴抽出器学習部13および音源分離部14の動作がプログラム言語を用いて記述されている。
The sound
具体的には、データ処理装置82は、音源分離用プログラム81の制御により、実施の形態1における特徴抽出器学習部13および音源分離部14の処理と同一の処理を実行する。すなわち、データ処理装置82は、記憶装置83内の特徴抽出パラメタ記憶領域831、学習用混合信号記憶領域832および学習用ラベルデータ記憶領域833にそれぞれ記憶された特徴抽出パラメタ、学習用混合信号、学習用ラベルデータを取得する。そして、データ処理装置82は、実施の形態1における実施の形態1における特徴抽出器学習部13および音源分離部14の処理を行う。
Specifically, the
より具体的には、データ処理装置82は、実施の形態1における、特徴抽出部101、パラメタ更新部103、教師付き損失関数算出部104、教師なし損失関数算出部105、クラスタリング部106および分離部107が実施する各処理を行う。
More specifically, in the first embodiment, the
以上説明したように、実施の形態2にかかる音源分離装置80についても、実施の形態1における各機能部が実行する各処理を行うので、実施の形態1と同様の効果を得ることが可能となる。すなわち、本実施の形態にかかる音源分離装置80を用いることにより、人工的に作られた混合信号ではなく、実際に観測される混合信号に対して最適な特徴抽出器を獲得して、混合信号を正確に個々の音源信号に分離できる。したがって、本実施の形態にかかる音源分離装置80を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。
As described above, the sound
また、実施の形態2にかかる音源分離用プログラム81を用いることにより、実施の形態1と同様の効果を得ることが可能となる。すなわち、本実施の形態にかかる音源分離用プログラム81によれば、混合信号から個々の音源信号を精度良く分離することが可能となる。
Further, by using the sound
(その他の実施の形態)
上述した実施の形態にかかる音源分離装置は、次のようなハードウェア構成を有していてもよい。図9は、上述した実施の形態において説明した音源分離装置1、10および80(以下、音源分離装置1等と称する)の構成例を示すブロック図である。図9を参照すると、音源分離装置1等は、プロセッサ1201およびメモリ1202を含む。(Other embodiments)
The sound source separation device according to the above-described embodiment may have the following hardware configuration. FIG. 9 is a block diagram showing a configuration example of the sound
プロセッサ1201は、メモリ1202からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された音源分離装置1等の処理を行う。プロセッサ1201は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)またはCPU(Central Processing Unit)であってもよい。プロセッサ1201は、複数のプロセッサを含んでもよい。
The
メモリ1202は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1202は、プロセッサ1201から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1201は、図示されていないI/Oインタフェースを介してメモリ1202にアクセスしてもよい。
The
図9の例では、メモリ1202は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1201は、これらのソフトウェアモジュール群をメモリ1202から読み出して実行することで、上述の実施形態において説明された音源分離装置1等の処理を行うことができる。
In the example of FIG. 9,
図9を用いて説明したように、音源分離装置1等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1または複数のプログラムを実行する。
As described with reference to FIG. 9, each of the processors included in the
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。さらに、非一時的なコンピュータ可読媒体の例は、CD-ROM(Read Only Memory)、CD-R、CD-R/Wを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above example, the program can be stored and supplied to the computer using various types of non-transitory computer readable medium. Non-temporary computer-readable media include various types of tangible storage media. Examples of non-temporary computer-readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks). Further, examples of non-temporary computer-readable media include CD-ROM (Read Only Memory), CD-R, and CD-R / W. Further, examples of non-temporary computer readable media include semiconductor memory. The semiconductor memory includes, for example, a mask ROM, a PROM (Programmable ROM), an EPROM (Erasable PROM), a flash ROM, and a RAM (Random Access Memory). The program may also be supplied to the computer by various types of transient computer readable medium. Examples of temporary computer readable media include electrical, optical, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。 The present disclosure is not limited to the above embodiment, and can be appropriately modified without departing from the spirit. Further, the present disclosure may be carried out by appropriately combining the respective embodiments.
1、10、80 音源分離装置
2、101 特徴抽出部
3、106 クラスタリング部
4、107 分離部
5、103 パラメタ更新部
11 学習用混合信号記憶部
12 学習用ラベルデータ記憶部
13 特徴抽出器学習部
14 音源分離部
102 特徴抽出パラメタ記憶部
104 教師付き損失関数算出部
105 教師なし損失関数算出部
81 音源分離用プログラム
82 データ処理装置
83 記憶装置1, 10, 80
Claims (9)
抽出された前記特徴ベクトルを複数のクラスタに分類するクラスタリング手段と、
分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段と、
観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新するパラメタ更新手段と、を備え、
前記学習用混合信号を変換したスペクトログラムにおいて、所定条件を満たす時間周波数ビンに音源ラベルを設定すると共に、前記音源ラベルが設定された時間周波数ビンから抽出された特徴ベクトルに対する第1の評価値を、第1の評価関数を用いて算出する第1の算出手段と、
前記音源ラベルが設定されていない時間周波数ビンから抽出された特徴ベクトルに対する第2の評価値を、第2の評価関数を用いて算出する第2の算出手段と、をさらに備え、
前記パラメタ更新手段は、前記第1の評価値および前記第2の評価値に基づいて、前記パラメタを更新する、音源分離装置。 A feature extraction means for extracting a feature vector using a feature extractor to which the parameters used for feature extraction are applied for each time-frequency bin in a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed.
A clustering means for classifying the extracted feature vector into a plurality of clusters,
A separation means for generating a sound source signal for each classified cluster using a time frequency bin included in each of the plurality of classified clusters.
A parameter updating means for updating the parameter based on the learning mixed signal including the observed mixed signal is provided .
In the spectrogram obtained by converting the mixed signal for learning, the sound source label is set in the time frequency bin satisfying a predetermined condition, and the first evaluation value for the feature vector extracted from the time frequency bin in which the sound source label is set is set. The first calculation means calculated using the first evaluation function and
Further, a second calculation means for calculating a second evaluation value for a feature vector extracted from a time frequency bin in which the sound source label is not set by using a second evaluation function is provided.
The parameter updating means is a sound source separation device that updates the parameters based on the first evaluation value and the second evaluation value .
抽出された前記特徴ベクトルを複数のクラスタに分類することと、
分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、
観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、
前記学習用混合信号を変換したスペクトログラムにおいて、所定条件を満たす時間周波数ビンに音源ラベルを設定すると共に、前記音源ラベルが設定された時間周波数ビンから抽出された特徴ベクトルに対する第1の評価値を、第1の評価関数を用いて算出することと、
前記音源ラベルが設定されていない時間周波数ビンから抽出された特徴ベクトルに対する第2の評価値を、第2の評価関数を用いて算出することと、
前記第1の評価値および前記第2の評価値に基づいて、前記パラメタを更新すること、を含む音源分離方法。 In a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed, a feature vector is extracted for each time-frequency bin using a feature extractor to which the parameters used for feature extraction are applied.
By classifying the extracted feature vectors into multiple clusters,
Using the time frequency bin included in each of the plurality of classified clusters, the sound source signal is generated for each classified cluster, and
Updating the above parameters based on the learning mixed signal including the observed mixed signal
In the spectrogram obtained by converting the mixed signal for learning, the sound source label is set in the time frequency bin satisfying a predetermined condition, and the first evaluation value for the feature vector extracted from the time frequency bin in which the sound source label is set is set. To calculate using the first evaluation function and
Using the second evaluation function, the second evaluation value for the feature vector extracted from the time frequency bin in which the sound source label is not set is calculated.
A sound source separation method comprising updating the parameters based on the first evaluation value and the second evaluation value .
抽出された前記特徴ベクトルを複数のクラスタに分類することと、
分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、
観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、
前記学習用混合信号を変換したスペクトログラムにおいて、所定条件を満たす時間周波数ビンに音源ラベルを設定すると共に、前記音源ラベルが設定された時間周波数ビンから抽出された特徴ベクトルに対する第1の評価値を、第1の評価関数を用いて算出することと、
前記音源ラベルが設定されていない時間周波数ビンから抽出された特徴ベクトルに対する第2の評価値を、第2の評価関数を用いて算出することと、
前記第1の評価値および前記第2の評価値に基づいて、前記パラメタを更新することと、をコンピュータに実行させるプログラム。 In a spectrogram obtained by converting a mixed signal in which a plurality of sound source signals are mixed, a feature vector is extracted for each time-frequency bin using a feature extractor to which the parameters used for feature extraction are applied.
By classifying the extracted feature vectors into multiple clusters,
Using the time frequency bin included in each of the plurality of classified clusters, the sound source signal is generated for each classified cluster, and
Updating the above parameters based on the learning mixed signal including the observed mixed signal
In the spectrogram obtained by converting the mixed signal for learning, the sound source label is set in the time frequency bin satisfying a predetermined condition, and the first evaluation value for the feature vector extracted from the time frequency bin in which the sound source label is set is set. To calculate using the first evaluation function and
Using the second evaluation function, the second evaluation value for the feature vector extracted from the time frequency bin in which the sound source label is not set is calculated.
A program that causes a computer to update the parameters based on the first evaluation value and the second evaluation value .
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/008503 WO2019171457A1 (en) | 2018-03-06 | 2018-03-06 | Sound source separation device, sound source separation method, and non-transitory computer-readable medium storing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019171457A1 JPWO2019171457A1 (en) | 2021-01-07 |
JP6992873B2 true JP6992873B2 (en) | 2022-01-13 |
Family
ID=67847036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020504518A Active JP6992873B2 (en) | 2018-03-06 | 2018-03-06 | Sound source separation device, sound source separation method and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6992873B2 (en) |
WO (1) | WO2019171457A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021156945A1 (en) * | 2020-02-04 | 2021-08-12 | 三菱電機株式会社 | Sound separation device and sound separation method |
KR102227624B1 (en) * | 2020-03-09 | 2021-03-15 | 주식회사 퍼즐에이아이 | Voice Authentication Apparatus Using Watermark Embedding And Method Thereof |
WO2021246304A1 (en) * | 2020-06-01 | 2021-12-09 | ソニーグループ株式会社 | Signal processing device, signal processing method, and program |
CN113257271B (en) * | 2021-05-17 | 2023-01-10 | 浙江大学 | Method and device for acquiring sounding motion characteristic waveform of multi-sounder and electronic equipment |
WO2023127058A1 (en) * | 2021-12-27 | 2023-07-06 | 日本電信電話株式会社 | Signal filtering device, signal filtering method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6430528B1 (en) | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
JP2004126198A (en) | 2002-10-02 | 2004-04-22 | Institute Of Physical & Chemical Research | Method, system and program for signal extraction |
JP2006337851A (en) | 2005-06-03 | 2006-12-14 | Sony Corp | Speech signal separating device and method |
JP2018502319A (en) | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | Method for distinguishing one or more components of a signal |
-
2018
- 2018-03-06 JP JP2020504518A patent/JP6992873B2/en active Active
- 2018-03-06 WO PCT/JP2018/008503 patent/WO2019171457A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6430528B1 (en) | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
JP2004126198A (en) | 2002-10-02 | 2004-04-22 | Institute Of Physical & Chemical Research | Method, system and program for signal extraction |
JP2006337851A (en) | 2005-06-03 | 2006-12-14 | Sony Corp | Speech signal separating device and method |
JP2018502319A (en) | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | Method for distinguishing one or more components of a signal |
Also Published As
Publication number | Publication date |
---|---|
WO2019171457A1 (en) | 2019-09-12 |
JPWO2019171457A1 (en) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6992873B2 (en) | Sound source separation device, sound source separation method and program | |
US10699698B2 (en) | Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
Ittichaichareon et al. | Speech recognition using MFCC | |
JP3037864B2 (en) | Audio coding apparatus and method | |
JP4825800B2 (en) | Music classification method | |
US9558762B1 (en) | System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner | |
EP1300831A1 (en) | Method for detecting emotions involving subspace specialists | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
US10390130B2 (en) | Sound processing apparatus and sound processing method | |
JP7176627B2 (en) | Signal extraction system, signal extraction learning method and signal extraction learning program | |
US20220101859A1 (en) | Speaker recognition based on signal segments weighted by quality | |
CN112750442B (en) | Crested mill population ecological system monitoring system with wavelet transformation and method thereof | |
Abouzid et al. | Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning | |
Egas López et al. | Assessing Parkinson’s disease from speech using fisher vectors | |
CN108369803B (en) | Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model | |
Hsu et al. | Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition | |
Kumar et al. | Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review | |
JP2017520016A (en) | Excitation signal generation method of glottal pulse model based on parametric speech synthesis system | |
JP6220733B2 (en) | Voice classification device, voice classification method, and program | |
Pimpale et al. | A survey on: Sound source separation methods | |
Roy et al. | A hybrid VQ-GMM approach for identifying Indian languages | |
JP2022127898A (en) | Voice quality conversion device, voice quality conversion method, and program | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program | |
Drgas et al. | Speaker verification using adaptive dictionaries in non-negative spectrogram deconvolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200722 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6992873 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |