JP2016156938A - Singing voice signal separation method and system - Google Patents

Singing voice signal separation method and system Download PDF

Info

Publication number
JP2016156938A
JP2016156938A JP2015034339A JP2015034339A JP2016156938A JP 2016156938 A JP2016156938 A JP 2016156938A JP 2015034339 A JP2015034339 A JP 2015034339A JP 2015034339 A JP2015034339 A JP 2015034339A JP 2016156938 A JP2016156938 A JP 2016156938A
Authority
JP
Japan
Prior art keywords
singing voice
time frequency
frequency mask
mask
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015034339A
Other languages
Japanese (ja)
Inventor
由楽 池宮
Yukara Ikemiya
由楽 池宮
和佳 吉井
Kazuyoshi Yoshii
和佳 吉井
克寿 糸山
Katsutoshi Itoyama
克寿 糸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Original Assignee
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University filed Critical Kyoto University
Priority to JP2015034339A priority Critical patent/JP2016156938A/en
Publication of JP2016156938A publication Critical patent/JP2016156938A/en
Pending legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a singing voice signal separation method and system capable of improving accuracy in separating a singing voice signal from a musical acoustic signal including the singing voice signal and an accompaniment sound signal as compared with the prior arts.SOLUTION: Even for a spectrum bin judged as a spectrum bin including a singing voice if judged from a harmonic structure or even for a spectrum bin judged not as a spectrum bin including a singing voice if judged from an appearance possibility and a spectrum bin judged as a spectrum bin including a singing voice if judged from the appearance possibility, a time frequency mask is prepared that includes a function for masking the spectrum bin that is judged not as a spectrum bin including a singing voice if judged from the harmonic structure, from music spectrogram. Next, the time frequency mask is applied to the music spectrogram, thereby generating singing voice spectrogram for separation. Based on the singing voice spectrogram for separation, the singing voice signal is separated.SELECTED DRAWING: Figure 1

Description

本発明は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する歌声信号分離方法及びシステムに関するものである。   The present invention relates to a singing voice signal separation method and system for separating a singing voice signal from a music acoustic signal including a singing voice signal and an accompaniment sound signal.

非特許文献1[Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013)]には、歌声と伴奏を分離する従来の技術の一例が開示されている。   Non-Patent Document 1 [Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013)] discloses an example of a conventional technique for separating singing voice and accompaniment.

例えば、非特許文献2[Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014)]は、歌声のF0軌跡を不連続な楽譜成分と微細な変動成分の重ね合わせとして表現する確率モデルを用いて、任意の楽譜から歌声のF0軌跡を生成する手法を提案している。同様のモデルは、非特許文献3[混合ガウス過程に基づく歌声音量軌跡の生成過程モデル,情処研報 (2013)]において、歌声の音量軌跡に対しても適用されている。   For example, Non-Patent Document 2 [Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014)] expresses the F0 trajectory of a singing voice as a superposition of discontinuous score components and fine fluctuation components. We have proposed a method for generating an F0 trajectory of a singing voice from an arbitrary score using a probability model. A similar model is also applied to the volume trajectory of singing voices in Non-Patent Document 3 [Generation process model of singing voice volume trajectory based on mixed Gaussian process, Information Processing Research Report (2013)].

Rafii, Z., Germain, F. G., Sun, D. L., and Mysore, G. J.: Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013)Rafii, Z., Germain, F. G., Sun, D. L., and Mysore, G. J .: Combining Modeling of Singing Voice and Background Music for Automatic Separation of Musical Mixtures, ISMIR (2013) Ohishi, Y., Mochihashi, D., Kameoka, H., and Kashino,K.: Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014)Ohishi, Y., Mochihashi, D., Kameoka, H., and Kashino, K .: Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations, ICASSP (2014) 大石康智,持橋大地,亀岡弘和,柏野邦夫:混合ガウス過程に基づく歌声音量軌跡の生成過程モデル,情処研報 (2013)Yasutoshi Oishi, Daichi Mochihashi, Hirokazu Kameoka, Kunio Kanno: Model of generation process of singing voice volume trajectory based on mixed Gaussian process, Information Processing Research Report (2013)

混合音中の歌声に対する編集システムを実現するには、高精度な歌声・伴奏音分離と歌声のF0推定が必要である。しかしながら従来の技術では、両タスクの相互依存性を考慮して、精度を一挙に改善することができるものはなかった。   In order to realize an editing system for a singing voice in a mixed sound, high-precision singing voice / accompaniment sound separation and F0 estimation of the singing voice are necessary. However, none of the conventional techniques can improve the accuracy at once in consideration of the interdependency of both tasks.

本発明の目的は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する精度を従来よりも改善することができる歌声信号分離方法及びシステムを提供することにある。   The objective of this invention is providing the singing voice signal separation method and system which can improve the precision which isolate | separates a singing voice signal from the music acoustic signal containing a singing voice signal and an accompaniment sound signal conventionally.

本発明の他の目的は、高精度な歌声・伴奏音分離と歌声のF0推定の相互依存性を考慮して、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する精度を一挙に改善することができる歌声信号分離方法及びシステムを提供することにある。   Another object of the present invention is to improve the accuracy of separating the singing voice signal from the music acoustic signal including the singing voice signal and the accompaniment sound signal in consideration of the interdependence of the singing voice / accompaniment sound separation and the F0 estimation of the singing voice. To provide a singing voice signal separation method and system that can be improved at once.

本発明は、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を分離する歌声信号分離方法及びシステムを改良の対象とする。本発明の方法では、まず音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する(変換ステップ)。また調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備する(マスク準備ステップ)。   The present invention aims to improve a singing voice signal separation method and system for separating a singing voice signal from a music acoustic signal including a singing voice signal and an accompaniment sound signal. In the method of the present invention, a music acoustic signal is first converted into a music spectrogram by performing time-frequency analysis (conversion step). Further, even if the spectrum bin is determined to be a spectrum bin including a singing voice as determined from the harmonic structure, the spectrum bin is determined not to include a singing voice as determined from the appearance possibility, and from the appearance possibility. Even if it is a spectrum bin that is judged to be a spectrum bin that includes a singing voice when judged, a time frequency that has a function of masking a spectrum bin that is judged not to contain a singing voice from the harmonic structure from a music spectrogram A mask is prepared (mask preparation step).

次にこの時間周波数マスクを音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する(マスキングステップ)。そして分離用歌声スペクトログラムに基づいて歌声信号を分離生成する(分離生成ステップ)。上記のような時間周波数マスクを用いると、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を従来よりも精度よく分離することができる。   Next, this time frequency mask is applied to the music spectrogram to generate a separating singing voice spectrogram (masking step). Then, the singing voice signal is separated and generated based on the singing voice spectrogram for separation (separation generation step). When the time frequency mask as described above is used, the singing voice signal can be separated from the music acoustic signal including the singing voice signal and the accompaniment sound signal with higher accuracy than in the past.

マスク準備ステップでは、具体的には、次のようにして時間周波数マスクを準備する。まず音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解する。次に低ランク行列とスパース行列の比較に基づいて、音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する。次に第1のタイプの時間周波数マスクを音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する。そして分離された歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定する。次に歌声基本周波数F0軌跡に基づいて、歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する。ここで「歌声基本周波数F0と倍音周辺」とは、歌声基本周波数F0のピークとその倍音のピークを中心として、予め定めた周波数幅に入る周波数である。この周波数幅は、歌声基本周波数F0とその倍音のスペクトルの形状から自動的に定めることもできる。   In the mask preparation step, specifically, a time-frequency mask is prepared as follows. First, the music spectrogram is decomposed into a low rank matrix and a sparse matrix using robust principal component analysis. Next, based on the comparison of the low rank matrix and the sparse matrix, the music spectrogram has a low rank that includes a sparse matrix that includes a spectral bin where a singing voice is likely to appear and a spectral bin that is unlikely to have a singing voice A first type time-frequency mask having a function of separating into a matrix is generated. A first type of time frequency mask is then applied to the music spectrogram to isolate a singing spectrogram that includes spectral bins where a singing voice is likely to appear. Then, the singing voice fundamental frequency F0 is estimated for the separated singing voice spectrogram to estimate the singing voice fundamental frequency F0 locus. Next, based on the singing voice fundamental frequency F0 trajectory, a second type time frequency mask having a function of masking spectrum bins other than the singing voice fundamental frequency F0 and the overtone vicinity is generated. Here, “the singing voice fundamental frequency F0 and the harmonic overtone” is a frequency that falls within a predetermined frequency width around the peak of the singing voice fundamental frequency F0 and the peak of the harmonic overtone. This frequency width can also be determined automatically from the shape of the spectrum of the singing voice fundamental frequency F0 and its harmonics.

最後に、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとを統合して、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを時間周波数マスクとして準備する。この具体的方法では、基本的にはロバスト主成分分析(Robust Principal Component Analysis; RPCA)を用いてスペクトログラム上で歌声・伴奏音分離を行う。歌声のF0情報を用いれば、不要な伴奏音を抑制することができる。一方、混合音に対して歌声のF0推定を行うよりも、分離した歌声に対してF0推定を行う方がずっと容易である。   Finally, the first type time frequency mask and the second type time frequency mask are integrated, and the second type time frequency mask is a spectrum bin that is determined to be a spectrum bin containing a singing voice. However, it is a spectrum bin that is determined not to include a singing voice spectrum in the first type time frequency mask and a spectrum bin that is determined to be a spectral bin including singing voice in the first type time frequency mask. However, a third type time frequency mask having a function of masking a spectrum bin that is determined not to be a spectrum bin including a singing voice is prepared as a time frequency mask. In this specific method, basically, singing voice and accompaniment sound separation is performed on a spectrogram by using Robust Principal Component Analysis (RPCA). If F0 information of singing voice is used, an unnecessary accompaniment sound can be suppressed. On the other hand, it is much easier to perform F0 estimation on a separated singing voice than to perform F0 estimation on a mixed sound.

第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとの統合とは、両マスクの機能を優れた機能を併用可能にすることを意味し、例えば、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとの統合とは、第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの第2の時間周波数マスクの選択領域との論理積をとることにより両マスクを統合することができる。   The integration of the first type time frequency mask and the second type time frequency mask means that the functions of both masks can be used together with superior functions. For example, the first type time frequency mask is used. The integration of the mask and the second type time frequency mask is the logical product of the selection area of the first type time frequency mask and the selection area of the second type second time frequency mask. Thus, both masks can be integrated.

また統合の他の例では、第1のタイプの時間周波数マスクの選択領域と第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより第3のタイプの時間周波数マスクとすることができる。この時間周波数マスクでは、歌が無い区間を推定して、推定された時間フレームの全要素を0にするため、さらに分離精度を高めることができる。   In another example of integration, a temporal integration of a selection region of the first type time frequency mask and a selection region of the second type time frequency mask is performed to generate a temporary integration time frequency mask, and provisional integration is performed. A third type time frequency mask can be obtained by estimating a section without a song from the time frequency mask and setting all elements of the estimated time frame to zero. In this time-frequency mask, since a section without a song is estimated and all elements of the estimated time frame are set to 0, the separation accuracy can be further improved.

さらに統合の他の例では、第1のタイプの時間周波数マスクの選択領域と第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ第1のタイプの時間周波数マスクから子音を通過させる要素を得て該要素を仮統合時間周波数マスクに反映する。このようにするとさらに分離精度を高めることができる。   In another example of integration, a temporal integration of the selection area of the first type time frequency mask and the selection area of the second type time frequency mask is performed to generate a provisional integration time frequency mask, and provisional integration is performed. An interval without a song is estimated from the time-frequency mask, all elements of the estimated time frame are set to 0, and an element that allows consonants to pass is obtained from the first-type time-frequency mask, and the element is temporarily integrated. Reflected in the frequency mask. In this way, the separation accuracy can be further increased.

なお第1のタイプの時間周波数マスク、第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクであるのが好ましい。バイナリマスクを用いると、1と0の組み合わせによりマスクが構成されるため、歌声と伴奏がくっきり分かれ、伴奏音側に歌声が残る可能性はほとんどなくなる。   The first type time frequency mask, the second type time frequency mask, and the third type time frequency mask are each preferably a binary mask. When a binary mask is used, since the mask is composed of a combination of 1 and 0, the singing voice and accompaniment are clearly separated, and there is almost no possibility that the singing voice remains on the accompaniment sound side.

分離生成ステップでは、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することができる。そして各ステップは、1以上のプロセッサで実施することができる。   In the separation generating step, the singing voice signal can be separated and generated by inversely transforming the separating singing voice spectrogram into the time domain. Each step can then be performed by one or more processors.

本発明の方法を実施する本発明の歌声信号分離システムは、時間周波数解析部と、マスキング部と、信号分離生成部とから構成される。   The singing voice signal separation system of the present invention that implements the method of the present invention includes a time frequency analysis unit, a masking unit, and a signal separation generation unit.

時間周波数解析部は、音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する。マスキング部は、調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いて、時間周波数マスクを音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する。そして信号分離生成部は、分離用歌声スペクトログラムに基づいて歌声信号を分離生成する。   The time frequency analysis unit performs time frequency analysis on the music acoustic signal and converts it into a music spectrogram. Even if a spectrum bin is judged to be a spectrum bin that includes a singing voice as judged from the harmonic structure, the masking unit may appear as a spectrum bin that is judged as not a spectrum bin that contains a singing voice based on the possibility of appearance. Even if it is a spectrum bin that is judged to be a spectrum bin that contains a singing voice as judged from gender, it has a function of masking a spectrum bin that is judged not to contain a singing voice from a harmonic structure from the music spectrogram. Using the temporal frequency mask, the temporal frequency mask is applied to the music spectrogram to generate a separating singing voice spectrogram. The signal separation / generation unit separates and generates a singing voice signal based on the singing voice spectrogram for separation.

時間周波数マスクはマスク生成システムによって生成される。マスク生成システムは、第1のタイプの時間周波数マスク生成部と、第1のタイプの時間周波数マスク記憶部と、歌声スペクトログラム分離部と、F0軌跡推定部と、第2のタイプの時間周波数マスク生成部と、第2のタイプの時間周波数マスク記憶部と、マスク統合部とから構成される。   The time frequency mask is generated by a mask generation system. The mask generation system includes a first type time frequency mask generation unit, a first type time frequency mask storage unit, a singing spectrogram separation unit, an F0 trajectory estimation unit, and a second type time frequency mask generation. , A second type time frequency mask storage unit, and a mask integration unit.

第1のタイプの時間周波数マスク生成部は、音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、低ランク行列とスパース行列の比較に基づいて、音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する。第1のタイプの時間周波数マスク記憶部は、第1のタイプの時間周波数マスクを記憶する。歌声スペクトログラム分離部は、第1のタイプの時間周波数マスクを音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する。F0軌跡推定部は、分離された歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定する。第2のタイプの時間周波数マスク生成部は、歌声基本周波数F0軌跡に基づいて、歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する。第2のタイプの時間周波数マスク記憶部は、第2のタイプの時間周波数マスクを記憶する。マスク統合部は、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとに基づき、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを時間周波数マスクとして統合する。   The first type temporal frequency mask generator divides the music spectrogram into a low rank matrix and a sparse matrix using robust principal component analysis, and sings the music spectrogram based on the comparison of the low rank matrix and the sparse matrix. A first type time-frequency mask having a function of separating a sparse matrix including spectral bins that are likely to appear and a low-rank matrix including spectral bins that are less likely to have a singing voice To do. The first type time frequency mask storage unit stores a first type time frequency mask. The singing voice spectrogram separating unit applies the first type time frequency mask to the music spectrogram to separate the singing voice spectrogram including the spectral bins where the singing voice is likely to appear. The F0 trajectory estimation unit estimates the singing voice fundamental frequency F0 with respect to the separated singing voice spectrogram to estimate the singing voice fundamental frequency F0 trajectory. The second type time frequency mask generation unit generates a second type time frequency mask having a function of masking spectrum bins other than the singing voice fundamental frequency F0 and overtones based on the singing voice fundamental frequency F0 locus. The second type time frequency mask storage unit stores a second type time frequency mask. The mask integration unit is a spectrum bin that is determined to be a spectrum bin including a singing voice in the second type time frequency mask based on the first type time frequency mask and the second type time frequency mask. However, it is a spectrum bin that is determined not to include a singing voice spectrum in the first type time frequency mask and a spectrum bin that is determined to be a spectral bin including singing voice in the first type time frequency mask. However, the third type time frequency mask having the function of masking the spectrum bin that is determined not to be a spectrum bin containing a singing voice is integrated as the time frequency mask.

信号分離生成部は、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成する。なお上記構成要件は、1以上のプロセッサとメモリによって実現するのが好ましい。   The signal separation generation unit separates and generates a singing voice signal by inversely transforming the separating singing voice spectrogram into the time domain. Note that the above-described configuration requirements are preferably realized by one or more processors and memories.

本発明の歌声信号分離方法を実施する歌声信号分離システムの一例の構成を示すブロック図である。It is a block diagram which shows the structure of an example of the singing voice signal separation system which implements the singing voice signal separation method of this invention. 図1の実施の形態の歌声信号分離システムをコンピュータ(1以上のプロセッサと1以上のメモリを含む)で実施する際に使用されるソフトウエアのアルゴリズムを示すフローチャートである。It is a flowchart which shows the algorithm of the software used when implementing the singing voice signal separation system of embodiment of FIG. 1 with a computer (1 or more processors and 1 or more memories are included). 入力音楽音曲信号を時間周波数解析して得る音楽スペクトログラムの一例を示す図である。It is a figure which shows an example of the music spectrogram obtained by carrying out time frequency analysis of the input music sound signal. 音楽スペクトログラムからロバスト主成分分析によりスパース行列と低ランク行列とに分析した結果の一例と、両行列の各要素の値を比較して得た第1のタイプの時間周波数分析マスクとしてバイナリマスクの例を示す図である。An example of a result obtained by analyzing a music spectrogram into a sparse matrix and a low rank matrix by robust principal component analysis, and an example of a binary mask as a first type time frequency analysis mask obtained by comparing values of each element of both matrices FIG. 図4の表示内容の理解を高めるために、音楽スペクトログラムの一部を拡大し、またスパース行列と低ランク行列の一部を拡大し、さらに第1のタイプの時間周波数分析マスクとしてバイナリマスクの一部を拡大した図を示している。In order to enhance the understanding of the display contents of FIG. 4, a part of the music spectrogram is enlarged, a part of the sparse matrix and the low rank matrix is enlarged, and a binary mask is used as a first type of time frequency analysis mask. The figure which expanded the part is shown. F0軌跡推定部によって推定された歌声基本周波数F0軌跡から前記第2のタイプの時間周波数マスク(バイナリマスク)を生成する過程の一例を示す図である。It is a figure which shows an example of the process which produces | generates the said 2nd type time frequency mask (binary mask) from the singing voice fundamental frequency F0 locus | trajectory estimated by the F0 locus | trajectory estimation part. 第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)を統合する場合の一例を画像で示す図である。The figure which shows an example in the case of integrating a 1st type time frequency mask (binary mask by robust principal component analysis) and a 2nd type time frequency mask (binary mask of the harmonic structure by singing voice fundamental frequency F0). It is. 図7の画像の理解を高めるために、図7に示した複数の画像の一部をそれぞれ拡大して示す図である。FIG. 8 is an enlarged view showing a part of the plurality of images shown in FIG. 7 in order to enhance understanding of the image of FIG. 7. マスキング部における処理を画像で示すための図である。It is a figure for showing processing in a masking part with an image. 図9の画像の理解を高めるために、図9に示した複数の画像の一部をそれぞれ拡大して示す図である。FIG. 10 is an enlarged view showing a part of the plurality of images shown in FIG. 9 in order to enhance understanding of the image of FIG. 9. (A)乃至(D)は、マスキング部によるマスキング処理の状況を示す波形図である。(A) thru | or (D) is a wave form diagram which shows the condition of the masking process by a masking part. 歌声信号の再合成を説明するために用いる図である。It is a figure used in order to explain resynthesis of a singing voice signal. マスクの統合の他の例を示す概念図である。It is a conceptual diagram which shows the other example of integration of a mask. マスクの統合のさらに他の例を示す概念図である。It is a conceptual diagram which shows the further another example of integration of a mask.

以下図面を参照して、本発明の歌声信号分離方法及びシステムの実施の形態の一例を詳細に説明する。図1は、本発明の歌声信号分離方法を実施する歌声信号分離システムの一例の構成を示すブロック図である。図2は、図1の実施の形態の歌声信号分離システムをコンピュータ(1以上のプロセッサと1以上のメモリを含む)で実施する際に使用されるソフトウエアのアルゴリズムを示すフローチャートである。   Hereinafter, an example of an embodiment of a singing voice signal separation method and system according to the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing the configuration of an example of a singing voice signal separation system for implementing the singing voice signal separation method of the present invention. FIG. 2 is a flowchart showing an algorithm of software used when the singing voice signal separation system of the embodiment of FIG. 1 is implemented by a computer (including one or more processors and one or more memories).

本発明の方法を実施する本発明の歌声信号分離システムは、時間周波数解析部2と、音楽スペクトログラム記憶部3と、第3のタイプの時間周波数マスク記憶部4と、マスキング部5と、信号分離生成部6とから構成される。図1には、第3のタイプの時間周波数マスク記憶部4に記憶する時間周波数マスクを生成するためのマスク生成システム7も併せて記載してある。説明の都合上、本実施の形態の説明の途中でマスク生成システム7についても説明する。   The singing voice signal separation system of the present invention for implementing the method of the present invention includes a time frequency analysis unit 2, a music spectrogram storage unit 3, a third type time frequency mask storage unit 4, a masking unit 5, and a signal separation. And a generation unit 6. FIG. 1 also shows a mask generation system 7 for generating a time frequency mask to be stored in the third type time frequency mask storage unit 4. For the convenience of explanation, the mask generation system 7 will also be explained during the explanation of the present embodiment.

時間周波数解析部2は、歌声信号と伴奏音信号とを含む音楽音響信号1を、時間周波数解析を行って音楽スペクトログラム(行列)に変換する(ステップST1)。まず、短時間フーリエ変換(Short-Term Fourier Transform; STFT)あるいは定Q変換を用いて入力音楽音響信号の時間周波数解析を行う。定Q変換については、「Schorkhuber, C. and Klapuri, A.: Constant-Q Transform Toolbox for Music Processing, SMC Conference (2010)」に詳しく記載されている。   The time frequency analysis unit 2 performs time frequency analysis on the music acoustic signal 1 including the singing voice signal and the accompaniment sound signal and converts it into a music spectrogram (matrix) (step ST1). First, a time-frequency analysis of an input music acoustic signal is performed using a short-time Fourier transform (STFT) or a constant Q transform. The constant Q transform is described in detail in “Schorkhuber, C. and Klapuri, A .: Constant-Q Transform Toolbox for Music Processing, SMC Conference (2010)”.

実用上、全時間サンプルnにおける対数スペクトルビンを求めるのではなく、例えば10[msec]などの時間幅で切り出す。以後分かりやすさのため、時間インデクス、周波数インデクスをそれぞれt,fとし、音楽スペクトログラムをX(t,f)と記述する。図3には、入力音楽音曲信号を時間周波数解析して得る音楽スペクトログラムの一例を示している。   In practice, logarithmic spectral bins are not obtained for all time samples n, but are cut out with a time width of 10 [msec], for example. In the following, for ease of understanding, the time index and the frequency index are described as t and f, respectively, and the music spectrogram is described as X (t, f). FIG. 3 shows an example of a music spectrogram obtained by time-frequency analysis of an input music sound signal.

第3のタイプの時間周波数マスク記憶部4には、マスク生成システム7で作成した時間周波数マスク(統合マスク)として第3のタイプの時間周波数マスクが記憶される。マスク生成システム7は、第1のタイプの時間周波数マスク生成部71と、第1のタイプの時間周波数マスク記憶部72と、歌声スペクトログラム分離部73と、F0軌跡推定部74と、第2のタイプの時間周波数マスク生成部75と、第2のタイプの時間周波数マスク記憶部76と、マスク統合部77とから構成される。第1のタイプの時間周波数マスク生成部71は、音楽スペクトログラム記憶部3に記憶した音楽スペクトログラム中の音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し(ステップST2)、低ランク行列とスパース行列の比較に基づいて、音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する(ステップST3)。そして第1のタイプの時間周波数マスクは、第1のタイプの時間周波数マスク記憶部72記憶される。   The third type time frequency mask storage unit 4 stores a third type time frequency mask as a time frequency mask (integrated mask) created by the mask generation system 7. The mask generation system 7 includes a first type time frequency mask generation unit 71, a first type time frequency mask storage unit 72, a singing spectrogram separation unit 73, an F0 trajectory estimation unit 74, and a second type. The time frequency mask generation unit 75, the second type time frequency mask storage unit 76, and the mask integration unit 77. The first type time frequency mask generation unit 71 decomposes the music spectrogram in the music spectrogram stored in the music spectrogram storage unit 3 into a low rank matrix and a sparse matrix using robust principal component analysis (step ST2). Based on the comparison of low-rank matrix and sparse matrix, the music spectrogram is a low-rank matrix containing sparse matrix containing spectral bins where singing voice is likely to appear and spectral bins containing less likely singing voice A first type time-frequency mask having a function of separating into two is generated (step ST3). The first type time frequency mask is stored in the first type time frequency mask storage unit 72.

ロバスト主成分分析は、与えられた行列(2次元配列)を低ランク行列とスパース行列とに分解する手法であり、次式で定式化される。   Robust principal component analysis is a technique for decomposing a given matrix (two-dimensional array) into a low rank matrix and a sparse matrix, and is formulated by the following equation.

ここで、X,L,Sはそれぞれ入力行列,低ランク行列およびスパース行列であり、‖・‖*と‖・‖1はそれぞれ核ノルムとL1ノルム,λは低ランク性とスパース性のトレードオフパラメータを表す。一般に時間変化するデータ集合などを入力とし、頻出する成分(各フレームで繰り返し現れる成分)が低ランク行列に、それ以外の成分(各フレームに稀にしか現れない成分)がスパース行列に分解される。 Where X, L, and S are the input matrix, low rank matrix, and sparse matrix, respectively, ‖ · ‖ * and ‖ · ‖1 are the nuclear norm and L1 norm, and λ is the tradeoff between low rank and sparseness, respectively. Represents a parameter. In general, a time-varying data set or the like is input, and frequent components (components that appear repeatedly in each frame) are decomposed into low rank matrices, and other components (components that rarely appear in each frame) are decomposed into sparse matrices. .

音楽スペクトログラムを入力行列Xと見なしてロバスト主成分分析を適用すると、繰り返し演奏されるため何度も出現する伴奏音(ドラムやギター)のスペクトルビンは低ランク行列Lへ、それ以外の歌声などの時間的な変動が大きいスペクトルビンはスパース行列Sへ分解される。本実施の形態では、分析結果から第1のタイプの時間周波数分析マスクとしてバイナリマスクを作成する。   When the robust spectrogram analysis is applied with the music spectrogram regarded as the input matrix X, the spectrum bins of accompaniment sounds (drums and guitars) that appear many times due to repeated performance are moved to the low rank matrix L, and other singing voices, etc. Spectral bins with large temporal variations are decomposed into sparse matrix S. In the present embodiment, a binary mask is created as a first type time-frequency analysis mask from the analysis result.

このバイナリマスクからなる第1のタイプの時間周波数分析マスクを音楽スペクトログラムX(t,f)へ適用することで歌声スペクトログラムが分離できる。 The singing spectrogram can be separated by applying the first type of time frequency analysis mask comprising the binary mask to the music spectrogram X (t, f).

なお図4には、音楽スペクトログラムからロバスト主成分分析により分析した結果のスパース行列(歌声)と低ランク行列(伴奏)とに分析した結果の一例と、両行列の各要素の値を比較して得た第1のタイプの時間周波数分析マスクとしてバイナリマスクの例を示している。図5は、図4の表示内容の理解を高めるために、音楽スペクトログラムの一部を拡大し、またスパース行列(歌声)と低ランク行列(伴奏)の一部を拡大し、さらに第1のタイプの時間周波数分析マスクとしてバイナリマスクの一部を拡大した図を示している。   FIG. 4 shows an example of the result of analyzing a sparse matrix (singing voice) and a low rank matrix (accompaniment) as a result of analysis by a robust principal component analysis from a music spectrogram, and comparing values of each element of both matrices. An example of a binary mask is shown as the obtained first type time-frequency analysis mask. FIG. 5 expands a part of the music spectrogram, expands a part of the sparse matrix (singing voice) and the low rank matrix (accompaniment) in order to improve the understanding of the display contents of FIG. The figure which expanded a part of binary mask as a time frequency analysis mask of this is shown.

歌声スペクトログラム分離部73は、第1のタイプの時間周波数マスク(バイナリマスク)を音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する(ステップST4)。F0軌跡推定部74は、分離された歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定する(ステップST5)。   The singing voice spectrogram separating unit 73 applies the first type of time frequency mask (binary mask) to the music spectrogram, and separates the singing voice spectrogram including the spectral bins where the singing voice is likely to appear (step ST4). The F0 trajectory estimation unit 74 estimates the singing voice fundamental frequency F0 from the separated singing voice spectrogram to estimate the singing voice fundamental frequency F0 trajectory (step ST5).

具体的には、ロバスト主成分分析により分離された歌声スペクトログラムXsrpca(t,f)から、Subharmonic Summation(SHS)を用いて歌声のF0軌跡を推定する。SHSについては、「Hermes, D. J.: Measurement of pitch by subharmonic summation, J. Acoust. Soc. Am., Vol. 83, No. 1, pp.257-264 (online), DOI: 10.1121/1.396427 (1988)」に詳しく説明されている。SHSは計算コストの低さとノイズへの頑健性を兼ね備えた音高推定法であり、スペクトルビンの各周波数ビンについて、そのビンをF0であると仮定したときの倍音に対応する周波数ビンのパワーを重みつきで足し合わせることで、当該ビンにF0が存在する尤度を計算する。この音高尤度関数の計算は、対数周波数スケールでは以下で定式化される。 Specifically, the F0 trajectory of the singing voice is estimated from the singing voice spectrogram Xs rpca (t, f) separated by the robust principal component analysis using the Subharmonic Summation (SHS). For SHS, see “Hermes, DJ: Measurement of pitch by subharmonic summation, J. Acoust. Soc. Am., Vol. 83, No. 1, pp.257-264 (online), DOI: 10.1121 / 1.396427 (1988). Is described in detail. SHS is a pitch estimation method that combines low calculation cost and robustness to noise. For each frequency bin of the spectrum bin, the power of the frequency bin corresponding to the harmonic overtone when the bin is assumed to be F0. By adding together with weights, the likelihood that F0 exists in the bin is calculated. The calculation of the pitch likelihood function is formulated as follows on a logarithmic frequency scale.

ここで、t,sはそれぞれ時間インデクスと対数周波数[cents]を表し、P(t,s)は時間フレームt,周波数s[cents]における入力スペクトログラムの振幅である。Nは足し合わせる倍音数,hnは各倍音の重み関数であり、本実施の形態ではそれぞれ15および0.86n-1とする。人間の聴覚特性の非線形性を考慮するため、SHSを適用する前に、入力スペクトルビンに対してA特性補正をかけるものとする。 Here, t and s represent the time index and the logarithmic frequency [cents], respectively, and P (t, s) is the amplitude of the input spectrogram at the time frame t and the frequency s [cents]. N is the number of overtones to be added, hn is a weight function of each overtone, and in this embodiment, it is 15 and 0.86 n−1 , respectively. In order to consider the non-linearity of human auditory characteristics, A characteristic correction is applied to the input spectrum bin before applying SHS.

SHSによる音高尤度関数H(t,s)から歌声音高F(t)は以下の式で計算される。   The singing voice pitch F (t) is calculated from the pitch likelihood function H (t, s) by SHS by the following formula.

ここで、cl(t),ch(t)はそれぞれ、時間フレームtにおける音高探索周波数範囲の下限と上限([cents])である。 Here, cl (t) and ch (t) are the lower limit and the upper limit ([cents]) of the pitch search frequency range in the time frame t, respectively.

図6は、F0軌跡推定部74によって推定された歌声基本周波数F0軌跡から第2のタイプの時間周波数マスク(バイナリマスク)を生成する過程の一例を示している。第2のタイプの時間周波数マスク生成部75は、歌声基本周波数F0軌跡に基づいて、歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する(ステップST6)。生成された第2のタイプの時間周波数マスクは第2のタイプの時間周波数マスク記憶部76に記憶される。   FIG. 6 shows an example of a process of generating a second type of time frequency mask (binary mask) from the singing voice fundamental frequency F0 locus estimated by the F0 locus estimation unit 74. The second type time frequency mask generation unit 75 generates a second type time frequency mask having a function of masking spectrum bins other than the singing voice fundamental frequency F0 and the harmonic overtone based on the singing voice fundamental frequency F0 locus. (Step ST6). The generated second type time frequency mask is stored in the second type time frequency mask storage unit 76.

ロバスト主成分分析を用いた従来の歌声分離では、曲の一部しか現れないベースやドラム、メインボーカルと音高をずらして唱和するバックコーラスなども、歌声として分離されてしまう。歌声・伴奏音分離と歌声のF0推定は相互依存性をもっている。つまり、歌声のF0軌跡が与えられていれば、歌声分離に利用することができる一方、歌声が分離されていれば、そのF0軌跡を推定することは比較的容易である。そこでこの相補的な関係を利用した歌声分離のために入力音響信号に対して、統合マスク(第3のタイプの時間周波数マスク)を用いて、精密な歌声分離を行う。そこで、第2のタイプの時間周波数マスク生成部75は、歌声基本周波数F0軌跡を利用して、さらに精度の高い歌声分離を行うために、歌声基本周波数F0軌跡から、基本周波数(F0)と倍音周辺以外のパワーをマスキングする調波マスクを第2のタイプの時間周波数として生成する。ここで「歌声基本周波数F0と倍音周辺」とは、歌声基本周波数F0のピークとその倍音のピークを中心として、予め定めた周波数幅に入る周波数である。この周波数幅幅は、歌声基本周波数F0とその倍音のスペクトルの形状から自動的に定めることもできる。   In conventional singing voice separation using robust principal component analysis, bass and drums that appear only in a part of the song, and back chorus that sings and shifts the pitch from the main vocal are also separated as singing voices. Singing voice / accompaniment sound separation and singing voice F0 estimation are interdependent. That is, if the singing voice F0 trajectory is given, it can be used for singing voice separation, while if the singing voice is separated, it is relatively easy to estimate the F0 trajectory. Therefore, precise singing voice separation is performed on the input acoustic signal by using an integrated mask (third type time-frequency mask) for singing voice separation using this complementary relationship. Therefore, the second type temporal frequency mask generation unit 75 uses the singing voice fundamental frequency F0 trajectory to perform more accurate singing voice separation from the singing voice fundamental frequency F0 trajectory. A harmonic mask that masks power other than the surroundings is generated as a second type of time frequency. Here, “the singing voice fundamental frequency F0 and the harmonic overtone” is a frequency that falls within a predetermined frequency width around the peak of the singing voice fundamental frequency F0 and the peak of the harmonic overtone. This frequency width can also be automatically determined from the shape of the spectrum of the singing voice fundamental frequency F0 and its harmonics.

ここで、Ftは時間フレームtにおけるF0[cents],C(f)は周波数ビンfに対応する対数周波数[cents],Hは倍音数,wは各倍音でマスクを取る幅[cents]を示す。ロバスト主成分分析によるバイナリマスクと調波マスクを用いて、最終的な歌声と伴奏のスペクトログラムXs(t,f),Xm(t,f)はそれぞれ以下のように得られる。 Here, Ft represents F0 [cents] in the time frame t, C (f) represents the logarithmic frequency [cents] corresponding to the frequency bin f, H represents the number of overtones, and w represents the width [cents] for masking each overtone. . The final singing voice and accompaniment spectrograms Xs (t, f) and Xm (t, f) are obtained as follows using a binary mask and a harmonic mask by robust principal component analysis.

マスク統合部77は、第1のタイプの時間周波数マスクと第2のタイプの時間周波数マスクとを統合して第3のタイプの時間周波数マスクを時間周波数マスク(統合マスク)として作成する(ステップST7)。この第3のタイプの時間周波数マスクからなる時間周波数マスク(統合マスク)は、上位概念で言えば、調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有するものである。より具体的に言えば、第3のタイプの時間周波数マスク(統合マスク)は、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する。第3のタイプの時間周波数マスクを時間周波数マスク(統合マスク)は、第3のタイプの時間周波数マスク記憶部4に記憶される。 The mask integration unit 77 integrates the first type time frequency mask and the second type time frequency mask to create a third type time frequency mask as a time frequency mask (integrated mask) (step ST7). ). The temporal frequency mask (integrated mask) composed of the third type temporal frequency mask is a spectral bin that is determined to be a spectral bin including a singing voice as judged from the harmonic structure in terms of a superordinate concept. Judging from the harmonic structure, even if it is a spectrum bin that is judged not to be a spectrum bin containing a singing voice from the appearance possibility and a spectrum bin that is judged to be a spectrum bin containing a singing voice from the possibility of appearance It has a function of masking a spectrum bin determined not to be a spectrum bin containing a singing voice from a music spectrogram. More specifically, even if the third type temporal frequency mask (integrated mask) is a spectral bin that is determined to be a spectral bin containing a singing voice in the second type temporal frequency mask, Even if the spectrum bin is determined to be a spectrum bin including a singing voice according to the first type of time frequency mask, the second spectrum bin is determined to be a spectrum bin including a singing voice. This type of time frequency mask has a function of masking spectrum bins that are determined not to be spectrum bins containing singing voices. The time frequency mask (integrated mask) of the third type time frequency mask is stored in the third type time frequency mask storage unit 4.

図7は、第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)を統合する場合の一例を画像で示している。図8は、図7の画像の理解を高めるために、図7に示した複数の画像の一部をそれぞれ拡大して示す図である。この例では、第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)と第2のタイプの時間周波数マスク(歌声基本周波数F0によるバイナリマスクまたは調波マスク)との統合を、第1のタイプの時間周波数マスクの選択領域と第2のタイプの時間周波数マスクの選択領域との論理積(AND)をとることにより両マスクを統合して第3のタイプの時間周波数マスク(統合バイナリマスク)を得ている。   FIG. 7 shows an example in which the first type time frequency mask (binary mask based on robust principal component analysis) and the second type time frequency mask (binary mask with harmonic structure based on singing voice fundamental frequency F0) are integrated. This is shown in the image. FIG. 8 is an enlarged view showing a part of the plurality of images shown in FIG. 7 in order to enhance understanding of the image of FIG. In this example, the integration of the first type of time frequency mask (binary mask with robust principal component analysis) and the second type of time frequency mask (binary mask or harmonic mask with singing voice fundamental frequency F0) is performed as the first. The third type time-frequency mask (integrated binary mask) is obtained by integrating the two masks by ANDing the selected region of the time-frequency mask of this type and the selected region of the second-type time-frequency mask. )

マスキング部5は、第3のタイプの時間周波数マスク(統合バイナリマスク)を音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成する(ステップST8)。このマスキング部5から出力される分離用歌声スペクトログラムを記憶部に記憶しておいてもよいのは勿論である。図9は、マスキング部5における処理を画像で示すための図である。また図10は、図9の画像の理解を高めるために、図9に示した複数の画像の一部をそれぞれ拡大して示す図である。図11(A)乃至(D)は、マスキング部5によるマスキング処理の状況を示す波形図である。なお図11(A)乃至(D)においては、スペクトログラムに含まれる1フレーム分のスペクトルを図示の対象としている。図11(A)は音楽スペクトログラムに含まれる混合音スペクトルX(f)である。そして図11(B)は混合音スペクトルX(f)に対応する第1のタイプの時間周波数マスク(ロバスト主成分分析マスクに含まれる1フレーム分の周波数マスク(Mb(f)であり、図11(C)は混合音スペクトルX(f)に対応する第2のタイプの時間周波数マスクに含まれる1フレーム分の周波数マスク[調波マスクMh(f)]である。そして図11(D)は、第1のタイプの時間周波数マスク(ロバスト主成分分析マスクに含まれる1フレーム分の周波数マスク(Mb(f)と第2のタイプの時間周波数マスクに含まれる1フレーム分の周波数マスク[調波マスクMh(f)]が統合されて生成された第3のタイプの時間周波数マスクに含まれる1フレーム分の周波数マスク[統合マスクMb(f)*Mh(f)]によってマスキングされて得た分離された歌声スペクトル[X(f)*Mb(f)*Mh(f)]である。図11(D)から分かるように、統合マスクを使用してマスキングを行うと分離精度が高くなっているのが分かる。 The masking unit 5 applies the third type time frequency mask (integrated binary mask) to the music spectrogram to generate a separating singing voice spectrogram (step ST8). Of course, the separating spectrogram output from the masking unit 5 may be stored in the storage unit. FIG. 9 is a diagram for showing the processing in the masking unit 5 as an image. FIG. 10 is an enlarged view showing a part of the plurality of images shown in FIG. 9 in order to improve the understanding of the image of FIG. FIGS. 11A to 11D are waveform diagrams showing the state of masking processing by the masking unit 5. Note that in FIGS. 11A to 11D, the spectrum for one frame included in the spectrogram is an object to be illustrated. FIG. 11A shows a mixed sound spectrum X (f) included in the music spectrogram. FIG. 11B shows a first type of time frequency mask (Mb (f) included in the robust principal component analysis mask (Mb (f)) corresponding to the mixed sound spectrum X (f). (C) is a frequency mask [harmonic mask Mh (f)] for one frame included in the second type temporal frequency mask corresponding to the mixed sound spectrum X (f), and FIG. , First type time frequency mask (frequency mask for one frame included in robust principal component analysis mask (Mb (f) and frequency mask for one frame included in second type time frequency mask [harmonic a third type of one frame of the frequency mask time included in the frequency mask [integrated mask Mb (f) * mass by Mh (f)] to mask Mh (f)] is generated integrated Separated voice spectrum obtained is ring [X (f) * Mb ( f) * Mh (f)] is. As can be seen from FIG. 11 (D), and performs masking using the integrated mask separation You can see that the accuracy is high.

そして信号分離生成部6は、分離用歌声スペクトログラムに基づいて歌声信号を分離生成する。具体的には、図12に示すように、信号分離生成部6は、マスキング部5から出力された分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成する(ステップST9)。   And the signal separation production | generation part 6 isolate | separates and produces | generates a singing voice signal based on the singing voice spectrogram for isolation | separation. Specifically, as shown in FIG. 12, the signal separation generation unit 6 separates and generates a singing voice signal by inversely transforming the separation singing voice spectrogram output from the masking unit 5 into the time domain (step ST9).

本実施の形態の効果を確認するために、ロバスト主成分分析により歌声信号を分離した場合と、本実施の形態で歌声信号を分離した場合について、目的音源の歪みで分離精度を判定するNSDR(Normalized Signal-to-Distortion Ratio[dB])で、110曲の音楽音響信号から歌声信号を分離した結果を比較してみた。その結果、歌声の分離精度に関しては、本実施の形態では5.06 [dB]、ロバスト主成分分析では2.09 [dB]、伴奏の分離精度に関しては、本実施の形態では6.21 [dB]、ロバスト主成分分析では1.71 [dB]という結果が得られた。歌声分離及び伴奏分離の両方において、本実施の形態のほうが、RPCAよりも精度が高いことが確認された。   In order to confirm the effect of the present embodiment, NSDR (determining the separation accuracy based on the distortion of the target sound source when the singing voice signal is separated by the robust principal component analysis and when the singing voice signal is separated by the present embodiment. Normalized Signal-to-Distortion Ratio [dB]), we compared the results of separating singing voice signals from 110 music audio signals. As a result, the separation accuracy of singing voice is 5.06 [dB] in this embodiment, 2.09 [dB] in robust principal component analysis, and the separation accuracy of accompaniment is 6.21 in this embodiment. dB], and the robust principal component analysis gave a result of 1.71 [dB]. In both singing voice separation and accompaniment separation, it was confirmed that the present embodiment has higher accuracy than RPCA.

なお上記各構成要件は、1以上のプロセッサとメモリによって実現するのが好ましい。またマスク生成システム4は、本実施の形態の歌声信号分離システムと一緒に構成する必要はない。すなわち第3のタイプの時間周波数マスク(統合マスク)は、歌声信号分離システムとは別に設けられたマスク生成システムによって事前に生成しておいてもよいのは勿論である。   Each of the above constituent elements is preferably realized by one or more processors and memories. The mask generation system 4 need not be configured together with the singing voice signal separation system of the present embodiment. That is, the third type time frequency mask (integrated mask) may of course be generated in advance by a mask generation system provided separately from the singing voice signal separation system.

上記実施の形態では、2つバイナリマスクの統合に論理積(AND)を用いたが、本発明におけるマスクの統合は、上記実施の形態に限定されるものではない。図13は、マスクの統合の他の例を示す概念図である。この例では、第1のタイプの時間周波数マスク(RPCAによるバイナリマスク)の選択領域と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)の選択領域との論理積をとって、仮統合時間周波数マスクを生成する。そしてこの仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより第3のタイプの時間周波数マスク(統合バイナリマスク)とすることができる。この時間周波数マスクでは、歌が無い区間を推定して、推定された時間フレームの全要素を0にするため、さらに分離精度を高めることができる。   In the above embodiment, the logical product (AND) is used to integrate the two binary masks. However, the mask integration in the present invention is not limited to the above embodiment. FIG. 13 is a conceptual diagram showing another example of mask integration. In this example, the logical product of the selection region of the first type time frequency mask (binary mask by RPCA) and the selection region of the second type time frequency mask (binary mask of harmonic structure by singing voice fundamental frequency F0). Then, a temporary integrated time frequency mask is generated. Then, from this temporary integrated time frequency mask, a section without a song is estimated, and all elements of the estimated time frame are set to 0, whereby a third type time frequency mask (integrated binary mask) can be obtained. . In this time-frequency mask, since a section without a song is estimated and all elements of the estimated time frame are set to 0, the separation accuracy can be further improved.

図14は、マスクの統合のさらに他の例を示す概念図である。この例では、第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)の選択領域と第2のタイプの時間周波数マスク(歌声基本周波数F0による調波構造のバイナリマスク)の選択領域との論理積をとって、仮統合時間周波数マスクを生成する。そしてこの仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ第1のタイプの時間周波数マスク(ロバスト主成分分析によるバイナリマスク)から子音を通過させる要素を得て該要素を仮統合時間周波数マスクに反映して、第3のタイプの時間周波数マスク(統合バイナリマスク)とすることができる。このようにするとさらに分離精度を高めることができる。   FIG. 14 is a conceptual diagram showing still another example of mask integration. In this example, a selection area of a first type time frequency mask (binary mask by robust principal component analysis) and a selection area of a second type time frequency mask (binary mask of harmonic structure by singing voice fundamental frequency F0), And a temporary integrated time frequency mask is generated. Then, from this temporary integrated time frequency mask, a section without a song is estimated, all elements of the estimated time frame are set to 0, and consonants are derived from the first type time frequency mask (binary mask by robust principal component analysis). By obtaining an element that passes through and reflecting the element in the temporary integrated time frequency mask, a third type time frequency mask (integrated binary mask) can be obtained. In this way, the separation accuracy can be further increased.

近年、既存楽曲をユーザが自分好みに編集・加工することを可能にする能動的音楽鑑賞システムの研究が盛んである。中でも、混合音中の歌声の編集は最も実現が難しい課題の一つであり、既存の歌声の声質を他の歌唱者の声質に直接変換する技術は提案されているが、歌声がもつ特徴的な音高軌跡、すなわち歌唱表現を編集する技術は実現されていなかったが、本発明によれば、調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いることにより、歌声信号と伴奏音信号とを含む音楽音響信号から歌声信号を従来よりも精度よく分離できる。   In recent years, active music appreciation systems that allow users to edit and process existing music to their liking have been extensively studied. Among them, editing singing voices in mixed sounds is one of the most difficult issues to realize, and techniques to directly convert the voice quality of existing singing voices to the voice quality of other singers have been proposed. Pitch pitch, i.e., a technique for editing a singing expression has not been realized, but according to the present invention, even if it is a spectrum bin that is determined to be a spectrum bin that includes a singing voice as judged from the harmonic structure, Judging from the harmonic structure even if it is a spectrum bin that is judged not to be a spectrum bin containing a singing voice from the appearance possibility and a spectrum bin that is judged to be a spectrum bin containing a singing voice from the appearance possibility Then, use a time-frequency mask that has a function to mask spectrum bins that are judged not to contain singing voices from the music spectrogram. Allows separation accurately than the conventional singing voice signal from the music audio signal including a voice signal and accompaniment tone signal.

1 音楽音響信号
2 時間周波数解析部
3 音楽スペクトログラム記憶部
4 時間周波数マスク記憶部
5 マスキング部
6 信号分離生成部
7 マスク生成システム
71 時間周波数マスク生成部
72 時間周波数マスク記憶部
73 歌声スペクトログラム分離部
74 F0軌跡推定部
75 時間周波数マスク生成部
76 時間周波数マスク記憶部
77 マスク統合部
DESCRIPTION OF SYMBOLS 1 Music acoustic signal 2 Time frequency analysis part 3 Music spectrogram memory | storage part 4 Time frequency mask memory | storage part 5 Masking part 6 Signal separation production | generation part 7 Mask generation system 71 Time frequency mask generation part 72 Time frequency mask memory | storage part 73 Singing voice spectrogram separation part 74 F0 locus estimation unit 75 time frequency mask generation unit 76 time frequency mask storage unit 77 mask integration unit

Claims (13)

歌声信号と伴奏音信号とを含む音楽音響信号から前記歌声信号を分離する歌声信号分離方法であって、
前記音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する変換ステップと、
調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを前記音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを準備するマスク準備ステップと、
前記時間周波数マスクを前記音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成するマスキングステップと、
前記分離用歌声スペクトログラムに基づいて前記歌声信号を分離生成する分離生成ステップとからなることを特徴とする歌声信号分離方法。
A singing voice signal separating method for separating the singing voice signal from a music acoustic signal including a singing voice signal and an accompaniment sound signal,
Converting the music acoustic signal into a music spectrogram by performing time-frequency analysis;
Even if the spectrum bin is determined to be a spectrum bin that includes a singing voice as determined from the harmonic structure, it is determined from the spectrum bin that is determined not to be a spectrum bin that includes a singing voice as determined from the appearance possibility and the appearance possibility. Then, even if the spectrum bin is determined to be a spectrum bin including a singing voice, it has a function of masking the spectrum bin determined to be not a spectrum bin including a singing voice from the music spectrogram even if determined from the harmonic structure. A mask preparation step for preparing a frequency mask;
A masking step of applying the time frequency mask to the music spectrogram to generate a separating singing voice spectrogram;
A singing voice signal separation method comprising: a separation generating step of separating and generating the singing voice signal based on the separating singing voice spectrogram.
前記マスク準備ステップでは、
前記音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、
前記低ランク行列と前記スパース行列の比較に基づいて、前記音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成し、
第1のタイプの時間周波数マスクを前記音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離し、
分離された前記歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定し、
前記歌声基本周波数F0軌跡に基づいて、前記歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成し、
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとを統合して、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを前記時間周波数マスクとして準備することを特徴とする請求項1に記載の歌声信号分離方法。
In the mask preparation step,
The music spectrogram is decomposed into a low rank matrix and a sparse matrix using robust principal component analysis,
Based on the comparison between the low rank matrix and the sparse matrix, the music spectrogram includes a sparse matrix including a spectrum bin where a singing voice is likely to appear and a low spectrum pattern including a spectrum bin where a singing voice is unlikely to appear. Generating a first type of time frequency mask having the function of separating into rank matrices;
Applying a first type of time frequency mask to the music spectrogram to isolate a singing spectrogram including spectral bins where a singing voice is likely to appear;
A singing voice fundamental frequency F0 is estimated for the separated singing voice spectrogram to estimate a singing voice fundamental frequency F0 locus,
Based on the singing voice fundamental frequency F0 trajectory, a second type time frequency mask having a function of masking spectral bins other than the singing voice fundamental frequency F0 and overtones,
The first type time frequency mask and the second type time frequency mask are integrated, and the second type time frequency mask is a spectrum bin that is determined to be a spectrum bin containing a singing voice. However, a spectrum bin that is determined not to include a singing voice in the first type time-frequency mask and a spectrum bin that is determined to be a spectral bin that includes a singing voice in the first type time-frequency mask. Even so, a third type time frequency mask having a function of masking a spectrum bin that is determined not to be a spectrum bin containing a singing voice in the second type time frequency mask is prepared as the time frequency mask. The method of separating a singing voice signal according to claim 1.
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの第2の時間周波数マスクの選択領域との論理積をとることである請求項2に記載の歌声信号分離方法。   The integration of the first type time frequency mask and the second type time frequency mask includes a selection region of the first type time frequency mask and a second type second time frequency mask. The singing voice signal separation method according to claim 2, wherein a logical product with the selected area is taken. 前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、前記仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にすることにより前記第3のタイプの時間周波数マスクとすることである請求項1に記載の歌声信号分離方法。   The integration of the first type time frequency mask and the second type time frequency mask includes a selection region of the first type time frequency mask and a selection region of the second type time frequency mask. And a temporary integrated time frequency mask is generated, and a section without a song is estimated from the temporary integrated time frequency mask, and all elements of the estimated time frame are set to zero. 3. The singing voice signal separation method according to claim 1, wherein the time frequency mask is a type 3 time frequency mask. 前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとの統合とは、前記第1のタイプの時間周波数マスクの選択領域と前記第2のタイプの時間周波数マスクの選択領域との論理積をとって、仮統合時間周波数マスクを生成し、前記仮統合時間周波数マスクから、歌が無い区間を推定して、推定された時間フレームの全要素を0にし、且つ前記第1のタイプの時間周波数マスクから子音を通過させる要素を得て該要素を前記仮統合時間周波数マスクに反映することである請求項1に記載の歌声信号分離方法。   The integration of the first type time frequency mask and the second type time frequency mask includes a selection region of the first type time frequency mask and a selection region of the second type time frequency mask. And a temporary integrated time frequency mask is generated, a section without a song is estimated from the temporary integrated time frequency mask, all elements of the estimated time frame are set to 0, and the first The singing voice signal separation method according to claim 1, wherein an element that allows consonants to pass is obtained from a temporal frequency mask of the following type, and the element is reflected in the temporary integrated temporal frequency mask. 前記第1のタイプの時間周波数マスク、前記第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクである請求項3,4または5に記載の歌声信号分離方法。   6. The singing voice signal separation method according to claim 3, 4 or 5, wherein the first type time frequency mask, the second type time frequency mask and the third type time frequency mask are binary masks, respectively. 前記分離生成ステップでは、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することを特徴とする請求項1に記載の歌声信号分離方法。   2. The singing voice signal separating method according to claim 1, wherein, in the separating and generating step, the singing voice signal is separated and generated by inversely transforming the separating singing voice spectrogram into a time domain. 前記各ステップを1以上のプロセッサで実施することを特徴とする請求項1乃至7に記載の歌声信号分離方法。   The singing voice signal separation method according to claim 1, wherein each step is performed by one or more processors. 歌声信号と伴奏音信号とを含む音楽音響信号から前記歌声信号を分離する歌声信号分離システムであって、
前記音楽音響信号を、時間周波数解析を行って音楽スペクトログラムに変換する時間周波数解析部と、
調波構造から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、出現可能性から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記出現可能性から判断すると歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記調波構造から判断すると歌声を含むスペクトルビンではないと判断されるスペクトルビンを前記音楽スペクトログラムからマスキングする機能を有する時間周波数マスクを用いて、前記時間周波数マスクを前記音楽スペクトログラムに適用して分離用歌声スペクトログラムを生成するマスキング部と、
前記分離用歌声スペクトログラムに基づいて前記歌声信号を分離生成する信号分離生成部とからなることを特徴とする歌声信号分離システム。
A singing voice signal separating system for separating the singing voice signal from a music acoustic signal including a singing voice signal and an accompaniment sound signal,
A time-frequency analysis unit that converts the music acoustic signal into a music spectrogram by performing time-frequency analysis;
Even if the spectrum bin is determined to be a spectrum bin that includes a singing voice as determined from the harmonic structure, it is determined from the spectrum bin that is determined not to be a spectrum bin that includes a singing voice as determined from the appearance possibility and the appearance possibility. Then, even if the spectrum bin is determined to be a spectrum bin including a singing voice, it has a function of masking the spectrum bin determined to be not a spectrum bin including a singing voice from the music spectrogram even if determined from the harmonic structure. Using a frequency mask, a masking unit that applies the temporal frequency mask to the music spectrogram to generate a separating singing voice spectrogram;
A singing voice signal separation system comprising: a signal separation / generation unit that separates and generates the singing voice signal based on the singing voice spectrogram for separation.
前記音楽スペクトログラムを、ロバスト主成分分析を用いて低ランク行列とスパース行列とに分解し、前記低ランク行列と前記スパース行列の比較に基づいて、前記音楽スペクトログラムを歌声が出現している可能性が高いスペクトルビンを含むスパース行列と歌声が出現している可能性が低いスペクトルビンを含む低ランク行列とに分離する機能を有する第1のタイプの時間周波数マスクを生成する第1のタイプの時間周波数マスク生成部と、
前記第1のタイプの時間周波数マスクを記憶する第1のタイプの時間周波数マスク記憶部と、
前記第1のタイプの時間周波数マスクを前記音楽スペクトログラムに適用して歌声が出現している可能性が高いスペクトルビンを含む歌声スペクトログラムを分離する歌声スペクトログラム分離部と、
分離された前記歌声スペクトログラムに対して歌声基本周波数F0を推定して歌声基本周波数F0軌跡を推定するF0軌跡推定部と、
前記歌声基本周波数F0軌跡に基づいて作成されて、前記歌声基本周波数F0と倍音周辺以外のスペクトルビンをマスキングする機能を有する第2のタイプの時間周波数マスクを生成する第2のタイプの時間周波数マスク生成部と、
前記第2のタイプの時間周波数マスクを記憶する第2のタイプの時間周波数マスク記憶部と、
前記第1のタイプの時間周波数マスクと前記第2のタイプの時間周波数マスクとを統合して作成された、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビン及び前記第1のタイプの時間周波数マスクでは歌声を含むスペクトルビンであると判断されるスペクトルビンであっても、前記第2のタイプの時間周波数マスクでは歌声を含むスペクトルビンではないと判断されるスペクトルビンをマスキングする機能を有する第3のタイプの時間周波数マスクを前記時間周波数マスクとして統合するマスク統合部とからなるマスク生成システムによって、前記時間周波数マスクが生成されたものである請求項9に記載の歌語信号分離システム。
The music spectrogram is decomposed into a low rank matrix and a sparse matrix using robust principal component analysis, and a singing voice may appear in the music spectrogram based on the comparison between the low rank matrix and the sparse matrix. A first type of time frequency generating a first type of time frequency mask having a function of separating a sparse matrix including high spectral bins and a low rank matrix including spectral bins that are less likely to have a singing voice A mask generation unit;
A first type time frequency mask storage unit for storing the first type time frequency mask;
A singing spectrogram separation unit that applies the first type time frequency mask to the music spectrogram to separate a singing spectrogram including a spectral bin that is likely to have a singing voice;
An F0 trajectory estimator for estimating a singing voice fundamental frequency F0 trajectory by estimating a singing voice fundamental frequency F0 with respect to the separated singing voice spectrogram;
A second type time frequency mask that is generated based on the singing voice fundamental frequency F0 trajectory and generates a second type time frequency mask having a function of masking spectrum bins other than the singing voice fundamental frequency F0 and surrounding harmonics. A generator,
A second type time frequency mask storage unit for storing the second type time frequency mask;
A spectrum that is created by integrating the first type time frequency mask and the second type time frequency mask and is determined to be a spectrum bin containing a singing voice in the second type time frequency mask. Even a bin is determined to be a spectrum bin that is determined not to be a spectrum bin that includes a singing voice in the first type time frequency mask and a spectrum bin that includes a singing voice in the first type time frequency mask. A third type time frequency mask having a function of masking a spectrum bin that is determined not to be a spectrum bin containing a singing voice in the second type time frequency mask. The time frequency mask by a mask generation system comprising: Song word signal separation system according to claim 9 is one that was created.
前記第1のタイプの時間周波数マスク、前記第2のタイプの時間周波数マスク及び第3のタイプの時間周波数マスクは、それぞれバイナリマスクである請求項10に記載の歌声信号分離システム。   The singing voice signal separation system according to claim 10, wherein each of the first type time frequency mask, the second type time frequency mask, and the third type time frequency mask is a binary mask. 前記信号分離生成部は、分離用歌声スペクトログラムを時間領域に逆変換することにより歌声信号を分離生成することを特徴とする請求項9に記載の歌声信号分離システム。   The singing voice signal separation system according to claim 9, wherein the signal separation / generation unit separates and generates a singing voice signal by inversely transforming the separating singing voice spectrogram into a time domain. 上記構成要件は、1以上のプロセッサとメモリによって実現されている請求項9乃至12のいずれか1項に記載の歌声信号分離システム。   The singing voice signal separation system according to any one of claims 9 to 12, wherein the constituent elements are realized by one or more processors and a memory.
JP2015034339A 2015-02-24 2015-02-24 Singing voice signal separation method and system Pending JP2016156938A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015034339A JP2016156938A (en) 2015-02-24 2015-02-24 Singing voice signal separation method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015034339A JP2016156938A (en) 2015-02-24 2015-02-24 Singing voice signal separation method and system

Publications (1)

Publication Number Publication Date
JP2016156938A true JP2016156938A (en) 2016-09-01

Family

ID=56825832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015034339A Pending JP2016156938A (en) 2015-02-24 2015-02-24 Singing voice signal separation method and system

Country Status (1)

Country Link
JP (1) JP2016156938A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667805A (en) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 Extraction method, device, equipment and medium of accompaniment music
JPWO2021044595A1 (en) * 2019-09-05 2021-03-11
CN113129920A (en) * 2021-04-15 2021-07-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Music and human voice separation method based on U-shaped network and audio fingerprint
CN113393857A (en) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 Method, device and medium for eliminating human voice of music signal

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667805A (en) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 Extraction method, device, equipment and medium of accompaniment music
CN111667805B (en) * 2019-03-05 2023-10-13 腾讯科技(深圳)有限公司 Accompaniment music extraction method, accompaniment music extraction device, accompaniment music extraction equipment and accompaniment music extraction medium
JPWO2021044595A1 (en) * 2019-09-05 2021-03-11
WO2021044595A1 (en) * 2019-09-05 2021-03-11 日本電気株式会社 Mask generation device, mask generation method, and recording medium
JP7211523B2 (en) 2019-09-05 2023-01-24 日本電気株式会社 Mask generation device, sound signal processing device, mask generation method, and program
US11881200B2 (en) 2019-09-05 2024-01-23 Nec Corporation Mask generation device, mask generation method, and recording medium
CN113129920A (en) * 2021-04-15 2021-07-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Music and human voice separation method based on U-shaped network and audio fingerprint
CN113129920B (en) * 2021-04-15 2021-08-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) Music and human voice separation method based on U-shaped network and audio fingerprint
CN113393857A (en) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 Method, device and medium for eliminating human voice of music signal

Similar Documents

Publication Publication Date Title
Uhlich et al. Deep neural network based instrument extraction from music
JP5275612B2 (en) Periodic signal processing method, periodic signal conversion method, periodic signal processing apparatus, and periodic signal analysis method
Cook Real sound synthesis for interactive applications
Ikemiya et al. Singing voice separation and vocal F0 estimation based on mutual combination of robust principal component analysis and subharmonic summation
WO2018084305A1 (en) Voice synthesis method
Miron et al. Monaural score-informed source separation for classical music using convolutional neural networks
JP5846043B2 (en) Audio processing device
JP2016156938A (en) Singing voice signal separation method and system
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
JP2018036413A (en) Voice synthesis learning device, method, and program
Cogliati et al. Piano music transcription with fast convolutional sparse coding
JP6347536B2 (en) Sound synthesis method and sound synthesizer
JP2018077283A (en) Speech synthesis method
Hayes et al. A review of differentiable digital signal processing for music & speech synthesis
Macret et al. Automatic calibration of modified fm synthesis to harmonic sounds using genetic algorithms
Verfaille et al. Adaptive digital audio effects
Wu et al. Multipitch estimation by joint modeling of harmonic and transient sounds
WO2021172181A1 (en) Acoustic processing method, method for training estimation model, acoustic processing system, and program
JP2007328268A (en) Band spreading system of musical signal
Molina et al. Parametric model of spectral envelope to synthesize realistic intensity variations in singing voice
JP6834370B2 (en) Speech synthesis method
Schneider et al. Perception of harmonic and inharmonic sounds: Results from ear models
JP2020204755A (en) Speech processing device and speech processing method
Bozkurt et al. Parallel evolutionary optimization of digital sound synthesis parameters
JP2020204651A (en) Speech processing device and speech processing method