CN110491408B - 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法 - Google Patents

一种基于稀疏元分析的音乐信号欠定混叠盲分离方法 Download PDF

Info

Publication number
CN110491408B
CN110491408B CN201910642379.9A CN201910642379A CN110491408B CN 110491408 B CN110491408 B CN 110491408B CN 201910642379 A CN201910642379 A CN 201910642379A CN 110491408 B CN110491408 B CN 110491408B
Authority
CN
China
Prior art keywords
aliasing
music
signal
estimated
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910642379.9A
Other languages
English (en)
Other versions
CN110491408A (zh
Inventor
解元
谢胜利
谢侃
吴宗泽
杨俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910642379.9A priority Critical patent/CN110491408B/zh
Publication of CN110491408A publication Critical patent/CN110491408A/zh
Application granted granted Critical
Publication of CN110491408B publication Critical patent/CN110491408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及盲信号分离技术领域,提出一种基于稀疏元分析的音乐信号欠定混叠盲分离方法,包括以下步骤:获取I组音乐源信号,并通过J个传感器进行混叠得到混叠音乐信号;对所述混叠音乐信号进行数学建模;对所述混叠音乐信号进行短时傅里叶变换,得到频域上的混叠音乐信号;在频域上估计混叠矩阵;根据所述混叠矩阵在频域上通过稀疏元分析方法对音乐源信号进行分离,得到估计音乐源信号;对所述估计音乐源信号进行傅里叶变换的逆运算,得到完成分离的时域上的估计音乐源信号。本发明能够对混叠音乐信号有效进行分离,并能够得到理想的分离结果。

Description

一种基于稀疏元分析的音乐信号欠定混叠盲分离方法
技术领域
本发明涉及盲信号分离技术领域,更具体地,涉及一种基于稀疏元分析的音乐信号欠定混叠盲分离方法。
背景技术
盲分离技术可以实现将混合有人声和乐器的声音进行分离,盲分离技术用于在没有任何先验知识的情况下,仅仅通过接收到的混合信号,实现源信号的分离。目前,盲分离技术已经在很多领域得到了应用,包括语音信号处理、生物医学信号处理、神经网络以及无线网络通信领域等等,其中,欠定的盲分离指的是源信号数目大于传感器数目,在这种情况下进行盲分离是极具挑战性的。
稀疏元分析(Sparse Component Analysis,SCA)是假设源信号满足一定的稀疏性,利用稀疏表示的算法处理盲分离问题。所谓的“稀疏性”是指在任意的采样频点,有且只有唯一的源信号是活跃的,其他的都等于零或者接近于零。因此,针对音乐信号,可以先进行短时傅里叶变换把混叠音乐信号变换到频域内,使其具备一定的稀疏性,然后再对音乐信号的实现盲分离。目前已经提出的基于稀疏元分析的盲分离算法有:频域统计稀疏分解原理(frequency-domain statistically sparse decomposition principle,SSDP)算法、局部高斯模型(local Gaussian modeling,LGM)算法、二进制掩蔽(binary masking,BM)算法、正交匹配追踪(orthogonal matching pursuit,OMP)算法、FOCUSS算法等等。但是,这些算法在具体应用中存在一定的局限性,例如,容易出现局部极小值问题、算法的收敛性不稳定、分离结果不理想。
发明内容
本发明为克服上述现有技术所述的混叠音乐信号分离结果不理想的缺陷,提供一种基于稀疏元分析的音乐信号欠定混叠盲分离方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于稀疏元分析的音乐信号欠定混叠盲分离方法,包括以下步骤:
S1:获取I组音乐源信号,并通过J个传感器进行混叠,将其合成为J通道的混叠音乐信号;
S2:对所述混叠音乐信号进行数学建模;
S3:对所述混叠音乐信号进行短时傅里叶变换,得到频域上的混叠音乐信号;
S4:在频域上估计混叠矩阵;
S5:根据所述混叠矩阵在频域上通过稀疏元分析方法对音乐源信号进行分离,得到估计音乐源信号;
S6:对所述估计音乐源信号进行傅里叶变换的逆运算,得到完成分离的时域上的估计音乐源信号。
本技术方案用于在欠定情况下分离混叠的音乐信号,例如将一首歌曲中的人声与乐器声独立分离。本技术方案中通过录音棚录制或通过公共数据集获取若干音乐源信号进行采集,然后通过传感器实现混叠,得到相应的待分离处理的混叠音乐信号,对所述待分离处理的混叠音乐信号进行短时傅里叶变换,将混叠音乐信号变换为频域上的混叠音乐信号,并估计混叠矩阵,然后采用基于稀疏元分析的方法分离每个音乐源信号,再通过傅里叶逆变换将频域上的完成分离的音乐源信号转换为时域上的完成分离的音乐源信号作为分离结果进行输出,得到欠定混叠盲分离结果。
优选地,S2步骤中,根据所述I组音乐源信号s(t)=[s1(t),...,sI(t)]T,通过J个传感器进行混叠,将其合成为J通道的混叠音乐信号,得到所述混叠音乐信号的数学模型如下:
x(t)=A·s(t)
其中,x(t)=[x1(t),...,xJ(t)]T为时域上的混叠音乐信号,xJ(t)表示通过第J个传感器进行混叠的混叠音乐信号;sI(t)表示第I组音乐源信号;A∈RJ×I为待估计的混叠矩阵。
优选地,S4步骤中的估计混叠矩阵的制备步骤如下:选择同一空间中连续两个连续帧数据对单个音乐源信号数据进行检测,然后根据所述检测数据对音乐源信号和混叠矩阵的空间方向进行识别,得到估计的混叠矩阵。
优选地,S5步骤中,所述估计音乐源信号
Figure GDA0003368075790000021
的具体公式如下:
Figure GDA0003368075790000022
其中,
Figure GDA0003368075790000023
表示lp范数,且
Figure GDA0003368075790000024
0<p≤1。
优选地,S5步骤中,所述估计音乐源信号
Figure GDA0003368075790000031
通过拉格朗日乘数方法可得到优化解,所述拉格朗日函数的公式如下:
Figure GDA0003368075790000032
其中,α∈CJ×I为拉格朗日乘数;
通过所述拉格朗日函数得到的估计音乐源信号
Figure GDA0003368075790000033
的优化解如下:
Figure GDA0003368075790000034
Figure GDA0003368075790000035
其中,ψ(·)表示对角矩阵。
与现有技术相比,本发明技术方案的有益效果是:通过充分利用信号的系数特性对音乐源信号进行重构,并通过采用稀疏元分析方法对音乐源信号进行分离,能够得到理想的分离结果,充分发挥稀疏元分析在高维数据信息处理中的潜在价值,且能够有效应用于解决欠定混叠盲分离问题。
附图说明
图1为本实施例的基于稀疏元分析的音乐信号欠定混叠盲分离方法的流程图。
图2为实施例2的原音乐源波形图。
图3为实施例2的每个混叠通道的波形图。
图4为实施例2的完成欠定混叠盲分离后的源信号波形图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,为本实施例的基于稀疏元分析的音乐信号欠定混叠盲分离方法的流程图。
本实施例提出一种基于稀疏元分析的音乐信号欠定混叠盲分离方法,包括以下步骤:
S1:获取I组音乐源信号,并通过J个传感器进行混叠,将其合成为J通道的混叠音乐信号。
本实施例中,通过公共数据集获取3组音乐源信号,然后通过2个传感器对上述音乐源信号进行混叠,即I=3,J=2。
S2:对所述混叠音乐信号进行数学建模。
本步骤中,根据上述3组音乐源信号s(t)=[s1(t),s2(t),s3(t)]T,通过2个传感器对上述音乐源信号进行混叠,得到的混叠音乐信号的数学表达式如下:
x(t)=A·s(t)
其中,x(t)=[x1(t),x2(t)]T为时域上的混叠音乐信号,xJ(t)表示通过第J个传感器进行混叠的混叠音乐信号;sI(t)表示第I组音乐源信号;A∈RJ×I为待估计的混叠矩阵。
S3:对所述混叠音乐信号进行短时傅里叶变换,得到频域上的混叠音乐信号。本步骤中的频域上的混叠音乐信号的数学表达式如下:
x(f,n)=A(f)·s(f,n)。
S4:在频域上估计混叠矩阵。
本步骤中,估计混叠矩阵的制备步骤如下:选择同一空间中连续两个连续帧数据对单个音乐源信号数据进行检测,然后根据所述检测数据对音乐源信号和混叠矩阵的空间方向进行识别,得到估计的混叠矩阵。
S5:根据所述混叠矩阵在频域上通过稀疏元分析方法对音乐源信号进行分离,得到估计音乐源信号。
本步骤中,估计音乐源信号
Figure GDA0003368075790000041
的具体公式如下:
Figure GDA0003368075790000042
其中,
Figure GDA0003368075790000043
表示lp范数,且
Figure GDA0003368075790000044
0<p≤1。
此外,估计音乐源信号
Figure GDA0003368075790000045
通过拉格朗日乘数方法可得到优化解,其中拉格朗日函数的公式如下:
Figure GDA0003368075790000046
其中,α∈CJ×I为拉格朗日乘数;
通过所述拉格朗日函数得到的估计音乐源信号
Figure GDA0003368075790000047
的优化解如下:
Figure GDA0003368075790000051
Figure GDA0003368075790000052
其中,ψ(·)表示对角矩阵。
S6:对所述估计音乐源信号进行傅里叶变换的逆运算,得到完成分离的时域上的估计音乐源信号。
在具体实施过程中,本实施例对从“SiSEC2013”公共数据集分别获取带鼓声的3个音乐信号,通过2个传感器进行混叠,以及不带鼓声的3个音乐信号,通过2个传感器进行混叠,得到2组双通道三个音乐信号的混叠音乐信号,并分别采用频域统计稀疏分解原理(frequency-domain statistically sparse decomposition principle,SSDP)算法、局部高斯模型local Gaussian modeling,LGM)算法、二进制掩蔽(binary masking,BM)算法、正交匹配追踪(orthogonal matching pursuit,OMP)算法、FOCUSS算法以及本实施例提出的基于稀疏元分析的音乐信号欠定混叠盲分离方法对上述2组双通道三个音乐信号的混叠音乐信号进行分离,并采用信噪比作为评价标准对各种算法的性能进行评价,上述信噪比的计算公式如下:
Figure GDA0003368075790000053
本实施例的对照分离结果如表1、2所示。
表1带鼓声的混叠音乐信号盲分离结果(dB)
Figure GDA0003368075790000054
表2不带鼓声的混叠音乐信号盲分离结果(dB)
Figure GDA0003368075790000055
Figure GDA0003368075790000061
由表可知,本实施例所提出的基于稀疏元分析的音乐信号欠定混叠盲分离方法相对于现有的音乐信号盲分离算法,明显地能够得到更加理想的分离结果,具有明显的有效性和优越性。
实施例2
本实施例在实施过程中对歌曲分别采用频域统计稀疏分解原理(frequency-domain statistically sparse decomposition principle,SSDP)算法、局部高斯模型local Gaussian modeling,LGM)算法、二进制掩蔽(binary masking,BM)算法、正交匹配追踪(orthogonal matching pursuit,OMP)算法、FOCUSS算法以及本实施例提出的基于稀疏元分析的音乐信号欠定混叠盲分离方法进行盲分离对照实验。
如图2所示,为本实施例的音乐源信号波形图。将该3组音乐源信号进行混叠,得到如图3所示的混叠音乐源信号波形图。然后将上述混叠音乐源信号分别采用上述算法进行盲分离,并采用信噪比作为评价标准对各种算法的性能进行评价,如表3所示,为音乐歌曲盲分离结果。
表3.音乐歌曲盲分离结果(dB)
Figure GDA0003368075790000062
采用本实施例的提出的基于稀疏元分析的音乐信号欠定混叠盲分离方法进行音乐信号盲分离的分离结果波形图如图4所示。由表3以及图2~4所示的波形图可知,本实施例应用于真实的音乐歌曲中,仍然能够得到理想的分离结果,具有有效性和优越性。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于稀疏元分析的音乐信号欠定混叠盲分离方法,其特征在于,包括以下步骤:
S1:获取I组音乐源信号,并通过J个传感器进行混叠,将其合成为J通道的混叠音乐信号;
S2:对所述混叠音乐信号进行数学建模;
S3:对所述混叠音乐信号进行短时傅里叶变换,得到频域上的混叠音乐信号;
S4:在频域上估计混叠矩阵;
S5:根据所述混叠矩阵在频域上通过稀疏元分析方法对音乐源信号进行分离,得到估计音乐源信号;其中:
所述估计音乐源信号
Figure FDA0003368075780000011
的具体公式如下:
Figure FDA0003368075780000012
式中,
Figure FDA0003368075780000013
表示lp范数,且
Figure FDA0003368075780000014
所述估计音乐源信号
Figure FDA0003368075780000015
通过拉格朗日函数计算可得到优化解,所述拉格朗日函数的公式如下:
Figure FDA0003368075780000016
其中,α∈CJ×I为拉格朗日乘数;
通过所述拉格朗日函数得到的估计音乐源信号
Figure FDA0003368075780000017
的优化解如下:
Figure FDA0003368075780000018
Figure FDA0003368075780000019
其中,ψ-1(·)表示对角矩阵;
S6:对所述估计音乐源信号进行傅里叶变换的逆运算,得到完成分离的时域上的估计音乐源信号。
2.根据权利要求1所述的基于稀疏元分析的音乐信号欠定混叠盲分离方法,其特征在于:所述S2步骤中,根据所述I组音乐源信号s(t)=[s1(t),...,sI(t)]T,通过J个传感器进行混叠,将其合成为J通道的混叠音乐信号,得到所述混叠音乐信号的数学模型如下:
x(t)=A·s(t)
其中,x(t)=[x1(t),...,xJ(t)]T为时域上的混叠音乐信号,xJ(t)表示通过第J个传感器进行混叠的混叠音乐信号;sI(t)表示第I组音乐源信号;A∈RJ×I为待估计的混叠矩阵。
3.根据权利要求2所述的基于稀疏元分析的音乐信号欠定混叠盲分离方法,其特征在于:所述S4步骤中的估计混叠矩阵的制备步骤如下:选择同一空间中连续两个连续帧数据对单个音乐源信号数据进行检测,然后根据检测数据对音乐源信号和混叠矩阵的空间方向进行识别,得到估计的混叠矩阵。
CN201910642379.9A 2019-07-16 2019-07-16 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法 Active CN110491408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910642379.9A CN110491408B (zh) 2019-07-16 2019-07-16 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910642379.9A CN110491408B (zh) 2019-07-16 2019-07-16 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法

Publications (2)

Publication Number Publication Date
CN110491408A CN110491408A (zh) 2019-11-22
CN110491408B true CN110491408B (zh) 2021-12-24

Family

ID=68547384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910642379.9A Active CN110491408B (zh) 2019-07-16 2019-07-16 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法

Country Status (1)

Country Link
CN (1) CN110491408B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114965367B (zh) * 2022-06-14 2024-06-25 广东工业大学 一种用于光学层析测量的混叠正弦波信号分离方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1719129A1 (en) * 2004-02-26 2006-11-08 Seung Hyon Nam The methods andapparatus for blind separation of multichannel convolutive mixtures in the frequency domain
CN102568493A (zh) * 2012-02-24 2012-07-11 大连理工大学 一种基于最大矩阵对角率的欠定盲分离方法
CN102789783A (zh) * 2011-07-12 2012-11-21 大连理工大学 一种基于矩阵变换的欠定盲分离方法
CN104199060A (zh) * 2014-08-01 2014-12-10 广东工业大学 一种基于盲混叠与盲分离的卫星导航信号捕获方法及装置
CN106448694A (zh) * 2016-09-08 2017-02-22 哈尔滨工程大学 一种基于复角检测的欠定盲源分离中的时频单源点提取方法
CN106548198A (zh) * 2016-10-21 2017-03-29 广东石油化工学院 一种适用于欠定盲分离的新型K‑mean聚类方法
CN109671447A (zh) * 2018-11-28 2019-04-23 广东工业大学 一种双通道欠定卷积混叠信号盲分离方法
CN109711073A (zh) * 2018-12-29 2019-05-03 广东工业大学 一种基于稀疏表示的心肺音混叠信号盲源分离方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1719129A1 (en) * 2004-02-26 2006-11-08 Seung Hyon Nam The methods andapparatus for blind separation of multichannel convolutive mixtures in the frequency domain
CN102789783A (zh) * 2011-07-12 2012-11-21 大连理工大学 一种基于矩阵变换的欠定盲分离方法
CN102568493A (zh) * 2012-02-24 2012-07-11 大连理工大学 一种基于最大矩阵对角率的欠定盲分离方法
CN104199060A (zh) * 2014-08-01 2014-12-10 广东工业大学 一种基于盲混叠与盲分离的卫星导航信号捕获方法及装置
CN106448694A (zh) * 2016-09-08 2017-02-22 哈尔滨工程大学 一种基于复角检测的欠定盲源分离中的时频单源点提取方法
CN106548198A (zh) * 2016-10-21 2017-03-29 广东石油化工学院 一种适用于欠定盲分离的新型K‑mean聚类方法
CN109671447A (zh) * 2018-11-28 2019-04-23 广东工业大学 一种双通道欠定卷积混叠信号盲分离方法
CN109711073A (zh) * 2018-12-29 2019-05-03 广东工业大学 一种基于稀疏表示的心肺音混叠信号盲源分离方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Underdetermined blind source separation using sparse representations》;Pau Bofill et al.;《Signal Processing》;20010620;全文 *
《Under-Determined Convolutive Blind Source Separation Combining Density-Based Clustering and Sparse Reconstruction in Time-Frequency Domain》;Junjie Yang et al.;《IEEE Transactions on Circuits and Systems I: Regular Papers》;20190429;第66卷(第8期);全文 *
《基于稀疏元分析的欠定混叠自适应盲分离方法》;谢胜利 等;《中国科学》;20091231;第37卷(第8期);全文 *

Also Published As

Publication number Publication date
CN110491408A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
JP4810109B2 (ja) 別個の信号の成分を分離する方法およびシステム
JP2007526511A (ja) 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置
Bao et al. A compressed sensing approach to blind separation of speech mixture based on a two-layer sparsity model
Venkataramani et al. Adaptive front-ends for end-to-end source separation
Mimilakis et al. A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation
JP6987075B2 (ja) オーディオ源分離
EP3726529A1 (en) Method and apparatus for determining a deep filter
Tengtrairat et al. Single-channel separation using underdetermined blind autoregressive model and least absolute deviation
KR20170101614A (ko) 분리 음원을 합성하는 장치 및 방법
Mazur et al. An approach for solving the permutation problem of convolutive blind source separation based on statistical signal models
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Czyzewski Automatic identification of sound source position employing neural networks and rough sets
Kemiha et al. Complex blind source separation
CN110491408B (zh) 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法
Liu et al. Use of bimodal coherence to resolve the permutation problem in convolutive BSS
Das et al. ICA methods for blind source separation of instantaneous mixtures: A case study
Cichocki et al. Blind signal extraction of signals with specified frequency band
Narayanaswamy et al. Audio source separation via multi-scale learning with dilated dense u-nets
CN110956978B (zh) 一种基于欠定卷积混叠模型的稀疏盲分离方法
El Chami et al. A new model-based underdetermined speech separation
CN108304855B (zh) 一种海洋环境下多潜水艇特征信号盲源分离方法
Li et al. Expectation‐maximisation for speech source separation using convolutive transfer function
Sbai et al. Robust underdetermined blind audio source separation of sparse signals in the time-frequency domain
CN113345465A (zh) 语音分离方法、装置、设备及计算机可读存储介质
Bella et al. A new sparse blind source separation method for determined linear convolutive mixtures in time-frequency domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant