CN104134444A - 一种基于mmse的歌曲去伴奏方法和装置 - Google Patents

一种基于mmse的歌曲去伴奏方法和装置 Download PDF

Info

Publication number
CN104134444A
CN104134444A CN201410331430.1A CN201410331430A CN104134444A CN 104134444 A CN104134444 A CN 104134444A CN 201410331430 A CN201410331430 A CN 201410331430A CN 104134444 A CN104134444 A CN 104134444A
Authority
CN
China
Prior art keywords
signal
spectrum
frame
audio accompaniment
song
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410331430.1A
Other languages
English (en)
Other versions
CN104134444B (zh
Inventor
王子亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Net eVideo Information Systems Co Ltd
Original Assignee
Fujian Star Net eVideo Information Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Net eVideo Information Systems Co Ltd filed Critical Fujian Star Net eVideo Information Systems Co Ltd
Priority to CN201410331430.1A priority Critical patent/CN104134444B/zh
Publication of CN104134444A publication Critical patent/CN104134444A/zh
Application granted granted Critical
Publication of CN104134444B publication Critical patent/CN104134444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明披露了一种基于MMSE(最小均方误差估计)的歌曲去伴奏方法,包括步骤:输入歌曲音频信号和与其对应的伴奏音频信号;将歌曲音频信号和伴奏音频信号进行分帧、加窗、FFT变换处理;对伴奏音频信号的幅度谱进行增强;根据增强后的伴奏音频信号的幅度谱对歌曲音频信号的频谱进行MMSE估计得到谱增益系数,进一步得到去伴奏音频信号的频谱,并进行FFT逆变换即可得到去除伴奏后的音频信号。本发明还提供了实现上述方法的装置。本发明的技术效果为从歌曲中有效地提取出人声信号,并且可以保持较好的音质,从而为下一步音频数据的分析、检索等奠定良好的基础,具有较强的实用价值以及应用前景。

Description

一种基于MMSE的歌曲去伴奏方法和装置
技术领域
本发明涉及音频信号处理领域
背景技术
歌声分离系统在某些领域有广泛的应用,例如歌词的自动识别和校正,就需要以先期的人声分离作为基础来进行。歌词自动识别通常要求输入处理系统的是单独的人声,有伴奏干扰的情况下很难完成,但因为大多数歌曲都同时包含歌声与乐器伴奏,直接进行是不实际的。
在从不同声源分离声音问题上,这样的任务对于人来说是容易的,但对于机器而言却很困难。语音分离已经得到广泛的研究,但由于音乐是一种极其复杂的信号,包含歌声以及不同乐器的多路信号混合在一起,并且乐器声音与歌声还是相关的,采用语音信号盲分离技术很难分离出纯净的歌声。
最小均方误差(Minimum Mean-Square Error,MMSE)估计是一种语音增强算法,其能够有效地抑制背景噪声,从而提高输入信号的信噪比(Signal-to-Noise Ratio,SNR)。对于最小均方误差估计,在Y.Ephraim和D.Malah的文献《Speech enhancement using a minimum mean-square error short-timespectral amplitude estimator,IEEE Trans.Acoustic,Speech,and SignalProcessing》(Vol.ASSP-32,pp.1109-1121,1984)中进行了详细的描述。
发明内容
为此,需要提供一种有效地从一歌曲音频信号中分离或提取出人声的方法。
为此,发明人提供了一种基于MMSE的歌曲去伴奏的方法,包括步骤:
输入歌曲音频信号和与其对应的伴奏音频信号,所述伴奏音频信号与歌曲音频信号存在时间同步关系;
分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号;
对伴奏音频信号的幅度谱进行增强处理;
根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数;
根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱;
将去伴奏音频信号的频谱逆变换为时域信号。
在步骤“分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号”之前还包括步骤:对歌曲音频信号和伴奏音频信号进行归一化处理,再将歌曲音频信号和伴奏音频信号分别划分为若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点。
步骤“将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧”后还包括步骤:
对每帧进行加汉宁窗滤波处理。
步骤“对伴奏音频信号的幅度谱进行增强处理”具体包括:
遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点,找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值,将该最大值作为当前帧对应频点的新值,其中m为预设的正整数。
步骤“根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数”具体包括步骤:
遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧;
计算歌曲音频信号当前帧的能量谱power(i),i=0,1,2...FN/2,其中FN表示FFT变换的点数,公式为:
power(i)=Sn(i)^2,其中sn(i)表示歌曲音频信号的幅度谱;
计算经增强处理的伴奏音频幅度谱的对应帧的估计能量谱noise(i),i=0,1,2...FN/2,公式为:
noise(i)=b*Mn(i)^2,其中Mn(i)表示伴奏音频信号的幅度谱;
计算去伴奏音频信号对应帧的估计能量谱,公式为:
signal(i)=(1-beta)*sig1(i)+beta*sig2(i),i=0,1,2...FN/2;
其中,sig1(i)=max(0,power(i)-noise(i)),sig2(i)表示上一帧去伴奏音频信号的能量谱,beta为常数,且0<beta<1。
根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i),公式分别为:
epsi(i)=signal(i)/noise(i);以及
g(i)=power(i)/noise(i);
根据epsi(i)和g(i)计算谱增益系数F(i),公式为:
F(i)=gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2));其中,v(i)=epsi(i)/(1+epsi(i))*g(i),i=0,1,2…FN/2;
Gamma表示伽马函数;besseli表示贝叶斯函数;
对谱增益系数F(i)作修正处理,公式为:F(i)=min(F(i),1)。
步骤“根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱”具体为:
根据歌曲音频信号当前帧的频谱Y(i)和经修正处理的谱增益系数F(i)确定去伴奏音频信号的频谱;公式为:
X(i)=F(i)*Y(i),i=0,1,2...FN/2,其中Y表示歌曲音频信号的当前帧的频谱。
发明人还提供了一种基于MMSE的歌曲去伴奏装置,包括变换单元、增强单元和计算单元;
所述变换单元用于分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号;
所述增强单元用于对伴奏音频信号的幅度谱进行增强处理;
所述计算单元用于根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数;
所述计算单元还用于根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱;
所述变换单元还用于将去伴奏音频信号的频谱逆变换为时域信号。
所述的基于MMSE的歌曲去伴奏装置还包括归一化单元、分帧单元、和滤波单元;
所述归一化单元用于对输入的歌曲音频信号和伴奏音频信号进行归一化处理;
所述分帧单元用于将歌曲音频信号和伴奏音频信号分别划分为若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点;
所述滤波单元用于对每帧进行加汉宁窗滤波处理。
在基于MMSE的歌曲去伴奏装置中,增强单元对伴奏音频信号的幅度谱进行增强处理具体包括:
遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点,找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值,将该最大值作为当前帧对应频点的新值,其中m为预设的正整数。
在基于MMSE的歌曲去伴奏装置中,计算单元获得谱增益系数具体包括:遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧;
计算歌曲音频信号当前帧的能量谱power(i),i=0,1,2...FN/2,其中FN表示FFT变换的点数,公式为:
power(i)=Sn(i)^2,其中sn(i)表示歌曲音频信号的幅度谱;
计算经增强处理的伴奏音频信号幅度谱的对应帧的估计能量谱noise(i),i=0,1,2...FN/2,公式为:
noise(i)=b*Mn(i)^2,其中Mn(i)表示伴奏音频信号的幅度谱;
计算去伴奏音频信号的对应帧的估计能量谱,公式为:
signal(i)=(1-beta)*sig1(i)+beta*sig2(i),i=0,1,2...FN/2;;
其中,sig1(i)=max(0,power(i)-noise(i)),sig2(i)表示上一帧去伴奏音频信号的能量谱,beta为常数,且0<beta<1。
根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i),公式分别为:
epsi(i)=signal(i)/noise(i);以及
g(i)=power(i)/noise(i);
根据epsi(i)和g(i)计算谱增益系数F(i),公式为:
F(i)=gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2));其中,v(i)=epsi(i)/(1+epsi(i))*g(i),i=0,1,2…FN/2;
Gamma表示伽马函数;besseli表示贝叶斯函数;
对谱增益系数F(i)作修正处理;公式为:
F(i)=min(F(i),1);
计算单元根据歌曲音频信号的频谱Y(i)和经修正处理的谱增益系数F(i)确定去伴奏音频信号的频谱;公式为:
X(i)=F(i)*Y(i),i=0,1,2...FN/2,其中Y表示歌曲音频信号的当前帧的频谱。
区别于现有技术,上述技术方案能从歌曲中有效地提取出人声,并且可以保持较好的音质,从而为下一步音频数据的分析、检索等奠定良好的基础,具有较强的实用价值以及应用前景。
附图说明
图1为本发明一实施方式所述基于MMSE的歌曲去伴奏的流程图;
图2为本发明另一实施方式所述基于MMSE的歌曲去伴奏装置的结构示意图;
图3为歌曲《遇见》的歌曲音频时域波形;
图4为歌曲《遇见》的伴奏音频时域波形;
图5为歌曲《遇见》经本发明实施方式所得去伴奏音频的时域波形。
附图标记说明:
1-归一化单元
2-分帧单元
3-变换单元
4-增强单元
5-计算单元
6-连接单元
7-滤波单元
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述基于MMSE的歌曲去伴奏的流程图;所述方法包括步骤:
S1、输入歌曲音频和与其对应的伴奏音频的信号,所述伴奏音频信号与歌曲音频信号存在时间同步对应关系。
并且,所述伴奏音频信号与歌曲音频信号中的伴奏成分具有较大的相关性,比如KTV系统中所提供的原唱音频和与原唱音频相对应的伴奏音频就满足上述特点。
S2、对歌曲音频信号和伴奏音频信号进行归一化处理。
本步骤所述归一化处理的方式是找出信号绝对值的最大值,将原信号除以该最大值,处理结果是使信号的正负幅值位于-1与+1之间。
S3、将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点。例如本实施方式中,将音频时域信号划分为N个帧,每帧包括512个声音采样点(音频采样率为16khz),并且相邻帧之间有256个采样点的重合。这种处理的目的是使帧与帧之间具有平滑过渡的效果。
S4、对每帧进行加汉宁窗滤波处理。本步骤的处理效果是降低后续时域到频域变换所可能造成的频谱泄露程度。
S5、分别将歌曲音频信号和伴奏音频信号经划分后的各帧由时域信号变换为频域信号。所采用的变换算法为快速傅里叶变换(Fast Fourier Transform,FFT)。并计算歌曲音频信号的幅度谱sn(i),i=0,1,2…256,n=0,1,2…N-1和伴奏音频的幅度谱Mn(i),i=0,1,2…256,n=0,1,2…N-1。
S6、对伴奏音频的幅度谱进行增强处理。本实施方式中,本步骤的具体做法包括:遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点,找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值,将该最大值作为当前帧对应频点的新值,其中m为预设的正整数。本实施方式中m取2。
具体的计算公式为:
Mn(i)=max(MMn-2(i),MMn-1(i),MMn(i),MMn+1(i),MMn+2(i)),i=0,1,2…256,n=2,3,4…N-3其中,MMn(i)=Mn(i),i=0,1,2…256,n=0,1,2…N-1,表示拷贝的伴奏音频信号幅度谱缓存。
S7、根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数。具体包括:
遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧,即n=0,1,2…N-1。
S71、计算歌曲音频信号当前帧的能量谱power(i),公式为:
power(i)=Sn(i)^2,i=0,1,2…256。
S72、计算经增强处理的伴奏音频信号的幅度谱的对应帧的估计能量谱noise(i);公式为:
noise(i)=b*Mn(i)^2,i=0,1,2…256。
其中b为调整因子,可以调整从歌曲音频信号中去除伴奏成分的程度,本实施方式中b的取值为1.5。
S73、计算去伴奏音频信号的对应帧的估计能量谱;公式为:
signal(i)=(1-beta)*sig1(i)+beta*sig2(i),i=0,1,2…256。
其中,sig1(i)=max(0,power(i)-noise(i)),i=0,1,2…256;
sig2(i)表示上一帧去伴奏音频信号的能量谱;
beta为常数,且0<beta<1,这里取0.95。
S74、根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i);公式分别为:
epsi(i)=signal(i)/noise(i),i=0,1,2…256;以及
g(i)=power(i)/noise(i),i=0,1,2…256。
S75、根据epsi(i)和g(i)计算谱增益系数F(i),公式为:
F(i)=gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2))i=0,1,2…256;
其中,v(i)=epsi(i)/(1+epsi(i))*g(i),i=0,1,2…256;
Gamma表示伽马函数;besseli表示贝叶斯函数。
S76、对谱增益系数F(i)作修正处理。公式为:
F(i)=min(F(i),1),i=0,1,2…256。
S8、根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱;具体做法是根据歌曲音频信号的当前帧频谱Y(i)和经修正处理的谱增益系数F(i)确定,公式为:
X(i)=F(i)*Y(i),i=0,1,2…256,其中Y表示歌曲音频信号的当前帧的频谱。所得到的X(i)即为去伴奏音频信号的对应帧的频谱。
S9、将去伴奏音频信号的频谱逆变换为时域信号;算法为FFT逆变换。
重复执行步骤S71-S9,直到遍历完所有帧。
S10、得到所有的去伴奏音频时域帧后,连接各帧得到完整的去伴奏音频的时域信号。
请参阅图3、图4和图5;图3为歌曲《遇见》的歌曲音频时域波形;图4为歌曲《遇见》的伴奏音频时域波形;图5为歌曲《遇见》经本发明实施方式所得去伴奏音频的时域波形。用播放器播放去伴奏后的音频,可以听到,伴奏已经基本去除干净,人声仍然保持很好的音质。
请参阅图2,为本发明另一实施方式所述歌曲去伴奏装置的结构示意图。所述装置包括归一化单元1、分帧单元2、变换单元3、增强单元4和计算单元5。所述装置实现歌曲去伴奏具体如下述方式进行:
首先,归一化单元1对歌曲音频信号和伴奏音频信号进行归一化处理。
所述归一化处理的方式是找出信号绝对值的最大值,将原信号除以该最大值,处理结果是使信号的正负幅值位于-1与+1之间。
所述伴奏音频信号与歌曲音频信号存在时间同步对应关系。
并且,所述伴奏音频信号与歌曲音频信号中的伴奏成分具有较大的相关性,比如KTV系统中所提供的原唱音频和与原唱音频相对应的伴奏音频就满足上述特点。
分帧单元2用于将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点。例如本实施方式中,将音频信号划分为N个帧,每帧包括512个声音采样点(音频采样率为16khz),并且相邻帧之间有256个采样点的重合。这种处理的目的是使帧与帧之间具有平滑过渡的效果。
滤波单元7用于对经分帧单元划分所得到的每帧进行加汉宁窗滤波处理。滤波单元7的处理效果是降低后续时域到频域变换所可能造成的频谱泄露程度。
变换单元3用于分别将歌曲音频信号和伴奏音频信号经划分后的各帧由时域信号变换为频域信号。所采用的变换算法为快速傅里叶变换(Fast FourierTransform,FFT)。并计算歌曲音频信号的幅度谱sn(i),i=0,1,2…256,n=0,1,2…N-1和伴奏音频的幅度谱Mn(i),i=0,1,2…256,n=0,1,2…N-1。
增强单元4用于对伴奏音频信号的幅度谱进行增强处理。本实施方式中,所述增强处理的具体方式包括:遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点,找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值,将该最大值作为当前帧对应频点的新值,其中m为预设的正整数。本实施方式中m取2。
计算公式为:
Mn(i)=max(MMn-2(i),MMn-1(i),MMn(i),MMn+1(i),MMn+2(i)),i=0,1,2…256,n=2,3,4…N-3其中,MMn(i)=Mn(i),i=0,1,2…256,n=0,1,2…N-1,表示拷贝的伴奏音频信号幅度谱缓存。
计算单元5进一步地根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数。做法具体包括:
遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧,即n=0,1,2…N-1。对所遍历的每一帧,做如下处理:
计算歌曲音频信号当前帧的能量谱power(i);公式为:
power(i)=Sn(i)^2,i=0,1,2…256。
计算对经增强处理的伴奏音频信号的幅度谱的对应帧的估计能量谱noise(i);公式为:
noise(i)=b*Mn(i)^2,i=0,1,2…256。
其中b为调整因子,可以调整从歌曲音频信号中去除伴奏成分程度,本实施方式中b的取值为1.5。
计算去伴奏音频信号对应帧的估计能量谱;公式为:
signal(i)=(1-beta)*sig1(i)+beta*sig2(i),i=0,1,2…256。
其中,sig1(i)=max(0,power(i)-noise(i)),i=0,1,2…256;
sig2(i)表示上一帧去伴奏音频信号的能量谱;
beta为常数,且0<beta<1,这里取0.95。
根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i);公式分别为:
epsi(i)=signal(i)/noise(i),i=0,1,2…256;以及
g(i)=power(i)/noise(i),i=0,1,2…256。
根据epsi(i)和g(i)计算谱增益系数F(i),公式为:
F(i)=gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2))i=0,1,2…256;
其中,v(i)=epsi(i)/(1+epsi(i))*g(i),i=0,1,2…256;
Gamma表示伽马函数;besseli表示贝叶斯函数。
对谱增益系数F(i)作修正处理。公式为:
F(i)=min(F(i),1),i=0,1,2…256。
计算单元5进一步地根据所述谱增益系数从歌曲音频信号的频谱中得到去伴奏音频信号的频谱;具体做法是根据歌曲音频信号的频谱Y(i)和经修正处理的谱增益系数F(i)确定,公式为:
X(i)=F(i)*Y(i),i=0,1,2…256,其中Y表示歌曲音频信号的当前帧的频谱。所得到的X(i)即为去伴奏音频的对应帧的频谱。
变换单元3进一步被用于将去伴奏音频信号的频谱逆变换为时域信号;算法为FFT逆变换。
本发明所述的歌曲去伴奏装置还包括连接单元6,得到所有的去伴奏音频时域帧后,连接单元6用于连接所述各帧。即得到完整的去伴奏音频的时域信号。
本发明所述实施方式能从歌曲中有效地提取出人声,并且可以保持较好的音质,从而为下一步音频数据的分析、检索等奠定良好的基础,具有较强的实用价值以及应用前景。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于MMSE的歌曲去伴奏的方法,包括步骤:
输入歌曲音频信号和与其对应的伴奏音频信号,所述伴奏音频信号与歌曲音频信号存在时间同步关系;
分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号;
对伴奏音频信号的幅度谱进行增强处理;
根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数;
根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱;
将去伴奏音频信号的频谱逆变换为时域信号。
2.如权利要求1所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:在步骤“分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号”之前还包括步骤:对歌曲音频信号和伴奏音频信号进行归一化处理,再将歌曲音频信号和伴奏音频信号分别划分为若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点。
3.如权利要求2所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:在步骤“将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧”后还包括步骤:
对每帧进行加汉宁窗滤波处理。
4.如权利要求1所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:步骤“对伴奏音频信号的幅度谱进行增强处理”具体包括:
遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点,找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值,将该最大值作为当前帧对应频点的新值,其中m为预设的正整数。
5.如权利要求1或4所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:步骤“根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数”具体包括步骤:
遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧;
计算歌曲音频信号当前帧的能量谱power(i),i=0,1,2...FN/2,其中FN表示FFT变换的点数,公式为:
power(i)=Sn(i)^2,其中sn(i)表示歌曲音频信号的幅度谱;
计算经增强处理的伴奏音频信号幅度谱的对应帧的估计能量谱noise(i),i=0,1,2...FN/2,公式为:
noise(i)=b*Mn(i)^2,其中Mn(i)表示伴奏音频信号的幅度谱;
计算去伴奏音频信号对应帧的估计能量谱,公式为:
signal(i)=(1-beta)*sig1(i)+beta*sig2(i),i=0,1,2...FN/2;
其中,sig1(i)=max(0,power(i)-noise(i)),sig2(i)表示上一帧去伴奏音频信号的能量谱,beta为常数,且0<beta<1;
根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i),公式分别为:
epsi(i)=signal(i)/noise(i);以及
g(i)=power(i)/noise(i);
根据epsi(i)和g(i)计算谱增益系数F(i),公式为:
F(i)=gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2));其中,v(i)=epsi(i)/(1+epsi(i))*g(i),i=0,1,2…FN/2;
Gamma表示伽马函数;besseli表示贝叶斯函数;
对谱增益系数F(i)作修正处理,公式为:F(i)=min(F(i),1)。
6.如权利要求1所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:步骤“根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱”具体为:
根据歌曲音频信号当前帧的频谱Y(i)和经修正处理的谱增益系数F(i)确定去伴奏音频信号的频谱;公式为:
X(i)=F(i)*Y(i),i=0,1,2...FN/2,其中Y表示歌曲音频信号的当前帧的频谱。
7.一种基于MMSE的歌曲去伴奏装置,其特征在于:包括变换单元、增强单元和计算单元;
所述变换单元用于分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号;
所述增强单元用于对伴奏音频信号的幅度谱进行增强处理;
所述计算单元用于根据增强处理后的伴奏音频信号的幅度谱,对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数;
所述计算单元还用于根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱;
所述变换单元还用于将去伴奏音频信号的频谱逆变换为时域信号。
8.如权利要求7所述的基于MMSE的歌曲去伴奏装置,其特征在于:还包括归一化单元、分帧单元和滤波单元;
所述归一化单元用于对歌曲音频信号和伴奏音频信号进行归一化处理;
所述分帧单元用于将歌曲音频信号和伴奏音频信号分别划分为若干帧,每帧包括预设数量的声音采样点,并且相邻帧之间有预设数量的重合采样点;
所述滤波单元用于对每帧进行加汉宁窗滤波处理。
9.如权利要求7或8所述的基于MMSE的歌曲去伴奏装置中,其特征在于:所述增强单元对伴奏音频信号的幅度谱进行增强处理具体包括:
遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点,找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值,将该最大值作为当前帧对应频点的新值,其中m为预设的正整数。
10.如权利要求7或8所述的基于MMSE的歌曲去伴奏装置中,其特征在于:计算单元获得谱增益系数具体包括:遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧;
计算歌曲音频信号当前帧的能量谱power(i),i=0,1,2...FN/2,其中FN表示FFT变换的点数,公式为:
power(i)=Sn(i)^2,其中sn(i)表示歌曲音频信号的幅度谱;
计算经增强处理的伴奏音频信号幅度谱的对应帧的估计能量谱noise(i),i=0,1,2...FN/2,公式为:
noise(i)=b*Mn(i)^2,其中Mn(i)表示伴奏音频信号的幅度谱;
计算去伴奏音频信号的对应帧的估计能量谱,公式为:
signal(i)=(1-beta)*sig1(i)+beta*sig2(i),i=0,1,2...FN/2;
其中,sig1(i)=max(0,power(i)-noise(i)),sig2(i)表示上一帧去伴奏音频信号的能量谱,beta为常数,且0<beta<1;
根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i),公式分别为:
epsi(i)=signal(i)/noise(i);以及
g(i)=power(i)/noise(i);
根据epsi(i)和g(i)计算谱增益系数F(i),公式为:
F(i)=gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2));其中,v(i)=epsi(i)/(1+epsi(i))*g(i),i=0,1,2…FN/2;
Gamma表示伽马函数;besseli表示贝叶斯函数;
对谱增益系数F(i)作修正处理;公式为:
F(i)=min(F(i),1);
计算单元根据歌曲音频信号的频谱Y(i)和经修正处理的谱增益系数F(i)确定去伴奏音频信号的频谱;公式为:
X(i)=F(i)*Y(i),i=0,1,2...FN/2,其中Y表示歌曲音频信号的当前帧的频谱。
CN201410331430.1A 2014-07-11 2014-07-11 一种基于mmse的歌曲去伴奏方法和装置 Active CN104134444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410331430.1A CN104134444B (zh) 2014-07-11 2014-07-11 一种基于mmse的歌曲去伴奏方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410331430.1A CN104134444B (zh) 2014-07-11 2014-07-11 一种基于mmse的歌曲去伴奏方法和装置

Publications (2)

Publication Number Publication Date
CN104134444A true CN104134444A (zh) 2014-11-05
CN104134444B CN104134444B (zh) 2017-03-15

Family

ID=51807095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410331430.1A Active CN104134444B (zh) 2014-07-11 2014-07-11 一种基于mmse的歌曲去伴奏方法和装置

Country Status (1)

Country Link
CN (1) CN104134444B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575393A (zh) * 2015-12-02 2016-05-11 中国传媒大学 一种基于人声音色的个性化点唱歌曲推荐方法
CN105590633A (zh) * 2015-11-16 2016-05-18 福建省百利亨信息科技有限公司 一种用于歌曲评分的曲谱生成方法和设备
CN106297818A (zh) * 2016-09-12 2017-01-04 广州酷狗计算机科技有限公司 一种获取去噪语音信号的方法和装置
CN106448637A (zh) * 2016-10-21 2017-02-22 广州酷狗计算机科技有限公司 一种发送音频数据的方法和装置
CN107146630A (zh) * 2017-04-27 2017-09-08 同济大学 一种基于stft的双通道语声分离方法
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
WO2020015270A1 (zh) * 2018-07-20 2020-01-23 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573920A (zh) * 2003-06-02 2005-02-02 三星电子株式会社 使用独立分量分析算法分离音乐与语音的装置与方法
CN101091209A (zh) * 2005-09-02 2007-12-19 日本电气株式会社 抑制噪声的方法、装置和计算机程序
KR20080075362A (ko) * 2007-02-12 2008-08-18 인하대학교 산학협력단 잡음 환경에서 음성 신호의 추정치를 구하는 방법
CN101300623A (zh) * 2005-09-02 2008-11-05 日本电气株式会社 用于抑制噪声的方法、设备和计算机程序
US20090265168A1 (en) * 2008-04-22 2009-10-22 Electronics And Telecommunications Research Institute Noise cancellation system and method
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN103098132A (zh) * 2010-08-25 2013-05-08 旭化成株式会社 声源分离装置、声源分离方法、以及程序
CN103189913A (zh) * 2010-10-25 2013-07-03 高通股份有限公司 用于分解多信道音频信号的方法、设备和机器可读存储媒体
CN103229236A (zh) * 2010-11-25 2013-07-31 日本电气株式会社 信号处理装置、信号处理方法、及信号处理程序
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573920A (zh) * 2003-06-02 2005-02-02 三星电子株式会社 使用独立分量分析算法分离音乐与语音的装置与方法
CN101091209A (zh) * 2005-09-02 2007-12-19 日本电气株式会社 抑制噪声的方法、装置和计算机程序
CN101300623A (zh) * 2005-09-02 2008-11-05 日本电气株式会社 用于抑制噪声的方法、设备和计算机程序
KR20080075362A (ko) * 2007-02-12 2008-08-18 인하대학교 산학협력단 잡음 환경에서 음성 신호의 추정치를 구하는 방법
US20090265168A1 (en) * 2008-04-22 2009-10-22 Electronics And Telecommunications Research Institute Noise cancellation system and method
CN103098132A (zh) * 2010-08-25 2013-05-08 旭化成株式会社 声源分离装置、声源分离方法、以及程序
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN103189913A (zh) * 2010-10-25 2013-07-03 高通股份有限公司 用于分解多信道音频信号的方法、设备和机器可读存储媒体
CN103229236A (zh) * 2010-11-25 2013-07-31 日本电气株式会社 信号处理装置、信号处理方法、及信号处理程序
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭伟: ""基于盲源分离的语音音乐信号分离算法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
US10210883B2 (en) 2014-12-12 2019-02-19 Huawei Technologies Co., Ltd. Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
CN105590633A (zh) * 2015-11-16 2016-05-18 福建省百利亨信息科技有限公司 一种用于歌曲评分的曲谱生成方法和设备
CN105575393A (zh) * 2015-12-02 2016-05-11 中国传媒大学 一种基于人声音色的个性化点唱歌曲推荐方法
CN106297818A (zh) * 2016-09-12 2017-01-04 广州酷狗计算机科技有限公司 一种获取去噪语音信号的方法和装置
CN106297818B (zh) * 2016-09-12 2019-09-13 广州酷狗计算机科技有限公司 一种获取去噪语音信号的方法和装置
CN106448637A (zh) * 2016-10-21 2017-02-22 广州酷狗计算机科技有限公司 一种发送音频数据的方法和装置
CN107146630A (zh) * 2017-04-27 2017-09-08 同济大学 一种基于stft的双通道语声分离方法
CN107146630B (zh) * 2017-04-27 2020-02-14 同济大学 一种基于stft的双通道语声分离方法
WO2020015270A1 (zh) * 2018-07-20 2020-01-23 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质

Also Published As

Publication number Publication date
CN104134444B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN104134444A (zh) 一种基于mmse的歌曲去伴奏方法和装置
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
EP2633524B1 (en) Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
CN103943113B (zh) 一种歌曲去伴奏的方法和装置
CN103137136B (zh) 声音处理装置
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP2017533459A (ja) マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置
CN111128214A (zh) 音频降噪方法、装置、电子设备及介质
CN103680517A (zh) 一种音频信号的处理方法、装置及设备
CN112712816B (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
WO2014079484A1 (en) Method for determining a dictionary of base components from an audio signal
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
CN112309414B (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN111724757A (zh) 一种音频数据处理方法及相关产品
US20230267947A1 (en) Noise reduction using machine learning
CN104424971B (zh) 一种音频文件播放方法及装置
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
US20240161762A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
Du et al. Investigation of Monaural Front-End Processing for Robust ASR without Retraining or Joint-Training
Tan et al. Time-frequency representations for single-channel music source separation
Petrick et al. Robust front end processing for speech recognition in reverberant environments: Utilization of speech characteristics
JP2018049228A (ja) 音響処理装置および音響処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant