CN104134444A

CN104134444A - 一种基于mmse的歌曲去伴奏方法和装置

Info

Publication number: CN104134444A
Application number: CN201410331430.1A
Authority: CN
Inventors: 王子亮
Original assignee: Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2014-11-05
Anticipated expiration: 2034-07-11
Also published as: CN104134444B

Abstract

本发明披露了一种基于MMSE(最小均方误差估计)的歌曲去伴奏方法，包括步骤：输入歌曲音频信号和与其对应的伴奏音频信号；将歌曲音频信号和伴奏音频信号进行分帧、加窗、FFT变换处理；对伴奏音频信号的幅度谱进行增强；根据增强后的伴奏音频信号的幅度谱对歌曲音频信号的频谱进行MMSE估计得到谱增益系数，进一步得到去伴奏音频信号的频谱，并进行FFT逆变换即可得到去除伴奏后的音频信号。本发明还提供了实现上述方法的装置。本发明的技术效果为从歌曲中有效地提取出人声信号，并且可以保持较好的音质，从而为下一步音频数据的分析、检索等奠定良好的基础，具有较强的实用价值以及应用前景。

Description

一种基于MMSE的歌曲去伴奏方法和装置

技术领域

本发明涉及音频信号处理领域

背景技术

歌声分离系统在某些领域有广泛的应用，例如歌词的自动识别和校正，就需要以先期的人声分离作为基础来进行。歌词自动识别通常要求输入处理系统的是单独的人声，有伴奏干扰的情况下很难完成，但因为大多数歌曲都同时包含歌声与乐器伴奏，直接进行是不实际的。

在从不同声源分离声音问题上，这样的任务对于人来说是容易的，但对于机器而言却很困难。语音分离已经得到广泛的研究，但由于音乐是一种极其复杂的信号，包含歌声以及不同乐器的多路信号混合在一起，并且乐器声音与歌声还是相关的，采用语音信号盲分离技术很难分离出纯净的歌声。

最小均方误差(Minimum Mean-Square Error，MMSE)估计是一种语音增强算法，其能够有效地抑制背景噪声，从而提高输入信号的信噪比(Signal-to-Noise Ratio，SNR)。对于最小均方误差估计，在Y.Ephraim和D.Malah的文献《Speech enhancement using a minimum mean-square error short-timespectral amplitude estimator，IEEE Trans.Acoustic，Speech，and SignalProcessing》(Vol.ASSP-32，pp.1109-1121，1984)中进行了详细的描述。

发明内容

为此，需要提供一种有效地从一歌曲音频信号中分离或提取出人声的方法。

为此，发明人提供了一种基于MMSE的歌曲去伴奏的方法，包括步骤：

输入歌曲音频信号和与其对应的伴奏音频信号，所述伴奏音频信号与歌曲音频信号存在时间同步关系；

分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号；

对伴奏音频信号的幅度谱进行增强处理；

根据增强处理后的伴奏音频信号的幅度谱，对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数；

根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱；

将去伴奏音频信号的频谱逆变换为时域信号。

在步骤“分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号”之前还包括步骤：对歌曲音频信号和伴奏音频信号进行归一化处理，再将歌曲音频信号和伴奏音频信号分别划分为若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点。

步骤“将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧”后还包括步骤：

对每帧进行加汉宁窗滤波处理。

步骤“对伴奏音频信号的幅度谱进行增强处理”具体包括：

遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点，找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值，将该最大值作为当前帧对应频点的新值，其中m为预设的正整数。

步骤“根据增强处理后的伴奏音频信号的幅度谱，对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数”具体包括步骤：

遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧；

计算歌曲音频信号当前帧的能量谱power(i),i＝0,1,2...FN/2，其中FN表示FFT变换的点数，公式为：

power(i)＝S_n(i)^2，其中s_n(i)表示歌曲音频信号的幅度谱；

计算经增强处理的伴奏音频幅度谱的对应帧的估计能量谱noise(i),i＝0,1,2...FN/2，公式为：

noise(i)＝b*M_n(i)^2，其中M_n(i)表示伴奏音频信号的幅度谱；

计算去伴奏音频信号对应帧的估计能量谱，公式为：

signal(i)＝(1-beta)*sig1(i)+beta*sig2(i),i＝0,1,2...FN/2；

其中，sig1(i)＝max(0,power(i)-noise(i))，sig2(i)表示上一帧去伴奏音频信号的能量谱，beta为常数，且0<beta<1。

根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i)，公式分别为：

epsi(i)＝signal(i)/noise(i)；以及

g(i)＝power(i)/noise(i)；

根据epsi(i)和g(i)计算谱增益系数F(i)，公式为：

F(i)＝gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2))；其中，v(i)＝epsi(i)/(1+epsi(i))*g(i),i＝0,1,2…FN/2；

Gamma表示伽马函数；besseli表示贝叶斯函数；

对谱增益系数F(i)作修正处理，公式为：F(i)＝min(F(i),1)。

步骤“根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱”具体为：

根据歌曲音频信号当前帧的频谱Y(i)和经修正处理的谱增益系数F(i)确定去伴奏音频信号的频谱；公式为：

X(i)＝F(i)*Y(i)，i＝0,1,2...FN/2，其中Y表示歌曲音频信号的当前帧的频谱。

发明人还提供了一种基于MMSE的歌曲去伴奏装置，包括变换单元、增强单元和计算单元；

所述变换单元用于分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号；

所述增强单元用于对伴奏音频信号的幅度谱进行增强处理；

所述计算单元用于根据增强处理后的伴奏音频信号的幅度谱，对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数；

所述计算单元还用于根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱；

所述变换单元还用于将去伴奏音频信号的频谱逆变换为时域信号。

所述的基于MMSE的歌曲去伴奏装置还包括归一化单元、分帧单元、和滤波单元；

所述归一化单元用于对输入的歌曲音频信号和伴奏音频信号进行归一化处理；

所述分帧单元用于将歌曲音频信号和伴奏音频信号分别划分为若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点；

所述滤波单元用于对每帧进行加汉宁窗滤波处理。

在基于MMSE的歌曲去伴奏装置中，增强单元对伴奏音频信号的幅度谱进行增强处理具体包括：

在基于MMSE的歌曲去伴奏装置中，计算单元获得谱增益系数具体包括：遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧；

power(i)＝S_n(i)^2，其中s_n(i)表示歌曲音频信号的幅度谱；

计算经增强处理的伴奏音频信号幅度谱的对应帧的估计能量谱noise(i),i＝0,1,2...FN/2，公式为：

noise(i)＝b*M_n(i)^2，其中M_n(i)表示伴奏音频信号的幅度谱；

计算去伴奏音频信号的对应帧的估计能量谱，公式为：

signal(i)＝(1-beta)*sig1(i)+beta*sig2(i),i＝0,1,2...FN/2；；

epsi(i)＝signal(i)/noise(i)；以及

g(i)＝power(i)/noise(i)；

根据epsi(i)和g(i)计算谱增益系数F(i)，公式为：

Gamma表示伽马函数；besseli表示贝叶斯函数；

对谱增益系数F(i)作修正处理；公式为：

F(i)＝min(F(i),1)；

计算单元根据歌曲音频信号的频谱Y(i)和经修正处理的谱增益系数F(i)确定去伴奏音频信号的频谱；公式为：

区别于现有技术，上述技术方案能从歌曲中有效地提取出人声，并且可以保持较好的音质，从而为下一步音频数据的分析、检索等奠定良好的基础，具有较强的实用价值以及应用前景。

附图说明

图1为本发明一实施方式所述基于MMSE的歌曲去伴奏的流程图；

图2为本发明另一实施方式所述基于MMSE的歌曲去伴奏装置的结构示意图；

图3为歌曲《遇见》的歌曲音频时域波形；

图4为歌曲《遇见》的伴奏音频时域波形；

图5为歌曲《遇见》经本发明实施方式所得去伴奏音频的时域波形。

附图标记说明：

1-归一化单元

2-分帧单元

3-变换单元

4-增强单元

5-计算单元

6-连接单元

7-滤波单元

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明一实施方式所述基于MMSE的歌曲去伴奏的流程图；所述方法包括步骤：

S1、输入歌曲音频和与其对应的伴奏音频的信号，所述伴奏音频信号与歌曲音频信号存在时间同步对应关系。

并且，所述伴奏音频信号与歌曲音频信号中的伴奏成分具有较大的相关性，比如KTV系统中所提供的原唱音频和与原唱音频相对应的伴奏音频就满足上述特点。

S2、对歌曲音频信号和伴奏音频信号进行归一化处理。

本步骤所述归一化处理的方式是找出信号绝对值的最大值，将原信号除以该最大值，处理结果是使信号的正负幅值位于-1与+1之间。

S3、将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点。例如本实施方式中，将音频时域信号划分为N个帧，每帧包括512个声音采样点(音频采样率为16khz)，并且相邻帧之间有256个采样点的重合。这种处理的目的是使帧与帧之间具有平滑过渡的效果。

S4、对每帧进行加汉宁窗滤波处理。本步骤的处理效果是降低后续时域到频域变换所可能造成的频谱泄露程度。

S5、分别将歌曲音频信号和伴奏音频信号经划分后的各帧由时域信号变换为频域信号。所采用的变换算法为快速傅里叶变换(Fast Fourier Transform，FFT)。并计算歌曲音频信号的幅度谱s_n(i),i＝0,1,2…256,n＝0,1,2…N-1和伴奏音频的幅度谱M_n(i),i＝0,1,2…256,n＝0,1,2…N-1。

S6、对伴奏音频的幅度谱进行增强处理。本实施方式中，本步骤的具体做法包括：遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点，找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值，将该最大值作为当前帧对应频点的新值，其中m为预设的正整数。本实施方式中m取2。

具体的计算公式为：

M_n(i)＝max(MM_n-2(i),MM_n-1(i),MM_n(i),MM_n+1(i),MM_n+2(i)),i＝0,1,2…256,n＝2,3,4…N-3其中，MM_n(i)＝M_n(i),i＝0,1,2…256,n＝0,1,2…N-1，表示拷贝的伴奏音频信号幅度谱缓存。

S7、根据增强处理后的伴奏音频信号的幅度谱，对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数。具体包括：

遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧，即n＝0,1,2…N-1。

S71、计算歌曲音频信号当前帧的能量谱power(i)，公式为：

power(i)＝S_n(i)^2,i＝0,1,2…256。

S72、计算经增强处理的伴奏音频信号的幅度谱的对应帧的估计能量谱noise(i)；公式为：

noise(i)＝b*M_n(i)^2,i＝0,1,2…256。

其中b为调整因子，可以调整从歌曲音频信号中去除伴奏成分的程度，本实施方式中b的取值为1.5。

S73、计算去伴奏音频信号的对应帧的估计能量谱；公式为：

signal(i)＝(1-beta)*sig1(i)+beta*sig2(i),i＝0,1,2…256。

其中，sig1(i)＝max(0,power(i)-noise(i)),i＝0,1,2…256；

sig2(i)表示上一帧去伴奏音频信号的能量谱；

beta为常数，且0<beta<1，这里取0.95。

S74、根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i)；公式分别为：

epsi(i)＝signal(i)/noise(i),i＝0,1,2…256；以及

g(i)＝power(i)/noise(i),i＝0,1,2…256。

S75、根据epsi(i)和g(i)计算谱增益系数F(i)，公式为：

F(i)＝gamma(1.5)*sqrt(v(i))/g(i)*exp(-v(i)/2)*((1+v(i))*besseli(0,v(i)/2)+v(i)*besseli(1,v(i)/2))i＝0,1,2…256；

其中，v(i)＝epsi(i)/(1+epsi(i))*g(i),i＝0,1,2…256；

Gamma表示伽马函数；besseli表示贝叶斯函数。

S76、对谱增益系数F(i)作修正处理。公式为：

F(i)＝min(F(i),1),i＝0,1,2…256。

S8、根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱；具体做法是根据歌曲音频信号的当前帧频谱Y(i)和经修正处理的谱增益系数F(i)确定，公式为：

X(i)＝F(i)*Y(i),i＝0,1,2…256，其中Y表示歌曲音频信号的当前帧的频谱。所得到的X(i)即为去伴奏音频信号的对应帧的频谱。

S9、将去伴奏音频信号的频谱逆变换为时域信号；算法为FFT逆变换。

重复执行步骤S71-S9，直到遍历完所有帧。

S10、得到所有的去伴奏音频时域帧后，连接各帧得到完整的去伴奏音频的时域信号。

请参阅图3、图4和图5；图3为歌曲《遇见》的歌曲音频时域波形；图4为歌曲《遇见》的伴奏音频时域波形；图5为歌曲《遇见》经本发明实施方式所得去伴奏音频的时域波形。用播放器播放去伴奏后的音频，可以听到，伴奏已经基本去除干净，人声仍然保持很好的音质。

请参阅图2，为本发明另一实施方式所述歌曲去伴奏装置的结构示意图。所述装置包括归一化单元1、分帧单元2、变换单元3、增强单元4和计算单元5。所述装置实现歌曲去伴奏具体如下述方式进行：

首先，归一化单元1对歌曲音频信号和伴奏音频信号进行归一化处理。

所述归一化处理的方式是找出信号绝对值的最大值，将原信号除以该最大值，处理结果是使信号的正负幅值位于-1与+1之间。

所述伴奏音频信号与歌曲音频信号存在时间同步对应关系。

分帧单元2用于将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点。例如本实施方式中，将音频信号划分为N个帧，每帧包括512个声音采样点(音频采样率为16khz)，并且相邻帧之间有256个采样点的重合。这种处理的目的是使帧与帧之间具有平滑过渡的效果。

滤波单元7用于对经分帧单元划分所得到的每帧进行加汉宁窗滤波处理。滤波单元7的处理效果是降低后续时域到频域变换所可能造成的频谱泄露程度。

变换单元3用于分别将歌曲音频信号和伴奏音频信号经划分后的各帧由时域信号变换为频域信号。所采用的变换算法为快速傅里叶变换(Fast FourierTransform，FFT)。并计算歌曲音频信号的幅度谱s_n(i),i＝0,1,2…256,n＝0,1,2…N-1和伴奏音频的幅度谱M_n(i),i＝0,1,2…256,n＝0,1,2…N-1。

增强单元4用于对伴奏音频信号的幅度谱进行增强处理。本实施方式中，所述增强处理的具体方式包括：遍历伴奏音频信号的幅度谱的所有帧以及帧内的所有频点，找出当前帧、当前帧的前m个帧、当前帧的后m帧共2m+1帧中对应频点的最大幅度值，将该最大值作为当前帧对应频点的新值，其中m为预设的正整数。本实施方式中m取2。

计算公式为：

计算单元5进一步地根据增强处理后的伴奏音频信号的幅度谱，对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数。做法具体包括：

遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧，即n＝0,1,2…N-1。对所遍历的每一帧，做如下处理：

计算歌曲音频信号当前帧的能量谱power(i)；公式为：

power(i)＝S_n(i)^2,i＝0,1,2…256。

计算对经增强处理的伴奏音频信号的幅度谱的对应帧的估计能量谱noise(i)；公式为：

noise(i)＝b*M_n(i)^2,i＝0,1,2…256。

其中b为调整因子，可以调整从歌曲音频信号中去除伴奏成分程度，本实施方式中b的取值为1.5。

计算去伴奏音频信号对应帧的估计能量谱；公式为：

signal(i)＝(1-beta)*sig1(i)+beta*sig2(i),i＝0,1,2…256。

其中，sig1(i)＝max(0,power(i)-noise(i)),i＝0,1,2…256；

sig2(i)表示上一帧去伴奏音频信号的能量谱；

beta为常数，且0<beta<1，这里取0.95。

根据signal(i)、noise(i)和power(i)计算先验信噪比epsi(i)和后验信噪比g(i)；公式分别为：

epsi(i)＝signal(i)/noise(i),i＝0,1,2…256；以及

g(i)＝power(i)/noise(i),i＝0,1,2…256。

根据epsi(i)和g(i)计算谱增益系数F(i)，公式为：

其中，v(i)＝epsi(i)/(1+epsi(i))*g(i),i＝0,1,2…256；

Gamma表示伽马函数；besseli表示贝叶斯函数。

对谱增益系数F(i)作修正处理。公式为：

F(i)＝min(F(i),1),i＝0,1,2…256。

计算单元5进一步地根据所述谱增益系数从歌曲音频信号的频谱中得到去伴奏音频信号的频谱；具体做法是根据歌曲音频信号的频谱Y(i)和经修正处理的谱增益系数F(i)确定，公式为：

X(i)＝F(i)*Y(i),i＝0,1,2…256，其中Y表示歌曲音频信号的当前帧的频谱。所得到的X(i)即为去伴奏音频的对应帧的频谱。

变换单元3进一步被用于将去伴奏音频信号的频谱逆变换为时域信号；算法为FFT逆变换。

本发明所述的歌曲去伴奏装置还包括连接单元6，得到所有的去伴奏音频时域帧后，连接单元6用于连接所述各帧。即得到完整的去伴奏音频的时域信号。

本发明所述实施方式能从歌曲中有效地提取出人声，并且可以保持较好的音质，从而为下一步音频数据的分析、检索等奠定良好的基础，具有较强的实用价值以及应用前景。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于MMSE的歌曲去伴奏的方法，包括步骤：

对伴奏音频信号的幅度谱进行增强处理；

将去伴奏音频信号的频谱逆变换为时域信号。

2.如权利要求1所述的基于MMSE的歌曲去伴奏的方法中，其特征在于：在步骤“分别将歌曲音频信号和伴奏音频信号由时域信号变换为频域信号”之前还包括步骤：对歌曲音频信号和伴奏音频信号进行归一化处理，再将歌曲音频信号和伴奏音频信号分别划分为若干帧，每帧包括预设数量的声音采样点，并且相邻帧之间有预设数量的重合采样点。

3.如权利要求2所述的基于MMSE的歌曲去伴奏的方法中，其特征在于：在步骤“将经归一化处理的歌曲音频信号和伴奏音频信号分别划分为若干帧”后还包括步骤：

对每帧进行加汉宁窗滤波处理。

4.如权利要求1所述的基于MMSE的歌曲去伴奏的方法中，其特征在于：步骤“对伴奏音频信号的幅度谱进行增强处理”具体包括：

5.如权利要求1或4所述的基于MMSE的歌曲去伴奏的方法中，其特征在于：步骤“根据增强处理后的伴奏音频信号的幅度谱，对歌曲音频信号的频谱进行最小均方误差估计获得谱增益系数”具体包括步骤：

power(i)＝S_n(i)^2，其中s_n(i)表示歌曲音频信号的幅度谱；

noise(i)＝b*M_n(i)^2，其中M_n(i)表示伴奏音频信号的幅度谱；

计算去伴奏音频信号对应帧的估计能量谱，公式为：

signal(i)＝(1-beta)*sig1(i)+beta*sig2(i),i＝0,1,2...FN/2；

其中，sig1(i)＝max(0,power(i)-noise(i))，sig2(i)表示上一帧去伴奏音频信号的能量谱，beta为常数，且0<beta<1；

epsi(i)＝signal(i)/noise(i)；以及

g(i)＝power(i)/noise(i)；

根据epsi(i)和g(i)计算谱增益系数F(i)，公式为：

Gamma表示伽马函数；besseli表示贝叶斯函数；

对谱增益系数F(i)作修正处理，公式为：F(i)＝min(F(i),1)。

6.如权利要求1所述的基于MMSE的歌曲去伴奏的方法中，其特征在于：步骤“根据所述谱增益系数以及歌曲音频信号的频谱得到去伴奏音频信号的频谱”具体为：

7.一种基于MMSE的歌曲去伴奏装置，其特征在于：包括变换单元、增强单元和计算单元；

所述增强单元用于对伴奏音频信号的幅度谱进行增强处理；

8.如权利要求7所述的基于MMSE的歌曲去伴奏装置，其特征在于：还包括归一化单元、分帧单元和滤波单元；

所述归一化单元用于对歌曲音频信号和伴奏音频信号进行归一化处理；

所述滤波单元用于对每帧进行加汉宁窗滤波处理。

9.如权利要求7或8所述的基于MMSE的歌曲去伴奏装置中，其特征在于：所述增强单元对伴奏音频信号的幅度谱进行增强处理具体包括：

10.如权利要求7或8所述的基于MMSE的歌曲去伴奏装置中，其特征在于：计算单元获得谱增益系数具体包括：遍历歌曲音频信号的频谱与经增强处理的伴奏音频信号的幅度谱的所有帧；

power(i)＝S_n(i)^2，其中s_n(i)表示歌曲音频信号的幅度谱；

noise(i)＝b*M_n(i)^2，其中M_n(i)表示伴奏音频信号的幅度谱；

计算去伴奏音频信号的对应帧的估计能量谱，公式为：

signal(i)＝(1-beta)*sig1(i)+beta*sig2(i),i＝0,1,2...FN/2；

epsi(i)＝signal(i)/noise(i)；以及

g(i)＝power(i)/noise(i)；

根据epsi(i)和g(i)计算谱增益系数F(i)，公式为：

Gamma表示伽马函数；besseli表示贝叶斯函数；

对谱增益系数F(i)作修正处理；公式为：

F(i)＝min(F(i),1)；