CN102402977B

CN102402977B - 从立体声音乐中提取伴奏、人声的方法及其装置

Info

Publication number: CN102402977B
Application number: CN201010282705.9A
Authority: CN
Inventors: 冯宇红; 张晨
Original assignee: Wuxi Vimicro Corp
Current assignee: Wuxi Zhonggan Microelectronics Co Ltd
Priority date: 2010-09-14
Filing date: 2010-09-14
Publication date: 2015-12-09
Anticipated expiration: 2030-09-14
Also published as: CN102402977A

Abstract

本发明提供了一种从立体声音乐中提取伴奏、人声的方法及其装置，提取伴奏的方法包括：分别将左右声道信号由时域转换为频域；计算左右声道信号的相应频点对的归一化互相关值；分别对左右声道信号的相应频点对加权伴奏增益，伴奏增益与当前频点对的归一化互相关值成反比例取值；将加权伴奏增益后的左声道和右声道信号由频域转换为时域，分别提取出左声道和右声道伴奏。提取人声的方法包括：对左右声道信号相应频点对的均值信号加权人声增益，人声增益与当前频点对的归一化互相关值成正比例取值；将加权人声增益后的左声道和右声道的均值信号由频域转换为时域提取出人声。本发明可以有效的提取出人声和伴奏，并且提高音质效果。

Description

从立体声音乐中提取伴奏、人声的方法及其装置

技术领域

本发明涉及音频处理技术领域，特别是涉及一种从立体声音乐中提取伴奏的方法及其装置、一种从立体声音乐中提取人声的方法及其装置。

背景技术

目前，一些音频播放软件或者是音频处理软件已经具备从歌曲中提取伴奏音乐的功能。例如，用户想录制自己演唱的歌曲，但是又找不到这首歌曲的伴奏音乐，就可以利用上述功能，从原唱歌曲中把伴奏音乐分离并提取出来。

现有的提取伴奏方法，往往利用大多数歌曲中人声在左右两个声道中基本相同的特点，采用将两个声道中的信号直接对减的方法来消除人声。如图1所示，为现有技术提取伴奏的方法示意图。从图中可以看出，用左声道的音频信号减去右声道的音频信号，由于两个声道中相同的人声部分被消除，因此得到的信号为左声道的伴奏，用右声道的音频信号减去左声道的音频信号，同样的，相同的人声部分被消除，得到的信号作新右声道的伴奏，然后将两路信号重新合成，即得到伴奏音乐。进一步，从立体声音乐中减去伴奏音乐可以得到人声。

上述方法具有如下缺点：有些歌曲中，人声在左右两个声道中并没有准确对齐，直接将左右两声道的音频信号对减，往往不能有效的消除人声，会有部分人声残余；此外，如果伴奏音乐在左右两个声道中出现相同部分时，通过对减也会消除部分伴奏，使得提取的伴奏音乐准确度较低，从而引起伴奏音乐的音质下降。由于提取的伴奏的音质效果不好，因此从立体声中通过消除伴奏音乐所得到的人声，质量也较差。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提供一种人声与伴奏的分离技术，能够有效的提取出人声和伴奏，并且提高音质效果。

发明内容

本发明所要解决的技术问题是提供一种从立体声音乐中提取伴奏、人声的方法及其装置，能够有效的提取出人声和伴奏，并且提高音质效果。

为了解决上述问题，本发明公开了一种从立体声音乐中提取伴奏的方法，包括：

分别将左声道信号和右声道信号由时域信号转换为频域信号；

依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

分别对左声道信号和右声道信号的相应频点对加权伴奏增益；其中，所述伴奏增益与当前频点对的归一化互相关值成反比例取值；

将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号，分别提取出左声道伴奏和右声道伴奏。

优选的，所述将左声道信号和右声道信号由时域信号转换为频域信号包括：

分别将时域的左声道信号和右声道信号经过分析窗加权；通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

优选的，所述将左声道信号和右声道信号由频域信号转换为时域信号包括：

通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号；分别将时域的左声道信号和右声道信号经过综合窗加权。

优选的，对左声道信号和右声道信号的相应频点对加权伴奏增益之前，还包括：

采用平滑窗对所述归一化互相关值进行频域平滑处理；采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

优选的，所述伴奏增益取值为：一减去当前频点对的归一化互相关值。

此外，本发明还公开了一种从立体声音乐中提取人声的方法，包括：

对左声道信号和右声道信号相应频点对的均值信号加权人声增益；其中，所述人声增益与当前频点对的归一化互相关值成正比例取值；

将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号，提取出人声。

优选的，所述将左声道和右声道的均值信号由频域信号转换为时域信号包括：

通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号；将时域的左声道和右声道的均值信号经过综合窗加权。

优选的，对左声道信号和右声道信号相应频点对的均值信号加权人声增益之前，还包括：

优选的，所述人声增益取值为：当前频点对的归一化互相关值。

相应的，本发明还提出了一种从立体声音乐中提取伴奏的装置，包括：

第一频域信号转换模块，用于分别将左声道信号和右声道信号由时域信号转换为频域信号；

第一互相关值计算模块，用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

伴奏增益加权模块，用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益；其中，所述伴奏增益与当前频点对的归一化互相关值成反比例取值；

第一时域信号转换模块，用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号，分别提取出左声道伴奏和右声道伴奏。

优选的，所述第一频域信号转换模块包括：

第一分析窗加权子模块，用于分别将时域的左声道信号和右声道信号经过分析窗加权；

第一傅立叶变换子模块，用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

优选的，所述第一时域信号转换模块包括：

第一傅立叶逆变换子模块，用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号；

第一综合窗加权子模块，用于分别将时域的左声道信号和右声道信号经过综合窗加权。

优选的，所述装置还包括：

第一时频平滑处理模块，用于采用平滑窗对所述归一化互相关值进行频域平滑处理；以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

相应的，本发明还提出了一种从立体声音乐中提取人声的装置，包括：

第二频域信号转换模块，用于分别将左声道信号和右声道信号由时域信号转换为频域信号；

第二互相关值计算模块，用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

人声增益加权模块，用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益；其中，所述人声增益与当前频点对的归一化互相关值成正比例取值；

第二时域信号转换模块，用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号，提取出人声。

优选的，所述第二频域信号转换模块包括：

第二分析窗加权子模块，用于分别将时域的左声道信号和右声道信号经过分析窗加权；

第二傅立叶变换子模块，用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

优选的，所述第二时域信号转换模块包括：

第二傅立叶逆变换子模块，用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号；

第二综合窗加权子模块，用于将时域的左声道和右声道的均值信号经过综合窗加权。

优选的，所述装置还包括：

第二时频平滑处理模块，用于采用平滑窗对所述归一化互相关值进行频域平滑处理；以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

与现有技术相比，本发明具有以下优点：

本发明利用立体声音乐的特点：人声往往在声场的中央，在左右声道差异较小，而乐器所演奏的伴奏在左右声道差异较大，创造性地提出了一种提取伴奏和人声的方法。具体的，将左右两个声道的信号由时域转换到频域，然后分析两路信号在各个频段的互相关性，将互相关性弱的频段给与较高增益，将互相关性强的频段给与较低增益，最后将频域信号恢复为时域信号，从而消弱了人声，提取了伴奏；同时，保留了伴奏音乐在左右两个声道中各自的特点，保持了立体声音乐的特性。

相反地，通过分析两路信号在各个频段的互相关性，将互相关性弱的频段给予较低增益，将互相关性强的频段给予较高增益，最后将频域信号恢复为时域信号。从而消弱了伴奏，提取了人声，从而达到分离伴奏和人声的目的，并且提高了音质效果。

附图说明

图1是本发明一种从立体声音乐中提取伴奏的方法实施例的流程图；

图2是本发明一种从立体声音乐中提取人声的方法实施例的流程图；

图3是本发明一种从立体声音乐中提取伴奏的装置实施例的结构图；

图4是本发明一种从立体声音乐中提取人声的装置实施例的结构图；

图5是本发明一种伴奏、人声相分离的系统实施例的原理示意图；

图6是本发明一种频域互相关伴奏、人声分离单元实施例的原理示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一种从立体声音乐中提取伴奏的方法实施例的流程图，包括：

步骤101，分别将左声道信号和右声道信号由时域信号转换为频域信号；

人声往往在声场的中央，在左右声道差异较小；而乐器所演奏的伴奏在左右声道差异较大。并且，人声的频率范围和伴奏的频率范围几乎不同。因此，本发明实施例将音频信号由时域转换到频域进行处理。具体的，所述步骤101包括如下子步骤：

子步骤1011，分别将时域的左声道信号和右声道信号经过分析窗加权；

为了对音频信号进行频域处理，一般采用截取函数对信号进行截断，分帧处理。截断函数称为窗函数，简称为窗。左右声道的信号分别经过分析窗加权，分析窗一般采用正弦窗，设置50％的叠加，叠加目的是使处理后信号的帧与帧之间能够平滑连接。

假设x_L(n)表示左声道时域信号、x_R(n)表示右声道时域信号，x_LW(n)表示左声道加窗后的时域信号、x_RW(n)表示右声道加窗后的时域信号，w(n)表示窗函数，窗长为N，则：

w (n) = \sin \frac{π \cdot (n + 0.5)}{N}, n = 0, \cdot \cdot \cdot, N - 1;

x_LW(n)＝x_L(n)·w(n)，x_RW(n)＝x_R(n)·w(n)，n＝0，…，N-1。

子步骤1012，通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

针对加窗后的时域信号，通过傅立叶变换FFT分别将左声道时域信号x_LW(n)和右声道时域信号x_RW(n)从时域转换到频域。由于傅立叶变换由时域转换为频域的技术实现为本领域内的公知技术，本发明实施例在此不再赘述。

步骤102，依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

本步骤对左、右声道的频域信号进行归一化互相关处理。假设左声道信号第i个频点的实部为Re_L(i)，虚部为Im_L(i)；右声道信号第i个频点的实部为Re_R(i)，虚部为Im_R(i)；其中，i＝0，...，N-1，即FFT的频点数为N。由于时域的相关等价于频域的共轭相乘，因此可以得出，

左声道信号第i个频点与右声道信号第i个频点的互相关为：

CorrLR(i)＝Re_L(i)*Re_R(i)+Im_L(i)*Im_R(i)；

左声道信号第i个频点的自相关为：

CorrLL(i)＝Re_L(i)*Re_L(i)+Im_L(i)*Im_L(i)；

右声道信号第i个频点的自相关为：

CorrRR(i)＝Re_R(i)*Re_R(i)+Im_R(i)*Im_R(i)；

则左声道信号和右声道信号的第i个频点对的归一化互相关值为：

corrLR (i) = \frac{CorrLR (i)}{\sqrt{CorrLL (i) * CorrRR (i)}} .

需要说明的是，对于实信号而言，做N点FFT，生成N点频域样本，其中后半部分(N/2+1，....，N-1)和前半部分(N/2-1，....，1)样本值互为共轭复数，即实部相等，虚部相反。因此，只需要计算出所有i＝0～N/2的左右声道信号的频点对的互相关值。

在本发明的一个优选是实施例中，所述方法还包括：采用平滑窗对所述归一化互相关值进行频域平滑处理；以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

为了保证频域互相关值的平滑性，需要做频域平滑，即用某频点及其周围若干频点的值进行加权平均，所得值作为该点的替代值以滤去小扰动的方法。针对帧内频点进行处理，平滑窗可以使用长度为S的正弦窗，窗函数为：

w_{S} (m) = 1 / C * \sin \frac{π (m + 0.5)}{S}, m = 0, \cdot \cdot \cdot, S - 1

则频域平滑处理后的归一化互相关值为：

corrLR_S (i) = Σ_{m = 0}^{S - 1} corrLR (i - S / 2 + m) \cdot w_{S} (m), i = 0, \cdot \cdot \cdot, N / 2 .

采用上述正弦窗对corrLR(i)做频域平滑。即得到了频域平滑后的归一化互相关corrLR_S(i)，本发明实施例中可选取S＝11，C＝7。

为了保证时域互相关值的平滑性，还需要作时域平滑，即用某时刻及其前后若干时刻的值进行加权平均，所得值作为该时刻的替代值以滤去小扰动的方法，针对帧间频点进行处理。使用一个一阶低通滤波处理即可：

corrLR_T(i)＝corrLR_T_old(i)*α+corrLR_S(i)*(1-α)；

其中，α为平滑因子，corrLR_T_old(i)为前一帧的corrLR_T(i)，本发明实施例中采用α＝0.5。

步骤103，分别对左声道信号和右声道信号的相应频点对加权伴奏增益；其中，所述伴奏增益与当前频点对的归一化互相关值成反比例取值；

由于人声往往在声场中央，在左右声道差异较小；而乐器的伴奏音频往往左右声道差异较大。因此，伴奏在左右两个声道中的频点相关性较低，人声在左右两个声道中的频点相关性较强。为了提取出伴奏，对互相关性弱的频点加权较高增益，从而增强伴奏，对互相关性强的频点加权较低增益，从而消减人声。

具体的，加权的伴奏增益与当前频点对的归一化互相关值成反比例取值，则：当归一化互相关值较小时，说明左右声道频点对的相关性较低，加权的增益值较大；当归一化互相关值较大时，说明左右声道频点对的相关性较高，加权的增益较小。

在本发明的一个优选实施例中，所述伴奏增益取值为：一减去当前频点对的归一化互相关值。

由于通过频域和时域平滑处理后，得到的归一化互相关值corrLR_T(i)是一个0和1之间的数，当相关性强时，接近1；当相关性弱时，接近0。因此，本发明优选实施例中，根据corrLR_T(i)的值选取伴奏增益的值。设左、右声道信号第i个频点对的伴奏增益为gain_M(i)，则：

gain_M(i)＝1-corrLR_T(i)。

然后用求得的伴奏增益加权左、右声道的频域信号。假设左声道伴奏第i个频点的实部为Re_LM(i)，虚部为Im_LM(i)；右声道伴奏第i个频点的实部为Re_RM(i)，虚部为Im_RM(i)。则有：

Re_LM(i)＝Re_L(i)*gain_M(i)；

Im_LM(i)＝Im_L(i)*gain_M(i)；

Re_RM(i)＝Re_R(i)*gain_M(i)；

Im_RM(i)＝Im_R(i)*gain_M(i)。

通过对左右声道各个频点进行不同增益加权，就可以提取出了伴奏的频域信号。

步骤104，将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号，分别提取出左声道伴奏和右声道伴奏。

具体的，所述步骤104包括如下子步骤：

子步骤1041，通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号；

针对加权伴奏增益后的频域信号，通过傅立叶逆变换IFFT分别将左、右声道的频域信号从频域转换到时域。具体的，将提取出的左声道的伴奏频域信号由频域转换到时域，获得左声道伴奏时域信号；将提取出的右声道的伴奏频域信号由频域转换到时域，获得右声道伴奏时域信号。

子步骤1042，分别将时域的左声道信号和右声道信号经过综合窗加权。

由于信号由时域转频域时进行了分析窗加权，因此，信号由频域转时域之后需要加权综合窗，以去除分析窗函数对信号的影响。同前面分析窗一样，对加综合窗后的时域信号也有50％叠加，以恢复出正确的时域信号。

假设x′_L(n)表示IFFT变换后的左声道时域信号、x′_R(n)表示右声道时域信号，x′_LW(n)表示左声道加窗后的时域信号、x′_RW(n)表示右声道加窗后的时域信号，w(n)表示窗函数，窗长为N，则：

x′_LW(n)＝x′_L(n)·w(n)；x′_RW(n)＝x’_R(n)·w(n)，n＝0，…，N-1。

通过频域转时域，并加综合窗后，最终提取出左声道的伴奏信号和右声道的伴奏信号。

本发明实施例将左右两个通道的信号分别由时域转换到频域，然后分析两路信号在各个频段的互相关性，对互相关性弱的频段加权较高增益，对互相关性强的频段加权较低增益，最后将频域信号恢复为时域信号。从而消弱了人声，提取了伴奏，同时保留两个通道的立体声特性。

参照图2，示出了本发明一种从立体声音乐中提取人声的方法实施例的流程图，包括：

步骤201，分别将左声道信号和右声道信号由时域信号转换为频域信号；

具体的，所述步骤101包括如下子步骤：

子步骤2011，分别将时域的左声道信号和右声道信号经过分析窗加权；

子步骤2012，通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

上述步骤的处理过程与从立体声音乐中提取伴奏的方法类似，具体可参见提取伴奏方法实施例的步骤101。

步骤202，依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

与伴奏提取方法相同，左声道信号和右声道信号的第i个频点对的归一化互相关值为：

corrLR (i) = \frac{CorrLR (i)}{\sqrt{CorrLL (i) * CorrRR (i)}};

其中，CorrLR(i)为左声道信号第i个频点与右声道信号第i个频点的互相关；

CorrLL(i)为左声道信号第i个频点的自相关；CorrRR(i)为右声道信号第i个频点的自相关。

需要说明的是，上述步骤201～202与提取伴奏实施例中的步骤101～102相同；平滑处理方法也与提取伴奏中的平滑处理方法相同，具体可参见上一实施例，本实施例此处不再赘述。

步骤203，对左声道信号和右声道信号相应频点对的均值信号加权人声增益；其中，所述人声增益与当前频点对的归一化互相关值成正比例取值；

由于，伴奏在左右两个声道中的频点相关性较低，人声在左右两个声道中的频点相关性较强。为了提取出人声，将互相关性弱的频点加权较低增益，从而消减伴奏；将互相关性强的频点加权较高增益，从而增强人声。

具体的，加权的人声增益与当前频点对的归一化互相关值成正比例取值，则：当归一化互相关值较小时，说明左右声道频点对的相关性较低，加权的增益值较小；当归一化互相关值较大时，说明左右声道频点对的相关性较高，加权的增益较大。

在本发明的一个优选实施例中，所述人声增益取值为：当前频点对的归一化互相关值。

由于通过频域和时域平滑处理后，得到的归一化互相关值corrLR_T(i)是一个0和1之间的数，当相关性强时，接近1；当相关性弱时，接近0。因此，本发明优选实施例中，根据corrLR_T(i)的值选取人声增益的值。

设左、右声道信号第i个频点对的人声增益为gain_V(i)，则：

gain_V(i)＝corrLR_T(i)；

然后用求得的人声增益加权左、右声道的频域信号的均值。人声第i个频点的实部为Re_V(i)，虚部为Im_V(i)，则有：

Re_V(i)＝[Re_L(i)+Re_R(i)]*0.5*gain_V(i)；

Im_V(i)＝[Im_L(i)+Im_R(i)]*0.5*gain_V(i)。

由于左右两声道信号都包含人声，左右两路信号相加合并后，为防止相加后溢出，需要取一半的值。通过对左右声道各个频点对的均值进行不同增益加权，就可以提取出了人声的频域信号。

步骤204，将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号，提取出人声。

具体的，所述步骤204包括如下子步骤：

子步骤2041，通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号；

针对加权人声增益后的频域均值信号，通过傅立叶逆变换IFFT由频域转换到时域。

子步骤2042，将时域的左声道和右声道的均值信号经过综合窗加权。

本发明实施例将左右两个通道的信号分别由时域转换到频域，然后分析两路信号在各个频段的互相关性，将互相关性弱的频段加权较低增益，将互相关性强的频段加权较高增益，最后将频域信号恢复为时域信号。从而消弱了伴奏，提取了人声，从而达到分离伴奏和人声的目的。

参照图3，示出了本发明一种从立体声音乐中提取伴奏的装置实施例的结构图，包括：

第一频域信号转换模块301，用于分别将左声道信号和右声道信号由时域信号转换为频域信号；

第一互相关值计算模块302，用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

伴奏增益加权模块303，用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益；其中，所述伴奏增益与当前频点对的归一化互相关值成反比例取值；

第一时域信号转换模块304，用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号，分别提取出左声道伴奏和右声道伴奏。

进一步，所述第一频域信号转换模块301包括：

第一分析窗加权子模块3011，用于分别将时域的左声道信号和右声道信号经过分析窗加权；

第一傅立叶变换子模块3012，用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

进一步，所述第一时域信号转换模块304包括：

第一傅立叶逆变换子模块3041，用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号；

第一综合窗加权子模块3042，用于分别将时域的左声道信号和右声道信号经过综合窗加权。

在本发明的一个优选实施例中，所述装置还包括：

第一时频平滑处理模块305，用于采用平滑窗对所述归一化互相关值进行频域平滑处理；以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

在本发明的优选实施例中，所述伴奏增益取值为：一减去当前频点对的归一化互相关值。

参照图4，示出了本发明一种从立体声音乐中提取人声的装置实施例的结构图，其特征在于，包括：

第二频域信号转换模块401，用于分别将左声道信号和右声道信号由时域信号转换为频域信号；

第二互相关值计算模块402，用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值；

人声增益加权模块403，用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益；其中，所述人声增益与当前频点对的归一化互相关值成正比例取值；

第二时域信号转换模块404，用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号，提取出人声。

进一步，所述第二频域信号转换模块401包括：

第二分析窗加权子模块4011，用于分别将时域的左声道信号和右声道信号经过分析窗加权；

第二傅立叶变换子模块4012，用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

进一步，所述第二时域信号转换模块404包括：

第二傅立叶逆变换子模块4041，用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号；

第二综合窗加权子模块4042，用于将时域的左声道和右声道的均值信号经过综合窗加权。

在本发明的一个优选实施例中，所述装置还包括：

第二时频平滑处理模块405，用于采用平滑窗对所述归一化互相关值进行频域平滑处理；以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

在本发明的优选实施例中，所述人声增益取值为：当前频点对的归一化互相关值。

需要说明的是，本发明可以针对上述从立体声音乐中提取伴奏的装置和从立体声音乐中提取伴奏的装置进行组合，将其作为一个伴奏、人声相分离的系统。如图5所示，为本发明一种伴奏、人声相分离的系统实施例的原理示意图。其中，左声道信号和右声道信号分别经过加权分析窗并通过FFT变换，然后进入频域互相关伴奏人声分离单元进行处理，输出的三路信号：左声道伴奏频域信号、右声道伴奏频域信号和人声频域信号，最后将三路频域信号通过IFFT变换并经过加权综合窗，得到左声道伴奏、右声道和人声。

如图6所示，为本发明一种频域互相关伴奏人声分离单元实施例的原理示意图，由于提取伴奏装置和提取人声装置的部分模块相同，因此将功能相同的模块进行整合。具体的，所述单元将第一互相关值计算模块和第二互相关值计算模块进行合并，组合为一个处理模块，将第一时频平滑处理模块和第二时频平滑处理模块进行合并，组合为一个处理模块；进一步，将伴奏增益加权模块拆分为左声道伴奏增益加权模块以及右声道伴奏增益加权模块，分别对左右声道的频域信号进行加权。本发明对上述各个模块的设置形式不做限定，在具体实施时，可以根据实际需要灵活的组合、拆分。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种从立体声音乐中提取伴奏的方法及其装置、以及一种立体声音乐中提取人声的方法及其装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种从立体声音乐中提取伴奏的方法，其特征在于，包括：

分别对左声道信号和右声道信号的相应频点对加权伴奏增益；其中，所述伴奏增益取值为：一减去当前频点对的归一化互相关值；

2.如权利要求1所述的方法，其特征在于，所述将左声道信号和右声道信号由时域信号转换为频域信号包括：

分别将时域的左声道信号和右声道信号经过分析窗加权；

通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。

3.如权利要求1所述的方法，其特征在于，所述将左声道信号和右声道信号由频域信号转换为时域信号包括：

通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号；

分别将时域的左声道信号和右声道信号经过综合窗加权。

4.如权利要求1所述的方法，其特征在于，对左声道信号和右声道信号的相应频点对加权伴奏增益之前，还包括：

采用平滑窗对所述归一化互相关值进行频域平滑处理；

采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。

5.一种从立体声音乐中提取人声的方法，其特征在于，包括：

6.如权利要求5所述的方法，其特征在于，所述将左声道信号和右声道信号由时域信号转换为频域信号包括：

分别将时域的左声道信号和右声道信号经过分析窗加权；

7.如权利要求5所述的方法，其特征在于，所述将左声道和右声道的均值信号由频域信号转换为时域信号包括：

通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号；

将时域的左声道和右声道的均值信号经过综合窗加权。

8.如权利要求5所述的方法，其特征在于，对左声道信号和右声道信号相应频点对的均值信号加权人声增益之前，还包括：

采用平滑窗对所述归一化互相关值进行频域平滑处理；

9.如权利要求8所述的方法，其特征在于，

所述人声增益取值为：当前频点对的归一化互相关值。

10.一种从立体声音乐中提取伴奏的装置，其特征在于，包括：

伴奏增益加权模块，用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益；其中，所述伴奏增益取值为：一减去当前频点对的归一化互相关值；

11.如权利要求10所述的装置，其特征在于，所述第一频域信号转换模块包括：

12.如权利要求10所述的装置，其特征在于，所述第一时域信号转换模块包括：

13.如权利要求10所述的装置，其特征在于，所述装置还包括：

14.一种从立体声音乐中提取人声的装置，其特征在于，包括：

15.如权利要求14所述的装置，其特征在于，所述第二频域信号转换模块包括：

16.如权利要求14所述的装置，其特征在于，所述第二时域信号转换模块包括：

17.如权利要求14所述的装置，其特征在于，所述装置还包括：

18.如权利要求17所述的装置，其特征在于，

所述人声增益取值为：当前频点对的归一化互相关值。