CN102402977B - 从立体声音乐中提取伴奏、人声的方法及其装置 - Google Patents

从立体声音乐中提取伴奏、人声的方法及其装置 Download PDF

Info

Publication number
CN102402977B
CN102402977B CN201010282705.9A CN201010282705A CN102402977B CN 102402977 B CN102402977 B CN 102402977B CN 201010282705 A CN201010282705 A CN 201010282705A CN 102402977 B CN102402977 B CN 102402977B
Authority
CN
China
Prior art keywords
channel signals
frequency
signal
time
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010282705.9A
Other languages
English (en)
Other versions
CN102402977A (zh
Inventor
冯宇红
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Zhonggan Microelectronics Co Ltd
Original Assignee
Wuxi Vimicro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Vimicro Corp filed Critical Wuxi Vimicro Corp
Priority to CN201010282705.9A priority Critical patent/CN102402977B/zh
Publication of CN102402977A publication Critical patent/CN102402977A/zh
Application granted granted Critical
Publication of CN102402977B publication Critical patent/CN102402977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种从立体声音乐中提取伴奏、人声的方法及其装置,提取伴奏的方法包括:分别将左右声道信号由时域转换为频域;计算左右声道信号的相应频点对的归一化互相关值;分别对左右声道信号的相应频点对加权伴奏增益,伴奏增益与当前频点对的归一化互相关值成反比例取值;将加权伴奏增益后的左声道和右声道信号由频域转换为时域,分别提取出左声道和右声道伴奏。提取人声的方法包括:对左右声道信号相应频点对的均值信号加权人声增益,人声增益与当前频点对的归一化互相关值成正比例取值;将加权人声增益后的左声道和右声道的均值信号由频域转换为时域提取出人声。本发明可以有效的提取出人声和伴奏,并且提高音质效果。

Description

从立体声音乐中提取伴奏、人声的方法及其装置
技术领域
本发明涉及音频处理技术领域,特别是涉及一种从立体声音乐中提取伴奏的方法及其装置、一种从立体声音乐中提取人声的方法及其装置。
背景技术
目前,一些音频播放软件或者是音频处理软件已经具备从歌曲中提取伴奏音乐的功能。例如,用户想录制自己演唱的歌曲,但是又找不到这首歌曲的伴奏音乐,就可以利用上述功能,从原唱歌曲中把伴奏音乐分离并提取出来。
现有的提取伴奏方法,往往利用大多数歌曲中人声在左右两个声道中基本相同的特点,采用将两个声道中的信号直接对减的方法来消除人声。如图1所示,为现有技术提取伴奏的方法示意图。从图中可以看出,用左声道的音频信号减去右声道的音频信号,由于两个声道中相同的人声部分被消除,因此得到的信号为左声道的伴奏,用右声道的音频信号减去左声道的音频信号,同样的,相同的人声部分被消除,得到的信号作新右声道的伴奏,然后将两路信号重新合成,即得到伴奏音乐。进一步,从立体声音乐中减去伴奏音乐可以得到人声。
上述方法具有如下缺点:有些歌曲中,人声在左右两个声道中并没有准确对齐,直接将左右两声道的音频信号对减,往往不能有效的消除人声,会有部分人声残余;此外,如果伴奏音乐在左右两个声道中出现相同部分时,通过对减也会消除部分伴奏,使得提取的伴奏音乐准确度较低,从而引起伴奏音乐的音质下降。由于提取的伴奏的音质效果不好,因此从立体声中通过消除伴奏音乐所得到的人声,质量也较差。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种人声与伴奏的分离技术,能够有效的提取出人声和伴奏,并且提高音质效果。
发明内容
本发明所要解决的技术问题是提供一种从立体声音乐中提取伴奏、人声的方法及其装置,能够有效的提取出人声和伴奏,并且提高音质效果。
为了解决上述问题,本发明公开了一种从立体声音乐中提取伴奏的方法,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
优选的,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述将左声道信号和右声道信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;分别将时域的左声道信号和右声道信号经过综合窗加权。
优选的,对左声道信号和右声道信号的相应频点对加权伴奏增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
此外,本发明还公开了一种从立体声音乐中提取人声的方法,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
优选的,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述将左声道和右声道的均值信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;将时域的左声道和右声道的均值信号经过综合窗加权。
优选的,对左声道信号和右声道信号相应频点对的均值信号加权人声增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述人声增益取值为:当前频点对的归一化互相关值。
相应的,本发明还提出了一种从立体声音乐中提取伴奏的装置,包括:
第一频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第一互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
伴奏增益加权模块,用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
第一时域信号转换模块,用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
优选的,所述第一频域信号转换模块包括:
第一分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第一傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述第一时域信号转换模块包括:
第一傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
第一综合窗加权子模块,用于分别将时域的左声道信号和右声道信号经过综合窗加权。
优选的,所述装置还包括:
第一时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
相应的,本发明还提出了一种从立体声音乐中提取人声的装置,包括:
第二频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第二互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
人声增益加权模块,用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
第二时域信号转换模块,用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
优选的,所述第二频域信号转换模块包括:
第二分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第二傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述第二时域信号转换模块包括:
第二傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
第二综合窗加权子模块,用于将时域的左声道和右声道的均值信号经过综合窗加权。
优选的,所述装置还包括:
第二时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述人声增益取值为:当前频点对的归一化互相关值。
与现有技术相比,本发明具有以下优点:
本发明利用立体声音乐的特点:人声往往在声场的中央,在左右声道差异较小,而乐器所演奏的伴奏在左右声道差异较大,创造性地提出了一种提取伴奏和人声的方法。具体的,将左右两个声道的信号由时域转换到频域,然后分析两路信号在各个频段的互相关性,将互相关性弱的频段给与较高增益,将互相关性强的频段给与较低增益,最后将频域信号恢复为时域信号,从而消弱了人声,提取了伴奏;同时,保留了伴奏音乐在左右两个声道中各自的特点,保持了立体声音乐的特性。
相反地,通过分析两路信号在各个频段的互相关性,将互相关性弱的频段给予较低增益,将互相关性强的频段给予较高增益,最后将频域信号恢复为时域信号。从而消弱了伴奏,提取了人声,从而达到分离伴奏和人声的目的,并且提高了音质效果。
附图说明
图1是本发明一种从立体声音乐中提取伴奏的方法实施例的流程图;
图2是本发明一种从立体声音乐中提取人声的方法实施例的流程图;
图3是本发明一种从立体声音乐中提取伴奏的装置实施例的结构图;
图4是本发明一种从立体声音乐中提取人声的装置实施例的结构图;
图5是本发明一种伴奏、人声相分离的系统实施例的原理示意图;
图6是本发明一种频域互相关伴奏、人声分离单元实施例的原理示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一种从立体声音乐中提取伴奏的方法实施例的流程图,包括:
步骤101,分别将左声道信号和右声道信号由时域信号转换为频域信号;
人声往往在声场的中央,在左右声道差异较小;而乐器所演奏的伴奏在左右声道差异较大。并且,人声的频率范围和伴奏的频率范围几乎不同。因此,本发明实施例将音频信号由时域转换到频域进行处理。具体的,所述步骤101包括如下子步骤:
子步骤1011,分别将时域的左声道信号和右声道信号经过分析窗加权;
为了对音频信号进行频域处理,一般采用截取函数对信号进行截断,分帧处理。截断函数称为窗函数,简称为窗。左右声道的信号分别经过分析窗加权,分析窗一般采用正弦窗,设置50%的叠加,叠加目的是使处理后信号的帧与帧之间能够平滑连接。
假设xL(n)表示左声道时域信号、xR(n)表示右声道时域信号,xLW(n)表示左声道加窗后的时域信号、xRW(n)表示右声道加窗后的时域信号,w(n)表示窗函数,窗长为N,则:
w ( n ) = sin π · ( n + 0.5 ) N , n = 0 , · · · , N - 1 ;
xLW(n)=xL(n)·w(n),xRW(n)=xR(n)·w(n),n=0,…,N-1。
子步骤1012,通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
针对加窗后的时域信号,通过傅立叶变换FFT分别将左声道时域信号xLW(n)和右声道时域信号xRW(n)从时域转换到频域。由于傅立叶变换由时域转换为频域的技术实现为本领域内的公知技术,本发明实施例在此不再赘述。
步骤102,依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
本步骤对左、右声道的频域信号进行归一化互相关处理。假设左声道信号第i个频点的实部为Re_L(i),虚部为Im_L(i);右声道信号第i个频点的实部为Re_R(i),虚部为Im_R(i);其中,i=0,...,N-1,即FFT的频点数为N。由于时域的相关等价于频域的共轭相乘,因此可以得出,
左声道信号第i个频点与右声道信号第i个频点的互相关为:
CorrLR(i)=Re_L(i)*Re_R(i)+Im_L(i)*Im_R(i);
左声道信号第i个频点的自相关为:
CorrLL(i)=Re_L(i)*Re_L(i)+Im_L(i)*Im_L(i);
右声道信号第i个频点的自相关为:
CorrRR(i)=Re_R(i)*Re_R(i)+Im_R(i)*Im_R(i);
则左声道信号和右声道信号的第i个频点对的归一化互相关值为:
corrLR ( i ) = CorrLR ( i ) CorrLL ( i ) * CorrRR ( i ) .
需要说明的是,对于实信号而言,做N点FFT,生成N点频域样本,其中后半部分(N/2+1,....,N-1)和前半部分(N/2-1,....,1)样本值互为共轭复数,即实部相等,虚部相反。因此,只需要计算出所有i=0~N/2的左右声道信号的频点对的互相关值。
在本发明的一个优选是实施例中,所述方法还包括:采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
为了保证频域互相关值的平滑性,需要做频域平滑,即用某频点及其周围若干频点的值进行加权平均,所得值作为该点的替代值以滤去小扰动的方法。针对帧内频点进行处理,平滑窗可以使用长度为S的正弦窗,窗函数为:
w S ( m ) = 1 / C * sin π ( m + 0.5 ) S , m = 0 , · · · , S - 1
则频域平滑处理后的归一化互相关值为:
corrLR _ S ( i ) = Σ m = 0 S - 1 corrLR ( i - S / 2 + m ) · w S ( m ) , i = 0 , · · · , N / 2 .
采用上述正弦窗对corrLR(i)做频域平滑。即得到了频域平滑后的归一化互相关corrLR_S(i),本发明实施例中可选取S=11,C=7。
为了保证时域互相关值的平滑性,还需要作时域平滑,即用某时刻及其前后若干时刻的值进行加权平均,所得值作为该时刻的替代值以滤去小扰动的方法,针对帧间频点进行处理。使用一个一阶低通滤波处理即可:
corrLR_T(i)=corrLR_Told(i)*α+corrLR_S(i)*(1-α);
其中,α为平滑因子,corrLR_Told(i)为前一帧的corrLR_T(i),本发明实施例中采用α=0.5。
步骤103,分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
由于人声往往在声场中央,在左右声道差异较小;而乐器的伴奏音频往往左右声道差异较大。因此,伴奏在左右两个声道中的频点相关性较低,人声在左右两个声道中的频点相关性较强。为了提取出伴奏,对互相关性弱的频点加权较高增益,从而增强伴奏,对互相关性强的频点加权较低增益,从而消减人声。
具体的,加权的伴奏增益与当前频点对的归一化互相关值成反比例取值,则:当归一化互相关值较小时,说明左右声道频点对的相关性较低,加权的增益值较大;当归一化互相关值较大时,说明左右声道频点对的相关性较高,加权的增益较小。
在本发明的一个优选实施例中,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
由于通过频域和时域平滑处理后,得到的归一化互相关值corrLR_T(i)是一个0和1之间的数,当相关性强时,接近1;当相关性弱时,接近0。因此,本发明优选实施例中,根据corrLR_T(i)的值选取伴奏增益的值。设左、右声道信号第i个频点对的伴奏增益为gain_M(i),则:
gain_M(i)=1-corrLR_T(i)。
然后用求得的伴奏增益加权左、右声道的频域信号。假设左声道伴奏第i个频点的实部为Re_LM(i),虚部为Im_LM(i);右声道伴奏第i个频点的实部为Re_RM(i),虚部为Im_RM(i)。则有:
Re_LM(i)=Re_L(i)*gain_M(i);
Im_LM(i)=Im_L(i)*gain_M(i);
Re_RM(i)=Re_R(i)*gain_M(i);
Im_RM(i)=Im_R(i)*gain_M(i)。
通过对左右声道各个频点进行不同增益加权,就可以提取出了伴奏的频域信号。
步骤104,将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
具体的,所述步骤104包括如下子步骤:
子步骤1041,通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
针对加权伴奏增益后的频域信号,通过傅立叶逆变换IFFT分别将左、右声道的频域信号从频域转换到时域。具体的,将提取出的左声道的伴奏频域信号由频域转换到时域,获得左声道伴奏时域信号;将提取出的右声道的伴奏频域信号由频域转换到时域,获得右声道伴奏时域信号。
子步骤1042,分别将时域的左声道信号和右声道信号经过综合窗加权。
由于信号由时域转频域时进行了分析窗加权,因此,信号由频域转时域之后需要加权综合窗,以去除分析窗函数对信号的影响。同前面分析窗一样,对加综合窗后的时域信号也有50%叠加,以恢复出正确的时域信号。
假设x′L(n)表示IFFT变换后的左声道时域信号、x′R(n)表示右声道时域信号,x′LW(n)表示左声道加窗后的时域信号、x′RW(n)表示右声道加窗后的时域信号,w(n)表示窗函数,窗长为N,则:
x′LW(n)=x′L(n)·w(n);x′RW(n)=x’R(n)·w(n),n=0,…,N-1。
通过频域转时域,并加综合窗后,最终提取出左声道的伴奏信号和右声道的伴奏信号。
本发明实施例将左右两个通道的信号分别由时域转换到频域,然后分析两路信号在各个频段的互相关性,对互相关性弱的频段加权较高增益,对互相关性强的频段加权较低增益,最后将频域信号恢复为时域信号。从而消弱了人声,提取了伴奏,同时保留两个通道的立体声特性。
参照图2,示出了本发明一种从立体声音乐中提取人声的方法实施例的流程图,包括:
步骤201,分别将左声道信号和右声道信号由时域信号转换为频域信号;
具体的,所述步骤101包括如下子步骤:
子步骤2011,分别将时域的左声道信号和右声道信号经过分析窗加权;
子步骤2012,通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
上述步骤的处理过程与从立体声音乐中提取伴奏的方法类似,具体可参见提取伴奏方法实施例的步骤101。
步骤202,依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
与伴奏提取方法相同,左声道信号和右声道信号的第i个频点对的归一化互相关值为:
corrLR ( i ) = CorrLR ( i ) CorrLL ( i ) * CorrRR ( i ) ;
其中,CorrLR(i)为左声道信号第i个频点与右声道信号第i个频点的互相关;
CorrLL(i)为左声道信号第i个频点的自相关;CorrRR(i)为右声道信号第i个频点的自相关。
在本发明的一个优选是实施例中,所述方法还包括:采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
需要说明的是,上述步骤201~202与提取伴奏实施例中的步骤101~102相同;平滑处理方法也与提取伴奏中的平滑处理方法相同,具体可参见上一实施例,本实施例此处不再赘述。
步骤203,对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
由于,伴奏在左右两个声道中的频点相关性较低,人声在左右两个声道中的频点相关性较强。为了提取出人声,将互相关性弱的频点加权较低增益,从而消减伴奏;将互相关性强的频点加权较高增益,从而增强人声。
具体的,加权的人声增益与当前频点对的归一化互相关值成正比例取值,则:当归一化互相关值较小时,说明左右声道频点对的相关性较低,加权的增益值较小;当归一化互相关值较大时,说明左右声道频点对的相关性较高,加权的增益较大。
在本发明的一个优选实施例中,所述人声增益取值为:当前频点对的归一化互相关值。
由于通过频域和时域平滑处理后,得到的归一化互相关值corrLR_T(i)是一个0和1之间的数,当相关性强时,接近1;当相关性弱时,接近0。因此,本发明优选实施例中,根据corrLR_T(i)的值选取人声增益的值。
设左、右声道信号第i个频点对的人声增益为gain_V(i),则:
gain_V(i)=corrLR_T(i);
然后用求得的人声增益加权左、右声道的频域信号的均值。人声第i个频点的实部为Re_V(i),虚部为Im_V(i),则有:
Re_V(i)=[Re_L(i)+Re_R(i)]*0.5*gain_V(i);
Im_V(i)=[Im_L(i)+Im_R(i)]*0.5*gain_V(i)。
由于左右两声道信号都包含人声,左右两路信号相加合并后,为防止相加后溢出,需要取一半的值。通过对左右声道各个频点对的均值进行不同增益加权,就可以提取出了人声的频域信号。
步骤204,将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
具体的,所述步骤204包括如下子步骤:
子步骤2041,通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
针对加权人声增益后的频域均值信号,通过傅立叶逆变换IFFT由频域转换到时域。
子步骤2042,将时域的左声道和右声道的均值信号经过综合窗加权。
由于信号由时域转频域时进行了分析窗加权,因此,信号由频域转时域之后需要加权综合窗,以去除分析窗函数对信号的影响。同前面分析窗一样,对加综合窗后的时域信号也有50%叠加,以恢复出正确的时域信号。
本发明实施例将左右两个通道的信号分别由时域转换到频域,然后分析两路信号在各个频段的互相关性,将互相关性弱的频段加权较低增益,将互相关性强的频段加权较高增益,最后将频域信号恢复为时域信号。从而消弱了伴奏,提取了人声,从而达到分离伴奏和人声的目的。
参照图3,示出了本发明一种从立体声音乐中提取伴奏的装置实施例的结构图,包括:
第一频域信号转换模块301,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第一互相关值计算模块302,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
伴奏增益加权模块303,用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
第一时域信号转换模块304,用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
进一步,所述第一频域信号转换模块301包括:
第一分析窗加权子模块3011,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第一傅立叶变换子模块3012,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
进一步,所述第一时域信号转换模块304包括:
第一傅立叶逆变换子模块3041,用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
第一综合窗加权子模块3042,用于分别将时域的左声道信号和右声道信号经过综合窗加权。
在本发明的一个优选实施例中,所述装置还包括:
第一时频平滑处理模块305,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
在本发明的优选实施例中,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
参照图4,示出了本发明一种从立体声音乐中提取人声的装置实施例的结构图,其特征在于,包括:
第二频域信号转换模块401,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第二互相关值计算模块402,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
人声增益加权模块403,用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
第二时域信号转换模块404,用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
进一步,所述第二频域信号转换模块401包括:
第二分析窗加权子模块4011,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第二傅立叶变换子模块4012,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
进一步,所述第二时域信号转换模块404包括:
第二傅立叶逆变换子模块4041,用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
第二综合窗加权子模块4042,用于将时域的左声道和右声道的均值信号经过综合窗加权。
在本发明的一个优选实施例中,所述装置还包括:
第二时频平滑处理模块405,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
在本发明的优选实施例中,所述人声增益取值为:当前频点对的归一化互相关值。
需要说明的是,本发明可以针对上述从立体声音乐中提取伴奏的装置和从立体声音乐中提取伴奏的装置进行组合,将其作为一个伴奏、人声相分离的系统。如图5所示,为本发明一种伴奏、人声相分离的系统实施例的原理示意图。其中,左声道信号和右声道信号分别经过加权分析窗并通过FFT变换,然后进入频域互相关伴奏人声分离单元进行处理,输出的三路信号:左声道伴奏频域信号、右声道伴奏频域信号和人声频域信号,最后将三路频域信号通过IFFT变换并经过加权综合窗,得到左声道伴奏、右声道和人声。
如图6所示,为本发明一种频域互相关伴奏人声分离单元实施例的原理示意图,由于提取伴奏装置和提取人声装置的部分模块相同,因此将功能相同的模块进行整合。具体的,所述单元将第一互相关值计算模块和第二互相关值计算模块进行合并,组合为一个处理模块,将第一时频平滑处理模块和第二时频平滑处理模块进行合并,组合为一个处理模块;进一步,将伴奏增益加权模块拆分为左声道伴奏增益加权模块以及右声道伴奏增益加权模块,分别对左右声道的频域信号进行加权。本发明对上述各个模块的设置形式不做限定,在具体实施时,可以根据实际需要灵活的组合、拆分。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种从立体声音乐中提取伴奏的方法及其装置、以及一种立体声音乐中提取人声的方法及其装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种从立体声音乐中提取伴奏的方法,其特征在于,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益取值为:一减去当前频点对的归一化互相关值;
将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
2.如权利要求1所述的方法,其特征在于,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;
通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
3.如权利要求1所述的方法,其特征在于,所述将左声道信号和右声道信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
分别将时域的左声道信号和右声道信号经过综合窗加权。
4.如权利要求1所述的方法,其特征在于,对左声道信号和右声道信号的相应频点对加权伴奏增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;
采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
5.一种从立体声音乐中提取人声的方法,其特征在于,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
6.如权利要求5所述的方法,其特征在于,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;
通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
7.如权利要求5所述的方法,其特征在于,所述将左声道和右声道的均值信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
将时域的左声道和右声道的均值信号经过综合窗加权。
8.如权利要求5所述的方法,其特征在于,对左声道信号和右声道信号相应频点对的均值信号加权人声增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;
采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
9.如权利要求8所述的方法,其特征在于,
所述人声增益取值为:当前频点对的归一化互相关值。
10.一种从立体声音乐中提取伴奏的装置,其特征在于,包括:
第一频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第一互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
伴奏增益加权模块,用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益取值为:一减去当前频点对的归一化互相关值;
第一时域信号转换模块,用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
11.如权利要求10所述的装置,其特征在于,所述第一频域信号转换模块包括:
第一分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第一傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
12.如权利要求10所述的装置,其特征在于,所述第一时域信号转换模块包括:
第一傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
第一综合窗加权子模块,用于分别将时域的左声道信号和右声道信号经过综合窗加权。
13.如权利要求10所述的装置,其特征在于,所述装置还包括:
第一时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
14.一种从立体声音乐中提取人声的装置,其特征在于,包括:
第二频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第二互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
人声增益加权模块,用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
第二时域信号转换模块,用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
15.如权利要求14所述的装置,其特征在于,所述第二频域信号转换模块包括:
第二分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第二傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
16.如权利要求14所述的装置,其特征在于,所述第二时域信号转换模块包括:
第二傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
第二综合窗加权子模块,用于将时域的左声道和右声道的均值信号经过综合窗加权。
17.如权利要求14所述的装置,其特征在于,所述装置还包括:
第二时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
18.如权利要求17所述的装置,其特征在于,
所述人声增益取值为:当前频点对的归一化互相关值。
CN201010282705.9A 2010-09-14 2010-09-14 从立体声音乐中提取伴奏、人声的方法及其装置 Active CN102402977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010282705.9A CN102402977B (zh) 2010-09-14 2010-09-14 从立体声音乐中提取伴奏、人声的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010282705.9A CN102402977B (zh) 2010-09-14 2010-09-14 从立体声音乐中提取伴奏、人声的方法及其装置

Publications (2)

Publication Number Publication Date
CN102402977A CN102402977A (zh) 2012-04-04
CN102402977B true CN102402977B (zh) 2015-12-09

Family

ID=45885129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010282705.9A Active CN102402977B (zh) 2010-09-14 2010-09-14 从立体声音乐中提取伴奏、人声的方法及其装置

Country Status (1)

Country Link
CN (1) CN102402977B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104078051B (zh) * 2013-03-29 2018-09-25 南京中兴软件有限责任公司 一种人声提取方法、系统以及人声音频播放方法及装置
CN103943113B (zh) * 2014-04-15 2017-11-07 福建星网视易信息系统有限公司 一种歌曲去伴奏的方法和装置
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
CN106469557B (zh) * 2015-08-18 2020-02-18 阿里巴巴集团控股有限公司 伴奏音乐的提供方法和装置
CN106653048B (zh) * 2016-12-28 2019-10-15 云知声(上海)智能科技有限公司 基于人声模型的单通道声音分离方法
CN107146630B (zh) * 2017-04-27 2020-02-14 同济大学 一种基于stft的双通道语声分离方法
CN107017005B (zh) * 2017-04-27 2020-03-24 同济大学 一种基于dft的双通道语声分离方法
CN108231091B (zh) * 2018-01-24 2021-05-25 广州酷狗计算机科技有限公司 一种检测音频的左右声道是否一致的方法和装置
CN108962277A (zh) * 2018-07-20 2018-12-07 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN111667805B (zh) * 2019-03-05 2023-10-13 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质
CN111988726A (zh) * 2019-05-06 2020-11-24 深圳市三诺数字科技有限公司 一种立体声合成单声道的方法和系统
CN110232931B (zh) * 2019-06-18 2022-03-22 广州酷狗计算机科技有限公司 音频信号的处理方法、装置、计算设备及存储介质
CN112053669B (zh) * 2020-08-27 2023-10-27 海信视像科技股份有限公司 一种人声消除方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945689A (zh) * 2006-10-24 2007-04-11 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置
CN101577117A (zh) * 2009-03-12 2009-11-11 北京中星微电子有限公司 伴奏音乐提取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04271700A (ja) * 1991-02-27 1992-09-28 New Japan Radio Co Ltd ステレオボイスチェンジ回路
KR101459766B1 (ko) * 2008-02-12 2014-11-10 삼성전자주식회사 휴대 단말에서 자동반주 악보를 인식하는 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945689A (zh) * 2006-10-24 2007-04-11 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置
CN101577117A (zh) * 2009-03-12 2009-11-11 北京中星微电子有限公司 伴奏音乐提取方法及装置

Also Published As

Publication number Publication date
CN102402977A (zh) 2012-04-04

Similar Documents

Publication Publication Date Title
CN102402977B (zh) 从立体声音乐中提取伴奏、人声的方法及其装置
Cano et al. Musical source separation: An introduction
CN103348703B (zh) 用以利用预先算出的参考曲线来分解输入信号的装置和方法
CN102138342B (zh) 用于合并空间音频流的设备
CN101593522B (zh) 一种全频域数字助听方法和设备
Tachibana et al. Melody line estimation in homophonic music audio signals based on temporal-variability of melodic source
CN101960516B (zh) 语音增强
CN103680517A (zh) 一种音频信号的处理方法、装置及设备
CN103943113B (zh) 一种歌曲去伴奏的方法和装置
CN104134444B (zh) 一种基于mmse的歌曲去伴奏方法和装置
CN101536085A (zh) 用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序
CN103811023A (zh) 音频处理装置以及音频处理方法
CN104282316A (zh) 一种基于语音匹配的k歌计分方法和装置
CN106997765A (zh) 人声音色的定量表征方法
Pishdadian et al. A multi-resolution approach to common fate-based audio separation
TW200532645A (en) Method for music analysis
Zhang Application of audio visual tuning detection software in piano tuning teaching
Amado et al. Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes
Pang et al. Automatic detection of vibrato in monophonic music
CN107017005A (zh) 一种基于dft的双通道语声分离方法
Giannoulis et al. On the disjointess of sources in music using different time-frequency representations
Li et al. Musical sound separation using pitch-based labeling and binary time-frequency masking
Yang et al. Don’t separate, learn to remix: End-to-end neural remixing with joint optimization
CN107146630B (zh) 一种基于stft的双通道语声分离方法
Chen et al. Multi-scale temporal-frequency attention for music source separation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 214000 Jiangsu province Wuxi District Qingyuan Road No. 18 Taihu International Science Park sensor network university science and Technology Park 530 building A1001

Patentee after: WUXI ZHONGGAN MICROELECTRONIC CO., LTD.

Address before: 214028 national integrated circuit design (21-1), Changjiang Road, New District, Jiangsu, Wuxi, China, China (610)

Patentee before: Wuxi Vimicro Co., Ltd.