CN107146630B - 一种基于stft的双通道语声分离方法 - Google Patents

一种基于stft的双通道语声分离方法 Download PDF

Info

Publication number
CN107146630B
CN107146630B CN201710286942.4A CN201710286942A CN107146630B CN 107146630 B CN107146630 B CN 107146630B CN 201710286942 A CN201710286942 A CN 201710286942A CN 107146630 B CN107146630 B CN 107146630B
Authority
CN
China
Prior art keywords
channel
stft
sound
speech
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710286942.4A
Other languages
English (en)
Other versions
CN107146630A (zh
Inventor
叶晨
陈建清
严诣青
干子轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710286942.4A priority Critical patent/CN107146630B/zh
Publication of CN107146630A publication Critical patent/CN107146630A/zh
Application granted granted Critical
Publication of CN107146630B publication Critical patent/CN107146630B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Abstract

本发明涉及一种基于STFT的双通道语声分离方法,包括以下步骤:S1,分别对左声道和右声道的时域信号序列进行STFT变换,得到左声道和右声道的频域信号序列;S2,获取左、右声道背景音乐分量之间的夹角条件,以及语声分量与频点信号之间的夹角条件,将语声和音乐分离;S3,对步骤S2得到的结果进行STFT反变换,得到语声和音乐分离后的左声道和右声道的时域信号。与现有技术相比,本发明利用STFT变换,可以将背景音乐和语声有效分离;考虑拾音系统的角度范围和拾音系统两通道之间的距离,确定了不同的相差条件,从而使计算结果更加准确;对得到的最后结果进行滤波,滤除不必要的噪声,可应用于K歌类型的手机应用程序中。

Description

一种基于STFT的双通道语声分离方法
技术领域
本发明涉及一种语音处理方法,尤其是涉及一种基于STFT的双通道语声分离方法。
背景技术
人声分离的主要技术来自于对频率和相位的处理,现有的技术基本都是两个手法联动作业,比如先进行频率阶段的滤波,在某些频率上再使用相位抵消。DFT算法可以有效的将时域信息转换为频域信息,DFT反变换则可以将频域信息转换为时域信息。DFT算法在数字滤波、功率谱分析、通讯理论中有广泛的应用。将此技术应用于人声与背景音乐的分离上,并加以改进,可以很好的分离人声。
单通道音乐人声分离中的多种特定乐器强化分离方法涉及一种单通道音乐人声分离中的多种特定乐器强化分离方法。该方法对电吉他、单簧管、小提琴、钢琴、木吉他、风琴、长笛和小号共计8种乐器进行强化分离,该强化分离是通过一层单乐器分离器和三层多乐器组合强化器实现,其中,第一层多乐器组合强化器能够分离2类乐器声,第二层多乐器组合强化器能够分离4类乐器声,第三层多乐器组合强化器能够分离8类乐器声。然而该技术局限于对乐器声音的分离,应用领域较为狭窄;仅仅可以处理单通道音乐,单声道中所具有的信息太少,从而只能根据语声与背景音乐的差异性进行区分,这样带来的结果通常情况下是难以想象的。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能够很好的分离人声与背景音乐的基于STFT的双通道语声分离方法。
本发明的目的可以通过以下技术方案来实现:
一种基于STFT的双通道语声分离方法,用于将语声和背景音乐分离,包括以下步骤:
S1,分别对左声道和右声道的时域信号序列进行STFT变换,得到左声道和右声道的频域信号序列,各频点的信号分离表达式如下:
其中,|ωL|为左声道信号的模值,
Figure GDA0002255632540000022
为左声道信号的单位向量,|ωhumanL|为左声道语声分量的模值,
Figure GDA0002255632540000023
为左声道语声分量的单位向量,|ωmusicL|为左声道背景音乐分量的模值,
Figure GDA0002255632540000024
为左声道背景音乐分量的单位向量,|ωR|为右声道信号的模值,为右声道信号的单位向量,|ωhumanR|为右声道语声分量的模值,
Figure GDA0002255632540000026
为右声道语声分量的单位向量,|ωmusicR|为右声道背景音乐分量的模值,
Figure GDA0002255632540000027
为右声道背景音乐分量的单位向量;
S2,令各频点|ωhumanL|=|ωhumanR|,
Figure GDA0002255632540000028
获取左、右声道背景音乐分量之间的夹角条件,以及语声分量与频点信号之间的夹角条件,计算式(1)中的将语声和音乐分离;
S3,对步骤S2得到的结果进行STFT反变换,并进行噪声滤波,得到语声和音乐分离后的左声道和右声道的时域信号。
所述的步骤S2中,左、右声道背景音乐分量之间的夹角条件为:当频点信号的频率大于603Hz时,
Figure GDA00022556325400000211
否则
Figure GDA00022556325400000212
其中,d为拾音系统两通道之间的距离,α为拾音系统中单个拾音装置接收音频角度。
单个拾音装置接收音频的角度
Figure GDA00022556325400000213
λ为频点信号的波长。
所述的步骤S2中,语声分量与频点信号之间的夹角条件为:
Figure GDA00022556325400000214
所述的STFT变换中,将时域信号序列分片,并对每个片段加窗提取前4个频点信号,窗函数为其中,n为频点的序号,所述的STFT反变换中,窗函数为
Figure GDA00022556325400000216
其中,N为选取的时间片序号。
与现有技术相比,本发明通过STFT算法(短时傅里叶变换),得到频域信号后,可以将背景音乐和语声有效分离;半重叠的STFT方案,可以在减弱接续冲激的前提条件下完全还原原始信号;考虑拾音系统的角度范围和拾音系统两通道之间的距离,确定了不同的相差条件,从而使计算结果更加准确;对得到的最后结果进行滤波,滤除不必要的噪声,可应用于K歌类型的手机应用程序中。
附图说明
图1为本发明方法的流程图;
图2为实施例拾音系统与声源关系示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于STFT的双通道语声分离方法,用于将语声和背景音乐分离,包括以下步骤:
S1,分别对左声道和右声道的时域信号序列进行STFT变换,得到左声道和右声道的频域信号序列。
S2,令各频点|ωhumanL|=|ωhumanR|,
Figure GDA0002255632540000031
获取左、右声道背景音乐分量之间的夹角条件,以及语声分量与频点信号之间的夹角条件,将语声和音乐分离;
S3,对步骤S2得到的结果进行STFT反变换,并进行噪声滤波,得到语声和音乐分离后的左声道和右声道的时域信号。
对于每一个频点,有下面的等式:
ωi=ωhumanmusic
其中ωi为第i个频点的复数值,ωhuman为第i个频点的语声分量,ωmusic是背景音乐的分量了。这里所有的变量都是复数,换言之,可以将上式写成
Figure GDA0002255632540000032
对于双声道的歌曲会有
对于等式(1),左边是的已知变量,某一频点的复数值,也可以分解为单位向量和模值。左边的变量有两个,而所求的右边变量有四个,考虑到频点的独立性,可以认为在数值上等式(1)是不可解得。同样对于等式(2)也会有类似的结论。考虑到日常听的专辑其中的语声多数都是通过一个话筒录入的,即在任意频点,应该有:
humanL|=|ωhumanR|
Figure GDA0002255632540000041
从而,将等式(2)变换为下面的形式:
Figure GDA0002255632540000042
若采用离散傅里叶变换(DFT),如下所示
Figure GDA0002255632540000043
其中:
Figure GDA0002255632540000044
假设对于两条(包含左右声道)足够长的序列进行分片,得到:
{xR01,xR02,…,xR0n,xR0n+1…}
Figure GDA0002255632540000045
R:{xRn1,xRn2,…,xRnn,xRnn+1…},
Figure GDA0002255632540000046
{xL01,xL02,…,xL0n,xL0n+1…}
L:{xLn1,xLn2,…,xLnn,xLnn+1…}
Figure GDA0002255632540000048
经过分片傅里叶变换之后得到的结果为{XR01,XR02,…,XR0n,XR0n+1…}
Figure GDA0002255632540000051
R:{XRn1,XRn2,…,XRnn,XRnn+1…},
Figure GDA0002255632540000052
{XL01,XL02,…,XL0n,XL0n+1…}
Figure GDA0002255632540000053
L:{XLn1,XLn2,…,XLnn,XLnn+1…}
Figure GDA0002255632540000054
其中ωRij表示右声道第i个切片的第j项,ωLij表示左声道第i个切片的第j项。如果希望反变换之后的所有切片贴合,尽量不产生冲激响应,应该要求任意频点在各个切片之间的变化尽量小。可以选择一段未处理的音频对其进行分片傅里叶变换,并选择其中同一位置的频点进行分析,以观察连续且没有接续冲激响应的频率相位变化。
假设有一段正弦信号,用某一固定长度的时域片采样,在此时间片内信号经过的相位为:
Figure GDA0002255632540000055
对于第N个采样周期,认为其采样的范围是:
Figure GDA0002255632540000056
其中n为某一小时域切片所经历的周期数,
Figure GDA0002255632540000057
是在一个时间片内超过整数周期的角度。所以对于第N个时间片,相当于(这里后一个等号不是相等的意思)相对第一个时间片有
Figure GDA0002255632540000058
相位差。
模值上的特征不如相位上的特征明显,但是信号通过频域重建之后,相邻切片之间的时域信号必须连续顺滑,否则将会出现明显的冲激响应。
接下来尝试通过式(7)中的XRij及XLij重建出新的X'Rij及X'Lij。由于算法假设必然会导致相邻小片之间的相位出现剧烈变化,也会导致时域上的信号不再连续。正因为这个原因,STFT变成了解决这个问题的首选。
可以把STFT看作是相互重叠的傅里叶变换的小片。比如对于下面的信号:
X(n)=xn,x∈{x0,x1,x2,x3,…,xi-2,xi-1,xi,…}
可以选择其中连续的四个值作为一个处理单元。提取其中的处理单元的过程可以称作加窗。假设有一个窗函数:
Figure GDA0002255632540000061
如果需要取出X最前面的四个值,只需要将w(n)与X点乘:
X'(n)=X(n)·w(n)
假设相邻的窗函数之间相差Δp的距离,可以认为第m个窗口所截取的信号为:
s(m,n)=X(n)·w(n-Δp·m)
那么可以认为第m个窗口的STFT变换结果为
S(m,n)=DFT(X(n)·w(n-Δp·m)) (9)
当然随着窗函数的不同以及相邻窗的间隔Δp的不同,短时傅里叶变换会有不同的结果。当窗函数由l个连续的1组成,并且有Δp=l,短时傅里叶变换就回归到切片傅里叶变换。而在上文中所介绍的连续短时傅里叶变换如果直接离散化,应该是建立在Δp=1的基础之上。事实上Δp的取值是非常随意的,如果仅仅是希望同时在时域和频域上观察信号。
在Δp等于1的前提下,可以获得最细致的观察步长。但是由于信号信息量的不变性,Δp为1的结果更确切地说应该是有效信息的线型组合,毕竟在Δp=l的前提条件下就可以无损地保持信号的信息量了。
由于本专利讨论的是需要将信号进行重组,意味着窗函数以及步进的选择应该满足特定的等式,使信号在变换之后直接反变换可以得到原始的结果。这样随意选择窗函数就会加重算法的负担。当然了,任意窗函数在Δp=l的前提条件下都会精确地返回,但是这样做又会与上文的DFT切片没有区别,引入难以处理的冲激响应。
本专利提出了一种半重叠的STFT方案,可以在减弱接续冲激的前提条件下完全还原原始信号。对于等式(3.9),有
s(m,n)=DFT-1(S(m,n)) (10)
考虑到窗函数w(n),本发明认为逆变换的窗函数因子应具有与之前窗函数一样的形式:
Figure GDA0002255632540000062
结合之前s(m,n)的表达式,有
Figure GDA0002255632540000063
h(n)=w2(n)
利用h(n)可以将y(n)重新写成:
Figure GDA0002255632540000071
为了得到完全的信号重建,要求:
Figure GDA0002255632540000072
其实只要满足等式(3.12)的h(n)可以实现完全的信号重构。考虑到信号的渐变效果,可以选取窗函数:
Figure GDA0002255632540000073
此时选取
Figure GDA0002255632540000074
当然,这里的N是一个偶数。所以会有
Figure GDA0002255632540000075
到这里为止,建立了后文将会用到的可以尽量减弱接续冲激响应的STFT模型以及逆STFT模型。
在短时傅里叶变换之后得到的频域结果可以进行下一步的语声音频分离算法了。接下来的所有的处理过程都是对每一个频点进行处理。令S(m,n)为这里的输入参数。考虑到信号的来源是左右声道,结合式(2),有:
Figure GDA0002255632540000076
Figure GDA0002255632540000077
如果令:
Figure GDA0002255632540000078
得到下面这个简单的等式:
Figure GDA0002255632540000081
这里的参数g是上文没有出现的,这里假设的模型更为精确。如果语声在后期处理的时候出现响度上的偏移,比如要做在耳边唱歌的效果,g1≠g2。不过这里仅仅考虑g1=g2的情况。两个参数具体为多少并不重要,因为未知。换言之,如果g1,g2同比增大,只会使
Figure GDA0002255632540000083
的模值按照同比减少,但并不影响
Figure GDA0002255632540000084
的求解。建立在这一点上,令:
所以等式(13)可变为:
Figure GDA0002255632540000086
考虑某一频点除去中间部分(语声
Figure GDA0002255632540000087
)是由各种各样的乐器以及合成器产生的。这些声源发出各种声音,到达左右声道录音点的相差也会不同。假设左右声道在音源上具有均匀分布的特性,换言之,在同一频点均匀分布着各种相差。所以考虑到平均这些频点的综合效应,可以认为单纯的左右声道背景音乐之间的夹角为
Figure GDA0002255632540000088
所以,有第一个通过假设和先验知识得来的附加条件,这一条件在后文也称之为第一相差条件:
Figure GDA0002255632540000089
这一等式看似简单确是求解问题的关键。这样的假设其实有很多的问题,因为现在左右声道的录音之间的距离只有30cm左右,而对于300Hz以内的部分而言,左右声道的相差达到90°是几乎不可能的。因为300Hz以内的声波波长一定大于1米,而考虑声源到左右声道接入点的距离,会有:
Figure GDA00022556325400000810
只有在声源出现在两个接收器的延长线上时,这一音源发出的这一频点才会达到0.6π。以下具体讨论对于不同频率夹角选择的优化。这里仍然以
Figure GDA00022556325400000811
为条件对等式进行求解。
将等式(14)代入到(15)中,会有:
Figure GDA00022556325400000812
化简得:
这里的θ是
Figure GDA0002255632540000092
的夹角,这一夹角往往很小。事实上,将这里的θ近似为0是一种方便的做法。于是有:
Figure GDA0002255632540000094
将其按照二阶方程进行求解,可以得到两个根:
Figure GDA0002255632540000095
考虑到能量分布的问题,这里取负号。所以:
所以需要求解的所有分量为:
Figure GDA0002255632540000097
Figure GDA0002255632540000098
Figure GDA0002255632540000099
接下来的工作就是代入等式(11)求解STFT反变换。对得到的最后结果进行滤波,滤除不必要的噪声即可。
上文在对于等式(4)求解时利用了等式(5),认为所有频点的夹角的均值应该是
Figure GDA00022556325400000910
这一假设的前提条件是认为,在任一频点上,所有的音源足够丰富并且相差分布在整个实数轴(这一点与夹角在(0,180)度之间并没有冲突,因为本质上对于夹角的判定决定其定义域与实数轴均匀映射。)当然事实并不是如此,首先背景音乐往往是来源于小型室内的录制,并且利用软件添加各种特效。这一方案就是上文提到的声像移动制式,这一方案往往将某一段录好的音源放置在虚拟的特定距离内,然后通过计算机模拟得到不同的左右声道。
另外需要考虑的是收音制式的收音角度的影响。对于两个特定的观测点——对于人类而言是左右耳,对于拾音系统而言是左右声道收音器,而对于后期处理则是两个声音模拟的接收点,音源位置往往在这两个观测点的前方的一个有限的收音场内,如图2所示:
由于拾音系统通常情况下有一定的角度范围,可以简单地认为拾音装置P,Q只能在一定角度范围之间接收音频,这一角度在图中用α来表示。对于一个小型乐队伴奏而言,对这一角度的要求往往并不是非常苛刻,换句话说,音源与拾音装置的连线,与两个拾音装置延长线的夹角θ不是一个非常小的锐角。设想录制交响乐的场景,拾音系位于在乐队之前。由于交响乐团队的人数以及空间上的分布,拾音系统往往要求乐队摆成一个扇形的阵型,并且对每一声部有具体的要求,比如首席小提琴师无论是出于声音效果还是传统都会位于乐队近似中心的位置。
对于音频像点距离拾音系统的尺度以及拾音系统两通道之间的距离也是值得研究的。现代通常情况拾音系统双声道之间的距离为:
d=30cm
而h通常情况下是1~2m,当然这个距离往往会更加随意一点,而这一距离其实也暗含着后期制作时添加像点的距离。所以可以认为,某一音源到达两个拾音装置时的相差为:
Figure GDA0002255632540000101
这一等式说明了:到达两个拾音之间的相差并不会随音源距离拾音系统的距离增加而出现距离而剧烈变化,而且由于d的确定,在低频范围内,
Figure GDA0002255632540000102
往往会在一个特定的范围内波动。这与前一章节建立的一个较强假设是矛盾的:
Figure GDA0002255632540000103
原因:在λ较大的时候,由于d较小,并且θ较大,两个拾音装置之间的相差是不会到达
Figure GDA0002255632540000104
的。通过细化这一角度的范围,给出更精确的角度平均值。
可以给定图2中的α上限。特别的,可以认为所有的音源都从拾音系统的一边出现并且:
Figure GDA0002255632540000105
建立在以上条件之下,对于波长为λ的声波,到达两个拾音装置之间的相差最大值为θ最小的时候,而位于两拾音设备垂直平分线上的所有音源都会不会有相差:
Figure GDA0002255632540000106
建立在等式(23)基础之上,有:
Figure GDA0002255632540000111
这时对于上节中等式(15)修正为,这一等式也称为第二相差条件:
Figure GDA0002255632540000112
给定这里的参数值,λ为当前处理频点的波长,d=0.3m。对于高频声波,比如大于2kHz的声波由于
Figure GDA0002255632540000114
这里给出的假设条件不再起作用,仍然采用第一相差条件。
由等式(25)以及等式(14),有:
Figure GDA0002255632540000115
代入α,d,有:
Figure GDA0002255632540000116
由等式(26)可得,当波长小于0.2819m,相差条件应该选择等式(15)。考虑到运算位于频域,并且空气中声波的速度为340m/s,有:
Figure GDA0002255632540000117
所以在检测频点小于603Hz时选择第二种相差条件,频点数值大于603Hz时选择第一相差条件。给定限制条件之后就可以对方程进行求解。在第二相差条件之下,有如下等式:
Figure GDA0002255632540000118
这里之前的系数去掉仅仅是为了运算书写简单。而且这一系数并没有什么实际作用,这一点在上文已经介绍过。在第一相差条件中,利用
Figure GDA00022556325400001110
将相乘项直接消去从而得到简单的计算结果。但如果基于第二相差条件,化简得到的结果就不得不面对
Figure GDA00022556325400001111
二次项。这一二次项在数值上其实是两个根式的积,为了求解则会变成一个四元四次方程。
考虑到音频绝大多数能量都集中在中低频的范围内,而在这一范围内,声波在两个拾音装置之间(只有30cm左右),在空气中的衰减的幅度相差并不大。具体的,由于距离相差距离较短,并且不考虑空气吸收衰减,地面吸收衰减,仅仅考虑扩散衰减,可以认为声源距离两个拾音设备最少1m,有:
Figure GDA0002255632540000121
其中l1,l2为某一声源距离两个拾音装置的距离,P1,P2为声源发出的声波到达两个拾音装置的声压。事实上,这两者的比值应该略大于1,而不是靠近上式得到的结果1.69,因为这里声源一般会在两个拾音设备的正对面,而不是在侧面的延长线上,并且声源的距离也会大于1m。这一等式的意义在于给出一个变化的上界,从而方便建立下面的近似:
Figure GDA0002255632540000122
结合等式(28)得到这样近似的误差范围:
事实上这是一个可以接受的误差范围。并且相信在大多数情况下,这种近似可以得到较为精确的结果。将其代入等式(27),尝试消去
Figure GDA0002255632540000124
得到:
Figure GDA0002255632540000125
化简得:
Figure GDA0002255632540000126
与等式(18)一样的原理,将一次项作近似化为标量:
Figure GDA0002255632540000127
一元二次方程的各项系数为:
Figure GDA0002255632540000128
求解仍然按照上文所述方案并考虑符号的统一性,同样应该取符号为负的根,原理同上,不应该得到一个反向的左右声道:
Figure GDA0002255632540000131
由于各种反射绕射衍射所致,在低频处并不是两边相差几乎为零。在这里仅简单地写成:
Figure GDA0002255632540000132
之后的操作就是在处理后的左右声道进行短时傅里叶变换反变换,得到时域信号。对时域信号进行滤波处理,滤掉因为处理产生的高频部分的噪声,得到最终结果:
Figure GDA0002255632540000133

Claims (5)

1.一种基于STFT的双通道语声分离方法,用于将语声和背景音乐分离,其特征在于,包括以下步骤:
S1,分别对左声道和右声道的时域信号序列进行STFT变换,得到左声道和右声道的频域信号序列,各频点的信号分离表达式如下:
Figure FDA0002255632530000011
其中,|ωL|为左声道信号的模值,
Figure FDA0002255632530000012
为左声道信号的单位向量,|ωhumanL|为左声道语声分量的模值,
Figure FDA0002255632530000013
为左声道语声分量的单位向量,|ωmusicL|为左声道背景音乐分量的模值,
Figure FDA0002255632530000014
为左声道背景音乐分量的单位向量,|ωR|为右声道信号的模值,
Figure FDA0002255632530000015
为右声道信号的单位向量,|ωhumanR|为右声道语声分量的模值,
Figure FDA0002255632530000016
为右声道语声分量的单位向量,|ωmusicR|为右声道背景音乐分量的模值,
Figure FDA0002255632530000017
为右声道背景音乐分量的单位向量;
S2,令各频点|ωhumanL|=|ωhumanR|,
Figure FDA0002255632530000018
获取左、右声道背景音乐分量之间的夹角条件,以及语声分量与频点信号之间的夹角条件,计算式(1)中的
Figure FDA0002255632530000019
Figure FDA00022556325300000110
将语声和音乐分离;
S3,对步骤S2得到的结果进行STFT反变换,得到语声和音乐分离后的左声道和右声道的时域信号。
2.根据权利要求1所述的一种基于STFT的双通道语声分离方法,其特征在于,所述的步骤S2中,左、右声道背景音乐分量之间的夹角条件为:当频点信号的频率大于603Hz时,
Figure FDA00022556325300000111
否则
Figure FDA00022556325300000112
其中,d为拾音系统两通道之间的距离,α为拾音系统中单个拾音装置接收音频的最大角度,λ为频点信号的波长,符号<,>表示两个向量之间的夹角。
3.根据权利要求2所述的一种基于STFT的双通道语声分离方法,其特征在于,所述的单个拾音装置接收音频的最大角度
Figure FDA00022556325300000113
4.根据权利要求1所述的一种基于STFT的双通道语声分离方法,其特征在于,所述的步骤S3还包括:对STFT反变换的结果进行噪声滤波。
5.根据权利要求1所述的一种基于STFT的双通道语声分离方法,其特征在于,所述的STFT变换中,将时域信号序列分片,并对每个片段加窗提取前4个频点信号,窗函数为
Figure FDA0002255632530000021
其中,n为频点的序号,所述的STFT反变换中,窗函数为其中,N为选取的片段序号。
CN201710286942.4A 2017-04-27 2017-04-27 一种基于stft的双通道语声分离方法 Expired - Fee Related CN107146630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710286942.4A CN107146630B (zh) 2017-04-27 2017-04-27 一种基于stft的双通道语声分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710286942.4A CN107146630B (zh) 2017-04-27 2017-04-27 一种基于stft的双通道语声分离方法

Publications (2)

Publication Number Publication Date
CN107146630A CN107146630A (zh) 2017-09-08
CN107146630B true CN107146630B (zh) 2020-02-14

Family

ID=59775006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710286942.4A Expired - Fee Related CN107146630B (zh) 2017-04-27 2017-04-27 一种基于stft的双通道语声分离方法

Country Status (1)

Country Link
CN (1) CN107146630B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
CN109036456B (zh) * 2018-09-19 2022-10-14 电子科技大学 用于立体声的源分量环境分量提取方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1478371A (zh) * 1999-12-24 2004-02-25 �ʼҷ����ֵ������޹�˾ 音频信号处理装置
JP2011244197A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
CN104134444A (zh) * 2014-07-11 2014-11-05 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN106024005A (zh) * 2016-07-01 2016-10-12 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106531181A (zh) * 2016-11-25 2017-03-22 天津大学 一种基于谐波提取的欠定语音盲分离方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1478371A (zh) * 1999-12-24 2004-02-25 �ʼҷ����ֵ������޹�˾ 音频信号处理装置
JP2011244197A (ja) * 2010-05-18 2011-12-01 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
CN104134444A (zh) * 2014-07-11 2014-11-05 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN106024005A (zh) * 2016-07-01 2016-10-12 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106531181A (zh) * 2016-11-25 2017-03-22 天津大学 一种基于谐波提取的欠定语音盲分离方法及装置

Also Published As

Publication number Publication date
CN107146630A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
Luo et al. Music source separation with band-split RNN
Swanson Signal processing for intelligent sensor systems with MATLAB
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
EP1741313B1 (en) A method and system for sound source separation
US10430154B2 (en) Tonal/transient structural separation for audio effects
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
Argenti et al. Automatic transcription of polyphonic music based on the constant-Q bispectral analysis
WO2006090589A1 (ja) 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
CN107017005B (zh) 一种基于dft的双通道语声分离方法
Colonel et al. Reverse engineering of a recording mix with differentiable digital signal processing
CN107146630B (zh) 一种基于stft的双通道语声分离方法
Prud'Homme et al. A harmonic-cancellation-based model to predict speech intelligibility against a harmonic masker
Lee et al. Musical onset detection based on adaptive linear prediction
Caetano et al. A source-filter model for musical instrument sound transformation
Pishdadian et al. A multi-resolution approach to common fate-based audio separation
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Han et al. Reconstructing completely overlapped notes from musical mixtures
Wu et al. Multipitch estimation by joint modeling of harmonic and transient sounds
Woodruff et al. Resolving overlapping harmonics for monaural musical sound separation using pitch and common amplitude modulation
Esquef et al. Restoration and enhancement of solo guitar recordings based on sound source modeling
Osses Vecchi et al. Predicting the perceived reverberation in different room acoustic environments using a binaural auditory model
Gainza et al. Harmonic sound source separation using FIR comb filters
Zivanovic Harmonic bandwidth companding for separation of overlapping harmonics in pitched signals
Giampiccolo et al. Virtual Bass Enhancement Via Music Demixing
Yasuraoka et al. I-divergence-based dereverberation method with auxiliary function approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200214