CN108091345A - 一种基于支持向量机的双耳语音分离方法 - Google Patents
一种基于支持向量机的双耳语音分离方法 Download PDFInfo
- Publication number
- CN108091345A CN108091345A CN201711443394.8A CN201711443394A CN108091345A CN 108091345 A CN108091345 A CN 108091345A CN 201711443394 A CN201711443394 A CN 201711443394A CN 108091345 A CN108091345 A CN 108091345A
- Authority
- CN
- China
- Prior art keywords
- binaural
- sound
- band
- signal
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 20
- 210000005069 ears Anatomy 0.000 title abstract 3
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000000926 separation method Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000000875 corresponding effect Effects 0.000 claims description 47
- 230000005236 sound signal Effects 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000005316 response function Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000037433 frameshift Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 229910052731 fluorine Inorganic materials 0.000 claims description 2
- 125000001153 fluoro group Chemical group F* 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 2
- 238000004422 calculation algorithm Methods 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 125000004429 atom Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本发明公布了一种基于支持向量机的双耳语音分离方法,该方法首先将双耳声信号经过Gammatone滤波器后,提取各个子带声信号的耳间时间差ITD和参数耳间强度差IID;在训练阶段,将包含两个声源的纯净混合双耳声信号提取的子带ITD、IID参数作为支持向量机SVM的输入特征,训练得到每个子带的SVM分类器,在测试阶段,在混响和噪声环境下,对包含两个声源的测试混合双耳声信号提取子带特征,利用各个子带的SVM分类器,对各个子带的特征参数进行分类,从而完成对混合语音中各个声源的分离。本发明基于支持向量机模型的分类能力,实现了复杂声学环境下鲁棒的双耳语音分离,同时有效解决了频点数据丢失的问题。
Description
技术领域
本发明涉及语音分离方法,尤其涉及一种基于支持向量机的双耳语音分离方法。
背景技术
支持向量机(Support Vector Machine,SVM)是一种二分类模型,它是定义在特征空间上的间隔最大的线性分类器,并且可以通过使用不同的核函数实现非线性分类。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。目前,常用的双耳语音分离方法在复杂声学环境下的性能表现仍然不能令人满意,并且存在分离语音频点丢失的现象。
发明内容
发明目的:本发明针对现有技术存在的问题,基于SVM高维、非线性分类能力,提出了一种基于支持向量机的双耳语音分离技术,在不同声学环境下的仿真测试表明,本发明算法显著提高语音分离算法的鲁棒性,并且有效解决了频点丢失的问题。
技术方案:本发明所述的基于支持向量机的双耳语音分离方法包括以下步骤:
(1)将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号;
(2)将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号;
(3)将步骤(2)得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围;
(4)对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元;
(5)计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量;
(6)将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本;
(7)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤(2)对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM;
(8)构建每个子带的SVM支持向量机模型,将步骤(6)对应的训练样本和步骤(7)得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型;
(9)将测试混合双耳声信号按照步骤(3)~(5)处理,得到对应的T-F单元的特征矢量,作为测试样本;
(10)将测试样本作为步骤(8)训练完成的各子带SVM支持向量机的输入特征,利用训练完成的各子带SVM支持向量机进行分类,得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵;
(11)对分离得到的每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
进一步的,所述步骤(1)中不同方位的单声源双耳声信号的计算公式为:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
进一步的,步骤(2)中包含两个不同方位声源的训练混合双耳声信号的计算公式为:
其中,表示第一个方位的单声源双耳声信号的左、右耳信号,表示第2个方位的单声源双耳声信号的左、右耳信号,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号。
进一步的,步骤(3)中经Gammatone滤波器组分解得到的各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
进一步的,步骤(4)中半波整流、平方根处理的计算公式为:
进一步的,步骤(4)中预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
为汉明窗。
进一步的,步骤(5)具体包括:
(5-1)计算
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
进一步的,步骤(7)具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
进一步的,步骤(8)具体包括:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,则IID(i,·)、ITD(i,·)、IBM(i,·)分别表示第i个子带、第k帧的IID、ITD和IBM,K为帧数;
(8-2)构造约束最优化问题,
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0 k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关;
(8-3)基于最优化问题训练得到各个子带的支持向量机。
进一步的,步骤(11)具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
有益效果:本发明与现有技术相比,其显著优点是:本发明与现有的双耳语音分离技术相比,由于本发明基于支持向量机的强大的分类能力,提取包含两个声源的混合双耳声信号经过处理后的T-F单元的耳间强度差IID和耳间时间差ITD作为特征参数,训练了一种支持向量机模型,从而实现了语音分离算法的鲁棒性。相比于以前的语音分离算法,有效地解决了频点丢失的问题;在SDR、SAR和SIR指标上,以及HIT-FA指标上表现优秀,并且,在复杂环境(低信噪比和高混响情形)也有较为明显的提升,算法鲁棒性更好。
附图说明
图1为本发明语音分离系统流程图;
图2为本发明双耳声信号生成图;
图3为基于DUET算法和本发明基于SVM的语音分离算法的分离后语音频谱比较图;
图4为基于DUET算法和本发明基于SVM的语音分离算法的HIT-FA指标比较图;
图5为基于DUET算法和本发明基于SVM的语音分离算法的准确率指标比较图;
图6为基于DUET算法和本发明基于SVM的语音分离算法的SDR指标比较图;
图7为基于DUET算法和本发明基于SVM的语音分离算法的SAR指标比较图;
图8为基于DUET算法和本发明基于SVM的语音分离算法的SIR指标比较图。
具体实施方式
如图1所示,本实施例提供的支持向量机SVM语音分离方法法包括以下步骤:
步骤一、将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号。其中,声源方位角由θ表示,定义水平面的正前方为0°,θ的范围为[-90°,90°],间隔为10°,其中,-90°表示正左方,90°表示正右方;
与头相关冲击响应HRIR(Head-Related Impulse Response)是与头相关函数HRTF(Head-Related Transfer Function)的时域表示。本发明采用麻省理工学院的媒体实验室发布的HRTF数据库,该数据库包含不同仰角和不同方位角的HRIR数据,本发明对采用的HRTF数据不做任何限制。
图2为双耳信号合成模拟图,将特定方位的与头相关冲击响应函数HRIR,与单声源声信号卷积,从而得到特定方位的双耳声信号:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
步骤二、将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号。
计算公式为:
其中,表示第一个方位的单声源双耳声信号的左、右耳信号,表示第2个方位的单声源双耳声信号的左、右耳信号,均根据步骤一生成,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号,本发明要求声源1和声源2的方位不同。
步骤三、将步骤二得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围。
各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
由于Gammatone滤波器组分解的每个子带的频域是交叠的,因此同一帧的多个子带T-F单元相互叠加,构成一帧的连续频谱,有效地解决了频谱丢失的问题。本实施例中设定Gammatone滤波器阶数为64,i=1,2,···,64,频率范围为[50Hz,8000Hz]。
步骤四、对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元。
半波整流、平方根处理的计算公式为:
预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;本实施例中,语音信号为16kHz,采取的分帧长度为20ms,帧移为10ms。
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
为汉明窗。
步骤五、计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量。具体包括:
(5-1)计算
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
步骤六、将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本。
步骤七、将步骤一得到的单声源双耳声信号分别按照步骤三和四执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤二对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM。
具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
步骤八、构建每个子带的SVM支持向量机模型,将步骤六对应的训练样本和步骤七得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型。
针对子带序号为i的SVM分类器的训练过程,下面进行详细描述:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,K为训练双耳声信号的帧数。
(8-2)构造并求解约束最优化问题,
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0 k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关。
针对这个最优化问题,对不等式约束引进拉格朗日乘子αi>=0,i=1,2,…,K,定义拉格朗日函数:
其中,α=(α1,α2,…,αK)为拉格朗日乘子向量。
最优化问题转化为:
0≤αk≤C k=1,2,···,K
用径向基核函数RBF(Di(k),Di(t))代替内积Di(k)·Di(t)。
求得最优解为α*=(α1 *,α2 *,…,αK *)T,由此得到w,b*的最优解。
最终,决策函数,即分类超平面的函数表达式形式如下:
f(D)=sign(w·D+b*)
至此,各子带的支持向量机SVM模型训练完成。
本发明采用径向基函数RBF代替内积计算,实际上,SVM可以采用其它形式的基函数,本发明对SVM的基函数没有限制。
步骤九、将测试混合双耳声信号按照步骤三~五处理,得到对应的T-F单元的特征矢量,即(ITDtest(i,k),IIDtest(i,k)),作为测试样本。
步骤十、将测试样本作为步骤八训练完成的各子带SVM支持向量机的输入特征,从而得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵。
将(ITDtest(i,k),IIDtest(i,k))输入到对应第i个子带的支持向量机中,通过支持向量机的分类效果,得到对每个T-F单元的分类,0和1代表了不同的声源,由此得到了二值掩膜矩阵Mask(i,k)。
步骤十一、对每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
对以上方法进行仿真验证,最终的性能评估如下:
(1)SVM语音分离算法分离后语音频谱
从图3可以看出,经过SVM分离算法分离后的语音频谱有效解决了频点丢失的问题,频谱为连续谱,不存在频点丢失的现象,原因在于,Gammatone滤波器组分解的每个子带的频域是交叠的,虽然本章的T-F单元的掩膜矩阵采用二值掩膜,但同一帧的多个子带T-F单元相互叠加,构成一帧的连续频谱。
(2)SVM语音分离算法的各项指标评价
图4-图8展示了测试语音在不同信噪比和混响的环境下的分离效果,从图中可以看出SVM分离算法在低信噪比和高混响的环境下能有不错的正确率,并且在SDR、SAR和SIR指标上,均比DUET的表现优秀,说明了本算法的鲁棒性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于支持向量机的双耳语音分离方法,其特征在于,该方法包括以下步骤:
(1)将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号;
(2)将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号;
(3)将步骤(2)得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围;
(4)对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元;
(5)计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量;
(6)将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本;
(7)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤(2)对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM;
(8)构建每个子带的SVM支持向量机模型,将步骤(6)对应的训练样本和步骤(7)得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型;
(9)将测试混合双耳声信号按照步骤(3)~(5)处理,得到对应的T-F单元的特征矢量,作为测试样本;
(10)将测试样本作为步骤(8)训练完成的各子带SVM支持向量机的输入特征,利用训练完成的各子带SVM支持向量机进行分类,得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵;
(11)对分离得到的每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
2.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(1)中不同方位的单声源双耳声信号的计算公式为:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
3.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(2)中包含两个不同方位声源的训练混合双耳声信号的计算公式为:
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>f</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>s</mi>
<mi>L</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>s</mi>
<mi>L</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>r</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>s</mi>
<mi>R</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>s</mi>
<mi>R</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,表示第一个方位的单声源双耳声信号的左、右耳信号,表示第2个方位的单声源双耳声信号的左、右耳信号,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号。
4.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(3)中经Gammatone滤波器组分解得到的各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
5.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(4)中半波整流、平方根处理的计算公式为:
<mrow>
<msub>
<mi>x</mi>
<mi>L</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<msqrt>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>f</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mtd>
<mtd>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>f</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>l</mi>
<mi>e</mi>
<mi>f</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
<mrow>
<msub>
<mi>x</mi>
<mi>R</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<msqrt>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>r</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mtd>
<mtd>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>r</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>r</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
6.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(4)中预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
为汉明窗。
7.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(5)具体包括:
(5-1)计算
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
<mrow>
<mi>I</mi>
<mi>T</mi>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>a</mi>
<munder>
<mrow>
<mi>r</mi>
<mi>g</mi>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mi>d</mi>
</munder>
<mi>C</mi>
<mi>C</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>I</mi>
<mi>I</mi>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>20</mn>
<mo>*</mo>
<msub>
<mi>log</mi>
<mn>10</mn>
</msub>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>N</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<msubsup>
<mi>x</mi>
<mi>R</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>N</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<msubsup>
<mi>x</mi>
<mi>L</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
8.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(7)具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
<mrow>
<msubsup>
<mi>e</mi>
<mi>L</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>m</mi>
</munder>
<mo>|</mo>
<msubsup>
<mi>x</mi>
<mi>L</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>,</mo>
<msubsup>
<mi>e</mi>
<mi>R</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>m</mi>
</munder>
<mo>|</mo>
<msubsup>
<mi>x</mi>
<mi>R</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<msubsup>
<mi>e</mi>
<mi>L</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>m</mi>
</munder>
<mo>|</mo>
<msubsup>
<mi>x</mi>
<mi>L</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>,</mo>
<msubsup>
<mi>e</mi>
<mi>R</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>m</mi>
</munder>
<mo>|</mo>
<msubsup>
<mi>x</mi>
<mi>R</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
<mrow>
<mi>I</mi>
<mi>B</mi>
<mi>M</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<msubsup>
<mi>e</mi>
<mi>R</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>&GreaterEqual;</mo>
<msubsup>
<mi>e</mi>
<mi>R</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<msubsup>
<mi>e</mi>
<mi>R</mi>
<mn>1</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<msubsup>
<mi>e</mi>
<mi>R</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
9.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(8)具体包括:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),…,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,则IID(i,·)、ITD(i,·)、IBM(i,·)分别表示第i个子带、第k帧的IID、ITD和IBM,K为帧数;
(8-2)构造约束最优化问题,
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>w</mi>
<mo>,</mo>
<mi>b</mi>
<mo>,</mo>
<mi>&epsiv;</mi>
</mrow>
</munder>
</mtd>
<mtd>
<mrow>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>C</mi>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>&epsiv;</mi>
<mi>k</mi>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0k=1,2,…,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关;
(8-3)基于最优化问题训练得到各个子带的支持向量机。
10.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(11)具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mover>
<mrow>
<mi>M</mi>
<mi>a</mi>
<mi>s</mi>
<mi>k</mi>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mi>N</mi>
<mo>+</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>w</mi>
<mi>H</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mi>N</mi>
<mo>+</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>w</mi>
<mi>H</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<mi>I</mi>
<mi>D</mi>
<mi>F</mi>
<mi>T</mi>
<mo>(</mo>
<mfrac>
<mrow>
<mi>D</mi>
<mi>F</mi>
<mi>T</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>D</mi>
<mi>F</mi>
<mi>T</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>g</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<mi>I</mi>
<mi>D</mi>
<mi>F</mi>
<mi>T</mi>
<mo>(</mo>
<mfrac>
<mrow>
<mi>D</mi>
<mi>F</mi>
<mi>T</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>t</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>D</mi>
<mi>F</mi>
<mi>T</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>g</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711443394.8A CN108091345B (zh) | 2017-12-27 | 2017-12-27 | 一种基于支持向量机的双耳语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711443394.8A CN108091345B (zh) | 2017-12-27 | 2017-12-27 | 一种基于支持向量机的双耳语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108091345A true CN108091345A (zh) | 2018-05-29 |
CN108091345B CN108091345B (zh) | 2020-11-20 |
Family
ID=62179665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711443394.8A Active CN108091345B (zh) | 2017-12-27 | 2017-12-27 | 一种基于支持向量机的双耳语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108091345B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109164415A (zh) * | 2018-09-07 | 2019-01-08 | 东南大学 | 一种基于卷积神经网络的双耳声源定位方法 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109448389A (zh) * | 2018-11-23 | 2019-03-08 | 西安联丰迅声信息科技有限责任公司 | 一种汽车鸣笛智能检测方法 |
CN110728989A (zh) * | 2019-09-29 | 2020-01-24 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
CN110827800A (zh) * | 2019-11-21 | 2020-02-21 | 北京智乐瑟维科技有限公司 | 基于语音的性别识别方法及其装置、存储介质和设备 |
CN111615045A (zh) * | 2020-06-23 | 2020-09-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
US20150025880A1 (en) * | 2013-07-18 | 2015-01-22 | Mitsubishi Electric Research Laboratories, Inc. | Method for Processing Speech Signals Using an Ensemble of Speech Enhancement Procedures |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
US9558762B1 (en) * | 2011-07-03 | 2017-01-31 | Reality Analytics, Inc. | System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner |
CN106373589A (zh) * | 2016-09-14 | 2017-02-01 | 东南大学 | 一种基于迭代结构的双耳混合语音分离方法 |
US20170243597A1 (en) * | 2014-08-14 | 2017-08-24 | Rensselaer Polytechnic Institute | Binaurally integrated cross-correlation auto-correlation mechanism |
CN107346664A (zh) * | 2017-06-22 | 2017-11-14 | 河海大学常州校区 | 一种基于临界频带的双耳语音分离方法 |
CN107424625A (zh) * | 2017-06-27 | 2017-12-01 | 南京邮电大学 | 一种基于向量机框架的多通道语音活动检测方法 |
CN107479030A (zh) * | 2017-07-14 | 2017-12-15 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
-
2017
- 2017-12-27 CN CN201711443394.8A patent/CN108091345B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558762B1 (en) * | 2011-07-03 | 2017-01-31 | Reality Analytics, Inc. | System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner |
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
US20150025880A1 (en) * | 2013-07-18 | 2015-01-22 | Mitsubishi Electric Research Laboratories, Inc. | Method for Processing Speech Signals Using an Ensemble of Speech Enhancement Procedures |
US20170243597A1 (en) * | 2014-08-14 | 2017-08-24 | Rensselaer Polytechnic Institute | Binaurally integrated cross-correlation auto-correlation mechanism |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN106373589A (zh) * | 2016-09-14 | 2017-02-01 | 东南大学 | 一种基于迭代结构的双耳混合语音分离方法 |
CN107346664A (zh) * | 2017-06-22 | 2017-11-14 | 河海大学常州校区 | 一种基于临界频带的双耳语音分离方法 |
CN107424625A (zh) * | 2017-06-27 | 2017-12-01 | 南京邮电大学 | 一种基于向量机框架的多通道语音活动检测方法 |
CN107479030A (zh) * | 2017-07-14 | 2017-12-15 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
Non-Patent Citations (4)
Title |
---|
K. HU: "SVM-based separation of unvoiced-voiced speech in cochannel conditions", 《2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
Y. WANG: "Towards Scaling Up Classification-Based Speech Separation", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
周琳: "基于子带信噪比估计和软判决的鲁棒双耳声源定位算法", 《东南大学学报(自然科学版)》 * |
赵鹤鸣: "基于声音定位和听觉掩蔽效应的语音分离研究", 《电子学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109164415A (zh) * | 2018-09-07 | 2019-01-08 | 东南大学 | 一种基于卷积神经网络的双耳声源定位方法 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109448389A (zh) * | 2018-11-23 | 2019-03-08 | 西安联丰迅声信息科技有限责任公司 | 一种汽车鸣笛智能检测方法 |
CN109448389B (zh) * | 2018-11-23 | 2021-09-10 | 西安联丰迅声信息科技有限责任公司 | 一种汽车鸣笛智能检测方法 |
CN110728989A (zh) * | 2019-09-29 | 2020-01-24 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
CN110728989B (zh) * | 2019-09-29 | 2020-07-14 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
CN110827800A (zh) * | 2019-11-21 | 2020-02-21 | 北京智乐瑟维科技有限公司 | 基于语音的性别识别方法及其装置、存储介质和设备 |
CN111615045A (zh) * | 2020-06-23 | 2020-09-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108091345B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108091345B (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN104464750B (zh) | 一种基于双耳声源定位的语音分离方法 | |
Li et al. | Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
CN106782565A (zh) | 一种声纹特征识别方法及系统 | |
CN102799892B (zh) | 一种mfcc水下目标特征提取和识别方法 | |
Sun et al. | Two-stage monaural source separation in reverberant room environments using deep neural networks | |
CN102222508A (zh) | 一种基于矩阵变换的欠定盲分离方法 | |
US10410641B2 (en) | Audio source separation | |
CN102565759A (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN107219512A (zh) | 一种基于声传递函数的声源定位方法 | |
CN106847301A (zh) | 一种基于压缩感知和空间方位信息的双耳语音分离方法 | |
CN112259120A (zh) | 基于卷积循环神经网络的单通道人声与背景声分离方法 | |
Khamsehashari et al. | Voice privacy-leveraging multi-scale blocks with ECAPA-TDNN SE-res2next extension for speaker anonymization | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
CN112201276A (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
Li et al. | Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids | |
CN111929638A (zh) | 一种语音波达方向估计方法及装置 | |
Örnolfsson et al. | Exploiting non-negative matrix factorization for binaural sound localization in the presence of directional interference | |
CN112216301B (zh) | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 | |
CN115050391A (zh) | 基于f0子带的虚假音频检测方法及其系统 | |
CN110956978B (zh) | 一种基于欠定卷积混叠模型的稀疏盲分离方法 | |
Deshpande et al. | Detection of early reflections from a binaural activity map using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |