CN108091345A - 一种基于支持向量机的双耳语音分离方法 - Google Patents

一种基于支持向量机的双耳语音分离方法 Download PDF

Info

Publication number
CN108091345A
CN108091345A CN201711443394.8A CN201711443394A CN108091345A CN 108091345 A CN108091345 A CN 108091345A CN 201711443394 A CN201711443394 A CN 201711443394A CN 108091345 A CN108091345 A CN 108091345A
Authority
CN
China
Prior art keywords
binaural
sound
band
signal
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711443394.8A
Other languages
English (en)
Other versions
CN108091345B (zh
Inventor
周琳
庄琰
王立杰
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711443394.8A priority Critical patent/CN108091345B/zh
Publication of CN108091345A publication Critical patent/CN108091345A/zh
Application granted granted Critical
Publication of CN108091345B publication Critical patent/CN108091345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公布了一种基于支持向量机的双耳语音分离方法,该方法首先将双耳声信号经过Gammatone滤波器后,提取各个子带声信号的耳间时间差ITD和参数耳间强度差IID;在训练阶段,将包含两个声源的纯净混合双耳声信号提取的子带ITD、IID参数作为支持向量机SVM的输入特征,训练得到每个子带的SVM分类器,在测试阶段,在混响和噪声环境下,对包含两个声源的测试混合双耳声信号提取子带特征,利用各个子带的SVM分类器,对各个子带的特征参数进行分类,从而完成对混合语音中各个声源的分离。本发明基于支持向量机模型的分类能力,实现了复杂声学环境下鲁棒的双耳语音分离,同时有效解决了频点数据丢失的问题。

Description

一种基于支持向量机的双耳语音分离方法
技术领域
本发明涉及语音分离方法,尤其涉及一种基于支持向量机的双耳语音分离方法。
背景技术
支持向量机(Support Vector Machine,SVM)是一种二分类模型,它是定义在特征空间上的间隔最大的线性分类器,并且可以通过使用不同的核函数实现非线性分类。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。目前,常用的双耳语音分离方法在复杂声学环境下的性能表现仍然不能令人满意,并且存在分离语音频点丢失的现象。
发明内容
发明目的:本发明针对现有技术存在的问题,基于SVM高维、非线性分类能力,提出了一种基于支持向量机的双耳语音分离技术,在不同声学环境下的仿真测试表明,本发明算法显著提高语音分离算法的鲁棒性,并且有效解决了频点丢失的问题。
技术方案:本发明所述的基于支持向量机的双耳语音分离方法包括以下步骤:
(1)将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号;
(2)将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号;
(3)将步骤(2)得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围;
(4)对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元;
(5)计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量;
(6)将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本;
(7)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤(2)对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM;
(8)构建每个子带的SVM支持向量机模型,将步骤(6)对应的训练样本和步骤(7)得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型;
(9)将测试混合双耳声信号按照步骤(3)~(5)处理,得到对应的T-F单元的特征矢量,作为测试样本;
(10)将测试样本作为步骤(8)训练完成的各子带SVM支持向量机的输入特征,利用训练完成的各子带SVM支持向量机进行分类,得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵;
(11)对分离得到的每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
进一步的,所述步骤(1)中不同方位的单声源双耳声信号的计算公式为:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
进一步的,步骤(2)中包含两个不同方位声源的训练混合双耳声信号的计算公式为:
其中,表示第一个方位的单声源双耳声信号的左、右耳信号,表示第2个方位的单声源双耳声信号的左、右耳信号,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号。
进一步的,步骤(3)中经Gammatone滤波器组分解得到的各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
进一步的,步骤(4)中半波整流、平方根处理的计算公式为:
进一步的,步骤(4)中预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
为汉明窗。
进一步的,步骤(5)具体包括:
(5-1)计算
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
进一步的,步骤(7)具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
进一步的,步骤(8)具体包括:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,则IID(i,·)、ITD(i,·)、IBM(i,·)分别表示第i个子带、第k帧的IID、ITD和IBM,K为帧数;
(8-2)构造约束最优化问题,
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0 k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关;
(8-3)基于最优化问题训练得到各个子带的支持向量机。
进一步的,步骤(11)具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
有益效果:本发明与现有技术相比,其显著优点是:本发明与现有的双耳语音分离技术相比,由于本发明基于支持向量机的强大的分类能力,提取包含两个声源的混合双耳声信号经过处理后的T-F单元的耳间强度差IID和耳间时间差ITD作为特征参数,训练了一种支持向量机模型,从而实现了语音分离算法的鲁棒性。相比于以前的语音分离算法,有效地解决了频点丢失的问题;在SDR、SAR和SIR指标上,以及HIT-FA指标上表现优秀,并且,在复杂环境(低信噪比和高混响情形)也有较为明显的提升,算法鲁棒性更好。
附图说明
图1为本发明语音分离系统流程图;
图2为本发明双耳声信号生成图;
图3为基于DUET算法和本发明基于SVM的语音分离算法的分离后语音频谱比较图;
图4为基于DUET算法和本发明基于SVM的语音分离算法的HIT-FA指标比较图;
图5为基于DUET算法和本发明基于SVM的语音分离算法的准确率指标比较图;
图6为基于DUET算法和本发明基于SVM的语音分离算法的SDR指标比较图;
图7为基于DUET算法和本发明基于SVM的语音分离算法的SAR指标比较图;
图8为基于DUET算法和本发明基于SVM的语音分离算法的SIR指标比较图。
具体实施方式
如图1所示,本实施例提供的支持向量机SVM语音分离方法法包括以下步骤:
步骤一、将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号。其中,声源方位角由θ表示,定义水平面的正前方为0°,θ的范围为[-90°,90°],间隔为10°,其中,-90°表示正左方,90°表示正右方;
与头相关冲击响应HRIR(Head-Related Impulse Response)是与头相关函数HRTF(Head-Related Transfer Function)的时域表示。本发明采用麻省理工学院的媒体实验室发布的HRTF数据库,该数据库包含不同仰角和不同方位角的HRIR数据,本发明对采用的HRTF数据不做任何限制。
图2为双耳信号合成模拟图,将特定方位的与头相关冲击响应函数HRIR,与单声源声信号卷积,从而得到特定方位的双耳声信号:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
步骤二、将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号。
计算公式为:
其中,表示第一个方位的单声源双耳声信号的左、右耳信号,表示第2个方位的单声源双耳声信号的左、右耳信号,均根据步骤一生成,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号,本发明要求声源1和声源2的方位不同。
步骤三、将步骤二得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围。
各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
由于Gammatone滤波器组分解的每个子带的频域是交叠的,因此同一帧的多个子带T-F单元相互叠加,构成一帧的连续频谱,有效地解决了频谱丢失的问题。本实施例中设定Gammatone滤波器阶数为64,i=1,2,···,64,频率范围为[50Hz,8000Hz]。
步骤四、对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元。
半波整流、平方根处理的计算公式为:
预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;本实施例中,语音信号为16kHz,采取的分帧长度为20ms,帧移为10ms。
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
为汉明窗。
步骤五、计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量。具体包括:
(5-1)计算
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
步骤六、将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本。
步骤七、将步骤一得到的单声源双耳声信号分别按照步骤三和四执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤二对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM。
具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
步骤八、构建每个子带的SVM支持向量机模型,将步骤六对应的训练样本和步骤七得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型。
针对子带序号为i的SVM分类器的训练过程,下面进行详细描述:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,K为训练双耳声信号的帧数。
(8-2)构造并求解约束最优化问题,
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0 k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关。
针对这个最优化问题,对不等式约束引进拉格朗日乘子αi>=0,i=1,2,…,K,定义拉格朗日函数:
其中,α=(α12,…,αK)为拉格朗日乘子向量。
最优化问题转化为:
0≤αk≤C k=1,2,···,K
用径向基核函数RBF(Di(k),Di(t))代替内积Di(k)·Di(t)。
求得最优解为α*=(α1 *2 *,…,αK *)T,由此得到w,b*的最优解。
最终,决策函数,即分类超平面的函数表达式形式如下:
f(D)=sign(w·D+b*)
至此,各子带的支持向量机SVM模型训练完成。
本发明采用径向基函数RBF代替内积计算,实际上,SVM可以采用其它形式的基函数,本发明对SVM的基函数没有限制。
步骤九、将测试混合双耳声信号按照步骤三~五处理,得到对应的T-F单元的特征矢量,即(ITDtest(i,k),IIDtest(i,k)),作为测试样本。
步骤十、将测试样本作为步骤八训练完成的各子带SVM支持向量机的输入特征,从而得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵。
将(ITDtest(i,k),IIDtest(i,k))输入到对应第i个子带的支持向量机中,通过支持向量机的分类效果,得到对每个T-F单元的分类,0和1代表了不同的声源,由此得到了二值掩膜矩阵Mask(i,k)。
步骤十一、对每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
对以上方法进行仿真验证,最终的性能评估如下:
(1)SVM语音分离算法分离后语音频谱
从图3可以看出,经过SVM分离算法分离后的语音频谱有效解决了频点丢失的问题,频谱为连续谱,不存在频点丢失的现象,原因在于,Gammatone滤波器组分解的每个子带的频域是交叠的,虽然本章的T-F单元的掩膜矩阵采用二值掩膜,但同一帧的多个子带T-F单元相互叠加,构成一帧的连续频谱。
(2)SVM语音分离算法的各项指标评价
图4-图8展示了测试语音在不同信噪比和混响的环境下的分离效果,从图中可以看出SVM分离算法在低信噪比和高混响的环境下能有不错的正确率,并且在SDR、SAR和SIR指标上,均比DUET的表现优秀,说明了本算法的鲁棒性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于支持向量机的双耳语音分离方法,其特征在于,该方法包括以下步骤:
(1)将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号;
(2)将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号;
(3)将步骤(2)得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围;
(4)对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元;
(5)计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量;
(6)将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本;
(7)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤(2)对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM;
(8)构建每个子带的SVM支持向量机模型,将步骤(6)对应的训练样本和步骤(7)得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型;
(9)将测试混合双耳声信号按照步骤(3)~(5)处理,得到对应的T-F单元的特征矢量,作为测试样本;
(10)将测试样本作为步骤(8)训练完成的各子带SVM支持向量机的输入特征,利用训练完成的各子带SVM支持向量机进行分类,得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵;
(11)对分离得到的每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
2.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(1)中不同方位的单声源双耳声信号的计算公式为:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
3.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(2)中包含两个不同方位声源的训练混合双耳声信号的计算公式为:
<mrow> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>s</mi> <mi>L</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>s</mi> <mi>L</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>s</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>s</mi> <mi>R</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>s</mi> <mi>R</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>
其中,表示第一个方位的单声源双耳声信号的左、右耳信号,表示第2个方位的单声源双耳声信号的左、右耳信号,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号。
4.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(3)中经Gammatone滤波器组分解得到的各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
5.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(4)中半波整流、平方根处理的计算公式为:
<mrow> <msub> <mi>x</mi> <mi>L</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msqrt> <mrow> <msub> <mi>x</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msqrt> </mtd> <mtd> <mrow> <msub> <mi>x</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msub> <mi>x</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
<mrow> <msub> <mi>x</mi> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <msqrt> <mrow> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </msqrt> </mtd> <mtd> <mrow> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
6.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(4)中预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
为汉明窗。
7.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(5)具体包括:
(5-1)计算
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
<mrow> <mi>I</mi> <mi>T</mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>a</mi> <munder> <mrow> <mi>r</mi> <mi>g</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>d</mi> </munder> <mi>C</mi> <mi>C</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>I</mi> <mi>I</mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>20</mn> <mo>*</mo> <msub> <mi>log</mi> <mn>10</mn> </msub> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>x</mi> <mi>R</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>x</mi> <mi>L</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
8.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(7)具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
<mrow> <msubsup> <mi>e</mi> <mi>L</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>m</mi> </munder> <mo>|</mo> <msubsup> <mi>x</mi> <mi>L</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>,</mo> <msubsup> <mi>e</mi> <mi>R</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>m</mi> </munder> <mo>|</mo> <msubsup> <mi>x</mi> <mi>R</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>
<mrow> <msubsup> <mi>e</mi> <mi>L</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>m</mi> </munder> <mo>|</mo> <msubsup> <mi>x</mi> <mi>L</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>,</mo> <msubsup> <mi>e</mi> <mi>R</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>m</mi> </munder> <mo>|</mo> <msubsup> <mi>x</mi> <mi>R</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
<mrow> <mi>I</mi> <mi>B</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msubsup> <mi>e</mi> <mi>R</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&amp;GreaterEqual;</mo> <msubsup> <mi>e</mi> <mi>R</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msubsup> <mi>e</mi> <mi>R</mi> <mn>1</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <msubsup> <mi>e</mi> <mi>R</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
9.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(8)具体包括:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),…,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,则IID(i,·)、ITD(i,·)、IBM(i,·)分别表示第i个子带、第k帧的IID、ITD和IBM,K为帧数;
(8-2)构造约束最优化问题,
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>w</mi> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>&amp;epsiv;</mi> </mrow> </munder> </mtd> <mtd> <mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&amp;epsiv;</mi> <mi>k</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0k=1,2,…,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关;
(8-3)基于最优化问题训练得到各个子带的支持向量机。
10.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(11)具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
<mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mrow> <mi>M</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> <mo>&amp;OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow>
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
<mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mi>N</mi> <mo>+</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>w</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
<mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mi>N</mi> <mo>+</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>w</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
<mrow> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <mi>I</mi> <mi>D</mi> <mi>F</mi> <mi>T</mi> <mo>(</mo> <mfrac> <mrow> <mi>D</mi> <mi>F</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mi>F</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow>
<mrow> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <mi>I</mi> <mi>D</mi> <mi>F</mi> <mi>T</mi> <mo>(</mo> <mfrac> <mrow> <mi>D</mi> <mi>F</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>D</mi> <mi>F</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>g</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow>
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
CN201711443394.8A 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法 Active CN108091345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711443394.8A CN108091345B (zh) 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711443394.8A CN108091345B (zh) 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法

Publications (2)

Publication Number Publication Date
CN108091345A true CN108091345A (zh) 2018-05-29
CN108091345B CN108091345B (zh) 2020-11-20

Family

ID=62179665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711443394.8A Active CN108091345B (zh) 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法

Country Status (1)

Country Link
CN (1) CN108091345B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164415A (zh) * 2018-09-07 2019-01-08 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109448389A (zh) * 2018-11-23 2019-03-08 西安联丰迅声信息科技有限责任公司 一种汽车鸣笛智能检测方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110827800A (zh) * 2019-11-21 2020-02-21 北京智乐瑟维科技有限公司 基于语音的性别识别方法及其装置、存储介质和设备
CN111615045A (zh) * 2020-06-23 2020-09-01 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
US20150025880A1 (en) * 2013-07-18 2015-01-22 Mitsubishi Electric Research Laboratories, Inc. Method for Processing Speech Signals Using an Ensemble of Speech Enhancement Procedures
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
US20170243597A1 (en) * 2014-08-14 2017-08-24 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107424625A (zh) * 2017-06-27 2017-12-01 南京邮电大学 一种基于向量机框架的多通道语音活动检测方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
US20150025880A1 (en) * 2013-07-18 2015-01-22 Mitsubishi Electric Research Laboratories, Inc. Method for Processing Speech Signals Using an Ensemble of Speech Enhancement Procedures
US20170243597A1 (en) * 2014-08-14 2017-08-24 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107424625A (zh) * 2017-06-27 2017-12-01 南京邮电大学 一种基于向量机框架的多通道语音活动检测方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
K. HU: "SVM-based separation of unvoiced-voiced speech in cochannel conditions", 《2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
Y. WANG: "Towards Scaling Up Classification-Based Speech Separation", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
周琳: "基于子带信噪比估计和软判决的鲁棒双耳声源定位算法", 《东南大学学报(自然科学版)》 *
赵鹤鸣: "基于声音定位和听觉掩蔽效应的语音分离研究", 《电子学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164415A (zh) * 2018-09-07 2019-01-08 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109410976B (zh) * 2018-11-01 2022-12-16 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109448389A (zh) * 2018-11-23 2019-03-08 西安联丰迅声信息科技有限责任公司 一种汽车鸣笛智能检测方法
CN109448389B (zh) * 2018-11-23 2021-09-10 西安联丰迅声信息科技有限责任公司 一种汽车鸣笛智能检测方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110728989B (zh) * 2019-09-29 2020-07-14 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110827800A (zh) * 2019-11-21 2020-02-21 北京智乐瑟维科技有限公司 基于语音的性别识别方法及其装置、存储介质和设备
CN111615045A (zh) * 2020-06-23 2020-09-01 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108091345B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN104464750B (zh) 一种基于双耳声源定位的语音分离方法
Li et al. Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
CN106782565A (zh) 一种声纹特征识别方法及系统
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
Sun et al. Two-stage monaural source separation in reverberant room environments using deep neural networks
CN102222508A (zh) 一种基于矩阵变换的欠定盲分离方法
US10410641B2 (en) Audio source separation
CN102565759A (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN107219512A (zh) 一种基于声传递函数的声源定位方法
CN106847301A (zh) 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN112259120A (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
Khamsehashari et al. Voice privacy-leveraging multi-scale blocks with ECAPA-TDNN SE-res2next extension for speaker anonymization
CN112863517A (zh) 基于感知谱收敛率的语音识别方法
CN112201276A (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
Li et al. Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids
CN111929638A (zh) 一种语音波达方向估计方法及装置
Örnolfsson et al. Exploiting non-negative matrix factorization for binaural sound localization in the presence of directional interference
CN112216301B (zh) 基于对数幅度谱和耳间相位差的深度聚类语音分离方法
CN115050391A (zh) 基于f0子带的虚假音频检测方法及其系统
CN110956978B (zh) 一种基于欠定卷积混叠模型的稀疏盲分离方法
Deshpande et al. Detection of early reflections from a binaural activity map using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant