CN108091345B - 一种基于支持向量机的双耳语音分离方法 - Google Patents

一种基于支持向量机的双耳语音分离方法 Download PDF

Info

Publication number
CN108091345B
CN108091345B CN201711443394.8A CN201711443394A CN108091345B CN 108091345 B CN108091345 B CN 108091345B CN 201711443394 A CN201711443394 A CN 201711443394A CN 108091345 B CN108091345 B CN 108091345B
Authority
CN
China
Prior art keywords
band
binaural
sub
sound
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711443394.8A
Other languages
English (en)
Other versions
CN108091345A (zh
Inventor
周琳
庄琰
王立杰
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711443394.8A priority Critical patent/CN108091345B/zh
Publication of CN108091345A publication Critical patent/CN108091345A/zh
Application granted granted Critical
Publication of CN108091345B publication Critical patent/CN108091345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公布了一种基于支持向量机的双耳语音分离方法,该方法首先将双耳声信号经过Gammatone滤波器后,提取各个子带声信号的耳间时间差ITD和参数耳间强度差IID;在训练阶段,将包含两个声源的纯净混合双耳声信号提取的子带ITD、IID参数作为支持向量机SVM的输入特征,训练得到每个子带的SVM分类器,在测试阶段,在混响和噪声环境下,对包含两个声源的测试混合双耳声信号提取子带特征,利用各个子带的SVM分类器,对各个子带的特征参数进行分类,从而完成对混合语音中各个声源的分离。本发明基于支持向量机模型的分类能力,实现了复杂声学环境下鲁棒的双耳语音分离,同时有效解决了频点数据丢失的问题。

Description

一种基于支持向量机的双耳语音分离方法
技术领域
本发明涉及语音分离方法,尤其涉及一种基于支持向量机的双耳语音分离方法。
背景技术
支持向量机(Support Vector Machine,SVM)是一种二分类模型,它是定义在特征空间上的间隔最大的线性分类器,并且可以通过使用不同的核函数实现非线性分类。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。目前,常用的双耳语音分离方法在复杂声学环境下的性能表现仍然不能令人满意,并且存在分离语音频点丢失的现象。
发明内容
发明目的:本发明针对现有技术存在的问题,基于SVM高维、非线性分类能力,提出了一种基于支持向量机的双耳语音分离技术,在不同声学环境下的仿真测试表明,本发明算法显著提高语音分离算法的鲁棒性,并且有效解决了频点丢失的问题。
技术方案:本发明所述的基于支持向量机的双耳语音分离方法包括以下步骤:
(1)将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号;
(2)将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号;
(3)将步骤(2)得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围;
(4)对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元;
(5)计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量;
(6)将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本;
(7)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤(2)对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM;
(8)构建每个子带的SVM支持向量机模型,将步骤(6)对应的训练样本和步骤(7)得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型;
(9)将测试混合双耳声信号按照步骤(3)~(5)处理,得到对应的T-F单元的特征矢量,作为测试样本;
(10)将测试样本作为步骤(8)训练完成的各子带SVM支持向量机的输入特征,利用训练完成的各子带SVM支持向量机进行分类,得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵;
(11)对分离得到的每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
进一步的,所述步骤(1)中不同方位的单声源双耳声信号的计算公式为:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
进一步的,步骤(2)中包含两个不同方位声源的训练混合双耳声信号的计算公式为:
Figure BDA0001526950250000021
Figure BDA0001526950250000022
其中,
Figure BDA0001526950250000023
表示第一个方位的单声源双耳声信号的左、右耳信号,
Figure BDA0001526950250000024
表示第2个方位的单声源双耳声信号的左、右耳信号,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号。
进一步的,步骤(3)中经Gammatone滤波器组分解得到的各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
Figure BDA0001526950250000025
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
进一步的,步骤(4)中半波整流、平方根处理的计算公式为:
Figure BDA0001526950250000031
Figure BDA0001526950250000032
进一步的,步骤(4)中预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
Figure BDA0001526950250000033
为汉明窗。
进一步的,步骤(5)具体包括:
(5-1)计算
Figure BDA0001526950250000034
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;
Figure BDA0001526950250000035
分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
Figure BDA0001526950250000036
Figure BDA0001526950250000037
进一步的,步骤(7)具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
Figure BDA0001526950250000041
Figure BDA0001526950250000042
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
Figure BDA0001526950250000043
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
进一步的,步骤(8)具体包括:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,则IID(i,·)、ITD(i,·)、IBM(i,·)分别表示第i个子带、第k帧的IID、ITD和IBM,K为帧数;
(8-2)构造约束最优化问题,
Figure BDA0001526950250000044
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0 k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关;
(8-3)基于最优化问题训练得到各个子带的支持向量机。
进一步的,步骤(11)具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
Figure BDA0001526950250000051
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;
Figure BDA0001526950250000052
为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
Figure BDA0001526950250000053
Figure BDA0001526950250000054
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
Figure BDA0001526950250000055
Figure BDA0001526950250000056
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
有益效果:本发明与现有技术相比,其显著优点是:本发明与现有的双耳语音分离技术相比,由于本发明基于支持向量机的强大的分类能力,提取包含两个声源的混合双耳声信号经过处理后的T-F单元的耳间强度差IID和耳间时间差ITD作为特征参数,训练了一种支持向量机模型,从而实现了语音分离算法的鲁棒性。相比于以前的语音分离算法,有效地解决了频点丢失的问题;在SDR、SAR和SIR指标上,以及HIT-FA指标上表现优秀,并且,在复杂环境(低信噪比和高混响情形)也有较为明显的提升,算法鲁棒性更好。
附图说明
图1为本发明语音分离系统流程图;
图2为本发明双耳声信号生成图;
图3为基于DUET算法和本发明基于SVM的语音分离算法的分离后语音频谱比较图;
图4为基于DUET算法和本发明基于SVM的语音分离算法的HIT-FA指标比较图;
图5为基于DUET算法和本发明基于SVM的语音分离算法的准确率指标比较图;
图6为基于DUET算法和本发明基于SVM的语音分离算法的SDR指标比较图;
图7为基于DUET算法和本发明基于SVM的语音分离算法的SAR指标比较图;
图8为基于DUET算法和本发明基于SVM的语音分离算法的SIR指标比较图。
具体实施方式
如图1所示,本实施例提供的支持向量机SVM语音分离方法法包括以下步骤:
步骤一、将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号。其中,声源方位角由θ表示,定义水平面的正前方为0°,θ的范围为[-90°,90°],间隔为10°,其中,-90°表示正左方,90°表示正右方;
与头相关冲击响应HRIR(Head-Related Impulse Response)是与头相关函数HRTF(Head-Related Transfer Function)的时域表示。本发明采用麻省理工学院的媒体实验室发布的HRTF数据库,该数据库包含不同仰角和不同方位角的HRIR数据,本发明对采用的HRTF数据不做任何限制。
图2为双耳信号合成模拟图,将特定方位的与头相关冲击响应函数HRIR,与单声源声信号卷积,从而得到特定方位的双耳声信号:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
步骤二、将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号。
计算公式为:
Figure BDA0001526950250000071
Figure BDA0001526950250000072
其中,
Figure BDA0001526950250000073
表示第一个方位的单声源双耳声信号的左、右耳信号,
Figure BDA0001526950250000074
表示第2个方位的单声源双耳声信号的左、右耳信号,均根据步骤一生成,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号,本发明要求声源1和声源2的方位不同。
步骤三、将步骤二得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围。
各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
Figure BDA0001526950250000075
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
由于Gammatone滤波器组分解的每个子带的频域是交叠的,因此同一帧的多个子带T-F单元相互叠加,构成一帧的连续频谱,有效地解决了频谱丢失的问题。本实施例中设定Gammatone滤波器阶数为64,i=1,2,···,64,频率范围为[50Hz,8000Hz]。
步骤四、对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元。
半波整流、平方根处理的计算公式为:
Figure BDA0001526950250000081
Figure BDA0001526950250000082
预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;本实施例中,语音信号为16kHz,采取的分帧长度为20ms,帧移为10ms。
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
Figure BDA0001526950250000083
为汉明窗。
步骤五、计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量。具体包括:
(5-1)计算
Figure BDA0001526950250000084
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;
Figure BDA0001526950250000085
分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
Figure BDA0001526950250000086
Figure BDA0001526950250000091
步骤六、将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本。
步骤七、将步骤一得到的单声源双耳声信号分别按照步骤三和四执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤二对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM。
具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
Figure BDA0001526950250000092
Figure BDA0001526950250000093
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
Figure BDA0001526950250000094
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分。
步骤八、构建每个子带的SVM支持向量机模型,将步骤六对应的训练样本和步骤七得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型。
针对子带序号为i的SVM分类器的训练过程,下面进行详细描述:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,K为训练双耳声信号的帧数。
(8-2)构造并求解约束最优化问题,
Figure BDA0001526950250000101
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0 k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关。
针对这个最优化问题,对不等式约束引进拉格朗日乘子αi>=0,i=1,2,…,K,定义拉格朗日函数:
Figure BDA0001526950250000102
其中,α=(α12,…,αK)为拉格朗日乘子向量。
最优化问题转化为:
Figure BDA0001526950250000103
Figure BDA0001526950250000104
0≤αk≤C k=1,2,···,K
用径向基核函数RBF(Di(k),Di(t))代替内积Di(k)·Di(t)。
Figure BDA0001526950250000105
求得最优解为α*=(α1 *2 *,…,αK *)T,由此得到w,b*的最优解。
最终,决策函数,即分类超平面的函数表达式形式如下:
f(D)=sign(w·D+b*)
至此,各子带的支持向量机SVM模型训练完成。
本发明采用径向基函数RBF代替内积计算,实际上,SVM可以采用其它形式的基函数,本发明对SVM的基函数没有限制。
步骤九、将测试混合双耳声信号按照步骤三~五处理,得到对应的T-F单元的特征矢量,即(ITDtest(i,k),IIDtest(i,k)),作为测试样本。
步骤十、将测试样本作为步骤八训练完成的各子带SVM支持向量机的输入特征,从而得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵。
将(ITDtest(i,k),IIDtest(i,k))输入到对应第i个子带的支持向量机中,通过支持向量机的分类效果,得到对每个T-F单元的分类,0和1代表了不同的声源,由此得到了二值掩膜矩阵Mask(i,k)。
步骤十一、对每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
Figure BDA0001526950250000111
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;
Figure BDA0001526950250000112
为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
Figure BDA0001526950250000113
Figure BDA0001526950250000114
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
Figure BDA0001526950250000121
Figure BDA0001526950250000122
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
对以上方法进行仿真验证,最终的性能评估如下:
(1)SVM语音分离算法分离后语音频谱
从图3可以看出,经过SVM分离算法分离后的语音频谱有效解决了频点丢失的问题,频谱为连续谱,不存在频点丢失的现象,原因在于,Gammatone滤波器组分解的每个子带的频域是交叠的,虽然本章的T-F单元的掩膜矩阵采用二值掩膜,但同一帧的多个子带T-F单元相互叠加,构成一帧的连续频谱。
(2)SVM语音分离算法的各项指标评价
图4-图8展示了测试语音在不同信噪比和混响的环境下的分离效果,从图中可以看出SVM分离算法在低信噪比和高混响的环境下能有不错的正确率,并且在SDR、SAR和SIR指标上,均比DUET的表现优秀,说明了本算法的鲁棒性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于支持向量机的双耳语音分离方法,其特征在于,该方法包括以下步骤:
(1)将训练单声源语音信号与不同方位角的与头相关脉冲响应函数HRIR卷积,生成多个不同方位的单声源双耳声信号;
(2)将两个不同方位的单声源双耳声信号进行混合,生成多个训练混合双耳声信号;
(3)将步骤(2)得到的训练混合双耳声信号通过Gammatone滤波器组,分解为各个子带的时域信号,其中每个子带对应不同的频域范围;
(4)对每个子带的时域信号进行半波整流、平方根处理,之后再经过预处理获得单帧信号,作为训练混合双耳声信号的T-F时频单元;
(5)计算每个T-F时频单元的耳间时间差ITD和耳间强度差IID,作为T-F单元的特征矢量;
(6)将同一子带的T-F单元的特征矢量作为对应子带SVM向量机的训练样本;
(7)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元,根据不同声源在同一T-F单元的信号能量,标记步骤(2)对应的训练混合双耳声信号中每个T-F单元的理想二进制掩膜IBM;该步骤具体包括:
(7-1)将步骤(1)得到的单声源双耳声信号分别按照步骤(3)和(4)执行,得到单声源双耳声信号的T-F单元;
(7-2)计算步骤(2)混合时所采用的方位的单声源双耳声信号在不同T-F单元的信号能量:
Figure FDA0002672715830000011
Figure FDA0002672715830000012
式中,x1 L(i,k,m)、x1 R(i,k,m)表示混合时所采用的方位1的单声源双耳声信号,即声源1,对应的T-F单元,x2 L(i,k,m)、x2 R(i,k,m)表示混合时所采用的方位2的单声源双耳声信号,即声源2,对应的T-F单元,e1(i,k)、e2(i,k)分别表示对应声源在各个T-F单元的能量;
(7-3)根据单声源双耳声信号在不同T-F单元的信号能量,将理想二值掩膜IBM标记为能量较大的T-F单元的语音标签;
Figure FDA0002672715830000013
其中,IBM标记为1,表示该T-F单元为声源1占主要成分,标记为0,表示该T-F单元为声源2占主要成分;
(8)构建每个子带的SVM支持向量机模型,将步骤(6)对应的训练样本和步骤(7)得到的理想二值掩膜IBM,作为对应子带的支持向量机SVM的训练数据集,进行训练,从而得到每个子带的SVM模型;
(9)将测试混合双耳声信号按照步骤(3)~(5)处理,得到对应的T-F单元的特征矢量,作为测试样本;
(10)将测试样本作为步骤(8)训练完成的各子带SVM支持向量机的输入特征,利用训练完成的各子带SVM支持向量机进行分类,得到测试混合双耳声信号中不同方位声源对应的掩膜矩阵;
(11)对分离得到的每个方位声源的掩膜矩阵,利用Gammatone合成滤波器组,反向合成各个方位声源对应的时域信号,从而实现语音分离。
2.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(1)中不同方位的单声源双耳声信号的计算公式为:
sL(t)=s(t)*hL
sR(t)=s(t)*hR
其中,sL(t)、sR(t)表示指定方位的单声源左、右耳声信号,s(t)为训练单声源语音信号,hL、hR分别表示不同方位角θ对应的左耳HRIR、右耳HRIR,*为卷积运算。
3.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(2)中包含两个不同方位声源的训练混合双耳声信号的计算公式为:
Figure FDA0002672715830000021
Figure FDA0002672715830000022
其中,
Figure FDA0002672715830000023
表示第一个方位的单声源双耳声信号的左、右耳信号,
Figure FDA0002672715830000024
表示第2个方位的单声源双耳声信号的左、右耳信号,sleft(t)、sright(t)为包含两个不同方位声源的训练混合双耳声信号的左、右耳信号。
4.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(3)中经Gammatone滤波器组分解得到的各个子带的时域信号的计算公式为:
xleft(i,t)=sleft(t)*gi(t)
xright(i,t)=sright(t)*gi(t)
其中,xleft(i,t)、xright(i,t)表示训练混合双耳声信号sleft(t)、sright(t)经过Gammatone滤波器后,得到的第i个子带的时域信号,gi(t)为第i个Gamatone滤波器的脉冲响应函数:
Figure FDA0002672715830000031
其中,i代表滤波器的序号;C是滤波器增益;n代表滤波器的阶数;bi为滤波器的衰减因子;fi表示第i个Gammatone滤波器的中心频率。
5.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(4)中半波整流、平方根处理的计算公式为:
Figure FDA0002672715830000032
Figure FDA0002672715830000033
6.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(4)中预处理步骤包括分帧和加窗,其中:
分帧方法为:采用预设分帧长度和帧移,将半波整流、平方根处理后的声信号xL(i,t)、xR(i,t)划分为多个单帧信号xL(i,kN+m)、xR(i,kN+m),其中,k为帧序号,m表示一帧内采样序号0≤m<N,N为帧长;
加窗方法为:
xL(i,k,m)=wH(m)xL(i,kN+m)
xR(i,k,m)=wH(m)xR(i,kN+m)
其中xL(i,k,m)、xR(i,k,m)分别为预处理后的第i个子带、第k帧的左、右耳声信号,作为训练混合双耳声信号的T-F时频单元;
Figure FDA0002672715830000034
为汉明窗。
7.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(5)具体包括:
(5-1)计算
Figure FDA0002672715830000035
CCF(i,k,d)表示第i子带、第k帧的T-F单元时延为d的互相关值;xL(i,k,m)、xR(i,k,m)为第i个子带、第k帧的T-F单元;xL(i,k)、xR(i,k)分别表示第i个子带、第k帧左、右耳声信号的均值;N为帧长;
(5-2)根据互相关值CCF(i,k,d)计算第i个子带、第k帧的ITD、IID:
Figure FDA0002672715830000041
Figure FDA0002672715830000042
8.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(8)具体包括:
(8-1)输入的训练集为:对应每一个子带,训练样本为子带内所有帧的ITD、IID特征参数和IBM,表示为:
Ti={((IID(i,1),ITD(i,1)),IBM(i,1)),···,((IID(i,K),ITD(i,K)),IBM(i,K))}
Ti为第i个支持向量机的训练集,则IID(i,·)、ITD(i,·)、IBM(i,·)分别表示第i个子带、第k帧的IID、ITD和IBM,K为帧数;
(8-2)构造约束最优化问题,
Figure FDA0002672715830000043
s.t.Li(k)(wDi(k)+b)≥1-εk
εk≥0k=1,2,···,K
其中,将二维特征矢量(IID(i,k),ITD(i,k))记为Di(k),将IBM(i,k)记为Li(k),w,b分别为第i个子带对应SVM模型分类超平面的法向量和截距,εk为对应于每个数据点(Di(k),Li(k))的松弛变量,C>0,表示惩罚系数,C值大小与误分类的惩罚代价正相关;
(8-3)基于最优化问题训练得到各个子带的支持向量机。
9.根据权利要求1所述的基于支持向量机的双耳语音分离方法,其特征在于:所述步骤(11)具体包括:
(11-1)将步骤(10)得到的掩膜矩阵与步骤(9)得到的T-F单元相乘得到两个声源对应的时频域信号:
xtest1(i,k,m)=Mask(i,k)×xtest(i,k,m)
Figure FDA0002672715830000051
其中xtest1(i,k,m)、xtest2(i,k,m)分别为声源1、2对应的时频域信号,Mask(i,k)表示掩膜矩阵中第i个子带、第k帧掩蔽值;
Figure FDA0002672715830000052
为Mask(i,k)的取反,xtest(i,k,m)表示测试混合双耳声信号的T-F单元;
(11-2)将声源1和声源2的各个单帧信号进行合并,从而得到每个声源对应的各个子带声信号xtest1(i,t)和xtest2(i,t):
Figure FDA0002672715830000053
Figure FDA0002672715830000054
其中N表示预处理的帧长,m表示一帧内采样序号0≤m<N,wH(m)为汉明窗;
(11-3)将各单声源的所有子带声信号经过合成Gammtone滤波器,从而合成各个声源的声信号,实现各个声源的分离,得到分离后的信号stest1(t)和stest2(t)
Figure FDA0002672715830000055
Figure FDA0002672715830000056
其中,gi(t)与步骤(3)的滤波器相同,为第i个Gamatone滤波器的脉冲响应函数,DFT(·)表示离散傅里叶变换,IDFT(·)表示离散傅里叶逆变换。
CN201711443394.8A 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法 Active CN108091345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711443394.8A CN108091345B (zh) 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711443394.8A CN108091345B (zh) 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法

Publications (2)

Publication Number Publication Date
CN108091345A CN108091345A (zh) 2018-05-29
CN108091345B true CN108091345B (zh) 2020-11-20

Family

ID=62179665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711443394.8A Active CN108091345B (zh) 2017-12-27 2017-12-27 一种基于支持向量机的双耳语音分离方法

Country Status (1)

Country Link
CN (1) CN108091345B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109164415B (zh) * 2018-09-07 2022-09-16 东南大学 一种基于卷积神经网络的双耳声源定位方法
CN109410976B (zh) * 2018-11-01 2022-12-16 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109448389B (zh) * 2018-11-23 2021-09-10 西安联丰迅声信息科技有限责任公司 一种汽车鸣笛智能检测方法
CN110728989B (zh) * 2019-09-29 2020-07-14 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110827800A (zh) * 2019-11-21 2020-02-21 北京智乐瑟维科技有限公司 基于语音的性别识别方法及其装置、存储介质和设备
CN111615045B (zh) * 2020-06-23 2021-06-11 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107424625A (zh) * 2017-06-27 2017-12-01 南京邮电大学 一种基于向量机框架的多通道语音活动检测方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9601130B2 (en) * 2013-07-18 2017-03-21 Mitsubishi Electric Research Laboratories, Inc. Method for processing speech signals using an ensemble of speech enhancement procedures
WO2016025812A1 (en) * 2014-08-14 2016-02-18 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107424625A (zh) * 2017-06-27 2017-12-01 南京邮电大学 一种基于向量机框架的多通道语音活动检测方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SVM-based separation of unvoiced-voiced speech in cochannel conditions;K. Hu;《2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20120831;4545-4548 *
Towards Scaling Up Classification-Based Speech Separation;Y. Wang;《IEEE Transactions on Audio, Speech, and Language Processing》;20130307;1381-1390 *
基于声音定位和听觉掩蔽效应的语音分离研究;赵鹤鸣;《电子学报》;20050131;第33卷(第1期);158-160 *
基于子带信噪比估计和软判决的鲁棒双耳声源定位算法;周琳;《东南大学学报(自然科学版)》;20150731;第45卷(第4期);619-624 *

Also Published As

Publication number Publication date
CN108091345A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN104464750B (zh) 一种基于双耳声源定位的语音分离方法
Wang et al. Specaugment++: A hidden space data augmentation method for acoustic scene classification
Li et al. Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN106782565A (zh) 一种声纹特征识别方法及系统
CN112259120B (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
Sun et al. Two-stage monaural source separation in reverberant room environments using deep neural networks
Li et al. Sams-net: A sliced attention-based neural network for music source separation
Kong et al. Radar waveform recognition using Fourier-based synchrosqueezing transform and CNN
Han et al. DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
Liu et al. Golden gemini is all you need: Finding the sweet spots for speaker verification
Fan et al. Deep attention fusion feature for speech separation with end-to-end post-filter method
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
Xiao et al. Improved source counting and separation for monaural mixture
Nustede et al. Single-channel speech enhancement with deep complex u-networks and probabilistic latent space models
Khamsehashari et al. Voice privacy-leveraging multi-scale blocks with ECAPA-TDNN SE-res2next extension for speaker anonymization
CN115910091A (zh) 引入基频线索的生成式语音分离方法和装置
CN115050391A (zh) 基于f0子带的虚假音频检测方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant