CN104464750A - 一种基于双耳声源定位的语音分离方法 - Google Patents

一种基于双耳声源定位的语音分离方法 Download PDF

Info

Publication number
CN104464750A
CN104464750A CN201410579458.7A CN201410579458A CN104464750A CN 104464750 A CN104464750 A CN 104464750A CN 201410579458 A CN201410579458 A CN 201410579458A CN 104464750 A CN104464750 A CN 104464750A
Authority
CN
China
Prior art keywords
mrow
msub
itd
iid
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410579458.7A
Other languages
English (en)
Other versions
CN104464750B (zh
Inventor
周琳
李枭雄
吴镇扬
郭海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201410579458.7A priority Critical patent/CN104464750B/zh
Publication of CN104464750A publication Critical patent/CN104464750A/zh
Application granted granted Critical
Publication of CN104464750B publication Critical patent/CN104464750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于双耳声源定位的语音分离方法通过数据训练、多声源定位和根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音。本发明基于人耳的“鸡尾酒会效应”,模拟人耳的听觉特征,可以准确定位声源个数和声源方位,利用定位后的声源方位信息获取准确的混合矩阵,从而进行语音分离过程,其分离性能获得有效提升。

Description

一种基于双耳声源定位的语音分离方法
技术领域
本发明涉及语音分离技术,具体涉及一种基于双耳声源定位的语音分离方法。
背景技术
语音分离是一类特殊的语音增强方法,这种方法是在源语音信号和传输信道参数(即混合过程)未知的情况下,仅根据从双耳麦克风采集到的观测数据(即混合语音信号),来恢复或分离出独立的源语音信号的过程。
目前,盲源语音分离技术估计出的混合矩阵需要手动选取峰值点,与真实值存在误差,其实施条件也难以满足双耳语音分离的模型。而多麦克风阵列的语音分离算法存在计算量大、麦克风阵列尺寸大等问题。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于双耳声源定位的语音分离方法,利用人耳的鸡尾酒会效应,模拟人耳的听觉特征,可以准确定位声源个数和声源方位,利用定位到的声源方位信息获取准确的混合矩阵进行语音分离,改进了现有技术的不足。
技术方案:一种基于双耳声源定位的语音分离方法,其特征在于,该方法包括以下步骤:
步骤1)数据训练:
1.1)使用虚拟声进行训练,所述虚拟声为头相关脉冲响应函数HRIR数据与白噪声卷积生成方位已知的虚拟声,声源位置坐标为(r,θ),r为声源与原点的直线距离,方位角θ为方向矢量在水平面的投影与中垂面的夹角;方位θ角的范围为[-180°,180°],其中,前向方位角范围为[-90°,90°],间隔为5°;
1.2)对虚拟声进行预处理,获得平稳的单帧信号;所述预处理包括幅度归一化、分帧和加窗;
1.3)对步骤1.2)所得单帧信号进行计算,分别计算每一个帧信号的耳间时间差ITD特征参数和耳间强度差IID特征参数,获得不同方位虚拟声声源的多帧ITD和多帧IID训练样本;
1.4)根据步骤1.3)所得ITD和IID训练样本,建立方位映射模型:将相同方位虚拟声信号的多帧ITD和多帧IID训练样本值的均值作为训练ITD参数和训练IID参数模型:δ(θ)和α(θ,ω),其中δ(θ)表示角度θ对应的训练ITD参数;α(θ,ω)表示频谱为ω,角度为θ对应的训练IID参数;其中,ω为角频率矢量;ω的范围为[0,2π],间隔为2π/512;
步骤2)多声源定位:
2.1)对双通道的采集声信号进行预处理,按帧获得双通道多帧的时域信号;所述预处理包括幅度归一化、分帧和加窗;
2.2)对步骤2.1)中分帧后所得的分帧信号进行短时傅里叶变换,转换到时频域,获得双通道时频域的分帧信号;
2.3)对步骤2.2)所得的时频域信号按帧计算每一帧测量ITD参数和测量IID参数;
2.4)对步骤2.3)中的测量ITD参数进行阈值筛选,获得多个候选测量ITD参数
{ δ ~ 1 , δ ~ 2 , . . . , δ ~ l }
其中,为候选的测量ITD参数,l为候选参数的个数;i和l的取值范围满足:1≤i≤l;
2.5)对步骤2.4)所得的候选测量ITD参数与步骤1.4)中获得的方位映射模型中规定前向方位角的训练ITD参数值进行逐一距离匹配,并进行筛选,获得筛选后的k个前向候选方位,其中,k<=l;由对称性,得到前后向对称的候选方位集合:
f1f2,…,θfkb1b2,…,θbk}
其中,下标f和b表示前向和后向;得到测量ITD参数对应的候选方位,即每个对应两个前后对称的θfj和θbj,其中θfj和θbj表示候选的前向方位和后向方位;i、l、j和k的取值范围满足1≤i≤l,1≤j≤k;
2.6)根据步骤2.5)得到的每个测量ITD参数对应的候选方位,将测量ITD所在帧的IID值根据其对应的候选方位,归为相应候选角度的测量IID参数集合;
2.7)对于每个候选角度,就步骤2.6)所得的测量IID参数集合与步骤1.4)所得的方位映射模型中的IID模型值计算欧氏距离,并进行距离阈值判决,获得最终判定的声源个数n和声源的方位:{θ12,…,θn};其中,n≤k;
步骤3)根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音:
3.1)根据步骤2.7)所得声源个数和声源方位,获得其对应于步骤1.4)中训练ITD参数和训练IID参数的参数对,组成多声源的方位混合矩阵;
3.2)对步骤2.1)所得双通道多帧的时频域信号中的每对时频点与步骤3.1)获得的混合矩阵中每个训练ITD参数和训练IID参数对进行欧氏距离计算,根据最大似然准则,对每个声源所对应的时频点进行二进制掩码标记;
3.3)对步骤3.2)所得的掩码标记与步骤2.1)中获得的双通道多帧的时频信号相乘,获得每个声源所对应的时频域信号;
3.4)对步骤3.3)所得的每个声源对应的时频域信号进行傅里叶逆变换,转换为时域信号,进行去加窗,合成为每个声源的分离语音。
有益效果:本发明与现有的双通道语音分离技术相比,由于本发明基于人耳听觉特性进行声源定位,在定位阶段准确获取了声源的个数和方位,从而获取真实准确的混合参数矩阵,在语音混合参数矩阵估计的精确度上得到有效提升,将声源定位和二进制掩码技术相结合,在多个说话人分离方面,其分离性能:SIR(Source to Interferences Ratio)、SDR(Source to Distortion Ratio)、SAR(Sources to Artifacts Ratio)得到有效提高。
附图说明
图1为本发明声源定位和语音分离的平面空间示意图
图2为本发明系统框图
图3为本发明声源定位框图
图4为本发明语音分离框图
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明先进行数据训练,将各方位耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)的均值作为声源方位的定位特征线索,建立方位映射模型;实际声源定位时,输入为双通道声信号,输入声信号先经过频域变换,计算各帧的ITD和IID参数,根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配,基于欧氏距离测度,进行方位筛选,输出候选方位,对所有候选方位对应帧的IID特征参数与训练模块的IID特征参数进行欧氏距离计算,根据阈值判决,输出最终的声源个数及声源方位。在多声源分离部分,利用语音定位后的方位信息确定混合矩阵,根据二进制掩码技术将每个声源所对应的时频点归为一类,最后通过傅里叶逆变换将时频域上各声源的时频点恢复到时域。
图1为本发明声源定位和语音分离的平面空间示意图,以3个声源为例。2个麦克风位于双耳处,在本发明中,声源位置由坐标(r,θ)唯一确定。其中,0≤r<+∞为声源与原点的距离;方向角-180°≤θ≤180°为方向矢量在水平面的投影与中垂面的夹角。水平面上,θ=0°表示正前方,沿顺时针方向θ=90°、180°和-90°分别表示正右、正后和正左方。图1以3个声源(本实施例的声源为说话人发出的声音)为例,其方向角分别为-30°、5°、40°。
图2为本发明的系统框图,本发明方法包括模型训练、声源定位和语音分离三大步,下面结合附图对本发明技术方案的具体实施方式进行详细说明:
步骤1)数据训练:
1.1)图2给出整体系统框图中,在训练阶段,HRTF(Head Related Transfer Function):头相关变换函数,是一种音效定位算法,对应时域的HRIR(Head Related ImpulseResponse)为头相关冲击响应。
本发明使用麻省理工学院媒体实验室测量的HRIR数据,有2种获得方位已知的虚拟声的方法:
第一种:使用水平面方位,即θ=-180°~180°(间隔5°)的头相关脉冲响应(双通道)HRIR数据,与白噪声卷积生成方位已知的虚拟声(双通道);
第二种:使用水平面右侧方位,即θ=0°~180°(间隔5°)的HRIR数据,由于左右耳对称,因此将右侧方位虚拟声数据交换左右声道的数据即得到水平面左侧的方位的虚拟声,即θ=-180°~0°(间隔5°)。
1.2)对所得虚拟声进行预处理,本方法的预处理包括:幅度归一化、分帧及加窗。
幅度归一化方法为:
xL=xL/maxvalue
xR=xR/maxvalue
其中:
xL和xR分别表示左耳声信号和右耳声信号;maxvalue=max(|xL|,|xR|),表示左耳、右耳声信号幅度的最大值。
本实施例采取的分帧方式帧长为32ms,帧移为10ms。
本实施例使用汉明窗对分帧后的语音信号进行加窗处理,加窗后的第τ帧信号可以表示为xτ(m)=wH(m)x(τN+m)0≤m<N
其中, w H ( m ) = 0.54 - 0.46 cos [ 2 &pi;m / ( N - 1 ) ] 0 &le; m < N 0 m &GreaterEqual; N 为汉明窗,N为一帧采样数据长度,本实施例中,N=512。
1.3)求取ITD和IID训练样本。
第τ帧信号的ITD值为:
ITD &tau; = arg max k ( &Sigma; m = 0 N - | k | - 1 x L ( m ) x R ( m + k ) )
其中,N为一帧信号的采样点数,-N+1≤k≤N-1。
第τ帧信号的IID值为:
IID &tau; ( &omega; ) = 20 log | X L ( &tau; , &omega; ) | | X R ( &tau; , &omega; ) |
其中,XL和XR分别xL和xR的频域表示,即短时傅里叶变换,其公式的公式为:
X ( &tau; , &omega; ) = &Sigma; m = 0 N - 1 x &tau; ( m ) e - j&omega;m
其中,xτ表示第τ帧信号;ω表示角频率矢量,范围为[0,2π],间隔为2π/512。
1.4)建立方位映射模型。将各方位多帧声信号的ITD和IID训练样本按角度求取均值δ(θ)和α(θ,ω),作为对应方位训练ITD参数和对应方位训练IID参数:
&delta; ( &theta; ) = &Sigma; &tau; ITD &tau; frameNum
&alpha; ( &theta; , &omega; ) = &Sigma; &tau; IID &tau; ( &omega; ) frameNum
其中,frameNum表示训练样本总帧数,θ表示声源的角度。
δ(θ)表示角度θ对应的训练ITD参数,α(θ,ω)表示频谱为ω、角度为θ对应的训练IID参数,为512维的矢量。由此建立了角度θ与训练ITD参数、训练IID参数对应的模型。
步骤2)多声源定位:
2.1)对应图3中的预处理模块,对双通道的采集的声信号进行与上述步骤1.2)中相同的预处理,包括幅度归一化、分帧和加窗,采取帧长为32ms,帧移为10ms,加汉明窗,共获得frameNum帧信号。
2.2)对应图3中的STFT(Short Time Fourier Transform,短时傅里叶变换)模块,对步骤A所得的多帧信号按帧进行STFT,转换到时频域,获得双通道时频域的多帧信号XL(τ,ω),XR(τ,ω),分别对应左耳声信号的频域表示和右耳声信号的频域表示,STFT的方法与步骤1.3)中描述的方法相同。
2.3)对应图3中的计算特征参数模块,采用上述1.3)所述相同的方法对所得左右耳声时频域信号按帧求取测量ITD参数和测量IID参数,得到每帧对应的测量IID参数和测量ITD参数τ=1,2,...,frameNum。
2.4)对应图3中的候选ITD筛选模块,统计相同的所出现的次数,进行阈值筛选: T ( I T ~ D &tau; ) &GreaterEqual; &lambda; &CenterDot; frameNum .
其中,表示每帧信号计算出的测量ITD参数,表示相同的所出现的次数,frameNum为所有语音帧的总帧数,λ为权重系数,本发明取λ=0.03。
中找出重复次数大于λ·frameNum的l个作为候选测量ITD参数,其组成的集合为
2.5)对应图3中的匹配模型ITD参数并筛选模块,由对称性可知,ITD的值在头部前后向是对称的,例如θ=45°和θ=135°,其ITD值是相同的,故1个ITD值对应了前向和后向2个方位。将与训练ITD参数中前向方位的δ(θf)进行逐一距离匹配,θf表示前向方位,下标f表示前向,范围为[-90°,90°],间隔5°,其包括的步骤为:
(1)计算与δ(θf)距离最相近的一个或多个δ(θf)。其计算公式为
(2)排除与多个δ(θf)距离相同的影响,例如:
min | &delta; ~ i - &delta; ( &theta; f ) | = &delta; ~ i - &delta; ( &theta; p ) | = | &delta; ~ i - &delta; ( &theta; q ) |
其中,θp∈θfq∈θf,p≠q。
假设已经筛选出的ITD参数集合为Φ,判断是否θp∈Φ,θq∈Φ,若有一个属于集合Φ,则不作任何操作;若两者均不属于Φ,则选择与0°夹角小的θ对应的δ(θf)加入到Φ。
(3)排除角度重复的影响,例如:
arg &theta; min | &delta; ~ p - &delta; ( &theta; f ) | = arg &theta; min | &delta; ~ q - &delta; ( &theta; f ) | = &theta; m
其中,p≠q,θm∈θf。则都判定为θm对应的ITD测量参数。
经过上述步骤,从训练值中选出k(k<=l)个{δ(θf1),δ(θf2),…,δ(θfk)}作为ITD候选值集合。由对称性可知,每个δ(θ)对应的候选方位有前向方位和后向方位2个,其对应的角度为候选方位集合为{θf1f2,…,θfkb1b2,…,θbk},下标b表示后向;
2.6)对应图3中的分配IID参数模块,将ITD值为相对应的数据帧所对应的测量IID参数,根据其对应的候选方位,归为相应候选角度的测量IID参数集合,其中,前向方位和后向方位对称的候选方位的IID参数集合相同;
2.7)对应图3中的计算与模型IID欧氏距离模块和阈值判决模块,其步骤包括:
(1)计算与模型IID欧氏距离模块:将{θf1f2,…,θfkb1b2,…,θbk}所对应的k类帧的测量IID参数与各个方位对应的训练IID参数计算其欧氏距离,由于每个候选角度对应的帧数不同,距离差别较大,因此选取距离最近的λ'·frameNi帧进行判决。
其中λ'为权重系数,本方法取λ'=0.2,frameNi为每个候选角度对应的帧数,i=1,2,…,k;
(2)阈值判决模块:将计算得到的距离与阈值进行比较,如下式所示:
&Sigma; j = 1 &lambda; &prime; &CenterDot; frame N i &Sigma; &omega; | I I ~ D fi / bij ( &omega; ) - &alpha; ( &theta; fi / bi , &omega; ) | 2 / ( &lambda; &prime; &CenterDot; frame N i ) &le; threshold
其中,
为测量值和训练值α(θfi/b,iω)间的距离,i=1,2,…,k;
j为帧号;
表示角度为θfi或θbi的第j帧所对应的测量IID参数;
α(θfi/bi,ω)表示角度为θfi或θbi,频谱为ω对应的训练IID参数;
threshold为设定的阈值,本方法取threshold=200。
最终,排除前后向方位混淆的问题,满足条件的候选方位的个数即为最终判定的声源个数n(n≤k),满足条件的θi为声源的方位:{θ12,…,θn}。
3、对多声源分离的分离步骤为:
3.1)首先阐述理想情况下双通道语音混合模型,如下式所示:
x L ( t ) = &Sigma; i = 1 n s i ( t )
x R ( t ) = &Sigma; i = 1 n &alpha; i s i ( t - &delta; i )
其中,
αi为IID参数,表示声源到右耳的强度相对于到左耳的强度的衰减或增强,理想情况下为定值;
δi为ITD参数,表示声源到右耳的时间相对于到左耳的时间的差值;
si为声源信号;
n为声源个数;
i=1,2,...,n;
xL和xR为接收到的时域信号,分别表示左耳和右耳声信号。将上式根据傅里叶变换变换到频域,并写成矩阵形式为:
X L ( &tau; , &omega; ) X R ( &tau; , &omega; ) = 1 1 &CenterDot; &CenterDot; &CenterDot; 1 &alpha; 1 e - j&omega; &delta; 1 &alpha; 2 e - j&omega; &delta; 2 &CenterDot; &CenterDot; &CenterDot; &alpha; n e - j&omega; &delta; n S 1 ( &tau; , &omega; ) S 2 ( &tau; , &omega; ) &CenterDot; &CenterDot; &CenterDot; S n ( &tau; , &omega; )
其中,
XL、XR和Si分别是xL、xR和si的频域表示;τ表示帧号,ω为频谱,区别与理想情况,由于传播路径对不同频率声信号的衰减是有所区别的,即在实际情况中,αi与频率有关,故实际为αi(ω),上式中省略了频率参数。
3.2)对应图4中获取ITD、IID参数对模块,对声源个数和声源方位{θ12,…,θn},获得其训练ITD参数和训练IID参数对:
{δ(θ1),δ(θ2),…,δ(θn)}和{α(θ1,ω),α(θ2,ω),…,α(θn,ω)}
该参数对组成上式中的方位混合矩阵;
3.3)对应图4中二进制掩码模块,对每对时频点XL(τ,ω)、XR(τ,ω)与混合矩阵中每个ITD和IID参数对进行欧氏距离计算,如下式所示,根据最大似然准则,求出每对时频点距离双耳信号差最小的参数对的标号k,即为该时频点属于第k个声源:
J ( &tau; , &omega; ) : = arg min k | &alpha; k e - j &delta; k &omega; X L ( &tau; , &omega; ) - X R ( &tau; , &omega; ) | 2 1 + &alpha; k 2 , k = 1,2 , . . . , n
其中,δk∈{δ(θ1),δ(θ2),…,δ(θn)},αk∈{α(θ1,ω),α(θ2,ω),…,α(θn,ω)},J(τ,ω)表示时频点(τ,ω)属于的声源标号。
对每个声源所对应的时频点进行二进制掩码标记,如下式所示:
3.4)对应图4中获取每个声源时频信号模块,将上述掩码与双通道多帧的时频信号相乘,获得每个声源所对应的时频域信号,如下式所示:
S ~ i ( &tau; , &omega; ) = M i ( &tau; , &omega; ) ( X L ( &tau; , &omega; ) + &alpha; i e j &delta; i &omega; X R ( &tau; , &omega; ) 1 + &alpha; i 2 )
3.5)对应图4中ISTFT(Inverse Short Time Fourier Transform,逆短时傅里叶变换)模块,对步骤33)所得的每个声源对应的时频域信号进行ISTFT,声源i的第τ帧时域信号的计算公式为:
s i , &tau; ( m ) = 1 2 &pi; &Integral; - &pi; &pi; S ~ i ( &tau; , &omega; ) e jm&omega; d&omega;
转换为时域信号后,进行去加窗,去加窗后的第τ帧信号可以表示为:
x ~ &tau; ( m ) = w H - 1 ( m ) x ( &tau;N + m ) , 0 &le; m < N
其中,wH(m)为上文中汉明窗。
将去加窗后的各帧语音合成为最终的每个声源的分离语音
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于双耳声源定位的语音分离方法,其特征在于,该方法包括以下步骤:
1)数据训练:
1.1)使用虚拟声进行训练,所述虚拟声为头相关脉冲响应函数HRIR数据与白噪声卷积生成方位已知的虚拟声,声源位置坐标为(r,θ),r为声源与原点的直线距离,方位角θ为方向矢量在水平面的投影与中垂面的夹角;方位θ角的范围为[-180°,180°],其中,前向方位角范围为[-90°,90°],间隔为5°;
1.2)对虚拟声进行预处理,获得平稳的单帧信号;所述预处理包括幅度归一化、分帧和加窗;
1.3)对步骤1.2)所得单帧信号进行计算,分别计算每一个帧信号的耳间时间差ITD特征参数和耳间强度差IID特征参数,获得不同方位虚拟声声源的多帧ITD和多帧IID训练样本;
1.4)根据步骤1.3)所得ITD和IID训练样本,建立方位映射模型:将相同方位虚拟声信号的多帧ITD和多帧IID训练样本值的均值作为训练ITD参数和训练IID参数模型:δ(θ)和α(θ,ω),其中δ(θ)表示角度θ对应的训练ITD参数;α(θ,ω)表示频谱为ω,角度为θ对应的训练IID参数;其中,ω为角频率矢量;ω的范围为[0,2π],间隔为2π/512;
2)多声源定位:
2.1)对双通道的采集声信号进行预处理,按帧获得双通道多帧的时域信号;所述预处理包括幅度归一化、分帧和加窗;
2.2)对步骤2.1)中分帧后所得的分帧信号进行短时傅里叶变换,转换到时频域,获得双通道时频域的分帧信号;
2.3)对步骤2.2)所得的时频域信号按帧计算每一帧测量ITD参数和测量IID参数;
2.4)对步骤2.3)中的测量ITD参数进行阈值筛选,获得多个候选测量ITD参数
{ &delta; ~ 1 , &delta; ~ 2 , . . . , &delta; ~ l }
其中,为候选的测量ITD参数,l为候选参数的个数;i和l的取值范围满足:1≤i≤l;
2.5)对步骤2.4)所得的候选测量ITD参数与步骤1.4)中获得的方位映射模型中规定前向方位角的训练ITD参数值进行逐一距离匹配,并进行筛选,获得筛选后的k个前向候选方位,其中,k<=l;由对称性,得到前后向对称的候选方位集合:
f1f2,…,θfkb1b2,…,θbk}
其中,下标f和b表示前向和后向;得到测量ITD参数对应的候选方位,即每个对应两个前后对称的θfj和θbj,其中θfj和θbj表示候选的前向方位和后向方位;i、l、j和k的取值范围满足1≤i≤l,1≤j≤k;
2.6)根据步骤2.5)得到的每个测量ITD参数对应的候选方位,将测量ITD所在帧的IID值根据其对应的候选方位,归为相应候选角度的测量IID参数集合;
2.7)对于每个候选角度,就步骤2.6)所得的测量IID参数集合与步骤1.4)所得的方位映射模型中的IID模型值计算欧氏距离,并进行距离阈值判决,获得最终判定的声源个数n和声源的方位:{θ12,…,θn};其中,n≤k;
3)根据声源方位的语音分离对多声源进行分离,获得每个声源的分离语音:
3.1)根据步骤2.7)所得声源个数和声源方位,获得其对应于步骤1.4)中训练ITD参数和训练IID参数的参数对,组成多声源的方位混合矩阵;
3.2)对步骤2.1)所得双通道多帧的时频域信号中的每对时频点与步骤3.1)获得的混合矩阵中每个训练ITD参数和训练IID参数对进行欧氏距离计算,根据最大似然准则,对每个声源所对应的时频点进行二进制掩码标记;
3.3)对步骤3.2)所得的掩码标记与步骤2.1)中获得的双通道多帧的时频信号相乘,获得每个声源所对应的时频域信号;
3.4)对步骤3.3)所得的每个声源对应的时频域信号进行傅里叶逆变换,转换为时域信号,进行去加窗,合成为每个声源的分离语音。
CN201410579458.7A 2014-10-24 2014-10-24 一种基于双耳声源定位的语音分离方法 Active CN104464750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410579458.7A CN104464750B (zh) 2014-10-24 2014-10-24 一种基于双耳声源定位的语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410579458.7A CN104464750B (zh) 2014-10-24 2014-10-24 一种基于双耳声源定位的语音分离方法

Publications (2)

Publication Number Publication Date
CN104464750A true CN104464750A (zh) 2015-03-25
CN104464750B CN104464750B (zh) 2017-07-07

Family

ID=52910694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410579458.7A Active CN104464750B (zh) 2014-10-24 2014-10-24 一种基于双耳声源定位的语音分离方法

Country Status (1)

Country Link
CN (1) CN104464750B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096956A (zh) * 2015-08-05 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN106125048A (zh) * 2016-07-11 2016-11-16 浙江大华技术股份有限公司 一种声源定位方法及装置
WO2016187910A1 (zh) * 2015-05-22 2016-12-01 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备、存储介质
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106501772A (zh) * 2016-10-18 2017-03-15 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN107146630A (zh) * 2017-04-27 2017-09-08 同济大学 一种基于stft的双通道语声分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107885323A (zh) * 2017-09-21 2018-04-06 南京邮电大学 一种基于机器学习的vr场景沉浸控制方法
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN108091345A (zh) * 2017-12-27 2018-05-29 东南大学 一种基于支持向量机的双耳语音分离方法
CN108281152A (zh) * 2018-01-18 2018-07-13 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN109709518A (zh) * 2018-12-25 2019-05-03 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110764054A (zh) * 2019-09-29 2020-02-07 福州外语外贸学院 一种紧急声音方位辨识方法及装置
CN112731291A (zh) * 2020-10-14 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN113056785A (zh) * 2018-12-18 2021-06-29 桑德托克斯公司 使用改进的声音处理技术监视牲畜设施和/或牲畜设施中的牲畜动物的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
JP2014021315A (ja) * 2012-07-19 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> 音源分離定位装置、方法、及びプログラム
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
CN103901400A (zh) * 2014-04-10 2014-07-02 北京大学深圳研究生院 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN103983946A (zh) * 2014-05-23 2014-08-13 北京神州普惠科技股份有限公司 一种声源定位过程中的多测量通道信号处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
JP2014021315A (ja) * 2012-07-19 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> 音源分離定位装置、方法、及びプログラム
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
CN103901400A (zh) * 2014-04-10 2014-07-02 北京大学深圳研究生院 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN103983946A (zh) * 2014-05-23 2014-08-13 北京神州普惠科技股份有限公司 一种声源定位过程中的多测量通道信号处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARTIN RASPAUD等: ""Binaural Source Localization by Joint Estimation of ILD and ITD"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
李从清 等: ""语音分离技术的研究现状与展望"", 《声学技术》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10466334B2 (en) 2006-07-11 2019-11-05 Zhejiang Dahua Technology Co., Ltd. Methods and systems for sound source locating
WO2016187910A1 (zh) * 2015-05-22 2016-12-01 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备、存储介质
CN105096956B (zh) * 2015-08-05 2018-11-20 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN105096956A (zh) * 2015-08-05 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN105976827B (zh) * 2016-05-26 2019-09-13 南京邮电大学 一种基于集成学习的室内声源定位方法
CN106125048A (zh) * 2016-07-11 2016-11-16 浙江大华技术股份有限公司 一种声源定位方法及装置
US10816634B2 (en) 2016-07-11 2020-10-27 Zhejiang Dahua Technology Co., Ltd. Methods and systems for sound source locating
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106373589B (zh) * 2016-09-14 2019-07-26 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106501772A (zh) * 2016-10-18 2017-03-15 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN106501772B (zh) * 2016-10-18 2018-12-14 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN107146630B (zh) * 2017-04-27 2020-02-14 同济大学 一种基于stft的双通道语声分离方法
CN107146630A (zh) * 2017-04-27 2017-09-08 同济大学 一种基于stft的双通道语声分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107885323A (zh) * 2017-09-21 2018-04-06 南京邮电大学 一种基于机器学习的vr场景沉浸控制方法
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN107942290B (zh) * 2017-11-16 2019-10-11 东南大学 基于bp神经网络的双耳声源定位方法
CN108091345A (zh) * 2017-12-27 2018-05-29 东南大学 一种基于支持向量机的双耳语音分离方法
CN108091345B (zh) * 2017-12-27 2020-11-20 东南大学 一种基于支持向量机的双耳语音分离方法
CN108281152A (zh) * 2018-01-18 2018-07-13 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN113056785A (zh) * 2018-12-18 2021-06-29 桑德托克斯公司 使用改进的声音处理技术监视牲畜设施和/或牲畜设施中的牲畜动物的方法
CN109709518A (zh) * 2018-12-25 2019-05-03 北京猎户星空科技有限公司 声源定位方法、装置、智能设备及存储介质
CN110491410A (zh) * 2019-04-12 2019-11-22 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110491410B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110459237A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110070882B (zh) * 2019-04-12 2021-05-11 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110764054A (zh) * 2019-09-29 2020-02-07 福州外语外贸学院 一种紧急声音方位辨识方法及装置
CN112731291A (zh) * 2020-10-14 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112731291B (zh) * 2020-10-14 2024-02-20 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统

Also Published As

Publication number Publication date
CN104464750B (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN104464750B (zh) 一种基于双耳声源定位的语音分离方法
CN109839612B (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
Mandel et al. Model-based expectation-maximization source separation and localization
CN102438189B (zh) 基于双通路声信号的声源定位方法
Mandel et al. An EM algorithm for localizing multiple sound sources in reverberant environments
Hu et al. Multiple source direction of arrival estimations using relative sound pressure based MUSIC
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
Georganti et al. Sound source distance estimation in rooms based on statistical properties of binaural signals
CN106226739A (zh) 融合子带分析的双声源定位方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
Alinaghi et al. Joint mixing vector and binaural model based stereo source separation
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN106847301A (zh) 一种基于压缩感知和空间方位信息的双耳语音分离方法
Shujau et al. Separation of speech sources using an acoustic vector sensor
Hu et al. Decoupled multiple speaker direction-of-arrival estimator under reverberant environments
Hu et al. Closed-form single source direction-of-arrival estimator using first-order relative harmonic coefficients
Mandel et al. EM localization and separation using interaural level and phase cues
Liu et al. Head‐related transfer function–reserved time‐frequency masking for robust binaural sound source localization
Krause et al. Data diversity for improving DNN-based localization of concurrent sound events
Georganti et al. Room statistics and direct-to-reverberant ratio estimation from dual-channel signals
Ghamdan et al. Position estimation of binaural sound source in reverberant environments
Talagala et al. Binaural localization of speech sources in the median plane using cepstral HRTF extraction
Zohny et al. Modelling interaural level and phase cues with Student's t-distribution for robust clustering in MESSL
Deleforge et al. Audio-motor integration for robot audition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant