CN103325381B - 一种基于模糊隶属函数的语音分离方法 - Google Patents

一种基于模糊隶属函数的语音分离方法 Download PDF

Info

Publication number
CN103325381B
CN103325381B CN201310206373.XA CN201310206373A CN103325381B CN 103325381 B CN103325381 B CN 103325381B CN 201310206373 A CN201310206373 A CN 201310206373A CN 103325381 B CN103325381 B CN 103325381B
Authority
CN
China
Prior art keywords
mrow
time
frequency
tau
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310206373.XA
Other languages
English (en)
Other versions
CN103325381A (zh
Inventor
林琳
徐鹤
孙晓颖
陈建
胡封晔
魏晓丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201310206373.XA priority Critical patent/CN103325381B/zh
Publication of CN103325381A publication Critical patent/CN103325381A/zh
Application granted granted Critical
Publication of CN103325381B publication Critical patent/CN103325381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种基于模糊隶属函数的语音分离方法,属于语音分离方法。该方法结合模糊隶属函数,得到语音时频单元对目标信号隶属程度的更准确定义,并模拟人耳听觉系统建立听觉振荡模型,提取语音基音特征,根据基音周期特征对语音时频单元进行标记,组成前景流和背景流。根据标记的不同判断对应的时频单元为目标或是噪声,在合成阶段目标单元乘以高权重,噪声单元则乘以低权重,得到重新合成语音。本发明可以更精准的估计出基音周期,基于此特征线索,对时频单元做出更准确的标记,得到更完整的目标语音。由于该方法基于语音的基音特征,因此在复杂非平稳噪声下有较好的分离效果,应用范围广泛。

Description

一种基于模糊隶属函数的语音分离方法
技术领域
本发明涉及一种语音分离方法,特别是一种基于隶属函数的计算听觉场景分析语音分离方法。
背景技术
语音分离用于降低噪声对语音信号的干扰,提高目标信号的语音质量,常用于语音识别或说话人识别前端部分,提高系统识别效果。计算听觉场景分析模拟人耳听觉,有效地从混叠信号中分离出目标语音,是目前主流的语音分离方法。
中国专利CN102592607采用盲分离语音分离方法,利用子带分解和独立分量分析分离出目标语音分离出目标语音,优化了传统盲分离方法的语音分离效果,但是在非平稳噪声下其分离效果较差。中国专利CN102081928基于压缩感知和K-SVD提出一种混合语音的分离方法,该方法将语音分为男男、男女和女女三类混合语音,对每一类语音训练一个K-SVD字典,基于其稀疏结构,结合压缩感知理论,重构出各分离语音帧,并顺序连接起来,得到分离后语音信号,性能较为稳定,但对语音信号稀疏性具有一定的要求。“基于听觉场景分析的近讲语音增强算法”基于ITD、IID提出一种双麦克风的语音增强算法,在近讲场景有效消除多类噪声的影响,但其应用范围受限。“计算听觉场景分析混叠语音信号的分解”采用基音特征,对语音信号低频区高频区采用不同的分离模型,其中低频区分离模型及基音估计的精确度是影响分离效果的关键因素,在低信噪比条件下,其基音估计精度较差,导致分离后得到的语音质量偏低。
发明内容
本发明提供一种基于模糊隶属函数的语音分离方法,以解决目前分离后得到的语音质量偏低的问题。
本发明采取的技术方案是,包括下列步骤:
(一)语音信号的预处理,包括语音信号的端点检测、预加重;
(二)听觉特征提取过程如下:
(1)将预处理后得到的信号经过模拟耳蜗的伽马通滤波器处理;
1)伽马通滤波器的时域响应为
gc(t)=ti-1exp(-2πbct)cos(2πfcc)U(t)(1≤c≤N)
其中,N是滤波器的个数,c是滤波器的序数,按频率高低在[1,N]范围内取值,i是滤波器的阶数,U(t)是单位阶跃函数,t是时间,φc表示第c个滤波器的相位,fc是滤波器的中心频率,每个滤波器的带宽与人耳的临界频带有关,听觉心理学中的临界频带可以用等效矩形带宽来度量
EBR(f)=24.7*(4.37f/1000+1)
f为频率,bc取值为
bc=1.019EBR(fc)
2)对gc(t)进行拉普拉斯变换,得到
G c ( s ) = ∫ - ∞ ∞ g c ( t ) e - st dt
= 1 2 ∫ 0 ∞ t i - 1 e - 2 π b c t [ e j 2 π f c t + e - j 2 π f c t ] e - st dt
s是拉式变换复变量,j为虚数单位;
3)为简化公式,令参数等效带宽b=2πbc,等效频率ω=2πfc,得到伽马通滤波器冲激响应的拉氏变换Gc(s)
G c ( s ) = 1 2 [ 3 ! ( s + b - jω ) i + 3 ! ( s + b + jω ) i ]
4)将Gc(s)转换为Z变换Gc(z)形式,再反变换得到伽马通滤波器的离散冲激响应gc(n),
g c ( n ) = 1 2 πj ∫ G c ( z ) z n - 1 dz
n为信号数字域时间,Z为Z变换变量;
5)将语音信号与gc(n)卷积后得到伽马通滤波器的滤波输出h(c,n);
6)对h(c,n)进行响度变换,得到听觉特征GF(c,n);
GF ( c , n ) = h ( c , n ) 3
(三)对伽马通滤波器的滤波输出h(c,n)采用中级听觉形式表示;
(1)自相关图谱A(c,m,τ),在时间帧m上,第c个通道在延时为τ的自相关A(c,m,τ)为
A ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h ( c , mT - n ) h ( c , mT - n - τ )
其中,h是听觉外周模型的输出,T是帧间距离,对应于10ms,Nc为自相关对应窗长的点数,其中窗长取帧长度20ms和4/fc之间的较大值,fc为伽马通滤波器对应通道的中心频率,延迟τ的取值范围是[0,12.5ms],对应于伽马通滤波器的中心频率;
(2)互相关图谱为
其中,为A(c,m,τ)的归一化函数,L对应于最大时延12.5ms,互相关图谱表明两个是否属于同一声源;
(3)和相关图谱用于强化周期性的信号在频段上A(c,m,τ)与基音相关的结构,在时间帧m和延迟τ上的和相关图谱为
s ( m , τ ) = Σ c A ( c , m , τ )
(4)在时间帧m,第c个通道在延时为τ的包络自相关图谱为AE(c,m,τ)为
A E ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h E ( c , mT - n ) h E ( c , mT - n - τ )
其中,h(c,n)即为h(c,n)的包络,具体计算过程如下:
1)对h(c,n)进行半波整流;
2)利用带通滤波器滤除直流成分和基频成分以外所有的谐波。对于每五帧用参数相同的滤波器,通带为止带为其中是这五帧估计的基频的平均值,滤波器中使用kaiser窗函数;
3)对滤波输出的信号r(c,n)进行希尔伯特变换,得到h(c,n)的包络hE(c,n);
(5)包络互相关图谱计算公式为
其中,为AE(c,m,τ)归一化自相关函数,CE(c,m)可以体现两个相邻频段AM速率的相似度;
(四)低频区分离具体过程如下:
(1)利用A(c,m,τ)计算s(m,τ),s(m,τ)在时间帧m上最大值(在τ∈[2ms,12.5ms]条件下)所对应的时延τD(m)即为此时间帧的主基音周期;
(2)选择A(c,m,0)>θA.^2和C(c,m)>θc的T-F单元,标记值为1,θA为能量阈值,θc为互相关阈值,将相邻单元:相同频段上相邻的单元,或者相同时间帧上的相邻的单元组合成段,根据时间连续性原则,去掉持续时间小于50ms的分段;
(3)时频单元隶属于目标语音的隶属度函数为U(A,Ratio,τs(m)),隶属值计算公式为:
其中:
Ratio = A ( c , m , τ S ( m ) ) A ( c , m , τ P ( c , m ) )
diff ( τ s ( m ) , τ s ( m + q ) ) = | τ S ( m ) - τ S ( m + q ) | min ( τ S ( m ) , τ S ( m + q ) )
τmin=min(τS(m),τS(m+q))
τmax=max(τS(m),τS(m+q))
式中,τP(c,m)是在可信基音范围[2ms,12.5ms]内A(c,m,τ)取最大值时所对应的时延;τs(m+q)为与时间帧m相邻时间帧(q=-1时为前一帧,q=1为后一帧),diff(τs(m),τs(m+q))主要用于计算相邻两帧间基音的差异;
(4)判断先后两次得到的隶属值计算结果差异是否小于2%,若小于2%则转至(6),否则转至(5);
(5)保留目标语音主导的单元并组成分段,利用目标主导分段中隶属值等于1的单元,重新估计基音周期,然后转至(3);
(6)保留分段中多余一半以上时频单元隶属值大于0的分段,并组合成前景流,其余时频单元组合成背景流;
(7)利用下面两个约束条件验证提取基音的可靠性,对于不可靠的基音周期利用线性插值,得到时间连续的基音曲线,约束条件为:
1)根据下式判断某一时频单元自身的周期是否与估计的基音周期时频单元一致;
A ( c , m , τ S ( m ) ) A ( c , m , τ P ( c , m ) ) > θ P
其中,θp生理阈值,如果估计的基音周期是可信的,那么前景流中在相应时间帧上的时频单元至少有一半的单元应该与此基音相符;
2)可信的基音周期相邻两帧间的差异应该小于20%;
(8)计算每个时频单元的Ratio值,将分段中有一半以上的单元的Ratio值大于θp的段,组合成前景流,剩余的单元组合成背景流,得到低频区的分离结果;
(五)高频区分离具体过程如下:
(1)求取归一化的滤波整流信号计算公式为:
(2)利用指定周期为τS(m)的单正弦信号,建立与时频单元相应的标准化信号;
(3)通过下式比较AM速率和估计的基音周期;
式中,φ为相位,φcm为上式取最小值时对应φ的值,fs为语音信号抽样频率;
(4)令上式中平方误差估偏移为0,就可得到
在[0,2π)范围内,上式φcm有两个解,取令平方误差最小的解为φcm值;
(5)将满足下式的时频单元标记为目标;
式中θAM为AM准则阈值;
(6)将不属于的时频单元组合成段,θE为包络互相关阈值,根据语音的连续性,除去少于50ms的段,将剩下的符合条件的分段添加进新的前景流
(7)为减少噪声影响,对前景流中的段做如下调整:
1)如果一个目标语音分段的持续时间大于50ms,则将其留在中;
2)如果一个噪声分段的持续时间大于50ms,则将其添加进中;
3)将剩下的段移除并保留待进一步处理;
4)对反复迭代计算,将其周围且在上述步骤3)中未处理的分段合并,余下的分段再次并入
5)剩下的独立且不属于任何流的单元,如果其被标记为目标,且与前景流相邻,则将其添加进前景流,否则将其加入背景流,由此得到了最终的前景流和背景流
(六)通过对应于声源中每个时频单元的权重恢复目标信号,具体过程如下:
(1)对每个滤波器的输出进行时间反转,消除交叉频段上的相位误差;
(2)将反转后信号经过伽马通滤波器处理;
(3)对输出信号再次进行时间反转;
(4)将经过相位校准滤波后的输出中每个时频单元乘以与时频掩码相应的权重,其中中时频单元的二进制掩码值为1,设置为高权重,中时频单元的二进制掩码值为0,设置为低权重;
(5)对所有频段乘以权重后的输出进行求和,得到分离后的两个信号。
本发明采用隶属度函数,更准确的描述了语音信号的时频单元隶属于目标语音的程度,并模拟人耳听觉系统建立听觉振荡模型,得到新的计算复杂度较低的低频区分离模型,在低信噪比条件下基音周期的估计精度远大于“计算听觉场景分析混叠语音信号的分解”方法,根据基音特征分离出目标语音,在复杂噪声或低信噪比条件下,有效分离出较高质量的目标语音,与“计算听觉场景分析混叠语音信号的分解”方法相比,在低信噪比、相同输入信号下、经仿真实验本专利得到的输出信号的信噪比平均提高了约11%。
本发明的优点在于:基于人耳听觉特征,无需限制语音信号类型及噪声,应用范围广泛,在复杂噪声及低信噪比条件下仍有很好的分离效果。采用模糊隶属函数定义时频单元对目标信号的隶属程度,得到准确的隶属值,并能精确估计出基音周期,大大提高了语音分离效果,应用范围广泛。
附图说明
图1本发明的流程图;
图2本发明的语音信号预处理的流程图;
图3本发明的听觉特征提取的流程图;
图4本发明的语音分离方法的低频区分离流程图;
图5本发明的语音分离方法的高频区分离流程图;
图6本发明的语音分离方法的语音再合成流程图。
具体实施方式
本发明公开了一种基于模糊隶属函数的语音分离方法,该方法模拟人耳听觉系统,利用语音基音特征分离语音,包括以下步骤:
(一)语音预处理流程,如图2所示,该流程包括:输入语音信号,对其进行端点检测、预加重,预加重系数为0.95;
(二)听觉特征提取流程,如图3所示,该流程包括:
(1)将预处理后得到的信号经过模拟耳蜗的伽马通滤波器处理。
1)伽马通滤波器的时域响应为
gc(t)=ti-1exp(-2πbct)cos(2πfcc)U(t)(1≤c≤N)
其中,N是滤波器的个数,c是滤波器的序数,按频率高低在[1,N]范围内取值。i是滤波器的阶数,取i=4。U(t)是单位阶跃函数,t是时间;φc表示第c个滤波器的相位,由于声音信号的相位对听觉的影响较小,在算法中分解和组合阶段不需要对滤波器所造成的相位延迟进行修正,因此将φc统一取为0;fc是滤波器的中心频率,范围是[50Hz,4000Hz],每个滤波器的带宽与人耳的临界频带有关,听觉心理学中的临界频带可以用等效矩形带宽来度量
EBR(f)=24.7*(4.37f/1000+1)
f为频率,Hz,bc与滤波器的带宽有关,取值为:
bc=1.019EBR(fc)
2)对gc(t)进行拉普拉斯变换,得到:
G c ( s ) = ∫ - ∞ ∞ g c ( t ) e - st dt
= ∫ - ∞ ∞ t i - 1 exp ( - 2 π b c t ) cos ( 2 π f c t ) U ( t ) e - st dt
= ∫ 0 ∞ t i - 1 exp ( - 2 π b c t ) cos ( 2 π f c t ) e - st dt
= 1 2 ∫ 0 ∞ t i - 1 e - 2 π b c t [ e j 2 π f c t + e - j 2 π f c t ] e - st dt
s是拉式变换复变量,j为虚数单位;
3)为简化公式,令参数等效带宽b=2πbc,等效频率ω=2πfc,当i=4时,得到伽马通滤波器冲激响应的拉氏变换Gc(s)
G c ( s ) = 1 2 [ 3 ! ( s + b - jω ) 4 + 3 ! ( s + b + jω ) 4 ]
= 3 ( s + b + jω ) 4 + ( s + b - jω ) 4 [ ( s + b ) 2 + ω 2 ] 4
= 6 s 4 + 4 bs 3 + 6 ( b 2 - ω 2 ) s 2 + ( 4 b 3 - 12 bω 2 ) s + b 4 - 6 b 2 ω 2 + ω 4 [ ( s + b ) 2 + ω 2 ] 4
4)将Gc(s)转换为Z变换Gc(z)形式,再反变换得到伽马通滤波器的离散冲激响应gc(n):
g c ( n ) = 1 2 πj ∫ G c ( z ) z n - 1 dz
n为信号数字域时间,Z为Z变换变量;
5)将语音信号与gc(n)卷积后得到伽马通滤波器的滤波输出h(c,n);
6)对h(c,n)进行响度变换,得到听觉特征GF(c,n);
GF ( c , n ) = h ( c , n ) 3
(三)对伽马通。
滤波器的滤波输出h(c,n)采用中级听觉形式表示,主要包括:
(1)自相关图谱A(c,m,τ),在时间帧m上,第c个通道在延时为τ的自相关A(c,m,τ)为:
A ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h ( c , mT - n ) h ( c , mT - n - τ )
其中,h是听觉外周模型的输出;T是帧间距离,对应于10ms;Nc为自相关对应窗长的点数,其中窗长取帧长度20ms和4/fc之间的较大值,fc为伽马通滤波器对应通道的中心频率;延迟τ的取值范围是[0,12.5ms],对应于伽马通滤波器的中心频率;
(2)互相关图谱为
其中,为A(c,m,τ)的归一化函数,L对应于最大时延12.5ms,互相关图谱表明两个是否属于同一声源;
(3)和相关图谱用于强化周期性的信号在频段上A(c,m,τ)与基音相关的结构,在时间帧m和延迟τ上的和相关图谱为
s ( m , τ ) = Σ c A ( c , m , τ )
(4)在时间帧m,第c个通道在延时为τ的包络自相关图谱为AE(c,m,τ)为
A E ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h E ( c , mT - n ) h E ( c , mT - n - τ )
其中,h(c,n)即为h(c,n)的包络,具体计算过程如下:
1)对h(c,n)进行半波整流。
2)利用带通滤波器滤除直流成分和基频成分以外所有的谐波,对于每五帧用参数相同的滤波器,通带为止带为其中是这五帧估计的基频的平均值,滤波器中使用kaiser窗函数。
3)对滤波输出的信号r(c,n)进行希尔伯特变换,得到h(c,n)的包络hE(c,n)。
(5)包络互相关图谱计算公式为
其中,为AE(c,m,τ)归一化自相关函数,CE(c,m)可以体现两个相邻频段AM速率的相似度
(四)低频区分离流程,如图4所示,该流程包括:
(1)利用A(c,m,τ)计算s(m,τ),s(m,τ)在时间帧m上最大值(在τ∈[2ms,12.5ms]条件下)所对应的时延τD(m)即为此时间帧的主基音周期。
(2)选择A(c,m,0)>50.^2和C(c,m)>0.985的T-F单元,标记值为1,将相邻单元(相同频段上相邻的单元,或者相同时间帧上的相邻的单元)组合成段,根据时间连续性原则,去掉持续时间小于50ms的分段。
(3)时频单元隶属于目标语音的隶属度函数为U(A,Ratio,τs(m)),隶属值计算公式如下
其中
Ratio = A ( c , m , τ S ( m ) ) A ( c , m , τ P ( c , m ) )
diff ( τ s ( m ) , τ s ( m + q ) ) = | τ S ( m ) - τ S ( m + q ) | min ( τ S ( m ) , τ S ( m + q ) )
τ min = min ( τ S ( m ) , τ S ( m + q ) )
τ max = max ( τ S ( m ) , τ S ( m + q ) )
式中,τP(c,m)是在可信基音范围[2ms,12.5ms]内A(c,m,τ)取最大值时所对应的时延;τs(m+q)为与时间帧m相邻时间帧(q=-1时为前一帧,q=1为后一帧),diff(τs(m),τs(m+q))主要用于计算相邻两帧间基音的差异;
(4)判断先后两次得到的隶属值计算结果差异是否小于2%,若小于2%则转至(6),否则转至(5);
(5)保留目标语音主导的单元并组成分段,利用目标主导分段中隶属值等于1的单元,重新估计基音周期,然后转至(3);
(6)保留分段中多余一半以上时频单元隶属值大于0的分段,并组合成前景流,其余时频单元组合成背景流;
(7)利用下面两个约束条件验证提取基音的可靠性,对于不可靠的基音周期利用线性插值,得到时间连续的基音曲线。约束条件为:
1)根据下式判断某一时频单元自身的周期是否与估计的基音周期时频单元一致;
A ( c , m , τ S ( m ) ) A ( c , m , τ P ( c , m ) ) > 0.95
如果估计的基音周期是可信的,那么前景流中在相应时间帧上的时频单元至少有一半的单元应该与此基音相符;
2)可信的基音周期相邻两帧间的差异应该小于20%;
(8)计算每个时频单元的Ratio值,将分段中有一半以上的单元的Ratio值大于0.95的段,组合成前景流剩余的单元组合成背景流得到低频区的分离结果;
(五)高频区分离流程,如图5所示,该流程包括:
(1)求取归一化的滤波整流信号计算公式如下:
(2)利用指定周期为τS(m)的单正弦信号,建立与时频单元相应的标准化信号;
(3)通过下式比较AM速率和估计的基音周期;
式中,φ为相位,φcm为上式取最小值时对应φ的值,fs为语音信号抽样频率;
(4)令上式中平方误差估偏移为0,就可得到
在[0,2π)范围内,上式φcm有两个解,取令平方误差最小的解为φcm值;
(5)将满足下式的时频单元标记为目标。
式中θAM取0.2;
(6)将不属于但CE>0.985的时频单元组合成段。根据语音的连续性,除去少于50ms的段,将剩下的符合条件的分段添加进新的前景流
(7)为减少噪声影响,对前景流中的段做如下调整;
1)如果一个目标语音分段的持续时间大于50ms,则将其留在中;
2)如果一个噪声分段的持续时间大于50ms,则将其添加进中;
3)将剩下的段移除并保留待进一步处理;
4)对反复迭代计算,将其周围且在上述步骤3)中未处理的分段合并,余下的分段再次并入
5)剩下的独立且不属于任何流的单元,如果其被标记为目标,且与前景流相邻,则将其添加进前景流,否则将其加入背景流,由此得到了最终的前景流和背景流
(六)语音再合成流程,如图6所示,该流程包括:
(1)对每个滤波器的输出进行时间反转,消除交叉频段上的相位误差;
(2)将反转后信号经过伽马通滤波器处理;
(3)对输出信号再次进行时间反转;
(4)将经过相位校准滤波后的输出中每个时频单元乘以与时频掩码相应的权重,其中中时频单元的二进制掩码值为1,设置为高权重,中时频单元的二进制掩码值为0,设置为低权重;
(5)对所有频段乘以权重后的输出进行求和,得到分离后的两个信号。

Claims (1)

1.一种基于模糊隶属函数的语音分离方法,其特征在于,
包括下列步骤:
(一)语音信号的预处理,包括语音信号的端点检测、预加重;
(二)听觉特征提取过程如下:
将预处理后得到的信号经过模拟耳蜗的伽马通滤波器处理;
(1)伽马通滤波器的时域响应为
其中,N是滤波器的个数,c是滤波器的序数,按频率高低在[1,N]范围内取值,i是滤波器的阶数,U(t)是单位阶跃函数,t是时间,φc表示第c个滤波器的相位,fc是滤波器的中心频率,每个滤波器的带宽与人耳的临界频带有关,听觉心理学中的临界频带可以用等效矩形带宽来度量
EBR(f)=24.7*(4.37f/1000+1) 
f为频率,bc取值为
bc=1.019EBR(fc)
(2)对gc(t)进行拉普拉斯变换,得到
s是拉式变换复变量,j为虚数单位;
(3)为简化公式,令参数等效带宽b=2πbc,等效频率ω=2πfc,得到伽马通滤波器冲激响应的拉氏变换Gc(s) 
(4)将Gc(s)转换为Z变换Gc(z)形式,再反变换得到伽马通滤波器的离散冲激响应gc(n),
n为信号数字域时间,Z为Z变换变量;
(5)将语音信号与gc(n)卷积后得到伽马通滤波器的滤波输出h(c,n);
(6)对h(c,n)进行响度变换,得到听觉特征GF(c,n);
(三)对伽马通滤波器的滤波输出h(c,n)采用中级听觉形式表示;
(1)自相关图谱A(c,m,τ),在时间帧m上,第c个通道在延时为τ的自相关A(c,m,τ)为
其中,h是听觉外周模型的输出,T是帧间距离,对应于10ms,Nc为自相关对应窗长的点数,其中窗长取帧长度20ms和4/fc之间的较大值,fc为伽马通滤波器对应通道的中心频率,延迟τ的取值范围是[0,12.5ms],对应于伽马通滤波器的中心频率;
(2)互相关图谱为
其中,为A(c,m,τ)的归一化函数,L对应于最大时延12.5ms,互相关图谱表明两个是否属于同一声源;
(3)和相关图谱用于强化周期性的信号在频段上A(c,m,τ)与基音相关的结构,在时间帧m和延迟τ上的和相关图谱为
(4)在时间帧m,第c个通道在延时为τ的包络自相关图谱为AE(c,m,τ)为
其中,h(c,n)即为h(c,n)的包络,具体计算过程如下:
1)对h(c,n)进行半波整流;
2)利用带通滤波器滤除直流成分和基频成分以外所有的谐波,对于每五帧用参数相同的滤波器,通带为止带为其中是这五帧估计的基频的平均值,滤波器中使用kaiser窗函数;
3)对滤波输出的信号r(c,n)进行希尔伯特变换,得到h(c,n)的包络hE(c,n);
(5)包络互相关图谱计算公式为
其中,为AE(c,m,τ)归一化自相关函数,CE(c,m)可以体现两个相邻频段AM速率的相似度;
(四)低频区分离具体过程如下:
(1)利用A(c,m,τ)计算s(m,τ),s(m,τ)在时间帧m上最大值所对应的时延τD(m)即为此时间帧的主基音周期,在τ∈[2ms,12.5ms]条件下;
(2)选择A(c,m,0)>θA^2和C(c,m)>θc的T-F单元,标记值为1,θA为能量阈值,θc为互相关阈值,将相邻单元:相同频段上相邻的单元,或者相同时间帧上的相邻的单元组合成段,根据时间连续性原则,去掉持续时间小于50ms的分段;
(3)时频单元隶属于目标语音的隶属度函数为U(A,Ratio,τs(m)),隶属值计算公式为:
其中:
τmin=min(τS(m),τS(m+q)) 
τmax=max(τS(m),τS(m+q)) 
式中,τP(c,m)是在可信基音范围[2ms,12.5ms]内A(c,m,τ)取最大值时所对应的时延;τs(m+q)为与时间帧m相邻时间帧,q=-1时为前一帧,q=1为后一帧,diff(τs(m),τs(m+q))主要用于计算相邻两帧间基音的差异;
(4)判断先后两次得到的隶属值计算结果差异是否小于2%,若小于2%则转至(6),否则转至(5);
(5)保留目标语音主导的单元并组成分段,利用目标主导分段中隶属值等于1的单元,重新估计基音周期,然后转至(3);
(6)保留分段中多余一半以上时频单元隶属值大于0的分段,并组合成前景流,其余时频单元组合成背景流;
(7)利用下面两个约束条件验证提取基音的可靠性,对于不可靠的基音周期利用线性插值,得到时间连续的基音曲线,约束条件为:
1)根据下式判断某一时频单元自身的周期是否与估计的基音周期时频单元一致;
其中,θp生理阈值,如果估计的基音周期是可信的,那么前景流中在相应时间帧上的时频单元至少有一半的单元应该与此基音相符;
2)可信的基音周期相邻两帧间的差异应该小于20%;
(8)计算每个时频单元的Ratio值,将分段中有一半以上的单元的Ratio值大于θp的段,组合成前景流剩余的单元组合成背景流得到低频区的分离结果;
(五)高频区分离具体过程如下:
(1)求取归一化的滤波整流信号,计算公式为:
(2)利用指定周期为τS(m)的单正弦信号,建立与时频单元相应的标准化信号;
(3)通过下式比较AM速率和估计的基音周期;
式中,为相位,φcm为上式取最小值时对应的值,fs为语音信号抽样频率;
(4)令上式中平方误差估偏移为0,就可得到
在[0,2π)范围内,上式φcm有两个解,取令平方误差最小的解为φcm值;
(5)将满足下式的时频单元标记为目标;
式中θAM为AM准则阈值;
(6)将不属于但CEE的时频单元组合成段,θE为包络互相关阈值,根据语音的连续性,除去少于50ms的段,将剩下的符合条件的分段添加进新的前景流
(7)为减少噪声影响,对前景流中的段做如下调整:
1)如果一个目标语音分段的持续时间大于50ms,则将其留在中;
2)如果一个噪声分段的持续时间大于50ms,则将其添加进中;
3)将剩下的段移除并保留待进一步处理;
4)对反复迭代计算,将其周围且在上述步骤3)中未处理的分段合并,余下的分段再次并入
5)剩下的独立且不属于任何流的单元,如果其被标记为目标,且与前景流相邻,则将其添加进前景流,否则将其加入背景流,由此得到了最终的前景流和背景流 
(六)通过对应于声源中每个时频单元的权重恢复目标信号,具体过程如下:
(1)对每个滤波器的输出进行时间反转,消除交叉频段上的相位误差;
(2)将反转后信号经过伽马通滤波器处理;
(3)对输出信号再次进行时间反转;
(4)将经过相位校准滤波后的输出中每个时频单元乘以与时频掩码相应的权重,其中中时频单元的二进制掩码值为1,设置为高权重,中时频单元的二进制掩码值为0,设置为低权重;
(5)对所有频段乘以权重后的输出进行求和,得到分离后的两个信号。
CN201310206373.XA 2013-05-29 2013-05-29 一种基于模糊隶属函数的语音分离方法 Active CN103325381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310206373.XA CN103325381B (zh) 2013-05-29 2013-05-29 一种基于模糊隶属函数的语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310206373.XA CN103325381B (zh) 2013-05-29 2013-05-29 一种基于模糊隶属函数的语音分离方法

Publications (2)

Publication Number Publication Date
CN103325381A CN103325381A (zh) 2013-09-25
CN103325381B true CN103325381B (zh) 2015-09-02

Family

ID=49194077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310206373.XA Active CN103325381B (zh) 2013-05-29 2013-05-29 一种基于模糊隶属函数的语音分离方法

Country Status (1)

Country Link
CN (1) CN103325381B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513605B (zh) * 2015-12-01 2019-07-02 南京师范大学 手机麦克风的语音增强系统和语音增强方法
WO2017128856A1 (zh) * 2016-01-27 2017-08-03 山东大学 增强音乐旋律感知的耳蜗电极布置、装置、系统及方法
CN107507624B (zh) * 2016-06-14 2021-03-09 瑞昱半导体股份有限公司 声源分离方法与装置
CN106486110B (zh) * 2016-10-21 2019-11-08 清华大学 一种支持语音实时分解/合成的伽马通滤波器组芯片系统
CN106601249B (zh) * 2016-11-18 2020-06-05 清华大学 一种基于听觉感知特性的数字语音实时分解/合成方法
CN108738039B (zh) * 2017-04-19 2021-06-04 北京小米移动软件有限公司 通讯频段的配置方法及装置、电子设备、可读存储介质
CN108564956B (zh) * 2018-03-26 2021-04-20 京北方信息技术股份有限公司 一种声纹识别方法和装置、服务器、存储介质
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN110288978B (zh) 2018-10-25 2022-08-30 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
CN109584903B (zh) * 2018-12-29 2021-02-12 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
CN110398647B (zh) * 2019-06-26 2022-02-15 深圳供电局有限公司 变压器状态监测方法
CN111755028A (zh) * 2020-07-03 2020-10-09 四川长虹电器股份有限公司 一种基于基音特征的近场遥控器语音端点检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Hilbert-Huang变换的语音信号分离;张朝柱,张健沛,孙晓东;《计算机应用》;20090131;第29卷(第1期);227-229 *

Also Published As

Publication number Publication date
CN103325381A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103325381B (zh) 一种基于模糊隶属函数的语音分离方法
CN105741849B (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
Emiya et al. Subjective and objective quality assessment of audio source separation
CN101976566B (zh) 语音增强方法及应用该方法的装置
CN103440869B (zh) 一种音频混响的抑制装置及其抑制方法
CN103456312B (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
CN107767859B (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN104810024A (zh) 一种双路麦克风语音降噪处理方法及系统
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
JP5337072B2 (ja) モデル推定装置、音源分離装置、それらの方法及びプログラム
CN105679330B (zh) 基于改进子带信噪比估计的数字助听器降噪方法
CN103761974B (zh) 一种人工耳蜗
CN102438189A (zh) 基于双通路声信号的声源定位方法
CN102565759A (zh) 一种基于子带信噪比估计的双耳声源定位方法
Jangjit et al. A new wavelet denoising method for noise threshold
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
US9495973B2 (en) Speech recognition apparatus and speech recognition method
JP2016006536A (ja) 複素音響共鳴音声分析システム
CN103475986A (zh) 基于多分辨率小波的数字助听器语音增强方法
CN103903624B (zh) 一种高斯色噪声环境下的基音周期检测方法
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
CN111028857A (zh) 基于深度学习的多通道音视频会议降噪的方法及系统
CN110010150A (zh) 基于多分辨率的听觉感知语音特征参数提取方法
CN116168719A (zh) 一种基于语境分析的声音增益调节方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Lin Lin

Inventor after: Xu He

Inventor after: Sun Xiaoying

Inventor after: Chen Jian

Inventor after: Hu Fengye

Inventor after: Wei Xiaoli

Inventor before: Lin Lin

Inventor before: Xu He

Inventor before: Sun Xiaoying

Inventor before: Chen Jian

Inventor before: Hu Fengye

Inventor before: Wei Xiaoli

C14 Grant of patent or utility model
GR01 Patent grant