CN103337245A - 基于子带信号的信噪比曲线的噪声抑制方法及装置 - Google Patents

基于子带信号的信噪比曲线的噪声抑制方法及装置 Download PDF

Info

Publication number
CN103337245A
CN103337245A CN201310241571XA CN201310241571A CN103337245A CN 103337245 A CN103337245 A CN 103337245A CN 201310241571X A CN201310241571X A CN 201310241571XA CN 201310241571 A CN201310241571 A CN 201310241571A CN 103337245 A CN103337245 A CN 103337245A
Authority
CN
China
Prior art keywords
signal
ratio
noise
curve
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310241571XA
Other languages
English (en)
Other versions
CN103337245B (zh
Inventor
宋辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310241571.XA priority Critical patent/CN103337245B/zh
Publication of CN103337245A publication Critical patent/CN103337245A/zh
Application granted granted Critical
Publication of CN103337245B publication Critical patent/CN103337245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Noise Elimination (AREA)

Abstract

本发明提供一种基于子带信号的信噪比曲线的噪声抑制方法及装置。本发明实施例通过根据语音信号,获得所述语音信号的信噪比曲线,进而根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,使得能够对所述噪声帧进行降噪处理,由于区分了语音信号中的语音帧和噪声帧,可以只对噪声帧进行降噪处理,因此,仅对噪声分量进行了抑制,而对语音分量没有进行任何抑制,能够避免现有技术中由于对噪声分量进行抑制的同时也对语音分量进行了一定的抑制的而导致的影响了降噪之后的语音质量的问题,从而提高了降噪的可靠性。

Description

基于子带信号的信噪比曲线的噪声抑制方法及装置
【技术领域】
本发明涉及噪声处理技术,尤其涉及一种基于子带信号的信噪比曲线的噪声抑制方法及装置。
【背景技术】
随着语音处理技术发展越来越快,终端对需要处理的语音质量的要求也越来越高,降噪技术应运而生。目前的降噪技术主要是,根据输入的语音信号,计算该语音信号的信号噪声比(Signal to Noise Ratio,SNR),也可以称为信噪比。根据语音信号的SNR和预先设置的判决门限,确定该语音信号中是否含有噪声分量,如果确定语音信号中含有噪声分量,则对该语音信号进行降噪处理。
然而,现有的降噪技术虽然能够对噪声分量进行抑制,但是同样也对语音分量进行了一定的抑制,会影响了降噪之后的语音质量,导致了降噪的可靠性的降低。
【发明内容】
本发明的多个方面提供一种基于子带信号的信噪比曲线的噪声抑制方法及装置,用以提高降噪的可靠性。
本发明的一方面,提供一种基于子带信号的信噪比曲线的噪声抑制方法,包括:
根据语音信号,获得所述语音信号的信噪比曲线;
根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧;
对所述噪声帧进行降噪处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据语音信号,获得所述语音信号的信噪比曲线,包括:
对所述语音信号进行分解,以生成至少两个子带信号;
根据所述至少两个子带信号,获得每个所述子带信号的信噪比曲线;
根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对语音信号进行分解,以生成至少两个子带信号,包括:
对所述语音信号进行频域分解,以生成所述至少两个子带信号;或者
对所述语音信号进行Mel域分解,以生成所述至少两个子带信号。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线,包括:
根据每个所述子带信号的信噪比曲线,确定与每个所述子带信号的信噪比曲线对应的权重值;
根据每个所述子带信号的信噪比曲线和与其对应的权重值,获得所述语音信号的信噪比曲线。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,包括:
根据所述语音信号的信噪比曲线,获得判决门限;
根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音信号包括全部语音帧或部分语音帧。
本发明的另一方面,提供一种基于子带信号的信噪比曲线的噪声抑制装置,包括:
获得单元,用于根据语音信号,获得所述语音信号的信噪比曲线;
确定单元,用于根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧;
处理单元,用于对所述噪声帧进行降噪处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于
对所述语音信号进行分解,以生成至少两个子带信号;根据所述至少两个子带信号,获得每个所述子带信号的信噪比曲线;以及根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于
对所述语音信号进行频域分解,以生成所述至少两个子带信号;或者
对所述语音信号进行Mel域分解,以生成所述至少两个子带信号。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于
根据每个所述子带信号的信噪比曲线,确定与每个所述子带信号的信噪比曲线对应的权重值;
根据每个所述子带信号的信噪比曲线和与其对应的权重值,获得所述语音信号的信噪比曲线。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述确定单元,具体用于
根据所述语音信号的信噪比曲线,获得判决门限;
根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音信号包括全部语音帧或部分语音帧。
由上述技术方案可知,本发明实施例通过根据语音信号,获得所述语音信号的信噪比曲线,进而根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,使得能够对所述噪声帧进行降噪处理,由于区分了语音信号中的语音帧和噪声帧,可以只对噪声帧进行降噪处理,因此,仅对噪声分量进行了抑制,而对语音分量没有进行任何抑制,能够避免现有技术中由于对噪声分量进行抑制的同时也对语音分量进行了一定的抑制的而导致的影响了降噪之后的语音质量的问题,从而提高了降噪的可靠性。
另外,采用本发明提供的技术方案,由于对语音帧不进行任何处理,因此,不会损伤到任何语音分量,能够有效保留语音信号中的语音分量,从而进一步提高了降噪之后的语音质量。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的基于子带信号的信噪比曲线的噪声抑制方法的流程示意图;
图2为图1对应的实施例中第k个Mel域子带信号Xk(f)的信噪比曲线Ck的形状示意图;
图3为本发明另一实施例提供的基于子带信号的信噪比曲线的噪声抑制装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的基于子带信号的信噪比曲线的噪声抑制方法的流程示意图,如图1所示。
101、根据语音信号,获得所述语音信号的信噪比曲线。
102、根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧。
103、对所述噪声帧进行降噪处理。
需要说明的是,语音信号由若干帧组成,每一帧中可能包含语音分量和/或噪声分量。所述语音帧,可以理解为不包含噪声分量的帧;所述噪声帧,可以理解为包含噪声分量的帧。
需要说明的是,101~103的执行主体可以是噪声抑制装置,可以位于本地的客户端中,以进行离线降噪处理,或者还可以位于网络侧的服务器中,以进行在线降噪处理,本实施例对此不进行限定。
可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现语音输入,以提供语音服务的客观存在形式都可以,本实施例对此不进行限定。
这样,通过根据语音信号,获得所述语音信号的信噪比曲线,进而根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,使得能够对所述噪声帧进行降噪处理,由于区分了语音信号中的语音帧和噪声帧,可以只对噪声帧进行降噪处理,因此,仅对噪声分量进行了抑制,而对语音分量没有进行任何抑制,能够避免现有技术中由于对噪声分量进行抑制的同时也对语音分量进行了一定的抑制的而导致的影响了降噪之后的语音质量的问题,从而提高了降噪的可靠性。
另外,采用本发明提供的技术方案,由于对语音帧不进行任何处理,因此,不会损伤到任何语音分量,能够有效保留语音信号中的语音分量,从而进一步提高了降噪之后的语音质量。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以对所述语音信号进行分解,以生成至少两个子带信号。进而,可以根据所述至少两个子带信号,获得每个所述子带信号的信噪比曲线。然后,则可以根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线。这样,通过结合各个子带信号的信噪比曲线,共同拟合出语音信号的信噪比曲线,能够有效提高所述语音信号的信噪比曲线的可靠性。
例如,具体可以对所述语音信号进行频域分解,以生成所述至少两个子带信号,即频域子带信号。
或者,再例如,具体还可以对所述语音信号进行梅尔(Mel)域分解,以生成所述至少两个子带信号,即Mel域子带信号。
具体地,具体可以根据每个所述子带信号的信噪比曲线,确定与每个所述子带信号的信噪比曲线对应的权重值。然后,再根据每个所述子带信号的信噪比曲线和与其对应的权重值,获得所述语音信号的信噪比曲线。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以获得预先设置的判决门限。然后,则可以根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
可选地,在本实施例的一个可能的实现方式中,在102中,具体还可以根据所述语音信号的信噪比曲线,获得判决门限。然后,则可以根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
为使得本发明实施例提供的方法更加清楚,下面将以语音信号在Mel域的处理作为举例。Mel域是由在频域上定义的一组三角滤波器组所划分的,该滤波器组也被称为Mel滤波器组(Mel Filter Bank,MFB)。由于MFB能够很好的模拟人耳听觉的临界带宽效应,在语音识别系统中,语音的特征都是在Mel域被提取出来的。
第一步,逐帧接收输入信号,对所述输入信号进行预处理,以获得分帧之后的全频带语音信号X(f),简称为语音信号。具体地,所述预处理可以包括但不限于信号分帧、预加重、加窗、傅里叶变换(Fast Fourier Transform,FFT)等预处理。
第二步,按照MFB的带宽划分,将语音信号分解成K个Mel域子带信号Xi(f),i=1,…,K,每个Mel域子带信号均由语音子带分量Si(f)和噪声子带分量Ni(f)构成,即Xi(f)=Si(f)+Ni(f)。
一般来说,K的取值范围为20~25。
第三步,根据K个Mel域子带信号Xi(f),获得每个Mel域子带信号的信噪比曲线Ci,i=1,…,K。
以第k个Mel域子带信号Xk(f)为例,第k个Mel域子带信号Xk(f)的信噪比曲线Ck,可以根据公式(1)获得。
C k = [ SNR k , 1 , SNR k , 2 , . . . , SNR k , t ] = [ X k , 1 2 ( f ) N ^ k 2 ( f ) , X k , 2 2 ( f ) N ^ k 2 ( f ) , . . . , X k , t 2 ( f ) N ^ k 2 ( f ) ] - - - ( 1 )
其中,t为当前时间索引,t=1,…,T,T为语音信号的长度,单位可以为10毫秒(ms);为第k个Mel域子带信号Xk(f)的初始噪声估计值。
第k个Mel域子带信号Xk(f)的信噪比曲线Ck的大致形状可以如图2所示。从图2中可以看出,在语音帧内的信噪比较高,在噪声帧内的信噪比较低。因此,这个曲线可以作为语音信号中噪声帧的判定依据。
但是,单纯的每个Mel域子带信号的信噪比曲线直接用来进行噪声帧的判决,结果是不理想的。这是因为不同Mel域子带信号的信噪比曲线,呈现出的特性是不完全相同的,需要把这些特点综合在一起,才能得到可靠的噪声帧判决。例如,很多噪声帧大多集中在低频带,因此中低频带的信噪比曲线的峰值相对要低一些,而中高频带的信噪比曲线的峰值相对要高一些,因此,需要采用一种合理的拟合策略,将上述信息利用起来,得到一条更加可靠的信噪比曲线。
第四步,根据每个Mel域子带信号的信噪比曲线Ci,获得所述语音信号的信噪比曲线SNRcurve
具体地,可以根据每个Mel域子带信号的信噪比曲线,确定与每个Mel域子带信号的信噪比曲线对应的权重值。然后,再根据每个Mel域子带信号的信噪比曲线和与其对应的权重值,获得即拟合出所述语音信号的信噪比曲线。
在语音信号的信噪比曲线的拟合过程中,需要同时用到每个Mel域子带信号的信噪比信息,首要问题是为每个Mel域子带信号的信噪比曲线分配一个合理的权重值,换句话说,需要首先确定“哪条(或哪些条)信噪比曲线更加可信,应该赋予更高的权重值”。因此,可以为每一条信噪比追踪曲线,引入一个置信度CMk,该置信度CMk,可以根据公式(2)获得。
CM k = 1 N Σ i = 1 N X k , local max , i 2 ( f ) N ^ k 2 ( f ) - - - ( 2 )
其中,
Figure BDA00003364923400092
为第k个Mel域子带信号Xk(f)的信噪比曲线Ck中的局部极大值,N为自然数。
这个置信度CMk主要衡量了第k个Mel域子带信号Xk(f)的信噪比曲线Ck中的N个局部极大值的平均值,描述了Ck整体的幅度大小。如果某个Mel域子带信号的置信度较高,说明在该子带内信噪比整体偏高,也就意味着在这个子带中的噪声分量较少,信噪比曲线更加有区分性,应当赋予更高的权重值,这就是置信度的含义。
这样,则可以根据每个Mel域子带信号的信噪比曲线的置信度CMi,确定与每个Mel域子带信号的信噪比曲线对应的权重值Ri,例如,对置信度CMi进行归一化处理,获得权重值Ri
进而,则可以根据每个Mel域子带信号的信噪比曲线Ci和与其对应的权重值Ri,获得即拟合出所述语音信号的信噪比曲线SNRcurve。例如,具体可以根据公式(3)进行线性拟合,获得所述语音信号的信噪比曲线SNRcurve
SNR curve = Σ i = 1 k R i C i - - - ( 3 )
第五步,根据所述语音信号的信噪比曲线SNRcurve,确定所述语音信号中的语音帧和噪声帧。
首先,遍历整个信噪比曲线SNRcurve,找到其中的M个最小值SNRcurve,min,i,i=1,…,M,M为自然数;
其次,利用这M个最小值,计算判决门限SNRthr
具体可以根据公式(4),计算判决门限
SNR thr = α 1 M Σ i = 1 M SNR curve , min , i - - - ( 4 )
其中,α为增强因子,为了降低错误判决的风险,例如,将语音帧判决为噪声帧,可以适当提高α的取值,如取5~10。
然后,根据所述语音信号的信噪比曲线SNRcurve和所述判决门限SNRthr,确定所述语音信号中的语音帧和噪声帧。
具体地,若帧的信噪比小于该判决门限SNRthr,则该帧为噪声帧;若帧的信噪比大于或等于该判决门限SNRthr,则该帧为语音帧。
第六步,对所述噪声帧进行降噪处理。
首先,利用全部的噪声帧,进行Mel域噪声估计,以获得噪声估计值Nupdate(f)。
以第k个Mel域子带为例,根据全部的噪声帧,获得该Mel域子带的噪声估计值
Figure BDA00003364923400102
然后,再根据每个Mel域子带的噪声估计值
Figure BDA00003364923400103
i=1,…,k,获得全频带的噪声估计值Nupdate(f)。例如,可以采用分段拼接的方法:
对于两个相邻的Mel频带
Figure BDA00003364923400104
相应的Mel频带范围:
Figure BDA00003364923400106
以及
Figure BDA00003364923400107
则拼接方式可以如下所示:
N update ( f ) = N i update ( f ) 其中, f i lower / 3 < f < f i upp er / 3 ;
N update ( f ) = N i + 1 update ( f ) 其中, f i + 1 lower / 3 < f < f i + 1 upper / 3 ;
N update ( f ) = [ N i update ( f ) + N i + 1 update ( f ) ] / 2 其中, f i upper / 3 < f < f i + 1 lower / 3 .
最后,利用全频带的噪声估计值Nupdate(f),获得滤波器的传递函数H(f)。
具体可以根据公式(5),计算传递函数H(f)。
H ( f ) = 1 - 1 SNR ( f ) = 1 - N update 2 ( f ) X 2 ( f ) - - - ( 5 )
这样,就可以利用所获得的传递函数H(f),对噪声帧进行抑制处理。
需要说明的是,本发明中,可以在两种模式下,执行101~103。一种模式为线下(offline)模式,另一种模式为线上(online)模式。在offline模式下,所述语音信号可以为完整的输入信号,也就是说,所述语音信号包括全部语音帧。在online模式下,所述语音信号则只可以为不完整的输入信号,即当前时刻之前的输入信号,也就是说,所述语音信号包括部分语音帧。
为了保证噪声抑制的实时性,还可以进一步对语音信号进行分块处理,例如,将语音信号以2秒为单位进行分块处理,针对每个块即经过分块处理的若干个新的语音信号重复执行101~103。对新的语音信号的噪声抑制处理的详细描述可以参见未经分块处理的语音信号的噪声抑制处理的相关内容,此处不再赘述。
本实施例中,通过根据语音信号,获得所述语音信号的信噪比曲线,进而根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,使得能够对所述噪声帧进行降噪处理,由于区分了语音信号中的语音帧和噪声帧,可以只对噪声帧进行降噪处理,因此,仅对噪声分量进行了抑制,而对语音分量没有进行任何抑制,能够避免现有技术中由于对噪声分量进行抑制的同时也对语音分量进行了一定的抑制的而导致的影响了降噪之后的语音质量的问题,从而提高了降噪的可靠性。
另外,采用本发明提供的技术方案,由于对语音帧不进行任何处理,因此,不会损伤到任何语音分量,能够有效保留语音信号中的语音分量,从而进一步提高了降噪之后的语音质量。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本发明另一实施例提供的基于子带信号的信噪比曲线的噪声抑制装置的结构示意图,如图3所示。本实施例的基于子带信号的信噪比曲线的噪声抑制装置可以包括获得单元31、确定单元32和处理单元33。其中,获得单元31,用于根据语音信号,获得所述语音信号的信噪比曲线;确定单元32,用于根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧;处理单元33,用于对所述噪声帧进行降噪处理。
需要说明的是,语音信号由若干帧组成,每一帧中可能包含语音分量和/或噪声分量。所述语音帧,可以理解为不包含噪声分量的帧;所述噪声帧,可以理解为包含噪声分量的帧。
需要说明的是,本实施例提供的装置可以是噪声抑制装置,可以位于本地的客户端中,以进行离线降噪处理,或者还可以位于网络侧的服务器中,以进行在线降噪处理,本实施例对此不进行限定。
可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现语音输入,以提供语音服务的客观存在形式都可以,本实施例对此不进行限定。
这样,通过获得单元根据语音信号,获得所述语音信号的信噪比曲线,进而由确定单元根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,使得处理单元能够对所述噪声帧进行降噪处理,由于区分了语音信号中的语音帧和噪声帧,可以只对噪声帧进行降噪处理,因此,仅对噪声分量进行了抑制,而对语音分量没有进行任何抑制,能够避免现有技术中由于对噪声分量进行抑制的同时也对语音分量进行了一定的抑制的而导致的影响了降噪之后的语音质量的问题,从而提高了降噪的可靠性。
另外,采用本发明提供的技术方案,由于对语音帧不进行任何处理,因此,不会损伤到任何语音分量,能够有效保留语音信号中的语音分量,从而进一步提高了降噪之后的语音质量。
可选地,在本实施例的一个可能的实现方式中,所述获得单元31,具体可以用于对所述语音信号进行分解,以生成至少两个子带信号;根据所述至少两个子带信号,获得每个所述子带信号的信噪比曲线;以及根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线。这样,通过结合各个子带信号的信噪比曲线,共同拟合出语音信号的信噪比曲线,能够有效提高所述语音信号的信噪比曲线的可靠性。
例如,所述获得单元31,具体可以对所述语音信号进行频域分解,以生成所述至少两个子带信号,即频域子带信号。
或者,再例如,所述获得单元31,具体还可以对所述语音信号进行梅尔(Mel)域分解,以生成所述至少两个子带信号,即Mel域子带信号。
具体地,所述获得单元31,具体可以根据每个所述子带信号的信噪比曲线,确定与每个所述子带信号的信噪比曲线对应的权重值;以及根据每个所述子带信号的信噪比曲线和与其对应的权重值,获得所述语音信号的信噪比曲线。
可选地,在本实施例的一个可能的实现方式中,所述确定单元32,具体可以用于获得预先设置的判决门限,根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
可选地,在本实施例的一个可能的实现方式中,所述确定单元32,具体还可以用于根据所述语音信号的信噪比曲线,获得判决门限;以及根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
为使得本发明实施例提供的方法更加清楚,下面将以语音信号在Mel域的处理作为举例。Mel域是由在频域上定义的一组三角滤波器组所划分的,该滤波器组也被称为Mel滤波器组(Mel Filter Bank,MFB)。由于MFB能够很好的模拟人耳听觉的临界带宽效应,在语音识别系统中,语音的特征都是在Mel域被提取出来的。
第一步,噪声抑制装置逐帧接收输入信号,对所述输入信号进行预处理,以获得分帧之后的全频带语音信号X(f),简称为语音信号。具体地,所述预处理可以包括但不限于信号分帧、预加重、加窗、傅里叶变换(Fast FourierTransform,FFT)等预处理。
第二步,获得单元按照MFB的带宽划分,将语音信号分解成K个Mel域子带信号Xi(f),i=1,…,K,每个Mel域子带信号均由语音子带分量Si(f)和噪声子带分量Ni(f)构成,即Xi(f)=Si(f)+Ni(f)。
一般来说,K的取值范围为20~25。
第三步,获得单元根据K个Mel域子带信号Xi(f),获得每个Mel域子带信号的信噪比曲线Ci,i=1,…,K。
以第k个Mel域子带信号Xk(f)为例,第k个Mel域子带信号Xk(f)的信噪比曲线Ck,获得单元可以根据公式(1)获得。
C k = [ SNR k , 1 , SNR k , 2 , . . . , SNR k , t ] = [ X k , 1 2 ( f ) N ^ k 2 ( f ) , X k , 2 2 ( f ) N ^ k 2 ( f ) , . . . , X k , t 2 ( f ) N ^ k 2 ( f ) ] - - - ( 1 )
其中,t为当前时间索引,t=1,…,T,T为语音信号的长度,单位可以为10毫秒(ms);
Figure BDA00003364923400142
为第k个Mel域子带信号Xk(f)的初始噪声估计值。
第k个Mel域子带信号Xk(f)的信噪比曲线Ck的大致形状可以如图2所示。从图2中可以看出,在语音帧内的信噪比较高,在噪声帧内的信噪比较低。因此,这个曲线可以作为语音信号中噪声帧的判定依据。
但是,单纯的每个Mel域子带信号的信噪比曲线,获得单元直接用来进行噪声帧的判决,结果是不理想的。这是因为不同Mel域子带信号的信噪比曲线,呈现出的特性是不完全相同的,获得单元需要把这些特点综合在一起,才能得到可靠的噪声帧判决。例如,很多噪声帧大多集中在低频带,因此中低频带的信噪比曲线的峰值相对要低一些,而中高频带的信噪比曲线的峰值相对要高一些,因此,获得单元需要采用一种合理的拟合策略,将上述信息利用起来,得到一条更加可靠的信噪比曲线。
第四步,获得单元根据每个Mel域子带信号的信噪比曲线Ci,获得所述语音信号的信噪比曲线SNRcurve
具体地,获得单元可以根据每个Mel域子带信号的信噪比曲线,确定与每个Mel域子带信号的信噪比曲线对应的权重值。然后,获得单元再根据每个Mel域子带信号的信噪比曲线和与其对应的权重值,获得即拟合出所述语音信号的信噪比曲线。
在语音信号的信噪比曲线的拟合过程中,获得单元需要同时用到每个Mel域子带信号的信噪比信息,首要问题是为每个Mel域子带信号的信噪比曲线分配一个合理的权重值,换句话说,需要首先确定“哪条(或哪些条)信噪比曲线更加可信,应该赋予更高的权重值”。因此,可以为每一条信噪比追踪曲线,引入一个置信度CMk。该置信度CMk,可以根据公式(2)获得。
CM k = 1 N &Sigma; i = 1 N X k , local max , i 2 ( f ) N ^ k 2 ( f ) - - - ( 2 )
其中,
Figure BDA00003364923400152
为第k个Mel域子带信号Xk(f)的信噪比曲线Ck中的局部极大值,N为自然数。
这个置信度CMk主要衡量了第k个Mel域子带信号Xk(f)的信噪比曲线Ck中的N个局部极大值的平均值,描述了Ck整体的幅度大小。如果某个Mel域子带信号的置信度较高,说明在该子带内信噪比整体偏高,也就意味着在这个子带中的噪声分量较少,信噪比曲线更加有区分性,应当赋予更高的权重值,这就是置信度的含义。
这样,获得单元则可以根据每个Mel域子带信号的信噪比曲线的置信度CMi,确定与每个Mel域子带信号的信噪比曲线对应的权重值Ri,例如,对置信度CMi进行归一化处理,获得权重值Ri
进而,获得单元则可以根据每个Mel域子带信号的信噪比曲线Ci和与其对应的权重值Ri,获得即拟合出所述语音信号的信噪比曲线SNRcurve。例如,获得单元具体可以根据公式(3)进行线性拟合,获得所述语音信号的信噪比曲线SNRcurve
SNR curve = &Sigma; i = 1 k R i C i - - - ( 3 )
第五步,确定单元根据所述语音信号的信噪比曲线SNRcurve,确定所述语音信号中的语音帧和噪声帧。
首先,确定单元遍历整个信噪比曲线SNRcurve,找到其中的M个最小值SNRcurve,min,i,i=1,…,M,M为自然数;
其次,确定单元利用这M个最小值,计算判决门限SNRthr
确定单元具体可以根据公式(4),计算判决门限
SNR thr = &alpha; 1 M &Sigma; i = 1 M SNR curve , min , i - - - ( 4 )
其中,α为增强因子,为了降低错误判决的风险,例如,将语音帧判决为噪声帧,可以适当提高α的取值,如取5~10。
然后,确定单元根据所述语音信号的信噪比曲线SNRcurve和所述判决门限SNRthr,确定所述语音信号中的语音帧和噪声帧。
具体地,若帧的信噪比小于该判决门限SNRthr,确定单元则确定该帧为噪声帧;若帧的信噪比大于或等于该判决门限SNRthr,确定单元则确定该帧为语音帧。
第六步,处理单元对所述噪声帧进行降噪处理。
首先,处理单元利用全部的噪声帧,进行Mel域噪声估计,以获得噪声估计值Nupdate(f)。
以第k个Mel域子带为例,处理单元具体可以根据全部的噪声帧,获得该Mel域子带的噪声估计值
Figure BDA00003364923400162
然后,处理单元再根据每个Mel域子带的噪声估计值i=1,…,k,获得全频带的噪声估计值Nupdate(f)。例如,处理单元可以采用分段拼接的方法:
对于两个相邻的Mel频带
Figure BDA00003364923400164
Figure BDA00003364923400165
相应的Mel频带范围:
Figure BDA00003364923400166
以及则拼接方式可以如下所示:
N update ( f ) = N i update ( f ) 其中, f i lower / 3 < f < f i upp er / 3 ;
N update ( f ) = N i + 1 update ( f ) 其中, f i + 1 lower / 3 < f < f i + 1 upper / 3 ;
N update ( f ) = [ N i update ( f ) + N i + 1 update ( f ) ] / 2 其中, f i upper / 3 < f < f i + 1 lower / 3 .
最后,处理单元则可以利用全频带的噪声估计值Nupdate(f),获得滤波器的传递函数H(f)。
具体可以根据公式(5),计算传递函数H(f)。
H ( f ) = 1 - 1 SNR ( f ) = 1 - N update 2 ( f ) X 2 ( f ) - - - ( 5 )
这样,处理单元就可以利用所获得的传递函数H(f),对噪声帧进行抑制处理。
需要说明的是,本发明中,噪声抑制装置可以在两种模式下,执行相应的操作。一种模式为线下(offline)模式,另一种模式为线上(online)模式。在offline模式下,所述语音信号可以为完整的输入信号,也就是说,所述语音信号包括全部语音帧。在online模式下,所述语音信号则只可以为不完整的输入信号,即当前时刻之前的输入信号,也就是说,所述语音信号包括部分语音帧。
为了保证噪声抑制的实时性,噪声抑制装置还可以进一步对语音信号进行分块处理,例如,将语音信号以2秒为单位进行分块处理,针对每个块即经过分块处理的若干个新的语音信号重复执行相应的操作。对新的语音信号的噪声抑制处理的详细描述可以参见未经分块处理的语音信号的噪声抑制处理的相关内容,此处不再赘述。
本实施例中,通过获得单元根据语音信号,获得所述语音信号的信噪比曲线,进而由确定单元根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,使得处理单元能够对所述噪声帧进行降噪处理,由于区分了语音信号中的语音帧和噪声帧,可以只对噪声帧进行降噪处理,因此,仅对噪声分量进行了抑制,而对语音分量没有进行任何抑制,能够避免现有技术中由于对噪声分量进行抑制的同时也对语音分量进行了一定的抑制的而导致的影响了降噪之后的语音质量的问题,从而提高了降噪的可靠性。
另外,采用本发明提供的技术方案,由于对语音帧不进行任何处理,因此,不会损伤到任何语音分量,能够有效保留语音信号中的语音分量,从而进一步提高了降噪之后的语音质量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种基于子带信号的信噪比曲线的噪声抑制方法,其特征在于,包括:
根据语音信号,获得所述语音信号的信噪比曲线;
根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧;
对所述噪声帧进行降噪处理。
2.根据权利要求1所述的方法,其特征在于,所述根据语音信号,获得所述语音信号的信噪比曲线,包括:
对所述语音信号进行分解,以生成至少两个子带信号;
根据所述至少两个子带信号,获得每个所述子带信号的信噪比曲线;
根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线。
3.根据权利要求2所述的方法,其特征在于,所述对语音信号进行分解,以生成至少两个子带信号,包括:
对所述语音信号进行频域分解,以生成所述至少两个子带信号;或者
对所述语音信号进行Mel域分解,以生成所述至少两个子带信号。
4.根据权利要求2或3所述的方法,其特征在于,所述根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线,包括:
根据每个所述子带信号的信噪比曲线,确定与每个所述子带信号的信噪比曲线对应的权重值;
根据每个所述子带信号的信噪比曲线和与其对应的权重值,获得所述语音信号的信噪比曲线。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧,包括:
根据所述语音信号的信噪比曲线,获得判决门限;
根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
6.根据权利要求1~5任一权利要求所述的方法,其特征在于,所述语音信号包括全部语音帧或部分语音帧。
7.一种基于子带信号的信噪比曲线的噪声抑制装置,其特征在于,包括:
获得单元,用于根据语音信号,获得所述语音信号的信噪比曲线;
确定单元,用于根据所述语音信号的信噪比曲线,确定所述语音信号中的语音帧和噪声帧;
处理单元,用于对所述噪声帧进行降噪处理。
8.根据权利要求7所述的装置,其特征在于,所述获得单元,具体用于
对所述语音信号进行分解,以生成至少两个子带信号;根据所述至少两个子带信号,获得每个所述子带信号的信噪比曲线;以及根据每个所述子带信号的信噪比曲线,获得所述语音信号的信噪比曲线。
9.根据权利要求8所述的装置,其特征在于,所述获得单元,具体用于
对所述语音信号进行频域分解,以生成所述至少两个子带信号;或者
对所述语音信号进行Mel域分解,以生成所述至少两个子带信号。
10.根据权利要求8或9所述的装置,其特征在于,所述获得单元,具体用于
根据每个所述子带信号的信噪比曲线,确定与每个所述子带信号的信噪比曲线对应的权重值;
根据每个所述子带信号的信噪比曲线和与其对应的权重值,获得所述语音信号的信噪比曲线。
11.根据权利要求7~10任一权利要求所述的装置,其特征在于,所述确定单元,具体用于
根据所述语音信号的信噪比曲线,获得判决门限;
根据所述语音信号的信噪比曲线和所述判决门限,确定所述语音信号中的语音帧和噪声帧。
12.根据权利要求7~11任一权利要求所述的装置,其特征在于,所述语音信号包括全部语音帧或部分语音帧。
CN201310241571.XA 2013-06-18 2013-06-18 基于子带信号的信噪比曲线的噪声抑制方法及装置 Active CN103337245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310241571.XA CN103337245B (zh) 2013-06-18 2013-06-18 基于子带信号的信噪比曲线的噪声抑制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310241571.XA CN103337245B (zh) 2013-06-18 2013-06-18 基于子带信号的信噪比曲线的噪声抑制方法及装置

Publications (2)

Publication Number Publication Date
CN103337245A true CN103337245A (zh) 2013-10-02
CN103337245B CN103337245B (zh) 2016-06-01

Family

ID=49245388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310241571.XA Active CN103337245B (zh) 2013-06-18 2013-06-18 基于子带信号的信噪比曲线的噪声抑制方法及装置

Country Status (1)

Country Link
CN (1) CN103337245B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
CN104966518A (zh) * 2015-03-02 2015-10-07 腾讯科技(深圳)有限公司 一种音乐文件的音质检测方法及装置
CN111583958A (zh) * 2020-05-19 2020-08-25 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN1773605A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
US7133824B2 (en) * 2001-09-28 2006-11-07 Industrial Technology Research Institute Noise reduction method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133824B2 (en) * 2001-09-28 2006-11-07 Industrial Technology Research Institute Noise reduction method
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN1773605A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
US9928831B2 (en) 2013-12-19 2018-03-27 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
CN104966518A (zh) * 2015-03-02 2015-10-07 腾讯科技(深圳)有限公司 一种音乐文件的音质检测方法及装置
CN111583958A (zh) * 2020-05-19 2020-08-25 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111583958B (zh) * 2020-05-19 2023-10-10 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103337245B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN103440872B (zh) 瞬态噪声的去噪方法
CN103646649B (zh) 一种高效的语音检测方法
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN103730110B (zh) 一种检测语音端点的方法和装置
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
CN104538011A (zh) 一种音调调节方法、装置及终端设备
CN105957520A (zh) 一种适用于回声消除系统的语音状态检测方法
CN109346062B (zh) 语音端点检测方法及装置
Shahnaz et al. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme
KR20120037954A (ko) 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법
CN102185991A (zh) 回声消除方法、系统和装置
CN112712816B (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
CN105845150A (zh) 一种采用倒谱进行修正的语音增强方法及系统
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN102117618A (zh) 一种消除音乐噪声的方法、装置及系统
CN103337245A (zh) 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN103544961A (zh) 语音信号处理方法及装置
CN102376306B (zh) 语音帧等级的获取方法及装置
CN104506747A (zh) 一种回声消除的方法及装置
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
CN104123949B (zh) 卡帧检测方法和装置
CN103295580A (zh) 一种语音信号噪声抑制方法及装置
CN108010536A (zh) 回声消除方法、装置、系统及存储介质
CN106024017A (zh) 语音检测方法及装置
CN103559289A (zh) 语种无关的关键词检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant