CN102157156A - 一种单通道语音增强的方法和系统 - Google Patents

一种单通道语音增强的方法和系统 Download PDF

Info

Publication number
CN102157156A
CN102157156A CN2011100670584A CN201110067058A CN102157156A CN 102157156 A CN102157156 A CN 102157156A CN 2011100670584 A CN2011100670584 A CN 2011100670584A CN 201110067058 A CN201110067058 A CN 201110067058A CN 102157156 A CN102157156 A CN 102157156A
Authority
CN
China
Prior art keywords
signal
noise
noisy speech
voice
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100670584A
Other languages
English (en)
Other versions
CN102157156B (zh
Inventor
梁维谦
董保帅
陈卓
胡奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Wuxi Research Institute of Applied Technologies of Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201110067058A priority Critical patent/CN102157156B/zh
Publication of CN102157156A publication Critical patent/CN102157156A/zh
Application granted granted Critical
Publication of CN102157156B publication Critical patent/CN102157156B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种单通道语音增强的方法和系统,所述方法包括:通过语音激活检测从带噪语音信号中提取噪声信号;通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;通过对掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。本发明可以降低对目标语音信号的损伤,并在多种噪声环境下,均能实现较好的去噪效果并保持较高的语音质量。

Description

一种单通道语音增强的方法和系统
技术领域
本发明涉及语音技术领域,特别是涉及一种单通道语音增强的方法和系统。
背景技术
语音增强技术应用于噪声环境下的语音通信,可以提高通话质量;应用于人机对话,可以提高识别正确率。在人们的日常生活的各种噪声环境下,人们往往更希望获取经过降噪处理后的语音信息。传统的单通道(麦克)语音增强技术,如谱减法、维纳滤波等方法,都是先估计噪声幅值或能量,再直接将其从带噪语音中减去。上述方法对于平稳噪声如白噪声,可以达到一定的效果,然而对于诸如非目标人说话的噪声、音乐噪声等非平稳噪声,则可能造成较严重的语音损伤,可以看出,噪效果是跟噪音的类型是有关系的。
近年来,基于听觉场景分析的语音处理技术的研究日趋活跃。听觉场景分析(Auditory Scene Analysis)是指人类的听觉系统能够从复杂的混合声音中选择并跟踪某一说话人的声音。听觉系统利用声音的各种特性(时域、频域、空间位置等),通过自下而上(分解)和自上而下(学习)的双向信息交流,对现实世界的混合声音进行分解,使各成分归属于各自的物理声源。
此后,人们尝试用计算机模拟人的这种听觉特性,产生了计算听觉场景分析(Computational Auditory Scene Analysis,CASA)方法。既然是模拟人的一种生理机能,就需要对人耳的生理结构及声音进入人耳、引起神经冲动并由听神经传导、人脑的处理机能做一些了解并用计算机算法的形式模拟实现。针对计算机对人耳听觉特性的模拟,现有技术只公开了双通道语音的增强方法,并没有出现单通道语音增强技术。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种单通道语音增强的方法及系统,降低对目标语音信号的损伤,并在多种噪声环境下,均能实现较好的去噪效果并保持较高的语音质量。
发明内容
本发明所要解决的技术问题是提供一种单通道语音增强的方法和系统,可以降低对目标语音信号的损伤,并在多种噪声环境下,均能实现较好的去噪效果并保持较高的语音质量。
为了解决上述问题,本发明公开了一种单通道语音增强的方法,其特征在于,包括:
通过语音激活检测从带噪语音信号中提取噪声信号;
通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;
通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;
对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
优选的,所述通过语音激活检测从带噪语音信号中提取噪声信号,包括:
依据前一帧的能量谱,对当前帧带噪语音信号的能量谱进行迭代更新,更新方法为:σ(m)=α|x(m)|2+(1-α)σ(m-1);
如果当前帧的前一帧的语音激活检测的判决结果不为噪声,则当前帧的噪声能量与前一帧的噪声能量谱相同;如果当前帧的前一帧的语音激活检测的判决结果为噪声,则对当前帧的噪声能量进行迭代更新,更新方法为:λ(m)=β|x(m)|2+(1-β)λ(m-1);
依据带噪语音信号的能量谱和噪声能量谱计算每一帧的后验信噪比,当所述后验信噪比小于预置阈值时,将当前帧的带噪语音信号作为噪声并进行提取;
其中,σ(m)为经迭代更新的第m帧带噪语音信号的能量谱,λ(m)是经迭代更新的第m帧噪声能量谱,x(m)为第m帧带噪语音信号,α和β分别为迭代因子。
优选的,将前5帧带噪语音信号作为噪声;前3帧带噪语音信号的能量谱平均值作为噪声能量谱的初始值;第4帧带噪语音信号的能量谱值作为带噪语音的能量谱的初始值;从第4帧开始,对当前帧带噪语音信号的能量谱σ(m)进行迭代更新。
优选的,所述对带噪语音信号和噪声信号进行外耳的模拟处理,具体为:头相关传输函数取值为1。
优选的,所述对带噪语音信号和噪声信号进行内耳的模拟处理,具体为:
将带噪语音信号和噪声信号分别与gammatone滤波器组的滤波函数g(c,n)进行离散时间卷积处理:yi(c,n)=yi(n)*g(c,n)i=1,2;c=1,2,...,128;
其中,y1(n)为带噪语音信号,y2(n)为噪声信号,y1(c,n)为内耳模拟处理后的带噪语音信号,y2(c,n)为内耳模拟处理后的噪声信号;
g ( c , t ) = t N - 1 exp ( - 2 πb c t ) cos ( 2 π f c t + φ c ) , if t > 0 0 , else ;
ERB(fc)=24.7(4.37fc/1000+1),bc=1.019ERB(fc);
c为频率通道数,N是滤波器的阶数,bc是与频率带宽相关的衰减因子,fc是第c个频率通道的中心频率,φc是相位值,ERB为频率带宽。
优选的,所述对带噪语音信号和噪声信号进行中耳的模拟处理,具体为:
将带噪语音信号和噪声信号分别乘以中耳系数后,再分别与增益因子进行卷积处理;
其中,中耳系数midEarCoeff=10.0phon/20.0
phon=(loudnesslevelInphones(cf,loudFunc)-DB),DB=60;
loudnesslevelInphones(fc,loudFunc)为等响度曲线loudFunc在中心频率fc处对应的响度值。
优选的,所述通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差,具体为:
IID ( c , m ) = 20 log 10 ( Σ n = 0 L - 1 h 1 2 ( c , m , n ) Σ n = 0 L - 1 h 2 2 ( c , m , n ) )
其中,IID(c,m)为每一个时频单元的能量差,h1(c,m,n),h2(c,m,n)分别为模拟处理后带噪语音和噪声信号的第c个频率通道、第m个时间帧、第n个时间点的信号,L为每一帧的帧长。
优选的,所述对每一个时频单元的能量差加权不同的掩蔽值,具体为:
每一个时频单元对应的能量差越大,加权的掩蔽值越大;每一个时频单元对应的能量差越小,加权的掩蔽值越小。
优选的,生成掩蔽值后,还包括:对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
相应的,本发明还公开了一种单通道语音增强的系统,包括:
语音激活检测模块,用于通过语音激活检测从带噪语音信号中提取噪声信号;
外围分析模块,用于通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;
特征提取模块,用于通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;
掩蔽处理模块,用于对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
语音重建模块,用于利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
优选的,所述掩蔽处理模块还包括:掩蔽平滑子模块,用于对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
与现有技术相比,本发明具有以下优点:
本发明通过语音激活检测处理、外围分析、特征提取、掩蔽处理、语音重建这几个步骤实现单通道语音增强。其中,在去噪处理时引入(VAD),可以在检测出无目标语音说话语段时对带噪信号进行直接的抑制,使总体的信噪比大大提高。通过外围分析实现人耳对声音的模拟过程。通过对每一个时频单元的能量差加权不同的掩蔽值,使目标声源得到保留或是增强,噪声得到了抑制,从而将目标语音从带噪语音中分离出来,达到了去噪效果。
通过本发明提出的方法,能够针对单通道实现语音增强,并且可以降低对目标语音信号的损伤,在多种噪声环境下,均能得到较好的去噪效果并保持较高的语音质量。该技术利用计算听觉场景分析的原理,将目标语音从背景噪声中进行分离,从而实现去噪,而与噪声的具体类型、各种噪声源的个数、目标声源与噪声源的空间拓扑结构无关,并且不会产生很大的语音损伤。
附图说明
图1是单通道语音采集的空间分布示意图;
图2是语音信号采集部分的结构框图;
图3是本发明一种单通道语音增强方法的原理示意图;
图4是本发明一种单通道语音增强的方法实施例的流程图;
图5是单通道语音激活检测的原理示意图;
图6是外围分析的基本原理与人耳工作机理的对照示意图;
图7是语音信号的重建过程示意图;
图8是本发明一种单通道语音增强的系统实施例的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出的语音增强技术采用一路麦克风。单语音采集的空间分布示意图如图1所示。单通道(麦克)风同时采集目标声源和噪声源,得到带噪语音信号。采集到的带噪信号首先经过滤波和放大处理,再通过A/D变换得到语音数字信号,以备进一步处理。语音信号采集部分的结构框图如图2所示。本发明针对采集到的数字语音信号(即,以下所述的带噪语音信号)进行语音增强处理。
本发明提出的一种单通道语音增强方法的原理示意图如图3所示,主要包括语音激活检测(VAD,Voice Activity Detection)处理、外围分析、特征提取、生成掩蔽、掩蔽值平滑、语音重建。其中,在去噪处理时引入VAD模块可以在检测出无目标语音说话语段时对带噪信号进行直接的抑制,使总体的信噪比大大提高。外围分析原理如前所述,采用计算机算法的形式模拟实现人耳对声音的外围分析过程。特征提取主要提取的是估计得到的噪音和带噪语音的能量差信息(Interaural Intensity Difference,IID)。生成掩蔽过程是对于已得到的IID信息,进行计算得到掩蔽值。掩蔽值平滑模块是对已得到的各个通道的掩蔽值进行滤波,以去除掩蔽估计值的野点,获取更好的听觉效果。语音重建是对于各个频带的语音信号进行重建,以得到处理后的时域语音信号。
参照图4,示出了本发明一种单通道语音增强的方法实施例的流程图,包括:
步骤401,通过语音激活检测从带噪语音信号中提取噪声信号;
采用一路语音信号进行语音激活检测(VAD),其原理如图5所示,其中x(n)是由采集部分采集到的(数字)带噪语音信号,在本发明一个优选实施例中,采样率为16KHZ,采样精度为16bit,信号VAD判断时以帧为单位进行处理,每一帧时长是20ms,帧移是10ms。x(m)(m≥0)是第m帧带噪语音信号,每一帧帧长是L,即x(m)=x[mL,...,mL+L-1]。σ(m)是经过迭代更新的第m帧带噪语音信号的能量谱,λ(m)是经过迭代更新的第m帧噪声能量谱,r(m)是第m帧的后验信噪比,所述噪声指的是带噪语音信号中估算出的噪声。VAD判决结果为噪声时,输出0;VAD判决结果不为噪声时,输出1。
所述步骤401具体包括:
(a)、初始化。在本发明的一个优选实施例中,初始化噪声能量谱值,将前5帧带噪语音信号认为是噪声,即前5帧VAD的值设为0。将麦克采集到的前3帧带噪语音信号的能量谱平均值作为噪声能量谱的初始值。将第4帧带噪语音信号的能量谱值作为带噪语音的能量谱的初始值
(b)、迭代更新。
b1、带噪语音信号的能量谱的迭代更新:
从第4帧开始,依据前一帧的能量谱,对当前帧带噪语音信号的能量谱进行迭代更新,更新方法如式(1)所示:
σ(m)=α|x(m)|2+(1-α)σ(m-1)        (1)
b2、噪声能量谱的迭代更新:
如果当前帧的前一帧的语音激活检测的判决结果不为噪声,则当前帧的噪声能量与前一帧的噪声能量谱相同;如果当前帧的前一帧的语音激活检测的判决结果为噪声,即判决结果为0)则对当前帧的噪声能量进行迭代更新,更新方法如式(2)所示:
λ ( m ) = β | x ( m ) | 2 + ( 1 - β ) λ ( m - 1 ) , VAD ( m - 1 ) = 0 λ ( m - 1 ) , else - - - ( 2 )
其中,在本发明一个优选实施例中,两个迭代因子α和β应分别取0.9与0.01,分别取较大值与较小值是用于跟踪快速变化的带噪语音的变化趋势与噪声的缓变趋势。
(c)、计算后验信噪比。带噪语音信号的能量谱σ(m)中均包含两部分能量,即目标语音能量部分与背景噪声能量部分,σ(m)能量分解表达式如式(3)所示。其中,λd(m)与λx(m)分别表示带噪语音信号中的噪声能量部分与目标声源能量部分。
σ(m)=λd(m)+λx(m)                    (3)
λ(m)是对σ(m)中噪声能量部分的估计,表示成如下式(4)所示:
λ ( m ) = λ d ( m ) ‾ - - - ( 4 )
信号后验信噪比计算如下式(5)所示。
r ( m ) = σ λ = γ ( m ) + ξ ( m ) - - - ( 5 )
其中,
γ ( m ) = λ d ( m ) λ d ( m ) - - - ( 6 )
ξ ( m ) = λ x ( m ) λ d ( m ) - - - ( 7 )
求出后验信噪比r(m)后,与一个预置阈值进行比较,若r(m)大于该预置阈值,则认为第m帧有目标语音;否则,r(m)小于该预置阈值,认为第m帧是纯噪声段,从而输出VAD判决结果进行噪声提取。
步骤402,通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;
人耳的基本结构主要包括外耳、中耳、内耳。其中外耳包括外耳道和鼓膜,鼓膜是中耳的门户。声音经鼓膜传到中耳,中耳主要由锥骨、镫骨、钻骨三块听小骨组成,其对声音的传播起到一个类似于杠杆的放大作用。内耳里最重要的器官是耳蜗,当声音引起内耳的卵圆窗振动后,这种振动通过耳涡内的淋巴液的流动传递。而耳蜗内有细小的毛细胞把淋巴液流动转化为生物电信号产生神经冲动,最后由神经把信息送往大脑进一步处理。
模拟声音由空间路径进行传播以及人的外耳部分对声音的影响我们用的是HRTF(Head Related Transfer Function),这个头相关传输函数是通过一个人头模型采集声音信号,再计算出来的一个传输函数。由于中耳的模拟是与内耳的工作相关的,首先介绍内耳。内耳的第一个过程是进行耳蜗滤波,将声音分解到不同的频带上。例如,可以采用128个滤波器组成的非均匀的gammatone滤波器组,由于各个频带是依据人耳的听觉特性进行划分的,gammatone滤波器组体现了人耳的听觉特性信息。而中耳的工作可以对于各个频率通道按照等响度曲线对gammatone滤波器的增益进行调整来进行模拟。以上模拟人耳的过程称为外围分析。外围分析的基本原理与人耳工作机理的对照示意图如图6所示。
在步骤402中,原有的带噪语音和前一步骤由VAD提取(估计)出的噪声信号作为两路输出信号(频域记为Y1(k)与Y2(k),时域记为y1(n)与y2(n))分别经过外围分析(包括外耳、内耳和中耳的模拟处理)。具体步骤如下:
(a)、对外耳的模拟。对于声音在空间路径中的传播的过程,直接由处于空间中特定位置的两路麦克采集到的语音信号自身体现,假定不考虑外耳部分耳廓与外耳道对于声音信号的影响,则头相关传输函数HRTF可以取1。
(b)、内耳的耳蜗滤波。内耳里的耳蜗滤波由gammatone滤波器组(本发明的优选实施例中,采用128滤波器组成)来进行模拟,它起对语音信号进行分频的作用,相当于一个带通滤波器组。不同的是,它对于频带的划分是依据的人耳的听觉特性、采用等矩形频率带宽ERB(equivalent rectangular bandwidth),类似于bark频率,在低频有较小的带宽,在高频有较大的带宽。各个频率通道的频率带宽ERB与中心频率值fc的关系如式(8)所示,其中c可以取1到128,表示第1到128个频率通道。
ERB(fc)=24.7(4.37fc/1000+1)          (8)
Gammatone滤波器连续时域表达如式(9)所示。
g ( c , t ) = t N - 1 exp ( - 2 πb c t ) cos ( 2 π f c t + φ c ) , if t > 0 0 , else - - - ( 9 )
其中,c为频率通道数,N是滤波器的阶数,bc是与频率带宽相关的衰减因子,fc是第c个频率通道的中心频率,φc是相位值(在本发明一个优选实施例中,可以取0),bc的计算如式(10)所示。
bc=1.019ERB(fc)                     (10)
将外耳、内耳模拟处理后的带噪语音信号y1(n)与噪声信号y2(n)分别与对应的gammatone滤波器组的滤波函数g(c,n)进行离散时间卷积处理,如公式(11)所示,处理结果将分别得到两路信号经过gammatone滤波器组滤波后的128个子带的信号:
yi(c,n)=yi(n)*g(c,n)i=1,2;c=1,2,...,128     (11)
(c)、对中耳的模拟。通过对每个频率通道的gammatone滤波器的增益按照等响度曲线进行调整来模拟,原理如式(12)、(13)、(14)所示。
phon=(loudnesslevelInphones(cf,loudFunc)-DB)        (12)
DB=60                                                (13)
midEarCoeff=10.0phon/20.0                            (14)
其中,loudnesslevelInphones(fc,loudFunc)部分是一个函数,其值为对应一个等响度曲线loudFunc在中心频率fc处对应的一个响度值,单位为phon.由以上三式可以直接得到128个频率通道的中耳系数midEarCoeff(c)(c=1,2,...,128),其作用方式可以直接将该系数附加到对应的频率通道的gammatone滤波器上,通过外围分析所有过程的两路信号的各子带信号以hi(c,n)表示,则最后的输出如式(15)、(16)所示:
h1(c,n)=midEarCoeff(c)·y1(n)*g(c,n)*ghaircell(n)c=1,2,...,128  (15)
h2(c,n)=midEarCoeff(c)·y2(n)*g(c,n)*ghaircell(n)c=1,2,...,128 (16)
其中,h1(c,n)为经外耳、内耳和中耳模拟处理后的带噪语音信号,h2(c,n)为经外耳、内耳和中耳模拟处理后的噪声,midEarCoeff(c)为中耳系数,ghaircell(n)为增益因子。从上式可以看出,所述对带噪语音信号和噪声信号进行中耳的模拟处理,具体为:将带噪语音信号和噪声信号分别乘以中耳系数后,再分别与增益因子进行卷积处理。
为便于后边的特征提取,需对上边两式中各个子带的信号进行分帧,得到模拟处理后带噪语音和噪声信号的第c个频率通道、第m个时间帧、第n个时间点的信号h1(c,m,n)与h2(c,m,n)。
步骤403,通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;
计算模拟处理后的带噪语音信号和噪声信号之间的能量差(Interaural Intensity Difference):对于同一时间帧信号的不同频率通道,也需要分别计算IID值。第c个频率通道、第m时间帧的IID值可以通过式(17)求得。
IID ( c , m ) = 20 log 10 ( Σ n = 0 L - 1 h 1 2 ( c , m , n ) Σ n = 0 L - 1 h 2 2 ( c , m , n ) ) - - - ( 17 )
式中h1(c,m,n),h2(c,m,n)分别代表模拟处理后带噪语音和噪声信号的第c个频率通道、第m个时间帧、第n个时间抽样点的信号大小。对于第c个频率通道、第m个时间帧的位置的语音信号,称为一个时频单元(T-F单元)。IID(c,m)均是由两路语音信号的第c个频率通道、第m个时间帧对应时频单元的两帧信号计算出来的。对于每一个时频单元,对应有一个IID(c,m)信息,它们是后边选择出目标声源语音信息的依据。
步骤404,对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
当声音信息最终由神经传递至大脑后,由人脑根据声音的有关信息,如ITD,IID,IED(耳间信号包络差别)等cue信息,对声音进行选择性分离处理。
计算听觉场景分析CASA在模拟完声音进入人耳的过程之后,通过两路信号的T-F二维语音信息计算提取出各T-F单元的IID等cue信息,然后利用声学掩蔽效应进行语音分离。声学掩蔽效应是一种心理声学现象,它是指在一个较强的声音附近,相对较弱的声音将不被人耳察觉,即被强音所掩蔽。声学掩蔽分为同时掩蔽与异时掩蔽,我们采用同时掩蔽。
首先是着眼于每一个T-F单元进行掩蔽处理。对于某一个T-F单元,如果目标声源的强度大于背景噪声的强度,则认为在这个T-F单元目标声源能够将背景噪声掩蔽掉,保留这个T-F单元信息或是给予一个较大的权值;反之,则认为不能掩蔽掉背景噪声,去掉这一块儿语音信息或是给予其一个较小的权值。为尽可能地保留目标声源语音信息,采用加权而不采用或取或舍的形式。对于目标语音与噪声强度比越大的T-F单元,给越大的权值(即掩蔽值);反之,如果越小,给越小的权值。
每一个T-F单元的信号中的目标语音与噪声的强度比是无法直接得到的,正如前面分析,可以根据IID信息间接得到。当目标语音强度占优时,IID主要体现的是目标语音到麦克的IID值,即实际的IID值会偏向目标语音单独作用时的IID值;反之,IID会偏向背景噪声单独作用时的IID值。据此关系,给定加权掩蔽值的原则是,对于某个T-F单元,若它的IID越接近目标语音单独作用时的IID值,给予较大的权值,即:每一个时频单元对应的能量差越大,加权的掩蔽值越大;若是IID值越远离目标语音单独作用时的IID值时,给予较小的权值,即:每一个时频单元对应的能量差IID(c,m)越小,加权的掩蔽值越小。
如果每一个T-F单元都按如上进行掩蔽处理,这样的总体效果就是目标声源得到保留或是增强,噪声得到了抑制,从而将目标语音从带噪语音中分离出来,达到了去噪效果。
步骤405,利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
如图7所示,为语音信号的重建过程示意图,重建过程是对带噪语音信号(目标声源强度更大的一路信号)作用波束形成初步增强的输出信号进行掩蔽值处理,最后再合成语音信号作为输出。主要步骤如下:
(a)、将掩蔽处理信号和模拟处理后的带噪语音信号相乘,得到待重建信号;
(b)、针对待重建信号,依次进行gammatone滤波器组滤波、各个频率通道信号的时间反折、再一次gammatone滤波、再一次各个频率通道信号的时间反折。这个过程的主要作用是对待重建信号进行gammatone滤波,分频为128个频率通道的同时,增加两次反折处理与一次gammatone处理来消除gammatone滤波器组对于不同频通道的延时的影响。
(c)、针对滤波、反折后的待重建信号进行分帧和加窗处理。在本发明的一个优选实施例中,分帧时每帧20ms时长,帧叠10ms,加窗时采用汉明窗。
(d)、掩蔽值处理。针对分帧、加窗处理后的待重建信号的每一个T-F单元加权对应的掩蔽值,每个T-F单元的掩蔽值与步骤404得到的掩蔽值相同。
(e)、重叠相加,再累加。先将各个频率通道的不同的时间帧信号进行重叠相加,得到该频率通道的重建信号,再对128个频率通道的语音信号对应样点累加,得到最后语音频带的重建信号,作为最后的输出结果。到此,我处理过程结束,输出信号即为增强后的语音信号。
需要说明的是,在本发明的一个优选实施例中,在步骤404中生成掩蔽值后,还包括:对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。掩蔽值的平滑处理是对已得到的各个通道的掩蔽值进行滤波,以去除掩蔽估计值的野点,获取更好的听觉效果。由于我们的掩蔽处理是对于一个个T-F单元分别进行处理的,因而,相邻的T-F单元之间处理后会存在一定的不连续性,所以需要对掩蔽值进行平滑处理。通过对掩蔽值进行频谱分析,其频率成份主要集中在10HZ以下。在本发明的优选实施例中,设计一个数字滤波器,其3db带宽为10HZ,截止频率为50HZ,在50HZ以后幅值下降到80db。
参照图8,示出了本发明一种单通道语音增强的系统实施例的结构图,包括:
语音激活检测模块801,用于通过语音激活检测从带噪语音信号中提取噪声信号;
外围分析模块802,用于通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;
特征提取模块803,用于通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;
掩蔽处理模块804,用于对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
语音重建模块805,用于利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
在本发明的一个优选实施例中,所述掩蔽处理模块还包括:
掩蔽平滑子模块,用于对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种单通道语音增强的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种单通道语音增强的方法,其特征在于,包括:
通过语音激活检测从带噪语音信号中提取噪声信号;
通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;
通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;
对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
2.如权利要求1所述的方法,其特征在于,所述通过语音激活检测从带噪语音信号中提取噪声信号,包括:
依据前一帧的能量谱,对当前帧带噪语音信号的能量谱进行迭代更新,更新方法为:σ(m)=α|x(m)|2+(1-α)σ(m-1);
如果当前帧的前一帧的语音激活检测的判决结果不为噪声,则当前帧的噪声能量与前一帧的噪声能量谱相同;如果当前帧的前一帧的语音激活检测的判决结果为噪声,则对当前帧的噪声能量进行迭代更新,更新方法为:
λ(m)=β|x(m)|2+(1-β)λ(m-1);
依据带噪语音信号的能量谱和噪声能量谱计算每一帧的后验信噪比,当所述后验信噪比小于预置阈值时,将当前帧的带噪语音信号作为噪声并进行提取;
其中,σ(m)为经迭代更新的第m帧带噪语音信号的能量谱,λ(m)是经迭代更新的第m帧噪声能量谱,x(m)为第m帧带噪语音信号,α和β分别为迭代因子。
3.如权利要求2所述的方法,其特征在于,
将前5帧带噪语音信号作为噪声;
前3帧带噪语音信号的能量谱平均值作为噪声能量谱的初始值;
第4帧带噪语音信号的能量谱值作为带噪语音的能量谱的初始值;
从第4帧开始,对当前帧带噪语音信号的能量谱σ(m)进行迭代更新。
4.如权利要求1所述的方法,其特征在于,所述对带噪语音信号和噪声信号进行外耳的模拟处理,具体为:
头相关传输函数取值为1。
5.如权利要求4所述的方法,其特征在于,所述对带噪语音信号和噪声信号进行内耳的模拟处理,具体为:
将带噪语音信号和噪声信号分别与gammatone滤波器组的滤波函数g(c,n)进行离散时间卷积处理:yi(c,n)=yi(n)*g(c,n)i=1,2;c=1,2,...,128;
其中,y1(n)为带噪语音信号,y2(n)为噪声信号,y1(c,n)为内耳模拟处理后的带噪语音信号,y2(c,n)为内耳模拟处理后的噪声信号;
g ( c , t ) = t N - 1 exp ( - 2 πb c t ) cos ( 2 π f c t + φ c ) , if t > 0 0 , else ;
ERB(fc)=24.7(4.37fc/1000+1),bc=1.019ERB(fc);
c为频率通道数,N是滤波器的阶数,bc是与频率带宽相关的衰减因子,fc是第c个频率通道的中心频率,φc是相位值,ERB为频率带宽。
6.如权利要求5所述的方法,其特征在于,所述对带噪语音信号和噪声信号进行中耳的模拟处理,具体为:
将带噪语音信号和噪声信号分别乘以中耳系数后,再分别与增益因子进行卷积处理;
其中,中耳系数midEarCoeff=10.0phon/20.0
phon=(loudnesslevelInphones(cf,loudFunc)-DB),DB=60;
loudnesslevelInphones(fc,loudFunc)为等响度曲线loudFunc在中心频率fc处对应的响度值。
7.如权利要求6所述的方法,其特征在于,所述通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差,具体为:
IID ( c , m ) = 20 log 10 ( Σ n = 0 L - 1 h 1 2 ( c , m , n ) Σ n = 0 L - 1 h 2 2 ( c , m , n ) )
其中,IID(c,m)为每一个时频单元的能量差,h1(c,m,n),h2(c,m,n)分别为模拟处理后带噪语音和噪声信号的第c个频率通道、第m个时间帧、第n个时间点的信号,L为每一帧的帧长。
8.如权利要求1所述的方法,其特征在于,所述对每一个时频单元的能量差加权不同的掩蔽值,具体为:
每一个时频单元对应的能量差越大,加权的掩蔽值越大;每一个时频单元对应的能量差越小,加权的掩蔽值越小。
9.如权利要求1所述的方法,其特征在于,生成掩蔽值后,还包括:
对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
10.一种单通道语音增强的系统,其特征在于,包括:
语音激活检测模块,用于通过语音激活检测从带噪语音信号中提取噪声信号;
外围分析模块,用于通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;
特征提取模块,用于通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;
掩蔽处理模块,用于对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
语音重建模块,用于利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
11.如权利要求10所述的系统,其特征在于,所述掩蔽处理模块还包括:
掩蔽平滑子模块,用于对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
CN201110067058A 2011-03-21 2011-03-21 一种单通道语音增强的方法和系统 Expired - Fee Related CN102157156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110067058A CN102157156B (zh) 2011-03-21 2011-03-21 一种单通道语音增强的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110067058A CN102157156B (zh) 2011-03-21 2011-03-21 一种单通道语音增强的方法和系统

Publications (2)

Publication Number Publication Date
CN102157156A true CN102157156A (zh) 2011-08-17
CN102157156B CN102157156B (zh) 2012-10-10

Family

ID=44438618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110067058A Expired - Fee Related CN102157156B (zh) 2011-03-21 2011-03-21 一种单通道语音增强的方法和系统

Country Status (1)

Country Link
CN (1) CN102157156B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625207A (zh) * 2012-03-19 2012-08-01 中国人民解放军总后勤部军需装备研究所 一种主动式噪声防护耳塞及其声音信号处理方法
CN103325380A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 用于信号增强的增益后处理
CN103594091A (zh) * 2013-11-15 2014-02-19 深圳市中兴移动通信有限公司 一种移动终端及其语音信号处理方法
CN103632677A (zh) * 2013-11-27 2014-03-12 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
CN104064196A (zh) * 2014-06-20 2014-09-24 哈尔滨工业大学深圳研究生院 一种基于语音前端噪声消除的提高语音识别准确率的方法
CN104464745A (zh) * 2014-12-17 2015-03-25 中航华东光电(上海)有限公司 一种双通道语音增强系统及其方法
CN104521212A (zh) * 2013-07-25 2015-04-15 华为技术有限公司 信号重建方法和装置
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置
CN108806707A (zh) * 2018-06-11 2018-11-13 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN111028851A (zh) * 2018-10-10 2020-04-17 塞舌尔商元鼎音讯股份有限公司 声音播放装置及其降低噪音的方法
CN111370017A (zh) * 2020-03-18 2020-07-03 苏宁云计算有限公司 一种语音增强方法、装置、系统
CN112669877A (zh) * 2020-09-09 2021-04-16 珠海市杰理科技股份有限公司 噪声检测及压制方法、装置、终端设备和系统、芯片
CN113823307A (zh) * 2021-09-17 2021-12-21 广州华多网络科技有限公司 语音信号处理方法及其装置、设备、介质、产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967659A (zh) * 2005-11-14 2007-05-23 北京大学科技开发部 用于助听器的语音增强方法
WO2009043066A1 (en) * 2007-10-02 2009-04-09 Akg Acoustics Gmbh Method and device for low-latency auditory model-based single-channel speech enhancement
CN101777349A (zh) * 2009-12-08 2010-07-14 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
CN101778322A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967659A (zh) * 2005-11-14 2007-05-23 北京大学科技开发部 用于助听器的语音增强方法
WO2009043066A1 (en) * 2007-10-02 2009-04-09 Akg Acoustics Gmbh Method and device for low-latency auditory model-based single-channel speech enhancement
CN101778322A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
CN101777349A (zh) * 2009-12-08 2010-07-14 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 19990331 Nathalie Virag Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System 126-137 1-11 第7卷, 第2期 2 *
《计算机工程》 20071231 李鸿燕等 基于独立分量分析的单通道语音增强算法 35-37 1-11 第33卷, 第24期 2 *
《计算机工程与应用》 20101231 潘欣裕等 Gammatone与Wiener滤波联合语音增强研究 14-16,52 1-11 第46卷, 第26期 2 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625207A (zh) * 2012-03-19 2012-08-01 中国人民解放军总后勤部军需装备研究所 一种主动式噪声防护耳塞及其声音信号处理方法
CN103325380A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 用于信号增强的增益后处理
US11308976B2 (en) 2012-03-23 2022-04-19 Dolby Laboratories Licensing Corporation Post-processing gains for signal enhancement
US10311891B2 (en) 2012-03-23 2019-06-04 Dolby Laboratories Licensing Corporation Post-processing gains for signal enhancement
US10902865B2 (en) 2012-03-23 2021-01-26 Dolby Laboratories Licensing Corporation Post-processing gains for signal enhancement
US11694711B2 (en) 2012-03-23 2023-07-04 Dolby Laboratories Licensing Corporation Post-processing gains for signal enhancement
CN104521212A (zh) * 2013-07-25 2015-04-15 华为技术有限公司 信号重建方法和装置
CN104521212B (zh) * 2013-07-25 2017-08-11 华为技术有限公司 信号重建方法和装置
CN103594091B (zh) * 2013-11-15 2017-06-30 努比亚技术有限公司 一种移动终端及其语音信号处理方法
CN103594091A (zh) * 2013-11-15 2014-02-19 深圳市中兴移动通信有限公司 一种移动终端及其语音信号处理方法
CN103632677A (zh) * 2013-11-27 2014-03-12 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
WO2015078268A1 (en) * 2013-11-27 2015-06-04 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
US9978391B2 (en) 2013-11-27 2018-05-22 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置
CN105096961B (zh) * 2014-05-06 2019-02-01 华为技术有限公司 语音分离方法和装置
CN104064196B (zh) * 2014-06-20 2017-08-01 哈尔滨工业大学深圳研究生院 一种基于语音前端噪声消除的提高语音识别准确率的方法
CN104064196A (zh) * 2014-06-20 2014-09-24 哈尔滨工业大学深圳研究生院 一种基于语音前端噪声消除的提高语音识别准确率的方法
CN104464745A (zh) * 2014-12-17 2015-03-25 中航华东光电(上海)有限公司 一种双通道语音增强系统及其方法
CN108806707A (zh) * 2018-06-11 2018-11-13 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
US10839820B2 (en) 2018-06-11 2020-11-17 Baidu Online Network Technology (Beijing) Co., Ltd. Voice processing method, apparatus, device and storage medium
CN109839612B (zh) * 2018-08-31 2022-03-01 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN111028851A (zh) * 2018-10-10 2020-04-17 塞舌尔商元鼎音讯股份有限公司 声音播放装置及其降低噪音的方法
CN111028851B (zh) * 2018-10-10 2023-05-12 达发科技股份有限公司 声音播放装置及其降低噪音的方法
CN109448751A (zh) * 2018-12-29 2019-03-08 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN111370017A (zh) * 2020-03-18 2020-07-03 苏宁云计算有限公司 一种语音增强方法、装置、系统
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、系统
CN112669877A (zh) * 2020-09-09 2021-04-16 珠海市杰理科技股份有限公司 噪声检测及压制方法、装置、终端设备和系统、芯片
CN112669877B (zh) * 2020-09-09 2023-09-29 珠海市杰理科技股份有限公司 噪声检测及压制方法、装置、终端设备和系统、芯片
CN113823307A (zh) * 2021-09-17 2021-12-21 广州华多网络科技有限公司 语音信号处理方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN102157156B (zh) 2012-10-10

Similar Documents

Publication Publication Date Title
CN102157156B (zh) 一种单通道语音增强的方法和系统
CN102456351A (zh) 一种语音增强的系统
Lai et al. Deep learning–based noise reduction approach to improve speech intelligibility for cochlear implant recipients
Goehring et al. Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants
CN103778920B (zh) 数字助听器中语音增强和频响补偿相融合方法
Stern et al. Hearing is believing: Biologically inspired methods for robust automatic speech recognition
CN111128214B (zh) 音频降噪方法、装置、电子设备及介质
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN109584903A (zh) 一种基于深度学习的多人语音分离方法
CN105679330B (zh) 基于改进子带信噪比估计的数字助听器降噪方法
Roman et al. Pitch-based monaural segregation of reverberant speech
CN104575511A (zh) 语音增强方法及装置
Mourao et al. Speech intelligibility for cochlear implant users with the MMSE noise-reduction time-frequency mask
CN103731780A (zh) 数字助听器信号处理方法
Shoba et al. Adaptive energy threshold for monaural speech separation
Çolak et al. A novel voice activity detection for multi-channel noise reduction
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN110010150A (zh) 基于多分辨率的听觉感知语音特征参数提取方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
CN113571074A (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
Sun et al. An RNN-based speech enhancement method for a binaural hearing aid system
Yang et al. Spatial-cue-based multi-band binaural noise reduction for hearing aids
CN114078481A (zh) 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备
Jiang et al. Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation
Song et al. Research on Digital Hearing Aid Speech Enhancement Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: WUXI APPLICATION TECHNOLOGY RESEARCH INSTITUTE OF

Free format text: FORMER OWNER: TSINGHUA UNIVERSITY

Effective date: 20130724

Owner name: TSINGHUA UNIVERSITY

Effective date: 20130724

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100084 HAIDIAN, BEIJING TO: 214072 WUXI, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130724

Address after: 214072 Jiangsu Province Road DiCui Binhu District of Wuxi City No. 100, No. 1 building, 530 floor 12

Patentee after: WUXI RESEARCH INSTITUTE OF APPLIED TECHNOLOGIES, TSINGHUA UNIVERSITY

Patentee after: Tsinghua University

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee before: Tsinghua University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121010

Termination date: 20170321

CF01 Termination of patent right due to non-payment of annual fee