CN103778920B - 数字助听器中语音增强和频响补偿相融合方法 - Google Patents

数字助听器中语音增强和频响补偿相融合方法 Download PDF

Info

Publication number
CN103778920B
CN103778920B CN201410049180.2A CN201410049180A CN103778920B CN 103778920 B CN103778920 B CN 103778920B CN 201410049180 A CN201410049180 A CN 201410049180A CN 103778920 B CN103778920 B CN 103778920B
Authority
CN
China
Prior art keywords
signal
lambda
frequency
frame
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410049180.2A
Other languages
English (en)
Other versions
CN103778920A (zh
Inventor
李如玮
曹龙涛
鲍长春
吴水才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science and technology innovation service center of Hunan Miluo circular economy industrial park
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410049180.2A priority Critical patent/CN103778920B/zh
Publication of CN103778920A publication Critical patent/CN103778920A/zh
Application granted granted Critical
Publication of CN103778920B publication Critical patent/CN103778920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提出了数字助听器中语音增强和频响补偿相融合方法。该方法首先,采用MCRA法获得估计噪声和初步增强语音;将估计噪声和初步增强语音分别通过gammatone滤波器组进行滤波处理,利用耳蜗对信号的感知机理,把信号分为M个频带,同时得到信号的时频表示形式;然后,利用人耳的听觉掩蔽特性和频带信噪比等因素计算各个频带的掩蔽阈值;其次,利用耳障者的听力曲线动态地计算含噪语音在时频域的掩蔽值,使语音增强和频响补偿同时处理;最后,利用掩蔽值合成助听器输出语音。该算法充分利用了人耳的工作机理,保留了语音特征,去除了谱减法引入的“音乐噪声”,使助听器输出信号的可懂度得到很大的提高,低复杂度,低功耗。

Description

数字助听器中语音增强和频响补偿相融合方法
技术领域
本发明属于语音信号处理技术领域,涉及到数字助听器中语音增强和频响补偿两个关键的语音信号处理技术。
背景技术
耳障已经成为世界性问题,但在目前的医疗条件下,对于大多数耳障者,选配合适的数字助听器是有效提高其听力水平的最好的方法。随着近几十年来科学技术的迅速发展,数字助听器的性能得到了不断的完善,数字助听器的基本工作原理,如图2所示,外界的声音信号,进入麦克风从声能转化成电能,通过模/数转化器转化为数字信号,然后在数字微处理器和数字滤波器中运用预先设置好的运算法则对这一数字信号进行计算,一个计算法则是一系列确认和计算的过程,数字化助听器需要有尽可能多的字符,利用不同的运算关系的数据符来进行计算与判断,以获得对某种听力损失性质的再现。计算法则同样被用于标定数字化助听器中的处理器,以满足在特定条件中应进行的切换或调整。助听器独立执行的分析通过应用计算法则来实施和鉴定。处理后的数字电信号需要经过数/模转换器转换成模拟电信号,最后由受话器再将其转化为声能输入至佩戴者耳中。
在整个数字助听器工作过程中,DSP中的算法是数字助听器的核心内容,而算法也是根据耳障者的病症提出的。比如,耳障者的病症主要病症为:听域上升,言语识别率降低。对于以上症状,提出频响补偿算法来解决耳障者听域上升的问题,但是,在噪声环境下,仅采用频响补偿算法还是不能提高数字助听器佩戴者的言语可懂度,因此,在频响补偿算法之前还需要采用语音增强算法消除背景噪声,从而实现更好的提高数字助听器佩戴者的言语可懂度。另外,为了保持数字助听器的稳定性,还需反馈消除算法,防止数字助听器“啸叫”。除此之外,在高性能的助听器还有一些声源定位等算法。在以上分析的算法中,频响补偿和语音增强是数字助听器中十分重要和关键的两项技术,这两种技术直接决定着数字助听器性能的优劣。
在噪声环境下,一些语音增强算法对言语可懂度的提高程度仍十分有限。因此,环境噪声是数字助听器设计中的最大障碍。目前大多数数字助听器中采用的语音增强方法是谱减法,该方法在去除噪声的同时会产生“音乐噪声”,导致在数字助听器的频响补偿阶段,语音幅度放大的同时噪声也放大,不利于助听器提高耳障者对言语的可懂度,严重影响助听器的效果。对于频响补偿技术,几乎所有的数字助听器都采用了多通道频响补偿的方案。多通道频响补偿方法利用滤波器组将信号整个频段分为N通道,然后在各个通道内,根据患者听力损伤的情况对不同频段加以不同的放大处理,最后再将不同频率的声音段合成在一起,形成完整的声音。由于多通道不同的压缩比率使听力补偿更吻合患者听力损失情况。但是,由于子带划分会在频带交界处带来的信号失真,同时使语音的共振峰发生形变,破坏了语音的结构,不利于可懂度的提高。共振峰是区别不同元音最主要的特征,对提高耳聋患者的语言识别率具有重要意义。
由于数字助听器是一种便携式设备,同时它也需要很高的实时性,因此,数字助听器对算法有一定的特殊要求,比如,算法低复杂度,低功耗和实时性等要求。最终让数字助听器佩戴者有最高的言语可懂度和听觉舒适度。其中语音增强和频响补偿两个技术是影响数字助听器佩戴者舒适度和可懂度十分关键的技术。对于大多数数字助听器中的语音增强和频响补偿两种技术是相互独立的,这无形中增加了数字助听器算法的复杂度。
本发明提出一种语音增强和频响补偿相融合的数字助听器算法,该算法结合谱减法和时频掩蔽的优点,首先,分析非平稳噪声的时频特性,研究在不同噪声环境下的噪声估计准确度,并优化时频掩蔽阈值,减少语音信号的失真;然后,依据耳障者的病变机理,结合VAD和耳障者的听力曲线动态地调整不同通道的掩蔽值,使语音增强和频响补偿同时处理,减少算法复杂度;最后,利用掩蔽值合成语音信号。
发明内容
本发明针对现有的数字助听器语音增强算法在非平稳噪声环境下,残留大量背景噪声还引入了“音乐噪声”,同时大多数多通道频响补偿算法使语音结构发生失真,致使数字助听器佩戴者对言语可懂度和舒适度不理想等问题,提出了一种语音增强和频响补偿两种技术相融合的方法,该算法充分利用了人耳的工作机理,保留了语音特征,去除了谱减法引入的“音乐噪声”,使助听器输出信号的可懂度得到很大的提高;由于此算法是在谱减法的基础上进行了,因此,算法实现简单,低复杂度,低功耗。
为了解决以上所述的问题,本发明采用的技术方案是:基于可以模拟人耳听觉系统中的基底膜和听觉神经的工作机理的gammatone滤波器和meddis的内毛细胞模型,把信号频带非均匀地分为N个通道的频响补偿算法,以及利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,最终实现语音增强和频响补偿相融合。具体过程包括步骤如下:
步骤一,数字助听器的输入信号进行预处理,首先对输入信号进行分帧处理,然后计算每帧信号的频谱;
步骤二,提取含噪语音信号的相位信息,利用人耳对相位信息的改变并不敏感,因此,利用含噪语音信号的相位信息代替最终合成的语音信号的相位;
步骤三,在每帧信号的频域范围内,估计含噪信号的噪声幅度谱;
步骤四,利用谱减法的基本思想,让含噪语音信号的幅度谱减去估计噪声的幅度谱,得到初步增强的语音幅度谱;
步骤五,傅里叶逆变换,初步增强的语音幅度谱和估计噪声幅度谱分别乘以含噪语音的相位,然后通过傅里叶逆变换分别得到初步增强的语音信号和估计噪声信号;
步骤六,时频分析,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把初步增强的语音信号和估计噪声信号的频谱范围非均匀地分为M个频带;
步骤七,计算频带信噪比,计算初步增强语音信号通过时频分析得到的M个频带的信噪比;
步骤八,计算掩蔽域值,利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性,计算不同频带的掩蔽域值;
步骤九,测试耳障者的听域曲线和痛域曲线,利用不同频率特征点测试耳障者的听域声压级和痛域声压级,然后利用插值的方法得到整个频率范围的听力曲线;
步骤十,计算掩蔽值,利用步骤八和步骤九得到的掩蔽阈值和听力曲线,动态地调整掩蔽值的大小;
步骤十一,时频掩蔽,利用步骤十得到的掩蔽值得到最终的输出信号。
本发明提出了数字助听器中语音增强和频响补偿相融合方法。该方法利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理。首先,采用最小值控制递归平均(Minima-ControlledRecursiveAveraging,MCRA)算法获得估计噪声和初步增强语音;接着,将估计噪声和初步增强语音分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,利用耳蜗对信号的感知机理,把信号分为M个频带,同时得到信号的时频表示形式;然后,利用人耳的听觉掩蔽特性和频带信噪比等因素计算各个频带的掩蔽阈值;其次,利用耳障者的听力曲线和VAD(VoiceActivityDetection)动态地计算含噪语音在时频域的掩蔽值,使语音增强和频响补偿同时处理;最后,利用掩蔽值合成助听器输出语音。该算法充分利用了人耳的工作机理,保留了语音特征,去除了谱减法引入的“音乐噪声”,使助听器输出信号的可懂度得到很大的提高;由于此算法是在谱减法的基础上进行了,因此,算法实现简单,低复杂度,低功耗。
附图说明
图1本发明的实现流程图
图2gammatone滤波器组中每个滤波器的频率相应
图3gammatone滤波器组中每个滤波器合成后的频率相应
具体实施方式
步骤一,数字助听器输入的含噪信号进行预处理,首先对输入的含噪信号进行分帧处理,然后计算每帧信号的频谱;
(1)数字助听器输入的含噪信号y(t),t表示时间,在模数转换过程中,采用16kHz的采样率,输出表示为时域数字信号y(n),n表示的序列号;
(2)含噪信号y(n)通过哈明窗进行分帧,取320点即20ms为一帧,帧移为160点即10ms,可采用式(1)进行分帧,得到每帧信号y(λ,n);
y ( λ , n ) = y ( n ) w ( n - λ N 2 ) - - - ( 1 )
式(1)中λ表示帧的序列号,N表示采样点数,其中N的取值为320,则y(λ,n)表示含噪信号y(n)经过哈明窗分帧后得到的第λ帧含噪信号;式中w(n)表示哈明窗,如式(2)所示,表示计算第λ帧时,哈明窗平移
w ( n ) = [ 0.54 - 0.46 cos ( 2 πn N - 1 ) if 0 ≤ n ≤ N - 1 0 else - - - ( 2 )
(3)每帧含噪信号的频谱通过对每帧含噪信号y(λ,n)进行2N点离散傅里叶变换得到,如式(3)所示:
Y ( λ , k ) = 1 2 N Σ n = 0 2 N - 1 y ( λ , n ) e - j 2 πkn 2 N k = 0,1 , · · · , 2 N - 1 - - - ( 3 )
式(3)中Y(λ,k)表示第λ帧在频率点为k处的频谱,j是虚部;
步骤二,通过步骤一得到每帧含噪信号的频域表示形式Y(λ,k),利用人耳对相位信息的改变并不敏感,提取含噪语音信号的相位信息θn(λ),把含噪语音信号的相位信息保留下来,利用含噪语音信号的相位信息代替最终合成的语音信号的相位;
步骤三,在每帧含噪信号的频域表示形式下,估计每帧含噪信号的噪声幅度谱D(λ,k);
本发明利用最小值控制递归平均(Minima-ControlledRecursiveAveraging,MCRA)方法进行噪声估计,该方法在噪声估计时考虑了语音存在概率,对清音及过渡成分能够有效减小噪声的过估计,并能快速跟踪急剧变化的噪声,对平稳噪声和非平稳噪声都有比较好的鲁棒性,能够减小信号失真。
此算法中,当前分析帧的噪声功率谱估计是基于公式(4)的两个修正假设:当语音不存在时,对当前分析帧的噪声功率谱进行更新,否则,噪声功率谱不变。
H 0 k : D ^ 2 ( λ , k ) = α D ^ 2 ( λ - 1 , k ) + ( 1 - α ) | Y ( λ , k ) | 2 H 1 k : D ^ 2 ( λ , k ) = D ^ 2 ( λ - 1 , k ) - - - ( 4 )
其中,表示语音不存在,表示语音存在,λ表示分帧后帧信号的序列号,k表示离散频率点的序列号,表示当前分析的第λ帧在频率点k处的噪声估计功率谱。α是一个固定常数,代表前一帧噪声估计对当前噪声估计的影响权重,本发明中α取值为0.97;|Y(λ,k)|2表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱。
估计噪声功率谱可以通过公式(5)计算得到:
D ^ 2 ( λ , k ) = E [ D ^ 2 ( λ , k ) | Y ( λ , k ) ] = E [ D ^ 2 ( λ , k ) | H 0 ] p ( H 0 | Y ( λ , k ) + E [ D ^ 2 ( λ , k ) | H 1 ] p ( H 1 | Y ( λ , k ) - - - ( 5 )
式(5)中,E[·]表示求期望,p(H0|Y(λ,k)表示给定含噪语音频谱信息Y(λ,k)时,语音不存在的概率,p(H1|Y(λ,k)表示给定含噪语音频谱信息Y(λ,k)时,语音存在的概率。对于这两个条件概率,有以下已知关系:p(H0|Y(λ,k)+p(H1|Y(λ,k)=1,因此式(5)可以改写为式(6):
D ^ 2 ( λ , k ) = E [ D ^ 2 ( λ , k ) | Y ( λ , k ) ] = E [ D ^ 2 ( λ , k ) | H 1 ] p ( H 1 | Y ( λ , k ) + E [ D ^ 2 ( λ , k ) | H 0 ] ( 1 - p ( H 1 | Y ( λ , k ) ) - - - ( 6 )
将式(4)代入式(6)中,即有:
D ^ 2 ( λ , k ) = α d ( λ , k ) D ^ 2 ( λ - 1 , k ) + ( 1 - α d ( λ , k ) ) | Y ( λ , k ) | 2 - - - ( 7 )
式中,表示当前分析的λ帧在频率点k处的噪声估计功率谱。|Y(λ,k)|2表示当前分析的λ帧中频点k处含噪语音信号的功率谱。αd(λ,k)=α+(1-α)p(λ,k)代表前一帧噪声估计对当前帧噪声估计的影响权重,α是一个固定常数,本发明中α取值为0.97,其中p(λ,k)=p(H1|Y(λ,k))表示语音存在的概率。因此,需要进一步计算语音存在的概率p(λ,k)。
语音存在概率p(λ,k)由当前时刻含噪语音信号功率谱与功率谱最小值的比值进行估计。首先将含噪语音信号的功率谱进行频域上的平滑得到Sf(λ,k),采用式(8)计算:
S f ( λ , k ) = Σ n = - L w L w w ( n ) | Y ( λ , k - n ) | 2 - - - ( 8 )
其中,w(n)是长度为2Lw+1的哈明窗,本发明中Lw取1,n表示序列号,Y(λ,k-n)表示当前分析的第λ帧中频点k处进行n个单位的平移。
然后对Sf(λ,k)进行时域平滑得到S(λ,k),采用式(9)计算:
S(λ,k)=αsS(λ-1)+(1-αs)Sf(λ,k)(9)
其中,αs为平滑因子,表示前一帧的平滑功率谱对当前帧的平滑功率谱的影响权重,本发明中αs取值为0.6;。最后得到当前帧含噪语音的功率值与最小功率值的比值,记为Sr(λ,k):
S r ( λ , k ) = S ( λ , k ) S min ( λ , k ) - - - ( 10 )
其中,Smin(λ,k)为当前时刻含噪语音功率谱的最小值,其采用一种有效的搜索方法,该方法在一个长度为D的窗口内搜索功率谱的最小值,其搜索过程如下:
if mod ( λ D ) = 0
Pmin(λ,k)=min{Ptmp(λ-1,k),P(λ,k)}
Ptmp(λ,k)=P(λ,k)
else
Pmin(λ,k)=min{Pmin(λ-1,k),P(λ,k)}
Ptmp(λ,k)=min{Ptmp(λ-1,k),P(λ,k)}
end
其中,λ是帧号,D是搜索窗口的长度,本发明中D取值为20;是将λ对D球模,Ptmp(λ,k)是当前搜索窗口中频点k处的功率谱最小值,Pmin(λ,k)是各个搜索窗中连续进行更新的功率谱最小值。
之后,通过将Sr(λ,k)与一个特定的阈值δ相比,本发明中阈值δ取值为2.25,可以得到当前分析帧在频率点k处的局部语音存在概率p,其表达式为:
ifSr(λ,k)≥δ
p=1表示语音存在
ifSr(λ,k)≤δ
p=0表示语音不存在
end
最终,将得到的概率谱p通过平滑因子为αp的平滑运算,将得到的概率p(λ,k),本发明中αp取值为0.2:
p(λ,k)=αpp(λ-1,k)+(1-αp)p(11)
通过以上过程,最终得到了语音存在概率p(λ,k)的估计。最后,把公式(11)带入公式(7)中,得到估计噪声功率谱最后对噪声功率谱进行开方得到估计噪声的幅度谱
步骤四,由步骤三得到估计噪声的幅度谱然后利用谱减法的基本思想,让含每帧含噪语音信号的幅度谱减去每帧估计噪声的幅度谱,得到每帧初步增强的语音幅度谱|s1(λ,n)|;
为了更好地得到每帧初步增强语音信号s1(λ,n),其利用步骤三得到的估计噪声幅度谱采用一种过谱减算法,对含噪语音进行初步增强;该算法引入了过谱减系数和谱地板系数两个参数,算法如式(18)所示;
| S 1 ( λ , k ) | 2 = | Y ( λ , k ) | 2 - α s ( λ ) | D ( λ , k ) | 2 if | Y ( λ , k ) | 2 > ( α s ( λ ) + β s ) | D ( λ , k ) | 2 β s | D ( λ , k ) | 2 else - - - ( 18 )
式中,αs(λ)是过减系数,取值范围是αs(λ)≥1,其随着不同帧的信噪比而发生变化;βs是谱地板系数,取值范围是0<βs≤1,本发明中βs取值为0.2;过减系数αs(λ)决定了算法对语音成分造成的损失程度。当αs(λ)取值较小时,由算法造成的语音失真较小;当αs(λ)取值较大时,算法造成的语音失真较大,但同时残留的“音乐噪声”音调结构也就越就不显。谱地板系数βs影响着增强语音中背景噪声的残留量,如果βs取值较大,残留的背景噪声也就越多;如果βs取值较小,背景噪声的残留量也就越少。
为了达到较好的增强效果,过减系数αs(λ)的选择应遵循如下规则:信噪比(SNR)高的部分,αs(λ)取值较小;信噪比(SNR)的部分,αs(λ)取值较大;这充分考虑了αs(λ)和语音失真度的联系,信噪比高的部分应该保留较高的语音质量,那么所允许的语音失真度应该较小;信噪比低的部分,应该最大限度的提取语音信息,在保证语音可懂度的前提下允许一定的语音失真。因此,αs(λ)采用式(19)计算得到:
&alpha; s ( &lambda; ) = &alpha; 0 - 3 20 SNR post ( &lambda; ) - 5 dB &le; SNR post ( &lambda; ) &le; 20 dB - - - ( 19 )
式中,α0是含噪语音的信噪比为0dB时对应的过减系数,本发明中α0取值为6;SNR是一帧信号的信噪比,其定义如下:
SNR post ( &lambda; ) = &Sigma; k = 0 2 N - 1 | Y ( &lambda; , k ) | 2 &Sigma; k = 0 2 N - 1 | D ( &lambda; , k ) | 2 - - - ( 20 )
步骤五,傅里叶逆变换,由步骤三得到的估计噪声幅度谱和步骤四得到的初步增强的语音幅度谱|S1(λ,k)|分别乘以由步骤二得到的含噪语音的相位θn(λ),得到估计噪声和S1(λ,k),然后通过公式(21)(22)傅里叶逆变换分别得到每帧初步增强的语音信号和估计噪声信号;
s 1 ( &lambda; , n ) = 1 2 N &Sigma; k = 0 2 N - 1 S 1 ( &lambda; , k ) e j 2 &pi;kn 2 N n = 0,1 , &CenterDot; &CenterDot; &CenterDot; , 2 N - 1 - - - ( 21 )
d ^ ( &lambda; , n ) = 1 2 N &Sigma; k = 0 2 N - 1 D ^ ( &lambda; , k ) e j 2 &pi;kn 2 N n = 0,1 , &CenterDot; &CenterDot; &CenterDot; , 2 N - 1 - - - ( 22 )
步骤六,时频分析,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把步骤五得到初步增强的语音信号s1(λ,n)和估计噪声信号d(λ,n)在频域范围内非均匀地分为M个频带,M为128个频带,采用公式(23)(24)得到:
Bands(λ,i,n)=s1(λ,n)*g(n,f(i))i=1,2,…128(23)
Band d ( &lambda; , i , n ) = d ^ ( &lambda; , n ) * g ( n , f ( i ) ) i = 1,2 , &CenterDot; &CenterDot; &CenterDot; 128 - - - ( 24 )
式(23)中,Bands(λ,i,n)表示初步增强语音信号s1(λ,n)在第λ帧的第i频带的信号;同理,Bandd(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号;g(n,f(i))表示gammatone滤波器组,其中心频率为f(i),本发明采用的gammatone滤波器组在下文展开解释。
本发明采用一种gammatone滤波器组对耳蜗中的基底膜进行仿真,用此滤波器组对输入的信号进行滤波。由于耳蜗是人耳听觉系统中重要的器官,而基底膜是耳蜗感知声音的重要组织。基底膜对声音具有频谱分析特性:对于输入复合音信号,基底膜能够把不同频率转化为不同的耳蜗位置,从而可以自动分离出复合音中不同频率成分和对应的幅度,完成耳蜗对声音频率和强度的编码。人耳能够分辨出语音中的不同频率和强度信息,其与基底膜的频谱分析特性是分不开的。除此之外,耳蜗对声音的频率分辨率也是非均匀的,在80Hz~5000Hz范围,gammatone滤波器组的中心频率内以准对数形式分布,并以等矩形带宽(equivalentrectangularbandwidth,ERB)的方式均匀地分布在语音信号所占据的频率范围内。因此,根据人耳对信号频率的不同分辨率和感知能力,并利用人耳的听觉特性,采用gammatone滤波器组对信号进行滤波,把信号的频率范围非均匀的分为M个频带,在进行信号掩蔽时,确保在语音失真最小和可懂度最高的情况下,把背景噪声和“音乐噪声”去除干净,同时提高言语可懂度。gammatone滤波器的脉冲响应具有以下形式,如图2所示:
g ( n , f ( i ) ) = b a ( f ( i ) ) n a - 1 e - 2 &pi;b ( f ( i ) ) n cos ( 2 &pi;f ( i ) n ) ifn &GreaterEqual; 0 0 else - - - ( 25 )
式中a=4,表示滤波器的阶数。b(f(i))表示中心频率为f(i)时的等矩形带宽,随着f(i)的增加而变宽,使时频分析后的信号低频分辨率较高,可以很好分辨出语音低频中的前5个共振峰。由于共振峰是区别不同元音最主要的特征,对提高耳聋患者的语言识别率具有重要意义。因此,该滤波器有益于提高言语可懂度。另外,为了模拟人耳的外耳和中耳的压力增益,等响度曲线被用来对滤波器的增益进行调整。耳障者的等响度曲线不同于正常人的等响度曲线,可以测试耳障者的等响度曲线,去调整滤波器的增益。通过此滤波器实现时频分析,同时还可以对不同的耳障者进行初步的频响补偿,很大程度上减少助听器整体算法复杂度。
步骤七,计算频带信噪比,初步增强语音信号由步骤七的时频分析得到的M个频带,并采用公式(26)计算每个频带的信噪比(dB);
SNR ( &lambda; , i ) = 10 log &Sigma; Band s 2 ( &lambda; , i , n ) &Sigma; Band d 2 ( &lambda; , i , n ) - - - ( 26 )
Bands(λ,i,n)表示初步增强语音信号s1(λ,n)在第λ帧的第i频带的信号;同理,Bandd(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号;
步骤八,计算掩蔽域值,利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性,计算不同频带的掩蔽域值;采用式(27):
LC = 20 log ( Std ( Band s ( &lambda; , i , n ) ) Std ( Band d ( &lambda; , i , n ) ) - SNR ( &lambda; , i ) - - - ( 27 )
式中,Std(·)表示求标准差。
步骤九,测试耳障者的听域曲线和痛域曲线,利用不同频率特征点测试耳障者的听域声压级和痛域声压级,然后利用插值的方法得到整个频率范围的听力曲线Up(λ,f(i)),同理得到正常人的听力曲线Np(λ,f(i));
步骤十,计算掩蔽值,由步骤八得到的掩蔽阈值LC和步骤九得到的听力曲线Up(λ,f(i))和Np(λ,f(i)),动态的调整掩蔽值的大小;利用式(30)计算估计的掩蔽值Mask(λ,f(i));
Mask ( &lambda; , f ( i ) ) = Up ( &lambda; , f ( i ) ) Np ( &lambda; , f ( i ) ) if E ^ s ( &lambda; , b ( f ( i ) ) E ^ n ( &lambda; , b ( f ( i ) ) > LC 0 else - - - ( 30 )
式中,Up(λ,f(i))表示耳障者在中心频率为f(i)的声压级,Np(λ,f(i))表示正常人在中心频率为f(i)的声压级,表示初步增强语音信号在第λ频带、等矩形带宽为b(f(i))内的能量,表示估计噪声在第λ频带、等矩形带宽为b(f(i))内的能量, 和LC都用dB表示;
从公式(30)中可以看出,如果不满足条件时,掩蔽值Mask(λ,f(i))为0,否则掩蔽值为即耳障者在中心频率为f(i)时的声压级和正常人在中心频率为f(i)时的声压级的比值,也就是在满足条件的情况下,Mask(λ,f(i))是根据耳障者要达到和正常人一样的听力水平,外界声音需要进行放大或者压缩的比值;当Mask(λ,f(i))为0,表示对外界噪声信号进行掩蔽,也就是对每帧含噪信号进一步进行语音增强,当Mask(λ,f(i))的取值大于0时,表示对外界的每帧信号进行放大或者压缩,也就是对增强语音进行频响补偿;因此,实现了语音增强和频响补偿相融合的方法。
步骤十一,时频掩蔽;
由步骤十得到的每帧信号的每个频带的时频掩蔽值Mask(λ,f(i))分别乘以该频带的信号Bands(λ,i,n),最后所有频带相加之后,得到最终的输出信号y(λ,n),如公式(31):
y ( &lambda; , n ) = &Sigma; i = 1 128 Mask ( &lambda; , f ( i ) ) &CenterDot; Band s ( &lambda; , i , n ) - - - ( 31 ) ;

Claims (2)

1.数字助听器中语音增强和频响补偿相融合方法,其特征在于包括步骤如下:
步骤一,数字助听器的输入信号进行预处理,首先对输入信号进行分帧处理,然后计算每帧信号的频谱;
步骤二,提取含噪语音信号的相位信息,利用人耳对相位信息的改变并不敏感这个性质,因此,利用含噪语音信号的相位信息代替最终合成的语音信号的相位;
步骤三,在每帧信号的频域范围内,估计含噪信号的噪声幅度谱;
步骤四,利用谱减法的基本思想,让含噪语音信号的幅度谱减去估计噪声的幅度谱,得到初步增强的语音幅度谱;
步骤五,傅里叶逆变换,初步增强的语音幅度谱和估计噪声幅度谱分别乘以含噪语音的相位,然后通过傅里叶逆变换分别得到初步增强的语音信号和估计噪声信号;
步骤六,时频分析,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把初步增强的语音信号和估计噪声信号的频谱范围非均匀地分为M个频带;
步骤七,计算频带信噪比,计算初步增强语音信号通过时频分析得到的M个频带的信噪比;
步骤八,计算掩蔽阈值,利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性,计算不同频带的掩蔽阈值;
步骤九,测试耳障者的听域曲线和痛域曲线,利用不同频率特征点测试耳障者的听域声压级和痛域声压级,然后利用插值的方法得到整个频率范围的听力曲线;
步骤十,计算掩蔽值,利用步骤八和步骤九得到的掩蔽阈值和听力曲线,动态地调整掩蔽值的大小;
步骤十一,时频掩蔽,利用步骤十得到的掩蔽值得到最终的输出信号;
2.根据权利要求1所述的数字助听器中语音增强和频响补偿相融合方法,其特征在于包括步骤如下:
步骤一,数字助听器输入的含噪信号进行预处理,首先对输入的含噪信号进行分帧处理,然后计算每帧信号的频谱;
(1)数字助听器输入的含噪信号y(t),t表示时间,在模数转换过程中,采用16kHz的采样率,输出表示为时域数字信号y(n),n表示时域的序列号;
(2)含噪信号y(n)通过哈明窗进行分帧,取320点即20ms为一帧,帧移为160点即10ms,采用式(1)进行分帧,得到每帧信号y(λ,n);
y ( &lambda; , n ) = y ( n ) w ( n - &lambda; N 2 ) - - - ( 1 )
式(1)中λ表示帧的序列号,N表示采样点数,其中N的取值为320,则y(λ,n)表示含噪信号y(n)经过哈明窗分帧后得到的第λ帧含噪信号;式中w(n)表示哈明窗,如式(2)所示,表示计算第λ帧时,哈明窗平移
w ( n ) = &lsqb; 0.54 - 0.46 c o s ( 2 &pi; n N - 1 ) &rsqb; i f 0 &le; n &le; N - 1 0 e l s e - - - ( 2 )
(3)每帧含噪信号的频谱通过对每帧含噪信号y(λ,n)进行2N点离散傅里叶变换得到,如式(3)所示:
Y ( &lambda; , k ) = 1 2 N &Sigma; n = 0 2 N - 1 y ( &lambda; , n ) - j 2 &pi; k n 2 N , k = 0 , 1 , ... , 2 N - 1 - - - ( 3 )
式(3)中Y(λ,k)表示第λ帧在频率点为k处的频谱,k表示频域的序列号,j是虚部;
步骤二,通过步骤一得到每帧含噪信号的频域表示形式Y(λ,k),利用人耳对相位信息的改变并不敏感这个性质,提取含噪语音信号的相位信息θn(λ),把含噪语音信号的相位信息保留下来,利用含噪语音信号的相位信息代替最终合成的语音信号的相位;
步骤三,在每帧含噪信号的频域表示形式下,利用最小值控制递归平均方法进行噪声估计,得到估计噪声功率谱最后对噪声功率谱进行开方得到估计噪声的幅度谱
步骤四,由步骤三得到估计噪声的幅度谱然后利用谱减法的基本思想,让含每帧含噪语音信号的幅度谱减去每帧估计噪声的幅度谱,得到每帧初步增强的语音幅度谱|s1(λ,n)|;
为了更好地得到每帧初步增强语音信号s1(λ,n),其利用步骤三得到的估计噪声幅度谱采用一种过谱减算法,对含噪语音进行初步增强;该算法引入了过谱减系数和谱地板系数两个参数,算法如式(18)所示;
| S 1 ( &lambda; , k ) | 2 = | Y ( &lambda; , k ) | 2 - &alpha; s ( &lambda; ) | D ( &lambda; , k ) | 2 i f | Y ( &lambda; , k ) | 2 > ( &alpha; s ( &lambda; ) + &beta; s ) | D ( &lambda; , k ) | 2 &beta; s | D ( &lambda; , k ) | 2 e l s e - - - ( 18 )
式中,αs(λ)是过减系数,取值范围是αs(λ)≥1,其随着不同帧的信噪比而发生变化;βs是谱地板系数,取值范围是0<βs≤1,
过减系数αs(λ),αs(λ)采用式(19)计算得到:
&alpha; s ( &lambda; ) = &alpha; 0 - 3 20 SNR p o s t ( &lambda; ) - 5 d B &le; SNR p o s t ( &lambda; ) &le; 20 d B - - - ( 19 )
式中,α0是含噪语音的信噪比为0dB时对应的过减系数,其中α0取值为6;SNR是一帧信号的信噪比,其定义如下,
SNR p o s t ( &lambda; ) = &Sigma; k = 0 2 N - 1 | Y ( &lambda; , k ) | 2 &Sigma; k = 0 2 N - 1 | D ( &lambda; , k ) | 2 - - - ( 20 )
步骤五,傅里叶逆变换,由步骤三得到的估计噪声幅度谱和步骤四得到的初步增强的语音幅度谱|S1(λ,k)|分别乘以由步骤二得到的含噪语音的相位θn(λ),得到估计噪声和S1(λ,k),然后通过公式(21)(22)傅里叶逆变换分别得到每帧初步增强的语音信号和估计噪声信号;
s 1 ( &lambda; , n ) = 1 2 N &Sigma; k = 0 2 N - 1 S 1 ( &lambda; , k ) e j 2 &pi; k n 2 N , n = 0 , 1 , ... , 2 N - 1 - - - ( 21 )
d ^ ( &lambda; , n ) = 1 2 N &Sigma; k = 0 2 N - 1 D ^ ( &lambda; , k ) e j 2 &pi; h 2 N , n = 0 , 1 , ... , 2 N - 1 - - - ( 22 )
步骤六,时频分析,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把步骤五得到初步增强的语音信号s1(λ,n)和估计噪声信号d(λ,n)在频域范围内非均匀地分为M个频带,M为128个频带,采用公式(23)(24)得到:
Bands(λ,i,n)=s1(λ,n)*g(n,f(i))i=1,2,…128(23)
Band d ( &lambda; , i , n ) = d ^ ( &lambda; , n ) * g ( n , f ( i ) ) , i = 1 , 2 , ... 128 - - - ( 24 )
式(23)中,Bands(λ,i,n)表示初步增强语音信号s1(λ,n)在第λ帧的第i频带的信号;同理,Bandd(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号;g(n,f(i))表示gammatone滤波器组,其中心频率为f(i);
步骤七,计算频带信噪比,初步增强语音信号有步骤六的时频分析得到的M个频带,并采用公式(26)计算每个频带的信噪比;
S N R ( &lambda; , i ) = 10 l o g &Sigma;Band s 2 ( &lambda; , i , n ) &Sigma;Band d 2 ( &lambda; , i , n ) - - - ( 26 )
Bands(λ,i,n)表示初步增强语音信号s1(λ,n)在第λ帧的第i频带的信号;同理,Bandd(λ,i,n)表示估计噪声信号在第λ帧的第i频带的信号;
步骤八,计算掩蔽阈值,利用由步骤七得到每个频带的信噪比和人耳对不同频带的感知特性,计算不同频带的掩蔽阈值;采用式(27):
L C = 20 l o g ( S i d ( Band s ( &lambda; , i , n ) ) S t d ( Band d ( &lambda; , i , n ) ) ) - S N R ( &lambda; , i ) - - - ( 27 )
式中,Std(·)表示求标准差;
步骤九,测试耳障者的听域曲线和痛域曲线,利用不同频率特征点测试耳障者的听域声压级和痛域声压级,然后利用插值的方法得到整个频率范围的听力曲线Up(λ,f(i)),同理得到正常人的听力曲线Np(λ,f(i));
步骤十,计算掩蔽值,由步骤八得到的掩蔽阈值LC和步骤九得到的听力曲线Up(λ,f(i))和Np(λ,f(i)),动态的调整掩蔽值的大小;利用式(30)计算估计的掩蔽值Mask(λ,f(i));
M a s k ( &lambda; , f ( i ) ) = U p ( &lambda; , f ( i ) ) N p ( &lambda; , f ( i ) ) i f E ^ s ( &lambda; , b ( f ( i ) ) E ^ n ( &lambda; , b ( f ( i ) ) > L C 0 e l s e - - - ( 30 )
式中,Up(λ,f(i))表示耳障者在中心频率为f(i)的声压级,Np(λ,f(i))表示正常人在中心频率为f(i)的声压级,表示初步增强语音信号在第λ频带、等矩形带宽为b(f(i))内的能量,表示估计噪声在第λ频带、等矩形带宽为b(f(i))内的能量,和LC都用dB表示;
步骤十一,时频掩蔽
由步骤十得到的每帧信号的每个频带的时频掩蔽值Mask(λ,f(i))分别乘以该频带的信号Bands(λ,i,n),最后所有频带相加之后,得到最终的输出信号y(λ,n),如公式(31):
y ( &lambda; , n ) = &Sigma; i = 1 128 M a s k ( &lambda; , f ( i ) ) &CenterDot; Band s ( &lambda; , i , n ) - - - ( 31 ) ;
CN201410049180.2A 2014-02-12 2014-02-12 数字助听器中语音增强和频响补偿相融合方法 Active CN103778920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410049180.2A CN103778920B (zh) 2014-02-12 2014-02-12 数字助听器中语音增强和频响补偿相融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410049180.2A CN103778920B (zh) 2014-02-12 2014-02-12 数字助听器中语音增强和频响补偿相融合方法

Publications (2)

Publication Number Publication Date
CN103778920A CN103778920A (zh) 2014-05-07
CN103778920B true CN103778920B (zh) 2016-03-09

Family

ID=50571088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410049180.2A Active CN103778920B (zh) 2014-02-12 2014-02-12 数字助听器中语音增强和频响补偿相融合方法

Country Status (1)

Country Link
CN (1) CN103778920B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485114B (zh) * 2014-11-27 2018-03-06 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104486711B (zh) * 2014-12-03 2016-01-13 山东大学 用于数字助听器的低复杂度可调滤波器组及其工作方法
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN104703108B (zh) * 2015-02-06 2018-04-03 哈尔滨工业大学深圳研究生院 一种处于噪声条件下的数字助听器宽动态压缩算法
CN104734667B (zh) * 2015-03-31 2016-08-24 山东大学 数字助听器基于非线性变换的可重构滤波器组及设计方法
CN106297817B (zh) * 2015-06-09 2019-07-09 中国科学院声学研究所 一种基于双耳信息的语音增强方法
CN104952457B (zh) * 2015-06-24 2018-08-17 深圳市微纳集成电路与系统应用研究院 一种用于数字助听和语音增强处理的装置和方法
CN105611477B (zh) * 2015-12-27 2018-06-01 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
CN105741849B (zh) * 2016-03-06 2019-03-22 北京工业大学 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN106098077B (zh) * 2016-07-28 2023-05-05 浙江诺尔康神经电子科技股份有限公司 一种带降噪的人工耳蜗言语处理系统及方法
CN108461078B (zh) * 2017-02-21 2020-09-15 比亚迪股份有限公司 电机高频噪声的掩蔽方法和装置
CN108024188A (zh) * 2017-09-30 2018-05-11 天津大学 一种基于智能终端的高可懂度语音降噪算法
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR
CN107744394A (zh) * 2017-11-17 2018-03-02 佛山博智医疗科技有限公司 三维重建内耳对声刺激响应状态的方法
CN107845389B (zh) * 2017-12-21 2020-07-17 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108053829B (zh) * 2017-12-29 2020-06-02 华中科技大学 一种基于耳蜗听觉非线性动力学机理的电子耳蜗编码方法
CN108376548B (zh) * 2018-01-16 2020-12-08 厦门亿联网络技术股份有限公司 一种基于麦克风阵列的回声消除方法与系统
CN108806707B (zh) * 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
CN109147808B (zh) * 2018-07-13 2022-10-21 南京工程学院 一种言语增强助听方法
CN108848435B (zh) * 2018-09-28 2021-03-09 广州方硅信息技术有限公司 一种音频信号的处理方法和相关装置
CN111048110A (zh) * 2018-10-15 2020-04-21 杭州网易云音乐科技有限公司 乐器识别方法、介质、装置和计算设备
CN109410976B (zh) * 2018-11-01 2022-12-16 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN110111769B (zh) * 2019-04-28 2021-10-15 深圳信息职业技术学院 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN110364175B (zh) * 2019-08-20 2022-02-18 北京凌声芯语音科技有限公司 语音增强方法及系统、通话设备
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
CN111107478B (zh) 2019-12-11 2021-04-09 江苏爱谛科技研究院有限公司 一种声音增强方法及声音增强系统
CN111261182B (zh) * 2020-05-07 2020-10-23 上海力声特医学科技有限公司 适用于人工耳蜗的风噪抑制方法及其系统
CN112542176B (zh) * 2020-11-04 2023-07-21 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN112927707B (zh) * 2021-01-25 2023-10-03 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113838476B (zh) * 2021-09-24 2023-12-01 世邦通信股份有限公司 一种带噪语音的噪声估计方法和装置
CN114112006A (zh) * 2021-11-26 2022-03-01 中科传启(苏州)科技有限公司 一种噪声监测方法、装置及电子设备
CN114205724B (zh) * 2021-12-09 2024-02-13 科大讯飞股份有限公司 助听耳机的调试方法、装置以及设备
CN116962123B (zh) * 2023-09-20 2023-11-24 大尧信息科技(湖南)有限公司 软件定义框架的升余弦成型滤波带宽估计方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316380A (ja) * 2002-04-19 2003-11-07 Sony Corp 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
CN1967659A (zh) * 2005-11-14 2007-05-23 北京大学科技开发部 用于助听器的语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316380A (ja) * 2002-04-19 2003-11-07 Sony Corp 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
CN1967659A (zh) * 2005-11-14 2007-05-23 北京大学科技开发部 用于助听器的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于听觉掩蔽效应和噪声估计的语音增强算法;阚仁根,于凤芹;《电声技术》;20080228;第32卷(第2期);全文 *
基于听觉掩蔽效应的多频带谱减语音增强方法;曹亮 等;《计算机工程与设计》;20130131;全文 *
基于听觉掩蔽效应的数字助听器算法研究及DSP的实现;阚仁根;《中国优秀硕士学位论文全文数据库》;20090207;全文 *

Also Published As

Publication number Publication date
CN103778920A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN103778920B (zh) 数字助听器中语音增强和频响补偿相融合方法
CN105741849B (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN100535993C (zh) 用于助听器的语音增强方法
CN103236260B (zh) 语音识别系统
CN110600050B (zh) 基于深度神经网络的麦克风阵列语音增强方法及系统
AU2010204470B2 (en) Automatic sound recognition based on binary time frequency units
CN102157156B (zh) 一种单通道语音增强的方法和系统
CN101901602A (zh) 一种利用受损听力的听阈进行降噪的方法
CN106098077A (zh) 一种带降噪的人工耳蜗言语处理系统及方法
CN103892939B (zh) 提高汉语声调识别率的人工耳蜗言语处理器和方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
CN102314883B (zh) 一种判断音乐噪声的方法以及语音消噪方法
Bhat et al. Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information
Hsu et al. Spectro-temporal subband wiener filter for speech enhancement
CN102595297B (zh) 数字式助听器增益控制优化方法
CN100440317C (zh) 数字助听器语音频率压缩方法
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
Zheng et al. A noise-robust signal processing strategy for cochlear implants using neural networks
Huang et al. Combination and comparison of sound coding strategies using cochlear implant simulation with mandarin speech
CN110010150A (zh) 基于多分辨率的听觉感知语音特征参数提取方法
CN213462323U (zh) 一种基于移动终端的助听器系统
Rao et al. Speech enhancement for listeners with hearing loss based on a model for vowel coding in the auditory midbrain
Sun et al. An RNN-based speech enhancement method for a binaural hearing aid system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200824

Address after: Room 302, No. 8319, Yanshan Road, Bengbu City, Anhui Province

Patentee after: Bengbu Lichao Information Technology Co.,Ltd.

Address before: 100124 Chaoyang District, Beijing Ping Park, No. 100

Patentee before: Beijing University of Technology

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201201

Address after: 414400 100m northwest of the intersection of Longzhou North Road and Longzhou South Road, Miluo City, Yueyang City, Hunan Province

Patentee after: Science and technology innovation service center of Hunan Miluo circular economy industrial park

Address before: Room 302, No. 8319, Yanshan Road, Bengbu City, Anhui Province

Patentee before: Bengbu Lichao Information Technology Co.,Ltd.

TR01 Transfer of patent right