电子耳蜗多通道调整动态范围的言语处理器和方法
技术领域
本发明涉及电子耳蜗技术领域,特别是指一种电子耳蜗多通道调整动态范围的言语处理器和方法。
背景技术
人的耳蜗毛细胞是接收声音的感觉细胞。当耳蜗毛细胞损伤严重时,就会出现严重的听力损伤。电子耳蜗就是替代已损伤毛细胞,通过电刺激听觉神经重新获得声音信号的一种电子装置。图1显示的是电子耳蜗的结构示意图。电子耳蜗由体外机部件和植入体部件两部分组成,体外机部件主要包括传声器(如麦克风等)、言语处理器和发射线圈,植入体部件主要包括接收线圈、刺激器及多通道电极阵列组成。
在系统连接正常的情况下,麦克风接收声信号,通过言语处理器,将声信号进行分析处理并编码,通过头件(发射线圈)透过皮肤传送到植入体部件的接收线圈,经过刺激器的解码处理后,产生相应频率及电流强度的脉冲信号并传送到各个刺激电极。通过电极刺激听神经,将脉冲信号传到听觉中枢从而为使用者产生听觉。
一个正常人听觉系统的听力动态范围为120dB,有多大200级的可辨声阶。相比之下,一个电子耳蜗使用者一般只有10-20dB的听力动态范围和20级可辨声阶。设计电子耳蜗言语处理器时,一个重要的因素是从声音幅度到电流幅度的适当转换。耳蜗植入者的刺激阈值到舒适响度之间的动态范围很窄,舒适响度的水平在阈值水平的3倍到30倍之间。
对于正常听力者而言,声音的响度承受范围是120dB,而对于人工耳蜗植入者,电刺激的动态范围仅有10-20dB左右,取决于使用者电刺激阈值(T值)和舒适阈值(C值)。设计人工耳蜗言语处理器的一个重要指标是声信号的输入动态范围,这决定了将多少动态范围的声信号压缩映射至使用者的T值和C值之间。
早期人工耳蜗的信号处理大量借鉴声码器的原理,按Fletcher的理论,举例来说,在Nucleus22的早期产品中,输入信号动态范围是30dB,后续的研究表明[3-5],至少50dB的输入动态范围才能够使植入者获得比较好的言语识别效果。
随后3家主要人工耳蜗公司:美国的Advanced Bionics,奥地利的Mel-El,和澳大利亚的Cochlear,均把声信号的输入动态范围提高到75-80dB。
当增加声信号的输入动态范围,可以提高了植入者的安静环境下的言语识别率。但对于嘈杂环境而言,过大的输入动态范围可能会降低某些植入者的言语识别率,对动态范围较小的植入者尤其如此。这样的电子耳蜗言语处理器语言识别率不好,从而影响使用者听力。
发明内容
有鉴于此,本发明的目的在于提出一种电子耳蜗多通道调整动态范围的言语处理器和方法,有效提高植入者的言语识别率,尤其是噪声环境下的识别效果。
基于上述目的本发明提供的一种电子耳蜗多通道调整动态范围的言语处理器,包括处理单元、调整单元和压缩单元,其中:
所述的处理单元,用于对传送的声信号通过分频模块进行分频处理,把信号分解为M个频段;
所述的调整单元,根据可用电极的数目,将M个频段合并为N个通道,同时保存每个通道的包络能量;然后,动态范围调整模块计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内;
所述的压缩单元,用于对所述调整单元传送的每个通道的包络能量进行声-电刺激压缩并输出。
可选地,所述的分频模块利用数字信号处理芯片(DSP)对采集到的声信号进行分频处理。
可选地,所述动态范围调整模块计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内:是累加并存储第一个L帧包络能量值,作为第一个时间段的通道平均能量;之后累加第帧到第帧包络能量值,作为第二个时间段的通道平均能量;比较两个能量值,保存较小的能量值;以此类推,最终保存了一段时间内通道内平均能量的最小值;
若通道的声信号输入的动态范围为[A min,Amax],按通道平均能量最小值,分为下述4种情况调整通道动态范围:
若NL<Dmin,输入动态范围调整为[A min-X,Amax],把动态范围的下限降低XdB;
若Dmin<NL<Dmid,输入动态范围调整为[Amin,Amax];
若Dmid<NL<Dmax,输入动态范围调整为[Dmax-C,Amax],把动态范围的下限提高CdB;
若NL>Dmax,输入动态范围调整为[Dmax-F,Amax],把动态范围的下限提高FdB;
其中,C小于F,NL为通道平均能量最小值,Dmin为最小背景噪声门限,Dmid为背景噪声的中间值,Dmax为背景噪声的最大值。
进一步地,所述的对调整单元传送的每个通道的包络能量进行声-电刺激压缩,是将调整单元传送的声信号能量设为A,输出电刺激设为E,
则A<Amin时,E=Emin;
则Amin<A<Amax时,E=Emin+(Emax-Emin)*k;
则A>Amax时,E=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p的取值范围为0.2-0.5;Emin和Emax分别对应于植入者电极的电刺激感知阈值和舒适阈值的参数;Amin和Amax分别对应于调整单元传送的声信号的最大能量和最小能量。
进一步地,所述的处理单元还包括自动增益控制采样模块,在对传送的声信号进行分频处理之前先进行采集30-100dB动态范围声信号的处理。
基于上述目的,本发明还提供了一种电子耳蜗多通道调整动态范围的方法,包括以下步骤:
对传送的声信号进行分频处理,把信号分解为M个频段;
根据可用电极的数目,将M个频段合并为N个通道,同时保存每个通道的包络能量;
计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内;
对调整后的每个通道的包络能量进行声-电刺激压缩并输出。
可选地,利用数字信号处理芯片(DSP)对采集到的声信号进行分频处理。
可选地,计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内:是累加并存储第一个L帧包络能量值,作为第一个时间段的通道平均能量;之后累加第帧到第帧包络能量值,作为第二个时间段的通道平均能量;比较两个能量值,保存较小的能量值;以此类推,最终保存了一段时间内通道内平均能量的最小值;
若通道的声信号输入的动态范围为[Amin,Amax],按通道平均能量最小值,分为下述4种情况调整通道动态范围:
若NL<Dmin,输入动态范围调整为[Amin-X,Amax],把动态范围的下限降低XdB;
若Dmin<NL<Dmid,输入动态范围调整为[Amin,Amax];
若Dmid<NL<Dmax,输入动态范围调整为[Dmax-C,Amax],把动态范围的下限提高CdB;
若NL>Dmax,输入动态范围调整为[Dmax-F,Amax],把动态范围的下限提高FdB;
其中,C小于F,NL为通道平均能量最小值,Dmin为最小背景噪声门限,Dmid为背景噪声的中间值,Dmax为背景噪声的最大值。
进一步地,所述的对调整后的每个通道的包络能量进行声-电刺激压缩,是将调整单元传送的声信号能量设为A,输出电刺激设为E,
则A<Amin时,E=Emin;
则Amin<A<Amax时,E=Emin+(Emax-Emin)*k;
则A>Amax时,E=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p的取值范围为0.2-0.5;Emin和Emax分别对应于植入者电极的电刺激感知阈值和舒适阈值的参数;Amin和Amax分别对应于调整单元传送的声信号的最大能量和最小能量。
进一步地,在对传送的声信号进行分频处理之前,先进行采集30-100dB动态范围声信号的处理。
从上面所述可以看出,本发明提供的电子耳蜗多通道调整动态范围的言语处理器和方法,通过动态范围调整模块计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内。从而电子耳蜗言语处理器针对不同的听音环境调整输入动态范围,改善了使用者个体的语言识别能力。
附图说明
图1为现有技术中的电子耳蜗系统结构示意图;
图2为本发明实施例电子耳蜗多通道调整动态范围的言语处理器的结构示意图;
图3为本发明实施例电子耳蜗多通道调整动态范围的方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
参阅图2所示,为本发明实施例电子耳蜗多通道调整动态范围的言语处理器的结构示意图,其中:
处理单元201,与所述调整单元202相连,主要功能包括:
1)分频模块将传送的声信号进行分频处理,可以利用数字信号处理芯片(DSP)对采集到的声信号进行分频处理。较佳地,数字信号处理芯片(DSP)采用快速傅里叶变换(FFT)方法完成,把信号分解为M个频段。其中,M的取值范围为32-128。
较佳地,在本发明的实施例中处理单元201还设置有自动增益控制的采样模块,能够准确无失真采集30-100dB动态范围的声信号,然后在将声信号进行分频处理。
2)将M个频段传送给调整单元202。
调整单元202,与压缩单元203相连,主要功能包括:
1)根据电子耳蜗系统可用电极的数目N,可以利用Greenwood公式将M个频段合并为N个通道,同时保存每个通道的包络能量。其中,N的取值范围为2-24。
2)动态范围调整模块计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内:首先累加并存储第一个L帧包络能量值,作为第一个时间段的通道平均能量。其中,L的取值范围为2-20。之后累加第帧到第帧包络能量值,作为第二个时间段的通道平均能量;比较两个能量值,保存较小的能量值;以此类推,最终保存了一段时间内通道内平均能量的最小值,记为NL;
若通道的声信号输入的动态范围为[A min,Amax],按通道平均能量最小值,分为下述4种情况调整通道动态范围:
若NL<Dmin,输入动态范围调整为[Amin-X,Amax],此时背景噪声小,处于安静情况,把动态范围的下限降低XdB,可以让植入者听到更多比较小的声音。其中,X的取值范围为5dB-10dB,优选地,在本发明实施例中X为5dB。
若Dmin<NL<Dmid,输入动态范围为[Amin,Amax],即作为一般听音环境处理,不调整输入动态范围;
若Dmid<NL<Dmax,输入动态范围调整为[Dmax-C,Amax],此时背景噪声比较大,把动态范围的下限提高CdB,就是把背景噪声尽量排除在动态范围之外。其中,C的取值范围为5dB-10dB,优选地,在本发明实施例中C为10dB。
若NL>Dmax,输入动态范围调整为[Dmax-F,Amax],此时背景噪声是接受的最大噪声,把动态范围的下限提高FdB,就是把背景噪声尽量排除在动态范围之外。其中,C小于F。其中,F的取值范围为10dB-15dB,优选地,在本发明实施例中F为15dB。
其中,NL为通道平均能量最小值,Dmin为最小背景噪声门限,Dmid为背景噪声的中间值,Dmax为背景噪声的最大值。
3)将调整后的每个通道的包络能量传送给压缩单元203。
压缩单元203,主要功能包括:
1)对调整单元202调整后的每个通道的包络能量进行声-电刺激压缩:将调整单元202传送的声信号能量设为A,输出电刺激设为E,
则A<Amin时,E=Emin;
则Amin<A<Amax时,E=Emin+(Emax-Emin)*k;
则A>Amax时,E=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p的取值范围为0.2-0.5,较佳地,在本发明实施例中p为0.2;Emin和Emax分别对应于植入者电极的电刺激感知阈值和舒适阈值的参数;Amin和Amax分别对应于调整单元传送的声信号的最大能量和最小能量。
2)将最后压缩的信号输出。
图3为本发明实施例电子耳蜗多通道调整动态范围的方法流程示意图,包括:
步骤301,对传送的声信号进行分频处理,把信号分解为M个频段,具体实现过程如下:
将传送的声信号进行分频处理,可以利用数字信号处理芯片(DSP)对采集到的声信号进行分频处理。较佳地,数字信号处理芯片(DSP)采用快速傅里叶变换(FFT)方法完成,把信号分解为M个频段。
较佳地,在本发明的实施例中在进行声信号的分频处理之前,先通过自动增益控制的采样模块,准确无失真采集30-100dB动态范围的声信号。
步骤302,根据可用电极的数目,将M个频段合并为N个通道,同时保存每个通道的包络能量,具体实现过程如下:
根据电子耳蜗系统可用电极的数目N,可以利用Greenwood公式将M个频段合并为N个通道,同时保存每个通道的包络能量。
步骤303,计算每个通道的目标动态范围,并且将每个通道的包络能量调整至目标动态范围内,具体实现过程如下:
累加并存储第一个L帧包络能量值,作为第一个时间段的通道平均能量;之后累加第帧到第帧包络能量值,作为第二个时间段的通道平均能量;比较两个能量值,保存较小的能量值;以此类推,最终保存了一段时间内通道内平均能量的最小值;
若通道的声信号输入的动态范围为[Amin,Amax],按通道平均能量最小值,分为下述4种情况调整通道动态范围:
若NL<Dmin,输入动态范围调整为[Amin-X,Amax],此时背景噪声小,处于安静情况,把动态范围的下限降低XdB,可以让植入者听到更多比较小的声音。
若Dmin<NL<Dmid,输入动态范围为[Amin,Amax],即作为一般听音环境处理,不调整输入动态范围;
若Dmid<NL<Dmax,输入动态范围调整为[Dmax-C,Amax],此时背景噪声比较大,把动态范围的下限提高CdB,就是把背景噪声尽量排除在动态范围之外。
若NL>Dmax,输入动态范围调整为[Dmax-F,Amax],此时背景噪声是接受的最大噪声,把动态范围的下限提高FdB,就是把背景噪声尽量排除在动态范围之外。其中,C小于F。
其中,NL为通道平均能量最小值,Dmin为最小背景噪声门限,Dmid为背景噪声的中间值,Dmax为背景噪声的最大值。
步骤304,对调整后的每个通道的包络能量进行声-电刺激压缩并输出,具体实现过程如下:
1)将调整后的每个通道的声信号能量设为A,输出电刺激设为E,
则A<Amin时,E=Emin;
则Amin<A<Amax时,E=Emin+(Emax-Emin)*k;
则A>Amax时,E=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p的取值范围为0.2-0.5,较佳地,在本发明实施例中p为0.2;Emin和Emax分别对应于植入者电极的电刺激感知阈值和舒适阈值的参数;Amin和Amax分别对应于调整单元传送的声信号的最大能量和最小能量。
2)将最后压缩的信号输出。
从上面所述的可以看出,本发明提出的电子耳蜗多通道调整动态范围的言语处理器和方法,创造性的提出了将每个通道的包络能量动态调整至目标动态范围内,分成4种情况调整通道动态范围,有效提高植入者的言语识别率,尤其是噪声环境下的识别效果;对每个通道进行动态范围调整,最大限度的保留了语音的信息,可以显著提高植入者在不同听声环境的言语识别效果;与此同时,本发明提出的电子耳蜗多通道调整动态范围的言语处理器和方计算量小,不会带来额外的软件或者硬件开销;最后,电子耳蜗多通道调整动态范围的言语处理器和方法改善了使用者个体的语言识别能力。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。