CN106098077B

CN106098077B - 一种带降噪的人工耳蜗言语处理系统及方法

Info

Publication number: CN106098077B
Application number: CN201610617620.9A
Authority: CN
Inventors: 王宁远; 孙晓安; 平利川; 黄穗
Original assignee: Zhejiang Nurotron Biotechnology Co ltd
Current assignee: Zhejiang Nurotron Biotechnology Co ltd
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2023-05-05
Anticipated expiration: 2036-07-28
Also published as: CN106098077A

Abstract

本发明公开了一种带降噪的人工耳蜗言语处理系统及方法，其中方法包括以下步骤：对外界的声音信号进行拾取，拾取到的信号为带噪信号；对带噪信号进行时域到频域的转换；根据频率对带噪信号进行分频处理，将带噪信号划分至不同的频率通道；对每个通道的带噪信号的包络进行计算和提取；对每个通道的带噪信号的噪声功率谱进行估计；根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除。本发明用于对每个通道的带噪信号进行噪声功率谱的估计，通过二元掩蔽的方法对每个通道的噪声信号进行消除，从而实现提高人工耳蜗植入者在噪声环境下的言语识别率和听音感受的效果。

Description

一种带降噪的人工耳蜗言语处理系统及方法

技术领域

本发明属于医疗器械领域，特别涉及一种带降噪的人工耳蜗言语处理系统及方法。

背景技术

人工耳蜗可以帮助重度或极重度的耳聋患者恢复部分听力。在安静的环境中，多数植入者能达到较高的言语理解水平和交流能力。但在噪声环境下，耳蜗植入者言语的识别率会随着语音信号信噪比(SNR)的降低而出现陡降。同时，强噪声还会严重破坏耳蜗植入者的听音感受。

人工耳蜗植入者在安静环境中言语测试各项识别率从高到低依次为短句、韵母、声母和单音节词；而在不同噪声环境中平均言语识别率从高到低依次为韵母、声母、单音节词和短句，其中短句的影响最大，且各项识别率明显低于其在安静环境中的识别率；噪声的频率谱越接近测试声的言语长时平均谱，植入者的言语识别率越低。因此，消除噪声可以有效提升人工耳蜗植入者在噪声环境下的言语识别能力。

现有的技术中，降噪采用谱减法，即用在频域将短时的带噪语音功率谱减去噪声的功率谱，估计的语音功率谱通过如下公式得到：

其中|Y_w(ω)|是带噪语音的功率谱，E[|D_w(ω)|]是噪声的功率谱。需要注意的是，这种方法主要针对短时功率谱。然后利用人的听觉系统对语音的幅度比较敏感，而对语音的相位不敏感的特性，增强后的语音信号根据如下公式估计：

这种降噪方法虽然简单，但是由于对噪声功率谱的估计总是会出现误差，并且易产生令人反感的“音乐噪声”，影响植入者的听音感受和可懂度。

针对以上问题，本发明提出了一种基于多通道的针对人工耳蜗的降噪算法，核心思想是通过对每个通道的带噪信号进行噪声功率谱的估计，然后使用二元掩蔽的方法对每个通道的噪声信号进行消除来提高在噪声环境下的言语识别率和听音感受。

发明内容：

有鉴于此，本发明的目的在于提供一种带降噪的人工耳蜗言语处理系统及方法，用于对每个通道的带噪信号进行噪声功率谱的估计，通过二元掩蔽的方法对每个通道的噪声信号进行消除，从而实现提高人工耳蜗病人在噪声环境下的言语识别率和听音感受的效果。

为达到上述目的，本发明提供了一种带降噪的人工耳蜗言语处理系统，包括依次连接的信号输入单元，快速傅叶里变换单元，分频处理单元，包络检测单元，其特征在于，还包括依次连接的降噪处理单元，通道选择单元，非线性压缩单元，脉冲调制单元，其中，

所述信号输入单元，用于对外界的声音进行拾取，拾取到的信号为带噪信号；

所述快速傅叶里变换单元，用于对所述信号输入单元拾取到的带噪信号进行时域到频域的转换；

所述分频处理单元，用于根据频率对快速傅里叶变换后的带噪信号进行分频处理，将带噪信号划分至不同的频率通道；

所述包络检测单元，用于对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取；

所述降噪处理单元与所述包络检测单元连接，包括噪声估计单元和噪声消除单元，所述噪声估计单元，用于对每个通道的带噪信号的噪声功率谱进行估计；所述噪声消除单元，用于根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除；

所述通道选择单元，用于对所有的16-24个通道进行能量选择，选出经降噪处理后能量最强的6-8个通道；

所述非线性压缩单元，用于对上述6-8通道信号幅度的动态范围进行压缩和映射；

所述脉冲调制单元，用于根据压缩好的包络，对电脉冲进行调制后输出。

可选地，所述噪声估计单元，带噪信号功率谱的局部最小值，通过如下公式进行估计：

其中，P_min(m,k)为第k通道，第m帧带噪信号功率谱的局部最小值，γ是取值范围为0.9到0.99的常量，λ是取值范围为0.1到0.5之间的常量，β是取值范围为0.2到0.5之间的常量，P(m,k)为第k通道，第m帧的带噪信号的功率谱，P_min(m-1,k)为第k通道，第m-1帧带噪信号功率谱的局部最小值。

可选地，所述噪声估计单元，通过计算每帧更新的带噪信号的功率谱，以及所估计的带噪信号功率谱的局部最小值，功率谱比R通过如下公式得到：

其中，R(m,k)为第k通道，第m帧的功率谱比，P(m,k)为第k通道，第m帧的带噪信号的功率谱，P_min(m,k)为第k通道，第m帧带噪信号功率谱的局部最小值。

可选地，所述噪声估计单元，通过计算当前带噪信号的加权功率谱与局部最小功率谱的功率谱比，与一个常量阈值T进行比较，语音信号出现的概率通过如下公式得到：

其中，K(m,k)为第k通道，第m帧语音信号出现的概率，α是取值范围为0.2到0.5的常量，R(m,k)为第k通道，第m帧的功率谱比，Τ是常量阈值，其取值范围为2到5。

可选地，所述噪声估计单元，根据语音信号出现的概率，噪声估计的平滑因子通过如下公式进行更新：

α_s(m,k)＝α_d+(1-α_d)K(m,k)，

其中，α_s(m,k)为第k通道，第m帧噪声估计的平滑因子，α_d是取值范围为0.8到0.95的常量，K(m,k)为第k通道，第m帧语音信号出现的概率。

可选地，所述噪声估计单元，根据更新后噪声估计的平滑因子，每个通道的噪声功率谱通过如下公式得到：

D(m,k)＝α_s(m,k)D(m-1,k)+(1-α_s(m,k))|Y(m,k)|²，

其中，D(m,k)为第k通道，第m帧噪声估计的功率谱，α_s(m,k)为第k通道，第m帧噪声估计的平滑因子，|Y(m,k)|²为第k通道，第m帧的带噪信号短时功率谱。

可选地，所述噪声消除单元，根据所估计的噪声功率谱计算的信噪比，通过如下公式得到：

其中，SNR(m,k)为第k通道，第m帧的信噪比，P(m,k)为第k通道，第m帧的带噪信号的功率谱；D(m,k)为第k通道，第m帧所估计的噪声功率谱。

可选地，所述噪声消除单元，根据所计算的信噪比与阈值T_g进行比较，带噪信号降噪后的信号能量值通过如下公式得到：

其中，S(m,k)为第k通道，第m帧的带噪信号降噪后的信号能量值，g是取值范围为0.1到0.5的常量，T_g是取值范围为2到3的常量，SNR(m,k)为第k通道，第m帧的信噪比。

基于上述目的，本发明还提供了一种带降噪的人工耳蜗言语处理方法，包括以下步骤：

对外界的声音进行拾取，拾取到的信号为带噪信号；

对所述信号输入单元拾取到的带噪信号进行时域到频域的转换；

根据频率对快速傅里叶变换后的带噪信号进行分频处理，将声信号划分至不同的频率通道；

对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取；

对每个通道的带噪信号的噪声功率谱进行估计；

根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除；

对所有的16-24个通道进行能量选择，选出经降噪处理后能量最强的6-8个通道；

对上述6-8通道信号幅度的动态范围进行压缩和映射；

根据压缩好的包络，对电脉冲进行调制后输出。

其中，P_min(m,k)为第k通道，第m帧带噪信号功率谱的局部最小值，γ是取值范围为0.9到0.99的常量，λ是取值范围为0.1到0.5之间的常量，β是取值范围为0.2到0.5之间的常量，P(m,k)为第k通道，第m帧的带噪信号的加权功率谱，P_min(m-1,k)为第k通道，第m-1帧带噪信号功率谱的局部最小值。

可选地，所述噪声估计单元，通过计算每帧更新的带噪信号的加权功率谱，以及所估计的带噪信号功率谱的局部最小值，功率谱比R通过如下公式得到：

其中，R(m,k)为第k通道，第m帧的功率谱比，P(m,k)为第k通道，第m帧的带噪信号的加权功率谱，P_min(m,k)为第k通道，第m帧带噪信号功率谱的局部最小值。

α_s(m,k)＝α_d+(1-α_d)K(m,k)，

可选地，所述噪声估计单元，根据语音信号出现的概率来更新用于噪声估计的平滑因子，每个通道的噪声功率谱通过如下公式得到：

D(m,k)＝α_s(m,k)D(m-1,k)+(1-α_s(m,k))|Y(m,k)|²，

其中，S(m,k)为第k通道，第m帧的带噪信号降噪后SNR(m,k)的信号功率谱，g是取值范围为0.1到0.5的常量，T_g是取值范围为2到3的常量，为第k通道，第m帧的信噪比。

本发明的有益效果在于：通过计算当前功率谱与局部最小功率谱的比值，来判断是否有语音信号出现，继而采用二元掩蔽的方法对每个通道的噪声功率谱进行消除，这样可以最大程度的保留语音信号，减少语音信号的畸变，在消除噪声的同时让人工耳蜗植入者拥有更好的言语感知水平。

附图说明：

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例的带降噪的人工耳蜗言语处理器的结构示意图；

图2为本发明实施例的带降噪的人工耳蜗言语处理器中一具体实施例中带噪信号功率谱局部最小值，与所估计的噪声功率谱的波形示意图；

图3为本发明实施例的带降噪的人工耳蜗言语处理器中一具体实施例中原始噪声短时功率谱与算法估计的噪声功率谱波形示意图；

图4为本发明实施例的带降噪的人工耳蜗言语处理器中一具体实施例中原始语音信号，带噪信号，以及降噪后信号功率谱的波形对比示意图；

图5为本发明实施例的带降噪的人工耳蜗言语处理器方法的策略流程图；

具体实施方式：

下面将结合附图，对本发明的优选实施例进行详细的描述。

参见图1，所示为本发明实施例的带降噪的人工耳蜗言语处理策略流程图，其包括：信号输入单元101，快速傅叶里变换单元102，分频处理单元103，包络检测单元104，还包括依次连接的降噪处理单元105，通道选择单元108，非线性压缩单元109，脉冲调制单元110，其中，

信号输入单元101，用于对外界的声音进行拾取，拾取到的信号为带噪信号；

快速傅叶里变换单元102，用于对所述信号输入单元拾取到的带噪信号进行时域到频域的转换；

分频处理单元103，用于根据频率对快速傅里叶变换后的带噪信号进行分频处理，将带噪信号划分至不同的频率通道；

包络检测单元104，用于对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取；

降噪处理单元105与所述包络检测单元104连接，包括噪声估计单元106和噪声消除单元107，所述噪声估计单元106，用于对每个通道的带噪信号的噪声功率谱进行估计；所述噪声消除单元107，用于根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除；

通道选择单元108，用于对所有的16-24个通道进行能量选择，选出经降噪处理后能量最强的6-8个通道；

非线性压缩单元109，用于对上述6-8通道信号幅度的动态范围进行压缩和映射；

脉冲调制单元110，用于根据压缩好的包络，对电脉冲进行调制后输出。

针对以上实施例的技术方案，其中信号输入单元101，快速傅叶里变换单元102，分频处理单元103，包络检测单元104，通道选择单元108，非线性压缩单元109，脉冲调制单元110可参考现有技术中的实现方式，本发明实施例的重点在于降噪处理单元105，与所述包络检测单元104连接，包括噪声估计单元106，其对每个通道的带噪信号的噪声功率谱进行估计；以及噪声消除单元107，其根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除。通过以上两个步骤可有效的估计和消除带噪信号中的噪声信号，提高言语识别率和听音感受。

降噪处理单元105包括噪声估计单元106和噪声消除单元107。以下将对降噪处理单元105的实现过程作进一步的说明，以使本领域内的技术人员能更好的理解本发明实施例的实现过程。

噪声估计单元106对每个通道的带噪信号的噪声功率谱进行估计过程如下：每帧都对带噪信号的功率谱进行更新，通过比较当前带噪信号的功率谱与上一帧时功率谱的局部最小值，估计当前带噪信号功率谱的局部最小值；计算当前功率谱与其局部最小值的比值判断是否有语音信号出现；根据对平滑因子的控制，估计每个通道的噪声功率谱；

进一步地，在具体应用实例中，比较当前带噪信号功率谱与上一帧时功率谱的局部最小值，当前带噪信号功率谱的局部最小值，通过如下公式进行估计：

其中，P_min(m,k)为第k通道，第m帧带噪信号的功率谱局部最小值，γ是取值范围为0.9到0.99的常量，λ是取值范围为0.1到0.5之间的常量，β是取值范围为0.2到0.5之间的常量，P(m,k)为第k通道，第m帧的带噪信号的功率谱，P_min(m1,k)为第k通道，第m-1帧带噪信号功率谱的局部最小值。

此方法中，若当前功率谱大于当前功率谱的局部最小值，局部最小值会逐步向当前功率谱靠拢，这样即使捕捉不到最优的局部最小值，算法也会根据当前功率谱来估计次优的局部最小值。

进一步地，通过计算每帧更新的带噪信号的功率谱，以及所估计的带噪信号功率谱的局部最小值，功率谱比R通过如下公式得到：

其中，R(m,k)为第k通道，第m帧的功率谱比，P(m,k)为第k通道，第m帧的带噪信号的功率谱，P_min(m,k)为第k通道，第m帧带噪信号的功率谱局部最小值。

此方法中，通过计算当前功率谱与功率谱局部最小值的比值，来判断是否有语音信号的出现，由于功率谱的局部最小值是相对稳定的，以它为基准来判断语音信号是否出现更加稳定和可靠。因为噪声越强，带噪信号功率谱的局部最小值往往越高，这是由稳态噪声的信号频谱特性所决定的。

进一步地，比较功率谱比与常量阈值，语音信号出现的概率通过如下公式得到：

其中，K(m,k)为第k通道，第m帧语音信号出现的概率，α是取值范围为0.2到0.5的常量，R(m,k)为第k通道，第m帧的功率谱比，阈值Τ的取值范围为2到5。

进一步地，根据语音信号出现的概率来更新用于噪声估计的平滑因子，继而估计每个通道的噪声功率谱，如下公式所示：

α_s(m,k)＝α_d+(1-α_d)Km,k)，

D(m,k)＝α_s(m,k)D(m-1,k)+(1-α_s(m,k))|Y(m,k)|²，

其中，α_s(m,k)为第k通道，第m帧噪声估计的平滑因子，α_d是取值范围为0.8到0.95的常量，K(m,k)为第k通道，第m帧语音信号出现的概率；D(m,k)为第k通道，第m帧噪声估计的功率谱，α_s(m,k)为第k通道，第m帧噪声估计的平滑因子，|Y(m,k)|²为第k通道，第m帧的带噪信号短时功率谱。

此方法中，根据对平滑因子的控制，可以实现在语音信号出现时，暂停对噪声功率谱的更新，而当语音信号消失后再继续更新的效果。

噪声消除单元107通过二元掩蔽的方法对每个通道的噪声功率谱进行消除的过程如下：根据噪声估计单元106所估计的噪声功率谱计算信噪比，与阈值T_g进行比较，采用二元掩蔽法对每个通道的噪声功率谱进行消除。进一步地，在具体应用实施例中，根据所估计的噪声功率谱计算信噪比，通过如下公式得到：

此方法中，采用二元掩蔽法对每个通道的噪声功率谱进行消除，可以最大程度保留语音信号的信息，减少语音信号的畸变。

通过以上技术方案估计功率谱的局部最小值，判别语音信号，以及噪声消除，这样可较好的提高在噪声环境下的言语识别率和听音感受。

以下将通过具体应用实例来说明本发明实施例的降噪处理单元105的实施效果。需要说明的是图2中，若当前局部最小值大于当前功率谱，则用当前功率谱来更新功率谱的局部最小值；若当前功率谱大于当前局部最小值，功率谱的局部最小值则会逐步逼近当前功率谱。

对于带噪信号的噪声功率谱估计和噪声信号消除，以噪声输入为5分贝信噪比的语谱噪声为例；

比较当前带噪信号功率谱与上一帧时功率谱的局部最小值来估计当前帧功率谱的局部最小值；参考图2所示，其中，曲线1是第k通道，第m帧的带噪信号的功率谱P(m,k)，曲线2是第k通道，第m帧带噪信号功率谱的局部最小值P_min(m,k)，可见按此算法估计局部最小值，即使捕捉不到最优的局部最小值，算法会根据当前功率谱来估计次优的局部最小值。

根据功率谱与其局部最小值的比值对平滑因子的控制，可以实现在语音信号出现时，暂停对噪声功率谱的更新，而当语音信号消失后再继续更新的效果。参照图2所示，其中曲线1是第k通道，第m帧的带噪信号的功率谱P(m,k)，曲线3是第k通道，第m帧所估计的噪声功率谱D(m,k)，可见按此算法估计的噪声功率谱只在功率谱与其局部最小值的比值较小时，也就是语音信号出现的概率较低时才会更新。

根据如上所述的噪声估计方法，可以实现对噪声短时功率谱进行大致估计的效果。参照图3所示，其中曲线3是第k通道，第m帧所估计的噪声功率谱D(m,k)，曲线4是外界的原始噪声的短时功率谱，可见按此算法估计的噪声功率谱可大致反映原始噪声能量变化的趋势。

根据如上所述的噪声估计方法，可以实现对噪声信号进行消除的效果。参照图4所示，其中曲线1是第k通道，第m帧的带噪信号的功率谱P(m,k)，曲线5为原始语音信号的功率谱，曲线6是第k通道，第m帧的带噪信号降噪后的信号能量值S(m,k)，可见此降噪方法在保留语音信号信息，减少语音信号畸变的同时，消除了大部分的噪声信号。

与上述带降噪的人工耳蜗言语处理器对应的是，本发明又一实施例提供了带降噪的人工耳蜗言语处理方法，其流程图参见图5，包括以下步骤：

S101，对外界的声音进行拾取，拾取到的信号为带噪信号；

S102，对所述信号输入单元拾取到的带噪信号进行时域到频域的转换；

S103，根据频率对快速傅里叶变换后的带噪信号进行分频处理，将带噪信号划分至不同的频率通道；

S104，对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取；

S105，对每个通道的带噪信号的噪声功率谱进行估计；

S106，根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的带噪信号的噪声进行消除；

S107，对所有的16-24个通道进行能量选择，选出经降噪处理后能量最强的6-8个通道；

S108，对上述6-8通道信号幅度的动态范围进行压缩和映射；

S109，根据压缩好的包络，对电脉冲进行调制后输出。

其中S101，S102，S103，S104，S105，S106，S107，S108，S109，以S107，S108，S109可参考现有技术中的实现方式，本发明实施例的重点在于S105和S106两个单元，即根据所估计的噪声功率谱，使用二元掩蔽法对每个通道的噪声进行消除，可较好的解决在噪声环境下言语识别率低的问题。

以下将对S105和S106的实现过程作进一步的说明，以使本领域内的技术人员能很好的理解本发明实施例的实现过程。

S105，对每个通道的带噪信号的噪声功率谱进行估计：每帧都对带噪信号的功率谱进行更新，通过比较当前带噪信号的功率谱与上一帧时功率谱的局部最小值，估计当前带噪信号功率谱的局部最小值；计算当前功率谱与其局部最小值的比值判断是否有语音信号出现；根据对平滑因子的控制，估计每个通道的噪声功率谱；

进一步地，在具体应用实例中，比较当前带噪信号加权功率谱与上一帧时功率谱的局部最小值，当前带噪信号功率谱的局部最小值，通过如下公式进行估计：

进一步地，通过计算每帧更新的带噪信号的加权功率谱，以及所估计的带噪信号功率谱的局部最小值，功率谱比R通过如下公式得到：

此方法中，通过计算当前功率谱与功率谱的局部最小值的比值，来判断是否有语音信号的出现，由于功率谱的局部最小值是相对稳定的，以它为基准来判断语音信号是否出现更加稳定和可靠。因为噪声越强，带噪信号功率谱的局部最小值往往越高，这是由稳态噪声的信号频谱特性所决定的。

此方法中，阈值T是根据上一帧所估计的信噪比得出的，信噪比越高，阈值越低，反之亦然。这样的算法可以更加准确地判断语音信号出现的概率。

α_s(m,k)＝α_d+(1-α_d)K(m,k)，

D(m,k)＝α_s(m,k)D(m-1,k)+(1-α_s(m,k))|Y(m,k)|²，

噪声消除单元106通过二元掩蔽的方法对每个通道的噪声功率谱进行消除的过程如下：根据噪声估计单元105所估计的噪声功率谱计算信噪比，与阈值T_g进行比较，采用二元掩蔽法对每个通道的噪声功率谱进行消除。进一步地，在具体应用实施例中，根据所估计的噪声功率谱计算信噪比，通过如下公式得到：

同样的具体应用实例可参见图2至图4对应的仿真波形图，通过以上技术方案选出最优的功率谱局部最小值，计算当前功率谱与功率谱局部最小值的比值来判断是否有语音信号出现，根据对平滑因子的控制，可以实现在语音信号出现时，暂停对噪声功率谱的更新，当语音信号消失后继续更新的效果，使用二元掩蔽法消除噪声，可以最大程度保留语音信号，减少语音信号的畸变，让人工耳蜗植入者拥有更好的言语感知水平。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种带降噪的人工耳蜗言语处理系统，包括依次连接的信号输入单元，快速傅叶里变换单元，分频处理单元，包络检测单元，其特征在于，还包括依次连接的降噪处理单元，通道选择单元，非线性压缩单元，脉冲调制单元，其中，

所述脉冲调制单元，用于根据压缩好的包络信号，对电脉冲进行调制后输出；

所述噪声估计单元，带噪信号的功率谱局部最小值，通过如下公式进行估计：

其中，P_min(m,k)为第k通道，第m帧带噪信号的功率谱局部最小值，γ是取值范围为0.9到0.99的常量，λ是取值范围为0.1到0.5之间的常量，β是取值范围为0.2到0.5之间的常量，P(m,k)为第k通道，第m帧的带噪信号的功率谱，P_min(m-1,k)为第k通道，第m-1帧带噪信号功率谱的局部最小值；

还通过计算每帧更新的带噪信号的功率谱，以及所估计的带噪信号功率谱的局部最小值，功率谱比R通过如下公式得到：