CN106098077B - 一种带降噪的人工耳蜗言语处理系统及方法 - Google Patents

一种带降噪的人工耳蜗言语处理系统及方法 Download PDF

Info

Publication number
CN106098077B
CN106098077B CN201610617620.9A CN201610617620A CN106098077B CN 106098077 B CN106098077 B CN 106098077B CN 201610617620 A CN201610617620 A CN 201610617620A CN 106098077 B CN106098077 B CN 106098077B
Authority
CN
China
Prior art keywords
noise
signal
power spectrum
channel
noisy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610617620.9A
Other languages
English (en)
Other versions
CN106098077A (zh
Inventor
王宁远
孙晓安
平利川
黄穗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Nurotron Biotechnology Co ltd
Original Assignee
Zhejiang Nurotron Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Nurotron Biotechnology Co ltd filed Critical Zhejiang Nurotron Biotechnology Co ltd
Priority to CN201610617620.9A priority Critical patent/CN106098077B/zh
Publication of CN106098077A publication Critical patent/CN106098077A/zh
Application granted granted Critical
Publication of CN106098077B publication Critical patent/CN106098077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种带降噪的人工耳蜗言语处理系统及方法,其中方法包括以下步骤:对外界的声音信号进行拾取,拾取到的信号为带噪信号;对带噪信号进行时域到频域的转换;根据频率对带噪信号进行分频处理,将带噪信号划分至不同的频率通道;对每个通道的带噪信号的包络进行计算和提取;对每个通道的带噪信号的噪声功率谱进行估计;根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除。本发明用于对每个通道的带噪信号进行噪声功率谱的估计,通过二元掩蔽的方法对每个通道的噪声信号进行消除,从而实现提高人工耳蜗植入者在噪声环境下的言语识别率和听音感受的效果。

Description

一种带降噪的人工耳蜗言语处理系统及方法
技术领域
本发明属于医疗器械领域,特别涉及一种带降噪的人工耳蜗言语处理系统及方法。
背景技术
人工耳蜗可以帮助重度或极重度的耳聋患者恢复部分听力。在安静的环境中,多数植入者能达到较高的言语理解水平和交流能力。但在噪声环境下,耳蜗植入者言语的识别率会随着语音信号信噪比(SNR)的降低而出现陡降。同时,强噪声还会严重破坏耳蜗植入者的听音感受。
人工耳蜗植入者在安静环境中言语测试各项识别率从高到低依次为短句、韵母、声母和单音节词;而在不同噪声环境中平均言语识别率从高到低依次为韵母、声母、单音节词和短句,其中短句的影响最大,且各项识别率明显低于其在安静环境中的识别率;噪声的频率谱越接近测试声的言语长时平均谱,植入者的言语识别率越低。因此,消除噪声可以有效提升人工耳蜗植入者在噪声环境下的言语识别能力。
现有的技术中,降噪采用谱减法,即用在频域将短时的带噪语音功率谱减去噪声的功率谱,估计的语音功率谱通过如下公式得到:
Figure BDA0001062839360000011
其中|Yw(ω)|是带噪语音的功率谱,E[|Dw(ω)|]是噪声的功率谱。需要注意的是,这种方法主要针对短时功率谱。然后利用人的听觉系统对语音的幅度比较敏感,而对语音的相位不敏感的特性,增强后的语音信号根据如下公式估计:
Figure BDA0001062839360000012
Figure BDA0001062839360000013
这种降噪方法虽然简单,但是由于对噪声功率谱的估计总是会出现误差,并且易产生令人反感的“音乐噪声”,影响植入者的听音感受和可懂度。
针对以上问题,本发明提出了一种基于多通道的针对人工耳蜗的降噪算法,核心思想是通过对每个通道的带噪信号进行噪声功率谱的估计,然后使用二元掩蔽的方法对每个通道的噪声信号进行消除来提高在噪声环境下的言语识别率和听音感受。
发明内容:
有鉴于此,本发明的目的在于提供一种带降噪的人工耳蜗言语处理系统及方法,用于对每个通道的带噪信号进行噪声功率谱的估计,通过二元掩蔽的方法对每个通道的噪声信号进行消除,从而实现提高人工耳蜗病人在噪声环境下的言语识别率和听音感受的效果。
为达到上述目的,本发明提供了一种带降噪的人工耳蜗言语处理系统,包括依次连接的信号输入单元,快速傅叶里变换单元,分频处理单元,包络检测单元,其特征在于,还包括依次连接的降噪处理单元,通道选择单元,非线性压缩单元,脉冲调制单元,其中,
所述信号输入单元,用于对外界的声音进行拾取,拾取到的信号为带噪信号;
所述快速傅叶里变换单元,用于对所述信号输入单元拾取到的带噪信号进行时域到频域的转换;
所述分频处理单元,用于根据频率对快速傅里叶变换后的带噪信号进行分频处理,将带噪信号划分至不同的频率通道;
所述包络检测单元,用于对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取;
所述降噪处理单元与所述包络检测单元连接,包括噪声估计单元和噪声消除单元,所述噪声估计单元,用于对每个通道的带噪信号的噪声功率谱进行估计;所述噪声消除单元,用于根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除;
所述通道选择单元,用于对所有的16-24个通道进行能量选择,选出经降噪处理后能量最强的6-8个通道;
所述非线性压缩单元,用于对上述6-8通道信号幅度的动态范围进行压缩和映射;
所述脉冲调制单元,用于根据压缩好的包络,对电脉冲进行调制后输出。
可选地,所述噪声估计单元,带噪信号功率谱的局部最小值,通过如下公式进行估计:
Figure BDA0001062839360000031
其中,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值,γ是取值范围为0.9到0.99的常量,λ是取值范围为0.1到0.5之间的常量,β是取值范围为0.2到0.5之间的常量,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m-1,k)为第k通道,第m-1帧带噪信号功率谱的局部最小值。
可选地,所述噪声估计单元,通过计算每帧更新的带噪信号的功率谱,以及所估计的带噪信号功率谱的局部最小值,功率谱比R通过如下公式得到:
Figure BDA0001062839360000032
其中,R(m,k)为第k通道,第m帧的功率谱比,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值。
可选地,所述噪声估计单元,通过计算当前带噪信号的加权功率谱与局部最小功率谱的功率谱比,与一个常量阈值T进行比较,语音信号出现的概率通过如下公式得到:
Figure BDA0001062839360000033
其中,K(m,k)为第k通道,第m帧语音信号出现的概率,α是取值范围为0.2到0.5的常量,R(m,k)为第k通道,第m帧的功率谱比,Τ是常量阈值,其取值范围为2到5。
可选地,所述噪声估计单元,根据语音信号出现的概率,噪声估计的平滑因子通过如下公式进行更新:
αs(m,k)=αd+(1-αd)K(m,k),
其中,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,αd是取值范围为0.8到0.95的常量,K(m,k)为第k通道,第m帧语音信号出现的概率。
可选地,所述噪声估计单元,根据更新后噪声估计的平滑因子,每个通道的噪声功率谱通过如下公式得到:
D(m,k)=αs(m,k)D(m-1,k)+(1-αs(m,k))|Y(m,k)|2
其中,D(m,k)为第k通道,第m帧噪声估计的功率谱,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,|Y(m,k)|2为第k通道,第m帧的带噪信号短时功率谱。
可选地,所述噪声消除单元,根据所估计的噪声功率谱计算的信噪比,通过如下公式得到:
Figure BDA0001062839360000041
其中,SNR(m,k)为第k通道,第m帧的信噪比,P(m,k)为第k通道,第m帧的带噪信号的功率谱;D(m,k)为第k通道,第m帧所估计的噪声功率谱。
可选地,所述噪声消除单元,根据所计算的信噪比与阈值Tg进行比较,带噪信号降噪后的信号能量值通过如下公式得到:
Figure BDA0001062839360000042
其中,S(m,k)为第k通道,第m帧的带噪信号降噪后的信号能量值,g是取值范围为0.1到0.5的常量,Tg是取值范围为2到3的常量,SNR(m,k)为第k通道,第m帧的信噪比。
基于上述目的,本发明还提供了一种带降噪的人工耳蜗言语处理方法,包括以下步骤:
对外界的声音进行拾取,拾取到的信号为带噪信号;
对所述信号输入单元拾取到的带噪信号进行时域到频域的转换;
根据频率对快速傅里叶变换后的带噪信号进行分频处理,将声信号划分至不同的频率通道;
对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取;
对每个通道的带噪信号的噪声功率谱进行估计;
根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除;
对所有的16-24个通道进行能量选择,选出经降噪处理后能量最强的6-8个通道;
对上述6-8通道信号幅度的动态范围进行压缩和映射;
根据压缩好的包络,对电脉冲进行调制后输出。
可选地,所述噪声估计单元,带噪信号功率谱的局部最小值,通过如下公式进行估计:
Figure BDA0001062839360000051
其中,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值,γ是取值范围为0.9到0.99的常量,λ是取值范围为0.1到0.5之间的常量,β是取值范围为0.2到0.5之间的常量,P(m,k)为第k通道,第m帧的带噪信号的加权功率谱,Pmin(m-1,k)为第k通道,第m-1帧带噪信号功率谱的局部最小值。
可选地,所述噪声估计单元,通过计算每帧更新的带噪信号的加权功率谱,以及所估计的带噪信号功率谱的局部最小值,功率谱比R通过如下公式得到:
Figure BDA0001062839360000052
其中,R(m,k)为第k通道,第m帧的功率谱比,P(m,k)为第k通道,第m帧的带噪信号的加权功率谱,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值。
可选地,所述噪声估计单元,通过计算当前带噪信号的加权功率谱与局部最小功率谱的功率谱比,与一个常量阈值T进行比较,语音信号出现的概率通过如下公式得到:
Figure BDA0001062839360000053
其中,K(m,k)为第k通道,第m帧语音信号出现的概率,α是取值范围为0.2到0.5的常量,R(m,k)为第k通道,第m帧的功率谱比,Τ是常量阈值,其取值范围为2到5。
可选地,所述噪声估计单元,根据语音信号出现的概率,噪声估计的平滑因子通过如下公式进行更新:
αs(m,k)=αd+(1-αd)K(m,k),
其中,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,αd是取值范围为0.8到0.95的常量,K(m,k)为第k通道,第m帧语音信号出现的概率。
可选地,所述噪声估计单元,根据语音信号出现的概率来更新用于噪声估计的平滑因子,每个通道的噪声功率谱通过如下公式得到:
D(m,k)=αs(m,k)D(m-1,k)+(1-αs(m,k))|Y(m,k)|2
其中,D(m,k)为第k通道,第m帧噪声估计的功率谱,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,|Y(m,k)|2为第k通道,第m帧的带噪信号短时功率谱。
可选地,所述噪声消除单元,根据所估计的噪声功率谱计算的信噪比,通过如下公式得到:
Figure BDA0001062839360000061
其中,SNR(m,k)为第k通道,第m帧的信噪比,P(m,k)为第k通道,第m帧的带噪信号的功率谱;D(m,k)为第k通道,第m帧所估计的噪声功率谱。
可选地,所述噪声消除单元,根据所计算的信噪比与阈值Tg进行比较,带噪信号降噪后的信号能量值通过如下公式得到:
Figure BDA0001062839360000062
其中,S(m,k)为第k通道,第m帧的带噪信号降噪后SNR(m,k)的信号功率谱,g是取值范围为0.1到0.5的常量,Tg是取值范围为2到3的常量,为第k通道,第m帧的信噪比。
本发明的有益效果在于:通过计算当前功率谱与局部最小功率谱的比值,来判断是否有语音信号出现,继而采用二元掩蔽的方法对每个通道的噪声功率谱进行消除,这样可以最大程度的保留语音信号,减少语音信号的畸变,在消除噪声的同时让人工耳蜗植入者拥有更好的言语感知水平。
附图说明:
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例的带降噪的人工耳蜗言语处理器的结构示意图;
图2为本发明实施例的带降噪的人工耳蜗言语处理器中一具体实施例中带噪信号功率谱局部最小值,与所估计的噪声功率谱的波形示意图;
图3为本发明实施例的带降噪的人工耳蜗言语处理器中一具体实施例中原始噪声短时功率谱与算法估计的噪声功率谱波形示意图;
图4为本发明实施例的带降噪的人工耳蜗言语处理器中一具体实施例中原始语音信号,带噪信号,以及降噪后信号功率谱的波形对比示意图;
图5为本发明实施例的带降噪的人工耳蜗言语处理器方法的策略流程图;
具体实施方式:
下面将结合附图,对本发明的优选实施例进行详细的描述。
参见图1,所示为本发明实施例的带降噪的人工耳蜗言语处理策略流程图,其包括:信号输入单元101,快速傅叶里变换单元102,分频处理单元103,包络检测单元104,还包括依次连接的降噪处理单元105,通道选择单元108,非线性压缩单元109,脉冲调制单元110,其中,
信号输入单元101,用于对外界的声音进行拾取,拾取到的信号为带噪信号;
快速傅叶里变换单元102,用于对所述信号输入单元拾取到的带噪信号进行时域到频域的转换;
分频处理单元103,用于根据频率对快速傅里叶变换后的带噪信号进行分频处理,将带噪信号划分至不同的频率通道;
包络检测单元104,用于对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取;
降噪处理单元105与所述包络检测单元104连接,包括噪声估计单元106和噪声消除单元107,所述噪声估计单元106,用于对每个通道的带噪信号的噪声功率谱进行估计;所述噪声消除单元107,用于根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除;
通道选择单元108,用于对所有的16-24个通道进行能量选择,选出经降噪处理后能量最强的6-8个通道;
非线性压缩单元109,用于对上述6-8通道信号幅度的动态范围进行压缩和映射;
脉冲调制单元110,用于根据压缩好的包络,对电脉冲进行调制后输出。
针对以上实施例的技术方案,其中信号输入单元101,快速傅叶里变换单元102,分频处理单元103,包络检测单元104,通道选择单元108,非线性压缩单元109,脉冲调制单元110可参考现有技术中的实现方式,本发明实施例的重点在于降噪处理单元105,与所述包络检测单元104连接,包括噪声估计单元106,其对每个通道的带噪信号的噪声功率谱进行估计;以及噪声消除单元107,其根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除。通过以上两个步骤可有效的估计和消除带噪信号中的噪声信号,提高言语识别率和听音感受。
降噪处理单元105包括噪声估计单元106和噪声消除单元107。以下将对降噪处理单元105的实现过程作进一步的说明,以使本领域内的技术人员能更好的理解本发明实施例的实现过程。
噪声估计单元106对每个通道的带噪信号的噪声功率谱进行估计过程如下:每帧都对带噪信号的功率谱进行更新,通过比较当前带噪信号的功率谱与上一帧时功率谱的局部最小值,估计当前带噪信号功率谱的局部最小值;计算当前功率谱与其局部最小值的比值判断是否有语音信号出现;根据对平滑因子的控制,估计每个通道的噪声功率谱;
进一步地,在具体应用实例中,比较当前带噪信号功率谱与上一帧时功率谱的局部最小值,当前带噪信号功率谱的局部最小值,通过如下公式进行估计:
Figure BDA0001062839360000081
其中,Pmin(m,k)为第k通道,第m帧带噪信号的功率谱局部最小值,γ是取值范围为0.9到0.99的常量,λ是取值范围为0.1到0.5之间的常量,β是取值范围为0.2到0.5之间的常量,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m1,k)为第k通道,第m-1帧带噪信号功率谱的局部最小值。
此方法中,若当前功率谱大于当前功率谱的局部最小值,局部最小值会逐步向当前功率谱靠拢,这样即使捕捉不到最优的局部最小值,算法也会根据当前功率谱来估计次优的局部最小值。
进一步地,通过计算每帧更新的带噪信号的功率谱,以及所估计的带噪信号功率谱的局部最小值,功率谱比R通过如下公式得到:
Figure BDA0001062839360000091
其中,R(m,k)为第k通道,第m帧的功率谱比,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m,k)为第k通道,第m帧带噪信号的功率谱局部最小值。
此方法中,通过计算当前功率谱与功率谱局部最小值的比值,来判断是否有语音信号的出现,由于功率谱的局部最小值是相对稳定的,以它为基准来判断语音信号是否出现更加稳定和可靠。因为噪声越强,带噪信号功率谱的局部最小值往往越高,这是由稳态噪声的信号频谱特性所决定的。
进一步地,比较功率谱比与常量阈值,语音信号出现的概率通过如下公式得到:
Figure BDA0001062839360000092
其中,K(m,k)为第k通道,第m帧语音信号出现的概率,α是取值范围为0.2到0.5的常量,R(m,k)为第k通道,第m帧的功率谱比,阈值Τ的取值范围为2到5。
进一步地,根据语音信号出现的概率来更新用于噪声估计的平滑因子,继而估计每个通道的噪声功率谱,如下公式所示:
αs(m,k)=αd+(1-αd)Km,k),
D(m,k)=αs(m,k)D(m-1,k)+(1-αs(m,k))|Y(m,k)|2
其中,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,αd是取值范围为0.8到0.95的常量,K(m,k)为第k通道,第m帧语音信号出现的概率;D(m,k)为第k通道,第m帧噪声估计的功率谱,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,|Y(m,k)|2为第k通道,第m帧的带噪信号短时功率谱。
此方法中,根据对平滑因子的控制,可以实现在语音信号出现时,暂停对噪声功率谱的更新,而当语音信号消失后再继续更新的效果。
噪声消除单元107通过二元掩蔽的方法对每个通道的噪声功率谱进行消除的过程如下:根据噪声估计单元106所估计的噪声功率谱计算信噪比,与阈值Tg进行比较,采用二元掩蔽法对每个通道的噪声功率谱进行消除。进一步地,在具体应用实施例中,根据所估计的噪声功率谱计算信噪比,通过如下公式得到:
Figure BDA0001062839360000101
其中,S(m,k)为第k通道,第m帧的带噪信号降噪后的信号能量值,g是取值范围为0.1到0.5的常量,Tg是取值范围为2到3的常量,SNR(m,k)为第k通道,第m帧的信噪比。
此方法中,采用二元掩蔽法对每个通道的噪声功率谱进行消除,可以最大程度保留语音信号的信息,减少语音信号的畸变。
通过以上技术方案估计功率谱的局部最小值,判别语音信号,以及噪声消除,这样可较好的提高在噪声环境下的言语识别率和听音感受。
以下将通过具体应用实例来说明本发明实施例的降噪处理单元105的实施效果。需要说明的是图2中,若当前局部最小值大于当前功率谱,则用当前功率谱来更新功率谱的局部最小值;若当前功率谱大于当前局部最小值,功率谱的局部最小值则会逐步逼近当前功率谱。
对于带噪信号的噪声功率谱估计和噪声信号消除,以噪声输入为5分贝信噪比的语谱噪声为例;
比较当前带噪信号功率谱与上一帧时功率谱的局部最小值来估计当前帧功率谱的局部最小值;参考图2所示,其中,曲线1是第k通道,第m帧的带噪信号的功率谱P(m,k),曲线2是第k通道,第m帧带噪信号功率谱的局部最小值Pmin(m,k),可见按此算法估计局部最小值,即使捕捉不到最优的局部最小值,算法会根据当前功率谱来估计次优的局部最小值。
根据功率谱与其局部最小值的比值对平滑因子的控制,可以实现在语音信号出现时,暂停对噪声功率谱的更新,而当语音信号消失后再继续更新的效果。参照图2所示,其中曲线1是第k通道,第m帧的带噪信号的功率谱P(m,k),曲线3是第k通道,第m帧所估计的噪声功率谱D(m,k),可见按此算法估计的噪声功率谱只在功率谱与其局部最小值的比值较小时,也就是语音信号出现的概率较低时才会更新。
根据如上所述的噪声估计方法,可以实现对噪声短时功率谱进行大致估计的效果。参照图3所示,其中曲线3是第k通道,第m帧所估计的噪声功率谱D(m,k),曲线4是外界的原始噪声的短时功率谱,可见按此算法估计的噪声功率谱可大致反映原始噪声能量变化的趋势。
根据如上所述的噪声估计方法,可以实现对噪声信号进行消除的效果。参照图4所示,其中曲线1是第k通道,第m帧的带噪信号的功率谱P(m,k),曲线5为原始语音信号的功率谱,曲线6是第k通道,第m帧的带噪信号降噪后的信号能量值S(m,k),可见此降噪方法在保留语音信号信息,减少语音信号畸变的同时,消除了大部分的噪声信号。
与上述带降噪的人工耳蜗言语处理器对应的是,本发明又一实施例提供了带降噪的人工耳蜗言语处理方法,其流程图参见图5,包括以下步骤:
S101,对外界的声音进行拾取,拾取到的信号为带噪信号;
S102,对所述信号输入单元拾取到的带噪信号进行时域到频域的转换;
S103,根据频率对快速傅里叶变换后的带噪信号进行分频处理,将带噪信号划分至不同的频率通道;
S104,对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取;
S105,对每个通道的带噪信号的噪声功率谱进行估计;
S106,根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除;
S107,对所有的16-24个通道进行能量选择,选出经降噪处理后能量最强的6-8个通道;
S108,对上述6-8通道信号幅度的动态范围进行压缩和映射;
S109,根据压缩好的包络,对电脉冲进行调制后输出。
其中S101,S102,S103,S104,S105,S106,S107,S108,S109,以S107,S108,S109可参考现有技术中的实现方式,本发明实施例的重点在于S105和S106两个单元,即根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的噪声进行消除,可较好的解决在噪声环境下言语识别率低的问题。
以下将对S105和S106的实现过程作进一步的说明,以使本领域内的技术人员能很好的理解本发明实施例的实现过程。
S105,对每个通道的带噪信号的噪声功率谱进行估计:每帧都对带噪信号的功率谱进行更新,通过比较当前带噪信号的功率谱与上一帧时功率谱的局部最小值,估计当前带噪信号功率谱的局部最小值;计算当前功率谱与其局部最小值的比值判断是否有语音信号出现;根据对平滑因子的控制,估计每个通道的噪声功率谱;
进一步地,在具体应用实例中,比较当前带噪信号加权功率谱与上一帧时功率谱的局部最小值,当前带噪信号功率谱的局部最小值,通过如下公式进行估计:
Figure BDA0001062839360000121
其中,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值,γ是取值范围为0.9到0.99的常量,λ是取值范围为0.1到0.5之间的常量,β是取值范围为0.2到0.5之间的常量,P(m,k)为第k通道,第m帧的带噪信号的加权功率谱,Pmin(m-1,k)为第k通道,第m-1帧带噪信号功率谱的局部最小值。
此方法中,若当前功率谱大于当前功率谱的局部最小值,局部最小值会逐步向当前功率谱靠拢,这样即使捕捉不到最优的局部最小值,算法也会根据当前功率谱来估计次优的局部最小值。
进一步地,通过计算每帧更新的带噪信号的加权功率谱,以及所估计的带噪信号功率谱的局部最小值,功率谱比R通过如下公式得到:
Figure BDA0001062839360000122
其中,R(m,k)为第k通道,第m帧的功率谱比,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值。
此方法中,通过计算当前功率谱与功率谱的局部最小值的比值,来判断是否有语音信号的出现,由于功率谱的局部最小值是相对稳定的,以它为基准来判断语音信号是否出现更加稳定和可靠。因为噪声越强,带噪信号功率谱的局部最小值往往越高,这是由稳态噪声的信号频谱特性所决定的。
进一步地,比较功率谱比与常量阈值,语音信号出现的概率通过如下公式得到:
Figure BDA0001062839360000131
其中,K(m,k)为第k通道,第m帧语音信号出现的概率,α是取值范围为0.2到0.5的常量,R(m,k)为第k通道,第m帧的功率谱比,阈值Τ的取值范围为2到5。
此方法中,阈值T是根据上一帧所估计的信噪比得出的,信噪比越高,阈值越低,反之亦然。这样的算法可以更加准确地判断语音信号出现的概率。
进一步地,根据语音信号出现的概率来更新用于噪声估计的平滑因子,继而估计每个通道的噪声功率谱,如下公式所示:
αs(m,k)=αd+(1-αd)K(m,k),
D(m,k)=αs(m,k)D(m-1,k)+(1-αs(m,k))|Y(m,k)|2
其中,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,αd是取值范围为0.8到0.95的常量,K(m,k)为第k通道,第m帧语音信号出现的概率;D(m,k)为第k通道,第m帧噪声估计的功率谱,αs(m,k)为第k通道,第m帧噪声估计的平滑因子,|Y(m,k)|2为第k通道,第m帧的带噪信号短时功率谱。
此方法中,根据对平滑因子的控制,可以实现在语音信号出现时,暂停对噪声功率谱的更新,而当语音信号消失后再继续更新的效果。
噪声消除单元106通过二元掩蔽的方法对每个通道的噪声功率谱进行消除的过程如下:根据噪声估计单元105所估计的噪声功率谱计算信噪比,与阈值Tg进行比较,采用二元掩蔽法对每个通道的噪声功率谱进行消除。进一步地,在具体应用实施例中,根据所估计的噪声功率谱计算信噪比,通过如下公式得到:
Figure BDA0001062839360000132
其中,S(m,k)为第k通道,第m帧的带噪信号降噪后的信号能量值,g是取值范围为0.1到0.5的常量,Tg是取值范围为2到3的常量,SNR(m,k)为第k通道,第m帧的信噪比。
此方法中,采用二元掩蔽法对每个通道的噪声功率谱进行消除,可以最大程度保留语音信号的信息,减少语音信号的畸变。
同样的具体应用实例可参见图2至图4对应的仿真波形图,通过以上技术方案选出最优的功率谱局部最小值,计算当前功率谱与功率谱局部最小值的比值来判断是否有语音信号出现,根据对平滑因子的控制,可以实现在语音信号出现时,暂停对噪声功率谱的更新,当语音信号消失后继续更新的效果,使用二元掩蔽法消除噪声,可以最大程度保留语音信号,减少语音信号的畸变,让人工耳蜗植入者拥有更好的言语感知水平。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (2)

1.一种带降噪的人工耳蜗言语处理系统,包括依次连接的信号输入单元,快速傅叶里变换单元,分频处理单元,包络检测单元,其特征在于,还包括依次连接的降噪处理单元,通道选择单元,非线性压缩单元,脉冲调制单元,其中,
所述信号输入单元,用于对外界的声音进行拾取,拾取到的信号为带噪信号;
所述快速傅叶里变换单元,用于对所述信号输入单元拾取到的带噪信号进行时域到频域的转换;
所述分频处理单元,用于根据频率对快速傅里叶变换后的带噪信号进行分频处理,将带噪信号划分至不同的频率通道;
所述包络检测单元,用于对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取;
所述降噪处理单元与所述包络检测单元连接,包括噪声估计单元和噪声消除单元,所述噪声估计单元,用于对每个通道的带噪信号的噪声功率谱进行估计;所述噪声消除单元,用于根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除;
所述通道选择单元,用于对所有的16-24个通道进行能量选择,选出经降噪处理后能量最强的6-8个通道;
所述非线性压缩单元,用于对上述6-8通道信号幅度的动态范围进行压缩和映射;
所述脉冲调制单元,用于根据压缩好的包络信号,对电脉冲进行调制后输出;
所述噪声估计单元,带噪信号的功率谱局部最小值,通过如下公式进行估计:
Figure FDA0004067974110000011
其中,Pmin(m,k)为第k通道,第m帧带噪信号的功率谱局部最小值,γ是取值范围为0.9到0.99的常量,λ是取值范围为0.1到0.5之间的常量,β是取值范围为0.2到0.5之间的常量,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m-1,k)为第k通道,第m-1帧带噪信号功率谱的局部最小值;
还通过计算每帧更新的带噪信号的功率谱,以及所估计的带噪信号功率谱的局部最小值,功率谱比R通过如下公式得到:
Figure FDA0004067974110000021
其中,R(m,k)为第k通道,第m帧的功率谱比,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值;
还通过计算当前带噪信号的功率谱与功率谱的局部最小值的比值,与一个常量阈值T进行比较,语音信号出现的概率通过如下公式得到:
Figure FDA0004067974110000022
其中,K(m,k)为第k通道,第m帧语音信号出现的概率,α是取值范围为0.2到0.5的常量,R(m,k)为第k通道,第m帧的功率谱比,Τ是一个常量阈值,其取值范围为2-5;
还根据语音信号出现的概率来更新用于噪声估计的平滑因子,每个通道的噪声功率谱通过如下公式得到:
D(m,k)=αs(m,k)D(m-1,k)+(1-αs(m,k))|Y(m,k)|2
其中,D(m,k)为第k通道,第m帧所估计的噪声功率谱,αs(m,k)为第k通道,第m帧所估计的平滑因子,|Y(m,k)|2为第k通道,第m帧的带噪信号的短时功率谱;
所述噪声消除单元,根据所估计的噪声功率谱计算的信噪比,通过如下公式得到:
Figure FDA0004067974110000023
其中,SNR(m,k)为第k通道,第m帧的信噪比,P(m,k)为第k通道,第m帧的带噪信号功率谱;D(m,k)为第k通道,第m帧所估计的噪声功率谱;
所述噪声消除单元,根据所计算的信噪比与阈值Tg进行比较,带噪信号降噪后的信号能量值通过如下公式得到:
Figure FDA0004067974110000024
其中,S(m,k)为第k通道,第m帧的带噪信号降噪后的信号能量值,g是取值范围为0.1到0.5的常量,Tg是取值范围为2到3的常量,SNR(m,k)为第k通道,第m帧的信噪比。
2.一种带降噪的人工耳蜗言语处理方法,其特征在于,包括以下步骤:
对外界的声音进行拾取,拾取到的信号为带噪信号;
对所述信号输入单元拾取到的带噪信号进行时域到频域的转换;
根据频率对快速傅里叶变换后的带噪信号进行分频处理,将声信号划分至不同的频率通道;
对分频处理单元输出的每个通道的带噪信号的包络进行计算和提取;
对每个通道的带噪信号的噪声功率谱进行估计;
根据所估计的噪声功率谱,使用二元掩蔽法对每个通道的带噪信号的噪声进行消除;
对所有的16-24个通道进行能量选择,选出经降噪处理后能量最强的6-8个通道;
对上述6-8通道信号幅度的动态范围进行压缩和映射;
根据压缩好的包络信息,对电脉冲进行调制后输出;
所述噪声估计单元,带噪信号的功率谱局部最小值,通过如下公式进行估计:
Figure FDA0004067974110000031
其中,Pmin(m,k)为第k通道,第m帧带噪信号的功率谱局部最小值,γ是取值范围为0.9到0.99的常量,λ是取值范围为0.1到0.5之间的常量,β是取值范围为0.2到0.5之间的常量,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m-1,k)为第k通道,第m-1帧带噪信号功率谱的局部最小值;
还通过计算每帧更新的带噪信号的功率谱,以及所估计的带噪信号功率谱的局部最小值,功率谱比R通过如下公式得到:
Figure FDA0004067974110000032
其中,R(m,k)为第k通道,第m帧的功率谱比,P(m,k)为第k通道,第m帧的带噪信号的功率谱,Pmin(m,k)为第k通道,第m帧带噪信号功率谱的局部最小值;
还通过计算当前带噪信号的功率谱与功率谱的局部最小值的比值,与一个常量阈值T进行比较,语音信号出现的概率通过如下公式得到:
Figure FDA0004067974110000041
其中,K(m,k)为第k通道,第m帧语音信号出现的概率,α是取值范围为0.2到0.5的常量,R(m,k)为第k通道,第m帧的功率谱比,Τ是一个常量阈值,其取值范围为2-5;
还根据语音信号出现的概率来更新用于噪声估计的平滑因子,每个通道的噪声功率谱通过如下公式得到:
D(m,k)=αs(m,k)D(m-1,k)+(1-αs(m,k))|Y(m,k)|2
其中,D(m,k)为第k通道,第m帧所估计的噪声功率谱,αs(m,k)为第k通道,第m帧所估计的平滑因子,|Y(m,k)|2为第k通道,第m帧的带噪信号的短时功率谱;
所述噪声消除单元,根据所估计的噪声功率谱计算的信噪比,通过如下公式得到:
Figure FDA0004067974110000042
其中,SNR(m,k)为第k通道,第m帧的信噪比,P(m,k)为第k通道,第m帧的带噪信号功率谱;D(m,k)为第k通道,第m帧所估计的噪声功率谱;
所述噪声消除单元,根据所计算的信噪比与阈值Tg进行比较,带噪信号降噪后的信号能量值通过如下公式得到:
Figure FDA0004067974110000043
其中,S(m,k)为第k通道,第m帧的带噪信号降噪后的信号能量值,g是取值范围为0.1到0.5的常量,Tg是取值范围为2到3的常量,SNR(m,k)为第k通道,第m帧的信噪比。
CN201610617620.9A 2016-07-28 2016-07-28 一种带降噪的人工耳蜗言语处理系统及方法 Active CN106098077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617620.9A CN106098077B (zh) 2016-07-28 2016-07-28 一种带降噪的人工耳蜗言语处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617620.9A CN106098077B (zh) 2016-07-28 2016-07-28 一种带降噪的人工耳蜗言语处理系统及方法

Publications (2)

Publication Number Publication Date
CN106098077A CN106098077A (zh) 2016-11-09
CN106098077B true CN106098077B (zh) 2023-05-05

Family

ID=57478898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617620.9A Active CN106098077B (zh) 2016-07-28 2016-07-28 一种带降噪的人工耳蜗言语处理系统及方法

Country Status (1)

Country Link
CN (1) CN106098077B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767859B (zh) * 2017-11-10 2020-10-20 吉林大学 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN108053829B (zh) * 2017-12-29 2020-06-02 华中科技大学 一种基于耳蜗听觉非线性动力学机理的电子耳蜗编码方法
CN110021305B (zh) * 2019-01-16 2021-08-20 上海惠芽信息技术有限公司 一种音频滤波方法、音频滤波装置及可穿戴设备
CN110007276B (zh) * 2019-04-18 2021-01-12 太原理工大学 一种声源定位方法及系统
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
CN110970051A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 语音数据采集方法、终端及可读存储介质
CN111510837B (zh) * 2020-04-23 2023-05-30 武汉立江科学仪器有限责任公司 一种助听器听力康复方法、康复系统、存储介质及助听器
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN112151056B (zh) * 2020-09-27 2023-08-04 浙江诺尔康神经电子科技股份有限公司 带自定义的智能耳蜗声音处理系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158933B2 (en) * 2001-05-11 2007-01-02 Siemens Corporate Research, Inc. Multi-channel speech enhancement system and method based on psychoacoustic masking effects
KR100716984B1 (ko) * 2004-10-26 2007-05-14 삼성전자주식회사 복수 채널 오디오 신호의 잡음 제거 방법 및 장치
CN101645267B (zh) * 2009-04-03 2012-02-01 中国科学院声学研究所 一种应用于电子耳蜗的语音处理方法
CN103594093A (zh) * 2012-08-15 2014-02-19 王景芳 基于信噪比软掩蔽语音增强方法
CN103456310B (zh) * 2013-08-28 2017-02-22 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN105741849B (zh) * 2016-03-06 2019-03-22 北京工业大学 数字助听器中融合相位估计与人耳听觉特性的语音增强方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙晋松 ; 田岚 ; .一种基于改进谱减法的电子耳蜗语音增强算法.生物医学工程学杂志.2010,(第01期),全文. *

Also Published As

Publication number Publication date
CN106098077A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106098077B (zh) 一种带降噪的人工耳蜗言语处理系统及方法
US10614788B2 (en) Two channel headset-based own voice enhancement
US11783845B2 (en) Sound processing with increased noise suppression
CN109328380B (zh) 具有噪声模型适配的递归噪声功率估计
AU2010204470B2 (en) Automatic sound recognition based on binary time frequency units
CN100535993C (zh) 用于助听器的语音增强方法
CN103778920A (zh) 数字助听器中语音增强和频响补偿相融合方法
JP2003520469A (ja) 雑音低減装置及び方法
EP1208563A1 (en) Method for enhancement of acoustic signal in noise
Koning et al. The potential of onset enhancement for increased speech intelligibility in auditory prostheses
EP3340657B1 (en) A hearing device comprising a dynamic compressive amplification system and a method of operating a hearing device
CN109493877A (zh) 一种助听装置的语音增强方法和装置
CN106507258A (zh) 包括基于信号能量再分配的反馈抵消系统的听力装置
CN106911993A (zh) 具有声音脉冲抑制的听力装置
WO2010091339A1 (en) Method and system for noise reduction for speech enhancement in hearing aid
AU2016341213B2 (en) Robust instantaneous frequency estimation for hearing prosthesis sound coding
US8880394B2 (en) Method, system and computer program product for suppressing noise using multiple signals
DK2605547T3 (en) Hearing aid with improved magnetic reception of wireless communication
CN109874088A (zh) 一种调整声压值的方法及设备
Zheng et al. A noise-robust signal processing strategy for cochlear implants using neural networks
CN111341337B (zh) 声音降噪算法及其系统
Toledo et al. Subspace and envelope subtraction algorithms for noise reduction in cochlear implants
US10149070B2 (en) Normalizing signal energy for speech in fluctuating noise
Butarbutar et al. Adaptive Wiener Filtering Method for Noise Reduction in Speech Recognition System
Wang et al. Noisy speech enhancement based on long term harmonic model to improve speech intelligibility for hearing impaired listeners

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant