CN1269106C

CN1269106C - 一种用于数字助听器的中文语音信号处理方法

Info

Publication number: CN1269106C
Application number: CNB2004100405841A
Authority: CN
Inventors: 蒋一宁; 夏世雄; 蒋涛; 付晓毅; 陈志刚
Original assignee: SICHUAN WEIDI DIGITAL TECHNOLOGY Co Ltd
Current assignee: Nanjing Guoguang Medical Instrument Co., Ltd.
Priority date: 2004-08-31
Filing date: 2004-08-31
Publication date: 2006-08-09
Anticipated expiration: 2024-08-31
Also published as: CN1598927A

Abstract

本发明描述了一种用于数字助听器的中文语音信号处理方法，属于一种语音信号处理技术。本发明针对中文语音的声调包含大量的语言和语义信息这一特征，通过频谱分析、将语音数据流按多个频率区间对其信号特征进行处理后将数字信号经D/A转换后输出。通过本发明获得的语音信号，使使用者能够更加清晰的听到中文语音，提高了中文语音和语义识别率，可有效地改善数字助听器中文使用者的助听效果。

Description

一种用于数字助听器的中文语音信号处理方法

技术领域

本发明属于数字助听器的语音处理技术，它针对中文语音的发音特征进行数字信号处理，适用于基于数字信号处理技术的数字助听器。

背景技术

助听器作为听力康复的最主要的手段，近百年来一直受到力求改进生活质量的人们关注，伴随着科技的不断发展，计算机技术和数字信号处理越来越多的应用到助听器领域。目前，国际上推出的助听器新产品大多数都是基于数字信号处理技术的数字助听器。由于世界上数字助听器的设计、制造商基本上都是西方国家，因此为满足多种类型听障者在不同声学环境下的听力补偿的需要而出现的各种数字助听信号处理技术，比如：削峰控制、自动增益控制、自动频响控制等技术却大多是以西方语音的特征为研究对象而做出的，所以目前还没有任何一种数字助听器信号处理技术是针对中文语音的特征进行处理的。

根据对中文语言的研究，其特征是：单音节发声并具有明显的声调特性；相对于西方语言来说，音调包含了大量的语言和语义职别信息。基于大量的试验表明，突出强调放大语音的声调特征能够有效的提高中文言语的分辨率。

在听觉中，声调形象或印象比较模糊。大体上可以说，短时间的音高变化是难以分辨的，只不过是个平均音高罢了。所谓短时间，例如半个音节或者三分之一音节，或者是一个轻声音节。音节开头和结尾的地方，音高的变化可能是不易分辨的。值得重视的事实是，语音学家的心理感受，阴平和阳平后的轻声做声学分析有时候很像去声，却又不是去声。那是因为它一开始的音高迅速下降，与此同时音量在逐渐增加，这时人耳听到的主要是一种低降的特征，而不是高降的特征。同样，声母l、m、n、r或零声母做声母的音节是上声的时候，一开始的音高也是大幅度迅速下降的，人耳听到的主要也是低降的特征。

本发明根据声调的特点，把输入声音经过傅立叶变换分解到多个不同的频率区间上进行处理，每个频率区间上声音的强度从低到高分为若干个等级。根据中文语音的特性，音调变化在信号特征上表现为基频的变化，因此找到这个变化并适当增大基频所在频率区间的增益就可达到强调声调的目的，从而提高使用者对中文语音的识别率。

发明内容

本发明旨在针对现有数字助听器大多是以西方语音的发音特征为研究对象而设计，而不适应中文发音特征的现状，提供一种用于数字助听器的中文语音信号处理方法，通过数字信号处理器针对中文语音信号的特征进行处理，从而提高使用者对中文语音的识别率。

为解决上述技术问题，本发明采用的技术方案如下：

一种用于数字助听器的中文语音信号处理方法，其特征在于：

a)从音频接收装置输入的语音由A/D采样设备获取时域数字输入信号；

b)经傅立叶变换处理，对时域信号作时域/频域转换获取信号频谱；

c)通过频谱分析处理提取频域信号特征，通过元音辅音变化统计、谱分析并计算增益处理确定信号放大或衰减策略；

d)由数字信号处理器根据确定的信号处理策略对信号进行处理；

e)处理后的数字信号输出到D/A转换器，将信号还原成模拟信号输出到声音还原装置。

本发明所述时域/频域转换处理过程是：采用先进先出的输入队列(FIFO)对时域信号进行列队，并采用迭加DFT滤波器组处理音频数据块，将时域信号转变成频域信号。

所述滤波器组把输入信号分解为多个频率区间，经过离散傅立叶变换(DFT)的调制过程，单一的原型滤波器被复制为2N个复合滤波波段；这个调制过程在统一的滤波器组中只产生相同的滤波波形和结果；经该傅立叶变换处理将时域信号转换为多个频率区间的频域信号。

所述频域信号特征提取过程是：对已获得的频域信号，提取多个频率区间中每个频率区间的特征，判断该输入信号是噪音信号还是语音信号。

所述元音辅音变化统计过程是：上述根据噪音或语音信号的判断，如果是语音信号，则对元音辅音变化做出统计，判断语音基频的变化。

所述谱分析并计算增益过程是：根据语音基频变化的特点确定每个频率区间的增益策略，如果是噪音就给负增益，如果是语音就给正增益。

所述数字信号处理器根据确定的信号处理策略对信号进行处理的过程是：根据中文语音特征，声母主要分布在高频(b，p，m，f，z，c，s)，具有持续时间短，能量比较低的特征；韵母主要分布在低频(a，o，e，i，u，ü)，具有持续时间长，能量较高的特征。相对于噪音，语音具有能量变化快，峰值频率不确定的显著特征。信号处理器依据这些特征，将输入信号分解成不同的频率波段，分别统计每个波段的能量和能量变化，将所有波段的能量进行比较，找出能量最大以及最小的波段并记录，再与上一个时段的能量分布进行比较，以找到能量变化趋势，确定语音信号分布情况，根据这些分布特征对不同的波段分别进行衰减和增强，再将所有波段的信号合成输出，达到突出语音特征的目的。

本发明所述信号分解成多个频率波段以及将所有频率波段的信号合成所采用的方法为迭加DFT即离散傅立叶变换和IDFT即反离散傅立叶变换滤波器组处理，进行时频域信号转换，在转换过程中采用先进先出的输出队列(FIFO)对输入输出信号进行暂存。

本发明数字信号处理器采用16位定点结构的DSP即可完成所有操作。DSP是IT行业标准组件，跟电阻电容一样，属于标准用语。

本发明的优点在于：

本发明针对中文语音单音节字发声并具有明显的声调特性，音调包含大量的语言信息这一特征，突出强调放大语音的声调特征，将这一算法技术运用于数字助听器，从而能够有效提高使用者中文语音的识别率。本方法实施简单、方便，数字助听器中文使用者可以获得较好的助听效果。

附图说明

图1为本发明采用的信号处理流程框图

具体实施方式

一种用于数字助听器的中文语音处理方法，通过数字信号处理器针对中文语音信号的特征进行处理，从而提高使用者对中文语音的识别率。

本发明所述方法基于对音频的处理。其过程包括时域/频域转换处理、频域信号特征提取、元音辅音变化统计、谱分析增益处理、频域/时域转换处理。见图1。

从音频接收装置输入的语音经过A/D模数转换为数字信号，获得的语音数据流经过时域/频域转换为系统所需的语音数据流，用滤波器组把该语音数据流分解为N个频率区间，经过DFT的调制过程，单一的原型滤波器被复制为2N个复合滤波波段，通过频谱分析处理分别提取这2N个频率区间的信号特征，确定信号放大衰减策略，对每个区间的数字信号经信号特征提取、元音辅音变化统计处理、谱分析增益处理，然后由数字信号处理器根据确定的信号处理策略对这2N个频率区间的信号进行处理，通过频域/时域转换输出到输入/输出装置，再通过A/D转换后输出到声音还原装置。

所述时域/频域转换处理过程是：采用先进先出输入队列(FIFO)对时域信号进行列队，并采用迭加DFT滤波器组处理音频数据块，将时域信号转变成频域信号，利用上述滤波器组把输入信号分解为N个频率区间，经过DFT的调制过程，单一的原型滤波器被复制为2N个复合频率区间。这个调制过程在统一的滤波器组中只产生相同的滤波波形和结果。经过这一变换处理将时域信号转换为N个频率区间的频域信号。

所述频域信号特征提取过程是：对上面获得的频域信号，提取16个频率区间中每个频率区间的特征，判断该输入信号是噪音信号还是语音信号。

所述元音辅音变化统计过程是：根据前面处理的判断，如果是语音信号，则对元音辅音变化做出统计，判断语音基频的变化。

所述频谱分析增益处理过程是：根据变化的特点确定每个频率区间的增益策略，如果是噪音就给负增益，如果是语音就给正增益。

本发明所述频域/时域转换过程是时域/频域转换的逆过程，采用迭加DFT滤波器组处理音频数据块，将时域信号转变成频域信号，采用先进先出输出队列(FIFO)对输出时域信号进行列队。从而完成放大中文语音声调，达到提高使用者中文语音识别率的目的。

Claims

1、一种用于数字助听器的中文语音信号处理方法，其特征在于：

2、根据权利要求1所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：所述时域/频域转换处理过程是：采用先进先出的输入队列(FIFO)对时域信号进行列队，并采用迭加DFT滤波器组处理音频数据块，将时域信号转变成频域信号。

3、根据权利要求2所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：所述滤波器组把输入信号分解为多个频率区间，经过离散傅立叶变换(DFT)的调制过程，单一的原型滤波器被复制为2N个复合滤波波段；这个调制过程在统一的滤波器组中只产生相同的滤波波形和结果；经该傅立叶变换处理将时域信号转换为多个频率区间的频域信号。

4、根据权利要求1所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：所述频域信号特征提取过程是：对已获得的频域信号，提取多个频率区间中每个频率区间的特征，判断该输入信号是噪音信号还是语音信号。

5、根据权利要求1所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：所述元音辅音变化统计过程是：上述根据噪音或语音信号的判断，如果是语音信号，则对元音辅音变化做出统计，判断语音基频的变化。

6、根据权利要求1所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：所述谱分析并计算增益过程是：根据语音基频变化的特点确定每个频率区间的增益策略，如果是噪音就给负增益，如果是语音就给正增益。

7、根据权利要求1所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：数字信号处理器依据中文语音特征，将输入信号分解成不同的频率波段，分别统计每个波段的能量和能量变化，将所有波段的能量进行比较，找出能量最大以及最小的波段并记录，再与上一个时段的能量分布进行比较，以找到能量变化趋势，确定语音信号分布情况，根据这些分布特征对不同的波段分别进行衰减和增强，再将所有波段的信号合成输出，以此突出语音特征。

8、根据权利要求2或3所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：本发明所述信号分解成多个频率波段以及将所有频率波段的信号合成所采用的方法为迭加DFT即离散傅立叶变换和IDFT即反离散傅立叶变换滤波器组处理，进行时频域信号转换，在转换过程中采用先进先出的输出队列(FIFO)对输入输出信号进行暂存。

9、根据权利要求1或7所述的一种用于数字助听器的中文语音信号处理方法，其特征在于：数字信号处理器采用16位定点结构的DSP完成所有操作。