CN102779527A

CN102779527A - 基于窗函数共振峰增强的语音增强方法

Info

Publication number: CN102779527A
Application number: CN201210278305XA
Authority: CN
Inventors: 贺知明; 吴少智; 何姣; 吴跃
Original assignee: WUXI UESTC TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: Electronic Science And Technology Of Sichuan Foundation For Education Development, University of
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2012-11-14
Anticipated expiration: 2032-08-07
Also published as: CN102779527B

Abstract

本发明公开了一种基于窗函数共振峰增强的语音增强方法，包括以下步骤：对语音信号进行预加重；对预加重后的语音信号进行分帧；对分帧后的语音信号进行清浊音判决，提取浊音帧信号；对提取的浊音帧信号，采用线性预测(LPC)方法,计算出浊音帧信号频谱包络；根据计算出的频谱包络，搜索共振峰，并记录下前三个共振峰的中心频率和幅值；根据上述记录下的前三个共振峰的中心频率和幅值，确定提升滤波器的强度系数和待增强的中心频率；根据上述确定的提升滤波器的强度系数和待增强的中心频率，进行共振峰增强；对上述共振峰增强后的共振峰增强谱滤波处理。实现在增强语音的目的的同时计算简单、鲁棒性好的优点。

Description

基于窗函数共振峰增强的语音增强方法

技术领域

本发明涉及语言处理领域，具体地，涉及一种基于窗函数共振峰增强的语音增强方法。

背景技术

语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、区域组织和一些国家相继制定了一系列语音压缩编码标准，在编码速率为2.4kb/s和16kb/s上达到了令人满意的语音质量。然而，当将几种不同的编码方式级联时，例如将G729和AMR级联时，得出的语音质量特别是可懂度很难达到满意的效果。

语音的可懂度简称语音可懂度，一般涉及语音的理解程度，并且是语音通信有效性的度量。讲话很快或者是讲话含糊不清的人可能很难被理解。但是，如果消息不是完全听得到，或者消息在传送过程中已经失真或能量损失过大，则即使听者的母语流利说出的语音也有可能会被听者误解。

目前国内外的语音可懂度增强技术的研究主要集中在由背景噪声所降低的语音的清晰度，而这些语音的共振峰信息往往保持完好，故增强对话区域的共振峰便能达到提高可懂度的目的。然而现实生活中语音经传输后能量削弱，会导致共振峰信息的丢失甚至是畸变，例如上述所说的G729和AMR级联，由于经过两次级联语音能量特别是高频信息损失严重，导致语音共振峰信息削弱或是丢失。在这种背景下，简单地增强共振峰是很难达到提高可懂度的目的的。

现有的用共振峰增强对话的方法和装置，仅在噪声环境下且语音共振峰保持完好的情况下可以提高语音的清晰度，一旦共振峰信息丢失、畸变或提取不正确，使用这一方法对于提高可懂度效果不理想且有可能同时放大噪声，也就是说可懂度提升的同时会降低语音的音质；二是获取的共振峰可靠性差、计算复杂。

发明内容

本发明的目的在于，针对上述问题，提出一种基于窗函数共振峰增强的语音增强方法，以实现在增强语音的目的的同时计算简单、鲁棒性好的优点。

为实现上述目的，本发明采用的技术方案是：

一种基于窗函数共振峰增强的语音增强方法，包括以下步骤：

使用数字滤波器对语音信号进行了预加重；

对上述预加重后的语音信号的采用重叠分帧的方法，即前后两帧有重叠的部分，保证帧与帧之间平滑过渡，从而保持信号的连续性，对进行分帧；

对上述分帧后的语音信号进行清浊音判决，提取浊音帧信号；

对上述提取的浊音帧信号，采用线性预测 (LPC)方法,计算出上述浊音帧信号频谱包络；

根据上述计算出的频谱包络，搜索出共振峰，并记录下前三个共振峰的中心频率和幅值；

根据上述记录下的前三个共振峰的中心频率和幅值，确定提升滤波器的强度系数和待增强的中心频率；

根据上述确定的提升滤波器的强度系数和待增强的中心频率，进行共振峰增强；

对上述共振峰增强后的共振峰增强谱做IFFT变换得到一组新的线性预测系数

Figure 201210278305X100002DEST_PATH_IMAGE001

，用该

系数对当前语音帧做滤波处理。

根据本发明的优选实施例，所述使用数字滤波器对语音信号进行了预加重采用的数字滤波器如下：

Figure 201210278305X100002DEST_PATH_IMAGE003

；

根据本发明的优选实施例，所述采用重叠分帧的方法对该预加重后的语音信号进行分帧具体为：帧长在10ms~40ms之间，帧移在5ms~20ms之间。

根据本发明的优选实施例，所述线性预测 (LPC)方法采用莱文逊-杜宾递推算法，其具体如下：

(1) 计算自相关函数

，其中

代表阶数；

(2) 令；

(3) 递推从开始；按如下公式进行递推运算：

Figure 201210278305X100002DEST_PATH_IMAGE009

(4)

，若

，则算法结束，否则返回第(3)步，重新进行递推；

其中

表示反射系数，表示第

阶预测器的第

个预测系数，

为第阶预测器的预测残差能量，经过递推后可得到

各阶预测器的解，其最终解为：

。

根据本发明的优选实施例，所述确定提升滤波器的强度系数和待增强的中心频率，其具体如下：

若上述前三个共振峰均存在，则提升滤波器的强度系数设定为上述三个共振峰幅值的均值；

若上述前三个共振峰不全存在，则设定为存在的共振峰幅值的均值。

根据本发明的优选实施例，所述共振峰增强采用窗函数提升的方法，其具体如下：

在保持语音信号原始谱包络轨迹的基础上对信号共振峰做增强处理，即在多个共振峰的带宽范围内使用提升滤波器对共振峰做相同幅度的提升。

根据本发明的优选实施例，所述窗函数提升方法采用双汉宁窗对每一共振峰的

带宽做相同幅度的提升，即在每一共振峰中心频率两边采用不同的汉宁窗提升滤波器。

根据本发明的优选实施例，所述汉宁窗函数如下：。

本发明的技术方案，通过数字滤波器对语音信号进行预加重，然后对语音信号进行分帧，对分帧后的语音信号提取浊音帧信号，对提取浊音帧信号进行线性预测方法处理后，对共振峰增强后进行滤波，通过选择性地增强共振峰，从而达到增强语音的目的，提高语音可懂度和音质；同时具有计算简单、鲁棒性好的优点。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例所述的基于窗函数共振峰增强的语音增强方法的流程图；

图2为本发明实施例所述的基于窗函数共振峰增强的语音增强方法的结构框图；

图3为基于窗函数共振峰增强的语音增强方法中共振峰增强的框图；

图4为原始语音的LPC对数谱图；

图5为对图4所示的原始语音经过两级编解码后的LPC对数谱图；

图6为对图5所示的经过经过两级编解码后的LPC对数谱通过本发明所述基于窗函数共振峰增强的语音增强方法处理后的LPC对数谱图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1至图3所示，一种基于窗函数共振峰增强的语音增强方法，包括以下步骤：

使用数字滤波器对语音信号进行了预加重；

采用的数字滤波器如下：

；

对预加重后的语音信号的采用重叠分帧的方法对该预加重后的语音信号进行分帧；帧长在10ms~40ms之间，帧移在5ms~20ms之间；

对分帧后的语音信号进行清浊音判决，提取浊音帧信号；

对提取的浊音帧信号，采用线性预测 (LPC)方法,计算出上述浊音帧信号频谱包络；

线性预测 (LPC)方法采用莱文逊-杜宾递推算法，其具体如下：

(1) 计算自相关函数

，其中

代表阶数；

(2) 令

；

(3) 递推从

开始；按如下公式进行递推运算：

(4)

，若

，则算法结束，否则返回第(3)步，重新进行递推；

其中

表示反射系数，表示第

阶预测器的第个预测系数，

为第

阶预测器的预测残差能量，经过递推后可得到各阶预测器的解，其最终解为：

。

根据计算出的频谱包络，搜索出共振峰，并记录下前三个共振峰的中心频率和幅值；

根据记录下的前三个共振峰的中心频率和幅值，确定提升滤波器的强度系数和待增强的中心频率；

根据确定的提升滤波器的强度系数和待增强的中心频率，进行共振峰增强；

对共振峰增强后的共振峰增强谱做IFFT变换得到一组新的线性预测系数，用该

系数对当前语音帧做滤波处理。

其中，确定提升滤波器的强度系数和待增强的中心频率，其具体如下：

若前三个共振峰均存在，则提升滤波器的强度系数设定为三个共振峰幅值的均值；

若前三个共振峰不全存在，则设定为存在的共振峰幅值的均值。

共振峰增强采用窗函数提升的方法，其具体如下：

在保持语音信号原始谱包络轨迹的基础上对信号共振峰做增强处理，即在多个共振峰的带宽范围内使用提升滤波器对共振峰做相同幅度的提升。窗函数提升方法采用双汉宁窗对每一共振峰的

带宽做相同幅度的提升，即在每一共振峰中心频率两边采用不同的汉宁窗提升滤波器，根汉宁窗函数如下：

。

通过图4至图6的比较可以明显的看出采用本发明的技术方案处理后的语音信号有了显著的增强。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。