CN105427859A

CN105427859A - 一种用于对说话人识别的前端语音增强方法

Info

Publication number: CN105427859A
Application number: CN201610008120.5A
Authority: CN
Inventors: 李昕; 朱杰
Original assignee: Shenzhen Yinjiami Technology Co Ltd
Current assignee: Shenzhen Yinjiami Technology Co Ltd
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2016-03-23

Abstract

本发明公开了一种用于对说话人识别系统的前端语音增强方法。该方法以传统谱减法为基础，结合非平稳噪声估计算法，并通过多频带谱减法得到初步增强的语音去计算听觉掩蔽阈值，从而自适应地调整谱减法的相关参数，得到一种适用于说话人识别系统的前端处理器，相比常规的语音增强算法，本发明既能提高说话人识别系统的抗噪声性能，又能通过调整参数来最大程度降低语音失真，保持说话人的语音特征，从而使说话人识别系统在噪声环境下的识别率得到有效提升。

Description

一种用于对说话人识别的前端语音增强方法

技术领域

本发明涉及语音信号处理领域，特别指一种用于对说话人识别的前端语音增强方法。

背景技术

说话人识别是一种通过特定人说话的语音对其身份进行识别的技术。但由于实际环境中存在各种各样的噪声，说话人识别系统的性能会显著降低。在前端加入合适的语音增强模块可以有效地提高整体系统的识别率，以提高系统对噪声的鲁棒性。然而实际情况下，语音增强算法无法完全恢复纯净的语音信号，而且由于算法本身的缺陷会带来残留噪声和语音失真。对于说话人识别技术来说，它利用语音中蕴含的说话人特征信息对说话人的身份进行识别，因而对语音失真十分敏感，所以针对说话人识别系统的前段语音增强方法不同于常规的语音增强方法，需要进行相应的调整，以达到最佳的系统识别效果。

单通道语音增强是一种对带噪语音信号进行分析处理，估计得到纯净语音信号的处理技术。实际环境中的噪声信号通常是高度非平稳信号，其噪声能量在频谱上分布极不均匀，且随时间快速变化，在此情况下对噪声的估计和相应的语音信号恢复都是十分困难的。常规的语音增强方法有谱减法、维纳滤波法、信号子空间分离方法和统计模型方法等，它们各有优势与不足之处，往往会根据实际应用场景做相应的选择或融合。谱减法是一种实现简单快速但效果显著的语音增强算法，以其为基础的各种改进方法目前也在语音处理系统中被广泛使用。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于听觉掩蔽阈值和参数自适应的改进谱减法，通过掩蔽阈值来保证语音失真度最小化，从而既能提高说话人识别系统的抗噪声性能，又尽可能地达到对语音特征损伤最小的用于对说话人识别的前端语音增强方法。

本发明解决该技术问题所采用的技术方案如下：一种用于对说话人识别的前端语音增强方法，包括以下步骤：

第一步，对输入语音信号进行分帧、加窗，对每一帧用FFT计算短时功率谱和相位谱；

第二步，利用语音帧的短时功率谱进行估计，采用改进最小控制递归平均算法估计噪声的功率谱；

该估计算法通过两次平滑，两次最小值搜索和计算语音存在概率得出最终的噪声功率谱结果，功率谱平滑公式和最小值搜索方法如下所示：

而语音存在概率通过第一次平滑的结果和先验后验信噪比得出，公式如下：

上述公式中，分别为频带序号和帧序号，为语音不存在的概率，分别为先验和后验信噪比，而；

最后根据语音存在的概率估计噪声功率谱：

第三步，用估计得到的噪声功率谱做初步降噪，采用的降噪方法为多频带谱减法，得到初步的增强语音功率谱，多频带谱减法的公式如下所示：

其中过减因子和控制因子随子频带信噪比和频率进行自适应调整；

第四步，利用初步增强语音功率谱计算听觉掩蔽阈值，具体是计算Bark子带的功率谱，后用扩散函数进行扩散后得到扩散功率谱：

之后再利用谱平坦度判决子带的语音存在概率，以此调整得到掩蔽阈值：

最后与绝对听域比较得到最终的掩蔽阈值：

第五步，利用听觉掩蔽阈值调整过减因子和谱减系数，进行第二次谱减法，最后用IFFT得到最终的增强信号，过减因子和谱减系数的调整公式如下：

而采用自适应参数调整的谱减法公式如下所示：

。

优选地，所述的最大过减因子具体为；且为掩蔽阈值设置了浮动范围，以防止参数变化过大，使得语音特征能最大程度地保留。

优选地，上述步骤中所采用的硬件设备为PC机。

优选地，上述的用于说话人识别系统的前端语音增强方法，经过实验检验，在信噪比输出和说话人识别系统的性能提升方面，均比常规谱减法有很大改善。

本发明的有益效果在于：

本发明与常规的谱减法相比，在说话人识别系统前端处理上具有实质性特点和显著进步，具体体现如下：

(1)本发明以传统谱减法为基础，提出了结合最小控制递归平均噪声估计过程及计算听觉掩蔽阈值的改进型二次谱减法，能自适应调整谱减法中涉及的各项参数，以保证语音增强后的语音失真最小化，从而使处理后的语音信号在说话人识别系统中有良好的表现。

(2)通过多频带谱减法的初步处理，得到初步的语音增强结果以计算听觉掩蔽阈值，相比直接在带噪语音中计算掩蔽阈值更为准确，从而保证第二次的参数调整能更好地体现纯净语音的掩蔽特性，从而在噪声频段降低残留噪声，在语音频段保持语音特征。

附图说明

图1为前端语音增强算法的流程图。

图2为Bark临界带宽对应FFT频点表。

图3(a)为纯净语音的时域波形图。

图3(b)为带噪语音的时域波形图。

图3(c)为采用常规谱减法语音增强后的时域波形图。

图3(d)为采用多频带谱减法语音增强后的时域波形图。

图3(e)为采用本发明语音增强方法后的时域波形图。

图4(a)为white噪声下SNR输入输出曲线图。

图4(b)为white噪声下SNR输入输出曲线图。

图4(c)为white噪声下SNR输入输出曲线图。

具体实施方式

下面将结合附图对本发明作进一步描述：

如图1所示，本发明采取的技术方案如下：一种用于对说话人识别的前端语音增强方法，包括以下步骤：

最后根据语音存在的概率估计噪声功率谱：

最后与绝对听域比较得到最终的掩蔽阈值：

而采用自适应参数调整的谱减法公式如下所示：

。

最大过减因子具体为；且为掩蔽阈值设置了浮动范围，以防止参数变化过大，使得语音特征能最大程度地保留。

具体地，实际环境中，带噪语音信号通常是由纯净语音信号与干扰信号的叠加得到：

其中为带噪信号，为纯净语音信号，为噪声信号，为时间序列，在数字信号处理中通常为离散表示。

语音增强的目的就是从带噪信号中通过噪声估计和语音恢复算法得到纯净语音信号的过程，研究表示，语音信号可近似看作短时平稳信号，因而一般的语音增强方法是对短时语音帧的频域内对信号进行处理：

通常仅对幅度谱或功率谱进行处理，而相位谱不做变化。

下面按模块顺序对此方法进行解释：

(1)噪声估计

对于单通道语音增强方法，噪声信息无法直接得到，只能从带噪语音中进行估计得到。而噪声估计的结果对语音增强效果有十分重要的影响，噪声估计过高，则会破坏纯净语音信号，而噪声估计过低，则会有更大的残留噪声或音乐噪声。因而采取合适的噪声估计算法在前端语音处理中是非常必要的。

传统噪声估计方法是利用语音活动检测(VAD)检测出非语音帧，将其视作噪声进行平滑后得到噪声的估计，但实际的噪声是高度非平稳信号，这种估计方法无法准确跟踪噪声能量的变化，因而本发明采用基于最小值跟踪的改进最小控制递归平均算法进行噪声的估计。

该噪声估计方法针对和两个关于语音不存在与存在的情况，假设语音和噪声的短时功率谱概率密度函数服从高斯分布，语音存在的概率可表示为：

其中分别为频谱序号和帧序号，为语音不存在的概率，分别为先验和后验信噪比，。利用语音存在的概率得到最终的噪声估计结果：

其中，由于语音存在概率计算结果偏大，需要引入偏差因子进行补偿，经验值1.47：

语音存在概率通过两次频域功率谱平滑和最小值搜索来实现，第一次平滑：

其中为功率谱平滑结果，为归一化汉明窗，窗长取3，为第一次平滑系数。最小值搜索在有限窗长内寻找各频带的最小值：

从递归平滑和最小值搜索的结果可以对语音存在进行第一次判决：

其中，，为偏差系数，为用于判断语音存在性的阈值参数。

根据第一次判决结果，当判断语音不存在时，对噪声功率谱进行更新：

之后进行第二次平滑，参数与第一次相同：

同样进行第二次最小值搜索：

最后由下式计算得到语音存在概率：

其中，，为新阈值参数。

以上即语音存在概率的详细计算方法，通过存在概率就能计算得到噪声的估计结果。

(2)多频带谱减

为了计算听觉掩蔽阈值，理想情况是在纯净的语音信号上进行，但实际中仅有带噪语音，为了使掩蔽阈值结果尽可能接近纯净语音信号，先对输入信号进行一次初步增强处理，在此基础上进行后续步骤。这里选择多频带谱减法作为初步处理的方法，该算法由于参数在频带上随子带信噪比自适应调整，相比传统谱减法其残留噪声更小，且计算复杂度不高，适合用于初步处理。

多频带谱减法是一种改进型谱减算法，通过划分频带计算每个频带的后验信噪比来调整算法参数，使在频域分布不均匀的噪声得到去除，从而降低残留噪声，其主要公式如下：

其中为前一步得到的噪声估计功率谱，谱减参数，过减因子和控制因子随子带信噪比和频带位置变化，具体取值方法如下所示：

(3)听觉掩蔽阈值

听觉掩蔽阈值的使用原理为听觉掩蔽效应，当两个强度不同的声音作用于人耳听觉系统时，强度较高的频率成分会影响人耳对另一个频率成分的听觉感受，使其变得不易察觉，被掩蔽的最大声压级成为掩蔽阈值。在此语音增强方法中，根据掩蔽阈值来调整谱减参数，在高掩蔽下降低过减因子，避免了语音特征因语音增强遭到破坏，达到降低语音失真的效果。

利用初步增强信号计算掩蔽阈值，详细的计算方法为，先基于Bark临界带宽求出每一Bark带中的功率谱之和，再对其进行频谱扩散，掩蔽阈值可以从扩散后的临界功率谱和绝对听阈的比较后得到。Bark带的划分由附图2所示，各子带功率谱和为：

其中为第个Bark带，扩散功率谱由扩散矩阵和相互卷积得到：

分别是被掩蔽信号和掩蔽信号的Bark带序号，且只考虑的情况，而扩散函数定义如下：

其中为频带距离。在得到扩散功率谱后，采用谱平坦度来对语音信号进行纯音和噪声的判决，表示为：

其中分别为每个Bark带功率谱的几何平均和算术平均，同时定义音调系数：

最大平坦度通过音调系数判断信号的语音的概率，从而调整得到掩蔽能量的偏移系数：

最终计算得到听觉掩蔽阈值，同一个Bark带中各个频段的掩蔽阈值是相同的，并且需要与绝度听阈相比较取大者：

绝度听阈与实际频率相关，由下式表示：

(4)自适应参数谱减

在得到了每一帧的掩蔽阈值后自适应调整谱减参数，由于掩蔽阈值的取值范围较大，仅在一定范围内调整谱减参数，这里取防止参数过大导致语音失真，其自适应方式如下所示：

为了最大限度保持语音特征，相比一般谱减法应适当降低过减因子，因而经实验确定，利用调整后的参数进行第二次谱减法就得到最终的语音增强信号：

下面结合实例来说明此发明的实际效果，给出一段纯净语音信号，仿真混合5dB的加性白噪声，统一采用最小控制递归算法进行噪声估计，后分别采用传统谱减法，多频带谱减法和本发明的语音增强方法进行处理，处理结果如图3所示。可以看出，多频带谱减法和本发明方法相比传统谱减法在残留噪声和语音失真方面有很大改善，而本发明方法相比多频带谱减法在语音特征的保持方面有一定效果。

图4分别给出了以上三种语音增强方法在white,car和babble噪声下的信噪比SNR变化曲线，可以看出本发明方法相比常规谱减法在信噪比提升上有很大进步，稍好于多频带谱减法，但其主要优势还是体现在说话人特征的保持上。

本发明方法主要应用于噪声环境下说话人识别的前端处理，因而在基于i-vector的说话人识别系统中进行仿真测试，在识别端的语音中加入了不同信噪比的pink噪声，分别在无语音增强方法、传统谱减法和本发明方法下进行实验，得到系统各语音增强方法下说话人识别等错误率EER变化表如下表所示：

EER(%)	5dB	0dB	-5dB
				无增强	17.54	22.81	26.75
传统谱减法	18.86	23.25	33.66
				本发明方法	13.18	16.22	24.45

可以看出在相对较高的信噪比下系统整体识别准确率有一定程度的提高，而传统谱减法由于残留噪声较大反而会导致识别性能的降低。

本发明的实施例只是介绍其具体实施方式，不在于限制其保护范围。本行业的技术人员在本实施例的启发下可以作出某些修改，故凡依照本发明专利范围所做的等效变化或修饰，均属于本发明专利权利要求范围内。

Claims

1.一种用于对说话人识别的前端语音增强方法，包括以下步骤：

最后根据语音存在的概率估计噪声功率谱：

其中过减因子和控制因子随子频带信噪比和频率进行自适应调整方式如下：

最后与绝对听域比较得到最终的掩蔽阈值：

而采用自适应参数调整的谱减法公式如下所示：

。

2.根据权利要求1所述的一种用于对说话人识别的前端语音增强方法，其特征在于：所述的最大过减因子具体为；且为掩蔽阈值设置了浮动范围，以防止参数变化过大，使得语音特征能最大程度地保留。