CN108564967B

CN108564967B - 面向哭声检测系统的Mel能量声纹特征提取方法

Info

Publication number: CN108564967B
Application number: CN201810208675.3A
Authority: CN
Inventors: 张晖; 毛小旺
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2021-05-18
Anticipated expiration: 2038-03-14
Also published as: CN108564967A

Abstract

本发明提出一种面向哭声检测系统的Mel能量声纹特征提取方法，本发明的方法基于声纹识别系统中常用的Mel倒谱系数特征，进行深入研究，发现在Mel频谱域，哭声信号Mel能量分布范围以及振荡程度与其他音频信号有较高区分度；为此，针对能量曲线分布范围差异性，提出Mel对数能量波动特征；针对能量曲线振荡差异性，提出Mel对数能量振荡特征。本发明提出的声纹特征提取方法为哭声检测系统提供了性能良好的特征提取解决方案，对哭声检测系统的性能提升有很大帮助。

Description

面向哭声检测系统的Mel能量声纹特征提取方法

技术领域

本发明涉及一种声纹特征提取方法，具体涉及一种面向哭声检测系统的Mel能量声纹特征提取方法，属于声纹特征提取技术领域。

背景技术

声纹识别技术是生物身份识别技术的一种，即利用声音来验证话者的身份，而声纹特征提取是实现声纹识别的核心技术之一。随着声纹识别技术的普及，迫切需要一种声纹特征提取方法，来实现声纹特征的提取，以保证声纹识别技术的顺利实现。

在当今这个智能家居时代，若能将声纹识别技术应用到智能家居中，毫无疑问将大大提升产品的市场竞争力。具体而言，哭声检测便是将声纹识别技术应用到智能家居产品的一个很好的切入点。而哭声检测系统具备良好性能的前提是能够找到具备足够区分度的声纹特征。

尽管目前已有诸多典型的声纹特征提取技术，但这些技术所提取出的声纹特征大多需要在特定的场景下才具备较优的使用效果，若直接应用到哭声检测系统中，不仅会大大增加了系统的复杂度，而且对整个系统的性能提升作用不大。因此，对于哭声检测这一技术而言，还需要根据应用场景“定制化”其独有的声纹特征。

综上所述，如何克服上述现有技术上的不足，提出一种面向哭声检测系统的Mel能量声纹特征提取方法，为哭声检测系统提供性能良好的特征提取解决方案，进而提升整个哭声检测系统的性能，就成为了本领域内的技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种面向哭声检测系统的Mel能量声纹特征提取方法。

本发明的目的，将通过以下技术方案得以实现：

一种面向哭声检测系统的Mel能量声纹特征提取方法，包括如下步骤：

S1，采集哭声语料与非哭声语料，建立样本数据库；

S2，从样本数据库中取一音频文件，进行语音预处理成音频帧序列；

S3，对S2所述音频帧序列中一帧进行快速傅里叶变换，得到该帧对应的频谱函数；

S4，对S3所述频谱函数经过由25个Mel滤波器组成的Mel滤波器组，计算每个滤波器所覆盖频谱范围内频谱帧的累积能量；25个Mel滤波器的计算结果，组成一个25维的Mel能量向量；

S5，取S4所述Mel能量向量的低8维能量值，进行计算自然对数操作，得到一个8维的对数能量向量；

S6，对音频帧序列中每一帧，按照S3至S5的方法进行处理，得到一个对数能量矩阵；对数能量矩阵每行为8维的对数能量向量；

S7，计算S6中所述对数能量矩阵中每列数据的方差值，8列数据计算得到8个方差值；对所述8个方差值计算均值

以此作为Mel能量波动特征；

S8，对S6中所述对数能量矩阵，以列为对象，列中每15个数据点作为一个数据段，最后一段不足15点则与相邻数据段合并；计算每个数据段所含极值数，所有数据段的计算结果组成极值数序列；其次，计算上述极值数序列均值作为阈值；进而将上述极值数序列中小于阈值的极值数置为0，得到新的极值数序列；最后，计算新的极值数序列的均值

以此作为Mel能量振荡特征；

S9，根据S7、S8获取的特征值

通过线性加权的方式组合成新的特征值Z，且满足：

其中，w₀、w₁为特征值

的权重系数；

S10，根据公式(1)，对样本库中的哭声信号与非哭声信号，分别训练哭声模型Z'与非哭声模型Z"；

S11，对于待识别的音频文件，按照S2至S8的方法获取Mel能量波动特征x与Mel能量振荡特征y，分别代入模型Z'与模型Z"，比较二者绝对值大小；若模型Z'的输出结果绝对值更大，则样本类型判决为哭声；若模型Z"的输出结果绝对值更大，则样本类型判决为非哭声。

优选地，S2中所述对音频文件进行语音预处理成音频帧序列，具体包括如下步骤：

S21，将音频文件按照固定采样频率转换成固定位数的音频数字信号；

S22，在固定的时间窗内，对S21中所述音频数字信号依次进行归一化、预加重、分帧、加窗处理，得到音频帧序列。

优选地，S10中所述对哭声信号与非哭声信号分别训练判决模型，具体包括如下步骤：

S101：对样本库中所有哭声音频文件，按照S2至S8的方法，统计各文件对应的Mel能量波动特征与Mel能量振荡特征，形成哭声特征集

其中，1≤i≤N，N为样本库中哭声音频文件总数；

S102：对S101获取的哭声特征集中特征值

采用梯度上升法进行拟合，拟合规则是

按照公式(1)进行线性加权的结果为正值且最大化；最终得到哭声判决模型：

其中，w'₀、w₁'为使用梯度上升法得到的哭声特征权重；

S103：对样本库中所有非哭声音频文件，按照S2至S8的方法，统计各文件对应的Mel能量波动特征与Mel能量振荡特征，形成非哭声特征集

其中，1≤j≤M，M为样本库中非哭声音频文件总数；

S104：对S103获取的非哭声特征集中特征值

采用梯度上升法进行拟合，拟合规则是

按照公式(1)进行线性加权的结果为负值且最小化；最终得到非哭声判决模型：

其中，w"₀、w₁"为使用梯度上升法得到的非哭声特征权重；

优选地，S21中所述固定采样率、固定位数，分别取8000Hz、16位。

优选地，S22中所述固定的时间窗，窗大小取10s，所述对音频数字信号依次进行分帧、加窗处理中，每帧的长度取20ms，窗函数为汉明窗，前后相邻两帧具有半帧的重叠区。

与现有技术相比，本发明的创新之处及其突出效果表现为：本发明所提及的面向哭声检测系统的Mel能量声纹特征提取方法基于声纹识别系统中常用的Mel倒谱系数特征，并对其进行深入研究，发现在Mel频谱域，哭声信号Mel能量分布范围以及振荡程度与其他音频信号有较高区分度；为此，针对能量曲线分布范围差异性，提出Mel对数能量波动特征；针对能量曲线振荡差异性，提出Mel对数能量振荡特征。本发明所提出的声纹特征提取方法为哭声检测系统提供了性能良好的特征提取解决方案，对哭声检测系统的性能提升有很大帮助。

综上所述，本发明使用效果优异，对系统性能的提升显著，具有很高的使用及推广价值。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明提供的面向哭声检测系统的Mel能量声纹特征提取方法流程图；

图2为本发明提供的训练哭声与非哭声判决模型的流程图。

具体实施方式

为了更加详细的描述本发明提出的一种面向哭声检测系统的Mel能量声纹特征提取方法。结合附图，具体说明如下。

图1显示了本发明提出的一种面向哭声检测系统的Mel能量声纹特征提取方法流程图，具体执行步骤如下：

S1，采集哭声语料与非哭声语料，建立样本数据库。

S2，从样本数据库中取一音频文件，进行语音预处理成音频帧序列，具体包括如下步骤：

S21，将音频文件按照固定采样频率转换成固定位数的音频数字信号，所述固定采样率、固定位数，分别取8000Hz、16位。

S22，在固定的时间窗内，对S21中所述音频数字信号依次进行归一化、预加重、分帧、加窗处理，得到音频帧序列，所述固定的时间窗，窗大小取10s，所述对音频数字信号依次进行分帧、加窗处理中，每帧的长度取20ms，窗函数为汉明窗，前后相邻两帧具有半帧的重叠区。

S3，对S2所述音频帧序列中一帧进行快速傅里叶变换，得到该帧对应的频谱函数。

S4，对S3所述频谱函数经过由25个Mel滤波器组成的Mel滤波器组，计算每个滤波器所覆盖频谱范围内频谱帧的累积能量。25个Mel滤波器的计算结果，组成一个25维的Mel能量向量。

S5，取S4所述Mel能量向量的低8维能量值，进行计算自然对数操作，得到一个8维的对数能量向量。

S6，对音频帧序列中每一帧，按照S3至S5的方法进行处理，得到一个对数能量矩阵。对数能量矩阵每行为8维的对数能量向量。

S7，计算S6中所述对数能量矩阵中每列数据的方差值，8列数据计算得到8个方差值。对所述8个方差值计算均值

以此作为Mel能量波动特征。

S8，对S6中所述对数能量矩阵，以列为对象，列中每15个数据点作为一个数据段，最后一段不足15点则与相邻数据段合并。计算每个数据段所含极值数，所有数据段的计算结果组成极值数序列。其次，计算上述极值数序列均值作为阈值。进而将上述极值数序列中小于阈值的极值数置为0，得到新的极值数序列。最后，计算新的极值数序列的均值

以此作为Mel能量振荡特征。

S9，根据S7、S8获取的特征值

通过线性加权的方式组合成新的特征值Z，且满足：

其中，w₀、w₁为特征值

的权重系数。

S10，根据公式(1)，对样本库中的哭声信号与非哭声信号，分别训练哭声模型Z'与非哭声模型Z"。

图2显示了本发明提供的训练哭声与非哭声判决模型的流程图，具体包括如下步骤：

其中，1≤i≤N，N为样本库中哭声音频文件总数。

S102：对S101获取的哭声特征集中特征值

采用梯度上升法进行拟合，拟合规则是

按照公式(1)进行线性加权的结果为正值且最大化。最终得到哭声判决模型：

其中，w'₀、w₁'为使用梯度上升法得到的哭声特征权重。

其中，1≤j≤M，M为样本库中非哭声音频文件总数。

S104：对S103获取的非哭声特征集中特征值

采用梯度上升法进行拟合，拟合规则是

按照公式(1)进行线性加权的结果为负值且最小化。最终得到非哭声判决模型：

其中，w"₀、w₁"为使用梯度上升法得到的非哭声特征权重。

S11，对于待识别的音频文件，按照S2至S8的方法获取Mel能量波动特征x与Mel能量振荡特征y，分别代入模型Z'与模型Z"，比较二者绝对值大小。若模型Z'的输出结果绝对值更大，则样本类型判决为哭声。若模型Z"的输出结果绝对值更大，则样本类型判决为非哭声。

综上所述，本发明所提及的面向哭声检测系统的Mel能量声纹特征提取方法基于声纹识别系统中常用的Mel倒谱系数特征，并对其进行深入研究，发现在Mel频谱域，哭声信号Mel能量分布范围以及振荡程度与其他音频信号有较高区分度；为此，针对能量曲线分布范围差异性，提出Mel对数能量波动特征；针对能量曲线振荡差异性，提出Mel对数能量振荡特征。本发明所提出的声纹特征提取方法为哭声检测系统提供了性能良好的特征提取解决方案，对哭声检测系统的性能提升有很大帮助。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。