CN113724720B

CN113724720B - 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法

Info

Publication number: CN113724720B
Application number: CN202110813330.2A
Authority: CN
Inventors: 韩皓天; 余安东
Original assignee: Fifth Research Institute Of Telecommunications Technology Co ltd
Current assignee: Fifth Research Institute Of Telecommunications Technology Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2023-07-11
Anticipated expiration: 2041-07-19
Also published as: CN113724720A

Abstract

本发明提供一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，包括获取不包含人声和包含人声的语音信号，并切分和补齐MFCC特征及其Delta信息、Delta‑Delta信息、RMSE，再训练神经网络得到训练好的预测模型；实时的待过滤语音信号接入后，由预测模型根据该信号的MFCC融合特征对每个切片存在人声的可能性进行打分，最后按照阈值实现对非人声语音进行过滤。本发明将基于MFCC的多维特征进行融合、补全，以及神经网络对每个语音切片的概率评分，解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题，能够在嘈杂环境下对非人声语音进行快速过滤。

Description

一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法

技术领域

本发明涉及语音信号处理及计算机软件技术领域，具体而言，涉及一种基于神经网络和MFCC(Mel Frequency Cepstrum Coefficient)的嘈杂环境下非人声语音过滤方法。

背景技术

近年来，人工智能技术飞速发展且日趋成熟，一方面计算机产业的迅速发展，软、硬件环境的改善为复杂算法的实现提供了良好的环境；另一方面，数字信号处理的理论和算法已有大量积累，如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等诸多算法的出现，使得识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。

语音识别和分类技术已广泛应用于各项领域中，但现有的语音识别系统都有一个共同的问题，即在噪音环境下，识别率会大幅下降。在语音分类中由于噪声导致的误吸收最为显著，因此语音分类系统就必须考虑在面对嘈杂环境时的准确率。在将特征输入至神经网络前需确保其维度一致，现有的通用补全策略是对末尾进行补0，但在面对仅在信号末尾处有人声且需进行补齐的极端情况时，这种补全策略不能满足对准确率有高需求的过滤系统。

发明内容

本发明旨在提供一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，以解决上述存在的问题。

本发明提供的一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，包括如下步骤：

步骤S1，训练神经网络：

(11)获取不包含人声和包含人声的语音信号；

(12)提取该语音信号的MFCC融合特征；所述MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE；

(13)对该语音信号的MFCC融合特征进行特征处理；所述特征处理包括切分和补齐；

(14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练，得到训练好的预测模型；

步骤S2，非人声语音过滤：

(21)获取待预测语音信号；

(22)提取该待预测语音信号的MFCC融合特征；

(23)对该待预测语音信号的MFCC融合特征进行特征处理；

(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型，实现对待预测语音信号的非人声语音过滤。

进一步的，步骤(12)和步骤(22)中提取MFCC融合特征的方法为：

对语音信号进行预校验和添加标记；

将进行预校验和添加标记后的语音信号，通过N阶滤波器并剔除第零分量后，得到N-1维的MFCC特征；

对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波，得到Delta信息；

对N-1维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波，得到Delta-Delta信息；

根据原始的语音信号的梅尔频谱计算RMSE；

将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3(N-1)+1维的MFCC融合特征。

进一步的，所述对语音信号进行预校验和添加标记的方法为：遍历所有语音信号，若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算，并给予不一致标记；否则仅将语音信号中的一个声道参与后续计算，并给予一致标记。

进一步的，步骤(13)和步骤(23)中对MFCC融合特征进行特征处理的方法为：按预设窗口大小M将3(N-1)+1维的MFCC融合特征进行切分，得到K个切片；并对K个切片进行自动补齐，获得K个N-1*M维的特征矩阵。

进一步的，所述对K个切片进行自动补齐的方法为：

若K＞1，则通过向前平移进行补齐；

若K＝1，则通过迭代自身进行补齐。

进一步的，步骤(24)的方法为：将K个N-1*M维的特征矩阵输入训练好的预测模型，最终输出一个代表每一个切片是否需要过滤的K维矩阵，若某个切片的K维矩阵中各值均不大于阈值S，则将该切片标记为过滤。

作为优选，S＝0.5。

进一步的，所述神经网络包括：

卷积核分别为3*3、2*2的最大池化层；

以LeakyRELU为激活函数的CNN；

一层隐藏单元为128的BiLSTM层；

以及两层隐藏单元分别为256和1的全连接层。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明将基于MFCC的多维特征进行融合、补全，以及神经网络对每个语音切片的概率评分，解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题，能够在嘈杂环境下对非人声语音进行快速过滤。具体地：

1、本发明在计算MFCC特征时分析各分量对噪声的敏感程度，通过对MFCC特征去除对噪声敏感的第零分量，能够有效提升特征在嘈杂环境下的鲁棒性。结合Delta、Delta-Delta、RMSE特征，将多个特征融合作为预测模型的输入特征，能够显著提升嘈杂环境下对非人声语音信号的识别准确率。

2、本发明引入了自动补齐的机制，可以有效提升仅在信号末尾处有人声且需进行补齐的极端情况的识别准确率。

3、本发明中实现了基于CNN和BiLSTM的语音信号二分类神经网络模型，结合自动补齐的机制将会更加充分的挖掘语音信号的上下文关系，最终得出更加准确地识别结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的运行环境业务关系图。

图2为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的流程图。

图3a为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的自动补齐机制中向前平移补齐与传统补零补齐的对比示意图。

图3b为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的自动补齐机制中自身迭代补齐与传统补零补齐的对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1、图2所示，本实施例提出一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，所述嘈杂环境下非人声语音过滤方法包括如下步骤：

步骤S1，训练神经网络：

(11)获取不包含人声和包含人声的语音信号；

(12)提取该语音信号的MFCC融合特征；所述MFCC融合特征均包括MFCC特征、Delta信息(MFCC特征的一阶差分)、Delta-Delta信息(MFCC特征的二阶差分)以及RMSE；

其中，提取MFCC融合特征的方法为：

对语音信号进行预校验和添加标记：遍历所有语音信号，若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算，并给予不一致标记；否则仅将语音信号中的一个声道参与后续计算，并给予一致标记，以此来避免在后续MFCC特征提取时的大量冗余计算。

将进行预校验和添加标记后的语音信号，通过N阶滤波器并剔除第零分量后，得到N-1维的MFCC特征。如选择N＝21阶的滤波器，由此得到的是除第零分量以外的20维MFCC特征。

根据原始的语音信号的梅尔频谱计算RMSE(均方根误差)；

(13)对该语音信号的MFCC融合特征进行特征处理；所述特征处理包括切分和补齐；具体地：按预设窗口大小M(即步长，本实施例取M＝200)将3(N-1)+1维的MFCC融合特征进行切分，得到K个切片；并对K个切片进行自动补齐，获得K个N-1*M维的特征矩阵。所述对K个切片进行自动补齐的方法为：

若K＞1，则通过向前平移进行补齐；

若K＝1，则通过迭代自身进行补齐。

需要说明的是，通用的采取补零来维持输入特征维度的方法会影响识别效果，补零越多对最终识别结果影响越大。本发明的自动补齐的方法中，向前平移进行补齐带来了更多的上下文关系，如图3a所示，无法向前平移进行补齐则采取了迭代自身进行补齐的方法，如图3b所示，这种方法相当于增加了原始语音信号中短暂人声的权重。因此，该自动补齐的方法可以有效提升仅在信号末尾处有人声且需进行补齐的极端情况的识别准确率。

(14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练，得到训练好的预测模型；本实施例中的所述神经网络包括：

卷积核分别为3*3、2*2的最大池化层；

以LeakyRELU为激活函数的CNN，用于学习MFCC融合特征的局部特征；

一层隐藏单元为128的BiLSTM层，用于学习MFCC融合特征中的长短期依赖关系；

以及两层隐藏单元分别为256和1的全连接层。

步骤S2，非人声语音过滤：

(21)获取待预测语音信号；

(22)提取该待预测语音信号的MFCC融合特征；该步骤提取MFCC融合特征的方法与步骤(12)一致，在此不再赘述。

(23)对该待预测语音信号的MFCC融合特征进行特征处理；该步骤进行特征处理的方法与步骤(23)一致，在此不再赘述。

(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型，实现对待预测语音信号的非人声语音过滤。具体地：将K个N-1*M维的特征矩阵输入训练好的预测模型，最终输出一个代表每一个切片是否需要过滤的K维矩阵，若某个切片的K维矩阵中各值均不大于阈值S(优选取S＝0.5)，则将该切片标记为过滤。

至此，本发明将基于MFCC的多维特征进行融合、补全，以及神经网络对每个语音切片的概率评分，解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题，能够在嘈杂环境下对非人声语音进行快速过滤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，所述嘈杂环境下非人声语音过滤方法包括如下步骤：

步骤S1，训练神经网络：

(11)获取不包含人声和包含人声的语音信号；

步骤S2，非人声语音过滤：

(21)获取待预测语音信号；

(22)提取该待预测语音信号的MFCC融合特征；

(23)对该待预测语音信号的MFCC融合特征进行特征处理；

(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型，实现对待预测语音信号的非人声语音过滤；

步骤(12)和步骤(22)中提取MFCC融合特征的方法为：

对语音信号进行预校验和添加标记；

根据原始的语音信号的梅尔频谱计算RMSE；

2.根据权利要求1所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，所述对语音信号进行预校验和添加标记的方法为：遍历所有语音信号，若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算，并给予不一致标记；否则仅将语音信号中的一个声道参与后续计算，并给予一致标记。

3.根据权利要求2所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，步骤(13)和步骤(23)中对MFCC融合特征进行特征处理的方法为：按预设窗口大小M将3(N-1)+1维的MFCC融合特征进行切分，得到K个切片；并对K个切片进行自动补齐，获得K个N-1*M维的特征矩阵。

4.根据权利要求3所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，所述对K个切片进行自动补齐的方法为：

若K＞1，则通过向前平移进行补齐；

若K＝1，则通过迭代自身进行补齐。

5.根据权利要求3或4所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，步骤(24)的方法为：将K个N-1*M维的特征矩阵输入训练好的预测模型，最终输出一个代表每一个切片是否需要过滤的K维矩阵，若某个切片的K维矩阵中各值均不大于阈值S，则将该切片标记为过滤。

6.根据权利要求5所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，S＝0.5。

7.根据权利要求1所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法，其特征在于，所述神经网络包括：

卷积核分别为3*3、2*2的最大池化层；

以LeakyRELU为激活函数的CNN；

一层隐藏单元为128的BiLSTM层；

以及两层隐藏单元分别为256和1的全连接层。