CN111028852A

CN111028852A - 一种基于cnn的智能呼叫系统中的噪声去除方法

Info

Publication number: CN111028852A
Application number: CN201911077575.2A
Authority: CN
Inventors: 伍林; 尹朝阳
Original assignee: Hangzhou Zhexin Information Technology Co ltd
Current assignee: Hangzhou Zhexin Information Technology Co ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-04-17

Abstract

本发明公开了一种基于CNN的智能呼叫系统中的噪声去除方法，包括：将电话信号切片处理，归一化和分帧预处理；截取分帧后的切片信号；对截取的信号提取其Mel频谱；将提取的Mel频谱后输入神经网络模型进行模型训练，训练好的分类模型作为噪声分类模型；将新增的电话信号切片处理并分成奇数段；对切片信号归一化和分帧预处理；对分帧后的各段切片信号分别截取；对每段截取到的信号提取其Mel频谱；将提取的Mel频谱噪声分类模型。本发明的有益效果：通过基于CNN的分类模型识别信号为人声还是噪声，可以去除电话信号中的大量噪声信号，减少信号被送往ASR翻译为文字的错误率，避免过度衰减导致的音频失真。

Description

一种基于CNN的智能呼叫系统中的噪声去除方法

技术领域

本发明涉及音频处理技术领域，具体而言，涉及一种基于CNN的智能呼叫系统中的噪声去除方法。

背景技术

在现有的智能呼叫系统中，电话信号会经过VAD截取，然后送往ASR转换成文字。由于背景的复杂，存在大量的噪声片段。通常的处理方法是在信号截取前使用噪声抑制方法对信号进行过滤，主要基于信号的频率分布，对噪声进行估计，常用的算法有自适应滤波器，谱减法，维纳滤波法等。自适应滤波器利用前一刻获得的滤波器参数，自动调节当前滤波器参数，以适应信号和噪声随机变化的统计特性，从而实现过滤噪声；谱减法主要是在频域对噪声的频谱进行去除，然后通过逆傅里叶变换将频域信号恢复成时域信号；维纳滤波法主要通过设计数字滤波器来去除噪声。这些噪声抑制方法，只能过滤一部分噪声，而不能将截取的噪声片段完全去除，并且随着电话信号中信噪比的减小，降噪效果随之变差，还会出现某些时段由于过度衰减导致得音频失真。

发明内容

为解决上述问题，本发明的目的在于提供一种基于CNN的智能呼叫系统中的噪声去除方法，通过基于CNN的分类模型来识别信号为人声还是噪声，可以去除电话信号中的大量噪声信号，从而减少信号被送往ASR翻译为文字的错误率，也能避免过度衰减导致的音频失真。

本发明提供了一种基于CNN的智能呼叫系统中的噪声去除方法，包括：

步骤1，将采样好的电话信号作为训练数据，基于机器学习建立噪声分类模型：

步骤101，将电话信号进行切片处理，并对切片信号进行归一化和分帧的预处理；

步骤102，对分帧后的切片信号进行截取；

步骤103，对截取的信号提取其Mel频谱；

步骤104，将提取出的Mel频谱输入神经网络模型，进行模型训练，训练好的分类模型作为噪声分类模型；

步骤2，利用建立好的噪声分类模型，把新增的电话信号输入到具体的噪声分类模型中，得出噪声识别结果：

步骤201，将新增的电话信号进行切片处理，并将切片信号分成奇数段；

步骤202，并对切片信号进行归一化和分帧的预处理；步骤203，对分帧后的各段切片信号分别进行截取；

步骤204，对每段截取的信号提取其Mel频谱；

步骤205，将提取出Mel频谱输入训练好的噪声分类模型，识别出切片信号中的噪声。

作为本发明进一步的改进，在预处理时，采用式(1)进行归一化处理，将切片信号统一经过16位量化，取值范围在-65535到65535之间，通过除以信号绝对值的最大值将信号归一化到-1到1之间；

式中，x为需要处理的切片信号，|x|为该切片信号的绝对值，

为归一化后的切片信号。

作为本发明进一步的改进，切片信号在分帧处理时，帧长取为50ms，帧移取为12.5ms。

作为本发明进一步的改进，截取切片信号中间的20帧。

作为本发明进一步的改进，Mel频谱特征的维度为40。

作为本发明进一步的改进，步骤104中，所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成，从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。

作为本发明进一步的改进，两个CNN卷积层的卷积核大小均为3x3，CNN卷积层1和CNN卷积层2核的个数分别为32和64；两个池化层的窗口大小均为2x2；两个全连接层滤波器的个数分别为128和2。

作为本发明进一步的改进，两个CNN卷积层均使用relu作为激活函数，权重使用L1范式进行衰减，两个连接层过后经过softmax层输出信号为人声和噪声的概率值。

作为本发明进一步的改进，步骤205中，对各段切片信号的识别结果取众数，若识别为噪声的比例高，则认定该输入的切片信号为噪声，反之则为人声。

作为本发明进一步的改进，切片信号分为人声信号和噪声信号，将人声信号阈值设定为threshold＝0.2，步骤205中，当需要识别的切片信号通过分类模型后的概率大于该阈值，则认定该切片信号为人声信号。

本发明的有益效果为：

1、本发明的噪声去除方法通过基于CNN的分类模型来识别信号为人声还是噪声，可以去除电话信号中的大量噪声信号，从而减少信号被送往ASR翻译为文字的错误率，也能避免过度衰减导致的音频失真；

2、本发明的噪声去除方法在噪声识别过程中，提取Mel特征频谱供神经网络模型使用，具有高相关性，避免了非线性成份的丢失，更加适用于神经网络模型，提高了分类模型的精准度；

3、本发明的神经网络模型采用Relu激活函数，减少了计算量，也避免了过拟合。

4、本发明的噪声去除方法在噪声识别过程中，采用了将信号分奇数段进行测试，识别结果取众数的方法，能有效提高切片信号的识别准确率，并避免误删除人声。

附图说明

图1为本发明实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法的流程示意图；

图2为本发明所采用的神经网络模型的示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

如图1所示，本发明实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法，包括：

步骤1，将采样好的电话信号作为训练数据，基于机器学习建立噪声分类模型。所述步骤1具体包括：

步骤101，将电话信号进行切片处理即VAD切片，并对切片信号进行归一化和分帧的预处理。

由于切片信号的音量高低各有不同，有些信号音量较大，有些信号声音较轻，对电话信号进行归一化处理有助于识别率的提高。在预处理时，采用式(1)来进行归一化处理，切片信号统一经过16位量化，取值范围在-65535到65535之间，通过除以信号绝对值的最大值将信号归一化到-1到1之间；

式中，x为需要处理的切片信号，|x|为该切片信号的绝对值，

为归一化后的切片信号。

归一化处理切片信号后，因为切片信号的频率轮廓会随着时间的推移而丢失，因此还需要对切片信号进行分帧处理，得到的每帧信号可以作为平稳信号，用于做傅里叶变换到频域，提取频域特征。本发明的切片信号在分帧处理时，帧长取为50ms，帧移取为12.5ms。

步骤102，对分帧后的切片信号进行截取。

由于切片信号长短不一，得到的帧数量不同，考虑到有些切片信号两端会出现少量静音部分，本发明截取切片信号中间的20帧，用于提取特征图片。

步骤103，对截取到的20帧信号提取其Mel频谱。

本发明提取Mel频谱，是利用其高度相关性，相较于MFCC特征来说，Mel无需DCT线性变换，不会导致非线性成份丢失，更加适用于神经网络模型使用，提高分类模型的精准度。本发明中，Mel频谱特征的维度为40，从而对于一个切片信号，可以得到一张(20,40)大小的特征图像。

步骤104，将提取出的Mel频谱输入神经网络模型，进行模型训练，训练好的分类模型作为噪声分类模型。

本发明基于CNN，CNN的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征：较浅的卷积层感知域较小，学习到一些局部区域的特征；较深的卷积层具有较大的感知域，能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低，从而有助于识别性能的提高。

如图2所示，神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成，从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。在CNN卷积层之后跟上一个池化层，池化层的作用是提取局部均值与最大值。

具体的参数设置为：两个CNN卷积层的卷积核大小均为3x3，CNN卷积层1和CNN卷积层2核的个数分别为32和64；两个池化层的窗口大小均为2x2；两个全连接层滤波器的个数分别为128和2。其中，两个CNN卷积层均使用relu作为激活函数，增加神经网络模型的非线性。sigmoid等函数，由于需要算激活函数时(指数运算)，计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而本发明采用Relu激活函数，整个过程的计算量节省很多。另外，sigmoid函数在反向传播时，很容易就会出现梯度消失的情况(在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失，从而无法完成深层网络的训练。加之，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生，配合使用更易优化求解的L1范式权重进行衰减，进一步防止训练过拟合。两个连接层过后经过softmax层输出信号为人声和噪声的概率值，训练好后的分类模型可以用于噪声分类。

步骤2，利用建立好的噪声分类模型，把新增的电话信号输入到具体的噪声分类模型中，得出噪声识别结果。所述步骤2具体包括：

步骤201，将新增的电话信号进行切片处理，并将切片信号分成奇数段。。

本发明将较长的切片信号先分成奇数段，再进行后续特征提取，其中每段时长1s，段移为0.5s。

步骤202，对各段切片信号进行归一化和分帧的预处理。

式中，x为需要处理的切片信号，|x|为该切片信号的绝对值，

为归一化后的切片信号。

归一化处理切片信号后，因为切片信号的频率轮廓会随着时间的推移而丢失，因此还需要对切片信号进行分帧处理，得到的每帧信号可以作为平稳信号，用于提取频域特征。本发明的切片信号在分帧处理时，帧长取为50ms，帧移取为12.5ms。

步骤203，对分帧后的各段切片信号分别进行截取。

步骤204，对每段截取到的信号提取其Mel频谱。

本发明提取Mel频谱，是利用其高度相关性，相较于MFCC特征来说，Mel无需DCT线性变换，不会导致非线性成份丢失，更加适用于神经网络模型使用，提高分类模型的精准度。本发明中，Mel频谱特征的维度为40，从而对于每段切片信号，可以得到一张(20,40)大小的特征图像。

步骤205，将提取出的Mel频谱输入训练好的噪声分类模型，识别出切片信号中的噪声。对各段切片信号的识别结果取众数，若识别为噪声的比例高，则认定该输入的切片信号为噪声，反之则为人声。

由于切片信号里面既有人声也有噪声，通过步骤205的处理，能有效提高信号的识别准确率。

进一步的，切片信号分为人声信号和噪声信号，将人声信号阈值设定为threshold＝0.2，步骤205中，当需要识别的切片信号通过分类模型后的概率大于该阈值，则认定该切片信号为人声信号。该方法能将人声召回率提高到99％，避免误删除人声。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，包括：

步骤102，对分帧后的切片信号进行截取；

步骤103，对截取到的信号提取其Mel频谱；

步骤104，将提取出的Mel频谱后输入神经网络模型，进行模型训练，训练好的分类模型作为噪声分类模型；

步骤202，对切片信号进行归一化和分帧的预处理；

步骤203，对分帧后的各段切片信号分别进行截取；

步骤204，对每段截取到的信号提取其Mel频谱；

2.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，在预处理时，采用式(1)进行归一化处理，将切片信号统一经过16位量化，取值范围在-65535到65535之间，通过除以信号绝对值的最大值将信号归一化到-1到1之间；

式中，x为需要处理的切片信号，|x|为该切片信号的绝对值，

为归一化后的切片信号。

3.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，切片信号在分帧处理时，帧长取为50ms，帧移取为12.5ms。

4.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，截取切片信号中间的20帧。

5.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，Mel频谱特征的维度为40。

6.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，步骤104中，所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成，从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。

7.根据权利要求6所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，两个CNN卷积层的卷积核大小均为3x3，CNN卷积层1和CNN卷积层2核的个数分别为32和64；两个池化层的窗口大小均为2x2；两个全连接层滤波器的个数分别为128和2。

8.根据权利要求6所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，两个CNN卷积层均使用relu作为激活函数，权重使用L1范式进行衰减，两个连接层过后经过softmax层输出信号为人声和噪声的概率值。

9.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，步骤205中，对各段切片信号的识别结果取众数，若识别为噪声的比例高，则认定该输入的切片信号为噪声，反之则为人声。

10.根据权利要求9所述的基于CNN的智能呼叫系统中的噪声去除方法，其特征在于，切片信号分为人声信号和噪声信号，将人声信号阈值设定为threshold＝0.2，步骤205中，当需要识别的切片信号通过分类模型后的概率大于该阈值，则认定该切片信号为人声信号。