CN113450816A

CN113450816A - 一种基于深度神经网络的语音主动降噪方法

Info

Publication number: CN113450816A
Application number: CN202110666518.9A
Authority: CN
Inventors: 胡程远
Original assignee: Hefei Sanen Information Technology Co ltd
Current assignee: Hefei Sanen Information Technology Co ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-09-28

Abstract

本发明提供一种基于深度神经网络的语音主动降噪方法，包括如下步骤：步骤1：采集待降噪的语音数据，并对语音数据进行预处理；步骤2：构建初始RNN音频降噪模型；步骤3：获取训练语音数据，并通过训练语音数据训练初始RNN音频降噪模型；步骤4：通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪，得到降噪后的语音数据；本发明使得训练数量将会大大减少，加快了训练速度，既保持了良好的降噪性能，又可以进行实时降噪。

Description

一种基于深度神经网络的语音主动降噪方法

技术领域

本发明涉及语音降噪技术领域，具体为一种基于深度神经网络的语音主动降噪方法。

背景技术

深度神经网络是机器学习(ML，Machine Learning)领域中一种技术。

在监督学习中，以前的多层神经网络的问题是容易陷入局部极值点。如果训练样本足够充分覆盖未来的样本，那么学到的多层权重可以很好的用来预测新的测试样本。但是很多任务难以得到足够多的标记样本，在这种情况下，简单的模型，比如线性回归或者决策树往往能得到比多层神经网络更好的结果(更好的泛化性，更差的训练误差)。非监督学习中，以往没有有效的方法构造多层网络。多层神经网络的顶层是底层特征的高级表示，比如底层是像素点，上一层的结点可能表示横线，三角；而顶层可能有一个结点表示人脸。一个成功的算法应该能让生成的顶层特征最大化的代表底层的样例。如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合。

现有的基于深度神经网络降噪的方法中降噪实现途径多样，但是困难的部分大多数是为了应对各种噪音就需要仔细的调整算法中的各个系数，针对各种场景进行大量和特殊情形的测试，使其始终保持良好的性能，导致降噪不能进行实时降噪。

发明内容

本发明要解决的技术问题是克服现有的缺陷，提供一种基于深度神经网络的语音主动降噪方法，以解决上述技术背景中困难的部分大多数是为了应对各种噪音就需要仔细的调整算法中的各个系数，针对各种场景进行大量和特殊情形的测试，使其始终保持良好的性能，导致降噪不能进行实时降噪的缺点。

为实现上述目的，本发明提供如下技术方案：一种基于深度神经网络的语音主动降噪方法，包括如下步骤：

步骤1：采集待降噪的语音数据，并对语音数据进行预处理；

步骤2：构建初始RNN音频降噪模型；

步骤3：获取训练语音数据，并通过训练语音数据训练初始RNN音频降噪模型；

步骤4：通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪，得到降噪后的语音数据。

所述步骤1中，所述预处理包括语音的采样、量化、反混叠滤波、预加重及分帧加窗处理。

所述训练语音数据采用在CASIA语音库获取纯净语音数据和NoiseX-92数据库内获取噪声，并将纯净的语音和噪音按照不同的信噪比相互混合，同时在该数据内插入纯净的语音数据和噪音数据形成训练语音数据。

所述构建RNN音频降噪模型包括：

将训练语音数据进行傅里叶变换，得到训练语音帧频谱；

通过训练语音帧频谱训练RNN神经网络模型，再对RNN神经网络模型进行测试，当测试结果的合格率符合预设的合格率阀值时则测试合格，得到RNN降噪模型。

所述步骤1中，所述步骤3中，训练语音数据需要进行特征提取，所述特征提取将训练语音数据转换到bark域上，将其分成bark子带，减少模型需要的输入。

所述bark域的形式进行频域划分中使用三角窗来压缩信号频谱，通过三角窗作为bark域上的带通滤波器，划分出每个子带。

通过bark子带进行计算的数据还需要使用基于基音周期的梳状滤波器进行语音增强，从而掩蔽掉噪音。

与现有技术相比，本发明提供了一种基于深度神经网络的语音主动降噪方法，具备以下有益效果：

本发明中使用了RNN降噪处理模型，将训练语音数据采用bark域的形式进行频域划分，最多可以产生24个bark子带，使得训练数量将会大大减少，加快了训练速度，以便于既保持了良好的降噪性能，又可以进行实时降噪，其中在bark子带的计算中还使用了基于基音周期的梳状滤波器进行语音增强，及避免了语音失真是出现，也便于掩蔽掉噪声。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制，在附图中：

图1为本发明提出的基于深度神经网络的语音主动降噪方法流程图结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施例和附图，进一步阐述本发明，但下述实施例仅为本发明的优选实施例，并非全部。基于实施方式中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例，都属于本发明的保护范围。

请参阅图1，一种基于深度神经网络的语音主动降噪方法，包括如下步骤：

步骤1：采集待降噪的语音数据，并对语音数据进行预处理；预处理包括语音的采样、量化、反混叠滤波、预加重及分帧加窗处理；语音数据的预加重是将语音信号s(n)通过一个预加重滤波器：H(z)＝1-α*z^-1，其中α介于0.9和1.0之间，以时域的运算式来表示，预加重后的语音信号S₂(n)＝s(n)-α*s(n-1)，目的是为了消除发音过程中声带和嘴唇的效应(减少吉布斯效应)，提高高频部分、滤除低频干扰，消除直流漂移、抑制随机噪声，还可以提高清音部分的能量；分帧：将训练数据中的N个取样点集合为一个观测目标，及为分帧，通常N的值是256或512，涵盖的时间约为20-30ms左右。为了避免了相邻两帧的变化过大，量相邻帧之间允许有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约是N的一半或1/3；便于保证语音信号特征提取的正确性；加窗：通常是用一个长度有限的床函数来截取语音信号形成分析帧的，床函数将需要处理区域之外的样点置零来获得当前的语音帧。

步骤2：构建初始RNN音频降噪模型；构建RNN音频降噪模型包括：将训练语音数据进行傅里叶变换，得到训练语音帧频谱；通过训练语音帧频谱训练RNN神经网络模型，再对RNN神经网络模型进行测试，当测试结果的合格率符合预设的合格率阀值时则测试合格，得到RNN降噪模型。

步骤3：获取训练语音数据，并通过训练语音数据训练初始RNN音频降噪模型；训练语音数据采用在CASIA语音库获取纯净语音数据和NoiseX-92数据库内获取噪声，并将纯净的语音和噪音按照不同的信噪比相互混合，同时在该数据内插入纯净的语音数据和噪音数据形成训练语音数据；训练语音数据需要进行特征提取，特征提取将训练语音数据转换到bark域上，将其分成bark子带，减少模型需要的输入；bark域的形式进行频域划分中使用三角窗来压缩信号频谱，通过三角窗作为bark域上的带通滤波器，划分出每个子带；通过bark子带进行计算的数据还需要使用基于基音周期的梳状滤波器进行语音增强，从而掩蔽掉噪音，在对语音进行增强时假设基音周期为T，含噪信号为x(n)，加窗傅里叶为X(k)，将含噪信号延迟一个基音周期得x(n-T)，则加窗之后傅里叶变换得p(k)，那么梳状滤波等同于X(k)+α_bp(k)，那么，便于通过增强基音信号来掩蔽掉噪声的干扰；其中α_b提高相关性进行求值，第一步求单个子带的基音相关性：

式中

为取复数实数，.*表示取复共轭；第二步根据P_b和g_b的值更新α_b：

其中如果任意的P_b≥g_b，说明该bark子带语音含量很小，需要增强，则α_b＝1；如果g_b＝1，说明模型预测出该bark子带为纯语音，不需要增强则α_b＝0；如果P_b＝0，说明当前bark子带为纯噪声，则更加不需要增强所述α_b＝0；第三步，最后计算每个频点增益并进行语音增强，此处，将

替换为α_b计算出频点增益r_b(k)，公式为：

最后对每一个巴bark子带的每一个频点进行语音增强：

步骤4：通过训练完成的RNN音频降噪模型对待降噪的语音数据进行降噪，得到降噪后的语音数据，避免了应对各种噪音就需要仔细的调整算法中的各个系数，针对各种场景进行大量和特殊情形的测试，使其始终保持良好的性能，使降噪能进行实时降噪。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于深度神经网络的语音主动降噪方法，其特征在于，包括如下步骤：

步骤1：采集待降噪的语音数据，并对语音数据进行预处理；

步骤2：构建初始RNN音频降噪模型；

2.根据权利要求1所述的一种基于深度神经网络的语音主动降噪方法，其特征在于：所述步骤1中，所述预处理包括语音的采样、量化、反混叠滤波、预加重及分帧加窗处理。

3.根据权利要求1所述的一种基于深度神经网络的语音主动降噪方法，其特征在于：所述训练语音数据采用在CASIA语音库获取纯净语音数据和NoiseX-92数据库内获取噪声，并将纯净的语音和噪音按照不同的信噪比相互混合，同时在该数据内插入纯净的语音数据和噪音数据形成训练语音数据。

4.根据权利要求3所述的一种基于深度神经网络的语音主动降噪方法，其特征在于：所述构建RNN音频降噪模型包括：

将训练语音数据进行傅里叶变换，得到训练语音帧频谱；

5.根据权利要求1所述的一种基于深度神经网络的语音主动降噪方法，其特征在于：所述步骤3中，训练语音数据需要进行特征提取，所述特征提取将训练语音数据转换到bark域上，将其分成bark子带，减少模型需要的输入。

6.根据权利要求5所述的一种基于深度神经网络的语音主动降噪方法，其特征在于：所述bark域的形式进行频域划分中使用三角窗来压缩信号频谱，通过三角窗作为bark域上的带通滤波器，划分出每个子带。

7.根据权利要求6所述的一种基于深度神经网络的语音主动降噪方法，其特征在于：通过bark子带进行计算的数据还需要使用基于基音周期的梳状滤波器进行语音增强，从而掩蔽掉噪音。