CN110120225A

CN110120225A - 一种基于gru网络的结构的音频降噪系统及方法

Info

Publication number: CN110120225A
Application number: CN201910258810.XA
Authority: CN
Inventors: 尚磊; 胡家靖; 张恒伟; 黄伟; 于天尧; 韩兴忠
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-08-13

Abstract

本发明属于因特网音频处理技术领域，公开了一种基于GRU网络的结构的音频降噪系统及方法，输入信号首先经过重叠窗口，重叠窗口采用Vorbis窗口，并且满足Princen‑Bradley标准；基音分析，利用基音滤波器去除谐波噪声；基音分析后，对音频进行特征提取；经过特征提取步骤后，输入信号经过特征提取后转换为包含有N*42个特征值的数据，其中N为序列长度；在进行RNN降噪时，数据经过三层GRU处理后，估计出噪声频谱，通过谱减法计算得出22项频带增益；对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。本发明在一定程度上实现了比传统音频降噪方案，如Speex更好的性能。

Description

一种基于GRU网络的结构的音频降噪系统及方法

技术领域

本发明属于因特网音频处理技术领域，尤其涉及一种基于GRU网络的结构的音频降噪系统及方法。

背景技术

目前，最接近的现有技术：目前，移动互联网技术中已经开始应用于生活的各个方面，而移动互联网通信技术则在一定程度上代替了手机功能，如微信、QQ电话等功能使我们可以在移动互联网环境下使用网络电话，达到与传统电话相同的功能，但是收费更加廉价。但是，由于移动互联网环境下网络质量难以保证，因此网络电话的通信质量往往较低，在通信过程中常有各种干扰因素存在，传统音频降噪方案往往使用谱减法对网络音频信号进行降噪，但是其效果在一定程度上并不理想。

综上所述，现有技术存在的问题是：现有音频降噪技术存在网络电话中通信质量往往噪声较多，影响通信体验，在一定程度上限制了网络电话的发展。

发明内容

针对现有技术存在的问题，本发明提供了一种基于GRU网络的结构的音频降噪系统及方法。

本发明是这样实现的，一种基于GRU网络的结构的音频降噪方法，所述基于GRU网络的结构的音频降噪方法包括：

第一步，输入信号首先经过重叠窗口，重叠窗口采用Vorbis窗口，并且满足Princen-Bradley标准；在使用重叠窗口处理输入音频的同时，对输入音频进行基音分析；进行基音分析时，输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值；

第二步，基音分析，利用基音滤波器去除谐波噪声；基音滤波器基于每频段滤波系数采用启发式算法对音频进行滤波操作；

第三步，基音分析后，对音频进行特征提取；对输入信号对数谱进行离散余弦变换，得到22个Bark频谱倒谱系数；同时，对于前六个Bark频谱倒谱系数，计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征，最后结合基频周期值以及用于检测语音的频谱非平稳度量值，一共42个值作为神经网络的输入特征值；

第四步，经过特征提取步骤后，输入信号经过特征提取后转换为包含有N*42个特征值的数据，其中N为序列长度；在进行RNN降噪时，数据经过三层GRU处理后，估计出噪声频谱，通过谱减法计算得出22项频带增益；对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。

进一步，所述基于GRU网络的结构的音频降噪方法的输入信号首先经过重叠窗口，重叠窗口采用Vorbis窗口，并且满足Princen-Bradley标准；窗口函数定义如下：

其中，符号N表示窗口长度；使用的重叠窗口长度为20ms，其中包含50％重叠，即为两个相邻窗口存在10ms的重叠部分。

进一步，所述基于GRU网络的结构的音频降噪方法在频率较高时，输入音频划分方式与Bark标度一致，但是频段较低时，输入音频至少被划分为四个频段；对于22个频段，循环神经网络将会有22个区间[0,1]内的输出值；

设w_b(k)为频段b在频率k处的幅度，则存在：

∑_bω_b(k)＝1；

对于变换后的信号X(k)，频带能量如下所示；

设平均每个频带的增益为g_b，则g_b可以表示为：

其中E_s(b)为实际音频能量，而E_x(b)为输入的带噪音频能量；每个频段平均增益为则对于频段k，其内插增益表示为：

进一步，所述基于GRU网络的结构的音频降噪方法基于每频段滤波系数α_b对音频进行滤波操作。；P(k)为基音延迟信号x(n-T)经过加窗操作以及DFT变换后获得的结果信号，通过计算X(k)+α_bP(k)对信号进行滤波操作；滤波后对信号进行重新归一化使每个频段的信号与原始信号X(k)中对应频段信号具有相同的能量；

对于任意频段b，其基音相关性：

其中Re[·]为对运算结果取实部操作，[·]^*操作为复共轭操作；

在进行滤波系数的设置时，采用启发式算法，一个频段内的基音相关性p_b≥g_b，则设定α_b＝1；当频段内不存在噪声时，设置α_b＝0；即当g_b＝1时，α_b＝0；同理，当p_b＝0时，α_b＝0；

在启发式算法下，滤波器过滤系数：

进一步，所述基于GRU网络的结构的音频降噪方法经过特征提取步骤后，音频将会通过基于GRU网络循环神经网络降噪；其中GRU内部使用ReLU函数作为激活函数，其表达式如下所示；

输入信号经过特征提取后转换为包含有N*42个特征值的数据，其中N为序列长度；在进行RNN降噪时，数据经过三层GRU处理后，估计出噪声频谱，通过谱减法计算得出22项频带增益；对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。

本发明的另一目的在于提供一种基于所述基于GRU网络的结构的音频降噪方法的基于GRU网络的结构的音频降噪系统，所述基于GRU网络的结构的音频降噪系统包括：

重叠窗口模块，用于在使用重叠窗口处理输入音频信号；

基音分析模块，用于将重叠窗口模块输入的音频信号进行行基音分析；

音频特征提取模块，用于对音频信号进行特征提取；对输入信号对数谱进行离散余弦变换，得到22个Bark频谱倒谱系数；

信号降噪模块，用于通过基于GRU网络循环神经网络降噪。

进一步，所述基于GRU网络的结构的音频降噪系统GRU内部RNN降噪结构中一共含有三个隐藏层，均采用GRU结构。

本发明的另一目的在于提供一种应用所述基于GRU网络的结构的音频降噪方法的因特网音频处理系统。

综上所述，本发明的优点及积极效果为：本发明提供了一种基于GRU原理的深度学习音频降噪方案，本方案实现采用了循环神经网络方案对原始音频信号进行了充分的估计，与传统降噪方案不同，本专利中提出的降噪方案将带噪音频信号划分为22个频段，分别对其特征提取，对不同的频段采用不同的降噪方案，实现了比传统音频噪声频谱估计法更为精准的降噪结果，特别是复杂噪声环境下，使用基于GRU的循环神经网络降噪方案能准确地识别人声，并滤除其他噪声，比传统Speex降噪方案降噪性能明显提升。

图6为复杂噪声环境下原始带噪音频信号，此时原始音频信号中混入了较多的噪声，若直接对其进行噪声频谱估计则将会产生较大误差，Speex降噪结果如图7所示。由图可知，此时原始音频信号中噪声有一定程度减少，但是仍有幅度较大的噪声存在，如图中1500000段，该段仍有幅度较大噪声，经过人耳试听后发现其仍在人耳识别范围内。而使用本专利中音频降噪方案，则其降噪结果如图8所示。由图可知，此时噪声幅度相比于图7中明显降低，1500000处幅度较大的噪声信号经过本专利中所述方案降噪后已经消失。在噪声较为单一环境下，如车流环境下的音频信号如图9所示，此时原始音频信号存在幅度较为单一的背景噪声。使用传统声学降噪方案Speex降噪，其结果如图10所示，此时背景噪声存在一定程度上的减少，但是在人声处，如4000000段。噪声消除结果仍不彻底，声学降噪方案难以区分人声以及背景噪声。对于同一段带噪音频信号，使用GRU网络对其进行降噪，其结果如图11所示。由图可知，此时背景噪声明显降低，并且本专利中所提出的降噪方案能一定程度上区分人声以及背景噪声，4000000段噪声也得到了一定程度的抑制。

附图说明

图1是本发明实施例提供的基于GRU网络的结构的音频降噪系统的结构示意图；

图中：

图2是本发明实施例提供的基于GRU网络的结构的音频降噪方法流程图。

图3是本发明实施例提供的降噪整体结构图。

图4是本发明实施例提供的神经网络结构示意图。

图5是本发明实施例提供的ReLU函数图形示意图。

图6是本发明实施例提供的降噪嘈杂环境原始音频信号示意图。

图7是本发明实施例提供的Speex降噪结果示意图。

图8是本发明实施例提供的GRU网络结构降噪结果示意图。

图9是本发明实施例提供的车流环境下原始音频信号示意图。

图10是本发明实施例提供的Speex对车流环境音频降噪结果示意图。

图11是本发明实施例提供的基于GRU降噪结构对车流环境音频降噪结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有音频降噪技术存在通信质量往往噪声较多，影响通信体验，在一定程度上限制了网络电话的发展的问题；本发明提供了一种基于GRU原理的深度学习音频降噪方案，在一定程度上实现了比传统音频降噪方案，如Speex更好的性能。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于GRU网络的结构的音频降噪系统包括：重叠窗口模块1、基音分析模块2、基音分析模块3、音频特征提取模块4、信号降噪模块5。

重叠窗口模块1，用于在使用重叠窗口处理输入音频信号；

基音分析模块2，用于将重叠窗口模块1输入的音频信号进行行基音分析；

音频特征提取模块4，用于对音频信号进行特征提取；对输入信号对数谱进行离散余弦变换，得到22个Bark频谱倒谱系数；

信号降噪模块5，用于通过基于GRU网络循环神经网络降噪。

如图2所示，本发明实施例提供的基于GRU网络的结构的音频降噪方法包括以下步骤：

S201：输入信号首先经过重叠窗口，重叠窗口采用Vorbis窗口，并且满足Princen-Bradley标准；在使用重叠窗口处理输入音频的同时，对输入音频进行基音分析；进行基音分析时，输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值；

S202：基音分析，利用基音滤波器去除谐波噪声；基音滤波器基于每频段滤波系数采用启发式算法对音频进行滤波操作；

S203：基音分析后，对音频进行特征提取；对输入信号对数谱进行离散余弦变换，得到22个Bark频谱倒谱系数；同时，对于前六个Bark频谱倒谱系数，计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征，最后结合基频周期值以及用于检测语音的频谱非平稳度量值，一共42个值作为神经网络的输入特征值；

S204：经过特征提取步骤后，音频通过基于GRU网络循环神经网络降噪；

S205：输入信号经过特征提取后转换为包含有N*42个特征值的数据，其中N为序列长度；在进行RNN降噪时，数据经过三层GRU处理后，估计出噪声频谱，通过谱减法计算得出22项频带增益；对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。

下面结合附图对本发明的应用原理作进一步的描述。

如图3所示，本发明实施例提供的基于GRU网络结构的音频降噪结构模型；在RNN降噪结构中，输入信号首先经过重叠窗口，重叠窗口采用Vorbis窗口，并且满足Princen-Bradley标准。窗口函数定义如下：

其中，符号N表示窗口长度。在本发明中使用的重叠窗口长度为20ms，其中包含50％重叠，即为两个相邻窗口存在10ms的重叠部分。

在使用重叠窗口处理输入音频的同时，首先对输入音频进行基音分析。进行基音分析时，输入音频按照Opus编码器编码方式被划分为22个Bark尺度相同的近似值。在频率较高时，输入音频划分方式与Bark标度一致，但是频段较低时，输入音频至少被划分为四个频段。因此一共有22个频段。对于这22个频段，循环神经网络将会有22个区间[0,1]内的输出值。

设w_b(k)为频段b在频率k处的幅度，则存在：

∑_bω_b(k)＝1；

对于变换后的信号X(k)，频带能量如下所示；

设平均每个频带的增益为g_b，则g_b可以表示为：

其中E_s(b)为实际音频能量，而E_x(b)为输入的带噪音频能量。设理想情况下每个频段平均增益为则对于频段k，其内插增益可以表示为：

在利用Bark尺度计算增益时，无法控制频谱中的更多细节，因此难以抑制音调谐波之间的噪声。因此在进行基音分析后，可以利用基音滤波器去除谐波噪声。

由于信号的周期性在很大程度上取决于信号频率，基音滤波器基于每频段滤波系数α_b对音频进行滤波操作。

设P(k)为基音延迟信号x(n-T)经过加窗操作以及DFT变换后获得的结果信号，通过计算X(k)+α_bP(k)对信号进行滤波操作。滤波后对信号进行重新归一化使每个频段的信号与原始信号X(k)中对应频段信号具有相同的能量。

对于任意频段b，其基音相关性可定义为：

其中Re[·]为对运算结果取实部操作，[·]^*操作为复共轭操作。

在一般情况下，计算最佳滤波系数α_b十分复杂。因此在进行滤波系数的设置时，系统采用启发式算法。在信号中噪声将会导致基音相关性降低。一般情况下，一个频段内的基音相关性p_b≥g_b，则设定α_b＝1；当频段内不存在噪声时，为了不使信号失真，则设置α_b＝0。即当g_b＝1时，α_b＝0。同理，当p_b＝0时，α_b＝0。

在启发式算法下，滤波器过滤系数如下所示：

在基音分析后，需要对音频进行特征提取。对输入信号对数谱进行离散余弦变换，得到22个Bark频谱倒谱系数。同时，对于前六个Bark频谱倒谱系数，计算得到其一阶时间导数、二阶时间导数、基音增益作为输入特征，最后结合基频周期值以及用于检测语音的频谱非平稳度量值，一共42个值作为神经网络的输入特征值。

经过特征提取步骤后，音频将会通过基于GRU网络循环神经网络降噪，其结构如图4。

RNN降噪结构中一共含有三个隐藏层，均采用GRU结构。其中GRU内部使用ReLU函数作为激活函数，其表达式如下所示，函数图像如图5所示：

输入信号经过特征提取后转换为包含有N*42个特征值的数据，其中N为序列长度。在进行RNN降噪时，数据经过三层GRU处理后，估计出噪声频谱，通过谱减法计算得出22项频带增益。对分割成22个频段的原始音频信号进行增益处理即可实现降噪功能。

本发明通过网络下载、实地录音等相关方式录制了约120分钟的原始无噪声语音数据以及200分钟噪声数据。其噪声源主要来自街道、电视、餐厅等场景。以这些数据为数据集对RNN降噪机构进行训练。

在进行数据训练时，由于系统数据均为自己合成的语音数据，考虑到数据量可能较小造成降噪系统性能下降，本发明采用数据增强^[42]的方式进行训练，使循环神经网络对不同频率的鲁棒性增强。

其中数据增强方式为使用二阶滤波器对每个训练数据独立地过滤噪声与原始语音信号实现。二阶滤波器表达式如下所示：

其中r₁,r₂,r₃,r₄分别为区间中的随机值。训练时使用Huber LossFunction作为系统损失函数，其函数表达式如下所示：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GRU网络的结构的音频降噪方法，其特征在于，所述基于GRU网络的结构的音频降噪方法包括：

2.如权利要求1所述的基于GRU网络的结构的音频降噪方法，其特征在于，所述基于GRU网络的结构的音频降噪方法的输入信号首先经过重叠窗口，重叠窗口采用Vorbis窗口，并且满足Princen-Bradley标准；窗口函数定义如下：

3.如权利要求1所述的基于GRU网络的结构的音频降噪方法，其特征在于，所述基于GRU网络的结构的音频降噪方法在频率较高时，输入音频划分方式与Bark标度一致，但是频段较低时，输入音频至少被划分为四个频段；对于22个频段，循环神经网络将会有22个区间[0,1]内的输出值；

设w_b(k)为频段b在频率k处的幅度，则存在：

∑_bω_b(k)＝1；

对于变换后的信号X(k)，频带能量如下所示；

设平均每个频带的增益为g_b，则g_b可以表示为：

4.如权利要求1所述的基于GRU网络的结构的音频降噪方法，其特征在于，所述基于GRU网络的结构的音频降噪方法基于每频段滤波系数α_b对音频进行滤波操作；P(k)为基音延迟信号x(n-T)经过加窗操作以及DFT变换后获得的结果信号，通过计算X(k)+α_bP(k)对信号进行滤波操作；滤波后对信号进行重新归一化使每个频段的信号与原始信号X(k)中对应频段信号具有相同的能量；

对于任意频段b，其基音相关性：

在启发式算法下，滤波器过滤系数：

5.如权利要求1所述的基于GRU网络的结构的音频降噪方法，其特征在于，所述基于GRU网络的结构的音频降噪方法经过特征提取步骤后，音频将会通过基于GRU网络循环神经网络降噪；其中GRU内部使用ReLU函数作为激活函数，其表达式如下所示；

6.一种基于权利要求1所述基于GRU网络的结构的音频降噪方法的基于GRU网络的结构的音频降噪系统，其特征在于，所述基于GRU网络的结构的音频降噪系统包括：

重叠窗口模块，用于在使用重叠窗口处理输入音频信号；

信号降噪模块，用于通过基于GRU网络循环神经网络降噪。

7.如权利要求6所述的基于GRU网络的结构的音频降噪系统，其特征在于，所述基于GRU网络的结构的音频降噪系统GRU内部RNN降噪结构中一共含有三个隐藏层，均采用GRU结构。

8.一种应用权利要求1～5任意一项所述基于GRU网络的结构的音频降噪方法的因特网音频处理系统。