CN104952448A

CN104952448A - 一种双向长短时记忆递归神经网络的特征增强方法及系统

Info

Publication number: CN104952448A
Application number: CN201510221339.9A
Authority: CN
Inventors: 张爱英; 倪崇嘉
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-05-04
Filing date: 2015-05-04
Publication date: 2015-09-30

Abstract

本发明公开了一种双向长短时记忆递归神经网络的特征增强方法及系统，包括：利用双向长短时记忆递归神经网络模型对输入的带噪特征和相应的不带噪特征进行训练的步骤；利用双向长短时记忆递归神经网络模型对特征进行增强的步骤；本发明通过对输入的特征进行在两个方向上建立长短时记忆递归神经网络模型可以有效地对当前帧的上下文进行建模，同时由于在神经网络中引入长短时记忆细胞以及一些控制变量，该使得该模型可以建模较长上下文的依赖。当利用该模型进行特征增强时，长时间依赖可以使得模型具有较佳的增强效果，可以提高语音识别系统和音频事件分类系统的性能。

Description

一种双向长短时记忆递归神经网络的特征增强方法及系统

技术领域

本发明涉及语音、音频信息技术，具体来讲，本发明涉及用于增强特征以提高用于语音识别系统、音频事件检测和分类系统的性能。

背景技术

随着计算技术和信息技术的发展,特别是深度机器学习方法的提出及在语音、图像、视频等领域成功应用，语音识别系统的性能得到很大的提高和改善，语音识别技术得到了突飞猛进的发展，同时有一些商业化的识别系统和应用软件，如Google Voice Search,Bing VoiceSearch，Siri语音助手、百度语音助手、搜狗语音输入、讯飞语点等，语音作为人机交互工具正在逐渐改变人与不同设备之间的交互的方式。

当在噪声环境下使用时，语音识别系统的性能下降。因此，识别器在噪声干扰的环境下使用时的性能与安静环境下使用时的性能之间的较大差距是语音识别走向更广范围内应用的主要障碍。同样的，对于音频分类系统来讲，在干净的环境下，音频分类系统可以获得很高的分类正确率。但是，当应用到现实的情况时，如应用在基于音频事件检测和分类的音频监控时，系统所处的环境常常产生大量的非稳定的噪声，使得系统的性能下降，系统产生大量的误报。

可以从信号空间、特征空间以及模型空间等三个层面消弱由噪声而引起的训练环境与识别环境的不匹配。在特征空间上进行特征增强，其主要是通过一些技术手段，“净化”被噪声污染的语音特征，最大程度上减少训练模型与识别特征的不匹配。

语音信号是一种复杂的时变信号，且在不同的时间跨度范围内，具有复杂的相关性。而深度神经网络是通过一系列的非线性映射，学习和编码输入的特征。其可以看作数据驱动非线性的特征变换。通常其在一个固定的时间窗口或跨度上进行该非线性的特征变换。这种在利用固定时间窗口或跨度上进行的特征变换不能根据上下文信息动态的利用时间窗口或跨度进行特征变换，不能很好的反映系统的动力特性。

发明内容

为解决现有技术存在的不足，本发明公开了一种双向长短时记忆递归神经网络的特征增强方法及系统，本申请利用数据驱动的方法，以提高语音识别和音频检测分类系统的性能。

为实现上述目的，本发明的具体方案如下：

一种双向长短时记忆递归神经网络的特征增强方法，包括以下步骤：

步骤一：获取被实际场景下噪声污染的音频以及相应的干净音频并对获取被噪声污染的音频和干净的音频分别抽取特征，然后转入步骤二进行训练；

步骤二：训练时，以被噪声污染的音频特征作为训练特征，以相应的干净的音频特征作为训练目标，采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型并将训练好的双向长短时记忆递归神经网络模型进行存储；

步骤三：获取实际应用场景下带噪的音频并对获得的带噪的音频抽取特征，然后转入步骤四进行特征增强；

步骤四：增强时，对步骤三抽取的特征应用步骤二中训练好的双向长短时记忆递归神经网络模型进行增强输入的特征并将增强的特征进行存储。

所述步骤二中，在训练双向长短时记忆递归神经网络模型时，设置双向长短时记忆递归神经网络有4个隐层，从第一个隐层到第四个隐层，分别含有78、128、78、78个长短时记忆细胞块，且每一个长短时记忆细胞块只含有一个记忆细胞。

所述步骤二中，在训练双向长短时记忆递归神经网络模型时，为了提高模型训练的有效性和稳定性，丢弃正则化(dropout regularization)技术在没有递归连接输入层、隐层进行应用，同时，在训练双向长短时记忆递归神经网络时，为了防止模型的过训练，梯度剪裁的方法用于剪枝梯度，训练时，梯度的阈值设置为10。

所述步骤二中，在训练双向长短时记忆递归神经网络模型时，双向长短时记忆递归神经网络模型训练采用多个不同的流同时进行，以加快模型训练的速度。

所述步骤四中，增强时，在应用加载模块加载的双向长短时记忆递归神经网络模型对第一特征抽取模块抽取的39维梅尔倒谱系数(MFCC)进行特征增强时，设定5帧的时间偏移以更好的利用双向长短时记忆递归神经网络模型进行特征增强。

一种双向长短时记忆递归神经网络的特征增强系统，包括：双向长短时记忆递归神经网络模型的特征增强部分及双向长短时记忆递归神经网络模型训练部分；

双向长短时记忆递归神经网络模型训练部分，包括：第二输入模块、第二特征抽取模块、模型训练模块及模型存储模块；

第二输入模块，用于加载被实际场景下噪声污染的音频以及相应的干净音频并将输入的音频传送至第二特征抽取模块；

第二特征抽取模块，用于对输入的被噪声污染的音频和干净的音频分别抽取特征并将抽取的音频传送至模型训练模块；

模型训练模块，用于以输入的被噪声污染的音频特征作为训练特征，以相应的干净的音频特征作为训练目标，采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型并将训练好的双向长短时记忆递归神经网络模型存储至模型存储模块；

所述双向长短时记忆递归神经网络模型的特征增强部分包括：第一输入模块、第一特征抽取模块、模型装载模块、增强模块及增强特征存储模块；

第一输入模块，用于接受输入的实际应用场景下带噪的音频并将输入的音频传送至第一特征抽取模块；

第一特征抽取模块，用于抽取第一输入模块中的特征并将抽取的特征传送至增强模块；

模型装载模块，用于装载由双向长短时记忆递归神经网络模型训练模块训练好的双向长短时记忆递归神经网络模型；

增强模块，利用第一特征抽取模块抽取的特征，应用模型装载模块加载的训练好的双向长短时记忆递归神经网络模型，增强输入的特征,并将增强的特征传送至增强特征存储模块进行存储。

所述第一输入模块以实际场景下抽样频率为16000Hz,16位的PCM格式的音频作为输入。

所述第一特征抽取模块，设定25毫秒海明(Hamming)窗和10毫秒为窗移，抽取39维梅尔倒谱系数(MFCC)特征。

所述第二输入模块以混合实际音频场景噪音的16000Hz,16位的PCM音频和相应的没有混合实际音频场景噪音的16000Hz,16位的PCM音频作为输入。

所述第二特征抽取模块，以25毫秒海明(Hamming)窗和10毫秒为窗移，对混合实际场景噪音的音频和没有混合实际场景噪音的音频分别抽取39维梅尔倒谱系数(MFCC)特征。

所述模型训练模块，以混合实际场景噪音的音频的39维梅尔倒谱系数特征(MFCC)为特征，同时以没有混合实际场景噪音的音频的39维梅尔倒谱系数(MFCC)特征为模型训练的目标，以最小均分误差为训练的目标函数，采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型。

训练双向长短时记忆递归神经网络模型时，对梯度进行剪裁，同时在没有递归的隐层和输入层上利用丢弃正则化(dropout regularization)方法以增加模型的鲁棒性和有效性。同时在更新双向长短时记忆递归神经网络模型的参数时，利用动量(momentum)方法更新模型，动量(momentum)系数设置为0.9。

本发明首先，由第一输入模型输入被实际场景下噪音污染的音频信号，第一特征抽取模块用于抽取特征；然后，抽取的特征作为双向长短时记忆递归神经网络模型的输入用于特征增强；最后，双向长短时记忆递归神经网络模型的输出作为增强的特征。

本发明的有益效果：

双向长短时记忆递归神经网络通过引入长短时记忆细胞编码了序列中过去与未来两个方向信息，从这个意义上讲，其是一个动力系统，比只有类似静态的输入输出变换的深度神经网络具有更好的泛化能力，可以学习到更长时间的上下文信息，以及处理不同的说话人说话风格。基于双向长短时记忆递归神经网络特征增强方法将噪声污染的特征映射为干净的特征，是一种数据驱动的方法。该方法可以通过数据自动学习一非线性的映射，能够克服传统的基于深度神经网络进行语音增强的不足，该方法对于非稳定性噪声有较好的效果。

本发明通过对输入的特征进行在两个方向上建立长短时记忆递归神经网络模型可以有效地对当前帧的上下文进行建模，同时由于在神经网络中引入长短时记忆细胞以及一些控制变量，该使得该模型可以建模较长上下文的依赖。当利用该模型进行特征增强时，长时间依赖可以使得模型具有较佳的增强效果，可以提高语音识别系统和音频事件分类系统的性能。

附图说明

图1丢弃正则化(dropout regularization)应用到没有递归层的示例；

图2基于双向长短时记忆递归神经网络模型的特征增强部分示意图；

图3本发明双向长短时记忆递归神经网络的特征增强系统的方框图；

图中，201、第二输入模块，202、第二特征抽取模块，203、模型训练模块，204、模型存储模块，101、第一输入模块，102、第一特征抽取模块，103、模型装载模块，104、增强模块，105、增强特征存储模块，106、双向递归神经网络模型训练模块。

具体实施方式：

下面结合附图对本发明进行详细说明：

一种双向长短时记忆递归神经网络的特征增强方法，该方法包括如下两个部分：双向长短时记忆递归神经网络模型的训练步骤A和利用双向长短时记忆递归神经网络模型对特征进行增强B。

步骤A：双向长短时记忆递归神经网络模型训练步骤是利用双向长短时记忆递归神经网络模型训练模块对输入的带噪特征和相应的不带噪特征，利用通过时间反向传播算法，训练双向长短时记忆递归神经网络模型。在训练双向长短时记忆递归神经网络模型时，对梯度进行修剪，并利用丢弃正则化(dropout regularization)对非递归的输入进行丢弃(dropout).同时，为了增加训练速度，采用多个流的方式同时进行。

步骤B：利用双向长短时记忆递归神经网络模型对特征进行增强，包括如下步骤：

步骤B1：第一输入模块接受实际场景下音频输入；

步骤B2：第一特征抽取模块抽取特征；

步骤B3：用双向长短时记忆递归神经网络模型加载模块加载双向长短时记忆递归神经网络模型训练模块训练好的双向长短时记忆递归神经网络模型；

步骤B4：特征增强模块利用特征抽取模型抽取的特征，应用加载模块加载的双向长短时记忆递归神经网络模型增强输入的特征；

步骤B5：用特征存储模块存储用双向长短时记忆递归神经网络模型增强的特征。

双向长短时记忆递归神经网络模型训练方法采用梯度剪裁的方法以增强模型训练的鲁棒性和有效性，避免模型训练时的梯度爆炸。

双向长短时记忆递归神经网络模型包含多个隐层，且双向长短时记忆递归神经网络模型训练时，只是在没有递归连接的层运用丢弃正则化(dropout regularization)技术以增强模型训练的鲁棒性和有效性。

双向长短时记忆递归神经网络模型训练方法采用动量(momentum)方法更新训练参数以增强模型训练的鲁棒性和有效性。

双向长短时记忆递归神经网络模型训练方法采用多个不同的流同时进行，以加快模型训练的速度。

双向长短时记忆递归神经网络包含4层的长短时记忆(Long Short Term Memory,LSTM)隐层。

优选实施例，对于输入的音频按照16000赫兹进行采样，按照16位比特进行量化，并采用窗长25毫秒，以及窗移是10毫秒的海明(Hamming)窗计算音频的39维梅尔倒谱系数(MFCC)特征。

优选实施例，在利用通过时间反向传播算法训练双向长短时记忆递归神经网络模型时，对梯度进行剪裁，设置梯度剪裁的阈值是10。

优选实施例，在利用通过时间反向传播算法训练双向长短时记忆递归神经网络模型时，只对不包含递归层应用丢弃正则化(dropout regularization)技术。图1给出了在前向长短时记忆递归神经网络模型训练时应用丢弃正则化(dropout regularization)的示例。在图1中，虚线部分表示运用丢弃正则化(dropout regularization)技术。

优选实施例，在利用通过时间反向传播算法训练双向长短时记忆递归神经网络模型时，设置最大的递归帧数是40帧。

优选实施例，在利用双向长短时记忆递归神经网络模型进行特征增强时，为获得较佳的增强效果，设置时间延迟为5帧。

本发明为一种双向长短时记忆递归神经网络的特征增强系统，所述的系统包括：第二输入模块201：输入采样率为16000赫兹，16位比特编码的带噪音频，以及相应的采样率为16000赫兹，16位比特编码的干净音频。第二特征抽取模块202：对第二音频模块201输入的带噪音频和相应的干净音频，分别抽取39维梅尔倒谱系数(MFCC)特征。双向长短时记忆递归神经网络模型训练模块203：用于训练双向长短时记忆递归神经网络模型。训练时采用的学习速率是0.00001，动量(momentum)的值为0.9。训练之前采用服从均值为0，标准差是0.1的正态分布的随机值初始化训练的权值矩阵、偏移向量等。设置双向长短时记忆递归神经网络有4个隐层，从第一个隐层到第四个隐层，分别含有78、128、78、78个长短时记忆细胞块，且每一个长短时记忆细胞块只含有一个记忆细胞。为了提高模型训练的有效性和稳定性，丢弃正则化(dropout regularization)技术在没有递归连接输入层、隐层进行应用。同时，在训练双向长短时记忆递归神经网络时，为了防止模型的过训练，梯度剪裁的方法用于剪枝梯度。训练时，梯度的阈值设置为10.模型存储模块204：主要用于存储用双向长短时记忆递归神经网络模型训练模块训练获得的模型。第一音频模块101：输入采样率为16000赫兹，16位比特编码的实际场景下的音频。第一特征抽取模块102：对第一音频模块输入的音频，抽取39维梅尔倒谱系数(MFCC)特征。模型装载模块103：从模型库装载由模型训练模块训练好的双向长短时记忆递归神经网络模型。增强模块104：对第一特征抽取模块102抽取的特征，利用模型装载模块103装载的双向长短时记忆递归神经网络模型，进行特征增强。增强特征存储模块104：对增强模块103增强的特征进行保存。本系统可以在计算机、服务器或者计算机网络中实现，其第一、第二输入模块可以使麦克风等设备。

实施例

如图3所示，系统主要包括双向长短时记忆递归神经网络模型训练部分和基于双向长短时记忆递归神经网络模型的特征增强部分。其中，双向长短时记忆递归神经网络模型训练部分主要由第二音频输入模块201、第二特征抽取模块202、双向长短时记忆递归神经网络模型训练模块203、模型存储204组成。基于双向长短时记忆递归神经网络模型的特征增强部分主要由第一音频输入模块101、第一特征抽取模块102、模型装载模块103、增强模块104、增强特征存储模块105组成。第二音频输入模块201，输入包括采样率为16000赫兹，16位比特编码的带噪音频，以及相应的采样率为16000赫兹，16位比特编码的干净音频。第二特征抽取模块202，对第二音频输入模块201输入的带噪音频和相应的干净音频分别以25毫秒海明(Hamming)窗和10毫秒为窗移，抽取39维梅尔倒谱系数特征MFCC。双向长短时记忆递归神经网络模型训练模块203，以输入的被噪声污染的音频特征作为训练特征，以相应的干净的音频特征作为训练目标，采用通过时间反向传播算法训练模型。在训练模型时，对梯度进行剪枝，并在没有递归的层利用Dropout方法以防止模型的过训练。同时，在更新模型时，利用动量(momentum)方法更新模型，动量(momentum)系数设置为0.9。

递归神经网络(Recurrent Neural Network,RNN)与普通的前馈神经网络(Feed-ForwardNeural Network,FFNN)主要的不同在于：递归神经网络编码了时序序列中过去信息的内部状态，并在递归神经网络中利用。从这个意义上讲，递归神经网络是一个动力系统，比只有类似静态输入输出变换的深度神经网络具有更好的泛化能力。理论上，状态空间的利用使得递归神经网络可以学习到更长时间的上下文信息。

对于递归神经网络，可以表述如下：

设x_t是t时刻输入的K×1特征矢量，h_t是隐层单元的值，是N×1矢量，y_t是输出，是L×1矢量，则只有一个隐层的递归神经网络可以表示为：

h_t＝f(W_xhx_t+W_hhh_t-1) (1)

y_t＝g(W_hyh_t) (2)

其中W_hy是连接N个隐层单元到L个输出的L×N权值矩阵，W_xh是连接K个输入单元到N个隐层单元的N×K矩阵，W_hh是连接时刻t-1的N个隐层单元到时刻t的N个隐层单元权值矩阵。f(·)和g(·)分别是隐层的和输出层的激活函数。

通过时间反向传播(Backpropagation-Through-Time,BPTT)算法用于学习权值矩阵。

假设优化的目标函数是

E = \frac{1}{2} Σ_{t = 1}^{T} {| | l_{t} - y_{t} | |}^{2} - - - (3)

其中y_t是实际的输出矢量，l_t是目标矢量,T是总的时间帧。

利用梯度下降法最小化目标函数，其更新准则是：

w = w - γ \frac{&PartialD; E}{&PartialD; w} - - - (4)

其中γ是学习速率，w是权值矩阵。

设u_t＝(W_xhx_t+W_hhh_t-1)，v_t＝W_hyh_t，

则在T时刻，输出层的误差项(Error Term)为

δ_{T}^{y} = (l_{T} - y_{T}) \cdot g^{'} (v_{T}) - - - (5)

隐层的误差项(Error Term)为

δ_{T}^{h} = w_{hy}^{T} δ_{T}^{y} • f^{'} (u_{T}) - - - (6)

在(5)和(6)中，“·”是矩阵中逐元素相乘。

在其他时刻t＝T-1,T-2,…,1,输出层和隐层的误差项(Error Term)分别为：

δ_{t}^{y} = (l_{t} - y_{t}) \cdot g^{'} (v_{t}) - - - (7)

δ_{t}^{h} = [W_{hh}^{T} δ_{t + 1}^{h} + W_{hy}^{T} δ_{t}^{y}] \cdot f^{'} (u_{t}) - - - (8)

利用上述计算的输出层和隐层的误差项(Error Term)，输出层的权值矩阵、隐层的权值矩阵和递归矩阵可以更新如下：

w_{hy}^{new} = w_{hy} + γ Σ_{t = 1}^{T} δ_{y}^{t} h_{t}^{T} - - - (9)

w_{xh}^{new} = w_{xh} + γ Σ_{t = 1}^{T} δ_{h}^{t} x_{t}^{T} - - - (10)

w_{hh}^{new} = w_{hh} + γ Σ_{t = 1}^{T} δ_{h}^{t} h_{t - 1}^{T} - - - (11)

递归神经网络可以学习到长时依赖(Long-Term Dependent)，并且理论上讲，梯度下降法可用于训练递归神经网络模型。但是，实际训练递归神经网络时，存在着梯度消失(VanishingGradient)和梯度爆炸(Exploding Gradient)的问题。长短时记忆递归神经网络通过将长短时记忆细胞(Long Short-Term Memory Cell)引入到递归神经网络中，可以在某种程度上避免梯度消失的问题。

长短时记忆细胞集可以描述如下：

i_t＝f(W^(xi)x_t+W^(hi)h_t-1+W^(ci)c_t-1+b⁽ⁱ⁾) (12)

f_t＝f(W^(xf)x_t+W^(hf)h_t-1+W^(cf)c_t-1+b^(f)) (13)

c_t＝f_t·c_t-1+i_t·g(W^(xc)x_t+W^(hc)h_t-1+b^(c)) (14)

o_t＝f(W^(xo)x_t+W^(ho)h_t-1+W^(co)c_t+b^(o)) (15)

h_t＝o_t·h(c_t) (16)

其中i_t,f_t,c_t,o_t,h_t是维数相同的矢量，分别代表在时刻_t时，输入门(Input Gate)、遗忘门(ForgetGate)、细胞激活(Cell Activation)、输出门(Output Gate)和隐层等五种不同的信息类型，“·”表示逐元素相乘，f,g,h分别表示不同门的激活函数、细胞输入激活函数以及细胞输出激活函数。W^(xi)，W^(xf)，W^(xo)分别是输入门、遗忘门、输出门与输入之间的权值矩阵，W^(hi)，W^(hf)，W^(ho)，分别表示是输入门、遗忘门、输出门与递归输入之间的权值矩阵，W^(ci)，W^(cf)，W^(co)是输入门、遗忘门、输出门与记忆细胞之间的权值矩阵，W^(xc)是记忆细胞和输入之间权值矩阵，W^(hc)是记忆细胞和递归输入之间的权值矩阵，b⁽ⁱ⁾，b^(f)，b^(c)，b^(o)代表相应的偏置矢量。长短时记忆递归神经网络(LSTM-RNN)模型训练仍然采用BPTT算法。

对于双向长短时记忆递归神经网络的LSTM记忆细胞集可以描述如下：

前向状态序列可以表示为：

后向状态序列可表示为：

{\overset{&LeftArrow;}{c}}_{t} = {\overset{&LeftArrow;}{f}}_{t} \cdot {\overset{&LeftArrow;}{c}}_{t - 1} + {\overset{&LeftArrow;}{i}}_{t} \cdot g (W^{(x \overset{&LeftArrow;}{c})} x_{t} + W^{(\overset{&LeftArrow;}{h} \overset{&LeftArrow;}{c})} h_{t - 1} + b^{(\overset{&LeftArrow;}{c})}) - - - (24)

{\overset{&LeftArrow;}{h}}_{t} = {\overset{&LeftArrow;}{o}}_{t} \cdot h ({\overset{&LeftArrow;}{c}}_{t}) - - - (26)

结合前向和后项状态的输出可以表示为：

y_{t} = W^{(\overset{&RightArrow;}{h} y)} {\overset{&RightArrow;}{h}}_{t} + W^{(\overset{&LeftArrow;}{h} y)} {\overset{&LeftArrow;}{h}}_{t} + b_{y} - - - (27)

其中，分别表示前向LSTM隐层、后项LSTM隐层和输出层之间权值，b_y是相应的偏移矢量。

如图2所示，基于双向长短时记忆递归神经网络模型的特征增强部分主要是包括：首先，从第一输入模块101获得采样率为16000赫兹，16位比特编码的实际场景下的音频。然后，第一特征抽取模块102对第一输入模块101输入的音频，抽取39维梅尔倒谱系数MFCC特征。利用模型装载模块103从模型库装载由模型训练模块203训练好的双向长短时记忆递归神经网络模型。最后，增强模块104对第一特征抽取模块102抽取的特征，利用模型装载模块103装载的双向长短时记忆递归神经网络模型，进行特征增强。对增强模块104增强的特征由增强特征存储模块105保存到存储介质。增强特征存储模块105与双向递归神经网络模型训练模块106相连。双向递归神经网络模型训练模块106为双向长短时记忆递归神经网络模型训练部分，用于对双向递归神经网络模型的训练。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种双向长短时记忆递归神经网络的特征增强方法，其特征是，包括以下步骤：

2.如权利要求1所述的一种双向长短时记忆递归神经网络的特征增强方法，其特征是，所述步骤二中，在训练双向长短时记忆递归神经网络模型时，设置双向长短时记忆递归神经网络有4个隐层，从第一个隐层到第四个隐层，分别含有78、128、78、78个长短时记忆细胞块，且每一个长短时记忆细胞块只含有一个记忆细胞。

3.如权利要求1或2所述的一种双向长短时记忆递归神经网络的特征增强方法，其特征是，所述步骤二中，在训练双向长短时记忆递归神经网络模型时，为了提高模型训练的有效性和稳定性，丢弃正则化技术在没有递归连接输入层、隐层进行应用，同时，在训练双向长短时记忆递归神经网络时，为了防止模型的过训练，梯度剪裁的方法用于剪枝梯度，训练时，梯度的阈值设置为10。

4.如权利要求1或2所述的一种双向长短时记忆递归神经网络的特征增强方法，其特征是，所述步骤二中，在训练双向长短时记忆递归神经网络模型时，双向长短时记忆递归神经网络模型训练采用多个不同的流同时进行，以加快模型训练的速度。

5.如权利要求1所述的一种双向长短时记忆递归神经网络的特征增强方法，其特征是，所述步骤四中，增强时，在应用加载模块加载的双向长短时记忆递归神经网络模型对第一特征抽取模块抽取的39维梅尔倒谱系数特征进行特征增强时，设定5帧的时间偏移以更好的利用双向长短时记忆递归神经网络模型进行特征增强。

6.一种应用如权利要求1的一种双向长短时记忆递归神经网络的特征增强方法的系统，其特征是，包括：双向长短时记忆递归神经网络模型的特征增强部分及双向长短时记忆递归神经网络模型训练部分；

增强模块，利用第一特征抽取模块抽取的特征，应用模型装载模块加载的训练好的双向长短时记忆递归神经网络模型，增强输入的特征，并将增强的特征传送至增强特征存储模块进行存储。

7.如权利要求6所述的一种双向长短时记忆递归神经网络的特征增强方法的系统，其特征是，所述第一输入模块以实际场景下抽样频率为16000Hz,16位的PCM格式的音频作为输入；

所述第一特征抽取模块，设定25毫秒海明窗和10毫秒为窗移，抽取39维梅尔倒谱系数特征。

8.如权利要求6或7所述的一种双向长短时记忆递归神经网络的特征增强方法的系统，其特征是，所述第二输入模块以混合实际音频场景噪音的16000Hz,16位的PCM音频和相应的没有混合实际音频场景噪音的16000Hz,16位的PCM音频作为输入；

所述第二特征抽取模块，以25毫秒海明窗和10毫秒为窗移，对混合实际场景噪音的音频和没有混合实际场景噪音的音频分别抽取39维梅尔倒谱系数特征。

9.如权利要求6所述的一种双向长短时记忆递归神经网络的特征增强方法的系统，其特征是，所述模型训练模块，以混合实际场景噪音的音频的39维梅尔倒谱系数特征为特征，同时以没有混合实际场景噪音的音频的39维梅尔倒谱系数特征为模型训练的目标，以最小均分误差为训练的目标函数，采用通过时间反向传播算法训练双向长短时记忆递归神经网络模型。

10.如权利要求9所述的一种双向长短时记忆递归神经网络的特征增强方法的系统，其特征是，训练双向长短时记忆递归神经网络模型时，对梯度进行剪裁，同时在没有递归的隐层和输入层上利用丢弃正则化方法以增加模型的鲁棒性和有效性,同时在更新双向长短时记忆递归神经网络模型的参数时，利用动量方法更新模型，动量系数设置为0.9。