CN110895933A

CN110895933A - 一种基于空时残差神经网络的远场语音识别方法

Info

Publication number: CN110895933A
Application number: CN201811030952.2A
Authority: CN
Inventors: 张鹏远; 张震; 邬龙; 王丽; 李鹏; 侯炜
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2020-03-20
Anticipated expiration: 2038-09-05
Also published as: CN110895933B

Abstract

本发明公开了一种基于空时残差神经网络的远场语音识别方法，所述方法包括：步骤1)构建并训练空时残差神经网络ST‑RES‑LSTM，该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络；步骤2)利用训练好的空时残差神经网络ST‑RES‑LSTM进行声学模型训练，并生成每一帧的分类概率；步骤3)构建语音识别解码网络，并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构，既能缓解层数加深带来的梯度消失问题，又能缓解LSTM在时间维度存在的梯度消失问题，从而提高语音识别的性能。

Description

一种基于空时残差神经网络的远场语音识别方法

技术领域

本发明涉及语音识别领域，特别涉及一种基于空时残差神经网络的远场语音识别方法。

背景技术

随着计算机计算性能的提升、可用训练数据的增加以及神经网络训练算法的优化，基于神经网络的声学建模技术已经在语音识别领域得到广泛的应用。

传统的前馈神经网络的输出，仅与当前输入的有限上下文相关，因而前馈神经网络不具有记忆能力。为此，引入了递归神经网络，它的结构特点是在网络连接中成环，即神经元的激活值由输入和神经元之前时刻的状态共同决定。目前主流的递归神经网络单元是长短时记忆单元(Long Short-Term Memory,LSTM)。这种单元的设计目的是为网络提供长时记忆能力，即记忆并利用距离当前时刻较远的上文信息的能力。LSTM神经网络在多种分类任务中获得了良好的效果，在语音识别任务中也取得了较前馈神经网络显著的性能提升。

研究证明，随着深度的增加，神经网络的建模能力也在增强。但是随着网络变深，网络的收敛速度越慢训练时间越长。当网络深到一定程度就会出现梯度消失问题，网络的正确率出现下降的现象。

LSTM单元的基本运算如下面公式所示：

其中，

分别代表输入门、遗忘门和输出门对输入

的权重矩阵，

分别代表输入门、遗忘门和输出门对上一时刻反馈

的权重矩阵，

分别代表输入门、遗忘门和输出门对上一时刻LSTM细胞

的权重矩阵，

分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵，

分别代表输入门、遗忘门和输出门的偏置向量，δ和tanh分别代表sigmoid激活函数和双曲正切激活函数。

分别代表了输入门，遗忘门，输出门的输出；

代表了LSTM的反馈信息；

代表了LSTM的细胞信息经过输出门后的信息；

代表了LSTM的投影降维矩阵；

代表了LSTM的输出；n_r代表了反馈向量的维度。

为了缓解语音识别中深层LSTM网络的梯度消失问题，传统方法是采用残差技术(RES-LSTM)，直接将输入

跳连接到输出。即上面公式(5)、(6)可变成如下形式：

但是经过分析，由于跳连接来自于当前层的输入，而当前层的输入是低层的输出经过一个投影矩阵

后的结果。数学上可以证明，该投影矩阵可能带来梯度消失的问题。

如果用J_RES代表普通残差网络的代价函数，L代表网络的总层数，l代表网络的层序号，f_l(.)代表第l层神经网络的数学运算，θ代表网络的参数，

代表了LSTM单元的投影矩阵，那么具体计算如下：

下面根据公式(11)对神经网络参数求导可知：

从公式(12)可以看出，在梯度计算的时候会出现投影矩阵连乘，如果

那么

将会变的很大。当

那么

将会变的很小，从而使得语音识别声学建模出现梯度消失问题，从而导致语音识别性能变差。

发明内容

本发明的目的在于解决深度神经网络梯度消失导致语音识别性能变差的问题。

为了实现上述目的，本发明提出了一种基于空时残差神经网络的远场语音识别方法，所述方法包括：

步骤1)构建并训练空时残差神经网络ST-RES-LSTM，该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络；

步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练，并生成每一帧的分类概率；

步骤3)构建语音识别解码网络，并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)构建空时残差神经网络ST-RES-LSTM：

其中，

分别代表输入门、遗忘门和输出门对输入

的权重矩阵，

分别代表输入门、遗忘门和输出门对t-1时刻反馈信息

的权重矩阵，

分别代表输入门、遗忘门和输出门对t-1时刻LSTM细胞信息

的权重矩阵，

分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵，

分别代表输入门、遗忘门和输出门的偏置向量，δ和tanh分别代表sigmoid激活函数和双曲正切激活函数；

分别代表了输入门，遗忘门，输出门的输出；

其中，

代表了t时刻LSTM细胞信息

经过输出门后的信息；

代表了空间残差信息，

代表了空间和时间残差信息；

代表了LSTM的投影降维矩阵；

代表了LSTM的输出；Append(.)是将输入向量拼接起来的操作；

步骤1-2)使用随机梯度下降算法训练步骤1)构建的ST-RES-LSTM神经网络。

作为上述方法的一种改进，所述步骤1-2)具体包括：

步骤1-2-1)提取训练集中的语音数据的梅尔频率倒谱系数特征；

步骤1-2-2)根据训练集中的语音数据的语音标注和梅尔频率倒谱系数特征训练隐氏马尔科夫模型，生成语音数据的所有语音帧的标注信息；

步骤1-2-3)将训练集中的语音的梅尔频率倒谱系数特征和标注信息输入到构建好的ST-RES-LSTM神经网络中，并使用随机梯度下降算法来更新网络的参数，直至该神经网络收敛，得到训练好的空时残差神经网络ST-RES-LSTM。

本发明的优点在于：

1、本发明的方法相较于普通残差网络(RES-LSTM)，能进一步缓解语音识别声学建模梯在层数加深时带来的梯度消失的问题，从而提高语音识别的正确率；

2、本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构，既能缓解层数加深带来的梯度消失问题，又能缓解LSTM在时间维度存在的梯度消失问题，从而提高语音识别的性能。

附图说明

图1为本发明的基于空时残差神经网络的基本结构示意图。

具体实施方式

下面结合附图和实施例对本发明的方法进行详细说明。

本发明首先对RES-LSTM网络进行了改进，提出了空间残差神经网络S-RES-LSTM，具体公式如下：

LSTM单元的基本运算如下面公式所示：

其中，

分别代表输入门、遗忘门和输出门对输入

的权重矩阵，

分别代表输入门、遗忘门和输出门对上一时刻反馈

的权重矩阵，

分别代表输入门、遗忘门和输出门对上一时刻LSTM细胞

的权重矩阵，

分别代表LSTM细胞对输入和当前时刻反馈的权重矩阵，

分别代表了输入门，遗忘门，输出门的输出；

代表了LSTM的反馈信息；

代表了LSTM的细胞信息经过输出门后的信息；

代表了LSTM的投影降维矩阵；

代表了LSTM的输出。

如果用J_S-RES代表网络的代价函数，L代表网络的总层数，l代表网络的层序号，f_l(.)代表第l层神经网络的数学运算，θ代表网络的参数，

代表了LSTM单元的投影矩阵，那么具体计算如下：

下面根据(16)对神经网络参数求导可知：

对比(12)和(17)式可以发现，(12)在梯度计算的时候会出现投影矩阵连乘，如果

那么

将会变的很大。当

那么

将会变的很小，从而出现梯度消失的问题。而(17)相较于(12)在梯度计算的时候就不会出现这样的问题，所以更能缓解(12)在深层网络时候出现的梯度消失问题，进而提高语音识别的性能。

为了进一步提高S-RES-LSTM的建模能力，本发明在时间上也引入残差结构，即空时残差神经网络ST-RES-LSTM，具体公式如下：

其中，Append(.)是将输入向量拼接起来的操作。

代表了空间残差信息，

代表了空间和时间残差信息，具体结构如图1所示。

在语音识别流程中，使用随机梯度下降(SGD)算法来训练构建的ST-RES-LSTM神经网络，具体训练过程如下：

1)对训练集中的语音数据提取梅尔频率倒谱系数(MFCC)特征；

2)然后根据语音标注和MFCC特征训练隐氏马尔科夫模型，并对训练集中的语音数据生成所有语音帧的标注信息；

3)最后将训练集中的语音的MFCC特征特征和标注信息输入到构建好的ST-RES-LSTM神经网络中，并使用随机梯度下降算法来更新网络的参数，直至神经网络收敛，得到训练好的空时残差神经网络ST-RES-LSTM。

将本发明提出的空时残差神经网络ST-RES-LSTM用于远场语音识别的任务中，并在AMI数据集上验证了方法的有效性。

在语音识别流程使用本发明提出的空时残差神经网络ST-RES-LSTM来进行声学建模，具体步骤如下所示：

步骤1)用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练，并生成每一帧的分类概率；

步骤2)构建语音识别解码网络，并使用步骤1)的训练好的声学模型进行维特比解码出最终识别结果。

具体语音识别的性能指标字错误率结果见表1和表2：

表1：空时残差LSTM的性能随着网络深度的变化

表2：在训练数据中加入近场语音数据后空时残差LSTM的性能随网络深度变化

表1中可以看出，随着网络深度由3层变成6层，普通的LSTM(Plain-LSTM)性能增加，然后当深度由6层增加到9层网络的性能就开始降低。这说明随着网络的深度增加，深度神经网络会出现梯度消失的现象。而文献中提出的RES-LSTM能有效的缓解这种现象。而本文提出的ST-RES-LSTM能进一步的降低语音识别的字错误率，提高系统的性能。当只用远场数据训练声学模型，ST-RES-LSTM在6层和9层的情况下相较于RES-LSTM有绝对1％的字错误率下降。为了进一步验证该方法的有效性，在训练数据中加入了近场数据，实验表明，在6层和9层的情况下，空时残差LSTM仍然有绝对1％的字错误率的下降。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。