CN105513591B

CN105513591B - 用lstm循环神经网络模型进行语音识别的方法和装置

Info

Publication number: CN105513591B
Application number: CN201510967532.7A
Authority: CN
Inventors: 白锦峰; 苏丹; 胡娜; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2019-09-03
Anticipated expiration: 2035-12-21
Also published as: CN105513591A

Abstract

本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置，其中方法包括：接收第t时刻的语音输入数据；根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态，其中，n为正整数；根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”，提高了语音识别的准确性。

Description

用LSTM循环神经网络模型进行语音识别的方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种利用LSTM(Long-Short TermMemory，长短时记忆)循环神经网络模型进行语音识别的方法和装置。

背景技术

语音识别技术是指将输入的一段语音信号转化成文本输出的过程，通常包括声学模型、语言模型以及对应的解码搜索方法，其性能很大程度上依赖声学模型的构建。由于语音是典型的时序信号，循环神经网络，尤其是长短时记忆LSTM循环神经网络，因其具有很强的时序建模能力而逐渐变成语音识别中声学建模的新方向。

但是，语音信号又具有短时平稳特性，特征提取(例如，窗长25ms，步长10ms)得到的相邻帧差异常常较小，这一方面造成模型建模能力浪费，另一方面因为简单模式反复重复出现会造成“余尾效应”，即具有简单模式的帧(比如静音帧)连续几十帧输入到网络中，会导致循环神经网络对该简单模式记忆太强，而在不同标签的帧输入时，仍旧不能很快速的调整过来，导致估计错误，影响识别性能，例如，如图1所示，因为标签1对应的模式比较简单却重复了很多个时间节拍，当真实具有新的标签3的特征输入网络时，网络迟迟不能反应过来，因此导致随后的三帧均被错误的预测成标签1。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种利用长短时记忆LSTM循环神经网络模型进行语音识别的方法。该方法可以很好地解决深度循环神经网络的“余尾效应”，提高了语音识别的准确性。

本发明的第二个目的在于提出一种利用长短时记忆LSTM循环神经网络模型进行语音识别的装置。

为达上述目的，本发明第一方面实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法，包括：接收第t时刻的语音输入数据；根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，其中，n为正整数；根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。

本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法，在语音识别的过程中，可接收当前第t时刻的语音输入数据，并根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，最后，将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果，即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系，算法自动地学习不同时间尺度之间的依赖关系，对于简单重复模式自适应的采用大的时间跨度依赖，而对变化比较剧烈的自适应的采取小的时间跨度，从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系，从而很好的解决了深度循环神经网络的“余尾效应”，从而提高了语音识别的准确性。

为达上述目的，本发明第二方面实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，包括：接收模块，用于接收第t时刻的语音输入数据；选择模块，用于根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，其中，n为正整数；生成模块，用于根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。

本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，在语音识别的过程中，可通过接收模块接收当前第t时刻的语音输入数据，选择模块根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，生成模块将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果，即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系，算法自动地学习不同时间尺度之间的依赖关系，对于简单重复模式自适应的采用大的时间跨度依赖，而对变化比较剧烈的自适应的采取小的时间跨度，从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系，从而很好的解决了深度循环神经网络的“余尾效应”，从而提高了语音识别的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是现有技术中存在的余尾效应的示意图；

图2是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法的流程图；

图3是本发明提出的LSTM循环神经网络模型与普通常规的LSTM结构的基本对比原理的示例图；以及

图4是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

语音识别技术是指将输入的一段语音信号转化成文本输出的过程，通常包括声学模型、语言模型以及对应的解码搜索方法，其性能很大程度上依赖声学模型的构建。现有的大词汇量汉语语音识别方法主要基于混合方法，例如：高斯混合模型(Gaussian MixtureModel；以下简称：GMM)+隐马尔科夫模型(Hidden Markov Model；以下简称：HMM)、深度神经网络(Deep Neural Network；以下简称：DNN)+HMM等。具体而言，在基于统计的混合方法建模的语音识别中，HMM用于表示声学建模单元，比如一个音子一个HMM，每一个HMM又包含几个顺序跳转的状态(通常为三到五个)，用于估计隐马尔可夫模型的状态后验概率的方法有：高斯混合模型、深度神经网络(特指深度多层感知机)、深度卷积神经网络和深度循环神经网络等以及几者的组合模型。

目前，基于统计的深度神经网络-隐马尔科夫模型(DNN-HMM)是主流系统的标准配置。深度神经网络用于估计隐马尔可夫模型的状态后验概率，基于此解码算法在融合语言模型的条件下进行最优序列搜索。因此，DNN-HMM模型应用于语音识别包含“对齐”和“优化”两个步骤，首先利用对齐算法在给定答案的训练数据上获得因马尔科模型的状态标签，DNN模型主要用于精确建模状态的后验概率，因此该方法亦被称为混合建模方法(Hybrid)。

语音是典型的时序信号，循环神经网络，尤其是长短时记忆(Long short-termmemory，LSTM)循环神经网络，因其具有很强的时序建模能力逐渐变成语音识别中声学建模的新方向。但是，语音信号又具有短时平稳特性，特征提取(窗长25ms，步长10ms)得到的相邻帧差异常常较小，这一方面造成模型建模能力浪费，另一方面因为简单模式反复重复出现会造成“余尾效应”，即具有简单模式的帧(比如静音帧)连续几十帧输入到网络中，会导致循环神经网络对该简单模式记忆太强，而在不同标签的帧输入时，仍旧不能很快速的调整过来，导致估计错误，影响识别性能。例如，如图1所示，因为标签1对应的模式比较简单却重复了很多个时间节拍，当真实具有新的标签3的特征输入网络时，网络迟迟不能反应过来，因此导致随后的三帧均被错误的预测成标签1。推而广之，单向的循环神经网络在遇到简单模式重复很多时，容易导致其随后的标签被预测错，而且“余尾效应”的大小跟模式的简单程度和重复次数比较相关。双向的循环神经网络在遇到简单模式重复很多时，容易导致其前后的标签被预测错，而且“余尾效应”同样跟模式的简单程度和重复次数比较相关。

为此，为了解决采用循环神经网络(尤其是LSTM)对语音识别进行声学建模时会出现的“余尾效应”的问题，本发明提出一种利用长短时记忆LSTM循环神经网络模型进行语音识别的方法和装置。具体地，下面参考附图描述本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法和装置。

图2是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法的流程图。如图2所示，该方法可包括：

S201，接收第t时刻的语音输入数据。

可以理解，语音识别系统在对语音进行识别时，主要是通过声学模型对该语音进行声学特征的提取。其中，在本发明的实施例中，该声学模型可通过长短时记忆LSTM循环神经网络模型进行建模的。其中，在本发明的实施例中，该长短时记忆LSTM循环神经网络模型可包括输入门、遗忘门、输出门、状态单元和LSTM结果等，这些数据可分别通过以下公式(1)计算获得：

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cmm_t-1+b_c) (1)

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)

m_t＝o_t⊙h(c_t)

其中，x_t为第t时刻的语音输入数据，W为权重矩阵，b为偏置向量，i、f、o、c、m分别为输入门、遗忘门、输出门、状态单元和LSTM结果，⊙为向量按元素的乘积，σ为sigmoid函数，sigmoid函数的计算公式为：g、h分别为状态单元的输入和输出激活函数，激活函数为tanh函数，tanh函数的计算公式为

具体地，语音识别系统在对语音进行识别时，可实时接收当前第t时刻的语音输入数据。

S202，根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，其中，n为正整数。

其中，在本发明的实施例中，该预设规则可包括但不限于：从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果；和/或，采用L0-范数的稀疏性，从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个LSTM隐含层状态；和/或，根据人工经验从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个LSTM隐含层状态。可以理解，上述预设规则还可以根据实际需求(如新的任务)设计相应的选择规则。

具体地，在接收到第t时刻的语音输入数据的同时，此时已存在有第t-1时刻至第t-n时刻的LSTM隐含层状态，此时可根据上述预设规则从该第t-1时刻至第t-n时刻的LSTM隐含层状态种选择满足该预设规则的LSTM隐含层状态作为选择结果，以用于计算第t时刻的LSTM结果。

例如，在实时接收到当前时刻的语音输入数据时，可将该当前时刻的语音输入数据代入上述式(1)以得到对应的LSTM结果输出，如图3所示，当将接收到的当前第t时刻的语音输入数据x_t代入上述式(1)时，可先获取当前第t时刻的前面所有时刻(如第t-1时刻至第t-n时刻)的LSTM隐含层状态，然后，根据上述预设规则从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态。可以看出，本步骤重要思想在于在第t-1时刻至第t-n时刻中选择LSTM隐含层状态的这个选择过程，也就是这个过程引入了“多时间尺度”的概念，同时因为可以不选择其中的某个或者某几个LSTM隐含层状态，所以存在“可跨跳”的概念。

可选地，在本发明的实施例中，该n可为预先配置的。可以理解，该n可以是通过大量试验而得到的经验值，将n配置成该经验值可以使得语音识别效果更好等特点。

可选地，在本发明的一个实施例中，该n可通过自学习获得。可以理解，可通过在完成一次语音识别之后，根据此次识别效果来自行更新并完善该n的值，使得下次语音识别能够达到更好的效果。由此，通过不断自学习而更新并完善该n的值，可以不断完善语音识别，提高识别准确度等。

S203，根据选择的至少一个LSTM隐含层状态、第t时刻的语音输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。

具体地，在从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态之后，可根据选择出的一个或多个LSTM隐含层状态、当前第t时刻的输入数据代入上述式(1)以得到该第t时刻的LSTM结果。

为了使得本领域技术人员能够更加清楚地了解本发明的特点，下面可将上述LSTM循环神经网络模型与传统普通的LSTM模型进行对比描述。

图3是本发明提出的LSTM循环神经网络模型(即图3中所示的多时间尺度的LSTM模型)与普通常规的LSTM结构的基本对比原理。如图3所示，假设给定的输入序列为x＝(x₁,...,x_T)，其中，T表示序列的长度。

1)对于任意时刻的输入x_t，本发明提出的LSTM循环神经网络模型通过上述式(1)对模型中的各个单元进行计算。

2)对于任意时刻的输入x_t，普通常规的LSTM结构可通过下列公式(2)对模型中的各个单元进行计算：

其中，式(2)中的参数含义可参照上述式(1)中的参数。在此不再赘述。

从上述两个公式可以看出，对于普通常规的LSTM模型，本发明提出的LSTM循环神经网络模型在该公式的基础上了进行了改进。其中，⊕表示可选“+”操作，计算法会根据输入数据的不同，自动选择其中一项或者多项进行求和操作。

也就是说，本发明提出的LSTM循环神经网络模型采用了传统梯度下降法，即按照梯度计算的理论，不同的数据采用不同的计算项，而其梯度亦是针对该项的求导回传(此操作类似于Max pooling的梯度回传过程)。

综上，本发明基于多时间尺度的深度循环神经网络可跨跳模型(即上述式(1)所示)来解决上述问题，模型引入跨帧之间的时间依赖关系，算法自动地学习不同时间尺度之间的依赖关系，对于简单重复模式自适应的采用大的时间跨度依赖，而对变化比较剧烈的自适应的采取小的时间跨度，从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系，从而很好的解决了深度循环神经网络的“余尾效应”。

需要说明的是，本发明提出的LSTM循环神经网络模型首先是建立在循环神经网络的基础上，却不同于普通的循环神经网路，普通的循环神经网络一定是前后帧之间具有严格的时序依赖关系，而本发明的LSTM循环神经网络模型不止在建立普通的前后帧时序依赖关系，还建模多时间尺度意义上的时序依赖关系。这是因为语音信号是短时平稳信号，很多时候存在相似的特征持续很多帧，而这种时序意义上的时序依赖是没有意义的，也会消弱模型的建模能力。本发明的LSTM循环神经网络模型通过随机梯度方法自动的学习时间尺度的依赖关系，是模型能够最大程度上发挥其潜能，从而更好的完成声学建模过程。

还需要说明的是，本发明提出的LSTM循环神经网络模型区别于Clockwork RNN(一种新式的基于人工神经网络的时间序列学习算法)。Clockwork RNN是通过人为设计的固定跨度的时间尺度的依赖关系。这种依赖关系在具有短时平稳特性的声学建模中只能获得次优结果，因为它不能发挥根据训练数据进行自适应多时间尺度的可跨跳模型。而本发明提出的LSTM循环神经网络模型根据语音识别短时平稳特性设计的，很好的解决了“余尾效应”，大幅提升语音识别的性能。

为了实现上述实施例，本发明还提出了一种利用长短时记忆LSTM循环神经网络模型进行语音识别的装置。

图4是根据本发明一个实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置的结构框图。如图4所示，该装置可以包括：接收模块10、选择模块20和生成模块30。

具体地，接收模块10可用于接收第t时刻的语音输入数据。

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cmm_t-1+b_c) (1)

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)

m_t＝o_t⊙h(c_t)

更具体地，语音识别系统在对语音进行识别时，接收模块10可实时接收当前第t时刻的语音输入数据。

选择模块20可用于根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，其中，n为正整数。

更具体地，在接收模块10接收到第t时刻的语音输入数据的同时，此时已存在有第t-1时刻至第t-n时刻的LSTM隐含层状态，此时选择模块20可根据上述预设规则从该第t-1时刻至第t-n时刻的LSTM隐含层状态种选择满足该预设规则的LSTM隐含层状态作为选择结果，以用于计算第t时刻的LSTM结果。

例如，在接收模块10实时接收到当前时刻的语音输入数据时，选择模块20可将该当前时刻的语音输入数据代入上述式(1)以得到对应的LSTM结果输出，如图3所示，当将接收到的当前第t时刻的语音输入数据x_t代入上述式(1)时，可先获取当前第t时刻的前面所有时刻(如第t-1时刻至第t-n时刻)的LSTM隐含层状态，然后，根据上述预设规则从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态。可以看出，本步骤重要思想在于在第t-1时刻至第t-n时刻中选择LSTM隐含层状态的这个选择过程，也就是这个过程引入了“多时间尺度”的概念，同时因为可以不选择其中的某个或者某几个LSTM隐含层状态，所以存在“可跨跳”的概念。

生成模块30可用于根据选择的至少一个LSTM隐含层状态、第t时刻的语音输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。

更具体地，在选择模块20从第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出一个或多个LSTM隐含层状态之后，生成模块30可根据选择出的一个或多个LSTM隐含层状态、当前第t时刻的输入数据代入上述式(1)以得到该第t时刻的LSTM结果。

本发明实施例的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，在语音识别的过程中，可通过接收模块接收当前第t时刻的语音输入数据，判断模块根据LSTM循环神经网络模型、以及预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，生成模块将选择的至少一个LSTM隐含层状态和第t时刻的输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果，否则，生成模块利用该当前第t时刻的前面全部时刻的所有LSTM结果，并将这些LSTM结果和该当前第t时刻的语音输入数据代入LSTM循环神经网络模型以计算出该第t时刻的LSTM结果，即通过LSTM循环神经网络模型引入跨帧之间的时间依赖关系，算法自动地学习不同时间尺度之间的依赖关系，对于简单重复模式自适应的采用大的时间跨度依赖，而对变化比较剧烈的自适应的采取小的时间跨度，从而根据语音帧序列模式的简单程度自动学习与其适应的时序依赖关系，从而很好的解决了深度循环神经网络的“余尾效应”，从而提高了语音识别的准确性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种利用长短时记忆LSTM循环神经网络模型进行语音识别的方法，其特征在于，所述LSTM循环神经网络模型包括输入门、遗忘门、输出门、状态单元和LSTM结果，所述方法包括以下步骤：

接收第t时刻的语音输入数据；

根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，其中，n为正整数；其中，所述预设规则包括：从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果；和/或，采用L0-范数的稀疏性，从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态；和/或，根据人工经验从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态；

根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。

2.如权利要求1所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法，其特征在于，其中，所述n为预先配置的。

3.如权利要求1所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法，其特征在于，所述LSTM循环神经网络模型中的输入门、遗忘门、输出门、状态单元和LSTM结果，分别通过以下公式计算获得：

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cmm_t-1+b_c)

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)

m_t＝o_t⊙h(c_t)

其中，x_t为所述第t时刻的语音输入数据，W为权重矩阵，b为偏置向量，i、f、o、c、m分别为所述输入门、遗忘门、输出门、状态单元和LSTM结果，⊙为向量按元素的乘积，σ为sigmoid函数，所述sigmoid函数的计算公式为：g、h分别为所述状态单元的输入和输出激活函数，所述激活函数为tanh函数，所述tanh函数的计算公式为

4.如权利要求1所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的方法，其特征在于，其中，所述n通过自学习获得。

5.一种利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，其特征在于，所述LSTM循环神经网络模型包括输入门、遗忘门、输出门、状态单元和LSTM结果，所述装置包括：

接收模块，用于接收第t时刻的语音输入数据；

选择模块，用于根据预设规则选择第t-1时刻至第t-n时刻的LSTM隐含层状态，其中，n为正整数；其中，所述预设规则包括：从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出至少一个最大不同的LSTM隐含层状态作为选择结果；和/或，采用L0-范数的稀疏性，从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态；和/或，根据人工经验从所述第t-1时刻至第t-n时刻的LSTM隐含层状态中选择出所述至少一个LSTM隐含层状态；

生成模块，用于根据所述选择的至少一个LSTM隐含层状态、所述第t时刻的语音输入数据、以及所述LSTM循环神经网络模型生成第t时刻的LSTM结果。

6.如权利要求5所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，其特征在于，其中，所述n为预先配置的。

7.如权利要求5所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，其特征在于，所述LSTM循环神经网络模型中的输入门、遗忘门、输出门、状态单元和LSTM结果，分别通过以下公式计算获得：

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cmm_t-1+b_c)

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)

m_t＝o_t⊙h(c_t)

8.如权利要求5所述的利用长短时记忆LSTM循环神经网络模型进行语音识别的装置，其特征在于，其中，所述n通过自学习获得。