CN110970031B

CN110970031B - 语音识别系统及方法

Info

Publication number: CN110970031B
Application number: CN201911291781.3A
Authority: CN
Inventors: 俞凯; 马娆; 李豪; 刘奇; 陈露
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2022-06-24
Anticipated expiration: 2039-12-16
Also published as: CN110970031A

Abstract

本发明公开一种语音识别系统，包括：词格生成模块，配置为根据待识别语句确定相应的待识别词格；双向LSTM编码器，配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态，按照待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态，并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息；单向LSTM解码器，配置为基于双向LSTM编码器的最后时刻的隐藏状态进行初始化，并根据初始化之后的单向LSTM解码器的隐藏状态和双向LSTM编码器的隐藏状态确定概率分布。本发明的语音识别系统可以以端到端的方式从单词词格中搜索最佳路径，从而解决了搜索空间有限以及训练与评估之间不一致的问题。

Description

语音识别系统及方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别系统及方法。

背景技术

近年来，从个人助理到智能扬声器，基于自动语音识别的应用取得了巨大的进展。这些应用程序的质量在很大程度上依赖于基础语音识别系统产生的1-best假设的准确性。一个自动语音识别系统通常由三个组件组成从而识别语音信号：声学模型，发音和语言模型。系统的性能可能受很多因素的影响，例如多说话者的识别，训练语料库的缺乏或存在环境噪音。因此，1-best假设常常含有识别错误。

为了解决这个问题，两趟解码策略被广泛采用来提高识别的准确性。其中，第一趟的模型通过输出多个假设来展示其搜索空间的一部分，这些假设可以用词格的紧凑形式表示。随后，在第二趟解码中，使用更复杂的模型进行n-best重打分或词格重打分。

在n-best重排序方法中，语音识别系统从生成的词格计算出n条最佳路径，并形成一个句子列表用以重排序。目前最流行的n-best重排序模型是循环神经网络语言模型。其中，基于长短时记忆的循环神经网络语言模型由于解决了梯度消失问题而得到了广泛的应用。神经网络语言模型计算给定的n-best列表中每个句子的分数。然后，这些语言模型分数与附加到每个假设的语音识别分数进行插值，从而对n个最佳假设进行重排序。

在词格重排序方法中，一个预先训练的语言模型，通过前向-后向算法对词格进行解码。除了提高语音识别性能之外，重排序词格比重排序n-best列表速度快很多。

此外，n-best列表只包含词格中所有可能假设的一小部分，这个问题可以被表述为有限搜索空间问题。对于n-best重打分中出现的问题，一个可行的解决方案是增加句子列表的大小。然而，即使对一个较大的n，n-best列表也只能覆盖整个词格中相对小的一部分，因为大多数假设仅在几个单词位置上有所不同。而且，时间开销随着n的增加而增加，这对于实时应用中是不利的，实际使用中，n设置为50到1000。

此外，神经网络语言模型是以预测下一个单词的目标来训练的，不适合在n-best列表或词格中寻找最佳路径的任务。例如，在训练中模型仅见到正面的句例，从而在评估中很难区分不同的相似的假设。

发明内容

本发明实施例提供一种语音识别系统及方法，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别系统，包括：

词格生成模块，配置为根据待识别语句确定相应的待识别词格；

双向LSTM编码器，配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态，按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态，并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息；

单向LSTM解码器，配置为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化，并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。

第二方面，本发明实施例提供一种语音识别方法，应用于语音识别系统，所述语音识别系统包括词格生成模块、双向LSTM编码器和单向LSTM解码器，所述方法包括：

词格生成模块根据待识别语句确定相应的待识别词格；

双向LSTM编码器按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态，按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态，并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息；

单向LSTM解码器基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化，并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音识别方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别方法。

本发明实施例的有益效果在于：提出了一种新颖的L2S模型，该模型可以以端到端的方式从单词点阵词格中搜索最佳路径，从而解决了搜索空间有限以及训练与评估之间不一致的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音识别系统的一实施例的示意图；

图2为本发明的双向LSTM编码器的一实施例的结构图；

图3为为本发明的单向LSTM编码器的一实施例的结构图；

图4为本发明所采用的注意力机制的一实施例的示意图

图5为本发明的语音识别方法的一实施例的流程图；

图6a为本发明中的ASR输出词格的示意图；

图6b为本发明中的预处理后的词格示意图；

图7为本发明中的在不同波束尺寸和不同插值速率λ下获得的平均词错误率示意图；

图8为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

如背景技术部分所述为了提高自动语音识别的准确性，两趟解码策略被广泛采用。第一趟模型生成紧凑的词格，第二趟模型对生成的词格执行重打分。目前，最流行的重打分方法是基于长短时记忆语言模型的n-best重打分和词格重打分。然而，这些方法遇到搜索空间有限或训练与评估之间不一致的问题。在本文本发明中，我们采用一个端到端模型来解决这些问题，该模型能够从词格中准确地提取最佳假设。我们的模型由双向LatticeLSTM编码器和随后的注意力LSTM解码器组成。该模型以词格为输入，在给定的词格空间中生成单个最佳假设。当与长短时记忆语言模型结合使用时，在同等的解码时间内，与n-best重打分和词格重打分方法相比，该模型的WER相对降低了9.7％和7.5％。

如图1所示，本发明的实施例提供一种语音识别系统，包括：词格生成模块10、双向LSTM编码器20和单向LSTM解码器30，其中，

词格生成模块10，配置为根据待识别语句确定相应的待识别词格；

示例性地，所述待识别词格包括多个节点，节点之间的连线上配置有前向概率和后向概率，每个节点上配置有边缘概率。本发明中的词格生成模块可以是基于背景技术部分所述的两趟解码策略中的第一趟解码策略得到。

双向LSTM编码器20，配置为按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态，按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态，并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息；

如图2所示，为本发明的双向LSTM编码器的一实施例的结构图，该实施例中以对“that’s way too early(那太早了)”的识别为例。

单向LSTM解码器30，配置为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化，并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。

如图3所示，为本发明的单向LSTM编码器的一实施例的结构图，该实施例中以对“that’s way too early(那太早了)”的识别为例。

本发明提出了一种新颖的L2S模型，该模型可以以端到端的方式从单词点阵词格中搜索最佳路径，从而解决了搜索空间有限以及训练与评估之间不一致的问题。

在一些实施例中，所述前向隐藏状态包括隐藏向量和单元向量；

所述按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态包括：

按所述待识别词格的正向拓扑顺序扫描词语标签，并为每个词语生成隐藏状态；

在时间步骤i，确定w_i的之前的词语并表示为集合P_i；

所述隐藏向量和所述单元向量分别由以下公式确定为：

在一些实施例中，还包括：基于所述后向概率对所述隐藏向量和所述单元向量更新如下：

其中，S_h，S_c是所述单向LSTM解码器的softmax层的参数向量。

在一些实施例中，所述为基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化包括：

所述单向LSTM解码器的隐藏状态初始化为：

s₀＝h_N，n₀＝c_N

h_N和c_N是所述双向LSTM编码器的最终时刻的所述隐藏向量和所述单元向量；

在时间步骤j，给定所述单向LSTM解码器的隐藏状态s_j-1，n_j-1和第j个目标词语的嵌入y_j，所述单向LSTM解码器的隐藏状态被更新为：

s_j，n_j＝LSTM(y_j，s_j-1，n_j-1).。

在一些实施例中，所述并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布包括：

采用注意力机制(如图4所示，为本发明所采用的注意力机制的一实施例的示意图)，将{h_i}^N ₁汇总为固定大小的上下文向量：

q_j＝ΣN_i＝1a_ijh_i

其中，a_ij度量所述双向LSTM编码器的隐藏向量h_i和所述单向LSTM解码器的隐藏状态s_j匹配的程度：

其中，W_a，U_a和v_a是所述单向LSTM解码器参数；

基于所述隐藏状态s_j和所述上下文向量q_j概率分布如下：

o_j＝tanh（W_c[s_j；q_j]+b_c)

P_j＝softmax(W_oo_j+b_o).。

在一些实施例中，还包括：基于所述边缘概率对r_ij更新如下：

其中，S_a是缩放参数向量，用于将所述边缘概率映射到与v_a具有相同维度的向量。

如图5所示，本发明实施例提供一种语音识别方法，应用于语音识别系统，所述语音识别系统包括词格生成模块、双向LSTM编码器和单向LSTM解码器，所述方法包括：

S1、词格生成模块根据待识别语句确定相应的待识别词格；示例性地，所述待识别词格包括多个节点，节点之间的连线上配置有前向概率和后向概率，每个节点上配置有边缘概率。

S2、双向LSTM编码器按照所述待识别词格的正向拓扑顺序确定每一个词语的前向隐藏状态，按照所述待识别词格的逆向拓扑顺序确定每一个词语的后向隐藏状态，并基于每一个词语的成对的前向隐藏状态和后向隐藏状态确定对应于每个词语的上下文表示信息；

S3、单向LSTM解码器基于所述双向LSTM编码器的最后时刻的隐藏状态进行初始化，并根据初始化之后的单向LSTM解码器的隐藏状态和所述双向LSTM编码器的隐藏状态确定概率分布。

在时间步骤i，确定w_i的之前的词语并表示为集合P_i；

所述隐藏向量和所述单元向量分别由以下公式确定为：

其中，S_h，S_c是所述单向LSTM解码器的softmax层的参数向量。

所述单向LSTM解码器的隐藏状态初始化为：

s₀＝h_N，n₀＝c_N

s_j，n_j＝LSTM(y_j，s_j-1，n_j-1).。

采用注意力机制，将{h_i}^N ₁汇总为固定大小的上下文向量：

q_j＝∑^N _i＝₁a_ijh_i

其中，W_a，U_a和v_a是所述单向LSTM解码器参数；

基于所述隐藏状态s_j和所述上下文向量q_j概率分布如下：

o_j＝tanh(W_c[s_j；q_j]+b_c)

P_j＝softmax(W_oo_j+b_o).。

本发明所达到的以上的有益效果以及所取得的成绩也得到的实际实验的验证，以下将对发明人所进行的实验进行详细的说明。

1.引言

在两趟解码算法中，普遍的做法是预训练一个语言模型，用语言模型与声学模型的分数插值对假设重排序。

此外，端到端语音识别系统将传统语音识别系统所有组件融合为一个统一的模型。然而，传统的两趟解码系统由于拥有更鲁棒的性能，依然是业界的主流。端到端语音识别模型也可受益于两趟解码策略。在第一趟中，通过合并beam搜索输出的节点来构建词格。由于生成的词格具有较小的理论字错误率，重新解码词格将产生更少的识别错误。

如上所示，从词格中提取最佳假设是端到端ASR系统中的关键任务，这是本发明的重点。我们提出了一种新颖的L2S模型(Lattice To Sequence，格到序列模型)，该模型可以以端到端的方式从词格中搜索最佳路径，从而解决了搜索空间有限以及训练与评估之间不一致的问题。该模型由双向词格(Lattice)编码器网络和具有注意力机制的解码器组成。在训练阶段，编码器为每个词格节点计算隐藏向量，解码器将其用于生成语音转录。在评估中，我们结合了前向-后向算法以在给定的词格空间中生成。实验是在著名的Swb-Fisher语料库上进行的。与传统的N-best重打分方法和词格重打分方法相比，可以获得一致的性能提升。L2S模型与以前的方法相比是高效的。

2.词格

词格是多个备选词序列的紧凑表示，可有效编码上游系统的歧义。子序列在不同的假设之间共享，从而可以在单个词格中表示指数数量的带权假设。先前的工作表明，将词格合并到神经网络的训练中可以提高任务性能。示例包括编码多个分词，多义表示和ASR输出。

图6a和图6b的示例是“that’s way too early”的词格。图6b所示为预处理后的词格，包含前向/边缘/后向概率分数，其中边缘概率分数配置于节点上，前向/后向概率分数配置于节点之间的连线上(后向概率分数配置与括号中)。

如图6a所示，显示了Kaldi工具包生成的示例输出，语音识别系统中的词格通常表示为有向无环图，其中边上标有单词和权重。

如图6b所示为处理后的词格示意图，经过线图算法的处理，单词标签放在节点上，而权重保留在边上，这保证每个词对应于编码网络中的一个隐藏状态。我们添加了两个特殊标记BOS和EOS来表示句子的开头和结尾。每个节点还按拓扑顺序分配了一个数字，以使子节点位于其所有父节点之后。

原始词词格的每条边都与n-gram语言模型得分和声学得分相关联，可以通过声学比例因子进行组合。通常以前向归一化的方式给出词格分数，即，每个节点在所有出度上的概率之和为1。我们可以进一步得出词格图中的边缘/后向概率分数。对于边e_i，j∈E，假定前向得分为f_i，j，并将节点i的前驱集合表示为P_i。然后，我们可以使用正向算法在每个节点上计算边缘得分m₀＝1和m_i＝∑_k∈Pi m_kf_k，i(i＞0)。后向概率分数的计算公式为：b_i，j＝m_if_i，j/m_j在每个边缘上。图6b中说明了所有三种类型的分数。

3.神经词格到序列模型

我们提出了一个针对词格搜索问题的端到端模型。采用双向Lattice LSTM对给定的词格进行编码，计算每个格节点的上下文表示。注意力LSTM解码器用于根据编码器的输出生成假设。在训练中，该模型以词格为输入并输出参考假设。在评估时，该模型可以以自回归的方式生成预测的句子或使用前向-后向算法在给定格空间的约束下生成预测假设。以下给出了详细的模型结构以及训练和评估程序。

3.1、编码器

给定x_t，h_t-1，c_t-1作为输入，LSTM在每个时间步基于以下公式产生隐藏向量h_t和单元格向量c_t：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)，

其中，W为权重矩阵参数，b为偏置。

基本的LSTM适用于以线性顺序给出单词的任务，例如语言建模。但是，词格图中的每个单词可能存在多个在先单词。在本发明中，我们利用双向Lattice LSTM编码器对这种依赖性进行建模。

前向LSTM(即，双向Lattice LSTM编码器中的前向编码部分)按词格(待识别语句的待识别词格)的拓扑顺序扫描词格的单词标签，并为每个单词生成隐藏状态。在时间步骤i，首先确定w_i的所有前身(示例性地，是w_i的所有前驱节点，指的是lattice图中w_i的所有父节点)，并将集合表示为P_i。先前时间步的隐藏向量和单元向量被汇总为：

例如，在图6b中，节点3具有两个传入边缘e_1，3和e_2，3。因此，时间步骤1和2的隐藏状态被压缩为

和

假设w_i的嵌入为x_i，则使用LSTM函数计算第i步的隐藏状态：

我们可以将后向归一化的分数合并到

和

的组成中，因此将聚合状态编码偏向更可能的前身隐藏状态。请注意，由于每个节点的输入边沿上的后向归一化分数总和为1，因此在前向编码器中选择了后向分数。修改后的公式为：

其中，S_h，S_c是用于带温度参数的softmax的参数向量，从而导致较软的概率分布。

后向LSTM(即，双向Lattice LSTM编码器中的后向编码部分)可以按词格的相反的拓扑顺序以类似方式计算。最后，我们将两个LSTM的隐藏向量连接起来，形成w_i的上下文表示。

3.2、解码器

解码器是前向LSTM，可在每个时间步输出符号，以注意力机制产生的上下文向量为条件。解码器隐藏状态由最终的编码器隐藏状态初始化，即s₀＝h_N，n₀＝c_N。在时间步骤j，给定先前的解码器的隐藏状态s_j-1，n_j-1和第j个目标字的嵌入y_j，隐藏向量和单元向量被更新为：

s_j，n_j＝LSTM(y_j，s_j-1，n_j-1).

通过注意机制，可以将编码器的表示向量{h_i}^N ₁汇总为固定大小的上下文向量，该向量的计算公式为q_j＝∑N_i＝1a_ijh_i。a_ij度量源隐藏向量h_i和解码器状态s_j匹配的程度：

其中，W_a，U_a和v_a是模型参数。我们还可以将边缘词格分数纳入a的生成。因此，具有较高词格分数的单词比具有较低分数的单词具有更高的被注意力层选择的可能性。r_ij的计算被替换为：

在此，S_a是缩放参数向量，它将边缘得分映射到与v_a具有相同维度的向量。

我们使用一个简单的线性层来结合来自隐藏向量s_j和上下文向量q_j的信息得到o_j。o_j被馈入softmax层以计算预测分布P_j：

o_j＝tanh(W_c[s_j；q_j]+b_c)

P_j＝softmax(W_oo_j十b_o).

其中，b_c和W_c都是同一个线性层的参数，b_o和W_o是另一个线性层的参数，下标c和o用来区别这是不同的两层。

3.3、训练和解码

我们通过为所提出的L2S模型提供词格对及其相应的参考假设来进行训练。使用训练好的L2S模型，在评估阶段，我们可以以自回归方式生成转录。但是，如果我们在解码阶段不对转录施加任何限制，则生成的假设可能容易出错。一种更好的方法是在给定的基于格的搜索空间中提取单个最佳假设。在本发明中，我们采用基数剪枝的自适应前-后向算法。从bos节点开始，将按照拓扑顺序处理词格节点。对于每个节点，保留部分假设列表。每个候选假设都存储从bos节点到当前节点的隐藏状态和累积分数。该算法通过后继节点上的单词扩展隐藏状态并进行评分。最后，可以在eos节点中获得词格的最佳评分假设。对于每个部分假设s，我们将得分计算为：

score(s)＝(1-λ)·L2S(s)+λ·(LSTM(s)+s.acoustic).

当λ＝1时，该算法将缩减为原始词格重打分方法。当λ＝0时，仅基于L2S分数对假设进行排名。在其他情况下，将L2S模型和LSTM语言模型产生的分数组合起来进行估计。为了降低计算成本，每个节点仅保留k个最佳假设。

4.实验

4.1、资料说明

实验是在300小时的SWBD和2000小时的Swb-Fisher语料库上进行的。我们遵循EESEN SWBD配方来构建基于电话的基准CTC ASR系统。在SWBD 300小时语音上训练了隐藏层为320的5层BLSTM声学模型，在Swb-Fisher 2000小时成绩单上训练了3-gram语言模型。所有词格都是通过基于WFST的方法生成的。

表1.训练语料库和两个测试集不同部分的格统计量。#发送和长度表示参考假设的总数和平均长度。节点和边指的是单词点阵的节点和边的平均数。

通过从原始的Switchboard和Fisher转录中随机选择来准备验证和测试集，分别产生6731和5000个句子。使用的词汇量为31K。我们在eval2000和rt03集上评估我们的模型。用6.0的波束大小剪枝词格。数据的详细信息在表1中给出。eval2000语料库中最大的词词格包含1015个节点，它们具有1.9e¹⁷的可能路径，这对于N-best重打分方法来说仍然很困难。

4.2、实验设定

我们提出的L2S模型包含两个双向Lattice LSTM层，每个编码器方向的大小为256。字嵌入大小也设置为256。解码器包含两个LSTM层，每个LSTM层具有256个神经元。投影层用于将编码器输出从512维映射到256维。我们将编码器的输入嵌入，解码器的输入嵌入和解码器的输出嵌入联系在一起，因为它们包含相同的词汇。我们每批次训练4096个令牌。Adam学习器用于训练，前三个时期的学习率是e^-3，后两个时期的学习率是e^-4。辍学率设置为0.15。基线LSTMLM具有与L2S解码器相同的结构，并且也采用权重绑定。LSTMLM训练了10轮，批大小为256。

4.3、实验结果

在表2中，我们比较了我们提出的L2S模型与具有不同解码策略的3-gram LM和LSTMLM的准确性和时间影响。1表的第一行显示了统计Trigram模型和声学模型。高WER展示了必须结合第二遍解码策略(例如N-best重打分)的必要性。

表2.使用Trigram LM，LSTMLM，L2S模型和用LSTMLM分数解码的L2S模型获得的各种困惑度(PPL)，WER[％]和计时结果的比较。“第一趟”是指ASR第一趟解码的1-best输出。

对于LSTMLM，我们测试了N-best重打分和词格重打分方法。第2至5行的结果表明，通过对N个最佳假设进行核对，LSTMLM稳定地降低了ASR基线的WER结果。根据1000个最佳清单进行排序得出的最低WER为21.2。但是，当N大于500时，推断会带来较大的延迟。大多数时间都花在从单词点阵生成N个最佳列表上。用k＝1(第6行)对词格进行评分与对100个最佳列表进行评分具有相似的性能，同时将工作时间减少了五倍。增加每个词格节点保持的候选假设数(k)可产生更好的WER(第7-8行)。

L2S模型的结果从第9行到第12行列出。测试集的困惑度仅为2.3，这意味着我们的模型不是很困惑，就好像它必须在测试中每个单词的2.3种可能性中进行独立均匀的选择，与LSTMLM(PPL为54.0)不同。以自回归方式生成目标假设(第9行)所产生的WER与重打分100个最佳列表的结果相当。该模型有机会输出不在格中的语义相似的单词，可以使用前向后向算法来缓解这种情况。第10行的平均WER为20.4，大大优于所有基线模型。但是，较大的k值会影响精度。由于我们的模型经过训练可以区分给定词格中的替代序列，并且能实现只有2.3的PPL，因此与普通LSTMLM相比，它在每个单词预测时都具有更高的确定性。结果表明，L2S模型允许进行贪婪的词格搜索，这是提高运行时效率的理想属性。

我们还研究了L2S分数和LSTMLM分数在词格计分中的组合。如第13行所示，WER结果从21.6下降到19.5，与50最佳打分相比，解码时间更短。为了验证性能增益是否来自简单的集成技术，我们还对两个LSTMLM的集成进行了词格计分。当k＝1时，平均WER为21.3。结果表明，L2S模型和LSTMLM具有互补的能力，我们提出的模型可以结合LSTMLM的能力以进行精确预测。图7显示了在不同波束尺寸和不同插值系数λ下获得的平均WER(％)。最佳值大约为0.4。

表3.词格分数影响的消融。m/f/b分别指边缘/前向/后向得分。

我们进行消融分析以研究词格分数的影响。在这里，我们将k＝1的前向后算法作为解码策略。表3表明我们的模型在推理中利用了声学得分和图表得分。第3行显示，在不使用前向/后向归一化评分的情况下，模型性能会急剧下降，因为具有多个相互矛盾的前驱词格节点可能会导致较差的上下文表示。将边缘得分纳入注意机制可进一步提高WER。

5.结论与未来工作

在本发明中介绍了一种用于第二趟解码的端到端词到序列模型。我们的模型解决了搜索空间有限以及LSTM语言模型评分方法中训练与评估之间不一致的问题。实验结果表明，与N-best重打分和词格重打分相比，我们的方法可实现0.8％和0.6％的绝对WER降低。提出的模型能够利用LSTM语言模型估计来进一步降低WER。我们的框架可以轻松地适应其他需要从给定词格中提取1-best路径的研究领域，例如，机器翻译和端到端ASR系统。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音识别方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现语音识别方法。

图8是本申请另一实施例提供的执行语音识别方法的电子设备的硬件结构示意图，如图8所示，该设备包括：

一个或多个处理器810以及存储器820，图8中以一个处理器810为例。

执行语音识别方法的设备还可以包括：输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器820作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别装置的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器820中，当被所述一个或者多个处理器810执行时，执行上述任意方法实施例中的语音识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。