CN111627452B

CN111627452B - 一种语音解码方法、装置和终端设备

Info

Publication number: CN111627452B
Application number: CN201910152119.3A
Authority: CN
Inventors: 陈涛; 付晓寅; 臧启光; 吴玉芳; 瞿琴
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2023-05-23
Anticipated expiration: 2039-02-28
Also published as: CN111627452A

Abstract

本发明实施例提供一种语音解码方法、装置和终端设备，该方法包括：基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果；建立包括N个第一解码结果和M个第二解码结果的时间序列；将所述时间序列包括的解码结果按照在所述时间序列的时间顺序输入至LSTM模型进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。本发明实施例可以提高语音信号的解码准确度。

Description

一种语音解码方法、装置和终端设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音解码方法、装置和终端设备。

背景技术

随着智能设备的不断普及，语音交互逐渐成为人机交互的主要方式。然而，在实际应用中用户与设备之间往往存在一定距离，这样会存在噪声的干扰或者语音信号强度的衰弱，这样增加语音信号解码的难度。目前常用语音解码方法主要基于语言模型和声学模型获取语音信号的解码结果，并提取每个解码结果的多维特征，之后通过逻辑回归(Logistics Regression，LR)模型对这些解码结果的特征进行预测，以选择出最终的解码结果，但由于LR模型是对每个解码结果单独预测的，从而导致语音信号的解码准确度比较低。

发明内容

本发明实施例提供一种语音解码方法、装置和终端设备，以解决语音信号的解码准确度比较低的问题。

第一方面，本发明实施例提供一种语音解码方法，包括：

基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果；

建立包括N个第一解码结果和M个第二解码结果的时间序列，其中，所述N为大于或者等于1的整数，所述M为大于或者等于1的整数；

依据长短时记忆(Long Short-Term Memory，LSTM)模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，所述第一解码结果集包括所述至少一个第一解码结果，以及每个第一解码结果的第二分数，所述第二解码结果集包括所述至少一个第二解码结果，以及每个第二解码结果的第二分数；

所述N个第一解码结果为所述第一解码结果集中第二分数按照从高到低的排序中前N个第一解码结果，所述M个第二解码结果为所述第二解码结果集中第二分数按照从高到低的排序中前M个第二解码结果。

可选的，所述LSTM模型包括前向LSTM层、反向LSTM层和输出层，在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，所述依据长短时记忆LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果，包括：

提取所述时间序列中每个解码结果的多维特征，以得到每个时刻的多维特征，其中，所述多维特征包括声学特征和语义特征；

将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层，以得到各时刻的前向LSTM层输出，其中，所述前向LSTM层中第i时刻的输出与前i－1个时刻都存在关联，所述i为大于或者等于2的整数；

将所述时间序列包括各时刻的多维特征按照时间顺序输入至所述反向LSTM层，以得到各时刻的反向LSTM层输出，其中，所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联，所述j为大于或者等于1的整数，且所述j小于M+N；

将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层，以得到各时刻对应的解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，所述N等于所述M，所述建立包括N个第一解码结果和M个第二解码结果的时间序列，包括：

将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列，其中，所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。

可选的，所述LSTM模型的训练过程如下：

将语音样本的多个候选解码结果建模成时间序列，以得到所述语音样本的训练时间序列；

使用所述训练时间序列对基础模型进行训练，以得到所述LSTM模型。

第二方面，本发明实施例提供一种语音识别装置，包括：

获取模块，用于基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果；

建立模块，用于建立包括N个第一解码结果和M个第二解码结果的时间序列，其中，所述N为大于或者等于1的整数，所述M为大于或者等于1的整数；

处理模块，用于依据LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，所述LSTM模型包括前向LSTM层、反向LSTM层和输出层，在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，所述处理模块包括：

提取单元，用于提取所述时间序列中每个解码结果的多维特征，以得到每个时刻的多维特征，其中，所述多维特征包括声学特征和语义特征；

前向处理单元，用于将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层，以得到各时刻的前向LSTM层输出，其中，所述前向LSTM层中第i时刻的输出与前i－1个时刻都存在关联，所述i为大于或者等于2的整数；

反向处理单元，用于将所述时间序列包括各时刻的多维特征按照时间顺序输入至所述反向LSTM层，以得到各时刻的反向LSTM层输出，其中，所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联，所述j为大于或者等于1的整数，且所述j小于M+N；

输出单元，用于将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层，以得到各时刻对应的解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，所述N等于所述M，所述建立模块用于将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列，其中，所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。

可选的，所述LSTM模型的训练过程如下：

第三方面，本发明实施例提供一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明实施例提供的语音解码方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的语音解码方法的步骤。

本发明实施例中，基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果；建立包括N个第一解码结果和M个第二解码结果的时间序列；依据LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结。这样，通过LSTM联合预测解码结果的分数，从而可以输出更加准确的解码结果，以提高语音信号的解码准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音解码方法的流程图；

图2是本发明实施例提供的一种语音解码结果预测的示意图；

图3是本发明实施例提供的一种语音解码装置的结构图；

图4是本发明实施例提供的另一种语音解码装置的结构图；

图5是本发明实施例提供的一种终端设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书中的术语“包括”以及它的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，说明书以及权利要求中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B，表示包含单独A，单独B，以及A和B都存在三种情况。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

请参见图1，图1是本发明实施例提供的一种语音解码方法的流程图，如图1所示，包括以下步骤：

步骤101、基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果。

上述基于第一语言模型和声学模型获取语音信号的第一解码结果集可以是，通过上述第一语言模型识别上述语音信号得到多个语言识别结果，以及通过上述声学模型识别所述语音信号得到多个声学识别结果，再在这多个语言识别结果和多个声学识别结果中确定上述第一解码结果集，例如：确定多个语言识别结果和多个声学识别结果中的交集为上述第一解码结果集。上述基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集可以是通过上述第一语言模型识别上述语音信号得到多个语言识别结果，再在这多个语言识别结果和上述多个声学识别结果中确定上述第一解码结果集。

需要说明的是，上述第一语言模型可以是通用语言模型，上述第二语言模型可以是高频语言模型。其中，通用语言模型可以是采用通用资源训练的语言模型，这里通用资源可以是指通用于很多甚至所有场景或者领域等的资源，而上述高频语言模型可以是采用高频资源训练的语言模型，这里的高频资源可以是在一些场景或者领域等出现频率比较高的资源。另外，上述通用语言模型输出的识别结果的数量可以多于上述高频语言模型的识别结果的数量。当然，本发明实施例中并不限定上述第一语言模型为通用语言模型，上述第二语言模型为高频语言模型，例如：本发明实施例中，上述第一语言模型和第二语言模型还可以是采用不同资源训练得到的其他两个不同的语言模型。

本发明实施例中，由于采用第一语言模型、第二言语模型和声学模型获取语音信号的解码结果，从而使得解码结果更加丰富、准确。

步骤102、建立包括N个第一解码结果和M个第二解码结果的时间序列，其中，所述N为大于或者等于1的整数，所述M为大于或者等于1的整数。

上述建立包括N个第一解码结果和M个第二解码结果的时间序列可以是，将上述N个第一解码结果和M个第二解码结果分别作为时间序列不同时刻，以得到上述时间序列，例如：以上述N和M为2举例，第一解码结果1、第一解码结果2、第二解码结果1和第二解码结果2分别表示一个时刻序列的t0、t1、t2和t3时刻。

该步骤中通过建立包括N个第一解码结果和M个第二解码结果的时间序列，这样可以避免第一解码结果和第二解码结果之间单独比较，以提高语音信号解码的准确度。

步骤103、依据LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

上述依据LSTM模型对所述时间序列进行联合预测可以是，将上述述时间序列的各解码结果对应的特征按照在所述时间序列的时间顺序输入至LSTM模型进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

其中，上述LSTM模型输入的数量等于上述时间序列包括的解码结果的数量，步骤103可以是将各解码结果对应的特征按照在上述时间序列中的时间中顺序输入对应的位置。例如：上述LSTM模型的输入包括t0、t1、t2和t3，从而步骤103将上述时间序列中时刻最早的解码结果对应的特征输入t0，次早的解码结果对应的特征输入t1，同理，再将另外两个解码结果对应的特征分别输入至t2和t3。

上述联合预测可以是在预测一些解码结果对应的特征的输出时会关联另一些解码结果对应的特征，从而将多个解码结果关联，即利用了LSTM模型的记忆能力和遗忘能力，充分表达多个解码结果之间的关联，极大的提升模型的预测准确率，进而输出更加准确的解码结果，以提高语音信号的解码准确度。

需要说明的是，本发明实施例中可以是分数越高表示解码结果越准确。

另外，上述LSTM模型可以是预先训练得到的，或者可以是接收其他设备发送的，或者预先配置的等。

另外，本发明实施例提供的语音解码方法可以应用于智能机器人、手机、平板电脑、计算机等能够进行语音识别的终端设备。

作为一种可选的实施方式，上述第一解码结果集包括所述至少一个第一解码结果，以及每个第一解码结果的第二分数，所述第二解码结果集包括所述至少一个第二解码结果，以及每个第二解码结果的第二分数；

其中，每个第一解码结果的第二分数可以是上述第一语音模型输出的各第一解码结果的分数，上述每个第一解码结果的第二分数可以是上述第二语音模型输出的各第二解码结果的分数，也就是说，该实施方式中，第一语言模型和第二语言模型在输出结果时，还会携带各结果的预测分数。

该实施方式中，可以实现在上述第一解码结果集中选择分数前N的第一解码结果，以及在上述第二解码结果集中选择分数前M的第二解码结果。从而使得最终预测的解码结果更加准确。当然，本发明实施例对此不作限定，例如：上述N个第一解码结果可以是上述第一解码结果集中的所有解压结果，或者随机选择的解码结果等，且上述N可以等于或者不等于M。

作为一种可选的实施方式，所述LSTM模型包括前向LSTM层、反向LSTM层和输出层，在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，所述依据长短时记忆LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果，包括：

需要说明的是，本发明实施例每个解码结果可以对应多维特征，这多维特征可以包括：声学特征和语义特征。进一步的，每个解码结果的特征可以是基于语音语义一体化技术获得的，例如：每个解码结果融合了声学模型特征、语言模型特征、解码特征、领域特征、意图特征、槽位特征、声学置信度特征、上下文特征以及用户特征等，这些特征可以分别归纳为声学特征和语义特征，例如：声学特征可以包括声学模型特征和声学置信度特征中的至少一项，语义特征可以包括语言模型特征、解码特征、领域特征、意图特征、槽位特征、上下文特征以及用户特征中的至少一项。这样综合这些语音语义特征，可以提高模型的准确性和鲁棒性。

另外，本发明实施例中，提取所述时间序列中每个解码结果的多维特征可以采用现有已知提取方法进行提取，对此本发明实施例不作限定。

其中，上述将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层，以得到各时刻的前向LSTM层输出可以是，将各时刻的多维特征按照时间顺序输入至所述前向LSTM层进行运算，以得到各时刻的前向LSTM层输出。需要说明的是，本发明实施例中，LSTM模型中前向LSTM层包括多个预测单元，这多个预测单元分别与上述时间序列包括的多个时刻对应，且每个预测单元可以是对各自的输入进行运算，以输出相应的前向LSTM层输出。其中，每个预测单元包括的算法可以是对基础LSTM模型包括的算法进行训练得到。本发明实施例中，对每个预测单元包括的算法不作限定，具体可以是根据训练样本进行训练得到。

其中，上述将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述反向LSTM层，以得到各时刻的反向LSTM层输出可以是，将各时刻的多维特征按照时间顺序输入至所述反向LSTM层进行运算，以得到各时刻的反向LSTM层输出。需要说明的是，本发明实施例中，LSTM模型中反向LSTM层包括多个预测单元，这多个预测单元分别与上述时间序列包括的多个时刻对应，且每个预测单元可以是对各自的输入进行运算，以输出相应的反向LSTM层输出。其中，每个预测单元包括的算法可以是对基础LSTM模型包括的算法进行训练得到。本发明实施例中，对每个预测单元包括的算法不作限定，具体可以是根据训练样本进行训练得到。

具体的，上述前向LSTM层可以包括M+N个预测单元，上述反向LSTM层可以包括M+N个预测单元。例如：如图2所示，图2中每个LSTM表示一个预测单元，这些预测单元可以基于输入预测对应的解码结果的输出。

另外，上述前向LSTM层中第i时刻的输出与前i－1个时刻都存在关联可以是，前向LSTM层中第i时刻的输出与该时刻的前i－1个时刻的多维特征存在一定关系，也就是说，前i－1个时刻的多维特征会影响第i个时刻的输出，从而实现联合预测，以提高预测的准确率。例如：前向LSTM层中第i个时刻对应的输入可以包括第i个时刻的多维特征和第i－1个时刻的前向LSTM层输出。以i为2举例，对第2个时刻的处理输入可以包括第2个时刻的多维特征和第1个时刻的前向LSTM层输出；以i为3举例，对第3个时刻的处理输入可以包括第3个时刻的多维特征和第2个时刻的前向LSTM层输出，由于第2个时刻的前向LSTM层输出与第1个时刻关联，从而第3个时刻的输出与第1个时刻和第2个时刻存在关联。

其中，所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联可以是，反向LSTM层中第j个时刻的反向LSTM层输出与该时刻的后M+N－j时刻关联存在一定关系，也就是说，第j个时刻的后M+N－j个时刻的多维特征会影响第j个时刻的反向LSTM层输出，从而实现联合预测，以提高预测的准确率。例如：反向LSTM层中第j个时刻对应的输入可以包括第j个时刻和第j+1个时刻的反向LSTM层输出。以j为3举例，对第3个时刻的处理输入可以包括第3个时刻的多维特征和第4个时刻的反向LSTM层输出；以i为2举例，对第2个时刻的处理输入可以包括第2个时刻的多维特征和第3个时刻的反向LSTM层输出，由于第3个时刻的反向LSTM层输出与第4个时刻关联，从而第2个时刻的输出与第3个时刻和第4个时刻存在关联。

如图2所示，第一层LSTM表示上述前向LSTM层，该LSTM层中第i个时刻的前向LSTM层输出与所述第i个时刻的前i－1个时刻存在关联，例如：预测第2个时刻的前向LSTM层输出与第1个时刻关联，预测第3个时刻的前向LSTM层输出与第1个时刻和第2个时刻关联，预测第4个时刻的前向LSTM层输出与第1个时刻、第2个时刻和第3个时刻关联。

如图2所示，第二层LSTM表示上述反向LSTM层，该LSTM层中第j个时刻的反向LSTM层输出与所述第j个时刻的后M+N－j个时刻关联，例如：预测第3个时刻的反向LSTM层输出与第4个时刻关联，预测第2个时刻的反向LSTM层输出与第3个时刻和第4个时刻关联，预测第1个时刻的反向LSTM层输出与第2个时刻、第3个时刻和第4个时刻关联。

需要说明的是，图2中以第一语言模型为通用语言模型，第二语言模型为高频语言模型进行举例说明，且N个第一解码结果采用通用一候选和通用二候选表示，M个第二解码结果采用高频一候选和高频二候选表示。

上述将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层，以得到各时刻对应的解码结果的第一分数可以是，输出层针对每个时刻的前向LSTM层的输出和反向LSTM层的输出进行运算，由于每个时刻对应一个结果，从而可以得到每个解码结果的第一分数。同理，该输出层的预测算法对基础LSTM模型包括的算法进行训练得到。本发明实施例中，对输出层的预测算法不作限定，具体可以是根据训练样本进行训练得到。

优选的，上述输出层可以是二分类层，具体可以是通过归一化指数函数(Softmax)将每个解码结果输出两类，以及每类的分数。例如：如图2所示，LSTM模型的输出层是一个二分类层，通过Softmax将每个解码结果的输出分为两类，如图2所示的最上面一行中的每个圆圈表示一个分类的分数。另外，上述第一分数可以是上述两类某一类的分数，需要说明的是，第一分数具体是哪一类的分数可以根据实际场景进行确定或者预配置，对此不作限定。例如：上述两类包括是和否为两类，则上述第一分数可以是每个解压结果的是一类的分数。最后比较每个解码结果的第一分数，取最高分对应的解码结果候选作为模型的最优结果。

该实施方式中，可以实现LSTM模型的隐层是一个双向LSTM层。由于LSTM能记忆历史信息，前向LSTM可以利用第一解码结果更充分的预测第二解码结果，以及利用第二解码结果更充分的预测第一解码结果，反向LSTM可以利用第二解码结果更充分的预测第一解码结果，以及利用第一解码结果更充分的预测第二解码结果。因此，该实施方式中，不仅具有表达单个解码结果的能力，更重要的是可以有效表达多解码结果之间的关联性。且由于LSTM同时具有遗忘历史信息的能力，这样可以丢掉多解码结果之间负向的关联，而保留多解码结果之间的正向关联，从而提高语音信号的准确度。

需要说明的是，图2所示，最下面一行中每个候选中一个圆圈可以表示一维特征。

作为一种可选的实施方式，上述N等于所述M，所述建立包括N个第一解码结果和M个第二解码结果的时间序列，包括：

其中，上述将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列可以是，将上述N个第一解码结果和M个第二解码结果建模为时间序列中的不同时刻。例如：为了便于理解，分别取第一解码结果集和第二解码结果集的前两个最优结果，实际可以取更多的结果，这样总共得到四个解码结果，例如：如图2所示的通用一候选、通用二候选、高频一候选、高频二候选。再将每个解码结果建模成不同的时刻，也就是通用一候选、通用二候选、高频一候选和高频二候选分别表示一个序列的t0、t1、t2、t3时刻。

该实施方式中，可以实现在时间序列中第一解码结果和第二解码结果相间设置，从而通过LSTM模型可以更好地利用两个不同语言模型之间的关联关系，以使得预测的结果更加准确。当然，上述仅是一种优选的时间序列排列方式，本发明实施例中，对上述时间序列中各时刻对应的解码结果不作限定。

作为一种可选的实施方式，所述LSTM模型的训练过程如下：

其中，上述多个候选解码结果可以包括基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集。另外，上述训练时间序列可以参见本发明实施例步骤102建立的时间序列，此处不作赘述。

该实施方式中，由于不是直接使用语音信号进行训练，而是使用语音信号的多个解码结果构成的时间序列进行训练，这样可以实现将解码结果与语音样本分开，使得具备模型具有区分不同解码结果和不同语音样本的能力，以提升模型的预测准确。

本发明实施例中，基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果；建立包括N个第一解码结果和M个第二解码结果的时间序列；将所述时间序列包括的解码结果按照在所述时间序列的时间顺序输入至LSTM模型进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。这样，通过LSTM联合预测解码结果的分数，从而可以输出更加准确的解码结果，以提高语音信号的解码准确度。

请参见图3，图3是本发明实施例提供的一种语音识别装置的结构图，如图3所示，语音识别装置300包括：

获取模块301，用于基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果；

建立模块302，用于建立包括N个第一解码结果和M个第二解码结果的时间序列，其中，所述N为大于或者等于1的整数，所述M为大于或者等于1的整数；

处理模块303，用于依据LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，所述LSTM模型包括前向LSTM层、反向LSTM层和输出层，在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，如图4所示，所述处理模块303包括：

提取单元3031，用于提取所述时间序列中每个解码结果的多维特征，以得到每个时刻的多维特征，其中，所述多维特征包括声学特征和语义特征；

前向处理单元3032，用于将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层，以得到各时刻的前向LSTM层输出，其中，所述前向LSTM层中第i时刻的输出与前i－1个时刻都存在关联，所述i为大于或者等于2的整数；

反向处理单元3033，用于将所述时间序列包括各时刻的多维特征按照时间顺序输入至所述反向LSTM层，以得到各时刻的反向LSTM层输出，其中，所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联，所述j为大于或者等于1的整数，且所述j小于M+N；

输出单元3034，用于将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层，以得到各时刻对应的解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，所述N等于所述M，所述建立模块302用于将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列，其中，所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。

可选的，所述LSTM模型的训练过程如下：

本发明实施例提供的装置能够实现图1所示的方法实施例中实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

请参见图5，图5是本发明实施例提供的一种终端设备的结构图，如图5所示，终端设备500包括处理器501、存储器502及存储在所述存储器502上并可在所述处理器上运行的计算机程序。

其中，所述计算机程序被所述处理器501执行时实现如下步骤：

依据LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

可选的，将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层，以得到各时刻对应的解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果，处理器501执行的所述依据长短时记忆LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果，包括：

可选的，所述N等于所述M，处理器501执行的所述建立包括N个第一解码结果和M个第二解码结果的时间序列，包括：

可选的，所述LSTM模型的训练过程如下：

本发明实施例提供的终端设备能够实现图1所示的方法实施例中电子设备实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的语音解码方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音解码方法，其特征在于，包括：

基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果，所述第一语言模型和所述第二语言模型不同；

建立包括N个第一解码结果和M个第二解码结果的时间序列，其中，所述N为大于或者等于1的整数，所述M为大于或者等于1的整数，所述时间序列包括N+M个时刻，每个时刻对应所述N个第一解码结果和M个第二解码结果中的一个解码结果；

依据长短时记忆LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果。

2.如权利要求1所述的方法，其特征在于，所述第一解码结果集包括所述至少一个第一解码结果，以及每个第一解码结果的第二分数，所述第二解码结果集包括所述至少一个第二解码结果，以及每个第二解码结果的第二分数；

3.如权利要求1或2所述的方法，其特征在于，所述LSTM模型包括前向LSTM层、反向LSTM层和输出层，在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，所述依据长短时记忆LSTM模型对所述时间序列进行联合预测，以得到所述时间序列内每个解码结果的第一分数，并输出所述时间序列中第一分数最高的解码结果，包括：

4.如权利要求1或2所述的方法，其特征在于，所述N等于所述M，所述建立包括N个第一解码结果和M个第二解码结果的时间序列，包括：

5.如权利要求1或2所述的方法，其特征在于，所述LSTM模型的训练过程如下：

6.一种语音识别装置，其特征在于，包括：

获取模块，用于基于第一语言模型和声学模型获取语音信号的第一解码结果集，以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集，其中，所述第一解码结果集包括至少一个第一解码结果，所述第二解码结果集包括至少一个第二解码结果，所述第一语言模型和所述第二语言模型不同；

建立模块，用于建立包括N个第一解码结果和M个第二解码结果的时间序列，其中，所述N为大于或者等于1的整数，所述M为大于或者等于1的整数，所述时间序列包括N+M个时刻，每个时刻对应所述N个第一解码结果和M个第二解码结果中的一个解码结果；

7.如权利要求6所述的装置，其特征在于，所述第一解码结果集包括所述至少一个第一解码结果，以及每个第一解码结果的第二分数，所述第二解码结果集包括所述至少一个第二解码结果，以及每个第二解码结果的第二分数；

8.如权利要求6或7所述的装置，其特征在于，所述LSTM模型包括前向LSTM层、反向LSTM层和输出层，在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，所述处理模块包括：

9.如权利要求6或7所述的装置，其特征在于，所述N等于所述M，所述建立模块用于将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列，其中，所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻，且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。

10.如权利要求6或7所述的装置，其特征在于，所述LSTM模型的训练过程如下：

11.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音解码方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音解码方法的步骤。