CN108320740B

CN108320740B - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN108320740B
Application number: CN201711487836.9A
Authority: CN
Inventors: 张淼; 徐宇垚
Original assignee: Shenzhen Het Data Resources and Cloud Technology Co Ltd
Current assignee: Shenzhen Hetai Intelligent Home Appliance Controller Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-01-19
Anticipated expiration: 2037-12-29
Also published as: CN108320740A

Abstract

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，其中方法包括如下步骤：获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；将所述目标口语序列中的各个第一元素按顺序依次输入至预先训练的长短期记忆递归神经网络LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。采用本发明，可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着社会的发展，电子技术发展的越来越快，智能家电设备也越来越普及。语音识别技术对于智能家电设备而言，是一项革命性的技术，由于其不需要手动操作，只需要发出语音指令，便可实现对智能家电设备控制。

目前，智能家电设备的语音控制方式通常是将用户输入的语音数据与训练样本进行直接匹配，基于匹配结果从而实现语音识别。但这种语音识别方式通常会因为用户发音方式的不同或者用户发音语法结构等因素影响，容易产生匹配错误，使得语音数据的识别效果较差，从而降低了语音数据识别的准确率。

发明内容

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，可以解决语音数据识别效果差而导致识别准确率低的问题。

本发明实施例第一方面提供了一种语音识别方法，包括：

获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

将所述目标口语序列中的各个第一元素按顺序依次输入至预先训练的长短期记忆递归神经网络LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；

基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述采用预设编码方式获取所述目标口语数据对应的目标口语序列，包括：

对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

将所述多个词组数据中的每个词组数据分别转换为预设的序列值，以获取所述目标口语数据对应的目标口语序列。

可选的，所述对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据之后，还包括：

在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

删除所述多个词组数据中的目标词组数据。

可选的，所述将所述目标口语序列中的各个第一元素按顺序依次输入至LSTM模型中之前，还包括：

采集所述第一格式的样本口语数据以及所述样本口语数据对应的所述第二格式的样本语音数据；

采用所述预设编码方式分别对所述样本口语数据以及所述样本语音数据进行编码，以获取所述样本口语数据对应的样本口语序列以及所述样本语音数据对应的样本语音序列；

创建LSTM模型，将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中，以分别获取所述各个第三元素对应的第四元素，并将所述各个第三元素对应的第四元素组成的序列作为所述样本口语序列对应的第二格式的输出语音序列；

当所述输出语音序列与所述样本语音序列相匹配时，生成训练后的所述LSTM模型；

当所述输出语音序列与所述样本语音序列不匹配时，对所述LSTM模型进行调整，并执行将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中的步骤。

可选的，所述基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，包括：

计算所述目标语音序列与标准序列集合中各个标准序列的差值，对所述差值中的最小值对应的目标标准序列进行解码，以获取所述目标口语数据对应的标准语音数据。

本发明实施例第二方面提供了一种语音识别装置，所述装置包括：

口语序列获取模块，用于获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

语音序列获取模块，用于将所述目标口语序列中的各个第一元素按顺序依次输入至预先训练的长短期记忆递归神经网络LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；

操作指令执行模块，用于基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述口语序列获取模块，包括：

词组数据获取单元，用于对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

口语序列获取单元，用于将所述多个词组数据中的每个词组数据分别转换为预设的序列值，以获取所述目标口语数据对应的目标口语序列。

可选的，所述口语序列获取模块，还包括：

词组数据查找单元，用于在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

词组数据删除单元，用于删除所述多个词组数据中的目标词组数据。

可选的，所述装置还包括：

样本数据采集模块，用于采集所述第一格式的样本口语数据以及所述样本口语数据对应的所述第二格式的样本语音数据；

样本数据编码模块，用于采用所述预设编码方式分别对所述样本口语数据以及所述样本语音数据进行编码，以获取所述样本口语数据对应的样本口语序列以及所述样本语音数据对应的样本语音序列；

输出序列获取模块，用于创建LSTM模型，将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中，以分别获取所述各个第三元素对应的第四元素，并将所述各个第三元素对应的第四元素组成的序列作为所述样本口语序列对应的第二格式的输出语音序列；

模型生成模块，用于当所述输出语音序列与所述样本语音序列相匹配时，生成训练后的所述LSTM模型；

模型调整模块，用于当所述输出语音序列与所述样本语音序列不匹配时，对所述LSTM模型进行调整，并执行将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中的步骤。

可选的，所述操作指令执行模块，具体用于：

本发明实施例第三方面提供一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述第一方面的方法。

本发明实施例第四方面提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面的方法。

本发明实施例第五方面提供一种应用程序，包括程序指令，所述程序指令当被执行时用于执行上述第一方面的方法。

在本发明实施例中，语音识别装置通过获取第一格式的目标口语数据，并采用预设编码方式获取目标口语数据对应的目标口语序列，然后将目标口语序列中的各个第一元素按顺序依次输入至预先训练的LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将各个第一元素对应的第二元素组成的序列作为目标口语序列对应的第二格式的目标语音序列，再基于目标语音序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。现有技术中由于直接将用户输入的语音数据与训练样本进行匹配而使得语音数据的识别效果较差，与现有技术相比，本发明可以对输入目标口语数据进行编码后，再采用训练完成的LSTM模型进行语音识别，从而可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的流程示意图；

图2是本发明实施例提供的一种LSTM模型的结构示意图；

图3是本发明实施例提供的另一种语音识别方法的流程示意图；

图4是本发明实施例提供的一种语音识别装置的结构示意图；

图5是本发明实施例提供的一种口语序列获取模块的结构示意图；

图6是本发明实施例提供的另一种语音识别装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的语音识别方法可以应用于语音控制智能家居设备的应用场景，例如：语音识别装置通过获取第一格式的目标口语数据，并采用预设编码方式获取目标口语数据对应的目标口语序列，然后将目标口语序列中的各个第一元素按顺序依次输入至预先训练的LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将各个第一元素对应的第二元素组成的序列作为目标口语序列对应的第二格式的目标语音序列，再基于目标语音序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。现有技术中由于直接将用户输入的语音数据与训练样本进行匹配而使得语音数据的识别效果较差，与现有技术相比，本发明可以对输入目标口语数据进行编码后，再采用训练完成的LSTM模型进行语音识别，从而可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

本发明实施例涉及的语音识别装置可以是任何具备存储和通信功能的设备，例如：平板电脑、手机、电子阅读器、个人计算机(Personal Computer，PC)、笔记本电脑、车载设备、网络电视、可穿戴设备等设备，还可以为具有处理和通信功能的智能家居设备。

下面将结合附图1至附图3，对本发明实施例提供的设备语音识别进行详细介绍。

请参见图1，为本发明实施例提供了一种语音识别方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S108。

S101，采集第一格式的样本口语数据以及所述样本口语数据对应的第二格式的样本语音数据；

可以理解的是，所述样本语音数据为智能家居设备中设置的一些常用的标准指令数据，即智能家居设备可识别的指令数据，如“打开空调”或“空调温度设置26度”等。样本口语数据为用户针对语音识别装置输入的口语命令，样本口语数据与样本语音数据具有相同的词性意思或相同的操作目的。例如，当样本语音数据为“打开空调”时，样本口语数据可以为“请帮我把空调打开”或“请帮我启动空调”。其中，样本口语数据为第一格式，样本语音数据为第二格式。

具体实现中，语音识别装置采集大量的样本语音数据以及样本口语数据，并将所采集的这些数据用作训练样本。

S102，采用预设编码方式分别对所述样本口语数据以及所述样本语音数据进行编码，以获取所述样本口语数据对应的样本口语序列以及所述样本语音数据对应的样本语音序列；

可以理解的是，所述样本语音数据以及所述样本口语数据可采用相同的编码方式进行编码。以样本口语数据的编码为例，具体编码方式为：对所述样本口语数据进行分词处理，以获取所述样本口语数据对应的多个词组数据，然后在停用词集合中查找与所述多个词组数据相匹配的目标词组数据，删除所述多个词组数据中的目标词组数据，将所述多个词组数据中的每个词组数据分别转换为预设的序列值，以获取所述样本口语数据对应的样本口语序列。其中，所述分词处理可利用分词系统实现，即把中文的汉字序列切分成有意义的词，目前有很多开源的软件库可以实现。

例如，若样本口语数据为“请帮我打开空调”，分词处理的结果即为“请帮我打开空调”，从而分成了5个词组数据，然后将这5个词组数据分别与停用词集合中的各个停用词进行匹配，若匹配到“请”、“帮”、“我”这3个词组数据，则删除这3个词，从而得到词组数据“打开空调”。再在词组编号集合{“打开“：1，“空调”：2，“温度”：3，“设置”：4…}中分别查找“打开”和“空调”对应的编号，从而将样本口语数据编码为序列[1，2]。

需要说明的是，由于每个样本口语数据或者样本语音数据经过分词处理之后所获取的词组数据个数不一致，最终导致编码所得到的序列长度不统一。可预设序列长度大小(如10)，通过加0补充矩阵中的元素，从而使得编码后矩阵大小一致。那么最终可将数据编码为[x1,x2,x3,x4…]。

S103，创建LSTM模型，将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中，以分别获取所述各个第三元素对应的第四元素，并将所述各个第三元素对应的第四元素组成的序列作为所述样本口语序列对应的第二格式的输出语音序列；

可以理解的是，所述长短期记忆递归神经网络(Long Short-Term Memory，LSTM)模型是一种时间递归神经网络模型，适合处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等任务。

LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

具体实现中，如图2所示为LSTM的网络结构图，其中A为处理器，将编码后的样本口语序列[X0,X1,X2,X3…]中每个第三元素按顺序依次输入至A中，也就是先输入X0，然后第四元素输出Y0，同时还输出赌赢的状态S0，再将S0和X1输入至A中，并输出Y1以及S1，依此将所有的元素输入完成后，得到输出语音序列[Y0,Y1,Y2,…,Yn]。

S104，当所述输出语音序列与所述样本语音序列相匹配时，生成训练后的所述LSTM模型；

具体的，若样本语音序列为[Z0,Z1,Z2,…,Zn]，则通过比对[Y0,Y1,Y2,…,Yn]和[Z0,Z1,Z2,…,Zn]，若比对结果一志，表明LSTM可以成功将第一格式的口语数据转化为第二格式的语音数据，此时，训练结束。

需要说明的是，LSTM所识别到的语音序列近似于标准语音序列，但并非标准语音序列。

S105，当所述输出语音序列与所述样本语音序列不匹配时，对所述LSTM模型进行调整，并执行将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中的步骤；

可以理解的是，若[Y0,Y1,Y2,…,Yn]和[Z0,Z1,Z2,…,Zn]的比对结果不一致，则需要对A中的参数进行调整，并在调整后，再次按照S103中的方式将样本口语序列中的各个元素依次输入，并对结果再次判断，直到输出语音序列与所述样本语音序列相匹配时，训练完成。

S106，获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

可以理解的是，所述目标口语数据即为用户针对语音识别装置输入的用于识别的口语命令。

在一种可行的实现方式中，如图3所示，所述采用预设编码方式获取所述目标口语数据对应的目标口语序列，可以包括以下步骤：

S201，对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

S202，在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

S203，删除所述多个词组数据中的目标词组数据；

S204，将所述多个词组数据中的每个词组数据分别转换为预设的序列值，以获取所述目标口语数据对应的目标口语序列。

具体描述可参见S102，此处不再赘述。

S107，将所述目标口语序列中的各个第一元素按顺序依次输入至预先训练的长短期记忆递归神经网络LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；

例如，编码后的目标口语序列为A，输入到LSTM模型中后输出为A0，即目标语音序列。

S108，基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

具体实现中，计算所述目标语音序列与标准序列集合中各个标准序列的差值，对所述差值中的最小值对应的目标标准序列进行解码，以获取所述目标口语数据对应的标准语音数据。

具体实现中，计算所述目标语音序列与标准序列集合中各个标准序列的第三差值，对所述第三差值中的最小值对应的目标标准序列进行解码，以获取所述目标口语数据对应的标准语音数据。一方面可直接由语音识别装置执行标准语音数据指示的操作指令，另一方面，可由语音识别装置发送至智能家居设备，以使智能家居设备执行该标准语音数据指示的操作指令。其中，所述标准序列集合中存储有多个标准序列。

例如，在标准序列集合中存储有A1-A10共10个标准序列，所识别的目标语音序列为A0，分别计算A0与A1、A2…、A10的第三差值，从而得到第三差值D1、D2、…、D10，若这10个差值中D10最小，则将D10作为目标口语数据(如请帮我打开空调)对应的标准语音序列，然后对D10进行解码，从而得到标准语音数据(如打开空调)，此时，可由语音识别装置控制空调启动，另一方面，可由语音识别装置发送至空调，以使空调控制启动。

请参见图4，为本发明实施例提供了一种语音识别装置的结构示意图。如图4所示，本发明实施例的所述语音识别10可以包括：口语序列获取模块101、语音序列获取模块102和操作指令执行模块103。

口语序列获取模块101，用于获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

可选的，如图5所示，所述口语序列获取模块101，包括：

词组数据获取单元1011，用于对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

词组数据查找单元1012，用于在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

词组数据删除单元1013，用于删除所述多个词组数据中的目标词组数据。

口语序列获取单元1014，用于将所述多个词组数据中的每个词组数据分别转换为预设的序列值，以获取所述目标口语数据对应的目标口语序列。

语音序列获取模块102，用于将所述目标口语序列中的各个第一元素按顺序依次输入至预先训练的长短期记忆递归神经网络LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；

操作指令执行模块103，用于基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述操作指令执行模块103，具体用于：

可选的，如图6所示，所述装置10还包括：

样本数据采集模块104，用于采集所述第一格式的样本口语数据以及所述样本口语数据对应的所述第二格式的样本语音数据；

样本数据编码模块105，用于采用所述预设编码方式分别对所述样本口语数据以及所述样本语音数据进行编码，以获取所述样本口语数据对应的样本口语序列以及所述样本语音数据对应的样本语音序列；

输出序列获取模块106，用于创建LSTM模型，将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中，以分别获取所述各个第三元素对应的第四元素，并将所述各个第三元素对应的第四元素组成的序列作为所述样本口语序列对应的第二格式的输出语音序列；

模型生成模块107，用于当所述输出语音序列与所述样本语音序列相匹配时，生成训练后的所述LSTM模型；

模型调整模块108，用于当所述输出语音序列与所述样本语音序列不匹配时，对所述LSTM模型进行调整，并执行将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中的步骤。

请参见图7，为本发明实施例提供了一种电子设备的结构示意图。如图7所示，所述电子设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别应用程序。

在图7所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的语音识别应用程序，并具体执行以下操作：

在一个实施例中，所述处理器1001在执行采用预设编码方式获取所述目标口语数据对应的目标口语序列时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据之后，还执行以下步骤：

删除所述多个词组数据中的目标词组数据。

在一个实施例中，所述处理器1001在执行将所述目标口语序列中的各个第一元素按顺序依次输入至LSTM模型中之前，还执行以下步骤：

在一个实施例中，所述处理器1001在执行基于所述目标语音序列获取所述目标口语数据对应的标准语音数据时，具体执行以下步骤：

本发明实施例还提供一种计算机存储介质(非临时性计算机可读存储介质)，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序信令，所述程序信令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的语音识别装置或电子设备的一部分。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本申请实施例还提供一种计算机程序产品，当上述计算机程序产品中的指令由处理器执行时，可以实现本申请图1至图3所示实施例提供的语音识别方法。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

采集第一格式的样本口语数据以及所述样本口语数据对应的第二格式的样本语音数据；

采用预设编码方式分别对所述样本口语数据以及所述样本语音数据进行编码，以获取所述样本口语数据对应的样本口语序列以及所述样本语音数据对应的样本语音序列；

创建长短期记忆递归神经网络LSTM模型，将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中，以分别获取所述各个第三元素对应的第四元素，并将所述各个第三元素对应的第四元素组成的序列作为所述样本口语序列对应的第二格式的输出语音序列，所述LSTM模型用于验证输入的口语序列中的各个元素是否符合算法认证；

获取所述第一格式的目标口语数据，采用所述预设编码方式获取所述目标口语数据对应的目标口语序列；

将所述目标口语序列中的各个第一元素按顺序依次输入至所述训练后的LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；

基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令，所述标准语音数据为智能家电设备可识别的指令数据。

2.根据权利要求1所述的方法，其特征在于，所述采用预设编码方式获取所述目标口语数据对应的目标口语序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据之后，还包括：

删除所述多个词组数据中的目标词组数据。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标口语序列中的各个第一元素按顺序依次输入至LSTM模型中之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，包括：

6.一种语音识别装置，其特征在于，包括：

样本数据采集模块，用于采集第一格式的样本口语数据以及所述样本口语数据对应的第二格式的样本语音数据；

样本数据编码模块，用于采用预设编码方式分别对所述样本口语数据以及所述样本语音数据进行编码，以获取所述样本口语数据对应的样本口语序列以及所述样本语音数据对应的样本语音序列；

输出序列获取模块，用于创建长短期记忆递归神经网络LSTM模型，将所述样本口语序列中的各个第三元素按顺序依次输入至所述LSTM模型中，以分别获取所述各个第三元素对应的第四元素，并将所述各个第三元素对应的第四元素组成的序列作为所述样本口语序列对应的第二格式的输出语音序列，所述LSTM模型用于验证输入的口语序列中的各个元素是否符合算法认证；

口语序列获取模块，用于获取所述第一格式的目标口语数据，采用所述预设编码方式获取所述目标口语数据对应的目标口语序列；

语音序列获取模块，用于将所述目标口语序列中的各个第一元素按顺序依次输入至所述训练后的LSTM模型中，以分别获取所述各个第一元素对应的第二元素，并将所述各个第一元素对应的第二元素组成的序列作为所述目标口语序列对应的第二格式的目标语音序列；

操作指令执行模块，用于基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令，所述标准语音数据为智能家电设备可识别的指令数据。

7.根据权利要求6所述的装置，其特征在于，所述口语序列获取模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述口语序列获取模块，还包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至5任一项所述方法。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法。