CN107993651A

CN107993651A - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN107993651A
Application number: CN201711479538.5A
Authority: CN
Inventors: 张淼; 徐宇垚
Original assignee: Shenzhen Het Data Resources and Cloud Technology Co Ltd
Current assignee: Shenzhen Hetai Intelligent Home Appliance Controller Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-05-04
Anticipated expiration: 2037-12-29
Also published as: CN107993651B

Abstract

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，其中方法包括如下步骤：获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列；基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。采用本发明，可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着社会的发展，电子技术发展的越来越快，智能家电设备也越来越普及。语音识别技术对于智能家电设备而言，是一项革命性的技术，由于其不需要手动操作，只需要发出语音指令，便可实现对智能家电设备控制。

目前，智能家电设备的语音控制方式通常是将用户输入的语音数据与训练样本直接进行匹配，基于匹配结果从而实现语音识别。但这种语音识别方式通常会因为用户发音方式的不同或者用户发音语法结构等因素影响，容易产生匹配错误，使得语音数据的识别效果较差，从而降低了语音数据识别的准确率。

发明内容

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，可以解决语音数据识别效果差而导致识别准确率低的问题。

本发明实施例第一方面提供了一种语音识别方法，包括：

获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列；

基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述采用预设编码方式获取所述目标口语数据对应的目标口语序列，包括：

对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

将所述多个词组数据中的每个词组数据分别转换为预设长度的向量，以获取所述目标口语数据对应的目标口语序列。

可选的，所述对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据之后，还包括：

在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

删除所述多个词组数据中的目标词组数据。

可选的，所述将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列之前，还包括：

采集所述第二格式的样本语音数据以及与所述样本语音数据相关联的所述第一格式的第一口语数据和与所述样本标准语音数据无关联的所述第一格式的第二口语数据；

采用所述预设编码方式分别对所述样本语音数据、所述第一口语数据以及所述第二口语数据进行编码，以分别获取所述样本语音数据对应的样本语音序列、所述第一口语数据对应的第一口语序列以及所述第二口语数据对应的第二口语序列；

创建CNN模型，将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值；

当所述损失值小于或者等于预设损失阈值时，生成训练后的所述CNN模型。

可选的，所述将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值，包括：

将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并分别计算所述样本语音序列与所述第一口语序列的第一差值以及所述样本语音序列与所述第二口语序列的第二差值；

将所述第一差值以及所述第二差值作为预设损失函数的输入，以获取所述CNN模型的损失值。

可选的，所述方法还包括：

当所述损失值大于所述预设损失阈值时，基于所述第一差值以及所述第二差值对所述CNN模型进行调整处理，并在调整处理后执行将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值的步骤。

可选的，所述基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，包括：

计算所述目标语音序列与标准序列集合中各个标准序列的第三差值，对所述第三差值中的最小值对应的目标标准序列进行解码，以获取所述目标口语数据对应的标准语音数据。

本发明实施例第二方面提供了一种语音识别装置，所述装置包括：

口语序列获取模块，用于获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

语音序列获取模块，用于将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列；

操作指令执行模块，用于基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述口语序列获取模块，包括：

词组数据获取单元，用于对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

口语序列获取单元，用于将所述多个词组数据中的每个词组数据分别转换为预设长度的向量，以获取所述目标口语数据对应的目标口语序列。

可选的，所述口语序列获取模块，还包括：

词组数据查找单元，用于在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

词组数据删除单元，用于删除所述多个词组数据中的目标词组数据。

可选的，所述装置还包括：

样本数据采集模块，用于采集所述第二格式的样本语音数据以及与所述样本语音数据相关联的所述第一格式的第一口语数据和与所述样本标准语音数据无关联的所述第一格式的第二口语数据；

样本数据编码模块，用于采用所述预设编码方式分别对所述样本语音数据、所述第一口语数据以及所述第二口语数据进行编码，以分别获取所述样本语音数据对应的样本语音序列、所述第一口语数据对应的第一口语序列以及所述第二口语数据对应的第二口语序列；

损失值获取模块，用于创建CNN模型，将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值；

模型生成模块，用于当所述损失值小于或者等于预设损失阈值时，生成训练后的所述CNN模型。

可选的，所述损失值获取模块，包括：

差值计算单元，用于将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并分别计算所述样本语音序列与所述第一口语序列的第一差值以及所述样本语音序列与所述第二口语序列的第二差值；

损失值获取单元，用于将所述第一差值以及所述第二差值作为预设损失函数的输入，以获取所述CNN模型的损失值。

可选的，所述装置还包括：

模型调整模块，用于当所述损失值大于所述预设损失阈值时，基于所述第一差值以及所述第二差值对所述CNN模型进行调整处理，并在调整处理后执行将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值的步骤。

可选的，所述操作指令执行模块具体用于：

本发明实施例第三方面提供一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述第一方面的方法。

本发明实施例第四方面提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面的方法。

本发明实施例第五方面提供一种应用程序，包括程序指令，所述程序指令当被执行时用于执行上述第一方面的方法。

在本发明实施例中，语音识别装置通过获取第一格式的目标口语数据，对目标口语数据进行编码从而获取目标口语序列，并将该目标口语序列输入至预先训练的CNN模型中，以得到目标口语序列对应的第二格式的目标语音序列，再基于目标语音序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。现有技术中由于直接将用户输入的语音数据与训练样本进行匹配而使得语音数据的识别效果较差，与现有技术相比，本发明可以对输入目标口语数据进行编码后，再采用训练完成的CNN模型进行语音识别，从而可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的流程示意图；

图2是本发明实施例提供的另一种语音识别方法的流程示意图；

图3是本发明实施例提供的一种CNN模型的结构示意图；

图4是本发明实施例提供的另一种语音识别方法的流程示意图；

图5是本发明实施例提供的一种语音识别装置的结构示意图；

图6是本发明实施例提供的另一种语音识别装置的结构示意图；

图7是本发明实施例提供的一种口语序列获取模块的结构示意图；

图8是本发明实施例提供的一种损失值获取模块的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的语音识别方法可以应用于语音控制智能家电设备的应用场景，例如：语音识别装置通过获取第一格式的目标口语数据，对目标口语数据进行编码从而获取目标口语序列，并将该目标口语序列输入至预先训练的CNN模型中，以得到目标口语序列对应的第二格式的目标语音序列，再基于目标语音序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。现有技术中由于直接将用户输入的语音数据与训练样本进行匹配而使得语音数据的识别效果较差，与现有技术相比，本发明可以对输入目标口语数据进行编码后，再采用训练完成的CNN模型进行语音识别，从而可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

本发明实施例涉及的语音识别装置可以是任何具备存储和通信功能的设备，例如：平板电脑、手机、电子阅读器、个人计算机(Personal Computer，PC)、笔记本电脑、车载设备、网络电视、可穿戴设备等设备，还可以为具有处理和通信功能的智能家电设备。

下面将结合附图1至附图4，对本发明实施例提供的语音识别方法进行详细介绍。

请参见图1，为本发明实施例提供了一种语音识别方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S108。

S101，采集第二格式的样本语音数据以及与所述样本语音数据相关联的第一格式的第一口语数据和与所述样本标准语音数据无关联的第一格式的第二口语数据；

可以理解的是，所述样本语音数据为智能家电设备中设置的一些常用的标准指令数据，即智能家电设备可识别的指令数据，如“打开空调”或“空调温度设置26度”等。所述第一口语数据和所述第二口语数据为用户针对语音识别装置输入的口语命令，所述第一口语数据与所述样本语音数据相关联，也就是具有相同的词性意思或相同的操作目的，所述第二口语数据与所述样本语音数据不相关，即词性意思不同或操作目的不同。例如，当样本语音数据为“打开空调”时，第一口语数据可以为“请帮我把空调打开”，第二口语数据可以为任一与打开空调目的无关的数据，如“空调调节温度到26度”。其中，所述第一口语数据和所述第二口语数据为第一格式，所述样本语音数据为第二格式。

具体实现中，语音识别装置采集大量的样本语音数据以及第一口语数据和第二口语数据，并将所采集的这些数据用作训练样本。

S102，采用预设编码方式分别对所述样本语音数据、所述第一口语数据以及所述第二口语数据进行编码，以分别获取所述样本语音数据对应的样本语音序列、所述第一口语数据对应的第一口语序列以及所述第二口语数据对应的第二口语序列；

可以理解的是，所述样本语音数据、所述第一口语数据以及所述第二口语数据可采用相同的编码方式进行编码。以第一口语数据的编码为例，具体编码方式为：对所述第一口语数据进行分词处理，以获取所述第一口语数据对应的多个词组数据，然后在停用词集合中查找与所述多个词组数据相匹配的目标词组数据，并删除所述多个词组数据中的目标词组数据，再将所述多个词组数据中的每个词组数据分别转换为预设长度的向量，从而得到所述目标口语数据对应的目标口语序列。其中，所述分词处理可利用分词系统实现，即把中文的汉字序列切分成有意义的词，目前有很多开源的软件库可以实现。

例如，若第一口语数据为“请帮我打开空调”，分词处理的结果即为“请帮我打开空调”，从而分成了5个词组数据，然后将这5个词组数据分别与停用词集合中的各个停用词进行匹配，若匹配到“请”、“帮”、“我”这3个词组数据，则删除这3个词，从而得到词组数据“打开空调”。然后通过word2vec分别将“打开”和“空调”转换为预设长度(如100)的向量，从而得到2*100的矩阵。所述word2vec是一种将文字或者词组转换成向量的技术，目前有很多的开源的软件库可以实现。

需要说明的是，由于每个样本口语数据或者样本语音数据经过分词处理之后所获取的词组数据个数不一致，最终导致编码所得到的矩阵大小不统一。为了便于后续的计算处理，可预设矩阵大小(如100*100)，通过加0补充矩阵中的元素，从而使得编码后矩阵大小一致。

S103，创建CNN模型，将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值；

可以理解的是，所述卷积神经网络(Convolutional Neural Network，CNN)模型是一种前馈神经网络模型。CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二为特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征提取层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

在一种具体的实现方式中，如图2所示，所述创建CNN模型，将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值，可以包括以下步骤：

S201，将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并分别计算所述样本语音序列与所述第一口语序列的第一差值以及所述样本语音序列与所述第二口语序列的第二差值；

具体的，如图3所示，假设所述样本语音序列为C，第一口语序列为A，第二口语序列为B，将C、A、B输入至CNN模型中，从而对应输出标准格式的C1、A1和B1，计算所述第一口语序列与所述样本语音序列的第一差值Distance1＝A1-C1，以及所述第二口语序列与所述样本语音序列的第二差值Distance2＝B1-C1。在CNN模型的计算过程中，设定损失函数为Loss＝max(0，m+Distance1-Distance2)，其中m为预设损失阈值。

S202，将所述第一差值以及所述第二差值作为预设损失函数的输入，以获取所述CNN模型的损失值。

具体的，将Distance1＝A1-C1和Distance2＝B1-C1代入损失函数中后从而可得到模型的损失值Loss。

S104，当所述损失值小于或者等于预设损失阈值时，生成训练后的所述CNN模型；

具体的，在计算过程中，通过调节Distance1和Distance2，使得C1与A1之间的距离越来越近，C1与B1之间的距离越来越远，即标准命令与对应的口语命令越来越相似，与之不对应的口语命令越来越不相似。在此过程中，损失函数Loss会不断的降低，当所述损失值小于或者等于预设损失阈值时，从而可将C1作为A对应的标准语音序列，训练完成。

S105，当所述损失值大于所述预设损失阈值时，基于所述第一差值以及所述第二差值对所述CNN模型进行调整处理，并在调整处理后执行将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值的步骤；

可以理解的是，当所述损失值大于所述预设损失阈值时，表明CNN模型还不能准确将C1识别为A对应的标准语音序列，则需要调整CNN模型的参数，使得Distance1不断减小，Distance2不断增大，即使得Distance1趋近于0，使得Distance2趋近于m，在调整处理后再次计算CNN模型的损失值，并对损失值与阈值进行判断，直到损失值趋于稳定，则训练完成。

S106，获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列；

可以理解的是，所述目标口语数据即为用户针对语音识别装置输入的用于识别的口语命令。

在一种具体的实现方式中，如图4所示，所述采用预设编码方式获取所述目标口语数据对应的目标口语序列，可以包括以下步骤：

S301，对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

S302，在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

S303，删除所述多个词组数据中的目标词组数据；

S304，将所述多个词组数据中的每个词组数据分别转换为预设长度的向量，以获取所述目标口语数据对应的目标口语序列。

具体描述可参见S102，此处不再赘述。

S107，将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列；

例如，编码后的目标口语序列为A，输入到CNN模型中后输出为A0，即目标语音序列。需要说明的是，所述目标语音序列近似于标准语音序列，但并非标准语音序列。

S108，基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

具体实现中，计算所述目标语音序列与标准序列集合中各个标准序列的第三差值，对所述第三差值中的最小值对应的目标标准序列进行解码，以获取所述目标口语数据对应的标准语音数据。一方面可直接由语音识别装置执行标准语音数据指示的操作指令，另一方面，可由语音识别装置发送至智能家电设备，以使智能家电设备执行该标准语音数据指示的操作指令。其中，所述标准序列集合中存储有多个标准序列。

例如，在标准序列集合中存储有A1-A10共10个标准序列，所识别的目标语音序列为A0，分别计算A0与A1、A2…、A10的第三差值，从而得到第三差值D1、D2、…、D10，若这10个差值中D10最小，则将D10作为目标口语数据(如请帮我打开空调)对应的标准语音序列，然后对D10进行解码，从而得到标准语音数据(如打开空调)，此时，可由语音识别装置控制空调启动，另一方面，可由语音识别装置发送至空调，以使空调控制启动。

请参见图5，为本发明实施例提供了一种语音识别装置的结构示意图。如图4所示，本发明实施例的所述语音识别装置10可以包括：口语序列获取模块101、语音序列获取模块102和操作指令执行模块103。

口语序列获取模块101，用于获取第一格式的目标口语数据，采用预设编码方式获取所述目标口语数据对应的目标口语序列。

可选的，如图6所示，所述口语序列获取模块101，包括：

词组数据获取单元1011，用于对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据；

词组数据查找单元1012，用于在停用词集合中查找与所述多个词组数据相匹配的目标词组数据；

词组数据删除单元1013，用于删除所述多个词组数据中的目标词组数据。

口语序列获取单元1014，用于将所述多个词组数据中的每个词组数据分别转换为预设长度的向量，以获取所述目标口语数据对应的目标口语序列。

语音序列获取模块102，用于将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列。

操作指令执行模块103，用于基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述操作指令执行模块103具体用于：

可选的，如图7所示，所述装置10还包括：

样本数据采集模块104，用于采集所述第二格式的样本语音数据以及与所述样本语音数据相关联的所述第一格式的第一口语数据和与所述样本标准语音数据无关联的所述第一格式的第二口语数据；

样本数据编码模块105，用于采用所述预设编码方式分别对所述样本语音数据、所述第一口语数据以及所述第二口语数据进行编码，以分别获取所述样本语音数据对应的样本语音序列、所述第一口语数据对应的第一口语序列以及所述第二口语数据对应的第二口语序列；

损失值获取模块106，用于创建CNN模型，将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值；

可选的，如图8所示，所述损失值获取模块106，包括：

差值计算单元1061，用于将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并分别计算所述样本语音序列与所述第一口语序列的第一差值以及所述样本语音序列与所述第二口语序列的第二差值；

损失值获取单元1062，用于将所述第一差值以及所述第二差值作为预设损失函数的输入，以获取所述CNN模型的损失值。

模型生成模块107，用于当所述损失值小于或者等于预设损失阈值时，生成训练后的所述CNN模型。

进一步的，所述装置10还包括：

模型调整模块108，用于当所述损失值大于所述预设损失阈值时，基于所述第一差值以及所述第二差值对所述CNN模型进行调整处理，并在调整处理后执行将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值的步骤。

请参见图9，为本发明实施例提供了一种电子设备的结构示意图。如图9所示，所述电子设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别应用程序。

在图9所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的语音识别应用程序，并具体执行以下操作：

在一个实施例中，所述处理器1001在执行采用预设编码方式获取所述目标口语数据对应的目标口语序列时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据之后，还执行以下步骤：

删除所述多个词组数据中的目标词组数据。

在一个实施例中，所述处理器1001在执行将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列之前，还执行以下步骤：

在一个实施例中，所述处理器1001在执行将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值时，具体执行以下步骤：

在一个实施例中，所述处理器1001还执行以下步骤：

在一个实施例中，所述处理器1001在执行基于所述目标语音序列获取所述目标口语数据对应的标准语音数据时，具体执行以下步骤：

本发明实施例还提供一种计算机存储介质(非临时性计算机可读存储介质)，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序信令，所述程序信令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的语音识别装置或电子设备的一部分。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本申请实施例还提供一种计算机程序产品，当上述计算机程序产品中的指令由处理器执行时，可以实现本申请图1至图4所示实施例提供的语音识别方法。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用预设编码方式获取所述目标口语数据对应的目标口语序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标口语数据进行分词处理，以获取所述目标口语数据对应的多个词组数据之后，还包括：

删除所述多个词组数据中的目标词组数据。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标口语序列输入至预先训练的卷积神经网络CNN模型中，以获取所述目标口语序列对应的第二格式的目标语音序列之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述样本语音序列、所述第一口语序列以及所述第二口语序列作为所述CNN模型的输入，并获取所述CNN模型的损失值，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标语音序列获取所述目标口语数据对应的标准语音数据，包括：

8.一种语音识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述口语序列获取模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述口语序列获取模块，还包括：

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至7任一项所述方法。

12.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法。