CN108257593A

CN108257593A - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN108257593A
Application number: CN201711487495.5A
Authority: CN
Inventors: 张淼; 徐宇垚
Original assignee: Shenzhen Het Data Resources and Cloud Technology Co Ltd
Current assignee: Shenzhen Hetai Intelligent Home Appliance Controller Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-07-06
Anticipated expiration: 2037-12-29
Also published as: CN108257593B

Abstract

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，其中方法包括如下步骤：获取第一格式的目标口语数据，在语句项集合中查找目标口语数据所属的目标语句项，目标语句项包括目标口语数据以及与目标口语数据对应的第二格式的目标语音数据；采用预设编码方式对目标口语数据以及目标语音数据进行编码处理，以获取第一输入编码序列；将第一输入编码序列输入至预先训练的极限梯度增强Xgboost模型中，以获取第一输出标签序列；基于第一输出标签序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。采用本发明，可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着社会的发展，电子技术发展的越来越快，智能家电设备也越来越普及。语音识别技术对于智能家电设备而言，是一项革命性的技术，由于其不需要手动操作，只需要发出语音指令，便可实现对智能家电设备控制。

目前，智能家电设备的语音控制方式通常是将用户输入的语音数据与训练样本进行直接匹配，基于匹配结果从而实现语音识别。但这种语音识别方式通常会因为用户发音方式的不同或者用户发音语法结构等因素影响，容易产生匹配错误，使得语音数据的识别效果较差，从而降低了语音数据识别的准确率。

发明内容

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，可以解决语音数据识别效果差而导致识别准确率低的问题。

本发明实施例第一方面提供了一种语音识别方法，包括：

获取第一格式的目标口语数据，在语句项集合中查找所述目标口语数据所属的目标语句项，所述目标语句项包括目标口语数据以及与所述目标口语数据对应的第二格式的目标语音数据；

采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列；

将所述第一输入编码序列输入至预先训练的极限梯度增强Xgboost模型中，以获取第一输出标签序列；

基于所述第一输出标签序列获取目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列，包括：

对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据；

获取所述第一词组数据中词组个数与所述第二词组数据中词组个数的第一比值；

获取所述第一词组数据与所述第二词组数据的相同词组个数占所述第一词组数据与所述第二词组数据的总词组个数的第二比值；

获取所述第一词组数据与所述第二词组数据的相同词组的权重之和占所述第一词组数据与所述第二词组数据的总词组的权重之和的第三比值；

将所述第一比值、所述第二比值以及所述第三比值构成的序列作为第一输入编码序列。

可选的，所述对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据之后，还包括：

在停用词集合中查找与所述第一词组数据和所述第二词组数据相匹配的目标词组数据；

删除所述第一词组数据和所述第二词组数据中的所述目标词组数据。

可选的，所述将所述第一输入编码序列输入至预先训练的Xgboost模型中，以获取第一输出标签序列之前，还包括：

采集所述第一格式的样本口语数据以及所述样本口语数据对应的所述第二格式的样本语音数据；

采用预设编码方式对所述样本口语数据以及所述样本语音数据进行编码，以获取第二输入编码序列以及第一输入标签序列；

创建Xgboost模型，将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列；

当所述第二输出标签序列与所述第一输入标签序列相匹配时，生成训练后的Xgboost模型；

当所述第二输出标签序列与所述第一输入标签序列不匹配时，对所述Xgboost模型进行调整，并执行将所述第二输入编码序列作为所述Xgboost模型的输入的步骤。

可选的，所述将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列，包括：

将所述第二输入编码序列作为所述Xgboost模型的输入，以获取多个弱分类器的输出数据；

将所述多个弱分类器的输出数据进行叠加，以获取第二输出标签序列。

可选的，所述基于所述第一输出标签序列获取所述目标口语数据对应的标准语音数据，包括：

获取所述第一输出标签序列中标签值与预设值相匹配的标签，获取所述输入编码序列中标签对应的目标编码序列，对所述目标编码序列进行解码以获取所述目标口语数据对应的目标标准语音数据。

本发明实施例第二方面提供了一种语音识别装置，装置包括：

目标数据获取模块，用于获取第一格式的目标口语数据，在语句项集合中查找所述目标口语数据所属的目标语句项，所述目标语句项包括目标口语数据以及与所述目标口语数据对应的第二格式的目标语音数据；

第一输入获取模块，用于采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列；

第一输出获取模块，用于将所述第一输入编码序列输入至预先训练的极限梯度增强Xgboost模型中，以获取第一输出标签序列；

操作指令执行模块，用于基于所述第一输出标签序列获取目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述第一输入获取模块，包括：

词组数据获取单元，用于对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据；

第一比值获取单元，用于获取所述第一词组数据中词组个数与所述第二词组数据中词组个数的第一比值；

第二比值获取单元，用于获取所述第一词组数据与所述第二词组数据的相同词组个数占所述第一词组数据与所述第二词组数据的总词组个数的第二比值；

第三比值获取单元，用于获取所述第一词组数据与所述第二词组数据的相同词组的权重之和占所述第一词组数据与所述第二词组数据的总词组的权重之和的第三比值；

输入序列获取单元，用于将所述第一比值、所述第二比值以及所述第三比值构成的序列作为第一输入编码序列。

可选的，所述第一输入获取模块，还包括：

词组数据查找单元，用于在停用词集合中查找与所述第一词组数据和所述第二词组数据相匹配的目标词组数据；

词组数据删除单元，用于删除所述第一词组数据和所述第二词组数据中的所述目标词组数据。

可选的，装置还包括：

样本数据采集模块，用于采集所述第一格式的样本口语数据以及所述样本口语数据对应的所述第二格式的样本语音数据；

样本数据编码模块，用于采用预设编码方式对所述样本口语数据以及所述样本语音数据进行编码，以获取第二输入编码序列以及第一输入标签序列；

第二输出获取模块，用于创建Xgboost模型，将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列；

模型生成模块，用于当所述第二输出标签序列与所述第一输入标签序列相匹配时，生成训练后的Xgboost模型；

模型调整模块，用于当所述第二输出标签序列与所述第一输入标签序列不匹配时，触发所述第二输出获取模块对所述Xgboost模型进行调整，并执行将所述第二输入编码序列作为所述Xgboost模型的输入。

可选的，所述第二输出获取模块，包括：

数据输出单元，用于将所述第二输入编码序列作为所述Xgboost模型的输入，以获取多个弱分类器的输出数据；

数据叠加单元，用于将所述多个弱分类器的输出数据进行叠加，以获取第二输出标签序列。

可选的，所述操作指令执行模块具体用于：

本发明实施例第三方面提供一种计算机存储介质，其特征在于，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述第一方面的方法。

本发明实施例第四方面提供一种电子设备，包括：处理器和存储器；其中，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面的方法。

本发明实施例第五方面提供一种应用程序，包括程序指令，程序指令当被执行时用于执行上述第一方面的方法。

在本发明实施例中，语音识别装置通过获取第一格式的目标口语数据，并在语句项集合中查找该目标口语数据所属的包括目标口语数据以及与目标口语数据对应的第二格式的目标语音数据的目标语句项，采用预设编码方式对目标口语数据以及目标语音数据进行编码处理，以获取第一输入编码序列，然后将第一输入编码序列输入至预先训练的Xgboost模型中，从而得到第一输出标签序列，再基于第一输出标签序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。现有技术中由于直接将用户输入的语音数据与训练样本进行匹配而使得语音数据的识别效果较差，与现有技术相比，本发明可以先查找到目标口语数据所属的语句项后对语句项进行编码，再采用训练完成的Xgboost模型进行语音识别，基于识别结果获取标准语音数据，从而可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的流程示意图；

图2是本发明实施例提供的另一种语音识别方法的流程示意图；

图3是本发明实施例提供的一种Xgboost模型的流程示意图；

图4是本发明实施例提供的一种Xgboost模型调整的流程示意图；

图5是本发明实施例提供的另一种语音识别方法的流程示意图；

图6是本发明实施例提供的一种语音识别装置的结构示意图；

图7是本发明实施例提供的一种第一输入获取模块的结构示意图；

图8是本发明实施例提供的另一种语音识别装置的结构示意图；

图9是本发明实施例提供的一种第二输出获取模块的结构示意图；

图10是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的语音识别方法可以应用于语音控制智能家居设备的应用场景，例如：语音识别装置通过获取第一格式的目标口语数据，并在语句项集合中查找该目标口语数据所属的包括目标口语数据以及与目标口语数据对应的第二格式的目标语音数据的目标语句项，采用预设编码方式对目标口语数据以及目标语音数据进行编码处理，以获取第一输入编码序列，然后将第一输入编码序列输入至预先训练的Xgboost模型中，从而得到第一输出标签序列，再基于第一输出标签序列获取目标口语数据对应的标准语音数据，并执行标准语音数据指示的操作指令。现有技术中由于直接将用户输入的语音数据与训练样本进行匹配而使得语音数据的识别效果较差，与现有技术相比，本发明可以先查找到目标口语数据所属的语句项后对语句项进行编码，再采用训练完成的Xgboost模型进行语音识别，基于识别结果获取标准语音数据，从而可以增强语音数据识别效果，进而提高了语音数据识别的准确率。

本发明实施例涉及的语音识别装置可以是任何具备存储和通信功能的设备，例如：平板电脑、手机、电子阅读器、个人计算机(Personal Computer，PC)、笔记本电脑、车载设备、网络电视、可穿戴设备等设备，还可以为具有处理和通信功能的智能家居设备。

下面将结合附图1至附图5，对本发明实施例提供的语音识别方法进行详细介绍。

请参见图1，为本发明实施例提供了一种语音识别方法的流程示意图。如图1所示，本发明实施例的方法可以包括以下步骤S101-步骤S109。

S101，采集第一格式的样本口语数据以及所述样本口语数据对应的第二格式的样本语音数据；

可以理解的是，样本语音数据为智能家居设备中设置的一些常用的标准指令数据，即智能家居设备可识别的指令数据，如“打开空调”或“空调温度设置26度”等。样本口语数据为用户针对语音识别装置输入的口语命令，样本口语数据与样本语音数据具有相同的词性意思或相同的操作目的。例如，当样本语音数据为“打开空调”时，样本口语数据可以为“请帮我把空调打开”或“请帮我启动空调”。其中，样本口语数据为第一格式，样本语音数据为第二格式。

具体实现中，语音识别装置采集大量的样本语音数据以及样本口语数据，并将所采集的这些数据用作训练样本。

S102，采用预设编码方式对所述样本口语数据以及所述样本语音数据进行编码处理，以获取第二输入编码序列以及第一输入标签序列；

具体的，预设编码方式具体为：对目标口语数据以及目标语音数据分别进行分词处理，以获取样本口语数据对应的第一词组数据以及样本语音数据对应的第二词组数据，然后在停用词集合中查找与第一词组数据和第二词组数据相匹配的目标词组数据，删除第一词组数据和第二词组数据中的目标词组数据。获取第一词组数据中词组个数与第二词组数据中词组个数的第一比值再获取第一词组数据与第二词组数据的相同词组个数占第一词组数据与第二词组数据的总词组个数的第二比值，然后获取第一词组数据与第二词组数据的相同词组的权重之和占第一词组数据与第二词组数据的总词组的权重之和的第三比值，将第一比值、第二比值以及第三比值构成的序列作为第一输入编码序列。其中，分词处理可利用分词系统实现，即把中文的汉字序列切分成有意义的词，目前有很多开源的软件库可以实现。

例如，若样本口语数据为“请帮我打开空调”，分词处理的结果即为“请帮我打开空调”，从而分成了5个词组数据，然后将这5个词组数据分别与停用词集合中的各个停用词进行匹配，若匹配到“请”、“帮”、“我”这3个词组数据，则删除这3个词，从而得到词组数据“打开空调”。通过上述处理后，得到样本语音数据的第一词组个数为L1，样本口语数据的第二词组个数为L2，共有词组个数为S，共有词组的权重之和为∑W，第一词组数据的权重之和为W_std，第二词组数据的权重之和为W_corp，那么第一比值A＝L1/L2，则第二比值B＝S*2/(L1+L2)，第三比值C＝∑W_i/(W_std+W_corp)。其中，每个数据的权重W＝f×Log(N/d)，其中f为每个词组数据在数据库中出现的次数，d为包含该词组数据的句子数据总数，N为数据库中的句子总数。经过编码得到第二输入编码序列为[A B C]，第一输入标签序列为[0]或者[1]，其中0表示样本口语数据与样本语音数据不匹配，1表示样本口语数据与样本语音数据相匹配。

S103，创建Xgboost模型，将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列；

具体的，所述极限梯度增强(eXtreme Gradient Boosting，Xgboost)模型是一种用于分类与回归问题的机器学习模型，其主要思想是通过整合较多的弱分类器(如决策树)从而实现一个强分类器的功能。也就是说，Xgboost模型由多个弱分类器构成，将一个输入数据分别输入至多个弱分类器后得到多个输出结果，并将多个数据结果进行叠加，以得到最终输出数据。

具体实现中，创建Xgboost模型，将第二输入编码序列输入至Xgboost模型中，通过计算，得到Xgboost模型的第二输出标签序列。

在一种可行的实现方式中，如图2所示，所述将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列，可以包括以下步骤：

S201，将所述第二输入编码序列作为所述Xgboost模型的输入，以获取多个弱分类器的输出数据；

S202，将所述多个弱分类器的输出数据进行叠加，以获取第二输出标签序列。

具体的，如图3所示，将第二输入编码序列分别输入至每个弱分类器中，然后将每个弱分类器的输出结果进行叠加，从而得到最终输出数据，即第二输出标签序列。

S104，当所述第二输出标签序列与所述第一输入标签序列相匹配时，生成训练后的Xgboost模型；

具体的，将叠加后的输出结果与编码时生成的第一输入标签序列进行比对，若输出结果为而第一输入标签序列为匹配一致，则表明Xgboost模型可以成功学习到输出标签，则模型训练完成，并将输出结果中为1的序列值对应的编码结果作为正确的编码结果。

S105，当所述第二输出标签序列与所述第一输入标签序列不匹配时，对所述Xgboost模型进行调整，并执行将所述第二输入编码序列作为所述Xgboost模型的输入的步骤；

例如，如图4所示，Xgboost模型由多个弱分类器组成，对于每一个弱分类器的训练，则是将第二输入编码序列输入至弱分类器并输出第二输出标签序列，将第二输出标签序列与第一输入标签序列进行比对，并根据比对结果对弱分类器进行调整，从而实现对弱分类器的训练，也就实现了对Xgboost模型的训练。

S106，获取所述第一格式的目标口语数据，在语句项集合中查找所述目标口语数据所属的目标语句项，目标语句项包括所述目标口语数据以及与所述目标口语数据对应的所述第二格式的目标语音数据；

可以理解的是，语句项集合中存储有多条语句项，每条语句项包括口语数据以及语音数据，口语数据与语音数据可能相关联，也可能不关联，也就是说，具有相同的词性意思或相同的操作目的，也可能表达的操作目的不相同。目标口语数据即为用户针对语音识别装置输入的用于识别的口语命令。

表1

语音数据-口语数据
	打开空调---请帮我启动空调
打开空调---空调调到26度
	空调温度设置26度---空调调到26度
空调温度设置26度---空调给我设置到26度

如表1所示为语句项集合，若所输入的目标口语数据为“空调调节到26度”，差表1可知，目标语句项包括“打开空调---空调调到26度”以及“空调温度设置26度---空调调到26度”。

S107，采用所述预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列；

在一种可行的实现方式中，如图5所示，所述采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列，可以包括以下步骤：

S301，对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据；

S302，在停用词集合中查找与所述第一词组数据和所述第二词组数据相匹配的目标词组数据；

S303，删除所述第一词组数据和所述第二词组数据中的所述目标词组数据；

S304，获取所述第一词组数据中词组个数与所述第二词组数据中词组个数的第一比值；

S305，获取所述第一词组数据与所述第二词组数据的相同词组个数占所述第一词组数据与所述第二词组数据的总词组个数的第二比值；

S306，获取所述第一词组数据与所述第二词组数据的相同词组的权重之和占所述第一词组数据与所述第二词组数据的总词组的权重之和的第三比值；

S307，将所述第一比值、所述第二比值以及所述第三比值构成的序列作为第一输入编码序列。

具体描述可参见S102，此处不再赘述。

S108，将所述第一输入编码序列输入至预先训练的所述Xgboost模型中，以获取第一输出标签序列；

例如，编码后的第一输入编码序列为第一输出标签序列为

S109，基于所述第一输出标签序列获取所述目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

具体实现中，获取第一输出标签序列中标签值与预设值相匹配的标签，获取输入编码序列中标签对应的目标编码序列，对目标编码序列进行解码以获取目标口语数据对应的目标标准语音数据。一方面可直接由语音识别装置执行标准语音数据指示的操作指令，另一方面，可由语音识别装置发送至智能家居设备，以使智能家居设备执行该标准语音数据指示的操作指令。其中，标准序列集合中存储有多个标准序列。

也就是说，将第一输出标签序列中序列值为1所对应的[A1B1C1]进行解码，从而得到目标标准语音数据(如打开空调)，此时，可由语音识别装置控制空调启动，另一方面，可由语音识别装置发送至空调，以使空调控制启动。

请参见图6，为本发明实施例提供了一种设备控制装置的结构示意图。如图6所示，本发明实施例的设备控制装置10可以包括：目标数据获取模块101、第一数据获取模块102和设备控制模块103。

目标数据获取模块101，用于获取第一格式的目标口语数据，在语句项集合中查找所述目标口语数据所属的目标语句项，所述目标语句项包括目标口语数据以及与所述目标口语数据对应的第二格式的目标语音数据；

第一输入获取模块102，用于采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列；

第一输出获取模块103，用于将所述第一输入编码序列输入至预先训练的极限梯度增强Xgboost模型中，以获取第一输出标签序列；

操作指令执行模块104，用于基于所述第一输出标签序列获取目标口语数据对应的标准语音数据，并执行所述标准语音数据指示的操作指令。

可选的，所述操作指令执行模块104具体用于：

可选的，如图7所示，所述第一输入获取模块102，包括：

词组数据获取单元1021，用于对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据；

词组数据查找单元1022，用于在停用词集合中查找与所述第一词组数据和所述第二词组数据相匹配的目标词组数据；

词组数据删除单元1023，用于删除所述第一词组数据和所述第二词组数据中的所述目标词组数据；

第一比值获取单元1024，用于获取所述第一词组数据中词组个数与所述第二词组数据中词组个数的第一比值；

第二比值获取单元1025，用于获取所述第一词组数据与所述第二词组数据的相同词组个数占所述第一词组数据与所述第二词组数据的总词组个数的第二比值；

第三比值获取单元1026，用于获取所述第一词组数据与所述第二词组数据的相同词组的权重之和占所述第一词组数据与所述第二词组数据的总词组的权重之和的第三比值；

输入序列获取单元1027，用于将所述第一比值、所述第二比值以及所述第三比值构成的序列作为第一输入编码序列。

可选的，如图8所示，装置10还包括：

样本数据采集模块105，用于采集所述第一格式的样本口语数据以及所述样本口语数据对应的所述第二格式的样本语音数据；

样本数据编码模块106，用于采用预设编码方式对所述样本口语数据以及所述样本语音数据进行编码，以获取第二输入编码序列以及第一输入标签序列；

第二输出获取模块107，用于创建Xgboost模型，将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列；

模型生成模块108，用于当所述第二输出标签序列与所述第一输入标签序列相匹配时，生成训练后的Xgboost模型；

模型调整模块109，用于当所述第二输出标签序列与所述第一输入标签序列不匹配时，触发所述第二输出获取模块对所述Xgboost模型进行调整，并执行将所述第二输入编码序列作为所述Xgboost模型的输入。

可选的，如图9所示，所述第二输出获取模块107，包括：

数据输出单元1071，用于将所述第二输入编码序列作为所述Xgboost模型的输入，以获取多个弱分类器的输出数据；

数据叠加单元1072，用于将所述多个弱分类器的输出数据进行叠加，以获取第二输出标签序列。

请参见图10，为本发明实施例提供了一种电子设备的结构示意图。如图10所示，电子设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别应用程序。

在图10所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的语音识别应用程序，并具体执行以下操作：

在一个实施例中，处理器1001在执行采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列时，具体执行以下步骤：

在一个实施例中，处理器1001在执行对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据之后，还执行以下步骤：

在一个实施例中，处理器1001在执行将所述第一输入编码序列输入至预先训练的Xgboost模型中，以获取第一输出标签序列之前，还执行以下步骤：

在一个实施例中，处理器1001在执行将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列时，具体执行以下步骤：

在一个实施例中，处理器1001在执行基于所述第一输出标签序列获取所述目标口语数据对应的标准语音数据时，具体执行以下步骤：

本发明实施例还提供一种计算机存储介质(非临时性计算机可读存储介质)，计算机存储介质存储有计算机程序，计算机程序包括程序信令，程序信令当被计算机执行时使计算机执行如前述实施例的方法，计算机可以为上述提到的语音识别装置或电子设备的一部分。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(Local AreaNetwork；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本申请实施例还提供一种计算机程序产品，当上述计算机程序产品中的指令由处理器执行时，可以实现本申请图1至图5所示实施例提供的语音识别方法。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1的方法，其特征在于，采用预设编码方式对所述目标语句项进行编码处理，以获取第一输入编码序列，包括：

3.根据权利要求2的方法，其特征在于，所述对所述目标口语数据以及所述目标语音数据分别进行分词处理，以获取所述目标口语数据对应的第一词组数据以及所述目标语音数据对应的第二词组数据之后，还包括：

4.根据权利要求1的方法，其特征在于，所述将所述第一输入编码序列输入至预先训练的Xgboost模型中，以获取第一输出标签序列之前，还包括：

5.根据权利要求4的方法，其特征在于，所述将所述第二输入编码序列作为所述Xgboost模型的输入，以获取第二输出标签序列，包括：

6.根据权利要求1的方法，其特征在于，所述基于所述第一输出标签序列获取所述目标口语数据对应的标准语音数据，包括：

7.一种语音识别装置，其特征在于，包括：

8.根据权利要求7的装置，其特征在于，所述第一输入获取模块，包括：

9.根据权利要求8的装置，其特征在于，所述第一输入获取模块，还包括：

10.一种计算机存储介质，其特征在于，计算机存储介质存储有多条指令，指令适于由处理器加载并执行如权利要求1至6任一项方法。

11.一种电子设备，其特征在于，包括：处理器和存储器；其中，存储器存储有计算机程序，处理器执行计算机程序时实现如权利要求1至6任一项方法。