CN108183844A

CN108183844A - 一种智能家电语音控制方法、装置及系统

Info

Publication number: CN108183844A
Application number: CN201810117596.1A
Authority: CN
Inventors: 文俊
Original assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Current assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-06-19
Anticipated expiration: 2038-02-06
Also published as: CN108183844B

Abstract

本发明提供了一种智能家电语音控制方法、装置及系统，该方法包括：接收用户输入的语音控制指令；判断存储于智能家电本地的至少一个控制命令词中是否存在与所述语音控制指令相匹配的第一控制命令词；如果所述至少一个控制命令词中存在所述第一控制命令词，根据所述第一控制命令词对所述智能家电进行控制；如果所述至少一个控制命令词中不存在所述第一控制命令词，将所述语音控制指令发送给外部的语音识别服务器，通过所述语音识别服务器对所述语音控制指令进行识别，并获取所述语音识别服务器识别出的与所述语音控制指令相匹配的第二控制命令词，根据所述第二控制命令词对所述智能家电进行控制。本方案能够提高用户的使用体验。

Description

一种智能家电语音控制方法、装置及系统

技术领域

本发明涉及智能家电技术领域，特别涉及一种智能家电语音控制方法、装置及系统。

背景技术

随着计算机技术和大数据处理技术的不断发展与进步，语音识别技术得到迅速发展，被广泛应用于智能家电的语音控制领域。针对具有语音控制功能的智能家电，用户通过发出语音指令便可以对智能家电进行控制，比如用户可以通过语音指令控制冰箱开门、调节冰箱制冷温度等。

目前，智能家电的语音控制功能主要基于离线语音识别技术实现，即在智能家电本地存储语音识别程序和控制命令词，在语音识别程序识别出用户所发出的语音指令后，确定与所识别出语音指令相匹配的控制命令词，进而对智能家电进行与所确定控制命令词相对应的控制操作。

针对目前实现智能家电语音控制的方法，由于智能家电对数据进行处理的效率较低，为了保证语音识别的速度，存储于智能家电本地的控制命令词的数量受到限制，因此用户能够通过语音指令实现的控制类型也较少，比如无法通过语音录入搜索关键词使智能冰箱搜索互联网上的菜谱，导致用户的使用体验较差。

发明内容

本发明实施例提供了一种智能家电语音控制方法、装置及系统，能够提高用户的使用体验。

第一方面，本发明实施例提供了一种智能家电语音控制方法，包括：

接收用户输入的语音控制指令；

判断存储于智能家电本地的至少一个控制命令词中是否存在与所述语音控制指令相匹配的第一控制命令词；

如果所述至少一个控制命令词中存在所述第一控制命令词，根据所述第一控制命令词对所述智能家电进行控制；

如果所述至少一个控制命令词中不存在所述第一控制命令词，将所述语音控制指令发送给外部的语音识别服务器，通过所述语音识别服务器对所述语音控制指令进行识别，并获取所述语音识别服务器识别出的与所述语音控制指令相匹配的第二控制命令词，根据所述第二控制命令词对所述智能家电进行控制。

可选地，

所述判断存储于所述智能家电本地的至少一个控制命令词中是否存在与所述语音控制指令相匹配的第一控制命令词，包括：

在所述智能家电本地对所述语音控制指令进行语音识别，将所述语音控制指令转换为音素串；

分别确定所述音素串相对于预先确定的每一个所述控制命令词所对应音素图的置信度；

判断各个所述音素图中是否存在至少一个所述音素图对应的所述置信度大于预先设定的置信度门限值；

如果是，将与所对应置信度最大的一个所述音素图相对应的一个所述控制命令词确定为所述第一控制命令词；

如果否，确定所述至少一个控制命令词中不存在所述第一控制命令词。

可选地，

所述分别确定所述音素串相对于预先确定的每一个所述控制命令词所对应音素图的置信度，包括：

针对每一个所述控制命令词，将预先确定的与所述控制命令词相对应的音素图和所述音素串代入预先创建的声学模型，获得所述控制命令词与所述语音控制指令相匹配的第一概率；

针对每一个所述控制命令词，将所述控制命令词和相对应的所述音素图代入预先创建的语言模型，获得所述控制命令词与相对应所述音素图相匹配的第二概率；

针对每一个所述控制命令词，通过如下公式计算所述语音控制指令所对应音素串相对于所述控制命令词所对应音素图的置信度，其中，所述公式包括：

其中，所述P表征所述置信度，所述P₁表征所述第一概率，所述P₂表征所述第二概率。

可选地，

所述通过所述语音识别服务器对所述语音控制指令进行识别，包括：

利用存储于所述语音识别服务器上的语音识别程序，执行：

将所述语音控制指令对应的波形切割为至少两个帧；

分别从每一个所述帧中提取相对应的特征向量；

根据各个所述帧所对应的所述特征向量，将所述至少两个帧划分为至少一个分组，其中，每一个所述分组包括一个所述帧或在所述声波中依次相邻的至少两个帧；

针对每一个所述分组，对所述分组所包括各个所述帧对应的所述特征向量进行组合，获得相对应的音素；

将各个所述分组所对应的音素进行顺序组合，并将组合后的所述音素映射为包括有至少一个汉字或单词的所述第二控制命令词。

第二方面，本发明实施例还提供了一种智能家电语音控制装置，包括：接收单元、离线语音识别单元、在线语音识别单元和控制单元；

所述接收单元，用于接收用户输入的语音控制指令；

所述离线语音识别单元，用于判断存储于智能家电本地的至少一个控制命令词中是否存在与所述接收单元接收到的所述语音控制指令相匹配的第一控制命令词，如果是，将所述第一控制命令词发送给所述控制单元；

所述在线语音识别单元，用于根据所述离线语音识别单元的判断结果，如果所述至少一个控制命令词中不存在所述第一控制命令词，将所述语音控制指令发送给外部的语音识别服务器，通过所述语音识别服务器对所述语音控制指令进行识别，获取所述语音识别服务器识别出的与所述语音控制指令相匹配的第二控制命令词，并将所述第二控制命令词发送给所述控制单元；

所述控制单元，用于在接收到所述第一控制命令词时，根据所述第一控制命令词对所述智能家电进行控制，以及在接收到所述第二控制命令词时，根据所述第二控制命令词对所述智能家电进行控制。

可选地，

所述离线语音识别单元包括：转换子单元、计算子单元、判断子单元和执行子单元；

所述转换子单元，用于在所述智能家电本地对所述语音控制指令进行语音识别，将所述语音控制指令转换为音素串；

所述计算子单元，用于分别确定所述转换子单元获得的所述音素串相对于预先确定的每一个所述控制命令词所对应音素图的置信度；

所述判断子单元，用于根据所述计算子单元确定出的所述置信度，判断各个所述音素图中是否存在至少一个所述音素图对应的所述置信度大于预先设定的置信度门限值；

所述执行子单元，用于根据所述判断子单元的判断结果，如果是，将与所对应置信度最大的一个所述音素图相对应的一个所述控制命令词确定为所述第一控制命令词，否则确定所述至少一个控制命令词中不存在所述第一控制命令词。

可选地，

所述计算子单元包括：第一计算模块、第二计算模块和第三计算模块；

所述第一计算模块，用于针对每一个所述控制命令词，将预先确定的与所述控制命令词相对应的音素图和所述音素串代入预先创建的声学模型，获得所述控制命令词与所述语音控制指令相匹配的第一概率；

所述第二计算模块，用于针对每一个所述控制命令词，将所述控制命令词和相对应的所述音素图代入预先创建的语言模型，获得所述控制命令与相对应所述音素图相匹配的第二概率；

所述第三计算模块，用于针对每一个所述控制命令词，根据所述第一计算模块获得的所述第一概率和所述第二计算模块获得的所述第二概率，通过如下公式计算所述语音控制指令所对应音素串相对于所述控制命令词所对应音素图的置信度，其中，所述公式包括：

可选地，

所述控制单元，进一步用于在所述离线语音识别单元判断所述至少一个控制命令词中不存在所述第一控制命令词，且所述在线语音识别单元未成功将所述语音控制指令发送给所述语音识别服务器时，发出语音识别失败提示信息。

第三方面，本发明实施例还提供了一种智能家电语音控制系统，包括：智能家电、语音识别服务器和第二方面提供的任意一种智能家电语音控制装置；

所述智能家电，用于根据所述智能家电语音控制装置的控制，执行相对应的动作；

所述语音识别服务器，用于对所述智能家电语音控制装置发送的所述语音控制指令进行识别，并将识别出的与所述语音控制指令相匹配的所述第二控制命令词发送给所述智能家电语音控制装置。

可选地，

所述语音识别服务器，在执行对所述语音控制指令进行识别时，利用所存储的语音识别程序具体执行：

利用存储于所述语音识别服务器上的语音识别程序，执行：

将所述语音控制指令对应的波形切割为至少两个帧；

分别从每一个所述帧中提取相对应的特征向量；

本发明实施例提供的智能家电语音控制方法、装置及系统，在接收到用户输入的语音控制指令后，首先判断存储于智能家电本地的各个控制命令词中是否存在与该语音控制指令相匹配的第一控制命令词，如果存在，则根据该第一控制命令词对智能家电进行控制，如果不存在，则将该语音控制指令发送给语音识别服务器，通过语音识别服务器对该语音控制指令进行识别，进而通过语音识别服务器识别出的第二控制命令词对智能家电进行控制。由此可见，在接收到用户输入的语音控制指令后，首先通过离线语音识别的方式判断智能家电本地是否存在相匹配的第一控制命令词，如果存在则直接通过识别出的第一控制命令词对智能家电进行控制，如果不存在则通过在线语音识别获取第二控制命令词对智能家电进行控制，由于可以通过在线语音识别对语音控制指令进行识别，对智能家电进行语音控制不再局限于智能家电本地所存储控制命令词的数量，增加了用户能够通过语音控制指令对智能家电进行控制的类型，从而可以提高用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种智能家电语音控制方法的流程图；

图2是本发明一个实施例提供的一种智能家电语音控制装置所在设备的示意图；

图3是本发明一个实施例提供的一种智能家电语音控制装置的示意图；

图4是本发明一个实施例提供的另一种智能家电语音控制装置的示意图；

图5是本发明一个实施例提供的又一种智能家电语音控制装置的示意图；

图6是本发明一个实施例提供的一种智能家电语音控制系统的示意图；

图7是本发明一个实施例提供的另一种智能家电语音控制方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种智能家电语音控制方法，该方法可以包括以下步骤：

步骤101：接收用户输入的语音控制指令；

步骤102：判断存储于智能家电本地的至少一个控制命令词中是否存在与语音控制指令相匹配的第一控制命令词，如果是，执行步骤103，否则执行步骤104；

步骤103：根据第一控制命令词对智能家电进行控制，并结束当前流程；

步骤104：将语音控制指令发送给外部的语音识别服务器，通过语音识别服务器对语音控制指令进行识别，并获取语音识别服务器识别出的与语音控制指令相匹配的第二控制命令词，根据第二控制命令词对智能家电进行控制。

本发明实施例提供了一种智能家电语音控制方法，在接收到用户输入的语音控制指令后，首先判断存储于智能家电本地的各个控制命令词中是否存在与该语音控制指令相匹配的第一控制命令词，如果存在，则根据该第一控制命令词对智能家电进行控制，如果不存在，则将该语音控制指令发送给语音识别服务器，通过语音识别服务器对该语音控制指令进行识别，进而通过语音识别服务器识别出的第二控制命令词对智能家电进行控制。由此可见，在接收到用户输入的语音控制指令后，首先通过离线语音识别的方式判断智能家电本地是否存在相匹配的第一控制命令词，如果存在则直接通过识别出的第一控制命令词对智能家电进行控制，如果不存在则通过在线语音识别获取第二控制命令词对智能家电进行控制，由于可以通过在线语音识别对语音控制指令进行识别，对智能家电进行语音控制不再局限于智能家电本地所存储控制命令词的数量，增加了用户能够通过语音控制指令对智能家电进行控制的类型，从而可以提高用户的使用体验。

可选地，如图1所示，步骤102判断智能家电本地所存储的各个控制命令词中是否存在与语音控制指令相匹配的第一控制命令词时，具体可以通过如下子步骤实现：

A1：在智能家电本地对语音控制指令进行语音识别，将语音控制指令转换为音素串；

A2：分别确定音素串相对应每一个控制命令词所对应音素图的置信度，其中，控制命令词所对应的音素图为预先确定获得；

A3：判断各个音素图中是否存在至少一个音素图所对应的置信度大于预设的置信度门限值，如果是，执行A4，否则执行A5；

A4：将与所对应置信度最大的一个音素图相对应的一个控制命令词确定为第一控制命令词，并结束当前流程；

A5：确定智能家电本地所存储的各个控制命令词中不存在与语音控制指令相匹配的第一控制命令词。

针对存储在智能家电本地的每一个控制命令词，预先对该控制命令词进行声学识别，获得相对应的音素图。将接收到的语音控制指令转换为相对应的音素串后，分别确定该音素串相对于每一个音素图的置信度，置信度表征了音素串与音素图的匹配程度，置信度越大说明音素串与音素图的匹配程序越高，即语音控制指令与相对应控制命令词的匹配程度越高。当存在一个或多个控制命令词所对应音素图相对于音素串的置信度大于置信度门限值时，将相对于音素串的置信度最大的一个控制命令词确定为第一控制命令词，即将与语音控制指令匹配程度最高的一个控制命令词确定为第一控制命令词。当各个控制命令词所对应音素图相对于音素串的置信度均小于置信度门限值时，说明各个控制命令词与语音控制指令的匹配程度均较低，确定不存在第一控制命令词。

通过声学识别获得每一个控制命令词对应的音素图，将语音控制指令转换为相对应的音素串，通过确定音素串相对于每一个音素图的置信度，将对应置信度大于置信度门限值且最大的一个控制命令词作为第一控制命令词，即通过离线语音识别的方式获得了第一控制命令词，如果没有符合上述条件的控制命令词存在，则确定不存在第一控制命令词，需要对语音控制指令进行在线语音识别。将语音控制指令转换为音素串，将各个控制命令词转换为对应的音素图后，通过确定音素串相对应各个音素图的置信度来确定智能家电本地是否存储有与语音控制指令相匹配的第一控制指令，可以保证对语音控制指令进行离线语音识别的准确性。

例如，智能家电本地存储有30个控制命令词，通过声学识别获得各个控制命令词相对应的音素图分别为音素图1至音素图30，并预先设定置信度门限值为85％。比如，对语音控制指令1进行语音识别获得音素串kaiji，确定音素串kaiji相对于30个音素图的置信度后，仅有音素图1和音素图2的所对应置信度大于置信度门限值，且音素图1和音素图2的所对应分别为95％和90％，则将与音素图1相对应的控制命令词1确定为第一控制命令词。再比如，对语音控制指令2进行语音识别获得音素串gongbaojiding，确定音素串gongbaojiding相对于30个音素图的置信度后，30个音素图所对应置信度均小于置信度门限值，则确定存储在智能家电上的30个控制命令词中不存在与语音控制指令2相匹配的第一控制命令词。

需要说明的是，可以根据需求对置信度门限值进行调整，当置信度门限值被调大时，所确定出的第一控制命令词与语音控制指令的匹配程度增加，但对语音控制指令进行离线语音识别成功的概率降低，当置信度门限值调小时，所确定出的第一控制命令词与语音控制指令的匹配程度降低，但对语音控制指令进行离线语音识别成功的概率增大。具体地，置信度门限值可以根据实际业务需求进行确定。

可选地，在上述实施例步骤A2分别确定音素串相对于每一个音素图的置信度时，具体可以通过如下子步骤实现：

B1：针对每一个控制命令词，将该控制命令词所对应的音素图和音素串代入预先创建的声学模型，蝴蝶该控制命令词与语音控制指令相匹配的第一概率；

B2：针对每一个控制命令词，将该控制命令词和相对应的音素图代入预先创建的语言模型，获得该控制命令词与相对应音素图相匹配的第二概率；

B3：针对每一个控制命令词，通过如下公式计算语音控制指令所对应音素串相对于该控制命令词所对应音素图的置信度，

其中，P表征置信度，P₁表征第一概率，P₂表征第二概率。

预先创建声学模型和语言模型，针对每一个控制命令词，将该控制命令词所对应的音素图与语音控制指令所对应的音素串代入声学模型，可以获得该控制命令词与语音控制指令相匹配的第一概率，将该控制命令词和该控制命令词所对应的音素图代入语言模型，可以获得该控制命令词与相对应音素图相匹配的第二概率，进而将获得到的第一概率和第二概率代入上述公式，可以获得该控制命令词所音素图相对于语音控制指令所对应音素串的置信度。这样，置信度综合控制命令词与语音控制指令的匹配程度和控制命令词与相对应音素图的匹配程度，使得确定出的置信度能够更加准确的反映控制命令词与语音控制指令之间的匹配程度，保证对语音控制指令进行离线语音识别的准确性，进而保证对智能家电进行语音控制的准确性。

可选地，如图1所示，步骤104将语音控制指令发送给语音识别服务器进行在线语音识别时，具体可以利用存储在语音识别服务器上的语音识别程序，通过如下步骤对语音控制指令进行在线语音识别：

C1：将语音控制指令对应的波形切割为至少两个帧；

C2：分别从每一个帧中提取相对应的特征向量；

C3：根据各个帧所对应的特征向量，将至少两个帧划分为至少一个分组，其中，每一个分组包括一个帧或在声波中依次相邻的至少两个帧；

C4：针对每一个分组，对分组所包括各个帧对应的特征向量进行组合，获得相对应的音素；

C5：将各个分组所对应的音素进行顺序组合，并将组合后的音素映射为包括有至少一个汉字或单词的第二控制命令词。

当将语音控制指令发送给语音识别服务器后，利用存储在语音识别服务器上的语音识别程序，将语音控制指令对应的波形切割为多个帧，分别从每一个帧中提取相对应的特征向量后，根据各个帧所对应的特征向量将各个帧划分为一个或多个分组，每一个分组包括有一个帧或在语音控制指令所对应声波中依次相连的多个帧，分别将每一个分组包括的各个帧对应的特征向量进行组合，获得相对应的音素，进而将各个分组所对应的音素进行顺序组合，并将组合后的音素映射为包括有至少一个汉字或单词的第二控制命令词。

在对语音控制指令进行语音识别时，利用语音识别服务器较强的运算能力，不再利用离线语音识别所采用的与预设控制命令词进行对比的方式进行语音识别，而是将语音控制指令所对应的波形切割为多个帧，从每一个帧中提取特征向量，通过对特征向量进行组合获得多个音素，进而将组合在一起的各个音素映射为第二控制命令词。这样，针对具有不同内容和长度的语音控制指令均可以识别出对应的第二控制命令词，使得用户可以输入多种语音控制指令，以通过语音对智能家电进行多种类型的控制，提升用户的使用体验。

在将语音控制指令所对应的波形切割为帧时，相邻两帧可以具有重叠的部分。比如，以帧长25ms，帧移10ms对语音控制指令所对应的波形进行分帧，此时相邻两个帧具有15ms的重叠区域。使相邻帧具有一定长度的重叠区域，保证在对各帧所对应特征向量进行组合时，可以将对应于同一音素的多个特征向量组合到一起，提升对语音控制指令进行在线语音识别的准确性。

在对各个音素进行组合时，如果用户输入的语音控制指令为中文，则一个或多个音素可以组合成一个汉语拼音，进而可以根据用户概率和上下文语境将各个汉语拼音映射为汉字，获得包括有一个或多个汉字的第二控制命令词；如果用户输入的语音控制指令为英文，则一个或多个音素可以映射为一个单词，进而获得包括有一个或多个单词的第二控制命令词。

例如，将语音控制指令2发送给语音识别服务器后，以帧长25ms、帧移10ms对语音控制指令2所对应的波形进行分帧，获得150帧，分别从每一帧中提取特征向量后，根据各个帧所对应的特征向量将150帧划分为13个分组，分别对每一个分组包括的各个帧所对应的特征向量进行组合，获得13个音素，这13个音素依次为g/o/n/g/b/a/o/j/i/d/i/n/g，将这13个音素组合为4个含义拼音，这4个汉语拼音依次为gong/bao/ji/ding，最后将这4个汉语拼音映射为“宫保鸡丁”，即将“宫保鸡丁”这四个汉字作为第二控制命令词。

如图2、图3所示，本发明实施例提供了一种智能家电语音控制装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本发明实施例提供的智能家电语音控制装置所在设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的智能家电语音控制装置，包括：接收单元301、离线语音识别单元302、在线语音识别单元303和控制单元304；

接收单元301，用于接收用户输入的语音控制指令；

离线语音识别单元302，用于判断存储于智能家电本地的至少一个控制命令词中是否存在与接收单元301接收到的语音控制指令相匹配的第一控制命令词，如果是，将第一控制命令词发送给控制单元304；

在线语音识别单元303，用于根据离线语音识别单元302的判断结果，如果至少一个控制命令词中不存在第一控制命令词，将语音控制指令发送给外部的语音识别服务器，通过语音识别服务器对语音控制指令进行识别，获取语音识别服务器识别出的与语音控制指令相匹配的第二控制命令词，并将第二控制命令词发送给控制单元304；

控制单元304，用于在接收到第一控制命令词时，根据第一控制命令词对智能家电进行控制，以及在接收到第二控制命令词时，根据第二控制命令词对智能家电进行控制。

可选地，在图3所示智能家电语音控制装置的基础上，如图4所示，离线语音识别单元302可以包括：转换子单元3021、计算子单元3022、判断子单元3023和执行子单元3024；

转换子单元3021，用于在智能家电本地对语音控制指令进行语音识别，将语音控制指令转换为音素串；

计算子单元3022，用于分别确定转换子单元3021获得的音素串相对于预先确定的每一个控制命令词所对应音素图的置信度；

判断子单元3023，用于根据计算子单元3022确定出的置信度，判断各个音素图中是否存在至少一个音素图对应的置信度大于预先设定的置信度门限值；

执行子单元3024，用于根据判断子单元3023的判断结果，如果是，将与所对应置信度最大的一个音素图相对应的一个控制命令词确定为第一控制命令词，否则确定至少一个控制命令词中不存在第一控制命令词。

可选地，在图4所示智能家电语音控制装置的基础上，如图5所示，计算子单元3022可以包括：第一计算模块305、第二计算模块306和第三计算模块307；

第一计算模块305，用于针对每一个控制命令词，将预先确定的与控制命令词相对应的音素图和音素串代入预先创建的声学模型，获得控制命令词与语音控制指令相匹配的第一概率；

第二计算模块306，用于针对每一个控制命令词，将控制命令词和相对应的音素图代入预先创建的语言模型，获得控制命令与相对应音素图相匹配的第二概率；

第三计算模块307，用于针对每一个控制命令词，根据第一计算模块305获得的第一概率和第二计算模块306获得的第二概率，通过如下公式计算语音控制指令所对应音素串相对于控制命令词所对应音素图的置信度，其中，公式包括：

其中，P表征置信度，P₁表征第一概率，P₂表征第二概率。

可选地，如图3至图5所示，控制单元304可以进一步在离线语音识别单元302判断至少一个控制命令词中不存在第一控制命令词，且在线语音识别单元303未成功将语音控制指令发送给语音识别服务器时，发出语音识别失败提示信息。

在线语音识别单元对语音控制指令进行识别时，首先需要智能家电将语音控制指令通过网络发送给语音识别服务器，如果离线语音识别单元没有确定出与语音控制指令相匹配的第一控制命令词，且在线语音识别单元由于网络没有连接的原因无法将语音控制指令发送给语音识别服务器，此时控制单元可以发出语音识别失败的提示信息，提示用户离线语音识别没有确定出与语音控制指令相匹配的第一控制命令词，且由于网络原因在线语音识别功能无法启动，从而提醒用户连接智能家电与语音识别服务器之间的网络，进一步提升了用户的使用体验。

需要说明的是，上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

如图6所示，本发明一个实施例提供了一种智能家电语音控制系统，包括：智能家电601、语音识别服务器602和上述各个实施例提供的任意一种智能家电语音识别装置603；

智能家电601用于根据智能家电语音控制装置603的控制，执行相对应的动作；

语音识别服务器602用于对智能家电语音控制装置603发送的语音控制指令进行识别，并将识别出的与语音控制指令相匹配的第二控制命令词发送给智能家电语音控制装置603。

本发明实施例提供了一种智能家电语音控制系统，智能家电语音控制装置在接收到用户输入的语音控制指令后，首先通过离线语音识别的方法对接收到的语音控制指令进行语音识别，如果通过离线语音识别获取到的与语音控制指令相匹配的第一控制命令词，则根据第一控制命令词对智能家电进行相应的控制，如果通过离线语音识别无法获取到与语音控制指令相匹配的第一控制命令词，则将语音控制指令发送给语音识别服务器，通过语音识别服务器对语音控制指令进行在线语音识别，语音识别服务器对语音控制指令进行识别获得相对应的第二控制命令词发送给智能家电语音控制装置后，智能家电用于控制装置根据第二控制命令词对智能家电进行相应的控制。由此可见，针对无法通过离线语音识别进行识别的语音控制指令，智能家电语音控制装置将其发送给语音识别服务器进行在线语音识别，对语音识别指令进行的语音识别不再局限于存储于智能家电本地的控制命令词，通过语音识别服务器进行的在线语音识别可以识别更多的语音控制指令，从而用户可以通过语音控制指令对智能家电进行更加类型的控制，提升了用户的使用体验。

可选地，如图6所示，智能进行语音控制装置603将语音控制指令发送给语音识别服务器602后，语音识别服务器602利用存储的语音识别程序，将语音控制指令对应的波形切割为至少两个帧，分别从每一个帧中提取相对应的特征向量，根据各个帧所对应的特征向量，将至少两个帧划分为至少一个分组，其中，每一个分组包括一个帧或在声波中依次相邻的至少两个帧，针对每一个分组，对分组所包括各个帧对应的特征向量进行组合，获得相对应的音素，将各个分组所对应的音素进行顺序组合，并将组合后的音素映射为包括有至少一个汉字或单词的第二控制命令词。

需要说明的是，上述系统内的各装置之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

下面结合图6所示的智能家电语音控制系统，对本发明实施例提供的智能家电语音控制方法作进一步详细说明，如图7所示，该方法可以包括以下步骤：

步骤701：接收用户输入的语音控制指令。

在本发明实施例中，设置于智能家电上的智能家电语音控制装置包括麦克风，通过麦克风接收用户输入的语音控制指令。具体地，可以通过麦克风阵列来接收用户输入的语音控制指令，以提升对语音控制指令进行接收的效果。

步骤702：对语音控制指令进行离线语音识别。

在本发明实施例中，预先对存储在智能家电本地的多个控制命令词进行声学识别，获得每一个控制命令词所对应的音素图。在接收到用户输入的语音控制指令后，将语音控制指令转换为相对应的音素串，分别确定音素串相对于每一个音素图的置信度。具体地，针对每一个控制命令词，可以将音素串和该控制命令词所对应的音素图代入预先创建的声学模型，获得该控制命令词与语音控制指令相匹配的第一概率，并将该控制命令词和相对应的音素图代入预先创建的语言模型，获得该控制命令词与相对应音素图相匹配的第二概率，进而将第一概率和第二概率代入如下公式计算出该控制命令词相对于语音控制指令的置信度；

其中，P表征置信度，P₁表征第一概率，P₂表征第二概率。

步骤703：判断离线语音识别是否确定出与语音控制指令相匹配的第一控制命令词，如果是，执行步骤704，否则执行步骤705。

在本发明实施例中，在确定出每一个控制命令词所对应音素图相对于语音控制指令所对应音素串的置信度后，判断是否存在至少一个控制命令词所对应音素图相对于音素串的置信度大于预先设定的置信度门限值，如果是，将对应置信度最大的一个控制命令词确定为第一控制命令词，并执行步骤704，如果否，将确定智能家电本地所存储的各个控制命令词中不存在与语音控制指令相匹配的第一控制命令词，相应地执行步骤705。

步骤704：根据第一控制命令词对智能家电进行相应的控制，并结束当前流程。

在本发明实施例中，在智能家电语音控制装置确定出与语音控制指令相匹配的第一控制命令词后，智能家电语音控制装置根据确定出的第一控制命令词对智能家电进行相应的控制。

步骤705：判断智能家电语音控制装置与语音识别服务器之间的网络是否连通，如果是，执行步骤706，否则执行步骤710。

在本发明实施例中，当智能家电语音控制装置通过离线语音识别方式没有确定出与语音控制指令相匹配的第一控制命令词后，智能家电语音控制装置判断其与语音识别服务器之间的网络是否连通，如果是，则可以通过在线语音识别方式对语音控制指令进行识别，相应地执行步骤706，否则无法对语音控制指令进行识别，相应地执行步骤710。

步骤706：将语音控制指令发送给语音识别服务器。

在本发明实施例中，智能家电语音控制装置将接收到的语音控制指令发送给语音识别服务器。

步骤707：利用语音识别服务器对语音控制指令进行在线语音识别，获得相匹配的第二控制命令词。

在本发明实施例中，语音识别服务器在接收到智能家电语音控制装置发送的语音控制指令后，利用所存储的语音识别程序，通过对语音控制指令所对应声波进行分帧、特征向量提取、特征向量组合、音素映射等一系列处理，获得与语音控制指令相匹配的第二控制命令词。

步骤708：语音识别服务器将获取到的第二控制命令词发送给智能家电语音控制装置。

在本发明实施例中，语音识别服务器在获取到与语音控制指令相匹配的第二控制命令词后，将获取到的第二控制命令词返回给智能家电语音控制装置。

步骤709：根据第二控制命令词对智能家电进行相应的控制，并结束当前流程。

在本发明实施例中，智能家电语音控制装置在接收到语音识别服务器发送的第二控制命令词后，根据第二控制命令词对智能家电进行相应的控制。

步骤710：向用户发送语音识别失败的提示信息。

在本发明实施例中，在通过离线语音识别无法获取到与语音控制指令相匹配的第一控制命令词，且智能家电语音控制装置与语音识别服务器之间的网络不连通时，智能家电语音控制装置向用户发送语音识别失败的提示信息。具体可以通过显示屏或语音播报的形式向用户发送上述提示信息。

本发明实施例还提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行上述各个实施例提供的智能家电语音控制方法。

本发明实施例还提供了一种存储控制器，包括：处理器、存储器和总线；

所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行上述各个实施例提供的智能家电语音控制方法。

综上所述，本发明各个实施例提供的智能家电语音控制方法、装置及系统，至少具有如下有益效果：

1、在本发明实施例中，在接收到用户输入的语音控制指令后，首先判断存储于智能家电本地的各个控制命令词中是否存在与该语音控制指令相匹配的第一控制命令词，如果存在，则根据该第一控制命令词对智能家电进行控制，如果不存在，则将该语音控制指令发送给语音识别服务器，通过语音识别服务器对该语音控制指令进行识别，进而通过语音识别服务器识别出的第二控制命令词对智能家电进行控制。由此可见，在接收到用户输入的语音控制指令后，首先通过离线语音识别的方式判断智能家电本地是否存在相匹配的第一控制命令词，如果存在则直接通过识别出的第一控制命令词对智能家电进行控制，如果不存在则通过在线语音识别获取第二控制命令词对智能家电进行控制，由于可以通过在线语音识别对语音控制指令进行识别，对智能家电进行语音控制不再局限于智能家电本地所存储控制命令词的数量，增加了用户能够通过语音控制指令对智能家电进行控制的类型，从而可以提高用户的使用体验。

2、在本发明实施例中，将语音控制指令转换为音素串，将各个控制命令词转换为对应的音素图后，通过确定音素串相对应各个音素图的置信度来确定智能家电本地是否存储有与语音控制指令相匹配的第一控制指令，可以保证对语音控制指令进行离线语音识别的准确性。

3、在本发明实施例中，置信度综合控制命令词与语音控制指令的匹配程度和控制命令词与相对应音素图的匹配程度，使得确定出的置信度能够更加准确的反映控制命令词与语音控制指令之间的匹配程度，保证对语音控制指令进行离线语音识别的准确性，进而保证对智能家电进行语音控制的准确性。

4、在本发明实施例中，在对语音控制指令进行语音识别时，利用语音识别服务器较强的运算能力，不再利用离线语音识别所采用的与预设控制命令词进行对比的方式进行语音识别，而是将语音控制指令所对应的波形切割为多个帧，从每一个帧中提取特征向量，通过对特征向量进行组合获得多个音素，进而将组合在一起的各个音素映射为第二控制命令词。这样，针对具有不同内容和长度的语音控制指令均可以识别出对应的第二控制命令词，使得用户可以输入多种语音控制指令，以通过语音对智能家电进行多种类型的控制，提升用户的使用体验。

5、在本发明实施例中，通过离线语音识别与在线语音识别相结合的方式对用户输入的语音控制指令进行识别，首先进行离线语音识别，保证对语音控制指令进行识别的速度，针对离线语音识别无法识别的语音控制指令再进行在线语音识别，保证对语音控制指令进行识别的识别率，这样既可以保证对语音控制指令进行识别的速度，有可以提高对语音控制指令进行识别的识别率，从而可以提高用户的使用体验。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同音素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种智能家电语音控制方法，其特征在于，包括：

接收用户输入的语音控制指令；

2.根据权利要求1所述的方法，其特征在于，所述判断存储于所述智能家电本地的至少一个控制命令词中是否存在与所述语音控制指令相匹配的第一控制命令词，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别确定所述音素串相对于预先确定的每一个所述控制命令词所对应音素图的置信度，包括：

4.根据权利要求1至3中任一所述的方法，其特征在于，所述通过所述语音识别服务器对所述语音控制指令进行识别，包括：

利用存储于所述语音识别服务器上的语音识别程序，执行：

将所述语音控制指令对应的波形切割为至少两个帧；

分别从每一个所述帧中提取相对应的特征向量；

5.一种智能家电语音控制装置，其特征在于，包括：接收单元、离线语音识别单元、在线语音识别单元和控制单元；

所述接收单元，用于接收用户输入的语音控制指令；

6.根据权利要求5所述的装置，其特征在于，所述离线语音识别单元包括：转换子单元、计算子单元、判断子单元和执行子单元；

7.根据权利要求6所述的装置，其特征在于，所述计算子单元包括：第一计算模块、第二计算模块和第三计算模块；

8.根据权利要求5至7中任一所述的装置，其特征在于，

9.一种智能家电语音控制系统，其特征在于，包括：智能家电、语音识别服务器和权利要求5至8中任一所述的智能家电语音控制装置；

10.根据权利要求9所述的系统，其特征在于，

利用存储于所述语音识别服务器上的语音识别程序，执行：

将所述语音控制指令对应的波形切割为至少两个帧；

分别从每一个所述帧中提取相对应的特征向量；