CN110136714A

CN110136714A - 自然交互语音控制方法及装置

Info

Publication number: CN110136714A
Application number: CN201910404081.4A
Authority: CN
Inventors: 崔潇潇; 郎芬玲
Original assignee: Beijing Exploration Technology Co Ltd
Current assignee: Beijing Exploration Technology Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-16

Abstract

本发明实施例公开了一种自然交互语音控制方法及装置，包括：获取语音信号，若语音信号与预设语音控制指令一致，获取图像信号；若图像信号满足预设条件，则预设语音控制指令对应的家电设备响应。本发明实施例提供的方法，通过获取语音信号，若语音信号与预设语音唤醒指令一致，则获取图像信号。若图像信号满足预设条件，则预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

Description

自然交互语音控制方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种自然交互语音控制方法及装置。

背景技术

随着信息技术的不断发展，人们生活水平的提高，智能家电设备进入到千家万户。语音识别技术日渐成熟，越来越多的智能家电设备都引入语音识别技术。在相关技术中，需要通过语音的方式来对智能家电进行控制，如对智能家电进行语音唤醒等。而在实际使用中，各种噪声、聊天等干扰都可能导致智能家电被误控制，从而控制准确率较低。

发明内容

为此，本发明实施例提供一种自然交互语音控制方法及装置，以解决现有技术中在语音控制中误控制的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提供一种自然交互语音控制方法，包括：

获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号；

若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。

进一步地，所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。

进一步地，所述所述预设语音控制指令对应的家电设备响应之前，还包括：

提取所述图像信号对应图像中的感兴趣区域，将所述感兴趣区域输入至训练后的预设模型中，根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件。

进一步地，所述将所述感兴趣区域输入至训练后的预设模型中之前，还包括：

获取训练样本集，所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域；

基于所述训练样本集对预设模型进行训练，得到训练后的预设模型。

进一步地，所述预设模型包括基础网络层、全连接网络层及损失函数层。

进一步地，所述根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件，包括：

若训练后的预设模型输出的数值大于预设阈值，则确定所述图像信号满足所述预设条件，若训练后的预设模型输出的数值不大于所述预设阈值，则确定所述图像信号不满足所述预设条件。

进一步地，获取图像信号之前，还包括：

对所述语音信号作预处理，以去除所述语音信号中的噪声信号；

提取预处理后的语音信号中的声学特征，并基于预设语音算法对所述声学特征进行识别，以确定所述语音信号与预设语音控制指令是否一致。

根据本发明实施例的第二方面，提供一种自然交互语音控制装置，包括：

第一获取模块，用于获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号；

语音控制模块，用于当所述图像信号满足预设条件时，则所述预设语音控制指令对应的家电设备响应。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自然交互语音控制方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的自然交互语音控制方法。

本发明实施例具有如下优点：通过获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号。若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种自然交互语音控制方法的整体流程示意图；

图2为本发明实施例提供的一种预设模型的结构示意图；

图3为本发明实施例提供的一种自然交互语音控制装置的整体结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着信息技术的不断发展，人们生活水平的提高，智能家电设备进入到千家万户。语音识别技术日渐成熟，越来越多的智能家电设备都引入语音识别技术。在相关技术中，需要通过唤醒词或命令词来控制智能家电。而在实际使用中，各种噪声、聊天等干扰都可能导致智能家电被误唤醒或者误命令，从而唤醒或者命令的准确率较低。

针对上述情形，如图1所述，示出了本发明具体实施例一种自然交互语音控制方法的整体流程图，包括：S1、获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号；S2、若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。

其中，语音信号可以通过语音采集卡获取，图像信号可以通过图像传感器获取，本发明实施例对此不作具体限定。预设语音控制指令可以为具体的某一唤醒词，也可以为具体的某一命令词。语音信号与预设语音控制指令一致可以指的是语音信号中用户说的唤醒词或命令词与预设的唤醒词或命令词一致。需要说明的是，获取到的图像信号对应图像中的用户与获取到的语音信号对应的用户可以不是同一用户，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号。若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制方法，所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。

具体地，以语音控制具体为唤醒为例，由于用户在通过语音方式有意识地唤醒家电设备时，其视线通常也是聚焦在家电设备上的。而若用户无意识地讲话触发了唤醒词时，其实现通常是不会聚焦在家电设备上的。因此，基于该原理，预设条件可以为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。需要说明的是，预设语音控制指令对应的家电设备即为用户期望的待唤醒的家电设备。

本发明实施例提供的方法，通过将预设条件设置为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制方法，所述所述预设语音控制指令对应的家电设备响应之前，还包括：提取所述图像信号对应图像中的感兴趣区域，将所述感兴趣区域输入至训练后的预设模型中，根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件。

其中，图像信号对应图像中的感兴趣区域可以为眼部区域，也可以人脸区域，本发明实施例对此不作具体限定。预设模型可以为深度神经网络模型，也可以为卷积神经网络模型，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过提取图像信号对应图像中的感兴趣区域，将所述感兴趣区域输入至训练后的预设模型中，根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制方法，所述将所述感兴趣区域输入至训练后的预设模型中之前，还包括：获取训练样本集，所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域；基于所述训练样本集对预设模型进行训练，得到训练后的预设模型。

具体地，在得到训练样本集后，对于训练样本集中的两类样本感兴趣区域，可以对其进行数据预处理，具体可以进行均值处理及归一化处理等。其中，归一化处理是为了保证所有的维度上数据都在一个变化幅度上。预设模型中的训练参数可以包括学习率，另外，根据训练轮数可以设置动态变化的学习率。需要说明的是，若训练预设模型的过程中对训练样本集中的数据作了数据预处理，则实际在使用训练后的预设模型的过程中，也需要对感兴趣区域作数据预处理。

本发明实施例提供的方法，通过获取训练样本集，基于所述训练样本集对预设模型进行训练，得到训练后的预设模型。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制方法，所述预设模型包括基础网络层、全连接网络层及损失函数层。

其中，基础网络层可以为VGG、inception或resnet等，本发明实施例对此不作具体限定。全连接网络层的数量可以为多个，如2个，本发明实施例对此不作具体限定。损失函数层可以具体为分类损失函数，如softmaxloss，本发明实施例对此不作具体限定。其中，分类损失函数softmaxloss具体可参考如下公式：

以基础网络层由4部分组成，两个全连接网络层及一个损失函数层为例，上述各层所组成的预设模型的结构可以参考图2。还需要说明的是，在对预设模型进行训练的过程中，可以使用反向运算，如使用批量梯度下降以更新模型参数。另外，训练过程中还可以loss曲线收敛作为训练的判断依据，当loss曲线收敛时，即可确定训练后的预设模型能够满足需求。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制方法，所述根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件，包括：若训练后的预设模型输出的数值大于预设阈值，则确定所述图像信号满足所述预设条件，若训练后的预设模型输出的数值不大于所述预设阈值，则确定所述图像信号不满足所述预设条件。

本发明实施例提供的方法，通过若训练后的预设模型输出的数值大于预设阈值，则确定图像信号满足所述预设条件，若训练后的预设模型输出的数值不大于所述预设阈值，则确定图像信号不满足所述预设条件。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制方法，所述获取图像信号之前，还包括：对所述语音信号作预处理，以去除所述语音信号中的噪声信号；提取预处理后的语音信号中的声学特征，并基于预设语音算法对所述声学特征进行识别，以确定所述语音信号与预设语音控制指令是否一致。

本发明实施例提供的方法，通过对所述语音信号作预处理，以去除所述语音信号中的噪声信号；提取预处理后的语音信号中的声学特征，并基于预设语音算法对所述声学特征进行识别，以确定所述语音信号与预设语音控制指令是否一致。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

如图3，示出本发明具体实施例一种自然交互语音控制装置的整体结构示意图，包括：

第一获取模块A01，用于获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号；

语音控制模块A02，用于当所述图像信号满足预设条件时，则所述预设语音控制指令对应的家电设备响应。

本发明实施例提供的装置，通过获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号。若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制装置，所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。

本发明实施例提供的装置，通过将预设条件设置为图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制装置，该装置还包括：

提取模块，用于提取所述图像信号对应图像中的感兴趣区域；

输入模块，用于将所述感兴趣区域输入至训练后的预设模型中；

确定模块，用于根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件。

本发明实施例提供的装置，通过提取图像信号对应图像中的感兴趣区域，将所述感兴趣区域输入至训练后的预设模型中，根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

第二获取模块，用于获取训练样本集，所述训练样本集包括人眼视线朝向家电设备的样本感兴趣区域及人眼视线不朝向家电设备的样本感兴趣区域；

训练模块，用于基于所述训练样本集对预设模型进行训练，得到训练后的预设模型。

本发明实施例提供的装置，通过获取训练样本集，基于所述训练样本集对预设模型进行训练，得到训练后的预设模型。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制装置，所述预设模型包括基础网络层、全连接网络层及损失函数层。

在本发明任一上述具体实施例的基础上，提供一种自然交互语音控制装置，确定模块，用于当训练后的预设模型输出的数值大于预设阈值时，则确定所述图像信号满足所述预设条件，当训练后的预设模型输出的数值不大于所述预设阈值时，则确定所述图像信号不满足所述预设条件。

本发明实施例提供的装置，通过若训练后的预设模型输出的数值大于预设阈值，则确定图像信号满足所述预设条件，若训练后的预设模型输出的数值不大于所述预设阈值，则确定图像信号不满足所述预设条件。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

预处理模块，用于对所述语音信号作预处理，以去除所述语音信号中的噪声信号；

识别模块，用于提取预处理后的语音信号中的声学特征，并基于预设语音算法对所述声学特征进行识别，以确定所述语音信号与预设语音唤醒指令是否一致。

本发明实施例提供的装置，通过对所述语音信号作预处理，以去除所述语音信号中的噪声信号；提取预处理后的语音信号中的声学特征，并基于预设语音算法对所述声学特征进行识别，以确定所述语音信号与预设语音控制指令是否一致。由于在通过语音识别进行语音控制的同时，还可以基于图像信号是否满足预设条件，来决定家电设备是否响应，从而避免了唤醒词或命令词误识别的可能性，提高了唤醒词或命令词识别准确率。同时当多个设备使用同一个唤醒词或命令词时，通过人眼视线确认，决定哪个设备响应，更加便捷和人性化。

举个例子如下：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号；若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取语音信号，若所述语音信号与预设语音控制指令一致，则获取图像信号；若所述图像信号满足预设条件，则所述预设语音控制指令对应的家电设备响应。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自然交互语音控制方法，其特征在于，包括：

2.根据权利要求1所述的自然交互语音控制方法，其特征在于，所述预设条件为所述图像信号对应图像中存在人眼视线朝向所述预设语音控制指令对应的家电设备。

3.根据权利要求2所述的自然交互语音控制方法，其特征在于，所述所述预设语音控制指令对应的家电设备响应之前，还包括：

4.根据权利要求3所述的自然交互语音控制方法，其特征在于，所述将所述感兴趣区域输入至训练后的预设模型中之前，还包括：

5.根据权利要求3或4所述的自然交互语音控制方法，其特征在于，所述预设模型包括基础网络层、全连接网络层及损失函数层。

6.根据权利要求3所述的自然交互语音控制方法，其特征在于，所述根据训练后的预设模型的输出结果，确定所述图像信号是否满足所述预设条件，包括：

7.根据权利要求1所述的自然交互语音控制方法，其特征在于，所述获取图像信号之前，还包括：

提取预处理后的语音信号中的声学特征，并基于预设语音算法对所述声学特征进行识别，以确定所述语音信号与所述预设语音控制指令是否一致。

8.一种自然交互语音控制装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被执行以实现如权利要求1至7任一所述的方法。