CN107679506A

CN107679506A - 智能产品的唤醒方法、智能产品及计算机可读存储介质

Info

Publication number: CN107679506A
Application number: CN201710957838.3A
Authority: CN
Inventors: 朱喜燕; 吕坤
Original assignee: TCL Tongli Electronics Huizhou Co Ltd
Current assignee: TCL Tongli Electronics Huizhou Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-02-09

Abstract

本发明公开了一种智能产品的唤醒方法、智能产品及计算机可读存储介质，智能产品的唤醒方法包括：获取智能产品采集的视频图像，检测所述视频图像中是否存在人脸图像；若所述视频图像中存在人脸图像，则检测所述人脸图像是否为正视人脸图像；若所述人脸图像为正视人脸图像，则检测所述正视人脸图像中的唇部状态是否符合说话状态；若所述正视人脸图像中的唇部状态符合说话状态，则对智能产品中预置语音采集装置采集的音频信息进行响应。通过本发明简化了智能产品的语音识别过程，且提高语音控制的准确性。

Description

智能产品的唤醒方法、智能产品及计算机可读存储介质

技术领域

本发明涉及智能控制技术领域，尤其涉及智能产品的唤醒方法、智能产品及计算机可读存储介质。

背景技术

随着智能终端的普及，越来越多的智能设备和智能家居出现，并被广泛使用，在这些设备上，人机交互是非常核心的功能。随着语音识别技术的发展，越来越多的智能设备采用语音控制来实现人机交互，现有的语音终端在侦测到语音控制指令时，可基于预存的语音控制指令与控制代码之间的映射关系，响应侦测到的语音控制指令所对应的控制代码。

一般的，若用户需要通过语音控制智能设备，在进行控制之前，需要先用语音唤醒词将智能设备的语音识别功能触发，但唤醒词需要购买，且在由多台智能产品同时存在的情况下，语音唤醒词可能会导致非目标智能设备误触发。

发明内容

本发明的主要目的在于提供一种智能产品的唤醒方法、智能产品及计算机可读存储介质，旨在解决现有技术中唤醒智能设备语音识别功能过程繁琐且不准确的技术问题。

为实现上述目的，本发明提供一种智能产品的唤醒方法，其特征在于，所述智能产品的唤醒方法包括：

获取智能产品采集的视频图像，检测所述视频图像中是否存在人脸图像；

若所述视频图像中存在人脸图像，则检测所述人脸图像是否为正视人脸图像；

若所述人脸图像为正视人脸图像，则检测所述正视人脸图像中的唇部状态是否符合说话状态；

若所述正视人脸图像中的唇部状态符合说话状态，则对智能产品中预置语音采集装置采集的音频信息进行响应。

优选地，所述获取智能产品采集的视频图像，检测所述视频图像中是否存在人脸图像包括：

获取智能产品采集的视频图像，对视频图像进行预处理，得到处理后的视频图像；

检测所述处理后的视频图像中是否存在人脸图像。

优选地，所述检测所述处理后的视频图像中是否存在人脸图像包括：

将所述处理后的视频图像输入预置人脸分类器，获取预置人脸分类器输出的第一结果；

根据所述第一结果，判断所述处理后的视频图像中是否存在人脸图像。

优选地，所述若所述视频图像中存在人脸图像，则检测所述人脸图像是否为正视人脸图像包括：

若所述视频图像中存在人脸图像，则从所述视频图像中提取所述人脸图像；

将所述人脸图像输入预置头部姿态分类器，获取预置头部姿态分类器输出的第二结果；

根据所述第二结果，判断所述人脸图像是否为正视人脸图像。

优选地，所述检测所述正视人脸图像中的唇部状态是否符合说话状态包括：

若所述人脸图像为正视人脸图像，则提取所述正视人脸图像中的唇部图像；

将所述唇部图像输入预置唇部状态分类器，获取预置唇部状态分类器输出的第三结果；

根据所述第三结果，判断所述正视人脸图像中的唇部状态是否符合说话状态。

优选地，所述检测所述正视人脸图像中的唇部状态是否符合说话状态还包括：

根据所述唇部图像，得到唇部的开合度，检测所述开合度是否大于预设阈值；

若所述开合度大于预设阈值，则所述正视人脸图像中的唇部符合说话状态，若所述开合度不大于预设阈值，则所述正视人脸图像中的唇部不符合说话状态。

此外，为实现上述目的，本发明还提供一种智能产品，所述智能产品包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能产品的唤醒程序，所述智能产品的唤醒程序被所述处理器执行时实现如上所述的智能产品的唤醒方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能产品的唤醒程序，所述智能产品的唤醒程序被处理器执行时实现如上所述的智能产品的唤醒方法的步骤。

本发明中，在获取到视频图像后，检测视频图像中是否存在人脸图像，在存在人脸图像时，进一步检测人脸图像是否为正视人脸图像，当人脸图像为正视人脸图像时，进一步获取正视人脸图像中嘴唇部分的状态，若唇部状态符合说话状态，则对预置语音采集装置采集的音频信息进行语音响应。通过本发明，通过用户的面部姿态和唇部状态决定是否触发语音识别，无需通过语音唤醒词唤醒智能产品的语音识别功能，触发方式简单，简化了智能产品的语音识别过程，且通过本发明可避免多台智能设备存在时非目标智能设备的误触发，提高语音控制的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的智能产品结构示意图；

图2为本发明智能产品的唤醒方法第一实施例的流程示意图；

图3为本发明智能产品的唤醒方法一实施例的场景示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的产品结构示意图。

本发明实施例智能产品可以是音箱、电视、PC，也可以是智能手机、平板电脑、便携计算机等智能终端设备。

如图1所示，该智能产品可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，智能产品还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在智能产品移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能产品姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，智能产品还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的智能产品结构并不构成对智能产品的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及智能产品的唤醒程序。

在图1所示的智能产品中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的智能产品的唤醒程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的智能产品的唤醒程序，还执行以下操作：

检测所述处理后的视频图像中是否存在人脸图像。

参照图2，图2为本发明智能产品的唤醒方法第一实施例的流程示意图。

在一实施例中，智能产品的唤醒方法包括：

步骤S10，获取智能产品采集的视频图像，检测所述视频图像中是否存在人脸图像；

本实施例中，智能产品上设置有摄像装置，例如摄像头，用于获取摄像方向的视频图像。在获取到视频图像后，由于光照等环境因素的影响，需要对获取的视频图像进行平滑(平滑，也可叫滤波，或者合在一起叫平滑滤波，平滑滤波是低频增强的空间域滤波技术。它的目的有两类：一类是模糊；另一类是消除噪音。空间域的平滑滤波一般采用简单平均法进行，就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关，邻域越大平滑的效果越好，但邻域过大，平滑会使边缘信息损失的越大，从而使输出的图像变得模糊，因此需合理选择邻域的大小。“平滑处理”也称“模糊处理”(blurring)，是一项简单且使用频率很高的图像处理方法。平滑处理的用途很多，但最常见的是用来减少图像上的噪声或者失真。降低图像分辨率时，平滑处理是很重要的)、直方图均衡(直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法。通过这种方法，亮度可以更好地在直方图上分布。这样就可以用于增强局部的对比度而不影响整体的对比度，直方图均衡化通过有效地扩展常用的亮度来实现这种功能)、灰度化等预处理，以提高人脸检测的准确性。

在对原始视频图像进行预处理后，得到处理后的视频图像，然后将处理后的视频图像作为预置人脸分类器的输入，然后接收人脸分类器针对此次输入而输出的第一结果，根据该第一结果判定视频图像中是否存在人脸图像。本实施例中，人脸分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出，来调整参数的过程，使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到，也可以直接使用开源的人脸分类器。本发明一可选实施例中训练人脸分类器的过程如下：

步骤1、建立样本库

通过正样本(预处理后的人脸图像)和负样本(非人脸图像)对预置人脸分类器进行训练。如果选用单一的人脸样本，得到的人脸分类器的性能会比较弱，为了进一步提高人脸分类器的性能，在进行人脸图像的选取时，尽量选用多种光照条件、多种姿态的人脸，同时需要对选取的人脸图像进行平滑、直方图均衡、灰度化等预处理，得到处理后的人脸图像，将经过预处理后的人脸图像作为正样本。

步骤2、选择训练算法

本实施例中，可以采用Adaboost(是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器))、神经网络(Artificial Neural Networks，简写为ANNs也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的)、SVM(Support Vector Machine指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析)等训练算法对正样本和负样本进行训练。

通过上述步骤便能得到人脸分类器。将处理后的视频图像作为预置人脸分类器的输入，人脸分类器针对此次输入，输出第一结果，第一结果有两种可能，一是第一结果为“正样本”，则说明处理后的视频图像中存在人脸图像；另一种是第一结果为“负样本”，则说明处理后的视频图像中不存在人脸图像。

步骤S20，若所述视频图像中存在人脸图像，则检测所述人脸图像是否为正视人脸图像；

本实施例中，当人脸分类器针对输入的处理后的视频图像，输出的第一结果为“正样本”，则对视频图像中的人脸区域进行识别并提取，得到人脸图像，然后进一步判断人脸图像是否为正视人脸图像。本实施例中，将人脸图像作为预置头部姿态分类器的输入，然后接收头部姿态分类器针对此次输入而输出的第二结果，根据该第二结果判定人脸图像中是否存在正视人脸图像。本实施例中，头部姿态分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出，来调整参数的过程，使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到，也可以直接使用开源的头部姿态分类器。本发明一可选实施例中训练头部姿态分类分类器的过程如下：

步骤1、输入处于不同头部姿态的人脸图像样本(头部姿态样本尽量多样化，这样可以提高分类器的性能)，从样本中提取人脸的特征点。目前有较多的方法，比如：主动外观模型(AAM模型)，局部二值化模式(LBP)，Gabor特征，几何特征，基于流行空间的特征等。

步骤2、建立头部姿态模型

头部姿态模型的学习方法有模板匹配法和监督学习法，模板匹配法就是将需要测试的图像与已有的模板进行匹配，根据匹配结果得到头部姿态；

监督学习法就是对样本库进行学习得到模型的方法，常用的分类器有：支持向量机，贝叶斯分类器，多类线性判别分析、神经网络、偏最小二乘等，将分类器作用于头部姿态样本库，经过不断地训练并调整参数，得到一个准确率与实时性较好的头部姿态模型。

通过上述步骤便能得到头部姿态分类器。将人脸图像作为预置头部姿态分类器的输入，头部姿态分类器针对此次输入，输出第二结果，若第二结果为“正视”，则说明人脸图像为正视人脸图像；若第二结果为其他结果(例如“低头”、“仰头”、“左旋转”、“右旋转”)，则说明人脸图像不为正视人脸图像。

步骤S30，若所述人脸图像为正视人脸图像，则检测所述正视人脸图像中的唇部状态是否符合说话状态；

本实施例中，当人脸图像为正视人脸图像时，根据人脸的几何规则，获取的人脸图像的下三分之一区域的图像，即唇部图像。

本发明一可选实施例中，将唇部图像作为预置唇部状态分类器的输入，然后接收唇部状态分类器针对此次输入而输出的第三结果，根据该第三结果判定唇部状态是否符合说话状态。本实施例中，唇部状态分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出，来调整参数的过程，使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到，也可以直接使用开源的唇部状态分类器。本发明一可选实施例中训练唇部状态分类器的过程如下：

步骤1、建立不同光照、不同状态的唇部样本库(比如张嘴说话，打哈欠，闭合等)；

步骤2、采用分类算法(比如SVM，Gentle-Adaboost，神经网络)等进行训练；

步骤3、验证唇部状态分类器的性能，如果不满足需求，重新调整训练参数和样本库；直至得到满足需求的唇部状态分类器。

通过上述步骤便能得到唇部状态分类器。将唇部图像作为预置唇部状态分类器的输入，唇部状态分类器针对此次输入，输出第三结果，若第三结果为“张嘴说话”，则说明唇部符合说话状态；若第三结果为其他结果(例如“闭合”、“打哈欠”等)，则说明唇部状态不为说话状态。

本发明另一可选实施例中，将唇部图像作为预置唇部分类器的输入，然后接收唇部分类器针对此次输入而输出的结果，根据该结果判定唇部状态是否符合说话状态。本实施例中，唇部分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出，来调整参数的过程，使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到，也可以直接使用开源的唇部分类器。本发明一可选实施例中训练唇部分类器的过程如下：

步骤1、建立样本库

通过正样本(唇部图像)和负样本(非唇部图像)对预置人脸分类器进行训练。如果选用单一的唇部样本，得到的唇部分类器的性能会比较弱，为了进一步提高唇部分类器的性能，在进行唇部图像的选取时，尽量选用多种光照条件、多种姿态的唇部。

步骤2、选择训练算法

本实施例中，可以采用Adaboost(Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器))、神经网络(Artificial Neural Networks，简写为ANNs也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的)、SVM(Support VectorMachine指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析)等训练算法对正样本和负样本进行训练。

通过上述步骤便能得到唇部分类器。将唇部分类器应用到人脸区域的下三分之一区域，检测出唇部区域；根据唇部的色度特性将其分割出来。光照不均匀可能会导致分割出的唇部区域明暗不均，使检测出的唇部区域出现小洞，此问题可通过形态学的膨胀、腐蚀、开运算等操作解决，中值滤波可以去除嘴唇外部的孤立的噪声点，从而得到的唇部的开合度，若开合度大于预设阈值(根据实际情况进行设置)，则判定唇部符合说话状态。

步骤S40，若所述正视人脸图像中的唇部状态符合说话状态，则对智能产品中预置语音采集装置采集的音频信息进行响应。

参照图3，图3为本发明智能产品的唤醒方法一实施例的场景示意图。

本实施例中，预置语音采集装置例如麦克风等。预置语音采集装置可以是在检测到人脸图像或正视人脸图像时开启，用以采集音频信息，在正视人脸图像中的唇部状态符合说话状态时，智能产品对采集到的音频信息进行响应。

本实施例中，在获取到视频图像后，检测视频图像中是否存在人脸图像，在存在人脸图像时，进一步检测人脸图像是否为正视人脸图像，当人脸图像为正视人脸图像时，进一步获取正视人脸图像中嘴唇部分的状态，若唇部状态符合说话状态，则对预置语音采集装置采集的音频信息进行语音响应。通过本实施例，通过用户的面部姿态和唇部状态决定是否触发语音识别，无需通过语音唤醒词唤醒智能产品的语音识别功能，触发方式简单，简化了智能产品的语音识别过程，且通过本发明可避免多台智能设备存在时非目标智能设备的误触发，提高语音控制的准确性。

进一步的，本发明智能产品的唤醒方法一实施例中，步骤S10包括：

检测所述处理后的视频图像中是否存在人脸图像。

进一步的，本发明智能产品的唤醒方法一实施例中，检测所述处理后的视频图像中是否存在人脸图像包括：

步骤1、建立样本库

步骤2、选择训练算法

进一步的，本发明智能产品的唤醒方法一实施例中，步骤S20包括：

步骤2、建立头部姿态模型

进一步的，本发明智能产品的唤醒方法一实施例中，步骤S30包括：

进一步的，本发明智能产品的唤醒方法一实施例中，步骤S30还包括：

本发明一可选实施例中，将唇部图像作为预置唇部分类器的输入，然后接收唇部分类器针对此次输入而输出的结果，根据该结果判定唇部状态是否符合说话状态。本实施例中，唇部分类器可以是通过训练(该训练是指已知一大堆输入以及对应的输出，来调整参数的过程，使得训练后的参数的算法模型在训练集下计算时获得最小误差)得到，也可以直接使用开源的唇部分类器。本发明一可选实施例中训练唇部分类器的过程如下：

步骤1、建立样本库

步骤2、选择训练算法

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有智能产品的唤醒程序，所述智能产品的唤醒程序被处理器执行时实现如上所述的智能产品的唤醒方法的步骤。

本发明计算机可读存储介质的具体实施例与上述智能产品的唤醒方法的各个实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能产品的唤醒方法，其特征在于，所述智能产品的唤醒方法包括：

2.如权利要求1所述的智能产品的唤醒方法，其特征在于，所述获取智能产品采集的视频图像，检测所述视频图像中是否存在人脸图像包括：

检测所述处理后的视频图像中是否存在人脸图像。

3.如权利要求2所述的智能产品的唤醒方法，其特征在于，所述检测所述处理后的视频图像中是否存在人脸图像包括：

4.如权利要求1所述的智能产品的唤醒方法，其特征在于，所述若所述视频图像中存在人脸图像，则检测所述人脸图像是否为正视人脸图像包括：

5.如权利要求1所述的智能产品的唤醒方法，其特征在于，所述检测所述正视人脸图像中的唇部状态是否符合说话状态包括：

6.如权利要求1所述的智能产品的唤醒方法，其特征在于，所述检测所述正视人脸图像中的唇部状态是否符合说话状态还包括：

7.一种智能产品，其特征在于，所述智能产品包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的智能产品的唤醒程序，所述智能产品的唤醒程序被所述处理器执行时实现如下步骤：

8.如权利要求7所述的智能产品，其特征在于，所述智能产品的唤醒程序被所述处理器执行时还实现如下步骤：

检测所述处理后的视频图像中是否存在人脸图像。

9.如权利要求7所述的智能产品，其特征在于，所述智能产品的唤醒程序被所述处理器执行时还实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有智能产品的唤醒程序，所述智能产品的唤醒程序被处理器执行时实现如权利要求1至6中任一项所述的智能产品的唤醒方法的步骤。