CN109725946A

CN109725946A - 一种基于人脸检测唤醒智能设备的方法、装置及设备

Info

Publication number: CN109725946A
Application number: CN201910004948.7A
Authority: CN
Inventors: 鲁亚然
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2019-05-07
Also published as: WO2020140686A1

Abstract

本说明书公开了一种基于人脸检测唤醒智能设备的方法、装置及设备。该方法包括：采集人脸图像；提取所述人脸图像的特征；通过训练后的分类器对所述人脸图像的特征进行分类；其中，分类结果包括人脸图像中含有有效人脸图形或人脸图像中含有无效人脸图形；根据分类结果，确定唤醒智能设备的结果。

Description

一种基于人脸检测唤醒智能设备的方法、装置及设备

技术领域

本说明书涉及计算机技术领域，尤其是涉及一种基于人脸检测唤醒智能设备的方法、装置及设备。

背景技术

人机交互技术的蓬勃发展给人们带来了便捷的生活。日常生活中，越来越多用户开始使用智能设备方便自己的生活。

现有的人机交互流程一般可分为五个环节，包括：唤醒、响应、输入、理解、反馈。其中唤醒作为用户跟智能设备交互的第一个环节，尤为重要。如“天猫精灵”智能音箱接收到用户的语音输入“天猫精灵”这一唤醒词后会被唤醒。“天猫精灵”智能音箱被唤醒后，用户才可以利用这一智能设备进行音乐欣赏、听新闻等等。若“天猫精灵”智能音箱接收到用户的语音输入“播放一首歌曲”，即会播放一首歌曲；若“天猫精灵”智能音箱接收到用户的语音输入“我想听新闻”，即会播放当天新闻。然而，用户使用“天猫精灵”智能音箱进行音乐欣赏、听新闻等之前，需要语音输入唤醒词“天猫精灵”。因唤醒词是被限定之后的词语，使得用户与“天猫精灵”智能音箱之间的交互体验较差，显得及其不友好。

发明内容

本说明书实施例提供一种基于人脸检测唤醒智能设备的方法、装置及设备。解决了人机交互流程中需要通过唤醒词唤醒智能设备的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种基于人脸检测唤醒智能设备的方法，该方法包括：

采集人脸图像；

提取所述人脸图像的特征；

通过训练后的分类器对所述人脸图像的特征进行分类；其中，分类结果包括人脸图像中含有有效人脸图形或人脸图像中含有无效人脸图形；

根据分类结果，确定唤醒智能设备的结果。

优选地，上述提取所述人脸图像的特征，包括：对所述人脸图像进行卷积处理，获得人脸特征。

优选地，上述有效人脸图形包括：眨眼动作、张嘴动作、皱眉动作中的至少一种。

优选地，上述有效人脸图形还包括：完整的人脸图形或足够进行人脸检测的大部分人脸区域中的一种。

优选地，上述无效人脸图形包括：没有人脸图形或不足够进行人脸检测的人脸区域中的一种。

优选地，上述根据分类结果，确定唤醒智能设备的结果，包括：

若人脸图像中人脸图形为有效人脸图形，则唤醒智能设备；

若人脸图像中人脸图形为无效人脸图形，则不唤醒智能设备。

优选地，上述智能设备被唤醒后，发出提示信息。

本说明书实施例提供的一种基于人脸检测唤醒智能设备的装置，该装置包括：采集模块、提取模块、分类模块和确定模块；

所述采集模块，用于采集人脸图像；

所述提取模块，用于提取所述人脸图像的特征；

所述分类模块，用于通过训练后的分类器对所述人脸图像的特征进行分类；其中，分类结果包括人脸图像中含有有效人脸图形或人脸图像中含有无效人脸图形；

所述确定模块，用于根据分类结果，确定唤醒智能设备的结果。

优选地，上述提取模块，具体用于对所述人脸图像进行卷积处理，获得人脸特征。

优选地，上述所述有效人脸图形包括：眨眼动作、张嘴动作、皱眉动作中的至少一种。

优选地，上述确定模块，具体用于若人脸图像中的人脸图形为有效人脸图形，则唤醒智能设备；若人脸图像中的人脸图形为无效人脸图形，则不唤醒智能设备。

优选地，上述装置还包括发出模块，用于所述智能设备被唤醒后，发出提示信息。

本说明书实施例提供的一种基于人脸检测唤醒智能设备的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

采集人脸图像；

提取所述人脸图像的特征；

根据分类结果，确定唤醒智能设备的结果。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：与现有技术中基于唤醒词唤醒智能设备的人机交互方式相比，本技术方案中通过检测到人脸来唤醒智能设备，使得用户与智能设备之间的交互体验更加友好。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种基于人脸检测唤醒智能设备的方法的流程示意图；

图2本说明书实施例提供的基于人脸检测唤醒智能设备及后续操作流程示意图；

图3为本说明书实施例提供的一种基于人脸检测唤醒智能设备的装置的结构示意图；

图4为本说明书实施例提供的一种基于人脸检测唤醒智能设备的装置的另一结构示意图；

图5为本说明书实施例提供的一种基于人脸检测唤醒智能设备的设备的结构示意图。

具体实施方式

本说明书实施例提供一种基于人脸检测唤醒智能设备的方法、装置以及设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

现如今，智能设备在人们的日常生活中越来越普及。在一些应用场景中，要求用户对智能设备说出唤醒词唤醒智能设备后用户才能与智能设备进行后续的人机交互流程。现有技术中，使用唤醒词作为唤醒智能设备的方式，使得人机交互体验较差，并不友好，为解决现有技术中的上述问题，本说明书实施例提供了一种基于人脸检测唤醒智能设备的方法，如图1所示为该方法的流程示意图，该流程示意图包括：

步骤105，采集人脸图像；

在本说明书实施例中，以唤醒“天猫精灵”智能音箱为例。

现有的“天猫精灵”智能音箱以“天猫精灵”作为唤醒词。“天猫精灵”智能音箱接收用户的语音输入“天猫精灵，播放一首音乐”。上述语音输入中包括唤醒词“天猫精灵”，“天猫精灵”智能音箱被唤醒，随后播放一首音乐。唤醒词被限定为“天猫精灵”使得用户唤醒“天猫精灵”智能设备的体验较差，并不友好。为改进现状，在本说明书实施例中，通过检测人脸代替唤醒词“天猫精灵”。本技术方案首先对人脸图像进行采集。

步骤110，提取所述人脸图像的特征；

在本说明书实施例中，作为一种可选地实施方式，执行步骤110之前，选取大量训练样本用于训练卷积神经网络。利用训练好的卷积神经网络卷积层对步骤105中采集到的人脸图像进行卷积处理，获得人脸特征。上述人脸特征为一组特征，用一个向量表示，向量的每个维度代表一个特征，每个特征用一个特征值表示。

步骤115，通过训练后的分类器对所述人脸图像的特征进行分类；其中，分类结果包括人脸图像中含有有效人脸图形或人脸图像中含有无效人脸图形；

在本说明书实施例中，作为一种可选地实施方式，在执行步骤115之前，需要训练分类器。上述分类器包括但不限于逻辑回归、决策树、朴素贝叶斯、随机森林、GBDT(Gradient Boosting Decision Tree，梯度提升树)、深度神经网络中的一种。在训练分类器时，可以将含有有效人脸图形的人脸图像正样本的特征和不含有有效人脸图形的人脸图像负样本的特征分别赋予正样本标签和负样本标签，并将其输入到分类器中进行训练。当需要被判断的目标人脸图像的特征被输入到分类器时，分类器将目标人脸图像判定为含有有效人脸图形或将目标人脸图像判定为含有无效人脸图形。在本说明书实施例中，作为一种可选地实施方式，上述有效人脸图形包括眨眼动作、张嘴动作、皱眉动作中的至少一种。作为另一种可选地实施方式，上述有效人脸图形还包括完整的人脸图形或足够进行人脸检测的大部分人脸区域中的一种。在此需要说明的是，人脸图像中的人脸图形可以以脖子为支点左右转动。在本说明书实施例中，优选地，将人脸图像中的人脸图形转动角度在左右60度范围内的人脸图形确定为足够进行人脸检测的大部分人脸区域。作为一种可选地实施方式，上述无效人脸图形包括没有人脸图形或不足够进行人脸检测的人脸区域中的一种。在此需要说明的是，将人脸图像中的人脸图形转动角度不在左右60度范围内的人脸图形确定为不足够进行人脸检测的人脸区域。

步骤120，根据分类结果，确定唤醒智能设备的结果；

在本说明书实施例中，作为一种可选地实施方式，若步骤115中的分类结果人脸图像中人脸图形为有效人脸图形，则唤醒“天猫精灵”智能音箱；若步骤115中的分类结果人脸图像中人脸图形为无效人脸图形，则不唤醒“天猫精灵”智能音箱；

在本说明书实施例中，作为一种可选地实施方式，为进一步提高人机交互体验，“天猫精灵”智能音箱被唤醒后，发出提示信息。上述提示信息包括但不限于语音提示，如语音播报“已经睡醒”、灯光提示，如发出红光和/或振动提示，如轻微振动三次中的至少一种。

在此需要说明的是，本说明书实施例提供了如图2所示的基于人脸检测唤醒智能设备及后续操作流程示意图以说明“天猫精灵”智能音箱被唤醒后，用户与该设备的人机交互后续流程。如图2所示，当人脸满足预设的条件时，如用户双目注视“天猫精灵”智能音箱、或用户面部距离“天猫精灵”智能音箱的距离在一定范围内或其他条件，“天猫精灵”智能音箱检测到人脸，确定为用户要与“天猫精灵”智能音箱进行沟通。作为一种可选地实施方式，通过虹膜检测判断用户双目是否注视“天猫精灵”智能音箱。作为一种可选地实施方式，通过测距仪进行距离测量，判断用户面部距离“天猫精灵”智能音箱的距离是否在一定范围内。对比之前用户与“天猫精灵”智能音箱的任何交互都需要说“天猫精灵”，比如“天猫精灵，播放周华健的歌曲朋友”，才能唤醒设备播放音乐。本技术方案只需对着“天猫精灵”智能音箱说“播放周华健的歌曲朋友”即可播放歌曲“朋友”，使人机交互体验更加友好。为进一步提高用户体验，如图2所示，“天猫精灵”智能音箱响应检测到的人脸，如发出红光。用户看到红光后，“天猫精灵”智能音箱语音输入自己需要的用户体验，如“播放昨晚的新闻联播”。如图2所示，“天猫精灵”智能音箱根据输入的语音信息搜索到昨晚的新闻联播。如图2所示，“天猫精灵”智能音箱反馈信息，如开始播放昨晚的新闻联播。

与现有技术中基于唤醒词唤醒智能设备的人机交互方式相比，本说明书实施例采用的上述技术方案能够达到以下有益效果：本技术方案中通过检测到人脸来唤醒智能设备，使得用户与智能设备之间的交互体验更加友好。

图3为本说明书实施例提供的一种基于人脸检测唤醒智能设备的装置的结构示意图，该结构示意图包括：采集模块305、提取模块310、分类模块315和确定模块320；

所述采集模块305，用于采集人脸图像；

所述提取模块310，用于提取所述人脸图像的特征；

所述分类模块315，用于通过训练后的分类器对所述人脸图像的特征进行分类；其中，分类结果包括人脸图像中含有有效人脸图形或人脸图像中含有无效人脸图形；

所述确定模块320，用于根据分类结果，确定唤醒智能设备的结果。

优选地，所述提取模块310，具体用于对所述人脸图像进行卷积处理，获得人脸特征。

优选地，所述有效人脸图形包括：眨眼动作、张嘴动作、皱眉动作中的至少一种。

优选地，所述有效人脸图形还包括：完整的人脸图形或足够进行人脸检测的大部分人脸区域中的一种。

优选地，所述无效人脸图形包括：没有人脸图形或不足够进行人脸检测的人脸区域中的一种。

优选地，所述确定模块320，具体用于若人脸图像中的人脸图形为有效人脸图形，则唤醒智能设备；若人脸图像中的人脸图形为无效人脸图形，则不唤醒智能设备。

优选地，为进一步使得人机交互流程中的唤醒流程更加人性化，更加友好。本说明书实施例提供了一种基于人脸检测唤醒智能设备的装置的另一结构示意图，如图4所示，相较于图3所示的结构示意图，该结构示意图增加了发出模块405,用于所述智能设备被唤醒后，发出提示信息。

图5为本说明书实施例提供的一种基于人脸检测唤醒智能设备的设备，包括：

至少一个处理器505；以及，

与所述至少一个处理器通信连接的存储器510；其中，

采集人脸图像；

提取所述人脸图像的特征；

根据分类结果，确定唤醒智能设备的结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(trans itory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种基于人脸检测唤醒智能设备的方法，其特征在于，该方法包括：

采集人脸图像；

提取所述人脸图像的特征；

根据分类结果，确定唤醒智能设备的结果。

2.根据权利要求1所述的基于人脸检测唤醒智能设备的方法，其特征在于，所述提取所述人脸图像的特征，包括：对所述人脸图像进行卷积处理，获得人脸特征。

3.根据权利要求1所述的基于人脸检测唤醒智能设备的方法，其特征在于，所述有效人脸图形包括：眨眼动作、张嘴动作、皱眉动作中的至少一种。

4.根据权利要求3所述的基于人脸检测唤醒智能设备的方法，其特征在于，所述有效人脸图形还包括：完整的人脸图形或足够进行人脸检测的大部分人脸区域中的一种。

5.根据权利要求4所述的基于人脸检测唤醒智能设备的方法，其特征在于，所述无效人脸图形包括：没有人脸图形或不足够进行人脸检测的人脸区域中的一种。

6.根据权利要求5所述的基于人脸检测唤醒智能设备的方法，其特征在于，所述根据分类结果，确定唤醒智能设备的结果，包括：

若人脸图像中人脸图形为有效人脸图形，则唤醒智能设备；

7.根据权利要求6所述的基于人脸检测唤醒智能设备的方法，其特征在于，所述智能设备被唤醒后，发出提示信息。

8.一种基于人脸检测唤醒智能设备的装置，其特征在于，该装置包括：采集模块、提取模块、分类模块和确定模块；

所述采集模块，用于采集人脸图像；

所述提取模块，用于提取所述人脸图像的特征；

9.根据权利要求8所述的基于人脸检测唤醒智能设备的装置，其特征在于，所述提取模块，具体用于对所述人脸图像进行卷积处理，获得人脸特征。

10.根据权利要求8所述的基于人脸检测唤醒智能设备的装置，其特征在于，所述有效人脸图形包括：眨眼动作、张嘴动作、皱眉动作中的至少一种。

11.根据权利要求10所述的基于人脸检测唤醒智能设备的装置，其特征在于，所述有效人脸图形还包括：完整的人脸图形或足够进行人脸检测的大部分人脸区域中的一种。

12.根据权利要求11所述的基于人脸检测唤醒智能设备的装置，其特征在于，所述无效人脸图形包括：没有人脸图形或不足够进行人脸检测的人脸区域中的一种。

13.根据权利要求12所述的基于人脸检测唤醒智能设备的装置，其特征在于，所述确定模块，具体用于若人脸图像中的人脸图形为有效人脸图形，则唤醒智能设备；若人脸图像中的人脸图形为无效人脸图形，则不唤醒智能设备。

14.根据权利要求13所述的基于人脸检测唤醒智能设备的装置，其特征在于，所述装置还包括发出模块，用于所述智能设备被唤醒后，发出提示信息。

15.一种基于人脸检测唤醒智能设备的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

采集人脸图像；

提取所述人脸图像的特征；

根据分类结果，确定唤醒智能设备的结果。