CN110134233B

CN110134233B - 一种基于人脸识别的智能音箱唤醒方法及终端

Info

Publication number: CN110134233B
Application number: CN201910333645.XA
Authority: CN
Inventors: 卢智全; 林魁
Original assignee: Fujian Landi Commercial Equipment Co Ltd
Current assignee: Fujian Landi Commercial Equipment Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2022-07-12
Anticipated expiration: 2039-04-24
Also published as: CN110134233A

Abstract

本发明提供一种基于人脸识别的智能音箱唤醒方法及终端，通过识别当前场景中用户的人脸特征，根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；通过识别用户的人脸特征判断存在朝向所述智能音箱的用户以实现直接唤醒智能音箱进行交互，从而无需智能音箱的交互模式中的唤醒‑响应步骤，将交互模式简化为：输入‑理解‑反馈，提高了用户与智能音箱的交互效率和用户体验。

Description

一种基于人脸识别的智能音箱唤醒方法及终端

技术领域

本发明涉及智能家居领域，尤其涉及一种基于人脸识别的智能音箱唤醒方法及终端。

背景技术

随着科技的发展，智能音箱逐渐走入人们的生活中，并且给人们的生活带来了很多便利。以市面上的小米智能音箱为例，用户和小米智能音箱交互的时候需要先发出唤醒词“小爱同学”进行唤醒操作，小米智能音箱接收到唤醒词的指令后会进行反馈，之后用户才能输入功能指令进行语音交流。再比如索尼公司的一款智能音箱Xperia Hello，用户也需要先发出唤醒词“Hi Xperia”，等待Xperia Hello智能音箱响应之后才能输入功能指令进行语音交互。

无论是小米智能音箱和Xperia Hello智能音箱，还是目前现有的其他智能音箱，其交互模式为：关键词唤醒-响应-输入-理解-反馈，也就是说用户要与智能音箱进行交互，都是需要先发出唤醒词的语音指令，在用户在发出唤醒词的指令后都需要等待智能音箱反馈后才能输入功能指令，即需要用户发出唤醒词等待智能音箱反馈后用户才能开始与智能音箱进行交互，这消耗了用户的等待时间，交互效率较低，用户体验差。

发明内容

本发明所要解决的技术问题是：提供一种基于人脸识别的智能音箱唤醒方法及终端，能够提高与智能音箱的交互效率。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种基于人脸识别的智能音箱唤醒方法，包括：

S1、识别当前场景中用户的人脸特征；

S2、根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种基于人脸识别的智能音箱唤醒终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S1、识别当前场景中用户的人脸特征；

本发明的有益效果在于：识别当前场景中用户的人脸特征，根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；通过识别用户的人脸特征判断存在朝向所述智能音箱的用户以实现直接唤醒智能音箱进行交互，从而无需智能音箱的交互模式中的唤醒-响应步骤，将交互模式简化为：输入-理解-反馈，提高了用户与智能音箱的交互效率和用户体验。

附图说明

图1为本发明实施例的一种基于人脸识别的智能音箱唤醒方法流程图；

图2为本发明实施例的一种基于人脸识别的智能音箱唤醒终端结构示意图；

标号说明：

1、基于人脸识别的智能音箱唤醒终端；2、存储器；3、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，一种基于人脸识别的智能音箱唤醒方法，包括：

S1、识别当前场景中用户的人脸特征；

从上述描述可知，本发明的有益效果在于：识别当前场景中用户的人脸特征，根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；通过识别用户的人脸特征判断存在朝向所述智能音箱的用户以实现直接唤醒智能音箱进行交互，从而无需智能音箱的交互模式中的唤醒-响应步骤，将交互模式简化为：输入-理解-反馈，提高了用户与智能音箱的交互效率和用户体验。

进一步的，所述S1包括：

识别当前场景中用户的人脸特征，所述人脸特征包括五官数目、鼻子完整性和双眼相对大小，根据所述五官数目、鼻子完整性和双眼相对大小对所述人脸特征进行评分；

所述S2中根据所述人脸特征确定是否存在朝向所述智能音箱的用户包括：

根据所述人脸特征的评分结果确定是否存在朝向所述智能音箱的用户。

由上述描述可知，通过五官数目、鼻子完整性和双眼相对大小对所述人脸特征进行评分，并根据评分结果确定是否存在朝向所述智能音箱的用户，人脸特征采样较为全面和合理，提高了评分的科学性和判断的准确性。

进一步的，所述根据所述人脸特征的评分结果确定是否存在朝向所述智能音箱的用户包括：

将所述人脸特征的评分结果与预设阈值进行比较，判断所述评分结果是否大于预设阈值；

若是，则确定为存在朝向所述智能音箱的用户；

否则，则确定为不存在朝向所述智能音箱的用户。

由上述描述可知，将所述人脸特征的评分结果与预设阈值进行比较确定是否存在朝向所述智能音箱的用户，从而使判断标准更加规范化，进一步提升了判断的准确性。

进一步的，所述S1包括：

获取当前场景中用户的总数，根据所述总数识别所有用户的人脸特征，根据所述五官数目、鼻子完整性和双眼相对大小对所有用户的人脸特征进行评分；

所述S2包括：

将所述所有用户的人脸特征的评分结果分别与预设阈值进行比较，判断是否存在大于预设阈值的评分结果；

若是，则确定存在朝向所述智能音箱的用户。

由上述描述可知，当当前场景中有多个用户时，会对所有用户进行评分并与预设阈值进行比较，提高了对复杂场景的处理能力。

进一步的，所述步骤S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

若是，则将大于预设阈值的用户的评分结果相互进行比较，根据比较结果确定与所述智能音箱交互的用户。

由上述描述可知，将所有大于预设阈值的评分结果的用户相互进行比较，确定评分最高的用户进行交互，从而使智能音箱能够准确地确定交互对象。

进一步的，所述根据所述五官数目、鼻子完整性和双眼相对大小对所述人脸特征进行评分包括：

根据所述五官数目、鼻子完整性、双眼相对大小各自的评分及其对应的权重值进行加权和得到所述人脸特征的评分。

由上述描述可知，五官数目、鼻子完整性和双眼相对大小对应的权重值有所不同，进行加权和后得到最终的人脸特征的评分，进一步提高了计算人脸特征的评分的科学性。

进一步的，所述S1之前包括：

S0、预存预设用户的人脸特征并设置对应的交互优先级；

所述步骤S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

若是，则将大于预设阈值的用户的人脸特征与预存的预设用户的人脸特征进行匹配。获取匹配的用户及其对应的交互优先级，根据获取的匹配的用户及其对应的交互优先级确定与所述智能音箱交互的用户。

由上述描述可知，当有多个大于预设阈值的评分结果的用户时，会和预设用户的人脸特征进行匹配并确定交互优先级，根据交互优先级确定与智能音箱交互的用户，从而能够通过配置预设用户的交互优先级来设置与智能音箱进行优先交互的用户，提高了安全性和用户体验。

进一步的，所述S1之前包括：

S01、预存预设用户的声音信息和人脸特征；

所述S2之后还包括：

S3、接收朝向所述智能音箱的用户发送的指令；

将朝向所述智能音箱的用户的声音信息和人脸特征分别与所述预存的声音信息和人脸特征进行比对，若比对成功，则控制所述智能音箱对所述指令进行反馈。

由上述描述可知，当对智能音箱发送指令进行操作时，智能音箱会将用户的声音信息和人脸特征与预存的声音信息和人脸特征进行比对，从而判断是否对指令进行反馈，提高了交互的安全性。

进一步的，所述获取当前场景中用户的总数包括：

接收红外线传感器采集的第一图像信息，根据所述第一图像信息对摄像头发送转向指令；

接收摄像头根据所述转向指令采集的第二图像信息，根据所述第一图像信息和第二图像信息获取当前场景中用户的总数。

由上述描述可知，需要根据红外线传感器和摄像头两者采集的图像来确定当前场景中用户的总数，可以有效剔除当前场景中平面照片、弯折照片和视频等非“活体”人物，提高了获取用户总数的准确性。

进一步的，所述根据所述第一图像信息和第二图像信息获取当前场景中用户的总数包括：

根据所述第一图像信息获取第一位置信息，根据所述第二图像信息得到第二位置信息，根据所述第一位置信息和第二位置信息计算当前场景中用户的总数。

由上述描述可知，通过根据红外线传感器采集的第一图像信息中的用户的第一位置信息和摄像头采集的第二图像信息中的第二位置信息来获取用户的总数，进一步提高了用户总数获取的准确性。

进一步的，所述根据所述第一位置信息和第二位置信息计算当前场景中用户的总数包括：

分别遍历第一位置信息和第二位置信息中的用户位置信息，判断所述第一位置信息与所述第二位置信息中的用户位置信息是否匹配；

若匹配，则根据所述第一位置信息和第二位置信息中的用户位置信息计算当前场景中用户的总数。

由上述描述可知，需要第一位置信息和第二位置信息中的用户位置信息相匹配才能计算出当前场景中用户的总数，从而计算得到用户总数的准确度高，可靠性高。

进一步的，所述获取当前场景中用户的总数包括：

接收声音传感器采集的用户声音信息，根据所述用户声音信息确定用户方向信息和用户距离信息，根据所述用户方向信息和用户距离信息对摄像头发送转向指令；

接收摄像头根据所述转向指令采集的第三图像信息，根据所述第三图像信息获取当前场景中用户的总数。

由上述描述可知，通过声音传感器接收用户的声音对用户进行定位，再根据定位来驱动摄像头来采集第三图像信息以获取当前场景的用户总数，提高了摄像头获取采集第三图像信息的灵活性。

请参照图2，一种基于人脸识别的智能音箱唤醒终端，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S1、识别当前场景中用户的人脸特征；

进一步的，所述S1包括：

若是，则确定为存在朝向所述智能音箱的用户；

否则，则确定为不存在朝向所述智能音箱的用户。

进一步的，所述S1包括：

所述S2包括：

若是，则确定存在朝向所述智能音箱的用户。

进一步的，所述步骤S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

进一步的，所述S1之前包括：

S0、预存预设用户的人脸特征并设置对应的交互优先级；

所述步骤S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

进一步的，所述S1之前包括：

S01、预存预设用户的声音信息和人脸特征；

所述S2之后还包括：

S3、接收朝向所述智能音箱的用户发送的指令；

进一步的，所述获取当前场景中用户的总数包括：

上述基于人脸识别的智能音箱唤醒方法及终端可以应用于任何需要进行语音交互的场景，比如日常家居的智能音箱中、商场中自助结算平台的语音交互中、引导机器人的交互系统中等。

实施例一

请参照图1，一种基于人脸识别的智能音箱唤醒方法，包括：

S1、识别当前场景中用户的人脸特征；

其中，所述S1包括：

其中，所述根据所述五官数目、鼻子完整性和双眼相对大小对所述人脸特征进行评分包括：

其中摄像头获取第二图像信息可配合使用开源软件库OpenCV的行人检测算法，结合使用场景，将行人检测算法通过改变机器学习训练模型变更为上半身检测，分别通过遍历红外线传感器采集到的第一图像信息和摄像头采集到的第二图像信息检测到用户的位置信息，检测第一图像信息中的用户位置信息和第二图像信息中的用户位置信息是否匹配，如果匹配，则计算出当前场景中的用户的总数，调用OpenCV自带的训练好的分类器Haarcascades，通过使用该算法的各类检测器提取场景中用户的五官信息，统计出五官数目、鼻子完整性、双眼相对大小；其双眼相对大小指的是眼睛在图像处理时所占的像素点数，会根据双眼的完整性以及头部的弯曲程度有所不同，以一个具体例子为例来阐释计算用户的评分情况，设定五官数目、鼻子完整性、双眼相对大小各自的评分总分均为100分，获取到用户A的五官数目的评分为100分，其对应权重为0.5，双眼相对大小的评分为90分，其对应权重为0.3，鼻子完整性的评分为100分，其对应权重为0.2，通过加权和算出用户A的评分为：0.5*100+0.3*90+0.2*100…＝97，其中各个部分的对应权重可以根据实际情况设置，另外，可以设置误差阈值来决定评分是否有效，比如设定双眼相对大小的误差阈值为30％，如果获取到的用户双眼大小误差超过30％，则判断为用户不是朝向摄像头的，该特征评分为0，若误差小于30％，则判断朝向摄像头，误差越小评分越高，五官数目缺失则对应项评分为0，其中各部分的误差阈值都可根据用户需求来设置。

S2、根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互。比如已确定存在朝向智能音箱的用户后，该智能音箱可以直接接受用户指令而不需要发出唤醒词进行唤醒。

其中，所述S2中根据所述人脸特征确定是否存在朝向所述智能音箱的用户包括：

其中，所述根据所述人脸特征的评分结果确定是否存在朝向所述智能音箱的用户包括：

若是，则确定为存在朝向所述智能音箱的用户；

否则，则确定为不存在朝向所述智能音箱的用户。

比如预设用户阈值设定为70分，获取到用户的评分结果为80分，确定为存在朝向所述智能音箱的用户。

实施例二

请参照图1，本实施例的目的在于在当前场景存在多人朝向智能音箱的情况下，智能音箱确定交互的用户的处理方法，本实施例与实施例一的不同在于所述S1包括：

其中，所述获取当前场景中用户的总数包括：

其中，该红外线传感器可以360°无死角对当前场景进行采集图像，当感应到有用户进入到当前场景中红外线传感器预先设置的采集距离时，红外线传感器会采集第一图像信息以及用户的方向信息至处理器，处理器根据第一图像信息和用户的方向信息对摄像头发送转向指令以使摄像头采集用户信息；

其中，所述根据所述第一图像信息和第二图像信息获取当前场景中用户的总数包括：

其中，所述根据所述第一位置信息和第二位置信息计算当前场景中用户的总数包括：

可选的，其计算当前场景中用户的总数的方法还可以是：

其中，上述将声音传感器和摄像头配合使用，方便了用户与智能音箱的交互，当用户需要与智能音箱进行交互的时候，仅需要发出声音即可让智能音箱的摄像头转到用户的方向，用户在人脸识别成功后直接与智能音箱进行交互。

接收摄像头根据所述转向指令采集的第三图像信息，根据所述第三图像信息获取当前场景中用户的总数；

上述两种计算用户总数的方法可以根据实际情况来选择，其中，先通过红外线传感器或声音传感器识别人所在的位置，然后再据此发送转向指令给摄像头使摄像头转向识别到有人的方向并采集图像，由此保证了摄像头采集到的图像的有效性。

所述S2包括：

若是，则确定存在朝向所述智能音箱的用户。

所述步骤S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

若是，则将大于预设阈值的用户的评分结果相互进行比较，根据比较结果确定与所述智能音箱交互的用户，例如预设阈值设置为70分，大于预设阈值的评分结果的用户有用户A和用户B，用户A的评分结果为85分，用户B的评分结果为90分，则智能音箱通过比对用户A和用户B的评分，确定交互的用户为用户B。

另外，若当前确定与智能交互的用户在预设时间内没有进行交互，且红外线传感器检测到其他方向出现其他用户时，则红外线传感器会重新采集该用户的第一图像信息，并转动摄像头朝向该用户采集第二图像信息，以重新确定交互用户。

实施例三

请参照图1，本实施例的目的在于在当前场景中存在多人的情况，提供另一种解决方式来确定与智能音箱交互的用户，本实施例与实施例一的不同在于，所述S1之前包括：

S0、预存预设用户的人脸特征并设置对应的交互优先级；

具体的，可以预先对预存的各个预设用户的人脸划分不同的使用优先级；

所述步骤S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

若是，则将大于预设阈值的用户的人脸特征与预存的预设用户的人脸特征进行匹配。获取匹配的用户及其对应的交互优先级，根据获取的匹配的用户及其对应的交互优先级确定与所述智能音箱交互的用户，比如，判断大于预设阈值的评分结果的用户存在用户A和用户B，将用户A和用户B的人脸特征分别与预存的预设用户的人脸特征进行匹配，获取到用户A的交互优先级为一级，用户B的交互优先级为二级(交互优先级排序为一级至五级由高至低，其具体交互优先级的设定规则可以根据实际情况而定)，因而确定与智能音箱交互的用户为用户A。

实施例四

请参照图1，本实施例的目的在于如何提高与音箱交互的安全性，本实施例与实施例一的区别在于，还包括：

S01、预存预设用户的声音信息和人脸特征；

所述S2之后还包括：

S3、接收朝向所述智能音箱的用户发送的指令；

将朝向所述智能音箱的用户的声音信息和人脸特征分别与所述预存的声音信息和人脸信息进行比对，若比对成功，则控制所述智能音箱对所述指令进行反馈。

实施例五

请参照图1，本实施例具体将基于人脸识别的智能音箱唤醒方法应用至日常家居的智能音箱中，执行以下步骤：

S0、预存预设用户的人脸特征并设置对应的交互优先级；

S01、预存预设用户的声音信息和人脸特征；

S1、接收红外线传感器采集的第一图像信息，根据所述第一图像信息对摄像头发送转向指令；接收摄像头根据所述转向指令采集的第二图像信息，根据所述第一图像信息获取第一位置信息，根据所述第二图像信息得到第二位置信息，分别遍历第一位置信息和第二位置信息中的用户位置信息，判断所述第一位置信息与所述第二位置信息中的用户位置信息是否匹配；若匹配，则根据所述第一位置信息和第二位置信息中的用户位置信息计算当前场景中用户的总数；

或者是：接收声音传感器采集的用户声音信息，根据所述用户声音信息确定用户方向信息和用户距离信息，根据所述用户方向信息和用户距离信息对摄像头发送转向指令；

上述两种获取当前场景中的获取用户的总数的方法可以根据实际情况而定，优选为使用红外线传感器与摄像头配合的方法来获取用户总数。

根据所述总数识别所有用户的人脸特征，所述人脸特征包括五官数目、鼻子完整性和双眼相对大小，根据所述五官数目、鼻子完整性、双眼相对大小各自的评分及其对应的权重值进行加权和得到所述人脸特征的评分；

S2、将所述所有用户的人脸特征的评分结果分别与预设阈值进行比较，判断是否存在大于预设阈值的评分结果；

若否，则确定为不存在朝向所述智能音箱的用户；

若是，则确定存在朝向所述智能音箱的用户，直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；

进一步的，判断大于预设阈值的评分结果的用户的数目是否大于1，若是，则要确定与智能音箱交互的用户，可以有多种方式来确定：可选的，可以执行：

S21、将大于预设阈值的用户的人脸特征与预存的预设用户的人脸特征进行匹配。获取匹配的用户及其对应的交互优先级，根据获取的匹配的用户及其对应的交互优先级确定与所述智能音箱交互的用户；

另一个可选的方法是可以执行：

S22、将大于预设阈值的用户的评分结果相互进行比较，根据比较结果确定与所述智能音箱交互的用户；

可选的，也可以将上述两种方法结合，即先判断大于预设阈值的评分结果的用户中是否存在与预存用户的人脸特征匹配的用户，若存在，则执行S21，否则，执行S22；

S3、接收朝向所述智能音箱的用户发送的指令，比如该指令为：“查询明天的天气情况”；

具体的，如果在步骤S2中判断出的大于预设阈值的评分结果的用户数目只有1个，则该朝向所述智能音箱的用户即为所述确定出的大于预设阈值的评分结果的用户；若数目大于1，则朝向所述智能音箱的用户指的是确定出的与智能音箱交互的用户；

S32、控制所述智能音箱对所述指令进行反馈，比如反馈“明天多云转晴，15-25℃”；

优选的，为了提高交互的安全性，接收到朝向所述智能音箱的用户发送的指令后；

将朝向所述智能音箱的用户的声音信息和人脸特征分别与所述预存的声音信息和人脸信息进行比对，若比对成功，则控制所述智能音箱对所述指令进行反馈，否则，不进行反馈。

实施例六

请参照图1，本实施例具体将基于人脸识别的智能音箱唤醒方法应用至无人自助交易的交互系统中，执行以下步骤：

S1、识别当前场景中用户的人脸特征，所述人脸特征包括五官数目、鼻子完整性和双眼相对大小，根据所述五官数目、鼻子完整性、双眼相对大小各自的评分及其对应的权重值进行加权和得到所述人脸特征的评分；

S2、将所述人脸特征的评分结果与预设阈值进行比较，判断所述评分结果是否大于预设阈值；

若否，则确定为不存在朝向所述智能音箱的用户；

若是，则确定为存在朝向所述智能音箱的用户，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互，并执行S3；

S3、发出语音提示用户放入商品结算；

S4、接收到摄像头采集到的商品信息并对商品总价进行计算，发送商品总价的语音信息，并发送提示支付方式的语音信息；

S5、接收用户的发送的确认支付方式的语音信息，并将支付方式信息发送至结算系统；

S6、接收结算系统发送的结算完成信息，向闸门发送开启闸门指令。

实施例七

请参照图1，本实施例具体将基于人脸识别的智能音箱唤醒方法应用至引导机器人的交互系统中，执行以下步骤：

S01、预设交互距离，例如该预设的交互距离为3米，则3米内的用户可以与引导机器人进行交互；

S1、根据红外线传感器采集的第一图像信息判断在预设的交互距离内是否存在用户，若存在，则根据红外线传感器采集的第一图像和摄像头采集的第二图像获取当前场景中用户的总数，其具体获取用户总数的细节请参照实施例五，在此不多做赘述；

S2、根据所述总数识别所有用户的人脸特征，所述人脸特征包括五官数目、鼻子完整性和双眼相对大小，根据所述五官数目、鼻子完整性、双眼相对大小各自的评分及其对应的权重值进行加权和得到所述人脸特征的评分；

S3、将所有用户的评分结果与预设阈值进行比对，判断是否存在评分结果大于预设阈值的用户，若存在，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；

S4、将大于预设阈值的用户的评分结果相互比较，将评分结果最高的用户确定为交互用户；

S5、接收朝向所述用户发送的指令，比如该指令为：“查询到xx的路线”；

S6、对所述指令进行反馈，例如反馈“到xx的路线为yy”。

实施例八

请参照图2，一种基于人脸识别的智能音箱唤醒终端1，包括存储器2、处理器3及存储在存储器2上并可在处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例一中的步骤。

实施例九

请参照图2，一种基于人脸识别的智能音箱唤醒终端1，包括存储器2、处理器3及存储在存储器2上并可在处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例二中的步骤。

实施例十

请参照图2，一种基于人脸识别的智能音箱唤醒终端1，包括存储器2、处理器3及存储在存储器2上并可在处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例三中的步骤。

实施例十一

请参照图2，一种基于人脸识别的智能音箱唤醒终端1，包括存储器2、处理器3及存储在存储器2上并可在处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例四中的步骤。

综上所述，本发明提供的一种基于人脸识别的智能音箱唤醒方法及终端，通过识别当前场景中用户的人脸特征，根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；通过识别用户的人脸特征判断存在朝向所述智能音箱的用户以实现直接唤醒智能音箱进行交互，从而无需智能音箱的交互模式中的唤醒-响应步骤，将交互模式简化为：输入-理解-反馈，提高了用户与智能音箱的交互效率和用户体验；其中，通过摄像头和红外线传感器计算当前场景中的总人数，准确性高，可靠性高，通过摄像头对用户的五官数目、鼻子完整性和双眼相对大小以及对应的权重对用户进行评分，与预设阈值比较大小并选取出评分最高的用户确定为交互对象，进一步提高了确定交互对象的准确性；另外，可以通过预设用户的人脸特征和声音信息作为后续判断是否交互的条件，提高了安全性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人脸识别的智能音箱唤醒方法，其特征在于，包括：

S1、识别当前场景中用户的人脸特征；

S2、根据所述人脸特征确定是否存在朝向所述智能音箱的用户，若是，则直接唤醒所述智能音箱，以实现所述智能音箱与所述朝向所述智能音箱的用户的交互；

所述S1之前包括：

S0、预存预设用户的人脸特征并设置对应的交互优先级；

所述S1包括：

获取当前场景中用户的总数，根据所述总数识别所有用户的人脸特征，所述人脸特征包括五官数目、鼻子完整性和双眼相对大小，根据所述五官数目、鼻子完整性和双眼相对大小对所有用户的人脸特征进行评分；

所述S2包括：

若是，则确定存在朝向所述智能音箱的用户；

所述S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

若是，则将大于预设阈值的用户的评分结果相互进行比较，根据比较结果确定与所述智能音箱交互的用户；

或，将大于预设阈值的用户的人脸特征与预存的预设用户的人脸特征进行匹配；获取匹配的用户及其对应的交互优先级，根据获取的匹配的用户及其对应的交互优先级确定与所述智能音箱交互的用户。

2.根据权利要求1所述的基于人脸识别的智能音箱唤醒方法，其特征在于，所述根据所述五官数目、鼻子完整性和双眼相对大小对所述人脸特征进行评分包括：

3.根据权利要求1所述的基于人脸识别的智能音箱唤醒方法，其特征在于，所述S1之前包括：

S01、预存预设用户的声音信息和人脸特征；

所述S2之后还包括：

S3、接收朝向所述智能音箱的用户发送的指令；

4.根据权利要求1所述的基于人脸识别的智能音箱唤醒方法，其特征在于，所述获取当前场景中用户的总数包括：

5.根据权利要求4所述的基于人脸识别的智能音箱唤醒方法，其特征在于，所述根据所述第一图像信息和第二图像信息获取当前场景中用户的总数包括：

6.根据权利要求5所述的基于人脸识别的智能音箱唤醒方法，其特征在于，所述根据所述第一位置信息和第二位置信息计算当前场景中用户的总数包括：

7.根据权利要求1所述的基于人脸识别的智能音箱唤醒方法，其特征在于，所述获取当前场景中用户的总数包括：

8.一种基于人脸识别的智能音箱唤醒终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

S1、识别当前场景中用户的人脸特征；

所述S1之前包括：

S0、预存预设用户的人脸特征并设置对应的交互优先级；

所述S1包括：

所述S2包括：

若是，则确定存在朝向所述智能音箱的用户；

所述S2还包括：

判断大于预设阈值的评分结果的用户的数目是否大于1；

9.根据权利要求8所述的基于人脸识别的智能音箱唤醒终端，其特征在于，所述根据所述五官数目、鼻子完整性和双眼相对大小对所述人脸特征进行评分包括：

10.根据权利要求8所述的基于人脸识别的智能音箱唤醒终端，其特征在于，所述S1之前包括：

S01、预存预设用户的声音信息和人脸特征；

所述S2之后还包括：

S3、接收朝向所述智能音箱的用户发送的指令；

11.根据权利要求8所述的基于人脸识别的智能音箱唤醒终端，其特征在于，所述获取当前场景中用户的总数包括：

12.根据权利要求11所述的基于人脸识别的智能音箱唤醒终端，其特征在于，所述根据所述第一图像信息和第二图像信息获取当前场景中用户的总数包括：

13.根据权利要求12所述的基于人脸识别的智能音箱唤醒终端，其特征在于，所述根据所述第一位置信息和第二位置信息计算当前场景中用户的总数包括：

14.根据权利要求8所述的基于人脸识别的智能音箱唤醒终端，其特征在于，所述获取当前场景中用户的总数包括：