CN113486691A

CN113486691A - 一种智能设备及其控制方法

Info

Publication number: CN113486691A
Application number: CN202010463527.3A
Authority: CN
Inventors: 孟祥奇; 高伟杰; 高雪松; 陈维强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-10-08

Abstract

本发明公开了一种智能设备及其控制方法，该设备包括：图像采集器，被配置为：采集包括多个参考图像的视频流并传输至处理器中，所述参考图像为目标区域的图像；所述处理器，被配置为：接收所述图像采集器发送的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求；若是，对所述人脸区域进行重建，根据重建后人脸区域，确定人脸正对所述智能设备时的人眼视线角度；根据所述人眼视线角度，确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。本发明提供的智能设备及其控制方法，用以解决现有多智能设备控制中智能设备无法准确判断是否响应检测到的视觉控制指令的问题。

Description

一种智能设备及其控制方法

技术领域

本发明涉及智能设备控制领域，特别涉及一种智能设备及其控制方法。

背景技术

目前某些应用场景例如家居环境中，对各种智能设备的控制都使用了视觉控制的方法，例如手势控制系统、人脸识别系统等。在同一个应用场景中，每个智能设备都有各自的视觉检测区域，而多个智能设备之间可能存在视觉检测区域的交集。在这种情况下，当用户在该视觉检测区域中发出视觉指令时，可能导致多个智能设备同时响应，造成视觉控制准确度降低，影响体验度。

目前可采用中心式控制方案或分布式控制方案来解决上述问题。中心式控制方案是指对同一应用场景中所有的智能设备进行统一管理，当多个智能设备同时检测到视觉指令时，由应用场景中统一的服务器进行决策，确定一个特定的智能设备对视觉指令进行响应。分布式控制方案是同一应用场景中的每个智能设备分别进行判断，确定检测到的视觉指令是否需要自身进行响应。

中心式控制方法要求多设备统一管理，但是同一应用场景中的智能设备可能属于不同的制造方、型号、类型等，可能具有不同的配置或控制方法等，进行统一管理时较为复杂。

采用分布式控制方法时，各智能设备间独立控制，避免了统一管理的复杂度。但是，智能设备如何准确的判断是否响应检测到的视觉指令，是目前需要解决的技术问题。

发明内容

本发明实施例提供了一种智能设备及其控制方法，用以解决现有多智能设备控制中智能设备无法准确判断是否响应检测到的视觉控制指令的问题。

根据本发明实施例的第一方面，提供一种智能设备，包括：

图像采集器，被配置为：采集包括多个参考图像的视频流并传输至处理器中，所述参考图像为目标区域的图像；

所述处理器，被配置为：

接收所述图像采集器发送的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求；

若是，对所述人脸区域进行重建，根据重建后人脸区域，确定人脸正对所述智能设备时的人眼视线角度；

根据所述人眼视线角度，确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。

在某些实施例中，所述处理器，被配置为：

对所述人脸区域进行更高分辨率图像的重建，根据重建后人脸区域，确定人脸相对于所述智能设备的偏转角度，并对人脸区域进行人眼识别，确定人脸面对所述智能设备的视线角度；

根据所述偏转角度确定头部坐标系和摄像头坐标系之间的转换矩阵R；根据所述视线角度和转换矩阵R，确定人脸正对所述智能设备时的人眼视线角度。

在某些实施例中，所述处理器，被配置为在对所述人脸区域进行重建之前，执行如下步骤：

确定将所述人脸区域中的关键点信息，向预设标准人脸中关键点信息转换的仿射变换矩阵T，根据所述仿射变换矩阵T对所述人脸区域进行校正，得到正对智能设备的人脸区域，所述预设标准人脸正对智能设备；

对校正后得到的正对智能设备的人脸区域进行灰度归一化。

在某些实施例中，所述处理器被配置为在对所述人脸区域进行重建之前，执行如下步骤：

对所述人脸区域进行特征数据提取；

利用提取的特征数据，与注册数据库中的特征数据进行对比，进行合法性验证。

在某些实施例中，所述处理器被配置为：

计算人脸区域的特征数据与注册数据库中合法用户人脸的特征数据之间的余弦相似度；

确定所述余弦相似度超过预设阈值时，确定合法性验证成功。

在某些实施例中，所述处理器被配置为：

利用双三次差值对所述人脸区域进行预处理后，输入到超分辨率卷积神经网络SRCNN模型中进行超分辨率重建，得到重建后的更高分辨率的人脸区域。

在某些实施例中，所述处理器被配置为执行如下至少一个步骤：

将所述重建后人脸区域，输入到采用深度卷积神经网络的人脸转向检测模型，得到人脸相对于所述智能设备的偏转角度，其中，所述人脸转向检测模型通过将已标注偏转角度的人脸区域作为输入，以输出已标注的偏转角度为目标进行模型训练得到；

将从所述重建后人脸区域中裁取的人眼区域，输入到采用深度卷积神经网络的人眼转向检测模型，得到人脸面对所述智能设备的视线角度，其中，所述人眼转向检测模型通过将已标注视线角度的人眼区域作为输入，以输出已标注的视线角度为目标进行模型训练得到。

在某些实施例中，所述处理器，被配置为：

将所述参考图像输入到采用卷积神经网络CNN的人脸识别模型，得到所述人脸区域及关键点信息，其中，所述人脸识别模型通过将已标注人脸区域及关键点信息的人脸图像作为输入，以输出已标注人脸区域及关键点信息为目标进行模型训练得到。

在某些实施例中，所述处理器，被配置为：

若所述人眼视线角度的坐标中，沿摄像头坐标系的水平方向和竖直方向的两个坐标之和的绝对值小于预设阈值，确定人眼视线正对所述智能设备。

根据本发明实施例的第二方面，提供一种智能设备的控制方法，采用如本发明实施例提供的上述智能设备实现，该方法包括：

获取图像采集器采集的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求；

若是，对所述人脸区域进行重建，根据重建后人脸区域确定人脸正对所述智能设备时的人眼视线角度；

根据本发明实施例的第三方面，提供一种智能设备，包括：

人脸检测模块，用于获取图像采集器采集的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求；

视线检测模块，用于若是，对所述人脸区域进行重建，根据重建后人脸区域确定人脸正对所述智能设备时的人眼视线角度；

控制响应模块，用于根据所述人眼视线角度，确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。

根据本发明实施例的第四方面，提供一种芯片，所述芯片与智能设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现本申请实施例上述各个方面以及各个方面涉及的任一可能涉及的方法。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，该计算机存储介质存储有程序指令，当其在计算机上运行时，使得计算机执行本发明实施例上述各个方面以及各个方面涉及的任一可能涉及的方法。

根据本发明实施例的第六方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本申请实施例上述各个方面以及各个方面涉及的任一可能涉及的方法。

利用本发明提供的智能设备及其控制方法，具有以下有益效果：

本发明提供的智能设备及其控制方法，通过利用图像采集器获取智能设备的目标检测区域内的参考图像，通过人脸识别确定参考图像中包括人脸区域，并确定该人脸区域中人脸偏转符合要求时，对人脸区域进行高分辨率重建，根据重建后人脸区域进行人眼视线检测，根据检测到的人眼视线角度确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。能够解决现有多智能设备控制中智能设备无法准确判断是否响应检测到的视觉控制指令的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种多智能设备检测示意图；

图2为本发明实施例中提供的一种智能设备的结构示意图；

图3为本发明实施例中提供的一种人脸识别示意图；

图4为本发明实施例中提供的一种人脸区域校正示意图；

图5为本发明实施例中提供的一种人眼视线角度检测示意图；

图6为本发明实施例中提供的一种头部坐标系示意图；

图7为本发明实施例中提供的一种人眼视线角度计算示意图；

图8为本发明实施例中提供的一种智能设备的控制方法示意图；

图9为本发明实施例中提供的一种智能设备的控制方法的完整流程示意图；

图10为本发明实施例中提供的一种智能设备的示意图。

具体实施方式

下面将结合附图，对本发明实施例提供的一种眼型识别方法及智能设备的具体实施方式进行详细地说明。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本发明实施例提供播放语音消息的方法应用了人工智能技术，为了方便理解，下面对本发明实施例中涉及的名词进行解释：

1)深度学习：是机器学习领域中一个新的研究方向，指学习样本数据的内在规律和表示层次，通过设计建立适量的神经元计算节点和多层运算层次结构，通过网络的学习和调优，建立起从输入到输出的函数关系，从而尽可能的逼近现实的关联关系；

2)卷积神经网络(Convolutional Neural Networks，CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一；卷积神经网络具有表征学习能力，可以进行监督学习和非监督学习，具有隐含层内卷积核参数共享和层间连接稀疏的特点，因此能够以较小的计算量对格点化特征例如像素和音频等进行学习，具有稳定的学习效果。

参照图1，为本发明实施例提供的一种多智能设备检测示意图。

现有的基于视觉控制的智能设备控制方法，在应用的场景区域内进行多个智能设备的视觉控制检测时，各智能设备间独立控制，智能设备在其目标检测区域检测到视觉控制指令时，启动对应的控制响应。但是，同一场景区域内不同的智能设备可能存在视觉检测区域的重叠，例如，如图1所示，场景区域ABCD内存在智能设备1和智能设备2共两个智能设备，其中智能设备1的视觉检测区域为EBC区域，智能设备2的视觉检测区域为FGH区域，则当用户位于EBC区域与FGH区域的重叠区域即GHIJ区域并发出针对智能设备1的控制指令，而该控制指令同时能被智能设备2识别时，按照上述现有方法，智能设备1和智能设备2都会响应用户发出的控制指令，导致无法仅启动用户所指示的智能设备，降低了用户体验。

鉴于此，本发明提出一种智能设备及其控制方法，应用于多智能设备控制场景中，通过智能设备进行识别控制，确定发出视觉控制指令的用户正面注视该智能设备时，再启动对应的视觉控制响应。例如，本发明提供的方法可应用于如图1所示的同一场景区域中的各智能设备，当用户位于EBC区域与FGH区域的重叠区域即GHIJ区域并发出针对智能设备1的控制指令，而该控制指令同时能被智能设备2识别时，按照本发明提供的方法，智能设备1和智能设备2分别通过检测确定用户是否正面注视自身，确定用户正面注视自身时，认为用户针对自身发出控制并进行响应，否则不响应该用户的控制指令。通过该方法能够仅启动用户所指示的智能设备，从而提高用户体验。

本发明实施例提供一种智能设备，如图2所示，该智能设备包括：

图像采集器201，被配置为：采集包括多个参考图像的视频流并传输至处理器中，所述参考图像为目标区域的图像；

所述处理器202，被配置为：

本发明实施例中，参考图像为图像采集器采集的目标区域的图像，所述目标区域为智能设备的视觉检测区域，即智能设备在视觉控制过程进行视觉检测时所能检测到的区域。

本发明某些实施例中，根据人脸偏转的偏转角度，确定人脸偏转是否符合要求。其中，人脸偏转的偏转角度是人脸面对摄像装置时，相当于正向面对摄像装置时的偏转程度。该偏转角度可以粗略进行估计，例如可以利用识别关键点的特征进行估计，或者也可以精确确定，例如输入到网络模型进行确定，在确定的偏转角度低于设定值时认为人脸偏转符合要求；或者，在人脸区域与注册数据库中预设标准人脸的特征数据匹配成功时，认为人脸偏转符合要求，其中，注册数据库中预设标准人脸均符合人脸偏转的要求。

在本发明实施例中，上述图像采集器201位于智能设备正中。本发明实施例中的智能设备，为可进行视觉控制的智能设备，例如智能家居设备、移动终端、电视、电脑等设备，在此并不具体限定。

此外，图像采集器可以为摄像头等图像采集结构，只要能够实现图像采集即可，具体实现结构在此并不做具体限定，例如可以为摄像头、摄像机或相机等具有图像采集功能的电子设备，图像采集器可单独固定到智能设备正中，或集成到智能设备中。

本发明一些实施例中，处理器接收所述图像采集器发送的视频流，对视频流中的参考图像进行视觉控制检测，根据检测结果确定参考图像中识别到视觉控制指令时，对所述参考图像执行本发明实施例提供的智能设备的控制方法，从而确定是否响应识别到的视觉控制指令。根据检测结果确定参考图像中未识别到视觉控制指令时，进行下一参考图像的识别。其中，参考图像为所述视频流中的各帧图像。

人脸识别是指自动在给定图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别。人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸图像，在人脸检测的基础上定位出人脸面部的关键区域轮廓，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。

本发明一些实施例中，处理器接收所述图像采集器发送的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，具体可以采用以下方式进行：

将所述参考图像输入到采用卷积神经网络CNN的人脸识别模型中，得到模型输出的人脸区域及关键点信息。其中，所述人脸识别模型通过将已标注人脸区域及关键点信息的人脸图像作为输入，以输出已标注人脸区域及关键点信息为目标进行模型训练得到。

上述已标注人脸区域包括标注的人脸区域及对应的位置信息与置信度，已标注的关键点信息为所述人脸区域中的关键点信息。上述人脸识别模型通过预先训练得到。进行模型训练时，将上述人脸图像作为训练样本输入到采用卷积神经网络的网络模型，将网络模型输出的人脸区域及关键点信息与已标注的人脸区域及关键点信息进行对比，根据对比结果调整网络模型的模型参数，通过多次训练调整得到人脸识别模型。

参照图3，为本发明实施例提供的一种人脸识别示意图。

本发明一些实施例中，人脸识别模型对参考图像进行人脸识别后可以输出例如图3所示的识别结果，通过矩形框标注识别到的人脸区域，并在矩形框周围标记矩形框中识别的人脸区域属于人脸的置信度，确定该置信度超过预设阈值时，确定识别到人脸区域。

本发明一些实施例中，关键点信息包括人脸区域中左右眼的眼球中心、鼻尖以及左右嘴角对应的关键点信息。

本发明一些实施例中，智能设备对参考图像进行人脸识别时，若在参考图像中未识别到人脸区域，则确定不进行人眼视线检测，直接进行下一参考图像的人脸识别。

本发明一些实施例中，智能设备对参考图像进行人脸识别，得到人脸区域及关键点信息后，根据关键点信息对人脸区域进行校正。具体的，处理器被配置为：确定将所述人脸区域中的关键点信息，向预设标准人脸中关键点信息转换的仿射变换矩阵T，根据所述仿射变换矩阵T对所述人脸区域进行校正，得到正对智能设备的人脸区域，所述预设标准人脸正对智能设备；对校正后得到的正对智能设备的人脸区域进行灰度归一化。

上述预设标准人脸为注册数据库中预先存储的正对智能设备的人脸图像。

上述通过人脸识别确定出图像中的人脸区域后，为了提升识别的稳定性和准确率，可以对人脸图像做几何归一化和灰度归一化。几何归一化是指根据人脸识别结果将图像中识别的人脸区域变换到某一位置和大小，将识别的人脸区域的图像与注册数据库中登记的预设标准人脸统一固定位置和大小。灰度归一化是指对图像进行光照补偿等处理，将识别的人脸区域的图像与注册数据库中登记的预设标准人脸统一色彩，减少光照变化带来的影响。

参照图4，为本发明实施例提供的一种人脸区域校正示意图。如图所示，分别确定人脸区域对应的图像中关键点信息，及预设标准人脸的图像中的关键点信息，计算人脸区域的关键点向预设标准人脸的关键点转换的仿射变换矩阵T，基于仿射变换矩阵T矫正人脸区域，得到如图所述正对智能设备的人脸区域，然后对该人脸区域进行灰度归一化，得到校正后的人脸区域。

本发明一些实施例中，处理器对人脸区域进行校正后，被配置为，对所述人脸区域进行特征数据提取；利用提取的特征数据，与注册数据库中的特征数据进行对比，进行合法性验证。具体的，处理器被配置为，计算人脸区域的特征数据与注册数据库中合法用户人脸的特征数据之间的余弦相似度；确定所述余弦相似度超过预设阈值时，确定合法性验证成功。

本发明实施例中采用核实对比模式进行合法性验证，即，将待验证人脸区域与注册数据库中已登记的合法用户人脸图像依次进行对比，确定人脸区域与注册数据库中预先登记的用户人脸图像匹配时，确定合法性验证成功。根据如下公式计算人脸区域的特征数据与注册数据库中合法用户人脸的特征数据之间的余弦相似度：

其中，Similarity为余弦相似度，α表示特征向量间夹角，A、B分别为人脸区域的特征数据(特征向量)和注册数据库中合法用户人脸的特征数据(特征向量)，A_i和B_i分别为特征向量A和B的分量。

确定上述计算的余弦相似度超过预设阈值时，说明人脸区域与注册数据库中合法用户人脸对比认证成功，则确定合法性验证成功。上述注册数据库中合法用户人脸为标准的正面人脸图像，即正对智能设备的图像。确定合法性验证成功时，即为，人脸区域的特征数据与注册数据库中的特征数据匹配成功，确定人脸区域中人脸偏转符合要求。

确定上述计算的余弦相似度未超过预设阈值时，确定合法性验证失败，则确定不进行人眼视线检测，不启动视觉控制响应，直接进行下一参考图像的识别。

本发明实施例中，上述注册数据库中合法用户人脸为标准的正面人脸图像，因此，可以选择注册数据库中的合法用户人脸作为上述的预设标准人脸，用于进行人脸区域的校正。

目前智能设备的图像采集装置采集的图像数据像素较低，而人眼部分像素更低，低像素的人眼区域无法识别人眼瞳孔，也就无法判断人眼视线。因此使用图像超分辨率增强，提高人脸部分的像素值。图像的超分辨率重建技术指的是将给定的低分辨率图像通过特定的算法转换为相应的高分辨率图像。

本发明一些实施例中，处理器被配置为，利用双三次差值对所述人脸区域进行预处理后，输入到超分辨率卷积神经网络SRCNN模型中进行超分辨率重建，得到重建后的更高分辨率的人脸区域。

上述确定合法性验证成功，即确定人脸区域中人脸偏转符合要求后，利用双三次差值对上述人脸识别模型得到的未校正的人脸区域进行预处理，将预处理后的人脸区域输入到SRCNN模型中进行超分辨率重建，得到重建后的更高分辨率的人脸区域，利用重建后的人脸区域进行人眼视线角度的检测。

上述双三次差值技术进行图像预处理及利用SRCNN模型进行图像超分辨率重建时，具体实施方式可采用现有技术，此处不再详述。

人眼视线角度可以由头部姿态角度和人眼转向角度组合得到，本实施例中通过预先训练的人脸转向检测模型对头部姿态角度进行检测，通过预先训练的人眼转向检测模型对人眼转向角度进行检测，进而组合确定人眼视线角度。

本发明一些实施例中，处理器被配置为：进行头部姿态角度检测时，将所述重建后人脸区域，输入到采用深度卷积神经网络的人脸转向检测模型，得到人脸相对于所述智能设备的偏转角度，其中，所述人脸转向检测模型通过将已标注偏转角度的人脸区域作为输入，以输出已标注的偏转角度为目标进行模型训练得到；其中，所述人脸相对于所述智能设备的偏转角度即为头部姿态角度。

进行人眼转向角度检测时，将从所述重建后人脸区域中裁取的人眼区域，输入到采用深度卷积神经网络的人眼转向检测模型，得到人脸面对所述智能设备的视线角度，其中，所述人眼转向检测模型通过将已标注视线角度的人眼区域作为输入，以输出已标注的视线角度为目标进行模型训练得到。其中，所述人脸面对所述智能设备的视线角度即为人眼转向角度。

参照图5，为本发明实施例提供的一种人眼视线角度检测示意图。

如图所示，上述通过模型训练得到人脸转向检测模型时，将预先获取的已标注偏转角度的人脸区域作为训练样本输入到采用深度卷积神经网络的网络模型，将网络模型的输出的人脸相对于所述智能设备的偏转角度与所述已标注偏转角度进行对比，根据对比结果调整网络模型的模型参数，通过多次训练调整得到人脸转向检测模型。

上述通过模型训练得到人眼转向检测模型时，将预先获取的已标注视线角度的人眼区域作为训练样本输入到采用深度卷积神经网络的网络模型，将网络模型的输出的人脸面对所述智能设备的视线角度与所述已标注视线角度进行对比，根据对比结果调整网络模型的模型参数，通过多次训练调整得到人眼转向检测模型。

如图5所示，在对人脸区域进行人眼视线检测时，利用上述人脸转向检测模型和人眼转向检测模型分别确定人脸相对于所述智能设备的偏转角度和人脸面对所述智能设备的视线角度，根据所述偏转角度和视线角度进行视线角度变换，确定对应的人眼视线角度。

本发明一些实施例中，如图5所示，可以将上述人脸转向检测模型与人眼转向检测模型组合作为一个人眼视线检测模型，人脸转向检测模型与人眼转向检测模型对应的网络分别作为人眼视线检测模型的一个子网络，将人脸区域和从中裁取的人眼区域分别输入对应的子网络，两个子网络分别输出上述偏转角度和视线角度，然后根据该偏转角度和视线角度确定人眼视线角度。

本发明一些实施例中，处理器被配置为对人脸区域进行更高分辨率图像的重建，根据重建后人脸区域，确定人脸相对于所述智能设备的偏转角度，并对人脸区域进行人眼识别，确定人脸面对所述智能设备的视线角度；根据所述偏转角度确定头部坐标系和摄像头坐标系之间的转换矩阵R；根据所述视线角度和转换矩阵R，确定人脸正对所述智能设备时的人眼视线角度。

参照图6，为本发明实施提供的一种头部坐标系示意图。如图所示，头部坐标系的三个方向坐标分别为偏航角(Yaw)坐标、俯仰角(Pitch)坐标及翻滚角(Roll)坐标。其中，滚角(Roll)坐标可以通过几何归一化调整为标准人脸角度，偏航角(Yaw)坐标、俯仰角(Pitch)坐标通过上述人脸转向模型确定，即人脸相对于智能设备的偏转角度，表示为(y，p)，y为该偏转角度的偏航角坐标，p为该偏转角度的俯仰角坐标。

根据上述确定的人脸相对于智能设备的偏转角度，通过对图像中人脸关键点匹配，确定该偏转角度所在头部坐标系与摄像头坐标系之间的转换矩阵R。

参照图7，为本发明实施提供的一种人眼视线角度计算示意图。如图所示，上述人眼转向检测模型确定的人脸面对智能设备的视线角度为向量g，Z_h、X_h、Y_h分别为头部坐标系对应翻滚角、俯仰角、偏航角的坐标轴，O为原点，图中Z_g为与Z_h轴平行且穿过人眼眼球中心关键点的辅助线，图中G_g为向量g在X_hOZ_h平面的投影。假设向量g的长度为1，则根据如下公式确定人脸面对智能设备的视线角度在头部坐标系中对应的坐标：

其中，g_h为人脸面对智能设备的视线角度在头部坐标系中对应的向量，θ为G_g与Z_g辅助线的夹角，

为g与G_g的夹角，

为g_h的坐标。

确定人脸面对智能设备的视线角度在头部坐标系中对应的坐标后，根据该坐标及上述确定的转换矩阵R确定人脸正对所述智能设备时的人眼视线角度：

g_c＝Rg_h

其中，g_c为人脸正对所述智能设备时的人眼视线角度，可具体表示为(x_c，y_c，z_c)，x_c，y_c，z_c分别为该人眼视线角度在摄像头坐标系下的三个坐标。

本发明一些实施例中，处理器被配置为，若所述人眼视线角度的坐标中，沿摄像头坐标系的水平方向和竖直方向的两个坐标之和的绝对值小于预设阈值，确定人眼视线正对所述智能设备。

具体的，上述确定的人眼视线坐标满足如下公式时，确定人眼视线正对所述智能设备，否则，确定人眼视线未正对所述智能设备：

其中，x_c，y_c分别为上述确定的人眼视线角度沿摄像头坐标系的水平方向和竖直方向的两个坐标，G为上述预设阈值。

确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。

确定人眼视线未正对所述智能设备时，不启动与所述人脸对应的视觉控制响应，直接进行下一参考图像的识别。

上述本发明实施例提供的智能设备，利用图像采集器获取智能设备的目标检测区域内的参考图像，通过人脸识别确定参考图像中包括人脸区域，并确定该人脸区域中人脸偏转符合要求时，对人脸区域进行高分辨率重建，根据重建后人脸区域进行人眼视线检测，根据检测到的人眼视线角度确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。能够在智能设备检测到用户发送的视觉控制指令时，确定该视觉控制指令是否是针对自身的控制指令，并在确定为针对自身的控制指令时进行相应的响应。解决了现有多智能设备控制中智能设备无法准确判断是否响应检测到的视觉控制指令的问题。

本发明实施例提供一种智能设备的控制方法，应用于本发明实施例提供的智能设备。如图8所示，该方法包括：

步骤S801，获取图像采集器采集的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求；

本发明一些实施例中，通过图像采集器采集智能设备目标区域内的参考图像得到视频流，并传输至处理器中，通过处理器接收图像采集器发送的视频流，提取其中的参考图像，对所述参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求。

本发明一些实施例中，将所述参考图像输入到采用卷积神经网络CNN的人脸识别模型，得到所述人脸区域及关键点信息，其中，所述人脸识别模型通过将已标注人脸区域及关键点信息的人脸图像作为输入，以输出已标注人脸区域及关键点信息为目标进行模型训练得到。

本发明一些实施例中，确定人脸区域及关键点信息后，确定将所述人脸区域中的关键点信息，向预设标准人脸中关键点信息转换的仿射变换矩阵T，根据所述仿射变换矩阵T对所述人脸区域进行校正，得到正对智能设备的人脸区域，所述预设标准人脸正对智能设备；对校正后得到的正对智能设备的人脸区域进行灰度归一化。

本发明一些实施例中，通过对所述人脸区域进行特征数据提取；并利用提取的特征数据，与注册数据库中的特征数据进行对比，进行合法性验证。

本发明一些实施例中，计算人脸区域的特征数据与注册数据库中合法用户人脸的特征数据之间的余弦相似度；确定所述余弦相似度超过预设阈值时，确定合法性验证成功。

确定合法性验证成功时，确定人脸偏转符合要求，否则，确定人脸偏转不符合要求，并进行下一参考图像的识别。

上述方法的具体实施步骤与上述实施例中相同，此处不再详述。

步骤S802，若是，对所述人脸区域进行重建，根据重建后人脸区域确定人脸正对所述智能设备时的人眼视线角度；

本发明一些实施例中，根据上述步骤确定人脸偏转符合要求时，利用双三次差值对所述人脸区域进行预处理后，输入到超分辨率卷积神经网络SRCNN模型中进行超分辨率重建，得到重建后的更高分辨率的人脸区域。

确定人脸偏转不符合要求时，进行下一参考图像的识别。

本发明一些实施例中，对所述人脸区域进行更高分辨率图像的重建，根据重建后人脸区域，确定人脸相对于所述智能设备的偏转角度，并对人脸区域进行人眼识别，确定人脸面对所述智能设备的视线角度；根据所述偏转角度确定头部坐标系和摄像头坐标系之间的转换矩阵R；根据所述视线角度和转换矩阵R，确定人脸正对所述智能设备时的人眼视线角度。

本发明一些实施例中，将所述重建后人脸区域，输入到采用深度卷积神经网络的人脸转向检测模型，得到人脸相对于所述智能设备的偏转角度，其中，所述人脸转向检测模型通过将已标注偏转角度的人脸区域作为输入，以输出已标注的偏转角度为目标进行模型训练得到；

步骤S803，根据所述人眼视线角度，确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。

本发明一些实施例中，若所述人眼视线角度的坐标中，沿摄像头坐标系的水平方向和竖直方向的两个坐标之和的绝对值小于预设阈值，确定人眼视线正对所述智能设备。

由于本发明实施例中上述智能设备的控制方法的原理与本发明实施例的智能设备的配置原理相同，因此该智能设备的控制方法的具体实施可以参见上述智能设备的实施例，重复之处不再赘述。

参照图9，为本发明实施例提供的一种智能设备的控制方法的完整流程示意图。如图所示，该方法流程包括：

步骤S901，图像采集器采集包括多个参考图像的视频流并传输至处理器中，所述参考图像为目标区域的图像；

步骤S902，处理器确定识别到视觉控制指令时，对参考图像进行人脸识别，得到人脸区域，并进行关键点检测，确定人脸区域的关键点信息；

步骤S903，确定人脸区域的关键点信息向预设标准人脸中关键点信息转换的仿射变换矩阵T，根据矩阵T对人脸区域进行校正及灰度归一化；

步骤S904，提取所述人脸区域的特征数据，并与注册数据库中的特征数据进行对比，进行合法性验证；

步骤S905，确定合法性验证成功时，利用双三次差值对所述人脸区域进行预处理，并利用SRCNN模型进行超分辨率重建，得到重建后的更高分辨率的人脸区域；

确定合法性验证失败时，进行下一参考图像的识别。

步骤S906，将所述重建后人脸区域，输入到采用深度卷积神经网络的人脸转向检测模型，得到人脸相对于所述智能设备的偏转角度；

步骤S907，将从所述重建后人脸区域中裁取的人眼区域，输入到采用深度卷积神经网络的人眼转向检测模型，得到人脸面对所述智能设备的视线角度；

步骤S908，根据所述偏转角度确定头部坐标系和摄像头坐标系之间的转换矩阵R；根据所述视线角度和转换矩阵R，确定人脸正对所述智能设备时的人眼视线角度；

步骤S909，确定所述人眼视线角度的坐标中，沿摄像头坐标系的水平方向和竖直方向的两个坐标之和的绝对值小于预设阈值，确定人眼视线正对所述智能设备；

确定人眼未正对智能设备时，进行下一参考图像的识别。

步骤S910，确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。

其中，关于上述各步骤中的各参数与前述智能设备的实施例中对应参数相同，此处不再赘述。关于上述各步骤的具体实施方式，可以参见前述智能设备的具体实施例，此处不再重述。

基于同一发明构思，本发明实施例提供了一种智能设备，如图10所示，包括：

人脸检测模块1001，用于获取图像采集器采集的视频流，对所述视频流中的参考图像进行人脸识别得到人脸区域，并确定人脸偏转是否符合要求；

视线检测模块1002，用于若是，对所述人脸区域进行重建，根据重建后人脸区域确定人脸正对所述智能设备时的人眼视线角度；

控制响应模块1003，用于根据所述人眼视线角度，确定人眼视线正对所述智能设备时，启动与所述人脸对应的视觉控制响应。

本发明实施例还提供一种计算机可读存储介质，包括指令，当其在智能设备上运行时，使得智能设备执行上述实施例提供的智能设备的控制方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种智能设备，其特征在于，包括：

所述处理器，被配置为：

2.根据权利要求1所述的智能设备，其特征在于，所述处理器被配置为：

3.根据权利要求1或2所述的智能设备，其特征在于，所述处理器，被配置为在对所述人脸区域进行重建之前，执行如下步骤：

对校正后得到的正对智能设备的人脸区域进行灰度归一化。

4.根据权利要求1所述的智能设备，其特征在于，所述处理器被配置为在对所述人脸区域进行重建之前，执行如下步骤：

对所述人脸区域进行特征数据提取；

5.根据权利要求4所述的智能设备，其特征在于，所述处理器被配置为：

6.根据权利要求1或2所述的智能设备，其特征在于，所述处理器被配置为：

7.根据权利要求2所述的智能设备，其特征在于，所述处理器被配置为执行如下至少一个步骤：

8.根据权利要求3所述的智能设备，其特征在于，所述处理器，被配置为：

9.根据权利要求1所述的智能设备，其特征在于，所述处理器，被配置为：

10.一种智能设备的控制方法，其特征在于，包括：