CN116311650A

CN116311650A - 基于智能门禁的视线跟踪与手势识别的人机交互方法

Info

Publication number: CN116311650A
Application number: CN202310281824.XA
Authority: CN
Inventors: 过逸柯; 陆弘杰; 李俊莱; 应砚丞; 顾宇杰; 季宇晨; 尹艺铮; 黎妙言; 邬昕燃; 孙响; 俞承吟
Original assignee: Ningbo University of Technology
Current assignee: Ningbo University of Technology
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-23

Abstract

本发明涉及人机交互领域，揭露一种基于智能门禁的视线跟踪与手势识别的人机交互方法，所述方法包括：进行人体检测，得到检测人体，判断是否开启智能门禁的视线跟踪功能或智能门禁的手势识别功能；采集检测人体的待跟踪图像，提取待跟踪图像中的人脸关键点，分割待跟踪图像中的待跟踪视线与待跟踪人脸；识别待跟踪视线的方向，识别待跟踪人脸的方向，确定检测人体的总视线方向，进行人机视线交互；提取智能门禁中的静态手势，检测是否需要构建智能门禁的动态手势，构建智能门禁的动态手势，进行人机手势交互，得到人机手势交互结果；将人机视线交互结果与人机手势交互结果作为最终人机交互结果。本发明可以提升智能门禁的人机交互方式多样性。

Description

基于智能门禁的视线跟踪与手势识别的人机交互方法

技术领域

本发明涉及人机交互领域，尤其涉及一种基于智能门禁的视线跟踪与手势识别的人机交互方法。

背景技术

视线跟踪技术有助于确定人在数字屏幕上的注视位置，反馈眨眼频率以及瞳孔对不同刺激的反应，它有助于确定一个人的视线方向，是否困倦，判断他的眼神焦点等；手势识别技术是利用摄像头等感应元件，捕捉不同的手势，根据手势的形状等，用芯片运算识别，能智能识别出相应的指令。

目前，现有的门禁通过人脸识别实现、或者是指纹识别、或者是手势识别、或者是机械解锁、或者是磁体感应(拿个钥匙在门禁前进行感应解锁)，但这些门禁解锁技术通常是单独配置在智能门禁中，例如小区大门门禁智能进行人脸识别与磁体感应，不能同时进行指纹识别与手势识别，或者如房屋门禁，只能进行指纹识别与机械开锁，而不能同时进行人脸识别进行开锁。因此，由于不能多个解锁方式联合使用，导致智能门禁的人机交互方式较为单一。

发明内容

为了解决上述问题，本发明提供了一种基于智能门禁的视线跟踪与手势识别的人机交互方法，可以多个解锁方式联合使用，从而提升智能门禁的人机交互方式多样性。

第一方面，本发明提供了一种基于智能门禁的视线跟踪与手势识别的人机交互方法，包括：

利用智能门禁进行人体检测，得到检测人体，基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能；

在开启所述智能门禁的视线跟踪功能时，采集所述检测人体的待跟踪图像，提取所述待跟踪图像中的人脸关键点，基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸；

识别所述待跟踪视线的方向，得到待跟踪视线方向，识别所述待跟踪人脸的方向，得到待跟踪人脸方向，根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，利用所述总视线方向进行人机视线交互，得到人机视线交互结果；

在开启所述智能门禁的手势识别功能时，提取所述智能门禁中的静态手势，利用所述静态手势检测是否需要构建所述智能门禁的动态手势，在需要构建动态手势时，构建所述智能门禁的动态手势，并利用所述动态手势进行人机手势交互，得到人机手势交互结果；

将所述人机视线交互结果与所述人机手势交互结果作为所述智能门禁的最终人机交互结果。

在第一方面的一种可能实现方式中，所述提取所述待跟踪图像中的人脸关键点，包括：

对所述待跟踪图像进行多尺度缩放，得到多层图像金字塔；

对所述多层图像金字塔进行多层卷积处理，得到多层卷积特征图；

对所述多层卷积特征图进行特征向量映射，得到卷积特征向量；

基于所述卷积特征向量，对所述多层图像金字塔进行人脸关键点定位，得到人脸关键点位置；

从所述人脸关键点位置中提取所述人脸关键点。

在第一方面的一种可能实现方式中，所述基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸，包括：

从所述人脸关键点中识别人眼关键点；

提取所述人眼关键点对应的人眼回归框；

将所述人眼回归框在所述待跟踪图像中对应的图像区域作为所述待跟踪视线；

基于所述人脸关键点，从所述待跟踪图像中划分人脸区域，并将所述人脸区域作为所述待跟踪人脸。

在第一方面的一种可能实现方式中，所述识别所述待跟踪视线的方向，得到待跟踪视线方向，包括：

划分所述待跟踪视线中的左眼视线与右眼视线；

对所述左眼视线进行视线方向识别，得到左眼视线方向，并对所述右眼视线进行视线方向识别，得到右眼视线方向；

对所述左眼视线方向与所述右眼视线方向进行视觉均衡处理，得到所述待跟踪视线方向。

在第一方面的一种可能实现方式中，所述对所述左眼视线进行视线方向识别，得到左眼视线方向，包括：

对所述待跟踪视线进行灰度图像分离，得到分离灰度图像，并划分所述分离灰度图像中的第一灰度图像、第二灰度图像与第三灰度图像；

对所述第一灰度图像与所述第二灰度图像进行图像多层卷积，得到多层卷积图像；

利用下述公式对所述第三灰度图像进行特征图映射，得到映射特征图：

其中，F表示所述映射特征图，H表示所述第三灰度图像的深度，W表示所述第三灰度图像的宽度，F_i,j,k表示所述第三灰度图像，i,j,k表示所述第三灰度图像中像素的坐标；

合并所述多层卷积图像与所述映射特征图，得到合并特征图；

对所述合并特征图进行向量乱序映射，得到所述待跟踪视线方向。

在第一方面的一种可能实现方式中，所述对所述合并特征图进行向量乱序映射，得到所述待跟踪视线方向，包括：

对所述合并特征图进行第一特征分组，得到第一分组特征；

转换所述第一分组特征的维度，得到转换维度特征图；

对所述转换维度特征图进行转置变换，得到转置特征图；

对所述转置特征图进行第二特征分组，得到第二分组特征；

拼接所述第二分组特征，得到拼接分析特征；

对所述拼接分组特征进行视线方向分类，得到所述待跟踪视线方向。

在第一方面的一种可能实现方式中，所述对所述左眼视线方向与所述右眼视线方向进行视觉均衡处理，得到所述待跟踪视线方向，包括：

从所述左眼视线方向与所述右眼视线方向中查询左眼注视偏角与右眼注视偏角；

利用下述公式对所述左眼注视偏角与所述右眼注视偏角进行视觉均衡处理，得到视觉均衡偏角：

θ＝(θ_l+θ_r)/2

其中，θ表示所述视觉均衡偏角，θ_l表示所述左眼注视偏角，θ_r表示所述右眼注视偏角；

从所述视觉均衡偏角查询所述待跟踪视线方向。

在第一方面的一种可能实现方式中，所述根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，包括：

从所述待跟踪视线方向与所述待跟踪人脸方向中查询待跟踪视线偏角与待跟踪人脸偏角；

基于所述待跟踪视线偏角与所述待跟踪人脸偏角，利用下述公式计算所述检测人体的总视线偏角：

θ_总＝w₁θ₁+w₂θ₂,(w₁＞w₂)

其中，θ_总表示所述总视线偏角，θ₁表示所述待跟踪视线偏角，w₁表示所述待跟踪视线偏角的权重，θ₂表示所述待跟踪人脸偏角，w₂表示所述待跟踪人脸偏角的权重；

从所述总视线偏角中查询所述总视线方向。

在第一方面的一种可能实现方式中，所述利用所述总视线方向进行人机视线交互，得到人机视线交互结果，包括：

获取所述智能门禁，在所述总视线方向符合预设方向时，对所述总视线方向对应的人眼进行瞳孔特征提取，得到瞳孔特征；

计算所述瞳孔特征与所述智能门禁对应的云端数据库中的瞳孔特征之间的瞳孔相似度；

基于所述瞳孔相似度，确定所述人机视线交互结果。

在第一方面的一种可能实现方式中，所述利用所述动态手势进行人机手势交互，得到人机手势交互结果，包括：

将所述动态手势发送至所述智能门禁对应的房屋主人；

在所述房屋主人处接收所述动态手势，得到接收手势；

利用所述接收手势在所述智能门禁对应的手势填充网格中进行手势绘制，得到绘制手势；

将所述绘制手势与所述动态手势进行一致性校验；

在所述绘制手势与所述动态手势的一致性校验成功时，将人机手势交互成功作为所述人机手势交互结果；

在所述绘制手势与所述动态手势的一致性校验失败时，将人机手势交互失败作为所述人机手势交互结果。

第二方面，本发明提供了一种基于智能门禁的视线跟踪与手势识别的人机交互装置，所述装置包括：

开启判断模块，用于利用智能门禁进行人体检测，得到检测人体，基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能；

图像分割模块，用于在开启所述智能门禁的视线跟踪功能时，采集所述检测人体的待跟踪图像，提取所述待跟踪图像中的人脸关键点，基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸；

视线交互模块，用于识别所述待跟踪视线的方向，得到待跟踪视线方向，识别所述待跟踪人脸的方向，得到待跟踪人脸方向，根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，利用所述总视线方向进行人机视线交互，得到人机视线交互结果；

手势交互模块，用于在开启所述智能门禁的手势识别功能时，提取所述智能门禁中的静态手势，利用所述静态手势检测是否需要构建所述智能门禁的动态手势，在需要构建动态手势时，构建所述智能门禁的动态手势，并利用所述动态手势进行人机手势交互，得到人机手势交互结果；

结果确定模块，用于将所述人机视线交互结果与所述人机手势交互结果作为所述智能门禁的最终人机交互结果。

第三方面，本发明提供一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，以使所述至少一个处理器能够执行如上述第一方面中任意一项所述的基于智能门禁的视线跟踪与手势识别的人机交互方法。

第四方面，本发明提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任意一项所述的基于智能门禁的视线跟踪与手势识别的人机交互方法。

与现有技术相比，本方案的技术原理及有益效果在于：

本发明实施例首先通过利用智能门禁进行人体检测，以用于检测智能门禁的门外是否有人经过，进一步地，本发明实施例通过基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能，以用于在复杂场景下人体不能通过视线跟踪功能解锁则可以选择手势识别功能进行解锁，或者人体不能通过手势识别功能解锁则可以选择视线跟踪功能进行解锁；其次，本发明实施例通过采集所述检测人体的待跟踪图像，以用于采集包含人脸的图像，便于后续进行人脸中视线的跟踪，进一步地，本发明实施例通过提取所述待跟踪图像中的人脸关键点，以用于基于所述人脸关键点查找所述待跟踪图像中的人眼部位与人脸部位，排除无关部位；进一步地，本发明实施例通过识别所述待跟踪视线的方向，以用于利用视线跟踪技术中的基于人眼角度与头部姿态的方式确定人眼视线跟踪方向，从而实现视线跟踪，进一步地，本发明实施例通过识别所述待跟踪人脸的方向，以用于获取图像中人脸头部在发生转向时的方向，进一步地，本发明实施例通过利用所述总视线方向进行人机视线交互，以用于在所述总视线方向注视智能门禁时开启瞳孔识别功能，实现瞳孔解锁，这样可以减少在人体未注视智能门禁时就开启瞳孔识别功能导致的瞳孔识别准确率较低的情况；进一步地，本发明实施例通过提取所述智能门禁中的静态手势，以用于从所述智能门禁对应的云端数据库中查询房屋主人事先录入的可以解锁门禁的手势，进一步地，本发明实施例通过利用所述静态手势检测是否需要构建所述智能门禁的动态手势，以用于在人体进行门禁解锁时若解锁次数达到上限则开启动态随机构建的手势进行解锁，进一步地，本发明实施例通过构建所述智能门禁的动态手势，以用于随机构建动态手势发送至房屋主人的手机上，方便房屋主人在安全隐私的环境下对动态手势进行查看并解锁，进一步地，本发明实施例通过利用所述动态手势进行人机手势交互，以用于将手势识别与视线跟踪两种人机交互方式进行联合使用，提升智能门禁的人机交互方式多样性。因此，本发明实施例提出的一种基于智能门禁的视线跟踪与手势识别的人机交互方法、装置、电子设备以及存储介质，可以多个解锁方式联合使用，从而提升智能门禁的人机交互方式多样性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于智能门禁的视线跟踪与手势识别的人机交互方法的流程示意图；

图2为本发明一实施例中图1提供的一种基于智能门禁的视线跟踪与手势识别的人机交互方法的其中一个步骤的流程示意图；

图3为本发明一实施例中图1提供的一种基于智能门禁的视线跟踪与手势识别的人机交互方法的另外一个步骤的流程示意图；

图4为本发明一实施例提供的一种基于智能门禁的视线跟踪与手势识别的人机交互装置的模块示意图；

图5为本发明一实施例提供的实现基于智能门禁的视线跟踪与手势识别的人机交互方法的电子设备的内部结构示意图。

具体实施方式

应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种基于智能门禁的视线跟踪与手势识别的人机交互方法，所述基于智能门禁的视线跟踪与手势识别的人机交互方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之，所述基于智能门禁的视线跟踪与手势识别的人机交互方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图1所示，是本发明一实施例提供的基于智能门禁的视线跟踪与手势识别的人机交互方法的流程示意图。其中，图1中描述的基于智能门禁的视线跟踪与手势识别的人机交互方法包括：

S1、利用智能门禁进行人体检测，得到检测人体，基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能。

本发明实施例通过利用智能门禁进行人体检测，以用于检测智能门禁的门外是否有人经过。其中，所述智能门禁包括人脸图像采集摄像头、手势识别显示屏、人体检测红外线传感器、存储房屋主人人脸信息与手势信息的云端数据库、门铃功能、语音对话功能、图像识别与处理系统、门锁控制系统等等。

本发明的一实施例中，参阅图2所示，所述利用智能门禁进行人体检测，得到检测人体，包括：

S201、获取所述智能门禁的门外检测领域，利用所述智能门禁向所述门外检测领域发射红外感应线；

S202、在所述智能门禁中接收所述红外感应线对应的反射感应线；

S203、对所述反射感应线进行数字信号转换，得到转换数字信号；

S204、基于所述转换数字信号，确定所述检测人体。

示例性地，当人体的手或身体的某一部分在红外线区域内，红外线发射管发出的红外线由于人体手或身体遮挡反射到红外线接收管，通过集成线路内的微电脑处理后得到数字信号，即可得到智能门禁面前有人存在，在无人对发射的红外线遮挡时，则没有反射的信号。

进一步地，本发明实施例通过基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能，以用于在复杂场景下人体不能通过视线跟踪功能解锁则可以选择手势识别功能进行解锁，或者人体不能通过手势识别功能解锁则可以选择视线跟踪功能进行解锁，其中，复杂场景下例如人体手拿多个物品而不能进行手势识别，或者人体眼睛不能睁开则可以根据智能门禁的显示屏物理分布进行手势识别解锁。

本发明的一实施例中，参阅图3所示，所述基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能，包括：

S301、从所述智能门禁向所述检测人体发起语音沟通；

S302、在所述检测人体处利用所述语音沟通选择开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能。

S2、在开启所述智能门禁的视线跟踪功能时，采集所述检测人体的待跟踪图像，提取所述待跟踪图像中的人脸关键点，基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸。

本发明实施例通过采集所述检测人体的待跟踪图像，以用于采集包含人脸的图像，便于后续进行人脸中视线的跟踪。

本发明的一实施例中，所述采集所述检测人体的待跟踪图像通过所述智能门禁中的摄像头拍摄所述检测人体的人脸图像实现。

进一步地，本发明实施例通过提取所述待跟踪图像中的人脸关键点，以用于基于所述人脸关键点查找所述待跟踪图像中的人眼部位与人脸部位，排除无关部位。其中，所述人脸关键点包括左眼回归框内的关键点、右眼回归框内的关键点、鼻子回归框内的关键点、左嘴巴回归框内的关键点、右嘴巴回归框内的关键点。

本发明的一实施例中，所述提取所述待跟踪图像中的人脸关键点，包括：对所述待跟踪图像进行多尺度缩放，得到多层图像金字塔；对所述多层图像金字塔进行多层卷积处理，得到多层卷积特征图；对所述多层卷积特征图进行特征向量映射，得到卷积特征向量；基于所述卷积特征向量，对所述多层图像金字塔进行人脸关键点定位，得到人脸关键点位置；从所述人脸关键点位置中提取所述人脸关键点。

其中，所述多层图像金字塔由多层不同尺度的待跟踪图像构成；可选地，所述对所述多层卷积特征图进行特征向量映射，得到卷积特征向量可通过全连接层实现，全连接层可将特征图映射为特征向量；所述基于所述卷积特征向量，对所述多层图像金字塔进行人脸关键点定位，得到人脸关键点位置可通过facial landmark localization结构实现，所述facial landmark localization是指面部关键点定位器，用于进行面部关键点的定位，来自于神经网络结构，所述facial landmark localization对应的神经网络结构包括p-net、r-net、o-net三种结构，这三种结构为MTCNN多任务卷积神经网络的组成部分。

本发明的一实施例中，所述基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸，包括：从所述人脸关键点中识别人眼关键点；提取所述人眼关键点对应的人眼回归框；将所述人眼回归框在所述待跟踪图像中对应的图像区域作为所述待跟踪视线；基于所述人脸关键点，从所述待跟踪图像中划分人脸区域，并将所述人脸区域作为所述待跟踪人脸。

S3、识别所述待跟踪视线的方向，得到待跟踪视线方向，识别所述待跟踪人脸的方向，得到待跟踪人脸方向，根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，利用所述总视线方向进行人机视线交互，得到人机视线交互结果。

本发明实施例通过识别所述待跟踪视线的方向，以用于利用视线跟踪技术中的基于人眼角度与头部姿态的方式确定人眼视线跟踪方向，从而实现视线跟踪。

本发明的一实施例中，所述识别所述待跟踪视线的方向，得到待跟踪视线方向，包括：划分所述待跟踪视线中的左眼视线与右眼视线；对所述左眼视线进行视线方向识别，得到左眼视线方向，并对所述右眼视线进行视线方向识别，得到右眼视线方向；对所述左眼视线方向与所述右眼视线方向进行视觉均衡处理，得到所述待跟踪视线方向。

本发明的又一实施例中，所述对所述左眼视线进行视线方向识别，得到左眼视线方向，包括：对所述待跟踪视线进行灰度图像分离，得到分离灰度图像，并划分所述分离灰度图像中的第一灰度图像、第二灰度图像与第三灰度图像；对所述第一灰度图像与所述第二灰度图像进行图像多层卷积，得到多层卷积图像；利用下述公式对所述第三灰度图像进行特征图映射，得到映射特征图：

合并所述多层卷积图像与所述映射特征图，得到合并特征图；对所述合并特征图进行向量乱序映射，得到所述待跟踪视线方向。

本发明的又一实施例中，所述对所述合并特征图进行向量乱序映射，得到所述待跟踪视线方向，包括：对所述合并特征图进行第一特征分组，得到第一分组特征；转换所述第一分组特征的维度，得到转换维度特征图；对所述转换维度特征图进行转置变换，得到转置特征图；对所述转置特征图进行第二特征分组，得到第二分组特征；拼接所述第二分组特征，得到拼接分析特征；对所述拼接分组特征进行视线方向分类，得到所述待跟踪视线方向。

可选地，所述对所述合并特征图进行向量乱序映射是指打乱原特征图通道顺序的过程，例如对所述合并特征图进行第一特征分组，得到第一分组特征为“(1，2，3，4，5)，(6，7，8，9，10)，(11，12，13，14，15)”(一行多列)，则转换所述第一分组特征的维度为多行多列，通过将所述转换维度特征图的行变为列，列变为行视线对所述转换维度特征图进行转置变换，则打乱顺序之后变为“(1，6，11，2，7)，(12，3，8，13，4)，(9，14，5，10，15)”(一行多列)；所述对所述拼接分组特征进行视线方向分类，得到所述待跟踪视线方向的过程可以通过激活函数分类器实现。

本发明的又一实施例中，所述对所述左眼视线方向与所述右眼视线方向进行视觉均衡处理，得到所述待跟踪视线方向，包括：从所述左眼视线方向与所述右眼视线方向中查询左眼注视偏角与右眼注视偏角；利用下述公式对所述左眼注视偏角与所述右眼注视偏角进行视觉均衡处理，得到视觉均衡偏角：

θ＝(θ_l+θ_r)/2

从所述视觉均衡偏角查询所述待跟踪视线方向。

进一步地，本发明实施例通过识别所述待跟踪人脸的方向，以用于获取图像中人脸头部在发生转向时的方向。

本发明的一实施例中，所述识别所述待跟踪人脸的方向，得到待跟踪人脸方向，包括：对所述待跟踪人脸进行待跟踪特征提取，得到待跟踪特征；计算所述待跟踪特征的方向类别概率；将所述方向类别概率对应的人脸方向作为所述待跟踪人脸方向。

可选地，所述对所述待跟踪人脸进行待跟踪特征提取，得到待跟踪特征的过程通过残差神经网络结构实现，所述残差神经网络结构包含BN层、RELU、权重层，其中BN层是指归一化网络层，在所述残差神经网络结构中作为pre-activation预激活功能，起到了正则化的作用，RELU是修正线性单元在考虑高斯噪声的基础上进行改进的变种激活函数，权重层指conv层，即卷积层。

本发明的一实施例中，所述根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，包括：从所述待跟踪视线方向与所述待跟踪人脸方向中查询待跟踪视线偏角与待跟踪人脸偏角；基于所述待跟踪视线偏角与所述待跟踪人脸偏角，利用下述公式计算所述检测人体的总视线偏角：

θ_总＝w₁θ₁+w₂θ₂,(w₁＞w₂)

从所述总视线偏角中查询所述总视线方向。

进一步地，本发明实施例通过利用所述总视线方向进行人机视线交互，以用于在所述总视线方向注视智能门禁时开启瞳孔识别功能，实现瞳孔解锁，这样可以减少在人体未注视智能门禁时就开启瞳孔识别功能导致的瞳孔识别准确率较低的情况。

本发明的一实施例中，所述利用所述总视线方向进行人机视线交互，得到人机视线交互结果，包括：获取所述智能门禁，在所述总视线方向符合预设方向时，对所述总视线方向对应的人眼进行瞳孔特征提取，得到瞳孔特征；计算所述瞳孔特征与所述智能门禁对应的云端数据库中的瞳孔特征之间的瞳孔相似度；基于所述瞳孔相似度，确定所述人机视线交互结果。

其中，所述预设方向可以设置为正视所述智能门禁的方向，也可以设置为正视所述智能门禁的摄像头的方向。

S4、在开启所述智能门禁的手势识别功能时，提取所述智能门禁中的静态手势，利用所述静态手势检测是否需要构建所述智能门禁的动态手势，在需要构建动态手势时，构建所述智能门禁的动态手势，并利用所述动态手势进行人机手势交互，得到人机手势交互结果。

本发明实施例通过提取所述智能门禁中的静态手势，以用于从所述智能门禁对应的云端数据库中查询房屋主人事先录入的可以解锁门禁的手势。

进一步地，本发明实施例通过利用所述静态手势检测是否需要构建所述智能门禁的动态手势，以用于在人体进行门禁解锁时若解锁次数达到上限则开启动态随机构建的手势进行解锁。

本发明的一实施例中，所述利用所述静态手势检测是否需要构建所述智能门禁的动态手势，包括：采集所述智能门禁中的当前录入手势；将所述当前录入手势与所述静态手势进行一致性校验；在所述当前录入手势与所述静态手势的一致性校验失败且所述当前录入手势与所述静态手势的一致性校验的次数达到预设次数时，需要构建所述智能门禁的动态手势；在所述当前录入手势与所述静态手势的一致性校验成功且所述当前录入手势与所述静态手势的一致性校验的次数未达到预设次数时，不需要构建所述智能门禁的动态手势。

进一步地，本发明实施例通过构建所述智能门禁的动态手势，以用于随机构建动态手势发送至房屋主人的手机上，方便房屋主人在安全隐私的环境下对动态手势进行查看并解锁。

本发明的一实施例中，所述构建所述智能门禁的动态手势，包括：获取所述智能门禁中的手势填充网格，在所述手势填充网格中进行网格节点连接，得到连接网格节点；将所述连接网格节点对应的节点连接路线作为所述动态手势。

进一步地，本发明实施例通过利用所述动态手势进行人机手势交互，以用于将手势识别与视线跟踪两种人机交互方式进行联合使用，提升智能门禁的人机交互方式多样性。

本发明的一实施例中，所述利用所述动态手势进行人机手势交互，得到人机手势交互结果，包括：将所述动态手势发送至所述智能门禁对应的房屋主人；在所述房屋主人处接收所述动态手势，得到接收手势；利用所述接收手势在所述智能门禁对应的手势填充网格中进行手势绘制，得到绘制手势；将所述绘制手势与所述动态手势进行一致性校验；在所述绘制手势与所述动态手势的一致性校验成功时，将人机手势交互成功作为所述人机手势交互结果；在所述绘制手势与所述动态手势的一致性校验失败时，将人机手势交互失败作为所述人机手势交互结果。

S5、将所述人机视线交互结果与所述人机手势交互结果作为所述智能门禁的最终人机交互结果。

可以看出，本发明实施例首先通过利用智能门禁进行人体检测，以用于检测智能门禁的门外是否有人经过，进一步地，本发明实施例通过基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能，以用于在复杂场景下人体不能通过视线跟踪功能解锁则可以选择手势识别功能进行解锁，或者人体不能通过手势识别功能解锁则可以选择视线跟踪功能进行解锁；其次，本发明实施例通过采集所述检测人体的待跟踪图像，以用于采集包含人脸的图像，便于后续进行人脸中视线的跟踪，进一步地，本发明实施例通过提取所述待跟踪图像中的人脸关键点，以用于基于所述人脸关键点查找所述待跟踪图像中的人眼部位与人脸部位，排除无关部位；进一步地，本发明实施例通过识别所述待跟踪视线的方向，以用于利用视线跟踪技术中的基于人眼角度与头部姿态的方式确定人眼视线跟踪方向，从而实现视线跟踪，进一步地，本发明实施例通过识别所述待跟踪人脸的方向，以用于获取图像中人脸头部在发生转向时的方向，进一步地，本发明实施例通过利用所述总视线方向进行人机视线交互，以用于在所述总视线方向注视智能门禁时开启瞳孔识别功能，实现瞳孔解锁，这样可以减少在人体未注视智能门禁时就开启瞳孔识别功能导致的瞳孔识别准确率较低的情况；进一步地，本发明实施例通过提取所述智能门禁中的静态手势，以用于从所述智能门禁对应的云端数据库中查询房屋主人事先录入的可以解锁门禁的手势，进一步地，本发明实施例通过利用所述静态手势检测是否需要构建所述智能门禁的动态手势，以用于在人体进行门禁解锁时若解锁次数达到上限则开启动态随机构建的手势进行解锁，进一步地，本发明实施例通过构建所述智能门禁的动态手势，以用于随机构建动态手势发送至房屋主人的手机上，方便房屋主人在安全隐私的环境下对动态手势进行查看并解锁，进一步地，本发明实施例通过利用所述动态手势进行人机手势交互，以用于将手势识别与视线跟踪两种人机交互方式进行联合使用，提升智能门禁的人机交互方式多样性。因此，本发明实施例提出的一种基于智能门禁的视线跟踪与手势识别的人机交互方法可以多个解锁方式联合使用，从而提升智能门禁的人机交互方式多样性。

如图4所示，是本发明基于智能门禁的视线跟踪与手势识别的人机交互装置功能模块图。

本发明所述基于智能门禁的视线跟踪与手势识别的人机交互装置400可以安装于电子设备中。根据实现的功能，所述基于智能门禁的视线跟踪与手势识别的人机交互装置可以包括开启判断模块401、图像分割模块402、视线交互模块403、手势交互模块404以及结果确定模块405。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本发明实施例中，关于各模块/单元的功能如下：

所述开启判断模块401，用于利用智能门禁进行人体检测，得到检测人体，基于所述检测人体，判断是否开启所述智能门禁的视线跟踪功能或所述智能门禁的手势识别功能；

所述图像分割模块402，用于在开启所述智能门禁的视线跟踪功能时，采集所述检测人体的待跟踪图像，提取所述待跟踪图像中的人脸关键点，基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸；

所述视线交互模块403，用于识别所述待跟踪视线的方向，得到待跟踪视线方向，识别所述待跟踪人脸的方向，得到待跟踪人脸方向，根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，利用所述总视线方向进行人机视线交互，得到人机视线交互结果；

所述手势交互模块404，用于在开启所述智能门禁的手势识别功能时，提取所述智能门禁中的静态手势，利用所述静态手势检测是否需要构建所述智能门禁的动态手势，在需要构建动态手势时，构建所述智能门禁的动态手势，并利用所述动态手势进行人机手势交互，得到人机手势交互结果；

所述结果确定模块405，用于将所述人机视线交互结果与所述人机手势交互结果作为所述智能门禁的最终人机交互结果。

详细地，本发明实施例中所述基于智能门禁的视线跟踪与手势识别的人机交互装置400中的所述各模块在使用时采用与上述的图1至图3中所述的基于智能门禁的视线跟踪与手势识别的人机交互方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，是本发明实现基于智能门禁的视线跟踪与手势识别的人机交互方法的电子设备的结构示意图。

所述电子设备可以包括处理器50、存储器51、通信总线52以及通信接口53，还可以包括存储在所述存储器51中并可在所述处理器50上运行的计算机程序，如基于智能门禁的视线跟踪与手势识别的人机交互程序。

其中，所述处理器50在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器50是所述电子设备的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块(例如执行基于智能门禁的视线跟踪与手势识别的人机交互程序等)，以及调用存储在所述存储器51内的数据，以执行电子设备的各种功能和处理数据。

所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器51在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器51在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器51不仅可以用于存储安装于电子设备的应用软件及各类数据，例如数据库配置化连接程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线52可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器51以及至少一个处理器50等之间的连接通信。

所述通信接口53用于上述电子设备5与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，所述用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器50逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利发明范围上并不受此结构的限制。

所述电子设备中的所述存储器51存储的数据库配置化连接程序是多个计算机程序的组合，在所述处理器50中运行时，可以实现：

具体地，所述处理器50对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于智能门禁的视线跟踪与手势识别的人机交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述查询所述企业数据的数据特征，包括：

所述提取所述待跟踪图像中的人脸关键点，包括：

对所述待跟踪图像进行多尺度缩放，得到多层图像金字塔；

从所述人脸关键点位置中提取所述人脸关键点。

3.根据权利要求1所述的方法，其特征在于，所述基于所述人脸关键点，分割所述待跟踪图像中的待跟踪视线与待跟踪人脸，包括：

从所述人脸关键点中识别人眼关键点；

提取所述人眼关键点对应的人眼回归框；

4.根据权利要求1所述的方法，其特征在于，所述识别所述待跟踪视线的方向，得到待跟踪视线方向，包括：

划分所述待跟踪视线中的左眼视线与右眼视线；

5.根据权利要求1所述的方法，其特征在于，所述对所述左眼视线进行视线方向识别，得到左眼视线方向，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述合并特征图进行向量乱序映射，得到所述待跟踪视线方向，包括：

对所述合并特征图进行第一特征分组，得到第一分组特征；

转换所述第一分组特征的维度，得到转换维度特征图；

对所述转换维度特征图进行转置变换，得到转置特征图；

对所述转置特征图进行第二特征分组，得到第二分组特征；

拼接所述第二分组特征，得到拼接分析特征；

7.根据权利要求1所述的方法，其特征在于，所述对所述左眼视线方向与所述右眼视线方向进行视觉均衡处理，得到所述待跟踪视线方向，包括：

θ＝(θ_l+θ_r)/2

从所述视觉均衡偏角查询所述待跟踪视线方向。

8.根据权利要求1所述的方法，其特征在于，所述根据所述待跟踪视线方向与所述待跟踪人脸方向，确定所述检测人体的总视线方向，包括：

θ_总＝w₁θ₁+w₂θ₂,(w₁＞w₂)

从所述总视线偏角中查询所述总视线方向。

9.根据权利要求1所述的方法，其特征在于，所述利用所述总视线方向进行人机视线交互，得到人机视线交互结果，包括：

基于所述瞳孔相似度，确定所述人机视线交互结果。

10.根据权利要求1所述的方法，其特征在于，所述利用所述动态手势进行人机手势交互，得到人机手势交互结果，包括：

将所述动态手势发送至所述智能门禁对应的房屋主人；

在所述房屋主人处接收所述动态手势，得到接收手势；

将所述绘制手势与所述动态手势进行一致性校验；

11.一种基于智能门禁的视线跟踪与手势识别的人机交互装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至10中任意一项所述的基于智能门禁的视线跟踪与手势识别的人机交互方法。

13.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任意一项所述的基于智能门禁的视线跟踪与手势识别的人机交互方法。