CN111046734B - 基于膨胀卷积的多模态融合视线估计方法 - Google Patents

基于膨胀卷积的多模态融合视线估计方法 Download PDF

Info

Publication number
CN111046734B
CN111046734B CN201911099980.4A CN201911099980A CN111046734B CN 111046734 B CN111046734 B CN 111046734B CN 201911099980 A CN201911099980 A CN 201911099980A CN 111046734 B CN111046734 B CN 111046734B
Authority
CN
China
Prior art keywords
convolution
sight line
expansion
model
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911099980.4A
Other languages
English (en)
Other versions
CN111046734A (zh
Inventor
罗元
陈顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911099980.4A priority Critical patent/CN111046734B/zh
Publication of CN111046734A publication Critical patent/CN111046734A/zh
Application granted granted Critical
Publication of CN111046734B publication Critical patent/CN111046734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Ophthalmology & Optometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于膨胀卷积的多模态融合视线估计方法,利用膨胀卷积设计了一种GENet的网络提取眼睛的RGB和深度图像的特征图,并利用卷积神经网络的全连接层自动融合头部姿态和两种图像的特征图,从而进行视线估计。在公开数据集Eyediap上验证了设计的模型,并将设计的模型同其它视线估计模型进行比较。实验结果表明在卷积神经网络中膨胀卷积的引入能够进一步降低误差;当输入为深度人眼图、RGB人眼图、和头部姿态三个模态时,估计误差最小;在视线估计这项任务中头部姿态起着重要作用,而提出的模型对于头部姿态的变化具有较强的鲁棒性;同时通过与近几年其他视线估计的先进方法进行对比,本发明提出的模型依旧取得了优越的性能。

Description

基于膨胀卷积的多模态融合视线估计方法
技术领域
本发明属于图像处理与模式识别领域,特别是一种基于膨胀卷积的多模态融合视线估计方法。
背景技术
近年来,随着计算机视觉技术的飞速发展,视线估计技术引起了广泛的研究,并且在很多应用中都有很大的潜力,比如人机交互、心理分析、虚拟显示、人类行为研究等。目前视线估计方法主要有基于模型的视线估计和基于表观的视线估计。
基于模型的视线估计通常需要利用红外线光源照射人眼,基于人眼角膜反射产生高亮光斑,根据光斑的位置和瞳孔中心的位置,结合3D眼球先验知识,估计视线方向。此类方法实现了高精度,但为了获得稳定、准确的特征检测,通常要求接近于正面的头部姿态从而提取高分辨率眼睛图像,这限制了用户的移动性,且通常需要专用的硬件,例如多个红外摄像机,多个设备之间的位置关系需要精确的匹配,设备标定带来的误差累计也会影响视线的估计精度,所以难以被广泛的应用。
另一方面,基于表观的视线估计是通过提取眼睛的视觉特征,然后训练回归模型学习从眼睛特征到视线方向的映射,从而进行视线估计。随着深度神经网络在图像识别领域的发展和成功,基于表观的视线估计开始直接使用整幅眼睛图像作为高维输入向量,利用卷积神经网络学习其与视线方向之间的映射。但目前大多数研究都是基于RGB图像进行处理,且在头部自由运动的状态下,基于表观的视线估计方法精度较低。同时,基于卷积神经网络的视线估计模型通常采用池化层来增大深度特征图中的感受野,导致了人眼的信息损失。
发明内容
针对现有技术的不足,本发明提出了一种基于膨胀卷积的多模态融合视线估计方法,利用膨胀卷积核在不增加参数的前提下可增大卷积核感受野这一优点,更好地提取人眼RGB图像和深度图像的特征图,并与头部姿态进行多模态的融合,从而进行视线估计。
鉴于此本发明采用的技术方案如下:融合头部、双眼的深度和RGB 图像来对视线方向进行综合估计,其具体包括以下步骤:
S1,利用RGB-D相机进行人脸区域检测和人眼区域定位。
S2,利用人脸区域进行头部姿态估计。
S3,采用膨胀卷积模型提取人眼区域的RGB和深度图像特征。
S4,根据提取出的RGB和深度图像特征,通过卷积神经网络的全连接层融合提取的深度图像特征以及头部姿态进行回归估计并输出视线方向。
进一步,上述人眼区域定位具体为,对于人脸图像利用Haar-like矩形特征来检测人眼感兴趣区域,对得到的人眼感兴趣区域进行水平方向上的积分投影和垂直方向上的差分投影,并分别计算灰度值,最终检测到在前者具有最小值以及后者具有最大值时,所对应的两极值点为两眼的中心点。
进一步,上述膨胀卷积模型中的膨胀卷积是通过在权值间插入零点来扩展卷积滤波器,从而增加感受野的大小而不增加参数的数目。膨胀卷积是通过在原滤波器ω的两个连续空间位置之间沿每个空间维插入r-1个零来实现的;对于每个空间位置i,一维膨胀卷积定义为:
Figure BDA0002269552260000021
其中o[i]和x[i]表示特征图上位置i的输出和输入,ω是大小为l的卷积滤波器,r是采样输入的膨胀率,l表示卷积滤波器的大小。
更进一步,所述膨胀卷积模型具有卷积层和膨胀卷积层,将人眼的RGB图像结合深度图像形成四个通道的人眼图像作为模型的输入,输出送入具有1000 个神经元的全连接层FCMV。膨胀卷积模型具有四层卷积层,并在每层卷积层后接入步长为2,空间尺寸为2×2的最大池化操作,然后进行膨胀卷积操作。
本方案中上述通过线性回归输出视线方向,具体包括:
利用损失函数训练视线估计模型:
Figure BDA0002269552260000022
其中,N为训练图像对i的样本数,gi为输入图像对为i时的真实视线方向,
Figure BDA0002269552260000023
为输入图像对为i时的预测视线方向,
Figure BDA0002269552260000024
和θi分别为输入图像对为i时的真实视线方向的偏航角和俯仰角,
Figure BDA0002269552260000025
Figure BDA0002269552260000026
分别为输入图像对为i时的预测视线方向的偏航角和俯仰角,Lerr表示训练损失函数的大小。
由于采用了上述技术方案,本发明具有如下的优点:
引入膨胀卷积,利用膨胀卷积核在不增加参数的前提下可增大卷积核感受野这一优点,更好地提取人眼RGB图像和深度图像的特征图,并在模型中引入头部姿态,通过与头部姿态进行多模态的融合,搭建了一个对头部姿态的变化具有较强的鲁棒性的端到端的视线估计系统。
在公开数据集Eyediap上验证了设计的模型,并将设计的模型同其它视线估计模型进行比较。实验结果表明在卷积神经网络中膨胀卷积的引入能够进一步降低误差;当输入为深度人眼图、RGB人眼图、和头部姿态三个模态时,估计误差最小;在视线估计这项任务中头部姿态起着重要作用,而提出的模型对于头部姿态的变化具有较强的鲁棒性;同时通过与近几年其他视线估计的先进方法进行对比,本发明提出的模型依旧取得了优越的性能。
附图说明
图1为视线估计流程图;
图2基于GENet的视线估计流程图。
具体实施方式
本发明的估计方法包括以下步骤:
S1,首先,利用RGB-D相机进行人脸区域和双眼区域检测和定位。
S2,利用人脸区域进行头部姿态估计。
S3,然后采用改进的卷积神经网络GENet模型将人眼的RGB和深度图像的特征提取出来;所述改进的GENet模型改进点主要在于:基于卷积神经网络的视线估计通常采用池化层(如最大池化和平均池化)来增大特征图中像素点的感受野,但同时也极大地降低了空间分辨率,意味着特征图的空间信息丢失。本文采用膨胀卷积算法,即不通过池化获得较大的感受野,并减小信息损失。考虑到人眼的RGB图像与深度图像分别包含人眼的特征信息和额外的空间中眼睛的位置,从而结合这两种模态进行融合,并设计基于膨胀卷积的GENet网络分别提取其深度特征。
S4,在提取出双眼的特征之后,通过卷积神经网络的全连接层融合提取的深度特征以及头部姿态进行回归估计并输出结果。
S5,构建模型的损失函数,进行模型训练。
进一步的,所述步骤S1,进行人脸区域和双眼区域检测和定位具体包括:
S11:选定Haar特征和AdaBoost分类器来对人脸进行实时检测。
S12:得到人眼区域;将预处理后的人脸图像利用Haar-like矩形特征来检测人眼区域(Region of interest,ROI),对得到的人眼ROI进行水平方向上的积分投影和垂直方向上的差分投影并分别计算灰度值,最终检测到在前者具有最小值以及后者具有最大值时,所对应的两极值点可作为两眼的中心点(pl,pr)。
进一步的,所述步骤S2,采用随机回归森林的实时头部姿态估计系统来对头部位置和朝向进行定位。用Tt=[Tx,Ty,Tz]表示t时刻头部所在的位置信息, Rt=[Ry,Rp,Rr]表示t时刻头部的旋转角度信息,则t时刻头部偏转参数可记为 ht=(Tt,Rt)。
进一步的,所述步骤S3,得到双眼RGB和深度图像的深度特征:膨胀卷积主要通过在权值间插入零点来扩展卷积滤波器,从而增加感受野的大小而不增加参数的数目。一般来说,对于每个空间位置i,一维膨胀卷积定义为:
Figure BDA0002269552260000041
其中o[i]和x[i]表示特征图上位置i的输出和输入,ω是大小为l的卷积滤波器,r是采样输入的膨胀率,l表示卷积滤波器的大小。膨胀卷积是通过在原滤波器ω的两个连续空间位置之间沿每个空间维插入r-1个零来实现的。对于k×k的卷积核,膨胀卷积核的实际大小为kd×kd,其中kd=k+(k-1)·(r-1)。指出非零参数的数目与原始参数相同,使计算复杂度保持不变。因此膨胀卷积能够在增加有效感受野的同时提供显著的参数减少,从而卷积神经网络能够捕捉到更多的上下文信息,有望获得更有鉴别性的高层特征。标准卷积是r=1的膨胀卷积的特例。
将人眼的RGB图像结合深度图像形成四个通道的人眼图像作为模型的输入,输入大小为36×60。同时双眼网络具有相同的结构,在所有卷积层和膨胀卷积层中共享相同的参数。GENet的网络结构如表1所示,卷积层的参数表示为“Conv-(核大小)-(滤波器数目)-(膨胀率)”。其中Conv1、Conv2、Conv3、Conv4 采用VGG-16网络,仅使用3×3的卷积核。并在Convl、Conv2、Conv3、Conv4 后接入了步长为2,空间尺寸为2×2的最大池化(max-pooling)操作。网络在Conv5 开始引入卷积的膨胀系数,即进行膨胀卷积操作,以扩大神经元的感受野。其中GENet A的膨胀率为1,即标准卷积。前四个卷积层的权重从在ImageNet数据集预先训练的VGG-16的前四层转移。在经过卷积组后均添加Batch Normalization层,即批标准化,其能够提高网络的泛化能力,具备更快速的收敛特性。最后将双眼分别通过GENet网络形成的全连接层的输出状态串联起来,送入具有1000个神经元的全连接层FCMV。将ReLU函数作为卷积层和全连接层的激活函数,其相比于sigmoid函数,tanh函数等激活函数,具有克服梯度消失,加快模型的训练速度以及更好的防止模型过拟合的性质。
进一步的,所述步骤S4,进行多模态融合:将头部姿态h加入全连接层FCMV,采用线性回归得到预测的视线方向,得到的视线方向为二维凝视角矢量g∈R2×1,由偏航角
Figure BDA0002269552260000042
和俯仰角θ组成。
进一步的,所述步骤S5,视线估计模型的优化过程,利用L2损失函数训练:
Figure BDA0002269552260000051
其中,N为训练图像对i的样本数,gi∈R2×1为输入图像对为i时的真实视线方向,
Figure BDA0002269552260000052
为输入图像对为i时的预测视线方向,
Figure BDA0002269552260000053
和θi分别为输入图像对为i时的真实视线方向的偏航角和俯仰角,
Figure BDA0002269552260000054
Figure BDA0002269552260000055
分别为输入图像对为i时的预测视线方向的偏航角和俯仰角。R2×1是指视线是二维的,由偏航角和俯仰角构成。
网络权重采取MSRA(microsoft research)初始化。采用随机梯度下降算法训练网络,网络的动量和权值衰减参数分别设置为0.9和10-4。训练的批次大小为 128,训练次数为60epoch,训练开始阶段,将初始学习率设置为10-3,随着训练的进行,观察损失函数,动态微调学习率,最低将其降低到10-5。即通过一个损失函数进行联合训练,通过不断训练,确定最小误差下的模型权值。
表1 GENet的网络结构
Figure BDA0002269552260000056
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.基于膨胀卷积的多模态融合视线估计方法,其特征在于,包括以下步骤:
S1,利用RGB-D相机进行人脸区域检测和人眼区域定位;
S2,利用人脸区域进行头部姿态估计;
S3,采用膨胀卷积模型提取人眼区域的RGB和深度图像特征;
所述膨胀卷积模型具有卷积层和膨胀卷积层,将人眼的RGB图像结合深度图像形成四个通道的人眼图像作为模型的输入,输出送入具有1000个神经元的全连接层FCMV;所述膨胀卷积模型具有四层卷积层,并在每层卷积层后接入步长为2,空间尺寸为2×2的最大池化操作,然后进行膨胀卷积操作;
S4,根据提取出的RGB和深度图像特征,通过卷积神经网络的全连接层融合提取的深度图像特征以及头部姿态进行回归估计并输出视线方向,具体包括:
利用损失函数训练视线估计模型:
Figure FDA0003834684830000011
其中,N为训练图像对i的样本数,gi为输入图像对为i时的真实视线方向,
Figure FDA0003834684830000012
为输入图像对为i时的预测视线方向,
Figure FDA0003834684830000013
和θi分别为输入图像对为i时的真实视线方向的偏航角和俯仰角,
Figure FDA0003834684830000014
Figure FDA0003834684830000015
分别为输入图像对为i时的预测视线方向的偏航角和俯仰角,Lerr表示训练损失函数的大小。
2.根据权利要求1所述基于膨胀卷积的多模态融合视线估计方法,其特征在于:所述人眼区域定位具体为,对于人脸图像利用Haar-like矩形特征来检测人眼感兴趣区域,对得到的人眼感兴趣区域进行水平方向上的积分投影和垂直方向上的差分投影,并分别计算灰度值,最终检测到在前者具有最小值以及后者具有最大值时,所对应的两极值点为两眼的中心点。
3.根据权利要求1所述基于膨胀卷积的多模态融合视线估计方法,其特征在于:所述膨胀卷积模型中的膨胀卷积是通过在权值间插入零点来扩展卷积滤波器,从而增加感受野的大小而不增加参数的数目。
4.根据权利要求3所述基于膨胀卷积的多模态融合视线估计方法,其特征在于:所述膨胀卷积是通过在原滤波器ω的两个连续空间位置之间沿每个空间维插入r-1个零来实现的;对于每个空间位置i,一维膨胀卷积定义为:
Figure FDA0003834684830000016
其中o[i]和x[i]表示特征图上位置i的输出和输入,ω是大小为l的卷积滤波器,r是采样输入的膨胀率,l表示卷积滤波器的大小。
CN201911099980.4A 2019-11-12 2019-11-12 基于膨胀卷积的多模态融合视线估计方法 Active CN111046734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099980.4A CN111046734B (zh) 2019-11-12 2019-11-12 基于膨胀卷积的多模态融合视线估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099980.4A CN111046734B (zh) 2019-11-12 2019-11-12 基于膨胀卷积的多模态融合视线估计方法

Publications (2)

Publication Number Publication Date
CN111046734A CN111046734A (zh) 2020-04-21
CN111046734B true CN111046734B (zh) 2022-10-18

Family

ID=70232399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099980.4A Active CN111046734B (zh) 2019-11-12 2019-11-12 基于膨胀卷积的多模态融合视线估计方法

Country Status (1)

Country Link
CN (1) CN111046734B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796681A (zh) * 2020-07-07 2020-10-20 重庆邮电大学 人机交互中基于差分卷积的自适应视线估计方法及介质
CN112541454A (zh) * 2020-12-21 2021-03-23 的卢技术有限公司 一种用于视线估计的卷积神经网络设计方法
CN112766185B (zh) * 2021-01-22 2022-06-14 燕山大学 基于深度学习的头部姿态监控方法、装置及系统
CN112734820B (zh) * 2021-03-29 2021-08-03 之江实验室 注视目标估计的方法和装置、电子设备、神经网络结构
CN113331839A (zh) * 2021-05-28 2021-09-03 武汉科技大学 一种基于多源信息融合的网络学习注意力监测方法及系统
CN113642393B (zh) * 2021-07-07 2024-03-22 重庆邮电大学 基于注意力机制的多特征融合视线估计方法
CN113822174B (zh) * 2021-09-02 2022-12-16 合肥的卢深视科技有限公司 视线估计的方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368290A (zh) * 2011-09-02 2012-03-07 华南理工大学 一种基于手指高级特征的手势识别方法
CN108764115A (zh) * 2018-05-24 2018-11-06 东北大学 一种卡车危险提醒方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362885B2 (en) * 2004-04-20 2008-04-22 Delphi Technologies, Inc. Object tracking and eye state identification method
CN104966070B (zh) * 2015-06-30 2018-04-10 北京汉王智远科技有限公司 基于人脸识别的活体检测方法和装置
CN108664981B (zh) * 2017-03-30 2021-10-26 北京航空航天大学 显著图像提取方法及装置
CN110321820B (zh) * 2019-06-24 2022-03-04 东南大学 一种基于非接触式设备的视线落点检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368290A (zh) * 2011-09-02 2012-03-07 华南理工大学 一种基于手指高级特征的手势识别方法
CN108764115A (zh) * 2018-05-24 2018-11-06 东北大学 一种卡车危险提醒方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Estimation of Gaze Region Using Two Dimensional Probabilistic Maps Constructed Using Convolutional Neural Networks;Sumit Jha等;《ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20190417;第3792-3796页 *
基于膨胀卷积的多模态融合视线估计;罗元等;《重庆邮电大学学报(自然科学版)》;20210317;第637-644页 *
视觉注意力检测技术研究综述;罗元等;《半导体光电》;20190215;第1-8页 *

Also Published As

Publication number Publication date
CN111046734A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046734B (zh) 基于膨胀卷积的多模态融合视线估计方法
US12053301B2 (en) Classifying facial expressions using eye-tracking cameras
Chakraborty et al. Review of constraints on vision‐based gesture recognition for human–computer interaction
CN109196526B (zh) 用于生成多模态数字图像的方法和系统
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN107545302B (zh) 一种人眼左右眼图像联合的视线方向计算方法
CN107953329B (zh) 物体识别和姿态估计方法、装置及机械臂抓取系统
WO2020125499A1 (zh) 一种操作提示方法及眼镜
CN109583338A (zh) 基于深度融合神经网络的驾驶员视觉分散检测方法
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
WO2023098128A1 (zh) 活体检测方法及装置、活体检测系统的训练方法及装置
CN111723707B (zh) 一种基于视觉显著性的注视点估计方法及装置
US10884494B1 (en) Eye tracking device calibration
CN112183200B (zh) 一种基于视频图像的眼动追踪方法和系统
US11947717B2 (en) Gaze estimation systems and methods using relative points of regard
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
JP2022527818A (ja) ユーザの眼に関連する幾何学的変数を推定する方法及びシステム
CN116645917A (zh) Led显示屏亮度调节系统及其方法
CN113642393A (zh) 基于注意力机制的多特征融合视线估计方法
CN111259713A (zh) 一种基于自适应加权的视线跟踪方法
CN112862860A (zh) 一种用于多模态目标跟踪的对象感知图像融合方法
CN116645717A (zh) 一种基于PCANet+和LSTM的微表情识别方法及系统
CN117916773A (zh) 用于在移动设备中同时重建姿态和参数化3d人体模型的方法和系统
Appenrodt et al. Multi stereo camera data fusion for fingertip detection in gesture recognition systems
WO2024059374A1 (en) User authentication based on three-dimensional face modeling using partial face images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant