CN109559332B - 一种结合双向LSTM和Itracker的视线跟踪方法 - Google Patents

一种结合双向LSTM和Itracker的视线跟踪方法 Download PDF

Info

Publication number
CN109559332B
CN109559332B CN201811286461.4A CN201811286461A CN109559332B CN 109559332 B CN109559332 B CN 109559332B CN 201811286461 A CN201811286461 A CN 201811286461A CN 109559332 B CN109559332 B CN 109559332B
Authority
CN
China
Prior art keywords
lstm
input
layer
gate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811286461.4A
Other languages
English (en)
Other versions
CN109559332A (zh
Inventor
周小龙
姜嘉祺
林家宁
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811286461.4A priority Critical patent/CN109559332B/zh
Publication of CN109559332A publication Critical patent/CN109559332A/zh
Application granted granted Critical
Publication of CN109559332B publication Critical patent/CN109559332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种结合双向LSTM和Itracker的视线跟踪方法,包括以下步骤:1)数据预处理:1.1)使人脸参考点在距相机固定距离的图像中心;1.2)通过变换矩阵将人脸转换为特定相机空间下图像平面;2)使用双向LSTM的网络结构并结合时序信息进行视线估计;2.1)将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终三维视线方向;2.2)每个LSTM细胞在遗忘门下过滤掉所需丢弃信息,在输入门整合有效信息,在输出门获取所需隐藏层,最后通过全连接层将最后一帧的前向单元和后向单元映射得到视线向量完成视线跟踪。本发明提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响。

Description

一种结合双向LSTM和Itracker的视线跟踪方法
技术领域
本发明属于图像处理技术领域,尤其是指一种稳健的视线跟踪方法。
背景技术
视线跟踪系统主要实现人眼视线方向的估计或者受试者注视点的估计。在许多领域被应用,例如医疗辅助、娱乐游戏、市场分析等。然而,现有的视线跟踪系统往往存在以下缺陷:冗余的校准过程、复杂的系统设置、光照条件的限制、不同受试者的非通用校准、对头部运动的容忍度低,限制了注视估计的应用。目前的视线跟踪系统主要可以分为两类,即基于模型的视线跟踪系统和基于外观的视线跟踪系统。
基于模型的视线跟踪系统根据是否使用主动光源(红外线)可以分为角膜反射方法和基于形状的方法。其中角膜反射方法根据人眼的几何模型进行预测,通常需要精确提取瞳孔和红外光斑等特征,因此对设备提出了较高要求。实验过程中需要固定头部姿态或是依靠多个摄像机预测人眼到摄像机的距离实现头部自由移动。基于形状的方法则从观察到的形状(如瞳孔中心、虹膜边缘)来直接推断视线方向。这种方法精确度低,也不能鲁棒地处理低质量图像和不同光照条件下的图像。
在基于模型的视线跟踪系统中,通常需要复杂的设备来完成研究,这大大限制了该方法的应用范围。而基于外观的视线跟踪系统因为设备简单能够满足更大的应用范围而逐渐成为主流方法。基于外观的方法通过从面部或眼睛图像中提取特征进行映射来估计视线方向或注视点。传统的基于外观的方法通过提取眼角等局部特征以及虹膜轮廓等特征向量来映射到最终目标,实现视线跟踪。这些传统的基于外观的方法已经能获得较高的精度,但它们对于头部姿态变化,不同光照变化以及用户个体校准复杂度等方面依旧存在不可忽视的问题。针对这些挑战,一些具有潜力的方法应运而生。例如,Zhang等人利用CNN方法对人眼图像和头部姿态构成映射,实现不同光照下高于传统方法的准确率。Ranjan等人提出了一种基于Alexnet的视线跟踪系统,在维持之前网络层的情况下根据头部姿态分别训练最后两层从而实现对各种头部姿态的较强鲁棒性。
发明内容
为了提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响,本发明提出了一种结合双向LSTM和Itracker的视线跟踪方法,能够在单一摄像头和普通光照的条件下实现稳定精确的视线跟踪。
本发明解决其技术问题所采用的技术方案是:
一种结合双向LSTM和Itracker的视线跟踪方法,所述方法包括以下步骤:
S1.数据预处理:为了弱化不同头部姿态和不同摄像机参数对最终视线估计结果的影响,对原始图像进行透视变换,训练模型在特定的虚拟空间下进行视线估计,步骤如下:
S1.1.使人脸参考点在距相机固定距离的图像中心,过程如下:
首先,假设a是相机空间下的人脸参考点的坐标,则根据虚拟相机下人脸到参考点求得z轴为
Figure GDA0002950239810000021
然后,假设
Figure GDA0002950239810000022
是头部姿态的旋转矩阵,为了使x轴与头部水平方向平行,使得vx=vy×vz,其中vy=vz×hx,假设虚拟相机和参考点的距离为d,最后使用M=SR转换矩阵,其中
Figure GDA0002950239810000023
R=[rx,ry,rz]T
S1.2.通过变换矩阵将人脸转换为特定相机空间下图像平面,过程如下:
通过warp矩阵实现,W=C0MCn -1,其中C0是原相机的内参数矩阵,Cn是虚拟相机的内参数矩阵,由输入图像决定;
与图像的变换类型类似,同样需要在训练过程中转换相应的视觉标签,使用gn=Rg0,其中gn代表归一化后的视线向量,g0代表初始视线向量,使用欧拉角表示单位向量间的约束关系;在测试阶段,对于每一个预测结果,使用g0=R-1gn将结果从虚拟相机空间下转换到原相机空间下;
S2.使用双向LSTM的网络结构并结合时序信息进行视线估计,整体架构分为静态模块和时态模块;
S2.1.静态模块的处理过程如下:
静态模块由两个分支CNN和统一的全连接层组成,CNN将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终二维凝视点,其中一个分支将左眼图像和右眼图像进行连接,形成单一的6通道输入,从拼接的眼睛图像中提取特征,另一分支则从规范化的面部中提取特征。FC层将这两部分的特征进行融合,将学习到的特性作为多对一双向LSTM的输入;
S2.2.时态模块的处理过程如下:
LSTM结构包含一系列重复的LSTM细胞,每个LSTM细胞包含3个单元,分别是遗忘门、输入门、输出门,这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息,其中(xt,ct-1,ht-1)表示输入层,(ht,ct)表示输出层;
在时刻t,ft,it,ot分别表示遗忘门,输入门,输出门,每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息;
ft=σ(wifxt+bif+whfht-1+bhf) (1)
其中(Wif,bif)和(Whf,bhf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项,其中σ是激活函数,选择的激活函数为sigmoid函数;
然后,LSTM单元在输入门合并有效信息;
gt=tanh(Wigxt+big+Whght-1+bhg) (2)
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ct=ftct-1+itgt (4)
其中(Wig,big)和(Whg,bhg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项,(Wii,bii)和(Whi,bhi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项;
最终,LSTM细胞从输出门获取输出隐藏层;
ot=σ(Wioxt+bio+Whoht-1+bho) (5)
ht=ot tanh(ct) (6)
其中(Wio,bio)和(Who,bho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项;
双向LSTM包含正向LSTM和反向LSTM,一个序列是由三个图像帧组成的。最后的视线跟踪预测是由一个全连接层获得的,这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g;
g=fc(ht,htr) (7)。
本发明的有益效果为:提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响,并最终在单一摄像头和普通光照的条件下实现稳定精确的视线跟踪。
附图说明
图1是3D视线跟踪方法的总体架构图。
图2是静态特征提取模块图。
图3是时序模块图。
图4是单个LSTM细胞结构图。
图5(a)和(b)是本发明与其他先进的基于人脸的视线跟踪方法分别在MPIIGAZE和EyeDiap数据库上的比较结果图。
图6(a)和(b)是本发明分别在MPIIGAZE和EyeDiap数据库上分别验证eye模块,face模块和两者结合模块的作用影响图。
图7(a)和(b)是本发明分别在MPIIGAZE和EyeDiap数据库上进行的分辨率实验结果图。
图8在MPIIGAZE数据库上对不同网络结合时序模型的作用影响图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图8,一种结合双向LSTM和Itracker的视线跟踪方法,所述方法包括以下步骤:
S1.数据预处理:为了弱化不同头部姿态和不同摄像机参数对最终视线估计结果的影响,对原始图像进行透视变换,训练模型在特定的虚拟空间下进行视线估计,步骤如下:
S1.1.使人脸参考点在距相机固定距离的图像中心,过程如下:
首先,假设a是相机空间下的人脸参考点的坐标,则根据虚拟相机下人脸到参考点求得z轴为
Figure GDA0002950239810000051
然后,假设
Figure GDA0002950239810000053
是头部姿态的旋转矩阵,为了使x轴与头部水平方向平行,使得vx=vy×vz,其中vy=vz×hx,假设虚拟相机和参考点的距离为d,最后使用M=SR转换矩阵,其中
Figure GDA0002950239810000052
R=[rx,ry,rz]T
S1.2.通过变换矩阵将人脸转换为特定相机空间下图像平面,过程如下:
通过warp矩阵实现,W=C0MCn -1,其中C0是原相机的内参数矩阵,Cn是虚拟相机的内参数矩阵,由输入图像决定;
与图像的变换类型类似,同样需要在训练过程中转换相应的视觉标签,使用gn=Rg0,其中gn代表归一化后的视线向量,g0代表初始视线向量,使用欧拉角表示单位向量间的约束关系,在测试阶段,对于每一个预测结果,使用g0=R-1gn将结果从虚拟相机空间下转换到原相机空间下;
S2.使用双向LSTM的网络结构并结合时序信息进行视线估计,整体架构如图一所示,分为静态模块和时态模块;
S2.1.静态模块的处理过程如下:
静态模块由两个分支CNN和统一的全连接层组成,如图2所示,CNN将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终二维凝视点,其中一个分支将左眼图像和右眼图像进行连接,形成单一的6通道输入,从拼接的眼睛图像中提取特征,另一分支则从规范化的面部中提取特征。FC层将这两部分的特征进行融合,将学习到的特性作为多对一bi-LSTM的输入;
S2.2.时态模块,过程如下:
如图3所示,LSTM结构包含一系列重复的LSTM细胞,每个LSTM细胞(图四所示)包含3个单元,分别是遗忘门、输入门、输出门,这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息,其中(xt,ct-1,ht-1)表示输入层,(ht,ct)表示输入层;
在时刻t,ft,it,ot分别表示遗忘门,输入门,输出门。每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息;
ft=σ(wifxt+bif+whfht-1+bhf) (1)
其中(Wif,bif)和(Whf,bhf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项,其中σ是激活函数,选择的激活函数为sigmoid函数;
然后,LSTM单元在输入门合并有效信息;
gt=tanh(Wigxt+big+Whght-1+bhg) (2)
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ct=ftct-1+itgt (4)
其中(Wig,big)和(Whg,bhg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项,(Wii,bii)和(Whi,bhi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项;
最终,LSTM细胞从输出门获取输出隐藏层;
ot=σ(Wioxt+bio+Whoht-1+bho) (5)
ht=ot tanh(ct) (6)
其中(Wio,bio)和(Who,bho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项;
由图3可知,双向LSTM包含正向LSTM和反向LSTM,一个序列是由三个图像帧组成的。最后的视线跟踪预测是由一个全连接层获得的,这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g;
g=fc(ht,htr) (7)。

Claims (1)

1.一种结合双向LSTM和Itracker的视线跟踪方法,其特征在于,所述方法包括以下步骤:
S1.数据预处理:对原始图像进行透视变换,训练模型在特定的虚拟空间下进行视线估计,步骤如下:
S1.1.使人脸参考点在距相机固定距离的图像中心,过程如下:
首先,假设a是相机空间下的人脸参考点的坐标,则根据虚拟相机下人脸参考点求得z轴为
Figure FDA0002950239800000011
然后,假设
Figure FDA0002950239800000012
是头部姿态的旋转矩阵,为了使x轴与头部水平方向平行,使得vx=vy×vz,其中vy=vz×hx
S1.2.通过warp变换矩阵将人脸转换为特定相机空间下图像平面,过程如下:
通过warp变换矩阵W实现,W=C0MCn -1,其中C0是原相机的内参数矩阵,假设虚拟相机和参考点的距离为d,转换矩阵M=SR,其中
Figure FDA0002950239800000013
R=[rx,ry,rz]T;Cn是虚拟相机的内参数矩阵,由输入图像决定;
使用gn=Rg0,其中gn代表归一化后的视线向量,g0代表初始视线向量,使用欧拉角表示单位向量间的约束关系;在测试阶段,对于每一个预测结果,使用g0=R-1gn将结果从虚拟相机空间下转换到原相机空间下;
S2.使用双向LSTM的网络结构并结合时序信息进行视线估计,整体架构分为静态模块和时态模块;
S2.1.静态模块的处理过程如下:
静态模块由两个分支CNN和统一的全连接层组成,CNN将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终二维凝视点;其中一个分支将左眼图像和右眼图像进行连接,形成单一的6通道输入,从拼接的眼睛图像中提取特征,另一分支则从规范化的面部中提取特征,FC层将这两部分的特征进行融合,将学习到的特征作为多对一双向LSTM的输入;
S2.2.时态模块的处理过程如下:
LSTM结构包含一系列重复的LSTM细胞,每个LSTM细胞包含3个单元,分别是遗忘门、输入门、输出门;这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息,其中(xt,ct-1,ht-1)表示输入层,(ht,ct)表示隐藏层;
在时刻t,ft,it,ot分别表示遗忘门、输入门、输出门,每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息;
ft=σ(wifxt+bif+whfht-1+bhf) (1)
其中(Wif,bif)和(Whf,bhf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项,其中σ是激活函数,选择的激活函数为sigmoid函数;
然后,LSTM内存单元在输入门合并有效信息;
gt=tanh(Wigxt+big+Whght-1+bhg) (2)
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ct=ftct-1+itgt (4)
其中(Wig,big)和(Whg,bhg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项,(Wii,bii)和(Whi,bhi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项;
最终,LSTM细胞从输出门获取输出隐藏层
ot=σ(Wioxt+bio+Whoht-1+bho) (5)
ht=ottanh(ct) (6)
其中(Wio,bio)和(Who,bho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项;
双向LSTM包含正向LSTM和反向LSTM,一个序列是由三个图像帧组成的,最后的视线跟踪预测是由一个全连接层获得的,这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g;
g=fc(ht,htr) (7)。
CN201811286461.4A 2018-10-31 2018-10-31 一种结合双向LSTM和Itracker的视线跟踪方法 Active CN109559332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811286461.4A CN109559332B (zh) 2018-10-31 2018-10-31 一种结合双向LSTM和Itracker的视线跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811286461.4A CN109559332B (zh) 2018-10-31 2018-10-31 一种结合双向LSTM和Itracker的视线跟踪方法

Publications (2)

Publication Number Publication Date
CN109559332A CN109559332A (zh) 2019-04-02
CN109559332B true CN109559332B (zh) 2021-06-18

Family

ID=65865433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811286461.4A Active CN109559332B (zh) 2018-10-31 2018-10-31 一种结合双向LSTM和Itracker的视线跟踪方法

Country Status (1)

Country Link
CN (1) CN109559332B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110662A (zh) * 2019-05-07 2019-08-09 济南大学 驾驶场景下驾驶员眼动行为检测方法、系统、介质及设备
CN111259713B (zh) * 2019-09-16 2023-07-21 浙江工业大学 一种基于自适应加权的视线跟踪方法
CN111179269B (zh) * 2019-11-11 2023-07-11 浙江工业大学 一种基于多视图和三维卷积融合策略的pet图像分割方法
CN111552322B (zh) * 2020-04-29 2023-04-07 东南大学 基于lstm-粒子滤波器耦合模型的无人机追踪方法
CN112183200B (zh) * 2020-08-25 2023-10-17 中电海康集团有限公司 一种基于视频图像的眼动追踪方法和系统
CN112348786B (zh) * 2020-10-29 2022-09-13 厦门大学 一种基于双向相关性的one-shot脑图像分割方法
CN112308833B (zh) * 2020-10-29 2022-09-13 厦门大学 一种基于循环一致相关性的one-shot脑图像分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017150032A1 (en) * 2016-03-02 2017-09-08 Mitsubishi Electric Corporation Method and system for detecting actions of object in scene
CN107481270A (zh) * 2017-08-10 2017-12-15 上海体育学院 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备
WO2018089158A1 (en) * 2016-11-10 2018-05-17 Qualcomm Incorporated Natural language object tracking
CN108363978A (zh) * 2018-02-12 2018-08-03 华南理工大学 采用深度学习和ukf的基于肢体语言的情感感知方法
CN108932500A (zh) * 2018-07-09 2018-12-04 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017150032A1 (en) * 2016-03-02 2017-09-08 Mitsubishi Electric Corporation Method and system for detecting actions of object in scene
WO2018089158A1 (en) * 2016-11-10 2018-05-17 Qualcomm Incorporated Natural language object tracking
CN107481270A (zh) * 2017-08-10 2017-12-15 上海体育学院 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备
CN108363978A (zh) * 2018-02-12 2018-08-03 华南理工大学 采用深度学习和ukf的基于肢体语言的情感感知方法
CN108932500A (zh) * 2018-07-09 2018-12-04 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Bi-Prediction: Pedestrian Trajectory Prediction Based on Bidirectional LSTM Classification";Xue H;《International Conference on Digital Image Computing: Techniques and Applications》;20171130;第1-9页 *
"深度学习在视觉定位与三维结构恢复中的研究进展";鲍振强;《激光与光电子学进展》;20180531;第1-9页 *

Also Published As

Publication number Publication date
CN109559332A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109559332B (zh) 一种结合双向LSTM和Itracker的视线跟踪方法
CN111160164B (zh) 基于人体骨架和图像融合的动作识别方法
Wang et al. 360sd-net: 360 stereo depth estimation with learnable cost volume
CN110807364B (zh) 三维人脸与眼球运动的建模与捕获方法及系统
CN105631861B (zh) 结合高度图从无标记单目图像中恢复三维人体姿态的方法
CN107204010A (zh) 一种单目图像深度估计方法与系统
CN104978548A (zh) 一种基于三维主动形状模型的视线估计方法与装置
CN105631859B (zh) 三自由度仿生立体视觉系统
CN109407828A (zh) 一种凝视点估计方法及系统、存储介质及终端
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
CN113808160A (zh) 视线方向追踪方法和装置
Wu et al. Eyenet: A multi-task deep network for off-axis eye gaze estimation
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
Bashirov et al. Real-time rgbd-based extended body pose estimation
Su et al. Cross-validated locally polynomial modeling for 2-D/3-D gaze tracking with head-worn devices
CN111259713A (zh) 一种基于自适应加权的视线跟踪方法
Rougeaux et al. Robust tracking by a humanoid vision system
CN113822174B (zh) 视线估计的方法、电子设备及存储介质
Chang et al. Multi-view 3D human pose estimation with self-supervised learning
CN112099330B (zh) 基于外部相机和穿戴式显控设备的全息人体重建方法
CN113192186B (zh) 基于单帧图像的3d人体姿态估计模型建立方法及其应用
WO2023103145A1 (zh) 一种头部姿势真值的获取方法、装置、设备及存储介质
CN116012459A (zh) 基于三维视线估计和屏幕平面估计的鼠标定位的方法
Li et al. Serial-parallel multi-scale feature fusion for anatomy-oriented hand joint detection
Yang et al. Unconstrained human gaze estimation approach for medium-distance scene based on monocular vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant