CN109559332A - 一种结合双向LSTM和Itracker的视线跟踪方法 - Google Patents
一种结合双向LSTM和Itracker的视线跟踪方法 Download PDFInfo
- Publication number
- CN109559332A CN109559332A CN201811286461.4A CN201811286461A CN109559332A CN 109559332 A CN109559332 A CN 109559332A CN 201811286461 A CN201811286461 A CN 201811286461A CN 109559332 A CN109559332 A CN 109559332A
- Authority
- CN
- China
- Prior art keywords
- lstm
- input
- sight
- face
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种结合双向LSTM和Itracker的视线跟踪方法,包括以下步骤:1)数据预处理:1.1)使人脸参考点在距相机固定距离的图像中心;1.2)通过变换矩阵将人脸转换为特定相机空间下图像平面;2)使用双向LSTM的网络结构并结合时序信息进行视线估计;2.1)将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终三维视线方向;2.2)每个LSTM细胞在遗忘门下过滤掉所需丢弃信息,在输入门整合有效信息,在输出门获取所需隐藏层,最后通过全连接层将最后一帧的前向单元和后向单元映射得到视线向量完成视线跟踪。本发明提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响。
Description
技术领域
本发明属于图像处理技术领域,尤其是指一种稳健的视线跟踪方法。
背景技术
视线跟踪系统主要实现人眼视线方向的估计或者受试者注视点的估计。在许多领域被应用,例如医疗辅助、娱乐游戏、市场分析等。然而,现有的视线跟踪系统往往存在以下缺陷:冗余的校准过程、复杂的系统设置、光照条件的限制、不同受试者的非通用校准、对头部运动的容忍度低,限制了注视估计的应用。目前的视线跟踪系统主要可以分为两类,即基于模型的视线跟踪系统和基于外观的视线跟踪系统。
基于模型的视线跟踪系统根据是否使用主动光源(红外线)可以分为角膜反射方法和基于形状的方法。其中角膜反射方法根据人眼的几何模型进行预测,通常需要精确提取瞳孔和红外光斑等特征,因此对设备提出了较高要求。实验过程中需要固定头部姿态或是依靠多个摄像机预测人眼到摄像机的距离实现头部自由移动。基于形状的方法则从观察到的形状(如瞳孔中心、虹膜边缘)来直接推断视线方向。这种方法精确度低,也不能鲁棒地处理低质量图像和不同光照条件下的图像。
在基于模型的视线跟踪系统中,通常需要复杂的设备来完成研究,这大大限制了该方法的应用范围。而基于外观的视线跟踪系统因为设备简单能够满足更大的应用范围而逐渐成为主流方法。基于外观的方法通过从面部或眼睛图像中提取特征进行映射来估计视线方向或注视点。传统的基于外观的方法通过提取眼角等局部特征以及虹膜轮廓等特征向量来映射到最终目标,实现视线跟踪。这些传统的基于外观的方法已经能获得较高的精度,但它们对于头部姿态变化,不同光照变化以及用户个体校准复杂度等方面依旧存在不可忽视的问题。针对这些挑战,一些具有潜力的方法应运而生。例如,Zhang等人利用CNN方法对人眼图像和头部姿态构成映射,实现不同光照下高于传统方法的准确率。Ranjan等人提出了一种基于Alexnet的视线跟踪系统,在维持之前网络层的情况下根据头部姿态分别训练最后两层从而实现对各种头部姿态的较强鲁棒性。
发明内容
为了提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响,本发明提出了一种结合双向LSTM和Itracker的视线跟踪方法,能够在单一摄像头和普通光照的条件下实现稳定精确的视线跟踪。
本发明解决其技术问题所采用的技术方案是:
一种结合双向LSTM和Itracker的视线跟踪方法,所述方法包括以下步骤:
S1.数据预处理:为了弱化不同头部姿态和不同摄像机参数对最终视线估计结果的影响,对原始图像进行透视变换,训练模型在特定的虚拟空间下进行视线估计,步骤如下:
S1.1.使人脸参考点在距相机固定距离的图像中心,过程如下:
首先,假设a是相机空间下的人脸参考点的坐标,则根据虚拟相机下人脸到参考点求得z轴为然后,假设是头部姿态的旋转矩阵,为了使x轴与头部水平方向平行,使得vx=vy×vz,其中vy=vz×hx,假设虚拟相机和参考点的距离为d,最后使用M=SR转换矩阵,其中R=[rx,ry,rz]T;
S1.2.通过变换矩阵将人脸转换为特定相机空间下图像平面,过程如下:
通过warp矩阵实现,其中C0是原相机的内参数矩阵,Cn是虚拟相机的内参数矩阵,由输入图像决定;
与图像的变换类型类似,同样需要在训练过程中转换相应的视觉标签,使用gn=Rg0,其中gn代表归一化后的视线向量,g0代表初始视线向量,使用欧拉角表示单位向量间的约束关系;在测试阶段,对于每一个预测结果,使用g0=R-1gn将结果从虚拟相机空间下转换到原相机空间下;
S2.使用双向LSTM的网络结构并结合时序信息进行视线估计,整体架构分为静态模块和时态模块;
S2.1.静态模块的处理过程如下:
静态模块由两个分支CNN和统一的全连接层组成,CNN将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终二维凝视点,其中一个分支将左眼图像和右眼图像进行连接,形成单一的6通道输入,从拼接的眼睛图像中提取特征,另一分支则从规范化的面部中提取特征。FC层将这两部分的特征进行融合,将学习到的特性作为多对一双向LSTM的输入;
S2.2.动态模块的处理过程如下:
LSTM结构包含一系列重复的LSTM细胞,每个LSTM细胞包含3个单元,分别是遗忘门、输入门、输出门,这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息,其中(xt,ct-1,ht-1)表示输入层,(ht,ct)表示输出层;
在时刻t,ft,it,ot分别表示遗忘门,输入门,输出门,每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息;
ft=σ(wifxt+bif+whfht-1+bhf) (1)
其中(Wif,bif)和(Whf,bhf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项,其中σ是激活函数,选择的激活函数为sigmoid函数;
然后,LSTM单元在输入门合并有效信息;
gt=tanh(Wigxt+big+Whght-1+bhg) (2)
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ct=ftct-1+itgt (4)
其中(Wig,big)和(Whg,bhg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项,(Wii,bii)和(Whi,bhi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项;
最终,LSTM细胞从输出门获取输出隐藏层;
ot=σ(Wioxt+bio+Whoht-1+bho) (5)
ht=ottanh(ct) (6)
其中(Wio,bio)和(Who,bho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项;
双向LSTM包含正向LSTM和反向LSTM,一个序列是由三个图像帧组成的。最后的视线跟踪预测是由一个全连接层获得的,这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g;
g=fc(ht,htr) (7)。
本发明的有益效果为:提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响,并最终在单一摄像头和普通光照的条件下实现稳定精确的视线跟踪。
附图说明
图1是3D视线跟踪方法的总体架构图。
图2是静态特征提取模块图。
图3是时序模块图。
图4是单个LSTM细胞结构图。
图5(a)和(b)是本发明与其他先进的基于人脸的视线跟踪方法分别在MPIIGAZE和EyeDiap数据库上的比较结果图。
图6(a)和(b)是本发明分别在MPIIGAZE和EyeDiap数据库上分别验证eye模块,face模块和两者结合模块的作用影响图。
图7(a)和(b)是本发明分别在MPIIGAZE和EyeDiap数据库上进行的分辨率实验结果图。
图8在MPIIGAZE数据库上对不同网络结合时序模型的作用影响图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图10,一种结合双向LSTM和Itracker的视线跟踪方法,所述方法包括以下步骤:
S1.数据预处理:为了弱化不同头部姿态和不同摄像机参数对最终视线估计结果的影响,对原始图像进行透视变换,训练模型在特定的虚拟空间下进行视线估计,步骤如下:
S1.1.使人脸参考点在距相机固定距离的图像中心,过程如下:
首先,假设a是相机空间下的人脸参考点的坐标,则根据虚拟相机下人脸到参考点求得z轴为然后,假设是头部姿态的旋转矩阵,为了使x轴与头部水平方向平行,使得vx=vy×vz,其中vy=vz×hx,假设虚拟相机和参考点的距离为d,最后使用M=SR转换矩阵,其中R=[rx,ry,rz]T;
S1.2.通过变换矩阵将人脸转换为特定相机空间下图像平面,过程如下:
通过warp矩阵实现,W=C0MCn -1,其中C0是原相机的内参数矩阵,Cn是虚拟相机的内参数矩阵,由输入图像决定;
与图像的变换类型类似,同样需要在训练过程中转换相应的视觉标签,使用gn=Rg0,其中gn代表归一化后的视线向量,g0代表初始视线向量,使用欧拉角表示单位向量间的约束关系,在测试阶段,对于每一个预测结果,使用g0=R-1gn将结果从虚拟相机空间下转换到原相机空间下;
S2.使用双向LSTM的网络结构并结合时序信息进行视线估计,整体架构如图一所示,分为静态模块和时态模块;
S2.1.静态模块的处理过程如下:
静态模块由两个分支CNN和统一的全连接层组成,如图2所示,CNN将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终二维凝视点,其中一个分支将左眼图像和右眼图像进行连接,形成单一的6通道输入,从拼接的眼睛图像中提取特征,另一分支则从规范化的面部中提取特征。FC层将这两部分的特征进行融合,将学习到的特性作为多对一bi-LSTM的输入;
S2.2.动态模块,过程如下:
如图3所示,LSTM结构包含一系列重复的LSTM细胞,每个LSTM细胞(图四所示)包含3个单元,分别是遗忘门、输入门、输出门,这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息,其中(xt,ct-1,ht-1)表示输入层,(ht,ct)表示输入层;
在时刻t,ft,it,ot分别表示遗忘门,输入门,输出门。每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息;
ft=σ(wifxt+bif+whfht-1+bhf) (1)
其中(Wif,bif)和(Whf,bhf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项,其中σ是激活函数,选择的激活函数为sigmoid函数;
然后,LSTM单元在输入门合并有效信息;
gt=tanh(Wigxt+big+Whght-1+bhg) (2)
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ct=ftct-1+itgt (4)
其中(Wig,big)和(Whg,bhg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项,(Wii,bii)和(Whi,bhi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项;
最终,LSTM细胞从输出门获取输出隐藏层;
ot=σ(Wioxt+bio+Whoht-1+bho) (5)
ht=ottanh(ct) (6)
其中(Wio,bio)和(Who,bho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项;
由图2可知,双向LSTM包含正向LSTM和反向LSTM,一个序列是由三个图像帧组成的。最后的视线跟踪预测是由一个全连接层获得的,这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g;
g=fc(ht,htr) (7)。
Claims (1)
1.一种结合双向LSTM和Itracker的视线跟踪方法,其特征在于,所述方法包括以下步骤:
S1.数据预处理:对原始图像进行透视变换,训练模型在特定的虚拟空间下进行视线估计,步骤如下:
S1.1.使人脸参考点在距相机固定距离的图像中心,过程如下:
首先,假设a是相机空间下的人脸参考点的坐标,则根据虚拟相机下人脸到参考点求得z轴为然后,假设H[hx,hy,hz]是头部姿态的旋转矩阵,为了使x轴与头部水平方向平行,使得vx=vy×vz,其中vy=vz×hx,假设虚拟相机和参考点的距离为d,最后使用M=SR转换矩阵,其中R=[rx,ry,rz]T;
S1.2.通过变换矩阵将人脸转换为特定相机空间下图像平面,过程如下:
通过warp矩阵实现,W=C0MCn -1,其中C0是原相机的内参数矩阵,Cn是虚拟相机的内参数矩阵,由输入图像决定;
与图像的变换类型类似,同样需要在训练过程中转换相应的视觉标签,使用gn=Rg0,其中gn代表归一化后的视线向量,g0代表初始视线向量,使用欧拉角表示单位向量间的约束关系;在测试阶段,对于每一个预测结果,使用g0=R-1gn将结果从虚拟相机空间下转换到原相机空间下;
S2.使用双向LSTM的网络结构并结合时序信息进行视线估计,整体架构分为静态模块和时态模块;
S2.1.静态模块的处理过程如下:
静态模块由两个分支CNN和统一的全连接层组成,CNN将脸、左眼、右眼分别输入到网络的一个分支中,最后从每个分支中提取合并特征映射到屏幕上,得到最终二维凝视点;其中一个分支将左眼图像和右眼图像进行连接,形成单一的6通道输入,从拼接的眼睛图像中提取特征,另一分支则从规范化的面部中提取特征,FC层将这两部分的特征进行融合,将学习到的特性作为多对一bi-LSTM的输入;
S2.2.动态模块的处理过程如下:
LSTM结构包含一系列重复的LSTM细胞,每个LSTM细胞包含3个单元,分别是遗忘门、输入门、输出门;这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息,其中(xt,ct-1,ht-1)表示输入层,(ht,ct)表示输入层;
在时刻t,ft,it,ot分别表示遗忘门,输入门,输出门,每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息;
ft=σ(wifxt+bif+whfht-1+bhf) (1)
其中(Wif,bif)和(Whf,bhf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项,其中σ是激活函数,选择的激活函数为sigmoid函数;
然后,LSTM单元在输入门合并有效信息;
gt=tanh(Wigxt+big+Whght-1+bhg) (2)
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ct=ftct-1+itgt (4)
其中(Wig,big)和(Whg,bhg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项,(Wii,bii)和(Whi,bhi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项;
最终,LSTM细胞从输出门获取输出隐藏层
ot=σ(Wioxt+bio+Whoht-1+bho) (5)
ht=ottanh(ct) (6)
其中(Wio,bio)和(Who,bho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项;
双向LSTM包含正向LSTM和反向LSTM,一个序列是由三个图像帧组成的,最后的视线跟踪预测是由一个全连接层获得的,这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g;
g=fc(ht,htr) (7)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811286461.4A CN109559332B (zh) | 2018-10-31 | 2018-10-31 | 一种结合双向LSTM和Itracker的视线跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811286461.4A CN109559332B (zh) | 2018-10-31 | 2018-10-31 | 一种结合双向LSTM和Itracker的视线跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109559332A true CN109559332A (zh) | 2019-04-02 |
CN109559332B CN109559332B (zh) | 2021-06-18 |
Family
ID=65865433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811286461.4A Active CN109559332B (zh) | 2018-10-31 | 2018-10-31 | 一种结合双向LSTM和Itracker的视线跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109559332B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110662A (zh) * | 2019-05-07 | 2019-08-09 | 济南大学 | 驾驶场景下驾驶员眼动行为检测方法、系统、介质及设备 |
CN111179269A (zh) * | 2019-11-11 | 2020-05-19 | 浙江工业大学 | 一种基于多视图和3维卷积融合策略的pet图像分割方法 |
CN111259713A (zh) * | 2019-09-16 | 2020-06-09 | 浙江工业大学 | 一种基于自适应加权的视线跟踪方法 |
CN111552322A (zh) * | 2020-04-29 | 2020-08-18 | 东南大学 | 基于lstm-粒子滤波器耦合模型的无人机追踪方法 |
CN112183200A (zh) * | 2020-08-25 | 2021-01-05 | 中电海康集团有限公司 | 一种基于视频图像的眼动追踪方法和系统 |
CN112308833A (zh) * | 2020-10-29 | 2021-02-02 | 厦门大学 | 一种基于循环一致相关性的one-shot脑图像分割方法 |
CN112348786A (zh) * | 2020-10-29 | 2021-02-09 | 厦门大学 | 一种基于双向相关性的one-shot脑图像分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017150032A1 (en) * | 2016-03-02 | 2017-09-08 | Mitsubishi Electric Corporation | Method and system for detecting actions of object in scene |
CN107481270A (zh) * | 2017-08-10 | 2017-12-15 | 上海体育学院 | 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备 |
WO2018089158A1 (en) * | 2016-11-10 | 2018-05-17 | Qualcomm Incorporated | Natural language object tracking |
CN108363978A (zh) * | 2018-02-12 | 2018-08-03 | 华南理工大学 | 采用深度学习和ukf的基于肢体语言的情感感知方法 |
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
-
2018
- 2018-10-31 CN CN201811286461.4A patent/CN109559332B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017150032A1 (en) * | 2016-03-02 | 2017-09-08 | Mitsubishi Electric Corporation | Method and system for detecting actions of object in scene |
WO2018089158A1 (en) * | 2016-11-10 | 2018-05-17 | Qualcomm Incorporated | Natural language object tracking |
CN107481270A (zh) * | 2017-08-10 | 2017-12-15 | 上海体育学院 | 乒乓球目标跟踪和轨迹预测方法、装置、存储介质和计算机设备 |
CN108363978A (zh) * | 2018-02-12 | 2018-08-03 | 华南理工大学 | 采用深度学习和ukf的基于肢体语言的情感感知方法 |
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
XUE H: ""Bi-Prediction: Pedestrian Trajectory Prediction Based on Bidirectional LSTM Classification"", 《INTERNATIONAL CONFERENCE ON DIGITAL IMAGE COMPUTING: TECHNIQUES AND APPLICATIONS》 * |
鲍振强: ""深度学习在视觉定位与三维结构恢复中的研究进展"", 《激光与光电子学进展》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110662A (zh) * | 2019-05-07 | 2019-08-09 | 济南大学 | 驾驶场景下驾驶员眼动行为检测方法、系统、介质及设备 |
CN111259713A (zh) * | 2019-09-16 | 2020-06-09 | 浙江工业大学 | 一种基于自适应加权的视线跟踪方法 |
CN111259713B (zh) * | 2019-09-16 | 2023-07-21 | 浙江工业大学 | 一种基于自适应加权的视线跟踪方法 |
CN111179269A (zh) * | 2019-11-11 | 2020-05-19 | 浙江工业大学 | 一种基于多视图和3维卷积融合策略的pet图像分割方法 |
CN111179269B (zh) * | 2019-11-11 | 2023-07-11 | 浙江工业大学 | 一种基于多视图和三维卷积融合策略的pet图像分割方法 |
CN111552322A (zh) * | 2020-04-29 | 2020-08-18 | 东南大学 | 基于lstm-粒子滤波器耦合模型的无人机追踪方法 |
CN112183200A (zh) * | 2020-08-25 | 2021-01-05 | 中电海康集团有限公司 | 一种基于视频图像的眼动追踪方法和系统 |
CN112183200B (zh) * | 2020-08-25 | 2023-10-17 | 中电海康集团有限公司 | 一种基于视频图像的眼动追踪方法和系统 |
CN112308833A (zh) * | 2020-10-29 | 2021-02-02 | 厦门大学 | 一种基于循环一致相关性的one-shot脑图像分割方法 |
CN112348786A (zh) * | 2020-10-29 | 2021-02-09 | 厦门大学 | 一种基于双向相关性的one-shot脑图像分割方法 |
CN112348786B (zh) * | 2020-10-29 | 2022-09-13 | 厦门大学 | 一种基于双向相关性的one-shot脑图像分割方法 |
CN112308833B (zh) * | 2020-10-29 | 2022-09-13 | 厦门大学 | 一种基于循环一致相关性的one-shot脑图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109559332B (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559332A (zh) | 一种结合双向LSTM和Itracker的视线跟踪方法 | |
CN110807364B (zh) | 三维人脸与眼球运动的建模与捕获方法及系统 | |
CN107204010B (zh) | 一种单目图像深度估计方法与系统 | |
Joo et al. | Panoptic studio: A massively multiview system for social motion capture | |
CN107545302B (zh) | 一种人眼左右眼图像联合的视线方向计算方法 | |
Ji | 3D face pose estimation and tracking from a monocular camera | |
CN108256504A (zh) | 一种基于深度学习的三维动态手势识别方法 | |
CN107392120B (zh) | 一种基于视线估计的注意力智能监督方法 | |
US20220051437A1 (en) | 3D Human Pose Estimation System | |
CN106796449A (zh) | 视线追踪方法及装置 | |
CN104978548A (zh) | 一种基于三维主动形状模型的视线估计方法与装置 | |
CN102622766A (zh) | 多目标优化的多镜头人体运动跟踪方法 | |
CN103356163A (zh) | 基于视频图像和人工神经网络的凝视点测量装置及其方法 | |
CN109407828A (zh) | 一种凝视点估计方法及系统、存储介质及终端 | |
CN113808160A (zh) | 视线方向追踪方法和装置 | |
Wu et al. | Eyenet: A multi-task deep network for off-axis eye gaze estimation | |
CN104821010A (zh) | 基于双目视觉的人手三维信息实时提取方法及系统 | |
CN111046734A (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN114119739A (zh) | 一种基于双目视觉的手部关键点空间坐标获取方法 | |
CN111145865A (zh) | 一种基于视觉的手部精细动作训练指导系统及方法 | |
CN111259713A (zh) | 一种基于自适应加权的视线跟踪方法 | |
CN110472546B (zh) | 一种婴幼儿非接触式眼动特征提取装置及方法 | |
CN116682140A (zh) | 基于注意力机制多模态融合的三维人体姿态估计算法 | |
Jiang et al. | An action recognition algorithm for sprinters using machine learning | |
Asperti et al. | Deep learning for head pose estimation: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |