CN113468971A - 一种基于外观的变分注视估计方法 - Google Patents
一种基于外观的变分注视估计方法 Download PDFInfo
- Publication number
- CN113468971A CN113468971A CN202110628324.XA CN202110628324A CN113468971A CN 113468971 A CN113468971 A CN 113468971A CN 202110628324 A CN202110628324 A CN 202110628324A CN 113468971 A CN113468971 A CN 113468971A
- Authority
- CN
- China
- Prior art keywords
- gaze
- iris
- eyeball
- variational
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Eye Examination Apparatus (AREA)
Abstract
Description
技术领域
本发明属于图像处理和模式识别技术领域,具体涉及一种基于外观的变分注视估计方法。
背景技术
视线估计是计算机视觉研究中一个经典的问题,现有的基于眼睛图像进行视线估计的方法:(1)基于模型的方法;(2)基于卷积神经网络的外观的方法。
目前基于外观的视线估计方法着手在低分辨率、部分遮挡或暗度图像上进行视线估计,这些挑战给预测的凝视方向带来了很大的不确定性,现有的方法的主要问题有:(1)头部运动带来的视线估计不准确;(2)需要标定相机,需要测量环境距离;(3)需要专业的,昂贵的硬件设备;(4)精度不够高。
发明内容
针对现有技术中的不足与难题,本发明旨在提供一种基于外观的变分注视估计方法,为了实现图片或视频中人眼的视线方向,先通过受约束的局部神经域模型(Constrained Local Neural Fields,CLNF)算法对图片中的人脸关键点检测,再将人的单眼图像自动裁剪出来;我们将人眼图像进行标准化;随后将图像送进我们发明的多层变分卷积神经网络生成视线表示图;最后在视线表视图中进行回归得到估计的视线三维角度。
本发明通过以下技术方案予以实现:
一种基于外观的变分注视估计方法,该方法步骤包括:
步骤S1:采用CLNF算法来对人脸关键点进行定位建立数据集,再将人脸中的单眼图片裁剪出来;
步骤S2:对人眼图像进行图像识别,在步骤S1数据集之中截取下来的眼球和虹膜的单眼图像为x,z是x的隐藏变量,对单眼图像x中人眼的视线方向Ground Truth进行建模,进而得到的眼球和虹膜形状的图形表示y;
基于变分自动编码器(CVAE)的条件生成任务需要考虑两个方面:数据集中眼球和虹膜的单眼图像x,以及眼球和虹膜形状的图形表示y,z是x的隐藏变量;
为了最大化由z和y控制的图像生成器的后验概率argmaxxp(x|z,y),需要对这两个变量建模;由于许多数据集没有提供y,因此步骤S2中首先获取y,具体为:在步骤S2中,建立模型对眼球和虹膜可进行描述,在该模型中将眼球投影为一个球体,虹膜为椭圆形,y大小为m×n,设置投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴;虹膜中心(ui,vi)的坐标为:
优化地,步骤S3中的神经网络由先验网络Pθ和后验网络Qφ组成,Pθ包括编码器网络Eφ和解码器网络Dθ;步骤S3具体包括:
S31,Qφ将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μe,μe);
S32,Pθ通过将单眼图像x作为输入来生成先验分布N(μp,μp);
S33,通过最小化S31和S32分布之间的KL散度,迫使前者和后者分布彼此更靠近;
S33、S34的损失函数为:
其中,qφ(z|x,y)=N(μe,μe),pθ(z|x)=N(μp,μp),N是训练图像的数量;将两个损失函数相加则为重构注视表示图的总损失:
优化地,步骤S4中的损失函数为
与现有技术相比,本发明有益效果包括:
(1)本发明在概率推断框架下解决了凝视估计任务,将注视估计表述为分层条件推理问题,很好地应对概率建模中因凝视图像上的低分辨率、部分遮挡或暗度等给预测的凝视方向带来的不确定性挑战。
(2)本发明开发了一种变分注视估计网络,可以通过采样生成多个有效的同时互补的注视图表示,从而实现更准确、更可靠、更客观、更便捷、更快速的注视方向预测。
(2)本发明精确度得到大幅度提高,误差仅只有3.9°。
(3)本发明无需苛刻的实验室环境,无需特殊的设备,只需眼部图片。
附图说明
图1为本发明中眼球和虹膜投影模型图;
图2为本发明中神经网络框架图。
具体实施方式
下面结合附图,对本发明作进一步地说明。
一种基于外观的变分注视估计方法,具体工作流程如下:
(1)首先,采用局部约束神经元域(Constrained Local Neural Fields,CLNF)来对人脸关键点进行定位,随后将人脸中的单眼图片裁剪出来。
(2)将裁剪出来的单眼图片送入到神经网络中得到注视表示图。
现有网络是基于变分自动编码器(VAE)来对其注视表示图进行生成,但是通过变分自动编码器(VAE)的概率建模来构造注视表示并不容易,因此我们转换为基于变分自动编码器(CVAE)的条件生成任务,更具体地说,要生成注视表示图我们需要考虑两个方面:数据集中眼球和虹膜的单眼图像x,以及眼球和虹膜形状的图形表示y,在此,z是x的隐藏变量;
为了最大化由z和y控制的图像生成器的后验概率argmaxxp(x|z,y),我们需要对这两个变量建模,由于许多数据集没有提供y,因此我们必须首先获取y;
我们认为眼球和虹膜可以通过一个简单的模型来描述,在该模型中将眼球投影为一个完美的球体,虹膜为椭圆形,如图1所示,y大小为m×n,我们假设投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴,虹膜中心(ui,vi)的坐标为:
(3)将x,y一起输入到网络中
如图2所示,设计的网络主要由先验网络Pθ和后验网络Qφ组成,Pθ包括编码器网络Eφ和解码器网络Dθ,Qφ将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μe,μe)。
为了将来自潜在分布的采样潜在变量z与y相关联,我们添加Pθ以确保学习的潜在分布与通过推理获得的潜在分布一致;
Pθ通过将单眼图像x作为输入来生成先验分布N(μp,μp);
通过最小化前者和后者之间的KL散度,迫使前者和后者分布彼此更靠近;
此部分的损失函数为:
其中,qφ(z|x,y)=N(μe,μe),pθ(z|x)=N(μp,μp),N是训练图像的数量,将两个损失函数相加则为重构注视表示图的总损失:
在实验中我们对网络的性能进行了测试,经过我们设计的此网络进行视线估计的误差仅为3.9°。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (4)
3.根据权利要求1所述的一种基于外观的变分注视估计方法,其特征在于:所述步骤S3中的神经网络由先验网络Pθ和后验网络Qφ组成,Pθ包括编码器网络Eφ和解码器网络Dθ;所述步骤S3具体包括:
S31,Qφ将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μe,μe);
S32,Pθ通过将单眼图像x作为输入来生成先验分布N(μp,μp);
S33,通过最小化S31和S32分布之间的KL散度,迫使前者和后者分布彼此更靠近;
所述S33与S34的损失函数分别为:
式中,qφ(z|x,y)=N(μe,μe),pθ(z|x)=N(μp,μp),N是训练图像的数量;将两个损失函数相加则为重构注视表示图的总损失:
L≡LKL+Lr。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628324.XA CN113468971A (zh) | 2021-06-04 | 2021-06-04 | 一种基于外观的变分注视估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628324.XA CN113468971A (zh) | 2021-06-04 | 2021-06-04 | 一种基于外观的变分注视估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468971A true CN113468971A (zh) | 2021-10-01 |
Family
ID=77872286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628324.XA Pending CN113468971A (zh) | 2021-06-04 | 2021-06-04 | 一种基于外观的变分注视估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468971A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862124A (zh) * | 2023-02-16 | 2023-03-28 | 南昌虚拟现实研究院股份有限公司 | 视线估计方法、装置、可读存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458001A (zh) * | 2019-06-28 | 2019-11-15 | 南昌大学 | 一种基于注意力机制的卷积神经网络视线估计方法及系统 |
CN111626152A (zh) * | 2020-05-13 | 2020-09-04 | 闽江学院 | 一种基于Few-shot的时空视线方向估计原型设计 |
-
2021
- 2021-06-04 CN CN202110628324.XA patent/CN113468971A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458001A (zh) * | 2019-06-28 | 2019-11-15 | 南昌大学 | 一种基于注意力机制的卷积神经网络视线估计方法及系统 |
CN111626152A (zh) * | 2020-05-13 | 2020-09-04 | 闽江学院 | 一种基于Few-shot的时空视线方向估计原型设计 |
Non-Patent Citations (2)
Title |
---|
AYUSH KUMAR等: "Eye Gaze Estimation Model Analysis", 《RESEARCHGATE》 * |
WOLFGANG FUHL: "Fully Convolutional Neural Networks for Raw Eye Tracking Data Segmentation, Generation, and Reconstruction", 《IEEE》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862124A (zh) * | 2023-02-16 | 2023-03-28 | 南昌虚拟现实研究院股份有限公司 | 视线估计方法、装置、可读存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Modeling surface appearance from a single photograph using self-augmented convolutional neural networks | |
Song et al. | Neural illumination: Lighting prediction for indoor environments | |
US11854118B2 (en) | Method for training generative network, method for generating near-infrared image and device | |
US9361723B2 (en) | Method for real-time face animation based on single video camera | |
Li et al. | Robust flow-guided neural prediction for sketch-based freeform surface modeling | |
KR102509398B1 (ko) | 비디오 회의에서의 감정 인식 | |
EP4150880A1 (en) | Method and system for virtual 3d communications | |
WO2021004257A1 (zh) | 视线检测和视频处理的方法、装置、设备和存储介质 | |
WO2020091891A1 (en) | Cross-domain image translation | |
Zheng et al. | Self-learning transformations for improving gaze and head redirection | |
US20240046557A1 (en) | Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model | |
CN111784821A (zh) | 三维模型生成方法、装置、计算机设备及存储介质 | |
US20230083909A1 (en) | Image analysis and gaze redirection using characteristics of the eye | |
KR20220117324A (ko) | 다양한 초상화들로부터 학습 조명 | |
US20220198731A1 (en) | Pixel-aligned volumetric avatars | |
EP3417424A1 (en) | Real-time detection of object scanability | |
US20230146178A1 (en) | Attention based audio adjustment in virtual environments | |
Kaur et al. | Eyegan: Gaze-preserving, mask-mediated eye image synthesis | |
WO2022148248A1 (zh) | 图像处理模型的训练方法、图像处理方法、装置、电子设备及计算机程序产品 | |
CN113468971A (zh) | 一种基于外观的变分注视估计方法 | |
Ma et al. | Deformable Neural Radiance Fields using RGB and Event Cameras | |
Alkaddour et al. | Self-supervised approach for facial movement based optical flow | |
WO2022096105A1 (en) | 3d tongue reconstruction from single images | |
Funes Mora et al. | Eyediap database: Data description and gaze tracking evaluation benchmarks | |
Taheri et al. | Joint albedo estimation and pose tracking from video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211001 |
|
RJ01 | Rejection of invention patent application after publication |