CN113468971A - 一种基于外观的变分注视估计方法 - Google Patents

一种基于外观的变分注视估计方法 Download PDF

Info

Publication number
CN113468971A
CN113468971A CN202110628324.XA CN202110628324A CN113468971A CN 113468971 A CN113468971 A CN 113468971A CN 202110628324 A CN202110628324 A CN 202110628324A CN 113468971 A CN113468971 A CN 113468971A
Authority
CN
China
Prior art keywords
gaze
iris
eyeball
variational
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110628324.XA
Other languages
English (en)
Inventor
李菁
时靖悦
陈则金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202110628324.XA priority Critical patent/CN113468971A/zh
Publication of CN113468971A publication Critical patent/CN113468971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本发明公开了一种基于外观的变分注视估计方法,该方法包括(1)采用CLNF算法来对人脸关键点进行定位,再将人脸中的单眼图片裁剪出来;(2)对人眼图像进行图像识别,建立模型,确定出数据集中眼球和虹膜的图像x,以及眼球和虹膜形状的图形表示y,z是x的隐藏变量;(3)将x,y输入神经网络中,基于变分自动编码器(CVAE)的条件生成注视表示图
Figure DDA0003101366630000011
(4)基于注视表示图
Figure DDA0003101366630000012
Figure DDA0003101366630000013
上对视线的方向进行估计。本发明将注视估计表述为分层条件推理问题,可以很好地应对概率建模带来的不确定性挑战,本发明开发了一种变分注视估计网络,该网络可以通过采样生成多个有效的同时互补的注视图表示,从而实现更准确,更可靠的注视方向预测。

Description

一种基于外观的变分注视估计方法
技术领域
本发明属于图像处理和模式识别技术领域,具体涉及一种基于外观的变分注视估计方法。
背景技术
视线估计是计算机视觉研究中一个经典的问题,现有的基于眼睛图像进行视线估计的方法:(1)基于模型的方法;(2)基于卷积神经网络的外观的方法。
目前基于外观的视线估计方法着手在低分辨率、部分遮挡或暗度图像上进行视线估计,这些挑战给预测的凝视方向带来了很大的不确定性,现有的方法的主要问题有:(1)头部运动带来的视线估计不准确;(2)需要标定相机,需要测量环境距离;(3)需要专业的,昂贵的硬件设备;(4)精度不够高。
发明内容
针对现有技术中的不足与难题,本发明旨在提供一种基于外观的变分注视估计方法,为了实现图片或视频中人眼的视线方向,先通过受约束的局部神经域模型(Constrained Local Neural Fields,CLNF)算法对图片中的人脸关键点检测,再将人的单眼图像自动裁剪出来;我们将人眼图像进行标准化;随后将图像送进我们发明的多层变分卷积神经网络生成视线表示图;最后在视线表视图中进行回归得到估计的视线三维角度。
本发明通过以下技术方案予以实现:
一种基于外观的变分注视估计方法,该方法步骤包括:
步骤S1:采用CLNF算法来对人脸关键点进行定位建立数据集,再将人脸中的单眼图片裁剪出来;
步骤S2:对人眼图像进行图像识别,在步骤S1数据集之中截取下来的眼球和虹膜的单眼图像为x,z是x的隐藏变量,对单眼图像x中人眼的视线方向Ground Truth进行建模,进而得到的眼球和虹膜形状的图形表示y;
步骤S3;将x,y输入神经网络中,基于变分自动编码器(CVAE)的条件生成注视表示图
Figure BDA0003101366610000021
步骤S4:基于注视表示图
Figure BDA0003101366610000022
Figure BDA0003101366610000023
上对视线的方向进行估计。
基于变分自动编码器(CVAE)的条件生成任务需要考虑两个方面:数据集中眼球和虹膜的单眼图像x,以及眼球和虹膜形状的图形表示y,z是x的隐藏变量;
为了最大化由z和y控制的图像生成器的后验概率argmaxxp(x|z,y),需要对这两个变量建模;由于许多数据集没有提供y,因此步骤S2中首先获取y,具体为:在步骤S2中,建立模型对眼球和虹膜可进行描述,在该模型中将眼球投影为一个球体,虹膜为椭圆形,y大小为m×n,设置投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴;虹膜中心(ui,vi)的坐标为:
Figure BDA0003101366610000024
式(1)中,
Figure BDA0003101366610000025
凝视方向g=(γ,η),进而得到了眼球和虹膜形状的图形表示y。
优化地,步骤S3中的神经网络由先验网络Pθ和后验网络Qφ组成,Pθ包括编码器网络Eφ和解码器网络Dθ;步骤S3具体包括:
S31,Qφ将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μe,μe);
S32,Pθ通过将单眼图像x作为输入来生成先验分布N(μp,μp);
S33,通过最小化S31和S32分布之间的KL散度,迫使前者和后者分布彼此更靠近;
S34,解码器Dθ从潜在分布N(μe,μe)提取样本并重构注视表示图
Figure BDA0003101366610000027
S33、S34的损失函数为:
Figure BDA0003101366610000026
其中,qφ(z|x,y)=N(μe,μe),pθ(z|x)=N(μp,μp),N是训练图像的数量;将两个损失函数相加则为重构注视表示图的总损失:
Figure BDA0003101366610000031
优化地,步骤S4中的损失函数为
Figure BDA0003101366610000032
与现有技术相比,本发明有益效果包括:
(1)本发明在概率推断框架下解决了凝视估计任务,将注视估计表述为分层条件推理问题,很好地应对概率建模中因凝视图像上的低分辨率、部分遮挡或暗度等给预测的凝视方向带来的不确定性挑战。
(2)本发明开发了一种变分注视估计网络,可以通过采样生成多个有效的同时互补的注视图表示,从而实现更准确、更可靠、更客观、更便捷、更快速的注视方向预测。
(2)本发明精确度得到大幅度提高,误差仅只有3.9°。
(3)本发明无需苛刻的实验室环境,无需特殊的设备,只需眼部图片。
附图说明
图1为本发明中眼球和虹膜投影模型图;
图2为本发明中神经网络框架图。
具体实施方式
下面结合附图,对本发明作进一步地说明。
一种基于外观的变分注视估计方法,具体工作流程如下:
(1)首先,采用局部约束神经元域(Constrained Local Neural Fields,CLNF)来对人脸关键点进行定位,随后将人脸中的单眼图片裁剪出来。
(2)将裁剪出来的单眼图片送入到神经网络中得到注视表示图。
现有网络是基于变分自动编码器(VAE)来对其注视表示图进行生成,但是通过变分自动编码器(VAE)的概率建模来构造注视表示并不容易,因此我们转换为基于变分自动编码器(CVAE)的条件生成任务,更具体地说,要生成注视表示图
Figure BDA0003101366610000041
我们需要考虑两个方面:数据集中眼球和虹膜的单眼图像x,以及眼球和虹膜形状的图形表示y,在此,z是x的隐藏变量;
为了最大化由z和y控制的图像生成器的后验概率argmaxxp(x|z,y),我们需要对这两个变量建模,由于许多数据集没有提供y,因此我们必须首先获取y;
我们认为眼球和虹膜可以通过一个简单的模型来描述,在该模型中将眼球投影为一个完美的球体,虹膜为椭圆形,如图1所示,y大小为m×n,我们假设投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴,虹膜中心(ui,vi)的坐标为:
Figure BDA0003101366610000042
其中,
Figure BDA0003101366610000043
凝视方向g=(γ,η)。因此,我们得到了眼球和虹膜形状的图形表示y。
(3)将x,y一起输入到网络中
如图2所示,设计的网络主要由先验网络Pθ和后验网络Qφ组成,Pθ包括编码器网络Eφ和解码器网络Dθ,Qφ将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μe,μe)。
为了将来自潜在分布的采样潜在变量z与y相关联,我们添加Pθ以确保学习的潜在分布与通过推理获得的潜在分布一致;
Pθ通过将单眼图像x作为输入来生成先验分布N(μp,μp);
通过最小化前者和后者之间的KL散度,迫使前者和后者分布彼此更靠近;
最后,解码器Dθ从潜在分布N(μe,μe)提取样本并重构注视表示图
Figure BDA0003101366610000044
此部分的损失函数为:
Figure BDA0003101366610000051
其中,qφ(z|x,y)=N(μe,μe),pθ(z|x)=N(μp,μp),N是训练图像的数量,将两个损失函数相加则为重构注视表示图的总损失:
Figure BDA0003101366610000052
(4)在得到注视表示图
Figure BDA0003101366610000053
我们将在
Figure BDA0003101366610000054
上对视线的方向进行估计。其损失函数为:
Figure BDA0003101366610000055
在实验中我们对网络的性能进行了测试,经过我们设计的此网络进行视线估计的误差仅为3.9°。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于外观的变分注视估计方法,其特征在于:所述方法步骤包括:
步骤S1:采用CLNF算法来对人脸关键点进行定位形成数据集,再将人脸中的单眼图片裁剪出来;
步骤S2:对人眼图像进行图像识别,在步骤S1数据集之中截取下来的眼球和虹膜的单眼图像为x,z是x的隐藏变量,对单眼图像x中人眼的视线方向Ground Truth进行建模,进而得到的眼球和虹膜形状的图形表示y;
步骤S3;将x,y输入神经网络中,基于变分自动编码器的条件生成注视表示图
Figure FDA0003101366600000011
步骤S4:基于注视表示图
Figure FDA0003101366600000012
Figure FDA0003101366600000013
上对视线的方向进行估计。
2.根据权利要求1所述的一种基于外观的变分注视估计方法,其特征在于:所述步骤S2中,为了最大化由z和y控制的图像生成器的后验概率argmaxxp(x|z,y),对z和y两个变量进行建模;
为解决数据集没有提供y的问题,进行建模首先获取y,具体为:建立模型对眼球和虹膜进行描述,在该模型中将眼球投影为一个球体,虹膜为椭圆形,y大小为m×n,设置投影眼球的直径2r=1.2n,其中r是虹膜的长轴,r|cosθcosφ|是短轴;虹膜中心(ui,vi)的坐标为:
Figure FDA0003101366600000014
Figure FDA0003101366600000015
式中,
Figure FDA0003101366600000016
凝视方向g=(γ,η),进而得到了眼球和虹膜形状的图形表示y。
3.根据权利要求1所述的一种基于外观的变分注视估计方法,其特征在于:所述步骤S3中的神经网络由先验网络Pθ和后验网络Qφ组成,Pθ包括编码器网络Eφ和解码器网络Dθ;所述步骤S3具体包括:
S31,Qφ将单眼图像x和条件y作为输入,并获知眼球和虹膜的潜在分布N(μe,μe);
S32,Pθ通过将单眼图像x作为输入来生成先验分布N(μp,μp);
S33,通过最小化S31和S32分布之间的KL散度,迫使前者和后者分布彼此更靠近;
S34,解码器Dθ从潜在分布N(μe,μe)提取样本并重构注视表示图
Figure FDA0003101366600000021
所述S33与S34的损失函数分别为:
Figure FDA0003101366600000022
Figure FDA0003101366600000023
式中,qφ(z|x,y)=N(μe,μe),pθ(z|x)=N(μp,μp),N是训练图像的数量;将两个损失函数相加则为重构注视表示图的总损失:
L≡LKL+Lr
4.根据权利要求1所述的一种基于外观的变分注视估计方法,其特征在于:所述步骤S4中的损失函数为:
Figure FDA0003101366600000024
CN202110628324.XA 2021-06-04 2021-06-04 一种基于外观的变分注视估计方法 Pending CN113468971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110628324.XA CN113468971A (zh) 2021-06-04 2021-06-04 一种基于外观的变分注视估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110628324.XA CN113468971A (zh) 2021-06-04 2021-06-04 一种基于外观的变分注视估计方法

Publications (1)

Publication Number Publication Date
CN113468971A true CN113468971A (zh) 2021-10-01

Family

ID=77872286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110628324.XA Pending CN113468971A (zh) 2021-06-04 2021-06-04 一种基于外观的变分注视估计方法

Country Status (1)

Country Link
CN (1) CN113468971A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862124A (zh) * 2023-02-16 2023-03-28 南昌虚拟现实研究院股份有限公司 视线估计方法、装置、可读存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458001A (zh) * 2019-06-28 2019-11-15 南昌大学 一种基于注意力机制的卷积神经网络视线估计方法及系统
CN111626152A (zh) * 2020-05-13 2020-09-04 闽江学院 一种基于Few-shot的时空视线方向估计原型设计

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458001A (zh) * 2019-06-28 2019-11-15 南昌大学 一种基于注意力机制的卷积神经网络视线估计方法及系统
CN111626152A (zh) * 2020-05-13 2020-09-04 闽江学院 一种基于Few-shot的时空视线方向估计原型设计

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AYUSH KUMAR等: "Eye Gaze Estimation Model Analysis", 《RESEARCHGATE》 *
WOLFGANG FUHL: "Fully Convolutional Neural Networks for Raw Eye Tracking Data Segmentation, Generation, and Reconstruction", 《IEEE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862124A (zh) * 2023-02-16 2023-03-28 南昌虚拟现实研究院股份有限公司 视线估计方法、装置、可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
Li et al. Modeling surface appearance from a single photograph using self-augmented convolutional neural networks
Song et al. Neural illumination: Lighting prediction for indoor environments
US11854118B2 (en) Method for training generative network, method for generating near-infrared image and device
US9361723B2 (en) Method for real-time face animation based on single video camera
Li et al. Robust flow-guided neural prediction for sketch-based freeform surface modeling
KR102509398B1 (ko) 비디오 회의에서의 감정 인식
EP4150880A1 (en) Method and system for virtual 3d communications
WO2021004257A1 (zh) 视线检测和视频处理的方法、装置、设备和存储介质
WO2020091891A1 (en) Cross-domain image translation
Zheng et al. Self-learning transformations for improving gaze and head redirection
US20240046557A1 (en) Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model
CN111784821A (zh) 三维模型生成方法、装置、计算机设备及存储介质
US20230083909A1 (en) Image analysis and gaze redirection using characteristics of the eye
KR20220117324A (ko) 다양한 초상화들로부터 학습 조명
US20220198731A1 (en) Pixel-aligned volumetric avatars
EP3417424A1 (en) Real-time detection of object scanability
US20230146178A1 (en) Attention based audio adjustment in virtual environments
Kaur et al. Eyegan: Gaze-preserving, mask-mediated eye image synthesis
WO2022148248A1 (zh) 图像处理模型的训练方法、图像处理方法、装置、电子设备及计算机程序产品
CN113468971A (zh) 一种基于外观的变分注视估计方法
Ma et al. Deformable Neural Radiance Fields using RGB and Event Cameras
Alkaddour et al. Self-supervised approach for facial movement based optical flow
WO2022096105A1 (en) 3d tongue reconstruction from single images
Funes Mora et al. Eyediap database: Data description and gaze tracking evaluation benchmarks
Taheri et al. Joint albedo estimation and pose tracking from video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001

RJ01 Rejection of invention patent application after publication