CN113468971A

CN113468971A - 一种基于外观的变分注视估计方法

Info

Publication number: CN113468971A
Application number: CN202110628324.XA
Authority: CN
Inventors: 李菁; 时靖悦; 陈则金
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-10-01

Abstract

本发明公开了一种基于外观的变分注视估计方法，该方法包括(1)采用CLNF算法来对人脸关键点进行定位，再将人脸中的单眼图片裁剪出来；(2)对人眼图像进行图像识别，建立模型，确定出数据集中眼球和虹膜的图像x，以及眼球和虹膜形状的图形表示y，z是x的隐藏变量；(3)将x，y输入神经网络中，基于变分自动编码器(CVAE)的条件生成注视表示图

(4)基于注视表示图

在

上对视线的方向进行估计。本发明将注视估计表述为分层条件推理问题，可以很好地应对概率建模带来的不确定性挑战，本发明开发了一种变分注视估计网络，该网络可以通过采样生成多个有效的同时互补的注视图表示，从而实现更准确，更可靠的注视方向预测。

Description

一种基于外观的变分注视估计方法

技术领域

本发明属于图像处理和模式识别技术领域，具体涉及一种基于外观的变分注视估计方法。

背景技术

视线估计是计算机视觉研究中一个经典的问题，现有的基于眼睛图像进行视线估计的方法：(1)基于模型的方法；(2)基于卷积神经网络的外观的方法。

目前基于外观的视线估计方法着手在低分辨率、部分遮挡或暗度图像上进行视线估计，这些挑战给预测的凝视方向带来了很大的不确定性，现有的方法的主要问题有：(1)头部运动带来的视线估计不准确；(2)需要标定相机，需要测量环境距离；(3)需要专业的，昂贵的硬件设备；(4)精度不够高。

发明内容

针对现有技术中的不足与难题，本发明旨在提供一种基于外观的变分注视估计方法，为了实现图片或视频中人眼的视线方向，先通过受约束的局部神经域模型(Constrained Local Neural Fields，CLNF)算法对图片中的人脸关键点检测，再将人的单眼图像自动裁剪出来；我们将人眼图像进行标准化；随后将图像送进我们发明的多层变分卷积神经网络生成视线表示图；最后在视线表视图中进行回归得到估计的视线三维角度。

本发明通过以下技术方案予以实现：

一种基于外观的变分注视估计方法，该方法步骤包括：

步骤S1：采用CLNF算法来对人脸关键点进行定位建立数据集，再将人脸中的单眼图片裁剪出来；

步骤S2：对人眼图像进行图像识别，在步骤S1数据集之中截取下来的眼球和虹膜的单眼图像为x，z是x的隐藏变量，对单眼图像x中人眼的视线方向Ground Truth进行建模，进而得到的眼球和虹膜形状的图形表示y；

步骤S3；将x，y输入神经网络中，基于变分自动编码器(CVAE)的条件生成注视表示图

步骤S4：基于注视表示图

在

上对视线的方向进行估计。

基于变分自动编码器(CVAE)的条件生成任务需要考虑两个方面：数据集中眼球和虹膜的单眼图像x，以及眼球和虹膜形状的图形表示y，z是x的隐藏变量；

为了最大化由z和y控制的图像生成器的后验概率argmax_xp(x|z，y)，需要对这两个变量建模；由于许多数据集没有提供y，因此步骤S2中首先获取y，具体为：在步骤S2中，建立模型对眼球和虹膜可进行描述，在该模型中将眼球投影为一个球体，虹膜为椭圆形，y大小为m×n，设置投影眼球的直径2r＝1.2n，其中r是虹膜的长轴，r|cosθcosφ|是短轴；虹膜中心(u_i，v_i)的坐标为：

式(1)中，

凝视方向g＝(γ，η)，进而得到了眼球和虹膜形状的图形表示y。

优化地，步骤S3中的神经网络由先验网络P_θ和后验网络Q_φ组成，P_θ包括编码器网络E_φ和解码器网络D_θ；步骤S3具体包括：

S31，Q_φ将单眼图像x和条件y作为输入，并获知眼球和虹膜的潜在分布N(μ_e，μ_e)；

S32，P_θ通过将单眼图像x作为输入来生成先验分布N(μ_p，μ_p)；

S33，通过最小化S31和S32分布之间的KL散度，迫使前者和后者分布彼此更靠近；

S34，解码器D_θ从潜在分布N(μ_e，μ_e)提取样本并重构注视表示图

S33、S34的损失函数为：

其中，q_φ(z|x，y)＝N(μ_e，μ_e)，p_θ(z|x)＝N(μ_p，μ_p)，N是训练图像的数量；将两个损失函数相加则为重构注视表示图的总损失：

优化地，步骤S4中的损失函数为

与现有技术相比，本发明有益效果包括：

(1)本发明在概率推断框架下解决了凝视估计任务，将注视估计表述为分层条件推理问题，很好地应对概率建模中因凝视图像上的低分辨率、部分遮挡或暗度等给预测的凝视方向带来的不确定性挑战。

(2)本发明开发了一种变分注视估计网络，可以通过采样生成多个有效的同时互补的注视图表示，从而实现更准确、更可靠、更客观、更便捷、更快速的注视方向预测。

(2)本发明精确度得到大幅度提高，误差仅只有3.9°。

(3)本发明无需苛刻的实验室环境，无需特殊的设备，只需眼部图片。

附图说明

图1为本发明中眼球和虹膜投影模型图；

图2为本发明中神经网络框架图。

具体实施方式

下面结合附图，对本发明作进一步地说明。

一种基于外观的变分注视估计方法，具体工作流程如下：

(1)首先，采用局部约束神经元域(Constrained Local Neural Fields，CLNF)来对人脸关键点进行定位，随后将人脸中的单眼图片裁剪出来。

(2)将裁剪出来的单眼图片送入到神经网络中得到注视表示图。

现有网络是基于变分自动编码器(VAE)来对其注视表示图进行生成，但是通过变分自动编码器(VAE)的概率建模来构造注视表示并不容易，因此我们转换为基于变分自动编码器(CVAE)的条件生成任务，更具体地说，要生成注视表示图

我们需要考虑两个方面：数据集中眼球和虹膜的单眼图像x，以及眼球和虹膜形状的图形表示y，在此，z是x的隐藏变量；

为了最大化由z和y控制的图像生成器的后验概率argmax_xp(x|z，y)，我们需要对这两个变量建模，由于许多数据集没有提供y，因此我们必须首先获取y；

我们认为眼球和虹膜可以通过一个简单的模型来描述，在该模型中将眼球投影为一个完美的球体，虹膜为椭圆形，如图1所示，y大小为m×n，我们假设投影眼球的直径2r＝1.2n，其中r是虹膜的长轴，r|cosθcosφ|是短轴，虹膜中心(u_i，v_i)的坐标为：

其中，

凝视方向g＝(γ，η)。因此，我们得到了眼球和虹膜形状的图形表示y。

(3)将x，y一起输入到网络中

如图2所示，设计的网络主要由先验网络P_θ和后验网络Q_φ组成，P_θ包括编码器网络E_φ和解码器网络D_θ，Q_φ将单眼图像x和条件y作为输入，并获知眼球和虹膜的潜在分布N(μ_e，μ_e)。

为了将来自潜在分布的采样潜在变量z与y相关联，我们添加P_θ以确保学习的潜在分布与通过推理获得的潜在分布一致；

P_θ通过将单眼图像x作为输入来生成先验分布N(μ_p，μ_p)；

通过最小化前者和后者之间的KL散度，迫使前者和后者分布彼此更靠近；

最后，解码器D_θ从潜在分布N(μ_e，μ_e)提取样本并重构注视表示图

此部分的损失函数为：

其中，q_φ(z|x，y)＝N(μ_e，μ_e)，p_θ(z|x)＝N(μ_p，μ_p)，N是训练图像的数量，将两个损失函数相加则为重构注视表示图的总损失：

(4)在得到注视表示图

我们将在

上对视线的方向进行估计。其损失函数为：

在实验中我们对网络的性能进行了测试，经过我们设计的此网络进行视线估计的误差仅为3.9°。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于外观的变分注视估计方法，其特征在于：所述方法步骤包括：

步骤S1：采用CLNF算法来对人脸关键点进行定位形成数据集，再将人脸中的单眼图片裁剪出来；

步骤S3；将x，y输入神经网络中，基于变分自动编码器的条件生成注视表示图

步骤S4：基于注视表示图

在

上对视线的方向进行估计。

2.根据权利要求1所述的一种基于外观的变分注视估计方法，其特征在于：所述步骤S2中，为了最大化由z和y控制的图像生成器的后验概率argmax_xp(x|z，y)，对z和y两个变量进行建模；

为解决数据集没有提供y的问题，进行建模首先获取y，具体为：建立模型对眼球和虹膜进行描述，在该模型中将眼球投影为一个球体，虹膜为椭圆形，y大小为m×n，设置投影眼球的直径2r＝1.2n，其中r是虹膜的长轴，r|cosθcosφ|是短轴；虹膜中心(u_i，v_i)的坐标为：

式中，

3.根据权利要求1所述的一种基于外观的变分注视估计方法，其特征在于：所述步骤S3中的神经网络由先验网络P_θ和后验网络Q_φ组成，P_θ包括编码器网络E_φ和解码器网络D_θ；所述步骤S3具体包括：

所述S33与S34的损失函数分别为：

式中，q_φ(z|x，y)＝N(μ_e，μ_e)，p_θ(z|x)＝N(μ_p，μ_p)，N是训练图像的数量；将两个损失函数相加则为重构注视表示图的总损失：

L≡L_KL+L_r。

4.根据权利要求1所述的一种基于外观的变分注视估计方法，其特征在于：所述步骤S4中的损失函数为：