CN107103293A - 一种基于相关熵的注视点估计方法 - Google Patents
一种基于相关熵的注视点估计方法 Download PDFInfo
- Publication number
- CN107103293A CN107103293A CN201710240474.7A CN201710240474A CN107103293A CN 107103293 A CN107103293 A CN 107103293A CN 201710240474 A CN201710240474 A CN 201710240474A CN 107103293 A CN107103293 A CN 107103293A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mtd
- human eye
- mtr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 36
- 238000012360 testing method Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000001815 facial effect Effects 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 239000000700 radioactive tracer Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Abstract
本发明公开了一种基于相关熵的注视点估计方法,包含步骤如下:1、人脸图像采集;2、人眼图像亚像素提取;3、人眼图像特征降维;4、注视点位置估计;本发明方法能在不同的环境条件下对注视点进行精确的估计。
Description
技术领域
本发明涉及人机交互的注视点估计领域,具体涉及基于相关熵的注视点估计方法。
背景技术
近年来,眼睛注视跟踪技术复杂性和应用性已经引起了商业部门的极大兴趣。各种各样的学科中使用眼睛注视追踪技术,包括认知科学、心理学(特别是心理语言学、视觉世界的范式),人机交互(HCI)、市场研究和医学研究(神经诊断)。具体应用包括跟踪眼动在语言阅读,音乐阅读,人类活动识别,广告设计,和运动设计。因此,对注视追踪的研究一直吸引着研究者的兴趣。
注视点估计精度通常会受到提取的人眼图像的影响,对人眼图像的超像素级别的提取有利于提高注视估计精度。对于传统的对人眼提取算法,这些算法主要是利用提取特征点的方法对人眼内外眼角点进行判断,然后利用人眼图像高和宽的比例对人眼进行分割。但是根据这些算法提取出来的人眼图像跟真正的人眼图像有很大的偏差,而且在实际中实验对象头部姿态会有一些偏差,这样更不利于对人眼图像的精确提取。
对注视点的估计主要依据注视点空间与人眼特征空间的相似性,根据空间结构的权重共享关系,从而对注视点进行估计。但是在对人眼特征空间和注视点空间进行建模中,由于结构的差异性,需要对人眼特征空间进行降维处理,从而实现二者结构的相似性或者一致性。而传统的算法例如PCA,LDA等算法,这些算法仅仅利用人眼特征的局部信息或者全局信息,而忽略注视空间的信息,这样对人眼特征进行降维后的空间不能保证与注视空间结构的相似性。这样会导致在对注视点过程中因为空间结构的差异性导致注视估计误差的产生。所以基于注视空间的人眼特征降维处理有着重要的作用。
在一般情况下,对实验对象进行注视点估计,需要一个标定的过程,而传统的方法需要测试者进行较长时间的标定过程,需要很多标定点才能达到高的精度。注视点估计在不同环境下的适用性方面也面临着挑战,例如摄像机分辨率低,或者有噪声干扰的环境下,这对注视点估计有着很大的影响。因此在不同环境下的适应性对注视点估计应用有着很大的影响。
发明内容
本发明的目的是克服上述现有的技术的缺点,提供了一种基于相关熵的注视点估计方法,该方法能在不同的环境条件下对注视点进行精确的估计。
为了达到上述目的,本发明采用如下技术方案:
一种基于相关熵的注视点估计方法,该方法只需要单摄像头以及在屏幕上均匀标定点,具体包括如下步骤:
步骤1:人脸图像提取:在对注视点估计过程中,采用adboost人脸检测算法对人脸图像进行提取;
步骤2:人眼图像亚像素提取:在经过步骤(1)对人脸图像进行提取后,采用亚像素级的方法对人眼图像进行精准提取,具体方法为:主要是在不同的头部姿态条件下,寻找最优的人眼区域图像;首先初始化人眼区域的初始顶点坐标e0(x,y),通过对齐操作后的位置信息为e(x,y),二者之间的变换函数如下:
在公式中transform(x,y)是对齐变换函数,s为图像缩放比例,θ是旋转角度,tx,ty是在x、y方向上的偏移像素位移;
假设E={vec(e1)|...|vec(en)}是标准的裁剪的人眼图像集,作为训练样本,通过人眼区域图像对齐操作使下面目标函数实现最小化实现对人眼图像提取:
公式中τ为变换矩阵,表示对测试人眼图像进行相似性变换,在目标函数中τ含有未知参数:s,θ,tx,ty,其中w表示训练样本与人眼变换后的样本之间的线性关系;
步骤3:人眼特征降维:在经过对步骤(2)提取的人眼图像进行提取后,对人眼图像进行HoG特征提取,然后使用KL散度算法对人眼图像的HoG特征进行降维操作;具体方法为:假设α,β,γ分别代表人眼特征空间、注视点空间和人眼特征投影空间,对于不同的空间结构,特征降维的目的主要过程是通过人眼特征空间转换,使转换后的空间γ与注视点空间β更加的相似;为了更好学习度量测度,使用欧式距离表示空间的距离测度关系,即:D(i,j)=||i-j||2;假设对于训练样本集,定义训练样本之间的条件分布如下:
式(11)中:D(i,j)=||i-j||2表示空间位置(i,j)之间的距离测度关系。对于人眼特征投影空间和注视点空间的条件分布分别是:
式(12)和(13)中D(Cei,Cej)和D(gi,gj)分别表示人眼特征投影空间和注视点空间的距离测度关系,C表示投影变换矩阵,ei表示第i个人眼特征,gi表示第i个注视点位置信息。
对于人眼投影空间Pt(j|i)以及注视点空间Pg(j|i)结构,通过最小化KL散度KL(Pg(j|i)|Pt(j|i))函数实现对转换矩阵C进行求解:
其中PSD表示半正定矩阵;
得到矩阵A后,通过A=CTC求解,得到转换矩阵C,从而实现对人眼图像特征的降维;
步骤4:注视点位置估计:首先通过标定过程得到训练样本集包含人眼特征集以及对应的注视点位置信息集合,在测试过程中通过训练样本集中人眼特征集合对测试人眼特征进行重构,得到测试人眼特征与训练集中人眼特征集合之间的权重关系,最后利用权重共享关系利用训练样本集中的注视点位置信息集合对测试者注视点位置进行计算;具体方法为:首先进行标定过程,在标定过程中头部姿态静止,测试者眼睛注视屏幕上的标定点,人眼的注视随着标定点位置变化而变化,在标定过程中保存测试者场景图像和标定点坐标信息x={x1,x2,...,xn},通过步骤1、2、3对场景图像进行处理后,得到人眼特征向量的训练集E={e1,e2,...,en}∈Rm×n,m表示人眼特征的维数,n表示样本个数。根据人眼特征向量的训练集E={e1,e2,...,en}∈Rm×n与标定点位置信息x={x1,x2,...,xn},假设测试人眼特征e′,通过相关熵利用样本局部相似性对测试人眼特征e′进行重构:
式中E为训练人眼特征向量集,e′表示测试人眼特征,d∈Rn×1表示测试人眼特征e′与第i个训练人眼特征向量之间的距离,δ取值为1,w表示测试样本与训练样本之间的权重关系;
在得到测试人眼特征e′与训练样本E={e1,e2,...,en}∈Rm×n之间的权重关系w后,最后利用人眼特征空间与注视点空间的权重共享关系,对于测试样本的注视点位置x′,可由训练样本的注视点位置点集x={x1,x2,...,xn}计算可得:
m表示人眼特征的维数,n表示样本个数。
本发明提供的技术方案的有益效果:
1、由于基于人眼图像信息的处理方式,本发明对硬件要求低,只使用到了单个摄像头,而无任何其他辅助设备;
2、由于增强了基于相关熵算法的局部性,本发明通过简单的标定环节,可以实现高精度的目的;
3、由于对人眼图像进行亚像素级别的提取,本发明可以在低分辨率情况下对人眼进行亚像素级别的人眼图像,保证人眼图像提取的准确性;
4、由于使用KL散度对人眼特征空间进行投影变换,本发明保证了人眼特征空间与注视点空间结构的相似性,对注视点估计精度有很大提高。
5、由于基于相关熵算法进行估计,本发明在复杂的环境干扰下抗干扰能力强。
附图说明
图1是注视点估计整个流程图。
图2(a)表示人眼图像初始预选区域。
图2(b)表示在寻找最优人眼图像过程。
图2(c)表示最优人眼图像的选取。
图2(d)表示选择的最优以及对齐后的人眼图像。
图3(a)表示人眼特征空间结构示意图。
图3(b)表示注视点空间结构示意图。
图3(c)表示人眼特征降维后的空间结构示意图。
图4是表示不同训练样本集时标定点分布情况示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明的具体实施的流程图如图1所示,包含步骤如下:
步骤一、人脸图像采集;
步骤二、人眼图像亚像素提取;
步骤三、人眼图像特征降维;
步骤四、注视点位置估计;
所述步骤一的具体实现步骤为:
采用基于Adaboost算法对采集图像进行人脸定位,然后对人脸图像进行提取,为后面提取人眼图像步骤。
步骤二的具体实现步骤:
在经过步骤一提取人脸图像后,首先初始化人眼区域的初始顶点坐标(x0,y0),假设通过对齐操作后的位置信息为(x,y),二者之间的变换函数如下:
在公式中transform(x,y)是对齐变换函数,s为图像缩放比例,θ是旋转角度,tx,ty是在x、y方向上的偏移像素位移。
假设E={vec(e1)|...|vec(en)}是标准的裁剪的人眼图像集(vec(en)表示人眼特征向量),作为训练样本,通过人眼区域图像对齐操作使下面目标函数实现最小化实现对人眼图像提取:
公式(2)中τ为变换矩阵,示对测试人眼图像进行相似性变换,在目标函数中τ含有未知参数:s,θ,tx,ty,其中w表示训练样本E与人眼变换后的e之间的线性关系。
对于在公式中主要依赖参数s,θ,tx,ty,当s,θ,tx,ty变化很小的时候有如下式子:
根据泰勒公式:
f(x+Δx,y+Δy)=f(x,y)+[Δx,Δy]*Jac(x,y) (4)
其中Jac(x,y)表示函数f(x,y)的雅克比函数。
上式(3)等价表达式:
其中表示相对于τ中参数的导数,Δτ是τ变化的步长。
对于目标函数(5),因为l1范数是NP-hard问题,很难对目标函数进行求解,通过对该函数进行l2范数等价变换如下:
通过利用稀疏编码工具箱求取公式(6)可以得到τ变换矩阵,通过对初始位置预选人眼图像区域进行τ变换矩阵的变换,可以得到的最优的人眼区域图像。实验结果如图2所示。
步骤三的具体实现步骤:
该过程主要是经过步骤二提取人眼图像后,进行HoG特征提取,然后经过该步骤对人眼HoG特征进行降维。假设α,β,γ分别代表人眼特征空间,注视点空间和人眼特征投影空间,并且D(,)函数表示不同空间的距离测度关系,而人眼特征投影空间衡量准则与注视点空间准则相似,即:D(Cei,Cej)~D(gi,gj),其中C为人眼特征空间转换矩阵。
使用欧式距离表示空间的距离测度关系,即:D(i,j)=||i-j||2。人眼特征空间、特征投影空间和注视点空间的三个空间的距离测度分别表示如下:
De=(ei-ej)T(ei-ej) (7)
Dt=(Cei-Cej)T(Cei-Cej) (8)
Dg=(gi-gj)T(gi-gj) (9)
对于公式(8)即特征投影空间的距离测度转换成如下表达形式:
其中A是半正定矩阵(PSD)。
对于不同的空间结构,特征降维的目的主要过程是通过人眼特征空间转换,使转换后的空间γ与注视点空间β更加的相似。为了更好学习度量测度,假设对于训练样本集,定义训练样本之间的条件分布如下:
式(11)中:D(i,j)=||i-j||2表示空间位置(i,j)之间的距离测度关系。
对于人眼特征投影空间和注视点空间的条件分布分别是:
式(12)和(13)中D(Cei,Cej)和D(gi,gj)分别表示人眼特征投影空间和注视点空间的距离测度关系,C表示投影变换矩阵,ei表示第i个人眼特征,gi表示第i个注视点位置信息。
在非常温和的条件下,如果样本集符合这种分布,那么该样本集具有很好的相似性结构。目的是通过寻找半正定矩阵A使Pt(j|i)尽可能与Pg(j|i)更加的接近。为了寻找这样一个半正定矩阵,我们通过最小化KL散度KL(Pg(j|i)||Pt(j|i))函数:
其中
由于目标函数(14)为凸函数,存在最小值,求解过程使用交互迭代法,主要通过对主函数进行梯度下降法和投影到PSD锥。目标函数(14)的梯度函数表达式如下:
对于第t次迭代过程,通过步长进行调节变化,操作如下:
为了确保矩阵A为半正定矩阵,主要通过对矩阵A投影到PSD锥。操作过程如下:
首先对矩阵A进行特征值求解(EVD)操作如下:
其中λk为矩阵A的特征值,uk为λk相应的特征向量。通过对负特征值的消除操作:
从而利用交互迭代法对上述过程进行梯度操作和投影操作直到矩阵A收敛为止。实验结果如图3所示。
通过A=CTC求解,得到投影矩阵C实现对人眼特征的降维。
步骤四的具体实现步骤:
该过程主要是首先通过标定过程得到训练样本集(包含人眼特征集以及对应的注视点位置信息集合),在测试过程中通过训练样本集中人眼特征集合对测试人眼特征进行重构,得到测试人眼特征与训练集中人眼特征集合之间的权重关系,最后利用权重共享关系利用训练样本集中的注视点位置信息集合对测试者注视点位置进行计算。
1、标定过程
分别设计不同的标定模式验证标定点个数对注视点估计的影响,标定点个数分别为9、16、25和36个,如图4所示。在标定过程中头部姿态静止,测试者眼睛注视屏幕上的标定点,人眼的注视随着标定点位置变化而变化,在标定过程中保存测试者场景图像和标定点坐标信息x={x1,x2,...,xn},根据步骤1、2、3对场景图像处理得到人眼特征信息E={e1,e2,...,en}∈Rm×n,保存测试者处理后的人眼特征集E={e1,e2,...,en}∈Rm×n,以及相对应的注视点位置坐标x={x1,x2,...,xn}(用于后面的注视点估计),m表示人眼特征的维数,n表示样本个数。
2、测试人眼特征重构
对于任意测试人眼特征e′,在本文中采用局部限制相关熵算法对人眼特征e′进行重构,主要是利用样本的局部相似性对测试人眼特征e′进行重构,公式如下:
式中E为训练人眼特征向量集,e′表示测试人眼特征,d∈Rn×1表示测试人眼特征e′与第i个训练人眼特征向量之间的距离,w表示测试样本与训练样本之间的权重关系。
根据共轭凸函数理论,存在以下命题:
命题1:根据函数存在一个共轭凸函数满足下面式子:
将公式(20)带入到公式(19)中,可以的增强函数如下:
其中p=(p1,p2,...,pN)是辅助变量。
为了求解公式(21)可以通过使用交互最大化方法进行求解:
公式(23)可以写成如下形式:
其中和
方程式(24)为l2正则化范数,对函数(24)进行求导很容易得到解析解,函数的导数如下:
上述结果可以写成:
3、注视点位置估计
在得到测试人眼特征e′与训练样本E={e1,e2,...,en}∈Rm×n之间的权重关系w后,最后利用权重共享关系,对于测试过程中的注视点位置x′,可由训练样本的注视点位置点集x={x1,x2,...,xn}计算可得:
Claims (1)
1.一种基于相关熵的注视点估计方法,其特征在于:该方法只需要单摄像头以及在屏幕上均匀标定点,具体包括如下步骤:
步骤1:人脸图像提取:在对注视点估计过程中,采用adboost人脸检测算法对人脸图像进行提取;
步骤2:人眼图像亚像素提取:在经过步骤(1)对人脸图像进行提取后,采用亚像素级的方法对人眼图像进行精准提取,具体方法为:主要是在不同的头部姿态条件下,寻找最优的人眼区域图像;首先初始化人眼区域的初始顶点坐标eQ (x,y),通过对齐操作后的位置信息为e(x,y),二者之间的变换函数如下:
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
<mo>=</mo>
<mi>t</mi>
<mi>r</mi>
<mi>a</mi>
<mi>n</mi>
<mi>s</mi>
<mi>f</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
<mo>(</mo>
<msub>
<mi>x</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>y</mi>
<mn>0</mn>
</msub>
<mo>)</mo>
<mo>=</mo>
<mi>s</mi>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>s</mi>
<mi>&theta;</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>-</mo>
<mi>s</mi>
<mi>i</mi>
<mi>n</mi>
<mi>&theta;</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>n</mi>
<mi>&theta;</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>cos</mi>
<mi>&theta;</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>x</mi>
<mn>0</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>y</mi>
<mn>0</mn>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>+</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msub>
<mi>t</mi>
<mi>x</mi>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>t</mi>
<mi>y</mi>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
在公式中transform(x,y)是对齐变换函数,s为图像缩放比例,θ是旋转角度,tx,ty是在x、y方向上的偏移像素位移;
假设E={vec(e1)|...|vec(en)}是标准的裁剪的人眼图像集,作为训练样本,通过人眼区域图像对齐操作使下面目标函数实现最小化实现对人眼图像提取:
公式中τ为变换矩阵,表示对测试人眼图像进行相似性变换,在目标函数中τ含有未知参数:s,θ,tx,ty,其中w表示训练样本与人眼变换后的样本之间的线性关系;
步骤3:人眼特征降维:在经过对步骤(2)提取的人眼图像进行提取后,对人眼图像进行HoG特征提取,然后使用KL散度算法对人眼图像的HoG特征进行降维操作;具体方法为:假设α,β,γ分别代表人眼特征空间、注视点空间和人眼特征投影空间,对于不同的空间结构,特征降维的目的主要过程是通过人眼特征空间转换,使转换后的空间γ与注视点空间β更加的相似;为了更好学习度量测度,使用欧式距离表示空间的距离测度关系,即:D(i,j)=||i-j||2;假设对于训练样本集,定义训练样本之间的条件分布如下:
<mrow>
<msub>
<mi>P</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>|</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</munder>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mi>i</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
式(11)中:D(i,j)=||i-j||2表示空间位置(i,j)之间的距离测度关系。
对于人眼特征投影空间和注视点空间的条件分布分别是:
<mrow>
<msub>
<mi>P</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>|</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>Ce</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>Ce</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</msub>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>Ce</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>Ce</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mi>i</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>P</mi>
<mi>g</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>|</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>g</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</msub>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>g</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>g</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>k</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mi>i</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>13</mn>
<mo>)</mo>
</mrow>
</mrow>
式(12)和(13)中D(Cei,Cej)和D(gi,gj)分别表示人眼特征投影空间和注视点空间的距离测度关系,C表示投影变换矩阵,ei表示第i个人眼特征,gi表示第i个注视点位置信息。
对于人眼投影空间Pt(j|i)以及注视点空间Pg(j|i)结构,通过最小化KL散度KL(Pg(j|i)|Pt(j|i))函数实现对转换矩阵C进行求解:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>A</mi>
</munder>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>P</mi>
<mi>g</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>j</mi>
<mo>|</mo>
<mi>i</mi>
</mrow>
<mo>)</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>P</mi>
<mi>t</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>j</mi>
<mo>|</mo>
<mi>i</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
<mo>.</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>A</mi>
<mo>&Element;</mo>
<mi>P</mi>
<mi>S</mi>
<mi>D</mi>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
其中PSD表示半正定矩阵;
得到矩阵A后,通过A=CTC求解,得到转换矩阵C,从而实现对人眼图像特征的降维;
步骤4:注视点位置估计:首先通过标定过程得到训练样本集包含人眼特征集以及对应的注视点位置信息集合,在测试过程中通过训练样本集中人眼特征集合对测试人眼特征进行重构,得到测试人眼特征与训练集中人眼特征集合之间的权重关系,最后利用权重共享关系利用训练样本集中的注视点位置信息集合对测试者注视点位置进行计算;具体方法为:首先进行标定过程,在标定过程中头部姿态静止,测试者眼睛注视屏幕上的标定点,人眼的注视随着标定点位置变化而变化,在标定过程中保存测试者场景图像和标定点坐标信息x={x1,x2,...,xn},通过步骤1、2、3对场景图像进行处理后,得到人眼特征向量的训练集E={e1,e2,...,en}∈Rm×n,m表示人眼特征的维数,n表示样本个数。根据人眼特征向量的训练集E={e1,e2,...,en}∈Rm×n与标定点位置信息x={x1,x2,...,xn},假设测试人眼特征e′,通过相关熵利用样本局部相似性对测试人眼特征e′进行重构:
式中E为训练人眼特征向量集,e′表示测试人眼特征,d∈Rn×1表示测试人眼特征e′与第i个训练人眼特征向量之间的距离,δ取值为1,w表示测试样本与训练样本之间的权重关系;
在得到测试人眼特征e′与训练样本E={e1,e2,...,en}∈Rm×n之间的权重关系w后,最后利用人眼特征空间与注视点空间的权重共享关系,对于测试样本的注视点位置x′,可由训练样本的注视点位置点集x={x1,x2,...,xn}计算可得:
<mrow>
<msup>
<mi>x</mi>
<mo>&prime;</mo>
</msup>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>27</mn>
<mo>)</mo>
</mrow>
</mrow>
m表示人眼特征的维数,n表示样本个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710240474.7A CN107103293B (zh) | 2017-04-13 | 2017-04-13 | 一种基于相关熵的注视点估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710240474.7A CN107103293B (zh) | 2017-04-13 | 2017-04-13 | 一种基于相关熵的注视点估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107103293A true CN107103293A (zh) | 2017-08-29 |
CN107103293B CN107103293B (zh) | 2019-01-29 |
Family
ID=59674990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710240474.7A Active CN107103293B (zh) | 2017-04-13 | 2017-04-13 | 一种基于相关熵的注视点估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107103293B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960106A (zh) * | 2018-06-25 | 2018-12-07 | 西安交通大学 | 一种基于量化最小残差熵准则的人眼注视点估计方法 |
WO2019128675A1 (zh) * | 2017-12-25 | 2019-07-04 | 北京七鑫易维信息技术有限公司 | 视线追踪设备中确定参数的方法和装置 |
CN110058694A (zh) * | 2019-04-24 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 视线追踪模型训练的方法、视线追踪的方法及装置 |
CN110189331A (zh) * | 2018-05-31 | 2019-08-30 | 上海快仓智能科技有限公司 | 建图方法、图像采集和处理系统和定位方法 |
CN111598954A (zh) * | 2020-04-21 | 2020-08-28 | 哈尔滨拓博科技有限公司 | 一种快速高精度摄像头参数计算方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393599A (zh) * | 2007-09-19 | 2009-03-25 | 中国科学院自动化研究所 | 一种基于人脸表情的游戏角色控制方法 |
US20090284608A1 (en) * | 2008-05-15 | 2009-11-19 | Sungkyunkwan University Foundation For Corporate Collaboration | Gaze tracking apparatus and method using difference image entropy |
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN104091155A (zh) * | 2014-07-04 | 2014-10-08 | 武汉工程大学 | 光照鲁棒的虹膜快速定位方法 |
CN104517104A (zh) * | 2015-01-09 | 2015-04-15 | 苏州科达科技股份有限公司 | 一种基于监控场景下的人脸识别方法及系统 |
CN105303170A (zh) * | 2015-10-16 | 2016-02-03 | 浙江工业大学 | 一种基于人眼特征的视线估计方法 |
WO2016073131A1 (en) * | 2014-11-06 | 2016-05-12 | Intel Corporation | Improved calibration for eye tracking systems |
WO2016072965A1 (en) * | 2014-11-03 | 2016-05-12 | Bayerische Motoren Werke Aktiengesellschaft | Method and system for calibrating an eye tracking system |
CN105938551A (zh) * | 2016-06-28 | 2016-09-14 | 深圳市唯特视科技有限公司 | 一种基于视频数据的人脸特定区域提取方法 |
CN105976356A (zh) * | 2016-04-26 | 2016-09-28 | 南京航空航天大学 | 一种基于相关熵准则的鲁棒数字图像相关方法 |
-
2017
- 2017-04-13 CN CN201710240474.7A patent/CN107103293B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393599A (zh) * | 2007-09-19 | 2009-03-25 | 中国科学院自动化研究所 | 一种基于人脸表情的游戏角色控制方法 |
US20090284608A1 (en) * | 2008-05-15 | 2009-11-19 | Sungkyunkwan University Foundation For Corporate Collaboration | Gaze tracking apparatus and method using difference image entropy |
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN104091155A (zh) * | 2014-07-04 | 2014-10-08 | 武汉工程大学 | 光照鲁棒的虹膜快速定位方法 |
WO2016072965A1 (en) * | 2014-11-03 | 2016-05-12 | Bayerische Motoren Werke Aktiengesellschaft | Method and system for calibrating an eye tracking system |
WO2016073131A1 (en) * | 2014-11-06 | 2016-05-12 | Intel Corporation | Improved calibration for eye tracking systems |
CN104517104A (zh) * | 2015-01-09 | 2015-04-15 | 苏州科达科技股份有限公司 | 一种基于监控场景下的人脸识别方法及系统 |
CN105303170A (zh) * | 2015-10-16 | 2016-02-03 | 浙江工业大学 | 一种基于人眼特征的视线估计方法 |
CN105976356A (zh) * | 2016-04-26 | 2016-09-28 | 南京航空航天大学 | 一种基于相关熵准则的鲁棒数字图像相关方法 |
CN105938551A (zh) * | 2016-06-28 | 2016-09-14 | 深圳市唯特视科技有限公司 | 一种基于视频数据的人脸特定区域提取方法 |
Non-Patent Citations (4)
Title |
---|
RAN HE ET AL: ""Maximum Correntropy Criterion for Robust Face Recognition"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
TOLGA ENSARI ET AL: "《2012 11th International Conference on Machine Learning and Applications》", 15 December 2012 * |
杨南海 等: ""基于最大相关熵准则的鲁棒半监督学习算法"", 《软件学报》 * |
马琳娜: ""基于正则化的相关熵平均近邻最大间距特征提取方法"", 《软件开发与设计》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128675A1 (zh) * | 2017-12-25 | 2019-07-04 | 北京七鑫易维信息技术有限公司 | 视线追踪设备中确定参数的方法和装置 |
TWI699709B (zh) * | 2017-12-25 | 2020-07-21 | 大陸商北京七鑫易維信息技術有限公司 | 視線追蹤設備中確定參數的方法和裝置 |
US11380134B2 (en) | 2017-12-25 | 2022-07-05 | Beijing 7Invensun Technology Co., Ltd. | Method and device for determining parameter for gaze tracking device |
CN110189331A (zh) * | 2018-05-31 | 2019-08-30 | 上海快仓智能科技有限公司 | 建图方法、图像采集和处理系统和定位方法 |
CN108960106A (zh) * | 2018-06-25 | 2018-12-07 | 西安交通大学 | 一种基于量化最小残差熵准则的人眼注视点估计方法 |
CN108960106B (zh) * | 2018-06-25 | 2019-09-20 | 西安交通大学 | 一种基于量化最小残差熵准则的人眼注视点估计方法 |
CN110058694A (zh) * | 2019-04-24 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 视线追踪模型训练的方法、视线追踪的方法及装置 |
US11797084B2 (en) | 2019-04-24 | 2023-10-24 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for training gaze tracking model, and method and apparatus for gaze tracking |
CN111598954A (zh) * | 2020-04-21 | 2020-08-28 | 哈尔滨拓博科技有限公司 | 一种快速高精度摄像头参数计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107103293B (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103293B (zh) | 一种基于相关熵的注视点估计方法 | |
CN105913487A (zh) | 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法 | |
CN105487665B (zh) | 一种基于头部姿势识别的智能移动服务机器人控制方法 | |
CN107349594A (zh) | 一种虚拟舞蹈系统的动作评价方法 | |
CN107103298A (zh) | 基于图像处理的引体向上计数系统及计数方法 | |
CN110197169A (zh) | 一种非接触式的学习状态监测系统及学习状态检测方法 | |
CN103500340B (zh) | 基于主题知识迁移的人体行为识别方法 | |
CN113762133A (zh) | 基于人体姿态识别的自重健身辅助教练系统、方法、终端 | |
CN109034099A (zh) | 一种表情识别方法及装置 | |
CN110448870A (zh) | 一种人体姿态训练方法 | |
Ma et al. | Research and analysis of sports training real-time monitoring system based on mobile artificial intelligence terminal | |
CN106203256A (zh) | 一种基于稀疏保持典型相关分析的低分辨率人脸识别方法 | |
CN107273891A (zh) | 一种基于点击监督训练的目标类别检测方法 | |
CN103093237B (zh) | 一种基于结构化模型的人脸检测方法 | |
CN104361574A (zh) | 一种基于稀疏表示的无参考彩色图像质量评价方法 | |
Giannakakis et al. | Evaluation of head pose features for stress detection and classification | |
CN108073855A (zh) | 一种人脸表情的识别方法及系统 | |
CN112487948A (zh) | 一种基于多空间融合的学习者学习过程的专注度感知方法 | |
CN112232128A (zh) | 基于视线追踪的老年残障人士照护需求识别方法 | |
Zhang | Innovation of English teaching model based on machine learning neural network and image super resolution | |
Yang | SCB-dataset: a dataset for detecting student classroom behavior | |
Guo et al. | PhyCoVIS: A visual analytic tool of physical coordination for cheer and dance training | |
Rumyantsev et al. | Hand Sign recognition through palm gesture and movement | |
Jha et al. | Estimation of gaze region using two dimensional probabilistic maps constructed using convolutional neural networks | |
CN114639168B (zh) | 一种用于跑步姿态识别的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230630 Address after: 710075 Room 3- (4), Room 108, 1st Floor, Building 15, West Yungu, Fengxi New City, Xixian New District, Xi'an City, Shaanxi Province Patentee after: Shaanxi Baicheng Network Technology Co.,Ltd. Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28 Patentee before: XI'AN JIAOTONG University |