CN108960106B - 一种基于量化最小残差熵准则的人眼注视点估计方法 - Google Patents
一种基于量化最小残差熵准则的人眼注视点估计方法 Download PDFInfo
- Publication number
- CN108960106B CN108960106B CN201810663272.8A CN201810663272A CN108960106B CN 108960106 B CN108960106 B CN 108960106B CN 201810663272 A CN201810663272 A CN 201810663272A CN 108960106 B CN108960106 B CN 108960106B
- Authority
- CN
- China
- Prior art keywords
- human eye
- feature
- eye feature
- space
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于量化最小残差熵准则的人眼注视点估计方法,属于机器视觉领域;主要包含以下步骤:1、人脸图像提取;2、人眼图像精确提取及对齐;3、人眼特征提取及降维;4、人眼注视点位置估计;本发明方法能在不同环境下在保证估计精度的同时大大缩短估计时间,从而保证估计过程的时效性。
Description
技术领域
本发明涉及人机交互的注视点估计领域,具体涉及基于量化最小残差熵准则的人眼注视点估计方法。
背景技术
随着时代的发展,人眼注视点估计技术在实际生活中得到广泛的应用,它已经成为很多领域的重要研究对象。目前人眼注视点技术在各种各样的学科中都得到了广泛的应用,包括认知科学、心理学(特别是心理语言学、视觉世界的范式、人机交互(Human–Computer Interaction,HCI)、市场研究和医学研究(神经诊断)等等。
尽管人眼注视点估计技术已经得到广泛应用,但仍然面临着诸多问题。如:估计精度仍有待提高,对场景依赖性强,估计速度也相对较慢等等。所以进一步提高估计算法的速度仍是研究者们非常感兴趣的问题之一。
发明内容
本发明的目的是进一步提高人眼注视点估计技术的速度,提供了一种基于量化最小残差熵准则的人眼注视点估计方法,该方法能在保证估计精度的同时,大幅提高估计算法的实时性。
为了达到上述目的,本发明采用如下技术方案:
一种基于量化最小残差熵准则的人眼注视点估计方法,该方法只需要一个普通摄像头以及在屏幕上均匀标定少量的点,具体步骤如下:
步骤1:人脸图像提取:采用基于AdaBoost算法的人脸检测方法对人脸图像进行检测及提取,得到人脸图像;
步骤2:人眼图像精确提取及对齐:在经过步骤1对人脸图像进行提取后,采用亚像素级别边缘检测及仿射变换对人眼进行精确提取和对齐;具体方法为:
首先采用基于Haar-like特征的Viola-Jones人眼检测算法从由步骤1得到的人脸图像中完成人眼图像的粗提取;
其次利用基于Log算子的边缘检测得到人眼精确轮廓并提取;
最后对得到的人眼精确轮廓图像进行对齐操作,对齐操作主要是对所得人眼精确轮廓图像进行如下仿射变换:
在上述公式中,(x0,y0)为变换前的像素点位置,(x,y)为仿射变换后对应像素点的坐标,θ为旋转角度;
步骤3:人眼特征提取及降维:在经过步骤2对人眼图像精确提取及对齐后,采用HoG特征提取算法对所得图像进行特征提取,再利用KL散度算法对人眼图像的HoG特征进行降维操作,使得人眼特征空间降维后与注视点空间更加相似。为了更好学习度量测度,采用欧氏距离表示空间的距离测度关系,即:D(i,j)=||i-j||2;具体方法为:
假设对于训练样本集,定义训练样本之间的条件分布如下:
上式中D(i,j)=||i-j||2表示空间位置(i.j)之间的距离测度关系,D(i,k)表示(i.k)之间的距离测度关系,k表示不同样本的编号;
假设Ψ,Ω,Г分别代表人眼特征空间,注视点空间以及人眼特征投影空间,人眼特征投影空间和注视点空间的条件分布如下:
上式中DГ(i,j)和DΨ(i,j)分别表示人眼特征投影空间和注视点空间的距离测度关系;
对于人眼特征投影空间条件分布PГ(j|i)和注视点空间条件分布PΨ(j|i),通过最小化KL散度KL(PΨ(j|i)|PГ(j|i))求解转换矩阵:
s.t.A∈PSD
其中:f(A)=∑i,jPΨ(j|i)logPΨ(j|i)-∑i,jPΨ(j|i)logPΓ(j|i),PSD表示半正定矩阵,DKL(·)为函数的KL散度;
求解得到矩阵A,通过A=CTC求解,得到投影矩阵C,从而实现对人眼图像的特征降维;
步骤4:人眼注视点位置估计:首先对训练集进行标定,得到对应注视点的坐标,然后在测试过程中利用训练集中的训练人眼特征对测试人眼特征进行重构,从而得到测试人眼特征和训练人眼特征之间的权重关系,最后运用权值共享由训练集中注视点位置信息对测试者注视点位置进行估算;具体方法为:
首先对训练集进行标定,标定过程中保持头部姿态静止,测试者注释屏幕上的标定点,并随标定点的改变而改变;
假设标定点坐标信息为x={x1,x2,...,xn},步骤3中得到的人眼特征向量的训练集为E={e1,e2,...,en}∈Rm×n,m表示人眼特征的维数,n表示样本个数,Rm×n为m×n维向量的集合;假设测试人眼特征为é,则运用量化最小残差熵准则对测试人眼特征é重构过程如下:
式中:E为训练人眼特征集,cm为测试人眼特征éi量化后的值,Mm表示量化到cm的éi的个数,d∈Rn×1表示测试人眼特征é与第i个训练人眼特征向量之间的距离,δ取值为1,w表示样本间权重,M为量化后的cm的个数,N为训练样本点的个数;
得到权重关系w后,测试样本的注视点位置可表示为:
从而求出测试者注视点的位置坐标。
本发明的有益效果如下:
本发明对硬件要求低,只使用到了单个摄像头,而无任何其他辅助设备;由于增强了基于量化最小残差熵算法的局部性,本发明通过简单的标定环节,即可达到保证高精度的同时增强算法的实时性;由于运用KL散度对人眼特征空间进行投影变换,保证了人眼特征空间与住注视点空间结构的相似性,从而极大地提高了估计精度。
附图说明
图1为本发明估计算法的流程图。
图2为人眼精确提取过程。
图3(a)为人眼特征空间示意图。
图3(b)为注视点空间示意图。
图3(c)为投影后的空间示意图。
图4为不同标定点模式标定点分布情况。
图5为不同训练样本集时标定点分布情况示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
本发明的具体实施的流程图如图1所示,包含步骤如下:
步骤1:人脸图像提取;
步骤2:人眼图像精确提取及对齐;
步骤3:人眼特征提取及降维;
步骤4:人眼注视点位置估计。
步骤1的具体实现步骤为:
采用基于AdaBoost算法对采集图像进行人脸定位,然后对人脸图像进行提取,为后续处理提供基础。
步骤2的具体实现步骤为:
在经过步骤1对人脸图像进行提取后,采用亚像素级别边缘检测及仿射变换对人眼进行精确提取及对齐。具体方法为:
首先采用基于Haar-like特征的Viola-Jones人眼检测算法从由步骤1得到的人脸图像中完成人眼图像的粗提取;
其次利用基于Log算子的边缘检测得到人眼精确轮廓并提取;
最后对得到的人眼精确轮廓图像进行对齐操作。对齐操作主要是对所得人眼精确轮廓图像进行如下仿射变换:
在上述公式中,(x0,y0)为变换前的像素点位置,(x,y)为仿射变换后对应像素点的坐标,θ为旋转角度。
处理后得到人眼精确提取图像,过程如图2所示。
步骤3的具体实现步骤为:
在经过步骤2对人眼图像精确提取及对齐后,采用HoG特征提取算法对所得图像进行特征提取,再利用KL散度算法对人眼图像的HoG特征进行降维操作,使得人眼特征空间降维后与注视点空间更加相似。假设Ψ,Ω,Г分别代表人眼特征空间,注视点空间以及人眼特征投影空间。为了更好学习度量测度,采用欧氏距离表示空间的距离测度关系,即:D(i,j)=||i-j||2。人眼特征投影空间衡量准则与注视点空间准则相似,即:D(Cei,Cei)≈D(xi,xj),其中C为人眼特征空间转换矩阵。则人眼特征空间、特征投影空间和注视点空间三个空间的距离测度分别表示如下:
DΨ(i,j)=(ei-ej)T(ei-ej)
DГ(i,j)=(Cei-Cej)T(Cei-Cej)
DΩ(i,j)=(xi-xj)T(xi-xj)
上述特征投影空间距离测度可转换成如下表达式:
DГ(i,j)=(Cei-Cej)T(Cei-Cej)
=(ei-ej)TCTC(ei-ej)
=(ei-ej)TA(ei-ej)
其中A是半正定矩阵(PSD)。
假设对于训练样本集,定义训练样本之间的条件分布如下:
上式中D(i,j)=||i-j||2表示空间位置(i.j)之间的距离测度关系,D(i,k)表示(i.k)之间的距离测度关系,k表示不同样本的编号。
人眼特征投影空间和注视点空间的条件分布如下:
上式中DГ(i,j)和DΨ(i,j)分别表示人眼特征投影空间和注视点空间的距离测度关系。
对于人眼特征投影空间条件分布PГ(j|i)和注视点空间条件分布PΨ(j|i),通过最小化KL散度KL(PΨ(j|i)|PГ(j|i))求解转换矩阵:
s.t.A∈PSD
其中:f(A)=∑i,jPΨ(j|i)logPΨ(j|i)-∑i,jPΨ(j|i)logPΓ(j|i),PSD表示半正定矩阵,DKL(·)为函数的KL散度。
上述目标函数为凸函数,存在最小值,求解过程使用交互迭代法,主要通过对主函数进行梯度下降法和投影到PSD锥。目标函数的梯度函数如下所示:
对于第t次迭代,通过步长ζ调节变化,操作如下:
为了确保A为半正定矩阵,将A矩阵投影到PSD锥。操作如下:
其中λk为矩阵A的特征值,uk为λk对应的特征向量。对负特征值进行消除操作:
从而利用交互迭代法对上述过程进行梯度操作和投影操作直至矩阵A收敛为止。结果如图3中图3(a)、图3(b)和图3(c)所示。
通过A=CTC求解,得到投影矩阵C,从而实现对人眼图像的特征降维。
步骤4的具体实现步骤:
首先对训练集进行标定,得到对应注视点的坐标,然后在测试过程中利用训练集中的训练人眼特征对测试人眼特征进行重构,从而得到测试人眼特征和训练人眼特征之间的权重关系,最后运用权值共享由训练集中注视点位置信息对测试者注视点位置进行估算。
1.标定过程
设计不同的标定点个数验证标定点个数对注视点估计结果的影响,标定点个数分别为9,16,25,36个,如图4所示。在标定过程中保持头部姿态静止,测试者注释屏幕上的标定点,并随标定点的改变而改变,记录标定点位置坐标信息。
2.测试人眼特征重构
假设标定点坐标信息为x={x1,x2,...,xn},步骤3中得到的人眼特征向量的训练集为E={e1,e2,...,en}∈Rm×n,m表示人眼特征的维数,n表示样本个数,Rm×n为m×n维向量的集合。假设测试人眼特征为é,则运用量化最小残差熵准则对测试人眼特征é重构过程如下:
式中:E为训练人眼特征集,cm为测试人眼特征éi量化后的值,即cm=Q[éi],Mm表示量化到cm的éi的个数,d∈Rn×1表示测试人眼特征é与第i个训练人眼特征向量之间的距离,δ取值为1,w表示样本间权重,M为量化后的cm的个数,N为训练样本点的个数。
根据共轭凸理论,存在以下命题:根据函数 存在一个共轭凸函数R→R,满足下面式子:
s.t.p∈R
将上式代入目标函数中,可得增强函数如下:
其中p=(p1,p2,...,pn)是辅助变量。使用交互迭代法求解上式:
首先,cm=Q[éi],Mm表示量化到cm的éi的个数,M表示量化后的求和项数,可由算法求得已知。
然后:
上式可写成如下形式:
式中:
对上式求导,得:
则:
3.注视点位置估计,
得到测试人眼特征与训练样本之间的权重关系w后,测试样本的注视点位置可由训练样本的注视点位置集合x={x1,x2,...,xn}表示为:
从而求出测试者注视点的位置坐标,如图5所示。
Claims (1)
1.一种基于量化最小残差熵准则的人眼注视点估计方法,其特征在于:该方法只需要一个摄像头以及在屏幕上均匀标定少量的点,具体步骤如下:
步骤1:人脸图像提取:采用基于AdaBoost算法的人脸检测方法对人脸图像进行检测及提取,得到人脸图像;
步骤2:人眼图像精确提取及对齐:在经过步骤1对人脸图像进行提取后,采用亚像素级别边缘检测及仿射变换对人眼进行精确提取和对齐;具体方法为:
首先采用基于Haar-like特征的Viola-Jones人眼检测算法从由步骤1得到的人脸图像中完成人眼图像的粗提取;
其次利用基于Log算子的边缘检测得到人眼精确轮廓并提取;
最后对得到的人眼精确轮廓图像进行对齐操作,对齐操作主要是对所得人眼精确轮廓图像进行如下仿射变换:
在上述公式中,(x0,y0)为变换前的像素点位置,(x,y)为仿射变换后对应像素点的坐标,θ为旋转角度;
步骤3:人眼特征提取及降维:在经过步骤2对人眼图像精确提取及对齐后,采用HoG特征提取算法对所得图像进行特征提取,再利用KL散度算法对人眼图像的HoG特征进行降维操作,使得人眼特征空间降维后与注视点空间更加相似;为了更好学习度量测度,采用欧氏距离表示空间的距离测度关系,即:D(i,j)=||i-j||2,具体方法为:
假设对于训练样本集,定义训练样本之间的条件分布如下:
上式中D(i,j)=||i-j||2表示空间位置(i.j)之间的距离测度关系,D(i,k)表示(i.k)之间的距离测度关系,k表示不同样本的编号;
假设Ψ,Ω,Γ分别代表注视点空间、人眼特征空间以及人眼特征投影空间,人眼特征投影空间和注视点空间的条件分布如下:
上式中DΓ(i,j)和DΨ(i,j)分别表示人眼特征投影空间和注视点空间的距离测度关系;
对于人眼特征投影空间条件分布PΓ(j|i)和注视点空间条件分布PΨ(j|i),通过最小化KL散度KL(PΨ(j|i)|PΓ(j|i))求解转换矩阵:
s.t.A∈PSD
其中:f(A)=∑i,jPΨ(j|i)log PΨ(j|i)-∑i,jPΨ(j|i)log PΓ(j|i),PSD
表示半正定矩阵,DKL(·)为函数的KL散度;
求解得到矩阵A,通过A=CTC求解,得到投影矩阵C,从而实现对人眼图像的特征降维;
步骤4:人眼注视点位置估计:首先对训练样本集进行标定,得到对应注视点的坐标,然后在测试过程中利用训练集中的训练人眼特征对测试人眼特征进行重构,从而得到测试人眼特征和训练人眼特征之间的权重关系,最后运用权值共享由训练集中注视点位置信息对测试者注视点位置进行估算;具体方法为:
首先对训练样本集进行标定,标定过程中保持头部姿态静止,测试者注释屏幕上的标定点,并随标定点的改变而改变;
假设标定点坐标信息为x={x1,x2,...,xn},步骤3中得到的人眼特征向量的训练样本集为E={e1,e2,...,en}∈Rm×n,m表示人眼特征的维数,n表示样本个数,Rm×n为m×n维向量的集合;假设测试人眼特征为é,则运用量化最小残差熵准则对测试人眼特征é重构过程如下:
式中:E为训练人眼特征集,cm为测试人眼特征éi量化后的值,Mm表示量化到cm的éi的个数,d∈Rn×1表示测试人眼特征é与训练人眼特征向量之间的距离,d={d1,...,dn},其中其中i=1,...,n,δ取值为1,w表示样本间权重,M为量化后的cm的个数,N为训练样本点的个数;
得到样本间权重w后,测试样本的注视点位置表示为:
从而求出测试者注视点的位置坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810663272.8A CN108960106B (zh) | 2018-06-25 | 2018-06-25 | 一种基于量化最小残差熵准则的人眼注视点估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810663272.8A CN108960106B (zh) | 2018-06-25 | 2018-06-25 | 一种基于量化最小残差熵准则的人眼注视点估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108960106A CN108960106A (zh) | 2018-12-07 |
CN108960106B true CN108960106B (zh) | 2019-09-20 |
Family
ID=64486632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810663272.8A Active CN108960106B (zh) | 2018-06-25 | 2018-06-25 | 一种基于量化最小残差熵准则的人眼注视点估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108960106B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630410A (zh) * | 2009-08-18 | 2010-01-20 | 北京航空航天大学 | 一种基于单摄像机的人体坐姿判定方法 |
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN107103293A (zh) * | 2017-04-13 | 2017-08-29 | 西安交通大学 | 一种基于相关熵的注视点估计方法 |
CN107506705A (zh) * | 2017-08-11 | 2017-12-22 | 西安工业大学 | 一种瞳孔‑普尔钦斑视线跟踪与注视提取方法 |
CN107977651A (zh) * | 2017-12-21 | 2018-05-01 | 西安交通大学 | 基于量化最小误差熵的共用空间模式空域特征提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357761A (zh) * | 2017-06-28 | 2017-11-17 | 西安交通大学 | 一种量化的最小误差熵计算方法 |
-
2018
- 2018-06-25 CN CN201810663272.8A patent/CN108960106B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630410A (zh) * | 2009-08-18 | 2010-01-20 | 北京航空航天大学 | 一种基于单摄像机的人体坐姿判定方法 |
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN107103293A (zh) * | 2017-04-13 | 2017-08-29 | 西安交通大学 | 一种基于相关熵的注视点估计方法 |
CN107506705A (zh) * | 2017-08-11 | 2017-12-22 | 西安工业大学 | 一种瞳孔‑普尔钦斑视线跟踪与注视提取方法 |
CN107977651A (zh) * | 2017-12-21 | 2018-05-01 | 西安交通大学 | 基于量化最小误差熵的共用空间模式空域特征提取方法 |
Non-Patent Citations (3)
Title |
---|
"Constrained maximum correntropy adaptive filtering";Siyuan Peng等;《Signal Processing》;20170516;第140卷;第116-126页 * |
"Convergence of a Fixed-Point Minimum Error Entropy Algorithm";Yu Zhang等;《Entropy》;20150803;第17卷;第5549-5560页 * |
"Insights Into the Robustness of Minimum Error Entropy Estimation";Badong Chen等;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20180331;第29卷(第3期);第731-737页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108960106A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10082868B2 (en) | Calculation method of line-of-sight direction based on analysis and match of iris contour in human eye image | |
CN109684925B (zh) | 一种基于深度图像的人脸活体检测方法及设备 | |
CN107506693B (zh) | 畸变人脸图像校正方法、装置、计算机设备和存储介质 | |
TWI383325B (zh) | 臉部表情辨識 | |
CN105354531B (zh) | 一种面部关键点的标注方法 | |
CN107103293B (zh) | 一种基于相关熵的注视点估计方法 | |
CN103677274B (zh) | 一种基于主动视觉的互动投影方法及系统 | |
CN104123543B (zh) | 一种基于人脸识别的眼球运动识别方法 | |
CN109508656A (zh) | 一种舞蹈评级自动判别方法、系统及计算机可读存储介质 | |
CN101833654B (zh) | 基于约束采样的稀疏表示人脸识别方法 | |
US11232585B2 (en) | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium | |
CN103902978A (zh) | 人脸检测及识别方法 | |
CN102184016B (zh) | 基于视频序列识别的无接触式鼠标控制方法 | |
Giannakakis et al. | Evaluation of head pose features for stress detection and classification | |
CN105139000A (zh) | 一种去除眼镜痕迹的人脸识别方法及装置 | |
CN111563449A (zh) | 一种实时课堂注意力检测方法及系统 | |
CN109359577A (zh) | 一种基于机器学习的复杂背景下人数检测系统 | |
CN109725721A (zh) | 用于裸眼3d显示系统的人眼定位方法及系统 | |
CN112232128A (zh) | 基于视线追踪的老年残障人士照护需求识别方法 | |
CN108960106B (zh) | 一种基于量化最小残差熵准则的人眼注视点估计方法 | |
CN106127160A (zh) | 一种用于虹膜识别的人眼快速定位方法 | |
CN114639168B (zh) | 一种用于跑步姿态识别的方法和系统 | |
CN115861899A (zh) | 一种基于视线估计的视线差值测量方法及装置 | |
Zhang et al. | An approach of region of interest detection based on visual attention and gaze tracking | |
Wang et al. | Hierarchical gaze estimation based on adaptive feature learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |