CN107862246B - 一种基于多视角学习的眼睛注视方向检测方法 - Google Patents
一种基于多视角学习的眼睛注视方向检测方法 Download PDFInfo
- Publication number
- CN107862246B CN107862246B CN201710944966.4A CN201710944966A CN107862246B CN 107862246 B CN107862246 B CN 107862246B CN 201710944966 A CN201710944966 A CN 201710944966A CN 107862246 B CN107862246 B CN 107862246B
- Authority
- CN
- China
- Prior art keywords
- features
- eye
- matrix
- learning
- gazing direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于眼睛注视方向检测技术领域,提供一种基于多视角学习的眼睛注视方向检测方法,用于提高检测精度;本发明首先通过一种快速显著点移动识别方法收集人眼目视的图片数据,提取人眼目视图片数据中的两类特征,1)位置偏移量特征W、2)人眼周围部分图像灰度的梯度特征H;根据多视角的关联分析方法求取两类特征W、H投影到新的特征空间的投影矩阵A、B构建新特征空间下的数据样本;基于新的特征中的数据样本训练学习基于SVM的DAG‑SVM多分类算法的分类器,建立识别人眼注视方向的分类检测模型。本发明发明利用多视角学习的方式学习不同特征之间的相关性,建立新的学习训练样本,能够在单目摄像头条件下、大大提高人眼注视方向检测精度。
Description
技术领域
本发明属于眼睛注视方向检测技术领域,更为具体地讲,涉及一种在单目摄像头条件下,通过多视角学习技术分析用户眼睛注视方向的方法,该方法利用简易单目摄像头采集用户图片,对用户的眼睛注视方向进行检测。
背景技术
人机交互技术是近些年来的研究热点,VR、眼睛注视方向(下文简写为视线方向)追踪等视觉交互技术的兴起促进了一大批相关产业;如角色扮演类交互游戏,交互游戏通过使用人机交互技术特别是视觉交互技术能够使玩家有强烈的代入感,身临游戏其中,是近些年游戏市场的热门;广告预测分析,信息爆炸时代,广告商总是希望用户能够一眼看到他们的广告却又不影响用户对内容的体验;虚拟购物场景中,对人眼视线方向的追踪是核心技术之一;视线追踪,还可以用作分析人的行为模式等。
目前,通过基于专业设备的高精度视线追踪系统实现了效果良好的视线追踪功能,传统技术主要采用高分辨率摄像头、基于红外光的侵入式设备等,可良好的应用在医学、军事等需要高精度要求的领域,但这些方法所采用的设备昂贵、技术复杂,只能配备于科研院所、医院等大型公有场所。基于简单的单目摄像头的高精度视线追踪设备与技术还较为欠缺,目前存在基于瞳孔位置的眼睛注视方向的检测方法,但由于位置代表的绝对值并不能良好的反映眼球的运动,进一步将其改进为瞳孔位置与眼眶的位置比,采用此类基于位置比的特征分析眼睛注视方向;但该方法采用单一特征进行检测,检测精度有待进一步提高。因此,本发明提供一种基于多视角学习的眼睛注视方向检测方法。
发明内容
本发明的目的在于提供一种基于多视角学习的眼睛注视方向检测方法,采用多视角学习的特征融合技术学习多个类型特征(如基于位置比率的特征、基于图片灰度值的特征)之间的相关性,融合各类特征的表现形式,重新学习各类特征对眼睛注视方向的影响及各类特征之间的相互偶合作用,构建新的分类学习样本,最后采用基于支持向量机(Support Vector Machine,下面简称为SVM)的DAG-SVM的学习方法,学习眼睛注视方向,构建眼睛注视方向检测系统。本发明能够在低成本单目摄像头条件下,实现眼睛注视方向检测,并且提高检测精度,有利于视线交互技术普及应用。
为实现上述目的,本发明采用的技术方案为:
一种基于多视角学习的眼睛注视方向检测方法,其特征在于,包括以下步骤:
步骤1、样本用户目视图片数据采集
首先,屏幕上固定时间间隔移动一个显著特征点,并通过摄像头采集人眼注视移动显著特征点下的视频数据;然后通过帧的划分将视频数据划分为单张目视图片,并进行去噪处理后存储;最后,重复上述过程,采集若干样本用户目视图片数据,形成目视图片数据集;
步骤2、提取用户目视图片中特征
1)基于位置偏移的位置特征:首先通过AAM(Active Appreance Model)方法、ASM(Act ive Shape Mode)方法或Snake模型提取方法提取人脸部特征,然后通过Hough(霍夫)变化提取人眼部特征、包括瞳孔与眼眶特征,最后将人眼部特征转化为瞳孔到眼眶的水平、垂直方向的比率作为第一类特征;得到第一类特征矩阵:其中、m表示样本用户个数、n表示第一类特征维度;
步骤3、通过多视角学习方法(CCA)建立新的学习样本
采用矩阵A表示第一类特征样本W的转换矩阵,表示为:
采用矩阵B表示第二类特征样本H的转换矩阵,表示为:
其中,d=min(rank(W),rank(H))、即为特征矩阵W、H矩阵秩的最小值,·T表示矩阵转置;
求解转换矩阵A、B,将第一、第二类特征转换为在新的特征空间下的数据样本,表示为:
[ATW BTH L]
其中,L为显著特征点标签集合;
步骤4、基于步骤3得新的特征空间下的数据样本,建立基于支持向量机(SVM)的DAG-SVM多分类器进行人眼注视方向的分类检测。
本发明的有益效果在于:
本发明提供一种基于多视角学习的眼睛注视方向检测方法,首先通过一种快速显著点移动识别方法收集人眼目视的图片数据,提取人眼目视图片数据中的两类特征,1)位置偏移量特征W、2)人眼周围部分图像灰度的梯度特征H;根据多视角的关联分析方法求取两类特征W、H投影到新的特征空间的投影矩阵A、B构建新特征空间下的数据样本;基于新的特征中的数据样本训练学习基于SVM的DAG-SVM多分类算法的分类器,建立识别人眼注视方向的分类检测模型。本发明利用多视角学习的方式学习不同特征之间的相关性,建立新的学习训练样本,能够大大提高人眼注视方向检测精度。
附图说明
图1是本发明基于多视角学习眼睛注视方向检测方法的流程示意图。
图2是本发明实施例中用户眼睛注视图片数据收集方法示意图。
图3是本发明实施例中提取用户眼睛注视图片中的瞳孔位移特征的方法示意图。
图4是本发明实施例中基于SVM的DAG-SVM多分类算法的分类器建立用户眼睛注视方向分类检测方法示意图。
图5是本发明实施例中基于多视角学习的眼睛注视方向检测方法整体方案示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本实施例提供一种基于多视角学习眼睛注视方向检测方法,其流程如图1所示,包括以下步骤:
S1:用户目视图片数据的收集与整理清洗
本发明提出了一种目视显著点的快速收集用户目视图片数据的方法,实施过程如下:
1)将屏幕分为4×3(纵向横向)的网格,构造一段视频,视频中有一个显著点,显著点每次在方格的中心停留10秒,然后快速在这12个方格中心移动;
2)测试者身体正坐于屏幕前,采取平视姿势,目视该显著点,尽量保持头不要动,随着显著点的移动快速移动目视方向,我们通过屏幕上方的摄像头采集用户在接收测试时的视频,具体方法如图2所示;
3)通过将视频按帧拆分后,去除快速转移过程中的视频图片,留下用户在目视显著点时,前后图像未发生明显变化的图片,作为用户目视该显著点的图片数据,然后对图片进行去噪处理;
4)屏幕被划分为12个格子,标签L表示为L=[l1 l2 … l12];每位用户经过采集,对图片的选择后会保留12张图片,作为该用户的目视图片的数据样本;
S2:提取用户目视图片中不同类型的特征
在收集完一定量的用户目视图片数据后,提取每张用户目视图片中的两类特征,1)瞳孔位置偏移量特征,2)人眼周围部分图像灰度的梯度特征;本发明在具体实施时通过AAM方法提取人脸部特征,通过Hough变化提取人眼部特征主要为瞳孔与虹膜的特征(特征提取的方法可以采用其他方法,如ASM提取人脸特征,Snake模型提取等),由于提取的特征并不能很好的反映人眼注视,所以对特征进行组合补充,方法如图3所示;
图3为提取第一类特征的方法,AAM检测到人眼在相应坐标系下的坐标,有眼眶位置瞳孔中心位置,瞳孔周围的位置,以及眼眶周围的位置;第一类特征描述如公式(4)所示:
W={w1,w2,w3,…,wn} (1)
第二类特征如公式(5)所示,为图片中灰度与直方图特征:
H={h1,h2,h3,…,hp} (2)
其中,h1是眼部区域的灰度均值,h2是眼部区域的灰度中值,h3是灰度的标准差,可以拓展的特征还包括灰度的平滑度,灰度的熵,可扩充至hp;
W表示瞳孔位置的偏移量特征,是考虑了人眼在目视不同显著点时瞳孔位置与眼眶位置的变化;H表示人眼周围部分图像灰度值的梯度特征,是考虑了在目视不同显著点时由于光照角度的不同,摄像头采集到的人眼部周围的灰度值的变化情况。两类特征都可以分别单独用于分析目视方向,但传统方法缺乏将两类特征的有效融合,缺乏对两类特征相关性的分析;
S3:运用CCA方法分析不同类型特征的相关性
本发明运用多视角学习技术中的典型相关分析学习不同类型的特征(W,H)之间的关系,将W,H投影到新的特征空间内,建立新的数据样本表示方法,学习数据特征之间深层次的关联,提高分类的准确度;构建矩阵A和B,因为两种类型的特征描述的是同一个数据样本,所以希望新的两类特征描述的显著点标签一致,即要求两类特征的相关性最大;基于典型关联分析的多视角学习技术核心是通过两个投影矩阵将不同类型的特征投影到新的特征空间。矩阵A和B为投影矩阵,令u=ATW、v=BTH,具体的求解步骤如下:
给定两类特征W与H,W的协方差矩阵为ΣWW,H的协方差矩阵为ΣHH,∑WH=cov(W,H),∑HW=cov(H,W),ΣWH的转置矩阵为ΣHW;W与H的协方差矩阵为∑,如公式(6)所示;公式(7)是u,v两类特征转换后的新特征空间下的相关系数Corr(u,v):
目标为求Corr(u,v)最大,等同于优化公式(8),同时满足公式(9)的条件:
max{ATΣWHB} (5)
s.t.ATΣWWA=1&BTΣHHB=1 (6)
构造Lagrangian等式如公式(10)所示:
其中λ、θ是Lagrangian参数,对A、B求偏导数,如公式(11),(12)所示:
令偏导数等于0,并简化如公式(13),(14)所示:
根据约束条件,并将公式(13),(14)做简单编写,推到得出λ=θ,写成矩阵形式的公式(15):
S4:使用SVM分类器建立多分类的目视方向检测模型
在求得ATW与BTH后,重新构建数据训练样本,形如[ATW BTH L],建立基于SVM分类器多分类目视方向检测模型。SVM是一个经典的二分类分类器,分类效果良好,常用来做模式识别与检测,SVM的分类目标优化公式如公式(17)所示,其中α,β都是模型参数,可以通过数据训练后求得,fi是新特征空间下的数据样本,如[ATW BTH L],li是数据样本所对应的显著点的标签,但由于SVM分类器只能处理二分类问题,无法应用在多分类的分类场景中,故本发明采用基于DAG-SVM的多分类算法:
本发明建立基于SVM的多分类分类器,采用有向无环图的技术的SVM分类器(即DAG-SVM),DAG-SVM相较于传统SVM多分类方法精度较高,当有k类类别时,使用k-1个基础SVM分类器;如附图5的DAG-SVM结构图所示,每次首先区分区别最大的一类与非同类,如首先选取最不可能的第1类和非第1类,以及第12类和非第12类,依次进行分类,最终将所有数据样本分为12类。采用DAG-SVM技术的分类器相较于传统人眼识别中采用的基本SVM分类器,运算量较小,减小了模型复杂度,提高了分类的准确性。
本发明首先通过一种快速采集用户目视图片数据的方法,通过显著点移动视频收集用户关注屏幕中12个显著特征点的人眼目视图片数据,提高了数据收集的质量和速度,避免了传统收集方法中需要用户多次目视屏幕中显著点采集图片的繁琐。将人眼目视图片数据进行去噪处理后,通过ASM方法提取人脸中瞳孔与眼眶的距离特征,通过图片的灰度片提取人眼目视图片中眼眶部分的灰度值的梯度特征。两类特征通过多视角学习中的典型相关分析(CCA)特征融合学习技术学习不同类型特征之间的相关性,求出两类特征在新的特征空间下的转化矩阵,形成新特征空间下的数据样本,如[ATW BTH L]。下一步将数据样本放入DAG-SVM分类训练器中,学习特征与人眼目视方向之间模型。整个模型相较于传统模型简单提取单一类型的特征,增强了人眼目视方向检测的鲁棒性,提高了人眼目视方式识别的准确率。
本发明中,针对传统人眼目视方向识别检测中的不足,提出了一种基于多视角学习的眼睛注视方向检测技术,发明技术在用户目视图片数据的快速收集、人眼目视不同类型特征提取与整合,人眼特征的多视角学习,人眼分类模型等关键技术上做出了创新。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (1)
1.一种基于多视角学习的眼睛注视方向检测方法,其特征在于,包括以下步骤:
步骤1、样本用户目视图片数据采集
首先,屏幕上固定时间间隔移动一个显著特征点,并通过摄像头采集人眼注视移动显著特征点下的视频数据;然后通过帧的划分将视频数据划分为单张目视图片,并进行去噪处理后存储;最后,重复上述过程,采集若干样本用户目视图片数据,形成目视图片数据集;
步骤2、提取用户目视图片中特征
1)基于位置偏移的位置特征:首先通过AAM(Active Appreance Model)方法、ASM(Active Shape Mode)方法或Snake模型提取方法提取人脸部特征,然后通过Hough(霍夫)变化提取人眼部特征、包括瞳孔与眼眶特征,最后将人眼部特征转化为瞳孔到眼眶的水平、垂直方向的比率作为第一类特征;得到第一类特征矩阵:其中、m表示样本用户个数、n表示第一类特征维度;
2)基于图片灰度值的特征:通过对用户目视图片中人眼部分的灰度值求取梯度作为第二类特征;得到第二类特征矩阵:其中、m表示样本用户个数、p表示第二类特征维度;h1m表示第m个用户的眼部区域的灰度均值,h2m表示第m个用户的眼部区域的灰度中值,h3m表示第m个用户的眼部区域的灰度标准差,拓展特征还包括灰度平滑度、灰度熵、直至hpm;
步骤3、通过多视角学习方法(CCA)建立新的学习样本
采用矩阵A表示第一类特征样本W的转换矩阵,表示为:
采用矩阵B表示第二类特征样本H的转换矩阵,表示为:
其中,d=min(rank(W),rank(H))、即为特征矩阵W、H矩阵秩的最小值,·T表示矩阵转置;
求解转换矩阵A、B,将第一、第二类特征转换为在新的特征空间下的数据样本,表示为:
[ATW BTH L]
其中,L为显著特征点标签集合;
步骤4、基于步骤3得新的特征空间下的数据样本,建立基于支持向量机(SVM)的DAG-SVM多分类器进行人眼注视方向的分类检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710944966.4A CN107862246B (zh) | 2017-10-12 | 2017-10-12 | 一种基于多视角学习的眼睛注视方向检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710944966.4A CN107862246B (zh) | 2017-10-12 | 2017-10-12 | 一种基于多视角学习的眼睛注视方向检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107862246A CN107862246A (zh) | 2018-03-30 |
CN107862246B true CN107862246B (zh) | 2021-08-06 |
Family
ID=61698493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710944966.4A Active CN107862246B (zh) | 2017-10-12 | 2017-10-12 | 一种基于多视角学习的眼睛注视方向检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862246B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145864A (zh) * | 2018-09-07 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 确定视线区域的方法、装置、存储介质和终端设备 |
CN111428634B (zh) * | 2020-03-23 | 2023-06-27 | 中国人民解放军海军特色医学中心 | 一种采用六点法分块模糊加权的人眼视线追踪定位方法 |
CN114724257B (zh) * | 2022-04-20 | 2022-12-06 | 北京快联科技有限公司 | 一种活体检测的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN103067662A (zh) * | 2013-01-21 | 2013-04-24 | 天津师范大学 | 一种自适应视线跟踪系统 |
CN107506751A (zh) * | 2017-09-13 | 2017-12-22 | 重庆爱威视科技有限公司 | 基于眼动控制的广告投放方法 |
-
2017
- 2017-10-12 CN CN201710944966.4A patent/CN107862246B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102749991A (zh) * | 2012-04-12 | 2012-10-24 | 广东百泰科技有限公司 | 一种适用于人机交互的非接触式自由空间视线跟踪方法 |
CN103067662A (zh) * | 2013-01-21 | 2013-04-24 | 天津师范大学 | 一种自适应视线跟踪系统 |
CN107506751A (zh) * | 2017-09-13 | 2017-12-22 | 重庆爱威视科技有限公司 | 基于眼动控制的广告投放方法 |
Non-Patent Citations (2)
Title |
---|
"基于CCA的图像特征匹配算法";张克军等;《云南民族大学学报 自然科学版》;20151231;第24卷(第3期);论文第1-2节 * |
"基于混合特征的注视方向判别";葛宏志等;《高技术通讯》;20111231;第21卷(第4期);论文第1-2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107862246A (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ciptadi et al. | Movement pattern histogram for action recognition and retrieval | |
Ling et al. | A saliency prediction model on 360 degree images using color dictionary based sparse representation | |
Zhang et al. | Random Gabor based templates for facial expression recognition in images with facial occlusion | |
CN105913456B (zh) | 基于区域分割的视频显著性检测方法 | |
CN107203745B (zh) | 一种基于跨域学习的跨视角动作识别方法 | |
CN109389045B (zh) | 基于混合时空卷积模型的微表情识别方法与装置 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
Obinata et al. | Temporal extension module for skeleton-based action recognition | |
CN111046734B (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN107862246B (zh) | 一种基于多视角学习的眼睛注视方向检测方法 | |
JP7292492B2 (ja) | オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム | |
CN111914643A (zh) | 一种基于骨骼关键点检测的人体动作识别方法 | |
CN109559332A (zh) | 一种结合双向LSTM和Itracker的视线跟踪方法 | |
CN103679662B (zh) | 基于类别先验非负稀疏编码字典对的超分辨率图像恢复方法 | |
CN107609571A (zh) | 一种基于lark特征的自适应目标跟踪方法 | |
Zhi-chao et al. | Key pose recognition toward sports scene using deeply-learned model | |
CN111582036B (zh) | 可穿戴设备下基于形状和姿态的跨视角人物识别方法 | |
CN114170537A (zh) | 一种多模态三维视觉注意力预测方法及其应用 | |
CN117095128A (zh) | 一种无先验多视角人体服饰编辑方法 | |
CN111160119A (zh) | 一种用于化妆人脸验证的多任务深度判别度量学习模型构建方法 | |
Muhamada et al. | Review on recent computer vision methods for human action recognition | |
CN114299279A (zh) | 基于脸部检测和识别的无标记群体恒河猴运动量估计方法 | |
CN114093024A (zh) | 人体动作的识别方法、装置、设备及存储介质 | |
Rumyantsev et al. | Hand Sign recognition through palm gesture and movement | |
CN112099330B (zh) | 基于外部相机和穿戴式显控设备的全息人体重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |