CN111209811A - 一种实时检测眼球注意力位置的方法及系统 - Google Patents
一种实时检测眼球注意力位置的方法及系统 Download PDFInfo
- Publication number
- CN111209811A CN111209811A CN201911371128.8A CN201911371128A CN111209811A CN 111209811 A CN111209811 A CN 111209811A CN 201911371128 A CN201911371128 A CN 201911371128A CN 111209811 A CN111209811 A CN 111209811A
- Authority
- CN
- China
- Prior art keywords
- network structure
- neural network
- eyeball
- face
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000005252 bulbus oculi Anatomy 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 56
- 210000001508 eye Anatomy 0.000 claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 230000001815 facial effect Effects 0.000 claims description 17
- 241000282414 Homo sapiens Species 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 210000004279 orbit Anatomy 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001191009 Gymnomyza Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Ophthalmology & Optometry (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种实时检测眼球注意力位置的方法及系统,包括以下步骤,图像采集模块分别获取人物对象的原始图片;所述原始图片输入opencv经过分割计算后输出输入数据;根据所述输入数据对应构建神经网络结构模型;采集标注训练数据;所述训练数据输入所述神经网络结构模型中进行模型训练并完成模型的训练参数设置;预测结果处理模块将所述神经网络结构模型生成的预测结果还原为原尺寸。本发明的有益效果:提升眼睛轮廓边缘识别精度,较传统识别结果有极大提高;以双眼瞳孔中心点为原点建立直角坐标系,可以准确地识别除左右两个方向外,眼球注意力在四个象限的准确位置,实用程度极大提高。
Description
技术领域
本发明涉及视觉处理的技术领域,尤其涉及一种实时检测眼球注意力位置的方法及实时检测眼球注意力位置的系统。
背景技术
近年来在智能控制发展越来越快速的今天,人们对图像捕捉和识别技术进行了研究并将其广泛应用于各种智能产品。既开创了一个新的热门研究领域,还极大的促进了电子产品的智能化进程,方便了人们的生活。而近年来,眼球作为一种新的信息来源越来越被人们所关注,其运动轨迹可以通过合理的研究从而判断出人们的意图,是一种被忽视了的控制方式,而且眼球的控制相比于其他如动作捕捉控制等控制方式要具有一定的便利性和低功耗需求,丰富了人机交互的方式。目前眼球捕捉的主要方式便是通过识别技术,但是图像识别一般精度不足以处理瞳孔这么微小的物体的运动轨迹,而且对大量图片所需的处理时间较长,而这些都主要取决于硬件上各组件的性能和识别算法的优良。因此,如何提高眼球捕捉的实时性和精度问题成为该技术领域的关注重点。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的一个技术问题是:提供一种实时检测眼球注意力位置的方法,提升眼睛轮廓边缘识别精度。
为解决上述技术问题,本发明提供如下技术方案:一种实时检测眼球注意力位置的方法,包括以下步骤,图像采集模块分别获取人物对象的原始图片;所述原始图片输入opencv经过分割计算后输出输入数据;根据所述输入数据对应构建神经网络结构模型;采集标注训练数据;所述训练数据输入所述神经网络结构模型中进行模型训练并完成模型的训练参数设置;预测结果处理模块将所述神经网络结构模型生成的预测结果还原为原尺寸,所述眼球注意力位置返回以所述图像采集模块为原点的直角坐标中的位置。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述输入数据包括以下获取步骤,将所述原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片,并同时计算出人脸在画面中所占的位置;将所述左眼图片、所述右眼图片、所述脸部图片和所述脸部网格共4个输入数据传递至所述神经网络结构模型。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:输入opencv的图片为所述图像采集模块采集到的所述原始图片,且所述原始图片的分辨率1920x1080,以及通道数分别为3个。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述神经网络结构模型包括以下构建步骤,所述原始图片的数据获取;所述神经网络结构模型的输入数据准备;构建所述神经网络结构模型神经网络结构单元。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述左眼、右眼的图片分割获取包括将所述原始图片输入opencv的haarcascade_eye眼部识别单元,得到左右眼的两组x、y、w、h坐标,根据坐标切割出左右眼两幅图片。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述脸部图片分割获取包括将所述原始图片输入opencv的haarcascade_frontface面部识别单元,获取面部的x、y、w、h四个坐标,根据坐标切割出面部图片。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述脸部网格的获取包括将所述原始图片平均分成5x5的网格,每个网格中若面部占比超过50%,则将该网格位置标注为1否则标注为0,得到大小为5x5的面部位置mask。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述神经网络结构单元包括左右特征提取网络结构、面部特征提取网络结构和特征合并,其中所述特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直,将四者合并最终输出二维结果,代表所述眼球注意力位置为原点坐标系上的x和y。
作为本发明所述实时检测眼球注意力位置的方法的一种优选方案,其中:所述标注训练数据包括以下采集步骤,采用方格板作为标尺;采集观测者面部图片,观测者每次注释方格板中的一个点,拍摄观测者面部照片的同时,记录下其所注释的格子,所述方格板共计30个格子,每人采集30张面部照片和对应的格子位置;随机选取10名观测者,重复上述操作,得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置;将图片保存在img目录下,格子位置换算成坐标系后保存在label目录下。
本发明解决的另一个技术问题是:提供一种实时检测眼球注意力位置的系统,提升眼睛轮廓边缘识别精度。
为解决上述技术问题,本发明提供如下技术方案:一种实时检测眼球注意力位置的系统,其特征在于:包括图像采集模块、神经网络结构模型和预测结果处理模块;所述图像采集模块用于分别获取人物对象的原始图片后构建所述神经网络结构模型;所述神经网络结构模型用于将输入的人物对象的眼球注意力输出为预测结果;所述预测结果处理模块接收的所述预测结果,用于将所述眼球注意力位置返回以所述图像采集模块为原点的直角坐标中的位置。
本发明的有益效果:提升眼睛轮廓边缘识别精度,较传统识别结果有极大提高;以双眼瞳孔中心点为原点建立直角坐标系,可以准确地识别除左右两个方向外,眼球注意力在四个象限的准确位置,实用程度极大提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一种实施例所述实时检测眼球注意力位置的方法的整体流程结构示意图;
图2为本发明第一种实施例所述左右特征提取网络结构的示意图;
图3为本发明第一种实施例所述面部特征提取网络结构的示意图;
图4为本发明第一种实施例所述Flatten层实现的示意图;
图5为本发明第一种实施例所述Flatten层神经网络进行可视化的示意图;
图6为本发明第一种实施例所述方格板的示意图;
图7为本发明第一种实施例所述神经网络结构模型训练的示意图;
图8为本发明第二种实施例所述实时检测眼球注意力位置的系统的整体原理结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
在大数据时代中,机器学习在人类视野中的出现次数越来越多,购物平台上的推荐系统,搜索引擎中的推荐系统,手机图像识别文字,语音转化文字,AlphaGo战胜世界围棋大师,这都是深度学习的杰作,深度学习已经不仅仅应用于科学研究,已经慢慢的走近了人类的生活,改善人类的生活,深度学习通过机器减少人类的工作量,提高了相应的效率。深度学习是机器学习的一个分支。深度学习的结构特征为含有多个隐层的深层感知器,将低层的特征点通过一系列组合,形成复杂的高层,用来寻找数据特征以及属性特征。
对于眼球的跟踪,传统检测方法基于传统视觉处理技术,存在两个问题:一是眼睛轮廓分割结果精度不高,与真值偏差较大,影响最终判定结果;二是受人眼构造影响,对眼球左右移动判断精度尚可,但上下移动判定结果较差或无法判定,原因是由于眼眶是一个扁的椭圆形,眼球在眼眶内横向移动范围远远超过纵向移动范围,传统方法对纵向范围的移动无法达到能够识别的精度。传统视觉处理方法中运用提取通道、计算梯度、高斯滤波等方法得出眼球坐标。眼眶范围检测不准,导致瞳孔位置判断失误。本实施例利用深度学习方法采集用户面部照片,分为左眼右眼图片、脸部图片和facegrid,进入神经网络模型,评估头部姿势和凝视方向,返回以摄像头为原点的直角坐标中,用户当前注意力所在的象限位置x,y坐标。
参照图1的示意,示意为本实施例提出的一种实时检测眼球注意力位置的方法,具体包括以下步骤:
S1:图像采集模块100分别获取人物对象的原始图片,通俗的说,这一步作用是准备数据,采集眼睛和面部的照片传递给下一步神经网络进行眼球跟踪识别。
S2:原始图片输入opencv经过分割计算后输出输入数据,本步骤中输入数据包括以下获取步骤:将原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片,并同时计算出人脸在画面中所占的位置;将左眼图片、右眼图片、脸部图片和脸部网格共4个输入数据传递至神经网络结构模型200。其中输入opencv的图片为图像采集模块100采集到的原始图片,且原始图片的分辨率1920x1080,以及通道数分别为(r、g、b)3个。
S3:根据输入数据对应构建神经网络结构模型200,神经网络结构模型200包括以下构建步骤:
S31:原始图片的数据获取:
S32:神经网络结构模型200的输入数据准备:
左眼、右眼的图片分割获取包括将原始图片输入opencv的haarcascade_eye眼部识别单元,得到左右眼的两组x、y、w、h坐标,根据坐标切割出左右眼两幅图片;
脸部图片分割获取包括将原始图片输入opencv的haarcascade_frontface面部识别单元,获取面部的x、y、w、h四个坐标,根据坐标切割出面部图片;
脸部网格的获取包括将原始图片平均分成5x5的网格,每个网格中若面部占比超过50%,则将该网格位置标注为1否则标注为0,得到大小为5x5的面部位置mask。
还需要说明的是,
与上述对应4个输入,神经网络结构前半部分由四个通道构成:
左眼通道:该通道包含四个卷积层,提取左眼特征;
右眼通道:该通道同样包含四个卷积层,与左眼通道共享参数;
面部通道:该通道结构与左/右眼通道相同,但不共享参数;
位置通道:该通道没有卷积层,接入FC层后与上述特征进行合并。
上述四个通道的数据经过拉直、合并之后,进入最终的FC层,输出两个结果,即为眼球注意力所在位置的x、y坐标。最终FC层的输入维度为256,即左眼特征、右眼特征、脸部特征、脸部网格(facegrid)f四个特征向量合并后的维度,输出维度为2。
S33:构建神经网络结构模型200神经网络结构单元:神经网络结构单元包括左右特征提取网络结构、面部特征提取网络结构和特征合并,其中特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直,将四者合并最终输出二维结果,代表眼球注意力位置为原点坐标系上的x和y。
本步骤还需要说明的是,参照图2的示意,其中左右特征提取网络结构如下:
CONV-E1:kernal_size(11*11) filter_number(96)
CONV-E2:kernal_size(5*5) filter_number(256)
CONV-E3:kernal_size(3*3) filter_number(384)
CONV-E4:kernal_size(1*1) filter_number(64)
E1-E4为4层卷积操作,kernal_size为卷积核大小,这里分别是11*11、5*5、3*3、1*1大小的矩阵;Filter_number为卷积核数量,即输出Tensor的维度。
参照图3的示意,其中面部特征提取网络结构如下:
参数同眼部特征提取网络,即:
CONV-F1:kernal_size(11*11) filter_number(96)
CONV-F2:kernal_size(5*5) filter_number(256)
CONV-F3:kernal_size(3*3) filter_number(384)
CONV-F4:kernal_size(1*1) filter_number(64)
F1-F4为4层卷积操作,kernal_size为卷积核大小,这里分别是11*11、5*5、3*3、1*1大小的矩阵。Filter_number为卷积核数量,即输出Tensor的维度。
特征合并是将左右眼特征图拉直、再将面部特征图拉直,以及脸部位置mask结果拉直,四者合并,最终输出2维结果,代表坐标系上的x和y。
参照图4~5的示意,拉直过程为输入数据经过Flatten操作后,进入一个FC层,Flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡。
S4:采集标注训练数据。本步骤中标注训练数据包括以下采集步骤:
采用参照图6的方格板作为标尺;
采集观测者面部图片,观测者每次注视方格板中的一个点,拍摄观测者面部照片的同时,记录下其所注视的格子,方格板共计30个格子,每人采集30张面部照片和对应的格子位置;
随机选取10名观测者,重复上述操作,得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置;将图片保存在img目录下,格子位置换算成坐标系后保存在label目录下。
S5:训练数据输入神经网络结构模型200中进行模型训练并完成模型的训练参数设置。参照图7的示意,本实施例中训练参数设置如下:
Epoch:300
Step:500
Lr:0.0001
动量因子:0.9
LossFunction:MCELoss
BatchSize:2
在2080显卡上整个训练过程耗时10小时。
S6:预测结果处理模块300将神经网络结构模型200生成的预测结果还原为原尺寸,眼球注意力位置返回以图像采集模块100为原点的直角坐标中的位置。具体是神经网络生成的预测结果为分辨率224x224下的位置坐标,通过resize还原到1920x1080的原尺寸。
本实施例提升眼睛轮廓边缘识别精度,较传统识别结果有极大提高,结合眼球识别算法,总体识别准确率>90%;以双眼瞳孔中心点为原点建立直角坐标系,可以准确地识别除左右两个方向外,眼球注意力在四个象限的准确位置,实用程度极大提高。
场景一:
针对本实施例取得“总体识别准确率>90%”的效果加以验证,做传统识别结果和本方法识别的对比,对本方法中采用的技术效果加以验证说明,本实施例选择的不同方法和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
传统的技术方案,例如基于单帧图像的眼球追踪、基于视频帧的眼球追踪等,对单帧图像的检测算法YOLO而言,其将每个卷积层对应的特征图进行上采样的特征融合,得到更加明显的特征信息,对所有卷积层的特征图进行预测,利用边框回归等训练方式,得到最终的眼球位置信息,通过单帧图像的检测算法眼球追踪在眼球类小目标上存在精确度问题。同时视频帧的YOLO算法与递归神经网络相结合,其处理在视频帧中,前后信息的空间关联性较大,对前后帧图像中的特征信息进行空间关联上的学习,在眼球被外界因素产生遮挡的情况下,利用前后5帧图像信息的置信图对眼球位置信息进行预测,存在眼球被遮挡时追踪效果不明显的问题。
本实施例中基于本方法检测眼球位置和传统基于视频帧的眼球追踪技术分别做仿真测试实验,验证本方法的检测准确度。
测试环境如下:
操作系统window10专业版64(DirectX12)。
处理器:英特尔Corei5-6500@3.20GHz四核。
显卡:NvidiaGeForceGTX10603GB。
使用了Tensorflow的框架,工具为Unity3d2017。
训练的数据集:Kaggle数据集,图像数据为96*967000张人脸图像数据,30个类别的人脸关键点标注数据;ImageNet分类数据集,ImageNet标注数据集为120万张图像数据,1000个类别。
测试的数据集:OTB50。
准确率上评价规则为在帧图像序列中眼球追踪结果的中心位置与真实标记位置中心点的距离在一定阈值内的帧数占全部帧数的百分比。
其中BoxT为眼球追踪的框体,BoxG为真实标注的框体。
分别运行以下检测方法,最终实际软件输出的仿真测试结果如下表1。
表1:实验结果。
检测方法 | 数据集 | 准确率 | 速度/s |
Fastest DPM | OTB50 | 81.9 | 4.61 |
R-CNN Minus R | OTB50 | 85.6 | 0.83 |
Fast R-CNN | OTB50 | 89.1 | 2.77 |
本方法 | OTB50 | 91.8 | 1.57 |
Faster R-CNN ZF | OTB50 | 62.1 | 24 |
YOLO VGG-16 | OTB50 | 78.2 | 17 |
通过上表得出结论,基于本申请的检测方法精度可以达到百分之91.8,效果与Fast R-CNN准确率相近,但在速度上巨大的优势。
实施例2
参照图8的示意,示意为本实施例中提出的一种实时检测眼球注意力位置的系统,该系统包括图像采集模块100、神经网络结构模型200和预测结果处理模块300。
进一步的更加具体的,本实施例中图像采集模块100用于分别获取人物对象的原始图片后构建神经网络结构模型200;神经网络结构模型200用于将输入的人物对象的眼球注意力输出为预测结果;预测结果处理模块300接收的预测结果,用于将眼球注意力位置返回以图像采集模块100为原点的直角坐标中的位置。其中图像采集模块100为摄像机或摄像头,神经网络结构模型200和预测结果处理模块300为运行计算机内的软件程序,通过上述实施例的算法程实现实时检测眼球注意力位置的跟踪。且不难理解的是,通过芯片集成的方式,神经网络结构模型200和预测结果处理模块300都对应写入各自计算程序的处理线路板硬件,通过集成的方式组成处理芯片硬件。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种实时检测眼球注意力位置的方法,其特征在于:包括以下步骤,
图像采集模块(100)分别获取人物对象的原始图片;
所述原始图片输入opencv经过分割计算后输出输入数据;
根据所述输入数据对应构建神经网络结构模型(200);
采集标注训练数据;
所述训练数据输入所述神经网络结构模型(200)中进行模型训练并完成模型的训练参数设置;
预测结果处理模块(300)将所述神经网络结构模型(200)生成的预测结果还原为原尺寸,所述眼球注意力位置返回以所述图像采集模块(100)为原点的直角坐标中的位置。
2.如权利要求1所述的实时检测眼球注意力位置的方法,其特征在于:所述输入数据包括以下获取步骤,
将所述原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片,并同时计算出人脸在画面中所占的位置;
将所述左眼图片、所述右眼图片、所述脸部图片和所述脸部网格共4个输入数据传递至所述神经网络结构模型(200)。
3.如权利要求1或2所述的实时检测眼球注意力位置的方法,其特征在于:输入opencv的图片为所述图像采集模块(100)采集到的所述原始图片,且所述原始图片的分辨率1920x1080,以及通道数分别为(r、g、b)3个。
4.如权利要求3所述的实时检测眼球注意力位置的方法,其特征在于:所述神经网络结构模型(200)包括以下构建步骤,
所述原始图片的数据获取;
所述神经网络结构模型(200)的输入数据准备;
构建所述神经网络结构模型(200)神经网络结构单元。
5.如权利要求4所述的实时检测眼球注意力位置的方法,其特征在于:所述左眼、右眼的图片分割获取包括将所述原始图片输入opencv的haarcascade_eye眼部识别单元,得到左右眼的两组x、y、w、h坐标,根据坐标切割出左右眼两幅图片。
6.如权利要求4或5所述的实时检测眼球注意力位置的方法,其特征在于:所述脸部图片分割获取包括将所述原始图片输入opencv的haarcascade_frontface面部识别单元,获取面部的x、y、w、h四个坐标,根据坐标切割出面部图片。
7.如权利要求6所述的实时检测眼球注意力位置的方法,其特征在于:所述脸部网格的获取包括将所述原始图片平均分成5x5的网格,每个网格中若面部占比超过50%,则将该网格位置标注为1否则标注为0,得到大小为5x5的面部位置mask。
8.如权利要求7所述的实时检测眼球注意力位置的方法,其特征在于:所述神经网络结构单元包括左右特征提取网络结构、面部特征提取网络结构和特征合并,其中所述特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直,将四者合并最终输出二维结果,代表所述眼球注意力位置为原点坐标系上的x和y。
9.如权利要求7或8所述的实时检测眼球注意力位置的方法,其特征在于:所述标注训练数据包括以下采集步骤,
采用方格板作为标尺;
采集观测者面部图片,观测者每次注释方格板中的一个点,拍摄观测者面部照片的同时,记录下其所注释的格子,所述方格板共计30个格子,每人采集30张面部照片和对应的格子位置;
随机选取10名观测者,重复上述操作,得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置;
将图片保存在img目录下,格子位置换算成坐标系后保存在label目录下。
10.一种实时检测眼球注意力位置的系统,其特征在于:包括图像采集模块(100)、神经网络结构模型(200)和预测结果处理模块(300);
所述图像采集模块(100)用于分别获取人物对象的原始图片后构建所述神经网络结构模型(200);
所述神经网络结构模型(200)用于将输入的人物对象的眼球注意力输出为预测结果;
所述预测结果处理模块(300)接收的所述预测结果,用于将所述眼球注意力位置返回以所述图像采集模块(100)为原点的直角坐标中的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911371128.8A CN111209811B (zh) | 2019-12-26 | 2019-12-26 | 一种实时检测眼球注意力位置的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911371128.8A CN111209811B (zh) | 2019-12-26 | 2019-12-26 | 一种实时检测眼球注意力位置的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209811A true CN111209811A (zh) | 2020-05-29 |
CN111209811B CN111209811B (zh) | 2024-04-09 |
Family
ID=70784065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911371128.8A Active CN111209811B (zh) | 2019-12-26 | 2019-12-26 | 一种实时检测眼球注意力位置的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209811B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001320A (zh) * | 2020-08-25 | 2020-11-27 | 天地伟业技术有限公司 | 一种基于视频的闸门检测方法 |
CN112102680A (zh) * | 2020-08-27 | 2020-12-18 | 华东交通大学 | 一种基于vr的列车驾驶教学平台及方法 |
CN114863093A (zh) * | 2022-05-30 | 2022-08-05 | 厦门大学 | 基于眼动技术的神经网络训练方法及建筑设计方法和系统 |
CN115120436A (zh) * | 2022-06-27 | 2022-09-30 | 广东技术师范大学 | 一种眼睛控制的智慧医疗床及其控制方法 |
WO2023004734A1 (en) * | 2021-07-30 | 2023-02-02 | Pricewaterhousecoopers Llp | Gaze predictor |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
-
2019
- 2019-12-26 CN CN201911371128.8A patent/CN111209811B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
KYLE KRAFKA 等: "Eye Tracking for Everyone", pages 2176 - 2183 * |
王丽: "基于视频序列的人眼检测与跟踪的研究及应用", pages 28 - 30 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001320A (zh) * | 2020-08-25 | 2020-11-27 | 天地伟业技术有限公司 | 一种基于视频的闸门检测方法 |
CN112001320B (zh) * | 2020-08-25 | 2024-04-23 | 天地伟业技术有限公司 | 一种基于视频的闸门检测方法 |
CN112102680A (zh) * | 2020-08-27 | 2020-12-18 | 华东交通大学 | 一种基于vr的列车驾驶教学平台及方法 |
WO2023004734A1 (en) * | 2021-07-30 | 2023-02-02 | Pricewaterhousecoopers Llp | Gaze predictor |
CN114863093A (zh) * | 2022-05-30 | 2022-08-05 | 厦门大学 | 基于眼动技术的神经网络训练方法及建筑设计方法和系统 |
CN114863093B (zh) * | 2022-05-30 | 2024-05-31 | 厦门大学 | 基于眼动技术的神经网络训练方法及建筑设计方法和系统 |
CN115120436A (zh) * | 2022-06-27 | 2022-09-30 | 广东技术师范大学 | 一种眼睛控制的智慧医疗床及其控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111209811B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093453A1 (zh) | 三维表情基的生成方法、语音互动方法、装置及介质 | |
CN111209811A (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN110472531A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN109410242A (zh) | 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质 | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
CN110399809A (zh) | 多特征融合的人脸关键点检测方法及装置 | |
CN110349152A (zh) | 人脸图像质量检测方法及装置 | |
CN111240476A (zh) | 基于增强现实的交互方法、装置、存储介质和计算机设备 | |
CN108846343B (zh) | 基于三维视频的多任务协同分析方法 | |
Liu et al. | Attentive cross-modal fusion network for RGB-D saliency detection | |
CN113177432A (zh) | 基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质 | |
Lin et al. | High quality facial data synthesis and fusion for 3D low-quality face recognition | |
Gündüz et al. | Turkish sign language recognition based on multistream data fusion | |
CN118351572A (zh) | 人员检测方法及相关装置 | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
CN117834839A (zh) | 基于移动终端的多视角3d智能成像测量系统 | |
Khan et al. | Towards monocular neural facial depth estimation: Past, present, and future | |
Yang et al. | Mixed attention hourglass network for robust face alignment | |
CN116403275A (zh) | 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 | |
CN115471901A (zh) | 基于生成对抗网络的多姿态人脸正面化方法及系统 | |
Sun et al. | Devil in the details: Delving into accurate quality scoring for DensePose | |
Nappi et al. | Introduction to the special section on biometric systems and applications | |
Chao et al. | Multi-view key information representation and multi-modal fusion for single-subject routine action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 11th Floor, Building A1, Huizhi Science and Technology Park, No. 8 Hengtai Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 211000 Applicant after: DILU TECHNOLOGY Co.,Ltd. Address before: Building C4, No.55 Liyuan South Road, moling street, Nanjing, Jiangsu Province Applicant before: DILU TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |