CN112541454A - 一种用于视线估计的卷积神经网络设计方法 - Google Patents

一种用于视线估计的卷积神经网络设计方法 Download PDF

Info

Publication number
CN112541454A
CN112541454A CN202011515435.1A CN202011515435A CN112541454A CN 112541454 A CN112541454 A CN 112541454A CN 202011515435 A CN202011515435 A CN 202011515435A CN 112541454 A CN112541454 A CN 112541454A
Authority
CN
China
Prior art keywords
layer
convolution
grid
fully
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011515435.1A
Other languages
English (en)
Inventor
冯偲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dilu Technology Co Ltd
Original Assignee
Dilu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dilu Technology Co Ltd filed Critical Dilu Technology Co Ltd
Priority to CN202011515435.1A priority Critical patent/CN112541454A/zh
Publication of CN112541454A publication Critical patent/CN112541454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于视线估计的卷积神经网络设计方法,具体为:设计用于对人脸左眼、右眼的区域进行特征提取的左眼、右眼特征提取网络,以及用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络;设计用于对人脸区域的图像进行特征提取的人脸特征提取网络;设计用于对人脸相对位置网格进行特征提取的网格特征提取网络,其中,人脸相位位置网格为一与相机拍摄的图像大小相同的网格,将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色,其余部分网格为白色;设计用于对人眼、人脸和网格特征进行融合的融合网络,从而实现视线估计。本发明设计的方法无需对摄像头进行标定,可以在不同的环境和场合下使用。

Description

一种用于视线估计的卷积神经网络设计方法
技术领域
本发明涉及一种用于视线估计的卷积神经网络设计方法,属于图像识别领域。
背景技术
眼球估计是一项科学应用技术,用户无需触摸屏幕即可翻动页面。从原理上看,眼球追踪主要是研究眼球运动信息的获取、建模和模拟,用途颇广。而获取眼球运动信息的设备除了红外设备之外,还可以是图像采集设备,甚至一般电脑或手机上的摄像头,其在软件的支持下也可以实现眼球跟踪。
现有方法多是在传统机器视觉算法的基础上进行视线估计,该方法需要对摄像头进行标定,且摄像头的位置不能随意的移动。
发明内容
本发明所要解决的技术问题是:提供一种用于视线估计的卷积神经网络设计方法,该方法无需对摄像头进行标定,可以在不同的环境和场合下使用。
本发明为解决上述技术问题采用以下技术方案:
一种用于视线估计的卷积神经网络设计方法,包括如下步骤:
步骤1,设计用于对人脸左眼的区域进行特征提取的左眼特征提取网络,以及设计对人脸右眼的区域进行特征提取的右眼特征提取网络,设计用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络;
步骤2,设计用于对人脸区域的图像进行特征提取的人脸特征提取网络,所述人脸区域的图像通过采用人脸检测技术从相机拍摄的图像中获取;
步骤3,设计用于对人脸相对位置网格进行特征提取的网格特征提取网络,所述人脸相位位置网格为一与相机拍摄的图像大小相同的网格,将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色,其余部分网格为白色;
步骤4,设计用于对人眼、人脸和网格特征进行融合的融合网络,该融合网络对步骤1、步骤2和步骤3各自对应的网络的输出结果进行融合,从而实现视线估计。
作为本发明的一种优选方案,步骤1所述左眼特征提取网络包括依次连接的第一至第四卷积层:第一卷积层的卷积核大小为11*11,卷积核数量为94,步长为4,使用relu激活;第二卷积层的卷积核大小为5*5,卷积核数量为256,步长为1,使用relu激活;第三卷积层的卷积核大小为3*3,卷积核数量为384,步长为1,使用relu激活;第四卷积层的卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活;右眼特征提取网络包括依次连接的第五至第八卷积层:第五卷积层与第一卷积层相同,第六卷积层与第二卷积层相同,第七卷积层与第三卷积层相同,第八卷积层与第四卷积层相同。
作为本发明的一种优选方案,步骤1所述左眼右眼特征融合网络包括第一全连接层,且第一全连接层的通道数为128。
作为本发明的一种优选方案,步骤1所述人脸左眼的区域为第一矩形区域,该第一矩形区域的长为左眼的长度,宽为左眼的宽度;人脸右眼的区域为第二矩形区域,该第二矩阵区域的长为右眼的长度,宽为右眼的宽度。
作为本发明的一种优选方案,步骤2所述人脸特征提取网络包括依次连接的第九卷积层至第十二卷积层,与第十二卷积层连接的第二全连接层以及与第二全连接层连接的第三全连接层,第九卷积层的卷积核大小为11*11,卷积核数量为94,步长为4,使用relu激活;第十卷积层的卷积核大小为5*5,卷积核数量为256,步长为1,使用relu激活;第十一卷积层的卷积核大小为3*3,卷积核数量为384,步长为1,使用relu激活;第十二卷积层的卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活;第二全连接层的通道数为128,第三全连接层的通道数为64。
作为本发明的一种优选方案,步骤3所述网格特征提取网络包括依次连接的第四全连接层、第五全连接层,第四全连接层的通道数为256,第五全连接层的通道数为128。
作为本发明的一种优选方案,步骤4所述融合网络包括依次连接的第六全连接层、第七全连接层,第六全连接层的通道数为128,第七全连接层的通道数为2。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明利用深度学习的方法进行视线估计,相较与传统的机器视觉方法,该方法不需要额外的摄像头标定的步骤,且摄像头位置和使用环境不受限。
附图说明
图1是本发明一种用于视线估计的卷积神经网络设计方法的流程图。
图2是本发明设计的左眼特征提取网络。
图3是本发明设计的右眼特征提取网络。
图4是本发明设计的左眼右眼特征融合网络。
图5是本发明设计的人脸特征提取网络。
图6是本发明设计的网格特征提取网络。
图7是人脸相位位置网格示意图。
图8是本发明设计的融合网络。
图9是以相机的坐标为原点建立的二维坐标系。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,为本发明一种用于视线估计的卷积神经网络设计方法的流程图,包括以下步骤:
步骤1,设计用于对人脸左眼的区域进行特征提取的左眼特征提取网络,以及设计对人脸右眼的区域进行特征提取的右眼特征提取网络,设计用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络。
具体为:
步骤1.1:建立左眼特征提取网络,如图2所示
左眼的特征提取网络由四个卷积层组成,其中卷积层:
convE1:卷积核大小11*11,卷积核数量为94,步长为4,使用relu激活;
convE2:卷积核大小5*5,卷积核数量为256,步长为1,使用relu激活;
convE3:卷积核大小3*3,卷积核数量为384,步长为1,使用relu激活;
convE4:卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活。
该步骤的主要作用为对人脸左眼的区域进行特征提取。
步骤1.2:建立右眼特征提取网络,如图3所示
右眼的特征提取网络由四个卷积层组成,其中卷积层:
convE1:卷积核大小11*11,卷积核数量为94,步长为4,使用relu激活;
convE2:卷积核大小5*5,卷积核数量为256,步长为1,使用relu激活;
convE3:卷积核大小3*3,卷积核数量为384,步长为1,使用relu激活;
convE4:卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活。
该步骤的主要作用为对人脸右眼的区域进行特征提取。
步骤1.3:建立左眼右眼网络特征融合网络,如图4所示
在该步骤中全连接层FC-Fe1的通道数为128,该步骤的主要作用为融合卷积神经网络提取的左右眼特征。
步骤2,设计用于对人脸区域的图像进行特征提取的人脸特征提取网络,其中,人脸区域的图像通过采用人脸检测技术从相机拍摄的图像中获取。
具体为:
对人脸区域的图像进行特征提取网络由四个卷积层组成,如图5所示,其中卷积层:
convF1:卷积核大小11*11,卷积核数量为94,步长为4,使用relu激活;
convF2:卷积核大小5*5,卷积核数量为256,步长为1,使用relu激活;
convF3:卷积核大小3*3,卷积核数量为384,步长为1,使用relu激活;
convF4:卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活;
FC-F1为全连接层,通道数为128,FC-F2为全连接层,通道数为64。
该步骤主要包括利用卷积神经网络对人脸区域的图像进行特征提取,主要包括卷积层和全连接层。
步骤3,设计用于对人脸相对位置网格进行特征提取的网格特征提取网络,其中,人脸相位位置网格为一与相机拍摄的图像大小相同的网格,将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色,其余部分网格为白色。
具体为:
如图6所示,对人脸位置网格进行卷积的网络包括两个全连接层:FC-Fg1和FC-Fg2,其中,全连接层FC-Fg1的通道数为256,全连接层FC-Fg2的通道数为128。
该步骤的主要作用是对人脸在图像中网格化的相对位置进行卷积提取特征,网格图像如图7所示,其中图像中的黑色区域代表人脸相对于整个图像的位置。
步骤4,设计用于对人眼、人脸和网格特征进行融合的融合网络,该融合网络对步骤1、步骤2和步骤3各自对应的网络的输出结果进行融合,从而实现视线估计。
具体为:
如图8所示,为人眼、人脸和相对位置特征融合的网络包括两个全连接层:FC1和FC2,其中,全连接层FC1的通道数为128,全连接层F2的通道数为2。该步骤的主要作用是将所有模块提取的特征进行融合,最后接上两个全连接层回归出x,y的坐标,其中x,y是相对摄像头的偏移,是以相机的坐标为原点建立的二维坐标系,如图9所示。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种用于视线估计的卷积神经网络设计方法,其特征在于,包括如下步骤:
步骤1,设计用于对人脸左眼的区域进行特征提取的左眼特征提取网络,以及设计对人脸右眼的区域进行特征提取的右眼特征提取网络,设计用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络;
步骤2,设计用于对人脸区域的图像进行特征提取的人脸特征提取网络,所述人脸区域的图像通过采用人脸检测技术从相机拍摄的图像中获取;
步骤3,设计用于对人脸相对位置网格进行特征提取的网格特征提取网络,所述人脸相位位置网格为一与相机拍摄的图像大小相同的网格,将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色,其余部分网格为白色;
步骤4,设计用于对人眼、人脸和网格特征进行融合的融合网络,该融合网络对步骤1、步骤2和步骤3各自对应的网络的输出结果进行融合,从而实现视线估计。
2.根据权利要求1所述用于视线估计的卷积神经网络设计方法,其特征在于,步骤1所述左眼特征提取网络包括依次连接的第一至第四卷积层:第一卷积层的卷积核大小为11*11,卷积核数量为94,步长为4,使用relu激活;第二卷积层的卷积核大小为5*5,卷积核数量为256,步长为1,使用relu激活;第三卷积层的卷积核大小为3*3,卷积核数量为384,步长为1,使用relu激活;第四卷积层的卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活;右眼特征提取网络包括依次连接的第五至第八卷积层:第五卷积层与第一卷积层相同,第六卷积层与第二卷积层相同,第七卷积层与第三卷积层相同,第八卷积层与第四卷积层相同。
3.根据权利要求1所述用于视线估计的卷积神经网络设计方法,其特征在于,步骤1所述左眼右眼特征融合网络包括第一全连接层,且第一全连接层的通道数为128。
4.根据权利要求1所述用于视线估计的卷积神经网络设计方法,其特征在于,步骤1所述人脸左眼的区域为第一矩形区域,该第一矩形区域的长为左眼的长度,宽为左眼的宽度;人脸右眼的区域为第二矩形区域,该第二矩阵区域的长为右眼的长度,宽为右眼的宽度。
5.根据权利要求1所述用于视线估计的卷积神经网络设计方法,其特征在于,步骤2所述人脸特征提取网络包括依次连接的第九卷积层至第十二卷积层,与第十二卷积层连接的第二全连接层以及与第二全连接层连接的第三全连接层,第九卷积层的卷积核大小为11*11,卷积核数量为94,步长为4,使用relu激活;第十卷积层的卷积核大小为5*5,卷积核数量为256,步长为1,使用relu激活;第十一卷积层的卷积核大小为3*3,卷积核数量为384,步长为1,使用relu激活;第十二卷积层的卷积核大小为1*1,卷积核数量为64,步长为1,使用relu激活;第二全连接层的通道数为128,第三全连接层的通道数为64。
6.根据权利要求1所述用于视线估计的卷积神经网络设计方法,其特征在于,步骤3所述网格特征提取网络包括依次连接的第四全连接层、第五全连接层,第四全连接层的通道数为256,第五全连接层的通道数为128。
7.根据权利要求1所述用于视线估计的卷积神经网络设计方法,其特征在于,步骤4所述融合网络包括依次连接的第六全连接层、第七全连接层,第六全连接层的通道数为128,第七全连接层的通道数为2。
CN202011515435.1A 2020-12-21 2020-12-21 一种用于视线估计的卷积神经网络设计方法 Pending CN112541454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011515435.1A CN112541454A (zh) 2020-12-21 2020-12-21 一种用于视线估计的卷积神经网络设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011515435.1A CN112541454A (zh) 2020-12-21 2020-12-21 一种用于视线估计的卷积神经网络设计方法

Publications (1)

Publication Number Publication Date
CN112541454A true CN112541454A (zh) 2021-03-23

Family

ID=75019217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011515435.1A Pending CN112541454A (zh) 2020-12-21 2020-12-21 一种用于视线估计的卷积神经网络设计方法

Country Status (1)

Country Link
CN (1) CN112541454A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642393A (zh) * 2021-07-07 2021-11-12 重庆邮电大学 基于注意力机制的多特征融合视线估计方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090473A (zh) * 2018-01-12 2018-05-29 北京陌上花科技有限公司 多相机下人脸识别的方法及装置
CN108595011A (zh) * 2018-05-03 2018-09-28 北京京东金融科技控股有限公司 信息展示方法、装置、存储介质及电子设备
CN109492514A (zh) * 2018-08-28 2019-03-19 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及系统
CN109726613A (zh) * 2017-10-27 2019-05-07 虹软科技股份有限公司 一种用于检测的方法和装置
CN111046734A (zh) * 2019-11-12 2020-04-21 重庆邮电大学 基于膨胀卷积的多模态融合视线估计方法
CN111241891A (zh) * 2018-11-29 2020-06-05 中科视语(北京)科技有限公司 一种人脸图像切图方法、装置及计算机可读存储介质
CN112000226A (zh) * 2020-08-26 2020-11-27 杭州海康威视数字技术股份有限公司 一种人眼视线估计方法、装置及视线估计系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726613A (zh) * 2017-10-27 2019-05-07 虹软科技股份有限公司 一种用于检测的方法和装置
CN108090473A (zh) * 2018-01-12 2018-05-29 北京陌上花科技有限公司 多相机下人脸识别的方法及装置
CN108595011A (zh) * 2018-05-03 2018-09-28 北京京东金融科技控股有限公司 信息展示方法、装置、存储介质及电子设备
CN109492514A (zh) * 2018-08-28 2019-03-19 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及系统
CN111241891A (zh) * 2018-11-29 2020-06-05 中科视语(北京)科技有限公司 一种人脸图像切图方法、装置及计算机可读存储介质
CN111046734A (zh) * 2019-11-12 2020-04-21 重庆邮电大学 基于膨胀卷积的多模态融合视线估计方法
CN112000226A (zh) * 2020-08-26 2020-11-27 杭州海康威视数字技术股份有限公司 一种人眼视线估计方法、装置及视线估计系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642393A (zh) * 2021-07-07 2021-11-12 重庆邮电大学 基于注意力机制的多特征融合视线估计方法
CN113642393B (zh) * 2021-07-07 2024-03-22 重庆邮电大学 基于注意力机制的多特征融合视线估计方法

Similar Documents

Publication Publication Date Title
TWI777538B (zh) 圖像處理方法、電子設備及電腦可讀儲存介質
CN111598993B (zh) 基于多视角成像技术的三维数据重建方法、装置
CN111091075B (zh) 人脸识别方法、装置、电子设备及存储介质
CN111046734B (zh) 基于膨胀卷积的多模态融合视线估计方法
CN109126121B (zh) Ar终端互联方法、系统、装置及计算机可读存储介质
CN106210547A (zh) 一种全景拍摄的方法、装置及系统
CN109767388A (zh) 基于超像素提升图像拼接质量的方法、移动终端、相机
CN112347861A (zh) 一种基于运动特征约束的人体姿态估计方法
CN111583386B (zh) 基于标签传播算法的多视角人体姿态重建方法
WO2021103470A1 (zh) 图像处理方法及装置、图像处理设备及存储介质
CN103581423A (zh) 屏幕翻转方法及装置、移动终端
CN110349215A (zh) 一种相机位姿估计方法及装置
WO2021238163A1 (zh) 一种图像处理方法、装置、电子设备及存储介质
CN112085031A (zh) 目标检测方法及系统
CN108430032A (zh) 一种实现vr/ar设备位置共享的方法及设备
CN113642393A (zh) 基于注意力机制的多特征融合视线估计方法
CN111556337B (zh) 一种媒体内容植入方法、模型训练方法以及相关装置
CN112541454A (zh) 一种用于视线估计的卷积神经网络设计方法
CN111290584A (zh) 一种基于嵌入式的红外双目手势控制系统及方法
Liu et al. Two-stream refinement network for RGB-D saliency detection
CN110442242B (zh) 一种基于双目空间手势交互的智能镜系统及控制方法
Deng et al. Incremental image set querying based localization
CN112711984B (zh) 注视点定位方法、装置和电子设备
CN109963143A (zh) 一种ar眼镜的图像获取方法及系统
WO2021208630A1 (zh) 标定方法、标定装置及应用其的电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination