CN112541454A

CN112541454A - 一种用于视线估计的卷积神经网络设计方法

Info

Publication number: CN112541454A
Application number: CN202011515435.1A
Authority: CN
Inventors: 冯偲
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-23

Abstract

本发明公开了一种用于视线估计的卷积神经网络设计方法，具体为：设计用于对人脸左眼、右眼的区域进行特征提取的左眼、右眼特征提取网络，以及用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络；设计用于对人脸区域的图像进行特征提取的人脸特征提取网络；设计用于对人脸相对位置网格进行特征提取的网格特征提取网络，其中，人脸相位位置网格为一与相机拍摄的图像大小相同的网格，将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色，其余部分网格为白色；设计用于对人眼、人脸和网格特征进行融合的融合网络，从而实现视线估计。本发明设计的方法无需对摄像头进行标定，可以在不同的环境和场合下使用。

Description

一种用于视线估计的卷积神经网络设计方法

技术领域

本发明涉及一种用于视线估计的卷积神经网络设计方法，属于图像识别领域。

背景技术

眼球估计是一项科学应用技术，用户无需触摸屏幕即可翻动页面。从原理上看，眼球追踪主要是研究眼球运动信息的获取、建模和模拟，用途颇广。而获取眼球运动信息的设备除了红外设备之外，还可以是图像采集设备，甚至一般电脑或手机上的摄像头，其在软件的支持下也可以实现眼球跟踪。

现有方法多是在传统机器视觉算法的基础上进行视线估计，该方法需要对摄像头进行标定，且摄像头的位置不能随意的移动。

发明内容

本发明所要解决的技术问题是：提供一种用于视线估计的卷积神经网络设计方法，该方法无需对摄像头进行标定，可以在不同的环境和场合下使用。

本发明为解决上述技术问题采用以下技术方案：

一种用于视线估计的卷积神经网络设计方法，包括如下步骤：

步骤1，设计用于对人脸左眼的区域进行特征提取的左眼特征提取网络，以及设计对人脸右眼的区域进行特征提取的右眼特征提取网络，设计用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络；

步骤2，设计用于对人脸区域的图像进行特征提取的人脸特征提取网络，所述人脸区域的图像通过采用人脸检测技术从相机拍摄的图像中获取；

步骤3，设计用于对人脸相对位置网格进行特征提取的网格特征提取网络，所述人脸相位位置网格为一与相机拍摄的图像大小相同的网格，将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色，其余部分网格为白色；

步骤4，设计用于对人眼、人脸和网格特征进行融合的融合网络，该融合网络对步骤1、步骤2和步骤3各自对应的网络的输出结果进行融合，从而实现视线估计。

作为本发明的一种优选方案，步骤1所述左眼特征提取网络包括依次连接的第一至第四卷积层：第一卷积层的卷积核大小为11*11，卷积核数量为94，步长为4，使用relu激活；第二卷积层的卷积核大小为5*5，卷积核数量为256，步长为1，使用relu激活；第三卷积层的卷积核大小为3*3，卷积核数量为384，步长为1，使用relu激活；第四卷积层的卷积核大小为1*1，卷积核数量为64，步长为1，使用relu激活；右眼特征提取网络包括依次连接的第五至第八卷积层：第五卷积层与第一卷积层相同，第六卷积层与第二卷积层相同，第七卷积层与第三卷积层相同，第八卷积层与第四卷积层相同。

作为本发明的一种优选方案，步骤1所述左眼右眼特征融合网络包括第一全连接层，且第一全连接层的通道数为128。

作为本发明的一种优选方案，步骤1所述人脸左眼的区域为第一矩形区域，该第一矩形区域的长为左眼的长度，宽为左眼的宽度；人脸右眼的区域为第二矩形区域，该第二矩阵区域的长为右眼的长度，宽为右眼的宽度。

作为本发明的一种优选方案，步骤2所述人脸特征提取网络包括依次连接的第九卷积层至第十二卷积层，与第十二卷积层连接的第二全连接层以及与第二全连接层连接的第三全连接层，第九卷积层的卷积核大小为11*11，卷积核数量为94，步长为4，使用relu激活；第十卷积层的卷积核大小为5*5，卷积核数量为256，步长为1，使用relu激活；第十一卷积层的卷积核大小为3*3，卷积核数量为384，步长为1，使用relu激活；第十二卷积层的卷积核大小为1*1，卷积核数量为64，步长为1，使用relu激活；第二全连接层的通道数为128，第三全连接层的通道数为64。

作为本发明的一种优选方案，步骤3所述网格特征提取网络包括依次连接的第四全连接层、第五全连接层，第四全连接层的通道数为256，第五全连接层的通道数为128。

作为本发明的一种优选方案，步骤4所述融合网络包括依次连接的第六全连接层、第七全连接层，第六全连接层的通道数为128，第七全连接层的通道数为2。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明利用深度学习的方法进行视线估计，相较与传统的机器视觉方法，该方法不需要额外的摄像头标定的步骤，且摄像头位置和使用环境不受限。

附图说明

图1是本发明一种用于视线估计的卷积神经网络设计方法的流程图。

图2是本发明设计的左眼特征提取网络。

图3是本发明设计的右眼特征提取网络。

图4是本发明设计的左眼右眼特征融合网络。

图5是本发明设计的人脸特征提取网络。

图6是本发明设计的网格特征提取网络。

图7是人脸相位位置网格示意图。

图8是本发明设计的融合网络。

图9是以相机的坐标为原点建立的二维坐标系。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，为本发明一种用于视线估计的卷积神经网络设计方法的流程图，包括以下步骤：

步骤1，设计用于对人脸左眼的区域进行特征提取的左眼特征提取网络，以及设计对人脸右眼的区域进行特征提取的右眼特征提取网络，设计用于对左眼提取的特征和右眼提取的特征进行融合的左眼右眼特征融合网络。

具体为：

步骤1.1：建立左眼特征提取网络，如图2所示

左眼的特征提取网络由四个卷积层组成，其中卷积层：

convE1：卷积核大小11*11，卷积核数量为94，步长为4，使用relu激活；

convE2：卷积核大小5*5，卷积核数量为256，步长为1，使用relu激活；

convE3：卷积核大小3*3，卷积核数量为384，步长为1，使用relu激活；

convE4：卷积核大小为1*1，卷积核数量为64，步长为1，使用relu激活。

该步骤的主要作用为对人脸左眼的区域进行特征提取。

步骤1.2：建立右眼特征提取网络，如图3所示

右眼的特征提取网络由四个卷积层组成，其中卷积层：

该步骤的主要作用为对人脸右眼的区域进行特征提取。

步骤1.3：建立左眼右眼网络特征融合网络，如图4所示

在该步骤中全连接层FC-Fe1的通道数为128，该步骤的主要作用为融合卷积神经网络提取的左右眼特征。

步骤2，设计用于对人脸区域的图像进行特征提取的人脸特征提取网络，其中，人脸区域的图像通过采用人脸检测技术从相机拍摄的图像中获取。

具体为：

对人脸区域的图像进行特征提取网络由四个卷积层组成，如图5所示，其中卷积层：

convF1：卷积核大小11*11，卷积核数量为94，步长为4，使用relu激活；

convF2：卷积核大小5*5，卷积核数量为256，步长为1，使用relu激活；

convF3：卷积核大小3*3，卷积核数量为384，步长为1，使用relu激活；

convF4：卷积核大小为1*1，卷积核数量为64，步长为1，使用relu激活；

FC-F1为全连接层，通道数为128，FC-F2为全连接层，通道数为64。

该步骤主要包括利用卷积神经网络对人脸区域的图像进行特征提取，主要包括卷积层和全连接层。

步骤3，设计用于对人脸相对位置网格进行特征提取的网格特征提取网络，其中，人脸相位位置网格为一与相机拍摄的图像大小相同的网格，将该网格中对应相机拍摄的图像中的人脸区域的部分网格设置为黑色，其余部分网格为白色。

具体为：

如图6所示，对人脸位置网格进行卷积的网络包括两个全连接层：FC-Fg1和FC-Fg2，其中，全连接层FC-Fg1的通道数为256，全连接层FC-Fg2的通道数为128。

该步骤的主要作用是对人脸在图像中网格化的相对位置进行卷积提取特征，网格图像如图7所示，其中图像中的黑色区域代表人脸相对于整个图像的位置。

具体为：

如图8所示，为人眼、人脸和相对位置特征融合的网络包括两个全连接层：FC1和FC2，其中，全连接层FC1的通道数为128，全连接层F2的通道数为2。该步骤的主要作用是将所有模块提取的特征进行融合，最后接上两个全连接层回归出x,y的坐标，其中x,y是相对摄像头的偏移，是以相机的坐标为原点建立的二维坐标系，如图9所示。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种用于视线估计的卷积神经网络设计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述用于视线估计的卷积神经网络设计方法，其特征在于，步骤1所述左眼特征提取网络包括依次连接的第一至第四卷积层：第一卷积层的卷积核大小为11*11，卷积核数量为94，步长为4，使用relu激活；第二卷积层的卷积核大小为5*5，卷积核数量为256，步长为1，使用relu激活；第三卷积层的卷积核大小为3*3，卷积核数量为384，步长为1，使用relu激活；第四卷积层的卷积核大小为1*1，卷积核数量为64，步长为1，使用relu激活；右眼特征提取网络包括依次连接的第五至第八卷积层：第五卷积层与第一卷积层相同，第六卷积层与第二卷积层相同，第七卷积层与第三卷积层相同，第八卷积层与第四卷积层相同。

3.根据权利要求1所述用于视线估计的卷积神经网络设计方法，其特征在于，步骤1所述左眼右眼特征融合网络包括第一全连接层，且第一全连接层的通道数为128。

4.根据权利要求1所述用于视线估计的卷积神经网络设计方法，其特征在于，步骤1所述人脸左眼的区域为第一矩形区域，该第一矩形区域的长为左眼的长度，宽为左眼的宽度；人脸右眼的区域为第二矩形区域，该第二矩阵区域的长为右眼的长度，宽为右眼的宽度。

5.根据权利要求1所述用于视线估计的卷积神经网络设计方法，其特征在于，步骤2所述人脸特征提取网络包括依次连接的第九卷积层至第十二卷积层，与第十二卷积层连接的第二全连接层以及与第二全连接层连接的第三全连接层，第九卷积层的卷积核大小为11*11，卷积核数量为94，步长为4，使用relu激活；第十卷积层的卷积核大小为5*5，卷积核数量为256，步长为1，使用relu激活；第十一卷积层的卷积核大小为3*3，卷积核数量为384，步长为1，使用relu激活；第十二卷积层的卷积核大小为1*1，卷积核数量为64，步长为1，使用relu激活；第二全连接层的通道数为128，第三全连接层的通道数为64。

6.根据权利要求1所述用于视线估计的卷积神经网络设计方法，其特征在于，步骤3所述网格特征提取网络包括依次连接的第四全连接层、第五全连接层，第四全连接层的通道数为256，第五全连接层的通道数为128。

7.根据权利要求1所述用于视线估计的卷积神经网络设计方法，其特征在于，步骤4所述融合网络包括依次连接的第六全连接层、第七全连接层，第六全连接层的通道数为128，第七全连接层的通道数为2。