CN108171152A

CN108171152A - 深度学习人眼视线估计方法、设备、系统及可读存储介质

Info

Publication number: CN108171152A
Application number: CN201711438473.XA
Authority: CN
Inventors: 杨猛; 文伟; 陈桐; 沈琳琳; 朱英
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-15

Abstract

本发明公开了一种深度学习人眼视线估计方法，所述深度学习人眼视线估计方法包括以下步骤：接收多个终端基于预置拍照规则采集并上传的人体头部图像，并基于所述人体头部图像，建立图像数据库；以所述图像数据库为训练样本，采用深度学习方式，建立人眼视线估计模型；接收终端拍摄的图像信息，并基于所述人眼视线估计模型，确定所述图像信息的人眼视线聚焦点以供进行人眼视线追踪。本发明还公开了一种人眼视线估计设备、系统及可读存储介质。本发明建立的人眼视线估计模型能够准确预测视线聚焦点，进而提高人眼视线估计的精度，同时还有效降低设备成本。

Description

深度学习人眼视线估计方法、设备、系统及可读存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种深度学习人眼视线估计方法、设备、系统及可读存储介质。

背景技术

随着信息技术与智能科学技术的高速发展，计算机视觉已经成为人机交互技术中的重要课题。现有的计算机视觉应用越来越广，比如通过人眼实现对计算机的操控、疾病诊断或商业测评等。

目前，基于眼睛视线进行屏幕定位的计算机视觉技术，通常需要分辨率高的摄像机、红外光源以及用于固定头部或眼部的戴式设备等硬件设备，且用于预测视线聚焦点的视线估计方法误差较大、耗时长，进而无法满足日益增长的现实需求。

发明内容

本发明的主要目的在于提供一种深度学习人眼视线估计方法、人眼视线估计设备、人眼视线估计系统及计算机可读存储介质，旨在解决现有技术中依赖某些特定硬件设备，且无法精准估计人眼视线的技术问题。

为实现上述目的，本发明提供的一种深度学习人眼视线估计方法，所述深度学习人眼视线估计方法包括以下步骤：

接收多个终端基于预置拍照规则采集并上传的人体头部图像，并基于所述人体头部图像，建立图像数据库；

以所述图像数据库为训练样本，采用深度学习方式，建立人眼视线估计模型；

接收终端拍摄的图像信息，并基于所述人眼视线估计模型，确定所述图像信息的人眼视线聚焦点以供进行人眼视线追踪。

优选地，所述的预置拍照规则包括：

开启终端飞行模式、打开终端前置摄像头、显示预览拍照界面；

在终端屏幕上显示凝视点，并拍摄用户注视该凝视点时的人体头部图像；

其中，在拍摄多张人体头部图像后，提示用户旋转终端屏幕以更换人体头部图像的拍摄角度。

优选地，所述预置拍照规则还包括：

在保存图像时，将所述人体头部图像在像素单位下的位置坐标转换为相对于终端前置摄像头位置的物理坐标。

优选地，所述以所述图像数据库为训练样本，采用深度学习方式，建立人眼视线估计模型包括：

对所述图像数据库的人体头部图像进行预处理，得到脸部图像、左右眼图像以及所述脸部图像在所述人体头部图像中的位置信息；

基于所述左右眼图像、所述位置信息与人眼视线方向之间的映射关系，得到人眼视线聚焦点的位置坐标；

以所述脸部图像、左右眼图像、所述位置信息、相对于终端前置摄像头位置的物理坐标作为输入量；以所述人眼视线聚焦点的位置坐标作为输出量；采用卷积神经网络对所述输入量与所述输出量的取值样本进行训练，得到人眼视线估计模型。

优选地，所述对所述图像数据库的人体头部图像进行预处理，得到脸部图像、左右眼图像以及所述脸部图像在所述人体头部图像中的位置信息包括：

基于人脸关键点定位算法确定所述人体头部图像中的关键点位置，其中，关键点位置包括左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点以及嘴巴右角点；

基于图像关键点检测与所述关键点位置，合理剪裁得到左眼图像、右眼图像、脸部图像，并确定所述脸部图像在所述人体头部图像中的位置信息。

此外，为实现上述目的，本发明还提供一种人眼视线估计设备，所述人眼视线估计设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人眼视线估计程序，所述人眼视线估计程序被所述处理器执行时实现如上述中任一项所述的深度学习人眼视线估计方法的步骤。

此外，为实现上述目的，本发明还提供一种人眼视线估计系统，包括若干终端，所述人眼视线估计系统还包括如上所述的人眼视线估计设备。

优选地，所述终端包括：

坐标模块，用于生成供用户凝视的坐标点；

拍照模块，用于基于预置拍照规则采集人体头部图像；

上传模块，用于将采集的人体头部图像上传至所述人眼视线估计设备。

优选地，所述终端还包括：

坐标变换模块，用于在保存图像时，将人体头部图像在像素单位下的位置坐标转换为相对于终端前置摄像头位置的物理坐标。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有人眼视线估计程序，所述人眼视线估计程序被处理器执行时实现如上述中任一项所述的深度学习人眼视线估计方法的步骤。

本发明首先通过网络接收多个终端基于预置拍照规则采集并上传的人体头部图像，并基于人体头部图像，建立图像数据库。其次以图像数据库作为训练样本，采用深度学习方式，建立人眼视线估计模型。最后接收终端拍摄的图像信息，并基于该人眼视线估计模型，确定图像信息中的人眼视线聚焦点以供进行人眼视线追踪。通过基于预置拍照规则采集的人体头部图像作为训练样本建立的人眼视线估计模型，能够准确预测视线聚焦点，进而提高人眼视线估计的精度，同时还有效降低设备成本。

附图说明

图1为本发明实施例方案涉及的人眼视线估计设备运行环境的结构示意图；

图2为本发明人眼视线估计系统一实施例的功能模块示意图；

图3为图2中终端10一实施例的功能模块示意图；

图4为本发明深度学习人眼视线估计方法一实施例的流程示意图；

图5为图4中步骤S20一实施例的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的人眼视线估计设备运行环境的结构示意图。

本发明实施例人眼视线估计设备是具有接收图像、访问网络、提供计算服务、建立模型等功能的设备。

如图1所示，该人眼视线估计设备可以包括：处理器1001，例如CPU，通信总线1002、存储器1003，网络接口1004。其中，通信总线1002用于实现组件之间的连接通信。存储器1003可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储设备。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图1中示出的人眼视线估计设备的硬件结构并不构成对人眼视线估计设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1003中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中，操作系统是管理和控制人眼视线估计设备和软件资源的程序，支持人眼视线估计程序以及其它软件和/或程序的运行。

在图1所示的人眼视线估计设备的硬件结构中，人眼视线估计设备通过处理器1001可以用于调用存储器1003中存储的人眼视线估计程序，并执行以下操作：

进一步地，所述人眼视线估计设备通过处理器1001调用存储器1003中存储的人眼视线估计程序，以执行下述操作：

参照图2，图2为本发明人眼视线估计系统一实施例的功能模块示意图。

本实施例中，人眼视线估计系统包括若干终端10和一个用于预测视线方向的人眼视线估计设备20(以下简称估计设备20)。对于人眼视线估计系统中的终端10与估计设备20之间的连接方式不限，比如通过移动通信网络或蓝牙等建立连接，具体根据实际需要进行设置。

本实施例中，终端10是网络体系中的计算机终端，可以是手机、笔记本、平板电脑等计算机设备，用于采集用户的人体头部图像。而估计设备20在执行建立人眼视线估计模型操作时，所需的数据由终端10上传提供。

本发明方案的实施分为两大阶段：阶段1为基于数据采集软件采集符合预置拍照规则的图像，并建立图像数据库，阶段2为预测阶段，即基于卷积神经网络运用之前收集的数据库进行人眼视线估计。必须完成阶段1收集足够的数据才能驱动阶段2有良好的结果。

以下对本发明实施阶段1-开发采集软件并建立数据库以及阶段2-构建基于卷积神经网络结构EyeTrackNet并进行训练人眼视线估计模型进行详细阐述：

阶段1-开发采集软件、收集并建立数据库：

参照图3，图3为图2中终端10一实施例的功能模块示意图。

本实施例中，终端10包括坐标模块、拍照模块、上传模块以及坐标变换模块。

本实施例中，终端10安装采集人体头部图像的应用程序，该应用程序由开发设计人员开发并预先设置好拍照规则，以供用户根据预置拍照规则拍摄照片。终端10优选采用Android系统，是一种基于Linux内核并且为移动设备专门开发的操作系统，主要应用于智能手机。应用程序优选数据采集软件Eyetracker，该应用采用了MVC(Modle-View-Controller)的模式开发，能构造良好的松耦合的构件，有利于后期开发，并减少后期添加或者删除功能的花费，进而大大提高了代码的健壮性，以及有效减少后期的维护费用。通过终端10采集图像，而无需其它硬件设备支持，即可获得更多有效数据供估计设备20建立人眼视线估计模型，部署架构简单且能够快速得到预测结果。

本实施例中，坐标模块，用于生成供用户凝视的坐标点。比如在预览拍照界面显示一个坐标点(红点)，控制该坐标点出现在界面的位置以及出现时间、持续时间，以供用户注视该坐标点时，进行拍照。拍照模块，用于基于预置拍照规则采集人体头部图像。采集时可增加人脸检测功能，协助用户拍照，确认得到的数据有效。当检测无误时，可进行拍照。当拍摄的照片符合预置拍照规则时，可确定为采集的人体头部图像。人体头部图像将作为建立模型是数据，为提高模型的可靠性与精确性，优选采集多个不同个体用户拍摄的人体头部图像。上传模块，顾名思义就是用于将采集的人体头部图像上传至估计设备20。估计设备20接收终端10采集并上传的人体头部图像。终端10上传人体头部图像的方式可以是Web或者Ftp传送等，具体根据实际需要进行设置。其中，Web可直接通过点击网页上的链接即可操作，而Ftp需要专用的应用工具。

本实施例中，坐标变换模块，用于在保存图像时，将人体头部图像在像素单位下的位置坐标转换为相对于终端前置摄像头位置的物理坐标。由于图像都是由像素组成的，因而像素单位下的位置坐标也就是像素在图像中的位置。以图像左上角为原点建立以像素为单位的直接坐标系u-v。像素的横坐标u与纵坐标v分别是在其图像数组中所在的列数与所在行数。像素单位下的位置坐标(u,v)只代表像素的列数与行数，而并没有用物理单位表示出来，因而，需要通过硬件设备的配置将之转换为建立以相对于终端前置摄像头位置的物理坐标，比如毫米表示的坐标系x-y，以供估计设备20建模时使用。

进一步地，终端10还可包括存储模块，用于生成文件夹存储图像数据、删除图像数据、处理图像数据、命名图像。比如存储符合预置拍照规则的人体头部图像，删除不符合预置拍照规则的人体头部图像。

进一步可选的，拍照模块中基于预置拍照规则采集人体头部图像的预置拍照规则包括以下步骤：

1、开启终端飞行模式、打开终端前置摄像头、显示预览拍照界面；

本实施例中，飞行模式是在拍照过程中关闭无线信号，避免用户在拍照过程中，终端屏幕出现消息提示，比如来电、短信、微信、QQ等的消息通知，导致用户眼睛注视点出现变化，影响数据的可靠性与真实性。前置摄像头是位于与终端的屏幕同一方向的摄像头，用于用户给自己拍照使用。可选地，在显示预览拍照界面前，进入协议界面，以供用户选择同意或不同意将拍摄的人体头部图像用作人眼视线估计的数据并进行上传的协议。当用户选择同意协议后，进入采集图像阶段，也就是终端的屏幕显示预览拍照界面，用户可通过前置摄像头在屏幕上看到自己并进行拍照操作。可选地，在拍照时，提示用户尽量使自己的脸部占整个预览界面的预设比重值，比如60％～80％等，从而采集的图像能够更精准提取到有效数据，完善数据库，提高人眼视线估计模型的可靠程度。

2、在终端屏幕上显示凝视点，并拍摄用户注视该凝视点时的人体头部图像；

本实施例中，终端屏幕上显示一个凝视点，以供用户注视该凝视点。当用户注视该凝视点时，进行拍照，得到的人体头部图像，能够反映用户注视凝视点时眼角、瞳孔、脸部相对于摄像头朝向的位置关系。具体地，深度学习人眼视线估计方法就是让用户分别注视多个处于不同位置的凝视点，获取对应时刻拍摄的人体头部图像，以供估计设备20以左右眼图像的中心坐标，计算得到聚焦点和左右眼中心坐标之间的对应关系，之后，可以利用这个映射关系，实现聚焦点的标定。

进一步地，在拍摄多张人体头部图像后，提示用户旋转终端屏幕以更换人体头部图像的拍摄角度，进而可获得多个不同的人眼的位置角度、脸部的角度，丰富数据。比如，在采集过程中，用户在一个面拍了10张照片之后，需要定时旋转终端10的屏幕，使拍到的照片达到360度。然后重复预置拍照规则进行拍照直至符合预设张数，如一个人一共拍了40张照片。

基于上述人眼视线估计设备硬件结构，提出本发明深度学习人眼视线估计方法的各个实施例。

参照图4，图4为本发明深度学习人眼视线估计方法一实施例的流程示意图。

本实施例中，深度学习人眼视线估计方法包括：

步骤S10，接收多个终端基于预置拍照规则采集并上传的人体头部图像，并基于人体头部图像，建立图像数据库；

本实施例中，终端可以是手机、笔记本、平板电脑等计算机设备，同时终端安装采集人体头部图像的应用程序，该应用程序由开发设计人员开发并预先设置好拍照规则，以供用户根据预置拍照规则拍摄人体头部图像。本装置通过移动通信网络与终端建立通信连接，接收终端采集并上传的人体头部图像。建立通信连接可以是WiFi连接或蓝牙连接等，具体建立方式不限。终端上传人体头部图像的方式可以是Web或者Ftp传送等，其中，Web可直接通过点击网页上的链接即可操作，而Ftp需要专用的应用工具。

本实施例中，人体头部图像是具有视觉效果的画面，包含有描述人体头部以及背景的相关信息。数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。建立图像数据库就是建立一个存储有人体头部图像的数据库，并可新增、读取、截取、更新或删除存储的图像数据。通过一段时间的软件收集工作，顺利完成对数据库的建立工作，以进行下一步的工作。

阶段2-构建基于卷积神经网络结构EyeTrackNet并进行训练人眼视线估计模型

步骤S20，以所述图像数据库为训练样本，采用深度学习方式，建立人眼视线估计模型；

本实施例中，人眼视线估计模型是运用数理逻辑方法和数学语言构建的数学模型，而深度学习方法就是让计算机从已有的数据中学习出新的知识，也就是根据对所述原始数据库预处理后的训练数据进行系统的学习，比如如何对图像进行分类、如何优化图像等。训练的过程就是利用训练样本并结合数据所对应的样本标签，即已有的数据确定模型参数的过程。视线估计主要是判断人的凝视点，也就是眼睛在所关注事物的聚焦点，通俗的来讲是解决一个回归的问题。具体地，让计算机从图像数据库中的多张不同用户用不同角度注视不同位置的人体头部图像进行人眼视线估计的学习。

步骤S30，接收终端拍摄的图像信息，并基于人眼视线估计模型，确定图像信息的人眼视线聚焦点以供进行人眼视线追踪。

本实施例中，机器通过学习后建立的人眼视线估计模型，可用于感知眼球的关注点和移动轨迹，预测人眼视线方向，进而可确定当前人眼视线聚焦点，进而可基于确定的聚焦点进行人眼视线追踪。人眼视线聚焦点，也就是人的注视点，可看作是人眼球中心和虹膜中心的连线与注视平面之间的交点。当人的头部静止不动时，眼球中心的位置在动，并映射到左右眼图像中，可以认为眼球中心在左右眼图像中的位置和聚焦点在凝视平面上的位置是一一对应的，并且利用加入脸部图像在整张图片，即人体头部图像中的位置来缓解图片获取时用户距离远近不同所导致的误差，当前用户通过终端设备将拍摄的图像信息经由网络发送至人眼视线估计设备进行预测与视线跟踪。需要说明的是，拍摄的图像信息为无须按预置拍照规则的人体头部图像。进一步地，结合接收的图像信息与人眼视线估计模型，可确定当前用户凝视屏幕中的某一位置，也就是聚焦点位置，进而可进行人眼视线追踪，也就是预测人眼视线方向。比如，用户通过终端拍摄包含有本人头部的图像信息，以供终端将拍摄的图像信息发送至人眼视线估计设备。人眼视线估计设备在接收到图像信息时，将图像信息作为数据输入到人眼视线估计模型中，用以确定图像信息中的人眼视线聚焦点，也就是确定当前用户面对终端屏幕的人眼视线聚焦点。当确定当前用户的人眼视线聚焦点时，即可预测用户注视屏幕的人眼视线方向，进而进行人眼视线追踪。

本实施例首先通过网络接收多个终端基于预置拍照规则采集并上传的人体头部图像，并基于人体头部图像，建立图像数据库。其次以图像数据库作为训练样本，采用深度学习方式，建立人眼视线估计模型。最后接收终端拍摄的图像信息，并基于该人眼视线估计模型，确定图像信息中的人眼视线聚焦点以供进行人眼视线追踪。通过基于预置拍照规则采集的人体头部图像作为训练样本建立的人眼视线估计模型，能够准确预测视线聚焦点，进而提高人眼视线估计的精度，同时还有效降低设备成本。

参照图5，图5为图4中步骤S20一实施例的细化流程示意图。

本实施例中，人体头部图像是具有视觉效果的画面，包含有描述人体头部以及背景的相关信息。读取图像数据库中的人体头部头像，然后对人体头部图像进行预处理，预处理的方式有多种，比如转换、函数运算、提取特征等，再根据关键点检测合理剪裁得到脸部图像、左右眼图像，以及用户脸部图像相对于整张人体头部图像的位置信息、还有本张人体头部图像实际的凝视点坐标。

基于上述实施例中步骤S20，以图像数据库为原始样本，对原始样本进行预处理包括：采用深度学习方式，建立人眼视线估计模型，包括：

S21，对图像数据库的人体头部图像进行预处理，采用广泛使用的MTCNN人脸关键点定位算法对所有的原始图像进行关键点定位，得到五个人脸关键点坐标(左眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点、嘴巴右角点，用P表示)，根据这五个关键点我们进行下一步的预处理，根据鼻尖到两边眼睛的距离可以计算出人脸大小和相应偏向(例如鼻尖到左边距离大于到右边的距离，偏向左边)，根据这个我们合理剪裁出左眼部图像，其中左上x坐标为:

其中表示左眼睛中心点x的值，表示鼻尖点x的值；相应的右上x坐标值为：

继续以上的假设，并且假设鼻尖到眼中心的垂直距离小于到嘴角的垂直距离(头部偏上)，以左下y坐标为例(裁剪图片利用边界框左上和右下的坐标值即可)：

同理得出了右眼右下边界框(x和y)的坐标值，基于这个我们可以得到以眼部中心为中点完整的左右眼图像。

类似的我们对人脸也进行相应的操作，得到人脸的左上坐标和左眼左上坐标一样，而人脸右下坐标得：

其中是右嘴角的x值。同理y值为：

这样根据这两个坐标裁出的人脸已经做完了校准操作，原始的图片校准后在卷积神经网络中训练会得到最佳的效果。

对于人脸在整个图片的位置信息，我们创建一个和原始图像相同大小的空白图像，我们根据之前的人脸左上右下坐标在空白图片中圈出一个黑色的图片(对于数据来说，就是一个全1的图片中有一个人脸大小的0图片)；而样本的标签信息是采集时记录的，这样所有需要的输入数据组织都完成了。

S22，基于左右眼图像、位置信息与人眼视线方向之间的映射关系，得到人眼视线聚焦点的位置坐标；

本实施例中，映射关系是指两个元素的集之间元素相互“对应”的关系，需要预先定义投影法则部分的函数后进行运算。由于拍摄的人体头部图像是基于预置拍照规则采集的，通过左右眼图像及其他输入映射以及人体头部图像反映的人眼视线方向两者之间的相互对应关系，得到人眼视线聚焦点的位置坐标。也就是对包含用户、摄像头，以及眼球、瞳孔的位置角度，脸部的角度、凝视点等信息的人体头部图像进行计算，得到眼睛在空间中的位置和视线位置，进而可得到视线方向。

S23，以脸部图像、左右眼图像、位置信息、相对于终端前置摄像头位置的物理坐标作为输入量；以人眼视线聚焦点的位置坐标作为输出量；采用卷积神经网络对输入量与输出量的取值样本进行训练，得到人眼视线估计模型。

本实施例中，基于所得的训练数据，构建合理且有效的卷积神经网络。根据问题的特殊性，构建一个多输入单输出的卷积神经网络并利用所获取的数据进行训练，得到人眼视线估计的模型。基于卷积神经网络结构EyeTrackNet(如表1所示)，其卷积核为3x3，进一步的批量归一化，使之能够得到更好的特征图像。通过卷积神经网络训练得到的模型是一个数据驱动基于外观的端到端模型，不需要其它硬件设备的支持，也不需要其他额外的手工特征，减少了对设备和数据的限制性，且训练出的模型能够简单的部署，进而快速得到精确度高的预测结果。

表1 EyeTrackNet网络结构

其中在最后的全连接层，我们通过最小化误差来训练我们模型的参数适应不同输入数据最后取得良好的泛化性公式详述如下：

其中N表示一个批次下的样本个数，和表示网络预测出的值，而X_i和Y_i是此样本真是的标签，通过反向传播不断的减小误差使其收敛，完成对网络的训练并且得到人眼视线估计模型。

本实施例中，视线估计是一个需要脸部整体信息的高层次任务，将脸部图像作为一个重要的输入；其次为了减少了脸部其他位置对结果的影响，将左右眼作为更精细的输入来提高精度；脸部相对于整张人体头部图像的位置信息作为减小由参与人与摄像头位置距离产生的误差的输入来提高精度；而终端前置摄像头位置的物理坐标作为一个重要监督训练信息输入网络。人眼视线聚焦点的位置坐标作为模型的输出量。采用卷积神经网络对输入量与输出量的取值样本进行训练，构建人眼视线估计模型，实现视线跟踪功能。

进一步可选的，在本发明另一实施例中，以收集的图像数据库为原始样本，基于人脸关键点定位算法(MTCNN)确定人体头部图像中的关键点位置，其中，关键点位置包括五个，分别为眼睛中心点、右眼睛中心点、鼻尖、嘴巴左角点、嘴巴右角点。基于图像关键点检测，根据五个关键点合理剪裁所述左眼图像、右眼图像、脸部图像，并确定所述脸部图像在所述人体头部图像中的位置信息，采用深度学习方式，构建合理且有效的卷积神经网络结构EyeTrackNet，并结合真实凝视坐标作为监督信息，建立人眼视线估计模型。

进一步可选的，为实现上述目的，本发明还提供一种计算机可读存储介质，在本实施例中提出的计算机可读存储介质上存储有人眼视线估计程序，包括接收图像、建立模型和确定人眼视线聚焦点等。存储的人眼视线估计程序能够被处理器读取、解读并执行，从而实现上述任一深度学习人眼视线估计方法实施例中的深度学习人眼视线估计方法的步骤。

此外，采用两个数据库对本发明深度学习人眼视线估计方法进行验证。

下面结合具体的实施结果对本发明做进一步的说明：

为了比较客观公正，在验证过程中，采用现有技术itracker的深度学习人眼视线估计方法以及目前已知包含有大量人体头部图像数据信息的两个现有数据库：EyeTrackD和Gazecapture数据库，进行实验。

详细实验设置为：选取Gazecapture数据库中包括116人检测到人脸和眼部的总共103146张图片，进一步把这些图片分为训练集、验证集和测试集，分别包含71、19和26人次，且分别含有78000、12000和13146张图片；对于EyeTrackD数据库，训练集、验证集和测试集分别包含56、16和18人，分别有2981、718和823张图片。同时选取的测试集和验证集包含所有方向，即收集数据含相对摄像头的四个方向，用以保证预测结果的可靠性。

实施细节：本发明模型基于caffe(来自于文献：Jia,Y.etc.:Caffe:Convolutional architecture for fast feature embedding.arXiv:1408.5093(2014))框架实现，模型分别利用两个不同数据库的数据以96的批量迭代80000次生成，初始学习率0.001，动量0.9，正则项0.0005，优化方法为Adam。

评估标准：将误差设定为预测出来的坐标与真实坐标之间的平均欧氏距离(厘米)。需要说明的是，尽管两个数据库分别是基于平板和手机采集的，但由于设计软件时考虑到的设备无关性，因而适用该评价标准。

通过数据数据，得到预测误差比较，如表1所示，可以看到本发明预测误差远远好于现有技术itracker

表2预测误差(cm)比较

方法	EyetrackD	Gazecapture
			Itracker	5.1	2.93
本发明	4.58	2.46

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种深度学习人眼视线估计方法，其特征在于，所述深度学习人眼视线估计方法包括以下步骤：

2.如权利要求1所述的深度学习人眼视线估计方法，其特征在于，所述的预置拍照规则包括：

3.如权利要求1所述的深度学习人眼视线估计方法，其特征在于，所述预置拍照规则还包括：

4.如权利要求3所述的深度学习人眼视线估计方法，其特征在于，所述以所述图像数据库为训练样本，采用深度学习方式，建立人眼视线估计模型包括：

5.如权利要求4所述的深度学习人眼视线估计方法，其特征在于，所述对所述图像数据库的人体头部图像进行预处理，得到脸部图像、左右眼图像以及所述脸部图像在所述人体头部图像中的位置信息包括：

6.一种人眼视线估计设备，其特征在于，所述人眼视线估计设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人眼视线估计程序，所述人眼视线估计程序被所述处理器执行时实现如权利要求1至5中任一项所述的深度学习人眼视线估计方法的步骤。

7.一种人眼视线估计系统，包括若干终端，其特征在于，所述人眼视线估计系统还包括如权利要求6所述的人眼视线估计设备。

8.如权利要求7所述的人眼视线估计系统，其特征在于，所述终端包括：

坐标模块，用于生成供用户凝视的坐标点；

拍照模块，用于基于预置拍照规则采集人体头部图像；

9.如权利要求7所述的人眼视线估计系统，其特征在于，所述终端还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有人眼视线估计程序，所述人眼视线估计程序被处理器执行时实现如权利要求1至5中任一项所述的深度学习人眼视线估计方法的步骤。