CN111723707A

CN111723707A - 一种基于视觉显著性的注视点估计方法及装置

Info

Publication number: CN111723707A
Application number: CN202010518731.0A
Authority: CN
Inventors: 马权智; 陶文源; 闫野; 印二威; 刘璇恒; 赵涛; 谢良
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-29
Anticipated expiration: 2040-06-09
Also published as: CN111723707B

Abstract

本发明公开了一种基于视觉显著性的注视点估计方法及装置，所述方法包括以下步骤：将当前场景的RGB图像和光流图像输入由卷积神经网络和长短时记忆网络构成的显著图生成模块中，提取来自单个RGB图像和连续的光流图像中的特征信息，生成显著图；将当前人脸或人眼图像输入由卷积神经网络构成的注视点预测模块中，预测注视点；将显著图输入校正模块中，使用最小二乘算法对预测的注视点进行校正，输出最终注视点。装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。本发明将视觉显著性用于眼动跟踪，使用显著图对预测的注视点进行校正，提高注视点估计的准确率。

Description

一种基于视觉显著性的注视点估计方法及装置

技术领域

本发明涉及视觉显著性领域，尤其涉及一种基于视觉显著性的注视点估计方法及装置。

背景技术

注视点估计即估算人双目视线聚焦的落点。其一般场景是估计人在一个二维平面上的注视点。这个二维平面可以是手机屏幕，电脑屏幕，电视屏幕和VR设备中的虚拟屏幕等。常用的注视点估计方法可分为两大类：基于几何模型的和基于外观的。基于几何模型的方法也被称为基于特征的方法，基本原理是从人眼图像中提取一些特征(如：瞳孔、虹膜、眼角、角膜反射点等)，构造几何模型计算注视点。基于外观的方法不对人眼图像进行处理，而是试图通过大量人眼图像训练人眼外观与注视点之间的映射关系。

视觉显著性(Visual Attention Mechanism，VA，即视觉注意机制)是指面对一个场景时，人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域，这些人们感兴趣区域被称之为显著性区域。人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力，这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。

目前的注视点估计方法使用卷积神经网络从人脸或人眼中估计注视点，该方法考虑到了人脸和人眼对注视点的影响，收集了大量人脸、人眼和对应屏幕上注视点坐标的数据，但没有考虑观看屏幕时屏幕上显示的图像信息。人类在观察静态场景(如图片)时，更偏向于观看图像的显著性区域，在观察动态场景(如视频)时，更偏向于观看有变化的区域。

现有技术的方法仅从人脸或人眼图像中估计对应的注视点，而忽视了场景因素在注视点估计中的重要性，在大多数情况下，人眼注视点与人眼当前状态以及人眼所看到的场景都有着紧密的联系，同时分析场景和人眼图像而不是单纯分析人眼图像会更加接近真实的人眼注视点。

发明内容

本发明提供了一种基于视觉显著性的注视点估计方法及装置，本发明将视觉显著性用于眼动跟踪，使用显著图对预测的注视点进行校正，提高注视点估计的准确率，详见下文描述：

一种基于视觉显著性的注视点估计方法，所述方法包括以下步骤：

将当前场景的RGB图像和光流图像输入由卷积神经网络和长短时记忆网络构成的显著图生成模块中，提取来自单个RGB图像和连续的光流图像中的特征信息，生成显著图；

将当前人脸或人眼图像输入由卷积神经网络构成的注视点预测模块中，预测注视点；

将显著图输入校正模块中，使用最小二乘算法对预测的注视点进行校正，输出最终注视点。

其中，所述RGB图像和光流图像被输入到由五个卷积层构成的特征提取卷积神经网络中，对输入的图像进行编码；

之后分别输入到反卷积神经网络和长短时记忆网络中，得到两个特征图，继续将这两个特征图进行融合，经过一个由三个卷积层构成的全卷积网络，得到最终的显著图。

进一步地，

当前人脸或人眼图像输入注视点预测模块中，分别经过卷积神经网络进行特征提取，之后将特征图进行连接，通过全连接网络最终得到注视点坐标。

其中，所述方法还包括：光流图像的生成方法，包括：基于梯度或微分的方法、基于匹配的方法、基于能量或频率的方法、基于相位的方法和神经动力学方法。

具体实现时，所述校正模块的输入是显著图生成模块的输出和注视点预测模块的输出，首先在显著图中绘制一个以预测注视点为圆心，半径为1度的圆，然后求得显著图中显著区域中心坐标，对连续多个预测注视点和显著区域中心坐标使用最小二乘法求解校正之后的注视点坐标。

一种基于视觉显著性的注视点估计装置，装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求所述的方法步骤。

本发明提供的技术方案的有益效果是：相较于现有技术中的方案，本发明整合了人眼图像以及场景图像对注视点估计的贡献，使两者互相补充，得到更加接近真实的人眼注视点，在眼动跟踪应用中能准确且快速的估计人眼注视点。

附图说明

图1为一种基于视觉显著性的注视点估计方法的流程图；

图2为显著图生成模块结构示意图；

图3为注视点预测模块结构示意图；

图4为应用场景为台式电脑的示意图；

图5为应用场景为虚拟现实或自然场景的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于视觉显著性的注视点估计方法，参见图1，该方法包括以下步骤：

101：将当前场景的RGB图像和光流图像输入显著图生成模块中生成显著图；

102：将当前人眼图像输入注视点预测模块中预测注视点；

103：将步骤101中的显著图输入校正模块中对预测的注视点进行校正，输出最终注视点。

具体的，步骤101中显著图生成模块由卷积神经网络(CNN)和长短时记忆网络(LSTM)构成，可提取来自单个RGB图像和连续的光流图像中的特征信息，生成显著图。

具体的，步骤102中注视点预测模块的基础为卷积神经网络，输入当前人脸或人眼图像，通过注视点预测模块预测当前注视点。

具体的，步骤103中校正模块基于步骤101中生成的显著图使用最小二乘算法对步骤102中预测的当前注视点进行校正，获取最终注视点。

实施例2

下面结合图1-图5，以及具体的计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

如图1所示本发明包括：显著图生成模块、注视点预测模块和校正模块。其中，显著图生成模块用于从场景连续视频帧中生成显著图，注视点预测模块通过人脸或人眼图像预测注视点坐标，校正模块将显著图结合预测注视点，使用最小二乘法对注视点预测值进行校正。

具体的，如图2所示，显著图生成模块由卷积神经网络(CNN)和长短时记忆网络(LSTM)构成，可提取来自单个RGB图像和连续的光流图像中的特征信息，生成显著图。其中，输入RGB图像和光流图像，经过特征提取卷积神经网络对输入的图像进行编码，之后分别输入到反卷积神经网络和长短时记忆网络中，最后将两个输出经过一个卷积神经网络得到最终的显著图。

具体的，如图3所示，注视点预测模块通过人眼图像得到注视点坐标。首先输入双眼图像，分别经过卷积神经网络进行特征提取，之后将特征图进行连接，通过全连接网络最终得到注视点坐标。

具体的，校正模块整合显著图和预测注视点，使用最小二乘法计算最终的注视点坐标。

一段视频或连续图像的每一时刻每一个像素灰度值构成的集合可以看做一个三维矩阵，通过离散函数I(x,y,t)可以得到任意像素位置(x,y)与时刻t到对应灰度值的映射。假设一个像素在经过时间dt后，灰度值不发生变化，即：

I(x,y,t)＝I(x+dx,y+dy,t+dt) (1)

对式(1)进行一阶泰勒展开：

其中，I_x为灰度值对x的偏导，I_y为灰度值对y的偏导，I_t为灰度值对t的偏导，

为像素点在x方向的瞬时速度，

为像素点在y方向的瞬时速度。由式(1)和式(2)可得：

I_xu+I_yv+I_t＝0 (3)

其中，I_x、I_y、I_t均可由图像数据求得，而(u,v)即是所求光流矢量，整张图像上所有像素的光流矢量的集合就是光流图像。

约束方程只有一个，而方程的未知量有两个，这种情况下无法求得u和v的确切值。此时需要引入另外的约束条件，从不同的角度引入约束条件，导致了不同光流场计算方法。

上述中，步骤101中的光流图像的生成方法包括：基于梯度(微分)的方法、基于匹配的方法、基于能量(频率)的方法、基于相位的方法和神经动力学方法等。

进一步地，在显著图生成模块中，在时刻t，当前的RGB图像和光流图像被输入到由五个卷积层构成的特征提取卷积神经网络(Feature Extraction Convolutional NeuralNetwork,FE-CNN)中，分别得到RGB特征图和光流特征图。将获得的特征图一起输入到LSTM网络和转置卷积神经网络中，得到两个特征图，继续将这两个特征图融合，经过一个由三个卷积层构成的全卷积网络，得到最终的显著图。

其中，LSTM网络用来提取连续视频帧中的隐含信息，LSTM网络能通过一种被称为门的结构对细胞状态进行删除或者添加信息。LSTM由三个门来控制细胞状态，这三个门分别称为忘记门、输入门和输出门。LSTM的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为忘记门的sigmoid单元来处理的。它通过查看h_t-1和x_t信息来输出一个[0,1]之间的向量，该向量里面的值表示细胞状态C_t-1中的哪些信息保留或丢弃多少。0表示不保留，1表示都保留。

其中，忘记门可以表示为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (4)

下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤，首先，利用h_t-1和x_t通过一个称为输入门的操作来决定更新哪些信息。然后利用h_t-1和x_t通过一个tanh层得到新的候选细胞信息

这些信息可能会被更新到细胞信息中。这两步描述可以表示为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (5)

下面将更新旧的细胞信息C_t-1，变为新的细胞信息C_t。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分，通过输入门选择添加候选细胞信息

的一部分得到新的细胞信息C_t。更新操作可以表示为：

更新完细胞状态后需要根据输入的h_t-1和x_t来判断输出细胞的哪些状态特征，这里需要将输入经过一个称为输出门的sigmoid层得到判断条件，然后将细胞状态经过tanh层得到一个[-1,1]之间值的向量，该向量与输出门得到的判断条件相乘就得到了最终该单元的输出。该步骤可以表示为：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (8)

h_t＝o_t*tanh(C_t) (9)

使用LSTM网络可以学习到具有上下文信息的特征图。

其中，转置卷积神经网络由五层转置卷积层构成，通过对特征图进行解码，得到与原始图像尺寸相同的特征图。

根据应用场景不同，显著图生成模块和注视点预测模块的输入略有不同。在使用笔记本电脑、台式电脑、电视等情况下，如图4所示，采集人眼图像的相机处于屏幕下方，此时显著图生成模块的输入是屏幕的图像，注视点预测模块的输入是相机拍摄的人脸中裁剪出来的双眼图像；而在自然场景、虚拟现实等情况下，如图5所示，采集人眼图像的相机位于双眼斜下方，采集场景图像的相机位于额头，此时显著图生成模块的输入是自然场景图像或虚拟场景图像，注视点预测模块的输入是相机拍摄的人眼图像。

其中，校正模块的输入是显著图生成模块的输出和注视点预测模块的输出，首先在显著图中绘制一个以预测注视点为圆心，半径为1度(人眼视觉的中心区域约为1度)的圆，然后求得显著图中显著区域中心坐标，对连续多个预测注视点和显著区域中心坐标使用最小二乘法求解校正之后的注视点坐标。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉显著性的注视点估计方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于视觉显著性的注视点估计方法，其特征在于，

所述RGB图像和光流图像被输入到由五个卷积层构成的特征提取卷积神经网络中，对输入的图像进行编码；

3.根据权利要求1所述的一种基于视觉显著性的注视点估计方法，其特征在于，

4.根据权利要求1所述的一种基于视觉显著性的注视点估计方法，其特征在于，所述方法还包括：光流图像的生成方法，

包括：基于梯度或微分的方法、基于匹配的方法、基于能量或频率的方法、基于相位的方法和神经动力学方法。

5.根据权利要求1所述的一种基于视觉显著性的注视点估计方法，其特征在于，

所述校正模块的输入是显著图生成模块的输出和注视点预测模块的输出，首先在显著图中绘制一个以预测注视点为圆心，半径为1度的圆，然后求得显著图中显著区域中心坐标，对连续多个预测注视点和显著区域中心坐标使用最小二乘法求解校正之后的注视点坐标。

6.一种基于视觉显著性的注视点估计装置，装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述的方法步骤。