CN111723707A - 一种基于视觉显著性的注视点估计方法及装置 - Google Patents
一种基于视觉显著性的注视点估计方法及装置 Download PDFInfo
- Publication number
- CN111723707A CN111723707A CN202010518731.0A CN202010518731A CN111723707A CN 111723707 A CN111723707 A CN 111723707A CN 202010518731 A CN202010518731 A CN 202010518731A CN 111723707 A CN111723707 A CN 111723707A
- Authority
- CN
- China
- Prior art keywords
- fixation point
- saliency
- image
- saliency map
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于视觉显著性的注视点估计方法及装置,所述方法包括以下步骤:将当前场景的RGB图像和光流图像输入由卷积神经网络和长短时记忆网络构成的显著图生成模块中,提取来自单个RGB图像和连续的光流图像中的特征信息,生成显著图;将当前人脸或人眼图像输入由卷积神经网络构成的注视点预测模块中,预测注视点;将显著图输入校正模块中,使用最小二乘算法对预测的注视点进行校正,输出最终注视点。装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。本发明将视觉显著性用于眼动跟踪,使用显著图对预测的注视点进行校正,提高注视点估计的准确率。
Description
技术领域
本发明涉及视觉显著性领域,尤其涉及一种基于视觉显著性的注视点估计方法及装置。
背景技术
注视点估计即估算人双目视线聚焦的落点。其一般场景是估计人在一个二维平面上的注视点。这个二维平面可以是手机屏幕,电脑屏幕,电视屏幕和VR设备中的虚拟屏幕等。常用的注视点估计方法可分为两大类:基于几何模型的和基于外观的。基于几何模型的方法也被称为基于特征的方法,基本原理是从人眼图像中提取一些特征(如:瞳孔、虹膜、眼角、角膜反射点等),构造几何模型计算注视点。基于外观的方法不对人眼图像进行处理,而是试图通过大量人眼图像训练人眼外观与注视点之间的映射关系。
视觉显著性(Visual Attention Mechanism,VA,即视觉注意机制)是指面对一个场景时,人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域,这些人们感兴趣区域被称之为显著性区域。人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力,这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。
目前的注视点估计方法使用卷积神经网络从人脸或人眼中估计注视点,该方法考虑到了人脸和人眼对注视点的影响,收集了大量人脸、人眼和对应屏幕上注视点坐标的数据,但没有考虑观看屏幕时屏幕上显示的图像信息。人类在观察静态场景(如图片)时,更偏向于观看图像的显著性区域,在观察动态场景(如视频)时,更偏向于观看有变化的区域。
现有技术的方法仅从人脸或人眼图像中估计对应的注视点,而忽视了场景因素在注视点估计中的重要性,在大多数情况下,人眼注视点与人眼当前状态以及人眼所看到的场景都有着紧密的联系,同时分析场景和人眼图像而不是单纯分析人眼图像会更加接近真实的人眼注视点。
发明内容
本发明提供了一种基于视觉显著性的注视点估计方法及装置,本发明将视觉显著性用于眼动跟踪,使用显著图对预测的注视点进行校正,提高注视点估计的准确率,详见下文描述:
一种基于视觉显著性的注视点估计方法,所述方法包括以下步骤:
将当前场景的RGB图像和光流图像输入由卷积神经网络和长短时记忆网络构成的显著图生成模块中,提取来自单个RGB图像和连续的光流图像中的特征信息,生成显著图;
将当前人脸或人眼图像输入由卷积神经网络构成的注视点预测模块中,预测注视点;
将显著图输入校正模块中,使用最小二乘算法对预测的注视点进行校正,输出最终注视点。
其中,所述RGB图像和光流图像被输入到由五个卷积层构成的特征提取卷积神经网络中,对输入的图像进行编码;
之后分别输入到反卷积神经网络和长短时记忆网络中,得到两个特征图,继续将这两个特征图进行融合,经过一个由三个卷积层构成的全卷积网络,得到最终的显著图。
进一步地,
当前人脸或人眼图像输入注视点预测模块中,分别经过卷积神经网络进行特征提取,之后将特征图进行连接,通过全连接网络最终得到注视点坐标。
其中,所述方法还包括:光流图像的生成方法,包括:基于梯度或微分的方法、基于匹配的方法、基于能量或频率的方法、基于相位的方法和神经动力学方法。
具体实现时,所述校正模块的输入是显著图生成模块的输出和注视点预测模块的输出,首先在显著图中绘制一个以预测注视点为圆心,半径为1度的圆,然后求得显著图中显著区域中心坐标,对连续多个预测注视点和显著区域中心坐标使用最小二乘法求解校正之后的注视点坐标。
一种基于视觉显著性的注视点估计装置,装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求所述的方法步骤。
本发明提供的技术方案的有益效果是:相较于现有技术中的方案,本发明整合了人眼图像以及场景图像对注视点估计的贡献,使两者互相补充,得到更加接近真实的人眼注视点,在眼动跟踪应用中能准确且快速的估计人眼注视点。
附图说明
图1为一种基于视觉显著性的注视点估计方法的流程图;
图2为显著图生成模块结构示意图;
图3为注视点预测模块结构示意图;
图4为应用场景为台式电脑的示意图;
图5为应用场景为虚拟现实或自然场景的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于视觉显著性的注视点估计方法,参见图1,该方法包括以下步骤:
101:将当前场景的RGB图像和光流图像输入显著图生成模块中生成显著图;
102:将当前人眼图像输入注视点预测模块中预测注视点;
103:将步骤101中的显著图输入校正模块中对预测的注视点进行校正,输出最终注视点。
具体的,步骤101中显著图生成模块由卷积神经网络(CNN)和长短时记忆网络(LSTM)构成,可提取来自单个RGB图像和连续的光流图像中的特征信息,生成显著图。
具体的,步骤102中注视点预测模块的基础为卷积神经网络,输入当前人脸或人眼图像,通过注视点预测模块预测当前注视点。
具体的,步骤103中校正模块基于步骤101中生成的显著图使用最小二乘算法对步骤102中预测的当前注视点进行校正,获取最终注视点。
实施例2
下面结合图1-图5,以及具体的计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
如图1所示本发明包括:显著图生成模块、注视点预测模块和校正模块。其中,显著图生成模块用于从场景连续视频帧中生成显著图,注视点预测模块通过人脸或人眼图像预测注视点坐标,校正模块将显著图结合预测注视点,使用最小二乘法对注视点预测值进行校正。
具体的,如图2所示,显著图生成模块由卷积神经网络(CNN)和长短时记忆网络(LSTM)构成,可提取来自单个RGB图像和连续的光流图像中的特征信息,生成显著图。其中,输入RGB图像和光流图像,经过特征提取卷积神经网络对输入的图像进行编码,之后分别输入到反卷积神经网络和长短时记忆网络中,最后将两个输出经过一个卷积神经网络得到最终的显著图。
具体的,如图3所示,注视点预测模块通过人眼图像得到注视点坐标。首先输入双眼图像,分别经过卷积神经网络进行特征提取,之后将特征图进行连接,通过全连接网络最终得到注视点坐标。
具体的,校正模块整合显著图和预测注视点,使用最小二乘法计算最终的注视点坐标。
一段视频或连续图像的每一时刻每一个像素灰度值构成的集合可以看做一个三维矩阵,通过离散函数I(x,y,t)可以得到任意像素位置(x,y)与时刻t到对应灰度值的映射。假设一个像素在经过时间dt后,灰度值不发生变化,即:
I(x,y,t)=I(x+dx,y+dy,t+dt) (1)
对式(1)进行一阶泰勒展开:
Ixu+Iyv+It=0 (3)
其中,Ix、Iy、It均可由图像数据求得,而(u,v)即是所求光流矢量,整张图像上所有像素的光流矢量的集合就是光流图像。
约束方程只有一个,而方程的未知量有两个,这种情况下无法求得u和v的确切值。此时需要引入另外的约束条件,从不同的角度引入约束条件,导致了不同光流场计算方法。
上述中,步骤101中的光流图像的生成方法包括:基于梯度(微分)的方法、基于匹配的方法、基于能量(频率)的方法、基于相位的方法和神经动力学方法等。
进一步地,在显著图生成模块中,在时刻t,当前的RGB图像和光流图像被输入到由五个卷积层构成的特征提取卷积神经网络(Feature Extraction Convolutional NeuralNetwork,FE-CNN)中,分别得到RGB特征图和光流特征图。将获得的特征图一起输入到LSTM网络和转置卷积神经网络中,得到两个特征图,继续将这两个特征图融合,经过一个由三个卷积层构成的全卷积网络,得到最终的显著图。
其中,LSTM网络用来提取连续视频帧中的隐含信息,LSTM网络能通过一种被称为门的结构对细胞状态进行删除或者添加信息。LSTM由三个门来控制细胞状态,这三个门分别称为忘记门、输入门和输出门。LSTM的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为忘记门的sigmoid单元来处理的。它通过查看ht-1和xt信息来输出一个[0,1]之间的向量,该向量里面的值表示细胞状态Ct-1中的哪些信息保留或丢弃多少。0表示不保留,1表示都保留。
其中,忘记门可以表示为:
ft=σ(Wf·[ht-1,xt]+bf) (4)
下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤,首先,利用ht-1和xt通过一个称为输入门的操作来决定更新哪些信息。然后利用ht-1和xt通过一个tanh层得到新的候选细胞信息这些信息可能会被更新到细胞信息中。这两步描述可以表示为:
it=σ(Wi·[ht-1,xt]+bi) (5)
更新完细胞状态后需要根据输入的ht-1和xt来判断输出细胞的哪些状态特征,这里需要将输入经过一个称为输出门的sigmoid层得到判断条件,然后将细胞状态经过tanh层得到一个[-1,1]之间值的向量,该向量与输出门得到的判断条件相乘就得到了最终该单元的输出。该步骤可以表示为:
ot=σ(Wo·[ht-1,xt]+bo) (8)
ht=ot*tanh(Ct) (9)
使用LSTM网络可以学习到具有上下文信息的特征图。
其中,转置卷积神经网络由五层转置卷积层构成,通过对特征图进行解码,得到与原始图像尺寸相同的特征图。
根据应用场景不同,显著图生成模块和注视点预测模块的输入略有不同。在使用笔记本电脑、台式电脑、电视等情况下,如图4所示,采集人眼图像的相机处于屏幕下方,此时显著图生成模块的输入是屏幕的图像,注视点预测模块的输入是相机拍摄的人脸中裁剪出来的双眼图像;而在自然场景、虚拟现实等情况下,如图5所示,采集人眼图像的相机位于双眼斜下方,采集场景图像的相机位于额头,此时显著图生成模块的输入是自然场景图像或虚拟场景图像,注视点预测模块的输入是相机拍摄的人眼图像。
其中,校正模块的输入是显著图生成模块的输出和注视点预测模块的输出,首先在显著图中绘制一个以预测注视点为圆心,半径为1度(人眼视觉的中心区域约为1度)的圆,然后求得显著图中显著区域中心坐标,对连续多个预测注视点和显著区域中心坐标使用最小二乘法求解校正之后的注视点坐标。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于视觉显著性的注视点估计方法,其特征在于,所述方法包括以下步骤:
将当前场景的RGB图像和光流图像输入由卷积神经网络和长短时记忆网络构成的显著图生成模块中,提取来自单个RGB图像和连续的光流图像中的特征信息,生成显著图;
将当前人脸或人眼图像输入由卷积神经网络构成的注视点预测模块中,预测注视点;
将显著图输入校正模块中,使用最小二乘算法对预测的注视点进行校正,输出最终注视点。
2.根据权利要求1所述的一种基于视觉显著性的注视点估计方法,其特征在于,
所述RGB图像和光流图像被输入到由五个卷积层构成的特征提取卷积神经网络中,对输入的图像进行编码;
之后分别输入到反卷积神经网络和长短时记忆网络中,得到两个特征图,继续将这两个特征图进行融合,经过一个由三个卷积层构成的全卷积网络,得到最终的显著图。
3.根据权利要求1所述的一种基于视觉显著性的注视点估计方法,其特征在于,
当前人脸或人眼图像输入注视点预测模块中,分别经过卷积神经网络进行特征提取,之后将特征图进行连接,通过全连接网络最终得到注视点坐标。
4.根据权利要求1所述的一种基于视觉显著性的注视点估计方法,其特征在于,所述方法还包括:光流图像的生成方法,
包括:基于梯度或微分的方法、基于匹配的方法、基于能量或频率的方法、基于相位的方法和神经动力学方法。
5.根据权利要求1所述的一种基于视觉显著性的注视点估计方法,其特征在于,
所述校正模块的输入是显著图生成模块的输出和注视点预测模块的输出,首先在显著图中绘制一个以预测注视点为圆心,半径为1度的圆,然后求得显著图中显著区域中心坐标,对连续多个预测注视点和显著区域中心坐标使用最小二乘法求解校正之后的注视点坐标。
6.一种基于视觉显著性的注视点估计装置,装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518731.0A CN111723707B (zh) | 2020-06-09 | 2020-06-09 | 一种基于视觉显著性的注视点估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518731.0A CN111723707B (zh) | 2020-06-09 | 2020-06-09 | 一种基于视觉显著性的注视点估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723707A true CN111723707A (zh) | 2020-09-29 |
CN111723707B CN111723707B (zh) | 2023-10-17 |
Family
ID=72567852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010518731.0A Active CN111723707B (zh) | 2020-06-09 | 2020-06-09 | 一种基于视觉显著性的注视点估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723707B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256131A (zh) * | 2020-10-26 | 2021-01-22 | 西安交通大学 | 面向类别搜索任务的基于目标检测的注视轨迹预测方法 |
CN112418296A (zh) * | 2020-11-18 | 2021-02-26 | 中国科学院上海微系统与信息技术研究所 | 基于人眼视觉注意机制的仿生双眼目标识别与跟踪方法 |
CN112818858A (zh) * | 2021-02-02 | 2021-05-18 | 电子科技大学 | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 |
CN113283402A (zh) * | 2021-07-21 | 2021-08-20 | 北京科技大学 | 一种差分式二维注视点检测方法及装置 |
CN115830675A (zh) * | 2022-11-28 | 2023-03-21 | 深圳市华弘智谷科技有限公司 | 一种注视点跟踪方法、装置、智能眼镜及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951084A (zh) * | 2015-07-30 | 2015-09-30 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN109447096A (zh) * | 2018-04-13 | 2019-03-08 | 西安电子科技大学 | 一种基于机器学习的扫视路径预测方法和装置 |
CN109886241A (zh) * | 2019-03-05 | 2019-06-14 | 天津工业大学 | 基于长短期记忆网络的驾驶员疲劳检测 |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
-
2020
- 2020-06-09 CN CN202010518731.0A patent/CN111723707B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951084A (zh) * | 2015-07-30 | 2015-09-30 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
CN107346436A (zh) * | 2017-06-29 | 2017-11-14 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN109447096A (zh) * | 2018-04-13 | 2019-03-08 | 西安电子科技大学 | 一种基于机器学习的扫视路径预测方法和装置 |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN109886241A (zh) * | 2019-03-05 | 2019-06-14 | 天津工业大学 | 基于长短期记忆网络的驾驶员疲劳检测 |
Non-Patent Citations (4)
Title |
---|
GUANBIN LI 等: "Flow Guided Recurrent Neural Encoder for Video Salient Object Detection", IEEE * |
LAI JIANG 等: "DeepVS: A Deep Learning Based Video Saliency Prediction Approach", ECCV2018 * |
MEIJUN SUN 等: "Hybrid convolutional neural networks and optical flow for video visual attention prediction", CROSSMARK * |
WENGUAN WANG 等: "Revisiting Video Saliency: A Large-scale Benchmark and a New Model", ARXIV * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256131A (zh) * | 2020-10-26 | 2021-01-22 | 西安交通大学 | 面向类别搜索任务的基于目标检测的注视轨迹预测方法 |
CN112256131B (zh) * | 2020-10-26 | 2021-10-19 | 西安交通大学 | 面向类别搜索任务的基于目标检测的注视轨迹预测方法 |
CN112418296A (zh) * | 2020-11-18 | 2021-02-26 | 中国科学院上海微系统与信息技术研究所 | 基于人眼视觉注意机制的仿生双眼目标识别与跟踪方法 |
CN112418296B (zh) * | 2020-11-18 | 2024-04-02 | 中国科学院上海微系统与信息技术研究所 | 基于人眼视觉注意机制的仿生双眼目标识别与跟踪方法 |
CN112818858A (zh) * | 2021-02-02 | 2021-05-18 | 电子科技大学 | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 |
CN113283402A (zh) * | 2021-07-21 | 2021-08-20 | 北京科技大学 | 一种差分式二维注视点检测方法及装置 |
CN115830675A (zh) * | 2022-11-28 | 2023-03-21 | 深圳市华弘智谷科技有限公司 | 一种注视点跟踪方法、装置、智能眼镜及存储介质 |
CN115830675B (zh) * | 2022-11-28 | 2023-07-07 | 深圳市华弘智谷科技有限公司 | 一种注视点跟踪方法、装置、智能眼镜及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111723707B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN108921782B (zh) | 一种图像处理方法、装置及存储介质 | |
CN106682632B (zh) | 用于处理人脸图像的方法和装置 | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
WO2022156626A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN111046734A (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN112446322B (zh) | 眼球特征检测方法、装置、设备及计算机可读存储介质 | |
CN111815768B (zh) | 三维人脸重建方法和装置 | |
Hu et al. | Face restoration via plug-and-play 3D facial priors | |
CN113570530A (zh) | 图像融合方法、装置、计算机可读存储介质和电子设备 | |
CN113642393A (zh) | 基于注意力机制的多特征融合视线估计方法 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
CN114693557A (zh) | 基于姿态引导的行人视频修复方法、系统、设备和介质 | |
CN113591562A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN116994319A (zh) | 训练模型的方法和人脸识别方法、设备、介质 | |
CN115359547A (zh) | 图像处理网络的训练方法、图像处理方法及装置 | |
CN114898447A (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 | |
Yue et al. | High-dimensional camera shake removal with given depth map | |
CN113807251A (zh) | 一种基于外观的视线估计方法 | |
Wang et al. | Transmission map estimation of weather-degraded images using a hybrid of recurrent fuzzy cerebellar model articulation controller and weighted strategy | |
US20210227249A1 (en) | Computer Vision Systems and Methods for Compositional Pixel-Level Prediction | |
CN114998814B (zh) | 目标视频生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |