CN112256131B

CN112256131B - 面向类别搜索任务的基于目标检测的注视轨迹预测方法

Info

Publication number: CN112256131B
Application number: CN202011156174.9A
Authority: CN
Inventors: 张雪涛; 卢美祺; 吴镜涵; 林玉萍; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-10-19
Anticipated expiration: 2040-10-26
Also published as: CN112256131A

Abstract

本发明公开了一种面向类别搜索任务的基于目标检测的注视轨迹预测方法，属于计算机视觉领域；主要包含以下步骤：1、根据人眼特性对图片进行模糊化处理；2、根据待搜索目标类别，将模糊处理过的图片转化为与人眼处理图片对应的显著图；3、根据显著图以及抑制图，对当前图片进行预测，生成当前预测的注视位置；4、若该注视位置未到达目标点或已经到达注视次数最大值，则可以结束此次注视点预测，否则对当前注视位置进行抑制，更新抑制点图，重复步骤1至3；5、对生成的注视位置按照其生成顺序依次相连，即可获得注视轨迹。本方法既能够适应背景复杂的待搜索图像，也考虑了实际的人眼生理约束参数。

Description

面向类别搜索任务的基于目标检测的注视轨迹预测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种面向类别搜索任务的基于faster-RCNN的注视轨迹预测方法，是一种基于目标检测网络——faster-RCNN来学习先验特征并据此特征，根据人眼上丘模型来预测在类别搜索任务下的注视轨迹的方法。

背景技术

分析人眼对于理解人类行为和认知模式是十分重要的。而人眼对于信息处理的方式十分复杂，很多处理过程现今并无明确解释，对于人眼，我们所能够明确已知的表现形式则为眼跳，眼动轨迹等。现在关于注视轨迹预测的任务背景主要集中在两大方向上，分别是无任务驱动下的自由浏览行为，以及有任务驱动的搜索行为，前者促进了显著图方法的研究，后者的发展促进了人们对于人眼生理机制的研究以及人类注意力分配机制的研究。

本方法研究有任务驱动下的注视轨迹预测，具体来讲，指的是在类别搜索下的眼动预测。即输入一张场景图片，其中含有多个物体，人眼需要在浏览该图片时搜索目标类别物体，因此输出为注视序列。在该领域中，研究方法主要分为1)完全基于学习的方式，如GAN网络，其通过输入大量的注视轨迹和图片去学习这种对应关系，不过该方法需要大量的实验数据以及长时间的学习；2)对人眼注视行为进行定性建模，如通过LSTM的方式去模拟人眼视觉记忆行为，以恒定的速率去遗忘较早的区域，不过该方法尽管借鉴了大脑的注意力转移机制，却未考虑实际的生理约束；3)根据现有的生理约束对影响注意力分配的大脑区域进行建模，如MASC，一种上丘模型，该方法考虑了实际的生理约束，因此，给定所需的特征，无需再去训练，即可获得注视点。该方法通过词袋，聚类获得目标类别的特征，其要求待搜索图像背景简单，便于将其转化为其所需的显著图，但实际背景图像多较为复杂，因此，无法用到实际的研究中。

发明内容

为了克服上述方法各自的局限性，本发明的目的在于提供一种面向类别搜索任务的基于faster-RCNN的注视轨迹预测方法，使用深度学习的方法获取目标类别特征，并利用上丘模型获得注视点位置，在一次训练时，模拟人类的先验知识，而后无需再训练，即可获得人眼注视点，进而获得注视轨迹。本方法既能够适应背景复杂的待搜索图像，也考虑了实际的人眼生理约束参数。

为了达到上述目的，本发明采用如下技术方案：

步骤一：注视点模糊化处理：根据对人眼的敏锐度的估计数据，建立多分辨率金字塔，使用多分辨率金字塔来创建分辨率图，该分辨率图指示应用于每个图像点相对于其与当前注视位置的距离的低通滤波的程度，该程度由每个点到当前注视点的距离决定，将分辨率图滤波器与输入图片进行卷积运算，近似于人类视觉中随着距离中央凹距离的增加而产生的渐进模糊后的情况；

步骤二：输入图片经过步骤一的与分辨率图滤波器卷积操作之后，进行特征图提取，该部分提取的特征的好坏程度直接影响到后期注视轨迹预测的情况；为了能够将整幅场景转化为特征图，而无需对其中存在的物体进行分割进而提取物体特征，同时还需要能够反应人眼对于目标的先验认识，采用目标检测模型faster R-CNN来训练一个目标类别的检测模型；

该目标检测模型的建立过程如下：1)通过一组基础的卷积层，线性整流函数，池化来获取图片特征；2)通过RPN网络来生成区域建议框；3)通过Roi Pooling层综合收集到的特征图和建议框,送入后续的全连接层进行判断；4)分类，利用建议特征图来计算建议框的类别，同时再通过回归获得检测框的精确位置；

根据真实标签，重复上述过程，以此来不断调整模型中的参数，直至对于测试数据集，其识别率到达预设指标，学习到了在预设识别率的情况下，目标检测模型对目标类别的认识程度，以此来模拟人对待搜索目标的先验认识程度；通过将该目标检测模型提取到的卷积特征进行可视化处理，能够反应目标检测模型学习目标类别的情况，即能够反应人的先验知识；

步骤三：步骤二所获得的特征图，反应了人眼的感兴趣区域，根据该感兴趣区域以及相对应的抑制图，应用人眼上丘模型获得注视点；上丘是指中脑背侧的两个突起，其被认为与人的眼动行为紧密相关，通过对该结构的建模获得下一个注视点位置，人眼上丘模型的建模方法步骤如下：

1)上丘区空间投射畸变

从视觉空间到丘脑空间的映射变换利用了异向性对数映射函数，这个函数以半径R和角度φ，将图片中的像素点映射到上丘空间中的毫米级坐标系u和v上，

其中，B_u＝1.4mm，B_v＝1.8mm，A＝3°，(该数据由人眼模型估计得来)，上丘空间被建模成一个二维的640×480像素神经元矩阵，其中上丘区中的1mm²表示丘图中的76×76像素点；

2)视觉图与运动图上的两次级联平均

上丘模型建模的核心步骤是两个阶段的高斯平均，第一阶段的平均发生在上丘区视觉图中的视点图上，其反映了短程兴奋性连接，利用高斯窗口对上丘区视觉图进行卷积，得到视觉点图像，根据生理学估计，第一阶段的高斯低通滤波器直径为1.6mm，标准差为σ＝0.4mm，平均总面积为2mm²；上丘区视点图对映射到上丘区域的特征图上的每一个点都进行了计算，第一阶段的平均在功能上等同于映射出上丘区视觉图上的每一个神经元的感受野和这些感受野的平均活性；

第二个阶段的平均是在运动点图上，其与第一个阶段类似，也是与高斯滤波器进行了卷积操作；根据生理学估计，第二个阶段的高斯低通滤波器的直径d＝2.4mm，标准差为σ＝0.6mm，其平均总面积为4.5mm²；

3)赢家通吃竞争模型获得最活跃点

该赢家通吃竞争模型在前两个阶段平均之后的运动点图上进行计算，得到在整张图上最活跃的点，将此作为返回的注视点；

由此，通过投射畸变，两次级联平均，和赢家通吃获得最活跃点这三个步骤，人眼上丘模型完成一次注视点预测的过程；

步骤四：根据步骤三所获得的注视点，判断其是否已经到达目标点或者注视点转移次数已经到达预先所设的最大值，若已经到达，则根据这些依次获得的注视点，画出注视轨迹；否则进行抑制图更新；

步骤五：抑制图更新，根据步骤三得到的注视点，在进行下一次注视行为前，需要对已经注视过的位置进行抑制，在视觉抑制图上通过高斯滤波实现抑制标记。

本发明的有益效果如下：

本发明考虑了已知的人眼生理约束，并通过深度学习的方法学习了先验知识，通过提取卷积特征，获得显著图，拓展了MASC中类别搜索任务下要求搜索背景简单的限制，与直接使用深度学习方法不同，不是通过CNN或者其他分类网络，对待搜索图像进行分类，使其转化成为一个分类任务，而是通过深度学习方法仅学习自上而下的类别特征,避免了图片与注视位置之间的直接训练，减少了对数据的依赖性，提高了可解释性。

附图说明

图1为本发明估计算法的流程图。

图2为视觉模糊化过程。

图3为显著图生成过程。

图4为根据显著图生成注视点示意图。

图5为抑制图生成。

具体实施方式

本发明的实施具体方式如图1所示，其中包含的主要步骤有如下五个部分，现结合对其附图对其进行具体的说明：

步骤1：注视点模糊化处理；

步骤2：特征图提取；

步骤3：预测注视点；

步骤4：判断是否停止；

步骤5:抑制图更新；

步骤1的具体实现过程为：

采用该方法使用多分辨率金字塔来创建分辨率图，该分辨率图指示应用于每个图像点相对于其与当前固定的距离的低通滤波的程度，为后续处理提供基础，具体分为以下四步，对应于图2：

1)分离RGB通道，并对其分别编码为1，2，3；

2)建立分辨率图；

3)将编码应用至分辨率图上；

4)合并三通道，获得模糊化后的图像；

步骤2的具体实现过程为：

在经过步骤一对图像进行模糊化处理之后，获得其对应于中心凹区域的图像，对该图像进行特征提取，获得其对应于送入大脑注意力控制的显著图，具体方法为：

使用经典的目标检测模型Faster R-CNN来训练目标类别特征，该模型如图3所示，主要分为四个模块：

1)一组基础的卷积层，线性整流函数，和池化层；通过该模块来获取图像一系列特征图，这些特征图被共享用于后续的RPN网络以及全连接层；

2)RPN网络；通过RPN网络来生成区域建议框，该层通过softmax判断achors属于正样本或是负样本，再利用bounding box regression修正anchors从而获得精确的建议区域；

3)Roi Pooling；通过该模块综合收集到的特征图和建议框,送入后续的全连接层进行判断；

4)分类；利用建议特征图来计算建议框的类别，同时再通过回归获得检测框的精确位置；

步骤二需要训练出一个可以识别出目标的模型，并提取其特征输出，即前一部分卷积特征作为该模块的输出；

步骤3的具体实现步骤为：

步骤二所获得的显著图，反应了人眼的感兴趣区域，以及相对应的抑制图，初始状态下无抑制，根据人眼上丘模型获得注视点，上丘是指中脑背侧的两个突起，通过对该结构的建模获得下一个注视点位置，人眼上丘模型的建模步骤如下：

1)上丘区空间投射畸变

从视觉空间到丘脑空间的映射变换利用了异向性对数映射函数，这个函数以半径R和角度φ，将图片中的像素点映射成上丘空间中毫米级坐标u(距中央凹的尖端的距离)和v(距中间横向直线的距离)

其中，B_u＝1.4mm,B_v＝1.8mm,A＝3°。上丘空间被建模成一个二维的640×480像素神经元矩阵，其中大脑上丘区中的1mm²表示丘图中的76×76大小的像素点，如图4(a)所示；

2)视觉图与运动图上的两次级联平均

上丘模型MASC的一个最重要的假设是在视觉图和运动图上存在两次级联平均，第一次平均发生在上丘空间的视觉图上上，其反映了短程兴奋性连接；

利用高斯窗口对上丘区视觉图进行卷积，得到视觉点图像，根据生理学估计，第一阶段的高斯低通滤波器的直径d＝1.6mm，标准差σ＝0.4mm，平均总面积为2mm²。

如图4(b)所示，一个视点图是对映射之后的显著图上的每一个点都进行了计算，第一阶段的平均在功能上等同于映射出上丘区视觉图上的每一个神经元的感受野和这些感受野的平均活性。

第二个阶段的平均是在运动点图上，其是通过上丘区运动图来计算，通过与高斯滤波器进行卷积运算获得运动点图。第二阶段的高斯滤波器直径d＝2.4mm，标准差σ＝0.6mm，其平均总面积为4.5mm²，如图4(c)所示；

3)赢家通吃竞争模型获得最活跃点

该赢家通吃竞争模型在前两个阶段平均之后的运动点图上进行计算，对上丘区运动图中获胜的神经元集合进行运动矢量平均确定后续的扫视，并由此得到在整张图上最活跃的点，将此作为返回的注视点，如图4(d)所示；

步骤4的具体实现步骤：

步骤四用来判断是否还需要继续预测注视点，若当前预测的注视点已经到达目标附近，或者注视点转移次数已经超过预先设定的阈值，则整个过程停止，根据所获得的注视点得到最终的注视轨迹；否则进行步骤五，抑制图更新；

步骤5的具体实现步骤：

步骤五是抑制图的更新。在步骤三得到最活跃点之后，可将其作为当前注视点位置，由于人眼在当前位置已经浏览过，根据注意力转移机制，下一次注视点在该处的概率降低，因此，对当前位置进行抑制，即通过与低通滤波器进行卷积运算得到抑制图，如图5所示。

Claims

1.一种面向类别搜索任务的基于目标检测的注视轨迹预测方法，其特征在于：具体步骤如下：

1)上丘区空间投射畸变

其中，B_u＝1.4mm，B_v＝1.8mm，A＝3°，该数据由人眼模型估计得来，上丘空间被建模成一个二维的640×480像素神经元矩阵，其中上丘区中的1mm²表示丘图中的76×76像素点；

2)视觉图与运动图上的两次级联平均

上丘模型建模的核心步骤是两个阶段的高斯平均，第一阶段的平均发生在上丘区视觉图中的视点图上，其反映了短程兴奋性连接；利用高斯窗口对上丘区视觉图进行卷积，得到视觉点图像，根据生理学估计，第一阶段的高斯低通滤波器直径为1.6mm，标准差为σ＝0.4mm，平均总面积为2mm²；上丘区视点图对映射到上丘区域的特征图上的每一个点都进行了计算，第一阶段的平均在功能上等同于映射出上丘区视觉图上的每一个神经元的感受野和这些感受野的平均活性；

3)赢家通吃竞争模型获得最活跃点