CN108596243B

CN108596243B - 基于分级注视图和条件随机场的眼动注视图预测方法

Info

Publication number: CN108596243B
Application number: CN201810360076.3A
Authority: CN
Inventors: 韩冰; 李凯; 褚福跃; 高新波; 韩怡园; 王平; 连慧芳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2021-09-10
Anticipated expiration: 2038-04-20
Also published as: CN108596243A

Abstract

本发明公开了一种基于多级眼动注视图和条件随机场的眼动注视图预测方法，主要解决了现有技术预测准确率不高的问题。其实现步骤为：1.采集眼动数据并将其分为训练集与测试集；2.构建并在训练集上训练三个全卷积神经网络；3.在测试集上生成三个全卷积神经网络的预测图；4.使用条件随机场融合三个全卷积神经网络的预测图，融合的结果做为最终预测图。本发明通过融合不同等级下的眼动注视图预测结果，更符合空间物理专家对极光图像的认知过程，提高了注视图预测的准确率，可用于语义分割与显著性分析。

Description

基于分级注视图和条件随机场的眼动注视图预测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种图像眼动注视图预测方法，可用于语义分割和显著性分析。

背景技术

人类的视觉选择注意力机制使得人类能够在观察静态或者动态场景时快速地将注视点锁定在感兴趣的区域。从而使得人脑能够在使用较少处理资源的情况下快速准确的理解场景信息。

对于广告设计、图像自动裁剪、图像检索和视频理解等应用领域，理解并预测人在观察场景时的注视位置至关重要。目前，眼动追踪技术已经在这些领域得到了应用。所谓眼动追踪技术就是通过采集人眼在图像上的注视点信息来获取眼动注视图。实际应用中，眼动追踪设备通常较为昂贵且眼动数据采集过程耗时耗力，并不适宜于长期的使用。因此人们提出了一些眼动注视图预测方法，学习已有的眼动注视图信息，并对未知注视图图像的眼动信息进行预测。

极光是由太阳风和磁层相互作用产生的电离层轨道，分析极光的形态和变化对空间天气活动的研究具有重要意义。如今，绝大多数极光分析都是由空间物理专家人为实施的，了解和预测空间物理专家的认知过程可以帮助实现自动分析极光图像。

目前的眼动注视图预测方法通常将眼动注视图预测视为一个二分类问题，图像区域被简单的标记为注视区域和非注视区域。实际上，在观察某一特定的场景时，人眼对不同区域有着不同的关注程度。因此，简单的将场景标记为注视区域和非注视区域不能准确的反映注视信息。

综上所述，目前的极光图像注视图预测方法并不能很好的模拟空间物理专家对极光图像的眼动注视图。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出了基于分级注视图和条件随机场的眼动注视图预测方法，即DeepAF，以提高注视图预测结果的准确率。

本发明的技术思路是：对极光图像采集眼动数据，生成高、中、低三个等级的眼动注视图。构建三个相同的全卷积神经网络训练数据，将三个输出结果用条件随机场进行融合，得到的结果即为最终预测结果。其实现步骤包括如下：

(1)采集眼动数据；

(2)生成高、中、低三个等级的二值注视图GT_high,GT_mid,GT_low：

2a)对每一个被试者，根据每幅观测图像的眼动数据生成灰度值为0～255的连续注视图；

2b)将同一幅观测图像的所有连续注视图求和并进行归一化，得到该观测图像的最终连续注视图；

2c)对每幅观测图像，分别将最终连续注视图中灰度值最高的前5％、10％、15％区域置1，其余部分置0，生成高、中、低三个等级的二值注视图，即高阈值注视图GT_high、中阈值注视图GT_mid、低阈值注视图GT_low；

(3)将3000幅原始图像随机分为训练集和测试集，其中训练集占全部数据的80％，测试集占全部数据的20％；

(4)对深度残差网络Res-50进行修改，生成三个结构相同的全卷积神经网络；

(5)对上述三个全卷积神经网络进行训练：

5a)将原始图像做五级平均量化，即取值为0～50的像素点为第一级,取值为51～100的像素点为第二级，取值为101～150的像素点为第三级,取值为151～200的像素点为第四级,取值为201～255的像素点为第五级，得到量化后的图像；

5b)以原始图像为输入，用量化后的图像作为目标输出，对全卷积神经网络的参数进行调整；

5c)在训练集上，以原图像为输入，以5b)调整后得到的参数为初始权重，并分别以高阈值注视图GT_high、中阈值注视图GT_mid、低阈值注视图GT_low为目标输出，训练其对应的三个全卷积神经网络Net_high,Net_mid,Net_low；

(6)在测试集上，以原图像为输入，分别使用训练后的三个全卷积神经网络Net_high,Net_mid,Net_low进行预测，得到三种预测注视图P_high,P_mid,P_low，并对这三种预测注视图进行条件随机场融合。

本发明与现有技术相比具有以下优点：

1.初始化参数合理。

现有技术对深层神经网络参数初始化时，一般采用随机初始化或从ImageNet学习到的参数初始化，但由于极光图像与自然图像有很大的不同，这种初始化方法并不适用于极光图像。本发明使用从待分类图像中学习到的特征对卷积神经网络进行初始化，保证了初始化参数的合理性，在训练集上更容易收敛至全局最优解。

2.提高预测准确率。

本发明通过融合不同等级下的注视图预测结果，提高了注视图预测的准确率。

附图说明

图1是本发明的实现流程图；

图2是本发明对极光图像做五级量化后的结果图；

图3是本发明中的全卷积神经网络结构图；

图4是将连续注视图中灰度值的前10％，前15％和20％标记为注视区域后的结果示意图；

图5是本发明通过条件随机场融合三类输出结果形成的最终眼动信息预测图。

具体实施方式

下面结合附图对本发明的技术方案和效果做进一步的详细描述。

参照图1，本发明的实现步骤如下。

步骤1，构建全卷积神经网络。

现有的深度残差网络ResNet是一种经典的CNN结构模型，具有分类效果好、训练速度快的优点，但ResNet用于图像级别的分类，并不能在像素级别分类，因此本发明使用网络层数最少的Res-50为基本网络结构，对Res-50进行修改得到全卷积神经网络。

参照图2，Res-50的结构如下：Res-50包含五个“网络块”，每个“网络块”包含几个不同的“网络单元”，每个“网络单元”都包含几组交替出现的卷积层、正则化层和非线性激活层。第五个“网络块”后为一个平均池化层、一个1000维的全连接层和一个Softmax分类器。本发明基于Res-50生成全卷积神经网络，其步骤如下。

1.1)去掉Res-50的第五个“网络块”以减轻计算复杂度，同时保持一个合适的特征图大小；

1.2)去掉网络中的平均池化层，并将1000维的全连接层转换为有着1*1卷积核的卷积层；

1.3)额外添加一个包含2个1*1卷积核的卷积层，这一卷积层的作用是分别为注视区域和非注视区域生成特征图；

1.4)在1.3)添加的卷积层后添加一个反卷积层和“裁剪层”，以生成和原图尺寸一致的特征图；

1.5)在最后添加一个像素级的Softmax分类器，用来计算预测结果和目标输出之间的差值。

步骤2，对全卷积神经网络参数进行调整。

2.1)本发明将极光注视图做五级量化处理：即取值为0～50的像素点为第一级,取值为51～100的像素点为第二级，取值为101～150的像素点为第三级,取值为151～200的像素点为第四级,取值为201～255的像素点为第五级，得到量化后的图像，结果如图3所示；

2.2)以原图像为输入，以量化后的图像为目标输出，得到调整后的全卷积神经网络参数。

步骤3，对全卷积神经网络进行训练。

3.1)将连续注视图中灰度值最高的前5％、10％、15％区域置1，其余部分置0，生成高、中、低三个等级的二值注视图，即高阈值注视图GT_high、中阈值注视图GT_mid、低阈值注视图GT_low，结果如图4所示；

3.2)以原始图像为输入，以调整过的全卷积神经网络参数为初始权重，分别以GT_high、GT_mid、GT_low为目标输出，经过10万次迭代后，得到训练好的三个全卷积神经网络Net_high,Net_mid,Net_low。

步骤4，对原图像进行注视图预测。

在测试集上，以原图像为输入，分别使用训练好的三个全卷积神经网络Net_high,Net_mid,Net_low进行预测，得到三种预测注视图P_high,P_mid,P_low，即高阈值预测图P_high、中阈值预测图P_mid和低阈值预测图P_low。

步骤5，用条件随机场融合三种预测图P_high,P_mid,P_low。

5.1)以原图像中像素点为节点，构建4邻域邻接图；

5.2)为每一个节点分配特征向量

和一个目标输出y(i)，其中，

y(i)＝GT_high(i)+GT_mid(i)+GT_low(i)；

5.3)将特征为

输出Y＝{y_i|i∈I}的条件分布，视作条件随机场的代价函数，记为：

其中Z是常数项，Θ是条件随机场模型的参数，N_i是4邻接图中与像素i相连接的像素的集合，

是一元项，取决于三个分支的预测结果P_m(m∈{1,2,3})，定义为：

是条件随机场模型参数Θ的一个子集，P_m(i)是预测结果P_m在第i个像素点上的数值；

是二元项，其目的是对相邻像素点间的影响进行建模，将二元项

定义为：

其中

是条件随机场模型参数Θ的一个子集，y_i是目标输出在像素i上的值，1(y_i>y_j)表示当y_i>y_j时函数取值为1，当y_i<y_j时函数取值为0；1(y_i<y_j)表示当y_i<y_j时函数取值为1，当y_i>y_j时函数取值为0；

5.4)在训练集上最小化代价函数p(Y|X；Θ)，得到条件随机场的最优参数Θ；

5.5)在测试集上，使用训练后得到最优参数Θ的条件随机场，对三种预测注视图P_high、P_mid和P_low进行融合，得到最终注视图预测结果P，结果如图5所示。

本发明的效果可通过以下实验进一步说明。

实验条件：实验所用计算机配置为：Intel(R)Core(TM)i8CPU@3.5GHz,128GB内存，和单块NVIDIA GTX TITAN GPU。实验所运行的软件环境为64位Ubuntu14.04操作系统下安装的MatlabR2014b软件、Caffe深度学习工具包以及UGM无向图模型工具包。所有的网络训练均采用反向传播算法计算各层残差，并使用带有动能项和权重衰减项的随机梯度下降算法更新网络参数。

评价指标：shuffled AUC,JuddAUC,BorjiAUC,相似度指标(SIM),和基于分布的距离Earth Mover’s Distance(EMD)。

实验1：不同网络初始化方法对比

实验步骤：

1.1)使用两种不同的初始化方法对三个全卷积神经网络模型进行初始化，第一种初始化方法对网络参数进行随机初始化，第二种初始化方法首先以原图像为输入，以量化后的图像为目标输出，得到调整后的全卷积神经网络参数，然后使用调整后的网络参数作为全卷积神经网络的初始化参数；

1.2)在测试集上，首先计算三个全卷积神经网络Net_low、Net_mid、Net_high的注视图预测结果，然后使用上面提到的评价方法对预测结果进行定量评价。

实验结果如表1所示。

表1三个全卷积网络在不同初始化方法下预测结果对比

从表1可以看出，使用基于量化输出的参数调整方法初始化，网络性能在不同的网络分支中都获得了一定的提升。这一结果验证了基于量化输出的参数调整方法的有效性。

实验二：各分支预测结果及融合预测结果对比。

在本实验中，对各分支预测结果P_low、P_mid、P_high和使用条件随机场模型融合后的结果进行定性和定量的分析对比，结果如表2所示。

表2不同注视图预测结果定量对比

从表2可以看出，融合后的结果在各个性能评价指标上都有一定的提升，特别需要关注的是，融合后的结果在相似度指标SIM上较单分支网络有较大的提升。说明融合后的结果更加贴近根据眼动仪采集到的眼动数据所生成的专家眼动注视图。也就是说基于多级注视图的多分支预测网络更符合人类视觉注意机制。

实验三：不同注视图预测方法对比。

实验内容：本实验选择了近年来在自然图像眼动注视图预测中效果较好的11种方法iSEEL、MlNet、LDS、eDN、BMS、SS、SWD、SIM、FES、SER、SUN，与本发明所提方法DeepAF在极光专家眼动数据库上进行对比实验。其中iSEEL、MlNet、和eDN为基于深度网络的眼动注视图预测方法，其余方法为传统基于特征构建的预测方法。所用的训练集为随机选取的2400幅极光图像及其眼动数据，测试集为其余600幅极光图像及其眼动数据。

实验结果如表3。

表3不同方法预测结果对比

表3的结果表明：使用基于深度网络的眼动注视图预测方法性能优于传统基于特征的预测方法，这证明了深度神经网络不仅在自然图像的眼动注视图预测中有效，在极光图像的专家眼动注视图预测中也有着优异的性能；同时也可以看出本发明所提基于分级注视图和条件随机场的眼动注视图预测方法较其他方法在各项指标上都有一定的性能提升。

综上，使用本发明方法在极光专家眼动注视图预测上有着良好的性能；此外所提方法在相似性指标SIM上较其他方法的性能提升较大。