CN110287981A

CN110287981A - 基于生物启发性表征学习的显著性检测方法及系统

Info

Publication number: CN110287981A
Application number: CN201910380958.0A
Authority: CN
Inventors: 黄举; 宁海龙; 刘康; 吴思远; 李西杰
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-09-27
Anticipated expiration: 2039-05-08
Also published as: CN110287981B

Abstract

本发明公开了基于生物启发性表征学习的显著性检测方法及系统，解决现有深度学习方法预测精度不高的难题。方法实现步骤是：首先划分训练集，验证集和测试集；然后提取训练集和验证集的图像中高水平语义特征与低水平对比度特征；然后融合提取的高水平语义和低水平对比度特征；再以真实视觉注意力图为监督信息，利用加权融合层生成视觉注意力图；再对验证集计算性能验证指标，判断模型是否训练完成；最后统计实验结果，在测试集上计算相关指标分数。本发明同时利用了影响人类视觉注意的高水平语义特征和低水平对比度特征，并首次将低水平对比度特征提取步骤集成到整个深度网络框架中，可用于场景理解、目标识别、图像质量评估以及视频压缩等任务。

Description

基于生物启发性表征学习的显著性检测方法及系统

技术领域

本发明属于信息处理技术领域，特别涉及一种显著性检测技术，可用于场景理解、目标识别、图像质量评估以及视频压缩等任务。

背景技术

随着移动互联网的快速发展，数据正在爆炸，大数据时代已经来临。我们每天都要处理大量信息，其中视觉信息占其中的80％以上。为了从海量数据中快速获取最有价值的信息，显著性检测为其提供了有效的解决思路。显著性方法的研究可分为两个方向：人眼视觉注意力预测和显著性目标检测。前者用于预测人类乍看之下的眼睛注视位置，后者用于检测观察场景中的显著目标。

目前，大量的人眼视觉注意力预测方法已经被提出。根据采用的特征类型，这些视觉注意力预测方法可以主要分为两类。

一是基于低水平对比度特征的方法，这种方法通过手动提取颜色、亮度、方向和其他视觉特征，计算中心区域和周围区域之间的差异作为对比度来预测视觉注意力图。L.Itti等人在其文献“A model of saliency-based visual attention for rapid sceneanalysis.IEEE Transactions on Pattern Analysis and Machine Intelligence,20(11):1254–1259,2002”中提出一种方法，该方法首先提取输入图片不同尺度的颜色、亮度和方向特征，然后对不同尺度的特征进行跨尺度减操作，从而得到多张包含局部中心和周边背景差异信息的特征图，最终将这些特征图进行线性组合便得到最终的视觉注意力预测图。这种基于低水平对比度特征的视觉注意力预测方法虽然非常直观，并且容易解释，但是不能充分考虑场景中的高级语义元素，因此具有一定的局限性。

二是基于高水平语义特征的方法，这种方法利用预训练的深度神经网络模型提取包含人眼比较敏感的高级语义元素(如人脸、文本、眼睛等)的信息作为高水平语义特征，再以真实视觉注意力图为监督信息进一步微调得到最终的视觉注意力预测图。S.Kruthiventi等人在其文献“DeepFix:A fully convolutional neural network forpredicting human eye fixations.IEEE Transactions on Image Processing,26(9):4446–4456,2017”中提出一种方法，该方法首先通过堆叠的卷积块提取输入图像的高水平语义特征，并进一步使用Inception模块并行处理得到包含不同尺度信息的语义特征，最终通过融合得到最终的视觉注意力预测图。这种方法使用学习的形式进行，可以自动地捕获图像的高水平语义特征，因此预测精度得到大大提升。然而，这种方法忽略了在视觉注意认知中起着重要作用的低级对比度特征的贡献，因此可能存在一定缺陷。

发明内容

为了解决目前人眼视觉注意力预测方法中的不足，本发明提出一种基于生物启发性表征学习的显著性检测方法。该方法同时利用了影响人类视觉注意的高水平语义特征和低水平对比度特征，并首次将低水平对比度特征提取步骤集成到整个深度网络框架中。

本发明的技术解决方案为提供一种基于生物启发性表征学习的显著性检测方法，包括以下步骤：

步骤1、划分训练样本集、验证样本集和测试样本集；

分别在现有多个图像数据库中选取图片作为原始数据集，所述原始数据集包括训练样本集、验证样本集及测试样本集；所述训练样本集和验证样本集均包括原始图片及与原始图片对应的真实视觉注意力图；所述测试样本集包括原始图片、与原始图片对应的真实视觉注意力图及离散真实视觉注意点图；

步骤2、分别对训练图片及验证图片提取影响视觉注意力的高水平语义特征和低水平对比度特征；

(2a)、输入训练样本集中的训练图片及验证样本集中的验证图片；

(2b)、通过改进的VGG16提取输入图片的高水平语义特征{F₃,F₄,F₅}；

(2c)、通过对比度特征提取模块在深度网络中提取输入图片的低水平对比度特征{F₁,F₂}；

步骤3、通过密集连接模块融合输入图片的高水平语义和低水平对比度特征，该输入图片包括训练图片及验证图片，根据下式得到对应的特征表征G_j；

其中，代表resize-convolution操作，和分别是j-1和j-2次resize-convolution和reduction-attention操作的级联运算，和分别是F_i和F_J经过和之后的激活结果，表示从第i个分支到第j个分支之间短连接的权重；

步骤4、根据得到的输入图片的特征表征G_j，以对应的真实视觉注意力图为监督信息，利用加权融合层生成最终的视觉注意力预测图；所述视觉注意力预测图包括验证样本集上的视觉注意力预测图及训练样本集上的视觉注意力预测图；

步骤5、将获得的验证样本集上的视觉注意力预测图和与原始图片对应的真实视觉注意力图之间的KL散度作为是否停止训练模型的性能验证指标；

当性能验证指标开始下降或者训练轮数达到设定次数时，停止训练，进入步骤6；否则，返回步骤2，继续训练；

步骤6、向训练好的模型中输入测试图片，得到对应的视觉注意力图，并统计实验结果，计算相关指标分数。

进一步地，步骤(2b)中所述改进的VGG16为：一方面，考虑到本方法要利用的是特征图，原始VGG16网络中所有全连接层都被去掉，包含原始VGG16网络中的前四个卷积块和第五个卷积块中的所有卷积层。另一方面，为了避免得到的特征映射太小，原始VGG16网络中第四个卷积块里的池化层步幅被设置为1，同时在第五个卷积块中使用空洞尺寸大小为2的扩张卷积核来保持和原始VGG16网络相同的感受野。

进一步地，步骤(2c)具体为：首先，输入的低水平特征被在所有通道上以平均方式被压缩为单个通道得到特征强度图；其次，采用五个不同标准差的高斯核对得到特征强度图进行处理得到5个通道的高斯金字塔特征；第三，对高斯金字塔特征的每个通道和原始输入的低水平特征的每个通道进行逐像素作差来计算残差特征；第四，通过对这些残差特征每个像素值作平方得到平方残差特征；最后，对平方残差特征和高斯金字塔特征进行自适应融合来获得最终的低水平对比度特征{F₁,F₂}。

进一步地，练样本集和验证样本集中的图片样本采集自SALICON数据集；测试样本集中的图片样本采集自MIT1003、OSIE、TORONTO和PASCAL-S数据集。

进一步地，设定次数为100次。

本发明还提供一种基于生物启发性表征学习的显著性检测系统，包括处理器及存储器，其特殊之处在于：所述存储器中存储计算机程序，计算机程序在处理器中运行时，执行基于生物启发性表征学习的显著性检测方法。

本发明还提供一种计算机可读存储介质，其特殊之处在于：储存有计算机程序，计算机程序被执行时实现基于生物启发性表征学习的显著性检测的方法。

本发明的有益效果是：

1、本发明综合利用了影响人眼视觉注意的高水平语义特征和低水平对比度特征来预测人眼视觉注意力图，避免了只采用低水平对比度特征预测的局限性及只采用高水平语义特征预测的缺陷，极大地提高了人眼视觉注意力预测的精度。

2、本发明提出的对比度特征提取模块可以用于在神经网络中实现低水平对比度特征的提取，避免了传统的手工对比度特征提取的不足。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例描述中所需要的各个模块作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的流程图，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这个附图进行扩展，并获得其他的附图。

图1为本发明的流程图；

图2为本发明的训练过程示意图；

图3为本发明在MIT1003数据集上和其他方法对比的可视化结果。

图4为本发明在OSIE、TORONTO和PASCAL-S数据集上运行得到的可视化结果。

具体实施方式

参照图1，本发明实现的步骤如下：

步骤1，划分训练样本集、验证样本集和测试样本集。

(1a)在SALICON数据集中选取10000张训练图片和对应的真实视觉注意力图作为训练样本集D_tr；

(1b)在SALICON数据集中选取5000张验证图片和对应的真实视觉注意力图作为验证样本集D_val；

(1c)选取MIT1003、OSIE、TORONTO和PASCAL-S数据集中的所有图片和对应的真实视觉注意力图，以及离散真实视觉注意点图为测试样本集D_te。

步骤2，对于输入的训练图片和验证图片，提取影响视觉注意力的高水平语义特征和低水平对比度特征。

(2b)通过改进的VGG16提取输入图片的高水平语义特征{F₃,F₄,F₅}；改进的VGG16具体为：一方面，考虑到本方法要利用的是特征图，原始VGG16网络中所有全连接层都被去掉。另一方面，为了避免得到的特征映射太小，原始VGG16网络中第四个卷积块里的池化层步幅被设置为1，同时在第五个卷积块中使用空洞尺寸大小为2的扩张卷积核来保持和原始VGG16网络相同的感受野。

(2c)通过提出的对比度特征提取模块在深度网络中提取输入图片的低水平对比度特征{F₁,F₂}。

首先，输入的低水平特征被在所有通道上以平均方式被压缩为单个通道得到特征强度图；其次，采用五个不同标准差的高斯核对得到特征强度图进行处理得到5个通道的高斯金字塔特征；第三，对高斯金字塔特征的每个通道和原始输入的低水平特征的每个通道进行逐像素作差来计算残差特征；第四，通过对这些残差特征每个像素值作平方得到平方残差特征；最后，对平方残差特征和高斯金字塔特征进行自适应融合来获得最终的低水平对比度特征{F₁,F₂}。

步骤3，通过提出的密集连接模块融合输入图片的高水平语义和低水平对比度特征，具体而言，更高水平的特征每经过一次上采样得到的特征被融合到更低水平的特征上。通过密集连接模块可以将不同层次的特征重复利用，从而更好地利用这些特征进行视觉注意力的预测。融合方式如下式所示，得到对应的特征表征G_j。

其中，代表resize-convolution操作，和分别是j-1和j-2次resize-convolution和reduction-attention操作的级联运算，和分别是F_i和F_J经过和之后的激活结果，表示从第i个分支到第j个分支之间短连接的权重。注意，

步骤4，根据得到的特征表征G_j，以对应的真实视觉注意力图为监督信息，利用加权融合层生成最终的视觉注意力预测图。

步骤5，判断模型是否停止训练。

(5a)根据验证样本集上的视觉注意力预测图，计算得到的验证样本集上的视觉注意力预测图和对应的真实视觉注意力图之间的KL散度，并将KL散度作为模型性能验证指标；

(5b)当性能验证指标开始下降或者训练轮数达到100次，停止训练，保存训练好的模型，否则重复步骤(2)-(4)，进行训练。

步骤6，测试网络。

向训练好的模型中输入测试图片，得到对应的视觉注意力图(显著图)，并统计实验结果，计算CC、sAUC、AUC-Judd、AUC-Borji、NSS和EMD等指标分数。

本发明的效果可以通过以下实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Intel(R)Xeon(R)CPU E5-2650V4@2.20GHz、内存500G、Ubuntu 14操作系统上，运用Python及其他相关工具包进行的仿真。

实验中使用的训练和测试的数据库为SALICON、OSIE、TORONTO、PASCAL-S和MIT1003数据集。其样例如图3-4所示。

2.仿真内容

在SALICON数据集上，进行模型的训练和验证；在OSIE、TORONTO、PASCAL-S和MIT1003数据集上完成测试。为了证明本发明算法(基于生物启发性表征学习的显著性检测方法及系统)的有效性，综合考虑算法的流行性、崭新性，我们选取了6个经典方法ITTI、JUDD、BMS、GBVS、CAS和AWS，以及8个深度学习方法SAM-VGG、SAM-ResNet、DVA、SU、Mr-CNN、eDN、JN和DeepFix进行比较。其中ITTI是在文献“L.Itti,C.Koch,and E.Niebur,A modelof saliency-based visual attention for rapid scene analysis,IEEE Transactionson Pattern Analysisand Machine Intelligence,20(11):1254–1259,2002.”中提出来的。JUDD是在文献“T.Judd,K.Ehinger,F.Durand,and A.Torralba,Learning to predictwhere humans look,in IEEE International Conference on ComputerVision,2010,pages 2106–2113.”中提出来的。BMS是在文献“S.S.S.Kruthiventi,V.Gudisa,J.H.Dholakiya,and R.V.Babu,Saliency unified:A deep architecture forsimultaneous eye fixationprediction and salient object segmentation,in IEEEConference onComputer Vision and Pattern Recognition,2016,pages 5781–5790.”中提出来的。GBVS是在文献“B.Scholkopf,J.Platt,and T.Hofmann,Graph-based visualsaliency,in International Conference on Neural Information ProcessingSystems,2006,pages 545–552.”中提出来的。CAS是在文献“S.Goferman,L.Zelnik-Manor,and A.Tal,Context-aware saliency detection,in IEEE Conference on ComputerVision and Pattern Recognition,2010,pages 2376–2383.”中提出来的。AWS是在文献“A.Garcia-Diaz,V.Leboran,X.R.Fdez-Vidal,and X.M.Pardo,Onthe relationshipbetween optical variability,visual saliency,and eyefixations:A computationalapproach,Journal of Vision,12(7):17,2012.”中提出来的。SAM-VGG和SAM-ResNet是在文献“M.Cornia,L.Baraldi,G.Serra,and R.Cucchiara,Predicting humaneye fixationsvia an LSTM-based saliency attentive model,IEEETransactions on ImageProcessing,27(10):5142–5154,2018”中提出来的。DVA是在文献“W.Wang and J.Shen,Deep visual attention prediction,IEEE Transactions on Image Processing,27(5):2368–2378,2018.”中提出来的。SU是在文献“J.Pan,E.Sayrol,X.Giroinieto,K.Mcguinness,and N.E.Oconnor,Shallow and deep convolutional networks forsaliency prediction,inIEEE Conference on Computer Vision and PatternRecognition,2016,pages 598–606.”中提出来的。Mr-CNN是在文献“N.Liu,J.Han,T.Liu,and X.Li,“Learning to predict eye fixationsvia multiresolution convolutionalneural networks,”IEEE Transactionson Neural Networks and Learning Systems,29(2):392–404,2018.”中提出来的。eDN是在文献E.Vig,M.Dorr,and D.Cox,“Large-scaleoptimization of hierarchicalfeatures for saliency prediction in naturalimages,in IEEE Conferenceon Computer Vision and Pattern Recognition,2014,pages 2798–2805.”中提出来的。JN是在文献“J.Pan,E.Sayrol,X.Giroinieto,K.Mcguinness,and N.E.Oconnor,Shallow and deep convolutional networks forsaliency prediction,inIEEE Conference on Computer Vision and PatternRecognition,2016,pages 598–606.”中提出来的。DeepFix是在文献“K.Sss,K.Ayush,andR.V.Babu,“DeepFix:A fully convolutionalneural network for predicting humaneye fixations.”IEEE Transactionson Image Processing,26(9):4446–4456,2017.”中提出来的。

计算本发明在OSIE、TORONTO、PASCAL-S和MIT1003数据集上的关于CC、

sAUC、AUC-Judd、AUC-Borji、NSS和EMD等指标分数，其结果如表1-4所示。

表1在OSIE数据集上的指标分数

表2在TORONTO数据集上的指标分数

表3在PASCAL-S数据集上的指标分数

表4在MIT1003数据集上的指标分数

根据表1-4的结果可以看出，相比与其他方法，本发明在4个测试集上都取得了最先进的结果，因此本方法比其他方法更有效，更鲁棒。根据图3-4的可视化结果可以看出，本方法所预测的视觉注意力图非常接近于GroundTruth，从而进一步说明本方法是非常有效的。

Claims

1.基于生物启发性表征学习的显著性检测方法，其特征在于，包括以下步骤：

步骤1、划分训练样本集、验证样本集和测试样本集；

2.根据权利要求1所述的基于生物启发性表征学习的显著性检测方法，其特征在于，步骤(2b)中所述改进的VGG16为：包含原始VGG16网络中的前四个卷积块和第五个卷积块中的所有卷积层，同时，第四个卷积块中的池化层步幅被设置为1，第五个卷积块中使用空洞尺寸大小为2的扩张卷积核来保持和原始VGG16网络相同的感受野。

3.根据权利要求2所述的基于生物启发性表征学习的显著性检测方法，其特征在于，步骤(2c)具体为：首先，输入的低水平特征被在所有通道上以平均方式被压缩为单个通道得到特征强度图；其次，采用五个不同标准差的高斯核对得到特征强度图进行处理得到5个通道的高斯金字塔特征；第三，对高斯金字塔特征的每个通道和原始输入的低水平特征的每个通道进行逐像素作差来计算残差特征；第四，通过对这些残差特征每个像素值作平方得到平方残差特征；最后，对平方残差特征和高斯金字塔特征进行自适应融合来获得最终的低水平对比度特征{F₁,F₂}。

4.根据权利要求1所述的基于生物启发性表征学习的显著性检测方法，其特征在于：练样本集和验证样本集中的图片样本采集自SALICON数据集；测试样本集中的图片样本采集自MIT1003、OSIE、TORONTO和PASCAL-S数据集。

5.根据权利要求1所述的基于生物启发性表征学习的显著性检测方法，其特征在于：设定次数为100次。

6.一种基于生物启发性表征学习的显著性检测系统，包括处理器及存储器，其特征在于：所述存储器中存储计算机程序，计算机程序在处理器中运行时，执行权利要求1至5任一所述的方法。

7.一种计算机可读存储介质，其特征在于：储存有计算机程序，计算机程序被执行时实现权利要求1至5任一所述的方法。