CN111144497B

CN111144497B - 基于美学分析的多任务深度网络下的图像显著性预测方法

Info

Publication number: CN111144497B
Application number: CN201911385418.8A
Authority: CN
Inventors: 张静; 吕锦成; 刘婧; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2023-04-28
Anticipated expiration: 2039-12-28
Also published as: CN111144497A

Abstract

一种基于美学分析的多任务深度网络下的图像显著性预测方法：设计多任务卷积神经网络；将AVA美学分析数据库和SALICON显著性数据库的图像同时输入到设计好的多任务卷积神经网络；定义多任务卷积神经网络的损失函数，通过反向传播算法最小化损失函数；将测试集的图像经过多任务卷积神经网络并通过softmax级联输出单张图片的显著性映射分布。本发明能够提高模型预测图像显著性的鲁棒性，避免了需要统一图像尺寸而造成的图像信息结构破坏，大幅提高了图像显著性映射分布预测的精度，改善了传统方法缺少融合和关联人类视觉美学信息的问题。

Description

基于美学分析的多任务深度网络下的图像显著性预测方法

技术领域

本发明涉及一种图像显著性预测方法。特别是涉及一种基于美学分析的多任务深度网络下的图像显著性预测方法。

背景技术

随着计算机技术和通信技术的飞速发展，计算机视觉与人类视觉系统领域涌现出纷繁复杂的信息，其中图像是重要载体，而如何对视觉图像中的目标检测和识别成为一个重要的研究问题^[1]。显著性映射作为目标检测和识别中重要的预处理步骤，已经引起足够的重视并成为了一项独立研究的课题。所谓显著性映射技术，即是聚焦图像中引起人眼注意的区域。

目前显著性映射的流行算法通过使用单独的端到端分层模型来预测显着性图，着重于使用目前目标检测领域新的卷积神经网络模型和研究合适的损失函数，一般只关注显著性映射任务的专有数据库本身，而这样的数据库的创建本身是艰难的且稀少的。比较接近跨域跨数据集的方法，主要将网络模型在诸如ImageNet图像分类挑战任务中进行预训练，然后利用已经预训练的骨架网络对显著性映射任务进一步训练，而鲜有能针对性迁移人类视觉美学先验知识来训练显著性映射任务。而研究表明，视觉注意力与视觉美学之间存在很强的相关性。Lind等人发现美学对象引起了人们的注意^[2]，因为它们很有趣。同样，根据Coe的研究，美学被用作创造物体或人的注意力的手段^[3]。这些研究表明，视觉美学可能是帮助确定视觉注意力的关键，比如图像的布局和组成决定了图像美学和显着性，即位于图像的黄金分割点的目标，会影响人类图像美学的评估，吸引人类的注意力；图像颜色的协调，清晰的前景和模糊的背景和图像纹理的组合影响美学和显着性等等。

发明内容

本发明所要解决的技术问题是，提供一种能够提高图像显著性映射精度的基于美学分析的多任务深度网络下的图像显著性预测方法。

本发明所采用的技术方案是：一种基于美学分析的多任务深度网络下的图像显著性预测方法，包括如下步骤：

1)设计多任务卷积神经网络；

2)将AVA美学分析数据库和SALICON显著性数据库的图像同时输入到设计好的多任务卷积神经网络；

3)定义多任务卷积神经网络的损失函数，通过反向传播算法最小化损失函数；

4)将测试集的图像经过多任务卷积神经网络并通过softmax级联输出单张图片的显著性映射分布。

步骤1)所述的多任务卷积神经网络，包括：

(1)采用VGG16网络前13层的卷积层，其中，每层卷积滤波器的大小为3*3，步长为1，在第2、4、7、10层卷积层后面都有Maxpooling层用以降低特征图的尺寸，构成共享卷积部分，用以融合两个不同任务的数据的特征；

(2)在共享卷积部分后面设计两个分支，一个为美学分支，另一个为显著性分支，每个分支有各自的卷积神经网络，其中：

美学分支上，首先将共享部分的输出特征经过自适应空间池化，使得每个通道均分为9块，不同的特征在自适应空间池化后固定为相同尺度的特征，将相同尺度的特征展开为一维；再依次通过输出长度为4096和10的两个全连接层；最后加上Softmax操作；

显著性分支上，将共享部分的输出特征依次经过3层卷积滤波器处理，每个滤波器的大小为7*7，步长为1，3层卷积滤波器输出的特征通道数依次为32、8和1，再经过上采样和Softmax操作；

在多任务卷积神经网络中，每层卷积或全连接操作后都接ReLU激活函数。

步骤2)首先将AVA美学数据库按照7：2：1的比例划分为训练集、测试集和验证集；SALICON显著性数据库的图像已划分为训练集、测试集和验证集；其中，训练集用于多任务卷积神经网络参数的设定，验证集主要用于调整多任务卷积神经网络中的超参数，而测试集则用于判定多任务卷积神经网络的好坏；将训练集的图像输入到多任务卷积神经网络中，输入的方法是交替输入，即输入一张AVA美学数据库的图像，再输入一张SALICON显著性数据库的图像，以此重复。

步骤3)包括：

定义AVA美学数据库训练集和验证集图像I_a,I_a∈A和SALICON显著性数据库训练集和验证集图像I_s,I_s∈S，通过多任务卷积神经网络之后的输出分别定义为a和s，a_j和

分别是输出a和真实标签

的美学打分分布第j个位置值，s_i和

分别代表输出s和真实值

的最后一层响应图第i个像素值；

多任务卷积神经网络的训练过程，是对于给定的集合X＝{x_i,x_i＝I_a∨I_s}，通过反向传播算法去不断调整超参数，以达到最小化损失函数的目的，损失函数为：

其中，C₁是显著性分支的损失函数，C₂是美学分支的损失函数，N是最后一个响应图的总像素数；γ遵从大多数工作的设置，为2；M是分布长度，在这里为10；

最小化损失函数的问题看作为：

其中，超参数σ用来调整两个损失函数C₁和C₂的尺度，保证训练时收敛速度一致，超参数σ为经验值；多任务卷积神经网络的参数R通过标准反向传播不断去更新；由于R分为共享结构参数R_share和分支结构参数R_a和R_s，因此在训练过程中交替的去训练R_share、R_a和R_share、R_s，最终找到最优解。

本发明的基于美学分析的多任务深度网络下的图像显著性预测方法，有益效果是：

1、通过本发明的方法迁移学习和显著性有关联的美学分析数据库，能够提高模型预测图像显著性的鲁棒性；

2、本发明的方法针对基于美学分析的图像显著性映射分布图设计了全新的多任务神经网络，其中美学支路中自适应空间池化以及显著性支路中全卷积结构，更是可以支持任意尺度的图像输入，避免了需要统一图像尺寸而造成的图像信息结构破坏；

3、本发明的方法大幅提高了图像显著性映射分布预测的精度，改善了传统方法缺少融合和关联人类视觉美学信息的问题。

附图说明

图1是本发明的基于美学分析的多任务深度网络下的图像显著性预测方法的流程图；

图2是本发明的多任务卷积神经网络示意图。

具体实施方式

下面结合实施例和附图对本发明的基于美学分析的多任务深度网络下的图像显著性预测方法做出详细说明。

如图1所示，本发明的基于美学分析的多任务深度网络下的图像显著性预测方法，包括如下步骤：

1)设计多任务卷积神经网络；所述的多任务卷积神经网络，包括：

首先将AVA美学数据库按照7：2：1的比例划分为训练集、测试集和验证集；SALICON显著性数据库的图像已划分为训练集、测试集和验证集；其中，训练集用于多任务卷积神经网络参数的设定，验证集主要用于调整多任务卷积神经网络中的超参数，而测试集则用于判定多任务卷积神经网络的好坏；将训练集的图像输入到多任务卷积神经网络中，输入的方法是交替输入，即输入一张AVA美学数据库的图像，再输入一张SALICON显著性数据库的图像，以此重复。

3)定义多任务卷积神经网络的损失函数，通过反向传播算法最小化损失函数；包括：

分别是输出a和真实标签

的美学打分分布第j个位置值，s_i和

分别代表输出s和真实值

的最后一层响应图第i个像素值；

最小化损失函数的问题看作为：

在最小化损失函数后，神经网络最后一层通过softmax级联输出单张图片的显著性映射分布。一般而言，损失值越小，其得分将更加准确。

Softmax函数的表达式如下：

对于显著性分支的输出x，o_i表示的就是第i处的输出值，S(o_i)表示softmax处理的最终分布的值，显然∑S(o_i)＝1，这样便可得到最终的显著性映射分布。

综上所述，本发明的基于美学分析的多任务深度网络下的图像显著性预测方法设计了全新的多任务卷积神经网络结构，结合了人类视觉美学信息，提高了显著性预测的精度。

下面结合具体的试验对本发明的基于美学分析的多任务深度网络下的图像显著性预测方法进行可行性验证，详见下文描述：

表1对本实施例中的方案进行了可行性验证，采用sAUC(shuffled AUC)和AUC-Judd来衡量本方法的性能。AUC-Judd调整显著性映射图中的阈值从0到1上升，来计算真实显著性固定点为真阳性(True Positive,TP)或假阳性(False Positive,FP)的数目，从而绘制ROC(Receive Operator Curve)曲线，该曲线下的面积称为AUC-Judd^[6]。sAUC^[7]为减轻了随机阴性样本导致中心偏差的影响，将其他图像的真实显著性固定点计算在内。其中，ROC曲线的横轴与纵轴分别为假正类率(false postive rate,FPR)和真正类率(TruePositive Rate,TPR)，计算如下：

其中，TP、FP、TN(True Negative)和FN(False Negative)的混淆矩阵表示如表2。

一般而言，AUC-Judd和sAUC越大，算法性能越好。由表1可知，本方法相较于目前现有方法，效果要好。

表1

方法	sAUC	AUC-Judd
			Itti	0.73	0.77
GVBS	0.66	0.83
			eDN	0.66	0.85
Deeo-Net	0.73	0.86
			Mr-CNN	0.73	0.80
本方法	0.74	0.86

表2

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献：

[1]Grauman,K and Leibe B,Visual object recognition[M].Synthesislectures on artificial intelligence and machine learning,2011,5(2),1-181.

[2]Richard W L,Attention and the aesthetic object[J].The Journal ofAesthetics and Art Criticism,1980,39(2):131–142.

[3]Kathryn C.Art:The replicable unitan inquiry into the possibleorigin of art as a social behavior[J].Journal of Social and EvolutionarySystems,1992,15(2):217–234.

[4]PerronninF,Marchesotti L,Murray N.AVA:A large-scale database foraesthetic visual analysis[C].2012 IEEE Conference on Computer Vision andPattern Recognition.IEEE Computer Society,2012.

[5]Ming J,Huang S,Duan J,et al.SALICON:Saliency in Context[C].Computer Vision&Pattern Recognition.2015

[6]Riche N,Duvinage M,Mancas M,et al.Saliency and Human Fixations:State-of-the-Art and Study of Comparison Metrics[C].International Conferenceon Computer Vision.IEEE,2013.

[7]Borji A,Tavakoli H R,Sihite D N,et al.Analysis of Scores,Datasets,and Models in Visual Saliency Prediction.[C].International Conference onComputer Vision.IEEE,2014.

Claims

1.一种基于美学分析的多任务深度网络下的图像显著性预测方法，其特征在于，包括如下步骤：

在多任务卷积神经网络中，每层卷积或全连接操作后都接ReLU激活函数；

2.根据权利要求1所述的基于美学分析的多任务深度网络下的图像显著性预测方法，其特征在于，步骤2)首先将AVA美学数据库按照7：2：1的比例划分为训练集、测试集和验证集；SALICON显著性数据库的图像已划分为训练集、测试集和验证集；其中，训练集用于多任务卷积神经网络参数的设定，验证集主要用于调整多任务卷积神经网络中的超参数，而测试集则用于判定多任务卷积神经网络的好坏；将训练集的图像输入到多任务卷积神经网络中，输入的方法是交替输入，即输入一张AVA美学数据库的图像，再输入一张SALICON显著性数据库的图像，以此重复。

3.根据权利要求1所述的基于美学分析的多任务深度网络下的图像显著性预测方法，其特征在于，步骤3)包括：

分别是输出a和真实标签

的美学打分分布第j个位置值，s_i和

分别代表输出s和真实值

的最后一层响应图第i个像素值；

最小化损失函数的问题看作为：