CN110443784A

CN110443784A - 一种有效的显著性预测模型方法

Info

Publication number: CN110443784A
Application number: CN201910626405.9A
Authority: CN
Inventors: 张朋; 苏荔; 黄庆明; 李国荣; 李亮
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-12
Anticipated expiration: 2039-07-11
Also published as: CN110443784B

Abstract

本发明涉及信息工程的技术领域，特别是涉及一种有效的显著性预测模型方法，提高模型速度，训练更有效率；包括以下步骤：(1)选择训练好的精度较高的显著性预测模型作为教师网络；(2)设计模型参数量更少的网络结构作为学生网络；(3)采用知识蒸馏的方式，通过教师网络指导学生网络进行学习，使之达到相当的精度；(4)学生网络再进行自主学习，进行微调。

Description

一种有效的显著性预测模型方法

技术领域

本发明涉及信息工程的技术领域，特别是涉及一种有效的显著性预测模型方法。

背景技术

视觉系统是人类认识和感知世界最重要的信息来源，人眼每天都在实时地接收并高效处理复杂的视觉输入信息。认知神经学的研究表明，由于大脑有限的容量，在处理复杂的视觉数据时，人类视觉系统就像一个过滤器，能够迅速将有限的神经计算资源分配给场景中的关键部分，选择关键的信息进行后续的处理，其它的信息被舍弃。这种机制称为视觉注意力机制。它反映了人眼对视觉信息的处理机制。受视觉注意力机制的启发，在计算机视觉领域，视觉显著性研究在最近二十多年得到了快速的发展，并与其它技术相互促进。

显著性预测能够从复杂的场景中快速准确地定位图像中最显著的目标或区域，识别后的显著性结果在图像裁剪、目标跟踪、图像分割、视频压缩等计算机视觉领域中都有着广泛的应用。一般地，显著性预测方法分为基于传统方法的显著性预测和基于深度学习的显著性预测方法。在传统的显著性预测方法中，研究者大都先将图片过分割，然后模拟人类视觉注意机制，抽象出用来满足相应条件下能表现出区域是背景还是前景的先验假设，基于这些先验假设得到特征表示，进而对图像进行建模求解预测结果。这些先验假设包括全局对比假设、空间分布假设、稀疏假设、中心偏向、背景先验等。另外还有从决策论、图论、频域等角度设计算法进行预测。传统的显著性目标预测算法使用的是手工特征，虽然手工特征可以达到实时预测的性能，但需要人为地提供先验假设，设计特征选取的方式，故在精度和鲁棒性上还存在欠缺。近几年，基于深度学习的显著性预测方法发展起来。这些方法依托于深度神经网络的多卷积层结构，对底层视觉特征和高层语义特征进行有效的提取。常见的基于深度学习的显著性预测方法有：

1.基于全连接神经网络的显著性预测方法，例如：LEGS(Deep Networks forSaliency Detection via Local Estimation and Global Search)、MC(SaliencyDetection by Multi-Context Deep Learning)等。

2.基于全卷积神经网络(FCN)的显著性预测方法，随着全卷积网络的提出，大量基于全卷积神经网络的显著性预测模型被提出，并取得不错的效果。例如：DSS(DeeplySupervised Salient Object Detection with Short Connections)、Amulet(Amulet:Aggregating Multi-level Convolutional Features for Salient Object Detection)等。

3.基于循环微调的显著性预测方法，通过不断循环微调的方式，得到更好的显著性预测的结果。例如：R³Net(R³Net:Recurrent Residual Refinement Network forSaliency Detection)、RA(Reverse Attention for Salient Object Detection)等。

目前在已有数据集上的显著性预测模型精度已经较高，但模型较复杂，时间复杂度较高。显著性预测希望为其它任务，如图像裁剪、图像压缩等任务提供更好的预处理，如果显著性预测模型太复杂，不仅无法起到辅助作用，反而会降低模型的性能。另外，目前已经存在的模型大都是在预训练的模型上微调，基础骨架网络受到很大限制，缺少灵活性。

发明内容

为解决上述技术问题，本发明提供一种提高模型速度，训练更有效率的有效的显著性预测模型方法。

本发明的一种有效的显著性预测模型方法，包括以下步骤：

(1)选择训练好的精度较高的显著性预测模型作为教师网络；

(2)设计模型参数量更少的网络结构作为学生网络；

(3)采用知识蒸馏的方式，通过教师网络指导学生网络进行学习，使之达到相当的精度；

(4)学生网络再进行自主学习，进行微调。

本发明的一种有效的显著性预测模型方法，所述步骤(3)进一步包括以下步骤：

(31)计算教师网络和学生网络对应的每一个卷积层的一阶统计信息；

(32)计算教师网络和学生网络对应的每一个卷积层的二阶统计信息；

(33)计算教师网络和学生网络对应的一阶统计信息之间的损失，计算教师网络和学生网络对应的二阶统计信息之间的损失；

(34)计算教师网络输出结果与学生网络输出结果之间损失；

(35)对学生网络进行训练，使总的损失达到最小。

本发明的一种有效的显著性预测模型方法，所述步骤(35)中涉及到的总的损失是一阶统计信息之间损失、二阶统计信息之间损失和输出结果之间损失的加权和。

本发明的一种有效的显著性预测模型方法，所述步骤(4)进一步包括以下步骤：

(41)计算学生网络输出图像与人工标注的图像之间的损失；

(42)对学生网络训练，使损失达到最小。

与现有技术相比本发明的有益效果为：和现有技术相比减少了模型参数量，提高了模型速度，并能够使学生网络和教师网络达到相当的精度水平，使其能更有效率地应用到其它应用中。

附图说明

图1是本发明的结构示意图；

图2是一阶统计的计算流程图；

图3是二阶统计的计算流程图；

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例：

选择目前常用的精度较高的显著性预测模型作为教师网络，选取全卷积网络、U型网络分别实施本发明所述方法。

设计模型参数量更少的网络结构作为学生网络。显著性预测的结果是一个二值分割图，需要底层特征和高层特征的融合，为了保留教师网络有效利用高低层特征的网络结构，在这里，本发明采用减少每个卷积层通道数的方法，减少网络参数量。本发明采用将学生网络通道数减少为教师网络二分之一的通道数和减少为教师网络四分之一的通道数两种情况。

目前的显著性预测模型都基于预训练的模型进行微调，如果减少了模型通道数，无法使用预训练的模型，需要重新从头开始训练模型，这样很难收敛到最优点。而预训练一个模型需要很长的时间和资源开销。为了解决这一问题，本发明采用知识蒸馏的方法，通过训练好的精度较高的教师网络指导参数量更少的随机初始化的学生网络进行学习。关于目前大多数基于深度学习的方法使用预训练的模型，本领域普通技术人员可以理解。

本发明包括两个阶段，第一个阶段是知识蒸馏，第二个阶段是学生网络的自学习。对于知识蒸馏的方法，如果直接让教师网络每层的特征和学生网络对应的特征逼近，就需要解决通道数不一致的问题。常见的做法是增加卷积层，这样会增加训练的复杂度。另外，直接在高维空间优化随机初始化的网络比较困难。所以本发明计算两种统计信息，分别是一阶统计信息和二阶统计信息。通过度量函数，逼近两者之间的统计值，使两个网络达到相当的水平。本发明的度量函数选择欧氏距离。两种统计信息的计算过程进一步为：

对于一阶统计信息，本发明采用在通道维度上全局池化的方式来计算，可参考附图2所示。计算过程为：

其中，A_t(i,j)和A_s(i,j)分别为教师网络和学生网络的一阶统计信息，F_t(c,i,j)和F_s(c,i,j)分别为教师网络和学生网络的特征图，c_t和c _s分别为教师网络和学生网络特征图的通道数。

一阶统计信息表示了显著性物体像素级的信息，帮助网络进行显著性物体的定位。对于一阶统计信息的度量计算如下,使两者距离最小：

其中，L_ft表示教师网络和学生网络一阶统计损失，W_s表示学生网络模型参数，h和w分别表示一阶统计信息图的长和宽，vec表示对一阶统计信息向量化，M为教师网络和学生网络对应的特征对数，dist为距离计算函数。

像素点之间的相关性对显著性预测任务的作用很大。显著性预测的结果是一个二值化的分割图，像素点之间的相关性对于精细化显著性结果起到促进作用。本发明通过计算二阶矩阵来统计相关性信息，使教师网络和学生网络像素点间相关性趋于一致，可参考附图3。另外，相关性矩阵的计算可以解决维度不一致的问题。具体计算过程为：

其中，C_t和C_s分别为教师网络和学生网络的二阶统计信息，tra nspose为转置操作。

对于二阶统计信息的度量计算如下，使两者距离最小：

其中，L_st表示教师网络和学生网络二阶统计损失，W_s表示学生网络模型参数，h和w分别表示一阶统计信息图的长和宽，M为教师网络和学生网络对应的特征对数，dist为距离计算函数。

对于知识蒸馏部分总的损失可由上述一阶统计信息损失、二阶统计信息损失以及教师网络和学生网络输出之间的损失的加权和表示，然后对进行模型训练。输出损失使用交叉熵损失表示：

其中，L_ce为输出损失，1为指示函数，c为类别数。

总的损失表示如下：

L(W_S)＝αL_Ge(W_S)+β_ftL_ft(W_S)+β_stL_st(W_S)

其中，L_ce、L_ft、L_st分别为输出损失、一阶统计损失和二阶统计损失，α、β_ft、β_st为三种损失的权重。

最后，在第二个阶段，学生网络再进行自主学习，进行微调。通过对模型训练，使学生网络的输出和人工标注结果图之间的损失达到最小。本发明选取的损失可表示为：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种有效的显著性预测模型方法，其特征在于，包括以下步骤：