CN112668643B

CN112668643B - 一种基于格式塔法则的半监督显著性检测方法

Info

Publication number: CN112668643B
Application number: CN202011579447.0A
Authority: CN
Inventors: 徐宇航; 李璇; 黄正华; 程莉; 马雷; 杨智; 田金文
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-10-21
Anticipated expiration: 2040-12-28
Also published as: CN112668643A

Abstract

本发明提供一种基于格式塔法则的半监督显著性检测方法，将训练图像输入卷积神经网络进行特征提取得到初步显著性映射，利用格式塔法则进行损失函数的定义并计算损失值，基于该损失值和初步显著性映射实现卷积神经网络的训练；利用训练完成的卷积神经网络和全连接CRF方法实现基于格式塔法则的半监督显著性检测。本发明将格式塔法则融入到损失函数和优化显著性映射的定义之中，充分考虑了人类视觉系统的知觉感知，能够有效利用先验信息；图像级标签比像素级标签更有效地收集，因此注释成本大大降低。

Description

一种基于格式塔法则的半监督显著性检测方法

技术领域

本发明属于图像理解与分析领域，尤其是一种基于格式塔法则的半监督显著性检测方法。

背景技术

视觉显著性即人类对于场景中显著区域或物体的度量，它体现了一个区域或者物体的显著程度，随着人类科技的不断发展和普及，视觉显著性在很多领域都有着广泛的应用，特别是在计算机视觉领域以及人工智能领域发挥了重要作用。

视觉显著性检测的发展潜力非常大，这使得很多研究人员不断地探索新的方法，尽管他们已经有相当多的成就，但是由于对象的复杂性和不稳定性，视觉显著性检测仍然存在诸多问题需要解决。正是这样，开展视觉显著性检测的研究工作才显得有价值。

目标显著性检测方法大致可分为自下而上和自上而下两类，自底向上的方法仅仅依赖于从图像中计算出的信息进行检测，通过从背景中找出物体的不同特征来寻找目标区域，尽管自底向上的方法具有普遍性，但如果对象和背景之间的差异很小，这种方法通常会失败。相比之下，自上而下的方法是类别感知的，利用目标对象类别的先验知识进行显著性检测，因此不受上述差异的限制。然而，自上而下的方法需要像素级注释形式的训练数据，这些数据通常由具有密集用户交互的工具手动绘制，因此训练数据采集的大量注释成本阻碍了自顶向下显著性检测的发展。

现如今，格式塔法则的原理已经反映在许多现有的方法中。这不仅包括人类视觉系统中重要的颜色和空间特征，还包括它们在其他关键线索上的应用，因为它们在视觉心理学中的地位非常重要，所以基于格式塔法则的视觉显著性检测时符合人类的感知。

现有的全监督的视觉显著性检测方法在检测显著对象上取得了优异的成绩，但是它们都需要昂贵的像素级注释来进行卷积神经网络的训练。现有的方法大多采取非常简单的损失函数和优化方法来更新网络或优化显著性映射，并未充分考虑人类视觉系统的知觉感知，影响了先验信息的利用效率，限制了算法的整体性能。

发明内容

本发明要解决的技术问题是：提供一种基于格式塔法则的半监督显著性检测方法，能够降低注释成本。

本发明为解决上述技术问题所采取的技术方案为：一种基于格式塔法则的半监督显著性检测方法，其特征在于：本方法包括以下步骤：

S1、将训练图像输入卷积神经网络进行特征提取得到初步显著性映射，利用格式塔法则进行损失函数的定义并计算损失值，基于该损失值和初步显著性映射实现卷积神经网络的训练；

S2、利用训练完成的卷积神经网络和全连接CRF方法实现基于格式塔法则的半监督显著性检测。

按上述方法，所述的S1具体包括：

1a、将训练图像输入卷积神经网络得到初步显著性映射，并融合格式塔法则定义四类损失函数；

1b、构建多任务共同损失函数计算得到损失值，使用反向传播方法融合所述的初步显著性映射和计算得到的损失值指导卷积神经网络训练，直到完成训练轮数。

按上述方法，所述的S2具体包括：将测试图像输入训练完成的卷积神经网络得到初步显著性图，使用全连接CRF方法对初步显著性图进行精炼优化，得到最终显著性图。

按上述方法，所述的格式塔法则包括连续性法则、相似性法则和图形与背景法则。

按上述方法，所述的S1中，参考背景图像来计算背景先验；利用基于图的正则化方法来增强显著性映射的空间一致性，生成连续的、平滑的、对象感知的显著性映射；在训练阶段，使用基于熵的正则化方法，用于平衡预测出的显著性区域与真实的显著性区域的相似性。

按上述方法，所述的将训练图像输入卷积神经网络得到初步显著性映射，具体为：

给出一组训练集

其中N为训练图像数目，I_n是第n个训练图像，y_n∈{0,1},n＝1,…,N表示I_n的标签，y_n＝0表示目标对象存在，所述的卷积神经网络包含一个卷积层、5个卷积块、一个平均池化层和一个全连接层，训练图像在经过第一层卷积和之后每个卷积块之后都执行一次BN操作来调整特征图的分布规律使训练速度更快速，同时在每个卷积层后面使用Relu激活函数连接前一个卷积层，用f(·)表示显著性映射的生成器，则f(I_n)代表输入图像I_n的显著性映射函数，用S_n表示输入图像I_n的初步显著性映射，当显著目标存在的时候S_n所代表的区域将被高亮显示；

首先将训练图像进行缩放，然后经由卷积神经网络得到初步显著性映射S_n，并在全连接层后使用一个softmax层来进行二分类，因此显著性映射S_n中的每个像素的预测值为0或者1。

按上述方法，融合根据格式塔法则中连续性法则、相似性法则和图形与背景法则定义的四类损失函数的具体方法为：

设所述的生成器f(·)由w参数化，根据格式塔法则中连续性法则、相似性法则和图形与背景法则定义四类损失函数，即L_con、L_sim、L_bg和L_cls，分别表示连续性损失函数、相似性损失函数、图形与背景损失函数和分类损失函数；

连续性损失函数L_con如下：

其中μ是相邻像素的边缘集，S_n(i)显著性图S_n在像素i出的显著值，vec(·)是矢量化算子，w_i,j表示相邻两个像素的边缘权重，w_i,j定义如下：

其中GbP_i是像素i处的广义的边界概率，σ为所有边缘权重的平均值，L代表亲和矩阵的拉普拉斯图；

相似性损失函数L_sim如下：

其中

是显著性图S_n的平均显著值；

图形与背景损失函数L_bg如下：

其中W和H分别是输入图像I_n的宽和高，

为0矩阵；

分类损失函数L_cls如下：

其中，S_n＝(I_n)是生成器预测的显著性图，

是单元乘法运算符，

表示图像预测的显著性区域。

按上述方法，其特征在于：所述的1b具体为：

1)进一步构建多任务共同损失函数；多任务共同损失函数描述如下：

式中λ为控制每项的权值为常数，由所述损失函数L(w)和训练图像计算出所述训练图像经过生成器f(·)所预测的显著图的多任务共同网络损失值，再将所述的网络损失值经过反向传播指导生成器f(·)更新所述生成器的网络参数；

2)融合多任务共同损失值和初步显著性图计算得到的显著图通过反向传播指导卷积神经网络进行训练，直到完成训练轮数。

按上述方法，所述的S2中，全连接CRF将图像中的每个像素看着一个节点，每个节点都相互连接，定义其能量函数：

所述能量函数将每个像素看作一个节点，每个节点相互连接，其中x是像素的标签分配，使用一元势函数：

来计算，其中

是像素i的显著值，其中二元势函数θ_i.j(x_i，x_j)定义如下：

式中，当x_i≠x_j时，μ(x_i，x_j)＝1否则为0，式中的两个高斯核函数分别从像素i和j提取不同的特征，第一个高斯核函数依赖于像素位置p和RGB颜色I，而第二个高斯核函数只依赖于像素位置p，参数σ_α、σ_β和σ_γ为权值参数。

本发明的有益效果为：将格式塔法则融入到损失函数和优化显著性映射的定义之中，充分考虑了人类视觉系统的知觉感知，能够有效利用先验信息；卷积神经网络的训练过程中只需要提供具有图像级标签的训练数据，每个标签指示图像中是否存在目标对象。图像级标签比像素级标签更有效地收集，因此注释成本大大降低。

附图说明

图1为本发明一实施例的方法流程图。

图2为本发明一实施例的方法原理图。

图3为本发明中卷积神经网络模块细节图。

图4为本发明中测试图像原图。

图5是本发明中测试图像初步显著性映射图。

图6是本发明中测试图像最终显著性结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于格式塔法则的半监督显著性检测方法，如图1和图2所示，具体包括：

步骤1：将训练图像输入卷积神经网络中，经由卷积神经网络提取训练图像的初步显著性映射，将提取的初步显著性映射作为基本处理单元，融合格式塔法则中连续性法则、相似性法则和图形与背景法则定义四类损失函数。

(1)将训练图像输入卷积神经网络进行显著性预测，得到初步显著性映射的方法为：

给出一组训练集

其中N为训练图像数目，I_n是第n个训练图像，y_n∈{0，1}，n＝1，…，表示I_n的标签，y_n＝0表示目标对象存在，所述的卷积神经网络主要包含一个卷积层、5个卷积块、一个平均池化层和一个全连接层。

训练图像在经过第一层卷积和之后每个卷积块之后都执行一次BN操作来调整特征图的分布规律使训练速度更快速，假设有d维输入x，每个维度表示为x^(k)然后对每个x^(k)标准化得到

定义如下：

其中，均值u_B，定义为

_B ²定义为

为趋近于零的正实数。

因此调整后的特征图y_i定义如下：

其中，γ和β通过反向传播学习得到，初始值分别为0和1。

同时在每个卷积层后面使用Relu激活函数连接前一个卷积层，用f(·)表示显著性映射的生成器，则f(I_n)代表输入图像I_n的显著性映射函数，用S_n表示输入图像I_n的显著性映射，当显著目标存在的时候S_n所代表的区域将被高亮显示；

如图3所示，首先将训练图像尺寸缩放到224×224，然后经由conv1、conv2_x、conv3_x、conv4_x、conv5_x进行降维输出，再经过全局平均池化层进行自适应平均池化下采样后输出特征图sal_n，输出的特征图进行暂平处理后通过全连接层输出得到初步显著性映射S_n，并在全连接接层后使用一个softmax层来进行二分类，因此显著性映射S_n中的每个像素的预测值为0或者1。

(2)融合格式塔法则中连续性法则、相似性法则和图形与背景法则定义的四类损失函数；

假设上述生成器f(·)由w参数化，所述损失函数L(w)由四类损失函数组成，即L_con、L_sim、L_bg和L_cls，分别表示连续损失函数、相似性损失函数、图形与背景损失函数和分类损失函数。

所述四类损失函数中的连续性损失函数L_con的目的是通过最小化来增强显著性图中空间一致性和显著区域边界的连续性，定义如下：

其中μ是相邻像素的边缘集，S_n(i)显著性图S_n在像素i出的显著值，vec(·)是矢量化算子，w_i，j表示相邻两个像素的边缘权重，定义如下：

其中GbP_i是像素i处的广义的边界概率，σ为所有边缘权重的平均值，L代表亲和矩阵的拉普拉斯图。这种基于图的正则化方法保持了连续性，使生成的显著性映射更加平滑。

所述四类损失函数中的相似性损失函数L_sim的目的是平衡预测出的显著性区域与真实的显著性区域的相似性，在训练集G中，因为背景像素的数目远大于显著目标的像素生成器f(·)容易生成背景的显著性映射，使用相似性损失函数可以有效避免这一情况，定义如下：

其中

是显著性图S_n的平均显著值，这中损失函数以交叉熵的形式可以大大避免多数像素被分类为背景或者显著对象的情况。

所述四类损失函数中的图形与背景损失函数L_bg的目的是防止生成器f(·)检测到背景图像中的显著区域，定义为：

其中W和H分别是输入图像I_n的宽和高，

是一个0矩阵，L_bg损失函数可以显著减少显著性检测过程中的假警报。

所述四类损失函数中的分类损失函数L_cls的目的是通过分类得分来指导生成器f(·)的训练，定义如下：

其中，S_n＝f(I_n)是生成器预测的显著性图，

是单元乘法运算符，

表示图像预测的显著性区域，分类损失函数L_cls可以帮助指导生成器f(·)预测图像I_n的显著区域来获得高分类得分

当背景图中即1_n不包含显著对象时得分最高，也就是

最小。

步骤2：基于四类损失函数构建多任务共同损失函数计算得到损失值，通过反向传播融合初步显著性映射，利用训练图像标签和计算得到的损失值指导卷积神经网络的训练，直到完成训练轮数。

(1)在经过步骤1的基础上，再进一步构建多任务共同损失函数；多任务共同损失函数描述如下：

中λ为控制每项的权值为常数，由所述损失函数L(w)和训练图像计算出所述训练图像经过生成器f(·)所预测的显著图的多任务共同网络损失值，再将所述的网络损失值经过反向传播指导生成器f(·)更新所述生成器的网络参数。

(2)融合多任务共同损失值和初步显著性图计算得到的显著图通过反向传播指导卷积神经网络进行训练，直到完成训练轮数。

由所述损失函数L(w)和训练图像计算出所述训练图像经过生成器f(·)所预测的显著图的网络损失值，再将所述的网络损失值经过反向传播指导生成器f(·)更新所述生成器的网络参数，进而降低损失值，输出有效的显著图。

步骤3：将测试图像输入训练完成的卷积神经网络得到初步显著性结果图，融合格式塔法则中的闭合性法则使用全连接CRF方法精炼得到的初步显著性结果，得到最终的显著性结果图。

将待检测图像输入网络，在经过生成器得到显著性映射，基于格式塔法则的闭合性法则指导下，采用全连接CRF模型来提高显著区域的闭合程度，优化粗糙的区域和边界，其能量函数定义如下：

来计算，其中

是像素i的显著值，所述能量函数中二元势函数θ_i.j(x_i，x_j)定义如下：

本发明提出的方法，只需要提供图像级的训练数据，每个标签表示图像中是否存在显著目标对象，由于图像级标签比像素级标签更易于收集，因此训练成本大大降低。格式塔法是描述知觉感知机制的主要理论，本发明在进行卷积神经网络的显著性图生成和优化时，充分考虑了背景和目标之间的感知组合线索，根据格式塔法则中的连续性法则、相似性法则和图形与背景法则定义损失函数来更新卷积神经网络，并根据格式塔法则中的闭合性法则来优化生成的显著性图，得到最终的显著性结果。

图4为本发明中测试图像原图，图5是本发明中测试图像初步显著性映射图，图6是本发明中测试图像最终显著性结果图，从图中可以看出，本方法适用于复杂场景下的显著性检测，在鲁棒性和准确性上都优于传统方法，同时融合了半监督学习的优势，能够有效解决训练样本标注成本高的问题。

Claims

1.一种基于格式塔法则的半监督显著性检测方法，其特征在于：本方法包括以下步骤：

S2、利用训练完成的卷积神经网络和全连接CRF方法实现基于格式塔法则的半监督显著性检测；所述的S2具体包括：将测试图像输入训练完成的卷积神经网络得到初步显著性图，使用全连接CRF方法对初步显著性图进行精炼优化，得到最终显著性图；

所述的S1具体包括：

1b、构建多任务共同损失函数计算得到损失值，使用反向传播方法融合所述的初步显著性映射和计算得到的损失值指导卷积神经网络训练，直到完成训练轮数；

所述的格式塔法则包括连续性法则、相似性法则和图形与背景法则；

所述的将训练图像输入卷积神经网络得到初步显著性映射，具体为：

给出一组训练集

其中N为训练图像数目，I_n是第n个训练图像，y_n∈{0,1},n＝1,…,N，y_n表示I_n的标签，y_n＝0表示目标对象存在，所述的卷积神经网络包含一个卷积层、5个卷积块、一个平均池化层和一个全连接层，训练图像在经过第一层卷积和之后每个卷积块之后都执行一次BN操作来调整特征图的分布规律使训练速度更快速，同时在每个卷积层后面使用Relu激活函数连接前一个卷积层，用f(·)表示显著性映射的生成器，则f(I_n)代表输入图像I_n的显著性映射函数，用S_n表示输入图像I_n的初步显著性映射，当显著目标存在的时候S_n所代表的区域将被高亮显示；

首先将训练图像进行缩放，然后经由卷积神经网络得到S_n，并在全连接层后使用一个softmax层来进行二分类，因此S_n中的每个像素的预测值为0或者1；

利用格式塔法则进行损失函数的定义具体包括：

根据格式塔法则中连续性法则、相似性法则和图形与背景法则定义四类损失函数，即L_con、L_sim、L_bg和L_cls，L_con、L_sim、L_bg和L_cls分别表示连续性损失函数、相似性损失函数、图形与背景损失函数和分类损失函数；

连续性损失函数L_con如下：