CN110472639A

CN110472639A - 一种基于显著性先验信息的目标提取方法

Info

Publication number: CN110472639A
Application number: CN201910716419.XA
Authority: CN
Inventors: 范辉; 韩梦; 李晋江
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-19
Anticipated expiration: 2039-08-05
Also published as: CN110472639B

Abstract

本发明涉及一种基于显著性先验信息的目标提取方法。对图像的显著性点进行检测；对图像的显著性边进行检测；将图像的显著性点和显著性边进行融合，构成显著性融合图；将融合后的显著性特征作为先验信息添加到神经网络中，构成基于显著性先验信息的神经网络；在数据集的样本中进行随机选取，构成网络所需的训练集和测试集；利用训练集采用多样化的方式训练基于显著性先验信息的神经网络；利用测试集使用训练完成的基于显著性先验信息的神经网络进行目标提取，提取出准确的目标区域。本发明的方法采用基于显著性先验信息的神经网络进行目标提取，充分考虑了低级与高级语义信息等特征，提取了较为准确的目标区域。

Description

一种基于显著性先验信息的目标提取方法

技术领域

本发明属于图像处理技术领域，涉及一种目标提取方法，具体涉及一种基于显著性先验信息的目标提取方法。

背景技术

在今天这个多媒体时代，日常生活中各式各样的文字、图像、音频等多媒体信息层出不穷，这些多媒体信息可能存在着人类所需的重要信息，因此人们总想获取这些多媒体信息。通常情况下，多媒体信息可以通过自己的视觉系统获取，人们将通过这种方式获得的多媒体信息统称为图像。而在现实生活中，我们面临太多这样的信息，要是将这所有的信息进行处理，那工作量无疑是非常庞大的，因此，我们一般只从这些信息中提取我们所感兴趣的对象、区域等，而对于我们不感兴趣的部分我们采取自动忽略的方式。例如，当人们观察一个图像的时候，我们的大脑和视觉系统经常只会关注图像中的一部分区域，而不是整个图像。这是由于，人类的视觉系统会很快并且准确的在一幅图像中捕捉到自己所感兴趣的目标，我们将这目标定义为显著性区域、显著性目标、前景对象（目标）或感兴趣的目标。

目标提取是指将图像中人类所感兴趣的目标与背景分割开，它是一个十分重要的环节，目标提取的好坏直接决定后续识别和跟踪性能的好坏，因此它对于后续的目标识别、目标跟踪具有重要的意义。提取显著性的目标是当前计算机视觉的研究热点之一，尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取就显得尤其重要。

当今社会目标提取的方法有很多，主要分为传统方法和基于深度学习的方法。传统方式大多遵循以下步骤：（1）使用滑动窗口进行区域选择；（2）对候选区域特征进行提取；（3）使用SVM、Adaboost等分类器进行分类。但由于传统的目标提取算法大多数需要人工输入目标的特征信息，通过滑动窗口在待提取图像中框选出候选区域，根据候选区域的特征信息进行相应的得分，最后提取出人类感兴趣的目标区域。这种方法针对不同类型的物体可能需要设计不同的特征和分类方法，可移植性较差，无法很好的适应不同场景，尤其在多样性发生变化时鲁棒性较差。同时，使用滑动窗口的方式选取候选窗口的方式是一个穷举的方式，因此需要耗费大量的时间，窗口冗余性较大。

针对特征模型的局限性、当今社会人工智能的发展以及机器学习在人脸识别等计算机视觉问题的成功应用，很多研究学者开始尝试使用深度学习解决计算机视觉其他问题，目标提取就是其中之一。目标提取的方法不再仅仅局限于传统的基于统计的方法，卷积神经网络开始被应用于特征信息提取，出现了各式各样的基于卷积神经网络的目标提取算法，目前占主导地位的方式也是基于深度学习的方式。深度学习在目标提取的应用层出不穷，大多数算法都不需要用户人工输入特征信息，直接采用神经网络进行学习目标的特征信息，自动的提取出人类感兴趣的目标区域。当前，基于深度学习的目标提取方法被分成两类，一类是基于区域提名，一类是基于回归的深度学习目标检测算法，不需要区域提名。这类算法可移植性较好，采用全自动的方式，但针对一些较为复杂的场景容易忽视上下文语义信息等，易出现提取不准确的情况。

发明内容

本发明目的是为了提取准确的目标区域，提供一种基于显著性先验信息的目标提取方法，它可用于影像匹配和智能交通系统。

为了实现上述目的，本发明使用以下技术方案：

一个基于显著性先验信息的目标提取算法，先将目标的显著性点和显著性边进行融合，并将其作为目标的显著性先验信息，保证了图像特征信息的充分性，同时利用卷积神经网络可移植性较好的特点，使用卷积神经网络进行模型的训练，提取出人类感兴趣的目标。

本发明的具体步骤为：

1）对图像的显著性点进行检测；

2）对图像的显著性边进行检测；

3）将图像的显著性点和显著性边进行融合，构成显著性融合图；

4）将融合后的显著性特征作为先验信息添加到神经网络中，构成基于显著性先验信息的神经网络；

5）在数据集的样本中进行随机选取，构成网络所需的训练集和测试集；

6）利用训练集采用多样化的方式训练基于显著性先验信息的神经网络；

7）利用测试集使用训练完成的基于显著性先验信息的神经网络进行目标提取，提取出准确的目标区域。

所述步骤1）中，对图像的显著性点进行检测：

Harris显著性点检测方法是一个较为经典的检测算法，被广泛应用于各个领域，尤其在计算机视觉中应用广泛，本发明使用Harris显著性点检测方法的主要思想。

1-1）Harris显著性点检测方法主要是基于一个二阶矩阵，采用二阶矩阵用来描述像素局部相邻梯度的分布情况，二阶矩阵如（1）所示:

（1）

其中我们对于图像中的所有的像素利用垂直和水平方向上的微分算子进行滤波，这样可以算出以及的值，通常我们习惯将水平方向得到的值记为，将垂直方向得到的值记为，这里的表示灰度值。同时，Harris显著性点检测方法采用较为平滑的窗口高斯函数，使用高斯滤波对矩阵中的元素进行滤波处理，可以有效的避免噪声的影响。

1-2）为了避免计算矩阵的特征值，简化一些运算，同时为了避免规范化因子由于取值不同造成一定影响，Nobel提出改进后的角点响应函数如（2）所示：

（2）

根据函数（2），在实际应用中，只要找到某一个像素点所计算出来的值大于一个固定的阈值时，就定义这个像素点为显著性点。

所述步骤2）中，对图像的显著性边进行检测：

2-1）给定一幅图像，首先用定向边缘森林（OEF）边界检测器来计算边界响应，该边界检测器非常有效地检测目标边界并且在计算上更省，同时使用非最大抑制（NMS）的OEF检测的稀疏变体。

2-2）在稀疏边缘图中具有相对边缘强度为s的每个边缘段的后验概率由表示，在数学上形式化如公式（3）：

（3）

其中是边缘段的相对概率。和分别是边缘段显著（对象边缘）或背景的先验概率。和是观察的可能性。第j个边缘段之前的边缘显著性计算如公式（4）所示：

（4）

其中表示第j个边缘段中的边缘像素的纹理，颜色和边缘幅度值的标量乘。

2-3）将特定方向上的颜色梯度的大小沿着由表示的边缘进行积分，

（5）

是包含在j边缘段中的边缘像素的局部三元图案（LTP），通过使用大小为3的内核比较其强度值与由表示的邻居的强度值来计算。通过使用大小为3的内核比较其强度值与由表示的相邻像素的强度值来计算在第j个边缘段中的边缘像素的局部三元图案（LTP）。这里，T是用户定义的阈值，B = 8。

2-5）为了找出可能性，需要将边缘分段分为显著或背景部分。如果边缘大小，认为它是显著的，否则它是背景边缘段。这里，β表示边缘幅度阈值，其中β> 0。然后，分别计算边缘像素的背景边缘段和背景边缘段的边缘幅度的归一化直方图和，每个边缘像素10个分箱。根据边缘段s所属的bin值，分别从和计算观测似然度和。

所述步骤3）中，将图像的显著性点和显著性边进行融合，构成显著性融合图：

采用线性加权融合法，问题的关键在于，找到每个元素的最佳权重，以便在超像素级融合相似图像的各种显著图时，在最终的融合显著图中共同的前景显著性得到提升并且背景显著性被抑制。

3-1）对于权重选择问题，考虑到所产生的融合显著图值应该出现在[0,1]范围内的约束，我们将我们的任务表述为如下形式的能量最小化问题：

（6）

其中，第一项是图像显著性点和显著性边的先验信息，它的先验项系数向量为；第二项是平滑项，用于鼓励邻域元素采用相似的权重，它的平滑项系数矩阵为；参数用来平衡两项；

3-2）等式(6)确保单个权重的范围在0到1之间，一个超像素的所有权重的总和等于1。一旦z通过最小化公式（6）确定，像素的融合显著图J可以被简单地计算为

（7）

这里，是图像I的第m个显著图。不过值得注意的是，这里的乘法×与加法+均是像素级别的乘法与加法。

3-3-1）首先，我们将等式（6）的第一项系数向量D定义为：

（8）

其中，表示元素的显著性点提示，表示元素的显著性边提示，表示通过RC算法得到的显著性提示。

3-3-2）其次，对图像的显著性提示进行处理。按照显著性的概念，我们将元素的平均显著性与所考虑元素的平均显著性值进行比较，以决定元素是否应该被强调（高或低）。设表示每个条目是元素的平均显著性值的向量。另一方面，对于元素 u，我们计算其相似元素推荐的平均显著性为：

（9）

其中是指示函数，如果条件为真则等于1（否则为0），用于确定元素v是否是相似的。让是由推荐的元素平均显著性值组成的向量。然后，我们简单地将显著性点提示定义为:

（10）

本质上，等式（10）表明，如果与非常不同，那么相应的权值就会被等式（6）设置的很小，如果与相似度较高，那么相应的权值就会很大。

3-3-3）相似地，给予显著性边以及通过RC算法得到的显著性提示，相似定义。即使定义表示的含义相似，计算方式相同，但结果不同。这是由于通过不同的显著性特征得到的相同元素的显著性值一般不同，即便使用相同的计算方式，结果也不同。

3-3-4）最后，由于之前已经使用来选择相似元素的离散条件，所以在权值的分布中存在一定的不一致的可能性。使用平滑项抑制相似元素的不一致性是必要的。在这里，将相似元素定义为不仅在特征空间，而且在显著性空间上都相似的元素。如果一对元素具有非常相似的显著性并且在特征空间中非常接近，则认为它们具有相似的权重。

因此，引入平滑项来确保特征空间与显著性空间的这些相邻的元素具有相似的权重。使用传统的归一化拉普拉斯矩阵来定义等式（6）中的平滑项系数G，即

（11）

其中A是单位矩阵，V是邻域矩阵，Q是由矩阵V的行和组成的对角矩阵。此外，V考虑了特征空间和显著空间的相似性，表示为：

（12）

其中是值为的参数。

所述步骤4）中，将融合后的显著性特征作为先验信息添加到神经网络中，构成基于显著性先验信息的神经网络：

4-1）将VGG16微调应用于目标提取任务中。具体来说，VGG16不再使用全连接层，将模型中的3个全连接层全部替换为卷积层，使网络通过完全卷积的方式运行；同时将5个池化层的步长均改为1，以便获得更精细的特征。不仅如此，构建了一个小型反卷积网络，包含5个反卷积层，3个反池化层，1个目标窗口的提取层，实现端到端全自动提取任务的实现。

4-2）VGG网络结构对于特征的表征能力不是很强，可以通过增加网络层数提高其能力，但仅仅增加深度会导致梯度爆炸、梯度消失以及退化问题，因此，除了简单的增加网络深度外，同时选用卷积神经网络中一个较为特殊的网络-残差网络，将二者结合，有效的解决增加网络深度带来的问题。

4-3）为了防止过拟合并达到局部最优值，在网络的每个卷积层之后应用dropout，从而可以比较有效地减轻过拟合问题的发生，一定程度上达到了正则化的效果，本发明使用VGG16网络中所提到激活函数Rectified linear unit（ReLU），ReLU的定义如下：

（13）

所述步骤5）中，在数据集的样本中进行随机选取，构成网络所需的训练集和测试集；

所述步骤6）中，利用训练集采用多样化的方式训练基于显著性先验信息的神经网络：

6-1）利用分阶段、分层次等多样化的方式进行训练网络，而非使用单一的方式进行训练，最终实现网络的快速收敛并有效的防止过度拟合；

6-2）网络训练的目标是能够准确的提取出显著性目标，本发明使用如下函数进行回归任务的训练。

其中，ψ表示该候选框的IOU值，取值大于0.5则ψ为1，否则取0；l(·)表示损失函数，用于表示预测结果与用户标注结果间的差别，定义为：

其中，(x,y)、w和h分别表示预测框的中心点坐标、宽和高；同理，(x^*,y^*)、w^*和h^*分别表示标注框的中心点坐标、宽和高；(x_a,y_a)、w_a和h_a分别表示候选框的中心点坐标、宽和高。

所述步骤7）中，利用测试集使用训练完成的基于显著性先验信息的神经网络进行目标提取，提取出准确的目标区域。

本发明的有益效果：

（1）本发明采用显著性点与显著性边进行融合，构成显著性先验信息融合到卷积神经网络中，图像的低级与高级语义信息均考虑其中，提取出较为精确的目标窗口，取得令人满意的效果；

（2）由于采用了残差网络结构，即使增加了网络深度也有效避免了梯度爆炸等问题，提取出较为准确的目标；

（3）本发明输入待提取图像，输出的是已提取目标图像，实现了一种基于回归的自动化目标提取方法，不再需要用户交互。

附图说明

图1是本发明的流程示意图；

图2是残差网络结构示意图；

图3是本发明得到的显著性融合图；

图4是本发明的目标提取效果图。

图5是本发明的网络结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，包括以下步骤：

1）对图像的显著性点进行检测：

（1）

（2）

2）对图像的显著性边进行检测：

（3）

（4）

（5）

3）将图像的显著性点和显著性边进行融合，构成显著性融合图：

（6）

（7）

3-3-1）首先，我们将等式（6）的第一项系数向量D定义为：

（8）

（9）

（10）

（11）

（12）

其中是值为的参数。

4）将融合后的显著性特征作为先验信息添加到神经网络中，构成基于显著性先验信息的神经网络：

（13）

6）利用训练集采用多样化的方式训练基于显著性先验信息的神经网络：

本发明的内容可以通过以下的仿真结果进一步进行说明。

1、仿真内容：应用本发明方法，对待提取图像进行目标提取。

2、仿真结果。

图3为本发明得到的显著性融合图。图3中的(a)、(b)、(c)分别表示待提取的原始图像；(d)、(e)、(f)分别表示采用本发明模型得到的显著性融合图；可以看出，本发明得到的较好的显著性区域，提取出较为准确的显著性特征。

图4为本发明的目标提取效果图。图4中的(a)、(b)、(c)分别表示待提取的原始图像；(d)、(e)、(f)分别表示采用本发明模型提取出的显著性目标；其中，红色的边界框为真实值，蓝色的边界框为本发明提取到的结果。利用本发明提出的方法，对于(a)单个目标提取效果较好，同样针对多目标提取的(b)和(c)，均准确提取出目标，可见本发明提出的模型具有鲁棒性，展示出较为理想的目标提取效果。

综上，本发明提出了一种基于显著性先验信息的目标提取方法。本发明的方法通过融合显著性先验信息，运用深度卷积神经网络，可以实现全自动的目标提取，减少了交互行为，取得理想的目标提取效果，提高方法的效率，对智能化交通系统、智能监控系统及医学定位等方面具有广泛的应用价值。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于显著性先验信息的目标提取方法，其特征是，首先检测显著性点与显著性边，再将显著性点与显著性边进行融合，作为先验信息加到神经网络中，同时对网络训练学习，最后通过训练好的网络结构实现高精度的目标提取。

2.如权利要求1所述的一种基于显著性先验信息的目标提取方法，其特征是，主要包含以下几个步骤：

1）对图像的显著性点进行检测；

2）对图像的显著性边进行检测；

3.如权利要求2所述的一种基于显著性先验信息的目标提取方法，其特征是，所述步骤2），对图像的显著性边进行检测：给定一幅图像，首先用定向边缘森林（OEF）边界检测器来计算边界响应，该边界检测器非常有效地检测目标边界并且在计算上更省，同时使用非最大抑制（NMS）的OEF检测的稀疏变体；利用稀疏边缘图来形成概率，其中每个边缘（边缘段）被分配显著性值，从而为其提供独特性评分。

4.如权利要求2所述的一种基于显著性先验信息的目标提取方法，其特征是，所述步骤3），将图像的显著性点和显著性边进行融合，构成显著性融合图：将任务表述为所述的能量最小化问题；确保单个权重的范围在0到1之间，一个超像素的所有权重的总和等于1；为所考虑的元素选择适当的权重，以鼓励或阻止其在最终的融合显著图中的作用。

5.如权利要求2所述的一种基于显著性先验信息的目标提取方法，其特征是，所述步骤4），将融合后的显著性特征作为先验信息添加到神经网络中，构成基于显著性先验信息的神经网络：VGG16不再使用全连接层，将模型中的3个全连接层全部替换为卷积层，使网络通过完全卷积的方式运行，同时将5个池化层的步长均改为1，以便获得更精细的特征；不仅如此，构建了一个小型反卷积网络，包含5个反卷积层，3个反池化层，1个目标窗口的提取层，实现端到端全自动提取任务的实现；同时使用残差网络结构，以避免由于增加网络深度带来的退化问题；在网络的每个卷积层之后应用dropout，使用的激活函数为ReLU。

6.如权利要求2所述的一种基于显著性先验信息的目标提取方法，其特征是，所述步骤6），利用训练集采用多样化的方式训练基于显著性先验信息的神经网络：本发明采用分阶段、分层次等多样化的训练方式进行网络的训练，实现快速收敛并防止过度拟合；同时根据目标函数以及设定的损失函数进行预测。

7.如权利要求2所述的一种基于显著性先验信息的目标提取方法，其特征是，融合显著性点和显著性边的特征，将其作为先验信息加到神经网络中，利用了卷积神经网络的优势，并充分考虑了图像的低级以及高级语义信息等特征，从而快速准确的提取出目标区域。