CN109886221B

CN109886221B - 基于图像显著性检测的采砂船识别方法

Info

Publication number: CN109886221B
Application number: CN201910143774.2A
Authority: CN
Inventors: 孙丰; 马艳娜; 卢克
Original assignee: Zhejiang University of Water Resources and Electric Power
Current assignee: Zhejiang University of Water Resources and Electric Power
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2021-02-02
Anticipated expiration: 2039-02-26
Also published as: CN109886221A

Abstract

本发明公开一种基于图像显著性检测的采砂船识别方法，该方法针对部分显著性物体（采砂船船体）检测模型出现部分图片出现全局语义信息缺失的情况提出了一种新的强监督显著性检测方法。该模型分为两层，第一层主要采用了全卷积神经网络在像素层面上抓取采砂船图片全局语义信息与局部特征信息，并标注采砂船船体。第二层通过我们提出的递归递减的模型，逐层的将第一层得到的显著图去噪音并在全局语义缺失情况下使用局部信息补充，并加强显著物体的边界特征。该模型在收集的采砂船数据集上表现优良，在现有的6个SOD数据集上表现良好。

Description

基于图像显著性检测的采砂船识别方法

技术领域

本发明涉及计算机视觉领域，主要是针对江面非法采砂船的显著性检测。

背景技术

在经济快速的发展的时代背景下，人们对于经济的需求更大于以前。很多人开始在江河之中非法采砂，将之倒卖。这样的非法行为我们可以使用将江面图片的显著性检测技术探测。虽然市面上有一些技术可以探测非法采砂船，但是存在以下不足之处：(1)江面图片中的采砂船物体检测不明显；(2)对于检测到的采砂船，轮廓不清晰，并且有时十分模糊，丢失部分全局语义信息；(3)现有的显著性检测模型对于江面图片中的杂质元素如江面波光或水浪无法有效排除，无法正确分类有效信息与无效信息；(4)现有的显著性检测模型对于岸边拍摄的采砂船图像中存在的草木堤坝无法有效的去除或识别；(5)现有的显著性检测模型针对实际情况时，得出的结果与现实情况有所偏差。

通过观察大量的江边监控等拍摄的采砂船图片，发现这些图片可以分为以下四类：(1)小物体，即采砂船在图像中与全图相比，占比小于10％；(2)大物体，即采砂船在图像中与全图相比，占比大于50％；(3)复杂背景，即拍摄的图像中不仅包含了采砂船，还包含江边堤坝，江边行人，江边草木等次显著物体；(4)低对比度，采砂船因长年在江水或河水中航行加上采砂船本身颜色，导致采砂船的整体色调与江水颜色近似，加大识别的难度。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种基于图像显著性检测的采砂船识别方法。针对目前大多数采砂船检测方法存在的无法有效融合全局语义信息和局部特征信息以及无法有效检测图片中存在的噪音，提出了递归递减深度融合语义信息的模型。可以有效使用局部特征信息减少因为检测时丢失部分全局语义信息而导致显著性物体检测失败的情况，同时增强显著性物体的标注，对非显著性物体的噪音或者大体积的非显著性物体进行有效的去除。其具体技术方案如下：

一种基于图像显著性检测的采砂船识别方法，采用全卷积神经网络对图片进行显著性物体的检测，在检测过程中采集全局语义特征，局部信息作为补充，递归递减的模式深入融合两者。

进一步的，在显著性物体检测过程中，采集全局语义特征即采砂船整体方位作为判断显著性物体位置的基本信息，采用局部信息即浅层卷积层输出的采砂船细节作为全局语义补充。

进一步的，全卷积神经网络进行如下操作：

将数据从第一层卷积层开始慢慢向下传递直至第五层卷积层，在卷积传递的过程中，各层卷积层会提取各层所识别的特征，卷积结果：

f_s(X；W,b)＝Pooling(σ(W*_s X+b))

X是原生的输入图片；W和b分别代表卷积核和卷积偏置值；*_s代表卷积操作的步长值；σ代表是线性整流函数(Rectified Linear Unit,ReLU)；Pooling指最大池化操作(MaxPooling)；作为结果的f_s(X；W,b)的是原数据按照参数s进行的下采样操作而得到：

X仍然代表原生的输入图片；f_s(X；θ)代表在步长s和参数θ的作用下生成的特征图；

代表在上采样步长s和参数

的作用下反卷积生成的特征图，且保证特征图规格与X的规格相同。

进一步的，将所有不同层面生成的结果图全部数值相加平均融合为一张显著性检测结果图，结果如下：

其中，N为经过第一层不同卷积池化后得到的显著图数量；S_i为经过不同卷积池化得到的显著图S_fuse1；

依靠三层卷积与三层池化操作对图像进行再次深度整合，多次的卷积筛选，滤去杂质信息，对显著性物体加强，得到显著图S_fine2；

最后使用交叉熵损失函数(Cross Entropy Function)对显著图做向前传递；其中的交叉熵权重为原生图与显著图，表示如下：

其中G为真值图(Ground Truth,GT)；W代表的是网络参数的集合；β_i是权重平衡参数；|I|代表图片中所有像素点集合；|I|-为非显著像素点集合；|I|₊为显著像素点集合；

并且

与现有的技术相比，本发明的有益效果是结合全局语义信息与局部特征信息，减少了在显著性检测过程中出现全局语义信息丢失以至于影响最终显著性结果图的情况。

附图说明

图1是神经网络模型结构图；

图2是像素层面神经网络流程示意图；

图3是像素层面神经网络规格说明辅助图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明的模型基于Caffe深度学习框架。

设计一个端到端的多层面神经网络，可以使得输入图片直接映射成需要的像素级显著检测图。为此，(1)首先模型可以产生多层面的显著图以抓取不同层面上的全局语义或局部特征。(2)模型需要足够的深度才可以深入抓取图片的具体信息以及隐藏的上下文对比信息。

如图1所示，设计像素层神经网络模型，初始图片(初始图片大小为256×256，单位：像素)经过深度全卷积神经网络，在不同的卷积层生成各自相应的结果图。这些不同大小的卷积与神经网络的深度参照DCL(Deep Contrast Learning)的像素流层，同时选择VGG-16作为模型的基底，如图2所示。

像素层模型主要有5个池化层(Max Pooling)，10个整体卷积层(每个整体卷积层中包含2～4个不等的独立卷积层)。将数据从第一层卷积层开始慢慢向下传递直至第五层卷积层，在卷积传递的过程中，各层卷积层会提取各层所识别的特征。如第一层卷积专注的是局部的特征信息，此时可以消除部分的不显著的噪音与杂质，并且对于显著性物体的边界有较高的保留值，使得图片仍然处于高像素的程度。在第一层之后，池化层的作用在于缩小传递下来的数据规格同时也提取像素周围相对显著的信息。此后每一层都会对上层传递下来的数据进行提取新信息，因为池化层的作用传递的数据的横截面规格大小依次缩减。第五层会对提取整体图像的全局信息，重点抓取显著性物体的位置而忽略较多的局部特征值。当所有的下采样操作完成后，为了之后需要融合各个卷积层次生成的图像，需要将所有的图像上采样即反卷积至相同的规格大小，在本例中，需要将各个层次生成的显著图上采样至225×225(单位：像素)。具体的每层卷积层规格如图3所示。如上所述的一系列过程，可以使用数学功时进行归纳：

f_s(X；W,b)＝Pooling(σ(W*_s X+b))

上述公式中，X是原生的输入图片；W和b分别代表卷积核和卷积偏置值；*_s代表卷积操作的步长值；σ代表是线性整流函数(Rectified Linear Unit,ReLU)；Pooling代表的是池化操作，此处指最大池化操作(Max Pooling)。作为结果的f_s(X；W,b)的是原数据按照参数s进行的下采样操作而得到的。

上述公式中，X仍然代表原生的输入图片；f_s(X；θ)代表在步长s和参数θ的作用下生成的特征图；

代表在上采样步长s和参数

的作用下反卷积生成的特征图，且保证特征图规格与X的规格相同。然而此处的上采样操作与常规的双插值操作不同，函数中的

参与监督学习过程，需要在迭代过程中不断的完善。

如上所述，在pool1卷积层面生成的显著性图中带有明显的显著性物体轮廓但同时伴有较多的杂质与噪音。在pool5等之后的卷积网络生成图抓取了全局显著性信息，但是在部分图片中可能会损失部分全局显著性信息。所以为了更好的整合多层面的不同的特征，也为了弥补像素级显著图的损失，将所有不同层面生成的结果图全部数值相加平均融合为一张显著性检测结果图。即图2中的FUSE操作。此操作使用数学公式描述如下：

其中，N为经过第一层不同卷积池化后得到的显著图数量；S_i为经过不同卷积池化得到的显著图S_fuse1。该显著图比第五层池化上采样后的显著图S₅有更清晰的边界，但是也存在更多的噪音。通过观察得知，在第一层池化上采样后的显著图S₁有接近原图像素级的清晰边界。为了使S_fuse1可以更好的提取S₁的清晰边界以补足S_fuse1的模糊边界问题。随后对S₁进行三次最大池化操作三次卷积操作，此操作的目的在于期望通过池化操作去除S₁中不必要的杂质加强显著性物体的标注，且因为三次池化程度较小，不影响S₁的边界清晰程度。三次的池化步长为2且池化范围为2×2(单位：像素)。该操作后得到由S₁演化而来的显著图S_fine1。然后将S_fuse1和S_fine1以上述公式再次数值相加平均得到像素级模型即模型第一层最终的显著图S_premap。

在得到融合显著图后，需要再次去除S_fine1中存在的噪音。因为根据大量的观察，在得到的预标注的显著性检测图中，仍然会有不必要的杂质存在并且显著性物体边框并不明显且存在明显的卷积痕迹。卷积痕迹主要表现为显著性图中存在明显且有规律的方块状光斑。噪音的主要来源为浅层的卷积操作得到的显著图中存在大量的没有去除的噪音。边框模糊的主要原因为深层卷积操作得到的显著图中侧重于显著性物体的标注而丢失了边界信息。因此将二者融合后，仍然会存在部分噪音未去除，边框未清晰的问题。去除噪音与光斑的方法依然与上述中去除S₁中噪音的方法相同。依靠三层卷积与三层池化操作对图像进行再次深度整合，多次的卷积筛选，滤去不必要的杂质信息，对显著性物体加强，得到显著图S_fine2。

最后使用交叉熵损失函数(Cross Entropy Function)对显著图做向前传递。其中的交叉熵权重为原生图与显著图，用数学公式表示如下：

其中G为真值图(Ground Truth,GT)；W代表的是网络参数的集合；β_i是权重平衡参数；|I|代表图片中所有像素点集合；|I|_-为非显著像素点集合；|I|₊为显著像素点集合；

并且

模型训练的数据集为收集的采砂船图片集之上，图片大小统一为225×225(单位：像素)，使用Batch-size为1，学习速率为1e-8的随机下降训练。我们的模型迭代了200000次消耗时间超过20小时。我们的方法使用Python语言基于caffe框架实现。使用的GPU为TeslaM40(12GB)。

通过以上多次使用池化与卷积操作实现的融合功能，输入的原生采砂船图片的局部特征信息以全局语义信息为主体逐渐融合。在此过程中，局部特征信息与全局意义信息的融合不会一蹴而就而是在池化与卷积的过程中逐渐的补充全局语义丢失的采砂船物体边框信息或者采砂船主体等其他缺损的语义信息。该模型在现有的6个SOD数据集(DUT-OMRON、ECSSD、HKU-IS、PASCA-S、SED1，SED2)上均有良好的表现。