CN107423747A

CN107423747A - 一种基于深度卷积网络的显著性目标检测方法

Info

Publication number: CN107423747A
Application number: CN201710238210.8A
Authority: CN
Inventors: 牛轶峰; 马兆伟; 王菖; 赵哲
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2017-12-01
Anticipated expiration: 2037-04-13
Also published as: CN107423747B

Abstract

本发明属于目标检测领域，公开了一种基于深度卷积神经网络的显著性检测方法，其步骤为：(1)网络训练数据构建，即根据给定的图像数据集及其标定的显著图，构建训练图像块数据样本集；(2)数据库预处理，即根据构建的训练数据库，需要对于每一个图像块数据的像素进行预处理；(3)网络结构设计，即通过设计深度网络结构(特指为I[28×28×3]‑C[24×24×20]‑P[12×12×20]‑C[8×8×50]‑P[4×4×50]‑FC[500)]‑O[1])，实现图像块中显著目标的提取；(4)网络结构训练，即利用深度卷积网络输出与标签数据的差异计算误差函数更新深度网络模型。本发明提出的方法鲁棒性较强，不需要人工设计特定的特征描述方式。

Description

一种基于深度卷积网络的显著性目标检测方法

技术领域：

本发明主要涉及到目标检测领域，特指一种基于深度卷积网络的显著性目标检测方法。

背景技术：

受人类视觉感知外部环境的能力启发，显著性检测算法成为视觉领域近年来研究的热点。目前显著性检测技术还不够成熟，除了显著性算法本身的性能不够高以外，显著性信息的应用方式还不够完善，需要寻找更加令人满意的实现方法。近10年来，深度学习在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功，已成为人工智能领域的重要分支之一。本专利拟采用深度学习技术，开展对于显著性目标检测的应用，尤其应用于无人机对空感知领域中。本专利期望借助深度学习网络自适应的特征学习与描述能力，通过有标签数据的训练，在检测过程中引入关于目标显著性的先验知识，从而准确且鲁棒地检测出环境中的显著物体，实现端对端的显著性目标提取。

发明内容:

本发明要解决的技术问题在于：提高显著性提取方法的鲁棒性，减少人工设计特定特征描述方法的使用。

针对现有技术存在的问题，本发明提供一种利用深度卷积神经网络实现显著性目标检测的方法，其主要步骤为：

(1)网络训练数据构建

根据给定的N张图像数据集及其标定的显著图，从每幅图像和相应的标注图中随机选择n张大小为m×m的图像块I_p，根据图像块对应的显著图块中的黑白像素数目确定其标签值。若白色像素多于黑色像素数目，则对应的标签值为1；否则为0。共构建的训练数据图像块样本集大小为n×N。

(2)数据库预处理

根据构建的训练数据库，需要对于每一个图像块数据I_p的像素进行以下预处理：

其中，I_{p_database}是构建的整个训练数据库；mean(·)是均值算子；max(·)是最大化算子，寻找最大的像素值；min(·)是最小化算子，寻找最小的像素值。

(3)网络结构设计

深度卷积网络结构的基本运算层主要包括：卷积层、池化层、全连接层，深度网络结构由各个运算层叠加运算组成。网络结构的设计主要对于整个网络中每一层的功能进行定义、每一层中卷积核的尺寸、卷积核的维度、池化层的运算子、降采样的降幅、激活函数类型等。其中，卷积运算定义为：

其中，深度网络结构共L层，l∈{1,···L}，I^l-1表示第l层卷积层的输入数据，I^l表示第l层卷积层的输出数据，为卷积核，为偏置项，sigm(·)是sigmoid激活函数，表示卷积操作。

池化层，即降采样层，对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征，其定义为：

其中，是偏置项，downsample(·)表示在的输入图像块中每隔m×m个区域执行一次像素最大化降采样操作，各m×m个区域之间无重叠。

全连接层连接所有的特征，将输出值送给分类器(本专利采用softmax分类器)。

(4)网络结构训练

网络前向训练过程主要利用批训练样本，通过卷积、降采样以及单层感知机运算得到相应的网络输出。作为训练过程，网络的输出为对应于训练样本的标签数据。利用深度卷积网络输出与标签数据的差异计算误差函数，并利用误差函数对于每一层的权重系数、偏置因子通过反向传播方法来进行梯度计算，获取权重系数、偏置因子的梯度最优更新值，完成整个深度卷积网络的权重(主要包括特征抽取层的权重及末尾单层感知机的权重)修改，更新整个深度网络模型。

作为本发明的进一步改进，基于各运算层的定义，提出设计的深度网络结构主要包括三个卷积层，两个降采样层，以及一个softmax分类层。整个设计的网络结构为I[28×28×3]-C[24×24×20]-P[12×12×20]-C[8×8×50]-P[4×4×50]-FC[500)]-O[1]。

与现有技术相比，本发明的优点在于：本发明基于深度卷积神经网络的图像显著性检测方法，能够鲁棒的检测出区域内的显著物体，不需要人工设计特定的特征描述方式。

附图说明：

1.图1为基于深度卷积神经网络的显著性检测网络结构。

2.图2为部分ECSSD及MSRA10K数据库中显著性检测结果示意图。

3.图3为仿真机载空中显著性检测结果示意图。

4.图4为实际机载空中显著性检测结果示意图。

具体实施方式：

本方法实施流程分为显著性目标检测的训练和测试两个阶段。下面说明本方法的具体实施方式。

本发明采用目前显著性检测领域公开使用较多的ECSSD及MSRA10K数据库作为研究对象(两个数据库都公开了其真实显著性检测值与原始数据)，其中MSRA10K是目前为止发布的最大的显著性图库，包含10000张图源；ECSSD是语义丰富但结构复杂的数据库，包含1000张图源。训练阶段分别选取两个数据库中95％的数据作为基本训练集的来源，测试集采用剩余5％的数据。

(1)深度网络的显著性检测训练过程

步骤1.根据筛选的95％的原始图像数据、标签显著性图、及训练数据集构建方法，在每张原始图像数据中随机选择50张大小为28×28的图像块，根据图像块对应的显著图块中的黑白像素数目确定其标签值。

步骤2.根据式(1)，对于整个训练数据集中的图像块数据进行预处理操作；

步骤3.根据式(2)，对于整个训练数据集中的图像块数据进行第一层的卷积操作，卷积核大小为5×5，维度为20，卷积核参数随机初始化；

步骤4.根据式(3)，对于第一层卷积层的输出结果数据进行第一层的降采样操作，降采样步长大小为2×2，维度为20；

步骤5.根据式(2)，对于整个训练数据集中的图像块数据进行第二层的卷积操作，卷积核大小为5×5，维度为50，卷积核参数随机初始化；

步骤6.根据式(3)，对于第一层卷积层的输出结果数据进行第二层的降采样操作，降采样步长大小为2×2，维度为50；

步骤7.根据式(2)，对于整个训练数据集中的图像块数据进行第三层的卷积操作，卷积核大小为4×4，维度为500，卷积核参数随机初始化；

步骤8.对于第三层卷积层的输出结果数据为500维的向量特征，利用Softmax分类器输出分类结果；

步骤9.计算误差函数，利用误差函数对于每一层的权重系数、偏置因子通过反向传播计算来进行梯度计算，获取权重系数、偏置因子的梯度最优更新值，完成整个深度卷积网络的权重，若误差函数小于设定的容忍度δ＝0.01，则结束训练过程，否则重复执行步骤1～8，直至满足误差收敛条件。

(2)深度网络的显著性检测测试过程

步骤1.根据筛选的5％的原始图像测试数据与训练好的深度卷积神经网络，从第1像素开始，选择28×28的图像块；

步骤2.根据式(1)，对于当前图像块数据进行预处理操作；

步骤3.根据式(2)，对于当前图像块数据进行第一层的卷积操作，卷积核大小为5×5，维度为20，卷积核参数为训练好的参数；

步骤5.根据式(2)，对于当前图像块数据进行第二层的卷积操作，卷积核大小为5×5，维度为50，卷积核参数为训练好的参数；

步骤7.根据式(2)，对于当前图像块数据进行第三层的卷积操作，卷积核大小为4×4，维度为500，卷积核参数为训练好的参数；

步骤8.对于第三层卷积层的输出结果数据为500维的向量特征，利用Softmax分类器输出分类结果，并定义为28×28的图像块中第一像素的分类结果；

步骤9.利用滑动窗口方法，滑动步长为一个像素，重新选择28×28的图像块，重复执行步骤2～9，直至遍历整幅图像，输出整幅图像的显著图。

在本发明的一个具体应用实例中，选取两个数据集中的部分测试图像，展示其显著性检测结果，如图2所示。并利用未参与训练的无人机机载视觉图像作为测试图像，其显著性检测结果如图3和图4所示。以上结果充分说明了本发明中算法的突出效果。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于深度卷积网络的显著性目标检测方法，其特征在于，步骤为：

(1)网络训练数据构建

(2)数据库预处理

<mrow> <msubsup> <mi>I</mi> <mi>p</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>I</mi> <mi>p</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>d</mi> <mi>a</mi> <mi>t</mi> <mi>a</mi> <mi>b</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>d</mi> <mi>a</mi> <mi>t</mi> <mi>a</mi> <mi>b</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>d</mi> <mi>a</mi> <mi>t</mi> <mi>a</mi> <mi>b</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

(3)网络结构设计

<mrow> <msubsup> <mi>I</mi> <mi>j</mi> <mi>l</mi> </msubsup> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>m</mi> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <msubsup> <mi>I</mi> <mi>i</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>&CircleTimes;</mo> <msubsup> <mi>k</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>l</mi> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，深度网络结构共L层，l∈{1,…L}，I^l-1表示第l层卷积层的输入数据，I^l表示第l层卷积层的输出数据，为卷积核，为偏置项，sigm(·)是sigmoid激活函数，表示卷积操作。

(4)网络结构训练

网络前向训练过程主要利用批训练样本，通过卷积、降采样以及单层感知机运算得到相应的网络输出。作为训练过程，网络的输出为对应于训练样本的标签数据。利用深度卷积网络输出与标签数据的差异计算误差函数，并利用误差函数对于每一层的权重系数、偏置因子通过反向传播计算来进行梯度计算，获取权重系数、偏置因子的梯度最优更新值，完成整个深度卷积网络的权重(主要包括特征抽取层的权重及末尾单层感知机的权重)修改，更新整个深度网络模型。

2.根据权利要求1所述的基于深度卷积网络的显著性目标检测方法，其特征在于，针对所述步骤(3)中的网络结构设计具体操作步骤为：

基于各运算层的定义，所提出设计的深度网络结构主要包括三个卷积层，两个降采样层，以及一个softmax分类层。整个设计的网络结构为I[28×28×3]-C[24×24×20]-P[12×12×20]-C[8×8×50]-P[4×4×50]-FC[500)]-O[1]。