CN107423747B - 一种基于深度卷积网络的显著性目标检测方法 - Google Patents

一种基于深度卷积网络的显著性目标检测方法 Download PDF

Info

Publication number
CN107423747B
CN107423747B CN201710238210.8A CN201710238210A CN107423747B CN 107423747 B CN107423747 B CN 107423747B CN 201710238210 A CN201710238210 A CN 201710238210A CN 107423747 B CN107423747 B CN 107423747B
Authority
CN
China
Prior art keywords
layer
network
data
training
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710238210.8A
Other languages
English (en)
Other versions
CN107423747A (zh
Inventor
牛轶峰
马兆伟
王菖
赵哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710238210.8A priority Critical patent/CN107423747B/zh
Publication of CN107423747A publication Critical patent/CN107423747A/zh
Application granted granted Critical
Publication of CN107423747B publication Critical patent/CN107423747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于目标检测领域,公开了一种基于深度卷积神经网络的显著性检测方法,其步骤为:(1)网络训练数据构建,即根据给定的图像数据集及其标定的显著图,构建训练图像块数据样本集;(2)数据库预处理,即根据构建的训练数据库,需要对于每一个图像块数据的像素进行预处理;(3)网络结构设计,即通过设计深度网络结构(特指为I[28×28×3]‑C[24×24×20]‑P[12×12×20]‑C[8×8×50]‑P[4×4×50]‑FC[500)]‑O[1]),实现图像块中显著目标的提取;(4)网络结构训练,即利用深度卷积网络输出与标签数据的差异计算误差函数更新深度网络模型。本发明提出的方法鲁棒性较强,不需要人工设计特定的特征描述方式。

Description

一种基于深度卷积网络的显著性目标检测方法
技术领域:
本发明主要涉及到目标检测领域,特指一种基于深度卷积网络的显著性目标检测方法。
背景技术:
受人类视觉感知外部环境的能力启发,显著性检测算法成为视觉领域近年来研究的热点。目前显著性检测技术还不够成熟,除了显著性算法本身的性能不够高以外,显著性信息的应用方式还不够完善,需要寻找更加令人满意的实现方法。近10年来,深度学习在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功,已成为人工智能领域的重要分支之一。本专利拟采用深度学习技术,开展对于显著性目标检测的应用,尤其应用于无人机对空感知领域中。本专利期望借助深度学习网络自适应的特征学习与描述能力,通过有标签数据的训练,在检测过程中引入关于目标显著性的先验知识,从而准确且鲁棒地检测出环境中的显著物体,实现端对端的显著性目标提取。
发明内容:
本发明要解决的技术问题在于:提高显著性提取方法的鲁棒性,减少人工设计特定特征描述方法的使用。
针对现有技术存在的问题,本发明提供一种利用深度卷积神经网络实现显著性目标检测的方法,其主要步骤为:
(1)网络训练数据构建
根据给定的N张图像数据集及其标定的显著图,从每幅图像和相应的标注图中随机选择n张大小为m×m的图像块Ip,根据图像块对应的显著图块中的黑白像素数目确定其标签值。若白色像素多于黑色像素数目,则对应的标签值为1;否则为0。共构建的训练数据图像块样本集大小为n×N。
(2)数据库预处理
根据构建的训练数据库,需要对于每一个图像块数据Ip的像素进行以下预处理:
其中,Ip_database是构建的整个训练数据库;mean(·)是均值算子;max(·)是最大化算子,寻找最大的像素值;min(·)是最小化算子,寻找最小的像素值。
(3)网络结构设计
深度卷积网络结构的基本运算层主要包括:卷积层、池化层、全连接层,深度网络结构由各个运算层叠加运算组成。网络结构的设计主要对于整个网络中每一层的功能进行定义、每一层中卷积核的尺寸、卷积核的维度、池化层的运算子、降采样的降幅、激活函数类型等。其中,卷积运算定义为:
其中,深度网络结构共L层,l∈{1,···L},Il-1表示第l层卷积层的输入数据,Il表示第l层卷积层的输出数据,为卷积核,为偏置项,sigm(·)是sigmoid激活函数,表示卷积操作。
池化层,即降采样层,对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征,其定义为:
其中,是偏置项,downsample(·)表示在的输入图像块中每隔m×m个区域执行一次像素最大化降采样操作,各m×m个区域之间无重叠。
全连接层连接所有的特征,将输出值送给分类器(本专利采用softmax分类器)。
(4)网络结构训练
网络前向训练过程主要利用批训练样本,通过卷积、降采样以及单层感知机运算得到相应的网络输出。作为训练过程,网络的输出为对应于训练样本的标签数据。利用深度卷积网络输出与标签数据的差异计算误差函数,并利用误差函数对于每一层的权重系数、偏置因子通过反向传播方法来进行梯度计算,获取权重系数、偏置因子的梯度最优更新值,完成整个深度卷积网络的权重(主要包括特征抽取层的权重及末尾单层感知机的权重)修改,更新整个深度网络模型。
作为本发明的进一步改进,基于各运算层的定义,提出设计的深度网络结构主要包括三个卷积层,两个降采样层,以及一个softmax分类层。整个设计的网络结构为I[28×28×3]-C[24×24×20]-P[12×12×20]-C[8×8×50]-P[4×4×50]-FC[500)]-O[1]。
与现有技术相比,本发明的优点在于:本发明基于深度卷积神经网络的图像显著性检测方法,能够鲁棒的检测出区域内的显著物体,不需要人工设计特定的特征描述方式。
附图说明:
1.图1为基于深度卷积神经网络的显著性检测网络结构。
2.图2为部分ECSSD及MSRA10K数据库中显著性检测结果示意图。
3.图3为仿真机载空中显著性检测结果示意图。
4.图4为实际机载空中显著性检测结果示意图。
具体实施方式:
本方法实施流程分为显著性目标检测的训练和测试两个阶段。下面说明本方法的具体实施方式。
本发明采用目前显著性检测领域公开使用较多的ECSSD及MSRA10K数据库作为研究对象(两个数据库都公开了其真实显著性检测值与原始数据),其中MSRA10K是目前为止发布的最大的显著性图库,包含10000张图源;ECSSD是语义丰富但结构复杂的数据库,包含1000张图源。训练阶段分别选取两个数据库中95%的数据作为基本训练集的来源,测试集采用剩余5%的数据。
(1)深度网络的显著性检测训练过程
步骤1.根据筛选的95%的原始图像数据、标签显著性图、及训练数据集构建方法,在每张原始图像数据中随机选择50张大小为28×28的图像块,根据图像块对应的显著图块中的黑白像素数目确定其标签值。
步骤2.根据式(1),对于整个训练数据集中的图像块数据进行预处理操作;
步骤3.根据式(2),对于整个训练数据集中的图像块数据进行第一层的卷积操作,卷积核大小为5×5,维度为20,卷积核参数随机初始化;
步骤4.根据式(3),对于第一层卷积层的输出结果数据进行第一层的降采样操作,降采样步长大小为2×2,维度为20;
步骤5.根据式(2),对于整个训练数据集中的图像块数据进行第二层的卷积操作,卷积核大小为5×5,维度为50,卷积核参数随机初始化;
步骤6.根据式(3),对于第一层卷积层的输出结果数据进行第二层的降采样操作,降采样步长大小为2×2,维度为50;
步骤7.根据式(2),对于整个训练数据集中的图像块数据进行第三层的卷积操作,卷积核大小为4×4,维度为500,卷积核参数随机初始化;
步骤8.对于第三层卷积层的输出结果数据为500维的向量特征,利用Softmax分类器输出分类结果;
步骤9.计算误差函数,利用误差函数对于每一层的权重系数、偏置因子通过反向传播计算来进行梯度计算,获取权重系数、偏置因子的梯度最优更新值,完成整个深度卷积网络的权重,若误差函数小于设定的容忍度δ=0.01,则结束训练过程,否则重复执行步骤1~8,直至满足误差收敛条件。
(2)深度网络的显著性检测测试过程
步骤1.根据筛选的5%的原始图像测试数据与训练好的深度卷积神经网络,从第1像素开始,选择28×28的图像块;
步骤2.根据式(1),对于当前图像块数据进行预处理操作;
步骤3.根据式(2),对于当前图像块数据进行第一层的卷积操作,卷积核大小为5×5,维度为20,卷积核参数为训练好的参数;
步骤4.根据式(3),对于第一层卷积层的输出结果数据进行第一层的降采样操作,降采样步长大小为2×2,维度为20;
步骤5.根据式(2),对于当前图像块数据进行第二层的卷积操作,卷积核大小为5×5,维度为50,卷积核参数为训练好的参数;
步骤6.根据式(3),对于第一层卷积层的输出结果数据进行第二层的降采样操作,降采样步长大小为2×2,维度为50;
步骤7.根据式(2),对于当前图像块数据进行第三层的卷积操作,卷积核大小为4×4,维度为500,卷积核参数为训练好的参数;
步骤8.对于第三层卷积层的输出结果数据为500维的向量特征,利用Softmax分类器输出分类结果,并定义为28×28的图像块中第一像素的分类结果;
步骤9.利用滑动窗口方法,滑动步长为一个像素,重新选择28×28的图像块,重复执行步骤2~9,直至遍历整幅图像,输出整幅图像的显著图。
在本发明的一个具体应用实例中,选取两个数据集中的部分测试图像,展示其显著性检测结果,如图2所示。并利用未参与训练的无人机机载视觉图像作为测试图像,其显著性检测结果如图3和图4所示。以上结果充分说明了本发明中算法的突出效果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (2)

1.一种基于深度卷积网络的显著性目标检测方法,其特征在于,步骤为:
(1)网络训练数据构建
根据给定的N张图像数据集及其标定的显著图,从每幅图像和相应的标注图中随机选择n张大小为m×m的图像块Ip,根据图像块对应的显著图块中的黑白像素数目确定其标签值,若白色像素多于黑色像素数目,则对应的标签值为1,否则为0,共构建的训练数据图像块样本集大小为n×N;
(2)数据库预处理
根据构建的训练数据库,需要对于每一个图像块数据Ip的像素进行以下预处理:
其中,Ip_database是构建的整个训练数据库;mean(·)是均值算子;max(·)是最大化算子,寻找最大的像素值;min(·)是最小化算子,寻找最小的像素值;
(3)网络结构设计
深度卷积网络结构的基本运算层主要包括:卷积层、池化层、全连接层,深度网络结构由各个运算层叠加运算组成。网络结构的设计主要对于整个网络中每一层的功能进行定义、每一层中卷积核的尺寸、卷积核的维度、池化层的运算子、降采样的降幅、激活函数类型,其中,卷积运算定义为:
其中,深度网络结构共L层,l∈{1,···L},Il-1表示第l层卷积层的输入数据,Il表示第l层卷积层的输出数据,为卷积核,为偏置项,sigm(·)是sigmoid激活函数,表示卷积操作;
池化层,即降采样层,对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征,其定义为:
其中,是偏置项,downsample(·)表示在的输入图像块中每隔m×m个区域执行一次像素最大化降采样操作,各m×m个区域之间无重叠;
全连接层连接所有的特征,将输出值送给softmax分类器;
(4)网络结构训练
网络前向训练过程主要利用批训练样本,通过卷积、降采样以及单层感知机运算得到相应的网络输出。作为训练过程,网络的输出为对应于训练样本的标签数据。利用深度卷积网络输出与标签数据的差异计算误差函数,并利用误差函数对于每一层的权重系数、偏置因子通过反向传播计算来进行梯度计算,获取权重系数、偏置因子的梯度最优更新值,完成整个深度卷积网络的特征抽取层的权重及末尾单层感知机的权重修改,更新整个深度网络模型。
2.根据权利要求1所述的基于深度卷积网络的显著性目标检测方法,其特征在于,针对所述步骤(3)中的网络结构设计具体操作步骤为:
基于各运算层的定义,所提出设计的深度网络结构主要包括三个卷积层,两个降采样层,以及一个softmax分类层,整个设计的网络结构为I[28×28×3]-C[24×24×20]-P[12×12×20]-C[8×8×50]-P[4×4×50]-FC[500)]-O[1],其中I[·]表示输入层,C[·]表示卷积层,P[·]表示降采样层,FC[·]表示全连接层,O[·]表示输出分类层,括号内参数表示本层数据维数。
CN201710238210.8A 2017-04-13 2017-04-13 一种基于深度卷积网络的显著性目标检测方法 Active CN107423747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710238210.8A CN107423747B (zh) 2017-04-13 2017-04-13 一种基于深度卷积网络的显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710238210.8A CN107423747B (zh) 2017-04-13 2017-04-13 一种基于深度卷积网络的显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN107423747A CN107423747A (zh) 2017-12-01
CN107423747B true CN107423747B (zh) 2019-09-20

Family

ID=60423880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710238210.8A Active CN107423747B (zh) 2017-04-13 2017-04-13 一种基于深度卷积网络的显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN107423747B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229344A (zh) * 2017-12-19 2018-06-29 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、计算机程序和存储介质
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN108428238B (zh) * 2018-03-02 2022-02-15 南开大学 一种基于深度网络的多类型任务通用的检测方法
CN108447057B (zh) * 2018-04-02 2021-11-30 西安电子科技大学 基于显著性和深度卷积网络的sar图像变化检测方法
CN108805866B (zh) * 2018-05-23 2022-03-25 兰州理工大学 基于四元数小波变换深度视感知的图像注视点检测方法
CN109117791A (zh) * 2018-08-14 2019-01-01 中国电子科技集团公司第三十八研究所 一种基于膨胀卷积的人群密度图生成方法
CN109040605A (zh) * 2018-11-05 2018-12-18 北京达佳互联信息技术有限公司 拍摄引导方法、装置及移动终端和存储介质
CN109598268B (zh) * 2018-11-23 2021-08-17 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN113240659B (zh) * 2021-05-26 2022-02-25 广州天鹏计算机科技有限公司 一种基于深度学习的心脏核磁共振影像病变结构提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN105701508A (zh) * 2016-01-12 2016-06-22 西安交通大学 基于多级卷积神经网络的全局-局部优化模型及显著性检测算法
CN106462771A (zh) * 2016-08-05 2017-02-22 深圳大学 一种3d图像的显著性检测方法
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN105701508A (zh) * 2016-01-12 2016-06-22 西安交通大学 基于多级卷积神经网络的全局-局部优化模型及显著性检测算法
CN106462771A (zh) * 2016-08-05 2017-02-22 深圳大学 一种3d图像的显著性检测方法
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ImageNet Classification with Deep Convolutional Neural Networks;Krizhevsky A et al.;《Advances in neural information processing systems》;20121231;第1-9页 *
Static and space-time visual saliency detection by self-resemblance;Hae Jong Seo et al.;《Journal of Vision》;20091120;第9卷(第12期);第1-27页 *
Vision-Based Behavior for UAV Reactive Avoidance by using a Reinforcement Learning Method;Ma Zhaowei et al.;《2016 12th World Congress on Intelligent Control and Automation (WCICA)》;20160615;第3301-3306页 *
沈镒峰.一种基于图像各向异性的频域视觉显著性检测算法􃇍􂌋􁱴􃪍􁙝􁻶􂎁􃇍􂌋􃿼􃿿􁱴􃪍􁙝􁻶􂎁􃇍􂌋.《Proceedings of the 33rd Chinese Control Conference》.2014,第4743-4746页. *

Also Published As

Publication number Publication date
CN107423747A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107423747B (zh) 一种基于深度卷积网络的显著性目标检测方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108009525B (zh) 一种基于卷积神经网络的无人机对地特定目标识别方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN106920243B (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN109828251B (zh) 基于特征金字塔轻量卷积神经网络的雷达目标识别方法
CN109299701B (zh) 基于gan扩充多人种特征协同选择的人脸年龄估计方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN113052106B (zh) 一种基于PSPNet网络的飞机起降跑道识别方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN113657414B (zh) 一种物体识别方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113343974A (zh) 考虑模态间语义距离度量的多模态融合分类优化方法
CN111582091A (zh) 基于多分支卷积神经网络的行人识别方法
CN113989631A (zh) 一种基于卷积神经网络的红外图像目标检测网络压缩方法
CN113792631B (zh) 一种基于多尺度自适应与边域注意力的飞行器检测与跟踪方法
CN111160327B (zh) 一种基于轻量化卷积神经网络的表情识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN111160219B (zh) 对象完整度评估方法、装置、电子设备及存储介质
CN116645727B (zh) 一种基于Openpose模型算法的行为捕捉识别方法
Zhang et al. Vision-based UAV obstacle avoidance algorithm on the embedded platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant