CN107247952B - 基于深层监督的循环卷积神经网络的视觉显著性检测方法 - Google Patents

基于深层监督的循环卷积神经网络的视觉显著性检测方法 Download PDF

Info

Publication number
CN107247952B
CN107247952B CN201610604722.7A CN201610604722A CN107247952B CN 107247952 B CN107247952 B CN 107247952B CN 201610604722 A CN201610604722 A CN 201610604722A CN 107247952 B CN107247952 B CN 107247952B
Authority
CN
China
Prior art keywords
cyclic
convolution
model
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610604722.7A
Other languages
English (en)
Other versions
CN107247952A (zh
Inventor
邬向前
卜巍
唐有宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201610604722.7A priority Critical patent/CN107247952B/zh
Publication of CN107247952A publication Critical patent/CN107247952A/zh
Application granted granted Critical
Publication of CN107247952B publication Critical patent/CN107247952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于深层监督的循环卷积神经网络的显著性检测方法,其包括如下步骤:一、初级深层网络结构的设计;二、循环卷积神经网络的设计;三、深层监督的循环卷积神经网络的设计;四、模型的训练与测试。本发明提出了一种新的网络结构,在不增加模型参数的同时增加了网络结构的深度,并采用多层监督信息来对模型进行有效地训练。本发明提出的深层监督的循环卷积神经网络除了在显著性检测领域能取得很好的效果外,还可以用于所有的基于像素分类的图像处理和计算机视觉领域的应用中。

Description

基于深层监督的循环卷积神经网络的视觉显著性检测方法
技术领域
本发明涉及一种基于深度学习的图像处理方法,具体涉及一种基于深层监督的循环卷积神经网络的视觉显著性检测方法。
背景技术
随着深度学习的发展和兴起,基于深度学习的显著性检测技术也不断发展。显著性检测可分为自底向上的数据驱动模型和自顶向下的任务驱动模型两大类。自底向上的显著性检测是指对于给定的任意一幅图像,找出图中引人注意的目标,该目标可为任何类别的事物。而自顶向下的显著性检测方法通常从给定图片中找出给定类别的目标,并赋予不同的显著性值。目前,对自底向上的显著性检测方法的研究最多。
现在已有的自底向上的显著性检测方法可分为两类,分别为基于手工设计特征的方法和基于卷积神经网络的方法。由于基于手工设计特征的方法通常利用图像中的表面信息(比如颜色、纹理等)来进行特征提取,而提取的这些手工特征不能捕捉显著性目标的深层特性和多尺度信息,从而不能取得很好的性能。最近随着深度学习的兴起,有部分研究者开始使用卷积神经网络来进行显著性目标检测。目前已有的大部分基于卷积神经网络(CNN)的显著性目标检测方法首先将图像分割成多个区域,然后对每个区域用训练好的CNN模型来预测其显著性值。由于图像分割本身是一个复杂的问题,且每个区域都需使用模型进行预测,从而使得这些方法变得复杂且不能得到精确的像素级的显著性预测结果。
发明内容
为了克服上述问题,本发明提出一种新的基于CNN的显著性检测方法,即基于深层监督的循环卷积神经网络的显著性检测方法,其可直接使用模型对原始图像进行预测,得到精确的像素级的显著性图,从而能更有效地推动基于显著性的相关应用的发展。
本发明的目的是通过以下技术方案实现的:
本发明提供了一种基于深层监督的循环卷积神经网络的显著性检测方法,该方法研究的对象是静态图像,其中图像的内容可以是任意的,研究的目标是从图像中找出吸引人眼注意力的目标,并为其赋予不同的显著性值。本发明主要设计了一种新的网络结构,叫做深层监督的循环卷积神经网络。该网络模型以图像作为输入,以图像的真实结果作为监督信号用于网络模型的训练,并最终输出与输入图像大小一致的显著性图。该网络结构是在VGGNet-16的基础上进行改进得到,即将VGGNet-16中的卷积层替换成循环卷积层,从而在不增加网络参数的同时增加了网络结构的深度。同时还在网络结构中的多层加入监督信息,以便能更有效地训练网络模型。具体实施步骤如下:
一、初级深层网络结构的设计
以VGGNet-16为基础,将其前5个模块作为初级网络模型;
二、循环卷积神经网络的设计
在初级网络模型的基础上,在初级网络结构中的每个卷积层上引入循环链接,即将所有卷积层替换为循环卷积层;
三、深层监督的循环卷积神经网络的设计
在每个模块最后的循环卷积层后增加一个额外的模块,将五个增加的额外的模块的输出拼接成一个多通道图,然后使用一个卷积层对该多通道图进行卷积操作,得到最终的显著性图;
四、模型的训练与测试
在模型训练的过程中,首先计算每个额外增加的模块的输出与监督信号之间的误差;其次对所有额外模块计算得到的误差求和得到总误差,然后将误差回传来更新模型的参数直到满足终止条件;
在模型测试的过程中,对于给定的图像,将其作为训练好的模型的输入,通过计算后,直接输出最终的显著性图。
本发明具有如下优点:
1、本发明提出了一种新的网络结构,在不增加模型参数的同时增加了网络结构的深度,并采用多层监督信息来对模型进行有效地训练。
2、本发明提出的深层监督的循环卷积神经网络除了在显著性检测领域能取得很好的效果外,还可以用于所有的基于像素分类的图像处理和计算机视觉领域的应用中,比如图像分割。
附图说明
图1为深层监督的循环卷积神经网络结构;
图2为卷积层和循环卷积层,a-卷积层,b-循环卷积层,c-循环卷积层展开后的网络结构;
图3为本发明进行显著性检测的结果,a-原始图像,b-真实结果,c-检测结果。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种基于深层监督的循环卷积神经网络的显著性检测方法,具体实施步骤如下:
一、初级深层网络结构的设计
为了获得像素级显著性预测结果,本发明首先设计一个初级的网路结构,以原始图像作为输入,以与原始图像大小一致的显著性图作为输出。为了得到精确的显著性图,该网络模型应该具有深层的结构和不同步幅的多尺度结构,以至于学习到区分能力强的多尺度特征。当样本数量不够时,重新训练这样一个网络模型是很困难的,因此本发明使用在大量样本的数据库上训练好的VGGNet-16模型作为预训练模型,并用其在显著性检测的数据集上进行微调。由于VGGNet-16网络模型包含了6个模块,前5个模块由卷积层(记为conv)和池化层(记为pooling)组成,最后一个模块由池化层和全连接层组成。由于最后一个模块中的池化层使得输出的特征图的大小太小,从而不利于显著性图的预测,且全连接层增加了模型的复杂性,因此本发明将使用VGGNet-16中的前5个模块作为初级网络模型。
二、循环卷积神经网络的设计
为了使模型能够学习到更加丰富的上下文信息,在初级网络模型的基础上,本发明在初级网络结构中的每个卷积层上引入循环链接,即将所有卷积层(convolutionallayer,如图2(a)所示)替换为循环卷积层(recurrent convolutional layer,记为RCL,如图2(b)所示)。本发明中的循环卷积层进行2次循环过程,即在原有卷积层的基础上,使用相同的卷积核对生成特征图再进行卷积操作得到的结果与该卷积核同最底层特征图进行卷积操作得到的结果之和作为该层的结果,重复该过程2次。将该循环卷积层展开后可得到一个深度为3的网络结构(如图2(c)所示)。由此可见,随着循环次数的增加,循环卷积层的有效感受野相比前一层也是逐渐扩大的,从而使得循环卷积层相比卷积层在不增加参数的同时能学习到包含更加丰富的上下文信息的特征,最终达到提高显著性图预测的性能。
三、深层监督的循环卷积神经网络的设计
为了学习到更具区分能力的局部和全局特征,本发明为以上网络结构中的每一个模块使用监督信息来对模型进行深层监督学习。通过在每个模块最后的循环卷积层后增加一个额外的模块,该模块由一个卷积层和一个去卷积层(deconvolutional layer,记为deconv)组成(如图1所示)。这些额外增加的卷积层只有一个卷积核且该核的大小为1*1,因此这样的一个卷积操作是将多个特征图转化为一个显著性图。而额外增加的去卷积层的目的是为了使得输出的显著性图的大小和原始图像一致。最终为了使最终的显著性图考虑到显著性目标的局部和全局信息,本发明将五个增加的额外的模块的输出进行融合,即将它们的输出拼接(记为concat)成一个多通道图,然后使用一个卷积核大小为1*1的卷积层对该多通道图进行卷积操作,得到最终的显著性图。实际上,最后的卷积操作是一个加权融合的过程。到此为止,本发明提出的整个深层监督的循环卷积神经网络结构已经全部给出,如图1所示。
四、模型的训练与测试
在模型训练的过程中,首先计算每个额外增加的模块(包括最后的融合模块)的输出与监督信号之间的误差。由于监督信号中的正负两类像素点的个数相差太大,为了平衡两个之间的差距,本发明使用叉熵损失函数来计算误差。其次,对所有额外模块计算得到的误差求和得到总误差,然后将误差回传来更新模型的参数直到满足终止条件。在模型测试的过程中,对于给定的图像,本发明可将其作为训练好的模型的输入,通过计算后,直接输出最终的显著性图。图3给出了三个本发明进行显著性检测的结果,由图3可知,本发明检测的结果与真实结果很接近,由此说明了本发明的有效性。

Claims (2)

1.一种基于深层监督的循环卷积神经网络的显著性检测方法,其特征在于所述方法步骤如下:
步骤一、初级深层网络结构的设计
以VGGNet-16为基础,将其前5个模块作为初级网络模型;
步骤二、循环卷积神经网络的设计
在初级网络模型的基础上,在初级网络结构中的每个卷积层上引入循环链接,即将所有卷积层替换为循环卷积层;
步骤三、深层监督的循环卷积神经网络的设计
在每个模块最后的循环卷积层后增加一个额外的模块,所述额外增加的模块由一个卷积层和一个去卷积层组成,额外增加的卷积层只有一个卷积核且该核的大小为1*1;将五个增加的额外的模块的输出拼接成一个多通道图,然后使用一个卷积层对该多通道图进行卷积操作,得到最终的显著性图;
步骤四、模型的训练与测试
在模型训练的过程中,首先计算每个额外增加的模块的输出与监督信号之间的误差;其次对所有额外模块计算得到的误差求和得到总误差,然后将误差回传来更新模型的参数直到满足终止条件;
在模型测试的过程中,对于给定的图像,将其作为训练好的模型的输入,通过计算后,直接输出最终的显著性图。
2.根据权利要求1所述的基于深层监督的循环卷积神经网络的显著性检测方法,其特征在于所述步骤二中,循环卷积层进行2次循环过程,即:
(1)在原有卷积层的基础上,使用相同的卷积核对生成特征图再进行卷积操作得到的结果与该卷积核同最底层特征图进行卷积操作得到的结果之和作为循环卷积层的结果;
(2)重复过程(1)2次。
CN201610604722.7A 2016-07-28 2016-07-28 基于深层监督的循环卷积神经网络的视觉显著性检测方法 Active CN107247952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610604722.7A CN107247952B (zh) 2016-07-28 2016-07-28 基于深层监督的循环卷积神经网络的视觉显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610604722.7A CN107247952B (zh) 2016-07-28 2016-07-28 基于深层监督的循环卷积神经网络的视觉显著性检测方法

Publications (2)

Publication Number Publication Date
CN107247952A CN107247952A (zh) 2017-10-13
CN107247952B true CN107247952B (zh) 2020-11-10

Family

ID=60016250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610604722.7A Active CN107247952B (zh) 2016-07-28 2016-07-28 基于深层监督的循环卷积神经网络的视觉显著性检测方法

Country Status (1)

Country Link
CN (1) CN107247952B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230243B (zh) * 2018-02-09 2021-04-27 福州大学 一种基于显著性区域检测模型背景虚化方法
CN109086405B (zh) * 2018-08-01 2021-09-14 武汉大学 基于显著性和卷积神经网络的遥感图像检索方法及系统
CN109068174B (zh) * 2018-09-12 2019-12-27 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN110458077B (zh) * 2019-08-05 2022-05-03 高新兴科技集团股份有限公司 一种车辆颜色识别方法及系统
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
WO2021237555A1 (zh) * 2020-05-28 2021-12-02 深圳市大疆创新科技有限公司 图像处理的方法、装置、可移动平台以及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222231A (zh) * 2011-05-26 2011-10-19 厦门大学 一种基于背侧通路引导的视觉注意计算模型及其处理方法
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218563B2 (en) * 2012-10-25 2015-12-22 Brain Corporation Spiking neuron sensory processing apparatus and methods for saliency detection
US20140143193A1 (en) * 2012-11-20 2014-05-22 Qualcomm Incorporated Method and apparatus for designing emergent multi-layer spiking networks
CN105678297A (zh) * 2015-12-29 2016-06-15 南京大学 一种基于标签转移及lstm模型的人像语义分析的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222231A (zh) * 2011-05-26 2011-10-19 厦门大学 一种基于背侧通路引导的视觉注意计算模型及其处理方法
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Recurrent Attentional Networks for Saliency Detection;Jason Kuen等;《arXiv Computer Vision and Pattern Recognition》;20160412;第3-6页 *
深度卷积神经网络的显著性检测;李岳云等;《中国图象图形学报》;20160131;第21卷(第1期);第53-59页 *

Also Published As

Publication number Publication date
CN107247952A (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
CN107247952B (zh) 基于深层监督的循环卷积神经网络的视觉显著性检测方法
CN106845487B (zh) 一种端到端的车牌识别方法
CN106157319B (zh) 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
US8379994B2 (en) Digital image analysis utilizing multiple human labels
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111612051B (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
CN115527210A (zh) 基于YOLOv7算法的OCR字符检测方法及装置
CN113569852A (zh) 语义分割模型的训练方法、装置、电子设备及存储介质
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN117422695A (zh) 一种基于CR-Deeplab的异常检测方法
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN115861306A (zh) 一种基于自监督拼图模块的工业品异常检测方法
KR102340387B1 (ko) 뇌 연결성 학습 방법 및 이를 위한 시스템
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
CN113326509B (zh) 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN114118303B (zh) 基于先验约束的人脸关键点检测方法及装置
CN112418168B (zh) 车辆识别方法、装置、系统、电子设备及存储介质
CN117218434A (zh) 基于混合神经网络的混凝土结构表面缺陷分类方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant