CN109766918B - 基于多层次上下文信息融合的显著性物体检测方法 - Google Patents
基于多层次上下文信息融合的显著性物体检测方法 Download PDFInfo
- Publication number
- CN109766918B CN109766918B CN201811547592.3A CN201811547592A CN109766918B CN 109766918 B CN109766918 B CN 109766918B CN 201811547592 A CN201811547592 A CN 201811547592A CN 109766918 B CN109766918 B CN 109766918B
- Authority
- CN
- China
- Prior art keywords
- context information
- decoding part
- convolution
- network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
一种基于多层次上下文信息融合的显著性物体检测的方法。该方法的目的是构造并利用多层级的上下文特征进行图像显著性检测。该方法设计了一种新的卷积神经网络架构,这种新的卷积神经网络架构以由高层卷积至底层卷积的方式进行优化,从而为图像提取不同尺度上的上下文信息,将这些上下文信息进行融合可以获得高质量的图像显著性图。使用该方法检测出的显著性区域,可以用来辅助其他视觉任务。
Description
技术领域
本发明属于图像处理技术领域,特别涉及到一种基于多层次上下文特征融合的显著性物体检测的方法。
背景技术
显著性物体检测,也被称为显著性检测,致力于模拟人类视觉系统来检测一张图像中显著的物体或者区域。显著性物体检测技术在计算机视觉中有着广泛的用途,比如图像检索、视觉跟踪、场景分类、基于内容的视频压缩和弱监督学习。虽然很多重要的显著性模型已经被提出了,但是显著性检测的精度仍然差强人意,尤其是在很多复杂的场景下。
传统的显著性检测方法通常手工设计很多底层的特征和先验知识,但是这些特征和先验知识是很难描述语义的物体和场景的。显著性物体最近的进步主要来自于卷积神经网络。卷积神经网络的主干网络通常由几个堆叠在一起的卷积/池化模块组成,其中靠近输入的模块被称作底层,而离输入较远的模块被称作高层。在深度学习社区中,人们普遍认为神经网络的高层包含语义相关的信息,而神经网络的底层包含辅助的细节信息。因此,如今领先的显著性物体检测方法都设计了各种复杂的网络架构来融合神经网络底层和高层的特征以进行精确的显著性检测。比如,在2017年CVPR上发表的论文“Deeply supervisedsalient object detection with short connections”中,作者通过实验小心地选择了几组由不同的高层和底层卷积模块组成的集合,每个集合将选定的若干个卷积模块的预测结果相融合得到一个预测,最后再将所有集合上的结果相融合得到最终的显著性检测结果。在2018年CVPR上发表的论文“Detect globally,refine locally:A novel approach tosaliency detection”中,作者提出了一种递归的模型来过滤掉不同卷积模块中的噪声然后再将它们融合。最近两年提出的网络高层和底层相融合的方法已经变得越来越复杂。由于文献太多,在此就不再一一赘述。那么,为了提高显著性物体检测的精度,我们是不是必须要设计越来越复杂的高底层特征融合的模型呢?
为了回答上述的问题,我们注意到,最近有一些深度学习的论文针对其他的图像任务提出了一些学习图像的全局上下文信息的神经网络模型。在2017年的CVPR上发表的论文“Pyramid scene parsing network”中,作者在神经网络的末尾添加了一些不同尺度的池化层来提取图像的上下文信息。在2018年的CVPR上发表的“Context encoding forsemantic segmentation”一文中,作者用另一篇论文“Deep TEN:Texture encodingnetwork”(2017年CVPR论文)中的编码方法构造了一个上下文信息提取模块。这两篇论文在语义分割这项任务上取得了较好的结果。由于显著性物体检测更加注重细节信息,上述的技术并不能直接用于显著性检测。
发明内容
本发明目的是解决现有技术中存在的不能充分利用图像中蕴含的上下文信息的技术问题,提供一种基于多层次上下文信息融合的显著性物体检测方法。该方法通过输入一张任意大小的图像,系统就可以高效的检测出图像中显著性物体。
为了实现本发明的目的,我们提出了一种新的卷积神经网络模型,所述模型以一种从顶层到底层的方式学习,顶层可以指导底层的训练,自动生成多层次的上下文信息,既包括粗糙的全局信息,也包括精细的局部信息,从而能够进行准确的显著性物体检测。
因此,和以往的方法相比,本发明主要的创造性在于两点:首先,我们设计了一种新的带有镜像连接的“编码-解码”型网络,它不同于传统的“编码-解码”型网络(没有镜像连接),也不同于广泛使用的全卷积网络模型(无“编码-解码”机制);其次,我们将多层次的上下文信息融合起来进行显著性物体检测,即特征的融合,而之前的方法都是用不同阶段的特征得到对应的显著性概率图,最后把各阶段的显著性概率图进行融合,这种融合方式不能充分利用神经网络高层和底层特征之间的互补性。
本发明的技术方案:
基于多层次上下文信息融合的显著性物体检测方法,该方法包含如下步骤:
a.用户输入一张任意大小的图片到一个带有镜像连接的“编码-解码”型卷积神经网络模型中,所述模型的镜像连接是指将“编码”部分产生的特征对称地加入到“解码”部分中去,它可以看作是“编码-解码”网络的一个变种;所述“解码”部分逐步将卷积网络产生的特征图放大,在每个镜像连接中,我们用固定双线性卷积核的反卷积层将“解码”部分的特征图放大二倍,从而与“编码”部分的特征图进行逐元素的相加以融合。
b.所述卷积神经网络模型的“解码”部分带有侧连接,这些侧连接后都带有深度监督(deep supervision)的损失函数,可以将主干网络学习到的特征进一步转化为上下文信息;不同的卷积模块则构成了多层次的上下文信息,“解码”部分网络将这些多层次的上下文信息提取出来,从而得到多层次的上下文信息;在每个侧连接中,先是将“解码”部分产生的特征图经过几个卷积层,再用固定双线性卷积核的反卷积层将特征图放大到原图片大小,得到包含上下文信息的特征图,之后有两个分支,一个分支产生显著性概率图并加损失函数监督,另一个分支将得到的包含上下文信息的特征图输出。
c.将获得的多层次的上下文信息进行融合,经过几个卷积层就能够得到与输入图像同样大小的显著性概率图,就可以进行精确的显著性物体检测。
本发明的优点和有益效果:
本发明通过一个带有镜像连接的“编码-解码”型卷积神经网络模型将卷积神经网络产生的特征从高到低地融合,从而产生了多层次的上下文信息。通过将多层次上下文信息进行融合,可以进行更精确的显著性物体检测。此外,由于主干网络“解码”部分的每个卷积模块都有监督(深度监督),主干网络会自发的从高层到低层进行优化,网络高层的全局上下文信息会辅助网络底层学习到局部上下文信息。
附图说明
图1为本发明设计的带有镜像连接的“编码-解码”型卷积神经网络。
图2为连接在“编码-解码”型网络的“解码”部分上的侧连接模块。
图3为基于新的卷积神经网络架构进行显著性检测的效果图和其他方法的对比。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
基于多层次上下文信息融合的显著性物体检测方法,该方法的具体操作如下:
a.本网络模型是一个带有镜像连接的“编码-解码”型卷积神经网络模型,其中的编码部分可以是Karen Simonyan发表的“Very Deep Convolutional Networks forLarge-Scale Image Recognition”文章中提到的VGG16架构,也可以是Kaiming He发表的“Deep residual learning for image recognition”文章中提到的ResNet架构,或者其他的基础网络架构。针对VGG16网络来说,如图1所示,在基础的网络架构上,我们首先去掉了所有的全连接层,然后添加两层卷积,卷积核大小分别是3×3和1×1,通道数都是1024。因此,在网络的“编码”部分,VGG16中包含的五个池化层可以将网络分成六部分(图1中的前六个模块),顺序地将它们记为由于每个池化层将特征图的大小缩小一半,所以的大小是的一半。我们将编码的最后一层经过1×1的卷积、上采样、剪切后变为和“编码”的倒数第二层大小相等的特征图,再和逐元素相加、经过两个卷积层得到上采样后的特征图随后,特征图和“编码”网络的倒数第三层重复上述1×1的卷积、上采样、剪切、逐元素相加、经过两个卷积层的步骤,得到重复这些操作依次可以得到其中和输入图像大小相等。对于得到他们的所有卷积的通道数分别都是512,256,256,128和128;逐元素相加之后添加的两个卷积层,所对应的卷积核大小分别5×5、5×5、5×5、3×3和3×3。
b.从解码网络的每个卷积模块上引出一个侧连接,构造出一个上下文信息融合模块,如图2所示。解码网络的每个卷积模块上都先连接两个卷积层,上所用的卷积核大小分别是5×5、5×5、5×5、3×3和3×3,输出通道数分别是512,256,256,128和128。这两个卷积层之后,再连接一个3×3的不带ReLU的卷积层,输出通道数是25,经过上采样,即可得到图像在该模块上的上下文特征图,该特征图和输入图像大小相等。一方面,我们在得到的每个特征图后加一个1×1的卷积将其变为显著性预测图,在训练中添加类别平均的Sigmoid交叉熵损失函数进行监督,这可以保证网络的优化是从高层到底层进行的;另一方面,我们将所有的上下文特征图堆叠在一起得到多层的上下文信息(如图2所示),进行最终的显著性检测,并在训练中添加损失函数进行监督。
图3展示了几个采用本发明的方法和其他方法进行显著性物体检测的对比的例子。最左边的图是原始图像,中间的是各种其他方法的结果,右边倒数第二列是本发明方法的结果,最右边是正确的标注结果。可以清晰的看到,本发明方法能够取得更好的显著性检测效果。具体来说,前两个例子说明本发明提出的方法可以检测出显著性物体的细节,而其他方法不能;第三、第四和第五个例子说明本发明可以从很复杂的场景下检测出显著性物体,而传统的方法在这些场景下往往会失败;第六和第七个例子说明本发明对于包含多个显著性物体的图片表现较好,而传统的方法在多个物体的情况下往往会漏检或崩溃;第八个例子说明本发明可以完整地检测出图片中较大的物体,而传统的方法对于较大的物体往往只能检测出物体的一部分。
Claims (1)
1.一种基于多层次上下文信息融合的显著性物体检测的方法,其特征在于,该方法包含如下步骤:
a.用户输入一张任意大小的图片到一个带有镜像连接的“编码-解码”型卷积神经网络模型中,所述模型的镜像连接是指将“编码”部分产生的特征对称地加入到“解码”部分中去;所述“解码”部分逐步将卷积网络产生的特征图放大,在每个镜像连接中,用固定双线性卷积核的反卷积层将“解码”部分的特征图放大二倍,从而与“编码”部分的特征图进行逐元素的相加以融合;
b.所述卷积神经网络模型的“解码”部分带有侧连接,所述的侧连接后都带有深度监督(deep supervision)的损失函数,能够将主干网络学习到的特征进一步转化为上下文信息,不同的卷积模块则构成了多层次的上下文信息,通过这些侧连接,“解码”部分网络将这些在各个阶段产生的多层次上下文信息都提取出来,从而得到多层次的上下文信息;在每个侧连接中,先是将“解码”部分产生的特征图经过几个卷积层,再用固定双线性卷积核的反卷积层将特征图放大到原图片大小,得到包含上下文信息的特征图,之后有两个分支,一个分支产生显著性概率图并加损失函数监督,另一个分支将得到的包含上下文信息的特征图输出;
c.将获得的多层次的上下文信息进行融合,经过几个卷积层就能够得到与输入图像同样大小的显著性概率图,从而进行精确的显著性物体检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811547592.3A CN109766918B (zh) | 2018-12-18 | 2018-12-18 | 基于多层次上下文信息融合的显著性物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811547592.3A CN109766918B (zh) | 2018-12-18 | 2018-12-18 | 基于多层次上下文信息融合的显著性物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109766918A CN109766918A (zh) | 2019-05-17 |
CN109766918B true CN109766918B (zh) | 2021-04-30 |
Family
ID=66451308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811547592.3A Active CN109766918B (zh) | 2018-12-18 | 2018-12-18 | 基于多层次上下文信息融合的显著性物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766918B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598841B (zh) * | 2020-04-23 | 2022-04-15 | 南开大学 | 基于正则化稠密连接特征金字塔的实例显著性检测方法 |
CN111783754B (zh) * | 2020-09-04 | 2020-12-08 | 中国科学院自动化研究所 | 基于部位上下文的人体属性图像分类方法、系统和装置 |
CN112528899B (zh) * | 2020-12-17 | 2022-04-12 | 南开大学 | 基于隐含深度信息恢复的图像显著性物体检测方法及系统 |
CN113469269A (zh) * | 2021-07-16 | 2021-10-01 | 上海电力大学 | 基于多通道融合的残差卷积自编码风光荷场景生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361363A (zh) * | 2014-11-25 | 2015-02-18 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
CN105139385A (zh) * | 2015-08-12 | 2015-12-09 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7940985B2 (en) * | 2007-06-06 | 2011-05-10 | Microsoft Corporation | Salient object detection |
CN107346436B (zh) * | 2017-06-29 | 2020-03-24 | 北京以萨技术股份有限公司 | 一种融合图像分类的视觉显著性检测方法 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
-
2018
- 2018-12-18 CN CN201811547592.3A patent/CN109766918B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361363A (zh) * | 2014-11-25 | 2015-02-18 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
CN105139385A (zh) * | 2015-08-12 | 2015-12-09 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
Non-Patent Citations (2)
Title |
---|
Deep Salient Object Detection by Integrating Multi-level Cues;Jing Zhang etal.;《2017 IEEE Winter Conference on Applications of Computer Vision》;20170515;全文 * |
顾及区域信息的卷积神经网络在影像语义分割中的应用;伍佳等;《科学技术与工程》;20180731;第18卷(第21期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109766918A (zh) | 2019-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766918B (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
Han et al. | A survey on visual transformer | |
US20210390700A1 (en) | Referring image segmentation | |
CN112541409B (zh) | 一种融入注意力的残差网络表情识别方法 | |
CN112258526B (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
Lodhi et al. | Multipath-DenseNet: A Supervised ensemble architecture of densely connected convolutional networks | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN113870286B (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN111294614B (zh) | 用于数字图像、音频或视频数据处理的方法和设备 | |
CN111898614B (zh) | 神经网络系统以及图像信号、数据处理的方法 | |
CN115331024A (zh) | 一种基于深度监督和逐步学习的肠道息肉检测方法 | |
CN111598841B (zh) | 基于正则化稠密连接特征金字塔的实例显著性检测方法 | |
Jiang et al. | An improved action recognition network with temporal extraction and feature enhancement | |
CN117807269A (zh) | 基于视频情景分析的达人推荐方法及系统 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
CN113688783B (zh) | 人脸特征提取方法、低分辨率人脸识别方法及设备 | |
CN111047571B (zh) | 一种具有自适应选择训练过程的图像显著目标检测方法 | |
CN116993996B (zh) | 对图像中的对象进行检测的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |