CN111797841A - 一种基于深度残差网络的视觉显著性检测方法 - Google Patents
一种基于深度残差网络的视觉显著性检测方法 Download PDFInfo
- Publication number
- CN111797841A CN111797841A CN202010389359.8A CN202010389359A CN111797841A CN 111797841 A CN111797841 A CN 111797841A CN 202010389359 A CN202010389359 A CN 202010389359A CN 111797841 A CN111797841 A CN 111797841A
- Authority
- CN
- China
- Prior art keywords
- feature
- neural network
- residual error
- layer
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000000007 visual effect Effects 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 239000003623 enhancer Substances 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000007500 overflow downdraw method Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 10
- 238000011897 real-time detection Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 101100350744 Arabidopsis thaliana PAGR gene Proteins 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度残差网络的视觉显著性检测方法,包括以下四部分:(1)搭建视觉显著性检测神经网络:包括以深度残差网络为基础网络结构,增加金字塔特征增强模块、基于空间金字塔池化的语义监督模块以及特征融合模块;(2)神经网络训练优化:包括多路损失函数设计和数据集增强;(3)完成对神经网络的训练;(4)使用训练好的神经网络对通用图像进行检测,输出显著性区域的图像。与现有神经网络显著性检测方法相比,本发明具有更好的显著性检测效果,对具有复杂纹理信息、各种颜色背景的图像也能检测出精确的显著性区域,检测结果更接近真实值、噪声更少、分辨率更高、边缘精细,帧率更高,能够满足实时性检测的要求。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于深度残差网络的视觉 显著性检测方法。
背景技术
显著性检测旨在从场景中提取视觉上显著的区域。准确且快速的显著 性检测方法,在计算机视觉领域中有着广泛的用途,比如目标跟踪、智能 图像压缩、目标分割、图像裁剪等。现有的显著性检测方法存在特征提取 不充分、计算复杂度高等问题,无法实时且准确的完成显著性检测。
早期的显著性检测方法主要通过挖掘图像不同的低层视觉特征,如颜 色、边缘、纹理等,考虑像素点在其领域空间上的特征差异。Itti等(见ITTI L,KOCH C,NIEBUR E.Amodel of saliency-based visual attention for rapid scene analysis[J].IEEETransactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259)将视觉先验信息应用于检测过程中, 将图像颜色、方向和亮度三种不同特征,通过中央-周围原理计算得到不 同特征的显著性图,最后通过线性融合得到原始图像的显著性图。Hou等 (见Hou X,Zhang L.Dynamic visual attention:searching for codinglength increments[C].//Neural Information Processing Systems.Massachusetts:MIT, 2009:681-688)通过数学变换得到图像中有价值信息,提出了一种基于傅里 叶变换的快速显著性检测方法,以谱残差的幅度度量图像的显著性值。上 述方法从底层特征出发,基于变换分析、视觉先验等方法,建立了一系列 检测模型,该类方法无需训练学习,操作简单,但对于复杂的背景、小目 标物体、低对比度图像等场景,其准确率较低,有待进一步的提高和完善。
近年来,深度学习理论的快速发展和计算机处理能力的大幅提升,深 度卷积神经网络在人工智能等领域取得了一系列巨大的成功。自2012年 AlexNet的横空出世,涌现了许多经典的卷积神经网络模型,如VGGNet、 GoogleNet等,在图像识别、目标检测等多个领域获得了很好的性能。近 几年深度残差网络ResNet(见He Kaiming,Zhang Xiangyu,RenShaoqing,et al.Deep Residual Learning for Image Recognition,IEEE Conferenceon Computer Vision and Pattern Recognition,2016:770-778)的出现,解决了卷 积神经网络层数过深导致难以训练的问题,进一步推动了卷积神经网络的 实际应用。深度卷积神经网络能够从大量训练样本中学习到更为本质的特 性,能有效改善传统模型的检测效果。
目前已有一些基于卷积神经网络的图像显著性区域检测相关的技术, 申请号为CN201510964488.4的专利公开了一种深度学习的图像显著性区 域检测方法,将不同网络层的结果进行结合,得到图像在不同尺度下的特 征,从而得到更好的检测性能;同时利用图像分割进行超像素阈值学习, 将所有显著性均值低于下阈值的超像素置为非显著性区域,将所有显著性 均值高于上阈值的超像素置为显著性区域,进一步优化了检测性能。虽然 该方法处理速度较快,但普适性不强,误检率较高。申请号为 CN201910827885.5的专利公开了一种局部对比和全局指导的立体图像视 觉显著性检测方法,选取原始立体图像的左视点图、深度图和对应的主观 视觉显著图构成训练集;构建神经网络,将训练集输入神经网络模型中进 行训练,计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的 损失函数值;利用训练后的卷积神经网络对待测立体图像进行预测处理获 得视觉显著图,实现图像的显著性检测。虽然该方法有效提高检测的准确 率,但复杂度较高,不利于实际应用场景,且显著性区域的边界较为模糊。
发明内容
为了解决现有显著性检测方法存在误检率较高、边缘分辨率低、噪声 多、处理速度慢等问题,本发明提供了一种基于深度残差网络的视觉显著 性检测方法,具体包括以下步骤:
(1)搭建视觉显著性检测神经网络
(1-1)以深度残差网络为基础架构
采用深度残差网络作为视觉显著性检测的基础网络架构,该基础网络 参数少、训练快,而且可以大幅提升显著性检测的准确率。
(1-2)在深度残差网络中配合设置金字塔特征增强模块
卷积神经网络自底向上采样过程中,会产生多种的特征,神经网络的 高层包含语义相关的特征,而低层包含辅助的细节信息,有效利用不同卷 积层的特征,是提升显著性区域检测效果的一大关键。因此,本发明设计 了一种金字塔特征增强模块,对不同卷积层位置的特征信息采取相应的特 征增强方法,该模块包括低层特征增强子模块、中层特征增强子模块、高 层特征增强子模块,具体结构如下:
(1-2-1)低层特征增强子模块设置了一个重叠池化层,并在池化层之 后设置了激活层,选用ReLu为激活函数。该子模块对深度残差网络第一 层的输出进行特征提取,输出特征图A1作为下一单元的输入。
(1-2-2)中层特征增强子模块采用3×3卷积核进行简单卷积提取特征, 然后,在卷积层之后设置了激活层,选用ReLu为激活函数。该子模块对 深度残差网络第二层的输出进行特征提取,输出特征图A2作为下一单元 的输入。
(1-2-3)高层特征增强子模块设置了一个重叠池化层,在池化层之后, 采用1×1、3×3、5×5三种不同卷积核对图像进行特征提取;接着,在卷积 层后设置了激活层,选用ReLu为激活函数;然后,采用级联的方式将上 述得到三种特征图像进行合并重组。该子模块对深度残差网络第三层和第 四层的输出进行特征提取,输出特征图A3、A4作为下一单元的输入。
(1-3)在深度残差网络中配合设置基于空间金字塔池化的语义监督模 块
为了高效利用卷积神经网络顶层特征中丰富的上下文信息,本发明设 计了一种语义监督模块,具体结构如下:
(1-3-1)首先采用一个1×1标准卷积和两个3×3的采样率分别为6、12 的空洞卷积对深度残差网络的顶层特征进行特征提取,得到三幅特征图, 有效捕获多尺度信息,聚合不同区域的上下文信息。
(1-3-2)然后将步骤(1-3-1)得到三幅特征图采用级联的方式进行合并 重组,构成新的特征图,最后采用1×1的卷积核对新的特征图进行卷积, 使得输出特征图的通道数和输入的原始特征图一致,输出特征图C作为下 一单元的输入。
(1-4)在深度残差网络中增加特征融合模块
为了高效融合不同尺度下的特征信息,本发明设计了一种特征融合模 块,具体结构如下:
(1-4-1)对步骤(1-2-1)、(1-2-2)和(1-2-3)输出的四路特征图A1、A2、 A3、A4,采用大小为1×1的卷积核进行卷积,分别得到特征图B1、B2、 B3、B4;
(1-4-2)使用双线性插值的上采样方法对步骤(1-3-2)语义监督模块输 出的特征图C同时进行四次上采样,分别得到四路特征图D1、D2、D3、 D4,其中D1和B1、D2和B2、D3和B3、D4和B4的尺寸一致;
(1-4-3)在特征融合过程中,若当前特征融合模块位于神经网络的第四 层,只将特征图B4与特征图D4通过级联方式进行融合;若当前特征融 合模块位于神经网络的其它位置,则将特征图B3、特征图D3与神经网络 第三层特征融合模块输出的特征图、或特征图B2、特征图D2与神经网络 第二层特征融合模块输出的特征图、或特征图B1、特征图D1与神经网络 第一层特征融合模块输出的特征图通过级联方式进行融合;
(1-4-4)采用3×3的卷积核对步骤(1-4-3)融合的结果进行卷积运算,消 除上采样所带来的混叠效应,输出特征图。
(2)对神经网络进行训练优化
本发明对第一部分所搭建的神经网络进行训练优化,包括多路损失函 数设计和数据集增强两部分,具体步骤如下:
(2-1)多路损失函数设计
损失函数反映了模型预测的准确程度,切合实际问题的损失函数对模 型训练起到关键作用。
(2-1-1)输入测试图像,采用交叉熵损失函数来计算模型输出的显著性 图和测试图像的显著性真值图的损失。
(2-1-2)对模型输出的显著性图进行3×3卷积操作得到边缘图像,再将 边缘图像经过ReLu激活函数得到二值边缘图像,然后使用加权交叉熵损 失函数计算二值边缘图像和测试图像边缘的真值图的损失。
(2-1-3)将步骤(2-1-1)和步骤(2-1-2)两部分损失按式(1)进行加权相加, 式(1)给出了两部分损失的权重关系,Lall表示总损失,Lsal表示显著性区域 的损失,Ledge表示显著性边缘的损失,α为权重系数,其取值范围为[0,1]。
Lall=α×Lsal+(1-α)×Ledge (1)
(2-2)数据集增强
为了在一定程度上避免过拟合,本发明对数据集进行数据增强:(1)旋 转:将图像以8个不同角度进行旋转[0°,45°,…315°];(2)缩放:将图 像按照[1.5,0.5]倍数进行放大及缩小;(3)翻转:将图像按水平和垂直方 向进行翻转。
(3)完成对神经网络的训练
经过步骤(1)、步骤(2),完成对神经网络的训练。
(4)使用训练好的神经网络对输入图像进行检测:
使用步骤(3)中训练好的神经网络对输入图像进行检测,输出显著性区 域的图像。
本发明的技术构思为:在深度残差网络的基础上,设计了一种金字 塔特征增强模块,充分提取卷积网络中不同位置的特征信息;设计了一 种基于空间金字塔池化的语义监督模块,高效利用上下文语义信息;设 计了一种特征融合模块,以融合不同尺度下的特征信息,提升显著性检 测效果;设计了一种多路损失函数,考虑边缘损失的影响,细化显著性区域的边缘效果。
与现有技术相比,本方法具有以下有益效果:对具有复杂纹理信 息、各种颜色背景的图像也能检测出精确的显著性区域,检测结果更接 近真实值,并且分辨率更高,边缘精细,能够满足实时性检测的要求。
附图说明
图1为本发明的内容框图,箭头所示为流程方向。
图2为本发明中低层特征增强子模块L-FE的示意图,箭头所示为处 理方向。
图3为本发明中中层特征增强子模块M-FE的示意图,箭头所示为处 理方向。
图4为本发明中高层特征增强子模块H-FE的示意图,箭头所示为处 理方向。
图5为本发明中语义监督模块SSM的示意图,箭头所示为处理方向。
图6为本发明中特征融合模块M的示意图,箭头所示为处理方向。
图7为本发明的总体网络结构图,箭头所示为处理方向。
图8为本发明方法与其他方法的检测结果对比图,其中,(a)行为待 检测图像、(b)行为UCF算法的显著性检测结果、(c)行为DGRL算法的显 著性检测结果、(d)行为PAGR算法的显著性检测结果、(e)行为PICANet 算法的显著性检测结果、(f)行为本发明的显著性检测结果、(g)行为(a)行的 真值图。
具体实施方式
下面结合实施例和附图来详细描述本发明,但本发明并不仅限于 此。
本发明方法选用运行的计算机硬件配置为Intel(R)Xeon(R)E5-2678 CPU@2.50GHz,GPU为GeForce GTX TITAN Xp,显存为12GB,内存 为16GB;软件环境为64位的Ubuntu 16.04系统、PyTorch0.4.1和Matlab R2017b。显著性检测模型的检测指标主要包括:平均绝对误差(Mean Absolute Error,MAE)、F值(F-Measure)。
如图1所示,一种基于深度残差网络的视觉显著性检测方法,包括以 下四个部分:
(1)视觉显著性检测神经网络的搭建,包括四个子步骤:
(1-1)以深度残差网络为基础网络结构;
(1-2)在深度残差网络中配合设置金字塔特征增强模块;
(1-3)在深度残差网络中配合设置基于空间金字塔池化的语义监 督模块;
(1-4)在深度残差网络中增加特征融合模块。
(2)对神经网络进行训练优化;
(3)完成对神经网络的训练;
(4)使用训练好的神经网络对输入图像进行检测。
第一部分视觉显著性检测神经网络搭建具体包括:
(1-1)以深度残差网络为基础网络结构
本发明选用深度残差网络RseNet-50为基础网络结构。
(1-2)在深度残差网路中配合设置金字塔特征增强模块
金字塔特征增强模块包括低层特征增强子模块、中层特征增强子模块、 高层特征增强子模块,网络结构分别如图2、3、4所示。
(1-2-1)低层特征增强子模块采用一个重叠池化层,对深度残差网络第 一层的输出进行特征提取,减少低层网络的参数量,同时有效增大网络感 受野,接着,在卷积层之后设置了激活层,选用ReLu为激活函数,输出 特征图A1作为下一单元的输入。
(1-2-2)中层特征增强子模块采用3×3卷积核进行简单卷积提取特征, 然后,在卷积层之后设置了激活层,选用ReLu为激活函数,对深度残差 网络第二层的输出进行特征提取,输出特征图A2作为下一单元的输入。
(1-2-3)高层特征增强子模块采用一个重叠池化层,有效提取上下文信 息,并在池化层后采用1×1、3×3、5×5三种不同卷积核对图像进行特 征提取;接着,在池化层后设置了激活层,选用ReLu为激活函数;然后, 采用级联的方式将上述得到三种特征图像进行合并重组,对深度残差网络 第三层、第四层的输出进行特征提取,输出特征图A3、A4作为下一单元 的输入。
通过金字塔特征增强模块,针对性地对不同卷积层进行特征增强,高 效处理特征信息,从而提升显著性检测效果。在使用金字塔特征增强模块 后,在SOD测试集上,客观指标MAE降低到0.106,F-Measure提高到 0.873。
(1-3)在深度残差网路中配合设置基于空间金字塔池化的语义监督模 块
本发明基于空间金字塔结构上,设计了一种语义监督模块,引导深度 残差网络中的顶层特征信息对各层卷积进行语义监督。
(1-3-1)如图5所示,对深度残差网络中输出的顶层特征采用一个1×1 标准卷积和两个3×3的采样率分别为6、12的空洞卷积对深度残差网络 的顶层特征进行特征提取,得到三幅特征图,有效捕获多尺度信息,聚合 不同区域的上下文信息。
(1-3-2)采用级联的方式将上述得到三幅特征图进行合并重组,构成新 的特征图,最后采用1×1的卷积核对新的特征图进行卷积,使得输出特 征图的通道数和输入的原始特征图一致,输出特征图C作为下一单元的输 入。
通过语义监督模块,在网络上采样过程中,高效结合网络顶层中的语 义信息,改善显著性检测效果。在步骤(1-2)网络的基础上,进一步添加步 骤(1-3)语义监督模块后,在SOD测试集上,客观指标MAE降低到0.099, F-Measure提高到0.883。
(1-4)增加特征融合模块
本发明设计了一种特征融合模块,将深度残差网络中的多路特征信息 进行高效融合,具体步骤如下:
(1-4-1)如图6所示,对步骤(1-2-1)、(1-2-2)和(1-2-3)输出的特征图 A1、A2、A3、A4,采用大小为1×1的卷积核进行卷积,分别得到特征 图B1、B2、B3、B4;
(1-4-2)使用双线性插值的上采样方法对步骤(1-3)输出的特征图C同 时进行四次上采样,如图6所示,分别得到四路特征图D1、D2、D3、D4, 其中D1和B1、D2和B2、D3和B3、D4和B4的尺寸一致;
(1-4-3)在特征融合过程中,如图7所示,若当前特征融合模块位于 神经网络的第四层,只将特征图B4与特征图D4通过级联方式进行融合; 若当前特征融合模块位于神经网络的其它位置,则将特征图B3、特征图 D3与神经网络第三层特征融合模块输出的特征图、或特征图B2、特征图 D2与神经网络第二层特征融合模块输出的特征图、或特征图B1、特征图 D1与神经网络第一层特征融合模块输出的特征图通过级联方式进行融 合;
如图7所示,第四层即顶层,为最下方的M,若融合模块不在顶层, 则融合模块M存在三路输入,其中的一路即为当前特征融合模块的上一 个融合模块的输出;
(1-4-4)采用3×3的卷积核对步骤(1-4-3)融合的结果进行卷积运算, 如图6所示。
通过特征融合模块,对不同尺度的特征进行高效融合,改善显著性检 测效果。
第二部分神经网络训练优化具体包括:
本发明对第一部分所搭建的神经网络进行训练优化,包括多路损失函 数设计和数据集增强两部分。
(2-1)多路损失函数设计
本发明设计了一种多路损失函数,对第一部分搭建的神经网络优化训 练过程。
(2-1-1)输入测试图像,采用交叉熵损失函数计算模型输出的显著性图 和测试图像的显著性真值图的损失;
这一路损失函数是为了计算显著性区域的损失;
(2-1-2)对显著性图进行3×3卷积操作得到边缘图像,再将边缘图像 经过ReLu激活函数得到二值边缘图像,然后使用加权交叉熵损失函数计 算二值边缘图像和测试图像边缘的真值图的损失;
这一路损失函数是为了计算显著性区域的边缘的损失;
(2-1-3)将步骤(2-1-1)和(2-1-2)两部分损失进行加权相加,式(1)给出了 两部分损失的权重关系。Lall表示总损失,Lsal表示显著性区域的损失,Ledge表示显著性边缘的损失,α为权重系数,此处取值为0.7。
Lall=α×Lsal+(1-α)×Ledge (1)
(2-2)数据集增强
本发明选择在DUTS-TR数据集上进行训练,该训练集包含10553张 图片,为了在一定程度上避免过拟合,本发明对数据集进行增强:(1)旋 转:将图像以8个不同角度进行旋转[0°,45°,…315°];(2)缩放:将图像 按照[1.5,0.5]倍数进行放大及缩小;(3)翻转:将图像按水平和垂直方向 进行翻转。将上述处理得到的图像均加入到训练集中。
通过对神经网络训练进行优化,在SOD测试集上,客观指标MAE 降低到0.099,F-Measure提高到0.883,FPS提升到42,主观检测效果也 更接近真实值、噪声更少。
第三部分完成对神经网络的训练具体包括:
经过第一部分和第二部分,在硬件配置为Intel(R)Xeon(R)E5-2678 CPU@2.50GHz,GPU为GeForce GTX TITAN Xp,显存为12GB,内存 为16GB、软件环境为64位的Ubuntu 16.04系统的计算机上,使用深度学 习框架PyTorch,其版本为0.4.1,完成对神经网络的训练。
第四部分使用训练好的神经网络对输入图像进行检测具体包括:
使用第三部分训练好的神经网络模型对输入图像进行检测,输出显著 性图像。图8为本发明方法与其他方法的检测结果对比图,其中图8(a)为 待检测图像、图8(b)为UCF算法的显著性检测结果、图8(c)为DGRL算 法的显著性检测结果、图8(d)为PAGR算法的显著性检测结果、图8(e)为 PICANet算法的显著性检测结果、图8(f)为本发明的显著性检测结果、图 8(g)为图8(a)的真值图。因此,本发明的检测结果更接近真实值,并且分 辨率更高,噪声更少,显著性区域的边缘更精细,且能够满足实时性检测 的要求。
Claims (8)
1.一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述方法包括以下步骤:
步骤1:搭建视觉显著性检测神经网络;
步骤2:对神经网络进行训练优化;
步骤3:完成对神经网络的训练;
步骤4:使用训练好的神经网络对输入图像进行检测,输出显著性区域的图像。
2.根据权利要求1所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述步骤1包括以下步骤:
步骤1.1:以深度残差网络为基础网络结构;
步骤1.2:在深度残差网络中配合设置金字塔特征增强模块,输出特征图A1、A2、A3、A4;
步骤1.3:在深度残差网络中配合设置基于空间金字塔池化的语义监督模块,输出特征图C;
步骤1.4:在深度残差网络中增加特征融合模块。
3.根据权利要求2所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述步骤1.2中,金字塔特征增强模块包括低层特征增强子模块、中层特征增强子模块、高层特征增强子模块;低层特征增强子模块采用重叠池化对深度残差网络第一层的输出进行特征提取,选用ReLu为激活函数,输出特征图A1;中层特征增强子模块采用3×3卷积核对深度残差网络第二层的输出进行特征提取,选用ReLu为激活函数,输出特征图A2;高层特征增强子模块先进行重叠池化运算,再采用1×1、3×3、5×5三种不同卷积核对深度残差网络第三层和第四层的输出进行特征提取,选用ReLu为激活函数,分别输出特征图A3和A4。
4.根据权利要求2所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述步骤1.3中,语义监督模块:
采用一个1×1标准卷积和两个3×3的采样率分别为6、12的空洞卷积对深度残差网络的顶层特征进行特征提取,得到三幅特征图;
将得到的三幅特征图采用级联的方式进行合并重组,构成新的特征图,最后采用1×1的卷积核对新的特征图进行卷积,输出特征图C。
5.根据权利要求2所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述步骤1.4中,特征融合模块的融合方法包括以下步骤:
步骤1.4.1:对金字塔特征增强模块输出的四路特征图A1、A2、A3、A4采用大小为1×1的卷积核进行卷积,分别得到特征图B1、B2、B3、B4;
步骤1.4.2:使用双线性插值的上采样方法对语义监督模块输出的特征图C同时进行四次上采样,分别得到四路特征图D1、D2、D3、D4,其中D1和B1、D2和B2、D3和B3、D4和B4的尺寸一致;
步骤1.4.3:若当前特征融合模块位于神经网络的第四层,则将特征图B4与特征图D4通过级联方式进行融合;若当前特征融合模块位于神经网络的其它位置,则将特征图B3、特征图D3与神经网络第三层特征融合模块输出的特征图、或特征图B2、特征图D2与神经网络第二层特征融合模块输出的特征图、或特征图B1、特征图D1与神经网络第一层特征融合模块输出的特征图通过级联方式进行融合;
步骤1.4.4:采用3×3的卷积核对步骤1.4.3融合的结果进行卷积运算,输出特征图。
6.根据权利要求1所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述步骤2中,对神经网络进行训练优化包括设置多路损失函数和数据集增强。
7.根据权利要求6所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:设置所述多路损失函数包括以下步骤:
步骤2.1:输入测试图像,采用交叉熵损失函数来计算模型输出的显著性图和测试图像的显著性真值图的损失;
步骤2.2:对模型输出的显著性图进行3×3卷积操作得到边缘图像,再将边缘图像经过ReLu激活函数得到二值边缘图像,然后使用加权交叉熵损失函数计算二值边缘图像和测试图像边缘的真值图的损失;
步骤2.3:将步骤2.1和步骤2.2两部分损失按式(1)进行加权相加,
Lall=α×Lsal+(1-α)×Ledge (1)
其中Lall表示总损失,Lsal表示显著性区域的损失,Ledge表示显著性边缘的损失,α为权重系数,其取值范围为[0,1]。
8.根据权利要求6所述的一种基于深度残差网络的视觉显著性检测方法,其特征在于:所述数据集增强包括将图像以若干不同角度进行旋转、将图像以若干倍数进行放大及缩小、将图像按水平和垂直方向反转。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389359.8A CN111797841B (zh) | 2020-05-10 | 2020-05-10 | 一种基于深度残差网络的视觉显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389359.8A CN111797841B (zh) | 2020-05-10 | 2020-05-10 | 一种基于深度残差网络的视觉显著性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797841A true CN111797841A (zh) | 2020-10-20 |
CN111797841B CN111797841B (zh) | 2024-03-22 |
Family
ID=72806713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010389359.8A Active CN111797841B (zh) | 2020-05-10 | 2020-05-10 | 一种基于深度残差网络的视觉显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797841B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258537A (zh) * | 2020-10-27 | 2021-01-22 | 重庆邮电大学 | 一种基于卷积神经网络的监督暗视觉图像边缘检测方法 |
CN112651981A (zh) * | 2020-12-23 | 2021-04-13 | 浙江工业大学 | 一种显著边缘特征提取模块引导网络的肠道疾病分割方法 |
CN113344997A (zh) * | 2021-06-11 | 2021-09-03 | 山西方天圣华数字科技有限公司 | 快速获取只含有目标对象的高清前景图的方法及系统 |
CN114693670A (zh) * | 2022-04-24 | 2022-07-01 | 西京学院 | 基于多尺度U-Net的直缝埋弧焊管焊缝缺陷超声检测方法 |
CN116823680A (zh) * | 2023-08-30 | 2023-09-29 | 深圳科力远数智能源技术有限公司 | 一种基于级联神经网络的混储电池识别去模糊方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706242A (zh) * | 2019-08-26 | 2020-01-17 | 浙江工业大学 | 一种基于深度残差网络的对象级边缘检测方法 |
-
2020
- 2020-05-10 CN CN202010389359.8A patent/CN111797841B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706242A (zh) * | 2019-08-26 | 2020-01-17 | 浙江工业大学 | 一种基于深度残差网络的对象级边缘检测方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258537A (zh) * | 2020-10-27 | 2021-01-22 | 重庆邮电大学 | 一种基于卷积神经网络的监督暗视觉图像边缘检测方法 |
CN112258537B (zh) * | 2020-10-27 | 2022-08-26 | 重庆邮电大学 | 一种基于卷积神经网络的监督暗视觉图像边缘检测方法 |
CN112651981A (zh) * | 2020-12-23 | 2021-04-13 | 浙江工业大学 | 一种显著边缘特征提取模块引导网络的肠道疾病分割方法 |
CN112651981B (zh) * | 2020-12-23 | 2024-04-19 | 浙江工业大学 | 一种显著边缘特征提取模块引导网络的肠道疾病分割方法 |
CN113344997A (zh) * | 2021-06-11 | 2021-09-03 | 山西方天圣华数字科技有限公司 | 快速获取只含有目标对象的高清前景图的方法及系统 |
CN114693670A (zh) * | 2022-04-24 | 2022-07-01 | 西京学院 | 基于多尺度U-Net的直缝埋弧焊管焊缝缺陷超声检测方法 |
CN116823680A (zh) * | 2023-08-30 | 2023-09-29 | 深圳科力远数智能源技术有限公司 | 一种基于级联神经网络的混储电池识别去模糊方法 |
CN116823680B (zh) * | 2023-08-30 | 2023-12-01 | 深圳科力远数智能源技术有限公司 | 一种基于级联神经网络的混储电池识别去模糊方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111797841B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN111126202B (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN112818903B (zh) | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN108537824B (zh) | 基于交替反卷积与卷积的特征图增强的网络结构优化方法 | |
CN111582316A (zh) | 一种rgb-d显著性目标检测方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
Al-Amaren et al. | RHN: A residual holistic neural network for edge detection | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN111967399A (zh) | 一种基于改进的Faster RCNN行为识别方法 | |
Wang et al. | Global contextual guided residual attention network for salient object detection | |
Zong et al. | A cascaded refined rgb-d salient object detection network based on the attention mechanism | |
CN114049503A (zh) | 一种基于非端到端深度学习网络的显著性区域检测方法 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN115631412A (zh) | 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法 | |
CN113780305A (zh) | 一种基于两种线索交互的显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |