CN113780305A - 一种基于两种线索交互的显著性目标检测方法 - Google Patents
一种基于两种线索交互的显著性目标检测方法 Download PDFInfo
- Publication number
- CN113780305A CN113780305A CN202110913570.XA CN202110913570A CN113780305A CN 113780305 A CN113780305 A CN 113780305A CN 202110913570 A CN202110913570 A CN 202110913570A CN 113780305 A CN113780305 A CN 113780305A
- Authority
- CN
- China
- Prior art keywords
- capsule
- capsules
- feature
- network
- clue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 230000003993 interaction Effects 0.000 title claims abstract description 11
- 239000002775 capsule Substances 0.000 claims abstract description 120
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000001629 suppression Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的一种基于两种线索交互的显著性目标检测方法,所述检测方法包括:获取待检测图像,并将所述待检测图像翻转,获得增强图像信息;根据所述增强图像信息构建动态分组胶囊子网络提取所述待测图像的部分‑对象关系线索;根据所述增强图像信息采用密集高分辨率网络提取细节的对比度线索;采用注意力机制整合所述部分‑整体关系线索和所述对比度线索获得级联特征;根据所述级联特征预测最终显著性图,获得显著性预测图;对所述显著性预测图采用监督学习模型得到网络模型参数。获得了完整且精细的显著性预测图。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于两种线索交互的显著性目标检测方法。
背景技术
显著性目标检测旨在突出并分割出自然图像中最具视觉吸引力的物体或区域。作为一种重要的图像预处理的方式,近年来被应用于许多计算机视觉领域,如弱监督图像语义分割、视觉跟踪、目标识别、图像检索、视频压缩等。
早期的大多数方法通过提取图像的手工特征,例如颜色、纹理,来检测显著目标。然而,由于有限的特征表达能力,传统的方法遇到了性能瓶颈。鉴于深度卷积神经网络强大的表征能力,其已成功应用于显著性目标检测并实现了实质性的性能改进。
尽管卷积神经网络已经取得了不错的检测结果,但这些方法仍然面临着一些挑战。现有的基于神经网络的显著性目标检测方法,依靠学习到的每个图像区域的对比度信息来预测整个图像的显著性目标区域。未考虑图像不同部分之间的相关性,会导致显著对象分割不完整,难以提取复杂场景下图像的显著性图。
为了缓解上述问题,一些基于图像部分-整体关系的显著性检测方法被提出,利用胶囊网络研究了部分-整体关系在显著目标检测中的作用。该方法通过分析场景中的部分-整体关系,建立双流部分-对象分配网络,每个流的低级胶囊通过路由算法分配给它们熟悉的高级胶囊,发现熟悉的物体部分,从而将场景中的显著物体从复杂的背景中分割出来。
然而,该方法直接将胶囊划分为两组进行路由,导致网络探索的部分-整体关系不够准确,不足以在复杂的场景中分割完整的显著性区域,甚至错误标记周围环境。而且仅考虑了图像部分-整体关系线索,而忽略了图像的对比度线索,得到的显著图中的显著目标没有良好的细节,例如显著图模糊,边缘虚化等。
发明内容
鉴于上述问题,提出了本发明一种基于两种线索交互的显著性目标检测方法。
根据本发明的一个方面,提供了一种基于两种线索交互的显著性目标检测方法,所述检测方法包括:
获取待检测图像,并将所述待检测图像翻转,获得增强图像信息;
根据所述增强图像信息构建动态分组胶囊子网络提取所述待测图像的部分-对象关系线索;
根据所述增强图像信息采用密集高分辨率网络提取细节的对比度线索;
采用注意力机制整合所述部分-整体关系线索和所述对比度线索获得级联特征;
根据所述级联特征预测最终显著性图,获得显著性预测图;
对所述显著性预测图采用监督学习模型得到网络模型参数。
可选的,所述获取待检测图像,并将所述待检测图像翻转,获得增强图像信息具体包括:将所述待检测图像的左右部分以图像垂直中轴线为中心进行镜像对换,获得增强图像信息。
可选的,所述根据所述增强图像信息构建动态分组胶囊子网络提取所述待测图像的部分-对象关系线索具体包括:
将所述增强图像信息裁剪,获得裁剪图片;
将所述裁剪图片采用U型残差网络,提取深度语义特征Fr,产生第一浅层特征FL1和第二浅层特征FL2;所述深度语义特征Fr用于构建初始的矩阵胶囊;
将所述深度语义特征Fr转换为多个矩阵胶囊,每个所述矩阵胶囊包含一个4×4的姿态矩阵和一个激活值;
计算不同矩阵胶囊的姿态矩阵之间的曼哈顿距离来衡量胶囊之间的相关性,胶囊m和胶囊n之间的相关系数:
Lm,n=||σ(Capsm)-σ(Capsn)||1(m,n=1,2,...,16)
其中σ表示利用Sigmoid激活函数保证Lm,n在(0,1)之间;
拼接Lm,n,得到胶囊间相关矩阵:L∈R16×16;
重复动态分组和胶囊路由n次,获得最优部分-对象关系,将最后一个卷积胶囊层的激活值被用作下一阶段的特征映射。
可选的,所述根据所述增强图像信息采用密集高分辨率网络提取细节的对比度线索具体包括:
将所述增强图像信息采用下采样节点提取一组初始特征F0,其中下采样头由两个卷积层构成和四个残差块;
将所述初始特征F0输入到背景抑制模块,将部分-整体关系线索的特征映射生成空间注意力图,与初始特征F0进行逐像素相乘,提取对比度线索
Fbs=F0e[1+σ(Conv(FPO;β1))]
其中Fbs、F0和FPO分别为所述背景抑制模块、所述下采样节点和所述动态分组胶囊网络的输出,e为逐元素相乘运算,Conv(*;β1)为一个参数为β1的卷积块,负责将FPO的通道数转化为与F0相同的通道数,σ表示Sigmoid操作,以将权重图归一化到(0,1);
将所述背景抑制模块输出的特征Fbs输入密集高分辨率网络中提取精细的局部细节,获得所述局部细节的对比度线索;其中所述密集高分辨率网络是通过在HRNet中嵌入密集残差连接实现。
可选的,所述采用注意力机制整合所述部分-整体关系线索和所述对比度线索获得级联特征具体包括:
自分支特征Fself通过自分支通道相关单元获取对显著性图预测有用的当前线索的特征;
通过互分支加权空间注意力单元利用跨线索特征Fmutual生成空间相关性矩阵权重图,对增强后的自分支特征进行空间指导;
将指导后的特征与原始自通道特征Fself相加并卷积后作为自通道-互空间注意力模块的输出FSCMS。
可选的,所述根据所述级联特征预测最终显著性图,获得显著性预测图具体包括:
两个自通道-互空间模块输出特征Fout,Fout与第二浅层特征FL2和第一浅层特征FL1逐步级联并上采样,生成最终的预测显著性图:
Fmid=Conv(Cat(Up(Fout),FL2);β7)
P=Sigmoid(Conv(Cat(Up(Fmid),FL1);β8))
其中P为最终的显著性图,Up为双线性插值上采样操作。
可选的,所述对所述显著性预测图采用监督学习模型得到网络模型参数具体包括:
在训练数据集上,采用监督学习模型对预测的显著性图,端对端地完成算法网络训练,得到网络模型参数:
在训练数据集上,采用监督学习机制,求取网络模型中显著性图预测结果与真值的损失函数Ljoint:
Ljoint=LCE+Liou
其中LCE和Liou分别为交叉熵损失函数和IoU边界损失函数;
两者的定义分别为:
其中G(m,n)∈{0,1}为真值的每一个像素标签;P(m,n)∈{0,1}为预测显著性图每一个像素的概率;W为输入图像的宽度,H为输入图像的高度。
本发明提供的一种基于两种线索交互的显著性目标检测方法,对算法进行端对端地训练,通过训练整体的显著性检测网络后,得到模型参数;在训练显著性检测网络参数时,为避免训练数据集出现过拟合现象,对数据集DUTS-TR中的RGB图像进行水平翻转、随机裁剪的数据增广操作。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明公开的一种基于两种线索交互的显著性目标检测方法的流程图;
图2为本发明提出的一种基于两种线索交互的显著性目标检测方法的算法网络框图,其中,上半部分虚线框内为探索部分-整体关系的动态分组胶囊子网络,上半部分虚线框内为提取对比度线索的密集高分辨率子网络;
图3为本发明提出的U型残差网络框架示意图;
图4为本发明提出的背景抑制模块框架图;
图5为本发明提出的自通道-互空间模块框架图;
图6为本发明提出的评价结果仿真图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
如图1所示,一种基于两种线索交互的显著性目标检测方法,包括如下步骤:
(1)构建探索部分-对象关系子网络,探索输入的RGB图像中精确的部分-对象关系,以保证显著性图预测的完整性,其中:
如图2的上半部分所示,探索部分-对象关系子网络提取图像的部分-对象层次结构,利用U型残差网络提取用于构建初始胶囊的初始特征Fr,并产生第一浅层特征FL1和第二浅层特征FL2,然后构建动态分组子网络,将Fr构建为16个矩阵胶囊,利用动态分组策略用于胶囊网络路由过程,探索精确的部分-对象关系;
步骤1)构建动态分组胶囊子网络之前,首先使用U型残差网络提取RGB图像的深层语义特征。如图3所示,随机裁剪的输入图像(224×224×3)首先被送入六个基本残差块。为了进一步捕获全局信息,在编码器和解码器之间添加了一个由扩张卷积层(扩张率为2)组成的桥接块。对于解码器,每个块的输入是之前上采样的特征图和它们对应的编码特征图的级联,以整合高级上下文和低级细节。深层语义特征Fr被用于构建初始的矩阵胶囊,而浅层特征FL1和FL2在最后显著性图推理阶段用于恢复显著目标的边缘细节。
步骤2)首先,深层语义特征Fr被转换为矩阵胶囊(每个胶囊包含一个4×4的姿态矩阵和一个激活值)。如图2的顶部虚框中所示,不同编号的小圆圈表示不同类型的胶囊。考虑到胶囊间的相关性,所设计的动态分组策略被用于胶囊路由过程,鼓励高相关的胶囊被分入同一组,在组内进行胶囊路由,以探索复杂场景中更准确的部分-整体关系,同时减少胶囊的分配噪声。具体来说,所提出的动态分组策略包括三个步骤:计算胶囊间相关矩阵、确定每组初始胶囊、将高相关胶囊分入同一组;
第一步,通过计算不同胶囊的姿态矩阵之间的曼哈顿距离(即L1范数)来衡量胶囊之间的相关性程度,即胶囊m和胶囊n之间的相关系数:
Lm,n=||σ(Capsm)-σ(Capsn)||1(m,n=1,2,...,16) (1)
其中σ表示利用Sigmoid激活函数保证Lm,n在(0,1)之间,以减小运算量。最后,拼接Lm,n,得到胶囊间相关矩阵:L∈R16×16。
第二步,相关矩阵L∈R16×16中的Lm,n代表胶囊m和胶囊n之间的相关系数。相关系数越大,则两种胶囊之间的差异越大。那么L∈R16×16中最大值所对应的横坐标o1、纵坐标o2表示两个相关性最远的胶囊,即:
步骤3)胶囊路由
根据步骤(2)所得到的4组胶囊组在每组内进行胶囊路由。每个胶囊通过将其自身的姿态矩阵和可训练的视点变换矩阵相乘,为上层中的一个胶囊投票,即可通过寻找其姿态矩阵的这些投票之间的一致性来检测一个熟悉的对象。将最后一个卷积胶囊层的激活值被用作下一阶段的特征映射。
(2)构建提取对比度线索子网络,探索输入的RGB图像中精细的对比度线索,以保证预测的显著性图具有良好的局部细节,其中:
如图2下半部分所示,探索对比度线索子网络提取图像的局部良好细节,首先利用下采样头进行快速降采样,提取用于密集高分辨率网络的初始特征F0,然后将F0输入背景抑制模块,利用动态分组胶囊子网络的结果指导输入密集高分辨率网络的特征关注目标区域,并利用密集高分辨率网络提取良好细节的对比度线索;
步骤1)为了便于提取对比线索,如图2所示,首先将RGB图像输入通过下采样节点提取一组初始特征F0,其中下采样头由两个卷积层构成和四个残差块。
步骤2)为将显著性目标从杂乱或低对比度场景中准确地分割出来,考虑使用可以定位显著性对象位置的部分-对象关系线索来指导对比度线索的提取过程。为此,初始特征F0被送入如图4所示的背景抑制模块,将部分-整体关系线索的特征映射生成空间注意力图,与初始特征F0进行逐像素相乘,来引导对比度线索的提取,即:
Fbs=F0e[1+σ(Conv(FPO;β1))] (4)
其中Fbs、F0和FPO分别代表图2中背景抑制模块、下采样节点和动态分组胶囊网络的输出。e表示逐元素相乘运算。Conv(*;β1)表示一个参数为β1的卷积块,负责将FPO的通道数转化为与F0相同的通道数。σ表示Sigmoid操作,以将权重图归一化到(0,1)。通过上述操作,有利于提取的对比度线索在产生良好细节的同时有效地抑制复杂背景并突出显着对象区域。
步骤3)将由背景抑制模块输出的特征Fbs送入所设计的密集高分辨率网络(框架如图2中下半部分虚框)中提取精细的局部细节。其中密集高分辨率网络是通过在HRNet中嵌入密集残差连接实现的。由于这种密集的残差连接,最终的特征不仅融合了不同层的特征,而且还聚合了不同尺度的前一层的所有特征。任何密集高分辨率网络层学习的特征图都可以被最后一层访问。此外,当梯度反向传播时,部分信息可以直接到达每个中间层,而无需经过深层网络。这迫使中间层学习更多可区分的特征,从而便于训练且提高网络性能。
(3)构建自通道-互空间注意力模块,挖掘多尺度上下文信息及自线索通道维度上、跨线索空间上的长期依赖:
如图5所示,自通道-互空间注意力模块由两个单元组成:自分支通道相关单元和互分支加权空间注意力单元。首先自分支特征Fself通过自分支通道相关单元获取对显著性图预测有用的当前线索的特征,然后通过互分支加权空间注意力单元利用跨线索特征Fmutual生成空间相关性矩阵权重图,对增强后的自分支特征进行空间指导,最后将指导后的特征与原始自通道特征Fself相加并卷积后作为自通道-互空间注意力模块的输出FSCMS。
步骤1)为对显著区域显示出更高响应的通道分配更大的权重,本发明通过计算通道之间的相关矩阵,利用沿通道维度的长期依赖关系,从而为特征选择捕获更全面的通道特征。图5中的上半部分显示了所提出的自分支通道相关单元的详细结构。首先,应用1×1卷积和尺寸变换将自分支输入特征转换为之后,通过对Wq及其转置进行矩阵乘法和归一化操作,生成通道相关性矩阵。相关矩阵中的负值被ReLU激活函数抑制。最后,通过通道相关矩阵与原始自分支输入特征Fself的矩阵乘法得到自分支通道相关单元的输出特征FSCC。整个过程可以写成:
Wq=Nor(Reshape(Conv(Fself;β2))) (5)
其中,其中Nor(*)表示将通道相关矩阵中的值归一化为[0,1]。Reshape(*)表示将Fself从C1×H×W变换到C1×HW。
步骤2)来自双分支网络的两个线索包含不同的语义信息。部分-对象层次结构负责整个显着区域,而对比线索提供精确的细节。为了有效地结合来自上述两个线索的语义特征,本发明设计了一个互分支加权空间注意力单元来捕获两个线索之间的远程空间依赖性。图5中的下半部分显示了所提出的互分支加权空间注意力单元的详细结构。具体来说,通过在互分支加权空间注意力单元中使用一些加权洞卷积金字塔、尺寸变换、矩阵相乘等操作生成空间相关性注意力图,以进一步为自分支通道相关单元的输出特征FSCC提供空间指导。更具体地说,互分支的输入特征首先被送入加权洞卷积金字塔子模块,以提取其增强的多尺度上下文信息然后,与自分支通道相关单元类似,对FW-ASP进行1×1卷积和尺度变换操作,从而获得之后,通过对Wa及其转置进行矩阵乘法和归一化运算,生成空间相关矩阵。最后通过空间相关矩阵与自分支通道相关单元的输出特征FSCC作矩阵乘法,得到互分支加权空间注意力单元的输出特征FMWSA。
对于加权洞卷积金字塔子模块,如图5所示,首先采用具有不同膨胀率(即1、3、5和7)的洞卷积金字塔操作从互分支输入特征Fmutual来捕获一些初始多尺度上下文信息然后对输入特征Fmutual进行3×3卷积、全局平均池化及Sigmoid操作,以生成一组通道权重接着,使用通道权重Fweight对提取的FASP进行逐通道乘法以获得增强的多尺度上下文信息通过这样做,FASP中有用的多尺度特征将得到增强,同时一些干扰信息被抑制。加权洞卷积金字塔子模块的最终输出特征FW-ASP是通过FE-ASP与原始输入特征Fmutual相加后再进行卷积层得到的。
上述整个过程数学上可以表示为:
FASP=ASP(Fmutual) (7)
Fweight=σ(GAP(Conv(Fmutual;β3))) (8)
FE-ASP=Fweight e FASP (9)
FW-ASP=Conv(FE-ASP+Fmutual;β4) (10)
其中GAP是指全局平均池化操作。ASP是1、3、5、7不同扩张率的堆叠洞卷积的操作。最后,我们相加Fself和FMWSA,得到所提出的自通道-互空间模块的最终输出特征FSCMS,使得原始的自分支输入特征可以被保留,即:
FSCMS=Conv(Reshape'(FMWSA)+Fself;β6) (13)
如图2所示,本发明应用了两个自通道-互空间模块来整合两个线索的特征。当FPO是自分支特征并且FC是互分支特征时,部分-整体层次结构的局部细节基于对比线索得到增强。类似地,当FC是自分支特征,FPO是互分支特征时,对比线索的对象整体性基于部分-整体层次结构得到增强。最后,通过级联和获得来自两个自通道-互空间模块的最终输出特征Fout,即:
(4)结合浅层特征FL1和FL2,逐步上采样恢复分辨率,预测图像的显著性预测图:
上述两个自通道-互空间模块输出特征Fout的分辨率是56×56。若使用简单的线性插值操作,将Fout上采样到224×224的大小会导致对象边界模糊。借助具有更高分辨率并包含有关输入图像的更多细节的浅层特征来缓解。本发明通过利用来自U型残差网络的浅层特征FL1和FL2来帮助预测最终显着图以获得我们提出的模型中的准确边界。如图2上采样头所示,Fout与FL2和FL1逐步级联并上采样,生成最终的预测显著性图,这个过程可以用数学表示为:
Fmid=Conv(Cat(Up(Fout),FL2);β7) (15)
P=Sigmoid(Conv(Cat(Up(Fmid),FL1);β8)) (16)
其中P指最终的显著性图,Up指双线性插值上采样操作。
(5)训练算法网络得到模型参数
在训练数据集上,对步骤(4)的预测的显著性图采用监督学习模型,通过交叉熵损失函数和IoU边界损失函数,端对端地完成算法网络训练,得到网络模型参数:
在训练数据集上,采用监督学习机制,求取网络模型中显著性图预测结果与真值的损失函数Ljoint:
Ljoint=LCE+Liou (17)
其中LCE和Liou分别为交叉熵损失函数和IoU边界损失函数。两者的定义分别为:
其中G(m,n)∈{0,1}是真值的每一个像素标签。P(m,n)∈{0,1}是预测显著性图每一个像素的概率。W和H分别表示输入图像的宽度和高度。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1、仿真条件:所有仿真实验均在操作系统为Ubuntu 16.04.5,硬件环境为GPUNvidia GeForce GTX 1080Ti,采用PyTorch深度学习框架实现;
2、仿真内容及结果分析:
仿真1
将本发明与现有的基于RGB图像的显著性检测方法在公共的五个RGB图像显著性检测数据集DUTS-TE、HKU-IS、ECSSD、DUT-OMRON、PASCAL-S上进行显著性检测实验,部分实验结果进行直观的比较。
相较于现有技术,本发明对复杂场景下的检测效果更好。得益于本发明中的部分-对象关系和对比度线索相结合,在复杂场景下能够更完整且精细的检测出显著性图,进而使目标的显著性结果结果更接近于人工标定的真值图。此外,得益于本发明中对两线索间的上下文信息空间信息的充分挖掘,使两线索充分结合并利用各自优势,复杂场景下的小目标能够更好地被分割出来,同时对于多目标图像也得到了较为完整的显著性检测结果。评价仿真结果如图6所示:
其中,(a)RGB图像;(b)真值图像;(c)本发明预测结果;(d)TSPOANet预测结果;(e)MINet预测结果;(f)F3Net预测结果;(g)EGNet预测结果;
(h)GCPANet预测结果;(i)SCRN预测结果;(j)AFNet预测结果;(k)PAGE预测结果;(l)JointCRF预测结果。从图6可以看出本发明对RGB图像预测的显著性图整体更完整,细节更精细,充分表明了本发明方法的有效性和优越性。
仿真2
将本发明与现有的基于RGB图像的显著性检测方法在公共的五个RGB图像显著性检测数据集DUTS-TE、HKU-IS、ECSSD、DUT-OMRON、PASCAL-S上进行显著性检测实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1所示:
其中:
Fmax、Favg分别表示查准率和查全率的加权调和的最大值和平均值;
Em表示将局部像素值与图像级均值相结合,共同评价预测与地面真实值的相似性;
Sm表示预测之间的对象感知和区域感知的结构相似性;
MAE表示归一化预测之间的平均像素绝对差。
Fmax、Favg、Em、Sm均为越高越好,MAE越低越好。从表1中可以看出本发明对RGB图像具有更准确的显著性分割能力,充分表明了本发明方法的有效性和优越性。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于两种线索交互的显著性目标检测方法,其特征在于,所述检测方法包括:
获取待检测图像,并将所述待检测图像翻转,获得增强图像信息;
根据所述增强图像信息构建动态分组胶囊子网络提取所述待测图像的部分-对象关系线索;
根据所述增强图像信息采用密集高分辨率网络提取细节的对比度线索;
采用注意力机制整合所述部分-整体关系线索和所述对比度线索获得级联特征;
根据所述级联特征预测最终显著性图,获得显著性预测图;
对所述显著性预测图采用监督学习模型得到网络模型参数。
2.根据权利要求1所述的一种基于两种线索交互的显著性目标检测方法,其特征在于,所述获取待检测图像,并将所述待检测图像翻转,获得增强图像信息具体包括:将所述待检测图像的左右部分以图像垂直中轴线为中心进行镜像对换,获得增强图像信息。
3.根据权利要求1所述的一种基于两种线索交互的显著性目标检测方法,其特征在于,所述根据所述增强图像信息构建动态分组胶囊子网络提取所述待测图像的部分-对象关系线索具体包括:
将所述增强图像信息裁剪,获得裁剪图片;
将所述裁剪图片采用U型残差网络,提取深度语义特征Fr,产生第一浅层特征FL1和第二浅层特征FL2;所述深度语义特征Fr用于构建初始的矩阵胶囊;
将所述深度语义特征Fr转换为多个矩阵胶囊,每个所述矩阵胶囊包含一个4×4的姿态矩阵和一个激活值;
计算不同矩阵胶囊的姿态矩阵之间的曼哈顿距离来衡量胶囊之间的相关性,胶囊m和胶囊n之间的相关系数:
Lm,n=||σ(Capsm)-σ(Capsn)||1(m,n=1,2,...,16)
其中σ表示利用Sigmoid激活函数保证Lm,n在(0,1)之间;
拼接Lm,n,得到胶囊间相关矩阵:L∈R16×16;
重复动态分组和胶囊路由n次,获得最优部分-对象关系,将最后一个卷积胶囊层的激活值被用作下一阶段的特征映射。
4.根据权利要求1所述的一种基于两种线索交互的显著性目标检测方法,其特征在于,所述根据所述增强图像信息采用密集高分辨率网络提取细节的对比度线索具体包括:
将所述增强图像信息采用下采样节点提取一组初始特征F0,其中下采样头由两个卷积层构成和四个残差块;
将所述初始特征F0输入到背景抑制模块,将部分-整体关系线索的特征映射生成空间注意力图,与初始特征F0进行逐像素相乘,提取对比度线索
Fbs=F0e[1+σ(Conv(FPO;β1))]
其中Fbs、F0和FPO分别为所述背景抑制模块、所述下采样节点和所述动态分组胶囊网络的输出,e为逐元素相乘运算,Conv(*;β1)为一个参数为β1的卷积块,负责将FPO的通道数转化为与F0相同的通道数,σ表示Sigmoid操作,以将权重图归一化到(0,1);
将所述背景抑制模块输出的特征Fbs输入密集高分辨率网络中提取精细的局部细节,获得所述局部细节的对比度线索;其中所述密集高分辨率网络是通过在HRNet中嵌入密集残差连接实现。
5.根据权利要求1所述的一种基于两种线索交互的显著性目标检测方法,其特征在于,所述采用注意力机制整合所述部分-整体关系线索和所述对比度线索获得级联特征具体包括:
自分支特征Fself通过自分支通道相关单元获取对显著性图预测有用的当前线索的特征;
通过互分支加权空间注意力单元利用跨线索特征Fmutual生成空间相关性矩阵权重图,对增强后的自分支特征进行空间指导;
将指导后的特征与原始自通道特征Fself相加并卷积后作为自通道-互空间注意力模块的输出FSCMS。
6.根据权利要求1所述的一种基于两种线索交互的显著性目标检测方法,其特征在于,所述根据所述级联特征预测最终显著性图,获得显著性预测图具体包括:
两个自通道-互空间模块输出特征Fout,Fout与第二浅层特征FL2和第一浅层特征FL1逐步级联并上采样,生成最终的预测显著性图:
Fmid=Conv(Cat(Up(Fout),FL2);β7)
P=Sigmoid(Conv(Cat(Up(Fmid),FL1);β8))
其中P为最终的显著性图,Up为双线性插值上采样操作。
7.根据权利要求1所述的一种基于两种线索交互的显著性目标检测方法,其特征在于,所述对所述显著性预测图采用监督学习模型得到网络模型参数具体包括:
在训练数据集上,采用监督学习模型对预测的显著性图,端对端地完成算法网络训练,得到网络模型参数:
在训练数据集上,采用监督学习机制,求取网络模型中显著性图预测结果与真值的损失函数Ljoint:
Ljoint=LCE+Liou
其中LCE和Liou分别为交叉熵损失函数和IoU边界损失函数;
两者的定义分别为:
其中G(m,n)∈{0,1}为真值的每一个像素标签;P(m,n)∈{0,1}为预测显著性图每一个像素的概率;W为输入图像的宽度,H为输入图像的高度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913570.XA CN113780305B (zh) | 2021-08-10 | 2021-08-10 | 一种基于两种线索交互的显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913570.XA CN113780305B (zh) | 2021-08-10 | 2021-08-10 | 一种基于两种线索交互的显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780305A true CN113780305A (zh) | 2021-12-10 |
CN113780305B CN113780305B (zh) | 2024-03-12 |
Family
ID=78837246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110913570.XA Active CN113780305B (zh) | 2021-08-10 | 2021-08-10 | 一种基于两种线索交互的显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780305B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523888A (zh) * | 2023-05-08 | 2023-08-01 | 北京天鼎殊同科技有限公司 | 路面裂缝的检测方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
CN111986188A (zh) * | 2020-08-27 | 2020-11-24 | 深圳市智源空间创新科技有限公司 | 基于Resnet与LSTM的胶囊机器人排水管网缺陷识别方法 |
CN112069804A (zh) * | 2020-09-08 | 2020-12-11 | 天津大学 | 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 |
CN112906549A (zh) * | 2021-02-07 | 2021-06-04 | 同济大学 | 一种基于时空胶囊网络的视频行为检测方法 |
CN113139431A (zh) * | 2021-03-24 | 2021-07-20 | 杭州电子科技大学 | 基于深监督学习的图像显著性目标检测方法 |
CN113159120A (zh) * | 2021-03-15 | 2021-07-23 | 浙江工商大学 | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 |
-
2021
- 2021-08-10 CN CN202110913570.XA patent/CN113780305B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
CN111986188A (zh) * | 2020-08-27 | 2020-11-24 | 深圳市智源空间创新科技有限公司 | 基于Resnet与LSTM的胶囊机器人排水管网缺陷识别方法 |
CN112069804A (zh) * | 2020-09-08 | 2020-12-11 | 天津大学 | 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 |
CN112906549A (zh) * | 2021-02-07 | 2021-06-04 | 同济大学 | 一种基于时空胶囊网络的视频行为检测方法 |
CN113159120A (zh) * | 2021-03-15 | 2021-07-23 | 浙江工商大学 | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 |
CN113139431A (zh) * | 2021-03-24 | 2021-07-20 | 杭州电子科技大学 | 基于深监督学习的图像显著性目标检测方法 |
Non-Patent Citations (1)
Title |
---|
黄静;杨树国;刘子正;: "一种基于胶囊网络的图像检索方法", 电脑与电信, no. 06, 10 June 2020 (2020-06-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523888A (zh) * | 2023-05-08 | 2023-08-01 | 北京天鼎殊同科技有限公司 | 路面裂缝的检测方法、装置、设备及介质 |
CN116523888B (zh) * | 2023-05-08 | 2023-11-03 | 北京天鼎殊同科技有限公司 | 路面裂缝的检测方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113780305B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN109086777B (zh) | 一种基于全局像素特征的显著图精细化方法 | |
CN113673590B (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN109447897B (zh) | 一种真实场景图像合成方法及系统 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN113449735A (zh) | 一种超像素分割的语义分割方法及装置 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN113408540B (zh) | 一种合成孔径雷达图像叠掩区提取方法及存储介质 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113780305A (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
CN116934820A (zh) | 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN115631412A (zh) | 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法 | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
CN114708423A (zh) | 基于改进Faster RCNN的水下目标检测方法 | |
CN113505650A (zh) | 地形特征线提取方法及装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |