CN117036736A - 基于pvt交互网络的显著性目标检测方法 - Google Patents
基于pvt交互网络的显著性目标检测方法 Download PDFInfo
- Publication number
- CN117036736A CN117036736A CN202310808706.XA CN202310808706A CN117036736A CN 117036736 A CN117036736 A CN 117036736A CN 202310808706 A CN202310808706 A CN 202310808706A CN 117036736 A CN117036736 A CN 117036736A
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- information
- pvt
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 230000002452 interceptive effect Effects 0.000 title claims description 13
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 230000010339 dilation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 229920002037 poly(vinyl butyral) polymer Polymers 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005496 tempering Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于PVT交互网络的显著性目标检测方法,通过PVT网络的逐层融合提取全局特征;为编码器块顶层设计高级语义信息融合模块充分挖掘高级特征的语义信息;为除顶层外的其他编码器块设计自我细化模块提取丰富的细节信息;高级语义信息以自顶向下传播以特征调和的方式与各级特征融合;密集轻量细化解码器不断融合高级语义信息和编码器有效信息感知多尺度信息,进一步扩大整个网络的感受野,不断细化显著物体。本发明能够提取任意给定图像中人眼最感兴趣目标内容,抑制背景干扰,更关注显著区域。
Description
技术领域
本发明涉及一种显著性目标检测方法,尤其涉及一种基于PVT交互网络的显著性目标检测方法,属于计算机视觉领域。
背景技术
近些年,新媒体行业的发展越来越迅速,短视频、图像推文等数字信息与人类生活的联系也越来越紧密,互联网中出现的图像视频信息,极大地丰富了人们原本的生活和娱乐方式。Facebook公司发布报告称该公司服务器平均每天收到用户上传的图片超过4.5亿张,这些图片数据还在不断的爆发式增长,由此可见,在如此海量的数字图像中提取有价值的信息,仅靠人类自身感官是难以完成的,这需要通过计算机来实现,也因此提出了对计算机视觉研究的更大挑战。
数字图像信息在网络资源传送中被广泛使用,因为其能够非常直观的反映出人类想要表达的内容,但是这些数字图像信息的有效识别是一个难题,哪怕通过计算机资源也会产生较大负担。因此就需要充分利用有限的计算机资源,更加关注数字图像信息中的重要内容,从而减轻搜集信息的负担。另外,基于人类视觉系统的特殊性,人们通常会特别注意图像中的关键区域,比如微信朋友圈中人物照片、美食照片和风景照片等,忽略背景区域中的无用信息,对快速处理图像有着重要作用。因此,如何将这种关注图像关键区域的能力应用到计算机中,从而完成复杂图像的处理任务,成为了当下计算机视觉研究者研究的重点内容。
近年来,由于Ronneberger等人提出的U型结构能够通过构建多层次自上而下的路径来提取丰富的特征信息,并取得良好的性能,因此受到极大的关注。例如,Cheng等人所提出的许多网络均采用U型多尺度分层编码器-解码器结构作为网络基本结构。然而,上述方法是通过具有局部感受野的卷积操作进行特征提取,对于一些场景中依赖全局语义信息进行显著性目标检测的情况,无法很好地捕捉到全局上下文的相关性。并且上述方法使用跨层连接结构,将编码器的特征直接连接到解码器,缺乏干扰控制,会将误导性的上下文信息引入解码器,导致各层真正有用的特征不能被充分利用。此外,这些方法并未充分考虑各层特征之间的关系以及提供的信息,对信息的挖掘不充分,不能得到丰富的上下文信息。如今基于卷积神经网络(CNN)的工作大多数使用预先训练好的图像分类模型进行显著性检测,如VGG和ResNet作为编码器,重点通过聚合多级特征来设计有效的解码器。然而,由于卷积神经网络(CNN)的模型结构特点是针对局部信息汇聚建模,难以对长周期进行建模,对于一些场景中依赖全局语义信息进行显著性目标检测的情况,无法很好地捕捉到全局上下文信息。因此从复杂场景中准确完整提取出显著性目标仍然具有很大的挑战性。近期我们发现金字塔视觉变压器(Pyramid Vision Transformer,PVT)在图像处理中具有完整序列的远程依赖关系擅长全局依赖关系建模,为完整提取出显著性目标开辟了新的道路。
发明内容
本发明的目的在于提出了一种基于PVT交互网络的显著性目标检测方法。
为解决上述技术问题,本发明要解决的技术方案是:一种基于PVT交互网络的显著性目标检测方法,包括以下步骤:
步骤1:图像预处理:将输入图像大小调整为预设大小的张量X;
步骤2:建立PVT交互网络:PVT交互网络包括第一至第四特征处理单元和高级语义融合模块ASFM;第一至第三特征处理单元结构相同;第一特征处理单元包括特征编码器PVTE1、自我细化模块SRM1、特征调和和密集轻量细化解码器DLRB1;第四特征处理单元包括特征编码器PVTE4和高级语义融合模块ASFM;张量X依次经特征编码器PVTE1-PVTE4处理后,得到第一至第四特征张量;
第四特征张量与其相邻特征张量经过高级语义融合模块ASFM处理后得到第四高级语义信息;第一特征张量与其相邻特征张量经过第一处理单元处理得到第一编码器有效信息;第三编码器有效信息和第四高级语义信息通过特征调和后输入密集轻量细化解码器DLRB3;输出第一解码特征向量作为显著性图;
步骤3:检测显著性图:输入张量,经PVT交互网络处理后得到显著性图。
进一步,张量尺寸为256×256×3,第一至第四特征张量的尺寸分别为64×64×64、32×32×128、16×16×320、8×8×512。
进一步,特征编码器PVTE3和PVTE4输入高级语义融合模块,通过通道/空间注意力、卷积、激活和反向注意力操作,生成粗略显著图用于位置指导Pred;ASFM中的当前分支PVTE4经过三个扩张卷积扩大感受野,使用拼接-卷积运算对输出特征进行汇总融合,汇总融合后的特征通过通道注意机制来减少冗余信息,再经过空间注意力得到前景图通过反向注意操作得到背景图,并采用背景图在特征层面突出非显著区域,将得到的前景图和背景图拼接并融合记为/>相邻分支为当前分支提供全局辅助信息,之前到当前的分支记为/>经过有效协调后,两个分支的输出特征与原始分支特征集成记为/>集成后的特征通过特征选择激活,生成粗略显著图Pred用于位置指导。可表述为;
式中为元素相加,sigmod(·)为激活函数,conv1×1(·)为1x1的卷积层。
应用高级语义融合模块,可以综合协调准确地激活每个显著区域,有效融合多层次的高级语义信息,增强显著区域和非显著区域之间的对比度获得准确的位置指导图。
进一步,自我细化模块SRMi以相邻特征作为输入,经过采样操作使得特征尺度相同,然后通过通道拼接和卷积操作有效融合相邻特征的细节信息。自我细化模块SRMi对第一、第二和第三特征张量进行通道/空间注意力、反向注意力、卷积、上/下采样和CBR操作,从不同维度获取显著性目标细节信息。将得到的注意力图反转以获得反向注意力图此外将融合后的特征通过通道和空间注意力从全局挖掘细节信息,获得空间通道注意图最后,通过卷积层将三个结果相加并融合,以获得SRMi的输出/>可表述为:
式中conv3×3(·)为3x3的卷积层,⊙为按通道相乘,为逐元素相乘,Down(·)为下采样操作,Up(·)为上采样操作。conv1×1(·)为1x1的卷积层,SA(·)/CA(·)为空间/通道注意力,CBR为卷积、归一化、激活操作。
进一步,将包含高级语义信息的位置指导图与细节特征图通过特征调和生成最终的输出/>并将其输送到解码器中,生成解码器特征器的输出。可表述为:
其中密集轻量细化解码器DLRB3为与输入图像大小相同的显著性图;
特征编码器PVTE1-PVTE3特征输入自我细化模块SRMi中;自我细化模块SRMi从不同维度挖掘细节信息;特征调和将高级语义融合模块ASFM的输出进行降维操作并采用双线性插值法进行上采样,使其与SRMi的输出维度和尺度相同;编码器有效信息、高级语义融合模块ASFM输出与自我细化模块SRMi的输出融合后传入密集轻量细化解码器DLRB中。
更进一步,密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次卷积操作后采用1x1卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
采用上述技术方案,本发明取得如下技术效果:
本发明通过引入金字塔视觉变压器,能够对全局依赖关系进行强大建模,并获得更强大和稳健的特征;为编码器顶层设计高级语义融合模块ASFM来收集高级语义信息生成粗略显著图用于位置引导,并以自顶向下的渐进路径传播到各级特征;为了得到更多的显著图细节,我们为除顶层外的其他解码器块设计自我细化模块SRMi,挖掘低层特征中的细节信息,并与ASFM所提供的高级语义信息通过特征调和的方式进行融合,将编码器中更有效的上下文信息传入解码器中,提高全网的可辨别性;此外,我们采用特征交互策略通过协调相邻特征,全面挖掘相邻特征中包含的上下文信息,扩大特征交互的覆盖范围;同时引入密集轻量细化解码器DLRBi使高级语义信息和编码器细节信息更好地融合输出。
进一步,所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用2x2卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
进一步,所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用3x3卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
附图说明:
图1是本发明的框架图。
图2是本发明的高级语义融合模块ASFM的结构图。
图3是本发明实施例1的自我细化模块SRM的结构图。
图4是本发明实施例2的自我细化模块SRM的结构图。
图5是本发明实施例1的输入图像。
图6是本发明实施例1检测的显著性图。
具体实施方式:
实施例1:
参照图1,一种基于PVT交互网络的显著性目标检测方法,包括以下步骤:
步骤1:图像预处理:将输入图像大小调整为预设大小的张量X,本实施例中张量尺寸为256×256×3;
步骤2:建立PVT交互网络:PVT交互网络包括第一至第四特征处理单元和密集轻量细化解码器DLRB;第一至第三特征处理单元结构相同;第一特征处理单元包括特征编码器PVTE1、自我细化模块SRM1、特征调和和密集轻量细化解码器DLRB1;第四特征处理单元包括特征编码器PVTE4和高级语义融合模块ASFM;张量X依次经特征编码器PVTE1-PVTE4处理后,得到第一至第四特征张量;
第四特征张量与其相邻特征张量经过高级语义融合模块ASFM处理后得到第四高级语义信息;第一特征张量与其相邻特征张量经过第一处理单元处理得到第一编码器有效信息;第一编码器有效信息和第四高级语义信息通过特征调和后输入密集轻量细化解码器DLRB3;输出第一解码特征向量作为显著性图;
步骤3:检测显著性图:输入张量,经PVT交互网络处理后得到显著性图。
本实施例中第一至第四特征张量的尺寸分别为64×64×64、32×32×128、16×16×320、8×8×512;
在编码器顶层设计高级语义融合模块ASFM通过扩张卷积操作获得多尺度特征,进一步扩大感受野,收集全局上下文信息,更加准确地捕捉显著物体的确切位置;
特征编码器PVTE3和PVTE4输入高级语义融合模块,通过通道/空间注意力、卷积、激活和反向注意力操作,生成粗略显著图用于位置指导Pred。ASFM包括当前分支和之前分支两个分支,当前分支PVTE4记为经过三个扩张率分别为1、3、5的扩张卷积得到不同扩张率的特征/>扩大感受野,使用拼接-卷积运算对这些输出特征进行汇总融合,得到具有丰富上下文线索的特征/>汇总融合后的特征通过通道注意机制得到特征/>来减少冗余信息,然后,通过空间注意力得到前景图记为/>可表述为:
式中DConvσ(·)为扩张卷积,为具有3x3的卷积核,ri为扩张率,Convσ(·)为卷积层,Concat为通道轴之间的拼接操作,CA(·)为通道注意力,⊙为按通道相乘。
通过反向注意操作得到背景图并采用背景图在特征层面突出非显著区域,将得到的前景图和背景图拼接并融合记为/>可表述为:
式中为元素相减,SA(·)为空间注意力,/>为逐元素相乘,conv3×3(·)为3x3的卷积层,Concat为通道轴之间的拼接操作,SA(·)为空间注意力,/>为逐元素相乘,Down(·)为下采样操作。
相邻分支为当前分支提供全局辅助信息记为之前到当前的分支记为/>经过有效协调后,我们将这两个分支的输出特征与原始分支特征集成,然后将集成后的特征通过特征选择激活,生成粗略显著图Pred用于位置指导。可表述如下:
式中SA(·)为空间注意力,为逐元素相乘,Down(·)为下采样操作,/>为元素相加,sigmod(·)为激活函数,conv1×1(·)为1x1的卷积层。
应用高级语义融合模块,可以综合协调准确地激活每个显著区域,有效融合多层次的高级语义信息,增强显著区域和非显著区域之间的对比度获得准确的位置指导图。
将特征编码器PVTEi与其相邻的编码特征输入自我细化模块SRMi中;对特征张量进行通道/空间注意力、反向注意力、卷积、上/下采样和CBR操作,从不同维度获取显著性目标细节信息。可表述如下:
式中conv3×3(·)为3x3的卷积层,⊙为按通道相乘,Down(·)为下采样操作,Up(·)为上采样操作。
将得到的注意力图反转以获得反向注意力图此外将融合后的特征通过通道和空间注意力从全局挖掘细节信息,获得空间通道注意图/>最后,通过卷积层将三个结果相加并融合,以获得SRMi的输出/>
式中conv1×1(·)为1x1的卷积层,SA(·)/CA(·)为空间/通道注意力,⊙为按通道相乘,为逐元素相乘,CBR为卷积、归一化、激活操作。
为了防止高级语义信息在以自顶向下的路径中被稀释,我们采用特征调和聚合高级语义融合模块ASFM提供的高层特征到每个特征层的特征映射中,为各级解码器提供多尺度信息:
特征调和将高级语义融合模块ASFM的输出进行降维操作并采用双线性插值法进行上采样,使其与SRMi的输出维度和尺度相同;逐元素相乘融合语义和细节信息并在元素级加法不断融合各类特征;通过特征调和获取不同尺度的局部上下文信息,然后将这些信息进行组合,以保证不同尺度的特征地图可以有效融合。可表述为;
式中Up(·)为上采样操作,为逐元素相乘,/>为元素相加。
自我细化模块(SRMi),融合相邻分支,从不同维度捕捉低层特征中的细节,与ASFM生成的位置引导信息通过特征调和相融合,生成更加丰富、更加多样的上下文信息。
密集轻量细化解码器DLRB的处理过程:
将特征调和后的特征图作为输入,依次使用三个扩张率分别为2、4、6的深度可分离卷积DSConvs,扩张的DSConvs扩大了感受野,全面捕捉多尺度特征;在每个DSConvs后使用1×1卷积层,1×1卷积层负责合并捕获的特征;最后使用一个3×3卷积层负责去除特征合并后的混叠效应。以DLRB3为例可表述为:
式中为元素相加,conv1×1(·)为1x1的卷积层,DSconvr(·)为扩张可分离卷积,r为扩张率,conv3×3(·)为3x3的卷积层。
其中密集轻量细化解码器DLRB3为与输入图像大小相同的显著性图;
这样,DLRB可以感知多尺度信息,进一步扩大整个网络的感受野,并在细化阶段带来强大的特征表示。减少模型上采样导致的混叠效应并捕获更多细节信息。
实施例2:
与实施例1的区别在于,所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用2x2卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
实施例3:
与实施例1和实施例2的区别在于,所述密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用3x3卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
特别说明,目前,本发明的技术方案已经进行了中试,在小范围内开展了用户使用调研,调研结果表明用户满意度较高,即将开始准备开展成果转化,同时还进行了知识产权风险预警调研等工作。
Claims (8)
1.一种基于PVT交互网络的显著性目标检测方法,其特征在于,包括以下步骤:
步骤1:图像预处理:将输入图像大小调整为预设大小的张量X;
步骤2:建立PVT交互网络:PVT交互网络包括第一至第四特征处理单元和高级语义融合模块ASFM;第一至第三特征处理单元结构相同;第一特征处理单元包括特征编码器PVTE1、自我细化模块SRM1、特征调和和密集轻量细化解码器DLRB1;第四特征处理单元包括特征编码器PVTE4和高级语义融合模块ASFM;张量X依次经特征编码器PVTE1-PVTE4处理后,得到第一至第四特征张量;
第四特征张量与其相邻特征张量经过高级语义融合模块ASFM处理后得到第四高级语义信息;第一特征张量与其相邻特征张量经过第一处理单元处理得到第一编码器有效信息;第一编码器有效信息和第四高级语义信息通过特征调和后输入密集轻量细化解码器DLRB1;输出第一解码特征向量作为显著性图;
步骤3:检测显著性图:输入张量,经PVT交互网络处理后得到显著性图。
2.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法,其特征在于,输入张量尺寸为256×256×3,第一至第四特征张量的尺寸分别为64×64×64、32×32×128、16×16×320、8×8×512。
3.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法,其特征在于,特征编码器PVTE3和PVTE4输入高级语义融合模块,通过通道/空间注意力、卷积、激活和反向注意力操作,生成粗略显著图用于位置指导Pred;ASFM中的当前分支PVTE4经过三个扩张卷积扩大感受野,使用拼接-卷积运算对输出特征进行汇总融合,汇总融合后的特征通过通道注意机制来减少冗余信息,再经过空间注意力得到前景图通过反向注意操作得到背景图,并采用背景图在特征层面突出非显著区域,将得到的前景图和背景图拼接并融合记为/>相邻分支为当前分支提供全局辅助信息,之前到当前的分支记为/>经过有效协调后,两个分支的输出特征与原始分支特征集成记为/>集成后的特征通过特征选择激活,生成粗略显著图Pred用于位置指导,可表述为;
式中为元素相加,sigmod(·)为激活函数,conv1×1(·)为1x1的卷积层,
应用高级语义融合模块,可以综合协调准确地激活每个显著区域,有效融合多层次的高级语义信息,增强显著区域和非显著区域之间的对比度获得准确的位置指导图。
4.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法,其特征在于,自我细化模块SRMi以相邻特征作为输入,经过采样操作使得特征尺度相同,然后通过通道拼接和卷积操作有效融合相邻特征的细节信息,自我细化模块SRMi对第一、第二和第三特征张量进行通道/空间注意力、反向注意力、卷积、上/下采样和CBR操作,从不同维度获取显著性目标细节信息,将得到的注意力图反转以获得反向注意力图此外将融合后的特征通过通道和空间注意力从全局挖掘细节信息,获得空间通道注意图/>最后,通过卷积层将三个结果相加并融合,以获得SRMi的输出/>可表述为:
式中conv3×3(·)为3x3的卷积层,⊙为按通道相乘,为逐元素相乘,Down(·)为下采样操作,Up(·)为上采样操作,conv1×1(·)为1x1的卷积层,SA(·)/CA(·)为空间/通道注意力,CBR为卷积、归一化、激活操作。
5.根据权利要求1所述的基于PVT交互网络的显著性目标检测方法,其特征在于,将包含高级语义信息的位置指导图与细节特征图通过特征调和生成最终的输出/>
并将其输送到解码器中,生成解码器特征器的输出,可表述为:
其中密集轻量细化解码器DLRB3为与输入图像大小相同的显著性图;
特征编码器PVTE1-PVTE3特征输入自我细化模块SRMi中;自我细化模块SRMi从不同维度挖掘细节信息;特征调和将高级语义融合模块ASFM的输出进行降维操作并采用双线性插值法进行上采样,使其与SRMi的输出维度和尺度相同;编码器有效信息、高级语义融合模块ASFM输出与自我细化模块SRMi的输出融合后传入密集轻量细化解码器DLRB中。
6.根据权利要求5所述的基于PVT交互网络的显著性目标检测方法,其特征在于,密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用1x1卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
7.根据权利要求5所述的基于PVT交互网络的显著性目标检测方法,其特征在于,密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用2x2卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
8.根据权利要求书5所述的基于PVT交互网络的显著性目标检测方法,其特征在于,密集轻量细化解码器DLRB先把输入特征图用扩张率为{2,4,6}的深度可分离卷积进行卷积操作;在每次扩张卷积操作后采用3x3卷积合并捕获的特征;再用双线性插值法上采样得到原来尺寸的输出特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310808706.XA CN117036736A (zh) | 2023-07-04 | 2023-07-04 | 基于pvt交互网络的显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310808706.XA CN117036736A (zh) | 2023-07-04 | 2023-07-04 | 基于pvt交互网络的显著性目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036736A true CN117036736A (zh) | 2023-11-10 |
Family
ID=88634340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310808706.XA Pending CN117036736A (zh) | 2023-07-04 | 2023-07-04 | 基于pvt交互网络的显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036736A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911562A (zh) * | 2024-03-14 | 2024-04-19 | 深圳大学 | 一种全景图像显著性对象检测方法、装置、终端及介质 |
-
2023
- 2023-07-04 CN CN202310808706.XA patent/CN117036736A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911562A (zh) * | 2024-03-14 | 2024-04-19 | 深圳大学 | 一种全景图像显著性对象检测方法、装置、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
CN111046757B (zh) | 人脸画像生成模型的训练方法、装置及相关设备 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN117036736A (zh) | 基于pvt交互网络的显著性目标检测方法 | |
CN112652058A (zh) | 人脸图像重演方法、装置、计算机设备及存储介质 | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN114627353B (zh) | 一种图像描述生成方法、装置、设备、介质及产品 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN111246196B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN115953582A (zh) | 一种图像语义分割方法及系统 | |
CN113963170A (zh) | 一种基于交互式特征融合的rgbd图像显著性检测方法 | |
CN115481283A (zh) | 音视频特征提取方法、装置、电子设备及计算机可读存储介质 | |
CN115035213A (zh) | 一种图像编辑方法、装置、介质及设备 | |
CN114913061A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN117132456A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
Moskalenko et al. | AIM 2024 challenge on video saliency prediction: Methods and results | |
CN114494942A (zh) | 视频分类方法及装置、存储介质及电子设备 | |
CN113850158A (zh) | 一种视频特征提取方法 | |
Peng et al. | Viteraser: Harnessing the power of vision transformers for scene text removal with segmim pretraining | |
CN116069973B (zh) | 一种基于语义自挖掘的视频摘要生成方法 | |
CN116757956A (zh) | 一种智能立体图像去雾方法 | |
CN116051950A (zh) | 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测 | |
CN114419517B (zh) | 视频帧处理方法、装置、计算机设备及存储介质 | |
Zhou et al. | Multi‐directional feature refinement network for real‐time semantic segmentation in urban street scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |