CN117593517B - 基于互补感知跨视图融合网络的伪装目标检测方法 - Google Patents
基于互补感知跨视图融合网络的伪装目标检测方法 Download PDFInfo
- Publication number
- CN117593517B CN117593517B CN202410077773.3A CN202410077773A CN117593517B CN 117593517 B CN117593517 B CN 117593517B CN 202410077773 A CN202410077773 A CN 202410077773A CN 117593517 B CN117593517 B CN 117593517B
- Authority
- CN
- China
- Prior art keywords
- convolution
- normalization
- activation function
- foreground
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 230000000295 complement effect Effects 0.000 title claims abstract description 17
- 230000008447 perception Effects 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 98
- 238000013178 mathematical model Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000000750 progressive effect Effects 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000004965 Hartree-Fock calculation Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 208000037062 Polyps Diseases 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 244000213578 camo Species 0.000 description 3
- 235000009120 camo Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000122205 Chamaeleonidae Species 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000276438 Gadus morhua Species 0.000 description 1
- 108700019146 Transgenes Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于互补感知跨视图融合网络的伪装目标检测方法,包括:获取图像数据;构建跨视图融合网络;利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息,通过使用Transformer作为主干,配合之后的融合模块,解决了获取的语义的局部性问题;通过利用跨模态跨视角的互补信息,有效地发现在单个视角中难以识别的伪装线索,获取得到更完整的伪装对象区域。
Description
技术领域
本发明涉及图像伪装目标检测技术,特别涉及基于互补感知跨视图融合网络的伪装目标检测方法。
背景技术
伪装目标检测任务是给定图片或者视频,从而找到其中的伪装物体,其致力于寻找完美融入周围环境的伪装物体。与一般的目标检测不同,伪装目标检测是一项更具挑战性的任务,因为伪装的目标通常与其周围环境具有高度的内在相似性。近年来,伪装目标检测引起了计算机视觉研究者越来越多的关注和研究,并促进了许多下游任务的应用。伪装的物体可以大致分为两类:一类是自然界中为躲避天敌而自然伪装的物种,另一类是通过人工干预而被伪装的物体,由于伪装的物体通常具有不同的尺寸和不规则的形状,并且经常伴随着诸如遮挡之类的干扰,对精确分割提出了很大的挑战。
现有的方法大多是基于卷积神经网络(CNN)或Transformer,CNN模型通常在局部位置表现良好,并且能够获得更细粒度的特征。然而,由于卷积和权值共享的局部性质,CNN模型通常很难学习与空间相关的信息或更完整的全局语义。因此,开始用Transformer进行实验以建立模型,基于Transformer的模型具有强大的全局建模能力,进一步提高了伪装目标检测的性能。但这些基于CNN和Transformer的模型仍然存在一些缺陷:它们主要关注前景区域,往往导致前景-背景语义线索的同质性,进一步导致无法准确定位到伪装目标或定位伪装目标,无法获得完整的目标区域,并且分割出的边界不够准确。现有的伪装目标检测方法中还存在以下缺陷:
1)定位错误:现有的方法由于获取的语义不具有全局性,因此往往不能根据上下文信息定位到正确的伪装目标;
2)目标不完整:目前大多数的方法仅仅能定位到伪装目标,但是不能获得完整的目标区域和边界;
3)准确率不高:目前大多数利用模型进行预测所得到的准确率都不够高。
发明内容
发明目的:针对以上问题,本发明目的是提供一种基于互补感知跨视图融合网络的伪装目标检测方法。
技术方案:本发明的一种基于互补感知跨视图融合网络的伪装目标检测方法,包括以下步骤:
步骤1,获取图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集;
步骤2,构建跨视图融合网络,包括:
首先,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩;然后,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习,生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>;随后,利用跨视图融合模块对不同语义图之间进行交互融合,生成跨视图特征融合图/>;最后,使用渐进解码器将/>逐渐融合,生成最终预测图;
步骤3,利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;
步骤4,采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。
进一步,跨视图融合模块包括4个子模块,每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM。
进一步,原始语义引导模块O-GM,用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合,生成特征图,数学模型表达式为:
,
背景语义引导模块B-GM,用于将初始背景预测图和初始前景语义图相乘,生成特征图,并将/>和/>送入LCI融合模块进行融合,生成特征图/>,数学模型表达式为:
,
,
其中,⊙表示为逐元素相乘;
前景语义引导模块F-GM,用于将初始前景预测图与初始背景语义图/>相乘,生成特征图/>,并将/>和/>送入LCI融合模块进行融合,从而增强背景特征图中前景语义的权重,生成特征图/>,数学模型表达式为:
,
,
总语义引导模块T-GM,用于探索当和/>包含丰富的前景和背景语义时被分割的伪装对象,将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,并继续送入卷积-归一化-激活函数relu层,生成/>分支新的特征图;将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,生成/>分支新的特征图,然后将/>和/>两个分支新生成的特征图逐元素相乘,和/>连接/>生成的特征图一起送到LCI融合模块,生成特征图/>,数学模型表达式为:
,
其中,CBR表示堆叠的Conv-BN-ReLU层,Sigmoid表示激活函数sigmoid层,Ф表示通道连接操作,;
将特征图、/>、/>和/>沿通道连接在一起,生成特征图/>,作为每一个/>模块的输出项。
进一步,在利用LCI融合模块进行特征融合时,首先沿着channel维度将两个输入特征各分成4组,两个输入分组的通道块彼此连接;然后,将连接的通道块送入卷积-归一化-激活函数层,并与下一层的通道块相连接;最后,四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接,并送入卷积-归一化-激活函数relu层得到。
进一步,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括:
每个特征编码器均包括四层的Block块,在前景分支中利用特征编码器提取输入彩色图片的前景语义特征,再将前景语义特征输入至卷积层,生成特征图;
在背景分支中利用特征编码器提取输入彩色图片的背景语义特征,再将背景语义特征输入至卷积层,生成特征图。
进一步,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括:
在前景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>;
在背景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>。
进一步,使用渐进解码器将逐渐融合,生成最终预测图包括:
将特征图输入至一个卷积-归一化-激活函数relu层后,与特征图/>相加后,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,最后输入至一个卷积-归一化-激活函数relu层和卷积层后,生成通道数为1的黑白预测图。
进一步,在步骤3训练过程中,初始前景预测图由GT监督,初始背景预测图/>由1-GT监督,生成最终预测图由GT监督;监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加;其中GT表示真实结果图片,1-GT表示真实背景图片。
进一步,步骤1中的图像数据包括伪装图像数据、非伪装图像数据和背景图像数据,图像数据来源COD数据集。
有益效果:本发明与现有技术相比,其显著优点是:
本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息,解决了语义的单一性问题;通过使用Transformer作为主干,配合之后的融合策略,解决了获取的语义的局部性问题;通过利用跨模态跨视角的互补信息,所提出的CCFNet可以有效地发现在单个视角中难以识别的伪装线索,获取到更完整的伪装对象区域。
附图说明
图1为实施例中跨视图融合网络的结构示意图;
图2为实施例中跨视图融合模块的结构示意图;
图3为实施例中LCI融合模块的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。
本实施例所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,包括以下步骤:
步骤1,获取图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集。
在一个示例中,使用COD数据集作为图像数据,包括CHAMELEON、CAMO、COD10K和NC4K数据集,其中CAMO数据集包括1250个伪装图像和1250个非伪装图像。CHAMELEON数据集包含76张伪装图像,全部作为本示例中的测试集。NC4K数据集包括4121幅图像,是可用的最大测试数据集。而COD10K数据集是目前为止最大的基准,包含5066张伪装图像,3000张背景和1934张非伪装图像。选取COD10K的3040幅图像和CAMO的1000幅图像作为本示例中的训练集。将所有测试集和训练集的图像大小调整至,并使用随机翻转、裁剪和旋转来增强数据,最后测试的时候恢复到原尺寸大小。
步骤2,构建跨视图融合网络,包括:
首先,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩;然后,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习,生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>;随后,利用跨视图融合模块对不同语义图之间进行交互融合,生成跨视图特征融合图/>;最后,使用渐进解码器将/>逐渐融合,生成最终预测图。
如图1所示,跨视图融合网络包括2个并行的特征编码器、2个并行的金字塔式解码器、跨视图融合模块和渐进解码器。
具体地,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括:
每个特征编码器均包括四层的Block块,即前景分支的特征编码器包括4个前景模块(图1中为Block-F块),背景分支的特征编码器包括4个背景模块(图1中为Block-B块),在前景分支中利用特征编码器中的4个前景模块提取彩色图片的前景语义特征,再将前景语义特征输入至卷积层,生成特征图,/>,/>和/>;在背景分支中利用特征编码器中的4个背景模块提取彩色图片的背景语义特征,再将背景语义特征输入至卷积层,生成特征图/>,,/>和/>。
具体地,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括:
在前景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>;
在背景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>。
在最初的编码-解码过程之后,本示例获得聚焦于不同场景的语义信息的特征图。为了充分探索两种语义之间的互补性,并将伪装的对象与背景区分开来,又设计了SCF模块,两个分支相对应的每一层特征图都对应着一个SCF模块,即4层对应着4个SCF(例如和都送入对应的/>),每层的SCF模块相同,只是处理的尺寸大小不同。SCF通过四个子模块运行,每个子模块对应一个不同的视图。如图1所示,跨视图融合模块包括4个子模块,分别是/>,/>,/>和/>,如图2所示,每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM,每个子模块/>的输入为/>、/>、/>和/>,/>的输入项为/>和/>,/>的输出项为/>。
如图2所示,原始语义引导模块O-GM,用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合,生成特征图,数学模型表达式为:
,
背景语义引导模块B-GM,用于将初始背景预测图和初始前景语义图相乘,生成特征图,并将/>和/>送入LCI融合模块进行融合,生成特征图/>,数学模型表达式为:
,
,
其中,⊙表示为逐元素相乘;
前景语义引导模块F-GM,用于将初始前景预测图与初始背景语义图/>相乘,生成特征图/>,并将/>和/>送入LCI融合模块进行融合,从而增强背景特征图中前景语义的权重,生成特征图/>,数学模型表达式为:
,
,
总语义引导模块T-GM,用于探索当和/>包含丰富的前景和背景语义时被分割的伪装对象,将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,并继续送入卷积-归一化-激活函数relu层,生成/>分支新的特征图;将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,生成/>分支新的特征图,然后将/>和/>两个分支新生成的特征图逐元素相乘,和/>连接/>生成的特征图一起送到LCI融合模块,生成特征图/>,数学模型表达式为:
,
其中,CBR表示堆叠的Conv-BN-ReLU层,Sigmoid表示激活函数sigmoid层,Ф表示通道连接操作,;
将特征图、/>、/>和/>沿通道连接在一起,生成特征图/>。
如图3所示,以原始语义引导模块O-GM为例进行说明,在利用LCI融合模块进行特征融合时,首先沿着channel维度将两个输入特征各分成4组,两个输入分组的通道块彼此连接;然后,将连接的通道块送入卷积-归一化-激活函数层,并与下一层的通道块相连接;最后,四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接,并送入卷积-归一化-激活函数relu层得到。
具体地,使用渐进解码器将逐渐融合,生成最终预测图包括:
将特征图输入至一个卷积-归一化-激活函数relu层后,与特征图/>相加后,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,最后输入至一个卷积-归一化-激活函数relu层和卷积层后,生成通道数为1的黑白预测图。
步骤3,利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;
在一个示例中,在步骤3训练过程中,初始前景预测图由GT监督,初始背景预测图/>由1-GT监督,生成最终预测图由GT监督;监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加;其中GT表示真实结果图片,1-GT表示真实背景图片。
步骤4,采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。
为进一步验证本发明构建的伪目标检测模型的有效性和优异的检测性能,利用以下示例进行说明。设置模型相关超参数,将伪目标检测模型训练次数Epoch设置为60,将模型训练批次batch_size设置为8,学习率被初始化为3e-5,并使用乘数为0.9的poly策略进行调整。训练时使用的优化器为Adam优化器,损失函数是加权二元交叉熵损失和二元交叉熵。
对伪目标检测模型CCFNet进行多轮训练,模型训练完成之后将损失函数值最小的一轮模型参数保存。随后将保存的最好参数加载到伪目标检测模型中,然后将测试集数据输入到伪目标检测模型中,训练好的伪目标检测模型能够生成较为完整的伪装目标预测图。表1展示了在COD测试数据集上的定量结果,表明本发明中的伪目标检测模型性能优于目前最先进的方法。其中,表示预测图的空间结构相似性,/>表明精确率和召回率的测量,M表示预测图和GT之间的绝对差值,/>表示像素级的相似性和图像级的统计;随后,将该伪目标检测模型扩展到下游任务-息肉分割上,模型依然取得了较高的性能,能够很好的帮助医生对初始的息肉位置、大小进行判断,在几个息肉分割数据集上的具体的定量结果如表2所示,评判数值的高低表明本伪目标检测模型在分割息肉时的优越性能。其中mIoU和mDice表示真实值和预测值两个集合的交集和并集之比。
表1 COD的测试数据集上定量结果对比
注:- 表示数据不可得;↑表示数值越高性能越好;↓表示数值越低性能越好。
表2 测试数据集上定量结果对比
注:↑表示数值越高性能越好,↓表示数值越低性能越好。
Claims (6)
1.基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,包括以下步骤:
步骤1,获取图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集;
步骤2,构建跨视图融合网络,包括:
首先,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩;然后,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习,生成初始前景语义图Fi、初始背景语义图Bi、初始前景预测图Pf和初始背景预测图Pb;随后,利用跨视图融合模块对不同语义图之间进行交互融合,生成跨视图特征融合图最后,使用渐进解码器将逐渐融合,生成最终预测图;
步骤3,利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;
步骤4,采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果;
跨视图融合模块包括4个子模块SCFi,每个子模块SCFi包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM;
原始语义引导模块O-GM,用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合,生成特征图数学模型表达式为:
背景语义引导模块B-GM,用于将初始背景预测图和初始前景语义图相乘,生成特征图Fi ′,并将Fi ′和Bi送入LCI融合模块进行融合,生成特征图数学模型表达式为:
Fi ′=Fi⊙Pb
其中,⊙表示为逐元素相乘;
前景语义引导模块F-GM,用于将初始前景预测图pf与初始背景语义图Bi相乘,生成特征图Bi ′,并将Bi ′和Fi送入LCI融合模块进行融合,从而增强背景特征图中前景语义的权重,生成特征图数学模型表达式为:
Bi ′=Bi⊙Pf
总语义引导模块T-GM,用于探索当Fi和Bi包含丰富的前景和背景语义时被分割的伪装对象,将Fi送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和Bi相乘,并继续送入卷积-归一化-激活函数relu层,生成Fi分支新的特征图;将Bi送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和Fi相乘,生成Bi分支新的特征图,然后将Fi和Bi两个分支新生成的特征图逐元素相乘,和Fi连接Bi生成的特征图一起送到LCI融合模块,生成特征图数学模型表达式为:
Fi ′=CBR(Sigmoid(CBR(Fi))⊙Bi)
Bi ′=CBR(Sigmoid(CBR(Bi))⊙Fi)
其中,CBR表示堆叠的Conv-BN-ReLU层,Sigmoid表示激活函数sigmoid层,Ф表示通道连接操作,i=1,2,3,4;
将特征图和/>沿通道连接在一起,生成特征图/>作为每一个SCFi模块的输出项;
在利用LCI融合模块进行特征融合时,首先沿着channel维度将两个输入特征各分成4组,两个输入分组的通道块彼此连接;然后,将连接的通道块送入卷积-归一化-激活函数层,并与下一层的通道块相连接;最后,四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接,并送入卷积-归一化-激活函数relu层得到Ai。
2.根据权利要求1所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括:
每个特征编码器均包括四层的Block块,在前景分支中利用特征编码器提取输入彩色图片的前景语义特征,再将前景语义特征输入至卷积层,生成特征图Di ′;
在背景分支中利用特征编码器提取输入彩色图片的背景语义特征,再将背景语义特征输入至卷积层,生成特征图Ei ′。
3.根据权利要求2所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括:
在前景分支中,特征图D4 ′通过卷积-归一化-激活函数relu层生成特征图D4″,随后将D4″分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图F4,以及输入至与D3 ′逐元素相加,生成D3″;D3″分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图F3,以及输入至另一个卷积-归一化-激活函数relu层并与D2 ′相加,生成D2″;D2″分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图F2,以及输入至另一个卷积-归一化-激活函数relu层并与D1 ′相加,生成得到D1″;D1″分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图F1,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图Pf;
在背景分支中,特征图E4 ′通过卷积-归一化-激活函数relu层生成特征图E4″,随后将E4″分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图B4,以及输入至与E3 ′逐元素相加,生成E3″;E3″分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图B3,以及输入至另一个卷积-归一化-激活函数relu层并与E2 ′相加,生成E2″;E2″分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图B2,以及输入至另一个卷积-归一化-激活函数relu层并与E1 ′相加,生成得到E1″;E1″分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图B1,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图Pb。
4.根据权利要求3所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,使用渐进解码器将逐渐融合,生成最终预测图包括:
将特征图输入至一个卷积-归一化-激活函数relu层后,与特征图/>相加后,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,最后输入至一个卷积-归一化-激活函数relu层和卷积层后,生成通道数为1的黑白预测图。
5.根据权利要求1-4中任一项所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,在步骤3训练过程中,初始前景预测图Pf由GT监督,初始背景预测图Pb由1-GT监督,生成最终预测图由GT监督;监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加;其中GT表示真实结果图片,1-GT表示真实背景图片。
6.根据权利要求1所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,步骤1中的图像数据包括伪装图像数据、非伪装图像数据和背景图像数据,图像数据来源COD数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410077773.3A CN117593517B (zh) | 2024-01-19 | 2024-01-19 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410077773.3A CN117593517B (zh) | 2024-01-19 | 2024-01-19 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593517A CN117593517A (zh) | 2024-02-23 |
CN117593517B true CN117593517B (zh) | 2024-04-16 |
Family
ID=89917021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410077773.3A Active CN117593517B (zh) | 2024-01-19 | 2024-01-19 | 基于互补感知跨视图融合网络的伪装目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593517B (zh) |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8897570B1 (en) * | 2011-03-31 | 2014-11-25 | Raytheon Company | Detection of targets from hyperspectral imagery |
CN106934359A (zh) * | 2017-03-06 | 2017-07-07 | 重庆邮电大学 | 基于高阶张量子空间学习的多视角步态识别方法及系统 |
EP3480786A1 (en) * | 2017-11-03 | 2019-05-08 | Siemens Healthcare GmbH | Medical image object detection with dense feature pyramid network architecture in machine learning |
CN111832592A (zh) * | 2019-04-20 | 2020-10-27 | 南开大学 | Rgbd显著性检测方法以及相关装置 |
CN112097686A (zh) * | 2020-08-10 | 2020-12-18 | 安徽农业大学 | 一种基于二值条纹投影的伪装物体检测方法 |
CN112884893A (zh) * | 2021-03-15 | 2021-06-01 | 南京邮电大学 | 基于非对称卷积网络和注意力机制的跨视角图像生成方法 |
CN113159120A (zh) * | 2021-03-15 | 2021-07-23 | 浙江工商大学 | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 |
CN113298814A (zh) * | 2021-05-21 | 2021-08-24 | 浙江科技学院 | 一种基于渐进指导融合互补网络的室内场景图像处理方法 |
WO2021244621A1 (zh) * | 2020-06-04 | 2021-12-09 | 华为技术有限公司 | 基于全局引导选择性上下文网络的场景语义解析方法 |
CN113963170A (zh) * | 2021-09-06 | 2022-01-21 | 上海工程技术大学 | 一种基于交互式特征融合的rgbd图像显著性检测方法 |
CN114549958A (zh) * | 2022-02-24 | 2022-05-27 | 四川大学 | 基于上下文信息感知机理的夜间和伪装目标检测方法 |
CN114561423A (zh) * | 2022-03-25 | 2022-05-31 | 中国农业科学院作物科学研究所 | 一种用于检测蛋白质互作的检测方法及试剂盒 |
WO2022160430A1 (en) * | 2021-01-27 | 2022-08-04 | Dalian University Of Technology | Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera |
CN115346094A (zh) * | 2022-08-25 | 2022-11-15 | 杭州电子科技大学 | 一种基于主体区域引导的伪装目标检测方法 |
WO2022253113A1 (zh) * | 2021-06-01 | 2022-12-08 | 北京有竹居网络技术有限公司 | 定位方法、装置、电子设备和存储介质 |
CN116152800A (zh) * | 2023-02-22 | 2023-05-23 | 苏州科技大学 | 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质 |
CN116310693A (zh) * | 2023-04-06 | 2023-06-23 | 福州大学 | 基于边缘特征融合和高阶空间交互的伪装目标检测方法 |
CN116542924A (zh) * | 2023-04-28 | 2023-08-04 | 大连理工大学 | 一种前列腺病灶区域检测方法、装置及存储介质 |
CN116681831A (zh) * | 2023-06-02 | 2023-09-01 | 上海人工智能创新中心 | 一种自下而上的单图像全景重建方法、装置及计算机设备 |
CN116721112A (zh) * | 2023-08-10 | 2023-09-08 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN116935044A (zh) * | 2023-06-14 | 2023-10-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种多尺度引导和多层次监督的内镜息肉分割方法 |
CN117036711A (zh) * | 2023-08-23 | 2023-11-10 | 南京信息工程大学 | 一种基于注意力调节的弱监督语义分割方法 |
CN117036425A (zh) * | 2023-07-31 | 2023-11-10 | 安徽三联交通应用技术股份有限公司 | 点云分级决策配准方法、系统、设备及介质 |
CN117372464A (zh) * | 2022-06-30 | 2024-01-09 | 北京小米移动软件有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN117408698A (zh) * | 2023-10-20 | 2024-01-16 | 桂林电子科技大学 | 一种基于Transformer的对比多视图下庞氏骗局检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080085055A1 (en) * | 2006-10-06 | 2008-04-10 | Cerosaletti Cathleen D | Differential cluster ranking for image record access |
CN110245659B (zh) * | 2019-05-21 | 2021-08-13 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
CN112750140B (zh) * | 2021-01-21 | 2022-10-14 | 大连理工大学 | 基于信息挖掘的伪装目标图像分割方法 |
-
2024
- 2024-01-19 CN CN202410077773.3A patent/CN117593517B/zh active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8897570B1 (en) * | 2011-03-31 | 2014-11-25 | Raytheon Company | Detection of targets from hyperspectral imagery |
CN106934359A (zh) * | 2017-03-06 | 2017-07-07 | 重庆邮电大学 | 基于高阶张量子空间学习的多视角步态识别方法及系统 |
EP3480786A1 (en) * | 2017-11-03 | 2019-05-08 | Siemens Healthcare GmbH | Medical image object detection with dense feature pyramid network architecture in machine learning |
CN111832592A (zh) * | 2019-04-20 | 2020-10-27 | 南开大学 | Rgbd显著性检测方法以及相关装置 |
WO2021244621A1 (zh) * | 2020-06-04 | 2021-12-09 | 华为技术有限公司 | 基于全局引导选择性上下文网络的场景语义解析方法 |
CN112097686A (zh) * | 2020-08-10 | 2020-12-18 | 安徽农业大学 | 一种基于二值条纹投影的伪装物体检测方法 |
WO2022160430A1 (en) * | 2021-01-27 | 2022-08-04 | Dalian University Of Technology | Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera |
CN113159120A (zh) * | 2021-03-15 | 2021-07-23 | 浙江工商大学 | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 |
CN112884893A (zh) * | 2021-03-15 | 2021-06-01 | 南京邮电大学 | 基于非对称卷积网络和注意力机制的跨视角图像生成方法 |
CN113298814A (zh) * | 2021-05-21 | 2021-08-24 | 浙江科技学院 | 一种基于渐进指导融合互补网络的室内场景图像处理方法 |
WO2022253113A1 (zh) * | 2021-06-01 | 2022-12-08 | 北京有竹居网络技术有限公司 | 定位方法、装置、电子设备和存储介质 |
CN113963170A (zh) * | 2021-09-06 | 2022-01-21 | 上海工程技术大学 | 一种基于交互式特征融合的rgbd图像显著性检测方法 |
CN114549958A (zh) * | 2022-02-24 | 2022-05-27 | 四川大学 | 基于上下文信息感知机理的夜间和伪装目标检测方法 |
CN114561423A (zh) * | 2022-03-25 | 2022-05-31 | 中国农业科学院作物科学研究所 | 一种用于检测蛋白质互作的检测方法及试剂盒 |
CN117372464A (zh) * | 2022-06-30 | 2024-01-09 | 北京小米移动软件有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN115346094A (zh) * | 2022-08-25 | 2022-11-15 | 杭州电子科技大学 | 一种基于主体区域引导的伪装目标检测方法 |
CN116152800A (zh) * | 2023-02-22 | 2023-05-23 | 苏州科技大学 | 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质 |
CN116310693A (zh) * | 2023-04-06 | 2023-06-23 | 福州大学 | 基于边缘特征融合和高阶空间交互的伪装目标检测方法 |
CN116542924A (zh) * | 2023-04-28 | 2023-08-04 | 大连理工大学 | 一种前列腺病灶区域检测方法、装置及存储介质 |
CN116681831A (zh) * | 2023-06-02 | 2023-09-01 | 上海人工智能创新中心 | 一种自下而上的单图像全景重建方法、装置及计算机设备 |
CN116935044A (zh) * | 2023-06-14 | 2023-10-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种多尺度引导和多层次监督的内镜息肉分割方法 |
CN117036425A (zh) * | 2023-07-31 | 2023-11-10 | 安徽三联交通应用技术股份有限公司 | 点云分级决策配准方法、系统、设备及介质 |
CN116721112A (zh) * | 2023-08-10 | 2023-09-08 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN117036711A (zh) * | 2023-08-23 | 2023-11-10 | 南京信息工程大学 | 一种基于注意力调节的弱监督语义分割方法 |
CN117408698A (zh) * | 2023-10-20 | 2024-01-16 | 桂林电子科技大学 | 一种基于Transformer的对比多视图下庞氏骗局检测方法 |
Non-Patent Citations (7)
Title |
---|
"CCFNet: Cross-Complementary fusion network for RGB-D scene parsing of clothing images";Gao Xu等;《Journal of Visual Communication and Image Representation》;20230201;第90卷;第1-13页 * |
"Combining Semantic Guidance and Deep Reinforcement Learning For Generating Human Level Paintings";Jaskirat Singh等;《Computer Vision and Pattern Recognition》;20201125;第231-243页 * |
"Complementarity-Aware Attention Network for Salient Object Detection";Junxia Li等;《IEEE TRANSACTIONS ON CYBERNETICS》;20220228;第52卷(第2期);第873-886页 * |
"Semantic guidance network for video captioning";Lan Guo等;《Scientific Reports 》;20230926;第13卷;第223-234页 * |
"前景与背景交互融合网络用于伪装目标检测";魏明军等;《哈尔滨理工大学学报》;20231206;第1-12页 * |
"基于互补信息融合的显著性目标检测方法研究";王梓洋等;《中国优秀硕士学位论文全文数据库》;20230115(第第1期期);第I138-1312页 * |
"跨模态交互融合与全局感知的RGB-D显著性目标检测";孙福明等;《软件学报》;20230615;第1-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117593517A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | PDNet: Prior-model guided depth-enhanced network for salient object detection | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN112633459A (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN111489396A (zh) | 利用临界边缘检测神经网络和几何模型确定相机参数 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN111639230B (zh) | 一种相似视频的筛选方法、装置、设备和存储介质 | |
CN113095158A (zh) | 一种基于对抗生成网络的笔迹生成方法及装置 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN112529068A (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN113450297A (zh) | 红外图像和可见光图像的融合模型构建方法及系统 | |
CN115631192B (zh) | 一种阀门试压机的控制方法、装置、设备及介质 | |
CN117593517B (zh) | 基于互补感知跨视图融合网络的伪装目标检测方法 | |
She et al. | Facial image inpainting algorithm based on attention mechanism and dual discriminators | |
CN115797291A (zh) | 回路端子的识别方法、装置、计算机设备和存储介质 | |
CN114898447A (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 | |
CN114820755A (zh) | 一种深度图估计方法及系统 | |
CN114155524A (zh) | 单阶段3d点云目标检测方法及装置、计算机设备、介质 | |
CN117351246B (zh) | 一种误匹配对去除方法、系统及可读介质 | |
CN117611600B (zh) | 一种图像分割方法、系统、存储介质及设备 | |
Papadopoulos et al. | Modelling of material ageing with generative adversarial networks | |
Su et al. | No-reference Point Cloud Geometry Quality Assessment Based on Pairwise Rank Learning | |
Liu et al. | Sparse to Dense: LiDAR Point Cloud Upsampling by Multi-modal GAN | |
CN113255744B (zh) | 一种红外目标检测方法及系统 | |
WO2024114321A1 (zh) | 图像数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |