CN117593517A - 基于互补感知跨视图融合网络的伪装目标检测方法 - Google Patents

基于互补感知跨视图融合网络的伪装目标检测方法 Download PDF

Info

Publication number
CN117593517A
CN117593517A CN202410077773.3A CN202410077773A CN117593517A CN 117593517 A CN117593517 A CN 117593517A CN 202410077773 A CN202410077773 A CN 202410077773A CN 117593517 A CN117593517 A CN 117593517A
Authority
CN
China
Prior art keywords
convolution
foreground
generate
semantic
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410077773.3A
Other languages
English (en)
Other versions
CN117593517B (zh
Inventor
李军侠
宋秋阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202410077773.3A priority Critical patent/CN117593517B/zh
Publication of CN117593517A publication Critical patent/CN117593517A/zh
Application granted granted Critical
Publication of CN117593517B publication Critical patent/CN117593517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于互补感知跨视图融合网络的伪装目标检测方法,包括:获取图像数据;构建跨视图融合网络;利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息,通过使用Transformer作为主干,配合之后的融合模块,解决了获取的语义的局部性问题;通过利用跨模态跨视角的互补信息,有效地发现在单个视角中难以识别的伪装线索,获取得到更完整的伪装对象区域。

Description

基于互补感知跨视图融合网络的伪装目标检测方法
技术领域
本发明涉及图像伪装目标检测技术,特别涉及基于互补感知跨视图融合网络的伪装目标检测方法。
背景技术
伪装目标检测任务是给定图片或者视频,从而找到其中的伪装物体,其致力于寻找完美融入周围环境的伪装物体。与一般的目标检测不同,伪装目标检测是一项更具挑战性的任务,因为伪装的目标通常与其周围环境具有高度的内在相似性。近年来,伪装目标检测引起了计算机视觉研究者越来越多的关注和研究,并促进了许多下游任务的应用。伪装的物体可以大致分为两类:一类是自然界中为躲避天敌而自然伪装的物种,另一类是通过人工干预而被伪装的物体,由于伪装的物体通常具有不同的尺寸和不规则的形状,并且经常伴随着诸如遮挡之类的干扰,对精确分割提出了很大的挑战。
现有的方法大多是基于卷积神经网络(CNN)或Transformer,CNN模型通常在局部位置表现良好,并且能够获得更细粒度的特征。然而,由于卷积和权值共享的局部性质,CNN模型通常很难学习与空间相关的信息或更完整的全局语义。因此,开始用Transformer进行实验以建立模型,基于Transformer的模型具有强大的全局建模能力,进一步提高了伪装目标检测的性能。但这些基于CNN和Transformer的模型仍然存在一些缺陷:它们主要关注前景区域,往往导致前景-背景语义线索的同质性,进一步导致无法准确定位到伪装目标或定位伪装目标,无法获得完整的目标区域,并且分割出的边界不够准确。现有的伪装目标检测方法中还存在以下缺陷:
1)定位错误:现有的方法由于获取的语义不具有全局性,因此往往不能根据上下文信息定位到正确的伪装目标;
2)目标不完整:目前大多数的方法仅仅能定位到伪装目标,但是不能获得完整的目标区域和边界;
3)准确率不高:目前大多数利用模型进行预测所得到的准确率都不够高。
发明内容
发明目的:针对以上问题,本发明目的是提供一种基于互补感知跨视图融合网络的伪装目标检测方法。
技术方案:本发明的一种基于互补感知跨视图融合网络的伪装目标检测方法,包括以下步骤:
步骤1,获取图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集;
步骤2,构建跨视图融合网络,包括:
首先,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩;然后,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习,生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>;随后,利用跨视图融合模块对不同语义图之间进行交互融合,生成跨视图特征融合图/>;最后,使用渐进解码器将/>逐渐融合,生成最终预测图;
步骤3,利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;
步骤4,采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。
进一步,跨视图融合模块包括4个子模块,每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM。
进一步,原始语义引导模块O-GM,用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合,生成特征图,数学模型表达式为:
背景语义引导模块B-GM,用于将初始背景预测图和初始前景语义图相乘,生成特征图,并将/>和/>送入LCI融合模块进行融合,生成特征图/>,数学模型表达式为:
其中,⊙表示为逐元素相乘;
前景语义引导模块F-GM,用于将初始前景预测图与初始背景语义图/>相乘,生成特征图/>,并将/>和/>送入LCI融合模块进行融合,从而增强背景特征图中前景语义的权重,生成特征图/>,数学模型表达式为:
总语义引导模块T-GM,用于探索当和/>包含丰富的前景和背景语义时被分割的伪装对象,将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,并继续送入卷积-归一化-激活函数relu层,生成/>分支新的特征图;将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,生成分支新的特征图,然后将/>和/>两个分支新生成的特征图逐元素相乘,和/>连接/>生成的特征图一起送到LCI融合模块,生成特征图/>,数学模型表达式为:
其中,CBR表示堆叠的Conv-BN-ReLU层,Sigmoid表示激活函数sigmoid层,Ф表示通道连接操作,
将特征图、/>、/>和/>沿通道连接在一起,生成特征图/>,作为每一个/>模块的输出项。
进一步,在利用LCI融合模块进行特征融合时,首先沿着channel维度将两个输入特征各分成4组,两个输入分组的通道块彼此连接;然后,将连接的通道块送入卷积-归一化-激活函数层,并与下一层的通道块相连接;最后,四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接,并送入卷积-归一化-激活函数relu层得到
进一步,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括:
每个特征编码器均包括四层的Block块,在前景分支中利用特征编码器提取输入彩色图片的前景语义特征,再将前景语义特征输入至卷积层,生成特征图
在背景分支中利用特征编码器提取输入彩色图片的背景语义特征,再将背景语义特征输入至卷积层,生成特征图
进一步,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括:
在前景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>
在背景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>
进一步,使用渐进解码器将逐渐融合,生成最终预测图包括:
将特征图输入至一个卷积-归一化-激活函数relu层后,与特征图/>相加后,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,最后输入至一个卷积-归一化-激活函数relu层和卷积层后,生成通道数为1的黑白预测图。
进一步,在步骤3训练过程中,初始前景预测图由GT监督,初始背景预测图/>由1-GT监督,生成最终预测图由GT监督;监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加;其中GT表示真实结果图片,1-GT表示真实背景图片。
进一步,步骤1中的图像数据包括伪装图像数据、非伪装图像数据和背景图像数据,图像数据来源COD数据集。
有益效果:本发明与现有技术相比,其显著优点是:
本发明通过利用SCF模块获取前景与背景相互之间不同但互补的语义信息,解决了语义的单一性问题;通过使用Transformer作为主干,配合之后的融合策略,解决了获取的语义的局部性问题;通过利用跨模态跨视角的互补信息,所提出的CCFNet可以有效地发现在单个视角中难以识别的伪装线索,获取到更完整的伪装对象区域。
附图说明
图1为实施例中跨视图融合网络的结构示意图;
图2为实施例中跨视图融合模块的结构示意图;
图3为实施例中LCI融合模块的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。
本实施例所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,包括以下步骤:
步骤1,获取图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集。
在一个示例中,使用COD数据集作为图像数据,包括CHAMELEON、CAMO、COD10K和NC4K数据集,其中CAMO数据集包括1250个伪装图像和1250个非伪装图像。CHAMELEON数据集包含76张伪装图像,全部作为本示例中的测试集。NC4K数据集包括4121幅图像,是可用的最大测试数据集。而COD10K数据集是目前为止最大的基准,包含5066张伪装图像,3000张背景和1934张非伪装图像。选取COD10K的3040幅图像和CAMO的1000幅图像作为本示例中的训练集。将所有测试集和训练集的图像大小调整至,并使用随机翻转、裁剪和旋转来增强数据,最后测试的时候恢复到原尺寸大小。
步骤2,构建跨视图融合网络,包括:
首先,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩;然后,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习,生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>;随后,利用跨视图融合模块对不同语义图之间进行交互融合,生成跨视图特征融合图/>;最后,使用渐进解码器将/>逐渐融合,生成最终预测图。
如图1所示,跨视图融合网络包括2个并行的特征编码器、2个并行的金字塔式解码器、跨视图融合模块和渐进解码器。
具体地,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括:
每个特征编码器均包括四层的Block块,即前景分支的特征编码器包括4个前景模块(图1中为Block-F块),背景分支的特征编码器包括4个背景模块(图1中为Block-B块),在前景分支中利用特征编码器中的4个前景模块提取彩色图片的前景语义特征,再将前景语义特征输入至卷积层,生成特征图,/>,/>和/>;在背景分支中利用特征编码器中的4个背景模块提取彩色图片的背景语义特征,再将背景语义特征输入至卷积层,生成特征图/>,/>和/>
具体地,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括:
在前景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>
在背景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>
在最初的编码-解码过程之后,本示例获得聚焦于不同场景的语义信息的特征图。为了充分探索两种语义之间的互补性,并将伪装的对象与背景区分开来,又设计了SCF模块,两个分支相对应的每一层特征图都对应着一个SCF模块,即4层对应着4个SCF(例如都送入对应的/>),每层的SCF模块相同,只是处理的尺寸大小不同。SCF通过四个子模块运行,每个子模块对应一个不同的视图。如图1所示,跨视图融合模块包括4个子模块,分别是/>,/>,/>和/>,如图2所示,每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM,每个子模块/>的输入为/>、/>和/>,/>的输入项为/>和/>,/>的输出项为/>
如图2所示,原始语义引导模块O-GM,用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合,生成特征图,数学模型表达式为:
背景语义引导模块B-GM,用于将初始背景预测图和初始前景语义图相乘,生成特征图,并将/>和/>送入LCI融合模块进行融合,生成特征图/>,数学模型表达式为:
其中,⊙表示为逐元素相乘;
前景语义引导模块F-GM,用于将初始前景预测图与初始背景语义图/>相乘,生成特征图/>,并将/>和/>送入LCI融合模块进行融合,从而增强背景特征图中前景语义的权重,生成特征图/>,数学模型表达式为:
总语义引导模块T-GM,用于探索当和/>包含丰富的前景和背景语义时被分割的伪装对象,将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,并继续送入卷积-归一化-激活函数relu层,生成/>分支新的特征图;将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,生成分支新的特征图,然后将/>和/>两个分支新生成的特征图逐元素相乘,和/>连接/>生成的特征图一起送到LCI融合模块,生成特征图/>,数学模型表达式为:
其中,CBR表示堆叠的Conv-BN-ReLU层,Sigmoid表示激活函数sigmoid层,Ф表示通道连接操作,
将特征图、/>、/>和/>沿通道连接在一起,生成特征图/>
如图3所示,以原始语义引导模块O-GM为例进行说明,在利用LCI融合模块进行特征融合时,首先沿着channel维度将两个输入特征各分成4组,两个输入分组的通道块彼此连接;然后,将连接的通道块送入卷积-归一化-激活函数层,并与下一层的通道块相连接;最后,四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接,并送入卷积-归一化-激活函数relu层得到
具体地,使用渐进解码器将逐渐融合,生成最终预测图包括:
将特征图输入至一个卷积-归一化-激活函数relu层后,与特征图/>相加后,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,最后输入至一个卷积-归一化-激活函数relu层和卷积层后,生成通道数为1的黑白预测图。
步骤3,利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;
在一个示例中,在步骤3训练过程中,初始前景预测图由GT监督,初始背景预测图/>由1-GT监督,生成最终预测图由GT监督;监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加;其中GT表示真实结果图片,1-GT表示真实背景图片。
步骤4,采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。
为进一步验证本发明构建的伪目标检测模型的有效性和优异的检测性能,利用以下示例进行说明。设置模型相关超参数,将伪目标检测模型训练次数Epoch设置为60,将模型训练批次batch_size设置为8,学习率被初始化为3e-5,并使用乘数为0.9的poly策略进行调整。训练时使用的优化器为Adam优化器,损失函数是加权二元交叉熵损失和二元交叉熵。
对伪目标检测模型CCFNet进行多轮训练,模型训练完成之后将损失函数值最小的一轮模型参数保存。随后将保存的最好参数加载到伪目标检测模型中,然后将测试集数据输入到伪目标检测模型中,训练好的伪目标检测模型能够生成较为完整的伪装目标预测图。表1展示了在COD测试数据集上的定量结果,表明本发明中的伪目标检测模型性能优于目前最先进的方法。其中,表示预测图的空间结构相似性,/>表明精确率和召回率的测量,M表示预测图和GT之间的绝对差值,/>表示像素级的相似性和图像级的统计;随后,将该伪目标检测模型扩展到下游任务-息肉分割上,模型依然取得了较高的性能,能够很好的帮助医生对初始的息肉位置、大小进行判断,在几个息肉分割数据集上的具体的定量结果如表2所示,评判数值的高低表明本伪目标检测模型在分割息肉时的优越性能。其中mIoU和mDice表示真实值和预测值两个集合的交集和并集之比。
表1 COD的测试数据集上定量结果对比
注:- 表示数据不可得;↑表示数值越高性能越好;↓表示数值越低性能越好。
表2 测试数据集上定量结果对比
注:↑表示数值越高性能越好,↓表示数值越低性能越好。

Claims (9)

1.基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,包括以下步骤:
步骤1,获取图像数据,将图像数据进行预处理,将预处理之后的图像数据划分为训练集和测试集;
步骤2,构建跨视图融合网络,包括:
首先,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩;然后,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习,生成初始前景语义图、初始背景语义图/>、初始前景预测图/>和初始背景预测图/>;随后,利用跨视图融合模块对不同语义图之间进行交互融合,生成跨视图特征融合图/>;最后,使用渐进解码器将逐渐融合,生成最终预测图;
步骤3,利用图像数据训练集对跨视图融合网络进行训练,生成训练完成后的伪装目标检测模型;
步骤4,采集待检测图像,对待检测图像进行预处理,将预处理后的待检测图像输入至训练完成后的伪装目标检测模型中,生成当前伪装目标的检测结果。
2.根据权利要求1所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,跨视图融合模块包括4个子模块,每个子模块/>包括原始语义引导模块O-GM、背景语义引导模块B-GM、前景语义引导模块F-GM和总语义引导模块T-GM。
3.根据权利要求2所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,原始语义引导模块O-GM,用于将初始前景语义图和初始背景语义图通过LCI融合模块进行融合,生成特征图,数学模型表达式为:
背景语义引导模块B-GM,用于将初始背景预测图和初始前景语义图相乘,生成特征图,并将/>和/>送入LCI融合模块进行融合,生成特征图/>,数学模型表达式为:
其中,⊙表示为逐元素相乘;
前景语义引导模块F-GM,用于将初始前景预测图与初始背景语义图/>相乘,生成特征图/>,并将/>和/>送入LCI融合模块进行融合,从而增强背景特征图中前景语义的权重,生成特征图/>,数学模型表达式为:
总语义引导模块T-GM,用于探索当和/>包含丰富的前景和背景语义时被分割的伪装对象,将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,并继续送入卷积-归一化-激活函数relu层,生成/>分支新的特征图;将/>送入卷积-归一化-激活函数relu层和激活函数sigmoid层,随后将生成的特征图和/>相乘,生成/>分支新的特征图,然后将/>和/>两个分支新生成的特征图逐元素相乘,和/>连接/>生成的特征图一起送到LCI融合模块,生成特征图/>,数学模型表达式为:
其中,CBR表示堆叠的Conv-BN-ReLU层,Sigmoid表示激活函数sigmoid层,Ф表示通道连接操作,
将特征图、/>、/>和/>沿通道连接在一起,生成特征图/>,作为每一个/>模块的输出项。
4.根据权利要求3所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,在利用LCI融合模块进行特征融合时,首先沿着channel维度将两个输入特征各分成4组,两个输入分组的通道块彼此连接;然后,将连接的通道块送入卷积-归一化-激活函数层,并与下一层的通道块相连接;最后,四个通道块经过连接和卷积-归一化-激活函数relu层的特征图一起连接,并送入卷积-归一化-激活函数relu层得到
5.根据权利要求4所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,利用两个并行的特征编码器提取输入图片的前景语义特征和背景语义特征,再利用卷积分别对前景语义特征和背景语义特征进行通道压缩包括:
每个特征编码器均包括四层的Block块,在前景分支中利用特征编码器提取输入彩色图片的前景语义特征,再将前景语义特征输入至卷积层,生成特征图
在背景分支中利用特征编码器提取输入彩色图片的背景语义特征,再将背景语义特征输入至卷积层,生成特征图
6.根据权利要求5所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,分别利用金字塔式解码器对通道压缩后的前景语义特征和背景语义特征进行初始特征学习包括:
在前景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>
在背景分支中,特征图通过卷积-归一化-激活函数relu层生成特征图/>,随后将/>分别输入至卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至与/>逐元素相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层并与/>相加,生成得到/>;/>分别输入至一个卷积-归一化-激活函数relu层,生成前景语义特征图/>,以及输入至另一个卷积-归一化-激活函数relu层后又输入至卷积层,生成初始前景预测图/>
7.根据权利要求6所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,使用渐进解码器将逐渐融合,生成最终预测图包括:
将特征图输入至一个卷积-归一化-激活函数relu层后,与特征图/>相加后,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,再输入至一个卷积-归一化-激活函数relu层,与特征图/>相加,最后输入至一个卷积-归一化-激活函数relu层和卷积层后,生成通道数为1的黑白预测图。
8.根据权利要求1-7中任一项所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,在步骤3训练过程中,初始前景预测图由GT监督,初始背景预测图/>由1-GT监督,生成最终预测图由GT监督;监督的损失函数均为降低权重IOU函数和权重二元交叉熵函数相加;其中GT表示真实结果图片,1-GT表示真实背景图片。
9.根据权利要求1所述的基于互补感知跨视图融合网络的伪装目标检测方法,其特征在于,步骤1中的图像数据包括伪装图像数据、非伪装图像数据和背景图像数据,图像数据来源COD数据集。
CN202410077773.3A 2024-01-19 2024-01-19 基于互补感知跨视图融合网络的伪装目标检测方法 Active CN117593517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410077773.3A CN117593517B (zh) 2024-01-19 2024-01-19 基于互补感知跨视图融合网络的伪装目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410077773.3A CN117593517B (zh) 2024-01-19 2024-01-19 基于互补感知跨视图融合网络的伪装目标检测方法

Publications (2)

Publication Number Publication Date
CN117593517A true CN117593517A (zh) 2024-02-23
CN117593517B CN117593517B (zh) 2024-04-16

Family

ID=89917021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410077773.3A Active CN117593517B (zh) 2024-01-19 2024-01-19 基于互补感知跨视图融合网络的伪装目标检测方法

Country Status (1)

Country Link
CN (1) CN117593517B (zh)

Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080085055A1 (en) * 2006-10-06 2008-04-10 Cerosaletti Cathleen D Differential cluster ranking for image record access
US8897570B1 (en) * 2011-03-31 2014-11-25 Raytheon Company Detection of targets from hyperspectral imagery
CN106934359A (zh) * 2017-03-06 2017-07-07 重庆邮电大学 基于高阶张量子空间学习的多视角步态识别方法及系统
EP3480786A1 (en) * 2017-11-03 2019-05-08 Siemens Healthcare GmbH Medical image object detection with dense feature pyramid network architecture in machine learning
CN111832592A (zh) * 2019-04-20 2020-10-27 南开大学 Rgbd显著性检测方法以及相关装置
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
CN112097686A (zh) * 2020-08-10 2020-12-18 安徽农业大学 一种基于二值条纹投影的伪装物体检测方法
CN112884893A (zh) * 2021-03-15 2021-06-01 南京邮电大学 基于非对称卷积网络和注意力机制的跨视角图像生成方法
CN113159120A (zh) * 2021-03-15 2021-07-23 浙江工商大学 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN113298814A (zh) * 2021-05-21 2021-08-24 浙江科技学院 一种基于渐进指导融合互补网络的室内场景图像处理方法
WO2021244621A1 (zh) * 2020-06-04 2021-12-09 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
CN113963170A (zh) * 2021-09-06 2022-01-21 上海工程技术大学 一种基于交互式特征融合的rgbd图像显著性检测方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114561423A (zh) * 2022-03-25 2022-05-31 中国农业科学院作物科学研究所 一种用于检测蛋白质互作的检测方法及试剂盒
US20220230324A1 (en) * 2021-01-21 2022-07-21 Dalian University Of Technology Camouflaged object segmentation method with distraction mining
WO2022160430A1 (en) * 2021-01-27 2022-08-04 Dalian University Of Technology Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera
CN115346094A (zh) * 2022-08-25 2022-11-15 杭州电子科技大学 一种基于主体区域引导的伪装目标检测方法
WO2022253113A1 (zh) * 2021-06-01 2022-12-08 北京有竹居网络技术有限公司 定位方法、装置、电子设备和存储介质
CN116152800A (zh) * 2023-02-22 2023-05-23 苏州科技大学 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质
CN116310693A (zh) * 2023-04-06 2023-06-23 福州大学 基于边缘特征融合和高阶空间交互的伪装目标检测方法
CN116542924A (zh) * 2023-04-28 2023-08-04 大连理工大学 一种前列腺病灶区域检测方法、装置及存储介质
CN116681831A (zh) * 2023-06-02 2023-09-01 上海人工智能创新中心 一种自下而上的单图像全景重建方法、装置及计算机设备
CN116721112A (zh) * 2023-08-10 2023-09-08 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法
CN116935044A (zh) * 2023-06-14 2023-10-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN117036711A (zh) * 2023-08-23 2023-11-10 南京信息工程大学 一种基于注意力调节的弱监督语义分割方法
CN117036425A (zh) * 2023-07-31 2023-11-10 安徽三联交通应用技术股份有限公司 点云分级决策配准方法、系统、设备及介质
CN117372464A (zh) * 2022-06-30 2024-01-09 北京小米移动软件有限公司 图像处理方法、装置、计算机设备和存储介质
CN117408698A (zh) * 2023-10-20 2024-01-16 桂林电子科技大学 一种基于Transformer的对比多视图下庞氏骗局检测方法

Patent Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080085055A1 (en) * 2006-10-06 2008-04-10 Cerosaletti Cathleen D Differential cluster ranking for image record access
US8897570B1 (en) * 2011-03-31 2014-11-25 Raytheon Company Detection of targets from hyperspectral imagery
CN106934359A (zh) * 2017-03-06 2017-07-07 重庆邮电大学 基于高阶张量子空间学习的多视角步态识别方法及系统
EP3480786A1 (en) * 2017-11-03 2019-05-08 Siemens Healthcare GmbH Medical image object detection with dense feature pyramid network architecture in machine learning
CN111832592A (zh) * 2019-04-20 2020-10-27 南开大学 Rgbd显著性检测方法以及相关装置
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
WO2021244621A1 (zh) * 2020-06-04 2021-12-09 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
CN112097686A (zh) * 2020-08-10 2020-12-18 安徽农业大学 一种基于二值条纹投影的伪装物体检测方法
US20220230324A1 (en) * 2021-01-21 2022-07-21 Dalian University Of Technology Camouflaged object segmentation method with distraction mining
WO2022160430A1 (en) * 2021-01-27 2022-08-04 Dalian University Of Technology Method for obstacle avoidance of robot in the complex indoor scene based on monocular camera
CN112884893A (zh) * 2021-03-15 2021-06-01 南京邮电大学 基于非对称卷积网络和注意力机制的跨视角图像生成方法
CN113159120A (zh) * 2021-03-15 2021-07-23 浙江工商大学 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN113298814A (zh) * 2021-05-21 2021-08-24 浙江科技学院 一种基于渐进指导融合互补网络的室内场景图像处理方法
WO2022253113A1 (zh) * 2021-06-01 2022-12-08 北京有竹居网络技术有限公司 定位方法、装置、电子设备和存储介质
CN113963170A (zh) * 2021-09-06 2022-01-21 上海工程技术大学 一种基于交互式特征融合的rgbd图像显著性检测方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114561423A (zh) * 2022-03-25 2022-05-31 中国农业科学院作物科学研究所 一种用于检测蛋白质互作的检测方法及试剂盒
CN117372464A (zh) * 2022-06-30 2024-01-09 北京小米移动软件有限公司 图像处理方法、装置、计算机设备和存储介质
CN115346094A (zh) * 2022-08-25 2022-11-15 杭州电子科技大学 一种基于主体区域引导的伪装目标检测方法
CN116152800A (zh) * 2023-02-22 2023-05-23 苏州科技大学 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质
CN116310693A (zh) * 2023-04-06 2023-06-23 福州大学 基于边缘特征融合和高阶空间交互的伪装目标检测方法
CN116542924A (zh) * 2023-04-28 2023-08-04 大连理工大学 一种前列腺病灶区域检测方法、装置及存储介质
CN116681831A (zh) * 2023-06-02 2023-09-01 上海人工智能创新中心 一种自下而上的单图像全景重建方法、装置及计算机设备
CN116935044A (zh) * 2023-06-14 2023-10-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN117036425A (zh) * 2023-07-31 2023-11-10 安徽三联交通应用技术股份有限公司 点云分级决策配准方法、系统、设备及介质
CN116721112A (zh) * 2023-08-10 2023-09-08 南开大学 基于双分支解码器网络的水下伪装物体图像分割方法
CN117036711A (zh) * 2023-08-23 2023-11-10 南京信息工程大学 一种基于注意力调节的弱监督语义分割方法
CN117408698A (zh) * 2023-10-20 2024-01-16 桂林电子科技大学 一种基于Transformer的对比多视图下庞氏骗局检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
GAO XU等: ""CCFNet: Cross-Complementary fusion network for RGB-D scene parsing of clothing images"", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》, vol. 90, 1 February 2023 (2023-02-01), pages 1 - 13 *
JASKIRAT SINGH等: ""Combining Semantic Guidance and Deep Reinforcement Learning For Generating Human Level Paintings"", 《COMPUTER VISION AND PATTERN RECOGNITION》, 25 November 2020 (2020-11-25), pages 231 - 243 *
JUNXIA LI等: ""Complementarity-Aware Attention Network for Salient Object Detection"", 《IEEE TRANSACTIONS ON CYBERNETICS》, vol. 52, no. 2, 28 February 2022 (2022-02-28), pages 873 - 886 *
LAN GUO等: ""Semantic guidance network for video captioning"", 《SCIENTIFIC REPORTS 》, vol. 13, 26 September 2023 (2023-09-26), pages 223 - 234 *
孙福明等: ""跨模态交互融合与全局感知的RGB-D显著性目标检测"", 《软件学报》, 15 June 2023 (2023-06-15), pages 1 - 15 *
王梓洋等: ""基于互补信息融合的显著性目标检测方法研究"", 《中国优秀硕士学位论文全文数据库》, no. 1, 15 January 2023 (2023-01-15), pages 138 - 1312 *
魏明军等: ""前景与背景交互融合网络用于伪装目标检测"", 《哈尔滨理工大学学报》, 6 December 2023 (2023-12-06), pages 1 - 12 *

Also Published As

Publication number Publication date
CN117593517B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN111489396A (zh) 利用临界边缘检测神经网络和几何模型确定相机参数
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
Zeng et al. LEARD-Net: Semantic segmentation for large-scale point cloud scene
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111833282B (zh) 一种基于改进的DDcGAN模型的图像融合方法
CN111612717A (zh) 一种基于对抗网络的水面图像去反光修复方法和装置
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN114140623A (zh) 一种图像特征点提取方法及系统
CN114998566A (zh) 一种可解释的多尺度红外弱小目标检测网络设计方法
CN111539456B (zh) 一种目标识别方法及设备
CN113095158A (zh) 一种基于对抗生成网络的笔迹生成方法及装置
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN115661611A (zh) 一种基于改进Yolov5网络的红外小目标检测方法
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN115631192B (zh) 一种阀门试压机的控制方法、装置、设备及介质
CN117593517B (zh) 基于互补感知跨视图融合网络的伪装目标检测方法
CN114898447B (zh) 一种基于自注意力机制的个性化注视点检测方法及装置
CN116363518A (zh) 一种基于分焦平面偏振成像的伪装目标检测方法
Zou et al. YOLOv7‐EAS: A Small Target Detection of Camera Module Surface Based on Improved YOLOv7
CN114820755A (zh) 一种深度图估计方法及系统
CN117611600B (zh) 一种图像分割方法、系统、存储介质及设备
CN117351246B (zh) 一种误匹配对去除方法、系统及可读介质
Papadopoulos et al. Modelling of material ageing with generative adversarial networks
CN117557775B (zh) 基于红外和可见光融合的变电站电力设备检测方法及系统
Nan et al. Material-aware multiscale atrous convolutional network for prohibited items detection in x-ray image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant