CN117876706A - 基于CNN-Transformer交叉融合的伪装目标检测方法 - Google Patents

基于CNN-Transformer交叉融合的伪装目标检测方法 Download PDF

Info

Publication number
CN117876706A
CN117876706A CN202410050474.0A CN202410050474A CN117876706A CN 117876706 A CN117876706 A CN 117876706A CN 202410050474 A CN202410050474 A CN 202410050474A CN 117876706 A CN117876706 A CN 117876706A
Authority
CN
China
Prior art keywords
fusion
cnn
feature
cross fusion
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410050474.0A
Other languages
English (en)
Inventor
牛玉贞
杨立芬
李富晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202410050474.0A priority Critical patent/CN117876706A/zh
Publication of CN117876706A publication Critical patent/CN117876706A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于CNN‑Transformer交叉融合的伪装目标检测方法,包括:进行数据预处理,包括数据配对、数据增强处理,得到训练数据集;设计由并行特征提取网络、多个交叉融合模块和金字塔式渐进聚合模块组成的基于CNN‑Transformer交叉融合的伪装目标检测网络;设计损失函数,指导步骤B所设计网络的参数优化;使用步骤A得到的训练数据集训练步骤B中的基于CNN‑Transformer交叉融合的伪装目标检测网络,得到训练好的基于CNN‑Transformer交叉融合的伪装目标检测模型;将待测图像输入训练好的基于CNN‑Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。

Description

基于CNN-Transformer交叉融合的伪装目标检测方法
技术领域
本发明属于图像处理以及计算机视觉技术领域,具体涉及一种基于CNN-Transformer交叉融合的伪装目标检测方法。
背景技术
随着科技的迅猛发展,数字图像处理已成为人们日常生活中必不可少的一部分,其中,伪装目标检测便是一项备受瞩目的数字图像处理任务。自然界生物长期演化形成了一种防御机制,称为“伪装”,它指的是生物通过改变自身的外在特征使自身“融入”环境背景当中,从而减少被掠食者发现的机会,增加其生存和繁衍的成功率。伪装目标检测的目的是将图像中的伪装目标前景与背景分离开来。在生物学领域,伪装目标检测可以用于监测并保护野生动物,例如研究不同栖息环境中动物集群行为的影响。在医学领域,它可应用于医疗图像的分析。在工业制造领域中,伪装目标检测可用于产品质量控制,对产品的存在的缺陷进行检测。总之,伪装目标检测任务应用广泛,具有很高的应用与研究价值。
传统的伪装目标检测方法借助手工制作的特征来辅助分辨伪装目标前景和背景,例如:纹理、颜色、光流等,但由于伪装目标的外观与环境背景高度一致,但是这些特征对于伪装目标的分辨能力有限。例如,基于颜色的方法在伪装目标与环境背景颜色差别很小的情况下将会失效,基于光流的方法在光照条件较差的情况下将会失效。
随着深度学习的发展,基于深度学习的伪装目标检测方法因其出色的特征表示学习和强大的泛化能力而备受关注。基于深度学习的伪装目标检测方法利用ResNet-50、Pyramid Vision Transformer(PVTv2)等作为主干网络中提取图像原始特征,能够提高模型性能和泛化能力,从而提高图像处理任务的性能。当前伪装目标检测方法在小目标与多目标的挑战性场景下性能表现不佳。基于CNN的伪装目标检测方法对于小尺寸目标具有较好的检测效果,但是在包含多个目标的场景下检测效果不佳。基于Transformer的伪装目标检测方法能够处理具有不同数量目标的场景,但是其对小尺寸的目标检测效果较差。因此研究如何利用好CNN的对局部特征的挖掘能力与Transformer对全局上下文特征的挖掘能力,充分发挥局部特征与全局上下文特征之间的互补性,从而提升伪装目标检测模型的精度,是一个值得研究的问题。
发明内容
本发明的目的在于提供基于CNN-Transformer交叉融合的伪装目标检测方法,该方法通过交叉融合CNN主干特征与Transformer主干特征,有利于提高伪装目标检测方法的性能。
本发明设计了基于CNN-Transformer交叉融合的伪装目标检测方法,该方法首先通过ResNet-50主干网络与PVT主干网络作为并行特征提取网络提取图像特征;然后设计交叉融合模块,交叉融合模块中的协同融合子模块互补地融合CNN特征中的局部信息与Transformer特征中全局上下文信息,二次融合子模块对融合的特征进行自适应地深度融合;对于各个尺度的深度融合特征,设计金字塔式渐进聚合模块渐进地聚合相邻尺度的特征,最后使用所设计的网络生成较精细的伪装目标掩码。
本发明涉及一种基于CNN-Transformer交叉融合的伪装目标检测方法,包括:进行数据预处理,包括数据配对、数据增强处理,得到训练数据集;设计基于CNN-Transformer交叉融合的伪装目标检测网络,该网络由并行特征提取网络、多个交叉融合模块、特征渐进聚合模块组成;设计损失函数,指导步骤B所设计网络的参数优化;使用步骤A得到的训练数据集训练步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络,得到训练好的基于CNN-Transformer交叉融合的伪装目标检测模型;将待测图像输入训练好的基于CNN-Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。
本发明解决其技术问题具体采用的技术方案是:
一种基于CNN-Transformer交叉融合的伪装目标检测方法,包括以下步骤:
步骤A、进行数据预处理,包括数据配对、数据增强处理,得到训练数据集;
步骤B、设计由并行特征提取网络、多个交叉融合模块和金字塔式渐进聚合模块组成的基于CNN-Transformer交叉融合的伪装目标检测网络;
步骤C、设计损失函数,以指导步骤B所设计网络的参数优化;
步骤D、使用步骤A得到的训练数据集训练步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络,得到训练好的基于CNN-Transformer交叉融合的伪装目标检测模型;
步骤E、将待测图像输入训练好的基于CNN-Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。
进一步地,步骤A的具体实现步骤如下:
步骤A1、将每张原始图像与该原始图像对应的标签图像进行配对,得到图像二元组;
步骤A2、将每组图像二元组尺寸缩放至H×W,其中,H表示图像的高,W表示图像的宽、再对每组图像二元组进行随机垂直翻转、随机旋转。
进一步地,步骤B的具体实现步骤如下:
步骤B1、设计并行特征提取网络,包括ResNet-50主干网络和PVT主干网络,将步骤A2得到的原始图像作为输入,使用ResNet-50主干网络提取多尺度的CNN主干特征,使用PVT主干网络提取多尺度的Transformer主干特征;
步骤B2、设计交叉融合模块,将步骤B1得到的CNN主干特征和Transformer主干特征作为输入,使用多个所设计的交叉融合模块融合相同尺度的CNN主干特征与Transformer主干特征,得到多个尺度的互补融合特征;
步骤B3、设计金字塔式渐进聚合模块,将步骤B2得到的多个互补融合特征作为输入,使用所设计的金字塔式渐进聚合模块融合多个尺度的互补融合特征,生成伪装目标掩码;
步骤B4、设计基于CNN-Transformer交叉融合的伪装目标检测网络,包括并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块,步骤A2得到的原始图像经过并行特征提取网络得到多尺度的CNN主干特征以及多尺度的Transformer主干特征,各尺度的CNN主干特征和Transformer主干特征经过交叉融合模块得到互补融合特征,多个尺度的互补融合特征经过金字塔式渐进聚合模块生成伪装目标掩码,得到的伪装目标掩码经过上采样操作生成最终的伪装目标掩码。
进一步地,步骤B1的具体实现步骤如下:
步骤B11、设计并行特征提取网络,该网络包括ResNet-50主干网络与PVT主干网络;
步骤B12、以ResNet-50主干网络对步骤A2得到的原始图像I进行CNN主干特征提取;具体地,分别记I经过ResNet-50网络第一阶段、第二阶段、第三阶段、第四阶段和第五阶段输出的特征为F0、F1、F2、F3和F4
步骤B13、以PyramidVisionTransformer网络作为PVT主干网络对步骤A2得到的原始图像I进行Transformer主干特征提取;具体地,分别记I经过PyramidVisionTransformer网络第一阶段、第二阶段、第三阶段、第四阶段输出的特征为P1、P2、P3和P4
进一步地,步骤B2的具体实现步骤如下:
步骤B21、设计交叉融合模块,该模块包括协同融合子模块和二次融合子模块;
步骤B22、设计交叉融合模块中的协同融合子模块;在协同融合子模块中,记协同融合子模块的两个输入特征为Fin和Fin,输出特征为Fout、F'in和P'in;Fin依次经过通道注意力层、空间注意力层和卷积核大小为3×3的卷积层得到输出特征F'in,Pin依次经过两个卷积核大小为3×3的卷积层得到输出特征P'in,F'in与P'in具有相同的大小;将F'in与P'in沿通道维度拼接,得到的特征依次经过卷积核大小为3×3的卷积层、全局平均池化操作、双层感知机和Sigmoid激活函数得到特征Fcat,Fcat经过沿通道维度分割操作得到权重特征Wa和Wb,F'in与Wa经过逐像素乘法运算得到特征Fw,P'in与特征Wb经过逐像素乘法操作得到特征Pw,将Fw与Pw沿通道维度拼接后再经过卷积核大小为3×3的卷积层、ReLU激活函数得到输出特征Fout;具体公式表示如下:
F′in=Conv3(SA(CA(Fin)))
P′in=Conv3(Conv3(Pin))
Fcat=Sigmoid(MLP(GAP(Conv3(Concat(F′in,P′in)))))
Wa,Wb=Chunk(Fcat)
Fout=ReLU(Conv3(Concat(Fw,Pw)))
其中,CA(·)是通道注意力层,SA(·)空间注意力层,Conv3(·)是卷积核大小为3×3的卷积层,Concat(·,·)是沿通道维度拼接操作,MLP是双层感知机,GAP是全局平均池化操作,Chunk(·)是沿通道维度分割操作,是逐像素乘法运算,ReLU(·)是ReLU激活函数,Sigmoid(·)是Sigmoid激活函数;
步骤B23、设计交叉融合模块中的二次融合子模块;在二次融合子模块中,记二次融合子模块的输入特征为Fin1、Fin2、Fin3,输出特征记为Fin1与Fin2沿通道维度拼接后得到特征Fin12,Fin2与Fin3沿通道维度拼接后得到特征Fin23,Fin12和Fin23具有相同的大小;Fin12依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W1,Fin23依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W2;W1与Fin12进行逐像素乘法运算得到特征Fw1,W2与Fin23进行逐像素乘法运算得到特征Fw2,Fw1与Fw2沿通道维度拼接得到特征具体公式表示如下:
Fin12=Concat(Fin1,Fin2)
Fin23=Concat(Fin2,Fin3)
W1=Sigmoid(Conv1(ReLU(Conv1(DWConv3(Fin12)))))
W2=Sigmoid(Conv1(ReLU(Conv1(DWConv3(Fin23)))))
其中,Concat(·,·)是沿通道维度拼接操作,DWConv3(·)是卷积核大小为3×3的深度可分离卷积层;Conv1(·)是卷积核大小为1×1的卷积层,ReLU(·)是ReLU激活函数,Sigmoid(·)是Sigmoid激活函数,是逐像素乘法运算;
步骤B24、设计的基于CNN-Transformer交叉融合的伪装目标检测网络中有四个交叉融合模块,分别为交叉融合模块1、交叉融合模块2、交叉融合模块3、交叉融合模块4;其中,交叉融合模块1中的协同融合子模块的输入为步骤B1中得到的F1和P1,输出为Fout1、F'1和P'1,交叉融合模块1中二次融合子模块的输入为F'1、Fout1和P'1,输出为交叉融合模块2中的协同融合子模块的输入为步骤B1中得到的F2和P2,输出为Fout2、F'2和P'2,交叉融合模块2中二次融合子模块的输入为F'2、Fout2和P'2,输出为/>交叉融合模块3中的协同融合子模块的输入为步骤B1中得到的F3和P3,输出为Fout3、F'3和P'3,交叉融合模块3中二次融合子模块的输入为F'3、Fout3和P'3,输出为/>交叉融合模块4中的协同融合子模块的输入为步骤B1中得到的F4和P4,输出为Fout4、F'4和P'4,交叉融合模块4中二次融合子模块的输入为F'4、Fout4、和P'4,输出为/>
进一步地,步骤B3的具体实现步骤如下:
步骤B31、设计金字塔式渐进聚合模块,金字塔式渐进聚合模块的输入为步骤B2中得到的特征和/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse12;特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse23;特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse34;使用上采样操作将特征Ffuse23调整到和特征Ffuse12具有相同的大小,得到特征F′fuse23,使用上采样操作将特征Ffuse34调整到和特征Ffuse23具有相同的大小,得到特征F′fuse34将特征Ffuse12和F′fuse23沿通道维度拼接,得到的特征经过卷积核大小为1×1的卷积层得到特征Ffuse123,特征Ffuse23和F′fuse34沿通道维度拼接,得到的特征经过卷积核大小为1×1的卷积层得到特征Ffuse234;使用上采样操作将特征Ffuse234调整到和特征Ffuse123具有相同的大小,得到特征F′fuse234;将特征Ffuse123和特征F′fuse234进行逐像素加法运算,得到的特征依次经过两个卷积核大小为3×3的卷积层压缩通道数得到伪装目标掩码M;具体公式表示如下:
Ffuse123=Conv1(Concat(Ffuse12,Up(Ffuse23)))
Ffuse234=Conv1(Concat(Ffuse23,Up(Ffuse34)))
其中,是逐像素加法运算,Up(·)是上采样操作,Conv3(·)是卷积核大小为3×3的卷积层,Concat(·,·)是沿通道维度拼接操作,Conv1(·)是卷积核大小为1×1的卷积层。
进一步地,步骤B4的具体实现步骤如下:
步骤B41、设计基于CNN-Transformer交叉融合的伪装目标检测网络,该网络由并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块组成,并生成最终的伪装目标掩码;
步骤B42、将步骤A2输出的原始图像I输入基于CNN-Transformer交叉融合的伪装目标检测网络,经过步骤B1、步骤B2后再经过步骤B3得到伪装目标掩码M;M通过上采样操作放大4倍,得到最终伪装目标掩码Mcamo;具体公式表示如下:
Mcamo=Upscale=4(M)
其中,Upscale=4(·)是放大倍数为4的上采样操作。
进一步地,步骤C的具体实现步骤如下:
步骤C、设计损失函数作为约束来优化基于CNN-Transformer交叉融合的伪装目标检测网络,具体的公式如下:
其中,Mcamo表示所设计的基于CNN-Transformer交叉融合的伪装目标检测网络输出的最终伪装目标掩码,Gcamo表示步骤A2输出的原始图像I对应的标签图像,表示为加权交并比损失,/>表示加权二元交叉熵损失,/>表示为总的损失函数。
进一步地,步骤D的具体实现步骤如下:
步骤D1、将步骤A得到的训练数据集随机划分为若干个批次,每个批次包含N对图像;
步骤D2、对于每个批次内的原始图像I,经过步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络后得到伪装目标掩码Mcamo,使用步骤C中的公式计算损失
步骤D3、根据损失使用反向传播方法计算网络中参数的梯度,并利用随机梯度下降优化方法更新网络参数;
步骤D4、以批次为单位重复执行步骤D2至步骤D3,直至网络的目标损失函数数值收敛,保存网络参数,得到基于CNN-Transformer交叉融合的伪装目标检测模型。
进一步地,在步骤E中,将待测图像输入步骤D中训练好的基于CNN-Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。
以及,一种基于CNN-Transformer交叉融合的伪装目标检测模型,根据如上所述的步骤B和步骤C,包括步骤B设计获得的基于CNN-Transformer交叉融合的伪装目标检测网络,以及,设计获得的损失函数,用于网络的参数优化。
相比于现有技术,本发明及其优选方案通过交叉融合CNN主干特征与Transformer主干特征,有利于提高伪装目标检测方法的性能。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是本发明实施例方法的实现流程图;
图2是本发明实施例基于CNN-Transformer交叉融合的伪装目标检测模型的网络结构图;
图3是本发明实施例交叉融合模块中协同融合子模块的结构示意图;
图4是本发明实施例交叉融合模块中二次融合子模块的结构示意图;
图5是本发明实施例金字塔式渐进聚合模块的结构示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
以下结合一个具体的实施例对本发明方案的构成做进一步的介绍:
本发明实施例提供一种基于CNN-Transformer交叉融合的伪装目标检测方法,如图1-图5所示,包括以下步骤:
步骤A、进行数据预处理,包括数据配对、数据增强处理,得到训练数据集;
步骤B、设计由并行特征提取网络、多个交叉融合模块和金字塔式渐进聚合模块组成的基于CNN-Transformer交叉融合的伪装目标检测网络;
步骤C、设计损失函数,指导步骤B所设计网络的参数优化;
步骤D、使用步骤A得到的训练数据集训练步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络,得到训练好的基于CNN-Transformer交叉融合的伪装目标检测模型;
步骤E、将待测图像输入训练好的基于CNN-Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。
作为本实施例的优选方案,步骤A包括以下步骤:
步骤A1、将每张原始图像与该原始图像对应的标签图像进行配对,得到图像二元组。
步骤A2、将每组图像二元组尺寸缩放至H×W,其中,H表示图像的高,W表示图像的宽、再对每组图像二元组进行随机垂直翻转、随机旋转。
作为本实施例的优选方案,步骤B包括以下步骤:
步骤B1、设计并行特征提取网络,包括ResNet-50主干网络和PVT主干网络,将步骤A2得到的原始图像作为输入,使用ResNet-50主干网络提取多尺度的CNN主干特征,使用PVT主干网络提取多尺度的Transformer主干特征。
步骤B2、设计交叉融合模块,将步骤B1得到的CNN主干特征和Transformer主干特征作为输入,使用多个所设计的交叉融合模块融合相同尺度的CNN主干特征与Transformer主干特征,得到多个尺度的互补融合特征。
步骤B3、设计金字塔式渐进聚合模块,将步骤B2得到的多个互补融合特征作为输入,使用所设计的金字塔式渐进聚合模块融合多个尺度的互补融合特征,生成伪装目标掩码。
步骤B4、设计基于CNN-Transformer交叉融合的伪装目标检测网络,包括并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块,步骤A2得到的原始图像经过并行特征提取网络得到多尺度的CNN主干特征以及多尺度的Transformer主干特征,各尺度的CNN主干特征和Transformer主干特征经过交叉融合模块得到互补融合特征,多个尺度的互补融合特征经过金字塔式渐进聚合模块生成伪装目标掩码,得到的伪装目标掩码经过上采样操作生成最终的伪装目标掩码。
作为本实施例的优选方案,步骤B1包括以下步骤:
步骤B11、设计并行特征提取网络,该网络包括ResNet-50主干网络与PVT主干网络。
步骤B12、以ResNet-50主干网络对步骤A2得到的原始图像I进行CNN主干特征提取。具体地,分别记I经过ResNet-50网络第一阶段、第二阶段、第三阶段、第四阶段和第五阶段输出的特征为F0、F1、F2、F3和F4
步骤B13、以Pyramid Vision Transformer(PVTv2)网络作为PVT主干网络对步骤A2得到的原始图像I进行Transformer主干特征提取。具体地,分别记I经过Pyramid VisionTransformer(PVTv2)网络第一阶段、第二阶段、第三阶段、第四阶段输出的特征为P1、P2、P3和P4
作为本实施例的优选方案,步骤B2包括以下步骤:
步骤B21、设计交叉融合模块,该模块包括协同融合子模块和二次融合子模块。
步骤B22、设计交叉融合模块中的协同融合子模块。在协同融合子模块中,记协同融合子模块的两个输入特征为Fin和Pin,输出特征为Fout、F'in和P'in。Fin依次经过通道注意力层、空间注意力层和卷积核大小为3×3的卷积层得到输出特征F'in,Pin依次经过两个卷积核大小为3×3的卷积层得到输出特征P'in,F'in与P'in具有相同的大小。将F'in与P'in沿通道维度拼接,得到的特征依次经过卷积核大小为3×3的卷积层、全局平均池化操作、双层感知机和Sigmoid激活函数得到特征Fcat,Fcat经过沿通道维度分割操作得到权重特征Wa和Wb,F'in与Wa经过逐像素乘法运算得到特征Fw,P'in与特征Wb经过逐像素乘法操作得到特征Pw,将Fw与Pw沿通道维度拼接后再经过卷积核大小为3×3的卷积层、ReLU激活函数得到输出特征Fout。具体公式表示如下:
F′in=Conv3(SA(CA(Fin)))
P′in=Conv3(Conv3(Pin))
Fcat=Sigmoid(MLP(GAP(Conv3(Concat(F′in,P′in))))))
Wa,Wb=Chunk(Fcat)
Fout=ReLU(Conv3(Concat(Fw,Pw)))
其中,CA(·)是通道注意力层,SA(·)空间注意力层,Conv3(·)是卷积核大小为3×3的卷积层,Concat(·,·)是沿通道维度拼接操作,MLP是双层感知机,GAP是全局平均池化操作,Chunk(·)是沿通道维度分割操作,是逐像素乘法运算,ReLU(·)是ReLU激活函数,Sigmoid(·)是Sigmoid激活函数。
步骤B23、设计交叉融合模块中的二次融合子模块。在二次融合子模块中,记二次融合子模块的输入特征为Fin1、Fin2、Fin3,输出特征记为Fin1与Fin2沿通道维度拼接后得到特征Fin12,Fin2与Fin3沿通道维度拼接后得到特征Fin23,Fin12和Fin23具有相同的大小。Fin12依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W1,Fin23依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W2。W1与Fin12进行逐像素乘法运算得到特征Fw1,W2与Fin23进行逐像素乘法运算得到特征Fw2,Fw1与Fw2沿通道维度拼接得到特征具体公式表示如下:
Fin12=Concat(Fin1,Fin2)
Fin23=Concat(Fin2,Fin3)
W1=Sigmoid(Conv1(ReLU(Conv1(DWConv3(Fin12)))))
W2=Sigmoid(Conv1(ReLU(Conv1(DWConv3(Fin23)))))
其中,Concat(·,·)是沿通道维度拼接操作,DWConv3(·)是卷积核大小为3×3的深度可分离卷积层。Conv1(·)是卷积核大小为1×1的卷积层,ReLU(·)是ReLU激活函数,Sigmoid(·)是Sigmoid激活函数,是逐像素乘法运算。
步骤B24、设计的基于CNN-Transformer交叉融合的伪装目标检测网络中有四个交叉融合模块,分别为交叉融合模块1、交叉融合模块2、交叉融合模块3、交叉融合模块4。其中,交叉融合模块1中的协同融合子模块的输入为步骤B1中得到的F1和P1,输出为Fout1、F'1和P'1,交叉融合模块1中二次融合子模块的输入为F'1、Fout1和P'1,输出为交叉融合模块2中的协同融合子模块的输入为步骤B1中得到的F2和P2,输出为Fout2、F'2和P'2,交叉融合模块2中二次融合子模块的输入为F'2、Fout2和P'2,输出为/>交叉融合模块3中的协同融合子模块的输入为步骤B1中得到的F3和P3,输出为Fout3、F'3和P'3,交叉融合模块3中二次融合子模块的输入为F'3、Fout3和P'3,输出为/>交叉融合模块4中的协同融合子模块的输入为步骤B1中得到的F4和P4,输出为Fout4、F'4和P'4,交叉融合模块4中二次融合子模块的输入为F'4、Fout4、和P'4,输出为/>
作为本实施例的优选方案,步骤B3包括以下步骤:
步骤B31、设计金字塔式渐进聚合模块,金字塔式渐进聚合模块的输入为步骤B2中得到的特征和/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse12。特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse23。特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse34。使用上采样操作将特征Ffuse23调整到和特征Ffuse12具有相同的大小,得到特征F'fuse23,使用上采样操作将特征Ffuse34调整到和特征Ffuse23具有相同的大小,得到特征F'fuse34。将特征Ffuse12和F'fuse23沿通道维度拼接,得到的特征经过卷积核大小为1×1的卷积层得到特征Ffuse123,特征Ffuse23和F'fuse34沿通道维度拼接,得到的特征经过卷积核大小为1×1的卷积层得到特征Ffuse234;使用上采样操作将特征Ffuse234调整到和特征Ffuse123具有相同的大小,得到特征F'fuse234。将特征Ffuse123和特征f'fuse234进行逐像素加法运算,得到的特征依次经过两个卷积核大小为3×3的卷积层压缩通道数得到伪装目标掩码M。具体公式表示如下:
Ffuse123=Conv1(Concat(Ffuse12,Up(Ffuse23)))
Ffuse234=Conv1(Concat(Ffuse23,Up(Ffuse34)))
其中,是逐像素加法运算,Up(·)是上采样操作,Conv3(·)是卷积核大小为3×3的卷积层,Concat(·,·)是沿通道维度拼接操作,conv1(·)是卷积核大小为1×1的卷积层。
作为本实施例的优选方案,步骤B4包括以下步骤:
步骤B41、设计基于CNN-Transformer交叉融合的伪装目标检测网络,该网络由并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块组成,并生成最终的伪装目标掩码。
步骤B42、将步骤A2输出的原始图像I输入基于CNN-Transformer交叉融合的伪装目标检测网络,经过步骤B1、步骤B2后再经过步骤B3得到伪装目标掩码M。M通过上采样操作放大4倍,得到最终伪装目标掩码Mcamo。具体公式表示如下:
Mcamo=Upscale=4(M)
其中,Upscale=4(·)是放大倍数为4的上采样操作。
作为本实施例的优选方案,步骤C包括以下步骤:
步骤C、设计损失函数作为约束来优化基于CNN-Transformer交叉融合的伪装目标检测网络,具体的公式如下:
其中,Mcamo表示所设计的基于CNN-Transformer交叉融合的伪装目标检测网络输出的最终伪装目标掩码,Gcamo表示步骤A2输出的原始图像I对应的标签图像,表示为加权交并比损失,/>表示加权二元交叉熵损失,/>表示为总的损失函数。
作为本实施例的优选方案,步骤D包括以下步骤:
步骤D1、将步骤A得到的训练数据集随机划分为若干个批次,每个批次包含N对图像。
步骤D2、对于每个批次内的原始图像I,经过步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络后得到伪装目标掩码Mcamo,使用步骤C中的公式计算损失
步骤D3、根据损失使用反向传播方法计算网络中参数的梯度,并利用随机梯度下降优化方法更新网络参数。
步骤D4、以批次为单位重复执行步骤D2至步骤D3,直至网络的目标损失函数数值收敛,保存网络参数,得到基于CNN-Transformer交叉融合的伪装目标检测模型。
作为本实施例的优选方案,步骤E包括以下步骤:
步骤E、将待测图像输入步骤D中训练好的基于CNN-Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于CNN-Transformer交叉融合的伪装目标检测方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (10)

1.一种基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:包括以下步骤:
步骤A、进行数据预处理,包括数据配对、数据增强处理,得到训练数据集;
步骤B、设计由并行特征提取网络、多个交叉融合模块和金字塔式渐进聚合模块组成的基于CNN-Transformer交叉融合的伪装目标检测网络;
步骤C、设计损失函数,以指导步骤B所设计网络的参数优化;
步骤D、使用步骤A得到的训练数据集训练步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络,得到训练好的基于CNN-Transformer交叉融合的伪装目标检测模型;
步骤E、将待测图像输入训练好的基于CNN-Transformer交叉融合的伪装目标检测模型,输出伪装目标的掩码图像。
2.根据权利要求1所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤A的具体实现步骤如下:
步骤A1、将每张原始图像与该原始图像对应的标签图像进行配对,得到图像二元组;
步骤A2、将每组图像二元组尺寸缩放至H×W,其中,H表示图像的高,W表示图像的宽、再对每组图像二元组进行随机垂直翻转、随机旋转。
3.根据权利要求1所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤B的具体实现步骤如下:
步骤B1、设计并行特征提取网络,包括ResNet-50主干网络和PVT主干网络,将步骤A2得到的原始图像作为输入,使用ResNet-50主干网络提取多尺度的CNN主干特征,使用PVT主干网络提取多尺度的Transformer主干特征;
步骤B2、设计交叉融合模块,将步骤B1得到的CNN主干特征和Transformer主干特征作为输入,使用多个所设计的交叉融合模块融合相同尺度的CNN主干特征与Transformer主干特征,得到多个尺度的互补融合特征;
步骤B3、设计金字塔式渐进聚合模块,将步骤B2得到的多个互补融合特征作为输入,使用所设计的金字塔式渐进聚合模块融合多个尺度的互补融合特征,生成伪装目标掩码;
步骤B4、设计基于CNN-Transformer交叉融合的伪装目标检测网络,包括并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块,步骤A2得到的原始图像经过并行特征提取网络得到多尺度的CNN主干特征以及多尺度的Transformer主干特征,各尺度的CNN主干特征和Transformer主干特征经过交叉融合模块得到互补融合特征,多个尺度的互补融合特征经过金字塔式渐进聚合模块生成伪装目标掩码,得到的伪装目标掩码经过上采样操作生成最终的伪装目标掩码。
4.根据权利要求3所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤B1的具体实现步骤如下:
步骤B11、设计并行特征提取网络,该网络包括ResNet-50主干网络与PVT主干网络;
步骤B12、以ResNet-50主干网络对步骤A2得到的原始图像I进行CNN主干特征提取;具体地,分别记I经过ResNet-50网络第一阶段、第二阶段、第三阶段、第四阶段和第五阶段输出的特征为F0、F1、F2、F3和F4
步骤B13、以Pyramid Vision Transformer网络作为PVT主干网络对步骤A2得到的原始图像I进行Transformer主干特征提取;具体地,分别记I经过Pyramid Vision Transformer网络第一阶段、第二阶段、第三阶段、第四阶段输出的特征为P1、P2、P3和P4
5.根据权利要求4所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤B2的具体实现步骤如下:
步骤B21、设计交叉融合模块,该模块包括协同融合子模块和二次融合子模块;
步骤B22、设计交叉融合模块中的协同融合子模块;在协同融合子模块中,记协同融合子模块的两个输入特征为Fin和Pin,输出特征为Fout、F'in和P'in;Fin依次经过通道注意力层、空间注意力层和卷积核大小为3×3的卷积层得到输出特征F'in,Pin依次经过两个卷积核大小为3×3的卷积层得到输出特征P'in,F'in与P'in具有相同的大小;将F'in与P'in沿通道维度拼接,得到的特征依次经过卷积核大小为3×3的卷积层、全局平均池化操作、双层感知机和Sigmoid激活函数得到特征Fcat,Fcat经过沿通道维度分割操作得到权重特征Wa和Wb,F'in与Wa经过逐像素乘法运算得到特征Fw,P'in与特征Wb经过逐像素乘法操作得到特征Pw,将Fw与Pw沿通道维度拼接后再经过卷积核大小为3×3的卷积层、ReLU激活函数得到输出特征Fout;具体公式表示如下:
F′in=Conv3(SA(CA(Fin)))
P′in=Conv3(Conv3(Pin))
Fcat=Sigmoid(MLP(GAP(Conv3(Concat(F′in,P′in)))))
Wa,Wb=Ch unk(Fcat)
Fout=ReLU(Conv3(Concat(Fw,Pw)))
其中,CA(·)是通道注意力层,SA(·)空间注意力层,Conv3(·)是卷积核大小为3×3的卷积层,Concat(·,·)是沿通道维度拼接操作,MLP是双层感知机,GAP是全局平均池化操作,Ch unk(·)是沿通道维度分割操作,是逐像素乘法运算,ReLU(·)是ReLU激活函数,Sigmoid(·)是Sigmoid激活函数;
步骤B23、设计交叉融合模块中的二次融合子模块;在二次融合子模块中,记二次融合子模块的输入特征为Fin1、Fin2、Fin3,输出特征记为Fin1与Fin2沿通道维度拼接后得到特征Fin12,Fin2与Fin3沿通道维度拼接后得到特征Fin23,Fin12和Fin23具有相同的大小;Fin12依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W1,Fin23依次经过卷积核大小为3×3的深度可分离卷积层、卷积核大小为1×1的卷积层、ReLU激活函数、卷积核大小为1×1的卷积层和Sigmoid激活函数后得到权重特征W2;W1与Fin12进行逐像素乘法运算得到特征Fw1,W2与Fin23进行逐像素乘法运算得到特征Fw2,Fw1与Fw2沿通道维度拼接得到特征/>具体公式表示如下:
Fin12=Concat(Fin1,Fin2)
Fin23=Concat(Fin2,Fin3)
W1=Sigmoid(Conv1(ReLU(Conv1(DWConv3(Fin12)))))
W2=Sigmoid(Conv1(ReLU(Conv1(DWConv3(Fin23)))))
其中,Concat(·,·)是沿通道维度拼接操作,DWConv3(·)是卷积核大小为3×3的深度可分离卷积层;Conv1(·)是卷积核大小为1×1的卷积层,ReLU(·)是ReLU激活函数,Sigmoid(·)是Sigmoid激活函数,是逐像素乘法运算;
步骤B24、设计的基于CNN-Transformer交叉融合的伪装目标检测网络中有四个交叉融合模块,分别为交叉融合模块1、交叉融合模块2、交叉融合模块3、交叉融合模块4;其中,交叉融合模块1中的协同融合子模块的输入为步骤B1中得到的F1和P1,输出为Fout1、F′1和P′1,交叉融合模块1中二次融合子模块的输入为F′1、Fout1和P′1,输出为交叉融合模块2中的协同融合子模块的输入为步骤B1中得到的F2和P2,输出为Fout2、F′2和P′2,交叉融合模块2中二次融合子模块的输入为F′2、Fout2和P′2,输出为/>交叉融合模块3中的协同融合子模块的输入为步骤B1中得到的F3和P3,输出为Fout3、F′3和P′3,交叉融合模块3中二次融合子模块的输入为F′3、Fout3和P′3,输出为/>交叉融合模块4中的协同融合子模块的输入为步骤B1中得到的F4和P4,输出为Fout4、F′4和P′4,交叉融合模块4中二次融合子模块的输入为F′4、Fout4、和P′4,输出为/>
6.根据权利要求5所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤B3的具体实现步骤如下:
步骤B31、设计金字塔式渐进聚合模块,金字塔式渐进聚合模块的输入为步骤B2中得到的特征和/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>使用上采样操作将特征/>调整到和特征/>具有相同的大小,得到特征/>特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse12;特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse23;特征/>和/>经过逐像素加法运算,得到的特征经过卷积核大小为3×3的卷积层得到特征Ffuse34;使用上采样操作将特征Ffuse23调整到和特征Ffuse12具有相同的大小,得到特征F′fuse23,使用上采样操作将特征Ffuse34调整到和特征Ffuse23具有相同的大小,得到特征F′fuse34;将特征Ffuse12和F′fuse23沿通道维度拼接,得到的特征经过卷积核大小为1×1的卷积层得到特征Ffuse123,特征Ffuse23和F′fuse34沿通道维度拼接,得到的特征经过卷积核大小为1×1的卷积层得到特征Ffuse234;使用上采样操作将特征Ffuse234调整到和特征Ffuse123具有相同的大小,得到特征F′fuse234;将特征Ffuse123和特征F′fuse234进行逐像素加法运算,得到的特征依次经过两个卷积核大小为3×3的卷积层压缩通道数得到伪装目标掩码M;具体公式表示如下:
Ffuse123=Conv1(Concat(Ffuse12,Up(Ffuse23)))
Ffuse234=Conv1(Concat(Ffuse23,Up(Ffuse34)))
其中,是逐像素加法运算,Up(·)是上采样操作,Conv3(·)是卷积核大小为3×3的卷积层,Concat(·,·)是沿通道维度拼接操作,Conv1(·)是卷积核大小为1×1的卷积层。
7.根据权利要求6所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤B4的具体实现步骤如下:
步骤B41、设计基于CNN-Transformer交叉融合的伪装目标检测网络,该网络由并行特征提取网络、多个交叉融合模块、金字塔式渐进聚合模块组成,并生成最终的伪装目标掩码;
步骤B42、将步骤A2输出的原始图像I输入基于CNN-Transformer交叉融合的伪装目标检测网络,经过步骤B1、步骤B2后再经过步骤B3得到伪装目标掩码M;M通过上采样操作放大4倍,得到最终伪装目标掩码Mcamo;具体公式表示如下:
Mcamo=Upscale=4(M)
其中,Upscale=4(·)是放大倍数为4的上采样操作。
8.根据权利要求7所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤C的具体实现步骤如下:
步骤C、设计损失函数作为约束来优化基于CNN-Transformer交叉融合的伪装目标检测网络,具体的公式如下:
其中,Mcamo表示所设计的基于CNN-Transformer交叉融合的伪装目标检测网络输出的最终伪装目标掩码,Gcamo表示步骤A2输出的原始图像I对应的标签图像,表示为加权交并比损失,/>表示加权二元交叉熵损失,/>表示为总的损失函数。
9.根据权利要求5所述的基于CNN-Transformer交叉融合的伪装目标检测方法,其特征在于:
步骤D的具体实现步骤如下:
步骤D1、将步骤A得到的训练数据集随机划分为若干个批次,每个批次包含N对图像;
步骤D2、对于每个批次内的原始图像I,经过步骤B中的基于CNN-Transformer交叉融合的伪装目标检测网络后得到伪装目标掩码Mcamo,使用步骤C中的公式计算损失
步骤D3、根据损失使用反向传播方法计算网络中参数的梯度,并利用随机梯度下降优化方法更新网络参数;
步骤D4、以批次为单位重复执行步骤D2至步骤D3,直至网络的目标损失函数数值收敛,保存网络参数,得到基于CNN-Transformer交叉融合的伪装目标检测模型。
10.一种基于CNN-Transformer交叉融合的伪装目标检测模型,根据如权利要求1-9其中任一所述的步骤B和步骤C,包括步骤B设计获得的基于CNN-Transformer交叉融合的伪装目标检测网络,以及,设计获得的损失函数,用于网络的参数优化。
CN202410050474.0A 2024-01-12 2024-01-12 基于CNN-Transformer交叉融合的伪装目标检测方法 Pending CN117876706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410050474.0A CN117876706A (zh) 2024-01-12 2024-01-12 基于CNN-Transformer交叉融合的伪装目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410050474.0A CN117876706A (zh) 2024-01-12 2024-01-12 基于CNN-Transformer交叉融合的伪装目标检测方法

Publications (1)

Publication Number Publication Date
CN117876706A true CN117876706A (zh) 2024-04-12

Family

ID=90588010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410050474.0A Pending CN117876706A (zh) 2024-01-12 2024-01-12 基于CNN-Transformer交叉融合的伪装目标检测方法

Country Status (1)

Country Link
CN (1) CN117876706A (zh)

Similar Documents

Publication Publication Date Title
CN111091045B (zh) 一种基于时空注意力机制的手语识别方法
WO2020168844A1 (en) Image processing method, apparatus, equipment, and storage medium
CN109410239A (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN110443286B (zh) 神经网络模型的训练方法、图像识别方法以及装置
CN110073359A (zh) 用于卷积神经网络的有效数据布局
CN111738344B (zh) 一种基于多尺度融合的快速目标检测方法
CN110020639B (zh) 视频特征提取方法及相关设备
CN109003282A (zh) 一种图像处理的方法、装置及计算机存储介质
CN111832592B (zh) Rgbd显著性检测方法以及相关装置
CN111127309B (zh) 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN114820341A (zh) 一种基于增强Transformer的图像盲去噪方法及系统
CN109300531A (zh) 一种脑疾病早期诊断方法和装置
CN114627035A (zh) 一种多聚焦图像融合方法、系统、装置及存储介质
TW202101304A (zh) 使用像素通道置亂的卷積神經網路的演算方法與系統
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
Li et al. PMVT: a lightweight vision transformer for plant disease identification on mobile devices
Sun et al. YOLO-P: An efficient method for pear fast detection in complex orchard picking environment
CN114596584A (zh) 海洋生物智能检测识别方法
Nawrocka et al. Research study of image classification algorithms based on Convolutional Neural Networks
Guo et al. An improved YOLO v4 used for grape detection in unstructured environment
Lv et al. YOLOV5-CBAM-C3TR: an optimized model based on transformer module and attention mechanism for apple leaf disease detection
CN113239866A (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN117876706A (zh) 基于CNN-Transformer交叉融合的伪装目标检测方法
Liu et al. Learning an optical filter for green pepper automatic picking in agriculture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination