CN114549567A - 基于全方位感知的伪装目标图像分割方法 - Google Patents

基于全方位感知的伪装目标图像分割方法 Download PDF

Info

Publication number
CN114549567A
CN114549567A CN202210167375.1A CN202210167375A CN114549567A CN 114549567 A CN114549567 A CN 114549567A CN 202210167375 A CN202210167375 A CN 202210167375A CN 114549567 A CN114549567 A CN 114549567A
Authority
CN
China
Prior art keywords
global
module
local features
representation
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210167375.1A
Other languages
English (en)
Inventor
杨鑫
梅海洋
周运铎
魏小鹏
朴海音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210167375.1A priority Critical patent/CN114549567A/zh
Publication of CN114549567A publication Critical patent/CN114549567A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details

Abstract

本发明属于计算机视觉中的场景分割技术领域,提供了一种基于全方位感知的伪装目标图像分割方法,设计了一种面向精确伪装目标分割的新型全方位感知网络,其中提出了金字塔定位模块和双聚焦模块,来耦合局部特征和全局表示,以便更准确地定位伪装目标并精细划分边界,解决计算机视觉中伪装目标分割的问题。本发明的方法伪装目标分割的结果,同时在不同场景下具有有效性和实用性。

Description

基于全方位感知的伪装目标图像分割方法
技术领域
本发明属于计算机视觉中的场景分割(SceneSegmentation)技术领域,实现结果为图像内容的分割,特别涉及一种真实环境图像中伪装目标的分割方法。
背景技术
二维图像分割是指把图像中属于不同物体的像素区分开,以此来确定环境图像中目标大小、形状和位置等信息的技术,是图像处理到图像分析的关键步骤,具有巨大的应用价值。近些年来,场景分割相关任务,如目标检测、深度估计、显著性区域检测和阴影检测等方法,都获得了显著的性能提升。
自然界中有相当多的生物进化出了高超的伪装本领(例如,保护色和模仿),能将自己伪装以融入周围环境,进而达到逃避捕食者的目的。因为这类生物与背景之间高度的相似性,识别伪装的目标对于人类的视觉系统来说都是极具挑战性的任务,如果这类生物出现在以计算机视觉为基础的任务中,将对任务的准确性造成很大影响。因此,伪装目标分割是一个极具挑战的任务。同时,伪装目标分割能够有助于医学图像分析、蝗虫入侵监控和搜索救援等任务,它也是一个不可或缺的任务。
早期的伪装目标分割方法利用边缘、纹理和亮度等低级特征将物体从背景中区分出来。但这些方法只适用于一些简单的场景,在面对复杂的野外场景时就会失效。因此,近年来关于伪装目标分割的研究往往借助深度神经网络强大的能力来处理更具挑战性的场景。受自然界中捕食者捕获猎物过程的启发,许多伪装目标分割方法遵循着先定位后聚焦的模式来检测伪装目标的位置、大小和形状。然而,由于这些方法只根据区域级别的上下文特征做出决策,因此通常无法在更为混乱的场景中对伪装目标进行定位,也无法准确勾画出伪装目标的边界。
我们观察到,自然界中的顶级掠食者通常同时具备良好的中心视野和周边视野,使用中心视野来搜索目标,同时通过周边视野从场景环境中获取线索。因此,理想的伪装目标分割模型在检测目标时应该能够同时处理局部特征和全局表示。本发明基于对现有伪装目标分割技术的调查与分析,受自然界中顶级掠食者捕获猎物过程的启发,提出了一种新的神经网络,通过建立对输入场景的全方位感知来分割伪装目标,使模型能够在整个检测过程中同时利用局部特征和全局表示,形成了分割场景中伪装目标的全方位感知网络(Omni Perception Network),即OPNet。OPNet的输入是包含伪装目标的RGB图像,输出是伪装目标的掩膜图像,掩膜图像中伪装目标区域的值为1,非伪装目标区域的值为0。实验证明,本方法能够有效分割出不同场景下不同类型的伪装目标,帮助场景理解提升准确度。
发明内容
本发明的目的是对场景的RGB图像,创新性地使用全方位感知的方式,在检测中集成局部特征和全局表示,进而实现伪装目标分割。OPNet先后包含特征提取器、金字塔定位模块(Pyramid Positioning Module)和双重聚焦模块(Dual Focus Module),其中特征提取器使用Conformer作为主干网络提取局部特征和全局表示;金字塔定位模块(PyramidPositioning Module)结合局部特征和全局表示精确定位不同大小的目标对象;双重聚焦模块(Dyal Focus Module)则结合局部特征和全局表示确定目标的边界并消除干扰背景。本发明所述方法适用于分割不同种类、位置和大小的伪装目标。
本发明的技术方案:
一种基于全方位感知的伪装目标图像分割方法,步骤如下:
步骤1、构建伪装目标分割网络OPNet
伪装目标分割网络OPNet主要由特征提取器、一个金字塔定位模块和三个双重聚焦模块组成;
特征提取器的主干网络采用的是Conformer,通过双重网络结构即卷积分支和Transformer分支同时提取局部特征和全局表示,并通过功能耦合单元以交互方式融合局部特征和全局表示;
金字塔定位模块使用金字塔自注意力机制,能够减少形状变化的负面影响并提供伪装目标的定位,从而初步确定图像中潜在伪装目标的位置。具体来说,金字塔定位模块的输入为从Conformer的卷积分支和Transformer分支中提取的局部特征C和全局表示T(T中包括N patch token embeddings Tp和1 segmentation token embeddingsts)。首先通过自适应平均池化和重塑操作将它们转换为一致的形状:
Figure BDA0003516179090000031
Figure BDA0003516179090000032
其中,[]e表示embedding维度上的串联操作;ψk表示一个k×k的卷积层;
Figure BDA0003516179090000033
表示目标尺寸为n×n的自适应平均池化;
Figure BDA0003516179090000034
表示变形操作;
Figure BDA0003516179090000035
表示正则化层;
Figure BDA0003516179090000036
表示激活函数。然后,使用元素级加法运算将两种特征融合:
Ffusion=Cdown+Tdown
在这之后,将Ffusion反馈至联合依赖感知模块中以检测全局相关性:
Figure BDA0003516179090000037
其中,
Figure BDA0003516179090000038
表示多头自注意力机制;
Figure BDA0003516179090000039
表示多层感知机。得到的Fjdp由两部分组成,分别为N patch token embeddingsFp和1 segmentation token embeddingsfs。然后对Fjdp进行两种类型的变换,以生成两种类型的特征(分别用于增强局部特征和全局表示):
Figure BDA0003516179090000041
Figure BDA0003516179090000042
其中,
Figure BDA0003516179090000043
是由双线性运算实现的上采样;给定
Figure BDA0003516179090000044
中的目标大小n后,联合依赖感知模块仅在固定尺度上执行全局相关性感知;在特定尺度下,Ffusion中的每个patch tokenembeddings都是具有特定尺寸区域的表示;通过改变联合依赖感知模块中
Figure BDA0003516179090000045
的n以实现多尺度依赖感知:
Figure BDA0003516179090000046
Figure BDA0003516179090000047
其中,[]c表示通道维度上的串联操作;
Figure BDA0003516179090000048
Figure BDA0003516179090000049
是联合依赖感知模块的输出局部特征和全局表示,其中
Figure BDA00035161790900000410
中的n等于i;最后,通过如下方式生成金字塔定位模块的最终输出:
Figure BDA00035161790900000411
Figure BDA00035161790900000412
接下来三个双重聚焦模块将进一步处理Cppm和Tppm
双重聚焦模块旨在帮助网络在解码阶段专注于候选区域,它利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,它将前一个模块输出的局部特征Ch、全局表示E(包含N patch token embeddings Ep和1 segmentation token embeddings es)以及来自编码器的当前级别局部特征Ccenc(如图1中的Ccenc 1)作为输入。首先对更高级别的局部特征Ch和全局表示E进行通道聚焦,通过以下方式生成通道聚焦所需的联合向量:
Vjoint=[Vc,Vt]c
Figure BDA00035161790900000413
Figure BDA0003516179090000051
其中,Vc和Vt分别是从Ch和Ep生成的焦点向量;然后分别获得局部特征和全局表示的通道注意力向量,并使用这两个向量来增强这两种类型的特征:
Figure BDA0003516179090000052
Tcf=[es,E′p]e
Figure BDA0003516179090000053
Figure BDA0003516179090000054
Figure BDA0003516179090000055
Figure BDA0003516179090000056
其中,S是激活函数;
Figure BDA0003516179090000057
Figure BDA0003516179090000058
是分别用于增强Ccombined和Ep的向量;Ccf和Tcf分别是通道聚焦的局部特征和全局表示。然后进一步对Ccf和Tcf进行空间聚焦,获得空间焦点图:
Figure BDA0003516179090000059
Mc=ψ7(Ch),
Figure BDA00035161790900000510
Figure BDA00035161790900000511
其中,
Figure BDA00035161790900000512
是一个token到图的生成器;Mc和Mt分别是从Ch和E生成的焦点图;Γ是一个线性投影,它通过一个全连接层将每个全局表示的维数减少到1;d表示一个全局表示的长度;
Figure BDA00035161790900000513
Figure BDA00035161790900000514
表示由三个全连接层实现的三个可学习的线性嵌入函数;然后进一步增强Ccf和Tcf
Figure BDA00035161790900000515
Figure BDA00035161790900000516
Figure BDA00035161790900000517
Figure BDA0003516179090000061
其中,
Figure BDA0003516179090000062
Figure BDA0003516179090000063
分别是用于增强Ccf和Tcf的图;Csf和Tsf分别是空间聚焦的局部特征和全局表示。最后生成DFM模块的最终输出,即Cdfm和Tdfm
Figure BDA0003516179090000064
Figure BDA0003516179090000065
Figure BDA0003516179090000066
Figure BDA0003516179090000067
其中,
Figure BDA0003516179090000068
表示MHSA后跟MLP,具有两个残差连接,用来基于全局表示Tsf进一步探索全局依赖性;“双重”聚焦模块以两种方式构建,即它允许通道和空间聚焦,并且对局部特征和全局表示进行聚焦;因为局部特征具有更详细的信息,因此最后利用最后一个DFM的输出局部特征来预测OPNet的最终输出:
Figure BDA0003516179090000069
步骤2训练过程
在训练时,首先将数据集的训练集数据送入网络的特征提取器,提取的局部特征和全局表示送入金字塔定位模块;金字塔定位模块建立并增强全局依赖性,在局部特征与全局表示中定位伪装目标,随后将生成的局部特征和全局表示送入三个双重聚焦模块;双重聚焦模块利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,最终获得精细的预测结果。为了使网络更关注可能会预测错误的区域,我们将加权二元交叉熵损失(lwbce)和加权IoU损失(lwiou)合并,即
Figure BDA00035161790900000610
为了促进培训过程,我们在三个DFM和最终输出中分别引入了Mc和Mt;整体的损失函数定义如下:
Figure BDA00035161790900000611
其中α、β和γ为平衡常数,设为1、1和2,以此引导OPNet能够根据输入图像更好地预测最终的伪装目标分割结果。
本发明的有益结果:
(1)方法的创新
本发明既强调了局部特征在伪装目标分割中的重要性,也强调了全局表示的重要性,并将全方位感知引入固有的先定位后聚焦的伪装目标分割范式中。设计了一种面向精确伪装目标分割的新型全方位感知网络(OPNet),其中提出了两个新模块(金字塔定位模块和双聚焦模块)来耦合局部特征和全局表示,以便更准确地定位伪装目标并精细划分边界,解决计算机视觉中伪装目标分割的问题。
(2)伪装目标分割的结果和效率
我们精心设计的金字塔定位模块(PPM)可以帮助网络从多尺度全局依赖感知的角度更好地定位目标对象;我们提出的双重聚焦模块(DFM)可以借助全局表示来抑制干扰,并且可以利用局部特征获取详细信息,因此OPNet可以在不同场景中发挥优秀的性能。我们用对比实验证明了OPNet伪装目标分割结果的准确性。对比实验中,OPNet在四个常用指标(Sα
Figure BDA0003516179090000071
和M)上均获得了最佳性能,并且优势明显。从结果上来看,OPNet分割结果十分优秀。
(3)适用性更广泛
本发明适用于多种类型的伪装目标的分割,OPNet在以下几种类型的图像上的性能优势明显:a)包含小伪装目标的图像;b)包含大伪装目标的图像;c)包含伪装目标区域内容与周围环境相似或边界不清晰的图像;d)具有复杂结构的伪装目标的图像。这证明了OPNet在不同场景下的有效性和实用性。
附图说明
图1为本发明OPNet的网络结构。
图2为本发明实施例的结果以及对比实验的结果展示。
具体实施方式
下面结合附图和技术方案,进一步说明本发明的具体实施方式。
本实施例所使用的数据集有CHAMELEON(76张图像)、CAMO(1250张图像)、COD10K(5066张图像)和NC4K(4121张图像),我们使用CAMO中的1000张图像和COD10K中的3040张图像作为训练集,其他图像作为测试集。在训练时,数据集中多种尺寸的图像会被统一缩放为416×416的分辨率,并通过随机水平翻转和颜色抖动进行增强,图像分割的输出结果会被重新调整为输入图像的原始大小。编码器网络的参数是由预先在ImageNet上训练的Conformer-B模型初始化的,其余层随机初始化。OPNet的实现基于PyTorch,使用了随机梯度下降优化器,其动量值为0.9,权重衰减为5×10-4。我们将批大小设置为14,并通过poly策略调整学习率,基准学习率为0.001,power为0.9。运行所在设备CPU为72核Intel XeonGold 6240 2.6GHz、内存大小为32GB、GPU型号为Tesla V100。
图1是OPNet的网络结构展示。OPNet由特征提取器、一个金字塔定位模块和三个双重聚焦模块组成。特征提取器通过双重网络结构即卷积分支和Transformer分支同时提取局部特征和全局表示,并通过功能耦合单元以交互方式融合局部特征和全局表示。金字塔定位模块结合局部特征和全局表示精确定位不同大小的目标对象;双重聚焦模块则结合局部特征和全局表示确定目标的边界并消除干扰背景,生成伪装目标的掩膜图像作为最终伪装目标分割结果。
图2是本发明实施例结果以及对比实验结果的展示。为了验证OPNet的有效性,我们重新训练了领域内的其他最新用于伪装目标分割的深度神经网络,并使用公开的可用代码在同样的数据集上训练和测试。图中以列为单位由左至右分别是原始图像、人工标注掩膜图像、OPNet、SINet-V2、Lietal.、R-MGL、Lvet al.、PFNet、SINet、GCPANet、CCNet的效果图。

Claims (2)

1.一种基于全方位感知的伪装目标图像分割方法,其特征在于,步骤如下:
步骤1、构建伪装目标分割网络OPNet
伪装目标分割网络OPNet主要由特征提取器、一个金字塔定位模块和三个双重聚焦模块组成;
特征提取器的主干网络采用的是Conformer,通过双重网络结构即卷积分支和Transformer分支同时提取局部特征和全局表示,并通过功能耦合单元以交互方式融合局部特征和全局表示;
金字塔定位模块使用金字塔自注意力机制,金字塔定位模块的输入为从Conformer的卷积分支和Transformer分支中提取的局部特征C和全局表示T,T中包括N patch tokenembeddings Tp和1segmentation token embeddingsts;首先通过自适应平均池化和重塑操作将输入转换为一致的形状:
Figure FDA0003516179080000011
Figure FDA0003516179080000012
其中,[]e表示embedding维度上的串联操作;ψk表示一个k×k的卷积层;
Figure FDA0003516179080000013
表示目标尺寸为n×n的自适应平均池化;
Figure FDA0003516179080000014
表示变形操作;
Figure FDA0003516179080000015
表示正则化层;
Figure FDA0003516179080000016
表示激活函数;然后,使用元素级加法运算将两种特征融合:
Ffusion=Cdown+Tdown,
在这之后,将Ffusion反馈至联合依赖感知模块中以检测全局相关性:
Figure FDA0003516179080000017
其中,
Figure FDA0003516179080000018
表示多头自注意力机制;
Figure FDA0003516179080000019
表示多层感知机;
得到的Fjdp由两部分组成,分别为N patch token embeddingsFp和1segmentationtoken embeddingsfs;然后对Fjdp进行两种类型的变换,以生成两种类型的特征,分别用于增强局部特征和全局表示:
Figure FDA0003516179080000021
Figure FDA0003516179080000022
其中,
Figure FDA0003516179080000023
是由双线性运算实现的上采样;给定
Figure FDA0003516179080000024
中的目标大小n后,联合依赖感知模块仅在固定尺度上执行全局相关性感知;在特定尺度下,Ffusion中的每个patch tokenembeddings都是具有特定尺寸区域的表示;通过改变联合依赖感知模块中
Figure FDA0003516179080000025
的n以实现多尺度依赖感知:
Figure FDA0003516179080000026
Figure FDA0003516179080000027
其中,[]c表示通道维度上的串联操作;
Figure FDA0003516179080000028
Figure FDA0003516179080000029
是联合依赖感知模块的输出局部特征和全局表示,其中
Figure FDA00035161790800000210
中的n等于i;最后,通过如下方式生成金字塔定位模块的最终输出:
Figure FDA00035161790800000211
Figure FDA00035161790800000212
接下来三个双重聚焦模块将进一步处理Cppm和Tppm
双重聚焦模块旨在帮助网络在解码阶段专注于候选区域,利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,它将前一个模块输出的局部特征Ch、全局表示E以及来自编码器的当前级别局部特征Ccenc作为输入,其中,全局表示E包含N patch tokenembeddings Ep和1segmentation token embeddings es;首先对更高级别的局部特征Ch和全局表示E进行通道聚焦,通过以下方式生成通道聚焦所需的联合向量:
Vjoint=[Vc,Vt]c,
Figure FDA00035161790800000213
Figure FDA00035161790800000214
其中,Vc和Vt分别是从Ch和Ep生成的焦点向量;然后分别获得局部特征和全局表示的通道注意力向量,并使用这两个向量来增强这两种类型的特征:
Figure FDA0003516179080000031
Tcf=[es,E′p]e,
Figure FDA0003516179080000032
Figure FDA0003516179080000033
Figure FDA0003516179080000034
Figure FDA0003516179080000035
其中,S是激活函数;
Figure FDA0003516179080000036
Figure FDA0003516179080000037
是分别用于增强Ccombined和Ep的向量;Ccf和Tcf分别是通道聚焦的局部特征和全局表示;然后进一步对Ccf和Tcf进行空间聚焦,获得空间焦点图:
Figure FDA0003516179080000038
Mc=ψ7(Ch),
Figure FDA0003516179080000039
Figure FDA00035161790800000310
其中,
Figure FDA00035161790800000311
是一个token到图的生成器;Mc和Mt分别是从Ch和E生成的焦点图;Γ是一个线性投影,它通过一个全连接层将每个全局表示的维数减少到1;d表示一个全局表示的长度;
Figure FDA00035161790800000312
Figure FDA00035161790800000313
表示由三个全连接层实现的三个可学习的线性嵌入函数;然后进一步增强Ccf和Tcf
Figure FDA00035161790800000314
Figure FDA00035161790800000315
Figure FDA00035161790800000316
Figure FDA00035161790800000317
其中,
Figure FDA0003516179080000041
Figure FDA0003516179080000042
分别是用于增强Ccf和Tcf的图;Csf和Tsf分别是空间聚焦的局部特征和全局表示;最后生成DFM模块的最终输出,即Cdfm和Tdfm
Figure FDA0003516179080000043
Figure FDA0003516179080000044
Figure FDA0003516179080000045
Figure FDA0003516179080000046
其中,
Figure FDA0003516179080000047
表示MHSA后跟MLP,具有两个残差连接,用来基于全局表示Tsf进一步探索全局依赖性;“双重”聚焦模块以两种方式构建,即它允许通道和空间聚焦,并且对局部特征和全局表示进行聚焦;因为局部特征具有更详细的信息,因此最后利用最后一个DFM的输出局部特征来预测OPNet的最终输出:
Figure FDA0003516179080000048
步骤2训练过程
在训练时,首先将数据集的训练集数据送入网络的特征提取器,提取的局部特征和全局表示送入金字塔定位模块;金字塔定位模块建立并增强全局依赖性,在局部特征与全局表示中定位伪装目标,随后将生成的局部特征和全局表示送入三个双重聚焦模块;双重聚焦模块利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,最终获得精细的预测结果。
2.根据权利要求1所述的基于全方位感知的伪装目标图像分割方法,其特征在于,为了使网络更关注可能会预测错误的区域,将加权二元交叉熵损失lwbce和加权IoU损失lwiou合并,即
Figure FDA0003516179080000049
为了促进培训过程,在三个DFM和最终输出中分别引入了Mc和Mt;整体的损失函数定义如下:
Figure FDA00035161790800000410
其中α、β和γ为平衡常数,设为1、1和2,以此引导OPNet能够根据输入图像更好地预测最终的伪装目标分割结果。
CN202210167375.1A 2022-02-23 2022-02-23 基于全方位感知的伪装目标图像分割方法 Pending CN114549567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210167375.1A CN114549567A (zh) 2022-02-23 2022-02-23 基于全方位感知的伪装目标图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210167375.1A CN114549567A (zh) 2022-02-23 2022-02-23 基于全方位感知的伪装目标图像分割方法

Publications (1)

Publication Number Publication Date
CN114549567A true CN114549567A (zh) 2022-05-27

Family

ID=81677085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210167375.1A Pending CN114549567A (zh) 2022-02-23 2022-02-23 基于全方位感知的伪装目标图像分割方法

Country Status (1)

Country Link
CN (1) CN114549567A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581752A (zh) * 2022-05-09 2022-06-03 华北理工大学 一种基于上下文感知和边界细化的伪装目标检测方法
CN115661820A (zh) * 2022-11-15 2023-01-31 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及系统
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116664990A (zh) * 2023-08-01 2023-08-29 苏州浪潮智能科技有限公司 伪装目标检测方法、模型训练方法、装置、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581752A (zh) * 2022-05-09 2022-06-03 华北理工大学 一种基于上下文感知和边界细化的伪装目标检测方法
CN115661820A (zh) * 2022-11-15 2023-01-31 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及系统
CN115661820B (zh) * 2022-11-15 2023-08-04 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及系统
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116664990A (zh) * 2023-08-01 2023-08-29 苏州浪潮智能科技有限公司 伪装目标检测方法、模型训练方法、装置、设备及介质
CN116664990B (zh) * 2023-08-01 2023-11-14 苏州浪潮智能科技有限公司 伪装目标检测方法、模型训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Cheng et al. Perturbation-seeking generative adversarial networks: A defense framework for remote sensing image scene classification
Yeh et al. Lightweight deep neural network for joint learning of underwater object detection and color conversion
Zhou et al. MFFENet: Multiscale feature fusion and enhancement network for RGB–thermal urban road scene parsing
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
Peng et al. Detecting heads using feature refine net and cascaded multi-scale architecture
CN114549567A (zh) 基于全方位感知的伪装目标图像分割方法
Chen et al. MFFN: An underwater sensing scene image enhancement method based on multiscale feature fusion network
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
Ma et al. A crossmodal multiscale fusion network for semantic segmentation of remote sensing data
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN113505768A (zh) 模型训练、人脸识别方法、电子设备及存储介质
Liu et al. Boosting camouflaged object detection with dual-task interactive transformer
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
Gouidis et al. Accurate hand keypoint localization on mobile devices
Chen et al. SARAS-net: scale and relation aware siamese network for change detection
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
Yang et al. S3Net: A single stream structure for depth guided image relighting
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN117094895A (zh) 图像全景拼接方法及其系统
Scheck et al. Unsupervised domain adaptation from synthetic to real images for anchorless object detection
Zhao et al. Deep learning-based laser and infrared composite imaging for armor target identification and segmentation in complex battlefield environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination