CN116452812A - 一种伪装物体识别及语义分割方法 - Google Patents

一种伪装物体识别及语义分割方法 Download PDF

Info

Publication number
CN116452812A
CN116452812A CN202310548127.6A CN202310548127A CN116452812A CN 116452812 A CN116452812 A CN 116452812A CN 202310548127 A CN202310548127 A CN 202310548127A CN 116452812 A CN116452812 A CN 116452812A
Authority
CN
China
Prior art keywords
camouflage object
camouflage
object identification
guidance
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310548127.6A
Other languages
English (en)
Inventor
刘红霞
刘星宇
王祥泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202310548127.6A priority Critical patent/CN116452812A/zh
Publication of CN116452812A publication Critical patent/CN116452812A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像数据处理技术领域,具体涉及一种伪装物体识别及语义分割方法,该方法包括:获取待检测区域对应的待检测图像;通过预先训练完成的伪装物体识别网络,对待检测图像进行伪装物体识别,其中,伪装物体识别网络包括:Swin‑Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块,Swin‑Transformer是伪装物体识别网络的骨干,群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习,群体逆向注意模块包括预设数量个GRA块,每个GRA块有三个残差学习过程。本发明可以实现实时检测,提高了伪装物体识别的准确度。

Description

一种伪装物体识别及语义分割方法
技术领域
本发明涉及图像数据处理技术领域,具体涉及一种伪装物体识别及语义分割方法。
背景技术
伪装物体识别领域目前是深度学习的一个重点领域。尝试着将不同的方法用于伪装目标检测任务,以求获得好的效果。目前比较著名的模型有SiNET、SiNET V2、RCRNet和SLT-NET,不同的模型会关注于不同的领域,比如说伪装目标检测、伪装语义分割、伪装视频检测、息肉分割、轻量化伪装模型等。
然而,当采用现有伪装物体识别方式时,经常会存在如下技术问题:
模型过大,检测速度较慢,无法实现实时检测;
检测效果的准确度还有提升空间。
发明内容
本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决伪装物体识别的准确度较低的技术问题,本发明提出了一种伪装物体识别及语义分割方法。
本发明提供了一种伪装物体识别及语义分割方法,该方法包括:
获取待检测区域对应的待检测图像;
通过预先训练完成的伪装物体识别网络,对待检测图像进行伪装物体识别,其中,伪装物体识别网络包括:Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块,Swin-Transformer是伪装物体识别网络的骨干,群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习,群体逆向注意模块包括预设数量个GRA块,每个GRA块有三个残差学习过程,第一个过程基于候选特征和使用群引导操作的反向引导,以产生提纯特征,第二个过程产生单通道残差引导图,第三个过程基于前两个过程输出优化后的引导图。
进一步地,所述伪装物体识别网络的训练过程,包括:
获取伪装物体图像集合和伪装物体图像集合中的每个伪装物体图像对应的伪装物体区域;
构建伪装物体识别网络;
将伪装物体图像集合确定为伪装物体识别网络的训练集,将伪装物体图像对应的伪装物体区域确定为伪装物体识别网络的训练标签,对构建的伪装物体识别网络进行训练,得到训练完成的伪装物体识别网络,其中,伪装物体识别网络训练过程的损失函数为:
其中,损失函数的右边是全局限制和局部限制的加权交叉熵损失和二进制交叉熵损失。
本发明具有如下有益效果:
本发明通过预先训练完成的伪装物体识别网络,对获取的待检测图像进行伪装物体识别,可以实现对待检测图像的伪装物体识别。并且伪装物体识别网络以Swin-Transformer作为骨干,还包括:纹理增强模块、邻居连接解码器和群体逆向注意模块。本发明使用Swin-Transformer方法,可以实现使用少量的训练数据轻松收敛到特定任务。引入TEM是为了模拟人类视觉系统中感受野的纹理结构。NCD负责在TEM的协助下找到候选对象。GRA模块再现了动物的识别阶段。使用群体逆向注意模块(Group-Reversal Attentionblock,GRA)采用反向引导和群体引导两种操作进行残差学习。它由多个GRA块组成,通过不同的特征金字塔逐步优化粗预测。每个GRA块有三个残差学习过程。第一个过程结合候选特征和使用群引导操作的反向引导,然后是残差阶段以产生精细特征。第二个过程产生单通道残余制导。第三个过程结合了精炼的特征和残差指导来产生最终的输出。这有助于通过在多个阶段细化预测来提高性能。因此本发明可以实现实时检测,并且提高了伪装物体识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为根据本发明的一种伪装物体识别及语义分割方法的流程图;
图2为根据本发明的伪装物体识别网络的整个架构的示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明提供了一种伪装物体识别及语义分割方法,该方法包括以下步骤:
获取待检测区域对应的待检测图像;
通过预先训练完成的伪装物体识别网络,对待检测图像进行伪装物体识别,其中,伪装物体识别网络包括:Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块,Swin-Transformer是伪装物体识别网络的骨干,群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习,群体逆向注意模块包括预设数量个GRA块,每个GRA块有三个残差学习过程,第一个过程基于候选特征和使用群引导操作的反向引导,以产生精细特征,第二个过程产生单通道残余制导,第三个过程基于精炼的特征和残差指导来产生最终的输出。
下面对上述各个步骤进行详细展开:
参考图1,示出了根据本发明的一种伪装物体识别及语义分割方法的一些实施例的流程。该伪装物体识别及语义分割方法,包括以下步骤:
步骤S1,获取待检测区域对应的待检测图像。
在一些实施例中,可以获取待检测区域对应的待检测图像。
其中,待检测区域可以是待进行伪装物体识别的区域。待检测图像可以是待检测区域的表面图像。伪装物体可以是指与背景高度一致肉眼难以分辨出来的物体。例如,伪装物体可以是变色龙、组织的早期病变、身着迷彩服的士兵等。
作为示例,可以通过相机,获取待检测区域对应的待检测图像。
步骤S2,通过预先训练完成的伪装物体识别网络,对待检测图像进行伪装物体识别。
在一些实施例中,可以通过预先训练完成的伪装物体识别网络,对待检测图像进行伪装物体识别。
其中,伪装物体识别网络可以用于识别伪装物体。伪装物体识别网络也可以称伪装物体识别模型。伪装物体识别网络包括:Swin-Transformer、纹理增强模块(TEM)、邻居连接解码器(NCD)和群体逆向注意模块(又称分组方向注意力)(GRA)。Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块是伪装物体识别网络包括的四个基本组成部分。Swin-Transformer是伪装物体识别网络的骨干。即伪装物体识别网络是使用Swin-Transformer作为骨干设计的神经网络。群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习。群体逆向注意模块包括预设数量个GRA块。预设数量可以是预先设置的数量。每个GRA块有三个残差学习过程,第一个过程基于候选特征和使用群引导操作的反向引导,以产生提纯特征;第二个过程产生单通道残差引导图;第三个过程基于前两步(这里的前两步为前两个过程)输出优化后的引导图,即视为残差预测图。伪装物体识别网络的整个架构可以如图2所示。
需要说明的是,视觉Transformer是一种体系结构,它使用自注意机制从输入序列中捕获全局上下文信息。它已被应用于计算机视觉领域,但计算成本高,收敛速度慢。提出了使Transformer更有效地执行视觉任务的方法,但这些方法中的大多数都需要大量的训练数据。本发明使用Swin-Transformer方法,可以实现使用少量的训练数据轻松收敛到特定任务。引入TEM是为了模拟人类视觉系统中感受野的纹理结构。NCD负责在TEM的协助下找到候选对象。GRA模块再现了动物的识别阶段。使用群体逆向注意模块(Group-ReversalAttention block,GRA)采用反向引导和群体引导两种操作进行残差学习。它由多个GRA块组成,通过不同的特征金字塔逐步优化粗预测。每个GRA块有三个残差学习过程。第一个过程结合候选特征和使用群引导操作的反向引导,然后是残差阶段以产生精细特征(又称提纯特征)。第二个过程产生单通道残余制导(又称单通道残差引导图)。第三个过程结合了精炼的特征(提纯特征)和残差指导(单通道残差引导图)来产生最终的输出。这有助于通过在多个阶段细化预测来提高性能。
可选地,伪装物体识别网络的训练过程可以包括以下步骤:
第一步,获取伪装物体图像集合和伪装物体图像集合中的每个伪装物体图像对应的伪装物体区域。
其中,伪装物体图像可以是已知伪装物体区域的图像。伪装物体区域可以是伪装物体所在的区域。
第二步,构建伪装物体识别网络。
例如,构建包括Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块的神经网络,作为训练前的伪装物体识别网络。其中,构建的伪装物体识别网络以Swin-Transformer作为骨干。
第三步,将伪装物体图像集合确定为伪装物体识别网络的训练集,将伪装物体图像对应的伪装物体区域确定为伪装物体识别网络的训练标签,对构建的伪装物体识别网络进行训练,得到训练完成的伪装物体识别网络。其中,伪装物体识别网络训练过程的损失函数为:
其中,损失函数的右边是全局限制和局部(像素级)限制的加权交叉熵损失和二进制交叉熵损失。由于伪装目标检测的独特性,因此加权IoU损耗增加了硬像素的权重。
标准的加权交叉熵(IoU)损失已被广泛地使用在分割任务上,针对伪装目标检测任务的特点,本发明加以权重和二进制交叉熵损失,以突出不同像素的权重,这些损失函数已经在范登平先生的研究“Concealed Object Detection”中证实是有效的。
需要说明的是,关于超参数设置,本发明可以在PyTorch中实现,并使用Adam优化器进行训练。在训练阶段,批量大小设置为36,学习率从1e-4开始,每50个epoch。整个训练时间只有4个小时。运行时间是在4.90GHz的12核心CPU和单个12GB显存的安培架构GPU上测量的。在推理过程中,每个图像的大小调整为352×352,然后馈送到建议的管道中,以获得最终预测,而无需任何后处理技术。在没有I/O时间的单个GPU上,推理速度为60fps,接近可以实时检测。
关于评估指标,平均绝对误差(MAE)通常用于语义对象检测任务,以评估预测地图与地面实况之间的像素级精度。但是,MAE不提供有关错误发生位置的信息。为了解决这个问题,提出了E-measure,它评估像素级匹配和图像级统计。S度量还用于评估结构相似性。加权F度量也被视为替代指标。这些指标提供对伪装物体检测结果的更全面的评估。
关于培训/测试协议,为了与以前的版本进行公平比较,本发明对基线采用了相同的训练设置。评估了整个CHAMELEON数据集以及CAMO和COD10K测试集上的模型。
本发明提供了CHAMELEON、CAMO和COD10K数据集的定量评估结果。模型的分析结果如表1所示。
表1
关于CHAMELEON,从表1可知,与SiNet相比。本发明的模型(伪装物体识别网络)在多个性能指标强于SiNet。
关于CAMO,可以在CAMO数据集上测试本发明的模型,其中包括各种伪装对象。根据表1中报告的整体性能,可以发现CAMO数据集比变色龙更具挑战性。本发明的模型实现了新的SOTA性能,进一步证明了其鲁棒性。
关于COD10K,可以通过COD10K数据集的测试集(2026张图像),可以发现本发明的模型优于其他竞争对手。这是因为其专门设计的搜索和识别模块可以自动学习从粗到细的丰富多样的特征,这对于克服对象边界中具有挑战性的模糊性至关重要。
与SINet V2相比,本发明在不同的照明、外观变化和无法定义的边界方面进一步改善了视觉效果。对于这些具有挑战性的案例,本发明的模型能够通过精细的细节推断出真实的伪装对象,证明了框架的鲁棒性。
本发明设计了一个基于Swin-Transformer的伪装物体分割框架,本发明的模型效果超过了SiNet V2的模型,具体对比如表2所示。
表2
综上,本发明通过预先训练完成的伪装物体识别网络,对获取的待检测图像进行伪装物体识别,可以实现对待检测图像的伪装物体识别。并且伪装物体识别网络以Swin-Transformer作为骨干,还包括:纹理增强模块、邻居连接解码器和群体逆向注意模块。本发明使用Swin-Transformer方法,可以实现使用少量的训练数据轻松收敛到特定任务。引入TEM是为了模拟人类视觉系统中感受野的纹理结构。NCD负责在TEM的协助下找到候选对象。GRA模块再现了动物的识别阶段。使用群体逆向注意模块(Group-Reversal Attentionblock,GRA)采用反向引导和群体引导两种操作进行残差学习。它由多个GRA块组成,通过不同的特征金字塔逐步优化粗预测。每个GRA块有三个残差学习过程。第一个过程结合候选特征和使用群引导操作的反向引导,然后是残差阶段以产生精细特征。第二个过程产生单通道残余制导。第三个过程结合了精炼的特征和残差指导来产生最终的输出。这有助于通过在多个阶段细化预测来提高性能。因此本发明提高了伪装物体识别的准确度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。

Claims (2)

1.一种伪装物体识别及语义分割方法,其特征在于,包括以下步骤:
获取待检测区域对应的待检测图像;
通过预先训练完成的伪装物体识别网络,对待检测图像进行伪装物体识别,其中,伪装物体识别网络包括:Swin-Transformer、纹理增强模块、邻居连接解码器和群体逆向注意模块,Swin-Transformer是伪装物体识别网络的骨干,群体逆向注意模块采用反向引导和群体引导两种操作进行残差学习,群体逆向注意模块包括预设数量个GRA块,每个GRA块有三个残差学习过程,第一个过程基于候选特征和使用群引导操作的反向引导,以产生提纯特征,第二个过程产生单通道残差引导图,第三个过程基于前两个过程输出优化后的引导图。
2.根据权利要求1所述的一种伪装物体识别及语义分割方法,其特征在于,所述伪装物体识别网络的训练过程,包括:
获取伪装物体图像集合和伪装物体图像集合中的每个伪装物体图像对应的伪装物体区域;
构建伪装物体识别网络;
将伪装物体图像集合确定为伪装物体识别网络的训练集,将伪装物体图像对应的伪装物体区域确定为伪装物体识别网络的训练标签,对构建的伪装物体识别网络进行训练,得到训练完成的伪装物体识别网络,其中,伪装物体识别网络训练过程的损失函数为:
其中,损失函数的右边是全局限制和局部限制的加权交叉熵损失和二进制交叉熵损失。
CN202310548127.6A 2023-05-15 2023-05-15 一种伪装物体识别及语义分割方法 Pending CN116452812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310548127.6A CN116452812A (zh) 2023-05-15 2023-05-15 一种伪装物体识别及语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310548127.6A CN116452812A (zh) 2023-05-15 2023-05-15 一种伪装物体识别及语义分割方法

Publications (1)

Publication Number Publication Date
CN116452812A true CN116452812A (zh) 2023-07-18

Family

ID=87132139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310548127.6A Pending CN116452812A (zh) 2023-05-15 2023-05-15 一种伪装物体识别及语义分割方法

Country Status (1)

Country Link
CN (1) CN116452812A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894943A (zh) * 2023-07-20 2023-10-17 深圳大学 一种双约束的伪装目标检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894943A (zh) * 2023-07-20 2023-10-17 深圳大学 一种双约束的伪装目标检测方法及系统

Similar Documents

Publication Publication Date Title
Pacal et al. A robust real-time deep learning based automatic polyp detection system
Zhang et al. Bilateral attention network for RGB-D salient object detection
Wang et al. Salient object detection based on multi-scale contrast
CN110689025B (zh) 图像识别方法、装置、系统及内窥镜图像识别方法、装置
CN111161254A (zh) 一种骨龄预测方法
Wang et al. NIR iris challenge evaluation in non-cooperative environments: Segmentation and localization
Li et al. Robust deep neural networks for road extraction from remote sensing images
Xu et al. Boundary guidance network for camouflage object detection
CN111340758A (zh) 一种基于深度神经网络的高效虹膜图像质量评价新方法
Sirjani et al. Automatic cardiac evaluations using a deep video object segmentation network
Fang et al. UDNet: Uncertainty-aware deep network for salient object detection
CN116452812A (zh) 一种伪装物体识别及语义分割方法
CN116503431A (zh) 基于边界引导注意力的编解码器医学图像分割系统及方法
Yang et al. Visual saliency detection with center shift
CN113033305B (zh) 活体检测方法、装置、终端设备和存储介质
CN116934747B (zh) 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统
CN116229074A (zh) 一种递进式边界区域优化的医学图像小样本分割方法
Zhang et al. Global guidance-based integration network for salient object detection in low-light images
Sang et al. RARNet fusing image enhancement for real-world image rain removal
Sun et al. Mipi 2022 challenge on rgb+ tof depth completion: Dataset and report
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction
Fan et al. EGFNet: Efficient guided feature fusion network for skin cancer lesion segmentation
CN112529081A (zh) 基于高效注意力校准的实时语义分割方法
Vinta et al. Segmentation and Classification of Interstitial Lung Diseases Based on Hybrid Deep Learning Network Model
LIU et al. Dual-Template Siamese Network with Attention Feature Fusion for Object Tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Hongxia

Inventor after: Liu Xingyu

Inventor after: Wang Xiangze

Inventor after: Liu Jing

Inventor before: Liu Hongxia

Inventor before: Liu Xingyu

Inventor before: Wang Xiangze

CB03 Change of inventor or designer information