CN117710665A - 伪装物分割方法、装置、设备及存储介质 - Google Patents
伪装物分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117710665A CN117710665A CN202311623075.0A CN202311623075A CN117710665A CN 117710665 A CN117710665 A CN 117710665A CN 202311623075 A CN202311623075 A CN 202311623075A CN 117710665 A CN117710665 A CN 117710665A
- Authority
- CN
- China
- Prior art keywords
- camouflage
- preset
- feature
- features
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims abstract description 109
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000002776 aggregation Effects 0.000 claims description 34
- 238000004220 aggregation Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 206010035664 Pneumonia Diseases 0.000 description 1
- 208000037062 Polyps Diseases 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种伪装物分割方法、装置、设备及存储介质,该方法包括:根据预设编码器对待识别图像进行特征提取,获得初始图像特征,预设编码器的骨干网络由预设Transformer组成;通过预设解码器对初始图像特征进行并行信息重建,获得目标分割伪装物。本实施例可通过将预设Transformer作为骨干网络的预设编码器对待识别图像进行特征提取,从而基于预设Transformer的全局感知能力获取包含更多全局特征的初始图像特征,再通过预设解码器对初始图像特征进行并行信息重建,从而在不影响模型分割速度的情况下,增强模型的表达能力,提升了模型的分割精度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种伪装物分割方法、装置、设备及存储介质。
背景技术
伪装物体分割是一种特殊的图像分割方法,其可广泛应用于不同领域,实现如进行搜救、寻找稀有物种、息肉分割、肺炎分割和伪装蝗虫分割等不同功能,因此愈发受到人们重视。
目前综合分割效果最好的伪装物体分割方法为基于CNN神经网络从图像中分割出伪装物体,然而,由于伪装物体在复杂的背景中有很强的伪装性,现有伪装物分割方法存在分割精度低的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种伪装物分割方法、装置、设备及存储介质,旨在解决现有伪装物分割方法分割精度低的技术问题。
为实现上述目的,本发明提供了一种伪装物分割方法,所述方法包括:
根据预设编码器对待识别图像进行特征提取,获得初始图像特征,所述预设编码器的骨干网络由预设Transformer组成;
通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物。
可选地,所述预设编码器包括:主干模块、预设Transformer骨干网络和注意力模块;所述初始图像特征包括:目标多尺寸特征和关键图像特征;
所述根据预设编码器对待识别图像进行特征提取,获得初始图像特征的步骤,包括:
根据所述主干模块对待识别图像进行信息提取,获得初始图像信息;
根据所述预设Transformer骨干网络对所述初始图像信息进行特征扩展捕获,获得所述目标多尺寸特征;
根据所述注意力模块对预设关键特征进行维度特征过滤,获得所述关键图像特征,所述预设关键特征为所述目标多尺寸特征对应的最后一层特征图。
可选地,所述注意力模块包括:第一至第三维度分支;所述关键图像特征包括:第一至第三维度特征;所述根据所述注意力模块对预设关键特征进行维度特征过滤,获得所述关键图像特征的步骤包括:
根据第一维度分支对所述预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;
根据第二维度分支对所述预设关键特征进行所述通道维度和第二空间维度的注意力运算,获得第二维度特征;
根据所述第一维度分支对所述预设关键特征进行所述第一空间维度和所述第二空间维度的空间相关性运算,获得所述第三维度特征。
可选地,所述预设解码器包括:感受野增强模块和特征增强分析模块;所述通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物的步骤,包括:
通过所述感受野增强模块对所述初始图像特征进行并行卷积处理,获得中间识别特征;
通过所述特征增强分析模块对所述中间识别特征进行信息增强分析,获得目标分割伪装物。
可选地,所述特征增强分析模块包括:特征聚合模块和反向注意力模块;所述通过所述特征增强分析模块对所述中间识别特征进行信息增强分析,获得目标分割伪装物的步骤,包括:
通过所述特征聚合模块对所述中间识别特征进行特征融合,获得初始分割伪装物;
通过所述反向注意力模块对所述初始分割伪装物进行边界增强,获得目标分割伪装物。
可选地,所述中间识别特征包括低级特征图和高级特征图;所述通过所述特征聚合模块对所述中间识别特征进行特征融合,获得初始分割伪装物的步骤,包括:
通过所述特征聚合模块对所述低级特征图和所述高级特征图进行并行特征聚合,获得初始分割伪装物。
可选地,所述通过所述反向注意力模块对所述初始分割伪装物进行边界增强,获得目标分割伪装物之后,还包括:
根据预设损失函数和所述目标分割伪装物对应的真实标签确定预设像素损失;
根据所述预设像素损失对所述预设解码器进行模型更新。
此外,为实现上述目的,本发明还提出一种伪装物分割装置,所述伪装物分割装置包括:
特征提取模块,用于根据预设编码器对所述待识别图像进行特征提取,获得初始图像特征,所述预设编码器的骨干网络由预设Transformer组成;
伪装物分割模块,用于通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物。
此外,为实现上述目的,本发明还提出一种伪装物分割设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的伪装物分割程序,所述伪装物分割程序配置为实现如上文所述的伪装物分割方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有伪装物分割程序,所述伪装物分割程序被处理器执行时实现如上文所述的伪装物分割方法的步骤。
本发明公开了一种伪装物分割方法、装置、设备及存储介质,该方法包括:根据主干模块对待识别图像进行信息提取,获得初始图像信息;根据预设Transformer骨干网络对初始图像信息进行特征扩展捕获,获得目标多尺寸特征;根据第一维度分支对预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;根据第二维度分支对预设关键特征进行通道维度和第二空间维度的注意力运算,获得第二维度特征;根据第一维度分支对预设关键特征进行第一空间维度和第二空间维度的空间相关性运算,获得第三维度特征,预设关键特征为目标多尺寸特征对应的最后一层特征图。本发明可通过将预设Transformer作为骨干网络的预设编码器对待识别图像进行特征提取,可基于预设Transformer的全局感知能力获取包含更多的全局特征的初始图像特征,增强模型的表达能力。再通过预设解码器对初始图像特征进行并行信息重建,从而在不影响模型分割速度的情况下,提升了模型的分割精度,进而快速准确地分割出隐藏在待识别图像的背景中的目标伪装物。此外,本发明还可通过注意力机制补强了模型的局部感知能力,使模型将更多的注意力集中在伪装目标上,进一步提高伪装物的分割精度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的伪装物分割设备的结构示意图;
图2为本发明伪装物分割方法第一实施例的第一流程示意图;
图3为本发明伪装物分割方法第一实施例的第二流程示意图;
图4为本发明伪装物分割方法第一实施例的预设编码器结构示意图;
图5为本发明伪装物分割方法第一实施例的第三流程示意图;
图6为本发明伪装物分割方法第一实施例的注意力模块结构示意图;
图7为本发明伪装物分割方法第二实施例的第一流程示意图;
图8为本发明伪装物分割方法第二实施例的感受野增强模块结构示意图;
图9为本发明伪装物分割方法第二实施例的并行特征聚合过程示意图;
图10为本发明伪装物分割方法第二实施例的伪装物分割过程示意图;
图11为本发明伪装物分割装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的伪装物分割设备结构示意图。
如图1所示,该伪装物分割设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对伪装物分割设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及伪装物分割程序。
在图1所示的伪装物分割设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明伪装物分割设备中的处理器1001、存储器1005可以设置在伪装物分割设备中,所述伪装物分割设备通过处理器1001调用存储器1005中存储的伪装物分割程序,并执行本发明实施例提供的伪装物分割方法。
本发明实施例提供了一种伪装物分割方法,参照图2,图2为本发明伪装物分割方法第一实施例的第一流程示意图。
可以理解的是,伪装物体在复杂的背景中有很强的伪装性,现有技术使用了基于CNN的骨干网络进行为伪装物体分割,尽管可降低误报数量,但是基于卷积固有的局限性,基于CNN的方法很难学习显式的全局和长期语义交互信息,限制了模型的分割精度提高。因此,如图2所示,本实施例中,所述伪装物分割方法包括以下步骤:
步骤S10:根据预设编码器对待识别图像进行特征提取,获得初始图像特征,所述预设编码器的骨干网络由预设Transformer组成;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、电视机、平板电脑、个人电脑等,还可以是能够实现相同或相似功能的其他电子设备。此处以上述伪装物分割设备(简称分割设备)对本实施例和下述各实施例提供的伪装物分割方法进行具体说明。
需要理解的是,上述待识别图像可以是从预先通过数据增强的方法扩充数据后获得的伪装物体图像数据集获取的图像,从而增强伪装物分割模型的鲁棒性,上述数据增强的方法有旋转,放大,缩小,添加噪声等。此外,本实施例构建的伪装物分割网络可由预设编码器和预设解码器两部分构成,本实施例中,预设编码器的骨干网络可由预设Transformer组成,相较于CNN网络,该预设Transformer可及时地提取更多的全局特征和长期语义交互信息,从而提高识别精度。
具体地,作为一种可实施方式,所述预设编码器包括:主干模块、预设Transformer骨干网络和注意力模块;所述初始图像特征包括:目标多尺寸特征和关键图像特征;如图3所示,图3为本发明伪装物分割方法第一实施例的第二流程示意图,本实施例中,步骤S10包括:
步骤S101:根据所述主干模块对待识别图像进行信息提取,获得初始图像信息;
步骤S102:根据所述预设Transformer骨干网络对所述初始图像信息进行特征扩展捕获,获得所述目标多尺寸特征;
易理解的是,通常伪装物体能够在背景中很好的隐藏自己,因此网络模型提取伪装物体特征时相似的背景会对伪装物的识别和分割造成干扰。因此,本实施例可使预设编码器的骨干网络由预设Transformer(翻译)组成,从而为伪装物体分割提取更健壮更强大的特征。本实施例中,该预设Transformer可以是一个高性能的视觉转换器ResT,与标准的Transformer不同,为了压缩内存提高模型的推断速度,ResT中的EMSA(Efficient Multi-Head Self-TAention,多头注意力)可将2d的输入向量沿着空间维度展开为3d,3d输入向量再经过depth-with卷积中缩小宽和高后再转换成2d向量计算自注意力,可减少计算量,从而达到在不影响模型分割速度的情况下获取更多的全局特征,提升了模型的分割精度。
需要说明的是,如图4所示,图4为本发明伪装物分割方法第一实施例的预设编码器结构示意图,本实施例中预设编码器可包括:主干模块和预设Transformer骨干网络,图4中,输入的待识别图像(即图4中的Images)的尺寸可为H×W×3,主干模块(即图4中的Stem)可用于提取待识别图像的低级信息,获得初始图像信息,然后再通过预设Transformer骨干网络捕获多尺寸特征图,如图4所示,预设Transformer骨干网络中可包含多个子模块(如图4中的子模块1~4,但本实施例对预设Transformer骨干网络中的子模块的数量并不加以限制),各子模块可由补丁嵌入(图4中的patch)、位置编码(PE)和一组N个Transformer构成,图中Ni(i=1,2,3,4)=2,2,2,2,C=96。其中,由于补丁嵌入与主干模块功能相同,本实施例中阶段1对应的模块中可无补丁嵌入。此外,为了适应伪装物体分割任务,本实施可剔除原网络结构中的最后一个分类层。
可以理解的是,由于子模块1输出的特征层X4尺寸较大,计算成本较高,且底层特征对模型性能的贡献较少,所以本实施例可只提取了除去子模块1生成的多尺寸特征图作为上述目标多尺寸特征,即本实施例可对应将图4中后三个阶段产生的不同尺寸的特征图X1、X2和X3作为上述目标多尺寸特征。
步骤S103:根据所述注意力模块对预设关键特征进行维度特征过滤,获得所述关键图像特征,所述预设关键特征为所述目标多尺寸特征对应的最后一层特征图。
需要理解的是,本实施例中预设编码器还可包括:注意力模块,由于基于Transformer的图像分割方法大多关注的是全局信息,但在待识别图像中的伪装物体通常是隐藏在背景中的,只是一小部分,因此,本实施例同时也需要让模型更加关注待分割的局部伪装物。因此,本实施例还可对目标多尺寸特征进行维度特征过滤,使模型更多的关注到作为局部信息的伪装物体。由于目标多尺寸特征中最后一层特征图(如图4中的X1)的特征信息较为精准,因此为不增加过多的模型数据量,本实施例可只对目标多尺寸特征中最后一层特征图,即上述预设关键特征进行维度特征过滤。
进一步地,作为一种可实施方式,所述注意力模块包括:第一至第三维度分支;所述关键图像特征包括:第一至第三维度特征;如图5所示,图5为本发明伪装物分割方法第一实施例的第三流程示意图,本实施例中,步骤S103包括:
步骤S103a:根据第一维度分支对所述预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;
步骤S103b:根据第二维度分支对所述预设关键特征进行所述通道维度和第二空间维度的注意力运算,获得第二维度特征;
步骤S103c:根据所述第一维度分支对所述预设关键特征进行所述第一空间维度和所述第二空间维度的空间相关性运算,获得所述第三维度特征。
可以理解的是,上述注意力模块可以是一种注意力机制,本实施例可使用注意力机制补强模型的局部感知能力,使模型将更多的注意力集中在伪装目标上。具体地,本实施例可采用Triplet TAention(TTA)作为上述注意力模块,从而可通过该注意力模块基于三分支捕捉不同维度来交互来计算注意权重,使模型受控制的将更多注意力集中在伪装物体上,从而提升模型的分割精度。为了便于理解,以图6为例进行举例说明,图6为本发明伪装物分割方法第一实施例的注意力模块结构示意图,如图6所示,本实施例中注意力模块可包括:第一至第三维度分支,在将目标多尺寸特征中最后一层特征图X1(即图6中的inputtensor)输入注意力模块后,第一维度分支负责计算通道维度C和第一空间维度W上的注意力权重,获得第一维度特征;第二维度分支负责通道维度C与第二空间维度H,获得第二维度特征;底部的第三维度分支则可用于捕获第一空间维度W和第二空间维度H之间的空间相关性,获得第三维度特征;最后将第一至第三维度特征汇总为关键图像特征(即图6中的output tensor)。因此,将注意力模块运用到预设Transformer骨干网络输出的最后一层后,本实施例可通过上述三个分支的运算,对输入的预设关键特征,通过旋转操作和残差变换建立维度间依赖关系,并以可忽略的计算开销对预设关键特征的通道和空间信息进行编码,使模型受控制的将更多注意力集中在伪装物体上,从而提升模型的分割精度,并且由于注意力模块中三个分支的运算为并行结构,也不会过多增加模型的计算量。
步骤S20:通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物。
可以理解的是,在基于预设编码器获取待识别图像中的初始图像特征后,本实施例可通过预设解码器对初始图像特征进行并行信息重建,从而在提升模型识别精度的同时提高模型分割速度,从而快速且精准地获得目标分割伪装物。
本实施例根据主干模块对待识别图像进行信息提取,获得初始图像信息;根据预设Transformer骨干网络对初始图像信息进行特征扩展捕获,获得目标多尺寸特征;根据第一维度分支对预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;根据第二维度分支对预设关键特征进行通道维度和第二空间维度的注意力运算,获得第二维度特征;根据第一维度分支对预设关键特征进行第一空间维度和第二空间维度的空间相关性运算,获得第三维度特征,预设关键特征为目标多尺寸特征对应的最后一层特征图。本实施例可通过将预设Transformer作为骨干网络的预设编码器对待识别图像进行特征提取,可基于预设Transformer的全局感知能力获取包含更多的全局特征的初始图像特征,增强模型的表达能力。再通过预设解码器对初始图像特征进行并行信息重建,从而在不影响模型分割速度的情况下,提升了模型的分割精度,进而可快速准确地分割出隐藏在待识别图像的背景中的目标伪装物。此外,本实施例还可通过注意力机制补强了模型的局部感知能力,使模型将更多的注意力集中在伪装目标上,进一步提高伪装物的分割精度。
参照图7,图7为本发明伪装物分割方法第二实施例的第一流程示意图,基于上述图2所示的实施例,提出本发明伪装物分割方法的第二实施例。
本实施例中,所述预设解码器包括:感受野增强模块和特征增强分析模块,步骤S20包括:
步骤S201:通过所述感受野增强模块对所述初始图像特征进行并行卷积处理,获得中间识别特征;
可以理解的是,模型的接受域大小也会影响模型的分割效果,因此在基于预设编码器获得初始图像特征,如图4中不同尺寸的特征图X1、X2和X2,后可先经过轻量级感受野增大模块RFB-s,即上述感受野增强模块,增强各特征图的表示能力。如图8所示,图8为本发明伪装物分割方法第二实施例的感受野增强模块结构示意图,如图8所示,本实施例中,感受野模块可由多个小卷积模块(如图8中的Conv(1x1)、Conv(3x1)、Conv(1x3)和Conv(3x3))并行组成,并可通过不同的卷积模块对输入的初始图像特征进行并行卷积处理,从而扩大卷积感受野突出中心区域的重要性,提高了对感受野的鲁棒性,获得与初始图像特征中各特征图相对应的中间识别特征。
步骤S202:通过所述特征增强分析模块对所述中间识别特征进行信息增强分析,获得目标分割伪装物。
需要理解的是,在获得中间识别特征后,本实施例可通过特征增强分析模块对中间识别特征进行进一步地特征细化,即进行上述信息增强分析,从而获得目标分割伪装物。具体地,作为一种可实施方式,所述特征增强分析模块包括:特征聚合模块和反向注意力模块;本实施例中,步骤S202包括:
步骤S202a:通过所述特征聚合模块对所述中间识别特征进行特征融合,获得初始分割伪装物;
易理解的是,本实施例可首先经过特征聚合模块融合不同阶段的特征图,以减少小目标的缺失,并获取初步分割伪装物。具体地,作为一种可实施方式,所述中间识别特征包括低级特征图和高级特征图;本实施例中,步骤S202a包括:
步骤S202a’:通过所述特征聚合模块对所述低级特征图和所述高级特征图进行并行特征聚合,获得初始分割伪装物。
易理解的是,在相似的背景中伪装物体的边界很难识别,模型需要融合高分辨率的低级特征。由于预设编码器在不同阶段输出了不同尺寸的特征图后,预设解码器可首先经过上述感受野增强模块RFB-s对不同尺寸的特征图进行处理后,获得同样包含不同尺寸的感受野增强的特征图的中间识别特征,中间识别特征中,可将最后一层或靠后几层对应的特征图作为低级特征图,其对应的几何细节信息表达能力强;可将中间设别特征中除低级特征图以外的不同尺寸的感受野增强的特征图作为高级特征图,其具有更强的语义信息,能准确的区分伪装物体和背景。因此,通过特征融合模块对低级特征图和高级特征图进行特征融合,可加强伪装物体的边界,获得初始分割伪装物。
需要理解的是,本实施例中,上述特征聚合模块可采用PDA,并通过PDA对低级特征图和高级特征图进行并行特征聚合,在提高分割效果的同时提高分割精度,为了便于理解,以图9为例进行举例说明,图9为本发明伪装物分割方法第二实施例的并行特征聚合过程示意图,如图9所示,本实施例可对经过感受野增强模块处理后的中间识别特征(X1′、X2′和X3′)进行不同尺寸特征图的并行特征聚合,从而在利用少量的卷积在没有增加过多计算量的前提下,使高级语义特征(如图9中的X2′、X3′)聚合了低级特征(如图9中的X1′)的边界信息,进而提升分割精度。
步骤S202b:通过所述反向注意力模块对所述初始分割伪装物进行边界增强,获得目标分割伪装物。
可以理解的是,经过特征聚合模块输出的结果仅为粗分割,因此本实施例可通过上述反向注意力模块来进一步增强伪装物体的边界细节特征,具体地,反向注意力模块可采用组注意力机制GR,GR可通过从高级特征中擦除现有的目标区域,不断地挖掘细节信息,不仅可降低计算成本,对细长边界的增强效果明显,能使模型在分割精度和推理速度两方面都得到提升,因此,本实施例通过反向注意力模块可增强初始分割伪装物的边界特征,从而得到边界明显的伪装物预测结果,即上述目标分割伪装物。
在具体实现中,为了便于理解,以图10为例进行举例说明,图10为本发明伪装物分割方法第二实施例的伪装物分割过程示意图,如图10所示,本实施例可将待识别特征输入骨干网络由预设Transformer组成的预设编码器(即图10中的encoder),并通过注意力模块TAA对最后一层特征图进行维度特征过滤,获得后三个阶段产生的不同尺寸的特征图X1、X2和X3。然后,本实施例可基于预设解码器(即图10中的decoder)对X1、X2和X3进行并行信息重建,获得目标分割伪装物S3。具体地,本实施例可通过感受野增强模块RFB-s对X1、X2和X3进行并行卷积处理,获得中间识别特征X′1、X′2和X′3;再通过特征聚合模块PDA对中间识别特征中的低级特征图X′1与高级特征图X′2和X′3进行并行特征聚合,获得初始分割伪装物Sg。最后,为了进一步提升伪装物的边界特征,本实施例可通过反向注意力模块GR和中间识别特征对初始分割伪装物Sg进行逐层边界加强,最后获得目标分割伪装物S3。
综上所述,本实施例可采用轻量级感受野块RFB-s,在保证推理速度一定的前提下增大模型的感受野,提高模型的分割效果。同时,本实施例可部分使用密集层次聚合PDA,利用简洁的结构深度融合高级和低级特征,进一步加强语义信息,并以并行处理语义信息的方式在提高模型的吞吐量的同时保证模型的数据处理速度。
易理解的是,本实施例还可根据模型的实时输出结果对模型进行更新,因此,进一步地,作为一种可实施方式,本实施例中,步骤S20之后还包括:
步骤S30:根据预设损失函数和所述目标分割伪装物对应的真实标签确定预设像素损失;
步骤S40:根据所述预设像素损失对所述预设解码器进行模型更新。
需要说明的是,本实施例中,上述预设损失函数可由下述公式表示:
Ltotal=LIoU+LBCE;
式中,Ltotal为上述预设像素损失,LIoU为全局限制下的加权欠条损失,LBCE表示局部(像素级)限制下的二元交叉熵损失。
可以理解的是,本实施例中计算预设解码器的输出损失需基于模型各个阶段的输出(如图10中的S1~S3以及Sg)计算,因此,上述加权欠条损失或二元交叉熵(BCE)损失在整个分割过程中对应的总损耗可根据下述公式确定:
式中,Ltotal为上述加权欠条损失或二元交叉熵的总损耗,为上采样后的全局映射,/>为上采样后的局部映射输出,G为真实标签值,N为局部映射总个数。
需要理解的是,以图10为例对上述损失函数公式进行解释说明,如图10所示,上述上采样后的全局映射可以是目标伪装分割物,如图10中的S3;局部映射输出可以是初始伪装分割物和边界增强过程中生成的中间伪装分割物,如图10中的S1~S2以及Sg,因此,此时上述N可为3。此外,G为与各映射,如图10中的S1~S3以及Sg所一一对应的标签值,可预先由相关工作人员设置。
本实施例通过感受野增强模块对初始图像特征进行并行卷积处理,获得中间识别特征;通过特征聚合模块对低级特征图和高级特征图进行并行特征聚合,获得初始分割伪装物。通过反向注意力模块对初始分割伪装物进行边界增强,获得目标分割伪装物。本实施例可通过感受野增强模块扩大了模型的感受野,并使用尽量小的卷积,缩小了计算量,通过并行处理的结构减少了运行时间,使模型能在不影响模型运行速度的情况下,获取到更多的伪装物体全局特征,从而提高分割精度。同时,本实施例可特征聚合模块的并行结构快速的聚合不同层次的低级特征图和高级特征图,并通过反向注意力模块来进一步增强伪装物体的细节特征,能丰富特征的语义信息和边界信息,使模型具备分割伪装物体细节部分的能力,提升了模型的分割精度。本实施例还可根据预设损失函数和目标分割伪装物对应的真实标签确定预设像素损失;根据预设像素损失对预设解码器进行模型更新,从而根据模型的实时输出结果对应模型进行更新,进一步提高输出的目标伪装分隔物的分割精度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有伪装物分割程序,所述伪装物分割程序被处理器执行时实现如上文所述的伪装物分割方法的步骤。
参考图11,图11为本发明伪装物分割装置第一实施例的结构框图。
如图11所示,本发明实施例提出的伪装物分割装置包括:
特征提取模块A1,用于根据预设编码器对所述待识别图像进行特征提取,获得初始图像特征,所述预设编码器的骨干网络由预设Transformer组成;
伪装物分割模块A2,用于通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物。
进一步地,作为一种可实施方式,所述预设编码器包括:主干模块、预设Transformer骨干网络和注意力模块;所述初始图像特征包括:目标多尺寸特征和关键图像特征;本实施例中,特征提取模块A1,还用于根据所述主干模块对待识别图像进行信息提取,获得初始图像信息;
特征提取模块A1,还用于根据所述特征提取模块A1对所述初始图像信息进行特征扩展捕获,获得所述目标多尺寸特征;
特征提取模块A1,还用于根据所述注意力模块对预设关键特征进行维度特征过滤,获得所述关键图像特征,所述预设关键特征为所述目标多尺寸特征对应的最后一层特征图。
进一步地,作为一种可实施方式,所述注意力模块包括:第一至第三维度分支;所述关键图像特征包括:第一至第三维度特征;本实施例中,特征提取模块A1,还用于根据第一维度分支对所述预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;
特征提取模块A1,还用于根据第二维度分支对所述预设关键特征进行所述通道维度和第二空间维度的注意力运算,获得第二维度特征;
特征提取模块A1,还用于根据所述第一维度分支对所述预设关键特征进行所述第一空间维度和所述第二空间维度的空间相关性运算,获得所述第三维度特征。
进一步地,作为一种可实施方式,本实施例中,伪装物分割模块A2,还用于根据预设损失函数和所述目标分割伪装物对应的真实标签确定预设像素损失;
伪装物分割模块A2,还用于根据所述预设像素损失对所述预设解码器进行模型更新。
本实施例根据主干模块对待识别图像进行信息提取,获得初始图像信息;根据预设Transformer骨干网络对初始图像信息进行特征扩展捕获,获得目标多尺寸特征;根据第一维度分支对预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;根据第二维度分支对预设关键特征进行通道维度和第二空间维度的注意力运算,获得第二维度特征;根据第一维度分支对预设关键特征进行第一空间维度和第二空间维度的空间相关性运算,获得第三维度特征,预设关键特征为目标多尺寸特征对应的最后一层特征图。本实施例可通过将预设Transformer作为骨干网络的预设编码器对待识别图像进行特征提取,可基于预设Transformer的全局感知能力获取包含更多的全局特征的初始图像特征,增强模型的表达能力。再通过预设解码器对初始图像特征进行并行信息重建,从而在不影响模型分割速度的情况下,提升了模型的分割精度,进而快速准确地分割出隐藏在待识别图像的背景中的目标伪装物。此外,本实施例还可通过注意力机制补强了模型的局部感知能力,使模型将更多的注意力集中在伪装目标上,进一步提高伪装物的分割精度。
基于本发明上述伪装物分割装置第一实施例,提出本发明伪装物分割装置的第二实施例。
在本实施例中,所述预设解码器包括:感受野增强模块和特征增强分析模块,伪装物分割模块A2,还用于通过所述感受野增强模块对所述初始图像特征进行并行卷积处理,获得中间识别特征;
伪装物分割模块A2,还用于通过所述特征增强分析模块对所述中间识别特征进行信息增强分析,获得目标分割伪装物。
进一步地,作为一种可实施方式,所述特征增强分析模块包括:特征聚合模块和反向注意力模块;本实施例中,伪装物分割模块A2,还用于通过所述特征聚合模块对所述中间识别特征进行特征融合,获得初始分割伪装物;
伪装物分割模块A2,还用于通过所述反向注意力模块对所述初始分割伪装物进行边界增强,获得目标分割伪装物。
进一步地,作为一种可实施方式,所述中间识别特征包括低级特征图和高级特征图;本实施例中,伪装物分割模块A2,还用于通过所述特征聚合模块对所述低级特征图和所述高级特征图进行并行特征聚合,获得初始分割伪装物。
本实施例通过感受野增强模块对初始图像特征进行并行卷积处理,获得中间识别特征;通过特征聚合模块对低级特征图和高级特征图进行并行特征聚合,获得初始分割伪装物。通过反向注意力模块对初始分割伪装物进行边界增强,获得目标分割伪装物。本实施例可通过感受野增强模块扩大了模型的感受野,并使用尽量小的卷积,缩小了计算量,通过并行处理的结构减少了运行时间,使模型能在不影响模型运行速度的情况下,获取到更多的伪装物体全局特征,从而提高分割精度。同时,本实施例可特征聚合模块的并行结构快速的聚合不同层次的低级特征图和高级特征图,并通过反向注意力模块来进一步增强伪装物体的细节特征,能丰富特征的语义信息和边界信息,使模型具备分割伪装物体细节部分的能力,提升了模型的分割精度。本实施例还可根据预设损失函数和目标分割伪装物对应的真实标签确定预设像素损失;根据预设像素损失对预设解码器进行模型更新,从而根据模型的实时输出结果对应模型进行更新,进一步提高输出的目标伪装分隔物的分割精度。
本发明伪装物分割装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种伪装物分割方法,其特征在于,所述伪装物分割方法包括以下步骤:
根据预设编码器对待识别图像进行特征提取,获得初始图像特征,所述预设编码器的骨干网络由预设Transformer组成;
通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物。
2.如权利要求1所述的伪装物分割方法,其特征在于,所述预设编码器包括:主干模块、预设Transformer骨干网络和注意力模块;所述初始图像特征包括:目标多尺寸特征和关键图像特征;
所述根据预设编码器对待识别图像进行特征提取,获得初始图像特征的步骤,包括:
根据所述主干模块对待识别图像进行信息提取,获得初始图像信息;
根据所述预设Transformer骨干网络对所述初始图像信息进行特征扩展捕获,获得所述目标多尺寸特征;
根据所述注意力模块对预设关键特征进行维度特征过滤,获得所述关键图像特征,所述预设关键特征为所述目标多尺寸特征对应的最后一层特征图。
3.如权利要求2所述的伪装物分割方法,其特征在于,所述注意力模块包括:第一至第三维度分支;所述关键图像特征包括:第一至第三维度特征;所述根据所述注意力模块对预设关键特征进行维度特征过滤,获得所述关键图像特征的步骤包括:
根据第一维度分支对所述预设关键特征进行通道维度和第一空间维度的注意力运算,获得第一维度特征;
根据第二维度分支对所述预设关键特征进行所述通道维度和第二空间维度的注意力运算,获得第二维度特征;
根据所述第一维度分支对所述预设关键特征进行所述第一空间维度和所述第二空间维度的空间相关性运算,获得所述第三维度特征。
4.如权利要求3所述的伪装物分割方法,其特征在于,所述预设解码器包括:感受野增强模块和特征增强分析模块;所述通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物的步骤,包括:
通过所述感受野增强模块对所述初始图像特征进行并行卷积处理,获得中间识别特征;
通过所述特征增强分析模块对所述中间识别特征进行信息增强分析,获得目标分割伪装物。
5.如权利要求4所述的伪装物分割方法,其特征在于,所述特征增强分析模块包括:特征聚合模块和反向注意力模块;所述通过所述特征增强分析模块对所述中间识别特征进行信息增强分析,获得目标分割伪装物的步骤,包括:
通过所述特征聚合模块对所述中间识别特征进行特征融合,获得初始分割伪装物;
通过所述反向注意力模块对所述初始分割伪装物进行边界增强,获得目标分割伪装物。
6.如权利要求5所述的伪装物分割方法,其特征在于,所述中间识别特征包括低级特征图和高级特征图;所述通过所述特征聚合模块对所述中间识别特征进行特征融合,获得初始分割伪装物的步骤,包括:
通过所述特征聚合模块对所述低级特征图和所述高级特征图进行并行特征聚合,获得初始分割伪装物。
7.如权利要求6所述的伪装物分割方法,其特征在于,所述通过所述反向注意力模块对所述初始分割伪装物进行边界增强,获得目标分割伪装物之后,还包括:
根据预设损失函数和所述目标分割伪装物对应的真实标签确定预设像素损失;
根据所述预设像素损失对所述预设解码器进行模型更新。
8.一种伪装物分割装置,其特征在于,所述伪装物分割装置包括:
特征提取模块,用于根据预设编码器对所述待识别图像进行特征提取,获得初始图像特征,所述预设编码器的骨干网络由预设Transformer组成;
伪装物分割模块,用于通过预设解码器对所述初始图像特征进行并行信息重建,获得目标分割伪装物。
9.一种伪装物分割设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的伪装物分割程序,所述伪装物分割程序配置为实现如权利要求1至7中任一项所述的伪装物分割方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有伪装物分割程序,所述伪装物分割程序被处理器执行时实现如权利要求1至7任一项所述的伪装物分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311623075.0A CN117710665A (zh) | 2023-11-28 | 2023-11-28 | 伪装物分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311623075.0A CN117710665A (zh) | 2023-11-28 | 2023-11-28 | 伪装物分割方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117710665A true CN117710665A (zh) | 2024-03-15 |
Family
ID=90152522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311623075.0A Pending CN117710665A (zh) | 2023-11-28 | 2023-11-28 | 伪装物分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117710665A (zh) |
-
2023
- 2023-11-28 CN CN202311623075.0A patent/CN117710665A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
US9424493B2 (en) | Generic object detection in images | |
CN111126258A (zh) | 图像识别方法及相关装置 | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
CN111553406A (zh) | 基于改进yolo-v3的目标检测系统、方法及终端 | |
CN110738203B (zh) | 字段结构化输出方法、装置及计算机可读存储介质 | |
CN113139543B (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN111177470A (zh) | 视频的处理方法、视频的搜索方法及终端设备 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113435594A (zh) | 安防检测模型训练方法、装置、设备及存储介质 | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
CN114758332B (zh) | 一种文本检测方法、装置、计算设备及存储介质 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN117078942B (zh) | 上下文感知的指称图像分割方法、系统、设备及存储介质 | |
CN112597925B (zh) | 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 | |
WO2024027347A1 (zh) | 内容识别方法、装置、设备、存储介质及计算机程序产品 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN111539435A (zh) | 语义分割模型构建方法及图像分割方法、设备、存储介质 | |
CN116682141A (zh) | 基于多尺度递进式感知的多标签行人属性识别方法及介质 | |
CN115393868B (zh) | 文本检测方法、装置、电子设备和存储介质 | |
CN117710665A (zh) | 伪装物分割方法、装置、设备及存储介质 | |
CN113469898B (zh) | 基于深度学习的图像去畸变方法及相关设备 | |
CN111738012B (zh) | 提取语义对齐特征的方法、装置、计算机设备和存储介质 | |
CN112215840B (zh) | 图像检测、行驶控制方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |