CN115631346B - 一种基于不确定性建模的伪装物体检测方法和系统 - Google Patents
一种基于不确定性建模的伪装物体检测方法和系统 Download PDFInfo
- Publication number
- CN115631346B CN115631346B CN202211411505.8A CN202211411505A CN115631346B CN 115631346 B CN115631346 B CN 115631346B CN 202211411505 A CN202211411505 A CN 202211411505A CN 115631346 B CN115631346 B CN 115631346B
- Authority
- CN
- China
- Prior art keywords
- stage
- prediction result
- feature
- uncertainty
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于不确定性建模的伪装物体检测方法和系统,其中方法包括使用Swin Transformer作为骨干网络提取四个级别的特征;利用特征金字塔网络,将后三个级别的特征进行特征融合,得到第一阶段预测结果;利用带有权重的空洞空间金字塔池化模块进行特征提取,得到第二阶段预测结果;构建不确定性估计网络,得到不确定性图;构建不确定性细化网络对预测结果进行细化。本发明中的分阶段预测,以及利用不确定性建模优化结果,有效地提升伪装物体检测性能。
Description
技术领域
本发明属于图像分割技术领域,尤其涉及一种基于不确定性建模的伪装物体检测方法和系统。
背景技术
当前景主体(相对凸出)试图“埋伏”在背景中来欺骗观察者视觉时,伪装场景即成立。在伪装场景中识别并分割伪装物体(前景主体),即伪装物体检测。由于伪装场景的普遍存在,伪装物体检测具有丰富的下游任务和应用场景,例如,医疗图像分割、工业缺陷检测、蝗虫入侵检测、创意图像合成等,引发了计算机视觉社区的广泛关注和研究兴趣。
目前,基于卷积神经网络的方法从大量训练图像中自动学习到的深度特征比传统特征更全面、更通用、更有效。这些检测方法大致可分为三类:一类是仿生方法,它模仿自然界中捕食者的行为过程或人类视觉心理模式来设计网络;一类是设计有针对性的网络模块/架构,以有效探索可用于判别的伪装对象特征;一类是将一些辅助任务纳入联合学习/多任务学习框架,如分类任务、边缘提取、显著目标检测和伪装目标排序,这类方法可以从共享特征中挖掘出有价值的额外线索,从而显著增强伪装物体检测的特征表示。
在联合学习/多任务学习框架中,现有的采用边缘提取作为辅助任务的检测方法是一个基于图神经网络的交互图学习模型。基于图神经网络的交互图学习模型引入了边界线索,但仍然丢失了一些与边界相关的细节,引入了一些明显的背景噪声,从而削弱了检测伪装物体的性能。
发明内容
本发明针对现有技术中的不足,提供一种基于不确定性建模的伪装物体检测方法和系统第一方面,本发明提供一种基于不确定性建模的伪装物体检测方法,包括:
提取伪装物体图像的多个级别的特征;
将多个级别特征进行融合,得到第一阶段预测结果;
对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果;
构建不确定性图估计网络;所述不确定性图估计网络的网络架构为U-Net类型,包括四层卷积进行下采样,四层卷积进行上采样;
将伪装物体图像与目标阶段预测结果在通道维度进行串联后输入至不确定性图估计网络,得到目标阶段预测结果的不确定性图;
根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图;
根据目标阶段预测结果的不确定性图的真值图和二元交叉熵损失对目标阶段预测结果的不确定性图进行监督;
将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征;
将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征;
将第一隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到先验细化结果;
将第二隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到后验细化结果;
采用二元交叉熵损失对先验细化结果和后验细化结果进行监督。
进一步地,所述提取伪装物体图像的多个级别的特征,包括:
以Swin-Transformer为骨干网络提取伪装物体图像的四个级别的特征F1、F2、F3和F4。
进一步地,所述将多个级别特征进行融合,得到第一阶段预测结果,包括:
采用一层卷积对特征F4下降通道数,得到第一阶段第四级别的预测结果P14;
将特征F4与特征F3相加得到第一阶段第三级别融合特征并使用一层卷积得到第一阶段第三级别的预测结果P13;
将第一阶段第三级别融合特征与特征F2相加得到第一阶段第二级别融合特征并使用一层卷积得到第一阶段第二级别的预测结果P12;
对P14、P13和P12分别采用二元交叉熵损失进行监督,选取P12作为第一阶段预测结果。
进一步地,所述对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果,包括:
将第一阶段预测结果和特征F2相乘得到初始强化特征eF2;
将初始强化特征eF2输入至三个串联的Transformer模块,依次得到三个强化特征F5、F6和F7;
将三个强化特征F5、F6和F7分别送入三个带权重的空洞空间金字塔池化模块,得到最终强化特征eF5、eF6和eF7;
采用一层卷积对特征F1下降通道数,得到第二阶段第一级别的预测结果P21;
将特征F1与最终强化特征eF5相加得到第二阶段第五级别融合特征并使用一层卷积得到第二阶段第五级别的预测结果P25;
将第二阶段第五级别融合特征与特征F6相加得到第二阶段第六级别融合特征并使用一层卷积得到第二阶段第六级别的预测结果P26;
将第二阶段第六级别融合特征与F7相加得到第二阶段第七级别融合特征并使用一层卷积得到第二阶段第七级别的预测结果P27;
对P21、P25、P26和P27分别使用二元交叉熵损失进行监督,选取P27作为第二阶段预测结果。
进一步地,所述根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图,包括:
根据以下公式计算目标阶段预测结果的不确定性图的真值图:
其中,yc为目标阶段预测结果的不确定性图的真值图;y为目标阶段预测结果对应的真值图像;为目标阶段预测结果。
进一步地,所述将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征,包括:
根据以下公式计算第一隐空间特征:
z1=σprior⊙ε+μprior;
其中,⊙为点乘符号;ε表示尺寸为B*1*H*W的高斯噪声图,B为批数,H为图高度,W为图宽度;σprior和μprior均为先验隐变量;z1服从均值为μprior,方差为σprior的正态分布。
进一步地,所述将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征,包括:
根据以下公式计算第二隐空间特征:
z2=σposter⊙ε+μposter;
其中,⊙为点乘符号;ε表示尺寸为B*1*H*W的高斯噪声图,B为批数,H为图高度,W为图宽度;σposter和μposter均为后验隐变量;z2服从均值为μposter,方差为σposter的正态分布。
进一步地,所述采用二元交叉熵损失对先验细化结果和后验细化结果进行监督,包括:
根据以下公式对先验概率映射网络和后验概率映射网络进行监督:
其中,DKL(*||*)表示KL散度损失;Pθ(z1|X)为先验概率映射网络;Qφ(z2|X,Y)为后验概率映射网络;X表示伪装物体图像、第一阶段预测结果和第二阶段预测结果的集合;Y表示真值图像。
第二方面,本发明提供一种基于不确定性建模的伪装物体检测系统,包括:
第一特征提取模块,用于提取伪装物体图像的多个级别的特征;
特征融合模块,用于将多个级别特征进行融合,得到第一阶段预测结果;
第二特征提取模块,用于对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果;
构建模块,用于构建不确定性图估计网络;所述不确定性图估计网络的网络架构为U-Net类型,包括四层卷积进行下采样,四层卷积进行上采样;
第一串联输入模块,用于将伪装物体图像与目标阶段预测结果在通道维度进行串联后输入至不确定性图估计网络,得到目标阶段预测结果的不确定性图;
第一计算模块,用于根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图;
不确定性图监督模块,用于根据目标阶段预测结果的不确定性图的真值图和二元交叉熵损失对目标阶段预测结果的不确定性图进行监督;
第二串联输入模块,用于将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征;
第三串联输入模块,用于将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征;
第四串联输入模块,用于将第一隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到先验细化结果;
第五串联输入模块,用于将第二隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到后验细化结果;
细化结果监督模块,用于采用二元交叉熵损失对先验细化结果和后验细化结果进行监督。
本发明提供一种基于不确定性建模的伪装物体检测方法和系统,其中方法包括使用Swin Transformer作为骨干网络提取四个级别的特征;利用特征金字塔网络,将后三个级别的特征进行特征融合,得到第一阶段预测结果;利用带有权重的空洞空间金字塔池化模块进行特征提取,得到第二阶段预测结果;构建不确定性估计网络,得到不确定性图;构建不确定性细化网络对预测结果进行细化。本发明中的分阶段预测,以及利用不确定性建模优化结果,有效地提升伪装物体检测性能。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于不确定性建模的伪装物体检测方法的流程图;
图2为本发明实施例提供的一种基于不确定性建模的伪装物体检测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,本发明实施例提供一种基于不确定性建模的伪装物体检测方法,包括:
步骤101,提取伪装物体图像的多个级别的特征。
以ImageNet数据集上预训练好的Swin-Transformer为骨干网络提取伪装物体图像Img的四个级别的特征F1,F2,F3和F4。
步骤102,将多个级别特征进行融合,得到第一阶段预测结果。
采用一层卷积对特征F4下降通道数,得到第一阶段第四级别的预测结果P14。
将特征F4与特征F3相加得到第一阶段第三级别融合特征并使用一层卷积得到第一阶段第三级别的预测结果P13。
将第一阶段第三级别融合特征与特征F2相加得到第一阶段第二级别融合特征并使用一层卷积得到第一阶段第二级别的预测结果P12。
对P14、P13和P12分别采用二元交叉熵损失进行监督,选取P12作为第一阶段预测结果。
步骤103,对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果。
将第一阶段预测结果和特征F2相乘得到初始强化特征eF2。
将初始强化特征eF2输入至三个串联的Transformer模块,依次得到三个强化特征F5、F6和F7。
将三个强化特征F5、F6和F7分别送入三个带权重的空洞空间金字塔池化模块,得到最终强化特征eF5、eF6和eF7。
采用一层卷积对特征F1下降通道数,得到第二阶段第一级别的预测结果P21。
将特征F1与最终强化特征eF5相加得到第二阶段第五级别融合特征并使用一层卷积得到第二阶段第五级别的预测结果P25。
将第二阶段第五级别融合特征与特征F6相加得到第二阶段第六级别融合特征并使用一层卷积得到第二阶段第六级别的预测结果P26。
将第二阶段第六级别融合特征与F7相加得到第二阶段第七级别融合特征并使用一层卷积得到第二阶段第七级别的预测结果P27。
对P21、P25、P26和P27分别使用二元交叉熵损失进行监督,选取P27作为第二阶段预测结果。
其中,带权重的空洞空间金字塔池化模块实现方式为:
1)对于输入到该模块的特征分别送入1×1卷积、空洞率为6的3×3空洞卷积、空洞率为12的3×3空洞卷积、空洞率为18的3×3空洞卷积。
2)对于输入特征进行全局平均池化,再送入一层1×1卷积下降通道数为4,得到权重特征weight。
3)对于1)中得到的四种特征,乘上2)中得到四个权重,然后在通道维度进行串联,最后再通过一层1×1卷积下降通道数为模块输入的特征大小,得到强化特征。
步骤104,构建不确定性图估计网络;所述不确定性图估计网络的网络架构为U-Net类型,包括四层卷积进行下采样,四层卷积进行上采样。
步骤105,将伪装物体图像与目标阶段预测结果在通道维度进行串联后输入至不确定性图估计网络,得到目标阶段预测结果的不确定性图。
将伪装物体图像Img分别与第一阶段预测结果P12和第二阶段预测结果P27在通道维度进行串联,然后输入到不确定性图估计网络中,得到第一阶段预测结果P12的不确定性图w1和第二阶段预测结果P27的不确定性图w2。
将得到的不确定性图w1和w2分别作为步骤102和步骤103中二元交叉熵损失函数的权重,例如,对于第一阶段预测结果P14,原损失函数为基础二元交叉熵损失,记为Loss14,引入不确定性图w1作为权重后,损失函数为w1*Loss14;对于第二阶段预测结果P26,原损失函数为基础二元交叉熵损失,记为Loss26,引入不确定性图w2作为权重后,损失函数为w2*Loss26。
步骤106,根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图。
根据以下公式计算目标阶段预测结果的不确定性图的真值图:
其中,yc为目标阶段预测结果的不确定性图的真值图;y为目标阶段预测结果对应的真值图像GT(Ground Truth);为目标阶段预测结果;目标阶段预测结果包括第一阶段预测结果和第二阶段预测结果。
步骤107,根据目标阶段预测结果的不确定性图的真值图和二元交叉熵损失对目标阶段预测结果的不确定性图进行监督。
步骤108,将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征。
本步骤中,将伪装物体图像Img、第一阶段预测结果P12和第二阶段预测结果P27在通道维度进行串联,并输入到先验概率Pθ(z1|X)映射网络中,将输入变量X映射到隐空间,得到第一隐空间特征z1;第一隐空间特征z1服从均值为μprior,方差为σprior的正态分布;μprior和σprior均称为先验隐变量,尺寸均为B*K*1*1,B为批数,K为通道数;其中,X表示输入的伪装物体图像Img、第一阶段预测结果P12和第二阶段预测结果P27的集合。
对于先验隐变量μprior和σprior,首先进行尺寸扩张,将先验隐变量μprior和σprior的尺寸更改为B*K*H*W,然后根据以下公式计算第一隐空间特征:
z1=σprior⊙ε+μprior。
其中,⊙为点乘符号;ε表示尺寸为B*1*H*W的高斯噪声图,H为图高度,W为图宽度;σprior和μprior均为先验隐变量;z1服从均值为μprior,方差为σprior的正态分布。
步骤109,将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征。
本步骤中,将输入伪装物体图像Img、第一阶段预测结果P12的真值图像GT、第二阶段预测结果P27的真值图像GT、第一阶段预测结果P12和第二阶段预测结果P27在通道维度进行串联,并输入到后验概率分布Qφ(z2|X,Y)映射网络中,将输入变量X和Y映射到隐空间,得到隐空间特征z2,其服从均值为μposter,方差为σposter的正态分布;μposter和σposter均称为后验隐变量,尺寸均为B*K*1*1;其中,Y表示真值图像GT。
对于后验隐变量μposter和σposter,首先进行尺寸扩张,将后验隐变量μposter和σposter的尺寸更改为B*K*H*W,然后根据以下公式计算第二隐空间特征:
z2=σposter⊙ε+μposter。
其中,⊙为点乘符号;ε表示尺寸为B*1*H*W的高斯噪声图;σposter和μposter均为后验隐变量;z2服从均值为μposter,方差为σposter的正态分布。
步骤1010,将第一隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到先验细化结果Pprior。
步骤1011,将第二隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到后验细化结果Pposter。
步骤1012,采用二元交叉熵损失对先验细化结果和后验细化结果进行监督。
使用KL散度损失对先验概率映射网络Pθ(z1|X)以及后验概率映射网络Qφ(z2|X,Y)进行监督,使两者的分布更加接近。
根据以下公式对先验概率映射网络和后验概率映射网络进行监督:
其中,DKL(*||*)表示KL散度损失;先验概率映射网络Pθ(z1|X)以及后验概率映射网络Qφ(z2|X,Y)可以分别使用先验隐变量(μprior,σprior)和后验隐变量(μposter,σposter)表示。
先验概率映射网络Pθ(z1|X)和后验概率映射网络Qφ(z2|X,Y)的具体实现为:首先将输入送入到三层3*3卷积中,然后使用两个分支分别用于生成μprior、μposter和σposter、σposter,每个分支包含一层1*1卷积下降特征图的通道数为K,再经过全局平均池化得到最终尺寸为B*K*1*1的先验隐变量和后验隐变量。
基于同一发明构思,本发明实施例还提供了一种基于不确定性建模的伪装物体检测系统,由于该系统解决问题的原理与前述基于不确定性建模的伪装物体检测方法相似,因此该系统的实施可以参见基于不确定性建模的伪装物体检测方法的实施,重复之处不再赘述。
在另一实施例中,本发明一个实施例提供的基于不确定性建模的伪装物体检测系统,如图2所示,包括:
第一特征提取模块10,用于提取伪装物体图像的多个级别的特征。
特征融合模块20,用于将多个级别特征进行融合,得到第一阶段预测结果。
第二特征提取模块30,用于对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果。
构建模块40,用于构建不确定性图估计网络;所述不确定性图估计网络的网络架构为U-Net类型,包括四层卷积进行下采样,四层卷积进行上采样。
第一串联输入模块50,用于将伪装物体图像与目标阶段预测结果在通道维度进行串联后输入至不确定性图估计网络,得到目标阶段预测结果的不确定性图。
第一计算模块60,用于根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图。
不确定性图监督模块70,用于根据目标阶段预测结果的不确定性图的真值图和二元交叉熵损失对目标阶段预测结果的不确定性图进行监督。
第二串联输入模块80,用于将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征。
第三串联输入模块90,用于将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征。
第四串联输入模块100,用于将第一隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到先验细化结果。
第五串联输入模块110,用于将第二隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到后验细化结果。
细化结果监督模块120,用于采用二元交叉熵损失对先验细化结果和后验细化结果进行监督。
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
在另一实施例中,本发明提供一种计算机设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现一种基于不确定性建模的伪装物体检测方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
在另一实施例中,本发明提供一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现所述的一种基于不确定性建模的伪装物体检测方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。
Claims (9)
1.一种基于不确定性建模的伪装物体检测方法,其特征在于,包括:
提取伪装物体图像的多个级别的特征;
将多个级别特征进行融合,得到第一阶段预测结果;
对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果;
构建不确定性图估计网络;所述不确定性图估计网络的网络架构为U-Net类型,包括四层卷积进行下采样,四层卷积进行上采样;
将伪装物体图像与目标阶段预测结果在通道维度进行串联后输入至不确定性图估计网络,得到目标阶段预测结果的不确定性图;
根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图;
根据目标阶段预测结果的不确定性图的真值图和二元交叉熵损失对目标阶段预测结果的不确定性图进行监督;
将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征;
将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征;
将第一隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到先验细化结果;
将第二隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到后验细化结果;
采用二元交叉熵损失对先验细化结果和后验细化结果进行监督。
2.根据权利要求1所述的伪装物体检测方法,其特征在于,所述提取伪装物体图像的多个级别的特征,包括:
以Swin-Transformer为骨干网络提取伪装物体图像的四个级别的特征F1、F2、F3和F4。
3.根据权利要求2所述的伪装物体检测方法,其特征在于,所述将多个级别特征进行融合,得到第一阶段预测结果,包括:
采用一层卷积对特征F4下降通道数,得到第一阶段第四级别的预测结果P14;
将特征F4与特征F3相加得到第一阶段第三级别融合特征并使用一层卷积得到第一阶段第三级别的预测结果P13;
将第一阶段第三级别融合特征与特征F2相加得到第一阶段第二级别融合特征并使用一层卷积得到第一阶段第二级别的预测结果P12;
对P14、P13和P12分别采用二元交叉熵损失进行监督,选取P12作为第一阶段预测结果。
4.根据权利要求2所述的伪装物体检测方法,其特征在于,所述对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果,包括:
将第一阶段预测结果和特征F2相乘得到初始强化特征eF2;
将初始强化特征eF2输入至三个串联的Transformer模块,依次得到三个强化特征F5、F6和F7;
将三个强化特征F5、F6和F7分别送入三个带权重的空洞空间金字塔池化模块,得到最终强化特征eF5、eF6和eF7;
采用一层卷积对特征F1下降通道数,得到第二阶段第一级别的预测结果P21;
将特征F1与最终强化特征eF5相加得到第二阶段第五级别融合特征并使用一层卷积得到第二阶段第五级别的预测结果P25;
将第二阶段第五级别融合特征与特征F6相加得到第二阶段第六级别融合特征并使用一层卷积得到第二阶段第六级别的预测结果P26;
将第二阶段第六级别融合特征与F7相加得到第二阶段第七级别融合特征并使用一层卷积得到第二阶段第七级别的预测结果P27;
对P21、P25、P26和P27分别使用二元交叉熵损失进行监督,选取P27作为第二阶段预测结果。
5.根据权利要求1所述的伪装物体检测方法,其特征在于,所述根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图,包括:
根据以下公式计算目标阶段预测结果的不确定性图的真值图:
其中,yc为目标阶段预测结果的不确定性图的真值图;y为目标阶段预测结果对应的真值图像;为目标阶段预测结果。
6.根据权利要求1所述的伪装物体检测方法,其特征在于,所述将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征,包括:
根据以下公式计算第一隐空间特征z1:
z1=σprior⊙ε+μprior;
其中,⊙为点乘符号;ε表示尺寸为B*1*H*W的高斯噪声图,B为批数,H为图高度,W为图宽度;σprior和μprior均为先验隐变量;z1服从均值为μprior,方差为σprior的正态分布。
7.根据权利要求6所述的伪装物体检测方法,其特征在于,所述将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征,包括:
根据以下公式计算第二隐空间特征z2:
z2=σposter⊙ε+μposter;
其中,⊙为点乘符号;ε表示尺寸为B*1*H*W的高斯噪声图,B为批数,H为图高度,W为图宽度;σposter和μposter均为后验隐变量;z2服从均值为μposter,方差为σposter的正态分布。
8.根据权利要求7所述的伪装物体检测方法,其特征在于,所述采用二元交叉熵损失对先验细化结果和后验细化结果进行监督,包括:
根据以下公式对先验概率映射网络和后验概率映射网络进行监督:
其中,DKt(*||*)表示KL散度损失;Pθ(z1|X)为先验概率映射网络;Qφ(z2|X,Y)为后验概率映射网络;X表示伪装物体图像、第一阶段预测结果和第二阶段预测结果的集合;Y表示真值图像。
9.一种基于不确定性建模的伪装物体检测系统,其特征在于,包括:
第一特征提取模块,用于提取伪装物体图像的多个级别的特征;
特征融合模块,用于将多个级别特征进行融合,得到第一阶段预测结果;
第二特征提取模块,用于对第一阶段预测结果和伪装物体中提取的特征进行特征提取,得到第二阶段预测结果;
构建模块,用于构建不确定性图估计网络;所述不确定性图估计网络的网络架构为U-Net类型,包括四层卷积进行下采样,四层卷积进行上采样;
第一串联输入模块,用于将伪装物体图像与目标阶段预测结果在通道维度进行串联后输入至不确定性图估计网络,得到目标阶段预测结果的不确定性图;
第一计算模块,用于根据目标阶段预测结果和目标阶段预测结果对应的真值图像计算目标阶段预测结果的不确定性图的真值图;
不确定性图监督模块,用于根据目标阶段预测结果的不确定性图的真值图和二元交叉熵损失对目标阶段预测结果的不确定性图进行监督;
第二串联输入模块,用于将伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至先验概率映射网络中,以映射到隐空间,得到第一隐空间特征;
第三串联输入模块,用于将伪装物体图像、第一阶段预测结果、第二阶段预测结果、第一阶段预测结果的真值图像和第二阶段预测结果的真值图像在通道维度进行串联输入至后验概率映射网络中,以映射到隐空间,得到第二隐空间特征;
第四串联输入模块,用于将第一隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到先验细化结果;
第五串联输入模块,用于将第二隐空间特征、伪装物体图像、第一阶段预测结果和第二阶段预测结果在通道维度进行串联后输入至串联的三层卷积中,得到后验细化结果;
细化结果监督模块,用于采用二元交叉熵损失对先验细化结果和后验细化结果进行监督。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211411505.8A CN115631346B (zh) | 2022-11-11 | 2022-11-11 | 一种基于不确定性建模的伪装物体检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211411505.8A CN115631346B (zh) | 2022-11-11 | 2022-11-11 | 一种基于不确定性建模的伪装物体检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631346A CN115631346A (zh) | 2023-01-20 |
CN115631346B true CN115631346B (zh) | 2023-07-18 |
Family
ID=84910515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211411505.8A Active CN115631346B (zh) | 2022-11-11 | 2022-11-11 | 一种基于不确定性建模的伪装物体检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631346B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205098B1 (en) * | 2021-02-23 | 2021-12-21 | Institute Of Automation, Chinese Academy Of Sciences | Single-stage small-sample-object detection method based on decoupled metric |
CN114187230A (zh) * | 2021-10-25 | 2022-03-15 | 中国科学院大学 | 一种基于两级优化网络的伪装物体检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10592776B2 (en) * | 2017-02-08 | 2020-03-17 | Adobe Inc. | Generating multimodal image edits for a digital image |
CN113468996B (zh) * | 2021-06-22 | 2023-07-11 | 广州大学 | 一种基于边缘细化的伪装物体检测方法 |
CN113553973A (zh) * | 2021-07-29 | 2021-10-26 | 杭州电子科技大学 | 一种基于双向注意力的伪装物体检测方法 |
CN114972231B (zh) * | 2022-05-17 | 2024-09-06 | 华中科技大学 | 一种基于先验-后验概率编码器的多模态mr图像分割方法 |
-
2022
- 2022-11-11 CN CN202211411505.8A patent/CN115631346B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205098B1 (en) * | 2021-02-23 | 2021-12-21 | Institute Of Automation, Chinese Academy Of Sciences | Single-stage small-sample-object detection method based on decoupled metric |
CN114187230A (zh) * | 2021-10-25 | 2022-03-15 | 中国科学院大学 | 一种基于两级优化网络的伪装物体检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115631346A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108230278B (zh) | 一种基于生成对抗网络的图像去雨滴方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN111476249B (zh) | 多尺度大感受野卷积神经网络的构建方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN105981050A (zh) | 用于从人脸图像的数据提取人脸特征的方法和系统 | |
CN114627282B (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN116030537B (zh) | 基于多分支注意力图卷积的三维人体姿态估计方法 | |
CN114638408B (zh) | 一种基于时空信息的行人轨迹预测方法 | |
CN114330541A (zh) | 道路交通事故风险预测深度学习算法 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN116311451A (zh) | 一种多模态融合人脸活体检测模型生成方法和装置、电子设备 | |
CN113807232B (zh) | 基于双流网络的伪造人脸检测方法、系统及存储介质 | |
CN111612046A (zh) | 特征金字塔图卷积神经网络及其在3d点云分类中的应用 | |
CN114373092A (zh) | 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法 | |
CN111914904B (zh) | 一种融合DarkNet与CapsuleNet模型的图像分类方法 | |
CN115631346B (zh) | 一种基于不确定性建模的伪装物体检测方法和系统 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
CN111353577B (zh) | 基于多任务的级联组合模型的优化方法、装置及终端设备 | |
CN116110005A (zh) | 一种人群行为属性的计数方法、系统及产品 | |
CN113627404B (zh) | 基于因果推断的高泛化人脸替换方法、装置和电子设备 | |
CN115471676A (zh) | 一种基于多尺度胶囊与Bi-FPN的多模态海上目标检测方法 | |
CN111709945B (zh) | 一种基于深度局部特征的视频拷贝检测方法 | |
CN115100599A (zh) | 基于掩码transformer的半监督人群场景异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |