CN117274768A - 目标检测网络的训练方法、目标检测方法及相关装置 - Google Patents
目标检测网络的训练方法、目标检测方法及相关装置 Download PDFInfo
- Publication number
- CN117274768A CN117274768A CN202310954725.3A CN202310954725A CN117274768A CN 117274768 A CN117274768 A CN 117274768A CN 202310954725 A CN202310954725 A CN 202310954725A CN 117274768 A CN117274768 A CN 117274768A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- network
- target detection
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 146
- 238000012549 training Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000004913 activation Effects 0.000 claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 34
- 230000000873 masking effect Effects 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 43
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 239000000203 mixture Substances 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004807 localization Effects 0.000 description 28
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 13
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- CNJLMVZFWLNOEP-UHFFFAOYSA-N 4,7,7-trimethylbicyclo[4.1.0]heptan-5-one Chemical compound O=C1C(C)CCC2C(C)(C)C12 CNJLMVZFWLNOEP-UHFFFAOYSA-N 0.000 description 1
- 235000016623 Fragaria vesca Nutrition 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了目标检测网络的训练方法、目标检测方法及相关装置,涉及计算机视觉中弱监督目标检测的技术领域。通过获取包括原始图像的训练数据集输入至包括分类器和定位器的目标检测网络,并生成自注意力图进而生成增强的掩码图像。将原始图像输入至定位器得到预测激活图像,计算与掩码图像的第一损失值。再获取边界框并对掩码图像进行采样得到增强图像并输入分类器得到预测分类结果,计算与原始图像的分类标签生成第二损失值。根据第一损失值和第二损失值调节目标检测网络的模型权重,直至达到迭代终止条件得到目标检测网络。由此设计分类器和定位器统一的网络架构,通过自注意力图和掩码图像以及增强图像,提升了定位和分类的精度进而性能。
Description
技术领域
本申请涉及计算机视觉中弱监督目标检测的技术领域,特别是涉及一种目标检测网络的训练方法、目标检测方法及相关装置。
背景技术
弱监督目标检测旨在通过仅使用图像级监督而不使用边界框标注数据来同时实现有效的定位和分类。由于标注成本低,弱监督目标检测在研究界引起了越来越多的关注。相关技术中主要是优先考虑本地化性能而不是分类,导致定位和分类这两个任务的发展不平衡,并对弱监督定位和分类的性能产生负面影响,特别是对Top-1定位精确度的影响。
Top-1定位是指当Top-1分类和单纯的定位都精确时,Top-1定位才被认为是准确的。因此,降低分类精度就会间接地降低Top-1定位精度。虽然相关技术中可以通过设计两个独立的分类模型和定位模型以同时提高分类和定位精度,但会由此增加计算开销。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请实施例提供了一种目标检测网络的训练方法、目标检测方法及相关装置,能够使得分类器和定位器在统一的网络架构但互不影响,并有效同时提升定位和分类的精度以及性能。
第一方面,本申请实施例提供了一种目标检测网络的训练方法,包括:
获取训练数据集;所述训练数据集包括多个原始图像,所述原始图像包括分类标签;
将所述原始图像输入目标检测网络;所述目标检测网络包括分类器和定位器;
利用预设的监督模型生成所述原始图像的自注意力图,并根据所述自注意力图和所述原始图像生成掩码图像;
将所述原始图像输入所述定位器进行目标定位得到预测激活图像,并根据所述预测激活图像和所述掩码图像生成第一损失值;
获取边界框,并根据所述边界框对所述掩码图像进行采样得到增强图像;
将所述增强图像输入所述分类器进行目标分类得到预测分类结果,并根据所述预测分类结果和所述分类标签生成第二损失值;
根据所述第一损失值和所述第二损失值调节所述目标检测网络的模型权重,直至达到迭代终止条件,得到训练好的所述目标检测网络。
在本申请的一些实施例中,所述监督模型包括Transformer编码器,所述Transformer编码器具有预设数量的注意力头;所述利用预设的监督模型生成所述原始图像的自注意力图,包括:
将所述原始图像输入至所述监督模型,得到注意力张量;所述注意力张量具有第一预设维度,所述第一预设维度与所述注意力头对应;
根据所述第一预设维度选取第二预设维度;
从所述注意力张量中选取所述第二预设维度的注意力量值,并根据所述注意力量值计算得到所述自注意力图。
在本申请的一些实施例中,所述自注意力图包括多个激活值;所述根据所述自注意力图和所述原始图像生成掩码图像,包括:
根据所述自注意力图得到所述原始图像的前景像素和背景像素;
根据所述前景像素和所述背景像素创建高斯混合模型;
获取响应阈值范围,并根据所述响应阈值范围和所述激活值将所述自注意力图分割为前景区域、背景区域和候选区域;
基于所述原始图像的低级特征,利用所述高斯混合模型计算所述候选区域中每个像素的分割概率,并根据所述分割概率将所述像素划分至所述前景区域或所述背景区域;
根据所述前景区域和所述背景区域得到所述掩码图像。
在本申请的一些实施例中,所述目标检测网络还包括骨干网络,所述定位器包括UNet网络,三层反卷积神经网络和归一化网络;所述将所述原始图像输入所述定位器进行目标定位得到预测激活图像,包括:
将所述原始图像输入至所述骨干网络得到第一特征图;
将所述第一特征图输入至所述UNet网络得到第二特征图;
将所述第二特征图输入至所述反卷积神经网络得到第三特征图;
将所述第三特征图输入至所述归一化网络得到所述预测激活图。
在本申请的一些实施例中,所述获取边界框,并根据所述边界框对所述掩码图像进行采样,得到增强图像,包括:
在多个侯选边界框内进行均匀采样得到所述边界框;
利用所述边界框对所述掩码图像进行随机采样得到采样区域;
利用预设填充值对所述采样区域进行掩码得到增强掩码图像;
将所述原始图像与所述增强掩码图像进行点乘得到所述增强图像。
在本申请的一些实施例中,所述分类器包括Transformer编码器,两层卷积神经网络和全局池化层;所述将所述增强图像输入所述分类器进行目标分类得到预测分类结果,包括:
将所述增强图像输入至所述分类器得到训练图像序列;
将所述训练图像序列输入至所述卷积神经网络和所述全局池化层得到所述预测分类结果。
第二方面,本申请实施例还提供了一种目标检测方法,应用如本申请第一方面实施例所述的目标检测网络的训练方法,包括:
获取待检测图像并输入至所述目标检测网络;其中,所述目标检测网络包括预训练的骨干网络、定位器和分类器,所述骨干网络分别与所述定位器和所述分类器连接;
利用所述骨干网络生成所述待检测图像对应的特征图;
将所述特征图输入至所述定位器中得到定位结果,并将所述特征图输入至所述分类器中得到分类结果。
第三方面,本申请实施例还提供了一种目标检测网络的训练装置,应用如本申请第一方面实施例所述的目标检测网络的训练方法,包括:
获取模块,用于获取训练数据集;其中,所述训练数据集包括多个原始图像,所述原始图像包括分类标签;
输入模块,用于将所述原始图像输入目标检测网络;所述目标检测网络包括分类器和定位器;
生成模块,用于利用预设的监督模型生成所述原始图像的自注意力图,并根据所述自注意力图和所述原始图像生成掩码图像;
第一训练模块,用于将所述原始图像输入所述定位器进行目标定位得到预测激活图像,并根据所述预测激活图像和所述掩码图像生成第一损失值;
增强模块,用于获取边界框,并根据所述边界框对所述掩码图像进行采样得到增强图像;
第二训练模块,用于将所述增强图像输入所述分类器进行目标分类得到预测分类结果,并根据所述预测分类结果和所述分类标签生成第二损失值;
调节模块,用于根据所述第一损失值和所述第二损失值调节所述目标检测网络的模型权重,直至达到迭代终止条件,得到训练好的所述目标检测网络。
第四方面,本申请实施例还提供了一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本申请第一方面实施例所述的目标检测网络的训练方法或本申请第二方面实施例所述的目标检测方法。
第五方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如本申请第一方面实施例所述的目标检测网络的训练方法或本申请第二方面实施例所述的目标检测方法。
本申请实施例至少包括以下有益效果:
本申请实施例提供了一种目标检测网络的训练方法、目标检测方法及相关装置,其中目标检测网络的训练方法中通过获取包括多个原始图像的训练数据集,然后输入至包括分类器和定位器的目标检测网络,并利用预设的监督模型生成原始图像对应的自注意力图,根据自注意力图和原始图像进一步生成掩码图像。将原始图像输入至定位器进行目标定位,生成得到预测激活图像,然后根据预测激活图像和掩码图像生成第一损失值。再获取边界框并对掩码图像进行采样得到增强图像,将增强图像输入分类器进行目标分类得到预测分类结果,然后根据预测分类结果和原始图像的分类标签生成第二损失值。最后根据第一损失值和第二损失值调节目标检测网络的模型权重,直至达到迭代终止条件,从而得到训练好的目标检测网络。由此设计分类器和定位器统一的网络架构,通过自注意力图和掩码图像以及增强图像,可以有效提升目标定位和分类的精度以及性能,获得高精度的定位分类结果。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提供的目标检测网络的训练方法的流程示意图;
图2是图1中步骤S103的流程示意图;
图3是图1中步骤S103的又一流程示意图;
图4是图1中步骤S104的流程示意图;
图5是图1中步骤S105的流程示意图;
图6是本申请一个实施例提供的随机采样示意图;
图7是图1中步骤S106的流程示意图;
图8是本申请一个实施例提供的目标检测网络的训练流程架构图;
图9是本申请一个实施例提供的低级特征增强示意图;
图10是本申请一个实施例提供的可视化结果对比图;
图11是本申请一个实施例提供的在CUB-200-2011数据集上的定位效果对比图;
图12是本申请一个实施例提供的在CUB-200-2011数据集上分类效果对比图;
图13是本申请一个实施例提供的在I LSVRC 2012数据集上的定位效果对比图;
图14是本申请一个实施例提供的在I LSVRC 2012数据集上分类效果对比图;
图15是本申请一个实施例提供的目标检测方法的流程示意图;
图16是本申请一个实施例提供的目标检测方法流程架构图;
图17是本申请一个实施例提供的目标检测网络的训练装置模块示意图;
图18是本申请一个实施例提供的电子设备的结构示意图。
附图标记:获取模块100、输入模块200、生成模块300、第一训练模块400、增强模块500、第二训练模块600、调节模块700、电子设备1000、处理器1001、存储器1002。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本申请的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请中的具体含义。
弱监督目标检测旨在通过仅使用图像级监督而不使用边界框标注数据来同时实现有效的定位和分类。由于标注成本低,弱监督目标检测在研究界引起了越来越多的关注。相关技术中主要是优先考虑本地化性能而不是分类,导致定位和分类这两个任务的发展不平衡,并对弱监督定位和分类的性能产生负面影响,特别是对Top-1定位精确度的影响。Top-1定位是指当Top-1分类和单纯的定位都精确时,Top-1定位才被认为是准确的。因此,降低分类精度就会间接地降低Top-1定位精度。
例如,Bai等人在《Weakly Supervised Object Localization via Transformerwith Implicit Spatial Calibration》中,为了精确定位,引入了空间校准模块,牺牲了分类精度,导致Top-1定位下降。同时,Xie等人在《:Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization andSemantic Segmentation》中,强调提高分类和定位精度,使得Top-1定位上取得了有竞争力的精度。然而,这种方法依赖于两个独立的分类和定位模型,增加了计算开销。因此,弱监督目标检测面临的挑战是如何将分类和定位统一到一个框架中,并同时改进这两项任务。
类别激活图(Class Activate Map,CAM)是实现弱监督目标检测最具有代表性的方法。Zhou等人在《Learning Deep Features for Discriminative Localization》首先提出了一种基于分类的间接目标定位方法,该方法通过训练一个卷积神经网络(Convolutional neural network,CNN),将网络模型最后一个全连接层的权重与分类网络中的对应的特征图相乘并将结果归一化,生成目标定位图,也称为类别激活图(ClassActivate Map,CAM)。CAM反映了网络根据给定的分类信息进而聚焦的目标位置,但它只突出了最具区别性的区域,而忽略了对象的完整上下文。为了解决这个问题,已经提出了几种基于CAM的技术,包括对抗性擦除、空间关系激活和低层语义特征激活(SPOL)。与前两类方法相比,SPOL表现出更强的竞争力。SPOL强调低级特征的重要性,低级特征具有更丰富的全局信息,可以帮助实现更加全局定位。然而,它也会激活浅层的背景噪声,阻碍全局定位。因此,需要找到一种更低级别的富含少量噪声的图像信息,帮助提升定位和分类性能。
近年来,Transformer编码器结构已被应用于计算机视觉中提取图像识别的特征。它通过将图像分成小块并将其视为可以由Transformer编码器处理的“单词”,将Transformer的自我关注机制应用于图像。自我关注机制的优点在于它能够考虑到输入序列中所有元素之间的相互关系,而不仅仅是局部关系。这使得Transformer能够学习全局的图像表示,并利用这种全局的表示类似CAM生成自注意力的激活图。Chen等人在《LCTR:OnAwakening the Local Continuity of Transformer for Weakly Supervised ObjectLocalization》中利用Transformer分类的自注意力权重与对应的特征图相乘,以此得到目标的定位图。Caron等人在文献《Emerging Properties in Self-Supervised VisionTransformers》提出了一种名为DINO的自监督Transformer模型,利用自我关注的机制生成涵盖更多对象上下文的注意力图。Xu等在《Proxy Probing Decoder for WeaklySupervised Object Localization:A Baseline Investigation》进一步提出了一种代理探测解码器,将DINO自注意图作为伪监督来促进定位,显著地缓解了定位中的目标部分激活问题,然而却忽视了分类性能的提升,导致即使在定位性能比较优秀的情况下,Top-1定位的精度依然比较低。
基于此,本申请实施例提供了一种目标检测网络的训练方法、目标检测方法及相关装置,能够使得分类器和定位器在统一的网络架构但互不影响,并通过自注意力图和掩码图像以及增强图像,可以有效提升目标定位和分类的精度以及性能,获得高精度的定位分类结果。
本申请实施例提供目标检测网络的训练方法、目标检测方法及相关装置,具体通过如下实施例进行说明,首先描述本申请实施例中的目标检测网络的训练方法。
本申请实施例提供的目标检测网络的训练方法,涉及计算机视觉技术领域,尤其涉及计算机视觉中弱监督目标检测的技术领域。本申请实施例提供的目标检测网络的训练方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的计算机程序。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如支持目标检测网络的训练的客户端,即只需要下载到浏览器环境中就可以运行的程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。其中,终端通过网络与服务器进行通信。该目标检测网络的训练方法可以由终端或服务器执行,或由终端和服务器协同执行。
在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间组成点对点(P2P,PeerTo Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。服务器上可以安装目标检测网络的训练系统的服务端,通过该服务端可以与终端进行交互,例如服务端上安装对应的软件,软件可以是实现目标检测网络的训练方法的应用等,但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本实施例在此不做限制。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
下面描述本发明实施例中的目标检测网络的训练方法。
参照图1所示,本申请实施例提供了一种目标检测网络的训练方法,包括但不限于以下步骤S101至步骤S107。
步骤S101,获取训练数据集。
在一些实施例中,训练数据集包括多个原始图像,每个原始图像对应包括分类标签,分类标签是用于表示该原始图像所属类别的标识符或类别名称。示例性的,对于一个动物分类的原始图像,分类标签可以是“猫”、“狗”、“鸟”等,又例如对于一个水果分类的原始图像,分类标签可以是“苹果”、“香蕉”、“草莓”等,本实施例对此不做限制。
步骤S102,将原始图像输入目标检测网络。
在一些实施例中,目标检测网络包括分类器和定位器,训练数据集中的各个原始图像用于训练目标检测网络中的分类器和定位器。具体的,在弱监督目标检测中包括分类任务和定位任务,分类任务用于确定图像中是否存在特定类别的目标,而定位任务则是生成可能包含目标的候选区域。
示例性的,在一个狗和猫的弱监督目标检测问题中,分类任务就是判断图像中是否存在狗或猫。由此通过分类任务,目标检测网络可以学习识别不同类别的目标,并将其与其他物体进行区分。而定位任务是指确定图像中目标对象的大致位置或边界框,由于只有图像级别的标签信息,无法获得目标的精确边界框标注,因此定位任务的目标是生成一个包含目标的候选区域。
步骤S103,利用预设的监督模型生成原始图像的自注意力图,并根据自注意力图和原始图像生成掩码图像。
在一些实施例中,利用预设的监督模型生成原始图像对应的自注意力图,可以理解的是,自注意力图是指通过计算图像中每个像素与其他像素之间的关联程度来生成的图像表示。自注意力图可以反映图像中不同区域之间的相互依赖关系,在弱监督目标检测中,自注意力图被用作指示图像中可能包含目标的区域或感兴趣区域。
应该理解的是,本实施例中预设的监督模型可以是Transformer架构的DINO模型,也可以是Transformer架构的图像分类VI T模型,或者是深度卷积神经网络结构的ResNet模型等,本领域技术人员可以根据实际的任务需求和计算资源等因素设置,本实施例对此不做限制。
在一些实施例中,根据自注意力图和原始图像生成掩码图像,掩码图像是一种用于图像处理和计算机视觉任务的辅助图像。掩码图像是与原始图像具有相同尺寸的二进制图像,其中像素值用于指示像素是否应该被考虑或排除。掩码图像中的像素采用不同的编码方式,例如黑白像素或灰度像素,从而可以选择感兴趣区域、区分前景和背景、遮蔽或隐藏特定区域等,因此通过掩码图像可以实现对原始图像的局部操作或提取特定区域的信息。示例性的,有一张表示小鸟位置的掩码图像,其中小鸟部分的像素值为1,其他部分为0。由此提取出原始图像中的小鸟部分,而其他区域则被遮蔽。
在一些实施例中,掩码图像由自注意力图和原始图像的共同生成,由于高关注度区域中包含更多的细节信息,而低关注度区域与之相反,因此本申请实施例可以突出或强调自注意力图中高关注度的区域,并抑制低关注度区域,这种方式得到的掩码图像相对于直接根据原始图像或自注意力图像生成的掩码图像更加清晰全面。
步骤S104,将原始图像输入定位器进行目标定位得到预测激活图像,并根据预测激活图像和掩码图像生成第一损失值。
在一些实施例中,将原始图像输入目标检测网络中的定位器进行目标定位,得到预测激活图像。激活图像表示定位器在原始图像上定位目标的区域,具体通过分析定位器在图像中不同位置处的特征响应,从而推断可能包含目标的区域。其中,激活图像的像素值表示了对应位置在目标定位任务中的重要性或置信度,较高的像素值通常表明该区域更有可能包含目标。因此激活图像在弱监督目标检测中起到了定位和可视化的作用,通过观察激活图像可以推断目标检测网络对不同区域的关注程度,并找到可能包含目标的区域。
在一些实施例中,根据预测激活图像和掩码图像计算生成第一损失值,示例性的,第一损失值可以为均方误差损失,均方误差损失是一种常用的回归任务中的损失函数。它用于衡量预测值与真实值之间的平均差异程度。由于在弱监督目标检测任务中通常只有图像级别的标签,即使知道原始图像中存在目标也不知道目标的具体位置。因此掩码图像可以作为监督信号用于指导定位器生成对应的预测激活图像,通过计算预测激活图像和掩码图像之间的均方误差损失反馈训练定位器。
步骤S105,获取边界框,并根据边界框对掩码图像进行采样得到增强图像。
在一些实施例中,获取边界框并根据边界框对掩码图像进行采样,得到对应的增强图像。具体的,通过边界框对掩码图像采样得到采样区域,对该采样区域进行掩码填充并结合原始图像可以得到数据增强后的训练图像,即增强图像。由于采样区域中包括小部分背景,由此可以融合前景和该背景,使得目标检测网络在周围环境中学习识别和分类,提高了分类的泛化性能。
步骤S106,将增强图像输入分类器进行目标分类得到预测分类结果,并根据预测分类结果和分类标签生成第二损失值。
在一些实施例中,将增强图像作为训练图像输入至目标检测网络中的分类器进行目标分类,得到对应的预测分类结果。可以理解的是,预测分类结果为预测分类标签,由此进一步计算预测分类结果和原始图像对应的分类标签生成第二损失值反馈训练分类器。
在一些实施例中,第二损失值为交叉熵损失,交叉熵损失是一种常用的损失函数,通常用于分类任务中。它用于衡量预测结果与真实标签之间的差异,并作为优化目标来训练模型。在分类任务中,分类器对每个类别进行预测,并使用one-hot编码表示的真实标签。具体而言,对于给定的一个样本,假设标签有K个类别,预测结果可以表示为一个包含K个元素的概率分布,其中每个元素表示该类别的概率。真实标签相应地表示为一个K维的向量,其中只有对应类别位置上的元素为1,其他位置上为0。交叉熵损失的核心思想是最小化模型预测与真实标签之间的差异,从而使模型的预测结果更接近真实情况。通过最小化交叉熵损失,模型可以学习到更准确的分类决策边界,提高分类准确性。在训练过程中,通常使用梯度下降等优化算法来最小化交叉熵损失。
步骤S107,根据第一损失值和第二损失值调节目标检测网络的模型权重,直至达到迭代终止条件,得到训练好的目标检测网络。
在一些实施例中,根据第一损失值和第二损失值调节目标检测网络的模型权重。具体的,可以根据均方差损失对应调节定位器中的权重并重新进行训练,根据交叉熵损失对应调节分类器中的权重并重新进行训练,直至达到迭代终止条件。可以理解的是,迭代终止条件可以是预设训练次数,也可以是第一损失值小于第一预设值和/或第二损失值小于第二预设值等,由此得到训练好的目标检测网络,本实施例对此不做限制。
参照图2所示,在本申请的一些实施例中,上述步骤S103可以包括但不限于以下步骤S201至步骤S203。
步骤S201,将原始图像输入至监督模型,得到注意力张量。
在一些实施例中,监督模型包括Transformer编码器,Transformer编码器具有预设数量的注意力头。具体的,Transformer是一种用于序列建模的神经网络架构,最初被提出用于机器翻译任务,引入了自注意力机制(Self-Attention)能够有效地捕捉输入序列中不同位置之间的关系。在Transformer编码器中,自注意力机制被用来建模输入序列内部的依赖关系,注意力头(Attention Head)是自注意力机制的一种变体,用于并行地学习多个不同的注意力权重。每个注意力头都有自己的查询(query)、键(key)和值(value),通过对它们进行加权求和,得到编码器的最终表示。
在一些实施例中,将原始图像输入至包括Transformer编码器的监督模型中,得到注意力张量,其中注意力张量具有第一预设维度,第一预设维度与注意力头对应。示例性的,监督模型中的Transformer编码器设置有12个注意力头时,对应得到12维的注意力张量,又例如监督模型中的Transformer编码器设置有9个注意力头时,对应得到9维的注意力张量,即每一个注意力头对应一个维度注意力张量。
步骤S202,根据第一预设维度选取第二预设维度。
在一些实施例中,根据第一预设维度选取第二预设维度,第一预设维度包括第二预设维度。示例性的,第一预设维度为12时,可以选取第9、10、11维度的注意力张量,即选取的第二预设维度为连续的9至11;又例如选取第0、5、10维度的注意力张量,即选取的第二预设维度为不连续的0、5和10。可以理解的是,维度计数从0开始计数,12个维度的注意力张量对应的维度为0至11,本实施例对此不做限制。
步骤S203,从注意力张量中选取第二预设维度的注意力量值,并根据注意力量值计算得到自注意力图。
在一些实施例中,从注意力张量中选取第二预设维度的注意力量值,从而根据注意力量值计算得到自注意力图。示例性的,监督模型为具有12个注意力头的DINO模型,输入原始图像I至DINO模型得到含有12个维度的注意力张量Fattention,即Fattention=DINO(I),选取的第二预设维度为最后三个维度,即从12个维度注意力张量中选取最后三个注意力张量对应的注意力量值计算得到自注意力图。具体的,选取最后三个注意力量值计算平均值作为注意力图Fdino,即Fdino=AVG(Fattention[9:]),其中,Fdino的大小为w×h,其中w=W/P,h=H/P,P是Transformer编码器中的一个图像块的大小,WxH是原始图像的维度,W代表原始图像的宽度,H代表原始图像的高度。
参照图3所示,在本申请的一些实施例中,上述步骤S103还可以包括但不限于以下步骤S301至步骤S305。
步骤S301,根据自注意力图得到原始图像的前景像素和背景像素。
在一些实施例中,自注意力图包括多个激活值,具体的,自注意力图中的每个像素或者每个图像块对应一个激活值,激活值的范围为[0,1]。根据自注意力图得到对应的原始背景的前景像素和背景像素,由于原始背景与自注意力图一一对应,根据自注意力图中的像素位置可以对应原始图像中的像素位置,并根据该位置的像素取值作为前景像素或者背景像素。具体的,使用自注意力图中的像素激活值进行初始化得到原始图像中的前景像素和背景像素。
可以理解的是,前景和背景指的是图像中不同的对象或区域。前景是感兴趣的对象或区域,通常是希望从图像中提取或突出显示的主要内容。而准确地将前景与背景进行分离是进一步分析或处理的基础。背景则是前景之外的区域,包括与前景相对应的其他对象、环境或背景噪声等。因此通过识别和划分前景像素和背景像素,可以实现对图像的精确分割,从而更好地理解图像中的内容并进行后续分析或处理。
步骤S302,根据前景像素和背景像素创建高斯混合模型。
在一些实施例中,将原始图像的前景像素和背景像素作为种子像素创建高斯混合模型。种子像素被用作高斯混合模型的先验信息,使用初始化的前景和背景种子像素,构建高斯混合模型来表示图像的颜色分布。在每次迭代中,根据当前的高斯混合模型,使用图割算法来更新像素的标签,重新估计每个像素属于前景或背景的概率,并通过最小化能量函数来确定最佳分割结果。最后通过迭代优化直到满足终止条件,如达到最大迭代次数或能量函数的变化低于某个阈值。
在一些实施例中,在高斯混合模型迭代训练过程中,还加入原始图像的低级特征进行引导,例如加入原始图像的颜色和纹理等信息迭代判断像素属于前景或者背景的概率。由此有了前景和背景的粗略特征信息,即可利用高斯混合模型生成具有更清晰前景的掩码图像。
步骤S303,获取响应阈值范围,并根据响应阈值范围和激活值将自注意力图分割为前景区域、背景区域和候选区域。
在一些实施例中,获取响应阈值范围,并根据响应阈值范围和激活值将自注意力图分割为前景区域、背景区域和候选区域。示例性的,响应阈值范围为[0.02,0.1],当自注意力图中的像素对应的激活值小于0.02时,则将该像素分割为背景区域;当自注意力图中的像素对应的激活值大于0.1时,则将该像素分割为前景区域;当自注意力图中的像素对应的激活值在响应阈值范围中时,则将该像素分割为候选区域。
步骤S304,基于原始图像的低级特征,利用高斯混合模型计算候选区域中每个像素的分割概率,并根据分割概率将像素划分至前景区域或背景区域。
在一些实施例中,基于原始图像的颜色和纹理等低级特征,利用高斯混合模型学习前景和背景的图像特征,然后计算候选区域中每个像素的分割概率从而对候选区域的像素进行判别。可以理解的是,高斯混合模型计算像素的分割概率可能是一组数据,包括多个概率,选取其中的最高概率作为最终的分割概率以将该像素分割为前景区域或者背景区域。示例性的,候选区域中的像素激活值为0.08,高斯混合模型基于原始图像低级特征进行迭代判断后,得到最高的分割概率为0.12,大于响应阈值范围,因此将该像素划分为前景区域。
步骤S305,根据前景区域和背景区域得到掩码图像。
在一些实施例中,通过高斯混合模型将候选区域中的各个像素对应划分为前景区域或者背景区域,由此对应将原始图像中的前景区域的掩码设置为1,同时将原始图像中背景区域的掩码设置为0,得到对应的二值化掩码图像。
在一些实施例中,使用GrabCut算法根据自注意力图和对应的原始图像生成掩码图像。GrabCut是一种交互式算法,在GrabCut算法中使用高斯混合模型用于对图像中的颜色分布进行建模。学习前景和背景的图像特征,从而对候选区域的像素进行判别得到候选区域每个像素的最高分割概率,据此分割为前景区域或背景区域,由此生成结合原始图像丰富低级特征的掩码图像MG,即MG=GrabCut(I,Fdino)。其中,掩码图像MG的大小为1xWxH,WxH是原始图像维度,W代表原始图像的宽度,H代表原始图像的高度,即掩码图像MG的大小与原始图像相同。因此如果有了前景和背景的粗略特征图,便可以利用GrabCut算法生成具有更清晰前景的增强二值化掩码图像。
参照图4所示,在本申请的一些实施例中,上述步骤S104可以包括但不限于以下步骤S401至步骤S404。
步骤S401,将原始图像输入至骨干网络得到第一特征图。
在一些实施例中,目标检测网络还包括预训练的骨干网络,骨干网络采用Transformer编码器构成,参数固定。同时,定位器包括UNet网络,三层反卷积神经网络和归一化网络。具体的,骨干网络与定位器的UNet网络连接,将原始图像输入至骨干网络得到第一特征图Fi,Fi=f(I;W),其中,i表示Transformer的第i个特征块,Fi的大小为D×w×h,D是第一特征图的维度,W是骨干网络的参数,I是原始图像,Fi是骨干网络的输出。
步骤S402,将第一特征图输入至UNet网络得到第二特征图。
在一些实施例中,将第一特征图Fi输入至UNet网络得到第二特征图Fu,其中,Fu的大小为256×w×h,256是第二特征图的维度,/>是UNet网络模型的参数,Fu是UNet网络的输出。
步骤S403,将第二特征图输入至反卷积神经网络得到第三特征图。
在一些实施例中,将第二特征图输入至反卷积神经网络得到第三特征图Fd, 其中,/>是反卷积神经网络模型的参数,Fd是反卷积神经网络的输出。
步骤S404,将第三特征图输入至归一化网络得到预测激活图。
在一些实施例中,将第三特征图输入至归一化网络得到预测激活图Fa,其中,/>是归一化网络的权重,Fa是最终输出的预测激活图,其大小为1×(23×w)×(23×h),这里的3与三层反卷积层对应。
参照图5所示,在本申请的一些实施例中,上述步骤S105可以包括但不限于以下步骤S501至步骤S504。
步骤S501,在多个侯选边界框内进行均匀采样得到边界框。
在一些实施例中,在多个候选边界框内进行均匀采样得到边界框,具体的,候选边界框的大小和位置可以是随机生成的。根据掩码图像的高度和宽度均匀分度对边界框坐标进行采样,可以由rw和rh以及参数λ缩放以控制边界框的大小,rx~Unif(0,W),ry~Unif(0,H),/>其中,rx~Unif(0,W)和/>分别是均匀采样的x的坐标和边界框的宽度。同样ry~Unif(0,H)和/>分别表示均匀采样y的坐标和边界框的高度,λ是中均匀分布(0-1)中采样得到,最终得到的边界框坐标为A=(rx,ry,rw,rh)。
步骤S502,利用边界框对掩码图像进行随机采样得到采样区域。
在一些实施例中,参照图6所示的随机采样示意图,利用边界框对掩码图像进行随机采样得到采样区域如右上角图所示,采样区域包括前景部分和背景部分,原始的掩码图像中的前景为白色小鸟部分,背景为黑色部分。
步骤S503,利用预设填充值对采样区域进行掩码得到增强掩码图像。
在一些实施例中,利用预设填充值对采样区域进行掩码,具体用数值“1”填充采样区域,得到增强掩码图像,如图6中右上角图所示即为采样后的增强掩码图像。
步骤S504,将原始图像与增强掩码图像进行点乘得到增强图像。
在一些实施例中,将原始图像与增强掩码图像进行点乘,得到增强图像。具体的,参照图6所示,由边界框和左上角的原始掩码图像MG随机采样得到右上角的增强掩码图像白色区域为1,黑色区域为0。再将增强掩码图像/>与右下角的原始图像I进行点乘,可以得到左下角的增强图像/>由此可知增强图像保留了原始图像的前景并添加了部分背景信息,可以有效提高分类的泛化性能。
参照图7所示,在本申请的一些实施例中,上述步骤S106可以包括但不限于以下步骤S601至步骤S602。
步骤S601,将增强图像输入至分类器得到训练图像序列。
在一些实施例中,分类器包括Transformer编码器,两层卷积神经网络和全局池化层。具体的,将增强图像作为训练图像输入至分类器中得到训练图像序列Ft,然后转换Ft的大小为/>其中D表示每个图像块的维度,其中,/>代表增强图像,Wt代表Transformer编码器的权重,Ft代表Transformer编码器的输出。
步骤S602,将训练图像序列输入至卷积神经网络和全局池化层得到预测分类结果。
在一些实施例中,将训练图像序列Ft输入至卷积神经网络和全局池化层(GlobalAverage Pooling,GAP)得到预测分类结果 其中,Wc代表卷积神经网络的权重,/>代表预测分类结果。
可以理解的是,应用Transformer编码器,能够挖掘全局的依赖关系,在此基础上应用卷积神经网络CNN探索局部有利于分类的图像特征,使得分类器能够在类别信息引导下实现更精确的分类。
以下通过一个完整的实施例说明本申请:
参照图8所示的目标检测网络的训练流程架构图,原始图像输入骨干网络后得到对应的特征图,然后将特征图输入至定位器进行目标定位,结合GrabCut增强得到的掩码图像作为监督信号反馈训练定位器,得到预测激活图像。同时利用监督模型生成自注意力图,并通过GrabCut算法增强得到掩码图像,并结合原始图像的低级特征利用边界框进行随机均匀采样得到增强图像,由此将该增强图像作为训练图像输入至分类器中进行目标分类,并得到预测分类结果从而训练分类器。
进一步地,参照图9所示的低级特征增强示意图,左上角图(a)中的第一幅图为监督模型输出的自注意力图,由此得到的原始掩码图像,但是该原始掩码图像的边界不够清晰完整。本实施例通过结合原始图像的低级特征输入至Low-level Cues,从而得到图(a)中右上角的增强掩码图像,其具有清晰完整的边界。具体的,在图(b)中,结合增强的掩码图像和原始图像,进一步挖掘Global信息和Local信息,其中Global信息即定位的全局信息,Local信息即分类器所需要的类别局部信息。根据全局信息进行定位更加精确完整,根据类别局部信息进行分类可以提高精度,由此分别提高了分类和定位的精度以及性能。
在本申请的一些实施例中,参照图10所示的可视化结果对比图,是本实施例在CUB-200-2011和ILSVC 2012数据集上可视化结果对比图,并结合参照图11至图14所示的效果对比图,其中,图11为在CUB-200-2011数据集上的定位效果对比图,图12为在CUB-200-2011数据集上分类效果对比图,图13为在ILSVRC 2012数据集上的定位效果对比图,图14为在ILSVRC 2012数据集上分类效果对比图。由此可知,对于相同的自注意力图,本实施例的目标检测的训练方法具有更清晰完成的边界定位和分类,并且与其他各种定位或者分类方法相比,本实施例的定位效果和分类效果均显著提升。
由此通过设计分类器和定位器统一的网络架构,充分结合原始图像的低级特征得到覆盖目标更全面的掩码图像。定位器利用融合了低级信号的伪标签训练生成更多全局目标区域的定位激活图像,极大限度地提升了定位的精度;同时分类器融合了Transformer和CNN各自的优势,在Transformer全局依赖关系的基础上使用CNN探索有利于分类的局部特征,提升了分类的性能。比空气在分类中引入了一种新的数据增强方法,利用低级特征的掩码信息,保留前景和融合小部分背景,鼓励在周围环境中学习识别和分类物体,从而提高了分类的泛化性能。
本发明实施例还提供一种目标检测方法可以对图像进行分类和定位,应用如上述目标检测网络的训练方法,参照图15所示,在本申请的一些实施例中,目标检测方法可以包括但不限于以下步骤S701至步骤S703。
步骤S701,获取待检测图像并输入至目标检测网络。
在一些实施例中,参照图16所述的目标检测方法流程架构图,目标检测网络包括预训练的骨干网络、定位器和分类器,具体的,骨干网络分别与定位器和分类器连接,获取待检测图像并输入至目标检测网络中进行弱监督目标检测从而进行定位和分类。
步骤S702,利用骨干网络生成待检测图像对应的特征图。
在一些实施例中,首先利用骨干网络生成待检测图像对应的特征图。在目标检测中可以将图像分割为多个区域,然后将每个区域的图像块作为输入传入Transformer编码器。编码器将图像块映射为高维特征向量,表示该区域的语义信息。这些特征向量被用作特征图,其中每个位置都对应输入图像的一个区域。每个位置上的特征向量捕捉了该区域的语义和上下文信息。骨干网络通过Transformer编码器的多层自注意力机制,实现了对局部和全局特征的有效建模。
步骤S703,将特征图输入至定位器中得到定位结果,并将特征图输入至分类器中得到分类结果。
在一些实施例中,将特征图输入至定位器中得到定位结果,并将特征图输入至分类器中得到分类结果。可以理解的是,定位结果是定位激活图像,分类结果是预测类别标签,从而完成对待检测图像的弱监督目标检测的定位和分类。
本实施例的目标检测方法的具体实施方式与上述目标检测网络的训练方法的具体实施方式基本一致,在此不再一一赘述。
本发明实施例还提供一种目标检测网络的训练装置,可以实现上述目标检测网络的训练方法,参照图17所示,在本申请一些实施例中,目标检测网络的训练装置包括:
获取模块100,用于获取训练数据集;其中,训练数据集包括多个原始图像,原始图像包括分类标签;
输入模块200,用于将原始图像输入目标检测网络;目标检测网络包括分类器和定位器;
生成模块300,用于利用预设的监督模型生成原始图像的自注意力图,并根据自注意力图和原始图像生成掩码图像;
第一训练模块400,用于将原始图像输入定位器进行目标定位得到预测激活图像,并根据预测激活图像和掩码图像生成第一损失值;
增强模块500,用于获取边界框,并根据边界框对掩码图像进行采样得到增强图像;
第二训练模块600,用于将增强图像输入分类器进行目标分类得到预测分类结果,并根据预测分类结果和分类标签生成第二损失值;
调节模块700,用于根据第一损失值和第二损失值调节目标检测网络的模型权重,直至达到迭代终止条件,得到训练好的目标检测网络。
本实施例的目标检测网络的训练装置的具体实施方式与上述目标检测网络的训练方法的具体实施方式基本一致,在此不再一一赘述。
图18示出了本申请实施例提供的电子设备1000。电子设备1000包括:处理器1001、存储器1002及存储在存储器1002上并可在处理器1001上运行的计算机程序,计算机程序运行时用于执行上述的目标检测网络的训练方法或目标检测方法。
处理器1001和存储器1002可以通过总线或者其他方式连接。
存储器1002作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本申请实施例描述的目标检测网络的训练方法或目标检测方法。处理器1001通过运行存储在存储器1002中的非暂态软件程序以及指令,从而实现上述的目标检测网络的训练方法或目标检测方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的目标检测网络的训练方法或目标检测方法。此外,存储器1002可以包括高速随机存取存储器1002,还可以包括非暂态存储器1002,例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器1002可选包括相对于处理器1001远程设置的存储器1002,这些远程存储器1002可以通过网络连接至该电子设备1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的目标检测网络的训练方法或目标检测方法所需的非暂态软件程序以及指令存储在存储器1002中,当被一个或者多个处理器1001执行时,执行上述的目标检测网络的训练方法或目标检测方法,例如,执行图1中的方法步骤S101至步骤S107、图2中的方法步骤S201至步骤S203、图3中的方法步骤S301至步骤S305、图4中的方法步骤S401至步骤S404、图5中的方法步骤S501至步骤S504、图7中的方法步骤S601至步骤S602、图15中的方法步骤S701至步骤S703。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述目标检测网络的训练方法或目标检测方法。存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的目标检测网络的训练方法、目标检测方法及相关装置,具有如下优点和效果:
1.利用原始图像低级特征增强Transformer自注意力,生成定位器的掩码图像作为伪标签。传统方法通常只专注于局部的高层次语义特征,例如CNN的网络特征等,并直接在此基础上生成伪标签。然而,这种方法生成的伪标签无法覆盖更多的目标区域,导致伪标签质量不高,进而造成定位结果不够精确。本申请提出充分利用好图像的低级信号,如图像中目标的纹理和颜色,生成更精确的掩码,并用于训练定位更精确的定位器。通过这种方式,能够更好地利用图像中丰富的细节信息,提高定位器对目标位置的准确性。
2.定位器和分类器统一至一个网络架构。以往的方法通常将更多注意力放在定位器的生成上,而在分类上直接引用一个训练好的分类网络,如ResNet50或者EfficientNet-B7,这意味着要进行两次的测试,增强计算开销。为此本申请提出要同等对待分类器和定位器,将其集中在一个网络架构中,同时又各尽其职,互不影响,在检测图像只需要输入到一个骨干网络中,再分别输入到分类器和定位器。
3.Transformer与CNN结合的分类方式在全局信息基础上挖掘局部类别信号。传统的CNN侧重于提取图像的局部特征和空间模式,通过卷积、池化和全连接层进行分类预测。通过引入Transformer编码器,可以在CNN模型中引入全局依赖关系的建模能力。Transformer的注意力机制允许模型在处理图像时更好地捕捉不同位置之间的关联和依赖关系,而不仅仅局限于局部区域。通过将Transformer与CNN结合,模型可以综合利用CNN的局部特征提取能力和Transformer的全局依赖关系建模能力,从而获得更全面、更准确的图像表示。这种结合方式帮助模型更好地理解图像内容,提高分类的准确性和泛化能力。
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
还应了解,本申请实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换。
Claims (10)
1.一种目标检测网络的训练方法,其特征在于,包括:
获取训练数据集;所述训练数据集包括多个原始图像,所述原始图像包括分类标签;
将所述原始图像输入目标检测网络;所述目标检测网络包括分类器和定位器;
利用预设的监督模型生成所述原始图像的自注意力图,并根据所述自注意力图和所述原始图像生成掩码图像;
将所述原始图像输入所述定位器进行目标定位得到预测激活图像,并根据所述预测激活图像和所述掩码图像生成第一损失值;
获取边界框,并根据所述边界框对所述掩码图像进行采样得到增强图像;
将所述增强图像输入所述分类器进行目标分类得到预测分类结果,并根据所述预测分类结果和所述分类标签生成第二损失值;
根据所述第一损失值和所述第二损失值调节所述目标检测网络的模型权重,直至达到迭代终止条件,得到训练好的所述目标检测网络。
2.根据权利要求1所述的目标检测网络的训练方法,其特征在于,所述监督模型包括Transformer编码器,所述Transformer编码器具有预设数量的注意力头;所述利用预设的监督模型生成所述原始图像的自注意力图,包括:
将所述原始图像输入至所述监督模型,得到注意力张量;所述注意力张量具有第一预设维度,所述第一预设维度与所述注意力头对应;
根据所述第一预设维度选取第二预设维度;
从所述注意力张量中选取所述第二预设维度的注意力量值,并根据所述注意力量值计算得到所述自注意力图。
3.根据权利要求1或2所述的目标检测网络的训练方法,其特征在于,所述自注意力图包括多个激活值;所述根据所述自注意力图和所述原始图像生成掩码图像,包括:
根据所述自注意力图得到所述原始图像的前景像素和背景像素;
根据所述前景像素和所述背景像素创建高斯混合模型;
获取响应阈值范围,并根据所述响应阈值范围和所述激活值将所述自注意力图分割为前景区域、背景区域和候选区域;
基于所述原始图像的低级特征,利用所述高斯混合模型计算所述候选区域中每个像素的分割概率,并根据所述分割概率将所述像素划分至所述前景区域或所述背景区域;
根据所述前景区域和所述背景区域得到所述掩码图像。
4.根据权利要求1所述的目标检测网络的训练方法,其特征在于,所述目标检测网络还包括骨干网络,所述定位器包括UNet网络,三层反卷积神经网络和归一化网络;所述将所述原始图像输入所述定位器进行目标定位得到预测激活图像,包括:
将所述原始图像输入至所述骨干网络得到第一特征图;
将所述第一特征图输入至所述UNet网络得到第二特征图;
将所述第二特征图输入至所述反卷积神经网络得到第三特征图;
将所述第三特征图输入至所述归一化网络得到所述预测激活图。
5.根据权利要求1所述的目标检测网络的训练方法,其特征在于,所述获取边界框,并根据所述边界框对所述掩码图像进行采样,得到增强图像,包括:
在多个侯选边界框内进行均匀采样得到所述边界框;
利用所述边界框对所述掩码图像进行随机采样得到采样区域;
利用预设填充值对所述采样区域进行掩码得到增强掩码图像;
将所述原始图像与所述增强掩码图像进行点乘得到所述增强图像。
6.根据权利要求1或5所述的目标检测网络的训练方法,其特征在于,所述分类器包括Transformer编码器,两层卷积神经网络和全局池化层;所述将所述增强图像输入所述分类器进行目标分类得到预测分类结果,包括:
将所述增强图像输入至所述分类器得到训练图像序列;
将所述训练图像序列输入至所述卷积神经网络和所述全局池化层得到所述预测分类结果。
7.一种目标检测方法,其特征在于,应用如权利要求1至6中任一项所述的目标检测网络的训练方法,包括:
获取待检测图像并输入至所述目标检测网络;其中,所述目标检测网络包括预训练的骨干网络、定位器和分类器,所述骨干网络分别与所述定位器和所述分类器连接;
利用所述骨干网络生成所述待检测图像对应的特征图;
将所述特征图输入至所述定位器中得到定位结果,并将所述特征图输入至所述分类器中得到分类结果。
8.一种目标检测网络的训练装置,其特征在于,应用如权利要求1至7中任一项所述的目标检测网络的训练方法,包括:
获取模块,用于获取训练数据集;其中,所述训练数据集包括多个原始图像,所述原始图像包括分类标签;
输入模块,用于将所述原始图像输入目标检测网络;所述目标检测网络包括分类器和定位器;
生成模块,用于利用预设的监督模型生成所述原始图像的自注意力图,并根据所述自注意力图和所述原始图像生成掩码图像;
第一训练模块,用于将所述原始图像输入所述定位器进行目标定位得到预测激活图像,并根据所述预测激活图像和所述掩码图像生成第一损失值;
增强模块,用于获取边界框,并根据所述边界框对所述掩码图像进行采样得到增强图像;
第二训练模块,用于将所述增强图像输入所述分类器进行目标分类得到预测分类结果,并根据所述预测分类结果和所述分类标签生成第二损失值;
调节模块,用于根据所述第一损失值和所述第二损失值调节所述目标检测网络的模型权重,直至达到迭代终止条件,得到训练好的所述目标检测网络。
9.一种电子设备,其特征在于,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的目标检测网络的训练方法或权利要求7所述的目标检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的目标检测网络的训练方法或权利要求7所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310954725.3A CN117274768A (zh) | 2023-07-31 | 2023-07-31 | 目标检测网络的训练方法、目标检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310954725.3A CN117274768A (zh) | 2023-07-31 | 2023-07-31 | 目标检测网络的训练方法、目标检测方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274768A true CN117274768A (zh) | 2023-12-22 |
Family
ID=89205194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310954725.3A Pending CN117274768A (zh) | 2023-07-31 | 2023-07-31 | 目标检测网络的训练方法、目标检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274768A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710379A (zh) * | 2024-02-06 | 2024-03-15 | 杭州灵西机器人智能科技有限公司 | 一种无损检测模型构建方法、无损检测方法、装置及介质 |
CN117809122A (zh) * | 2024-02-29 | 2024-04-02 | 北京航空航天大学 | 一种颅内大血管图像的处理方法、系统、电子设备及介质 |
CN117975472A (zh) * | 2024-04-01 | 2024-05-03 | 鹏城实验室 | 物体定位方法、装置、设备及介质 |
-
2023
- 2023-07-31 CN CN202310954725.3A patent/CN117274768A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710379A (zh) * | 2024-02-06 | 2024-03-15 | 杭州灵西机器人智能科技有限公司 | 一种无损检测模型构建方法、无损检测方法、装置及介质 |
CN117710379B (zh) * | 2024-02-06 | 2024-05-10 | 杭州灵西机器人智能科技有限公司 | 一种无损检测模型构建方法、无损检测方法、装置及介质 |
CN117809122A (zh) * | 2024-02-29 | 2024-04-02 | 北京航空航天大学 | 一种颅内大血管图像的处理方法、系统、电子设备及介质 |
CN117809122B (zh) * | 2024-02-29 | 2024-06-04 | 北京航空航天大学 | 一种颅内大血管图像的处理方法、系统、电子设备及介质 |
CN117975472A (zh) * | 2024-04-01 | 2024-05-03 | 鹏城实验室 | 物体定位方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
Guo et al. | Scattering enhanced attention pyramid network for aircraft detection in SAR images | |
CN111080645B (zh) | 基于生成式对抗网络的遥感图像半监督语义分割方法 | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN117274768A (zh) | 目标检测网络的训练方法、目标检测方法及相关装置 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN111738070A (zh) | 一种多个小目标的自动准确检测方法 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
CN113096138B (zh) | 选择性像素亲和学习的弱监督语义图像分割方法 | |
CN113610787A (zh) | 图像缺陷检测模型的训练方法、装置、计算机设备 | |
CN113537180B (zh) | 树障的识别方法、装置、计算机设备和存储介质 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
CN114328942A (zh) | 关系抽取方法、装置、设备、存储介质和计算机程序产品 | |
CN112712066A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
Goswami et al. | A comprehensive review on real time object detection using deep learing model | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
CN116246161A (zh) | 领域知识引导下的遥感图像目标精细类型识别方法及装置 | |
Niroshan et al. | Poly-GAN: Regularizing Polygons with Generative Adversarial Networks | |
Yu et al. | A lightweight ship detection method in optical remote sensing image under cloud interference | |
CN114663751A (zh) | 一种基于增量学习技术的输电线路缺陷识别方法和系统 | |
Damodaran et al. | Overhead power line detection from aerial images using segmentation approaches | |
Paramanandam et al. | A review on deep learning techniques for saliency detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |