CN117253071A - 基于多级伪标签增强的半监督目标检测方法及系统 - Google Patents
基于多级伪标签增强的半监督目标检测方法及系统 Download PDFInfo
- Publication number
- CN117253071A CN117253071A CN202310917776.9A CN202310917776A CN117253071A CN 117253071 A CN117253071 A CN 117253071A CN 202310917776 A CN202310917776 A CN 202310917776A CN 117253071 A CN117253071 A CN 117253071A
- Authority
- CN
- China
- Prior art keywords
- target detection
- enhanced
- image
- data set
- semi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 230000001629 suppression Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于目标检测领域,提供了一种基于多级伪标签增强的半监督目标检测方法及系统,获取原始图像并进行预处理,得到预处理图像;基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;本发明采用多级伪标签增强技术的方法,给出了不同级别下伪标签增强的统一公式;还提出了一种基于平均置信度得分的自适应加权方法作为新的度量标准来选择正负样本;旨在解决目标检测任务中标记数据稀缺、数据存在较大局限性以及带噪伪标签的准确度对正负样本划分的影响,从而进一步提升目标检测的精度。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种基于多级伪标签增强的半监督目标检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
目标检测是计算机视觉中的一个重要任务,其目的是在图像或视频中定位并识别出特定的物体。与简单的图像分类任务不同,目标检测要求不仅识别出物体,还要确定其位置和大小。传统的目标检测方法大致可以分为基于人工设计特征和分类器的方法和基于深度学习的方法。对于早期的基于人工设计特征和分类器的方法,由于无法处理大量变化的背景和目标形状,难以实现端到端的训练,从而导致检测的准确率受限。相较于人工设计特征和分类器的方法,深度学习方法通过神经网络自动学习特征和分类器,将目标提取和分类合并在一起,目前已成为目标检测的主流方法。
尽管基于深度学习的目标检测方法已经取得了显著的进展,但是它们通常需要大量且多样性的标注数据来支撑其训练过程。在一些特殊领域,例如医学图像领域,图像的获取和标注难度较大,因此标记数据是相对较少且存在局限性的。此外,在半监督目标检测任务中,由于检测算法的不准确性可能会产生一定的误差,因此生成的伪标签可能会带有一定的噪声,带噪伪标签的准确度对正负样本的划分产生较大的影响,这对目标检测算法的设计和优化提出了更为严峻的挑战。
当前目标检测技术面临一系列挑战和难点,其中标记数据量较少且数据存在较大的局限性是检测精度较低的一个主要问题,带噪伪标签的准确度进一步影响目标检测的精度。因此,迫切需要一种基于多级伪标签增强和自适应加权的半监督目标检测方法,以克服当前技术中存在的局限性,并为该领域的发展提供新的思路和解决方案。
发明内容
为了解决上述问题,本发明提出了一种基于多级伪标签增强的半监督目标检测方法及系统,本发明旨在解决目标检测任务中标记数据稀缺、数据存在较大局限性以及带噪伪标签的准确度对正负样本划分的影响,来提升目标检测模型的准确度和鲁棒性。
根据一些实施例,本发明的第一方案提供了一种基于多级伪标签增强的半监督目标检测方法,采用如下技术方案:
基于多级伪标签增强的半监督目标检测方法,包括:
获取原始图像并进行预处理,得到预处理图像;
基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;
其中,所述半监督目标检测网络模型的训练过程,具体为:
获取原始图像并进行预处理,得到标记数据集和未标记数据集;
对标记数据集中的部分图像采用盒级伪标签增强后,再对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,生成增强后的标记数据集;
将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本;
将增强后的标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的半监督目标检测网络模型作为最终的训练结果。
进一步地,所述获取原始图像并进行预处理,得到预处理图像,具体为:
获取原始图像;
对原始图像进行数据清洗,过滤掉不合格的数据;
对过滤后的数据进行尺寸统一,得到预处理图像。
进一步地,基于预处理图像,采用盒级伪标签增强,具体为:
选取两张带标记图像,并分别从两张带标记图像中选取一个边界框;
调整两幅图像上边界框,使得两个边界框的高和宽互换,得到调整后的边界框;
将调整后的边界框分别从带标记图像的背景中分离出来并互换,得到两张盒级伪标签数据图像。
进一步地,对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,具体为:
基于盒级增强标记数据集中随机选择两张盒级伪标签数据标记图像,同时基于未标记数据集中随机选择两张未标记图像;
对两张盒级伪标签数据标记图像和两张未标记图像进行随机裁剪后,并将裁剪后的图像进行混合,得到一张图像级伪标签增强图像。
进一步地,所述将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,具体为:
将增强后的标记数据集中的图像级伪标签增强图像输入到学生主干网络中,通过一组卷积层,激活函数层以及池化层提取图像级伪标签增强图像的特征图;
再将特征图输入到目标检测网络中进行目标识别训练。
进一步地,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本,具体为:
将未标记数据集进行弱增强后输入到教师网路中获得预测标签;
经过非极大值抑制后,如果该未标记数据的分类得分大于预先设定的阈值则把该未标记数据作为伪标签数据;
将未标记数据集进行强增强后输入到学生网络进行训练;
综合考虑教师网络的分类得分s、教师网络生成的候选框和真实值的IoU值u以及带噪伪标签的准确度w的影响,计算教师网络提供给学生网络的所有候选框的得分,即候选框的质量q;
,
其中,α是控制s和u对结果的贡献程度;q是候选框的质量,通过上面的公式得分表示候选框的质量好坏;
通过OTA中的动态选择方式选择top-N个为正样本,将top-N的框看做正样本,其余为负样本。
进一步地,所述基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果,具体为:
利用训练好的学生网络对预处理图像进行前向传递,生成检测框和对应的类别置信度;
将生成的检测框和类别置信度输入到后处理模块中,进行非极大值抑制和置信度筛选,得到最终的目标检测结果。
根据一些实施例,本发明的第二方案提供了一种基于多级伪标签增强的半监督目标检测系统,采用如下技术方案:
基于多级伪标签增强的半监督目标检测系统,包括:
图像获取模块,被配置为获取原始图像并进行预处理,得到预处理图像;
目标检测模块,被配置为基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;
其中,所述半监督目标检测网络模型的训练过程,具体为:
获取原始图像并进行预处理,得到标记数据集和未标记数据集;
对标记数据集中的部分图像采用盒级伪标签增强后,再对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,生成增强后的标记数据集;
将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本;
将增强后的标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的半监督目标检测网络模型作为最终的训练结果。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于多级伪标签增强的半监督目标检测方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于多级伪标签增强的半监督目标检测方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明提出的基于多级伪标签增强和自适应加权的半监督目标检测方法与系统,与之前标记数据数量稀少且存在较大局限性、正样本划分只考虑proposal和ground truth之间的IoU相比,此方法在目标检测效果上表现出更优异的表现。一方面,本发明采用了多级伪标签增强方法,该数据增强方式可以显著缓解数据存在较大局限性的问题,从而很好地提高模型的泛化能力,减少过拟合的风险。另一方面,本发明构建了一种基于平均置信度得分的自适应加权方法作为新的度量标准来选择正负样本,综合考虑了教师网络分类得分、教师网络生成的proposal和ground truth(对于未标记数据即伪标签)的IoU值以及带噪伪标签的准确度的影响,从而可以更加准确的选择正样本,进一步提升模型的检测精度。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例中基于多级伪标签增强的半监督目标检测方法的网络学习流程图;
图2是本发明实施例中目标检测系统模型框架示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了一种基于多级伪标签增强的半监督目标检测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取原始图像并进行预处理,得到预处理图像;
基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;
其中,所述半监督目标检测网络模型的训练过程,具体为:
获取原始图像并进行预处理,得到标记数据集和未标记数据集;
对标记数据集中的部分图像采用盒级伪标签增强后,再对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,生成增强后的标记数据集;
将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本;
将增强后的标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的半监督目标检测网络模型作为最终的训练结果。
如图1所示,本实施例中的网络学习过程,包括如下步骤:
S1:数据集预处理
首先收集相关领域的数据,然后进行数据清洗,过滤掉不合格的数据,随后对收集的数据进行标注,标注信息包括物体类别、位置等信息。
由于收集到的原始数据可能存在不合格的数据以及图像的大小不一致等问题,因此需要进行数据清洗以过滤掉不合格的数据,随后对收集的数据进行尺寸变换到统一大小(例如224*224),最后对收集的数据进行标注,标注信息包括物体类别、位置等信息。
对原始数据进行预处理后,得到标记数据集以及未标记数据集。
最后将数据集划分为训练集、验证集和测试集,并按照一定的比例分配样本。
S2:多级伪标签增强
首先进行盒级伪标签增强。从标记数据集中随机选择两张图像s和t,从带标记图像s中选取一个bounding box(边界框)为bs,从带标记图像t中选取一个bounding box(边界框)为bt,分别提取两幅图像上bounding box(边界框)的bs和bt,调整bs的高和宽为bt的高宽,调整bt的高和宽为bs的高宽,随后将bs上的图片放到原先bt的位置上,将bt的图片放到原先bs的位置上,完成bs和bt的互换,得到新的带标记图像s’和t’,完成盒级数据增强。选取标记数据集中的部分图像均进行上述处理,得到盒级增强标记数据集。
具体地,盒级数据增强的公式为:
;
其中,表示bs和bt中像素的索引,/>表示索引对应的权值,/>分别表示bs、bt中的个性化权重。
接着,进行图像级伪标签增强。具体地,完成盒级伪标签增强后,从盒级增强标记数据集中随机选择两张图像s’和t’,再从未标记数据集中随机选择两张图像a和b,将它们随机裁剪部分区域,然后混合成一张图像,完成图像级数据增强。对未标注数据集和盒级增强标记数据集中的所有图像进行上述处理,得到增强后的标记数据集。
具体地,图像级数据增强的公式为
;
其中,表示初始化的空图像,/>是图像对{/>}的手工变换矩阵,/>、分别表示/>的权值。
然后通过下面的公式可以得到新的标记图像信息(包括位置信息和分类信息),
;
;
其中,和/>表示标记数据中的边界框坐标,/>和/>表示相应的类别置信度,/>和/>是对应置信度得分的权重。
S3:数据输入
将增强后的标记数据集输入到学生网络中,将未标记数据集进行弱增强后再输入到教师网路中。
需要说明的是,在半监督目标检测网络模型的训练过程中,只是抽取了标记数据中的部分图像进行数据增强再结合原先的标记数据输入到学生网络。
S4:样本特征的提取:
根据batch_size的大小,首先将增强后的标记样本输入到学生主干网络(vgg16)中,通过一组卷积层(conv )+ 激活函数层(relu)+ 池化层(pooling)提取增强后的标记图像的特征图(feature map),再将此特征图(feature map)输入到目标检测网络中,也就是Faster R-CNN中的RPN网络,可以理解的是,此处也可以用其他目标检测架构。
S5:生成伪标签数据
对于未标记数据,首先进行弱增强(随机裁剪、随机翻转、随机旋转等)后输入到教师网络当中获得预测标签,经过非极大值抑制后,如果该未标记数据的分类得分大于预先设定的阈值T(设置为0.9),则把该未标记数据作为伪标签数据。
S6:正样本的选取
对输入未标记数据进行强增强(如切割、旋转、亮度抖动等),生成学生模型的训练样本,对学习模型进行训练。使用强数据增强后的样本和对应的伪标签来训练学生网络。学生网络是一个待训练的目标检测网络,通过使用伪标签进行监督学习,逐渐优化网络权重以提升目标检测性能。
将生成的伪标签与学生网络的预测结果之间进行比较,计算损失函数。根据计算得到的损失,使用反向传播算法更新学生网络的权重参数,以优化网络的性能。
在进行正样本的选取时,综合考虑教师网络的分类得分s、教师网络生成的候选框和真实值(正确打标记的数据)的IoU值u以及带噪伪标签的准确度w(即用平均置信度得分作为自适应权重)的影响,计算教师网络提供给学生网络的所有候选框的得分;
候选框的质量(q):,
其中,α是控制s和u对结果的贡献程度;q是候选框的质量,这里用q代指,通过上面的公式得分表示候选框的质量好坏,计算的是教师网络提供给学生网络的多个候选框的得分,根据公式计算得分值以及下面的动态选择策略去选择正样本;
然后通过OTA中的动态选择方式选择top-N个为正样本,将top-N的框看做正样本,其余为负样本,N是基于OTA方法中的dynamick估计得到的。
带噪伪标签的准确度:这里想表达的意思是教师网络生成的伪标签相对于真实值来说,他可能并不是完全正确的,也就是说伪标签的定位信息的准确度不能得到保证,如果定位信息不准确那么它就是带有噪声的一个伪标签,把这种定位信息可能不完全准确的伪标签称为带噪伪标签。和前面的伪标签是一个东西,这里只是为了强调这个伪标签的定位信息可能不准确。
通过动态选择策略来选择top-N个样本作为正样本,其余为负样本。首先通过传统的交并比值选择正样本,交并比值大于0.5即正样本,比如一个真实值对应的4个正样本的交并比值分别为[0.9, 0.8, 0.7, 0.6],那么N的值即为这四个数值求和后进行下取整为3,那么最终选择这前三个为正样本。
S7:计算网络模型损失
将学生网络中标记数据预测标签与真实标签做分类损失和边界框回归损失计算:
;
其中,表示分类损失,/>表示边界框回归损失,/>表示监督学习的损失。
将教师网络中未标记数据预测标签与真实标签做分类损失计算:
;
其中,表示不同类的权重,/>为超参数。
最后将标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失:
;
其中,表示总损失值,/>表示标记数据损失,/>表示未标记数据的损失,/>被用于控制未标记数据的权重。
S8:网络训练
学生网络参数的更新:通过反向随机梯度下降来更新学生网络里的参数。
教师网络参数的更新:学生网络参数更新后,采用指数滑动平均(EMA)方法,将学生网络的参数与教师网络的参数进行混合,从而实现教师网络参数的更新。
将标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的网络模型作为最终的训练结果。
也就是说,本实施例每次训练根据抽取比例进行随机抽取标注数据和未标注数据:
对标注数据:送入学生网络进行学习,用gt box来监督其训练,并得到监督学习loss。
对未标注数据:进行弱数据增强后送入教师网络进行学习,生成伪标签;进行强数据增强后送入学生网络进行学习,学习伪标签。
首先,使用弱数据增强(水平翻转、随机调整大小等),然后输入教师模型进行伪标签生成。
之后,对输入训练数据进行强增强(如切割、旋转、亮度抖动等),生成学生模型的训练样本,对学习模型进行训练。
然后计算总体的损失:,用于指导梯度更新来更新学生网络的权重。
最后,使用指数移动平均来更新教师网络权重。
S9:预测阶段
输入待测试图像数据到已训练好的网络模型中进行预测,生成检测框和对应的类别置信度。然后将生成的检测框和类别置信度输入到后处理模块中,进行非极大值抑制和置信度筛选,得到最终的目标检测结果。
如图2所示,对整个目标检测系统模型框架做解释说明。
图2中所对应的虚线框内系统为主要执行目标检测功能的系统模块,其中特征向量模块利用vgg16得到特征图,然后通过前面训练阶段得到的最优的网络来输出最后的检测结果与用户交互。
用户输入待测试图像数据进入目标检测系统,目标检测系统内部自动进行特征向量提取和获得检测结果两个过程,最后输出预测类别和位置与用户进行交互。
本实施例提供了一种采用多级伪标签增强技术的方法,给出了不同级别下伪标签增强的统一公式。该方法首先采用框级伪标签增强,综合考虑两个bounding box(边界框)的共用权重以及单个bounding box(边界框)的个性化权重分别对数据增强的影响,利用交叉的前景背景混合信息来增加数据的多样性和合理性。接着采用图像级伪标签增强将未标记图像与标记图像进行增强,生成更多的标记数据样本并将其引入到训练过程中。这种增强方法增加了数据的多样性和合理性,有利于提高目标检测任务的平均精度和鲁棒性。
此外,本实施例还提出了一种基于平均置信度得分的自适应加权方法作为新的度量标准来选择正负样本,综合考虑带噪伪标签的准确度、IoU值以及分类得分信息,将平均置信度得分作为衡量伪标签准确度的一个权重,给予噪声值大的伪标签一个小的自适应权重来更好的缓解不准确伪标签的影响,有利于更准确的划分正负样本。本发明提出的基于多级伪标签增强和自适应加权的半监督目标检测方法可以使得网络学到更多、更合理的数据以及综合考虑带噪伪标签对正负样本划分的影响,从而进一步提升目标检测的精度。
实施例二
本实施例提供了一种基于多级伪标签增强的半监督目标检测系统,包括:
图像获取模块,被配置为获取原始图像并进行预处理,得到预处理图像;
目标检测模块,被配置为基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;
其中,所述半监督目标检测网络模型的训练过程,具体为:
获取原始图像并进行预处理,得到标记数据集和未标记数据集;
对标记数据集中的部分图像采用盒级伪标签增强后,再对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,生成增强后的标记数据集;
将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本;
将增强后的标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的半监督目标检测网络模型作为最终的训练结果。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于多级伪标签增强的半监督目标检测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于多级伪标签增强的半监督目标检测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.基于多级伪标签增强的半监督目标检测方法,其特征在于,包括:
获取原始图像并进行预处理,得到预处理图像;
基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;
其中,所述半监督目标检测网络模型的训练过程,具体为:
获取原始图像并进行预处理,得到标记数据集和未标记数据集;
对标记数据集中的部分图像采用盒级伪标签增强后,再对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,生成增强后的标记数据集;
将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本;
将增强后的标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的半监督目标检测网络模型作为最终的训练结果。
2.如权利要求1所述的基于多级伪标签增强的半监督目标检测方法,其特征在于,所述获取原始图像并进行预处理,得到预处理图像,具体为:
获取原始图像;
对原始图像进行数据清洗,过滤掉不合格的数据;
对过滤后的数据进行尺寸统一,得到预处理图像。
3.如权利要求1所述的基于多级伪标签增强的半监督目标检测方法,其特征在于,基于预处理图像,采用盒级伪标签增强,具体为:
选取两张带标记图像,并分别从两张带标记图像中选取一个边界框;
调整两幅图像上边界框,使得两个边界框的高和宽互换,得到调整后的边界框;
将调整后的边界框分别从带标记图像的背景中分离出来并互换,得到两张盒级伪标签数据图像。
4.如权利要求1所述的基于多级伪标签增强的半监督目标检测方法,其特征在于,对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,具体为:
基于盒级增强标记数据集中随机选择两张盒级伪标签数据标记图像,同时基于未标记数据集中随机选择两张未标记图像;
对两张盒级伪标签数据标记图像和两张未标记图像进行随机裁剪后,并将裁剪后的图像进行混合,得到一张图像级伪标签增强图像。
5.如权利要求1所述的基于多级伪标签增强的半监督目标检测方法,其特征在于,所述将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,具体为:
将增强后的标记数据集中的图像级伪标签增强图像输入到学生主干网络中,通过一组卷积层,激活函数层以及池化层提取图像级伪标签增强图像的特征图;
再将特征图输入到目标检测网络中进行目标识别训练。
6.如权利要求1所述的基于多级伪标签增强的半监督目标检测方法,其特征在于,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本,具体为:
将未标记数据集进行弱增强后输入到教师网路中获得预测标签;
经过非极大值抑制后,如果该未标记数据的分类得分大于预先设定的阈值则把该未标记数据作为伪标签数据;
将未标记数据集进行强增强后输入到学生网络进行训练;
综合考虑教师网络的分类得分s、教师网络生成的候选框和真实值的IoU值u以及带噪伪标签的准确度w的影响,计算教师网络提供给学生网络的所有候选框的得分,即候选框的质量q;
,
其中,α是控制s和u对结果的贡献程度;q是候选框的质量,通过上面的公式得分表示候选框的质量好坏;
通过OTA中的动态选择方式选择top-N个为正样本,将top-N的框看做正样本,其余为负样本。
7.如权利要求1所述的基于多级伪标签增强的半监督目标检测方法,其特征在于,所述基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果,具体为:
利用训练好的学生网络对预处理图像进行前向传递,生成检测框和对应的类别置信度;
将生成的检测框和类别置信度输入到后处理模块中,进行非极大值抑制和置信度筛选,得到最终的目标检测结果。
8.基于多级伪标签增强的半监督目标检测系统,其特征在于,包括:
图像获取模块,被配置为获取原始图像并进行预处理,得到预处理图像;
目标检测模块,被配置为基于预处理图像,利用预先训练好的半监督目标检测网络模型进行目标检测,得到最终的目标检测结果;
其中,所述半监督目标检测网络模型的训练过程,具体为:
获取原始图像并进行预处理,得到标记数据集和未标记数据集;
对标记数据集中的部分图像采用盒级伪标签增强后,再对未标记数据集中的图像和盒级增强标记数据集中的图像利用交叉的前景背景混合信息进行图像级伪标签增强,得到图像级伪标签增强图像,生成增强后的标记数据集;
将增强后的标记数据集以及标记数据集输入到学生网络进行特征提取,将未标记数据集输入到教师网络生成伪标签数据,并选择正负样本;
将增强后的标记数据的分类损失和边界框回归损失以及未标记数据的分类损失相加构成网络模型的总损失,重复进行前向传播和反向传播过程,直到达到收敛条件,保存其最小损失值时的半监督目标检测网络模型作为最终的训练结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于多级伪标签增强的半监督目标检测方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于多级伪标签增强的半监督目标检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310917776.9A CN117253071B (zh) | 2023-07-25 | 2023-07-25 | 基于多级伪标签增强的半监督目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310917776.9A CN117253071B (zh) | 2023-07-25 | 2023-07-25 | 基于多级伪标签增强的半监督目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117253071A true CN117253071A (zh) | 2023-12-19 |
CN117253071B CN117253071B (zh) | 2024-02-20 |
Family
ID=89132051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310917776.9A Active CN117253071B (zh) | 2023-07-25 | 2023-07-25 | 基于多级伪标签增强的半监督目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117253071B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117636072A (zh) * | 2024-01-24 | 2024-03-01 | 山东建筑大学 | 基于难度感知数据增强与标签矫正的图像分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220156585A1 (en) * | 2020-11-16 | 2022-05-19 | Waymo Llc | Training point cloud processing neural networks using pseudo-element - based data augmentation |
CN114863091A (zh) * | 2022-04-18 | 2022-08-05 | 北京计算机技术及应用研究所 | 一种基于伪标签的目标检测训练方法 |
CN116385879A (zh) * | 2023-04-07 | 2023-07-04 | 上海大学 | 一种半监督海面目标检测方法、系统、设备及存储介质 |
-
2023
- 2023-07-25 CN CN202310917776.9A patent/CN117253071B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220156585A1 (en) * | 2020-11-16 | 2022-05-19 | Waymo Llc | Training point cloud processing neural networks using pseudo-element - based data augmentation |
CN114863091A (zh) * | 2022-04-18 | 2022-08-05 | 北京计算机技术及应用研究所 | 一种基于伪标签的目标检测训练方法 |
CN116385879A (zh) * | 2023-04-07 | 2023-07-04 | 上海大学 | 一种半监督海面目标检测方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杜兰;魏迪;李璐;郭昱辰;: "基于半监督学习的SAR目标检测网络", 电子与信息学报, no. 01, 15 January 2020 (2020-01-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117636072A (zh) * | 2024-01-24 | 2024-03-01 | 山东建筑大学 | 基于难度感知数据增强与标签矫正的图像分类方法及系统 |
CN117636072B (zh) * | 2024-01-24 | 2024-04-26 | 山东建筑大学 | 基于难度感知数据增强与标签矫正的图像分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117253071B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
CN107273502B (zh) | 一种基于空间认知学习的图像地理标注方法 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
US10600171B2 (en) | Image-blending via alignment or photometric adjustments computed by a neural network | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
CN110599500B (zh) | 一种基于级联全卷积网络的肝脏ct图像的肿瘤区域分割方法及系统 | |
CN111539480B (zh) | 多类别医学图像识别方法及设备 | |
CN110120065B (zh) | 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN117253071B (zh) | 基于多级伪标签增强的半监督目标检测方法及系统 | |
CN111339832A (zh) | 人脸合成图像的检测方法及装置 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN109685030A (zh) | 一种基于卷积神经网络的马克杯杯口缺陷检测分类方法 | |
CN113705655A (zh) | 三维点云全自动分类方法及深度神经网络模型 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN112991281B (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
CN108876776A (zh) | 一种分类模型生成方法、眼底图像分类方法及装置 | |
CN107729992B (zh) | 一种基于反向传播的深度学习方法 | |
CN113706580B (zh) | 一种基于相关滤波跟踪器的目标跟踪方法、系统、设备及介质 | |
CN109376619A (zh) | 一种细胞检测方法 | |
CN113886578A (zh) | 一种表单分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |