CN114863088A - 一种面向长尾目标检测的分类对数归一化方法 - Google Patents
一种面向长尾目标检测的分类对数归一化方法 Download PDFInfo
- Publication number
- CN114863088A CN114863088A CN202210319585.8A CN202210319585A CN114863088A CN 114863088 A CN114863088 A CN 114863088A CN 202210319585 A CN202210319585 A CN 202210319585A CN 114863088 A CN114863088 A CN 114863088A
- Authority
- CN
- China
- Prior art keywords
- classification
- long
- target detection
- tail
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000004913 activation Effects 0.000 claims abstract description 5
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种面向长尾目标检测的分类对数归一化方法,目标检测中,对分类器的预测分布使用归一化的方式执行矫正,具体为利用分类器已有的分类输出的分类对数计算统计量,来归一化分类网络最终激活值,自我纠正有偏差的预测结果。尤其适用于长尾目标检测。本发明方法是免训练和免调参的,与具体目标检测模型和分布无关,是即插即用的。本发明方法同时在长尾目标检测和分类任务上展现了有效性和通用性,在现有的极具挑战性的长尾目标检测数据集LVIS 1.0上,本发明方法在多种检测器设置下,所有标准指标均超过了现有最好模型。本发明方法也在长尾分类数据集ImageNet‑LT上取得了较好的效果。
Description
技术领域
本发明属于计算机软件技术领域,涉及长尾目标检测技术,具体为一种面向长尾目标检测的分类对数归一化方法。
背景技术
在实际的视觉相关问题中,手工收集的大型数据集,在物体检测任务上取得了成功。然而,与来自现实场景的数据相比,它们往往是相对平衡的,因为现实场景往往呈现出长尾的偏斜分布,即少量类别占据绝大多数样本,大量的类别仅有少量的样本。在这个意义上,少数头部类(频繁类)占主导地位,但大量的尾部类(稀有类)被掩盖了。这种标签分布的变化给深度物体检测器带来了相当大的挑战,也就是由训练集训练的目标检测器在实际场景应用中效果下降,同时也促使了解决这个问题的各种技术。最直观的方法,重新取样,但该技术不仅导致了更高的训练复杂性,而且还造成了头部类的欠拟合和尾部类的过拟合问题。现有技术中更多的方法关注于通过在训练中修改分类器输出的logit,即分类对数,对训练目标进行重新加权,或调整分类对数与类的先验,例如标签频率。然而,这些理论上最佳的logit调整往往不能很好地适应目标检测器。同时,在目标检测中,还有一个极端的头部类别,即背景类,会严重偏离前景类别的分类,也会给目标检测带来长尾分布的问题。最近的一些研究方法试图用统计学的方法来动态地适应长尾分布,但它们通常表现为有很多参数的复杂形式。此外,这些方法中仍然缺乏对背景类别的适当处理。
发明内容
本发明要解决的问题是:(1)大部分长尾学习方法着重于数据集先验的应用,他们通常将标签频率注入到分类的logit中,因此不能适应配备了各种采样器的目标检测器内部的重新采样的训练标签分布。同时缺少良好的对背景logit的校准。(2)最近的一些研究方法提出利用统计量适应检测器内的动态分布,尽管取得了良好的性能,但它们中的大多数在形式上都很复杂,而且参数化程度过高。
本发明的技术方案为:一种面向长尾目标检测的分类对数归一化方法,目标检测中,对分类器的预测分布使用归一化的方式执行矫正,具体为利用分类器已有的分类输出的分类对数计算统计量,来归一化分类网络最终激活值,自我纠正有偏差的预测结果。
进一步的,检测目标长尾分布。
进一步的,检测任务为对检测目标的分类任务,在构建分类网络并训练后,在测试阶段,测试集数据长尾分布,对于分类器输出的每批C维分类对数向量x∈RC,执行如下的归一化:
其中μ(x),σ(x)∈RC表示在训练样本的向量上计算得到的均值和标准差,ε为稳定参数,用于维护标准差的数值稳定性;
归一化操作为:首先遍历所有训练样本,通过指数滑动平均从训练集的批量分类统计量中累积全局统计量,得到μ(x)和σ(x),从而获得分类器在每个类别上的预测偏见的近似;分类对数向量x被归一化为后,应用一个arg max函数来获得相应分类标签的近似值,作为分类器的最终预测结果。
进一步的,检测任务为对检测目标的分类和定位任务,目标检测网络对应具有分类分支和定位分支,在构建目标检测网络并训练后的测试过程中,测试集数据长尾分布,对于分类分支输出的每批(C+1)维分类对数向量每个向量都包含C个前景类和一个背景类的分类对数,执行如下形式的归一化:
其中x∈RC表示分类对数向量的前景子向量;μ(x),σ(x)∈RC表示在训练样本的前景子向量上计算得到的均值和标准差,ε为稳定参数,用于维护标准差的数值稳定性,β∈R是考虑到前景背景样本的悬殊比例,而为前景向量设置的背景校准标量,设置为前景向量的最小值;
归一化操作为:通过指数滑动平均从训练集的分类批量统计量中累积全局统计量,逐步聚合每个批训练样本上预测的分类对数的统计量,得到μ(x)和σ(x),从而获得分类分支在每个类别上的预测偏见的近似,在分类对数向量的前景子向量x被归一化为后,分类分支应用一个arg max函数来获得相应标签的近似值,以作为分类分支的预测结果,与定位分支的结果结合,输出目标的类别和位置。
本发明的分类对数归一化方法LogN,在形式上接近常见的归一化方法,这保证了通用性,即通过在训练后分类器输出的分类对数上执行归一化,本发明方法能够被广泛便捷地、即插即用地移植到任何检测器和数据分布之上,并且无需任何训练和调节过程。但是,和现有常见的归一化方法不同的是,现有技术通常使用特征统计量来归一化分类网络的中间激活值,从而加速网络的训练;而本发明的方法则是利用在网络输出的分类对数上计算的统计量,来归一化分类网络的最终激活值,从而改善分类网络在长尾分布上的学习。此外,现有技术通常同时在训练和测试阶段执行归一化,这是因为两阶段的输入数据分布是一致的;而本发明的方法不参与网络训练,直接在训练好的网络上进行,例如仅在测试阶段执行,或在实际场景检测时执行,能够应对实际检测目标和训练样本在输入数据的标签分布上的不一致性。最后,本发明LogN并没有现有常规归一化方法中的仿射变换过程,这是因为在常规的长尾设置中,测试集合通常保持均匀的标签分布,而LogN归一化后的测试数据在标签分布通常也是均匀的,无需再向特定分布迁移变换。
本发明提出了一种分类对数归一化方法来对长尾分布下的目标检测器的分类输出执行自我矫正。本发明即插即用,仅需要在训练好的模型中对分类器使用,即可解决检测数据长尾分布的问题,同时如果检测数据不存在长尾问题,也不影响目标检测结果。本发明同时在长尾目标检测和分类任务上展现了有效性和通用性,本发明方法无需训练或调节网络参数,即不需要额外的训练、调参过程,同网络模型和分布无关,对不同种类的检测器和训练集具有通用性。
本发明与现有技术相比有如下优点
本发明方法用训练后计算的统计数据对logit进行归一化,能够动态地适应这种改变的标签分布。此外,类似批归一化的表述使得本发明方法成为一种自我校准方法,因此也比部分基于先验的方法灵活。最后,本发明方法还对背景logit进行了校准,为其提供了一个自适应的调整,从而避开了对背景logit校准的调整。此外,本发明方法在分类的logit上执行后验的批归一化,无需任何训练或调整程序就能自我纠正有偏差的检测结果。
附图说明
图1是本发明在目标检测任务上实现的伪代码。
图2展示本发明在Lvis 1.0数据集样例上和现有工作比较的结果。
图3展示本发明在ImageNet-LT数据集样例上和现有工作比较的结果。
图4为本发明的在长尾目标检测任务上总体流程示意图。
图5为本发明的在长尾图像分类任务上总体流程示意图。
具体实施方式
对于目标检测,待测图像中往往有很多物体,目标检测目的是判断出物体出现的位置与类别,通常的阶段包括特征提取和分类器分类及目标定位,图4图5中所示的骨干网络用于特征提取,通过目标检测器确定物体目标,分类分支/分类器对物体分类,定位分支确定物体位置,分类分支和定位分支的结果叠加,最后输出待测图像中检测的物体及其位置。
本发明提出的面向长尾目标检测的分类对数归一化方法,无需训练或调节,同目标检测模型和训练数据分布无关,即插即用,仅需要在测试阶段使用。更重要的是,它同时在长尾目标检测和长尾分类任务上展现了有效性和通用性。本发明方法能够同时应用于目标检测和一般分类任务中,下面分别说明目标检测任务设计、分类任务设计,以及在目标检测任务和分类任务上的执行阶段设计。
1)目标检测任务设计:长尾目标检测任务的流程如图4所示,在构建目标检测网络并训练后的测试过程中,或实际检测中,对于输出的每批(C+1)维分类对数向量每个向量都包含C个前景类和一个背景类的分类对数,N表示批大小,执行如下形式的归一化:
其中x∈RC表示输出分类对数向量的前景子向量;μ(x),σ(x)∈RC表示在训练样本的前景子向量上计算得到的均值和标准差,在实践中首先遍历所有训练样本,并和批归一化类似,使用指数滑动平均来逐步聚合在已有目标检测器在每个批训练样本上预测分类对数上计算的统计量,从而以鲁棒高效的方式获得长尾检测器在每个类别上的预测偏见的近似;ε为稳定参数,用于维护标准差的数值稳定性;β∈R是考虑到前景背景样本的悬殊比例因而为前景向量设置的背景校准标量,在实践中被设置为前景向量的最小值。在输出分类对数向量的前景子向量x被归一化为后,网络应用一个arg max函数来获得相应标签的近似值,以作为分类分支的预测结果输出。
2)分类任务设计:分类任务的网络流程如图5所示,在构建分类网络并训练后的测试过程中,或实际检测中,对于分类器输出的每批C维分类对数向量x∈RC,执行如下的归一化:
归一化后,应用一个arg max函数来获得相应标签的近似值,以作为分类网络的预测结果输出。由于一般分类任务仅预测前景类别,因此不再执行背景校准,并且归一化和arg max过程在均全部分类对数向量上顺序执行。
3)执行阶段设计:如图1所示,本发明方法首先遍历训练数据,使用指数滑动平均(EMA)的方法,来逐步聚合目标检测器在每个批样本上预测的分类对数向量上计算的统计量,最终得到每个类别包含的所有样本预测结果的统计量,即均值、方差,作为现有长尾目标检测器在每个类别上的预测偏见的近似;在获得全局的训练样本的前景类别的分类对数统计量后,首先将均值向量中每个元素均减去全局最小值,以实现自适应的背景校准;最后在预测过程中,遍历测试数据,对于每个批次的预测样本,目标检测器的分类分支首先给出预测分类对数输出,而后执行1)中的中提出的归一化操作,并将归一化后的分类对数向量提交用于预测。对于分类任务的执行,除了不再执行背景校准,其他与目标检测任务相同。
所使用的测试指标在不同任务的数据集上不同:在长尾目标检测任务上,AP(Average Precision)被作为评估指标,其定义为预测正确的样本数占所有预测为真值的样本数的比例。特别是,所有的类别根据它们在训练集中出现的图像数量分为三组:罕见(1-10张)、常见(11-100张)和频繁(>100张)。因此,为了评估算法在每个组的效果,除了常用的指标APb(目标检测平均精准率)和AP(实例分割平均精准率)之外,还报告了细粒度的指标,包括APr(稀有类别目标检测平均精准率)、APc(常见类别目标检测平均精准率)和APf(频繁类别目标检测平均精准率)。在长尾图像分类任务上,准确率被作为评估指标。
如图2所示,本发明可以适用于各种目标检测器,在LVIS 1.0数据集上,当使用Cascade Mask R-CNN R101作为目标检测器并使用RFS均衡采样时,本发明方法的平均准确率有33.8%,比最优方法高1.0%。当Mask R-CNN R101作为目标检测器并使用RFS均衡采样时,本发明方法的平均准确率有29.8%,比最优方法高0.8%。当使用Cascade Mask R-CNNR101作为目标检测器并使用随机采样时,本发明方法的平均准确率有33.5%,比最优方法高0.8%。当Mask R-CNN R101作为目标检测器并使用随机采样时,本发明方法的平均准确率有28.4%,比最优方法高0.5%。
为了显示本发明方法的通用性,本发明也验证了在长尾分类上的结果,使用ImageNet-LT数据集进行试验。如图3所示,在该数据集上,本发明方法有51.6%的总体准确率,比基线模型高7.2%。
Claims (4)
1.一种面向长尾目标检测的分类对数归一化方法,其特征是目标检测中,对分类器的预测分布使用归一化的方式执行矫正,具体为利用分类器已有的分类输出的分类对数计算统计量,来归一化分类网络最终激活值,自我纠正有偏差的预测结果。
2.根据权利要求1所述的一种面向长尾目标检测的分类对数归一化方法,其特征是检测目标长尾分布。
3.根据权利要求1或2所述的一种面向长尾目标检测的分类对数归一化方法,其特征是检测任务为对检测目标的分类任务,在构建分类网络并训练后,在测试阶段,测试集数据长尾分布,对于分类器输出的每批C维分类对数向量x∈RC,执行如下的归一化:
其中μ(x),σ(x)∈RC表示在训练样本的向量上计算得到的均值和标准差,ε为稳定参数,用于维护标准差的数值稳定性;
4.根据权利要求1或2所述的一种面向长尾目标检测的分类对数归一化方法,其特征是检测任务为对检测目标的分类和定位任务,目标检测网络对应具有分类分支和定位分支,在构建目标检测网络并训练后的测试过程中,测试集数据长尾分布,对于分类分支输出的每批(C+1)维分类对数向量每个向量都包含C个前景类和一个背景类的分类对数,执行如下形式的归一化:
其中x∈RC表示分类对数向量的前景子向量;μ(x),σ(x)∈RC表示在训练样本的前景子向量上计算得到的均值和标准差,ε为稳定参数,用于维护标准差的数值稳定性,β∈R是考虑到前景背景样本的悬殊比例,而为前景向量设置的背景校准标量,设置为前景向量的最小值;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319585.8A CN114863088A (zh) | 2022-03-29 | 2022-03-29 | 一种面向长尾目标检测的分类对数归一化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319585.8A CN114863088A (zh) | 2022-03-29 | 2022-03-29 | 一种面向长尾目标检测的分类对数归一化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114863088A true CN114863088A (zh) | 2022-08-05 |
Family
ID=82630021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210319585.8A Pending CN114863088A (zh) | 2022-03-29 | 2022-03-29 | 一种面向长尾目标检测的分类对数归一化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863088A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115527070A (zh) * | 2022-11-01 | 2022-12-27 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于交通场景的目标检测方法、装置、设备及存储介质 |
CN116168255A (zh) * | 2023-04-10 | 2023-05-26 | 武汉大学人民医院(湖北省人民医院) | 一种长尾分布鲁棒的视网膜oct图像分类方法 |
-
2022
- 2022-03-29 CN CN202210319585.8A patent/CN114863088A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115527070A (zh) * | 2022-11-01 | 2022-12-27 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于交通场景的目标检测方法、装置、设备及存储介质 |
CN115527070B (zh) * | 2022-11-01 | 2023-05-19 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于交通场景的目标检测方法、装置、设备及存储介质 |
CN116168255A (zh) * | 2023-04-10 | 2023-05-26 | 武汉大学人民医院(湖北省人民医院) | 一种长尾分布鲁棒的视网膜oct图像分类方法 |
CN116168255B (zh) * | 2023-04-10 | 2023-12-08 | 武汉大学人民医院(湖北省人民医院) | 一种长尾分布鲁棒的视网膜oct图像分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197286B (zh) | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 | |
CN108664971B (zh) | 基于2d卷积神经网络的肺结节检测方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
US8315954B2 (en) | Device, method, and program for high level feature extraction | |
CN114863088A (zh) | 一种面向长尾目标检测的分类对数归一化方法 | |
US7899625B2 (en) | Method and system for robust classification strategy for cancer detection from mass spectrometry data | |
CN110197205B (zh) | 一种多特征来源残差网络的图像识别方法 | |
CN108694346B (zh) | 一种基于两级cnn的船舶辐射噪声信号识别方法 | |
CN110322445B (zh) | 基于最大化预测和标签间相关性损失函数的语义分割方法 | |
CN115063409A (zh) | 一种机械刀具表面材质检测方法及系统 | |
CN110874604A (zh) | 模型训练方法及终端设备 | |
CN112561080A (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN108109612A (zh) | 一种基于自适应降维的语音识别分类方法 | |
CN110956613A (zh) | 基于图像质量的目标检测算法性能归一化评价方法及系统 | |
CN111414910A (zh) | 基于双重卷积神经网络的小目标增强检测方法和装置 | |
CN110163206B (zh) | 车牌识别方法、系统、存储介质和装置 | |
CN115600194A (zh) | 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备 | |
Sahlol et al. | Elephant herd optimization with neural networks: a case study on acute lymphoblastic leukemia diagnosis | |
CN110751660B (zh) | 一种彩色图像分割方法 | |
Kosarevych et al. | Detection of pixels corrupted by impulse noise using random point patterns | |
CN116821905A (zh) | 一种基于知识搜索的恶意软件检测方法及系统 | |
CN116468102A (zh) | 刀具图像分类模型剪枝方法、装置、计算机设备 | |
CN115392344A (zh) | 一种具有难样本感知的强弱双分支网络的长尾识别方法 | |
US20210042550A1 (en) | Information processing device, information processing method, and computer-readable recording medium recording information processing program | |
CN115170838A (zh) | 一种数据筛选方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |