CN116597197A - 一种自适应消除分类负梯度的长尾目标检测方法 - Google Patents

一种自适应消除分类负梯度的长尾目标检测方法 Download PDF

Info

Publication number
CN116597197A
CN116597197A CN202310385754.2A CN202310385754A CN116597197A CN 116597197 A CN116597197 A CN 116597197A CN 202310385754 A CN202310385754 A CN 202310385754A CN 116597197 A CN116597197 A CN 116597197A
Authority
CN
China
Prior art keywords
tail
class
long
classification
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310385754.2A
Other languages
English (en)
Inventor
许玉格
吕传龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310385754.2A priority Critical patent/CN116597197A/zh
Publication of CN116597197A publication Critical patent/CN116597197A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自适应消除分类负梯度的长尾目标检测方法,包括:1)构建长尾目标检测模型,获取长尾数据集,将训练图像输入模型,对预测结果计算分类损失和定位损失,分类损失由自适应消除尾部类负梯度的损失函数计算得到,将分类损失和定位损失加权求和得到长尾学习总损失值;2)利用长尾学习总损失值进行梯度反传和参数更新,完成所有轮次训练后,保存性能最优的模型参数,得到最优的长尾目标检测模型;3)将测试集中的待检测图像输入优先模型,得到待检测图像中物体类别和位置的预测结果。本发明能够根据输出概率自适应地消除对尾部类的负梯度,有助于解决因尾部类学习不足导致的假阳性问题,提高目标检测模型性能。

Description

一种自适应消除分类负梯度的长尾目标检测方法
技术领域
本发明涉及长尾目标检测的技术领域,尤其是指一种自适应消除分类负梯度的长尾目标检测方法。
背景技术
目标检测作为计算机视觉中的一项基本任务,目前已取得十足的发展。现有的目标检测算法在平衡数据集上取得了不错的检测性能。但在现实当中,不同类别的数据往往是不平衡的,少部分的类别占据大部分样本,称为头部类;大部分类别仅具有少量样本,称为尾部类,这样的数据在曲线图中呈现长尾分布。数据分布的极度不平衡使得现有的目标检测模型表现欠佳,往往在样本有限的尾部类上的检测精度很差。
目前针对长尾目标的方法当中,重采样通过对头部类欠采样,对尾部类过采样,使得采样后得到的数据集变得平衡,但对头部类别欠采样会使得模型对头部类的检测性能下降,而对尾部类别欠采样又会使得模型对尾部类过拟合。另外一种常用方法是重加权,在损失函数上给予尾部类更大的权重,这类方法得到的结果往往是次优的。现有技术中许多的方法关注于通过消除对尾部类的负梯度来缓解尾部类受到的极度不平衡的正负梯度,以此提高模型对尾部类的检测性能。然而,盲目地消除所有其它类别对尾部类的负梯度会使得尾部类得不到合理的抑制,导致假阳性问题。
发明内容
本发明的目的在于针对目前主流方法中消除全部负梯度导致的假阳性问题,提出了一种自适应消除分类负梯度的长尾目标检测方法,能够根据输出概率自适应地消除对尾部类的负梯度,有助于解决因尾部类学习不足导致的假阳性问题,提高目标检测模型性能。
为实现上述目的,本发明所提供的技术方案为:一种自适应消除分类负梯度的长尾目标检测方法,包括以下步骤:
1)构建由主干网络、区域生成网络和检测头组成的长尾目标检测模型;获取长尾数据集并分为训练集、验证集和测试集;从训练集中采样训练图像和标签,将图像输入给长尾目标检测模型,由主干网络提取出图像的特征图,并由区域生成网络生成可能含有物体的提议区域,提议区域映射到特征图上后缩放到统一大小,最后检测头预测提议区域的结果;对预测结果计算分类损失和定位损失,其中分类损失由自适应消除尾部类负梯度的损失函数计算得到,将分类损失和定位损失进行加权求和,得到长尾学习总损失值;
2)利用得到的长尾学习总损失值对长尾目标检测模型进行梯度反传和参数更新;每完成一轮完整的训练,利用验证集对模型进行性能评估;完成所有轮次训练后,保存性能最优的模型参数,得到最优的长尾目标检测模型;
3)将测试集中的待检测图像输入训练好的长尾目标检测模型,即可得到待检测图像中物体类别和位置的预测结果。
进一步,在步骤1)中,使用长尾数据集进行训练,检测长尾分布目标。
进一步,在步骤1)中,每一提议区域的分类损失计算为:
wj=1-E(r)Tλ(fj)Tξ(pj)(1-yj)
式中,LAEL代表单个提议区域的分类损失;C代表类别数;r是region的首字母,代表提议区域;pj为第j类的概率值;代表第j类的预测值,当提议区域属于第j类时,则/>等于pj,否则等于1-pj;yj代表提议区域的标签,在提议区域属于第j类时为1,否则为0;wj代表第j类的权重系数;fj为第j类的样本频率,由Nj/N计算得到,其中Nj为第j类的样本数量,N为总样本数量;E(r)、Tλ(fj)和Tξ(pj)分别代表前/背景判别函数、频率判别函数和概率判别函数,其公式表达分别为:
式中,λ代表频率阈值;ξ代表概率阈值,取值都在[0,1]之间;
负梯度消除操作为:在长尾目标检测模型训练时,经过特征提取、区域生成、分类定位之后得到若干提议区域属于每一类的概率值,若同时满足条件:该提议区域为前景,第j类为尾部类即样本频率小于阈值λ,该提议区域不属于第j类,并且其类别输出概率小于阈值ξ,则将第j类项的分类损失值置0,以此消除对第j类的负梯度。
进一步,在步骤1)中,根据输出概率自适应消除尾部类的负梯度,若因尾部类输出概率高造成假阳性,则不消除尾部类负梯度,否则消除。
进一步,在步骤2)中,对模型进行性能评估使用的检测性能指标是AP,AP是平均精度,是一个综合了召回率和查全率的性能指标。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法通过消除其它类对尾部类的部分负梯度,缓解了尾部类受到的极度不平衡的正负梯度。
2、本发明方法使用的输出概率一定程度上体现了模型的学习状态,所以在分类损失函数中引入了输出概率作为判据,能够自适应消除尾部类负梯度,有助于模型得到更好的训练。
3、本发明方法针对非正确尾部类前景的尾部类输出概率太大的情况,保留对尾部类的负梯度,能够有效解决由尾部类学习不足引起的假阳性问题,提高目标检测模型性能。
4、本发明方法具有模块化、通用化的特点,即插即用,可推广到具有长尾数据特点的应用领域,如野生动物识别,交通状况识别。
附图说明
图1为运用了本发明方法的Faster RCNN目标检测模型结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明提出了一种自适应消除分类负梯度的长尾目标检测方法,用于检测长尾分布目标,可以通过简单的修改配置而直接应用于各种目标检测模型上。下文以Faster RCNN为例,对本发明方法进行一个详细的说明。
首先,构造如图1所示的Faster RCNN模型作为长尾目标检测模型,包括主干网络ResNet50、区域生成网络RPN以及检测头RCNN以及用于统一提议区域尺度的ROI Align。
以长尾数据集LVIS v1.0为例,LVIS v1.0是典型的长尾数据集,由1203个类别组成,一个类别最多包含2.2k个实例,最少只有1个实例。LVIS v1.0训练集包含约100k张图像,1.3M个实例;验证集包括约20k张图像,245k个实例;测试集包括约20k张图像。
使用LVIS v1.0训练集图像训练Faster RCNN,包括以下流程:
1)输入图像首先由主干网络ResNet50进行特征提取,随着网络的加深,可以得到尺度由大到小的五个特征图;
2)将最后一个特征图输入给区域生成网络RPN,RPN筛选预生成的大量锚框,得到最有可能包括物体的128个锚框,再随机挑选不包含物体的128个背景锚框,得到256个提议区域;
3)提议区域映射到特征图上后,再经过ROI Align缩放到指定大小;
4)最后由检测头预测每个提议区域的类别和位置,具体为经过全连接层后由定位分支确定物体位置,分类分支判断物体类别。
5)对每一提议区域的预测结果分别计算分类损失和分类损失,并加权得到长尾学习总损失值。具体对于每一提议区域的分类结果,其分类损失由自适应消除尾部类负梯度的损失函数计算得到:
wj=1-E(r)Tλ(fj)Tξ(pj)(1-yj)
式中,LAEL代表单个提议区域的分类损失;C代表类别数;r是region的首字母,代表提议区域;pj为第j类的概率值;代表第j类的预测值,当提议区域属于第j类时,则/>等于pj,否则等于1-pj;yj代表提议区域的标签,在提议区域属于第j类时为1,否则为0;wj代表第j类的权重系数;fj为第j类的样本频率,由Nj/N计算得到,其中Nj为第j类的样本数量,N为总样本数量。E(r),Tλ(fj)和Tξ(pj)分别代表前/背景判别函数,频率判别函数和概率判别函数,其公式表达分别为:
式中,λ代表频率阈值;ξ代表概率阈值,取值都为[0,1]之间。
负梯度消除操作为:在长尾目标检测模型训练时,经过特征提取、区域生成、分类定位之后得到若干提议区域属于每一类的概率值,若同时满足条件:该提议区域为前景,第j类为尾部类即样本频率小于阈值λ,该提议区域不属于第j类,并且其类别输出概率小于阈值ξ,则将第j类项的分类损失值置0,以此消除对第j类的负梯度。
6)利用步骤5)计算得到的长尾学习总损失值进行梯度反传和参数更新;
7)每完成一轮完整的训练,计算模型在验证集上的AP值;
8)完成所有轮次训练后,保存性能最优的模型参数,得到最优的长尾目标检测模型。
将测试集中的待检测图像输入给上述训练好的长尾目标检测模型,即可得到待检测图像中物体类别和位置的预测结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种自适应消除分类负梯度的长尾目标检测方法,其特征在于,包括以下步骤:
1)构建由主干网络、区域生成网络和检测头组成的长尾目标检测模型;获取长尾数据集并分为训练集、验证集和测试集;从训练集中采样训练图像和标签,将图像输入给长尾目标检测模型,由主干网络提取出图像的特征图,并由区域生成网络生成可能含有物体的提议区域,提议区域映射到特征图上后缩放到统一大小,最后检测头预测提议区域的结果;对预测结果计算分类损失和定位损失,其中分类损失由自适应消除尾部类负梯度的损失函数计算得到,将分类损失和定位损失进行加权求和,得到长尾学习总损失值;
2)利用得到的长尾学习总损失值对长尾目标检测模型进行梯度反传和参数更新;每完成一轮完整的训练,利用验证集对模型进行性能评估;完成所有轮次训练后,保存性能最优的模型参数,得到最优的长尾目标检测模型;
3)将测试集中的待检测图像输入训练好的长尾目标检测模型,即可得到待检测图像中物体类别和位置的预测结果。
2.根据权利要求1所述的一种自适应消除分类负梯度的长尾目标检测方法,其特征在于,在步骤1)中,使用长尾数据集进行训练,检测长尾分布目标。
3.根据权利要求2所述的一种自适应消除分类负梯度的长尾目标检测方法,其特征在于,在步骤1)中,每一提议区域的分类损失计算为:
wj=1-E(r)Tλ(fj)Tξ(pj)(1-yj)
式中,LAEL代表单个提议区域的分类损失;C代表类别数;r是region的首字母,代表提议区域;pj为第j类的概率值;代表第j类的预测值,当提议区域属于第j类时,则/>等于pj,否则等于1-pj;yj代表提议区域的标签,在提议区域属于第j类时为1,否则为0;wj代表第j类的权重系数;fj为第j类的样本频率,由Nj/N计算得到,其中Nj为第j类的样本数量,N为总样本数量;E(r)、Tλ(fj)和Tξ(pj)分别代表前/背景判别函数、频率判别函数和概率判别函数,其公式表达分别为:
式中,λ代表频率阈值;ξ代表概率阈值,取值都在[0,1]之间;
负梯度消除操作为:在长尾目标检测模型训练时,经过特征提取、区域生成、分类定位之后得到若干提议区域属于每一类的概率值,若同时满足条件:该提议区域为前景,第j类为尾部类即样本频率小于阈值λ,该提议区域不属于第j类,并且其类别输出概率小于阈值ξ,则将第j类项的分类损失值置0,以此消除对第j类的负梯度。
4.根据权利要求3所述的一种自适应消除分类负梯度的长尾目标检测方法,其特征在于,在步骤1)中,根据输出概率自适应消除尾部类的负梯度,若因尾部类输出概率高造成假阳性,则不消除尾部类负梯度,否则消除。
5.根据权利要求1所述的一种自适应消除分类负梯度的长尾目标检测方法,其特征在于,在步骤2)中,对模型进行性能评估使用的检测性能指标是AP,AP是平均精度,是一个综合了召回率和查全率的性能指标。
CN202310385754.2A 2023-04-11 2023-04-11 一种自适应消除分类负梯度的长尾目标检测方法 Pending CN116597197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310385754.2A CN116597197A (zh) 2023-04-11 2023-04-11 一种自适应消除分类负梯度的长尾目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310385754.2A CN116597197A (zh) 2023-04-11 2023-04-11 一种自适应消除分类负梯度的长尾目标检测方法

Publications (1)

Publication Number Publication Date
CN116597197A true CN116597197A (zh) 2023-08-15

Family

ID=87598041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310385754.2A Pending CN116597197A (zh) 2023-04-11 2023-04-11 一种自适应消除分类负梯度的长尾目标检测方法

Country Status (1)

Country Link
CN (1) CN116597197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636002A (zh) * 2023-10-23 2024-03-01 长讯通信服务有限公司 一种基于长尾数据的自适应阈值nms多目标检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636002A (zh) * 2023-10-23 2024-03-01 长讯通信服务有限公司 一种基于长尾数据的自适应阈值nms多目标检测方法

Similar Documents

Publication Publication Date Title
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN110119753B (zh) 一种重构纹理识别岩性的方法
Liu et al. Remote sensing image change detection based on information transmission and attention mechanism
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN113111979B (zh) 模型训练方法、图像检测方法及检测装置
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN112819063B (zh) 一种基于改进的Focal损失函数的图像识别方法
CN114241340A (zh) 一种基于双路深度残差网络的图像目标检测方法及系统
CN116597197A (zh) 一种自适应消除分类负梯度的长尾目标检测方法
CN112819821A (zh) 一种细胞核图像检测方法
CN112417981A (zh) 基于改进FasterR-CNN的复杂战场环境目标高效识别方法
CN114092793A (zh) 适用于复杂水下环境的端到端生物目标检测方法
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
CN114332075A (zh) 基于轻量化深度学习模型的结构缺陷快速识别与分类方法
CN110837818A (zh) 一种基于卷积神经网路的中华白海豚背鳍识别方法
CN111860601A (zh) 预测大型真菌种类的方法及装置
CN114494999B (zh) 一种双分支联合型目标密集预测方法及系统
CN113569957A (zh) 一种业务对象的对象类型识别方法、装置及存储介质
CN113222843A (zh) 一种图像修复方法及其相关设备
CN111274894A (zh) 一种基于改进YOLOv3的人员在岗状态检测方法
CN117809169B (zh) 一种小样本水下声呐图像分类方法及其模型搭建方法
CN114627289B (zh) 基于投票机制的工业零件实例分割方法
CN114239743B (zh) 一种基于稀疏时间序列数据的天气事件发生时间预测方法
CN113076438B (zh) 一种不平衡数据集下基于多数类转化为少数类的分类方法
Mo et al. Research on the detection algorithm of dorsal fin of Chinese White Dolphin based on YOLOv4

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination