CN109977797B - 基于排序损失函数的一阶目标检测器的优化方法 - Google Patents

基于排序损失函数的一阶目标检测器的优化方法 Download PDF

Info

Publication number
CN109977797B
CN109977797B CN201910167340.6A CN201910167340A CN109977797B CN 109977797 B CN109977797 B CN 109977797B CN 201910167340 A CN201910167340 A CN 201910167340A CN 109977797 B CN109977797 B CN 109977797B
Authority
CN
China
Prior art keywords
detection
detector
frames
target
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910167340.6A
Other languages
English (en)
Other versions
CN109977797A (zh
Inventor
林巍峣
陈柯安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910167340.6A priority Critical patent/CN109977797B/zh
Publication of CN109977797A publication Critical patent/CN109977797A/zh
Application granted granted Critical
Publication of CN109977797B publication Critical patent/CN109977797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于排序损失函数的一阶目标检测器的优化方法,首先在二维图像上预定义密集的检测框,根据检测框与目标框的交并比为每个检测框分配标签,并将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数和精确框的预测,通过基于误差驱动的更新方法对一阶目标检测器进行训练,从而实现检测器的优化检测。本发明解决了检测器训练中正负样本不均衡的问题,且具有出色的泛化性能,所采用的更新算法能够应对目标函数不连续的特性,且在非凸条件下也有出色的优化效果。优化后的目标检测器能够不依赖于特定参数的选取,在COCO目标检测数据集上达到42.1mAP的检测效果。

Description

基于排序损失函数的一阶目标检测器的优化方法
技术领域
本发明涉及的是一种人工智能领域的技术,具体是一种基于排序损失函数的一阶目标检测器的优化方法。
背景技术
图像中的目标检测算法需要对图像中某些特定类别的目标进行识别并且精准定位。目前基于深度学习分为两类,一类是一阶目标检测器,另一类是多阶目标检测器。其中,一阶目标检测器直接从预定义的检测框中通过分类和回归来检测目标,而多阶的目标检测器可以看做是在一阶的目标检测器的检测结果上再进行一次更精确的提炼。通常多阶目标检测器相比于一阶目标检测器有着更好的检测效果,但速度更慢。
在一阶目标检测器的训练中,由于存在大量的预定义检测框,且只有其中一小部分能匹配到待测目标,所以使得正负样本比率极度不均衡。在这种情况下,如果使用常规分类任务的损失函数训练,则会使模型难以收敛到有效解。所以一阶目标检测器通常会使用针对这种正负样本不均衡情况改进后的分类损失函数来进行训练,但现有检测器采用的目标函数不够理想,容易陷入局部最优解,使得检测效果受到影响。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于排序损失函数的一阶目标检测器的优化方法,用AP损失函数代替传统的交叉熵损失函数,能够解决一阶目标检测器训练中正负样本不均衡的问题,且具有出色的泛化性能。同时通过基于误差驱动的更新算法,能够应对目标函数不连续的特性,且在非凸条件下也有出色的优化效果。通过本方法训练出的目标检测器能够不依赖于特定参数的选取,在COCO目标检测数据集上达到42.1mAP的检测效果。
本发明是通过以下技术方案实现的:
本发明涉及一种基于排序损失函数的一阶目标检测器的优化方法,首先在二维图像上预定义密集的检测框,根据检测框与目标框的交并比(Intersection-over-Union,IoU)为每个检测框分配标签,并将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数和精确框的预测,通过基于误差驱动的更新方法对一阶目标检测器进行训练,从而实现检测器的优化检测。
所述的一阶目标检测器采用但不限于:检测器为每个检测框i输出一个目标的置信度分数si和精确框的预测(wi,hi,ai,bi),再经过极大值抑制处理输出最终检测结果,其中:wi代表检测框宽度相对第i个检测框的宽度的偏移,hi代表高度,ai代表横坐标偏移,bi代表纵坐标偏移。
所述的检测框,在同一个位置会存在K个大小形状完全相同的检测框,其中K为目标类别的个数,每个检测框对应响应一个类别。
所述的标签ti={0,1},其中0代表负样本,1代表正样本,从而将多类别的目标检测转化成单类别的前景检测,适合于构造一个二值排序任务。
本发明采用平均精度(Average precision,AP)作为二值排序任务的度量标准,即以1-AP作为损失函数用于优化一阶目标检测器。
所述的优化检测是指采用训练后的一阶目标检测器分析输入图片并输出每个检测框的分数和精确框的预测,再经过非极大值抑制处理后得到最终结果。
技术效果
与现有技术相比,本发明使用的排序损失函数不受正负样本比例不均衡的影响,能够反映真实的检测器性能且不依赖于超参数的具体选择,因此有更强的泛化与检测性能。本发明提出的优化算法能够应对排序损失函数不连续的问题,且在非凸条件下也有很好的优化效果。
附图说明
图1是本发明流程示意图。
具体实施方式
如图1所示,为本实施例涉及的一种基于排序损失函数的一阶目标检测器训练方法,包括以下步骤:
A:首先在二维图像上预定义密集的检测框,本实施例中设定在同一个位置会存在K个大小形状完全相同的检测框(其中K为目标类别的个数),每一个检测框负责响应某一个类别;然后根据检测框与目标框的IoU为每个检测框分配标签ti={0,1},其中0代表负样本,1代表正样本,从而将多类别的目标检测转化成单类别的前景检测,适合于构造一个二值排序任务。
B:将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数si和精确框的预测。
所述的目标置信度分数si的范围是整个实数域,该目标置信度分数为一阶目标检测器分类分支最后一层的输出,具体来说是神经网络分类分支最后一层卷积层的输出,是一个向量,si代表第i个检测框的分数;一般来说是检测器的分类分支的最后一层卷积层的输出,而不经过softmax、sigmoid或ReLU等激活层。
所述的精确框的预测为(wi,hi,ai,bi),其中:wi代表检测框宽度相对第i个检测框的宽度的偏移,hi代表高度,ai代表横坐标偏移,bi代表纵坐标偏移,本发明用平滑L1损失函数进行精确框的预测的训练。
所述的平滑L1损失函数
Figure BDA0001986754510000031
C:计算目标置信度分数的两两之差,得到差值矩阵{xij},将差值矩阵中的元素输入激活函数:
Figure BDA0001986754510000032
其中:xij代表差值矩阵的第i行j列的元素且xij=sj-si,Lij代表此激活函数的输出矩阵的第i行第j列的元素,H(x)代表阶跃函数。
对应目标置信度分数的两两之差,定义两两成对的标签
Figure BDA0001986754510000033
即当下标满足ti=1,tj=0时指示函数取1,否则取0;相应得到平均精度/>
Figure BDA0001986754510000034
其中:|P|代表正样本的个数。
D:以1-AP作为损失函数,通过基于误差驱动的更新算法得到针对输入的差值矩阵{xij}变量x的期望的更新方向以克服目标函数不连续的问题,该损失函数的更新为:Δxij=-yij·Lij
E:计算针对模型参数θ的更新方向Δθ,使得θ的变化造成的x的变化能够与Δx尽可能相似,并且θ的变化要尽可能小,相当于优化问题:
Figure BDA0001986754510000035
其中:θ(n)代表在训练过程中第n步时的模型参数。对x(θ)在θ(n)处使用一阶泰勒展开并忽略高阶项,则优化问题转化为:
Figure BDA0001986754510000036
其中:/>
Figure BDA0001986754510000037
即将xij的梯度设为-Δxij,然后使用反向传播算法更新模型参数θ,<>表示矩阵的内积,即两个矩阵相应位置的元素相乘再全部求和。
F:经过步骤E优化后的一阶目标检测器对输入图像进行检测,为每个检测框i预测一个置信度分数si和精确框定位,再通过非极大值抑制处理后输出结果。
如下表所示,本发明所采用的的AP损失函数对比现有的用在一阶目标检测器上的损失函数的优越性,mAP,AP50,AP75分别是不同的评价指标。
Figure BDA0001986754510000041
如下表所示,经本发明方法训练后的一阶目标检测器RetinaNet相比其他一阶目标检测器的优越性,评价指标在PascalVOC上为AP50,在COCO上为mAP。
检测器 PascalVOC07 PascalVOC12 COCO
PFPNet512 84.1 83.7 39.4
RefineDet512 83.8 83.5 37.6
RetinaNet500+AP-loss 84.9 84.5 42.1
如图2所示,本发明对AP损失函数的优化方法对比现有的优化方法的优越性。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种基于排序损失函数的一阶目标检测器的优化方法,其特征在于,首先在二维图像上预定义密集的检测框,根据检测框与目标框的交并比为每个检测框分配标签,并将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数和精确框的预测,通过基于误差驱动的更新方法对一阶目标检测器进行训练,从而实现检测器的优化检测;
所述的基于误差驱动的更新方法,具体为:计算目标置信度分数的两两之差,得到差值矩阵{xij},将差值矩阵中的元素输入激活函数:
Figure FDA0004218551390000011
其中:xij代表差值矩阵的第i行j列的元素且xij=sj-si,Lij代表此激活函数的输出矩阵的第i行第j列的元素,H(x)代表阶跃函数;
得到针对输入的差值矩阵{xij}变量x的期望的更新方向以克服目标函数不连续的问题,该损失函数的更新为:Δxij=-yij·Lij
计算针对模型参数θ的更新方向Δθ,使得θ的变化造成的x的变化能够与Δx尽可能相似,并且θ的变化要尽可能小,相当于优化问题:
Figure FDA0004218551390000012
其中:θ(n)代表在训练过程中第n步时的模型参数,对x(θ)在θ(n)处使用一阶泰勒展开并忽略高阶项,则优化问题转化为:/>
Figure FDA0004218551390000013
其中:/>
Figure FDA0004218551390000014
即将xij的梯度设为-Δxij,然后使用反向传播算法更新模型参数θ,<>表示矩阵的内积,即两个矩阵相应位置的元素相乘再全部求和;
所述的基于误差驱动的更新方法,根据平均精度构造损失函数,即1-AP,其中平均精度
Figure FDA0004218551390000015
其中:|P|代表正样本的个数,两两成对的标签/>
Figure FDA0004218551390000016
即当下标满足ti=1,tj=0时指示函数取1,否则取0。
2.根据权利要求1所述的方法,其特征是,所述的一阶目标检测器为每个检测框i输出一个目标的置信度分数si和精确框的预测(wi,hi,ai,bi),再经过非极大值抑制处理输出最终检测结果,其中:wi代表检测框宽度相对第i个检测框的宽度的偏移,hi代表高度,ai代表横坐标偏移,bi代表纵坐标偏移。
3.根据权利要求1或2所述的方法,其特征是,所述的检测框,在同一个位置会存在K个大小形状完全相同的检测框,其中K为目标类别的个数,每个检测框对应响应一个类别。
4.根据权利要求1所述的方法,其特征是,所述的分配标签是指:ti={0,1},其中0代表负样本,1代表正样本,从而将多类别的目标检测转化成单类别的前景检测,适合于构造一个二值排序任务。
5.根据权利要求1所述的方法,其特征是,所述的优化检测是指采用训练后的一阶目标检测器分析输入图片并输出每个检测框的分数和精确框的预测,再经过非极大值抑制处理后得到最终结果。
CN201910167340.6A 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法 Active CN109977797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910167340.6A CN109977797B (zh) 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910167340.6A CN109977797B (zh) 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法

Publications (2)

Publication Number Publication Date
CN109977797A CN109977797A (zh) 2019-07-05
CN109977797B true CN109977797B (zh) 2023-06-20

Family

ID=67078081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910167340.6A Active CN109977797B (zh) 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法

Country Status (1)

Country Link
CN (1) CN109977797B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428007B (zh) * 2019-08-01 2020-11-24 科大讯飞(苏州)科技有限公司 X光图像目标检测方法、装置及设备
CN112507996B (zh) * 2021-02-05 2021-04-20 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN109271984A (zh) * 2018-07-24 2019-01-25 广东工业大学 一种基于深度学习的多方位车牌定位方法
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109409252A (zh) * 2018-10-09 2019-03-01 杭州电子科技大学 一种基于改进型ssd网络的车辆行人多目标检测方法
CN109416728A (zh) * 2016-09-30 2019-03-01 富士通株式会社 目标检测方法、装置以及计算机系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416728A (zh) * 2016-09-30 2019-03-01 富士通株式会社 目标检测方法、装置以及计算机系统
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN109271984A (zh) * 2018-07-24 2019-01-25 广东工业大学 一种基于深度学习的多方位车牌定位方法
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109409252A (zh) * 2018-10-09 2019-03-01 杭州电子科技大学 一种基于改进型ssd网络的车辆行人多目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
End-to-end training of object class detectors for mean average precision;Paul Henderson等;《CVPR》;20161231;全文 *
基于全卷积网络的目标检测算法;施泽浩等;《计算机技术与发展》;20171205(第05期);全文 *
基于难分样本挖掘的快速区域卷积神经网络目标检测研究;张烨等;《电子与信息学报》;20190219(第06期);全文 *
基于难负样本挖掘的改进Faster RCNN训练方法;艾拓等;《计算机科学》;20180515(第05期);全文 *
残差网络下基于困难样本挖掘的目标检测;张超等;《激光与光电子学进展》;20180511;全文 *
面向显著性目标检测的SSD改进模型;余春艳等;《电子与信息学报》;20180815(第11期);全文 *

Also Published As

Publication number Publication date
CN109977797A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测系统及方法
Caesar et al. Region-based semantic segmentation with end-to-end training
WO2023138300A1 (zh) 目标检测方法及应用其的移动目标跟踪方法
CN110826379B (zh) 一种基于特征复用与YOLOv3的目标检测方法
CN110766041A (zh) 一种基于深度学习的害虫检测方法
CN109977797B (zh) 基于排序损失函数的一阶目标检测器的优化方法
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN111239137B (zh) 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法
CN111008603A (zh) 面向大尺度遥感图像的多类目标快速检测方法
KR20210127069A (ko) 융합 모델 신경망의 성능 제어 방법
Lichtenstein et al. Deep eikonal solvers
CN111192240B (zh) 一种基于随机接入记忆的遥感图像目标检测方法
Toğaçar et al. Classification of cloud images by using super resolution, semantic segmentation approaches and binary sailfish optimization method with deep learning model
Ubbens et al. Autocount: Unsupervised segmentation and counting of organs in field images
Tuccillo et al. Deep learning for studies of galaxy morphology
Jin et al. Target recognition of industrial robots using machine vision in 5G environment
Ren et al. Research on infrared small target segmentation algorithm based on improved mask R-CNN
CN114612658A (zh) 基于双重类别级对抗网络的图像语义分割方法
CN113902966A (zh) 一种针对电子元器件的无锚框目标检测网络及应用该网络的检测方法
CN111401405A (zh) 一种多神经网络集成的图像分类方法及系统
CN116201316A (zh) 大规格瓷砖的密缝铺贴方法及系统
CN110837787A (zh) 一种三方生成对抗网络的多光谱遥感图像检测方法及系统
Di et al. Context receptive field and adaptive feature fusion for fabric defect detection
CN111627018B (zh) 一种基于双流神经网络模型的钢板表面缺陷分类方法
CN114463355A (zh) 一种融合超像素块和整体嵌套边缘的图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant