CN109977797A - 基于排序损失函数的一阶目标检测器的优化方法 - Google Patents

基于排序损失函数的一阶目标检测器的优化方法 Download PDF

Info

Publication number
CN109977797A
CN109977797A CN201910167340.6A CN201910167340A CN109977797A CN 109977797 A CN109977797 A CN 109977797A CN 201910167340 A CN201910167340 A CN 201910167340A CN 109977797 A CN109977797 A CN 109977797A
Authority
CN
China
Prior art keywords
detection block
detection
single order
object detector
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910167340.6A
Other languages
English (en)
Other versions
CN109977797B (zh
Inventor
林巍峣
陈柯安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910167340.6A priority Critical patent/CN109977797B/zh
Publication of CN109977797A publication Critical patent/CN109977797A/zh
Application granted granted Critical
Publication of CN109977797B publication Critical patent/CN109977797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于排序损失函数的一阶目标检测器的优化方法,首先在二维图像上预定义密集的检测框,根据检测框与目标框的交并比为每个检测框分配标签,并将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数和精确框的预测,通过基于误差驱动的更新方法对一阶目标检测器进行训练,从而实现检测器的优化检测。本发明解决了检测器训练中正负样本不均衡的问题,且具有出色的泛化性能,所采用的更新算法能够应对目标函数不连续的特性,且在非凸条件下也有出色的优化效果。优化后的目标检测器能够不依赖于特定参数的选取,在COCO目标检测数据集上达到42.1mAP的检测效果。

Description

基于排序损失函数的一阶目标检测器的优化方法
技术领域
本发明涉及的是一种人工智能领域的技术,具体是一种基于排序损失函数的一阶目标检测器的优化方法。
背景技术
图像中的目标检测算法需要对图像中某些特定类别的目标进行识别并且精准定位。目前基于深度学习分为两类,一类是一阶目标检测器,另一类是多阶目标检测器。其中,一阶目标检测器直接从预定义的检测框中通过分类和回归来检测目标,而多阶的目标检测器可以看做是在一阶的目标检测器的检测结果上再进行一次更精确的提炼。通常多阶目标检测器相比于一阶目标检测器有着更好的检测效果,但速度更慢。
在一阶目标检测器的训练中,由于存在大量的预定义检测框,且只有其中一小部分能匹配到待测目标,所以使得正负样本比率极度不均衡。在这种情况下,如果使用常规分类任务的损失函数训练,则会使模型难以收敛到有效解。所以一阶目标检测器通常会使用针对这种正负样本不均衡情况改进后的分类损失函数来进行训练,但现有检测器采用的目标函数不够理想,容易陷入局部最优解,使得检测效果受到影响。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于排序损失函数的一阶目标检测器的优化方法,用AP损失函数代替传统的交叉熵损失函数,能够解决一阶目标检测器训练中正负样本不均衡的问题,且具有出色的泛化性能。同时通过基于误差驱动的更新算法,能够应对目标函数不连续的特性,且在非凸条件下也有出色的优化效果。通过本方法训练出的目标检测器能够不依赖于特定参数的选取,在COCO目标检测数据集上达到42.1mAP的检测效果。
本发明是通过以下技术方案实现的:
本发明涉及一种基于排序损失函数的一阶目标检测器的优化方法,首先在二维图像上预定义密集的检测框,根据检测框与目标框的交并比(Intersection-over-Union,IoU)为每个检测框分配标签,并将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数和精确框的预测,通过基于误差驱动的更新方法对一阶目标检测器进行训练,从而实现检测器的优化检测。
所述的一阶目标检测器采用但不限于:检测器为每个检测框i输出一个目标的置信度分数si和精确框的预测(wi,hi,ai,bi),再经过极大值抑制处理输出最终检测结果,其中:wi代表检测框宽度相对第i个检测框的宽度的偏移,hi代表高度,ai代表横坐标偏移,bi代表纵坐标偏移。
所述的检测框,在同一个位置会存在K个大小形状完全相同的检测框,其中K为目标类别的个数,每个检测框对应响应一个类别。
所述的标签ti={0,1},其中0代表负样本,1代表正样本,从而将多类别的目标检测转化成单类别的前景检测,适合于构造一个二值排序任务。
本发明采用平均精度(Average precision,AP)作为二值排序任务的度量标准,即以1-AP 作为损失函数用于优化一阶目标检测器。
所述的优化检测是指采用训练后的一阶目标检测器分析输入图片并输出每个检测框的分数和精确框的预测,再经过非极大值抑制处理后得到最终结果。
技术效果
与现有技术相比,本发明使用的排序损失函数不受正负样本比例不均衡的影响,能够反映真实的检测器性能且不依赖于超参数的具体选择,因此有更强的泛化与检测性能。本发明提出的优化算法能够应对排序损失函数不连续的问题,且在非凸条件下也有很好的优化效果。
附图说明
图1是本发明流程示意图;
图2是实施例AP损失函数的优化示意图。
具体实施方式
如图1所示,为本实施例涉及的一种基于排序损失函数的一阶目标检测器训练方法,包括以下步骤:
A:首先在二维图像上预定义密集的检测框,本实施例中设定在同一个位置会存在K个大小形状完全相同的检测框(其中K为目标类别的个数),每一个检测框负责响应某一个类别;然后根据检测框与目标框的IoU为每个检测框分配标签ti={0,1},其中0代表负样本,1代表正样本,从而将多类别的目标检测转化成单类别的前景检测,适合于构造一个二值排序任务。
B:将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数si和精确框的预测。
所述的目标置信度分数si的范围是整个实数域,该目标置信度分数为一阶目标检测器分类分支最后一层的输出,具体来说是神经网络分类分支最后一层卷积层的输出,是一个向量, si代表第i个检测框的分数;一般来说是检测器的分类分支的最后一层卷积层的输出,而不经过softmax、sigmoid或ReLU等激活层。
所述的精确框的预测为(wi,hi,ai,bi),其中:wi代表检测框宽度相对第i个检测框的宽度的偏移,hi代表高度,ai代表横坐标偏移,bi代表纵坐标偏移,本发明用平滑L1损失函数进行精确框的预测的训练。
所述的平滑L1损失函数
C:计算目标置信度分数的两两之差,得到差值矩阵{xij},将差值矩阵中的元素输入激活函数:其中:xij代表差值矩阵的第i行j列的元素且xij=sj-si,Lij代表此激活函数的输出矩阵的第i行第j列的元素,H(x)代表阶跃函数。
对应目标置信度分数的两两之差,定义两两成对的标签即当下标满足ti=1,tj=0时指示函数取1,否则取0;相应得到平均精度其中:|P|代表正样本的个数。
D:以1-AP作为损失函数,通过基于误差驱动的更新算法得到针对输入的差值矩阵{xij} 变量x的期望的更新方向以克服目标函数不连续的问题,该损失函数的更新为:Δxij=-yij·Lij
E:计算针对模型参数θ的更新方向Δθ,使得θ的变化造成的x的变化能够与Δx尽可能相似,并且θ的变化要尽可能小,相当于优化问题:
其中:θ(n)代表在训练过程中第n步时的模型参数。对x(θ)在θ(n)处使用一阶泰勒展开并忽略高阶项,则优化问题转化为:
其中:即将xij的梯度设为 -Δxij,然后使用反向传播算法更新模型参数θ,<>表示矩阵的内积,即两个矩阵相应位置的元素相乘再全部求和。
F:经过步骤E优化后的一阶目标检测器对输入图像进行检测,为每个检测框i预测一个置信度分数si和精确框定位,再通过非极大值抑制处理后输出结果。
如下表所示,本发明所采用的的AP损失函数对比现有的用在一阶目标检测器上的损失函数的优越性,mAP,AP50,AP75分别是不同的评价指标。
如下表所示,经本发明方法训练后的一阶目标检测器RetinaNet相比其他一阶目 标检测器的优越性,评价指标在PascalVOC上为AP50,在COCO上为mAP。
检测器 PascalVOC07 PascalVOC12 COCO
PFPNet512 84.1 83.7 39.4
RefineDet512 83.8 83.5 37.6
RetinaNet500+AP-loss 84.9 84.5 42.1
如图2所示,本发明对AP损失函数的优化方法对比现有的优化方法的优越性。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (7)

1.一种基于排序损失函数的一阶目标检测器的优化方法,其特征在于,首先在二维图像上预定义密集的检测框,根据检测框与目标框的交并比为每个检测框分配标签,并将待检测图片输入一阶目标检测器,得到每个检测框中的目标置信度分数和精确框的预测,通过基于误差驱动的更新方法对一阶目标检测器进行训练,从而实现检测器的优化检测。
2.根据权利要求1所述的方法,其特征是,所述的一阶目标检测器为每个检测框i输出一个目标的置信度分数si和精确框的预测(wi,hi,ai,bi),再经过非极大值抑制处理输出最终检测结果,其中:wi代表检测框宽度相对第i个检测框的宽度的偏移,hi代表高度,ai代表横坐标偏移,bi代表纵坐标偏移。
3.根据权利要求1或2所述的方法,其特征是,所述的检测框,在同一个位置会存在K个大小形状完全相同的检测框,其中K为目标类别的个数,每个检测框对应响应一个类别。
4.根据权利要求1所述的方法,其特征是,所述的分配标签是指:ti={0,1},其中0代表负样本,1代表正样本,从而将多类别的目标检测转化成单类别的前景检测,适合于构造一个二值排序任务。
5.根据权利要求1所述的方法,其特征是,所述的基于误差驱动的更新方法,根据平均精度作为损失函数,即1-AP,其中平均精度其中:|P|代表正样本的个数,两两成对的标签即当下标满足ti=1,tj=0时指示函数取1,否则取0。
6.根据权利要求1或5所述的方法,其特征是,所述的基于误差驱动的更新方法,具体为:计算目标置信度分数的两两之差,得到差值矩阵{xij},将差值矩阵中的元素输入激活函数:其中:xij代表差值矩阵的第i行j列的元素且xij=sj-si,Lij代表此激活函数的输出矩阵的第i行第j列的元素,H(x)代表阶跃函数;
得到针对输入的差值矩阵{xij}变量x的期望的更新方向以克服目标函数不连续的问题,该损失函数的更新为:Δxij=-yij·Lij
计算针对模型参数θ的更新方向Δθ,使得θ的变化造成的x的变化能够与Δx尽可能相似,并且θ的变化要尽可能小,相当于优化问题:其中:θ(n)代表在训练过程中第n步时的模型参数,对x(θ)在θ(n)处使用一阶泰勒展开并忽略高阶项,则优化问题转化为:其中:
即将xij的梯度设为-Δxij,然后使用反向传播算法更新模型参数θ,<>表示矩阵的内积,即两个矩阵相应位置的元素相乘再全部求和。
7.根据权利要求1所述的方法,其特征是,所述的优化检测是指采用训练后的一阶目标检测器分析输入图片并输出每个检测框的分数和精确框的预测,再经过非极大值抑制处理后得到最终结果。
CN201910167340.6A 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法 Active CN109977797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910167340.6A CN109977797B (zh) 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910167340.6A CN109977797B (zh) 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法

Publications (2)

Publication Number Publication Date
CN109977797A true CN109977797A (zh) 2019-07-05
CN109977797B CN109977797B (zh) 2023-06-20

Family

ID=67078081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910167340.6A Active CN109977797B (zh) 2019-03-06 2019-03-06 基于排序损失函数的一阶目标检测器的优化方法

Country Status (1)

Country Link
CN (1) CN109977797B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428007A (zh) * 2019-08-01 2019-11-08 科大讯飞(苏州)科技有限公司 X光图像目标检测方法、装置及设备
CN112507996A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150248586A1 (en) * 2014-03-03 2015-09-03 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN109271984A (zh) * 2018-07-24 2019-01-25 广东工业大学 一种基于深度学习的多方位车牌定位方法
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109416728A (zh) * 2016-09-30 2019-03-01 富士通株式会社 目标检测方法、装置以及计算机系统
CN109409252A (zh) * 2018-10-09 2019-03-01 杭州电子科技大学 一种基于改进型ssd网络的车辆行人多目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150248586A1 (en) * 2014-03-03 2015-09-03 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
CN109416728A (zh) * 2016-09-30 2019-03-01 富士通株式会社 目标检测方法、装置以及计算机系统
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN109271984A (zh) * 2018-07-24 2019-01-25 广东工业大学 一种基于深度学习的多方位车牌定位方法
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109409252A (zh) * 2018-10-09 2019-03-01 杭州电子科技大学 一种基于改进型ssd网络的车辆行人多目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
PAUL HENDERSON等: "End-to-end training of object class detectors for mean average precision", 《CVPR》 *
余春艳等: "面向显著性目标检测的SSD改进模型", 《电子与信息学报》 *
张烨等: "基于难分样本挖掘的快速区域卷积神经网络目标检测研究", 《电子与信息学报》 *
张超等: "残差网络下基于困难样本挖掘的目标检测", 《激光与光电子学进展》 *
施泽浩等: "基于全卷积网络的目标检测算法", 《计算机技术与发展》 *
艾拓等: "基于难负样本挖掘的改进Faster RCNN训练方法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428007A (zh) * 2019-08-01 2019-11-08 科大讯飞(苏州)科技有限公司 X光图像目标检测方法、装置及设备
CN112507996A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法

Also Published As

Publication number Publication date
CN109977797B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN108416394B (zh) 基于卷积神经网络的多目标检测模型构建方法
CN107909082B (zh) 基于深度学习技术的声呐图像目标识别方法
US20230169623A1 (en) Synthetic aperture radar (sar) image target detection method
CN105825511B (zh) 一种基于深度学习的图片背景清晰度检测方法
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN109961089A (zh) 基于度量学习和元学习的小样本和零样本图像分类方法
CN111079602A (zh) 基于多尺度区域特征约束的车辆细粒度识别方法及装置
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
CN108805070A (zh) 一种基于嵌入式终端的深度学习行人检测方法
CN104657717B (zh) 一种基于分层核稀疏表示的行人检测方法
CN110222769A (zh) 一种基于YOLOV3-tiny的改进目标检测方法
CN109214308A (zh) 一种基于焦点损失函数的交通异常图片识别方法
CN104217438A (zh) 基于半监督的图像显著性检测方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
Golovko et al. Development of solar panels detector
CN108960421A (zh) 改进基于bp神经网络的水面无人艇航速在线预报方法
CN108288269A (zh) 基于无人机与卷积神经网络的桥梁支座病害自动识别方法
CN110059765B (zh) 一种矿物智能识别分类系统与方法
CN110245754A (zh) 一种基于位置敏感图的知识蒸馏方法
CN104679860A (zh) 一种不平衡数据的分类方法
CN106228197A (zh) 一种基于自适应极限学习机的卫星图像云量识别方法
CN108664986A (zh) 基于lp范数正则化的多任务学习图像分类方法及系统
CN109977797A (zh) 基于排序损失函数的一阶目标检测器的优化方法
CN110334584B (zh) 一种基于区域全卷积网络的手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant