CN109977797A

CN109977797A - 基于排序损失函数的一阶目标检测器的优化方法

Info

Publication number: CN109977797A
Application number: CN201910167340.6A
Authority: CN
Inventors: 林巍峣; 陈柯安
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-07-05
Anticipated expiration: 2039-03-06
Also published as: CN109977797B

Abstract

一种基于排序损失函数的一阶目标检测器的优化方法，首先在二维图像上预定义密集的检测框，根据检测框与目标框的交并比为每个检测框分配标签，并将待检测图片输入一阶目标检测器，得到每个检测框中的目标置信度分数和精确框的预测，通过基于误差驱动的更新方法对一阶目标检测器进行训练，从而实现检测器的优化检测。本发明解决了检测器训练中正负样本不均衡的问题，且具有出色的泛化性能，所采用的更新算法能够应对目标函数不连续的特性，且在非凸条件下也有出色的优化效果。优化后的目标检测器能够不依赖于特定参数的选取，在COCO目标检测数据集上达到42.1mAP的检测效果。

Description

基于排序损失函数的一阶目标检测器的优化方法

技术领域

本发明涉及的是一种人工智能领域的技术，具体是一种基于排序损失函数的一阶目标检测器的优化方法。

背景技术

图像中的目标检测算法需要对图像中某些特定类别的目标进行识别并且精准定位。目前基于深度学习分为两类，一类是一阶目标检测器，另一类是多阶目标检测器。其中，一阶目标检测器直接从预定义的检测框中通过分类和回归来检测目标，而多阶的目标检测器可以看做是在一阶的目标检测器的检测结果上再进行一次更精确的提炼。通常多阶目标检测器相比于一阶目标检测器有着更好的检测效果，但速度更慢。

在一阶目标检测器的训练中，由于存在大量的预定义检测框，且只有其中一小部分能匹配到待测目标，所以使得正负样本比率极度不均衡。在这种情况下，如果使用常规分类任务的损失函数训练，则会使模型难以收敛到有效解。所以一阶目标检测器通常会使用针对这种正负样本不均衡情况改进后的分类损失函数来进行训练，但现有检测器采用的目标函数不够理想，容易陷入局部最优解，使得检测效果受到影响。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于排序损失函数的一阶目标检测器的优化方法，用AP损失函数代替传统的交叉熵损失函数，能够解决一阶目标检测器训练中正负样本不均衡的问题，且具有出色的泛化性能。同时通过基于误差驱动的更新算法，能够应对目标函数不连续的特性，且在非凸条件下也有出色的优化效果。通过本方法训练出的目标检测器能够不依赖于特定参数的选取，在COCO目标检测数据集上达到42.1mAP的检测效果。

本发明是通过以下技术方案实现的：

本发明涉及一种基于排序损失函数的一阶目标检测器的优化方法，首先在二维图像上预定义密集的检测框，根据检测框与目标框的交并比(Intersection-over-Union，IoU)为每个检测框分配标签，并将待检测图片输入一阶目标检测器，得到每个检测框中的目标置信度分数和精确框的预测，通过基于误差驱动的更新方法对一阶目标检测器进行训练，从而实现检测器的优化检测。

所述的一阶目标检测器采用但不限于：检测器为每个检测框i输出一个目标的置信度分数s_i和精确框的预测(w_i,h_i,a_i,b_i)，再经过极大值抑制处理输出最终检测结果，其中：w_i代表检测框宽度相对第i个检测框的宽度的偏移，h_i代表高度，a_i代表横坐标偏移，b_i代表纵坐标偏移。

所述的检测框，在同一个位置会存在K个大小形状完全相同的检测框，其中K为目标类别的个数，每个检测框对应响应一个类别。

所述的标签t_i＝{0,1}，其中0代表负样本，1代表正样本，从而将多类别的目标检测转化成单类别的前景检测，适合于构造一个二值排序任务。

本发明采用平均精度(Average precision，AP)作为二值排序任务的度量标准，即以1-AP 作为损失函数用于优化一阶目标检测器。

所述的优化检测是指采用训练后的一阶目标检测器分析输入图片并输出每个检测框的分数和精确框的预测，再经过非极大值抑制处理后得到最终结果。

技术效果

与现有技术相比，本发明使用的排序损失函数不受正负样本比例不均衡的影响，能够反映真实的检测器性能且不依赖于超参数的具体选择，因此有更强的泛化与检测性能。本发明提出的优化算法能够应对排序损失函数不连续的问题，且在非凸条件下也有很好的优化效果。

附图说明

图1是本发明流程示意图；

图2是实施例AP损失函数的优化示意图。

具体实施方式

如图1所示，为本实施例涉及的一种基于排序损失函数的一阶目标检测器训练方法，包括以下步骤：

A：首先在二维图像上预定义密集的检测框，本实施例中设定在同一个位置会存在K个大小形状完全相同的检测框(其中K为目标类别的个数)，每一个检测框负责响应某一个类别；然后根据检测框与目标框的IoU为每个检测框分配标签t_i＝{0,1}，其中0代表负样本，1代表正样本，从而将多类别的目标检测转化成单类别的前景检测，适合于构造一个二值排序任务。

B：将待检测图片输入一阶目标检测器，得到每个检测框中的目标置信度分数s_i和精确框的预测。

所述的目标置信度分数s_i的范围是整个实数域，该目标置信度分数为一阶目标检测器分类分支最后一层的输出，具体来说是神经网络分类分支最后一层卷积层的输出，是一个向量， si代表第i个检测框的分数；一般来说是检测器的分类分支的最后一层卷积层的输出，而不经过softmax、sigmoid或ReLU等激活层。

所述的精确框的预测为(w_i,h_i,a_i,b_i)，其中：w_i代表检测框宽度相对第i个检测框的宽度的偏移，h_i代表高度，a_i代表横坐标偏移，b_i代表纵坐标偏移，本发明用平滑L1损失函数进行精确框的预测的训练。

所述的平滑L1损失函数

C：计算目标置信度分数的两两之差，得到差值矩阵{x_ij}，将差值矩阵中的元素输入激活函数：其中：x_ij代表差值矩阵的第i行j列的元素且x_ij＝s_j-s_i，L_ij代表此激活函数的输出矩阵的第i行第j列的元素，H(x)代表阶跃函数。

对应目标置信度分数的两两之差，定义两两成对的标签即当下标满足t_i＝1,t_j＝0时指示函数取1，否则取0；相应得到平均精度其中：|P|代表正样本的个数。

D：以1-AP作为损失函数，通过基于误差驱动的更新算法得到针对输入的差值矩阵{x_ij} 变量x的期望的更新方向以克服目标函数不连续的问题，该损失函数的更新为：Δx_ij＝-y_ij·L_ij；

E：计算针对模型参数θ的更新方向Δθ，使得θ的变化造成的x的变化能够与Δx尽可能相似，并且θ的变化要尽可能小，相当于优化问题：

其中：θ⁽ⁿ⁾代表在训练过程中第n步时的模型参数。对x(θ)在θ⁽ⁿ⁾处使用一阶泰勒展开并忽略高阶项，则优化问题转化为：

其中：即将x_ij的梯度设为 -Δx_ij，然后使用反向传播算法更新模型参数θ，<>表示矩阵的内积，即两个矩阵相应位置的元素相乘再全部求和。

F：经过步骤E优化后的一阶目标检测器对输入图像进行检测，为每个检测框i预测一个置信度分数s_i和精确框定位，再通过非极大值抑制处理后输出结果。

如下表所示，本发明所采用的的AP损失函数对比现有的用在一阶目标检测器上的损失函数的优越性，mAP，AP50，AP75分别是不同的评价指标。

如下表所示，经本发明方法训练后的一阶目标检测器RetinaNet相比其他一阶目标检测器的优越性，评价指标在PascalVOC上为AP50，在COCO上为mAP。

检测器	PascalVOC07	PascalVOC12	COCO
				PFPNet512	84.1	83.7	39.4
RefineDet512	83.8	83.5	37.6
				RetinaNet500+AP-loss	84.9	84.5	42.1

如图2所示，本发明对AP损失函数的优化方法对比现有的优化方法的优越性。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于排序损失函数的一阶目标检测器的优化方法，其特征在于，首先在二维图像上预定义密集的检测框，根据检测框与目标框的交并比为每个检测框分配标签，并将待检测图片输入一阶目标检测器，得到每个检测框中的目标置信度分数和精确框的预测，通过基于误差驱动的更新方法对一阶目标检测器进行训练，从而实现检测器的优化检测。

2.根据权利要求1所述的方法，其特征是，所述的一阶目标检测器为每个检测框i输出一个目标的置信度分数s_i和精确框的预测(w_i,h_i,a_i,b_i)，再经过非极大值抑制处理输出最终检测结果，其中：w_i代表检测框宽度相对第i个检测框的宽度的偏移，h_i代表高度，a_i代表横坐标偏移，b_i代表纵坐标偏移。

3.根据权利要求1或2所述的方法，其特征是，所述的检测框，在同一个位置会存在K个大小形状完全相同的检测框，其中K为目标类别的个数，每个检测框对应响应一个类别。

4.根据权利要求1所述的方法，其特征是，所述的分配标签是指：t_i＝{0,1}，其中0代表负样本，1代表正样本，从而将多类别的目标检测转化成单类别的前景检测，适合于构造一个二值排序任务。

5.根据权利要求1所述的方法，其特征是，所述的基于误差驱动的更新方法，根据平均精度作为损失函数，即1-AP，其中平均精度其中：|P|代表正样本的个数，两两成对的标签即当下标满足t_i＝1,t_j＝0时指示函数取1，否则取0。

6.根据权利要求1或5所述的方法，其特征是，所述的基于误差驱动的更新方法，具体为：计算目标置信度分数的两两之差，得到差值矩阵{x_ij}，将差值矩阵中的元素输入激活函数：其中：x_ij代表差值矩阵的第i行j列的元素且x_ij＝s_j-s_i，L_ij代表此激活函数的输出矩阵的第i行第j列的元素，H(x)代表阶跃函数；

得到针对输入的差值矩阵{x_ij}变量x的期望的更新方向以克服目标函数不连续的问题，该损失函数的更新为：Δx_ij＝-y_ij·L_ij；

计算针对模型参数θ的更新方向Δθ，使得θ的变化造成的x的变化能够与Δx尽可能相似，并且θ的变化要尽可能小，相当于优化问题：其中：θ⁽ⁿ⁾代表在训练过程中第n步时的模型参数，对x(θ)在θ⁽ⁿ⁾处使用一阶泰勒展开并忽略高阶项，则优化问题转化为：其中：

即将x_ij的梯度设为-Δx_ij，然后使用反向传播算法更新模型参数θ，<>表示矩阵的内积，即两个矩阵相应位置的元素相乘再全部求和。

7.根据权利要求1所述的方法，其特征是，所述的优化检测是指采用训练后的一阶目标检测器分析输入图片并输出每个检测框的分数和精确框的预测，再经过非极大值抑制处理后得到最终结果。