CN111814889A

CN111814889A - 一种使用无锚框模块和增强分类器的单阶段目标检测方法

Info

Publication number: CN111814889A
Application number: CN202010677995.0A
Authority: CN
Inventors: 杨钢; 周博艺; 万鑫; 卢湖川; 岳廷秀
Original assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Current assignee: Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-23
Anticipated expiration: 2040-07-14
Also published as: CN111814889B

Abstract

本发明公开了一种使用无锚框模块和增强分类器的单阶段目标检测方法，包括如下步骤：嵌入无锚框模块；设计解耦控制方法；训练增强分类器，本发明的模型命名为增强YOLOv3，它是在YOLOv3的基础上建立的。为了解决YOLOv3召回率低的问题，本发明提出了一种混合方法，将无锚框模块与YOLO预测分支相结合，以生成更稳健的预测。本发明提出了一个增强分类器，利用多个级联分类器逐步提取冗余边界框，增强分类器可以避免某些关键边界框在后处理之前被排除，同时抑制错误检测。在此基础上，本发明提出了一种解耦方法来处理定位不准确问题，并提出了一个特征增强模块来构造更稳健的特征表示。

Description

一种使用无锚框模块和增强分类器的单阶段目标检测方法

技术领域

本发明涉及目标检测技术领域，具体为一种使用无锚框模块和增强分类器的单阶段目标检测方法。

背景技术

在过去的几年里，基于卷积神经网络(CNN)的物体检测方法在许多应用中取得了显著的进步，如自动驾驶，人脸检测和安全监测。

以往的主流物体检测方法通常是先生成锚框，再进行边界框分类和回归，进行两阶段推理。尽管这些两阶段检测器表现出了优越的性能，但它们仍然存在一些缺点。首先，锚框的属性(如尺寸和高宽比)会在很大程度上影响目标定位的准确性。二是在数百个边界框中进行分类、回归和后处理(NMS)会产生更多的计算成本。这些缺点限制了两阶段检测器在许多要求快速检测场景中的应用。

当基于锚框的方法主导主流检测算法时，原始的YOLO模型通过将输入图像分割成S×S网格，建立了一种新的无锚框方法。如果一个物体的中心落在一个网格中，这个网格负责预测这个物体。虽然每个网格可以预测两个边界框，但是只选择IoU最高的边界框作为检测输出，即每个网格最多只能预测一个物体。对于具有多个小物体的网格，只能检测到其中的一个。YOLOv2介绍了锚框和其他训练策略(例如：批量归一化)来提高网络对小目标检测的鲁棒性。然而，使用单一尺度特征图进行检测，对于多尺度的物体效果不佳。最近YOLOv3模型设计了一个更稳健的骨干网络(DarkNet53)，其中从上到下融合了三个层次的特征，分别检测大、中、小物体。

近期有研究提出建立单阶段检测器，直接输出目标的置信度得分和位置坐标，不需要区域建议阶段。由于最终的检测结果可以直接在特征图上进行预测，大大加快了单阶段检测器的速度。然而，由于正、负训练样本的极度不平衡，使得单阶段检测算法往往无法达到较高的精度。此外，单阶段检测器处理小尺寸物体的能力有限，导致在一些密集场景中存在物体遗漏。

一些最近的工作已经被提出利用无锚框方法的优势来增强原始的基于锚框的模型，以获得更稳健的结果。例如，FSAF将一个外部的无锚框预测层与RetinaNet集成在一起，以实现更精确的结果，而不带来太多的计算成本。为了摆脱复杂的锚框设计，实现较高的召回率，AF-RPN在FasterR-CNN中以无锚框模块取代了原有的基于锚框的RPN，该模块检测更多不同形状的场景实例。

无锚框框架可分为像素估计和关键点估计。FCOS利用正确标注值中的所有点来预测坐标，并通过一个中心分支来抑制那些低质量的边界框。FoveaBox仅利用正确标注值中心周围的几个像素进行分类和回归。上述两种基于像素的检测器与基于锚框的检测器类似，不同之处在于边界框回归的差异。基于关键点的检测算法提出检测目标的关键点。例如，CornerNet检测关键点(左上角和右下角)，并通过嵌入向量对属于同一物体的一对角点进行分组。ExtremeNet检测四个极值点(最上、最左、最下、最右)和一个中心点，并通过匹配算法将五个关键点分组到一个边界框中。但是，关键点检测之后的复杂分组使这两个检测器的速度变慢。为了解决这个问题，CenterNet提出直接预测中心点以及每个物体的高度和宽度，让它以非常快的速度运行。

综上所述，现有目标检测技术有以下几个方面的缺陷：第一，两阶段检测器中，锚框的属性(如尺寸和高宽比)会在很大程度上影响目标定位的准确性。而且在数百个边界框中进行分类、回归和后处理(NMS)会产生更多的计算成本；第二，单阶段检测器由于正、负训练样本的极度不平衡，使得检测算法往往无法达到较高的精度；第三，单阶段检测器处理小尺寸物体的能力有限，导致在一些密集场景中存在物体遗漏。

发明内容

本发明所要解决的技术问题是克服现有技术中存在的不足，提供一种使用无锚框模块和增强分类器的单阶段目标检测方法。

为实现上述目的，本发明提供如下技术方案：一种使用无锚框模块和增强分类器的单阶段目标检测方法，包括如下步骤：

a.嵌入无锚框模块：利用骨干网络提取特征图，在特征图上嵌入无锚框模块，合并骨干网络预测结果与无锚框模块预测结果，进行后处理；

b.设计解耦控制方法：构建解耦预测模型，嵌入特征增强模块；

c.训练增强分类器：设置级联分类器数量，定义正负样本损失函数，给不同分类器分配权重，训练分类器。

优选的，步骤a中所述提取特征图后引入轻量级网络以增强特征图，将该网络的转置卷积替换为双线性插值，减小模型大小。

优选的，步骤a中所述的特征图包含四种尺度，前三层特征图用于骨干网络预测，第四层特征图用于无锚框模块预测。

优选的，步骤b中所述解耦预测模型将原始预测层分解为两个独立分支。在每个分支中使用4个具有固定通道数量的卷积。

优选的，步骤b中所述特征增强模块由三个卷积层组成，将特征增强模块的输出反馈给另一个分支进行分类。

优选的，步骤c中所述级联分类器的数量设置为6。

优选的，步骤c中所述每层分类器的权重参数满足递增关系，表示对分类器的惩罚需要逐步增加。所有这些分类器都参与训练，但只有最后一个分类器在推理时被使用。

与现有技术相比，本发明的有益效果是：

本发明结合无锚框和基于锚框的方法的优点，提出了一种稳健、快速的单阶段目标检测方法。本发明提出了一种混合方法，将无锚框模块与YOLO预测分支相结合，生成了更稳健的预测，解决了YOLOv3召回率低的问题，本发明提出了一个增强分类器，利用多个级联分类器逐步提取冗余边界框，增强分类器可以避免某些关键边界框在后处理之前被排除,同时抑制错误检测。在此基础上，本发明提出了一种解耦方法来处理定位不准确问题，并提出了一个特征增强模块来构造更稳健的特征表示。

附图说明

图1是本发明的网络结构图；

图2是本发明的解耦方式图；

图3是本发明的增强分类器结构图。

具体实施方式

本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，本发明提供一种技术方案：一种使用无锚框模块和增强分类器的单阶段目标检测方法，包括如下步骤：

嵌入无锚框模块：本发明以YOLOv3模型为基本模型，选择CenterNet来实现无锚框模块。本发明直接利用DarkNet53作为骨干网络，并实现三个并行子分支生成预测结果，为节省计算成本，将无锚框模块嵌入到分辨率为104×104的特征图中。当两个物体靠近时，它们的中心点可能在小尺度特征图(即步长为16的输出)中被划分为一个点。为此，将无锚框模块嵌入到一个大尺度的特征图中，以产生物体的中心点和偏移量。除了中心点以及相应的高度和宽度外，原CenterNet还预测偏移量，以减轻下采样的影响。在实验中，用0.5的常数替换偏移预测不会降低目标检测的性能。通过对三个子分支和一个CenterNet分支的预测进行NMS，得到最终的结果。

在CenterNet的输出方面，P表示类别c的n个关键点预测集合

对应尺寸预测。边界框的左上和右下坐标可以表示为：

其中采用0.5来缓解下采样引起的位置偏移的影响，s是将预测框映射回原始图像的步长。最后选择置信度得分前100的无锚框预测，并将它们与YOLOv3的预测结果合并。使用NMS对合并的预测结果进行进一步处理以产生最终结果。

设计解耦控制方法：分类和回归是两个不同的任务，分类是识别特定的类别标签，回归是定位物体。用解码器网络中统一的特征来预测它们的结果是不合理的，为了减轻这两个任务的相互影响，本发明提出四种不同的方法构造解耦预测层。第一种方法直接将原始预测层的最后一层输出划分为三个分支。这三个分支分别用于预测坐标偏移量、分类置信度分数和目标存在置信度分数。第二种和第三种方法则是将原始预测层解耦成两个分支，一个分支最终预测分类置信度分数和目标存在置信度分数，另一个分支最终预测坐标偏移量。这两种解耦方法的唯一区别在于通道的数量。保持通道数量不变会带来巨大的计算量，而减少通道数量会影响计算精度。

训练增强分类器：增强分类器通过几个级联分类器进行训练，其基本思想是，前一个分类器预测较简单的样本，后一个分类器预测较困难的样本，从而产生更准确的结果。通过这种方法，不断提高后续分类器的判别能力。具体而言，第s个分类器对正样本和负样本预测的置信度分数分别为α_s和β_s。第k个(k＞s)分类器对正样本和负样本预测的置信度分数分别为α_k和β_k。当α_k＞α_s且β_k＜β_ss，说明级联分类器的能力正在得到提高。否则，分类器将受到惩罚。设ζ_p为第一个分类器预测的一个正样本的置信度分数，X_p为第二个分类器预测的该正样本的置信度分数。本发明对正样本的损失函数定义如下：

L_p＝-(1+ζ_p-X_p)·log(X_p) (2)

同样，ζ_n为第一个分类器预测的一个负样本的置信度分数，X_n为第二个分类器预测的该负样本的置信分数。本发明对负样本的损失函数定义如下：

L_n＝-(1-ζ_n+X_n)·log(1-X_n) (3)

对于一个正样本，如果下一个分类器预测的置信度分数大于前一个分类器预测的置信度分数(记为ζ_p)，那么设计的函数计算的损失将小于原来的交叉熵损失函数。而对于负样本，当前一个分类器预测的置信度分数为ζ_n，下一个分类器预测的置信度分数大于ζ_n，设计的函数计算的损失将大于原来的交叉熵损失函数。也就是说，在每次迭代中，分类器将关注那些困难的样本而不是简单的样本。

优选地，嵌入无锚框模块中本发明模仿CenterNet的骨干网络，在DarkNet上建立了一个简化的DLA(S-DLA)。在S-DLA中，将原DLA中的转置卷积替换为双线性插值，以减小模型大小。

优选地，嵌入无锚框模块中所述的特征图包含四种尺度，前三层特征图用于骨干网络预测，第四层特征图用于无锚框模块预测。

优选地，设计解耦控制方法中为了在精度和速度之间取得平衡，选择遵循RetinaNet的子网结构，将原始预测层分解为两个独立分支。并且在每个分支中使用4个具有固定通道数量的卷积。

优选地，设计解耦控制方法中所述特征增强模块(FEM)由三个卷积层组成，两个1×1卷积用于增加通道的数量，一个3×3卷积用于获取更多的语义信息。将FEM的输出进一步反馈给另一个分支进行分类。本发明提出的FEM类似于补偿机制，其目的是补偿分类分支中减少的信息。

优选地，训练增强分类器中所述级联分类器的数量设置为6。

优选地，训练增强分类器中在计算损失时，为不同的样本以及不同的分类器分配不同的权重。第s个分类器的损失函数公式如下：

γ_s代表第s个分类器的权重，L_p和L_n是分别是正样本损失和负样本损失。权重参数必须满足γ₁＜γ₂＜…＜γ_s,因为对分类器的处罚需要逐步增加。本发明对之前的分类器所犯的错误进行容忍，但是对后面的分类器犯错误的容忍程度较低，犯错之后他们将受到更多的惩罚，这种惩罚体现在损失上。所有这些分类器都参与了训练，但只有最后一个分类器在推理时被使用。因此，本发明设计的分类器不会产生任何影响推理的额外计算。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于：步骤a中所述提取特征图后引入轻量级网络以增强特征图，将该网络的转置卷积替换为双线性插值，减小模型大小。

3.根据权利要求2所述的一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于：步骤a中所述的特征图包含四种尺度，前三层特征图用于骨干网络预测，第四层特征图用于无锚框模块预测。

4.根据权利要求1所述的一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于：步骤b中所述解耦预测模型将原始预测层分解为两个独立分支，在每个分支中使用4个具有固定通道数量的卷积。

5.根据权利要求4所述的一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于：步骤b中所述特征增强模块由三个卷积层组成，将特征增强模块的输出反馈给另一个分支进行分类。

6.根据权利要求1所述的一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于：步骤c中所述级联分类器的数量设置为6。

7.根据权利要求6所述的一种使用无锚框模块和增强分类器的单阶段目标检测方法，其特征在于：步骤c中所述每层分类器的权重参数满足递增关系，表示对分类器的惩罚需要逐步增加，所有这些分类器都参与训练，但只有最后一个分类器在推理时被使用。