CN112101430B

CN112101430B - 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法

Info

Publication number: CN112101430B
Application number: CN202010889934.0A
Authority: CN
Inventors: 饶云波; 郭毅; 程奕茗; 薛俊民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-05-03
Anticipated expiration: 2040-08-28
Also published as: CN112101430A

Abstract

本发明公开了一种用于图像目标检测处理的锚框生成方法及轻量级目标检测方法，属于图像目标检测技术领域。本发明提出的锚框生成方式，基于自身数据集的不同，生成更适合自身应用场景的预选框，以代替当前基于锚点检测器的人工设置或K‑means生成方式；同时基于本发明的锚框生成方式提出了一种用于目标检测处理的轻量级目标检测方法，进而提升目标检测处理在计算量、FPS和复杂度等方面的检测性能。本发明在生成锚框生时，采用基于密度的方法对数据集中的真实盒进行聚类，以获得盒的最优长度和宽度，降低后续计算的复杂度。以及采用多尺度输出对不同尺度的物体进行预测，采取多层次输出检测结果；同时)利用分离卷积来改进基本卷积层，降低模型的复杂度。

Description

用于图像目标检测处理的锚框生成方法及轻量级目标检测方法

技术领域

本发明属于图像目标检测技术领域，具体涉及一种基于深度学习的轻量级目标检测方案。

背景技术

目标检测是计算机视觉三大基础问题之一，在自动驾驶、图像/视频检索、视频监控等领域有着重要的应用，目标检测领域的研究具有十分重要的意义。在目标检测领域添加或改进的任何组件如果带来了新的计算瓶颈，在实际应用中，实际效果就会因场景不同而变化，往往会更糟。但是，如果对基本构件的改进能够在不影响再训练模型的情况下提高整个场景的有效性，那么这种改进将会被广泛接受，具有良好的应用前景。

在目标检测中，通常先设置一些候选框，然后通过网络逐层回归这些框。这些候选框应该具有代表性，能够广泛的代表实际场景中框的大小。否则，框将很难回归，最终的预测框也不适合真实框。在两阶段检测器Faster-RCNN(Faster R-CNN:Towards Real-timeObject Detection with Region Proposal Networks)中，手动设置长宽比和图像大小，设定锚框(锚盒)，最终通过锚框生成种不同大小的候选框。在单阶段检测器YOLO(You OnlyLook Once)中，通过计算IoU(Intersection over Union)，采用改进的K-means算法对数据集中的真实框进行聚类，最终生成若干组不同尺度的锚框，再把图片分成多个小格，在每个小格上通过锚框生成多个候选框。人工方法不具备解释性，也没有严格的数学证明。由于Faster-RCNN是基于多个锚点进行计算的，每个锚点在中心位置都会产生一个对应尺度的候选框，不具有代表性的高宽比会给后续计算带来额外的计算开销。目标检测模型需要在检测精度和检测速度之间进行权衡，轻量级网络需要降低模型的复杂度，为移动设备的部署做好准备。轻量级网络还需要输出不同大小的目标，过于简单，缺乏深度特征提取和融合的过程。

从Faster-RCNN提出锚框概念开始，大多数目标检测算法在生成候选框时都依赖于初始锚框的设置。而锚框的位置坐标信息为：(x1,y1,x2,y2)，即表示锚框左上角和右下角的坐标。根据SPP-net(SPP-Net:Deep Absolute Pose Regression with SyntheticViews)和多尺度图像金字塔思想，反向得到足够的锚框。由于Faster-RCNN包含大量的锚点，每个锚点产生9个锚框，可以覆盖各种尺度和形状的目标。但是这种方法产生太多的锚框，导致冗余的框，如图1所示。

YOLO检测器使用K-means算法生成锚点，如图2所示。YOLO使用真实框大小作为聚类算法的输入。来自YOLO9000(YOLO9000：Better,Fater,Stronger)的结果如表1所示。

表1

以上两种算法都有不足之处：

1)锚点的生成方法来源于图像特征金字塔模型。锚的逻辑可以通过特征图的逆向计算来解释。但是，手动设置锚值生成的先验框不能很好地表示数据集中的真实框。对于手动设置的锚值，没有数学逻辑上的证明。

2)人工设置K个聚类中心，迭代更新聚类中心的值时，需要计算所有剩余点的IOU，计算量太大。

3)K-means在第一轮迭代中随机初始化聚类中心。且如果初始的聚类中心选择错误，将会非常耗时，甚至会影响最终的结果。

发明内容

本发明的发明目的在于：针对以上存在的技术问题，本发明提出了一种新的锚框生成方式，基于自身数据集的不同，生成更适合自身应用场景的预选框，以代替当前基于锚点检测器的人工设置或K-means生成方式；同时基于本发明的锚框生成方式提出了一种用于目标检测处理的新的轻量级网络模型，进而提升目标检测处理在计算量、FPS(FramesPer Second)和复杂度等方面的检测性能。

本发明的用于图像目标检测处理的锚框生成方法，包括下列步骤：

101：通过真实数据集的真实框分布情况，确定真实框的长和宽；

102：在真实框的长和宽所在的二维平面，基于每个真实框的长和宽的值得到表征每个真实框的点，即表征点；

基于所有真实框的表征点得到点集P；

103：基于点集P，对真实框进行聚类处理：

103-1：随机从点集P中选取一个未访问的点，作为中心点，记为点P_c；

基于设置的距离度量方式，查找距当前中心点P_c的距离在预设距离阈值d_th之内的所有点，记为集合M，并将集合M中各点的聚类标记为c；

所述距离度量方式为：D(a,b)＝1-IOU(a,b)，其中，D(a,b)表示真实框a,b之间的距离度量值，IOU(a,b)表示真实框a,b之间的交并比；

103-2：计算从中心点P_c到集合M中的每个点之间的向量，并对计算出来的所有向量进行累加，得到向量vector；

103-3：更新中心点P_c：将中心点P_c沿着从坐标原点到中心点P_c的方向移动，移动的距离为：||vector||；

103-4：基于更新后的中心点P_c，重复执行步骤103-2至103-3，直到||vector||小于预设的阈值，记录当前中心点P_c；

103-5：计算簇类c与当前已存在簇类c′的中心点之间的欧式距离，若该欧式距离小于阈值，则将簇类c与c′合并，合并后的簇类记为c′，并从合并的两个簇类的中心点中随机选取一个作为合并后的簇类的中心点；或取两个中心点之间的中点作为合并后的簇类的中心点；

否中心点之间的欧式距离大于或等于阈值，则将簇类c作为新的聚类；

103-6：重复步骤103-1至103-5，直到点集P的所有点均被标记访问；

104：基于步骤103得到的簇类数确定锚框的数量，并基于每个簇类的中心点的位置坐标所对应的长和宽确定锚框尺寸。

本发明的基于深度学习的轻量级目标检测方法包括下列步骤：

步骤S1、构建轻量级目标检测模型：

所述轻量级目标检测模型从输入到输出依次包括：卷积层conv1、池化层pool1、第一分离卷积块、L个基础骨架网络和L+1个输出层；

其中，基础骨架网络之间通过一个卷积层连接；

第一个基础骨架网络的输入与第一分离卷积块相连；其中，分离卷积块包括三层分离卷积；分离卷积包括1×3的和3×1卷积核，用于对输入数据先进行卷积核为3×1的卷积运算，再进行卷积核为1×3的卷积运算；

且每个基础骨架网络的骨架第二卷积层输出的特征图依次经过卷积层、卷积核为1×1的卷积层，再输入输出层，得到一路输出支路，从而得到L路输出支路；

最后一个基础骨架网络的输出特征图依次经过卷积层、卷积核为1×1的卷积层，再输入输出层，得到第L+1路输出支路；

所述基础骨架网络包括：分离卷积块、骨架第一卷积层、分离卷积、骨架第二卷积层、骨架第三卷积层和和融合层；分离卷积块的第二层分离卷积与骨架第三卷积层输出的特征图在融合层进行维度拼接，得到每个基础骨架网络输出的特征图；

步骤S2、对轻量级目标检测模型进行模型训练：

设置训练样本集，并将训练样本输入轻量级目标检测模型，通过前向传播得到不同尺度的特征图，并输入对应的输出层中；

每个输出层中，将输入的特征图分成υ×υ个特征图格子；根据本发明的锚框生成方法，在每一个特征图格子中生成多个不同长宽的锚框，即候选框；基于输出层设置的激活函数，得到每个格子转换后的图像信息；再基于候选框进行目标检测处理，确定目标的预测框，并基于预测框的图像特征确定类别置信度得分；

模型训练时，损失函数包括分类损失函数和定位损失函数；

步骤S3、基于步骤3训练好的轻量级目标检测模型，对待检测图像进行目标检测处理：

将待检测图像输入到训练好的轻量级目标检测模型中，通过基础骨架网络中的多次卷积运算，得到不同尺度的特征图，并输入对应的输出层中进行目标检测处理，输出目标位置和类别得分信息，从而得到待检测图像的目标检测结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)提出新的锚框生成算法，采用基于密度的方法对数据集中的真实盒进行聚类，以获得盒的最优长度和宽度，降低后续计算的复杂度。

(2)采用多尺度输出对不同尺度的物体进行预测，在检测器中，采取多层次输出检测结果。

(3)利用分离卷积来改进基本卷积层，降低模型的复杂度。同时发现在复杂性和准确性之间，小卷积核总是比大卷积核更好。

附图说明

图1是Faster-RCNN的锚框生成图；

图2是YOLOv3网络的锚框生成图；

图3是分离卷积示意图；

图4是本发明的轻量级目标检测模型的网络结构示意图；

图5是MS-COCO数据集的所有真实框分布情况；

图6是本发明的网络效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的基于深度学习的轻量级目标检测方法，具体实现步骤包括：

步骤1、使用本发明提出的锚框生成法生成锚框，通过锚框生成候选框尺寸和个数，锚框由真实数据集通过下面步骤生成：

101：通过真实数据集的真实框分布情况，确定标签数据，以及真实框的长宽。

102：在真实框的长和宽所在的二维平面，基于每个真实框的长和宽的值得到表征每个真实框的点；定义符号w、h分别表示真实框的长和宽，则点(w,h)或点(h,w)可以表征一个真实框，具体的坐标形式取决于所构造的二维平面方式；

基于所有真实框的表征点得到点集P；

103：基于点集P，对真实框进行聚类处理：

基于设置的距离度量方式，查找距当前中心点P_c的距离在预设距离阈值d_th之内的所有点(即所有真实框)，记为集合M，并将集合M中各点的聚类标记为c；从而得到以中心点P_c为圆心，d_th为半径的圆域S_Pc；并将这些圆内的点属于簇类c的概率加1，这个参数将用于最后步骤的分类。

由于直接使用欧氏距离作为距离的度量函数，那么大的边界框会比小的产生更多的误差。但是希望通过锚框来获得好的IOU分数，IOU分数是独立于锚框位置的。通过计算IOU得到新的距离函数。由于IOU的值很大，为了计算方便，本发明将(1-IOU)作为距离的度量函数，从而使其尽可能小。

由于预测阶段是基于图像中多个点生成多个预选框，所以只需关心预选框的大小，而不关心预选框的坐标中心点的位置。通常数据集的标签是XML或TXT格式的，因此可以很容易地读取真实框的坐标信息。通过假设所有框的中心位于坐标原点，并从数据集标签中读取左上角和右下角坐标来计算IOU函数，a和b表示不同的真实框。距离公式如下。

D(a,b)＝1-IOU(a,b)

103-2：计算从中心点P_c到集合M中的每个点之间的向量，将这些向量相加，得到向量vector。

103-3：更新中心点P_c：更新中心点的坐标center为：center＝center+vector，即将中心点P_c沿着从坐标原点到中心点P_c的方向移动，移动的距离为：||vector||；

103-4：基于更新后的中心点P_c，重复执行步骤103-2至103-3，直到||vector||的大小很小(小于预设的阈值)，即中心点P_c更新前后变化很小(迭代收敛)，记录当前中心点P_c；即中心点P_c所表征的框即为一个锚框的尺寸；

103-5：若收敛时，计算簇类c与当前已存在簇类c′的中心点之间的欧式距离，若该欧式距离小于阈值，则将簇类c与c′合并，合并后的簇类记为c′，并从合并的两个簇类的中心点中随机选取一个作为合并后的簇类的中心点；或取两个中心点之间的中点作为合并后的簇类的中心点；否则，将簇类c作为新的聚类，从而增加1个簇类；

103-6：重复步骤103-1至103-5，直到点集P都被标记访问；

103-7：根据每个簇类对每个点击P中的每个点的访问频率，取访问频率最大的那个簇类，作为每个点所属的簇类，基于每个点所表征的真实框，完成对对真实框的聚类处理。

104：基于步骤103得到的簇类数确定候选框的个数，基于每个簇类的中心点的位置坐标所对应的长和宽确定候选框尺寸。

本发明通过采用新的聚类函数，在对真实框进行聚类处理时，让数据集的中心始终朝着数据集的最大密度方向移动。从而实现对数据集的真实框进行聚类，以尽可能覆盖所有的框。

步骤2、构建轻量级目标检测模型。

用于目标检测的主干网络通常借鉴于ImageNet(A Large-scale HierarchicalImage Database)分类。近年来，ImageNet认为是评价深卷积神经网络功能最权威的数据集。许多新型网络的目标是为ImageNet实现更高的性能。AlexNet(ImageNetClassification with Deep Convolutional Neural Networks)是第一个尝试增加CNN深度的网络，为了减少网络计算，扩大接受域，AlexNet使用步长为32大小的卷积核对特征图进行采样。VGGNet(Very Deep Convolutional NetWorks for Large-Scale ImageRecognition)通过堆叠3×3个卷积运算来构建更深层次的网络，而在特征图中仍然包含32个跨度。后续的大多数研究采用类似于VGG的结构。

由于骨架网络通常用于分类，许多骨架网络最近被重新设置以便于更好的用于目标检测。虽然不能使用分类网络的预训练权值，但是重新设置的目标检测网络可以更加关注位置信息，而不仅仅是类别。

本发明的轻量级目标检测模型在充分考虑当前轻量级网络的特点和存在的不足的基础了，采用了一种新的网络模型。本发明以1×3和3×1卷积核为基础组件(定义为分离卷积，Sep Convolution)，即分离卷积包括1×3的和3×1卷积核，即本发明采用分离的思想，将N×N的卷积替换为N×1+1×N的卷积运算，如图3所示，通过分离卷积的采用，降低参数量。

基于所述分离卷积构造的基础骨架网络包括：分离卷积块、骨架第一卷积层、分离卷积、骨架第二卷积层、骨架第三卷积层和和融合层；其中分离卷积块包括三层分离卷积；分离卷积块的第二层分离卷积与骨架第三卷积层输出的特征图在融合层进行维度拼接，得到每个骨架网络输出的特征图。所采用的基础骨架网络为：以1×3和3×1卷积核为，取消全连接层。结构上使用跨尺度融合特征信息。

基于所述基础骨架网络构造的轻量级目标检测模型网络结构为：

从输入到输出依次包括：卷积层conv1、池化层pool1、第一分离卷积块、L个基础骨架网络和L+1个输出层；

其中，基础骨架网络之间通过一个卷积层连接；

每个基础骨架网络的骨架第二卷积层输出的特征图依次经过卷积层、卷积核为1×1的卷积层，再输入输出层，得到一路输出支路，从而得到L路输出支路；

最后一个基础骨架网络的输出特征图依次经过卷积层、卷积核为1×1的卷积层，再输入输出层，得到第L+1路输出支路。

参数L的取值具有实际使用需求进行设置，基于所采用的基础骨架网络的个数，得到L+1层输出，图3所示则为L＝1的具体网络结构图。

本发明采用更少的通道和多层的思想来构建网络，尽可能地提取深层信息。采用了1×1和3×3的卷积核，放弃了5×5或更大尺寸的卷积核。并设置两个及其以上的输出层用于对图像中的不同尺度的待检测目标的预测。与常用的轻量级网络模型相比，本发明的骨架网络减少了通道数量，加深了网络深度。

步骤3、对轻量级目标检测模型进行模型训练。

本具体实施方式中，采用标准的MS-COCO2014数据集进行训练，其具体过程为：

1)通过前向传播，利用各基础骨架网络提取图像的特征信息。在进行特征信息的提取处理时采用组卷积的策略，即使用多个卷积对图像进行特征提取，同时采用跨尺度融合的设计，加深对特征的提取程度，融合底层特征和高层特征。

2)在每个输出层中，将输入的特征图分成16×16个特征图格子(其中，特征格子的矩阵维度可基于实际需求调整，本发明不做具体限定)，由每个格子负责预测该位置的类别置信度得分。

首先在每一个特征图格子生成k个不同尺寸，不同长宽的候选框(基于步骤1所给出的生成方式得到)；

然后，基于输出层设置的激活函数，得到每个格子转换后的图像信息；

再基于候选框进行目标检测处理，确定最终的目标区域(即预测框)，并基于预测框的图像特征确定类别置信度得分。

本发明中，基于候选框确定目标区域可以采用本领域的任一惯用方式，本发明不做限定。例如：计算每个候选框属于前景的概率，以及对应的位置参数；选取前K1个概率最大的候选框，并基于回归的位置参数(候选框的坐标偏移量)对筛选出来的各候选框的位置进行修正，得到目标区域，即预测框；再对各预测框进行分类和位置回归，从而得到其类别置信度得分和位置信息。

本具体方式中，输出层所采用的激活函数为Leaky ReLU(YOLO网络的激活函数)函数，Leaky ReLU是给所有负值赋予一个非零斜率。公式如下：

其中，a_i是(1，+∞)区间内的固定参数，x_i和y_i为对应的自变量和因变量，即x_i、y_i分别表示第i个格子的输入像素值和输出像素值。

模型训练时，损失函数包括分类损失函数和定位损失函数，根据分类置信度得分计算目标区域的损失函数，得到置信损失，即分类损失；定位部分的损失函数则是计算预测框和真实框的差距尽可能的小，得到定位损失。本具体实施方式中，定位损失函数采用MSELoss(均方差误差损失函数)，即均方差损失函数。

定义s和y分别为预测框和真实框的坐标，则均方差误差损失函数为：

其中，n表示预测次数，s_t、y_t分别表示第t次测试时预测框和真实框的坐标。

分类损失函数采用Focal Loss函数，为：FocalLoss(p)＝-α_t(1-p)^γlog(p)，其中α_t＝0.25，γ＝2，p为目标的预测值，即分类置信度得分。

通过上述损失函数计算损失值，经过反向传播来逐步更新各个网络层的权重值，从而得到训练好的轻量级目标检测模型。

步骤4、基于步骤3训练好的轻量级目标检测模型，对待检测图像进行目标检测处理：

将待检测图像输入到训练好的轻量级目标检测模型中，通过基础骨架网络中的多次卷积运算，得到一系列不同尺度的特征图，并输入对应的输出层中进行目标检测处理，输出目标位置和类别得分信息，从而得到待检测图像的目标检测结果。

即各输出层将特征图分为16×16个小格，并在每一个特征图格子生成k个不同尺寸，不同长宽的候选框，以及基于输出层设置的激活函数，得到每个格子转换后的图像信息；再基于候选框进行目标检测处理，得到最终的目标位置和类别得分信息。

为了比较本发明的锚点生成方式与现有的基于K-means聚类的锚点生成方式之间的性能，基于MS-COCO2014数据集中的真实框分布，如图5所示。可以看出，真实框的尺寸分布大体上是均匀的，但是小的平的真实框和大的真实框的数量较少，在验证集中更加显著。在本发明的锚点生成处理中，不需要预先设置锚的数量，而是自动根据阈值和数据集生成适当的数量。通过在MS-COCO2014数据集下的实验比较，发现在相同数量锚点的情况下，本发明是优于YOLO系列算法和手动设置锚点的方法。当K＝9时，本发明的Avg-IOU(平均IOU)可以达到70％。Avg-IOU随着K值的增加而增加，在实验范围内，Avg-IOU始终在YOLO系列的上方，如表2所示。

表1

表3给出了本发明与现有目标检测方式(基于RFB-Net(Receptive Field BlockNet for Accurate and Fast Object Detection)的两种网络结构的目标检测方式)的检测处理性能：

表2

在表3中，可以看出，本发明在MS-COCO2014取得很好的结果，mAP(mean AveragePrecision)达到20.5％，处理时长为35ms，每秒浮点运算次数(FLOPs)为7.54GMac。本发明的检测效果未能进一步提升的原因是：(1)从零开始训练，而不是使用训练前的重量。(2)其次，由于硬件的限制，迭代次数有限。大多数基于深度学习的目标检测算法都使用预先训练好的分类网络模型的权值，这将使它们在检测模型中具有优势。同时可以看到，如果没有训练前的权值和足够的迭代次数，RFB-Net的精度与本发明的一致。如果增加迭代次数，并应用进一步的训练算法。如数据扩充等可以实现更好的性能。如图6所示，本发明的检测方法在大多数类别中都获得了更好的性能。

本发明的基于深度学习的轻量级目标检方法，在锚框生成处理中，考虑了数据集真实盒的分布情况，新的卷积模块在保持精度稳定的同时减少了传统卷积模块中的参数数量，在MS-COCO2014上取得了很好的效果。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.用于图像目标检测处理的锚框生成方法，其特征在于，包括下列步骤：

101：通过真实数据集的目标的真实框分布情况，确定真实框的长和宽；

102：在真实框的长和宽所在的二维平面，基于每个真实框的长和宽的值得到表征每个真实框的点，基于所有真实框的点到点集P；

103：基于点集P，对真实框进行聚类处理：

若簇类c与当前已存在簇类c′的中心点之间的欧式距离大于或等于阈值，则将簇类c作为新的聚类；

2.一种基于深度学习的轻量级目标检测方法，其特征在于，包括下列步骤：

步骤S1、构建轻量级目标检测模型：

其中，基础骨架网络之间通过一个卷积层连接；

步骤S2、对轻量级目标检测模型进行模型训练：

每个输出层中，将输入的特征图分成υ×υ个特征图格子；根据权利要求1所述的锚框生成方法，在每一个特征图格子中生成多个不同长宽的锚框，即候选框；基于输出层设置的激活函数，得到每个格子转换后的图像信息；再基于候选框进行目标检测处理，确定目标的预测框，并基于预测框的图像特征确定类别置信度得分；

模型训练时，损失函数包括分类损失函数和定位损失函数；

3.如权利要求2所述的方法，其特征在于，输出层所采用的激活函数为Leaky ReLU函数。

4.如权利要求2所述的方法，其特征在于，模型训练时，分类损失函数为：根据分类置信度得分计算目标区域的损失函数；定位损失函数采用均方差误差损失函数。

5.如权利要求2所述的方法，其特征在于，均方差误差损失函数为：

6.如权利要求2所述的方法，其特征在于，分类损失函数为：FocalLoss(p)＝-α_t(1-p)^γlog(p)，其中α_t＝0.25，γ＝2，p为目标的预测值，即分类置信度得分。

7.如权利要求2所述的方法，其特征在于，输出层将特征图分为16×16个小格。