CN111967305B

CN111967305B - 一种基于轻量级卷积神经网络的实时多尺度目标检测方法

Info

Publication number: CN111967305B
Application number: CN202010619209.1A
Authority: CN
Inventors: 林耀荣; 李环; 张国雄
Original assignee: Guangzhou Changyou Electronic Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Changyou Electronic Co ltd; South China University of Technology SCUT
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-03-18
Anticipated expiration: 2040-07-01
Also published as: CN111967305A

Abstract

本发明公开了一种基于轻量级卷积神经网络的实时多尺度目标检测方法，该检测方法过程如下：采用聚类算法对训练数据集样本目标的高宽比和面积尺度系数进行聚类，聚类中心用于优化锚点框设置；利用轻量级卷积神经网络作为RetinaNet框架的骨干网络，降低模型复杂度；同时利用残差模块对多尺度特征图进行增强，对部分增强多尺度特征图进行自适应跨层特征融合，最后利用生成的融合特征金字塔代替特征金字塔，提高模型对中小目标的检测精度。本发明公开的轻量级多尺度目标检测方法，可以在保证一定准确率的情况下，减少模型的参数量，降低模型的运算复杂度，提高模型的检测效率。

Description

一种基于轻量级卷积神经网络的实时多尺度目标检测方法

技术领域

本发明主要涉及基于深度学习的目标检测技术领域，具体涉及一种基于轻量级卷积神经网络的实时多尺度目标检测方法。

背景技术

识别不同大小的物体是计算机视觉中的一个难点。目标尺度变化范围很大的目标检测是非常具有挑战性的问题。自动驾驶场景中的车辆行人检测是典型的多尺度目标检测问题。基于路况拍摄的视频或者图像中，车辆和行人的尺度分布范围很广，且中小尺度目标占比很大。通用的目标检测算法对中小尺度的车辆和行人目标检测精度较低。特征金字塔网络FPN提供多层融合特征，是实现多尺度目标检测的一种有效方法。RetinaNet是基于FPN特征实现的一种单阶段目标检测算法，在检测速度方面具有单阶段算法的优势，性能接近双阶段目标检测算法。使用轻量级卷积神经网络作为RetinaNet的骨干网络，并对多层融合特征和预测网络进行优化，可以在保证一定准确率的情况下，减少模型的参数量，降低模型的运算复杂度。

发明内容

有鉴于此，本发明提供一种基于轻量级卷积神经网络的实时多尺度目标检测方法，可以在保证检测准确率的前提下，降低基于卷积神经网络的多尺度目标检测方法中计算复杂度高的问题。

为了解决上述问题，本发明采用的技术方案为：

一种基于轻量级卷积神经网络的实时多尺度目标检测方法，所述的检测方法包括下列步骤：

S1、利用K-Means聚类算法对训练数据集样本所有目标的高宽比进行聚类，将聚类中心作为锚点框的高宽比；然后利用K-Means聚类算法分层聚类每层特征图的面积尺度系数，将聚类中心作为对应层锚点框的尺度系数；

S2、基于RetinaNet框架，使用轻量级卷积神经网络作为骨干网络提取图像特征，输出图像的多尺度特征图C3、C4和C5，对应原始输入图像的下采样比例分别为8、16和32；

S3、利用下采样模块对输出的多尺度特征图C5进行下采样，得到多尺度特征图C6，删除原始RetinaNet框架中检测目标占比最低的最大尺度特征图C7；其中，所述的下采样模块由步长为1的1×1卷积Conv层、整流线性单元ReLU层、步长为2的3×3卷积Conv层和整流线性单元ReLU层依次级联组成，每个卷积Conv层后均级联批归一化BN层；

S4、利用残差模块Res Block对多尺度特征图C3、C4、C5和C6分别进行处理，得到增强的多尺度特征图F3、F4、F5和F6；

所述的残差模块Res Block的一支路由1×1卷积Conv层、整流线性单元ReLU层、3×3卷积Conv层、整流线性单元ReLU层、1×1卷积Conv层和整流线性单元ReLU层依次级联组成，步长均为1，另一并行支路由一个1×1卷积Conv层组成，每个卷积Conv层后均级联批归一化BN层，两支路输出维度相同，采用逐元素相加的方法将两支路输出相加，经过整流线性单元ReLU层输出；利用该残差模块统一不同尺度的增强的多尺度特征图的通道数；

S5、对增强的多尺度特征图F6进行上采样，与增强的多尺度特征图F5进行融合得到融合特征图F5’；对融合特征图F5’与增强的多尺度特征图F3、F4进行自适应跨层特征融合，得到跨层融合特征图P3、P4和P5，P3、P4、P5和F6构成多尺度的融合特征金字塔，替代原始RetinaNet框架中的特征金字塔；

所述的融合特征图F5’由多尺度特征图F5经过一个1×1的卷积Conv层，与增强的多尺度特征图F6两倍上采样后的特征图逐元素相加，再经过一个步长为1的3×3的卷积Conv层得到；

S6、将步骤S5生成的融合特征金字塔，输入至预测网络进行目标分类和目标坐标回归；

S7、利用Focal Loss损失函数训练模型，获得经过训练的网络模型；

S8、利用经过训练的网络模型对输入图像进行检测，输出检测的目标的类别和坐标。

进一步地，所述的步骤S1中，对训练数据集样本的目标框的高宽比进行统计，将高宽比最小的Th％的目标框和高宽比最大的Th％的目标框去除，防止异常高宽比影响聚类的结果，其中Th为去除异常高宽比目标框的百分比阈值；利用K-Means算法对剩余的目标框的高宽比进行聚类，聚类距离采用欧氏距离，将聚类中心作为锚点框的高宽比r_i，i取1～NR，其中NR为每层特征图对应的锚点框的不同高宽比数目；

确定高宽比后，利用K-Means聚类算法分层聚类每层特征图的面积尺度系数，聚类中心作为对应层k的锚点框的尺度系数λ_kj，k取3～6，j取1～NS，其中NS为每层特征图对应的锚点框的不同面积尺度数目；根据第3～6层特征图的尺度系数fs_k＝{8,16,32,64}，计算每层特征图对应的锚点框面积范围，根据此范围把所述训练数据集样本中的目标框按照面积从小到大依次分配到第3～6层特征层；第k层只对分配到第k层的训练数据集样本的目标框聚类，每层NS个聚类中心，聚类时，第j个聚类中心对应NR个不同形状的边界框box_ij，i取1～NR，边界框box_ij的高为

宽为

训练数据集中的目标框GBox与第j个聚类中心的聚类距离定义为：

其中，IOU定义为两个边界框A和B的交并比：

式中，A∩B表示边界框A和B重叠的区域，A∪B表示边界框A和B的区域并集；聚类优化后第k层的锚点框共有NR×NS个，高设为

宽设为

所述的自适应跨层融合指其中任意一层输出的特征图都融合其余输入层的语义信息，通过学习得到每层特征图的权重矩阵，对特征图与其相对应的权重矩阵进行加权求和，即得到自适应跨层融合后的特征图，其计算过程由自适应跨层融合模块实现，具体如下：

自适应跨层融合模块的输入FI3、FI4和FI5分别对应F3、F4和F5’，对于其中任意一层n的输入FIn，n分别取3，4，5，把其它层的输入FIm通过2^l倍上采样或者下采样转换为与FIn一样尺寸的特征图FImn，其中，m取3～5，m≠n，FInn＝FIn，l取1或2；3个特征图FImn，m取3～5，分别经过一个通道数为CH_com的1×1卷积Conv层将每层特征通道数压缩为CH_com，将输出沿通道拼接，得到一个通道数为CH_com*3、大小与FIn相同的特征图，将该特征图通过一个通道数为3的1×1卷积Conv层，对输出再进行Softmax运算产生一个通道数为3、大小与FIn相同的权重矩阵，权重矩阵各个通道表示为W_m，最后将FImn乘上对应通道的权重矩阵W_m求和，得到融合特征Pn；

其中，上采样采用最近邻插值，2倍下采样采用步长为2的3×3卷积Conv层实现，4倍下采样采用步长为2的最大池化层与步长为2的3×3卷积Conv层级联实现。

进一步地，所述的预测网络中的分类子网络由3个3×3的卷积Conv层级联构成，前两个卷积Conv层的输出通道数为CH_cls，最后一个卷积Conv层的输出通道数为锚点框个数An与类别数C的乘积，输出为分类置信度，表示对应预测框分别属于每个类别的概率；

所述的预测网络中的定位子网络由3个3×3的卷积Conv层级联构成，前两个卷积Conv层的输出通道数为CH_loc，最后一个卷积Conv层的输出通道数为锚点框个数An与坐标维度4的乘积，表示预测框相对于真实框的坐标偏移；

进一步地，通过减少预测网络中卷积Conv层的通道数CH_cls和CH_loc，以降低预测网络的计算复杂度。

本发明相对于现有技术具有如下的优点及效果：

本发明利用轻量级卷积神经网络作为RetinaNe框架的骨干网络提取图像特征，降低模型复杂度；同时利用残差模块对多尺度特征图进行增强，对部分增强多尺度特征图进行自适应跨层特征融合，最后利用生成的融合特征金字塔代替特征金字塔，提高模型对中小目标的检测精度。本发明通过这些优化措施，在兼顾检测精度的同时，降低了模型的复杂度，保证了检测的实时性。

附图说明

图1是本发明方法的网络结构图；

图2是本发明方法的自适应跨层特征融合流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1给出本发明公开的一种基于轻量级卷积神经网络的实时多尺度目标检测方法的网络结构图，方法具体包括以下步骤：

步骤T1、利用K-Means聚类算法对训练数据集样本所有目标的高宽比进行聚类，聚类中心作为锚点框的高宽比；确定高宽比后，利用K-Means聚类算法分层聚类每层特征图的面积尺度系数，聚类中心作为对应层锚点框的尺度系数；

首先，对所述训练数据集样本的目标框的高宽比进行统计，将高宽比最小的Th％的目标框和高宽比最大的Th％的目标框去除，防止异常高宽比影响聚类的结果，其中Th为去除异常高宽比目标框的百分比阈值；利用K-Means算法对剩余的目标框的高宽比进行聚类，聚类距离采用欧氏距离，将聚类中心作为锚点框的高宽比r_i，i取1～NR，其中NR为每层特征图对应的锚点框的不同高宽比数目；

确定高宽比后，利用K-Means聚类算法分层聚类每层特征图的面积尺度系数，聚类中心作为对应层k的锚点框的尺度系数λ_kj，k取3～6，j取1～NS，其中NS为每层特征图对应的锚点框的不同面积尺度数目；根据第3～6层特征图的尺度系数fs_k＝{8,16,32,64}，k＝3～6，可以计算每层特征图对应的锚点框面积范围，根据此范围把所述训练数据集样本中的目标框按照面积从小到大依次分配到第3～6层特征层；第k层只对分配到第k层的训练数据集样本的目标框聚类，每层NS个聚类中心，聚类时，第j个聚类中心对应NR个不同形状的边界框box_ij，i取1～NR，边界框box_ij的高为

宽为

其中，IOU定义为两个边界框A和B的交并比：

其中，A∩B表示边界框A和B重叠的区域，A∪B表示边界框A和B的区域并集；聚类优化后第k层的锚点框共有NR×NS个，高设为

宽设为

其中i取1～NR，j取1～NS；在本实施例中，采用的训练数据集为针对车辆行人检测的KITTI数据集，NR和NS均取3，阈值Th取1.5；

步骤T2、基于RetinaNet框架，选取轻量级卷积神经网络作为骨干网络提取图像特征，轻量级卷积神经网络可以选择PeleeNet、ShuffleNet和MobileNet等网络，在本实施例中，选择PeleeNet作为骨干网络，输出图像的多尺度特征图C3、C4和C5，对应原始输入图像的下采样比例分别为8、16和32；

删除PeleeNet末端的全连接层、平均池化层与1×1的卷积Conv层，剩下的网络作为RetinaNet的骨干网络，从PeleeNet的stage2，stage3，stage4处输出一组长宽依次减半、通道数依次增加的多尺度特征图C3、C4、C5，该组特征图的通道数为{256,512,704}；

步骤T3、对输出的多尺度特征图C5进行下采样，得到多尺度特征图C6，删除原始RetinaNet框架中检测目标占比最低的最大尺度特征图C7；

上述下采样模块由步长为1的1×1卷积Conv层、整流线性单元ReLU层、步长为2的3×3卷积Conv层和整流线性单元ReLU层级联组成的，每个卷积Conv层后均级联批归一化BN层；

步骤T4、利用残差模块对多尺度特征图C3、C4、C5和C6分别进行处理，得到增强的多尺度特征图F3、F4、F5和F6；

如图1所示，残差模块的一支路由1×1卷积Conv层、整流线性单元ReLU层、3×3卷积Conv层、整流线性单元ReLU层、1×1卷积Conv层和整流线性单元ReLU层级联组成，步长均为1，另一并行支路由一个1×1卷积Conv层组成，每个卷积Conv层后均级联批归一化BN层，两支路输出维度相同，采用逐元素相加的方法将两支路输出相加，经过整流线性单元ReLU层输出；利用上述的残差模块统一不同尺度的增强特征图的通道数；

步骤T5、对增强的多尺度特征图F6进行上采样，与增强的多尺度特征图F5进行融合得到融合特征图F5’；对融合特征图F5’与增强多尺度特征图F3、F4进行自适应跨层特征融合，得到跨层融合特征图P3、P4和P5，P3、P4、P5和F6构成多尺度的融合特征金字塔，替代原始RetinaNet框架中的特征金字塔；

融合特征图F5’由多尺度特征图F5经过一个1×1的卷积Conv，与增强的多尺度特征图F6两倍上采样后的特征图逐元素相加，再经过一个步长为1的3×3的卷积Conv层得到；

自适应跨层融合指其中任意一层输出的特征图都融合其余输入层的语义信息，通过学习得到每层特征图的权重矩阵，对特征图与其相对应的权重矩阵进行加权求和，即得到自适应跨层融合后的特征图，其计算过程由自适应跨层融合模块实现，具体如下：

FI3、FI4和FI5分别对应F3、F4和F5’；对于其中任意一层n的输入FIn，n取3，4，5，把其他层的输入FIm通过2^l倍上采样或者下采样转换为与FIn一样尺寸的特征图FImn，其中，m取3～5，m≠n，FInn＝FIn，l取1或2；3个特征图FImn，m取3～5，分别经过一个通道数为CH_com的1×1卷积Conv层将每层特征通道数压缩为CH_com，将输出沿通道拼接，得到一个通道数为CH_com*3、大小与FIn相同的特征图，将该特征图通过一个通道数为3的1×1卷积Conv层，对输出再进行Softmax运算产生一个通道数为3、大小与FIn相同的权重矩阵，权重矩阵各个通道表示为W_m，最后将FImn乘上对应通道的权重矩阵W_m求和，得到融合特征Pn；

其中，上采样采用最近邻插值，2倍下采样采用步长为2的3×3卷积Conv层实现，4倍下采样采用步长为2的最大池化层与步长为2的3×3卷积Conv层级联实现；图2展示了特征层FI5的自适应跨层融合流程图，首先对FI4进行2倍下采样得到FI45，FI3进行一次步长为2的最大池化操作后，再进行一次2倍下采样得到FI35，FI5、FI45、FI35作为输入计算3个权重矩阵W₃、W₄和W₅，FI55＝FI5，融合特征P5＝W₃·FI35+W₄·FI45+W₅·FI55；在本实施例中，CH_com取16；

步骤T6、将步骤T5生成的融合特征金字塔P3～P5和F6，输入至预测网络进行目标分类和目标坐标回归，如图1所示；

预测网络中的特征图的宽和高分别为W和H，预测网络中的分类子网络由3个3×3的卷积Conv层级联构成，前两个卷积Conv层的输出通道数为CH_cls，最后一个卷积Conv层的输出通道数为锚点框个数An与类别数C的乘积，输出为分类置信度，表示对应预测框分别属于每个类别的概率；

定位子网络由3个3×3的卷积Conv层级联构成，前两个卷积Conv层的输出通道数为CH_loc，最后一个卷积Conv层的输出通道数为锚点框个数An与坐标维度4的乘积，表示预测框相对于真实框的坐标偏移；

减少预测网络中卷积Conv层的通道数CH_cls和CH_loc，可以降低预测网络的计算复杂度；在本实施例中，CH_cls与CH_loc均取为128，An＝NR×NS＝9；

步骤T7、利用Focal Loss损失函数训练模型，获得训练后的网络模型；

Focal Loss损失函数可以增强网络对于困难样本的学习能力，公式如下：

其中y为真实标签，取值1或-1，1表示为正例，-1表示为负例；p表示预测样本为正例的概率值，范围为0～1，α为权重系数，用于解决正负样本不平衡的问题；γ为聚焦系数，主要针对难易样本不均衡的问题；α和γ使网络更关注分类困难的样本，以此降低误分类，提高网络的检测性能；本实施例中，α取0.25，γ取2；

步骤T8、利用经过训练的网络模型对输入图像进行检测，输出检测的目标的类别和坐标。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于轻量级卷积神经网络的实时多尺度目标检测方法，其特征在于，所述的检测方法包括下列步骤：

2.根据权利要求1所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法，其特征在于，所述的步骤S1中，

对训练数据集样本的目标框的高宽比进行统计，将高宽比最小的Th％的目标框和高宽比最大的Th％的目标框去除，其中Th为去除异常高宽比目标框的百分比阈值；利用K-Means算法对剩余的目标框的高宽比进行聚类，聚类距离采用欧氏距离，将聚类中心作为锚点框的高宽比r_i，i取1～NR，其中NR为每层特征图对应的锚点框的不同高宽比数目；

宽为

其中，IOU定义为两个边界框A和B的交并比：

宽设为

3.根据权利要求1所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法，其特征在于，所述的自适应跨层特征融合指其中任意一层输出的特征图都融合其余输入层的语义信息，通过学习得到每层特征图的权重矩阵，对特征图与其相对应的权重矩阵进行加权求和，即得到自适应跨层融合后的特征图，其计算过程由自适应跨层融合模块实现，具体如下：

4.根据权利要求1所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法，其特征在于，所述的预测网络中的分类子网络由3个3×3的卷积Conv层级联构成，前两个卷积Conv层的输出通道数为CH_cls，最后一个卷积Conv层的输出通道数为锚点框个数An与类别数C的乘积，输出为分类置信度，表示对应预测框分别属于每个类别的概率；

所述的预测网络中的定位子网络由3个3×3的卷积Conv层级联构成，前两个卷积Conv层的输出通道数为CH_loc，最后一个卷积Conv层的输出通道数为锚点框个数An与坐标维度4的乘积，表示预测框相对于真实框的坐标偏移。

5.根据权利要求4所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法，其特征在于，通过减少预测网络中卷积Conv层的通道数CH_cls和CH_loc，以降低预测网络的计算复杂度。