CN113408321B

CN113408321B - 一种轻量级图像、视频数据的实时目标检测方法及装置

Info

Publication number: CN113408321B
Application number: CN202010182456.XA
Authority: CN
Inventors: 周杨; 赵海鹏; 彭杨钊; 胡校飞; 彭豪杰; 蔡心悦; 张龙
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-08-22
Anticipated expiration: 2040-03-16
Also published as: CN113408321A

Abstract

本发明涉及一种轻量级图像、视频数据的实时目标检测方法及装置，属于计算机视觉技术领域。本发明通过在YOLO‑Lite的骨干网络基础上添加残差块和并行连接，将深层特征和浅层特征进行融合，输出不同尺度特征图，实现了原始特征的最大利用；同时，对不同尺度的特征图进行融合，并在不同尺度特征图均生成其对应的预测结果，同时通过极大值抑制选择最优结果。本发明相比YOLOv3结构更浅更窄，其可训练参数更少、计算量显著降低，运行速度更快，同时与YOLO‑Lite相比在运行速度相对降低的情况下，检测精度大幅提高，降低了对硬件设备的要求。

Description

一种轻量级图像、视频数据的实时目标检测方法及装置

技术领域

本发明涉及一种轻量级图像、视频数据的实时目标检测方法及装置，属于计算机视觉技术领域。

背景技术

近年来，基于卷积神经网络的目标检测一直是计算机视觉领域的热门研究方向，聚焦于目标定位和分类，其成果可广泛应用于人脸识别、姿态预测及多种智能应用领域。当前，卷积神经网络结构朝着更深更复杂的方向发展，虽然在精度上已经可以达到甚至超越人类视觉的水平，但往往有着巨大的运算量和超高的能源消耗，使得在许多无GPU和移动设备中不方便使用。随着无人驾驶汽车、小型智能无人机、增强现实眼镜等计算能力和功耗有限的嵌入式和移动智能设备的发展，轻量化和实时性网络模型成为移动端卷积神经网络目标检测技术的关键研究内容。

最近的研究表明，部分研究人员聚焦于通过构建越来越复杂的神经网络提高检测的准确率如ResNet(Deep Residual Networks)、YOLOv3、HRNet(High-ResolutionNetwork)等，还有些通过对各种结构优化构建小型高效的轻量化神经网络如MobileNetV1、MobileNetV2、Tiny-YOLO、YOLO-Lite、MTYOLO等。YOLO系列和SSD系列基于回归方法的端到端深度学习目标检测方法在保持相对较高的平均准确率情况下，在GPU计算机上实现了实时目标检测，但由于其计算量较大，难以在计算能力有限的无GPU计算机和便携式设备上实现实时性准确检测。

发明内容

本发明的目的是提供一种轻量级图像、视频数据的实时目标检测方法及装置，以解决目前实时目标检测存在的计算复杂、计算量大的问题。

本发明为解决上述技术问题而提供一种轻量级图像、视频数据的实时目标检测方法，该检测方法包括以下步骤：

1)获取待检测的数据；

2)将待检测的数据输入到完成训练的目标检测模型中，得到待检测数据中的目标识别结果；所述的目标检测模型包括特征提取部分和检测端部分，所述特征提取部分采用YOLO-Lite网络，且YOLO-Lite网络中增设有残差块和并行连接结构，用于将YOLO-Lite网络得到深层特征和浅层特征进行融合，以输出不同尺度特征的特征图；所述检测端部分包括卷积层和拼接层，用于对特征提取部分得到的不同尺度的特征图进行融合，并在不同尺度特征图均生成其对应的预测结果。

本发明还提供了一种轻量级图像、视频数据的实时目标检测装置，该检测装置包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器与所述存储器相耦合，所述处理器执行所述计算机程序时实现本发明的轻量级图像、视频数据的实时目标检测方法。

本发明通过在YOLO-Lite的骨干网络基础上添加残差块和并行连接结构，将深层特征和浅层特征进行融合，输出不同尺度特征图，实现了原始特征的最大利用；同时，对不同尺度的特征图进行融合，并在不同尺度特征图均生成其对应的预测结果。本发明相比YOLOv3结构更浅更窄，其可训练参数更少、计算量显著降低，运行速度更快，同时与YOLO-Lite相比在运行速度相对降低的情况下，检测精度大幅提高，降低了对硬件设备的要求。

进一步地，所述的特征部分包括3×3卷积层、1×1卷积层、残差块、上采样层和池化层，3×3卷积层用于对图像数据进行特征提取，池化层设置在卷积层之间，用于对提取的特征进行重采样，以降低卷积层提取的特征维度，残差块用于将浅层特征不断向深层传递，上采样层用于恢复图像的尺寸。

进一步地，所述的残差块包括1个1×1卷积层和1个3×3卷积层。

进一步地，所述的并行连接结构用于将深层特征与浅层特征在在多个尺度进行多分辨率重建，使得多个尺度的特征图都同时具有深层特征与浅层特征。

进一步地，所述的检测部分包括三个检测模块，每个检测模块均包括有卷积层和拼接层，每个检测模块的拼接层的输入分别连接特征提取部分的不同卷积层和池化层，以实现不同尺度的特征图融合。

附图说明

图1是本发明实时目标检测方法所采用的Mixed YOLOv3-Lite网络结构示意图；

图2是本发明所采用的残差块的结构示意图；

图3本发明所采用的HRNet网络结构示意图；

图4是本发明在PASCAL VOC 2007测试集上的部分检测结果示意图；

图5本发明与现有检测模型在VisDrone 2018-Det数据集上的效果对比图；

图6-a是本发明在VisDrone2018-Det Val上静态图像检测结果示意图；

图6-b是本发明在VisDrone2018-Det Val上动态图像检测结果示意图；

图6-c是本发明在VisDrone2018-Det Val上正射图像检测结果示意图；

图6-d是本发明在VisDrone2018-Det Val上光线不好的图像检测结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步地说明。

检测方法的实施例

本发明现有的各种目标检测算法的基础上，为了减少计算量，方便在无GPU的条件下或者便携式设备上使用，提出了一种新的轻量级图像、视频数据实时目标检测方法，该检测方法采用Mixed YOLOv3-Lite网络，该网络是以YOLO-Lite网络为基础的。其中YOLO-Lite网络是一种“浅而窄(Shallow Network and Narrow Channel)”的网络，计算量和参数量较深层网络有本质上的缩减，对于网络的检测速度提升显著。YOLO-Lite的骨干网络一般是由7个卷积层和5个最大池化层构成，其结构如表1所示，包括：6个3×3卷积层、1个1×1卷积层和5个最大池化层构成，其中3×3卷积层用于进行特征提取，1×1卷积层用对提取的特征进行降维，池化层用于特征压缩。

表1

虽然YOLO-Lite网络计算量和参数量较少，处理速率大大提高，但是准确度确比较低，本发明是在YOLO-Lite网络的基础上增加resblock(残差块)和HRNet的并行连接结构。具体而言，如图1所示，本发明的采用Mixed YOLOv3-Lite网络包括特征提取部分和检测端部分，其中特征提取部分是在YOLO-Lite的骨干网络基础上添加resblock和HRNet的并行连接结构形成的，包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层，具有较高的检测性能。卷积层依次连接，最大池化层、残差块和上采样层穿插在卷积层之间。

其中采用的残差结构如图2所示，与YOLOv3中的残差结构一致，其中Relu为激活函数。通过在网络中添加“捷径(shortcut)”，以解决VGG网络中层数增加到一定程度，模型准确度不升反降的问题。并行连接(Parallel High-to-low Resolution Subnetworks)原理如图3所示，图中虚线框部分为并行连接结构，本发明中的并行连接是将三个不同尺度的特征图进行分辨率重建和融合，分别输出到检测端进行目标检测，提高网络的检测准确率。

检间端部分包括3个检测模块，分别为predict one、predict two、predictthree。其中predict one包括依次连接的拼接层、第一卷积层、第二卷积层、第三卷积层和卷积块，拼接层用于将特征提取部分中的第五池化层、第七池化层和1×1卷积层的特征数据进行融合，融合后输出给predict one中的第一卷积层，第一卷积层和第二卷积层均采用1×1卷积核，第三卷积层采用3×3卷积核，经三层卷积处理后输出给卷积块，实现对该尺度的图像特征的预测。predict two和predict three的结构和作用类似，只是拼接层输入的对象不同，除此之外，predict two和predict three均多出一个拼接层，该拼接层设置在各两个1×1卷积核之间，对于predict two而言，用于对predict one中的二卷积层输出结果和predict two中第一卷积层输出结构进行融合，同理，对于predict three而言，用于对predict two中的二卷积层输出结果和predict three中第一卷积层输出结构进行融合。

建立上述网络结构后，将该网络结构作为目标检测模型，利用已知图像、视频数据集对该模型进行训练，得到训练后的目标检测模型，将待检测的实时图像数据、视频数据输入到已训练好的目标检测模型中即可实现对实时目标的检测。该方法可应用到智能车辆控制等领域，通过实时检测路上的目标物(障碍物)实现智能驾驶。

装置实施例

本发明的检测装置包括存储器和处理器，以及存储在存储器上并在处理器上运行的计算机程序，处理器与存储器相耦合，处理器执行计算机程序时实现如本发明图像数据的实时目标检测方法，具体的实现过程已在检测方法的实施例中进行了详细说明，这里不再赘述。其中这里的处理器可以是无GPU设备、移动终端等处理设备。

实验例

为了更好地说明本发明的效果，下面以PASCAL VOC和VisDrone 2018-Det数据集为例对本发明的方法进行验证。实验硬件平台为Intel i7-9700K CPU、一块NVIDIA RTX2080Ti GPU、48GB RAM的服务器，主要用于网络模型训练，同时通过禁用GPU，进行无GPU环境的性能测试。另外，使用NVIDIA Jetson AGX Xavier作为嵌入式移动终端进行性能测试，其配置为NVIDIA自研的8核ARM v8.2 64位CPU、512核Volta GPU、16GB RAM。

PASCAL VOC数据集是一个包含20类目标的公开目标检测数据集。实验采用PASCALVOC 2007和2012组中的混合数据集进行训练和测试，其中训练集包含16511张图像，测试集包含4592张图像。VisDrone 2018-Det是一个由无人机获取的场景丰富多样、环境要素多变的大型数据集，包括8599张图像(训练集6471张，验证集548张，测试集1580张)，并带有丰富的标注，包括对象边界框，对象类别，遮挡，截断率等。其中，训练集和验证集的标注数据已公开，在该实验中分别作为训练集和测试集使用。PASCAL VOC和VisDrone数据集数据统计信息如表2所示。

表2

Mixed YOLOv3-Lite在PASCAL VOC 2007&2012训练集上进行60个epochs的训练，损失函数收敛之后，得到最终的模型参数。模型训练和测试的图像输入图像大小均设置为224×224，与YOLO-Lite保持一致。由于YOLOv3没有公布在PASCAL VOC数据集上的评估数据，在相同实验环境、相同参数设置的情况下对YOLOv3进行60个epochs训练，作为基线模型进行对比。本发明采用平均准确率(mAP)、准确率(Precision)、召回率(Recall)和F1分数(F1 Score)对模型的检测效果进行评估，使用FLOPS、参数量和模型大小对模型的性能进行评价，模型性能最终体现在帧率(FPS)指标上。基线模型和本发明的模型在PASCAL VOC数据集上的测试结果如表3所示。

表3

从实验结果可以看出，在实验环境下，YOLO-Lite可以实现369FPS(RTX2080Ti)和102FPS(non-GPU)，速度非常快，但是其平均准确率只有33.77％。YOLOv3的平均准确率为55.81％，但其速度约86FPS(RTX 2080Ti)和11FPS(non-GPU)，明显逊色于YOLO-Lite，在无GPU计算机或者移动终端难以实现实时监测。本发明提出的Mixed YOLOv3-Lite方法，与YOLO-Lite相比在模型的大小和计算量有小幅增加的情况下，平均准确率大幅提升了14.48％；相比于YOLOv3，在牺牲部分平均准确率的情况下，模型大小缩减了12倍，计算量缩减了7倍，在无GPU情况下FPS提升约6倍，同时在召回率和F1分数等指标上略有小幅度的提升，Mixed YOLOv3-Lite在PASCAL VOC 2007测试集上的部分检测结果如图4所示。

Mixed YOLOv3-Lite在VisDrone 2018-Det训练集上以输入图像大小为832×832进行60个epochs的训练，然后在验证集上进行测试，并与slimYOLOv3的数据做了对比，实验结果如表4所示，并给出了准确率、召回率、F1分数、平均准确率、模型大小和模型计算量的直方图，如图5所示，从中可以直观看出Mixed YOLOv3-Lite的平均准确率明显优于tiny-YOLOv和slimYOLO系列网络，并且在模型的计算量和模型大小的评估指标也占有绝对优势。Mixed YOLOv3-Lite在使用NVIDIA RTX 2080Ti GPU的测试计划环境下达到47FPS。其中tiny-YOLOv3和slimYOLOv3系列网络FPS数据在NVIDIA GTX1080Ti环境下测得。

表4

Mixed YOLOv3-Lite(832×832)在VisDrone2018-Det验证集上每类物体的检测效果如表5所示，可以看出VisDrone2018-Det数据集数据类别分布高度不平衡，非常具有挑战性，如car的实例对象较多，约占据总实例的36.29％，而示例对象相对较少的awning-tricycle只占总实例的1.37％，由此给检测器优化带来不平衡的问题，具体表现为car的平均准确率达到70.79％，而awning-tricycle的平均准确率只有6.24％。在Mixed YOLOv3-Lite设计过程中只是对其卷积层结构进行重组和删减，并没有对类别不平衡问题进行针对处理，这也为后期进一步优化网络提供了指导。本发明在VisDrone2018-Det验证集的部分检测结果如图6-a、6-b、6-c和6-d所示，从中可以看出本发明能够在任何条件下准确地识别出目标。

表5

Jetson AGX Xavier是NVIDIA推出的一款功能齐全、模组尺寸不超过105mm×105mm的小型、低功耗计算系统，专为机器人和工业自动化等神经网络应用平台设计。在无人车、机器人等智能设备部署时功耗仅为10至30瓦便可提供强大且高效的AI、计算机视觉和高性能计算能力。将Mixed YOLOv3-Lite在Jetson AGX Xavier设备上进行测试，结果如表6所示：在输入大小为224×224的图像时，可以达到43FPS，为YOLOv3的3.31倍，当用于无人机影像时调整输入图像大小为832×832，仍可以达到13FPS；尽管与YOLO-Lite仍有差距，仍能满足实时性要求。

表6

通过上述实验例，可以进一步地证明本发明采用的Mixed YOLOv3-Lite相比YOLOv3结构更浅更窄，其可训练参数更少、计算量显著降低，运行速度更快，同时与YOLO-Lite相比在运行速度相对降低的情况下，检测精度大幅提高，降低了对硬件设备的要求，且能够适应各种图像数据的目标识别，应用前景广泛。

Claims

1.一种轻量级图像、视频数据的实时目标检测方法，其特征在于，该检测方法包括以下步骤：

1）获取待检测的数据；

2）将待检测的数据输入到完成训练的目标检测模型中，得到待检测数据中的目标识别结果；所述的目标检测模型包括特征提取部分和检测端部分，所述特征提取部分采用YOLO-Lite网络，且YOLO-Lite网络中增设有残差块和HRNet并行连接结构，用于将YOLO-Lite网络得到深层特征和浅层特征进行融合，以输出不同尺度特征的特征图；所述检测端部分包括卷积层和拼接层，用于对特征提取部分得到的不同尺度的特征图进行融合，并在不同尺度特征图均生成其对应的预测结果；所述特征提取部分包括12个3×3卷积层、1个1×1卷积层、3个残差块、3个上采样层和8个最大池化层；第一残差模块位于第三最大池化层和第四3×3卷积层之间，第二残差模块位于第六最大池化层和第七3×3卷积层之间，第三残差模块位于第十3×3卷积层和1×1卷积层之间；

所述的检测端部分包括三个检测模块，每个检测模块均包括有卷积层和拼接层，第一个检测模块的拼接层用于将特征提取部分中的第五最大池化层、第七最大池化层和1×1卷积层的特征数据进行融合；第二检测模块和第三检测模块均包括两个拼接层，第二检测模块的第一拼接层用于将特征提取部分中的第四最大池化层、第七3×3卷积层和第十一3×3卷积层的特征数据进行融合；第三检测模块的第一拼接层用于将特征提取部分中的第四3×3卷积层、第八3×3卷积层和第十二3×3卷积层的特征数据进行融合。

2.根据权利要求1所述的轻量级图像、视频数据的实时目标检测方法，其特征在于，3×3卷积层用于对图像数据进行特征提取，最大池化层设置在卷积层之间，用于对提取的特征进行重采样，以降低卷积层提取的特征维度，残差块用于将浅层特征不断向深层传递，上采样层用于恢复图像的尺寸。

3.根据权利要求2所述的轻量级图像、视频数据的实时目标检测方法，其特征在于，所述的残差块包括1个1×1卷积层和1个3×3卷积层。

4.根据权利要求1所述的轻量级图像、视频数据的实时目标检测方法，其特征在于，所述的HRNet并行连接结构用于将深层特征与浅层特征在多个尺度进行多分辨率重建，使得多个尺度的特征图都同时具有深层特征与浅层特征。

5.一种轻量级图像、视频数据的实时目标检测装置，其特征在于，该检测装置包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器与所述存储器相耦合，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述轻量级图像、视频数据的实时目标检测方法。