CN111325120A

CN111325120A - 一种适用于嵌入式系统的目标检测方法

Info

Publication number: CN111325120A
Application number: CN202010083397.0A
Authority: CN
Inventors: 徐海黎; 邢强; 孙玉奎; 沈标; 阮有兵; 殷戎飞
Original assignee: Nanjing Lantai Traffic Facility Co ltd; Nantong Tiancheng Photoelectric Technology Co ltd; Nantong University
Current assignee: Nanjing Lantai Traffic Facility Co ltd; Nantong Tiancheng Photoelectric Technology Co ltd; Nantong University
Priority date: 2020-02-09
Filing date: 2020-02-09
Publication date: 2020-06-23

Abstract

本发明公开了一种适用于嵌入式系统的目标检测方法，包括以下步骤：采用VOC数据集格式制作训练图像数据集；以YOLOv3模型为基础架构，建立MobileNetV2网络，并将MobileNetV2网络作为YOLOv3模型的主干网络，得到检测模型；基于CAFFE框架，在服务器端搭建检测模型，通过训练图像数据集对检测模型进行训练，并根据训练的损失值调整训练计划；基于CAFFE框架，将训练后的检测模型移植至嵌入式平台上；获取含有待检测目标的视频流，并将视频流作为检测模型的输入参数，对视频流中的待检测目标进行检测。本发明的目标检测方法能够有效确保检测模型在基于嵌入式系统的小型化设备(尤其是移动设备)上的检测性能，具有更加广阔的应用前景。

Description

一种适用于嵌入式系统的目标检测方法

技术领域

本发明属于目标检测技术领域，具体地，涉及一种适用于嵌入式系统的目标检测方法。

背景技术

目标检测技术兴起于上世纪90年代，主要是利用机器学习及图像处理等手段对图像中的目标进行提取、分类。随着人工智能、计算机视觉以及互联网等产业的快速发展，目标检测作为计算机视觉中一个重要的研究方向，已成为国内外研究者研究的热点。

近年来，随着深度学习技术的日益完善，深度学习逐渐被运用在众多领域，并获得巨大的应用价值，基于深度学习的检测方法已经成为目标检测的趋势，如H Li提出的Cascade CNN算法、J Redmon在2016提出的YOLO(You Only Look Once)算法以及其他经典的目标检测算法，如R-CNN、SPP-net、Fast R-CNN、Faster-R-CNN等。

基于这些算法的检测模型运行在PC客户端上时，具有较强的计算和处理能力，基本可以达到对目标的实时检测，但对于具有嵌入式系统的移动设备，由于嵌入式平台的处理能力和资源的限制以及处理器性能的差异，即使采用实时效果较好的Fast R-CNN，效果也不是很理想，也只能达到1FPS以下的帧率，不能够达到实时检测目标的效果。

为了解决在嵌入式平台上目标检测性能下降的问题，Redmon提出了tiny-YOLO网络模型，通过减少YOLO模型上卷积层的数量来减少模型大小，同时减少了算法中浮点运算的次数，以达到在嵌入式平台上实时检测的目的，但这样检测精度也大幅下降。

发明内容

有鉴于此，本发明提供了一种适用于嵌入式系统的目标检测方法，该目标检测方法具有较好检测精度和检测速度。

为了解决上述技术问题，本发明提出一种适用于嵌入式系统的目标检测方法，包括以下步骤：

采用VOC数据集格式制作训练图像数据集；

以YOLOv3模型为基础架构，建立MobileNetV2网络，并将MobileNetV2网络作为YOLOv3模型的主干网络，得到检测模型；

基于CAFFE框架，在服务器端搭建检测模型，通过训练图像数据集对检测模型进行训练，并根据训练的损失值调整训练计划；

基于CAFFE框架，将训练后的检测模型移植至嵌入式平台上；

获取含有待检测目标的视频流，并将视频流作为检测模型的输入参数，对视频流中的待检测目标进行检测。

可选地，检测模型的第一层为标准卷积层，其余层为深度可分离卷积层；深度可分离卷积层先采用逐点卷积对上一层卷积层的输出参数进行压缩，然后采用深度卷积进行特征提取，最后采用逐点卷积进行扩张。

可选地，通过训练图像数据集对检测模型进行训练，包括：判断训练图像数据集中的训练图像的尺寸与预设尺寸是否相同；若不同，则将训练图像的尺寸按照预设尺寸进行裁剪；否则，将训练图像划分为S×S个单元格，并在每个单元格上利用多个基准区域预测出与基准区域数量相同的候选框，然后利用候选框预测待检测目标的位置以及置信度；其中，S的值与预设尺寸的规格相对应。

可选地，基准区域采用K-means聚类算法获得。

可选地，上述目标检测方法还包括：采用VOC数据集格式制作测试图像数据集，测试图像数据集用于测试检测模型的鲁棒性。

可选地，服务器为GPU服务器，嵌入式平台为TX2嵌入式平台。

与现有技术相比，本发明提供的目标检测方法，至少实现了如下的有益效果：

1)本发明的目标检测方法以基于深度学习的YOLOv3模型为基础框架，同时以MobileNetV2网络为检测模型的主干网络，解决了传统YOLOv3模型参数数量较多的问题，使得检测模型更加轻便可靠，检测模型在嵌入式平台上的实时检测速度可达到25FPS以上，检测精度可达到92％以上；

2)本发明的目标检测方法中，检测模型分别在服务器和嵌入式平台上进行模型训练和视频流目标检测，并通过搭建CAFFE框架实现检测模型在服务器与嵌入式平台之间的快速移植，能够有效确保检测模型在基于嵌入式系统的小型化设备(尤其是移动设备)上的检测性能，具有更加广阔的应用前景。

附图说明

图1是本发明提供的一种适用于嵌入式系统的目标检测方法的流程图；

图2是本发明提供的一种适用于嵌入式系统的目标检测方法的网络结构图；

图3是本发明对比例一中三个模型的PR曲线图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到，除非另外具体说明，否则这些实施例中阐述的步骤和部件的相对布置、数字表达式和数值并不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，这些技术、方法和设备应当被视为说明书的一部分。

实施例一

请参考图1所示，本发明提供了一种适用于嵌入式系统的目标检测方法，包括以下步骤：

S1、采用VOC数据集格式制作训练图像数据集；

S2、以YOLOv3模型为基础架构，建立MobileNetV2网络，并将MobileNetV2网络作为YOLOv3模型的主干网络，得到检测模型；

S3、基于CAFFE框架，在服务器端搭建检测模型，通过训练图像数据集对检测模型进行训练，并根据训练的损失值调整训练计划；

S4、基于CAFFE框架，将训练后的检测模型移植至嵌入式平台上；

S5、获取含有待检测目标的视频流，并将视频流作为检测模型的输入参数，对视频流中的待检测目标进行检测。

本实施例中，步骤S1在制作训练图像数据集的过程中，需要选择相应的原始训练图像数据集，然后再对该原始训练图像数据集的标注格式进行修改，生成本实施例所需的VOC格式训练图像数据集。待检测目标可根据实际需要设置为人脸、刀具等，目前以人脸为训练目标的原始训练图像数据集一般为FDDB和WIDER FACE数据集，FDDB数据集在人脸检测领域具有较大的权威性，该数据集共提供了包含5171个人脸的2845张图片，人脸的状态特征多样化，包含遮挡、低分辨率、不同姿态等情况，颜色包含彩色图像以及灰度图。WIDERFACE是由香港中文大学提供的人脸检测数据集，它比其他数据集更广泛，该数据集共有3.2w张图像，包含3.9w个人脸数据，数据集中有非常多的小尺度人脸图像，并且背景复杂。而以刀具为训练目标的原始训练图像数据集一般为ImageNet数据集中n03041632类，其包含1067张刀具的图片。

可选地，本实施例的目标检测方法还包括：采用VOC数据集格式制作测试图像数据集，测试图像数据集用于测试检测模型的鲁棒性。训练图像数据集和测试图像数据集可按照二八原则分配，即训练图像数据集的数据占80％，剩余的20％数据为测试图像数据集。当然，在其他可选的实施例中，也可以仅制作训练图像数据集。

传统的YOLOv3模型在服务器端具有较好的检测效果，但在嵌入式系统中不能够实时地进行检测，而MobileNetV2网络采用深度可分离卷积代替标准卷积，能够有效降低参数的数量，并且对检测模型的精度影响较小。步骤S2中，通过以基于深度学习的YOLOv3模型为基础框架，同时以MobileNetV2网络为检测模型的主干网络，使得检测模型更加轻便可靠。请结合参考图2所示，检测模型中的MobileNetV2网络主要负责将单个滤波器应用于模型的每个输入通道，YOLOv3则负责合并上述输入通道；同时，检测模型基于YOLOv3的预测思路，可以采用不同分辨率的特征进行目标预测，如采用13×13、26×26、52×52三种分辨率时，13×13像素的特征预测较大的目标，26×26像素的特征预测中型的目标，52×52像素的特征预测较小的目标。

需要说明的是，图2中仅以训练目标为人脸为例进行了示意，在其他可选的实施例中，该训练目标还可以是刀具、行人等。

可选地，检测模型的第一层为标准卷积层，其余层为深度可分离卷积层；深度可分离卷积层先采用逐点卷积对上一层卷积层的输出参数进行压缩，然后采用深度卷积进行特征提取，最后采用逐点卷积进行扩张，以提升通道的数量，获取更多的目标特征。以输入检测模型的训练图像的分辨率为416×416为例，检测模型的第一层采用3×3的标准卷积，但从第二层开始，先采用1×1的逐点卷积进行压缩，然后采用3×3的深度卷积进行特征提取，最后再次采用1×1的逐点卷积进行扩张。

步骤S3和步骤S4中，为了兼顾目标检测的快速性和准确性，同时减小检测模型的体积，将检测模型先搭建于服务器端进行训练，然后再搭建于嵌入式平台上进行后续的视频流检测操作，且服务器和嵌入式平台之间通过CAFFE框架实现检测模型的快速移植，能够有效确保检测模型在基于嵌入式系统的小型化设备(尤其是移动设备)上的检测性能，从而使得本发明的目标检测方法具有更加广阔的应用前景。

可选地，在通过训练图像数据集对检测模型进行训练的过程中，应判断训练图像数据集中的训练图像的尺寸与预设尺寸是否相同；若不同，则将训练图像的尺寸按照预设尺寸进行裁剪；否则，将训练图像划分为S×S个单元格，并在每个单元格上利用多个基准区域预测出与基准区域数量相同的候选框，然后利用候选框预测待检测目标的位置以及置信度；其中，S的值与预设尺寸的规格相对应。

具体地，同样以输入检测模型的训练图像分辨率为416×416为例，此时可将训练图像划分为416×416个单元格，即S的值为416，候选框预测出的位置参数可以包括目标候选框中心点横坐标、目标候选框中心点纵坐标、目标候选框的宽度以及目标候选框的高度。候选框预测出的置信度表现在两方面，其一为单元格内是否有待检测目标的准确度，用P_r(object)表示，当候选框内没有检测到目标时，P_r(object)＝0，反之则P_r(object)＝1；其二是指候选框的准确度，用IOU表示单元格内包含目标的概率，当有目标时，置信度定义为P_r(object)*IOU。

基准区域优选采用K-means聚类算法获得，即基于统计学理论，对训练图像数据集中人工手动的标定框信息进行统计分析、聚类，然后依据分析的结果得到基准区域的个数、宽高等参数信息。

检测模型的检测效果基本取决于模型训练的好坏，模型训练越收敛，检测效果越好，训练时，随着训练批次的增加，损失值会呈现不同的形态。在步骤S3中，根据训练过程中的损失值调整训练计划，有利于提高训练后检测模型的稳定性，本实施例中检测模型在训练过程中的损失值约为0.4。

步骤S5中，将获取的含有待检测目标的视频流进行必要的视频帧处理后即可传入移植在嵌入式平台上的检测模型内，对视频流的每帧图像进行目标检测，并实时显示检测结果，能够有效提高现场目标检测的效率。该视频流的获取方式可以有多种，比如采用相机获取，然后通过USB端口将获取的视频流传输至嵌入式平台。

实施例二

本实施例与实施例一的区别在于：服务器为GPU服务器，嵌入式平台为TX2嵌入式平台。

具体地，在GPU服务器端搭建检测模型时，应确保GPU服务器的操作系统为Ubuntu16.04LTS，硬件采用英特尔CORE i7处理器，并配置英伟达GTX1080显卡，然后采用CAFFE框架进行检测模型的部署。

在Ubuntu16上部署CAFFE环境，首先安装相应的依赖项，根据显卡型号下载相应的NVIDIA驱动并安装，安装完驱动后需要安装编程语言平台CUDA；然后安装cuDNN，cuDNN是NVIDIA推出的一种用于深度神经网络GPU服务器加速的库，可以在GPU服务器上实现更高的性能；确认cudnn安装成功后，需要安装OPENCV视觉库，主要用于图像的操作及处理；最后是安装CAFFE框架。

TX2嵌入式平台采用NVIDIA Pascal架构，拥有256个NVIDIA CUDA内核，高达8GB的闪存以及59.7GB/s的内存带宽，支持2×4k@30视频的编码及解码，以及两个USB接口，六个摄像头通道，同时拥有HDMI、GPIO、UART、PCIe等接口，具备WLAN、蓝牙连接等功能。

将检测模型移植至TX2嵌入式平台上时，同样需要预先安装Ubuntu16.04LTS操作系统，然后再安装CAFFE框架。

下面以待检测目标为人脸为例对本发明的检测模型进行性能检测，并将其与tiny-YOLOv3模型和SSD-MobileNet模型进行对比。需要说明的是，以下两个对比例采用同一视频流输入对应的三个模型中。

对比例一

测试三个模型在实施例二中GPU服务器上运行的性能，检测结果如表1所示。其中，平均检测精度(mAP)表示目标检测中所有类别检测精度的平均值，由于本发明采用VOC数据集格式的训练图像数据集，故在计算检测精度(AP)时可以采用11点插值法；检测速度表示为每秒钟处理的图片数量。

模型名称	平均检测精度	检测速度
			SSD-MobileNet	91.9％	133FPS
tiny-YOLOv3	75.7％	50FPS
			本发明检测模型	94.7％	150FPS

表1三个模型在GPU服务器上的性能对比

由上表1可知，在GPU服务器上运行时，本发明中检测模型的平均检测精度与SSD-MobileNet模型的平均检测精度相当，但其检测速度明显优于SSD-MobileNet模型的检测速度，且这两个模型在平均检测精度和检测速度上均优于tiny-YOLOv3模型，尤其是检测速度上，是tiny-YOLOv3模型的两到三倍。

PR曲线是模型性能的重要评估指标之一，其横坐标为召回率(Recall)、纵坐标为准确率(Precision)。准确率表示数据集中实际检测出的正样本数与数据集中检测出所有正样本数的比值；召回率表示数据集中实际检测出的正样本数与数据集中预测的样本数的比值。由图3所示的PR曲线图可知，本发明中检测模型的PR曲线与两个坐标轴之间包围的面积最大，说明本发明检测模型较SSD-MobileNet模型和tiny-YOLOv3模型，具有更好的检测性能。

对比例二

测试三个模型移植到实施例二中TX2嵌入式平台上运行的性能，检测结果如表2所示。

模型名称	平均检测精度	检测速度
			SSD-MobileNet	89.9％	23.4FPS
tiny-YOLOv3	73.6％	12FPS
			本发明检测模型	92.2％	25FPS

表2三个模型在TX2嵌入式平台上的性能对比

由上表2可知，在TX2嵌入式平台上运行时，tiny-YOLOv3模型的检测速度只有12FPS，不能实现实时检测的效果，而本发明检测模型在TX2嵌入式平台上的平均检测精度达到92.2％，高于SSD-MobileNet模型的平均检测精度，且相对于tiny-YOLOv3模型的平均检测精度提升约25％，并且当待检测目标的特征多于人脸特征时，能够进一步提高本发明中检测模型的平均检测精度。在检测速度方面，本发明中的检测模型模型相对于SSD-MobileNet模型具有更高的检测速度，可达到25FPS，一般而言，正常的相机的帧率为24FPS，故本发明的目标检测方法可以实现目标的实时检测。

可见，本发明提供的目标检测方法，至少实现了如下的有益效果：以基于深度学习的YOLOv3模型为基础框架，同时以MobileNetV2网络为检测模型的主干网络，解决了传统YOLOv3模型参数数量较多的问题，使得检测模型更加轻便可靠，检测模型在嵌入式平台上的实时检测速度可达到25FPS以上，检测精度可达到92％以上；同时，本发明将检测模型分别在服务器和嵌入式平台上进行模型训练和视频流目标检测，并通过搭建CAFFE框架实现检测模型在服务器与嵌入式平台之间的快速移植，能够有效确保检测模型在基于嵌入式系统的小型化设备(尤其是移动设备)上的检测性能，具有更加广阔的应用前景。

以上实施例和对比例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内；本发明未涉及的技术均可通过现有技术加以实现。

Claims

1.一种适用于嵌入式系统的目标检测方法，其特征在于，包括以下步骤：

采用VOC数据集格式制作训练图像数据集；

以YOLOv3模型为基础架构，建立MobileNetV2网络，并将所述MobileNetV2网络作为所述YOLOv3模型的主干网络，得到检测模型；

基于CAFFE框架，在服务器端搭建所述检测模型，通过所述训练图像数据集对所述检测模型进行训练，并根据训练的损失值调整训练计划；

基于CAFFE框架，将训练后的所述检测模型移植至嵌入式平台上；

获取含有待检测目标的视频流，并将所述视频流作为所述检测模型的输入参数，对所述视频流中的所述待检测目标进行检测。

2.根据权利要求1所述的适用于嵌入式系统的目标检测方法，其特征在于，

所述检测模型的第一层为标准卷积层，其余层为深度可分离卷积层；

所述深度可分离卷积层先采用逐点卷积对上一层卷积层的输出参数进行压缩，然后采用深度卷积进行特征提取，最后采用逐点卷积进行扩张。

3.根据权利要求1所述的适用于嵌入式系统的目标检测方法，其特征在于，

所述通过所述训练图像数据集对所述检测模型进行训练，包括：

判断所述训练图像数据集中的训练图像的尺寸与预设尺寸是否相同；

若不同，则将所述训练图像的尺寸按照所述预设尺寸进行裁剪；

否则，将所述训练图像划分为S×S个单元格，并在每个所述单元格上利用多个基准区域预测出与所述基准区域数量相同的候选框，然后利用所述候选框预测待检测目标的位置以及置信度；

其中，S的值与所述预设尺寸的规格相对应。

4.根据权利要求3所述的适用于嵌入式系统的目标检测方法，其特征在于，

所述基准区域采用K-means聚类算法获得。

5.根据权利要求1所述的适用于嵌入式系统的目标检测方法，其特征在于，

所述目标检测方法还包括：

采用VOC数据集格式制作测试图像数据集，所述测试图像数据集用于测试所述检测模型的鲁棒性。

6.根据权利要求1所述的适用于嵌入式系统的目标检测方法，其特征在于，

所述服务器为GPU服务器，所述嵌入式平台为TX2嵌入式平台。