CN111563525A

CN111563525A - 一种基于YOLOv3-Tiny的运动目标检测方法

Info

Publication number: CN111563525A
Application number: CN202010216393.5A
Authority: CN
Inventors: 吴坤; 强祺昌; 蔡志浩; 赵江; 王英勋; 曾逸文
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-08-21

Abstract

本发明公开了一种基于YOLOv3‑Tiny的运动目标检测方法，包括如下步骤：采集非理想条件下目标的图像特征信息，制作目标数据集；改进YOLOv3‑Tiny算法；训练样本，迭代得到单类目标检测的YOLOv3‑Tiny网络模型；图像输入和图像检测。根据改进后算法所得到的检测结果，可以确定不仅提升了算法的准确性与实时性，还降低了实际应用中对硬件的要求，保证能够在低成本的条件下很好的完成实际应用中非理想条件下的目标检测任务。

Description

一种基于YOLOv3-Tiny的运动目标检测方法

技术领域

本发明属于当前火热的深度学习下的计算机视觉方向，而计算机视觉又有四个基本任务：图像分类、物体检测、语义分割、实例分割。本发明属于物体检测领域，主要是通过深度学习算法，进行端到端的解决问题，即输入图像到输出结果一步完成。目标检测的大致流程是，首先识别图像中我们所需要的目标类别，再得出此目标在图像中的位置。

背景技术

目标检测(Object Detection)是计算机视觉领域的基本任务之一，近些年随着神经网络的火热发展，基于深度学习的目标检测算法也蓬勃发展起来。基于深度学习检测算法采用端到端的解决方式，即输入图像到输出任务结果一步完成，有效提高了解决问题的效率。但在实际检测运动目标过程中，会存在硬件技术的限制及目标遮挡、多目标干扰等复杂因素，因此在检测的准确性和实时性上存在很大的提升空间。

YOLOv3是YOLO目标检测算法的第三个改进版本，其在检测精度与速度上照比其他算法都有大幅度的提升，是当前目标检测领域之首选。YOLOv3-Tiny在基本保留YOLOv3原有性能的基础上，对网络结构进行压缩，使算法能够在低内存情况下也能达到实时检测要求，有助于解决实际应用中功耗大、内存小等难题。

发明内容

为了解决上述已有技术存在的不足，本发明提出一种基于YOLOv3-Tiny的运动目标检测方法，此法在算法准确性不变的基础上缩小网络模型来提升运行速度，保证算法的准确性、实时性要求。本发明的具体技术方案如下：

一种基于YOLOv3-Tiny的运动目标检测方法，其特征在于，包括以下步骤：

S1：获取训练样本，采集目标的图像特征信息，制作目标数据集；

S2：改进YOLOv3-Tiny网络模型：

S2-1：改变评价指标，利用GIoU取代IoU评价指标；

S2-2：优化YOLOv3-Tiny的网络结构，将卷积层与BN层合并；

S3：模型训练及输出，利用步骤S1中的训练样本对步骤2中改进的网络模型进行训练，迭代得到单类目标检测的YOLOv3-Tiny网络模型；

S4：图像输入，利用无人机机载摄像头拍摄地面运动目标的图像；

S5：图像检测，利用S3中改进网络模型对S4中的图像进行检测得出结果图。

进一步地，所述步骤S1中，选取VOC2007数据集作为训练样本。

进一步地，所述步骤S1中所述目标的图像特征信息为非理想条件下目标的图像特征信息，所述步骤S4中无人机机载摄像头拍摄地面运动目标的图像为非理想条件下的运动目标的图像。

本发明的有益效果在于：

1.本发明采用的YOLOv3-Tiny网络结构相比其他检测算法，具有“小而精”的特点，使其对硬件设备要求不高，显存占用空间较小，约1GB，能够广泛应用于简单的目标检测系统中。

2.通过多尺度预测与特征融合，实现高准确率的运动目标检测；通过缩小网络模型，检测算法的运行速度变快，确保在实际非理想条件场景中，能够满足准确性与实时性的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明的YOLOv3-Tiny网络结构图；

图2是检测地面运动目标的流程图；

图3是嵌入式设备NVIDIA Jeston Xavier；

图4是无遮挡、无干扰情况下检测效果图；

图5是遮挡情况下检测效果图；

图6是多目标干扰情况下检测效果图；

图7-图10是运动目标检测效果图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

对于YOLOv3-Tiny网络模型，针对图像的检测过程为：卷积层提取局部特征，BN层批规范化处理，激活函数非线性处理，池化层对特征图进行压缩，全连接层将局部特征通过权值矩阵组成完整的图，n个预测框对区域进行检测，去除掉低于IoU评价指标的预测框，通过极大值抑制筛选出准确预测框，输出检测结果。

本发明将YOLOv3-Tiny网络模型进行了改进，对于改进后的网络模型，针对图像的检测过程为：卷积层和BN层合并，提取局部特征并规范化处理；激活函数非线性处理，池化层对特征图进行压缩，全连接层将局部特征通过权值矩阵组成完整的图，n个预测框对区域进行检测，去除掉低于GIoU评价指标的预测框，通过极大值抑制筛选出准确预测框，输出检测结果。应用到运动目标检测上的具体方案为：

S2：改进YOLOv3-Tiny网络模型：

S2-1：改变评价指标，利用GIoU取代IoU评价指标；

S2-2：优化YOLOv3-Tiny的网络结构，将卷积层与BN层合并；

步骤S1中，选取VOC2007数据集作为训练样本。

步骤S1中目标的图像特征信息为非理想条件下目标的图像特征信息，步骤S4中无人机机载摄像头拍摄地面运动目标的图像为非理想条件下的运动目标的图像。

为了方便理解本发明的上述技术方案，以下通过具体实施例对本发明的上述技术方案进行详细说明。如图1-3所示，一种基于YOLOv3-Tiny的运动目标检测方法，包括：

S1：制作用于训练网络模型的单类目标数据集，选取当前流行的VOC数据集格式。该数据集中训练样本1542张，测试样本231张。VOC目标数据集背景较复杂，存在目标遮挡情况，来获得更适合实际检测情况的网络模型。

S2：改进YOLOv3-Tiny网络模型：改变评价指标、优化YOLOv3-Tiny的网络结构，具体包括以下步骤：

S2-1：改变检测任务中的评价指标，IoU是一种测量在特定数据集中检测相应物体准确度的一个常用的标准，只要是输出中得到一个预测范围(bounding boxes)的任务都可以用IoU来进行测量。由于IoU是比值的概念，对目标物体的准确范围不是很敏感，检测任务中的回归损失优化和IoU优化不是完全等价的，故引入的GIoU概念在保留IoU原始性质同时弱化了其缺点。GIoU可以看做是对IoU指标的一个改进，具体公式如下：

式(1)中，假如有两个任意形状A、B，找到一个最小的能够把A、B包含在内封闭形状C，计算C中没有覆盖A和B的面积占C总面积的比值，再用A与B的IoU减去这个比值。

S2-2：优化YOLOv3-Tiny的网络结构，训练深度网络模型时，BN(BatchNormalization)层能够加速网络收敛，并且能够控制过拟合，一般放在卷积层之后。网络前向推断时多了一些层的运算，影响了模型的性能，且占用了更多的内存或者显存空间。因此有必要将BN层的参数合并到卷积层，来提升模型前向推断的速度。BN层和卷积层合并后：

式(2)中，W为卷积权重，W_merged为合并后的卷积权重，B为卷积偏置，B_merged为合并后的卷积偏置，W×X+B为卷积层运算，X为卷积运算的输入，μ为均值，β为偏移，σ为方差，γ为缩放因子，ε为一个较小数(防止为0)。

S3：基于S1中单类目标VOC数据集，利用Darknet深度学习框架进行单类目标的YOLOv3-Tiny网络模型训练，采用端到端的训练方式，初始学习率设置为0.001，保存迭代20000次、30000次、40000、50000次后的四个网络模型，比较不同迭代次数下模型的检测效果。

S4：原始图像通过无人机机载单目摄像头获取地面运动目标图像数据，无人机采用大疆四旋翼无人机，型号Mavic Air，单目摄像头型号HF899，像素大小1280×720，2.0驱动，帧率为30帧/秒，包括遥控、飞行控制器、图传设备等。

S5：利用S3中训练得到的模型对S4中的地面运动目标图像进行实时检测，最终得到检测结果图。

改进的网络模型与原网络模型测试所得性能对比结果如表1所示，根据表1对比结果可知，YOLOv3-Tiny网络模型通过改变检测任务的评价指标，网络模型的目标检测准确性mAP提升了2.47％；通过将卷积层与BN层合并，运行速度提升了4.5帧/秒，并且能达到实时检测要求。通过以上两点改进发现召回率提升了4％，于是得出结论：改进后确实提升了检测性能，可用于实际生活中目标检测任务。

表1改进的网络模型与原网络模型测试所得性能对比结果

网络模型	召回率/％	mAP/％	FPS/帧/秒
				YOLOv3-Tiny	82	87.67	24.4
改进YOLOv3-Tiny	86	90.14	28.9

不同迭代次数模型的检测效果如表2所示，根据表2不同迭代次数模型的检测效果数据可知，基于目标VOC数据集训练迭代到30000次时检测效果最好，mAP高达90.14％；不同迭代次数模型的检测速度没有影响，都是28.9帧/秒。故训练网络模型过程中，不一定训练迭代次数越多检测效果越好。

表2不同迭代次数模型的检测效果

迭代次数/次	20000	30000	40000	50000
					mAP/％	89.97	90.14	90.11	90.06
FPS/帧/秒	28.9	28.9	28.9	28.9

本发明改进后的YOLOv3-Tiny检测算法针对VOC数据集检测结果如图4-图10所示，不仅能够检测出简单背景下的目标目标，还可以在非理想条件如目标存在遮挡、多目标干扰条件下，准确的检测出目标目标。根据以上结果可以确定本发明通过改进，不仅提升了准确性与实时性，还降低了实际应用中对硬件的要求，保证能够在低成本的条件下很好的完成实际应用中非理想条件下的目标检测任务。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本发明中，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于YOLOv3-Tiny的运动目标检测方法，其特征在于，包括以下步骤：

S2：改进YOLOv3-Tiny网络模型：

S2-1：改变评价指标，利用GIoU取代IoU评价指标；

S2-2：优化YOLOv3-Tiny的网络结构，将卷积层与BN层合并；

2.根据权利要求1所述的一种基于YOLOv3-Tiny的运动目标检测方法，其特征在于，所述步骤S1中，选取VOC2007数据集作为训练样本。

3.根据权利要求1所述的一种基于YOLOv3-Tiny的运动目标检测方法，其特征在于，所述步骤S1中所述目标的图像特征信息为非理想条件下目标的图像特征信息，所述步骤S4中无人机机载摄像头拍摄地面运动目标的图像为非理想条件下的运动目标的图像。