CN110363100A

CN110363100A - 一种基于YOLOv3的视频目标检测方法

Info

Publication number: CN110363100A
Application number: CN201910548173.XA
Authority: CN
Inventors: 刘辉; 杨旭
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-22

Abstract

本发明涉及一种基于YOLOv3的视频目标检测方法，属于目标检测和计算机视觉技术领域。首先使用检测的图像定义视觉任务。利用特征网络对输入图像提取特征，得到一定尺寸的特征图，例如13*13，然后将输入分成13*13个网络单元，然后如果groundtruth中某个物体的中心坐标落在那个网络单元中，那么该网络单元来预测该物体。通过YOLOLv3采用多标签分类和多个规模融合的方式做预测本发明结合深度学习卷积神经网络思想，利用卷积特征替代传统手工特征，避免了传统检测问题中特征选择问题。深层卷积特征具有更好的表达能力同时解决了视频目标检测问题提供了更加泛化和简洁的解决思路。对于小目标检测效果提升有显著的效果。

Description

一种基于YOLOv3的视频目标检测方法

技术领域

本发明涉及一种基于YOLOv3的视频目标检测方法，属于目标检测和计算机视觉技术领域。

背景技术

视频目标检测技术是智能化视频分析的基础。目前几种常用的视频目标检测方法简介如下：背景减除、时间差分、光流。

背景减除(Background Subtraction)方法是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据，但对于动态场景的变化，如光线照射情况和外来无关事件的干扰等也特别敏感。实际上，背景的建模是背景减除方法的技术关键。最简单的背景模型是时间平均图像，即利用同一场景在一个时段的平均图像作为该场景的背景模型。由于该模型是固定的，一旦建立之后，对于该场景图像所发生的任何变化都比较敏感，比如阳光照射方向，影子，树叶随风摇动等。大部分的研究人员目前都致力于开发更加实用的背景模型，以期减少动态场景变化对于运动目标检测效果的影响。

时间差分(Temporal Difference又称相邻帧差)方法充分利用了视频图像的特征，从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像，若仔细对比相邻两帧，可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。我们利用连续的图像序列中两个或三个相邻帧之间的时间差分，并且用阈值来提取出视频图像中的运动目标的方法。我们采用三帧差分的方法，即当某一个像素在连续三帧视频图像上均有相当程度的变化(及大于设定的阈值时)，我们便确定该像素属于运动目标。时间差分运动检测方法对于动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特征像素点，在运动实体内部容易产生空洞现象，只能够检测到目标的边缘。而且，当运动目标停止运动时，一般时间差分方法便失效。

基于光流方法(Optical Flow)的运动检测采用了运动目标随时间变化的光流特性，如Meyer等作者通过计算位移向量光流场来初始化基于轮廓的跟踪算法，从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而，大多数的光流计算方法相当复杂，且抗噪性能差，如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。

当然，在运动检测中还有一些其它的方法，如运动向量检测法，它适合于多维变化的环境，能消除背景中的振动像素，使某一方向的运动对象更加突出的显示出来。但是，运动向量检测法也不能精确地分割出对象。

发明内容

本发明要解决的技术问题是提供一种基于YOLOv3的视频目标检测方法，用于解决视频目标检测特征选择的困难和识别率不高、受深度旋转影响较大、图像中的亮度、对比度的变化和阴影的影响、以及对小目标检测精度不高的问题。

本发明的技术方案是：一种基于YOLOv3的视频目标检测方法，在基本特征提取器中增加了几个卷积层，并用最后的卷积层预测一个三维张量编码：边界框、框中目标和分类预测。再对每个边界框通过逻辑回归预测目标物体的得分，如果预测的这个边界框与真实的边框值大部分重合且比其他所有预测的要好，那么这个值就为1.如果重复比没有达到一个阈值(yolov3中这里设定的阈值是0.5)，那么这个预测的边界框将会被忽略，也就是会显示成没有损失值。

具体为：

Step1：定义视频视觉任务；

Step2：通过特征网络对输入图像提取特征，得到一定尺寸的特征图；

Step3：通过groundtruth中的物体中心坐标在那个网络单元中，接着由该网络单元来预测该物体；

Step4、利用边界框中和groundtruth的IOU最大的边界框来预测该物体。

所述步骤step2中图像采用448*448，特征网络采用Darknet-53架构，Darknet-53包含卷积层，池化层，Softmax层，一方面基本采用全卷积，另一方面引入了residul结构，该结构避免了相类似于VGG那样直筒型的网络结构，层数太多训练起来会有梯度问题，因此采用了residul结构，大大的减轻了网络训练难度。该网络采用Softmax分类器做训练，学习率0.001，批量大小为64，为采用批量标准化对权重参数和偏置参数进行迭代训练，设置权重衰减速率weight_decay默认为0.0001，动力为0.9，批量标准化的衰减速率默认为0.997，池化层采用平均池化方式，同时将最大池化的Padding的模式设为SAME，迭代测试40200次。

所述步骤step3中采用跨尺度的预测，YOLOv3有三个尺度预测边界框，使用特征提取模型通过FPN(feature pyramid network)网络上进行改变，YOLOv3使用K-Means聚类来得到边界框，选择9个簇以及3个尺度，然后将这9个簇均匀的分布在这几个尺度上。

所述步骤step4中每个通过边界框回归预测一个物体的得分，如果预测的这个边界框与真实的边框值重合度超过一半且优于其他所有预测，那么这个值就为1；如果overlap没有达到一个阈值(设定的阈值是0.5)，那么这个预测的边界框将会被忽略，也就是会显示成没有损失值。

本发明的有益效果是：在YOLOv3的视频目标检测方法中精度有较大的提高，优化了网络结构，在识别的速度上有一定的提高，对小目标检测有很好的精度。

附图说明

图1是本发明的流程图；

图2是本发明所采用的Darknet-53模型图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-2所示，一种基于YOLOv3的视频目标检测方法，首先使用检测的图像定义视觉任务。利用特征网络对输入图像提取特征，得到一定尺寸的特征图，例如13*13，然后将输入分成13*13个网络单元，然后如果groundtruth中某个物体的中心坐标落在那个网络单元中，那么该网络单元来预测该物体。通过YOLOLv3采用多标签分类和多个规模融合的方式做预测本发明结合深度学习卷积神经网络思想，利用卷积特征替代传统手工特征，避免了传统检测问题中特征选择问题。

具体为：

Step1：定义视频视觉任务；

所述步骤step2中图像采用448*448，特征网络采用Darknet-53架构，Darknet-53包含卷积层，池化层，Softmax层，采用全卷积，引入residul结构，采用Softmax分类器做训练，学习率0.001，批量大小为64，为采用批量标准化对权重参数和偏置参数进行迭代训练，设置权重衰减速率weight_decay默认为0.0001，动力为0.9，批量标准化的衰减速率默认为0.997，池化层采用平均池化方式，同时将最大池化的Padding的模式设为SAME，迭代测试40200次。

所述步骤step3中采用跨尺度的预测，YOLOv3有三个尺度预测边界框，使用特征提取模型通过FPN网络上进行改变，YOLOv3使用K-Means聚类来得到边界框，选择9个簇以及3个尺度，然后将这9个簇均匀的分布在这几个尺度上。

所述步骤step4中每个通过边界框回归预测一个物体的得分，如果预测的这个边界框与真实的边框值重合度超过一半且优于其他所有预测，那么这个值就为1；如果overlap没有达到设定的阈值，那么这个预测的边界框显示为没有损失值。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于YOLOv3的视频目标检测方法，其特征在于：

Step1：定义视频视觉任务；

2.根据权利要求1所述的基于YOLOv3的视频目标检测方法，其特征在于：所述步骤step2中图像采用448*448，特征网络采用Darknet-53架构，Darknet-53包含卷积层，池化层，Softmax层，采用全卷积，引入residul结构，采用Softmax分类器做训练，学习率0.001，批量大小为64，为采用批量标准化对权重参数和偏置参数进行迭代训练，设置权重衰减速率weight_decay默认为0.0001，动力为0.9，批量标准化的衰减速率默认为0.997，池化层采用平均池化方式，同时将最大池化的Padding的模式设为SAME，迭代测试40200次。

3.根据权利要求1所述的基于YOLOv3的视频目标检测方法，其特征在于：所述步骤step3中采用跨尺度的预测，YOLOv3有三个尺度预测边界框，使用特征提取模型通过FPN网络上进行改变，YOLOv3使用K-Means聚类来得到边界框，选择9个簇以及3个尺度，然后将这9个簇均匀的分布在这几个尺度上。

4.根据权利要求1所述的基于YOLOv3的视频目标检测方法，其特征在于：所述步骤step4中每个通过边界框回归预测一个物体的得分，如果预测的这个边界框与真实的边框值重合度超过一半且优于其他所有预测，那么这个值就为1；如果overlap没有达到设定的阈值，那么这个预测的边界框显示为没有损失值。