CN109376736A

CN109376736A - 一种基于深度卷积神经网络的视频小目标检测方法

Info

Publication number: CN109376736A
Application number: CN201811017919.6A
Authority: CN
Inventors: 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-02-22

Abstract

本发明提供一种基于深度卷积神经网络的视频小目标检测方法，利用深度卷积神经网络多层非线性结构的特性对视频目标特征进行整体建模，结合Faster RCNN对于普通视频目标检测快速准确的特点以及ResNet在深度网络特征提取层加入的effective path（多人投票系统），再加上后期对网络结构的精简，提出了一种可以对视频目标进行快速检测，同时兼顾小目标检测的基于深度网络结构ERF‑Net（Efficient Residual Faster rcnn）的视频目标检测方法。本发明的优点如下：对视频中不同远近、不同尺度大小的目标进行准确、快速检测，提高了小目标检测的效果和效率，为后续的目标跟踪、目标再识别等提供了较好的基础。

Description

一种基于深度卷积神经网络的视频小目标检测方法

技术领域

本发明涉及计算机视觉和大数据处理中智能视频监控的技术领域，具体涉及一种基于深度卷积神经网络、能从海量视频数据中快速并准确地检测出感兴趣的小尺度目标的检测方法。

背景技术

如何将视频监控系统获取的海量视频数据利用人工智能的方法进行高效的分析，是近年来计算机视觉和大数据领域备受关注的一个前沿课题。

随着计算机科学技术以及视频监控硬件的快速发展，业界对智能视频监控技术的要求越来越高。所谓的智能视频监控处理技术，主要是指在无需人力干预的情况下，利用计算机视觉的视频分析方法，将视频解析为一个视频序列并自动分析，从而实现对实际监控场景中目标的检测、分类、识别与跟踪，再通过既定算法完成对当前视频目标行为的分析等。这种技术在完美替代传统监控所有功能的同时，还可以对突发的各种异常情况做出迅速反应。

视频目标检测在智能视频监控分析系统中起着关键性的作用，不仅是整个智能视频处理系统的基础部分，更是后续如目标跟踪、目标再识别等各种高级应用的基础。然而，视频中的小目标因尺度较小，极易受到噪声干扰，从而导致误检和漏检，现有技术中的小目标检测，效果不佳，效率也不高，影响后续的目标跟踪、目标再识别的准确性。

发明内容

本发明的目的是提供一种针对不同远近、不同尺寸大小的目标进行快速、准确检测的基于深度卷积神经网络的视频小目标检测方法。

为了达到上述目的，本发明通过以下技术方案来实现：

一种基于深度卷积神经网络的视频小目标检测方法，包括如下步骤：

步骤（1）模型预训练：基于预训练的VGG模型开始网络的迭代训练，在大小为51×39的256通道图像的每一个位置取9个候选窗口，即三种面积{128²,256²,512²}×三种比例{1:1,1:2,2:1}，候选窗口作为anchors,即锚点；

步骤（2）基于深度卷积神经网络的特征提取：加入残差结构的卷积层用于提取特征图，网络使用的损失函数为；

其中，i表示锚点索引值，pi表示前景的softmax预测概率，表示对应的Ground Truth预测概率，t表示预测的bounding box，t*表示前景锚点对应的Ground Truth box，且，，为参数；

步骤（3）获取候选区域及其对应的Softmax概率：依据步骤（1）、（2）中训练得到的网络E-RPN，获取候选ROI区域，获取检测目标的Softmax概率；

步骤（4）读取候选区域及其对应的Softmax概率：将获取的候选ROI区域信息传入网络，将其对应的Softmax概率作为bbox_inside_weights传入网络，通过caffe blob大小对比，计算得出bbox_outside_weights作为参数；

步骤（5）循环迭代训练E-RPN网络：将获取得到的候选ROI区域循环迭代训练网络E-RPN，直至Softmax概率与检测框回归，得到最终模型。

进一步地，步骤（2）中，的取值为：

当第i个anchor与Ground Truth间IoU（intersection-of-union）>0.7，则；当 IoU < 0.3时，则；对于0.3 < IoU < 0.7的锚点则不参与训练。

本发明与现有技术相比，具有以下优点：

本发明一种基于深度卷积神经网络的视频小目标检测方法，利用深度卷积神经网络多层非线性结构的特性对视频目标特征进行整体建模，结合Faster RCNN对于普通视频目标检测快速准确的特点以及ResNet在深度网络特征提取层加入的effective path（多人投票系统），再加上后期对网络结构的精简，提出了一种可以对视频目标进行快速检测，同时兼顾小目标检测的基于深度网络结构ERF-Net（Efficient Residual Faster rcnn）的视频目标检测方法。

本发明的视频检测方法，可以对视频中不同远近、不同尺度大小的目标进行准确、快速检测，提高了小目标检测的效果和效率，为后续的目标跟踪、目标再识别等提供了较好的基础。

附图说明

图1是本发明一种基于深度卷积神经网络的视频小目标检测方法的流程示意图。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。

如图1所示，一种基于深度卷积神经网络的视频小目标检测方法，包括如下步骤：

步骤（1）模型预训练：基于预训练的VGG模型开始网络的迭代训练，在大小为51×39的256通道图像的每一个位置取9个候选窗口，即三种面积{128²,256²,512²}×三种比例{1:1,1:2,2:1}，候选窗口作为anchors，即锚点；

其中，i表示锚点索引值，pi表示前景的softmax预测概率，表示对应的Ground Truth预测概率，t表示预测的bounding box，t*表示前景锚点对应的Ground Truth box，且，，为参数；其中，的取值为：当第i个anchor与 Ground Truth间IoU（intersection-of-union）>0.7，则；当IoU < 0.3时，则；对于0.3 < IoU < 0.7的锚点则不参与训练；

本方法采用的损失函数分为两部分：cls_loss和reg_loss。cls_loss即E-rpn_ cls_loss层计算的softmax loss，用于做前景、背景分类的网络训练；reg_loss即E-rpn_ loss_bbox层计算的soomth L1 loss，用于bounding box回归网络的训练。在该损失函数中乘了，即只关心前景锚点的回归。

由于在实际过程中，和差距过大，用参数平衡二者。如，时，设置，使总的网络Loss计算过程中能够均匀考虑两种Loss。这里比较重要是回归Loss使用的soomth L1 loss，即L_reg(t_i,t_i ^*)。

生成和存储锚点的顺序在训练和检测阶段需要完全一致。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于深度卷积神经网络的视频小目标检测方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种基于深度卷积神经网络的视频小目标检测方法，其特征在于：步骤（2）中，的取值为：