CN108280844A

CN108280844A - 一种基于区域候选框跟踪的视频目标定位方法

Info

Publication number: CN108280844A
Application number: CN201810111825.9A
Authority: CN
Inventors: 张仲楠; 谢凌伟; 朱展图; 郑小平
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-07-13
Anticipated expiration: 2038-02-05
Also published as: CN108280844B

Abstract

一种基于区域候选框跟踪的视频目标定位方法，涉及视频智能监控。初始化；获取稠密光流；运动对象切割；分类及预测。通过对在视频中进行目标检测中共有的10类目标对象进行实验结果对比，比单用Faster R‑CNN不论是检测时长还是检测的准确率都得到了优化，从单类的检测结果来分析，80％的类别对象结果都得到了优化。

Description

一种基于区域候选框跟踪的视频目标定位方法

技术领域

本发明涉及视频智能监控，尤其是涉及一种基于区域候选框跟踪的视频目标定位方法。

背景技术

过去几年，深度学习(Deep Learning，DL)技术在计算机视觉领域得到了广泛的应用，越来越多复杂任务得到了更好的解决方案，尤其是深度卷积神经网络(ConvolutionalNeural Network，CNN)更是在图像分类，目标检测，语义分割等多个视觉任务中取得了巨大成功^[1-6]。特别是在目标检测的效率和准确率上都有了显著的提升，这主要得益于先前卷积神经网络在图像分类上取得的巨大成功，比如AlexNet、GoogLeNet等^[7，8]，但视频的目标检测任然是个巨大的挑战。

目前已有的针对视频目标检测的模型，还不能很好地在效率和准确率之间权衡，要么是模型复杂度过高导致检测效率太慢，无法满足实际场景的检测需求；要么是一味追求效率而出现了过多的漏检和误检的情况，也达不到实际场景的检测标准。所以视频的目标检测是计算机视觉领域的一个难题，但具有很大的实用价值和潜力，尤其是在智能视频监控的应用场景中。

ImageNet是美国斯坦福的计算机科学家，模拟人类的识别系统建立的一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库^[9]。其中一个关键任务就是在视频中进行目标检测(Object Detection from Video，VID)，这个任务为传统基于图像的目标检测和视频序列数据搭建了一个桥梁，不但要求模型能检测视频中的每一帧图像所包含的对象，还要标出目标所在的位置。

当今主流的基于图像的目标检测技术多数是通过区域侯选款来进行分类和定位的，其中以Girshick等人提出的R-CNN(Regions with CNN features)网络为代表作^[10]，在此基础上He K和Girshick等人又分别提出了SPPnet(Spatial Pyramid Pooling in DeepConvolutional Networks)和Fast R-CNN来解决网络模型不能以任意尺寸的图像作为输入的缺陷^[11-12]，之后又设计了用于生成区域侯选款的子网络(Region Proposal Networks，RPN)替代之前的选择性搜索(Selective Search)算法，最终合并形成了Faster R-CNN网络模型^[13]，这是当前最佳的目标检测模型之一，它在各个数据集上表现出上佳的性能。但若将Faster R-CNN直接应用于视频的目标检测上，依旧不能达到理想的检测效率。之后Redmon等人提出了YOLO模型^[14]，通过回归模型以整张图像作为输入，大大加速了视频的目标检测效率，虽然吸收先前基于R-CNN的各模型所忽略的全局信息，但是准确率却远不及Faster R-CNN。

想要做到针对视频数据的实时检测，其算法需要高效地将视频中每一帧所包含目标都进行分类和定位。如今基于图像的目标检测显然已经成为视频的目标检测的基石，但即便是Faster R-CNN，也会由于连续帧中目标的外观形变或位置变化而出现漏检和误检的情况，所以直接将图像的目标检测算法应用于视频的目标检测并不能得到理想的效果。然而现有的方法要么是针对单类特殊目标的，如行人或车辆；要么是无法在效率和准确率之间做权衡，如YOLO仅有高效率而牺牲了准确率，而Video Tubelets仅有高准确率，但模型的复杂度过高^[15]，效率无法满足实际需求。

视频智能监控需要将图像的目标检测和视频的视频序列的相关性相结合，在Faster R-CNN的基础上，融合视频中邻帧之间的光流信息^[16]，构建了一种基于区域候选框跟踪的视频目标定位方法。该方法主要源于图像的目标检测着重于图像上的外观信息，而视频序列数据所能提供的不仅是静态图像的特征，还有多个连续帧在时空维度上的信息。所以为了吸收所包含的时空信息，该方法会基于上一帧图像的预测结果都会通过光流微调产生下一帧图像的区域候选框，同时捕获到视频中的运动目标，这样既提高了产生区域候选框的效率，而且大大减少了数量，还能改善目标检测的准确率。

参考文献：

[1]Long J,Shelhamer E,Darrell T.Fully convolutional networks forsemantic segmentation[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2015:3431-3440.

[2]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification withdeep convolutional neural networks[C]//Advances in neural informationprocessing systems.2012:1097-1105.

[3]Nam H,Han B.Learning multi-domain convolutional neural networksfor visual tracking[J].arXiv preprint arXiv:1510.07945,2015.

[4]Wang L,Ouyang W,Wang X,et al.Visual tracking with fullyconvolutional networks[C]//Proceedings of the IEEE International Conferenceon Computer Vision.2015:3119-3127.

[5]Valipour S,Siam M,Jagersand M,et al.Recurrent Fully ConvolutionalNetworks for Video Segmentation[J].arXiv preprint arXiv:1606.00487,2016.

[6]Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image captiongeneration with visual attention[J].arXiv preprint arXiv:1502.03044,2015,2(3):5.

[7]He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[J].arXiv preprint arXiv:1512.03385,2015.

[8]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015:1-9.

[9]Deng J,Dong W,Socher R,et al.Imagenet:A large-scale hierarchicalimage database[C]//Computer Vision and Pattern Recognition,2009.CVPR2009.IEEE Conference on.IEEE,2009:248-255.

[10]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies foraccurate object detection and semantic segmentation[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2014:580-587.

[11]He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deepconvolutional networks for visual recognition[C]//European Conference onComputer Vision.Springer International Publishing,2014:346-361.

[12]Girshick R.Fast r-cnn[C]//Proceedings of the IEEE InternationalConference on Computer Vision.2015:1440-1448.

[13]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.

[14]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].2015:779-788.

[15]Kang K,Ouyang W,Li H,et al.Object detection from video tubeletswith convolutional neural networks[J].arXiv preprint arXiv:1604.04053,2016.

[16]Brox T,Malik J.Large displacement optical flow:descriptormatching in variational motion estimation[J].IEEE transactions on patternanalysis and machine intelligence,2011,33(3):500-513.

发明内容

本发明的目的在于提供一种基于区域候选框跟踪的视频目标定位方法。

本发明包括以下步骤：

1)初始化；

在步骤1)中，所述初始化的具体方法为：首先对视频序列数据进行分帧，连续获取所有的帧图像(Video Frames)，将第一帧图像作为初始帧，因为第一帧无前驱帧图像的检测结果，即区域候选框的数量等于0，所以帧图像不需要流经候选框跟踪模块，数据流完整流过Faster R-CNN网络，得到初始帧的检测结果，再根据已有的区域候选框数量和通过稠密光流所捕获的运动目标数量总和是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块。

2)获取稠密光流；

在步骤2)中，所述获取稠密光流的具体方法可为：除了第一帧以外的每一帧都计算与前一帧图像之间的稠密光流，根据光流信息可以估计目标的运动情况；在CPU模式下，稀疏光流的计算量远小于稠密光流的计算量，利用GPU加速稠密光流的计算，通过OpenCV获取到的帧图像分辨率，将图像长宽各减半，然后送入GPU计算稠密光流。

3)运动对象切割；

在步骤3)中，所述运动对象切割的具体方法可为：根据前一帧所得到的检测结果，后续帧图像数据是流过完整的Faster R-CNN网络，还是通过区域候选框跟踪模块进行目标重定位，需要根据已有的区域候选框数量和通过稠密光流计算切割所得的运动目标数量总和是否超过10个来判定：

首先，先判定前驱帧图像是否存在目标类别对象，若不存在，则当前帧图像数据直接流过完整的Faster R-CNN网络，即通过区域候选框生成网络产生区域候选框；若存在，则根据利用当前帧和前一帧之间的光流信息，构造稠密光流映射矩阵，然后根据像素点的运动信息的大小对运动目标进行切割，从而得到当前帧图像的区域候选框。

4)分类及预测。

在步骤4)中，所述分类及预测的具体方法可为：经过步骤1)～3)，基于运动对象切割所得到的区域候选框，是在前驱可靠的预测结果的基础上进行切割所得，直接进入分类和坐标校准模块，即完成一帧图像的检测。

本发明通过对在视频中进行目标检测(Object Detection from Video，VID)中共有的10类目标对象进行实验结果对比，比单用Faster R-CNN不论是检测时长还是检测的准确率都得到了优化，从单类的检测结果来分析，80％的类别对象结果都得到了优化。

附图说明

图1为本发明实施例的整体流程图。

图2为ZFnet模型结构图。

图3为基于区域候选框跟踪的视频目标定位方法效果展示图。

图4为检测时长及准确率对比图。在图4中，图(A)为检测时长，图(B)为准确率；其中，a为Faster R-CNN，b为Propaosal Tracking。

图5为单类对象检测准确率对比图。在图5中，a为Propaosal Tracking，b为FasterR-CNN。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明实施例的整体流程如图1所示，包括以下步骤：

1)初始化(包括图1中的第一对象和卷积神经网络ZF)：

首先对视频序列数据进行分帧，确保连续获取所有的帧图像(Video Frames)，即图一中的第一对象，并且第一帧图像作为初始帧。因为没有前驱的检测结果(区域候选框数量等于0)，所以不需要通过区域候选框跟踪模块，数据流完整流过Faster R-CNN网络，即通过区域候选框生成网络生成区域候选框，卷积部分以ZFnet作为特征抽取模型(如图2所示)，得到初始帧的检测结果。由于Faster R-CNN是基于图像最佳的目标检测模型之一，所以初始帧的检测结果具有高可靠性，基于该结果再根据已有的区域候选框数量，和通过稠密光流所捕获的运动目标数量是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块。

2)获取稠密光流：

除了第一帧以外的每一帧都计算与前一帧图像之间的稠密光流，因为光流能很好地表示相邻帧之间物体的运动信息，所以根据光流信息可以估计目标的运动情况。

但获取光流也面临许多挑战，在CPU模式下，稀疏光流的计算量远小于稠密光流的计算量，稠密光流在CPU模式下无法满足检测效率的期望，但是稠密光流不仅能提供整张图像的详细光流信息，也有利于运动物体分割的实现。所以利用GPU来加速稠密光流的计算(参见文献：[17]Sundaram N,Brox T,Keutzer K.Dense point trajectories by GPU-accelerated large displacement optical flow[C]//European conference oncomputer vision.Springer Berlin Heidelberg,2010:438-451)，但对于图像的不同尺寸大小，在GPU上计算稠密光流的时间也相差甚远，图像数据在内存和显存之间交互的开销也不容忽视(稠密光流计算耗时如表1所示)，通过OpenCV获取到的帧图像分辨率为480×640，而为了提高交互的效率，将图像长宽各减半，然后送入GPU计算稠密光流。虽然从表中不难看出长宽各减少1/4能明显加速稠密光流的计算时间，但是之所以没有采用这么小的尺寸，是为了权衡时间开销和光流对于远处目标的敏感度，若图像的尺寸太小，会导致小目标物体的缓慢运动不能被捕获。

表1

3)运动对象切割：

根据前一帧所得到的检测结果，后续帧图像数据是流过完整的Faster R-CNN网络，还是通过区域候选框跟踪模块进行目标重定位，需要根据已有的区域候选框数量，和通过稠密光流计算切割所得的运动目标数量来判定。

首先，先判定前驱帧图像是否存在目标类别对象(对应图1中第一个判别条件)，若不存在，则通过区域候选框生成网络生成区域候选框(对应图1中第二个对象)，当前帧图像数据直接流过完整的Faster R-CNN网络；若存在，则根据利用当前帧和前一帧之间的光流信息，构造稠密光流映射矩阵，然后根据该像素点的运动信息的大小对运动目标进行切割，若切割数量和上一帧的检测目标总和超过10个(对应图2中第二个判别条件)，则直接重定位上一帧的检测目标为新的区域候选框(对应图1中第三个对象)，从而得到当前帧图像的区域候选框(对应图1中第四个对象)。

4)分类及预测：

经过了以上3个步骤，基于运动对象切割所得到的区域候选框，是在前驱可靠的预测结果的基础上进行切割所得，所以不仅本身结果已经具备高可靠性，而且数量远低于区域候选框生成网络所产生的区域候选框数量，最后只需直接进入分类和坐标预测模块即可完成一帧图像的检测(对应图1中第五个对象)，如图3所示。

通过对VID中共有的10类目标对象进行实验结果对比，比单用Faster R-CNN不论是检测时长还是检测的准确率都得到了优化(如图4所示)，从单类的检测结果来分析，80％的类别对象结果都得到了优化(如图5所示)。

Claims

1.一种基于区域候选框跟踪的视频目标定位方法，其特征在于包括以下步骤：

1)初始化；

2)获取稠密光流；

3)运动对象切割；

4)分类及预测。

2.如权利要求1所述一种基于区域候选框跟踪的视频目标定位方法，其特征在于在步骤1)中，所述初始化的具体方法为：首先对视频序列数据进行分帧，连续获取所有的帧图像，将第一帧图像作为初始帧，数据流流过Faster R-CNN网络，得到初始帧的检测结果，再根据已有的区域候选框数量和通过稠密光流所捕获的运动目标数量总和是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块。

3.如权利要求1所述一种基于区域候选框跟踪的视频目标定位方法，其特征在于在步骤2)中，所述获取稠密光流的具体方法为：除第一帧以外的每一帧都计算与前一帧图像之间的稠密光流，根据光流信息估计目标的运动情况；在CPU模式下，稀疏光流的计算量远小于稠密光流的计算量，利用GPU加速稠密光流的计算，通过OpenCV获取到的帧图像分辨率，将图像长宽各减半，然后送入GPU计算稠密光流。

4.如权利要求1所述一种基于区域候选框跟踪的视频目标定位方法，其特征在于在步骤3)中，所述运动对象切割的具体方法为：根据前一帧所得到的检测结果，后续帧图像数据是流过完整的Faster R-CNN网络，还是通过区域候选框跟踪模块进行目标重定位，需要根据已有的区域候选框数量和通过稠密光流计算切割所得的运动目标数量总和是否超过10个来判定：

5.如权利要求1所述一种基于区域候选框跟踪的视频目标定位方法，其特征在于在步骤4)中，所述分类及预测的具体方法为：经过步骤1)～3)，基于运动对象切割所得到的区域候选框，是在前驱可靠的预测结果的基础上进行切割所得，直接进入分类和坐标校准模块，即完成一帧图像的检测。