CN108280844B - 一种基于区域候选框跟踪的视频目标定位方法 - Google Patents

一种基于区域候选框跟踪的视频目标定位方法 Download PDF

Info

Publication number
CN108280844B
CN108280844B CN201810111825.9A CN201810111825A CN108280844B CN 108280844 B CN108280844 B CN 108280844B CN 201810111825 A CN201810111825 A CN 201810111825A CN 108280844 B CN108280844 B CN 108280844B
Authority
CN
China
Prior art keywords
frame
image
optical flow
area candidate
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810111825.9A
Other languages
English (en)
Other versions
CN108280844A (zh
Inventor
张仲楠
谢凌伟
朱展图
郑小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810111825.9A priority Critical patent/CN108280844B/zh
Publication of CN108280844A publication Critical patent/CN108280844A/zh
Application granted granted Critical
Publication of CN108280844B publication Critical patent/CN108280844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

一种基于区域候选框跟踪的视频目标定位方法,涉及视频智能监控。初始化;获取稠密光流;运动对象切割;分类及预测。通过对在视频中进行目标检测中共有的10类目标对象进行实验结果对比,比单用Faster R‑CNN不论是检测时长还是检测的准确率都得到了优化,从单类的检测结果来分析,80%的类别对象结果都得到了优化。

Description

一种基于区域候选框跟踪的视频目标定位方法
技术领域
本发明涉及视频智能监控,尤其是涉及一种基于区域候选框跟踪的视频目标定位方法。
背景技术
过去几年,深度学习(Deep Learning,DL)技术在计算机视觉领域得到了广泛的应用,越来越多复杂任务得到了更好的解决方案,尤其是深度卷积神经网络(ConvolutionalNeural Network,CNN)更是在图像分类,目标检测,语义分割等多个视觉任务中取得了巨大成功[1-6]。特别是在目标检测的效率和准确率上都有了显著的提升,这主要得益于先前卷积神经网络在图像分类上取得的巨大成功,比如AlexNet、GoogLeNet等[7,8],但视频的目标检测任然是个巨大的挑战。
目前已有的针对视频目标检测的模型,还不能很好地在效率和准确率之间权衡,要么是模型复杂度过高导致检测效率太慢,无法满足实际场景的检测需求;要么是一味追求效率而出现了过多的漏检和误检的情况,也达不到实际场景的检测标准。所以视频的目标检测是计算机视觉领域的一个难题,但具有很大的实用价值和潜力,尤其是在智能视频监控的应用场景中。
ImageNet是美国斯坦福的计算机科学家,模拟人类的识别系统建立的一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库[9]。其中一个关键任务就是在视频中进行目标检测(Object Detection from Video,VID),这个任务为传统基于图像的目标检测和视频序列数据搭建了一个桥梁,不但要求模型能检测视频中的每一帧图像所包含的对象,还要标出目标所在的位置。
当今主流的基于图像的目标检测技术多数是通过区域侯选款来进行分类和定位的,其中以Girshick等人提出的R-CNN(Regions with CNN features)网络为代表作[10],在此基础上He K和Girshick等人又分别提出了SPPnet(Spatial Pyramid Pooling in DeepConvolutional Networks)和Fast R-CNN来解决网络模型不能以任意尺寸的图像作为输入的缺陷[11-12],之后又设计了用于生成区域侯选款的子网络(Region Proposal Networks,RPN)替代之前的选择性搜索(Selective Search)算法,最终合并形成了Faster R-CNN网络模型[13],这是当前最佳的目标检测模型之一,它在各个数据集上表现出上佳的性能。但若将Faster R-CNN直接应用于视频的目标检测上,依旧不能达到理想的检测效率。之后Redmon等人提出了YOLO模型[14],通过回归模型以整张图像作为输入,大大加速了视频的目标检测效率,虽然吸收先前基于R-CNN的各模型所忽略的全局信息,但是准确率却远不及Faster R-CNN。
想要做到针对视频数据的实时检测,其算法需要高效地将视频中每一帧所包含目标都进行分类和定位。如今基于图像的目标检测显然已经成为视频的目标检测的基石,但即便是Faster R-CNN,也会由于连续帧中目标的外观形变或位置变化而出现漏检和误检的情况,所以直接将图像的目标检测算法应用于视频的目标检测并不能得到理想的效果。然而现有的方法要么是针对单类特殊目标的,如行人或车辆;要么是无法在效率和准确率之间做权衡,如YOLO仅有高效率而牺牲了准确率,而Video Tubelets仅有高准确率,但模型的复杂度过高[15],效率无法满足实际需求。
视频智能监控需要将图像的目标检测和视频的视频序列的相关性相结合,在Faster R-CNN的基础上,融合视频中邻帧之间的光流信息[16],构建了一种基于区域候选框跟踪的视频目标定位方法。该方法主要源于图像的目标检测着重于图像上的外观信息,而视频序列数据所能提供的不仅是静态图像的特征,还有多个连续帧在时空维度上的信息。所以为了吸收所包含的时空信息,该方法会基于上一帧图像的预测结果都会通过光流微调产生下一帧图像的区域候选框,同时捕获到视频中的运动目标,这样既提高了产生区域候选框的效率,而且大大减少了数量,还能改善目标检测的准确率。
参考文献:
[1]Long J,Shelhamer E,Darrell T.Fully convolutional networks forsemantic segmentation[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2015:3431-3440.
[2]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification withdeep convolutional neural networks[C]//Advances in neural informationprocessing systems.2012:1097-1105.
[3]Nam H,Han B.Learning multi-domain convolutional neural networksfor visual tracking[J].arXiv preprint arXiv:1510.07945,2015.
[4]Wang L,Ouyang W,Wang X,et al.Visual tracking with fullyconvolutional networks[C]//Proceedings of the IEEE International Conferenceon Computer Vision.2015:3119-3127.
[5]Valipour S,Siam M,Jagersand M,et al.Recurrent Fully ConvolutionalNetworks for Video Segmentation[J].arXiv preprint arXiv:1606.00487,2016.
[6]Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image captiongeneration with visual attention[J].arXiv preprint arXiv:1502.03044,2015,2(3):5.
[7]He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[J].arXiv preprint arXiv:1512.03385,2015.
[8]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015:1-9.
[9]Deng J,Dong W,Socher R,et al.Imagenet:A large-scale hierarchicalimage database[C]//Computer Vision and Pattern Recognition,2009.CVPR2009.IEEE Conference on.IEEE,2009:248-255.
[10]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies foraccurate object detection and semantic segmentation[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2014:580-587.
[11]He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deepconvolutional networks for visual recognition[C]//European Conference onComputer Vision.Springer International Publishing,2014:346-361.
[12]Girshick R.Fast r-cnn[C]//Proceedings of the IEEE InternationalConference on Computer Vision.2015:1440-1448.
[13]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.
[14]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].2015:779-788.
[15]Kang K,Ouyang W,Li H,et al.Object detection from video tubeletswith convolutional neural networks[J].arXiv preprint arXiv:1604.04053,2016.
[16]Brox T,Malik J.Large displacement optical flow:descriptormatching in variational motion estimation[J].IEEE transactions on patternanalysis and machine intelligence,2011,33(3):500-513.
发明内容
本发明的目的在于提供一种基于区域候选框跟踪的视频目标定位方法。
本发明包括以下步骤:
1)初始化;
在步骤1)中,所述初始化的具体方法为:首先对视频序列数据进行分帧,连续获取所有的帧图像(Video Frames),将第一帧图像作为初始帧,因为第一帧无前驱帧图像的检测结果,即区域候选框的数量等于0,所以帧图像不需要流经候选框跟踪模块,数据流完整流过Faster R-CNN网络,得到初始帧的检测结果,再根据已有的区域候选框数量和通过稠密光流所捕获的运动目标数量总和是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块。
2)获取稠密光流;
在步骤2)中,所述获取稠密光流的具体方法可为:除了第一帧以外的每一帧都计算与前一帧图像之间的稠密光流,根据光流信息可以估计目标的运动情况;在CPU模式下,稀疏光流的计算量远小于稠密光流的计算量,利用GPU加速稠密光流的计算,通过OpenCV获取到的帧图像分辨率,将图像长宽各减半,然后送入GPU计算稠密光流。
3)运动对象切割;
在步骤3)中,所述运动对象切割的具体方法可为:根据前一帧所得到的检测结果,后续帧图像数据是流过完整的Faster R-CNN网络,还是通过区域候选框跟踪模块进行目标重定位,需要根据已有的区域候选框数量和通过稠密光流计算切割所得的运动目标数量总和是否超过10个来判定:
首先,先判定前驱帧图像是否存在目标类别对象,若不存在,则当前帧图像数据直接流过完整的Faster R-CNN网络,即通过区域候选框生成网络产生区域候选框;若存在,则根据利用当前帧和前一帧之间的光流信息,构造稠密光流映射矩阵,然后根据像素点的运动信息的大小对运动目标进行切割,从而得到当前帧图像的区域候选框。
4)分类及预测。
在步骤4)中,所述分类及预测的具体方法可为:经过步骤1)~3),基于运动对象切割所得到的区域候选框,是在前驱可靠的预测结果的基础上进行切割所得,直接进入分类和坐标校准模块,即完成一帧图像的检测。
本发明通过对在视频中进行目标检测(Object Detection from Video,VID)中共有的10类目标对象进行实验结果对比,比单用Faster R-CNN不论是检测时长还是检测的准确率都得到了优化,从单类的检测结果来分析,80%的类别对象结果都得到了优化。
附图说明
图1为本发明实施例的整体流程图。
图2为ZFnet模型结构图。
图3为基于区域候选框跟踪的视频目标定位方法效果展示图。
图4为检测时长及准确率对比图。在图4中,图(A)为检测时长,图(B)为准确率;其中,a为Faster R-CNN,b为Propaosal Tracking。
图5为单类对象检测准确率对比图。在图5中,a为Propaosal Tracking,b为FasterR-CNN。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例的整体流程如图1所示,包括以下步骤:
1)初始化(包括图1中的第一对象和卷积神经网络ZF):
首先对视频序列数据进行分帧,确保连续获取所有的帧图像(Video Frames),即图一中的第一对象,并且第一帧图像作为初始帧。因为没有前驱的检测结果(区域候选框数量等于0),所以不需要通过区域候选框跟踪模块,数据流完整流过Faster R-CNN网络,即通过区域候选框生成网络生成区域候选框,卷积部分以ZFnet作为特征抽取模型(如图2所示),得到初始帧的检测结果。由于Faster R-CNN是基于图像最佳的目标检测模型之一,所以初始帧的检测结果具有高可靠性,基于该结果再根据已有的区域候选框数量,和通过稠密光流所捕获的运动目标数量是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块。
2)获取稠密光流:
除了第一帧以外的每一帧都计算与前一帧图像之间的稠密光流,因为光流能很好地表示相邻帧之间物体的运动信息,所以根据光流信息可以估计目标的运动情况。
但获取光流也面临许多挑战,在CPU模式下,稀疏光流的计算量远小于稠密光流的计算量,稠密光流在CPU模式下无法满足检测效率的期望,但是稠密光流不仅能提供整张图像的详细光流信息,也有利于运动物体分割的实现。所以利用GPU来加速稠密光流的计算(参见文献:[17]Sundaram N,Brox T,Keutzer K.Dense point trajectories by GPU-accelerated large displacement optical flow[C]//European conference oncomputer vision.Springer Berlin Heidelberg,2010:438-451),但对于图像的不同尺寸大小,在GPU上计算稠密光流的时间也相差甚远,图像数据在内存和显存之间交互的开销也不容忽视(稠密光流计算耗时如表1所示),通过OpenCV获取到的帧图像分辨率为480×640,而为了提高交互的效率,将图像长宽各减半,然后送入GPU计算稠密光流。虽然从表中不难看出长宽各减少1/4能明显加速稠密光流的计算时间,但是之所以没有采用这么小的尺寸,是为了权衡时间开销和光流对于远处目标的敏感度,若图像的尺寸太小,会导致小目标物体的缓慢运动不能被捕获。
表1
Figure GDA0002455291730000051
3)运动对象切割:
根据前一帧所得到的检测结果,后续帧图像数据是流过完整的Faster R-CNN网络,还是通过区域候选框跟踪模块进行目标重定位,需要根据已有的区域候选框数量,和通过稠密光流计算切割所得的运动目标数量来判定。
首先,先判定前驱帧图像是否存在目标类别对象(对应图1中第一个判别条件),若不存在,则通过区域候选框生成网络生成区域候选框(对应图1中第二个对象),当前帧图像数据直接流过完整的Faster R-CNN网络;若存在,则根据利用当前帧和前一帧之间的光流信息,构造稠密光流映射矩阵,然后根据该像素点的运动信息的大小对运动目标进行切割,若切割数量和上一帧的检测目标总和超过10个(对应图1中第二个判别条件),则直接重定位上一帧的检测目标为新的区域候选框(对应图1中第三个对象),从而得到当前帧图像的区域候选框(对应图1中第四个对象)。
4)分类及预测:
经过了以上3个步骤,基于运动对象切割所得到的区域候选框,是在前驱可靠的预测结果的基础上进行切割所得,所以不仅本身结果已经具备高可靠性,而且数量远低于区域候选框生成网络所产生的区域候选框数量,最后只需直接进入分类和坐标预测模块即可完成一帧图像的检测(对应图1中第五个对象),如图3所示。
通过对VID中共有的10类目标对象进行实验结果对比,比单用Faster R-CNN不论是检测时长还是检测的准确率都得到了优化(如图4所示),从单类的检测结果来分析,80%的类别对象结果都得到了优化(如图5所示)。

Claims (1)

1.一种基于区域候选框跟踪的视频目标定位方法,其特征在于包括以下步骤:
1)初始化,具体方法为:首先对视频序列数据进行分帧,连续获取所有的帧图像,将第一帧图像作为初始帧,数据流流过Faster R-CNN网络,得到初始帧的检测结果,再根据已有的区域候选框数量和通过稠密光流所捕获的运动目标数量总和是否超过10个判定下一帧图像数据是否需要流过区域候选框跟踪模块;
2)获取稠密光流,具体方法为:除第一帧以外的每一帧都计算与前一帧图像之间的稠密光流,根据光流信息估计目标的运动情况;利用GPU加速稠密光流的计算,通过OpenCV获取到的帧图像分辨率,将图像长宽各减半,然后送入GPU计算稠密光流;
3)运动对象切割,具体方法为:根据前一帧所得到的检测结果,后续帧图像数据是流过完整的Faster R-CNN网络,还是通过区域候选框跟踪模块进行目标重定位,需要根据已有的区域候选框数量和通过稠密光流计算切割所得的运动目标数量总和是否超过10个来判定:
首先,先判定前驱帧图像是否存在目标类别对象,若不存在,则当前帧图像数据直接流过完整的Faster R-CNN网络,即通过区域候选框生成网络产生区域候选框;若存在,则根据利用当前帧和前一帧之间的光流信息,构造稠密光流映射矩阵,然后根据像素点的运动信息的大小对运动目标进行切割,从而得到当前帧图像的区域候选框;
4)分类及预测,具体方法为:经过步骤1)~3),基于运动对象切割所得到的区域候选框,直接进入分类和坐标校准模块,即完成一帧图像的检测。
CN201810111825.9A 2018-02-05 2018-02-05 一种基于区域候选框跟踪的视频目标定位方法 Active CN108280844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810111825.9A CN108280844B (zh) 2018-02-05 2018-02-05 一种基于区域候选框跟踪的视频目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810111825.9A CN108280844B (zh) 2018-02-05 2018-02-05 一种基于区域候选框跟踪的视频目标定位方法

Publications (2)

Publication Number Publication Date
CN108280844A CN108280844A (zh) 2018-07-13
CN108280844B true CN108280844B (zh) 2020-07-24

Family

ID=62807617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810111825.9A Active CN108280844B (zh) 2018-02-05 2018-02-05 一种基于区域候选框跟踪的视频目标定位方法

Country Status (1)

Country Link
CN (1) CN108280844B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569698B (zh) * 2018-08-31 2023-05-12 创新先进技术有限公司 一种图像目标检测及语义分割方法和装置
CN109784183B (zh) * 2018-12-17 2022-07-19 西北工业大学 基于级联卷积网络和光流的视频显著性目标检测方法
CN109948790A (zh) * 2019-03-27 2019-06-28 苏州浪潮智能科技有限公司 一种神经网络处理方法、装置、设备及存储介质
CN110516670B (zh) * 2019-08-26 2022-04-22 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法
CN112257569B (zh) * 2020-10-21 2021-11-19 青海城市云大数据技术有限公司 一种基于实时视频流的目标检测和识别方法
CN113808162B (zh) * 2021-08-26 2024-01-23 中国人民解放军军事科学院军事医学研究院 目标跟踪方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107493488A (zh) * 2017-08-07 2017-12-19 上海交通大学 基于Faster R‑CNN模型的视频内容物智能植入的方法
CN107563345A (zh) * 2017-09-19 2018-01-09 桂林安维科技有限公司 一种基于时空显著性区域检测的人体行为分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107493488A (zh) * 2017-08-07 2017-12-19 上海交通大学 基于Faster R‑CNN模型的视频内容物智能植入的方法
CN107563345A (zh) * 2017-09-19 2018-01-09 桂林安维科技有限公司 一种基于时空显著性区域检测的人体行为分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Integration of image quality and motion cues for face anti-spoofing: A neural network approach";Litong Feng etal.;《J. Vis. Commun. Image R.》;20161231;第1-14页 *
"Large Displacement Optical Flow:Descriptor Matching in Variational Motion Estimation";Thomas Brox etal.;《IEEE》;20111231;第451-460页 *
"基于稠密光流的视频运动分割";李龙生;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160115;第1-5章 *

Also Published As

Publication number Publication date
CN108280844A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280844B (zh) 一种基于区域候选框跟踪的视频目标定位方法
Liu et al. Crowd counting using deep recurrent spatial-aware network
Xiong et al. Spatiotemporal modeling for crowd counting in videos
CN108921875B (zh) 一种基于航拍数据的实时车流检测与追踪方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Asha et al. Vehicle counting for traffic management system using YOLO and correlation filter
Min et al. A new approach to track multiple vehicles with the combination of robust detection and two classifiers
Chavdarova et al. Deep multi-camera people detection
WO2021098261A1 (zh) 一种目标检测方法与装置
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
Kuang et al. Real-time pedestrian detection using convolutional neural networks
CN111160291A (zh) 基于深度信息与cnn的人眼检测方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
Su et al. Real-time dynamic SLAM algorithm based on deep learning
Zhang et al. Modeling long-and short-term temporal context for video object detection
CN116402850A (zh) 一种面向智能驾驶的多目标跟踪方法
Chen et al. Stingray detection of aerial images with region-based convolution neural network
Jeyabharathi Cut set-based dynamic key frame selection and adaptive layer-based background modeling for background subtraction
Yu et al. Detecting Line Segments in Motion-blurred Images with Events
Hao et al. Information entropy augmented high density crowd counting network
CN113205545B (zh) 区域环境下的行为识别分析方法、系统
CN115512263A (zh) 一种面向高空坠物的动态视觉监测方法及装置
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
Lu et al. Custom Object Detection via Multi-Camera Self-Supervised Learning
Zhang et al. Multi-Moving Camera Pedestrian Tracking with a New Dataset and Global Link Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant