CN110175597A

CN110175597A - 一种融合特征传播与聚合的视频目标检测方法

Info

Publication number: CN110175597A
Application number: CN201910483441.4A
Authority: CN
Inventors: 曹丹阳; 杨建�; 马金锋; 田学法; 贺珊珊
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-08-27

Abstract

本发明公开了一种融合特征传播与聚合的视频目标检测方法，其特征在于，包括稀疏特征传播和密集特征聚合；所述稀疏特征传播的方法能够生成非关键帧的特征图像，以降低特征网络部分的计算量，提高整体检测速度；所述密集特征聚合将相邻帧在运动路径上的特征均聚合到当前帧的特征中，增强当前帧的特征，提高后续视频识别的检测精度。本发明基于视频的目标检测具有同图像目标检测相同的评价指标，使用MAP作为检测精度上的衡量，FPS作为检测速度上的衡量，且均追求在精度和速度上获得最好的均衡；本发明方法能够提高速度和精度。

Description

一种融合特征传播与聚合的视频目标检测方法

技术领域

本发明涉及基于计算机视觉技术的智能监控系统领域，具体是一种融合特征传播与聚合的视频目标检测方法。

背景技术

目标检测是计算机视觉领域中一个富有挑战性的课题，其主要目的是从静态图像或者视频中识别并定位一个或多个有效目标。传统的目标检测任务主要通过人工提取特征模型建立，常用的特征包括：HOG(Histogram of Oriented Gradient,HOG),SIFT(Scale-invariant feature transform,SIFT)和Haar(Haar-like features,Haar)等，特征提取模型之后进行支持向量机或者Adaboost的分类任务，进而得到我们所关注的目标结果。由于这种特征模型对复杂场景多类目标的检测具有局限性，因此当前最先进的目标检测算法均引入具备更强大表征能力的深度卷积神经网络得到图像的多层特征信息，既包含前级卷积层得到的细节纹理等特征，又包含后级卷积层得到的在语义语境方面更加抽象的高层信息。在此基础上结合多种候选边框选取策略，结合区域回归算法与物体分类算法形成可端到端训练的，可应用于多种复杂场景的多目标检测统一模型。

其中，基于深度学习的两类目标检测模型更为流行。一类是含有物体边界区域建议的，比如R-CNN、Fast R-CNN、Faster R-CNN和R-FCN等模型，该类模型使用枚举法预先假设目标候选区域，再逐步微调和优化目标位置，最终实现对其分类识别，该类方法具有较高的检测精度，但是速度较慢。另一类是直接生成边界区域，比如YOLO和SSD等One-stage的检测模型，该类模型在进行目标预测时可以同时进行预测边界框和分类识别，检测速度上有非常明显的提升，但是往往存在漏检等检测低精度的问题。

发明内容

本发明的目的在于提供一种融合特征传播与聚合的视频目标检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种融合特征传播与聚合的视频目标检测方法，其特征在于，包括稀疏特征传播和密集特征聚合。

所述稀疏特征传播的方法能够生成非关键帧的特征图像，以降低特征网络部分的计算量，提高整体检测速度；稀疏特征传播采用视频帧之间的相似性来降低特征计算成本，每隔n张(根据实际情况可以随机确定n的大小，一般取10)抽取视频中的关键帧通过深度卷积网络得到关键帧特征图，对于非关键帧，其特征图的计算则来源于最近邻关键帧以及其与当前非关键帧之间的运动变化矢量的加和，通常用光流矢量的计算定量临近两帧之间的信息差值。

所述密集特征聚合将相邻帧在运动路径上的特征均聚合到当前帧的特征中，增强当前帧的特征，提高后续视频识别的检测精度；其是通过Flow-guided featureaggregation网络来实现的。

所述稀疏特征传播到当前帧i的特征图F_k→i计算如下：

F_k→i＝ω(F_k，M_i→k)

其中F表示由关键帧Input_frames_i到非关键帧Input_frames_k之间的光流计算，可以通过光流网络计算N_flow(Input_frames_k,Input_frames_i)＝M_i→k得到；M_i→k对应一个二维矩阵，表征当前帧上任一点p(x,y)与关键帧上的相应位置上的光流失量ΔP，其尺寸和当前帧大小一致。

ω表示关键帧特征信息针对光流矢量的映射运算；映射后的特征信息可以表征当前非关键帧的特征向量，再通过N_det网络来计算k时刻的检测结果F_k→i；网络可以同时实现让F_k→i自动去接近fi的，包括计算光流网络N_flow在内的端到端的训练。

所述Flow-guided feature aggregation网络需要计算视频每一帧的特征图；对于视频流的第i个时刻的关键帧，需要其之前和之后一段时间(根据实际情况可以随机确定时间段大小，最常见的是取10帧)的特征信息以某种规则合理的补充与添加到当前帧特征计算中去；一般来说，给每个时间帧分配一定权重系数，来对前后i+2r个特征图对应位置的值加权求和来得到当前帧的聚合特征图F′_i，具体计算如公式：

F′_i(p)＝Σ_{k∈[i-r，i+r]}W_k→i(p)·F_k→i

其中W_k→i(p)为相邻帧k特征图映射到当前帧i特征图的自适应权重系数，F_k→i与公式F_k→i＝ω(F_k，M_i→k)意义相同；P对应一个代表多通道像素位置的多维矩阵；权重系数W_k→i(p)用下方公式定义：

权重系数W_k→i(p)表征当前系统缓存中临近关键帧特征信息对于当前帧的重要程度；特别是在位置P，如果映射后的特征F_k→i(P)和F_i(P)很相近，则它会被赋予一个大的权重，反之则相反；其中F^e表示特征图经过由三个卷积层组成的内嵌映射网络ε(·)(Embedding network)。

与现有技术相比，本发明基于视频的目标检测具有同图像目标检测相同的评价指标，使用MAP作为检测精度上的衡量，FPS作为检测速度上的衡量，且均追求在精度和速度上获得最好的均衡；本发明方法能够提高速度和精度。

附图说明

图1为稀疏特征传播示意图。

图2为密集特征聚合示意图。

图3为视频目标效果检测对比图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

在视频目标检测方法中，通常采用稀疏特征传播的方法生成非关键帧的特征图像以降低特征网络部分的计算量，提高整体检测速度；视频流文件中，一般相邻的前后帧信息相互关联，差别不大，体现在深度特征图中的相似性会更强；因此，重新计算视频文件中每一帧文件的特征信息将会导致很多重复计算，不利于视频检测的实时性需求。

请参阅图1-3，一种融合特征传播与聚合的视频目标检测方法，包括稀疏特征传播和密集特征聚合；所述稀疏特征传播方式能够提高检测速度，密集特征聚合能够提高检测精度。

如图1所示，深灰色部分为关键帧，浅灰色部分为非关键帧，关键帧的信息要加和光流信息一起传播到临近非关键帧中去。

这种将稀疏的关键帧的特征信息传播到非关键帧中的方法可以用如下的算法实现：

其中F表示由关键帧Input_frames_i到非关键帧Input_frames_k之间的光流计算，可以通过光流网络计算N_flow(Input_frames_k,Input_frames_i)＝M_i→k得到；M_i→k对应一个二维矩阵，表征当前帧上任一点p(x,y)与关键帧上的相应位置上的光流失量ΔP，其尺寸和当前帧大小一致；传播到当前帧i的特征图F_k→i计算如公式(1)：

F_k→i＝ω(F_k，M_i→k) (1)

需要注意的是，在使用稀疏特征传播方式的Deep Feature Flow网络中，因为N_feat网络累计的stride是16，所以特征图F_k会是原始图像的十六分之一；N_flow光流网络的累计的stride是4，加上原始图像的二分之一缩小预处理，所以M_i→k会比原始图像小8倍；因此，要完成映射操作需要使用双线性下采样来使得光流场和最近邻的关键帧的特征图F_k尺寸对齐。

如图2所示，所述密集特征聚合将相邻帧在运动路径上的特征均聚合到当前帧的特征中，增强当前帧的特征，提高后续视频识别的检测精度；其是通过Flow-guidedfeature aggregation网络来实现的。

Flow-guided feature aggregation网络需要计算视频每一帧的特征图；对于视频流的第i个时刻的关键帧，需要其之前和之后一段时间(根据实际情况可以随机确定时间段大小，最常见的是取10帧)的特征信息以某种规则合理的补充与添加到当前帧特征计算中去；一般来说，给每个时间帧分配一定权重系数，来对前后i+2r个特征图对应位置的值加权求和来得到当前帧的聚合特征图F′_i，具体计算如公式(2)：

F′_i(p)＝∑_{k∈[i-r，i+r]}W_k→i(p)·F_k→i (2)

其中W_k→i(p)为相邻帧k特征图映射到当前帧i特征图的自适应权重系数，F_k→i与公式(1)意义相同；P对应一个代表多通道像素位置的多维矩阵；权重系数W_k→i(p)用如公式(3)定义：

权重系数W_k→i(p)表征当前系统缓存中临近关键帧特征信息对于当前帧的重要程度；特别是在位置P，如果映射后的特征F_k→i(P)和F_i(P)很相近，则它会被赋予一个大的权重，反之则相反；其中F^e表示特征图经过由三个卷积层组成的内嵌映射网络ε(·)(Embedding network)，其作用就是把特征图的信息映射到适合做相似度余弦变换(公式(3))前的预处理。

总结密集特征聚合在光流特征图中具体传播和获得检测结果的算法如下：

如图3所示，展示了四组检测结果对比，每一组左侧为本文融合特征传播与特征聚合算法的视频目标检测结果，右侧为不增加额外的改进策略，完全使用图像上的目标检测算法对单帧视频进行目标检测的结果，且改进后的检测效果明显优于后者，在检测的完整度和准确度上都有明显的优势。

还在部分ImageNet VID的测试集上，进行了最终的测试与验证，分别计算了应用关键帧调度，融合使用稀疏特征传播与密集特征聚合后的模型在测试数据集上的精确度和运行速率，并与单独使用稀疏特征传播与密集特征聚合方法等常见的视频目标检测模型进行了实验对比，如表1所示：

表1模型评价指标对比

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种融合特征传播与聚合的视频目标检测方法，其特征在于，包括稀疏特征传播和密集特征聚合；

所述稀疏特征传播的方法能够生成非关键帧的特征图像，以降低特征网络部分的计算量，提高整体检测速度；稀疏特征传播采用视频帧之间的相似性来降低特征计算成本，每隔n张(根据实际情况可以随机确定n的大小，一般取10)抽取视频中的关键帧通过深度卷积网络得到关键帧特征图，对于非关键帧，其特征图的计算则来源于最近邻关键帧以及其与当前非关键帧之间的运动变化矢量的加和，通常用光流矢量的计算定量临近两帧之间的信息差值；

所述密集特征聚合将相邻帧在运动路径上的特征均聚合到当前帧的特征中，增强当前帧的特征，提高后续视频识别的检测精度；其是通过Flow-guided feature aggregation网络来实现的；

所述稀疏特征传播到当前帧i的特征图F_k→i计算如下：

F_k→i＝ω(F_k，M_i→k)

其中F表示由关键帧Input_frames_i到非关键帧Input_frames_k之间的光流计算，可以通过光流网络计算N_flow(Input_frames_k,Input_frames_i)＝M_i→k得到；M_i→k对应一个二维矩阵，表征当前帧上任一点p(x,y)与关键帧上的相应位置上的光流失量ΔP，其尺寸和当前帧大小一致；ω表示关键帧特征信息针对光流矢量的映射运算；映射后的特征信息可以表征当前非关键帧的特征向量，再通过N_det网络来计算k时刻的检测结果F_k→i；网络可以同时实现让F_k→i自动去接近fi的，包括计算光流网络N_flow在内的端到端的训练；

F′_i(p)＝∑_{k∈[i-r，i+r]}W_k→i(p)·F_k→i

权重系数W_k→i(p)表征当前系统缓存中临近关键帧特征信息对于当前帧的重要程度；特别是在位置P，如果映射后的特征F_k→i(P)和F_i(P)很相近，则它会被赋予一个大的权重，反之则相反；其中F^e表示特征图经过由三个卷积层组成的内嵌映射网络ε(·)(Embeddingnetwork)。