CN111144376A

CN111144376A - 视频目标检测特征提取方法

Info

Publication number: CN111144376A
Application number: CN201911421577.9A
Authority: CN
Inventors: 王凤超; 刘琼
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111144376B

Abstract

本发明公开了视频目标检测特征提取方法。所述方法包括：使用主干网络逐帧提取当前视频序列主干特征；构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征，通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征；逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征，聚合当前帧尺度感知特征和映射特征获得当前帧特征，使用区域生成网络生成当前帧RoIs；分别构建位置敏感和上下文敏感的RoIs特征提取网络分支分别提取当前帧RoIs特征，点乘融合两分支RoIs特征获得优化的当前帧RoIs。本发明通过解决视频目标的多尺度和形变异常问题，提高视频目标检测精度。

Description

视频目标检测特征提取方法

技术领域

本发明涉及视频目标检测领域，更具体地，涉及视频目标检测特征提取方法。

背景技术

近年来，视频目标检测由于在实际应用中展现出巨大的潜能受到广泛地关注，如智能视频监控和自动驾驶。从现有工作来看，深度卷积神经网络已经成功运用在基于静态图像的目标检测，并取得了令人瞩目的成绩。然而，对于视频图像，由于存在目标多尺度以及由运动模糊，视频失焦、罕见姿势导致形变异常问题，直接使用基于单帧图像的检测器难以发挥出优秀的性能。下文进一步阐述这两个问题。

ImageNet VID数据集是大型的通用视频目标检测数据集，其存在严峻的目标多尺度问题。通过统计ImageNet VID数据集的目标相对尺度的累积分布，发现：在ImageNet VID训练集中，后10％目标(大目标)的相对尺度是前10％目标(小目标)的8.95倍，且验证集的目标相对尺度变化比训练集更大。由此可见，ImageNet VID数据集的目标相对尺度变化很大且场景多样性更复杂。然而使用主干网络提取的特征图具有固定感受野，难以适用具有多种目标尺度的场景，这将制约视频目标检测器的性能。

针对视频目标检测场景下目标的形变异常问题，现有的视频目标检测器大多利用多帧特征融合或聚合策略，未考虑更鲁棒的RoIs特征。在视频目标检测任务中，由于时序的连续性，物体在邻近几帧内的外观存在相似性，因此大多数方法融合邻近几帧的特征，以改善当前帧的特征质量。实验证明这种方式能有效改善特征响应并降低漏检。但这些工作往往忽略物体背景的特性，即物体背景在邻近几帧内同样保持一致，特别是在室外环境中，背景区域变化较小。因此，本发明引入上下文语义信息，并结合位置信息，提取鲁棒的RoIs特征，便于分辨目标类别并改善目标定位。

本发明针对上述两个问题，提出面向视频目标检测的特征提取方法，具体过程为：输入当前视频序列，使用主干网络逐帧提取当前视频序列的主干特征；设计多分支膨胀卷积层逐帧提取当前视频序列目标的多个尺度特征，通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征；逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征，聚合当前帧尺度感知特征和映射特征获得当前帧特征，使用区域生成网络生成当前帧RoIs；设计位置敏感和上下文敏感的RoIs特征提取网络分支分别提取当前帧RoIs特征，点乘融合两分支RoIs特征获得优化的当前帧RoIs；将其作为任务特征；使用任务特征执行目标分类和检测任务，产生当前帧的检测结果。整个过程可以端到端训练。本发明涉及到以下现有技术：

现有技术1(K.He,X.Zhang,S.Ren,J.Sun,Deep Residual Learning for ImageRecognition,in:Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR),2016,pp.770–778.)提出残差学习的思想应对深层网络的梯度消失问题，并扩展网络层数至101层，甚至152层。该技术能够得到高质量的主干特征，并且已经在目标分类、目标检测、语义分割等任务中得到了广泛的运用。

现有技术2(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,A.L.Yuille,DeepLab:Semantic Image Segmentation with Deep Convolutional Nets,AtrousConvolution,and Fully Connected CRFs.,IEEE Transactions on Pattern Analysisand Machine Intelligence,40(4),2016,pp.834–848.)设计一个小型的膨胀卷积网络，以较为轻量的方式有效地扩大卷积核的感受野。

现有技术3(J.Dai,Y.Li,K.He,J.Sun,R-FCN:Object Detection via Region-based Fully Convolutional Networks,Proceedings of the Advances in NeuralInformation Processing Systems Conference(NIPS),2016,pp.379–387.)提出基于目标检测的区域全连接网络，对区域生成网络得到的感兴趣区域提取位置敏感RoIs特征，在精度和速度上都有不俗的表现。

现有技术4(X.Zhu,Y.Wang,J.Dai,L.Yuan,Y.Wei,Flow-Guided FeatureAggregation for Video Object Detection,in:Proceedings of the IEEEInternational Conference on Computer Vision(ICCV),2017,pp.408–417.)针对视频目标检测任务，提出基于光流的特征聚合方法，即通过光流密集地传播邻近帧特征到当前帧，并使用一个轻量的自适应权重网络j聚合多帧特征，以加强当前帧的特征表示。

本发明使用现有技术1提取主干特征；基于现有技术2，提出一个具有多分支膨胀卷积层和缓冲卷积层的尺度感知特征提取方法；在现有技术3的基础上，引入上下文敏感RoIs特征提取网络分支；简化现有技术4聚合多帧特征。

发明内容

本发明提供视频目标检测特征提取方法，旨在解决由于目标多尺度和形变异常限制检测器性能的问题。

本发明的目的至少通过如下技术方案之一实现。

视频目标检测特征提取方法，包括以下步骤：

步骤一、输入当前视频序列，使用主干网络逐帧提取当前视频序列主干特征；

步骤二、提取尺度感知特征：构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征，通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征；

步骤三、提取当前帧RoIs：逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征，聚合当前帧尺度感知特征和映射特征获得当前帧特征，使用区域生成网络生成当前帧RoIs；

步骤四、优化当前帧RoIs：分别构建位置敏感和上下文敏感的RoIs特征提取网络分支提取当前帧RoIs特征，点乘融合两分支RoIs特征获得优化的当前帧RoIs；

步骤五、根据优化的当前帧RoIs执行目标分类和检测。

进一步地，步骤一中，按时间轴逐帧输入的视频帧作为当前帧，视频序列的结构定义为前邻近帧+当前帧+后邻近帧；当前帧始终居中，前邻近帧的时间轴刻度较当前帧小，后邻近帧的时间轴刻度较当前帧大，相对于当前帧和预先确定的视频序列长度确定邻近帧帧数，视频序列长度定义为2t+1，则t为前邻近帧或后邻近帧数目，t＝0，1，2，...，10；在训练阶段，前邻近帧和后邻近帧分别在当前帧的前后10帧中随机选择t帧；在测试阶段，前邻近帧和后邻近帧分别在当前帧的前后t帧中连续选择；若当前视频序列出现前邻近帧或后邻近帧缺失，则以当前帧填充方式补足。

进一步地，步骤一中，所述使用主干网络逐帧提取当前视频序列主干特征，具体如下：

其中，

和

分别表示主干网络提取的序号为i,i-τ和i+τ帧的主干特征；N_feat(·)表示用作主干网络的ResNet-101网络；I_i,I_i-τ和I_i+τ表示序号为i,i-τ和i+τ的输入帧；i表示当前帧序号，i＝1，2，...，l，l为视频序列的总帧数；i-τ，i+τ表示前邻近帧和后邻近帧的序号，τ∈[0，t]；当t＝0时，τ＝0，即

进一步地，步骤二中，构建的多分支膨胀卷积层包括n个输出分支，n＝1，2，...5，一个输出分支对应当前视频序列主干特征的一个尺度特征，多个尺度特征提取算法如下：

其中，N_d(·)表示多分支膨胀卷积层，

和

分别表示序号为i,i-τ和i+τ帧的多个尺度特征，具体如下：

其中，

和

和

和

分别表示第1、2、…、n分支膨胀卷积层提取的序号为i,i-τ和i+τ帧的尺度特征。

进一步地，多分支膨胀卷积层的构建具体如下：

1个分支由1个膨胀卷积层实现，获取n个分支膨胀卷积层的采样率即膨胀系数，分别为r₁，r₂，...，r_n；按采样率升序排列n个分支膨胀卷积层；以最小采样率分支膨胀卷积层为起点，按步长1依次配对，使相邻膨胀卷积层对的采样率之差间具有固定增量，算法如下：

其中，S表示相邻膨胀卷积层对的采样率之差间的固定增量，S＝1，2，…，5，其值由实验确定；r_k-1∈[r₁，r_n-2],r_k∈[r₂，r_n-1],r_k+1∈[r₃，r_n]；k表示1个膨胀卷积层分支，k∈[2，n-1]；M(·)表示n个采样率间的最大公约数。

进一步地，步骤二中，所述通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征，具体如下：

所述特征为具有三个维度的特征表示，即(W，H，C)，其中W表示宽，H表示高，C表示通道；对主干特征和多个尺度特征按通道维度逐帧合并，通过一个作为缓冲的卷积层，即缓冲卷积层，逐帧获得当前视频序列尺度感知特征，具体如下：

其中，

和

分别表示序号为i，i-τ和i+τ帧的尺度感知特征；O_c(·)表示合并操作；N_c(·)表示缓冲卷积层。

进一步地，步骤三包括以下步骤：

S3.1、使用光流网络逐帧计算邻近帧与当前帧之间的运动偏移，运动偏移指由帧之间的时间偏移导致的特征偏移，基于运动偏移旨在映射计算时对齐帧间特征，基于运动偏移逐帧分别映射前、后邻近帧的尺度感知特征至当前帧获得当前帧前邻近映射特征和当前帧后邻近映射特征，映射算法如式下：

其中，f_i-τ→i表示当前帧前邻近映射特征，f_i+τ→i表示当前帧后邻近映射特征；W(·)表示映射算法(warping function，X.Zhu，Y.Wang，J.Dai，L.Yuan，Y.Wei，Flow-GuidedFeature Aggregation for Video Object Detection，in：Proceedings of the IEEEInternational Conference on Computer Vision(ICCV)，2017，pp.408-417.)；F(·)表示光流网络，F(I_i-τ，I_i)表示序号为i-τ的帧与i帧间的运动偏移；F(I_i+τ，I_i)表示序号为i+τ的帧与i帧间的运动偏移；

S3.2、聚合当前帧尺度感知特征和映射特征，所述映射特征包括当前帧前邻近映射特征和当前帧后邻近映射特征，具体算法如下：

其中，f_i表示当前帧特征；当t＝0时，f_i+τ→i表示

S3.3、使用区域生成网络算法生成当前帧RoIs，具体如下：

其中，

表示当前帧RoIs，N_rpn(·)表示区域生成网络。

进一步地，步骤四中，分别构建位置敏感RoIs特征提取网络和上下文敏感RoIs特征提取网络；位置敏感的RoIs特征提取网络如下：

其中，

表示当前帧位置敏感RoIs特征；Φ_psroi(·)表示位置敏感RoI池化(position-sensitive RoI pooling，J.Dai，Y.Li，K.He，J.Sun，R-FCN：Object Detectionvia Region-based Fully Convolutional Networks.Proceedings of the Advances inNeural Information Processing Systems Conference(NIPS)，2016，pp.379-387.)；N_psroi(·)表示通道数为k×k×C_n的1个卷积层。

位置敏感的RoIs特征提取网络通过Φ_psroi(·)对特定部位特征进行位置敏感RoI池化获得当前帧位置敏感RoIs特征，特征表示为(k，k，C_n)，即W＝k，H＝k，C＝C_n；所述位置敏感RoI池化默认使用最大池化；特定部位特征即使用通道数为k×k×C_n的1个卷积层N_psroi(·)从当前帧目标提取的k×k个特征，k∈[1，9]；对于分类任务，C_n＝C_cls+1，C_n表示目标类别数C_cls加1个背景类别；对于检测任务，C_n＝4×2，表示一个候选框向量有4个维度，每个维度有目标和背景2种类别。

进一步地，所述上下文敏感RoIs特征提取网络算法如下：

其中，

表示当前帧上下文敏感RoIs特征；Φ_csroi(·)表示上下文敏感RoI池化；N_csroi(·)表示通道数为C_n的1个卷积层。

上下文敏感RoIs特征提取网络通过Φ_csroi(·)对上下文特征进行上下文敏感RoI池化获得当前帧上下文敏感RoIs特征，特征表述为(k，k，Cn)，即W＝k，H＝k，C＝C_n；所述上下文特征即使用N_csroi(·)从当前帧目标提取的特征。所述上下文敏感RoI池化包括基于最大池化的RoI池化层和平均池化层：基于最大池化的RoI池化层针对上下文特征提取上下文RoIs粗特征，特征表述为((k×2m)，(k×2m)，C_n)，即W＝k×2m，H＝k×2m，C＝C_n，m∈[1，5]；平均池化层用于细化上下文RoIs粗特征获得当前帧上下文敏感RoIs特征。

进一步地，步骤四中，所述两分支RoIs特征指位置敏感RoIs特征和上下文敏感RoIs特征，所述点乘融合方式如下：

其中，

表示经点乘融合获得的当前帧RoIs即优化的当前帧RoIs；⊙表示点乘计算。

本发明提供视频目标检测特征提取方法，主要解决视频目标多尺度和形变异常问题，与现有的视频目标检测技术相比，具有如下的优点和效果：

1)本发明使用多分支膨胀卷积层对主干特征进行多个尺度特征提取，与可变形卷积相比，只需要设置卷积核的膨胀系数即可，比较轻量，再通过缓冲卷积层与主干特征进行融合即可得到尺度感知特征；

2)本发明构建位置敏感和上下文敏感的RoIs特征提取网络分支分别提取当前帧RoIs特征，与只使用位置信息的R-FCN相比，两分支RoIs特征考虑了物体背景在邻近帧的一致性，点乘融合了位置和上下文语义信息，以助于目标分类和定位；

3)本发明在提取当前帧RoIs中，使用光流映射和简化的多帧特征聚合策略，在保证精度的情况下，极大地节约了本发明的计算开销。

附图说明

图1为本发明实施例中视频目标检测特征提取方法流程图；

图2为本发明实施例中提取尺度感知特征的网络结构图；

图3为本发明实施例中优化当前帧RoIs的网络结构图；

图4为本发明实施例中本发明和现有方法的结果对比图。

具体实施方式

提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但是这些被认为仅仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在下面的描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用使得能够清楚和一致地理解本公开。因此，本领域技术人员应该清楚，提供本公开的各种实施例的以下描述仅用于说明的目的，而不是为了限制由所附权利要求及其等同物限定的本公开。

以下结合实施例，对本发明进行进一步详细说明。需指出的是，以下仅仅为举例，若有未特别详细说明的符号和过程，均是本领域技术人员可参照现有技术实现的。

实施例：

视频目标检测特征提取方法，如图1所示，包括以下步骤：

按时间轴逐帧输入的视频帧作为当前帧，视频序列的结构定义为前邻近帧+当前帧+后邻近帧；当前帧始终居中，前邻近帧的时间轴刻度较当前帧小，后邻近帧的时间轴刻度较当前帧大，相对于当前帧和预先确定的视频序列长度确定邻近帧帧数，视频序列长度定义为2t+1，则t为前邻近帧或后邻近帧数目，t＝0，1，2，...，10；在训练阶段，前邻近帧和后邻近帧分别在当前帧的前后10帧中随机选择t帧；在测试阶段，前邻近帧和后邻近帧分别在当前帧的前后t帧中连续选择；若当前视频序列出现前邻近帧或后邻近帧缺失，则以当前帧填充方式补足。

所述使用主干网络逐帧提取当前视频序列主干特征，具体如下：

其中，

和

分别表示主干网络提取的序号为i，i-τ和i+τ帧的主干特征；N_feat(·)表示用作主干网络的ResNet-101网络；I_i，I_i-τ和I_i+τ表示序号为i，i-τ和i+τ的输入帧；i表示当前帧序号，i＝1，2，...，l，l为视频序列的总帧数；i-τ，i+τ表示前邻近帧和后邻近帧的序号，τ∈[0，t]；当t＝0时，τ＝0，即

本实施例中，将每一帧图像的短边缩放至600像素，并在主干网络的顶层增加一个随机初始化的卷积层，其卷积核为3×3，将主干特征的通道数缩减为1024，最终提取的主干特征为3×3×1024的特征图。

步骤二、提取尺度感知特征：构建多分支膨胀卷积层逐帧提取当前视频序列主干特征的多个尺度特征，通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征，如图2所示(当前帧尺度感知特征提取示例)；

构建的多分支膨胀卷积层包括n个输出分支，n＝1，2，...5，一个输出分支对应当前视频序列主干特征的一个尺度特征，多个尺度特征提取算法如下：

其中，N_d(·)表示多分支膨胀卷积层，

和

分别表示序号为i，i-τ和i+τ帧的多个尺度特征，具体如下：

其中，

和

和

和

分别表示第1、2、...、n分支膨胀卷积层提取的序号为i，i-τ和i+τ帧的尺度特征。

多分支膨胀卷积层的构建具体如下：

其中，S表示相邻膨胀卷积层对的采样率之差间的固定增量，S＝1，2，...，5，其值由实验确定；r_k-1∈[r₁，r_n-2]，r_k∈[r₂，r_n-1]，r_k+1∈[r₃，r_n]；k表示1个膨胀卷积层分支，k∈[2，n-1]；M(·)表示n个采样率间的最大公约数。

本实施例中，多分支膨胀卷积层具体参数为：卷积核为3×3，通道数为512，膨胀系数分别为1，3，6，10，15，最终获得5个尺度特征。

所述通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征，具体如下：

其中，

和

本实施例中，首先逐帧合并主干特征和5个尺度特征，再使用一个1×1×1024的缓冲卷积层逐帧融合获得尺度感知特征

步骤三、提取当前帧RoIs：逐帧映射邻近帧的尺度感知特征至当前帧获得当前帧映射特征，聚合当前帧尺度感知特征和映射特征获得当前帧特征，使用区域生成网络生成当前帧RoIs；包括以下步骤：

其中，f_i-τ→i表示当前帧前邻近映射特征，f_i+τ→i表示当前帧后邻近映射特征；W(·)表示映射算法，本实施例中，映射算法为双线性插值；F(·)表示光流网络，本实施例中，光流网络为FlowNet的“Simple”版本，并将输入图像的短边缩短至300像素，以适主干网络和光流网络的步长不一致问题，F(I_i-τ，I_i)表示序号为i-τ的帧与i帧间的运动偏移；F(I_i+τ，I_i)表示序号为i+τ的帧与i帧间的运动偏移；

S3.2、本实施例中，采用平均权重聚合当前帧尺度感知特征和映射特征，所述映射特征包括当前帧前邻近映射特征和当前帧后邻近映射特征，具体算法如下：

其中，f_i表示当前帧特征；当t＝0时，f_i+τ→i表示

本实施例中，针对t取值，具体参数设置如下：在训练阶段，t＝1，即使用3帧特征图，τ表示在视频间隔为10的视频序列中随机选取的某一帧图像；在测试阶段，t＝9，即对于第i帧而言，选取连续的前9帧和后9帧。

S3.3、使用区域生成网络算法生成当前帧RoIs，具体如下：

其中，

表示当前帧RoIs，N_rpn(·)表示区域生成网络，本实施例中，区域生成网络的输入为主干特征的前512维特征，并且每张特征图设置9个锚点和300个RoIs。

步骤四、优化当前帧RoIs：分别构建位置敏感和上下文敏感的RoIs特征提取网络分支提取当前帧RoIs特征，点乘融合两分支RoIs特征获得优化的当前帧RoIs，如图3所示(以k＝3，m＝1为图示，本实施例中k＝7，m＝2)。

所述位置敏感的RoIs特征提取网络如下：

其中，

表示当前帧位置敏感RoIs特征；Φ_psroi(·)表示位置敏感RoI池化(position-sensitive RoI pooling，J.Dai，Y.Li，K.He，J.Sun，R-FCN：Object Detectionvia Region-based Fully Convolutional Networks.Proceedings of the Advances inNeural Information Processing Systems Conference(NIPS)，2016，pp.379-387.)；N_psroi(·)表示通道数为7×7×C_n的1个卷积层；

本实施例中，位置敏感的RoIs特征提取网络通过Φ_psroi(·)对主干特征的后512维特征进行位置敏感RoIs池化获得当前帧位置敏感RoIs特征，本实施例中，当前帧位置敏感RoIs特征的表示为(7，7，C_n)，即W＝7，H＝7，C＝C_n；所述位置敏感RoI池化默认使用最大池化；特定部位特征即使用通道数为7×7×C_n的1个卷积层N_psroi(·)从当前帧提取的7×7个特征；本实施例中，对于分类任务，C_n＝31；对于检测任务，C_n＝8。

所述上下文敏感RoIs特征提取网络算法如下：

其中，

本实施例中，上下文敏感RoIs特征提取网络通过Φ_csroi(·)对主干特征的后512维特征进行上下文敏感RoI池化获得当前帧上下文敏感RoIs特征，本实施例中，当前帧上下文敏感RoIs特征的表示为(7，7，C_n)，即W＝7，H＝7，C＝C_n。所述上下文特征即使用N_csroi(·)从当前帧目标提取的特征。上下文敏感RoI池化包括基于最大池化的RoI池化层和平均池化层：基于最大池化的RoI池化层用于获得上下文RoIs粗特征，本实施例中，上下文RoIs粗特征的表示为(28，28，C_n)；平均池化层用于细化上下文RoIs粗特征获得当前帧上下文敏感RoIs特征。

所述两分支RoIs特征指位置敏感RoIs特征和上下文敏感RoIs特征，所述点乘融合方式如下：

其中，

步骤五、根据优化的当前帧RoIs执行目标分类和检测。

本实施例在ImageNet VID数据集上进行训练和验证。本实施例中，使用4GPUs进行训练和测试。在训练阶段，每个mini batch中使用3张图像进行训练，且每个GPU只有1个mini batch，一共执行60000次迭代，其中前40000迭代是0.001，后20000迭代是0.0001。在推断阶段，使用19张图像来推断当前帧的检测结果，并且可以使用Seq-NMS对检测结果进行更精细的微调。本实施例采用视频目标检测的通用评价指标mAP(mean averageprecision)来评估检测性能。

表1是在单帧检测器R-FCN中加入提取当前帧RoIs、优化当前帧RoIs、提取尺度感知特征三种方案的消融实验结果对比。方法(a)表示R-FCN的检测精度。方法(b)表示在R-FCN中加入具有多帧特征聚合的提取当前帧RoIs方法能够提升1.9％mAP，这意味着使用前、后邻近帧特征能够有效改善当前帧特征，并且仅需要平均聚合即可得到较好的精测精度。方法(c)和方法(d)表示在方法(b)的基础上，分别加入优化RoIs和提取尺度感知特征的操作都能进一步提升mAP，提升的百分点为2.6和3.5。方法(e)表示本发明所提方法，在R-FCN的基础上加入了三种操作组成视频目标检测器，并获得了77.9％mAP。实验证明，本发明能够有效解决视频目标多尺度和形变异常问题，显著提高视频目标检测器的精度。

表1 ImageNet VID验证集在三种方案的消融实验结果对比

图4对比了本发明所提方法和现有方法在ImageNet VID验证集中各个类别AP及所有类别的mAP。相较于其他现有方法，本发明所提方法(Ours)在15个类别上都表现出最好的性能，并且在“sheep”类别中获得了15％mAP提升。本发明所提方法结合利用视频时序信息的Seq-NMS方法(Ours+Seq-NMS)，检测精度从77.9％mAP提升到79.5％mAP，相较于R-FCN，足足提升了5.9％。这表明充分利用视频时序信息和应对视频目标存在的问题能够有效提升检测器的性能，而直接使用单帧检测器无法处理时序信息和目标多尺度及形变异常问题，难以满足视频场景的需要。

上述内容是结合具体的实施方式对本发明进行的详细说明，但并不能认定本发明的具体实施只限于此内容。对于本发明所属技术领域的普通技术人员而言，在不脱离本发明的原理和精神的前提下，还可以对这些实施进行若干调整、修改、替换和/或变型。本发明的保护范围由所附权利要求及其等同内容限定。

Claims

1.视频目标检测特征提取方法，其特征在于，包括以下步骤：

步骤五、根据优化的当前帧RoIs执行目标分类和检测。

2.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤一中，按时间轴逐帧输入的视频帧作为当前帧，视频序列的结构定义为前邻近帧+当前帧+后邻近帧；当前帧始终居中，前邻近帧的时间轴刻度较当前帧小，后邻近帧的时间轴刻度较当前帧大，相对于当前帧和预先确定的视频序列长度确定邻近帧帧数，视频序列长度定义为2t+1，则t为前邻近帧或后邻近帧数目，t＝0，1，2，...，10；在训练阶段，前邻近帧和后邻近帧分别在当前帧的前后10帧中随机选择t帧；在测试阶段，前邻近帧和后邻近帧分别在当前帧的前后t帧中连续选择；若当前视频序列出现前邻近帧或后邻近帧缺失，则以当前帧填充方式补足。

3.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤一中，所述使用主干网络逐帧提取当前视频序列主干特征，具体如下：

其中，f_i ^feat，

和

4.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤二中，构建的多分支膨胀卷积层包括n个输出分支，n＝1，2，...5，一个输出分支对应当前视频序列主干特征的一个尺度特征，多个尺度特征提取算法如下：

其中，N_d(·)表示多分支膨胀卷积层，f_i ^d，

和

分别表示序号为i，i-τ和i+τ帧的多个尺度特征，具体如下：

其中，

和

和

和

5.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，多分支膨胀卷积层的构建具体如下：

6.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤二中，所述通过缓冲卷积层逐帧融合主干特征和多个尺度特征，逐帧获得当前视频序列尺度感知特征，具体如下：

其中，f_i ^scale，

和

7.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤三包括以下步骤：

S3.1、使用光流网络逐帧计算邻近帧与当前帧之间的运动偏移，运动偏移指由帧之间的时间偏移导致的特征偏移，旨在映射计算时对齐帧间特征，基于运动偏移逐帧分别映射前、后邻近帧的尺度感知特征至当前帧获得当前帧前邻近映射特征和当前帧后邻近映射特征，映射算法如下：

其中，f_i-τ→i表示当前帧前邻近映射特征，f_i+τ→i表示当前帧后邻近映射特征；W(·)表示映射算法；F(·)表示光流网络，F(I_i-τ，I_i)表示序号为i-τ的帧与i帧间的运动偏移；F(I_i+τ，I_i)表示序号为i+τ的帧与i帧间的运动偏移；

其中，f_i表示当前帧特征；当t＝0时，f_i±τ→i表示f_i ^scale；

S3.3、使用区域生成网络算法生成当前帧RoIs，具体如下：

f_i ^rois＝N_rpn(f_i) (8)

其中，f_i ^rois表示当前帧RoIs，N_rpn(·)表示区域生成网络。

8.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤四中，分别构建位置敏感RoIs特征提取网络和上下文敏感RoIs特征提取网络；位置敏感的RoIs特征提取网络如下：

f_i ^psrois＝Φ_psroi(N_psroi(f_i ^rois)) (9)

其中，f_i ^psrois表示当前帧位置敏感RoIs特征；Φ_psroi(·)表示位置敏感RoI池化；N_psroi(·)表示通道数为k×k×C_n的1个卷积层；

9.根据权利要求8所述的视频目标检测特征提取方法，其特征在于，所述上下文敏感RoIs特征提取网络算法如下：

f_i ^csrois＝Φ_csroi(N_csroi(f_i ^rois)) (10)

其中，f_i ^csrois表示当前帧上下文敏感RoIs特征；Φ_csroi(·)表示上下文敏感RoI池化；N_csroi(·)表示通道数为C_n的1个卷积层；

上下文敏感RoIs特征提取网络通过Φ_csroi(·)对上下文特征进行上下文敏感RoI池化获得当前帧上下文敏感RoIs特征，特征表述为(k，k，C_n)，即W＝k，H＝k，C＝C_n；所述上下文特征即使用N_csroi(·)从当前帧目标提取的特征；所述上下文敏感RoI池化包括基于最大池化的RoI池化层和平均池化层：基于最大池化的RoI池化层针对上下文特征提取上下文RoIs粗特征，特征表述为((k×2m)，(k×2m)，C_n)，即W＝k×2m，H＝k×2m，C＝C_n，m∈[1，5]；平均池化层用于细化上下文RoIs粗特征获得当前帧上下文敏感RoIs特征。

10.根据权利要求1所述的视频目标检测特征提取方法，其特征在于，步骤四中，所述两分支RoIs特征指位置敏感RoIs特征和上下文敏感RoIs特征，所述点乘融合方式如下：

f_i ^opt_rois＝f_i ^psrois⊙f_i ^csrois (11)

其中，f_i ^opt_rois表示经点乘融合获得的当前帧RoIs即优化的当前帧RoIs；⊙表示点乘计算。