CN109961034B

CN109961034B - 基于卷积门控循环神经单元的视频目标检测方法

Info

Publication number: CN109961034B
Application number: CN201910205419.3A
Authority: CN
Inventors: 韩红; 李阳; 岳欣; 张照宇; 陈军如; 高鑫磊; 范迎春; 支涛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2022-12-06
Anticipated expiration: 2039-03-18
Also published as: CN109961034A

Abstract

本发明公开了一种基于卷积门控循环神经单元的视频目标检测方法，用视频数据时序上下文信息，解决了现有技术步骤繁琐和检测精度不高的问题。实现步骤：数据集处理和网络预训练；选取参考帧，基于当前帧特征估计参考帧特征；基于卷积门控循环神经单元的时序上下文特征学习；时序相关特征加权融合；目标候选框提取；目标分类和位置回归；训练得到视频目标检测网络模型；验证模型效果。本发明引入了当前帧估计参考帧的特征传播方式，建立当前帧与参考帧特征间的时序关系；用卷积门控循环神经单元，使当前帧具备参考帧信息，用加权融合方式增强当前帧特征质量。在时间开销不大情况下，提升了检测精度，降低了复杂度，可用于视频目标检测。

Description

基于卷积门控循环神经单元的视频目标检测方法

技术领域

本发明属于图像处理技术领域，涉及一种视频目标检测方法，具体是一种基于卷积门控循环神经单元的视频目标检测方法，可用于对监控视频、网络视频中常见物体进行定位和识别。

背景技术

随着深度学习技术的快速发展和应用，特别是卷积神经网络在图像的分类，识别，分割等领域中均取得了长足的进步。车牌识别，人脸识别等技术已经广泛运用于人们的生活中。这些技术的进步得益于计算机硬件的快速发展以及海量数据的便捷获取。自2012年李飞飞等人提出ImageNet数据集及挑战赛以来，基础分类网络性能得到快速提高，同时图像上具有代表性的目标检测方法，更精准的RCNN系列两阶段方法，更快速的YOLO类的单阶段方法分别被提出。

由于通信技术的迅速发展，视频充斥着人们的生活中，深度学习方法在视频领域的应用越来越多。2015年ImageNet推出了Object Detection from Video数据集及挑战赛，吸引了越来越多的学者进行视频目标检测相关研究。然而，视频相对于静态图像存在着独特的挑战，如运动模糊、奇异姿态、目标失焦以及遮挡等问题。

香港中文大学Kai Kang,Hongsheng Li等人于2017年发表在IEEE T-CSVT智能视频分析大规模非线性相似度学习特刊中的论文“T-CNN:Tubelets with ConvolutionalNeural Networks for Object Detection from Videos”较早地提出利用视频数据中存在的时间一致性约束的方法。该方法主要由静态图像检测、多上下文抑制和运动引导的传播、时序tubelet重得分以及模型组合四个部分构成。其中多上下文抑制对一个视频内各帧通过静态图像检测后降序排序，将具有高排名检测分数的类别视为高置信度类别，低置信度类别将被抑制，从而减少假阳性结果。在上述步骤后，利用光流估计一个窗口大小为w中各帧的运动信息传播到相邻帧减少假阴性结果。由上述步骤得到的高置信度检测检测结果后，通过跟踪算法得到边界框序列(即tubelet)，统计检测得分重新映射结果。最终，通过建议框合并的方式结合运动引导传播结果和tubelet重得分结果，采用阈值为0.5的NMS(非极大值抑制)得到最终结果。虽然，该方法利用了上下文信息对结果进行了提升。但是，该方法过于复杂，有较多的后处理步骤。

微软亚洲研究院的Xizhou Zhu,Yuwen Xiong等人被收录于CVPR 2017(计算机视觉与模式识别会议)的文章“Deep Feature Flow for Video Recognition”首次提出视频目标检测端到端的方法。该方法等间隔地选取关键帧，其他帧定义为非关键帧。关键帧通过ResNet101提取特征，对于非关键帧，将关键帧与非关键帧共同送入FlowNet计算光流，采用帧间传播的方式得到特征，整体采用R-FCN(基于区域的全卷积神经网络)框架得到检测结果。由于大量非关键帧通过FlowNet计算光流大大减少了提取特征的计算开销，网络推断速度很快。但是，由于通过光流估计得到的特征准确度不足，该方法检测精度略低于直接采用R-FCN单帧检测。

发明内容

本发明的目的在于基于上述现有技术的不足，提出一种检测精度高的基于卷积门控循环神经单元的视频目标检测方法。

本发明是一种基于卷积门控循环神经单元的视频目标检测方法，其特征在于，包括有如下步骤：

(1)相关数据集处理和网络预训练：选用大规模视频目标检测数据集，将数据集中每一视频片段拆分的帧作为一个视频序列，按照一定比例将选用的数据集分为训练集和验证集；同时利用大规模图像数据集训练好分类网络；利用用于光流学习的数据集训练，得到训练充分的光流学习网络；

(2)固定窗口内选取参考帧：在每个视频序列中，以间隔W为选帧范围，在当前帧I_t前后各选取n/2帧作为参考帧K_t-n/2～K_t+n/2，将选取的当前帧及参考帧作为视频目标检测网络模型输入；

视频目标检测网络模型具体由以下步骤所提及的基础特征提取网络、光流学习网络、卷积门控循环神经单元、嵌入网络、候选区域网络、分类和回归网络组成；

(3)当前帧特征提取：当前帧选择大规模图像数据集表现优异的分类网络作为基础特征提取网络，去除该分类网络的分类器部分后用于当前帧特征提取，得到当前帧特征F_t

(4)基于当前帧特征估计参考帧特征：将参考帧及当前帧沿通道方向拼接送入充分训练的光流学习网络，得到与当前帧特征F_t近似尺寸的参考帧特征结果S_t-n/2～S_t+n/2；结合参考帧特征结果S_t-n/2～S_t+n/2将当前帧特征F_t通过特征传播得到参考帧的估计特征E_t-n/2～E_t+n/2；

(5)基于卷积门控循环神经单元的时序上下文特征学习：引入能同时学习图像空间位置关系和连续帧之间时序关系的卷积门控循环神经单元，用该卷积门控循环神经单元学习参考帧特征和当前帧特征时序之间的关联性，将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t按时序送入步长为n+1的卷积门控循环神经单元，得到含有上下文特征的时序相关特征C_t-n/2～C_t+n/2；

(6)时序相关特征加权融合：引入一个由3层全连接层构成的嵌入网络，改进加权融合方式，将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t送入嵌入网络，并通过归一化和Softmax方法学习得到融合权重系数α_t-n/2～α_t-n/2，结合时序相关特征C_t-n/2～C_t+n/2，通过加权融合公式，得到时序融合特征R_t；

(7)目标候选框提取：将得到的时序融合特征R_t送入候选区域网络RPN中得到当前帧对应候选目标区域，按置信度排序初步筛选当前帧目标候选区域，然后采用非极大值抑制NMS方法筛选后得到感兴趣区域ROIs，感兴趣区域ROIs是预测的目标框位置；

(8)目标分类和位置回归：将感兴趣区域ROIs按比例映射在时序融合特征R_t上，即可在时序融合特征R_t上的感兴趣区域ROIs中通过分类网络和回归网络分别计算得到当前帧各目标的类别和在当前帧I_t中的边框位置；

(9)训练并得到视频目标检测网络模型：在训练集上执行步骤(2)～(8)，选择合适的优化算法训练整个视频目标检测网络，反复迭代直到收敛使网络中的各参数稳定且最优，最终得到能同时识别C个类别且计算其位置的视频目标检测网络模型；

(10)验证评估模型效果：在验证集上测试步骤(9)得到的视频目标检测网络模型，通过求解平均精度均值mAP评估模型效果。

本发明是一种基于卷积门控循环神经单元(Convolutional Gated RecurrentUnit)融合视频连续帧特征之间信息的视频目标检测方法，可用于对监控视频、网络视频中常见物体进行定位和识别。

与现有技术相比，本发明的技术优势：

(a)训练步骤简单，与T-CNN系列方法相比，本发明提出的视频目标检测网络模型，其结构可以一次性利用n个参考帧增强当前帧特征质量，该网络模型整体由分类损失和位置回归损失统一进行梯度更新来优化模型参数，且其中没有需要保存中间结果和中间计算的过程，可以进行端到端训练。同时，网络中参数量增加不大，在GTX 1080ti上的测试速度可以达到5fps，与目前流行目标检测方法检测速度基本一致。

(b)网络检测精度高，相比于T-CNN系列方法和DFF系列方法，本发明提出的网络利用了空间的位置关系和连续帧之间的时序上下文关系，通过卷积门控循环网络和特征加权融合方式使当前帧具备了时序上相邻的参考帧的信息，改善了当前帧的特征质量，提高了视频目标检测的效果。

附图说明

图1是本发明的步骤流程图；

图2是本发明的网络整体结构框图；

图3是本发明融合权重计算过程框图；

图4是本发明在ImagNet VID数据集测试效果与Deep Feature Flow算法的对比图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

实施例1

视频目标检测需要对视频中每一帧都能进行正确的目标识别和边框位置预测。视频中的目标检测相对于图像中的目标检测，增添了时序上关系，且具备一些图像数据中少见的难点。采用单帧目标检测方法不能充分利用时序上的关系，且对视频数据独有的运动模糊、视频失焦、遮挡、奇异姿态等难点没有很好的适应性。T-CNN系列方法，考虑了时序上的一致性约束，但步骤复杂，不能进行端到端训练。DFF系列方法，充分利用了时序连续帧之间的冗余性，却没有很好的利用连续帧之间的信息改善特征提取的质量。本发明针对上述方法的不足，引入了循环门控卷积神经网络，在当前帧上结合了时序相邻参考帧的信息，提高了了当前帧质量，从而改善了检测效果。同时，网络步骤简单，可以进行端到端的训练。

本发明是一种基于卷积门控循环神经单元的视频目标检测方法，参见图1，包括有如下步骤：

(1)相关数据集处理和网络预训练：

选用大规模视频目标检测数据集，将数据集中每一视频片段拆分的帧作为一个视频序列，按照一定比例将选用的数据集分为训练集和验证集。在具体实现时，可以在考虑到样本均衡性(即保证各类别样本数目基本近似)后，选择数据集中80％作为训练集，20％作为验证集。

本发明实现过程中，在可用于视频目标检测的数据集Youtube-Object dataset，ImageNet VID和Youtube-8M中，选择了标注最全，数据量较大的ImageNet VID数据集作为主要数据集。该数据集的30个类别是ImageNet DET数据集中类别的子集，本发明采用ImageNet DET数据集的训练集中相应的30类数据作为ImageNet VID数据集的补充数据，增强数据的多样性以提升本发明的鲁棒性。

为了增强网络提取特征的质量，在常用的大规模图像分类数据集PASAL VOC、Microsoft COCO和ImageNet CLS数据集中，选择了数据量最大的ImageNet CLS数据集，利用该数据集训练多个不同结构的分类网络，选择分类效果最优的分类网络作为基础特征提取网络；通过实验，本发明采用目前常用ResNet101网络作为基础特征提取网络。

另外，在具体实现中，采用网络参数量小且光流质量较高的FlowNet Simple网络作为光流学习网络，利用用于光流学习的数据集Flying Chairs训练该网络，得到训练充分的光流学习网络。

(2)固定窗口内选取参考帧：在每个视频序列中，以间隔W为选帧范围，在当前帧I_t前后各选取n/2帧作为参考帧K_t-n/2～K_t+n/2，将选取的当前帧及参考帧作为视频目标检测网络模型输入。其中W>＝n，W控制挑选帧的范围，一般略大于n，n的选取一般受制于显卡显存的限制，选取越多的参考帧则使显存开销增大。在11G的显存要求下，n可以设置为2或者4。

本发明中，参见图1，视频目标检测网络模型具体由以下步骤所提及的基础特征提取网络、光流学习网络、卷积门控循环神经单元、嵌入网络、候选区域网络、分类和回归网络组成。

(3)当前帧特征提取：当前帧选择按照步骤(1)所述方式得到的在大规模图像数据集上表现优异的分类网络作为基础特征提取网络，去除该分类网络的分类器部分后用于当前帧特征提取，得到当前帧特征F_t。提取得到的当前帧特征F_t相对于参考帧特征估计结果，是经过较深的深层卷积神经网络得到的高质量的特征。

(4)基于当前帧特征估计参考帧特征：基于光流学习网络相对于传统方法能够快速求解相邻帧之间光流的特性，本发明改进光流引导特征估计过程，将参考帧及当前帧沿通道方向拼接送入按照步骤(1)所述方式得到的充分训练的光流学习网络，得到与当前帧特征F_t近似尺寸的参考帧特征结果S_t-n/2～S_t+n/2。结合参考帧特征结果S_t-n/2～S_t+n/2，将当前帧特征F_t通过特征传播得到参考帧的估计特征E_t-n/2～E_t+n/2。本发明对光流引导特征估计过程进行了改进，用当前帧特征估计了参考帧特征，使步骤(5)能够更加方便的捕获参考帧特征和当前帧特征之间的时序上下文关系。

(5)基于卷积门控循环神经单元的时序上下文特征学习：由于卷积门控循环神经单元能同时学习图像的空间位置关系以及连续帧之间的时序关系，本发明，引入了卷积门控循环神经单元来学习参考帧特征和当前帧之间的时序上下文关系，将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t按时序送入步长为n+1的卷积门控循环神经单元，得到含有上下文特征的时序相关特征C_t-n/2～C_t+n/2。

(6)时序相关特征加权融合：基于时序参考帧和当前帧特征之间有一定位移的现象，本发明采用空间位置信息进行加权融合，能在一定程度上缓解位移未对齐的情况。引入一个由3层全连接层构成的嵌入网络，改进加权融合方式，将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t送入嵌入网络，并通过归一化和Softmax方法学习得到融合权重系数α_t-n/2～α_t-n/2，结合时序相关特征C_t-n/2～C_t+n/2，通过加权融合公式，得到时序融合特征R_t。其中，嵌入网络由三层卷积神经网络构成，具体结构选择先降维再升维的瓶颈层构造，可以减少网络的参数量，并提升此嵌入网络的学习能力。

(7)目标候选框提取：将得到的时序融合特征R_t送入候选区域网络RPN中得到当前帧对应的候选目标区域，按置信度排序初步筛选得到12000个当前帧目标候选区域，然后在候选框与真实边框的IoU阈值为0.5的情况下，采用非极大值抑制NMS方法筛选后得到2000个感兴趣区域ROIs，感兴趣区域ROIs即为候选区域网络RPN初步预测的目标框位置。

(8)目标分类和位置回归：将感兴趣区域ROIs按比例映射在时序融合特征R_t上，即可在时序融合特征R_t上的感兴趣区域ROIs中通过分类网络和回归网络分别计算得到当前帧中各目标的类别和在当前帧I_t中的边框位置。

(9)训练并得到视频目标检测网络模型：在训练集上执行步骤(2)～(8)，选择合适的优化算法训练整个视频目标检测网络，反复迭代直到收敛使网络中的各参数稳定且最优，最终得到能同时识别C个类别且计算其位置的视频目标检测网络模型。

(10)验证评估模型效果：在验证集上测试步骤(9)得到的视频目标检测网络模型，通过求解平均精度均值mAP评估模型效果。根据模型的mAP值和训练过程中的损失函数下降曲线，可以调整模型训练过程的超参数，如学习率、学习步长，训练迭代次数等，在训练集上按照步骤(9)训练方式，重新训练模型，使模型在验证集上得到最佳的mAP值。

本发明的技术思路是：利用视频数据时序中上下文信息的冗余性和相关性，采用卷积门控循环神经单元增强当前帧特征质量，使当前帧特征具备时序相邻参考帧中的上下文信息，通过融合权重系数修正各时刻参考帧对当前帧的影响，提高单帧检测效果，减缓运动模糊、遮挡等问题对目标检测效果的影响。

本发明视频目标检测网络模型，当前帧由基础特征提取网络得到当前帧特征，在当前帧叠加参考帧由光流学习网络得到光流后，当前帧特征结合光流通过特征传播得到参考帧估计特征。当前帧特征和参考帧估计特征按时序送入卷积门控循环神经单元得到时序相关特征，同时，参考帧估计特征分别与当前帧特征由嵌入网络得到权重，按此权重加权融合时序相关特征得到时序融合特征。最后，由时序融合特征通过候选区域网络得到感兴趣区域，在此感兴趣区域上通过分类和回归网络得到检测结果。

该网络模型结构整体由分类损失和位置回归损失统一进行梯度更新来优化网络模型参数，整个结构可以一次性送入n个参考帧来增强当前帧特征质量，且由于网络中没有需要保存中间结果和中间计算的过程，可以进行端到端训练。训练过程步骤简单，在速度开销略有增加的情况下，提高了网络的检测质量。

实施例2

基于卷积门控循环神经单元的视频目标检测方法同实施例1，步骤(4)中所述的基于当前帧特征估计参考帧特征，具体包括如下步骤：

4.1)将参考帧K_t-n/2～K_t+n/2与当前帧I_t沿通道方向拼接作为光流学习网络的输入，光流学习网络的结果用公式表示为S_i＝M(K_i,I_t)。其中，i表示时刻范围t-n/2～t+n/2，S_i代表第i时刻光流学习网络的结果，M表示光流学习网络，K_i为第i个参考帧，I_t为当前帧。

在本实施例中采用在Flying Chairs数据集上充分训练的FlowNet作为光流学习网络，该网络输出为原图像尺寸大小的1/4，需要通过在4.3)提到的插值方式得到与基础特征提取网络得到的特征图大小保持一致。

同时，该光流学习网络可以同时学习n个参考帧的光流结果。此时，同样可参照图2，将I_t复制为n帧，并与对应的参考帧K_i沿通道方向拼接送入光流学习网络。

4.2)参考帧K_i通过光流学习网络得到的结果S_i中每个像素位置是相对于当前帧各像素位置的位移δv，采用仿射变换可以得到在当前帧F_t上的位置u+δv。

4.3)得到位置u+δv后，通过双线性插值公式可以得到参考帧特征传播后的结果E_i，具体公式如下：

其中E_i为参考帧通过特征传播后得到的特征，w为当前帧特征F_t各像素位置，其取值范围为当前帧特征F_t每个像素位置的坐标，G为双线性插值函数，F_t为当前帧特征。

常见的方法一般采用参考帧通过特征传播得到当前帧的估计特征，并与当前帧特征进行融合。由于本发明在引进卷积门控循环神经单元过程中，需要确保送入卷积门控循环神经单元的输入之间具备时间上的联系。采用参考帧通过特征传播估计当前帧的形式，其得到的当前帧估计特征与当前帧特征之间是时序一致的，并没有引入相邻帧之间独特的空间信息。本发明改变了特征传播的过程，采用当前帧通过特征传播得到参考帧的估计特征，参考帧估计特征和当前帧特征之间具备时序上的连续性，使引入卷积门控循环神经单元更加合理，且通过卷积门控循环神经单元的学习，使当前帧特征具备了时序相关参考帧估计特征的信息。

实施例3

基于卷积门控循环神经单元的视频目标检测方法同实施例1-2，步骤(5)所述的基于卷积门控循环神经单元的时序上下文特征学习，包括如下详细步骤：

5.1)将权利要求1中通过步骤(1)～(4)得到的参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t按照时序作为卷积门控循环神经单元的输入，并记作H；

5.2)其中卷积门控循环神经单元前向传播具体计算公式如下：

z_t＝σ(W_Z*H_t+U_z*M_t-1),

r_t＝σ(W_r*H_t+U_r*M_t-1),

其中H_t为当前时刻卷积门控循环神经单元的输入特征图，M_t-1为上一时刻卷积门控循环神经单元网络学习到的带有记忆的特征图，M_t-1初始值设定为当前帧特征F_t；*代表卷积操作，⊙代表元素乘操作，σ为sigmoid激活函数将输出到[0,1]之间，便于在空间位置上按概率控制信息保留程度；LReLU为LeakyReLU激活函数，具备ReLU函数计算效率高、缓解梯度消失的优点，且改善了ReLU函数在数值为负时会出现的不激活现象；W_z，U_z，W_r，U_r，W，U为卷积门控循环神经单元需学习的卷积核参数，在本发明中，W_z、W_r、W尺寸大小设置为3*3，用于与H_t的卷积运算，U_z、U_r、U也设置为3*3的尺寸大小，用于与M_t-1做卷积运算，参数初始化选用正态分布随机初始化方式；r_t为重置门，取值范围为[0,1]，用于控制按位置忽略M_t-1信息的程度；

为候选隐藏状态，取值范围为[-∞,+∞]，用于记录当前状态保留的信息；Z_t为更新门，取值范围为[0,1]，用于控制此刻

带来信息量的多少。

5.3)若采用单向卷积门控循环神经单元，单元输出即为带有当前时刻之前信息的特征C_t-n/2～C_t+n/2，且输出维度与输入维度是一致的。

若采用双向卷积门控循环神经单元，双向结构需要将原始输入正向输入，再反向输入该单元，将两次结果拼接，则使该单元输出维度加倍。因此，单元输入或者输出需经过1*1卷积核进行降维，使卷积门控循环神经单元的输出与本发明后端分类和回归所需维度一致。

单向的卷积门控循环神经单元仅仅能使时序相关特征C_t-n/2～C_t+n/2具备当前时刻之前的信息，双向的卷积门控循环神经单元使时间上前后信息都得到了学习，双向卷积门控循环神经单元的检测效果更佳。本发明在实验中，对比了单向和双向的卷积门控循环神经单元后的检测效果，双向卷积门控循环神经单元表现更优。在具体的双向卷积门控循环神经单元搭建时，在单元前增加的降维网络为1层核为1*1、通道数为512的卷积层，在单元后增加的降维网络为1层核为1*1，通道数为1024的卷积层。

具体实施时，比较了在单元前增加降维网络和在单元后增加降维网络的模型效果，在单元前增加降维网络使卷积门控循环神经单元的输入维度大大降低，计算量较小；在单元后增加降维网络，卷积门控循环神经单元的参数量不变，本发明提出的视频目标检测网络模型的检测精度得到了提高。

实施例4

基于卷积门控循环神经单元的视频目标检测方法同实施例1-3，步骤(6)所述的时序相关特征加权融合中包括以下步骤：

6.1)将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t送入由三层卷积网络构成的嵌入网络学习各像素位置的权重D_t-n/2～D_t+n/2和D_t。三层卷积网络具体设置为先降维后升维的类似瓶颈层结构，具体实验中采用一层核为1*1、通道为512的卷积层，经过sigmoid激活函数，再送入一层核为3*3、通道为512的卷积层，同样经过sigmoid激活函数，最后送入一层核为1*1、通道为2048的卷积层。

6.2)将参考帧估计特征E_t-n/2～E_t+n/2对应的权重D_t-n/2～D_t+n/2以及当前帧特征F_t对应的权重D_t各自按通道做L2正则化，保证在通道数数值和为1。之后，将二者结果做元素乘法后通过Softmax得到融合权重系数α_t-n/2～α_t+n/2。

6.3)加权融合公式为：

其中t为当前时刻，R_t为时序融合特征，C_t为当前帧通过卷积门控循环神经单元学习到的特征，α_i为融合权重系数，C_i为参考帧通过卷积门控循环神经单元学习到的特征。由于权重系数之和为1，当前帧的特征C_t本身也为1，为了更好地融合信息，对两者之和做了平均。

时序相关特征加权融合过程引入的嵌入网络学习了参考帧与当前帧之间的空间位置关系，通过正则化和softmax算法得到参考帧和当前帧对应的权重，使特征之间的位移现象得到了一定程度的缓解，且特征融合过程考虑了参考帧和当前帧各位置对应的比重，使得到的融合特征能更好的融入不同特征的信息。在实验过程中，对比了直接相加融合特征和采用本发明提出融合方式的检测效果，本发明融合方式提升了检测的精度。

本发明提出的视频目标检测网络模型，参见图1，在挑选了当前帧和参考帧之后，用当前帧通过基础特征提取网络得到当前帧特征，在参考帧和当前帧拼接通过光流学习网络得到光流后，用当前帧特征结合光流通过特征传播得到参考帧估计特征。参考帧估计特征和当前帧特征按时序送入卷积循环神经单元得到时序相关特征，同时，参考帧估计特征分别和当前帧送入嵌入网络得到时序相关特征对应权重，按此权重进行加权融合得到时序融合特征。将时序融合特征送入候选区域网络得到目标候选框即所需的感兴趣区域，在时序融合特征对应的感兴趣区域上采用分类网络和回归网络分别进行分类和位置回归，最终得到检测结果。

其结构可以一次性利用n个参考帧增强当前帧特征质量，该网络模型整体由分类损失和位置回归损失统一进行梯度更新来优化模型参数，且其中没有需要保存中间结果和中间计算的过程，可以进行端到端训练。同时，网络中参数量增加不大，在GTX 1080ti上的测试速度可以达到5fps，与目前流行目标检测方法检测速度基本一致。

下面给出更加细致的例子，结合附图和具体实施例，对本发明进一步详细说明。

实施例5

基于卷积门控循环神经单元的视频目标检测方法同实施例1-4，

参照图2，基于卷积门控循环神经单元的视频目标检测方法，包括如下步骤：

步骤1，选帧过程：以ImageNet VID作为主要训练集，由于视频数据大量的冗余，多样性缺乏的缘故，从ImageNet DET数据集中挑选出包含VID中30类目标的数据作为补充。实际选帧过程时，若为DET数据，选出的n个参考帧均为当前帧的拷贝。若为VID数据，在W选帧范围内，从当前帧前后各选取n/2帧作为参考帧，即得到总数为n的参考帧。图2所示为前后各选一帧的情况。

在本实施例中，采用时序dropout的选帧技巧，挑选当前帧即其前后各一帧作为参考帧，参考帧为在当前时刻t前后t-5～t和t～t+5范围内随机选取1帧，即在本实施例中选帧范围W为11，n为2。采用这样的时序dropout选帧技巧可以增加模型的鲁棒性。

步骤2，基础特征提取网络和光流网络的预训练过程：

(2a)在ImageNet CLS数据集上训练ResNet101模型，由于ResNet101相比VGG模型网络更深，分类效果更佳。相比于DenseNet等模型，在训练测试过程中效率更高；本发明采用训练好的ResNet101模型作为基本特征提取网络。

(2b)在FlyingChairs数据集上训练光流学习网络FlowNet,基于速度和精度的考虑，选用FlowNet Simple结构作为本发明中的光流学习网络。

步骤3，当前帧特征提取过程：

(3a)对于当前帧采用在ImageNet分类数据集上表现良好的分类网络作为基础网络；在本实施例中选取ResNet101作为基础网络，ResNet101具体由Conv1～Conv5共5个卷积模块构成。本实施中在Conv5第一个卷积块中将步长改为1，保证网络输出经过基础网络后尺度只减少为原尺寸的1/16，同时在Conv5中每个残差块的3*3卷积中加入核为2的空洞卷积算法，保证得到的特征具有较大的感受野。

(3b)为了减少网络后端分类网络和回归网络的计算量，在上一步得到的基础网络后去掉平均池化和全连接层，将上一步得到的特征图送入3*3卷积核的降维网络，降维网络的padding大小设置为6，空洞卷积参数设置为6，输出通道数为1024。经过上述更改得到的网络为本实施例所采用的基础特征提取网络。

(3c)将当前帧I_t送入上述步骤得到的基础特征提取网络得到当前帧特征F_t。

步骤4，基于当前帧特征估计参考帧特征：

(4a)参见图2，将参考帧与当前帧沿通道方向拼接作为光流学习网络的输入。光流学习网络的结果用公式表示为S_i＝M(K_i,I_t)，其中S_i代表光流学习网络的结果，M表示光流学习网络，K_i为参考帧，I_t为当前帧。如图2所示，在本实施例中，将K_t-1，K_t+1分别与I_t沿通道拼接，送入光流学习网络。

若同时学习n个参考帧的光流结果时，具体实现仍然可参照图2，可将I_t复制为n帧，同样沿通道方向拼接送入光流学习网络。

(4b)在本实施例中采用FlowNet作为光流学习网络，其结果S_i为两通道的特征图，两通道分别表示参考帧相对于当前帧x，y方向的位移记作δv。采用仿射变换可以得到在当前帧F_t上的位置u+δv。

(4c)得到位置u+δv后，参见图2，通过双线性插值公式可以得到参考帧特征传播后的结果E_i，具体公式如下：

其中E_i为参考帧通过特征传播后得到的特征，w为当前帧特征F_t各像素位置，其取值范围也为F_t各像素位置的坐标(x,y)，G为双线性插值函数，F_t为当前帧提取的特征。

步骤5，基于卷积门控循环神经单元的时序上下文特征学习：

(5a)通过本实施例的步骤3和4，得到的参考帧E_t-1、E_t+1和当前帧F_t按照时序排序后为E_t-1，F_t，E_t+1，并将其作为卷积门控循环神经单元的输入，用符号记作H。

(5b)其中卷积门控循环神经单元的具体计算公式如下：

其中H_t为当前时刻网络的输入特征图，M_t-1为上一时刻网络学习到的带有记忆的特征图，网络学习初始值设定为当前帧特征F_t。*代表卷积操作，⊙代表元素乘操作，σ为sigmoid激活函数将输出到[0,1]之间，便于在空间位置上按概率控制信息保留程度；LReLU为LeakyReLU激活函数，具备ReLU函数计算效率高、缓解梯度消失的优点，且改善了ReLU函数在数值为负时会出现的不激活现象；W_z，U_z，W_r，U_r，W，U为网络需学习的卷积核参数，在本发明中，W_z、W_r、W尺寸大小设置为3*3，用于与H_t的卷积运算，U_z、U_r、U也设置为3*3的尺寸大小，用于与M_t-1做卷积运算，参数初始化选择正态分布随机初始化方式；r_t为重置门，取值范围为[0,1]，用于控制按位置忽略M_t-1信息的程度；

带来信息量的多少。

(5c)在本实施例中采用双向卷积门控循环神经单元，将E_t-1，F_t，E_t+1正序送入卷积门控循环神经单元，再倒序送入卷积门控循环神经单元，将两次结果按通道拼接。具体参数设置时，将隐藏单元设置为为1024(即输出通道)，初始化状态由当前帧特征F_t初始化，其余网络参数由正态分布随机初始化。

(5d)由于双向卷积门控循环神经单元将正反两个方向的结果按通道方向拼接，其输出结果通道数为2048。此时，需将双向卷积门控循环神经单元结果送入降维网络，降维网络由一层卷积网络构成，卷积核为1*1，输出通道为1024；则通过降维网络得到的输出即为带有时序上下文信息的特征C_t-1，C_t，C_t+1。

步骤6，参照图3，具体时序相关特征加权融合步骤如下：

(6a)将E_t-1，E_t+1和F_t送入由三层卷积网络构成的嵌入网络学习各像素位置的权重D_t-1，D_t+1和D_t。

(6b)其中嵌入网络由三层卷积网络构成，卷积核分别为1*1，3*3，1*1，padding分别设置为0，1，0，输出通道分别设置为512，512，2048。每两层卷积层之间加入sigmoid激活函数，使该嵌入网络数据分布与整个视频目标检测模型分布一致。

(6c)将D_t-1，D_t+1和D_t分别按通道做L2正则化，得到正则化后的权重lD_t-1，lD_t+1和lD_t。

(6d)将正则化后的权重lD_t-1，lD_t+1和lD_t分别做元素乘，将结果送入Softmax函数得到融合权重系数α_t-1和α_t+1。

(6e)采用如下加权融合公式得到当前时刻的融合特征R_t，

其中t为当前时刻，R_t为时序融合特征，C_t为当前帧通过卷积门控循环神经单元学习到的特征，α_i为融合权重系数，C_i为参考帧通过卷积门控循环神经单元学习到的特征。

步骤7，目标候选框提取：将得到的时序融合特征R_t按通道拆分为两部分，分别为R_t1，R_t2，将R_t1送入候选区域网络RPN中得到当前帧对应候选目标区域，按置信度排序初步筛选12000个当前帧目标候选区域，然后在候选框与真实边框的IoU阈值为0.5的情况下，采用非极大值抑制NMS方法筛选后得到2000个感兴趣区域ROIs，感兴趣区域ROIs即为候选区域网络RPN预测的目标框位置。

步骤8，目标分类和位置回归：

(8a)本实施例中采用R-FCN后端检测结构，将时序融合特征R_t的第二部分R_t2送入一个核为1*1、通道数为7*7*(C+1)的卷积层，输出是通道为7*7*(C+1)的分类位置敏感得分图。同样，将时序融合特征R_t送入一个核为1*1、通道数为7*7*4的卷积层，输出是通道为7*7*4的回归位置敏感得分图。

(8b)将ROIs按比例映射在分类位置敏感得分图中，在映射范围内采用位置敏感池化，通过投票后得到(C+1)个分类概率，即为对应目标判定为不同类别的概率。

(8c)将ROIs按比例映射在回归位置敏感得分图中，在映射范围内采用位置敏感池化，通过投票后得到4个归一化的位置偏移量，该偏移量分别为相对于中心点坐标(x,y),目标框宽和高(w，h)的偏移量。

(8d)对于分类结果采用负对数损失计算分类的损失函数，对于回归结果采用smooth L1损失函数计算回归损失，由两个损失直接加和构成视频目标检测网络的损失函数，统一进行梯度更新和优化。

本发明也可以采用Fast R-CNN等方法的头部结构，在时序融合特征R_t上的感兴趣区域ROIs中通过分类网络和回归网络分别计算得到当前帧各目标的类别和在当前帧I_t中的边框位置。

步骤9，在训练集上按照上述步骤，选择合适的优化算法训练整个网络，在本实施例中采用经典的SGD优化算法进行训练。

具体学习过程共分两个阶段，第一阶段固定特征提取网络ResNet101的参数、光流网络的学习参数，共学习三个周期，即迭代两遍数据集,学习率初始设置为0.00025，在迭代1.333个周期后按照0.1的衰减因子衰减学习率。第二阶段不再固定参数,按相同的学习率设置方式进行学习。此两阶段训练方法，第一阶段仅学习本发明新加入的各层，使模型先快速学习新层的各项参数，第二阶段联合优化模型各层参数，使参数能调整至最优。

损失函数收敛后，此时模型参数已达最优状况，即得到能同时识别30个类别且计算其位置的视频目标检测网络模型。

步骤10，在验证集上评估模型效果：

采用平均精度均值mAP评价模型效果，比较不同训练方式得到模型的mAP值，根据损失函数曲线和mAP变化，调整步骤9所述的训练过程中的超参数，使模型能得到最优的结果。

以下通过仿真实验，对本发明的技术效果进一步说明:

实施例6

基于卷积门控循环神经单元的视频目标检测方法同实施例1-5，

仿真条件和内容:本发明的仿真条件，CPU为2片Intel Xeon E5-2620V4、主频2.1GHz，内存为64G，GPU为双卡Nvidia GTX1080TI，单卡显存为11G，仿真实验在Ubuntu16.04系统上采用MXNet框架进行。

数据集介绍：ImageNet VID数据集包含30个基本类别是ImageNet DET数据集的子集。数据集中共有3862个视频片段用于训练，555个视频片段用于验证，每个视频段包含56～458帧图像。

仿真内容：采用本发明在ImageNet VID、DET数据集上进行训练，在ImageNet VID验证集上验证模性能。采用评价指标为平均精度均值mAP。

仿真结果分析：

图4为本发明仿真结果与Deep Feature Flow算法结果对比，图中第一行为DeepFeature Flow算法结果，参见图4(a)有1个目标丢失、图4(b)目标全部未检出、图4(c)目标正确检出，可以看出该方法在部分帧效果较好，个别帧检测不到目标。第二行为本发明检测效果，参见图4(d)、图4(e)、图4(f)，可以看出本发明将目标全部正确检出，且检测置信度都保持较高水准。

本例是在一个完整飞机飞行视频片段中应用两种不同算法，对其检测效果分析后，可以发现Deep Feature Flow算法在关键帧上表现良好，在非关键帧上表现不佳。本发明在测试过程中，每帧都引入了参考帧信息，改善了当前帧特征的质量，提高了了每一帧检测效果。本发明相对于DFF方法，速度开销略有增加，重要的是本发明的检测质量得到了较大的提高。对于目标检测，检测质量和精度是重中之重。

在实际应用中，根据具体目标类目信息，利用本发明模型通过迁移学习的方法可以实现相似类目物体的检测，即利用本发明可以很方便地应用于对监控视频、网络视频中常见物体进行定位和识别。

实施例7

基于卷积门控循环神经单元的视频目标检测方法同实施例1-5，仿真条件同实施例6，表1给出了本发明与DFF方法和其改进方法FGFA的不同情况下的mAP值以及测试时间对比。

表1本发明与其他方法mAP值对比

表1中，slow、medium、fast分别指图像中物体运动慢速、中等速度、快速三种情况下的mAP值。本例中，本发明提出的视频目标检测模型采用了3帧图像输入，单向卷积门控循环神经单元的情况下，比相同帧数输入的DFF方法平均mAP高出近1个百分点，与相同帧数输入的FGFA方法相比，平均mAP和慢速mAP略有提升，中等速度、快速时略有不足。可见本发明引入单向卷积门控循环神经单元后，提升了对目标运动变化不大的图像检测效果。

本发明提出的视频目标检测模型在采用了3帧图像输入，双向卷积门控循环神经单元的情况下，各项mAP值均得到较大幅度提升，而测试时间开销增加不大。在本发明加入常用的时序后处理方式Seq-NMS(序列非极大值抑制)后，在各项指标上均有较大的提升。实验证明，本发明在引入双向结构门控循环神经单元后，当前帧的特征融入了时序上相邻帧的信息，对不同速度的运动变化都有更好的适应。

简而言之，本发明提出的一种基于卷积门控循环神经单元的视频目标检测方法，利用了视频数据时序上下文信息的冗余性和相关性，主要解决现有技术步骤繁琐和检测精度不高的问题。实现步骤包括：1)相关数据集处理和网络预训练；2)固定窗口内选取参考帧；3)当前帧特征提取；4)基于当前帧特征估计参考帧特征；5)基于卷积门控循环神经单元的时序上下文特征学习；6)时序相关特征加权融合；7)目标候选框提取；8)目标分类和位置回归；9)训练并得到视频目标检测网络模型；10)验证评估模型效果。本发明引入了当前帧估计参考帧的特征传播方式，建立了当前帧特征与参考帧之间的时序关系；采用卷积门控循环神经单元，将当前帧特征的时间上和空间上的信息引入到当前帧中，并通过嵌入网络学习了当前帧特征和参考帧特征空间位置上的权重系数，采用加权融合的方式利用参考帧特征增强了当前帧特征的质量。本发明与现有技术相比，在时间开销不大的情况下，精度得到较大提升，检测过程复杂度低，可用于对监控视频、网络视频中常见物体进行定位和识别等的视频目标检测任务。

Claims

1.一种基于卷积门控循环神经单元的视频目标检测方法，其特征在于，包括有如下步骤：

(3)当前帧特征提取：当前帧选择大规模图像数据集表现优异的分类网络作为基础特征提取网络，去除该分类网络的分类器部分后用于当前帧特征提取，得到当前帧特征F_t；

2.根据权利要求1所述的基于卷积门控循环神经单元的视频目标检测方法，其特征在于，步骤(4)中所述的基于当前帧特征估计参考帧特征，具体包括如下步骤：

4.1)将参考帧K_t-n/2～K_t+n/2与当前帧I_t沿通道方向拼接作为光流学习网络的输入，用公式表示为S_i＝M(K_i,I_t)；其中，i表示时刻范围t-n/2～t+n/2，S_i代表第i时刻光流学习网络的结果，M表示光流学习网络，K_i为第i个参考帧，I_t为当前帧；

4.2)参考帧K_i通过光流学习网络得到的结果S_i中每个像素位置是相对于当前帧各像素位置的位移δv，采用仿射变换可以得到在当前帧F_t上的位置u+δv；

其中E_i为参考帧通过特征传播后得到的特征，w为当前帧F_t中各像素位置，G为双线性插值函数，F_t为当前帧提取的特征。

3.根据权利要求1所述的基于卷积门控循环神经单元的视频目标检测方法，其特征在于，步骤(5)所述的基于卷积门控循环神经单元的时序上下文特征学习，包括如下详细步骤：

5.1)将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t按照时序排序后，作为卷积门控循环神经单元的输入记作H；

5.2)其中卷积门控循环神经单元具体计算公式如下：

z_t＝σ(W_Z*H_t+U_z*M_t-1),

r_t＝σ(W_r*H_t+U_r*M_t-1),

其中H_t为当前时刻网络的输入特征图，M_t-1为上一时刻网络学习到的带有记忆的特征图，网络学习初始值设定为当前帧特征F_t；*代表卷积操作，⊙代表元素乘操作，σ为sigmoid激活函数，LReLU为LeakyReLU激活函数，W_z，U_z，W_r，U_r，W，U为网络需学习的卷积核参数，初始化时采用正态分布随机初始化；r_t为重置门控制按位置忽略M_t-1信息的程度，取值范围为[0,1]；

为候选隐藏状态，取值范围为[-∞,+∞]；Z_t为更新门，取值范围为[0,1]，控制此刻

带来信息量的多少；

5.3)若采用单向卷积门控循环神经单元，网络输出即为带有当前时刻前信息的特征C_t-n/2～C_t+n/2；若采用双向卷积门控循环神经单元，则网络输出需经过1*1卷积核进行降维得到与网络后端分类和回归所需维度一致的带有时序上下文信息的时序相关特征C_t-n/2～C_t+n/2。

4.根据权利要求1所述的基于卷积门控循环神经单元的视频目标检测方法，其特征在于，步骤(6)所述的时序相关特征加权融合中包括以下步骤：

6.1)将参考帧估计特征E_t-n/2～E_t+n/2和当前帧特征F_t送入由三层卷积网络构成的嵌入网络学习各像素位置的权重D_t-n/2～D_t+n/2和D_t；

6.2)将参考帧估计特征E_t-n/2～E_t+n/2对应的权重D_t-n/2～D_t+n/2以及当前帧特征F_t对应的权重D_t各自按通道做L2正则化，将二者结果做元素乘法后通过Softmax得到融合权重系数α_t-n/2～α_t+n/2；

6.3)加权融合公式为：