CN109583340A

CN109583340A - 一种基于深度学习的视频目标检测方法

Info

Publication number: CN109583340A
Application number: CN201811374255.9A
Authority: CN
Inventors: 郑慧诚; 罗子泉
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-04-05
Anticipated expiration: 2038-11-15
Also published as: CN109583340B

Abstract

本发明公开了一种基于深度学习的视频目标检测方法，应用于视频目标检测领域。方法利用卷积神经网络进行图像特征的提取，提出了时间‑空间特征提取网络，用于提取视频的空间上下文和时间上下文信息，并将图像特征与时间、空间上下文信息融合，更新骨干网络输出的特征图，最后将所得特征图输入检测网络，得到最终的检测结果，兼顾了目标检测的准确性和实时性。这种方法有效的提升了检测的准确性和实时性。

Description

一种基于深度学习的视频目标检测方法

技术领域

本发明涉及目标检测领域，更具体地，涉及一种基于深度学习的视频目标检测方法。

背景技术

近年来，深度学习在计算机视觉领域取得了前所未有的突破，通过多层神经网络的结构，整合图像的整体信息，从更高、更抽象的层次对图像特征进行表达。当前，基于卷积神经网络(CNN)的深度学习模型被广泛应用在目标检测当中，并被证明具有优于传统手工特征方法的效果。

当前，目标检测方式主要分为两大类：一类是基于手工特征提取的目标检测方法，另一类是基于深度学习特征提取的目标检测方法。典型的手工特征包括了形状、轮廓信息等，也可以是具有统计特性的Haar特征、Hog特征等。这些特征能够在一定程度上描述图像，结合传统的有监督机器学习分类器，在某些任务上能够满足检测需要。然而现有的技术存在以下缺陷：(1)基于人工设计的特征提取方法通常需要相关领域知识或大量统计数据，因而需要极大的研究成本；另外，手工特征的泛化能力较弱，一定程度上影响其准确性。(2)基于深度学习的特征提取方法计算量一般较为巨大，妨碍了实际场景中的应用。(3)当前目标检测研究更为注重静态图像的检测，在视频上仅利用视频的冗余信息，对检测结果进行后处理，或利用光流重新计算特征，没有充分融合视频的时间、空间上下文信息，因此兼顾准确率和实时性的视频目标检测仍是目前相关研究和应用的重要挑战。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种更加准确和实时的基于深度学习的视频目标检测方法。

为解决上述技术问题，本发明的技术方案如下：一种更加准确和实时的基于深度学习的视频目标检测方法，包括以下步骤：

S1：归一化训练图像尺寸，以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数；

S2：将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数；

S3：将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。

本发明利用骨干网络进行图像特征的提取，主要通过时间-空间特征提取网络，用于提取视频的空间上下文和时间上下文信息，并将图像特征与时间、空间上下文信息融合，更新骨干网络输出的特征图，最后将所得特征图输入检测网络，得到最终的检测结果。

优选地，步骤S1中的训练图像统一归一化为同样像素大小的图像。

优选地，步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为：

S21：选取同一视频相距n帧内的两帧图像作为训练样本，将两帧图像中的前一帧作为参考帧I_k，后一帧作为预测帧I_i；

S22：将参考帧I_k作为输入，经过骨干网络N_feat，提取图像特征，输出对应的参考帧特征图f_k，其公式表示如下：

f_k＝N_feat(I_k)

S23：将参考帧和预测帧同时输入时间-空间特征提取网络N_time-space，得到帧间的光流信息T_i,k和空间显著度概率图S_i,k，其公式表示如下：

T_i,k,S_i,k＝N_time-space(I_i,I_k)；

S24：利用光流信息和参考帧的特征图，通过双线性插值的方法生成预测帧的初始特征图f_i′，再与空间显著度概率图做基于元素的相乘，作为预测帧最终的特征图f_i，其公式表示如下：

f_i′＝Bilinear(f_k,T_i,k)

其中Bilinear表示双线性插值处理；

S25：将特征图f_i，经过检测网络N_det，输出最终的检测结果y：

y＝N_det(f_i)；

S26：结合检测结果和真实的标注信息，计算损失函数，并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。

优选地，步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为：

S31：处理待检测视频，按固定间隔d选取关键帧，即每隔d帧选取1个关键帧，其余为非关键帧；

S32：输入视频首帧I₀，记作最初的关键帧，即I_k＝I₀，将其输入到骨干网络中得到f₀，将f₀作为关键帧的特征图，即f_k＝f₀，将其输入到检测网络中得到检测结果y₀；

S33：依次处理视频中的每一帧，若当前帧I_i为关键帧，将其输入到骨干网络中得到f_i′，通过时间-空间特征提取网络更新特征图得到f_i，再将其输入到检测网络中得到检测结果y_i，最后更新参考关键帧及其特征图信息，使I_k＝I_i，f_k＝f_i′；

S34：若当前帧I_i为非关键帧，将其与关键帧I_k输入到时间-空间特征提取网络得到帧间的光流信息T_i,k和空间显著度概率图S_i,k，利用光流信息对关键帧的特征图进行双线性插值，得到当前帧特征图f_i′，再利用空间信息更新当前帧特征图得到f_i，最后将其输入到检测网络中得到检测结果y_i。

优选地，所述的骨干网络采用了ResNet-101模型，包括若干个卷积层和池化层，用于提取关键帧的图像特征。

优选地，所述的时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支；主干部分以关键帧和当前帧在RGB通道拼接后的图像作为输入，主干部分包括若干个卷积层，并且通过若干个卷积层提取帧间不同层次的特征信息，空间特征提取分支和时间特征提取分支共享这若干个卷积层的参数。

优选地，所述主干部分包括6个卷积层，分别是conv1、conv2、conv3、conv3_1、conv4、conv4_1，其中conv1的卷积核尺寸为7×7，conv2、conv3的卷积核尺寸为5×5，conv3_1、conv4、conv4_1的卷积核尺寸为3×3。

优选地，空间特征提取分支包括conv8、通道池化和S_i,k，该网络以主干部分提取的特征图作为输入，经过1个卷积层和通道池化后得到空间显著度概率图S_i,k，其中conv8卷积核大小为3×3，移动步长为1；

优选地，时间特征提取分支包括卷积层conv5、conv5_1、conv6、conv7，反卷积层deconv1、deconv2；该网络以主干部分提取的特征图作为输入，经过卷积层和反卷积层后，输出与特征图同样大小，通道数为2的光流图像，表示当前图像特征在关键帧特征图x、y轴上的迁移信息；其中卷积层conv5、conv5_1、conv6、conv7的卷积核大小都是3×3，conv5_1和conv7的卷积核移动步长为1，conv5，conv6的卷积核移动步长为2；反卷积层deconv1和deconv2，卷积核大小为4×4，移动步长为2。

与现有技术相比，本发明技术方案的有益效果是：首先本发明合理地利用了视频的空间上下文信息，提出了空间显著度的概念，提升了检测的准确率；其次，设计了时间-空间特征提取网络，高效地提取了邻近帧存在的上下文信息，时间上下文特征和空间上下文特征共同训练，共享参数，有效控制了神经网络模型的大小，兼顾了目标检测的准确性和实时性。

附图说明

图1为本发明流程图。

图2为本发明中目标检测流程示意图。

图3为本发明骨干网络以及时间-空间特征提取网络示意图。

图4卷积神经网络整体结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的流程图，本发明的步骤包括：

S1：将训练图像统一归一化到600×1000像素大小，并初始化卷积神经网络的参数；

S2：训练骨干网络、时间-空间特征提取网络以及检测网络；

S21：随机选取同一视频相距n帧内的两帧图像作为训练样本，在本发明具体实施例中n取10，由于在训练中不存在关键帧和非关键帧的概念，训练中将两帧图像中的前一帧作为参考帧I_k，后一帧作为预测帧I_i；

f_k＝N_feat(I_k)

S23：将参考帧和预测帧图像同时输入时间-空间特征提取网络N_time-space，得到帧间的光流信息T_i,k和空间显著度概率图S_i,k，分别代表时间维度和空间维度的信息，其公式表示如下：

T_i,k,S_i,k＝N_time-space(I_i,I_k)；

f_i′＝Bilinear(f_k,T_i,k)

其中Bilinear表示双线性插值处理；

y＝N_det(f_i)；

S3：对待检测视频进行目标检测并输出最终的预测框以及分类结果，其具体步骤如图2所示。

S32：输入视频首帧I₀，记作最初的关键帧，即I_k＝I₀，将其输入到骨干网络中得到f₀，将f₀作为关键帧的特征图，即f_k＝f₀，将其输入到检测网络中得到检测结果y₀，其中首帧不做时间-空间特征提取；

在具体实施过程中，首先将视频图像分为了关键帧和非关键帧两类。对于关键帧，首先将图像输入到骨干网络中，然后将此关键帧和前一张关键帧输入时间-空间特征提取网络，从空间特征提取分支中得到空间显著度概率图，与原特征图做基于元素(element-wise)的乘法，突显特征图中的关键区域，并抑制次要特征区域；对于非关键帧，其特征图由关键帧的特征图和时间-空间特征提取网络中的时间特征提取分支得到的光流信息生成，此举有效提高了检测的速度。最后通过基于区域建议网络(RPN)模型进行候选框提取，通过区域全卷积(RFCN)模型输出最终的检测分类结果。为了减少网络模型的参数，时间上下文特征和空间上下文特征的提取会共享同一个网络，其卷积神经网络整体结构如图4所示。

时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支。主干部分包括了图3中从conv1到conv4_1的6个卷积层，为时间特征提取分支和空间特征提取分支共享参数的部分，该部分将关键帧和当前帧的RGB通道拼接(concat)后的图像作为输入，通过卷积层提取帧间不同层次的特征信息。其中conv1，conv2，conv3，conv4四个卷积层的卷积核移动步长为2，除了特征提取的作用之外，也起到了下采样的效果。由于浅层特征一般具有较大的空间相关性，因此，在前期的卷积层中，会选取感受野更大的卷积核，本发明中conv1中卷积核尺寸为7×7，conv2、conv3为5×5。其余3个卷积层的卷积核大小均为3×3。

空间特征提取分支包括了图3中的conv8、通道池化和S_i,k。该分支以主干部分输出的特征图作为输入，经过1个卷积层和通道池化后，输出与特征图同样大小，通道数为1的空间显著度概率图，表示特征在不同位置的重要程度，其中卷积层conv8卷积核大小为3×3，移动步长为1。该概率图会与骨干网络形成得到的特征图做基于元素的乘法，得到带有邻近帧空间信息的特征图。另外，通道池化的具体操作是对特征图同一位置的所有通道值进行平均，类似于池化，故称作通道池化，可用以下公式表示，其中C为特征图的通道数，g_x,y,c的为特征图在横纵坐标x、y、通道c的数值：

时间特征提取分支包括了图3中未提及的其余部分。该分支以主干部分输出的特征图作为输入，经过卷积层和反卷积层后，输出与特征图同样大小，通道数为2的光流图像，表示当前图像特征在关键帧特征图x、y轴上的迁移信息。其中卷积层卷积核大小均为3×3，conv5，conv6的卷积核移动步长为2，其余卷积核移动步长为1。对于反卷积层，卷积核大小为4×4，移动步长为2，起到特征上采样的作用。形成的光流图像连同关键帧的特征图，用于非关键帧特征图的生成。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的视频目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于：步骤S1中的训练图像统一归一化为同样像素大小的图像。

3.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于：步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为：

f_k＝N_feat(I_k)

T_i,k,S_i,k＝N_time-space(I_i,I_k)；

f_i′＝Bilinear(f_k,T_i,k)

其中Bilinear表示双线性插值处理；

y＝N_det(f_i)；

4.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于：步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为：

5.根据权利要求4所述的一种基于深度学习的视频目标检测方法，其特征在于：步骤S32中首帧不做时间-空间特征提取。

6.根据权利要求4所述的一种基于深度学习的视频目标检测方法，其特征在于：所述的骨干网络采用了ResNet-101模型，包括若干个卷积层和池化层，用于提取关键帧的图像特征。

7.根据权利要求4所述的一种基于深度学习的视频目标检测方法，其特征在于：所述的时间-空间特征提取网络包括主干部分、空间特征提取分支和时间特征提取分支；

主干部分以关键帧和当前帧在RGB通道拼接后的图像作为输入，主干部分包括若干个卷积层，并且通过若干个卷积层提取帧间不同层次的特征信息，空间特征提取分支和时间特征提取分支共享这若干个卷积层的参数。

8.根据权利要求7所述的一种基于深度学习的视频目标检测方法，其特征在于：所述的主干部分包括6个卷积层，分别是conv1、conv2、conv3、conv3_1、conv4、conv4_1，其中conv1的卷积核尺寸为7×7，conv2、conv3的卷积核尺寸为5×5，conv3_1、conv4、conv4_1的卷积核尺寸为3×3。

9.根据权利要求7所述的一种基于深度学习的视频目标检测方法，其特征在于：所述的空间特征提取分支包括conv8、通道池化和S_i,k，该网络以骨干网络提取的特征图作为输入，经过1个卷积层和通道池化后得到空间显著度概率图S_i,k，其中conv8卷积核大小为3×3，移动步长为1。

10.根据权利要求7所述的一种基于深度学习的视频目标检测方法，其特征在于：所述的时间特征提取分支包括卷积层conv5、conv5_1、conv6、conv7，反卷积层deconv1、deconv2；该网络以骨干网络提取的特征图作为输入，经过卷积层和反卷积层后，输出与特征图同样大小，通道数为2的光流图像，表示当前图像特征在关键帧特征图x、y轴上的迁移信息；其中卷积层conv5、conv5_1、conv6、conv7的卷积核大小都是3×3，conv5_1和conv7的卷积核移动步长为1，conv5，conv6的卷积核移动步长为2；反卷积层deconv1和deconv2，卷积核大小为4×4，移动步长为2。