CN110705412A

CN110705412A - 一种基于运动历史图像的视频目标检测方法

Info

Publication number: CN110705412A
Application number: CN201910901854.XA
Authority: CN
Inventors: 李韩玉; 蔡强; 余乐; 李海生; 颜津
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-17

Abstract

本发明公开了一种基于运动历史图像的视频目标检测方法，目的是提高视频目标检测的速度和准确性。所述方法包括三个方面：(1)针对输入的视频帧序列，计算其运动历史图像，并通过残差网络对视频帧及其运动历史图像进行特征提取；(2)将提取到的两部分特征进行融合，输入到卷积神经网络中进行候选框的提取操作；(3)根据边界框回归算法以及构建的分类器得到视频目标检测的结果。本发明将运动历史图像加入到模型训练的过程中，不仅为模型提供了视频帧的特征信息还增加了视频帧序列之间的关联信息，由此可以提高视频目标检测的准确度。

Description

一种基于运动历史图像的视频目标检测方法

技术领域

本发明涉及计算机视觉领域，特别是涉及目标检测中的视频目标检测领域，具体是设计一种基于运动历史图像的视频目标检测方法。

背景技术

当前，社会处于一个大数据与云计算并行的时代，随着抖音、快手、火山小视频等视频社交软件的出现，互联网上的信息不再局限于文字和图像，视频信息也层出不穷。挖掘视频信息中的联系、对视频信息进行有效的监控，是当代社会一个不可避免的问题。

目标检测的目的是对图片或视频中多个感兴趣的目标进行检测和分类。其按检测对象可以分为图像目标检测和视频目标检测。当前，图像目标检测在深度学习的背景下，已经趋于成熟。但是，在无人驾驶、视频监控、人机交互等方面对视频目标检测有着广泛的需求。因此，本发明提出了一种基于运动历史图像的视频目标检测方法。

相较于图像来说，视频的一个关键元素是时序信息，人们普遍认为图像内容在视频帧之间变化缓慢，尤其是在高级语义上。因此，视频中物体的位置和外观在时间上应该是一致的，即检测结果在边界框位置和检测置信度上不应该随着时间发生剧烈的变化。视频的另一个关键因素是上下文信息，即在相邻的视频帧之间检测出来的目标应该具有一定的联系。虽然已经有相关研究，将图像上下文信息并合并到静态图像检测框架中，但是视频作为数百幅图像的集合，具有更丰富的上下文信息。由此可见，直接将图像目标检测器用于实时检测视频流中的目标得不到较好的检测结果。所以要做好视频目标检测就要充分利用视频中包含的时序信息和上下文信息。

目前，视频目标检测主要的技术主要有以下几类：

(1)对图像目标检测器的检测结果进行处理，该方法作为一个后处理步骤，需要在每帧检测上额外运行。Seq-NMS和T-CNN算法即为此类算法的典型算法，Seq-NMS将静止图像检测的结果关联到序列中，构建高置信度边界框序列，并对检测框按平均置信度或最大置信度重新评分。T-CNN首先利用图像目标检测器生成视频中目标的候选框，采用跟踪算法对生成的候选框进行跟踪，将预测的边界框传播到相邻帧，通过应用来自高置信度边界框的跟踪算法来生成小管，并基于小管对检测结果重新评分。以上方法需要使用深度卷积神经网络对视频中的每帧图像进行特征提取，导致计算量量巨大，检测速度慢。

(2)在稀疏的、定期选择的关键帧上运行计算量巨大的卷积神经网络，通过光流将从关键帧提取到的特征传播到其他帧，该方法使用了光流图像，因为光流图像的提取计算量大，而且在定期选择的关键帧上进行特提取，可能导致关键信息丢失，从而降低了检测精度。

基于以上分析可得，当前视频目标检测遇到的问题是在运用视频中特有的高级语义信息时，耗费了较多的资源。而运动历史图像是一种基于视觉的模板方法，通过计算时间段内同一位置的像素变化，将目标运动情况以图像亮度的形式表现出来。运动历史图像可以根据相邻视频帧之间差值得到，即帧间差分法，降低了获取视频中上下文信息和时序信息的时间消耗。帧间差分法的使用，使运动前景与背景分离，实现了运动分割，进而可以把一段视频序列压缩成一张静态图像，图像中每个像素的灰度值表示了在一组视频序列中该位置最近的运动情况。由以上描述可得，运动历史图像不仅可以对一个视频片段进行全局的概括，而且包含了视频目标检测所需要的上下文信息以及时序信息，提取过程相对简单，可以减少视频目标检测过程中的计算量，降低时间消耗。

针对上述问题，构建一个能充分利用视频中时序信息和上下文信息的端到端网络，是解决视频目标检测问题的关键。由运动历史图像的提取过程和表现形式可以发现，运动历史图像在提取和应用视频中上下文信息和时序信息上有很大的优势。此外，我们还可以运用运动历史图像进行关键帧的选取，以降低视频中冗余信息带来的计算量。根据现有了解，还没有任何机构或组织将从运动历史图像提取到的特征和原始视频帧提取到的特征进行融合，传入到一个端到端的网络进行训练。

发明内容

针对现有图像目标检测技术不能充分利用视频中时序信息的缺陷，本发明提出了一种基于运动历史图像的视频目标检测方法，算法中利用运动历史图像表征视频中的时序信息，将时序信息融合到图像目标检测技术中，从而更好的检测视频。

本发明的技术方案如下：

一种基于运动历史图像的视频目标检测方法，包括以下步骤：

步骤(1)本发明使用了大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集，该数据集中包含了30个类别，且训练集和验证集已经被全部标注并完成了所有的视频片段的切帧操作；

步骤(2)输入视频帧序列，记为I_i{i＝1，2，3，...，p}(56＜p＜458)；采用计算机视觉库Opencv中的读图片的方法读取输入的视频帧I_i，得到视频帧的矩阵表示im_data_i；

步骤(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net，将步骤(2)中得到的视频帧的矩阵表示im_data_i，输入到特征提取网络feat1_net中，得到该视频帧的特征图im_feat_i；

步骤(4)提取每一帧视频的运动历史图像MHI_i{i＝1，2，3，...，p}(56＜p＜458)，

其中，t表示当前运动的时刻，(x，y)代表图像中的一个像素点，τ为视频的持续时间，σ为衰退算子，δ为设定的阈值，用来判断两个视频帧目标之间是否发生了运动，根据运动的幅度更新运动历史图像。

为相邻视频帧之间的差值，

步骤(5)采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络，对运动历史图像MHI_i进行特征提取操作；首先采用计算机视觉库Opencv中的读图片的方法读取运动历史图像MHI_i，得到运动历史图像的矩阵表示MHI_data_i；将MHI_data_i输入到feat2_net中，得到运动历史图像的特征图MHI_feat_i；

步骤(6)将视频帧的特征图im_feat_i和运动历史图像的特征图MHI_feat_i进行融合，得到特征图base_feat；

步骤(7)在base_feat上滑动一个以f×f为卷积核的卷积网络，输出一个长度为n维的全连接特征，将得到的特征分别送入到两个全连接层，分别生成k个候选框的坐标和候选框中包含目标的概率；采用非极大值抑制(NMS)的方法，对候选框进行筛选，得到前m个候选框；

步骤(8)将步骤(6)中得到的base_feat和步骤(7)中的到的m个候选框输入到ROI池化层进行池化操作，得到m个相同大小的特征图；将得到的特征图输入到Resnet101的92到101层网络中，网络的前9层为卷积网络，最后一层为全连接层，实现目标分类以及目标边界框坐标的预测；

所述步骤(2)和步骤(5)中，采用的计算机视觉库opencv中cv2.read()的方法读取图片，具体实现分别为im_data＝cv2.read(I_i)和MHI_data_i＝cv2.read(MHI_i)。

所述步骤(4)中，设置δ＝32，得到的运动历史图像包含了较多运动目标的信息。将运动历史图像应用于视频目标检测的过程中，对每一个视频帧的运动历史图像进行提取，既保留了视频帧与帧之间的时序信息，同时也保留了目标的运动信息。

所述步骤(6)中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法，base_feat＝torch.cat([im_feat，MHI_feat]，1)，公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接。

所述步骤(7)中，设置f＝3，n＝256，m＝1200，即卷积网络的卷积核为3×3，输出的全连接特征长度为256维。非极大值抑制方法的实现是根据候选框中含有目标的概率对候选框排序，选取前1200个候选框作为后续网络输入。

本发明与现有的技术相比优点在于：通过上述步骤，基于运动历史图像的视频目标检测方法在端到端的训练过程中加入了运动历史图像，运动历史图像包含了视频目标检测所需要的时序信息以及上下文信息，为视频目标检测提供了丰富的语义信息，有利于模型对目标进行准确的定位和分类；而且运动历史图像相较于光流图像提取简单，速度快且可操作性强，保证了视频目标检测的检测速度以及检测精度。

附图说明

图1是本发明方法流程图；

图2是本发明提取到的运动历史图像示意图；

图3是本发明的网络架构图；

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。

如图1所示，本发明是一种基于运动历史图像的目标检测算法，通过提取视频帧的运动历史图像的特征，并将运动历史图像的特征和视频帧的特征进行融合，提高了视频中时序信息的利用率，同时相对于现有的视频目标检测技术来说，也降低了时间复杂度。

实施例1：

(1)本发明使用了大规模视觉识别挑战赛在2015年提出的一个大规模视频目标检测的基准数据集ImageNet VID作为实验用的数据集，该数据集共包含30个类别的目标，是ImageNet DET图像数据集中类别的子集，这些类别是考虑了不同的因素，如移动类型、视频杂乱程度、对象实例的平均数量以及其他一些因素，可以进行广泛的研究。同时，该数据集包含3862段视频作为训练集，555段视频作为验证集，937段视频作为测试集。训练集和验证集已经被全部标注且已经对所有的视频片段进行了切帧操作即数据集中为视频帧序列。本发明中的方法不仅适用于对该数据集包含的交通工具、动物类别的检测，也可以扩展到其他类别的视频目标检测，例如行人检测。

(2)由(1)中的数据集，可以得到视频帧，将视频帧视为独立的图像，构建残差网络对视频帧进行特征提取，得到该视频帧的特征图。在本发明中采用计算机视觉库Opencv中的cv2.read()方法读取输入的视频帧I_i{i＝1，2，3，...，p}(56＜p＜458)，得到视频帧的矩阵表示im_data_i，im_data＝cv2.read(I_i)；

(3)选取残差网络(Resnet101)的前91个卷积层作为特征提取网络feat1_net，将(2)得到的im_data_i输入到特征提取网络feat1_net中，得到该视频帧的特征图im_feat_i，im_feat_i＝feat1_net(im_data_i)，feat1_net的网络结构信息如表1所示。

表1是本发明涉及到的feat1_net网络结构信息表。

(4)提取每一帧视频的运动历史图像MHI_i{i＝1，2，3，...，p}(56＜p＜458)，

为相邻视频帧之间的差值，

对于视频帧之间的差值阈值δ，取值过小，会导致获取的运动历史图像呈现出很多噪音点；取值过大，又会导致丢失某些像素强度低的特征，因此，差值阈值δ的设定还有根据具体的实验进行具体分析。通过实验，本发明设置δ的值为32，提取到的运动历史图像的示意图如图2所示。图2中左侧为相邻两帧的视频图像，右侧为其运动历史图像，对比椭圆部分可以发现鸟的翅膀在逐渐张开，由此可见，此时运动历史图像清楚的描述了目标的运动信息，可以帮助模型更好的预测目标的位置。由上可得该阈值的设定包含了运动目标较多的信息，符合视频目标检测的条件。

(5)提取运动历史图像的特征图。在本发明中采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络feat2_net，对运动历史图像进行特征提取操作。首先采用计算机视觉库Opencv中cv2.read()的方法读取运动历史图像MHI_i，得到运动历史图像的矩阵表示MHI_data_i；将MHI_data_i输入到feat2_net中进行特征提取操作，得到运动历史图像的特征图MHI_feat_i，MHI_feat_i＝feat2_net(MHI_data_i)，feat2_net的网络结构信息如表2所示。

表2是本发明涉及到的feat2_net网络结构信息表。

(6)将视频帧的特征图im_feat_i和运动历史图像的特征图MHI_feat_i在特征级别进行融合，本发明中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法，base_feat＝torch.cat([im_feat，MHI_feat]，1)，公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接，得到特征图base_feat。

(7)在base_feat上滑动一个以3×3为卷积核的卷积网络，输出一个长度为256维的全连接特征，将得到的特征分别送入到两个全连接层，生成k个候选框的坐标以及候选框中是否包含目标的概率。采用非极大值抑制的方法，根据候选框中是否含有目标的概率对候选框进行筛选，即将k个候选框按是否含有目标的概率进行排序，得到前1200个候选框。

(8)将步骤(6)中得到的base_feat和步骤(8)中的到的1200个候选框输入到ROI池化层。首先根据候选框左上角和右下角的坐标，将1200个候选框映射到base_feat的相应位置，然后将映射后的区域划分为h×h个子区域，对每个子区域做最大池化操作即取每个子区域中的最大值，输出到相应的输出网格单元中，得到m个h×h的特征图。将得到的特征图输入到Resnet101的92到101层网络feat3_net(网络结构信息如表3所示)中，网络的前9层为卷积网络，最后一层为全连接层，实现目标分类以及目标边界框的坐标的预测。

表3是本发明涉及到的feat3_net网络结构信息表。

本发明整体的网络架构如图3所示，图中实线矩形框的部分即为本发明的创新，首先从原始图片中获取其运动历史图像，获得视频中的时序和上下文信息；其次使用Resnet18的前13层卷积网络提取运动历史图像的特征，得到图像中包含的高级语义信息；将得到的特征图和原始视频帧的特征图在通道上，进行连接，传入到后续网络进行训练，增强了特征的传播，同时可以借助模型的反向传播机制修正网络参数，对模型进行调优操作。和其他特征融合的方法相比，该框架在产生检测结果之前，收集了视频帧之间的高级信息，为模型的训练提供了丰富的语义信息，增强了模型的鲁棒性和健壮性。

实施例2：

与实施例1不同的是：

在步骤4中得到的运动历史图像可以先进行伪彩色处理，即根据得到的灰度图像中像素点的灰度级赋予不同的彩色，使运动历史图像可以为模型训练提供更多信息。本发明中采用灰度级彩色变换法将灰度图转化为RGB图像，转化方式如下：

(1)获取图像中某一像素点(x，y)的值f(x，y)；

(2)根据以下转化公式得到该像素点红色通道的值R(x，y)，绿色通道的值G(x，y)，蓝色通道的值B(x，y)。

应当理解的是，对本领域的普通技术人员来说，可以根据上述说明加以改进或变换，而所有的这些改进和变换都应该属于本发明所附权利要求的保护范围。

Claims

1.一种基于运动历史图像的视频目标检测方法，其特征在于，包括以下步骤：

为相邻视频帧之间的差值，

步骤(5)采用残差网络(Resnet18)的中的前13层卷积网络作为特征提取网络feat2_net，对运动历史图像MHI_i进行特征提取操作；首先采用计算机视觉库Opencv中的读图片的方法读取运动历史图像MHI_i，得到运动历史图像的矩阵表示MHI_data_i；将MHI_data_i输入到feat2_net中，得到运动历史图像的特征图MHI_feat_i；

步骤(7)在base_feat上滑动一个以f×f为卷积核的卷积网络，输出一个长度为n维的全连接特征，将得到的特征分别送入到两个全连接层，分别生成k个候选框的坐标和候选框中包含目标的概率；采用非极大值抑制的方法，对候选框进行筛选，得到前m个候选框；

步骤(8)将步骤(6)中得到的base_feat和步骤(7)中的到的m个候选框输入到ROI池化层进行池化操作，得到m个相同大小的特征图；将得到的特征图输入到Resnet101的92到101层网络中，网络的前9层为卷积网络，最后一层为全连接层，实现目标分类以及目标边界框的坐标预测。

2.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(2)和步骤(5)中，采用的计算机视觉库opencv中cv2.read()的方法读取图片，具体实现分别为im_data＝cv2.read(I_i)和MHI_data_i＝cv2.read(MHI_i)。

3.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(4)中，设置δ＝32，得到的运动历史图像包含了较多运动目标的信息。将运动历史图像应用于视频目标检测的过程中，对每一个视频帧的运动历史图像进行提取，既保留了视频帧与帧之间的时序信息，同时也保留了目标的运动信息。

4.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(6)中采用的特征融合的方法为深度学习pytorch框架中自带的concat方法，base_feat＝torch.cat([im_feat，MHI_feat]，1)，公式中的“1”代表视频帧的特征图和运动历史图像的特征图在第二个维度上进行拼接。

5.根据权利要求1所述的一种基于运动历史图像的视频目标检测方法，其特征在于：所述步骤(7)中，设置f＝3，n＝256，m＝1200，即卷积网络的卷积核为3×3，输出的全连接特征长度为256维。非极大值抑制方法的实现是根据候选框中含有目标的概率对候选框排序，选取前1200个候选框作为后续网络输入。