CN112380970A

CN112380970A - 基于局部区域搜索的视频目标检测方法

Info

Publication number: CN112380970A
Application number: CN202011260898.8A
Authority: CN
Inventors: 龚声蓉; 曾彪
Original assignee: Changshu Institute of Technology
Current assignee: Yantu Huiyun Suzhou Information Technology Co ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-19
Anticipated expiration: 2040-11-12
Also published as: CN112380970B

Abstract

本发明公开了一种基于局部区域搜索的视频目标检测方法，依次包括以下步骤：首先将视频的第一帧使用单帧检测器进行检测，得到图像中所有目标的区域和类别；从第二帧开始将每个目标在上一帧的位置映射到当前帧，把该区域输入到运动预测模块进行检测，得到目标的运动方向并对目标的位置进行微调，得到目标在当前帧的区域，目标的类别沿用上一帧的结果；将目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块，判断两个区域是否表示的是同一个目标，如果不是则对当前帧使用单帧检测器进行检测目标的位置和类别；对其余帧持续上述过程至检测结束。本发明方法能够保证检测准确度并提高速度，节省资源开销。

Description

基于局部区域搜索的视频目标检测方法

技术领域

本发明涉及一种视频目标检测方法，特别是涉及一种基于局部区域搜索的视频目标检测方法。

背景技术

视频目标检测的任务是识别出输入视频中每一帧图像所含有的每一个目标所处的位置以及每个目标的类别，目标的位置一般用一个包围目标的矩形边界框表示。视频目标检测的目的是将机器训练成可以检测出视频中所包含的物体的位置和分类等信息，从而代替人工来对庞大的视频库进行处理。随着互联网带宽的不断提升，视频的应用场景越来越广泛，如视频网站、短视频应用平台等在普通用户中逐渐普及开来，因而在互联网上产生了大量未分类的视频，对平台和用户都产生了很大的困扰，因为光凭视频的标题和缩略图可能会对视频的整体内容产生误导，而人工审核对于较长视频的耗时又较长，无法跟上视频产生的速度。

视频目标检测方法可以根据不同的侧重分为两类。第一类侧重于提高视频目标检测的准确率，通过将同一目标在不同视频帧中各自对应的特征进行融合，增强特征的表达能力，从而提高检测器对于局部遮挡、运动模糊等目标的鲁棒性。另一类方法主要侧重于减少开销，因为视频中每秒都包含了几十帧以上非常相似的图片，如果对每一帧都使用计算复杂度较高的检测器的话代价将会非常大。现有技术中将一个视频的所有帧分成关键帧和非关键帧，关键帧使用开销相对较大但是较为准确的检测器进行检测，而非关键帧则使用一些开销较小的方法进行推理，如光流等。

但是这些方法对于视频目标检测的效率还有待提高。目前大多数方法的处理速度只有每秒十帧左右，然而视频每秒钟可能有二十帧以上，视频处理的实时性不是很高。另外视频中相邻帧非常相似，而现有方法总是从每张图片的所有区域对目标进行搜索，在大量的背景区域上浪费了很多计算资源。

发明内容

针对上述现有技术缺陷，本发明的任务在于提供一种基于局部区域搜索的视频目标检测方法，针对视频相邻帧相似性高导致检测效率低的问题，节省资源开销，在保证效率的同时兼顾检测的准确率。

本发明技术方案如下：一种基于局部区域搜索的视频目标检测方法，依次包括以下步骤：

S1、首先将输入视频的第一帧标记为关键帧并使用单帧检测器进行检测，得到所述第一帧的图像中所有目标的区域和类别；

S2、从所述输入视频的第二帧开始，将每个目标在上一帧的位置映射到当前帧，并把映射的区域输入到运动预测模块进行检测，得到目标的运动方向，根据所述运动方向信息对目标的位置进行微调，得到所述目标在当前帧的区域，所述目标的类别沿用上一帧的结果；

S3、将步骤S2得到的目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块，由相似性检测模块判断两个区域是否表示的是同一个目标，如果是同一个目标则跳过；如果不是同一个目标则将当前帧标记为关键帧，并使用单帧检测器进行检测目标的位置和类别；

S4、如果还有下一帧则返回步骤S2进行下一帧的检测，否则检测结束。

在本发明中，对于关键帧采用单帧检测器检测，单帧检测器采用计算开销较大但具有更高准确度的网络结构，虽然关键帧的检测占用开销较高，但是更多的视频帧为非关键帧，而大量的非关键帧使用比较轻量的运动预测模块进行检测，所以总体的视频检测开销会显著减少。运动预测模块用于对非关键帧中的目标运动情况进行预测，当上一帧中的目标区域被检测出来后，运动预测模块就在上一帧目标位置的基础上对目标的运动情况进行预测。由于相邻两帧图像非常相似且目标的运动变化幅度很小，若采用复杂的网络结构对全图进行检测将会产生很大的开销，因此采用一个比较轻量的网络结构仅在目标在上一帧的位置附近的一个局部区域内对目标的运动进行预测，从而根据运动情况对目标的位置进行微调。为了避免运动预测模块的误判影响准确度，再对运动预测模块的结果进行相似性计算，对于不相似的结果重新由单帧检测器检测，这样总体上能够提高检测效率并且保证准确度。

进一步地，为了解决中间某帧出现新目标等异常情况时运动预测失效的问题，所述运动预测模块记录未经过单帧检测器进行检测的非关键帧的帧序号，当当前帧的帧序号与记录的所述非关键帧的帧序号构成连续的数列时，判断所述数列的长度，如果长度超过阈值则将当前帧标记为关键帧，并使用单帧检测器进行检测目标的位置和类别，再进入步骤S4。

进一步地，所述步骤S3中，由所述相似性检测模块判断不是同一个目标时，将当前帧的帧序号从所述运动预测模块的记录中去除。

进一步地，所述单帧检测器进行检测是将帧图像输入残差网络得到抽象特征，然后将所述抽象特殊输入特征金字塔网络，由顶层的特征与残差网络的各层的抽象特征进行融合得到不同尺度的特征信息，再将所述特征信息输入区域生成网络生成一系列的目标候选区域，由所述目标候选区域与所述特征信息进行感兴趣区域池化操作得到各目标候选区域对应的区域特征，最后把所述区域特征调整到固定大小并由分类器进行分类完成检测。

进一步地，所述运动预测模块进行检测是将所述映射的区域调整大小并经过若干卷积池化层提取特征得到两个分支，一个所述分支为经过全连接层后生成多维度的目标运动方向向量，所述目标运动方向向量中数值最大的维度为目标运动方向；另一个所述分支得到预测结果的置信度，置信度越高，表示结果越准确。

进一步地，所述目标运动方向向量的维度分别表示向左、向左*2、向右、向右*2、向上、向上*2、向下、向下*2、不变、缩小、放大的运动方向。

进一步地，所述相似性检测模块判断两个区域是否表示的是同一个目标是将当前帧的所述映射的区域与上一帧的目标区域分别输入孪生网络的两个完全相同的分支进行特征提取，对提取的特征计算欧式距离，当计算得到的欧式距离小于设定的相似阈值时为相似，表示为同一目标，否则为不相似，表示为不同目标。

本发明与现有技术相比的优点在于：

对视频输入帧进行区分，将关键帧通过单帧检测器进行检测以获得较高的准确率，而对非关键帧通过运动预测模块对映射的目标区域进行运动检测以获得较高的检测速度，再利用相似性检测模块对由运动预测模块检测的结果计算来反馈对关键帧及非关键帧的判断，进而使得由运动预测模块检测的非关键帧结果出现偏差时再此利用单帧检测器对其检测，进一步保证了整体检测结果的准确率。

附图说明

图1为基于局部区域搜索的视频目标检测方法立体结构示意图。

图2为单帧检测器结构示意图。

图3为运动预测模块结构示意图。

图4为相似性检测模块结构示意图。

图5为本发明方法定性评估视频结果示意图一。

图6为本发明方法定性评估视频结果示意图二。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

为了更好地理解本发明，请结合图1所示，基于局部区域搜索的视频目标检测方法依次包括以下步骤：

S1、首先将输入视频的第一帧标记为关键帧并使用单帧检测器进行检测，得到第一帧的图像中所有目标的区域和类别；

S2、从输入视频的第二帧开始，将每个目标在上一帧的位置映射到当前帧，并把映射的区域输入到运动预测模块进行检测，得到目标的运动方向，根据运动方向信息对目标的位置进行微调，得到目标在当前帧的区域，目标的类别沿用上一帧的结果；运动预测模块记录未经过单帧检测器进行检测的非关键帧的帧序号，当当前帧的帧序号与记录的非关键帧的帧序号构成连续的数列时，判断数列的长度，如果长度超过阈值则将当前帧标记为关键帧，并使用单帧检测器进行检测目标的位置和类别，再进入步骤S4。本实施例中这一阈值设置为20，即运动预测模块的连续预测帧上限为20，运动预测模块每预测20帧就将当前帧标记为关键帧，这解决了中间某帧出现新目标等异常情况时运动预测失效的问题，又不致于过多占用资源；

S3、将步骤S2得到的目标的区域信息与上一帧的该目标的区域信息同时输入到相似性检测模块，由相似性检测模块判断两个区域是否表示的是同一个目标，如果是同一个目标则跳过进入步骤S4；如果不是同一个目标则将当前帧标记为关键帧，并将当前帧的帧序号从运动预测模块的记录中去除，然后使用单帧检测器进行检测目标的位置和类别；

请结合图2所示，单帧检测器采用了开销较大但是较为准确的ResNet-FPN-RPN的结构用于特征的提取和候选框的生成。虽然关键帧的检测占用开销较高，但是更多的视频帧为非关键帧，而大量的非关键帧由于使用比较轻量的运动预测模块进行检测，所以总体的视频检测开销会显著减少。

单帧检测器的结构中ResNet(残差网络)一定程度上能够解决网络加深之后的退化问题，将图像输入ResNet得到抽象特征，每个阶段都包含一定数量的残块，这样梯度不会随着网络的加深而消失。FPN(特征金字塔网络)能够很好地处理目标检测中的多尺度变化的问题，FPN是自顶向下的结构，将顶层的特征与ResNet各层的抽象特征进行融合，得到不同尺度的特征信息。图像在经过以上两个结构之后获得了丰富的不同深度、不同尺度的特征信息，随后将特征信息输入到RPN(区域生成网络)中，生成一系列的目标候选区域，再将这些候选区域与多层特征信息进行ROI pooling(感兴趣区域池化)操作得到各候选区域对应的区域特征，最后把这些区域特征调整到固定大小并由分类器进行分类。

运动预测模块用于对非关键帧中的目标运动情况进行预测，当上一帧中的目标区域被检测出来后，运动预测模块就在上一帧目标位置的基础上对目标的运动情况进行预测。由于相邻两帧图像非常相似且目标的运动变化幅度很小，若采用复杂的网络结构对全图进行检测将会产生很大的开销，因此运动预测模块采用一个比较轻量的网络结构仅在目标在上一帧的位置附近的一个局部区域内对目标的运动进行预测，从而根据运动情况对目标的位置进行微调。

请结合图3所示，运动预测模块的网络结构的输入是上一帧的目标位置在当前帧映射的区域并调整大小到112*112*3，采用的是VGG-M网络的架构，特征提取部分网络结构与VGG-M的前15层保持一致，并在之后添加了两个全连接层，第一个全连接层输入通道为4608，输出通道为512，第二个全连接层输入输出通道均为512，最后再分别添加两个全连接层分支。其中一个分支输入通道为512，输出为一个11维的向量，图像经过几个简单的卷积池化层提取特征最后得到两个分支，其中一个分支经过全连接层后生成一个11维的向量，用于表示预测的目标运动方向，11个维度分别表示向左、向左*2、向右、向右*2、向上、向上*2、向下、向下*2、不变、缩小、放大的运动方向，数值最大的那个维度作为最终的预测结果；另一个分支用于表示预测结果的置信度，置信度越高，表示结果越准确。

虽然运动预测模块效率较快，但是还是存在误判的可能性，为了减少异常检测结果的发生频率，在本发明方法中加入了一个轻量的孪生网络模块用于前后两帧间同一检测目标的相似性计算，从而确保运动预测模块的结果可靠。如图4所示，当前帧和上一帧的两个目标区域经过灰度化处理后分别输入两个完全相同的分支进行特征提取。其中每个分支分别由三个卷积层、三个全连接层组成，第一个卷积层输入通道为1、输出通道为4，第二个卷积层输入通道为4、输出通道为8，第三个卷积层输入通道为8、输出通道为8，三个卷积层的卷积核大小均为3。第一个全连接层输入通道数为80000，三个全连接层的输出通道数分别为500、500、5。最后对各自生成的两个5维的向量计算欧式距离，距离越小说明两个目标越相似，在本发明中把区分是否相似的相似阈值设为1，即当欧式距离小于1时划分为相似，大小1表示不相似，需要使用单帧检测器进行检测。

对本发明方法所使用的整个网络结构进行训练，其训练过程是这样的：

首先训练单帧检测器，视频目标检测数据集ImageNet VID一共有30个类别，这30个类别在ImageNet图像数据集DET中也有，所以先在DET这有交集的30个类别中对单帧检测器进行训练，训练好的模型再在VID视频数据集上以每5帧采样一帧的频率进行训练。

然后分两阶段训练运动预测模块，该训练中训练数据的目标运动标签提取方法如公式(1)所示。

其中init_j表示第j-1帧的目标位置在第j帧的映射区域，a是目标运动的方向，f’(initj,a)表示映射区域向a方向移动一个单位距离之后的区域，G(j)表示第j帧目标的真实区域。分别把初始区域向不同方向移动，然后与真实区域计算IoU(交并比)，从而找到使得IoU最大的那个运动方向，最后把表示这个运动方向的那个维度置为1，其余维度置为0，即可得到用于训练运动方向分支的标签。同时如果IoU大于0.93，置信度标签置为1，否则置为0。

训练的第一个阶段是使用随机生成的数据对模型进行预训练，首先对视频数据集每隔5帧进行采样，在采样后的每帧图像中随机生成若干个边界框，其中选取15个IoU大于0.7的作为正样本，选取5个IoU小于0.3的作为负样本，按照公式(1)的方法生成标签并进行训练。

第二个阶段使用目标真实的区域进行训练，我别选取当前帧的前1帧到前15帧的目标区域作为初始位置，以当前帧的目标位置作为终点的真实位置，这样就可以采集到15个正样本，再在当前帧随机生成5个IoU小于0.3的边界框作为负样本，同样按照公式(1)的方法生成标签并训练。

对本发明方法的论证实验使用的是ImageNet VID 2015视频目标检测数据集的验证集(使用训练集用于训练，使用验证集用于测试)。VID数据集包含3862个视频用于训练，另有555个视频用于验证，每个视频包含有56到458帧图像，整个数据集共包含30个不同的类别。实验硬件环境：Ubuntu 16.04，Tesla P100显卡，显存16G。代码运行环境：python3.7，pytorch 1.2。

在VID验证集上对视频目标检测的结果进行了测试，验证本文方法有有效性。

(1)定量评估

采用mAP(平均精度均值)和检测速度对本发明方法的有效性进行评价。mAP主要用来比较目标检测方法的准确率，首先在所有视频的检测结果中计算各个类别结果的平均精度，然后再对每个平均精度求平均。检测速度则是指每帧图像的平均检测速度。

不同方法的mAP(平均精度均值)和速度的比较

上表展示的是本发明方法和现有技术的比较，同时将本发明方法去除相似性检测模块后的检测结果也加入了比较，可以看到，即使不使用相似性检测模块进行二次验证，本发明方法也达到了81％的准确率。另外，由于本发明方法中视频帧大多是以上一帧为基础进行检测，所以目标的位置和分类等往往很稳定，不会在两帧之间出现反复变化的情况，不仅速度保持在一个很低的水平，检测的准确率也比其他的方法好。

(2)定性评估

图5中视频有两个高速飞行的飞机，两个飞机的位置、背景的亮度颜色等都在不断地快速变化，本发明方法依然能准确地检测出每个个体的位置和类别。在图6的视频中则展示了另一种更加复杂的情况，其中含有5个外观纹理都比较相似的斑马，而且视频中背景的颜色和纹理也和视频目标的非常相似，都是黑白相间的，但是本发明方法同样能识别出视频中的每个目标。

Claims

1.一种基于局部区域搜索的视频目标检测方法，其特征在于，依次包括以下步骤：

2.根据权利要求1所述的基于局部区域搜索的视频目标检测方法，其特征在于，所述运动预测模块记录未经过单帧检测器进行检测的非关键帧的帧序号，当当前帧的帧序号与记录的所述非关键帧的帧序号构成连续的数列时，判断所述数列的长度，如果长度超过阈值则将当前帧标记为关键帧，并使用单帧检测器进行检测目标的位置和类别，再进入步骤S4。

3.根据权利要求2所述的基于局部区域搜索的视频目标检测方法，其特征在于，所述步骤S3中，由所述相似性检测模块判断不是同一个目标时，将当前帧的帧序号从所述运动预测模块的记录中去除。

4.根据权利要求1所述的基于局部区域搜索的视频目标检测方法，其特征在于，所述运动预测模块进行检测是将所述映射的区域调整大小并经过若干卷积池化层提取特征得到两个分支，一个所述分支为经过全连接层后生成多维度的目标运动方向向量，所述目标运动方向向量中数值最大的维度为目标运动方向；另一个所述分支得到预测结果的置信度，置信度越高，表示结果越准确。

5.根据权利要求4所述的基于局部区域搜索的视频目标检测方法，其特征在于，所述目标运动方向向量的维度分别表示向左、向左*2、向右、向右*2、向上、向上*2、向下、向下*2、不变、缩小、放大的运行方向。

6.根据权利要求1所述的基于局部区域搜索的视频目标检测方法，其特征在于，所述相似性检测模块判断两个区域是否表示的是同一个目标是将当前帧的所述映射的区域与上一帧的目标区域分别输入孪生网络的两个完全相同的分支进行特征提取，对提取的特征计算欧式距离，当计算得到的欧式距离小于设定的相似阈值时为相似，表示为同一目标，否则为不相似，表示为不同目标。