CN113449643A

CN113449643A - 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用

Info

Publication number: CN113449643A
Application number: CN202110729378.5A
Authority: CN
Inventors: 李勇; 陈华明; 方立; 柳芳震; 黄燕
Original assignee: Fuxin Futong Technology Co Ltd
Current assignee: Fuxin Futong Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-28

Abstract

本发明公开了使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用，检测方法包括：S01、搭建基于TimeSformer的无卷积目标检测神经网络框架，导入训练视频形成训练样本，对其进行分块和线性嵌入，再通过TimeSformer分离的时间‑空间注意力方式进行编码和解码进行特征提取，最后再经过预测神经网络生成目标检测结果；S02、通过自监督的预训练方法，在经分块处理后的训练样本中选择目标块，将训练目标变成从原始视频图像寻找该目标块进行神经网络的预训练，形成初步检测神经网络；S03、通过有监督的调优训练方法，将现有视频作为调优训练样本，导入初步检测神经网络进行调优训练；S04、将训练获得的检测神经网络用于视频中进行目标检测，本方案计算资源占用低、实施可靠。

Description

使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用

技术领域

本发明涉及视频目标检测技术领域，尤其涉及使用自监督预训练的timeSformer进行视频目标检测的方法及其应用。

背景技术

视频目标检测作为当下视频检测技术的热门，目前针对车载视频检测主要有如下方案：

1、全卷积方案：目前大多数车载视频检测和跟踪的方案已经能实现较高的精度，如：YOLO、Fast-RCNN等使用全卷积的目标检测方法，这些方法使用了卷积网络(CNN)使得训练和推理过程需要占用了大量的计算资源。然而在实际应用中，为了保证目标检测的实时性，该方案对硬件的要求较高，本地端能同时处理的数据量也较为有限。除此之外，由于CNN具有的归纳偏见，只捕捉局部空间信息等缺点，也限制了这类方法的性能。

2、结合卷积和Transformer的方案：随着自然语言处理领域中Transformer方法迁移到计算机视觉领域，目前出现了使用Transformer进行目标检测的方法，如DETR模块：利用CNN对单张图像进行特征序列提取作为Transformer输入进行编解码，最后预测得到目标框。使用Transformer的方法能在图像尺度上提取更长跨度的特征信息，但仍存在以下不足：(1)需要用到卷积层，需要占用大量的计算资源；(2)只针对单张图像进行处理，对视频检测任务来说虽然也能对单帧图像进行处理，但这样未能充分利用到帧间所包含的时间信息；(3)使用了Transformer的检测方法虽然能够实现不错的效果，但需要使用大量数据进行训练，这使得训练成本较高。

3、无卷积的Transformer方案：而在检测任务以外，使用Transformer的方法目前在视频分类的任务上出现了诸如VIT、TimeSformer这种无需使用卷积的方法，这种方法可以实现较小的计算资源占用，但这些方法所设计的框架只能用于视频分类之中，不能直接应用在视频检测任务中；并且跟其他使用了Transformer的方法一样需要使用大量数据进行训练。

综合上述，现有的目标检测方案所存在的缺点主要有：

1、需要占用大量的计算资源，能够同时处理的数据有限，这对硬件要求较高，成本也随之提升；

2、现有的方法虽然能够实现不错的目标检测效果，但这需要使用大量数据进行训练，这使得训练数据收集和标注的成本较高。

发明内容

有鉴于此，本发明的目的在于提出一种计算资源占用低、实施可靠、数据依赖度低且可使用无标签的数据进行预训练的使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用。

为了实现上述的技术目的，本发明所采用的技术方案为：

一种使用自监督预训练的TimeSformer进行视频目标检测的方法，包括：

S01、搭建基于TimeSformer的无卷积目标检测神经网络框架，导入训练视频形成训练样本，对训练样本进行分块和线性嵌入，再通过TimeSformer分离的时间-空间注意力方式进行编码和解码进行特征提取，最后再经过预测神经网络生成目标检测结果，该目标检测结果指向经分块处理后的训练样本，其设为目标块；

S02、模型预训练：通过自监督的预训练方法，在经分块处理后的训练样本中选择目标块，训练的优化目标变成从原始视频图像寻找该目标块，然后进行神经网络的预训练，形成初步检测神经网络；

S03、模型调优：通过有监督的调优训练方法，将现有视频作为调优训练样本，导入初步检测神经网络进行调优训练，获得所需检测神经网络；

S04、将调优训练获得的检测神经网络用于视频中进行目标检测。

作为一种可能的实施方式，进一步，所述训练视频形成训练样本的方法为：将训练视频拆分成若干图像帧，将图像帧设为训练样本。

作为一种较优的选择实施方式，优选的，对训练样本进行分块和线性嵌入的方法为：

S011、在作为训练样本的图像帧上进行区域分块，形成N块规格为P×P的图像块，其中，不同图像块之间的区域不相交，图像帧的规格为H×W，另外，N＝HW/P²，HW为图像帧的面积，P²为图像块的面积；

S012、将图像帧中的图像块进行展平处理成向量x(p,t)的形式，再通过线性嵌入且对应生成序列号后，生成预处理数据，然后将其作为编解码模块的输入数据；

其中，预测神经网络生成的目标检测结果所指向的目标块为图像帧经区域分块处理后所获得的图形块之一。

作为一种较优的选择实施方式，优选的，所述编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对预处理数据进行编码和解码进行特征提取。

作为一种较优的选择实施方式，优选的，所述TimeSformer模块中，采用了分离的时间-空间注意力机制进行特征提取，

在时间注意力上，仅将图像帧上的每个图像块与其他图像帧的相同空间位置处的图像块进行比较；

在空间注意力上，将图像帧上的每个图像块与同一帧内的各个图像块进行比较。

作为一种较优的选择实施方式，优选的，所述模型预训练的具体方法为：

在经分块处理后的训练样本中选择预测神经网络预测得到的目标块，然后保持编解码模块的输入不变，将目标块输入到编解码模块中，通过神经网络进行预训练，形成初步检测神经网络。

作为一种较优的选择实施方式，优选的，所述模型调优的方法为：

将现有视频进行拆分成图像帧，然后进行区域分块形成图形块后，将图像帧中的图像块进行展平处理成向量形式，再通过线性嵌入且对应生成序列号后，将其作为调优样本数据导入到编解码模块中，由编解码模块通过TimeSformer模块采用TimeSformer分离的时间-空间注意力方式对调优样本数据进行编码和解码进行特征提取，再经过预测神经网络生成目标检测结果之后，将目标检测结果和调优样本均导入初步检测神经网络进行调优训练，在调优训练至预设准确度后，获得所需检测神经网络。

基于上述的视频目标检测方法，本发明还提供一种车载视频车辆目标检测方法，其包括上述所述的使用自监督预训练的TimeSformer进行视频目标检测的方法。

基于上述的车载视频车辆目标检测方法，本发明还提供一种计算机可读的存储介质，其特征在于：所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述所述的车载视频车辆目标检测方法。

基于上述的方案，本发明还提供一种终端设备，其装载有上述所述的计算机可读的存储介质。

采用上述的技术方案，本发明与现有技术相比，其具有的有益效果为：

1、本方案在引入TimeSformer模块进行目标检测的同时，通过对视频进行拆分成小块作为TimeSformer模块的输入，避免传统方案使用CNN造成的大量计算资源占用，本方案还能够降低部署时对硬件的要求，从而节省成本；

2、本方案引入了一种自监督的预训练方法，通过对已有的车载视频图像进行随机框选作为检测目标，将任务作为检测随机输入的块在原图位置进行预训练，在预训练模型的基础上，继续训练目标的检测和跟踪任务；通过这种无需使用有标签的数据进行预训练，可以大量减少了训练网络所需要的数据，减少了数据收集和标注的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方案的简要实施流程示意图；

图2是本发明方案的简要方法框图；

图3基于TimeSformer的目标检测框图；

图4分离的时间-空间注意力简要示意图；

图5分离的时间-空间注意力模块简要示意图；

图6是本发明方案的预训练框图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本实施例方案基于车载视频的目标检测，提供一种使用自监督预训练的timeSformer进行视频目标检测的方法，其包括：

S02、模型预训练：通过自监督的预训练方法，在经分块处理后的训练样本中选择目标块，将训练的优化目标变成从原始视频图像寻找该目标块进行预训练，形成初步检测神经网络；

S04、将调优训练获得的检测神经网络用于车载视频中进行目标检测。

在图1所示的基础上，进一步结合图2至图6之一所示，本方案中，作为一种可能的实施方式，进一步，所述训练视频形成训练样本的方法为：将训练视频拆分成若干图像帧，将图像帧设为训练样本。

其中，本实施例方案对训练样本进行分块和线性嵌入的方法为：

S012、将图像帧中的图像块进行展平处理成向量x(p,t)的形式，再通过线性嵌入且对应生成序列号后，生成预处理数据，然后将其作为编解码模块的输入数据。

本方案中，预测神经网络生成的目标检测结果所指向的目标块为图像帧经区域分块处理后所获得的图形块之一。

本方案中，作为一种较优的选择实施方式，优选的，所述编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对预处理数据进行编码和解码进行特征提取。

本方案中，作为一种较优的选择实施方式，优选的，所述TimeSformer模块中，采用了分离的时间-空间注意力机制进行特征提取，

为了提高预训练的效率和使得经预训练后的检测神经网络具有一定的目标检测能力，本方案中，作为一种较优的选择实施方式，优选的，所述模型预训练的具体方法为：

在经分块处理后的训练样本中选择预测神经网络预测得到的目标块，然后保持编解码模块的输入不变，将目标块输入到编解码模块中，训练的优化目标变成从原始视频图像寻找该目标块，进行神经网络预训练，形成初步检测神经网络。

本方案中，作为一种较优的选择实施方式，优选的，所述模型调优的方法为：将现有视频进行拆分成图像帧，然后进行区域分块形成图形块后，将图像帧中的图像块进行展平处理成向量形式，再通过线性嵌入且对应生成序列号后，将其作为调优样本数据导入到编解码模块中，由编解码模块通过TimeSformer模块采用TimeSformer分离的时间-空间注意力方式对调优样本数据进行编码和解码进行特征提取，再经过预测神经网络生成目标检测结果之后，将目标检测结果和调优样本均导入初步检测神经网络进行调优训练，在调优训练至预设准确度后，获得所需检测神经网络。

本实施例方案针对视频的检测和跟踪任务，设计了一种无需卷积网络的TimeSformer编解码检测网络，其能够实现较少计算资源的占用，对部署所需的硬件性能要求较低，更能节省成本；另外，本方案通过自监督预训练方式用于TimeSformer目标检测网络的预训练：其对随机裁剪的图像块进行检测，在预训练过程进行寻找目标块在原图位置的任务，让检测神经网络在进行目标检测任务训练之前具备一定的目标定位性能，为后续的调优训练做了铺垫。基于本实施例方案所提出的神经网络检测框架不仅能适用于车载视频目标检测的任务，也可以扩展用于其他视频的目标检测方案。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，包括：

搭建基于TimeSformer的无卷积目标检测神经网络框架，导入训练视频形成训练样本，对训练样本进行分块和线性嵌入，再通过TimeSformer分离的时间-空间注意力方式进行编码和解码进行特征提取，最后再经过预测神经网络生成目标检测结果，该目标检测结果指向经分块处理后的训练样本，其设为目标块；

模型预训练：通过自监督的预训练方法，在经分块处理后的训练样本中选择目标块，将训练的优化目标变成从原始视频图像寻找该目标块，然后进行神经网络的预训练，形成初步检测神经网络；

模型调优：通过有监督的调优训练方法，将现有视频作为调优训练样本，导入初步检测神经网络进行调优训练，获得所需检测神经网络；

将调优训练获得的检测神经网络用于视频中进行目标检测。

2.如权利要求1所述的使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，所述训练视频形成训练样本的方法为：将训练视频拆分成若干图像帧，将图像帧设为训练样本。

3.如权利要求2所述的使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，对训练样本进行分块和线性嵌入的方法为：

在作为训练样本的图像帧上进行区域分块，形成N块规格为P×P的图像块，其中，不同图像块之间的区域不相交，图像帧的规格为H×W，另外，N＝HW/P²，HW为图像帧的面积，P²为图像块的面积；

将图像帧中的图像块进行展平处理成向量x(p,t)的形式，再通过线性嵌入且对应生成序列号后，生成预处理数据，然后将其作为编解码模块的输入数据；

4.如权利要求3所述的使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，所述编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对预处理数据进行编码和解码进行特征提取。

5.如权利要求4所述的使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，所述TimeSformer模块中，采用了分离的时间-空间注意力机制进行特征提取，

6.如权利要求5所述的使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，所述模型预训练的具体方法为：

在经分块处理后的训练样本中选择预测神经网络预测得到的目标块，然后保持编解码模块的输入不变，将目标块输入到编解码模块中，训练的优化目标变成从原始视频图像寻找该目标块，通过神经网络进行预训练，形成初步检测神经网络。

7.如权利要求6所述的使用自监督预训练的TimeSformer进行视频目标检测的方法，其特征在于，所述模型调优的方法为：

将现有视频进行拆分成图像帧，然后进行区域分块形成图形块后，将图像帧中的图像块进行展平处理成向量形式，再通过线性嵌入且对应生成序列号后，将其作为调优样本数据导入到编解码模块中，由编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对调优样本数据进行编码和解码进行特征提取，再经过预测神经网络生成目标检测结果之后，将目标检测结果和调优样本均导入初步检测神经网络进行调优训练，在调优训练至预设准确度后，获得所需检测神经网络。

8.一种车载视频车辆目标检测方法，其特征在于，其包括权利要求1至7之一所述的使用自监督预训练的TimeSformer进行视频目标检测的方法。

9.一种计算机可读的存储介质，其特征在于：所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现如权利要求8所述的车载视频车辆目标检测方法。

10.一种终端设备，其特征在于，其装载有权利要求9所述的计算机可读的存储介质。