CN111860442A

CN111860442A - 一种基于时序特征共享结构的视频目标检测方法

Info

Publication number: CN111860442A
Application number: CN202010762563.XA
Authority: CN
Inventors: 高飞; 葛一粟; 卢书芳; 翁立波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-30
Anticipated expiration: 2040-07-31
Also published as: CN111860442B

Abstract

本发明提出了一种基于时序特征共享结构的视频目标检测方法包括：通过在原有的神经网络结构中加入时序特征共享结构，完成时序特征共享神经网络构建；在网络训练时通过相邻帧共享的时序神经网络训练方法实现端到端的神经网络训练；利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。本发明通过时序特征共享结构传递上一帧图像特征，实现准确的视频目标检测，并结合相邻帧共享的网络训练方法实现端到端的神经网络训练。

Description

一种基于时序特征共享结构的视频目标检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于时序特征共享结构的视频目标检测方法。

背景技术

当前的大部分信息主要通过视频流进行传播，视频分析技术也因此受到了广大学者的关注，而视频目标检测时视频分析技术的基础，伴随着近几年人工智能的不断发展，该领域也受到了广泛的关注。当前的大部分视频目标检测方法由于需要同时读取多帧视频图像进行处理，占用了大量的内存与显存且计算效率较低，对硬件要求较高。而基于时序特征共享结构的神经网络仅对单帧图像进行处理，通过时序特征共享结构获取时序特征，占用计算资源较小，计算速度快，且能实现端到端的神经网络训练，能更好的适用于实际中的应用。

为了解决准确的视频目标检测问题，国内外学术界、工业界提出了很多方案。其中与本发明较为接近的技术方案包括：F.Xiao(F.Xiao,Y.Jae Lee,“Video objectdetection with an aligned spatial-temporal memory”[C],Proceedings of theEuropean Conference on Computer Vision(ECCV),Munich,Germany,pp.485-501,2018)提出了一种名为STMM的共享时空的网络结构，用于处理多个视频帧间的特征共享问题，并考虑到时空上的特征延时问题，进行了时空上特征对齐操作，以消除过去的特征对当前的网络识别的影响；但该共享时空的网络结构STMM对前后多帧的图像特征进行处理，而在实时的实际应用中，后续视频帧的图像并不能在当前帧获得，且该结构较为复杂，不能实现端到端的神经网络训练，实际应用较为困难。M.Liu等人(M.Liu,M.Zhu.“Mobile videoobject detection with temporally-aware feature maps”[C],Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pp.5686-5695,2018.)结合LSTM和卷积神经网络提出了ConvLSTM结构，并结合SSD目标检测方法实现视频目标检测；该网络利用了多个中间层ConvLSTM结构，共享视频时序特征，但各个ConvLSTM需要单独进行训练，其网络训练较为繁琐，不利于实际场景中的使用。M.Buckler等人(M.Buckler,P.Bedoukian,S.Jayasuriya,et al.“EVA²:Exploiting TemporalRedundancy in Live Computer Vision”[C],2018 ACM/IEEE 45th AnnualInternational Symposium on Computer Architecture(ISCA).IEEE,pp.533-546,2018.)将图像分为关键帧和普通帧，根据关键帧前向传播得到网络的各层特征；在普通帧中，逐像素的计算每个点的运动向量场，结合关键帧提取的特征，对该层网络信息进行补偿和预测；该方法有效结合视频流信息，较好的解决了视频目标检测的运行效率问题，但该方法在变化剧烈的视频处理中，会退化为图像处理的目标检测方法，检测的准确率较低。

综上所述，当前视频目标检测方案中存在如下不足：

1)多数方法通过多帧特征共享实现视频目标检测，但对应的网络训练需要分为多个阶段进行，无法实现端到端的神经网络训练；

2)部分方法通过同时处理一段视频片段的图像帧，得到较好的检测结果，但在实际场景中需要进行实时的目标检测，同时处理一段视频图像对硬件的要求较高，且不能满足实时的实际应用需求；

3)部分方法利用视频流信息，对关键帧和非关键帧进行区分处理，但在视频段较为复杂的情况下，该方法便会化为针对图像的视频目标检测方法，较其他方法检测准确率较低。

视频目标检测作为视频图像分析的基础方法，在各行业中都有较好的实际应用场景，但当前的方法对硬件的计算能力要求较高，且网络由多个部分组成，不能实现端到端的神经网络训练，易用性较差。

发明内容

为了提高视频目标检测的准确率，并实现端到端的神经网络训练，本发明提供了一种基于时序特征共享结构的视频目标检测方法；它通过时序特征共享结构传递上一帧图像特征，实现准确的视频目标检测，并结合相邻帧共享的网络训练方法实现端到端的神经网络训练。

本发明的技术方案如下：

一种基于时序特征共享结构的视频目标检测方法，其特征在于，包括如下步骤：

1)在神经网络中加入时序特征共享网络结构，建立时序特征共享神经网络；

2)在网络训练时通过相邻帧共享的时序神经网络训练方法，实现端到端的神经网络训练；

3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。

所述的一种基于时序特征共享结构的视频目标检测方法，其特征在于，所述步骤1)具体过程如下：

1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络，其基础网络结构为darkNet-53，则网络输出的时序特征集合FM＝{f_ij|i＝1,2,3,…n_frame,j＝1,2,3,…,n_layer}，其中f_ij表示在第i帧图像输入网络后在网络中第j层生成的网络特征，n_frame表示视频图像的总帧数，n_layer表示网络的层数；在网络的第76层、83层和96层之后分别加入时序特征共享网络结构，该结构的输入为特征f_ij和f_kj，其中f_ij和f_kj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出，且满足式(1)：

1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起，输入到下一层网络之中，并将特征f_ij输入到下一帧的目标检测计算中；在网络的最后，YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出；

所述的一种基于时序特征共享结构的视频目标检测方法，其特征在于，所述步骤2)具体过程如下：

步骤2.1)：从数据集中随机两两读取n_batch组连续视频图像和对应标签作为训练样本S＝{s_p|p＝1,2,3,…,n_batch,s_p＝(I_q,I_(q+1),L_q,L_(q+1)),q＝1,2,3,…,n_frame-1}，I_q和I_(q+1)分别表示第q帧和第q+1帧的视频图像，L_q和L_(q+1)分别表示第q帧和第q+1帧对应的标签，n_batch表示样本组数，n_frame表示视频图像的总帧数；

步骤2.2)：将训练样本S中每组样本s_p进行随机翻转、随机仿射变换、随机亮度和对比度变化的数据增广，每组样本s_p中的图像和标签其数据增广方式相同，得增广后的训练样本S′；

步骤2.3)：将增广后的训练样本S′组成一个批次，输入到时序特征共享神经网络之中进行前向传播，得到图像在76层、83层和96层生成的特征图FM＝{F_p|p＝1,2,3,…,n_batch}，F_p＝(f_q,f_(q+1))，其中f_q和f_(q+1)分别为图像I_q和I_(q+1)生成的特征图，f_q＝{f_ql|l＝76,83,96}，其中f_ql表示图像I_q在第l层网络输出的特征图；

步骤2.4)：将特征f_q和f_(q+1)分别作为彼此的共享时序特征，将特征f_q和f_(q+1)进行通道维度拼接操作后输入到网络中继续进行前向传播，得到第q帧图像的目标检测结果；并将特征f_(q+1)和f_q进行通道维度拼接操作后，输入到网络中继续进行前向传播，得到第(q+1)帧图像的目标检测结果；

步骤2.5)：根据YOLOV3的损失函数，计算前向传播的误差值，再根据误差进行反向传播；

步骤2.6)：重复步骤2.1到2.5，直至完成iter次迭代：

其中epoch为事先给定的训练轮数。

所述的一种基于时序特征共享结构的视频目标检测方法，其特征在于，所述步骤3)具体过程如下：

步骤3.1)：读取已训练好的网络权重文件和网络配置文件，得神经网络N；

步骤3.2)：读入视频V＝{I_i|i＝1,2,3,…,n_v}，I_i表示视频中第i帧图像，n_v表示视频V的总帧数；

步骤3.3)：将图像I_i依次输入神经网络N进行前向传播，得图像在76层、83层和96层生成的特征图FM＝{f_ij|j＝76,83,96}，其中f_ij表示图像I_i在第j层生成的特征图；

步骤3.4)：若i＝1，则将特征f_ij复制一份为cf_ij，再将f_ij与cf_ij进行通道维度拼接操作，再将合并结果输入到网络中继续进行前向传播；反之，将特征f_ij与特征f_(i-1)j进行通道维度拼接操作，再将合并结果输入到网络中继续进行前向传播；

步骤3.5)：输出网络结果，得视频目标检测结果R。

通过采用上述技术，与现有技术相比，本发明的优点如下：

本发明的一种基于时序特征共享结构得视频目标检测方法；它通过在神经网络中加入简单的时序特征共享结构，实现视频图像特征融合；通过融合前后帧网络特征，提高目标检测准确率，且占用计算资源较少，可较好的应用在实际的场景中；利用相邻帧共享的网络训练方法，在不增加额外显存占用的情况下，实现端到端的神经网络训练。

附图说明

图1为本发明时序特征共享人工神经网络结构图；

图2为本发明相邻帧共享的网络训练方法流程图。

具体实施方法

下面结合实施实例来详细阐述本发明基于时序特征共享结构得视频目标检测方法具体实施方式。

1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起，输入到下一层网络之中，并将特征f_ij输入到下一帧的目标检测计算中；在网络的最后，YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出。

2)利用相邻帧共享的网络训练方法，在不增加额外显存占用的情况下，实现端到端的神经网络训练；

步骤2.6)：重复步骤2.1到2.5，直至完成iter次迭代：

其中epoch为事先给定的训练轮数，在本示例中，epoch＝40。

3)基于时序特征共享网络结构的视频目标检测；

步骤3.5)：输出网络结果，得视频目标检测结果R。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于时序特征共享结构的视频目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于时序特征共享结构的视频目标检测方法，其特征在于，所述步骤1)具体过程如下：

3.根据权利要求2所述的一种基于时序特征共享结构的视频目标检测方法，其特征在于，所述步骤2)具体过程如下：

步骤2.6)：重复步骤2.1到2.5，直至完成iter次迭代：

其中epoch为事先给定的训练轮数。

4.根据权利要求3所述一种基于时序特征共享结构的视频目标检测方法，其特征在于，所述步骤3)具体过程如下：

3.1)读取已训练好的网络权重文件和网络配置文件，得神经网络N；

3.2)读入视频V＝{I_i|i＝1,2,3,…,n_v}，I_i表示视频中第i帧图像，n_v表示视频V的总帧数；

3.3)将图像I_i依次输入神经网络N进行前向传播，得图像在76层、83层和96层生成的特征图FM＝{f_ij|j＝76,83,96}，其中f_ij表示图像I_i在第j层生成的特征图；

若i＝1，则将特征f_ij复制一份为cf_ij，再将f_ij与cf_ij进行通道维度拼接操作，再将合并结果输入到网络中继续进行前向传播；反之，将特征f_ij与特征f_(i-1)j进行通道维度拼接操作，再将合并结果输入到网络中继续进行前向传播；

3.4)输出网络结果，得视频目标检测结果R。