CN110427839B

CN110427839B - 基于多层特征融合的视频目标检测方法

Info

Publication number: CN110427839B
Application number: CN201910632493.3A
Authority: CN
Inventors: 韩红; 岳欣; 李阳; 陈军如; 张照宇; 范迎春; 高鑫磊; 唐裕亮
Original assignee: Xiamen Tongjingwulian Technology Co ltd
Current assignee: Xiamen Tongjingwulian Technology Co ltd
Priority date: 2018-12-26
Filing date: 2019-07-13
Publication date: 2022-05-06
Anticipated expiration: 2039-07-13
Also published as: CN110427839A

Abstract

本发明公开了一种基于多层特征融合的视频目标检测方法，解决了现有检测方法未利用视频时序信息及检测效果差的问题，技术方案为：输入一帧视频图像作当前帧，在其前9帧中选一前帧图像，在后9帧中选一后帧图像；把三帧图像输入到改进卷积神经网络分别获取三个特征图；输入到采样网络，获得对前后帧特征图的采样图，依采样图计算前后帧特征图的采样系数；根据融合公式利用采样系数得到当前帧增强后的特征图，作为检测网络的输入，生成候选区域集，经分类和回归网络检测出最终的目标类别和位置。本发明使用了视频时序信息，模型复杂度小，参数量少，检测效果好，可用于交通监控，安保安防，目标识别等。

Description

基于多层特征融合的视频目标检测方法

技术领域

本发明属于数字图像处理技术领域，特别涉及视频图像的目标检测，具体是一种基于多层特征融合的视频目标检测方法，可用于交通监控，安防安保和目标识别。

背景技术

图像目标检测作为大部分计算机视觉任务的基础，利用数字图像处理技术，对在复杂场景下的图像中的具体目标进行类别识别和位置检测。视频目标检测相较于图像目标检测，可以利用视频提供的前后文信息和时空信息提升检测准确率，尤其是快速运动目标的检测。目标检测被广泛应用于智能化交通系统、智能监控系统、军事目标检测以及医学图像辅助处理等方面，这些应用中对图像或视频中出现的所有给定目标都进行了识别和检测。

图像目标检测方法主要有基于两阶段检测模型的方法和基于一阶段检测模型的方法，其中：

基于两阶段检测模型的方法，把目标检测过程分为两个过程，第一个过程是把所给的图像进行局部裁剪，提取出若干个可能包含目标的区域作为候选结果；第二个过程是分别通过分类和回归网络对第一个过程获取的候选区域，进行目标的类别识别，位置坐标定位。通过两个过程的处理，能去的较好的检测结果，但是检测速度较慢。

基于一阶段检测模型的方法，没有对图像提取候选区域的过程，通过级联特征网络、检测网络和回归网络从图片中直接检测目标的类别和坐标结果，将目标检测过程优化为统一的、端到端过程。通过一个过程的处理，能快速获取检测结果，相较于基于两阶段检测模型的方法，其精度会有一些损失。

视频为图像目标检测提供了更多的帧间时序信息和冗余信息，同时引入了目标发生遮挡、变形、模糊等问题，直接使用图像目标检测方法对视频进行检测，不仅效果差，而且速度慢。目前的视频目标检测方法在基于两阶段检测模型的图像目标检测方法上进行两方面的改进，其中：

第一方面，利用光流信息将视频的前后帧特征与当前帧特征进行融合，提高当前帧特征的表达能力和信息拥有量，解决了当前帧图像发生形变、遮挡、模糊等情况时检测效果不好的问题，属于对基于两阶段检测模型的第一阶段进行改进。

第二方面，利用视频中目标的运动轨迹信息，跟踪高质量检测框的变化趋势，对当前帧的检测结果进行进一步的修正，不断提高检测位置的精度，解决了视频中目标发生快速运动时检测效果不好的问题，属于对基于两阶段检测模型的第二阶段进行改进。

目前的视频目标检测方法主要采用两阶段检测模型，存在模型复杂度高，网络参数量大的问题；同时，训练模型时对计算资源有较高的要求。

发明内容

本发明的目的在于针对现有技术的不足，提出一种模型复杂度小，网络参数量小的基于多层特征融合的视频目标检测方法。

本发明是一种基于多层特征融合的视频目标检测方法，其特征在于，包括有如下步骤：

(1)提取当前帧及其前帧和后帧图像的卷积特征：输入某个视频中的一帧图像X_t，其包含C个类别中的某一类目标，同时在该视频中，对于当前帧X_t在之前的X_t-9～X_t-1帧中任意选取一帧作为其前帧，在之后的X_t+1～X_t+9帧中任意选择一帧作为其后帧，分别将当前帧、前帧和后帧输入到改进卷积神经网络中，提取得到当前帧及其前帧和后帧图像的卷积特征图F_t，F_t-，F_t+，作为融合网络的输入；所述的改进卷积神经网络具体是在卷积神经网络的浅、中、深三个位置分别添加注意机制模块；

(2)对前帧和后帧的特征图计算采样图：将当前帧及其前帧和后帧图像的卷积特征图F_t，F_t-，F_t+输入到采样网络层，根据当前帧、前帧和后帧的特征图关系，获取对前帧和后帧特征图的采样图H_t-，H_t+；

(3)根据采样图计算对前帧和后帧特征图的采样系数：将前帧和后帧采样图H_t-，H_t+输入到采样网络中的L2正则化层和softmax归一化层中，获取对前帧和后帧特征图的采样系数λ_t-，λ_t+；

(4)融合特征：将前后帧特征图的采样系数λ_t-，λ_t+分别作为前帧和后帧特征图的权重系数，通过融合公式对当前帧、前帧和后帧的特征图进行求和，得到融合后当前帧的融合特征图F_t’；

(5)提取候选区域：将当前帧的融合特征图F_t’输入到候选区域RPN网络中提取候选区域，并利用非极大值抑制的方法对候选区域进行初步筛选，得到检测目标的候选区域集I；

(6)目标分类和坐标回归：将候选区域集I中的每一个候选区域分别输入到分类和回归网络中计算目标的类别和位置坐标，得到检测目标的类别和位置坐标；

(7)重复步骤(1)-(6)，训练整个数据集，得到能识别C个类别的视频目标检测模型，通过添加新的类别的数据集，进一步训练检测模型得到能识别新类别的模型，即对C个类别以外的目标类别进行扩充。

本发明技术方案的检测效果达到目前视频目标检测方法的先进水平，用以解决现有技术不能较好的对视频进行目标检测和模型复杂度大的问题。

本发明相比现有技术具有以下优点：

1)本发明使用了加入注意机制模块的卷积神经网络，对输入的图像在卷积神经网络的浅层、中层和深层位置分别对提取的特征图进行通道和像素点位置的优化，抑制背景特征，增强前景特征，有效的提升了图像特征图质量，有利于第二阶段的检测；

2)本发明提出了基于采样系数的特征融合方法，使用采样系数对前后帧特征图赋权后与当前帧特征图相加得到对当前帧图像的融合特征，有效的增强了当前帧图像特征图包含的信息，对目标出现的遮挡、变形和模糊等有较强的鲁棒性。

附图说明

图1是本发明的实现总流程图；

图2是本发明中对卷积神经网络改进后的结构图及注意机制模块的结构图；

图3是本发明中融合网络的结构图；

图4是本发明演示仿真结果的部分视频图像；

图5是本发明对一帧演示视频图像及其前后帧特征图的可视化结果；

图6是本发明对演示视频图像的检测结果。

具体实施方式

下面结合附图对本发明详细说明。

实施例1

随着摄像设备的普及和多媒体技术的发展，生活中的视频信息量与日俱增，如何理解和应用视频内容，并从大量视频中发现有用信息成为目前热门的研究方向。其中，视频目标检测作为其他任务的基础是一个重要的研究方向。相较于图像目标检测，视频目标检测的输入是某段视频，视频提供了更多的帧间时序信息和冗余信息，同时视频中的目标容易发生遮挡、变形、模糊等问题，直接使用图像目标检测方法对视频进行目标检测，不仅效果差，而且速度慢。目前的视频目标检测方法大多采用两阶段检测模型，通过引入光流网络或跟踪网络对视频信息进行综合利用，但光流网络和跟踪网络均属于大型网络，计算中引入大型网络就增加了模型的复杂度和参数量。针对上述问题，本发明展开了研究，提出一种基于多层特征融合的视频目标检测方法，参见图1，包括有如下步骤：

(1)提取当前帧及其前帧和后帧图像的卷积特征：输入某个视频中的一帧图像X_t，其包含C个类别中的某一类目标，同时在该视频中，对于当前帧X_t在之前的X_t-9～X_t-1帧中任意选取一帧作为其前帧，在之后的X_t+1～X_t+9帧中任意选择一帧作为其后帧，分别将当前帧、前帧和后帧输入到改进卷积神经网络中，提取得到当前帧及其前帧和后帧图像的卷积特征F_t，F_t-，F_t+，作为融合网络的输入。本发明使用的基本卷积神经网络结构是残差网络，残差网络具有容易优化，可以通过增加深度来提高准确率的优点，为使残差网络能更好的适用于视频目标检测任务，本发明对残差网络做了如图2的改进。参见图2，本发明的改进卷积神经网络具体是在卷积神经网络的浅、中、深三个位置分别添加注意机制模块，注意机制模块通过一层全局池化层和一层局部池化层对卷积层提取的特征图进行通道和像素点位置的选择。本发明中类别为Large Scale Visual Recognition Challenge2015大赛中视频目标检测任务的数据集中的检测类别。

(2)对前帧和后帧的特征图计算采样图：将步骤(1)中当前帧及其前帧和后帧图像的卷积特征图F_t，F_t-，F_t+输入到采样网络层，根据当前帧、前帧和后帧的特征图关系，获取对前帧和后帧特征图的采样图H_t-，H_t+。在视频中，相邻位置的图像帧具有很强的时空关系，同一个目标在相邻图像帧中的形状、纹理、位置也有紧密联系，可以通过一个浅层卷积神经网络根据当前帧，前帧和后帧特征图之间的关系计算前后帧特征图的采样图，浅层卷积神经网络可以是常用深度卷积神经网络的某一部分，也可以根据检测目标的类别和大小具体调整浅层卷积神经网络的结构。

(3)根据采样图计算对前帧和后帧特征图的采样系数：将步骤(2)中的前帧和后帧采样图H_t-，H_t+输入到采样网络中的L2正则化层和softmax归一化层中，获取对前帧和后帧特征图的采样系数λ_t-，λ_t+。正则化层可以采用L1正则化方法或L2正则化方法，归一化层可以采用最大-最小标准化方法或z-score标准化方法。

(4)融合特征：将步骤(3)中的前后帧特征图的采样系数λ_t-，λ_t+分别作为前帧和后帧特征图的权重系数，通过融合公式对当前帧、前帧和后帧的特征图进行求和，得到融合后当前帧的融合特征图F_t’。

(5)提取候选区域：将步骤(4)中当前帧X_t的融合特征图F_t’输入到RPN网络中提取候选区域，并利用非极大值抑制的方法对候选区域进行初步筛选，得到检测目标的候选区域集I。通过在候选区域RPN网络中预先设定的锚点和尺寸大小，分割图像区域得到可能包含目标的候选框，使用非极大值抑制方法对候选框进行筛选。具体筛选方法是：计算目标候选框和真实框的IOU值，IOU值小于0.3的作为负样本，IOU值大于0.7的作为正样本，将正负样本作为目标分类和坐标回归的输入。

(6)目标分类和坐标回归：将步骤(5)中候选区域集I中的每一个候选区域分别输入到分类和回归网络中计算目标的类别和位置坐标，得到检测目标的类别和位置坐标，完成对当前帧图像的目标检测。目标分类网络是连接了C+1个通道的softmax层，可以计算得到C+1个取值，C+1个取值分别代表输入候选框包含给定目标类别的概率；坐标回归网络是连接了4个通道的全连接层，可以计算得到目标框的4个坐标值，4个坐标值分别代表目标框的中心坐标(x，y)，宽度w，高度h。

(7)重复步骤(1)-(6)，训练整个数据集，得到能识别C个类别的视频目标检测模型，通过添加新的类别的数据集，进一步训练检测模型得到能识别新类别的模型，即对C个类别以外的目标类别进行扩充。也就是说对这C个类别以外的类别目标可以通过添加对应类别的数据集，进一步训练检测模型得到能识别新类别的模型，所述数据集仍然为LargeScale Visual Recognition Challenge 2015大赛中视频目标检测任务的数据集。

本发明对常用的卷积神经网络进行改进，具体做法是在不同位置的卷积层后添加注意机制模块，对卷积神经网络在浅层、中层和深层位置对输入图像提取的特征图进行通道和像素点位置的优化，抑制背景特征，增强前景特征，有效的提升了特征图质量，有利于第二阶段的检测。因为卷积神经网络中不同位置卷积层对图像提取的特征图包含的信息不一样，其中浅层位置的卷积层提取的特征图包含较多的纹理和位置信息，卷积层位置越深其提取的特征图包含越多抽象的语义信息，同时会丢失部分重要的纹理和位置信息，可以利用在卷积层的不同位置添加的注意机制模块，在提取特征图的过程中一边提取特征图，一边对所提取的特征图进行优化，进一步选择对检测过程重要的特征图通道和像素点位置。添加的注意机制模块可以很好地与常用的卷积神经网络相结合，不影响前向传播和反向传播。

本发明提出的融合网络摒弃了光流网络，跟踪网络等大型网络模型复杂，参数量大的缺点，把计算前后帧特征图的采样系数与计算前后帧特征图的采样图相结合。首先，根据当前帧，前帧和后帧特征图之间的关系，通过5层卷积层计算对前后帧特征图的采样图，其次，把前后帧特征图的采样图输入到L2正则化层对采样图进行平滑操作，然后通过softmax层计算前后帧特征图归一化的采样系数；这样不仅减少了网络层数，降低了参数量，而且使整个特征融合过程更简单，连贯。

实施例2

基于多层特征融合的视频目标检测方法同实例1，步骤(1)中将当前帧、前帧和后帧图像输入到改进卷积神经网络中提取特征图F_t，F_t-，F_t+，具体包括如下步骤：

(1a)将图像输入到改进卷积神经网络，在网络的三分之一深度位置的卷积层后添加浅层注意机制模块，对该卷积层提取的浅层特征图进行优化后，作为下一个卷积层的输入。三分之一深度位置的卷积层提取的特征图包含目标的纹理和位置信息，利用注意机制模块对纹理和位置信息进行选择性增强。

(1b)在网络的三分之二深度位置的卷积层后添加中层注意机制模块，对该卷积层提取的中层特征图进行优化后，作为下一个卷积层的输入。三分之二深度位置的卷积层提取的特征图包含一部分纹理和位置信息，也包含一部分语义信息，利用注意机制模块对纹理和语义信息进行选择性增强。

(1c)在网络的最后一个卷积层后添加深层注意机制模块，对最后一个卷积层提取的深层特征图进行优化后，作为采样网络层的输入。最后一个卷积层作为整个卷积神经网络的输出提供了输入图像的深度语义信息，用作检测时图像的特征表示，利用注意机制模块对深度语义信息进行选择性增强。

本发明中的注意机制模块主要由一个全局池化层和一个局部池化层实现对卷积层提取的特征图进行优化。使用全局池化层替代全连接层实现对特征图通道的线性变换，达到对特征图通道进行选择的目的，不仅没有全连接层参数量过大的缺点，而且对整个网络在结构上实现正则化防止过拟合。使用局部池化层替代卷积层实现对特征图像素位置的线性变换，达到对特征图像素点位置进行选择的目的，在特征图的空间位置上增强前景信息，抑制背景信息，可以提高特征图对目标位置的表征能力。通过对特征图通道和像素点位置的选择赋权，可以很好的提取目标在特征图中的语义信息和位置信息，增大特征图中目标前景的信息，对后面的检测过程有很大的帮助。

实施例3

基于多层特征融合的视频目标检测方法同实例1-2，步骤(1)中提及的融合网络把前帧和后帧的特征图信息融合到当前帧的特征图，其过程包括：

(a)先将当前帧、前帧和后帧的特征图按第一维连接，输入到采样网络层获取对前帧和后帧特征图的采样图H_t-，H_t+，作为计算采样系数时的输入。本发明的采样网络层包含5层卷积层，每层卷积层的卷积核大小为5*5、3*3、1*1、3*3、5*5，5层卷积层的结构类似金字塔结构，可以计算得到输入特征图不同分辨率的采样信息。

(b)再将前帧和后帧的采样图H_t-，H_t+输入到L2正则化层中对前帧和后帧采样图进行平滑操作。L2正则化使采样图中每个像素点的取值大小更均匀，有利于对不同类别目标的检测，泛化能力好。

(c)最后将平滑后的前帧和后帧采样图输入到softmax归一化层，得到前帧和后帧特征图的采样系数λ_t-，λ_t+，通过融合公式把前帧和后帧的特征图与当前帧的特征图进行融合，得到当前帧的融合特征图，作为检测网络的输入。

本发明的融合网络把计算前后帧特征图的采样系数与计算前后帧特征图的采样图相结合，计算前后帧特征图的采样图时不使用其他大型网络结构，如光流网络或跟踪网络，通过把当前帧，前帧和后帧的特征图按第一维连接输入到一个浅层卷积神经网络中，根据当前帧，前帧和后帧特征图的关系计算对前后帧特征图的采样图，再通过L2正则化层对采样图进行平滑后输入到softmax层得到对前后帧特征图的归一化采样系数。使用浅层卷积神经网络提取前后帧特征图的采样图，可以降低模型复杂度并减少网络参数量，提高检测速度；对前后帧特征图的采样图采用L2正则化进行平滑有利于生成较小的模型参数，防止过拟合，使模型的抗干扰能力增强，同时能适用于不同的数据集。

实施例4

基于多层特征融合的视频目标检测方法同实例1-3，步骤(4)中所述的融合公式为：

F_t’＝F_t+λ_t-*F_t-+λ_t+*F_t+

其中，F_t’是当前帧的融合特征图，F_t，F_t-，F_t+分别是当前帧、前帧和后帧的特征图，λ_t-是前帧特征图的采样系数，取值范围是0～1，λ_t+后帧特征图的采样系数，取值范围是0～1。

下面给出一个更加详尽的例子，结合实验和仿真数据对本发明的技术效果再作说明。

实施例5

基于多层特征融合的视频目标检测方法同实例1-4，参照附图，本发明的实现步骤如下：

步骤1，获取输入视频帧的前帧和后帧。

输入某个视频中的一帧图像X_t，其包含C个类别中的某一类目标，同时在该视频中，对于当前帧X_t在X_t-9～X_t-1帧中任意选取一帧作为其前帧，在X_t+1～X_t+9帧中任意选择一帧作为其后帧；每一个视频只包含C个类别中的某一类实例目标，对于前帧范围不够9帧的视频帧，其前帧范围为其之前的所有视频帧，特别地，视频第一帧不考虑前帧；对于后帧同理。

步骤2，在卷积神经网络的浅层、中层和深层加入注意机制模块，将当前帧、前帧和后帧输入到改进后的卷积神经网络中提取特征图F_t，F_t-，F_t+。

参照图2，本步骤的具体实施如下：

(2a)将图像输入到卷积神经网络，在网络的三分之一深度位置的卷积层后添加浅层注意机制模块，对该卷积层提取的浅层特征图进行优化后，作为下一个卷积层的输入。

(2b)在网络的三分之二深度位置的卷积层后添加中层注意机制模块，对该卷积层提取的中层特征图进行优化后，作为下一个卷积层的输入。

(2c)在网络的最后一个卷积层后添加深层注意机制模块，对最后一个卷积层提取的深层特征图进行优化后，作为采样网络层的输入。

步骤3，将步骤(2)得到的三个特征图输入到特征融合网络，把前帧和后帧的特征图信息融入对当前帧图像的特征图。

参照图3，本步骤的实现步骤如下：

(3a)先将当前帧、前帧和后帧的特征图按第一维连接，输入到采样网络层获取对前帧和后帧特征图的采样图H_t-，H_t+，作为计算采样系数时的输入。

(3b)再将前帧和后帧的采样图H_t-，H_t+输入到L2正则化层中对前帧和后帧采样图进行平滑操作。

(3c)最后将平滑后的前帧和后帧采样图输入到softmax归一化层，得到前帧和后帧特征图的采样系数λ_t-，λ_t+，通过融合公式把前帧和后帧的特征图与当前帧的特征图进行融合，得到当前帧的融合特征图，作为检测网络的输入。

步骤4，将融合特征输入到候选区域提取网络，并使用非极大值抑制方法对提取的候选区域集进行初步筛选，得到输入到分类和回归网络的候选区域集I。

步骤5，将候选区域集中的每一个区域分别输入到分类和回归网络，对目标的类别进行判断，并调整候选区域的位置坐标，计算损失更新网络参数；训练整个数据集的数据，得到能识别C个类别的视频目标检测模型。

本发明使用采样系数对前后帧特征图赋权后与当前帧特征图相加得到对当前帧图像的融合特征，有效的增强了当前帧图像特征图包含的信息，对目标出现的遮挡、变形和模糊等有较强的鲁棒性。

本发明的效果可以通过下面的仿真结果进一步说明。

实施例6

基于多层特征融合的视频目标检测方法同实例1-5。

仿真1

1.仿真条件

仿真实验采用Large Scale Visual Recognition Challenge 2015大赛中视频目标检测任务的数据集，包含30个目标类别，也就是类别C＝30，具体有airplane，antelope，bear，bicycle，bird，bus，car，cattle，dog，domestic cat，elephant，fox，giant panda，hamster，horse，lion，lizard，monkey，motorcycles，rabbit，red panda，sheep，snake，squirrel，tiger，train，turtle，watercraft，whale，zebra。整个数据集分为训练集、验证集和测试集，其数据信息如表1所示。

表1 ImageNet VID数据集

数据集	视频数量	图片数量
			训练集	3862	1122397
验证集	555	176126
			测试集	937	315175

硬件平台为：Intel(R)Xeon(R)CPU E5-2620 v4@2.10GHz，64G，GeForce GTX 1080Ti，11G，软件平台：Ubuntu，mxnet。

2.仿真内容及分析

选择图4中的一帧图像作为当前帧，使用本发明如图3所示的融合方法，得到当前帧融合了其前帧和后帧特征图之后的特征图，可视化结果如图5所示；其中：

图5(a)表示选择的当前帧的前帧图像；

图5(b)表示选择的当前帧图像；

图5(c)表示选择的当前帧的后帧图像；

图5(d)表示前帧图像特征图的可视化结果，

图5(e)表示后帧图像特征图的可视化结果，

图5(f)表示当前帧图像特征图的可视化结果，

图5(g)表示融合特征的可视化结果。

从图5(d)、(e)、(f)对前帧，当前帧和后帧特征图的可视化结果可以看出视频中相邻图像帧特征图之间的关系和变化过程，尤其针对图5(g)对当前帧融合特征图的可视化结果可以看到经过融合前后帧特征图的当前帧特征图包含更多信息，特别是目标的纹理和位置信息，说明本发明提出的融合方法把前后帧特征图通过采样系数融合到当前帧特征图，使当前帧特征图包含更多的目标纹理和位置信息，更具有表征能力，对视频中目标出现模糊，变形等问题更具有鲁棒性。

实施例7

基于多层特征融合的视频目标检测方法同实例1-5，仿真条件同实施例6。

仿真2

利用本发明方法对测试视频进行整体检测，参见图1，部分检测结果如图6所示。参见图6(a)-图6(f)，本发明对视频的每一帧图像都能检测出给定类别的目标，以图6(a)为例，本发明检测出视频图像帧中目标在图像中出现的位置和目标所属的类别，其中位置由检测框给出，类别由检测框上的文本给出，并给出目标所属类别的概率。检测结果可见本发明提出的基于多层特征融合的视频目标检测方法对视频目标有较好的检测能力，而且对多目标的检测效果也很好。

采用本发明对测试集视频中低速、中速、高速运动的三类目标进行整体检测，根据评价指标统计所有检测结果并计算模型性能，结果如表2所示。

表2本发明对不同运动速度目标的检测结果与总体检测结果

mAP是本发明采用的评价检测性能的指标，即假设N个样本中有M个正例，则可以得到M个召回率值(1/M，2/M，……，M/M)，对应每个召回值可以计算出对应的最大精准率值，对着M个精准率值求平均得到mAP值。mAP值越高，则检测方法的性能越好。

从表2可以看出，本发明提出的基于多层特征融合的视频目标检测方法的性能达到了目前视频目标检测方法的先进水平，具有较好的检测性能。相比于常用的图像目标检测方法，本发明对视频的目标检测具有更好的鲁棒性，检测性能也达到目前的先进水平，而且相比于其他视频目标检测方法，本发明的模型复杂度更小，网络参数量更少，并且实现了端到端的网络结构，可以更方便的训练和使用检测模型。

综上所述，本发明提出的一种基于多层特征融合的视频目标检测方法，主要解决现有的检测方法未利用视频时序信息以及检测效果差的问题，其技术方案为：首先，把输入的一帧视频图像作为当前帧，在其前9帧中选取一个前帧图像，在其后9帧中选取一个后帧图像；然后，把三帧图像输入到改进后的卷积网络，获取图像的特征图；其后，将三个特征图输入到采样网络，获得对前帧和后帧图像特征图的采样图，同时根据采样图计算前帧和后帧图像特征图的采样系数，根据融合公式，通过采样系数将前后帧特征图与当前帧特征图进行融合，得到当前帧增强后的特征图；最后，将融合后的特征图作为检测网络的输入，生成候选区域集，再经过分类和回归网络从候选区域中检测出最终的目标类别和位置。本发明使用了视频时序信息，模型复杂度小，参数量少，检测效果达到当前视频目标检测方法的先进水平，可用于交通监控，安保安防，目标识别等。

Claims

1.一种基于多层特征融合的视频目标检测方法，其特征在于，包括有如下步骤：

(1)提取当前帧及其前帧和后帧图像的卷积特征：输入某个视频中的一帧图像X_t，其包含C个类别中的某一类目标，同时在该视频中，对于当前帧X_t在之前的X_t-9～X_t-1帧中任意选取一帧作为其前帧，在之后的X_t+1～X_t+9帧中任意选择一帧作为其后帧，分别将当前帧、前帧和后帧输入到改进卷积神经网络中，提取得到当前帧及其前帧和后帧图像的卷积特征F_t，F_t-，F_t+，作为融合网络的输入；所述的改进卷积神经网络具体是在卷积网络的浅、中、深三个位置分别添加注意机制模块；

所述的融合网络把前帧和后帧的特征图信息融合到当前帧的特征图，其过程包括：

(a)先将当前帧、前帧和后帧的特征图按第一维连接，输入到采样网络获取对前帧和后帧特征图的采样图H_t-，H_t+，作为计算采样系数时的输入；

(b)再将前帧和后帧的采样图H_t-，H_t+输入到L2正则化层中对前帧和后帧采样图进行平滑操作；

(c)最后将平滑后的前帧和后帧采样图输入到softmax归一化层，得到前帧和后帧特征图的采样系数λ_t-，λ_t+，通过融合公式把前帧和后帧的特征图与当前帧的特征图进行融合，得到当前帧的融合特征图，作为检测网络的输入；

所述的将当前帧、前帧和后帧图像输入到改进卷积神经网络中提取特征图F_t，F_t-，F_t+，具体包括如下步骤：

(1a)将图像输入到改进卷积神经网络，在网络的三分之一深度位置的卷积层后添加浅层注意模块，对该卷积层提取的浅层特征图进行优化后，作为下一个卷积层的输入；

(1b)在网络的三分之二深度位置的卷积层后添加中层注意模块，对该卷积层提取的中层特征图进行优化后，作为下一个卷积层的输入；

(1c)在网络的最后一个卷积层后添加深层注意模块，对最后一个卷积层提取的深层特征图进行优化后，作为采样网络的输入；

(2)对前帧和后帧的特征图计算采样图：将当前帧及其前帧和后帧图像的卷积特征图F_t，F_t-，F_t+输入到采样网络，根据当前帧、前帧和后帧的特征图关系，获取对前帧和后帧特征图的采样图H_t-，H_t+；

(5)提取候选区域：将当前帧X_t的融合特征图F_t’输入到候选区域RPN网络中提取候选区域，并利用非极大值抑制的方法对候选区域进行初步筛选，得到检测目标的候选区域集I；

(7)重复步骤(1)～(6)，训练整个数据集，得到能识别C个类别的视频目标检测模型，通过添加新的类别的数据集，进一步训练检测模型得到能识别新类别的模型，即对C个类别以外的目标类别进行扩充。

2.根据权利要求1所述的基于多层特征融合的视频目标检测方法，其特征在于，步骤(4)中所述的融合公式为：

F_t’＝F_t+λ_t-*F_t-+λ_t+*F_t+