CN109785359B

CN109785359B - 一种基于深度特征金字塔与跟踪损失的视频目标检测方法

Info

Publication number: CN109785359B
Application number: CN201811422620.9A
Authority: CN
Inventors: 赵保军; 赵博雅; 唐林波; 王文正; 邓宸伟
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-12-04
Anticipated expiration: 2038-11-27
Also published as: CN109785359A

Abstract

本发明提供了一种基于深度特征金字塔和跟踪损失的视频目标检测方法，解决了视频目标检测稳定性与准确率的问题。本方法中在对目标检测的过程中采用多尺度特征图的方法，底层特征图维度高，细节信息丰富，高层特征纬度低，语义信息丰富，从而能够更好地利用视频图像的空间信息，使得检测能够适应多尺度、多类型的目标。本方法采用多尺度的候选窗生成方式，对小目标进行密集采样，对大目标进行离散采样，考虑到尺度不同的目标被检测时需求的精度不同，根据目标尺度做单独处理，小尺度目标精细采样，大尺度目标粗糙采样，增加检测速度。

Description

一种基于深度特征金字塔与跟踪损失的视频目标检测方法

技术领域

本发明属于视频目标检测技术领域，涉及一种基于特征金字塔与跟踪损失的视频目标检测方法。

背景技术

随着图像采集设备的普及，尤其是监控设备的大范围布置，获得的视频数据分辨率也越来越高，由此引发的对于视频图像的处理需求也越来越高。其中，对于视频数据中的目标检测是一个重要的研究方向，视频目标检测对于安保防护，人流密度统计，目标再识别等应用有重要意义。同时视频数据相对于图像数据来说，多了时间维度数据，同时数据量相对于图像数据来说几何倍数增长，这就为视频数据的目标检测带来了挑战。

在视频目标检测领域里，基于深度神经网络的目标检测主要包含两种方法：第一种是基于单帧图像的视频检测方法，即首先将视频数据拆分成单帧图像，对每一帧图像进行单独检测。但是单帧检测的方法只利用了图像的两维数据，完全没有利用视频的时间轴信息，会造成检测结果不稳定，检测框忽大忽小以及目标丢失等问题；第二种是利用视频时间信息的视频检测方法，也是目前视频目标检测主要研究的方向，视频时间信息的利用多种多样，包括提取光流特征以及利用跟踪信息等方式。其中，提取光流特征的方式可以避免重复计算特征，将计算好的特征根据目标运动方向直接复制至当前检测帧，可以大幅度降低目标检测时间，但是由于目标运动的不确定性，光流特征不稳定，容易造成目标检测结果不稳定。利用跟踪信息的方式是将跟踪结果和检测结果做加权，以避免目标检测丢失问题，但是由于跟踪和检测使用同一特征，且特征主要由判别式检测训练得到，跟踪利用这种判别式的特征会造成跟踪结果差，目标丢失问题，跟踪和检测结合结果同样不稳定。

同时，由于目前的目标检测方法主要是判别式的分类深度神经网络，判断是否为目标主要是特征距离分类超平面的远近，因此提升目标检测性能的方法只有增加数据量与数据复杂度以适应不同的目标检测场景。为了克服基于深度神经网络特征离散的问题，需要补充生成式的特征信息对特征进行收拢，增加检测方法的泛化性与适用性。但是由于深度神经网络没有办法得到显式的概率函数，因此传统的基于玻尔兹曼机的生成式方法与深度神经网络不能很好的结合。

如何在判别式的深度神经网络检测方法的基础上加入生成式信息已经成了视频目标检测领域的重要研究方向之一。但是由于视频中目标运动多种多样，单一的利用跟踪结果和目标检测结果很难保持视频目标检测的稳定性。

发明内容

有鉴于此，本发明提供了一种基于深度特征金字塔和跟踪损失的视频目标检测方法，解决了视频目标检测稳定性与准确率的问题。

为了达到上述目的，本发明的技术方案包括如下步骤：

步骤1，构建两个完全相同的神经网络，每个神经网络均包括基础神经网络以及特征金字塔；

其中根据视频目标尺寸选择基础网络中的某一卷积层，基于该卷积层卷积得到特征金字塔；

针对特征金字塔中每一层特征图，依据待检测目标对每个像素点构建候选窗；

对视频目标样本数据集中的每一帧图像进行标注，得到训练集视频目标的所有帧图像及其标注信息；

步骤2，依次将训练集中视频目标的前后两帧图像分别作为两个神经网络的输入，对网络输入进行前向传播；

在前向传播中，对于任一神经网络，针对特征金字塔中每一层特征图，将该层特征图中的每个候选窗与一个经过高斯初始化的滤波矩阵进行卷积得到该候选窗的类判别结果，基于该层特征图所有候选窗的类判别结果，选择标注信息中位置与候选窗交并比最大的候选窗，将该候选窗的类判别结果与1做最小二乘运算，得到该层特征图的类判别损失；

同时，将该层特征图中的每个候选窗与另一个经过高斯初始化的滤波矩阵进行卷积得到该候选窗位置判别结果，基于该层特征图所有候选窗的位置判别结果，选择标注信息中位置与候选窗交并比最大的候选窗，将该候选窗的位置判别结果与标注信息中的位置进行Smooth L1运算，得到该层特征图的位置判别损失；

将所有层特征图的类判别损失与位置判别损失分别相加，得到该神经网络的类损失与位置损失，将两个神经网络的类损失与位置损失分别相加，得到总的类损失与位置损失；

针对前一帧图像的特征图，计算每一候选窗和实际目标的交并比，得到与实际目标最大交并比所对应的候选窗，以该窗中心为滤波矩阵中心，构建相关滤波器的滤波矩阵；将该相关滤波器的滤波矩阵与后一帧图像的特征图进行相关运算，得到相关热力图；将相关热力图中最大值与1的差作为特征匹配差，相关热力图中最大值位置和在后一帧图像上目标位置的欧式距离作为距离偏移；所述特征匹配差与所述距离偏移构成跟踪损失；

其中所有滤波矩阵尺寸一致；

步骤3、利用步骤2得到的总的类损失与位置损失以及跟踪损失，对任一神经网络进行反向传播，在反向传播中，修正该网络参数，反向传播完成后将修正后的网络参数复制到另一神经网络中，重复执行步骤2-3，直到总的类损失与位置损失以及跟踪损失收敛，得到训练后的网络；

步骤4，依次将测试集中视频目标的前后两帧图像输入到训练后的网络中，对网络输入进行前向传播，得到所有候选窗生成的类判别结果以及位置判别结果；

对每一类的类判别结果分别进行从大到小排序，选取前n个类判别结果对应的候选窗，对n个候选窗的位置判别结果进行非极大值抑制，进而得到最终位置判别结果及其对应的类判别结果，若该结果满足要求，则网络测试完成，否则，更换所述训练集，重复执行步骤2-4，直至结果满足要求，得到测试完成的网络；其中n为设定值；

步骤5，利用测试完成的网络进行视频目标检测，得到视频目标检测结果。

其中，所述特征金字塔获得方式为：基于基础网络中的某一卷积层卷积得到后续层，基于后续层再卷积得到第二后续层，基于第二后续层依次卷积得到各个后续层，基于所述卷积层与各个后续层得到特征金字塔。

其中，所述步骤1中，所述特征金字塔由所述卷积层与各个不相邻的后续层组成。

其中，所述非极大值抑制中，以类判别结果最大值对应的候选窗作为基准候选窗，计算其他候选窗与其交并比，将与基准候选窗交并比大于0.8的候选窗排除，实现对n个候选窗位置判别结果的非极大值抑制。

其中，所述步骤1中，视频目标样本数据集中正负样本比例保持在3:1。

其中，使得正负样本比例保持在3:1的方式为：

首先，根据候选窗从背景中生成检测时的负样本，其中候选窗与目标标注框的交并比低于0.3即被归为负样本；

然后，将负样本候选窗经过类判别窗得到每个负样本的分值，判断该负样本被判定为正样本的概率；

最后将所有负样本的分值从高到低进行排名，选择前3n个候选窗作为训练时的负样本，其中n为正样本总个数。

其中，所述步骤2中，标注视频目标数据集中的每一帧图像的跟踪id信息、目标id信息以及目标检测框位置信息，每一个目标的标注信息为一个6维向量，得到各个帧图像及其对应的标注信息。

其中，所述步骤1中，对每个像素点构建多个相同面积不同长宽比的候选窗。

其中，所述基础网络为Alex net、VGG、Residual net或Google net。

有益效果：

1、本发明方法中在对目标检测的过程中采用多尺度特征图的方法，底层特征图维度高，细节信息丰富，高层特征纬度低，语义信息丰富，从而能够更好地利用视频图像的空间信息，使得检测能够适应多尺度、多类型的目标。本方法在判别式类损失训练的基础上加入了跟踪匹配损失，判别式损失考虑的是特征在分类超平面的哪一侧，生成式的损失考虑的是特征之间的距离的远近，在判别式损失的基础上加入生成式损失，能够使每一类目标的特征更加聚合，纠正判别式损失特征分布广泛的问题，得到更加稳定的特征，从而使得检测更加稳定。

2、本发明方法采用多尺度的候选窗生成方式，对小目标进行密集采样，对大目标进行离散采样，考虑到尺度不同的目标被检测时需求的精度不同，根据目标尺度做单独处理，小尺度目标精细采样，大尺度目标粗糙采样，增加检测速度。

3、本发明方法在训练过程中，考虑到目标检测中正负样本不均衡问题，采用样本难例挖掘方法，使得训练过程中正负样本比例为1:3，解决之前方法在训练时由于负样本丰富，使得训练集中在负样本上的问题，保证每次训练不会出现样本失衡问题，训练得到的网络更加鲁棒。

附图说明

图1为本发明的siamese孪生网络框架。

图2为本发明候选窗示意图。

图3为本发明跟踪匹配示意图。

图4为本发明负样本难例挖掘流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

步骤1，构建基于深度特征金字塔和跟踪损失的深度神经网络结构，网络结构为Siamese孪生网络，Siamese孪生网络为两个完全相同的神经网络，每一个神经网络包含基础神经网络以及特征金字塔。

其中特征金字塔获得方式为：根据视频目标尺寸选择基础网络中的某一卷积层，基于该卷积层卷积得到后续层，基于后续层再卷积得到第二后续层，基于第二后续层依次卷积得到各个后续层，基于所述卷积层与各个后续层得到特征金字塔；

进一步地，所述特征金字塔由所述卷积层与各个不相邻的后续层组成，可以增大特征金字塔的感受野，实现大范围的准确检测。

针对特征金字塔中每一层特征图，依据待检测目标对每个像素点构建候选窗，所述类判别网络和位置判别网络分别包括与候选窗数目相同的卷积核，其中，类判别网络和位置判别网络卷积核尺寸一致；

其中，候选窗可以采用多个相同面积不同长宽比的候选窗，基于不同长宽比的候选窗，深度神经网络可以适应不同长宽比目标的检测，增加深度神经网络对多类型目标的鲁棒性。

本实施例的siamese孪生网络框架如图1所示，Siamses孪生网络的基础网络是在imagenet上预训练的VGG网络，VGG网络的深度为16，包含13个卷积层和3个池化层。在VGG网络的基础上增加6层特征网络，这6层特征图由卷积生成，且6层特征图的尺度依次降低，6个尺度分别为38*38*512,19*19*1024,10*10*512,5*5*256,3*3*256,1*1*256。小尺度的目标在大尺度的特征图上检测，大尺度的目标在小尺度的特征图上检测，充分利用空间信息，保证对多尺度目标的适应性。

本发明候选窗示意图如图2所示，候选窗在特征图上设计，对每一层特征图进行稠密窗口采样，将尺度归一化后，每一层特征图上的候选窗尺度为(0.2,0.34,0.58,0.62,0.74,0.9)。以38*38特征图为例，在38*38的特征图上，以每一个像素点为中心，设计5个候选窗，候选窗的面积为当前尺度(0.2)的平方，长宽比分别为(3,2,1,1/2,1/3)，即对于每一个像素点来说，生成的5个窗口长宽分别为(0.346，0.115)，(0.283，0.141)，(0.2,0.2)，(0.115,0.346)，(0.141,0.283)

其中，基础网络为Alex net，Visual Geometry Group net(VGG)，Residual net,Google net等网络；

对视频目标数据集中的每一帧图像进行标注，得到训练集视频目标的所有帧图像及其标注信息；

其中本实施例中依次对视频数据集中的每一帧图像进行标注，只标注目标样本信息，需要标注跟踪id信息、目标id信息以及目标检测框位置信息。对每一个目标的信息为一个6维向量：[目标中心坐标(x)，目标中心坐标(y)，目标宽(w)，目标高(h)，目标类别信息(labelID)，目标跟踪信息(trackID)]。

进一步地，所述步骤1中，视频目标的相邻帧图像中正负样本比例保持在3:1。负样本难例挖掘是在检测中使用的，以保证判别式检测训练过程中正负样本均衡，不会因为负样本比正样本多很多，从而使训练集中在负样本上。首先，检测时的负样本是从背景中得到的，具体地，负样本是根据候选窗网络生成的候选窗生成的，候选窗与目标标注框的交并比低于0.3即被归为负样本。然后，负样本候选窗经过类判别网络会得到每个负样本的分值，判断这个负样本有多大的概率被判定为正样本。最后将所有负样本的分值从高到低进行排名，选择前3n个候选窗作为训练时的负样本，n为正样本个数。

步骤2，依次将视频目标的前后两帧图像分别作为两个神经网络的输入，对网络输入进行前向传播；

依次将训练集中视频目标的前后两帧图像及其标注信息分别作为两个神经网络的输入，对网络输入进行前向传播；

在前向传播中，对于任一神经网络，针对特征金字塔中每一层特征图，将该层特征图中的每个候选窗与一个经过高斯初始化的滤波矩阵进行卷积得到该候选窗的类判别结果，基于该层特征图所有候选窗的类判别结果，选择标注信息中位置与候选窗交并比最大的候选窗，将该候选窗的类判别结果与1做最小二乘运算，得到该层特征图的类判别损失；同时，将该层特征图中的每个候选窗与另一个经过高斯初始化的滤波矩阵进行卷积得到该候选窗位置判别结果，基于该层特征图所有候选窗的位置判别结果，选择标注信息中位置与候选窗交并比最大的候选窗，将该候选窗的位置判别结果与标注信息中的位置进行Smooth L1运算，得到该层特征图的位置判别损失，将所有特征图的类判别损失与位置判别损失分别相加，得到该神经网络的类损失与位置损失，将两个神经网络的类损失与位置损失分别相加，得到总的类损失与位置损失；

针对前一帧图像的特征图，计算每一候选窗和实际目标的交并比，得到与实际目标最大交并比所对应的候选窗，以该窗中心为滤波矩阵中心，构建相关滤波器的滤波矩阵；将该相关滤波器的滤波矩阵与后一帧图像的特征图进行相关运算，得到相关热力图；将相关热力图中最大值与1的差作为特征匹配差，相关热力图中最大值位置和在后一帧图像上目标位置的欧式距离作为距离偏移；所述特征匹配差与所述距离偏移构成跟踪损失；其中所有滤波矩阵尺寸一致；

本发明跟踪匹配示意图如图3所示，在候选窗网络生成多个候选窗的基础上，首先计算每一个候选窗和第一帧图像目标标注信息框的交并比(两个框的交集比两个框的并集)，得到交并比最大的候选窗所在特征图的中心点，作为第一帧的目标候选窗位置。其次，将两帧相邻图像输入至siamese孪生网络中，得到2*6幅特征图，对两组特征图进行跟踪匹配，根据跟踪偏移以及特征匹配差，构建匹配损失。跟踪偏移是第二帧跟踪结果和第二帧实际目标在特征图上的欧式距离损失，特征匹配差是匹配结果的值。

步骤3、利用步骤2得到的总的类损失与位置损失以及跟踪损失，对任一神经网络进行反向传播，在反向传播中，修正该网络参数，反向传播完成后将修正后的网络参数复制到另一神经网络中，重复执行步骤2-3，直到总的类损失与位置损失以及跟踪损失收敛，得到训练后的网络；本实施例中设置学习率为0.0001，采用momenta与weight-decay训练策略，迭代120000次，网络收敛。

本实施例中首先使用单支网络对视频中每一帧图像进行检测，得到所有候选窗生成的类判别结果，对每一类的类判别结果分值做从大到小排序。然后，选择分值前100个候选窗生成的类判别结果与位置判别结果作为候选检测结果。最后，对这100个候选窗的检测结果进行非极大值抑制，具体地，将类判别结果分值最大的候选窗位置判别结果作为基准，与其他99个位置判别结果计算交并比，如果交并比大于0.8，则排除这个与基准框交并比超过0.8的候选窗，遍历所有候选窗完毕，即得到最终的检测结果。

综上，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，包括如下步骤：

其中所有滤波矩阵尺寸一致；

对每一类的类判别结果分别进行从大到小排序，选取前n个类判别结果对应的候选窗，对n个候选窗的位置判别结果进行非极大值抑制，进而得到最终位置判别结果及其对应的类判别结果，若所述最终位置判别结果及其对应的所述类判别结果满足要求，则网络测试完成，否则，更换所述训练集，重复执行步骤2-4，直至结果满足要求，得到测试完成的网络；其中n为设定值；

2.如权利要求1所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述特征金字塔获得方式为：基于基础网络中的某一卷积层卷积得到后续层，基于后续层再卷积得到第二后续层，基于第二后续层依次卷积得到各个后续层，基于所述卷积层与各个后续层得到特征金字塔。

3.如权利要求2所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述步骤1中，所述特征金字塔由所述卷积层与各个不相邻的后续层组成。

4.如权利要求1所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述非极大值抑制中，以类判别结果最大值对应的候选窗作为基准候选窗，计算其他候选窗与其交并比，将与基准候选窗交并比大于0.8的候选窗排除，实现对n个候选窗位置判别结果的非极大值抑制。

5.如权利要求1所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述步骤1中，视频目标样本数据集中正负样本比例保持在3:1。

6.如权利要求3所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，使得正负样本比例保持在3:1的方式为：

最后将所有负样本的分值从高到低进行排名，选择前n个候选窗作为训练时的负样本，其中3n为正样本总个数。

7.如权利要求1所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述步骤2中，标注视频目标数据集中的每一帧图像的跟踪id信息、目标id信息以及目标检测框位置信息，每一个目标的标注信息为一个6维向量，得到各个帧图像及其对应的标注信息。

8.如权利要求1或2所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述步骤1中，对每个像素点构建多个相同面积不同长宽比的候选窗。

9.如权利要求1或2所述的一种基于深度特征金字塔与跟踪损失的视频目标检测方法，其特征在于，所述基础网络为Alex net、VGG、Residual net或Google net。