CN109993772A

CN109993772A - 基于时空采样的实例级别特征聚合方法

Info

Publication number: CN109993772A
Application number: CN201910230234.8A
Authority: CN
Inventors: 郭军; 柳波; 张斌; 刘晨; 李薇; 张娅杰; 刘文凤; 王嘉怡; 王馨悦; 陈文博; 侯帅
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-09
Anticipated expiration: 2039-03-26
Also published as: CN109993772B

Abstract

本发明提供一种基于时空采样的实例级别特征聚合方法，涉及计算机视觉技术领域。基于时空采样的实例级别特征聚合方法，首先基于光流进行实例运动位移预测，得到相邻帧的候选框位置；并基于运动位移进行实例级别的特征采样，得到候选框在当前帧及其前后相邻两帧的采样特征；然后基于光流质量和外观质量进行实例级权重计算，提取候选框k对应的位置敏感的实例级权重；最后将当前帧i与其相邻帧i‑t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合，得到聚合后的实例级别的特征。本发明提供的基于时空采样的实例级别特征聚合方法，能有效的利用相邻帧之间的运动信息，进而提升运动模糊、变形等复杂场景下的视频目标检测的精度。

Description

基于时空采样的实例级别特征聚合方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于时空采样的实例级别特征聚合方法。

背景技术

近些年，视频目标检测逐渐成为计算视觉领域和智能视频监控领域的研究热点。但是在遮挡、模糊等复杂场景下，提高视频目标检测精度方面还略显不足。目前国内外视频目标检测方法主要可以划分为两类，一类为框水平的方法，另一类为特征水平的方法。这两类方法由于专注点并不冲突，可以结合使用，最大化的提升检测性能。MANet提出帧级别特征聚合适用于对非刚体运动建模，但是对遮挡的对象效果较差，后进一步提出了实例级别的特征矫正，通过聚合实例级别的特征，提高模型对遮挡场景的检测性能。STSN提出了基于时空采样的方式实现了帧级别的特征聚合，直接学习帧级别的位移，通过可变形卷积操作对帧级别特征进行空间变换以此提高检测效果。但是存在以下两个问题：一是跟踪算法预测的运动位移与实际位移存在较大的偏差；二是训练跟踪算法需要通过跟踪id来计算跟踪目标和跟踪损失，并且需要遮挡标签来预测遮挡概率，导致目标检测网络不能够自适应学习实例在帧间的运动位移。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于时空采样的实例级别特征聚合方法，实现对视频进行实例级别特征聚合。

为解决上述技术问题，本发明所采取的技术方案是：基于时空采样的实例级别特征聚合方法，包括以下步骤：

步骤1、基于光流进行实例运动位移预测，得到相邻帧的候选框位置，具体方法为：

步骤1.1、通过光流网络提取视频图像第i帧与第i-t帧之间的光流特征M_i-t→i及第i帧与第i+t帧之间的光流特征M_i+t→i；

步骤1.2、将通过光流网络提取的视频图像的第i帧和第i-t帧之间的光流特征M_i-t→i以及第i帧与第i+t帧之间的光流特征M_i+t→i输入到运动位移预测网络，得到候选框坐标位置在相邻帧的运动位移，如下公式所示：

其中，表示运动位移预测网络，用于预测与候选框每个位置对应的运动位移，和分别表示候选框坐标位置在第i-t帧和第i+t帧的标准化的运动位移；

所述运动位移预测网络包括若干可变形卷积模块，每个可变形卷积模块包括一个补偿学习层和一个PS RoIPooling层(Position-sensitive RoIPooling，即位置敏感的RoIPooling)；

步骤1.3、通过运动位移网络的PS RoIPooling层将候选框特征提取到固定大小，并回归每个局部位置的标准化的坐标位移得到预测候选框k在第i-t帧和第i+t帧的实例级别的运动位移和如下公式所示：

其中，γ为预定义的放缩因子，负责调整位移的量级，默认为0.1，ο表示元素级乘法，w，h分别为候选框的宽度和高度；

步骤1.4、通过RPN网络(region proposal networks，即候选区域网络)得到当前帧i中物体的候选框k的位置然后通过候选框k在第i-t帧和第i+t帧的实例级别的运动位移和用来对候选框k的位置进行调整，获得候选框k在第i-t帧和第i+t帧的预测位置和其中，

步骤2、基于运动位移进行实例级别的特征采样，得到候选框在当前帧及其前后相邻两帧的采样特征，具体方法为：

使用R-FCN(Region-based Fully Convolutional Networks，即基于区域的全卷积网络)的位置敏感的候选区域池化层PS RoIPooling去采样候选框特征；

对于给定的候选框k，相邻帧i-t及候选框左上角的位置p₀，PS RoIPooling划分候选框为k′×k′个小块，则相邻帧i-t的基于运动位移的采样特征为：

其中，为第i-t帧图像的采样特征，p₀为候选框左上角位置，p为采样点位置，Δp_mn表示运动位移中(m，n)位置的偏移值，f_i-t为特征网络提取的第i-t帧的特征，N_mn为第(m，n)个小块中像素值的数量，bin(m，n)表示第(m，n)个小块的范围为 1≤m，n＜k′，p_x和p_y为采样点位置p的x，y坐标值；

对于输出特征图中的每个小块(m，n)中的特征值，通过式(3)得到，使用双线性插值实现特征采样；

则第i+t帧的基于运动位移的采样特征为：

其中，为第i+t帧的采样特征，f_i+t为特征网络提取的第i+t帧的特征；

当前帧i中候选框k特征的采样通过直接的可变形PS RoIPooling得到，首先计算当前帧候选框的几何变换位移，如下公式所示：

其中，表示当前帧i中候选框k的运动位移，conv表示卷积层，表示当前帧聚合后的帧级别特征；

然后计算当前帧i的采样特征如下公式所示：

步骤3、基于光流质量和外观质量进行实例级权重计算，提取候选框k对应的位置敏感的实例级权重，具体方法为：

计算当前帧与相邻帧中候选框k的实例级别特征中每个采样点位置p的余弦相似性权重如下公式所示：

给定帧级别权重图和采样点位置p+Δp，则候选框k的采样权重如下公式所示：

通过公式(9)，获得了对实例外观质量的评估权重，将其作为放缩因子，与余弦相似性权重结合，获得最后的位置敏感的聚合权重如下公式所示：

沿着候选框在多帧之间的运动轨迹归一化采样点位置p的权重，使得归一化操作通过SoftMax函数完成；

步骤4、将当前帧i与其相邻帧i-t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合，得到聚合后的实例级别的特征如下公式所示：

其中，为候选框k对应的位置敏感的实例级权重。

采用上述技术方案所产生的有益效果在于：本发明提供的基于时空采样的实例级别特征聚合方法，能够从光流中直接预测实例级别的运动位移，通过运动位移计算采样坐标位置来采样实例级特征并聚合；由于通过光流网络提取的光流已经预训练过，因此不需要额外的监督标签训练光流，这样基于时空采样的实例级别特征聚合方法能有效的利用相邻帧之间的运动信息，进而提升运动模糊、变形等复杂场景下的视频目标检测的精度。

附图说明

图1为本发明实施例提供的基于时空采样的实例级别特征聚合方法的流程图；

图2为本发明实施例提供的基于时空采样的实例级别特征聚合过程示意图；

图3为本发明提供的实例级别特征和权重提取过程的示意图；

图4为本发明提供的R-FCN结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

基于时空采样的实例级别特征聚合方法，如图1-3所示，包括以下步骤：

所述运动位移预测网络包括若干可变形卷积模块，每个可变形卷积模块包括一个补偿学习层和一个PS RoIPooling层(即Position-sensitive RoIPooling)；

步骤1.3、通过运动位移网络的PS RoIPooling层(即Position-sensitiveRoIPooling)将候选框特征提取到固定大小，并回归每个局部位置的标准化的坐标位移得到预测候选框k在第i-t帧和第i+t帧的实例级别的运动位移和如下公式所示：

其中，γ为预定义的放缩因子，负责调整位移的量级，默认为0.1，表示元素级乘法，w，h分别为候选框的宽度和高度；

本实例的运动位移预测网络的主要作用有两个：拟合物体内部的几何变换和物体在帧间的运动趋势。为了使网络具有拟合内部几何变换的作用，本实例采用的方法是在运动位移预测网络的底部通过堆叠3个可变形卷积模块学习内部的几何变换，其中可变形卷积模块由补偿学习层和PS RoIPooling组成。本实例中使用的3个可变形卷积模块内的每层的参数设置如表1所示。

表1可变形卷积模块的参数设置

layer	kernel	pad	stride	num_filter	dilate	no_bias
							def_convl_offset	3	2	1	72	2	False
def_convl	3	2	1	1024	2	True
							def_conv2_offset	3	2	1	72	2	False
def_conv2	3	2	1	1024	2	True
							def_conv3_offset	3	2	1	72	2	False
def_conv3	3	2	1	1024	2	True

为了使运动位移预测网络具有拟合物体在帧间运动趋势的作用，本实施例在可变形卷积模块的输出特征图上通过一个1×1卷积层生成运动补偿域，然后应用PSRoIPooling提取实例级的运动补偿(位移)，生成的运动位移作为时空采样的坐标补偿。

使用R-FCN(Region-based Fully Convolutional Networks，即基于区域的全卷积网络)的位置敏感的候选区域池化层PS RoIPooling去采样候选框特征，如图4所示，R-FCN将输出特征图首先通过一个k²(C+1)维的卷积层映射到一个对位置敏感的高维水平，称为位置敏感的分数图(position-sensitive score maps)，位置敏感通过一个特殊的PSRoIPooling实现。PS RoIPooling将输出特征图划分为k*k个小方块，分别对应目标的k*k个不同的位置，如输出特征图的左上小块对应分数图的前C+1个通道，因此该部分的特征值由位置敏感的分数图中对应的前C+1个通道进行RoIPooling操作得到。同样，其他位置的值也由对应的C+1个通道的分数图下采样得到，此时输出的特征图中编码了该候选区域在k*k个位置上分别对应C+1个类别的分数，该候选区域的整体分类分数通过投票的方式得到，即每个类别的分数由该类在所有位置上的得分共同投票来确定；本实施例通过全局平均池化来实现这一投票方式。

则第i+t帧的基于运动位移的采样特征为：

然后计算当前帧i的采样特征，如下公式所示：

计算当前帧与相邻帧中候选框k的实例级别特征中每个采样点位置p的余弦相似性权重，如下公式所示：

通过公式(9)，获得了对实例外观质量的评估权重，将其作为放缩因子，与余弦相似性权重结合，获得最后的位置敏感的聚合权重，如下公式所示：

沿着候选框在多帧之间的运动轨迹归一化采样点位置p的权重，使得归一化操作通过SoftMax函数完成。

步骤4、将当前帧i与其相邻帧i-t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合，得到聚合后的实例级别的特征，如下公式所示：

其中，为候选框k对应的位置敏感的实例级权重。

本实施例还提供了将本发明的实例级别的特征聚合方法INS-AGG与单帧检测基线R-FCN和FGFA聚合方法进行对比；为了保证对比的公平性，本实施例使用R-FCN作为基础检测器，特征网络为ResNet-101，光流网络为FlowNet(Simple版本)，实验结果如表2所示。

表2不同方法在ImageNet VID验证集所有类别上的精度对比

由表2可以看出，本发明的实例级别特征聚合方法大幅度提升了单帧检测基线R-FCN的性能(68.5→72.6_↑4.1)，说明实例级别的特征聚合能很好的利用多帧之间的实例级别信息。同样说明了本发明的运动位移预测算法能够很好地预测像素级别的运动位移，使得特征采样算法能准确的采样对应位置的特征。通过与FGFA聚合方法进行对比，可以发现本发明的实例级聚合方法比FGFA的帧级别聚合方法检测精度稍微高一些，说明了实例级聚合方法的必要性。而通过每类的识别精度可以看出，实例级特征聚合方法和帧级别特征聚合方法在很多类上各有优势，例如实例级特征聚合方法INS-AGG在熊，狗，马，狮子，猴子，摩托车，松鼠，龟这8个类别上的检测精度上大幅领先，而FGFA在飞机，自行车，狐狸，仓鼠，兔子，蛇，鲸鱼，斑马这8个类别上的检测精度上大幅领先，这说明两种方法可以互补，即帧级别方法和实例级别的方法结合起来一起使用理论上能进一步提升检测精度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于时空采样的实例级别特征聚合方法，其特征在于：包括以下步骤：

所述运动位移预测网络包括若干可变形卷积模块，每个可变形卷积模块包括一个补偿学习层和一个PS RoIPooling层；

步骤1.4、通过RPN网络得到当前帧i中物体的候选框k的位置然后通过候选框k在第i-t帧和第i+t帧的实例级别的运动位移和用来对候选框k的位置进行调整，获得候选框k在第i-t帧和第i+t帧的预测位置和其中，

步骤2、基于运动位移进行实例级别的特征采样，得到候选框在当前帧及其前后相邻两帧的采样特征；

步骤3、基于光流质量和外观质量进行实例级权重计算，提取候选框k对应的位置敏感的实例级权重；

步骤4、将当前帧i与其相邻帧i-t和i+t的实例级别特征通过位置敏感的实例级权重进行聚合，得到聚合后的实例级别的特征。

2.根据权利要求1所述的基于时空采样的实例级别特征聚合方法，其特征在于：所述步骤2的具体方法为：

使用R-FCN的位置敏感的候选区域池化层PS RoIPooling去采样候选框特征；

则第i+t帧的基于运动位移的采样特征为：

然后计算当前帧i的采样特征如下公式所示：

3.根据权利要求2所述的基于时空采样的实例级别特征聚合方法，其特征在于：所述步骤3的具体方法为：

4.根据权利要求3所述的基于时空采样的实例级别特征聚合方法，其特征在于：步骤3所述得到的聚合后的实例级别的特征如下公式所示：

其中，为候选框k对应的位置敏感的实例级权重。