CN114612820A

CN114612820A - 一种基于类别感知特征聚合的视频目标检测方法

Info

Publication number: CN114612820A
Application number: CN202210199529.5A
Authority: CN
Inventors: 郑慧诚; 陈蔓薇; 樊迪威
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-10

Abstract

本发明公开了一种基于类别感知特征聚合的视频目标检测方法，包括：检测主干ResNet‑101对视频帧进行特征提取，获得高层语义信息；利用可形变卷积进行亚像素级的特征对齐，随后使用区域生成网络RPN为每一帧生成目标候选框；使用候选框分类模块对生成的候选框进行分类操作，后续仅对具有相同类标签的候选框进行特征聚合；在进行类别感知特征聚合时，使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作；使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模；将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。本发明使得时序信息和空间位置信息都得到充分利用，从而有效提高视频目标的检测性能。

Description

一种基于类别感知特征聚合的视频目标检测方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于类别感知特征聚合的视频目标检测方法。

背景技术

视频目标检测是计算机视觉领域中一个新的研究方向，其主要任务即对视频每一帧中的目标进行正确的分类和定位。基于视频的目标检测任务相比于静态图像的目标检测任务，目标的外观、形状、尺度等属性会随着目标的运动发生变化，因此在检测过程中往往会出现运动模糊、视频失焦、部分遮挡、奇异姿势等检测难点。但由于视频比静态图像多了一个时间维度上的信息，因此在检测过程中如何利用时序信息使得目标保持时间顺序上的目标一致性，从而使目标不会在质量较差的帧上发生丢失，这是视频目标检测任务的主要难点。

近年来出现的视频目标检测方法大多也是在探究时序信息带来的更多提升检测精度的可能性，但仍存在时序信息利用不充分、不精确，使用未对齐的特征提取候选框，未对来自相邻帧的时序信息进行筛选，忽略同帧中目标在空间上的上下文信息等问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一个基于类别感知特征聚合的视频目标检测方法。该方法在特征层级和实例层级两个方面进行双重特征聚合操作，利用帧间运动信息进行特征对齐，提升了帧特征的时空鲁棒一致表达。在实例层级进行同类别、逐层递进的双向特征聚合，避免了不相关类的噪声信息干扰，最后针对同一帧中的不同类别目标，学习其空间位置上的相关性，获得更多上下文信息，使得时序信息和空间位置信息都得到充分利用，从而有效提高视频目标的检测性能。

为实现上述目的，本发明提供了一种基于类别感知特征聚合的视频目标检测方法，包括：

检测主干ResNet-101对视频帧进行特征提取，获得高层语义信息，利用可形变卷积进行亚像素级的特征对齐，随后使用区域生成网络RPN为每一帧生成目标候选框；

使用候选框分类模块对生成的候选框进行分类操作，后续仅对具有相同类标签的候选框进行特征聚合；

在进行类别感知特征聚合时，使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧；

使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模；

将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。

进一步的，所述使用候选框分类模块对生成的候选框进行分类操作之前，还包括：通过特征层运动对齐模块对当前帧进行亚像素级细粒度特征对齐，具体为：在可形变对齐中，使用可形变卷积分别将F_t+s、F_t-s与F_t进行逐像素点位置p对齐，其中F_t代表当前帧特征图，F_t+s、F_t-s代表局部帧特征图，其数学公式可表示为：

其中R＝{(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格，卷积核的权重用w表示，p_k代表卷积核中的第k个采样偏移量，输出

代表对齐后的特征，Δp_k是对F_t+s与F_t进行一系列卷积预测出的运动偏移量；

最后，将当前帧和各个局部帧对齐后的特征

和

进行逐元素相加，得到模块的最终输出F_t′，即当前帧进行亚像素级细粒度特征对齐后的特征。

进一步的，所述候选框分类模块将RPN生成的候选框分类为不同类别或背景，随后仅对具有相同类别标签的候选框进行实例级的特征聚合。

进一步的，所述使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作，具体为：

对于候选框的聚合，首先需要对候选框间进行关系建模，给定一组候选框集合B＝{B₁,B₂,…,B_n}，其中每个候选框B_i包含语义和位置信息，假设通过关系建模增强后的候选框特征集合为

则可由如下公式表示聚合增强过程：

其中γ(·)为一般变换函数，S_k,i表示B_k与B_i候选框层级的相似性，其相似性的计算公式如下：

其中

代表边界框B_k与B_i间的语义特征相似度，其中

和ξ(·)为提取边界框语义特征的网络结构，⊙为点积操作，g_k,i为边界框B_k与B_i的几何相似度，其具体计算公式如下：

其中θ(·)为一般变换函数，δ(·)为位置嵌入操作，将原始的低维几何相似度g_k,i嵌入到深度检测网络的高维表示中，以边界框B_i为例，其几何信息可以表示为B_i＝(x_i,y_i,w_i,h_i),其中x_i,y_i为候选框B_i的边框中心坐标，w_i和h_i分别代表边框的宽和高。

本发明的有益效果是：

(1)提出了一种双重特征聚合方式，即将特征级聚合和实例级聚合相统一的框架。在生成候选框之前，即在特征层级时先利用可形变卷积进行细粒度的亚像素级特征对齐，使得特征图具有更准确的描述且富有更多语义信息，增强了特征的时空一致鲁棒表达，从而能够生成更高质量的候选区域框，后续进行的实例级的候选框特征聚合也更为精确且高效。

(2)提出了一种结合类别感知的具有双向且逐层递进的高效特征聚合结构。类别感知指对候选框先进行分类，再逐类进行更精确的候选框特征聚合，有效避免了不相关类的噪声信息干扰以及冗余的聚合计算。双向即局部帧的选取既考虑到当前帧的前向部分帧，也可使用当前帧的后向部分帧，从而能够充分使用前后帧的时序信息；使用逐层递进的聚合方式是考虑到在时序上邻近的帧更具有目标一致性，因此使用逐层递进的方式可以使得聚合更加精确且高效。除此之外，前、后向聚合时产生的中间特征更新下一帧聚合所使用的部分支持帧特征，从而实现更加长期的时序信息利用。

(3)在对同一帧中的不同类别候选框进行空间上关系建模时，提出了一种新的几何相似度计算方式，使得候选框获得更多空间上的上下文信息。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的流程框图。

具体实施方式

如图1所示，本发明提供了一种基于类别感知特征聚合的视频目标检测方法，其中由视频目标检测主干和四个模块构成。检测主干ResNet-101对视频帧进行特征提取，获得高层语义信息，随后使用区域生成网络RPN为每一帧生成目标候选框。在此期间，对于当前帧和局部帧的处理有所不同，在提取特征后使用特征层运动对齐模块将当前帧和局部帧的特征进行可形变对齐，实现细粒度的亚像素级特征传播。随后，使用候选框分类模块对生成的候选框进行分类操作，后续仅对具有相同类标签的候选框进行特征聚合。在进行类别感知特征聚合时，使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧。进一步使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模。最后，将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。其中：

如图1中FMA模块所示，其中F_t代表当前帧特征图，F_t+s、F_t-s代表局部帧特征图。在可形变对齐中，使用可形变卷积分别将F_t+s、F_t-s与F_t进行逐像素点位置p对齐。其数学公式可表示为：

代表对齐后的特征，Δp_k是对F_t+s与F_t进行一系列卷积预测出的运动偏移量。

最后，将当前帧和各个局部帧对齐后的特征

和

为了使得特征聚合时尽量使用最相关的有效信息，在特征聚合模块之前插入一个候选框分类器。该分类器将RPN生成的候选框分类为不同类别或背景，随后仅对具有相同类别标签的候选框进行实例级的特征聚合，有效避免了不相关类的噪声信息干扰，使得特征聚合过程更加高效。

为了获得更多长期的时序信息，当前帧将从全局帧、局部帧、以及前后双向的支持帧中获取相关信息进行特征聚合。其中全局帧由打乱的视频帧中随机选取而来；局部帧为当前帧的邻近几帧；支持帧来自前后双向的记忆模块，其中前向部分存储的是先前帧计算出的中间聚合特征，后向部分则是选取与当前帧间隔较远的之后部分帧。除此之外，考虑到在视频帧顺序上相邻近的帧更具有目标一致性，因此采用逐层递进的聚合方式可以使得聚合效果更充分且精确，具体聚合顺序如图1中广范围逐层递进特征聚合模块所示。

则可由如下公式表示聚合增强过程：

其中

代表边界框B_k与B_i间的语义特征相似度，其中

其中θ(·)为一般变换函数，δ(·)为位置嵌入操作，将原始的低维几何相似度g_k,i嵌入到深度检测网络的高维表示中，以边界框B_i为例，其几何信息可以表示为B_i＝(x_i,y_i,w_i,h_i),其中x_i,y_i为候选框B_i的边框中心坐标，w_i和h_i分别代表边框的宽和高。利用几何信息和外观信息，可以缓解融合过程中噪声引起的信息失真问题。

由于进行了类别感知的候选框特征聚合处理方式，因此同一帧上不同类别的候选框之间并未进行特征聚合，但由于同一帧上的目标在空间位置上存在上下文信息，因此对同一帧上不同类别的候选框进行空间关系建模是有必要的，通过嵌入额外的候选框位置和形状信息以建立空间拓扑关系，其具体的计算方式同公式(4)。

实验使用到的数据集为ImageNet ILSVRC2015-VID，其中包含30个基本类别，训练集共有3862个视频片段，总帧数超过112万。

经实验结果验证后，本研究所提出的创新方法对检测效果有所提升。表1为消融实验结果，其中FMA、WPFA、CRM分别代表上述三个可提升检测效果的模块，可看出每个模块都带来了检测性能的提升，相比于基线方法，本方法提升了1.8％mAP。

表1不同模块之间的消融实验结果

方法	FMA	WPFA	CRM	mAP(％)
					(a)			81.8
(b)	√			82.6
					(c)	√	√	83.0
(d)	√	√	√	83.6

表2为本方法与目前的State-of-the-art(SOTA)方法的比较结果，可看出本方法相比于MEGA提升了0.7％mAP，虽然本方法的检测精度相较于CFA-Net略有不足，但由于CFA-Net使用了复杂且计算量庞大的特征聚合方式，因此使得检测速度大大降低。

表2与其他方法在ImageNet VID数据集上的实验结果比较

方法	主干	基础检测器	mAP(％)
				FGFA	ResNet-101	R-FCN	76.3
D&T	ResNet-101	R-FCN	75.8
				MANet<sup>[7]</sup>	ResNet-101	R-FCN	78.1
SELSA<sup>[8]</sup>	ResNet-101	Faster R-CNN	82.7
				MEGA	ResNet-101	Faster R-CNN	82.9
HVRNet	ResNet-101	Faster R-CNN	83.2
				CFA-Net<sup>[5]</sup>	ResNet-101	Faster R-CNN	85.0
我们的方法	ResNet-101	Faster R-CNN	83.6

从表1、表2的结果可以看出，在对精度与速度进行权衡后，本发明提出的基于类别感知特征聚合的视频目标检测方法相比于现有方法可以达到较好的效果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于类别感知特征聚合的视频目标检测方法，其特征在于，包括：

2.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法，其特征在于，所述使用候选框分类模块对生成的候选框进行分类操作之前，还包括：通过特征层运动对齐模块对当前帧进行亚像素级细粒度特征对齐，具体为：在可形变对齐中，使用可形变卷积分别将F_t+s、F_t-s与F_t进行逐像素点位置p对齐，其中F_t代表当前帧特征图，F_t+s、F_t-s代表局部帧特征图，其数学公式可表示为：

最后，将当前帧和各个局部帧对齐后的特征

和

3.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法，其特征在于，所述候选框分类模块将RPN生成的候选框分类为不同类别或背景，随后仅对具有相同类别标签的候选框进行实例级的特征聚合。

4.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法，其特征在于，所述使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作，具体为：

则可由如下公式表示聚合增强过程：

其中

代表边界框B_k与B_i间的语义特征相似度，