CN114612820A - 一种基于类别感知特征聚合的视频目标检测方法 - Google Patents

一种基于类别感知特征聚合的视频目标检测方法 Download PDF

Info

Publication number
CN114612820A
CN114612820A CN202210199529.5A CN202210199529A CN114612820A CN 114612820 A CN114612820 A CN 114612820A CN 202210199529 A CN202210199529 A CN 202210199529A CN 114612820 A CN114612820 A CN 114612820A
Authority
CN
China
Prior art keywords
frame
feature
candidate
layer
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210199529.5A
Other languages
English (en)
Inventor
郑慧诚
陈蔓薇
樊迪威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210199529.5A priority Critical patent/CN114612820A/zh
Publication of CN114612820A publication Critical patent/CN114612820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于类别感知特征聚合的视频目标检测方法,包括:检测主干ResNet‑101对视频帧进行特征提取,获得高层语义信息;利用可形变卷积进行亚像素级的特征对齐,随后使用区域生成网络RPN为每一帧生成目标候选框;使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合;在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作;使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模;将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。本发明使得时序信息和空间位置信息都得到充分利用,从而有效提高视频目标的检测性能。

Description

一种基于类别感知特征聚合的视频目标检测方法
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于类别感知特征聚合的视频目标检测方法。
背景技术
视频目标检测是计算机视觉领域中一个新的研究方向,其主要任务即对视频每一帧中的目标进行正确的分类和定位。基于视频的目标检测任务相比于静态图像的目标检测任务,目标的外观、形状、尺度等属性会随着目标的运动发生变化,因此在检测过程中往往会出现运动模糊、视频失焦、部分遮挡、奇异姿势等检测难点。但由于视频比静态图像多了一个时间维度上的信息,因此在检测过程中如何利用时序信息使得目标保持时间顺序上的目标一致性,从而使目标不会在质量较差的帧上发生丢失,这是视频目标检测任务的主要难点。
近年来出现的视频目标检测方法大多也是在探究时序信息带来的更多提升检测精度的可能性,但仍存在时序信息利用不充分、不精确,使用未对齐的特征提取候选框,未对来自相邻帧的时序信息进行筛选,忽略同帧中目标在空间上的上下文信息等问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一个基于类别感知特征聚合的视频目标检测方法。该方法在特征层级和实例层级两个方面进行双重特征聚合操作,利用帧间运动信息进行特征对齐,提升了帧特征的时空鲁棒一致表达。在实例层级进行同类别、逐层递进的双向特征聚合,避免了不相关类的噪声信息干扰,最后针对同一帧中的不同类别目标,学习其空间位置上的相关性,获得更多上下文信息,使得时序信息和空间位置信息都得到充分利用,从而有效提高视频目标的检测性能。
为实现上述目的,本发明提供了一种基于类别感知特征聚合的视频目标检测方法,包括:
检测主干ResNet-101对视频帧进行特征提取,获得高层语义信息,利用可形变卷积进行亚像素级的特征对齐,随后使用区域生成网络RPN为每一帧生成目标候选框;
使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合;
在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧;
使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模;
将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。
进一步的,所述使用候选框分类模块对生成的候选框进行分类操作之前,还包括:通过特征层运动对齐模块对当前帧进行亚像素级细粒度特征对齐,具体为:在可形变对齐中,使用可形变卷积分别将Ft+s、Ft-s与Ft进行逐像素点位置p对齐,其中Ft代表当前帧特征图,Ft+s、Ft-s代表局部帧特征图,其数学公式可表示为:
Figure BDA0003527004660000031
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格,卷积核的权重用w表示,pk代表卷积核中的第k个采样偏移量,输出
Figure BDA0003527004660000032
代表对齐后的特征,Δpk是对Ft+s与Ft进行一系列卷积预测出的运动偏移量;
最后,将当前帧和各个局部帧对齐后的特征
Figure BDA0003527004660000033
Figure BDA0003527004660000034
进行逐元素相加,得到模块的最终输出Ft′,即当前帧进行亚像素级细粒度特征对齐后的特征。
进一步的,所述候选框分类模块将RPN生成的候选框分类为不同类别或背景,随后仅对具有相同类别标签的候选框进行实例级的特征聚合。
进一步的,所述使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,具体为:
对于候选框的聚合,首先需要对候选框间进行关系建模,给定一组候选框集合B={B1,B2,…,Bn},其中每个候选框Bi包含语义和位置信息,假设通过关系建模增强后的候选框特征集合为
Figure BDA0003527004660000041
则可由如下公式表示聚合增强过程:
Figure BDA0003527004660000042
其中γ(·)为一般变换函数,Sk,i表示Bk与Bi候选框层级的相似性,其相似性的计算公式如下:
Figure BDA0003527004660000043
其中
Figure BDA0003527004660000044
代表边界框Bk与Bi间的语义特征相似度,其中
Figure BDA0003527004660000045
和ξ(·)为提取边界框语义特征的网络结构,⊙为点积操作,gk,i为边界框Bk与Bi的几何相似度,其具体计算公式如下:
Figure BDA0003527004660000046
其中θ(·)为一般变换函数,δ(·)为位置嵌入操作,将原始的低维几何相似度gk,i嵌入到深度检测网络的高维表示中,以边界框Bi为例,其几何信息可以表示为Bi=(xi,yi,wi,hi),其中xi,yi为候选框Bi的边框中心坐标,wi和hi分别代表边框的宽和高。
本发明的有益效果是:
(1)提出了一种双重特征聚合方式,即将特征级聚合和实例级聚合相统一的框架。在生成候选框之前,即在特征层级时先利用可形变卷积进行细粒度的亚像素级特征对齐,使得特征图具有更准确的描述且富有更多语义信息,增强了特征的时空一致鲁棒表达,从而能够生成更高质量的候选区域框,后续进行的实例级的候选框特征聚合也更为精确且高效。
(2)提出了一种结合类别感知的具有双向且逐层递进的高效特征聚合结构。类别感知指对候选框先进行分类,再逐类进行更精确的候选框特征聚合,有效避免了不相关类的噪声信息干扰以及冗余的聚合计算。双向即局部帧的选取既考虑到当前帧的前向部分帧,也可使用当前帧的后向部分帧,从而能够充分使用前后帧的时序信息;使用逐层递进的聚合方式是考虑到在时序上邻近的帧更具有目标一致性,因此使用逐层递进的方式可以使得聚合更加精确且高效。除此之外,前、后向聚合时产生的中间特征更新下一帧聚合所使用的部分支持帧特征,从而实现更加长期的时序信息利用。
(3)在对同一帧中的不同类别候选框进行空间上关系建模时,提出了一种新的几何相似度计算方式,使得候选框获得更多空间上的上下文信息。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的流程框图。
具体实施方式
如图1所示,本发明提供了一种基于类别感知特征聚合的视频目标检测方法,其中由视频目标检测主干和四个模块构成。检测主干ResNet-101对视频帧进行特征提取,获得高层语义信息,随后使用区域生成网络RPN为每一帧生成目标候选框。在此期间,对于当前帧和局部帧的处理有所不同,在提取特征后使用特征层运动对齐模块将当前帧和局部帧的特征进行可形变对齐,实现细粒度的亚像素级特征传播。随后,使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合。在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧。进一步使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模。最后,将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。其中:
如图1中FMA模块所示,其中Ft代表当前帧特征图,Ft+s、Ft-s代表局部帧特征图。在可形变对齐中,使用可形变卷积分别将Ft+s、Ft-s与Ft进行逐像素点位置p对齐。其数学公式可表示为:
Figure BDA0003527004660000061
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格,卷积核的权重用w表示,pk代表卷积核中的第k个采样偏移量,输出
Figure BDA0003527004660000062
代表对齐后的特征,Δpk是对Ft+s与Ft进行一系列卷积预测出的运动偏移量。
最后,将当前帧和各个局部帧对齐后的特征
Figure BDA0003527004660000063
Figure BDA0003527004660000064
进行逐元素相加,得到模块的最终输出Ft′,即当前帧进行亚像素级细粒度特征对齐后的特征。
为了使得特征聚合时尽量使用最相关的有效信息,在特征聚合模块之前插入一个候选框分类器。该分类器将RPN生成的候选框分类为不同类别或背景,随后仅对具有相同类别标签的候选框进行实例级的特征聚合,有效避免了不相关类的噪声信息干扰,使得特征聚合过程更加高效。
为了获得更多长期的时序信息,当前帧将从全局帧、局部帧、以及前后双向的支持帧中获取相关信息进行特征聚合。其中全局帧由打乱的视频帧中随机选取而来;局部帧为当前帧的邻近几帧;支持帧来自前后双向的记忆模块,其中前向部分存储的是先前帧计算出的中间聚合特征,后向部分则是选取与当前帧间隔较远的之后部分帧。除此之外,考虑到在视频帧顺序上相邻近的帧更具有目标一致性,因此采用逐层递进的聚合方式可以使得聚合效果更充分且精确,具体聚合顺序如图1中广范围逐层递进特征聚合模块所示。
对于候选框的聚合,首先需要对候选框间进行关系建模,给定一组候选框集合B={B1,B2,…,Bn},其中每个候选框Bi包含语义和位置信息,假设通过关系建模增强后的候选框特征集合为
Figure BDA0003527004660000071
则可由如下公式表示聚合增强过程:
Figure BDA0003527004660000072
其中γ(·)为一般变换函数,Sk,i表示Bk与Bi候选框层级的相似性,其相似性的计算公式如下:
Figure BDA0003527004660000081
其中
Figure BDA0003527004660000082
代表边界框Bk与Bi间的语义特征相似度,其中
Figure BDA0003527004660000083
和ξ(·)为提取边界框语义特征的网络结构,⊙为点积操作,gk,i为边界框Bk与Bi的几何相似度,其具体计算公式如下:
Figure BDA0003527004660000084
其中θ(·)为一般变换函数,δ(·)为位置嵌入操作,将原始的低维几何相似度gk,i嵌入到深度检测网络的高维表示中,以边界框Bi为例,其几何信息可以表示为Bi=(xi,yi,wi,hi),其中xi,yi为候选框Bi的边框中心坐标,wi和hi分别代表边框的宽和高。利用几何信息和外观信息,可以缓解融合过程中噪声引起的信息失真问题。
由于进行了类别感知的候选框特征聚合处理方式,因此同一帧上不同类别的候选框之间并未进行特征聚合,但由于同一帧上的目标在空间位置上存在上下文信息,因此对同一帧上不同类别的候选框进行空间关系建模是有必要的,通过嵌入额外的候选框位置和形状信息以建立空间拓扑关系,其具体的计算方式同公式(4)。
实验使用到的数据集为ImageNet ILSVRC2015-VID,其中包含30个基本类别,训练集共有3862个视频片段,总帧数超过112万。
经实验结果验证后,本研究所提出的创新方法对检测效果有所提升。表1为消融实验结果,其中FMA、WPFA、CRM分别代表上述三个可提升检测效果的模块,可看出每个模块都带来了检测性能的提升,相比于基线方法,本方法提升了1.8%mAP。
表1不同模块之间的消融实验结果
方法 FMA WPFA CRM mAP(%)
(a) 81.8
(b) 82.6
(c) 83.0
(d) 83.6
表2为本方法与目前的State-of-the-art(SOTA)方法的比较结果,可看出本方法相比于MEGA提升了0.7%mAP,虽然本方法的检测精度相较于CFA-Net略有不足,但由于CFA-Net使用了复杂且计算量庞大的特征聚合方式,因此使得检测速度大大降低。
表2与其他方法在ImageNet VID数据集上的实验结果比较
方法 主干 基础检测器 mAP(%)
FGFA ResNet-101 R-FCN 76.3
D&T ResNet-101 R-FCN 75.8
MANet<sup>[7]</sup> ResNet-101 R-FCN 78.1
SELSA<sup>[8]</sup> ResNet-101 Faster R-CNN 82.7
MEGA ResNet-101 Faster R-CNN 82.9
HVRNet ResNet-101 Faster R-CNN 83.2
CFA-Net<sup>[5]</sup> ResNet-101 Faster R-CNN 85.0
我们的方法 ResNet-101 Faster R-CNN 83.6
从表1、表2的结果可以看出,在对精度与速度进行权衡后,本发明提出的基于类别感知特征聚合的视频目标检测方法相比于现有方法可以达到较好的效果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (4)

1.一种基于类别感知特征聚合的视频目标检测方法,其特征在于,包括:
检测主干ResNet-101对视频帧进行特征提取,获得高层语义信息,利用可形变卷积进行亚像素级的特征对齐,随后使用区域生成网络RPN为每一帧生成目标候选框;
使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合;
在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧;
使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模;
将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。
2.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法,其特征在于,所述使用候选框分类模块对生成的候选框进行分类操作之前,还包括:通过特征层运动对齐模块对当前帧进行亚像素级细粒度特征对齐,具体为:在可形变对齐中,使用可形变卷积分别将Ft+s、Ft-s与Ft进行逐像素点位置p对齐,其中Ft代表当前帧特征图,Ft+s、Ft-s代表局部帧特征图,其数学公式可表示为:
Figure FDA0003527004650000021
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格,卷积核的权重用w表示,pk代表卷积核中的第k个采样偏移量,输出
Figure FDA0003527004650000022
代表对齐后的特征,Δpk是对Ft+s与Ft进行一系列卷积预测出的运动偏移量;
最后,将当前帧和各个局部帧对齐后的特征
Figure FDA0003527004650000023
Figure FDA0003527004650000024
进行逐元素相加,得到模块的最终输出Ft′,即当前帧进行亚像素级细粒度特征对齐后的特征。
3.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法,其特征在于,所述候选框分类模块将RPN生成的候选框分类为不同类别或背景,随后仅对具有相同类别标签的候选框进行实例级的特征聚合。
4.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法,其特征在于,所述使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,具体为:
对于候选框的聚合,首先需要对候选框间进行关系建模,给定一组候选框集合B={B1,B2,…,Bn},其中每个候选框Bi包含语义和位置信息,假设通过关系建模增强后的候选框特征集合为
Figure FDA0003527004650000025
则可由如下公式表示聚合增强过程:
Figure FDA0003527004650000026
其中γ(·)为一般变换函数,Sk,i表示Bk与Bi候选框层级的相似性,其相似性的计算公式如下:
Figure FDA0003527004650000031
其中
Figure FDA0003527004650000032
代表边界框Bk与Bi间的语义特征相似度,
Figure FDA0003527004650000033
和ξ(·)为提取边界框语义特征的网络结构,⊙为点积操作,gk,i为边界框Bk与Bi的几何相似度,其具体计算公式如下:
Figure FDA0003527004650000034
其中θ(·)为一般变换函数,δ(·)为位置嵌入操作,将原始的低维几何相似度gk,i嵌入到深度检测网络的高维表示中,以边界框Bi为例,其几何信息可以表示为Bi=(xi,yi,wi,hi),其中xi,yi为候选框Bi的边框中心坐标,wi和hi分别代表边框的宽和高。
CN202210199529.5A 2022-03-01 2022-03-01 一种基于类别感知特征聚合的视频目标检测方法 Pending CN114612820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210199529.5A CN114612820A (zh) 2022-03-01 2022-03-01 一种基于类别感知特征聚合的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210199529.5A CN114612820A (zh) 2022-03-01 2022-03-01 一种基于类别感知特征聚合的视频目标检测方法

Publications (1)

Publication Number Publication Date
CN114612820A true CN114612820A (zh) 2022-06-10

Family

ID=81860496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210199529.5A Pending CN114612820A (zh) 2022-03-01 2022-03-01 一种基于类别感知特征聚合的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN114612820A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452931A (zh) * 2023-04-11 2023-07-18 北京科技大学 一种层级敏感的图像特征聚合方法
CN116883907A (zh) * 2023-07-26 2023-10-13 中国信息通信研究院 基于帧间相关性的人工智能检测方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452931A (zh) * 2023-04-11 2023-07-18 北京科技大学 一种层级敏感的图像特征聚合方法
CN116452931B (zh) * 2023-04-11 2024-03-19 北京科技大学 一种层级敏感的图像特征聚合方法
CN116883907A (zh) * 2023-07-26 2023-10-13 中国信息通信研究院 基于帧间相关性的人工智能检测方法和系统

Similar Documents

Publication Publication Date Title
Dong et al. PGA-Net: Pyramid feature fusion and global context attention network for automated surface defect detection
CN111860499B (zh) 一种基于特征分组的双线性卷积神经网络的汽车品牌识别方法
Zhang et al. Self-produced guidance for weakly-supervised object localization
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN108846358B (zh) 一种基于孪生网络进行特征融合的目标跟踪方法
Paris et al. A topological approach to hierarchical segmentation using mean shift
Li et al. Visual tracking via dynamic graph learning
CN107481279B (zh) 一种单目视频深度图计算方法
CN106599836A (zh) 多人脸跟踪方法及跟踪系统
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
Wu et al. Regularized densely-connected pyramid network for salient instance segmentation
CN114612820A (zh) 一种基于类别感知特征聚合的视频目标检测方法
Wang et al. Adaptive feature pyramid networks for object detection
CN103903013A (zh) 一种无标记平面物体识别的优化算法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN112613350A (zh) 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法
Guo et al. A self-supervised learning framework for road centerline extraction from high-resolution remote sensing images
Cychnerski et al. Clothes detection and classification using convolutional neural networks
CN106250909A (zh) 一种基于改进视觉词袋模型的图像分类方法
Meng et al. Constrained directed graph clustering and segmentation propagation for multiple foregrounds cosegmentation
CN107895379A (zh) 一种视频监控中前景提取的改进算法
Zhang et al. High-quality face image generation based on generative adversarial networks
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN110580462B (zh) 一种基于非局部网络的自然场景文本检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination