CN114612820A - 一种基于类别感知特征聚合的视频目标检测方法 - Google Patents
一种基于类别感知特征聚合的视频目标检测方法 Download PDFInfo
- Publication number
- CN114612820A CN114612820A CN202210199529.5A CN202210199529A CN114612820A CN 114612820 A CN114612820 A CN 114612820A CN 202210199529 A CN202210199529 A CN 202210199529A CN 114612820 A CN114612820 A CN 114612820A
- Authority
- CN
- China
- Prior art keywords
- frame
- feature
- candidate
- layer
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 60
- 238000004220 aggregation Methods 0.000 title claims abstract description 60
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 230000000750 progressive effect Effects 0.000 claims abstract description 15
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100031706 Fibroblast growth factor 1 Human genes 0.000 description 1
- 101000846416 Homo sapiens Fibroblast growth factor 1 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于类别感知特征聚合的视频目标检测方法,包括:检测主干ResNet‑101对视频帧进行特征提取,获得高层语义信息;利用可形变卷积进行亚像素级的特征对齐,随后使用区域生成网络RPN为每一帧生成目标候选框;使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合;在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作;使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模;将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。本发明使得时序信息和空间位置信息都得到充分利用,从而有效提高视频目标的检测性能。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于类别感知特征聚合的视频目标检测方法。
背景技术
视频目标检测是计算机视觉领域中一个新的研究方向,其主要任务即对视频每一帧中的目标进行正确的分类和定位。基于视频的目标检测任务相比于静态图像的目标检测任务,目标的外观、形状、尺度等属性会随着目标的运动发生变化,因此在检测过程中往往会出现运动模糊、视频失焦、部分遮挡、奇异姿势等检测难点。但由于视频比静态图像多了一个时间维度上的信息,因此在检测过程中如何利用时序信息使得目标保持时间顺序上的目标一致性,从而使目标不会在质量较差的帧上发生丢失,这是视频目标检测任务的主要难点。
近年来出现的视频目标检测方法大多也是在探究时序信息带来的更多提升检测精度的可能性,但仍存在时序信息利用不充分、不精确,使用未对齐的特征提取候选框,未对来自相邻帧的时序信息进行筛选,忽略同帧中目标在空间上的上下文信息等问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一个基于类别感知特征聚合的视频目标检测方法。该方法在特征层级和实例层级两个方面进行双重特征聚合操作,利用帧间运动信息进行特征对齐,提升了帧特征的时空鲁棒一致表达。在实例层级进行同类别、逐层递进的双向特征聚合,避免了不相关类的噪声信息干扰,最后针对同一帧中的不同类别目标,学习其空间位置上的相关性,获得更多上下文信息,使得时序信息和空间位置信息都得到充分利用,从而有效提高视频目标的检测性能。
为实现上述目的,本发明提供了一种基于类别感知特征聚合的视频目标检测方法,包括:
检测主干ResNet-101对视频帧进行特征提取,获得高层语义信息,利用可形变卷积进行亚像素级的特征对齐,随后使用区域生成网络RPN为每一帧生成目标候选框;
使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合;
在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧;
使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模;
将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。
进一步的,所述使用候选框分类模块对生成的候选框进行分类操作之前,还包括:通过特征层运动对齐模块对当前帧进行亚像素级细粒度特征对齐,具体为:在可形变对齐中,使用可形变卷积分别将Ft+s、Ft-s与Ft进行逐像素点位置p对齐,其中Ft代表当前帧特征图,Ft+s、Ft-s代表局部帧特征图,其数学公式可表示为:
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格,卷积核的权重用w表示,pk代表卷积核中的第k个采样偏移量,输出代表对齐后的特征,Δpk是对Ft+s与Ft进行一系列卷积预测出的运动偏移量;
进一步的,所述候选框分类模块将RPN生成的候选框分类为不同类别或背景,随后仅对具有相同类别标签的候选框进行实例级的特征聚合。
进一步的,所述使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,具体为:
对于候选框的聚合,首先需要对候选框间进行关系建模,给定一组候选框集合B={B1,B2,…,Bn},其中每个候选框Bi包含语义和位置信息,假设通过关系建模增强后的候选框特征集合为则可由如下公式表示聚合增强过程:
其中γ(·)为一般变换函数,Sk,i表示Bk与Bi候选框层级的相似性,其相似性的计算公式如下:
其中θ(·)为一般变换函数,δ(·)为位置嵌入操作,将原始的低维几何相似度gk,i嵌入到深度检测网络的高维表示中,以边界框Bi为例,其几何信息可以表示为Bi=(xi,yi,wi,hi),其中xi,yi为候选框Bi的边框中心坐标,wi和hi分别代表边框的宽和高。
本发明的有益效果是:
(1)提出了一种双重特征聚合方式,即将特征级聚合和实例级聚合相统一的框架。在生成候选框之前,即在特征层级时先利用可形变卷积进行细粒度的亚像素级特征对齐,使得特征图具有更准确的描述且富有更多语义信息,增强了特征的时空一致鲁棒表达,从而能够生成更高质量的候选区域框,后续进行的实例级的候选框特征聚合也更为精确且高效。
(2)提出了一种结合类别感知的具有双向且逐层递进的高效特征聚合结构。类别感知指对候选框先进行分类,再逐类进行更精确的候选框特征聚合,有效避免了不相关类的噪声信息干扰以及冗余的聚合计算。双向即局部帧的选取既考虑到当前帧的前向部分帧,也可使用当前帧的后向部分帧,从而能够充分使用前后帧的时序信息;使用逐层递进的聚合方式是考虑到在时序上邻近的帧更具有目标一致性,因此使用逐层递进的方式可以使得聚合更加精确且高效。除此之外,前、后向聚合时产生的中间特征更新下一帧聚合所使用的部分支持帧特征,从而实现更加长期的时序信息利用。
(3)在对同一帧中的不同类别候选框进行空间上关系建模时,提出了一种新的几何相似度计算方式,使得候选框获得更多空间上的上下文信息。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的流程框图。
具体实施方式
如图1所示,本发明提供了一种基于类别感知特征聚合的视频目标检测方法,其中由视频目标检测主干和四个模块构成。检测主干ResNet-101对视频帧进行特征提取,获得高层语义信息,随后使用区域生成网络RPN为每一帧生成目标候选框。在此期间,对于当前帧和局部帧的处理有所不同,在提取特征后使用特征层运动对齐模块将当前帧和局部帧的特征进行可形变对齐,实现细粒度的亚像素级特征传播。随后,使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合。在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧。进一步使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模。最后,将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。其中:
如图1中FMA模块所示,其中Ft代表当前帧特征图,Ft+s、Ft-s代表局部帧特征图。在可形变对齐中,使用可形变卷积分别将Ft+s、Ft-s与Ft进行逐像素点位置p对齐。其数学公式可表示为:
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格,卷积核的权重用w表示,pk代表卷积核中的第k个采样偏移量,输出代表对齐后的特征,Δpk是对Ft+s与Ft进行一系列卷积预测出的运动偏移量。
为了使得特征聚合时尽量使用最相关的有效信息,在特征聚合模块之前插入一个候选框分类器。该分类器将RPN生成的候选框分类为不同类别或背景,随后仅对具有相同类别标签的候选框进行实例级的特征聚合,有效避免了不相关类的噪声信息干扰,使得特征聚合过程更加高效。
为了获得更多长期的时序信息,当前帧将从全局帧、局部帧、以及前后双向的支持帧中获取相关信息进行特征聚合。其中全局帧由打乱的视频帧中随机选取而来;局部帧为当前帧的邻近几帧;支持帧来自前后双向的记忆模块,其中前向部分存储的是先前帧计算出的中间聚合特征,后向部分则是选取与当前帧间隔较远的之后部分帧。除此之外,考虑到在视频帧顺序上相邻近的帧更具有目标一致性,因此采用逐层递进的聚合方式可以使得聚合效果更充分且精确,具体聚合顺序如图1中广范围逐层递进特征聚合模块所示。
对于候选框的聚合,首先需要对候选框间进行关系建模,给定一组候选框集合B={B1,B2,…,Bn},其中每个候选框Bi包含语义和位置信息,假设通过关系建模增强后的候选框特征集合为则可由如下公式表示聚合增强过程:
其中γ(·)为一般变换函数,Sk,i表示Bk与Bi候选框层级的相似性,其相似性的计算公式如下:
其中θ(·)为一般变换函数,δ(·)为位置嵌入操作,将原始的低维几何相似度gk,i嵌入到深度检测网络的高维表示中,以边界框Bi为例,其几何信息可以表示为Bi=(xi,yi,wi,hi),其中xi,yi为候选框Bi的边框中心坐标,wi和hi分别代表边框的宽和高。利用几何信息和外观信息,可以缓解融合过程中噪声引起的信息失真问题。
由于进行了类别感知的候选框特征聚合处理方式,因此同一帧上不同类别的候选框之间并未进行特征聚合,但由于同一帧上的目标在空间位置上存在上下文信息,因此对同一帧上不同类别的候选框进行空间关系建模是有必要的,通过嵌入额外的候选框位置和形状信息以建立空间拓扑关系,其具体的计算方式同公式(4)。
实验使用到的数据集为ImageNet ILSVRC2015-VID,其中包含30个基本类别,训练集共有3862个视频片段,总帧数超过112万。
经实验结果验证后,本研究所提出的创新方法对检测效果有所提升。表1为消融实验结果,其中FMA、WPFA、CRM分别代表上述三个可提升检测效果的模块,可看出每个模块都带来了检测性能的提升,相比于基线方法,本方法提升了1.8%mAP。
表1不同模块之间的消融实验结果
方法 | FMA | WPFA | CRM | mAP(%) |
(a) | 81.8 | |||
(b) | √ | 82.6 | ||
(c) | √ | √ | 83.0 | |
(d) | √ | √ | √ | 83.6 |
表2为本方法与目前的State-of-the-art(SOTA)方法的比较结果,可看出本方法相比于MEGA提升了0.7%mAP,虽然本方法的检测精度相较于CFA-Net略有不足,但由于CFA-Net使用了复杂且计算量庞大的特征聚合方式,因此使得检测速度大大降低。
表2与其他方法在ImageNet VID数据集上的实验结果比较
方法 | 主干 | 基础检测器 | mAP(%) |
FGFA | ResNet-101 | R-FCN | 76.3 |
D&T | ResNet-101 | R-FCN | 75.8 |
MANet<sup>[7]</sup> | ResNet-101 | R-FCN | 78.1 |
SELSA<sup>[8]</sup> | ResNet-101 | Faster R-CNN | 82.7 |
MEGA | ResNet-101 | Faster R-CNN | 82.9 |
HVRNet | ResNet-101 | Faster R-CNN | 83.2 |
CFA-Net<sup>[5]</sup> | ResNet-101 | Faster R-CNN | 85.0 |
我们的方法 | ResNet-101 | Faster R-CNN | 83.6 |
从表1、表2的结果可以看出,在对精度与速度进行权衡后,本发明提出的基于类别感知特征聚合的视频目标检测方法相比于现有方法可以达到较好的效果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (4)
1.一种基于类别感知特征聚合的视频目标检测方法,其特征在于,包括:
检测主干ResNet-101对视频帧进行特征提取,获得高层语义信息,利用可形变卷积进行亚像素级的特征对齐,随后使用区域生成网络RPN为每一帧生成目标候选框;
使用候选框分类模块对生成的候选框进行分类操作,后续仅对具有相同类标签的候选框进行特征聚合;
在进行类别感知特征聚合时,使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,对于当前帧前、后向计算出的中间结果进行保存并用以更新下一帧计算所使用的支持帧;
使用类间关系建模模块对同一帧上的不同类别目标进行空间位置上的关系建模;
将聚合后的候选框特征输入到全连接层以进行具体类别判别和目标框位置的回归修正。
2.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法,其特征在于,所述使用候选框分类模块对生成的候选框进行分类操作之前,还包括:通过特征层运动对齐模块对当前帧进行亚像素级细粒度特征对齐,具体为:在可形变对齐中,使用可形变卷积分别将Ft+s、Ft-s与Ft进行逐像素点位置p对齐,其中Ft代表当前帧特征图,Ft+s、Ft-s代表局部帧特征图,其数学公式可表示为:
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一个3×3卷积核的规则网格,卷积核的权重用w表示,pk代表卷积核中的第k个采样偏移量,输出代表对齐后的特征,Δpk是对Ft+s与Ft进行一系列卷积预测出的运动偏移量;
3.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法,其特征在于,所述候选框分类模块将RPN生成的候选框分类为不同类别或背景,随后仅对具有相同类别标签的候选框进行实例级的特征聚合。
4.如权利要求1所述的一种基于类别感知特征聚合的视频目标检测方法,其特征在于,所述使用广范围逐层递进特征聚合模块进行双向且逐层递进的候选框层级的特征聚合操作,具体为:
对于候选框的聚合,首先需要对候选框间进行关系建模,给定一组候选框集合B={B1,B2,…,Bn},其中每个候选框Bi包含语义和位置信息,假设通过关系建模增强后的候选框特征集合为则可由如下公式表示聚合增强过程:
其中γ(·)为一般变换函数,Sk,i表示Bk与Bi候选框层级的相似性,其相似性的计算公式如下:
其中θ(·)为一般变换函数,δ(·)为位置嵌入操作,将原始的低维几何相似度gk,i嵌入到深度检测网络的高维表示中,以边界框Bi为例,其几何信息可以表示为Bi=(xi,yi,wi,hi),其中xi,yi为候选框Bi的边框中心坐标,wi和hi分别代表边框的宽和高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210199529.5A CN114612820A (zh) | 2022-03-01 | 2022-03-01 | 一种基于类别感知特征聚合的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210199529.5A CN114612820A (zh) | 2022-03-01 | 2022-03-01 | 一种基于类别感知特征聚合的视频目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114612820A true CN114612820A (zh) | 2022-06-10 |
Family
ID=81860496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210199529.5A Pending CN114612820A (zh) | 2022-03-01 | 2022-03-01 | 一种基于类别感知特征聚合的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612820A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116883907A (zh) * | 2023-07-26 | 2023-10-13 | 中国信息通信研究院 | 基于帧间相关性的人工智能检测方法和系统 |
-
2022
- 2022-03-01 CN CN202210199529.5A patent/CN114612820A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116883907A (zh) * | 2023-07-26 | 2023-10-13 | 中国信息通信研究院 | 基于帧间相关性的人工智能检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | PGA-Net: Pyramid feature fusion and global context attention network for automated surface defect detection | |
CN111860499B (zh) | 一种基于特征分组的双线性卷积神经网络的汽车品牌识别方法 | |
Zhang et al. | Self-produced guidance for weakly-supervised object localization | |
CN107657279B (zh) | 一种基于少量样本的遥感目标检测方法 | |
CN108846358B (zh) | 一种基于孪生网络进行特征融合的目标跟踪方法 | |
Paris et al. | A topological approach to hierarchical segmentation using mean shift | |
Li et al. | Visual tracking via dynamic graph learning | |
CN107481279B (zh) | 一种单目视频深度图计算方法 | |
CN106599836A (zh) | 多人脸跟踪方法及跟踪系统 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
Wu et al. | Regularized densely-connected pyramid network for salient instance segmentation | |
CN114612820A (zh) | 一种基于类别感知特征聚合的视频目标检测方法 | |
Wang et al. | Adaptive feature pyramid networks for object detection | |
CN103903013A (zh) | 一种无标记平面物体识别的优化算法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN112613350A (zh) | 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法 | |
Guo et al. | A self-supervised learning framework for road centerline extraction from high-resolution remote sensing images | |
Cychnerski et al. | Clothes detection and classification using convolutional neural networks | |
CN106250909A (zh) | 一种基于改进视觉词袋模型的图像分类方法 | |
Meng et al. | Constrained directed graph clustering and segmentation propagation for multiple foregrounds cosegmentation | |
CN107895379A (zh) | 一种视频监控中前景提取的改进算法 | |
Zhang et al. | High-quality face image generation based on generative adversarial networks | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN110580462B (zh) | 一种基于非局部网络的自然场景文本检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |