CN113393435A - 一种基于动态上下文感知滤波网络的视频显著性检测方法 - Google Patents

一种基于动态上下文感知滤波网络的视频显著性检测方法 Download PDF

Info

Publication number
CN113393435A
CN113393435A CN202110653582.3A CN202110653582A CN113393435A CN 113393435 A CN113393435 A CN 113393435A CN 202110653582 A CN202110653582 A CN 202110653582A CN 113393435 A CN113393435 A CN 113393435A
Authority
CN
China
Prior art keywords
video
feature
dynamic
dynamic context
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110653582.3A
Other languages
English (en)
Other versions
CN113393435B (zh
Inventor
张淼
朴永日
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110653582.3A priority Critical patent/CN113393435B/zh
Publication of CN113393435A publication Critical patent/CN113393435A/zh
Application granted granted Critical
Publication of CN113393435B publication Critical patent/CN113393435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于动态上下文感知滤波网络的视频显著性检测方法,包括:根据视频数据集获取视频片段并得到张量;将张量输入特征编码器,得到基于每一帧多尺度的编码特征;针对编码特征,通过交错的特征融合层得到更加丰富的特征表示;通过动态上下文感知滤波模块,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;动态融合不同阶段的空间特征和动态上下文感知滤波模块的时间特征,得到最终显著性预测结果。本发明构建了基于动态上下文感知滤波网络的视频显著性检测模型,利用动态上下文感知滤波模块和动态时空信息交互机制,在很多有挑战性的场景都能取得准确的预测结果。

Description

一种基于动态上下文感知滤波网络的视频显著性检测方法
技术领域
本发明涉及到计算机视觉领域,具体为一种基于动态上下文感知滤波网络的视频显著性检测方法。
背景技术
显著性检测是指在一幅图像里,旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体,由于在场景中选择最具视觉特征的信息,在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟,在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界,比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄,再对其进行处理得到所关注的商品的详细信息等;还有视频和图像的压缩,尤其是视频的压缩,通过显著性检测将足够的带宽分配给重要的目标区域,而对于一些信息量较少的背景等区域则分配较小的带宽比例等。在学术界,例如在物体的跟踪识别中进行显著性检测,剔除掉其余场景信息从而直接获得运动物体的运行轨迹;还有图像检索,主要是利用显著性目标区域的信息以及其所位于的空间分布情况,来进行多个图片之间的匹配和搜索,因此显著性算法在图像检索中,具有非常重要的作用和意义。此外还有场景分类,姿势估计等领域,显著性检测都占据着十分重要的地位。
根据输入形式的不同,显著性检测可以分为两大种类:静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像;3D显著性检测的输入包括RGB彩色图像和与其相对应的深度图像;4D光场显著性检测的输入是光场图像,包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入,相较于2D显著性检测多了时间维度的信息需要考虑。
2D显著性检测方法是最为常见的基于静态图像的显著性检测方法,它采用图像对比度,颜色,纹理等信息来进行检测,虽然在现有的2D显著性检测数据库上取得了很好的检测结果,但是它们在复杂场景下,仍然存在着错检和漏检的问题。同时由于缺少对时间维度信息的考虑,它们也很难在视频数据集上有较好的表现。
与静态RGB图像或深度信息相比,考虑到附加时间维度带来的大量时空数据,将2D显著性检测简单地应用于基于视频的SOD任务不可避免地会导致不正确的显著性预测。近些年提出的一些优秀的视频显著性目标检测方法可分为三类:基于3D卷积的方法,基于长短期记忆网络(ConvLSTM)的方法和基于光流的方法,但是它们仍然存在着以下两个问题:首先,它们在推理过程中采用固定参数层,不能适应动态的现实环境。其次,先前诸如3D卷积之类的方法不加选择地对空间和时间特征进行融合,这不可避免地对显著性推断结果造成误导。由于以上两个问题的存在,视频显著性目标检测方法的准确率仍然有待提升。
发明内容
针对目前视频显著性检测方法仍采用固定参数层对显著性结果进行推理,难以适应动态变化的视频场景的问题,本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法,利用视频信息进行显著性检测,并通过动态上下文感知滤波网络优化更新,实现了动态视频场景下高质量的显著性检测。
为此,本发明提供了以下技术方案:
本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法,包括如下步骤:
A、根据视频数据集获取视频片段并得到张量;
B、将所述张量输入特征编码器,通过所述特征编码器得到基于每一帧多尺度的编码特征;
C、针对所述编码特征,通过交错的特征融合层得到更加丰富的特征表示;
D、通过互补感知时空解码器对所述更加丰富的特征表示进行特征解码,得到最终显著性预测结果,包括:
D1、通过动态上下文感知滤波模块,采用动态滤波机制和全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;
所述动态滤波机制包括:在连续两帧的特征图Ft-1,Ft之间使用卷积以获得增强的特征表示
Figure BDA0003112835790000031
然后从中生成动态内核Kt;接着将特征图Ft与生成的动态内核Kt进行卷积运算,通过并行布置D个动态滤波单元,并以不同膨胀率d进行卷积,获得特定于尺度的特征表示
Figure BDA0003112835790000032
所述全局注意力机制包括:获得特定于各个尺度特征图的贡献指数
Figure BDA0003112835790000033
接着将所获得的d个
Figure BDA0003112835790000034
进行softmax归一化操作得到
Figure BDA0003112835790000035
再与对应的原尺度特征
Figure BDA0003112835790000036
进行加权求和,以获得从第t帧的特征Ft到第t-1帧的特征Ft-1的反向输出
Figure BDA0003112835790000037
对从第t+1帧的特征Ft+1到第t帧的特征Ft采用同样的操作可获得前向输出
Figure BDA0003112835790000038
最终对反向输出
Figure BDA0003112835790000039
和前向输出
Figure BDA00031128357900000310
进行级联和通道变换可得到动态上下文感知滤波模块的最终输出
Figure BDA00031128357900000311
D2、在多个阶段以渐进的方式动态融合通过交错的特征融合层得到的更加丰富的特征表示
Figure BDA00031128357900000312
和动态上下文感知滤波模块的时间特征
Figure BDA00031128357900000313
表示如下:
Figure BDA00031128357900000314
Figure BDA00031128357900000315
其中α为控制因子,p表示第p个阶段;
利用多阶段的融合得到每个阶段的显著性特征{S1,S2,S3,S4},最终的显著性结果Sfinal由{S1,S2,S3,S4}进行级联和通道变换得到。
进一步地,步骤A包括:
根据视频数据集划分具有固定数量连续视频帧的视频片段,每个视频片段具有连续的T帧图像;
对视频训练集中的每个视频片段进行数据增强,包括:将所述视频片段中的T帧RGB和GT图像帧对调整大小到H×W;使用随机概率的随机翻转;对增强后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It
将视频测试集中的每个视频片段调整大小到H×W;对调整后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;其中,mean和std为超参数,表示进行归一化操作的均值和方差。
进一步地,所述T取4;所述H×W取448×448。
进一步地,所述mean取[0.485,0.456,0.406],所述std取[0.229,0.224,0.225]。
进一步地,所述特征编码器为ResNet架构,并丢弃最后两层以保留空间结构,然后将其替换为空洞空间金字塔池层,以提取多尺度上下文信息;所述特征编码器针对每一帧图像生成4个具有不同空间分辨率和通道数的特征图。
进一步地,所述ResNet架构为ResNet-101架构,其中将第4个Bottleneck的下采样操作换为步长为1,空洞率为2的卷积操作,在保留空间分辨率的同时增大感受野,同时去掉了最后的全连接层。
进一步地,步骤D1中,动态内核Kt的大小皆为3×3,不同的膨胀率d设置为1、3、5。
进一步地,步骤C包括:
在所述交错的特征融合层里,采用4个不同尺度的特征作为输入;
对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率;
对所有变换后的不同空间分辨率的特征,采用像素级的加和得到融合后的更加丰富的特征表示。
进一步地,对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率,包括:
对每一个尺度的特征采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率,采用卷积核为3×3和步长为s的卷积层,下采样到更小的空间分辨率,采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率。
进一步地,步长s按下采样后的尺度取2或者4。
本发明提供的上述技术方案具有以下有益效果:
本发明提出了一种基于动态上下文感知滤波网络的视频显著性检测方法,该方法考虑了动态视频场景中相邻帧之间的相干性。首先通过特征编码器得到基于每一帧多尺度的编码特征,并通过一个交错的特征融合层得到更为丰富的多层级特征;紧接着使用一个动态上下文感知滤波模块,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,以对时间相关性进行建模,得到包含有相邻帧信息的时间特征,适应动态变化场景。其次,为了避免对最终显著性结果产生误导,方法中对每个阶段生成的时间特征以及空间特征采用控制因子进行了动态分配,最终加权求和得到当前阶段的时空特征,考虑到了时间特征和空间特征之间的互补性和相互作用性。实验结果表明,本发明提出的基于动态上下文感知滤波网络的视频显著性检测方法对于很多动态变化的视频场景都能取得准确的预测结果。
基于上述理由本发明可在计算机视觉领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是视频场景示意图;
图2是本发明实施例一种基于动态上下文感知滤波网络的视频显著性检测方法的流程图;
图3是本发明实施例中动态上下文感知滤波模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2,其示出了本发明实施例中一种基于动态上下文感知滤波网络的视频显著性检测方法的流程图,该方法包括如下步骤:
A、根据视频数据集获取视频片段,并得到张量It,t=1,2,…,T。
步骤A具体包括:
A1、获取视频片段:
根据视频数据集划分具有固定数量连续视频帧的视频片段;
根据每个视频数据集包含的视频帧RGB原图以及对应的显著性真值GT(如图1所示),将视频划分为多个视频片段,每个视频片段具有连续的T帧图像;
A2、对每个视频片段得到T个张量It,t=1,2,…,T:
对视频训练集中的视频片段进行数据增强,首先对此T帧的RGB原图和GT图像帧对采用尺度为s、比例为r的随机裁剪策略,调整大小到H×W(本方法采用的图像分辨率为448×448),接着使用随机概率的随机翻转;对增强后的RGB图像帧首先转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It
对视频测试集中的视频片段调整大小到H×W(本方法采用的图像分辨率为448×448),接着对调整后的RGB图像帧首先转变为网络可处理的张量,再进行均值为mean、方差为std的归一化操作,得到T个张量It,此处T设置为4;
其中,归一化操作定义如下:
Figure BDA0003112835790000071
其中,IinPut为归一化前的RGB图像帧,Iout为归一化后的张量It,用以输入特征编码器;mean和std为超参数,表示进行归一化操作的均值和方差,本实施例中mean取[0.485,0.456,0.406],std取[0.229,0.224,0.225]。
B、通过特征编码器得到基于每一帧多尺度的编码特征
Figure BDA0003112835790000072
步骤B具体包括:
B1、将所得张量It输入特征编码器:
所采用的特征编码器为ResNet-101架构,其中将其第4个Bottleneck的下采样操作换为步长为1,空洞率为2的卷积操作,在保留空间分辨率的同时增大感受野,同时去掉了最后的全连接层。
B2、得到多尺度的编码特征
Figure BDA0003112835790000073
特征编码器会针对每一帧图像生成4个具有不同空间分辨率和通道数的多尺度的特征图,也即
Figure BDA0003112835790000074
其分辨率及通道数(W×H×C)分别为
Figure BDA0003112835790000075
Figure BDA0003112835790000081
C、通过交错的特征融合层得到更加丰富的特征表示
Figure BDA0003112835790000082
Figure BDA0003112835790000083
步骤C具体包括:
C1、将每个尺度的特征
Figure BDA0003112835790000084
调整空间分辨率到4个尺度:
在交错的特征融合层里,采用所述的4个不同尺度的特征
Figure BDA0003112835790000085
Figure BDA0003112835790000086
作为输入;
对于每一个
Figure BDA0003112835790000087
利用卷积操作和上采样操作将其转换到4个不同的空间分辨率,具体为:
Figure BDA0003112835790000088
采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率,目的是将具有小分辨率的较高级输入特征映射到大分辨率的特征,再与低级特征进行融合;采用卷积核为3×3和步长为s的卷积层,下采样到更小的空间分辨率,目的是将具有大分辨率的较低级输入特征映射到小分辨率的特征,以与高级特征进行融合;采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率,以进行相同分辨率特征间的特征映射;
C2、对所有变换后的不同空间分辨率的特征,采用像素级的加和得到融合后的更加丰富的特征表示
Figure BDA0003112835790000089
对于第t帧的特征
Figure BDA00031128357900000810
都由步骤C1中已进行空间分辨率变换后的特征采用像素级加和得到。如
Figure BDA00031128357900000811
则由
Figure BDA00031128357900000812
各自都变换到
Figure BDA00031128357900000813
的空间分辨率大小,再进行像素级加和得到,其余
Figure BDA00031128357900000814
由相似方式得到。整体过程可被表示为:
Figure BDA00031128357900000815
其中,Cw×h,s表示卷积和长宽为w和h,步长为s的卷积操作,Ups表示scale factor为s的双线性插值上采样操作。
D、通过互补感知时空解码器对特征
Figure BDA0003112835790000091
进行特征解码,得到最终显著性预测结果。
互补感知时空解码器中包括动态上下文感知滤波模块,其包括如下具体步骤:
D1、动态上下文感知滤波:
为了适应动态的视频场景,选择引入动态过滤机制。通过动态上下文感知滤波模块,多个动态滤波器能被有效的组合以选择最具判别性的特征表示。
参见图3,其示出了本发明提出的动态上下文感知滤波模块(DCFM模块)的结构示意图。在DCFM模块中,对于当前关键帧(第t帧)在第p阶段的特征Ft→p,通过动态卷积的方式,可以将其相邻帧的特征Ft-1和Ft+1以动态核的方式,编码进当前帧中,以获得连续帧的时间信息。其具体方式为采用不同膨胀率的动态空洞卷积单元以获得多尺度的特征,由于不同膨胀率的动态空洞卷积所获得的特征具有不同的感受野,也就更易捕获更为丰富的帧间相关性;此外,通过全局注意力机制(GA)对此多尺度特征进行权重分配,以自适应的衡量不同尺度的特征对当前帧显著性预测的贡献程度,得到更为准确的预测结果。
步骤D1具体包括:
以具有不同膨胀率的金字塔结构使用动态滤波机制。首先在连续两帧的特征图Ft-1,Ft之间使用矩阵乘和卷积操作,以获得增强的特征表示
Figure BDA0003112835790000092
然后从中生成动态内核Kt,此处获得的动态内核Kt的大小皆为3×3。接着将特征图Ft与生成的动态内核Kt进行卷积运算,通过并行布置D个动态滤波单元,并以不同膨胀率d进行卷积,可以获得特定于尺度的特征表示
Figure BDA0003112835790000093
可被表示为:
Figure BDA0003112835790000094
Figure BDA0003112835790000095
Figure BDA0003112835790000096
Figure BDA0003112835790000101
Figure BDA0003112835790000102
Figure BDA0003112835790000103
Figure BDA0003112835790000104
其中C1×1,1表示卷积核为1×1,步长为1的卷积操作,AvgPool表示自适应均值池化操作,且均池化到3×3大小,d表示膨胀率。
Figure BDA0003112835790000105
表示矩阵乘操作,上标T表示矩阵转置操作;DConv表示膨胀率为d,卷积核为Kt的动态卷积操作,Kt表示生成的动态内核;其中动态滤波单元个数D为3,膨胀率d分别为1,3,5;
接着在获得的多尺度特征
Figure BDA0003112835790000106
上应用注意力机制。首先对获得的多尺度特征
Figure BDA0003112835790000107
各自采用全局注意力机制,获得特定于各个尺度特征图的贡献指数
Figure BDA0003112835790000108
接着将所获得的d个
Figure BDA0003112835790000109
进行softmax归一化操作得到
Figure BDA00031128357900001010
再与对应的原尺度特征
Figure BDA00031128357900001011
进行加权求和,以获得从第t帧的特征Ft到第t-1帧的特征Ft-1的反向输出
Figure BDA00031128357900001012
对从第t+1帧的特征Ft+1到第t帧的特征Ft采用同样的操作可获得前向输出
Figure BDA00031128357900001013
最终对反向输出
Figure BDA00031128357900001014
和前向输出
Figure BDA00031128357900001015
进行级联和通道变换可得到动态上下文感知滤波模块的最终输出
Figure BDA00031128357900001016
过程可表示为:
Figure BDA00031128357900001017
Figure BDA00031128357900001018
Figure BDA00031128357900001019
Figure BDA00031128357900001020
其中Linear表示全连接层变换操作,变换后的通道数为1,Cw×h,s表示卷积和长宽为w和h,步长为s的卷积操作,AvgPool表示自适应均值池化操作,且均池化到1×1大小,d表示膨胀率,Cat表示级联操作。
D2、动态互补感知融合:
采用互补感知的融合策略对所提取到的时间特征和空间特征在多个阶段以渐进的方式进行动态融合,有效的考虑到了时间特征和空间特征之间的互补性和相互作用性,也有效提高了显著性预测的准确率。
在多个阶段以渐进的方式动态融合通过交错的特征融合层得到的更加丰富的特征表示
Figure BDA0003112835790000111
和动态上下文感知滤波模块的时间特征
Figure BDA0003112835790000112
可表示如下:
Figure BDA0003112835790000113
Figure BDA0003112835790000114
其中Linear表示全连接层变换操作,变换后的通道数为1;α为控制因子,p表示第p个阶段;此外利用多阶段的融合可得到每个阶段的显著性特征{S1,S2,S3,S4},最终的显著性结果Sfinal由{S1,S2,S3,S4}进行级联和通道变换得到。具体可表示如下:
Figure BDA0003112835790000115
其中Linear表示全连接层变换操作,变换后的通道数为1,Cw×h,s表示卷积和长宽为w和h,步长为s的卷积操作;Ups表示scale factor为s的双线性插值上采样操作,Cat表示级联操作。
通过动态上下文感知滤波模块和互补感知融合策略,所提出的基于动态上下文感知滤波网络的视频显著性检测实现方法能有效的提升现实动态变化场景中的视频显著性检测鲁棒性。
E、动态上下文感知滤波网络的训练及优化:
本方法整体可分为训练和推理两个阶段,在训练时以训练集的张量作为输入,得到训练好的网络参数;在推理阶段使用训练阶段保存的参数进行测试,得到最终的显著性预测结果。
本发明实施例在Pytorch框架下实现,其中训练阶段时使用ADAM优化器,学习率为1e-5,β1=0.9,β2=0.999,并且批处理大小1。在训练期间,图像的空间分辨率为448×448,但是模型可以是在测试时以全卷积方式应用于任意分辨率。
本发明实施例提出的基于动态上下文感知滤波网络的视频显著性检测方法,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,以对时间相关性进行建模,得到包含有相邻帧信息的时间特征;适应动态变化场景。其次,为了避免对最终显著性结果产生误导,本发明中采用动态互补感知融合方式,对每个阶段生成的时间特征以及空间特征采用控制因子进行了动态分配,最终加权求和得到当前阶段的时空特征,考虑到了时间特征和空间特征之间的互补性和相互作用性。实验结果表明,本发明提出的基于动态上下文感知滤波网络的视频显著性检测方法对于很多动态变化的视频场景都能取得准确的预测结果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,包括如下步骤:
A、根据视频数据集获取视频片段并得到张量;
B、将所述张量输入特征编码器,通过所述特征编码器得到基于每一帧多尺度的编码特征;
C、针对所述编码特征,通过交错的特征融合层得到更加丰富的特征表示
Figure FDA0003112835780000011
D、通过互补感知时空解码器对所述更加丰富的特征表示进行特征解码,得到最终显著性预测结果,包括:
D1、通过动态上下文感知滤波模块,采用动态滤波机制和全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;
所述动态滤波机制包括:在连续两帧的特征图Ft-1,Ft之间使用矩阵乘和卷积操作,以获得增强的特征表示
Figure FDA0003112835780000012
然后从中生成动态内核Kt;接着将特征图Ft与生成的动态内核Kt进行卷积运算,通过并行布置D个动态滤波单元,并以不同膨胀率d进行卷积,获得特定于尺度的特征表示
Figure FDA00031128357800000114
所述全局注意力机制包括:获得特定于各个尺度特征图的贡献指数
Figure FDA00031128357800000113
接着将所获得的d个
Figure FDA00031128357800000111
进行softmax归一化操作得到
Figure FDA0003112835780000013
再与对应的原尺度特征
Figure FDA00031128357800000112
进行加权求和,以获得从第t帧的特征Ft到第t-1帧的特征Ft-1的反向输出
Figure FDA0003112835780000014
对从第t+1帧的特征Ft+1到第t帧的特征Ft采用同样的操作可获得前向输出
Figure FDA0003112835780000015
最终对反向输出
Figure FDA0003112835780000016
和前向输出
Figure FDA0003112835780000017
进行级联和通道变换可得到动态上下文感知滤波模块的最终输出
Figure FDA0003112835780000018
D2、在多个阶段以渐进的方式动态融合通过交错的特征融合层得到的更加丰富的特征表示
Figure FDA0003112835780000019
和动态上下文感知滤波模块的时间特征
Figure FDA00031128357800000110
表示如下:
Figure FDA0003112835780000021
Figure FDA0003112835780000022
其中α为控制因子,p表示第p个阶段;
利用多阶段的融合得到每个阶段的显著性特征{S1,S2,S3,S4},最终的显著性结果Sfinal由{S1,S2,S3,S4}进行级联和通道变换得到。
2.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述步骤A包括:
根据视频数据集划分具有固定数量连续视频帧的视频片段,每个视频片段具有连续的T帧图像;
对视频训练集中的每个视频片段进行数据增强,包括:将所述视频片段中的T帧RGB和GT图像帧对调整大小到H×W;使用随机概率的随机翻转;对增强后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It
将视频测试集中的每个视频片段调整大小到H×W;对调整后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;其中,mean和std为超参数,表示进行归一化操作的均值和方差。
3.根据权利要求2所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述T取4;所述H×W取448×448。
4.根据权利要求2所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述mean取[0.485,0.456,0.406],所述std取[0.229,0.224,0.225]。
5.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述特征编码器为ResNet架构,并丢弃最后两层以保留空间结构,然后将其替换为空洞空间金字塔池层,以提取多尺度上下文信息;所述特征编码器针对每一帧图像生成4个具有不同空间分辨率和通道数的特征图。
6.根据权利要求5所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于:所述ResNet架构为ResNet-101架构,其中将第4个Bottleneck的下采样操作换为步长为1,空洞率为2的卷积操作,在保留空间分辨率的同时增大感受野,同时去掉了最后的全连接层。
7.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于:步骤D1中,动态内核Kt的大小皆为3×3,不同的膨胀率d设置为1、3、5。
8.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,步骤C包括:
在所述交错的特征融合层里,采用4个不同尺度的特征作为输入;
对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率;
对所有变换后的不同空间分辨率的特征,采用像素级的加和得到融合后的更加丰富的特征表示。
9.根据权利要求8所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率,包括:
对每一个尺度的特征采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率,采用卷积核为3×3和步长为s的卷积层,下采样到更小的空间分辨率,采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率。
10.根据权利要求9所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于:步长s按下采样后的尺度取2或者4。
CN202110653582.3A 2021-06-11 2021-06-11 一种基于动态上下文感知滤波网络的视频显著性检测方法 Active CN113393435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110653582.3A CN113393435B (zh) 2021-06-11 2021-06-11 一种基于动态上下文感知滤波网络的视频显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110653582.3A CN113393435B (zh) 2021-06-11 2021-06-11 一种基于动态上下文感知滤波网络的视频显著性检测方法

Publications (2)

Publication Number Publication Date
CN113393435A true CN113393435A (zh) 2021-09-14
CN113393435B CN113393435B (zh) 2023-12-26

Family

ID=77620544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110653582.3A Active CN113393435B (zh) 2021-06-11 2021-06-11 一种基于动态上下文感知滤波网络的视频显著性检测方法

Country Status (1)

Country Link
CN (1) CN113393435B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333074A (zh) * 2022-03-14 2022-04-12 南京邮电大学 基于动态轻量高分辨率网络的人体姿态估计方法
CN114549863A (zh) * 2022-04-27 2022-05-27 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784183A (zh) * 2018-12-17 2019-05-21 西北工业大学 基于级联卷积网络和光流的视频显著性目标检测方法
CN110598537A (zh) * 2019-08-02 2019-12-20 杭州电子科技大学 一种基于深度卷积网络的视频显著性检测方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784183A (zh) * 2018-12-17 2019-05-21 西北工业大学 基于级联卷积网络和光流的视频显著性目标检测方法
CN110598537A (zh) * 2019-08-02 2019-12-20 杭州电子科技大学 一种基于深度卷积网络的视频显著性检测方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333074A (zh) * 2022-03-14 2022-04-12 南京邮电大学 基于动态轻量高分辨率网络的人体姿态估计方法
CN114549863A (zh) * 2022-04-27 2022-05-27 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN114549863B (zh) * 2022-04-27 2022-07-22 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法

Also Published As

Publication number Publication date
CN113393435B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN110969577B (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN109379550B (zh) 基于卷积神经网络的视频帧率上变换方法及系统
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN111950649B (zh) 基于注意力机制与胶囊网络的低照度图像分类方法
CN111488932B (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
CN113393435B (zh) 一种基于动态上下文感知滤波网络的视频显著性检测方法
CN113392711B (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN110992414B (zh) 一种基于卷积神经网络的室内单目场景深度估计的方法
CN112560831A (zh) 一种基于多尺度空间校正的行人属性识别方法
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113269054A (zh) 一种基于时空2d卷积神经网络的航拍视频分析方法
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN114463218A (zh) 一种基于事件数据驱动的视频去模糊方法
CN115359370A (zh) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN115293966A (zh) 一种人脸图像重建方法、装置以及存储介质
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
CN114882405A (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant