CN113393435A - 一种基于动态上下文感知滤波网络的视频显著性检测方法 - Google Patents
一种基于动态上下文感知滤波网络的视频显著性检测方法 Download PDFInfo
- Publication number
- CN113393435A CN113393435A CN202110653582.3A CN202110653582A CN113393435A CN 113393435 A CN113393435 A CN 113393435A CN 202110653582 A CN202110653582 A CN 202110653582A CN 113393435 A CN113393435 A CN 113393435A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- dynamic
- dynamic context
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 230000008447 perception Effects 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims 2
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 14
- 238000011176 pooling Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000287196 Asthenes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011796 hollow space material Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于动态上下文感知滤波网络的视频显著性检测方法,包括:根据视频数据集获取视频片段并得到张量;将张量输入特征编码器,得到基于每一帧多尺度的编码特征;针对编码特征,通过交错的特征融合层得到更加丰富的特征表示;通过动态上下文感知滤波模块,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;动态融合不同阶段的空间特征和动态上下文感知滤波模块的时间特征,得到最终显著性预测结果。本发明构建了基于动态上下文感知滤波网络的视频显著性检测模型,利用动态上下文感知滤波模块和动态时空信息交互机制,在很多有挑战性的场景都能取得准确的预测结果。
Description
技术领域
本发明涉及到计算机视觉领域,具体为一种基于动态上下文感知滤波网络的视频显著性检测方法。
背景技术
显著性检测是指在一幅图像里,旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体,由于在场景中选择最具视觉特征的信息,在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟,在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界,比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄,再对其进行处理得到所关注的商品的详细信息等;还有视频和图像的压缩,尤其是视频的压缩,通过显著性检测将足够的带宽分配给重要的目标区域,而对于一些信息量较少的背景等区域则分配较小的带宽比例等。在学术界,例如在物体的跟踪识别中进行显著性检测,剔除掉其余场景信息从而直接获得运动物体的运行轨迹;还有图像检索,主要是利用显著性目标区域的信息以及其所位于的空间分布情况,来进行多个图片之间的匹配和搜索,因此显著性算法在图像检索中,具有非常重要的作用和意义。此外还有场景分类,姿势估计等领域,显著性检测都占据着十分重要的地位。
根据输入形式的不同,显著性检测可以分为两大种类:静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像;3D显著性检测的输入包括RGB彩色图像和与其相对应的深度图像;4D光场显著性检测的输入是光场图像,包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入,相较于2D显著性检测多了时间维度的信息需要考虑。
2D显著性检测方法是最为常见的基于静态图像的显著性检测方法,它采用图像对比度,颜色,纹理等信息来进行检测,虽然在现有的2D显著性检测数据库上取得了很好的检测结果,但是它们在复杂场景下,仍然存在着错检和漏检的问题。同时由于缺少对时间维度信息的考虑,它们也很难在视频数据集上有较好的表现。
与静态RGB图像或深度信息相比,考虑到附加时间维度带来的大量时空数据,将2D显著性检测简单地应用于基于视频的SOD任务不可避免地会导致不正确的显著性预测。近些年提出的一些优秀的视频显著性目标检测方法可分为三类:基于3D卷积的方法,基于长短期记忆网络(ConvLSTM)的方法和基于光流的方法,但是它们仍然存在着以下两个问题:首先,它们在推理过程中采用固定参数层,不能适应动态的现实环境。其次,先前诸如3D卷积之类的方法不加选择地对空间和时间特征进行融合,这不可避免地对显著性推断结果造成误导。由于以上两个问题的存在,视频显著性目标检测方法的准确率仍然有待提升。
发明内容
针对目前视频显著性检测方法仍采用固定参数层对显著性结果进行推理,难以适应动态变化的视频场景的问题,本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法,利用视频信息进行显著性检测,并通过动态上下文感知滤波网络优化更新,实现了动态视频场景下高质量的显著性检测。
为此,本发明提供了以下技术方案:
本发明提供了一种基于动态上下文感知滤波网络的视频显著性检测方法,包括如下步骤:
A、根据视频数据集获取视频片段并得到张量;
B、将所述张量输入特征编码器,通过所述特征编码器得到基于每一帧多尺度的编码特征;
C、针对所述编码特征,通过交错的特征融合层得到更加丰富的特征表示;
D、通过互补感知时空解码器对所述更加丰富的特征表示进行特征解码,得到最终显著性预测结果,包括:
D1、通过动态上下文感知滤波模块,采用动态滤波机制和全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;
所述动态滤波机制包括:在连续两帧的特征图Ft-1,Ft之间使用卷积以获得增强的特征表示然后从中生成动态内核Kt;接着将特征图Ft与生成的动态内核Kt进行卷积运算,通过并行布置D个动态滤波单元,并以不同膨胀率d进行卷积,获得特定于尺度的特征表示
所述全局注意力机制包括:获得特定于各个尺度特征图的贡献指数接着将所获得的d个进行softmax归一化操作得到再与对应的原尺度特征进行加权求和,以获得从第t帧的特征Ft到第t-1帧的特征Ft-1的反向输出对从第t+1帧的特征Ft+1到第t帧的特征Ft采用同样的操作可获得前向输出最终对反向输出和前向输出进行级联和通道变换可得到动态上下文感知滤波模块的最终输出
其中α为控制因子,p表示第p个阶段;
利用多阶段的融合得到每个阶段的显著性特征{S1,S2,S3,S4},最终的显著性结果Sfinal由{S1,S2,S3,S4}进行级联和通道变换得到。
进一步地,步骤A包括:
根据视频数据集划分具有固定数量连续视频帧的视频片段,每个视频片段具有连续的T帧图像;
对视频训练集中的每个视频片段进行数据增强,包括:将所述视频片段中的T帧RGB和GT图像帧对调整大小到H×W;使用随机概率的随机翻转;对增强后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;
将视频测试集中的每个视频片段调整大小到H×W;对调整后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;其中,mean和std为超参数,表示进行归一化操作的均值和方差。
进一步地,所述T取4;所述H×W取448×448。
进一步地,所述mean取[0.485,0.456,0.406],所述std取[0.229,0.224,0.225]。
进一步地,所述特征编码器为ResNet架构,并丢弃最后两层以保留空间结构,然后将其替换为空洞空间金字塔池层,以提取多尺度上下文信息;所述特征编码器针对每一帧图像生成4个具有不同空间分辨率和通道数的特征图。
进一步地,所述ResNet架构为ResNet-101架构,其中将第4个Bottleneck的下采样操作换为步长为1,空洞率为2的卷积操作,在保留空间分辨率的同时增大感受野,同时去掉了最后的全连接层。
进一步地,步骤D1中,动态内核Kt的大小皆为3×3,不同的膨胀率d设置为1、3、5。
进一步地,步骤C包括:
在所述交错的特征融合层里,采用4个不同尺度的特征作为输入;
对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率;
对所有变换后的不同空间分辨率的特征,采用像素级的加和得到融合后的更加丰富的特征表示。
进一步地,对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率,包括:
对每一个尺度的特征采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率,采用卷积核为3×3和步长为s的卷积层,下采样到更小的空间分辨率,采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率。
进一步地,步长s按下采样后的尺度取2或者4。
本发明提供的上述技术方案具有以下有益效果:
本发明提出了一种基于动态上下文感知滤波网络的视频显著性检测方法,该方法考虑了动态视频场景中相邻帧之间的相干性。首先通过特征编码器得到基于每一帧多尺度的编码特征,并通过一个交错的特征融合层得到更为丰富的多层级特征;紧接着使用一个动态上下文感知滤波模块,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,以对时间相关性进行建模,得到包含有相邻帧信息的时间特征,适应动态变化场景。其次,为了避免对最终显著性结果产生误导,方法中对每个阶段生成的时间特征以及空间特征采用控制因子进行了动态分配,最终加权求和得到当前阶段的时空特征,考虑到了时间特征和空间特征之间的互补性和相互作用性。实验结果表明,本发明提出的基于动态上下文感知滤波网络的视频显著性检测方法对于很多动态变化的视频场景都能取得准确的预测结果。
基于上述理由本发明可在计算机视觉领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是视频场景示意图;
图2是本发明实施例一种基于动态上下文感知滤波网络的视频显著性检测方法的流程图;
图3是本发明实施例中动态上下文感知滤波模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2,其示出了本发明实施例中一种基于动态上下文感知滤波网络的视频显著性检测方法的流程图,该方法包括如下步骤:
A、根据视频数据集获取视频片段,并得到张量It,t=1,2,…,T。
步骤A具体包括:
A1、获取视频片段:
根据视频数据集划分具有固定数量连续视频帧的视频片段;
根据每个视频数据集包含的视频帧RGB原图以及对应的显著性真值GT(如图1所示),将视频划分为多个视频片段,每个视频片段具有连续的T帧图像;
A2、对每个视频片段得到T个张量It,t=1,2,…,T:
对视频训练集中的视频片段进行数据增强,首先对此T帧的RGB原图和GT图像帧对采用尺度为s、比例为r的随机裁剪策略,调整大小到H×W(本方法采用的图像分辨率为448×448),接着使用随机概率的随机翻转;对增强后的RGB图像帧首先转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;
对视频测试集中的视频片段调整大小到H×W(本方法采用的图像分辨率为448×448),接着对调整后的RGB图像帧首先转变为网络可处理的张量,再进行均值为mean、方差为std的归一化操作,得到T个张量It,此处T设置为4;
其中,归一化操作定义如下:
其中,IinPut为归一化前的RGB图像帧,Iout为归一化后的张量It,用以输入特征编码器;mean和std为超参数,表示进行归一化操作的均值和方差,本实施例中mean取[0.485,0.456,0.406],std取[0.229,0.224,0.225]。
步骤B具体包括:
B1、将所得张量It输入特征编码器:
所采用的特征编码器为ResNet-101架构,其中将其第4个Bottleneck的下采样操作换为步长为1,空洞率为2的卷积操作,在保留空间分辨率的同时增大感受野,同时去掉了最后的全连接层。
步骤C具体包括:
对采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率,目的是将具有小分辨率的较高级输入特征映射到大分辨率的特征,再与低级特征进行融合;采用卷积核为3×3和步长为s的卷积层,下采样到更小的空间分辨率,目的是将具有大分辨率的较低级输入特征映射到小分辨率的特征,以与高级特征进行融合;采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率,以进行相同分辨率特征间的特征映射;
其中,Cw×h,s表示卷积和长宽为w和h,步长为s的卷积操作,Ups表示scale factor为s的双线性插值上采样操作。
互补感知时空解码器中包括动态上下文感知滤波模块,其包括如下具体步骤:
D1、动态上下文感知滤波:
为了适应动态的视频场景,选择引入动态过滤机制。通过动态上下文感知滤波模块,多个动态滤波器能被有效的组合以选择最具判别性的特征表示。
参见图3,其示出了本发明提出的动态上下文感知滤波模块(DCFM模块)的结构示意图。在DCFM模块中,对于当前关键帧(第t帧)在第p阶段的特征Ft→p,通过动态卷积的方式,可以将其相邻帧的特征Ft-1和Ft+1以动态核的方式,编码进当前帧中,以获得连续帧的时间信息。其具体方式为采用不同膨胀率的动态空洞卷积单元以获得多尺度的特征,由于不同膨胀率的动态空洞卷积所获得的特征具有不同的感受野,也就更易捕获更为丰富的帧间相关性;此外,通过全局注意力机制(GA)对此多尺度特征进行权重分配,以自适应的衡量不同尺度的特征对当前帧显著性预测的贡献程度,得到更为准确的预测结果。
步骤D1具体包括:
以具有不同膨胀率的金字塔结构使用动态滤波机制。首先在连续两帧的特征图Ft-1,Ft之间使用矩阵乘和卷积操作,以获得增强的特征表示然后从中生成动态内核Kt,此处获得的动态内核Kt的大小皆为3×3。接着将特征图Ft与生成的动态内核Kt进行卷积运算,通过并行布置D个动态滤波单元,并以不同膨胀率d进行卷积,可以获得特定于尺度的特征表示可被表示为:
其中C1×1,1表示卷积核为1×1,步长为1的卷积操作,AvgPool表示自适应均值池化操作,且均池化到3×3大小,d表示膨胀率。表示矩阵乘操作,上标T表示矩阵转置操作;DConv表示膨胀率为d,卷积核为Kt的动态卷积操作,Kt表示生成的动态内核;其中动态滤波单元个数D为3,膨胀率d分别为1,3,5;
接着在获得的多尺度特征上应用注意力机制。首先对获得的多尺度特征各自采用全局注意力机制,获得特定于各个尺度特征图的贡献指数接着将所获得的d个进行softmax归一化操作得到再与对应的原尺度特征进行加权求和,以获得从第t帧的特征Ft到第t-1帧的特征Ft-1的反向输出对从第t+1帧的特征Ft+1到第t帧的特征Ft采用同样的操作可获得前向输出最终对反向输出和前向输出进行级联和通道变换可得到动态上下文感知滤波模块的最终输出过程可表示为:
其中Linear表示全连接层变换操作,变换后的通道数为1,Cw×h,s表示卷积和长宽为w和h,步长为s的卷积操作,AvgPool表示自适应均值池化操作,且均池化到1×1大小,d表示膨胀率,Cat表示级联操作。
D2、动态互补感知融合:
采用互补感知的融合策略对所提取到的时间特征和空间特征在多个阶段以渐进的方式进行动态融合,有效的考虑到了时间特征和空间特征之间的互补性和相互作用性,也有效提高了显著性预测的准确率。
其中Linear表示全连接层变换操作,变换后的通道数为1;α为控制因子,p表示第p个阶段;此外利用多阶段的融合可得到每个阶段的显著性特征{S1,S2,S3,S4},最终的显著性结果Sfinal由{S1,S2,S3,S4}进行级联和通道变换得到。具体可表示如下:
其中Linear表示全连接层变换操作,变换后的通道数为1,Cw×h,s表示卷积和长宽为w和h,步长为s的卷积操作;Ups表示scale factor为s的双线性插值上采样操作,Cat表示级联操作。
通过动态上下文感知滤波模块和互补感知融合策略,所提出的基于动态上下文感知滤波网络的视频显著性检测实现方法能有效的提升现实动态变化场景中的视频显著性检测鲁棒性。
E、动态上下文感知滤波网络的训练及优化:
本方法整体可分为训练和推理两个阶段,在训练时以训练集的张量作为输入,得到训练好的网络参数;在推理阶段使用训练阶段保存的参数进行测试,得到最终的显著性预测结果。
本发明实施例在Pytorch框架下实现,其中训练阶段时使用ADAM优化器,学习率为1e-5,β1=0.9,β2=0.999,并且批处理大小1。在训练期间,图像的空间分辨率为448×448,但是模型可以是在测试时以全卷积方式应用于任意分辨率。
本发明实施例提出的基于动态上下文感知滤波网络的视频显著性检测方法,采用动态滤波机制搭配全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,以对时间相关性进行建模,得到包含有相邻帧信息的时间特征;适应动态变化场景。其次,为了避免对最终显著性结果产生误导,本发明中采用动态互补感知融合方式,对每个阶段生成的时间特征以及空间特征采用控制因子进行了动态分配,最终加权求和得到当前阶段的时空特征,考虑到了时间特征和空间特征之间的互补性和相互作用性。实验结果表明,本发明提出的基于动态上下文感知滤波网络的视频显著性检测方法对于很多动态变化的视频场景都能取得准确的预测结果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,包括如下步骤:
A、根据视频数据集获取视频片段并得到张量;
B、将所述张量输入特征编码器,通过所述特征编码器得到基于每一帧多尺度的编码特征;
D、通过互补感知时空解码器对所述更加丰富的特征表示进行特征解码,得到最终显著性预测结果,包括:
D1、通过动态上下文感知滤波模块,采用动态滤波机制和全局注意力机制,将相邻帧的上下文信息自适应的编码进当前帧中,得到包含有相邻帧信息的时间特征;
所述动态滤波机制包括:在连续两帧的特征图Ft-1,Ft之间使用矩阵乘和卷积操作,以获得增强的特征表示然后从中生成动态内核Kt;接着将特征图Ft与生成的动态内核Kt进行卷积运算,通过并行布置D个动态滤波单元,并以不同膨胀率d进行卷积,获得特定于尺度的特征表示
所述全局注意力机制包括:获得特定于各个尺度特征图的贡献指数接着将所获得的d个进行softmax归一化操作得到再与对应的原尺度特征进行加权求和,以获得从第t帧的特征Ft到第t-1帧的特征Ft-1的反向输出对从第t+1帧的特征Ft+1到第t帧的特征Ft采用同样的操作可获得前向输出最终对反向输出和前向输出进行级联和通道变换可得到动态上下文感知滤波模块的最终输出
其中α为控制因子,p表示第p个阶段;
利用多阶段的融合得到每个阶段的显著性特征{S1,S2,S3,S4},最终的显著性结果Sfinal由{S1,S2,S3,S4}进行级联和通道变换得到。
2.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述步骤A包括:
根据视频数据集划分具有固定数量连续视频帧的视频片段,每个视频片段具有连续的T帧图像;
对视频训练集中的每个视频片段进行数据增强,包括:将所述视频片段中的T帧RGB和GT图像帧对调整大小到H×W;使用随机概率的随机翻转;对增强后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;
将视频测试集中的每个视频片段调整大小到H×W;对调整后的RGB图像帧转变为网络可处理的张量,再进行均值为mean,方差为std的归一化操作,得到T个张量It;其中,mean和std为超参数,表示进行归一化操作的均值和方差。
3.根据权利要求2所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述T取4;所述H×W取448×448。
4.根据权利要求2所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述mean取[0.485,0.456,0.406],所述std取[0.229,0.224,0.225]。
5.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,所述特征编码器为ResNet架构,并丢弃最后两层以保留空间结构,然后将其替换为空洞空间金字塔池层,以提取多尺度上下文信息;所述特征编码器针对每一帧图像生成4个具有不同空间分辨率和通道数的特征图。
6.根据权利要求5所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于:所述ResNet架构为ResNet-101架构,其中将第4个Bottleneck的下采样操作换为步长为1,空洞率为2的卷积操作,在保留空间分辨率的同时增大感受野,同时去掉了最后的全连接层。
7.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于:步骤D1中,动态内核Kt的大小皆为3×3,不同的膨胀率d设置为1、3、5。
8.根据权利要求1所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,步骤C包括:
在所述交错的特征融合层里,采用4个不同尺度的特征作为输入;
对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率;
对所有变换后的不同空间分辨率的特征,采用像素级的加和得到融合后的更加丰富的特征表示。
9.根据权利要求8所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于,对于每一个尺度的特征,利用卷积操作和上采样操作将其转换到4个不同的空间分辨率,包括:
对每一个尺度的特征采用卷积核为1×1和步长为1卷积层加上上采样操作变换到更大的空间分辨率,采用卷积核为3×3和步长为s的卷积层,下采样到更小的空间分辨率,采用卷积核为1×1和步长为1的卷积层变换到相同的空间分辨率。
10.根据权利要求9所述的一种基于动态上下文感知滤波网络的视频显著性检测方法,其特征在于:步长s按下采样后的尺度取2或者4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653582.3A CN113393435B (zh) | 2021-06-11 | 2021-06-11 | 一种基于动态上下文感知滤波网络的视频显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653582.3A CN113393435B (zh) | 2021-06-11 | 2021-06-11 | 一种基于动态上下文感知滤波网络的视频显著性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393435A true CN113393435A (zh) | 2021-09-14 |
CN113393435B CN113393435B (zh) | 2023-12-26 |
Family
ID=77620544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110653582.3A Active CN113393435B (zh) | 2021-06-11 | 2021-06-11 | 一种基于动态上下文感知滤波网络的视频显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393435B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333074A (zh) * | 2022-03-14 | 2022-04-12 | 南京邮电大学 | 基于动态轻量高分辨率网络的人体姿态估计方法 |
CN114549863A (zh) * | 2022-04-27 | 2022-05-27 | 西安电子科技大学 | 一种基于像素级噪声标签监督的光场显著性目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
CN110598537A (zh) * | 2019-08-02 | 2019-12-20 | 杭州电子科技大学 | 一种基于深度卷积网络的视频显著性检测方法 |
CN111523410A (zh) * | 2020-04-09 | 2020-08-11 | 哈尔滨工业大学 | 一种基于注意力机制的视频显著性目标检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
-
2021
- 2021-06-11 CN CN202110653582.3A patent/CN113393435B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784183A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于级联卷积网络和光流的视频显著性目标检测方法 |
CN110598537A (zh) * | 2019-08-02 | 2019-12-20 | 杭州电子科技大学 | 一种基于深度卷积网络的视频显著性检测方法 |
CN111523410A (zh) * | 2020-04-09 | 2020-08-11 | 哈尔滨工业大学 | 一种基于注意力机制的视频显著性目标检测方法 |
CN112329800A (zh) * | 2020-12-03 | 2021-02-05 | 河南大学 | 一种基于全局信息引导残差注意力的显著性目标检测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333074A (zh) * | 2022-03-14 | 2022-04-12 | 南京邮电大学 | 基于动态轻量高分辨率网络的人体姿态估计方法 |
CN114549863A (zh) * | 2022-04-27 | 2022-05-27 | 西安电子科技大学 | 一种基于像素级噪声标签监督的光场显著性目标检测方法 |
CN114549863B (zh) * | 2022-04-27 | 2022-07-22 | 西安电子科技大学 | 一种基于像素级噪声标签监督的光场显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113393435B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969577B (zh) | 一种基于深度双重注意力网络的视频超分辨率重建方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN109379550B (zh) | 基于卷积神经网络的视频帧率上变换方法及系统 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN108256562B (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
CN111488932B (zh) | 一种基于帧率感知的自监督视频时-空表征学习方法 | |
CN113393435B (zh) | 一种基于动态上下文感知滤波网络的视频显著性检测方法 | |
CN113392711B (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN110992414B (zh) | 一种基于卷积神经网络的室内单目场景深度估计的方法 | |
CN112560831A (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
CN113255616B (zh) | 一种基于深度学习的视频行为识别方法 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN113269054A (zh) | 一种基于时空2d卷积神经网络的航拍视频分析方法 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
CN114463218A (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN115359370A (zh) | 一种遥感图像云检测方法、装置、计算机装置及存储介质 | |
CN113936235A (zh) | 一种基于质量评估的视频显著性目标检测方法 | |
CN116403152A (zh) | 一种基于空间上下文学习网络的人群密度估计方法 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN115293966A (zh) | 一种人脸图像重建方法、装置以及存储介质 | |
KR102057395B1 (ko) | 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법 | |
CN114882405A (zh) | 一种基于时空双流金字塔网络架构的视频显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |