CN113343772B - 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 - Google Patents
一种基于隐式引导与显式教导策略的视频显著性目标检测方法 Download PDFInfo
- Publication number
- CN113343772B CN113343772B CN202110516620.0A CN202110516620A CN113343772B CN 113343772 B CN113343772 B CN 113343772B CN 202110516620 A CN202110516620 A CN 202110516620A CN 113343772 B CN113343772 B CN 113343772B
- Authority
- CN
- China
- Prior art keywords
- motion information
- implicit
- features
- guide
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于隐式引导与显式教导策略的视频显著性目标检测方法。本发明引入了运动信息调制器,包含了通道和空间两种顺序的注意力机制,并以一种深度协作的方式运作,可以有效增强运动信息主导的特征;通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支,可以有效提升检测效果;通过使用一个教师部分解码器(teacher partial decoder,T‑PD)来聚合网络的高三层中运动信息主导的特征,并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder,S‑PD),显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。
Description
技术领域
本发明涉及视频显著性目标检测方法,特别涉及一种基于隐式引导与显式教导策略的视频显著性目标检测方法。
背景技术
视频显著性目标检测(video salient object detection,VSOD)一直是计算机视觉领域的一个长期研究课题,其目标是在给定的视频片段中分割出引人注目的、有吸引力的显著性目标。这项技术已被应用于自动驾驶汽车、动作分割和视频字幕等领域。近年来,在无约束场景的视频处理技术方向上取得了巨大的进展,但仍有很大的改进空间且尚未得到充分的探索。
运动特征(例如:运动光流和运动轨迹)和表观特征(例如:颜色和超像素分割块)都是理解无约束场景下动态显著性目标的关键线索。在使用时空卷积神经网络来学习具有判别性等表观和运动特征方面,已有一些工作,其中经常使用循环记忆神经网络和三维卷积神经网络。然而,他们受到如下问题的阻碍:对于前者,它不能同时处理空间和时间线索。此外,由于其具有可传输的时间记忆特性,只能对输入视频帧进行顺序处理,这种算法的训练与推理效率受到很大的限制。而对于后者,当时域卷积层数量较大时,其数值解空间的维度呈指数增长,导致三维卷积神经网络难以优化。此外,这类神经网络的计算成本高导致计算设备负载过大,一般比二维卷积神经网络的内存占用高出约1.5倍。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提出一种简单而高效的引导与教导策略网络(Guidance and Teaching Network,GTNet),有效地结合视频显著性目标检测的运动和表观模式,取得了更精确的检测效果。
本发明的目的在于提供一种基于隐式引导与显式教导策略的视频显著性目标检测方法,通过以下技术方案实现,包括以下步骤:
步骤2,将和输入到构建的双流分支架构中,在第t帧中,由两个单独的深度残差网络分别生成层级为5的特征金字塔,即表观信息主导的特征和运动信息主导的特征其中表观信息主导的特征作为学生分支的输出,运动信息主导的特征作为教师分支的输出;
步骤3,使用运动信息调制器从空间维度和通道维度两个视角来增强运动信息主导的特征,并通过隐式引导策略将其转移到以表观信息主导的分支;
进一步的,步骤3中通过运动信息调制器隐式地将运动信息主导的特征从教师分支传递到学生分支,即表观信息主导的特征,具体包括以下步骤;
步骤3.1,隐式引导的策略在每个特征金字塔层级k上协同工作,其中k∈{1,2,3,4,5};
其中符号代表针对输入特征向量x1在空间维度进行自适应最大池化层操作,代表两个连续的全连接层,由可学习的权值进行参数化;此外,σ[x2]和⊙代表激活函数和基于通道维度的特征相乘操作,此处采取Sigmoid函数σ[x2]来激活输入特征,其可以被写成如下公式,
σ[x2]=1/(1+exp(-x2));
步骤3.5,最后,隐式引导策略函数可以被定义为
其中k∈{1,2,3,4,5}。
进一步的,步骤4中教师部分解码器聚合处于网络的高K层(K<5)中运动信息主导的特征,并且生成运动信息引导的掩膜,具体包括以下步骤:
进一步的,步骤2中所述深度残差网络为ResNet50网络。
进一步的,采用图像显著性目标检测DUTS数据集上训练学生分支,视频显著性目标检测DAVIS16数据集的训练集上训练双流分支架构。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明引入了运动信息调制器,包含了通道和空间两种顺序的注意力机制,并以一种深度协作的方式运作,可以有效增强运动信息主导的特征。
(2)本发明通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支,可以有效提升检测效果。
(3)本发明通过使用一个教师部分解码器(teacherpartial decoder,T-PD)来聚合网络的高三层中运动信息主导的特征,并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder,S-PD),显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。
(4)本发明强调了隐式引导和显式教导策略对于时空表征过程的重要性。本发明是基于运动信息主导的特征和掩膜提供区分性的语义和时间线索的观察,没有冗余结构,有助于表观信息主导的分支中高效的解码过程,可以得到精确的检测结果。
附图说明
图1为本发明提出的引导和教导策略的说明图。
图2为本发明提出的引导与教导策略网络(Guidance and Teaching Network,GTNet)框架结构图。
图3为本发明中使用的运动信息调制器(temporal modulator,TM)结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例
本实施例基于隐式引导与显式教导策略的视频显著性目标检测方法,可分成两个阶段:训练阶段和测试阶段,其中训练阶段包括以下步骤:
步骤2,其次,在图像显著性目标检测DUTS数据集上训练学生分支;
步骤3,然后,在视频显著性目标检测DAVIS16数据集的训练集上训练双流分支框架。将和输入到本发明提出的双流分支架构中,在第t帧中,由两个单独的ResNet50网络分别生成层级为5的特征金字塔,即表观信息主导的特征和运动信息主导的特征
步骤4,接着,使用运动信息调制器(temporal modulator,TM)从空间维度和通道维度两个视角来增强运动信息主导(即教师)的特征,并通过隐式引导策略将其转移到以表观信息主导(即学生)的分支,具体包括以下步骤:
步骤4.1,隐式引导的策略在每个特征金字塔层级k上协同工作,其中k∈{1,2,3,4,5};
其中符号代表针对输入特征向量在空间维度进行自适应最大池化层操作。代表两个连续的全连接层(full-connected layer),由可学习的权值进行参数化。此外,σ[x]和⊙代表激活函数和基于通道维度的特征相乘操作。此处采取了广泛使用的Sigmoid函数σ[x]来激活输入特征,其可以被写成如下公式
σ[x]=1/(1+exp(-x));
步骤4.5,最后,隐式引导策略函数可以被定义为
其中k∈{1,2,3,4,5}。
步骤5,在此之后,通过一个教师部分解码器(teacher partial decoder,T-PD)聚合网络的高三层(本发明实施例中默认设定K等于3)中运动信息主导的特征并且在第t帧生成一个运动信息引导的掩膜具体包括以下步骤:
步骤6,进一步的,掩膜通过另一个完全一致的学生部分解码器(studentpartial decoder,S-PD),用于显式地教导网络的高三层中表观信息主导的特征的聚合,这些表观信息主导的特征来源于学生分支。该显式教导操作算子可以被定义为
步骤8,在训练过程中,采用Adam优化器,初始学习率设置为1e-4,每经历25个轮次学习率衰减10%,并输入RGB和光流图分辨率统一调整为3522;
步骤9,为了证明本发明所提方法的有效性,比较了11种视频显著性目标检测方法和3种图像显著性目标检测方法的检测效果,比较结果如下表所示,由结果可以看出,本发明提出的GTNet相对于其他未经后处理的前沿方法具有明显的优势:
其中评估指标具体包括以下步骤:
步骤9.2,Fβ数值越高表示效果越好。其可以定义为
其中β2被设置为0.3;
其中μ通常被设置为0.5,So和Sr分别定义为区域感知的结构相似度和对象感知的结构相似度。
如图2所示,引导与教导策略网络的整体框架为双流分支架构,每个分支为典型的UNet形状的框架,为典型的自顶向下-自底向上结构,用于聚合特征金字塔。本发明的流程使用隐式引导来桥接教师分支(即运动信息主导)和学生分支(即表观信息主导)。由于需要教师分支的显式知识,利用深度监督下的教师部分解码器(teacher partial decoder,T-PD)获得运动信息引导的掩模,并使用它来教导学生部分解码器(student partialdecoder,S-PD)的解码阶段。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于,包括如下步骤:
步骤2,将和输入到构建的双流分支架构中,在第t帧中,由两个单独的深度残差网络分别生成层级为5的特征金字塔,即表观信息主导的特征和运动信息主导的特征其中表观信息主导的特征作为学生分支的输出,运动信息主导的特征作为教师分支的输出;
步骤3,使用运动信息调制器从空间维度和通道维度两个视角来增强运动信息主导的特征,并通过隐式引导策略将其转移到以表观信息主导的分支;
步骤3中通过运动信息调制器隐式地将运动信息主导的特征从教师分支传递到学生分支,即表观信息主导的特征,具体包括以下步骤;
步骤3.1,隐式引导的策略在每个特征金字塔层级k上协同工作,其中k∈{1,2,3,4,5};
其中符号代表针对输入特征向量x1在空间维度进行自适应最大池化层操作,代表两个连续的全连接层,由可学习的权值进行参数化;此外,σ[x2]和⊙代表激活函数和基于通道维度的特征相乘操作,此处采取Sigmoid函数σ[x2]来激活输入特征,其可以被写成如下公式,
σ[x2]=1/(1+exp(-x2));
步骤3.5,最后,隐式引导策略函数可以被定义为
其中k∈{1,2,3,4,5};
2.如权利要求1所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:步骤4中教师部分解码器聚合处于网络的高K层中运动信息主导的特征,K<5,并且生成运动信息引导的掩膜,具体包括以下步骤:
5.如权利要求1所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:步骤2中所述深度残差网络为ResNet50网络。
6.如权利要求1所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:采用图像显著性目标检测DUTS数据集上训练学生分支,视频显著性目标检测DAVIS16数据集的训练集上训练双流分支架构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110516620.0A CN113343772B (zh) | 2021-05-12 | 2021-05-12 | 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110516620.0A CN113343772B (zh) | 2021-05-12 | 2021-05-12 | 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343772A CN113343772A (zh) | 2021-09-03 |
CN113343772B true CN113343772B (zh) | 2022-06-14 |
Family
ID=77469308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110516620.0A Active CN113343772B (zh) | 2021-05-12 | 2021-05-12 | 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343772B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195093B2 (en) * | 2017-05-18 | 2021-12-07 | Samsung Electronics Co., Ltd | Apparatus and method for student-teacher transfer learning network using knowledge bridge |
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
US11158055B2 (en) * | 2019-07-26 | 2021-10-26 | Adobe Inc. | Utilizing a neural network having a two-stream encoder architecture to generate composite digital images |
-
2021
- 2021-05-12 CN CN202110516620.0A patent/CN113343772B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113343772A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
WO2020088766A1 (en) | Methods for optical flow estimation | |
Chen et al. | Multiframe-to-multiframe network for video denoising | |
CN112085717B (zh) | 一种用于腹腔镜手术的视频预测方法及其系统 | |
CN112819853A (zh) | 一种基于语义先验的视觉里程计方法 | |
Xu et al. | AutoSegNet: An automated neural network for image segmentation | |
Gu et al. | A robust attention-enhanced network with transformer for visual tracking | |
Yang et al. | BANDT: A border-aware network with deformable transformers for visual tracking | |
Han et al. | LIANet: Layer interactive attention network for RGB-D salient object detection | |
Wang et al. | Cbwloss: constrained bidirectional weighted loss for self-supervised learning of depth and pose | |
CN113343772B (zh) | 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 | |
Wang et al. | Recurrent multi-level residual and global attention network for single image deraining | |
Lu et al. | Siamese graph attention networks for robust visual object tracking | |
Zhang et al. | Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Cheng et al. | Two-branch convolutional sparse representation for stereo matching | |
Yang et al. | Unveil the potential of siamese framework for visual tracking | |
Mo et al. | Realtime global attention network for semantic segmentation | |
CN114463614A (zh) | 使用生成式参数的层次性显著建模的显著性目标检测方法 | |
Gupta et al. | Towards an interpretable latent space in structured models for video prediction | |
Tran | Sslayout360: Semi-supervised indoor layout estimation from 360° panorama | |
Diao et al. | A slowfast-based violence recognition method | |
Peng et al. | RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method | |
Zhai et al. | Multi-task learning in autonomous driving scenarios via adaptive feature refinement networks | |
Sun et al. | Unsupervised learning of optical flow in a multi-frame dynamic environment using temporal dynamic modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |