CN113343772B - 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 - Google Patents

一种基于隐式引导与显式教导策略的视频显著性目标检测方法 Download PDF

Info

Publication number
CN113343772B
CN113343772B CN202110516620.0A CN202110516620A CN113343772B CN 113343772 B CN113343772 B CN 113343772B CN 202110516620 A CN202110516620 A CN 202110516620A CN 113343772 B CN113343772 B CN 113343772B
Authority
CN
China
Prior art keywords
motion information
implicit
features
guide
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110516620.0A
Other languages
English (en)
Other versions
CN113343772A (zh
Inventor
朱荣
季葛鹏
焦瑛霞
宋庶权
魏冕
牛舒羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110516620.0A priority Critical patent/CN113343772B/zh
Publication of CN113343772A publication Critical patent/CN113343772A/zh
Application granted granted Critical
Publication of CN113343772B publication Critical patent/CN113343772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于隐式引导与显式教导策略的视频显著性目标检测方法。本发明引入了运动信息调制器,包含了通道和空间两种顺序的注意力机制,并以一种深度协作的方式运作,可以有效增强运动信息主导的特征;通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支,可以有效提升检测效果;通过使用一个教师部分解码器(teacher partial decoder,T‑PD)来聚合网络的高三层中运动信息主导的特征,并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder,S‑PD),显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。

Description

一种基于隐式引导与显式教导策略的视频显著性目标检测 方法
技术领域
本发明涉及视频显著性目标检测方法,特别涉及一种基于隐式引导与显式教导策略的视频显著性目标检测方法。
背景技术
视频显著性目标检测(video salient object detection,VSOD)一直是计算机视觉领域的一个长期研究课题,其目标是在给定的视频片段中分割出引人注目的、有吸引力的显著性目标。这项技术已被应用于自动驾驶汽车、动作分割和视频字幕等领域。近年来,在无约束场景的视频处理技术方向上取得了巨大的进展,但仍有很大的改进空间且尚未得到充分的探索。
运动特征(例如:运动光流和运动轨迹)和表观特征(例如:颜色和超像素分割块)都是理解无约束场景下动态显著性目标的关键线索。在使用时空卷积神经网络来学习具有判别性等表观和运动特征方面,已有一些工作,其中经常使用循环记忆神经网络和三维卷积神经网络。然而,他们受到如下问题的阻碍:对于前者,它不能同时处理空间和时间线索。此外,由于其具有可传输的时间记忆特性,只能对输入视频帧进行顺序处理,这种算法的训练与推理效率受到很大的限制。而对于后者,当时域卷积层数量较大时,其数值解空间的维度呈指数增长,导致三维卷积神经网络难以优化。此外,这类神经网络的计算成本高导致计算设备负载过大,一般比二维卷积神经网络的内存占用高出约1.5倍。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提出一种简单而高效的引导与教导策略网络(Guidance and Teaching Network,GTNet),有效地结合视频显著性目标检测的运动和表观模式,取得了更精确的检测效果。
本发明的目的在于提供一种基于隐式引导与显式教导策略的视频显著性目标检测方法,通过以下技术方案实现,包括以下步骤:
步骤1,给定光流生成器产生的一系列输入帧
Figure BDA0003061733450000011
对应的光流图
Figure BDA0003061733450000012
步骤2,将
Figure BDA0003061733450000013
Figure BDA0003061733450000014
输入到构建的双流分支架构中,在第t帧中,由两个单独的深度残差网络分别生成层级为5的特征金字塔,即表观信息主导的特征
Figure BDA0003061733450000015
和运动信息主导的特征
Figure BDA0003061733450000016
其中表观信息主导的特征
Figure BDA0003061733450000017
作为学生分支的输出,运动信息主导的特征
Figure BDA0003061733450000018
作为教师分支的输出;
步骤3,使用运动信息调制器从空间维度和通道维度两个视角来增强运动信息主导的特征,并通过隐式引导策略将其转移到以表观信息主导的分支;
步骤4,通过一个教师部分解码器聚合网络的高K层中运动信息主导的特征
Figure BDA0003061733450000021
并且在第t帧生成一个运动信息引导的掩膜
Figure BDA0003061733450000022
其中K<5;
步骤5,进一步的,掩膜
Figure BDA0003061733450000023
通过另一个与教师部分解码器聚合网络完全一致的学生部分解码器,用于显式地教导网络的高K层中表观信息主导的特征
Figure BDA0003061733450000024
的聚合;
步骤6,最后,通过学生部分解码器生成对于第t帧的最终预测图
Figure BDA0003061733450000025
进一步的,步骤3中通过运动信息调制器隐式地将运动信息主导的特征从教师分支传递到学生分支,即表观信息主导的特征,具体包括以下步骤;
步骤3.1,隐式引导的策略在每个特征金字塔层级k上协同工作,其中k∈{1,2,3,4,5};
步骤3.2,对于第k级别,基于通道注意力的函数
Figure BDA0003061733450000026
可以定义为:
Figure BDA0003061733450000027
其中符号
Figure BDA0003061733450000028
代表针对输入特征向量x1在空间维度进行自适应最大池化层操作,
Figure BDA0003061733450000029
代表两个连续的全连接层,由可学习的权值
Figure BDA00030617334500000210
进行参数化;此外,σ[x2]和⊙代表激活函数和基于通道维度的特征相乘操作,此处采取Sigmoid函数σ[x2]来激活输入特征,其可以被写成如下公式,
σ[x2]=1/(1+exp(-x2));
步骤3.3,对于第k级别,基于空间注意力的函数
Figure BDA00030617334500000211
可以被定义为
Figure BDA00030617334500000212
其中,符号
Figure BDA00030617334500000213
代表沿着通道维度对输入特征向量x3进行全局最大池化操作算子,
Figure BDA00030617334500000214
代表卷积核大小为7×7的卷积层,
Figure BDA00030617334500000215
代表空间维度的特征相乘操作;
步骤3.4,运动信息调制器函数
Figure BDA00030617334500000216
被定义为两个级联的注意力过程,该过程包括了在第k级别的基于通道注意力的函数
Figure BDA00030617334500000217
和基于空间注意力的函数
Figure BDA00030617334500000218
因此,该运动信息调制器过程可以被定义为:
Figure BDA0003061733450000031
步骤3.5,最后,隐式引导策略函数可以被定义为
Figure BDA0003061733450000032
其中k∈{1,2,3,4,5}。
进一步的,步骤4中教师部分解码器聚合处于网络的高K层(K<5)中运动信息主导的特征,并且生成运动信息引导的掩膜,具体包括以下步骤:
步骤4.1,首先使用感受野模块
Figure BDA0003061733450000033
来获取优化后的运动信息特征
Figure BDA0003061733450000034
该过程可以被表示为
Figure BDA0003061733450000035
步骤4.2,接着,对优化后的运动信息特征进行特征传播操作,将具有富语义的特征传播到弱语义的特征之中,,生成优化后的特征
Figure BDA0003061733450000036
该过程可以定义为
Figure BDA0003061733450000037
其中Π代表针对i个输入特征图像执行逐像素特征相乘操作,这个过程是由可学习权值
Figure BDA0003061733450000038
来进行参数化的,δ(·)代表的是上采样操作,其用于保证相乘的两个特征向量的分辨率尺度一致;
步骤4.3,然后,通过经典的U-Net形状解码器
Figure BDA0003061733450000039
获得中间输出的运动信息引导的掩膜
Figure BDA00030617334500000310
其中U-Net形状解码器
Figure BDA00030617334500000311
移除了中低两层的跳层连接,该过程可以表示为:
Figure BDA00030617334500000312
进一步的,步骤5中将运动信息引导的掩膜
Figure BDA00030617334500000313
显式地传播到处于网络高K层中的表观信息主导的特征之中,这些表观信息主导的特征来源于学生分支,该显式教导操作算子可以被定义为:
Figure BDA00030617334500000314
其中k∈{6-K,7-K,...,5},
Figure BDA00030617334500000315
Figure BDA00030617334500000316
分别表示逐元素相加和逐元素相乘操作。
进一步的,步骤6中学生部分解码器
Figure BDA0003061733450000041
结合传播的掩膜,生成最终的预测结果
Figure BDA0003061733450000042
该过程可以被定义为
Figure BDA0003061733450000043
进一步的,步骤2中所述深度残差网络为ResNet50网络。
进一步的,采用图像显著性目标检测DUTS数据集上训练学生分支,视频显著性目标检测DAVIS16数据集的训练集上训练双流分支架构。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明引入了运动信息调制器,包含了通道和空间两种顺序的注意力机制,并以一种深度协作的方式运作,可以有效增强运动信息主导的特征。
(2)本发明通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支,可以有效提升检测效果。
(3)本发明通过使用一个教师部分解码器(teacherpartial decoder,T-PD)来聚合网络的高三层中运动信息主导的特征,并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder,S-PD),显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。
(4)本发明强调了隐式引导和显式教导策略对于时空表征过程的重要性。本发明是基于运动信息主导的特征和掩膜提供区分性的语义和时间线索的观察,没有冗余结构,有助于表观信息主导的分支中高效的解码过程,可以得到精确的检测结果。
附图说明
图1为本发明提出的引导和教导策略的说明图。
图2为本发明提出的引导与教导策略网络(Guidance and Teaching Network,GTNet)框架结构图。
图3为本发明中使用的运动信息调制器(temporal modulator,TM)结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例
本实施例基于隐式引导与显式教导策略的视频显著性目标检测方法,可分成两个阶段:训练阶段和测试阶段,其中训练阶段包括以下步骤:
步骤1,使用光流生成器(如RAFT)产生的一系列输入帧
Figure BDA0003061733450000051
对应的光流图
Figure BDA0003061733450000052
其中,由于帧差算法的影响,在实验中丢弃了第一帧
Figure BDA0003061733450000053
和光流图
Figure BDA0003061733450000054
然后使用上述所生成的光流图单独的训练教师分支。
步骤2,其次,在图像显著性目标检测DUTS数据集上训练学生分支;
步骤3,然后,在视频显著性目标检测DAVIS16数据集的训练集上训练双流分支框架。将
Figure BDA0003061733450000055
Figure BDA0003061733450000056
输入到本发明提出的双流分支架构中,在第t帧中,由两个单独的ResNet50网络分别生成层级为5的特征金字塔,即表观信息主导的特征
Figure BDA0003061733450000057
和运动信息主导的特征
Figure BDA0003061733450000058
步骤4,接着,使用运动信息调制器(temporal modulator,TM)从空间维度和通道维度两个视角来增强运动信息主导(即教师)的特征,并通过隐式引导策略将其转移到以表观信息主导(即学生)的分支,具体包括以下步骤:
步骤4.1,隐式引导的策略在每个特征金字塔层级k上协同工作,其中k∈{1,2,3,4,5};
步骤4.2,对于第k级别,基于通道注意力的函数
Figure BDA0003061733450000059
可以定义为
Figure BDA00030617334500000510
其中符号
Figure BDA00030617334500000511
代表针对输入特征向量在空间维度进行自适应最大池化层操作。
Figure BDA00030617334500000512
代表两个连续的全连接层(full-connected layer),由可学习的权值
Figure BDA00030617334500000513
进行参数化。此外,σ[x]和⊙代表激活函数和基于通道维度的特征相乘操作。此处采取了广泛使用的Sigmoid函数σ[x]来激活输入特征,其可以被写成如下公式
σ[x]=1/(1+exp(-x));
步骤4.3,对于第k级别,基于空间注意力的函数
Figure BDA00030617334500000514
可以被定义为
Figure BDA00030617334500000515
其中,符号
Figure BDA00030617334500000516
代表沿着通道维度对输入特征向量进行全局最大池化操作算子。
Figure BDA00030617334500000517
代表卷积核大小为7×7的卷积层。
Figure BDA00030617334500000518
代表空间维度的特征相乘操作;
步骤4.4,运动信息调制器函数
Figure BDA00030617334500000519
被定义为两个级联的注意力过程,该过程包括了在第k级别的基于通道注意力的函数
Figure BDA00030617334500000520
和基于空间注意力的函数
Figure BDA00030617334500000521
因此,该运动信息调制器过程可以被定义为
Figure BDA00030617334500000522
步骤4.5,最后,隐式引导策略函数可以被定义为
Figure BDA00030617334500000523
其中k∈{1,2,3,4,5}。
步骤5,在此之后,通过一个教师部分解码器(teacher partial decoder,T-PD)聚合网络的高三层(本发明实施例中默认设定K等于3)中运动信息主导的特征
Figure BDA0003061733450000061
并且在第t帧生成一个运动信息引导的掩膜
Figure BDA0003061733450000062
具体包括以下步骤:
步骤5.1,首先使用感受野模块(receptive field block)
Figure BDA0003061733450000063
来获取优化后的运动信息特征
Figure BDA0003061733450000064
该过程可以被表示为
Figure BDA0003061733450000065
步骤5.2,接着,对优化后的运动信息特征进行特征传播操作,将具有富语义的特征传播到弱语义的特征之中,生成优化后的特征
Figure BDA0003061733450000066
该过程可以定义为
Figure BDA0003061733450000067
其中Π代表针对i个输入特征图像执行逐像素特征相乘操作,这个过程是由可学习权值
Figure BDA0003061733450000068
来进行参数化的。δ(·)代表的是上采样操作,其用于保证相乘的两个特征向量的分辨率尺度一致;
步骤5.3,然后,通过经典的U-Net形状解码器
Figure BDA0003061733450000069
获得中间输出的运动信息引导的掩膜
Figure BDA00030617334500000610
其中U-Net形状解码器
Figure BDA00030617334500000611
移除了中低两层的跳层连接。该过程可以表示为
Figure BDA00030617334500000612
步骤6,进一步的,掩膜
Figure BDA00030617334500000613
通过另一个完全一致的学生部分解码器(studentpartial decoder,S-PD),用于显式地教导网络的高三层中表观信息主导的特征
Figure BDA00030617334500000614
的聚合,这些表观信息主导的特征来源于学生分支。该显式教导操作算子可以被定义为
Figure BDA00030617334500000615
其中k∈{3,4,5}。
Figure BDA00030617334500000616
Figure BDA00030617334500000617
分别表示逐元素相加和逐元素相乘操作;
步骤7,最后,学生部分解码器
Figure BDA00030617334500000618
生成对于第t帧的最终预测图
Figure BDA00030617334500000619
该过程可以被定义为
Figure BDA00030617334500000620
步骤8,在训练过程中,采用Adam优化器,初始学习率设置为1e-4,每经历25个轮次学习率衰减10%,并输入RGB和光流图分辨率统一调整为3522
步骤9,为了证明本发明所提方法的有效性,比较了11种视频显著性目标检测方法和3种图像显著性目标检测方法的检测效果,比较结果如下表所示,由结果可以看出,本发明提出的GTNet相对于其他未经后处理的前沿方法具有明显的优势:
Figure BDA0003061733450000071
其中评估指标具体包括以下步骤:
步骤9.1,
Figure BDA0003061733450000072
指平均绝对误差(Mean absolute error,MAE),数值越低表示效果越好。其可以定义为
Figure BDA0003061733450000073
其中
Figure BDA0003061733450000074
为预测的显著性图,Gt为第t帧对应的真值,W和H分别代表图像的宽度和高度;
步骤9.2,Fβ数值越高表示效果越好。其可以定义为
Figure BDA0003061733450000075
其中β2被设置为0.3;
步骤9.3,结构度量指标
Figure BDA0003061733450000076
是一种新提出的度量方法,用于评价预测的显著性图与其对应的真值之间的结构相似性,数值越高表示效果越好。
Figure BDA0003061733450000077
可以定义为:
Figure BDA0003061733450000078
其中μ通常被设置为0.5,So和Sr分别定义为区域感知的结构相似度和对象感知的结构相似度。
如图2所示,引导与教导策略网络的整体框架为双流分支架构,每个分支为典型的UNet形状的框架,为典型的自顶向下-自底向上结构,用于聚合特征金字塔。本发明的流程使用隐式引导来桥接教师分支(即运动信息主导)和学生分支(即表观信息主导)。由于需要教师分支的显式知识,利用深度监督下的教师部分解码器(teacher partial decoder,T-PD)获得运动信息引导的掩模,并使用它来教导学生部分解码器(student partialdecoder,S-PD)的解码阶段。
如图3所示,运动信息调制器函数
Figure BDA0003061733450000081
被定义为两个级联的注意力过程,该过程包括了在第k级别的基于通道注意力的函数
Figure BDA0003061733450000082
和基于空间注意力的函数
Figure BDA0003061733450000083
该运动信息调制器过程可以被定义为
Figure BDA0003061733450000084
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于,包括如下步骤:
步骤1,给定光流生成器产生的一系列输入帧
Figure FDA0003607240830000011
对应的光流图
Figure FDA0003607240830000012
步骤2,将
Figure FDA0003607240830000013
Figure FDA0003607240830000014
输入到构建的双流分支架构中,在第t帧中,由两个单独的深度残差网络分别生成层级为5的特征金字塔,即表观信息主导的特征
Figure FDA0003607240830000015
和运动信息主导的特征
Figure FDA0003607240830000016
其中表观信息主导的特征
Figure FDA0003607240830000017
作为学生分支的输出,运动信息主导的特征
Figure FDA0003607240830000018
作为教师分支的输出;
步骤3,使用运动信息调制器从空间维度和通道维度两个视角来增强运动信息主导的特征,并通过隐式引导策略将其转移到以表观信息主导的分支;
步骤3中通过运动信息调制器隐式地将运动信息主导的特征从教师分支传递到学生分支,即表观信息主导的特征,具体包括以下步骤;
步骤3.1,隐式引导的策略在每个特征金字塔层级k上协同工作,其中k∈{1,2,3,4,5};
步骤3.2,对于第k级别,基于通道注意力的函数
Figure FDA0003607240830000019
可以定义为:
Figure FDA00036072408300000110
其中符号
Figure FDA00036072408300000111
代表针对输入特征向量x1在空间维度进行自适应最大池化层操作,
Figure FDA00036072408300000112
代表两个连续的全连接层,由可学习的权值
Figure FDA00036072408300000113
进行参数化;此外,σ[x2]和⊙代表激活函数和基于通道维度的特征相乘操作,此处采取Sigmoid函数σ[x2]来激活输入特征,其可以被写成如下公式,
σ[x2]=1/(1+exp(-x2));
步骤3.3,对于第k级别,基于空间注意力的函数
Figure FDA00036072408300000114
可以被定义为
Figure FDA00036072408300000115
其中,符号
Figure FDA00036072408300000116
代表沿着通道维度对输入特征向量x3进行全局最大池化操作算子,
Figure FDA0003607240830000021
代表卷积核大小为7×7的卷积层,
Figure FDA0003607240830000022
代表空间维度的特征相乘操作;
步骤3.4,运动信息调制器函数
Figure FDA0003607240830000023
被定义为两个级联的注意力过程,该过程包括了在第k级别的基于通道注意力的函数
Figure FDA0003607240830000024
和基于空间注意力的函数
Figure FDA0003607240830000025
因此,该运动信息调制器过程可以被定义为:
Figure FDA0003607240830000026
步骤3.5,最后,隐式引导策略函数可以被定义为
Figure FDA0003607240830000027
其中k∈{1,2,3,4,5};
步骤4,通过一个教师部分解码器聚合网络的高K层中运动信息主导的特征
Figure FDA0003607240830000028
并且在第t帧生成一个运动信息引导的掩膜
Figure FDA0003607240830000029
其中K<5;
步骤5,进一步的,掩膜
Figure FDA00036072408300000210
通过另一个与教师部分解码器聚合网络完全一致的学生部分解码器,用于显式地教导网络的高K层中表观信息主导的特征
Figure FDA00036072408300000211
的聚合;
步骤6,最后,通过学生部分解码器生成对于第t帧的最终预测图
Figure FDA00036072408300000212
2.如权利要求1所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:步骤4中教师部分解码器聚合处于网络的高K层中运动信息主导的特征,K<5,并且生成运动信息引导的掩膜,具体包括以下步骤:
步骤4.1,首先使用感受野模块
Figure FDA00036072408300000213
来获取优化后的运动信息特征
Figure FDA00036072408300000214
该过程可以被表示为
Figure FDA00036072408300000215
步骤4.2,接着,对优化后的运动信息特征进行特征传播操作,将具有富语义的特征传播到弱语义的特征之中,生成优化后的特征
Figure FDA00036072408300000216
该过程可以定义为
Figure FDA00036072408300000217
其中Π代表针对i个输入特征图像执行逐像素特征相乘操作,这个过程是由可学习权值
Figure FDA0003607240830000031
来进行参数化的,δ(·)代表的是上采样操作,其用于保证相乘的两个特征向量的分辨率尺度一致;
步骤4.3,然后,通过经典的U-Net形状解码器
Figure FDA0003607240830000032
获得中间输出的运动信息引导的掩膜
Figure FDA0003607240830000033
其中U-Net形状解码器
Figure FDA0003607240830000034
移除了中低两层的跳层连接,该过程可以表示为:
Figure FDA0003607240830000035
3.如权利要求2所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:步骤5中将运动信息引导的掩膜
Figure FDA0003607240830000036
显式地传播到处于网络高K层中的表观信息主导的特征之中,这些表观信息主导的特征来源于学生分支,该显式教导操作算子可以被定义为:
Figure FDA0003607240830000037
其中k∈{6-K,7-K,...,5},
Figure FDA0003607240830000038
Figure FDA0003607240830000039
分别表示逐元素相加和逐元素相乘操作。
4.如权利要求3所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:步骤6中学生部分解码器
Figure FDA00036072408300000310
结合传播的掩膜,生成最终的预测结果
Figure FDA00036072408300000311
该过程可以被定义为
Figure FDA00036072408300000312
5.如权利要求1所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:步骤2中所述深度残差网络为ResNet50网络。
6.如权利要求1所述的一种基于隐式引导与显式教导策略的视频显著性目标检测方法,其特征在于:采用图像显著性目标检测DUTS数据集上训练学生分支,视频显著性目标检测DAVIS16数据集的训练集上训练双流分支架构。
CN202110516620.0A 2021-05-12 2021-05-12 一种基于隐式引导与显式教导策略的视频显著性目标检测方法 Active CN113343772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516620.0A CN113343772B (zh) 2021-05-12 2021-05-12 一种基于隐式引导与显式教导策略的视频显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516620.0A CN113343772B (zh) 2021-05-12 2021-05-12 一种基于隐式引导与显式教导策略的视频显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN113343772A CN113343772A (zh) 2021-09-03
CN113343772B true CN113343772B (zh) 2022-06-14

Family

ID=77469308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516620.0A Active CN113343772B (zh) 2021-05-12 2021-05-12 一种基于隐式引导与显式教导策略的视频显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN113343772B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110909594A (zh) * 2019-10-12 2020-03-24 杭州电子科技大学 一种基于深度融合的视频显著性检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195093B2 (en) * 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
US11158055B2 (en) * 2019-07-26 2021-10-26 Adobe Inc. Utilizing a neural network having a two-stream encoder architecture to generate composite digital images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110909594A (zh) * 2019-10-12 2020-03-24 杭州电子科技大学 一种基于深度融合的视频显著性检测方法

Also Published As

Publication number Publication date
CN113343772A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
WO2020088766A1 (en) Methods for optical flow estimation
Chen et al. Multiframe-to-multiframe network for video denoising
CN112085717B (zh) 一种用于腹腔镜手术的视频预测方法及其系统
CN112819853A (zh) 一种基于语义先验的视觉里程计方法
Xu et al. AutoSegNet: An automated neural network for image segmentation
Gu et al. A robust attention-enhanced network with transformer for visual tracking
Yang et al. BANDT: A border-aware network with deformable transformers for visual tracking
Han et al. LIANet: Layer interactive attention network for RGB-D salient object detection
Wang et al. Cbwloss: constrained bidirectional weighted loss for self-supervised learning of depth and pose
CN113343772B (zh) 一种基于隐式引导与显式教导策略的视频显著性目标检测方法
Wang et al. Recurrent multi-level residual and global attention network for single image deraining
Lu et al. Siamese graph attention networks for robust visual object tracking
Zhang et al. Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Cheng et al. Two-branch convolutional sparse representation for stereo matching
Yang et al. Unveil the potential of siamese framework for visual tracking
Mo et al. Realtime global attention network for semantic segmentation
CN114463614A (zh) 使用生成式参数的层次性显著建模的显著性目标检测方法
Gupta et al. Towards an interpretable latent space in structured models for video prediction
Tran Sslayout360: Semi-supervised indoor layout estimation from 360° panorama
Diao et al. A slowfast-based violence recognition method
Peng et al. RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method
Zhai et al. Multi-task learning in autonomous driving scenarios via adaptive feature refinement networks
Sun et al. Unsupervised learning of optical flow in a multi-frame dynamic environment using temporal dynamic modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant