CN112967309A - 一种基于自监督学习的视频目标分割方法 - Google Patents

一种基于自监督学习的视频目标分割方法 Download PDF

Info

Publication number
CN112967309A
CN112967309A CN202110216793.0A CN202110216793A CN112967309A CN 112967309 A CN112967309 A CN 112967309A CN 202110216793 A CN202110216793 A CN 202110216793A CN 112967309 A CN112967309 A CN 112967309A
Authority
CN
China
Prior art keywords
video
frame
network
self
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110216793.0A
Other languages
English (en)
Other versions
CN112967309B (zh
Inventor
洪德祥
李国荣
苏荔
黄庆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Chinese Academy of Sciences
Original Assignee
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Chinese Academy of Sciences filed Critical University of Chinese Academy of Sciences
Priority to CN202110216793.0A priority Critical patent/CN112967309B/zh
Publication of CN112967309A publication Critical patent/CN112967309A/zh
Application granted granted Critical
Publication of CN112967309B publication Critical patent/CN112967309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自监督学习的视频目标分割方法,所述方法包括以下步骤:步骤1,建立视频目标分割网络;步骤2,对视频目标分割网络进行训练,所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络,其中,所述记忆检索子网络用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;所述协作优化子网络用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。本发明公开的基于自监督学习的视频目标分割方法显著提高了预测结果的精度,降低了噪声影响。

Description

一种基于自监督学习的视频目标分割方法
技术领域
本发明属于计算机视觉技术领域,具体涉及用于自监督视频目标分割的协作优化网络,尤其涉及一种基于自监督学习的视频目标分割方法。
背景技术
视频目标分割是计算机视觉中的一项基本任务,有许多重要的应用,例如:视频编辑、机器人技术和自动驾驶汽车等,其旨在从整个视频的背景中分割出感兴趣的目标。
现有技术中的大多数视频目标分割(VOS)方法都需要大量带有逐像素标注的视频序列,以构建健壮的模型。然而,收集如此大量的具有完整标注的视频序列既昂贵又费时。针对上述情况,研究人员提出了自我监督方法,尝试在训练阶段利用几乎无限的未标记视频数据来学习视频特征表示,尽管它们受到各种动机的驱动,但是这些方法在很大程度上都依赖于像素点之间的匹配关系。为了以自监督的方式学习特征表示,研究人员提出了两种辅助任务——视频着色和循环一致性跟踪。但是,由于视频的不连续性(例如遮挡、快速运动和运动模糊),像素级匹配策略并不是最优的预测方法,经常会导致预测结果中产生大量噪声。
因此,有必要提供一种预测结果噪声小、准确性高的基于自监督学习的视频目标分割方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于自监督学习的视频目标分割方法,该方法采用记忆检索子网络基于像素级对应关系将mask传播到后续帧,采用协作优化子网络融合参考帧和查询帧信息,并学习参考帧与查询帧之间的协作关系以优化传播的mask;具体使用视频着色任务来训练记忆检索子网络,使用循环一致性区域跟踪来训练协作优化子网络,显著提高了预测结果的精度,降低了结果中的噪声,从而完成了本发明。
具体来说,本发明的目的在于提供以下方面:
第一方面,提供了一种基于自监督学习的视频目标分割方法,所述方法包括以下步骤:
步骤1,建立视频目标分割网络;
步骤2,对视频目标分割网络进行训练。
第二方面,提供了一种基于自监督学习的视频目标分割系统,优选用于实施第一方面所述的方法,所述系统包括记忆检索单元和协作优化单元,其中,
记忆检索单元,用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;
协作优化单元,用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。
第三方面,提供了一种计算机可读存储介质,存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行第一方面所述基于自监督学习的视频目标分割方法的步骤。
第四方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行第一方面所述基于自监督学习的视频目标分割方法的步骤。
本发明所具有的有益效果包括:
(1)本发明提供的基于自监督学习的视频目标分割方法,通过未标记的视频数以自监督的方式训练网络模型,无需任何人工注释,节约了成本;
(2)本发明提供的基于自监督学习的视频目标分割方法,在训练网络模型的过程中,采用视频着色和循环一致性跟踪作为辅助任务,显著提高了预测结果的精度,降低了噪声影响。
附图说明
图1示出根据本发明一种优选实施方式的基于自监督学习的视频目标分割网络的架构图;
图2示出根据本发明一种优选实施方式的解码子网络的结构示意图;
图3示出本发明实施例1中不同方法的视频分割效果对比图。
具体实施方式
下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本发明提供了一种基于自监督学习的视频目标分割方法,所述方法包括以下步骤:
步骤1,建立视频目标分割网络;
步骤2,对视频目标分割网络进行训练。
以下进一步描述所述训练步骤:
步骤1,建立视频目标分割网络。
根据本发明一种优选的实施方式,如图1所示,所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络,
其中,所述记忆检索子网络用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜(mask)传播到后续帧;
所述协作优化子网络用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。
在本发明中,根据视频在时间上的连贯性,目标或场景会随着时间的推移逐渐平滑且逐渐移动,可以根据目标的运动从较早的帧传播到后续帧。
本发明人研究发现,如果仅从最近的帧传播目标掩膜,则很容易导致跟踪器漂移,即随后的预测会变得不准确,因为视频中的外观会发生变化或被遮挡,因此,本发明中优选在记忆检索子网络中设置了外部记忆单元。
在进一步优选的实施方式中,所述记忆检索子网络包括特征提取网络和外部记忆单元,
其中,特征提取网络用于提取视频帧的特征,并将特征存储至外部记忆单元。
具体地,设定视频帧为It,特征提取网络将视频帧编码到特征子空间ft=φ(It),其中φ(·)是特征嵌入网络。
将查询帧和参考帧分别定义为Iq,Ir,并将其对应的特征定义为fq,fr,令
Figure BDA0002954074020000041
Figure BDA0002954074020000042
分别表示fr中的第i个像素和fq中的第j个像素,则fq和fr之间的相似度矩阵如下式(一)所示:
Figure BDA0002954074020000043
其中,运算符“·”表示内积。
本发明人考虑到,由于视频帧在时间上是连贯的,在目标掩膜(mask)传播期间应考虑空间依赖性,设定参考帧R和查询帧Q,查询帧Q中位于位置loc(q)的像素q更可能在参考帧R中找到与之匹配的像素,因此,本发明中优选将上式(一)所示的相似度矩阵与空间相似度系数相乘来更新相似度矩阵,更新后的相似度矩阵如下式(二)所示:
Figure BDA0002954074020000051
其中,loc(i)表示第i个像素点的坐标,loc(j)表示第j个像素点的坐标,σ表示超参数。
在本发明中,由于在时域中距离较远的像素具有较弱的空间依赖性,因此优选设置一个超参数来控制空间依赖性的强度。
优选地,当参考帧和查询帧之间的帧间隔较长时(优选间隔大于5帧),设置的超参数较大(优选σ=21);当参考帧和查询帧之间的帧间隔较接近时(优选间隔小于等于5帧),设置的超参数较小(优选σ=8)。
本发明人研究发现,从成对的视频帧(一个参考帧与一个查询帧为一对视频帧)中学习匹配关系的一个问题是不能有效地处理物体的消失和再现,例如,如果对象在一个帧It中被遮挡并在下一帧It+1中重新出现,则成对匹配将被视为失败,因为It+1中的对象不能在上一帧It中找到其对应项。因此,本发明中优选在记忆检索子网络中设置外部记忆单元,以缓存多个先前帧的特征嵌入和相应的预测蒙版。
但是,在所有先前帧上计算相似度矩阵是不可行的,因此,在更进一步优选的实施方式中,通过下述采样策略从外部记忆单元中采样少量帧:
(i)从先前的N帧中抽取T帧;
(ii)在T帧中,在查询帧之前对3个连续帧进行采样,以对局部依赖关系进行建模;
(iii)从外部记忆单元中其余的N-3帧中对其它T-3帧进行采样,以建模长期交互关系。
其中,(iii)中的采样为稀疏采样。
优选地,设定一个查询帧Iq和一个长度为N的外部记忆单元M来缓存计算结果,根据上述采样策略对M中的子集Msub进行采样,则目标掩膜的传播按照下式进行:
Figure BDA0002954074020000061
其中,
Figure BDA0002954074020000062
表示查询帧在j位置传播得到的目标掩膜,
Figure BDA0002954074020000063
表示Msub中的第t帧中的预测结果的mask中第k个像素,At表示查询帧与Msub中的第t帧之间的相似性矩阵,
Figure BDA0002954074020000064
表示矩阵At的k行j列中的元素。
在本发明中,协作优化子网络用于汇总参考帧和查询帧的信息,并隐式地研究它们之间的协作关系。具体地,查询帧包括查询帧的特征及其来自记忆检索子网络的传播mask,尽管传播的mask可能包含一些错误匹配点,但它可以大致定位目标位置。因此,查询帧信息可以使网络知道在哪儿找到对象。由于给出了第一帧中目标对象的精确mask,可以将第一帧的特征及其对应的带标注的目标mask用作参考信息,而参考信息可以使网络知道要分割的目标是什么。因此,本发明中将查询帧和参考帧信息连接起来,进而通过协优化子网络获得最终优化的预测结果。
优选地,为了证明信息协作(参考帧信息与查询帧信息的协作)的有效性,可以采用常用的解码子网络来完成预测功能,例如,可以采用类似于UNet的简单解码子网络。
更优选地,采用的解码子网络包括四个优化模块(如图2所示),其中,每个模块含有两个3×3的卷积层,第三个模块含有一个2×2的双线性上采样层。
其中,将Sigmoid函数应用于输出以生成mask,采用双线性插值运输将mask上采样至原始图像分辨率。
步骤2,对视频目标分割网络进行训练。
其中,步骤2包括训练记忆检索子网络和训练协作优化子网络。
优选地,以自监督的方式训练记忆检索子网络的特征提取网络,学习视频中的像素逐个对应关系以作为帧重建的结果。
更优选地,所述记忆检索子网络的训练包括以下步骤:
步骤2-1,对视频帧(查询帧和参考帧)进行预处理;
步骤2-2,获得查询帧与参考帧的相似度矩阵;
步骤2-3,重建参考帧。
其中,步骤2-1中,所述预处理包括将视频RGB帧转换为LAB颜色空间的步骤。
RGB是由红色通道(R)、绿色通道(G)和蓝色通道(B)组成的,最亮的红色+最亮的绿色+最亮的蓝色=白色,最暗的红色+最暗的绿色+最暗的蓝色=黑色,在最亮和最暗之间,相同明暗度的红色+相同明暗度的绿色+相同明暗度的蓝色=灰色。在RGB的任意一个通道内,白和黑表示这个颜色的明暗度。
LAB中的明度通道(L)专门负责整张图的明暗度,简单的说就是整幅图的黑白版,A通道和B通道只负责颜色的多少。
在本发明中,视频RGB帧转换为LAB颜色空间的过程可以按照现有技术中常用的方法进行。
优选地,在LAB颜色空间中随机丢弃视频帧的一个颜色通道,所述随机丢弃的概率为0.4~0.6,优选为0.5。
本发明人研究发现,在LAB颜色空间中随机丢弃视频帧的一个颜色通道,能够防止模型在训练的过程中直接根据像素点的数值去重建查询帧。
步骤2-2中,设定查询帧中的每个像素都由一个或多个参考帧中的某些像素重构,给定查询帧Iq和参考帧Ir,获得相似度矩阵S,
优选地,所述相似度矩阵按照式(一)获得:
Figure BDA0002954074020000081
步骤2-3中,根据下式(三)重建参考帧:
Figure BDA0002954074020000082
根据本发明一种优选的实施方式,所述记忆检索子网络训练模型的损失函数为Huber损失,优选如下式所示:
Figure BDA0002954074020000083
Figure BDA0002954074020000084
其中,Lmen表示记忆检索模块总损失函数,zi表示第i个位置处计算的损失函数,
Figure BDA0002954074020000085
表示位置i处的参考帧,
Figure BDA0002954074020000086
表示位置i处的重建参考帧。
其中,当实际值和预测值之间的残差小于1时,损失函数为L2 loss,当实际值和预测值之间的残差大于1时,损失函数为L1 loss。本发明人研究发现,单纯使用L1 loss,其梯度始终很大,会使得模型很难收敛到最优,而L2 loss的梯度会随着其误差减小而减小,帮助模型收敛到最优,但是L2 loss对异常值非常敏感。因此,本发明中优选采用Huber损失函数,以结合L2 loss和L1 loss的优点。
在对记忆检索子网络进行训练之后,获得了编码器(即特征提取网络)的最优参数,以进行协作优化子网络的训练。
本发明人发现,训练协作优化子网络需要相应的参考帧和查询帧对应的标注作为监督信号,但是,由于没有人工标注,难以训练协作优化子网络。因此,为了解决上述问题,本发明中优选采用循环一致性区域跟踪作为代理任务,进行训练。
根据本发明一种优选的实施方式,所述协作优化子网络的训练按照包括以下步骤的方法进行:
步骤I,在视频帧序列中采样两个帧,在第一帧上初始化目标掩膜。
根据本发明一种优选的实施方式,所述目标掩膜的初始化包括以下步骤:
步骤i,在单个视频帧中寻找显著区域,产生视觉显著性;
步骤ii,获取连续视频帧的时间显著区域,产生运动显著性。
其中,步骤i中,为了产生视觉显著性,优选使用训练好的显著物体检测网络在单个视频帧中找到显著区域,所述显著物体检测网络是指Pyramid feature attentionnetwork for saliency detection。
步骤ii中,运动显著性的生成优选按照下述步骤进行:
首先,用flownet算法提取两个相邻视频帧之间的光流,并将光流图像标准化为[0,1]之间;
然后,将像素值大于阈值θ的区域视为运动显着掩膜。
其中,阈值θ的范围为0.4~0.6。
本发明人发现,与现有技术中随机选择视频帧的子区域进行初始化的方法不同,本发明所述的视觉显著生成和运动显著生成组合的初始化生成策略,可以从视频序列中捕获时空先验,显著提高性能。
步骤II,在上述两个帧上执行向前和向后跟踪,将最后预测的目标掩膜与初始化的目标掩膜之间的误差作为监督信号。
其中,将在视频帧采样的两个帧表示为I1,I2,在两个帧上执行向前和向后跟踪(I1→I2→I1)。
在本发明中,所述基于自监督学习的视频目标分割网络,按照包括上述步骤的方法进行训练后,获得收敛的网络模型。
根据本发明一种优选的实施方式,在步骤2之后,还包括步骤3,对视频目标分割网络模型进行测试。
其中,将视频目标分割网络模型应用到实际视频任务中,以验证模型的有效性。
本发明所述的基于自监督学习的视频目标分割方法,采用记忆检索子网络执行点对点对应并生成查询帧的传播mask,利用协作优化子网络汇总参考帧和查询帧信息,并隐式学习它们之间的协作关系,以优化传播的目标掩膜。网络模型通过未标记的视频数以自监督的方式训练,无需任何人工注释。根据本发明的实施例,本发明所述方法在视频对象分割数据集DAVIS-2017和Youtube-Vos上的性能超越了最新的自我监督方法,并与完全监督的方法进一步缩小了差距。
本发明还提供了一种基于自监督学习的视频目标分割系统,优选用于实施上述方法,所述系统包括记忆检索单元和协作优化单元,其中,
记忆检索单元,用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜(mask)传播到后续帧;
协作优化单元,用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。
根据本发明一种优选的实施方式,所述记忆检索单元包括特征提取单元和外部记忆单元,
其中,特征提取单元用于提取视频帧的特征,并将特征存储至外部记忆单元。
本发明还提供了一种计算机可读存储介质,存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行所述基于自监督学习的视频目标分割方法的步骤。
本发明中所述的基于自监督学习的视频目标分割方法可借助软件加必需的通用硬件平台的方式来实现,所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行所述基于自监督学习的视频目标分割方法的步骤。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例1
1、数据集
Youtube-VOS数据集,包含4,453个YouTube视频剪辑和94个对象类别,是迄今为止我们所知的最大视频对象分割数据集。整个数据集分为训练(3,471),验证(474)和测试(508)组。由于数据集已用于竞赛(即第一次大规模视频对象分割挑战),因此测试集仅在竞赛期间可用,而验证集将始终公开。因此,本发明仅使用验证集进行评估。在训练集中,有65个唯一对象类别被视为可见类别。在验证集中,有91个唯一对象类别,有65个类别是在训练集中出现过的,剩下的26类是没出现过的。没有出现的类别用于评估不同算法的泛化能力。本发明的算法在验证集上评估性能。
DAVIS-2017数据集,共包含150个视频,其中,验证集内包含30段视频。本发明在这30段视频上评估算法的性能。
2、性能评测准则
性能由两个指标衡量:区域相似度J和轮廓精确度F。
区域相似度定义为预测的掩膜M和实际的掩膜G之间的交并比。
Figure BDA0002954074020000121
轮廓精确度将掩膜Mask看成一系列闭合轮廓的集合,并计算预测的轮廓和实际的轮廓之间的F1得分。Pc和Rc分别表示精确率和召回率。
Figure BDA0002954074020000122
3、任务描述
使用Youtube-VOS和DAVIS-2017中训练集的原始视频数据来训练本发明所述的视频目标分割方法,其中,特征编码器在所有实验中均采用相同的修改后的ResNet-18,将四个残差层的步幅分别设置为[1,2,1,1],网络产生具有原始图像空间分辨率1/4的特征嵌入。
具体地,首先视频着色任务中训练记忆检索子网络,使用一对视频帧作为输入,即一个参考帧和一个查询帧,在预处理期间,将输入大小调整为256×256×3,并以概率p=0.5随机丢弃其中一个颜色通道;使用SGD(随机梯度下降)优化器,其动量为0.9,权重衰减为5e-4;初始学习率设置为1e-3,批处理大小设置为24;使用余弦学习率调整策略,并训练20个epoch。
在对记忆检索子网络预训练后,固定了编码器的参数,并通过循环一致性区域跟踪任务训练协作优化子网络,使用两种mask生成策略(视觉显著生成和运动显著生成)在参考帧上随机初始化mask;训练样本由2帧组成,间隔为4至16帧,其中第一帧用作参考帧,另一帧用作查询帧,所有帧都调整为256×256×3;使用批处理大小为24的SGD优化算法,学习率1e-3和余弦学习率调整策略来优化模型。
其中,使用记忆检索子网络来计算亲和度矩阵,然后,协作优化子网络通过结合参考帧和查询帧信息来优化预测结果,最终的调优的预测结果和查询特征被缓存在外部记忆单元中。在实施过程中,从外部记忆单元中采样了9个帧以进行mask传播,包括在查询帧之前连续建模3个帧以建模短期依赖性,并从其余帧中稀疏采样了6个帧以建模长期交互关系;对于前9帧,只对查询帧之前的3个连续帧进行采样;设置σ=8以适配短期依赖关系,设置σ=21建模长期交互关系。在有多个目标的情况下,协作优化子网络分别预测每个目标的结果,然后将它们的预测结果合并以形成最终结果。
4、结果与分析
在DAVIS-2017数据集和Youtube-VOS数据集上,本发明所述方法与现有方法的性能比对结果分别如表1和表2所示。
表1 DAVIS-2017数据集
Figure BDA0002954074020000131
Figure BDA0002954074020000141
表2 Youtube-VOS数据集
Figure BDA0002954074020000142
其中,Vid.Color所述方法具体如文献“Carl Vondrick,Abhinav Shrivastava,Alireza Fathi,Sergio Guadarrama,and Kevin Murphy.Tracking emerges bycolorizing videos.In Proceedings of the European conference on computervision(ECCV),pages 391–408,2018”中所述;
CycleTime所述方法具体如文献“Xiaolong Wang,Allan Jabri,and Alexei AEfros.Learning correspondence from the cycle-consistency of time.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 2566–2576,2019”中所述;
CorrFlow所述方法具体如文献“Z.Lai and W.Xie.Self-supervised learningfor video correspondence flow.In BMVC,2019”中所述;
UVC所述方法具体如文献“Xueting Li,Sifei Liu,Shalini De Mello,XiaolongWang,Jan Kautz,and Ming-Hsuan Yang.Joint-task self-supervised learning fortemporal correspondence.In Advances in Neural Information Processing Systems,pages 318–328,2019”中所述;
MAST所述方法具体如文献“Zihang Lai,Erika Lu,and Weidi Xie.Mast:Amemory-augmented self-supervised tracker.In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,pages 6479–6488,2020”中所述。
本发明所述方法与MAST方法的视频分割效果对比如图3所示。
由表1和表2可以看出,本发明所述方法的性能显著超越了最新的自我监督方法。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。

Claims (10)

1.一种基于自监督学习的视频目标分割方法,其特征在于,所述方法包括以下步骤:
步骤1,建立视频目标分割网络;
步骤2,对视频目标分割网络进行训练。
2.根据权利要求1所述的基于自监督学习的视频目标分割方法,其特征在于,所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络,
其中,所述记忆检索子网络用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;
所述协作优化子网络用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。
3.根据权利要求1所述的基于自监督学习的视频目标分割方法,其特征在于,步骤2包括训练记忆检索子网络和训练协作优化子网络;
所述记忆检索子网络的训练包括以下步骤:
步骤2-1,对视频帧进行预处理;
步骤2-2,获得查询帧与参考帧的相似度矩阵;
步骤2-3,重建参考帧。
4.根据权利要求3所述的基于自监督学习的视频目标分割方法,其特征在于,
步骤2-1中,所述预处理包括将视频RGB帧转换为LAB颜色空间的步骤。
5.根据权利要求3所述的基于自监督学习的视频目标分割方法,其特征在于,所述协作优化子网络的训练按照包括以下步骤的方法进行:
步骤I,在视频帧序列中采样两个帧,在第一帧上初始化目标掩膜;
步骤II,在上述两个帧上执行向前和向后跟踪,将最后预测的目标掩膜与初始化的目标掩膜之间的误差作为监督信号。
6.根据权利要求5所述的基于自监督学习的视频目标分割方法,其特征在于,所述目标掩膜的初始化包括以下步骤:
步骤i,在单个视频帧中寻找显著区域,产生视觉显著性;
步骤ii,获取连续视频帧的时间显著区域,产生运动显著性。
7.一种基于自监督学习的视频目标分割系统,优选用于实施权利要求1至6之一所述的方法,其特征在于,所述系统包括记忆检索单元和协作优化单元,其中,
记忆检索单元,用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;
协作优化单元,用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。
8.根据权利要求7所述的基于自监督学习的视频目标分割系统,其特征在于,所述记忆检索单元包括特征提取单元和外部记忆单元,
其中,特征提取单元用于提取视频帧的特征,并将特征存储至外部记忆单元。
9.一种计算机可读存储介质,其特征在于,存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行权利要求1至6之一所述基于自监督学习的视频目标分割方法的步骤。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行权利要求1至6之一所述基于自监督学习的视频目标分割方法的步骤。
CN202110216793.0A 2021-02-26 2021-02-26 一种基于自监督学习的视频目标分割方法 Active CN112967309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110216793.0A CN112967309B (zh) 2021-02-26 2021-02-26 一种基于自监督学习的视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110216793.0A CN112967309B (zh) 2021-02-26 2021-02-26 一种基于自监督学习的视频目标分割方法

Publications (2)

Publication Number Publication Date
CN112967309A true CN112967309A (zh) 2021-06-15
CN112967309B CN112967309B (zh) 2022-07-26

Family

ID=76275671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110216793.0A Active CN112967309B (zh) 2021-02-26 2021-02-26 一种基于自监督学习的视频目标分割方法

Country Status (1)

Country Link
CN (1) CN112967309B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630869A (zh) * 2023-07-26 2023-08-22 北京航空航天大学 一种视频目标分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117906A1 (en) * 2018-10-12 2020-04-16 Adobe Inc. Space-time memory network for locating target object in video content
CN111242027A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117906A1 (en) * 2018-10-12 2020-04-16 Adobe Inc. Space-time memory network for locating target object in video content
CN111242027A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DEXIANG HONG ET AL.: "Siamese Dynamic Mask Estimation Network for Fast Video Object Segmentation", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *
SEOUNG WUG OH: "Fast Video Object Segmentation by Reference-Guided Mask Propagation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
胡志军等: "基于内容的视频检索综述", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630869A (zh) * 2023-07-26 2023-08-22 北京航空航天大学 一种视频目标分割方法
CN116630869B (zh) * 2023-07-26 2023-11-07 北京航空航天大学 一种视频目标分割方法

Also Published As

Publication number Publication date
CN112967309B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
US11551333B2 (en) Image reconstruction method and device
Zhang et al. DCSR: Dilated convolutions for single image super-resolution
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
Xiao et al. Heterogeneous knowledge distillation for simultaneous infrared-visible image fusion and super-resolution
CN113378600B (zh) 一种行为识别方法及系统
CN111695457A (zh) 一种基于弱监督机制的人体姿态估计方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN111460876A (zh) 用于识别视频的方法和装置
Zhu et al. Clf-net: Contrastive learning for infrared and visible image fusion network
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN112967309B (zh) 一种基于自监督学习的视频目标分割方法
Ge et al. Improving road extraction for autonomous driving using swin transformer unet
CN112347965A (zh) 一种基于时空图的视频关系检测方法和系统
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
Kasliwal et al. CoReFusion: Contrastive Regularized Fusion for Guided Thermal Super-Resolution
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
Zhao Image semantic segmentation method based on GAN network and FCN model
Dong et al. Upetu: A unified parameter-efficient fine-tuning framework for remote sensing foundation model
Tian et al. Depth inference with convolutional neural network
Yang et al. A crowd counting method via density map and counting residual estimation
Wang et al. Fusion representation learning for foreground moving object detection
Zhang et al. Deep external and internal learning for noisy compressive sensing
Pal et al. MAML-SR: Self-adaptive super-resolution networks via multi-scale optimized attention-aware meta-learning
CN114549591B (zh) 时空域行为的检测和跟踪方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant