CN113221899A - 一种基于学习原型图的快速视频目标分割系统及方法 - Google Patents

一种基于学习原型图的快速视频目标分割系统及方法 Download PDF

Info

Publication number
CN113221899A
CN113221899A CN202110437589.1A CN202110437589A CN113221899A CN 113221899 A CN113221899 A CN 113221899A CN 202110437589 A CN202110437589 A CN 202110437589A CN 113221899 A CN113221899 A CN 113221899A
Authority
CN
China
Prior art keywords
frame
target
video
prototype
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110437589.1A
Other languages
English (en)
Inventor
周雪
杨杰
陆易
叶喜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Zhejiang Lab
Original Assignee
University of Electronic Science and Technology of China
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Zhejiang Lab filed Critical University of Electronic Science and Technology of China
Priority to CN202110437589.1A priority Critical patent/CN113221899A/zh
Publication of CN113221899A publication Critical patent/CN113221899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于学习原型图的快速视频目标分割系统及方法,属于计算机视觉、机器学习等技术领域。该系统包括:特征提取网络、RPN网络、原型图模块,所述特征提取网络分别与RPN网络和原型图模块连接,所述原型图模块包括依次连接的全卷积模块、Refine Module模块和原型模块。本发明的系统和方法考虑到系数可以随着目标变化而动态变化,相对于其他方法,通过直接训练网络预测目标的掩码,将原型图和系数结合,对各类场景下的视频目标分割都能更灵活的处理,更具鲁棒性。

Description

一种基于学习原型图的快速视频目标分割系统及方法
技术领域
本发明属于计算机视觉、机器学习等技术领域,特别涉及一种基于学习原型图的快速视频目标分割系统及方法。
背景技术
视频目标分割是一个计算机视觉中一个基础的任务。视频目标分割任务要求给视频中的每一帧图像上的每一个像素赋予一个标签,也就是将前景对象与背景区域进行二值标记分离,需要用到模式识别,机器学习等领域的知识。视频目标分割对于视频编辑,目标跟踪,场景理解等广泛应用有着十分重要的意义。随着计算机科学技术、深度学习的发展以及现实生活的需要,视频目标分割在近几年吸引了众多研究者的目光,同时取得了很大的研究进展。视频目标分割任务从监督的程度可以分为三大类:无监督式、半监督式以及交互式视频目标分割。无监督式视频目标分割需要寻找并分割视频中的主要目标,这意味着算法需要自行决定哪个物体才是主要的。半监督式视频目标分割任务给出带有掩模信息的第一帧或者关键帧。交互式视频目标分割通过人手工用鼠标描绘出目标的视频分割大致轮廓,第二步再利用视频分割算法进行视频分割。
目前的视频目标检测算法主要分为两大类:基于掩码传播方法和基于检测的方法。基于掩码传播的算法主要是基于光流信息的。这是因为光流信息在视频描述的早期阶段非常重要,光流表示图像中的每个像素在下一帧图像中移动的方式和位置,因此光流可以作为线索来跟踪像素随时间的变化,以此来建立时间相关性,而基于掩码传播的方法正是利用了物体运动的时间相关性,将掩模信息从第一帧或给定的带注释的帧传播到后续帧。这些方法存在误差积累的问题,在长时间传播后易出现时间崩溃。基于检测的方法在不使用时间信息的情况下,通过学习一个外观模型来对每一帧的目标进行像素级的检测和分割。这些方法依赖于使用给定测试序列的第一帧注释对深度网络进行微调,尽管这些方法在流行的数据集上获得了非常高的精度,但是训练过程需要消耗大量的时间并且难以应用到实际生活中。
发明内容
针对现有技术中存在的问题,本发明提供了一种基于学习原型图的快速视频目标分割系统及方法,该快速视频目标分割方法在RPN网络预测权重系数,再将权重系数加权原型图以及原型图经过线性组合后得到的预测图像进行优化而不是直接对使用固定的参数得到预测图像进行优化,克服了传统方法在目标边界呈现的二义性,不能有效处理尺度变化的问题。
为实现本发明的技术方案,采用如下技术方案:一种基于学习原型图的快速视频目标分割系统,包括:特征提取网络、RPN网络、原型图模块,所述特征提取网络分别与RPN网络和原型图模块连接,所述原型图模块由三个部分组成,包括全卷积模块、Refine Module模块和原型模块。
进一步地,所述特征提取网络为ResNet和FPN组合而成。
本发明还提供了一种快速视频目标分割系统的视频目标分割方法,包括如下步骤:
(1)收集视频,并提供视频中每一帧的目标掩码;
(2)将视频中的第一帧作为参考帧,将参考帧与其对应的目标掩码输入到特征提取网络,得到第一帧目标特征;
(3)将所述视频中的第二帧和第一帧对应的目标掩码输入特征提取网络中,提取特征,将提取的特征和第一帧目标特征进行拼接,随后输入原型图模块,得到原型图;
(4)将步骤(3)提取的特征输入RPN网络,预测目标框以及目标框对应的权重系数;将权重系数加权原型图,经过sigmoid激活函数,得到第二帧的预测目标掩码;
(5)将所述视频中的第三帧和第二帧的目标预测掩码输入特征提取网络中,采用步骤(3)-(4)的方法,得到第三帧的预测目标掩码;
(6)依次对后续帧重复步骤(5),直至对视频中所有帧预测目标掩码;并且当所述快速视频目标分割系统的Binary Cross Entropy损失函数收敛,完成对快速视频目标分割系统的训练;
与现有技术相比,本发明具有如下有益效果:本发明基于学习原型图的快速视频目标分割系统,将典型的快速视频目标分割方法中用于特征提取的编码解码结构的解码器的主干换成ResNet结合FPN结构作为特征提取的躯干,以参考图像和目标图像作为输入,然后将提取到的特征通过RPN和系数层训练来学习原型图的权重系数同时通过另一个子网络模块学习原型图和原型图的相关系数。最后将得到的原型图和对应于原型图的相关系数线性组合即可得到最终的预测结果,采用了隐式学习的方法使得每一张原型图学习到了和前景目标有关的局部信息。由于采用了ResNet结合FPN结构的特征提取网络以及使用RPN网络来学习原型图的相关系数,本发明系统在视频目标分割方法的速度和精度之间取得了很好的平衡,更适合于实际的在线应用。
附图说明
图1是基于原型图学习的快速视频目标分割方法的结构示意图。
图2是RPN网络,用于预测目标框位置和权重系数。
图3是预测输出模块的具体结构。
具体实施方式
本发明提供了一种基于学习原型图的快速视频目标分割系统,包括:特征提取网络、RPN网络、原型图模块,所述特征提取网络分别与RPN网络和原型图模块连接,所述原型图模块包括依次连接的全卷积模块、Refine Module模块和原型模块。一般的视频目标分割方法的网络结构采用编码-解码结构来特征提取,为了使得快速并且高效地完成视频目标分割任务,不仅需要尺寸合适的特征图以保证视频目标分割任务的精度,还希望能够省略掉大量耗时间的解码器来减少时间消耗,提升视频目标分割的速度。特征金字塔网络(FPN)恰好满足可上面两个条件。因此,为了在获得合适尺寸大小的特征图的同时取得更加快的速度,将用于特征提取的编码解码结构的解码器的主干换成FPN结构作为特征提取的躯干,提取特征,将获得的特征送入两个并行的子网络用以学习原型图和学习相关系数。所述特征提取网络为ResNet和FPN,最终将获得的原型图和对于原型图的相关系数线性组合即可得到最终的预测结果。将预测出来的掩模信息与下一帧图像连接起来作为下一个目标输入。这样,每个原型图都隐式地学习到了检测图像的某个区域。由于采用了FPN结构的特征提取网络以及使用RPN网络来学习原型图的相关系数,因此。本发明的系统在速度和精度之间取得了很好的平衡,更适合于实际的在线应用。
如图1提供了本发明快速视频目标分割系统的视频目标分割方法的结构示意图,包括如下步骤:
(1)视频序列的第一帧是作为参考帧,与其对应的目标掩码输入到特征提取网络中,作为参考特征。
(2)视频的第二帧作为目标输入,和前一帧的目标掩码输入到特征提取网络中得到当前帧特征。当前帧特征和参考特征拼接融合,随后输入到原型图模块,得到原型图。具体过程如下:
特征提取网络的输入有两个,分别是参考输入和目标输入。其中,参考输入为视频中的第一帧,目标输入为所述视频中的第二帧和第一帧对应的目标掩码。在目标输入的子网络中得到C1,C2,C3,C4,C5特征图,然后C5经过上采样后得到与C4大小相等的P5,然后将P5与C4融合然后上采样得到与C3大小相同的P4,以此类推得到P3,P2以及P1。P3,P4,P5以及C2将会被用于后续的原型图提取以及对应于原型图的相关系数的获得,其中P3,P4,P5将输入到RPN以及参数提取层,而C2则输入到原型图学习分支中的Refine Module用以帮助学习原型图。P3和C2的输出步长分别为8和4。所有的模型结构全部采用全卷积神经网络。
(4)将步骤(3)提取的特征输入RPN网络,RPN的结构如图2,由一个卷积层和三个并行1x1卷积层组成,三个1x1的卷积层分别用于预测属于前景目标的概率、预测目标框的位置、预测目标框的权重系数。相较于目前常用的RPN网络,我们在RPN网络中添加一个分支用于学习系数,得到预测目标框集合以及目标框对应的权重系数集合。在集合中,使用指定分数作为阈值和非极大值抑制筛选出质量高的目标框和权重系数,如果得到不止一个目标框和权重系数,则使用平均结果;所述权重系数的数量与原型图的数量相等。权重系数和原型图作为预测模块的两个输入(如图3),将权重系数加权原型图,经过sigmoid激活函数,得到第二帧的预测目标掩码;
(5)将所述视频中的第三帧和第二帧的目标预测掩码输入到特征提取网络中,采用步骤(3)-(4)的方法,得到第三帧的预测目标掩码;
(6)重复步骤(5),按照时间顺序依次处理后续帧,直至对视频中所有帧预测目标掩码;并且当所述快速视频目标分割系统的Binary Cross Entropy损失函数收敛,完成对快速视频目标分割系统的训练;
本发明快速视频目标分割系统的视频目标分割方法,通过结合原型图和系数,让模型学习到关注重点目标感兴趣区域的能力,因此解决了模型在目标边缘处的决策呈现二义性,不能准确分割边缘的问题。具有不借助大部分方法都需要的在线训练过程,以及计算量小的优点,实现了比其他方法更精准的视频目标分割结果。

Claims (3)

1.一种基于学习原型图的快速视频目标分割系统,其特征在于,包括:特征提取网络、RPN网络、原型图模块,所述特征提取网络分别与RPN网络和原型图模块连接,所述原型图模块包括依次连接的全卷积模块、Refine Module模块和原型模块。
2.根据权利要求1所述快速视频目标分割系统,其特征在于,所述特征提取网络为ResNet和FPN。
3.一种权利要求1所述快速视频目标分割系统的视频目标分割方法,其特征在于:包括如下步骤:
(1)收集视频,并提供视频中每一帧的目标掩码;
(2)将视频中的第一帧作为参考帧,将参考帧与其对应的目标掩码输入特征提取网络,得到第一帧目标特征;
(3)将所述视频中的第二帧和第一帧对应的目标掩码输入特征提取网络中,提取特征,将提取的特征和第一帧目标特征进行拼接,随后输入原型图模块,得到原型图;
(4)将步骤(3)提取的特征输入RPN网络,预测目标框以及目标框对应的权重系数;所述权重系数的数量与原型图的数量相等,将权重系数加权原型图,经过sigmoid激活函数,得到第二帧的预测目标掩码;
(5)将所述视频中的第三帧和第二帧的目标预测掩码输入到特征提取网络中,采用步骤(3)-(4)的方法,得到第三帧的预测目标掩码;
(6)重复步骤(5),直至对视频中所有帧预测目标掩码;并且当所述快速视频目标分割系统的Binary Cross Entropy损失函数收敛,完成对快速视频目标分割系统的训练;
(7)重新收集视频,将视频输入训练好的快速视频目标分割系统中,输出每一帧中的目标掩码。
CN202110437589.1A 2021-04-22 2021-04-22 一种基于学习原型图的快速视频目标分割系统及方法 Pending CN113221899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437589.1A CN113221899A (zh) 2021-04-22 2021-04-22 一种基于学习原型图的快速视频目标分割系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437589.1A CN113221899A (zh) 2021-04-22 2021-04-22 一种基于学习原型图的快速视频目标分割系统及方法

Publications (1)

Publication Number Publication Date
CN113221899A true CN113221899A (zh) 2021-08-06

Family

ID=77088469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437589.1A Pending CN113221899A (zh) 2021-04-22 2021-04-22 一种基于学习原型图的快速视频目标分割系统及方法

Country Status (1)

Country Link
CN (1) CN113221899A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN110443173A (zh) * 2019-07-26 2019-11-12 华中科技大学 一种基于帧间关系的视频实例分割方法及系统
CN111968123A (zh) * 2020-08-28 2020-11-20 北京交通大学 一种半监督视频目标分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN110443173A (zh) * 2019-07-26 2019-11-12 华中科技大学 一种基于帧间关系的视频实例分割方法及系统
CN111968123A (zh) * 2020-08-28 2020-11-20 北京交通大学 一种半监督视频目标分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DANIEL BOLYA ET AL.: "YOLACT Real-time Instance Segmentation", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
DANIEL BOLYA ET AL.: "Yolact++: Better real-time instance segmentation", 《ARXIV.ORG》 *
SEOUNG WUG OH ET AL.: "Fast Video Object Segmentation by Reference-Guided Mask Propagation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
张继凯 等: "深度学习的图像实例分割方法综述", 《小型微型计算机系统》 *

Similar Documents

Publication Publication Date Title
Köpüklü et al. You only watch once: A unified cnn architecture for real-time spatiotemporal action localization
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110910391A (zh) 一种双模块神经网络结构视频对象分割方法
CN112132856A (zh) 一种基于自适应模板更新的孪生网络跟踪方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及系统
CN113344932A (zh) 一种半监督的单目标视频分割方法
Bi et al. Iemask r-cnn: Information-enhanced mask r-cnn
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
Lu et al. Label-efficient video object segmentation with motion clues
CN114359167A (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN113221899A (zh) 一种基于学习原型图的快速视频目标分割系统及方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
Leng et al. CRNet: context-guided reasoning network for detecting hard objects
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
Li et al. Video prediction for driving scenes with a memory differential motion network model
Wang et al. Insulator defect detection based on improved you-only-look-once v4 in complex scenarios
Wang et al. Learning hybrid representations of semantics and distortion for blind image quality assessment
Ge et al. A visual tracking algorithm combining parallel network and dual attention-aware mechanism
Tian et al. Lightweight dual-task networks for crowd counting in aerial images
CN113744306B (zh) 基于时序内容感知注意力机制的视频目标分割方法
Song et al. Person Re-Identification in Panoramic Views Based on Bayesian Transformers
Wang et al. A Dynamic-Attention on Crowd Region with Physical Optical Flow Features for Crowd Counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806