CN110443173B - 一种基于帧间关系的视频实例分割方法及系统 - Google Patents

一种基于帧间关系的视频实例分割方法及系统 Download PDF

Info

Publication number
CN110443173B
CN110443173B CN201910681950.8A CN201910681950A CN110443173B CN 110443173 B CN110443173 B CN 110443173B CN 201910681950 A CN201910681950 A CN 201910681950A CN 110443173 B CN110443173 B CN 110443173B
Authority
CN
China
Prior art keywords
network
frame
key frame
video
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910681950.8A
Other languages
English (en)
Other versions
CN110443173A (zh
Inventor
韩守东
刘昱均
郑丽君
夏晨斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910681950.8A priority Critical patent/CN110443173B/zh
Publication of CN110443173A publication Critical patent/CN110443173A/zh
Application granted granted Critical
Publication of CN110443173B publication Critical patent/CN110443173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于帧间关系的视频实例分割方法及系统,属于视频处理领域,包括:通过端到端的训练,得到目标Mask R‑CNN网络和目标FlowNet网络;依次获取待处理视频中的每一帧图像,并判断其类型,若为关键帧,则利用目标Mask R‑CNN网络进行实例分割,否则,获得对应的关键帧,并利用视频实例分割模型进行实例分割;视频实例分割模型,利用目标Mask R‑CNN网络对关键帧进行实例分割;视频实例分割模型,还利用目标FlowNet网络计算关键帧与非关键帧之间的流场和尺度场,并根据流场和尺度场将关键帧的金字塔特征传播到非关键帧,以及根据非关键帧的特征对非关键帧进行实例分割。本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。

Description

一种基于帧间关系的视频实例分割方法及系统
技术领域
本发明属于视频处理领域,更具体地,涉及一种基于帧间关系的视频实例分割方法及系统。
背景技术
实例分割(Instance segmentation)将场景图像分割成多个区域,每个区域对应一个对象,并且判断该区域的类别。实例分割是一种最接近人类真实视觉感受的计算机视觉任务,尤其在自动驾驶领域有着很高的应用价值,如通过实例分割检测车道线、行人、障碍物等,以指导自动驾驶。
2014年提出的SDS(同时检测与分割,Simultaneous Detection andSegmentation)算法可以说是最早的实例分割算法,也是现有实例分割算法的基础。该算法将检测与分割结合在一起,具体来说,由目标检测提供对象的粗略定位,然后通过语义分割对每个像素进行分类。虽然SDS算法的准确率与现有先进算法相比有一定的差距,但它为实例分割算法提供了思路,也为后续实例分割领域的发展奠定了基础。随后,在SDS的基础上提出的HyperColumns算法,通过融合低层特征和高层特征,对细节的处理更加精细,从而提升分类的精确度。同时,CFM(卷积特征掩码,Convolutional Feature Masking)算法首次将掩码(Mask)这一概念引入到实例分割中,也就是通过使用图像块掩盖住图像中的指定的区域,从而改变图像处理的范围。Mask R-CNN是现今使用最多,效率最高的实例分割算法,不仅能都实现优秀的实例分割结果,还具有很强的扩展性,可以进一步应用在人体特征点检测等方面。虽然该算法是实例分割领域的佼佼者。
基于单幅图像的目标检测和分割算法日渐成熟,但对于视频处理而言,现有算法大多将视频视为多幅单帧图像的组合,直接将单幅图像的实例分割算法应用于每幅单帧图像的分割当中。这种视频实例分割方法完全忽略了时间连续性和视频中前后帧之间的关系,将视频中的每一帧作为一个独立的个体,对每一帧图像都要重新处理,这导致了处理视频帧的计算量较大,处理耗时较长,无法满足视频处理的实时性要求。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于帧间关系的视频实例分割方法及系统,其目的在于,在完成高质量实例分割的同时提升视频实例分割的速度。
为实现上述目的,按照本发明的第一方面,提供了一种基于帧间关系的视频实例分割方法,包括:
利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络;
依次获取待处理视频中的每一帧图像,并在获取到任意一帧视频帧Ii后判断其类型,若为关键帧,则利用目标Mask R-CNN网络对视频帧Ii进行实例分割,否则,获得与视频帧Ii属于同一分组的关键帧Ik,并利用预先构建的视频实例分割模型对视频帧Ii进行实例分割;
其中,每一个分组由一帧关键帧,以及该关键帧与下一关键帧之间的所有非关键帧组成;视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络;关键帧实例分割网络为目标Mask R-CNN网络,关键帧实例分割网络用于提取关键帧的M层金字塔特征P1~PM后,根据所提取的特征对关键帧进行实例分割;非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络;光流检测网络为目标FlowNet网络,用于计算关键帧与非关键帧之间的流场和尺度场;特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′;分割网络用于根据非关键帧的特征P1′~PM′对非关键帧进行实例分割。
本发明以关键帧为节点,对视频帧进行分组,使得每一个分组中包括一帧关键帧,以及多帧连续的非关键帧;将深度特征流加入到单幅图像的实例分割网络中,对于每一个分组中的关键帧,直接利用训练好的目标Mask R-CNN网络进行实例分割,对于分组内的其他非关键帧,则通过计算关键帧和非关键帧之间的流场和尺度场,实现特征图在视频帧之间的传播,从而降低了非关键帧特征提取过程的计算量,实现较快的视频实例分割。因此,本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。
本发明根据计算得到流场和尺度场,在已知对应关键帧的多层金字塔特征的前提下,分别计算非关键帧的每一层特征,以得到非关键帧的多层金字塔特征,有利于后续分类、回归和掩码分割等操作的实现。
进一步地,分割网络为目标Mask R-CNN网络中的Ntask网络。
进一步地,特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′,包括:
对于关键帧的每一层金字塔特征Pm,根据流场将其中的每一个像素映射到非关键帧的特征Pm′中,并将特征Pm′与尺度场逐像素相乘,以对特征Pm′中的特征翘曲进行矫正;
其中,m表示金字塔特征中的层编号,1≤m≤M。
进一步地,利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,包括:
基于Mask R-CNN网络和FlowNet网络建立端到端的神经网络训练模型;神经网络训练模型中,Mask R-CNN网络的Nfeat网络、FlowNet网络以及Mask R-CNN网络的Ntask网络依次连接;Mask R-CNN网络的Nfeat网络用于提取已标注的图像的金字塔特征;FlowNet网络用于融合计算Nfeat网络所提取的特征流的权值;Mask R-CNN网络的Ntask网络用于对FlowNet网络输出的图像生成候选区域,并从中筛选出感兴趣区域后进行感兴趣区域对齐,以及对所有对齐之后的感兴趣区域并行进行分类、回归和掩码分割,并对掩码分割结果进行边缘检测,最终得到分类损失Lcls、回归损失Lbox、分割损失Lmask和边缘损失Ledge,加和求得网络损失L;
将已标注的数据集中,每一幅已标注的图像作为一个训练样本,利用该数据集对神经网络训练模型进行训练;对于每一个训练样本,获得对应的网络损失L后,将损失误差梯度反向传播以更新神经网络训练模型的参数;
训练完成后,将所得到的Mask R-CNN网络和FlowNet网络分别作为目标Mask R-CNN网络和目标FlowNet网络。
进一步地,关键帧的序号nk满足:mod(nk,l)=0;
其中,l为帧间隔,mod()表示取模运算,nk≥0。
按照本发明的第二个方面,提供了一种基于帧间关系的视频实例分割系统,包括:网络训练模块和视频处理模块;
网络训练模块,用于利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络;
视频处理模块,用于依次获取待处理视频中的每一帧图像,并在获取到任意一帧视频帧Ii后判断其类型,若为关键帧,则利用目标Mask R-CNN网络对视频帧Ii进行实例分割,否则,获得与视频帧Ii属于同一分组的关键帧Ik,并利用预先构建的视频实例分割模型对视频帧Ii进行实例分割;
其中,每一个分组由一帧关键帧,以及该关键帧与下一关键帧之间的所有非关键帧组成;视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络;关键帧实例分割网络为目标Mask R-CNN网络,关键帧实例分割网络用于提取关键帧的M层金字塔特征P1~PM后,根据所提取的特征对关键帧进行实例分割;非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络;光流检测网络为目标FlowNet网络,用于计算关键帧与非关键帧之间的流场和尺度场;特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′;分割网络用于根据非关键帧的特征P1′~PM′对非关键帧进行实例分割。
按照本发明的第三方面,提供了一种系统,包括处理器和计算机可读存储介质,计算机可读存储介质存储有可执行程序;
处理器用于调用计算机可读存储介质中存储的可执行程序,执行本发明第一方面提供的基于帧间关系的视频实例分割方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于帧间关系的视频实例分割方法及系统,以关键帧为节点,对视频帧进行分组,使得每一个分组中包括一帧关键帧,以及多帧连续的非关键帧;将深度特征流加入到单幅图像的实例分割网络中,对于每一个分组中的关键帧,直接利用训练好的目标Mask R-CNN网络进行实例分割,对于分组内的其他非关键帧,则通过计算关键帧和非关键帧之间的流场和尺度场,实现特征图在视频帧之间的传播,从而降低了非关键帧特征提取过程的计算量,实现较快的视频实例分割。因此,本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。
(2)本发明所提供的基于帧间关系的视频实例分割方法及系统,根据计算得到流场和尺度场,在已知对应关键帧的多层金字塔特征的前提下,分别计算非关键帧的每一层特征,以得到非关键帧的多层金字塔特征,有利于后续分类、回归和掩码分割等操作的实现。
附图说明
图1为现有的Mask R-CNN网络结构示意图;
图2为现有的FlowNet网络结构示意图;
图3为本发明实施例提供的视频实例分割模型结构示意图;
图4为本发明实施例提供的神经网络训练模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明所提供的基于帧间关系的视频实例分割方法及系统,对于关键帧和非关键帧,采用不同的神经网络模型完成实例分割。在详细解释本发明的技术方案之前,先对本发明所提供的基础神经网络模型进行简要介绍。
Mask R-CNN网络是一个实例分割(Instance segmentation)的神经网络模型,具有很强的扩展性,可以用来做“目标检测”、“目标实例分割”、“目标关键点检测”。Mask R-CNN网络的结构如图1所示,Mask R-CNN网络结构由主干网络(backbone)、头结构(headarchitecture)和掩码分支(mask branch)三个部分组成,其中主干网络为ResNet-50-FPN,用于进行特征提取,头结构用于做边界框识别(分类和回归),掩码分支用于获得感兴趣区域并对每一个感兴趣区域RoI(Region of Interest)进行区分。这样的网络结构决定了Mask R-CNN网络可以同时完成对目标的分类、回归和分割任务;其中主干网络构成Mask R-CNN网络中的Nfeat网络,头结构和掩码分支构成Mask R-CNN网络中的Ntask网络,由于ResNet-50-FPN提取金字塔特征的过程计算量大,导致了利用Mask R-CNN网络完成实例分割的方法处理耗时较长。
计算机视觉中视频处理的主要关注点就在于视频中物体的运动,而光流就是用来描述物体运动的常用方法之一。FlowNet网络是一种端到端的神经网络模型,其结构如图2所示,FlowNet网络用于检测图像序列的光流场。光流检测需要逐像素精确定位,并需要找到两幅输入图像之间的对应关系,即FlowNet网络不仅要学习图像的特征表示,还需要学习两幅图像中不同位置像素的匹配。如图2所示,FlowNet网络的输入为两张图像,首先通过一个由卷积层组成的收缩部分(卷积部分),用以提取各自的特征图,但是这样会使图片缩小,因此需要再通过一个扩大层(去卷积部分),将其扩展到原图大小,进行光流预测得到光流结果。
基于Mask R-CNN网络和FlowNet网络,本发明所提供的基于帧间关系的视频实例分割方法,包括:
利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络;
依次获取待处理视频中的每一帧图像,并在获取到任意一帧视频帧Ii后判断其类型,若为关键帧,则利用目标Mask R-CNN网络对视频帧Ii进行实例分割,否则,获得与视频帧Ii属于同一分组的关键帧Ik,并利用预先构建的视频实例分割模型对视频帧Ii进行实例分割;
其中,每一个分组由一帧关键帧,以及该关键帧与下一关键帧之间的所有非关键帧组成;如图3所示,视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络;关键帧实例分割网络为目标Mask R-CNN网络,关键帧实例分割网络用于提取关键帧的M层金字塔特征P1~PM后,根据所提取的特征对关键帧进行实例分割,具体地,由Nfeat网络提取关键帧的M层金字塔特征P1~PM,由Ntask网络根据特征P1~PM完成对关键帧的实例分割;非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络;光流检测网络为目标FlowNet网络,用于计算关键帧与非关键帧之间的流场和尺度场;特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′;分割网络用于根据非关键帧的特征P1′~PM′对非关键帧进行实例分割,在本实施例中,分割网络为目标Mask R-CNN网络中的Ntask网络。
本发明以关键帧为节点,对视频帧进行分组,使得每一个分组中包括一帧关键帧,以及多帧连续的非关键帧;将深度特征流加入到单幅图像的实例分割网络中,对于每一个分组中的关键帧,直接利用训练好的目标Mask R-CNN网络进行实例分割,对于分组内的其他非关键帧,则通过计算关键帧和非关键帧之间的流场和尺度场,实现特征图在视频帧之间的传播,从而降低了非关键帧特征提取过程的计算量,实现较快的视频实例分割。因此,本发明能够在完成高质量实例分割的同时提升视频实例分割的速度。
本发明根据计算得到流场和尺度场,在已知对应关键帧的多层金字塔特征的前提下,分别计算非关键帧的每一层特征,以得到非关键帧的多层金字塔特征,有利于后续分类、回归和掩码分割等操作的实现。
在本发明实施例中,FlowNet网络具体为FlowNet2.0,通过FlowNet网络计算的关键帧与非关键帧之间的流场(FlowField)反映了非关键帧中各像素与关键帧中像素之间的映射关系,根据流场,可以将非关键帧中坐标为p的像素,映射到关键帧中与其对应的像素位置p+δp,其中,δp=Mi→k(p)表示特征翘曲,Mi→k为关键帧与非关键帧之间的流场;由于存在光流检测本身的误差或目标遮挡等因素,特征翘曲得到的结果相应会存在误差,可以通过关键帧与非关键帧之间的尺度场(ScaleField)对特征翘曲进行矫正,尺度场与特征图具有相同的空间维度和通道数,将特征图和尺度场进行逐像素相乘,即可对特征图中的特征翘曲进行矫正。
在上述基于帧间关系的视频实例分割方法中,特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′,包括:
对于关键帧的每一层金字塔特征Pm,根据流场将其中的每一个像素映射到非关键帧的特征Pm′中,并将特征Pm′与尺度场逐像素相乘,以对特征Pm′中的特征翘曲进行矫正;
其中,m表示金字塔特征中的层编号,1≤m≤M。
在上述基于帧间关系的视频实例分割方法中,利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,包括:
基于Mask R-CNN网络和FlowNet网络建立端到端的神经网络训练模型;如图4所示,神经网络训练模型中,Mask R-CNN网络的Nfeat网络、FlowNet网络以及Mask R-CNN网络的Ntask网络依次连接;Mask R-CNN网络的Nfeat网络用于提取已标注的图像的金字塔特征;FlowNet网络用于融合计算Nfeat网络所提取的特征流的权值;Mask R-CNN网络的Ntask网络用于对FlowNet网络输出的图像生成候选区域,并从中筛选出感兴趣区域后进行感兴趣区域对齐,以及对所有对齐之后的感兴趣区域并行进行分类、回归和掩码分割,并对掩码分割结果进行边缘检测,最终得到分类损失Lcls、回归损失Lbox、分割损失Lmask和边缘损失Ledge,加和求得网络损失L;
将已标注的数据集中,每一幅已标注的图像作为一个训练样本,利用该数据集对神经网络训练模型进行训练;训练过程中,训练样本首先通过融合空洞卷积的Resnet-50-FPN网络提取金字塔特征,并通过FlowNet网络融合计算特征流的权值,再通过区域提议网络(Region Proposal Network,RPN)生成候选区域,并计算RPN的分类和回归损失以更新优化RPN的网络参数,对筛选得到的候选区域进行感兴趣区域对齐(RoIAlign),得到与原图对应区域大小相同的感兴趣区域,对每个这样的感兴趣区域并行进行分类、回归和掩码分割,对掩码分割的结果进行边缘检测,最终得到分类损失Lcls、回归损失Lbox、分割损失Lmask和边缘损失Ledge,加和求得网络损失L;对于每一个训练样本,获得对应的网络损失L后,将损失误差梯度反向传播以更新神经网络训练模型的参数;
训练完成后,将所得到的Mask R-CNN网络和FlowNet网络分别作为目标Mask R-CNN网络和目标FlowNet网络;
用于模型训练的数据集可根据实际的实例分割需要选取,例如Cityscapes数据集中经过精细标注的数据集等。
非端到端的训练过程往往由多个独立的模块组成,每个模块是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果。而端到端的训练网络,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,中间所有的操作都包含在神经网络内部,不再分成多个模块处理。由原始数据输入,到结果输出,从输入端到输出端,中间的神经网络自成一体。本发明通过端到端的神经网络训练方式省去了在每一个独立学习任务执行之前所做的数据标注,通过缩减人工预处理和后续处理,尽可能使模型从原始输入到最终输出,给模型更多可以根据数据自动调节的空间,增加模型的整体契合程度。
在本实施例中,关键帧的序号nk满足:mod(nk,l)=0;其中,l为帧间隔,mod()表示取模运算,nk≥0,即将第0、l、2l、3l……帧视频帧选取为关键帧,这样便于实现和调优;在实际应用中,可依据视频帧内容不同需要设置合适的l来寻求准确率和计算速度之间的平衡;显而易见,对于视频帧内容的变化幅度不同的视频,用于选取关键帧的帧间隔不同;
视频帧内容的变化幅度是指当前视频帧中包含的对象(例如行人、车辆)与关键帧之间的区别,根据视频内容的变化情况设置合适的帧间隔以选取关键帧,能够完成高质量的视频实例分割。
将本发明所提供的基于帧间关系的视频实例分割方法简记为Mask R-CNN+FlowNet方法,将传统的基于Mask R-CNN网络的实例分割方法简记为Mask R-CNN方法,对比l=5、l=10、l=15的Mask R-CNN+FlowNet方法以及Mask R-CNN方法的实例分割速度,具体的实验数据如表1所示,分别记录了每种方法处理一帧图像的平均所需时间,其中分别统计了读入数据、神经网络计算以及绘制输出图像花费的时间。对比分析可知,神经网络计算在整个实例分割过程中花费的时间最多,而在网络计算中,使用ResNet-50-FPN特征提取的时间占整个网络计算时间的66.8%。因此,本发明使用特征传播代替非关键帧的特征提取可以令网络计算时间大大减少。
表1各实例分割方法速度的对比
实例分割方法 处理时间(s) 数据(s) 网络(s) 输出(s)
Mask R-CNN 1.2712 0.1016 1.1576 0.0120
Mask R-CNN+FlowNet(l=5) 0.9326 0.1023 0.8172 0.0131
Mask R-CNN+FlowNet(l=10) 0.7725 0.1014 0.6585 0.0126
Mask R-CNN+FlowNet(l=15) 0.7164 0.0991 0.6052 0.0121
本发明还提供了一种基于帧间关系的视频实例分割系统,用于执行上述基于帧间关系的视频实例分割方法的各步骤,该系统包括:网络训练模块和视频处理模块;
网络训练模块,用于利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络;
视频处理模块,用于依次获取待处理视频中的每一帧图像,并在获取到任意一帧视频帧Ii后判断其类型,若为关键帧,则利用目标Mask R-CNN网络对视频帧Ii进行实例分割,否则,获得与视频帧Ii属于同一分组的关键帧Ik,并利用预先构建的视频实例分割模型对视频帧Ii进行实例分割;
其中,每一个分组由一帧关键帧,以及该关键帧与下一关键帧之间的所有非关键帧组成;视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络;关键帧实例分割网络为目标Mask R-CNN网络,关键帧实例分割网络用于提取关键帧的M层金字塔特征P1~PM后,根据所提取的特征对关键帧进行实例分割;非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络;光流检测网络为目标FlowNet网络,用于计算关键帧与非关键帧之间的流场和尺度场;特征传播网络用于根据流场和尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′;分割网络用于根据非关键帧的特征P1′~PM′对非关键帧进行实例分割;
在发明实施例中,各模块的具体实施方式可参考上述方法实施例中的描述,在此将不作复述。
本发明还提供了一种系统,包括处理器和计算机可读存储介质,计算机可读存储介质存储有可执行程序;
处理器用于调用计算机可读存储介质中存储的可执行程序,执行上述基于帧间关系的视频实例分割方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于帧间关系的视频实例分割方法,其特征在于,包括:
利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络;
依次获取待处理视频中的每一帧图像,并在获取到任意一帧视频帧Ii后判断其类型,若为关键帧,则利用所述目标Mask R-CNN网络对所述视频帧Ii进行实例分割,否则,获得与所述视频帧Ii属于同一分组的关键帧Ik,并利用预先构建的视频实例分割模型对所述视频帧Ii进行实例分割;
其中,每一个分组由一帧关键帧,以及该关键帧与下一关键帧之间的所有非关键帧组成;所述视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络;所述关键帧实例分割网络为所述目标Mask R-CNN网络,所述关键帧实例分割网络用于提取关键帧的M层金字塔特征P1~PM后,根据所提取的特征对关键帧进行实例分割;所述非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络;所述光流检测网络为所述目标FlowNet网络,用于计算关键帧与非关键帧之间的流场和尺度场;所述特征传播网络用于根据所述流场和所述尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′;所述分割网络用于根据非关键帧的特征P1′~PM′对非关键帧进行实例分割;
所述特征传播网络用于根据所述流场和所述尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′,包括:
对于关键帧的每一层金字塔特征Pm,根据所述流场将其中的每一个像素映射到非关键帧的特征Pm′中,并将所述特征Pm′与所述尺度场逐像素相乘,以对所述特征Pm′中的特征翘曲进行矫正;
其中,m表示金字塔特征中的层编号,1≤m≤M,特征翘曲为关键帧与非关键帧之间的流场。
2.如权利要求1所述的基于帧间关系的视频实例分割方法,其特征在于,所述分割网络为所述目标Mask R-CNN网络中的Ntask网络。
3.如权利要求1或2所述的基于帧间关系的视频实例分割方法,其特征在于,利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,包括:
基于Mask R-CNN网络和FlowNet网络建立端到端的神经网络训练模型;所述神经网络训练模型中,Mask R-CNN网络的Nfeat网络、FlowNet网络以及Mask R-CNN网络的Ntask网络依次连接;Mask R-CNN网络的Nfeat网络用于提取已标注的图像的金字塔特征;FlowNet网络用于融合计算Nfeat网络所提取的特征流的权值;Mask R-CNN网络的Ntask网络用于对FlowNet网络输出的图像生成候选区域,并从中筛选出感兴趣区域后进行感兴趣区域对齐,以及对所有对齐之后的感兴趣区域并行进行分类、回归和掩码分割,并对掩码分割结果进行边缘检测,最终得到分类损失Lcls、回归损失Lbox、分割损失Lmask和边缘损失Ledge,加和求得网络损失L;
将已标注的数据集中,每一幅已标注的图像作为一个训练样本,利用该数据集对所述神经网络训练模型进行训练;对于每一个训练样本,获得对应的网络损失L后,将损失误差梯度反向传播以更新所述神经网络训练模型的参数;
训练完成后,将所得到的Mask R-CNN网络和FlowNet网络分别作为所述目标Mask R-CNN网络和所述目标FlowNet网络。
4.如权利要求1或2所述的基于帧间关系的视频实例分割方法,其特征在于,关键帧的序号nk满足:mod(nk,l)=0;
其中,l为帧间隔,mod()表示取模运算,nk≥0。
5.一种基于帧间关系的视频实例分割系统,其特征在于,包括:网络训练模块和视频处理模块;
所述网络训练模块,用于利用已标注的数据集对Mask R-CNN网络和FlowNet网络进行端到端的训练,从而在训练完成之后得到目标Mask R-CNN网络和目标FlowNet网络;
所述视频处理模块,用于依次获取待处理视频中的每一帧图像,并在获取到任意一帧视频帧Ii后判断其类型,若为关键帧,则利用所述目标Mask R-CNN网络对所述视频帧Ii进行实例分割,否则,获得与所述视频帧Ii属于同一分组的关键帧Ik,并利用预先构建的视频实例分割模型对所述视频帧Ii进行实例分割;
其中,每一个分组由一帧关键帧,以及该关键帧与下一关键帧之间的所有非关键帧组成;所述视频实例分割模型包括关键帧实例分割网络和非关键帧实例分割网络;所述关键帧实例分割网络为所述目标Mask R-CNN网络,所述关键帧实例分割网络用于提取关键帧的M层金字塔特征P1~PM后,根据所提取的特征对关键帧进行实例分割;所述非关键帧实例分割网络包括光流检测网络、特征传播网络以及分割网络;所述光流检测网络为所述目标FlowNet网络,用于计算关键帧与非关键帧之间的流场和尺度场;所述特征传播网络用于根据所述流场和所述尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′;所述分割网络用于根据非关键帧的特征P1′~PM′对非关键帧进行实例分割;
所述特征传播网络用于根据所述流场和所述尺度场将关键帧的金字塔特征P1~PM传播到非关键帧,从而得到非关键帧的特征P1′~PM′,包括:
对于关键帧的每一层金字塔特征Pm,根据所述流场将其中的每一个像素映射到非关键帧的特征Pm′中,并将所述特征Pm′与所述尺度场逐像素相乘,以对所述特征Pm′中的特征翘曲进行矫正;
其中,m表示金字塔特征中的层编号,1≤m≤M,特征翘曲为关键帧与非关键帧之间的流场。
6.一种系统,包括处理器和计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有可执行程序;
所述处理器用于调用所述计算机可读存储介质中存储的所述可执行程序,执行权利要求1-4任一项所述的基于帧间关系的视频实例分割方法。
CN201910681950.8A 2019-07-26 2019-07-26 一种基于帧间关系的视频实例分割方法及系统 Active CN110443173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910681950.8A CN110443173B (zh) 2019-07-26 2019-07-26 一种基于帧间关系的视频实例分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910681950.8A CN110443173B (zh) 2019-07-26 2019-07-26 一种基于帧间关系的视频实例分割方法及系统

Publications (2)

Publication Number Publication Date
CN110443173A CN110443173A (zh) 2019-11-12
CN110443173B true CN110443173B (zh) 2021-08-20

Family

ID=68431698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910681950.8A Active CN110443173B (zh) 2019-07-26 2019-07-26 一种基于帧间关系的视频实例分割方法及系统

Country Status (1)

Country Link
CN (1) CN110443173B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177460B (zh) * 2019-12-20 2023-04-18 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN111405283B (zh) * 2020-02-20 2022-09-02 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质
CN111914756A (zh) * 2020-08-03 2020-11-10 北京环境特性研究所 一种视频数据处理方法和装置
CN112132750B (zh) * 2020-09-25 2024-04-09 北京猿力未来科技有限公司 一种视频处理方法与装置
CN112149683A (zh) * 2020-09-30 2020-12-29 华宇金信(北京)软件有限公司 夜视环境下活物检测方法及装置
CN112560684B (zh) * 2020-12-16 2023-10-24 阿波罗智联(北京)科技有限公司 车道线检测方法、装置、电子设备、存储介质以及车辆
CN112907605B (zh) * 2021-03-19 2023-11-17 南京大学 用于实例分割的数据增强方法
CN113221899A (zh) * 2021-04-22 2021-08-06 之江实验室 一种基于学习原型图的快速视频目标分割系统及方法
CN113824989B (zh) * 2021-07-13 2024-02-27 腾讯科技(深圳)有限公司 一种视频处理方法、装置和计算机可读存储介质
CN113971881B (zh) * 2021-10-14 2022-06-28 华中科技大学 一种高速公路自动驾驶专用车道设置决策方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035293A (zh) * 2018-05-22 2018-12-18 安徽大学 适用于视频图像中显著人体实例分割的方法
CN109389086A (zh) * 2018-10-09 2019-02-26 北京科技大学 检测无人机影像目标的方法和系统
EP3493106A1 (en) * 2017-12-03 2019-06-05 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586350B2 (en) * 2017-12-03 2020-03-10 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3493106A1 (en) * 2017-12-03 2019-06-05 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN109035293A (zh) * 2018-05-22 2018-12-18 安徽大学 适用于视频图像中显著人体实例分割的方法
CN109389086A (zh) * 2018-10-09 2019-02-26 北京科技大学 检测无人机影像目标的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Semantic Instance Meets Salient Object Study on Video Semantic Salient Instance Segmentation;Trung-Nghia Le et al.;《2019 IEEE Winter Conference on Applications of Computer Vision (WACV)》;20190309;1779-1788 *
面向步态识别的显著前景分割;张晶晶;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015;I138-692 *

Also Published As

Publication number Publication date
CN110443173A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110443173B (zh) 一种基于帧间关系的视频实例分割方法及系统
CN110348445B (zh) 一种融合空洞卷积和边缘信息的实例分割方法
CN108319972B (zh) 一种针对图像语义分割的端到端差异网络学习方法
CN106875406B (zh) 图像引导的视频语义对象分割方法及装置
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN109389086B (zh) 检测无人机影像目标的方法和系统
CN110378348B (zh) 视频实例分割方法、设备及计算机可读存储介质
CN109377555B (zh) 自主水下机器人前景视场三维重建目标特征提取识别方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111027505B (zh) 一种基于显著性检测的分层多目标跟踪方法
CN113436197B (zh) 基于生成对抗和类特征分布的域适应无监督图像分割方法
CN116091886A (zh) 一种基于教师学生模型与强弱分支的半监督目标检测方法及系统
CN113313663B (zh) 基于零样本学习的多聚焦图像融合方法
CN111882581B (zh) 一种深度特征关联的多目标跟踪方法
CN109063630B (zh) 一种基于可分离卷积技术和帧差补偿策略的快速车辆检测方法
CN111968155B (zh) 一种基于分割目标掩模更新模板的目标跟踪方法
CN113223044A (zh) 一种结合特征聚合和注意力机制的红外视频目标检测方法
CN106447718A (zh) 一种2d转3d深度估计方法
CN115761574A (zh) 基于边框标注的弱监督视频目标分割方法及装置
CN114359167A (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法
CN104331700B (zh) 基于轨迹能量扩散图的组行为识别方法
CN111881914B (zh) 一种基于自学习阈值的车牌字符分割方法及系统
CN115482282A (zh) 自动驾驶场景下具有多目标追踪能力的动态slam方法
CN113283428B (zh) 一种基于fce-ssd方法的图像目标检测方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant