CN108596940B - 一种视频分割方法和装置 - Google Patents

一种视频分割方法和装置 Download PDF

Info

Publication number
CN108596940B
CN108596940B CN201810325558.5A CN201810325558A CN108596940B CN 108596940 B CN108596940 B CN 108596940B CN 201810325558 A CN201810325558 A CN 201810325558A CN 108596940 B CN108596940 B CN 108596940B
Authority
CN
China
Prior art keywords
frame
boundary
mask image
sequence
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810325558.5A
Other languages
English (en)
Other versions
CN108596940A (zh
Inventor
黄志标
安山
朱兆琪
鲍慊
车广富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810325558.5A priority Critical patent/CN108596940B/zh
Publication of CN108596940A publication Critical patent/CN108596940A/zh
Application granted granted Critical
Publication of CN108596940B publication Critical patent/CN108596940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了视频分割方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列;提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的分割模型对当前帧进行分割。该实施方式能够更准确地提取视频文件中的目标。

Description

一种视频分割方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种视频分割方法和装置。
背景技术
在商城平台,商家不仅包括自营商家还有pop第三方商家入驻,每天需要上传大量视频数据,拍摄的商品其背景可能千差万别甚至有损商品形象,为了给商品一个规范的、较好的展示效果,有必要将商品从视频中分割出来,从而将商品与纯净的或其他适宜的背景融合,而关键之处在于如何将商品从视频中分割出来。
现有的视频中商品提取方法可以分为两大类,即人工提取或计算机自动提取。
1)人工提取。人工进行视频中商品提取方法中,先将视频拆分为连续的图像帧,然后采用抠图工具如Photoshop将每帧图像中的商品手动提取出来。
2)计算机自动提取。现有的视频中目标提取技术可以分为三种:有监督式视频目标提取,无监督式视频目标提取以及半监督式的视频目标提取。有监督式的目标提取方法常需要预先在已有的对应商品类别的视频及其提取出来的商品视频中进行学习,然后对同类商品视频自动式地进行目标提取。无监督式方法可首先通过目标检测技术将商品检测出来,得到检测区域,在检测区域中进行商品提取。而半监督式的方法在提取之前检测区域可采用人手工指定检测框,或者直接指定视频第一帧的商品前景、背景像素区域,然后将检测框和前、背景像素信息传播到后续帧。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1)人工提取:虽然较准确,但是人力成本较高,抠图人员需要对视频的每帧进行抠图,而视频中的帧数往往较多,导致抠图效率较低,无法满足电子商务平台的大量视频商品前景提取需求。
2)有监督式的提取方法:主要不足在于需要预先获取大量标注数据,将标注数据作为机器学习的语料,语料的好坏直接影响了机器学习方法在新样本上的提取效果。
3)无监督式的提取方法:无需人工标注数据,常采用无监督学习算法自动进行目标区域前景像素的提取,但由于商品目标与背景差异千差万别,因此主要不足在于适应鲁棒性较差,对于背景与前景像素差异较少的视频处理效果较差。
4)半监督式的提取方法:利用的信息只有一个检测框或者视频第一帧的前、背景像素,在对后续帧进行目标提取时,由于商品的运动导致抠图效果较差,其不足在于信息利用率较低,仅利用第一帧的前景信息或者后续帧的前一帧的信息。
发明内容
有鉴于此,本发明实施例提供一种视频分割方法和装置,能够更准确地提取视频文件中的目标。
为实现上述目的,根据本发明实施例的一个方面,提供了一种视频分割方法,包括获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列;提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的分割模型对当前帧进行分割。
可选地,计算帧序列中的边界帧,包括:
在第一帧的掩膜图像中提取目标所在的区域;
对后续帧只保留所述区域的图像,以获得分割后的后续帧;
根据第一帧的掩膜图像和分割后的各帧,计算帧序列中的边界帧。
可选地,根据第一帧的掩膜图像和分割后的各帧,采用帧间差分的方法计算帧序列中的边界帧。
可选地,通过预设的分割模型对当前帧进行分割,包括:
对卷积神经网络分类模型在预设的目标分割数据集上进行微调训练;
利用第一帧的掩膜图像和当前帧前面的边界帧,对微调训练后的卷积神经网络分类模型进行更新;
根据更新后的卷积神经网络分类模型,对待当前帧进行分割。
另外,根据本发明实施例的一个方面,提供了一种视频分割装置,包括获取模块,用于获取模块,用于获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列;分割模块,用于提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;更新模块,用于根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的分割模型对当前帧进行分割。
可选地,所述分割模块计算帧序列中的边界帧,包括:
在第一帧的掩膜图像中提取目标所在的区域;
对后续帧只保留所述区域的图像,以获得分割后的后续帧;
根据第一帧的掩膜图像和分割后的各帧,计算帧序列中的边界帧。
可选地,根据第一帧的掩膜图像和分割后的各帧,采用帧间差分的方法计算帧序列中的边界帧。
可选地,所述更新模块通过预设的分割模型对当前帧进行分割,包括:
对卷积神经网络分类模型在预设的目标分割数据集上进行微调训练;
利用第一帧的掩膜图像和当前帧前面的边界帧,对微调训练后的卷积神经网络分类模型进行更新;
根据更新后的卷积神经网络分类模型,对待当前帧进行分割。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一视频分割实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一视频分割实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:将第一帧的手工分割结果信息和计算机自动分割结果信息传播到后续帧,用于指导后续帧的分割,充分利用了前续帧的目标前、背景信息,分割更加准确。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的视频分割方法的主要流程的示意图;
图2是根据本发明可参考实施例的视频分割方法的主要流程的示意图;
图3是根据本发明实施例的视频分割装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的视频分割方法,如图1所示,所述视频分割方法包括:
步骤S101,获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列。
在实施例中,首先获取视频文件,而视频文件的格式可以是任意格式,如MP4、AVI、FLV等等。然后对视频文件进行解码,以离散为帧序列。
较佳地,采用开源音视频工具包FFmpeg对视频文件进行解码,将视频离散为帧序列。其中,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
步骤S102,提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;
较佳地,手动分割第一帧,以提取目标所在区域。值得说明的是,所述区域可以为矩形框、方形框以及圆形框等等,优选地可以采用矩形框。
进一步地,可以手动分割第一帧,以获得所述第一帧图像的掩膜图像,然后提取目标所在的矩形框。
更进一步地,对于视频的第一帧,采用图割算法手动在目标周围画出一个框,执行图割算法,将第一帧图像中物体大致分割出来,然后针对分割不够准确的像素手动指为前景像素或背景像素,再执行图割算法,反复进行直到分割的边缘较准确。优选地,此处较准确评价标准为人工视觉评测。
其中,分割的视频第一帧图像中的目标可以是任意物体。分割后得到的图像为跟原图同样大小(宽度和高度)的掩膜图像,物体的区域为前景像素区域,在掩膜上用像素值255表示,非物体区域的像素为背景像素,用像素值0来表示。
需要说明的是,掩膜是指图像分割后得到的前景、背景图像,背景像素区域用像素值0表示,前景像素区域用像素值1或者255表示。
另外,更进一步地实施例,在提取目标所在的矩形框时,其具体的实施过程包括:
在视频第一帧图像的分割结果基础上,根据前景像素区域得到目标在图像坐标系统上的横、纵坐标最小值和最大值,用来生成矩形框的左上角坐标和右下角坐标,从而得到一个包含目标的最小矩形框,即为目标所在的矩形框。
优选地,为了实现上述方法可以初始化矩形框左上角坐标xM=0,yM=0;矩形框右下角坐标xm=w,ym=h(其中,w为图像的宽度,y为图像的高度)。需要说明的是,初始化矩形框即掩膜图像的坐标系为左上角为原点,向右为x正方向,向下为y轴正方向。
然后,从上到下,从左到右遍历掩膜图像的每个像素,判断该像素值是否为255。若为255,则判断该位置的横坐标是否小于xm,若是则更新xm为当前列,继续判断该位置的横坐标是否大于xM,若是则更新xM为当前列;同时判断该位置的纵坐标是否小于ym,若是则更新ym为当前行,继续判断该位置的纵坐标是否大于yM,若是则更新yM为当前行;从上到下为纵坐标遍历,从左到右为横坐标遍历。
还有,由于视频中目标在运动,为了让物体在后续帧的运动过程中保证大部分仍在该矩形框内,因此,保持该矩形框中心不变,将长、宽均扩大1.2倍,得到一个放大的矩形框,同时保证矩形框的位置不超出图像(所述图像可以是原图像,也可以是掩膜图像,因为原图像和掩膜图像的大小一样)的边界,以此矩形框作为后续视频帧序列中目标的先验区域。需要说明的是,如果矩形框放大后超过了图像的边界,则设置该矩形框的边界为图像的边界。
在本发明的另一个实施例中,计算帧序列中的边界帧,具体的实施过程包括:在第一帧的掩膜图像中提取目标所在的区域;对后续帧只保留所述区域的图像,以获得分割后的后续帧;根据第一帧的掩膜图像和分割后的各帧,计算帧序列中的边界帧。进一步地,根据第一帧的掩膜图像和分割后的各帧,采用帧间差分的方法计算帧序列中的边界帧。
较佳地,通过设定一个参数h,当当前帧与前面边界帧的差值的F范数(Frobenius范数)超过阈值h,则认为该帧属于新镜头(视频由帧组成,从视频内容上来说,当摄像头从一个拍摄区域突然移动到另外一个区域,那么这两个拍摄区域是不同的镜头,在同一个区域拍摄的帧序列属于同一个镜头。)的边界帧。参数h的定义式如下:
Figure BDA0001626466850000071
其中,‖ ‖F表示Frobenius范数,n是视频中帧的个数,Ft表示原始视频第t帧在该上述所述最小线框区域内的像素,计算机中可以用一个矩阵表示,
Figure BDA0001626466850000072
表示从第2帧开始所求出的后一帧与前一帧做差后再取Frobenius范数所得到的集合。而
Figure BDA0001626466850000073
是对该集合的n-1个元素求标准差。设置边界帧集合为空集,依次遍历每帧并得到其与前一帧的差分ht=‖Ft-Ft-1F。若ht>h,则将该帧的索引值t加入边界帧集合,其中第一帧所在索引t=1必须加入边界帧集合。
另外,当镜头在空间上转动时,若有个突然转动的情况,那么这个突然转动的过程中拍摄的帧全部属于边界帧,但我们在处理时会选取其中一帧为代表,来表示两个镜头之间的边界帧。
还值得说明的是,对计算得到的边界帧(上述计算边界帧的过程实质上就是对边界帧进行了分割,以获得分割后的掩膜图像)进行形态学变换,变换方式为先腐蚀再膨胀操作,变换元素为15x15的矩形,腐蚀时前景像素可能越来越少,膨胀时前景像素可能会增加,但只有当形态学变换后属于前景的像素个数不为零时,才将该帧用于模型的在线更新。
步骤S103,根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的分割模型对当前帧进行分割。
较佳地,预设的分割模型可以为VGG-16分割模型。其中,VGG-16是一个经典的卷积神经网络模型,其共有16个权重层,是由牛津大学视觉几何组在2014年所开发的,其在图像分类问题上表现优越。
作为实施例,在进行分割之前,在公开的目标分割数据集(公开的目标分割数据集为:DAVIS和RVOS,所述两个数据集为国内外学术界研究视频分割的通用数据集。)上进行分割模型微调,以便重复利用VGG-16的权重值,即VGG-16迁移到视频分割数据集上重新微调VGG-16模型。另外,此处的训练重复利用VGG-16的权重值,然后针对待分割的视频的每帧进行分割。
进一步地,在分割当前帧时,首先会用第一帧的掩膜图像和获取的当前帧前面边界帧,对VGG-16模型进行更新,更新的内容为VGG-16网络的权重参数,更新后再对当前帧进行分割。
更进一步地,分割模型(例如VGG-16模型)更新方法为将视频第一帧的原始图像及其手工分割结果、边界帧的原始图像及其算法自动分割出来的掩膜图像送入卷积神经网络进行训练,并且迭代,从而得到新的分割模型。其中,迭代的次数可以为30次。
根据上面的各种实施例,可以看出所述的视频分割方法,充分利用视频第一帧分割信息和后续边界帧的分割信息对后续帧的分割进行模型在线更新。在边界帧的检测上,基于第一帧的目标矩形区域基础上视频的差分阈值。还有,对卷积神经网络模型(VGG)在分割数据集上进行微调。
从而,将第一帧的手工分割结果信息和计算机自动分割结果信息传播到后续帧,用于指导后续帧的分割,充分利用了前续帧的目标前、背景信息,分割更加准确。另外,售货商家在嘈杂背景中拍摄目标视频,该发明技术方案可以辅助从视频中提取出目标,以便后续目标的美化、特效处理。
图2是根据本发明可参考实施例的视频分割方法的主要流程的示意图,所述视频分割方法可以包括:
步骤S201,获取视频文件。
步骤S202,对视频文件进行解码,以离散为帧序列。
步骤S203,提取所述帧序列中的第一帧,以获得所述第一帧图像的掩膜图像。
较佳地,采用图割算法对分割出的第一帧进行处理,以获得第一帧的掩膜图像。其中,所述的图割算法是组合图论的经典算法之一,其应用到图像和视频分割中取得了很好的效果。常用的图像分割(图割算法)技术可划分为四类:特征阈值或聚类、边缘检测、区域生长或区域提取。
步骤S204,在所述第一帧的掩膜图像中提取目标所在的最小矩形框。
较佳地,在视频第一帧图像的分割结果基础上,根据前景像素区域得到目标在图像坐标系统上的横、纵坐标最小值和最大值,用来生成矩形框的左上角坐标和右下角坐标,从而得到一个包含目标的最小矩形框。
步骤S205,在最小矩形框的基础上,对后续帧只保留最小矩形框内像素以获得分割后的各帧。
步骤S206,根据分割后的各帧,计算视频序列中的边界帧。
较佳地,采用帧间差分的方法求出视频序列中的边界帧。其中,所述的帧间差分方法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法。
优选地,通过设定一个参数h,当当前帧与前面边界帧的差值的F范数(Frobenius范数)超过阈值h,则认为该帧属于新镜头的边界帧。参数h的定义式如下:
Figure BDA0001626466850000101
其中,‖ ‖F表示Frobenius范数,n是视频中帧的个数,Ft表示原始视频第t帧在最小矩形框区域内的像素,计算机中可以用一个矩阵表示,
Figure BDA0001626466850000102
表示从第2帧开始所求出的后一帧与前一帧做差后再取Frobenius范数所得到的集合。而
Figure BDA0001626466850000111
是对该集合的n-1个元素求标准差。设置边界帧集合为空集,依次遍历每帧并得到其与前一帧的差分ht=‖Ft-Ft-1F。若ht>h,则将该帧的索引值t加入边界帧集合,其中第一帧所在索引t=1必须加入边界帧集合。
步骤S207,对卷积神经网络分类模型VGG-16在公开的目标分割数据集上进行微调训练。
步骤S208,利用第一帧的掩膜图像和当前帧前面的边界帧,对微调训练后的VGG-16模型进行更新。
较佳地,分割模型(例如VGG-16模型)更新方法为将视频第一帧的原始图像及其手工分割出来的掩膜图像(步骤S203)、边界帧的原始图像及其算法自动分割出来的掩膜图像(步骤S205)送入卷积神经网络进行训练,并且迭代,从而得到新的分割模型。其中,迭代的次数可以为30次。
步骤S209,根据更新后的VGG-16模型,对当前帧进行分割以更新分割结果。
另外,在本发明可参考实施例中所述视频分割方法的具体实施内容,在上面所述视频分割方法中已经详细说明了,故在此重复内容不再说明。
图3是根据本发明实施例的视频分割装置,如图3所示,所述视频分割装置300包括获取模块301、分割模块302和更新模块303。其中,获取模块301获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列。而分割模块302提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧。最后,更新模块303根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的分割模型对当前帧进行分割。
作为一个较佳地的实施例,获取模块301首先获取视频文件,而视频文件的格式可以是任意格式,如MP4、AVI、FLV等等。然后对视频文件进行解码,以离散为帧序列。
优选地,采用开源音视频工具包FFmpeg对视频进行解码,将视频离散为帧序列。其中,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
另外,分割模块302可以手动分割第一帧,以获得所述第一帧图像的掩膜图像,然后提取目标所在的矩形框。
更进一步地,对于视频的第一帧,采用图割算法手动在目标周围画出一个框,执行图割算法,将第一帧图像中物体大致分割出来,然后针对分割不够准确的像素手动指为前景像素或背景像素,再执行图割算法,反复进行直到分割的边缘较准确。优选地,此处较准确评价标准为人工视觉评测。
其中,分割的视频第一帧图像中的目标可以是任意物体。分割后得到的图像为跟原图同样大小(宽度和高度)的掩膜图像,物体的区域为前景像素区域,在掩膜上用像素值255表示,非物体区域的像素为背景像素,用像素值0来表示。
需要说明的是,掩膜是指图像分割后得到的前景、背景图像,背景像素区域用像素值0表示,前景像素区域用像素值1或者255表示。
另外,更进一步地实施例,在提取目标所在的矩形框时,其具体的实施过程包括:
在视频第一帧图像的分割结果基础上,根据前景像素区域得到目标在图像坐标系统上的横、纵坐标最小值和最大值,用来生成矩形框的左上角坐标和右下角坐标,从而得到一个包含目标的最小矩形框,即为目标所在的矩形框。
优选地,为了实现上述方法可以初始化矩形框左上角坐标xM=0,yM=0;矩形框右下角坐标xm=w,ym=h(其中,w为图像的宽度,y为图像的高度)。需要说明的是,初始化矩形框即掩膜图像的坐标系为左上角为原点,向右为x正方向,向下为y轴正方向。
然后,从上到下,从左到右遍历掩膜图像的每个像素,判断该像素值是否为255。若为255,则判断该位置的横坐标是否小于xm,若是则更新xm为当前列,继续判断该位置的横坐标是否大于xM,若是则更新xM为当前列;同时判断该位置的纵坐标是否小于ym,若是则更新ym为当前行,继续判断该位置的纵坐标是否大于yM,若是则更新yM为当前行;从上到下为纵坐标遍历,从左到右为横坐标遍历。
还有,由于视频中目标在运动,为了让物体在后续帧的运动过程中保证大部分仍在该矩形框内,因此,保持该矩形框中心不变,将长、宽均扩大1.2倍,得到一个放大的矩形框,同时保证矩形框的位置不超出图像(所述图像可以是原图像,也可以是掩膜图像,因为原图像和掩膜图像的大小一样)的边界,以此矩形框作为后续视频帧序列中目标的先验区域。需要说明的是,如果矩形框放大后超过了图像的边界,则设置该矩形框的边界为图像的边界。
在本发明的另一个实施例中,分割模块302计算帧序列中的边界帧,具体的实施过程包括:在第一帧的掩膜图像中提取目标所在的区域;对后续帧只保留所述区域的图像,以获得分割后的后续帧;根据第一帧的掩膜图像和分割后的各帧,计算帧序列中的边界帧。进一步地,根据第一帧的掩膜图像和分割后的各帧,采用帧间差分的方法计算帧序列中的边界帧。
较佳地,通过设定一个参数h,当当前帧与前面边界帧的差值的F范数(Frobenius范数)超过阈值h,则认为该帧属于新镜头(视频由帧组成,从视频内容上来说,当摄像头从一个拍摄区域突然移动到另外一个区域,那么这两个拍摄区域是不同的镜头,在同一个区域拍摄的帧序列属于同一个镜头。)的边界帧。参数h的定义式如下:
Figure BDA0001626466850000141
其中,‖ ‖F表示Frobenius范数,n是视频中帧的个数,Ft表示原始视频第t帧在该上述所述最小线框区域内的像素,计算机中可以用一个矩阵表示,
Figure BDA0001626466850000142
表示从第2帧开始所求出的后一帧与前一帧做差后再取Frobenius范数所得到的集合。而
Figure BDA0001626466850000143
是对该集合的n-1个元素求标准差。设置边界帧集合为空集,依次遍历每帧并得到其与前一帧的差分ht=‖Ft-Ft-1F。若ht>h,则将该帧的索引值t加入边界帧集合,其中第一帧所在索引t=1必须加入边界帧集合。
另外,当镜头在空间上转动时,若有个突然转动的情况,那么这个突然转动的过程中拍摄的帧全部属于边界帧,但我们在处理时会选取其中一帧为代表,来表示两个镜头之间的边界帧。
还值得说明的是,对计算得到的边界帧(上述计算边界帧的过程实质上就是对边界帧进行了分割,以获得分割后的掩膜图像)进行形态学变换,变换方式为先腐蚀再膨胀操作,变换元素为15x15的矩形,腐蚀时前景像素可能越来越少,膨胀时前景像素可能会增加,但只有当形态学变换后属于前景的像素个数不为零时,才将该帧用于模型的在线更新。
还有,更新模块303在进行分割之前,在公开的目标分割数据集(公开的目标分割数据集为:DAVIS和RVOS,所述两个数据集为国内外学术界研究视频分割的通用数据集。)上进行分割模型微调,以便重复利用VGG-16的权重值,即VGG-16迁移到视频分割数据集上重新微调VGG-16模型。另外,此处的训练重复利用VGG-16的权重值,然后针对待分割的视频的每帧进行分割。
进一步地,在分割当前帧时,首先会用第一帧的掩膜图像和获取的当前帧前面边界帧,对VGG-16模型进行更新,更新的内容为VGG-16网络的权重参数,更新后再对当前帧进行分割。
更进一步地,分割模型(例如VGG-16模型)更新方法为将视频第一帧的原始图像及其手工分割结果、边界帧的原始图像及其算法自动分割出来的掩膜图像送入卷积神经网络进行训练,并且迭代,从而得到新的分割模型。其中,迭代的次数可以为30次。
需要说明的是,在本发明所述视频分割装置的具体实施内容,在上面所述视频分割方法中已经详细说明了,故在此重复内容不再说明。
图4示出了可以应用本发明实施例的视频分割方法或视频分割装置的示例性系统架构400。或者图4示出了可以应用本发明实施例的视频分割方法或视频分割装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的视频分割方法一般由服务器405执行,相应地,视频分割装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、分割模块和更新模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列;提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的分割模型对当前帧进行分割。
根据本发明实施例的技术方案,能够更准确地提取视频文件中的目标。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种视频分割方法,其特征在于,包括:
获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列;
提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;
根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的卷积神经网络分类模型对当前帧进行分割;其中,通过预设的卷积神经网络分类模型对当前帧进行分割,包括:对卷积神经网络分类模型在预设的目标分割数据集上进行微调训练;利用第一帧的掩膜图像和当前帧前面的边界帧,对微调训练后的卷积神经网络分类模型进行更新;根据更新后的卷积神经网络分类模型,对当前帧进行分割。
2.根据权利要求1所述的方法,其特征在于,计算帧序列中的边界帧,包括:
在第一帧的掩膜图像中提取目标所在的区域;
对后续帧只保留所述区域的图像,以获得分割后的后续帧;
根据第一帧的掩膜图像和分割后的各后续帧,计算帧序列中的边界帧。
3.根据权利要求2所述的方法,其特征在于,根据第一帧的掩膜图像和分割后的各后续帧,采用帧间差分的方法计算帧序列中的边界帧。
4.一种视频分割装置,其特征在于,包括:
获取模块,用于获取视频文件,对视频文件进行解码,以获得所述视频文件的帧序列;
分割模块,用于提取所述帧序列中的第一帧,以获取所述第一帧图像的掩膜图像;以及计算帧序列中的边界帧;
更新模块,用于根据第一帧的掩膜图像和当前帧前的边界帧,通过预设的卷积神经网络分类模型对当前帧进行分割;其中,通过预设的卷积神经网络分类模型对当前帧进行分割,包括:对卷积神经网络分类模型在预设的目标分割数据集上进行微调训练;利用第一帧的掩膜图像和当前帧前面的边界帧,对微调训练后的卷积神经网络分类模型进行更新;根据更新后的卷积神经网络分类模型,对当前帧进行分割。
5.根据权利要求4所述的装置,其特征在于,所述分割模块计算帧序列中的边界帧,包括:
在第一帧的掩膜图像中提取目标所在的区域;
对后续帧只保留所述区域的图像,以获得分割后的后续帧;
根据第一帧的掩膜图像和分割后的各后续帧,计算帧序列中的边界帧。
6.根据权利要求5所述的装置,其特征在于,根据第一帧的掩膜图像和分割后的各后续帧,采用帧间差分的方法计算帧序列中的边界帧。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN201810325558.5A 2018-04-12 2018-04-12 一种视频分割方法和装置 Active CN108596940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810325558.5A CN108596940B (zh) 2018-04-12 2018-04-12 一种视频分割方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810325558.5A CN108596940B (zh) 2018-04-12 2018-04-12 一种视频分割方法和装置

Publications (2)

Publication Number Publication Date
CN108596940A CN108596940A (zh) 2018-09-28
CN108596940B true CN108596940B (zh) 2021-03-30

Family

ID=63622245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810325558.5A Active CN108596940B (zh) 2018-04-12 2018-04-12 一种视频分割方法和装置

Country Status (1)

Country Link
CN (1) CN108596940B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839517B2 (en) * 2019-02-21 2020-11-17 Sony Corporation Multiple neural networks-based object segmentation in a sequence of color image frames
CN111798481B (zh) * 2019-04-09 2023-10-20 杭州海康威视数字技术股份有限公司 图像序列分割方法及装置
CN110348522B (zh) * 2019-07-12 2021-12-07 创新奇智(青岛)科技有限公司 一种图像检测识别方法及系统、电子设备、图像分类网络优化方法及系统
CN111738041A (zh) * 2019-09-30 2020-10-02 北京沃东天骏信息技术有限公司 一种视频分割方法、装置、设备及介质
CN111008642A (zh) * 2019-10-25 2020-04-14 湖北富瑞尔科技有限公司 基于卷积神经网络的高分辨率遥感影像分类方法及系统
CN110782469A (zh) * 2019-10-25 2020-02-11 北京达佳互联信息技术有限公司 一种视频帧图像分割方法、装置、电子设备及存储介质
CN113111684B (zh) * 2020-01-10 2024-05-21 字节跳动有限公司 神经网络模型的训练方法、装置和图像处理系统
CN111464834B (zh) * 2020-04-07 2023-04-07 腾讯科技(深圳)有限公司 一种视频帧处理方法、装置、计算设备及存储介质
CN113742520B (zh) * 2020-05-29 2023-11-07 北京大学 基于半监督学习的密集视频描述算法的视频查询检索方法
CN111641869B (zh) * 2020-06-04 2022-01-04 虎博网络技术(上海)有限公司 视频分镜方法、装置、电子设备和计算机可读存储介质
CN113902760B (zh) * 2021-10-19 2022-05-17 深圳市飘飘宝贝有限公司 视频分割中物体边缘优化方法、系统、装置及存储介质
CN113822879B (zh) * 2021-11-18 2022-06-21 南京智谱科技有限公司 一种图像分割的方法及装置
CN114549535A (zh) * 2022-01-28 2022-05-27 北京百度网讯科技有限公司 一种图像分割方法、装置、设备、存储介质及产品
CN114494297B (zh) * 2022-01-28 2022-12-06 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法
CN114972209A (zh) * 2022-05-05 2022-08-30 清华大学 宫颈病理图像处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741269A (zh) * 2016-01-25 2016-07-06 中国科学院深圳先进技术研究院 视频切割的方法及装置
CN106022220A (zh) * 2016-05-09 2016-10-12 西安北升信息科技有限公司 一种体育视频中对参赛运动员进行多人脸跟踪的方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741269A (zh) * 2016-01-25 2016-07-06 中国科学院深圳先进技术研究院 视频切割的方法及装置
CN106022220A (zh) * 2016-05-09 2016-10-12 西安北升信息科技有限公司 一种体育视频中对参赛运动员进行多人脸跟踪的方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
One-Shot Video Object Segmentation;S. Caelles;《arXiv:1611.05198v3 [cs.CV]》;20161213;第1-10页 *

Also Published As

Publication number Publication date
CN108596940A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108596940B (zh) 一种视频分割方法和装置
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
KR102262481B1 (ko) 비디오 컨텐츠 요약
US10796438B2 (en) Method and apparatus for tracking target profile in video
CN114399629A (zh) 一种目标检测模型的训练方法、目标检测的方法和装置
CN111325271B (zh) 图像分类方法及装置
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
US11790950B2 (en) Film-making using style transfer
CN112749695A (zh) 文本识别的方法和装置
JP2020536332A (ja) キーフレームスケジューリング方法及び装置、電子機器、プログラム並びに媒体
US11803944B2 (en) Image cleanup on a mobile device
CN112861830A (zh) 特征提取方法、装置、设备、存储介质以及程序产品
CN111160410B (zh) 一种物体检测方法和装置
CN111292333B (zh) 用于分割图像的方法和装置
CN108734718B (zh) 用于图像分割的处理方法、装置、存储介质及设备
CN109697722B (zh) 用于生成三分图的方法及装置
CN113902899A (zh) 训练方法、目标检测方法、装置、电子设备以及存储介质
CN110909506A (zh) 平面设计物料生成的方法和装置
CN113657411A (zh) 神经网络模型的训练方法、图像特征提取方法及相关装置
CN110633597A (zh) 一种可行驶区域检测方法和装置
CN110636322B (zh) 多媒体数据的处理方法、装置、智能终端及存储介质
CN111798406A (zh) 一种图片质量评价方法和系统
WO2023134143A1 (zh) 图像样本生成方法、文本识别方法、装置、设备和介质
CN113177483B (zh) 视频目标分割方法、装置、设备以及存储介质
CN113095176A (zh) 一种对视频数据进行背景还原的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant