CN102637253B

CN102637253B - 基于视觉显著性和超像素分割的视频前景目标提取方法

Info

Publication number: CN102637253B
Application number: CN201110458008.9A
Authority: CN
Inventors: 胡事民; 汪淼; 陈韬; 徐昆; 熊君君
Original assignee: Tsinghua University; Beijing Samsung Telecommunications Technology Research Co Ltd
Current assignee: Tsinghua University; Beijing Samsung Telecommunications Technology Research Co Ltd
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2014-02-19
Anticipated expiration: 2031-12-30
Also published as: CN102637253A

Abstract

本发明是一种基于视觉显著性和超像素分割的视频前景目标提取方法，包括步骤：a.对视频进行多层超像素分割：将视频作为三维的视频体进行超像素分割，将视频体元素分组成为体区域；b.对视频进行关键帧的视觉显著性区域检测并对关键帧前景目标进行提取：对视频的关键帧图像，利用视觉显著性检测方法分析图像中的视觉显著性区域，然后利用视觉显著性区域作为初始值，采用图像前景提取方法获取关键帧前景目标；c.将关键帧前景目标与视频超像素分割结果匹配并在帧间传递：对关键帧前景目标所覆盖的视频体区域进行区域扩散，进而将前景目标提取结果在帧间连续传递。本发明效率很高，结果准确，人工干预少，方法鲁棒。

Description

基于视觉显著性和超像素分割的视频前景目标提取方法

技术领域

本发明属于视频图像处理技术领域，特别涉及一种基于视觉显著性和视频超像素分割的视频前景目标提取方法。

背景技术

随着多媒体技术的迅速发展，视频前景目标提取在视频图像处理技术领域中有着重要应用价值，例如视频合成、基于内容的视频检索等。尽管基于交互的静态图像前景目标提取方法取得重大突破，但在视频中提取运动前景目标仍然是十分棘手的问题。

受到强烈的需求推动，各种通过简单用户交互对视频前景目标进行提取的研究层出不穷。Li、Wang和Armstrong等人分别在2005年和2007年提出了基于三维GraphCut的方法；Blake和Chuang等人分别在1998年和2002年提出基于光流的视频分割传递方法；Yu等人在2007年提出跟踪和移动空间加权颜色模型的方法；Bai等人在2007年提出的基于局部聚类的方法等等。虽然这些方法可以有效地处理大量的例子，但这些方法实际的系统并不可行，具有较大的局限性。

发明内容

(一)要解决的技术问题

本发明需要解决的技术问题是：如何用类似于已有的基于图像分割的前景提取技术将视频目标抠出，同时保持视频的帧间一致性。单纯地对前景逐帧提取会导致视频图像的不连续，本发明提出一种基于视觉显著性和视频超像素分割的视频前景目标提取方法，可以克服传统方法所造成的时间不连续，并且仅需要较少的交互就可完成好的效果。

(二)技术方案

为了解决上述技术问题，本发明提供一种基于视觉显著性和超像素分割的视频前景目标提取方法，包括步骤：

a.对视频进行多层超像素分割：将视频作为三维的视频体进行超像素分割，将视频体元素分组成为体区域；

b.对视频进行关键帧的视觉显著性区域检测并对关键帧前景目标进行提取：对视频的关键帧图像，利用视觉显著性检测方法分析图像中的视觉显著性区域，然后利用视觉显著性区域作为初始值，采用图像前景提取方法获取关键帧前景目标；

c.将关键帧前景目标与视频超像素分割结果匹配并在帧间传递：对关键帧前景目标所覆盖的视频体区域进行区域扩散，进而将前景目标提取结果在帧间连续传递。

优选地，所述步骤c后还包括步骤d.改善提取结果：通过用户交互接口勾选区域或者选择多层超像素分割的粒度来修正和改善步骤c得到的前景目标提取结果。

优选地，所述步骤a具体包括：

用类似图像分割的方法对视频进行超像素分割：先进行粒度较细的分割，然后进行区域合并，直至区域数目小于预设的阈值。

优选地，所述步骤b用GrabCut方法获得关键帧前景目标。

优选地，所述步骤c具体包括：提取超像素分割结果在关键帧上的横截面，统计前景目标落在横截面上相应区域的像素数量，若某个区域中前景像素数目大于一定阈值，则将视频体该区域中的体元素标为前景目标，并将关键帧中的结果传递给整个视频。

优选地，在所述步骤d中，所述用户交互接口，允许用户对错误标注在关键帧通过鼠标进行简单修改，用户在某个区域中按下鼠标左键或右键，分别对应添加和删除相应区域，并传递到整个视频。

优选地，在所述步骤c和步骤d中，用户可以选择多层超像素分割的粒度来进行前景目标匹配和交互修改，底层的分割粒度较细，高层的分割粒度较粗；用户还可以选择前景目标匹配结果和用户修改结果是否向前和向后传递。

(三)有益效果

本发明利用视频的时间和空间信息将视频进行多层超像素分割，并利用分割结果一致地传递关键帧的前景提取结果。本发明效率很高，结果准确，人工干预少，方法鲁棒。

附图说明

图1为本发明方法的流程图；

图2为本发明中视频超像素分割方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不是限制本发明的范围。

参照图1本发明方法的流程图。本发明包括以下步骤：a.对视频进行多层超像素分割：将视频作为三维的视频体进行超像素分割，将视频体元素分组成为体区域；b.对视频进行关键帧的视觉显著性区域检测并对关键帧前景目标进行提取：对视频的关键帧图像，利用视觉显著性检测方法分析图像中的视觉显著性区域，然后利用视觉显著性区域作为初始值，采用图像前景提取方法获取关键帧前景目标；c.将关键帧前景目标与视频超像素分割结果匹配并在帧间传递：对关键帧前景目标所覆盖的视频体区域进行区域扩散，进而将前景目标提取结果在帧间连续传递。

对于步骤a，参照图2，对用户输入的视频进行多层的超像素自动分割。首先将较长的视频分成若干较小的视频段，每段视频在10～20帧左右。段与段之间有1/3的重叠区域以保证相邻段间的连续性。对视频进行上述分段预处理之后，对于每段：将视频看做三维视频体，用类似图像分割方法分割视频体，对视频体元素的26邻域按照颜色相似规则进行合并，得到粒度较细的底层超像素分割结果。之后对各段的底层分割结果合并成一个整个结果，进而迭代地将底层结果合并成粒度较粗的高层分割结果，直至整个视频的超像素区域小于固定阈值。

对于步骤b，允许用户指定关键帧作为图像前景目标的模板，利用视觉注意方法分析图像中的视觉显著性区域，然后利用视觉显著性区域作为初始值，采用图像提取方法获取初始的前景。视觉注意方法可以提供一些关于视觉重要性的信息，通过这些信息进行区域增长之后就能得到视觉显著性区域。然后我们可以根据这个视觉注意区域来进行图分割，从而得到关键帧的前景目标。例如，用GrabCut方法获得矩形框内的前景目标。

对于步骤c，用在关键帧中提取的前景目标蒙板(mask)去匹配步骤a中得到的超像素分割得到的区域。具体为：提取超像素分割结果在关键帧上的横截面，统计目标前景落在横截面上相应区域的像素数量，若某个区域中前景像素数目大于一定阈值，则将视频体中整个区域中的体素标为前景，这样可以将关键帧中的结果传递给整个视频。

在步骤d中，由于步骤b的关键帧前景提取结果可能出现与超像素分割结果不匹配的情况造成误标注。本发明提供了用户交互接口，允许用户对错误标注在关键帧通过鼠标进行简单修改，用户在某个区域中按下鼠标左键或右键，分别对应添加和删除相应区域，并传递到整个视频。

在步骤c和步骤d中，用户可以选择多层超像素分割的粒度来进行前景目标匹配和交互修改，底层的分割粒度较细，高层的分割粒度较粗。用户还可以选择前景匹配结果和用户修改结果是否向前和向后传递。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于视觉显著性和超像素分割的视频前景目标提取方法，其特征在于，包括步骤：

c.将关键帧前景目标与视频超像素分割结果匹配并在帧间传递：对关键帧前景目标所覆盖的视频体区域进行区域扩散，进而将前景目标提取结果在帧间连续传递，具体为提取超像素分割结果在关键帧上的横截面，统计前景目标落在横截面上相应区域的像素数量，若某个区域中前景像素数目大于一定阈值，则将视频体该区域中的体元素标为前景目标，并将关键帧中的结果传递给整个视频。

2.如权利要求1所述的方法，其特征在于，所述步骤c后还包括步骤d.改善提取结果：通过用户交互接口勾选区域或者选择多层超像素分割的粒度来修正和改善步骤c得到的前景目标提取结果。

3.如权利要求1或2所述的方法，其特征在于，所述步骤a具体包括：

4.如权利要求1或2所述的方法，其特征在于，所述步骤b用GrabCut方法获得关键帧前景目标。

5.如权利要求2所述的方法，其特征在于，在所述步骤d中，所述用户交互接口，允许用户在关键帧对错误标注通过鼠标进行简单修改，用户在某个区域中按下鼠标左键或右键，分别对应添加和删除相应区域，并传递到整个视频。

6.如权利要求2所述的方法，其特征在于，在所述步骤c和步骤d中，用户能够选择多层超像素分割的粒度来进行前景目标匹配和交互修改，底层的分割粒度较细，高层的分割粒度较粗；用户还能够选择前景目标匹配结果和用户修改结果是否向前和向后传递。