CN103763562B

CN103763562B - 一种基于线裁剪的视频浓缩方法

Info

Publication number: CN103763562B
Application number: CN201410030131.4A
Authority: CN
Inventors: 颜波; 薛向阳; 李可; 王伟祎
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-01-22
Filing date: 2014-01-22
Publication date: 2016-11-16
Anticipated expiration: 2034-01-22
Also published as: CN103763562A

Abstract

本发明属于视频浓缩技术领域，具体一种基于线裁剪的视频浓缩方法。视频浓缩是指对视频进行时间上的压缩，使在较短的时间中尽可能对原视频中的细节进行描述，去除视频时间域上的冗余信息，从而赋予用户快速浏览无尽的监控视频的能力。本发明方法使用线裁剪对视频Tube进行裁剪，从而减少视频在时间域的长度；在裁剪过程中，使用光流更新视频Tube的能量图，并且根据关于视频Tube能量图的分析结果，设置裁剪终止的准则，从而对每个tube，在保证视频连贯性的前提下，尽量地压缩视频tube的持续时间，最终达到有效视频浓缩的效果。实验结果表明，本发明方法在较好地保持对物体运动描述的基础上，可以有效实现视频时间域上的压缩。

Description

一种基于线裁剪的视频浓缩方法

技术领域

本发明属于视频浓缩技术领域，具体涉及一种视频浓缩方法。

背景技术

自从上个世纪，数以千万计的监控摄像头被部署在了例如火车站、飞机场等交通枢纽处以及各种交通路口，并在不断产生着大量的监控视频。在数字化的时代，监控视频的数量更是爆发性地增长。在城市的大街上，每个摄像头都在24小时全天候的进行着录像，很多监控视频根本从未被观看过。视频的冗长也给回溯带来了很大的困难。由于监控摄像头越来越便宜、越来越容易部署，监控网络不断地变得密集，使得人员监控的难度不断上升，需求的存储空间也不断增大。因此对解决监控产生的各种不便而诞生的各种算法引发了各界的极大兴趣并已成为当今多媒体信息处理领域的一项研究热点。

视频浓缩是对视频进行时间上的压缩，在较短的时间中对尽可能对原视频中的细节进行描述，去除视频时间域上的冗余信息。视频浓缩技术令监控视频拥有更大的信息量，它赋予了用户快速浏览无尽的监控视频的能力，加入视频检索技术后，更能对用户关于某个物体在原视频中出现的时间等问题进行应答。这时的浓缩视频更充当了原监控视频索引的角色。

该技术相对传统的视频监控技术拥有强大的优势：

（1）存储空间：由于是监控视频，摄像头必须全时间进行监控，导致了每分每秒都会有无穷的监控视频的产生，给存储带来了巨大的压力。通过视频浓缩技术，我们可以在编码方式等其他因素相同的情况同时将原视频的尺寸大小地缩小，从而节省了大量的存储空间。

（2）快速浏览：在传统方法中对监控视频的回放浏览是一件让人头疼的事情，快放可能会损失重要信息，而等待漫无止境的监控视频播放也令人厌恶，通过视频浓缩后，大量冗余信息被去除，保证了每一分每一秒都是重要信息，从而使得回放效率大幅度提高，也降低了通过监控视频回溯重要信息的难度。

现在大致有这几种算法来解决这个问题：

（1）快进，以固定比率将帧直接跳过来达到浓缩的目的。

（2）关键帧提取。

（3）蒙太奇，将相关视频片断进行排列来缩短视视频长度。

以上几种算法各自有不同的优缺点，其中第一个与第二个算法对视频中物体的动态无法较好的保存，而第三种方法也存在着瓶颈，而本发明提出的方法可以在大幅度缩短视频长度的同时保持运动物体的运动。

发明内容

本发明的目的在于提供一种可以在大幅度缩短视频长度的同时保持运动物体运动状况的视频浓缩方法，以便有效地完成对视频的处理，为各项应用提供方便。

本发明提出视频浓缩方法，是基于线裁剪(seam carving)技术的，如图1所示，具体步骤如下：

（1）视频管(video tube)的提取

首先是使用现有的各种方法（比如[1,2]）从原始视频中，提取视频管(video tube)，生成视频掩膜(video mask)。在提取tube后，便获得了包括每个物体运动的开始帧、每一帧中物体的边界与持续时间等重要信息。通过这些信息，为每一个物体创建一个视频掩膜(video mask)。视频掩膜的长度为该物体运动的持续时间，而每一个像素的值为：

其中i为tube编号，x, y为像素的空间坐标，t为帧数，bbox为该tube的边界框。

（2）视频管的运动浓缩

首先，对视频掩膜和视频管进行转置，并根据视频管的光流和梯度等信息生成能量图。然后，基于该能量图对转置后的视频管和视频掩膜进行同步线裁剪，裁剪后再将其进行反转置。

（3）物体粘贴

最后一步是：把提取原视频的背景和裁剪后的视频管进行粘贴，从而生成浓缩后的视频。粘贴的具体方法可以参考文献[3]。

本发明第二步骤（2），具体来讲：为了使浓缩后的视频更短，需要将每一个物体的运动进一步进行浓缩。通过浓缩，可以减少运动不显著的区域，而更多地保留运动显著的区域。例如，可以将慢速的运动进行浓缩而对快速的运动进行保留。根据边界框与tube所提供的信息，可以为每一个tube从原视频中提取出一个对应的视频片断，这个片断中仅包括该物体。本发明基于线裁剪（seam caving）可实现对于每个tube的初步浓缩。其内容包括：

（a）将视频的三维问题转化为二维问题，对x-t（或y-t）平面逐个tube进行seam caving；

（b）以光流作为seam caving的初始能量值；

（c）对能量图修正；

（d）设立线裁剪的终止准则。

A、关于逐个tube的seam carving

传统的seam carving主要是用来对图片的分辨率或长宽比进行修改。在本发明中，将seam carving应用到视频的x-t方向，从而可以对视频的时间域进行修改。在通常的x-y方向的seam线会经过图片中梯度最小的路线，这样图片中物体的边界（即梯度大的区域）便会被保留下来，不断地应用seam carving，便可以用较少的图像变形得到被缩小的图片。在x-t情况下，这个seam carving的性质依旧成立。

本发明将seam carving 作用到视频的x-t方向，Seam 线将切割光流较小的区域。这样，在时间域上变化较大的像素便会被保留而光流值较小的像素便会被切割。即：在每一个tube上应用seam carving后，较小的运动将会被更多的浓缩，而较大的运动将会被保留。

具体实现时，本发明首先对提取出来的tube视频进行转置。转置之后，便得到了一个新的长方体，其中面对用户的便是转置前的x-t面。然后我们对转置视频的XY方向进行seam carving，即相当于对原视频的x-t方向进行了操作。在做seam carving之前，需要首先计算能量图。本发明将三维的问题转化为二维的问题，提出计算所有y上的x-t平面光流值的平均值作为能量图，这样seam carving的复杂度可得到显著下降。

B、关于能量图修正

每当减去一条seam线时，能量图需要更新，本发明可对裁剪后能量图中的光流值进行修正。我们将周边像素的光流值加上到seam线的位移来完成能量图的修正。

C 、关于浓缩终止准则：

本发明提出定义一个值d，d的数值大小在能量图中的表示如图2所示。d 表示每行运动物体在时间域上的长度。分别计算每行的d值并对其取平均数，将其定义为D。D值可以代表运动物体在给定位置上的时间域跨度。当seam carving进行时，D值将会随着物体的运动被消减而不断减小。本发明可以允许用户设定一个阈值Th，当D值降低到这个阈值Th时便不再进行seam carving，这样用户便可以自定义视频浓缩的比率。

D 、关于同步线裁剪

本发明中，一个运动物体有两个视频片断与之相关。一个是在上述过程中使用的tube，另一个即所创建的视频掩膜。我们要将这两个视频片断同时进行seam carving，通过物体视频片断生成能量图，之后同时对两个视频片断进行裁剪，这里称之为同步过程。在物体视频中删去一条seam线时，相同位置的像素也应该在视频掩膜中被删除。

本发明通过实验对其性能进行了测试。大量的实验结果表明，所提算法具有很好的效果，比如对有1503帧的原始监控视频，经过视频浓缩后可以将帧数降低至155帧，压缩比率达到9.67，同时对物体运动的描述有较好的保持。

本发明提出的基于Seam carving 的视频浓缩算法，可以在有效降低帧数的同时，较好地保持视频重要信息的完整性，因而具有很强的现实应用价值。

附图说明

图1为本发明的流程图。

图2为视频tube的能量图。

具体实施方式

对于一段视频若使用本发明实现视频浓缩，可以采用图1所介绍的方法实施。具体实施方法是：

首先使用现有的方法（比如[1,2]）实现视频管(video tube)的提取，并生成视频掩膜(video mask)。

然后对视频掩膜和视频管进行转置，便得到了两个新的长方体，其中面对用户的便是转置前的x-t平面。

根据视频管x-t平面的光流和梯度等信息生成能量图。接着，基于该能量图对转置后的视频管和视频掩膜进行同步线裁剪。这样，在时间域上变化较大的像素便会被保留而光流值较小的像素便会被切割。即：在每一个tube上应用线裁剪后，较小的运动将会被更多的浓缩，而较大的运动将会被保留。

在线裁剪过程中，每裁剪一次就计算当前的D值。当D值降低到指定的阈值Th时便不再进行线裁剪。

对裁剪后视频管和视频掩膜进行反转置。提取原视频的背景，然后使用参考文献[3]的方法和裁剪后的视频管进行粘贴，从而生成浓缩后的视频。

参考文献：

[1] R. Patil, P. Rybski, T. Kanade, and M. Veloso, “People Detection and Tracking in High Resolution Panoramic Video Mosaic,” Proc. Int’l Conf. Intelligent Robots and Systems, vol. 1, pp. 1323-1328, Oct. 2004.

[2] Boiman and M. Irani, “Detecting Irregularities in Images and in Video,” Proc. Int’l Conf. Computer Vision, pp. I: 462-I: 469, 2005.

[3] Y. Pritch, A. Rav-Acha, and S. Peleg, “Nonchronological video synopsis and indexing,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 11, pp. 1971–1984, 2008.。

Claims

1. 一种基于线裁剪的视频浓缩方法，是基于线裁剪技术的，其特征在于具体步骤如下：

（1）视频管的提取

首先，从原始视频中提取视频管；提取视频管后，便获得包括每个物体运动的开始帧、每一帧中物体的边界与持续时间这些信息；通过这些信息，为每一个物体创建一个视频掩膜，视频掩膜的长度为该物体运动的持续时间，而每一个像素的值为：

其中，i为视频管编号，x, y为像素的空间坐标，t为帧数，bboxi为该视频管的边界框；

（2）视频管的运动浓缩

首先，对视频掩膜和视频管进行转置，并根据视频管的光流和梯度信息生成能量图；然后，基于该能量图对转置后的视频管和视频掩膜进行同步线裁剪，裁剪后再将其进行反转置；

（3）物体粘贴

把提取原始视频的背景和裁剪后的视频管进行粘贴，从而生成浓缩后的视频；

所述步骤（2）中对转置后的视频管和视频掩膜进行同步线裁剪，其内容包括：

（a）将视频的三维问题转化为二维问题，对x-t或y-t平面进行线裁剪；

（b）以光流作为线裁剪的初始能量值；

（c）对能量图修正；

（d）设立线裁剪的终止准则；

所述对x-t或y-t平面逐个视频管进行线裁剪的具体过程为：

将线裁剪应用到视频的x-t方向，对视频的时间域进行修改,不断地应用线裁剪，便可用较少的图像变形得到被缩小的图片；在y-t情况下，这个线裁剪的性质依旧成立；

首先，将线裁剪作用到视频的x-t方向，Seam 线将切割光流较小的区域；这样，在时间域上变化较大的像素便会被保留而光流值较小的像素便会被切割；即：在每一个视频管上应用线裁剪后，较小的运动将会被更多的浓缩，而较大的运动将会被保留；

同样，将线裁剪作用到视频的y-t方向；

所述对能量图修正，是对裁剪后能量图中的光流值进行修正，即将周边像素的光流值加上到seam线的位移来完成能量图的修正；

所述线裁剪的终止准则如下：

定义一个值d，d表示每行运动物体时间域上的长度；分别计算每行的d值并对其取平均数，将其定义为D；D值代表运动物体在给定位置上的时间域跨度；当线裁剪进行时，D值将会随着物体的运动被消减而不断减小；用户可设定一个阈值Th，当D值降低到这个阈值Th时便不再进行线裁剪，这样用户便可以自定义视频浓缩的比率；

所述同步线裁剪，是指在物体视频片断生成能量图之后，同时对两个视频片断进行裁线剪，称之为同步过程；在物体视频中删去一条seam线时，相同位置的像素也应该在视频掩膜中被删除；所述两个视频片断是指与运动物体有关两个视频片断：一个是在上述过程中使用的视频管，另一个即所创建的视频掩膜。