CN101639940B

CN101639940B - 一种基于视频内容的提取视频注意窗序列的方法及系统

Info

Publication number: CN101639940B
Application number: CN 200810117547
Authority: CN
Inventors: 田永鸿; 李远宁; 黄铁军; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2008-08-01
Filing date: 2008-08-01
Publication date: 2012-04-25
Anticipated expiration: 2028-08-01
Also published as: CN101639940A

Abstract

一种基于视频内容的提取视频注意窗序列的方法。该方法包括：预处理阶段，计算视频序列中每一帧不同区域的视觉显著性；建模阶段，为候选大小的注意窗在三维时空立方体中构建图模型；优化阶段，通过优化算法，在已生成的图上提取最佳注意窗口的大小及滑动轨迹；压缩阶段，其通过投影将待搜索的三维时空立方体空间压缩为二维搜索空间，加速注意窗口序列提取。利用本发明所提供的提取视频注意窗口序列的方法及系统，可以对视频信息进行自适应的缩放和自适应的压缩，从而提高整个视频内容的传输和浏览效果。

Description

一种基于视频内容的提取视频注意窗序列的方法及系统

技术领域

本发明涉及一种基于视频内容的提取视频注意窗序列的方法及系统，属于多媒体技术领域，具体属于数字图像和数字视频处理技术领域。

背景技术

随着数字图像和数字视频信息摄录技术的快速进步和多媒体、互联网技术以及无线通讯技术的迅猛发展，大量数字图像和视频信息得以便捷快速地传输和收发，使得在世界各地的互联网或无线通讯用户可以在任何地点任何时间方便快捷地和朋友们一起分享他们感兴趣的视频内容。而各种终端设备的更新变换也给视频内容的传输和浏览提出了新的要求，带来了新的机遇和挑战。

在视频监控和移动通信的场景中，传统的视频通信方式直接将原始的高分辨率视频在服务器和终端之间进行传输，这将占用大量的网络存储和信道带宽。Navin Chaddha等人于1998年6月16日公开的美国专利第5,768,535号“Software-Based Encoder For A Software-Implemented End-To-End Scalable VideoDelivery System”中，提出了一种将不同分辨率的同源视频流传输给不同的用户终端，不同的用户终端根据所接收的视频流的质量可分辨情况，选择适合该视频流播放的分辨率进行播放的这样一种视频播放方法。这种视频播放方法实现起来虽然简单易行，但视频数据在通信传输过程中却需要占用大量带宽，因此对网络环境的要求较高。再则，如果需要在显示屏幕尺寸较小的移动设备中播放所接收到的高分辨率视频，该高分辨率视频的大量细节信息将被丢失，甚至会导致一些重要的数据信息因为可视的尺寸过小而难以辨认。在由Zohar Sivan等人公开的美国专利第6,281,874号专利申请，其发明名称为“Method AndSystem For Downloading Graphic Images On The Internet”的文献中，发明人提供了这样一种方法：服务器首先将低分辨率图像传输给终端，由终端选择图像的感兴趣区域；然后进行用户终端与服务器之间的的交互，使得服务器能够将用户终端感兴趣的高分辨率图像继续传输给用户终端。这种方法虽然节省带宽，但需要用户终端与服务器之间进行交互，此外，这种方法仅对图像适用，无法推广到视频处理领域。

针对以上这些数字图像和视频处理方法存在的问题，近几年开始出现利用基于视频内容的显著性特征提取视频感兴趣区域，进而实现对视频特定区域进行压缩和显示的方法。正如Itti等人在“L.Itti and C.Koch，Computationalmodeling of visual attention.Nature Rev.Neurosci.，2(3)，pages 194-203，Mar.2001.”中所论述的，在大多数情况下，用户出于不同的目的观看视频信息时，更倾向于关注视频信息中特定的区域，比如用户往往倾向于浏览和监控特定区域对象的出现，以及关注该对象的外观和运动的变化。此外，人们对所关注的视频区域一般会比不被关注的视频区域具有更高的清晰度要求，只在少数情况下才会对整个视频帧内容全都给予高度的关注度。因此，在视频剪辑和压缩过程中，需要根据视频内容进行自适应的调整，对用户可能关注的部分提供清晰的显示效果，而把不被关注的部分当作视觉冗余对其进行压缩或者裁剪，以提高用户在不同情况下对视频的观看效果。

现有的典型视频兴趣区域计算模型通常是通过自底向上的方法将视频感兴趣区域提取出来；然而，现有的视频兴趣区域计算方法存在以下缺陷：(1)视频兴趣区域的提取或计算结果依赖于视频对象的分割和识别。比如在文献“W-H.Chen，C-W.Wang，J-L.Wu.Video Adaptation for Small Display Based on ContentRecomposition.IEEETrans.Circuits and Systems for Video Technology，17(1)，pages 43-58，JAN 2007.”中，利用颜色对比度和运动强度计算视觉显著性特征，并利用物体分割的方法提取感兴趣的前景物体。但该方法的不足之处在于：感兴趣区域的提取依赖于物体分割的效果，适应性不强。(2)问题求解复杂度过高。文献“F.Liu and M.Gleicher.Video retargeting：automating pan andscan.In Proceedings of the ACM international conference on Multimedia，pages 241-250，2006.”中利用4个自由度x，y(位置)，t时间，s尺度确定视频兴趣滑动窗口，在该文献中作者为了使问题求解得以有效实现，假设y变量以及s变量固定不变以降低自由度从而简化问题的搜索空间，但该假设明显并不具备实际的推广性，因此该方文献提供的方法使得求解问题在实际的应用中并无实效。(3)现有的局部平滑方法的先平滑或过平滑现象。由于视觉显著性特征由多种特征合成，因此其中的任何一种特征变化都有可能影响兴趣区域的变化。现有的方法大都采用短时域局部平滑方法，通常的做法是，利用相邻若干帧的平均值作为平滑结果来削弱噪声带来的影响，比如顾晓东，陈志波，王传铭等在专利号为20610160804.3的专利申请“视频内容分析中感兴趣区域轨迹的矫正方法”中就运用了此方法。这种短时域局部平滑方法通常需要预先确定领域大小，限定了最大平滑的尺度，存在先平滑或者过平滑的现象。

鉴于现有的视频兴趣区域计算模型中提取视频感兴趣区域的方法存在上述严重缺陷，需要一种简便而有实效的视频感兴趣区域提取方法，以便产生连续和平滑的视频注意窗序列，从而减少上述缺陷的影响，提高整个视频内容的传输和浏览效果。

发明内容

为了克服现有技术的上述不足，本发明提供了一种基于视频内容的提取视频注意窗序列的方法及系统，通过给定一个视频片段以及一个基准的注意窗口大小，根据视频内容自适应地从所给视频中提取最佳注意窗口大小以及经过全局时空优化和平滑的滑动轨迹，解决如何从原始的高分辨率视频中产生连续和平滑的视频注意窗序列，从而提高视频内容的传输和浏览效果的技术问题。本发明解决其技术问题所采用的技术方案是：

一种基于视频内容的提取视频注意窗序列的方法，其包括以下步骤：

步骤1预处理阶段，计算视频序列中每一帧不同区域的感兴趣程度，从而形成视频的视觉显著性特征分布的三维时空立方体；

步骤2建模阶段，根据最大视觉显著性和时空连续性等特征，为特定大小的视频注意窗在所述三维时空立方体中构建图模型；

步骤3优化阶段，通过所选优化算法，在已构建的图模型上提取最佳注意窗口的大小及滑动轨迹；

步骤4压缩阶段，通过投影方法将待搜索的三维时空立方体空间压缩为二维搜索空间，加速注意窗口序列提取。

本方法还可以有以下技术特征：

在步骤1所述的预处理阶段中，所述每一帧中的每个区域的感兴趣程度可选择性地参考其同一帧中的相邻区域以及前后若干帧同一位置区域的相邻区域；所述视觉显著性程度是指按照一定的方法提取视频帧各区域的视觉显著性程度，所述一定的方法包括利用人脸检测、帧间运动强度以及帧内颜色对比度等方法，但不限于这些方法。

在步骤2所述的建模阶段中，所述构建图模型的方法是指利用最优路径选择的方法实现所述最大化视觉显著性和时空连续性；利用特定大小的卷积核对视频帧的视觉显著性二维分布特征进行卷积，并利用滑动窗口在视频帧内和帧间的连续性，来构建视频的视觉显著性分布的时空立方体图模型。所述图模型中每个节点对应具体某帧中注意窗口可能停留的位置，在时空上相邻的两个节点通过一有权边相连接，所述有权边的权值大小与所述在时空上相邻的两个节点的感兴趣程度以及时间和空间上的连续性相对应。

在步骤3所述的优化阶段中，所述最优路径选择方法包括：在视频的视觉显著性分布的时空立方体中，利用最短路径或者最大流最小分割的方法获得最优路径的方法，但不限于此方法。

在步骤4所述的压缩阶段中，所述投影方法是指水平和垂直投影方法；所述压缩是指利用所述水平和垂直投影方法，压缩视频的视觉显著性分布的时空立方体，从而将待搜索的三维时空立方体空间压缩为二维搜索空间的方法，以加速注意窗口序列提取的过程。所述投影方法在于沿横(纵)坐标轴坐标，对视频帧二维视觉显著性分布矩阵进行求和运算，获得对应坐标下的显著性累计分布，但不限于此方法。

一种基于视频内容的提取视频注意窗序列的系统，其特征包括以下模块：

预处理模块：用于计算视频序列中每一帧不同区域的感兴趣程度，从而形成视频的视觉显著性特征分布的时空立方体；

建模模块：用于根据最大视觉显著性和时空连续性等特征，为候选大小的注意窗在三维时空立方体中构建图模型；

优化模块：用于通过优化算法，在已构建的图模型上提取最佳注意窗口的大小及滑动轨迹；

压缩模块：通过投影将待搜索的三维时空立方体空间压缩为二维搜索空间，加速注意窗口序列提取。

各模块之间的连接关系如下：对于一段视频帧系列，视频帧经预处理模块处理后，形成视频的视觉显著性特征分布的时空立方体；在时空立方体中为每帧的注意窗构建图模型；通过优化模块在已生成的图上提取最佳注意窗口的大小；并用压缩模块将用于显示视觉显著性分布的三维时空立方体空间压缩为二维搜索空间，以加快注意窗序列提取过程。

该基于视频内容的提取视频注意窗序列的系统还可以有以下技术特征：

预处理模块中所述每一帧中的每个区域的感兴趣程度可选择性地参考其同一帧的相邻区域以及前后若干帧的相邻区域；

建模模块中所述构建图模型包括：利用候选大小的高斯卷积核对视频帧的视觉显著性分布矩阵进行卷积操作，计算候选大小的滑动窗口在特定位置上捕捉的视觉显著性，构建视频的视觉显著性时空立方体；利用最优路径选择的方法实现最大化视觉显著性和时空连续性，根据最大视觉显著性和时空连续性特征，构建提取视频注意窗序列的图模型；

所述优化模块用于选择最优路径，具体地，是指在视频的视觉显著性分布的时空立方体中，利用最短路径或者最大流最小分割的方法获得最优路径；

所述压缩模块利用水平和垂直投影，压缩视频的视觉显著性分布的时空立方体，从而将待搜索的三维时空立方体空间压缩为二维搜索空间，以加速注意窗口序列提取的过程。

本发明的有益效果：利用本发明所提供的方法提取的视频注意窗口序列，符合用户浏览视频捕捉最感兴趣的对象和全局平滑稳定等的要求，在对视频内容进行自适应缩放和自适应压缩后，有利于显著改善用户观看视频的主观感受效果此外，本发明方法对视频图像中短时间内的噪声具有很好的适应性。

附图说明

图1是根据本发明所产生的视频注意窗口序列的框架流程图；

图2是根据本发明对视频各帧提取不同显著性特征的效果图；

图3是根据本发明提取视频注意窗的图模型；

图4(a)为经过水平投影获得的2维视觉显著性分布图，其中图4(a)的横坐标对应时间轴，纵坐标对应空间坐标x(或者y)，图4(a)中亮度越高的部分代表着更高的显著性；

图4(b)为利用最短路径算法在图4(a)对应的图模型中求得的最优路径示，图4(b)中的横纵坐标和图4(a)相同。

下面结合附图和具体实施例对本发明进一步说明。

具体实施方式

实施例1：如图1所示，本发明对输入的视频片段进行处理，首先进行视觉显著性计算。在视觉显著性计算中，一般来说，用户在观看视频过程中，对人脸、对比度和运动等视觉显著性特征信息较为敏感，因此这些区域更容易引起用户的注意。利用图像和视频处理技术等方法，可以计算不同特征在不同的视频帧位置上的响应，如图2所示。在本发明中用到的视觉显著性特征有以上提及的人脸、对比度和运动等特征，但并不限于这三种。视觉显著性合成可采用以下方法

S＝min(S_spa+S_mo+S_obj，1)

其中，s_spa和对应图像对比度显著性，s_mo对应运动显著性，s_obj对应人脸显著性。为了提高滑动窗口估计的稳定性，当特定大小的滑动窗口在视频帧各个位置捕捉视觉显著性时，可以利用相应大小的高斯核对各视频帧内视觉显著性分布矩阵s进行卷积，从而得到各视觉显著性特征。

实施例2如图1所示，在进行视觉显著性计算之后，需提取视频注意窗口。由于不同情况下用户所关心的视频区域大小可能有所不同，比如，在手机等小尺寸屏幕设备上，用户的注意窗最大也只能和屏幕相当，而且不同注意窗可能具有和源视频不同的宽高比；因此，在给定视频片段(大小为w_s×h_s)和基准视频注意窗大小w_o×h_o后，需要根据视频内容及基准视频注意窗大小自适应地选择注意窗在各个视频帧中的位置以及大小(x_t，y_t，w，h)。因此，视频注意窗提取被描述为选择最优路径问题

f (w, h) = \max_{{x_{t}^{*}, y_{t}^{*}} t = 1 . . . T} {Σ_{t = 1}^{T} [S (x_{t}, y_{t}, w, h) + T (x_{t - 1}, y_{t - 1}, x_{t}, y_{t})]}

δ_wo(w)＝(w_o/w)²

δ_ho(h)＝(h_o/h)²

\arg \max_{w, h} (δ_{w_{o}} (w) δ_{h_{o}} (h) f (w, h))

在该模型中，f(w，h)为大小为(w，h)的注意窗在视频帧序列中沿最佳轨迹滑动所抓取的视觉显著性和连续性，其中S(.)代表滑动窗口在特定位置捕捉到的各种视觉显著性特征的综合结果，对应于图的节点权重，T(.)代表相邻两个注意窗在时间和空间上的连续性，对应相邻两节点的边的权重，δ(.)为基于基准窗大小下采样带来的惩罚项。

实施例3如图3所示，本发明将连接节点的边分为了空域邻接边和时域邻接边两种，但不限于此定义方法。在该模型中，最佳的注意窗序列应满足全局最大化视觉显著性和时空连续性的要求。因此，该问题可以分解为两个求解步骤，一是在给定视频注意窗大小的情况下，在三维立方体中，寻找最优路径的问题；二是搜索最佳注意窗大小问题。

实施例4在三维时空立方体中，从视频的起始帧到结束帧寻找最优路径的方法可以用图论方法来解决，可供使用的有效的图论方法有最短路径方法和最大流最小分割方法。考虑到最优路径选择和最大化视觉显著性分布相对应，可以利用以下的水平和垂直投影方法，将用于显示视频显著性分布的三维时空立方体空间压缩为二维搜索空间，其投影方式如下：

垂直投影：

P_{x, t} (i) = Σ_{j = 0}^{y_{\max}} S_{t} (i, j)

水平投影：

P_{y, t} (j) = Σ_{i = 0}^{x_{\max}} S_{t} (i, j)

0≤i≤x_max and 0≤j≤y_max

相应地，视频注意窗提取模型演变为二维空间的最优路径选择问题：

f_{1} (w) = \min_{{x_{t}^{*}} t = 1 . . . T} {Σ_{t = 1}^{T} [S (x_{t}, w) + T (x_{t - 1}, x_{t})]}

f_{1} (h) = \min_{{y_{t}^{*}} t = 1 . . . T} {Σ_{t = 1}^{T} [S (y_{t}, h) + T (y_{t - 1}, y_{t})]}

g (w, h) = δ_{w_{o}} (w) f_{1} (w) + δ_{h_{o}} (h) f_{1} (h)

\arg \min_{w, h} (g (w, h))

其中，f₁(w)和f₁(h)为一维滑动窗口沿着优化轨迹{x_t ^*}和{y_t ^*}运动捕捉到的视觉显著性和连续性的损失，最小化g(w，h)是为了在投影后获得的x和y坐标对应的二维搜索空间中，寻找损失最小的滑动轨迹。如图4所示，图4(a)为经过水平投影获得的2维视觉显著性分布图，其中图的横坐标对应时间轴，纵坐标对应空间坐标x(或者y)，图中亮度越高的部分代表着更高的显著性。图4(b)为利用最短路径算法在图4(a)对应的图模型中求得的最优路径示，图中的横纵坐标和图4(a)相同。

上述仅为本发明的较佳实施例，并不用来限定本发明的实施范围。也就是说，任何依照本发明的权利要求范围所做的同等变化与修改，皆为本发明的权利要求范围所涵盖。

Claims

1.一种基于视频内容的提取视频注意窗序列的方法，其特征包括以下步骤：

步骤1预处理阶段，计算视频序列中每一帧的不同区域的感兴趣程度，从而形成视频的视觉显著性特征分布的三维时空立方体；

步骤2建模阶段，根据最大化视觉显著性和时空连续性特征，为候选大小的视频注意窗在所述三维时空立方体中构建图模型；

步骤3优化阶段，通过所选的优化算法，为在视频的视觉显著性分布的三维时空立方体中，利用最短路径或者最大流最小分割的方法获得最优路径，在已生成的图模型上提取最佳注意窗口的大小及滑动轨迹；

步骤4压缩阶段，通过投影方法将待搜索的三维时空立方体空间压缩为二维搜索空间，以便加速注意窗口序列提取。

2.根据权利要求1所述的基于视频内容的提取视频注意窗序列的方法，其特征在于：所述预处理阶段中每一帧的不同区域的感兴趣程度可选择性地参考其同一帧的相邻区域以及前后若干帧的相邻区域的视觉显著性程度；或所述预处理阶段中所述视觉显著性特征是指通过提取视频帧各区域的视觉显著性程度得到的。

3.根据权利要求2所述的基于视频内容的提取视频注意窗序列的方法，其特征在于：所述提取视频帧各区域的视觉显著性程度采用人脸检测、帧间运动强度或帧内颜色对比度的方法。

4.按照权利要求1所述的基于视频内容的提取视频注意窗序列的方法，其特征在于，所述建模阶段中所述构建图模型包括：利用候选大小的高斯卷积核对视频帧的视觉显著性分布矩阵进行卷积操作，计算候选大小的滑动窗口在特定位置上捕捉的视觉显著性，利用最优路径选择的方法实现最大化视觉显著性和时空连续性，根据最大化视觉显著性和时空连续性特征，构建提取视频注意窗序列的图模型。

5.按照权利要求1所述的基于视频内容的提取视频注意窗序列的方法，其特征在于：所述投影方法是指水平和垂直投影方法；所述压缩是指利用水平和垂直投影方法，压缩视频的视觉显著性分布的三维时空立方体，从而将待搜索的三维时空立方体空间压缩为二维搜索空间，以加速注意窗口序列提取的过程。

6.按照权利要求1或4所述的基于视频内容的提取视频注意窗序列的方法，其特征在于：所述图模型中每个节点对应具体某帧中注意窗口可能停留的位置，在时空上相邻的两个节点通过一有权边相连接，所述有权边的权值大小与所述在时空上相邻的两个节点每一帧的不同区域的感兴趣程度以及时间和空间上的连续性相对应。

7.一种基于视频内容的提取视频注意窗序列的系统，其特征包括以下模块：

预处理模块：用于计算视频序列中每一帧不同区域的感兴趣程度，从而形成视频的视觉显著性特征分布的三维时空立方体；

建模模块：用于根据最大化视觉显著性和时空连续性特征，为候选大小的注意窗在三维时空立方体中构建图模型；

优化模块：用于通过优化算法，为在视频的视觉显著性分布的三维时空立方体中，利用最短路径或者最大流最小分割的方法获得最优路径，在已构建的图模型上提取最佳注意窗口的大小及滑动轨迹；

压缩模块：通过投影将待搜索的三维时空立方体空间压缩为二维搜索空间，加速注意窗口序列提取；

各模块之间有如下的连接关系：对于一段视频帧系列，所述视频帧经预处理模块处理后，形成视觉显著性特征分布的三维时空立方体；在所述三维时空立方体中为每帧的注意窗构建图模型；通过所述优化模块在已构建的图模型上提取最佳注意窗口的大小；并用压缩模块将用于显示所述视觉显著性分布的三维时空立方体空间压缩为二维搜索空间，以加快注意窗序列提取过程。

8.根据权利要求7所述的基于视频内容的提取视频注意窗序列的系统，其特征在于：所述预处理模块中每一帧的不同区域的感兴趣程度是通过提取该区域的视觉显著性程度得到的，同时可选择性地参考其同一帧的相邻区域以及前后若干帧的相邻区域的视觉显著性程度。

9.按照权利要求7所述的基于视频内容的提取视频注意窗序列的系统，其特征在于：所述建模模块中所述构建图模型包括：利用候选大小的高斯卷积核对视频帧的视觉显著性分布矩阵进行卷积操作，计算候选大小的滑动窗口在特定位置上捕捉的视觉显著性，利用最优路径选择的方法实现最大化视觉显著性和时空连续性，根据最大化视觉显著性和时空连续性特征，构建提取视频注意窗序列的图模型；

或所述压缩模块利用水平和垂直投影，压缩视频的视觉显著性分布的三维时空立方体，从而将待搜索的三维时空立方体空间压缩为二维搜索空间，以加速注意窗口序列提取。