CN102523536A

CN102523536A - 视频语义可视化方法

Info

Publication number: CN102523536A
Application number: CN2011104215973A
Authority: CN
Inventors: 胡事民; 陈韬
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2012-06-27
Anticipated expiration: 2031-12-15
Also published as: CN102523536B

Abstract

本发明涉及视频图像处理技术领域，公开了一种视频语义可视化方法，包括步骤：a.将视频片段进行镜头切分，提取每个镜头的音视频特征，通过对音视频特征进行聚类，得到多个故事单元，并计算故事单元之间的相关性；b.对每个故事单元进行关键前景内容和关键背景内容提取，并将所提取的关键前景内容和关键背景内容进行合成，得到单一的故事单元表示图；c.通过对多个故事单元发生的时序以及各个故事单元之间相关性的位置优化，进行多个故事单元表示图的合成，得到故事单元语义可视化图；d.用可视化符号语言在故事单元语义可视化图上描述故事线，得到视频语义可视化图。本发明将视频自动转换成合成图像，使得该合成图像能够使视频语义可视化。

Description

视频语义可视化方法

技术领域

本发明涉及视频图像处理技术领域，尤其涉及一种视频语义可视化方法。

背景技术

随着多媒体技术的迅速发展，各种图像视频资源极大丰富，影视产业每年生产出的作品不计其数。用户要在海量影视作品中选择符合其爱好的作品进行购买和观赏，通常需要通过文字剧情简介或者截图进行了解。然而文字剧情简介或者截图往往不能给予用户一个全面的语义的可视化视频摘要。

近些年来，为解决这一问题，计算机图形学和多媒体领域的科研人员做了关于大量视频摘要的研究。例如Correa等提出了一种动态视频叙事摘要方法，Barnes等提出了“视频挂毯”，使用户可以交互浏览不同等级的视频摘要。但这些方法均不能有效地提取出专业影视作品中复杂的交替叙事故事线，因此具有较大的局限性。

发明内容

(一)要解决的技术问题

本发明所要解决的技术问题是：如何将视频转换成合成图像，使该合成图像能够使视频语义可视化。

(二)技术方案

为解决上述技术问题，本发明提供了一种视频语义可视化方法，包括以下步骤：

a.将视频片段进行镜头切分，然后提取切分后的每个镜头的音视频特征，通过对所述音视频特征进行聚类，得到多个故事单元，并计算所述故事单元之间的相关性，所述故事单元是指所述视频片段中在时间上连续，处于同一场景，且包含同一组角色的一段故事情节；

b.对每个所述故事单元进行关键前景内容和关键背景内容提取，并将所提取的关键前景内容和关键背景内容进行合成，得到单一的故事单元表示图，其中，所述关键背景内容是指故事单元中场景尺度最大的一帧，所述关键前景内容是指对每个镜头进行基于颜色直方图和光流的视觉显著性检测和人脸检测后，对检测出的显著区域和人脸区域，按照显著性值和在视频中的持续时间进行重要性排序，排除排序靠后一定个数的重复物体及人脸后，所留下的区域；

c.通过对所述多个故事单元发生的时序以及各个故事单元之间相关性的位置优化，进行多个所述故事单元表示图的合成，得到故事单元语义可视化图；

d.用可视化符号语言在所述故事单元语义可视化图上描述故事线，得到视频语义可视化图。

优选地，步骤a中，提取切分后的每个镜头的音视频特征具体为：提取切分后的每个镜头的颜色直方图特征和梅尔倒谱系数音频特征。

优选地，步骤a中，使用归一化分割方法对所述音视频特征进行聚类。

优选地，步骤a中，对所述音视频特征进行聚类具体为：通过所述颜色直方图特征与梅尔倒谱系数音频特征在时域上的距离定义两个镜头间的相似度，并构建所有镜头的相似度矩阵，使用归一化分割方法对所述相似度矩阵进行分割，得到多个镜头的聚类。

优选地，步骤b具体为：使用光流平滑性检测和定场镜头检测的方法确定关键背景内容，并使用光流的视觉显著性检测和人脸检测确定关键前景内容，然后选择所述关键背景内容作为合成的背景，将关键前景内容按照重要性排序依次合成到所述关键背景内容上，每次合成的位置选取为所述关键背景内容上视觉显著性响应值最小的区域；

其中，镜头的光流平滑性是指镜头每个像素的时间和空间邻域内光流的方差的平均值；所述按照重要性排序的方法如下：对于使用光流的视觉显著性检测和人脸检测检测出的显著区域和人脸区域，按照显著性值和在视频中的持续时间进行排序。

优选地，步骤b中，所述将关键前景内容按照重要性排序依次合成到所述关键背景内容上具体为：首先对合成边界进行图分割优化，找到最优边界，然后用泊松融合或透明度融合方法进行无缝合成，得到单一的故事单元表示图。

优选地，步骤b中进行合成时，当所述关键背景内容上视觉显著性响应值低于50％时停止加入所述关键前景内容。

优选地，步骤c具体包括：

c1、对每个故事单元表示图的大小进行调整，使该故事单元表示图与其故事单元在视频中的持续时间成正比；

c2、最小化如下以故事单元表示图位置为变量的能量方程，将故事单元表示图布置在给定大小的画布上：

E＝E_ovl+w_sal*E_sal+w_rela*E_rela+w_time*E_time，

其中，E_ovl是故事单元所覆盖画布面积的相反数，E_sal是多个所述故事单元表示图的合成图像的显著性值的相反数，E_rela是根据步骤a计算得到的故事单元之间的相关性，E_time是故事单元出现的时刻，w_sal、w_rela、w_time为权重；

c3、对多个故事单元表示图的重合区域进行图分割优化，找到最优边界，然后用泊松融合或透明度融合方法进行无缝合成。

优选地，步骤d具体为：以故事单元表示图为节点构建故事线图，对合成的故事单元语义可视化图中任意相邻两个故事单元表示图，如果所述两个故事单元间的相关性大于预设阈值，则按照故事单元发生的时序为方向在两个故事单元表示图之间增加一条有向边，遍历所有故事单元表示图后，将所述有向边所形成的环在时域上距离最大的一条有向边上切开，从而，得到视频语义可视化图。

(三)有益效果

本发明通过视频图像处理技术将一段输入视频转换成一张信息紧致的合成图像，该图像可以将视频中的主要角色和情节以及复杂的交替叙事故事线可视化。用户通过浏览该图像，可以快速获知视频片段的语义内容、类型与故事线，从而使用户在无需浏览整个视频的情况下迅速理解视频内容。

附图说明

图1是依据本发明实施例的视频语义可视化方法的流程图；

图2是依据本发明实施例的视频语义可视化方法所得的视频语义可视化结果示意图。

具体实施方式

下面对于本发明所提出的一种视频语义可视化方法，结合附图和实施例详细说明。

参照图1，本发明实施例的方法按以下步骤操作：a.视频片段的音视频特征分析；b.单一视频故事单元表示图的合成；c.故事单元语义可视化图的布局与合成；d.用可视化符号语言描述故事线。

对于a步骤，本发明对视频片段进行音视频特征分析，将其分割为故事单元，并计算各个故事单元之间的相关性。具体细节为：首先将用户输入的视频片段使用任意已有的镜头切分方法将视频片段切分成一组镜头的集合，然后提取每个镜头的颜色直方图特征和梅尔倒谱系数(MFCC)音频特征，并通过这两个特征在时域上的距离定义每两个镜头的相似度，距离越大，相似度越小，由此可以构建所有镜头的相似度矩阵，可以使用归一化分割(Normalized Cut)方法对相似度矩阵进行分割，得到多个镜头聚类。其中每个聚类代表了一个特征相似且时间连续的视频段，一般为影视作品中在时间上连续，且处于同一场景，包含同一组角色的一段故事情节，本发明将其定义为故事单元。由于影视作品的导演善于用交替的手法讲述故事，因而往往存在不同场景的故事单元在时序上交替进行的情况，为检测出正确的故事线，在得到每个故事单元后，可以使用其颜色直方图和MFCC音频特征作为故事单元的特征，从而可以计算各个故事单元之间的相关性，可用于在步骤c和d中构建可视化布局以及故事线指示图。

对于b步骤，本发明合成单一视频故事单元表示图。具体细节为：对每个故事单元，首先提取关键前背景内容。其中，首先定义每个镜头的光流平滑性为该镜头每个像素的时间和空间邻域内光流的方差的平均值，通过这一平滑性值对镜头进行排序，选取平均方差最小(及光流最平滑)的10个镜头。如果其中包含在整个故事单元中时序上前5的镜头，则认为它们是定场镜头，再在其中选平滑排序最靠前的镜头；否则直接选取平滑排序最靠前的镜头。然后在挑选出的这一镜头中，通过判断光流朝向得知镜头是缩放还是拉伸，从而可以选择场景尺度最大的一帧，作为故事单元的关键背景内容，参照图2中b1。接着，本发明提取关键前景内容。其中，对每个镜头进行基于颜色直方图和光流的视觉显著性检测和人脸检测，对检测出的显著区域和人脸区域，按照显著性值(为视觉显著性响应值和人脸检测响应值的加权和)和在视频中的持续时间进行重要性排序，并通过颜色直方图对比排除排序靠后的重复物体及人脸，最终留下的区域作为关键前景内容，参照图2中b2。下一步，本发明将所提取的关键前景内容和关键背景内容进行合成得到单一的故事单元表示图。其中，选择关键背景内容作为合成的背景，然后将关键前景内容按照重要性排序依次合成到它上面。每次合成的位置都选取为关键背景内容上视觉显著性响应值最小的区域。当关键背景内容上视觉显著性响应值低于50％时停止加入关键前景内容，这样确保了关键前背景的内容都得到保留，并且是合成图不至于太嘈杂，利于用户了解故事单元发生的地点和角色等多方面信息。在合成时，为得到一致的合成结果，首先对合成边界进行图分割(Graph-Cut)优化，找到最优边界，然后用泊松(Poisson)融合或透明度融合方法进行无缝合成，参照图2中虚线b3。最终合成的单一视频故事单元表示图参照图2中的b4。

对于c步骤，进行故事单元语义可视化图的布局与合成。在获取了输入视频中多个故事单元表示图后，要将它们合理布局到一张图像上，成为该视频的语义可视化图。具体细节为：首先将每个故事单元表示图的大小进行调整，使之与其故事单元在视频中的持续时间成正比。然后最小化如下以故事单元表示图位置为变量的能量方程，将故事单元表示图合理布置在给定大小的画布上：

E＝E_ovl+w_sal*E_sal+w_rela*E_rela+w_time*E_time，

其中，E_ovl是故事单元覆盖画布面积的相反数，可以保证画布尽量被覆盖。E_sal是多个所述故事单元表示图的合成图像的显著性值的相反数，可以让尽量多的显著性区域显示出来。E_rela是根据a步骤中计算得到的故事单元之间的相关性，其约束相关性大的故事单元中心坐标的x值尽量相等，可以将相关性大(一般为同一条故事线)的故事单元尽量布置在一列上。E_time是根据故事单元出现的时刻，约束时间上较接近的故事单元中心坐标的y值尽量相等，这样可以让合成的语义可视化图中先发生的故事单元尽量在前，后发生的故事单元尽量在后。经过多次试验分析统计，选取权重w_sal＝0.15，w_rela＝0.1，w_time＝0.1对大多数合成可以得到最佳结果，实际使用时，用户也可能根据需要微调权重。该能量可用贪心算法优化。为得到无缝合成结果，接下来依然要对故事单元表示图的重合区域进行图分割(Graph-Cut)优化，找到最优边界，然后用泊松(Poisson)融合或透明度融合方法进行无缝合成，参照图2中虚线b3。图2可以看作是含有8个故事单元表示图的故事单元语义可视化图的合成示意。

对于步骤d，本发明用可视化符号语言描述故事线。具体细节为：先以故事单元表示图为节点构建故事线图。对合成的故事单元语义可视化图中任意相邻两个故事单元表示图，如果其对应故事单元的相关性大于预设阈值，则按照其发生的时序为方向在两者之间增加一条有向边。在遍历所有故事单元表示图后，将有向边所形成的环在时域上距离最大的一条边上切开。这样，图中的每一条分支代表一条故事线。如图2中的b4，用箭头d1将每条有向边表示了出来，从而标出了故事单元表示图之间的连接关系，最终得到了如图2所示的视频语义可视化图。

由以上实施例可以看出，本发明通过视频图像处理技术将一段输入视频转换成一张信息紧致的合成图像，该图像可以将视频中的主要角色和情节以及复杂的交替叙事故事线可视化。用户通过浏览该图像，可以快速获知视频片段的语义内容、类型与故事线，从而使用户在无需浏览整个视频的情况下迅速理解视频内容。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种视频语义可视化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤a中，提取切分后的每个镜头的音视频特征具体为：提取切分后的每个镜头的颜色直方图特征和梅尔倒谱系数音频特征。

3.根据权利要求2所述的方法，其特征在于，步骤a中，使用归一化分割方法对所述音视频特征进行聚类。

4.根据权利要求3所述的方法，其特征在于，步骤a中，对所述音视频特征进行聚类具体为：通过所述颜色直方图特征与梅尔倒谱系数音频特征在时域上的距离定义两个镜头间的相似度，并构建所有镜头的相似度矩阵，使用归一化分割方法对所述相似度矩阵进行分割，得到多个镜头的聚类。

5.根据权利要求1所述的方法，其特征在于，步骤b具体为：使用光流平滑性检测和定场镜头检测的方法确定关键背景内容，并使用光流的视觉显著性检测和人脸检测确定关键前景内容，然后选择所述关键背景内容作为合成的背景，将关键前景内容按照重要性排序依次合成到所述关键背景内容上，每次合成的位置选取为所述关键背景内容上视觉显著性响应值最小的区域；

6.根据权利要求5所述的方法，其特征在于，步骤b中，所述将关键前景内容按照重要性排序依次合成到所述关键背景内容上具体为：首先对合成边界进行图分割优化，找到最优边界，然后用泊松融合或透明度融合方法进行无缝合成，得到单一的故事单元表示图。

7.根据权利要求5所述的方法，其特征在于，步骤b中进行合成时，当所述关键背景内容上视觉显著性响应值低于50％时停止加入所述关键前景内容。

8.根据权利要求1所述的方法，其特征在于，步骤c具体包括：

E＝E_ovl+w_sal*E_sal+w_rela*E_rela+w_time*E_time，

9.根据权利要求1～8中任一项所述的方法，其特征在于，步骤d具体为：以故事单元表示图为节点构建故事线图，对合成的故事单元语义可视化图中任意相邻两个故事单元表示图，如果所述两个故事单元间的相关性大于预设阈值，则按照故事单元发生的时序为方向在两个故事单元表示图之间增加一条有向边，遍历所有故事单元表示图后，将所述有向边所形成的环在时域上距离最大的一条有向边上切开，从而，得到视频语义可视化图。