CN108600865B

CN108600865B - 一种基于超像素分割的视频摘要生成方法

Info

Publication number: CN108600865B
Application number: CN201810456341.8A
Authority: CN
Inventors: 金海燕; 李喻蒙; 肖照林; 李秀秀
Original assignee: Xian University of Technology
Current assignee: Shaanxi Zhisheng Desen Elevator Co ltd
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2019-07-23
Anticipated expiration: 2038-05-14
Also published as: CN108600865A

Abstract

本发明公开了一种基于超像素分割的视频摘要生成方法，视频边界的分割以粗到细的方式完成，分割边界倾向于局部最小运动区域，使边界对齐到适合于切割的位置的部分，提取视频的分割边界作为所提取的关键帧，表示动作序列之间的重要活动被提取，代表视频的有效信息，能够大幅度降低视频的运算量与复杂度，对于提高视频分析的实时性有显著影响；采用超像素区域合并的方法将具有相似纹理、颜色、亮度等特征的相邻像素构成的图像块，通过像素之间特征的相似程度将像素分组，可以获取图像的冗余信息，降低了后续图像处理任务的复杂度；利用像素之间的空间组织关系进行图像的相似性计算以消除冗余关键帧生成视频摘要，且视频摘要效果较好。

Description

一种基于超像素分割的视频摘要生成方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于超像素分割的视频摘要生成方法。

背景技术

视频摘要技术的研究最早开始于1994年卡耐基梅隆大学的Informedia工程。从那以后，越来越多地研究人员加入进来，对视频摘要相关方面的技术进行了研究和探索，总体来说，目前视频摘要技术按照输出的摘要形式，常见的视频摘要生成算法主要有数据聚类法、曲线规划法和机器学习法。

现有技术中，IEEE International Conference on Acoustics,Speech andSignal Processing.IEEE,2014:1260-1264.公开把原始视频分解为图像序列后，提取每一帧图像的颜色矩特征，并把视频分为若干个镜头，接着采用基于粗糙集理论的谱聚类算法对镜头聚类。但该类算法存在缺陷：第一，绝大多数的聚类算法都需要预先设定聚类的数目，为了得到最优的聚类数目，往往需要不断的反复实验。而且最优的聚类数目是动态变化的，和输入的原始视频的长度和类型都有关系，导致算法必须在人工干预的情况下执行。第二，提取的特征是否具有代表性往往会影响聚类效果。仅提取了图像的颜色特征，忽略了图像的形状和纹理等特征，而单特征不能全面的表达图像的视觉信息。

Proceedings of IEEE International Conference on Multimedia andExpo.Washington DC,USA:IEEE,2005:670-673中，把原始视频分解为图像序列后，计算出帧与帧之间的像素差，并把像素差拟合成曲线，为了简化曲线，把折线划分为一个折线的集合，并把相关性小的点从集合中删除。曲线规划法使用坐标系中的曲线来直观的表现视频内容，可以简化对视频的处理，然而该方法只可以反映视频内容的变化，不可以完整的表达语义信息。

Nature and Biologically Inspired Computing.IEEE,2011:7-11中，利用SVM对足球视频中的回放标志进行训练和学习，识别回放镜头，进球事件的产生对应在回放标志之前依次出现停止、近镜头、观众镜头、球门区域和音频兴奋等场景，而在回放标志后则会出现长镜头、得分板等场景。通过检测到的回放镜头并判断其前后场景是否符合上述事实从而来进行足球视频语义事件监测。机器学习法建立模型在绝大多数的情况下都需要人工参与辅助建模，并且该方法对建模时的特征选取较为敏感，如果选取了合适的特征，采用机器学习法可获得符合人类认知的高级语义信息。反之，不适当的特征选取将使学习结果不尽人意。

发明内容

本发明的目的在于提供一种基于超像素分割的视频摘要生成方法，能够大幅度降低视频的运算量与复杂度，对于提高视频分析的实时性有显著影响。

本发明采用的技术方案为，一种基于超像素分割的视频摘要生成方法，具体按照以下步骤实施：

步骤1、获取视频图像，并将视频图像作为输入数据，提取视频图像帧序列；

步骤2、对视频图像帧序列进行初始等长分割，分割成多个等长帧序列；

同时，计算视频图像帧序列的光流，并使用视频图像帧序列之间的光流位移估算作为时间函数的运动幅度；

步骤3、针对每个等长帧序列，通过时间函数的运动幅度寻找初始等长分割边界帧局部梯度值最小的帧作为关键帧；

步骤4、对每幅关键帧图像中的像素进行局部聚类，采用像素之间特征的相似度对关键帧图像进行超像素分割，得到多个超像素；

步骤5、对多个超像素进行区域合并，得到超像素区域合并图像；

步骤6、对相邻两幅超像素区域合并图像进行相似性度量，判断相邻两幅超像素区域合并图像是否相似；

步骤7、删除相邻相似超像素区域合并图像中的一个，将剩余的超像素区域合并图像组合后生成视频摘要。

本发明的特征还在于：

步骤2使用连续帧之间的光流位移估算作为时间函数的运动幅度具体过程为：通过在每个视频图像帧的所有像素上聚集水平和垂直方向上的光流来计算视频图像帧序列运动的幅度，计算公式如下：

其中，OFx(i，j，t)是像素(i，j)在帧t和t-1之间的光流的x分量，OFy(i，j，t)是像素(i，j)在帧t和t-1之间的光流的y分量；光流随着时间的推移跟踪所有点，总和是帧之间的运动量的估计。

步骤4的具体过程为：

步骤4.1、将每幅关键帧形成图像转换为CIELAB颜色空间和XY坐标下的5维特征向量，然后对5维特征向量构造度量标准：

假设图像有N个像素点，预分割为K个相同尺寸的超像素，每个超像素的大小为N/K，选定每个预分割的超像素中心点为种子点，每两个种子点的距离近似为

步骤4.2、以种子点为中心划分3×3的窗口，将该种子点移动至梯度值最小的位置，同时为每个种子分配一个单独的标签；

步骤4.3、对于每个像素，分别计算与之距离最近的各种子点的相似程度，将最相似种子点的标签赋给该像素，具有相同标签的像素组成一个超像素。

步骤4.3计算与之距离最近的各种子点的相似程度的公式如下：

其中，d_lab为像素点间的颜色差异，d_xy为像素点间的空间距离，D_i为两个像素的相似度；S为种子点的间距，m为平衡参数，用来衡量颜色值与空间信息在相似度衡量中的比重，D_i取值越大，说明两个像素越相似。

步骤5具体过程为：

步骤5.1、预先设定区域合并阈值，假设超像素有K个，采用无向图G＝(V，E)对超像素邻接关系进行记录；

其中V＝{S₁，S₂，…，S_K}是所有K个顶点的集合，E是所有边界的集合，图G＝(V，E)中，每一个区域都被表示为图中的一个节点；

步骤5.2、选取任意两个区域(S_i，S_j)∈V，如果S_i，S_j相邻，那么对应的节点之间就存在一条边相连，每一条边均赋予一定的权重，计算权重对应于合并两个区域的代价值；

步骤5.3、选择相邻区域中代价值最小的权重进行合并，不断更新相关边缘权重，并判断该合并后的区域个数是否等于预先设定区域合并阈值，当等于预先设定区域合并阈值，则合并终止，得到多个超像素块；

步骤5.4、多个超像素块形成的图像为超像素区域合并图像。

步骤5.2计算权重对应于合并两个区域的代价值的计算公式为：

其中，N表示区域S面积，μ表示区域的光谱平均值，l是区域i和j的共享边界，λ是形状参数。

步骤6对相邻两幅超像素区域合并图像进行相似性度量具体过程为：

预先设定差异值阈值；

计算相邻两幅超像素区域合并图像每个像素点之间的差异值：

其中，i表示图像编号，i+1表示i图像的相邻图像，a表示像素点，对图像中的任一像素点a的坐标为I_a(x,y)，其所在的超像素分割合并后的区域为：Ωa＝sp(I_a(x,y))，M表示该区域的像素数；

计算两幅超像素区域合并图像所有相应像素点所在超像素的差异值，则相邻两幅超像素区域合并图差异值计算公式如下：

其中，threshold表示每相邻两超像素区域合并图像中的像素差异值value的界值。

步骤6判断相邻两幅超像素区域合并图像是否相似过程为：判断相邻两幅超像素区域合并图像的差异值是否小于阈值：

若差异值小于阈值，则两幅超像素区域合并图像相似；

若差异值不小于阈值，则两幅超像素区域合并图像不相似。

本发明一种基于超像素分割的视频摘要生成方法有益效果是：

(1)本发明中视频边界的分割以粗到细的方式完成，分割边界倾向于局部最小运动区域，使边界对齐到适合于切割的位置的部分，提取视频的分割边界作为所提取的关键帧，表示动作序列之间的重要活动被提取，代表视频的有效信息，而且可以大幅度降低视频的运算量与复杂度，对于提高视频分析的实时性有显著影响；

(2)本发明中采用超像素区域合并的方法将具有相似纹理、颜色、亮度等特征的相邻像素构成像素块，通过像素之间特征的相似程度将像素分组，可以获取图像的冗余信息，在很大程度上降低了后续图像处理任务的复杂度；利用像素之间的空间组织关系进行图像的相似性计算以消除冗余关键帧生成视频摘要，且视频摘要效果较好。

附图说明

图1是本发明一种基于超像素分割的视频摘要生成方法流程图；

图2是本发明中关键帧提取展示图；

图3是本发明超像素区域合并过程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于超像素分割的视频摘要生成方法，如图1所示，具体按照以下步骤实施：

使用连续帧之间的光流位移估算作为时间函数的运动幅度具体过程为：通过在每个视频图像帧的所有像素上聚集水平和垂直方向上的光流来计算视频图像帧序列运动的幅度，计算公式如下：

步骤3、针对每个等长帧序列，通过时间函数的运动幅度寻找初始等长分割边界帧局部梯度值最小的帧作为关键帧，如图2所示；

具体过程为：

步骤4.3、如图3所示，对于每个像素，分别计算与之距离最近的各种子点的相似程度，将最相似种子点的标签赋给该像素，具有相同标签的像素组成一个超像素；

计算与之距离最近的各种子点的相似程度的公式如下：

具体过程为：

计算权重对应于合并两个区域的代价值的计算公式为：

其中，N表示区域S面积，μ表示区域的光谱平均值，l是区域i和j的共享边界，λ是形状参数；

步骤5.4、多个超像素块形成的图像为超像素区域合并图像。

步骤6、对相邻两幅超像素区域合并图像进行相似性度量，具体过程为：

预先设定差异值阈值；

再判断相邻两幅超像素区域合并图像是否相似，过程为：判断相邻两幅超像素区域合并图像的差异值是否小于阈值：

若差异值小于阈值，则两幅超像素区域合并图像相似；

若差异值不小于阈值，则两幅超像素区域合并图像不相似。

实施例

下面结合具体的计算公式对发明的方案进行可行性验证，详见下文描述：

实验选取YouTube数据库验证所提算法的有效性。YouTube数据库包含从视频网站(例如YouTube)收集的50个视频，这些视频也因多种类型(例如漫画，新闻，体育，广告，电视节目和家庭视频)而异，其持续时间从1分钟到10分钟不等。

本发明使用主流的客观评价标准进行评价，即精度(Precision)、召回率(Recall)和F值(F-snore)。精度、召回率和F值的计算公式分别如下：

其中Nmatched表示自动摘要与用户摘要匹配的长度，即自动摘要中与用户摘要中相同的关键帧个数，定义当两个关键帧的颜色直方图的曼哈顿距离小于指定阈值时，认为两个关键帧是匹配的，本实验将值设置为0.5；NAS表示自动生成摘要的长度；Nus表示用户摘要长度。精度反映了自动摘要摘选出匹配关键帧的能力，召回率反映了匹配关键帧击中用户摘要的能力，F值是对精度和召回率的平衡，是对视频摘要好坏的一个整体评价。

对于每个单独的视频，当获得自动摘要结果时，本发明首先通过将检测到的帧与每个用户的注释帧进行比较来计算F值，然后对通过比较每个用户的注释获得的所有F值进行平均。该平均F分数值被用作每个汇总的最终评估结果。不同算法的平均F分数值如表1所示。

表1本发明方法与其他视频摘要算法客观评价标准对比结果

从表中可以看出，本发明的方法计算的F值最高，平均表现为0.54，显然达到最佳性能。所提出的算法选择更多关键帧，虽然精度较低，然而，由于召回率较高，本发明提出的方法的F值并没有减少很多，本发明提出的基于超像素分割的视频摘要方法仍然优于所有比较算法。

通过上述方式，本发明一种基于超像素分割的视频摘要生成方法，视频边界的分割以粗到细的方式完成，分割边界倾向于局部最小运动区域，使边界对齐到适合于切割的位置的部分，提取视频的分割边界作为所提取的关键帧，表示动作序列之间的重要活动被提取，代表视频的有效信息，而且可以大幅度降低视频的运算量与复杂度，对于提高视频分析的实时性有显著影响；采用超像素区域合并的方法将具有相似纹理、颜色、亮度等特征的相邻像素构成的图像块，通过像素之间特征的相似程度将像素分组，可以获取图像的冗余信息，在很大程度上降低了后续图像处理任务的复杂度；利用像素之间的空间组织关系进行图像的相似性计算以消除冗余关键帧生成视频摘要，且视频摘要效果较好。

Claims

1.一种基于超像素分割的视频摘要生成方法，其特征在于，具体按照以下步骤实施：

步骤4、对每幅关键帧图像中的像素进行局部聚类，采用像素之间特征的相似度对关键帧图像进行超像素分割，得到多个超像素；步骤4的具体过程为：

步骤4.3、对于每个像素，分别计算与之距离最近的各种子点的相似程度，将最相似种子点的标签赋给该像素，具有相同标签的像素组成一个超像素；

2.根据权利要求1所述一种基于超像素分割的视频摘要生成方法，其特征在于，步骤2所述使用连续帧之间的光流位移估算作为时间函数的运动幅度具体过程为：通过在每个视频图像帧的所有像素上聚集水平和垂直方向上的光流来计算视频图像帧序列运动的幅度，计算公式如下：

其中，OF_x(i，j，t)是像素(i，j)在帧t和t-1之间的光流的x分量，OF_y(i，j，t)是像素(i，j)在帧t和t-1之间的光流的y分量；光流随着时间的推移跟踪所有点，总和是帧之间的运动量的估计。

3.根据权利要求1所述一种基于超像素分割的视频摘要生成方法，其特征在于，步骤4.3所述计算与之距离最近的各种子点的相似程度的公式如下：

4.根据权利要求1所述一种基于超像素分割的视频摘要生成方法，其特征在于，步骤5具体过程为：

步骤5.4、多个超像素块形成的图像为超像素区域合并图像。

5.根据权利要求4所述一种基于超像素分割的视频摘要生成方法，其特征在于，步骤5.2所述计算权重对应于合并两个区域的代价值的计算公式为：

6.根据权利要求1所述一种基于超像素分割的视频摘要生成方法，其特征在于，步骤6所述对相邻两幅超像素区域合并图像进行相似性度量具体过程为：

预先设定差异值阈值；

计算两幅超像素区域合并图像所有相应像素点所在超像素的差异值，计算公式如下：

7.根据权利要求6所述一种基于超像素分割的视频摘要生成方法，其特征在于，步骤6所述判断相邻两幅超像素区域合并图像是否相似过程为：判断相邻两幅超像素区域合并图像的差异值是否小于阈值：

若差异值小于阈值，则两幅超像素区域合并图像相似；

若差异值不小于阈值，则两幅超像素区域合并图像不相似。