CN108804578A

CN108804578A - 基于一致性片段生成的无监督视频摘要方法

Info

Publication number: CN108804578A
Application number: CN201810506117.5A
Authority: CN
Inventors: 李泽超; 艾鑫
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2018-11-13
Anticipated expiration: 2038-05-24
Also published as: CN108804578B

Abstract

本发明公开了一种基于一致性片段生成的无监督视频摘要方法，包括以下步骤：原始视频的初始分割；一致性片段合并；通过爬山算法分两步分别优化静态一致性函数和动作一致性函数，迭代地调整每个片段的边界；利用多个图像兴趣度特征，计算每一帧的兴趣度分数，根据每个片段内所有帧的兴趣度分数估计该片段的重要性分数；将所有片段按重要性排序，选择重要性高且总时长接近指定长度的片段，按时间顺序连接，得到最终视频摘要。本发明生成的视频摘要与人类做出的最好视频摘要非常接近。

Description

基于一致性片段生成的无监督视频摘要方法

技术领域

本发明涉及计算机视觉领域中视频摘要技术，具体涉及一种基于一致性片段生成的无监督视频摘要方法。

背景技术

随着科技的发展、智能手机和摄像设备的普及，人们拍摄、保存、分享视频变得越来越方便，这也导致了在巨大的视频数据中找到相关的视频和想要的内容变得非常困难。另外，由于普通用户拍摄技巧不佳，大多数视频通常有噪声、冗余的内容等，造成不好的观看体验。视频摘要技术产生包含原始视频中重要和精彩内容的简短视频，这一技术可以用于解决上述问题。同时，视频摘要技术可以应用于安防领域中大量使用视频监控的场景，如公安行业、交通行业、电力行业、大型展会等。

视频摘要技术有很大的挑战性，因为来自不同文化背景、有着不同经历的人对于哪部分是视频中的精彩内容可能有不一致的观点。另外，较长的视频往往有混乱的结构和许多连续的动作，给提取视频摘要带来较大困难。现有的视频摘要方法大多采用各种计算复杂的模型或需要大量手工标注数据集的训练模型。

发明内容

本发明的目的在于提供一种基于一致性片段生成的无监督视频摘要方法。

实现本发明目的的技术方案为：一种基于一致性片段生成的无监督视频摘要方法，该方法包括以下步骤：

步骤1，以预设的长度将原始视频均匀地分割为多个相同长度的片段；

步骤2，计算每个片段和下一个相邻片段之间的片段静态相似度分数和片段动作相似度分数，并确定对应的两个自适应阈值，判断每个片段是否满足合并条件，对于满足合并条件的片段，合并其与下一个相邻片段，重复这个过程直到没有满足合并条件的片段；所述合并条件为片段的两个相似度分数同时超过各自阈值；

步骤3，用爬山算法分别优化静态一致性函数和动作一致性函数，调整所有片段的边界；

步骤4，计算每个片段内所有帧的兴趣度分数，以此估计每个片段的重要性，基于重要性和时长要求，得到最终的视频摘要结果。

本发明与现有技术相比，其显著特点在于：本发明提出了一种基于一致性片段生成的无监督视频摘要方法，包括原始视频的初分割、一致性片段的合并、一致性片段边界的调整、片段重要性的估计四个过程，实验表明，依据本发明方法生成的视频摘要与人类做出的最好视频摘要非常接近。

附图说明

图1是本发明基于一致性片段生成的无监督视频摘要方法流程图。

图2(a)、图2(b)是基于一致性片段生成的无监督视频摘要方法效果图。

具体实施方式

一种基于一致性片段生成的无监督视频摘要方法，包括以下步骤：

步骤2，计算每个片段和相邻的下一个片段之间的片段静态相似度分数和片段动作相似度分数，并确定对应的两个自适应阈值，判断每个片段是否满足合并条件，对于满足合并条件的片段，合并其与相邻的下一个片段，重复这个过程直到没有满足合并条件的片段；所述合并条件为片段的两个相似度分数同时超过各自阈值；

进一步的，步骤2中计算每个片段和相邻下一个片段之间的片段静态相似度分数和片段动作相似度分数，具体包括如下步骤：

步骤21，片段静态相似度分数计算如下：

其中，是两个相邻片段C₁和C₂中间帧和的图像相似度分数，计算如下：

S_I(A，B)＝α·S₁(A，B)+β·S₂(A，B)

其中，α和β是权重系数，相加为1；S₁为图像轮廓相似度，S₂为图像颜色分布相似度，图像轮廓相似度S₁通过使用大津法确定阈值，将两幅原始图像A、B首先转换为二值图像A_r和B_r，二值图像之间的差异间接反映了图像轮廓相似度：

其中，m和n分别是原始图像的宽和高，k＝m*n；

采用直方图匹配的思想计算图像颜色相似度S₂，基于原始图像归一化直方图的巴氏距离，计算如下：

其中，H_A和H_B是原始图像归一化的直方图；

步骤22，除了保证片段静态内容的一致性，还要考虑片段内动作的连续性，即若两个小片段的动作足够相似，在表达同一个动作内容，则应该合并为一个片段；以片段的中间帧作为中心，向前向后各取相同数量的帧，对这个更短的片段使用KLT追踪算法提取光流，基于相邻片段的光流的差异，估计片段动作相似度分数为：

进一步的，步骤2中，通过所有片段的静态相似度分数和动作相似度分数，计算两个自适应阈值：

δ₁＝max(c₁·mean(S_{C_static})，t₁)

δ₂＝max(∈₂·mean(S_{C_motion})，t₂)

其中，∈₁和∈₂是参数，取值范围为0～1，mean(·)表示所有片段相似度分数的平均值，t₁和t₂是两个阈值的下限；

只有当片段静态相似度分数超过阈值δ₁，同时片段动作相似度分数超过阈值δ₂时，才能合并片段。

进一步的，步骤3中使用爬山算法优化静态一致性函数Fs(C_j)：

其中，|·|表示片段的长度，P_l是片段长度的概率，和分别是片段起始帧和结束帧的局部静态相似度分数；一个帧的局部静态相似度分数定义如下：

即该帧与离它最近的μ个帧的平均图像相似度。

进一步的，步骤3中使用爬山算法优化动作一致性函数Fm(C_j)：

其中，和分别是片段起始帧和结束帧的局部动作相似度分数；一个帧的局部动作相似度分数是使用KLT追踪算法估计出的动作大小的倒数。

进一步的，步骤4计算每个片段内所有帧的兴趣度分数，具体包括如下步骤：

步骤41，根据图像特征曝光度u₁、饱和度u₂、色调u₃、the rule of thirdsu₄、u₅、u₆和对比度u₇，计算每一帧的美学特征分数：

y_aes＝u₁+(1-u₂)+u₃+u₄+(1-u₅)+u₆+u₇

步骤42，通过融合静态和动态视觉显著性，使用视觉注意力模型计算每一帧的注意力分数y_att；

步骤43，基于Tamura纹理特征，计算其方向属性u₈和对比度属性u₉，每一帧的纹理分数为：

y_tex＝u₈+u₉

步骤44，使用KLT追踪算法追踪视频中的特征点，用一帧中所有特征点平移距离的平均值作为光流特征y_opt；

步骤45，计算每一帧的色彩特征y_col；

步骤46，依据在高质量的帧中边缘分布聚集在中心的思想，计算帧的空间边缘分布特征y_spa：

通过对每个RGB通道分别执行3×3的拉普拉斯滤波，求得滤波后三个通道的平均值，将得到的平均拉普拉斯图像L缩放到100×100并归一化，然后根据上式得到每帧的空间边缘分布特征。

步骤47，计算每帧的兴趣度分数：

y＝y_aes+y_att+y_tex+y_opt+y_col+y_spa

进一步的，步骤4中根据片段内所有帧的兴趣度分数，估计每个片段的重要性分数I_C：

其中，t_start和t_end分别代表片段开始帧和结束帧的索引。

进一步的，步骤4中，对每个片段重要性分数按降序排序，选择最重要且总时长接近指定视频摘要时长的片段，按时间顺序连接他们，作为视频摘要结果。

下面结合附图和实施例对本发明进行进一步详细的说明。

实施例

结合图1，一种基于一致性片段生成的无监督视频摘要方法，包括原始视频的初分割、一致性片段的合并、一致性片段边界的调整、片段重要性的估计四个过程；具体包括以下步骤：

步骤1)，预先设定片段的初始长度，将原始视频均匀地分割为多个小片段，每个小片段的长度为预设长度。

步骤2)，对于在步骤1)中得到的所有片段，计算每个片段和下一个相邻片段之间的片段静态相似度分数S_{C_static}。

其中，是两个相邻片段C₁和C₂各自的中间帧和的图像相似度分数S_I，基于图像轮廓相似度S₁和图像颜色分布相似度S₂计算如下：

S_I(A,B)＝α·S₁(A,B)+β·S₂(A,B)

其中，α和β是权重系数。图像轮廓相似度S₁通过使用大津法确定阈值，将两幅原始图像首先转换为二值图像A_r和B_r，二值图像之间的差异间接反映了图像轮廓相似度：

其中，m和n分别是原始图像的宽和高，k＝m*n。

采用直方图匹配的思想计算图像颜色相似度S₂，基于原始图像归一化直方图的巴氏距离计算如下：

其中，H_A和H_B分别是两幅原始图像归一化的直方图。

步骤3)，对于在步骤1)中得到的所有片段，计算每个片段和下一个相邻片段之间的片段动作相似度分数S_C__motion。

其中，分别是从两个相邻片段C₁和C₂中提取出的光流；通过以片段的中间帧作为中心，向前向后各取相同数量的帧，对这个更短的片段使用KLT追踪算法提取光流。

步骤4)，以步骤2)和步骤3)得到的所有片段的静态相似度分数、动作相似度分数，计算两个自适应阈值，用于控制合并条件：。

δ1＝maX(∈1·mean(S_{C_stat}ic)，t1)

δ2＝maX(∈2·mean(S_{C_motion})，t2)

其中，∈₁和∈₂是参数，mean(·)表示所有片段相似度分数的平均值，t₁和t₂分别是两个阈值的下限。

步骤5)，将每个片段的两个相似度分数与两个阈值比较，选出片段静态相似度分数大于等于δ₁，同时片段动作相似度分数大于等于δ₂的片段，若有，则合并其与其下一个相邻片段成为一个新片段，进入步骤6)，若没有，则跳到步骤7)。

步骤6)，重复步骤2)、步骤3)、步骤5)。

步骤7)，为调整步骤5)中得到的所有一致性片段的边界，使用爬山算法优化静态一致性函数Fs(C_j)：

即该帧与离它最近的μ个帧的平均图像相似度。

步骤8)，对于步骤7)中得到的所有片段再一次调整边界，使用爬山算法优化动作一致性函数Fm(C_j)：

步骤9)，利用一组图像兴趣度特征，计算步骤8)中得到的每个片段的每一帧的各个特征分数，特征包括：

a、美学特征，根据图像曝光度u₁、饱和度u₂、色调u₃、the rule of thirdsu₄、u₅、u₆和对比度u₇，计算美学特征分数：

y_aes＝u₁+(1-u₂)+u₃+u₄+(1-u₅)+u₆+u₇

b、视觉注意力，通过融合静态和动态视觉显著性，使用视觉注意力模型计算每一帧的注意力分数y_att；

c、纹理特征，基于Tamura纹理特征，计算其方向属性u₈和对比度属性u₉，每一帧的纹理分数为：

y_tex＝u₈+u₉

d、光流特征，使用KLT追踪算法追踪视频中的特征点，用一帧中所有特征点平移距离的平均值作为光流特征y_opt；

e、色彩特征y_col；

f、空间边缘分布特征，通过对每个RGB通道分别执行3×3的拉普拉斯滤波，求得滤波后三个通道的平均值，将得到的平均拉普拉斯图像L缩放到

100×100并归一化，然后计算：

步骤10)，由步骤9)中得到的每一帧的各个特征分数，计算每一帧的兴趣度分数：

y＝y_aes+y_att+y_tex+y_opt+y_col+y_spa

步骤11)，由步骤10)得到的每一帧的兴趣度分数，估计每个片段的重要性分数：

其中，t_start和t_end分别代表片段开始帧和结束帧的索引。

步骤12)、对每个片段重要性分数按降序排序，选择最重要且总时长接近指定视频摘要时长的片段，按时间顺序连接他们，作为视频摘要结果。

图2(a)、图2(b)是基于一致性片段生成的无监督视频摘要方法效果图，两个视频摘要样例，每个片段取一帧表示，Ours为视频摘要结果，Human为人类做出的最好视频摘要，从图中可看出，本发明的结果与人类做出的最好视频摘要非常接近。

Claims

1.一种基于一致性片段生成的无监督视频摘要方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤2中计算每个片段和相邻下一个片段之间的片段静态相似度分数和片段动作相似度分数，具体包括如下步骤：

步骤21，片段静态相似度分数计算如下：

S_I(A,B)＝α·S₁(A,B)+β·S₂(A,B)

其中，m和n分别是原始图像的宽和高，k＝m*n；

其中，H_A和H_B是原始图像归一化的直方图；

步骤22，以片段的中间帧作为中心，向前向后各取相同数量的帧，对这个更短的片段使用KLT追踪算法提取光流，基于相邻片段的光流的差异，估计片段动作相似度分数为：

3.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤2中，通过所有片段的静态相似度分数和动作相似度分数，计算两个自适应阈值：

δ₁＝max(∈₁·mean(S_{C_static}),t₁)

δ₂＝max(∈₂·mean(S_{C_motion}),t₂)

4.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤3中使用爬山算法优化静态一致性函数Fs(C_j)：

即该帧与离它最近的μ个帧的平均图像相似度。

5.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤3中使用爬山算法优化动作一致性函数Fm(C_j)：

6.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤4计算每个片段内所有帧的兴趣度分数，具体包括如下步骤：

步骤41，根据图像特征曝光度u₁、饱和度u₂、色调u₃、the rule of thirds u₄、u₅、u₆和对比度u₇，计算每一帧的美学特征分数：

y_aes＝u₁+(1-u₂)+u₃+u₄+(1-u₅)+u₆+u₇

y_tex＝u₈+u₉

步骤45，计算每一帧的色彩特征y_col；

步骤47，计算每帧的兴趣度分数：

y＝y_aes+y_att+y_tex+y_opt+y_col+y_spa。

7.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤4中根据片段内所有帧的兴趣度分数，估计每个片段的重要性分数I_C：

其中，t_start和t_end分别代表片段开始帧和结束帧的索引。

8.根据权利要求1所述的基于一致性片段生成的无监督视频摘要方法，其特征在于，步骤4中，对每个片段重要性分数按降序排序，选择最重要且总时长接近指定视频摘要时长的片段，按时间顺序连接他们，作为视频摘要结果。