CN107886109B

CN107886109B - 一种基于有监督视频分割的视频摘要方法

Info

Publication number: CN107886109B
Application number: CN201710954324.2A
Authority: CN
Inventors: 张静; 石玥; 苏育挺; 井佩光
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2021-06-25
Anticipated expiration: 2037-10-13
Also published as: CN107886109A

Abstract

一种基于有监督视频分割的视频摘要方法，包括以下步骤：通过相似性矩阵和训练视频的核矩阵，获取测试视频的核矩阵，将该核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵；引入时域拉普拉斯正则化表达式，获取目标函数，并通过乘法器的交替方向法对目标函数进行求解，得到分割后的每一段视频帧，并计算每一段视频帧的分数；通过背包法选择合适的片段作为视频摘要；将获取到的视频摘要与人工标注的视频摘要进行对比，调整各参数来进行多次试验，使视频摘要与人工标注更接近。本方法提高了视频摘要的效率和准确度。

Description

一种基于有监督视频分割的视频摘要方法

技术领域

本发明涉及多媒体社交的视频摘要领域，尤其涉及一种基于有监督视频分割的视频摘要方法。

背景技术

YouTube的大多数视频都包含时间长和未编辑且语义不能快速理解的特点。用户通常想要浏览视频，以快速获得关于语义内容的提示。随着视频数据的爆炸式增长，迫切需要开发自动视频摘要算法，通过提供时间较长视频的简短视频的总结来解决此问题。一个理想的视频摘要将包括所有重要的视频片段，并保持较短的长度。这个问题一般是极具挑战性的，并且是最近视频处理方面的一个研究主题。通过将长视频作为输入并生成短视频(或关键帧序列)作为输出，视频摘要具有很大的潜力，可以在原始视频中进行统计，并使其更具有可浏览性和可搜索性。

视频摘要具有巨大应用潜力、且具有挑战性。现有技术分为有监督和无监督的视频摘要方法两方面。在无监督方面，先前的视频摘要方法很大程度上主要集中在抽样有用的视频帧并将这些帧组合起来作为视频的摘要。监督学习的初步步骤，主要思想是使用一组视频和人工创建的摘要作为目标来调整子集选择模型的参数，以优化摘要的质量。有监督的视频摘要借助网络图片或者视频将测试视频与其特征相似的部分提取出来作为视频摘要。

在参考文献[1]中，提出无监督的提取静态摘要，即视频帧。该方法提取了视频的颜色特征，然后进行K-means聚类，将每一类离聚类中心最近的图像作为关键帧提取作为视频的摘要。

该算法的不足之处有两点：其一是在将视频分解为帧进行处理时未考虑视频的结构，也就是帧间的时间连续性信息，那么提取出来的摘要就难以叙述一个未编辑视频的语义信息。其次，在特征提取时只提取了低级的颜色信息，这也是该算法不能很好地进行语义描述的重要原因。

在参考文献[2]中，提出的算法是无监督的进行视频的边缘检测来进行视频的分割，然后对每一片段的趣味性进行打分，此处趣味性用到了一个较低级的特征，然后根据背包算法进行片段的选择。该算法的主要目的是挑选出趣味性较强的片段，在视频的语义理解方面少了连贯性，不能将故事通过摘要讲出来。所以摘要结果往往少了多样性，导致摘要之间的相似性很高。

参考文献[3]中用边缘检测进行的视频分割往往都会有的缺点，是将一个视觉上连贯的动作因为镜头的边缘检测而被分割开来，不能将完整的动作展示出来。

发明内容

本发明提供了一种基于有监督视频分割的视频摘要方法，本发明以训练视频的结构核矩阵、通过相似性矩阵运算得到训练集视频的结构矩阵，将此作为时间序列拉普拉斯正则化矩阵，指导时域子空间聚类的视频分割，再用背包法进行子片段筛选即得到视频摘要，详见下文描述：

一种基于有监督视频分割的视频摘要方法，所述视频摘要方法包括以下步骤：

1)通过相似性矩阵和训练视频的核矩阵，获取测试视频的核矩阵，将该核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵；

2)引入时域拉普拉斯正则化表达式，获取目标函数，并通过乘法器的交替方向法对目标函数进行求解，得到分割后的每一段视频帧，并计算每一段视频帧的分数；

3)通过背包法选择合适的片段作为视频摘要；

4)将获取到的视频摘要与人工标注的视频摘要进行对比，调整各参数来进行多次试验，使视频摘要与人工标注更接近。

在步骤1)之前，所述视频摘要方法还包括：

对N₁帧的训练视频和N₂帧的测试视频，分别提取颜色直方图特征，构建一个N₂*N₁的相似性矩阵S_k。

在步骤1)之前，所述视频摘要方法还包括：

获取训练视频的核矩阵，该核矩阵由用户的评测帧得分矩阵经过对角化得到。

所述测试视频的核矩阵具体为：

其中，L为测试视频的核矩阵；L_k为训练视频的核矩阵；S_k为相似性矩阵；T为转置。

本发明提供的技术方案的有益效果是：

1、引入训练视频的结构化矩阵，其中包涵视频之间的相似性和帧的重要性信息，将其传递给测试视频，以便于有监督地进行测试视频的结构化处理、以及帧的重要性选择处理；

2、采用时域子空间聚类的方法可以考虑到驻留在数据中的连续关系，模拟数据中的全局结构信息，提高视频分割的准确度和兴趣度，将想要提取的视频片段直接分割出来；

3、本方法提高了视频摘要的效率和准确度。

附图说明

图1为一种基于有监督视频分割的视频摘要方法的流程图；

图2为视频摘要片段的帧展示示意图；

图3为时域子空间聚类的视频分割的分割效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例认为相似的视频应该有相似的结构，所以将视频摘要作为监督的子集选择问题，通过监督来学习视频的结构信息。在进行视频摘要的处理过程中主要有以下三个步骤：特征提取、视频分割和关键片段(帧)选取。现有技术大多数关注于关键片段选择，且在选择帧或子片段时一般服从这几个原则：代表性、多样性、趣味性和可跟踪对象的重要性。

作为视频分割的子空间聚类近年来在运动分割，面部聚类和数字聚类都有较好的表现。具有代表性的子空间聚类方法包括：稀疏子空间聚类(sparse subspaceclustering)，低阶表示(low-rank representation)，最小二乘回归(least-squareregression)等。子空间聚类中的关键思想是学习用于构建亲和力矩阵。

通常，现有的方法假定数据点是从多个子空间独立得到的。可以独立模拟数据点或隐含地考虑数据中的全局结构信息，但忽略了可能驻留在数据中的时间连续关系。但实际上时间序列的数据随处可见，比如视频。时域子空间聚类使视频分割不仅仅是聚类还考虑了数据点之间的时间连续性。本发明实施例考虑到视频中的时间序列信息，提出利用时域子空间聚类的方法进行视频的分割。

本发明实施把视频分割作为重点，以大量训练集视频作为训练，力求将视频重要片段在这个步骤直接划分出来，这样在选择视频片段过程就可以结合以上的原则直接进行提取了。

实施例1

为了解决以上问题，需要能够全面地捕获训练集视频的结构化信息和相似度信息，提高视频分割的准确度和摘要的准确度、以及兴趣度的研究方法。

研究表明：相似的视频之间结构也是相似的，可以通过捕获训练视频的结构化信息来传递给测试视频，且作为结构化信息知道测试视频的分割和摘要。本发明实施例提出了基于有监督视频分割的视频摘要学习方法，参见图1，详见下文描述：

101：通过相似性矩阵和训练视频的核矩阵，获取测试视频的核矩阵，将该核矩阵作为时域子空间聚类的正则化拉普拉斯矩阵；

102：引入时域拉普拉斯正则化表达式，获取目标函数，并通过乘法器的交替方向法对目标函数进行求解，得到分割后的每一段视频帧，并计算每一段视频帧的分数；

103：通过背包法选择合适的片段作为视频摘要；

104：将获取到的视频摘要与人工标注的视频摘要进行对比，调整各参数来进行多次试验，使视频摘要与人工标注更接近。

其中，在步骤101之前，该视频摘要方法还包括：

进一步，在步骤101之前，该视频摘要方法还包括：

上述，测试视频的核矩阵具体为：

综上所述，本发明实施例通过上述步骤101-步骤104实现了通过相似性矩阵运算得到训练集视频的结构矩阵，将结构矩阵作为时间序列拉普拉斯正则化矩阵，指导时域子空间聚类的视频分割，再用背包法进行子片段筛选即得到视频摘要，本方法提高了视频摘要的效率和准确度。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：对N₁帧的训练视频和N₂帧的测试视频，分别提取颜色直方图特征(512维)，构建一个N₂*N₁的相似性矩阵S_k；

其中，相似性矩阵S_k中的元素由

计算得到，v_i和v_k分别是测试和训练视频的颜色直方图特征；σ为正的可调整参数；i为视频第i帧的索引；k为视频第k帧的索引。

202：获取训练视频的核矩阵L_k，该核矩阵L_k由用户的评测帧得分矩阵

经过对角化得到；

gt_score是用户对视频的每一帧打的分数，例如：一个有950帧的视频，gt_score为950*1的列矩阵，是训练集视频的信息，其每个元素代表15个人对视频的每一帧的打分平均分，核矩阵L_k为直接对列矩阵gt_score的对角化，得到一个N₂*N₂大小的对角矩阵，这个矩阵包涵了用户摘要的信息，即每帧的重要性信息，即L_k为950*950的对角矩阵。

203：通过相似性矩阵S_k和训练视频的核矩阵L_k，获取测试视频的核矩阵L，将该核矩阵L作为时域子空间聚类的正则化拉普拉斯矩阵，引入时域拉普拉斯正则化表达式，获取目标函数，并通过乘法器的交替方向法对目标函数进行求解，得到分割后的每一段视频帧；

即，测试视频的核矩阵L由上述得到的训练视频的核矩阵L_k和相似性矩阵S_k通过公式：

求出；

令

代表测试视频的颜色直方图的特征矩阵，D^d×r是一个字典，Z^r×k是一个编码矩阵，X≈DZ，采用基于时域子空间聚类的最小二乘回归公式

来表示此方法目标表达式，其中

捕获了重建损失，

用来建立矩阵X的全局子空间结构。λ₁为权衡参数；

为第k帧图像的颜色直方图特征；d为颜色直方图特征的维数；r为视频所有帧的数目。

同时引入时域拉普拉斯正则化表达式

与矩阵X中的时间信息同时作用。其中

W是捕获X连续性的权重矩阵，

其中，z_i和z_j为编码矩阵Z的第i和第j列子矩阵，s为样本帧与邻帧之间的邻居数。

引入的时间正则化表达式正是前一步求得的测试视频的核矩阵L，将核矩阵L与权重矩阵W融合得到新的权重矩阵H。最终得到的目标函数是

其中，f(Z)为时域拉普拉斯正则化表达式。

对上述目标函数的优化过程，本方法采用乘法器的交替方向法(ADMM)：

U和V是辅助变量。

前式的增强拉格朗日表达式是

Λ和Π拉格朗日乘数；

乘法器交替方向法是从增强拉格朗日表达式

得到的，方法是调整V，U，Z，D来使

达到最小从而得到ADMM。

204：对步骤203分割后的每一段视频帧提取低级特征，计算每一段视频帧的分数；

首先对所有视频帧提取low_depth_of_field低深度特征，维度为9。将每一帧的9维特征累加即为每一帧的分数。步骤203得到的片段即为将片段中的每一帧分数累加起来则为片段的分数。

205：通过背包法选择合适的片段作为视频摘要；

其中，背包问题(Knapsack problem)是一种组合优化的多项式复杂程度的非确定性问题。问题可以描述为：给定一组物品，每种物品都有自己的重量和价格，在限定的总重量内，如何选择，才能使得物品的总价格最高。背包法的解决思路：背包问题是关于最佳化的问题，要解最佳化问题可以使用“动态规划”，从空集合开始，每增加一个元素就先求出该阶段的最佳解，直到所有的元素加入至集合中，最后得到的就是最佳解。

具体背包法的步骤如下：

提取所有测试视频的9维的低景深指标特征(low-depth-of-field-indicators)，由每一帧的特征值求出每帧的分数值，公式为：

由求得的每帧的分数值可求得步骤204分割得到的每一段视频帧的分数值。

本发明实施例规定视频摘要的长度不长于总视频长度的15％。在拥有每段视频的帧数和每段视频的分数和总摘要视频长度之后，就可以用背包法来求解选择合适的视频片段组合了。

206：将步骤205获取到的视频摘要与人工标注的视频摘要进行对比，调整各参数来多次进行试验，使算法得到的视频摘要与人工标注更接近。

综上所述，本发明实施例通过上述步骤201-步骤206实现了通过相似性矩阵运算得到训练集视频的结构矩阵，将结构矩阵作为时间序列拉普拉斯正则化矩阵，指导时域子空间聚类的视频分割，再用背包法进行子片段筛选即得到视频摘要，本方法提高了视频摘要的效率和准确度。

实施例3

下面结合具体的计算公式、附图2和3对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验使用的数据库为SumMe。SumMe数据库由25个视频组成，视频的平均长度为2分40秒。每个视频由15到18人剪辑和总结，人工摘要(基于镜头)总结的平均长度是原始视频的13.1％。

在所有实验中，通过将本方法的算法结果(A)与人类处理摘要(B)进行比较并得到分数(F)，精度(P)和回忆(R)，来评估本方法的自动总结结果(A)，如下所示：

如下表格1为SumMe视频的F-score的分数。

表1

本方法得到的视频摘要结果与人工标记的视频摘要进行结果对比，可以看出本方法得到的三个评价指标分数显示摘要效果比较好。说明本方法的视频摘要能够完成视频的结构转移，且准确地进行视频的分割，最后筛选出来的视频摘要片段与人工得到的相似度较高，达到了预期。

参考文献：

[1]Avila S E F D.VSUMM:A mechanism designed to produce static videosummaries and a novel evaluation method[J].Pattern Recognition Letters,2011,32(1):56-68.

[2]M.Gygli,H.Grabner,H.Riemenschneider,and L.Van Gool.Creatingsummaries from user videos.In ECCV,2014.

[3]J.S.Boreczky,L.A.Rowe,Comparison of video shot boundary detectiontechniques,in:Proceedings of IS&T/SPIE International Symposium ElectronicImaging,San Jose,1996.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。