CN111031390B

CN111031390B - 一种输出大小固定序列行列式点过程视频概要方法

Info

Publication number: CN111031390B
Application number: CN201911301051.7A
Authority: CN
Inventors: 郑吉平; 陆淦峰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2022-10-21
Anticipated expiration: 2039-12-17
Also published as: CN111031390A

Abstract

本发明公开了一种输出大小固定序列行列式点过程视频概要方法，包括以下步骤：步骤一，将输入的视频转换为视频帧集合；步骤二，对步骤一得到的视频帧集合内的视频帧按每秒1帧均匀采样，得到新的视频帧集合；步骤三，对步骤二得到的视频帧集合中的每一个视频帧进行图像处理，提取出每一个视频帧的特征向量；步骤四：利用步骤三得到的特征向量，进行机器学习，建立初始的DPP模型；步骤五：在步骤四得到的DPP模型上，使用k‑SDPP方法为用户输出其需要的关键帧数量。本发明在考虑视频帧之间的顺序性的同时，能够让用户根据自己的需要调节输出关键帧的数量，克服了seqDPP算法和k‑DPP算法的缺点。

Description

一种输出大小固定序列行列式点过程视频概要方法

技术领域

本发明属于计算机技术领域，特别涉及一种视频摘要方法。

背景技术

随着科学技术的飞速发展，特别是智能手机的兴起，让几乎每一部手机都具备了摄像的功能，换句话说，在当今时代，我们每个人都是潜在的摄影师，视频数据已经进入一个爆炸式增长的时代。据统计，每天上传到YouTube上的视频数据就达到了144000小时，另外在国内，斗鱼、虎牙、抖音等直播平台也是视频数据的“高产者”，每天我们都在积累大量的视频数据。视频数据已呈爆炸式地增长，尤其是微博、直播等互联网产物的兴起，带动了视频数据火箭般地速度增长。据数据统计，在2018年，视频数据每个月占据移动手机数据60％，总量达28EB，预计在2024年，视频数据每个月将达到131EB并占据移动手机数据总量的74％。存储如此庞大的数据量会带来高额的成本，并且对于大部分的视频来说，很多内容都是冗余的。例如，一个公司的安保摄像头每个月都会产生大量的视频数据，但是这些视频数据中的大部分内容都是不重要的——大部分的内容往往都是静止的画面，只有那些有人进出的部分才是比较重要的。因此，将视频数据转换为关键帧或者短镜头序列，在降低存储成本的同时保证关键信息不丢失，既方便了用户了解视频内容，又节约了存储的成本损耗，在现实生活中具有重要的意义。因此视频摘要——将长视频转换为短视频或关键帧序列，在保证关键信息不丢失的同时节省存储成本已成为信息检索和机器学习领域的重要任务。

在视频摘要方面，有大量关于计算机视觉和多媒体开发的研究。Ngo等人提出了图形建模来自动生成视频摘要[1]。Hadi等人使用k-medoid聚类来生成视频摘要[2]。这些文件总结了一些优秀的摘要应具备的优秀属性，包括代表性(摘要应涵盖视频的主要内容)，多样性(摘要中的元素不应多余)[3]，重要性(摘要中的对象)应该有一个重要的外观或运动)。在机器学习领域，已经提出行列式点过程(DPP)作为一种计算有效的方法，用于从地面元素集中选择具有多样性属性的子集[4]。DPP在许多领域都有重要的应用，如视频摘要[5]，文档摘要[4]等领域。与传统的独立抽样方法相比，DPP在多样性方面具有更多优势[6]。

基于这些研究，我们可以根据一定的标准，首先将视频剪辑成帧，然后根据标准(例如代表性、多样性)并采用一定的方法(例如DPP)对这些视频帧进行筛选，得到一组符合要求的视频帧作为摘要。

当然，满足这些优秀属性的摘要不一定是让用户满意的摘要，Li等人开发了一种方法，用于结合人类生成的摘要评估候选摘要的质量[7]，这样可以使得到的摘要更符合用户的口味。

以上我们以用户的偏好为基础，结合多样性等标准，开发k-SDPP算法为视频进行摘要，将数据量庞大的视频以关键帧的形式保存，节约存储上的成本的同时，保证视频的关键信息不丢失。

目前主流的视频摘要算法例如DPP等比较适用于文档摘要，不适用于视频摘要，因为这些方法大都依据多样性的原则，往往忽视了视频帧的顺序性关系。举个简单的例子，假设现在有一个足球比赛的视频需要进行摘要，如果比赛产生了两个及以上的进球，那么对于DPP算法，它最多只会保留一个关于进球的帧(进球的画面基本相似，如果都选为关键帧就违背了多样性原则)。Gong等人提出的seqDPP算法可以克服这个缺点，seqDPP算法使用的贝叶斯结构充分地考虑了视频帧之间的顺序性，但是它也存在一个问题，就是输出的关键帧的数量是无法固定的。也就是说，在算法的结果运行出来之前，用户不知道它会输出多少关键帧，并且，输出关键帧的数量是不可调节的，也就是用户不可以在算法运行之前指定关键帧的数量，无法根据用户的需要输出关键帧的数量。另一种称为k-DPP的算法虽然可以固定输出关键帧的数量，但是它忽视了视频帧之间的顺序性，所以k-DPP的输出结果比之seqDPP差距较大，用户的满意度方面显得有些差强人意。

参考文献：

[1]Ngo C,Ma Y,Zhang H.Automatic video summarization by graph modeling[C]//IEEE International Conference on Computer Vision.IEEE,2003.

[2]Hadi Y,Essannouni F,Thami R O H.[ACM Press the 2006ACM symposium-Dijon,France(2006.04.23-2006.04.27)]Proceedings of the 2006ACM symposium onApplied computing,-SAC\"06-Video summarization by k-medoid clustering[C]//AcmSymposium on Applied Computing.DBLP,2006:1400.

[3]Sinha P,Jain R.[IEEE 2011IEEE International Conference onMultimedia and Expo(ICME)-Barcelona,Spain(2011.07.11-2011.07.15)]2011IEEEInternational Conference on Multimedia and Expo-Extractive summarization ofpersonal photos from life events[J].2011:1-6.

[4]Kulesza A,Taskar B.Determinantal point processes for machinelearning[J].Foundations&

in Machine Learning,2012,5(2-3):xvii.

[5]Gong B,Chao W L,Grauman K,et al.Diverse sequential subsetselection for supervised video summarization[J].Advances in neuralinformation processing systems,2014,3:2069-2077.

[6]J.Hough U C B,Yuval Peres U C B.Determinantal processes andindependence[J].Probability Surveys,2005,3(1):2006.

[7]Li,Yingbo,Merialdo,et al.VERT:automatic evaluation of videosummaries[J].IEEE,2010,-1(31):1-4.

发明内容

本发明的目的是提供一种基于动态规划的输出大小固定序列行列式点过程视频概要方法，以克服seqDPP算法和k-DPP算法的缺点，在考虑视频帧之间的顺序性的同时，能够让用户根据自己的需要调节输出关键帧的数量。

为实现上述目的，本发明采用的技术方案为：

一种基于动态规划的输出大小固定序列行列式点过程视频概要方法，包括以下步骤：

步骤一，将输入的视频转换为视频帧集合；

步骤二，对步骤一得到的视频帧集合内的视频帧按每秒1帧均匀采样，得到新的视频帧集合；

步骤三，对步骤二得到的视频帧集合中的每一个视频帧进行图像处理，提取出每一个视频帧的特征向量；

步骤四，利用步骤三得到的特征向量，进行机器学习，建立初始的DPP模型；

步骤五，；所述k-SDPP方法是建立在将视频划分成T个互不相交的片段上的动态规划方法，包括以下步骤：

首先，将视频划分成T个互不相交的片段：

k-SDPP方法首先计算从第一个片段中选取i帧的概率，用P(i,1)表示：

其中，X’代表从这个片段中选择的帧集合，例如第一个片段有{1,2,...,10}这些帧，X’就是这个片段的子集变量，可以取空集-全集所有的子集；L₁是第一个片段G₁中的元素所索引的L矩阵中对应的行与列，若i＝0，那么任意的P(0,j)＝1(j＝1,2,...,T)，因为从一个片段中选取0帧是一个确定性事件，想要求出从前j个片段选择i个帧中最优的P(i,j)，则P(i,j)一共有i+1个不同的方案，即：

(1)前j-1个片段中选择0个帧，在第j个片段中选择i个帧；

(2)前j-1个片段中选择1个帧，在第j个片段中选择i-1个帧；

(3)前j-1个片段中选择2个帧，在第j个片段中选择i-2个帧；

......

(i+1)前j-1个片段中选择i个帧，在第j个片段中选择0个帧；

也就是任意的P(i,j)都能够由之前的P的计算结果计算出来，那么能够用一个贝叶斯公式表示计算获得P(i,j)的过程：

P(x_i,x_j)＝max{P(x_m,x_j-1)P(x_j,i-m|x_j-1)}

其中m＝1,2,...,i并且有：

从第一个片段的计算结果开始，逐步推导计算出后面每一个片段相应的计算结果；

根据上述的逐步推导计算过程，使用动态规划的方法来解决视频摘要问题，设有一个用户需要对一个视频进行摘要，他希望得到的关键帧的数量是k帧，那么转化为k-SDPP过程，实际上就是求最优的P(k,T)，从第一个片段或最后一个片段的计算开始，逐步推导计算出其后面或前面的每一个片段相应的计算结果，最终计算出P(k,T)。

所述步骤一中，将输入的视频按设定的频率转换为视频帧集合，优选的，频率为每秒30帧。

优选的，所述步骤五中，逐步推导计算时，从最后一个片段开始，最终推导出第一个片段的结果。

有益效果：与传统的DPP方式不同的是，本发明在三方面提出了创新：

第一，本发明的k-SDPP充分考虑了视频帧之间的顺序性关系，由于本发明的k-SDPP采用的是将视频划分为若干个片段，每个片段只考虑上一个片段的选择结果，即每一个片段的选择尽可能与最近邻片段多样化，这样既避免了时间位置上接近的帧重复被选择，同时也保证了时间间隔较远，内容相似但是意义不一样的帧能够互相不产生干扰。

第二，本发明的k-SDPP可以固定摘要的大小，传统的DPP方法基于概率的随机采样，输出的关键帧的数量是不确定的，往往是在一个期望值上下波动，而本发明的k-SDPP基于动态规划的思想，可以根据用户的需要调节关键帧的数量，输出用户期望的关键帧的数量，这一点非常重要，因为有的用户喜欢丰富，希望关键帧能够多一些，有的用户喜欢精简，希望关键帧少一些，DPP显然无法满足用户的这个需求，但是本发明的k-SDPP可以做到这一点。

第三，本发明的k-SDPP在设计上为同一个视频的“后来者”提供了很大的便捷性，举例来说，假设对于同一个视频，视频被划分为4个片段，第一个用户选择了4个关键帧，用本发明的k-SDPP方法计算，则用P(4,4)来表示结果。如果第二个用户选择了少于4个关键帧，比如3个关键帧，那么根据本发明的k-SDPP方法，用P(3,4)来表示，而P(4,4)是由P(0,4)，P(1,4)，P(2,4)和P(3,4)计算出来的，也就是在计算第一个用户的需要时，第二个用户的需求P(3,4)已经被计算出来，就无需再重复计算一遍。所以本发明的k-SDPP能够避免不必要的计算，为用户提供很大的便捷性。

附图说明

图1为本发明的k-SDPP方法中P(i,j)的计算过程；

图2为自顶向下和自底向上的逐步推导计算比较；

图3为k-SDPP伪代码。

具体实施方式

下面结合附图对本发明做更进一步的解释。

本发明的一种基于动态规划的输出大小固定序列行列式点过程视频概要方法，包括以下步骤：

步骤一，将输入的视频按设定的频率转换为视频帧集合，例如将频率设定为每秒30帧；

步骤二，考虑到同一秒内的视频帧外观差距很小，因此，每秒保留一个视频帧即可，对步骤一得到的视频帧集合内的视频帧按每秒1帧均匀采样，得到新的视频帧集合；

步骤三，对步骤二得到的视频帧集合中的每一个视频帧进行图像处理，提取出每一个视频帧的特征向量，这样就可以将视频帧转换为数据进行处理；其中，特征向量例如Fisher向量；

步骤四：利用步骤三得到的特征向量，进行机器学习，建立初始的DPP模型；

步骤五：在步骤四得到的DPP模型上，使用k-SDPP方法为用户输出其需要的关键帧数量。

为了了解本发明的k-SDPP方法的具体运算过程，首先介绍一下DPP。

DPP是一个数学模型，最早用于化学中的泡利不相容原则，即两个相同状态的电子不能出现在同一轨道上。DPP的互斥性特点很适合对多样性进行建模，因此DPP是对视频进行摘要的强有力工具。

设G＝{1,2,..,N}是一个拥有N个视频帧的集合，当然，视频帧在计算机中通常是由其所提取出来的特征向量表示的，比如Fisher向量。我们的目标是从G中抽取一些元素，能够最大化地代表G的内容，也就是选择G的一个子集，这个子集能最好地涵盖G中的内容，DPP定义了G所有的2^N子集的一个离散概率分布(即这2^N个子集各自被选为最后输出结果的概率)，我们用X来代表选择子集的随机变量，那么用DPP来表示X的概率为：

其中，核矩阵L是DPP的参数，并且是一个半正定矩阵。L的行与列由G中的视频帧索引，L_x是x所包含的元素在L中索引的行与列构成，I是N*N的单位矩阵，det为行列式函数，通过公式(1)，我们可以明显发现DPP具有互斥性的特点，比如说对于一个拥有两个元素i和j的子集，我们通过DPP的计算可以得到：

通过公式(2)我们可以发现，i和j越相似，它们出现在同一子集中的概率就越小，极端情况下，i与j完全一样，有L_ii＝L_jj＝L_ij，即概率为0。当然，G中最具多样性的子集拥有最高的概率，也是我们最理想的结果：

但是，从G的2^N个子集中去寻找概率最大的那个子集，这毫无疑问是一个NP难的问题，我们不可能将这2^N个子集的概率全部计算一遍以求出最大值，对于DPP来说，有采样、近似算法等不同的解决方案，接下来，要介绍的是本发明的k-SDPP的方法。

k-SDPP方法：

k-SDPP方法是建立在将视频划分成T个互不相交的片段上的动态规划方法，首先，将视频划分成T个互不相交的片段：

k-SDPP首先计算从第一个片段中选取i帧的概率，用P(i,1)表示：

其中，X’代表从这个片段中选择的帧集合，例如第一个片段有{1,2,...,10}这些帧，X’就是这个片段的子集变量，可以取空集-全集所有的子集；L₁是第一个片段G₁中的元素所索引的L矩阵中对应的行与列，若i＝0，那么任意的P(0,j)＝1(j＝1,2,...,T)，因为从一个片段中选取0帧是一个确定性事件(选0帧不可能有多种选择情况)，想要求出从前j个片段选择i个帧中最优的P(i,j)，可以这么考虑，P(i,j)一共有i+1个不同的方案，即：

(1)前j-1个片段中选择0个帧，在第j个片段中选择i个帧。

(2)前j-1个片段中选择1个帧，在第j个片段中选择i-1个帧。

(3)前j-1个片段中选择2个帧，在第j个片段中选择i-2个帧。

......

(i+1)前j-1个片段中选择i个帧，在第j个片段中选择0个帧。

也就是任意的P(i,j)都可以由之前的P的计算结果计算出来，那么用一个贝叶斯公式可以表示计算获得P(i,j)的过程：

P(x_i,x_j)＝max{P(x_m,x_j-1)P(x_j,i-m|x_j-1)} (6)

其中m＝1,2,...,i并且有：

如图1所示，可以从第一个片段的计算结果开始，逐步推导计算出后面每一个片段相应的计算结果。

根据这样的递归过程，可以使用动态规划的方法来解决视频摘要问题，假设有一个用户需要对一个视频进行摘要，他希望得到的关键帧的数量是k帧，那么转化为k-SDPP过程，实际上就是求最优的P(k,T)，可以从第一个片段的计算开始，逐步推导计算出后面每一个片段相应的计算结果，最终也可以计算出P(k,T)。动态规划是基于分治的思想，从k-SDPP出发，可以用动态规划的方法，从第一个片段出发推导出最后一个片段的结果(这个过程是自底向上的求解过程)，或者从最后一个片段开始，推导出第一个片段该如何选择(这个过程是自顶向下的过程)。假设有一个用户需要对一个3片段的视频进行摘要，他希望获得两个关键帧，那么采用自顶向下和自底向上的方法如图2所示。可以明显发现，自顶向下的方法存在大量的重复计算，如图2中(a)中着色部分所示，而自底向上的方法可以避免大量的重复计算。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于动态规划的输出大小固定序列行列式点过程视频概要方法，其特征在于：包括以下步骤：

步骤一，将输入的视频转换为视频帧集合；

步骤五，在步骤四得到的DPP模型上，通过k-SDPP方法为用户输出其需要的关键帧数量；所述k-SDPP方法是建立在将视频划分成T个互不相交的片段上的动态规划方法，包括以下步骤：

首先，将视频划分成T个互不相交的片段：

其中，X’代表从这个片段中选择的帧集合；L₁是第一个片段G₁中的元素所索引的L矩阵中对应的行与列，若i＝0，那么任意的P(0,j)＝1(j＝1,2,...,T)，因为从一个片段中选取0帧是一个确定性事件，想要求出从前j个片段选择i个帧中最优的P(i,j)，则P(i,j)一共有i+1个不同的方案，即：

(1)前j-1个片段中选择0个帧，在第j个片段中选择i个帧；

(2)前j-1个片段中选择1个帧，在第j个片段中选择i-1个帧；

(3)前j-1个片段中选择2个帧，在第j个片段中选择i-2个帧；

......

(i+1)前j-1个片段中选择i个帧，在第j个片段中选择0个帧；

P(x_i,x_j)＝max{P(x_m,x_j-1)P(x_i-m,j|x_j-1)}

其中m＝1,2,...,i并且有：

根据上述的逐步推导计算过程，使用动态规划的方法来解决视频摘要问题，设有一个用户需要对一个视频进行摘要，得到的关键帧的数量是k帧，那么转化为k-SDPP过程，实际上就是求最优的P(k,T)，从第一个片段或最后一个片段的计算开始，逐步推导计算出其后面或前面的每一个片段相应的计算结果，最终计算出P(k,T)。

2.根据权利要求1所述的基于动态规划的输出大小固定序列行列式点过程视频概要方法，其特征在于：所述步骤一中，将输入的视频按设定的频率转换为视频帧集合。

3.根据权利要求2所述的基于动态规划的输出大小固定序列行列式点过程视频概要方法，其特征在于：采样频率设置为每秒30帧。

4.根据权利要求1所述的基于动态规划的输出大小固定序列行列式点过程视频概要方法，其特征在于：所述步骤三中，视频帧的特征向量为Fisher向量。

5.根据权利要求1所述的基于动态规划的输出大小固定序列行列式点过程视频概要方法，其特征在于：所述步骤五中，逐步推导计算时，从最后一个片段开始，最终推导出第一个片段的结果。