CN106034264A

CN106034264A - 基于协同模型的获取视频摘要的方法

Info

Publication number: CN106034264A
Application number: CN201510107439.9A
Authority: CN
Inventors: 李学龙; 卢孝强; 陈潇
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-03-11
Filing date: 2015-03-11
Publication date: 2016-10-19
Anticipated expiration: 2035-03-11
Also published as: CN106034264B

Abstract

本发明属于视频处理技术，具体涉及一种基于协同模型的获取视频摘要的方法，包括以下步骤：(1)生成对视频帧的特征表达矩阵；(2)通过协同模型综合评价视频帧的重要性；(3)提取关键帧，形成视频摘要。本发明通过构造协同模型兼顾了视频帧的表达性和分散性，提高了视频摘要的准确性。在字典学习过程中加入了视频帧几何结构的约束信息，使得到的稀疏表达更为精确，能够更准确地衡量视频帧的表达性。采用基于相似性度量的分散性衡量标准，能较好地避免提取出冗余的帧，提高了视频摘要的简洁性。

Description

基于协同模型的获取视频摘要的方法

技术领域

本发明属于视频处理技术，具体涉及一种基于协同模型的获取视频摘要的方法，可以用于公共安全监控管理、军事侦察和大规模视频数据管理等领域。

背景技术

近年来，伴随着低成本大存储量的数码录像设备日益普及，视频数据正在以惊人的速度爆炸性增长。以世界上最大的视频网站YouTube为例，截止2015年一月，每分钟上传的视频时长之和为100小时。这使得采用人工观看的方式理解和获取视频的主要内容需要耗费巨大的人力和时间。因此，人们迫切地需要一种能对海量视频数据高效分析的技术。通过视频摘要技术提取出包含了原视频的主要内容的若干视频帧(称为关键帧)，极大的缩短了理解视频内容所需的时间，从而满足人们希望快捷、准确地获取视频的主要信息的需求，提高人们的信息获取能力。

传统的视频摘要技术主要针对人工编辑的视频，例如新闻，体育比赛，电影等。此类视频由若干经过人工编辑的不相似内容子段构成，子段内部具有特定的特性如固定的背景、主要的活动区域、主要的颜色分布等。这些特殊的结构和特性使视频子段检测技术能很好的为视频摘要提供帮助。但是，对于大多数未经编辑的用户视频而言，类似的内容不同的视频子段并不明显。因此，传统的视频摘要技术并不适用于处理用户视频。

为了解决上述问题，近年来针对未编辑的用户视频的摘要技术被广泛研究。字典学习模型被引入视频摘要技术对视频内容的分析中，用于选取视频中表达性突出的帧，通过这些帧反映出视频的主要内容。典型的方法如“Y.Cong,J.Yuan,and J.Luo.Towards scalable summarization of consumer videos via sparse dictionary selection.IEEE Transactions on Multimedia,14(1):66–75,2012.”中介绍的DSVS(Dictionary Selection based Video Summarization)模型。该方法将关键帧选择问题视为字典选择问题，把原视频的每一帧的特征向量视为字典的一个基，通过选择出重构原视频的重构误差尽可能小，并且基的数量尽可能少的一组基底所对应的帧作为最终获得的视频摘要。随后，局部的判别性特征对衡量视频帧的表达性的作用得到广泛的探索。典型的方法如“S.Lu,Z.Wang,Y.Song,T.Mei,G.Guan,and D.D.Feng.A bag-of-importance model with locality-constrained coding based feature learning for video summarization.IEEE Transactions on Multimedia,16(6):1497–509,2014.”中介绍的BoI(Bag-of-Importance)模型。该方法提取原视频中所有帧的局部特征形成特征集合，在此特征集合上通过字典学习得到每个局部特征的稀疏表达系数，并以此系数向量的l2范数作为局部特征的重要性权值，在此基础上统计每一帧的重要性分数，通过选择重要性分数高的帧形成最终输出的视频摘要。

这些方法虽然取得了较好的结果，但是他们在进行字典学习时都没有考虑邻近帧之间的关系。这将不仅不能保证相似的邻近帧具有相似的稀疏表达系数，并且，也不能保证不相似的邻近帧的稀疏表达系数一定不同。因此，稀疏表达的准确性将受到影响。此外，这些方法虽然关注了视频帧的表达性，缺忽视了视频帧的分散性，从而导致挑选出的关键帧容易包含冗余信息，不能有效覆盖所有的重要内容。

发明内容

针对背景技术中提到的问题，本发明提供一种视频摘要方法，以提高视频摘要的准确性，并实现视频内容快速理解、视频数据智能存储和对大规模视频数据检索系统的有效辅助。

本发明的技术解决方案是：

一种基于协同模型的获取视频摘要的方法，其特殊之处在于：包括以下步骤：

1】生成对视频帧的特征表达矩阵：

1.1】对包含n帧的输入视频进行逐帧提取底层图像特征，获得输入视频的底层图像特征集合；

1.2】在所述底层图像特征集合上获得视频各帧的特征描述向量x，进而得到该视频的特征表达矩阵X＝[x₁,x₂,...,x_n]；

2】通过协同模型综合评价视频帧的重要性：

2.1】在所述底层特征集合上进行字典学习，获得字典B及各帧对应的稀疏表达系数向量z，进而得到稀疏表达系数矩阵Z＝[z₁,z₂,...,z_n]；

2.2】利用步骤1】得到的特征表达矩阵和步骤2.1】得到的稀疏表达系数矩阵计算得到各帧的重构误差R(x)：

R (x) = {| | x - Bz | |}_{2}^{2}

R(x)作为表达性分数，用于衡量视频帧的代表性；

2.3】对视频各帧的特征描述向量进行相似性度量，计算得到各帧的分散性分数D(x):

D (x_{j}) = \frac{1}{Ω} Σ_{i = 1}^{n} \exp (- \frac{1}{γ} d^{2} (x_{j}, x_{i}))

Ω = \frac{1}{n} Σ_{j = 1}^{n} Σ_{i = 1}^{n} \exp (- \frac{1}{γ} d^{2} (x_{j}, x_{i}))

其中，γ是一个用于控制距离范围的正数，d(·)代表欧式距离，Ω为视频所有帧的分散性分数的均值；

2.4】将所述表达性分数R(x)和分散性分数D(x)代入协同模型，获得重要性分数I(x):

I(x)＝R(x)D(x)

3】提取关键帧，形成视频摘要：

3.1】对视频各帧的重要性分数进行升序排列，提取前n'帧作为关键帧；

3.2】将所述关键帧按照对应的时序先后顺序重新排列，形成视频摘要。

上述步骤1.2】中获得视频各帧的特征描述向量x的方式为采用Bag-of-Word模型。

上述步骤2.1】中的字典学习过程还包括引入帧间的几何结构信息，其步骤如下：

2.1.1】构造邻近帧间的加权无向图G，用以获得帧间的几何结构信息W_ij，

W_{ij} = \{\begin{matrix} e^{- \frac{{| | x_{i} - x_{j} | |}_{2}^{2}}{σ}}, & x_{i} &Element; Neighbor (x_{j}) \\ 0, & otherwise \end{matrix}

其中，Neighbor(x_j)代表第j帧的邻近帧，σ是一个用于控制权重范围的正数；

2.1.2】进行最小化求解，将帧间的几何结构信息W_ij整合进稀疏表达系数中，得到图正则项Tr(ZLZ^T)：

\begin{matrix} \frac{1}{2} Σ_{i, j = 1}^{n} {| | z_{i} - z_{j} | |}_{2}^{2} W_{i, j} = Σ_{i = 1}^{n} z_{i}^{T} z_{i} D_{ii} - Σ_{i, j = 1}^{n} z_{i}^{T} z_{j} W_{ij} \\ = Tr ({ZDZ}^{T}) - Tr ({ZWZ}^{T}) \\ = Tr ({ZLZ}^{T}) \end{matrix}

其中，D是对角矩阵，其对角线上的元素L＝D-W，为图拉普拉斯矩阵；

2.1.3】将获得的图正则项代入稀疏编码的目标式，学习得到稀疏表达系数，最终的稀疏编码的目标式为：

\underset{B, Z}{\arg \min} \frac{1}{2} {| | X - BZ | |}_{F}^{2} + μTr ({ZLZ}^{T}) + λ {| | Z | |}_{1}

其中，Z＝[z₁,z₂,...,z_n]表示稀疏表达系数矩阵，参数μ和λ为权衡系数。

上述步骤2.3】中的γ取值为2；所述步骤2.1.1】中的σ取值为2；所述步骤2.1.3】中的μ取值为0.2；所述步骤2.1.3】中的λ取值为0.2。

本发明的有益效果在于：

(1)本发明通过构造协同模型兼顾了视频帧的表达性和分散性，提高了视频摘要的准确性。

(2)本发明在字典学习过程中加入了视频帧几何结构的约束信息，使得到的稀疏表达更为精确，能够更准确地衡量视频帧的表达性。

(3)本发明采用基于相似性度量的分散性衡量标准，能较好地避免提取出冗余的帧，提高了视频摘要的简洁性。

附图说明

图1为本发明获取视频摘要的方法流程图。

具体实施方式

参照图1，本发明实现的步骤如下：

步骤1，生成对视频帧的特征表达。

(1a)对包含n帧的输入视频进行逐帧提取底层图像特征操作，获得输入视频的底层特征集合；

(1b)在此特征集合上采用BoW(Bag-of-Word)模型得到视频各帧的特征描述向量x，从而得到该视频的特征表达矩阵X＝[x₁,x₂,...,x_n]；

步骤2，通过协同模型综合评价视频帧的重要性。

(2a)在获得的视频特征表达矩阵上进行字典学习，通过计算稀疏表达系数的重构误差衡量视频帧的表达性，重构误差越小的帧表明其具有更好的表达性。为实现获得更精确的稀疏表达系数的目的，在字典学习过程中引入帧间的几何结构约束信息。其步骤如下：

(2a1)构造邻近帧间的加权无向图G，用以发现帧间的几何结构信息，G中顶点间的权值W定义为：

W_{ij} = \{\begin{matrix} e^{- \frac{{| | x_{i} - x_{j} | |}_{2}^{2}}{σ}}, & x_{i} &Element; Neighbor (x_{j}) \\ 0, & otherwise \end{matrix}

其中，Neighbor(x_j)代表第j帧的邻近帧，参数σ是一个正数用来控制权重的范围。

(2a2)为实现将帧间几何结构信息整合进稀疏表达系数中，进行最小化求解，得到图正则项Tr(ZLZ^T)

\begin{matrix} \frac{1}{2} Σ_{i, j = 1}^{n} {| | z_{i} - z_{j} | |}_{2}^{2} W_{i, j} = Σ_{i = 1}^{n} z_{i}^{T} z_{i} D_{ii} - Σ_{i, j = 1}^{n} z_{i}^{T} z_{j} W_{ij} \\ = Tr ({ZDZ}^{T}) - Tr ({ZWZ}^{T}) \\ = Tr ({ZLZ}^{T}) \end{matrix}

其中，Tr(·)表示矩阵的迹。D是对角矩阵，其对角线上的元素并且，L＝D-W为图拉普拉斯矩阵。

(2a3)将上一步骤构造出的图正则项带入稀疏编码的目标式，学习得到稀疏表达系数，最终的稀疏编码的目标式如下：

\underset{B, Z}{\arg \min} \frac{1}{2} {| | X - BZ | |}_{F}^{2} + μTr ({ZLZ}^{T}) + λ {| | Z | |}_{1}

其中，Z＝[z₁,z₂,...,z_n]表示稀疏表达系数矩阵，参数μ和λ为权衡系数。||·||_F表示F-范数，||·||₁表示1-范数。

(2a4)计算视频各帧稀疏表达系数向量的重构误差R(x)：

R (x) = {| | x - Bz | |}_{2}^{2}

由此可衡量视频帧的代表性；

(2b)通过对视频各帧的特征描述向量进行相似性度量，衡量其分散性，分散性越好表明其包含的冗余信息越少，以此避免冗余的帧被挑选进入最终的视频摘要。视频帧的分散性计算公式如下：

D (x_{j}) = \frac{1}{Ω} Σ_{i = 1}^{n} \exp (- \frac{1}{γ} d^{2} (x_{j}, x_{i}))

Ω = \frac{1}{n} Σ_{j = 1}^{n} Σ_{i = 1}^{n} \exp (- \frac{1}{γ} d^{2} (x_{j}, x_{i}))

其中，参数γ是一个正数用来控制距离的范围，d(·)代表欧式距离，Ω为视频所有帧的分散性分数的均值。通过引入指数函数e^-d( ^· ⁾。由此可得，视频帧的分散性分数越小，代表其包含的冗余信息越少。

(2c)引入协同模型综合衡量视频帧的表达性和分散性，视频帧的重要性分数计算公式如下：

I(x)＝R(x)D(x)

在本发明构建的协同模型中，基于重构误差的代表性得分和基于相似性度的分散性得分同时对衡量重要性产生作用。涵盖主要内容的帧将获得较小的代表性分数，包含冗余信息少的帧也将获得较小的分散性分数。因此，代表了主要内容，同时包含更少冗余信息的视频帧将被选为关键帧。

步骤3，提取关键帧，形成视频摘要。

(3a)按照用户需要的摘要长度n'，对视频各帧的重要性分数进行升序排列，排序越靠前表明的帧重要性程度越高，选取排序靠前的n'帧，并将提取出的关键帧按对应的时序先后顺序重排，形成视频摘要；

步骤4，评价摘要结果的准确性。

根据SumMe数据库提供的用户标记的关键帧，统计本发明得到的摘要结果的查准率precision和查全率recall，并采用F-measure评价指标综合考察查准率和查全率，最终得到对视频摘要结果的综合评价：

F = \frac{precision \times recall}{(1 - α) \times precision + α \times recall}

具体的实验验证过程如下：

1.仿真条件

本发明是在中央处理器为Intel(R)Core(TM)i3-2130 3.40GHZ、内存16G、WINDOWS 8操作系统上，运用MATLAB软件进行的仿真。

实验中使用的数据库为瑞士联邦理工学院计算机视觉实验室公开的权威的SumMe视频摘要数据库。该数据库包含25个未经人工编辑的用户拍摄视频，内容涉及在不同的场景下人或物的活动。

2.仿真内容

在SumMe数据库上，完成本发明算法(基于协同模型的视频摘要)的实验。为了证明算法的有效性，综合考虑算法的流行性、崭新性，我们选取了2个对比方法DSVS和BoI进行比较。计算数据库中全部的25个视频的平均F-measure分数作为检索系统的评价指标，结果如表1所示。实验中参数γ取值为2；σ取值为2；μ取值为0.2；λ取值为0.2。

表1.视频摘要结果的F-measure分数

从表1可见，本发明的平均F-measure分数较其他方法取得了更好的结果。这是因为本发明在字典学习过程中加入了视频帧几何结构的约束信息，使得到的稀疏表达更为精确，同时通过相似性度量衡量了视频帧的分散性，并且引入协同模型综合考虑了表达性和分散性。由此，形成的视频摘要在包含主要内容的同时，避免了冗余信息。因此获得了更好的摘要结果，进一步验证了本发明的先进性。

Claims

1.一种基于协同模型的获取视频摘要的方法，其特征在于：包括以下步骤：

1】生成对视频帧的特征表达矩阵：

2】通过协同模型综合评价视频帧的重要性：

R (x) = {| | x - Bz | |}_{2}^{2}

R(x)作为表达性分数，用于衡量视频帧的代表性；

D (x_{j}) = \frac{1}{Ω} Σ_{i = 1}^{n} \exp (- \frac{1}{γ} d^{2} (x_{j}, x_{i}))

Ω = \frac{1}{n} Σ_{j = 1}^{n} Σ_{i = 1}^{n} \exp (- \frac{1}{γ} d^{2} (x_{j}, x_{i}))

I(x)＝R(x)D(x)

3】提取关键帧，形成视频摘要：

2.根据权利要求1所述的基于协同模型的获取视频摘要的方法，其特征在于：所述步骤1.2】中获得视频各帧的特征描述向量x的方式为采用Bag-of-Word模型。

3.根据权利要求1或2所述的基于协同模型的获取视频摘要的方法，其特征在于：所述步骤2.1】中的字典学习过程还包括引入帧间的几何结构信息，其步骤如下：

W_{ij} = \{\begin{matrix} e^{- \frac{{| | x_{i} - x_{j} | |}_{2}^{2}}{σ}}, & x_{i} &Element; Neighbor (x_{j}) \\ 0, & otherwise \end{matrix}

\begin{matrix} \frac{1}{2} Σ_{i, j = 1}^{n} {| | z_{i} - z_{j} | |}_{2}^{2} W_{i, j} = Σ_{i = 1}^{n} z_{i}^{T} z_{i} D_{ii} - Σ_{i, j = 1}^{n} z_{i}^{T} z_{j} W_{ij} \\ = Tr ({ZDZ}^{T}) - Tr ({ZWZ}^{T}) \\ = Tr ({ZLZ}^{T}) \end{matrix}

\underset{B, Z}{\arg \min} \frac{1}{2} {| | X - BZ | |}_{F}^{2} + μTr ({ZLZ}^{T}) + λ {| | Z | |}_{1}

4.根据权利要求3所述的基于协同模型的获取视频摘要的方法，其特征在于：所述步骤2.3】中的γ取值为2；所述步骤2.1.1】中的σ取值为2；所述步骤2.1.3】中的μ取值为0.2；所述步骤2.1.3】中的λ取值为0.2。