CN109857906B

CN109857906B - 基于查询的无监督深度学习的多视频摘要方法

Info

Publication number: CN109857906B
Application number: CN201910023842.1A
Authority: CN
Inventors: 冀中; 张媛媛; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2023-04-07
Anticipated expiration: 2039-01-10
Also published as: CN109857906A

Abstract

本发明涉及视频摘要处理，为提出一种能够结合视频的视觉信息和与主题相关的先验信息，利用受限玻尔兹曼机思想的多视频摘要方法，本发明基于查询的无监督深度学习的多视频摘要方法，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧；然后将融合的视频特征作为可见层H⁰输入到深层架构以构造具有隐藏层H¹的多层受限玻尔兹曼机RBM，在第一层RBM进行两个不同的过程，包括：基于查询的初始权重设置和查询导向惩罚过程；随后通过低层参数自下而上连接到RBM网络的第二、三层；在基于深层体系结构的概念提取之后，通过更高层的隐藏层H³输出简洁且有意义的多视频摘要。本发明主要应用于视频摘要处理。

Description

基于查询的无监督深度学习的多视频摘要方法

技术领域

本发明涉及视频摘要处理。特别是涉及对具有冗余性，交叉性等特点的多媒体视频数据，通过无监督深度学习(受限玻尔兹曼机)方法对多视频关键镜头进行分析，再结合网络图像的辅助信息进行摘要获取的基于查询的无监督深度学习的多视频摘要方法。具体讲，涉及查询的无监督深度学习的多视频摘要方法。

背景技术

随着技术的发展，在线视频的数量正以飞快的速度增长，用户也可以使用自己的移动设备方便地上传个人视频到共享网站。记录同一事件、同一场景的视频可能存在大量的冗余信息，这对用户捕捉重要信息带来了困难。因此对大量的视频集中提取出有意义的部分，使用户快速获取视频信息的重要内容的技术是迫切需求的。视频摘要是通过将一个或多个视频转换为精简视频来满足此要求的技术，引起了越来越多的研究人员的关注。多视频摘要技术旨在针对某个查询主题下的大量视频，提取出和检索主题内容相关的且有意义的部分，并以一定的逻辑形式呈现出来，目的是通过简洁而又涵盖主题内容的概要帮助用户更好地了解视频集的重要信息。视频摘要的方法也可以分为两类：基于关键帧的视频摘要和基于视频剪辑的视频摘要。不管是哪类方法，根本目的都是一样的，就是使用户在最短的时间获取原始视频中最大的信息量。多视频摘要需要满足的基本要求：1)最大信息覆盖率；2)重要性；3)主题相关性。最大信息覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头，从而提取出多个视频中重要的内容。主题相关性指的是要保证获取的视频摘要并能准确的反映查询主题的内容。对于单视频摘要，目前有很多实现方法。但是多视频数据集的处理就比较困难。一方面多视频数据集存在较大的冗余性：大量同性质的网站提供相同或者类似的视频资源，用户可以上传自己的视频数据。另一方面多视频数据集同一内容所表现出来的音频信息，文本信息和视觉信息可能存在较大差别。因此多视频摘要技术相对于单个视频摘要获取就存在比较大的困难。

作为一个更具挑战性的任务，研究学者针对多视频数据集提出了一些比较可行的方法。其中聚类的方法或者图模型法在原始搜索结果中分析和发现视觉相似的图像作为搜索样例原型是一种比较常用的方法。传统的聚类方法不能解决多视频数据集在同一主题下内容多样且冗余所带来的困难。只考虑视觉上的信息效果较差，需要结合多视频的多模态信息进行摘要的获取。

针对同一主题下的多视频数据集，利用视频的视觉共现特性(visual Co-occurrence)实现多视频摘要是一种比较新颖的方法。该方法认为重要的视觉概念往往重复出现在同一主题下的多个视频中，并根据这一特点提出了最大二元组查找算法(MaximalBiclique Finding)，提取多视频的稀疏共现模式，从而实现多视频摘要。但是该方法仅适用于特定的数据集，对于视频中重复性较小的视频集，该方法就失去了意义。

此外，相关学者利用多视频中的文本，音频等多模态信息，判断视频中的重要信息，生成多视频摘要。目前，由于多视频数据的复杂性，多视频摘要技术的方法还有待提升。因此，如何借助已有的多视频信息对数据集进行视频结构和内容的分析，更好地实现多视频摘要，成为目前相关学者研究的热点。

发明内容

本发明所要解决的技术问题是：针对多媒体视频数据的冗余信息、重复信息较多等特点，提供一种能够结合视频的视觉信息和与主题相关的先验信息，利用受限玻尔兹曼机思想的多视频摘要方法。

本发明所采取的技术方案是：基于查询的无监督深度学习的多视频摘要方法，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧，提取4096维的VGG卷积神经网络特征和256维的颜色特征；然后将融合的4352维的视频特征作为可见层H⁰输入到深层架构以构造具有隐藏层H¹的多层受限玻尔兹曼机RBM，为了整合文档摘要的查询信息，在第一层RBM进行两个不同的过程，包括：基于查询的初始权重设置和查询导向惩罚过程；随后通过低层参数自下而上连接到RBM网络的第二、三层；在基于深层体系结构的概念提取之后，通过更高层的隐藏层H³输出简洁且有意义的多视频摘要。

具体的，提取视频视觉特征，使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征，记为f＝[f₁,f₂,...f_i,...,f_v]，f_i表示第i帧的特征。

无监督深度学习的网络采用多层受限玻尔兹曼机，具体表示如下：

视频特征f作为可见层H⁰输入到深层架构以构造具有隐藏层H¹的受限玻尔兹曼机RBM，第一层RBM即可见层H⁰和隐藏层H¹之间的能量函数通过公式(1)来定义：

E(h⁰,h¹；θ¹)＝-((h⁰)^TA¹h¹+(b¹)^Th⁰+(c¹)^Th¹) (1)

其中，θ¹＝(A¹,b¹,c¹)是可见层H⁰和隐藏层H¹之间的模型参数，A¹是H⁰中的可见单元和H¹中隐藏单元之间的对称交互项，b¹是H⁰的偏差，c¹是H¹的偏差。

可见层H⁰和隐藏层H¹之间具有如下联合分布：

其中，Z是一个归一化函数，在H⁰中可见矢量分配给h⁰的对数似然概率如公式(3)所示：

可见层H⁰的输入状态h⁰和隐藏层H¹的隐藏状态h¹的条件概率分布由公式(4)和(5)定义：

其中σ(x)＝1/(1+exp(-x))；

定义h¹(k)为来自链的第k个h¹的样本，从k＝0开始，其中h¹(0)是RBM的输入观察，而(h¹(k),h⁰(k))for k→∞是马尔可夫链的样本，计算出公式(3)的导数与参数θ¹＝(A¹,b¹,c¹)有如下关系：

当k＝1时，模型参数A¹的导数可以通过公式(7)获得：

其中<·>_data表示数据分布的期望，<·>_recon表示一步之后数据的“重建”分布，由此参数A¹定义转化成：

其它在θ¹中的参数更新的方式也以相似的方式进行计算，其中

是动量参数，ε_A,ε_b,ε_c是学习率；

以上是第一层RBM可见层H⁰与隐藏层H¹的操作过程，RBM被用作深层模型的构建块，因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示，同理隐藏层H¹与隐藏层H²之间、隐藏层H²与输出层H³之间的连接的能量函数分别由式(11)(12)表示，联合分布函数分别由式(13)(14)表示：

E(h¹,h²；θ²)＝-((h¹)^TA²h²+(b²)^Th¹+(c²)^Th²) (11)

E(h²,h³；θ³)＝-((h²)^TA³h³+(b³)^Th²+(c³)^Th³) (12)

依据第一层RBM参数推导，同理可推导出θ²、A²、b²、c²以及θ³、A³、b³、c³。

此外，为了得到与主题相关度高的视频摘要，借助查询的网络图像的辅助信息，在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作，Q＝[q₁,q₂,...,q_i,...,q_m]表示查询的网络图像特征集合，m表示网络图像集合帧的个数；

在随机初始化设置后，如果第i个H⁰中的节点帧与查询网络图像的平均相似性大于0.5，进行公式(15)操作：

其中，

是H⁰中的可见单元i和H¹中隐藏单元j之间的对称交互项；

在惩罚过程中，与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多；

其中γ是惩罚因子，s_i表示第i个候选关键帧与主题相关程度，定义为

sim(·,·)表示余弦相似性。

最后，在基于深层体系结构的概念提取之后，重要性矩阵AF如公式(17)所示：

其中K₃表示隐藏层H³中单元总数，A¹,A²,A³是层对中的对称交互项；

从隐藏层H³输出中选择重要性分数前80％的帧作为多视频摘要结果，输出关键帧集合F，得到简介且有意义的多视频摘要。

本发明能够带来如下有益效果：

本发明针对多媒体视频数据的冗余信息、重复信息较多等特点，结合视频的视觉信息和与主题相关的先验信息，利用受限玻尔兹曼机思想对传统的多视频摘要方法进行了改进，从而达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。

附图说明

图1是本发明基于查询的无监督深度学习的多视频摘要整体流程图。

具体实施方式

本发明针对多媒体视频数据的冗余信息、重复信息较多等特点，结合视频的视觉信息和与主题相关的先验信息，利用受限玻尔兹曼机思想对传统的多视频摘要方法进行了改进，达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。

本发明的目的在于提供一种基于查询的无监督深度学习的多视频摘要技术。针对多视频数据集冗余性高、交叉性强、主题多样性等特点，本发明首先对视频进行镜头检测预处理得到候选关键帧，提取候选关键帧对应的融合视觉特征。然后通过受限玻尔兹曼机获取网络隐藏层单元信息，利用网络图像与视频集在同一事件主题下的共性关系，在网络中加入基于查询的初始权重设置和查询导向惩罚过程两个过程，以得到与主题程度相关度高的关键帧集。最后同归高层的隐藏层输出简洁且有意义的多视频摘要。

本发明所采取的技术方案是：基于查询的无监督深度学习的多视频摘要方法，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧，提取4096维的VGG卷积神经网络特征和256维的颜色特征；然后将融合的4352维的视频特征作为可见层H⁰输入到深层架构以构造具有隐藏层H¹的受限玻尔兹曼机RBM，为了借助查询信息的辅助信息提取摘要，我们进行两个不同的过程，包括：基于查询的初始权重设置和查询导向惩罚过程；随后对所有候选关键帧在更高层的RBM执行类似的操作；在基于深层体系结构的概念提取之后，通过更高层的隐藏层H³输出简洁且有意义的多视频摘要。

下面结合附图和具体实施方式，进一步详细说明本发明。

本发明的一种基于查询的无监督深度学习的多视频摘要方法，如图1所示，包括如下步骤：

(1)使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征，记为f＝[f₁,f₂,...f_i,...,f_v]，f_i表示第i帧的特征；

(2)视频特征f作为可见层H⁰输入到深层架构以构造具有隐藏层H¹的受限玻尔兹曼机(RBM)，第一层RBM的能量函数通过公式(1)来定义：

E(h⁰,h¹；θ¹)＝-((h⁰)^TA¹h¹+(b¹)^Th⁰+(c¹)^Th¹)， (1)

其中，θ¹＝(A¹,b¹,c¹)是可见层H⁰和隐藏层H¹之间的模型参数。A¹是H⁰中的可见单元和H¹中隐藏单元之间的对称交互项，b¹是H⁰的偏差，c¹是H¹的偏差。

可见层H⁰和隐藏层H¹之间具有如下联合分布：

其中σ(x)＝1/(1+exp(-x))；

当k＝1时，模型参数A¹的导数可以通过公式(7)获得：

是动量参数，ε_A,ε_b,ε_c是学习率；

为了得到与主题相关度高的视频摘要，我们借助查询的网络图像的辅助信息，进行查询面向初始权重设置和查询导向惩罚两方面的操作。Q＝[q₁,q₂,...,q_i,...,q_m]表示查询的网络图像特征集合，m表示网络图像集合帧的个数。

在随机初始化设置后，为了得到与主题相关度高的视频摘要，借助查询的网络图像的辅助信息，在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作，，Q＝[q₁,q₂,...,q_i,...,q_m]表示查询的网络图像特征集合，m表示网络图像集合帧的个数。如果第i个H⁰中的节点帧与查询网络图像的平均相似性大于0.5，我们进行公式(11)操作：

在惩罚过程中，与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多。

sim(·,·)表示余弦相似性。

(3)以上是第一层RBM(可见层H⁰与隐藏层H¹)的操作过程。RBM被用作深层模型的构建块，因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示，并且自上而下的连接可以用来验证所生成的紧凑表示的有效性。同理隐藏层H¹与隐藏层H²之间、隐藏层H²与输出层H³之间的连接的能量函数分别由式(13)(14)表示，联合分布函数分别由式(13)(14)表示：

E(h¹,h²；θ²)＝-((h¹)^TA²h²+(b²)^Th¹+(c²)^Th²) (13)

E(h²,h³；θ³)＝-((h²)^TA³h³+(b³)^Th²+(c³)^Th³) (14)

(4)在基于深层体系结构的概念提取之后，重要性矩阵AF如公式(17)所示：

其中K₃表示隐藏层H³中单元总数，A¹,A²,A³是层对中的对称交互项。

为了减少噪声的影响，我们从隐藏层H³输出中选择重要性分数前80％的帧作为多视频摘要结果。输出关键帧集合F。

Claims

1.一种基于查询的无监督深度学习的多视频摘要方法，其特征是，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧，提取4096维的VGG卷积神经网络特征和256维的颜色特征；然后将融合的4352维的视频特征作为可见层H⁰输入到深层架构以构造具有隐藏层H¹的多层受限玻尔兹曼机RBM，为了整合文档摘要的查询信息，在第一层RBM进行两个不同的过程，包括：基于查询的初始权重设置和查询导向惩罚过程；随后通过低层参数自下而上连接到RBM网络的第二、三层；在基于深层架构的概念提取之后，通过更高层的隐藏层H³输出多视频摘要。

2.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法，其特征是，具体的，提取视频视觉特征，使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征，记为f＝[f₁,f₂,...f_i,...,f_v]，f_i表示第i帧的特征。

3.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法，其特征是，为了得到与主题相关度高的视频摘要，借助查询的网络图像的辅助信息，在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作，Q＝[q₁,q₂,...,q_i,...,q_m]表示查询的网络图像特征集合，m表示网络图像集合帧的个数；

其中，

是H⁰中的可见单元i和H¹中隐藏单元j之间的对称交互项；

sim(·,·)表示余弦相似性。

4.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法，其特征是，在基于深层体系结构的概念提取之后，重要性矩阵AF如公式(17)所示：