CN110298270B

CN110298270B - 一种基于跨模态重要性感知的多视频摘要方法

Info

Publication number: CN110298270B
Application number: CN201910514541.9A
Authority: CN
Inventors: 冀中; 赵玉晓; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2021-12-31
Anticipated expiration: 2039-06-14
Also published as: CN110298270A

Abstract

一种基于跨模态重要性感知的多视频摘要方法：将视频以帧的形式输入到卷积神经网络中，得到视频帧特征矩阵；将视频描述的文本信息进行处理，得到文本信息的特征矩阵；视频帧特征矩阵通过计算得到帧间视觉相似度矩阵；文本信息的特征矩阵通过计算得到文本间相似度矩阵；文本间相似度矩阵再通过计算得到帧间文本相似度矩阵；将帧间视觉相似度矩阵和帧间文本相似度矩阵计算融合得到联合相似度矩阵；将联合相似度矩阵与视频帧特征矩阵计算得到联合关注视频帧特征矩阵；对稀疏自编码器的隐藏层进行相似度的度量，再通过损失函数训练，生成并输出对应的多视频摘要。本发明实现了视觉和文本跨模态的重要性感知，可以充分的利用事件类别关系的信息进行多视频摘要。

Description

一种基于跨模态重要性感知的多视频摘要方法

技术领域

本发明涉及一种多视频摘要方法。特别是涉及一种基于跨模态重要性感知的多视频摘要方法。

背景技术

随着深度学习和硬件设备的不断发展，人工智能技术的应用在越来越多的领域取得了很好的结果，例如计算机视觉。特别的，深度学习在多视频摘要的领域中的运用越来越受到重视。在基于深度学习的多视频摘要领域中，稀疏自编码器的使用较为主流。而在深度学习的神经网络模型中，卷积神经网络常用于视频帧特征的提取，而在卷积神经网络中，Vgg-16、Vgg-19和ResNet-50等较为常用。另外，在处理文本特征的方面，经常使用Word2vec的方法初始化文本特征并经过TF-IDF的词频算法进行处理。

发明内容

本发明所要解决的技术问题是，提供一种能够实现视觉和文本跨模态的重要性感知，可以充分的利用事件类别关系的信息进行多视频摘要的基于跨模态重要性感知的多视频摘要方法。

本发明所采用的技术方案是：一种基于跨模态重要性感知的多视频摘要方法，包括如下步骤：

1)将视频以帧的形式输入到卷积神经网络中，得到视频帧特征矩阵；

2)将视频描述的文本信息使用Word2vec和TF-IDF进行处理，得到文本信息的特征矩阵；

3)将视频帧特征矩阵通过如下公式计算得到帧间视觉相似度矩阵：

其中，

和

分别表示第a个、第b个和第c个视频帧，Cosin表示余弦相似度函数；并将帧间视觉相似度矩阵主对角线上的值设为0；

4)将文本信息的特征矩阵通过如下公式计算得到文本间相似度矩阵：

其中，

和

分别表示第d个、第e个和第f个文本信息特征，Cosin表示余弦相似度函数；并将文本间相似度矩阵主对角线上的值设为0；

将文本间相似度矩阵再通过如下公式计算得到帧间文本相似度矩阵：

其中，

和

分别表示第a个视频帧和第b个视频帧，

和

分别表示第a个视频帧所在视频对应的文本信息和第b个视频帧所在视频对应的文本信息，

表示第a个视频帧所在视频和第b个视频帧所在视频的文本间相似度；

5)将帧间视觉相似度矩阵和帧间文本相似度矩阵通过如下公式计算融合得到联合相似度矩阵C_i：

其中，

表示按元素相乘；

6)根据如下公式，将联合相似度矩阵C_i与的视频帧特征矩阵I_i进行计算得到联合关注视频帧特征矩阵CI_i：

CI_i＝C_i·I_i (5)；

7)将联合关注视频帧特征矩阵CI_i作为监督信息，对稀疏自编码器的隐藏层进行相似度的度量，最终稀疏自编码器在损失函数的训练下，不断地反馈并调节稀疏自编码器的参数，在训练完成后，根据输入的视频，稀疏自编码器生成并输出对应的多视频摘要。

步骤1)是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵，其中，一共有n个事件类型，第i个事件含有y_i个视频，视频帧特征矩阵

含有x_i个长度为L的视频帧特征向量v_i。

步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理，其中，一共有n个事件类型，第i个事件含有y_i个视频的文本特征向量t_i，并构成文本信息的特征矩阵

步骤4)所述的文本间相似度矩阵的计算，是将第i个事件所有的文本特征向量代入公式(2)得到相似度，将计算得到的相似度组成y_i×y_i的文本间相似度矩阵T_i。

步骤4)所述的帧间文本相似度矩阵的计算，是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号，用n(·)表示，其中相同的序号表明属于同一个视频，赋值为1，不相同的序号表明不属于同一个视频，则将该视频帧对应视频的文本间相似度与1相加，并将计算结果组成x_i×x_i的帧间文本相似度矩阵。

步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。

本发明的一种基于跨模态重要性感知的多视频摘要方法，通过利用另一种模态信息，即视频的文本描述信息，实现了视觉和文本跨模态的重要性感知，可以充分的利用事件类别关系的信息进行多视频摘要。

1、新颖性：首次提出了将视频文本描述信息与图像信息结合的方式，得到了一种跨模态的特征作为监督信息，进行重要性感知对多视频摘要进行约束。

2、有效性：本发明提出的基于跨模态的重要性感知可以利用视频的文本信息，有效的找寻视频间事件类别的潜在关系。

3、实用性：与找寻和输入视频相关的网络图像相比，本发明使用的视频文本信息获取方式和途径简单，成本更低，所以更具备实用性。进一步改善了多视频摘要技术，使视频存储数据量太大，视频查找费时费力带来的诸多问题可以得到解决。

附图说明

图1是本发明一种基于跨模态重要性感知的多视频摘要方法的流程图；

图2是本发明中稀疏自编码器结构示意图。

具体实施方式

下面结合实施例和附图对本发明的一种基于跨模态重要性感知的多视频摘要方法做出详细说明。

本发明的一种基于跨模态重要性感知的多视频摘要方法，涉及计算机视觉，机器学习，人工智能领域，特别是涉及深度学习中视频摘要的领域。具体的，在视频摘要的领域中又划分为单视频和多视频摘要。多视频摘要技术是对具有事件类别概念的多个视频进行关键帧的提取，从而达到压缩视频，提高存储效率以及方便查询的目的。

如图1所示，本发明的一种基于跨模态重要性感知的多视频摘要方法，包括如下步骤：

1)将视频以帧的形式输入到卷积神经网络(如Vgg-19、Vgg-16和ResNet-50)中，得到视频帧特征矩阵；是按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵，其中，一共有n个事件类型，第i个事件含有y_i个视频，视频帧特征矩阵

含有x_i个长度为L的视频帧特征向量v_i。

本发明使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理，其中，一共有n个事件类型，第i个事件含有y_i个视频的文本特征向量t_i，并构成文本信息的特征矩阵

其中，

和

其中，

和

所述的文本间相似度矩阵的计算，是将第i个事件所有的文本特征向量代入公式(2)得到相似度，将计算得到的相似度组成y_i×y_i的文本间相似度矩阵T_i。

其中，

和

分别表示第a个视频帧和第b个视频帧，

和

所述的帧间文本相似度矩阵的计算，是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号，用n(·)表示，其中相同的序号表明属于同一个视频，赋值为1，不相同的序号表明不属于同一个视频，则将该视频帧对应视频的文本间相似度与1相加，并将计算结果组成x_i×x_i的帧间文本相似度矩阵。

其中，

表示按元素相乘；

CI_i＝C_i·I_i (5)；

7)将联合关注视频帧特征矩阵CI_i作为监督信息，进行跨模态的重要性感知，对稀疏自编码器的隐藏层进行相似度的度量，并作为损失函数的一部分。最终稀疏自编码器在损失函数的训练下，不断地反馈并调节稀疏自编码器的参数，在训练完成后，根据输入的视频，稀疏自编码器生成并输出对应的多视频摘要。所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。

Claims

1.一种基于跨模态重要性感知的多视频摘要方法，其特征在于，包括如下步骤：

按照视频的事件类型依次将视频帧输入到卷积神经网络中得到视频帧特征矩阵，其中，一共有n个事件类型，第i个事件含有y_i个视频，视频帧特征矩阵

含有x_i个长度为L的视频帧特征向量v_i

其中，

和

分别表示第a个、第b个和第c个视频帧特征向量，Cosin表示余弦相似度函数；并将帧间视觉相似度矩阵主对角线上的值设为0；

其中，

和

其中，

和

分别表示第a个视频帧特征向量和第b个视频帧特征向量，

和

分别表示第a个视频帧特征向量所在视频对应的文本特征向量和第b个视频帧特征向量所在视频对应的文本特征向量，

表示第a个视频帧特征向量所在视频对应的文本特征和第b个视频帧特征向量所在视频对应的文本特征之间的相似度；

其中，

表示按元素相乘；

6)根据如下公式，将联合相似度矩阵C_i与视频帧特征矩阵I_i进行计算得到联合关注视频帧特征矩阵CI_i：

CI_i＝C_i·I_i (5)；

2.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法，其特征在于，步骤2)使用Word2vec获取视频描述的文本信息的特征并用TF-IDF的词频算法对文本信息进行预处理，其中，一共有n个事件类型，第i个事件含有y_i个视频的文本特征向量t_i，并构成文本信息的特征矩阵

3.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法，其特征在于，步骤4)所述的文本间相似度矩阵的计算，是将第i个事件所有的文本特征向量代入公式(2)得到相似度，将计算得到的相似度组成y_i×y_i的文本间相似度矩阵T_i。

4.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法，其特征在于，步骤4)所述的帧间文本相似度矩阵的计算，是使用公式(3)遍历第i个事件中所有视频帧所在视频的序号，用n(·)表示，其中相同的序号表明属于同一个视频，赋值为1，不相同的序号表明不属于同一个视频，则将该视频帧对应视频的文本间相似度与1相加，并将计算结果组成x_i×x_i的帧间文本相似度矩阵。

5.根据权利要求1所述的一种基于跨模态重要性感知的多视频摘要方法，其特征在于，步骤7)所述的稀疏自编码器由两层全连接层构成的编码器和解码器以及一层隐藏层构成。