CN107239801A

CN107239801A - 视频属性表示学习方法及视频文字描述自动生成方法

Info

Publication number: CN107239801A
Application number: CN201710505206.3A
Authority: CN
Inventors: 李腾; 年福东; 李飞凤
Original assignee: Anhui University; Huainan Union University
Current assignee: Anhui University; Huainan Union University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-10-10
Anticipated expiration: 2037-06-28
Also published as: CN107239801B

Abstract

本发明公开了一种视频属性表示学习方法，包括下述步骤：收集一批数据用于视频文字自动描述算法的训练与测试，数据要求每个视频对应几句对应的文字描述；定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息，则训练集中的每个视频都对应多个属性标签；将一段视频序列表示为单幅图像，从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题。本发明还公开一种基于上述视频属性表示学习方法的视频文字描述自动生成方法。本发明的优点在于：提供一种高效的提取视频的属性特征表示，采用本发明的融合方法，能够得到完整的可反映视频属性语义信息的文字描述自动生成方法。

Description

视频属性表示学习方法及视频文字描述自动生成方法

技术领域

本发明涉及一种计算机视觉领域，更具体涉及一种视频文字描述自动生成方法。

背景技术

视频文字描述自动生成是指给定一段视频序列，通过算法自动的生成与视频内容相关的文字描述。由于视频内容的复杂性，传统的基于搜索模型或者基于语言模型的算法效果一直较差。近年来，随着深度学习技术的发展，基于卷积神经网络(CNN)加循环神经网络(RNN)的算法取得了令人振奋的效果。这一系列算法的基本步骤如下：(1)通过CNN(二维卷积或者三维卷积)提取视频的特征向量，随后将视频特征向量通过一个映射函数编码为语言模型需要的特征向量；(2)将步骤(1)获得的特征向量作为语言解码模型RNN的输入进而输出文字描述；(3)通过大量人工标注的视频-文本对训练集同时迭代优化步骤(1)中的编码模型和步骤(2)中的解码模型。

通过分析上述步骤易知在编解码模型固定的情况下，视频的特征提取对最终生成的文字描述效果占主导地位。目前的视频文字描述自动生成方法中的视频特征提取算法主要分为两大类：(1)在一个大规模的图片分类数据集中训练一个CNN模型，用此训练完成的CNN模型提取视频的每一帧或者采样帧的特征，然后通过级联、均值或池化等操作获得视频的特征向量；(2)预先在一个大规模视频分类数据集上训练一个三维卷积神经网络(3D-CNN)来提取输入视频的包含运动信息的特征。虽然这两类方法都取得了不错的效果，但这两类方法提取视频特征的模型都是在第三方数据集上进行训练，这就意味着视频文字描述数据集中的视频并未被利用进行视频特征提取的训练。显然，目前用于视频文字自动描述生成的视频特征提取算法丧失了大量视频的语义信息。

发明内容

本发明所要解决的技术问题之一在于提供了一种如何提取可用于视频文字描述自动生成的视频语义信息的视频属性表示学习方法。

本发明所要解决的技术问题之二在于提供了一种如何将提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合，以提高最终生成文字描述的质量的视频文字描述自动生成方法。

本发明是通过以下技术方案解决上述技术问题之一的：一种视频属性表示学习方法，用于提取可用于视频文字描述自动生成的视频语义信息，包括下述步骤：

步骤1)收集一批数据用于视频文字自动描述算法的训练与测试，数据要求每个视频对应几句对应的文字描述；

步骤2)本发明定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息，则训练集中的每个视频都对应多个属性标签，因此视频的属性表示学习即可看作视频的多分类问题；

步骤3)直接对视频序列做多分类训练是极为困难的，为了解决此问题，本发明设计一种新颖高效的视频表示算法，可将一段视频序列表示为单幅图像，从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题，该视频表示算法具体为：

首先在一个大规模图片分类数据集上训练一个深度卷积神经网络用于提取单幅图片特征，即训练一个映射函数H(k)，其中k是输入图像，若此深度卷积神经网络的最后一层有d个神经元，则图像k通过映射函数H(k)会转换为一个d维特征向量，对于训练集中的每一个视频V，本发明对其平均采样n帧，则通过映射函数H(k)会获得n个d维图像特征向量{H(k₁)，H(k₂)，...H(k_n)}，根据这n个向量本发明构建一个d×n维的图像，此图像每一列即是输入视频的一个采样帧的特征H(k_*)，每一行都代表了对应图像特征维度在视频时序中的信息，本发明将此d×n维的图像称之为视频响应图像(VRM)，由于其在一张图像中同时具备帧内容信息和视频运动信息，因此是一种高效的视频表示方法；

在训练集中的每一个视频都转化为一幅视频响应图像之后，步骤2)中复杂的视频多标签分类问题即转变为视频响应图像的多标签分类问题，本发明采用基于交叉熵损失函数的卷积神经网络根据视频响应图像训练一个视频属性表示向量提取网络，在训练完成之后，本发明提取卷积神经网络的最后一层作为视频响应图像对应视频的属性表示向量，记为F_att(V)。

优选的，所述步骤1)中，将数据集按照9:1的比例分为训练集和测试集。

本发明是通过以下技术方案解决上述技术问题之二的：一种基于上述视频属性表示学习方法的视频文字描述自动生成方法，用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合，以提高最终生成文字描述的质量，具体包括下述步骤：

步骤1、首先在一个大规模图像单标签分类数据集上训练一个通用的图像视觉特征提取网络；

步骤2、收集用于视频文字描述自动生成的数据集，即每一个视频对应一组文字描述，依据上述视频属性表示学习方法得到视频的属性表示向量，记为F_att(V)；

步骤3、本发明设计的基于显示视频属性表示学习的视频文字自动描述生成模型如图4所示，在这一步骤中，融合视频帧视觉特征与视频属性特征；

步骤4、将融合视频属性特征与采样帧视觉特征的所有向量计算完成之后作为语言解码模型的输入，通过在训练集中训练即可获得视频文字描述自动生成的模型；

步骤5、在训练集中训练完成后，将测试集中的视频按照训练集中的处理方式做预处理提取特征之后送入步骤4中的视频文字自动描述生成模型，即可自动生成文字描述。

作为优化的技术方案，所述步骤3进一步具体为：

在视频特征编码阶段，每一采样帧对应的视频编码特征除了接受每一个视频采样帧的视觉特征F(I)之外，需同时接受视频的属性表示向量F_att(V)，如图1所示，对于t时刻视频编码特征x_t，其有一半的维度接受整个视频属性特征F_att(V)的映射，另一半维度接受当前时刻对应的视频采样帧的特征F(I)的映射，即：

其中W₁和W₂是需要学习的映射权重。

本发明对目前广泛使用的Sequence to Sequence模型进行扩展，使其在可以接受变长视频与文字描述的前提下同时学习到视频的帧视觉特征与整个视频的属性特征。整个模型由视频特征融合编码阶段和文字描述生成解码阶段两部分组成，且两部分在整个训练集中联合训练。两部分共享两组长短时记忆(LSTM)网络单元，一组用于处理视频特征(图4中第一行)，一组用于处理文本特征(图4中第二行)。在视频特征融合编码阶段除了需要视频的每一个采样帧特征之外，同时需要本发明获得的视频属性表示向量，并利用本发明设计的算法进行融合，即每一个视觉LSTM单元同时接受当前时刻对应的采样帧的视觉特征F(I)与整个视频的属性特征F_att(V)。注意在视频特征编码阶段并无文字描述输入、在文字描述生成解码阶段并无视频特征输入，其对应LSTM单元无相关特征输入，本发明以空符号<pad>在图4中表示。此外，在文字描述生成解码阶段本发明分别使用<BOS>和<EOS>作为解码的开始与结束符号；

本发明采用广泛使用的视频英语描述数据集MSVTT作为事例，对测试集中的视频实际生成的文字描述例子如图5所示。

本发明相比现有技术具有以下优点：本发明公开了一种视频表示算法，可以将一段视频序列表示为一张二维图像，同时保留了其帧视觉信息与时序信息。利用此视频表示算法，本发明公开了一种高效的视频属性表示学习方法，将复杂的视频属性表示学习转化为较易解决的图像多标签分类问题，从而可以高效的提取视频的属性特征表示。本发明还公开了一种融合方法，可以将本发明提出的属性特征与传统视频采样帧特征融合的方法，进而结合文字描述生成模型得到完整的可反映视频属性语义信息的文字描述自动生成方法。

附图说明

图1是本发明设计的将视频序列表示为一张图像的算法示意图；

图2是本发明设计的基于视频响应图的视频属性表示学习网络框架；

图3是本发明视频文字描述自动生成方法的过程示意图；

图4是本发明设计的基于显示视频属性表示的视频文字描述自动生成模型示意图；

图5是本发明的视频帧特征与视频属性表示向量融合示意图；

图6是本发明在公开数据集上的效果事例。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种视频属性表示学习方法，用于提取可用于视频文字描述自动生成的视频语义信息，包括下述步骤：

步骤3)直接对视频序列做多分类训练是极为困难的，为了解决此问题，本发明设计一种新颖高效的视频表示算法，可将一段视频序列表示为单幅图像，即令每一个视频都可以用一幅二维图像表示，构建示意图如图1所示，从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题，模型如图2所示，该视频表示算法具体为：

本发明还提供一种基于上述视频属性表示学习方法的视频文字描述自动生成方法，用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合，以提高最终生成文字描述的质量，请参阅图3，具体包括下述步骤：

一种基于上述视频属性表示学习方法的视频文字描述自动生成方法，用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合，以提高最终生成文字描述的质量，具体包括下述步骤：

作为优化的技术方案，所述步骤3进一步具体为：

在视频特征编码阶段，每一采样帧对应的视频编码特征除了接受每一个视频采样帧的视觉特征F(I)之外，需同时接受视频的属性表示向量F_att(V)，如图5所示，对于t时刻视频编码特征x_t，其有一半的维度接受整个视频属性特征F_att(V)的映射，另一半维度接受当前时刻对应的视频采样帧的特征F(I)的映射，即：

其中W₁和W₂是需要学习的映射权重。

本发明对目前广泛使用的Sequence to Sequence模型进行扩展，使其在可以接受变长视频与文字描述的前提下同时学习到视频的帧视觉特征与整个视频的属性特征。整个模型由视频特征融合编码阶段和文字描述生成解码阶段两部分组成，且两部分在整个训练集中联合训练。两部分共享两组长短时记忆(LSTM)网络单元，一组用于处理视频特征(图4中第一行)，一组用于处理文本特征(图4中第二行)。在视频特征融合编码阶段除了需要视频的每一个采样帧特征之外，同时需要本发明获得的视频属性表示向量，并利用本发明设计的算法进行融合，即每一个视觉LSTM单元同时接受当前时刻对应的采样帧的视觉特征F(I)与整个视频的属性特征F_att(V)。注意在视频特征编码阶段并无文字描述输入、在文字描述生成解码阶段并无视频特征输入，其对应LSTM单元无相关特征输入，本发明以空符号<pad>在图4中表示。此外，在文字描述生成解码阶段本发明分别使用<BOS>和<EOS>作为解码的开始与结束符号。

本发明采用广泛使用的视频英语描述数据集MSVTT作为事例，对测试集中的视频实际生成的文字描述例子如图6所示。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频属性表示学习方法，用于提取可用于视频文字描述自动生成的视频语义信息，其特征在于，包括下述步骤：

步骤2)本发明定义训练集中的文字描述内容中出现的所有的名词、动词、和形容词作为对应视频的属性标注信息，则训练集中的每个视频都对应多个属性标签，因此视频的属性表示学习即看作视频的多分类问题；

步骤3)将一段视频序列表示为单幅图像，从而将复杂困难的视频序列多分类问题转化为较为简单的单幅图片多标签分类问题，具体为：

首先在一个大规模图片分类数据集上训练一个深度卷积神经网络用于提取单幅图片特征，即训练一个映射函数H(k)，其中k是输入图像，若此深度卷积神经网络的最后一层有d个神经元，则图像k通过映射函数H(k)会转换为一个d维特征向量，对于训练集中的每一个视频V，对其平均采样n帧，则通过映射函数H(k)会获得n个d维图像特征向量{H(k₁)，H(k₂)，...H(k_n)}，根据这n个向量构建一个d×n维的图像，此图像每一列即是输入视频的一个采样帧的特征H(k_*)，每一行都代表了对应图像特征维度在视频时序中的信息，将此d×n维的图像称之为视频响应图像(VRM)；

在训练集中的每一个视频都转化为一幅视频响应图像之后，步骤2)中复杂的视频多标签分类问题即转变为视频响应图像的多标签分类问题，训练一个视频属性表示向量提取网络，在训练完成之后，取卷积神经网络的最后一层作为视频响应图像对应视频的属性表示向量，记为F_att(V)。

2.根据权利要求1所述的一种视频属性表示学习方法，其特征在于，所述步骤3)中，采用基于交叉熵损失函数的卷积神经网络根据视频响应图像训练一个视频属性表示向量提取网络。

3.根据权利要求1所述的一种视频属性表示学习方法，其特征在于，所述步骤1)中，将数据集按照9:1的比例分为训练集和测试集。

4.一种基于权利要求1至3任一项所述的视频属性表示学习方法的视频文字描述自动生成方法，用于将上述经过视频属性表示学习方法提取到的视频语义信息与现有视频文字描述自动生成编解码模型融合，最终生成文字描述，具体包括下述步骤：

步骤2、收集用于视频文字描述自动生成的数据集，即每一个视频对应一组文字描述，依据所述视频属性表示学习方法得到视频的属性表示向量，记为F_att(V)；

步骤3、融合视频帧视觉特征与视频属性特征；

步骤5、在训练集中训练完成后，将测试集中的视频按照训练集中的处理方式做预处理提取特征之后送入步骤4中的视频文字自动描述生成模型，即自动生成文字描述。

5.根据权利要求4所述的一种视频文字描述自动生成方法，其特征在于，所述步骤3进一步具体为：

在视频特征编码阶段，每一采样帧对应的视频编码特征除了接受每一个视频采样帧的视觉特征F(I)之外，需同时接受视频的属性表示向量F_att(V)，对于t时刻视频编码特征x_t，其有一半的维度接受整个视频属性特征F_att(V)的映射，另一半维度接受当前时刻对应的视频采样帧的特征F(I)的映射，即：

其中W₁和W₂是需要学习的映射权重。