CN111079532A

CN111079532A - 一种基于文本自编码器的视频内容描述方法

Info

Publication number: CN111079532A
Application number: CN201911108029.0A
Authority: CN
Inventors: 李平; 张致远; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-04-28
Anticipated expiration: 2039-11-13
Also published as: CN111079532B

Abstract

本发明公开了一种基于文本自编码器的视频内容描述方法。本发明方法首先构建卷积神经网络提取视频的二维和三维特征；其次，构建文本自编码器，即分别用编码器‑文本卷积网络提取文本隐空间特征和解码器‑多头注意力残差网络重构文本；再次，通过自注意力机制及全连接映射得到估计文本隐空间特征；最后，通过自适应矩估计算法交替优化上述模型，对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。本发明方法通过文本自编码器的训练可充分挖掘视频内容语义和视频文本描述的潜在关系，通过自注意力机制捕捉视频长时间跨度的动作时序信息，提高了模型的计算效率，从而生成更符合视频真实内容的文本描述。

Description

一种基于文本自编码器的视频内容描述方法

技术领域

本发明属于计算机技术领域，具体是视频内容描述技术领域，涉及一种基于文本自编码器的视频内容描述方法。

背景技术

近年来，随着信息技术不断发展以及智能设备迭代升级，人们更加倾向利用视频来传达信息，使得各种类型的视频数据规模愈加庞大，同时也带来巨大挑战。例如，视频内容分享网站上每分钟都有成百上千的视频数据上传到服务器，若由人工来审核这些视频是否合规则非常耗时耗力，而借助视频描述的方法则可显著提高审核工作的效率，节省大量时间开销和人力成本。视频内容描述技术主要可广泛应用在于视频标题生成、视频检索、帮助视障人群理解视频等实际场景。

视频内容描述即利用一段自然流畅的文本对视频中的内容进行描述，其目标是反映视频中的目标对象(如行人或物体)、对象间的动作，以及所处的场景等，并理解其间的复杂关系，最终生成与视频内容相匹配且连贯的语句。传统视频描述方法主要基于人工设计特征和经典机器学习算法，例如使用支持向量机(Support Vector Machine,SVM)算法对视频进行描述，但这种方法难以生成正确且自然流畅的语句。

近年来，深度学习方法在视觉计算领域取得了很大成功，其中典型的模型包括卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)。前者主要捕获视觉样本的局部空间关系特征，后者主要捕获输入数据流的空间关系特征。目前，主流的视频描述方法采用编码器-解码器模型为基本框架，编码器主要利用卷积神经网络(CNN)提取视频特征并用张量表示，而解码器主要利用循环神经网络(RNN)将视频对应的张量表示进行解码得到视频的文本描述。考虑到视频数据具有时序关系，可以将卷积神经网络与循环神经网络相结合并作为编码器。为了反映局部显著性特征，也有方法采用视觉注意力机制，作用于注意力编码器的输出特征与解码器的输入特征，这使得模型能动态地调整参数权重，生成更加准确的描述文本。

上述方法的不足点主要表现在以下几个方面：第一，主流视频描述方法主要利用交叉熵计算损失，具有误差积累的缺点，虽然可用强化学习避免该缺点但是计算量很大且难以收敛重；第二，上述方法仅考虑视频特征，并没有充分利用视频文本蕴含的丰富特征，忽略了作为先验信息的文本对描述模型参数更新的指导作用；第三，循环神经网络属于顺序结构，当前时刻的单元依赖于之前所有单元的输出而不能并行处理，造成计算资源浪费，有时还出现梯度消失的情形而不能准确更新权重，从而难以准确生成与视频内容匹配且连贯的语句。基于这些考虑，针对动画电影字幕生成、视障人群看视频、视觉聊天机器人等实际应用场景，迫切需要设计一种能准确反映视频传达信息的视频内容描述方法。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于文本自编码器的视频内容描述方法，可以通过自编码器训练和隐空间学习，搭建视频内容与文本描述之间的桥梁，生成能准确与视频内容匹配且自然流畅的描述语句。

本发明方法首先获取视频数据集合，然后进行以下操作：

步骤(1).构建卷积神经网络模型提取视频的二维和三维特征；

步骤(2).构建文本自编码器，即通过文本卷积网络作为编码器提取文本隐空间特征，并采用多头注意力残差网络作为解码器重构文本；

步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征；

步骤(4).通过自适应矩估计(Adam)算法交替优化上述模型，对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。

进一步，步骤(1)具体方法是：

(1-1).设给定视频

含有N幅帧图像，表示为{X₁,X₂,…X_i,…,X_N}，其中

为第i帧图像，w,h,c分别为视频帧的宽度、高度、通道数；

(1-2).构建卷积神经网络模型提取视频的二维和三维特征，具体是：

对每个视频进行等间隔采样256帧，将采样后的每一帧裁剪为224×224大小的图像

该视频处理后的所有帧集合记作

将视频对应的视频帧

以16帧为间隔，划分成16个视频片段，记作

其中

利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧

中每一帧的特征，将所有帧的特征进行拼接得到视频的外观特征表示矩阵为

提取视频帧

中每一帧的特征是取平均池化层后的输出，并拉直为向量；

利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征，取全连接层fc₆后的输出，将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵

进一步，步骤(2)具体方法是：

(2-1).用于描述视频的有序词汇表记为集合

对于不在词汇表中的单词用符号<UNK>表示，对于补全的单词用符号<PAD>表示；视频

对应的描述语句集合为

其中第k个单词为

L为描述语句的长度，单词w_k采取独热编码，

为词汇表单词个数；

(2-2).处理视频对应的文本：先过滤长度超过L的描述文本并利用符号<PAD〉将长度不足L的描述文本进行补全，再将处理后的文本通过词汇表

进行映射得到对应内容描述

(2-3).通过文本卷积网络作为编码器提取文本隐空间特征，具体是：

设给定视频

的类别标记为

其中C表示视频集合所包含的类别总数，根据得到的视频内容描述

及其标记

构建文本卷积神经网络作为分类器；

对视频内容描述

进行词嵌入操作，得到其表示矩阵

其中

为单词y_k的词嵌入表示向量，

为词嵌入权重矩阵；

利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵F_text；

所述的文本卷积神经网络主要利用一组大小分别为2×L、3×L、4×L、5×L的卷积核，其中每种不同大小的卷积核数目均设置为L(与描述文本的长度相同)，然后对词嵌入表示矩阵M进行卷积计算，并对卷积后的特征进行拼接得到

(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新，具体是：

利用一维最大池化和随机失活操作，即以0.5概率对特征的每一个位置赋值0，将文本隐空间特征矩阵F_text进行映射得到特征向量

用于分类；

利用映射矩阵

和偏置项

将特征f_sc映射为类别空间向量

f_class＝W_projextf_sc+b_project，其中W_project和b_project将在网络训练中学习得到；用Softmax(·)函数对类别空间向量f_class进行归一化处理得到各类别的概率分布

其中

通过极大似然估计定义分类损失

其中指示函数I_k(·)表示视频样本是否属于第k个类别，

为对应类别k的概率值，Z为训练视频的文本描述总数，并通过自适应矩估计(Adam)算法最小化该分类损失；

(2-5).采用多头注意力残差网络作为解码器重构文本，具体是：

将视频

对应的描述语句集合

中的单词整体向后移动一位，记为

将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码；

所述的位置编码是指将词嵌入表示矩阵M′用三角函数刻画，即

其中pos表示单词的位置序号，fea_q表示单词的第q个特征维度，然后将计算得到的值与M′对应元素相加的结果记为

利用映射矩阵

和偏置向量

将多头注意力残差网络的输出矩阵

映射到具有

维度的向量空间，并用Softmax(·)函数进行归一化处理，得到各单词的概率分布矩阵

通过极大似然估计方法定义模型的文本自编码器重构损失

其中指示函数I_k(·)表示正确单词是否位于有序词汇表

的第k个位置，

为对第j个视频预测文本中第t个位置预测为有序词汇表

的第k个位置的预测概率值，Z为训练视频的文本描述总数；计算概率分布矩阵

的各列向量概率值最大的索引，并从有序词汇表中找到索引对应的单词作为视频描述的单词；

所述的多头注意力残差网络由多个注意力机制模块组成，这些模块是由残差网络连接；残差网络为两层全连接层处理后特征与未处理的特征相加，未处理特征即为自注意力机制模块的结果

或

多头注意力残差网络的输出矩阵记为

所述的注意力机制模块是指先将自编码器的输入特征F_gt复制三份得到三个矩阵，分别记为询问矩阵(Query)、键矩阵(Key)和价值矩阵(Value)，然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘，再利用Softmax(·)函数进行归一化处理得到

则整个注意力机制模块的输出矩阵记为

其中F_text.,k表示矩阵F_text第k个列向量，参数

为待学习的参数，⊙表示点积运算，即向量对应元素相乘；类似地，将F_text复制两份分别记为询问矩阵(Query)和键矩阵(Key)，将

作为价值矩阵(Value)再次进行上述操作，得到输出矩阵

进一步，步骤(3)具体方法是：

将视频的外观特征表示矩阵F_appearance在帧级维度上进行最大池化操作，得到池化后的表示矩阵

利用步骤(2)的注意力机制模块对视频外观特征表示矩阵

和视频动态特征表示矩阵F_dynamic进行处理，得到两个矩阵记为

和

并进行拼接；

利用一个大小为6144×H_e的全连接层将拼接后的特征进行映射，得到估计文本隐空间特征矩阵

利用估计文本隐空间特征矩阵

和原文本隐空间特征矩阵F_text计算视频文本特征表示误差，即

其中||·||_F表示矩阵Frobenious范数。

进一步，步骤(4)具体方法是：

(4-1).利用自适应矩估计(Adam)算法交替优化(2-5)所述的自编码器重构损失

和步骤(3)所述的视频文本特征表示误差

直至模型收敛，得到最终的视频内容描述模型；

(4-2).对于新视频

先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征；再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵

的各列向量概率值的最大索引，然后从步骤(2-1)的有序词汇表

中找到该最大索引对应的单词作为视频描述的单词，通过这种方式即可得到对应的视频内容描述。

本发明方法提出的视频内容描述方法包括文本自编码器构建和卷积神经网络模型构建两部分，其中前者用于重构视频文本，后者用于估计视频的文本隐空间特征矩阵。对于视频特征的处理可归结为数据拟合问题，即最小化从视频估计的文本隐空间特征矩阵与真实文本隐空间特征矩阵的误差。其优点在于：1)将视频内容描述任务进行了分解，即自然语言处理中的文本重构任务和视频文本特征矩阵估计两个子任务，降低了训练难度和模型构建开销；2)由自注意力模块和全连接映射构成的自注意力网络能够有效捕捉视频中的长时间动作时序特征并提升模型的计算效率，同时增强神经网络拟合数据的能力，即利用神经网络拟合文本隐空间特征矩阵，从而提高视频的内容描述质量；3)采用多头注意力残差网络作为解码器替代传统的循环神经网络等自回归型解码器，极大地提高了训练效率。该方法可广泛应用于动画电影字幕生成、无人驾驶、智慧家居等实际应用场景。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

一种基于文本自编码器的视频内容描述方法，重点是构建文本自编码器学习相应的隐空间特征以及利用多头注意力残差网络重构文本，可生成更符合视频真实内容的文本描述，充分挖掘视频内容语义和视频文本描述的潜在关系。由自注意力模块和全连接映射构成的自注意力网络能够有效捕捉视频中的长时间动作时序特征并提升模型的计算效率，同时增强神经网络拟合数据的能力(即利用神经网络拟合文本隐空间特征矩阵)，提高视频的内容描述质量；采用多头注意力残差网络结构能够提高模型的训练效率。通过这种方式，可以满足实际应用中的视频内容描述需求。

如图1，该方法首先获取视频数据集，然后进行如下操作：

步骤(1).构建卷积神经网络模型提取视频的二维和三维特征。具体方法是：

(1-1).设给定视频

含有N幅帧图像，表示为{X₁,X₂,…X_i,…,X_N}，其中

为第i帧图像，w,h,c分别为视频帧的宽度、高度、通道数；

(1-2).构建卷积神经网络模型提取视频的二维和三维特征：首先，对每个视频进行等间隔采样256帧，将采样后的每一帧裁剪为224×224大小的图像

该视频处理后的所有帧集合记作

其次，将视频对应的视频帧

以16帧为间隔，划分成16个视频片段，记作

其中

再次，利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧

中每一帧的特征(取平均池化层后的输出并拉直为向量)，将所有帧的特征进行拼接得到视频的外观特征表示矩阵为

最后，利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征(取全连接层fc₆后的输出)，将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵

步骤(2).构建文本自编码器，即通过文本卷积网络作为编码器提取文本隐空间特征，并采用多头注意力残差网络作为解码器重构文本。具体方法是：

(2-1).用于描述视频的有序词汇表记为集合

对应的描述语句集合为

其中第k个单词为

L为描述语句的长度，单词w_k采取独热编码，

为词汇表单词个数；

(2-2).处理视频对应的文本：先过滤长度超过L(如32)的描述文本，后利用符号<PAD>将长度不足L的描述文本进行补全，再将处理后的文本通过词汇表

进行映射得到对应内容描述

(2-3).通过文本卷积网络作为编码器提取文本隐空间特征：设给定视频

的类别标记为

其中C表示视频集合所包含的类别总数，根据上述得到的视频内容描述

及其标记

构建文本卷积神经网络作为分类器；对视频内容描述

进行词嵌入操作得到其表示矩阵

其中

为单词y_k的词嵌入表示向量，

为词嵌入权重矩阵；利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵F_text；

(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新：利用一维最大池化和随机失活操作(即以0.5概率对特征的每一个位置赋值0)，将文本隐空间特征矩阵F_text进行映射得到特征向量

用于分类；利用映射矩阵

和偏置项

将特征f_sc映射为类别空间向量

其中

通过极大似然估计定义分类损失

其中指示函数I_k(·)表示视频样本是否属于第k个类别，

(2-5).通过采用多头注意力残差网络作为解码器重构文本：

将视频

对应的描述语句集合

中的单词整体向后移动一位(原第1个单词位置用<PAD>表示，原第1个单词移至原第2个单词的位置，以此类推，原最后一个单词舍弃)，记为

将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码；类似步骤(2-4)利用映射矩阵

和偏置向量

将多头注意力残差网络的输出矩阵

映射到具有

通过极大似然估计方法定义模型的文本自编码器重构损失

其中指示函数I_k(·)表示正确单词是否位于有序词汇表

的第k个位置，

为对第j个视频预测文本中第t个位置预测为有序词汇表

位置编码是指将词嵌入表示矩阵M′用三角函数刻画，即

注意力机制模块是指先将自编码器的输入特征F_gt复制三份得到三个矩阵，分别记为询问矩阵(Query)、键矩阵(Key)和价值矩阵(Value)，然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘，再利用Softmax(·)函数进行归一化处理得到

则整个注意力机制模块的输出矩阵记为

其中F_text.,k表示矩阵F_text第k个列向量，参数

为待学习的参数，⊙表示点积运算，即向量对应元素相乘；类似地，将F_text复制两份分别记为询问(Query)和键(Key)，将

作为价值(Value)再次进行上述操作，得到输出矩阵

多头注意力残差网络主要由上述的多个注意力机制模块组成，这些模块是由残差网络连接；残差网络是指两层全连接层处理后特征与未处理的特征相加，这里未处理特征即为自注意力机制模块的结果

或

多头注意力残差网络的输出矩阵记为

步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征。具体方法是：

先将视频的外观特征表示矩阵F_appearance在帧级维度上进行最大池化操作，得到池化后的表示矩阵

利用步骤(2)的注意力机制模块对视频外观特征表示矩阵

和视频动态特征表示矩阵F_dynamic进行处理(需改变相应输入特征)，得到两个矩阵记为

和

并进行拼接；再次，利用一个大小为6144×H_e的全连接层将拼接后的特征进行映射，得到估计文本隐空间特征矩阵

利用估计文本隐空间特征矩阵

其中||·||_F表示矩阵Frobenious范数。

步骤(4).通过自适应矩估计(Adam)算法交替优化上述模型，对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。具体方法是：

和步骤(3)所述的视频文本特征表示误差

直至模型收敛，得到最终的视频内容描述模型；

(4-2).对于新视频

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于文本自编码器的视频内容描述方法，其特征在于，该方法首先获取视频数据集，然后进行如下操作：

步骤(1).构建卷积神经网络模型提取视频的二维和三维特征；

步骤(4).通过自适应矩估计算法交替优化上述模型，对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。

2.如权利要求1所述的一种基于文本自编码器的视频内容描述方法，其特征在于步骤(1)具体方法是：

(1-1).设给定视频

含有N幅帧图像，表示为{X₁,X₂,…X_i,…,X_N}，其中

为第i帧图像，w,h,c分别为视频帧的宽度、高度、通道数；

该视频处理后的所有帧集合记作

将视频对应的视频帧

以16帧为间隔，划分成16个视频片段，记作

其中

提取视频帧

中每一帧的特征是取平均池化层后的输出，并拉直为向量；

3.如权利要求1所述的一种基于文本自编码器的视频内容描述方法，其特征在于步骤(2)具体方法是：

(2-1).用于描述视频的有序词汇表记为集合

对于不在词汇表中的单词用符号<UNK>表示，对于补全的单词用符号<PAD〉表示；视频

对应的描述语句集合为

其中第k个单词为

L为描述语句的长度，单词w_k采取独热编码，

为词汇表单词个数；

(2-2).处理视频对应的文本：先过滤长度超过L的描述文本并利用符号<PAD>将长度不足L的描述文本进行补全，再将处理后的文本通过词汇表

进行映射得到对应内容描述

的类别标记为

及其标记

构建文本卷积神经网络作为分类器；对视频内容描述

进行词嵌入操作得到其表示矩阵

其中

为单词y_k的词嵌入表示向量，

(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新：利用一维最大池化和随机失活操作，即以0.5概率对特征的每一个位置赋值0，将文本隐空间特征矩阵F_text进行映射得到特征向量

用于分类；利用映射矩阵

和偏置项

将特征f_sc映射为类别空间向量

其中

通过极大似然估计定义分类损失

其中指示函数I_k(·)表示视频样本是否属于第k个类别，

为对应类别k的概率值，Z为训练视频的文本描述总数，并通过自适应矩估计算法最小化该分类损失；

(2-5).通过采用多头注意力残差网络作为解码器重构文本：将视频

对应的描述语句集合

中的单词整体向后移动一位，记为

利用映射矩阵

和偏置向量

将多头注意力残差网络的输出矩阵

映射到具有

通过极大似然估计方法定义模型的文本自编码器重构损失

其中指示函数I_k(·)表示正确单词是否位于有序词汇表

的第k个位置，

为对第j个视频预测文本中第t个位置预测为有序词汇表

的各列向量概率值最大的索引，并从有序词汇表中找到索引对应的单词作为视频描述的单词。

4.如权利要求1所述的一种基于文本自编码器的视频内容描述方法，其特征在于步骤(3)具体方法是：

利用步骤(2)的注意力机制模块对视频外观特征表示矩阵

和

并进行拼接；

利用估计文本隐空间特征矩阵

其中||·||_F表示矩阵Frobenious范数。

5.如权利要求1所述的一种基于文本自编码器的视频内容描述方法，其特征在于步骤(4)具体方法是：

(4-1).利用自适应矩估计算法交替优化自编码器重构损失

和视频文本特征表示误差

直至模型收敛，得到最终的视频内容描述模型；

(4-2).对于新视频

的各列向量概率值的最大索引，然后从有序词汇表

中找到该最大索引对应的单词作为视频描述的单词，得到对应的视频内容描述。

6.如权利要求3所述的一种基于文本自编码器的视频内容描述方法，其特征在于：

所述的文本卷积神经网络是利用一组大小分别为2×L、3×L、4×L、5×L的卷积核，其中每种不同大小的卷积核数目均设置为L，然后对词嵌入表示矩阵M进行卷积计算，并对卷积后的特征进行拼接得到

7.如权利要求3所述的一种基于文本自编码器的视频内容描述方法，其特征在于：所述的位置编码是指将词嵌入表示矩阵M′用三角函数刻画，即

8.如权利要求3所述的一种基于文本自编码器的视频内容描述方法，其特征在于：所述的多头注意力残差网络由多个注意力机制模块组成，这些模块是由残差网络连接；残差网络为两层全连接层处理后特征与未处理的特征相加，未处理特征即为自注意力机制模块的结果

或

多头注意力残差网络的输出矩阵记为

所述的注意力机制模块是指先将自编码器的输入特征F_gt复制三份得到三个矩阵，分别记为询问矩阵、键矩阵和价值矩阵，然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘，再利用Softmax(·)函数进行归一化处理得到

则整个注意力机制模块的输出矩阵记为

其中F_text.,k表示矩阵F_text第k个列向量，参数

为待学习的参数，⊙表示点积运算，即向量对应元素相乘；将F_text复制两份分别记为询问矩阵和键矩阵，将

作为价值矩阵再次进行上述操作，得到输出矩阵