CN113420179A

CN113420179A - 基于时序高斯混合空洞卷积的语义重构视频描述方法

Info

Publication number: CN113420179A
Application number: CN202110704646.8A
Authority: CN
Inventors: 李平; 张盼; 蒋昕怡; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-21
Anticipated expiration: 2041-06-24
Also published as: CN113420179B

Abstract

本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征，将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征；然后利用两层长短时记忆神经网络构建解码器，得到生成语句概率分布和隐藏向量；再建立语义重构网络并计算语义重构损失；利用随机梯度下降算法优化模型，对新视频依次通过上述步骤获得生成语句概率分布，用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模，并通过语义重构网络获得语句级的概率分布差异，能够缩小生成语句和视频内容的语义鸿沟，从而生成更准确描述视频内容的自然语句。

Description

基于时序高斯混合空洞卷积的语义重构视频描述方法

技术领域

本发明属于计算机技术领域，尤其是计算机视觉中的视频描述领域，涉及一种基于时序高斯混合空洞卷积的语义重构视频描述方法。

背景技术

快速发展的互联网产生了种类丰富的多媒体数据资源，比如视频、图像、音频以及文字。近年来，随着手机、摄像头等智能终端的普及和互联网带宽的大幅增长，抖音、快手等视频平台受到广大用户的喜爱，网络直播和自媒体行业快速崛起，每天都有数以万计的视频产生和传播，视频数量呈现爆炸式增长，对人们的日常生活方式产生了较大影响。在大数据时代，如何有效利用海量视频至关重要，相对于文本、图像和音频等数据而言，视频包含非常丰富的视觉内容信息。对于人类来说，准确理解视频内容比较容易，但是对于机器来讲非常具有挑战性。机器不仅需要捕捉视频中的物体、场景以及物体之间的关系，还要捕捉视频的时序依赖关系。而视频描述技术可将视频转换为文字表示，有利于机器理解视频内容。

视频描述技术旨在自动生成自然语句对视频内容进行描述，其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系，还能够生成符合语法规则且正确描述视频内容的语句。

随着深度学习技术的发展，基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络(Convolutional Neural Network，CNN)提取视频特征用于表征视频内容信息，解码器采用长短时记忆神经网络(Long-Short Time Memory,LSTM)、门控循环单元(Gated Recurrent Units,GRU)解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息，相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征，其中，相关工作人员提出一种层次循环神经编码器(Hierarchical Recurrent NeuralEncoder,HRNE)，其将视频划分为多个短视频，将短视频输入低层LSTM得到每个短视频的特征表示，再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息，高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示；另外，提出分层时序模型(HierarchicalTemporal Model,HTM)，通过探索全局和局部的时序结构更好的识别细粒度的目标和动作；为了更好地捕捉长期依赖，研究人员提出基于注意力机制的密集连接长短时记忆网络(Attention-based Densely Connected Long Short-Term Memory，DenseLSTM)，将所有先前时刻的隐藏单元连接到当前单元，这使得当前状态的更新直接与先前所有状态相关。

上述方法的不足点主要表现在以下几个方面：(1)由于LSTM仍然存在梯度消失或者梯度爆炸问题，难以有效捕捉视频长期时序信息，不利于学习视频上下文的特征表示；(2)自然语句和视频属于两种不同结构的数据模态，难以将视频内容语义准确无误转换为自然语句，生成语句和视频内容存在语义鸿沟，现有方法常用交叉熵损失函数从单词级别角度缩小生成语句和视频的语义差异，而忽略了语句级别的语义差异。基于这些考虑，针对视频标题生成、视频检索、视障人群观看视频等实际应用场景，迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于时序高斯混合空洞卷积的语义重构视频描述方法，既能捕捉视频长期时序信息、减少模型训练参数量，又能缩小视频内容和生成语句的语义差异，生成自然流畅的视频描述语句。

本发明方法对给定含文本描述的视频数据集合后，依次进行如下操作：

步骤(1)对原始视频均匀采样，利用卷积神经网络提取采样后视频的外观特征和动作特征，并将两种特征进行拼接，得到视频特征表示；

步骤(2)构建时序高斯混合空洞卷积编码器，输入为视频特征表示，输出为时序高斯特征；

步骤(3)利用两层长短时记忆神经网络构建解码器，输入为时序高斯特征和文本描述，输出为生成语句概率分布和隐藏向量，计算交叉熵损失；

步骤(4)建立语义重构网络，输入为解码器的隐藏向量，计算语义重构损失；

步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型，对新视频依次通过步骤(1)～(3)得到生成语句概率分布，再利用贪心搜索算法获得视频描述语句。

进一步，步骤(1)具体是：

(1-1)对原始视频均匀采样n个视频帧，采样后的视频

其中，三维张量X_i为第i帧图像，

为实数域，w、h、c分别为视频帧的宽度、高度、通道数；

视频

对应的描述语句

其中，T为描述语句长度，y_t为描述语句的第t时间步的单词，V为词汇表的单词个数；

(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征

利用深度3D卷积神经网络C3D提取视频的动作特征

其中，d_r、d_a分别为视频帧外观特征和动作特征维度大小；将外观特征和动作特征按照特征维度进行拼接，得到视频特征表示

其中，视频特征维度大小d＝d_r+d_a。

再进一步，步骤(2)具体是：

(2-1)构建时序高斯混合空洞卷积编码器，捕捉视频的长期时序上下文信息，该编码器由多层时序高斯混合空洞卷积层构成，编码器的卷积核用参数矩阵

表示，由M个高斯分布生成，L表示卷积核时序长度，该参数矩阵的第m行l列的元素表示为：

其中，

和

分别表示第m个高斯分布的均值和标准方差；

作为归一化常数，使得

通过学习一组注意力权重

让多个高斯分布在时序动态之间共享，C_out表示输出通道数量；将softmax函数应用于注意力权重得到注意力权重矩阵

使得每个输出通道对应的权重之和为1，即

A_j,m表示第m个高斯分布作用于第j个通道的注意力权重，下标j表示注意力权重矩阵W的行索引，对应通道，s表示注意力权重矩阵W的列索引；

利用卷积核

和注意力权重矩阵

获得第k个时序高斯混合卷积核

(2-2)第一层时序高斯混合空洞卷积层的卷积核为

利用第k个时序高斯混合卷积核

对视频特征表示F进行空洞卷积操作，卷积结果

作为第一层输出结果的第k个通道，最终第一层时序高斯混合空洞卷积层的输出为O¹，如下：

符号*表示空洞卷积操作；

(2-3)编码器包含Q层时序高斯混合空洞卷积层，第q个时序高斯混合空洞卷积层的卷积核为

其输入为第q-1层的输出

对输入特征O^q-1进行平均池化处理，获得聚合特征

再通过一维卷积利用聚合特征计算通道权重W_c＝σ(conv1d(X^q-1))，

σ(·)表示sigmoid函数，conv1d(·)表示一维卷积操作；得到每个输入通道的权重后，对O^q-1的通道进行加权处理，获得输入特征

将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果

继而得到第q层的输出O^q，即

最终Q个时序高斯混合空洞卷积层的输出为

(2-4)利用1×1大小的卷积层和ReLU激活函数对输出特征O^Q的C_out个通道映射为单个通道，获得编码器输出时序高斯特征矩阵O＝ReLU(conv1d(O^Q))，

作为包含时序信息的视频特征将被输入解码器。

更进一步，步骤(3)具体是：

(3-1)利用两层LSTM构建解码器，第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词

以及第一层LSTM第t-1时间步LSTM单元的隐藏向量

其输出

d_h表示隐藏向量维度，

表示单词嵌入矩阵，lstm1(·)表示第一层长短时记忆神经网络；

第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量

和第二层LSTM第t-1时间步的隐藏向量

以及编码器输出的包含时序信息的视频特征O，其输出为隐藏向量

为注意力模块，β_t,δ∈(0,1)表示隐藏向量

和第δ帧视频特征O_δ的相关性大小，lstm2(·)表示第二层长短时记忆神经网络；

(3-2)利用全连接层及softmax函数计算第t时间步的单词y_t的概率分布，其概率分布向量

其中，θ_decoder表示解码器参数，

表示全连接层权重矩阵和偏置向量；计算模型的交叉熵损失

其中，y₀是句子

的开始标志符，y_T+1是句子

的结束标志符。

又进一步，步骤(4)具体是：

(4-1)利用两个全连接层fc₁和fc₂构建语义重构网络，利用解码器隐藏向量重构真实语句的概率分布；分别将解码器中的隐藏向量

和

映射为维度为V的单词概率分布向量，即

和

其中，

表示权重矩阵，

表示偏置向量；

(4-2)利用Kullback-Leibler散度衡量生成语句和真实语句的概率分布差异，作为语义重构损失

即

其中，D_KL(·||·)表示两种概率分布之间的Kullback-Leibler散度，

为真实语句概率分布，

为生成语句的概率分布，τ为词汇表的单词索引。

还进一步，步骤(5)具体是：

(5-1)视频描述模型总体损失函数为

其中，λ>0为交叉熵损失和语义重构损失的权衡系数，利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型；

(5-2)输入新视频

首先依次经过步骤(1)～(3)得到第一个单词的概率分布向量

为编码器输出的时序高斯特征，再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词；

(5-3)重复步骤(3)，依次得到单词{y′₂,y′₃,...,y′_T'}，最终获得视频描述语句

其中，T′为生成语句长度。

本发明提出了一种基于时序高斯混合空洞卷积的语义重构视频描述方法，该方法具有以下几个特点：1)利用时序高斯混合空洞卷积层在视频特征时序维度上进行空洞卷积操作，能够有效捕捉视频时序信息；2)通过重构真实语句的概率分布，缩小生成语句和视频的语义差异，促使模型生成语义更准确的语句。

本发明针对生成语句与视频内容存在语义差异问题，具有以下几个优点：1)利用时序高斯混合空洞卷积对视频长期时序关系进行建模，并利用高斯分布初始化卷积核参数使得其训练参数量为常数，与卷积核尺寸无关，从而减少模型训练参数量；2)利用全连接层构建语义重构网络，将生成语句和真实语句映射至语义空间，通过Kullback-Leibler散度衡量真实语句和生成语句间的语句级别概率分布差异，从而缩小生成语句和视频内容的语义差异。这为视频标题生成、视频检索、视障人群观看视频等实际应用场景奠定了基础。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，基于时序高斯混合空洞卷积的语义重构视频描述方法，该方法首先对原始视频进行均匀采样，利用卷积神经网络提取外观特征和动作特征，并按照特征维度进行拼接得到视频特征；构建时序高斯混合空洞卷积编码器得到时序高斯视频特征；再将时序高斯特征和文本描述输入解码器，输出为生成语句概率分布和隐藏向量；然后建立语义重构网络，并计算语义重构损失；利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型；对新视频利用优化后的模型生成其描述语句。该方法利用时序高斯混合空洞卷积捕捉视频长期时序信息，又通过语义重构网络缩小视频内容和生成语句的语义差异，从而生成语义准确的描述语句。

步骤(1)对原始视频均匀采样，利用卷积神经网络提取采样后视频的外观特征和动作特征，并将两种特征进行拼接，得到视频特征表示；具体如下：

(1-1)对原始视频均匀采样n个视频帧，采样后的视频

其中，三维张量X_i为第i帧图像，

为实数域，w、h、c分别为视频帧的宽度、高度、通道数；

视频

对应的描述语句

其中，T为描述语句长度，y_t为采取独热编码(one-hot)方式描述语句的第t时间步的单词，V为词汇表的单词个数，词汇表是根据所有视频对应的描述语句生成的，一般将出现次数大于5的单词放入词汇表；

(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征

利用深度3D卷积神经网络C3D提取视频的动作特征

其中，视频特征维度大小d＝d_r+d_a。

步骤(2)构建时序高斯混合空洞卷积编码器，输入为视频特征表示，输出为时序高斯特征；具体如下：

(2-1)构建时序高斯混合空洞卷积编码器，捕捉视频的长期时序上下文信息，该编码器由多层时序高斯混合空洞卷积层构成；所述的时序高斯混合空洞卷积层是指空洞卷积层沿着视频时序维度上计算且卷积核参数符合混合高斯分布；所述的空洞卷积属于一种卷积操作，即在卷积核参数之间加入一些零元素来扩大卷积核；编码器的卷积核用参数矩阵

表示，其由M个高斯分布生成，L表示卷积核时序长度，该参数矩阵的第m行l列的元素表示为：

其中，

和

分别表示第m个高斯分布的均值和标准方差；

作为归一化常数，使得

通过学习一组注意力权重

让多个高斯分布在时序动态之间共享，C_out表示输出通道数量；同时，将softmax函数应用于注意力权重得到注意力权重矩阵

使得每个输出通道对应的权重之和为1，即

利用卷积核

和注意力权重矩阵

获得第k个时序高斯混合卷积核

(2-2)第一层时序高斯混合空洞卷积层的卷积核为

利用第k个时序高斯混合卷积核

对视频特征表示F进行空洞卷积操作，卷积结果

作为第一层输出结果的第k个通道，通道索引与卷积核一一对应，最终第一层时序高斯混合空洞卷积层的输出为O¹，如下：

符号*表示空洞卷积操作；

其输入为第q-1层的输出

为了能够利用更多输入通道信息，首先对输入特征O^q-1进行平均池化处理，获得聚合特征

继而得到第q层的输出O^q，即

最终Q个时序高斯混合空洞卷积层的输出为

(2-4)为了融合多个输出通道特征，利用1×1大小的卷积层和ReLU激活函数对输出特征O^Q的C_out个通道映射为单个通道，获得编码器输出时序高斯特征矩阵O＝ReLU(conv1d(O^Q))，

作为包含时序信息的视频特征将被输入解码器。

步骤(3)利用两层长短时记忆神经网络构建解码器，输入为时序高斯特征和文本描述，输出为生成语句概率分布和隐藏向量，计算交叉熵损失；具体如下：

(3-1)为了生成描述语句，利用两层LSTM构建解码器，第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词

以及第一层LSTM第t-1时间步LSTM单元的隐藏向量

其输出

d_h表示隐藏向量维度，

和第二层LSTM第t-1时间步的隐藏向量

为注意力模块，β_t,δ∈(0,1)表示隐藏向量h¹ _t和第δ帧视频特征O_δ的相关性大小，lstm2(·)表示第二层长短时记忆神经网络；

其中，θ_decoder表示解码器参数，

表示全连接层权重矩阵和偏置向量；计算模型的交叉熵损失

其中，y₀是句子

的开始标志符(Start ofSentence,SOS)，y_T+1是句子y的结束标志符(End of Sentence,EOS)。

步骤(4)建立语义重构网络，输入为解码器的隐藏向量，计算语义重构损失；具体如下：

(4-1)为了缩小生成语句和视频内容的语义差异，利用两个全连接层fc₁和fc₂构建语义重构网络，利用解码器隐藏向量重构真实语句的概率分布，由于第一层LSTM的输入为真实语句，其隐藏向量包含了真实语句的语义信息，而第二层LSTM的隐藏向量用来预测单词概率分布，可视为包含生成语句的语义信息，因此，分别将解码器中的隐藏向量

和

映射为维度为V的单词概率分布向量，即

和

其中，

表示权重矩阵，

表示偏置向量；

即

其中，D_KL(·||·)表示两种概率分布之间的Kullback-Leibler散度，

为真实语句概率分布，

为生成语句的概率分布，τ为词汇表的单词索引。

步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型，对新视频依次通过步骤(1)～(3)得到生成语句概率分布，再利用贪心搜索算法获得视频描述语句；具体如下：

(5-1)视频描述模型总体损失函数为

其中，λ>0为交叉熵损失和语义重构损失的权衡系数，取值为0.5，利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型；

(5-2)输入新视频

首先依次经过步骤(1)～(3)得到第一个单词的概率分布向量

其中，T′为生成语句长度。

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。