CN110929587A

CN110929587A - 一种基于层次注意力机制的双向重构网络视频描述方法

Info

Publication number: CN110929587A
Application number: CN201911045154.1A
Authority: CN
Inventors: 李平; 张盼; 胡海洋; 徐向华
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Foshan Haixie Technology Co ltd; Nanjing Chima Information Technology Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-03-27
Anticipated expiration: 2039-10-30
Also published as: CN110929587B

Abstract

本发明公开了一种基于层次注意力机制的双向重构网络视频描述方法。本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，并利用层次注意力机制处理视频特征得到视频特征动态表示；其次，利用长短时记忆神经网络作为解码器，以视频特征动态表示及其文本描述为输入，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；再次，通过构建以解码器的隐藏向量为输入的双向重构网络，最小化重构损失，可输出重构的视频特征，使得生成的文本描述和视频内容具有很高的语义相似性。本发明能有效提取多尺度视频特征反映视频时空结构，减少无关信息干扰，挖掘潜在视频语义信息，生成更准确更自然流畅的视频内容描述。

Description

一种基于层次注意力机制的双向重构网络视频描述方法

技术领域

本发明属于计算机技术领域，具体是视觉计算中的视频描述技术领域，涉及一种基于层次注意力机制的双向重构网络视频描述方法。

背景技术

在当今互联网时代，直播网络平台、视频监控以及手机等智能设备每天产生大量的视频数据，这些数据正呈现爆炸式增长。若需人工描述这些视频所含的内容则耗时耗力，视频描述领域由此诞生。视频描述方法主要可用于视频标题生成、视频检索、视障人群观看视频等实际应用场景。

视频描述任务即用一段文字对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系，还能够生成符合语法规则且描述视频内容正确的语句。

在传统视频描述领域，基于模板或检索的方法不能生成同时满足描述正确且自然流畅的语句。近年来，以神经网络为主要研究对象的深度学习被成功应用于计算机视觉和自然语言处理领域，促使了许多研究者探索将深度学习技术用于解决视频描述问题。目前，主流的视频描述方法采用编码器-解码器框架，编码器用于把视频编码成向量或张量表示，解码器基于生成的张量或向量自动生成一段视频文字描述。比如利用卷积神经网络(CNN：Convolutional Neural Network)作为编码器提取视频帧的图像空间特征，通过对所有帧图像特征进行平均得到视频的向量表示，然后将该向量输入长短时记忆神经网络(LSTM:Long-Short Time Memory)即解码器生成视频的文本描述。但对所有帧的图像特征进行平均处理破坏了视频的时序特性，所以有研究工作利用LSTM作为编码器对视频帧的时序关系进行编码，得到与视频内容更匹配的描述。此外，随着时序注意力机制的引入，解码器能够动态调整不同视频帧的权重向量，使得与已生成描述关联度高的视频帧更受关注，从而生成更准确的细粒度文本描述。

上述方法的不足点主要表现在以下几个方面：第一，提取视频帧特征的尺度单一，难以充分表示丰富的视频信息；第二，只考虑从视频内容到文本描述的正向信息传播，没有考虑从文本描述到视频内容的反向信息传播，使得生成文本描述和视频内容之间的语义相似性不高；第三，没有考虑视频帧区域特征与生成文本描述的相关性，当被描述物体较小时，容易引入不相关的背景信息，对文本描述生成产生干扰。因此，这些方法难以准确地描述视频内容，不能充分捕获视频语义信息。基于这些考虑，针对视频标题生成、视频检索、视障人群观看视频等实际应用场景，迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于层次注意力机制的双向重构网络视频描述方法，可以提取多尺度视频特征，充分捕获视频语义信息，生成自然流畅的视频内容描述语句。

本发明方法首先获取视频数据集合，然后进行如下操作：

步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，利用层次注意力机制处理视频特征得到视频特征动态表示；

步骤(2).利用长短时记忆神经网络作为解码器，输入为视频特征动态表示及其文本描述，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；

步骤(3).建立双向重构网络，输入为解码器的隐藏向量，输出为重构的视频特征；

步骤(4).利用随机梯度下降法优化上述网络模型，对新视频依次通过步骤(1)～(2)得到视频描述语句。

进一步，步骤(1)具体方法是：

(1-1).假设给定的视频

含有n帧，其中X_i为第i帧图像，w,h,c分别为视频帧的宽度、高度、通道数；

为视频

对应的描述语句，l为描述语句的长度，单词Y_i采取独热编码，V为词汇表单词的个数；

(1-2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合；

所述的多尺度是将视频帧划分为14×14个浅层区域集合和7×7个深层区域集合，区域特征即为每个区域通过所述卷积模块提取的特征；

浅层区域特征集合表示为：

深层区域特征集合表示为：

(1-3).层次注意力机制包括区域注意力机制和帧级注意力机制；

所述的区域注意力机制包括浅层区域注意力机制和深层区域注意力机制，是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制；

所述的帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制。

进一步，步骤(2)具体方法是：

(2-1).利用一层长短时记忆神经网络(LSTM)构建解码器，解码器第t个LSTM单元的输入分别为步骤(1-3)所述的视频特征video_t、第t-1个单词Y_t-1以及解码器第t-1个LSTM单元的隐藏向量

解码器输出为隐藏向量

其中

为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM；

(2-2).利用全连接层及softmax函数得到词汇表所有单词的概率分布，概率最高的单词为当前时间步预测单词，概率分布为

其中

为全连接层参数，

是维度转换矩阵,

softmax(·)为逻辑回归函数；

(2-3).根据(1-3)、(2-1)、(2-2)得到下一时间步预测单词，不断循环执行，直至产生语句结束符或达到最大语句长度为止；

(2-4).生成整个描述语句的交叉熵损失

表示为：

其中，Y₀是句子

的开始标志符，Y_l+1是句子

的结束标志符，l为描述语句的长度。

进一步，步骤(3)具体方法是：

(3-1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi-LSTM)，Bi-LSTM能够利用视频序列的前向和反向信息重构视频帧特征；解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制：

(3-2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi-LSTM单元的输入，即

其中，

为解码器第i个LSTM单元的隐藏向量，μ_ti∈(0,1)为

的权重大小，反映了

与重构网络第t-1个Bi-LSTM单元隐藏向量的相关性；

(3-3).通过双向重构网络得到视频第t帧的特征重构表示，即

其中，

为重构网络第t个Bi-LSTM单元的隐藏向量，r表示重构，bi_lstm(·)表示双向长短时记忆神经网络，双向重构网络的重构损失函数为

其中，||·||₂表示向量的L2范数，n表示视频帧数。

进一步，步骤(4)具体方法是：

(4-1).通过最小化由(2-4)描述语句的交叉熵损失

和(3-3)双向重构网络的重构损失

组成的总体损失

λ为权衡系数，取值为0.1；利用随机梯度下降法优化编码器、解码器、双向重构网络，得到视频描述模型；

(4-2).输入新视频

依次经过步骤(1)～(2)得到视频的描述语句

本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，并利用层次注意力机制处理视频特征得到视频特征动态表示；其次，利用长短时记忆神经网络作为解码器，以视频特征动态表示及其文本描述为输入，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；再次，通过构建以解码器的隐藏向量为输入的双向重构网络，最小化重构损失，可输出重构的视频特征，使得生成的文本描述和视频内容具有很高的语义相似性。

本发明方法能够有效提取多尺度视频特征充分表征视频时空结构，利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征，能够减少无关信息的干扰，挖掘潜在视频语义信息，从而生成更准确更自然流畅的视频内容描述。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

基于层次注意力机制的双向重构网络视频描述方法方法，重点考虑提取多尺度视频特征以充分表征视频时空结构，同时利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征。主要思想是利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，并利用层次注意力机制处理视频特征得到视频特征动态表示；利用长短时记忆神经网络作为解码器，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句；通过构建以解码器的隐藏向量为输入的双向重构网络最小化重构损失，可输出重构的视频特征。通过这种方式，可以有效地进行视频描述。

如图1，该方法首先获取视频数据集合，然后进行如下操作：

步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征，利用层次注意力机制处理视频特征得到视频特征动态表示。具体方法是：

(1-1).假设给定的视频

含有n帧，其中X_i为第i帧图像，w,h,c分别表示视频帧的宽度、高度、通道数，

为视频

对应的描述语句，l为描述语句的长度，单词Y_i采取独热编码(One-hot)，V为词汇表单词的个数；

所述的词汇表是根据所有视频对应的描述语句生成的，本实施例将出现次数大于5的单词放入词汇表；

(1-2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合，多尺度指的是把视频帧划分为14×14个浅层区域集合和7×7个深层区域集合，区域特征即为每个区域通过上述卷积模块提取的特征，浅层指的是卷积模块inception_4e位于GoogLeNet的低层，深层指的是卷积模块inception_5b位于GoogLeNet的高层；

浅层区域特征集合表示为：

深层区域特征集合表示为：

(1-3).层次注意力机制包括浅层区域注意力机制、深层区域注意力机制以及帧级注意力机制。区域注意力机制是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制。帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制，具体是：

①通过视频第i帧多尺度区域特征集合加权求和分别得到视频帧浅层特征

和深层特征

其中，

α_ij∈(0,1)为第i帧第j个浅层区域特征的注意力大小，β_ij∈(0,1)为第i帧第j个深层区域特征的注意力大小；第i帧特征

为视频帧浅层特征和深层特征的拼接向量，浅层特征能够捕获视频帧的空间特征，深层特征能够捕获视频帧抽象语义特征，两层特征互补形成视频帧特征，更能充分表示视频帧内容；

②对视频帧特征加权求和，得到解码器第t个LSTM单元的输入视频特征

其中

f_d＝1856为视频特征维度，

为解码器第t个LSTM单元第i个视频帧特征的注意力大小，反映了视频第i帧与解码器第t-1个LSTM单元隐藏向量

的相关性，其中k为隐藏向量维度，d表示解码器。

步骤(2).利用长短时记忆神经网络作为解码器，输入为视频特征动态表示及其文本描述，通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句。具体方法是：

(2-1).利用一层LSTM构建解码器，解码器第t个LSTM单元的输入分别为(1-3)中的输入视频特征video_t、第t-1个单词Y_t-1以及解码器第t-1个LSTM单元的隐藏向量

解码器输出为隐藏向量

其中

(2-2).利用全连接层及softmax函数得到词汇表所有单词的概率分布，概率最高的单词为当前时间步预测单词,概率分布为

其中

为全连接层参数，

是维度转换矩阵,

softmax(·)为逻辑回归函数；

(2-3).根据步骤(1-3)(2-1)(2-2)得到下一时间步预测单词，不断循环执行，直至产生语句结束符(EOS：End of Sentence)或达到最大语句长度为止；

(2-4).生成整个描述语句的交叉熵损失

表示为：

其中，Y₀是句子

的开始标志符(SOS：Start of Sentence)，Y_l+1是句子

的结束标志符EOS，l为描述语句的长度。

步骤(3).建立双向重构网络，输入为解码器的隐藏向量，输出为重构的视频特征。具体方法是：

(3-1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi-LSTM)，双向长短时记忆神经网络能够利用视频序列的前向和反向信息重构视频帧特征；

所述的解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制：

其中，

为解码器第i个LSTM单元的隐藏向量，μ_ti∈(0,1)为

的权重大小，反映了

与重构网络第t-1个Bi-LSTM单元隐藏向量的相关性；

(3-3).通过双向重构网络得到视频第t帧的特征重构表示，即

其中，

其中，||·||₂表示向量的L2范数，n表示视频帧数。

步骤(4).利用随机梯度下降法优化上述网络模型，对新视频依次通过步骤(1)～(2)得到视频描述语句。具体方法是：

(4-1).通过最小化由步骤(2-4)描述语句的交叉熵损失

和步骤(3-3)双向重构网络的重构损失

组成的总体损失

(4-2).输入新视频

依次经过步骤(1)～(2)得到视频的描述语句

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，该方法首先获取视频数据集合，然后进行如下操作：

2.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(1)具体方法是：

(1-1).假设给定的视频

含有n帧，其中X_i为第i帧图像，w,h,c分别表示视频帧的宽度、高度、通道数；

为视频

浅层区域特征集合表示为：

深层区域特征集合表示为：

3.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(2)具体方法是：

(2-1).利用一层LSTM构建解码器，解码器第t个LSTM单元的输入分别为输入视频特征video_t、第t-1个单词Y_t-1以及解码器第t-1个LSTM单元的隐藏向量

解码器输出为隐藏向量

其中

为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM；LSTM为长短时记忆神经网络；

其中

为全连接层参数，

是维度转换矩阵,

softmax(·)为逻辑回归函数；

(2-4).生成整个描述语句的交叉熵损失

表示为：

其中，Y₀是句子

的开始标志符，Y_l+1是句子

的结束标志符，l为描述语句的长度。

4.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(3)具体方法是：

(3-1).双向重构网络为一层Bi-LSTM，Bi-LSTM能够利用视频序列的前向和反向信息重构视频帧特征，Bi-LSTM为双向长短时记忆神经网络；

其中，

为解码器第i个LSTM单元的隐藏向量；

(3-3).通过双向重构网络得到视频第t帧的特征重构表示，即

其中，

其中，||·||₂表示向量的L2范数，n表示视频帧数。

5.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，步骤(4)具体方法是：

(4-1).通过最小化由(2-4)描述语句的交叉熵损失

和(3-3)双向重构网络的重构损失

组成的总体损失

(4-2).输入新视频

依次经过步骤(1)～(2)得到视频的描述语句

6.如权利要求2所述的一种基于层次注意力机制的双向重构网络视频描述方法，其特征在于，所述的帧级注意力机制具体是：

和深层特征

其中，

为视频帧浅层特征和深层特征的拼接向量；浅层特征用于捕获视频帧的空间特征，深层特征用于捕获视频帧抽象语义特征，两层特征互补形成视频帧特征；

②对视频帧特征加权求和得到解码器第t个LSTM单元的输入视频特征，即

其中

f_d＝1856为视频特征维度，

的相关性，其中k为隐藏向量维度，d表示解码器。