CN108388900B

CN108388900B - 基于多特征融合和时空注意力机制相结合的视频描述方法

Info

Publication number: CN108388900B
Application number: CN201810110287.1A
Authority: CN
Inventors: 李楚怡; 余卫宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-06-08
Anticipated expiration: 2038-02-05
Also published as: CN108388900A

Abstract

本发明公开了一种基于多特征融合和时空注意力机制相结合的视频描述方法，首先对待描述视频提取多种基于卷积神经网络的特征，包括物体、场景、行为动作以及光流等特征，并将这些特征融合拼接成一个特征向量，然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达，最后输入到单向长短时记忆网络模型进行特征解码，从而获得与所述视频对应的自然语言描述句子。本发明对待描述视频分别提取了物体、场景以及运动特征，表征了视频的对象信息与对象之间的关系以及运动信息，同时考虑到视频在空间维度和时间维度上的变化，利用3D卷积特征进一步捕捉到视频流的运动信息。

Description

基于多特征融合和时空注意力机制相结合的视频描述方法

技术领域

本发明涉及视频描述、深度学习技术领域，特别涉及一种基于多特征融合和时空注意力机制相结合的视频描述方法。

背景技术

在移动互联网普及和大数据时代的背景下，互联网多媒体数据如图片、视频呈爆发式增长中，计算机视觉已成为当今的热门研究领域，以往完全依赖人工对图片、视频进行标注和描述的任务效率十分低，几乎不可能完成。因此，对于视频自动描述方法的研究具有十分高的应用价值和现实意义。

让机器能够高效自动地对视频做出描述，在视频检索、人机交互、智能安防、虚拟现实等领域也有着广泛的应用前景，这将进一步促进人们对视频的语义描述的研究。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于多特征融合和时空注意力机制相结合的视频描述方法，对待描述视频分别提取了物体、场景以及运动特征，表征了视频的对象信息与对象之间的关系以及运动信息，同时考虑到视频在空间维度和时间维度上的变化，利用3D卷积特征进一步捕捉到视频流的运动信息。

本发明的目的通过以下的技术方案实现：一种基于多特征融合和时空注意力机制相结合的视频描述方法，具体包括如下步骤：

S1、对待描述视频提取多种基于卷积神经网络的特征，包括物体、场景、行为动作、光流以及3D卷积特征；

S2、将上一步获得的多种特征融合拼接成一个特征向量；

S3、利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达；

S4、将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码，从而获得与所述视频对应的自然语言描述句子。

优选的，步骤S1中所述对待描述视频提取物体、场景、行为动作、光流以及3D卷积特征具体为：

S1.1、对于物体、场景和行为动作特征的提取步骤具体为：

S1.1.1、首先对待描述视频按照指定的帧频fps进行分帧，并随机抽取其中的80帧图像用于下一步作特征提取；

S1.1.2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征，最终得到三个1024维的特征向量；

S1.2、对于3D卷积特征的提取步骤具体为：

S1.2.1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能好于一定阈值的中间模型的参数；

S1.2.2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征，得到一个512维的特征向量；

S1.3、对于光流特征的提取步骤具体为：

S1.3.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值，并归一化到[0,255]的像素范围；

S1.3.2、计算光流的幅度值，并结合上一步获得的光流特征值组合成一张光流图；

S1.3.3、利用生成的光流图训练一个卷积神经网络GoogleNet，并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。

优选的，步骤S2中将上一步获得的多种特征融合拼接成一个特征向量的具体步骤如下：

S2.1、对步骤S1获得的物体、场景、动作、光流特征和3D卷积特征进行直接拼接，如果用F表示特征，拼接M种模型提取的特征，对于每种模型生成的特征用F_i表示，选取这些特征的组合直接拼接得到的融合特征为F_fusion,则融合特征可表示为公式(1-1):

F_fusion＝(F₁,F₂,…,F_m) (1-1)

S2.2、对拼接的多维特征向量进行主成分分析PCA降维，最终保留1024维特征向量。

优选的，步骤S3中利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达，具体为：

S3.1、引入时空注意力机制可分为时间注意力机制和空间注意力机制，其具体步骤如下：

S3.1.1、用V表示特征向量，V＝{v₁,v₂,…,v_n}，具体地，时间注意力权重α可由公式(1-2)计算得到：

在公式(1-2)中，h_t-1表示t-1时刻的lstm隐层变量，

表示时间注意力模型，其定义如公式(1-3)(1-4)所示：

α^(t)＝softmax(W_ia+b_i) (1-4)

其中，W_c,W_hc,W_i分别表示视觉特征，视觉特征与隐层特征向量，及其非线性变换特征的权重转移矩阵，符号

表示矩阵的每一列与向量对应相加。b_c,b_i表示模型的偏置向量；

S3.1.2、用V表示特征向量，V＝{v₁,v₂,…,v_n}，具体地，空间注意力权重β可由公式(1-5)计算得到：

在公式(1-5)中，h_t-1表示t-1时刻的lstm隐层变量，

表示空间注意力模型，其定义如公式(1-6)(1-7)所示：

β^(t)＝softmax(W_i′b+b_i′) (1-7)

其中，W_s,W_hs,W_i′分别表示视觉特征，视觉特征与隐层特征向量，及其非线性变换特征的权重转移矩阵，符号

表示矩阵的每一列与向量对应相加。b_s,b_i′表示模型的偏置向量；

S3.1.3、引入时空注意力机制可以有两种形式，分别是S-T和T-S；第一种形式S-T表示先引入空间注意力机制，而第二种形式T-S表示先引入时间注意力机制；S-T形式的计算过程可表示为公式(1-8)：

X＝f(V,α,β) (1-8)

同理，T-S形式的计算过程可表示为公式(1-9)：

X＝f(V,α,β) (1-9)

其中，f_s,f_c分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出，X表示引入时空注意力机制后最终得到的语义编码表达。

S3.2、双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码，在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达；

在计算隐藏层变量时有正向计算和反向计算两个过程，因此隐藏层变量H_t的生成需要保存两个值并将这两个值拼接起来；正向计算时，t时刻的隐藏层变量h_t与t-1时刻下隐藏层变量h_t-1和当前输入x_t有关；反向计算时，t时刻的隐藏层变量h_t与t+1时刻下隐藏层变量h_t+1和当前输入x_t有关，具体计算过程可表示为：

h_t＝f(W₁x_t+W₃h_t-1) (1-10)

h_t′＝f(W₂x_t+W₄h′_t+1) (1-11)

H_t＝[h_t,h_t′] (1-12)

其中，W₁,W₂分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵，W₃代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W₄代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵。

优选的，步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码，生成与所述视频对应的自然语言描述句子，前向传播过程具体为：

基于单向的长短时记忆网络模型的基本单元是LSTM神经单元，每个LSTM神经单元的前向传播过程可表示为：

i_t＝σ(W_xix_t+W_uiu_t+W_hih_t-1+b_i) (1-13)

f_t＝σ(W_xfx_t+W_ufu_t+W_hfh_t-1+b_f) (1-14)

o_t＝σ(W_xox_t+W_uou_t+W_hoh_t-1+b_o) (1-15)

c_t＝f_t*c_t-1+i_t*g_t (1-17)

其中，x_t，u_t，h_t-1分别代表t时刻下的视觉特征输入，t时刻前生成的上下文信息输入和t-1时刻的lstm隐层变量，

是sigmoid激活函数，

是双曲正切激活函数；i_t，f_t，o_t，c_t依次表示t时刻下输入门，记忆门，输出门和核心门对应的状态量；对于每个逻辑门，W_xi，W_xf，W_xo，W_xg依次表示输入门，记忆门，输出门和核心门与特征输入x_t对应的权重转移矩阵，W_ui，W_uf，W_uo，W_ug依次表示输入门，记忆门，输出门和核心门与上下文输入u_t对应的权重转移矩阵，W_hi，W_hf，W_ho，W_hg依次表示输入门，记忆门，输出门和核心门在t-1时刻隐藏层变量h_t-1对应的权重转移矩阵，b_i，b_f，b_o，b_g依次表示输入门，记忆门，输出门和核心门对应的偏置向量；

优选的，步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码，生成与所述视频对应的自然语言描述句子，网络优化过程具体为：

在解码的阶段，网络会有信息的损失，因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下，最大化整个输出预测语句的对数似然函数；对于用参数θ和输出语句Y＝(y₁,y₂,…,y_m)表示的模型，参数优化目标可表示为：

其中，θ为参数，Y代表输出的预测语句，h为隐层表达，使用随机梯度下降法对目标函数进行优化，整个网络的误差通过反向传播算法在时间维度上累积传递。

优选的，步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码，生成与所述视频对应的自然语言描述句子，描述语句生成过程具体为：

S4.1、采用softmax激活函数计算每个单词在词汇表V中的出现概率，可用公式(1-20)表示：

其中，y表示输出预测的单词，z_t表示长短时记忆网络在t时刻的输出值，W_y表示该单词在词汇表中的权重值；

S4.2、在每个时刻的解码阶段，取softmax激活函数输出值中概率最大的单词，从而组成对应的视频描述语句。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明采用了多种特征的提取和融合，考虑到了视频在空间维度和时间维度上的变化，从物体、场景、动作、光流以及三维角度上分析视频流中出现的对象以及对象之间的关系等信息。

2、本发明引入了时空注意力机制，允许模型动态地把注意力集中在当前时刻预测单词时更关注的部分视频帧和图像内容区域。

3、本发明利用双向的长短时记忆网络模型作为特征编码器，能够在已知过去的上下文信息和预知未来的上下文信息的情况下，对当前时刻的视频流进行更符合语境的特征编码。

附图说明

图1是实施例方法的流程框架图。

图2是实施例所采用时空注意力机制示意图。

图3是实施例所采用的基于双向长短时记忆网络的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

一种基于多特征融合和时空注意力机制相结合的视频描述方法，对待描述视频提取多种基于卷积神经网络的特征，包括物体、场景、行为动作以及光流等特征，并将这些特征融合拼接成一个特征向量，然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达，最后输入到单向长短时记忆网络模型进行特征解码，从而获得与所述视频对应的自然语言描述句子。

图1为本方法的整体流程图，包括如下步骤：

(1)对待描述视频分别提取物体、场景、行为动作以及光流等特征，具体为：

对于物体、场景和行为动作特征的提取步骤具体为：

1、首先对待描述视频按照指定的帧频fps进行分帧，并随机抽取其中的80帧图像用于下一步作特征提取；

2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征，最终得到三个1024维的特征向量。

对于3D卷积特征的提取步骤具体为：

1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数；

2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征，得到一个512维的特征向量。

对于光流特征的提取步骤具体为：

1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值，并归一化到[0,255]的像素范围；

2、计算光流的幅度值，并结合上一步获得的光流特征值组合成一张光流图；

3、利用生成的光流图训练一个卷积神经网络GoogleNet，并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。

将前面获得的多种特征融合拼接成一个特征向量的具体步骤如下：

S2.1、对获得的物体、场景、动作、光流特征和3D卷积特征进行直接拼接，如果用F表示特征，拼接M种模型提取的特征，对于每种模型生成的特征用F_i表示，选取这些特征的组合直接拼接得到的融合特征为F_fusion,则融合特征可表示为公式(1-1):

F_fusion＝(F₁,F₂,…,F_m) (1-1)

S2.2、由于通过网络的非线性映射关系生成对应的物体、场景、动作以及光流特征的向量维度为1024，3D卷积特征向量维度为512，因此将这些特征直接拼接起来特征向量维度为4608＝1024*4+512，若直接输入到语言生成模型中计算量较大，故对这4608维特征向量进行主成分分析PCA降维，最终保留1024维特征向量。

(2)利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达。通过引入时空注意力机制，可以让解码器在生成当前时刻的单词输出过程中有选择性地把注意力聚焦在待描述视频的一帧或几帧图像，以及更关注图像中的某部分区域时，该部分特征在得到注意力机制的强调作用下能够更加突出，从而生成更精确的描述单词输出，这一步骤也可以理解为动态的特征提取机制。

S3.1.1、引入时间注意力机制是为了让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧，避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的情况。注意力机制本质上是动态地对特征向量进行加权求和，实现为关键特征分配更大的权重，让模型的注意力更集中在这部分内容上。用V表示特征向量，V＝{v₁,v₂,…,v_n}。具体地，时间注意力权重α可由公式(1-2)计算得到：

在公式(1-2)中，h_t-1表示t-1时刻的lstm隐层变量，

表示时间注意力模型，其定义如公式(1-3)(1-4)所示：

α^(t)＝softmax(W_ia+b_i) (1-4)

表示矩阵的每一列与向量对应相加。b_c,b_i表示模型的偏置向量。

S3.1.2、引入空间注意力机制是为了让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调，分配更大的权重，让模型的注意力更集中在该区域的内容。用V表示特征向量，V＝{v₁,v₂,…,v_n}。具体地，空间注意力权重β可由公式(1-5)计算得到：

在公式(1-5)中，h_t-1表示t-1时刻的lstm隐层变量，

表示空间注意力模型，其定义如公式(1-6)(1-7)所示：

β^(t)＝softmax(W_i′b+b_i′) (1-7)

表示矩阵的每一列与向量对应相加。b_s,b_i′表示模型的偏置向量。

如图2中给出了时空注意力机制的示意图，引入时空注意力机制可分为时间注意力机制和空间注意力机制，具体的接入形式也有两种，分别是S-T(Spatial-Temporal)和T-S(Temporal-Spatial)。第一种形式S-T表示先引入空间注意力机制，而第二种形式T-S表示先引入时间注意力机制。S-T形式的计算过程可表示为：

X＝f(V,α,β) (1-8)

同理，T-S形式的计算过程可表示为：

X＝f(V,α,β) (1-9)

其中，f_s,f_c分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出。X表示引入时空注意力机制后最终得到的语义编码表达。

S3.2、双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码，在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达。如图3中给出了基于双向长短时记忆网络的示意图。在计算隐藏层变量时有正向计算和反向计算两个过程，因此隐藏层变量H_t的生成需要保存两个值并将这两个值拼接起来；正向计算时，t时刻的隐藏层变量h_t与t-1时刻下隐藏层变量h_t-1和当前输入x_t有关；反向计算时，t时刻的隐藏层变量h_t与t+1时刻下隐藏层变量h_t+1和当前输入x_t有关，具体计算过程可表示为：

h_t＝f(W₁x_t+W₃h_t-1) (1-10)

h_t′＝f(W₂x_t+W₄h′_t+1) (1-11)

H_t＝[h_t,h_t′] (1-12)

(3)将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码，生成与所述视频对应的自然语言描述句子，前向传播过程具体为：

基于单向的长短时记忆网络模型的基本单元是LSTM神经单元，一般地，每个LSTM神经单元的前向传播过程可表示为：

i_t＝σ(W_xix_t+W_uiu_t+W_hih_t-1+b_i) (1-13)

f_t＝σ(W_xfx_t+W_ufu_t+W_hfh_t-1+b_f) (1-14)

o_t＝σ(W_xox_t+W_uou_t+W_hoh_t-1+b_o) (1-15)

c_t＝f_t*c_t-1+i_t*g_t (1-17)

是sigmoid激活函数，

是双曲正切激活函数；i_t，f_t，o_t，c_t依次表示t时刻下输入门，记忆门，输出门和核心门对应的状态量；对于每个逻辑门，W_xi，W_xf，W_xo，W_xg依次表示输入门，记忆门，输出门和核心门与特征输入x_t对应的权重转移矩阵，W_ui，W_uf，W_uo，W_ug依次表示输入门，记忆门，输出门和核心门与上下文输入u_t对应的权重转移矩阵，W_hi，W_hf，W_ho，W_hg依次表示输入门，记忆门，输出门和核心门在t-1时刻隐藏层变量h_t-1对应的权重转移矩阵，b_i，b_f，b_o，b_g依次表示输入门，记忆门，输出门和核心门对应的偏置向量。

最后生成描述语句的具体操作为：

1、采用softmax激活函数计算每个单词在词汇表V中的出现概率，可表示为：

其中，y表示输出预测的单词，z_t表示长短时记忆网络在t时刻的输出值，W_y表示该单词在词汇表中的权重值。

2、在每个时刻的解码阶段，取softmax激活函数输出值中概率最大的单词，从而组成对应的视频描述语句。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。