CN114268846A

CN114268846A - 一种基于注意机制的视频描述生成模型

Info

Publication number: CN114268846A
Application number: CN202010973202.XA
Authority: CN
Inventors: 秦谦; 张春建
Original assignee: Zhenjiang Duoyou Network Technology Co ltd
Current assignee: Zhenjiang Duoyou Network Technology Co ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-04-01

Abstract

本发明公开了一种基于注意机制的视频描述生成模型，多模态特征提取模块和自然语言生成模块，多模态特征提取模块，用于提取视频特定类别的特征并针对每个特定类别输出特征序列向量；自然语言生成模块包括多个双向编码器和一个基于注意机制的解码器；双向编码器的个数与提取的特定类别的个数相同；双向编码器，用于分别输入特定模态特征的特征序列向量并输出该特定模态特征对应的隐藏状态向量序列；基于注意机制的解码器包括一个多模态Attention机制以及一层单向LSTMs，一个多模态Attention机制用于融合编码器输入的各类模态特征隐藏状态序列，一层单向LSTMs用于将融合的状态序列解码为单词序列。本发明提供了准确度更高的短视频描述生成模型。

Description

一种基于注意机制的视频描述生成模型

技术领域

本发明属于机器学习及视频处理技术领域，具体涉及一种基于注意机制的视频描述生成模型。

背景技术

因为传统的基于encoder-decoder框架的递归神经网络模型存在设计缺陷。模型在许多比较难的序列预测问题(如机器翻译)上都取得了很好的结果。无论是单向双层LSTM编码器还是双向编码器都是基于编解码结构的，都把编码阶段计算出来的最后一个隐藏状态作为解码阶段的输入，可能作为初始值，也可能作为每一时刻的输入。然而LSTM编码器的状态向量是有限的，存储不了太多的信息。在解码阶段，每一个序列单词的输出都和之前计算出的各隐藏状态向量没有关系，只与这个最终的输入状态有关。也就是说，编码过程将不同长度的输入序列都编码为一个长度一致的向量，而解码过程则依赖于这个固定长度向量，使得较长的输入序列丧失很多重要信息，从而降低了生成结果的准确性。编码器的固定输出长度限制了模型的性能发挥，在应用中表现为输入视频长度过长时生成的描述语句准确度很低。Attention机制解决了之前encoder-decoder结构中编码器生成固定长度向量并且解码器只接收这一个向量的问题，它首先保留了LSTM编码器对输入特征序列的所有中间输出结果，即各隐藏状态向量，然后针对每一个输出序列训练学习一组注意力权重，这些权重用于表示每个输入向量与每个输出向量之间的关联度，最后在解码过程中，输出序列中每一项的生成都依赖于所有编码器输出的隐藏状态向量及其注意力权值。Attention机制引入后，decoder阶段根据时刻的不同，让每一时间步上的输入都不同，虽然这样会增加计算量，但是性能水平能够得到显著提升。

但是目前基于注意机制的视频描述生成模型在实现设置字体格式，字体颜色等自然语言生成的应用中准确度不够高，因此需要提出一种准确度更高的视频描述生成模型。

发明内容

本发明针对目前自然语言生成模型准确度不够高的问题，本发明建立了基于注意机制的双向语言生成模型，实验中使用多模态特征作为输入进行模型评估，结果表明，本发明提出的自然语言生成模型在开放域视频描述数据集上取得了目前最好的结果。

本发明采用以下技术方案。提供一种基于注意机制的视频描述生成模型，包括：多模态特征提取模块和自然语言生成模块，

所述多模态特征提取模块，用于提取视频特定类别的特征并针对每个特定类别输出特征序列向量；

所述自然语言生成模块包括多个双向编码器和一个基于注意机制的解码器；所述双向编码器的个数与提取的特定类别的个数相同；所述双向编码器，用于分别输入特定模态特征的特征序列向量并输出该特定模态特征对应的隐藏状态向量序列；所述基于注意机制的解码器包括一个多模态Attention机制以及一层单向LSTMs，所述一个多模态Attention机制用于融合编码器输入的各类模态特征隐藏状态序列，所述一层单向LSTMs用于将融合的状态序列解码为单词序列。

进一步地，所述视频特定类别的特征包括RGB图像特征、光流特征、C3D特征以及音频特征。

进一步地，所述多模态特征提取模块包括C3D特征提取模块，所述C3D特征提取模块为三维卷积神经网络，三维卷积神经网络模型的输入是H×W×L的矩形块，视频中每一帧都要重调大小为H×W，并且一次输入连续L帧；两次输入的连续帧块的覆盖范围C由整个视频中包含的帧数N以及三维CNNs一次输入的视频帧数量决定，公式如下：

C＝(80×L-N)/(N-1)。

进一步地，所述多模态特征提取模块包括音频特征提取模块，所述音频特征提取模块将中期窗口大小和步长都设置为L/N，其中L是音频总长度L，N是自然语言生成模型中要求输入的视频特征的水平维度。

进一步地，所述双向编码器包括两层LSTM单元和一层特征融合单元，所述两层LSTM单元分别计算输入特定模态特征序列F的正向状态向量和反向隐藏状态向量，所述特征融合单元用于将输入特征序列F的正向状态向量和反向隐藏状态向量按照时间步连接起来得到特定模态特征对应的隐藏状态向量序列。

进一步地，所述一个多模态Attention机制，该机制在输入的状态向量之上定义了一组Attention权重，对于第i个输出单词，即w_i，每种模态特征都被表示为所有隐藏状态向量的加权和，即c_j,i，其中j表示第j种特征，计算公式如下所示，

α_j,i,t是第i个输出与第j种特征的第t个隐藏状态向量(h_j,t)之间的Attention权重。

再进一步地，进一步地，所述基于注意机制的解码器中的一层单向LSTMs，具体用于将所述Attention权重w_i和(c_j,i)根据以下计算被结合成一个特征向量，即d_i，实现了多模态特征融合，

d_i＝W_c1c_1,i+W_c2c_2,i+…+W_cnc_n,i(n＝1,2…)，

其中W_cn表示第n种模态特征与输出单词序列之间的权重矩阵,c_n,i表示第n种模态特征针对第i个输出单词所有隐藏状态向量的加权和。

本发明所取得的有益技术效果：

本发明建立了结果准确度更高的短视频描述生成模型。首先本发明设计了基于双向编码器的语言模型(MM-BiS2VT)，提升了生成语句的准确度。引入了注意(Attention)机制，得到了本发明最终的短视频语言描述生成模型，即ABiVDN。它以多模态特征作为输入，在Attention机制中进行融合，并学习每个特征向量与每个输出向量之间的注意力权重。

本发明收集了消音数据集的音频信息，建立了静态RGB特征、光流特征、三维卷积特征(C3D)和音频特征的提取模型。前三种特征都是使用CNNs提取的深度学习特征。同时，本发明改进了原始的三维卷积神经网络和音频特征提取模型，使它们能够适应后续自然语言模型的输入要求。实验结果表明，将这四种模态特征结合起来可以为视频提供更为全面的表示，更具有鲁棒性。

附图说明

图1为本发明具体实施例构建的基于注意机制的双向视频描述生成模型；

图2为本发明具体实施例中双向编码器结构示意图；

图3为本发明具体实施例中基于Attention机制的解码器结构示意图；

图4为本发明具体实施例C3D特征提取模块对不同长度视频的覆盖范围变化；

图5为基于Attention机制的双向语言模型；

图6为本发明具体实施例基于Attention机制的双向语言模型；

图7为本发明具体实施例基于多模态特征与双向编码器的视频描述生成模型。

具体实施方式

以下结合说明书附图和具体实施方式对本发明做进一步说明。

为了便于理解本发明内容，以下介绍

实施例一、一种基于注意机制的视频描述生成模型，如图1所示，包括：多模态特征提取模块和自然语言生成模块，

如图1所示，基于注意机制的短视频描述生成模型，也可以被称为ABiVDN(Attention-based Bidirectional Video Description Network)模型，该模型结合了多模态特征以及双向编码器的Attention机制。整个模型被分为两个模块，第一个是多模态特征提取，该模块将各类特征提取模型输出的序列向量分别输入到双向编码器中进行单独编码计算，将视频划分为RGB图像帧、光流图片和音频等多通道的并行输入，每种模态特征分别使用不同的模型提取。

第二个模块是一个自然语言生成模型，它是由多个双向编码器以及一个基于Attention机制的解码器构成的。由上层特征提取模块传输来的特征序列向量被分别输入到独立的编码器中，也就是说，有多少种模态特征就会有多少个编码器。编码器是由三层双向LSTM单元构成的，它们的结构与计算方法都是相同的。每种模态特征经过相应的编码器处理后都会输出一组隐藏状态向量序列，将这些状态向量按序输入到解码器中便可得到自然语言描述语句。解码器包含了一个多模态Attention机制以及一层单向LSTMs，前者用于融合编码器输入的各类特征隐藏状态序列，后者用于将融合的状态序列解码为单词序列。多模态特征融合过程便是在编码与解码之间由Attention机制完成的，这里的Attention不仅用于为输入隐藏状态序列添加权重，还用于融合多模态特征。每种模态特征的隐藏状态向量序列与输出单词序列之间都有需要学习的Attention权重，也就是说，每种模态特征对于一个正确单词的输出贡献度是不一样的，贡献度越大的状态向量对应的注意力权值便越大。最后再将所有类型的特征向量经过注意机制计算后的结果输入到单向的LSTM单元中，解码隐藏状态值为序列单词，分别以<bos>和<eos>作为句子起止标识符，并且每个时间步上都有来自多模态Attention机制计算出的隐藏状态向量的输入。

该模型的特征提取模块输出的是多模态特征，每种特征并行输入到各自独立的编码器中，编码器如图2所示。整个语言模型便是由多个双向编码器以及一个基于Attention机制的解码器构成。

输入的特征序列为F(f₁,f₂,...,f_n)，其中f_i表示单个特征向量，F表示各模态特征，比如F_RGB或F_C3D等。图5给出了一种模态特征编码的过程，前两层LSTM单元分别计算输入特征序列F的正向和反向隐藏状态向量，即

和

最后融合两个方向的输出得到

这里融合的隐藏状态向量都要作为输入传输到后续解码器中，而不是只有最后一个时间步上的状态向量。

举例说明，对于一段输入的短视频，它的RGB图像特征可以表示F₁(f₁₁,f₁₂,...,f_1n)，其中n是我们选取的视频代表帧的数量，f_1i是一个1000维的向量。经过上述双向编码器计算后，首先会得到H₁ ^f和H₁ ^b两个方向状态向量序列。它们都含有n个维度为J的向量，J表示隐藏状态向量的大小，由LSTM计算单元决定。之后按时间步将这两个向量序列连接起来得到

它包含n个特征向量，每个向量纬度是2×J。其它模态特征都使用相同的编码器进行计算。这样在本发明的实验中，最终可以得到四种模态特征对应的隐藏状态向量序列。为了方便表示，我们将其称为H₁(RGB图像特征)、H₂(光流特征)、H₃(C3D特征)以及H₄(音频特征)，这些便是后续基于Attention机制解码器的输入。

语言模型的第二个部分便是如图3所示的解码器，它以多模态特征隐藏状态向量序列作为输入，比如H₁(h₁₁,h₁₂,...,h_1n)和H₂(h₂₁,h₂₂,...,h_2n)等，经过Attention机制的融合以及LSTM单元计算后，最终输出单词序列W(w₁,w₂,...,w_n)。

解码器是由多模态特征融合方法和一层LSTM单元组成。注意机制使得模型可以根据当前的上下文输出，赋予某些特定时间步上的输入状态向量更高的权重，从而获得更为准确的输出序列。本发明提出了一种多模态Attention机制用于处理并行的多个编码器传输而来的隐藏状态向量序列。该机制在输入的状态向量之上定义了一组Attention权重，对于第i个输出单词，即w_i，每种模态特征都被表示为所有隐藏状态向量的加权和，即c_j,i，本实施例提取4种特征，因此其中j(j∈[1,4])表示第j种特征。计算公式如(1)所示，α_j,i,t是第i个输出(w_i)与第j种特征(H_i)的第t个隐藏状态向量(h_j,t)之间的Attention权重。

之后，这些权重和(c_j,i)根据公式(2)的计算被结合成一个特征向量，即d_i，这样便实现了多模态特征融合。

d_i＝W_c1c_1，i+W_c2c_2，i+W_c3c_3，i+W_c4c_4，i (2)

特征融合向量为D(d₁,d₂,...,d_m)，被按序输入到LSTM单元中生成单词，直到输出<eos>终止语句。W_cj表示第j种模态特征与输出单词序列之间的权重矩阵。在特征融合阶段，公式(3)被作为模型激活函数，得到gi。所有的W(权值)和b(偏置)都是模型训练参数。

g_i＝tanh(W_ss_i-1+d_i+b_s) (3)

同其它语言模型一样，需要在输出序列之上定义概率分布。每个单词的概率分布如式(4)所示，是通过在语料库上进行softmax操作得到的。最终每个单词w_i通过公式(5)计算并选取概率最大值得到，其中V表示语料库。语言模型中的其它计算规则，如<bos>、<eos>的使用都与之前的语言模型保持一致。

P(w|s_i-1，c_1i，c_2i，c_3i，c_4i)＝softmax(W_gg_i+b_g) (4)

本发明设计的Attention机制的引入方法结合了视频多模态特征，将特征融合方法与Attention权重计算有效地结合在一起。传统Attention机制只可以学习一组输入特征序列与一组输出单词序列之间的注意力权值，而发明的设计可以允许有多个输入序列，并有效地学习每个序列与输出之间的关联度，关联度越高的便赋予更高的Attention权值，使得输出描述语句的准确度更高。

之所以要引入Attention机制，是因为传统的基于encoder-decoder框架的递归神经网络模型存在设计缺陷。该模型在许多比较难的序列预测问题上都取得了很好的结果。但是无论是单向双层LSTM编码器还是双向编码器，编码将不同长度的输入序列都编码为一个长度一致的向量，而解码过程则依赖于这个固定长度向量，使得较长的输入序列丧失很多重要信息，从而降低了生成结果的准确性。编码器的固定输出长度限制了模型的性能发挥。Attention机制引入后，decoder阶段根据时刻的不同，让每一时间步上的输入都不同，虽然这样会增加计算量，但是性能水平能够得到显著提升。

为了更容易理解本发明，以下对注意(Attention)机制做进一步说明。

1)注意(Attention)机制

从应用角度划分，Attention机制可以分为空间注意力(Spatial Attention)和时间注意力(Temporal Attention)，而从作用方法出发，它可以被分为Soft Attention和Hard Attention，如图5所示。Soft Attention是最常见的注意机制，是在求注意力概率分布的时候，对输入序列特征向量的每一个向量都赋予匹配概率值，概率分布是服从soft软分布的。然而如果直接从输入序列中找到某个特定值，然后把目标输出序列与这个值对齐，而其它输入序列中的值被硬性地认为对齐概率为0，即服从one-hot(独热)分布，则称它是Hard Attention。不同的分布类型将直接影响上下文信息的选择。

目前Attention机制已被广泛应用于机器翻译、语音识别、摘要生成等问题上，它的核心是在编码器与解码器之间增加一组Attention权重，将所有计算出的状态向量与对应权重相乘后，再加入到每个时刻的输出计算中。如图6所示，它展示了基于Attention的双向语言描述生成模型，这里使用的就是Soft Attention，因为每个输入的特征向量都会被赋予一个注意权重，即α_t,i。

解码(decoder)阶段每一个时间步t生成的隐藏状态向量h^d都与前一步生成的h^d、前一步输出的单词w_t-1以及编码阶段输出的隐藏状态加权和c_t有关，如公式(6)所示:

其中S表示非线性递归函数，c_t的计算公式如(7)所示:

其中h_i ^e(i∈[1,n])表示编码(encoder)阶段生成的所有隐藏状态向量，α_t,i表示第t个时间步上解码阶段的输出值与第i个编码阶段的隐藏状态值之间的Attention权重，计算方法如公式(8)所示:

Attention权重α_t,i相当于一个校准机制，它赋予更加匹配解码器时间步的编码器隐藏状态向量更高的权重。其中exp(.)是高等数学中的以e为底的指数函数，e_t,i是Attention函数，它的计算公式如(9)所示:

其中W_a ^e和W_a ^d分别表示编码阶段和解码阶段的Attention权重，都是二维矩阵。w和b都是向量，b表示偏置，w是经过隐层编码后的向量。以上所有参数都需要在训练过程中不断地学习。

2)基于多模态特征及双向编码器的短视频描述生成模型

如图7所示，是针对开放域短视频描述生成任务的基于多模态特征和双向编码器的视频翻译模型。整个模型被分为两个模块，第一个是特征提取模块，首先视频被划分为并行的多通道输入，使用GPU加速特征提取速度，不同模态特征的提取模型是相互独立的。视频帧，即RGB图像，使用不同的划分规则处理后被输入到三维卷积神经网络和ResNet152模型中，分别提取出C3D特征和RGB特征。经过光流算法处理后得到的光流图片被输入到ResNet152模型中，得到光流特征。同时，该模型还添加了音频信息这一种重要的补充特征。以上是多模态特征提取的整个过程，但若要将这些特征作为输入传输到后续自然语言模型中，还需要进行特征融合。应用了一种多模态特征融合方法(Feature Fusion Method,FFM)，它在有效地结合这些特征的同时，可以避免模型训练过程中发生不可预期的纬度过大等问题，并且能够加快模型的收敛速度。经过融合算法后，特征提取模型将输出一组特征向量序列，并输入到下一个模块中。

第二个模块是自然语言模型，用于将序列特征转换为序列单词。双向LSTMs用于在正向和反向两个方向上对输入的融合特征序列进行编码，第三层LSTMs融合两个方向得到的隐藏状态向量。该模型并没有像之前研究中提出的双向语言模型那样，融合原始卷积神经网络模型的输出，这样可以减少计算量。最后加入了一层LSTMs用于解码隐藏状态值为序列单词，分别以<bos>和<eos>作为句子起止标识符。

实施例二、在实施例一的基础上，本实施例一种基于注意机制的视频描述生成模型，提取的视频特征包括RGB图像特征、光流特征、C3D特征以及音频特征。在其它实施例中可以根据应用场景需要提取特定的视频特征，采用本发明提供的于注意机制的视频描述生成模型实现视频描述。

多模态特征提取模块包括RGB图像特征提取模块、光流特征提取模块、C3D特征提取模块以及音频特征提取模块。各模态特征提取模块执行的算法是并行完成的，视频被划分为由RGB图像、光流图像和音频等组成的多通道输入，然后分别通过独立的模型提取特征，并使用GPU加快特征提取运算速度。以下便是本发明使用的多模态特征：

1)RGB图像特征提取算法

RGB图像特征是视频智能分析领域最基础的特征，现已被广泛应用于图像分类、行为识别等计算机视觉领域。它是通过将视频划分为静止的二维图像，即视频帧，再由卷积神经网络模型提取而来的。由于CNNs模型如果层数越多，提取到的特征便越丰富，也越具有语义信息。因此本发明使用2015年ILSVRC冠军模型，即残差神经网络ResNet152，来提取视频RGB图像特征。表1给出了不同层数的ResNet模型结构，如18层、50层和152层等，主要区别就在于卷积层个数。

表1不同层数的ResNet模型结构

在使用ResNet提取图像特征之前，本发明使用ImageNet图片分类数据集对其进行预训练，该数据集包含属于1000个类别的1200万张图像，有助于使模型更易识别出开放域视频中的物体。实验中，本文选择池化层之后的最后一层全连接层的输出作为RGB图像中每帧的表示，即一个1000维的向量。若每段视频选取的代表帧数量为N，则视频的RGB图像特征的最终表示为N×1000的矩阵。

2)光流特征提取算法

光流特征包含着视频中的行为信息，也是最常用的动态特征之一。本发明使用TV-L1算法计算视频帧上每个像素点的光流值。该算法采用双向求解机制，在不丢失精度的前提下，降低了计算量。光流场包含每个像素点的瞬时速度矢量信息，由于速度包括水平分量和垂直分量，所以一个点的光流由两个值表示，即μ和ν。举例说明，假设第T帧中某一个像素点A的位置是(x₁,y₁)，在第T+1帧中该点的位置是(x₂,y₂)，则点A的瞬时移动速度如公式(10)所示。TV-L1则是用于计算(x₂,y₂)的，在计算之后，通过对这些二维数值矩阵进行转换得到灰度图像。通过该算法，一段包含n帧的视频可以得到2×(n-1)张灰度光流图片。

(μ_x,v_y)＝(x₂,y₂)-(x₁,y₁) (10)，

类似RGB图像特征的提取过程，本文采用经过UCF-101数据集预训练的ResNet152模型提取各光流图片特征。UCF-101是包含101个行为类的视频集，可以让模型更好地识别出开放域视频中的不同行为。最后，将表示同一个速度的两个方向的图像得到的1000维向量进行拼接组合，并选取代表帧，从而得到了N×2000的视频光流特征矩阵。

3)C3D特征提取算法

C3D特征，也称为时空(Spatio-temporal)特征，是由深度三维卷积神经网络提取而来的，为了使C3D特征可以成功地输入到后续自然语言模型中，并且便于与其它特征进行融合，本发明对现有的三维CNNs模型进行了改进，使其可以根据输入视频的大小动态调整图像帧块的覆盖范围。如图4，三维卷积神经网络模型的输入是H×W×L的矩形块，因此视频中每一帧都要重调大小为H×W，并且一次输入连续L帧。两次输入的连续帧块的覆盖范围C由整个视频中包含的帧数N以及三维CNNs一次输入的视频帧数量决定，公式表示为(11)。长视频的覆盖范围会小于短视频的覆盖范围，覆盖范围可为负，表示连续两次输入的帧块之间没有重叠。若视频过短，比如只有80帧，则空的地方补零，这对于其它特征也是适用的。

C＝(80×L-N)/(N-1) (11)。

本实施例使用Sport-1M数据集预训练改进的三维卷积神经网络模型，该数据集是用于运动行为分类的视频集。应用该模型提取C3D特征，每连续L帧图像可得到4096维向量的特征表示，整段视频的C3D特征最终表示为N×4096的矩阵。

4)音频特征提取算法

因为之前关于视频分析的研究主要集中在视觉和运动信息上，所以包括MSVD在内的许多视频数据集都不包含声音信息。然而音频特征也是视频的重要表示之一，它可能蕴含着视觉所获取不到的人事物信息，比如可以根据声音判断画面之外的人物的性别等。原始的MSVD数据集含有1970段消音视频，为了将音频信息加入本文的实验中，我们从YouTube上收集并下载了MSVD所包含的现存的所有视频，并通过剪辑和提取操作得到了共1600段音频信息。

音频特征中最具有代表性的就是梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)，它是通过将音频信号转换为梅尔频率并对其进行倒谱分析而获得的。除了MFCCs之外，还增加了过零率、短时能量等值，共34维的音频特征的详细信息见表2。

表2音频特征提取结果

为了将其应用于不定长音频特征提取，适应自然语言模型的输入要求，本文对原有的音频特征提取模型进行了改进。之前靠人工输入来设置的参数，如中期窗口大小(mid-term window)及步长(step)，现改进为由模型根据输入的音频长度自动设置。设音频总长度为L，N是自然语言生成模型中要求输入的视频特征的水平维度，则中期窗口大小和步长都设置为L/N。值得注意的是，在音频特征提取算法执行后，会得到两种类型特征，一种是短期特征，另一种是中期特征。中期特征是68维的，它是短期特征(34维)的两个统计量，即平均值和标准差的集合。为了获得更多信息，本文选择中期特征作为音频的表示，最终一段视频所包含的音频特征描述符是一个N×68的矩阵。

本发明收集了消音数据集的音频信息，建立了静态RGB特征、光流特征、三维卷积特征(C3D)和音频特征的提取模型。前三种特征都是使用CNNs提取的深度学习特征。同时，本发明改进了原始的三维卷积神经网络和音频特征提取模型，使它们能够适应后续自然语言模型的输入要求。同时，设计了大量实验分析对比这些特征的优缺点以及最优组合方式。实验结果表明，将这四种模态特征结合起来可以为视频提供更为全面的表示，更具有鲁棒性。

本发明在ABiVDN模型上设计了一系列特征不同组合方式的实验，实验结果同样表明，与光流特征以及C3D特征相比，音频信息在和静态RGB图像特征融合后可以生成更为准确的视频描述语句。这说明了将视觉信息与听觉信息相结合的重要性。在某些场合下，音频特征包含的信息会多于行为特征，比如一些画外音，如此便可为描述语句的生成提供一些潜在的线索，从而提高准确度。ABiVDN模型同样验证了尽可能多地使用各类特征可以生成匹配度更高的视频描述语句这一结论。例如，将RGB、光流和C3D特征作为整体输入后得到的结果高于仅将RGB与光流或C3D进行融合的结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于注意机制的视频描述生成模型，其特征在于，包括：多模态特征提取模块和自然语言生成模块，

所述多模态特征提取模块，用于提取视频特定类别的模态特征并针对每个特定类别输出特征序列向量；

所述自然语言生成模块包括若干个双向编码器和一个基于注意机制的解码器；所述双向编码器的个数与提取的特定类别的个数相同；

所述双向编码器，用于分别输入特定模态特征的特征序列向量并输出该特定模态特征对应的隐藏状态向量序列；所述基于注意机制的解码器包括一个多模态Attention机制以及一层单向LSTMs，所述一个多模态Attention机制用于融合编码器输入的各类模态特征隐藏状态序列，所述一层单向LSTMs用于将融合的状态序列解码为单词序列。

2.根据权利要求1所述的一种基于注意机制的视频描述生成模型，其特征在于，所述视频特定类别的模态特征包括RGB图像特征、光流特征、C3D特征以及音频特征。

3.根据权利要求1所述的一种基于注意机制的视频描述生成模型，其特征在于，所述多模态特征提取模块包括C3D特征提取模块，所述C3D特征提取模块为三维卷积神经网络，三维卷积神经网络模型的输入是H×W×L的矩形块，视频中每一帧都要重调大小为H×W，并且一次输入连续L帧；两次输入的连续帧块的覆盖范围C由整个视频中包含的帧数N以及三维CNNs一次输入的视频帧数量决定，公式如下：

C＝(80×L-N)/(N-1)。

4.根据权利要求1所述的一种基于注意机制的视频描述生成模型，其特征在于，所述多模态特征提取模块包括音频特征提取模块，所述音频特征提取模块将中期窗口大小和步长都设置为L/N，其中L是音频总长度L，N是自然语言生成模型中要求输入的视频特征的水平维度。

5.根据权利要求1所述的一种基于注意机制的视频描述生成模型，其特征在于，所述双向编码器包括两层LSTM单元和一层特征融合单元，所述两层LSTM单元分别计算输入特定模态特征序列的正向状态向量和反向隐藏状态向量，所述特征融合单元用于将输入特定模态特征序列的正向状态向量和反向隐藏状态向量按照时间步连接起来得到特定模态特征对应的隐藏状态向量序列。

6.根据权利要求1所述的一种基于注意机制的视频描述生成模型，其特征在于，所述一个多模态Attention机制，该机制在输入的状态向量之上定义了一组Attention权重，每种模态特征都被表示为所有隐藏状态向量的加权和，表示为c_j,i，其中j表示第j种特征，计算公式如下所示，

α_j,i,t是第i个输出与第j种特征的第t个隐藏状态向量(h_j,t)之间的Attention权重，N为隐藏状态向量数。

7.根据权利要求6所述的一种基于注意机制的视频描述生成模型，其特征在于，所述基于注意机制的解码器中的一层单向LSTMs，具体用于将单词对应Attention权重和每种模态特征都被表示为所有隐藏状态向量的加权和根据以下计算被结合成一个特征向量，表示为d_i，实现了多模态特征融合，

d_i＝W_c1c_1,i+W_c2c_2,i+…+W_cnc_n,i(n＝1,2…)，