CN109344288A

CN109344288A - 一种基于多模态特征结合多层注意力机制的结合视频描述方法

Info

Publication number: CN109344288A
Application number: CN201811092609.0A
Authority: CN
Inventors: 田玲; 罗光春; 惠孛; 刘贵松; 杨彬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-02-15
Anticipated expiration: 2038-09-19
Also published as: CN109344288B

Abstract

本发明公开了一种基于多模态特征结合多层注意力机制的结合视频描述方法，本发明首先统计描述语句中出现的单词，形成词汇表，并为每个词进行编号，方便进行向量表示。然后提取三种特征数据，包括语义属性特征、2D‑CNN提取的图像信息特征和3D‑CNN提取的视频运动信息特征，再通过多层注意力机制对其进行多模态数据动态融合，得到视觉信息，然后根据当前上下文，调整对视觉信息的使用；最后，根据当前上下文及视觉信息，生成视频描述的单词。本发明通过多层注意力机制对视频的多模态特征进行融合后，再基于此生成视频的语义描述，有效提升了视频描述的准确性。

Description

一种基于多模态特征结合多层注意力机制的结合视频描述方法

技术领域

本发明属于视频描述领域，具体涉及一种基于多模态特征结合多层注意力机制的结合视频描述方法。

背景技术

目前，使用给视频产生描述语句的方案主要分为基于模版的语言方法和序列学习方法。

其中，基于模板的语言方法首先将每个句子片段(例如，主语，动词，宾语)与来自可视内容的检测到的单词对齐，然后用预定义语言模板生成高度依赖于句子模板的句子。使用此方法生成的句式单一，不能生成语言模版之外的语句。

而序列学习方法则是通过设计一个编码-解码网络，首先利用CNN(卷积神经网络)对视频进行编码，然后通过RNN(循环神经网络)对其进行解码产生描述语句，由于RNN本身的性质使得它十分适用于产生自然语言语句。目前，注意力机制已经被广泛应用到序列学习方法中，然而，目前对注意力机制的使用仅仅局限在对视频提取特征后的单一模态特征中，而忽略了视频本身的多模态特征，因此，也使得注意力机制未能有效使用。

发明内容

本发明的发明目的在于：针对上述存在的问题，提出了一种基于多模态特征结合多层注意力机制的结合视频描述方法，针对视频提取多模态数据特征并结合注意力机制进行多模态数据融合，生成语义描述。

本发明的基于多模态特征结合多层注意力机制的结合视频描述方法，包括下列步骤：

步骤1：数据预处理：

统计描述语句中出现的单词，形成词汇表，并为词汇表中的每个单词编号；

对每个单词进行编码，得到每个单词的二进制向量表示；

步骤2：提取多源数据特征：

通过二维卷积神经网络提取视频中的图像信息的特征，得到第一特征信息其中N₁表示提取的图像信息的特征数量；

通过三维卷积神经网络提取视频中的运动信息的特征，得到第二特征信息其中N₂表示提取的运动信息的特征数量；

提取视频中的视频语义属性的特征，得到第三特征信息其中N₃表示提取的视频语义属性的特征数量；

其中，特征信息X∈{F,V,A}的各特征维度相同，即特征和的特征维度相同，i₁＝1,…,N₁，i₂＝1,…,N₂，i₃＝1,…,N₃；

步骤3：通过多层注意力机制来进行多模态数据动态融合：

步骤301：采用注意力机制分别关注三类特征信息F、V和A，得到产生第t个单词时的关注后的特征信息F^(t)、V^(t)和A^(t)；

其中，t个时刻关注后的特征信息特征数N∈{N₁,N₂,N₃}，表示第i个特征X_i的当前注意力权重，且

t个时刻的注意力权重向量的计算方式为：α^(t)＝softmax(e^(t))，其中e^(t)表示通过LSTM网络的隐藏状态和特征信息X产生的未正规化权重，且e^(t)＝w_X·tanh(W_Xh^(t-1)+U_XX+b_X)，其中w_X、W_X、U_X和b_X表示LSTM网络的输入为特征信息X时的网络参数，U_X表示输入层到隐藏层的权重矩阵，W_X表示隐藏层到隐藏层的权重矩阵，w_X表示隐藏层到输出层的权重向量，b_X表示偏置项，均通过网络训练得到，训练样本的特征信息对应特征信息X；h^(t-1)表示LSTM网络在t-1时刻的隐藏状态；

步骤302：拼接三类特征信息F^(t)、V^(t)和A^(t)，得到特征拼接矩阵F_u＝[F^(t)；V^(t)；A^(t)]；

计算通过LSTM网络的隐藏状态和特征拼接矩阵F_u产生的未正规化权重ε^(t)＝w·tanh(Wh^(t-1)+UX+b)，其中w、W、U和b表示LSTM网络的输入为F_u时的网络参数，U表示输入层到隐藏层的权重矩阵，W表示隐藏层到隐藏层的权重矩阵，w表示隐藏层到输出层的权重向量，b表示偏置项，均通过网络训练得到，训练样本的特征信息对应特征拼接矩阵F_u；h^(t-1)表示LSTM网络在t-1时刻的隐藏状态；

基于当前正规化权重ε^(t)计算各类特征的融合权重β^(t)＝softmax(ε^(t))；

基于各类特征的融合权重，对矩阵F_u按照特征维度进行加权融合，得到t个时刻的视觉信息

步骤4：根据公式Z^(t)＝γ^(t)W_zFu^(t)+(1-γ^(t))U_zh^(t-1)对视觉信息进行调整，得到调整后的视觉信息Z^(t)；

其中，W_z表示对应的输入层到隐藏层的权重矩阵，U_z表示对应的隐藏层到隐藏层的权重矩阵；γ^(t)表示自适应权重，即通过上下文信息确定的下一个单词所需要的视觉信息的权重，用公式可以表示为γ^(t)＝σ(W_qh^(t-1)+b_q)，W_q表示权重矩阵，b_q表示偏置项，σ()为sigmoid激活函数；其为对应的网络参数，基于训练得到，在实时计算自适应权重γ^(t)时，W_q、b_q可视为预设值；

步骤5：将调整后的视觉信息Z^(t)与上一次产生的单词对应的向量y^(t-1)输入到LSTM中，得到词汇表中每个词作为当前产生的单词的概率，选取概率最大的单词作为当前产生的单词(第t个单词)，并判断当前产生的单词是否为结束符，若是，则终止，否则继续执行步骤3，产生下一个单词。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明通过多层注意力机制对视频的多模态特征进行融合后，再基于此生成视频的语义描述，以有效提升视频描述的准确性。

附图说明

图1为整个方法的架构示意图；

图2为采用注意力关注2D-CNN提取的特征示意图；

图3为视觉信息动态调整示意图；

图4为LSTM产生单词的网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明针对视频提取多模态数据特征并结合注意力机制进行多模态数据融合，生成语义描述的具体步骤如下：

S1.数据预处理。

对视频描述的语句的句子进行分词处理，并统计所有出现的单词，形成词汇表V；然后向词汇表V中加入单词<Start>和单词<End>作为句子的开始符和结束符；同时，在每个视频描述语句句首加入<Start>，句末加上<End>。

然后对每个单词进行编码，得到每个单词的二进制向量表示。即将每个单词以one-hot(一位有效编码)的形式来表示。例如，词汇表V的大小为N_voc，则每个单词将给定一个编号，其编号范围为[0,N_voc]，对于编号为4的单词，其one-hot形式为：[0,0,0,0,1,0,…,0]。并将<Start>和<End>的编号分别指定为0和1。

S2.提取多源数据特征。

提取视频中图像信息的特征、视频中运动信息的特征以及视频语义属性的特征，每种特征的具体提取方案如下：

S21.提取图像信息特征：

对每个视频，只对每个视频的前部分帧图像进行图像信息特征提取。例如只对视频的前240帧图像提取图像信息特征；

从待处理的视频序列中挑选出一定数量的代表性帧，并将其输入到训练好的VGG(VisualGeometry Group)网络中进行图像信息特征提取，得到的图像信息特征即为2D-CNN提取的特征。

例如对待处理的视频序列进行等间距划分，每份取一帧图像，得到对应的代表性帧，优选为各代表性帧的帧间隔相同；

本具体实施方式中，采用的VGG网络是已经使用ImageNet ILSVCRC12数据集训练好的19层卷积神经网络，且使用第6个全连接层(fc6)的输出获得图像信息特征表示，即4096维特征表示。若设置代表性帧的帧数为24个，则最终获得24个4096维向量。

S22.提取视频的运动信息特征：

对每个视频，只对每个视频的前部分帧图像进行运动信息特征提取。

将待处理的视频序列均分为多个视频片段，再将每个视频片段输入到训练好的C3D网络(3维卷积网络)中提取视频的运动信息特征，得到的视频的运动信息特征即为3D-CNN提取的特征；

本具体实施方式中，采用的C3D网络是已经使用Sports-1M视频数据集训练好的模型，且从C3D网络的fc6层中获取4096维特征。即所获取的特征维度与步骤S21的相同。

若只考虑前240帧图像，并将每24帧作为一个视频片段，即可获得10个视频片段。将每个视频片段输入到C3D网络中提取特征，并且从C3D网络的fc6层中获取4096维特征。最终，获得10个4096为向量。

S23.提取语义属性特征；

首先，设置语义属性集合，即从惯用的图像数据集中选择出现最频繁前Q个单词作为从图像中学习的语义属性集合，本具体实施中，从微软COCO数据集选择出现最频繁的1000个单词作为从图像中学习的语义属性集合；

基于所述语义属性集合，对每个视频的前部分帧图像进行语义属性特征提取，得到每个视频的语义属性特征(MIL Model特征)。

本具体实施方式中，只考虑每个视频的前240帧图像，即在提取上述三种属于特征时，所提取的视频序列相同；然后再采用Pan提出的方法(具体可参考文献《Pan Y,Yao T,LiH,et al.Video captioning with transferred semantic attributes[C]//CVPR.2017》)，提取视频的语义属性。

S3.通过多层注意力机制来进行多模态数据动态融合。

将步骤S2中2D-CNN提取的特征、3D-CNN提取的特征和提取的语义属性特征进行融合。具体步骤如下：

S31.通过注意力机制关注2D-CNN提取的特征；其过程如图2所示，假设2D-CNN提取的特征F为[F₁,F₂,…,F_n]，其中n表示提取的特征数量，并假设在产生第t时刻(即产生第t个单词的时刻)的时候，其注意力权重为则通过注意力机制关注后的特征为：

其中，F^(t)表示在t时刻2D-CNN经过注意力机制关注后的特征。对于注意力权重有其计算方式为，首先通过LSTM(Long Short-Term Memory，长短期记忆)网络的隐藏状态和2D-CNN的特征产生未正规化的权重：

其中，w_f、W_f、U_f和b_f为LSTM的网络参数，其中U_f表示输入层到隐藏层的权重矩阵，W_f表示隐藏层到隐藏层的权重矩阵，w_f表示隐藏层到输出层的权重向量，_f表示偏置项，均通过网络训练获得；h^(t-1)为LSTM网络在t-1时刻的隐藏状态。

基于未正规化的权重通过其的归一化指数函数得到到注意力权重

S32.通过注意力机制关注3D-CNN提取的特征；其过程原理和步骤S31一样，首先假设通过3D-CNN提取的特征V为[V₁,V₂,…,V_n]，在t时刻，其注意力权重为则通过注意力关注之后的特征为：

类似的，其注意力权重的计算方式为首先计算未正规化的权重：

其中w_v、W_v、U_v和b_v是LSTM的网络参数，然后，通过softmax函数获得注意力权重：

S33.通过注意力机制关注语义属性；其过程原理和步骤S31亦相同，首先设语义属性A为[A₁,A₂,…,A_n]，在t时刻，其注意力权重为则通过注意力关注之后的特征为：

其中w_a、W_a、U_a和b_a是LSTM的网络参数，然后，通过softmax函数获得注意力权重：

S34.将步骤S31获得的特征F^(t)、步骤S32获得的特征V^(t)和步骤S33获得的特征A^(t）通过注意力机制进行动态融合。

首先将这三种特征进行拼接，得到Fu＝[F^(t)；V^(t)；A^(t)]；

然后通过注意力权重将这三种特征进行融合：其中表示三种特征各自的融合权重，Fu_i表示各类对应的特征，即在特征维度上进行加权融合，每类特征的权重为

ε^(t)＝w·tanh(Wh^(t-1)+UFu+b)

其中w、W、U和b是LSTM的网络参数，然后通过softmax函数获得注意力权重：

β^(t)＝softmax(ε^(t))

S4.调整视觉信息的使用。

步骤S34得到的结果Fu^(t)为在产生第t个词时所需要的视觉信息，由于并不是所有的词均需要视觉信息来产生，因此，通过一个自适应权重来调节视觉信息的使用。其网络结构如图3所示，其具体步骤如下：

S41.获得自适应权重；通过上下文信息来决定下一个单词所需要的视觉信息的权重：

γ^(t)＝σ(W_qh^(t-1)+b_q)

其中，W_d和b_d是网络的参数，即W_d表示隐藏层间权重矩阵，b_d表示偏置项，σ是sigmoid激活函数。

S42.调整视觉信息及上下文；通过S41的权重调整视觉信息及上下文信息，具体实现为：

Z^(t)＝γ^)t)W_zFu^(t)+(1-γ^(t))U_zh^(t-1)

其中，W_z和U_z是网络的参数，即对应的权重矩阵。

S5.产生一个单词。

将步骤S42得到的结果Z^(t)和上一次产生的单词对应的向量y^(t-1)输入到LSTM中产生下一个单词，如图4所示为LSTM网络架构，具体而言，通过在LSTM的输出加上softmax层得到对词汇表中每个词的概率，然后选取最大概率对应的词作为产生的词。其详细步骤为：

S51.更新遗忘门fg，更新公式为：

fg^(t)＝σ(U_fgh^(t-1)+W_fgZ^(t)+T_fgy^(t-1)+b_fg)

S52.更新输入门ig和部分状态s，更新公式为：

ig^(t)＝σ(U_igh^(t-1)+W_igZ^(t)+T_igy^(t-1)+b_ig)

s^(t)＝tanh(U_sh^(t-1)+W_sZ^(t)+T_sy^(t-1)+b_s)

S53.更新细胞状态C，更新公式为：

C^(t)＝C^(t-1)⊙fg^(t)+ig^(t)⊙s^(t)

S54.更新输出门og和输出h：

og^(t)＝σ(U_ogh^(t-1)+W_ogZ^(t)+T_ogy^(t-1)+b_og)

h^(t)＝og^(t)⊙tanh(C^(t))

S55.将输出转化为词汇表中所有词的概率p^(t)，计算公式为：

p^(t)＝softmax(W_ph^(t)+b_p)

其中，所有W_x、U_x、W_x和b_x是LSTM网络中的参数，x是变量的下标，在上述公式中x可取的集合为{fg,ig,s,og,p}；是LSTM网络中的参数的具体值基于训练得到，可实际运算处理时，可视为预设值。⊙表示逐元素相乘。

本具体实施方式中，对于LSTM网络，其隐藏层单元设置为512。例如，通过步骤S1所获得的单词表大小为100，并设这些单词的编号为0到99，<Start>和<End>的编号分别为0和1。而h^(t)是一个512维的向量，为了通过该512维的向量产生单词表中每个词的概率，首先需要将维度统一。因此，首先通过参数W_p将h^(t)转化为100维(即转化为和词汇表大小相同的维度)；设p_w＝W_ph^(t)+b_p，则此时的p_w为100的向量，且其中的每一维的大小，代表着当前产生该维所对应的单词的“可能性”，这个“可能性”并不是概率，但是它标志着，若该某维的值大，则产生该维对应的单词的可能性大，反之则产生该维对应的单词的可能性小，最后，通过softmax函数将该“可能性”转换为概率。然后，选取概率最大的单词作为产生的单词。例如，若最后得到概率为：p^(t)＝[0.003,0.015,0.024,0.013,0.381,…,0.037，可以看到索引为4的维度对应的值为0.381，是p^(t)中值最大的，因此，在词汇表中，索引为4的单词即为当前所产生的单词。

若本次产生的单词是<End>，则终止，否则进入步骤S3。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于多模态特征结合多层注意力机制的结合视频描述方法，其特征在于，包括下列步骤：

步骤1：数据预处理：

对每个单词进行编码，得到每个单词的二进制向量表示；

步骤2：提取多源数据特征：

其中，三类特征信息中的各特征的特征维度相同；

步骤3：通过多层注意力机制来进行多模态数据动态融合：

步骤301：采用注意力机制分别关注三类特征信息F、V和A，得到当前关注后的特征信息F^(t)、V^(t)和A^(t)，其中t表示当前时刻；

其中，当前关注后的特征信息X∈{F,V,A}，特征数N∈{N₁,N₂,N₃}，表示第i个特征X_i的当前注意力权重，且

当前注意力权重向量的计算方式为：α^(t)＝softmax(e^(t))；

其中e^(t)表示通过LSTM网络的隐藏状态和特征信息X产生的未正规化权重，且e^(t)＝w_X·tanh(W_Xh^(t-1)+U_XX+b_X)，其中h^(t-1)表示LSTM网络在上一时刻的隐藏状态，w_X、W_X、U_X和b_X表示LSTM网络的输入为特征信息X时的网络参数，U_X表示输入层到隐藏层的权重矩阵，W_X表示隐藏层到隐藏层的权重矩阵，w_X表示隐藏层到输出层的权重向量，b_X表示偏置项；

计算通过LSTM网络的隐藏状态和特征拼接矩阵F_u产生的未正规化权重ε^(t)＝w·tanh(Wh^(t-1)+UX+b)，其中w、W、U和b表示LSTM网络的输入为F_u时的网络参数，U表示输入层到隐藏层的权重矩阵，W表示隐藏层到隐藏层的权重矩阵，w表示隐藏层到输出层的权重向量，b表示偏置项；

基于各类特征的融合权重，对矩阵F_u按照特征维度进行加权融合，得到当前视觉信息

其中，γ^(t)表示通过上下文信息所确定的下一个单词所需要的视觉信息的权重，W_z表示对应的输入层到隐藏层的权重矩阵，U_z表示对应的隐藏层到隐藏层的权重矩阵；

步骤5：将调整后的视觉信息Z^(t)与上一次产生的单词对应的向量y^(t-1)输入到LSTM中，得到词汇表中每个词作为当前产生的单词的概率，选取概率最大的单词作为当前产生的单词，并判断当前产生的单词是否为结束符，若是，则终止，否则继续执行步骤3，产生下一个单词。

2.如权利要求1所述的方法，其特征在于，提取视频中的图像信息的特征具体为：从待处理的视频序列中挑选出一定数量的代表性帧，并将其输入到训练好的VGG网络中，基于VGG网络的全连接层的输出获得图像信息特征表示。

3.如权利要求1所述的方法，其特征在于，提取视频中的运动信息的特征具体为：将视频的前部分帧图像作为待处理的视频序列，将待处理的视频序列均分为多个视频片段，再将每个视频片段输入到训练好的三维卷积神经网络中，基于三维卷积神经网络的全连接层的输出获得运动信息的特征表示。