CN110826397B

CN110826397B - 一种基于高阶低秩多模态注意力机制的视频描述方法

Info

Publication number: CN110826397B
Application number: CN201910891869.2A
Authority: CN
Inventors: 金涛; 李英明; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-07-26
Anticipated expiration: 2039-09-20
Also published as: CN110826397A

Abstract

本发明公开了一种基于高阶低秩多模态注意力机制的视频描述方法，用于为给定视频片段生成简短准确的描述。具体包括如下步骤：获取用于训练视频描述生成模型的视频数据集，并定义算法目标；对视频数据集中的时序多模态特征建模；基于时序多模态特征在解码器上建立高阶低秩多模态注意力机制；使用所述模型生成输入视频的描述。本发明适用于真实视频场景的视频描述生成，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于高阶低秩多模态注意力机制的视频描述方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于高阶低秩多模态注意力机制的视频描述方法。

背景技术

在现今社会，视频变成了人类社会不可或缺的一部分，可以说无处不在。这样的环境使得人们对于视频语义内容的研究也得到了很大的发展，目前对于视频的大多数研究主要集中在较低层次，比如分类，检测等。得益于循环神经网络的发展，视频描述生成这个新的任务也映入了人们的眼帘。给定一个视频片段，使用经过训练得到的网络模型，自动为视频片段生成一句描述。其在现实社会的应用也很广泛，比如，YouTube上每分钟会产生大约100个小时的视频，如果产生的视频资源没有被很好地标记，那么这些资源就没法被充分的利用，所以视频描述对于网上视频的搜索和检索有着至关重要的作用。此外，视频描述也使得“盲人电影”有了很好的发展，让盲人也能“观看”电影。

现有的视频描述生成方法大都采用编码器-解码器结构，使用编码器提取视频数据的信息并转化为特征，使用解码器将特征解码为语句描述。对于视频数据，编码器一般使用卷积神经网络与循环神经网络相结合的形式，提取的特征为时序多模态特征。解码器一般使用单独的循环神经网络结合注意力机制，但目前的注意力机制都忽略了多模态特征之间的关联信息，这会对视频描述的精度产生影响。

发明内容

为解决上述问题，本发明提供了一种基于高阶低秩多模态注意力机制的视频描述生成方法，用于总结给定视频的主要内容并生成准确的描述。本发明的方法在模型的编码器阶段提取了时序多模态特征；在解码器阶段，为多种时序特征建立了相互关联的高阶低秩注意力机制。本方法充分利用了视频数据中的多种模态以及相互的关联信息，能够为待测视频生成更加准确的描述。

为实现上述目的，本发明的技术方案为：

一种基于高阶低秩多模态注意力机制的视频描述方法，包括以下步骤：

S1、获取用于训练模型的视频数据集，所述视频数据集包括多个样本视频，并定义算法目标；

S2、对所述视频数据集中每个样本视频的时序多模态特征建模，得到样本视频的时序多模态特征，包括图像特征，运动特征，和音频特征；

S3、通过所述时序多模态特征在解码器上建立高阶低秩多模态注意力机制，基于样本视频的特征建立描述生成模型；

S4、使用所述描述生成模型生成输入视频的描述。

进一步的，步骤S1中，所述的视频数据集包括样本视频集X_train以及人工标注的视频描述集Y_train；

定义算法目标为：给定样本视频x＝{x₁,x₂,…,x_L}，生成此视频的描述语句y＝{y₁,y₂,…,y_N}；其中，x_l代表第l个视频块，每个视频块包含固定的视频帧数且可以有重叠，L代表总视频块数,y_n代表描述语句的第n个单词，N代表描述语句长度。

进一步的，步骤S2具体包括：

S21、将样本视频的每一个视频块x_l中的中心图像输入二维卷积神经网络,提取该视频块的图像特征F＝{f₁,f₂,…,f_L}；将每一个视频块x_l输入三维深度卷积神经网络，得到该视频块的运动特征M＝{m₁,m₂,…,m_L}；将每一个视频块x_l输入音频卷积神经网络，得到该视频块的音频特征S＝{s₁,s₂,…,s_L}；

S22、将提取的时序多模态特征输入由循环神经网络构成的解码器。

进一步的，步骤S3具体包括：

S31、根据循环神经网络的输出h_t，对步骤S21中得到的时序多模态特征建立注意力机制，首先关联h_t与所有特征，其中W_f,U_f,b_f,W_m,U_m,b_m,W_s,U_s,b_s是训练变量：

f′_t,i＝tanh(W_fh_t+U_ff_i+b_f) 公式(1)

m′_t,j＝tanh(W_mh_t+U_mm_j+b_m) 公式(2)

s′_t,k＝tanh(W_sh_t+U_ss_k+b_s) 公式(3)

进而得到F′_t＝{f′_t,1,f′_t,2,…,f′_t,L}，M′_t＝{m′_t,1,m′_t,2,…,m′_t,L}，S′_t＝{s′_t,1,s′_t,2,…,s′_t,L}；

S32、根据得到的关联特征，计算图像特征各个时刻i的注意力权重：

其中w_f,

是训练变量，R代表秩，⊙代表点乘；

之后，计算运动特征各个时刻j的注意力权重，其中w_m,

是训练变量：

最后，计算音频特征各个时刻k的注意力权重，其中w_s,

是训练变量：

S33、根据计算得到的注意力权重，计算各种特征的加权平均值

S34、使用步骤S31-S33中得到的所有信息预测每个时刻的单词概率分布p_t，

S35、使用N个时刻积累的交叉熵损失函数训练描述生成模型，

其中

代表t时刻正确单词的概率，使用Adam优化算法和反向传播算法在损失函数L下训练整个描述生成模型。

进一步的，步骤S4中，使用所述训练好的模型为输入视频生成描述。

本发明的基于高阶低秩多模态注意力机制的视频描述方法，相比于现有的视频描述生成方法，具有以下有益效果：

首先，本发明引入多种视频特征之间的关联信息在解码器上建立多模态注意力机制，各种特征之间可以提供互补信息。

其次，本发明引入了低秩版本的多模态注意力机制，使得训练的效率大大提升。

本发明的视频描述方法，在智能视频分析系统里具有良好的应用价值，能够有效提高视频描述生成的准确度。例如，在视频类网站里，本发明的视频描述生成方法可以快速和准确地为视频片段生成准确的描述，为用户快速搜索视频提供方便。

附图说明

图1为本发明的基于高阶低秩多模态注意力机制的视频描述方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，基于高阶低秩多模态注意力机制的视频描述生成方法，包括以下步骤：

首先，获取用于训练视频描述生成模型的视频数据集。其中，所述的视频数据集包括样本视频集X_train以及人工标注的视频描述集X_train；

定义算法目标为：给定样本视频x＝{x₁,x₂,…,x_L}，生成此视频的描述语句y＝{y₁,y₂,…,y_N}；其中，x_l代表第l个视频块，每个视频块包含固定的视频帧数且可以有重叠，L代表总视频块数，y_n代表描述语句的第n个单词，N代表描述语句长度。

其次，对视频数据集中的时序多模态特征建模。具体的，其包括如下步骤：

第一步，将样本视频的每一个视频块x_l中的中心图像输入二维卷积神经网络,提取该视频块的图像特征F＝{f₁,f₂,…,f_L}；将每一个视频块x_l输入三维深度卷积神经网络，得到该视频块的运动特征M＝{m₁,m₂,…,m_L}；将每一个视频块xl输入音频卷积神经网络，得到该视频块的音频特征S＝{s₁,s₂,…,s_L}；

第二步，将提取的时序多模态特征输入由循环神经网络构成的解码器。

之后，基于时序多模态特征在解码器上建立注意力机制。具体包括：

第一步，根据循环神经网络的输出h_t，对前面步骤中得到的时序多模态特征建立注意力机制，首先关联h_t与所有特征，其中

W_f,U_f,b_f,W_m,U_m,b_m,W_s,U_s,b_s是训练变量：

f′_t,i＝tanh(W_fh_t+U_ff_i+b_f) 公式(1)

m′_t,j＝tanh(W_mh_t+U_mm_j+b_m) 公式(2)

s′_t,k＝tanh(W_sh_t+U_ss_k+b_s) 公式(3)

第二步，根据得到的关联特征，计算图像特征各个时刻i的注意力权重：

其中w_f,

是训练变量，R代表秩，⊙代表点乘；

之后，计算运动特征各个时刻j的注意力权重，其中w_m,

是训练变量：

最后，计算音频特征各个时刻k的注意力权重，其中w_s,

是训练变量：

第三步，根据计算得到的注意力权重，计算各种特征的加权平均值

第四步，使用前三步得到的所有信息预测每个时刻的单词概率分布p_t，

第五步，使用N个时刻积累的交叉熵损失函数训练描述生成模型，

其中

代表t时刻正确单词的概率，使用Adam优化算法和反向传播算法在损失函数L下训练整个神经网络。

最后，使用所述模型生成输入视频的描述。

上述实施例中，本发明的视频描述生成方法使用了多种视频特征之间的互补信息在解码器上建立了一种新的多模态注意力机制。最后，利用训练好的模型给未标记的视频生成描述。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种应用于未加工视频的视频描述生成方法算法。本发明引入多种视频特征之间的关联信息在解码器上建立了一种新的多模态注意力机制，从而使得视频描述生成更加详细与准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高阶低秩多模态注意力机制的视频描述生成方法，其特征在于，包括以下步骤：

S1、获取用于训练视频描述生成模型的视频数据集，所述视频数据集包括多个样本视频，并定义算法目标；

S2、对所述视频数据集中每个样本视频的时序多模态特征建模，得到样本视频的时序多模态特征，包括图像特征，运动特征，和音频特征，具体包括：

S21、将样本视频的每一个视频块x_l中的中心图像输入二维卷积神经网络，提取该视频块的图像特征F＝{f₁，f₂，...，f_L}；将每一个视频块x_l输入三维深度卷积神经网络，得到该视频块的运动特征M＝{m₁，m₂，...，m_L}；将每一个视频块x_l输入音频卷积神经网络，得到该视频块的音频特征S＝{s₁，s₂，...，s_L}；

S22、将提取的时序多模态特征输入由循环神经网络构成的解码器；

S3、通过所述时序多模态特征在解码器上建立高阶低秩多模态注意力机制，基于样本视频的特征建立描述生成模型，具体包括：

S31、根据循环神经网络的输出h_t，对步骤S21中得到的时序多模态特征建立注意力机制，首先关联h_t与所有特征，其中W_f，U_f，b_f，W_m，U_m，b_m，W_s，U_s，b_s是训练变量：

f′_t，i＝tanh(W_fh_t+U_ff_i+b_f) 公式(1)

m′_t，j＝tanh(W_mh_t+U_mm_j+b_m) 公式(2)

s′_t，k＝tanh(W_sh_t+U_ss_k+b_s) 公式(3)