CN109101948A

CN109101948A - 一种基于时空及通道的多注意力机制视频描述方法

Info

Publication number: CN109101948A
Application number: CN201810988895.2A
Authority: CN
Inventors: 徐杰; 李林科; 田野; 王菡苑
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2018-12-28
Anticipated expiration: 2038-08-28
Also published as: CN109101948B

Abstract

本发明公开了一种基于时空及通道的多注意力机制视频描述方法，通过CNN网络对视频进行视频特征提取，再基于多注意力网络对视频特征和编码上一时刻的输出进行计算，从而得到视频特征在时域、空域及通道上的注意力权重，再将得三组权重再次与视频特征进行计算得到融合的特征，这样我们就能得到更加有效的视频特征，最后将融合的特征行编码输出，得到与视频内容更加一致的描述。

Description

一种基于时空及通道的多注意力机制视频描述方法

技术领域

本发明属于光通信技术领域，更为具体地讲，涉及一种基于时空及通道的多注意力机制视频描述方法。

背景技术

视频描述是计算机视觉和自然语言处理两个领域的研究，近年来受到了极大的关注。Venugopalan在2014年出了基于“编码-解码”框架的视频描述模型。论文中的编码模型首先对视频单帧利用CNN提取特征，然后分别采取了均值池化和时序编码的两种编码模型。虽然该模型成功的应用在了视频描述中，但视频描述模型仍存在以下一些问题：

第一个问题是没有对视频特征进行有效的利用。论文中视频特征只在首次解码时使用，而后续时刻并未利用到视频特征，这导致了当时序增加时视频特征对于单词预测的影响减弱，由此会使模型语句生成能力的降低。

对于该问题一种直接的解决方法是每次都将视频特征加入，但视频特征由于是连续多张的图像，如果每时刻仍用均值池化的方式送入解码模型，显然这样仍没有有效的对视频特征进行利用。

Kelvin Xu在图像描述上提出了注意力机制的图像描述模型，通过注意力机制在每次预测单词之前会对每个图像的每个区域进行权重分配，这使得每次预测时使用的特征是不同的，利用该思想，论文提出了基于时域注意力机制的视频描述模型。其模型在每一次进行单词预测时，对所有视频帧的特征分配权重并求和，实验表明，这样能够有效的利用视频的特征信息。

第二个问题是视觉内容特征与语句描述的一致性问题。第一个问题虽然使用基于时域注意力的方法提升了视频特征的利用，但是更深一步来说，这种方式仍未充分的对视频特征和语句描述之间的关系进行建模，由此带来的第二问题就是如何保证视觉内容特征语句描述的一致性。

视频描述任务在基于深度学习的方法下得到了突破性的发展，同时基于视觉注意力机制的技术也成功的应用于视频描述模型，有效的解决了上面所说的第一个问题。

视觉注意力机制广泛的应用于图像视频描述任务中，其主要依据是人类视觉并不会一次性处理整个视觉输入，而是只会关注重要的部分信息。基于这样一个合理的假设，目前的描述模型通常不会使用图像或视频的静态编码特征，而是通过注意力利用句子上下文信息动态提取图像特征。因此视觉注意力是一种在整个时序上结合上下文信息动态提取特征的编码机制。目前的注意力机制主要有基于时域和空域的注意力机制，在此基础之上，我们这两种注意力机制做更进一步的改进，利用CNN网络的本质特性，提出了通道注意力。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于时空及通道的多注意力机制视频描述方法，充分利用视频的各种特征，保证视觉特征和语句描述的一致性，提升模型效果。

为实现上述发明目的，本发明一种基于时空及通道的多注意力机制视频描述方法，其特征在于，包括以下步骤：

(1)、从视频库中随机提取M部视频，再将M部视频同时输入至神经网络CNN；

(2)、训练基于注意力机制的神经网络LSTM

设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，h₀初始化为0向量；

(2.1)、利用神经网络CNN提取第I部视频的视频特征f_CNN(I)；

f_CNN(I)＝V_I

其中，V_I＝{v₁,v₂,…,v_N}，N表示第I部视频的总帧数，v_i表示第i帧的视频特征，v_i∈R^K*K*C，K为CNN网络输出特征图大小，C为CNN网络输出特征图的通道数量，其大小由网络结构决定；

(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重

在当前时刻t，对第i帧视频特征v_i进行空间转换，得到v_i＝{r_i1,r_i2,…r_ij,…,r_ik}，r_ij表示第i帧视频的j个区域特征，j＝1,2,…,k；

再利用r_ij计算空域注意力权重

其中，W_att-s，U_att-t，b_att-s为LSTM待训参数；

(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β；

将第I部视频的视频特征V_I变换为U_I，U_I＝{u₁,u₂,…,u_C}，再对U_I进行平均池化，得到当前时刻t时第I部视频的通道特征向量其中，ζ_C是u_C的平均值，表示的是该通道特征值；

则当前时刻t时的通道注意力权重β^t为：

β^t＝softmax(W'b^t+b')

其中，表示外积，表示对矩阵和向量进行广播上的相加，W_att-c，b_c，W_hc，W'，b'为LSTM待训参数；

(2.4)、计算第I部视频在当前时刻t时的时域注意力权重

对第I部视频的视频特征V_I进行池化，得到V_I'＝{v₁',v'₂,…,v'_N}，再计算当前时刻t时的时域注意力权重

其中，W_att-t，U_att-t，b_att-t为LSTM待训参数；

(2.5)、将步骤(2.2)-(2.4)中得到的三个权重因子，分别作用到V上，得到第I部视频在当前时刻t时的输入特征z^t；

(2.6)、将h_t-1,z^t,w_t-1送入LSTM网络中，得到当前时刻t时的LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z^t,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

其中，W_e,b为LSTM待训参数；w_t-1表示的是单词y_t-1的词向量，p_t表示单词的概率分布；

(2.7)、同理，按照步骤(2.1)-(2.6)所述方法，并行处理其余部视频，得到其余部视频在当前时刻t时的LSTM输出和单词输出；

(2.8)、令t＝t+1，按照步骤(2.1)-(2.7)所述方法并行处理M部视频，得到M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM输出和单词输出；

(2.9)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数；

其中，P_It表示当前时刻t时第I部视频中单词的概率分布，Ω表示LSTM中所有待训参数；

(2.10)、利用梯度下降算法求解模型损失函数，以达到最小化损失，从而得到新参数Ω^*；

Ω^*＝argmaxL_y

其中，Ω^*表示神经网络LSTM中所有训练后得到的新参数；再用Ω^*更新Ω更新为Ω^*，结束本次训练；

(2.11)、重复步骤(1)-(2.10)，完成神经网络LSTM的H次训练，得到训练好的神经网络LSTM；

(3)、将待检测视频按照步骤(2.1)-(2.5)所述方法进行处理，将处理后的结果作为LSTM的输入特征，并输入至LSTM，预测出每一时刻的单词y_t，再将每一时刻的单词按顺序输出：sentence＝{y₁,y₂,......,y_T}，得到待检测视频的语义描述。

本发明的发明目的是这样实现的：

本发明一种基于时空及通道的多注意力机制视频描述方法，通过CNN网络对视频进行视频特征提取，再基于多注意力网络对视频特征和编码上一时刻的输出进行计算，从而得到视频特征在时域、空域及通道上的注意力权重，再将得三组权重再次与视频特征进行计算得到融合的特征，这样我们就能得到更加有效的视频特征，最后将融合的特征行编码输出，得到与视频内容更加一致的描述。

同时，本发明一种基于时空及通道的多注意力机制视频描述方法还具有以下有益效果：

(1)、通过使用多注意力机制的方法对视频特征进行提取，相比于传统方法中对视频进行均值池化的方式能够提取更有效的视频特征。

(2)、形成了端到端的描述模型，相比较于传统方法中需要先提取特征，再使用模板描述的两个步骤分开的方法，形成了同一的整体框架，简化处理步骤，提升效率，同时效果更好。

(3)、构建的模型为基于深度学习的模型框架，相比于传统方法中模板描述，模型能够根据大量的视频数据进行进一步的训练更新，从而实时提升效果，解决不同的情况。

附图说明

图1是本发明基于时空及通道的多注意力机制视频描述方法原理图；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于时空及通道的多注意力机制视频描述方法原理图。

在本实施例中，如图1所示，本发明一种基于时空及通道的多注意力机制视频描述方法，分别从时域、空域、通道对视觉特征进行强力而有效的提取，从而使得模型的表征能力更强，下面对其进行详细的介绍，具体包括以下步骤：

S1、从视频库中随机提取M部视频，再将M部视频同时输入至神经网络CNN；

S2、训练基于注意力机制的神经网络LSTM

S2.1、利用神经网络CNN提取第I部视频的视频特征f_CNN(I)；

f_CNN(I)＝V_I

S2.2、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重

再利用r_ij计算空域注意力权重

其中，W_att-s，U_att-t，b_att-s为LSTM待训参数；

S2.3、

计算第I部视频在当前时刻t时的通道注意力权重β；

则当前时刻t时的通道注意力权重β^t为：

β^t＝softmax(W'b^t+b')

S2.4、计算第I部视频在当前时刻t时的时域注意力权重

其中，W_att-t，U_att-t，b_att-t为LSTM待训参数；且满足：

S2.5、将步骤S2.2-S2.4中得到的三个权重因子，分别作用到V上，得到第I部视频在当前时刻t时的输入特征z^t；

S2.6、将h_t-1,z^t,w_t-1送入LSTM网络中，得到当前时刻t时的LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z^t,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

S2.7、同理，按照步骤S2.1-S2.6所述方法，并行处理其余部视频，得到其余部视频在当前时刻t时的LSTM输出和单词输出；

S2.8、令t＝t+1，按照步骤S2.1-S2.7所述方法并行处理M部视频，得到M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM输出和单词输出；

S2.9、利用T个时刻下的LSTM输出和单词输出建立模型损失函数；

S2.10、利用梯度下降算法求解模型损失函数，以达到最小化损失，从而得到新参数Ω^*；

Ω^*＝argmaxL_y

S2.11、重复步骤S1-S2.10，完成神经网络LSTM的H次训练，得到训练好的神经网络LSTM；

S3、将待检测视频按照步骤S2.1-S2.5所述方法进行处理，将处理后的结果作为LSTM的输入特征，并输入至LSTM，预测出每一时刻的单词y_t，再将每一时刻的单词按顺序输出：sentence＝{y₁,y₂,......,y_T}，得到待检测视频的语义描述。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于时空及通道的多注意力机制视频描述方法，其特征在于，包括以下步骤：

(2)、训练基于注意力机制的神经网络LSTM

(2.1)、利用神经网络CNN提取第I部视频的视频特征f_CNN(I)；

f_CNN(I)＝V_I

其中，V_I＝{v₁,v₂,…,v_N}，N表示第I部视频的总帧数，v_i表示第i帧的视频特征，v_i∈R^K ^*K*C，C为CNN网络输出特征图的通道数量，其大小由网络结构决定；

再利用r_ij计算空域注意力权重

其中，W_att-s，U_att-t，b_att-s为LSTM待训参数；

(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β；

则当前时刻t时的通道注意力权重β^t为：

β^t＝softmax(W'b^t+b')

(2.4)、计算第I部视频在当前时刻t时的时域注意力权重

其中，W_att-t，U_att-t，b_att-t为LSTM待训参数；

(2.5)、将步骤(2.2)-(2.4)中得到的三个权权重因子，分别作用到V上，得到第I部视频在当前时刻t时的输入特征z^t；

h_t＝f_LSTM(h_t-1,z^t,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

(2.8)、令t＝t+1，按照步骤(2.1)-(2.7)所述方法并行处理M部视频，得到M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM输出和单词输出。

Ω^*＝argmaxL_y

2.根据权利要求1所述的基于时空及通道的多注意力机制视频描述方法，其特征在于，所述的时域注意力权重满足：