CN108024158A

CN108024158A - 利用视觉注意力机制的有监督视频摘要提取方法

Info

Publication number: CN108024158A
Application number: CN201711239795.1A
Authority: CN
Inventors: 冀中; 江俊杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-05-11

Abstract

本发明涉及有监督的视频摘要提取技术，为使得摘要的自动生成方式类似于人选取摘要的决策过程，摘要的结果更接近人类的语义理解。本发明采用的技术方案是，利用视觉注意力机制的有监督视频摘要提取方法，步骤如下：1)对原始视频作预处理后，对视频进行镜头检测，分割成若干个视频镜头作为后续摘要提取的候选镜头；2)然后提取每一视频帧的视觉特征作为视频帧序列的特征，编码器和解码器都采用LSTM模型处理视频帧序列，并在解码器部分引入视觉注意力机制，融合历史的解码序列作为当前解码的输入部分；3)利用解码的输出信息，并结合动态规划方法，得到关键镜头和关键帧，生成视频摘要。本发明主要应用于视频摘要场合。

Description

利用视觉注意力机制的有监督视频摘要提取方法

技术领域

本发明涉及有监督的视频摘要提取技术，具体讲,涉及利用视觉注意力机制的有监督视频摘要提取方法。

背景技术

视频摘要是指利用计算机技术分析视频结构、理解视频内容，并从原始的多媒体数据中选取具有代表性的、有意义的部分，将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。依据摘要的最终呈现形式，视频摘要通常分为两种形式：基于关键帧的静态视频摘要和基于关键镜头的动态视频摘要。

一直以来视频摘要提取是基于无监督学习，如图论、曲线分解、聚类等方法。近几年运用有监督的学习方法提取视频摘要已成为一种趋势，它通过主动学习人标注的视频摘要，使训练出的模型尽可能地与人的决策模式保持一致，提取的视频摘要更符合人类语义的理解，这是无监督学习很难达到的。目前有监督的学习方法主要有线性回归模型、二元SVM(支持向量机)分类器、seqDPP(序列行列式点阵列)等。

视频摘要解决的问题是从原始视频帧序列中提取关键帧序列或者关键镜头序列，其本质就是序列到序列(Sequence-to-Sequence,Seq2Seq)的预测问题。研究序列问题已有比较成熟的模型，如循环神经网络(Recurrent Neural Network,RNN)、长短时记忆模型(RNN with Long-short Term Memory,LSTM)。RNN系列模型在处理序列数据上有着极大的优势，能够深层次地挖掘对解决任务有用的序列信息。而基于视觉注意力机制的编-解码(Encoder-Decoder)框架是近年来解决此类任务的经典方案，在图像描述、视频描述、文本摘要、机器翻译等任务中有突出的表现。编码过程将输入序列压缩成固定长度的上下文向量，然后再将其解码成符合任务需求的输出序列。而在解码过程中引入了视觉注意力机制，每一时间节点的解码都受到历史解码序列的影响，并且不同时刻解码的输出向量影响程度不同，即对历史解码序列中每个位置的向量分配不同的注意力，指导网络更加准确地学习序列间的依赖性关系。注意力机制可分为软注意力机制和硬注意力机制，软注意力机制在每个位置都分配注意力权重，只是权重大小不同，可以用反向传播训练；而硬注意力机制在每个位置的注意力具有随机性，可以通过增强学习方法进行训练。

发明内容

为克服现有技术的不足，本发明旨在提出一种基于视觉注意力机制的有监督视频摘要提取方法，使得摘要的自动生成方式类似于人选取摘要的决策过程，摘要的结果更接近人类的语义理解。本发明采用的技术方案是，利用视觉注意力机制的有监督视频摘要提取方法，步骤如下：

1)对原始视频作预处理后，对视频进行镜头检测，分割成若干个视频镜头作为后续摘要提取的候选镜头；

2)然后提取每一视频帧的视觉特征作为视频帧序列的特征，编码器和解码器都采用LSTM模型处理视频帧序列，并在解码器部分引入视觉注意力机制，融合历史的解码序列作为当前解码的输入部分；

3)利用解码的输出信息，并结合动态规划方法，得到关键镜头和关键帧，生成视频摘要。

编码器由一层LSTM网络构成，输入序列是视频特征序列x＝(x₁,x₂,…,x_T)，输出编码表征序列h＝(h₁,h₂,…,h_T)，将其作为解码器的输入，序列中每个向量为编码器在每个时间节点的隐藏状态，其计算公式如下：

h_t＝f(h_t-1,x_t), (1)

其中h_t,h_t-1,x_t分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量的特征向量。

解码器也由一层LSTM网络构成，定义其输出的条件概率：

p(y_i|{y₁,...,y_i-1},x)＝g(c_i,s_i,h_i), (2)

s_i,h_i,y_i分别为解码器i时刻的隐藏状态、解码器的输入、解码器的输出，其中，h_i对应编码器的h_t，即i＝t，i,t取值范围一致，都为1到T，s_i是LSTM网络在i时刻的隐藏状态，其公式如下：

s_i＝f(c_i,s_i-1,h_i) (3)

其中c_i是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量，即由{y₁,...,y_i-1}加权和得到，c_i包含了之前全部时刻的历史输出信息，但是对之前每一时刻输出的关注程度不同，视觉注意力机制指导网络去学习不同时刻的注意力权值，上下文向量c_i计算公式如下：

其中y_j为解码器在j时刻的输出，j∈{1,2,...,i-1}，α_ij为对应i时刻y_j的注意力权值，它由下式计算：

e_ij＝a(s_i-1,y_j),

生成e_ij的函数是一个多层感知器，该网络的输入由解码器i-1时刻的隐藏状态s_i-1、j时刻输出y_j构成，e_ij代表j时刻解码器的输出对i时刻解码的影响程度。

具体的解码过程是：得到编码序列h＝(h₁,h₂,…,h_T)后，与上下文向量c_i，上一时刻解码器的隐藏状态s_i-1一同构成解码器i时刻的输入，其中c_i由公式(4)(5)计算得到，首先利用s_i-1,y_j计算对应解码器j时刻输出的权值e_ij，再对其作归一化处理得到α_ij，最后由{y₁,...,y_i-1}和α_ij计算加权和得到c_i，后续时刻如此往复，在最后一个时刻得到解码器的输出序列y＝{y₁,...,y_T}。

长短时记忆模型LSTM网络是RNN的变种模型，在RNN的基础上，增加长短时记忆单元，LSTM的核是记忆单元c_t，受到输入门、遗忘门、输出门三种非线性门的调制，输入门i_t控制当前时刻的输入信息，遗忘门f_t控制着对历史记忆信息的遗忘程度，而输出门o_t决定了记忆单元对隐藏状态的影响程度，三个门和记忆单元协同合作，使LSTM具备学习复杂长距离依赖性关系的能力；

x_t,h_t代表t时刻LSTM网络的输入以及隐藏状态，h_t-1,c_t-1分别代表t-1时刻的隐藏状态以及记忆单元，W_i,W_f,W_o,W_c分别表示输入和隐藏状态到输入门、遗忘门、输出门、记忆单元的映射矩阵，在t时刻网络的前向传播中，首先由x_t,h_t-1计算i_t,f_t,O_t，然后由c_t-1,i_t,f_t计算得到记忆单元c_t，最后通过O_t,c_t计算t时刻的隐藏状态h_t，后续每个时刻依次按公式(6)更新以上参数。

训练阶段具体步骤如下：

1)对视频预处理后，用预训练的卷积神经网络(Convolutional Neural Network,CNN)提取第i帧视频帧的特征x_i，构成视频特征序列x＝(x₁,x₂,…,x_T),T为序列长度，d为特征的维度；

2)将提取的视频特征x输入到编码器LSTM网络中，经公式(6)得到编码器的隐藏状态h＝(h₁,h₂,…,h_T)，具体计算过程是：在t时刻网络的前向传播中，首先由x_t,h_t-1计算i_t,f_t,o_t，然后由c_t-1,i_t,f_t计算得到记忆单元c_t，最后通过o_t,c_t计算t时刻的隐藏状态h_t，网络循环计算T次，最终得到h，h将作为解码器的输入，参与解码器LSTM网络的运算，其中h_t对应解码器t时刻的输入；

3)解码器i时刻的输入由c_i,h_i对应编码器的h_t,s_i-1构成，其中c_i具体的计算过程是：首先根据公式(5)利用s_i-1,y_j计算对应解码器j时刻输出的权值e_ij，再对其作归一化处理得到α_ij，最后依据公式(4)由{y₁,...,y_i-1}和α_ij计算加权和得到c_i。将c_i,h_i,s_i-1作为解码器i时刻的输入，根据公式(2)(3)计算出y_i，在每个时间节点重复上述计算过程，直至T时刻得到对应输入视频序列的预测值y＝{y₁,...,y_T}；

4)将预测值y与真实的标签数据作比较，计算损失函数均方差的值，然后进行随时间演化的反向传播BPTT(Backpropagation through time)，更新网络参数，网络参数包括神经网络中输入到隐藏层，隐藏层与隐藏层之间以及隐藏层到输出的权值矩阵；

5)模型训练前设置超参数，超参数包括神经网络隐藏层的单元个数、学习率，训练时采用批量梯度下降法，每次迭代时都会将步骤1提取的批量(mini-batch)视频特征输入到编码器-解码器中，重复步骤2、3、4，不断地更新网络的参数，直至模型收敛，停止训练，转入测试阶段。

本发明的特点及有益效果是：

本发明主要利用引入视觉注意力机制的编-解码框架主动学习人手工标注的摘要，使训练好的模型能自动生成接近人类语义理解的视频摘要。其主要优势主要体现在：

(1)新颖性：提出了一种新颖的视觉注意力机制，结合编-解码框架首次用于视频摘要领域，极大地提高了自动生成摘要与人类手工标注摘要的吻合度。

(2)有效性：通过实验证明了本发明自动生成的视频摘要质量优于现有的有监督方法和部分无监督方法。

(3)实用性：简单可行，可以运用在视频跟踪、视频描述等其它领域。

附图说明：

图1是本发明提供的基于视觉注意力机制的视频摘要提取的流程图。其中实线部分为模型训练阶段，虚线部分为模型测试阶段。

具体实施方式

本发明将视频摘要看作是结构化的预测问题。使用循环神经网络中的长短时记忆模型来对视频帧之间的依赖性关系进行建模，并在模型中引入视觉注意力机制，提高生成视频摘要的质量。

本发明采用的具体步骤是：

h_t＝f(h_t-1,x_t), (1)

其中h_t,h_t-1,x_t分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量。

解码器也由一层LSTM网络构成，定义其输出的条件概率：

p(y_i|{y₁,...,y_i-1},x)＝g(c_i,s_i,h_i), (2)

s_i,h_i,y_i分别为解码器i时刻的隐藏状态、解码器的输入(将编码器t时刻的输出h_t作为解码器i时刻的输入，即i＝t，i,t取值范围一致，都为1到T)、解码器的输出，其中s_i是LSTM网络在i时刻的隐藏状态，其公式如下：

s_i＝f(c_i,s_i-1,h_i) (3)

其中c_i是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量，即由{y₁,...,y_i-1}加权和得到，c_i包含了之前全部时刻的历史输出信息，但是对之前每一时刻输出的关注程度不同，视觉注意力机制指导网络去学习不同时刻的注意力权值。上下文向量c_i计算公式如下：

e_ij＝a(s_i-1,y_j),

生成e_ij的函数是一个多层感知器，该网络的输入由解码器i-1时刻的隐藏状态s_i-1、j时刻输出y_j构成，e_ij代表j时刻解码器的输出对i时刻解码过程的影响程度。

具体的解码过程是：得到编码序列h＝(h₁,h₂,…,h_T)后，与上下文向量c_i，上一时刻解码器的隐藏状态s_i-1一同构成解码器i时刻的输入。其中c_i由公式(4)(5)计算得到，首先利用s_i-1,y_j计算对应解码器j时刻输出的权值e_ij，再对其作归一化处理得到α_ij，最后由{y₁,...,y_i-1}和α_ij计算加权和得到c_i。后续时刻如此往复，在最后一个时刻得到解码器的输出序列y＝{y₁,...,y_T}。

长短时记忆模型LSTM网络是RNN的变种模型，它在RNN的基础上，增加了长短时记忆单元(Long-short Term Memory)，旨在解决长距离依赖问题。LSTM的核是记忆单元(c_t)，受到输入门、遗忘门、输出门三种非线性门的调制。输入门(i_t)控制当前时刻的输入信息，遗忘门(f_t)控制着对历史记忆信息的遗忘程度，而输出门(o_t)决定了记忆单元对隐藏状态的影响程度，三个门和记忆单元协同合作，使LSTM具备学习复杂长距离依赖性关系的能力。

x_t,h_t-1分别代表t时刻LSTM网络的输入以及t-1时刻的隐藏状态，W_i,W_f,W_o,W_c分别表示输入和隐藏状态到输入门、遗忘门、输出门、记忆单元的映射矩阵。在t时刻网络的前向传播中，首先由x_t,h_t-1计算i_t,f_t,o_t，然后由c_t-1,i_t,f_t计算得到记忆单元c_t，最后通过o_t,c_t计算t时刻的隐藏状态h_t，后续每个时刻依次按公式(6)更新以上参数。

下面结合附图和具体实例进一步详细说明本发明。

图1描述了视频摘要算法的流程图，包含了模型训练和模型测试阶段，训练阶段输入训练集的视频特征和标签数据，调整模型参数；测试阶段输入测试集的视频特征，直接生成视频摘要。训练阶段具体步骤如下：

2)将提取的视频特征x输入到编码器LSTM网络中，经公式(6)得到编码器的隐藏状态h＝(h₁,h₂,…,h_T)，具体计算过程是：在t时刻网络的前向传播中，首先由x_t,h_t-1计算i_t,f_t,o_t，然后由c_t-1,i_t,f_t计算得到记忆单元c_t，最后通过o_t,c_t计算t时刻的隐藏状态h_t，网络循环计算T次，最终得到h。h将作为解码器的输入，参与解码器LSTM网络的运算，其中h_t对应解码器t时刻的输入。

3)解码器i时刻的输入由c_i,h_i(对应编码器的h_t),s_i-1构成，其中c_i具体的计算过程是：首先根据公式(5)利用s_i-1,y_j计算对应解码器j时刻输出的权值e_ij，再对其作归一化处理得到α_ij，最后依据公式(4)由{y₁,...,y_i-1}和α_ij计算加权和得到c_i。将c_i,h_i,s_i-1作为解码器i时刻的输入，根据公式(2)(3)计算出y_i。在每个时间节点重复上述计算过程，直至T时刻得到对应输入视频序列的预测值y＝{y₁,...,y_T}。

4)将预测值y与真实的标签数据作比较，计算损失函数均方差的值，然后进行随时间演化的反向传播BPTT(Backpropagation through time)，更新网络参数(网络参数指的是神经网络中输入到隐藏层，隐藏层与隐藏层之间以及隐藏层到输出的权值矩阵，本文包括W_i,W_f,W_o,W_c等权值矩阵)。

5)模型训练前设置超参数，训练时采用批量梯度下降法，每次迭代时都会将步骤1提取的批量(mini-batch)视频特征输入到编码器-解码器中，重复步骤2、3、4，不断地更新网络参数，直至模型收敛，停止训练，转入测试阶段。

测试阶段的具体步骤如下：

1)将测试集中的视频特征输入到编码器-解码器中，重复训练阶段的步骤2、3，预测视频帧序列的重要性分数y＝{y₁,...,y_T}；

2)在测试集上进行镜头检测，分割成若干个视频镜头作为提取摘要的候选镜头；然后依据y计算每个候选镜头的重要性分数，即对所包含视频帧的重要性分数求和；

3)结合镜头的重要性分数，在限制摘要长度条件下，利用动态规划求解最大化摘要的重要性分数的最优化问题，自动生成摘要；

4)将自动生成的摘要和手工标注的摘要作比较，计算F-score值(一种评价指标)，用于性能评价。

Claims

1.一种利用视觉注意力机制的有监督视频摘要提取方法，其特征是，步骤如下：

2.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法，其特征是，编码器由一层LSTM网络构成，输入序列是视频特征序列x＝(x₁,x₂,…,x_T)，输出编码表征序列h＝(h₁,h₂,…,h_T)，将其作为解码器的输入，序列中每个向量为编码器在每个时间节点的隐藏状态，其计算公式如下：

h_t＝f(h_t-1,x_t), (1)

3.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法，其特征是，解码器也由一层LSTM网络构成，定义其输出的条件概率：

p(y_i|{y₁,...,y_i-1},x)＝g(c_i,s_i,h_i), (2)

s_i＝f(c_i,s_i-1,h_i) (3)

<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

e_ij＝a(s_i-1,y_j), (5)

4.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法，其特征是，具体的解码过程是：得到编码序列h＝(h₁,h₂,…,h_T)后，与上下文向量c_i，上一时刻解码器的隐藏状态s_i-1一同构成解码器i时刻的输入，其中c_i由公式(4)(5)计算得到，首先利用s_i-1,y_j计算对应解码器j时刻输出的权值e_ij，再对其作归一化处理得到α_ij，最后由{y₁,...,y_i-1}和α_ij计算加权和得到c_i，后续时刻如此往复，在最后一个时刻得到解码器的输出序列y＝{y₁,...,y_T}。

5.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法，其特征是，长短时记忆模型LSTM网络是RNN的变种模型，在RNN的基础上，增加长短时记忆单元，LSTM的核是记忆单元c_t，受到输入门、遗忘门、输出门三种非线性门的调制，输入门i_t控制当前时刻的输入信息，遗忘门f_t控制着对历史记忆信息的遗忘程度，而输出门o_t决定了记忆单元对隐藏状态的影响程度，三个门和记忆单元协同合作，使LSTM具备学习复杂长距离依赖性关系的能力；

h_t＝o_t⊙tanh(c_t), (6)

6.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法，其特征是，训练阶

段具体步骤如下：