CN107484017A

CN107484017A - 基于注意力模型的有监督视频摘要生成方法

Info

Publication number: CN107484017A
Application number: CN201710612360.0A
Authority: CN
Inventors: 冀中; 熊凯琳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2017-12-15
Anticipated expiration: 2037-07-25
Also published as: CN107484017B

Abstract

本发明涉及视频摘要技术，为提出基于注意力机制的有监督视频摘要方法，使得摘要结果更接近人类的语义理解，使得摘要生成过程近似于人类选取摘要的过程，从而能得到高质量的摘要结果。为此，本发明采用的技术方案是，基于注意力模型的有监督视频摘要生成方法，提取视频特征生成视频帧特征序列，使用长短时记忆模型LSTM作为编码器和解码器处理视频帧特征序列，LSTM编码器为双向LSTM的编码器，LSTM的解码器为包含注意力机制的基于单层LSTM的解码器；再结合分段技术，使用“0‑1背包”方法得到关键镜头和关键帧集合，生成视频摘要。本发明主要应用于视频摘要场合。

Description

基于注意力模型的有监督视频摘要生成方法

技术领域

本发明涉及视频摘要技术，具体讲,涉及基于注意力模型的有监督视频摘要生成方法。

背景技术

视频摘要是一种将视频内容以简略、浓缩的形式表现的技术，是对目标视频内容的总结。视频摘要技术有两种呈现形式，一种是基于关键帧的静态视频摘要，一种是基于关键镜头的动态视频摘要，一个理想的视频摘要能够使用户在最短时间内获得目标视频最丰富的信息。

现有的视频摘要技术大多基于无监督学习，但随着人工标注数据的日益丰富，有监督视频摘要逐渐引起了关注。同无监督学习技术不同，有监督学习方法直接从人工摘要中学习出一种更符合人类语义的子集选取框架。有监督视频摘要方法有seqDPP(序列行列式点阵列)，vsLSTM(基于长短时记忆的视频摘要)等。

视频摘要解决的问题是从原始视频帧序列中提取关键帧序列或者关键镜头序列，可以看作是序列到序列问题。编-解码(Encoder-Decoder)框架是解决序列到序列问题的经典方案，编码过程将输入的序列编码成一个固定长度的向量，解码过程依据编码向量生成输出序列。视频的帧序列间关系复杂且不均匀，所以摘要的生成需要依赖高层次的语义理解，利用长短时记忆模型(LSTM)作为编码器能够学习到视频帧序列间的长期和短期的依赖关系，从而使视觉上相似但在不同时间段的帧不会在生成关键帧集时被忽略。

编-解码模型的一个重要拓展是加入了注意力机制。网络模型学习到的内部表示很难解释清楚，注意力模型通过捕获模型在执行特定任务时注意力集中的位置，增加了可解释性的维度，提高了学习能力。注意力机制可分为软注意力机制和硬注意力机制，软注意力机制是确定的，可以使用反向传播训练；硬注意力机制具有随机性，可以通过加强算法进行训练。注意力机制在图像描述、语言翻译、文本摘要等领域取得了很大的成功。

发明内容

为克服现有技术的不足，本发明旨在提出基于注意力机制的有监督视频摘要方法，使得摘要结果更接近人类的语义理解，使得摘要生成过程近似于人类选取摘要的过程，从而能得到高质量的摘要结果。为此，本发明采用的技术方案是，基于注意力模型的有监督视频摘要生成方法，提取视频特征生成视频帧特征序列，使用长短时记忆模型LSTM作为编码器和解码器处理视频帧特征序列，LSTM编码器为双向LSTM的编码器，LSTM的解码器为包含注意力机制的基于单层LSTM的解码器；再结合分段技术，使用“0-1背包”方法得到关键镜头和关键帧集合，生成视频摘要。

双向LSTM包含前向和后向LSTM，前向LSTM按时间顺序读入输入序列即从x₁到x_T,计算前向隐藏状态序列后向LSTM逆时间顺序读入输入序列即从x_T到x₁，计算后向隐藏状态序列最后将这两个隐藏状态序列连接在一起编码器的隐藏状态就包含了前向的信息和后向的信息。

LSTM的解码器中具体地，设定输出的条件概率：

p(y_i|{y₁,…,y_i-1},x)＝g(y_i-1,s_i,c_i), (1)

其中s_i是循环神经网络RNN在i时刻的隐藏状态，由下式计算：

s_i＝f(s_i-1,y_i-1,c_i) (2)

每一个目标输出y_i，都对应不同的编码向量c_i，c_i由编码器对输入序列的每个时刻的隐藏状态{h₁,…,h_T}组成,每个h_i包含了输入序列的所有信息并且更关注输入的第i个元素周围的信息，通过这些隐藏状态的加权和来计算编码向量c_i：

每个隐藏状态h_j的权重α_ij由下式计算：

e_ij＝a(s_i-1,h_j), (4)

生成e_ij的函数是一个多层神经网络的校准模型，基于解码器的第i-1个隐藏状态和编码器的第j个隐藏状态，刻画了输入的第j个元素对第i个输出元素的影响。

具体的解码步骤为，在得到编码器的隐藏状态{h₁,…,h_T}后，将其作为输入，同上一个解码器状态s_i-1结合，依据公式(4)获得α_ij，再利用公式(2)和公式(3)获得解码器第i个隐藏状态s_i和第i个输出y_i，如此往复，直至得到整个输出序列y＝{y₁,…,y_T}。

对所述模型进行训练的步骤：

1)提取视频特征，首先将输入视频转换成帧序列，并提取每帧的特征向量x_i，得到输入特征序列x＝(x₁,x₂,…,x_T)；

2)将得到的视频特征序列输入到所述长短时记忆模型LSTM作为编码器和解码器的模型中，得到输出的重要性分数y＝{y₁,…,y_T},同人工标注的重要性分数进行比较，计算两者的均方误差；

3)同时利用输入的视频特征序列x＝(x₁,x₂,…,x_T)和得到的重要性分数y＝{y₁,…,y_T}对视频进行基于核的时域分割KTS(Kernel Temporal Segmentation)，该分割方式首先使用特征序列的相似度计算核矩阵，然后以矩阵累积和的形式计算所有可能的段的段间方差，采用动态规划求解最佳分段方式；

4)结合得到的分段和重要性分数，将视频摘要的生成看作“0-1背包”问题，利用动态规划求解，生成摘要；

5)将得到的摘要同人工标注的摘要比较，通过F-score进行评价；

6)若F-score在模型训练的迭代过程中连续k次下降，则说明模型收敛，训练过程结束。

本发明的特点及有益效果是：

(1)新颖性：首次在视频摘要中引入长短时记忆模型(LSTM)和注意力机制的解码器，充分利用了输入视频序列包含的各种信息，提升生成的视频摘要质量。

(2)有效性：通过实验证明了本发明生成的视频摘要质量优于现有的其他有监督方法，同人工摘要的吻合度较高。

(3)实用性：简单可行，可以用在视频描述、行为识别等其他领域。

附图说明：

图1是本发明的基于注意力机制的视频摘要方法的流程图。虚线部分为模型训练过程。

具体实施方式

本发明涉及一种基于注意力模型机制的有监督视频摘要(或称视频浓缩)技术，它将视频摘要看作是对序列数据的结构预测。使用循环神经网络的长短时记忆模型来刻画视频帧序列间的相互联系，同时在模型中加入注意力机制，主动学习其他帧对当前处理的帧的影响程度，达到了有效利用视频的序列信息，提高视频摘要质量的目的。

本发明的目的在于提供一种基于注意力机制的有监督视频摘要方法。有监督的学习方法使得摘要结果更接近人类的语义理解，基于长短时记忆的编码过程充分考虑了目标视频帧间的长期依赖和短期依赖，编码向量具有更深层次的语义信息。注意力机制的引入使得摘要生成过程近似于人类选取摘要的过程，从而能得到高质量的摘要结果。

本发明将视频摘要问题看作是视频帧序列到关键镜头序列的问题，改进经典的编-解码器模型框架，使用长短时记忆模型(LSTM)作为编码器和解码器，首次在视频摘要问题中引入注意力机制,生成接近人工摘要的重要性分数序列。再结合分段技术，使用“0-1背包”方法得到关键镜头和关键帧集合。其主要技术原理如下：

编-解码框架(Encoder-Decoder)通常指利用循环神经网络作为编解码器的框架，由编码器和解码器两个部分组成：

编码器读取输入的向量序列x＝(x₁,x₂,…,x_T)，存储到记忆单元c中，最普遍方法是：

h_t＝f(x_t,h_t-1), (5)

c＝q({h₁,…,h_T}), (6)

其中表示时刻t的隐藏状态，隐藏单元c是由隐藏状态产生的编码向量。

解码器的作用是结合由编码器获得的编码向量以及之前的输出序列{y₁,…,y_t-1}生成下一个输出结果y_t，具体为，解码器将输出为y_t的概率由联合概率分解成有序的条件概率：

当y＝{y₁,…,y_T}，若使用循环神经网络作为解码器，条件概率可以建模成:

p(y_t|{y₁,…,y_t-1},c)＝g(y_t-1,s_t,c), (8)

其中g是一个输出为y_t的概率的多层非线性函数，s_t是解码的循环神经网络的隐藏状态。

长短时记忆模型(LSTM)是循环神经网络的变种，主要解决序列间长距离依赖。使用长短时记忆模型作为编解码器的编码器和解码器，其方法具体原理如下：

长短时记忆模型(LSTM)的核是一个记忆单元c，在每个时间步长对截止到当前的所有输入进行编码。这些记忆单元被非线性的“门”调制，这些“门”决定是否保持“门”上的值。有三个“门”：1)输入门i控制LSTM保留当前输入(x_t)，2)遗忘门(f)控制是否忘记以前的记忆(c_t),3)输出门(o)决定多少记忆转移到隐藏状态(h_t)。每个时间步长的变化如下：

h_t＝o_t⊙tanh(c_t), (9)

这几个门的结合使得LSTM具有学习序列长时间复杂依赖的能力。在实际应用中，对于输入的序列x＝(x₁,x₂,…,x_T),每个时刻t输入相应的x_t，依据公式(9)依次更新记忆单元，得到对应的记忆c_t和隐藏状态h_t。

本发明提出了一种新型的视频摘要结构，包括基于双向LSTM的编码器，和包含注意力机制的基于单层LSTM的解码器。

基于注意力机制的解码器：在新的结构中，我们重新定义了输出的条件概率：

p(y_i|{y₁,…,y_i-1},x)＝g(y_i-1,s_i,c_i), (10)

其中s_i是循环神经网络RNN在i时刻的隐藏状态，由下式计算：

s_i＝f(s_i-1,y_i-1,c_i) (11)

同传统的编-解码器框架不同的是，这里的每一个目标输出y_i，都对应不同的编码向量c_i，c_i由编码器对输入序列的每个时刻的隐藏状态{h₁,…,h_T}组成,每个h_i包含了输入序列的所有信息并且更关注输入的第i个元素周围的信息。我们通过这些隐藏状态的加权和来计算编码向量c_i：

每个隐藏状态h_j的权重α_ij由下式计算：

e_ij＝a(s_i-1,h_j), (13)

具体的解码步骤为，在得到编码器的隐藏状态{h₁,…,h_T}后，将其作为输入，同上一个解码器状态s_i-1结合，依据公式(13)获得α_ij，再利用公式(11)和公式(12)获得解码器第i个隐藏状态s_i和第i个输出y_i，如此往复，直至得到整个输出序列y＝{y₁,…,y_T}。

在解码器中引入注意力机制，降低了我们对编码器的要求。解码器可以有选择的索引编码器的隐藏状态，从而提升整个模型的性能。

双向长短时记忆LSTM编码器：在编-解码器框架中，普通的方法是编码器沿着时间顺序读取输入序列，即从x₁读到x_T。本发明将逆时间顺序情况考虑在内，使用双向长短时记忆LSTM模型。双向长短时记忆LSTM包含前向和后向长短时记忆模型。前向长短时记忆模型按时间顺序读入输入序列(从x₁到x_T),计算前向隐藏状态序列后向长短时记忆模型逆时间顺序读入输入序列(从x_T到x₁)，计算后向隐藏状态序列最后将这两个隐藏状态序列连接在一起这样，编码器的隐藏状态就包含了前向的信息和后向的信息。

本发明的一个实例中：

图1描述了所提出的视频摘要算法的流程图。本发明所提出的算法是一个端到端的系统，首先对模型进行训练，调整参数。测试阶段输入视频，能够直接生成视频摘要结果。训练阶段具体步骤如下：

1.提取视频特征，首先将输入视频转换成帧序列，并提取每帧的特征向量x_i，得到输入特征序列x＝(x₁,x₂,…,x_T)。

2.将得到的视频特征序列输入到改进的编-解码模型中，得到输出的重要性分数y＝{y₁,…,y_T},同人工标注的重要性分数进行比较，计算两者的均方误差。

3.同时利用输入的视频特征序列x＝(x₁,x₂,…,x_T)和得到的重要性分数y＝{y₁,…,y_T}对视频进行基于核的时域分割(Kernel Temporal Segmentation,KTS)，该分割方式首先使用特征序列的相似度计算核矩阵，然后以矩阵累积和的形式计算所有可能的段的段间方差，采用动态规划求解最佳分段方式。

4.结合得到的分段和重要性分数，将视频摘要的生成看作“0-1背包”问题，利用动态规划求解，生成摘要。

5.将得到的摘要同人工标注的摘要比较，计算F-score(一种评价方法)。

6.若F-score在模型训练的迭代过程中连续k次下降，则说明模型收敛，训练过程结束(k>5即可)。

Claims

1.一种基于注意力模型的有监督视频摘要生成方法，其特征是，提取视频特征生成视频帧特征序列，使用长短时记忆模型LSTM作为编码器和解码器处理视频帧特征序列，LSTM编码器为双向LSTM的编码器，LSTM的解码器为包含注意力机制的基于单层LSTM的解码器；再结合分段技术，使用“0-1背包”方法得到关键镜头和关键帧集合，生成视频摘要。

2.如权利要求1所述的基于注意力模型的有监督视频摘要生成方法，其特征是，双向LSTM包含前向和后向LSTM，前向LSTM按时间顺序读入输入序列即从x₁到x_T,计算前向隐藏状态序列后向LSTM逆时间顺序读入输入序列即从x_T到x₁，计算后向隐藏状态序列最后将这两个隐藏状态序列连接在一起编码器的隐藏状态就包含了前向的信息和后向的信息。

3.如权利要求1所述的基于注意力模型的有监督视频摘要生成方法，其特征是，LSTM的解码器中具体地，设定输出的条件概率：

p(y_i|{y₁,...,y_i-1},x)＝g(y_i-1,s_i,c_i) (1)

其中s_i是循环神经网络RNN在i时刻的隐藏状态，由下式计算：

s_i＝f(s_i-1,y_i-1,c_i) (2)

每一个目标输出y_i，都对应不同的编码向量c_i，c_i由编码器对输入序列的每个时刻的隐藏状态{h₁,...,h_T}组成,每个h_i包含了输入序列的所有信息并且更关注输入的第i个元素周围的信息，通过这些隐藏状态的加权和来计算编码向量c_i：

<mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

每个隐藏状态h_j的权重α_ij由下式计算：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>e</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>a</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

4.如权利要求3所述的基于注意力模型的有监督视频摘要生成方法，其特征是，具体的解码步骤为，在得到编码器的隐藏状态{h₁,...,h_T}后，将其作为输入，同上一个解码器状态s_i-1结合，依据公式(4)获得α_ij，再利用公式(2)和公式(3)获得解码器第i个隐藏状态s_i和第i个输出y_i，如此往复，直至得到整个输出序列y＝{y₁,...,y_T}。

5.如权利要求1所述的基于注意力模型的有监督视频摘要生成方法，其特征是，对所述模型进行训练的步骤：

2)将得到的视频特征序列输入到所述长短时记忆模型LSTM作为编码器和解码器的模型中，得到输出的重要性分数y＝{y₁,...,y_T},同人工标注的重要性分数进行比较，计算两者的均方误差；

3)同时利用输入的视频特征序列x＝(x₁,x₂,…,x_T)和得到的重要性分数y＝{y₁,...,y_T}对视频进行基于核的时域分割KTS(Kernel Temporal Segmentation)，该分割方式首先使用特征序列的相似度计算核矩阵，然后以矩阵累积和的形式计算所有可能的段的段间方差，采用动态规划求解最佳分段方式；