CN112468888B

CN112468888B - 基于gru网络的视频摘要生成方法与系统

Info

Publication number: CN112468888B
Application number: CN202011349745.0A
Authority: CN
Inventors: 陈周元
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2023-04-07
Anticipated expiration: 2040-11-26
Also published as: CN112468888A

Abstract

本发明提供的一种基于GRU网络的视频摘要生成方法，包括：对输入的原始视频下采样并进行特征提取，生成视频帧序列；基于GRU网络的Seq2Seq模型对视频帧序列进行分析并捕捉视频序列的上下文信息，生成每一帧的重要性得分；根据重要性得分结果，使用非极大值抑制算法提取关键帧并去除冗余帧，获取静态视频摘要和动态视频摘要。本发明还提供的一种基于GRU网络的视频摘要生成系统，通过在Seq2Seq模型中引入GRU网络单元，使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素，同时减少模型的参数，有效减少了模型的计算量；使用非极大值抑制算法可以有效处理冗余帧，从而获取更具代表性的视频摘要。

Description

基于GRU网络的视频摘要生成方法与系统

技术领域

本发明涉及机器学习技术领域，更具体的，涉及一种基于GRU网络的视频摘要生成方法与系统。

背景技术

如今大量的数字视频被生产并应用于教育、娱乐、监视、信息存档等领域，数字视频已经成为人们视觉信息的最重要来源之一。大量的视频数据增加了人们对于数字视频浏览，筛选和存储的压力。依照传统的方法，用户只能通过视频标题、简介、标签等有限的外部资源信息了解视频的内容，而对视频本身的内容没有一个直观的理解，因此需要相应的技术和工具来提高用户对视频内容信息的获取。针对这些问题，研究人员提出了视频摘要生成技术，它通过分析一定长度的视频数据中信息的稀疏性，从原始视频数据中选取具有代表性的、有意义的部分，将它们以某种方式组合并生成紧凑的、用户可读的缩略数据，使用户在更短的时间内快速理解视频。根据视频摘要的生成形式，将基于关键帧的视频摘要称为静态视频摘要，将基于动态视觉信息的视频摘要称为动态视频摘要。

目前对视频摘要生成的研究主要分为无监督学习的生成方法和有监督学习的生成方法。无监督学习方法通过自定义直观的标准来挑选关键帧或关键镜头，进而组合成相应的视频摘要。其中聚类算法在近年来被广泛地运用于视频数据分析领域。对于基于无监督聚类的方法，其基本思想是通过将相似的帧/镜头聚类在一起，然后在每个聚类中选取特定数量的帧(通常每个聚类一帧)来产生摘要。对于这种方法，重点在于模型需要选择可以认为帧相似的特征(例如，颜色分布，亮度，运动矢量)，进而建立可用于测量相似性的不同标准。使用的聚类算法生成摘要所花费的时间大约是视频长度的数倍，这意味着用户需要等待一个小时，才能获得长度为十几分钟的视频的摘要简述。除此之外，由于聚类算法通常只关注视频帧的重要性程度，容易忽略掉视频的时域信息对摘要生成的影响。

有监督学习方法是利用人工编辑的摘要示例(或帧级重要性得分)来学习如何总结一个未知的视频。在识别实体(对象)，上下文(场景)及其交互(事件)方面，对视频语义的学习象征着更高的理解水平。有监督学习方法能准确地捕获视频帧的选择标准，并输出与人类对视频内容的语义理解更加一致的那些帧的子集。由于这种方法明确地从人工创建的摘要中学习，因此有监督的方法可以更好地拟合人类对输入视频进行总结的方式。有监督学习方法又可以分为传统机器学习方法和深度学习方法。传统机器学习方法使用手工制作的特征来学习模型，而深度学习则使用卷积神经网络(CNN)来提取深度特征，并随着学习的进行自动进行特征选择。如公开号CN104244113A的中国发明专利于2017年9月22日公开的一种基于深度学习技术的视频摘要生成方法。但以上两者都依赖于准确标记的数据集，但是由于深度学习技术开发端到端的学习模型需要大量的参数进行调整，因此需要大量的训练数据。这些通过有监督学习的方法获得的视频摘要在一些领域中具有较高的性能，但一些研究者一味追求模型的性能，使得模型的计算量大大增加；还有一些研究者的模型对呈现长镜头的视频的表征能力较强，但对呈现短镜头的视频无法很好地提炼主要内容；除此之外，大多数模型往往忽略了对冗余帧的判定和处理。

发明内容

本发明为克服现有的生成视频摘要的模型存在计算量大及忽略对冗余帧的判定和处理的技术缺陷，提供一种基于GRU网络的视频摘要生成方法与系统。

为解决上述技术问题，本发明的技术方案如下：

基于GRU网络的视频摘要生成方法，包括以下步骤：

S1：对输入的原始视频下采样并进行特征提取，生成视频帧序列；

S2：基于GRU网络的Seq2Seq模型对视频帧序列进行分析并捕捉视频序列的上下文信息，生成每一帧的重要性得分；

S3：根据重要性得分结果，使用非极大值抑制算法提取关键帧并去除冗余帧，获取静态视频摘要和动态视频摘要。

上述方案中，通过在Seq2Seq模型中引入GRU网络单元，使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素，同时减少模型的参数，有效减少了模型的计算量；同时，使用非极大值抑制算法可以有效处理冗余帧，从而获取更具代表性的视频摘要。

其中，在所述步骤S1中，首先对原始视频进行进行下采样处理，再采用GoogLeNet网络提取每一帧的图片特征。

上述方案中，GoogLeNet是一种深度神经网络，通过引入inception结构，一定程度上减少了神经网络的层数，在相同的计算量下能提取到更多的特征，从而提升训练结果。GoogLeNet网络由5个卷积块、1层全连接层和1层softmax层组成。GoogLeNet网络用inception块取代了传统的卷积层。Inception块的引入，使得神经网络在相同尺寸的感受野中叠加更多的卷积，能提取到更丰富的特征。同时在卷积层中加入了多个1x1的卷积层，对模型起到降维作用，在保证结果精度不变的情况下减少计算量。在应用过程中，将新的图像通过训练好的卷积神经网络直到瓶颈层的过程可以看成是对图像进行特征提取的过程。因此，本方法将GoogLeNet网络最后一个卷积层的输出向量作为每一帧的特征向量。

上述方案中，为了进一步减少计算量，本方法中首先需要对视频数据进行下采样。由于相近的视频帧具有相近的特征，因此本方法从视频数据中抽取一部分帧作为模型的输入信息。为了权衡模型精度和计算量，本方法使用每秒保留2帧的下采样操作。

Seq2Seq模型被广泛应用于机器翻译，语音识别，文本摘要，问答系统等领域。Seq2Seq是一个编码器-解码器(Encoder-Decoder)结构的网络，它的输入是一个序列，输出也是一个序列。在编码器中，将序列转换成一个固定长度的中间向量，然后通过解码器将该中间向量转换成我们想要的序列输出出来。本模型的策略是将“获得每帧重要性得分”的任务类比成“机器翻译”的任务，将获取重要性得分过程按照机器翻译任务进行处理，从而简化了处理流程。

即使Seq2Seq非常适合处理序列数据，但它仍然存在一些弊端。编码器将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大；同时序列长度的增加，意味着时间维度上的序列很长，Seq2Seq中的RNN网络在处理过长的序列时，若对当前状态有用的信息距当前状态的时间间隔较大，这些信息记录会变得模糊，导致在训练时出现梯度弥散问题且计算效率低下；除此之外，模型连接编码器和解码器的模块组件仅仅是一个固定大小的状态向量，这使得解码器无法直接去关注到输入信息的更多细节。

因此，在所述步骤S2中，对Seq2Seq模型进行了改进。所述Seq2Seq模型是一个编码器-解码器结构的网络，采用双向GRU网络连接编码器；采用注意力机制模型连接解码器；其中：

所述视频帧序列输入连接有双向GRU网络的编码器，生成上下文信息；

所述上下文信息输入带有注意力机制的解码器中，生成每一帧的重要性得分。

其中，在所述步骤S2中，所述双向GRU网络包括forward层和backward层，这两层共同连接着输出层，其中包含了6个共享权值W；生成上下文信息的过程具体为：

视频帧序列Z＝{F₀,F₁,F₂,...,F_n-1}输入到双向GRU网络后，forward层从F₀到F_n-1正向计算并保存当前帧之前各帧对当前帧的影响信息，backward层从F_n-1到F₀反向计算并保存当前帧之后各帧对当前帧的影响信息；最后在每个时刻结合forward层和backward层的相应时刻输出的结果得到最终的输出；在编码器，当前节点在t时刻的输出为：

其中，x^t表示节点的输入；h_t-1表示节点的前一状态；f_GRU()表示根据节点的输入和节点上一状态信息，使用GRU节点求得节点的当前状态信息；

和

分别表示forward层中t时刻节点的输出和当前状态信息；

和

分别表示backward层中t时刻节点的输出和当前状态信息；最后对两层的输出加权求和，并使用sigmoid函数对结果进行归一化，获得t时刻节点的总输出o_t，即第t帧的上下文信息。

上述方案中，一般的GRU网络单元的重置门负责有针对性地记忆当前节点输入的信息，更新门负责调节上一隐藏状态信息的保留比例。在本发明中的编码器中使用GRU网络替代RNN网络，使得在训练GRU网络单元时，门控循环单元不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个状态，因此在反向传播时，每一个过去状态的相应影响权重不会趋向于0，避免了梯度弥散问题。

虽然GRU网络的引入已经解决了编码器在训练中梯度弥散问题，但针对视频帧序列的特性，本方法需要进一步改进编码器。通过采用双向GRU网络作为获取视频帧重要性得分的编码器，能获取更优的重要性得分，不仅考虑了当前帧之前的视频帧对当前帧的影响，还考虑当前帧之后的视频帧对当前帧的影响，有效提高了编码器对视频帧上下文的表征能力。

其中，在所述步骤S2中，所述带有注意力机制的解码器根据在编码器获得的每个视频帧的上下文信息o_i，结合解码器每个时刻的状态，求得下一时刻的注意力信息，即context向量；context向量反映了对当前视频帧最相关的信息，具体获得过程为：

其中，e(o_i,s_j)是相关度函数，衡量当前帧与解码器状态的相关度，采用的相关度函数是e(o,s)＝Xtanh(Yh+Zs)，X，Y，Z是模型参数；α_i,j表示每一帧i对第j帧的注意力权重；计算得到context向量后，对解码器每一时刻的重要性得分p进行计算，j+1时刻的状态s_j+1以及j+1时刻的重要性得分p_j+2计算公式具体为：

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接。

在现有Seq2Seq模型中，编码器将完整的输入句子压缩到一个维度固定的中间向量(通常是一维向量)中，然后解码器根据输入的中间向量，依次生成序列数据。当输入句子较长时，“有损压缩”的中间向量难以存储足够的信息。为了打破这个瓶颈，本方法结合注意力机制来对视频帧信息进行解码。

注意力机制主要应用于对神经机器翻译的优化中。注意力机制借鉴了人类视觉注意力的工作原理，从而在序列中筛选出重要性更高的部分作为当前节点输出的判断依据。在本方法中，注意力机制模块首先通过快速扫描全局视频帧，获得需要重点关注的几个目标帧，而后对这几个目标帧投入更多注意力资源，以获取更多对当前帧的重要性评判的信息，同时抑制其他的无用信息。

上述方案中，解码器除了加入注意力机制之外，为了减少参数的数量，编码器部分采用单层GRU网络。解码器通过将j时刻的状态s_j和第j帧的注意力信息context_j拼接后作为j+1时刻的输入，解码器可以在解码的每一步查询最相关的原视频上下文信息，从而避免了现有Seq2Seq模型中的信息瓶颈问题。

其中，在所述步骤S3中，获取静态视频摘要的过程具体为：

S311：根据每一帧的重要性得分进行排序，得分高的在前；

S312：创建关键帧序列并清空，开始遍历第一帧；

S313：判断当前帧是否与所有的关键帧的相似度均低于阈值α；若是，执行步骤S314；否则执行步骤S315；

S314：判断当前帧与当前关键帧是否在时间上相近；若是，执行步骤S316；否则，执行步骤S315；

S315：将当前帧加入关键帧序列；

S316：判断帧序列是否已满，若是，执行步骤S317；否则，遍历序列中的下一帧，返回执行步骤S313；

S317：输出关键帧序列，将关键帧序列作为视频数据的静态视频摘要。

上述方案中，根据前一阶段得到的重要性得分，使用非极大值抑制算法(Non-Maximum Suppression，NMS)提取关键帧并去除冗余帧，然后按时间顺序组合，得到静态摘要序列(关键帧集合)，保证最终提取到的关键帧的得分总和尽可能高，并在不损失关键帧的前提下，减少提取到的关键帧的冗余度，提高召回率。

其中，在所述步骤S3中，获取动态视频摘要的过程具体为：

S321：使用KTS标记出原视频的镜头分割帧；

S322：创建关键镜头列表并清空；

S323：遍历关键帧序列，从第一个关键帧开始；

S324：找到当前关键帧的对应镜头，即当前镜头，并记录关键帧所在位置；

S325：判断当前镜头是否在关键镜头列表中，若是，执行步骤S327；否则，执行步骤S326；

S326：将当前镜头加入关键镜头列表；

S327：判断关键帧序列是否已遍历完；若是，执行步骤S328；否则，遍历下一个关键帧，返回执行步骤S324；

S328；遍历关键镜头列表，用非极大值抑制算法将关键镜头列表总时长限制在规定时间长度内，并使得镜头总得分最大化，生成动态视频摘要。

上述方案中，根据静态摘要生成模块得到的静态摘要序列和原始视频序列(已进行下采样)的对应关系，使用基于核的时域分割(kernel temporal segmentation，KTS)镜头检测算法获取关键帧对应的镜头，并且根据镜头中所有帧得分相加获得每个镜头的重要性得分，再根据非极大值抑制算法从镜头中提取关键镜头，按时间顺序组合后形成最后的动态摘要序列。

在基于GRU网络的视频摘要生成方法的基础上，构建基于GRU网络的视频摘要生成系统，包括特征提取模块、重要性得分生成模块和摘要生成模块；其中：

所述特征提取模块对输入的原始视频下采样并进行特征提取，生成视频帧序列；

所述重要性得分生成模块对视频帧序列进行分析并捕捉视频序列的上下文信息，生成每一帧的重要性得分；

所述摘要生成模块根据重要性得分结果，使用非极大值抑制算法提取关键帧并去除冗余帧，获取静态视频摘要和动态视频摘要。

其中，在所述重要性得分生成模块中设置有Seq2Seq模型，所述Seq2Seq模型是一个编码器-解码器结构的网络，采用双向GRU网络连接编码器；采用注意力机制模型连接解码器；其中：

所述连接有双向GRU网络的编码器用于生成上下文信息；具体为：

所述双向GRU网络包括forward层和backward层，这两层共同连接着输出层，其中包含了6个共享权值W；视频帧序列Z＝{F₀,F₁,F₂,...,F_n-1}输入到双向GRU网络后，forward层从F₀到F_n-1正向计算并保存当前帧之前各帧对当前帧的影响信息，backward层从F_n-1到F₀反向计算并保存当前帧之后各帧对当前帧的影响信息；最后在每个时刻结合forward层和backward层的相应时刻输出的结果得到最终的输出；在编码器，当前节点在t时刻的输出为：

和

分别表示forward层中t时刻节点的输出和当前状态信息；

和

分别表示backward层中t时刻节点的输出和当前状态信息；最后对两层的输出加权求和，并使用sigmoid函数对结果进行归一化，获得t时刻节点的总输出o_t，即第t帧的上下文信息；

所述带有注意力机制的解码器用于生成每一帧的重要性得分；具体为：

所述带有注意力机制的解码器根据在编码器获得的每个视频帧的上下文信息o_i，结合解码器每个时刻的状态，求得下一时刻的注意力信息，即context向量；context向量反映了对当前视频帧最相关的信息，具体获得过程为：

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接。

其中，在所述摘要生成模块中，获取静态视频摘要的过程具体为：

S311：根据每一帧的重要性得分进行排序，得分高的在前；

S312：创建关键帧序列并清空，开始遍历第一帧；

S315：将当前帧加入关键帧序列；

其中，获取动态视频摘要的过程具体为：

S321：使用KTS标记出原视频的镜头分割帧；

S322：创建关键镜头列表并清空；

S323：遍历关键帧序列，从第一个关键帧开始；

S326：将当前镜头加入关键镜头列表；

上述方案中，本系统通过在重要性得分生成模块中引入GRU单元，减少神经网络的计算量，使得系统在训练和实际测试时具有更高的效率；在摘要生成模块中使用非极大值抑制算法，可以有效地减少在生成关键帧(关键镜头)时所夹杂的冗余帧，且提供了一种根据静态视频摘要和原始视频，生成动态视频摘要的方法。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的一种基于GRU网络的视频摘要生成方法与系统，通过在Seq2Seq模型中引入GRU网络，使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素，同时减少模型的参数，有效减少了模型的计算量；使用非极大值抑制算法可以有效处理冗余帧，从而获取更具代表性的视频摘要；同时，提供了一种根据静态视频摘要和原始视频，生成动态视频摘要的方法。

附图说明

图1为本发明所述方法流程示意图；

图2为inception结构图；

图3为GRU网络结果示意图；(⊙表示点乘操作，⊕为相加操作)

图4为结合注意力机制的获取视频帧重要性得分的过程示意图；

图5为静态摘要生成模块流程图；

图6为动态摘要生成模块流程图；

图7为本发明所述系统模型结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，提供一种基于GRU网络的视频摘要生成方法，包括以下步骤：

在具体实施过程中，通过在Seq2Seq模型中引入GRU单元，使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素，同时减少模型的参数，有效减少了模型的计算量；同时，使用非极大值抑制算法可以有效处理冗余帧，从而获取更具代表性的视频摘要。

更具体的，在所述步骤S1中，首先对原始视频进行进行下采样处理，再采用GoogLeNet网络提取每一帧的图片特征。

在具体实施过程中，GoogLeNet是一种深度神经网络，通过引入inception结构，如图2所示，一定程度上减少了神经网络的层数，在相同的计算量下能提取到更多的特征，从而提升训练结果。GoogLeNet网络由5个卷积块、1层全连接层和1层softmax层组成。GoogLeNet网络用inception块取代了传统的卷积层。Inception块的引入，使得神经网络在相同尺寸的感受野中叠加更多的卷积，能提取到更丰富的特征。同时在卷积层中加入了多个1x1的卷积层，对模型起到降维作用，在保证结果精度不变的情况下减少计算量。在应用过程中，将新的图像通过训练好的卷积神经网络直到瓶颈层的过程可以看成是对图像进行特征提取的过程。因此，本方法将GoogLeNet网络最后一个卷积层的输出向量作为每一帧的特征向量。

在具体实施过程中，为了进一步减少计算量，本方法中首先需要对视频数据进行下采样。由于相近的视频帧具有相近的特征，因此本方法从视频数据中抽取一部分帧作为模型的输入信息。为了权衡模型精度和计算量，本方法使用每秒保留2帧的下采样操作。

更具体的，Seq2Seq模型被广泛应用于机器翻译，语音识别，文本摘要，问答系统等领域。Seq2Seq是一个编码器-解码器(Encoder-Decoder)结构的网络，它的输入是一个序列，输出也是一个序列。在编码器中，将序列转换成一个固定长度的中间向量，然后通过解码器将该中间向量转换成我们想要的序列输出出来。本模型的策略是将“获得每帧重要性得分”的任务类比成“机器翻译”的任务，将获取重要性得分过程按照机器翻译任务进行处理，从而简化了处理流程，具体类比情况如表1。

其中Z＝{F₀,F₁,F₂,...,F_n-1}是在上一步中由GoogLeNet网络提取到的各帧图片特征向量组成的序列。从表1可以看出，机器翻译任务和获取各帧重要性得分过程具有相似的数据状况、输入和输出，因此，本模型把获取各帧重要性得分过程看作是机器翻译任务，采用Seq2Seq模型计算并获得视频帧的重要性得分，最终输出视频帧的重要性得分序列Z'＝{S₀,S₁,S₂,...,S_n-1}，其中S_i,i∈(0,n-1)表示第i帧的重要性得分。

表1机器翻译任务和获取各帧重要性得分过程的对比表

即使Seq2Seq非常适合处理序列数据，但它仍然存在一些弊端。编码器将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大；同时序列长度的增加，意味着时间维度上的序列很长，Seq2Seq中的RNN网络在处理过长的序列时，若对当前状态有用的信息距当前状态的时间间隔较大，这些信息记录会变得模糊，导致在训练时出现梯度弥散问题且计算效率低下；除此之外，模型连接编码器和解码器的模块组件仅仅是一个固定大小的状态向量，这使得解码器无法直接去关注到输入信息的更多细节，因此，在所述步骤S2中，对Seq2Seq模型进行了改进。

实施例2

更具体的，在实施例1的基础上，由于视频帧序列通常较长(对于一个30fps且长度为5分钟的视频数据若不进行下采样，视频帧序列长度会达到9000)，远远超出标准RNN网络的计算能力范围，因此本模型需要使用更高效率的结构替代RNN。

GRU(Gate Recurrent Unit)是一种循环神经网络(Recurrent Neural Network,RNN)的变体结构，旨在提高机器翻译系统的性能。GRU单元主要的工作过程就是搭建和控制重置门(reset gate)和更新门(update gate)来处理当前节点的上一状态数据和输入数据。GRU网络解决了标准RNN网络中存在的长期记忆和反向传播中的梯度弥散问题，同时相比于同样是RNN变体结构的LSTM，GRU具有更高的计算效率。

如图3所示，图3展示了一个GRU单元的内部结构。图中h^t-1表示节点的前一状态，x^t表示节点的输入，h^t表示节点的当前状态，y^t表示节点的输出。GRU的工作过程分为三步：

首先，根据当前节点的输入x^t和当前节点的上一个状态h^t-1来获取两个门控状态r和u，该过程由下列公式得出：

r＝σ(W^rconcat(x^t,h^t-1))；

u＝σ(W^uconcat(x^t,h^t-1))；

其中concat()表示将两个向量或矩阵进行拼接，W^r和W^u是需要训练的权重参数，σ()表示使用sigmoid函数归一化，r表示重置门信息，u表示更新门信息。

在具体实施过程中，一般的GRU网络单元的重置门负责有针对性地记忆当前节点输入的信息，更新门负责调节上一隐藏状态信息的保留比例。在本发明中的编码器中使用GRU网络替代RNN网络，使得在训练GRU网络时，门控循环单元不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个状态，因此在反向传播时，每一个过去状态的相应影响权重不会趋向于0，避免了梯度弥散问题。

更具体的，在所述步骤S2中，所述双向GRU网络包括forward层和backward层，这两层共同连接着输出层，其中包含了6个共享权值W；生成上下文信息的过程具体为：

和

分别表示forward层中t时刻节点的输出和当前状态信息；

和

更具体的，在现有Seq2Seq模型中，编码器将完整的输入句子压缩到一个维度固定的中间向量(通常是一维向量)中，然后解码器根据输入的中间向量，依次生成序列数据。当输入句子较长时，“有损压缩”的中间向量难以存储足够的信息。为了打破这个瓶颈，本方法结合注意力机制来对视频帧信息进行解码。

更具体的，如图4所示，在所述步骤S2中，所述带有注意力机制的解码器根据在编码器获得的每个视频帧的上下文信息o_i，结合解码器每个时刻的状态，求得下一时刻的注意力信息，即context向量；context向量反映了对当前视频帧最相关的信息，具体获得过程为：

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接。

在具体实施过程中，解码器除了加入注意力机制之外，为了减少参数的数量，编码器部分采用单层GRU网络。解码器通过将j时刻的状态s_j和第j帧的注意力信息context_j拼接后作为j+1时刻的输入，解码器可以在解码的每一步查询最相关的原视频上下文信息，从而避免了现有Seq2Seq模型中的信息瓶颈问题。

实施例3

进一步的，根据前一阶段得到的重要性得分，使用非极大值抑制算法(Non-Maximum Suppression，NMS)提取关键帧并去除冗余帧，然后按时间顺序组合，得到静态摘要序列(关键帧集合)，保证最终提取到的关键帧的得分总和尽可能高，并在不损失关键帧的前提下，减少提取到的关键帧的冗余度，提高召回率。具体过程如图5所示。

进一步的，最终输出的关键帧序列即为视频数据的静态摘要。根据静态摘要生成模块得到的静态摘要序列和原始视频序列(已进行下采样)的对应关系，使用基于核的时域分割(kernel temporal segmentation，KTS)镜头检测算法获取关键帧对应的镜头，并且根据镜头中所有帧得分相加获得每个镜头的重要性得分，再根据非极大值抑制算法从镜头中提取关键镜头，按时间顺序组合后形成最后的动态摘要序列。具体流程如图6所示。

在具体实施过程中，本方法通过在重要性得分生成模块中引入GRU单元，减少神经网络的计算量，使得在训练和实际测试时具有更高的效率；在摘要生成模块中使用非极大值抑制算法，可以有效地减少在生成关键帧(关键镜头)时所夹杂的冗余帧，且提供了一种根据静态视频摘要和原始视频，生成动态视频摘要的方法。

实施例4

更具体的，如图7所示，在基于GRU网络的视频摘要生成方法的基础上，本发明还构建一种基于GRU网络的视频摘要生成系统，包括特征提取模块、重要性得分生成模块和摘要生成模块；其中：

更具体的，在所述重要性得分生成模块中设置有Seq2Seq模型，所述Seq2Seq模型是一个编码器-解码器结构的网络，采用双向GRU网络连接编码器；采用注意力机制模型连接解码器；其中：

和

分别表示forward层中t时刻节点的输出和当前状态信息；

和

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接。

更具体的，在所述摘要生成模块中，获取静态视频摘要的过程具体为：

S311：根据每一帧的重要性得分进行排序，得分高的在前；

S312：创建关键帧序列并清空，开始遍历第一帧；

S315：将当前帧加入关键帧序列；

更具体的，获取动态视频摘要的过程具体为：

S321：使用KTS标记出原视频的镜头分割帧；

S322：创建关键镜头列表并清空；

S323：遍历关键帧序列，从第一个关键帧开始；

S326：将当前镜头加入关键镜头列表；

在具体实施过程中，本系统通过在重要性得分生成模块中引入GRU单元，减少神经网络的计算量，使得系统在训练和实际测试时具有更高的效率；在摘要生成模块中使用非极大值抑制算法，可以有效地减少在生成关键帧(关键镜头)时所夹杂的冗余帧，且提供了一种根据静态视频摘要和原始视频，生成动态视频摘要的方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于GRU网络的视频摘要生成方法，其特征在于，包括以下步骤：

所述Seq2Seq模型是一个编码器-解码器结构的网络，采用双向GRU网络连接编码器；采用注意力机制模型连接解码器；其中：

所述上下文信息输入带有注意力机制的解码器中，生成每一帧的重要性得分；

所述双向GRU网络包括forward层和backward层，这两层共同连接着输出层，其中包含了6个共享权值W；生成上下文信息的过程具体为：

其中，x^t表示节点的输入；h_t-1表示节点的前一状态；f_GRU()表示根据节点的输入和节点上一状态信息，使用GRU节点求得节点的当前状态信息；和分别表示forward层中t时刻节点的输出和当前状态信息；和分别表示backward层中t时刻节点的输出和当前状态信息；最后对两层的输出加权求和，并使用sigmoid函数对结果进行归一化，获得t时刻节点的总输出o_t，即第t帧的上下文信息；

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接；

S3：根据重要性得分结果，使用非极大值抑制算法提取关键帧并去除冗余帧，获取静态视频摘要和动态视频摘要；

获取静态视频摘要的过程具体为：

S311：根据每一帧的重要性得分进行排序，得分高的在前；

S312：创建关键帧序列并清空，开始遍历第一帧；

S315：将当前帧加入关键帧序列；

S317：输出关键帧序列，将关键帧序列作为视频数据的静态视频摘要；

获取动态视频摘要的过程具体为：

S321：使用KTS标记出原视频的镜头分割帧；

S322：创建关键镜头列表并清空；

S323：遍历关键帧序列，从第一个关键帧开始；

S326：将当前镜头加入关键镜头列表；

2.根据权利要求1所述的基于GRU网络的视频摘要生成方法，其特征在于，在所述步骤S1中，首先对原始视频进行下采样处理，再采用GoogLeNe网络提取每一帧的图片特征。

3.基于GRU网络的视频摘要生成系统，其特征在于，包括特征提取模块、重要性得分生成模块和摘要生成模块；其中：

所述摘要生成模块根据重要性得分结果，使用非极大值抑制算法提取关键帧并去除冗余帧，获取静态视频摘要和动态视频摘要；

在所述重要性得分生成模块中设置有Seq2Seq模型，所述Seq2Seq模型是一个编码器-解码器结构的网络，采用双向GRU网络连接编码器；采用注意力机制模型连接解码器；其中：

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接；

在所述摘要生成模块中，获取静态视频摘要的过程具体为：

S311：根据每一帧的重要性得分进行排序，得分高的在前；

S312：创建关键帧序列并清空，开始遍历第一帧；

S315：将当前帧加入关键帧序列；

获取动态视频摘要的过程具体为：

S321：使用KTS标记出原视频的镜头分割帧；

S322：创建关键镜头列表并清空；

S323：遍历关键帧序列，从第一个关键帧开始；

S326：将当前镜头加入关键镜头列表；