CN110933519A

CN110933519A - 一种基于多路特征的记忆网络视频摘要方法

Info

Publication number: CN110933519A
Application number: CN201911070602.3A
Authority: CN
Inventors: 赵烨; 李巧凤; 刘学亮; 郭艳蓉; 郭丹; 胡珍珍; 吴乐
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-03-27

Abstract

本发明公开了一种基于多路特征的记忆网络视频摘要方法，视频输入模块，所述视频输入模块用于，录入待处理的视频帧；特征提取模块，所述特征提取模块用于，提取视频图像中的原始特征，并将每个视频采用一个K*1024维的向量表示，将两两视频帧之间的差异作为差异特征，然后将差异特征和原始特征同时输入到RNN记忆网络中，由于RNN在视频帧中捕获长期依赖关系的能力，只更新时间记忆网络，本发明可以更好地包含图像的有用信息，记忆更新模块，组建记忆网络，使其可以建立视频帧之间显著区域、对象之间的联系，对视频帧包含的信息达到一个长期有效的记忆，联合多路特征之间的差异信息有效地进行关键帧提取，使其达到我们的预期效果。

Description

一种基于多路特征的记忆网络视频摘要方法

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，具体为一种基于多路特征的记忆网络视频摘要方法。

背景技术

视频摘要(Video Summary)是一种涉及计算机视觉和自然语言处理的学习任务。视频摘要是以选取的视频作为输入，以生成一个简明紧凑的视频摘要作为输出。总的来说，视频摘要就是对输入的视频帧进行特征提取，以选取出最具有代表性的关键帧子集。受益于当下深度学习、神经网络、自然语言处理技术的快速发展，近些年来出现了大量的视频摘要的研究成果。B. Truong等就提出通过对大量视频的搜索与检索可以满足对所需内容的有效需求，但是这并没有提供实际视频内容的具体意义，带来的困难就是很难快速找到所需的内容，基于内容频率或非冗余虽然简单有效，但是却与视频的实时性缺少直接的联系。

在普遍的视频摘要的过程中，以往大多数的视频摘要模型，采用的都是直接将分帧的视频送入到卷积神经网络(CNN)，取其某一层的数据作为特征输出，即提取出的视频帧的特征，这种方法虽然便捷迅速，但是却忽视了视频图像中突出的显著性区域和对象，并且很多目前流行的视频摘要系统模型忽略了两两视频帧中显著性区域、对象之间的差异，一般的循环神经网络 (RNN)虽然能缓解这类问题，但是有其自身功能的局限性，无法达到对信息的长时间记忆，因此，我们需要解决的具体问题在于：

(1)如何设计提取视频帧的图像特征，使其可以很好地包含图像的有用信息

(2)如何设计记忆更新模块，组建记忆网络，使其可以建立视频帧之间显著区域、对象之间的联系，对视频帧包含的信息达到一个长期有效的记忆

(3)如何设计选取方式，联合多路特征之间的差异信息有效地进行关键帧提取，使其达到我们的预期效果。

发明内容

本发明的目的在于提供一种基于多路特征的记忆网络视频摘要方法，以解决上述背景技术中如何设计提取视频帧的图像特征，使其可以很好地包含图像的有用信息，如何设计记忆更新模块，组建记忆网络，使其可以建立视频帧之间显著区域、对象之间的联系，对视频帧包含的信息达到一个长期有效的记忆，如何设计选取方式，联合多路特征之间的差异信息有效地进行关键帧提取，使其达到我们的预期效果的问题。

为实现上述目的，本发明提供如下技术方案：一种基于多路特征的记忆网络视频摘要方法，包括:

视频输入模块，所述视频输入模块用于，录入待处理的视频帧；

特征提取模块，所述特征提取模块用于，提取视频图像中的原始特征x_t，并将每个视频采用一个K*1024维的向量表示，将两两视频帧之间的差异作为差异特征x_d，然后将差异特征和原始特征同时输入到RNN记忆网络中，由于 RNN在视频帧中捕获长期依赖关系的能力，只更新时间记忆网络；

记忆网络与关键帧提取模块，所述记忆网络与关键帧提取模块用于，从特征提取模块出来的原始特征x_t和差异特征x_d被送入记忆网络，生成各自相应的隐藏状态h_t，然后利用sigmoid函数预测视频帧被选取的概率p_t；

摘要属性判断模块，所述摘要属性判断模块用于，通过卷及神经网络CNN 的处理，得到x_t序列，通过重要性和多样性判断选择视频帧子集的质量。

优选的，所述重要性用于，表示摘要对全文视频信息的覆盖能力；

当做一个k-medoids问题，k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心，有效定位聚类的最终中心点，此时的中心点大概率就是视频中最重要的视频帧，其如下表示：

imp＝min||x_t-x_t′||₂

这里的t和t′表示为非同一时刻。

优选的，所述多样性用于，从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息；

通过利用特征空间所选帧之间的差异大小作为评判标准，其如下所示：

公式中T的代表了所选视频帧的长度，D(x_t,x_t′)表示的是特征空间帧的差异大小。

优选的，所述特征提取模块包括原始特征提取模块和差异特征提取模块；

优选的，所述原始特征提取模块，基于指通过卷积神经网络CNN提取出的视觉特征，作为原始特征，

所述差异特征提取模块，是在原始特征的基础上求取两两视频帧之间的差异，作为差异特征。

优选的，在特征提取模块中，输入视频帧后，采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征，GoogleNet采用模块化的结构，即Inception结构。

本发明提供了一种基于多路特征的记忆网络视频摘要方法，具备以下有益效果：

本发明采用将视频帧送入到卷积神经网络CNN，提取出的视觉特征我们作为原始特征，在原始特征的基础上我们求取两两视频帧之间的差异作为差异特征，然后把两者都送入到记忆网络，在提取出关键帧之后，判断所选择的视频帧是否满足属性特点的方式，可以更好地包含图像的有用信息，记忆更新模块，组建记忆网络，使其可以建立视频帧之间显著区域、对象之间的联系，对视频帧包含的信息达到一个长期有效的记忆，联合多路特征之间的差异信息有效地进行关键帧提取，使其达到我们的预期效果。

附图说明

图1为本发明的系统框图；

图2为本发明的流程结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1-2所示，本发明提供一种技术方案：一种基于多路特征的记忆网络视频摘要方法，包括:

特征提取模块，所述特征提取模块用于，提取视频图像中的原始特征x_t，并将每个视频采用一个K*1024维的向量表示，将两两视频帧之间的差异作为差异特征x_d，然后将差异特征和原始特征同时输入到RNN记忆网络中，由于RNN在视频帧中捕获长期依赖关系的能力，只更新时间记忆网络，原始特征保留了视频的基本信息，差异特征则从侧面为视频所包含信息做了补充，由于 RNN在视频帧中捕获长期依赖关系的能力，只更新时间记忆网络；

imp＝min||x_t-x_t′||₂

这里的t和t′表示为非同一时刻。

需要说明的是，一种基于多路特征的记忆网络视频摘要方法，在工作时，通过视频输入模块输入待处理模块，采用在ImageNet上预训练的GoogleNet 作为CNN模型来提取视频图像中的原始特征x_t，每个视频用一个K*1024维的向量表示，将两两视频帧之间的差异作为差异特征x_d和原始特征x_t一起输入到 RNN记忆网络，生成各自相应的隐藏状态h_t，然后利用sigmoid函数预测视频帧被选取的概率p_t，在经过卷及神经网络CNN的处理后，我们得到x_t序列，所选视频帧子集要满足视频摘要的属性，即满足的重要性和多样性两点出发，来判断选择视频帧子集的质量。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多路特征的记忆网络视频摘要方法，其特征在于，包括:

特征提取模块，所述特征提取模块用于，提取视频图像中的原始特征x_t，并将每个视频采用一个K*1024维的向量表示，将两两视频帧之间的差异作为差异特征x_d，然后将差异特征和原始特征同时输入到RNN记忆网络中，由于RNN在视频帧中捕获长期依赖关系的能力，只更新时间记忆网络；

摘要属性判断模块，所述摘要属性判断模块用于，通过卷及神经网络CNN的处理，得到x_t序列，通过重要性和多样性判断选择视频帧子集的质量。

2.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法，其特征在于：所述重要性用于，表示摘要对全文视频信息的覆盖能力；

imp＝min||x_t-x_t′||₂

这里的t和t′表示为非同一时刻。

3.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法，其特征在于：所述多样性用于，从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息；

4.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法，其特征在于：所述特征提取模块包括原始特征提取模块和差异特征提取模块；

5.根据权利要求4所述的一种基于多路特征的记忆网络视频摘要方法，其特征在于：所述原始特征提取模块，基于指通过卷积神经网络CNN提取出的视觉特征，作为原始特征；

6.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法，其特征在于：在特征提取模块中，输入视频帧后，采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征，GoogleNet采用模块化的结构，即Inception结构。