CN110933519A - 一种基于多路特征的记忆网络视频摘要方法 - Google Patents
一种基于多路特征的记忆网络视频摘要方法 Download PDFInfo
- Publication number
- CN110933519A CN110933519A CN201911070602.3A CN201911070602A CN110933519A CN 110933519 A CN110933519 A CN 110933519A CN 201911070602 A CN201911070602 A CN 201911070602A CN 110933519 A CN110933519 A CN 110933519A
- Authority
- CN
- China
- Prior art keywords
- video
- difference
- memory network
- features
- extraction module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多路特征的记忆网络视频摘要方法,视频输入模块,所述视频输入模块用于,录入待处理的视频帧;特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络,本发明可以更好地包含图像的有用信息,记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。
Description
技术领域
本发明涉及计算机视觉和自然语言处理技术领域,具体为一种基于多路特征的记忆网络视频摘要方法。
背景技术
视频摘要(Video Summary)是一种涉及计算机视觉和自然语言处理的学习任务。视频摘要是以选取的视频作为输入,以生成一个简明紧凑的视频摘要作为输出。总的来说,视频摘要就是对输入的视频帧进行特征提取,以选取出最具有代表性的关键帧子集。受益于当下深度学习、神经网络、自然语言处理技术的快速发展,近些年来出现了大量的视频摘要的研究成果。B. Truong等就提出通过对大量视频的搜索与检索可以满足对所需内容的有效需求,但是这并没有提供实际视频内容的具体意义,带来的困难就是很难快速找到所需的内容,基于内容频率或非冗余虽然简单有效,但是却与视频的实时性缺少直接的联系。
在普遍的视频摘要的过程中,以往大多数的视频摘要模型,采用的都是直接将分帧的视频送入到卷积神经网络(CNN),取其某一层的数据作为特征输出,即提取出的视频帧的特征,这种方法虽然便捷迅速,但是却忽视了视频图像中突出的显著性区域和对象,并且很多目前流行的视频摘要系统模型忽略了两两视频帧中显著性区域、对象之间的差异,一般的循环神经网络 (RNN)虽然能缓解这类问题,但是有其自身功能的局限性,无法达到对信息的长时间记忆,因此,我们需要解决的具体问题在于:
(1)如何设计提取视频帧的图像特征,使其可以很好地包含图像的有用信息
(2)如何设计记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆
(3)如何设计选取方式,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。
发明内容
本发明的目的在于提供一种基于多路特征的记忆网络视频摘要方法,以解决上述背景技术中如何设计提取视频帧的图像特征,使其可以很好地包含图像的有用信息,如何设计记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,如何设计选取方式,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果的问题。
为实现上述目的,本发明提供如下技术方案:一种基于多路特征的记忆网络视频摘要方法,包括:
视频输入模块,所述视频输入模块用于,录入待处理的视频帧;
特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征xt,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于 RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络;
记忆网络与关键帧提取模块,所述记忆网络与关键帧提取模块用于,从特征提取模块出来的原始特征xt和差异特征xd被送入记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt;
摘要属性判断模块,所述摘要属性判断模块用于,通过卷及神经网络CNN 的处理,得到xt序列,通过重要性和多样性判断选择视频帧子集的质量。
优选的,所述重要性用于,表示摘要对全文视频信息的覆盖能力;
当做一个k-medoids问题,k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点,此时的中心点大概率就是视频中最重要的视频帧,其如下表示:
imp=min||xt-xt′||2
这里的t和t′表示为非同一时刻。
优选的,所述多样性用于,从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息;
通过利用特征空间所选帧之间的差异大小作为评判标准,其如下所示:
公式中T的代表了所选视频帧的长度,D(xt,xt′)表示的是特征空间帧的差异大小。
优选的,所述特征提取模块包括原始特征提取模块和差异特征提取模块;
优选的,所述原始特征提取模块,基于指通过卷积神经网络CNN提取出的视觉特征,作为原始特征,
所述差异特征提取模块,是在原始特征的基础上求取两两视频帧之间的差异,作为差异特征。
优选的,在特征提取模块中,输入视频帧后,采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征,GoogleNet采用模块化的结构,即Inception结构。
本发明提供了一种基于多路特征的记忆网络视频摘要方法,具备以下有益效果:
本发明采用将视频帧送入到卷积神经网络CNN,提取出的视觉特征我们作为原始特征,在原始特征的基础上我们求取两两视频帧之间的差异作为差异特征,然后把两者都送入到记忆网络,在提取出关键帧之后,判断所选择的视频帧是否满足属性特点的方式,可以更好地包含图像的有用信息,记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。
附图说明
图1为本发明的系统框图;
图2为本发明的流程结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1-2所示,本发明提供一种技术方案:一种基于多路特征的记忆网络视频摘要方法,包括:
视频输入模块,所述视频输入模块用于,录入待处理的视频帧;
特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征xt,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络,原始特征保留了视频的基本信息,差异特征则从侧面为视频所包含信息做了补充,由于 RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络;
记忆网络与关键帧提取模块,所述记忆网络与关键帧提取模块用于,从特征提取模块出来的原始特征xt和差异特征xd被送入记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt;
摘要属性判断模块,所述摘要属性判断模块用于,通过卷及神经网络CNN 的处理,得到xt序列,通过重要性和多样性判断选择视频帧子集的质量。
优选的,所述重要性用于,表示摘要对全文视频信息的覆盖能力;
当做一个k-medoids问题,k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点,此时的中心点大概率就是视频中最重要的视频帧,其如下表示:
imp=min||xt-xt′||2
这里的t和t′表示为非同一时刻。
优选的,所述多样性用于,从另一方面反应出视频摘要是否最大化的包含了原视频的有用的多样化信息;
通过利用特征空间所选帧之间的差异大小作为评判标准,其如下所示:
公式中T的代表了所选视频帧的长度,D(xt,xt′)表示的是特征空间帧的差异大小。
优选的,所述特征提取模块包括原始特征提取模块和差异特征提取模块;
优选的,所述原始特征提取模块,基于指通过卷积神经网络CNN提取出的视觉特征,作为原始特征,
所述差异特征提取模块,是在原始特征的基础上求取两两视频帧之间的差异,作为差异特征。
优选的,在特征提取模块中,输入视频帧后,采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征,GoogleNet采用模块化的结构,即Inception结构。
需要说明的是,一种基于多路特征的记忆网络视频摘要方法,在工作时,通过视频输入模块输入待处理模块,采用在ImageNet上预训练的GoogleNet 作为CNN模型来提取视频图像中的原始特征xt,每个视频用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd和原始特征xt一起输入到 RNN记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt,在经过卷及神经网络CNN的处理后,我们得到xt序列,所选视频帧子集要满足视频摘要的属性,即满足的重要性和多样性两点出发,来判断选择视频帧子集的质量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于多路特征的记忆网络视频摘要方法,其特征在于,包括:
视频输入模块,所述视频输入模块用于,录入待处理的视频帧;
特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征xt,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征xd,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络;
记忆网络与关键帧提取模块,所述记忆网络与关键帧提取模块用于,从特征提取模块出来的原始特征xt和差异特征xd被送入记忆网络,生成各自相应的隐藏状态ht,然后利用sigmoid函数预测视频帧被选取的概率pt;
摘要属性判断模块,所述摘要属性判断模块用于,通过卷及神经网络CNN的处理,得到xt序列,通过重要性和多样性判断选择视频帧子集的质量。
2.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述重要性用于,表示摘要对全文视频信息的覆盖能力;
当做一个k-medoids问题,k-medoids算法的初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点,此时的中心点大概率就是视频中最重要的视频帧,其如下表示:
imp=min||xt-xt′||2
这里的t和t′表示为非同一时刻。
4.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述特征提取模块包括原始特征提取模块和差异特征提取模块;
5.根据权利要求4所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:所述原始特征提取模块,基于指通过卷积神经网络CNN提取出的视觉特征,作为原始特征;
所述差异特征提取模块,是在原始特征的基础上求取两两视频帧之间的差异,作为差异特征。
6.根据权利要求1所述的一种基于多路特征的记忆网络视频摘要方法,其特征在于:在特征提取模块中,输入视频帧后,采用在ImageNet上预训练的GoogleNet作为CNN模型来提取视频图像中的原始特征,GoogleNet采用模块化的结构,即Inception结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911070602.3A CN110933519A (zh) | 2019-11-05 | 2019-11-05 | 一种基于多路特征的记忆网络视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911070602.3A CN110933519A (zh) | 2019-11-05 | 2019-11-05 | 一种基于多路特征的记忆网络视频摘要方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110933519A true CN110933519A (zh) | 2020-03-27 |
Family
ID=69852348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911070602.3A Pending CN110933519A (zh) | 2019-11-05 | 2019-11-05 | 一种基于多路特征的记忆网络视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110933519A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7452641B2 (ja) | 2020-05-28 | 2024-03-19 | 日本電気株式会社 | 情報処理装置、制御方法、及び、プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213896A (zh) * | 2018-08-06 | 2019-01-15 | 杭州电子科技大学 | 基于长短期记忆网络强化学习的水下视频摘要生成方法 |
CN109413510A (zh) * | 2018-10-19 | 2019-03-01 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
US20190303682A1 (en) * | 2018-03-27 | 2019-10-03 | International Business Machines Corporation | Automatic video summary generation |
-
2019
- 2019-11-05 CN CN201911070602.3A patent/CN110933519A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190303682A1 (en) * | 2018-03-27 | 2019-10-03 | International Business Machines Corporation | Automatic video summary generation |
CN109213896A (zh) * | 2018-08-06 | 2019-01-15 | 杭州电子科技大学 | 基于长短期记忆网络强化学习的水下视频摘要生成方法 |
CN109413510A (zh) * | 2018-10-19 | 2019-03-01 | 深圳市商汤科技有限公司 | 视频摘要生成方法和装置、电子设备、计算机存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7452641B2 (ja) | 2020-05-28 | 2024-03-19 | 日本電気株式会社 | 情報処理装置、制御方法、及び、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN112232425B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
WO2021232978A1 (zh) | 视频处理方法、装置、电子设备及计算机可读介质 | |
Xu et al. | Geolocalized modeling for dish recognition | |
US10742340B2 (en) | System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto | |
CN111491187B (zh) | 视频的推荐方法、装置、设备及存储介质 | |
Goh et al. | Food-image Classification Using Neural Network Model | |
CN103384883B (zh) | 利用Top-K处理使语义丰富 | |
CN113378556A (zh) | 提取文本关键字的方法及装置 | |
CN113762138A (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
Zhang et al. | A comprehensive survey on computational aesthetic evaluation of visual art images: Metrics and challenges | |
CN102236714A (zh) | 一种基于xml的交互应用多媒体信息检索方法 | |
CN113596601A (zh) | 一种视频画面的定位方法、相关装置、设备及存储介质 | |
CN109272440A (zh) | 一种联合文本和图像内容的缩略图生成方法及系统 | |
CN109871457A (zh) | 基于图像的数据处理方法、装置、电子设备和存储介质 | |
CN110933519A (zh) | 一种基于多路特征的记忆网络视频摘要方法 | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统 | |
CN116977992A (zh) | 文本信息识别方法、装置、计算机设备和存储介质 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN117011415A (zh) | 一种特效文字的生成方法、装置、电子设备和存储介质 | |
CN116521913A (zh) | 一种基于原型对比学习的草图三维模型检索方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN115171014A (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN112487951B (zh) | 一种手语识别和翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |