CN112560760B - 一种注意力辅助的无监督视频摘要系统 - Google Patents
一种注意力辅助的无监督视频摘要系统 Download PDFInfo
- Publication number
- CN112560760B CN112560760B CN202011550924.0A CN202011550924A CN112560760B CN 112560760 B CN112560760 B CN 112560760B CN 202011550924 A CN202011550924 A CN 202011550924A CN 112560760 B CN112560760 B CN 112560760B
- Authority
- CN
- China
- Prior art keywords
- video
- generator
- video frame
- attention
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种注意力辅助的无监督视频摘要系统。本发明涉及深度学习,计算机视觉,视频分析等领域,所述系统包括挖掘视频帧长时依赖关系的全局自注意力模块,以无监督的方式学习视频帧表征的生成对抗网络模块。本发明在基于深度神经网络的视频摘要任务基础上实现了无监督的训练方式,从而减少了人工大规模标注数据的成本,克服部分网络需要预训练、模型参数过大过多等问题,提升了视频摘要模型的性能。
Description
技术领域
本发明涉及深度学习计算机视觉中的视频理解领域,具体是一种注意力辅助的基于生成对抗网络的无监督视频摘要系统。
背景技术
近年来视频正快速成为互联网中使用最广泛的信息载体,根据思科公司的估计,2020年中视频这一载体可能占据超过80%的互联网流量。因此,自动视频摘要技术受到了越来越多的关注。视频摘要的主要目的是在保持原始视频的主要信息的条件下减少视频的长度。视频摘要生产的较短的视频能更有效率地在APP中被用户浏览,也能更快速地被搜索引擎检索,因此有着广泛的应用。视频摘要领域的主要方法可以分为有监督式和无监督式的视频摘要技术。
有监督的视频摘要技术使用大量人工标注的视频帧信息作为标准来训练模型。有监督的视频摘要通常将问题转化为对视频帧的重要性进行打分和选择的问题。有监督的视频摘要技术通常使用深度学习算法中的循环神经网络或长短期记忆网络学习视频中关键帧的信息,获取帧之间的关系。此类算法的缺点在于,循环神经网络无法有效利用GPU的并行计算能力;长短期记忆网络无法学习长时的依赖关系;需要大量的帧级别的人工标注信息,很难获得大量的学习样本。
无监督的视频摘要技术不需要人工标注的视频信息进行训练,因此可以节约大量的人工成本。通常无监督的视频摘要技术使用长短期记忆网络作为骨干网络,但是长短期记忆网络的特性使其很难捕获长时依赖信息。另一主要的无监督视频摘要技术使用基于强化学习的方法,然而基于强化学习的无监督视频摘要技术的性能依赖于人工设计的回报函数的优劣。
因此,本领域的技术人员致力于开发一种无监督视频摘要模型,通过设计新的自注意力模块与生成对抗网络的训练方式实现无监督的视频摘要模型,以克服现有技术中存在的技术缺陷,并提高模型的性能。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提出一个更好地利用长时依赖信息的视频摘要系统,该模型可以以无监督的方式进行训练和更好地挖掘长时依赖信息,同时达到更好的视频摘要性能。
一种注意力辅助的无监督视频摘要系统,包括特征提取模块、自注意力模块、和生成对抗网络模块,其中,
特征提取模块,被配置为:接受视频输入,并计算视频帧特征;
自注意力模块,被配置为:计算视频的相似性矩阵,获得加权视频帧特征;
生成对抗网络模块,包括生成器和鉴别器,被配置为:生成器使用自注意力模块输出的加权视频帧特征,并使用神经网络计算视频帧表征,预测视频帧的重要性分数并输出,生成新的帧特征;鉴别器将注意力加权帧特征与生成器输出的帧特征作为输入,经过神经网络计算视频帧特征并区分原始视频帧特征和生成器加权帧特征,然后通过鉴别器的输出计算对抗损失和多样性损失;
系统根据生成器预测的分数,挑选关键帧,并生成视频摘要。
进一步地,自注意力模块的计算流程,包括:
步骤A1:输入视频帧特征;
步骤A2:计算整段视频的注意力矩阵;
步骤A3:计算视频帧特征的相似性矩阵;
步骤A4:计算加权视频帧特征。
进一步地,步骤A1中,采用GoogLeNet作为特征提取网络,提取的原始视频的视频帧的特征为1024维向量,作为输入视频帧特征。
进一步地,步骤A2中,通过计算任意两帧特征的加权点积,之后对点积结果进行线性缩放并使用Softmax函数,其结果作为整段视频的注意力矩阵;
进一步地,步骤A3中,使用所述注意力矩阵对每个视频帧按行求累积计算出视频帧特征的相似性矩阵;
进一步地,步骤A4中,将相似性矩阵与原始视频帧特征相乘得到加权视频帧特征。
进一步地,系统运行流程,包括:
步骤1、将视频输入特征提取模块;
步骤2、训练自注意力模块和生成对抗网络模块;
步骤3、对于测试视频,将其进行步骤1的特征提取,并输出到步骤2中的生成器中得到重要性分数;
步骤4、根据生成器预测的分数,挑选关键帧,最终获得并生成视频摘要。
进一步地,步骤1中,特征提取模块采用GoogLeNet作为特征提取网络,提取的视频帧的特征为1024维向量。
进一步地,步骤2包括:
步骤2.1、计算视频中任意两帧的相似性矩阵和多样性矩阵,对输入视频帧进行相乘并加权,输入到生成器中,生成器从而生成新的加权特征和对应的重要性分数;
步骤2.2、鉴别器接收注意力加权帧特征和生成器生成的带权特征作为输入,计算多样性损失和对抗损失,更新鉴别器和生成器的参数;
步骤2.3、重复步骤2.1至步骤2.3直至生成器和鉴别器参数收敛。
进一步地,步骤2.2中,使用反向传播算法更新鉴别器和生成器的参数。
与现有技术相比,本发明的有益效果如下:
在基于深度神经网络的视频摘要任务基础上实现了无监督的训练方式,从而减少了人工大规模标注数据的成本,克服部分网络需要预训练、模型参数过大过多等问题,提升了视频摘要模型的性能。
附图说明
图1是本发明的实施例的视频摘要系统;
图2是本发明的实施例的自注意力模块计算流程示意图;
图3是本发明的实施例的视频摘要模型系统的运行流程示意图。
具体实施方式
以下参考说明书附图介绍本申请的优选实施例,使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现,本申请的保护范围并非仅限于文中提到的实施例。
以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明,以充分地了解本发明的目的、特征和效果,但本发明的保护不仅限于此。
如图1所示,本系统的一个实施例的结构,系统包括特征提取模块、生成对抗网络模块和自注意力模块,其中,
特征提取模块,可接受视频输入,并计算视频帧特征;
自注意力模块,可计算视频的相似性矩阵,获得加权视频帧特征;
生成对抗网络模块,包括生成器和鉴别器,其中生成器使用自注意力模块输出的加权视频帧特征,并使用神经网络计算视频帧表征,预测视频帧的重要性分数并输出,生成新的帧特征;鉴别器将注意力加权帧特征与生成器输出的帧特征作为输入,经过神经网络计算视频帧特征并区分原始视频帧特征和生成器加权帧特征,然后通过鉴别器的输出计算对抗损失和多样性损失。
如图2所示,一个实施例的自注意力模块的计算流程,
输入视频帧特征;
先通过计算任意两帧特征的加权点积,之后对点积结果进行线性缩放并使用Softmax函数,其结果作为整段视频的注意力矩阵A;
使用注意力矩阵A对每个视频帧按行求累积可以计算出视频帧特征的相似性矩阵,将相似性矩阵与原始视频帧特征相乘得到加权视频帧特征,自注意力模块加权的视频帧特征能获取视频帧之间的长时依赖关系,可以使得模型更好地学习全局特征。
如图3所示,一个实施例的系统运行流程:
步骤1、将视频输入特征提取模块,本实施例采用GoogLeNet作为特征提取网络,视频帧的特征为1024维向量;
步骤2、训练自注意力模块和生成对抗网络模块,具体为:
计算视频中任意两帧的相似性矩阵和多样性矩阵,对输入视频帧进行相乘并加权,输入到生成器中,生成器从而生成新的加权特征和对应的重要性分数;
鉴别器接收注意力加权帧特征和生成器生成的带权特征作为输入,计算多样性损失和对抗损失,使用反向传播算法更新鉴别器和生成器的参数;
通过不断的更新鉴别器和生成器的参数,可以使生成器生成的特征与原视频帧的特征足够相似,这样就使得生成器预测的重要性分数可以作为选取关键帧的依据;
训练模型的主程序伪代码如下:
步骤3、对于测试视频,将其进行步骤1的特征提取,并输出到步骤2中的生成器中得到重要性分数;
步骤4、根据生成器预测的分数,挑选关键帧,最终获得并生成视频摘要。
以上详细描述了本申请的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (6)
1.一种注意力辅助的无监督视频摘要系统,其特征在于,包括特征提取模块、自注意力模块、和生成对抗网络模块,被配置为:
所述特征提取模块,接受视频输入,并计算视频帧特征;
所述自注意力模块,计算视频的相似性矩阵,获得加权视频帧特征;
所述生成对抗网络模块,包括生成器和鉴别器,所述生成器使用所述自注意力模块输出的加权视频帧特征,并使用神经网络计算视频帧表征,预测视频帧的重要性分数并输出,生成新的帧特征;所述鉴别器将所述自注意力模块输出的加权视频帧特征与所述生成器生成的帧特征作为输入,经过神经网络计算视频帧特征并区分原始视频帧特征和所述生成器生成的加权帧特征,计算对抗损失和多样性损失;
系统根据生成器预测的分数,挑选关键帧,并生成视频摘要;
所述注意力模块被配置为按以下流程运行,包括:
步骤A1:输入视频帧特征;
步骤A2:计算整段视频的注意力矩阵;
步骤A3:计算视频帧特征的所述相似性矩阵;
步骤A4:计算加权视频帧特征;
所述步骤A2中,通过计算任意两帧特征的加权点积,之后对点积结果进行线性缩放并使用Softmax函数,其结果作为整段视频的所述注意力矩阵;
所述步骤A3中,使用所述注意力矩阵对每个视频帧按行求累积计算出视频帧特征的所述相似性矩阵;
所述步骤A4中,将所述相似性矩阵与原始视频帧特征相乘得到所述加权视频帧特征。
2.如权利要求1所述的系统,其特征在于,所述步骤A1中,采用GoogLeNet作为特征提取网络,提取的原始视频的视频帧的特征为1024维向量,作为输入视频帧特征。
3.如权利要求1所述的系统,其特征在于,其被配置为按以下流程运行,包括:
步骤1、将视频输入特征提取模块;
步骤2、训练所述自注意力模块和所述生成对抗网络模块;
步骤3、对于测试视频,将其进行所述步骤1的特征提取,并输出到所述生成器中得到重要性分数;
步骤4、根据所述生成器预测的分数,挑选关键帧,最终获得并生成视频摘要。
4.如权利要求3所述的系统,其特征在于,所述步骤1中,所述特征提取模块采用GoogLeNet作为特征提取网络,提取的视频帧的特征为1024维向量。
5.如权利要求3所述的系统,其特征在于,所述步骤2包括:
步骤2.1、所述自注意力模块计算视频中任意两帧的所述相似性矩阵和多样性矩阵,对输入视频帧进行相乘并加权,输入到所述生成器中,所述生成器从而生成新的加权特征和对应的重要性分数;
步骤2.2、所述鉴别器接收上一步骤中所述自注意力模块生成的加权帧特征和所述生成器生成的加权特征作为输入,计算多样性损失和对抗损失,更新所述鉴别器和所述生成器的参数;
步骤2.3、重复所述步骤2.1至所述步骤2.3直至所述生成器和所述鉴别器参数收敛。
6.如权利要求5所述的系统,其特征在于,所述步骤2.2中,使用反向传播算法更新所述鉴别器和所述生成器的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550924.0A CN112560760B (zh) | 2020-12-24 | 2020-12-24 | 一种注意力辅助的无监督视频摘要系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550924.0A CN112560760B (zh) | 2020-12-24 | 2020-12-24 | 一种注意力辅助的无监督视频摘要系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560760A CN112560760A (zh) | 2021-03-26 |
CN112560760B true CN112560760B (zh) | 2023-03-10 |
Family
ID=75033484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011550924.0A Active CN112560760B (zh) | 2020-12-24 | 2020-12-24 | 一种注意力辅助的无监督视频摘要系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560760B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113438509A (zh) * | 2021-06-23 | 2021-09-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 视频摘要的生成方法、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413838A (zh) * | 2019-07-15 | 2019-11-05 | 上海交通大学 | 一种无监督视频摘要模型及其建立方法 |
CN111163351A (zh) * | 2019-12-17 | 2020-05-15 | 博雅信安科技(北京)有限公司 | 一种基于渐进式生成对抗网络的视频摘要方法 |
CN112019861A (zh) * | 2020-07-20 | 2020-12-01 | 清华大学 | 基于关键帧指导超分辨率的视频压缩方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019093268A1 (ja) * | 2017-11-08 | 2019-05-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 画像処理装置及び画像処理方法 |
US10650245B2 (en) * | 2018-06-08 | 2020-05-12 | Adobe Inc. | Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks |
-
2020
- 2020-12-24 CN CN202011550924.0A patent/CN112560760B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413838A (zh) * | 2019-07-15 | 2019-11-05 | 上海交通大学 | 一种无监督视频摘要模型及其建立方法 |
CN111163351A (zh) * | 2019-12-17 | 2020-05-15 | 博雅信安科技(北京)有限公司 | 一种基于渐进式生成对抗网络的视频摘要方法 |
CN112019861A (zh) * | 2020-07-20 | 2020-12-01 | 清华大学 | 基于关键帧指导超分辨率的视频压缩方法及装置 |
Non-Patent Citations (2)
Title |
---|
"Unsupervised Video Summarization with Attentive Conditional Generative Adversarial Networks";xufeng he 等;《MM "19: Proceedings of the 27th ACM International Conference on Multimedia》;20191031;第2296-2304页 * |
"基于网络用户视频的摘要技术研究";葛钊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560760A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256561B (zh) | 一种基于对抗学习的多源域适应迁移方法及系统 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
US20160253597A1 (en) | Content-aware domain adaptation for cross-domain classification | |
Lin et al. | Ru-net: Regularized unrolling network for scene graph generation | |
CN103984959A (zh) | 一种基于数据与任务驱动的图像分类方法 | |
Mohamad et al. | A bi-criteria active learning algorithm for dynamic data streams | |
CN113806746B (zh) | 基于改进cnn网络的恶意代码检测方法 | |
CN113469289B (zh) | 视频自监督表征学习方法、装置、计算机设备和介质 | |
US20200285940A1 (en) | Machine learning systems with memory based parameter adaptation for learning fast and slower | |
US11681922B2 (en) | Performing inference and training using sparse neural network | |
Freytag et al. | Labeling examples that matter: Relevance-based active learning with gaussian processes | |
An et al. | Weather classification using convolutional neural networks | |
Lee et al. | Learning in the wild: When, how, and what to learn for on-device dataset adaptation | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN114255371A (zh) | 一种基于组件监督网络的小样本图像分类方法 | |
CN112560760B (zh) | 一种注意力辅助的无监督视频摘要系统 | |
CN116910013A (zh) | 基于语义流图挖掘的系统日志异常检测方法 | |
CN115731498A (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
CN114782752A (zh) | 基于自训练的小样本图像集成分类方法及装置 | |
CN117313709B (zh) | 一种基于统计信息和预训练语言模型的生成文本检测方法 | |
Wong et al. | Real-time adaptive hand motion recognition using a sparse bayesian classifier | |
CN111582287B (zh) | 一种基于充足视觉信息与文本信息的图像描述方法 | |
CN116385946B (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
US11983633B2 (en) | Machine learning predictions by generating condition data and determining correct answers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |