CN112560760B - 一种注意力辅助的无监督视频摘要系统 - Google Patents

一种注意力辅助的无监督视频摘要系统 Download PDF

Info

Publication number
CN112560760B
CN112560760B CN202011550924.0A CN202011550924A CN112560760B CN 112560760 B CN112560760 B CN 112560760B CN 202011550924 A CN202011550924 A CN 202011550924A CN 112560760 B CN112560760 B CN 112560760B
Authority
CN
China
Prior art keywords
video
generator
video frame
attention
weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011550924.0A
Other languages
English (en)
Other versions
CN112560760A (zh
Inventor
马汝辉
刘俊男
宋涛
华扬
管海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011550924.0A priority Critical patent/CN112560760B/zh
Publication of CN112560760A publication Critical patent/CN112560760A/zh
Application granted granted Critical
Publication of CN112560760B publication Critical patent/CN112560760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种注意力辅助的无监督视频摘要系统。本发明涉及深度学习,计算机视觉,视频分析等领域,所述系统包括挖掘视频帧长时依赖关系的全局自注意力模块,以无监督的方式学习视频帧表征的生成对抗网络模块。本发明在基于深度神经网络的视频摘要任务基础上实现了无监督的训练方式,从而减少了人工大规模标注数据的成本,克服部分网络需要预训练、模型参数过大过多等问题,提升了视频摘要模型的性能。

Description

一种注意力辅助的无监督视频摘要系统
技术领域
本发明涉及深度学习计算机视觉中的视频理解领域,具体是一种注意力辅助的基于生成对抗网络的无监督视频摘要系统。
背景技术
近年来视频正快速成为互联网中使用最广泛的信息载体,根据思科公司的估计,2020年中视频这一载体可能占据超过80%的互联网流量。因此,自动视频摘要技术受到了越来越多的关注。视频摘要的主要目的是在保持原始视频的主要信息的条件下减少视频的长度。视频摘要生产的较短的视频能更有效率地在APP中被用户浏览,也能更快速地被搜索引擎检索,因此有着广泛的应用。视频摘要领域的主要方法可以分为有监督式和无监督式的视频摘要技术。
有监督的视频摘要技术使用大量人工标注的视频帧信息作为标准来训练模型。有监督的视频摘要通常将问题转化为对视频帧的重要性进行打分和选择的问题。有监督的视频摘要技术通常使用深度学习算法中的循环神经网络或长短期记忆网络学习视频中关键帧的信息,获取帧之间的关系。此类算法的缺点在于,循环神经网络无法有效利用GPU的并行计算能力;长短期记忆网络无法学习长时的依赖关系;需要大量的帧级别的人工标注信息,很难获得大量的学习样本。
无监督的视频摘要技术不需要人工标注的视频信息进行训练,因此可以节约大量的人工成本。通常无监督的视频摘要技术使用长短期记忆网络作为骨干网络,但是长短期记忆网络的特性使其很难捕获长时依赖信息。另一主要的无监督视频摘要技术使用基于强化学习的方法,然而基于强化学习的无监督视频摘要技术的性能依赖于人工设计的回报函数的优劣。
因此,本领域的技术人员致力于开发一种无监督视频摘要模型,通过设计新的自注意力模块与生成对抗网络的训练方式实现无监督的视频摘要模型,以克服现有技术中存在的技术缺陷,并提高模型的性能。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提出一个更好地利用长时依赖信息的视频摘要系统,该模型可以以无监督的方式进行训练和更好地挖掘长时依赖信息,同时达到更好的视频摘要性能。
一种注意力辅助的无监督视频摘要系统,包括特征提取模块、自注意力模块、和生成对抗网络模块,其中,
特征提取模块,被配置为:接受视频输入,并计算视频帧特征;
自注意力模块,被配置为:计算视频的相似性矩阵,获得加权视频帧特征;
生成对抗网络模块,包括生成器和鉴别器,被配置为:生成器使用自注意力模块输出的加权视频帧特征,并使用神经网络计算视频帧表征,预测视频帧的重要性分数并输出,生成新的帧特征;鉴别器将注意力加权帧特征与生成器输出的帧特征作为输入,经过神经网络计算视频帧特征并区分原始视频帧特征和生成器加权帧特征,然后通过鉴别器的输出计算对抗损失和多样性损失;
系统根据生成器预测的分数,挑选关键帧,并生成视频摘要。
进一步地,自注意力模块的计算流程,包括:
步骤A1:输入视频帧特征;
步骤A2:计算整段视频的注意力矩阵;
步骤A3:计算视频帧特征的相似性矩阵;
步骤A4:计算加权视频帧特征。
进一步地,步骤A1中,采用GoogLeNet作为特征提取网络,提取的原始视频的视频帧的特征为1024维向量,作为输入视频帧特征。
进一步地,步骤A2中,通过计算任意两帧特征的加权点积,之后对点积结果进行线性缩放并使用Softmax函数,其结果作为整段视频的注意力矩阵;
进一步地,步骤A3中,使用所述注意力矩阵对每个视频帧按行求累积计算出视频帧特征的相似性矩阵;
进一步地,步骤A4中,将相似性矩阵与原始视频帧特征相乘得到加权视频帧特征。
进一步地,系统运行流程,包括:
步骤1、将视频输入特征提取模块;
步骤2、训练自注意力模块和生成对抗网络模块;
步骤3、对于测试视频,将其进行步骤1的特征提取,并输出到步骤2中的生成器中得到重要性分数;
步骤4、根据生成器预测的分数,挑选关键帧,最终获得并生成视频摘要。
进一步地,步骤1中,特征提取模块采用GoogLeNet作为特征提取网络,提取的视频帧的特征为1024维向量。
进一步地,步骤2包括:
步骤2.1、计算视频中任意两帧的相似性矩阵和多样性矩阵,对输入视频帧进行相乘并加权,输入到生成器中,生成器从而生成新的加权特征和对应的重要性分数;
步骤2.2、鉴别器接收注意力加权帧特征和生成器生成的带权特征作为输入,计算多样性损失和对抗损失,更新鉴别器和生成器的参数;
步骤2.3、重复步骤2.1至步骤2.3直至生成器和鉴别器参数收敛。
进一步地,步骤2.2中,使用反向传播算法更新鉴别器和生成器的参数。
与现有技术相比,本发明的有益效果如下:
在基于深度神经网络的视频摘要任务基础上实现了无监督的训练方式,从而减少了人工大规模标注数据的成本,克服部分网络需要预训练、模型参数过大过多等问题,提升了视频摘要模型的性能。
附图说明
图1是本发明的实施例的视频摘要系统;
图2是本发明的实施例的自注意力模块计算流程示意图;
图3是本发明的实施例的视频摘要模型系统的运行流程示意图。
具体实施方式
以下参考说明书附图介绍本申请的优选实施例,使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现,本申请的保护范围并非仅限于文中提到的实施例。
以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明,以充分地了解本发明的目的、特征和效果,但本发明的保护不仅限于此。
如图1所示,本系统的一个实施例的结构,系统包括特征提取模块、生成对抗网络模块和自注意力模块,其中,
特征提取模块,可接受视频输入,并计算视频帧特征;
自注意力模块,可计算视频的相似性矩阵,获得加权视频帧特征;
生成对抗网络模块,包括生成器和鉴别器,其中生成器使用自注意力模块输出的加权视频帧特征,并使用神经网络计算视频帧表征,预测视频帧的重要性分数并输出,生成新的帧特征;鉴别器将注意力加权帧特征与生成器输出的帧特征作为输入,经过神经网络计算视频帧特征并区分原始视频帧特征和生成器加权帧特征,然后通过鉴别器的输出计算对抗损失和多样性损失。
如图2所示,一个实施例的自注意力模块的计算流程,
输入视频帧特征;
先通过计算任意两帧特征的加权点积,之后对点积结果进行线性缩放并使用Softmax函数,其结果作为整段视频的注意力矩阵A;
使用注意力矩阵A对每个视频帧按行求累积可以计算出视频帧特征的相似性矩阵,将相似性矩阵与原始视频帧特征相乘得到加权视频帧特征,自注意力模块加权的视频帧特征能获取视频帧之间的长时依赖关系,可以使得模型更好地学习全局特征。
如图3所示,一个实施例的系统运行流程:
步骤1、将视频输入特征提取模块,本实施例采用GoogLeNet作为特征提取网络,视频帧的特征为1024维向量;
步骤2、训练自注意力模块和生成对抗网络模块,具体为:
计算视频中任意两帧的相似性矩阵和多样性矩阵,对输入视频帧进行相乘并加权,输入到生成器中,生成器从而生成新的加权特征和对应的重要性分数;
鉴别器接收注意力加权帧特征和生成器生成的带权特征作为输入,计算多样性损失和对抗损失,使用反向传播算法更新鉴别器和生成器的参数;
通过不断的更新鉴别器和生成器的参数,可以使生成器生成的特征与原视频帧的特征足够相似,这样就使得生成器预测的重要性分数可以作为选取关键帧的依据;
训练模型的主程序伪代码如下:
Figure BDA0002857724770000041
步骤3、对于测试视频,将其进行步骤1的特征提取,并输出到步骤2中的生成器中得到重要性分数;
步骤4、根据生成器预测的分数,挑选关键帧,最终获得并生成视频摘要。
以上详细描述了本申请的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (6)

1.一种注意力辅助的无监督视频摘要系统,其特征在于,包括特征提取模块、自注意力模块、和生成对抗网络模块,被配置为:
所述特征提取模块,接受视频输入,并计算视频帧特征;
所述自注意力模块,计算视频的相似性矩阵,获得加权视频帧特征;
所述生成对抗网络模块,包括生成器和鉴别器,所述生成器使用所述自注意力模块输出的加权视频帧特征,并使用神经网络计算视频帧表征,预测视频帧的重要性分数并输出,生成新的帧特征;所述鉴别器将所述自注意力模块输出的加权视频帧特征与所述生成器生成的帧特征作为输入,经过神经网络计算视频帧特征并区分原始视频帧特征和所述生成器生成的加权帧特征,计算对抗损失和多样性损失;
系统根据生成器预测的分数,挑选关键帧,并生成视频摘要;
所述注意力模块被配置为按以下流程运行,包括:
步骤A1:输入视频帧特征;
步骤A2:计算整段视频的注意力矩阵;
步骤A3:计算视频帧特征的所述相似性矩阵;
步骤A4:计算加权视频帧特征;
所述步骤A2中,通过计算任意两帧特征的加权点积,之后对点积结果进行线性缩放并使用Softmax函数,其结果作为整段视频的所述注意力矩阵;
所述步骤A3中,使用所述注意力矩阵对每个视频帧按行求累积计算出视频帧特征的所述相似性矩阵;
所述步骤A4中,将所述相似性矩阵与原始视频帧特征相乘得到所述加权视频帧特征。
2.如权利要求1所述的系统,其特征在于,所述步骤A1中,采用GoogLeNet作为特征提取网络,提取的原始视频的视频帧的特征为1024维向量,作为输入视频帧特征。
3.如权利要求1所述的系统,其特征在于,其被配置为按以下流程运行,包括:
步骤1、将视频输入特征提取模块;
步骤2、训练所述自注意力模块和所述生成对抗网络模块;
步骤3、对于测试视频,将其进行所述步骤1的特征提取,并输出到所述生成器中得到重要性分数;
步骤4、根据所述生成器预测的分数,挑选关键帧,最终获得并生成视频摘要。
4.如权利要求3所述的系统,其特征在于,所述步骤1中,所述特征提取模块采用GoogLeNet作为特征提取网络,提取的视频帧的特征为1024维向量。
5.如权利要求3所述的系统,其特征在于,所述步骤2包括:
步骤2.1、所述自注意力模块计算视频中任意两帧的所述相似性矩阵和多样性矩阵,对输入视频帧进行相乘并加权,输入到所述生成器中,所述生成器从而生成新的加权特征和对应的重要性分数;
步骤2.2、所述鉴别器接收上一步骤中所述自注意力模块生成的加权帧特征和所述生成器生成的加权特征作为输入,计算多样性损失和对抗损失,更新所述鉴别器和所述生成器的参数;
步骤2.3、重复所述步骤2.1至所述步骤2.3直至所述生成器和所述鉴别器参数收敛。
6.如权利要求5所述的系统,其特征在于,所述步骤2.2中,使用反向传播算法更新所述鉴别器和所述生成器的参数。
CN202011550924.0A 2020-12-24 2020-12-24 一种注意力辅助的无监督视频摘要系统 Active CN112560760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011550924.0A CN112560760B (zh) 2020-12-24 2020-12-24 一种注意力辅助的无监督视频摘要系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011550924.0A CN112560760B (zh) 2020-12-24 2020-12-24 一种注意力辅助的无监督视频摘要系统

Publications (2)

Publication Number Publication Date
CN112560760A CN112560760A (zh) 2021-03-26
CN112560760B true CN112560760B (zh) 2023-03-10

Family

ID=75033484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011550924.0A Active CN112560760B (zh) 2020-12-24 2020-12-24 一种注意力辅助的无监督视频摘要系统

Country Status (1)

Country Link
CN (1) CN112560760B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438509A (zh) * 2021-06-23 2021-09-24 腾讯音乐娱乐科技(深圳)有限公司 视频摘要的生成方法、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413838A (zh) * 2019-07-15 2019-11-05 上海交通大学 一种无监督视频摘要模型及其建立方法
CN111163351A (zh) * 2019-12-17 2020-05-15 博雅信安科技(北京)有限公司 一种基于渐进式生成对抗网络的视频摘要方法
CN112019861A (zh) * 2020-07-20 2020-12-01 清华大学 基于关键帧指导超分辨率的视频压缩方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093268A1 (ja) * 2017-11-08 2019-05-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像処理装置及び画像処理方法
US10650245B2 (en) * 2018-06-08 2020-05-12 Adobe Inc. Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413838A (zh) * 2019-07-15 2019-11-05 上海交通大学 一种无监督视频摘要模型及其建立方法
CN111163351A (zh) * 2019-12-17 2020-05-15 博雅信安科技(北京)有限公司 一种基于渐进式生成对抗网络的视频摘要方法
CN112019861A (zh) * 2020-07-20 2020-12-01 清华大学 基于关键帧指导超分辨率的视频压缩方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Unsupervised Video Summarization with Attentive Conditional Generative Adversarial Networks";xufeng he 等;《MM "19: Proceedings of the 27th ACM International Conference on Multimedia》;20191031;第2296-2304页 *
"基于网络用户视频的摘要技术研究";葛钊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第01期);全文 *

Also Published As

Publication number Publication date
CN112560760A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN108256561B (zh) 一种基于对抗学习的多源域适应迁移方法及系统
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
US20160253597A1 (en) Content-aware domain adaptation for cross-domain classification
Lin et al. Ru-net: Regularized unrolling network for scene graph generation
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
Mohamad et al. A bi-criteria active learning algorithm for dynamic data streams
CN113806746B (zh) 基于改进cnn网络的恶意代码检测方法
CN113469289B (zh) 视频自监督表征学习方法、装置、计算机设备和介质
US20200285940A1 (en) Machine learning systems with memory based parameter adaptation for learning fast and slower
US11681922B2 (en) Performing inference and training using sparse neural network
Freytag et al. Labeling examples that matter: Relevance-based active learning with gaussian processes
An et al. Weather classification using convolutional neural networks
Lee et al. Learning in the wild: When, how, and what to learn for on-device dataset adaptation
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
CN112560760B (zh) 一种注意力辅助的无监督视频摘要系统
CN116910013A (zh) 基于语义流图挖掘的系统日志异常检测方法
CN115731498A (zh) 一种联合强化学习和对比学习的视频摘要生成方法
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
Wong et al. Real-time adaptive hand motion recognition using a sparse bayesian classifier
CN111582287B (zh) 一种基于充足视觉信息与文本信息的图像描述方法
CN116385946B (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
US11983633B2 (en) Machine learning predictions by generating condition data and determining correct answers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant