CN113626641B - 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法 - Google Patents

一种基于多模态数据和美学原理的神经网络生成视频摘要的方法 Download PDF

Info

Publication number
CN113626641B
CN113626641B CN202110916764.5A CN202110916764A CN113626641B CN 113626641 B CN113626641 B CN 113626641B CN 202110916764 A CN202110916764 A CN 202110916764A CN 113626641 B CN113626641 B CN 113626641B
Authority
CN
China
Prior art keywords
lens
data
video
aesthetic
narrative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110916764.5A
Other languages
English (en)
Other versions
CN113626641A (zh
Inventor
卢少平
谢杰航
杨愚鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202110916764.5A priority Critical patent/CN113626641B/zh
Publication of CN113626641A publication Critical patent/CN113626641A/zh
Application granted granted Critical
Publication of CN113626641B publication Critical patent/CN113626641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种基于多模态数据和美学原理的神经网络生成视频摘要的方法,包括:S100:将原始视频输入到多模态数据提取模块后得到文本模态的字幕数据,音频模态的背景音乐数据和图像模态的视频帧数据,再通过用户输入场景文本数据;S200:将多模态数据再分别输入到多模态特征编码模块中编码,输出各模态数据的特征向量表示序列;S300:将特征向量表示序列输入到重要镜头选择模块,分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。S400:把亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到美学镜头组装模块中筛选出遵循美学原理的高质量镜头并拼接成视频摘要。相较于现有方法,提高了生成的视频摘要的可看性和叙述性。

Description

一种基于多模态数据和美学原理的神经网络生成视频摘要的 方法
技术领域
本发明属于图像和视频处理技术领域,特别涉及一种基于多模态和美学原理的视频摘要生成方法。
背景技术
叙事视频,如纪录片、电影和科学解说,伴随着记叙性讲故事的字幕、画外音和背景音乐,共享沉浸式视觉信息。随着各种在线社交平台上大量的叙事视频的上传,迫切需要制作能够帮助观众快速浏览和理解内容的叙事视频摘要,并将其呈现在电影预告片、知识普及平台以及等许多应用中。
视频摘要的主要目的是生成一个包含给定视频中最具代表性的视觉信息的短视频。一般来说,在将一个相对较长的视频压缩成一个较短的版本时,应该选择最具有代表性的镜头,这些镜头应该按照一定的艺术风格进行连贯的组合,这需要对视频有深入的理解。在此背景下,研究领域引入了各种自动视频摘要方法。
在最近几年,随着机器学习的快速发展,深度神经网络也被用来自动地生成视频摘要。苏黎世联邦理工大学的Gygli等人利用空间和时间显著性和地标性的信息开发了一个线性模型。此外,基于深度学习的方法已经被提出。其中,基于RNN的方法是代表性的方法。特别是西安交通大学的Zhao等人在2020年在IEEE Transactions on IndustrialElectronics上发表的论文“TTH-RNN:Tensor-train hierarchical recurrent neuralnetwork forvideo summarization”中分别使用固定长度的层次RNN和层次结构自适应的LSTM来揭示视频的底层层次结构,推动了深度学习算法在视频摘要生成领域的应用。然而,虽然这些方法可以从原始视频中获取一些重要的视觉信息,但也有一些共同的缺点。例如,在镜头选择过程中,只是通过搜索镜头边界来考虑一些图像信息,将切换后的镜头作为重要内容,而忽略了原视频的多模态信息。因此,生成的视频摘要丢失了大量的信息,使其看起来像是原视频的删节版,没有连贯的叙事信息。
另外,为长视频自动生成一个简短而连贯的摘要是非常困难的,更不用说显示观众感兴趣的视觉内容。虽然有一些总结方案利用一些特定的模式来选择重要的镜头,但很少有方案在镜头组装过程中考虑电影美学准则,这可能会极大地破坏生成的总结的质量。另外,将现有的摘要解决方案直接应用到叙事视频中,由于没有很好地考虑音频、视频帧、字幕等多模态信息,因此,传统方法在生成视频摘要时依然会出现音频不连续并且镜头画面不连贯等问题,进一步影响了生成的视频摘要的质量。
发明内容
本发明目的是解决现有的视频摘要生成方法得到的视频摘要的镜头内容缺乏叙事连贯性,并且在视觉和听觉上内容不连贯的问题。本发明提出一种基于多模态和美学原理的视频摘要生成方法,只要输入原始视频,系统就能够利用美学原理和原始视频中的音频、视频帧、字幕等多模态信息,自动地为原始视频制作高质量的视频摘要,所述方法包括如下步骤:
S100:将原始视频输入到所述多模态数据提取模块后自动得到文本模态的字幕数据,音频模态的背景音乐数据和图像模态的视频帧数据,再通过用户输入所述的场景文本数据;
S200:将所述多模态数据再分别输入到所述多模态特征编码模块中编码,输出各模态数据的特征向量表示序列;
S300:将所述的特征向量表示序列输入到所述重要镜头选择模块,分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。
S400:把所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到所述美学镜头组装模块中筛选出遵循所述美学原理的高质量镜头并拼接成视频摘要。该方法相较于现有方法,提高了生成的视频摘要的可看性和叙述性。
本发明步骤S100中,所述的多模态数据提取模块包括音频数据提取组件、视频帧数据提取组件、字幕数据提取组件、场景文本数据接收组件。音频数据提取组件是一种基于FFmpeg依赖库来抽取出原始视频中的背景音乐数据的组件;视频帧数据提取组件是一种用来将原始视频中的每一帧都保存为图片的组件,通过把原始视频的每一帧单独截取成图片并保存来实现;字幕数据提取组件是一种基于语音识别的方法,该方法识别原始视频中包含的语音句子,并记录语音句子在视频时间轴中出现的时间,再将所有的语音句子和对应的时间保存为纯文本形式;场景文本数据接收组件用于接收并保存用户输入的纯文本数据。
本发明步骤S200中,所述的多模态特征编码模块包括音频编码器、图像编码器、文本编码器。所述的音频编码器是一种基于快速傅里叶变换和梅尔频谱构建的组件,将背景音乐数据编码为波形特征;所述的图像编码器基于残差网络,将频帧图片编码成图像特征矩阵;所述的文本编码器采Transformer编码器和双向门控循环神经元编码器,分别将字幕数据和场景文本数据编码为字幕特征向量和场景特征向量。
本发明所述重要镜头选择模块包括亮点镜头提取组件、代表性镜头提取组件、叙事镜头提取组件和用户期望镜头提取组件。
本发明步骤S300包括:S301:亮点镜头提取组件基于所述波形特征的变化来获取所述原始视频中的亮点镜头;S302:代表性镜头提取组件基于优选的,先进的DSNet,根据图像特征矩阵从所述原始视频中挑选出一组连续的视频帧来当作代表性镜头;S303:叙事镜头提取组件从字幕特征向量中挑选出叙事性字幕,再抽取出原始视频中与这些叙事性字幕对应的镜头,从而获得叙事镜头;S304:用户期望镜头提取组件挑选出图像特征矩阵中与场景特征向量最匹配的图像特征,再根据挑选出的图像特征获得用户期望镜头。
进一步的,步骤S301中的所述亮点镜头提取组件根据以下公式计算的波形特征的变化来获得原始视频中的亮点镜头:
其中,HS是希望选择的高潮镜头,TX(·)表示所有音频片段中排名前x%的片段,ηk表示k的值范围,l是视频的持续时间;假设Ek是音频信号在时间k的值,对于从时间k到k+w的每个音频片段,w是片段时长,那么是该片段的声能值,也就是波形特征的变化值。
进一步的,步骤S303包括:S3001:基于TF-IDF相似度分数和Kmeans文本聚类的文本章节划分方法,用于将字幕数据自动分割成不同的章节;S3002:基于指针网络的解码器,用于解码不同章节的字幕特征向量,从而挑选出不同章节中重要的字幕文本,最后再根据这些重要的字幕文本,得到与字幕文本对应的叙事镜头。
进一步的,步骤S304包括:S3003:基于单词共现度和语义相似度的文本相似度计算组件,用于计算场景文本数据和字幕数据之间的相似度,再创建一个子视频;S3004:基于视觉语义定位方法的镜头定位组件,用于挑选出子视频中符合场景文本数据描述的镜头,这些镜头就是用户期望镜头。
本发明步骤S400所述美学镜头组装模块包括:S401:基于所述美学原理的镜头重选择组件,用于从所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中选择出高质量镜头;S402:镜头组装组件,用于将镜头重选择组件挑选出来的高质量镜头组装成视频摘要。
进一步的,步骤S401包括:将挑选出来的所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中的重复镜头合并,得到没有重复镜头的融合镜头,再从融合镜头中挑选出符合所述美学原理的高质量镜头,最后,将挑选出的高质量镜头按照原始视频的时间轴拼接成一个完整的视频摘要。
上述技术方法将视觉内容、字幕和音频信息整合到镜头选择过程中,建立了关键镜头选择、字幕总结和高亮提取模块。其中关键镜头选择模块和高光提取模块分别采用图像信息和音频信息作为监控信号进行镜头选择。特别是为了保证生成的摘要的叙事能力,字幕摘要模块考虑了原视频在一段时间内的主题连贯性,结合文本摘要的方法进行镜头选择。此外,为了获取用户感兴趣的内容,我们构建了视觉语义匹配模块,该模块综合考虑了字幕与用户设计文本之间的语义相关性对视觉语义定位的影响。此外,我们的解决方案通过一些补充策略自动保证了镜头内容的完整性。然后,根据电影美学准则,在色彩连续性、镜头长度等一系列约束条件下,对选定的镜头进行拼接,从而增加了生成摘要的整体质量。
附图说明
图1是本公开一个实施例中所提供的一种基于多模态数据和美学原理的神经网络生成视频摘要的方法的流程图;
图2是本公开一个实施例中所提供的一种基于多模态数据和美学原理的神经网络生成视频摘要的方法的框架图;
图3是本公开一个实施例中所提供的一种亮点镜头提取组件的工作流程。
图4是本公开一个实施例中所提供的一种用户期望镜头提取组件的工作流程。
图5是本公开一个实施例中所提供的一种叙事镜头提取组件的工作流程。
图6是本公开一个实施例中所提供的一种美学镜头组装模块的工作流程。
表1是本公开一个实施例中本方法和其他传统的模型方法生成的视频摘要的质量对比。
具体实施方式
在大数据时代,视频网站每分甚至每秒都会更新大量的叙事视频,仔细观看每一个视频中的内容显得费时费力。在这种情况下,视频摘要能够节省观众大量的时间和精力,提高观众的观看效率,并且能够在电影预告片、知识普及平台等许多应用中发挥重要的作用。
在一个实施例中,其公开一种多模态数据和美学原理的神经网络生成视频摘要的方法的模型结构,从左到右分别由多模态数据提取模块、多模态特征编码模块、重要镜头选择模块和美学镜头组装模块构成。本发明方法中的多模态数据包括三种模态共四类数据,分别是文本模态的字幕数据和用户输入的场景文本数据、音频模态的背景音乐数据、图像模态的视频帧数据;所述方法中的美学原理包括视频帧的颜色连续性、视频时长和视频镜头的完整性三方面。如图1所示是模型整体框架,所述方法包括如下步骤:
S100:将原始视频输入到所述多模态数据提取模块后自动得到文本模态的字幕数据,音频模态的背景音乐数据和图像模态的视频帧数据,再通过用户输入所述的场景文本数据。
S200:将所述多模态数据再分别输入到所述多模态特征编码模块中编码,输出各模态数据的特征向量表示序列。
S300:将所述的特征向量表示序列输入到所述重要镜头选择模块,分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。
S400:把所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到所述美学镜头组装模块中筛选出遵循所述美学原理的高质量镜头并拼接成视频摘要。该方法相较于现有方法,提高了生成的视频摘要的可看性和叙述性。
下面结合附图,对本发明的具体实施方式作进一步详细描述。参照图3,所述的亮点镜头提取组件通过监督音频能量的波动来获得亮点镜头,提取方法如公式(1)所示:
其中,HS是希望选择的高潮镜头,TX(·)表示所有音频片段中排名前x%的片段,ηk表示k的值范围,l是视频的持续时间。假设Ek是音频信号在时间k的值,对于从时间k到k+w的每个音频片段,w是片段时长,那么是该片段的声能值,也就是波形特征的变化值。
参照图4,在一个实施例中,所述的用户期望镜头提取组件首先利用单词共现度和语义相似度计算场景文本数据和字幕数据之间的相似度,从而得到与场景文本数据相似度最高的字幕数据。接下来,用户期望镜头提取组件根据得到与相似度最高的字幕数据从原始视频中挑选出对应的镜头。最后,用户期望镜头提取组件计算这些镜头的图像特征矩阵中与场景特征向量的匹配度,从这些镜头中挑选出与场景特征向量匹配度最高的镜头来作为用户期望镜头。其中,单词共现度代表场景文本数据和字幕数据中相同单词出现的次数。语义相似度代表字幕特征向量和场景特征向量在向量空间中的距离,距离越近则越相似。
参照图5,在另一个实施例中,所述的叙事镜头提取组件首先基于TF-IDF相似度分数和Kmeans文本聚类方法,将所述字幕数据自动分割成不同的章节,再利用基于指针网络的解码器来解码划分出来的章节,从而挑选出划分出来的不同章节中重要的字幕文本Si,其中,0≤i≤L,L是划分出来的章节数量,最后再根据这些重要的字幕文本,得到与字幕文本对应的叙事镜头。
在另一个实施例中,原始视频的图像特征矩阵输入到代表性镜头提取组件,该组件从输入的图像特征矩阵中挑选出一组连续的视频帧来当作代表性镜头。在该实施例中,所述的代表性镜头提取组件是优选的,先进的DSNet。
参照图6,在另一个实施例中,所述的美学镜头组装模块从所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头中筛选出符合预定义的美学原理的镜头,然后,将这些镜头拼接,当作视频摘要输出。在该实施例中,预定义的美学原理是镜头的颜色连续性,镜头时长和镜头的完整性这三种,颜色连续性代表相邻两个镜头的。
参照表1,在另一个实施例中,本发明所提方法与DR,HSA,VAS和DSN的对比。本发明设计的新的基于多模态和美学原理的视频摘要生成方法可以有效地捕捉到原始视频中出现的重要内容,并且可以解决传统方法难以解决的画外音不连贯问题,从而取得更好的观看体验。
表1
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (10)

1.一种基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:所述神经网络包括多模态数据提取模块、多模态特征编码模块、重要镜头选择模块和美学镜头组装模块四部分;所述方法中的多模态数据包括三种模态共四类数据,分别是文本模态的字幕数据和用户输入的场景文本数据、音频模态的背景音乐数据、图像模态的视频帧数据;所述方法中的美学原理包括视频帧的颜色连续性、视频时长和视频镜头的完整性三方面;所述方法包括如下步骤:S100:将原始视频输入到所述多模态数据提取模块后自动得到文本模态的字幕数据,音频模态的背景音乐数据和图像模态的视频帧数据,再通过用户输入所述的场景文本数据;S200:将所述多模态数据再分别输入到所述多模态特征编码模块中编码,输出各模态数据的特征向量表示序列;S300:将所述的特征向量表示序列输入到所述重要镜头选择模块,分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头;S400:把所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到所述美学镜头组装模块中筛选出遵循所述美学原理的高质量镜头并拼接成视频摘要。
2.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S100中,所述的多模态数据提取模块包括音频数据提取组件、视频帧数据提取组件、字幕数据提取组件、场景文本数据接收组件,其中,音频数据提取组件是一种基于FFmpeg依赖库来抽取出原始视频中的背景音乐数据的组件;视频帧数据提取组件是一种用来将原始视频中的每一帧都保存为图片的组件,通过把原始视频的每一帧单独截取成图片并保存来实现;字幕数据提取组件是一种基于语音识别的方法,该方法识别原始视频中包含的语音句子,并记录语音句子在视频时间轴中出现的时间,再将所有的语音句子和对应的时间保存为纯文本形式;场景文本数据接收组件用于接收并保存用户输入的纯文本数据。
3.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S200中,所述的多模态特征编码模块包括音频编码器、图像编码器、文本编码器,所述的音频编码器是一种基于快速傅里叶变换和梅尔频谱构建的组件,将背景音乐数据编码为波形特征;所述的图像编码器基于残差网络,将频帧图片编码成图像特征矩阵;所述的文本编码器采Transformer编码器和双向门控循环神经元编码器,分别将字幕数据和场景文本数据编码为字幕特征向量和场景特征向量。
4.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:S300中,所述重要镜头选择模块包括亮点镜头提取组件、代表性镜头提取组件、叙事镜头提取组件和用户期望镜头提取组件。
5.根据权利要求3所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S300包括:S301:亮点镜头提取组件基于所述波形特征的变化来获取所述原始视频中的亮点镜头;S302:代表性镜头提取组件基于DSNet,根据图像特征矩阵从所述原始视频中挑选出一组连续的视频帧来当作代表性镜头;S303:叙事镜头提取组件从字幕特征向量中挑选出叙事性字幕,再抽取出原始视频中与这些叙事性字幕对应的镜头,从而获得叙事镜头;S304:用户期望镜头提取组件挑选出图像特征矩阵中与场景特征向量最匹配的图像特征,再根据挑选出的图像特征获得用户期望镜头。
6.根据权利要求5所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S301中的所述亮点镜头提取组件根据以下公式计算的波形特征的变化来获得原始视频中的亮点镜头:
其中,HS是希望选择的高潮镜头,TX(·)表示所有音频片段中排名前x%的片段,ηk表示k的值范围,l是视频的持续时间;假设Ek是音频信号在时间k的值,对于从时间k到k+w的每个音频片段,w是片段时长,那么是该片段的声能值,也就是波形特征的变化值。
7.根据权利要求5所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S303包括:S3001:基于TF-IDF相似度分数和Kmeans文本聚类的文本章节划分方法,用于将字幕数据自动分割成不同的章节;S3002:基于指针网络的解码器,用于解码不同章节的字幕特征向量,从而挑选出不同章节中重要的字幕文本,最后再根据这些重要的字幕文本,得到与字幕文本对应的叙事镜头。
8.根据权利要求5所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S304包括:S3003:基于单词共现度和语义相似度的文本相似度计算组件,用于计算场景文本数据和字幕数据之间的相似度,再创建一个子视频;S3004:基于视觉语义定位方法的镜头定位组件,用于挑选出子视频中符合场景文本数据描述的镜头,这些镜头就是用户期望镜头。
9.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S400所述美学镜头组装模块包括:S401:基于所述美学原理的镜头重选择组件,用于从所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中选择出高质量镜头;S402:镜头组装组件,用于将镜头重选择组件挑选出来的高质量镜头组装成视频摘要。
10.根据权利要求9所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法,其特征是:步骤S401包括:将挑选出来的所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中的重复镜头合并,得到没有重复镜头的融合镜头,再从融合镜头中挑选出符合所述美学原理的高质量镜头,最后,将挑选出的高质量镜头按照原始视频的时间轴拼接成一个完整的视频摘要。
CN202110916764.5A 2021-08-11 2021-08-11 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法 Active CN113626641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110916764.5A CN113626641B (zh) 2021-08-11 2021-08-11 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110916764.5A CN113626641B (zh) 2021-08-11 2021-08-11 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法

Publications (2)

Publication Number Publication Date
CN113626641A CN113626641A (zh) 2021-11-09
CN113626641B true CN113626641B (zh) 2023-09-01

Family

ID=78384260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110916764.5A Active CN113626641B (zh) 2021-08-11 2021-08-11 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法

Country Status (1)

Country Link
CN (1) CN113626641B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822876A (zh) * 2021-11-12 2021-12-21 阿里巴巴达摩院(杭州)科技有限公司 视频质量评估方法、装置及存储介质
CN113923504B (zh) * 2021-12-02 2022-03-08 阿里巴巴达摩院(杭州)科技有限公司 视频预览动图生成方法和装置
CN114339450B (zh) * 2022-03-11 2022-07-15 中国科学技术大学 视频评论生成方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN107948646A (zh) * 2017-09-26 2018-04-20 北京字节跳动网络技术有限公司 一种视频摘要生成方法与视频再编码方法
CN108882057A (zh) * 2017-05-09 2018-11-23 北京小度互娱科技有限公司 视频摘要生成方法及装置
CN110113593A (zh) * 2019-06-11 2019-08-09 南开大学 基于卷积神经网络的宽基线多视点视频合成方法
CN110324728A (zh) * 2019-06-28 2019-10-11 浙江传媒学院 基于深度强化学习的体育赛事全场回顾短视频生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN108882057A (zh) * 2017-05-09 2018-11-23 北京小度互娱科技有限公司 视频摘要生成方法及装置
CN107948646A (zh) * 2017-09-26 2018-04-20 北京字节跳动网络技术有限公司 一种视频摘要生成方法与视频再编码方法
CN110113593A (zh) * 2019-06-11 2019-08-09 南开大学 基于卷积神经网络的宽基线多视点视频合成方法
CN110324728A (zh) * 2019-06-28 2019-10-11 浙江传媒学院 基于深度强化学习的体育赛事全场回顾短视频生成方法

Also Published As

Publication number Publication date
CN113626641A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113626641B (zh) 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
EP0786115B1 (en) System and method for skimming digital audio/video data
JP5552769B2 (ja) 画像編集装置、画像編集方法及びプログラム
JP2008148121A (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
TW202002611A (zh) 視頻字幕顯示方法及裝置
US20050180730A1 (en) Method, medium, and apparatus for summarizing a plurality of frames
KR20000054561A (ko) 비디오 인덱싱 방식을 이용한 네트워크 기반의 비디오검색 시스템 및 그 운영방법
JP2008148077A (ja) 動画再生装置
JP2002533841A (ja) 個人用ビデオ分類及び検索システム
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
US20130216202A1 (en) Method, apparatus and computer program product for subtitle synchronization in multimedia content
KR100374040B1 (ko) 비디오 텍스트 합성 키 프레임 추출방법
Dale et al. Multi-video browsing and summarization
KR20090089878A (ko) 개요 및 리포트를 이미 포함하는 시청각 도큐먼트의 새로운 개요를 생성하기 위한 방법 및 상기 방법을 구현할 수 있는 수신기
CN105763949A (zh) 一种影音文件播放方法和装置
US20110103768A1 (en) Information processing apparatus, scene search method, and program
Gagnon et al. Towards computer-vision software tools to increase production and accessibility of video description for people with vision loss
JP2019003585A (ja) 要約映像生成装置およびそのプログラム
US20040205655A1 (en) Method and system for producing a book from a video source
KR20080112975A (ko) 스크립트 정보 기반 동영상 검색을 위한 데이터베이스 구축방법, 데이터베이스 구축 시스템, 데이터베이스 구축용컴퓨터 프로그램이 기록된 기록매체 및 이를 이용한 동영상검색 방법
CN114339391A (zh) 视频数据处理方法、装置、计算机设备以及存储介质
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant