CN113626641B

CN113626641B - 一种基于多模态数据和美学原理的神经网络生成视频摘要的方法

Info

Publication number: CN113626641B
Application number: CN202110916764.5A
Authority: CN
Inventors: 卢少平; 谢杰航; 杨愚鲁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-09-01
Anticipated expiration: 2041-08-11
Also published as: CN113626641A

Abstract

一种基于多模态数据和美学原理的神经网络生成视频摘要的方法，包括：S100：将原始视频输入到多模态数据提取模块后得到文本模态的字幕数据，音频模态的背景音乐数据和图像模态的视频帧数据，再通过用户输入场景文本数据；S200：将多模态数据再分别输入到多模态特征编码模块中编码，输出各模态数据的特征向量表示序列；S300：将特征向量表示序列输入到重要镜头选择模块，分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。S400：把亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到美学镜头组装模块中筛选出遵循美学原理的高质量镜头并拼接成视频摘要。相较于现有方法，提高了生成的视频摘要的可看性和叙述性。

Description

一种基于多模态数据和美学原理的神经网络生成视频摘要的方法

技术领域

本发明属于图像和视频处理技术领域，特别涉及一种基于多模态和美学原理的视频摘要生成方法。

背景技术

叙事视频，如纪录片、电影和科学解说，伴随着记叙性讲故事的字幕、画外音和背景音乐，共享沉浸式视觉信息。随着各种在线社交平台上大量的叙事视频的上传，迫切需要制作能够帮助观众快速浏览和理解内容的叙事视频摘要，并将其呈现在电影预告片、知识普及平台以及等许多应用中。

视频摘要的主要目的是生成一个包含给定视频中最具代表性的视觉信息的短视频。一般来说，在将一个相对较长的视频压缩成一个较短的版本时，应该选择最具有代表性的镜头，这些镜头应该按照一定的艺术风格进行连贯的组合，这需要对视频有深入的理解。在此背景下，研究领域引入了各种自动视频摘要方法。

在最近几年，随着机器学习的快速发展，深度神经网络也被用来自动地生成视频摘要。苏黎世联邦理工大学的Gygli等人利用空间和时间显著性和地标性的信息开发了一个线性模型。此外，基于深度学习的方法已经被提出。其中，基于RNN的方法是代表性的方法。特别是西安交通大学的Zhao等人在2020年在IEEE Transactions on IndustrialElectronics上发表的论文“TTH-RNN:Tensor-train hierarchical recurrent neuralnetwork forvideo summarization”中分别使用固定长度的层次RNN和层次结构自适应的LSTM来揭示视频的底层层次结构，推动了深度学习算法在视频摘要生成领域的应用。然而，虽然这些方法可以从原始视频中获取一些重要的视觉信息，但也有一些共同的缺点。例如，在镜头选择过程中，只是通过搜索镜头边界来考虑一些图像信息，将切换后的镜头作为重要内容，而忽略了原视频的多模态信息。因此，生成的视频摘要丢失了大量的信息，使其看起来像是原视频的删节版，没有连贯的叙事信息。

另外，为长视频自动生成一个简短而连贯的摘要是非常困难的，更不用说显示观众感兴趣的视觉内容。虽然有一些总结方案利用一些特定的模式来选择重要的镜头，但很少有方案在镜头组装过程中考虑电影美学准则，这可能会极大地破坏生成的总结的质量。另外，将现有的摘要解决方案直接应用到叙事视频中，由于没有很好地考虑音频、视频帧、字幕等多模态信息，因此，传统方法在生成视频摘要时依然会出现音频不连续并且镜头画面不连贯等问题，进一步影响了生成的视频摘要的质量。

发明内容

本发明目的是解决现有的视频摘要生成方法得到的视频摘要的镜头内容缺乏叙事连贯性，并且在视觉和听觉上内容不连贯的问题。本发明提出一种基于多模态和美学原理的视频摘要生成方法，只要输入原始视频，系统就能够利用美学原理和原始视频中的音频、视频帧、字幕等多模态信息，自动地为原始视频制作高质量的视频摘要，所述方法包括如下步骤：

S100：将原始视频输入到所述多模态数据提取模块后自动得到文本模态的字幕数据，音频模态的背景音乐数据和图像模态的视频帧数据，再通过用户输入所述的场景文本数据；

S200：将所述多模态数据再分别输入到所述多模态特征编码模块中编码，输出各模态数据的特征向量表示序列；

S300：将所述的特征向量表示序列输入到所述重要镜头选择模块，分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头。

S400：把所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到所述美学镜头组装模块中筛选出遵循所述美学原理的高质量镜头并拼接成视频摘要。该方法相较于现有方法，提高了生成的视频摘要的可看性和叙述性。

本发明步骤S100中，所述的多模态数据提取模块包括音频数据提取组件、视频帧数据提取组件、字幕数据提取组件、场景文本数据接收组件。音频数据提取组件是一种基于FFmpeg依赖库来抽取出原始视频中的背景音乐数据的组件；视频帧数据提取组件是一种用来将原始视频中的每一帧都保存为图片的组件，通过把原始视频的每一帧单独截取成图片并保存来实现；字幕数据提取组件是一种基于语音识别的方法，该方法识别原始视频中包含的语音句子，并记录语音句子在视频时间轴中出现的时间，再将所有的语音句子和对应的时间保存为纯文本形式；场景文本数据接收组件用于接收并保存用户输入的纯文本数据。

本发明步骤S200中，所述的多模态特征编码模块包括音频编码器、图像编码器、文本编码器。所述的音频编码器是一种基于快速傅里叶变换和梅尔频谱构建的组件，将背景音乐数据编码为波形特征；所述的图像编码器基于残差网络，将频帧图片编码成图像特征矩阵；所述的文本编码器采Transformer编码器和双向门控循环神经元编码器，分别将字幕数据和场景文本数据编码为字幕特征向量和场景特征向量。

本发明所述重要镜头选择模块包括亮点镜头提取组件、代表性镜头提取组件、叙事镜头提取组件和用户期望镜头提取组件。

本发明步骤S300包括：S301：亮点镜头提取组件基于所述波形特征的变化来获取所述原始视频中的亮点镜头；S302：代表性镜头提取组件基于优选的，先进的DSNet，根据图像特征矩阵从所述原始视频中挑选出一组连续的视频帧来当作代表性镜头；S303：叙事镜头提取组件从字幕特征向量中挑选出叙事性字幕，再抽取出原始视频中与这些叙事性字幕对应的镜头，从而获得叙事镜头；S304：用户期望镜头提取组件挑选出图像特征矩阵中与场景特征向量最匹配的图像特征，再根据挑选出的图像特征获得用户期望镜头。

进一步的，步骤S301中的所述亮点镜头提取组件根据以下公式计算的波形特征的变化来获得原始视频中的亮点镜头：

其中，HS是希望选择的高潮镜头，T_X(·)表示所有音频片段中排名前x％的片段，η_k表示k的值范围，l是视频的持续时间；假设E_k是音频信号在时间k的值，对于从时间k到k+w的每个音频片段，w是片段时长，那么是该片段的声能值，也就是波形特征的变化值。

进一步的，步骤S303包括：S3001:基于TF-IDF相似度分数和Kmeans文本聚类的文本章节划分方法，用于将字幕数据自动分割成不同的章节；S3002:基于指针网络的解码器，用于解码不同章节的字幕特征向量，从而挑选出不同章节中重要的字幕文本，最后再根据这些重要的字幕文本，得到与字幕文本对应的叙事镜头。

进一步的，步骤S304包括：S3003:基于单词共现度和语义相似度的文本相似度计算组件，用于计算场景文本数据和字幕数据之间的相似度，再创建一个子视频；S3004:基于视觉语义定位方法的镜头定位组件，用于挑选出子视频中符合场景文本数据描述的镜头，这些镜头就是用户期望镜头。

本发明步骤S400所述美学镜头组装模块包括：S401：基于所述美学原理的镜头重选择组件，用于从所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中选择出高质量镜头；S402：镜头组装组件，用于将镜头重选择组件挑选出来的高质量镜头组装成视频摘要。

进一步的，步骤S401包括：将挑选出来的所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中的重复镜头合并，得到没有重复镜头的融合镜头，再从融合镜头中挑选出符合所述美学原理的高质量镜头，最后，将挑选出的高质量镜头按照原始视频的时间轴拼接成一个完整的视频摘要。

上述技术方法将视觉内容、字幕和音频信息整合到镜头选择过程中，建立了关键镜头选择、字幕总结和高亮提取模块。其中关键镜头选择模块和高光提取模块分别采用图像信息和音频信息作为监控信号进行镜头选择。特别是为了保证生成的摘要的叙事能力，字幕摘要模块考虑了原视频在一段时间内的主题连贯性，结合文本摘要的方法进行镜头选择。此外，为了获取用户感兴趣的内容，我们构建了视觉语义匹配模块，该模块综合考虑了字幕与用户设计文本之间的语义相关性对视觉语义定位的影响。此外，我们的解决方案通过一些补充策略自动保证了镜头内容的完整性。然后，根据电影美学准则，在色彩连续性、镜头长度等一系列约束条件下，对选定的镜头进行拼接，从而增加了生成摘要的整体质量。

附图说明

图1是本公开一个实施例中所提供的一种基于多模态数据和美学原理的神经网络生成视频摘要的方法的流程图；

图2是本公开一个实施例中所提供的一种基于多模态数据和美学原理的神经网络生成视频摘要的方法的框架图；

图3是本公开一个实施例中所提供的一种亮点镜头提取组件的工作流程。

图4是本公开一个实施例中所提供的一种用户期望镜头提取组件的工作流程。

图5是本公开一个实施例中所提供的一种叙事镜头提取组件的工作流程。

图6是本公开一个实施例中所提供的一种美学镜头组装模块的工作流程。

表1是本公开一个实施例中本方法和其他传统的模型方法生成的视频摘要的质量对比。

具体实施方式

在大数据时代，视频网站每分甚至每秒都会更新大量的叙事视频，仔细观看每一个视频中的内容显得费时费力。在这种情况下，视频摘要能够节省观众大量的时间和精力，提高观众的观看效率，并且能够在电影预告片、知识普及平台等许多应用中发挥重要的作用。

在一个实施例中，其公开一种多模态数据和美学原理的神经网络生成视频摘要的方法的模型结构，从左到右分别由多模态数据提取模块、多模态特征编码模块、重要镜头选择模块和美学镜头组装模块构成。本发明方法中的多模态数据包括三种模态共四类数据，分别是文本模态的字幕数据和用户输入的场景文本数据、音频模态的背景音乐数据、图像模态的视频帧数据；所述方法中的美学原理包括视频帧的颜色连续性、视频时长和视频镜头的完整性三方面。如图1所示是模型整体框架，所述方法包括如下步骤：

S100：将原始视频输入到所述多模态数据提取模块后自动得到文本模态的字幕数据，音频模态的背景音乐数据和图像模态的视频帧数据，再通过用户输入所述的场景文本数据。

S200：将所述多模态数据再分别输入到所述多模态特征编码模块中编码，输出各模态数据的特征向量表示序列。

下面结合附图，对本发明的具体实施方式作进一步详细描述。参照图3，所述的亮点镜头提取组件通过监督音频能量的波动来获得亮点镜头，提取方法如公式(1)所示：

其中，HS是希望选择的高潮镜头，T_X(·)表示所有音频片段中排名前x％的片段，η_k表示k的值范围，l是视频的持续时间。假设E_k是音频信号在时间k的值，对于从时间k到k+w的每个音频片段，w是片段时长，那么是该片段的声能值，也就是波形特征的变化值。

参照图4，在一个实施例中，所述的用户期望镜头提取组件首先利用单词共现度和语义相似度计算场景文本数据和字幕数据之间的相似度，从而得到与场景文本数据相似度最高的字幕数据。接下来，用户期望镜头提取组件根据得到与相似度最高的字幕数据从原始视频中挑选出对应的镜头。最后，用户期望镜头提取组件计算这些镜头的图像特征矩阵中与场景特征向量的匹配度，从这些镜头中挑选出与场景特征向量匹配度最高的镜头来作为用户期望镜头。其中，单词共现度代表场景文本数据和字幕数据中相同单词出现的次数。语义相似度代表字幕特征向量和场景特征向量在向量空间中的距离，距离越近则越相似。

参照图5，在另一个实施例中，所述的叙事镜头提取组件首先基于TF-IDF相似度分数和Kmeans文本聚类方法，将所述字幕数据自动分割成不同的章节，再利用基于指针网络的解码器来解码划分出来的章节，从而挑选出划分出来的不同章节中重要的字幕文本S_i，其中，0≤i≤L，L是划分出来的章节数量，最后再根据这些重要的字幕文本，得到与字幕文本对应的叙事镜头。

在另一个实施例中，原始视频的图像特征矩阵输入到代表性镜头提取组件，该组件从输入的图像特征矩阵中挑选出一组连续的视频帧来当作代表性镜头。在该实施例中，所述的代表性镜头提取组件是优选的，先进的DSNet。

参照图6，在另一个实施例中，所述的美学镜头组装模块从所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头中筛选出符合预定义的美学原理的镜头，然后，将这些镜头拼接，当作视频摘要输出。在该实施例中，预定义的美学原理是镜头的颜色连续性，镜头时长和镜头的完整性这三种，颜色连续性代表相邻两个镜头的。

参照表1，在另一个实施例中，本发明所提方法与DR,HSA,VAS和DSN的对比。本发明设计的新的基于多模态和美学原理的视频摘要生成方法可以有效地捕捉到原始视频中出现的重要内容，并且可以解决传统方法难以解决的画外音不连贯问题，从而取得更好的观看体验。

表1

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：所述神经网络包括多模态数据提取模块、多模态特征编码模块、重要镜头选择模块和美学镜头组装模块四部分；所述方法中的多模态数据包括三种模态共四类数据，分别是文本模态的字幕数据和用户输入的场景文本数据、音频模态的背景音乐数据、图像模态的视频帧数据；所述方法中的美学原理包括视频帧的颜色连续性、视频时长和视频镜头的完整性三方面；所述方法包括如下步骤：S100：将原始视频输入到所述多模态数据提取模块后自动得到文本模态的字幕数据，音频模态的背景音乐数据和图像模态的视频帧数据，再通过用户输入所述的场景文本数据；S200：将所述多模态数据再分别输入到所述多模态特征编码模块中编码，输出各模态数据的特征向量表示序列；S300：将所述的特征向量表示序列输入到所述重要镜头选择模块，分别提取出原始视频中的亮点镜头、代表性镜头、用户期望镜头和叙事镜头；S400：把所述亮点镜头、代表性镜头、用户期望镜头和叙事镜头输入到所述美学镜头组装模块中筛选出遵循所述美学原理的高质量镜头并拼接成视频摘要。

2.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S100中，所述的多模态数据提取模块包括音频数据提取组件、视频帧数据提取组件、字幕数据提取组件、场景文本数据接收组件，其中，音频数据提取组件是一种基于FFmpeg依赖库来抽取出原始视频中的背景音乐数据的组件；视频帧数据提取组件是一种用来将原始视频中的每一帧都保存为图片的组件，通过把原始视频的每一帧单独截取成图片并保存来实现；字幕数据提取组件是一种基于语音识别的方法，该方法识别原始视频中包含的语音句子，并记录语音句子在视频时间轴中出现的时间，再将所有的语音句子和对应的时间保存为纯文本形式；场景文本数据接收组件用于接收并保存用户输入的纯文本数据。

3.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S200中，所述的多模态特征编码模块包括音频编码器、图像编码器、文本编码器，所述的音频编码器是一种基于快速傅里叶变换和梅尔频谱构建的组件，将背景音乐数据编码为波形特征；所述的图像编码器基于残差网络，将频帧图片编码成图像特征矩阵；所述的文本编码器采Transformer编码器和双向门控循环神经元编码器，分别将字幕数据和场景文本数据编码为字幕特征向量和场景特征向量。

4.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：S300中，所述重要镜头选择模块包括亮点镜头提取组件、代表性镜头提取组件、叙事镜头提取组件和用户期望镜头提取组件。

5.根据权利要求3所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S300包括：S301：亮点镜头提取组件基于所述波形特征的变化来获取所述原始视频中的亮点镜头；S302：代表性镜头提取组件基于DSNet，根据图像特征矩阵从所述原始视频中挑选出一组连续的视频帧来当作代表性镜头；S303：叙事镜头提取组件从字幕特征向量中挑选出叙事性字幕，再抽取出原始视频中与这些叙事性字幕对应的镜头，从而获得叙事镜头；S304：用户期望镜头提取组件挑选出图像特征矩阵中与场景特征向量最匹配的图像特征，再根据挑选出的图像特征获得用户期望镜头。

6.根据权利要求5所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S301中的所述亮点镜头提取组件根据以下公式计算的波形特征的变化来获得原始视频中的亮点镜头：

7.根据权利要求5所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S303包括：S3001:基于TF-IDF相似度分数和Kmeans文本聚类的文本章节划分方法，用于将字幕数据自动分割成不同的章节；S3002:基于指针网络的解码器，用于解码不同章节的字幕特征向量，从而挑选出不同章节中重要的字幕文本，最后再根据这些重要的字幕文本，得到与字幕文本对应的叙事镜头。

8.根据权利要求5所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S304包括：S3003:基于单词共现度和语义相似度的文本相似度计算组件，用于计算场景文本数据和字幕数据之间的相似度，再创建一个子视频；S3004:基于视觉语义定位方法的镜头定位组件，用于挑选出子视频中符合场景文本数据描述的镜头，这些镜头就是用户期望镜头。

9.根据权利要求1所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S400所述美学镜头组装模块包括：S401：基于所述美学原理的镜头重选择组件，用于从所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中选择出高质量镜头；S402：镜头组装组件，用于将镜头重选择组件挑选出来的高质量镜头组装成视频摘要。

10.根据权利要求9所述的基于多模态数据和美学原理的神经网络生成视频摘要的方法，其特征是：步骤S401包括：将挑选出来的所述的亮点镜头、代表性镜头、用户期望镜头和叙事镜头中的重复镜头合并，得到没有重复镜头的融合镜头，再从融合镜头中挑选出符合所述美学原理的高质量镜头，最后，将挑选出的高质量镜头按照原始视频的时间轴拼接成一个完整的视频摘要。