CN112004164A

CN112004164A - 一种视频海报自动生成方法

Info

Publication number: CN112004164A
Application number: CN202010628371.XA
Authority: CN
Inventors: 王若梅; 区诗柔; 周凡; 林淑金; 陈小燕
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-11-27
Anticipated expiration: 2040-07-02
Also published as: CN112004164B

Abstract

本发明公开了一种视频海报自动生成方法。本发明从视频中提取必要的视频内容信息，包括：视频标题、音频文本、视频帧、视觉文本；对所述音频文本进行主题分割得到视频正文，将所述音频文本结合所述视觉文本提取视频关键词，利用所述音频文本生成视频梗概，对所述视频帧进行关键帧提取得到视频图；根据所述视频标题、所述视频梗概、所述视频关键词、所述视频正文、所述视频图，根据布局排版方法，生成一张视频海报。本发明可以将每个视频都转换成视频海报，上面不但有着视频的完整内容，还有能概括视频内容的梗概和关键词，将极大地提高人们获取视频内容的速度，方便人们的日常生活。另外，还可以仅仅根据视频就生成报纸。

Description

一种视频海报自动生成方法

技术领域

本发明涉及视频处理技术领域，具体涉及一种视频海报自动生成方法。

背景技术

随着互联网的发展和多媒体技术的广泛应用，互联网上视频的数量呈爆炸式增长，视频内容冗长、结构复杂，并且人们往往观看视频比浏览文字所花的时间更多，这使用户快速获取视频的内容变得困难。因此，如果可以将每个视频都转换成海报，上面不但有着视频的完整内容，还有能高度概括视频内容的梗概和关键词，将极大地提高人们获取视频内容的速度，方便人们的日常生活。在此背景下，视频海报自动生成技术应运而生。

目前的现有技术之一是夏佳志提出的视频海报自动生成方法，通过提取视频中的关键画面自动排版生成一张海报。该方法先对视频建立起一个层次化的视频场景模型，然后对现有的视觉注意力模型进行扩展，建立了一个基于视频序列的综合视觉注意力模型，接着根据该模型提取出若干张关键帧及其重要度和重要区域；并且，在现有排版规则基础上，增加了版面位置对视觉心理感知的影响，设计出一种位置重要性驱动的视频海报自动排版算法，根据所提取出的关键帧及其重要度和重要区域，对关键帧进行排版从而生成一张海报。

该方法的缺点是：1、根据视频自动生成的海报实际上只有若干张从视频中提取出来的图片，缺少文字，因此内容不够丰富，无法很好的表达出视频的内容；2、仅仅依靠几张图片层叠铺在一起形成一张海报，看上去也不够美观。

发明内容

本发明的目的是克服现有方法的不足，提出了一种视频海报自动生成方法。本发明解决的主要问题是，(1)如何将每个视频都转换成海报，上面不但有着视频的完整内容，还有能概括视频内容的梗概和关键词；(2)如何仅仅根据视频就生成报纸。

为了解决上述问题，本发明提出了一种视频海报自动生成方法，所述方法包括：

从视频中提取必要的视频内容信息，包括：视频标题、音频文本、视频帧、视觉文本；

对所述视频内容信息进行处理，包括对所述音频文本进行主题分割得到视频正文，将所述音频文本结合所述视觉文本提取视频关键词，利用所述音频文本生成视频梗概，对所述视频帧进行关键帧提取得到视频图；

根据所述视频标题、所述视频梗概、所述视频关键词、所述视频正文、所述视频图，根据布局排版方法，生成一张视频海报。

优选地，所述从视频中提取视频帧，具体为：

将视频的每一帧提取出来；

评估所述每一帧的图像质量，然后过滤掉模糊、昏暗、低质量的图像，得到清晰高质量的帧；

根据所述清晰高质量的帧的视觉内容差异，将内容发生转变的帧画面划分为不同的镜头，相同的镜头只保留一帧作为视频镜头的代表帧，以此过滤掉大多数冗余的帧。

优选地，所述将所述音频文本结合所述视觉文本提取视频关键词，具体为：

对所述音频文本和所述视觉文本进行分词和去停用词的预处理，分别得到音频候选词和视觉候选词；

以所述音频候选词作为候选关键词，计算每个候选关键词的TF-IDF值、候选关键词与所述视频标题的语义相关性得分、候选关键词与所述视觉候选词的匹配信息得分、候选关键词之间的语义相关性得分，加上相应权重求和计算总分，然后将总分按从高到低排列，前K个关键词，就是最终的视频关键词。

优选地，所述对所述视频帧进行关键帧提取得到视频图，具体为：

对所述视频帧基于其颜色直方图特征距离进行聚类得到若干类簇；

选取所述类簇的类中心作为关键帧，此关键帧将用作最后视频海报的视频图。

优选地，所述布局排版方法，具体为：

根据视频海报每部分要素，设定相应的字体和字号；

根据视频海报大小，设定合适的页边距；

将所述视频标题居中放置于顶部；

所述视频标题下面放置所述视频梗概；

所述视频梗概下面放置视频关键词，不同关键词之间用分号隔开；

判断所述视频图的长宽大小，若长大于宽，则将所述视频图居中置于所述视频关键词正下方，将所述视频正文以单栏的形式置于所述视频图下方，若长小于等于宽，则将所述视频图放置于所述视频关键词的右下方，将所述视频正文以双栏的形式置于所述视频图左方和下方。

本发明提出的一种视频海报自动生成方法，可以将每个视频都转换成视频海报，上面不但有着视频的完整内容，还有能概括视频内容的梗概和关键词，将极大地提高人们获取视频内容的速度，方便人们的日常生活。另外，还可以仅仅根据视频就生成报纸。

附图说明

图1是本发明实施例的一种视频海报自动生成方法的总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种视频海报自动生成方法的总体流程图，如图1所示，该方法包括：

S1，从视频中提取必要的视频内容信息，包括：视频标题、音频文本、视频帧、视觉文本；

S2，对所述视频内容信息进行处理，包括对所述音频文本进行主题分割得到视频正文，将所述音频文本结合所述视觉文本提取视频关键词，利用所述音频文本生成视频梗概，对所述视频帧进行关键帧提取得到视频图；

S3，根据所述视频标题、所述视频梗概、所述视频关键词、所述视频正文、所述视频图，根据布局排版方法，生成一张视频海报。

步骤S1，具体如下：

S1-1，从视频中提取视频标题

通常来说，视频都会带有标题，所以在输入视频之前需要将视频名统一修改成视频标题。因此，可以直接将视频名提取出来，作为视频海报的标题。

S1-2，从视频中提取音频文本

首先，需要使用FFmpeg命令行工具，将视频的音频提取出来。然后使用语音识别技术将音频转换为文字，从而得到音频文本。

目前开放的可供使用的语音识别工具包有很多，其中包括IBM的Speech to Text、微软的Speech to Text、百度的语音识别极速版和语音识别标准版、科大讯飞的语音听写和语音转写、谷歌的Google Cloud Speech API等等。本实施例中使用科大讯飞的语音转写将视频的音频转换为音频文本。

S1-3，从视频中提取视频帧

首先，本实施例中使用命令行工具FFmpeg来将视频的每一帧提取出来。

然后，需要过滤低质量的视频帧。先评估每一帧的图像质量，然后过滤掉模糊、昏暗、低质量的图像，得到清晰高质量的帧。采用归一化方差函数来判定视频帧质量的好坏，归一化方差函数是一种自动聚焦函数，它是显微成像领域计算图像模糊程度常用的方法，其输出值的大小与图像模糊程度成正比。

最后，还要过滤冗余帧。视频帧的视觉特点具有极大的重复性，如果直接对这些数量巨大、重复度极高的视频帧画面进行处理，不但耗时，并且很难挖掘到有价值的信息。根据视频帧视觉内容的差异，将内容发生转变的帧画面划分为不同的镜头，相同的镜头只保留一帧作为视频镜头的代表帧，以此过滤掉大多数冗余的帧。使用颜色直方图特征衡量视频帧的视觉特征相似性，颜色直方图计算简单，对于视频拍摄时摄像机视角的轻微变化不敏感，同时对物体的自身运动也有较好的鲁棒性。

S1-4，从视频中提取视觉文本

根据上一步得到的视频帧，使用OCR技术得到每一帧的文本，即视觉文本。目前开放的可供使用的OCR识别工具包有很多，本实施例中使用科大讯飞的OCR识别工具。

步骤S2，具体如下：

S2-1，对音频文本进行主题分割

常用的主题分割算法是TextTiling算法。TextTiling算法主要通过分析文档中词汇的共性和分布来检测主题的变化，它先将一段文本分割成连续且没有重叠的词语块，然后设置固定的词汇块大小并通过相邻块之间词语的相似性以及词汇引入来为每个相邻块计算一个语义相似性得分，最后计算相邻块谷深度值来判断是否该相邻块的边界为一个主题边界。

本实施例中使用TextTiling算法对音频文本进行主题分割后，就得到已按主题分好段的文本，将其作为视频海报的正文。

S2-2，对音频文本结合视觉文本进行关键词提取

结合视频的多通道信息性，以音频通道得到的音频文本信息为主，视觉通道得到的视觉文本信息为辅，提出一种结合文本统计特征和语义特征的关键词提取方法。

该方法主要包含两个过程：(1)从视频的音频通道和视觉通道提取文本信息并对其进行预处理，得到候选词。即，分别对前述语音识别得到的音频文本和OCR识别得到的视觉文本进行分词和去停用词的预处理，最后分别得到音频候选词和视觉候选词。(2)计算候选关键词的重要性得分，提取出最终关键词。即，以音频候选词作为候选关键词，计算每个候选关键词的TF-IDF值、标题相关性得分(候选关键词与标题的语义相关性)、视觉信息得分(候选关键词与视觉候选词的匹配信息)、语义重要性得分(候选关键词之间的语义相关性)，加上相应权重，求和计算总分。然后将其总分按从高到低排列，前K个关键词，就是最终的视频关键词。

S2-3，对音频文本进行视频梗概生成

要生成音频文本的视频梗概，需要使用文本摘要技术。按照摘要的生成方法，可以将它分为抽取式摘要和生成式摘要。抽取式摘要是通过抽取拼接源文档中的关键句子来生成摘要的，生成式摘要则是系统根据文档表达的重要内容，自行组织语言，对源文档进行概括。本实施例中使用Seq2Seq(sequence to sequence)模型来实现生成式摘要的任务，得到视频海报的视频梗概。

S2-4，对视频帧进行关键帧提取得到视频图

关键帧提取，即提取视频最具代表性的视频帧。对此，可以对视频内的视频镜头基于其颜色直方图特征距离进行聚类，其中最经典的聚类算法是K-means聚类算法，接着选取类簇的类中心作为关键帧。本实施例中使用K-means聚类算法得到关键帧，此关键帧将用作最后视频海报的视频图。

步骤S3，具体如下：

S3-1，设定海报每部分的字体和字号

根据海报每部分要素，设定相应的字体和字号。比如，字体统一使用宋体，视频标题使用三号字号，视频梗概和视频关键词使用四号字号，视频文使用五号字体。

S3-2，设定海报布局

根据视频海报大小，设定合适的页边距；将视频标题居中放置于顶部；视频标题下面放置视频梗概；视频梗概下面放置视频关键词，不同关键词之间用分号隔开；判断视频图的长宽大小，若长大于宽，则将视频图居中置于视频关键词正下方，将视频正文以单栏的形式置于视频图下方，若长小于等于宽，则将视频图放置于视频关键词的右下方，将视频正文以双栏的形式置于视频图左方和下方。

这样，就可以根据设定和视频内容，自动生成一张视频海报。

本发明实施例提出的一种视频海报自动生成方法，可以将每个视频都转换成视频海报，上面不但有着视频的完整内容，还有能概括视频内容的梗概和关键词，将极大地提高人们获取视频内容的速度，方便人们的日常生活。另外，还可以仅仅根据视频就生成报纸。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种视频海报自动生成方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频海报自动生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种视频海报自动生成方法，其特征在于，所述从视频中提取视频帧，具体为：

将视频的每一帧提取出来；

3.如权利要求1所述的一种视频海报自动生成方法，其特征在于，所述将所述音频文本结合所述视觉文本提取视频关键词，具体为：

4.如权利要求1所述的一种视频海报自动生成方法，其特征在于，所述对所述视频帧进行关键帧提取得到视频图，具体为：

5.如权利要求1所述的一种视频海报自动生成方法，其特征在于，所述布局排版方法，具体为：

根据视频海报每部分要素，设定相应的字体和字号；

根据视频海报大小，设定合适的页边距；

将所述视频标题居中放置于顶部；

所述视频标题下面放置所述视频梗概；