CN109145152B

CN109145152B - 一种基于查询词的自适应智能生成图文视频缩略图方法

Info

Publication number: CN109145152B
Application number: CN201810688627.9A
Authority: CN
Inventors: 李超; 林淑金; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-09-17
Anticipated expiration: 2038-06-28
Also published as: CN109145152A

Abstract

本发明公开了一种基于查询词的自适应智能生成图文视频缩略图方法。其中，该方法包括：获取目标视频，进行提取处理，获得所述视频中的音视频信息；对所述音视频信息进行结构化处理，获得结构化的视频数据及结构化的音频数据；将所述结构化的视频数据进行挑选，获得与查询关键词语义相符的关键帧，即视觉元素；将所述结构化的音频数据进行提取处理，获得与查询关键词语义相关的文本元素；获取视觉元素和文本元素进行动态合成处理，获得图文视频缩略图；获取所述图文视频缩略图，提取所述图文视频缩略图的语义文本，进行全局的配色监控处理，获得与查询关键词语义相关的目标视频图文视频缩略图。实施本发明实施例，能够通过系统来智能的根据查询关键词自适应生成视频缩略图，可以节省人力资源，比现有的自动生成视频缩略图技术更具有目的性。

Description

一种基于查询词的自适应智能生成图文视频缩略图方法

技术领域

本发明涉及算法优化与分析、计算机图像图像处理及深度学习技术领域，具体涉及一种基于查询词的自适应智能生成图文视频缩略图方法。

背景技术

视频缩略图在用户查找视频和做内容相关性评估时起着至关重要的作用。缩略图的选择不仅关系到视频在社交网络中的传播量级，也严重影响者在线浏览者信息获取的即时满足感。然而，从成千上万的视频帧中选择最合适的缩略图是十分耗时且需要技巧的人工过程。尽管目前有一些方法可以自动或半自动的从视频提取缩略图，但是在特定的场景下，如用户需要指定存在视频中的某主题相关的视频缩略图时仍然存在很大的局限性。除此之外，一些自动或者半自动的选择视频缩略图所得到的最终视频缩略图的结果也往往是单帧的图像，这在表达整个视频内容信息上比一些使用动态的视频缩略图在表达的信息量上要低很多。所以在尽可能多的表达信息的同时，又能够满足视频缩略图简单明了的目的同时，大部分现有技术则采用了动态视频缩略图的技术，即采用与视频各个部分主题相关的或者相近的关键帧共同构成几帧动态图用作视频缩略图。但是动态的视频缩略图在存储方面相比单帧的视频缩略图又存在明显的缺陷，显然一张图像的存储空间比多张的动态缩略图的存储空间要小很多，在数量级不大的存储项目中也许这个劣势还不是很明显，但是对于企业级的数量级很大的存储规模上，所占用的存储空间往往也是不能接受的。

在现有技术方案中有一种终端及视频动态缩略图的生成方法，用以解决用户在观看视频之前无法了解视频内容的问题，使用户在短时间内获悉视频的主要信息，提高用户体验。为了解决这一问题，在该发明中提供了一种用户终端，包括：提取模块，用于提取视频文件的多个图像帧；生成模块，用于将提取的多个图像帧合成动态缩略图；添加模块，用于将合成的动态缩略图添加到缩略图图像集中。其中提取模块中，包含了识别关键帧的模块，即终端在识别视频的各帧之后找到了关键帧(这里可以是人脸等具有显著性特征的图像帧)，即提取与该关键帧相邻的图像帧作为提取模块的提取对象，并在生成模块中用于生成动态图。该技术方案在对视频内容的表述的补充上是技术可行的，也有一些网站或者企业正采用此种方案，例如Youtube上的动态缩略图，将鼠标放在要播放的视频缩略图上，动态视频缩略图即可播放。这只是该网站的应用动态缩略图的实例，说明此方案的可行性和前景性。

前述的技术缺点为识别模块的设计复杂，关键帧的定义问题模糊；无法根据终端使用者的意愿选取关键帧，即机器理解的关键帧与终端使用者理解的关键帧存在出入，这样所得到的动态图可能并非终端使用者想要的；动态视频缩略图在大规模的存储问题上存在劣势，相比单帧占用更多的存储空间。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于查询词的自适应智能生成图文视频缩略图方法。能够增加用户浏览效率，使用户更快地找到想要的视频，能够节省时间，减少存储空间。

为了解决上述问题，本发明提出了一种基于查询词的自适应智能生成图文视频缩略图方法，所述方法包括：

获取目标视频，进行提取处理，获得所述视频中的音视频信息；

对所述音视频信息进行结构化处理，获得结构化的视频数据及结构化的音频数据；

将所述结构化的视频数据通过关联模型根据语义进行挑选，获得与查询关键词语义相符的关键帧(通常为3-5帧)，所述关键帧作为待合成的图文视频缩略图的备选帧，即视觉元素；其中，关联模型由两个模块构成，一个模块是经由长短期记忆网络对嵌入语义的视频帧经过训练得到的语义模型，称为语义识别模块；另一个模块是经由VGG-19卷积神经网络训练产生的帧质量检测模型，称为帧检测模块

将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理，获得与查询关键词语义相关的文本元素；

获取视觉元素和文本元素，利用布局算法进行动态合成处理，获得图文视频缩略图；

获取所述图文视频缩略图，提取所述图文视频缩略图的语义文本，进行全局的配色监控处理，获得与查询关键词语义相关的目标视频图文视频缩略图。

优选地，所述对所述音视频信息进行结构化处理的具体步骤包括：

检测所述视频的长度，若视频的长度小于60分钟时，则不对视频进行结构化处理；若视频的长度大于60分钟时，每隔10帧挑选一张图像进行处理；

检测所述视频的帧率，若视频的帧率小于30帧每秒时，则不对视频进行结构化处理；若视频的帧率大于30帧每秒时，则每秒按照步长8挑选帧进行处理；

检测所述视频的音频数据，进行降噪处理，对低于10分贝的音频平均音量进行升调处理。

优选地，所述将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理的具体步骤包括：

检测所述音频数据中是否含有字幕文件，若含有，则直接使用文本语义分割处理，对分割后的语义段进行去停止词，分词处理，获得与查询词语义相关的主题词，用作合成图文视频缩略图的文本元素；若无，则进行下一步；

从音视频中分离出音频信息，将音频文件转化为非压缩的wav文件，在进行语音识别之前需要将首尾端的静音切除和过滤噪音，降低对后续步骤的干扰；

使用音频分类器对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息，系统只需要纯语音信息用作语音识别的音频数据；

利用自动语音识别技术对纯语音信息的音频数据做文字转化处理，获取处理后文本信息；

对所述处理后文本信息的时间戳进行去除处理，利用语句边界检测工具Pragmatic Segmenter对音频翻译生成的文本文件或字幕文件预处理得到的字幕文本文件进行语句边界检测，得到完整的语义段(即得到完整的一段话)；

对上一步得到完整的语义段文本文件(或视频自带字幕文件)中的每段文本经过分词、去停止词、词性分析操作后，得到与查询关键词语义相关的若干短语或词组，作为图文视频缩略图的文本元素。

优选地，所述利用布局算法进行动态合成处理的具体步骤包括：

在视觉元素的集合中，按照构图规则挑选以九宫格构图为标准的图像作为待合成图文视频缩略图的基底，嵌入其他视觉元素和文本元素的内容；

对基底进行关键性区域检测以确定感兴趣区域(ROI)；其中，检测图像的显著性区域，以一个矩形框出ROI区域。

将整体布局优化问题分解为视觉元素布局和文本元素布局，文本元素和视觉元素的布局应在基底的范围内，且不应与ROI区域重叠；

将待嵌入的视觉元素集合(集合大小不超过2)使用视觉内容布局算法嵌入基底；

将待嵌入的文本元素集合(集合大小不超过4)使用文本内容布局算法嵌入基底，文本的颜色默认为白色字体，获得有针对文本着色的图文视频缩略图。

优选地，所述提取所述图文视频缩略图的语义文本，进行全局的配色监控处理的具体步骤包括：

对载体图像上的关键词进行着色，确定整体范围的色调分布，以确定使用哪种模式的着色模板对文本着色；

确定模板之后，利用色调直方图计算文本单元一定矩形范围内的平均色调，对比着色模板，在模板的色调范围内对各个文本着色，得到最终的与查询关键词语义相关的单帧图文视频缩略图。

实施本发明实施例，能够增加用户浏览效率，使用户更快地找到想要的视频，能够节省时间，减少存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的一种基于查询词的自适应智能生成图文视频缩略图方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于查询词的自适应智能生成图文视频缩略图方法的流程图，如图1所示，该方法包括：

S1，获取目标视频，进行提取处理，获得所述视频中的音视频信息；

S2，对所述音视频信息进行结构化处理，获得结构化的视频数据及结构化的音频数据；

S3，将所述结构化的视频数据通过关联模型根据语义进行挑选，获得与查询关键词语义相符的关键帧(通常为3-5帧)，所述关键帧作为待合成的图文视频缩略图的备选帧，即视觉元素；

S4，将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理，获得与查询关键词语义相关的文本元素；

S5，获取视觉元素和文本元素，利用布局算法进行动态合成处理，获得图文视频缩略图；

S6，获取所述图文视频缩略图，提取所述图文视频缩略图的语义文本，进行全局的配色监控处理，获得与查询关键词语义相关的目标视频图文视频缩略图。

对S2作进一步的说明：

S2中所述对所述音视频信息进行结构化处理的具体步骤包括：

S201，检测所述视频的长度，若视频的长度小于60分钟时，则不对视频进行结构化处理；若视频的长度大于60分钟时，每隔10帧挑选一张图像进行处理；

S202，检测所述视频的帧率，若视频的帧率小于30帧每秒时，则不对视频进行结构化处理；若视频的帧率大于30帧每秒时，则每秒按照步长8挑选帧进行处理；

S203，检测所述视频的音频数据，进行降噪处理，对低于10分贝的音频平均音量进行升调处理。

对S3作进一步的说明：

S3中所述的关联模型由两个模块构成，一个模块单元是经由长短期记忆网络对嵌入语义的视频帧经过训练得到的语义模型，称为语义识别模块；另一个模块是经由VGG-19卷积神经网络训练产生的帧质量检测模型，称为帧检测模块。

关联模型的工作可以分为同步或者异步两种工作方式。同步工作是在进行语义识别模块的处理后，得到与查询词相关的视频帧，但是这时得到帧的质量并不能保证(也许图像帧模糊，较暗，图像构成不合理等因素)，接下来使用帧检测模块对由语义模块得到的关键帧进行质量检测得到最终需要的既具有语义相关的又质量过关的视频关键帧。异步工作是两个模块同时工作，语义模块得到的所有语义相关的帧，帧检测模块得到所有质量过关的帧，对两者取交集，得到最后期望的关键帧。

两种工作方式视系统所在的设备的计算能力可以进行切换，本系统使用的是异步的工作方式。获取系统承载设备的信息，当设备(计算机)的内存大于16Gb,GPU版本大于等于10系且显存大于等于8Gb时，可以进行双模型的并行计算，即系统可以使用异步工作的方式。其他情况默认采用同步工作方式。

对S4作进一步说明：

S4中所述将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理的具体步骤包括：

S401，检测所述音频数据中是否含有字幕文件，若含有，则直接使用文本语义分割处理，对分割后的语义段进行去停止词，分词处理，获得与查询词语义相关的主题词，用作合成图文视频缩略图的文本元素；若无，则进行下一步；

S402，从音视频中分离出音频信息，将音频文件转化为非压缩的wav文件，在进行语音识别之前需要将首尾端的静音切除和过滤噪音，降低对后续步骤的干扰；

S403，使用音频分类器对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息，系统只需要纯语音信息用作语音识别的音频数据；

S404，利用自动语音识别技术对纯语音信息的音频数据做文字转化处理，获取处理后文本信息；

S405，对所述处理后文本信息的时间戳进行去除处理，利用语句边界检测工具Pragmatic Segmenter对音频翻译生成的文本文件或字幕文件预处理得到的字幕文本文件进行语句边界检测，得到完整的语义段(即得到完整的一段话)；

S406，对S405处理得到的文本文件(或视频自带字幕文件)中的每段文本经过分词、去停止词、词性分析操作后，得到与查询关键词语义相关的若干短语或词组，作为图文视频缩略图的文本元素。

对S5做进一步说明：

S5中所述利用布局算法进行动态合成处理的具体步骤包括：

S501，在视觉元素的集合中，按照构图规则挑选以九宫格构图为标准的图像作为待合成图文视频缩略图的基底，嵌入其他视觉元素和文本元素的内容；

S502，对基底进行关键性区域检测以确定感兴趣区域(ROI)；其中，检测图像的显著性区域，以一个矩形框出ROI区域。

S503，利用分治思想，将整体布局优化问题分解为视觉元素布局和文本元素布局，文本元素和视觉元素的布局应在基底的范围内，且不应与ROI区域重叠。为防止最终图文缩略图混乱，被嵌入视觉元素不超过2个，文本元素不超过4个；

S504，将待嵌入的视觉元素集合(集合大小不超过2)使用视觉内容布局算法嵌入基底；

S505，将待嵌入的文本元素集合(集合大小不超过4)使用文本内容布局算法嵌入基底，文本的颜色默认为白色字体，获得有针对文本着色的图文视频缩略图。

对S6做进一步说明：

S6中所述提取所述图文视频缩略图的语义文本，进行全局的配色监控处理的具体步骤包括：

S601，对载体图像上的关键词进行着色，确定整体范围的色调分布，以确定使用哪种模式的着色模板对文本着色；

S602，确定模板之后，利用色调直方图计算文本单元一定矩形范围内的平均色调，对比着色模板，在模板的色调范围内对各个文本着色(模板色调范围内的颜色搭配均符合审美规则，不会引起着色冲突)，得到最终的与查询关键词语义相关的单帧图文视频缩略图。

实施本发明实施例，通过系统来智能的根据查询关键词自适应生成视频缩略图可以节省人力资源，比现有的自动生成视频缩略图技术更具有目的性(生成预期主题的缩略图)；针对视频浏览者来讲，图文视频缩略图比传统的缩略图可以表达更多的视频内容，是用户在没有点开视频观看的情况下了，知道视频讲述的是什么，在快速阅读的时代，可以增加用户浏览效率，更快找到自己想要的视频；针对开发者来讲，在想要传达更多的视频内容时，传统的动态视频缩略图相比单帧的图文视频缩略图会占用更多的存储空间，给开发者带来更多的开销。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于查询词的自适应智能生成图文视频缩略图方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于查询词的自适应智能生成图文视频缩略图方法，其特征在于，所述方法包括：

将所述结构化的视频数据通过关联模型根据语义进行挑选，获得与查询关键词语义相符的关键帧，所述关键帧作为待合成的图文视频缩略图的备选帧，即视觉元素；

获取所述图文视频缩略图，提取所述图文视频缩略图的语义文本，进行全局的配色监控处理，获得与查询关键词语义相关的目标视频图文视频缩略图；

其中，所述关联模型，具体为：

关联模型由两个模块构成，一个模块是经由长短期记忆网络对嵌入语义的视频帧经过训练得到的语义模型，称为语义识别模块；另一个模块是经由VGG-19卷积神经网络训练产生的帧质量检测模型，称为帧检测模块；

其中，所述利用布局算法进行动态合成处理，具体为：

对基底进行关键性区域检测以确定感兴趣区域(ROI)；其中，检测图像的显著性区域，以一个矩形框出ROI区域；

将待嵌入的视觉元素集合使用视觉内容布局算法嵌入基底，其中视觉元素集合大小不超过2；

将待嵌入的文本元素集合使用文本内容布局算法嵌入基底，其中文本元素集合大小不超过4，文本的颜色默认为白色字体，获得有针对文本着色的图文视频缩略图。

2.根据权利要求1所述的一种基于查询词的自适应智能生成图文视频缩略图方法，其特征在于，所述对所述音视频信息进行结构化处理的具体步骤包括：

检测所述视频的音频数据，进行降噪处理，随后对低于10分贝的音频平均音量进行升调处理。

3.根据权利要求1所述的一种基于查询词的自适应智能生成图文视频缩略图方法，其特征在于，所述将所述结构化的音频数据利用语言识别技术和自然语言技术进行提取处理的具体步骤包括：

对所述处理后文本信息的时间戳进行去除处理，利用语句边界检测工具对音频翻译生成的文本文件或字幕文件预处理得到的字幕文本文件进行语句边界检测，得到完整的语义段；

对上一步得到完整的语义段文本文件或视频自带字幕文件中的每段文本经过分词、去停止词、词性分析操作后，得到与查询关键词语义相关的若干短语或词组，作为图文视频缩略图的文本元素。

4.根据权利要求1所述的一种基于查询词的自适应智能生成图文视频缩略图方法，其特征在于，所述提取所述图文视频缩略图的语义文本，进行全局的配色监控处理的具体步骤包括：