CN110149532A

CN110149532A - 一种封面选取方法及相关设备

Info

Publication number: CN110149532A
Application number: CN201910549774.2A
Authority: CN
Inventors: 张云桃
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-08-20
Anticipated expiration: 2039-06-24
Also published as: CN110149532B

Abstract

本发明提供一种封面选取方法及相关设备，在得到当前视频的多个候选帧截图之后，获得每个候选帧截图在第一方面的取值和在第二方面的取值，基于每个候选帧截图在第一方面的取值和第二方面的取值，从多个候选帧截图中确定目标候选帧截图，将目标候选帧截图作为当前视频在内容展示页面中的静态封面。其中候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度，候选帧截图在第二方面的取值用于指示该候选帧截图所展示内容为当前视频的精彩内容的置信度，说明可以展示内容的美观程度和展示内容示是否为当前视频的精彩内容出发确定目标候选帧截图，以使得静态封面既美观又能够展示视频内容的精彩故事情节，有利于视频的播放和点击。

Description

一种封面选取方法及相关设备

技术领域

本发明属于数据处理技术领域，更具体地说，尤其涉及一种封面选取方法及相关设备。

背景技术

随着流媒体在网络上的急速增长，静态封面作为展示视频的一种手段，一张足以展示视频内容的静态封面能够为视频带来较大的视频播放量和视频点击率。目前静态封面的选取通常采用如下方式：

一种方式：从视频内容出发，选取能够代表视频的语音信息的视频帧作为静态封面；另一种方式：从视频附带信息出发，例如基于视频的标题和视频的描述内容(类似于视频的简介)选取静态封面。

但是从用户角度考虑，一张美观且能够展示视频的精彩故事情节的静态封面会带来更高的视频播放量和视频点击率，然而现有封面选取方法无法选取出满足这些要求的静态封面。

发明内容

有鉴于此，本发明的目的在于提供一种封面选取方法及相关设备，用于选取出既美观又能够展示视频的精彩故事情节的静态封面。技术方案如下：

本发明提供一种封面选取方法，所述方法包括：

获得当前视频的多个候选帧截图；

获得每个候选帧截图在第一方面的取值，所述候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度；

获得每个候选帧截图在第二方面的取值，所述候选帧在第二方面的取值用于指示该候选帧截图所展示内容为所述当前视频的精彩内容的置信度；

基于每个候选帧截图在第一方面的取值和第二方面的取值，从所述多个候选帧截图中确定目标候选帧截图；

将所述目标候选帧截图作为所述当前视频在内容展示页面中的静态封面。

优选地，所述基于每个候选帧截图在第一方面的取值和第二方面的取值，从所述多个候选帧截图中确定目标候选帧截图，包括：

基于每个候选帧截图在第一方面的取值，从所述多个候选帧截图中提取满足第一预设条件的候选帧截图；

基于满足第一预设条件的候选帧截图在第二方面的取值，从满足第一预设条件的候选帧截图中确定目标候选帧截图。

基于每个候选帧截图在第二方面的取值，从所述多个候选帧截图中提取满足第二预设条件的候选帧截图；

基于满足第二预设条件的候选帧截图在第一方面的取值，从满足第二预设条件的候选帧截图中确定目标候选帧截图。

优选地，所述获得每个候选帧截图在第一方面的取值，包括：

基于预设美学评价模型获得每个所述候选帧截图在第一方面的取值。

优选地，所述获得每个候选帧截图在第二方面的取值，包括：

获得每个候选帧截图中至少一个维度特征的置信度以及每个维度特征的权重等级，基于每个候选帧截图包括的每个维度特征的置信度以及每个维度特征的权重等级，确定每个候选帧截图在第二方面的取值。

优选地，所述获得当前视频的多个候选帧截图包括：

对所述当前视频进行帧提取，得到多个初始帧截图；

对所述多个初始帧截图进行画面相似度检测；

基于画面相似度检测结果，对所述多个初始帧截图进行分组，得到多个截图组，同一个截图组中的初始帧截图的画面相似度大于预设相似度阈值；

从每个截图组中选取一个初始帧截图作为所述候选帧截图。

优选地，所述将所述目标候选帧截图作为所述当前视频在内容展示页面中的静态封面，包括：

检测所述目标候选帧截图中的单色填充显示区域；

对所述单色填充显示区域进行裁剪；

将裁剪后的所述目标候选帧截图作为所述当前视频在内容展示页面中的静态封面。

优选地，所述获得当前视频的多个候选帧截图包括：

从所述当前视频中获得包含预设内容的帧截图；

基于预设完整性检测模型，对所述帧截图包括的预设内容的完整性进行检测，得到多个候选帧截图。

本发明还提供一种封面选取装置，所述装置包括：

第一获得单元，用于获得当前视频的多个候选帧截图；

第二获得单元，用于获得每个候选帧截图在第一方面的取值，所述候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度；

第三获得单元，用于获得每个候选帧截图在第二方面的取值，所述候选帧在第二方面的取值用于指示该候选帧截图所展示内容为所述当前视频的精彩内容的置信度；

第一确定单元，用于基于每个候选帧截图在第一方面的取值和第二方面的取值，从所述多个候选帧截图中确定目标候选帧截图；

第二确定单元，用于将所述目标候选帧截图作为所述当前视频在内容展示页面中的静态封面。

优选地，所述第一确定单元，具体用于基于每个候选帧截图在第一方面的取值，从所述多个候选帧截图中提取满足第一预设条件的候选帧截图；基于满足第一预设条件的候选帧截图在第二方面的取值，从满足第一预设条件的候选帧截图中确定目标候选帧截图。

优选地，所述第一确定单元，具体用于基于每个候选帧截图在第二方面的取值，从所述多个候选帧截图中提取满足第二预设条件的候选帧截图；基于满足第二预设条件的候选帧截图在第一方面的取值，从满足第二预设条件的候选帧截图中确定目标候选帧截图。

优选地，所述第二获得单元，具体用于基于预设美学评价模型获得每个所述候选帧截图在第一方面的取值。

优选地，所述第三获得单元，具体用于获得每个候选帧截图中至少一个维度特征的置信度以及每个维度特征的权重等级，基于每个候选帧截图包括的每个维度特征的置信度以及每个维度特征的权重等级，确定每个候选帧截图在第二方面的取值。

优选地，所述第一获得单元，用于对所述当前视频进行帧提取，得到多个初始帧截图，对所述多个初始帧截图进行画面相似度检测；基于画面相似度检测结果，对所述多个初始帧截图进行分组，得到多个截图组，从每个截图组中选取一个初始帧截图作为所述候选帧截图，同一个截图组中的初始帧截图的画面相似度大于预设相似度阈值。

优选地，所述第二确定单元，具体用于检测所述目标候选帧截图中的单色填充显示区域，对所述单色填充显示区域进行裁剪，将裁剪后的所述目标候选帧截图作为所述当前视频在内容展示页面中的静态封面。

优选地，所述第一获得单元，具体用于从所述当前视频中获得包含预设内容的帧截图，基于预设完整性检测模型，对所述帧截图包括的预设内容的完整性进行检测，得到多个候选帧截图。

本发明还提供一种存储介质，其特征在于，所述存储介质中存储有一个或多个程序代码，所述一个或多个程序代码被执行时实现上述封面选取方法。

本发明还提供一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序被处理器运行时实现上述封面选取方法。

借由上述技术方案可知，在得到当前视频的多个候选帧截图之后，获得每个候选帧截图在第一方面的取值和获得每个候选帧截图在第二方面的取值，基于每个候选帧截图在第一方面的取值和第二方面的取值，从多个候选帧截图中确定目标候选帧截图，将目标候选帧截图作为当前视频在内容展示页面中的静态封面。其中候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度，候选帧截图在第二方面的取值用于指示该候选帧截图所展示内容为当前视频的精彩内容的置信度，说明可以展示内容的美观程度和展示内容示是否为当前视频的精彩内容出发确定目标候选帧截图，以使得静态封面既美观又能够展示视频内容的精彩故事情节，有利于视频的播放和点击。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种封面选取方法的流程图；

图2是本发明实施例提供的另一种封面选取方法的流程图；

图3是本发明实施例提供的一种封面选取装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种封面选取方法，通过该方法能够将既美观又能展示视频的精彩故事情节的目标候选帧截图作为静态封面，具体可以包括以下步骤：

S100：获得当前视频的多个候选帧截图。可以理解的是：当前视频是待确定静态封面的视频，候选帧截图是从当前视频中获得的用于得到静态封面的图像，也就是说静态封面来源于当前视频中的一帧图像。

其中获得多个候选帧截图的一种方式可以是：基于预设提取方式对当前视频进行截图提取操作，得到多个候选帧截图，例如预设提取方式可以是但不限于是：从当前视频的第一帧开始，每间隔固定时间从当前视频中提取到预设数量的截图作为候选帧截图，例如将当前视频的视频内容输入到一运算模型中，由该运算模型输出预设数量的候选帧截图，预设数量可以是32个候选帧截图、64个候选帧截图以及128个候选帧截图等中的任意一种，如果运算模型要求基于候选帧截图得到的静态封面可以既美观又能突出视频的精彩度，并且计算量相对较少，则本实施例中的预设数量优选32个候选帧截图。

获得多个候选帧截图的另一种方式是：从当前视频中获得包含预设内容的帧截图，基于预设完整性检测模型，对帧截图包括的预设内容的完整性进行检测，得到多个候选帧截图，其中预设内容可以基于当前视频的视频内容和静态封面的要求而定。例如当前视频的视频内容为风景，静态封面则需要能够体现该风景的特点，例如静态封面中需要含有该风景中的标志性对象(如标志性建筑物)，那么预设内容则是该标志性对象，又例如当前视频的视频内容为一个人物的生活等，静态封面则需要含有人物的头部，那么对应的预设内容则是头部，而在获得帧截图过程中会将包含预设内容的部分的截图也提取到，因此为了减少候选帧截图的数量，需要进一步对帧截图包括的预设内容的完整性进行检测，以丢弃包括的预设内容不完整(即包含预设内容的部分)的帧截图，使得候选帧截图包括的预设内容是完整内容。

在本实施例中对帧截图包含的预设内容的完整性进行检测的方式可以是但不限于如下方式：

一种方式：通过图像识别技术对帧截图中的预设内容进行边缘检测，以确定预设内容是否是完整的，如果是完整的则将帧截图作为候选帧截图，否则丢弃该帧截图。以预设内容为人物的头部来说，如果通过图像识别技术确定初始视频帧中不存在人物或者虽然存在人物但是人物的头部不完整(如部分头部或者只有人物的下半身)，则会丢弃该帧截图。

另一种方式：将每个帧截图依次输入到预设完整性检测模型中，得到该预设完整性检测模型输出的完整性检测结果，该完整性检测结果用于指示帧截图是否包含预设内容且如果包含预设内容该预设内容是否完整，其中预设完整性检测模型的获得过程可以是：以resnet-50模型为基本模型，通过预先选取的正样本(不包含预设内容和/或包含的预设内容不完整)和负样本(包含完整的预设内容)，对基本模型进行训练和测试，最终测试得到的基本模型作为预设完整性检测模型，在进行模型训练时采用的正样本包括但不限于：黑帧、预设内容不完整(如头部不完整、没有头部和只有人物的下半身等等)、满屏二维码、极度运动模糊、满屏字幕等。发明人经过试验证明，如果采用15万张正样本和20万张负样本进行训练和测试，会使得预设完整性检测模型的检测准确率达到90％以上，如试验证明检测准确率能够达到96.7％。

此外本实施例还可以将上述两种方式相结合，如基于预设提取方式提取到帧截图之后，对提取到的帧截图进行筛选，如筛选出包含预设内容的帧截图，然后再对筛选出的帧截图中的预设内容的完整性进行检测，得到多个候选帧截图。

S200：获得每个候选帧截图在第一方面的取值，其中候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度，而候选帧截图所展示内容的美观程度可以从候选帧截图所展示内容的颜色、是否有前景深、预设内容是否突出、候选帧截图所展示内容的构图、候选帧截图中所展示内容的明暗程度和候选帧截图的简洁程度等方面去考虑。例如如果候选帧截图有前景深且预设内容突出，则可以视为候选帧截图所展示内容的较为美观。

在本实施例中，每个候选帧截图在第一方面的取值可基于预设美学评价模型得到，具体过程可以是将每个候选帧截图输入到预设美学评价模型中，得到预设美学评价模型输出的候选帧截图在第一方面的取值，其中预设美学评价模型输出的候选帧截图在第一方面的取值的表现形式可以是：候选帧截图的美观度，该候选帧截图的美观度可以通过对候选帧截图所展示内容的美观程度进行打分，以将预设美学评价模型输出的分数作为美观度。可以理解的是：分数越高，美观度越高，说明候选帧截图所展示内容越美观，如果分数越低，美观度也越低。

在本实施例中，预设美学评价模型能够使得美学程度(即在第一方面的取值相近)相近的两个视频帧之间的差距增大但基于第一方面的取值的排序不会发生变化，为此预设美学评价模型需要同时考虑分类误差和回归损失两个方面，以通过预设美学评价模型提高第一方面的取值的准确率，基于此预设美学评价模型的训练过程概括如下：

基于第一评价模型和第二评价模型，获得预设样本集合中测试样本的回归损失，第一评价模型的最后一层为分类层，第二评价模型的最后一层为回归层，且第一评价模型和第二评价模型除最后一层之外都相同；基于第一评价模型，获得预设样本集合中测试样本的排序误差；基于测试样本的回归损失和测试样本的排序误差，对第一评价模型或第二评价模型进行参数修正，得到预设美学评价模型。

其对应的详细步骤如下：

1)从预设样本集合中依次选取在第一方面的取值相近的两个测试样本，所谓取值相近是指两个测试样本在第一方面的取值之差在预设差值阈值内，对于预设差值阈值的选取可以根据实际应用而定，对此本实施例不加以限定。

预设样本集合中的任一测试样本都由多人对该测试样本的美观进行打分，将多人的打分进行平均得到该测试样本的分数(在第一方面的取值的一种表现)，例如预设样本集合可以是AVA(Aesthetic visual analysis)数据集，AVA数据集中的每个测试样本会经由约200人进行打分。

2)将两个测试样本依次输入到第一评价模型和第二评价模型中，获得第一评价模型输出的两个测试样本各自的第一取值和第二评价模型输出的两个测试样本各自的第二取值，其中第一评价模型的最后一层为分类层，第二评价模型的最后一层为回归层，且第一评价模型和第二评价模型除最后一层之外都相同，由此对于同一个预设样本集合来说，通过第一评价模型对该预设样本集合进行分类实验，通过第二评价模型对该预设样本集合进行回归实验。

例如第一评价模型可以是resnet-50，该resnet-50的最后一层为分类层，通过resnet-50能够对预设样本集合进行分类实验，而若需要对预设样本集合进行回归实验，则需要将该resnet-50的最后一层修改为回归层，得到第二评价模型，通过这两个评价模型能够得到每个测试样本的第一取值和第二取值。

3)在获得第一评价模型输出的部分测试样本各自的第一取值和第二评价模型输出的部分测试样本各自的第二取值后，基于部分测试样本各自的第一取值和第二取值，对第一评价模型和第二评价模型进行修正。

一种修正方式是：在获得部分测试样本的第一取值之后，获得这部分测试样本的第一取值对应的排序误差(ranking loss)，所谓排序(ranking)是指在第一方面的取值相近的两个测试样本在经过第一评价模型之后，两个测试样本基于在第一方面的取值的排序与这两个测试样本基于第一取值的排序相同，排序误差的计算公式如下：

同样的基于部分测试样本的第一取值，获得这部分测试样本的第二取值对应的回归损失(regression loss)，以使得第二评价模型能够更好区分测试样本之间的美学程度，即增大测试样本在第一方面的取值的差距，提高分类效果。其中回归损失的计算公式如下：

上述排序误差和回归损失的计算公式中，N为使用的测试样本总数，α是预设的超参数，取值范围可以是[0,1]，为第二评价模型输出的测试样本i的第二取值，y_i为测试样本i在第一方面的取值，为第一评价模型输出的测试样本j的第一取值，y_j为测试样本j在第一方面的取值，且测试样本i和测试样本j为在第一方面的取值相近的两个样本。

基于上述排序误差和回归损失得到误差总和，基于误差总和分别对第一评价模型和第二评价模型进行修正，使得两个模型具有相同的功能，误差总和的计算公式如下：

loss_reg+rank＝loss_reg+ω_rloss_rank，ω_r为权值，可以根据实际需求而定，例如ω_r＝0.1。

4)将修正后的第一评价模型和修正后的第二评价模型中的一个模型作为预设美学评价模型，由于修正后的第一评价模型和第二评价模型相同，所以可以任选一个模型作为预设美学评价模型，使得通过预设美学评价模型能够很好地区分候选帧截图之间的美学差异且对候选帧截图的美学评价符合用户审美，这是因为预设美学评价模型是基于多人对多个样本进行评价测试得到，且预设美学评价模型没有改变样本在美学上的排序，意味着预设美学评价模型没有改变用户审美。

S300：获得每个候选帧截图在第二方面的取值。其中候选帧截图在第二方面的取值用于指示该候选帧截图所展示内容为当前视频的精彩内容的置信度，置信度越高说明候选帧截图所展示内容能够体现视频的精彩故事情节，置信度越低说明候选帧截图所展示内容体现视频的单调情节，其中精彩内容可以是特殊表情、特殊行为、是否对应特殊场景和是否存在特效等中的至少一种内容，特殊表情/特殊行为以及特殊场景的设置可以基于实际应用而定，若候选帧截图所展示内容包括上述精彩内容中的至少一种或多种时，该候选帧截图在第二方面的取值指示出的置信度越高，越能体现视频的精彩故事情节，反之若不包括这些内容置信度最低。

在本实施例中，获得每个候选帧截图在第二方面的取值的一种方式是：获得每个候选帧截图中至少一个维度特征的置信度以及每个维度特征的权重等级，基于每个候选帧截图包括的每个维度特征的置信度以及每个维度特征的权重等级，确定每个候选帧截图在第二方面的取值。

其中至少一个维度特征的置信度可以基于置信度预测模型获得，具体将每个维度特征输入到置信度预测模型中，获得置信度预测模型输出的每个维度的置信度，每个维度特征的置信度的一种表现形式为每个维度特征体现出预设内容的概率，由此可以通过概率预测模型得到每个维度特征的置信度，对于置信度预测模型和概率预测模型来说可参照现有模型，本实施例不再进行阐述。而每个维度特征的权重等级可以预先设定，如根据每个维度特征是否能够指示出预设内容以及在能够指示出预设内容的情况下基于指示出的预设内容的类型而定，对此本实施例不限定每个维度特征的权重等级。

在获得每个候选帧截图中至少一个维度特征的置信度之后，获得每个候选帧截图在第二方面的取值的方式可以是：基于预设算法对候选帧截图包括的每个维度特征的置信度以及每个维度特征的权重等级进行运算，得到候选帧截图在第二方面的取值，如基于预设算法对候选帧截图包括的每个维度特征的置信度以及每个维度特征的权重等级进行加权平均，得到作为候选帧截图在第二方面的取值的平均置信度，或者将权重等级最高的特征的置信度作为候选帧截图在第二方面的取值。

S400：基于每个候选帧截图在第一方面的取值和在第二方面的取值，从多个候选帧截图中确定目标候选帧截图，以得到既能够体现视频的精彩故事情节又美观的目标候选帧截图，其确定方式包括但不限于如下方式：

第一种确定方式：基于每个候选帧截图在第一方面和第二方面其中一个方面的取值，从多个候选帧截图中选取部分候选帧截图，再基于这部分候选帧截图在另一个方面的取值，从这部分候选帧截图中选取一个候选帧截图。

第一种确定方式的两种实施方式分别是：一、基于每个候选帧截图在第一方面的取值，从多个候选帧截图中提取满足第一预设条件的候选帧截图；基于满足第一预设条件的候选帧截图在第二方面的取值，从满足第一预设条件的候选帧截图中确定目标候选帧截图。

例如基于每个候选帧截图在第一方面的取值由大到小的方式，对所有候选帧截图进行排序，从所有候选帧截图中选取排序靠前(如排序在前M位)的候选帧截图，然后基于在第二方面的取值由大到小的方式对所选取的候选帧截图进行再次排序，确定排序在第一位的候选帧截图为目标候选帧截图，由此满足第一预设条件的候选帧截图是基于在第一方面的取值由大到小排序后的前M位的候选帧截图。当然满足第一预设条件的候选帧截图还可以是在第一方面的取值大于阈值的候选帧截图，本实施例仅列举两种第一预设条件，在实际应用中还可以根据实际需求设定，对此本实施例不一一说明且不对第一预设条件进行限定。

此外如果基于此种方式确定目标候选帧截图，则在获得候选帧截图在第二方面的取值时特指获得满足第一预设条件的候选帧截图在第二方面的取值，从而减少计算量。

二、基于每个候选帧截图在第二方面的取值，从多个候选帧截图中提取满足第二预设条件的候选帧截图；基于满足第二预设条件的候选帧截图在第一方面的取值，从满足第二预设条件的候选帧截图中确定目标候选帧截图。具体实施过程请参阅上一实施方式说明，对此本实施例不再详述。

第二种确定方式：预先设置第一阈值和第二阈值，确定在第一方面的取值与第一阈值最接近且在第二方面的取值与第二阈值最接近的候选帧截图为目标候选帧截图，所谓在第一方面的取值与第一阈值最接近是指在第一方面的取值与第一阈值之差小于预设阈值，同样的在第二方面的取值与第二阈值最接近也是指在第二方面的取值与第二阈值之差小于预设阈值，对于预设阈值、第一阈值和第二阈值的设置可以根据实际需求而定，本实施例不加以限定。

S500：将目标候选帧截图作为当前视频在内容展示页面中的静态封面。

在确定出目标候选帧截图之后，本实施例还可以对确定出的目标候选帧截图进行处理以进一步美化静态封面，其处理过程如下：

检测目标候选帧截图中的单色填充显示区域，对单色填充显示区域进行裁剪，将裁剪后的目标候选帧截图作为当前视频在内容展示页面中的静态封面，之所以这样处理是因为目标候选帧截图会存在黑边，通过现有直线检测技术能够从目标候选帧截图中确定出黑边(一种单色填充显示区域)，进而通过剪裁方式能够将目标候选帧截图中的黑边去除，使得静态封面更加美观。

请参阅图2，其示出了本发明实施例提供的另一种封面选取方法，通过引入对初始帧截图分组的方式得到代表当前视频的最主要的精彩故事情节且美观的静态封面，可以包括以下步骤：

S101：对当前视频进行帧提取，得到多个初始帧截图，在本实施例得到多个初始帧截图的方式如上述步骤S100说明，对此本实施例不在阐述。

S102：对多个初始帧截图行画面相似度检测，其中画面相似度检测可通过现有相似度检测算法实现，如一种检测方式是：提取每个初始帧截图的X维特征，如通过卷积神经网络提取每个初始帧截图的4096维特征，并对任意两个初始帧截图，基于这两个初始帧截图的4096维特征，计算这两个初始帧截图的余弦距离(相似度的一种方式)，当然还可以基于其他相似度算法进行画面相似度检测，对此本实施例不再阐述。

S103：基于画面相似度检测结果，对多个初始帧截图进行分组，得到多个截图组，其中同一个截图组中的初始帧截图的画面相似度大于预设相似度阈值，也就是说将画面相似度大于预设相似度阈值的初始帧截图划分至一个截图组中。

而一个视频有多个场景，每个场景下的初始帧截图相似但不同场景下的初始帧截图相差较大，因此通过画面相似度检测能够实现对视频的场景划分，将同一个场景下的初始帧截图划分至一个截图组中。

S104：从每个截图组中选取一个初始帧截图作为候选帧截图。

S105：获得每个候选帧截图在第一方面的取值，其中候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度。

S106：获得每个候选帧截图在第二方面的取值。其中候选帧截图在第二方面的取值用于指示该候选帧截图所展示内容为当前视频的精彩内容的置信度

S107：基于每个候选帧截图在第一方面和第二方面的取值，从多个候选帧截图中确定目标候选帧截图。

S108：将目标候选帧截图作为当前视频在内容展示页面中的静态封面。

上述步骤S105至步骤S108：请参阅上述步骤S200至S500，对此本实施例不再阐述。

借由上述技术方案可知，在获得初始帧截图之后，能够将相似的初始帧截图划分至一个截图组中，从截图组中选取一个初始帧截图作为候选帧截图，这样在确定目标候选帧截图时能够排除从相似的候选帧截图中进行选取，以从差距较大的候选帧截图中确定目标候选帧截图，而差距较大的候选帧截图在故事情节和美观程度上都会存在差距，从而使得获得的多个候选帧截图能够代表当前视频的精彩故事情节的演变，进而能够从多个候选帧截图中确定出代表当前视频的最主要的精彩故事情节且美观的目标候选帧截图，提高静态封面对当前视频展示的准确度，从而提高当前视频的播放量和点击率。

此外本实施例中还可以采用其他方式来利用截图组，相对应的封面选取方法的过程如下：

步骤1：对当前视频进行帧提取，得到多个初始帧截图。

步骤2：对多个初始帧截图行画面相似度检测。

步骤3：基于画面相似度检测结果，对多个初始帧截图进行分组，得到多个截图组。

步骤4：计算每个截图组中每个初始帧截图在第二方面的取值，并基于每个截图组中每个初始帧截图在第二方面的取值，从每个截图组中选取Z个初始帧截图为候选帧截图。

其中基于每个截图组中每个初始帧截图在第二方面的取值选取Z个初始帧截图的方式可以包括但不限于：对每个截图组来说，基于该截图组中每个初始帧截图在第二方面的取值由大到小的方式进行排序，从该截图组的初始帧截图的排序中选取部分初始帧截图，基于此方式最终从所有截图组选取出的初始帧截图的总数为Z。或者可以基于一个阈值从每个截图组中至少选取一个初始帧截图作为候选帧截图。

通过这两种方式能够从每个截图组中选取出的候选帧截图是每个截图组中具有代表性且能够展示该截图组的精彩故事情节的截图，所谓代表性是能够体现该截图组中所有初始帧截图的故事情节。

例如有三个截图组，分别记为截图组1、截图组2和截图组3，对于这三个截图组中的任一截图组来说，基于该截图组中每个初始帧截图在第二方面的取值，确定该截图组中在第二方面的取值最大的初始帧截图为候选帧截图，这样能够从每个截图组中确定出各组中在第二方面的取值最大的初始帧截图为候选帧截图，从而获得三个候选帧截图，而每个截图组对应的故事情节不同，由此通过在第二方面的取值能够将每个截图组中能体现对应截图组的精彩故事情节的初始帧截图作为候选帧截图。

步骤5：计算每个候选帧截图在第一方面的取值，并基于每个候选帧截图在第一方面的取值确定目标候选帧截图，例如从每个候选帧截图中选取在第一方面的取值最大的候选帧截图为目标候选帧截图，从而使得目标候选帧截图是这些候选帧截图中最美观且能够体现精彩故事情节的候选帧截图。

步骤6：将目标候选帧截图作为当前视频在内容展示页面中的静态封面。

同样的也可以先计算每个截图组中每个初始帧截图在第一方面的取值，并基于每个截图组中每个初始帧截图在第一方面的取值，从每个截图组中选取Z个初始帧截图为候选帧截图；计算每个候选帧截图在第二方面的取值，并基于每个候选帧截图在第二方面的取值确定目标候选帧截图，此过程本实施例不再详述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述方法实施例相对应，本发明实施例还提供一种封面选取装置，其结构如图3所示，可以包括：第一获得单元10、第二获得单元20、第三获得单元30、第一确定单元40和第二确定单元50。

第一获得单元10，用于获得当前视频的多个候选帧截图。可以理解的是：当前视频是待确定静态封面的视频，候选帧截图是从当前视频中获得的用于得到静态封面的图像，也就是说静态封面来源于当前视频中的一帧图像。

其中获得多个候选帧截图的一种方式可以是：基于预设提取方式对当前视频进行截图提取操作，得到多个候选帧截图。

获得多个候选帧截图的另一种方式是：从当前视频中获得包含预设内容的帧截图，基于预设完整性检测模型，对帧截图包括的预设内容的完整性进行检测，得到多个候选帧截图。

获得多个候选帧截图的再一种方式是：对当前视频进行帧提取，得到多个初始帧截图，对多个初始帧截图进行画面相似度检测。基于画面相似度检测结果，对多个初始帧截图进行分组，得到多个截图组，从每个截图组中选取一个初始帧截图作为候选帧截图，同一个截图组中的初始帧截图的画面相似度大于预设相似度阈值。

上述三种获得候选帧截图的方式的详细说明请参阅上述方法实施例，对此本实施例不再阐述。

第二获得单元20，用于获得每个候选帧截图在第一方面的取值，其中候选帧截图在第一方面的取值用于指示该候选帧截图所展示内容的美观程度。而候选帧截图所展示内容的美观程度可以从候选帧截图所展示内容的颜色、是否有前景深、预设内容是否突出、候选帧截图所展示内容的构图、候选帧截图中所展示内容的明暗程度和候选帧截图的简洁程度等方面去考虑。例如如果候选帧截图有前景深且预设内容突出，则可以视为候选帧截图所展示内容的较为美观。在本实施例中，每个候选帧截图在第一方面的取值可基于预设美学评价模型得到，具体过程请参阅方法实施例中的相关说明。

第三获得单元30，用于获得每个候选帧截图在第二方面的取值，其中候选帧在第二方面的取值用于指示该候选帧截图所展示内容为当前视频的精彩内容的置信度，置信度越高说明候选帧截图所展示内容能够体现视频的精彩故事情节，置信度越低说明候选帧截图所展示内容体现视频的单调情节，其中精彩内容可以是特殊表情、特殊行为、是否对应特殊场景和是否存在特效等中的至少一种内容，特殊表情/特殊行为以及特殊场景的设置可以基于实际应用而定，若候选帧截图所展示内容包括上述精彩内容中的至少一种或多种时，该候选帧截图在第二方面的取值指示出的置信度越高，越能体现视频的精彩故事情节，反之若不包括这些内容置信度最低。

在本实施例中，获得每个候选帧截图在第二方面的取值的一种方式是：获得每个候选帧截图中至少一个维度特征的置信度以及每个维度特征的权重等级，基于每个候选帧截图包括的每个维度特征的置信度以及每个维度特征的权重等级，确定每个候选帧截图在第二方面的取值，具体过程请参阅方法实施例中的相关说明。

第一确定单元40，用于基于每个候选帧截图在第一方面的取值和第二方面的取值，从多个候选帧截图中确定目标候选帧截图。，其确定方式包括但不限于如下方式：

第二确定单元50，用于将目标候选帧截图作为当前视频在内容展示页面中的静态封面。例如第二确定单元50直接将目标候选帧截图作为静态封面，又或者第二确定单元50对确定出的目标候选帧截图进行处理以进一步美化静态封面，其处理过程如下：

本发明实施例还提供一种存储介质，其特征在于，存储介质中存储有一个或多个程序代码，一个或多个程序代码被执行时实现上述封面选取方法。

本发明实施例还提供一种服务器，服务器包括处理器和存储器，存储器中存储有一个或多个计算机程序，一个或多个计算机程序被处理器运行时实现上述封面选取方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种封面选取方法，其特征在于，所述方法包括：

获得当前视频的多个候选帧截图；

2.根据权利要求1所述的方法，其特征在于，所述基于每个候选帧截图在第一方面的取值和第二方面的取值，从所述多个候选帧截图中确定目标候选帧截图，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于每个候选帧截图在第一方面的取值和第二方面的取值，从所述多个候选帧截图中确定目标候选帧截图，包括：

4.根据权利要求1所述的方法，其特征在于，所述获得每个候选帧截图在第一方面的取值，包括：

5.根据权利要求1所述的方法，其特征在于，所述获得每个候选帧截图在第二方面的取值，包括：

6.根据权利要求1所述的方法，其特征在于，所述获得当前视频的多个候选帧截图包括：

对所述当前视频进行帧提取，得到多个初始帧截图；

对所述多个初始帧截图进行画面相似度检测；

从每个截图组中选取一个初始帧截图作为所述候选帧截图。

7.根据权利要求1所述的方法，其特征在于，所述将所述目标候选帧截图作为所述当前视频在内容展示页面中的静态封面，包括：

检测所述目标候选帧截图中的单色填充显示区域；

对所述单色填充显示区域进行裁剪；

8.根据权利要求1所述的方法，其特征在于，所述获得当前视频的多个候选帧截图包括：

从所述当前视频中获得包含预设内容的帧截图；

9.一种封面选取装置，其特征在于，所述装置包括：

第一获得单元，用于获得当前视频的多个候选帧截图；

10.一种存储介质，其特征在于，所述存储介质中存储有一个或多个程序代码，所述一个或多个程序代码被执行时实现如权利要求1至8中任意一项所述的封面选取方法。

11.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序被处理器运行时实现如权利要求1至8中任意一项所述的封面选取方法。