CN112383830A

CN112383830A - 视频封面确定方法及装置、存储介质

Info

Publication number: CN112383830A
Application number: CN202011230221.XA
Authority: CN
Inventors: 王铭喜; 高荣欣; 李宁
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-19
Also published as: EP3996379A1; US20220147741A1

Abstract

本公开是关于一种视频封面确定方法及装置、存储介质。该方法包括：从待处理视频中确定出M个待处理图像帧，得到包含有M个所述待处理图像帧的候选图集合；其中，每个所述待处理图像帧中包含有至少一个目标对象，M为正整数；将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值；将各个所述待处理图像帧的目标评分值按照设定顺序进行排序，根据排序结果从M个所述待处理图像帧中确定出所述待处理视频的封面图。相较于相关技术中通过人工的方式确定待处理视频的封面图，本公开中的技术方案能够实现封面图的自动选取，不仅能够提高视频封面的选取精度，还能够节省确定视频封面所耗费的时间。

Description

视频封面确定方法及装置、存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频封面确定方法及装置、存储介质。

背景技术

视频应用程序(Application，App)中都存在大量的影视内容，比如电影解说，电影电视剧的精彩片段等等。视频封面作为快速展示视频内容的形式，能够让用户在浏览视频之前预判是否对视频内容感兴趣。而一个好的视频封面无疑会提升视频被推荐的成功率。

相关技术中，可以通过人工的方式设置视频资料的封面，例如，可以采用一幅海报图或者电影内容中的某个画面作为视频网站中的某部电影的封面。此外，还可以通过一些技术手段将视频中的人物脸部图案作为视频资料的封面，例如，选取视频中的某一个包含有人物脸部图案的图像帧作为与场景匹配的视频封面进行展示等。然而，现有的封面选取方法的选取精度较差，且选取封面所耗费的时间较长。

发明内容

本公开提供一种视频封面确定方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种视频封面确定方法，所述方法包括：

从待处理视频中确定出M个待处理图像帧，得到包含有M个所述待处理图像帧的候选图集合；其中，每个所述待处理图像帧中包含有至少一个目标对象，M为正整数；

将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值；

将各个所述待处理图像帧的目标评分值按照设定顺序进行排序，根据排序结果从M个所述待处理图像帧中确定出所述待处理视频的封面图。

在一些实施例中，所述将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值，包括：

将各个所述待处理图像帧输入图像评分网络，得到各个所述待处理图像帧的图像特征评分值；

将各个所述待处理图像帧输入对象评分网络，得到各个所述待处理图像帧中的对象特征评分值；

将各个所述待处理图像帧输入美学评分网络，得到各个所述待处理图像帧的美学特征评分值；

基于所述图像特征评分值、所述对象特征评分值以及所述美学特征评分值，得到各个所述待处理图像帧的所述目标评分值。

在一些实施例中，所述基于所述图像特征评分值、所述对象特征评分值以及所述美学特征评分值，得到各个所述待处理图像帧的所述目标评分值，包括：

分别对各个所述待处理图像帧的所述图像特征评分值、所述对象特征评分值以及所述美学特征评分值进行加权；

将加权后的所述图像特征评分值、所述对象特征评分值以及所述美学特征评分值进行求和，得到各个所述待处理图像帧的所述目标评分值。

在一些实施例中，所述方法还包括：

按照设定时间间隔对所述待处理视频进行抽帧，得到N个图像帧；

所述从待处理视频中确定出M个待处理图像帧，包括：

从N个所述图像帧中确定出包含有所述目标对象的M个所述待处理图像帧，其中，N为大于或者等于M的正整数。

在一些实施例中，所述从N个所述图像帧中确定出包含有所述目标对象的M个所述待处理图像帧，包括：

根据过滤模型，基于过滤规则匹配，从M个所述待处理图像帧中筛选出与所述过滤规则中所包含的待过滤图像帧不匹配的图像帧；

所述将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值，包括：

将从M个所述待处理图像帧中筛选出的与所述过滤规则中所包含的待过滤图像帧不匹配的图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值。

根据本公开实施例的第二方面，提供一种视频封面确定装置，所述装置包括：

第一获取模块，配置为从待处理视频中确定出M个待处理图像帧，得到包含有M个所述待处理图像帧的候选图集合；其中，每个所述待处理图像帧中包含有至少一个目标对象，M为正整数；

第二获取模块，配置为将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值；

确定模块，配置为将各个所述待处理图像帧的目标评分值按照设定顺序进行排序，根据排序结果从M个所述待处理图像帧中确定出所述待处理视频的封面图。

在一些实施例中，所述第二获取模块，还配置为：

在一些实施例中，所述装置还包括：

处理模块，配置为按照设定时间间隔对所述待处理视频进行抽帧，得到N个图像帧；

所述第一获取模块，还配置为：

从N个所述图像帧中确定出M个所述待处理图像帧，其中，N为大于或者等于M的正整数。

在一些实施例中，所述装置还包括：

过滤模块，配置为根据过滤模型，基于过滤规则匹配，从M个所述待处理图像帧中筛选出与所述过滤规则中所包含的待过滤图像帧不匹配的图像帧；

第二获取模块，还配置为：

根据本公开实施例的第三方面，提供一种视频封面确定装置，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面提供的任一种视频封面确定方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由视频封面确定装置的处理器执行时，使得所述装置能够执行上述第一方面提供的任一种视频封面确定方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，通过从待处理视频中确定出M个待处理图像帧，并基于该M个待处理图像帧形成候选图集合，在选取视频封面的过程中，能够基于评分网络对该M个待处理图像帧进行评分，得到各个待处理图像帧的目标评分值，然后对目标评分值按照设定顺序进行排序，并根据排序结果确定出包含有目标对象的封面图。相较于相关技术中通过人工的方式确定待处理视频的封面图，能够实现封面图的自动选取，不仅能够提高视频封面的选取精度，还能够节省确定视频封面所耗费的时间。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例示出的一种视频封面确定方法流程图一。

图2是本公开实施例示出的一种视频封面确定方法流程图二。

图3是本公开实施例示出的一种视频封面确定方法的整体框架图。

图4是本公开实施例示出的确定出的封面图的示意图。

图5是根据一示例性实施例示出的一种视频封面确定装置图一。

图6是根据一示例性实施例示出的一种视频封面确定装置图二。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例示出的一种视频封面确定方法流程图一，该方法可以适用于为视频资料选取封面的场景，该视频资料可为终端设备内相册中的视频，还可以是使用交互类应用拍摄的实时视频，如使用微信应用拍摄的实时视频或者使用微博应用拍摄的实时视频。如图1所示，视频封面确定方法包括以下步骤：

在步骤101中，从待处理视频中确定出M个待处理图像帧，得到包含有M个所述待处理图像帧的候选图集合；其中，每个所述待处理图像帧中包含有至少一个目标对象，M为正整数；

在步骤102中，将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值；

在步骤103中，将各个所述待处理图像帧的目标评分值按照设定顺序进行排序，根据排序结果从M个所述待处理图像帧中确定出所述待处理视频的封面图。

本公开实施例中的视频封面确定方法可应用于终端设备，终端设备通过执行视频封面确定方法为待处理视频选择封面图。其中，该终端设备包括可穿戴式电子设备或者移动终端。其中，移动终端包括手机、笔记本或者平板电脑，该可穿戴电子设备包括智能手表或者智能手环，本公开实施例不作限制。

在一些实施例中，上述视频封面确定方法还可应用于服务器，该服务器与终端设备建立有通信连接，服务器可将选择的目标图像帧发送给终端设备，使得终端设备能够将该目标图像帧作为该待处理视频的封面图。

在一些实施例中，目标对象可以是包含在待处理图像帧中的人物图像，例如，出现在某部电影中的某明星的图像。以待处理视频是电影A为例，则目标对象可以是扮演电影A中某个角色的明星B的图像。在实现的过程中，能够从电影A中确定出包含有明星B的M个待处理图像帧。

本公开实施例中，在确定出包含有目标对象的图像帧之后，可以将从待处理视频中确定出的M个待处理图像帧输入评分网络，得到对各个待处理图像的整体评分值，即目标评分值。也就是说，在将本公开实施例中的M个待处理图像帧输入评分网络之后，能够输出M个目标评分值。在一些实施例中，评分网络可以是基于数学模型预先训练得到的，用于对各个待处理图像帧进行评分，例如，可以基于神经网络训练得到该评分网络。

在一些实施例中，待处理图像帧的目标评分值与将该待处理图像帧确定为封面图的概率正相关。也就是说，如果待处理图像帧的目标评分值越高，将该待处理图像帧确定为封面图的概率越大；如果待处理图像帧的目标评分值越低，将该待处理图像帧确定为封面图的概率越小。

本公开实施例中，在得到M个待处理图像帧的M个目标评分值之后，可以对该M个目标评分值按照从大至小的顺序进行排序，并将目标评分值最大的一个待处理图像帧确定为该待处理视频的封面图。

在一些实施例中，也可以将目标评分值最大的K个待处理图像帧确定为该待处理视频的封面图集合，即基于排在最前面的K个待处理图像帧生成封面图集合，在实现的过程中，可以基于预设播放时间间隔，以幻灯片的形式展示封面图集合中的各个封面图。这样，能够提高封面图的展示方式的多样化，进而提高用户的使用体验感。

在另一些实施例中，也可以对该M个目标评分值按照从小至大的顺序进行排序，在此不做具体限定。

这里，图像评分网络可以是基于数学模型预先训练得到的，用于对各个待处理图像帧的图像特征进行评分，得到待处理图像帧的图像特征评分值。例如，可以基于神经网络训练得到该图像评分网络。其中，图像特征包括以下至少之一：待处理图像帧的黑边；待处理图像帧的亮度；待处理图像帧的清晰度。其中，黑边是指待处理图像帧中除了画面内容之外的黑色部分，待处理图像帧的黑边可以位于：画面内容的上方、画面内容的下方、画面内容的左边和/或画面内容的右边。

在一些实施例中，所述将各个所述待处理图像帧输入图像评分网络，得到各个所述待处理图像帧的图像特征评分值，包括：

将各个所述待处理图像帧输入图像评分网络，得到各个所述待处理图像帧的黑边尺寸、各个所述待处理图像帧的亮度分数以及各个所述待处理图像帧的清晰度分数；

基于各个所述待处理图像帧的黑边尺寸、各个所述待处理图像帧的亮度分数以及各个所述待处理图像帧的清晰度分数，得到各个所述待处理图像帧的图像特征评分值。

在一些实施例中，所述基于各个所述待处理图像帧的黑边尺寸、各个所述待处理图像帧的亮度分数以及各个所述待处理图像帧的清晰度分数，得到各个所述待处理图像帧的图像特征评分值，包括：

对各个所述待处理图像帧的黑边尺寸、各个所述待处理图像帧的亮度分数以及各个所述待处理图像帧的清晰度分数进行加权；

将加权后的各个所述待处理图像帧所处画面的黑边尺寸、各个所述待处理图像帧的亮度分数以及各个所述待处理图像帧的清晰度分数进行求和，得到各个所述待处理图像帧的图像特征评分值。

例如，可以基于第一权重值对各个所述待处理图像帧的黑边尺寸进行加权；基于第二权重值对各个所述待处理图像帧的亮度分数进行加权；基于第三权重值对各个所述待处理图像帧的清晰度分数进行加权。

在一些实施例中，图像特征评分值的计算公式如下：

公式(1)中，score1表示图像特征评分值；black-edge表示待处理图像帧的黑边尺寸；brightness表示待处理图像帧的亮度分数；blur1表示待处理图像帧的清晰度分数；pure-color表示待处理图像帧的色彩饱和度，且在pure-color＝0的情况下，score1＝0；0.1表示black-edge的权重，即第一权重值；0.2表示brightness的权重，即第二权重值；0.7表示blur1的权重，即第三权重值。

本公实施例中，能够对各个所述待处理图像帧的黑边尺寸、亮度分数以及清晰度分数进行加权，并将加权后的黑边尺寸、亮度分数以及清晰度分数进行求和，得到各个所述待处理图像帧的图像特征评分值。在实现的过程中，能够根据需要调整各个参数的权重系数，进而调整各个参数在图像特征评分值中所占的比重，进而提高实施视频封面确定方法的灵活性。

在一些实施例中，对象评分网络可以是基于数学模型预先训练得到的，用于对各个待处理图像帧中的各个目标对象进行评分，得到对象特征评分值。例如，可以基于神经网络训练得到该对象评分网络。

以目标对象是人物图像为例，对象特征包括以下至少之一：人物图像的个数、人物图像在待处理图像帧中的位置、人物图像的尺寸、人物图像的清晰度、人物图像中人物的人眼状态、人物图像中人物的表情以及人物图像中人物的姿态。

在一些实施例中，所述将各个所述待处理图像帧输入对象评分网络，得到各个所述待处理图像帧中的对象特征评分值，包括：

将各个所述待处理图像帧输入对象评分网络，得到各个所述待处理图像帧中人物图像的个数、人物图像在待处理图像帧中的位置、人物图像的尺寸、人物图像的清晰度分数、人物图像中人物的人眼状态分数、人物图像中人物的表情分数以及人物图像中人物的姿态分数；

基于各个所述待处理图像帧中人物图像的个数、人物图像在待处理图像帧中的位置分数、人物图像的尺寸、人物图像的清晰度分数、人物图像中人物的人眼状态分数、人物图像中人物的表情分数以及人物图像中人物的姿态分数，得到各个待处理图像帧的对象特征评分值。

例如，在待处理图像帧中人物图像的个数小于第一个数阈值或者待处理图像帧中人物图像的个数大于等于第二个数阈值的情况下，则可以确定该待处理图像帧的对象特征评分值为0。其中，第一个数阈值和第二个数阈值可以根据需要设定，例如，第一个数阈值可以是1，第二个数阈值可以是5等。

由于在待处理图像帧中的目标对象的个数过少的情况下，不能很全面地展示待处理视频中较为精彩的内容，在目标对象的个数较多的情况下，不能很明显地凸显出待处理视频的重点内容，如果将目标对象的个数过少或者过多的待处理图像帧确定为待处理视频的封面图，会导致最终选出的封面图所显示的内容不佳。

本公开实施例中，通过将人物图像的个数小于第一个数阈值或者人物图像的个数大于等于第二个数阈值的待处理图像帧的对象特征评分值确定为0，可以减少该待处理图像帧被选为封面图的可能性。本公开通过将最终选取的封面图中的目标对象的个数限定的设定范围内，即，使封面图中的目标对象的个数大于等于第一个数阈值且小于第二个数阈值，能够使得最终选取的封面图中的目标对象的个数较为合理。

再例如，可以对人物图像在待处理图像帧中的位置分数和人物图像的尺寸进行求和，并确定求得的和值是否小于设定阈值；如果该和值小于该设定阈值，则可以确定该待处理图像帧的对象特征评分值为0。其中，设定阈值可以根据需要设定，例如，设定阈值可以是0.2等。

由于在待处理图像帧中的目标对象的位置不是很优或者尺寸较小的情况下，所呈现出来的人物图像的效果不佳，而又由于人物图像需要作为封面图像的核心内容，这样，会导致最终选出的封面图所显示的内容不佳。

本公开实施例中，通过将位置分数和人物图像的尺寸之和小于设定阈值的待处理图像帧的对象特征评分值确定为0，可以减少该待处理图像帧被选为封面图的可能性，能够使得最终选取的封面图中的目标对象的显示效果更佳。

再例如，在确定待处理图像帧中人物图像的个数位于设定范围(大于第一个数阈值且小于第二个数阈值的范围)内，且人物图像在待处理图像帧中的位置分数和人物图像的尺寸的和值大于等于设定阈值的情况下，可以基于各个待处理图像帧中人物图像的清晰度分数、人物图像中人物的人眼状态分数、人物图像中人物的表情分数以及人物图像中人物的姿态分数，得到各个待处理图像帧的对象特征评分值。

在一些实施例中，所述基于各个待处理图像帧中人物图像的清晰度分数、人物图像中人物的人眼状态分数、人物图像中人物的表情分数以及人物图像中人物的姿态分数，得到各个待处理图像帧的对象特征评分值，包括：

对各个所述待处理图像帧中人物图像的清晰度分数、人物图像中人物的人眼状态分数、人物图像中人物的表情分数以及人物图像中人物的姿态分数进行加权；

对加权后的人物图像的清晰度分数、人物图像中人物的人眼状态分数、人物图像中人物的表情分数以及人物图像中人物的姿态分数进行求和，得到各个待处理图像帧的对象特征评分值。在一些实施例中，人物图像中人物的姿态至少包括：人物的面部姿态。

例如，可以基于第四权重值对各个人物图像的清晰度分数进行加权；基于第五权重值对各个人物图像中人物的表情分数进行加权；基于第六权重值对各个人物图像中人物的人眼状态分数进行加权；基于第七权重值对各个人物图像中人物的姿态分数进行加权。

在一些实施例中，对象特征评分值的计算公式如下：

公式(2)中，score2表示对象特征评分值；number表示人物图像的个数；location表示人物图像在待处理图像帧中的位置分数；size表示人物图像的尺寸；blur2表示人物图像的清晰度分数；smile表示人物图像中人物的表情分数；eye表示人物图像中人物的人眼状态分数；pose表示人物图像中人物的姿态分数；0.3表示blur2的权重，即第四权重值；0.1表示smile的权重，即第五权重值；0.4表示eye的权重，即第六权重值；0.2表示pose的权重，即第七权重值。

在一些实施例中，人物图像中人物的姿态分数的计算公式如下：

公式(3)中，pose表示人物图像中人物的姿态分数；yaw表示偏航角；pitch表示俯仰角；roll表示翻滚角。

这里，美学评分网络可以是基于数学模型预先训练得到的，用于对各个待处理图像帧的美学特征进行评分，得到待处理图像帧的美学特征评分值。例如，可以基于神经网络训练得到该美学评分网络。其中，美学特征包括以下至少之一：待处理图像帧的构图；待处理图像帧的颜色丰富度。

在一些实施例中，所述将各个所述待处理图像帧输入美学评分网络，得到各个所述待处理图像帧的美学特征评分值，包括：

将各个所述待处理图像帧输入美学评分网络，得到各个所述待处理图像帧的构图分数以及各个待处理图像帧的颜色丰富度分数；

基于各个所述待处理图像帧的构图分数以及各个待处理图像帧的颜色丰富度分数，得到各个所述待处理图像帧的美学特征评分值。

在一些实施例中，所述基于各个所述待处理图像帧的构图分数以及各个待处理图像帧的颜色丰富度分数，得到各个所述待处理图像帧的美学特征评分值，包括：

对各个所述待处理图像帧的构图分数以及各个待处理图像帧的颜色丰富度分数进行加权；

将加权后的构图分数以及各个待处理图像帧的颜色丰富度分数进行求和，得到各个所述待处理图像帧的美学特征评分值。

例如，可以基于第八权重值对各个所述待处理图像帧的构图分数进行加权；基于第九权重值对各个待处理图像帧的颜色丰富度分数进行加权。

在一些实施例中，美学特征评分值的计算公式如下：

score3＝composition×0.6+color×0.4 (4)；

公式(4)中，score3表示美学特征评分值；composition表示待处理图像帧的构图分数；color表示待处理图像帧的颜色丰富度分数；0.6表示composition的权重，即第八权重值；0.4表示color的权重，即第九权重值。

本公开实施例中，能够分别将各个待处理图像帧输入不同类型的评分网络，即分别将待处理图像帧输入图像评分网络、对象评分网络以及美学评分网络，并通过各个评分网络输出的评分值得到目标评分值。这样，能够使得得到的目标评分值所包含的信息更加全面，进而能够确定出优质的待处理图像帧，提高所选出的封面图的视觉效果。

例如，可以基于第一目标权重值对各个待处理图像帧的图像特征评分值进行加权；基于第二目标权重值对各个待处理图像帧的对象特征评分值进行加权；基于第三目标权重值对各个待处理图像帧的美学特征评分值进行加权。

在一些实施例中，目标评分值的计算公式如下：

score＝w₁score1+w₂score2+w₃score3 (5)；

公式(5)中，score表示目标评分值；score1表示图像特征评分值；w₁表示score1的权重，即第一目标权重值；score2表示对象特征评分值；w₂表示score2的权重，即第二目标权重值；score3美学特征评分值；w₃表示score3的权重，即第三目标权重值。

本公开实施例中，能够对各个待处理图像帧的图像特征评分值、对象特征评分值以及美学特征评分值进行加权，并将加权后的图像特征评分值、对象特征评分值以及美学特征评分值进行求和，得到各个待处理图像帧的目标评分值。在实现的过程中，能够根据需要调整各个评分值的权重值，进而调整各个评分值在目标评分值中所占的比重，进而提高实施视频封面确定方法的灵活性。

在一些实施例中，所述方法还包括：

所述从待处理视频中确定出M个待处理图像帧，包括：

本公开实施例中，可以按照设定时间间隔对待处理视频进行抽帧，得到N个图像帧。其中，设定时间间隔可根据实际需求设置，该设定时间间隔可设置为1秒或者2秒，本公开实施例不作限制。

在获取图像帧的过程中，图像帧的个数N可根据视频时长和设定时间间隔之间的商值确定。例如，该视频时长为60秒，设定时间间隔为1秒，对应的提取得到的图像帧的个数N为60个。

这里，在得到N个图像帧之后，可以基于图像识别技术，从N个图像帧中确定出包含有目标对象的M个待处理图像帧。本公开实施例中，在从待处理视频中确定待处理图像帧之前，能够先对待处理视频进行抽帧处理，得到N个图像帧，再从该N个图像帧中确定出包含有目标对象的待处理图像帧，相较于对待处理视频中所有的图像帧进行图像识别，本公开中的技术方案能够减少图像处理的工作量，提高图像处理的速度和效率，进而提高确定出封面图的效率。

这里，过滤模型可以是基于数学模型预先训练得到的，用于对各个图像帧进行过滤处理，例如，可以基于神经网络训练得到该过滤模型。本公开实施例中，可以将待处理图像帧所包含的图像内容与待过滤图像帧的图像内容进行匹配，当待处理图像帧中包含有预先设定待过滤图像帧的图像内容时，则确定该待处理图像帧与预先设定的待过滤图像帧相匹配，这时，可以将该待处理图像帧过滤掉。过滤规则所包含的预先设定的待过滤图像帧的图像内容可以是包含有预设的垃圾字词和/或垃圾图片的垃圾图像内容。

例如，在实现的过程中，可以将待处理图像帧中的图像内容与垃圾图像内容中所包含的垃圾字词和/或垃圾图片进行匹配，当待处理图像帧包含有垃圾字词和/或垃圾图片时，则确定该待处理图像帧与预先设定的待过滤图像帧相匹配，这时，可以将该待处理图像帧过滤掉。本公开通过将包含有预设的垃圾字词和/或垃圾图片的垃圾图像内容过滤掉，能够精确地确定出符合条件的待处理图像帧，进而提高所确定的封面图的精确性。

这里，可以通过过滤规则过滤掉与基于过滤规则设定的待过滤图像帧相匹配的待处理图像帧，筛选出与基于过滤规则设定的待过滤图像帧不匹配的待处理图像帧。其中，基于过滤规则设定的待过滤图像帧所包含的图像内容可以是无意义的图像内容，例如，包含有广告、色情、涉政、暴力和/或恐怖活动相关的图像内容，以及文字占比大于图像占比的图像内容等。

本公开实施例中，可以基于过滤模型过滤掉与过滤规则中所包含的待过滤图像帧相匹配的图像帧，筛选出与所述过滤规则中所包含的待过滤图像帧不匹配的图像帧作为待处理图像帧。能够减少将不健康或者会引起用户不适的图像帧选为封面图的可能性，进而提高用户的使用体验感。

图2是本公开实施例示出的一种视频封面确定方法流程图二，如图2所示，视频封面确定方法包括以下步骤：

在步骤201中，从待处理视频中抽取N个图像帧。

在步骤202中，从N个图像帧中确定出包含有目标对象的M个待处理图像帧，得到候选图集合。

在步骤203中，根据过滤模型，基于过滤规则匹配，从候选图集合的M个待处理图像帧中筛选出与过滤规则中所包含的待过滤图像帧不匹配的图像帧。

在步骤204中，将从M个待处理图像帧中筛选出的与过滤规则中所包含的待过滤图像帧不匹配的图像帧输入评分网络，得到各个待处理图像帧的目标评分值。

在步骤205中，将各个待处理图像帧的目标评分值按照设定顺序进行排序，根据排序结果从M个待处理图像帧中确定出待处理视频的封面图。

在一些实施例中，在确定出待处理视频的封面图之后，可以基于图像增强模型对该封面图进行增强处理，得到增强后的封面图，并将该增强后的封面图展示给用户。本公开实施例中，可以利用图像增强模型对封面图进行增强处理，这样，能够提高最终展示的封面图的分辨率和清晰度。

图3是本公开实施例示出的一种视频封面确定方法的整体框架图，如图3所示，在实现的过程中，可以输入待处理视频的要素信息，其中要素信息包括：待处理视频的媒资信息和视频流。以待处理视频是影视剧为例，媒资信息最可以是该影视剧的主演演员信息。

在输入待处理视频的要素信息之后，可以通过策略中心选取指定的目标对象(例如，演员C)作为封面图的选取依据。然后按照设定时间间隔对待处理视频进行抽帧，得到若干个图像帧(例如，得到N个图像帧)。

在得到若干个图像帧之后，对若干个图像帧分别进行图像识别，确定出包含有目标对象的待处理图像帧(例如，包含有上述演员C的M个待处理图像帧)，并将包含有目标对象的待处理图像帧作为候选封面图，放入候选图队列(候选图集合)中。

然后基于过滤模型对候选图队列中的待处理图像帧进行过滤，识别待处理图像帧是否包含有广告、色情、涉政、暴力和/或恐怖活动相关的图像内容，如果识别出有待处理图像帧包含上述图像内容，则将该待处理图像帧从候选图队列中移除。

然后将过滤后的候选图队列中所有待处理图像帧输入图像评分网络(物理打分模型)，得到各个所述待处理图像帧的图像特征评分值；将过滤后的候选图队列中所有待处理图像帧输入对象评分网络(人脸打分模型)，得到各个所述待处理图像帧中的对象特征评分值；将过滤后的候选图队列中所有待处理图像帧输入美学评分网络(美学打分模型)，得到各个所述待处理图像帧的美学特征评分值。

在得到各个待处理图像帧的图像特征评分值、对象特征评分值以及美学特征评分值之后，可以分别对各个待处理图像帧的图像特征评分值、对象特征评分值以及美学特征评分值进行加权，将加权后的图像特征评分值、对象特征评分值以及美学特征评分值进行求和，得到各个待处理图像帧的目标评分值。

在得到到各个待处理图像帧的目标评分值之后，可以对各个目标评分值按照从大至小的顺序进行排序，并将目标评分值最大的一个待处理图像帧确定为该待处理视频的封面图。

在另一些实施例中，在确定出待处理视频的封面图之后，可以基于图像增强模型对该封面图进行增强处理，得到增强后的封面图，并将该增强后的封面图展示给用户。本公开实施例中，可以利用图像增强模型对封面图进行确定，这样，能够提高最终展示的封面图的分辨率和清晰度。

图4是本公开实施例示出的确定出的封面图的示意图，如图4所示，确定出的封面图可以包括目标对象401(例如，影视剧中的主演演员)的图像。

以待处理视频是应是内容为例，通过本公开实施例的技术方案，可以有效解决影视内容封面图的选取问题，还可以对影视内容的原始封面图不佳的问题进行修复。在另一些实施例中，也可以把待处理视频的原始封面图也放入候选图队列中，一起参与打分评选。

图5是根据一示例性实施例示出的一种视频封面确定装置图一，如图5所示，所述视频封面确定装置500包括：

第一获取模块501，配置为从待处理视频中确定出M个待处理图像帧，得到包含有M个所述待处理图像帧的候选图集合；其中，M为正整数；

第二获取模块502，配置为将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值；

确定模块503，配置为将各个所述待处理图像帧的目标评分值按照设定顺序进行排序，根据排序结果从M个所述待处理图像帧中确定出所述待处理视频的封面图。

在一些实施例中，所述第二获取模块502，还配置为：

将各个所述待处理图像帧输入对象评分网络，得到各个所述待处理图像帧的对象特征评分值；

在一些实施例中，所述第二获取模块502，还配置为：

在一些实施例中，所述装置500还包括：

所述第一获取模块，还配置为：

从N个所述图像帧中确定出包含有所述目标对象的M个所述待处理图像帧，其中，每个所述待处理图像帧中包含有至少一个目标对象，其中，N为大于或者等于M的正整数。

在一些实施例中，所述装置500还包括：

第二获取模块，还配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种视频封面确定装置图二。例如，装置可以是移动电话，移动电脑等。

参照图6，装置可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备的操作。这些数据的示例包括用于在装置上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置提供各个方面的状态评估。例如，传感器组件814可以检测到设备的打开/关闭状态，组件的相对定位，例如所述组件为装置的显示器和小键盘，传感器组件814还可以检测装置或装置一个组件的位置改变，用户与装置接触的存在或不存在，装置方位或加速/减速和装置的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置和其他设备之间有线或无线方式的通信。装置可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行视频封面确定方法，所述方法包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频封面确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述候选图集合中的M个所述待处理图像帧输入评分网络，得到各个所述待处理图像帧的目标评分值，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述图像特征评分值、所述对象特征评分值以及所述美学特征评分值，得到各个所述待处理图像帧的所述目标评分值，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述从待处理视频中确定出M个待处理图像帧，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.一种视频封面确定装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二获取模块，还配置为：

8.根据权利要求7所述的装置，其特征在于，所述第二获取模块，还配置为：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

所述第一获取模块，还配置为：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第二获取模块，还配置为：

11.一种视频封面确定装置，其特征在于，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至5中任一种视频封面确定方法中的步骤。

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由视频封面确定装置的处理器执行时，使得所述装置能够执行上述权利要求1至5中任一种视频封面确定方法中的步骤。