CN112866801B

CN112866801B - 视频封面的确定方法、装置、电子设备及存储介质

Info

Publication number: CN112866801B
Application number: CN202110265533.2A
Authority: CN
Inventors: 马超; 王铭喜; 马天泽
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-10-03
Anticipated expiration: 2041-03-11
Also published as: CN112866801A

Abstract

本公开是关于视频封面的确定方法、装置、电子设备及存储介质，其中方法包括：获取视频文件的内容信息，以及获取所述视频文件中的多个图像帧；确定每个所述图像帧的文本描述信息与所述内容信息的相似度；根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像。使用本公开的方法，能够选取出与视频内容相似度高的图像帧，再进一步选取相似度高的图像帧中质量适宜的作为封面图。既能保证封面图的质量，又能很好的体现出视频内容，有效提升封面图的准确性及适配性。

Description

视频封面的确定方法、装置、电子设备及存储介质

技术领域

本公开涉及视频领域，尤其涉及一种视频封面的确定方法、装置、电子设备及存储介质。

背景技术

随着技术发展，各类视频平台层出不穷，比如发展迅速的短视频平台，视频会在用户浏览界面显示封面图。视频的封面图相当于视频的门面，对视频的意义极为重要。尤其对于短视频而言，一副有意义、贴近短视频内容的封面图能够引起用户兴趣，从而提高视频的点击率。

视频的封面图可以由人工挑选或者随机生成。人工挑选的封面图质量较高，但是需要投入大量的人力成本。而采用机器随机生成，则不能有效保证封面图的质量。

相关技术中生成封面图的方式采用：在封面图的选取上应用神经网络模型，筛选出图像质量较好的候选封面，再由人工挑选确定最终封面。此种方式至少存在如下技术问题：只参考了图像质量，但筛选出的图像不一定贴合视频所要表达的内容，不能选取出有意义的封面图。

发明内容

为克服相关技术中存在的问题，本公开提供一种视频封面的确定方法、装置、电子设备及存储介质。

根据本公开实施例的第一方面，提出了一种视频封面的确定方法，包括：

获取视频文件的内容信息，以及获取所述视频文件中的多个图像帧；

确定每个所述图像帧的文本描述信息与所述内容信息的相似度；

根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像。

可选地，所述获取视频文件的内容信息，包括：

获取所述视频文件的标题内容和/或简介内容。

可选地，所述获取所述视频文件中的多个图像帧，包括：

获取所述视频文件每秒的图像帧，得到多个图像帧；或者，

每间隔预设时长获取一个图像帧，得到多个图像帧。

可选地，所述确定每个所述图像帧的文本描述信息与所述内容信息的相似度，包括：

通过第一模型分别确定每个所述图像帧的文本描述信息；

通过第二模型，分别确定每个所述图像帧的文本描述信息与所述内容信息的文本相似度，获得多个文本相似度。

可选地，所述根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像包括：

根据多个图像帧对应的多个文本相似度，确定按预设顺序排列的预设数量个图像帧；

根据所述文本相似度和预设图像质量评定规则，确定所述预设数量个图像帧中的封面图像。

可选地，所述根据所述文本相似度和预设图像质量评定规则，确定所述预设数量个图像帧中的封面图像，包括：

根据图像帧对应的所述文本相似度、图像质量评分及惩罚项评分，确定所述预设数量个图像帧中，每个图像帧的总评分；其中，所述惩罚项包括图像帧中存在预设标识，和/或存在遮挡物遮挡图像帧中的主目标物；

根据每个图像帧的总评分，确定所述预设数量个图像帧中的至少一个候选封面；

根据所述至少一个候选封面和加权规则，确定所述封面图像。

可选地，所述方法还包括：

通过第三模型确定所述预设数量个图像帧中，每个图像帧的图像质量评分；

通过第四模型确定所述预设数量个图像帧中，每个图像帧中的惩罚项评分，其中，所述惩罚项为确定总评分过程中的减分项。

根据本公开实施例的第二方面，提出了一种视频封面的确定装置，包括：

获取模块，用于获取视频文件的内容信息，以及获取所述视频文件中的多个图像帧；

第一确定模块，用于确定每个所述图像帧的文本描述信息与所述内容信息的相似度；

第二确定模块，用于根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像。

可选地，所述获取模块具体用于：

获取所述视频文件的标题内容和/或简介内容。

可选地，所述获取模块具体用于：

获取所述视频文件每秒的图像帧，得到多个图像帧；或者，

每间隔预设时长获取一个图像帧，得到多个图像帧。

可选地，所述第一确定模块具体用于：

通过第一模型分别确定每个所述图像帧的文本描述信息；

可选地，所述第二确定模块具体用于：

可选地，所述第二确定模块还用于：

根据本公开实施例的第三方面，提出了一种电子设备，包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，所述处理器被配置为执行如上任一项所述的视频封面的确定方法。

根据本公开实施例的第四方面，提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上任一项所述的视频封面的确定方法。

本公开的实施例提供的技术方案可以包括以下有益效果：使用本公开的方法，能够选取出与视频内容相似度高的图像帧，再进一步选取相似度高的图像帧中质量适宜的作为封面图。既能保证封面图的质量，又能很好的体现出视频内容，有效提升封面图的准确性及适配性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的方法的流程图。

图2是根据一示例性实施例示出的方法的流程图。

图3是根据一示例性实施例示出的方法的流程图。

图4是根据一示例性实施例示出的方法的流程图。

图5是根据一示例性实施例示出的模型处理的流程图。

图6是根据一示例性实施例示出的装置的框图。

图7是根据一示例性实施例示出的电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决相关技术中的技术问题，本公开提出了一种视频封面的确定方法，包括：获取视频文件的内容信息，以及获取视频文件中的多个图像帧。确定每个图像帧的文本描述信息与内容信息的相似度。根据相似度和预设图像质量评定规则，确定多个图像帧中的封面图像。使用本公开的方法，能够选取出与视频内容相似度高的图像帧，再进一步选取相似度高的图像帧中质量适宜的作为封面图。既能保证封面图的质量，又能很好的体现出视频内容，有效提升封面图的准确性及适配性。

在一个示例性的实施例中，如图1所示，本实施例的方法具体包括如下步骤：

S110、获取视频文件的内容信息，以及获取视频文件中的多个图像帧。

S120、确定每个图像帧的文本描述信息与内容信息的相似度。

S130、根据相似度和预设图像质量评定规则，确定多个图像帧中的封面图像。

其中，视频文件可以是短视频也可以是常规的影视作品。由于短视频刷新快，因此短视频封面的含义较影视作品封面的含义更为重要，为便于描述，本实施例中以视频文件是短视频为例进行说明。

在步骤S110中，内容信息可以是视频文件表达的含义。内容信息可以是视频文件的标题内容或简介内容。

在第一个示例中，获取视频文件的标题内容T，标题一般可以反映出视频文件所表达的主要内容或含义，因此通过获取标题可获知视频文件的主要内容。

在第二个示例中，获取视频文件的简介内容，简介内容可以是关键词或者关键句，以获知视频文件的主要内容。

在第三个示例中，还可以同时获取标题内容及简介内容，以更准确的获知视频文件要表达的内容。

获取的多个图像帧可以是连续的一系列图像帧，也可以是间隔抽取的一系列图像帧。

在第一个示例中，可以是获取视频文件每秒的图像帧，得到多个图像帧Fi。

本示例中，基于1秒内视频画面的变化程度在一定范围内，因此对视频文件按秒抽帧，每一秒都可得到一个图像帧。由此，可以获得一系列连续的图像帧，利于对全部图像帧进行考察，不会错失有意义的图像帧、也便于剔除质量不好的图像帧。

在第二个示例中，每间隔预设时长获取一个图像帧，得到多个图像帧Fi。

本示例中，可以基于视频文件的类型或是视频的时长，以一定的时长间隔进行抽帧。

比如，视频文件属于静态画面较多的景物视频，视频本身的变化程度不会很大，因此可以是以预设时长作为间隔获取图像帧，预设时长可以是在1s-3s之间。再比如，视频文件在短视频中属于时长较长的文件，为提升效率，可以选择按预设时长抽帧。

在步骤S120中，文本描述信息用于表征对应图像帧的含义或内容。根据获取的内容信息，确定每个图像帧表征的含义与内容信息的相似度。从而可以获知在获取的图像帧中，各图像帧是否能够体现出视频文件的主要内容。

在步骤S130中，预设图像质量评定规则可以包括：图像帧的图像质量评分、加权规则和惩罚项评分等。图像帧的质量评分比如可以是图像帧的清晰度、亮度等成像指标评分。加权规则比如可以是：基于图像帧是否有宣传性而设置的人为干预原则或机器自动干预原则。惩罚项比如可以是减分项，基于主要目标物是否存在遮挡物，确定是否降分。

根据步骤S120中各图像帧对应的相似度，可以筛选出与视频内容贴近的图像帧。再结合预设图像质量评定规则，可以在保证能够体现视频内容的基础上，选取出质量好的封面图，提升封面图的适配性。

在一个示例性的实施例中，如图2所示，步骤S120中具体可以包括如下步骤：

S1201、通过第一模型分别确定每个图像帧的文本描述信息。

S1202、通过第二模型，分别确定每个图像帧的文本描述信息与内容信息的文本相似度，获得多个文本相似度。

其中，在步骤S1201中，第一模型比如可以是基于预训练的CNN(Convolutionalneural network，卷积神经网络)联合LSTM(Long Short-Term Memory，长短时记忆神经网络)的Picture 2Word模型。Picture 2Word模型是一种“看图说话模型”，即基于输入的图像可以自动输出关于该图像的文字描述。

比如，CNN可选取GoogleNet模型。GoogleNet对输入的图像帧可提取图像特征，生成图像编码的Feature Map。再利用LSTM来预测句子看到图像帧之后生成的每个单词以及单词间的排列顺序，最终生成一句关于图像帧的通顺的文本描述信息Di。

本步骤中，将步骤S110获取的多个图像帧，分别输入至第一模型，可以分别输出得到每个图像帧的文本描述信息。文本描述信息可以是中文语句。

在步骤S1202中，第二模型比如可以是文本相似度评价模型(TextSimilarity模型)。本实施例的TextSimilarity模型可以是包括BERT预训练模型(BERT-base,Multilingual CasedGoogle)部分和Embedding(嵌入层)部分。

在应用BERT之前，可以预先采取训练数据对BERT预训练模型进行训练(fine-tuning)，以使其适用于本公开中图像帧的文本数据。训练的方式可采用相关技术中机器学习模型的常规训练方式，本实施例中不作限定。

结合图5所示，在第二模型中，训练好的BERT与Embedding联合使用。在确定图像帧的文本相似度过程中，流程比如可以是包括如下步骤：

(1)将该图像帧的文本描述信息(比如是Sentence1)以及视频文件的内容信息(比如是Sentence2)输入至第二模型。

(2)输入的两项语言信息经过BERT可得到相应的两项文本特征。

(3)文本特征经过Embedding分别得到两项句子对向量，以该图像帧的文本描述信息对应的向量为A，以视频文件的内容信息对应的向量为B。

(4)输出两项句子对向量之间的文本相似度Si。文本相似度Si越大，图像帧的文本描述信息与内容信息越相似，越能体现视频文件的主要内容。

在计算两个向量之间文本相似度时，可采用余弦距离法。余弦距离Si是两个向量(A和B)之间角度(θ)的余弦值：

其中，n可以是表征对应图像帧序号的自然数。当两个向量之间的夹角(角距离)越小，余弦值或余弦距离越大，即相似度越大，表征图像帧的文本描述信息与内容信息越相似。

根据上述流程，可分别获得与每个图像帧与内容信息的文本相似度Si，从而获得多个图像帧一一对应的文本相似度。

在一个示例性的实施例中，如图3所示，本实施例中步骤S130具体包括如下步骤：

S1301、根据多个图像帧对应的多个文本相似度，确定按预设顺序排列的预设数量个图像帧。

S1302、根据文本相似度和预设图像质量评定规则，确定预设数量个图像帧中的封面图像。

其中，在步骤S1301中，根据步骤S120获得的与多个图像帧一一对应的文本相似度，可将获得的文本相似度分别归一化到[0，10]之间。文本相似度分值越大，说明文本之间的相似度越高。

预设顺序比如可以是升序或降序。

在第一个示例中，根据文本相似度分值对多个图像帧进行降序排序，取打分较高的前10帧图像帧作为第一批次筛选图像。

在第二个示例中，根据文本相似度分值对多个图像帧进行升序排序，取打分较高的后10帧图像帧作为第一批次筛选图像。

在步骤S1302中，基于步骤S1301中筛选出来的与内容信息文本相似度较高的预设数量个图像帧，进行相应的评价，从而确定最适合的图像帧作为封面图像。

在一个示例性的实施例中，如图4所示，步骤S1302具体可以包括如下步骤：

S1302-1、根据图像帧对应的文本相似度、图像质量评分及惩罚项评分，确定预设数量个图像帧中每个图像帧的总评分。

S1302-2、根据每个图像帧的总评分，确定预设数量个图像帧中的至少一个候选封面。

S1302-3、根据至少一个候选封面和加权规则，确定封面图像。

其中，在步骤S1302-1中，每个图像帧的总评分考察了多个维度，既包括与内容信息的文本相似度，又包括图像质量评分及惩罚项评分。图像质量评分可以是包括亮度、清晰度等在内的成像质量，惩罚项可以是在确定总评分过程中的减分项。

在第一个示例中，图像质量评分比如可以包括图像清晰度打分和图像亮度打分。

可通过第三模型确定预设数量个图像帧中，每个图像帧的图像质量评分。第三模型比如可以是图像质量打分模型。将每个图像帧输入至第三模型，可分别输出每个图像帧的清晰度打分Blur_i和亮度打分Brightness_i，二者分值区间均为[0,10]。清晰度分值越高，表明图像帧越清晰；亮度分值越高，表明图像帧明暗程度越使人感到舒适。

在一个场景中，利用第三模型得到图像帧亮度打分的流程，具体可以是包括如下步骤：

(1)将图像帧由彩色图像帧转为灰度图像帧；

(2)遍历灰度图像中的每个像素点的灰度值，每一个像素点的灰度值与128做差后，通过下式计算整个灰度图像帧灰度值做差结果的平均值da：

da＝∑(x_i-128)/N

其中，N为整个灰度图像帧像素点的总个数，x_i为每个像素点的灰度值。

(3)计算灰度图像帧的灰度平均差。

对灰度图像帧的每个灰度值做直方图统计，统计出每个灰度值所对应的像素点个数，以像素点个数作为权重，利用加权平均偏差的计算公式得到平均偏差Ma。计算公式如下：

其中，x_i为每个像素点的灰度值，da为灰度图像帧灰度值做差结果的平均值，Hist为统计出的灰度直方图。可以理解的，灰度图像的像素值包括0-255个级别，Hist[i]表征：灰度图像中，像素值为i的像素点的个数。

(4)如果Ma<abs(da)，表明图像帧的亮度异常。进一步，可以通过da来判断偏暗还是偏亮。若da>0，说明大多数像素值都大于128，说明图像偏亮；若da＜0，说明大多数像素值都小于128，说明图像偏暗。其中，abs(da)为标准明亮程度。

在上述亮度打分过程中，亮度分值考察明亮程度偏离标准明亮程度的距离，具体为：

Brightness_i＝-1*abs(Ma-da)

在另一个场景中，在计算清晰度打分时，第三模型具体可以采用清晰度打分模型。将图像帧输入至清晰度打分模型，输出清晰度分值Blur_i。分值越高，表明图像帧越清晰。

按上述方式，分别获取每个图像帧的清晰度打分Blur_i和图像亮度打分Brightness_i。

在第二个示例中，惩罚项比如可以包括图像帧中存在预设标识，和/或存在遮挡物遮挡图像帧中的主目标物。

其中，预设标识比如可以是：二维码、logo等宣传性标识，高质量的封面图中应避免出现预设标识，以避免用户产生抵触心理。主目标物比如可以是：图像帧中的人物或人脸。遮挡物比如可以是：图像中的字幕、图标、预设标识等。高质量的封面图中同时还应避免出现人物面部被遮挡的情况。

本示例中，可通过第四模型确定预设数量个图像帧中，每个图像帧中的惩罚项评分。第四模型可以是目标检测模型，用于检测图像帧中是否存在预设的目标物，比如是YOLOv3模型。

在一种场景下，可利用第四模型检测图像帧中是否包括预设标识。本场景中，基于输入的图像帧，第四模型可以输出是否存在预设标识的惩罚项评分P_code。

本场景中，第四模型检测遮挡物遮挡主目标物的流程，比如可以包括如下步骤：

(1)利用如YOLO v3的第四模型检测图像帧中是否存在预设标识。

(2)若存在，记录预设标识在图像帧中的bounding box坐标，比如记录预设标识的标识框的一顶点坐标。并将惩罚项评分P_code置为score1。若不存在，P_code为0。

按上述方式，分别获得每个图像帧的P_code。

在另一种场景中，可利用第四模型检测图像帧是否存在遮挡物遮挡主目标物。基于输入的图像帧，第四模型可以输出遮挡物遮挡主目标物的惩罚项评分P_cover。

本场景中，第四模型检测遮挡物遮挡主目标物的流程可以在上一场景的基础上进行，还可以包括如下步骤：

(3)在上述步骤(1)和(2)的基础上，第四模型还可同时检测图像帧中是否存在字幕等其他目标物以及人脸等主目标物。

再分别记录字幕的bounding box坐标、人脸的bounding box坐标。

(4)根据字幕或预设标识的bounding box坐标，以及人脸的bounding box坐标，确定幕或预设标识与人脸的位置关系。

(5)根据位置关系判定字幕或预设标识是否遮挡人脸。若是，将P_cover置为score2，若否，P_cover则为0。其中，score1,score2∈[-10,0])。

按上述方式，分别获得每个图像帧的P_cover。

结合上述的图像帧对应的文本相似度Si、图像质量评分(Blur_i和Brightness_i)及惩罚项评分(P_code和P_cover)，计算每个图像帧的总评分Total_i：

Total_i＝αS_i+βBlur_i+γBrightness_i+P_code+P_cover，其中，α+β+γ＝1，i表示图像帧的序号。

由总评分的计算可知，文本相似度对应的权重为α，清晰度对应的权重为β，亮度对应的权重为γ。

在步骤S1302-2中，根据步骤S1302-1获知的总评分，可按总评分对预设数量个图像帧进行降序排列，取打分最高的前3帧图像帧作为候选封面。

在步骤S1302-3中，可以根据加权规则从候选封面中选取最终封面图的方式。

在第一个示例中，加权规则比如可以是人为倾向性的选择原则。根据加权规则人为在候选封面中选取一张图像帧作为最终封面。

在第二个示例中，加权规则比如还可以是预先设置的出于宣传因素或广告因素考量的相关规则，再利用机器模型选取最终封面。

比如，视频文件的主要内容是为了宣传果蔬产品，而在筛选出的3帧高质量候选封面中，仅排名第三的图像帧果蔬产品的位置更突出优异，则该图像帧即使总评分靠后，结合加权规则仍有可能作为最终封面图。

在一个示例性的实施例中，本公开还提出了一种视频封面的确定装置，如图6所示，本实施例的装置包括：获取模块110、第一确定模块120和第二确定模块130。本实施例的装置用于实现如图1所示的方法。其中，获取模块110用于获取视频文件的内容信息，以及获取视频文件中的多个图像帧。第一确定模块120用于确定每个图像帧的文本描述信息与内容信息的相似度。第二确定模块130用于根据相似度和预设图像质量评定规则，确定多个图像帧中的封面图像。在一个示例中，获取模块110具体用于：获取视频文件的标题内容和/或简介内容。在另一个示例中，获取模块110具体用于：获取视频文件每秒的图像帧，得到多个图像帧；或者，每间隔预设时长获取一个图像帧，得到多个图像帧。

在一个示例性的实施例中，依旧参照图6，本实施例的装置包括获取模块110、第一确定模块120和第二确定模块130，本实施例的装置用于实现如图2所示的方法。其中，第一确定模块120具体用于：通过第一模型分别确定每个图像帧的文本描述信息。通过第二模型，分别确定每个图像帧的文本描述信息与内容信息的文本相似度，获得多个文本相似度。

在一个示例性的实施例中，依旧参照图6，本实施例的装置包括获取模块110、第一确定模块120和第二确定模块130，本实施例的装置用于实现如图3所示的方法。其中，第二确定模块130具体用于：根据多个图像帧对应的多个文本相似度，确定按预设顺序排列的预设数量个图像帧。根据文本相似度和预设图像质量评定规则，确定预设数量个图像帧中的封面图像。

在一个示例性的实施例中，依旧参照图6，本实施例的装置包括获取模块110、第一确定模块120和第二确定模块130，本实施例的装置用于实现如图4所示的方法。其中，第二确定模块130具体用于：根据图像帧对应的文本相似度、图像质量评分及惩罚项评分，确定预设数量个图像帧中，每个图像帧的总评分；其中，惩罚项包括图像帧中存在预设标识，和/或存在遮挡物遮挡图像帧中的主目标物；根据每个图像帧的总评分，确定预设数量个图像帧中的至少一个候选封面；根据至少一个候选封面和加权规则，确定封面图像。本实施例中，第二确定模块130还用于：通过第三模型确定预设数量个图像帧中，每个图像帧的图像质量评分。通过第四模型确定预设数量个图像帧中，每个图像帧中的惩罚项评分，其中，惩罚项为确定总评分过程中的减分项。

如图7所示是一种电子设备的框图。本公开还提供了一种电子设备，例如，设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

设备500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件506为设备500的各种组件提供电力。电力组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如组件为设备500的显示器和小键盘，传感器组件514还可以检测设备500或设备500一个组件的位置改变，用户与设备500接触的存在或不存在，设备500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的方法。

本公开另一个示例性实施例中提供的一种非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由设备500的处理器520执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频封面的确定方法，其特征在于，包括：

根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像，包括：根据图像帧对应的文本相似度、图像质量评分及惩罚项评分，确定预设数量个图像帧中，每个图像帧的总评分，其中，所述惩罚项包括图像帧中存在预设标识，和/或存在遮挡物遮挡图像帧中的主目标物；根据每个图像帧的总评分，确定所述预设数量个图像帧中的至少一个候选封面；根据所述至少一个候选封面和加权规则，确定所述封面图像；其中，所述惩罚项为确定总评分过程中的减分项；

其中，根据所述至少一个候选封面和所述加权规则，确定所述封面图像，包括：

根据所述加权规则从候选封面中选取最终封面图；其中，所述加权规则包括预先设置的出于宣传因素或广告因素考量的相关规则，再利用机器模型选取最终封面。

2.根据权利要求1所述的视频封面的确定方法，其特征在于，所述获取视频文件的内容信息，包括：

获取所述视频文件的标题内容和/或简介内容。

3.根据权利要求1所述的视频封面的确定方法，其特征在于，所述获取所述视频文件中的多个图像帧，包括：

获取所述视频文件每秒的图像帧，得到多个图像帧；或者，

每间隔预设时长获取一个图像帧，得到多个图像帧。

4.根据权利要求1所述的视频封面的确定方法，其特征在于，所述确定每个所述图像帧的文本描述信息与所述内容信息的相似度，包括：

通过第一模型分别确定每个所述图像帧的文本描述信息；

5.根据权利要求4所述的视频封面的确定方法，其特征在于，所述根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像，包括：

6.根据权利要求1所述的视频封面的确定方法，其特征在于，所述方法还包括：

通过第四模型确定所述预设数量个图像帧中，每个图像帧中的惩罚项评分。

7.一种视频封面的确定装置，其特征在于，包括：

第二确定模块，用于根据所述相似度和预设图像质量评定规则，确定多个图像帧中的封面图像，包括：根据图像帧对应的文本相似度、图像质量评分及惩罚项评分，确定预设数量个图像帧中，每个图像帧的总评分，其中，所述惩罚项包括图像帧中存在预设标识，和/或存在遮挡物遮挡图像帧中的主目标物；根据每个图像帧的总评分，确定所述预设数量个图像帧中的至少一个候选封面；根据所述至少一个候选封面和加权规则，确定所述封面图像；其中，所述惩罚项为确定总评分过程中的减分项；

8.根据权利要求7所述的视频封面的确定装置，其特征在于，所述获取模块具体用于：

获取所述视频文件的标题内容和/或简介内容。

9.根据权利要求7所述的视频封面的确定装置，其特征在于，所述获取模块具体用于：

获取所述视频文件每秒的图像帧，得到多个图像帧；或者，

每间隔预设时长获取一个图像帧，得到多个图像帧。

10.根据权利要求7所述的视频封面的确定装置，其特征在于，所述第一确定模块具体用于：

通过第一模型分别确定每个所述图像帧的文本描述信息；

11.根据权利要求10所述的视频封面的确定装置，其特征在于，所述第二确定模块具体用于：

12.根据权利要求7所述的视频封面的确定装置，其特征在于，所述第二确定模块还用于：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至6任一项所述的视频封面的确定方法。

14.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6任一项所述的视频封面的确定方法。