CN116453005A

CN116453005A - 一种视频封面的提取方法以及相关装置

Info

Publication number: CN116453005A
Application number: CN202210010599.1A
Authority: CN
Inventors: 常德丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-07-18

Abstract

本申请公开了一种视频封面的提取方法以及相关装置。本申请通过从待处理视频中提取至少一帧待评估图像；然后基于第一网络模型对待评估图像进行评估，以得到第一评估分；并基于第二网络模型对待评估图像进行质量评估，以得到美学维度的第二评估分；对第一评估分和第二评估分进行融合得到目标评估分；进一步基于目标评估分从待评估图像组中提取目封面图像。从而实现多模态融合评估的封面提取过程，由于采用多模态信息的融合，可以极大的提高网络模型对视频语义的理解，从而选出更贴合视频语义含义的图像作为封面图像，提高了视频封面提取的准确性。

Description

一种视频封面的提取方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频封面的提取方法以及相关装置。

背景技术

随着互联网技术的迅速发展，人们对媒体内容的要求越来越高。视频封面作为一种常见的视频引流方式，出现在各种电影、短视频平台中，如何设置合适的视频封面成为视频引流的关键。

一般，视频封面的确定可以通过按照固定时间点进行分割并截取图片，比如：将一个视频按时长平均分割为若干份子视频，或将每份子视频开始播放的时间点作为固定时间点等等，然后从该视频中截取图片作为视频封面的候选图片以供用户从中选择。

但是，通过视频截取获得的视频封面的图片经常会出现模糊、离焦等问题，并且可能会有画面过于简单、不含有有意义的物体或对象的问题，影响视频封面提取的准确性。

发明内容

有鉴于此，本申请提供一种视频封面的提取方法，可以有效提高视频封面提取的准确性。

本申请第一方面提供一种视频封面的提取方法，可以应用于终端设备中包含视频封面的提取功能的系统或程序中，具体包括：

从待处理视频中提取待评估图像组，所述待评估图像组包括至少一帧待评估图像；

基于第一网络模型对所述待评估图像进行第一评估，以得到第一评估分，所述第一网络模型包括图像评估分支和语义评估分支，所述图像评估分支用于提取所述待评估图像的图像特征向量，所述语义评估分支用于提取所述待评估图像中的语义特征向量，所述图像评估分支和所述语义评估分支共用编码器，所述编码器用于对所述图像特征向量和所述语义特征向量进行融合得到融合特征向量，所述图像评估分支基于所述融合特征向量对所述待评估图像进行图像维度的质量评估，所述语义评估分支基于所述融合特征向量对所述待处理视频中的语义信息与所述待评估图像的相关性进行语义维度的质量评估，所述第一评估分基于所述图像评估分支和所述语义评估分支的评估结果联合所得；

基于第二网络模型对所述待评估图像进行第二评估，以得到第二评估分，所述第二网络模型用于对所述待评估图像进行美学维度的质量评估；

对所述第一评估分和所述第二评估分进行融合得到目标评估分；

基于所述目标评估分从所述待评估图像组中提取目标图像，所述目标图像为所述待处理视频的视频封面图像。

可选的，在本申请一些可能的实现方式中，所述基于所述目标评估分从所述待评估图像组中提取目标图像，包括：

获取所述待处理视频对应的低质图像特征；

对所述待评估图像组中命中所述低质图像特征的图像进行筛除，以将所述待评估图像组更新为第一评估图像组；

基于所述目标评估分对所述第一评估图像组中的待评估图像组进行排序，以得到评估序列；

根据所述评估序列中的图像次序从所述第一评估图像组中提取所述目标图像。

可选的，在本申请一些可能的实现方式中，所述基于所述目标评估分对所述第一评估图像组中的待评估图像组进行排序，以得到评估序列之后，所述方法还包括：

基于预设规则提取所述第一评估图像组对应的关键图像元素；

将所述评估序列中所述关键图像元素对应的图像特征符合预设要求的图像次序提前，以对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述将所述评估序列中所述关键图像元素对应的图像特征符合预设要求的图像次序提前，以对所述评估序列中图像的序列次序进行更新，包括：

基于所述待处理视频中的语义信息确定目标描述信息；

确定所述目标描述信息与所述关键图像元素对应的图像特征的匹配信息；

若所述匹配信息满足所述预设要求，则将对应的图像提前，以对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

对所述评估序列中的图像进行文本识别，以得到文本信息；

基于所述文本信息与所述目标描述信息的匹配程度对所述评估序列中图像的序列次序进行更新。

获取所述待处理视频对应的初始封面，所述初始封面为所述待处理视频中标记的封面；

将所述初始封面输入第一网络模型进行评估，以得到第三评估分；

将所述初始封面输入第二网络模型进行评估，以得到第四评估分；

对所述第三评估分和所述第四评估分进行融合得到初始评估分；

将所述初始评估分与所述目标评估分进行比对，以从所述目标图像与所述初始封面中确定所述待处理视频的视频封面图像。

响应于目标用户的设置操作确定所述待处理视频中的设置图像，并将所述设置图像作为正样本；

从所述待处理视频中选取与所述设置图像的差异值达到差异阈值的图像作为负样本；

按照样本比例从所述正样本和所述负样本中进行样本提取，以得到训练样本；

基于所述训练样本对所述图像评估分支和所述语义评估分支进行训练，以对所述第一网络模型的参数进行调整。

本申请第二方面提供一种视频封面的提取装置，包括：

提取单元，用于从待处理视频中提取待评估图像组，所述待评估图像组包括至少一帧待评估图像；

评估单元，用于基于第一网络模型对所述待评估图像进行第一评估，以得到第一评估分，所述第一网络模型包括图像评估分支和语义评估分支，所述图像评估分支用于提取所述待评估图像的图像特征向量，所述语义评估分支用于提取所述待评估图像中的语义特征向量，所述图像评估分支和所述语义评估分支共用编码器，所述编码器用于对所述图像特征向量和所述语义特征向量进行融合得到融合特征向量，所述图像评估分支基于所述融合特征向量对所述待评估图像进行图像维度的质量评估，所述语义评估分支基于所述融合特征向量对所述待处理视频中的语义信息与所述待评估图像的相关性进行语义维度的质量评估，所述第一评估分基于所述图像评估分支和所述语义评估分支的评估结果联合所得；

所述评估单元，还用于基于第二网络模型对所述待评估图像进行第二评估，以得到第二评估分，所述第二网络模型用于对所述待评估图像进行美学维度的质量评估；

融合单元，用于对所述第一评估分和所述第二评估分进行融合得到目标评估分；

所述提取单元，还用于基于所述目标评估分从所述待评估图像组中提取目标图像，所述目标图像为所述待处理视频的视频封面图像。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于获取所述待处理视频对应的低质图像特征；

所述提取单元，具体用于对所述待评估图像组中命中所述低质图像特征的图像进行筛除，以将所述待评估图像组更新为第一评估图像组；

所述提取单元，具体用于基于所述目标评估分对所述第一评估图像组中的待评估图像组进行排序，以得到评估序列；

所述提取单元，具体用于根据所述评估序列中的图像次序从所述第一评估图像组中提取所述目标图像。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于基于预设规则提取所述第一评估图像组对应的关键图像元素；

所述提取单元，具体用于将所述评估序列中所述关键图像元素对应的图像特征符合预设要求的图像次序提前，以对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于基于所述待处理视频中的语义信息确定目标描述信息；

所述提取单元，具体用于确定所述目标描述信息与所述关键图像元素对应的图像特征的匹配信息；

所述提取单元，具体用于若所述匹配信息满足所述预设要求，则将对应的图像提前，以对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于对所述评估序列中的图像进行文本识别，以得到文本信息；

所述提取单元，具体用于基于所述文本信息与所述目标描述信息的匹配程度对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述评估单元，具体用于获取所述待处理视频对应的初始封面，所述初始封面为所述待处理视频中标记的封面；

所述评估单元，具体用于将所述初始封面输入第一网络模型进行评估，以得到第三评估分；

所述评估单元，具体用于将所述初始封面输入第二网络模型进行评估，以得到第四评估分；

所述评估单元，具体用于对所述第三评估分和所述第四评估分进行融合得到初始评估分；

所述评估单元，具体用于将所述初始评估分与所述目标评估分进行比对，以从所述目标图像与所述初始封面中确定所述待处理视频的视频封面图像。

可选的，在本申请一些可能的实现方式中，所述评估单元，具体用于响应于目标用户的设置操作确定所述待处理视频中的设置图像，并将所述设置图像作为正样本；

所述评估单元，具体用于从所述待处理视频中选取与所述设置图像的差异值达到差异阈值的图像作为负样本；

所述评估单元，具体用于按照样本比例从所述正样本和所述负样本中进行样本提取，以得到训练样本；

所述评估单元，具体用于基于所述训练样本对所述图像评估分支和所述语义评估分支进行训练，以对所述第一网络模型的参数进行调整。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的视频封面的提取方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的视频封面的提取方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的视频封面的提取方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过从待处理视频中提取待评估图像组，该待评估图像组包括至少一帧待评估图像；然后基于第一网络模型对待评估图像进行第一评估，以得到第一评估分，其中第一网络模型包括图像评估分支和语义评估分支，该图像评估分支用于提取待评估图像的图像特征向量，该语义评估分支用于提取待评估图像中的语义特征向量，该图像评估分支和语义评估分支共用编码器，该编码器用于对图像特征向量和语义特征向量进行融合得到融合特征向量，该图像评估分支基于融合特征向量对待评估图像进行图像维度的质量评估，该语义评估分支基于融合特征向量对待处理视频中的语义信息与待评估图像的相关性进行语义维度的质量评估，第一评估分基于图像评估分支和语义评估分支的评估结果联合所得；然后基于第二网络模型对待评估图像进行第二评估，以得到第二评估分，第二网络模型用于对待评估图像进行美学维度的质量评估；并对第一评估分和第二评估分进行融合得到目标评估分；进而基于目标评估分从待评估图像组中提取目标图像，目标图像为待处理视频的视频封面图像。从而实现多模态融合评估的封面提取过程，由于在多模态信息融合的过程中结合语义模态与图像模态之间的相关性，采用同一编码器对语义特征与图像特征进行融合，可以提高网络模型对视频语义的理解能力，并从图像、语义以及美学的维度对图像进行评估，从而选出更贴合视频语义含义的图像作为封面图像，提高了视频封面提取的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为视频封面的提取系统运行的网络架构图；

图2为本申请实施例提供的一种视频封面的提取的流程架构图；

图3为本申请实施例提供的一种视频封面的提取方法的流程图；

图4为本申请实施例提供的一种视频封面的提取方法的模型示意图；

图5为本申请实施例提供的另一种视频封面的提取方法的模型示意图；

图6为本申请实施例提供的另一种视频封面的提取方法的步骤示意图；

图7为本申请实施例提供的另一种视频封面的提取方法的流程图；

图8为本申请实施例提供的一种视频封面的提取方法的场景示意图；

图9为本申请实施例提供的一种视频封面的提取装置的结构示意图；

图10为本申请实施例提供的一种终端设备的结构示意图；

图11为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种视频封面的提取方法以及相关装置，可以应用于终端设备中包含视频封面的提取功能的系统或程序中，通过从待处理视频中提取待评估图像组，该待评估图像组包括至少一帧待评估图像；然后基于第一网络模型对待评估图像进行第一评估，以得到第一评估分，其中第一网络模型包括图像评估分支和语义评估分支，该图像评估分支用于提取待评估图像的图像特征向量，该语义评估分支用于提取待评估图像中的语义特征向量，该图像评估分支和语义评估分支共用编码器，该编码器用于对图像特征向量和语义特征向量进行融合得到融合特征向量，该图像评估分支基于融合特征向量对待评估图像进行图像维度的质量评估，该语义评估分支基于融合特征向量对待处理视频中的语义信息与待评估图像的相关性进行语义维度的质量评估，第一评估分基于图像评估分支和语义评估分支的评估结果联合所得；然后基于第二网络模型对待评估图像进行第二评估，以得到第二评估分，第二网络模型用于对待评估图像进行美学维度的质量评估；并对第一评估分和第二评估分进行融合得到目标评估分；进而基于目标评估分从待评估图像组中提取目标图像，目标图像为待处理视频的视频封面图像。从而实现多模态融合评估的封面提取过程，由于在多模态信息融合的过程中结合语义模态与图像模态之间的相关性，采用同一编码器对语义特征与图像特征进行融合，可以提高网络模型对视频语义的理解能力，并从图像、语义以及美学的维度对图像进行评估，从而选出更贴合视频语义含义的图像作为封面图像，提高了视频封面提取的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

深度行为识别(Temporal Segment Networks，TSN)：将稀疏时间采样策略和视频级监测相结合，使整个动作视频能够有效进行学习。

多模编码器(BimodaL EncoDer，BLENDer)：将多模态信息进行融合的编码器。

BERT：BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了自然语言识别(NLP)中棘手的长期依赖问题。

应理解，本申请提供的视频封面的提取方法可以应用于终端设备中包含视频封面的提取功能的系统或程序中，例如视频播放平台，具体的，视频封面的提取系统可以运行于如图1所示的网络架构中，如图1所示，是视频封面的提取系统运行的网络架构图，如图可知，视频封面的提取系统可以提供与多个信息源的视频封面的提取过程，即通过终端侧的上传操作对服务器下发的多个视频进行封面提取，以进行封面的展示；可以理解的是，图1中示出了多种终端设备，终端设备可以为计算机设备，在实际场景中可以有更多或更少种类的终端设备参与到视频封面的提取的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端以及服务器可以连接组成区块链网络，本申请在此不做限制。

可以理解的是，上述视频封面的提取系统可以运行于个人移动终端，例如：作为视频播放平台这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供视频封面的提取，以得到信息源的视频封面的提取处理结果；具体的视频封面的提取系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，本实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，具体运作模式因实际场景而定，此处不做限定。

另外，随着深度机器学习技术的迅猛发展，以及深度机器学习技术在图像和语音的识别处理方面取得的巨大进展，为了解决上述选取视频封面方案中的问题，有一种基于深度机器学习技术的视频缩略图自动生成方案，可采用深度神经网络(DNN，Deep NeuralNetwork)，将用户上传的作为视频封面的图片作为“高质量”训练集，将从视频文件中随机截取的图片作为“低质量”训练集，然后预先使用所述“高质量”训练集和“低质量”训练集进行基于DNN的机器学习模型的训练，以得到训练好的DNN机器学习模型。在视频缩略图生成过程中，可先从视频文件中随机截取图片(比如，一秒截取一帧)，然后使用上述预先训练好的DNN机器学习模型对截取到的图片进行打分，再从得分最高的图片(或若干幅)中选取最好的一幅图片来作为视频封面。在该场景中，直接将用户上传的图片作为“高质量”训练集，将从视频中按照固定时间点截取的图片作为“低质量”训练集，会引入大量的“脏数据”也就是说，用户上传的图片中可能会存在很多质量不好的图片，从视频中按照固定时间点截取的图片中也可能会存在很多质量不错的图片，因此，这种包含“脏数据”的训练集，会直接导致训练出的机器学习模型达不到很好的分类效果

为了解决上述问题，本申请提出了一种视频封面的提取方法，本申请采用了将计算机视觉与自然语言识别相结合的多模态识别过程；具体的，计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

另外，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在本申请中，视频封面的提取方法应用于图2所示的视频封面的提取的流程框架中，如图2所示，为本申请实施例提供的一种视频封面的提取的流程架构图，首先使用计算机视觉和自然语言识别的多模态融合对每个视频帧打分，从而从视频中抽取至少一帧待评估图像帧，随后分别从清晰度，明暗，单色画面无意义等其中一种或多种角度对上述抽取的图片进行筛除，随后在根据视频描述对剩余的视频帧进行评估，根据评估结果，从至少一帧待评估图像帧中选取满足预设封面条件的图像帧作为所述待处理视频的封面，这样选出的封面具有针对性，从而有利于视频的推广。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种视频封面的提取装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该视频封面的提取装置通过从待处理视频中提取至少一帧待评估图像；然后基于第一网络模型对待评估图像进行评估，以得到第一评估分，该第一网络模型包括图像评估分支和语义评估分支，且第一评估分基于图像评估分支和语义评估分支的评估结果联合所得；并基于第二网络模型对待评估图像进行质量评估，以得到第二评估分，该第二评估分为美学评价规则所对应的质量分；进而对第一评估分和第二评估分进行融合得到目标评估分；进一步基于目标评估分从待评估图像组中提取目标图像，目标图像为待处理视频的视频封面图像。从而实现多模态融合评估的封面提取过程，由于采用多模态信息的融合，可以极大的提高网络模型对视频语义的理解，从而选出更贴合视频语义含义的图像作为封面图像，提高了视频封面提取的准确性。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、自然语言识别技术，具体通过如下实施例进行说明：

结合上述流程架构，下面将对本申请中视频封面的提取方法进行介绍，请参阅图3，图3为本申请实施例提供的一种视频封面的提取方法的流程图，该管理方法可以是由终端执行的，也可以是由服务器执行的，本申请实施例至少包括以下步骤：

301、从待处理视频中提取待评估图像组，待评估图像组包括至少一帧待评估图像。

本实施例中，待处理视频可以是用户使用视频平台过程中上传的视频，具体视频的类型可以是电影、编辑的电影片段、自摄影像等形式；对应的，待评估图像组即为由待处理视频解析所得的视频帧。

具体的，视频帧的解析过程可以是逐帧输出，即对待处理视频中的每一帧进行处理；也可以是采用间隔式的抽帧方式，例如每隔1秒提取一个视频帧作为待评估图像组，因此待评估图像组包括至少一帧待评估图像(视频帧)，具体的数量因实际场景而定。

在一种可能的场景中，考虑到不同视频内容的丰富度不同，对于时长较长(例如小于1小时)的视频可以间隔抽帧，对于时长较段(例如小于5分钟)的视频可以逐一抽帧，从而提高视频处理的效率。

302、基于第一网络模型对待评估图像进行第一评估，以得到第一评估分。

本实施例中，第一网络模型包括图像评估分支和语义评估分支，图像评估分支用于提取待评估图像的图像特征向量，语义评估分支用于提取待评估图像中的语义特征向量，图像评估分支和语义评估分支共用编码器，编码器用于对图像特征向量和语义特征向量进行融合得到融合特征向量，图像评估分支基于融合特征向量对待评估图像进行图像维度的质量评估，语义评估分支基于融合特征向量对待处理视频中的语义信息与待评估图像的相关性进行语义维度的质量评估，第一评估分基于图像评估分支和语义评估分支的评估结果联合所得；即第一网络模型可以从待评估图像的图像维度和语义维度进行质量评估，由于语义往往与视频内容可以存在相关性，故本申请采用同一模型的不同分子进行多模态信息的提取，且通过图像维度和语义维度的特征特征对两者共用编码器，提高了融合特征向量的生成效率，且提高了图像评估分支和语义评估分支之间特征的关联性。

具体的，第一网络模型的结构如图4所示，图4为本申请实施例提供的一种视频封面的提取方法的模型示意图；图中示出了网络模型有两个Embedder(向量嵌入)，ImageEmbedder(图像特征向量嵌入)通过预训练得到的TSN模型提取视频每一帧的cv embedding(视觉向量)，Text Embedder(语义特征向量嵌入)则参考BERT的输入，提取视频描述的textembedding(语义特征向量)，随后将两者直接接入Transformer中进行建模，融合两种模态。在本实施例中，第一网络模型是一个单流的Transformer结构，即不同于双流，本实施例的两个模态(图像与语义)共享一个encoder(编码器)，在精简模型复杂度的同时，提高了多模态之间的相关性。

具体的，对于图4中示出的计算机视觉即为图像评估分支用于提取待评估图像的特征向量，并基于特征向量进行优质性评估；而自然语言识别即为语义评估分支，用于对待处理视频中的语义信息与待评估图像的相关性进行评估；进一步的，第一评估分基于图像评估分支和语义评估分支的评估结果采用多模编码的方式融合所得。

可以理解的是，本实施例中采用BERT结构进行向量嵌入是由于从Transformer模型到BERT和GPT，自然语言生成和理解算法取得了巨大的突破。受其启发，多模态领域随之出现了Visual-Linguistic BERT(V-L Bert)系列算法。所以可以使用多模态的transformer结构代替传统的nexvlad来做多模态融合。具体的，从整体算法而言先使用TSN在目标任务上训练得到cv embedding，随后用blender将CV和NLP联合训练得到最终结果。另外，BERT的网络架构使用的是多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。

下面，对第一网络模型的训练过程进行说明，具体的，可以首先响应于目标用户的设置操作确定待处理视频中的设置图像，并将设置图像作为正样本；然后从待处理视频中选取与设置图像的差异值达到差异阈值的图像作为负样本，例如在一个视频中用户选中的封面帧作为正样本，其他跟封面不相似的帧作为负样本；按照样本比例从正样本和负样本中进行样本提取，以得到训练样本，例如在训练的时候，封面任务是每次以50％的概率随机采样一张正或者负样本的图片进行训练；进而基于训练样本对图像评估分支和语义评估分支进行训练，以对第一网络模型的参数进行调整。

具体的，对于训练流程，即用TSN同时训练封面任务(图像评估分支)和分类任务(语义评估分支)；然后用训练好的模型对每一帧提取cv embedding，并在提取的cvembedding上用blender将TSN与bert进行联合训练，训练目标为封面任务和分类任务。

可以理解的是，整体网络模型有两个Embedder，Image Embedder通过前面训练得到的TSN模型提取视频每一帧的cv embedding，Text Embedder则参考BERT的输入，提取视频描述的text embedding，随后将两者直接接入Transformer中进行建模，融合两种模态。总而言之，第一网络模型是一个单流的Transformer结构，不同于双流，两个模态共享一个encoder。

303、基于第二网络模型对待评估图像进行第二评估，以得到第二评估分。

本实施例中，第二网络模型基于美学评价规则设定，即第二网络模型用于对待评估图像进行美学维度的质量评估，故第二评估分指示了美学评价规则所对应的质量分；这是由于对于人类视角来说，不同内容的图片应该会赋予不同的美学评价观念，比如对人脸和景色的美学评价不应该相同(例如景色比人脸分高)，所以图片内容模型的参数自适应调整。基于此我们采用一种自适应的图像评价网络结构，设计网络结构参数跟随语义变化而变化，即对于不同类型(风景、人物等)的待评估图像采用不同的评估机制。

具体的，第二网络模型的结构如图5所示，图5为本申请实施例提供的另一种视频封面的提取方法的模型示意图；图中示出了第二网络模型结构整体分为三个部分：语义特征提取、感知规则建立、质量预测。其中语义特征提取部分，是使用ResNet 50作为网络的基础backbone，质量预测部分则是将上一步所产生的各个不同尺度的图像特征做globalaverage pooling，随后将其concatenate一个embedding，再输入4层全连接得到最终结果。对于感知规则建立部分，即将第一部分的输出分别经过三层Conv后得到第二层的fc的weight和bais，从而实现对于不同类型(风景、人物等)的待评估图像采用不同的评估机制。

对于第二网络模型的训练过程，标注成本过高，可以采用线上的高质量数据为优质视频，且相应的封面图也为优质，低质量的视频则为低质，由此获得训练数据对第二网络模型进行训练。

304、对第一评估分和第二评估分进行融合得到目标评估分；

本实施例中，对第一评估分和第二评估分进行融合的过程可以是求和，也可以是加权求和等计算方式。

具体的，还可以使用xgboost对步骤302和步骤303的得分融合获取综合得分(目标评估分)，由于xgboost具有训练效率高、预测效果好、可控参数多、使用方便等特性，从而可以提高目标评估分的准确性。

305、基于目标评估分从待评估图像组中提取目标图像，目标图像为待处理视频的视频封面图像。

本实施例中，目标图像为待处理视频的视频封面图像；具体的，封面图像可以直接采用目标图像，也可以采用有目标图像所得的动态图像，即将目标图像对应视频帧的相邻帧进行手机，合并为动态图像，从而可以进行精彩内容识别获得代表视频高潮的GIF的过程，提高封面展示的丰富度。

本实施例中，为了避免个别图像分数异常所造成的提取错误，对于基于目标评估分从待评估图像组中提取目标图像的过程可以是排序筛选进行的，即首先获取待处理视频对应的低质图像特征(例如清晰度，低俗，惊悚，单色画面无意义等特征)；进一步的对待评估图像组中命中低质图像特征的图像进行筛除，以将待评估图像组更新为第一评估图像组；然后基于目标评估分对第一评估图像组中的待评估图像组进行排序(例如按照评估分的高低)，以得到评估序列；进而根据评估序列中的图像次序从第一评估图像组中提取目标图像(例如选取评估分最高的图像)。

可选的，由于不同类型图片对应的低质图像特征可能不同，故可以进行针对性的识别过程，即首先确定待处理视频的视频描述类型(风景、人物)；然后根据视频描述类型获取对应的低质图像特征(例如清晰度，低俗，惊悚，单色画面无意义等特征)；进一步的对待评估图像组中命中低质图像特征的图像进行筛除，以将待评估图像组更新为第一评估图像组；然后基于目标评估分对第一评估图像组中的待评估图像组进行排序(例如按照评估分的高低)，以得到评估序列；进而根据评估序列中的图像次序从第一评估图像组中提取目标图像(例如选取评估分最高的图像)，从而提高低质判断的针对性，提高图像筛选的准确性。

在一种可能的场景中，还可以根据关键图像元素的展示情况对评估序列的次序进行更新，即首先基于预设规则提取第一评估图像组对应的关键图像元素(例如风景视频中关键图像元素为动物或其他物体；人物视频中关键图像元素为人眼或特定的人物等)；然后将评估序列中关键图像元素对应的图像特征符合预设要求的图像次序提前，以对评估序列中图像的序列次序进行更新。

具体的，对于预设规则的设定，即当第一评估图像组指示人物类型时，识别其中眼睛特征对应的图像区域(关键图像元素)，并进一步的对识别得到的眼睛特征对应的图像区域进行睁眼判断；其中，眼睛特征可以是采用眼睛样本图像的输入进行样本学习，从而可以对其中的眼睛特征对应的图像区域进行识别。

可以理解的是，预设要求设定的关键图像元素可以是一个或多个，例如预设要求为关键图像元素包括特定人物，且该人物处于睁眼状态，具体的数量因实际场景而定。

在另一种可能的场景中，还可以基于待处理视频中的语义信息与图像特征的匹配情况对评估序列的次序进行更新，即首先基于待处理视频中的语义信息确定目标描述信息，其中，目标描述信息即为用于对视频内容进行概述的信息，具体可以是标题(title)、主题、关键字等表示形式；然后确定目标描述信息与关键图像元素对应的图像特征的匹配信息；若匹配信息满足预设要求，则将对应的图像提前，以对评估序列中图像的序列次序进行更新，例如图中特征对应的明星与语义信息中确定的目标描述信息相匹配。

进一步的，由于图像中还可以包含文字，故可以进行文本识别的匹配，即首先对评估序列中的图像进行文本识别，以得到文本信息；然后基于文本信息与目标描述信息的匹配程度对评估序列中图像的序列次序进行更新，从而提高次序的准确性。

在另一种可能的场景中，还可以将视频原始封面(视频第一帧或初始封面)进行评估分的比对，即首先获取待处理视频对应的初始封面；然后将初始封面输入第一网络模型进行评估，以得到第三评估分；进一步的将初始封面输入第二网络模型进行评估，以得到第四评估分，并对第三评估分和第四评估分进行融合得到初始评估分；具体的第一网络模型进行评估、第二网络模型进行评估以及融合的过程参见上述实施例，此处不做赘述；从而将初始评估分与目标评估分进行比对，以从目标图像与初始封面中确定待处理视频的视频封面图像，通过初始封面的匹配可以便于相关人员评估本实施例中网络模型的性能。另外，也可以对同一个视频分别使用初始封面和机选的封面，以期增加用户的点击。

下面，结合一种具体的流程步骤，对上述实施例中可能的提取过程进行整合，如图6所示，图6为本申请实施例提供的另一种视频封面的提取方法的步骤示意图；图中示出了：

步骤1：对用户上传的视频(待评估视频)进行按秒截帧。

步骤2：对每一秒的视频帧采用TSN提取cv embedding，而后使用预先训练好的blender网络(第一网络模型)对每一个视频帧(待评估图像)进行打分。

步骤3：对每一帧进行图片质量(第二网络模型)评价打分。

步骤4：使用xgboost对步骤2和步骤3的得分融合获取综合得分，并选出其中高于阈值设定的分值最高的5个视频帧。

步骤5：对选中的这些图片分别进行清晰度，低俗，惊悚，单色画面无意义的判断，如有命中其中任何一项则舍弃该图片。

步骤6：对步骤3中剩余的图片进行睁闭眼判断，将睁眼图片的位置提前。

步骤7：对步骤4中剩余的图片进行明星名人人脸识别，如果该图片中识别出的人物在文本识别(ocr)或者视频描述中出现则将其排名提前。

步骤8：对步骤4中剩余的图片提取ocr，并分别将图片的ocr与视频描述进行比对，如果图片ocr与视频描述想近则将该图片的位置提前。

步骤9：最终根据最后图片的排位顺序输出图片并将其与原始封面图优质分比较，第一个选中的作为机器选中的智能封面。

结合上述实施例可知，通过从待处理视频中提取待评估图像组，该待评估图像组包括至少一帧待评估图像；然后基于第一网络模型对待评估图像进行第一评估，以得到第一评估分，其中第一网络模型包括图像评估分支和语义评估分支，该图像评估分支用于提取待评估图像的图像特征向量，该语义评估分支用于提取待评估图像中的语义特征向量，该图像评估分支和语义评估分支共用编码器，该编码器用于对图像特征向量和语义特征向量进行融合得到融合特征向量，该图像评估分支基于融合特征向量对待评估图像进行图像维度的质量评估，该语义评估分支基于融合特征向量对待处理视频中的语义信息与待评估图像的相关性进行语义维度的质量评估，第一评估分基于图像评估分支和语义评估分支的评估结果联合所得；然后基于第二网络模型对待评估图像进行第二评估，以得到第二评估分，第二网络模型用于对待评估图像进行美学维度的质量评估；并对第一评估分和第二评估分进行融合得到目标评估分；进而基于目标评估分从待评估图像组中提取目标图像，目标图像为待处理视频的视频封面图像。从而实现多模态融合评估的封面提取过程，由于在多模态信息融合的过程中结合语义模态与图像模态之间的相关性，采用同一编码器对语义特征与图像特征进行融合，可以提高网络模型对视频语义的理解能力，并从图像、语义以及美学的维度对图像进行评估，从而选出更贴合视频语义含义的图像作为封面图像，提高了视频封面提取的准确性。

上述实施例介绍了单个封面的提取过程，实际场景中还可以是多个封面或多个封面图像组成的媒体形式进行展示，下面对该场景进行说明。请参阅图7，图7为本申请实施例提供的另一种视频封面的提取方法的流程图，本申请实施例至少包括以下步骤：

701、确定用户上传的目标视频。

本实施例中，用户上传的目标视频可以是短视频，也可以是电影等不同长度的视频形式。

702、基于目标视频对应的的热度信息确定展示界面。

本实施例中，由于不同的视频具有不同的受众群体，故对于不同视频关注的用户数不同(即热度不同)，对于热度高的视频可以采用多个界面模块进行展示，从而提高用户的点击行为。

703、将目标视频输入第一网络模型和第二网络模型进行评估，以得到封面序列。

本实施例中，对目标视频输入第一网络模型和第二网络模型进行评估的过程参见图3所示实施例的步骤302-305，此处不做赘述。

704、基于展示界面对应的界面模块从封面序列中提取对应的封面图像进行界面展示。

本实施例中，封面图像的展示可以是一张也可以是多张，例如排序前三的封面图像依次滚动展示，也可以是由一张图像扩展而得的动态图像，例如由封面图像进行相邻帧识别所得的精彩内容识别从而获得代表视频高潮的GIF。

另外，界面模块可以参考图8所示的场景，图8为本申请实施例提供的一种视频封面的提取方法的场景示意图；图中展示模块A1可以展示由封面图像进行相邻帧识别所得的精彩内容识别从而获得代表视频高潮的GIF，也可以进行封面图像依次滚动展示，并响应于用户的播放操作进行播放，从而提高了视频对于用户的吸引程度，提高了视频的点击率。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图9，图9为本申请实施例提供的一种视频封面的提取装置的结构示意图，视频封面的提取装置900包括：

提取单元901，用于从待处理视频中提取待评估图像组，所述待评估图像组包括至少一帧待评估图像；

评估单元902，用于基于第一网络模型对所述待评估图像进行第一评估，以得到第一评估分，所述第一网络模型包括图像评估分支和语义评估分支，所述图像评估分支用于提取所述待评估图像的图像特征向量，所述语义评估分支用于提取所述待评估图像中的语义特征向量，所述图像评估分支和所述语义评估分支共用编码器，所述编码器用于对所述图像特征向量和所述语义特征向量进行融合得到融合特征向量，所述图像评估分支基于所述融合特征向量对所述待评估图像进行图像维度的质量评估，所述语义评估分支基于所述融合特征向量对所述待处理视频中的语义信息与所述待评估图像的相关性进行语义维度的质量评估，所述第一评估分基于所述图像评估分支和所述语义评估分支的评估结果联合所得；

所述评估单元902，还用于基于第二网络模型对所述待评估图像进行第二评估，以得到第二评估分，所述第二网络模型用于对所述待评估图像进行美学维度的质量评估；

融合单元903，用于对所述第一评估分和所述第二评估分进行融合得到目标评估分；

所述提取单元901，还用于基于所述目标评估分从所述待评估图像组中提取目标图像，所述目标图像为所述待处理视频的视频封面图像。

可选的，在本申请一些可能的实现方式中，所述提取单元901，具体用于获取所述待处理视频对应的低质图像特征；

所述提取单元901，具体用于对所述待评估图像组中命中所述低质图像特征的图像进行筛除，以将所述待评估图像组更新为第一评估图像组；

所述提取单元901，具体用于基于所述目标评估分对所述第一评估图像组中的待评估图像组进行排序，以得到评估序列；

所述提取单元901，具体用于根据所述评估序列中的图像次序从所述第一评估图像组中提取所述目标图像。

可选的，在本申请一些可能的实现方式中，所述提取单元901，具体用于基于预设规则提取所述第一评估图像组对应的关键图像元素；

所述提取单元901，具体用于将所述评估序列中所述关键图像元素对应的图像特征符合预设要求的图像次序提前，以对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述提取单元901，具体用于基于所述待处理视频中的语义信息确定目标描述信息；

所述提取单元901，具体用于确定所述目标描述信息与所述关键图像元素对应的图像特征的匹配信息；

所述提取单元901，具体用于若所述匹配信息满足所述预设要求，则将对应的图像提前，以对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述提取单元901，具体用于对所述评估序列中的图像进行文本识别，以得到文本信息；

所述提取单元901，具体用于基于所述文本信息与所述目标描述信息的匹配程度对所述评估序列中图像的序列次序进行更新。

可选的，在本申请一些可能的实现方式中，所述评估单元902，具体用于获取所述待处理视频对应的初始封面，所述初始封面为所述待处理视频中标记的封面；

所述评估单元902，具体用于将所述初始封面输入第一网络模型进行评估，以得到第三评估分；

所述评估单元902，具体用于将所述初始封面输入第二网络模型进行评估，以得到第四评估分；

所述评估单元902，具体用于对所述第三评估分和所述第四评估分进行融合得到初始评估分；

所述评估单元902，具体用于将所述初始评估分与所述目标评估分进行比对，以从所述目标图像与所述初始封面中确定所述待处理视频的视频封面图像。

可选的，在本申请一些可能的实现方式中，所述评估单元902，具体用于响应于目标用户的设置操作确定所述待处理视频中的设置图像，并将所述设置图像作为正样本；

所述评估单元902，具体用于从所述待处理视频中选取与所述设置图像的差异值达到差异阈值的图像作为负样本；

所述评估单元902，具体用于按照样本比例从所述正样本和所述负样本中进行样本提取，以得到训练样本；

所述评估单元902，具体用于基于所述训练样本对所述图像评估分支和所述语义评估分支进行训练，以对所述第一网络模型的参数进行调整。

本申请实施例还提供了一种终端设备，如图10所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(radio frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作，以及在触控面板1031上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图11，图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图11所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有视频封面的提取指令，当其在计算机上运行时，使得计算机执行如前述图3至图8所示实施例描述的方法中视频封面的提取装置所执行的步骤。

本申请实施例中还提供一种包括视频封面的提取指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图8所示实施例描述的方法中视频封面的提取装置所执行的步骤。

本申请实施例还提供了一种视频封面的提取系统，所述视频封面的提取系统可以包含图9所描述实施例中的视频封面的提取装置，或图10所描述实施例中的终端设备，或者图11所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，视频封面的提取装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频封面的提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标评估分从所述待评估图像组中提取目标图像，包括：

获取所述待处理视频对应的低质图像特征；

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标评估分对所述第一评估图像组中的待评估图像组进行排序，以得到评估序列之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述评估序列中所述关键图像元素对应的图像特征符合预设要求的图像次序提前，以对所述评估序列中图像的序列次序进行更新，包括：

基于所述待处理视频中的语义信息确定目标描述信息；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对所述评估序列中的图像进行文本识别，以得到文本信息；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

8.一种视频封面的提取装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的视频封面的提取方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的视频封面的提取方法的步骤。