CN113821678A

CN113821678A - 视频封面的确定方法及装置

Info

Publication number: CN113821678A
Application number: CN202110824474.8A
Authority: CN
Inventors: 李传俊; 殷泽龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-12-21
Anticipated expiration: 2041-07-21
Also published as: CN113821678B

Abstract

本申请涉及一种视频封面的确定方法及装置，涉及人工智能技术领域，所述方法包括：获取目标视频；对目标视频中的视频帧进行聚类，得到至少一个镜头；在每个镜头中确定至少一个候选封面；对候选封面进行自选封面预测处理，得到候选封面对应的自选封面预测概率；根据自选封面预测概率，从候选封面中确定出目标视频的视频封面。本申请通过筛选出视频中各镜头中的视频帧作为候选封面，并预测各个候选封面被用户自主选择为视频封面的概率，最终基于上述概率自动确定符合发布者自选封面习惯且吸引力强的优质视频封面，能够提升视频的点击率，减少数据资源浪费，提升资源利用率。

Description

视频封面的确定方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视频封面的确定方法及装置。

背景技术

随着人工智能技术的进步，特别是计算机视觉技术的不断发展，互联网上的视频量以指数级的速度增长。在对视频进行展示时，一般会从视频中选取一个或多个视频帧作为视频的封面，以向用户提供一些关于视频的信息，进而使用户可以根据封面来选择是否观看该视频。

相关技术中，可以将在视频中选择的固定时间点(例如将视频的开始时间点作为固定时间点等等)的视频帧作为封面，但固定时间点的视频帧可能会出现黑屏、模糊等问题，从而降低所选取的封面吸引用户观看该视频的能力，进而导致基于视频的互动情况较差，造成了媒体资源浪费。

发明内容

本申请提供一种视频封面的确定方法及装置，通过筛选出优质的候选封面，并预测各个候选封面被用户自主选择为视频封面的概率，进而可根据上述预测概率自动确定出能够吸引用户的优质视频封面，以提升视频点击率，减少媒体资源浪费。

根据本申请实施例的一个方面，提供了一种视频封面的确定方法，所述方法包括：

获取目标视频；

对所述目标视频中的视频帧进行聚类，得到至少一个镜头；

在每个镜头中确定至少一个候选封面；

对所述候选封面进行自选封面预测处理，得到所述候选封面对应的自选封面预测概率，所述自选封面预测概率是指所述候选封面被自主选择为视频封面的概率，并且所述自选封面预测概率与吸引度呈正相关，所述吸引度用于表征所述候选封面的内容对用户的吸引程度；

根据所述自选封面预测概率，从所述候选封面中确定出所述目标视频的视频封面。

根据本申请实施例的一个方面，提供了一种视频封面的确定装置，所述装置包括：

视频获取模块，用于获取目标视频；

视频聚类模块，用于对所述目标视频中的视频帧进行聚类，得到至少一个镜头；

候选封面确定模块，用于在每个镜头中确定至少一个候选封面；

封面预测模块，用于对所述候选封面进行自选封面预测处理，得到所述候选封面对应的自选封面预测概率，所述自选封面预测概率是指所述候选封面被自主选择为视频封面的概率，并且所述自选封面预测概率与吸引度呈正相关，所述吸引度用于表征所述候选封面的内容对用户的吸引程度；

视频封面确定模块，用于根据所述自选封面预测概率，从所述候选封面中确定出所述目标视频的视频封面。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频封面的确定方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频封面的确定方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频封面的确定方法。

本申请提供的视频封面的确定方法、装置、设备及存储介质，具有如下有益效果：

通过对视频中的视频帧进行聚类，可以得到视频中的各个镜头，再从每个镜头中选取图像内容稳定度高的视频帧作为候选封面，达到筛选优质候选封面的效果，并且能够保证筛选出的候选封面不会遗漏视频中的镜头，较大程度地保留了视频的完整信息，然后再对筛选出的优质候选封面进行自选封面预测，得到反映各个候选封面被用户自主选择为视频封面的概率，并且该概率与各个候选封面内容吸引度呈正相关，最终达到自动确定视频封面的目的，并且还能够保证自动选出的视频封面符合发布者自选封面习惯，并且对用户具有较大的吸引力，进而优化基于视频的互动情况，提升视频点击率，减少媒体资源浪费，提升资源利用率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种视频封面的确定方法的流程示意图；

图3是本申请另一个实施例提供的一种视频封面的确定方法的流程示意图；

图4是本申请另一个实施例提供的一种视频封面的确定方法的流程示意图；

图5示例性示出了一种滤除视频帧的示意图；

图6示例性示出了一种确定视频封面的示意图；

图7是本申请实施例提供的一种自选封面预测模型的训练方法的流程示意图；

图8本申请另一个实施例提供的一种视频封面的确定方法的流程示意图；

图9是本申请实施例提供的一种视频封面的确定装置的框图示意图；

图10是本申请实施例提供的一种计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本申请实施例中作进一步详细描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务端不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的机器学习(Machine Learning，ML)以及计算机视觉(Computer Vision，CV)等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

计算机视觉是一门研究如何使机器“看”的科学。更进一步的说，计算机视觉用摄影机和电脑代替人眼和大脑对目标进行识别、跟踪和测量，并进一步做图形处理，使经处理的图像成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

请参考图1，图1示出了本申请实施例提供的一种实施环境的示意图，上述视频封面的确定方法可应用于该实施环境中。如图1所示，该实施环境可以包括终端设备110和服务器120，终端设备110可以与服务器120通过通信网络进行连接，以便终端设备110可以与服务器120进行数据交互。可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端设备110可以是手机、平板电脑、笔记本电脑、台式计算机、可穿戴设备等电子设备，本申请实施例对终端设备的类型不作限定。终端设备110可以运行应用软体111，该应用软体111可以是一些服务商提供给用户的网页页面，也可以是一些服务商提供给用户的应用程序。

在本申请实施例中，上述应用程序可以是任何能够提供视频内容服务的应用程序。典型地，该应用程序为视频内容服务应用程序，如在线视频应用程序、短视频创作分享应用程序等等。比如，在线视频应用程序是聚合热播影视、综艺娱乐、体育赛事、新闻资讯等为一体的综合视频内容平台，并通过多种形态为用户提供高清流畅的视频娱乐体验。又比如，用户不仅可以在短视频创作分享应用程序上浏览各种短视频,同时还可以通过创作短视频来分享自己的所见所闻。当然，除了视频内容服务应用程序之外，其它类型的应用程序中也能够提供视频内容服务。例如，新闻阅读应用程序、资讯浏览应用程序、浏览器应用程序、信息流内容服务应用程序、内容营销应用程序、社交类应用程序、互动娱乐类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(Augmented Reality，AR)类应用程序等，本申请实施例对此不作限定。另外，对于不同的应用程序来说，其提供的视频内容服务和视频类型也会有所不同，且相应的功能也会有所不同，这都可以根据实际需求预先进行配置，本申请实施例对此不作限定。终端设备110通过运行应用软体111可以显示视频封面对视频进行展示，上述视频封面可以由服务器120确定。

服务器120可以是独立运行的服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一种应用场景中，用户可以在应用软体111所提供的显示页面中输入关键字，并向服务器120发送视频查询请求，以触发服务器120搜索与关键字匹配的视频；服务器120根据视频查询请求中的关键字从预设数据库中查询得到一个或多个视频，并针对每个视频，通过本申请实施例提供的视频封面的确定方法确定该视频的封面。可选地，服务器也可以自行向用户推送视频内容。服务器120将每个视频及其封面所对应的数据发送至应用软体111，以使应用软体111按照服务器120所确定的每个视频的封面对该视频进行展示。

在另一种应用场景中，用户打开应用软体111所提供的页面后，由应用软体111自动向服务器120发送视频查询请求，此时服务器120可以根据默认关键字从预设数据库中查询得到一个或多个视频，并将所查询到的视频返回至应用软体111；应用软体111针对每个视频，通过本申请实施例提供的视频封面的确定方法确定该视频的封面，然后按照所确定的封面对该视频进行展示。其中，默认关键字可以是默认时间段或者默认视频类型等等。可以理解地，对于视频查询请求的触发还有其他方式，本申请在此不做具体限定。

下面对本申请提供的方法实施例进行介绍。本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

请参考图2，图2是本申请实施例提供的一种视频封面的确定方法的流程示意图，该方法可在图1所示实施环境中的服务器120实施，也可在图1所示实施环境中的终端设备110(或终端设备上的应用软体)实施，或者由图1所示实施环境中的服务器120和终端设备110两者协作实施。具体的如图2所示，该方法可以包括如下步骤(210～250)。

步骤210，获取目标视频。

目标视频可以是预先存储在服务器中的，也可以是人工进行实时上传的。目标视频可以是一个完整视频，也可以是完整视频的一部分。举例来说，可以在终端设备所显示的操作界面上展现视频上传的入口，用户可以选择要上传的视频，终端设备检测到用于上传该视频的上传请求，可以将该视频上传到指定服务器；服务器接收到对该视频后，可以获取上传的视频作为目标视频，也可以根据时间节点从该视频中截取视频片段作为目标视频。

需要说明的是，本申请不限制目标视频的类别，目标视频可以是直播视频、体育视频、生活视频、综艺视频、短视频、游戏视频等等，且获取的方式也不限于以上描述。

步骤220，对目标视频中的视频帧进行聚类，得到至少一个镜头。

上述聚类用于得到目标视频中的至少一个镜头。上述镜头可以是在预设位置对场景拍摄得到的至少一个视频帧形成的集合，该镜头中的每个视频帧中记录在该预设位置拍摄得到的场景的画面内容。上述场景可以是真实场景，也可以是虚拟场景，本申请实施例对此不作限定。需要说明的是，若上述场景为虚拟场景，上述镜头便是通过虚拟摄像机在虚拟场景中的某一位置对虚拟场景拍摄得到的至少一个动画帧形成的集合。

本申请不对聚类使用的目标聚类方法作限定，可以根据实际情况选择合适的聚类方式。示例性的，上述目标聚类方法可以为无监督聚类方法或有监督聚类方法，上述无监督聚类方法可以为K-Means聚类、分层聚类、基于密度的聚类等方法，上述有监督聚类方法可以为半监督多关系数据聚类或近邻传播聚类等方法。在一个实施例中，在进行聚类时，可以随机选择默认聚类数量，也可以使用Elbow Method(肘部法则)方法来选取合适的聚类数量，根据确定的聚类数量进行目标视频中视频帧的聚类。

在步骤220中，可以对目标视频中的全部视频帧进行聚类，也可以对目标视频中的部分视频帧进行聚类。在一些实施例中，为了得到优质的候选封面，可以选取目标视频中的部分视频帧来进行聚类，例如，从目标视频中选取具有较高画质的视频帧来进行聚类，这里仅是做示意性的说明，对于如何选取目标视频中的部分视频帧的方式，可参见图4实施例中步骤420至步骤430的解释说明。

在示例性实施例中，如图3所示，图3是本申请另一个实施例提供的一种视频封面的确定方法的流程示意图。参见图3，上述步骤220可以包括如下子步骤(221～222)。

步骤221，确定每一视频帧对应的特征向量。

上述特征向量用于表征视频帧的色彩分布信息以及像素值梯度信息。

在一种可能的实施方式中，上述步骤221的一种实现方式如下：

确定每一视频帧的色彩直方图特征数据；确定每一视频帧的梯度图特征数据，梯度图特征数据包括水平方向的梯度特征和竖直方向的梯度特征；基于色彩直方图特征数据和梯度图特征数据，得到特征向量。

其中，色彩直方图特征数据可以通过确定视频帧的H(Hue，色相)S(Saturation，饱和度)L(Lightness，亮度)直方图得到，上述色彩直方图特征数据可以表征视频帧的色彩分布信息，例如各颜色在视频帧的总颜色中的比例。梯度图特征数据可通过确定视频帧在水平方向(X方向)和竖直方向(Y方向)的梯度直方图得到，上述梯度图特征数据可表征视频帧的像素值梯度信息。

上述特征向量可通过色彩直方图特征数据与上述梯度图特征数据所形成的双层金字塔进行提取得到。例如，HSL直方图可采用128bins*3通道，梯度直方图采用30bins*2方向，双层(2×2＝4)空间金字塔总的向量维度是(128*3+30*2)*(1+4)＝2220，也即特征向量为2220维度的特征向量。其中，bins是指每个通道下像素值分组。例如，在颜色通道中原有256个值，0至255的情况下，128bins意味着每个颜色通道下只能取128个值，需要将两个像素值合并为一组后对应一个新的数值。

步骤222，基于特征向量，对目标视频中的视频帧进行聚类，得到至少一个镜头。

以特征向量为聚类特征，对各个特征向量进聚类，得到向量聚类结果，将每个向量聚类结果中各特征向量对应的视频帧的集合作为一个镜头。

可选地，可根据肘部法则确定聚类数量，即最终得到的镜头数量。

步骤230，在每个镜头中确定至少一个候选封面。

候选封面的静止度符合预设的静止度条件。

可确定每个镜头中的视频帧的静止度，进而检验每个镜头中的每个视频帧的静止度是否符合预设的静止度条件，以确定静止度符合预设的静止度条件的视频帧作为每个镜头对应的候选封面。可选地，预设的静止度条件包括静止度高于静止度阈值，相应的，上述候选封面的静止度高于该静止度阈值。可选地，预设的静止度条件包括每个镜头中具有最大静止度的视频帧。静止度越大的视频帧，图像质量越可控，因而将具有最大静止度的视频帧作为候选封面，可以得到具有可控质量的候选封面。

可选地，视频帧的静止度用于指示视频帧中像素点的灰度值相对于与该视频帧相邻的视频帧中相同位置的像素点的灰度值的变化情况。

在确定每个视频帧的静止度时，可以将该视频帧中每个像素点的灰度值分别与前预设个数视频帧(或者与后预设个数视频帧)中每个像素点的灰度值相减，根据相减结果计算灰度值差值的平均值，然后对该平均值进行归一化处理得到静止度。可选地，将该平均值的倒数确定为静止度。

示意性地，如表1所示，其为视频帧1和视频帧2中各个像素点的灰度值进行相减的示例，视频帧2为视频帧1的前一个视频帧，灰度值1表示像素点在视频帧1中的灰度值，灰度值2表示像素点在视频帧2中的灰度值，灰度值差值表示像素点在视频帧1中的灰度值与在视频帧2中的灰度值之差。根据表1所示的灰度值差值，可以计算得到灰度值差值的平均值为1.5，该平均值的倒数为0.66，也即静止度为0.66。

表1

像素点	灰度值1	灰度值2	灰度值差值
				A	135	137	2
B	58	59	1
				C	226	228	2
D	38	39	1

在一种可能的实施方式中，也可以根据每个镜头中各个视频帧的特征和静止度确定候选封面。其中，特征可以是颜色特征、纹理特征、形状特征以及梯度特征等等。在具体实施时，为了能获取到视频的统计结果，可以使用直方图对视频帧进行图形表示，然后使用直方图特征选取候选帧。

步骤240，对候选封面进行自选封面预测处理，得到候选封面对应的自选封面预测概率。

上述自选封面预测概率是指候选封面被自主选择为视频封面的概率，并且自选封面预测概率与吸引度呈正相关，吸引度用于表征候选封面的内容对用户的吸引程度。

由于自选封面预测概率与吸引度呈正相关，自选封面预测概率也可用于表征候选封面的内容对用户的吸引程度。可选地，自选封面预测概率可用于指示通过该候选封面吸引用户点击观看视频的可能性。

在示例性实施例中，如图3所示，上述步骤240可由如下步骤241替换实现。

步骤241，将候选封面输入自选封面预测模型进行自选封面预测处理，得到候选封面对应的自选封面预测概率。

其中，自选封面预测模型是以样本视频的封面为正样本训练得到的机器学习模型，样本视频是指用户自选封面且操作数据指标符合预设条件的视频，操作数据指标用于表征用户对样本视频的操作行为的统计结果。

在示例性实施例中，上述自选封面预测模型采用NFNets(NormalizerFreeNetworks，非归一化网络)作为模型Backbone(主干网络)，NFNets是基于自适应梯度修剪(Adaptive Gradient Clipping，AGC)方法的非归一化网络。与残差网络ResNet相比，NFNets没有分批归一化层。通过相关实验证实，自选封面预测模型采用NFNets作为模型Backbone时的模型精度，比采用ResNet作为模型Backbone时的模型精度高5％。

可选地，上述自选封面预测模型的损失(Loss)函数可优化为焦点损失函数(FocalLoss)，可使得上述自选封面预测模型的收敛速度更快，更不容易过拟合，模型精度可提升1％。通过使用焦点损失函数可解决样本的不平衡问题，以及难易样本不平衡的问题。

在视频领域中，用户自主选择的封面对应的视频普遍具有较好的互动表现。基于这些使用用户选择的封面且具有较好的互动表现的视频训练自选封面预测模型，可以使得训练得到的自选封面预测模型可以准确确定出符合用户自主选择习惯并且吸引力高的视频封面。

本申请实施例通过上述操作数据指标量化上述互动表现。可选地，操作数据指标包括CTR(Click-Through-Rate，点击通过率)、视频点赞数据指标、视频分享数据指标等。上述预设条件是指针对上述操作数据指标设定的筛选条件，例如CTR高于CTR阈值，视频点赞数据指标高于视频点赞数据指标，视频分享数据指标高于视频分享数据指标阈值等。

步骤250，根据自选封面预测概率，从候选封面中确定出目标视频的视频封面。

在一些实施例中，可以对各个候选封面对应的自选封面预测概率按照设定顺序进行排序，根据排序结果从候选封面中确定视频封面，例如若设定顺序为由高至低的降序排序，则可以将排序结果中排序第一的自选封面预测概率，即最大自选封面预测概率对应的候选封面确定为目标视频的视频封面。在一些实施例中，也可以按照预设的选择算法直接从候选封面中选择具有最大自选封面预测概率的候选封面作为目标视频的视频封面。

综上所述，本申请实施例提供的技术方案，通过对视频中的视频帧进行聚类，可以得到视频中的各个镜头，再从每个镜头中选取图像内容稳定度高的视频帧作为候选封面，达到筛选优质候选封面的效果，并且能够保证筛选出的候选封面不会遗漏视频中的镜头，较大程度的保留了视频的完整信息，然后再对筛选出的优质候选封面进行自选封面预测预测，得到反映各个候选封面被用户自主选择为视频封面的概率，并且该概率与各个候选封面内容吸引度呈正相关，最终基于上述概率自动确定视频封面，并且还能够保证自动选出的视频封面符合发布者自选封面习惯，并且对用户具有较大的吸引力，进而优化基于视频的互动情况，提升视频点击率，减少媒体资源浪费，提升资源利用率。

另外，本申请实施例提供的技术方案，通过对视频中的视频帧进行聚类，可以得到视频中的各个镜头，再从每个镜头中选取图像内容稳定度高的视频帧作为候选封面，达到筛选优质候选封面的效果，并且能够保证筛选出的候选封面不会遗漏视频中的镜头，较大程度的保留了视频的完整信息。

此外，本申请实施例提供的技术方案还将表征视频帧的色彩分布信息以及像素值梯度信息的特征向量作为聚类特征，通过对各视频帧的特征向量进行聚类，进而根据向量的聚类结果确定出视频中的各个镜头，能够有效利用视频帧的图像信息和特征，使得确定出的各个镜头的可靠性更强。

并且，还引入自选封面预测模型对候选封面进行自选封面预测，由于引入的自选封面预测模型是以样本视频的封面作为正样本训练的机器学习模型，而且样本视频是用户自选封面且操作数据指标符合预设条件的视频，从而保证了自选封面预测模型输出的自选封面预测概率的准确性，进而保证最终确定的视频封面符合发布者自选封面习惯，并能够在很大程度上吸引用户，提升视频的点击率。

请参考图4，图4是本申请另一个实施例提供的一种视频封面的确定方法的流程示意图。该方法可在图1所示实施环境中的服务器120实施，也可在图1所示实施环境中的终端设备110(或终端设备上的应用软体)实施，或者由图1所示实施环境中的服务器120和终端设备110两者协作实施。具体的如图4所示，该方法可以包括如下步骤(410～450)。

步骤401，获取目标视频。

在一些实施例中，上述目标视频可以是视频中的精彩片段。其中，识别视频中的精彩片段的方式可以是对该视频中的视频帧的精彩程度评估进行确定，精彩程度可以用于反映视频帧对用户的吸引力程度。例如，可以基于预先训练的精彩程度预测模型对视频中每个视频帧进行识别，得到能够表征每个视频帧的精彩程度的概率值，然后将具有最大概率值的视频帧前后M个连续的视频帧确定为精彩片段，生成目标视频。其中，M为大于1的正整数。精彩程度预测模型可以是以预先标记有精彩标签的视频帧作为正样本，以预先标记有普通标签的视频帧作为负样本进行训练得到的。上述精彩标签和普通标签通过人工标记，也可以通过机器自动标记，本申请对此不作限定。

精彩片段也可以根据视频类型进行确定，例如在体育视频中，精彩片段可以是具有连续动作的视频帧所组成的片段，而在游戏视频中，精彩片段可以是跳舞片段、击杀片段等，本申请实施例对此不作限定。

步骤402，滤除目标视频中不符合质量筛选条件的视频帧。

在本申请实施例中，质量筛选条件是用于筛选高质量视频帧的条件，可以对目标视频中的每个视频帧进行特征提取，得到每个视频帧对应的质量数据指标；然后根据质量数据指标对视频帧进行滤除，删除目标视频中不符合质量筛选条件的视频帧。其中，质量数据指标用于表征视频帧的画面质量，例如亮度、锐化度、饱和度、对比度等等。

若目标视频的视频帧不能同时满足质量筛选条件中的任一条件，则将视频帧滤除。

在一种可能的实施方式中，质量筛选条件包括亮度条件、模糊度条件、色彩单一度条件和场景切换帧筛选条件中的至少一种。

其中，亮度条件是指视频帧的亮度值属于亮度阈值区间的条件，即亮度值小于或者等于预设高亮度阈值并且该亮度值大于或者等于预设低亮度阈值；模糊度条件是指视频帧的锐化值大于或者等于预设锐化阈值的条件，锐化值用于表征图像的模糊度；色彩单一度子条件是指视频帧的色彩单一度值小于或者等于预设单一阈值的条件；场景切换帧筛选条件是指视频帧不是场景切换帧的条件。

相应的，上述步骤402可通过如下方式实现。

在质量筛选条件包括亮度条件的情况下，滤除目标视频中亮度值不属于亮度阈值区间的视频帧。可选地，可以通过计算视频帧的平均灰度值得到视频帧的亮度值。对于亮度值，可以对该视频帧的R(Red，红)，G(Green，绿)，B(Blue，蓝)三原色取算术平均或者加权平均得到，如在线性空间下的视频帧可通过0.2126I_r+0.7152I_g+0.0722I_b计算得到亮度值，其中，I_r为视频帧的R原色表示，I_g为视频帧的G原色表示，I_b为视频帧的B原色表示，加权平均计算所使用的各权重可以根据应用场景进行调整。

在质量筛选条件包括模糊度条件的情况下，滤除目标视频中锐化度小于锐化阈值的视频帧。可选地，通过计算视频帧在水平方向和竖直方向的梯度得到视频帧的锐化值。对于锐化度，可以通过

计算得到，其中，I_gray为视频帧的灰度表示，Δ_xI_gray表示视频帧在X方向(水平方向)的梯度，Δ_yI_gray表示视频帧在Y方向(竖直方向)的梯度。

在质量筛选条件包括色彩单一度条件的情况下，滤除目标视频中色彩单一度大于色彩单一度阈值的视频帧。可选地，通过统计视频帧中不重复的各个灰度值的出现次数，然后按照出现次数由高至低的顺序对各灰度值排序，取排序结果中前M(M为正整数)个灰度值对应的像素占所有像素的比例作为色彩单一度的值。上述M由灰度值数量和预设百分比确定，例如M为灰度值数量和预设百分比值的乘积。对于色彩单一度，若预设百分比值为5％，灰度值的数量为256，则M为256×5％并取整的数值，例如M为13。对于一个视频帧，则可通过统计该视频帧的不同灰度值各自的出现次数，比如该视频帧中有50个不重复的灰度值，预设百分比为5％，则M可以取3。然后按照出现次数对这50个不重复的灰度值降序排列，从中选取出现次数位于前3的灰度值，统计这3个灰度值对应的像素占所有像素的比例，得到色彩单一度。

上述色彩单一度可通过如下公式计算得到：

其中，I_gray为视频帧的灰度表示，Uniformity(I_gray)表示色彩单一度，hist(I_gray)表示视频帧的直方图，sort(hist(I_gray))表示按照出现次数对各灰度值的排序结果，

表示排序结果中，前预设数量的灰度值对应的像素占全部像素的比例，上述预设数量为灰度值数量的5％。在质量筛选条件包括场景切换帧筛选条件的情况下，滤除目标视频中的场景切换帧。可选地，通过统计该视频帧与前/后一个视频帧的像素变化梯度确定该视频帧是否为场景切换帧。场景切换帧是因为在切换2个不同场景(即不同镜头拍摄得到的不同场景)时内容会有重叠导致内容不完整或者模糊，通过统计相邻视频帧之间的像素变化梯度，可以将像素变化梯度大于设定阈值的帧判断为场景切换帧。

需要说明的是，在质量筛选条件包括多个条件的情况下，其判断顺序可以根据业务场景进行设定。

在一个示例中，如图5所示，图5示例性示出了一种滤除视频帧的示意图。可以按照图5所示的顺序对目标视频的视频帧进行滤除。首先，滤除低亮度帧，即滤除不满足亮度条件的视频帧；其次，滤除模糊帧，也即滤除不满足模糊度条件的视频帧；然后，滤除颜色单一帧，也即滤除不满足色彩单一度条件的视频帧；最终，滤除场景切换帧，也即滤除不满足场景切换帧筛选条件的视频帧。当然，还有其他实施方式，本申请在此不对执行顺序进行限定。

步骤403，对目标视频中符合质量筛选条件的视频帧进行聚类，得到至少一个镜头。

在一种可能的实施方式中，可以从每个镜头下的视频帧中随机选取一个视频帧作为候选封面，但为了使得所选取的候选封面更稳定，涉及内容更丰富，可以对每个镜头下的视频帧再进行聚类，然后根据聚类的结果确定候选封面。通过采用二次聚类的方式，可以得到更稳定的候选封面，并且候选封面涉及内容会更丰富，不会遗漏各子镜头的内容。因此，进行下述步骤404。

步骤404，将每个镜头下的视频帧进行聚类，得到每个镜头下的至少一个子镜头。

在一种可能的实施方式中，上述镜头可以是在一定区域对目标环境进行拍摄得到的至少一个视频帧，每个视频帧的图像内容为该镜头下拍摄得到的场景画面。相应的，上述子镜头可以是在上述区域内的某一位置对目标环境进行拍摄得到的至少一个视频帧。

在另一种可能的实施方式中，上述镜头可以是在预设位置对目标环境进行拍摄得到的至少一个视频帧，每个视频帧的图像内容为该镜头下拍摄得到的场景画面。可选地，上述子镜头可以是在上述预设位置下按照某一角度对目标环境进行拍摄得到的至少一个视频帧。

在一种可能的实施方式中，可以采用与前述步骤403相同的目标聚类算法，对每个镜头下的视频帧进行聚类。在进行聚类时，可以随机选择默认聚类数量的聚类中心，所选取的默认聚类数量与步骤403所使用的默认聚类数量可以不同但也可以相同，也可以通过聚类数量选取方法选取与每个镜头对应的聚类数量，如使用Elbow Method方法(肘部法则)。可以理解的，所得到的每个镜头所对应的子镜头的个数可以不同。

下面举例说明，上述步骤403可采用Elbow Method方法对目标视频中符合质量筛选条件的视频帧进行聚类处理，以确定处最优的也是符合真实镜头数量的聚类值K1，按照K1的聚类数量对目标视频中符合质量筛选条件的视频帧进行聚类，可以得到K1个镜头。同理，步骤404中可以采用相同Elbow Method方法对每个镜头下的视频帧进行聚类处理，以确定每个镜头对应的聚类值K2，这里仅是示意性说明，各镜头对应的聚类值可以不同，这里为了方便说明，以每个镜头对应的聚类值均为K2举例说明，按照K2的聚类数量分别对每个镜头下的视频帧进行聚类，每个镜头可以得到K2个子镜头，最终所得到的子镜头个数为K1*K2个。其中，K1、K2均为正整数。

然后，可以从K1*K2个子镜头中选择出候选帧。

步骤405，对于每个子镜头，将子镜头中静止度高于静止度阈值的视频帧确定为候选封面。

步骤406，将候选封面输入自选封面预测模型进行自选封面预测处理，得到候选封面对应的自选封面预测概率。

步骤407，根据自选封面预测概率，从候选封面中确定出目标视频的视频封面。

在一个示例中，如图6所示，其示例性示出了一种确定视频封面的示意图。首先，从目标视频中确定出N个候选帧(即N个候选封面，图中用候选帧1，候选帧2，候选帧3，......，候选帧N示出)，将每个候选帧均输入至自选封面预测模型，得到每个候选帧的自选封面预测概率(图中自选封面预测概率1是候选帧1的自选封面预测概率图中自选封面预测概率2是候选帧2的自选封面预测概率，以此类推)，然后按照自选封面预测概率进行排序，将具有最大自选封面预测概率的目标帧作为封面，使得用户点击观看视频的概率最大化，从而使得所确定的封面是目标视频的最优封面。

步骤408，确定视频封面所在镜头的相邻镜头。

上述相邻镜头可以是与视频封面所在镜头相邻的前后n个镜头，所述n为正整数。例如，相邻镜头是与视频封面所在镜头相邻的前后1个镜头，即紧邻视频封面所在镜头的前后镜头。

步骤409，确定相邻镜头中的至少一个视频帧。

可选地，上述视频帧可以是相邻镜头中的候选封面。

步骤410，基于视频封面和至少一个视频帧，生成目标视频的动态视频封面。

可选地，上述动态视频封面可以是一个动态图像，例如动态视频封面的图像格式为GIF(Graphics Interchange Format，图形交换格式)。

可选地，上述动态视频封面可以是一段视频。例如，由上述视频封面和上述至少一个视频帧构成的视频。

通过上述步骤408至步骤410，在确定出该实施例下目标视频的最优封面后，提取最优封面前后场景的一些关键帧，可生成更有吸引力的动态封面。

在示例性实施例中，上述目标视频为直播视频。因直播视频是实时产生的视频数据流，直播视频的视频封面往往是预先设置好的图片，视频主播在直播过程中无法及时地，将某些精彩瞬间的图像设置为当前直播视频的封面。但是，如果应用本申请实施例提供的方法，对于当前时刻之前产生的直播视频，执行上述步骤401至步骤407，或者步骤401至步骤410，则可从直播视频的视频帧中，为当前直播视频选取符合用户自主选择习惯并且吸引力强的视频封面，或者是动态的视频封面，直观地向用户展示直播情况，提升直播视频的点击率。

对于直播视频，也可对直播视频流中新生成的视频帧进行上述自选封面预测处理，判断其对应的自选封面预测概率是否高于预设的概率阈值。若高于概率阈值，即可确定这一视频帧为当前直播视频的视频封面。可选地，对直播视频流实时产生的目标视频帧进行筛选处理。在目标视频帧不符合质量筛选条件的情况下，对下一帧视频帧进行筛选处理；在目标视频帧符合质量筛选条件的情况下，将目标视频帧输入至自选封面预测模型进行自选封面预测处理，得到目标视频帧对应的自选封面预测概率。若目标视频帧对应的自选封面预测概率小于概率阈值，则对下一帧视频帧进行筛选处理；若目标视频帧对应的自选封面预测概率高于或等于概率阈值，则确定目标视频帧为直播视频的视频封面。可选地，上述直播视频的视频封面可定期更换，确保直播视频封面的时效性。

综上所述，本申请实施例提供的技术方案，按照质量筛选条件对视频中的视频帧进行滤除，可以得到视频中可用的视频帧，将质量明显低的视频帧及早滤除以完成初步筛选，缩减计算数据量；然后再对滤除后的视频帧进行聚类，得到视频中的各个镜头，并分别对每个镜头的视频帧进行二次聚类，进一步得到每个镜头各自对应的子镜头，最后从每个子镜头中选取图像内容稳定度高的视频帧作为候选封面，确定出的候选封面不仅优质，还涉及每个子镜头的画面内容，有效避免对视频信息的遗漏，极大程度的保留了视频的完整信息，最终可对筛选出的优质候选封面进行自选封面预测处理，自动确定符合发布者自主选择习惯且对用户具有较大的吸引力的视频封面，提升视频的点击率，减少数据资源的浪费，提升资源利用率。

请参考图7，图7是本申请实施例提供的一种自选封面预测模型的训练方法的流程示意图。该方法可以包括如下步骤(710～750)。

步骤710，获取样本视频。

从视频集合中确定样本视频。

在一种可能的实施方式中，上述视频集合中包括视频内容服务平台的视频，例如短视频，也可以包括预设数据库中的视频。样本视频可以从视频内容服务平台中或者从预设数据库中获取。可选地，样本视频的点击率高于预设点击率阈值，且该样本视频的封面为用户自主选择的。

可选地，样本视频的类型可以是体育视频、生活视频、综艺视频、短视频、游戏视频等等。通常情况下，用户自己挑选的封面的视频点击率普遍比默认封面视频点击率高，尤其是在各短视频平台中所展示的短视频中尤为明显，因而样本视频可以是从各短视频平台中获取到的用户自主选择封面的短视频。

步骤720，将样本视频的封面作为自选封面预测模型的正样本。

步骤730，确定样本视频中的参考视频帧。

从样本视频中选取参考视频帧，该参考视频帧与样本视频的封面之间的相似度小于预设相似度阈值。

参考视频帧是除封面之外的其他视频帧。

在示例性实施例中，上述步骤730可通过如下方式实现：

确定样本视频中除封面之外的其他视频帧与封面之间的相似度；根据相似度，在样本视频中除封面之外的其他视频帧中，确定参考视频帧。

可以确定样本视频中每个视频帧中各个像素点的灰度值，将除封面以外的每个视频帧中各个像素点的平均灰度值与封面中各个像素点的平均灰度值之间的差值，确定为该视频帧与封面之间的相似度。在样本视频中除封面之外的其他视频帧中，选取出相似度小于预设相似度阈值的参考视频帧。

在一些实施例中，样本视频中的各个视频帧也可以是预先进行标注的，该标注用于指示该视频帧与封面之间的相似度小于预设相似度阈值，进而可以直接根据标注确定参考视频帧。

步骤740，将参考视频帧作为自选封面预测模型的负样本。

步骤750，基于正样本和负样本训练机器学习模型，得到自选封面预测模型。

随着机器学习方法的不断完善和发展，上述机器学习模型可以是深度学习模型，比如基于图像分类网络的卷积神经网络。具体地，上述机器学习模型可以是VGGNet、AlexNet以及ResNet等卷积神经网络。

以残差网络ResNet为例，该机器学习模型可以是以ResNet-50作为BackBone(主干网络)的分类网络的卷积神经网络，损失函数可以采用Softmax-Loss，让正样本倾向于得分为1，负样本倾向于得分为0。在有充足数据训练完后，该模型对于视频输入的候选帧，都会给出0至1之间的打分。可以理解的，分类网络还可以是其他分类网络，例如以ResNet-50的变形作为BackBone的分类网络，本申请在此不做具体限定。

在一种可能的实施方式中，基于正样本和负样本对第一机器学习模型进行训练。可选地，在离线训练阶段，第一机器学习模型采用NFNets-F5结构进行训练，将训练后的第一机器学习模型作为蒸馏训练中的原始模型，也可称之为教师模型。上述蒸馏训练是将训练好的复杂模型的推广能力“知识”迁移到一个结构更为简单的网络中，或者通过简单的网络去学习复杂模型中“知识”。

接着，根据训练后的第一机器学习模型，对第二机器学习模型进行蒸馏训练。第二机器学习模型由第一机器学习模型确定，并且第二机器学习模型的复杂度小于第一机器学习模型。可选地，上述第二机器学习模型采用NFNets-F0结构。上述第二机器学习模型为蒸馏训练中的精简模型，即学生模型。

最后，将蒸馏训练后的第二机器学习模型作为自选封面预测模型。

在离线训练阶段，第一机器学习模型采用NFNets-F5结构进行训练，将训练后的第一机器学习模型作为蒸馏训练中的原始模型。在训练实际上线的第二机器学习模型时，第二机器学习模型采用NFNets-F0结构，但用第一机器学习模型(原始模型)来指导、辅助第二机器学习模型(精简模型)进行训练。

上述基于NFNets-F5的第一机器学习模型的模型大、精度高，但在线上实际应用中，第一机器学习模型所需计算资源多、设备计算压力大。而基于NFNets-F0的第二机器学习模型的模型小速度快，但精度没有大模型高。利用蒸馏训练的方式，让教师模型指导学生模型进行训练，可以改善学生模型的精度，使其拟合成大模型的精度。利用上述方式训练，第二机器学习模型，即自选封面预测模型的模型精度可以提高2％。

可选地，上述自选封面预测模型的损失(Loss)函数可优化为焦点损失函数(FocalLoss)，通过使用焦点损失函数可解决样本的不平衡问题，以及难易样本不平衡的问题。在本申请实施例中，正样本数量可能会少于负样本数量，使用焦点损失函数对上述自选封面预测模型的训练过程进行约束，可使得上述自选封面预测模型的收敛速度更快，更不容易过拟合，模型精度可提升1％。

可选地，对自选封面预测模型进行分组测试，例如在线上对自选封面模型进行A/B测试，得到更加优化的自选封面预测模型。

在一个具体的实施方式中，以短视频平台中的短视频数据作为训练数据为例，对上述方法实施例进行简要阐述。

1、获取短视频，将该短视频的封面作为正样本，并从该短视频中选取参考视频帧作为负样本，该短视频的点击率高于预设点击率阈值，且该短视频的封面为用户自主选择的,该参考视频帧与短视频的封面之间的相似度小于预设相似度阈值；

2、基于正样本和负样本训练预设深度学习模型，得到自选封面预测模型。

3、获取目标视频；

4、对目标视频中的视频帧进行滤除和聚类处理，得到候选封面；

5、基于自选封面预测模型对候选封面进行自选封面预测，得到每个候选封面的自选封面预测概率；

6、根据得到的自选封面预测概率，在候选封面中确定目标视频的视频封面。

由上述实施例提供的技术方案可见，由于自选封面预测概率预测模型是以样本视频的封面为正样本训练得到的，而样本视频的点击率高于预设点击率阈值，且样本视频的封面为用户自主选择的，使得利用自选封面预测模型对视频中的候选封面进行自选封面预测所得到的自选封面预测概率，符合发布者自选封面习惯，并且对用户具有较大的吸引力，确保根据选封面预测概率所确定的封面质量高、吸引力强，从而可以提高视频的点击率，减少媒体资源浪费，提升资源利用率。

在示例性实施例中，上述实施例中的视频封面的确定方法还可包括获取目标帐号对应的帐号特征数据这一步骤。上述帐号特征数据用于表征目标帐号指向的目标用户对历史视频封面的偏好信息。

上述目标帐号可以是任一用户帐号，也可以是同一用户类型的用户帐号。上述用户类型可以是用户偏好类型、用户性格类型或者用户行为类型，本申请实施例对此不作限定。

在一种可能的实施方式中，可通过用户画像数据确定用户类型。上述用户类型可通过用户帐号的标签信息确定，比如属于同一用户类型的用户帐号具有与该用户类型对应的用户标签。可选地，上述用户类型可以是用户根据个人情况自行选择，也可以是用户根据个人情况选择能够表征个人类型的用户标签。可选的，每一用户类型对应一个用户类型特征，上述帐号特征数据可以是该用户类型特征的数学表现形式。例如帐号特征数据为用户类型特征向量。

在另一种可能的实施方式中，根据各用户帐号对历史视频封面的操作行为数据，确定各用户帐号的帐号特征数据，可选地，上述帐号特征数据可以组成能够表征用户特征的特征向量。可选地，可通过嵌入处理确定各用户帐号的特征向量。进一步地，可将特征向量作为聚类特征，对各用户帐号进行聚类，得到各用户类型的用户帐号，每个聚类中心对应的特征向量可以作为该用户类型对应的用户类型特征向量，本申请实施例对聚类的方式不作限定。可选地，相同用户类型的用户帐号可对应相同的帐号特征向量。

上述历史视频封面可以是上述目标帐号指向的目标用户浏览过的视频的封面。操作行为数据可以是目标帐号对应的点击数据、点赞数据等操作行为数据。

相应的，上述步骤460可调整为：基于帐号特征数据，对候选封面进行自选封面预测处理，得到所述候选封面针对目标帐号的自选封面预测概率。

其中，上述针对目标帐号的自选封面预测概率是指候选封面被自主选择为视频封面的概率，并且针对所述目标帐号的自选封面预测概率与候选封面对目标用户的吸引度呈正相关。

由于针对目标帐号的自选封面预测概率与候选封面对目标用户的吸引度呈正相关，那么针对目标帐号的自选封面预测概率可用于表征候选封面的内容对目标用户的吸引程度，或者可用于表征候选封面的内容对目标用户类型的用户的吸引程度。

在一种可能的实施方式中，基于目标帐号的帐号特征数据的数学形式为特征向量，即帐号特征向量。可选地，通过对目标帐号的操作行为数据进行嵌入处理，确定目标帐号的帐号特征向量。可选地，将目标帐号所属用户类型对应的用户类型特征向量，作为目标帐号的帐号特征向量。上述用户类型特征向量可根据上述目标帐号的操作行为数据确定。

进一步地，将帐号特征向量与候选封面输入自选封面预测模型进行自选封面预测处理，得到候选封面针对目标帐号的自选封面预测概率。

其中，自选封面预测模型是基于样本视频和样本帐号的帐号特征数据进行训练得到的机器学习模型。在一些应用场景中，一方面会通过神经网络模型提取候选封面的图像特征，即物(item)特征；另一方面会提取用户(user)特征。然后根据item特征和user特征联合训练机器学习模型，例如上述自选封面预测模型，使得自选封面预测模型可以根据用户兴趣得到个性化封面。

对于不同的帐号，自选封面预测模型可根据不同帐号特征以及候选封面的图像内容，确定出各个候选封面针对不同帐号的自选封面预测概率的概率分布。例如，对于第一帐号，自选封面预测模型确定出各个候选封面针对第一帐号的自选封面预测概率，得到各个候选封面对第一帐号指向用户的吸引程度的第一概率分布。同理，对于第二帐号，可以得到第二概率分布。

相应的，上述步骤470可调整为：根据针对目标帐号的自选封面预测概率，从候选封面中确定出目标视频针对目标帐号的视频封面。

根据不同帐号对应的自选封面预测概率的概率分布，可以为不同帐号确定同一视频的不同封面，实现个性化封面确定和推荐，以提升视频点击率。

通过结合帐号的帐号特征数据，对筛选出的优质候选封面进行个性化的自选封面预测，将候选封面对不同用户的吸引程度有区别地进行量化，预测出各个候选封面针对不同用户的自选封面预测概率分布，进而依据不同的自选封面预测概率分布，为同一视频确定出符合不同用户偏好的多个视频封面，并能够保证这多个视频封面符合发布者自主选择封面的习惯。对于任一用户，可根据其用户个性和偏好自动选出对该用户吸引力较大的视频封面。同一视频可根据用户偏好向不同用户展示不同封面，有利于优化视频的交互效率，提升视频的点击率，进而提升媒体数据资源利用率，减少媒体数据资源浪费。

在一种可能的实施方式中，为实现上述实施例中根据帐号特征进行个性化的自选封面预测的技术效果，可根据样本视频的封面和样本帐号的操作行为数据得到自选封面预测模型的正样本，根据参考视频帧和样本帐号的操作行为数据得到自选封面预测模型的负样本，然后基于这两种样本以及上述训练方法进行机器学习训练，得到能够进行个性化封面确定的自选封面预测模型。

可选地，基于样本帐号在样本视频的封面上产生的操作数据生成样本视频的封面的标签信息，得到正样本。可选地，基于样本帐号在样本视频的封面上的操作数据生成样本帐号特征向量的标签信息，得到正样本。

可选地，基于样本帐号在参考视频帧上产生的操作数据生成参考视频帧的标签信息，得到负样本。可选地，基于样本帐号在样本视频的参考视频帧上的操作数据生成样本帐号特征向量的标签信息，得到负样本。

上述正、负样本的选择可以体现样本帐号指向用户对与样本视频中视频帧的吸引程度，并且样本视频是用户自选封面的视频，因此基于上述两种样本训练出的自选封面预测模型可以根据不同用户特征确定不同的视频封面，以提升视频对各种用户的吸引力，同时视频封面还符合发布者自主选择习惯。

由上述实施例提供的技术方案可见，由于自选封面预测模型是以样本视频的封面为正样本进行训练，并且还结合用户特征进行训练，使得自选封面预测模型能够针对不同用户进行个性化的封面预测。同时，样本视频的点击率高于预设点击率阈值，且样本视频的封面为用户自主选择的，使得利用自选封面预测模型对视频中的候选封面进行自选封面预测所得到的自选封面预测概率，能够同时准确反映发布者选择封面的倾向以及封面对观看者的吸引程度，从而可以提高视频的点击率。

请参考图8，图8是本申请另一个实施例提供的一种视频封面的确定方法的流程示意图，该方法可在图1所示实施环境中的服务器120实施，也可在图1所示实施环境中的终端设备110(或终端设备上的应用软体)实施，或者由图1所示实施环境中的服务器120和终端设备110两者协作实施。具体的如图8所示，该方法可以包括如下步骤(801～818)。

步骤801，获取目标视频。

步骤802，对目标视频执行拆帧操作，得到第一视频帧集合。

对目标视频进行拆分，将拆分所得到的具有时间连续各个视频帧确定为第一视频帧集合。

步骤803，滤除第一视频帧集合中亮度值不属于亮度阈值区间的视频帧。

步骤804，滤除第一视频帧集合中锐化度小于锐化阈值的视频帧。

步骤805，滤除第一视频帧集合中色彩单一度大于色彩单一度阈值的视频帧。

步骤806，滤除第一视频帧集合中的场景切换帧。

步骤807，得到第二视频帧集合。

本申请实施例中，将滤除后的第一视频帧集合确定为第二视频帧集合。

步骤808，确定第二视频帧集合中每个视频帧的色彩直方图特征数据。

步骤809，确定第二视频帧集合中每个视频帧的梯度图特征数据。

梯度图特征数据包括水平方向的梯度特征和竖直方向的梯度特征。

步骤810，基于第二视频帧集合中每个视频帧各自对应的色彩直方图特征数据和梯度图特征数据，得到第二视频帧集合中每个视频帧各自对应的特征向量。

步骤811，以特征向量为聚类特征，按照肘部法则确定第一聚类值k。

其中，k为正整数。

步骤812，基于特征向量和第一聚类值k，对第二视频帧集合中的视频帧进行聚类，得到k个第三视频帧集合。

其中，每个第三视频帧集合对应一个镜头。

步骤813，针对第i个第三视频帧集合，以特征向量为聚类特征，按照肘部法则确定第i个第三视频帧集合对应的第二聚类值K_i。

其中，K_i为正整数，i＝1，2，…，k。

步骤814，基于特征向量和第二聚类值K_i，对第i个第三视频帧集合中的视频帧进行聚类，得到K_i个第三视频帧子集合。

第三视频帧子集合的数量为K₁+K₂+…+K_k。每个第三视频帧子集合对应一个子镜头。

步骤815，确定每个第三视频帧子集合中视频帧的静止度。

确定每个子镜头中视频帧的静止度。

步骤816，将每个第三视频帧子集合中静止度最大的视频帧作为目标视频的候选封面。

将每个子镜头中静止度最大的视频帧作为目标视频的候选封面。

步骤817，将候选封面输入自选封面预测模型进行自选封面预测处理，得到候选封面对应的自选封面预测概率。

步骤818，将自选封面预测概率最大的候选封面作为目标视频的视频封面。

综上所述，本申请实施例提供的技术方案，按照质量筛选条件对视频中的视频帧进行滤除，可以得到视频中可用的视频帧，将质量明显低的视频帧及早滤除以完成初步筛选，缩减计算数据量；然后再对滤除后的视频帧进行聚类，得到视频中的各个镜头，并分别对每个镜头的视频帧进行二次聚类，进一步得到每个镜头各自对应的子镜头，最后从每个子镜头中选取图像内容稳定度高的视频帧作为候选封面，确定出的候选封面不仅优质，还涉及每个子镜头的画面内容，有效避免对视频信息的遗漏，极大程度的保留了视频的完整信息，最终可对筛选出的优质候选封面进行自选封面预测，自动确定符合发布者自主选择习惯且对用户具有较大的吸引力的视频封面，提升视频的点击率，减少数据资源的浪费，提升资源利用率。

基于与上述方法实施例相同地发明构思，本申请实施例还提供了一种视频封面的确定装置，该装置可以实现上述方法实施例所提供的功能。如图9所示，该装置900可以包括：视频获取模块910、视频聚类模块920、候选封面确定模块930、自选封面预测模块940以及视频封面确定模块950。

视频获取模块910，用于获取目标视频。

视频聚类模块920，用于对所述目标视频中的视频帧进行聚类，得到至少一个镜头。

候选封面确定模块930，用于在每个镜头中确定至少一个候选封面。

自选封面预测模块940，用于对所述候选封面进行自选封面预测处理，得到所述候选封面对应的自选封面预测概率，所述自选封面预测概率是指所述候选封面被自主选择为视频封面的概率，并且所述自选封面预测概率与吸引度呈正相关，所述吸引度用于表征所述候选封面的内容对用户的吸引程度。

视频封面确定模块950，用于根据所述自选封面预测概率，从所述候选封面中确定出所述目标视频的视频封面。

在示例性实施例中，所述自选封面预测模块940，用于：

将所述候选封面输入自选封面预测模型进行所述自选封面预测处理，得到所述候选封面对应的自选封面预测概率；

其中，所述自选封面预测模型是以样本视频的封面为正样本训练得到的机器学习模型，所述样本视频是指用户自选封面且操作数据指标符合预设条件的视频，所述操作数据指标用于表征用户对所述样本视频的操作行为的统计结果。

在示例性实施例中，所述自选封面预测模型的训练过程包括：

获取所述样本视频；

将所述样本视频的封面作为所述自选封面预测模型的正样本；

确定所述样本视频中的参考视频帧，所述参考视频帧是除所述封面之外的其他视频帧；

将所述参考视频帧作为所述自选封面预测模型的负样本；

基于所述正样本和所述负样本训练所述机器学习模型，得到所述自选封面预测模型。

在示例性实施例中，所述确定所述样本视频中的参考视频帧，包括：

确定所述样本视频中除所述封面之外的其他视频帧与所述封面之间的相似度；

根据所述相似度，在所述样本视频中除所述封面之外的其他视频帧中，确定所述参考视频帧。

在示例性实施例中，所述候选封面确定模块930，包括：子镜头聚类单元和候选封面确定单元。

子镜头聚类单元，用于将所述每个镜头下的视频帧进行聚类，得到所述每个镜头下的至少一个子镜头；

候选封面确定单元，用于对于每个所述子镜头，将所述子镜头中静止度高于静止度阈值的视频帧确定为所述候选封面。

在示例性实施例中，所述视频聚类模块920，包括：特征向量确定单元和镜头聚类单元。

特征向量确定单元，用于确定每一所述视频帧对应的特征向量，所述特征向量用于表征所述视频帧的色彩分布信息以及像素值梯度信息；

镜头聚类单元，用于基于所述特征向量，对所述目标视频中的视频帧进行聚类，得到所述至少一个镜头。

在示例性实施例中，所述特征向量确定单元用于：

确定每一所述视频帧的色彩直方图特征数据；

确定每一所述视频帧的梯度图特征数据，所述梯度图特征数据包括水平方向的梯度特征和竖直方向的梯度特征；

基于所述色彩直方图特征数据和所述梯度图特征数据，得到所述特征向量。

在示例性实施例中，所述装置900还包括视频帧滤除模块(图中未示出)。

视频帧滤除模块，用于滤除所述目标视频中不符合质量筛选条件的视频帧；

所述视频聚类模块920，还用于对所述目标视频中符合所述质量筛选条件的视频帧进行聚类，得到所述至少一个镜头。

在示例性实施例中，所述质量筛选条件包括亮度条件、模糊度条件、色彩单一度条件和场景切换帧筛选条件中的至少一种，所述视频帧滤除模块包括：低亮度帧滤除单元、模糊帧滤除单元、颜色单一帧滤除单元和场景切换帧滤除单元中至少一个单元。

低亮度帧滤除单元，用于在所述质量筛选条件包括所述亮度条件的情况下，滤除所述目标视频中亮度值不属于亮度阈值区间的视频帧；

模糊帧滤除单元，用于在所述质量筛选条件包括所述模糊度条件的情况下，滤除所述目标视频中锐化度小于锐化阈值的视频帧；

颜色单一帧滤除单元，用于在所述质量筛选条件包括所述色彩单一度条件的情况下，滤除所述目标视频中色彩单一度大于色彩单一度阈值的视频帧；

场景切换帧滤除单元，用于在所述质量筛选条件包括所述场景切换帧筛选条件的情况下，滤除所述目标视频中的场景切换帧。

在示例性实施例中，所述装置900还包括：帐号特征获取模块。

帐号特征获取模块，用于获取目标帐号对应的帐号特征数据，所述帐号特征数据用于表征所述目标帐号指向的目标用户对历史视频封面的偏好信息；

所述自选封面预测模块940，还用于：

基于所述帐号特征数据，对所述候选封面进行自选封面预测处理，得到所述候选封面针对所述目标帐号的自选封面预测概率，所述针对所述目标帐号的自选封面预测概率是指所述候选封面被自主选择为视频封面的概率，并且所述针对所述目标帐号的自选封面预测概率与所述候选封面对所述目标用户的吸引度呈正相关；

所述视频封面确定模块950，还用于：

根据所述针对所述目标帐号的自选封面预测概率，从所述候选封面中确定出所述目标视频针对所述目标帐号的视频封面。

综上所述，本申请实施例提供的技术方案，通过对视频中的视频帧进行聚类，可以得到视频中的各个镜头，再从每个镜头中选取图像内容稳定度高的视频帧作为候选封面，达到筛选优质候选封面的效果，并且能够保证筛选出的候选封面不会遗漏视频中的一些镜头，极大程度的保留了视频的完整信息，然后再对筛选出的优质候选封面进行自选封面预测预测，得到反映各个候选封面被用户自主选择为视频封面的概率，并且该概率与各个候选封面内容吸引度呈正相关，最终达到自动确定视频封面的目的，并且还能够保证自动选出的视频封面符合发布者自选封面习惯，并且对用户具有较大的吸引力，进而优化基于视频的互动情况，提升视频点击率，减少媒体资源浪费，提升资源利用率。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或至少一段程序由该处理器加载并执行上述方法实施例提供的视频封面的确定方法。

进一步地，图10示出了一种计算机设备的硬件结构示意图，该设备可以参与构成或包含本申请实施例所提供的装置或系统。如图10所示，设备10可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述视频封面的确定方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种视频封面的确定方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令或至少一段程序，该至少一条指令或至少一段程序由处理器加载并执行以实现上述方法实施例提供的视频封面的确定方法。

可选地，在本实施例中，上述计算机存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法实施例提供的视频封面的确定方法。

需要说明的是，上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述说明已经充分揭露了本申请的具体实施方式。需要指出的是，熟悉该领域的技术人员对本申请的具体实施方式所做的任何改动均不脱离本申请的权利要求书的范围。相应地，本申请的权利要求的范围也并不仅仅局限于前述具体实施方式。

Claims

1.一种视频封面的确定方法，其特征在于，所述方法包括：

获取目标视频；

对所述目标视频中的视频帧进行聚类，得到至少一个镜头；

在每个镜头中确定至少一个候选封面；

2.根据权利要求1所述的方法，其特征在于，所述对所述候选封面进行自选封面预测处理，得到所述候选封面对应的自选封面预测概率，包括：

3.根据权利要求2所述的方法，其特征在于，所述自选封面预测模型的训练过程包括：

获取所述样本视频；

将所述参考视频帧作为所述自选封面预测模型的负样本；

4.根据权利要求1所述的方法，其特征在于，所述在每个镜头中确定至少一个候选封面，包括：

将所述每个镜头下的视频帧进行聚类，得到所述每个镜头下的至少一个子镜头；

对于每个所述子镜头，将所述子镜头中静止度高于静止度阈值的视频帧确定为所述候选封面。

5.根据权利要求1或4所述的方法，其特征在于，所述对所述目标视频中的视频帧进行聚类，得到至少一个镜头，包括：

确定每一所述视频帧对应的特征向量，所述特征向量用于表征所述视频帧的色彩分布信息以及像素值梯度信息；

基于所述特征向量，对所述目标视频中的视频帧进行聚类，得到所述至少一个镜头。

6.根据权利要求5所述的方法，其特征在于，所述确定每一所述视频帧对应的特征向量，包括：

确定每一所述视频帧的色彩直方图特征数据；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取目标视频之后，所述方法还包括：滤除所述目标视频中不符合质量筛选条件的视频帧；

所述对所述目标视频中的视频帧进行聚类，得到至少一个镜头，包括：对所述目标视频中符合所述质量筛选条件的视频帧进行聚类，得到所述至少一个镜头。

8.根据权利要求7所述的方法，其特征在于，所述质量筛选条件包括亮度条件、模糊度条件、色彩单一度条件和场景切换帧筛选条件中的至少一种，所述滤除所述目标视频中不符合质量筛选条件的视频帧，包括：

在所述质量筛选条件包括所述亮度条件的情况下，滤除所述目标视频中亮度值不属于亮度阈值区间的视频帧；

在所述质量筛选条件包括所述模糊度条件的情况下，滤除所述目标视频中锐化度小于锐化阈值的视频帧；

在所述质量筛选条件包括所述色彩单一度条件的情况下，滤除所述目标视频中色彩单一度大于色彩单一度阈值的视频帧；

在所述质量筛选条件包括所述场景切换帧筛选条件的情况下，滤除所述目标视频中的场景切换帧。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

获取目标帐号对应的帐号特征数据，所述帐号特征数据用于表征所述目标帐号指向的目标用户对历史视频封面的偏好信息；

所述对所述候选封面进行自选封面预测处理，得到所述候选封面对应的自选封面预测概率，包括：

所述根据所述自选封面预测概率，从所述候选封面中确定出所述目标视频的视频封面，包括：

10.一种视频封面的确定装置，其特征在于，所述装置包括：

视频获取模块，用于获取目标视频；